CN112908293B - 一种基于语义注意力机制的多音字发音纠错方法及装置 - Google Patents
一种基于语义注意力机制的多音字发音纠错方法及装置 Download PDFInfo
- Publication number
- CN112908293B CN112908293B CN202110266709.6A CN202110266709A CN112908293B CN 112908293 B CN112908293 B CN 112908293B CN 202110266709 A CN202110266709 A CN 202110266709A CN 112908293 B CN112908293 B CN 112908293B
- Authority
- CN
- China
- Prior art keywords
- word
- text data
- mel
- synthesis model
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 86
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 86
- 238000001228 spectrum Methods 0.000 claims abstract description 34
- 239000011159 matrix material Substances 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 30
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 11
- 238000012937 correction Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 18
- 238000012549 training Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000001308 synthesis method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于语义注意力机制的多音字发音纠错方法及装置,包括:获取文本数据,并对文本数据进行编码得到字嵌入向量矩阵;构建包含编码器、语义注意力机制单元和解码器的语音合成模型并进行参数优化,其中,编码器用于将输入的字嵌入向量矩阵编码成字嵌入特征矩阵,语义注意力机制单元用于将每个字嵌入向量按照各自权重拆分成疑问部分、关键部分以及价值部分这三部分后,依据相邻字组的三部分计算相邻字组的相关性,以组成关联矩阵;解码器对输入的字嵌入向量矩阵和关联矩阵进行解码处理,输出梅尔线性谱;利用参数优化后的语义合成模型对文本数据进行语音合成,输出梅尔线性谱,依据梅尔线性谱计算得到多音字发音纠错的语音合成结果。
Description
技术领域
本发明属于深度学习算法及信息安全研究领域,具体涉及一种基于语义注意力机制的多音字发音纠错方法及装置。
背景技术
语音识别技术和语音合成技术是建立一个有听和讲能力的设备所必需的两项关键技术,这两项技术可以使电脑或者移动设备具有类似于人一样的说话和听懂人说话的能力,是90年代以来信息产业的重要竞争市场。
早期的语音合成技术采用拼接合成的方法进行语音合成,该方法根据输入文本分析后的信息,从指定的语音库中挑选预先录制好的语音单元,进行必要的调整之后,拼接在一起实现语音合成。然而这种方法合成的语音存在连续语音单元之间发声不连续的问题。统计参数语音合成是另一种早期的语音合成方法,统计参数模型从语音中提取与发声关系密切的特征,如基频,频谱特征等,对提取到的语音特征进行声学建模,并以训练得到的模型为基础构建语音合成系统。但是由于统计参数模型在对语音特征进行提取时,需要对原始语音进行变换,该过程容易造成信息的丢失,并且由于统计参数模型难以重现声音的细节,导致合成的语音通常听起来沉闷且不自然。
由于深度神经网络的优异性能,语音合成技术已从早期的语音合成方法转变为利用深度神经网络进行语音合成。并且深度神经网络使得语音生成技术已经在手机移动端,语音导航,智能家居等领域中有了各种应用。如在移动端,语音生成技术已经可以根据文本生成相应的语音,实现与机主的人机交互,再比如一些诸如故事自动化阅读,喜马拉雅FM等手机应用已经得到了广泛的应用,移动阅读因其便捷性逐渐成为主流阅读方式。在语音导航应用中,语音生成技术可以根据文本生成相应的导航语音,为司机提供路线导航服务。在智能家居设备中,语音生成技术与语音识别技术相结合,从而实现了与主人的语音交互,并且可以识别主人的语音,从而控制一些智能家居设备。因此语音合成技术已经有了广泛的应用场景。
虽然语音合成技术已经在手机移动端,语音导航等领域有了各种应用,生成语音的质量已经非常高,但是在中文的语音合成中,由于中文中存在多音字,语音合成技术在处理中文的多音字发音时,仍然会发生错误,不能正确处理一些多音字的发音,如高德地图导航在导航阶段提醒司机系好安全带时,生成的语音会将“系安全带”中的“系”字错误的发音为“xì”安全带。在故事自动化阅读的场景中,语音合成技术只能根据文本合成相应的语音,但是没有考虑中文发音中的多音字发音的问题,如将“一撮毛”中的“撮”字发音为“cuō”,而实际发音为“zuǒ”。这给用户带来了不好的体验,特别是儿童在学习字词发音的时候,这些错误的发音可能导致儿童错误的学习字词的发音,给今后的更正工作带来困难。也就是说,现在的语音合成技术在合成语音时没有关注多音字的前后字,如系安全带在生成语音时关注到了“安全带”三个字则可以将“系”正确发音为“xì”。
基于以上语音合成技术在一些场景下不能正确处理多音字发音的问题,迫切地需要研究一种基于语义注意力机制的多音字发音纠错方法,来解决语音合成模型在语音合成过程中,无法正确合成多音字的问题。
发明内容
鉴于语音合成技术中,语音合成模型在一些场景下无法正确处理多音字的发音,错误的合成一些多音字音频的问题,本发明的目的是提供一种基于语义注意力机制的多音字发音纠错方法及装置,通过使语音合成模型在合成语音时,与前后的字词关联起来,避免语音合成模型错误的合成多音字。
为实现上述发明目的,本发明提供以下技术方案:
第一方面,一种基于语义注意力机制的多音字发音纠错方法,包括以下步骤:
获取文本数据,并对文本数据进行编码得到字嵌入向量矩阵;
构建包含编码器、语义注意力机制单元和解码器的语音合成模型并进行参数优化,其中,编码器用于将输入的字嵌入向量矩阵编码成字嵌入特征矩阵,语义注意力机制单元用于将每个字嵌入向量按照各自权重拆分成疑问部分、关键部分以及价值部分这三部分后,依据相邻字组的三部分计算相邻字组的相关性,以组成关联矩阵;解码器对输入的字嵌入向量矩阵和关联矩阵进行解码处理,输出梅尔线性谱;
利用参数优化后的语义合成模型对文本数据进行语音合成,输出梅尔线性谱,依据梅尔线性谱计算得到多音字发音纠错的语音合成结果。
优选地,所述编码器包括至少1个卷积层和双向长短时期记忆网络,通过卷积层对输入字嵌入向量的特征提取和双向长短时期记忆网络的特征关联提取,输出字嵌入特征。
优选地,所述依据相邻字的三部分计算相邻字的相关性包括:
针对由前后字组成的相邻字组,以前字的疑问部分与后字的关键部分的乘积作为相邻字组的得分后,将该得分与后字的价值部分的乘积作为相邻字组的相关性。
优选地,所述解码器包含至少1个卷积层、双向长短时期记忆网络以及线性预测层,其中,双向长短时期记忆网络对当前时刻输入的字嵌入特征和相关性与前一时刻的线性预测结果经过至少1个卷积层的卷积结果进行融合特征提取,得到的融合特征经过线性预测层得到线性预测结果,该线性预测结果经过卷积层操作后的结果与原线性预测结果融合后输出梅尔线性谱。
优选地,在对语音合成模型进行参数优化时,以语音合成模型输出的预测梅尔线性谱与真实梅尔线性普之间的均方误差作为损失函数,来优化语音合成模型的所有权重参数和偏置参数。
优选地,在对语音合成模型行参数优化前,需要构建包含多音字的文本数据集,通过手动录制音频的方式为文本数据集添加多音字音频,以构建文本的真实梅尔线性谱。
优选地,采用one-hot编码或bert-serving-server包将本数据进行编码得到字嵌入向量矩阵。
第二方面,一种基于语义注意力机制的多音字发音纠错装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中还存储有参数优化后的语音合成模型,所述语音合成模型通过上述基于语义注意力机制的多音字发音纠错方法构建,所述计算机处理器执行计算机程序时实现以下步骤:
获取文本数据,并对文本数据进行编码得到字嵌入向量矩阵;
利用语音合成模型对输入的字嵌入向量矩阵进行处理,获得梅尔线性谱;
依据梅尔线性谱计算得到多音字发音纠错的语音合成结果。
与现有技术相比,本发明具有的有益效果至少包括:
本发明提供的基于语义注意力机制的多音字发音纠错方法及装置,通过在语音合成模型中增加语义注意力机制,使语音合成模型在合成阶段,可以将输入的文本前后字词的语义关联起来,根据关联语义确定多音字的读音,避免语音合成模型在合成阶段无法正确处理多音字的问题,从而达到多音字发音纠错的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例提供的基于RNN结构的语音合成模型的结构示意图;
图2是本发明实施例提供的基于语义注意力机制的语音合成模型的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
针对现在常用的语音合成模型存在的无法正确处理多音字发音的问题。实施例提供了一种基于语义注意力机制的多音字发音纠错方法,包括以下步骤:
步骤1,构建包含多音字的文本数据集。
实施例中,准备用于语音合成模型训练的数据集,如AISHELL-1,AISHELL-2数据集等,但是需要注意的是训练语音合成模型的数据集中应包含有多种多音字的音频,若所得的数据集未包含各种多音字发音的音频,则可以通过录制包含多音字的音频,并将其与对应文本加入到训练语音合成模型的数据集中,组成新训练集训练语音合成模型。具体过程如下:
Step1:若获得数据集中已经包含了中文中常用的多音字音频,则可以忽略Step2,将该数据集分为训练集和测试集后,使用训练集直接训练下述语音合成模型。
Step2:若获得数据集中未包含足够的多音字发音音频,则需要通过手动录制音频的方式为所获得的数据集添加多音字音频,需要注意的是所录制的音频的采样率以及通道数应与所获得的数据集相同,并且应该在相对安静的环境中录制,避免其他噪声干扰音频的质量,录制好后给音频打上相应的文本,并将这部分音频与所获得的数据集组合在一起,并将其分为训练集和测试集,其中的训练集作为下述语音合成模型的训练数据集。
步骤2,搭建目前常用的基于RNN结构的语音合成模型,该语音合成模型主要由编码器和解码器构成。其具体步骤如下:
Step1:首先输入文本会转为字嵌入向量,根据不同的应用场景,可以生成不同的嵌入向量,如使用one-hot编码作为嵌入向量,或使用bert-serving-server包也可以将字转为嵌入向量。
Step2:构建编码器,提取字嵌入特征。编码器的结构如图1所示,该编码器由三个卷积层和一个双向长短期记忆网络构成,卷积网络和双向长短期记忆网络可以对不同长度的输入提取特征,从而可以是语音合成模型合成不同长度的语音。该编码器的输入为Step1中的字嵌入向量,输出为经过卷积层卷积以及双向长短期记忆网络处理后的字嵌入特征。
Step3:构建解码器。如图1所示,该解码器由双向长短期记忆网络,卷积层和线性预测层构成,输入为Step2中的字嵌入特征,输出为梅尔线性谱。具体地,双向长短时期记忆网络对当前时刻输入的字嵌入特征和相关性与前一时刻的线性预测结果经过至少2个卷积层的卷积结果进行融合特征提取,得到的融合特征经过线性预测层得到线性预测结果,该线性预测结果经过卷积层操作后的结果与原线性预测结果融合后输出梅尔线性谱。得到的梅尔线性谱后可以通过Griffin-Lim算法获得对应与文本的语音。
步骤3,将语义注意力机制加入到所搭建的语音合成模型中,语义注意力机制是基于多头注意力机制构建的,其具体步骤如下:
Step1:将语义注意力机制加入到所搭建的编码器和解码器结构中构成基于语义注意力机制的语音合成模型,其结构如图2基于语义注意力机制的语音合成模型所示。
Step2:所构建的语义注意力机制是基于多头注意力机制的,所谓的注意力机制实际上是使提取到的字嵌入特征相互关联起来。具体流程如下:首先输入的语义注意力机制的每个字所对应的字嵌入特征会形成相应的三个矩阵,分别为疑问部分Queries,关键部分Keys和价值部分Values。然后依据邻字组的三部分计算相邻字组的相关性,以组成关联矩阵,具过程为:针对由前后字组成的相邻字组,以前字的疑问部分与后字的关键部分的乘积作为相邻字组的得分后,将该得分与后字的价值部分的乘积作为相邻字组的相关性。
以“系安全带”这一组词为例,假设经过语义注意力机制后的“系”字的Queries,Keys和Values分别为Queries_A,Keys_A和Values_A,如下式所示:
Queries_A=Wq·X系
Keys_A=WKX系
Values_A=WV·X系
其中,Wq,WK,WV是待训练的参数,X系表示“系”字的嵌入特征。“安全带”的为Queries_B,Keys_B和Values_B,通过下式获得:
Queries_B=Wq·X安全带
Keys_B=WKX安全带
Values_B=WV·X安全带
其中,X安全带表示“安全带”的嵌入特征。则语义注意力机制首先会计算“系”与“安全带”之间的得分,其公式如下所示:
score=Queries_A*Keys_B
该得分会与Values相乘,获得“系”与“安全带”之间的相关性,其公式如下所示:
relevance=scores*values_B
因此,可以获得“系”与“安全带”之间的相关性,而多头语义注意力机制实际上也就是有多组的Queries,Keys和Values,也就是每个字嵌入特征之间都可以建立关联,从而获得关联矩阵。解码器在解码时,可以根据关联矩阵和字嵌入特征矩阵进行解码,因此可以避免解码时出现的多音字发音错误的问题。
步骤4,构建基于语音注意力机制的语音合成模型的损失函数,由于解码器的输出为梅尔线性谱,因此采用均方误差作为损失函数,来衡量预测的梅尔线性普与真实梅尔线性普之间的差距,其公式如下所示:
步骤5,利用步骤1中的训练数据集对基于注意力机制的语音合成模型进行训练,使得该语音合成模型可以对输入的文本进行分析,关联字与词,使之在合成阶段可以正确合成多音字的发音。
步骤6,在训练完成后,用测试集中的包含多音字的文本对训练好的基于语义注意力机制的语音成模型进行测试,若生成的语音的对多音字的发音仍达不到良好的效果,则可以通过修改模型的结构或者增加训练集中多音字音频数据的数量,重新训练模型,直到训练好的模型对测试集中的多音字有良好的效果为止。
步骤7,应用时,获取文本数据,并对文本数据进行编码得到字嵌入向量矩阵,利用参数优化后的语义合成模型对文本数据进行语音合成,输出梅尔线性谱,依据梅尔线性谱计算得到多音字发音纠错的语音合成结果。
针对现在常用的语音合成模型存在的无法正确处理多音字发音的问题。实施例提供了一种基于语义注意力机制的多音字发音纠错装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,计算机存储器中还存储有参数优化后的语音合成模型,语音合成模型通过上述基于语义注意力机制的多音字发音纠错方法构建,计算机处理器执行计算机程序时实现以下步骤:
获取文本数据,并对文本数据进行编码得到字嵌入向量矩阵;
利用语音合成模型对输入的字嵌入向量矩阵进行处理,获得梅尔线性谱;
依据梅尔线性谱计算得到多音字发音纠错的语音合成结果。
实际应用中,计算机存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现获取文本数据,并对文本数据进行编码得到字嵌入向量矩阵;利用语音合成模型对输入的字嵌入向量矩阵进行处理,获得梅尔线性谱;依据梅尔线性谱计算得到多音字发音纠错的语音合成结果。
实施例提供的基于语义注意力机制的多音字发音纠错方法及装置,在现有常用的语音合成模型中加入语义注意力机制,通过构建的包含多音字的音频数据集训练基于语义注意力机制的语音合成模型,使该模型在合成阶段,可以将输入的文本前后字词关联起来,避免语音合成模型在合成阶段无法正确处理多音字的问题,从而达到多音字发音纠错的目的。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于语义注意力机制的多音字发音纠错方法,其特征在于,包括以下步骤:
获取文本数据,并对文本数据进行编码得到字嵌入向量矩阵;
构建包含编码器、语义注意力机制单元和解码器的语音合成模型并进行参数优化,其中,编码器用于将输入的字嵌入向量矩阵编码成字嵌入特征矩阵,语义注意力机制单元用于将每个字嵌入向量按照各自权重拆分成疑问部分、关键部分以及价值部分这三部分后,针对由前后字组成的相邻字组,以前字的疑问部分与后字的关键部分的乘积作为相邻字组的得分后,将该得分与后字的价值部分的乘积作为相邻字组的相关性,以组成关联矩阵;解码器对输入的字嵌入向量矩阵和关联矩阵进行解码处理,输出梅尔线性谱;
利用参数优化后的语义合成模型对文本数据进行语音合成,输出梅尔线性谱,依据梅尔线性谱计算得到多音字发音纠错的语音合成结果。
2.如权利要求1所述的基于语义注意力机制的多音字发音纠错方法,其特征在于,所述编码器包括至少1个卷积层和双向长短时期记忆网络,通过卷积层对输入字嵌入向量的特征提取和双向长短时期记忆网络的特征关联提取,输出字嵌入特征。
3.如权利要求1所述的基于语义注意力机制的多音字发音纠错方法,其特征在于,所述解码器包含至少1个卷积层、双向长短时期记忆网络以及线性预测层,其中,双向长短时期记忆网络对当前时刻输入的字嵌入特征和相关性与前一时刻的线性预测结果经过至少1个卷积层的卷积结果进行融合特征提取,得到的融合特征经过线性预测层得到线性预测结果,该线性预测结果经过卷积层操作后的结果与原线性预测结果融合后输出梅尔线性谱。
4.如权利要求1所述的基于语义注意力机制的多音字发音纠错方法,其特征在于,在对语音合成模型进行参数优化时,以语音合成模型输出的预测梅尔线性谱与真实梅尔线性普之间的均方误差作为损失函数,来优化语音合成模型的所有权重参数和偏置参数。
5.如权利要求1所述的基于语义注意力机制的多音字发音纠错方法,其特征在于,在对语音合成模型行参数优化前,需要构建包含多音字的文本数据集,通过手动录制音频的方式为文本数据集添加多音字音频,以构建文本的真实梅尔线性谱。
6.如权利要求1所述的基于语义注意力机制的多音字发音纠错方法,其特征在于,采用one-hot编码或bert-serving-server包将文本数据进行编码得到字嵌入向量矩阵。
7.一种基于语义注意力机制的多音字发音纠错装置,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,其特征在于,所述计算机存储器中还存储有参数优化后的语音合成模型,所述语音合成模型通过权利要求1~6任一项所述的基于语义注意力机制的多音字发音纠错方法构建,所述计算机处理器执行计算机程序时实现以下步骤:
获取文本数据,并对文本数据进行编码得到字嵌入向量矩阵;
利用语音合成模型对输入的字嵌入向量矩阵进行处理,获得梅尔线性谱;
依据梅尔线性谱计算得到多音字发音纠错的语音合成结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110266709.6A CN112908293B (zh) | 2021-03-11 | 2021-03-11 | 一种基于语义注意力机制的多音字发音纠错方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110266709.6A CN112908293B (zh) | 2021-03-11 | 2021-03-11 | 一种基于语义注意力机制的多音字发音纠错方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112908293A CN112908293A (zh) | 2021-06-04 |
CN112908293B true CN112908293B (zh) | 2022-08-02 |
Family
ID=76104993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110266709.6A Active CN112908293B (zh) | 2021-03-11 | 2021-03-11 | 一种基于语义注意力机制的多音字发音纠错方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908293B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023089634A1 (en) * | 2021-11-16 | 2023-05-25 | Gan Studio Inc | Seamless multimedia integration |
CN115587570A (zh) * | 2022-12-05 | 2023-01-10 | 零犀(北京)科技有限公司 | 韵律边界与多音字的标注方法、装置、模型、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109979429A (zh) * | 2019-05-29 | 2019-07-05 | 南京硅基智能科技有限公司 | 一种tts的方法及系统 |
WO2019222591A1 (en) * | 2018-05-17 | 2019-11-21 | Google Llc | Synthesis of speech from text in a voice of a target speaker using neural networks |
CN110600002A (zh) * | 2019-09-18 | 2019-12-20 | 北京声智科技有限公司 | 语音合成方法、装置及电子设备 |
CN111312209A (zh) * | 2020-02-21 | 2020-06-19 | 北京声智科技有限公司 | 文本到语音的转换处理方法、装置及电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107402933A (zh) * | 2016-05-20 | 2017-11-28 | 富士通株式会社 | 实体多音字消歧方法和实体多音字消歧设备 |
CN111370001B (zh) * | 2018-12-26 | 2023-10-10 | Tcl科技集团股份有限公司 | 一种发音的纠正方法、智能终端及存储介质 |
CN109754778B (zh) * | 2019-01-17 | 2023-05-30 | 平安科技(深圳)有限公司 | 文本的语音合成方法、装置和计算机设备 |
-
2021
- 2021-03-11 CN CN202110266709.6A patent/CN112908293B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019222591A1 (en) * | 2018-05-17 | 2019-11-21 | Google Llc | Synthesis of speech from text in a voice of a target speaker using neural networks |
CN109979429A (zh) * | 2019-05-29 | 2019-07-05 | 南京硅基智能科技有限公司 | 一种tts的方法及系统 |
CN110600002A (zh) * | 2019-09-18 | 2019-12-20 | 北京声智科技有限公司 | 语音合成方法、装置及电子设备 |
CN111312209A (zh) * | 2020-02-21 | 2020-06-19 | 北京声智科技有限公司 | 文本到语音的转换处理方法、装置及电子设备 |
Non-Patent Citations (3)
Title |
---|
Attention Is All You Need;Ashish Vaswani 等;《31st Conference on Neural Information Processing Systems》;20171231;1-11页 * |
NATURAL TTS SYNTHESIS BY CONDITIONINGWAVENET ON MEL SPECTROGRAM PREDICTIONS;Jonathan Shen 等;《arXiv》;20180216;1-5页 * |
一种基于Tacotron 2的端到端中文语音合成方案;王国梁 等;《华东师范大学学报》;20190731;第4卷(第4期);111-119页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112908293A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112735373B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN111754976B (zh) | 一种韵律控制语音合成方法、系统及电子装置 | |
CN112687259B (zh) | 一种语音合成方法、装置以及可读存储介质 | |
CN108520741A (zh) | 一种耳语音恢复方法、装置、设备及可读存储介质 | |
US20240144945A1 (en) | Signal processing apparatus and method, training apparatus and method, and program | |
CN112489629B (zh) | 语音转写模型、方法、介质及电子设备 | |
WO2021051765A1 (zh) | 一种语音合成方法及装置、存储介质 | |
CN111508470A (zh) | 一种语音合成模型的训练方法及装置 | |
US11763801B2 (en) | Method and system for outputting target audio, readable storage medium, and electronic device | |
CN112908293B (zh) | 一种基于语义注意力机制的多音字发音纠错方法及装置 | |
CN113470622B (zh) | 一种可将任意语音转换成多个语音的转换方法及装置 | |
CN112786004A (zh) | 语音合成方法以及电子设备、存储装置 | |
CN112185363B (zh) | 音频处理方法及装置 | |
CN115428066A (zh) | 合成语音处理 | |
WO2021169825A1 (zh) | 语音合成方法、装置、设备和存储介质 | |
CN113053357A (zh) | 语音合成方法、装置、设备和计算机可读存储介质 | |
CN116994553A (zh) | 语音合成模型的训练方法、语音合成方法、装置及设备 | |
CN113539232A (zh) | 一种基于慕课语音数据集的语音合成方法 | |
CN116092469A (zh) | 基于半监督知识蒸馏的模型训练方法及语音合成方法 | |
CN113450760A (zh) | 一种文本转语音的方法、装置及电子设备 | |
Zhao et al. | Research on voice cloning with a few samples | |
CN114783410B (zh) | 语音合成方法、系统、电子设备和存储介质 | |
CN111696519A (zh) | 藏语声学特征模型的构建方法及系统 | |
CN113505612B (zh) | 多人对话语音实时翻译方法、装置、设备及存储介质 | |
CN117636842B (zh) | 基于韵律情感迁移的语音合成系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |