CN109346056B - 基于深度度量网络的语音合成方法及装置 - Google Patents
基于深度度量网络的语音合成方法及装置 Download PDFInfo
- Publication number
- CN109346056B CN109346056B CN201811102108.6A CN201811102108A CN109346056B CN 109346056 B CN109346056 B CN 109346056B CN 201811102108 A CN201811102108 A CN 201811102108A CN 109346056 B CN109346056 B CN 109346056B
- Authority
- CN
- China
- Prior art keywords
- text
- primitive
- candidate
- primitives
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005259 measurement Methods 0.000 title claims abstract description 42
- 238000001308 synthesis method Methods 0.000 title claims abstract description 20
- 239000013598 vector Substances 0.000 claims abstract description 44
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 40
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims description 63
- 238000000605 extraction Methods 0.000 claims description 29
- 238000010801 machine learning Methods 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语音合成技术领域,具体涉及一种基于深度度量网络的语音合成方法及装置,旨在解决如何得到更为精确的目标代价以及品质更高的合成语音的技术问题。该方法包括将待测文本信息拆分为多个文本基元,提取文本基元的文本特征;从语料库中获取对应的多个候选基元,并提取每个候选基元对应的文本特征和声学特征;对文本基元的文本特征进行编码得到第一特征向量,对候选基元的文本特征和声学特征进行编码得到第二特征向量;计算文本基元对应的第一特征向量与其对应候选基元的第二特征向量之间的余弦距离,获取目标代价;利用语音合成系统根据目标代价对候选基元进行拼接合成语音。上述方法可以提升合成语音的品质。
Description
技术领域
本发明涉及语音合成技术领域,具体涉及一种基于深度度量网络的语音合成方法及装置。
背景技术
语音合成技术,又称文语转换(Text to Speech)技术,用于将文字信息转化为语音信息。语音合成的方法主要有两种,一种是采用参数语音合成方法,该方法作为一种基于统计声学建模方法的具体实现,对语音的声学参数进行建模,并通过参数生成算法来重构声学参数轨迹,最后调用语音合成器来产生语音波形。这种方法的不足之处在于合成语音的音质、自然度和清晰度都不够理想,与实际语音具有较大的差距。另一种方法是基于语料库的语音拼接合成方法,该方法是直接从原始录制的语料库中挑选合适的基元来进行拼接合成语音。该方法虽然能够合成较为接近原始语音的波形,但是波形拼接合成的语音在基元拼接点存在不连续的问题。目标代价用于表征的文本基元对应的预测的声学特征与候选基元之间的相似相似性,所以,如何更好的利用候选基元的文本特征和声学特征以及目标基元的文本特征生成更为准确的目标代价成为研究重点。
发明内容
为了解决现有技术中的上述问题,即为了解决在语音合成过程中,如何得到更为精确的目标代价以及品质更高的合成语音的技术问题,本发明的第一方面,提供了一种基于深度度量网络的语音合成方法,所述深度度量网络包括特征提取层、特征编码层和余弦距离计算层;
所述语音合成方法包括:
将待测文本信息拆分为多个文本基元,并利用所述特征提取层提取每个文本基元对应的文本特征;
基于每个所述文本基元从预设语料库中获取所述文本基元对应的多个候选基元,并利用所述特征提取层提取每个所述候选基元对应的文本特征和声学特征;
利用所述特征编码层对所述文本基元对应的文本特征进行编码得到第一特征向量,对所述候选基元的文本特征和声学特征进行编码得到第二特征向量;
利用所述余弦距离计算层计算每个所述文本基元对应的第一特征向量与其对应候选基元的第二特征向量之间的余弦距离,根据所述余弦距离获取所述每个文本基元与其对应的候选基元之间的目标代价;
利用语音合成系统并根据所述目标代价对所述候选基元进行拼接合成语音;
其中,所述深度度量网络是基于预设的语料库并且利用机器学习算法所构建的神经网络。
进一步地,本发明提供了一个优选技术方案为:
在“将待测文本信息拆分为多个文本基元,并利用所述特征提取层提取每个文本基元对应的文本特征”的步骤之前,所述方法还包括:
从所述语料库选取目标基元,并且选取与所述目标基元相似的候选基元构成正样本对,选取与所述目标基元发音不同的候选基元构成负样本对;
计算所述正样本对之间的欧氏距离得到所述正样本对内目标基元与候选基元之间的第一初始目标代价,以及设定所述负样本对内目标基元与候选基元之间的第二初始目标代价;
根据所述第一初始目标代价、第二初始目标代价、正样本对和负样本对并且利用机器学习算法对所述深度度量网络进行网络训练。
进一步地,本发明提供了一个优选技术方案为:
“计算所述正样本对之间的欧氏距离得到所述正样本对内目标基元与候选基元之间的第一初始目标代价”的步骤包括:
提取所述正样本对中目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征;
基于所述目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征,利用欧式距离算法计算所述正样本对之间的第一初始目标代价。
进一步地,本发明提供了一个优选技术方案为:
“根据所述第一初始目标代价、第二初始目标代价、正样本对和负样本对并且利用机器学习算法对所述深度度量网络进行网络训练”的步骤包括:
根据所述第一初始目标代价、所述第二初始目标代价、所述正样本对的文本特征和声学特征以及所述负样本对的文本特征和声学特征,并且利用机器学习算法对所述深度度量网络进行初次网络训练;
利用所述初次网络训练后的深度度量网络预测所述正样本对内目标基元与候选基元之间的第一目标代价以及所述负样本对内目标基元与候选基元之间的第二目标代价;
根据所述第一目标代价、第二目标代价、所述正样本对内目标基元的文本特征、所述正样本对内候选基元的文本特征和声学特征以及所述负样本对内目标基元的文本特征、所述负样本对内候选基元的文本特征和声学特征,并且利用机器学习算法对所述初次网络训练后的深度度量网络再次进行网络训练。
本发明的第二方面,还提供了一种基于深度度量网络的语音合成装置,所述深度度量网络包括特征提取层、特征编码层和余弦距离计算层;
所述语音合成装置包括:
文本分析模块,配置为将待测文本信息拆分为多个文本基元,并利用所述特征提取层提取每个文本基元对应的文本特征;
特征提取模块,配置为基于每个所述文本基元从预设语料库中获取所述文本基元对应的多个候选基元,并利用所述特征提取层提取每个所述候选基元对应的文本特征和声学特征;
特征编码模块,配置为利用所述特征编码层对所述文本基元对应的文本特征进行编码得到第一特征向量,对所述候选基元的文本特征和声学特征进行编码得到第二特征向量;
目标代价计算模块,配置为利用所述余弦距离计算层计算每个所述文本基元对应的第一特征向量与其对应候选基元的第二特征向量之间的余弦距离,根据所述余弦距离获取所述每个文本基元与其对应的候选基元之间的目标代价;
语音合成模块,配置为利用语音合成系统并根据所述目标代价对所述候选基元进行拼接合成语音;
其中,所述深度度量网络是基于预设的语料库并且利用机器学习算法所构建的神经网络。
进一步地,本发明提供了一个优选技术方案为:
所述语音合成装置还包括模型训练模块,所述模型训练模块包括:
正负样本对单元,配置为从所述语料库选取目标基元,并且选取与所述目标基元相似的候选基元构成正样本对,选取与所述目标基元发音不同的候选基元构成负样本对;
初始目标代价单元,配置为计算所述正样本对之间的欧氏距离得到所述正样本对内目标基元与候选基元之间的第一初始目标代价,以及设定所述负样本对内目标基元与候选基元之间的第二初始目标代价;
网络训练单元,配置为根据所述第一初始目标代价、第二初始目标代价、正样本对和负样本对并且利用机器学习算法对所述深度度量网络进行网络训练。
进一步地,本发明提供了一个优选技术方案为:
所述初始目标代价单元进一步配置为执行如下操作:
提取所述正样本对中目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征;
基于所述目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征,利用欧式距离算法计算所述正样本对之间的第一初始目标代价。
进一步地,本发明提供了一个优选技术方案为:
所述网络训练单元进一步配置为执行如下操作:
根据所述第一初始目标代价、所述第二初始目标代价、所述正样本对的文本特征和声学特征以及所述负样本对的文本特征和声学特征,并且利用机器学习算法对所述深度度量网络进行初次网络训练;
利用所述初次网络训练后的深度度量网络预测所述正样本对内目标基元与候选基元之间的第一目标代价以及所述负样本对内目标基元与候选基元之间的第二目标代价;
根据所述第一目标代价、第二目标代价、所述正样本对内目标基元的文本特征、所述正样本对内候选基元的文本特征和声学特征以及所述负样本对内目标基元的文本特征、所述负样本对内候选基元的文本特征和声学特征,并且利用机器学习算法对所述初次网络训练后的深度度量网络再次进行网络训练。
本发明的第三方面,还提供了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的一种基于深度度量网络的语音合成方法。
本发明的第四方面,还提供了一种控制装置,包括:处理器,适于执行各条程序;存储设备,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的一种基于深度度量网络的语音合成方法。
与最接近的现有技术相比,上述技术方案至少具有如下有益效果:
本发明的基于深度度量网络的语音合成方法,利用文本基元的文本特征和候选基元的文本特征和声学特征,计算文本基元与候选基元之间的目标代价,与传统方法相比避免误差的积累,提高了目标代价预测精度,最终合成较高音质的语音。
进一步地,利用语料库中的基元构建正样本对和负样本对,用以训练深度度量网络,可以更好地发掘基元之间发音信息的差异,提高语音合成的自然度和精度。
进一步地,根据第一初始目标代价、第二初始目标代价、正样本对的文本特征和声学特征以及负样本对的文本特征和声学特征,并且利用机器学习算法对深度度量网络进行初次网络训练;利用初次网络训练后的深度度量网络预测正样本对内目标基元与候选基元之间的第一目标代价以及负样本对内目标基元与候选基元之间的第二目标代价,经过上述两次的网络训练后的深度度量网络计算得到目标代价更为精确,最终合成高自然度和高韵律的语音。
附图说明
图1为本发明实施例中一种基于深度度量网络的语音合成方法的主要步骤示意图;
图2为本发明实施例中一种利用语音合成系统进行语音合成的主要流程示意图;
图3为本发明实施例中一种构建正样本对和负样本的主要流程示意图;
图4为本发明实施例中一种对深度度量网络进行初次网络训练的主要流程示意图;
图5为本发明实施例中一种对深度度量网络进行再次网络训练的主要流程示意图;
图6为本发明实施例中一种基于深度度量网络的语音合成装置的主要结构示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
参阅附图1,图1示例性示出了一种基于深度度量网络的语音合成方法的主要步骤,如图1所示基于深度度量网络的语音合成方法可以包括:
步骤S1:将待测文本信息拆分为多个文本基元,并利用特征提取层提取每个文本基元对应的文本特征。
具体地,深度度量网络是基于预设的语料库并且利用机器学习算法所构建的神经网络,深度度量网络包括特征提取层、特征编码层和余弦距离计算层。特征提取层是一维的卷积层,用于提取文本基元的文本特征,或者提取候选基元的文本特征和声学特征。特征编码层用于对输入特征编码层的文本特征和声学特征进行编码,或者用于对输入特征编码层的文本特征进行编码。余弦距离计算层,用于计算文本基元与其对应的候选基元之间的目标代价。将待测文本信息拆分为语音合成系统所能识别的最小的多个文本基元,例如将待测文本信息“晚餐很丰盛”拆分为“晚”、“餐”、“很”、“丰”、“盛”五个文本基元,利用的深度度量网络的特征提取层提取每个文本基元对应的文本特征。
步骤S2:基于每个文本基元从预设语料库中获取文本基元对应的多个候选基元,并利用特征提取层提取每个所述候选基元对应的文本特征和声学特征。
具体地,根据文本基元的文本特征相似性从语料库中选对应的多个候选基元,利用深度度量网络的特征提取层提取每个候选基元对应的文本特征和声学特征。语料库中的语料为基元,基元是将完整的语句进行音段切分得到的语音合成系统所能识别的最小单元,其为一个语音片段。
步骤S3:利用特征编码层对文本基元对应的文本特征进行编码得到第一特征向量,对候选基元的文本特征和声学特征进行编码得到第二特征向量。
具体地,当特征编码层的输入是文本基元的文本特征时,特征编码层的声学特征输入全部设置为0,输出为固定维度的能够反映文本基元文本信息的第一特征向量;当特征编码层的输入为候选基元的文本特征和声学特征时,其输出为固定维度的能够同时反映候选基元文本信息和声学信息的第二特征向量。
步骤S4:利用余弦距离计算层计算文本基元对应的第一特征向量与其对应候选基元的第二特征向量之间的余弦距离,根据余弦距离获取每个文本基元与其对应的候选基元之间的目标代价。
具体地,计算第一特征向量和第二特征向量之间的余弦距离,得到文本基元与对应候选基元的目标代价,例如,文本基元A对应的候选基元分别为候选基元B1、候选基元B2、候选基元B3,将文本基元A对应的第一特征向量为H1,候选基元B1对应的第二特征向量为F1、候选基元B2对应的第二特征向量为F2、候选基元B3对应的第二特征向量为F3。计算H1与F1之间的余弦距离得到文本基元A与候选基元B1之间的目标代价,计算H1与F2之间的余弦距离得到文本基元A与候选基元B2之间的目标代价,计算H1与F3之间的余弦距离得到文本基元A与候选基元B3之间的目标代价。
步骤S5:利用语音合成系统并根据目标代价对候选基元进行拼接合成语音。
具体地,语音合成系统是波形拼接语音合成系统,基于待测文本信息从语料库中挑选合适的基元来进行波形拼接合成语音。目标代价用于表征文本基元与对应候选基元的相似性,而拼接代价用于表征相邻候选基元之间的连续性,若相邻两个候选基元是来自同一语句的基元,则该相邻候选基元之间的拼接代价为0,若相邻候选基元的差异很大则拼接代价就很大。
参阅附图2,图2示例性示出了利用语音合成系统进行语音合成的主要流程,如图2所示语音合成系统进行语音合成的步骤可以包括:将待测文本信息拆分为多个文本基元,提取每个文本基元的文本特征,基于文本特征相似性从语料库中选取每个文本基元的候选基元,利用深度度量网络计算每个文本基元与对应候选基元的目标代价,计算相邻候选基元之间的拼接代价,计算每种候选基元组合的拼接代价和目标代价的总和,选择总和最小的候选基元组合进行语音拼接得到合成语音。在得到每个文本基元与对应候选基元的目标代价,以及相邻候选基元之间的拼接代价后,也可以利用维特比搜索算法对目标代价和拼接代价进行搜索,得到最小的代价路径,进而得到最佳基元并经过平滑拼接得到合成语音。例如,首先,将待测文本信息顺次拆分的文本基元为T1和T2,T1对应的候选基元为W1、W2、W3,T2对应的候选基元为V1、V2,利用深度度量网络分别计算T1与W1之间的目标代价、T1与W2之间的目标代价、T1与W3之间的目标代价,T2与V1之间的目标代价,T2与V2之间的目标代价。然后,计算W1与V1之间的拼接代价、W1与V2之间的拼接代价、W2与V1之间的拼接代价、W2与V2之间的拼接代价、W3与V1之间的拼接代价、W3与V2之间的拼接代价。最后,利用利用维特比搜索算法对目标代价和拼接代价进行搜索,得到最小的代价路径,进而得到最佳基元并经过平滑拼接得到合成语音。需要说明的是,若搜索的最小的代价路径得到的最佳基元为W2、V1,则此时T1与W2之间的目标代价值加上T2与V1之间的目标代价值加上W2与V1之间的拼接代价值得到的代价和是所有组合中代价和最小的。本实施例中,计算拼接代价时是计算相邻两个候选基元的相邻N帧(本实施例中N=3)的声学特征距离,作为拼接代价。
本发明的基于深度度量网络的语音合成方法还包括对深度度量网络进行网络训练的步骤,具体包括:
步骤SA1:从语料库选取目标基元,并且选取与目标基元相似的候选基元构成正样本对,选取与目标基元发音不同的候选基元构成负样本对。
参阅附图3,图3示例性示出了构建正样本对和负样本对的主要流程,如图2所示对合成语料进行音段切分得到语音合成系统所能识别的最小基本单元并构成语料库,将语料库中大部分基元(通常80%或以上)作为训练选择组,训练选择组是语音合成方法实际使用中的语料库。将剩余基元作为目标组,目标组只是在训练深度度量网络过程中作为训练样本使用,用于提高深度度量网络生成目标代价的精度。从目标组中选取用于训练深度度量网络的目标基元,从训练选择组中选择与目标基元的文本特征相似的候选基元组成正样本对,即正样本对中目标基元和候选基元的文本特征相似。从训练选择组中选取与目标基元发音不同的候选基元组成负样本对,即负样本对中目标基元和候选基元的声学特征不同。
步骤SA2:计算正样本对之间的欧式距离得到正样本对内目标基元与候选基元之间的第一初始目标代价,以及设定负样本对内目标基元与候选基元之间的第二初始目标代价。
具体地,提取正样本对中目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征;基于目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征,利用欧式距离算法计算正样本对之间的第一初始目标代价,本实施例中,是计算正样本对中目标基元的文本特征和候选基元的声学特征的欧氏距离得到正样本对内目标基元和候选基元的第一初始目标代价,对第一初始目标代价进行归一化,归一化后的第一初始目标代价取值范围[0.5,1]。设定负样本对内目标基元和候选基元之间的第二初始目标代价,本实施例中,第二初始目标代价的设定为-1。需要说明的是,本实施例中的欧氏距离算法可以根据实际情况增加权重或不增加权重,当然也可以用其他的距离度量算法,如余弦距离算法、曼哈顿距离算法、切比雪夫距离算法等等进行等效替换。
步骤SA3:根据第一初始目标代价、第二初始目标代价、正样本对和负样本对并且利用机器学习算法对深度度量网络进行网络训练。
具体地,根据第一初始目标代价、第二初始目标代价、正样本对和负样本对并且利用机器学习算法对深度度量网络进行网络训练的步骤可以包括:
步骤SA31:根据第一初始目标代价、第二初始目标代价、正样本对的文本特征和声学特征以及负样本对的文本特征和声学特征,并且利用机器学习算法对深度度量网络进行初次网络训练。
参阅附图4,图4示例性示出了对深度度量网络进行初次网络训练的主要流程,如图4所示对深度度量网络进行初次网络训练的主要流程可以包括:将构建的多个正样本对和负样本对输入深度度量网络,利用特征提取层提取正样本对和负样本对内目标基元的文本特征和声学特征,及其对应候选基元的文本特征和声学特征;利用编码层对目标基元的文本特征和声学特征进行编码得到第三特征向量,对目标基元对应的候选基元的文本特征和声学特征进行编码得到第四特征向量,利用余弦距离计算层计算第三特征向量和第四特征向量之间的余弦距离,得到目标基元与候选基元的目标代价。
步骤SA32:利用初次网络训练后的深度度量网络预测正样本对内目标基元与候选基元之间的第一目标代价以及负样本对内目标基元与候选基元之间的第二目标代价;
步骤SA33:根据第一目标代价、第二目标代价、正样本对内目标基元的文本特征、正样本对内候选基元的文本特征和声学特征以及负样本对内目标基元的文本特征、负样本对内候选基元的文本特征和声学特征,并且利用机器学习算法对所述初次网络训练后的深度度量网络再次进行网络训练。
参阅附图5,图5示例性示出了对深度度量网络进行再次网络训练的主要流程,如图5所示对深度度量网络进行再次网络训练的主要流程可以包括:将构建的多个正样本对和负样本对输入深度度量网络,利用特征提取层提取正样本对和负样本对内目标基元的文本特征,及其对应候选基元的文本特征和声学特征;利用编码层对目标基元的文本特征进行编码得到第五特征向量,对目标基元对应的候选基元的文本特征和声学特征进行编码得到第六特征向量,利用余弦距离计算层计算第五特征向量和第六特征向量之间的余弦距离;得到目标基元与候选基元的目标代价。需要说明的是,再次对深度度量网络进行网络训练时,不改变特征提取层的权重。利用编码层对目标基元的文本特征进行编码得到第五特征向量时,编码层的声学特征输入全部设置为0。
进一步地,基于上述语音合成方法的实施例,本发明实施例还提供了一种基于深度度量网络的语音合成装置。
参阅附图6,图6示例性示出了基于深度度量网络的语音合成装置的主要结构,如图6所示基于深度度量网络的语音合成装置可以包括:
文本分析模块11,配置为将待测文本信息拆分为多个文本基元,并利用特征提取层提取每个文本基元对应的文本特征;
特征提取模块12,配置为基于每个文本基元从预设语料库中获取文本基元对应的多个候选基元,并利用特征提取层提取每个候选基元对应的文本特征和声学特征;
特征编码模块13,配置为利用特征编码层对文本基元对应的文本特征进行编码得到第一特征向量,对候选基元的文本特征和声学特征进行编码得到第二特征向量;
目标代价计算模块14,配置为利用余弦距离计算层计算每个文本基元对应的第一特征向量与其对应候选基元的第二特征向量之间的余弦距离,根据余弦距离获取每个文本基元与其对应的候选基元之间的目标代价;
语音合成模块15,配置为利用语音合成系统并根据目标代价对候选基元进行拼接合成语音;
其中,深度度量网络是基于预设的语料库并且利用机器学习算法所构建的神经网络。深度度量网络包括特征提取层、特征编码层和余弦距离计算层。
进一步地,语音合成装置还包括模型训练模块,模型训练模块包括:
正负样本对单元,配置为从语料库选取目标基元,并且选取与目标基元相似的候选基元构成正样本对,选取与目标基元发音不同的候选基元构成负样本对;
初始目标代价单元,配置为计算正样本对之间的欧氏距离得到正样本对内目标基元与候选基元之间的第一初始目标代价,以及设定负样本对内目标基元与候选基元之间的第二初始目标代价;
网络训练单元,配置为根据第一初始目标代价、第二初始目标代价、正样本对和负样本对并且利用机器学习算法对深度度量网络进行网络训练。
进一步地,初始目标代价单元进一步配置为执行如下操作:
提取正样本对中目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征;
基于目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征,利用欧式距离算法计算正样本对之间的第一初始目标代价。
进一步地网络训练单元进一步配置为执行如下操作:
根据第一初始目标代价、第二初始目标代价、正样本对的文本特征和声学特征以及负样本对的文本特征和声学特征,并且利用机器学习算法对深度度量网络进行初次网络训练;
利用初次网络训练后的深度度量网络预测正样本对内目标基元与候选基元之间的第一目标代价以及负样本对内目标基元与候选基元之间的第二目标代价;
根据第一目标代价、第二目标代价、正样本对内目标基元的文本特征、正样本对内候选基元的文本特征和声学特征以及负样本对内目标基元的文本特征、负样本对内候选基元的文本特征和声学特征,并且利用机器学习算法对初次网络训练后的深度度量网络再次进行网络训练。
进一步地,基于上述基于深度度量网络的语音合成方法实施例,本发明还提供了一种存储装置,该存储装置中可以存储有多条程序,程序适于由处理器加载并执行如上述的基于深度度量网络的语音合成方法。
再进一步地,基于上述基于深度度量网络的语音合成方法实施例,本发明还提供了一种处理装置,该处理装置可以包括处理器、存储设备;处理器,适于执行各条程序;存储设备,适于存储多条程序;程序适于由处理器加载并执行如上述的基于深度度量网络的语音合成方法。
需要说明的是,本发明实施例中所用的文本特征和声学特征的个数可根据实际需要进行相应的增增加或减少,所用的文本特征和声学特征的类别同样可根据实际需求进行相应的替换,表1示例性示出的是用于本发明实施例中的文本特征,表2示例性示出的是用于本发明实施例中的声学特征。
表1用于本发明实施例中的文本特征
表2用于本发明实施例中的声学特征
序号 | 特征 | 序号 | 特征 |
1 | 基元时长 | 6 | 基元分段谱参数 |
2 | 基元整体谱参数 | 7 | 基元分段一阶谱参数 |
3 | 基元整体一阶谱参数 | 8 | 基元分段基频参数 |
4 | 基元整体基频参数 | 9 | 基元分段一阶基频参数 |
5 | 基元整体一阶基频参数 |
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤、系统及装置,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种基于深度度量网络的语音合成方法,其特征在于,所述深度度量网络包括特征提取层、特征编码层和余弦距离计算层;
所述语音合成方法包括:
将待测文本信息拆分为多个文本基元,并利用所述特征提取层提取每个文本基元对应的文本特征;
基于每个所述文本基元从预设语料库中获取所述文本基元对应的多个候选基元,并利用所述特征提取层提取每个所述候选基元对应的文本特征和声学特征;
利用所述特征编码层对所述文本基元对应的文本特征进行编码得到第一特征向量,对所述候选基元的文本特征和声学特征进行编码得到第二特征向量;
利用所述余弦距离计算层计算每个所述文本基元对应的第一特征向量与其对应候选基元的第二特征向量之间的余弦距离,根据所述余弦距离获取所述每个文本基元与其对应的候选基元之间的目标代价;
利用语音合成系统并根据所述目标代价对所述候选基元进行拼接合成语音;
其中,所述深度度量网络是基于预设的语料库并且利用机器学习算法所构建的神经网络。
2.根据权利要求1所述的一种基于深度度量网络的语音合成方法,其特征在于,在“将待测文本信息拆分为多个文本基元,并利用所述特征提取层提取每个文本基元对应的文本特征”的步骤之前,所述方法还包括:
从所述语料库选取目标基元,并且选取与所述目标基元相似的候选基元构成正样本对,选取与所述目标基元发音不同的候选基元构成负样本对;
计算所述正样本对之间的欧氏距离得到所述正样本对内目标基元与候选基元之间的第一初始目标代价,以及设定所述负样本对内目标基元与候选基元之间的第二初始目标代价;
根据所述第一初始目标代价、第二初始目标代价、正样本对和负样本对并且利用机器学习算法对所述深度度量网络进行网络训练。
3.根据权利要求2所述的一种基于深度度量网络的语音合成方法,其特征在于,“计算所述正样本对之间的欧氏距离得到所述正样本对内目标基元与候选基元之间的第一初始目标代价”的步骤包括:
提取所述正样本对中目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征;
基于所述目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征,利用欧式距离算法计算所述正样本对之间的第一初始目标代价。
4.根据权利要求3所述的一种基于深度度量网络的语音合成方法,其特征在于,“根据所述第一初始目标代价、第二初始目标代价、正样本对和负样本对并且利用机器学习算法对所述深度度量网络进行网络训练”的步骤包括:
根据所述第一初始目标代价、所述第二初始目标代价、所述正样本对的文本特征和声学特征以及所述负样本对的文本特征和声学特征,并且利用机器学习算法对所述深度度量网络进行初次网络训练;
利用所述初次网络训练后的深度度量网络预测所述正样本对内目标基元与候选基元之间的第一目标代价以及所述负样本对内目标基元与候选基元之间的第二目标代价;
根据所述第一目标代价、第二目标代价、所述正样本对内目标基元的文本特征、所述正样本对内候选基元的文本特征和声学特征以及所述负样本对内目标基元的文本特征、所述负样本对内候选基元的文本特征和声学特征,并且利用机器学习算法对所述初次网络训练后的深度度量网络再次进行网络训练。
5.一种基于深度度量网络的语音合成装置,其特征在于,所述深度度量网络包括特征提取层、特征编码层和余弦距离计算层;
所述语音合成装置包括:
文本分析模块,配置为将待测文本信息拆分为多个文本基元,并利用所述特征提取层提取每个文本基元对应的文本特征;
特征提取模块,配置为基于每个所述文本基元从预设语料库中获取所述文本基元对应的多个候选基元,并利用所述特征提取层提取每个所述候选基元对应的文本特征和声学特征;
特征编码模块,配置为利用所述特征编码层对所述文本基元对应的文本特征进行编码得到第一特征向量,对所述候选基元的文本特征和声学特征进行编码得到第二特征向量;
目标代价计算模块,配置为利用所述余弦距离计算层计算每个所述文本基元对应的第一特征向量与其对应候选基元的第二特征向量之间的余弦距离,根据所述余弦距离获取所述每个文本基元与其对应的候选基元之间的目标代价;
语音合成模块,配置为利用语音合成系统并根据所述目标代价对所述候选基元进行拼接合成语音;
其中,所述深度度量网络是基于预设的语料库并且利用机器学习算法所构建的神经网络。
6.根据权利要求5所述的基于深度度量网络的语音合成装置,其特征在于,所述语音合成装置还包括模型训练模块,所述模型训练模块包括:
正负样本对单元,配置为从所述语料库选取目标基元,并且选取与所述目标基元相似的候选基元构成正样本对,选取与所述目标基元发音不同的候选基元构成负样本对;
初始目标代价单元,配置为计算所述正样本对之间的欧氏距离得到所述正样本对内目标基元与候选基元之间的第一初始目标代价,以及设定所述负样本对内目标基元与候选基元之间的第二初始目标代价;
网络训练单元,配置为根据所述第一初始目标代价、第二初始目标代价、正样本对和负样本对并且利用机器学习算法对所述深度度量网络进行网络训练。
7.根据权利要求6所述的基于深度度量网络的语音合成装置,其特征在于,所述初始目标代价单元进一步配置为执行如下操作:
提取所述正样本对中目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征;
基于所述目标基元的文本特征和声学特征及其对应候选基元的文本特征和声学特征,利用欧式距离算法计算所述正样本对之间的第一初始目标代价。
8.根据权利要求7所述的基于深度度量网络的语音合成装置,其特征在于,所述网络训练单元进一步配置为执行如下操作:
根据所述第一初始目标代价、所述第二初始目标代价、所述正样本对的文本特征和声学特征以及所述负样本对的文本特征和声学特征,并且利用机器学习算法对所述深度度量网络进行初次网络训练;
利用所述初次网络训练后的深度度量网络预测所述正样本对内目标基元与候选基元之间的第一目标代价以及所述负样本对内目标基元与候选基元之间的第二目标代价;
根据所述第一目标代价、第二目标代价、所述正样本对内目标基元的文本特征、所述正样本对内候选基元的文本特征和声学特征以及所述负样本对内目标基元的文本特征、所述负样本对内候选基元的文本特征和声学特征,并且利用机器学习算法对所述初次网络训练后的深度度量网络再次进行网络训练。
9.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-4中任一项所述的一种基于深度度量网络的语音合成方法。
10.一种控制装置,包括:
处理器,适于执行各条程序;
存储设备,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-4中任一项所述的一种基于深度度量网络的语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811102108.6A CN109346056B (zh) | 2018-09-20 | 2018-09-20 | 基于深度度量网络的语音合成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811102108.6A CN109346056B (zh) | 2018-09-20 | 2018-09-20 | 基于深度度量网络的语音合成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109346056A CN109346056A (zh) | 2019-02-15 |
CN109346056B true CN109346056B (zh) | 2021-06-11 |
Family
ID=65305903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811102108.6A Active CN109346056B (zh) | 2018-09-20 | 2018-09-20 | 基于深度度量网络的语音合成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109346056B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110335588A (zh) * | 2019-06-26 | 2019-10-15 | 中国科学院自动化研究所 | 多发音人语音合成方法、系统及装置 |
CN111508471B (zh) * | 2019-09-17 | 2021-04-20 | 马上消费金融股份有限公司 | 语音合成方法及其装置、电子设备和存储装置 |
CN110767210A (zh) * | 2019-10-30 | 2020-02-07 | 四川长虹电器股份有限公司 | 一种生成个性化语音的方法及装置 |
CN112786001B (zh) * | 2019-11-11 | 2024-04-09 | 北京地平线机器人技术研发有限公司 | 语音合成模型训练方法、语音合成方法和装置 |
CN111680513B (zh) * | 2020-05-29 | 2024-03-29 | 平安银行股份有限公司 | 特征信息的识别方法、装置及计算机可读存储介质 |
CN113362800A (zh) * | 2021-06-02 | 2021-09-07 | 深圳云知声信息技术有限公司 | 用于语音合成语料库的建立方法、装置、设备和介质 |
CN114782719B (zh) * | 2022-04-26 | 2023-02-03 | 北京百度网讯科技有限公司 | 一种特征提取模型的训练方法、对象检索方法以及装置 |
CN116364055B (zh) * | 2023-05-31 | 2023-09-01 | 中国科学院自动化研究所 | 基于预训练语言模型的语音生成方法、装置、设备及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9460704B2 (en) * | 2013-09-06 | 2016-10-04 | Google Inc. | Deep networks for unit selection speech synthesis |
CN104575488A (zh) * | 2014-12-25 | 2015-04-29 | 北京时代瑞朗科技有限公司 | 一种基于文本信息的波形拼接语音合成方法 |
CN107564511B (zh) * | 2017-09-25 | 2018-09-11 | 平安科技(深圳)有限公司 | 电子装置、语音合成方法和计算机可读存储介质 |
CN107680580B (zh) * | 2017-09-28 | 2020-08-18 | 百度在线网络技术(北京)有限公司 | 文本转换模型训练方法和装置、文本转换方法和装置 |
CN107945786B (zh) * | 2017-11-27 | 2021-05-25 | 北京百度网讯科技有限公司 | 语音合成方法和装置 |
-
2018
- 2018-09-20 CN CN201811102108.6A patent/CN109346056B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109346056A (zh) | 2019-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109346056B (zh) | 基于深度度量网络的语音合成方法及装置 | |
CN108711422B (zh) | 语音识别方法、装置、计算机可读存储介质和计算机设备 | |
CN106683677B (zh) | 语音识别方法及装置 | |
JP5059115B2 (ja) | 音声キーワードの特定方法、装置及び音声識別システム | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
CN106503231B (zh) | 基于人工智能的搜索方法和装置 | |
CN105654940B (zh) | 一种语音合成方法和装置 | |
CN111247584A (zh) | 语音转换方法、系统、装置及存储介质 | |
US5680509A (en) | Method and apparatus for estimating phone class probabilities a-posteriori using a decision tree | |
WO2012001458A1 (en) | Voice-tag method and apparatus based on confidence score | |
KR20160059265A (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
CN111599339B (zh) | 具有高自然度的语音拼接合成方法、系统、设备及介质 | |
CN109461447B (zh) | 一种基于深度学习的端到端说话人分割方法及系统 | |
CA2947957C (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
CN112686041A (zh) | 一种拼音标注方法及装置 | |
KR101727306B1 (ko) | 언어모델 군집화 기반 음성인식 장치 및 방법 | |
CN113160801B (zh) | 语音识别方法、装置以及计算机可读存储介质 | |
US20240005942A1 (en) | Frame-level permutation invariant training for source separation | |
WO2009078665A1 (en) | Method and apparatus for lexical decoding | |
Alıas et al. | Evolutionary weight tuning based on diphone pairs for unit selection speech synthesis | |
CN115908775A (zh) | 化学结构式的识别方法、装置、存储介质及电子设备 | |
CN110619866A (zh) | 语音合成方法及装置 | |
JP2015152661A (ja) | 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム | |
JP4424023B2 (ja) | 素片接続型音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |