CN108172211B - 可调节的波形拼接系统及方法 - Google Patents
可调节的波形拼接系统及方法 Download PDFInfo
- Publication number
- CN108172211B CN108172211B CN201711461842.7A CN201711461842A CN108172211B CN 108172211 B CN108172211 B CN 108172211B CN 201711461842 A CN201711461842 A CN 201711461842A CN 108172211 B CN108172211 B CN 108172211B
- Authority
- CN
- China
- Prior art keywords
- phoneme
- unit
- units
- candidate
- cost
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 139
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 139
- 230000000694 effects Effects 0.000 claims abstract description 49
- 238000012163 sequencing technique Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 13
- 238000002372 labelling Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种可调节的波形拼接方法及系统,该方法包括如下步骤:输入待合成的文本;于语音库中挑选对应所述待合成的文本中每一音素的音素单元形成对应的音素候选单元集;对每一音素候选单元集中的音素单元进行排序;从每一音素候选单元集中挑选出一音素单元,将所挑选出的音素单元按照顺序进行拼接以形成语音合成结果并输出;以及人工调节所输出的语音合成结果中的音素单元以提高语音合成效果,并导出调节后的语音。本发明为用户提供了自行调整语音合成结果的功能,学习成本较低,合成自然度高于参数合成系统,稳定性高于传统的波形拼接系统,比直接找发音人录制原始语音的成本低。
Description
技术领域
本发明涉及语音合成领域,特指一种可调节的波形拼接系统及方法。
背景技术
语音合成,又称文语转换(Text to Speech)技术,解决的主要问题是如何将文字信息转化为可听的声音信息。
在语音合成时,需要先对输入的文本进行前端处理,再进行声学参数预测得到声学参数,最后利用声学参数直接通过声码器合成声音,或者从音库中挑选单元进行波形拼接。相对于声码器合成的声音,基于波形拼接的合成声音有更高的音质,以及更好保持了原发音人的风格。
现有的波形拼接系统作为一种高质量的语音合成系统,其缺点是:与传统的参数系统相比,稳定性较差,在音素间的连续性和各音素的时长方面体现的尤其明显。在一般情况下,对于波形拼接系统的算法调整需要专业的算法工程师参与,虽然普通用户、产品集成人员以及测试人员等在对语音进行测听时可以较容易的听出合成语音中的问题,但是却没有能力进行调整。而在改进一句话播报效果的同时,很难保证其他句子的播报质量不会因此而受到影响。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种可调节的波形拼接系统及方法,解决现有的拼接系统存在的音素间的连续性和音素时长存在的稳定性差,语音合成效果不佳,调整较为困难等的问题。
实现上述目的的技术方案是:
本发明提供了一种可调节的波形拼接方法,包括如下步骤:
输入待合成的文本;
于语音库中挑选对应所述待合成的文本中每一音素的音素单元形成对应的音素候选单元集;
对每一音素候选单元集中的音素单元进行排序;
从每一音素候选单元集中挑选出一音素单元,将所挑选出的音素单元按照顺序进行拼接以形成语音合成结果并输出;以及
人工调节所输出的语音合成结果中的音素单元以提高语音合成效果,并导出调节后的语音。
本发明的拼接方法为用户提供了自行调整语音合成结果的功能,学习成本较低,合成自然度高于参数合成系统,用户在调节时仅对一个语音合成结果进行调整,不会改动本发明的拼接方法所用到的算法,对其他文本的语音合成效果不会有影响,且无需麻烦专业的算法工程师,实现了自行调整的效果,稳定性高于传统的波形拼接系统,比直接找发音人录制原始语音的成本低。
本发明可调节的波形拼接方法的进一步改进在于,于语音库中挑选对应所述待合成的文本中每一音素的音素单元形成对应的音素候选单元集,包括:
获取与所述待合成的文本中每一音素对应的HMM模型作为目标模型;
从所述语音库中选取与所述待合成的文本中每一音素对应的音素单元形成预选集合,计算所述预选集合中的音素单元的HMM模型与对应的目标模型间的KLD距离,得到第一距离;
依据所述第一距离由小至大对所述预选集合中的音素单元进行排序,并依排序选取一定数量的音素单元形成初选集合;
计算所述初选集合中的音素单元的声学参数与对应的目标模型的声学参数的距离,得到第二距离;
将所述初选集合中每一音素单元的第一距离和第二距离加权求和以得到对应的目标代价;
依据所述目标代价从初选集合中挑选出设定数量的音素单元形成对应的音素候选单元集。
本发明可调节的波形拼接方法的进一步改进在于,对每一音素候选单元集中的音素单元进行排序,包括:
计算一音素候选单元集中的每一音素单元与相邻的音素候选单元集集中的每一音素单元间的连接代价;
将每一音素单元的目标代价和连接代价加权求和,得到每一音素单元的总代价并保存;
将每一音素候选单元集中的音素单元依照总代价由小到大的顺序进行排序。
本发明可调节的波形拼接方法的进一步改进在于,人工调节所输出的语音合成结果中的音素单元以提高语音合成效果,包括:
人工调整所输出的语音合成结果中的音素单元、由音素单元组成的字或由字组成的词的时长,直至达到满意的语音合成效果为止。
本发明可调节的波形拼接方法的进一步改进在于,人工调节所输出的语音合成结果中的音素单元以提高语音合成效果,包括:
从所输出的语音合成结果中选择需调节的音素单元;
输入替换指令,以将所选择的音素单元对应的音素候选单元集中的其余音素单元依照排序对所选择的音素单元进行依次替换,直至达到满意的语音合成效果为止。
本发明还提供了一种可调节的波形拼接系统,包括:
输入单元,用于输入待合成的文本;
存储单元,与所述输入单元连接,用于存储所述输入单元输入的待合成的文本,所述存储单元内还存储有语音库,所述语音库内包括复数个音素单元;
挑选单元,与所述输入单元和所述存储单元连接,用于在所述语音库中挑选对应所述待合成的文本中每一音素的音素单元形成对应的音素候选单元集,并将所形成的音素候选单元集存储于所述存储单元内;
排序单元,与所述存储单元连接,用于对所述存储单元内存储的音素候选单元集中的音素单元进行排序;
拼接单元,与所述存储单元连接,用于从所述存储单元内存储的每一音素候选单元集中挑选出一音素单元,并将所挑选出的音素单元按照所述待合成的文本的顺序进行拼接以形成语音合成结果并输出;以及
调节单元,与所述拼接单元和所述存储单元连接,用于根据人工调节指令调节所述语音合成结果中的音素单元以提高语音合成效果并导出调节后的语音。
本发明可调节的波形拼接系统的进一步改进在于,还包括与所述存储单元和所述挑选单元连接的计算单元;
所述计算单元用于计算所述语音库中每一音素单元的目标代价并将所述目标代价与对应的音素单元相关联地存储于所述存储单元内,所述目标代价由对应的音素单元的HMM模型与对应的音素的目标模型间的KLD距离和音素单元的声学参数与对应的目标模型的声学参数的距离加权求和得到;
所述挑选单元依据目标代价从所述语音库中挑选出设定数量的音素单元形成对应的音素候选单元集。
本发明可调节的波形拼接系统的进一步改进在于,所述计算单元和所述排序单元连接;所述计算单元还用于计算一音素候选单元集中的每一音素单元与相邻的音素候选单元集中的每一音素单元间的连接代价,还用于根据每一音素单元的目标代价和连接代价加权求和得到总代价,并将所得到的总代价与对应的音素单元相关联地存储于存储单元内;
所述排序单元根据音素候选单元集中的音素单元的总代价由小到大的顺序进行排序。
本发明可调节的波形拼接系统的进一步改进在于,所述调节单元包括时长调节模块;
所述时长调节模块用于根据人工调节指令调整所述语音合成结果中的音素单元、由音素单元组成的字或由字组成的词的时长,直至达到满意的语音合成效果为止。
本发明可调节的波形拼接系统的进一步改进在于,所述调节单元包括替换调节模块;
所述替换调节模块用于根据人工调节指令将所选择的音素单元对应的音素候选单元集中的其余音素单元依照排序对所选择的音素单元进行依次替换,直至达到满意的语音合成效果为止。
附图说明
图1为本发明可调节的波形拼接系统的系统图。
图2为本发明可调节的波形拼接方法的流程图。
图3为本发明可调节的波形拼接系统及方法中语音合成结果显示的效果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
参阅图3,本发明提供了一种可调节的波形拼接系统及方法,用于满足用户获取高质量的特定发音人的音频的需求,解决现有的波形拼接系统存在的音素间的连续性和音素时长方面的缺陷而产生的稳定性差的问题。且本发明实现了无需专业的算法工程师的参与,普通用户即可对不满意的语音合成结果进行调整,既可以调整音素的时长,又可以更换音素单元进行重新拼接合成,本发明的可调节的波形拼接系统及方法具有合成自然度高于参数合成系统的优势,稳定性高于传统的波形拼接系统,普通用户可自行调整语音合成结果,学习成本低,相比于直接找发音人录制原始语音的成本也低。下面结合附图对本发明可调节的波形拼接系统及方法进行说明。
参阅图1,显示了本发明可调节的波形拼接系统的系统图。下面结合图1,对本发明可调节的波形拼接系统进行说明。
如图1所示,本发明的可调节的波形拼接系统包括输入单元21、存储单元22、挑选单元23、排序单元24、拼接单元25以及调节单元26,其中存储单元22与输入单元21、挑选单元23、排序单元24、拼接单元25以及调节单元26均连接,挑选单元23与输入单元21连接,调节单元26与拼接单元25连接;
输入单元21,用于输入待合成的文本,输入单元21输入的待合成的文本被存储至存储单元22内。
存储单元22内还存储有语音库,语音库内包括复数个音素单元,音素单元即为音素发音的波形片段。较佳地,存储单元22包括有数据库服务器,语音库存储在数据库服务器内,在数据库服务器内存储了大量的音素单元。
挑选单元23,用于在语音库中挑选对应的待合成的文本中每一音素的音素单元形成对应的音素候选单元集,在挑选单元23从存储单元22中读取待合成的文本之前,本发明的可调节波形拼接系统还包括有处理单元,用于对存储在存储单元22内的待合成的文本进行前端处理,以得到对应待合成的文本的标注信息,该标注信息即为与文本对应的音素集合,从而处理单元将标注信息与待合成的文本相关联地存储在存储单元22内。进而挑选单元23可从存储单元22内读取出对应待合成的文本中的每一音素,根据该音素在语音库中挑选对应的音素单元形成对应的音素候选单元集,在语音库中包含有多个基本符合要求的音素单元,在进行挑选时,将该些基本符合要求的音素单元均挑选出来形成一个集合,基本符合要求是指音素单元在音素、音调上与对应的音素(也即目标)相一致,并将所形成的音素候选单元集存储在存储单元22内。
排序单元24,用于对存储单元22内存储的音素候选单元集中的音素单元进行排序,排序单元24依照设定的规则将各个音素候选单元集中的音素单元进行排序,使其能够按照特定的顺序存储在存储单元22内。
拼接单元25,用于从存储单元22内存储的每一音素候选单元集中挑选出一音素单元,并将所挑选出的音素单元按照待合成的文本的顺序进行拼接以形成语音合成结果并输出。较佳地,拼接单元25通过维特比方法从每一音素候选单元集中挑选出一音素单元,再拼接形成语音合成结果。关于拼接合成语音的方法可参见:GB/T7714,作者为凌震华,博士学位论文名称为基于统计声学建模的语音合成技术研究[D],中国科学技术大学,2008。该拼接单元25形成语音合成结果后将该语音合成结果存储在存储单元22内,该语音合成结果作为最初的结果,输出时,可通过处理单元将该语音合成结果发送显示,使得用户能够看到该语音合成结果,并且能够对该语音合成结果进行测听。较佳地,拼接单元25在将多个音素单元拼接时,还对个音素单元间拼接处进行平滑处理,以得到较为自然的语音合成结果,该平滑处理包括对音素单元间的幅度和相位进行调整,使得音素间能够平滑过渡,减少拼接点的跳跃感,使得语音合成效果更加自然。
调节单元26,用于根据人工调节指令调节语音合成结果中音素单元以提高语音合成效果并导出调节后的语音。该调节单元26为用户提供了手动调节的功能,在对语音合成结果进行测听后,若语音合成效果符合预期,则可省略调节步骤而直接将该语音合成结果导出,若不符合预期,则可通过调节单元26对语音合成结果中不满意的地方进行调整,直至达到满意的效果为止。用户可以看到语音合成结果,在进行调整时,输入人工调节指令,即指定调节哪一个音素、哪一个字或者哪一个词,从而调节单元26对该指定调节的音素、字或者词进行调节。调节单元26在调节好后将调节后的语音存储在存储单元22内。
作为本发明的一较佳实施方式,该可调节的拼接系统还包括与存储单元22和挑选单元23连接的计算单元,该计算单元用于计算语音库中每一音素单元的目标代价并将得到的目标代价与对应的音素单元相关联地存储在存储单元22内,该计算单元计算得到的目标代价的计算过程为:计算对应音素单元的HMM模型与对应的音素的目标模型间的KLD(Kullback-Leibler divergence,KL散度)距离,也即第一距离;计算音素单元的声学参数与对应的目标模型的声学参数的距离,也即第二距离;再将第一距离和第二距离加权求和即得到了目标代价。其中的HMM模型为大量的原始录音数据训练得到的,本发明的拼接系统可以借助已有的HMM模型,也可以在拼接系统内建立HMM模型。训练HMM模型时可以采用隐马尔可夫模型工具包(HMM Tool Kit,HTK)的基于HMM的语音合成来实现,利用问题集通过决策树聚类。较佳地,处理单元获取与待合成的文本中每一音素对应的HMM模型作为目标模型,该目标模型可以根据待合成的文本的前端分析结果利用已有的问题集查找决策树而找到对应音素的HMM模型,可以由处理单元训练得到;计算单元在计算目标代价时,处理单元先从语音库中选取与待合成的文本中每一音素对应的音素单元形成于该音素对应的预选集合,也即选择中心基元相同的音素单元,预选集合中的音素单元的数量可以为100,在语音库中音素单元关联有对应的HMM模型,从而计算单元计算预选集合中的音素单元的HMM模型与对应的目标模型间的KLD距离,得到第一距离;处理单元在从预选集合中选出一定数量的第一距离较小的音素单元形成初选集合,该一定数量可以为50,在选择时,先将预选集合中的音素单元从小到大进行排序,而后依排序选取第一距离较小的音素单元;计算单元计算初选集合中音素单元的声学参数与对应的模板模型的声学参数的距离,得到第二距离;而后计算单元在针对初选集合中的第一距离和第二距离加权求和从而得到对应的目标代价。
进一步地,挑选单元23依据目标代价从语音库中挑选出设定数量的音素单元形成对应的音素候选单元集。该设定数量可编辑更改,用户在使用本发明的拼接系统时可输入新的设定数量,拼接系统在初始时该设定数量较佳为3。较佳地,挑选单元23内设置有目标代价阈值,在挑选语音库中的音素单元时,选择目标代价高于目标代价阈值的音素单元。较佳地,在计算单元和处理单元得到初选集合后,挑选单元23可从初选集合内选取音素单元形成对应的音素候选单元集。
作为本发明的另一较佳实施方式,计算单元和排序单元24连接,该计算单元还用于计算一个音素候选单元集中的每一音素单元与相邻的音素候选单元集中的每一音素单元间的连接代价,并将该连接代价与对应的音素单元进行相关联地存储在存储单元22内。关于连接代价的计算可参见:GB/T7714,作者为凌震华,博士学位论文名称为基于统计声学建模的语音合成技术研究[D],中国科学技术大学,2008。
进一步地,挑选单元23在挑选音素单元时,不仅仅只考虑目标代价,还考虑连接代价。该挑选单元23先依据目标代价挑选出数量多于设定数量的音素单元形成音素候选单元集,而后在根据每一音素单元的连接代价来进行筛选,使得音素候选单元集内的音素单元的数量为设定数量。较佳地,在挑选单元23内设置有连接代价阈值,在挑选音素单元时,选择连接代价高于连接代价阈值的音素单元。
计算单元还用于根据每一音素单元的目标代价和连接代价加权求和得到总代价,并将得到的总代价与对应的音素单元相关联地存储于存储单元22内。
排序单元24根据音素候选单元集中的音素单元的总代价由小到大的顺序进行排序,使得音素单元在音素候选单元集中按照总代价由小到大的顺序进行依序存储。
作为本发明的又一较佳实施方式,调节单元26包括有时长调节模块,该时长调节模块用于根据人工调节指令调整语音合成结果中音素单元、由音素单元组成的字或由字组成的词的时长,直至达到满意的语音合成效果为止。人工调节指令包括对指定的音素、音素组成的字或者字组成的词进行选定,并输入调整后的时长,较佳地,在显示语音合成结果后,用户点击需调整时长的音素单元后,该音素单元处于选中状态,并显示出时长调节条,通过点击拖拽该时长调节条来调节音素单元的时长,在手动操作完毕后,形成了时长调节指令给调节单元26,该调节单元26的时长调节模块根据接收到的时长调节指令来调节语音合成结果中的音素单元的时长。利用时长调节模块实现了调整一个音素、字或者词的时长,能够提高语音合成效果,且该时长的调节不会影响语音库内存储的音素单元,其仅作用于语音合成结果中音素单元的时长,解决了在改进一个语句的播报效果时会使得其他语句受到影响的问题。
进一步地,调节单元26还包括替换调节模块,该替换调节模块用于根据人工调节指令将所选择的音素单元对应的音素候选单元集中的其余音素单元依照排序对所选择的音素单元进行依次替换,直至达到满意的语音合成效果为止。较佳地,语音合成结果显示在用户可视化界面上,用户在测听该语音合成结果后,对不满意的音素单元可进行更换,通过选中音素单元而后显示出操作提示,选择替换后形成替换指令,该替换指令发送给调节单元26,该调节单元26的替换调节模块依据替换指令,找到与该音素单元对应的音素候选单元集,并从该音素候选单元集中按照总代价由小到大的顺序进行依次替换,每一次替换均更新语音合成结果,用户在测听后,若仍不满意效果,则继续发出替换指令,替换调节模块继续将下一个音素单元替换至语音合成结果内,直至合成语音效果满意为止。
下面结合图3,对本发明的可调节的波形拼接系统的工作过程进行说明。
如图3所示,显示了以待合成文本为“建立长效机制”为例的语音合成结果进行显示的效果图。首先,用户通过本发明拼接系统的输入单元21将待合成文本“建立长效机制”输入到拼接系统内,该文本“建立长效机制”被存储在存储单元22内;接着拼接系统的处理单元对该文本进行前端处理得到对应的标注信息“j ian4l i4ch ang2x iao4j i1zhiii4”,该标注信息也对应地存储在存储单元22内。计算单元计算出音素库中每一音素单元的目标代价,挑选单元23根据目标代价挑选出与标注信息中音素对应的音素候选单元集,计算单元在计算每一音素候选单元集中的每一音素与相邻的音素候选单元集中的每一音素的连接代价,并计算出每一音素的总代价,也即用目标代价和连接代价加权求和得到总代价;排序单元24根据总代价由小到大的顺序对音素候选单元集中的所有音素单元进行排序;拼接单元25从音素候选单元集中通过维特比方法挑选出一音素单元,将所挑选的音素单元按照文本的顺序进行拼接,并对音素单元间拼接处进行平滑处理,得到语音合成结果。该语音合成结果被存储在存储单元22内,接着语音合成结果、对应的文本以及标准信息均显示在用户可视化界面上,效果如图3所示,最上层的波形为语音合成结果33,中间层为标注信息层32,最下层为文本层31,语音合成结果33、标注信息层32以及文本层31上下相对应的设置,且显示在用户可视化界面上的标准信息层和文本层均链接有操作选项,当用户对某一音素不满意时,可选择标准信息层32内的音素,而后会出现操作选择项,调节时长和替换音素单元,选择调节时长后,在该音素对应的语音合成结果33处显示有时长调节条,通过拖拽该时长调节条来调节时长,直至时长达到满意的效果为止。选择调节替换音素单元后,该对应的音素单元会被与其同在一个音素候选单元集中的其他因素单元替换,若不满意该替换效果,可继续选择替换音素单元,直至达到满意的效果为止。当用户对某一字或词的长度不满意时,可选择文本层31中的字或词,从而在语音合成结果33对应的波段上出现时长调节条,可实现对字或词的时长调节。
本发明的波形拼接系统为用户提供了对语音合成结果进行时长调节的功能和替换音素单元的功能,无需专业的算法工程师参与,普通用户即可自行调整,学习成本低,使得合成的语音自然度高,稳定性也较高。
下面对本发明提供的可调节的波形拼接方法进行说明。
如图2所示,本发明提供了一种可调节的波形拼接方法,包括如下步骤:
执行步骤S21,输入待合成的文本;接着执行步骤S22。
执行步骤S22,于语音库中挑选对应待合成的文本中每一音素的音素单元形成对应的音素候选单元集;接着执行步骤S23。
执行步骤S23,对每一音素候选单元集中的音素单元进行排序;接着执行步骤S24。
执行步骤S24,从每一音素候选单元集中挑选出一音素单元,将所挑选出的音素单元按照顺序进行拼接以形成语音合成结果并输出;接着执行步骤S25。
执行步骤S25,人工调节所输出的语音合成结果中的音素单元以提高语音合成效果,并导出调节后的语音。
本发明的拼接方法为用户提供了自行调整语音合成结果的功能,学习成本较低,合成自然度高于参数合成系统,用户在调节时仅对一个语音合成结果进行调整,不会改动本发明的拼接方法所用到的算法,对其他文本的语音合成效果不会有影响,且无需麻烦专业的算法工程师,实现了自行调整的效果,稳定性高于传统的波形拼接系统,比直接找发音人录制原始语音的成本低。
在输入待合成的文本后,对该待合成的文本进行前端处理,以得到对应待合成的文本的标注信息,该标注信息即为与文本对应的音素集合。进而根据待合成的文本中的每一音素,在语音库中挑选对应的音素单元形成对应的音素候选单元集,在语音库中包含有多个基本符合要求的音素单元,在进行挑选时,将该些基本符合要求的音素单元均挑选出来形成一个集合,基本符合要求是指音素单元在音素、音调上与对应的音素(也即目标)相一致。
作为本发明的一较佳实施方式,于语音库中挑选对应待合成的文本中每一音素的音素单元形成对应的音素候选单元集,包括:
获取与待合成的文本中每一音素对应的HMM模型作为目标模型;
从语音库中选取与待合成文本中每一音素对应的音素单元形成预选集合,计算预选集合中的音素单元的HMM模型与对应的目标模型间的KLD距离,得到第一距离;
依据第一距离由小至大对预选集合中的音素单元进行排序,并依排序选取一定数量的音素单元形成初选集合;
计算初选集合中的音素单元的声学参数与对应的目标模型的声学参数的距离,得到第二距离;
将初选集合中每一音素单元的第一距离和第二距离加权求和以得到对应的目标代价;
依据目标代价从初选集合中挑选出设定数量的音素单元形成对应的音素候选单元集。
其中的HMM模型为大量的原始录音数据训练得到的,本发明的拼接系统可以借助已有的HMM模型,也可以在拼接系统内建立HMM模型。训练HMM模型时可以采用隐马尔可夫模型工具包(HMM Tool Kit,HTK)的基于HMM的语音合成来实现,利用问题集通过决策树聚类。较佳地,在获取与待合成的文本中每一音素对应的HMM模型作为目标模型的步骤中,该目标模型可以根据待合成的文本的前端分析结果利用已有的问题集查找决策树而找到对应音素的HMM模型,可以通过训练得到;在计算目标代价时,先从语音库中选取与待合成的文本中每一音素对应的音素单元形成于该音素对应的预选集合,也即选择中心基元相同的音素单元,预选集合中的音素单元的数量可以为100,在语音库中音素单元关联有对应的HMM模型,从而计算预选集合中的音素单元的HMM模型与对应的目标模型间的KLD距离,得到第一距离;在从预选集合中选出一定数量的第一距离较小的音素单元形成初选集合,该一定数量可以为50,在选择时,先将预选集合中的音素单元从小到大进行排序,而后依排序选取第一距离较小的音素单元;计算初选集合中音素单元的声学参数与对应的模板模型的声学参数的距离,得到第二距离;而后计算单元在针对初选集合中的第一距离和第二距离加权求和从而得到对应的目标代价。
进一步地,依据目标代价从语音库中挑选出设定数量的音素单元形成对应的音素候选单元集。该设定数量可编辑更改,用户在使用时可输入新的设定数量,设定数量在初始时较佳为3。较佳地,预设一目标代价阈值,在挑选语音库中的音素单元时,选择目标代价高于目标代价阈值的音素单元。
作为本发明的另一较佳实施方式,对每一音素候选单元集中的音素单元进行排序,包括:
计算一音素候选单元集中的每一音素单元与相邻的音素候选单元集集中的每一音素单元间的连接代价;
将每一音素单元的目标代价和连接代价加权求和,得到每一音素单元的总代价并保存;
将每一音素候选单元集中的音素单元依照总代价由小到大的顺序进行排序。
进一步地,在挑选音素单元时,不仅仅只考虑目标代价,还考虑连接代价。可先依据目标代价挑选出数量多于设定数量的音素单元形成音素候选单元集,而后在根据每一音素单元的连接代价来进行筛选,使得音素候选单元集内的音素单元的数量为设定数量。较佳地,预设一连接代价阈值,在挑选音素单元时,选择连接代价高于连接代价阈值的音素单元。
将计算的连接代价和总代价与对应的音素单元相关联地进行存储。
较佳地,可通过维特比方法从每一音素候选单元集中挑选出一音素单元,再拼接形成语音合成结果。形成语音合成结果后将该语音合成结果进行存储,该语音合成结果作为最初的结果,输出时,可将该语音合成结果发送显示,使得用户能够看到该语音合成结果,并且能够对该语音合成结果进行测听。较佳地,在将多个音素单元拼接时,还对个音素单元间拼接处进行平滑处理,以得到较为自然的语音合成结果,该平滑处理包括对音素单元间的幅度和相位进行调整,使得音素间能够平滑过渡,减少拼接点的跳跃感,使得语音合成效果更加自然。
作为本发明的又一较佳实施方式,人工调节所输出的语音合成结果中的音素单元以提高语音合成效果,包括:
人工调整所输出的语音合成结果中的音素单元、由音素单元组成的字或由字组成的词的时长,直至达到满意的语音合成效果为止。
较佳的,可人工调整语音合成结果中音素单元、由音素单元组成的字或由字组成的词的时长,直至达到满意的语音合成效果为止。人工调整包括对指定的音素、音素组成的字或者字组成的词进行选定,并输入调整后的时长,较佳地,在显示语音合成结果后,用户点击需调整时长的音素单元后,该音素单元处于选中状态,并显示出时长调节条,通过点击拖拽该时长调节条来调节音素单元的时长。本发明实现了调整一个音素、字或者词的时长,能够提高语音合成效果,且该时长的调节不会影响语音库内存储的音素单元,其仅作用于语音合成结果中音素单元的时长,解决了在改进一个语句的播报效果时会使得其他语句受到影响的问题。
进一步地,人工调节所输出的语音合成结果中的音素单元以提高语音合成效果,包括:
从所输出的语音合成结果中选择需调节的音素单元;
输入替换指令,以将所选择的音素单元对应的音素候选单元集中的其余音素单元依照排序对所选择的音素单元进行依次替换,直至达到满意的语音合成效果为止。
较佳地,语音合成结果显示在用户可视化界面上,用户在测听该语音合成结果后,对不满意的音素单元可进行更换,通过选中音素单元而后显示出操作提示,选择替换后形成替换指令,依据替换指令找到与该音素单元对应的音素候选单元集,并从该音素候选单元集中按照总代价由小到大的顺序进行依次替换,每一次替换均更新语音合成结果,用户在测听后,若仍不满意效果,则继续发出替换指令,替换调节模块继续将下一个音素单元替换至语音合成结果内,直至合成语音效果满意为止。
以上结合附图实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。
Claims (8)
1.一种可调节的波形拼接方法,其特征在于,包括如下步骤:
输入待合成的文本;
于语音库中挑选对应所述待合成的文本中每一音素的音素单元形成对应的音素候选单元集;
对每一音素候选单元集中的音素单元进行排序;
从每一音素候选单元集中挑选出一音素单元,将所挑选出的音素单元按照顺序进行拼接以形成语音合成结果并输出;以及
人工调节所输出的语音合成结果中的音素单元以提高语音合成效果,并导出调节后的语音;
于语音库中挑选对应所述待合成的文本中每一音素的音素单元形成对应的音素候选单元集,包括:
获取与所述待合成的文本中每一音素对应的HMM模型作为目标模型;
从所述语音库中选取与所述待合成文本中每一音素对应的音素单元形成预选集合,计算所述预选集合中的音素单元的HMM模型与对应的目标模型间的KLD距离,得到第一距离;
依据所述第一距离由小至大对所述预选集合中的音素单元进行排序,并依排序选取一定数量的音素单元形成初选集合;
计算所述初选集合中的音素单元的声学参数与对应的目标模型的声学参数的距离,得到第二距离;
将所述初选集合中每一音素单元的第一距离和第二距离加权求和以得到对应的目标代价;
依据所述目标代价从所述初选集合中挑选出设定数量的音素单元形成对应的音素候选单元集。
2.如权利要求1所述的可调节的波形拼接方法,其特征在于,对每一音素候选单元集中的音素单元进行排序,包括:
计算一音素候选单元集中的每一音素单元与相邻的音素候选单元集集中的每一音素单元间的连接代价;
将每一音素单元的目标代价和连接代价加权求和,得到每一音素单元的总代价并保存;
将每一音素候选单元集中的音素单元依照总代价由小到大的顺序进行排序。
3.如权利要求1所述的可调节的波形拼接方法,其特征在于,人工调节所输出的语音合成结果中的音素单元以提高语音合成效果,包括:
人工调整所输出的语音合成结果中的音素单元、由音素单元组成的字或由字组成的词的时长,直至达到满意的语音合成效果为止;调节时长时通过点击拖拽时长调节条来实现调节对应的时长。
4.如权利要求1所述的可调节的波形拼接方法,其特征在于,人工调节所输出的语音合成结果中的音素单元以提高语音合成效果,包括:
从所输出的语音合成结果中选择需调节的音素单元;
输入替换指令,以将所选择的音素单元对应的音素候选单元集中的其余音素单元依照排序对所选择的音素单元进行依次替换,直至达到满意的语音合成效果为止。
5.一种可调节的波形拼接系统,其特征在于,包括:
输入单元,用于输入待合成的文本;
存储单元,与所述输入单元连接,用于存储所述输入单元输入的待合成的文本,所述存储单元内还存储有语音库,所述语音库内包括复数个音素单元;
挑选单元,与所述输入单元和所述存储单元连接,用于在所述语音库中挑选对应所述待合成的文本中每一音素的音素单元形成对应的音素候选单元集,并将所形成的音素候选单元集存储于所述存储单元内;
排序单元,与所述存储单元连接,用于对所述存储单元内存储的音素候选单元集中的音素单元进行排序;
拼接单元,与所述存储单元连接,用于从所述存储单元内存储的每一音素候选单元集中挑选出一音素单元,并将所挑选出的音素单元按照所述待合成的文本的顺序进行拼接以形成语音合成结果并输出;以及
调节单元,与所述拼接单元和所述存储单元连接,用于根据人工调节指令调节所述语音合成结果中的音素单元以提高语音合成效果并导出调节后的语音;
还包括与所述存储单元和所述挑选单元连接的计算单元;
所述计算单元用于计算所述语音库中每一音素单元的目标代价并将所述目标代价与对应的音素单元相关联地存储于所述存储单元内,所述目标代价由对应音素单元的HMM模型与对应的音素的目标模型间的KLD距离和音素单元的声学参数与对应的目标模型的声学参数的距离加权求和得到;
所述挑选单元依据目标代价从所述语音库中挑选出设定数量的音素单元形成对应的音素候选单元集。
6.如权利要求5所述的可调节的波形拼接系统,其特征在于,所述计算单元和所述排序单元连接;所述计算单元还用于计算一音素候选单元集中的每一音素单元与相邻的音素候选单元集中的每一音素单元间的连接代价,还用于根据每一音素单元的目标代价和连接代价加权求和得到总代价,并将所得到的总代价与对应的音素单元相关联地存储于存储单元内;
所述排序单元根据音素候选单元集中的音素单元的总代价由小到大的顺序进行排序。
7.如权利要求5所述的可调节的波形拼接系统,其特征在于,所述调节单元包括时长调节模块;
所述时长调节模块用于根据人工调节指令调整所述语音合成结果中的音素单元、由音素单元组成的字或由字组成的词的时长,直至达到满意的语音合成效果为止;
所述人工调节指令通过点击拖拽时长调节条形成。
8.如权利要求5所述的可调节的波形拼接系统,其特征在于,所述调节单元包括替换调节模块;
所述替换调节模块用于根据人工调节指令将所选择的音素单元对应的音素候选单元集中的其余音素单元依照排序对所选择的音素单元进行依次替换,直至达到满意的语音合成效果为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711461842.7A CN108172211B (zh) | 2017-12-28 | 2017-12-28 | 可调节的波形拼接系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711461842.7A CN108172211B (zh) | 2017-12-28 | 2017-12-28 | 可调节的波形拼接系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108172211A CN108172211A (zh) | 2018-06-15 |
CN108172211B true CN108172211B (zh) | 2021-02-12 |
Family
ID=62519411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711461842.7A Active CN108172211B (zh) | 2017-12-28 | 2017-12-28 | 可调节的波形拼接系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108172211B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020116356A1 (ja) * | 2018-12-03 | 2020-06-11 | Groove X株式会社 | ロボット、音声合成プログラム、及び音声出力方法 |
CN109979428B (zh) * | 2019-04-02 | 2021-07-23 | 北京地平线机器人技术研发有限公司 | 音频生成方法和装置、存储介质、电子设备 |
CN111508471B (zh) * | 2019-09-17 | 2021-04-20 | 马上消费金融股份有限公司 | 语音合成方法及其装置、电子设备和存储装置 |
CN112331219B (zh) * | 2020-11-05 | 2024-05-03 | 北京晴数智慧科技有限公司 | 语音处理方法和装置 |
CN112530404A (zh) * | 2020-11-30 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、语音合成装置及智能设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1755796A (zh) * | 2004-09-30 | 2006-04-05 | 国际商业机器公司 | 文本到语音转换中基于统计技术的距离定义方法和系统 |
CN101071564A (zh) * | 2006-05-11 | 2007-11-14 | 通用汽车公司 | 把词表外语音与词表内语音区别开 |
JP4424023B2 (ja) * | 2004-03-16 | 2010-03-03 | 株式会社国際電気通信基礎技術研究所 | 素片接続型音声合成装置 |
CN105654940A (zh) * | 2016-01-26 | 2016-06-08 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7693719B2 (en) * | 2004-10-29 | 2010-04-06 | Microsoft Corporation | Providing personalized voice font for text-to-speech applications |
EP1835488B1 (en) * | 2006-03-17 | 2008-11-19 | Svox AG | Text to speech synthesis |
CN101004909A (zh) * | 2007-02-16 | 2007-07-25 | 黑龙江大学 | 基于韵律特征的汉语语音合成基元的选取方法 |
CN101178896B (zh) * | 2007-12-06 | 2012-03-28 | 安徽科大讯飞信息科技股份有限公司 | 基于声学统计模型的单元挑选语音合成方法 |
CN105551481B (zh) * | 2015-12-21 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音数据的韵律标注方法及装置 |
CN106356052B (zh) * | 2016-10-17 | 2019-03-15 | 腾讯科技(深圳)有限公司 | 语音合成方法及装置 |
-
2017
- 2017-12-28 CN CN201711461842.7A patent/CN108172211B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4424023B2 (ja) * | 2004-03-16 | 2010-03-03 | 株式会社国際電気通信基礎技術研究所 | 素片接続型音声合成装置 |
CN1755796A (zh) * | 2004-09-30 | 2006-04-05 | 国际商业机器公司 | 文本到语音转换中基于统计技术的距离定义方法和系统 |
CN101071564A (zh) * | 2006-05-11 | 2007-11-14 | 通用汽车公司 | 把词表外语音与词表内语音区别开 |
CN105654940A (zh) * | 2016-01-26 | 2016-06-08 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108172211A (zh) | 2018-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108172211B (zh) | 可调节的波形拼接系统及方法 | |
CN109949783B (zh) | 歌曲合成方法及系统 | |
Jin et al. | Voco: Text-based insertion and replacement in audio narration | |
US7487092B2 (en) | Interactive debugging and tuning method for CTTS voice building | |
US10347238B2 (en) | Text-based insertion and replacement in audio narration | |
CN102779508B (zh) | 语音库生成设备及其方法、语音合成系统及其方法 | |
Narendra et al. | Development of syllable-based text to speech synthesis system in Bengali | |
TWI471854B (zh) | 引導式語者調適語音合成的系統與方法及電腦程式產品 | |
Nakano et al. | VocaListener: A singing-to-singing synthesis system based on iterative parameter estimation | |
US12027165B2 (en) | Computer program, server, terminal, and speech signal processing method | |
CN110148394A (zh) | 歌声合成方法、装置、计算机设备及存储介质 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
CN103915093B (zh) | 一种实现语音歌唱化的方法和装置 | |
CN104835493A (zh) | 语音合成字典生成装置和语音合成字典生成方法 | |
CN109326280B (zh) | 一种歌唱合成方法及装置、电子设备 | |
Yan et al. | Rich-context unit selection (RUS) approach to high quality TTS | |
CN113691909B (zh) | 具有音频处理推荐的数字音频工作站 | |
CN111370024A (zh) | 一种音频调整方法、设备及计算机可读存储介质 | |
CN106297766B (zh) | 语音合成方法及系统 | |
CN107910005A (zh) | 交互文本的目标业务定位方法及装置 | |
CN111785236A (zh) | 一种基于动机提取模型与神经网络的自动作曲方法 | |
CN113676772A (zh) | 视频生成方法及装置 | |
CN111354325A (zh) | 自动词曲创作系统及其方法 | |
CN109686358B (zh) | 高保真的智能客服语音合成方法 | |
CN113516963A (zh) | 音频数据的生成方法、装置、服务器和智能音箱 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |