CN101751922A - 基于隐马尔可夫模型状态映射的文本无关语音转换系统 - Google Patents
基于隐马尔可夫模型状态映射的文本无关语音转换系统 Download PDFInfo
- Publication number
- CN101751922A CN101751922A CN200910089586A CN200910089586A CN101751922A CN 101751922 A CN101751922 A CN 101751922A CN 200910089586 A CN200910089586 A CN 200910089586A CN 200910089586 A CN200910089586 A CN 200910089586A CN 101751922 A CN101751922 A CN 101751922A
- Authority
- CN
- China
- Prior art keywords
- module
- conversion
- information
- model
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 129
- 238000013507 mapping Methods 0.000 title claims abstract description 20
- 230000033764 rhythmic process Effects 0.000 claims abstract description 47
- 238000001228 spectrum Methods 0.000 claims abstract description 43
- 230000009466 transformation Effects 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 30
- 230000003595 spectral effect Effects 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 19
- 239000000463 material Substances 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 5
- 230000008676 import Effects 0.000 claims description 3
- 241001269238 Data Species 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 235000007926 Craterellus fallax Nutrition 0.000 description 1
- 240000007175 Datura inoxia Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Abstract
本发明基于隐马尔可夫模型状态映射的文本无关语音转换系统,由数据对齐模块接收源和目标说话人语音参数,根据音素信息对齐输入数据来生成状态对齐的数据对;频谱转换模型生成模块接收对齐过的数据对,根据数据建立基于源和目标说话人语音频谱参数转换模型;韵律转换模型生成模块接收对齐过的数据对,根据数据建立基于源和目标说话人语音韵律参数转换模型;在线转换模块根据频谱转换模型生成模块和韵律转换模型生成模块生成的转换模型和源说话人的待转换语音数据,得到转换后的语音频谱参数和韵律参数;参数语音合成器模块接收来自于在线转换模块的转换后的频谱信息和韵律信息,输出转换后的语音结果。
Description
技术领域
本发明涉及一种语音转换系统,具体地涉及基于隐马尔可夫模型状态映射的文本无关语音转换系统。
背景技术
和谐人机交互技术一直都是人们关注的对象,面向个性化语音的语音转换技术是其重要组成部分,它能够对一个人的声音进行处理,使之变成另一个人的声音,其研究成果对个性化语音生成、人机对话等方向的发展具有重要的意义。而目前已有的大多数语音转换技术一般基于文本相关技术,这种技术必须要求源说话人和目标说话人提供文本相同的语音训练样本,又称其为平行语料训练方式。由于现实生活中,平行语料的要求较高,且要求技术使用者花费大量的精力去建立,因而极大的限制了已有语音转换技术的应用空间。与之相比,基于非平行语料的文本无关语音转换技术,将有效的解决这一难题。
在建立语音转换模型过程中,一般首先需要构建一个源说话人和目标说话人的成对语音训练队列,用于模型的训练,在这样的语音队列中需要保证两个说话人的语音内容相同或相似。传统上,由于平行语料在发音内容上具有很好的对应性和一致性,很容易通过训练数据的对齐,来构建语音训练队列。非平行语料的情况要复杂的多,由于这种情况下,源说话人和目标说话人完全可以说的不是同样的内容,很难将源说话人的语音与目标说话人的语音对齐。针对这一问题,有些学者试图以语音频谱参数之间的距离作为语音对齐训练的准则,这种方法依据最近距离准则虽能够产生比较平滑的转换函数或规则,但是只靠语音频谱参数距离来建立映射关系,容易产生音素错位的现象,降低转换的准确性。
发明内容
为了解决现有技术问题,本发明的目的是要提出一种可以基于音素信息实现非平行语料之间的数据对齐,使得对齐数据有较高的准确性;根据对齐的数据可以生成出基于非平行语料的转换模型,对输出的源说话人语音进行转换得到贴近目标说话人音色的语音。为此,本发明构建一种基于隐马尔可夫模型状态映射的文本无关语音转换系统。
为实现上述目的,本发明的一种基于隐马尔可夫模型状态映射的文本无关语音转换系统,利用各种电脑终端及数字移动设备,将系统接收的源说话人语音输入转换成具有特定的目标说话人音色的语音输出,并且在训练过程中对训练文本没有要求,可任意输入语音,由数据对齐模块、频谱转换模型生成模块、韵律转换模型生成模块、在线转换模块、参数语音合成器模块组成,其中
具有一数据对齐模块,其输入端接收源和目标说话人的非平行语料数据,对两者语音数据进行匹配对齐,为语音转换中的转换模型生成部分提供生成用的数据对,频谱转换模型生成模块具有一输出端输出对齐的的频谱信息训练数据对和韵律信息训练数据对信息;
具有一频谱转换模型生成模块,其输入端接收来自数据对齐模块对齐后的频谱信息对齐数据对,根据频谱信息训练数据对建立频谱转换模型;频谱转换模型生成模块具有一输出端输出基于源和目标说话人语音频谱参数的转换模型;
具有一韵律转换模型生成模块,输入端接收来自数据对齐模块对齐后的韵律信息对齐数据对,根据韵律信息训练数据对建立韵律信息的转换模型;韵律转换模型生成模块具有一输出端输出基于源和目标说话人语音韵律参数的转换模型;
具有一在线转换模块,其输入端接收分别来自于频谱转换模型生成模块和韵律转换模型生成模块生成的转换模型和源说话人的待转换语音数据;在线转换模块具有一输出端输出转换后语音频谱参数和韵律参数;
具有一参数语音合成器模块,其输入端接收来自于在线转换模块的转换后的频谱参数信息和韵律参数信息;参数语音合成器模块具有一输出端输出转换后的语音结果。
根据本发明的实施例,所述数据对齐模块包括:
具有一隐马尔可夫模型状态生成模块,其接受任意源和目标说话人的语音信息,生成相应的源说话人隐马尔可夫模型和目标说话人隐马尔可夫模型,并提取出基于不同音素单元模型的状态;隐马尔可夫模型状态生成模块具有一输出端输出基于音素的隐马尔可夫模型状态集合;
具有一基于音素的状态对齐模块,根据训练得到的基于音素的隐马尔可夫模型状态找到源和目标说话人参数空间的对应关系,得到状态对应的数据对;基于音素的状态对齐模块具有一输出端输出源和目标说话人之间对齐的隐马模型状态对。
优选的实施例,所述频谱转换模型是生成并输出频谱转换的码本映射模型。
优选的实施例,所述韵律转换模型生成模块包括:
具有一韵律信息转换模型生成模块是根据输入语音参数的关联信息建立基于分类回归树方法的韵律转换并输出基于分类回归树的韵律转换模型。
优选的实施例,所述在线转换模块含有频谱信息在线转换模块和韵律信息在线转换模块;
频谱信息在线转换模块输入端输入待转换的源说话人语音信息和频谱转换模型,负责在线实时的转换输入的源说话人频谱信息;
韵律信息在线转换模块输入端输入待转换的源说话人语音信息和韵律转换模型,负责在线实时的转换输入的源说话人韵律信息。
优选的实施例,频谱在线转换模块包括:
具有一码本聚类模块,其接受转换码本信息,对码本进行分级聚类,得到多个聚类中心和聚类信息;码本聚类模块具有一输出端输出聚类信息和聚类中心;
具有一分级码本查找模块,其接受聚类后的转换码本和聚类信息,根据聚类中心和相应的聚类成员,在给定输入语音参数之后,快速找到相应码本单元;分级码本查找模块具有一输出端输出根据输入语音参数分级查找到最近码本单元。
具有一基于码本的转换模块,其接受根据输入语音参数序列得到的码本单元序列,生成对应的转换后码本序列;基于码本的转换模块具有一输出端输出转换后的码本序列。
本发明的有益效果:
为实现上述目的,本发明的第一方面,在该框架中,通过基于音素信息的隐马尔可夫模型状态对应来实现非平行语料下的训练数据对齐。传统的基于平行语料的语音转换系统,由于高度平行的上下文信息,输入数据以时间帧为单位。但是在非平行语料下,时间帧单位受不同的上下文信息影响较大,以帧为单元找到具有语音关联及语音内容依据的映射比较困难。本发明利用隐马尔可夫模型状态来做为数据对应单元,使得数据的对应在不同的上下文环境中更加稳定和鲁棒。状态之间的对应过程,本发明采用了模型之间的相似度这样的指标来衡量状态之间的对应关系,模型的参数分布采用高斯分布,模型之间的相似度度量为两个高斯分布相似度之间的度量。
为实现上述目的,本发明的第二方面,本发明在状态对应阶段,加入了音素指导信息。在隐马尔可夫模型的训练过程中,可以获得模型和音素单元之间的从属关系,状态和音素单元之间的从属关系也可以从中获得,在状态对应时可以指定属于某一音素的状态必须对应到属于同一音素的状态,或者可以将音素约束信息加入到模型相似度的度量中,增加了数据对应的准确性。
为了实现上述目的,本发明的第三个方面,本发明在韵律转换阶段,利用了语音参数的关联信息,融合参数化的韵律模型,对源和目标说话人之间的韵律差别进行建模,建立基于决策树的韵律转换模型。在韵律转换过程中,根据输入的语音关联信息,可以得到基于韵律差异的参数模型,应用到源说话人的韵律信息得到目标说话人韵律信息。这样的韵律转换方法使得转换结果较为丰富,并且更加具有表现力。
附图说明
通过以下结合附图的详细描述,本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中:
图1是本发明所提出的基于隐马尔可夫模型状态映射的文本无关语音转换系统的总体框图。
图2是数据对齐模块的框图。
图3是基于音素的状态对齐模块的框图。
图4是频谱转换模型生成模块的框图。
图5是韵律转换模型生成模块的框图。
图6是在线转换模块的框图
具体实施方式
下面结合附图和实例对本发明进一步说明,通过结合附图对系统各组成部件的详细说明将会更好地描述实现本发明的步骤和过程。应该指出,所描述的实例仅仅视为说明的目的,而不是对本发明的限制。
图1是本发明基于隐马尔可夫模型状态映射的文本无关语音转换系统示意图,系统以C语言编写,在windows平台下可使用visualstudio编译运行,在linux平台下可使用gcc编译运行。实例中,隐马尔可夫模型的训练用HTK开源工具完成,得到源和目标模型状态数各3000左右。在单核2.6GHz主频PC下,通过码本分级查找实现实时转换。实例中,参数合成器选用mcep作为频谱参数,用开源语音工具SPTK实现参数分析和合成。在附图1本发明的优选实施方案中,本系统被分为五部分:数据对齐模块1、频谱转换模型生成模块2、韵律转换模型生成模块3、在线转换模块4、参数语音合成器模块5组成。其中,数据对齐模块1和频谱转换模型生成模块2与韵律转换模型生成模块3相连接,频谱转换模型生成模块2与韵律转换模型生成模块3和在线转换模块4相连接,在线转换模块4和参数语音合成器模块5相连接。
具有一数据对齐模块1,其输入端接收源说话人语音参数A和目标说话人的非平行语料数据B,对两者语音数据A和B进行匹配对齐,为语音转换中的转换模型生成部分提供生成用数据对,数据对齐模块1具有一输出端输出对齐的数据对信息。
具有一频谱转换模型生成模块2,其输入端接收来自数据对齐模块对齐后的频谱信息训练数据对,根据对齐数据建立频谱转换模型;具有一输出端输出基于源和目标说话人语音频谱参数的转换模型。频谱转换模型为基于音素对齐的状态码本模型。
具有一韵律转换模型生成模块3,输入端接收来自数据对齐模块对齐后的韵律信息训练数据对,根据对齐数据建立韵律转换模型;具有一输出端输出基于源和目标说话人语音韵律参数的转换模型。韵律转换模型为基于语音关联信息的决策树模型。
具有一在线转换模块4,输入端接收来自于频谱转换模型生成模块和韵律转换模型生成模块生成的转换模型和待转换源说话人语音参数数据C;具有一输出端输出转换后语音频谱参数和韵律参数。
具有一参数语音合成器模块5,输入端接收来自于在线转换模块的转换后的频谱信息和韵律信息;具有一输出端输出转换后的合成语音结果D。
如图2数据对齐模块的框图所示:数据对齐模块1由隐马尔可夫模型状态生成模块10和基于音素的状态对齐模块20组成。
隐马尔可夫模型状态生成模块10:接受任意源和目标说话人的语音信息A和B,分别生成对应的隐马尔可夫模型,并提取出基于不同音素单元模型的状态,具有一输出端输出基于音素的源隐马尔可夫模型状态集合F和基于音素的目标隐马尔可夫模型状态集合G;对应的音素信息将在下面的基于音素的状态对齐中用到。基于音素信息的数据对应将会增加数据映射的准确性。
基于音素的状态对齐模块20:根据输入的基于音素的源和目标隐马尔可夫模型状态集合F和G找到源和目标说话人参数空间的对应关系,得到状态对应的数据对;具有一输出端输出源和目标说话人之间对齐的隐马模型状态对E;在状态对齐的过程中同时考虑源和目标说话人之间状态模型的相似度和所属音素信息。
如图3基于音素的状态对齐模块的框图所示:基于音素的状态对齐模块20由动态频域规整(DFW)模块110和基于音素的模型相似度度量模块120组成。
动态频域规整(DFW)模块110:输入端输入源和目标隐马尔可夫模型状态集合F和G,负责在依据模型相似度进行模型映射之前,消除模型之间基于内容的差异。利用在语音识别中广泛应用的动态频域规划(DFW)算法实现。即在求模型对应之前,先将源说话人的模型参数进行动态频域规划:
其中,xk(mk x,vk x)为源说话人状态模型。通过频域规整去除源和目标说话人语音参数之间的整体差异;具有一输出端输出规整后的源说话人状态集合。
基于音素的模型相似度度量模块120:负责度量两个状态模型之间的相似度。对于源说话人模型xk(mk x,vk x)(k=1,...,K),要找到合适的对应目标模型yl(ml y,vl y)(l=1,...,L),可以将模型间的相似度作为基准,对应的关系为:
其中,
mk x,vk x为模型xk高斯分布的均值和方差;具有一输出端输出源和目标说话人之间对齐的隐马模型状态对E。
结合动态频域规整(DFW)模块110和基于音素的模型相似度度量模块120,基于音素的状态对齐模块20的状态映射关系为:
如图4频谱转换模型生成模块的框图所示:频谱转换模型生成模块2由码本建立模块30和码本聚类和聚类中心提取模块40组成。
码本建立模块30负责根据对齐的源、目标说话人状态模型对建立状态转换码本。输入端输入对齐后的源和目标说话人之间隐马模型状态对E;具有一输出端输出转换码本集合。
码本聚类和聚类中心提取模块40输入端输入转换码本集合,码本聚类和聚类中心提取模块40负责对状态码本进行聚类并提取相应的聚类中心,得到基于码本的频谱转换模型。其目的是为后面的在线转换模块中的码本快速分级查找提过查找聚类中心,码本聚类和聚类中心提取模块40具有一输出端输出频谱转换模型H。
如图5韵律转换模型生成模块的框图所示:韵律转换模型生成模块3由语音关联信息提取模块50和基于语音关联信息的韵律差异建模模块60组成。
语音关联信息提取模块50负责提取语音关联信息,如前后单元的基频的静态参数和动态参数,时长的静态参数和动态参数等。输入是对齐的源和目标语音信息E;具有一输出端输出语音关联信息。
基于语音关联信息的韵律差异建模模块60负责生成基于关联信息的韵律差异模型,先提取对齐后源和目标说话人语音单元韵律信息的差值,在利用决策树模型生成韵律差异模型,得到可以应用到源说话人韵律信息上的韵律转换模型。输入是对齐的源和目标语音信息E和语音关联信息;具有一输出端输出韵律转换模型I。
如图6在线转换模块的框图所示:在线转换模块4由频谱信息在线转换模块70和韵律信息在线转换模块80组成。
频谱信息在线转换模块70输入端输入待转换的源说话人语音信息C和频谱转换模型H,负责在线实时的转换输入的源说话人频谱信息。对于依时间帧单元输入的源说话人频谱参数,确定对应的状态序列,对于输入的语音帧参数X,找到相应的状态序号k
其中,αk x是状态k的先验概率,可以根据语料中该状态出现的频率求得。
为了达到实时转换,码本的查找过程采用分级查找方法,先查找最接近的聚类中心,再在相应的聚类中查找合适的码本单元。聚类中心为码本聚类和聚类中心提取模块40的输出;具有一输出端输出目标说话人的状态序列形式的语音频谱参数序列J。
韵律信息在线转换模块80输入端输入待转换的源说话人语音信息C和韵律转换模型I,负责在线实时的转换输入的源说话人韵律信息。根据输入语音参数的关联信息,通过查找决策树叶子节点的韵律差异参数,应用到输入的源说话人韵律信息上,可以得到转换后的目标说话人韵律信息。决策树查找的速度可以达到实时水平。具有一输出端输出目标说话人的语音韵律参数信息K。
上述实施例为本发明的较佳实施例,本发明的应用不仅限于电脑终端,还可应用到多种手持式移动设备或其它形式的移动设备。根据本发明的主要构思,本领域普通技术人员均可以产生多种相类似的或等价的应用,为此,本发明的范围不应由该描述来限定。本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换,均属于本发明权利要求来限定的范围。
Claims (6)
1.一种基于隐马尔可夫模型状态映射的文本无关语音转换系统,利用各种电脑终端及数字移动设备,将系统接收的源说话人语音输入转换成具有特定的目标说话人音色的语音输出,并且在训练过程中对训练文本没有要求,可任意输入训练语音,其特征在于:由数据对齐模块、频谱转换模型生成模块、韵律转换模型生成模块、在线转换模块、参数语音合成器模块组成,其中:
具有一数据对齐模块,其输入端接收源和目标说话人的非平行语料数据,对两者语音数据进行匹配对齐,为语音转换中的转换模型训练部分提供训练数据对,频谱转换模型生成模块具有一输出端输出对齐的频谱信息训练数据对和韵律信息训练数据对信息;
具有一频谱转换模型生成模块,其输入端接收来自数据对齐模块对齐后的频谱信息训练数据对,根据频谱信息训练数据对建立频谱信息的转换模型;频谱转换模型生成模块具有一输出端输出基于源和目标说话人语音频谱参数的转换模型;
具有一韵律转换模型生成模块,输入端接收来自数据对齐模块对齐后的韵律信息训练数据对,根据韵律信息训练数据对建立具有韵律信息的转换模型;韵律转换模型生成模块具有一输出端输出基于源和目标说话人语音韵律参数的转换模型;
具有一在线转换模块,其输入端接收来自于频谱转换模型生成模块和韵律转换模型生成模块生成的转换模型和源说话人的待转换语音数据;在线转换模块具有一输出端输出转换后语音频谱参数和韵律参数;
具有一参数语音合成器模块,其输入端接收来自于在线转换模块的转换后的频谱参数信息和韵律参数信息;参数语音合成器模块具有一输出端输出转换后的语音结果。
2.根据权利要求1所述的基于隐马尔可夫模型状态映射的文本无关语音转换系统,其特征在于:所述数据对齐模块包括:
具有一隐马尔可夫模型状态生成模块,其接受任意源和目标说话人的语音信息,生成相应的源说话人隐马尔可夫模型和目标说话人隐马尔可夫模型,并提取出基于不同音素单元模型的状态;隐马尔可夫模型状态生成模块具有一输出端输出基于音素的隐马尔可夫模型状态集合;
具有一基于音素的状态对齐模块,根据生成的基于音素的隐马尔可夫模型状态找到源和目标说话人参数空间的对应关系,得到状态对应的数据对;基于音素的状态对齐模块具有一输出端输出源和目标说话人之间对齐的隐马模型状态对。
3.根据权利要求1所述的基于隐马尔可夫模型状态映射的文本无关语音转换系统,其特征在于:所述建立频谱信息的转换模型是生成并输出频谱转换的码本映射模型。
4.根据权利要求1所述的基于隐马尔可夫模型状态映射的文本无关语音转换系统,其特征在于:所述韵律转换模型生成模块是根据输入语音参数的关联信息建立基于分类回归树方法的韵律转换并输出基于分类回归树的韵律转换模型。
5.根据权利要求1所述的基于隐马尔可夫模型状态映射的文本无关语音转换系统,其特征在于:所述在线转换模块中含有频谱信息在线转换模块和韵律信息在线转换模块;
频谱信息在线转换模块输入端输入待转换的源说话人语音信息和频谱转换模型,负责在线实时的转换输入的源说话人频谱信息;
韵律信息在线转换模块输入端输入待转换的源说话人语音信息和韵律转换模型,负责在线实时的转换输入的源说话人韵律信息。
6.根据权利要求5所述的基于隐马尔可夫模型状态映射的文本无关语音转换系统,其特征在于:所述频谱信息在线转换模块包括:
具有一码本聚类模块,其接受转换码本信息,对码本进行分级聚类,得到多个聚类中心和聚类信息;码本聚类模块具有一输出端输出聚类信息和聚类中心;
具有一分级码本查找模块,其接受聚类后的转换码本和聚类信息,根据聚类中心和相应的聚类成员,在给定输入语音参数之后,快速找到相应码本单元;分级码本查找模块具有一输出端输出根据输入语音参数分级查找到最近码本单元;
具有一基于码本的转换模块,其接受根据输入语音参数序列得到的码本单元序列,生成对应的转换后码本序列;基于码本的转换模块具有一输出端输出转换后的码本序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100895862A CN101751922B (zh) | 2009-07-22 | 2009-07-22 | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100895862A CN101751922B (zh) | 2009-07-22 | 2009-07-22 | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101751922A true CN101751922A (zh) | 2010-06-23 |
CN101751922B CN101751922B (zh) | 2011-12-07 |
Family
ID=42478793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100895862A Active CN101751922B (zh) | 2009-07-22 | 2009-07-22 | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101751922B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063899A (zh) * | 2010-10-27 | 2011-05-18 | 南京邮电大学 | 一种非平行文本条件下的语音转换方法 |
CN103021418A (zh) * | 2012-12-13 | 2013-04-03 | 南京邮电大学 | 一种面向多时间尺度韵律特征的语音转换方法 |
CN104766603A (zh) * | 2014-01-06 | 2015-07-08 | 安徽科大讯飞信息科技股份有限公司 | 构建个性化歌唱风格频谱合成模型的方法及装置 |
WO2017059694A1 (zh) * | 2015-10-08 | 2017-04-13 | 重庆邮电大学 | 一种语音模仿方法和装置 |
CN107240401A (zh) * | 2017-06-13 | 2017-10-10 | 厦门美图之家科技有限公司 | 一种音色转换方法及计算设备 |
CN107767879A (zh) * | 2017-10-25 | 2018-03-06 | 北京奇虎科技有限公司 | 基于音色的音频转换方法及装置 |
CN107818792A (zh) * | 2017-10-25 | 2018-03-20 | 北京奇虎科技有限公司 | 音频转换方法及装置 |
CN109410913A (zh) * | 2018-12-13 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法、装置、设备及存储介质 |
CN109935225A (zh) * | 2017-12-15 | 2019-06-25 | 富泰华工业(深圳)有限公司 | 文字信息处理装置及方法、计算机存储介质及移动终端 |
CN110010136A (zh) * | 2019-04-04 | 2019-07-12 | 北京地平线机器人技术研发有限公司 | 韵律预测模型的训练和文本分析方法、装置、介质和设备 |
CN110335588A (zh) * | 2019-06-26 | 2019-10-15 | 中国科学院自动化研究所 | 多发音人语音合成方法、系统及装置 |
CN111383658A (zh) * | 2018-12-29 | 2020-07-07 | 广州市百果园信息技术有限公司 | 音频信号的对齐方法和装置 |
CN111587455A (zh) * | 2018-01-11 | 2020-08-25 | 新智株式会社 | 利用机器学习的文本语音合成方法、装置及计算机可读存储介质 |
CN111785258A (zh) * | 2020-07-13 | 2020-10-16 | 四川长虹电器股份有限公司 | 一种基于说话人特征的个性化语音翻译方法和装置 |
CN111968617A (zh) * | 2020-08-25 | 2020-11-20 | 云知声智能科技股份有限公司 | 一种非平行数据的语音转换方法及系统 |
CN112133282A (zh) * | 2020-10-26 | 2020-12-25 | 厦门大学 | 轻量级多说话人语音合成系统及电子设备 |
CN113159604A (zh) * | 2021-04-30 | 2021-07-23 | 贵州电网有限责任公司 | 一种基于增强现实的电力系统调度操作可视化方法 |
CN114495898A (zh) * | 2022-04-15 | 2022-05-13 | 中国科学院自动化研究所 | 一种统一的语音合成与语音转换的训练方法和系统 |
CN117275458A (zh) * | 2023-11-20 | 2023-12-22 | 深圳市加推科技有限公司 | 智能客服的语音生成方法、装置、设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930863B (zh) * | 2012-10-19 | 2014-05-28 | 河海大学常州校区 | 一种基于简化自适应内插加权谱模型的语音转换及重构方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3703394B2 (ja) * | 2001-01-16 | 2005-10-05 | シャープ株式会社 | 声質変換装置および声質変換方法およびプログラム記憶媒体 |
CN101064104B (zh) * | 2006-04-24 | 2011-02-02 | 中国科学院自动化研究所 | 基于语音转换的情感语音生成方法 |
CN101399044B (zh) * | 2007-09-29 | 2013-09-04 | 纽奥斯通讯有限公司 | 语音转换方法和系统 |
CN101178895A (zh) * | 2007-12-06 | 2008-05-14 | 安徽科大讯飞信息科技股份有限公司 | 基于生成参数听感误差最小化的模型自适应方法 |
-
2009
- 2009-07-22 CN CN2009100895862A patent/CN101751922B/zh active Active
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102063899B (zh) * | 2010-10-27 | 2012-05-23 | 南京邮电大学 | 一种非平行文本条件下的语音转换方法 |
CN102063899A (zh) * | 2010-10-27 | 2011-05-18 | 南京邮电大学 | 一种非平行文本条件下的语音转换方法 |
CN103021418A (zh) * | 2012-12-13 | 2013-04-03 | 南京邮电大学 | 一种面向多时间尺度韵律特征的语音转换方法 |
CN104766603B (zh) * | 2014-01-06 | 2019-03-19 | 科大讯飞股份有限公司 | 构建个性化歌唱风格频谱合成模型的方法及装置 |
CN104766603A (zh) * | 2014-01-06 | 2015-07-08 | 安徽科大讯飞信息科技股份有限公司 | 构建个性化歌唱风格频谱合成模型的方法及装置 |
WO2017059694A1 (zh) * | 2015-10-08 | 2017-04-13 | 重庆邮电大学 | 一种语音模仿方法和装置 |
CN106571145A (zh) * | 2015-10-08 | 2017-04-19 | 重庆邮电大学 | 一种语音模仿方法和装置 |
US10818307B2 (en) | 2015-10-08 | 2020-10-27 | Tencent Technology (Shenzhen) Company Limited | Voice imitation method and apparatus, and storage medium utilizing cloud to store, use, discard, and send imitation voices |
CN107240401A (zh) * | 2017-06-13 | 2017-10-10 | 厦门美图之家科技有限公司 | 一种音色转换方法及计算设备 |
CN107240401B (zh) * | 2017-06-13 | 2020-05-15 | 厦门美图之家科技有限公司 | 一种音色转换方法及计算设备 |
CN107767879A (zh) * | 2017-10-25 | 2018-03-06 | 北京奇虎科技有限公司 | 基于音色的音频转换方法及装置 |
CN107818792A (zh) * | 2017-10-25 | 2018-03-20 | 北京奇虎科技有限公司 | 音频转换方法及装置 |
CN109935225A (zh) * | 2017-12-15 | 2019-06-25 | 富泰华工业(深圳)有限公司 | 文字信息处理装置及方法、计算机存储介质及移动终端 |
CN111587455B (zh) * | 2018-01-11 | 2024-02-06 | 新智株式会社 | 利用机器学习的文本语音合成方法、装置及计算机可读存储介质 |
CN111587455A (zh) * | 2018-01-11 | 2020-08-25 | 新智株式会社 | 利用机器学习的文本语音合成方法、装置及计算机可读存储介质 |
CN109410913A (zh) * | 2018-12-13 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法、装置、设备及存储介质 |
US11264006B2 (en) | 2018-12-13 | 2022-03-01 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice synthesis method, device and apparatus, as well as non-volatile storage medium |
CN111383658A (zh) * | 2018-12-29 | 2020-07-07 | 广州市百果园信息技术有限公司 | 音频信号的对齐方法和装置 |
CN110010136A (zh) * | 2019-04-04 | 2019-07-12 | 北京地平线机器人技术研发有限公司 | 韵律预测模型的训练和文本分析方法、装置、介质和设备 |
CN110335588A (zh) * | 2019-06-26 | 2019-10-15 | 中国科学院自动化研究所 | 多发音人语音合成方法、系统及装置 |
CN111785258A (zh) * | 2020-07-13 | 2020-10-16 | 四川长虹电器股份有限公司 | 一种基于说话人特征的个性化语音翻译方法和装置 |
CN111785258B (zh) * | 2020-07-13 | 2022-02-01 | 四川长虹电器股份有限公司 | 一种基于说话人特征的个性化语音翻译方法和装置 |
CN111968617B (zh) * | 2020-08-25 | 2024-03-15 | 云知声智能科技股份有限公司 | 一种非平行数据的语音转换方法及系统 |
CN111968617A (zh) * | 2020-08-25 | 2020-11-20 | 云知声智能科技股份有限公司 | 一种非平行数据的语音转换方法及系统 |
CN112133282B (zh) * | 2020-10-26 | 2022-07-08 | 厦门大学 | 轻量级多说话人语音合成系统及电子设备 |
CN112133282A (zh) * | 2020-10-26 | 2020-12-25 | 厦门大学 | 轻量级多说话人语音合成系统及电子设备 |
CN113159604A (zh) * | 2021-04-30 | 2021-07-23 | 贵州电网有限责任公司 | 一种基于增强现实的电力系统调度操作可视化方法 |
CN114495898B (zh) * | 2022-04-15 | 2022-07-01 | 中国科学院自动化研究所 | 一种统一的语音合成与语音转换的训练方法和系统 |
CN114495898A (zh) * | 2022-04-15 | 2022-05-13 | 中国科学院自动化研究所 | 一种统一的语音合成与语音转换的训练方法和系统 |
CN117275458A (zh) * | 2023-11-20 | 2023-12-22 | 深圳市加推科技有限公司 | 智能客服的语音生成方法、装置、设备及存储介质 |
CN117275458B (zh) * | 2023-11-20 | 2024-03-05 | 深圳市加推科技有限公司 | 智能客服的语音生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101751922B (zh) | 2011-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101751922B (zh) | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 | |
Eyben et al. | Unsupervised clustering of emotion and voice styles for expressive TTS | |
CN101064104B (zh) | 基于语音转换的情感语音生成方法 | |
CN101930735B (zh) | 语音情感识别设备和进行语音情感识别的方法 | |
CN103531196B (zh) | 一种波形拼接语音合成的选音方法 | |
CN110534095A (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN103177733B (zh) | 汉语普通话儿化音发音质量评测方法与系统 | |
CN107657017A (zh) | 用于提供语音服务的方法和装置 | |
Bhaykar et al. | Speaker dependent, speaker independent and cross language emotion recognition from speech using GMM and HMM | |
CN102568476B (zh) | 基于自组织特征映射网络聚类和径向基网络的语音转换法 | |
CN103928023A (zh) | 一种语音评分方法及系统 | |
CN101178896A (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
CN103065620A (zh) | 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法 | |
CN103021418A (zh) | 一种面向多时间尺度韵律特征的语音转换方法 | |
CN106653002A (zh) | 一种文字直播方法及平台 | |
Liu et al. | Emotional voice conversion with cycle-consistent adversarial network | |
Panda et al. | Text-to-speech synthesis with an Indian language perspective | |
CN103871413A (zh) | 基于svm和hmm混合模型的男女说话声音分类方法 | |
Farooq et al. | Mispronunciation detection in articulation points of Arabic letters using machine learning | |
Kothadiya et al. | Different Methods Review for Speech to Text and Text to Speech Conversion | |
Raju et al. | Application of prosody modification for speech recognition in different emotion conditions | |
TWI402824B (zh) | 中文自發性語音合成中發音變異產生之方法 | |
CN111063335B (zh) | 一种基于神经网络的端到端声调识别方法 | |
Wenjing et al. | A hybrid speech emotion perception method of VQ-based feature processing and ANN recognition | |
Li et al. | A lyrics to singing voice synthesis system with variable timbre |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210527 Address after: 100084 101-3, 1st floor, building 9, yard 1, Nongda South Road, Haidian District, Beijing Patentee after: Beijing Zhongke Ouke Technology Co.,Ltd. Address before: 100080 No. 95 East Zhongguancun Road, Beijing, Haidian District Patentee before: INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES |
|
TR01 | Transfer of patent right |