CN101751922A

CN101751922A - 基于隐马尔可夫模型状态映射的文本无关语音转换系统

Info

Publication number: CN101751922A
Application number: CN200910089586A
Authority: CN
Inventors: 陶建华; 张蒙
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Beijing Zhongke Ouke Technology Co ltd
Priority date: 2009-07-22
Filing date: 2009-07-22
Publication date: 2010-06-23
Anticipated expiration: 2029-07-22
Also published as: CN101751922B

Abstract

本发明基于隐马尔可夫模型状态映射的文本无关语音转换系统，由数据对齐模块接收源和目标说话人语音参数，根据音素信息对齐输入数据来生成状态对齐的数据对；频谱转换模型生成模块接收对齐过的数据对，根据数据建立基于源和目标说话人语音频谱参数转换模型；韵律转换模型生成模块接收对齐过的数据对，根据数据建立基于源和目标说话人语音韵律参数转换模型；在线转换模块根据频谱转换模型生成模块和韵律转换模型生成模块生成的转换模型和源说话人的待转换语音数据，得到转换后的语音频谱参数和韵律参数；参数语音合成器模块接收来自于在线转换模块的转换后的频谱信息和韵律信息，输出转换后的语音结果。

Description

基于隐马尔可夫模型状态映射的文本无关语音转换系统

技术领域

本发明涉及一种语音转换系统，具体地涉及基于隐马尔可夫模型状态映射的文本无关语音转换系统。

背景技术

和谐人机交互技术一直都是人们关注的对象，面向个性化语音的语音转换技术是其重要组成部分，它能够对一个人的声音进行处理，使之变成另一个人的声音，其研究成果对个性化语音生成、人机对话等方向的发展具有重要的意义。而目前已有的大多数语音转换技术一般基于文本相关技术，这种技术必须要求源说话人和目标说话人提供文本相同的语音训练样本，又称其为平行语料训练方式。由于现实生活中，平行语料的要求较高，且要求技术使用者花费大量的精力去建立，因而极大的限制了已有语音转换技术的应用空间。与之相比，基于非平行语料的文本无关语音转换技术，将有效的解决这一难题。

在建立语音转换模型过程中，一般首先需要构建一个源说话人和目标说话人的成对语音训练队列，用于模型的训练，在这样的语音队列中需要保证两个说话人的语音内容相同或相似。传统上，由于平行语料在发音内容上具有很好的对应性和一致性，很容易通过训练数据的对齐，来构建语音训练队列。非平行语料的情况要复杂的多，由于这种情况下，源说话人和目标说话人完全可以说的不是同样的内容，很难将源说话人的语音与目标说话人的语音对齐。针对这一问题，有些学者试图以语音频谱参数之间的距离作为语音对齐训练的准则，这种方法依据最近距离准则虽能够产生比较平滑的转换函数或规则，但是只靠语音频谱参数距离来建立映射关系，容易产生音素错位的现象，降低转换的准确性。

发明内容

为了解决现有技术问题，本发明的目的是要提出一种可以基于音素信息实现非平行语料之间的数据对齐，使得对齐数据有较高的准确性；根据对齐的数据可以生成出基于非平行语料的转换模型，对输出的源说话人语音进行转换得到贴近目标说话人音色的语音。为此，本发明构建一种基于隐马尔可夫模型状态映射的文本无关语音转换系统。

为实现上述目的，本发明的一种基于隐马尔可夫模型状态映射的文本无关语音转换系统，利用各种电脑终端及数字移动设备，将系统接收的源说话人语音输入转换成具有特定的目标说话人音色的语音输出，并且在训练过程中对训练文本没有要求，可任意输入语音，由数据对齐模块、频谱转换模型生成模块、韵律转换模型生成模块、在线转换模块、参数语音合成器模块组成，其中

具有一数据对齐模块，其输入端接收源和目标说话人的非平行语料数据，对两者语音数据进行匹配对齐，为语音转换中的转换模型生成部分提供生成用的数据对，频谱转换模型生成模块具有一输出端输出对齐的的频谱信息训练数据对和韵律信息训练数据对信息；

具有一频谱转换模型生成模块，其输入端接收来自数据对齐模块对齐后的频谱信息对齐数据对，根据频谱信息训练数据对建立频谱转换模型；频谱转换模型生成模块具有一输出端输出基于源和目标说话人语音频谱参数的转换模型；

具有一韵律转换模型生成模块，输入端接收来自数据对齐模块对齐后的韵律信息对齐数据对，根据韵律信息训练数据对建立韵律信息的转换模型；韵律转换模型生成模块具有一输出端输出基于源和目标说话人语音韵律参数的转换模型；

具有一在线转换模块，其输入端接收分别来自于频谱转换模型生成模块和韵律转换模型生成模块生成的转换模型和源说话人的待转换语音数据；在线转换模块具有一输出端输出转换后语音频谱参数和韵律参数；

具有一参数语音合成器模块，其输入端接收来自于在线转换模块的转换后的频谱参数信息和韵律参数信息；参数语音合成器模块具有一输出端输出转换后的语音结果。

根据本发明的实施例，所述数据对齐模块包括：

具有一隐马尔可夫模型状态生成模块，其接受任意源和目标说话人的语音信息，生成相应的源说话人隐马尔可夫模型和目标说话人隐马尔可夫模型，并提取出基于不同音素单元模型的状态；隐马尔可夫模型状态生成模块具有一输出端输出基于音素的隐马尔可夫模型状态集合；

具有一基于音素的状态对齐模块，根据训练得到的基于音素的隐马尔可夫模型状态找到源和目标说话人参数空间的对应关系，得到状态对应的数据对；基于音素的状态对齐模块具有一输出端输出源和目标说话人之间对齐的隐马模型状态对。

优选的实施例，所述频谱转换模型是生成并输出频谱转换的码本映射模型。

优选的实施例，所述韵律转换模型生成模块包括：

具有一韵律信息转换模型生成模块是根据输入语音参数的关联信息建立基于分类回归树方法的韵律转换并输出基于分类回归树的韵律转换模型。

优选的实施例，所述在线转换模块含有频谱信息在线转换模块和韵律信息在线转换模块；

频谱信息在线转换模块输入端输入待转换的源说话人语音信息和频谱转换模型，负责在线实时的转换输入的源说话人频谱信息；

韵律信息在线转换模块输入端输入待转换的源说话人语音信息和韵律转换模型，负责在线实时的转换输入的源说话人韵律信息。

优选的实施例，频谱在线转换模块包括：

具有一码本聚类模块，其接受转换码本信息，对码本进行分级聚类，得到多个聚类中心和聚类信息；码本聚类模块具有一输出端输出聚类信息和聚类中心；

具有一分级码本查找模块，其接受聚类后的转换码本和聚类信息，根据聚类中心和相应的聚类成员，在给定输入语音参数之后，快速找到相应码本单元；分级码本查找模块具有一输出端输出根据输入语音参数分级查找到最近码本单元。

具有一基于码本的转换模块，其接受根据输入语音参数序列得到的码本单元序列，生成对应的转换后码本序列；基于码本的转换模块具有一输出端输出转换后的码本序列。

本发明的有益效果：

为实现上述目的，本发明的第一方面，在该框架中，通过基于音素信息的隐马尔可夫模型状态对应来实现非平行语料下的训练数据对齐。传统的基于平行语料的语音转换系统，由于高度平行的上下文信息，输入数据以时间帧为单位。但是在非平行语料下，时间帧单位受不同的上下文信息影响较大，以帧为单元找到具有语音关联及语音内容依据的映射比较困难。本发明利用隐马尔可夫模型状态来做为数据对应单元，使得数据的对应在不同的上下文环境中更加稳定和鲁棒。状态之间的对应过程，本发明采用了模型之间的相似度这样的指标来衡量状态之间的对应关系，模型的参数分布采用高斯分布，模型之间的相似度度量为两个高斯分布相似度之间的度量。

为实现上述目的，本发明的第二方面，本发明在状态对应阶段，加入了音素指导信息。在隐马尔可夫模型的训练过程中，可以获得模型和音素单元之间的从属关系，状态和音素单元之间的从属关系也可以从中获得，在状态对应时可以指定属于某一音素的状态必须对应到属于同一音素的状态，或者可以将音素约束信息加入到模型相似度的度量中，增加了数据对应的准确性。

为了实现上述目的，本发明的第三个方面，本发明在韵律转换阶段，利用了语音参数的关联信息，融合参数化的韵律模型，对源和目标说话人之间的韵律差别进行建模，建立基于决策树的韵律转换模型。在韵律转换过程中，根据输入的语音关联信息，可以得到基于韵律差异的参数模型，应用到源说话人的韵律信息得到目标说话人韵律信息。这样的韵律转换方法使得转换结果较为丰富，并且更加具有表现力。

附图说明

通过以下结合附图的详细描述，本发明的上述和其它方面、特征和优点将变得更加显而易见。附图中：

图1是本发明所提出的基于隐马尔可夫模型状态映射的文本无关语音转换系统的总体框图。

图2是数据对齐模块的框图。

图3是基于音素的状态对齐模块的框图。

图4是频谱转换模型生成模块的框图。

图5是韵律转换模型生成模块的框图。

图6是在线转换模块的框图

具体实施方式

下面结合附图和实例对本发明进一步说明，通过结合附图对系统各组成部件的详细说明将会更好地描述实现本发明的步骤和过程。应该指出，所描述的实例仅仅视为说明的目的，而不是对本发明的限制。

图1是本发明基于隐马尔可夫模型状态映射的文本无关语音转换系统示意图，系统以C语言编写，在windows平台下可使用visualstudio编译运行，在linux平台下可使用gcc编译运行。实例中，隐马尔可夫模型的训练用HTK开源工具完成，得到源和目标模型状态数各3000左右。在单核2.6GHz主频PC下，通过码本分级查找实现实时转换。实例中，参数合成器选用mcep作为频谱参数，用开源语音工具SPTK实现参数分析和合成。在附图1本发明的优选实施方案中，本系统被分为五部分：数据对齐模块1、频谱转换模型生成模块2、韵律转换模型生成模块3、在线转换模块4、参数语音合成器模块5组成。其中，数据对齐模块1和频谱转换模型生成模块2与韵律转换模型生成模块3相连接，频谱转换模型生成模块2与韵律转换模型生成模块3和在线转换模块4相连接，在线转换模块4和参数语音合成器模块5相连接。

具有一数据对齐模块1，其输入端接收源说话人语音参数A和目标说话人的非平行语料数据B，对两者语音数据A和B进行匹配对齐，为语音转换中的转换模型生成部分提供生成用数据对，数据对齐模块1具有一输出端输出对齐的数据对信息。

具有一频谱转换模型生成模块2，其输入端接收来自数据对齐模块对齐后的频谱信息训练数据对，根据对齐数据建立频谱转换模型；具有一输出端输出基于源和目标说话人语音频谱参数的转换模型。频谱转换模型为基于音素对齐的状态码本模型。

具有一韵律转换模型生成模块3，输入端接收来自数据对齐模块对齐后的韵律信息训练数据对，根据对齐数据建立韵律转换模型；具有一输出端输出基于源和目标说话人语音韵律参数的转换模型。韵律转换模型为基于语音关联信息的决策树模型。

具有一在线转换模块4，输入端接收来自于频谱转换模型生成模块和韵律转换模型生成模块生成的转换模型和待转换源说话人语音参数数据C；具有一输出端输出转换后语音频谱参数和韵律参数。

具有一参数语音合成器模块5，输入端接收来自于在线转换模块的转换后的频谱信息和韵律信息；具有一输出端输出转换后的合成语音结果D。

如图2数据对齐模块的框图所示：数据对齐模块1由隐马尔可夫模型状态生成模块10和基于音素的状态对齐模块20组成。

隐马尔可夫模型状态生成模块10：接受任意源和目标说话人的语音信息A和B，分别生成对应的隐马尔可夫模型，并提取出基于不同音素单元模型的状态，具有一输出端输出基于音素的源隐马尔可夫模型状态集合F和基于音素的目标隐马尔可夫模型状态集合G；对应的音素信息将在下面的基于音素的状态对齐中用到。基于音素信息的数据对应将会增加数据映射的准确性。

基于音素的状态对齐模块20：根据输入的基于音素的源和目标隐马尔可夫模型状态集合F和G找到源和目标说话人参数空间的对应关系，得到状态对应的数据对；具有一输出端输出源和目标说话人之间对齐的隐马模型状态对E；在状态对齐的过程中同时考虑源和目标说话人之间状态模型的相似度和所属音素信息。

如图3基于音素的状态对齐模块的框图所示：基于音素的状态对齐模块20由动态频域规整(DFW)模块110和基于音素的模型相似度度量模块120组成。

动态频域规整(DFW)模块110：输入端输入源和目标隐马尔可夫模型状态集合F和G，负责在依据模型相似度进行模型映射之前，消除模型之间基于内容的差异。利用在语音识别中广泛应用的动态频域规划(DFW)算法实现。即在求模型对应之前，先将源说话人的模型参数进行动态频域规划：

{x_{k}}^{'} (m_{k}^{x^{'}}, v_{k}^{x^{'}}) = w (x_{k} (m_{k}^{x}, v_{k}^{x}))

其中，x_k(m_k ^x，v_k ^x)为源说话人状态模型。通过频域规整去除源和目标说话人语音参数之间的整体差异；具有一输出端输出规整后的源说话人状态集合。

基于音素的模型相似度度量模块120：负责度量两个状态模型之间的相似度。对于源说话人模型x_k(m_k ^x，v_k ^x)(k＝1，...，K)，要找到合适的对应目标模型y_l(m_l ^y，v_l ^y)(l＝1，...，L)，可以将模型间的相似度作为基准，对应的关系为：

l (k) = \underset{l = 1, . . ., L}{\arg \min} D (x_{k}, y_{l})

其中，

D (x_{k}, y_{l}) = &Integral; P (X | x_{k}) \cdot P (X | y_{l}) dX

= &Integral; N (X | m_{k}^{x}, v_{k}^{x}) \cdot N (X | m_{l}^{y}, v_{l}^{y}) dX

m_k ^x，v_k ^x为模型x_k高斯分布的均值和方差；具有一输出端输出源和目标说话人之间对齐的隐马模型状态对E。

结合动态频域规整(DFW)模块110和基于音素的模型相似度度量模块120，基于音素的状态对齐模块20的状态映射关系为：

l (k) = \underset{l = 1, . . ., L}{\arg \min} D ({x_{k}}^{'}, y_{l}) .

如图4频谱转换模型生成模块的框图所示：频谱转换模型生成模块2由码本建立模块30和码本聚类和聚类中心提取模块40组成。

码本建立模块30负责根据对齐的源、目标说话人状态模型对建立状态转换码本。输入端输入对齐后的源和目标说话人之间隐马模型状态对E；具有一输出端输出转换码本集合。

码本聚类和聚类中心提取模块40输入端输入转换码本集合，码本聚类和聚类中心提取模块40负责对状态码本进行聚类并提取相应的聚类中心，得到基于码本的频谱转换模型。其目的是为后面的在线转换模块中的码本快速分级查找提过查找聚类中心，码本聚类和聚类中心提取模块40具有一输出端输出频谱转换模型H。

如图5韵律转换模型生成模块的框图所示：韵律转换模型生成模块3由语音关联信息提取模块50和基于语音关联信息的韵律差异建模模块60组成。

语音关联信息提取模块50负责提取语音关联信息，如前后单元的基频的静态参数和动态参数，时长的静态参数和动态参数等。输入是对齐的源和目标语音信息E；具有一输出端输出语音关联信息。

基于语音关联信息的韵律差异建模模块60负责生成基于关联信息的韵律差异模型，先提取对齐后源和目标说话人语音单元韵律信息的差值，在利用决策树模型生成韵律差异模型，得到可以应用到源说话人韵律信息上的韵律转换模型。输入是对齐的源和目标语音信息E和语音关联信息；具有一输出端输出韵律转换模型I。

如图6在线转换模块的框图所示：在线转换模块4由频谱信息在线转换模块70和韵律信息在线转换模块80组成。

频谱信息在线转换模块70输入端输入待转换的源说话人语音信息C和频谱转换模型H，负责在线实时的转换输入的源说话人频谱信息。对于依时间帧单元输入的源说话人频谱参数，确定对应的状态序列，对于输入的语音帧参数X，找到相应的状态序号k

k (X) = \underset{k = 1, . . ., K}{\arg \max} P (x_{k} | X)

= \underset{k = 1, . . ., K}{\arg \max} (α_{k}^{x} N (X | m_{k}^{x}, v_{k}^{x}))

其中，α_k ^x是状态k的先验概率，可以根据语料中该状态出现的频率求得。

为了达到实时转换，码本的查找过程采用分级查找方法，先查找最接近的聚类中心，再在相应的聚类中查找合适的码本单元。聚类中心为码本聚类和聚类中心提取模块40的输出；具有一输出端输出目标说话人的状态序列形式的语音频谱参数序列J。

韵律信息在线转换模块80输入端输入待转换的源说话人语音信息C和韵律转换模型I，负责在线实时的转换输入的源说话人韵律信息。根据输入语音参数的关联信息，通过查找决策树叶子节点的韵律差异参数，应用到输入的源说话人韵律信息上，可以得到转换后的目标说话人韵律信息。决策树查找的速度可以达到实时水平。具有一输出端输出目标说话人的语音韵律参数信息K。

上述实施例为本发明的较佳实施例，本发明的应用不仅限于电脑终端，还可应用到多种手持式移动设备或其它形式的移动设备。根据本发明的主要构思，本领域普通技术人员均可以产生多种相类似的或等价的应用，为此，本发明的范围不应由该描述来限定。本领域的技术人员应该理解，在不脱离本发明的范围的任何修改或局部替换，均属于本发明权利要求来限定的范围。

Claims

1.一种基于隐马尔可夫模型状态映射的文本无关语音转换系统，利用各种电脑终端及数字移动设备，将系统接收的源说话人语音输入转换成具有特定的目标说话人音色的语音输出，并且在训练过程中对训练文本没有要求，可任意输入训练语音，其特征在于：由数据对齐模块、频谱转换模型生成模块、韵律转换模型生成模块、在线转换模块、参数语音合成器模块组成，其中：

具有一数据对齐模块，其输入端接收源和目标说话人的非平行语料数据，对两者语音数据进行匹配对齐，为语音转换中的转换模型训练部分提供训练数据对，频谱转换模型生成模块具有一输出端输出对齐的频谱信息训练数据对和韵律信息训练数据对信息；

具有一频谱转换模型生成模块，其输入端接收来自数据对齐模块对齐后的频谱信息训练数据对，根据频谱信息训练数据对建立频谱信息的转换模型；频谱转换模型生成模块具有一输出端输出基于源和目标说话人语音频谱参数的转换模型；

具有一韵律转换模型生成模块，输入端接收来自数据对齐模块对齐后的韵律信息训练数据对，根据韵律信息训练数据对建立具有韵律信息的转换模型；韵律转换模型生成模块具有一输出端输出基于源和目标说话人语音韵律参数的转换模型；

具有一在线转换模块，其输入端接收来自于频谱转换模型生成模块和韵律转换模型生成模块生成的转换模型和源说话人的待转换语音数据；在线转换模块具有一输出端输出转换后语音频谱参数和韵律参数；

2.根据权利要求1所述的基于隐马尔可夫模型状态映射的文本无关语音转换系统，其特征在于：所述数据对齐模块包括：

具有一基于音素的状态对齐模块，根据生成的基于音素的隐马尔可夫模型状态找到源和目标说话人参数空间的对应关系，得到状态对应的数据对；基于音素的状态对齐模块具有一输出端输出源和目标说话人之间对齐的隐马模型状态对。

3.根据权利要求1所述的基于隐马尔可夫模型状态映射的文本无关语音转换系统，其特征在于：所述建立频谱信息的转换模型是生成并输出频谱转换的码本映射模型。

4.根据权利要求1所述的基于隐马尔可夫模型状态映射的文本无关语音转换系统，其特征在于：所述韵律转换模型生成模块是根据输入语音参数的关联信息建立基于分类回归树方法的韵律转换并输出基于分类回归树的韵律转换模型。

5.根据权利要求1所述的基于隐马尔可夫模型状态映射的文本无关语音转换系统，其特征在于：所述在线转换模块中含有频谱信息在线转换模块和韵律信息在线转换模块；

6.根据权利要求5所述的基于隐马尔可夫模型状态映射的文本无关语音转换系统，其特征在于：所述频谱信息在线转换模块包括：

具有一分级码本查找模块，其接受聚类后的转换码本和聚类信息，根据聚类中心和相应的聚类成员，在给定输入语音参数之后，快速找到相应码本单元；分级码本查找模块具有一输出端输出根据输入语音参数分级查找到最近码本单元；