CN106448673A

CN106448673A - 一种汉语电子喉语音转换方法

Info

Publication number: CN106448673A
Application number: CN201610830172.0A
Authority: CN
Inventors: 李明; 郑桦迪; 王璐婷; 丘卫红; 蔡跃新; 陈兆聪
Original assignee: SYSU CMU Shunde International Joint Research Institute; National Sun Yat Sen University
Current assignee: SYSU CMU Shunde International Joint Research Institute; National Sun Yat Sen University
Priority date: 2016-09-18
Filing date: 2016-09-18
Publication date: 2017-02-22
Anticipated expiration: 2036-09-18
Also published as: CN106448673B

Abstract

本发明公开一种汉语电子喉语音转换方法，具体过程为：训练阶段：从语音材料中获取梅尔倒谱参数MCC，基频F0和频谱SP参数，训练MCC和SP的0阶段参数的GMM模型，训练动态F0的GMM模型，训练MCC的GMM模型，训练SP的NMF字典；转换阶段：根据以上得到GMM模型、NMF字典根据需求将新的源语音转换成目标语音。本发明是针对在提高EL自然度的同时减少对语音可懂性的影响而提出的。为了提高自然度，使用GMM来估算得到动态F0。接着为了提高音频可懂度，使用NMF来估算高质量的频谱用于声音重建。同时为了抑制EL设备的振动噪声，本发明还对语音特征的第0阶参数同样使用GMM的方法。最后采取了客观和主观评价来说明本混合系统在转换语音自然度和可懂性上比传统方法取得更好的结果。

Description

一种汉语电子喉语音转换方法

技术领域

本发明涉及电子语音领域，更具体地，是一种基于高斯混合模型GMM和/或非负矩阵分解NMF的汉语电子喉语音转换方法。

背景技术

每年都有不少咽喉病患需要接受声带切除手术，以至于他们需要使用发声设备来辅助日常生活。电子喉(Electrolarynx，EL)就是这种专门用于复原声音的发声仪器。当患者尝试说话时，他将EL设备顶在下颌附近，通过机械振动以及口腔变化而发出不同声音。

但是传统设备里有三个问题，第一是EL的振动频率是不变的，因此发出的声音是固定的音调，让声音显得很不自然。第二是由于机械能量转换不够到位，设备会散播出高能量振动的噪音，影响周围听众，第三是喉咙切除导致他们的特有的嗓音永远丢失，只能产生非自然人声的语音。为了解决这些问题，目前对EL语音增强的研究主要使用两个方法，第一是利用降噪的方法来提高语音质量，第二是通过统计学语音转换的方法，例如用GMM对语音频谱信息(一般是梅尔倒谱参数的第1阶到第24阶)进行估算，让声音结果更像本人声音。前者没有很明显改善语音自然度，因为它保持原来的基频F0信息不变，后者虽然通过语音转换能大幅改善自然度，但是会降低音频质量，影响语音的可懂性，这是GMM语音转换的通病。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷(不足)，提供一种汉语电子喉语音转换方法。该方法使用语音转换技术来改善汉语电子喉语音。

为解决上述技术问题，本发明的技术方案如下：

一种汉语电子喉语音转换方法，采用GMM转换或NMF转换，其具体过程分别为：

GMM转换：

训练阶段：

步骤101：从语音材料中获取梅尔倒谱参数MCC和基频F0；

步骤102：训练MCC的0阶参数的GMM模型，训练动态F0的GMM模型，训练MCC的GMM模型；

转换阶段：

步骤103：根据以上模型估算0阶参数，动态F0和转换的MCC；

步骤104：结合获取的0阶参数和动态F0，将转换的MCC复原成转换语音；

NMF转换：

训练阶段：

步骤201：从语音材料中获取频谱SP参数和基频F0，

步骤202：训练SP的0阶参数的GMM模型，训练动态F0的GMM模型，训练SP的NMF字典；

转换阶段：

步骤203：根据以上模型估算0阶参数，动态F0和转换的MCC；

步骤204：结合获取的0阶参数和动态F0，将转换的MCC复原成转换语音。

优选地，采用GMM转换时，训练MCC的0阶参数的GMM模型，估算0阶参数的实现过程为：

训练过程：

步骤301：取出源语音的MCC及其一阶差分参数△，以及目标语音的MCC的0阶参数以及其一阶差分△；

步骤302：训练MCC的0阶参数的GMM模型；

估算0阶参数过程：

步骤303：对新获得的电子喉语音提取同样MCC和一阶差分参数△；

步骤304：输入到MCC的0阶参数的GMM模型，估算出含有一阶差分△信息约束的0阶参数，存储备用。

优选地，采用NMF转换时，已知每个人的语音可以分解成两个非负矩阵，分解公式如下：

X＝H·W

X是电子喉的特征和自然人声特征的联合特征，W是要估算的字典，H是激活矩阵；

则训练NMF字典，并基于NMF字典将新的源语音转换成目标语音的实现过程为：

训练过程：

步骤401：先提取两种语音材料的频谱信息高维特征SP；

步骤402：使用动态规整的方法对齐两个特征；

步骤403：拼接成联合特征训练NMF两个字典：源说话人的字典和目标说话人的字典；

转换过程：

步骤404：对新获得的电子喉语音提取同样高维特征；

步骤405：利用已有的源说话人字典W对该语音进行分解，得到一个激活矩阵H；

步骤406：令源语音和目标语音的激活矩阵是相似的，则将该激活矩阵H乘以目标说话人字典，得到估算出来的目标高维频谱SP；

步骤407：再和其他成分一起还原成语音。

优选地，所述步骤402，是使用低维的MCC来对齐各个帧，以达到对齐两个特征。

优选地，采用NMF转换时，训练动态F0模型，估算动态F0的实现过程为：

训练过程

步骤501：在分解好的两种语音材料中，取出源语音的MCC和一阶差分参数△，以及目标语音的F0和一阶差分△；

步骤502：拼接成联合特征训练一个动态F0的GMM模型；

估算动态F0过程：

步骤503：对新获得的电子喉语音提取MCC特征和一阶差分参数△；

步骤504：输入到动态F0的GMM模型，估算出有一阶差分△信息约束的动态F0，存储备用。

本发明使用语音转换技术来改善汉语电子喉语音，特别是混合了高斯混合模型(Gaussian Mixture Model，GMM)和非负矩阵分解(Non-negative Matrix Factorization，NMF)的方法来提高电子喉语音质量，并且添加梅尔倒谱参数(Mel-cepstral coefficient，MCC)的第0阶参数来抑制噪声，在NMF方法下使用频谱SP第0阶参数。

与现有技术相比，本发明技术方案的有益效果是：本发明针对在提高EL自然度的同时减少对语音可懂性的影响，提出了一种混合了NMF和GMM的方法来实施语音转换。为了提高自然度，考虑到F0的影响，并使用GMM来估算动态F0。接着为了提高音频可懂度，使用NMF来估算高质量的频谱用于声音重建。同时为了抑制EL设备的振动噪声，本发明还对语音特征的第0阶参数同样使用GMM的方法，通过合成0阶参数来降噪。最后采取了客观和主观评价来说明本混合系统在自然度和可懂性上比传统所得的更好结果。

附图说明

图1是基于GMM的语音转换框架图。

图2是基于NMF的语音转换框架图。

图3是MCC第0阶参数和F0信息的训练材料结构图。

图4是本发明中的语音转换框架图。

图5是本发明的主观评测结果。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。

一种汉语电子喉语音转换方法，具体过程为：

训练阶段：从语音材料中获取MCC，基频F0和频谱SP参数，训练MCC和SP的0阶段参数的GMM模型，训练动态F0模型，训练MCC的GMM模型，训练SP的NMF字典；

转换阶段：利用以上的GMM模型、NMF字典根据对转换效果的要求进行组合配置，将新的源语音转换成目标语音。

优选的，训练0阶段参数的GMM模型，动态F0的GMM模型，并基于GMM模型将新的源语音转换成目标语音的实现过程为：

训练过程

步骤101：在分解好的两种语音材料，取出源语音的MCC和一阶差分参数△，以及目标语音的MCC和一阶差分△，根据MCC动态规整信息对齐两个特征，拼接成联合特征训练一个MCC的GMM模型；

步骤102：在分解好的两种语音材料，取出源语音的MCC和一阶差分参数 △，以及目标语音的0阶参数MCC和一阶差分△，拼接成联合特征训练一个0阶参数的GMM模型；

步骤103：在分解好的两种语音材料，取出源语音的MCC和一阶差分参数△，以及目标语音的F0和一阶差分△，拼接成联合特征训练一个动态F0的GMM模型；

估算0阶参数过程：

步骤104：对新获得的电子喉语音提取MCC和一阶差分参数△；

步骤105：输入到0阶参数的GMM模型，估算出有一阶差分△信息约束的0阶参数；

估算动态F0过程：

步骤106：对新获得的电子喉语音提取MCC和一阶差分参数△；

步骤107：输入到动态F0的GMM模型，估算出有一阶差分△信息约束的0阶参数；

转换过程：

步骤108：对新获得的电子喉语音提取MCC和一阶差分参数△

步骤109：输入到MCC的GMM模型，估算出含有一阶差分△信息约束的新MCC；

步骤1010：结合之前获取的0阶参数和动态F0，将新的MCC进行合成得到转换的语音；本实施例中采用的合成的方法是STRAIGHT方法。

已知每个人的语音可以分解成两个非负矩阵，分解公式如下：

X＝H·W

则训练动态F0的GMM模型，并基于NMF模型将新的源语音转换成目标语音的实现过程为：

训练过程：

步骤201：先提取两种语音材料的频谱信息高维特征SP，使用动态规整的方法对齐两个特征，拼接成联合特征训练NMF两个字典：源说话人的字典和目标说话人的字典；

步骤202：在分解好的两种语音材料，取出源语音的MCC和一阶差分参数 △，以及目标语音的F0和一阶差分△，拼接成联合特征训练一个动态F0的GMM模型；

估算动态F0过程：

步骤203：对新获得的电子喉语音提取MCC和一阶差分参数△；

步骤204：输入到动态F0的GMM模型，估算出有一阶差分△信息约束的动态F0；

转换过程：

步骤205：对新获得的电子喉语音提取同样高维特征SP；

步骤206：利用已有的源说话人字典W对该语音进行分解，得到一个激活矩阵H；

步骤207：令源语音和目标语音的激活矩阵是相似的，则将该激活矩阵H乘以目标说话人字典，得到估算出来的目标高维频谱SP；

步骤208：结合之前获取的0阶参数和动态F0，将新的SP进行合成得到转换的语音。

训练0阶段参数的GMM模型，训练动态F0的GMM模型，并基于NMF字典将新的源语音转换成目标语音的实现过程为：

训练过程：

步骤301：先提取两种语音材料的频谱信息高维特征SP，使用动态规整的方法对齐两个特征，拼接成联合特征训练NMF两个字典：源说话人的字典和目标说话人的字典；

步骤302：在分解好的两种语音材料，取出源语音的MCC和一阶差分参数△，以及目标语音的F0和一阶差分△，拼接成联合特征训练一个动态F0的GMM模型；

步骤303：在分解好的两种语音材料，取出源语音的MCC和一阶差分参数△，以及目标语音的SP的0阶参数和一阶差分△，拼接成联合特征训练一个0阶参数的GMM模型；

估算0阶参数过程：

步骤304：对新获得的电子喉语音提取MCC和一阶差分参数△；

步骤305：输入到0阶参数的GMM模型，估算出有一阶差分△信息约束的0阶参数；

估算动态F0过程：

步骤306：对新获得的电子喉语音提取MCC和一阶差分参数△；

步骤307：输入到动态F0的GMM模型，估算出有一阶差分△信息约束的动态F0；

转换过程：

步骤308：对新获得的电子喉语音提取同样高维特征SP；

步骤309：利用已有的源说话人字典W对该语音进行分解，得到一个激活矩阵H；

步骤3010：令源语音和目标语音的激活矩阵是相似的，则将该激活矩阵H乘以目标说话人字典，得到估算出来的目标高维频谱SP；

步骤3011：结合之前获取的0阶参数和动态F0，将新的SP进行合成得到转换的语音。

本发明主要是利用到语音转换的一些方法来提升电子喉的语音质量，并且在此基础上进行改进。一般语音转换有两个阶段，训练阶段和转换阶段，训练阶段需要两个说话人的语料，一般是源说话人(电子喉声音)和目标说话人(自然人声)讲了一模一样内容的语音。我们会将语音分解成基频F0，频谱特征等成分后单独修改频谱，最后将处理好的频谱和原来的其他成分合成还原语音。

语音的分解和合成在本实施例中使用了STRAIGHT的方法。将一个语音分解了以后，主要转换频谱SP和基频F0两个部分，GMM方法中频谱SP会往往进一步降维到低维特征后再处理，例如MCC，而又由于MCC和SP的0阶参数被认为只与能量相关，训练GMM前去掉0阶参数，防止不良影响。

传统基于GMM的语音转换框架如图1：

训练过程：

步骤1：先分解两者语音材料，取出当中的频谱低维特征例如25维MCC，

步骤2:去除0阶参数，使用动态规整的方法对齐两者特征，

步骤3：拼接成联合特征训练一个GMM模型。

转换过程：

步骤1：对新获得的电子喉语音提取同样低维特征，去除0阶参数，输入到GMM模型，得到估算出来的目标低维特征；

步骤2：然后再将线性归一化处理后的F0，该语音的原0阶参数，一起还原成语音。

在这个基础上，本实施例提出三个改进：

1、提出基于NMF的电子喉语音转换框架如图2，该方法由于直接对频谱进行转换修改，能够获得更高质量的转换语音，NMF的方法认为，每个人的语音可以分解成两个非负矩阵(由于频谱不可能出现负数)，分解公式如下：

X＝H·W

X是电子喉的特征和自然人声特征的联合特征，W是要估算的字典，H是激活矩阵。

训练过程：

步骤1：先提取两者语音材料的频谱信息高维特征，例如512维频谱SP；

步骤2：使用动态规整的方法对齐两者特征(可以使用低维的MCC来对齐各个帧)；

步骤3：拼接成联合特征训练NMF两个字典：源说话人的字典和目标说话人的字典。

转换过程：

步骤1：对新获得的电子喉语音提取同样高维特征；

步骤2：利用已有的源说话人字典W对该语音进行分解，得到一个激活矩阵H；

步骤3：由于认为在同样的语义内容下，源语音和目标语音的激活矩阵是相似的，所以直接将该激活矩阵乘以目标说话人字典，就可以得到估算出来的目标高维频谱SP；

步骤4：再和其他成分一起还原成语音。

2、提出基于GMM的动态平滑F0估算方法。传统的GMM语音转换只考虑线性地处理源语音和目标语音的F0信息，通过均值方差的换算方法来达到转换F0的目的，但是由于电子喉发声原理是使用固定的机械振动，转换后到的静态F0轨迹不能提高语音的自然度。因此本发明提出通过单独训练一个用于获取动态F0轨迹，让转换后的语音与自然人声更相似。

训练过程

步骤1：在分解好的两者语音材料，取出源语音的频谱低维特征和一阶差分参数△，以及目标语音的F0特征和一阶差分△，如图3a；

步骤2：根据MCC动态规整信息对齐两个特征；

步骤3：拼接成联合特征训练一个GMM模型；

估算F0过程：

步骤1：对新获得的电子喉语音提取同样频谱低维特征和一阶差分参数△；

步骤2：输入到GMM模型，估算出有一阶差分△信息约束的动态F0特征，存储备用。

步骤3：得到的这个动态F0将会替换传统系统的归一化F0，参与到转换语音合成。

3、提出基于GMM的0阶参数估算方法。

传统GMM方法里频谱特征的0阶参数经常不被考虑到语音转换的计算中，考虑到它的能量对估算结果有副作用，所以在合成目标语音时，直接使用源语音的0阶参数。然而在电子喉语音中，EL设备会发出振动噪声，而这个信息就包含在0阶参数中，因此为了更好地恢复出转换的结果，不能直接采用包含噪声的源0阶参数，而是也通过训练一个GMM来估算0阶参数的大小。对于第一个基于NMF的方法，可以继续通过用这个参数均一化频谱来进一步提高音频质量。

训练过程

步骤1：在分解好的两者语音材料，取出源语音的频谱特征和一阶差分参数△，以及目标语音的0阶参数和一阶差分△，如图3b；

步骤2：根据MCC动态规整信息对齐两个特征；

步骤3：拼接成联合特征训练一个GMM模型。

估算0阶参数过程：

步骤1：对新获得的电子喉语音提取同样频谱特征(SP或者MCC)和一阶差分参数△；

步骤2：输入到GMM模型，估算出有一阶差分△信息约束的0阶参数，存储备用。

步骤3：在合成转换语音的时候，我们将使用得到的这个估算的0阶参数，而不是像传统方法那样直接使用源语音的0阶参数。

因此组合以上的改进，可以得到图4的组合系统，并且将会在实验中验证得到的结果是否跟预期的改善相符。

实验设置：

源说话人和目标说话人都是同一个23岁中国女性，用自然语音和电子喉分别各录制100句内容相同的日常用语。录制电子喉语音时，该志愿者先通过培训如何在不振动声带的情况下，模拟失喉患者仅仅依赖电子喉发声的情景。使用的电子喉是湖州天酬医疗器械有限公司的产品，录音采样率为16kHz。试验设计了90句训练10句验证的交叉验证。语音信号帧长为25毫秒，帧移为5毫秒。GMM的核心数为125，而NMF的字典大小设为100。

客观评测：

在该实验中，客观评价可以采用梅尔倒谱失真率MCD(Mel-cepstral Distortion)来评估两个语音的相似程度，该参数通过以下的公式在变声结果的MCC特征和目标说话人语音MCC特征之间计算出来。

其中和分别是第d维目标说话人倒谱参数和第d维变声结果倒谱参数，MCD值越大，表示音频之间失真越严重，越不像，反之，表示音频相似度越大，dB是单位。

主观评测：

在主观评测中，6位志愿者要根据音频的自然度，可懂度和相似度使用五个标准对语音进行打分，分别为5-很好，4-好，3-一般，2-差，1-很差，7个语音样品被呈现在志愿者前：1)源语音(EL)，2)GMM方法加上动态的F0，3)GMM方法加上0阶参数，4)NMF方法加上线性归一化的F0(F0_Nor)，5)NMF方法加上动态的F0，6)NMF方法加上动态的F0和0阶参数，7)参考目标语音(TG)。

实验结果：

客观测试结果：

基于表1，可以看到相比没有转换，GMM+动态F0的转换结果让失真率降低6.28(dB)。考虑添加估算0阶参数后，失真率进一步降低0.82(dB)。而对于NMF方法，由于NMF直接在频谱上操作，所以跟低维的GMM方法没有可比性。但是可以看到对于NMF来说，添加了0阶参数后，呈现降低的趋势。

表1

F0和0阶参数的相关参数如表2，可以看到源语音F0和目标语音的相关参数是0.0035，源语音F0在归一化转换后与目标语音的相关参数也只是达到了0.0749，没有明显的改进。而通过GMM估算获得的动态F0把相关性提高到54％。对于0阶参数，我们得到了也得到了46％的相关系提高。这个高相关性大大抑制了EL语音的振动噪声。

表2

主观测试结果：

在自然度评测中(如图5(a))，最高的提升了约47％。使用了估算的0阶参数以后，相比基本的GMM和NMF的语音转换方法(GMM+动态F0，NMF+F0_Nor)，新方法(GMM+动态F0+0阶参数，NMF+F0_Nor+0阶参数)都比原来的系统表现更好。同时提出的NMF+动态F0比NMF+F0_Nor获得了更好的自然度评价。整体而言GMM+动态F0+0阶参数的系统得到了最好自然度性能。

在可懂度评测中(如图5(b))，NMF+动态F0+0阶参数的子系统的结果可懂度表现最好。除此以外可以看到考虑了0阶参数后，可懂度提高得比较明显，说明振动噪声对语音的可懂度影响比较大。

在相似度上(如图5(c))，所有的方法都提高了转换效果，相对来说GMM方法比NMF方法更明显。也可以看到不同F0和是否考虑0阶参数也是会影响相似度。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种汉语电子喉语音转换方法，其特征在于，采用GMM转换或NMF转换，其具体过程分别为：

GMM转换：

训练阶段：

步骤101：从语音材料中获取梅尔倒谱参数MCC和基频F0；

转换阶段：

步骤103：根据以上模型估算0阶参数，动态F0和转换的MCC；

NMF转换：

训练阶段：

步骤201：从语音材料中获取频谱SP参数和基频F0，

转换阶段：

步骤203：根据以上模型估算0阶参数，动态F0和转换的MCC；

2.根据权利要求1所述的汉语电子喉语音转换方法，其特征在于，采用GMM转换时，训练MCC的0阶参数的GMM模型，估算0阶参数的实现过程为：

训练过程：

步骤302：训练MCC的0阶参数的GMM模型；

估算0阶参数过程：

3.根据权利要求1所述的汉语电子喉语音转换方法，其特征在于，采用NMF转换时，已知每个人的语音可以分解成两个非负矩阵，分解公式如下：

X=H•W

训练过程：

步骤401：先提取两种语音材料的频谱信息高维特征SP；

步骤402：使用动态规整的方法对齐两个特征；

转换过程：

步骤404：对新获得的电子喉语音提取同样高维特征；

步骤407：再和其他成分一起还原成语音。

4.根据权利要求3所述的汉语电子喉语音转换方法，其特征在于，所述步骤402，是使用低维的MCC来对齐各个帧，以达到对齐两个特征。

5.根据权利要求1所述的汉语电子喉语音转换方法，其特征在于，采用NMF转换时，训练动态F0模型，估算动态F0的实现过程为：

训练过程

步骤502：拼接成联合特征训练一个动态F0的GMM模型；

估算动态F0过程：