CN102063899B - 一种非平行文本条件下的语音转换方法 - Google Patents

一种非平行文本条件下的语音转换方法 Download PDF

Info

Publication number
CN102063899B
CN102063899B CN2010105201070A CN201010520107A CN102063899B CN 102063899 B CN102063899 B CN 102063899B CN 2010105201070 A CN2010105201070 A CN 2010105201070A CN 201010520107 A CN201010520107 A CN 201010520107A CN 102063899 B CN102063899 B CN 102063899B
Authority
CN
China
Prior art keywords
frame
speaker
target speaker
vowel
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010105201070A
Other languages
English (en)
Other versions
CN102063899A (zh
Inventor
李燕萍
张玲华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baoge (Shanghai) Financial Information Service Co., Ltd.
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN2010105201070A priority Critical patent/CN102063899B/zh
Publication of CN102063899A publication Critical patent/CN102063899A/zh
Application granted granted Critical
Publication of CN102063899B publication Critical patent/CN102063899B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种非平行文本条件下的语音转换方法,属于语音信号处理技术领域。该方法首先对语音音素分类,其次对分类后的语音帧基于谐波加噪声模型进行分解,提取特征矢量;接着在每类音素集合中建立特征参数的转换函数,通过对每一类音素的频谱特征矢量,基于主成分语音分析建立非平行文本条件下的频谱转换模型;最后在转换阶段,形成目标说话人的估计特征,得到转换后的语音。本发明不仅能够有效分离语音信号中的语义信息和话者身份信息,增强转换语音中的话者信息,而且克服了训练阶段要求平行语料的限制,实现了非平行文本条件下的语音转换,同时降低了对语料数据量的依赖。

Description

一种非平行文本条件下的语音转换方法
技术领域:
本发明涉及一种语音转换技术,尤其是一种非平行文本条件下的语音转换方法,属于语音信号处理技术领域。
背景技术:
语音转换是语音信号处理领域近年来新兴的研究分支,是在说话人识别和语音合成的研究基础上进行的,同时也是这两个分支内涵的丰富和延拓。
语音转换的目标是改变源说话人语音中的个性特征信息,使之具有目标说话人的个性特征,从而使转换后的语音听起来就像是目标说话人的声音,而其中的语义信息保持不变。
语音转换的关键问题在于说话人个性特征的提取以及转换模型的建立,经过近二十年的发展,涌现出大量的研究成果,但这些方法大多要求训练语音是平行文本,即源说话人和目标说话人的语音在语音内容,语音时长方面都必须相同,因此在训练之前一般需要先采用动态时间规整算法对源说话人和目标说话人的语音进行强制对齐,这样必然会引入失真;并且从实际应用的角度考虑,要求大量的平行训练文本很不方便,甚至不可满足,例如在跨语种的语音转换中,源和目标说话人的语音存在语种的不同,根本不可能获得平行文本。无论从方便高效的角度分析,还是从经济实用方面考虑,非平行文本条件下语音转换方法的研究都具有极大的实际意义和应用价值。
目前非平行文本条件下的语音转换算法主要有两种,基于语音聚类的方法和基于参数自适应的方法。基于语音聚类的方法,是通过对语音帧之间距离的度量或者在音素信息的指导下选择相对应的语音单元进行转换,其本质是一定条件下将非平行文本转化为平行文本进行处理。这类方法原理简单,但需要对语音文本内容进行预提取,预提取的结果会直接影响语音的转换质量;(1.Meng Zhang, Jiaohua Tao, Jani Nurminen. Phoneme cluster based state mapping for text-independent voice conversion. ICASSP, 2009: 4281-4284. 2. Helenca Duxans, Daniel Erro, Javier Perez. Voice conversion of non-aligned data using unit selection. TC-Star Workshop on Speech to Speech Translation, 2006: 237-242.)基于参数自适应的方法,是采用语音识别中的说话人归一化或自适应方法对转换模型的参数进行处理,其本质是使得预先建立的模型向基于目标说话人的模型进行转化。这类方法能够合理利用预存储的说话人信息,但自适应过程会引起频谱的平滑,导致转换语音中的说话人个性信息不强。(1. Yamato Ohtani. Techniques for improving voice conversion based on eigenvoices. Doctoral Thesis, Nara Institute of Science and Technology, March 31, 2010. 2. D. Sundermann, H.Ney, H. Hoge. VTLN-based cross-language voice conversion. ASRU 2003: 676-681.)。
发明内容
本发明所要解决的技术问题是提供一种结合汉语语言结构特点和说话人自适应思想的非平行文本条件下的语音转换方法,达到增强转换语音中的说话人个性特征的同时提高转换语音的听觉质量。
本发明为实现上述发明目的采用如下技术方案:
一种非平行文本条件下的语音转换方法,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:
步骤A,语音信号预处理步骤:分别对输入语音信号依次进行预加重、分帧和加窗处理,所述输入语音信号分别包括目标说话人、源说话人、参考目标说话人的语音信号;
步骤B,元音帧提取步骤:根据频域能量分布特征,分别判定经步骤A预处理后的目标说话人、源说话人、参考目标说话人的语音信号中元音的位置,分别提取目标说话人、源说话人、参考目标说话人的语音信号中的元音帧;
步骤C,元音帧的音素分类,对步骤B提取到的目标说话人、源说话人、参考目标说话人的元音帧,根据汉语元音映射表分别进行音素分类;
步骤D,元音帧的语音特征提取:基于谐波加噪声模型对分类后的元音帧分别进行分解,分别求取目标说话人、源说话人、参考目标说话人的元音帧中的谐波成分和噪声成分,然后对谐波加噪声模型的参数进一步降维,提取元音帧中线性谱频率参数,最终分别得到目标说话人、源说话人、参考目标说话人的元音帧的特征矢量,所述特征矢量包括频谱特征和韵律特征;
步骤E,对于步骤D提取到的源说话人的元音帧的特征矢量,训练HMM音素分类模型;
步骤F,对于频谱特征矢量,建立频谱特征转换模型:
F1,对步骤D所述源说话人的频谱特征和参考目标说话人的频谱特征分别建立高斯混合模型,分别以各自高斯混合模型的均值矢量构成超矢量,然后对所有超矢量进行主成分分析,提取基矢量和偏移量,从而建立主成分语音模型;
F2,模型自适应:采用步骤D所述目标说话人的频谱特征对步骤F1得到的主成分语音模型进行模型自适应,得到源说话人与目标说话人的频谱特征转换模型;
步骤G,对步骤D得到的源说话人和目标说话人的韵律特征采用单高斯建模,得到各自的均值和方差; 
所述转换阶段包括如下步骤:
步骤H,输入源说话人新的语音信号,对源说话人输入的新的语音信号依次进行上述步骤A-步骤D所述的操作,得到源说话人新的语音信号中元音帧的特征矢量,采用上述步骤E得到的HMM音素分类模型进行音素分类;
步骤I,采用步骤F2得到的源说话人与目标说话人的频谱特征转换模型进行语音频谱转换,得到转换后的目标说话人的频谱特征;
步骤J,对于步骤H中得到的源说话人的韵律特征,采用步骤G得到的单高斯模型进行韵律转换,得到转换后的目标说话人的韵律特征;
步骤K,对步骤F将转换后的频谱特征和韵律特征经过谐波加噪声模型进行合成,最终得到转换后的语音。
进一步的,本发明非平行文本条件下的语音转换方法,所述步骤A的预处理步骤中,所述预加重处理的预加重系数为0.96,分帧处理按20ms分帧,帧交叠为35%,所述加窗处理采用汉明窗进行加窗处理;
进一步的,本发明非平行文本条件下的语音转换方法,所述步骤B的元音帧提取步骤如下:
B-1,计算各频率点处能量的贡献度                                                
Figure 2010105201070100002DEST_PATH_IMAGE001
根据公式 
Figure 2010105201070100002DEST_PATH_IMAGE002
计算
Figure 2010105201070100002DEST_PATH_IMAGE003
,其中
Figure 853591DEST_PATH_IMAGE003
表示人耳对音高的主观感知,
Figure 2010105201070100002DEST_PATH_IMAGE004
为当前频率;
接着根据公式
Figure 2010105201070100002DEST_PATH_IMAGE005
,计算第
Figure DEST_PATH_IMAGE006
点频率处能量的贡献度
Figure 301146DEST_PATH_IMAGE001
,其中
Figure 2010105201070100002DEST_PATH_IMAGE007
表示采样频率,
Figure DEST_PATH_IMAGE008
为帧长,频率分辨率为
Figure 2010105201070100002DEST_PATH_IMAGE009
表示人耳对第
Figure 980652DEST_PATH_IMAGE006
点频率处的主观感知,
Figure 446530DEST_PATH_IMAGE006
表示频率点数,且
Figure 927190DEST_PATH_IMAGE006
为自然数;
B-2,依次取帧,计算短时能量
Figure 2010105201070100002DEST_PATH_IMAGE011
和短时平均过零率
Figure DEST_PATH_IMAGE012
B-3,令当前帧的接受系数为
Figure 2010105201070100002DEST_PATH_IMAGE013
,其中
Figure DEST_PATH_IMAGE014
是短时能量的约束阈值,
Figure 2010105201070100002DEST_PATH_IMAGE015
是短时平均过零率的约束阈值;当所述两个约束阈值分别存在,则计算当前帧的短时能量和短时平均过零率进行帧提取,直接进入B-5步;当所述两个约束阈值不存在,进入B-4步;
B-4,对当前帧进行傅里叶变换,根据公式
Figure 2010105201070100002DEST_PATH_IMAGE017
,分别计算低频段能量和高频段能量,其中
Figure DEST_PATH_IMAGE018
代表低频段能量、
Figure 2010105201070100002DEST_PATH_IMAGE019
代表高频段能量,代表第
Figure 949856DEST_PATH_IMAGE006
点频率的能量,
Figure 931587DEST_PATH_IMAGE001
是第
Figure 251972DEST_PATH_IMAGE006
点频率处能量的贡献度,表示低频高频分界点;当帧内无声时令
Figure DEST_PATH_IMAGE022
,预先求出
Figure 778900DEST_PATH_IMAGE021
的值;当
Figure 2010105201070100002DEST_PATH_IMAGE023
,判定当前帧为元音帧;然后计算当前帧的短时能量和短时平均过零率进行帧提取,给出短时能量和短时平均过零率的约束阈值,指导后续帧的时域检测中的阈值选择;返回步骤B-2; 
B-5,
ⅰ,如果步骤B-3所述两个约束阈值分别满足条件,则当前帧被接受为元音帧,继续依照B-4步骤按概率进行抽样检测:
若抽样检测结果判定当前帧是元音帧,返回步骤B-2继续进行下一帧的判定;
若当前帧在上述抽样检测中不被接受,丢弃当前帧并按比例修改阈值;将当前短时能量和短时平均过零率的阈值分别与步骤B-3步的所述的两个约束阈值进行比较,将比较结果中两者较大的短时能量阈值、较小的短时平均过零率的阈值分别作为新的约束阈值;
ⅱ,如果步骤B-3所述两个约束阈值不满足条件
Figure 325681DEST_PATH_IMAGE024
Figure 346989DEST_PATH_IMAGE025
,则当前帧被丢弃,继续依照B-4步骤进行抽样检测:
Figure 2010105201070100002DEST_PATH_IMAGE027
时,全部进行检测;否则按
Figure DEST_PATH_IMAGE028
抽样检测;
若检测结果表示当前帧不是元音帧,则丢弃该当前帧,结束检测;
若检测结果表示当前帧是元音帧,则接受当前帧,并将当前短时能量和短时平均过零率的阈值分别与步骤B-3步的所述的两个约束阈值进行比较,将比较结果中两者较小的短时能量阈值、较大的短时平均过零率的阈值分别作为新的约束阈值;转至B-2步骤;
重复上述B-2至B-5步,直至所有元音帧提取完毕。
进一步的,本发明非平行文本条件下的语音转换方法,所述步骤F建立频谱特征转换模型的具体实现过程如下:
第一步,首先建立高斯混合模型,采用源说话人和
Figure 2010105201070100002DEST_PATH_IMAGE029
个参考目标说话人的语音以平行文本的方式训练高斯混合模型,得到与参考目标说话人无关的高斯混合模型。接着基于最大似然准则,使用第
Figure DEST_PATH_IMAGE030
个参考目标说话人的语音对得到的高斯混合模型进行对应的均值自适应,得到与参考目标说话人有关的高斯混合模型;其中
Figure 2010105201070100002DEST_PATH_IMAGE031
Figure 147979DEST_PATH_IMAGE029
表示参考目标说话人总数,
Figure 236021DEST_PATH_IMAGE029
的取值范围是20~100;
然后将得到的高斯混合模型的所有混合成分均值矢量
Figure DEST_PATH_IMAGE032
分别拼接构成超矢量,维数为
Figure DEST_PATH_IMAGE033
,表示成
Figure DEST_PATH_IMAGE034
Figure 2010105201070100002DEST_PATH_IMAGE035
是特征矢量的维数,
Figure DEST_PATH_IMAGE036
是高斯混合度,
Figure 2010105201070100002DEST_PATH_IMAGE037
表示第
Figure 505984DEST_PATH_IMAGE030
个参考目标说话人在联合高斯混合模型的第
Figure 563939DEST_PATH_IMAGE006
个混合成分的均值矢量,上标
Figure DEST_PATH_IMAGE038
表示转置;
最后对个超矢量进行主成分分析,提取基矢量
Figure DEST_PATH_IMAGE039
和偏移量
Figure DEST_PATH_IMAGE040
,建立主成分语音模型,在模型中目标说话人的均值表示为
Figure DEST_PATH_IMAGE041
, 
Figure DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
维权值矢量;
第二步,用目标说话人的训练语音对主成分语音模型进行均值自适应,先构造辅助函数
Figure DEST_PATH_IMAGE044
,将辅助函数对权值矢量的每一分量求解差分,接着采用期望最大化算法迭代求解非线性方程组,最终得到优化后的目标说话人对应的权值矢量
Figure DEST_PATH_IMAGE045
第三步,采用自适应后的权值矢量来确定源说话人和目标说话人的频谱特征转换函数,
Figure DEST_PATH_IMAGE046
,其中下标
Figure DEST_PATH_IMAGE047
表示第
Figure 707459DEST_PATH_IMAGE047
个混合成分,,高斯混合模型混合数共为
Figure 946941DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE049
是待转换的当前帧,
Figure DEST_PATH_IMAGE050
是训练阶段得到的主成分语音模型,是基矢量,
Figure 450997DEST_PATH_IMAGE040
为偏移量,
Figure 974382DEST_PATH_IMAGE045
是目标说话人对应的权值矢量,
Figure DEST_PATH_IMAGE052
的协方差矩阵,
Figure DEST_PATH_IMAGE054
Figure DEST_PATH_IMAGE055
的互协方差矩阵。
本发明与现有技术相比,其显著优点:
1、在汉语元音映射理论的指导下将输入语音分类为不同的音素分别进行转换,不仅克服了转换系统要求语料内容相同的限制,而且符合汉语语言的结构特点,使得转换生成的语音具有良好的自然度;
2、对于每一个转换模型而言,处理的语音帧的语义信息是相同的,主要差异表现在话者信息方面,转换函数的建立可以避免语义信息的干扰,保证了重构语音中的说话人个性特征。
附图说明:
图1是本发明基于汉语元音映射和主成分语音的非平行文本语音转换的示意图;
图2是元音帧提取示意图;
图3是音素分类后第
Figure 632470DEST_PATH_IMAGE006
类音素的转换流程图;
图4是基于主成分语音的频谱转换算法示意图。 
具体实施方案:
下面结合附图对技术方案的实施作进一步的详细描述:
如图1,本发明非平行文本语音转换方法,步骤如下:
第一步,对输入语音信号进行预加重、分帧和加窗等预处理后,如图2所示,根据频域能量分布特征判定元音的位置,接着计算已判定为元音帧的短时能量和平均过零率,指导后续帧在时域检测中的阈值选择。为适应连续语音帧的短时能量的不断变化,系统按概率对时域判断中的接受帧和丢弃帧进行抽样检测,并根据检测结果修正阈值。完成元音帧的检测与提取,具体过程如下:
(1)对语音信号进行预处理,预加重系数为0.96,按20ms分帧,帧交叠35%,之后使用汉明窗进行加窗处理;
(2)计算各频率点处能量的贡献度,根据公式 
Figure 301797DEST_PATH_IMAGE002
,计算
Figure 27176DEST_PATH_IMAGE003
表示人耳对音高的主观感知,其中
Figure 116618DEST_PATH_IMAGE004
为当前频率。接着计算第
Figure 585645DEST_PATH_IMAGE006
点频率处能量的贡献度
Figure 215789DEST_PATH_IMAGE007
表示采样频率,
Figure 556640DEST_PATH_IMAGE008
为帧长,频率分辨率为
Figure 65244DEST_PATH_IMAGE009
Figure 542362DEST_PATH_IMAGE010
表示人耳对第点频率处的主观感知,公式为 
Figure 384560DEST_PATH_IMAGE005
(3)依次取帧,计算短时能量和短时平均过零率,计算当前帧的短时能量
Figure 696855DEST_PATH_IMAGE011
,公式为 。一般为消除小的随机噪声的影响,设一个门限
Figure DEST_PATH_IMAGE057
,将平均过零率的含义修改为跨过正负门限的次数,根据公式 
Figure DEST_PATH_IMAGE058
计算短时平均过零率,其中
Figure 518760DEST_PATH_IMAGE008
为窗长,
Figure DEST_PATH_IMAGE059
为窗函数,为标记函数,定义为
Figure DEST_PATH_IMAGE061
,式中
Figure DEST_PATH_IMAGE062
为第
Figure DEST_PATH_IMAGE063
个语音帧,代表语音信号的总帧数。判定是否接受为元音帧,若
Figure 820822DEST_PATH_IMAGE014
是短时能量的约束阈值,
Figure 671228DEST_PATH_IMAGE015
是短时平均过零率的约束阈值,传统判定中满足条件
Figure 998305DEST_PATH_IMAGE024
Figure 407289DEST_PATH_IMAGE025
则接受该帧为元音帧。由于发声过程会受到环境、身体状态、情绪、发声方式及发声内容的影响,声音能量相差较大,针对能量和过零率的变化不断自适应调整阈值,令当前帧的接受系数为
Figure 180335DEST_PATH_IMAGE013
。当短时能量和短时平均过零率的阈值
Figure 332968DEST_PATH_IMAGE014
Figure 140649DEST_PATH_IMAGE015
存在,则计算当前帧的短时能量和短时平均过零率进行帧提取,直接进入(5)步;当短时能量和短时过零率的阈值不存在,进入(4)步;
(4)对当前帧进行傅里叶变换,根据公式
Figure 720535DEST_PATH_IMAGE016
,分别计算低频段能量和高频段能量,其中
Figure 937201DEST_PATH_IMAGE018
代表低频段能量、代表高频段能量,
Figure 350176DEST_PATH_IMAGE020
代表第
Figure 471716DEST_PATH_IMAGE006
频率点的能量,是第
Figure 374523DEST_PATH_IMAGE006
点频率处能量的贡献度,
Figure 296212DEST_PATH_IMAGE021
表示低频高频分界点,
Figure 531146DEST_PATH_IMAGE008
表示频率点总数。一般认为语音信号开始的几帧为无声的,当帧内无声时令
Figure 563693DEST_PATH_IMAGE022
,可以预先求出
Figure 574374DEST_PATH_IMAGE021
的值。当
Figure 293063DEST_PATH_IMAGE023
,判定当前帧为元音帧;然后计算当前帧的短时能量和短时平均过零率,修改原有阈值,指导后续帧的时域检测中的阈值选择。返回步骤(3); 
(5)如果当前帧被接受为元音帧,则依照(4)步骤按
Figure 38731DEST_PATH_IMAGE026
概率抽样检测,当检测结果判定当前帧是元音帧,返回步骤(3)。如果当前帧在抽样检测中不被接受,丢弃当前帧并用当前阈值与原有阈值的较大能量值和较小过零率值作为新的阈值;若当前帧被丢弃,当
Figure 874969DEST_PATH_IMAGE027
时,全部进行检测;否则按
Figure 631834DEST_PATH_IMAGE028
抽样检测,若检测结果相符结束,否则接受当前帧,并用当前阈值与原有阈值的较小能量值和较大过零率值作为新的阈值;转至(4)步骤;
重复(3)至(5)步,直至所有元音帧提取完毕。
第二步,进行音素分类和语音帧特征提取,包括频谱特征和韵律特征。在本发明中,首先从汉语语音的特点出发,对汉语拼音结构、发音特点进行分析,通过元音频谱对比、音素滑动分析、韵母分解实验和共振峰分析等,结合大量语音学知识构建了汉语元音映射表,从短时帧的角度将韵母中的元音部分分解为单元音音素的组合,然后主要从音素的能量分布相似性,对说话人个性信息的贡献以及在音节中出现的频度与时长三个角度进行考虑,实现音素的分类。对于映射后的每一类元音分别构成一类音素,所有的辅音构成一类音素,辅音不参与转换。然后基于谐波加噪声模型对语音帧进行分解,求取其中的谐波成分和噪声成分,紧接着对谐波幅度参数进一步降维,提取线性谱频率参数,最终得到语音信号的频谱特征矢量和基音轨迹,具体过程如下:
(1)对提取到的元音帧,根据建立的汉语元音映射表进行音素分类,在训练阶段,由于是离线操作,对音素的分类是通过人工标注结合元音映射表进行;同时对源说话人经过分类后的元音音素建立隐马尔科夫模型(Hidden Markov Model, HMM),每一个状态代表一类音素,在转换阶段,待转换的源说话人语音通过在训练阶段建立的HMM模型实现音素分类;
(2)得到每类元音音素帧后,将每类音素的语音帧通过谐波加噪声模型(Harmonic Plus Noise Model, HNM)进行分解,得到基音频率轨迹和谐波声道谱参数的幅度值和相位值;
(3)将声道幅度谱参数进行降维处理,转化为线性谱频率参数(Linear Spectrum Frequency, LSF)。
第三步,频谱特征转换模型的建立,如图3所示,对第二步得到的每类音素的特征矢量分别进行建模,对训练阶段的源说话人语音和参考目标说话人的语音建立高斯混合模型,以每个高斯混合模型的均值矢量分别构成超矢量,然后对所有超矢量进行主成分分析,提取基矢量和偏移量,从而建立主成分语音模型,具体过程如下:
(1)如图4所示,采用动态时间规整算法(Dynamic Time Warping, DTW)对源说话人和预存储的
Figure 895326DEST_PATH_IMAGE029
个参考目标说话人的每类音素的频谱特征
Figure 839273DEST_PATH_IMAGE049
Figure DEST_PATH_IMAGE065
分别进行对齐,构成联合特征矢量
Figure 856033DEST_PATH_IMAGE029
个参考目标说话人与源说话人的语音是平行的,即语音内容相同;
(2)对源说话人和预存储的
Figure 965940DEST_PATH_IMAGE029
个参考目标说话人建立联合高斯混合模型(Gaussian Mixture Model, GMM),
Figure DEST_PATH_IMAGE067
,其中
Figure DEST_PATH_IMAGE068
是总的帧数,
Figure DEST_PATH_IMAGE069
是与参考目标说话人无关的高斯混合模型(Target-speaker Independent GMM, TI-GMM ),概率密度函数为:
Figure 403262DEST_PATH_IMAGE036
为高斯混合度,为混合权值,
Figure DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE073
分别为第
Figure 709872DEST_PATH_IMAGE047
个混合成分对应的均值和协方差矩阵;
(3)基于极大似然(Maximum Likelihood, ML)准则,使用第
Figure DEST_PATH_IMAGE074
个参考目标说话人的语音对
Figure 514011DEST_PATH_IMAGE069
中相应的均值
Figure DEST_PATH_IMAGE075
进行更新,得到与参考目标说话人
Figure DEST_PATH_IMAGE076
相关的联合高斯混合模型(Target-speaker Dependent GMM, TD-GMM)为:
Figure DEST_PATH_IMAGE077
,其中
Figure DEST_PATH_IMAGE078
为(2)中得到的高斯混合模型;
(4)得到
Figure DEST_PATH_IMAGE079
个TD-GMM后,将每个TD-GMM的均值矢量分别连接在一起构成均值超矢量,,超矢量的维数为
Figure DEST_PATH_IMAGE081
(5)采用主成分分析法(Principal Component Analysis, PCA)对
Figure DEST_PATH_IMAGE082
个超矢量进行主成分分析,得到主特征分量
Figure DEST_PATH_IMAGE083
(也称基矢量)和偏移矢量
Figure DEST_PATH_IMAGE084
,此时每个超矢量可以近似表示为:
Figure DEST_PATH_IMAGE085
Figure DEST_PATH_IMAGE086
是第
Figure 834748DEST_PATH_IMAGE076
个说话人的
Figure DEST_PATH_IMAGE088
Figure DEST_PATH_IMAGE089
基矢量对应的权值矢量;
(6)至此,非平行文本条件下源说话人和目标说话人的联合概率分布可以由
Figure DEST_PATH_IMAGE090
来表示
Figure 816873DEST_PATH_IMAGE091
,其中
Figure DEST_PATH_IMAGE092
,其本质在于说话人的特征可以通过多个参考说话人的特征的不同权值组合来逼近,即目标说话人的均值矢量可以由基矢量
Figure 125626DEST_PATH_IMAGE083
和偏移矢量
Figure 841778DEST_PATH_IMAGE084
的线性组合来表示。
第四步,模型自适应,如图4所示,从第三步中得到主成分语音模型后,采用目标说话人的语音对
Figure 203937DEST_PATH_IMAGE093
进行自适应,可以得到源说话人与目标说话人的频谱特征转换模型。本发明中的频谱转换模型与现有的转换模型相比有两大优势:一方面由于可以采用任意目标说话人的语音对模型进行无监督自适应,因此可以灵活地实现源说话人与任意目标说话人之间的语音转换;另一方面自适应的过程不仅对语音内容没有限制,即目标说话人与源说话人的语音内容可以不同,可以在非平行文本条件下进行,而且由于自适应过程需要估计的参数较少,对目标说话人的自适应语音时长的要求较低,降低了对语音数据量的依赖。基于极大似然准则(Maximum Likelihood, ML)对权值矢量进行优化估计,估计过程如下:
(1)优化的目标是使得目标说话人的特征矢量
Figure 609773DEST_PATH_IMAGE095
产生的边缘分布的似然性最大,
(2)构造辅助函数
Figure 755715DEST_PATH_IMAGE097
Figure DEST_PATH_IMAGE098
(3)权值矢量的极大似然估计为,
Figure 320819DEST_PATH_IMAGE099
,其中
Figure DEST_PATH_IMAGE100
, 
Figure 894014DEST_PATH_IMAGE101
第五步,频谱特征转换,即对于测试阶段输入的源说话人语音
Figure DEST_PATH_IMAGE102
,其中表示第
Figure DEST_PATH_IMAGE104
帧语音,
Figure 235314DEST_PATH_IMAGE105
表示总的语音帧数。利用上述四个步骤得到的转换模型进行语音转换,得到转换后的目标说话人的频谱特征,具体过程如下:
(1)设转换阶段源说话人
Figure DEST_PATH_IMAGE106
时刻频谱特征为
Figure 654925DEST_PATH_IMAGE107
,基于最小均方误差算法(Minimum Mean Square Error Estimation, MMSE),根据高斯混合模型转换规则,转换后的目标说话人频谱特征为:,其中
Figure 399021DEST_PATH_IMAGE109
是条件概率密度函数,
Figure DEST_PATH_IMAGE110
,其中
Figure DEST_PATH_IMAGE112
Figure DEST_PATH_IMAGE113
Figure DEST_PATH_IMAGE114
分别表示第
Figure DEST_PATH_IMAGE115
个条件概率密度函数的均值和方差,表示为:, 
Figure DEST_PATH_IMAGE117
(2)至此,在MMSE准则下,转换后的目标说话人特征表示为:
Figure DEST_PATH_IMAGE118
第六步,韵律特征转换和语音合成,对第二步得到的基频进行单高斯建模,分析其均值和方差,实现韵律特征的转换;将转换后的频谱特征和韵律特征经过谐波加噪声模型进行合成,得到转换后的语音,具体过程如下:
(1)对韵律特征的转换是通过对基频的建模,首先在训练阶段对源和目标说话人的对数基频进行分析,得到各自的均值
Figure DEST_PATH_IMAGE119
和方差
Figure DEST_PATH_IMAGE120
,在转换阶段,采用公式进行转换:
Figure DEST_PATH_IMAGE121
Figure DEST_PATH_IMAGE122
即为转换后的基频;
(2)至此得到转换后的目标说话人的频谱特征和韵律特征,基于谐波加噪声模型进行语音的合成,得到转换后的语音
Figure DEST_PATH_IMAGE123
,实现语音转换。

Claims (4)

1.一种非平行文本条件下的语音转换方法,其特征在于,包括训练阶段和转换阶段,其中所述训练阶段包括如下步骤:
步骤A,语音信号预处理步骤:分别对输入语音信号依次进行预加重、分帧和加窗处理,所述输入语音信号分别包括目标说话人、源说话人、参考目标说话人的语音信号;
步骤B,元音帧提取步骤:根据频域能量分布特征,分别判定经步骤A预处理后的目标说话人、源说话人、参考目标说话人的语音信号中元音的位置,分别提取目标说话人、源说话人、参考目标说话人的语音信号中的元音帧;
步骤C,元音帧的音素分类,对步骤B提取到的目标说话人、源说话人、参考目标说话人的元音帧,根据汉语元音映射表分别进行音素分类;
步骤D,元音帧的语音特征提取:基于谐波加噪声模型对分类后的元音帧分别进行分解,分别求取目标说话人、源说话人、参考目标说话人的元音帧中的谐波成分和噪声成分,然后对谐波加噪声模型的参数进一步降维,提取元音帧中线性谱频率参数,最终分别得到目标说话人、源说话人、参考目标说话人的元音帧的特征矢量,所述特征矢量包括频谱特征和韵律特征;
步骤E,对于步骤D提取到的源说话人的元音帧的特征矢量,训练HMM音素分类模型;
步骤F,对于频谱特征矢量,建立频谱特征转换模型:
F1,对步骤D所述源说话人的频谱特征和参考目标说话人的频谱特征分别建立高斯混合模型,分别以各自高斯混合模型的均值矢量构成超矢量,然后对所有超矢量进行主成分分析,提取基矢量和偏移量,从而建立主成分语音模型;
F2,模型自适应:采用步骤D所述目标说话人的频谱特征对步骤F1得到的主成分语音模型进行模型自适应,得到源说话人与目标说话人的频谱特征转换模型;
步骤G,对步骤D得到的源说话人和目标说话人的韵律特征采用单高斯建模,得到各自的均值和方差; 
所述转换阶段包括如下步骤:
步骤H,输入源说话人新的语音信号,对源说话人输入的新的语音信号依次进行上述步骤A-步骤D所述的操作,得到源说话人新的语音信号中元音帧的特征矢量,采用上述步骤E得到的HMM音素分类模型进行音素分类;
步骤I,采用步骤F2得到的源说话人与目标说话人的频谱特征转换模型进行语音频谱转换,得到转换后的目标说话人的频谱特征;
步骤J,对于步骤H中得到的源说话人的韵律特征,采用步骤G得到的单高斯模型进行韵律转换,得到转换后的目标说话人的韵律特征;
步骤K,对步骤F将转换后的频谱特征和韵律特征经过谐波加噪声模型进行合成,最终得到转换后的语音。
2.根据权利要求1所述的非平行文本条件下的语音转换方法,其特征在于,所述步骤A的预处理步骤中,所述预加重处理的预加重系数为0.96,分帧处理按20ms分帧,帧交叠为35%,所述加窗处理采用汉明窗进行加窗处理。
3.根据权利要求1所述的非平行文本条件下的语音转换方法,其特征在于,所述步骤B的元音帧提取步骤如下:
B-1,计算各频率点处能量的贡献度                                                
Figure 148921DEST_PATH_IMAGE001
根据公式 
Figure 785701DEST_PATH_IMAGE002
计算
Figure 878291DEST_PATH_IMAGE003
,其中
Figure 725155DEST_PATH_IMAGE003
表示人耳对音高的主观感知,
Figure 86295DEST_PATH_IMAGE004
为当前频率;
接着根据公式
Figure 76117DEST_PATH_IMAGE005
,计算第
Figure 841073DEST_PATH_IMAGE006
点频率处能量的贡献度,其中
Figure 424949DEST_PATH_IMAGE007
表示采样频率,
Figure 534856DEST_PATH_IMAGE008
为帧长,频率分辨率为
Figure 470714DEST_PATH_IMAGE009
表示人耳对第
Figure 470211DEST_PATH_IMAGE006
点频率处的主观感知,表示频率点数,且
Figure 541383DEST_PATH_IMAGE006
为自然数;
B-2,依次取帧,计算短时能量
Figure 459923DEST_PATH_IMAGE011
和短时平均过零率
Figure 441654DEST_PATH_IMAGE012
B-3,令当前帧的接受系数为
Figure 762039DEST_PATH_IMAGE013
,其中
Figure 538234DEST_PATH_IMAGE014
是短时能量的约束阈值,
Figure 209649DEST_PATH_IMAGE015
是短时平均过零率的约束阈值;当所述两个约束阈值分别存在,则计算当前帧的短时能量和短时平均过零率进行帧提取,直接进入B-5步;当所述两个约束阈值不存在,进入B-4步;
B-4,对当前帧进行傅里叶变换,根据公式
Figure 904384DEST_PATH_IMAGE017
,分别计算低频段能量和高频段能量,其中
Figure 992426DEST_PATH_IMAGE018
代表低频段能量、
Figure 10192DEST_PATH_IMAGE019
代表高频段能量,
Figure 333725DEST_PATH_IMAGE020
代表第点频率的能量,是第
Figure 251762DEST_PATH_IMAGE006
点频率处能量的贡献度,
Figure 614873DEST_PATH_IMAGE021
表示低频高频分界点;当帧内无声时令
Figure 138258DEST_PATH_IMAGE022
,预先求出
Figure 692736DEST_PATH_IMAGE021
的值;当,判定当前帧为元音帧;然后计算当前帧的短时能量和短时平均过零率进行帧提取,给出短时能量和短时平均过零率的约束阈值,指导后续帧的时域检测中的阈值选择;返回步骤B-2; 
B-5,
ⅰ,如果步骤B-3所述两个约束阈值分别满足条件
Figure 229787DEST_PATH_IMAGE025
,则当前帧被接受为元音帧,继续依照B-4步骤按
Figure 689587DEST_PATH_IMAGE026
概率进行抽样检测:
若抽样检测结果判定当前帧是元音帧,返回步骤B-2继续进行下一帧的判定;
若当前帧在上述抽样检测中不被接受,丢弃当前帧并按比例修改阈值;将当前短时能量和短时平均过零率的阈值分别与步骤B-3步的所述的两个约束阈值进行比较,将比较结果中两者较大的短时能量阈值、较小的短时平均过零率的阈值分别作为新的约束阈值;
ⅱ,如果步骤B-3所述两个约束阈值不满足条件
Figure 21170DEST_PATH_IMAGE024
Figure 224618DEST_PATH_IMAGE025
,则当前帧被丢弃,继续依照B-4步骤进行抽样检测:
时,全部进行检测;否则按
Figure 979396DEST_PATH_IMAGE028
抽样检测;
若检测结果表示当前帧不是元音帧,则丢弃该当前帧,结束检测;
若检测结果表示当前帧是元音帧,则接受当前帧,并将当前短时能量和短时平均过零率的阈值分别与步骤B-3步的所述的两个约束阈值进行比较,将比较结果中两者较小的短时能量阈值、较大的短时平均过零率的阈值分别作为新的约束阈值;转至B-2步骤;
重复上述B-2至B-5步,直至所有元音帧提取完毕。
4.根据权利要求1所述的非平行文本条件下的语音转换方法,其特征在于,所述步骤F建立频谱特征转换模型的具体实现过程如下:
第一步,首先建立高斯混合模型,采用源说话人和
Figure 821712DEST_PATH_IMAGE029
个参考目标说话人的语音以平行文本的方式训练高斯混合模型,得到与参考目标说话人无关的高斯混合模型;接着基于最大似然准则,使用第
Figure 828851DEST_PATH_IMAGE030
个参考目标说话人的语音对得到的高斯混合模型进行对应的均值自适应,得到与参考目标说话人有关的高斯混合模型;其中
Figure 807434DEST_PATH_IMAGE031
Figure 749982DEST_PATH_IMAGE029
表示参考目标说话人总数,
Figure 312550DEST_PATH_IMAGE029
的取值范围是20~100;
然后将得到的高斯混合模型的所有混合成分均值矢量
Figure 359266DEST_PATH_IMAGE032
分别拼接构成超矢量,维数为
Figure 956469DEST_PATH_IMAGE033
,表示成
Figure 430438DEST_PATH_IMAGE034
Figure 480303DEST_PATH_IMAGE035
是特征矢量的维数,是高斯混合度,
Figure 782419DEST_PATH_IMAGE037
表示第
Figure 692869DEST_PATH_IMAGE030
个参考目标说话人在高斯混合模型的第
Figure 230029DEST_PATH_IMAGE006
个混合成分的均值矢量,上标
Figure 992449DEST_PATH_IMAGE038
表示转置;
最后对
Figure 800130DEST_PATH_IMAGE029
个超矢量进行主成分分析,提取基矢量
Figure 380016DEST_PATH_IMAGE039
和偏移量
Figure 905938DEST_PATH_IMAGE040
,建立主成分语音模型,在模型中目标说话人的均值表示为
Figure 596682DEST_PATH_IMAGE041
, 
Figure 258870DEST_PATH_IMAGE042
维权值矢量;
第二步,用目标说话人的训练语音对主成分语音模型进行均值自适应,先构造辅助函数
Figure 22875DEST_PATH_IMAGE044
,将辅助函数对权值矢量的每一分量求解差分,接着采用期望最大化算法迭代求解非线性方程组,最终得到优化后的目标说话人对应的权值矢量;
第三步,采用自适应后的权值矢量来确定源说话人和目标说话人的频谱特征转换函数,,其中下标表示第
Figure 34004DEST_PATH_IMAGE045
个混合成分,
Figure 955693DEST_PATH_IMAGE046
,高斯混合模型混合数共为
Figure 364120DEST_PATH_IMAGE047
是待转换的当前帧,
Figure 125533DEST_PATH_IMAGE048
是训练阶段得到的主成分语音模型,
Figure 218123DEST_PATH_IMAGE049
是基矢量,
Figure 940354DEST_PATH_IMAGE040
为偏移量,
Figure 511012DEST_PATH_IMAGE050
是目标说话人对应的权值矢量,
Figure 291315DEST_PATH_IMAGE051
Figure 554807DEST_PATH_IMAGE052
的协方差矩阵,
Figure 764333DEST_PATH_IMAGE053
Figure 138683DEST_PATH_IMAGE054
Figure 750055DEST_PATH_IMAGE052
的互协方差矩阵。
CN2010105201070A 2010-10-27 2010-10-27 一种非平行文本条件下的语音转换方法 Expired - Fee Related CN102063899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105201070A CN102063899B (zh) 2010-10-27 2010-10-27 一种非平行文本条件下的语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105201070A CN102063899B (zh) 2010-10-27 2010-10-27 一种非平行文本条件下的语音转换方法

Publications (2)

Publication Number Publication Date
CN102063899A CN102063899A (zh) 2011-05-18
CN102063899B true CN102063899B (zh) 2012-05-23

Family

ID=43999146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105201070A Expired - Fee Related CN102063899B (zh) 2010-10-27 2010-10-27 一种非平行文本条件下的语音转换方法

Country Status (1)

Country Link
CN (1) CN102063899B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102664003B (zh) * 2012-04-24 2013-12-04 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法
CN102968988B (zh) * 2012-11-27 2015-09-16 河海大学常州校区 训练数据匮乏下的鲁棒性语音转换方法
CN102982809B (zh) * 2012-12-11 2014-12-10 中国科学技术大学 一种说话人声音转换方法
CN103280224B (zh) * 2013-04-24 2015-09-16 东南大学 基于自适应算法的非对称语料库条件下的语音转换方法
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法
CN104735461B (zh) * 2015-03-31 2018-11-02 北京奇艺世纪科技有限公司 视频中语音关键词广告的更换方法及装置
WO2018209556A1 (en) * 2017-05-16 2018-11-22 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for speech synthesis
CN107134277A (zh) * 2017-06-15 2017-09-05 深圳市潮流网络技术有限公司 一种基于gmm模型的语音激活检测方法
CN107301859B (zh) * 2017-06-21 2020-02-21 南京邮电大学 基于自适应高斯聚类的非平行文本条件下的语音转换方法
CN107507619B (zh) * 2017-09-11 2021-08-20 厦门美图之家科技有限公司 语音转换方法、装置、电子设备及可读存储介质
CN109754780B (zh) * 2018-03-28 2020-08-04 孔繁泽 基本语音编码图形和音频交换方法
CN108766450B (zh) * 2018-04-16 2023-02-17 杭州电子科技大学 一种基于谐波冲激分解的语音转换方法
CN109671423B (zh) * 2018-05-03 2023-06-02 南京邮电大学 训练数据有限情形下的非平行文本语音转换方法
CN110580910B (zh) * 2018-06-08 2024-04-26 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN110060657B (zh) * 2019-04-04 2023-01-31 南京邮电大学 基于sn的多对多说话人转换方法
CN110164463B (zh) * 2019-05-23 2021-09-10 北京达佳互联信息技术有限公司 一种语音转换方法、装置、电子设备及存储介质
CN110363141B (zh) * 2019-07-15 2021-09-17 郑州大学 用于诊断燃气调压器故障的方法
CN110232907B (zh) * 2019-07-24 2021-11-02 出门问问(苏州)信息科技有限公司 一种语音合成方法、装置、可读存储介质及计算设备
CN111862939B (zh) * 2020-05-25 2024-06-14 北京捷通华声科技股份有限公司 一种韵律短语标注方法和装置
CN111968617B (zh) * 2020-08-25 2024-03-15 云知声智能科技股份有限公司 一种非平行数据的语音转换方法及系统
CN112331183B (zh) * 2020-10-27 2022-03-18 中科极限元(杭州)智能科技股份有限公司 基于自回归网络的非平行语料语音转换方法及系统
CN113555007B (zh) * 2021-09-23 2021-12-14 中国科学院自动化研究所 语音拼接点检测方法及存储介质
CN114882873B (zh) * 2022-07-12 2022-09-23 深圳比特微电子科技有限公司 一种语音识别模型训练方法、装置和可读存储介质
CN117275458B (zh) * 2023-11-20 2024-03-05 深圳市加推科技有限公司 智能客服的语音生成方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1606792A1 (fr) * 2003-03-27 2005-12-21 France Telecom Procede d analyse d informations de frequence fondament ale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d analyse
CN101064104A (zh) * 2006-04-24 2007-10-31 中国科学院自动化研究所 基于语音转换的情感语音生成方法
CN101399044A (zh) * 2007-09-29 2009-04-01 国际商业机器公司 语音转换方法和系统
CN101751922A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 基于隐马尔可夫模型状态映射的文本无关语音转换系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070213987A1 (en) * 2006-03-08 2007-09-13 Voxonic, Inc. Codebook-less speech conversion method and system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1606792A1 (fr) * 2003-03-27 2005-12-21 France Telecom Procede d analyse d informations de frequence fondament ale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d analyse
CN101064104A (zh) * 2006-04-24 2007-10-31 中国科学院自动化研究所 基于语音转换的情感语音生成方法
CN101399044A (zh) * 2007-09-29 2009-04-01 国际商业机器公司 语音转换方法和系统
CN101751922A (zh) * 2009-07-22 2010-06-23 中国科学院自动化研究所 基于隐马尔可夫模型状态映射的文本无关语音转换系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777140A (zh) * 2018-04-27 2018-11-09 南京邮电大学 一种非平行语料训练下基于vae的语音转换方法

Also Published As

Publication number Publication date
CN102063899A (zh) 2011-05-18

Similar Documents

Publication Publication Date Title
CN102063899B (zh) 一种非平行文本条件下的语音转换方法
Kinnunen et al. An overview of text-independent speaker recognition: From features to supervectors
CN101136199B (zh) 语音数据处理方法和设备
Chen et al. Speaker verification against synthetic speech
US20150025892A1 (en) Method and system for template-based personalized singing synthesis
Obin et al. Syll-O-Matic: An adaptive time-frequency representation for the automatic segmentation of speech into syllables
Van Segbroeck et al. Rapid language identification
Le et al. First steps in fast acoustic modeling for a new target language: application to Vietnamese
Ben Othmane et al. Enhancement of esophageal speech obtained by a voice conversion technique using time dilated fourier cepstra
Sethu et al. Empirical mode decomposition based weighted frequency feature for speech-based emotion classification
Zolnay et al. Using multiple acoustic feature sets for speech recognition
Toda et al. Optimizing sub-cost functions for segment selection based on perceptual evaluations in concatenative speech synthesis
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Turk et al. Application of voice conversion for cross-language rap singing transformation
Fu et al. A survey on Chinese speech recognition
Zeng et al. Voice conversion using structrued gaussian mixture model
Furui Speaker recognition in smart environments
Rao et al. Robust features for automatic text-independent speaker recognition using Gaussian mixture model
Sam et al. Speech modulation features for robust nonnative speech accent detection
Govender et al. HMM adaptation for child speech synthesis.
Lệ Thủy et al. GMM for emotion recognition of Vietnamese
Amin et al. Bangladeshi Dialect Recognition using MFCC, Delta, Delta-delta and GMM
Huang et al. Learning virtual HD model for bi-model emotional speaker recognition
Chao et al. Two-stage Vocal Effort Detection Based on Spectral Information Entropy for Robust Speech Recognition.
Yeh et al. Sub‐syllable segment‐based voice conversion using spectral block clustering transformation functions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190424

Address after: Room 412, 1220 Tongpu Road, Putuo District, Shanghai, 2003

Patentee after: Baoge (Shanghai) Financial Information Service Co., Ltd.

Address before: 210003 new model road, Nanjing, Nanjing, Jiangsu

Patentee before: Nanjing Post & Telecommunication Univ.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120523

Termination date: 20191027