CN105374350B

CN105374350B - 语音标注方法及装置

Info

Publication number: CN105374350B
Application number: CN201510633281.9A
Authority: CN
Inventors: 杨鹏; 康永国; 盖于涛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-09-29
Filing date: 2015-09-29
Publication date: 2017-05-17
Anticipated expiration: 2035-09-29
Also published as: CN105374350A

Abstract

本发明实施例公开了一种语音标注方法及装置，其中所述方法包括：采用第一声学模型对输入语料的特征信息进行对齐，得到第一音段标注结果，所述特征信息包括语音特征和文本特征，所述第一音段标注结果中包含语音特征和文本特征的初始对应关系；采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到第二音段标注结果，所述第二音段标注结果中包含语音特征和文本特征的最终对应关系；将所述第二音段标注结果做为语音合成时采用的音段标注结果。本发明实施例能够准确的对输入语料进行音段标注。

Description

语音标注方法及装置

技术领域

本发明实施例涉及信息技术领域，尤其涉及一种语音标注方法及装置。

背景技术

随着信息技术的飞速发展，有声读物或有声小说进入人们的日常生活，有逐步代替传统文本阅读方式的趋势。而网络上已有的海量的具有丰富变化的语料(比如有声小说)，能够实现更全的模型上下文覆盖，提供更加丰富的韵律现象，但是网络上的语料数据并不具备语音合成系统必需的语音标注信息。

目前音段标注主要采用使用基于隐马尔科夫模型的浅层结构进行音段标注，即首先提取出输入语料的语音特征、文本特征和韵律特征，采用隐马尔科夫模型对语音特征和文本特征进行训练，对语音特征和文本特征进行对齐，得到初始音段标注结果即每段语音和文本的对应关系，然后再对音段标注、韵律特征、语音特征和文本特征进行训练，得到最终的音段标注结果和声学模型。

但是，上述基于隐马尔科夫模型的浅层结构的建模能力较弱，对于网络上发音风格变化丰富的语料，音段标注结果欠佳。

发明内容

本发明实施例提供一种语音标注方法及装置，能够准确的对输入语料进行音段标注。

第一方面，本发明实施例提供了一种语音标注方法，包括：

采用第一声学模型对输入语料的特征信息进行对齐，得到第一音段标注结果，所述特征信息包括语音特征和文本特征，所述第一音段标注结果中包含语音特征和文本特征的初始对应关系；

采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到第二音段标注结果，所述第二音段标注结果中包含语音特征和文本特征的最终对应关系；

将所述第二音段标注结果做为语音合成时采用的音段标注结果。

第二方面，本发明实施例还提供一种语音标注装置，包括：

初始标注训练模块，用于采用第一声学模型对输入语料的特征信息进行对齐，得到第一音段标注结果，所述特征信息包括语音特征和文本特征，所述第一音段标注结果中包含语音特征和文本特征的初始对应关系；

深层标注训练模块，用于采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到第二音段标注结果，所述第二音段标注结果中包含语音特征和文本特征的最终对应关系，将所述第二音段标注结果做为语音合成时采用的音段标注结果。

本发明实施例首先采用第一声学模型对输入语料的特征信息进行对齐，得到第一音段标注结果，所述特征信息包括语音特征和文本特征，所述第一音段标注结果中包含语音特征和文本特征的初始对应关系；然后采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到第二音段标注结果，所述第二音段标注结果中包含语音特征和文本特征的最终对应关系；将所述第二音段标注结果做为语音合成时采用的音段标注结果。本发明实施例能够准确的对输入语料进行音段标注。

附图说明

图1A为本发明实施例一提供的语音标注方法的流程示意图；

图1B为本发明实施例一提供的语音标注方法中的提取的音频信号示意图；

图2为本发明实施例二提供的语音标注方法的流程示意图；

图3为本发明实施例三提供的语音标注装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明实施例提供的语音标注方法的执行主体，可为本发明实施例提供的语音标注装置，或者集成了所述语音标注装置的终端设备(例如，智能手机、平板电脑等)或服务器，该语音标注装置可以采用硬件或软件实现。

实施例一

图1为本发明实施例一提供的语音标注方法的流程示意图，如图1所示，具体包括：

S11、采用第一声学模型对输入语料的特征信息进行对齐，得到第一音段标注结果，所述特征信息包括语音特征和文本特征，所述第一音段标注结果中包含语音特征和文本特征的初始对应关系；

其中，所述第一声学模型可为现有技术中存在的具有音段标注功能的声学模型，所述第一声学模型为第一发音者对应的声音模型。例如，采用现有技术中基于隐马尔科夫模型的浅层结构训练得到声学模型。所述输入语料具体可为从网络上获取的有声读物，例如有声小说等。所述文本特征为所述输入语料对应的文本通过查字典等方式得到的音子序列，所述音子序列即为所述文本的汉语拼音。输入语料对应的文本是通过该输入语料的相关资料获取的，例如，有声小说，可以直接获取小说文本，作为输入语料的文本。

所述语音特征为所述输入语料中的语音信号，可按照一定窗长和窗移，变换成一个随时间变化的多维向量。具体来说，一般以25ms为一个窗口，将该窗口内的语音波形变换成一个多维向量，然后窗口向后移动5ms，继续进行该操作，直到语音信号结束，最后一句语音波形信号，就变换成一个随时间变化的多维向量。

将语音特征和文本特征对齐是指对于输入语料中的语音特征和文本特征中找出一个最优的对齐路径。由于上述音频信号切分时可能造成的不准确性，所以需要从文本特征中找出与音频特征尽可能对应的音子序列，即拼音。

为了使后续语音合成时得到的发音更为动听，可进一步对所述输入语料进行韵律标注，具体的韵律标注方法可采用人工进行标注。那么在采用第一声学模型对输入语料的特征信息进行对齐时，也将韵律标注一起进行训练，得到第一音段标注结果，此时所述第一音段标注结果中包含语音特征、文本特征和韵律标注三者的初始对应关系。

具体的，对于获取的输入语料，首先对它进行预处理，即提取出对应的语音特征和文本特征，其中，所述语音特征和文本特征可采用向量化的特征向量序列表示。例如，对于一段WAV格式的输入语料，提取的文本为“这是#2命运#1之战#3，是#1人族#2与#1黑暗#1种族的#1碰撞#3，是#1黎明#1原力#3、燃烧#1黑石#3、喷涌#1蒸汽#3、轰鸣#1枪械#3、巨大#1粗糙#1机械#2与#1黑暗#1原力的#1对决#3！”。其中，在提取文本时加入了韵律标注，上述例子中的文本即是加入了韵律标注的文本特征。其中#1，#2，#3分别代表了三种停顿级别，#1代表韵律词，#2代表韵律短语，#3代表语调短语，级别越高停顿时间越长，其中大小关系为#1<#2<#3。根据文本可通过查询字典的方式得到如下文本特征：

X^X-sil+zh_e'0#0/A:0(0；0(0/B:0+0；0+0/C:2)4；11)11/E:0-0-0；0/F:0]0]0；0]0|0]0＝0]0～X]0/G:2#6#6；0/H:X<X<r；0<0|0<0＝0<0/I:0-0/J:0>0；0>0|0>0/K:3-3/L:0@0@1；0@0|0/M:0^0；0/U:48'25；8'7/T:0_0；0_4|4

X^sil-zh+e_sh'1#2/A:0(0；0(0/B:2+4；11+11/C:2)3；20)20/E:0-0-0；0/F:2]6]6；1]2|1]6＝1]6～e]0/G:2#11#11；1/H:X<r<n；0<2|0<2＝0<0/I:0-0/J:3>3；1>3|1>3/K:6-6/L:0@1@1；1@1|58069/M:1^7；0/U:48'25；8'7/T:0_0；4_4|4

sil^zh-e+sh_iii'2#1/A:0(0；0(0/B:2+4；11+11/C:2)3；20)20/E:0-0-0；0/F:2]6]6；1]2|1]6＝1]6～e]0/G:2#11#11；1/H:X<r<n；0<2|0<2＝0<0/I:0-0/J:3>3；1>3|1>3/K:6-6/L:0@1@1；1@1|58069/M:1^7；0/U:48'25；8'7/T:0_0；4_4|4

zh^e-sh+iii_m'1#2/A:2(0；0(0/B:2+4；11+11/C:2)3；20)20/E:0-0-0；0/F:2]6]6；2]1|2]5＝2]5～iii]1/G:2#11#11；0/H:X<r<n；0<2|0<2＝0<0/I:0-0/J:3>3；1>3|1>3/K:6-6/L:0@1@1；1@1|51146/M:1^7；0/U:48'25；8'7/T:0_4；4_4|4

e^sh-iii+m_ing'2#1/A:2(0；0(0/B:2+4；11+11/C:2)3；20)20/E:0-0-0；0/F:2]6]6；2]1|2]5＝2]5～iii]1/G:2#11#11；0/H:X<r<n；0<2|0<2＝0<0/I:0-0/J:3>3；1>3|1>3/K:6-6/L:0@1@1；1@1|51146/M:1^7；0/U:48'25；8'7/T:0_4；4_4|4

……

i^d-e+d_uei'2#1/A:2(3；12(8/B:2+5；13+25/C:2)4；0)0/E:2-6-4；0/F:3]8]14；3]1|6]3＝12]3～e]1/G:2#0#0；0/H:n<u<vn；2<1|5<1＝0<0/I:3-2/J:4>7；3>2|6>2/K:0-0/L:1@2@0；2@1|50357/M:7^1；2/U:48'25；8'7/T:2_4；5_4|2

d^e-d+uei_j'1#2/A:2(5；12(8/B:2+4；13+25/C:2)0；0)0/E:3-6-4；1/F:2]8]14；1]2|7]2＝13]2～uei]0/G:0#0#0；4/H:u<vn<X；2<0|5<0＝1<0/I:3-2/J:4>7；4>1|7>1/K:0-0/L:1@2@0；2@1|54454/M:7^1；2/U:48'25；8'7/T:4_5；4_2|0

e^d-uei+j_ve'2#1/A:2(5；12(8/B:2+4；13+25/C:2)0；0)0/E:3-6-4；1/F:2]8]14；1]2|7]2＝13]2～uei]0/G:0#0#0；4/H:u<vn<X；2<0|5<0＝1<0/I:3-2/J:4>7；4>1|7>1/K:0-0/L:1@2@0；2@1|54454/M:7^1；2/U:48'25；8'7/T:4_5；4_2|0

d^uei-j+ve_sil'1#2/A:2(5；12(8/B:2+4；13+25/C:0)0；0)0/E:3-6-4；0/F:2]8]14；2]1|8]1＝14]1～ve]4/G:0#0#0；0/H:u<vn<X；2<0|5<0＝1<0/I:3-2/J:4>7；4>1|7>1/K:0-0/L:1@2@0；2@1|63166/M:7^1；2/U:48'25；8'7/T:5_4；2_0|0

uei^j-ve+sil_X'2#1/A:2(5；12(8/B:2+4；13+25/C:0)0；0)0/E:3-6-4；0/F:2]8]14；2]1|8]1＝14]1～ve]4/G:0#0#0；0/H:u<vn<X；2<0|5<0＝1<0/I:3-2/J:4>7；4>1|7>1/K:0-0/L:1@2@0；2@1|63166/M:7^1；2/U:48'25；8'7/T:5_4；2_0|0

j^ve-sil+X_X'0#0/A:2(4；13(25/B:0+0；0+0/C:0)0；0)0/E:2-8-14；4/F:0]0]0；0]0|0]0＝0]0～X]0/G:0#0#0；0/H:vn<X<X；0<0|0<0＝0<0/I:4-7/J:0>0；0>0|0>0/K:0-0/L:2@0@0；0@0|0/M:0^0；0/U:48'25；8'7/T:4_2；0_0|0

其中，sil表示开头的静音，X是为了保持每段文本特征的结构一致。其中，一段为一个字符串，所以将上述的文本信息转换为一个字符串序列，其中“-”和“+”之间的为当前音子序列。

例如，以第二行为例，字符串中标为红色的为该文本特征的属性值，其他为属性值的分割符。前五个属性即X^sil-zh+e_sh，表示zh发音的上下文信息。而其后的属性则代表与#1、#2、#3标注相关的属性及其他一些属性。比如，第6个属性的含义是指当前音子在所在音节的正向索引(从1开始)，最后一个属性，即第75个属性，表示下下音节的声调。

对应的音频信号如图1B所示，首先采用音频切分窗口对所述音频信号进行采样，可参见图1B，例如，0.0-0.495毫秒时间段对应"sil"的语音特征，0.495-0.57毫秒时间段对应"zh"的语音特征，0.57-0.625毫秒时间段对应"e"的语音特征，等等。

对于得到的采样结果和上述文本特征采用所述第一声学模型进行对齐。

S12、采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到第二音段标注结果，所述第二音段标注结果中包含语音特征和文本特征的最终对应关系；

具体的，由于上述步骤S12中使用的第一声学模型为第一发音者的声音模型，并非输入语料中的发音者的声音模型，因此在得到所述语音特征和文本特征的初始对应关系之后，再次采用深度递归神经网络根据初始对应关系对所述语音特征和文本特征进行强化训练，从而得到所述输入语料中的发音者对应的第二音段标注结果。

S13、将所述第二音段标注结果做为语音合成时采用的音段标注结果。

在后续语音合成时，根据第二音段标注结果即语音特征和文本特征的最终对应关系进行合成。具体语音合成过程为：对于输入文本，首先根据所述第二音段标注结果依次查询该输入文本中每个文字对应的语音特征，将所述语音特征对应到每个文字。

本实施例首先采用第一声学模型对输入语料的特征信息进行对齐，得到第一音段标注结果，所述特征信息包括语音特征和文本特征，所述第一音段标注结果中包含语音特征和文本特征的初始对应关系；然后采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到第二音段标注结果，所述第二音段标注结果中包含语音特征和文本特征的最终对应关系；将所述第二音段标注结果做为语音合成时采用的音段标注结果。本实施例提供的方案采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到的音段标注结果为输入语料中发音者对应的发音的音段标注结果，相对于仅采用第一声学模型得到的音段标注结果更加准确。

示例性的，在上述实施例的基础上，采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到第二音段标注结果，包括：

采用隐马尔科夫模型对第一音段标注结果和所述特征信息进行训练，得到第三音段标注训练数据和第二声学模型；

采用深度递归神经网络对所述第三音段标注训练数据和所述文字特征进行训练，得到第四音段标注结果和第三声学模型，所述第三声学模型用于进行合成发音；

将所述第四音段标注结果作为第一音段标注结果，返回执行采用隐马尔科夫模型的训练操作，直至满足预设条件结束迭代操作，将所述满足预设条件时得到的第四音段标注结果作为第二音段标注结果。

其中，所述第三音段标注训练数据包含根据所述第一音段标注结果中每段语音的隐马尔科夫模型的状态和语音帧一一对应的关系，形成的包含至少一个隐马尔科夫模型的状态和语音帧的对应序列。其中，预设条件可为迭代次数或者得到的第四音段标注结果达到预设程度。例如：当此次得到的第四音段标注结果中的音段边界与上次得到的音段边界的平均差异小于5ms时，则认为音段边界变化已经稳定，则结束迭代。

由于上述步骤S12中使用的第一声学模型为第一发音者的声音模型，并非输入语料中的发音者的模型，所以对齐效果欠佳。例如，第一发音者为东北人，而输入语料中的发音者为陕西人时，则由于地方口音的差异，可能对对齐结果有一定的影响，因此本步骤使用上述得到第一音段标注结果可以训练出一个输入语料中发音者自己的声学模型即第二声学模型。而后使用第三音段标注训练数据作为深度递归神经网络声学模型的训练数据进行训练，从而得到与输入语料中的发音者更为相似的声学模型即第三声学模型及音段标注结果即第四音段标注结果。

示例性的，采用深度递归神经网络对所述第三音段标注训练数据和所述文字特征进行训练得到第四音段标注结果包括：

将所述文字特征转换为数值向量序列；

根据所述第三音段标注训练数据对所述数值向量序列进行对齐训练；

采用维特比算法生成第四音段标注结果。

具体的，对于给定的输入语料的文本特征序列，将其转化为数值向量序列，将该数值向量序列输入深度递归神经网络，所述深度递归神经网络将输出对齐所需参数，然后使用维特比算法，从而确定文本特征序列和语音特征序列之间的对齐关系，进而来生成新的音段标注即第四音段标注结果，接着继续使用该第四音段标注结构和和所述特征信息采用隐马尔科夫模型进行训练，依此迭代，直到迭代次数大于某个阈值或得到的第四音段标注结果达到某种程度后结束。最终得到的第四音段标注结果可以用来进行后续的语音合成任务。

例如，以上述实施例一中的输入语料为例，将上述字符串序列作为数值向量序列，将上述数值向量序列输入经过深度递归神经网络对齐后则得到是如下格式的文件，前两个数字是以100ns为单位的时间：

0 50000X^X-sil+zh_e'0#0/A:0(0；0(0/B:0+0；0+0/C:2)4；11)11/E:0-0-0；0/F:0]0]0；0]0|0]0＝0]0～X]0/G:2#6#6；0/H:X<X<r；0<0|0<0＝0<0/I:0-0/J:0>0；0>0|0>0/K:3-3/L:0@0@1；0@0|0/M:0^0；0/U:48'25；8'7/T:0_0；0_4|4[2]

50000 100000X^X-sil+zh_e'0#0/A:0(0；0(0/B:0+0；0+0/C:2)4；11)11/E:0-0-0；0/F:0]0]0；0]0|0]0＝0]0～X]0/G:2#6#6；0/H:X<X<r；0<0|0<0＝0<0/I:0-0/J:0>0；0>0|0>0/K:3-3/L:0@0@1；0@0|0/M:0^0；0/U:48'25；8'7/T:0_0；0_4|4[3]

100000 150000X^X-sil+zh_e'0#0/A:0(0；0(0/B:0+0；0+0/C:2)4；11)11/E:0-0-0；0/F:0]0]0；0]0|0]0＝0]0～X]0/G:2#6#6；0/H:X<X<r；0<0|0<0＝0<0/I:0-0/J:0>0；0>0|0>0/K:3-3/L:0@0@1；0@0|0/M:0^0；0/U:48'25；8'7/T:0_0；0_4|4[4]

150000 200000X^X-sil+zh_e'0#0/A:0(0；0(0/B:0+0；0+0/C:2)4；11)11/E:0-0-0；0/F:0]0]0；0]0|0]0＝0]0～X]0/G:2#6#6；0/H:X<X<r；0<0|0<0＝0<0/I:0-0/J:0>0；0>0|0>0/K:3-3/L:0@0@1；0@0|0/M:0^0；0/U:48'25；8'7/T:0_0；0_4|4[5]

200000 250000X^X-sil+zh_e'0#0/A:0(0；0(0/B:0+0；0+0/C:2)4；11)11/E:0-0-0；0/F:0]0]0；0]0|0]0＝0]0～X]0/G:2#6#6；0/H:X<X<r；0<0|0<0＝0<0/I:0-0/J:0>0；0>0|0>0/K:3-3/L:0@0@1；0@0|0/M:0^0；0/U:48'25；8'7/T:0_0；0_4|4[6]

250000 4700000X^X-sil+zh_e'0#0/A:0(0；0(0/B:0+0；0+0/C:2)4；11)11/E:0-0-0；0/F:0]0]0；0]0|0]0＝0]0～X]0/G:2#6#6；0/H:X<X<r；0<0|0<0＝0<0/I:0-0/J:0>0；0>0|0>0/K:3-3/L:0@0@1；0@0|0/M:0^0；0/U:48'25；8'7/T:0_0；0_4|4[7]

4700000 5000000X^X-sil+zh_e'0#0/A:0(0；0(0/B:0+0；0+0/C:2)4；11)11/E:0-0-0；0/F:0]0]0；0]0|0]0＝0]0～X]0/G:2#6#6；0/H:X<X<r；0<0|0<0＝0<0/I:0-0/J:0>0；0>0|0>0/K:3-3/L:0@0@1；0@0|0/M:0^0；0/U:48'25；8'7/T:0_0；0_4|4[8]

5000000 5050000X^sil-zh+e_sh'1#2/A:0(0；0(0/B:2+4；11+11/C:2)3；20)20/E:0-0-0；0/F:2]6]6；1]2|1]6＝1]6～e]0/G:2#11#11；1/H:X<r<n；0<2|0<2＝0<0/I:0-0/J:3>3；1>3|1>3/K:6-6/L:0@1@1；1@1|0/M:1^7；0/U:48'25；8'7/T:0_0；4_4|4[2]

5050000 5150000X^sil-zh+e_sh'1#2/A:0(0；0(0/B:2+4；11+11/C:2)3；20)20/E:0-0-0；0/F:2]6]6；1]2|1]6＝1]6～e]0/G:2#11#11；1/H:X<r<n；0<2|0<2＝0<0/I:0-0/J:3>3；1>3|1>3/K:6-6/L:0@1@1；1@1|0/M:1^7；0/U:48'25；8'7/T:0_0；4_4|4[3]

5150000 5250000X^sil-zh+e_sh'1#2/A:0(0；0(0/B:2+4；11+11/C:2)3；20)20/E:0-0-0；0/F:2]6]6；1]2|1]6＝1]6～e]0/G:2#11#11；1/H:X<r<n；0<2|0<2＝0<0/I:0-0/J:3>3；1>3|1>3/K:6-6/L:0@1@1；1@1|0/M:1^7；0/U:48'25；8'7/T:0_0；4_4|4[4]

可以看到经过对齐后在原始文本特征的前面加了起始时间，一个文本数值向量对应一个发音。且本实施例将上述得到的文本特征分为7个隐马尔科夫模型状态，细化了发音的演变过程。在对齐结果中，可以看到给出了每个隐马尔科夫模型状态的起始时间点，显然，通过将7个状态(末尾编号为2到8)的起始时间一合并，就得到了其对于文本特征中每个文字对应的语音帧的起始时间点。

示例性的，在上述实施例的基础上，还进一步包括语音合成过程，具体包括：

根据所述第二音段标注结果确定输入文本的语音特征；

根据所述输入文本的语音特征采用所述第三声学模型进行发音。

具体的，首先根据所述第二音段标注结果确定与输入文本匹配的语音特征，然后采用训练得到的第三声学模型进行发音。如果在训练过程中将韵律标注一起进行训练得到第三声学模型，在采用第三声学模型进行发音时，则会使发音更为动听悦耳。

上述各实施例同样首先采用第一声学模型对输入语料的特征信息进行对齐，得到第一音段标注结果，所述特征信息包括语音特征和文本特征，所述第一音段标注结果中包含语音特征和文本特征的初始对应关系；然后采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到第二音段标注结果，所述第二音段标注结果中包含语音特征和文本特征的最终对应关系；将所述第二音段标注结果做为语音合成时采用的音段标注结果即将7个隐马尔科夫状态合成一个文字对应的音节，上述各实施例提供的方案同样采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到的音段标注结果为输入语料中发音者对应的发音的音段标注结果，相对于仅采用第一声学模型得到的音段标注结果更加准确。

另外，所述第二音段标注结果中包含语音特征和文本特征的最终对应关系，其中所述对应关系中包含每个文字特征中的每个文字及其对应的音频特征的7个隐马尔科夫状态合成的语音帧，从而使合成的语音更为平滑准确。

实施例二

图2为本发明实施例二提供的语音标注方法的流程示意图，如图2所示，具体包括：

S21、提取待标注的输入语料的语音特征和文本特征，并对文本特征韵律标注；

S22、采用第一声学模型对提取的语音特征、文本特征和韵律标注进行对齐，得到第一音段标注结果，所述第一音段标注结果中包含语音特征和文本特征的初始对应关系；

S23、采用隐马尔科夫模型对第一音段标注结果、文本特征和韵律标注进行训练，得到第三音段标注训练数据和第二声学模型；

S24、采用深度递归神经网络对所述第三音段标注训练数据和所述文字特征进行训练，得到第四音段标注结果和第三声学模型；

S25、确定是否满足迭代终止条件；

若满足迭代终止条件，则执行步骤S26，否则将所述第四音段标注结果作为第一音段标注结果，返回执行步骤S23，使用所述第四音段标注结果进行训练，更新所述第三音段标注训练数据和第二声学模型，然后使用更新后的第三音段标注训练数据采用深度递归神经网络进行训练，重复上述迭代更新过程，直至满足迭代终止条件。

S26、将所述第四音段标注结果作为第二音段标注结果即最终的音段标注结果。

本实施例首先采用第一声学模型对输入语料的特征信息进行对齐，得到第一音段标注结果，然后采用隐马尔科夫模型对第一音段标注结果、文本特征和韵律标注进行训练，并对训练结果采用深度递归神经网络进行训练再次训练，重复迭代更新上述隐马尔科夫模型和深度递归神经网络训练过程，直至满足预设条件，能够准确的对输入语料进行音段标注。

实施例三

图3为本发明实施例三提供的语音标注装置的结构示意图，如图3所示，具体包括：初始标注训练模块31和深层标注训练模块32；

所述初始标注训练模块31用于采用第一声学模型对输入语料的特征信息进行对齐，得到第一音段标注结果，所述特征信息包括语音特征和文本特征，所述第一音段标注结果中包含语音特征和文本特征的初始对应关系；

所述深层标注训练模块32用于采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到第二音段标注结果，所述第二音段标注结果中包含语音特征和文本特征的最终对应关系，将所述第二音段标注结果做为语音合成时采用的音段标注结果。

本实施例所述的语音标注装置用于执行上述各实施例所述的语音标注方法，其技术原理和产生的技术效果类似，这里不再累述。

示例性的，在上述实施例的基础上，所述深层标注训练模块32包括：初始声学模型训练单元321、深层声学模型训练单元322和迭代更新单元323；

所述初始声学模型训练单元321用于采用隐马尔科夫模型对第一音段标注结果和所述特征信息进行训练，得到第三音段标注训练数据和第二声学模型；

所述深层声学模型训练单元322用于采用深度递归神经网络对所述第三音段标注训练数据和所述文字特征进行训练，得到第四音段标注结果和第三声学模型，所述第三声学模型用于进行合成发音；

所述迭代更新单元323用于将所述第四音段标注结果作为第一音段标注结果，返回初始声学模型训练单元和深层声学模型训练单元执行声学模型的训练操作，直至满足预设条件结束迭代操作，将所述满足预设条件时得到的第四音段标注结果作为第二音段标注结果。

示例性的，所述深层声学模型训练单元322具体用于：

将所述文字特征转换为数值向量序列；根据所述第三音段标注训练数据对所述数值向量序列进行对齐训练；采用维特比算法生成第四音段标注结果。

示例性的，所述装置还包括：语音合成模块33；

所述语音合成模块33用于根据所述第二音段标注结果确定输入文本的语音特征；根据所述输入文本的语音特征采用所述第三声学模型进行发音。

示例性的，在上述各实施例的基础上，所述特征信息还包括韵律标注。

上述各实施例所述的语音标注装置同样用于执行上述各实施例所述的语音标注方法，其技术原理和产生的技术效果类似，这里不再累述。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音标注方法，其特征在于，包括：

采用第一声学模型对输入语料的特征信息进行对齐，得到第一音段标注结果，所述特征信息包括语音特征和文本特征，所述第一音段标注结果中包含语音特征和文本特征的初始对应关系，其中，所述第一声学模型为具有音段标注功能的声学模型，所述第一声学模型为第一发音者对应的声音模型；

采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到第二音段标注结果，所述第二音段标注结果中包含语音特征和文本特征的最终对应关系，且所述第二音段标注结果为所述输入语料中的发音者对应的音段标注结果；

2.根据权利要求1所述的方法，其特征在于，采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到第二音段标注结果，包括：

3.根据权利要求2所述的方法，其特征在于，采用深度递归神经网络对所述第三音段标注训练数据和所述文字特征进行训练得到第四音段标注结果包括：

将所述文字特征转换为数值向量序列；

采用维特比算法生成第四音段标注结果。

4.根据权利要求2或3所述的方法，其特征在于，还包括：

根据所述第二音段标注结果确定输入文本的语音特征；

5.根据权利要求1～3任一所述的方法，其特征在于，所述特征信息还包括韵律标注。

6.一种语音标注装置，其特征在于，包括：

初始标注训练模块，用于采用第一声学模型对输入语料的特征信息进行对齐，得到第一音段标注结果，所述特征信息包括语音特征和文本特征，所述第一音段标注结果中包含语音特征和文本特征的初始对应关系，其中，所述第一声学模型为具有音段标注功能的声学模型，所述第一声学模型为第一发音者对应的声音模型；

深层标注训练模块，用于采用深度递归神经网络对所述特征信息和第一音段标注结果进行训练，得到第二音段标注结果，所述第二音段标注结果中包含语音特征和文本特征的最终对应关系，且所述第二音段标注结果为所述输入语料中的发音者对应的音段标注结果，将所述第二音段标注结果做为语音合成时采用的音段标注结果。

7.根据权利要求6所述的装置，其特征在于，所述深层标注训练模块包括：

初始声学模型训练单元，用于采用隐马尔科夫模型对第一音段标注结果和所述特征信息进行训练，得到第三音段标注训练数据和第二声学模型；

深层声学模型训练单元，用于采用深度递归神经网络对所述第三音段标注训练数据和所述文字特征进行训练，得到第四音段标注结果和第三声学模型，所述第三声学模型用于进行合成发音；

迭代更新单元，用于将所述第四音段标注结果作为第一音段标注结果，返回初始声学模型训练单元和深层声学模型训练单元执行声学模型的训练操作，直至满足预设条件结束迭代操作，将所述满足预设条件时得到的第四音段标注结果作为第二音段标注结果。

8.根据权利要求7所述的装置，其特征在于，所述深层声学模型训练单元具体用于：

9.根据权利要求7或8所述的装置，其特征在于，所述装置还包括：

语音合成模块，用于根据所述第二音段标注结果确定输入文本的语音特征；根据所述输入文本的语音特征采用所述第三声学模型进行发音。

10.根据权利要求6～8任一所述的装置，其特征在于，所述特征信息还包括韵律标注。