CN106910497A

CN106910497A - 一种中文词语发音预测方法及装置

Info

Publication number: CN106910497A
Application number: CN201510976061.6A
Authority: CN
Inventors: 王志铭; 李晓辉; 李宏言
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-12-22
Filing date: 2015-12-22
Publication date: 2017-06-30
Anticipated expiration: 2035-12-22
Also published as: CN106910497B

Abstract

本申请公开了一种中文词语发音预测方法及装置，该方法包括：获取包含各词语与发音音素序列之间的对应关系的训练集，其中，所述词语中包含的每个字是用反映了该字的语义的字向量表示的；根据所述训练集，对深度神经网络进行训练，获得中文词语发音预测模型，以用于对目标新词进行发音预测。通过上述方法，所述各词语可以从现有的语音识别发音词典中获取，可以根据生成的中文词语发音预测模型，预测出新词语对应的发音音素序列，并加入现有的语音识别发音词典中，因此，可以提高语音识别的准确性。

Description

一种中文词语发音预测方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种中文词语发音预测方法及装置。

背景技术

目前，语音识别技术广泛地应用于各种设备上。其中，所述设备包括但不限于智能手机、平板电脑、智能手表、智能手环、车载台等终端设备。

一般地，在应用了语音识别技术的系统内，会预先构建语音识别发音词典，该语音识别发音词典可以作为联接声学模型和语言模型的桥梁，统一于语音识别解码器引擎中，为实现自然的语音交互打下基础。

下面举例对所述语音识别发音词典进行说明，语音识别发音词典中可以包含有：词语与对应的发音音素序列之间的对应关系。

例如，“阿”这个字可以对应于发音音素“\a1\”，其中，“a1”表示的发音为字母元音“a”，且发音声调为第一声调。类似的，“阿里巴巴”这个词语可以对应于发音音素序列“\a1\li3\ba1\ba1\”，可以看到，这个发音音素序列由“阿里巴巴”中的各个字对应的发音音素构成。

目前，构建出的中文语音识别发音词典一般是经过语言学相关方面的专家审核校正，规模大小相对固定，因此，其覆盖的词语也是有限的，而在日常生活中，经常有新词语出现，如专有地名、人名、互联网时代新兴的词汇，等等。在这些新词语中，可能包含有多音字，而且有些字在这些新词语中的发音有可能发生变化，这在种情况下，由于现有的中文语音识别发音词典未包含这些新词语与对应的发音音素序列之间的对应关系，因此，可能会降低语音识别的准确性。

发明内容

本申请实施例提供一种中文词语发音预测方法及装置，用以解决现有技术中由于现有的语音识别发音词典未包含新词语与对应的发音音素序列之间的对应关系，因此，可能会降低语音识别的准确性的问题。

本申请实施例提供的一种中文词语发音预测方法，包括：

获取包含各词语与发音音素序列之间的对应关系的训练集，其中，所述词语中包含的每个字是用反映了该字的语义的字向量表示的；

根据所述训练集，对深度神经网络进行训练，获得中文词语发音预测模型，以用于对目标新词进行发音预测。

本申请实施例提供的一种中文词语发音预测装置，包括：

获取模块，用于获取包含各词语与发音音素序列之间的对应关系的训练集，其中，所述词语中包含的每个字是用反映了该字的语义的字向量表示的；

训练模块，用于根据所述训练集，对深度神经网络进行训练，获得中文词语发音预测模型，以用于对目标新词进行发音预测。

本申请实施例通过上述至少一种技术方案，所述各词语可以从现有的语音识别发音词典中获取，可以根据生成的中文词语发音预测模型，预测出新词语对应的发音音素序列，并加入现有的语音识别发音词典中，因此，可以提高语音识别的准确性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为采用的字转换为发音音素(Grapheme To Phoneme，G2P)方法的主要步骤；

图2为本申请实施例提供的中文词语发音预测方法的过程；

图3为传统的递归神经网络的结构；

图4为本申请实施例使用的一种长短期记忆单元的组成结构；

图5为本申请实施例使用的另一种长短期记忆单元的组成结构；

图6为本申请实施例提供的中文词语发音预测装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，可以基于深度学习训练中文词语发音预测模型。深度学习的概念是随着对人工神经网络的深入研究提出的，深度学习可以通过组合低层次特征，形成更加抽象的高层次特征或属性类别，并以挖掘输入层特征的分布式表示，深度学习一般通过对选定的深度神经网络(Deep Neural Network，DNN)进行训练实现。一般的，所述深度神经网络可以是包含多个隐层的多层感知器，如递归神经网络(Recurrent Neural Network，RNN)、卷积神经网络(Convolutional Neural Network，CNN)等。基于深度学习方法可以解决背景技术中提及的问题。

为了便于理解本申请提供的方法的优点，下面首先对一些构建中文语音识别发音词典的方法进行简单说明，然后再详细介绍本申请提供的中文词语发音预测方法。

在一种技术中，可以手动收集各词语与发音音素序列之间的对应关系数据，以构成中文语音识别发音词典，在这种情况下，需要持续关注新词语的产生，以便于及时对中文语音识别发音词典进行更新，否则，在使用该语音识别发音词典进行中文语音识别时，若语音中包含新词语的发音，可能无法准确地进行识别。需要说明的是，为了便于描述，可以将更新现有的语音识别发音词典或重新生成中文语音识别发音词典统称为：构建语音识别发音词典。

另一种方法是：基于联合序列N-Gram模型(Joint Sequence N-Gram Model)的字转换为发音音素(Grapheme To Phoneme，G2P)方法。该G2P方法可以将字序列(可以是中文词语等)转换为发音音素序列。例如，对于词语“阿里巴巴”，该G2P方法将预测“阿里巴巴”对应的发音音素序列为“/a1/li3/ba1/ba1/”。

图1示出了采用的G2P方法的主要步骤。可以看到，该G2P方法主要包含三个步骤：

第一，对齐(Alignment)，这是在字与发音音素之间建立对齐映射关系，如“/阿/里/巴/巴/”对齐映射于“/a1/li3/ba1/ba1/”，可以看到，每个字分别与一个发音音素对齐映射；

第二，训练(Training)，学习字与发音音素之间的转换关系，采用的训练方法可以是N-Gram模型；

第三，解码(Decoding)，采用训练后的模型，预测新词语最大似然概率的发音音素序列。具体的，可以将N-Gram模型表示为有限状态转换器(FiniteState Transducer，FST)，则解码过程是在FST搜索空间中寻找最优的发音路径。

该G2P方法的缺点是需要每个字与发音音素之间有明确的对齐映射关系(也可以称为：显式对齐)，而且，N-Gram模型的上下文窗口大小必须预先确定，限制了训练后的模型的泛化预测能力。

针对上述技术中的问题，在本申请提出的方法中，包含有基于长短期记忆单元(Long Short Term Memory，LSTM)的递归神经网络(Recurrent NeuralNetwork，RNN)的G2P训练方法，既不需要每个字与发音音素显示对齐(可以用字的序列与发音音素序列对齐)，又可以存储序列(该序列可以是字的序列，如词语、短语、句子等)的动态上下文信息，在序列建模方面具有较强的泛化预测能力，较好地克服了G2P训练方法的缺点。下面进行详细说明。

图2为本申请实施例提供的中文词语发音预测方法的过程，具体包括以下步骤：

S201：获取包含各词语与发音音素序列之间的对应关系的训练集，其中，所述词语中包含的每个字是用用反映了该字的语义的字向量表示的。

本申请实施例提供的方法的执行主体可以是服务器或终端。所述服务器包括但不限于：个人计算机、大中型计算机、计算机集群等；所述终端包括但不限于：个人计算机、手机、平板电脑、智能手表、车载移动台等。所述执行主体上可以搭载有用于语音识别的系统或装置或模块，所述执行主体并不构成对本申请的限定，为了便于描述，本申请实施例均以执行主体是所述服务器为例进行说明。

在本申请实施例中，可以将已经确定的、各词语与发音音素序列之间的对应关系，作为训练集，以用于在后续步骤中训练获得中文词语发音预测模型。具体的，可以根据已有的语音识别发音词典中包含的各词语，获取各词语与发音音素序列之间的对应关系。

在实际应用中，可以认为在已有的语音识别发音词典中，所述对应关系正确地反映了词语的发音，该发音即是用该词语对应的发音音素序列进行表示的。并且，可以认为背景技术中提及的新词语尚未包含在已有的语音识别发音词典中。

在本申请实施例中，所述字向量可以是一种用于将中文字的语义量化表示的向量。字向量可以采用热值“一”向量表示法(“One-Hot”Representation)进行表示，也可以采用分布式表示法(Distributed Representation)进行表示。

在实际应用中，相比于“One-Hot”Representation，字向量更适于用Distributed Representation进行表示，下面进行具体分析。

为了便于理解，以相关技术中的英文的词(word)向量为例，对“One-Hot”Representation进行说明。在相关技术中，可以基于word向量和神经网络构建英文识别词典，在该神经网络的输入层一般由27个节点构成，这27个节点对应于26个英文小写字母和1个辅助节点，相应的，输入层的特征用27维的word向量表示(每一维向量分量的取值为0或1)，例如，可以将字母“a”表示为word向量[1,0，…，0]，取值1在word向量中仅出现1次，其位置表示对应字母的索引，其他字母或节点也可以此类推，这种向量表示方法即为“One-Hot”Representation。但是，在构建中文语音识别发音词典的问题上，会存在两个问题：第一，中文和英文的粒度有区别，中文以字为最小基本单位，中文词语则是由中文字组成，而英文以英文字母为最小基本单位，word由英文字母组成，中文字具备语义和发音双重特征，而英文字母仅具备发音属性，没有语义属性；第二，对于中文，常用的中文字的数量大概有8000多个，若采用“One-Hot”Representation表示字向量，由于表示出的字向量维数过高(对应为8000多维)，因此，会获得高度稀疏的输入层特征，这对于一般为数十万条中文词语规模的训练集而言，几乎没有价值。根据以上分析，为了提高本申请的方案的实施效率，在本申请实施例中，可以不采用“One-Hot”Representation表示字向量。

在本申请实施例中，可以采用Distributed Representation表示字向量以解决上述问题。采用Distributed Representation可以将任一个中文词语映射为一个固定维数的字向量，例如，字向量可以是诸如[0.792，-0.177，-0.107，0.109，-0.542，…]的向量。在实际应用中，所述维数一般可以在几十维至几百维的取值范围内(如可以是200维)。字向量中的每一维的向量分量可以包含有该字处于不同的上下文环境时，对应的语义信息，其中，所述上下文环境可以指包含了该字的词语、短语、句子等。

需要说明的是，本申请实施例对于字向量的每一维所表示的含义并不做限定，每一维所表示的含义取决于表示字向量时所基于的向量空间。

以“蕉”和“茶”这两个字为例进行说明。假定基于4维向量空间将这两个字表示为字向量，其中，这4维分别表示的含义是：植物、水果、饮料、食物。假定对于表示出的字向量的每一维的向量分量，若该字与该维表示的含义相关程度越高时，该向量分量的值也越大。

采用Distributed Representation可以将“蕉”表示为一个4维字向量：[0.9，0.6，0.2，0.4]；可以将“茶”表示为一个4维字向量：[0.7，0.1，0.8，0.2]。分别对这两个字向量各维的向量分量进行对比分析。

对于第1维，“蕉”一般常见于“香蕉”、“芭蕉”等词语中，和植物相关程度较高，“茶”一般常见于“茶叶”、“绿茶”、“茶花”等词语中，和植物相关程度也较高，但是相比于“蕉”和植物相关程度要低一些，因为，“香蕉”、“芭蕉”直接就是植物，但是“茶叶”、“绿茶”是对植物进行加工后的产品。可以看到，表示“蕉”的字向量的第1维向量分量0.9，是大于表示“茶”的字向量的第1维向量分量0.7的。

类似地，对于第2维，相比于“茶”，“蕉”与水果的相关程度更高。可以看到，表示“蕉”的字向量的第2维向量分量0.6，是大于表示“茶”的字向量的第2维向量分量0.1的。

类似地，对于第3维，相比于“蕉”，“茶”与饮料的相关程度更高。可以看到，表示“蕉”的字向量的第3维向量分量0.2，是小于表示“茶”的字向量的第3维向量分量0.8的。

类似地，对于第4维，相比于“茶”，“蕉”与食物的相关程度更高。可以看到，表示“蕉”的字向量的第4维向量分量0.4，是小于表示“茶”的字向量的第4维向量分量0.2的。

需要说明的是，上述的4维空间，以及“蕉”和“茶”只是一种示例。在实际应用中，表示字向量的维数可以远不止4维，而且在字向量中对语义量化程度也可以不同。本申请对此并不做限定。

在实际应用中，可以采用word2vec等工具，以及互联网时代海量的文本数据，训练生成每个字的字向量。进而，可以将各选定中文词语用字向量的序列进行表示。其中，word2vec是由谷歌公司研发的，基于深度神经网络技术的字/词向量训练工具。

在本申请实施例中，除了生成字向量以外，也可以采用类似的方法，针对选定的中文词语，生成对应于该中文词语的、固定维数的词向量，另外，由于词语的数量要远大于字的数量(常用的中文字的数量大概有8000多个)，因此，可以只为部分使用频率较高的词语生成词向量即可。在这种情况下，对于一些原本要用字向量序列表示的中文词语，可以直接用对应的词向量进行表示，从而可以减少获取的训练集的数据量，减轻服务器的处理负担。

S202：根据所述训练集，对深度神经网络进行训练，获得中文词语发音预测模型，以用于对目标新词进行发音预测。

在本申请实施例中，所述中文词语发音预测模型是用于接收输入的中文词语，输出为该中文词语预测的发音音素序列的模型。中文词语发音预测模型中包含有基于深度神经网络的分类器，可以将每一种发音音素序列分别作为分类器的一种类别，预测发音音素序列过程实际上是将输入的中文词语划分至该中文词语对应的类别的过程。

在本申请实施例中，由于在训练集中，各词语(根据步骤S101，每个词语可以表示用字向量序列进行表示)与发音音素序列之间的对应关系是已经确定的，因此，可以将发音音素序列整体上作为对应的中文词语的标签(Label)，进而对深度神经网络进行有监督学习的训练。

具体的，可以用词语的逐个字向量作为深度神经网络的输入层特征向量，当该深度神经网络的输出层用分类器实现时，则该词语对应的发音音素序列即为该词语对应的归属标签，学习训练的目标函数就是使得分类器可以正确地确立词语与发音音素序列的映射关系。也即，对于在输入层输入的字向量，深度神经网络可以输出为该字向量预测的各可能的发音音素的似然概率分布，且该字向量对应的发音音素的似然概率最大。

在本申请实施例中，所述深度神经网络可以包括：包含有输入层(InputLayer)、输出层(Output Layer)和至少两个隐层(Hidden Layer)的递归神经网络，其中，所述隐层可以将输入层接收到的原始特征进行非线性抽象表示。递归神经网络可以存储序列的动态上下文信息，比较适用于各种时间序列建模问题，由于在训练深度神经网络时，字向量序列中的每个字向量可以在不同的时间依次输入，则字向量序列也可以作为一种时间序列，因此，适合用递归神经网络进行建模处理。图3示出了可以本申请实施例提供的传统的递归神经网络的结构，其中，隐层可以存储序列的动态上下文信息。

进一步的，传统的递归神经网络存在的梯度扩散(gradient diffusion)或梯度溢出的问题。以梯度扩散的问题为例进行说明，对于包括所述递归神经网络的传统的神经网络，一般以反向传播(Back Propagation)算法和有标签的训练数据进行训练。训练的过程为：采用迭代的算法来训练整个神经网络，随机设定初值，计算当前神经网络的输出，然后根据设定的目标函数去改变模型的参数，直到收敛，整个训练过程可以用梯度下降法。而当神经网络中的层数较多时，残差传播到最前面的层已经变得太小，则会导致梯度扩散的问题，其中，所述参数包括但不限于各神经元所使用的激活函数中的权重参数。在本申请实施例中，为了解决上述问题，可以在递归神经网络的隐层中使用长短期记忆单元(Long Short Term Memory，LSTM)神经元，也即，本申请中所述的深度神经网络可以是基于LSTM神经元的递归神经网络(Long Short TermMemory-Recurrent Neural Network，LSTM-RNN)。LSTM神经元可以通过门阀节点，在记忆单元中存储序列的动态上下文信息，并对前向传播和反向传播的数据进行控制，因此可以解决上述问题。

在本申请实施例中，可以使用生成的中文词语发音预测模型，对尚未包含在现有的中文语音词典中的新词语(可以称为目标新词)进行发音预测。在实际应用中，可以将新词语转换为对应的字向量序列，然后依次输入中文词语发音预测模型，中文词语发音预测模型的输出层的分类器可以输出为该字向量序列预测的至少一个发音音素序列的概率分布，概率最大的发音音素序列即为预测模型预测的、与该新词语对应的发音音素序列。

通过上述方法，服务器可以生成该新词语与该发音音素序列的对应关系，并将该对应关系加入现有的语音识别发音词典中，从而，语音识别解码器引擎可以基于加入该对应关系后的语音识别发音词典，进行语音识别，可以提高语音识别的准确性。

在本申请实施例中，对于上述步骤S201，可以按照如下方法，生成反映了字的语义的字向量：通过字向量生成模型，将字映射为预定维数的字向量，使得不同字向量之间的距离反映了对应的字之间的语义相关程度；其中，所述字向量生成模型是采用选定的中文语料库训练生成的。

在本申请实施例中，所述深度神经网络可以包括：包含有输入层、输出层和至少两个隐层的递归神经网络；所述隐层中包含的神经元是长短期记忆单元LSTM神经元。图4为本申请实施例使用的一种LSTM神经元的组成结构，其是LSTM-RNN的核心组成部分，主要可以包括输入门阀(Input Gate)、输出门阀(Output Gate)、遗忘门阀(Forget Gate)、记忆单元(Memory Unit)，在训练过程中，对于前向传递，输入门阀用于控制记忆单元的更新，输出门阀用于确定当前记忆单元的输出。其中，Π节点表示乘法器，i_c，o_c，f_c，s_c分别表示输入门阀状态、输出门阀状态、遗忘门阀状态、记忆单元状态，i_c(t)、o_c(t)、f_c(t)、s_c(t)分别为输入门阀、输出门阀、遗忘门阀和记忆单元在t时刻的输出，g_c(t)为神经元在t时刻的输入，v_c(t)为神经元在t时刻的输出。另外，记忆单元的输出端的虚线表示向该虚线方向输出了记忆单元在t-1时刻的输出，在图4中用s_c(t-1)表示，需要说明的是，在本申请实施例中，若神经元在t-1时刻处理的是字向量序列中的某个字向量，则可以认为该神经元在t时刻处理的是在序列中顺序位于该字向量之后的另一个字向量。根据图4中的结构，可以推导出：

s_c(t)＝g_c(t)·i_c(t)+s_c(t-1)·f_c(t)；称为公式1；

v_c(t)＝s_c(t)·o_c(t)；

其中，在公式1中，“·”表示矩阵元素的点乘关系，g_c(t)·i_c(t)反映了用在t时刻输入的g_c(t)对记忆单元中存储的数据进行更新，s_c(t-1)·f_c(t)反映了根据t时刻输入门阀的状态对在t-1时刻记忆单元中存储的数据进行更新。

进一步的，在实际应用中，还可以对图4中的神经元结构作进一步地优化。具体的，可以增加从记忆单元至遗忘门阀、输入门阀和输出门阀的连接，称为窥视洞连接(Peephole connection)，从而可以进一步地增强神经元存储序列的上下文信息的能力。图5示出了增加了窥视洞连接后的LSTM神经元的组成结构，其是LSTM-RNN的核心组成部分。

具体的，举例对图5中神经元的迭代计算过程进行描述，假定该神经元的输入为I，在t时刻的输入为I(t)，σ()表示Sigmoid逻辑回归函数为，tanh()表示双曲正切函数，则该迭代过程可以表示为：

i_c(t)＝σ(W_IiI(t)+W_viv_c(t-1)+W_sis_c(t-1)+b_i)；

f_c(t)＝σ(W_IfI(t)+W_vfv_c(t-1)+W_sfs_c(t-1)+b_f)；

s_c(t)＝f_c(t)s_c(t-1)+i_c(t)tanh(W_IsI(t)+W_vsv_c(t-1)+b_s)；

o_c(t)＝σ(W_IoI(t)+W_vov_c(t-1)+W_sos(t)+b_o)；

v_c(t)＝o_c(t)tanh(s_c(t))；

其中，W_Ii、W_If、W_Io、W_Is分别为神经元输入I与输入门阀、遗忘门阀、输出门阀、神经元输入端之间的连接权重，W_vi、W_vf、W_vo、W_vs分别为神经元输出与输入门阀、遗忘门阀、输出门阀、神经元输入端之间的连接权重，W_si、W_sf、W_so分别为记忆单元与输入控制门、遗忘门、输出控制门之间的连接权重，b_i、b_f、b_o、b_s分别为输入控制门、遗忘门、输出控制门和神经元输出的偏置。

需要说明的是，以上迭代过程是单向迭代的过程，双向迭代的过程也可以以此类推得到。另外，在图5中的各项计算的顺序依次为：输入门阀和遗忘门阀的输入及输出，记忆单元的更新，输出门阀的输入及输出，记忆单元的输出。

在本申请实施例中，一个深层的LSTM-RNN中可以包含两个或更多个隐层，每个隐层中可以包含有512或1024个LSTM神经元。可以将字向量的每一维分别输入一个输入层节点，因此，所述输入层中包含的输入节点的数量可以等于所述字向量的维数。进一步的，所述输出层中包含的输出节点可以包括：预定数量的节点，以及一个辅助节点，其中，所述预定数量个节点一一对应于预定数量的字的发音。所述辅助节点是用于配合输出层的分类器的工作，所述设定数量可以等于常用的中文汉字的发音的数量，该数量少于10000个。

具体的，在实际应用中，每个字可能对应于一个或多个发音音素，例如，对于上述的词语“阿里巴巴”中的“阿”字对应了一个发音音素，而对于“动”字，则可以对应于“d”、“ong4”这两个发音音素的组合。为了提高中文词语发音预测模型的工作效率，可以基于字的发音(每个发音为一个发音音素或多个发音音素的组合)，设计输出层的节点。具体的，可以针对每个常用字的发音，分别在输出层设计一个对应的输出节点。例如，对于“大”、“你”、“好”这3个字，对应的发音分别为“da4”、“ni3”“hao3”，相应的，输出层可以分别有一个输出节点与每个发音对应。在这种情况下，由于常用的中文字有8000多个，则输出层也可以有对应的8000多个输出节点。

另外，需要说明的，本申请对LSTM-RNN的组成结构并不做限定，在实际应用中，还可以采用其他组成结构的LSTM-RNN实施本申请提供的方法，例如，可以采用双向深层(Bidirectional Deep)LSTM-RNN，等等。

在本申请实施例中，对于上述步骤S202，根据所述训练集，对深度神经网络进行训练，具体可以包括：

针对所述训练集中相互对应的每一对词语与发音音素序列，执行以下操作：将该词语包含的各字向量作为输入层特征向量依次输入进所述输入层，并由输入层传递给所述隐层；通过所述至少两个隐层中包含的各LSTM神经元，对所述输入层特征进行抽象的学习表示，获得对应的高维向量，并逐层传递给所述输出层；通过所述输出层，根据隐层传递来的高维向量，计算输入层特征向量分别对应于各发音音素序列的类属概率，并根据各所述类属概率，对深度神经网络进行训练。

在输入字向量时，可以将字向量的每一维向量分量分别输入进一个输入节点中，从而，对于一个字向量的各维向量分量，是并行输入进输入层的，而对于各字向量，则是串行地输入进输入层的。例如，假定字向量为200维，则可以将200维向量分量对应地输入输入层。

进一步的，可以采用预定的回归分类器计算各所述类属概率，所述回归分类器包括但不限于softmax回归分类器。在采用softmax回归分类器的情况下，根据各所述类属概率，对深度神经网络进行训练，具体可以包括：根据所述Softmax回归分类器输出的各所述音素类属概率，采用CTC分类器计算所有可能发音音素序列的似然概率之和；根据其结果确定需要优化的目标函数，一般地，所述的目标函数可以是负最大似然概率估计，用随机梯度下降算法优化之，本申请对具体的待优化目标函数并不作限制。根据具体的目标函数，通过反向传播(误差)算法调整所述深度神经网络模型中使用的权重参数，并不断迭代优化直至收敛为止。需要说明的是，本申请对调整权重参数所使用的算法并不做限定。

更具体的，Softmax回归分类器可以采用如下公式计算所述类属概率：

称为公式2；

其中，Pr(k|t)表示在t时刻时已输入的各字向量在K个类别中属于类别k的概率，每个所述类别分别对应于发音音素序列，y_t[k]表示第k个类别对应的神经元在t时刻未经过Softmax规整化的结果。

在本申请实施例中，训练生成中文词语发音预测模型后，即可以对目标新词进行发音预测，完成预测后即可以将目标新词和对应的发音音素序列加入到语音识别发音词典中。预测的过程与训练的过程类似，对于上述步骤S202，可以按照如下方法，用所述中文词语发音预测模型，对目标新词进行发音预测：所述中文词语发音预测模型通过输入层依次接收输入的各字向量，并作为输入层特征向量由输入层传递给隐层，其中，所述各字向量是根据目标新词生成的；通过所述隐层中包含的各LSTM神经元，对各所述输入层特征向量进行抽象的学习表示，生成对应的高维向量，并逐层传递给输出层；通过输出层中的Softmax回归分类器，根据隐层传递而来的高维向量，计算类属概率的最大值，并将所述最大值对应的发音音素序列作为所述目标新词的映射结果(也即是，预测结果)。其中，所述最大值可以是使用上述的公式2计算得出的。

在本申请实施例中，通过上面的说明，可以看出，在中文词语发音预测模型的训练以及使用的过程中，本申请中的方法是侧重于将字的序列与发音音素序列整体上进行对齐，而在基于N-Gram方法训练生成中文发音预测模型时，则是针对每个字与该字的发音音素进行对齐。本申请的方法对应的中文词语发音预测模型(为了便于描述，称为L模型)的优点是泛化预测能力相对较强，N-Gram方法对应的中文词语发音预测模型(为了便于描述，称为N模型)的优点是解码速度相对较快。在实际应用中，可以结合分别根据这两种方法生成的中文词语发音预测模型进行中文发音预测，以构建更可靠的语音识别发音词典，进而也可以进一步地提高语音识别的准确率。

具体的，对于待预测发音的目标新词，可以分别将其输入L模型和N模型，经过解码处理后，分别将L模型和N模型的输出表示为有限状态转化器(Finite State Transducer，FST)，在表示出的两个FST之间进行截交，也即是，确定同时在所述两个FST中出现的发音音素，再在截交后获取的交集(也构成一个FST)中寻找最优路径，所述最优路径即为输入的待预测发音的目标新词对应的发音音素序列。

以上为本申请实施例提供的中文词语发音预测方法，基于同样的思路，本申请实施例还提供相应的中文词语发音预测装置，如图6所示。

图6为本申请实施例提供的中文词语发音预测装置结构示意图，具体包括：

获取模块601，用于获取包含各词语与发音音素序列之间的对应关系的训练集，其中，所述词语中包含的每个字是用反映了该字的语义的字向量表示的；

训练模块602，用于根据所述训练集，对深度神经网络进行训练，获得中文词语发音预测模型，以用于对目标新词进行发音预测。

所述获取模块601还用于，按照如下方法，生成反映了字的语义的字向量：通过字向量生成模型，将字映射为预定维数的字向量，使得不同字向量之间的距离反映了对应的字之间的语义相关程度；其中，所述字向量生成模型是采用选定的中文语料库训练生成的。

所述深度神经网络包括：包含有输入层、输出层和至少两个隐层的递归神经网络；

所述隐层中包含的神经元是长短期记忆单元LSTM神经元。

所述输入层中包含的输入节点的数量等于所述字向量的维数，所述输出层中包含的输出节点包括：预定数量的节点，以及一个辅助节点，其中，所述预定数量个节点一一对应于预定数量的字的发音。

所述训练模块602具体用于：

针对所述训练集中相互对应的每一对词语与发音音素序列，执行以下操作：将该词语包含的各字向量作为输入层特征向量依次输入进所述输入层，并由输入层传递给所述隐层；通过所述至少两个隐层中包含的各LSTM神经元，对所述输入层特征向量进行抽象的学习表示，获得对应的高维向量，并逐层传递给所述输出层；通过所述输出层，根据隐层传递来的高维向量，计算输入层特征向量分别对应于各发音音素序列的类属概率，并根据各所述类属概率，对深度神经网络进行训练。

所述训练模块602具体用于：根据所述Softmax回归分类器输出的各所述音素类属概率，采用CTC分类器计算所有可能发音音素序列的似然概率之和；根据其计算出的似然概率之和，确定需要优化的目标函数，并对确定出的目标函数进行优化；根据目标函数，调整所述深度神经网络模型中使用的权重参数，并不断迭代优化直至收敛为止。

所述装置还可以包括：

预测模块603，用于按照如下方法，用所述中文词语发音预测模型，对目标新词进行发音预测：用所述中文词语发音预测模型通过输入层依次接收输入的各字向量，并作为输入层特征向量由输入层传递给隐层，其中，所述各字向量是根据目标新词生成的；通过所述隐层中包含的各LSTM神经元，对各所述输入层特征向量进行抽象的学习表示，生成对应的高维向量，并逐层传递给输出层；通过输出层中的Softmax回归分类器，根据隐层传递而来的高维向量，计算类属概率的最大值，并将所述最大值对应的发音音素序列作为所述目标新词的预测结果。

具体的上述如图6所示的装置可以位于服务器、终端上。

本申请实施例提供一种中文词语发音预测方法及装置，该方法包括：获取包含各词语与发音音素序列之间的对应关系的训练集，其中，所述词语中包含的每个字是用反映了该字的语义的字向量表示的；根据所述训练集，对深度神经网络进行训练，获得中文词语发音预测模型，以用于对目标新词进行发音预测。通过上述方法，通过上述方法，所述各词语可以从现有的语音识别发音词典中获取，可以根据生成的中文词语发音预测模型，预测出新词语对应的发音音素序列，并加入现有的语音识别发音词典中，因此，可以提高语音识别的准确性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种中文词语发音预测方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，按照如下方法，生成反映了字的语义的字向量：

通过字向量生成模型，将字映射为预定维数的字向量，使得不同字向量之间的距离反映了对应的字之间的语义相关程度；

其中，所述字向量生成模型是采用选定的中文语料库训练生成的。

3.如权利要求1所述的方法，其特征在于，所述深度神经网络包括：包含有输入层、输出层和至少两个隐层的递归神经网络；

所述隐层中包含的神经元是长短期记忆单元LSTM神经元。

4.如权利要求3所述的方法，其特征在于，所述输入层中包含的输入节点的数量等于所述字向量的维数，所述输出层中包含的输出节点包括：预定数量的节点，以及一个辅助节点，其中，所述预定数量个节点一一对应于预定数量的字的发音。

5.如权利要求3所述的方法，其特征在于，根据所述训练集，对深度神经网络进行训练，具体包括：

针对所述训练集中相互对应的每一对词语与发音音素序列，执行以下操作：

将该词语包含的各字向量作为输入层特征向量依次输入进所述输入层，并由输入层传递给所述隐层；

通过所述至少两个隐层中包含的各LSTM神经元，对所述输入层特征向量进行抽象的学习表示，获得对应的高维向量，并逐层传递给所述输出层；

通过所述输出层，根据隐层传递来的高维向量，计算输入层特征向量分别对应于各发音音素序列的类属概率，并根据各所述类属概率，对深度神经网络进行训练。

6.如权利要求5所述的方法，其特征在于，采用Softmax回归分类器计算各所述类属概率；

根据各所述类属概率，对深度神经网络进行训练，具体包括：

根据所述Softmax回归分类器输出的各所述音素类属概率，采用CTC分类器计算所有可能发音音素序列的似然概率之和；

根据其计算出的似然概率之和，确定需要优化的目标函数，并对确定出的目标函数进行优化；

根据目标函数，调整所述深度神经网络模型中使用的权重参数，并不断迭代优化直至收敛为止。

7.如权利要求5所述的方法，其特征在于，按照如下方法，用所述中文词语发音预测模型，对目标新词进行发音预测，具体包括：

用所述中文词语发音预测模型通过输入层依次接收输入的各字向量，并作为输入层特征向量由输入层传递给隐层，其中，所述各字向量是根据目标新词生成的；

通过所述隐层中包含的各LSTM神经元，对各所述输入层特征向量进行抽象的学习表示，生成对应的高维向量，并逐层传递给输出层；

通过输出层中的Softmax回归分类器，根据隐层传递而来的高维向量，计算类属概率的最大值，并将所述最大值对应的发音音素序列作为所述目标新词的预测结果。

8.一种中文词语发音预测装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，所述获取模块还可以用于，按照如下方法，生成反映了字的语义的字向量：

通过字向量生成模型，将字映射为预定维数的字向量，使得不同字向量之间的距离反映了对应的字之间的语义相关程度；其中，所述字向量生成模型是采用选定的中文语料库训练生成的。

10.如权利要求8所述的装置，其特征在于，所述深度神经网络包括：包含有输入层、输出层和至少两个隐层的递归神经网络；所述隐层中包含的神经元是长短期记忆单元LSTM神经元。

11.如权利要求10所述的装置，其特征在于，所述输入层中包含的输入节点的数量等于所述字向量的维数，所述输出层中包含的输出节点包括：预定数量的节点，以及一个辅助节点，其中，所述预定数量个节点一一对应于预定数量的字的发音。

12.如权利要求10所述的装置，其特征在于，所述训练模块具体用于：

13.如权利要求12所述的方法，其特征在于，采用Softmax回归分类器计算各所述类属概率；

所述训练模块具体用于：根据所述Softmax回归分类器输出的各所述音素类属概率，采用CTC分类器计算所有可能发音音素序列的似然概率之和；根据其计算出的似然概率之和，确定需要优化的目标函数，并对确定出的目标函数进行优化；根据目标函数，调整所述深度神经网络模型中使用的权重参数，并不断迭代优化直至收敛为止。

14.如权利要求12所述的方法，其特征在于，所述装置还包括：

预测模块，用于按照如下方法，用所述中文词语发音预测模型，对目标新词进行发音预测：用所述中文词语发音预测模型通过输入层依次接收输入的各字向量，并作为输入层特征向量由输入层传递给隐层，其中，所述各字向量是根据目标新词生成的；通过所述隐层中包含的各LSTM神经元，对各所述输入层特征向量进行抽象的学习表示，生成对应的高维向量，并逐层传递给输出层；通过输出层中的Softmax回归分类器，根据隐层传递而来的高维向量，计算类属概率的最大值，并将所述最大值对应的发音音素序列作为所述目标新词的预测结果。