CN110377882B

CN110377882B - 用于确定文本的拼音的方法、装置、系统和存储介质

Info

Publication number: CN110377882B
Application number: CN201910647900.8A
Authority: CN
Inventors: 潘华山; 李秀林
Original assignee: Data Baker Shenzhen Technology Co ltd
Current assignee: Data Baker Shenzhen Technology Co ltd
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2023-06-09
Anticipated expiration: 2039-07-17
Also published as: CN110377882A

Abstract

本发明实施例提供了用于确定文本的拼音的方法、装置、系统、存储介质以及语音合成方法。所述方法包括：确定所述文本中的多音字的候选拼音；至少根据所述文本中的多音字的候选拼音，确定所述文本的掩码；提取所述文本中的汉字的特征；基于所提取的特征，利用预测模型预测对应汉字的拼音；以及基于预测结果和所述文本的掩码确定所述文本的拼音。上述自动确定文本的拼音的技术方案中，无需人工手动操作，通过掩码来限制文本中汉字的候选拼音的范围，有效防止了将多音字的拼音预测错误的情况，提高了文本的拼音的预测准确率。

Description

用于确定文本的拼音的方法、装置、系统和存储介质

技术领域

本发明涉及语音分析和处理领域，更具体地涉及一种用于确定文本的拼音的方法、装置、系统、存储介质以及语音合成方法。

背景技术

在语音分析和处理技术领域中，汉字到拼音的转换直接影响着语音分析处理的准确度。具体例如，在语音合成技术中，其直接影响所合成的语音的可懂度。因此，提高汉字的拼音标注的准确率具有重要意义。

目前，现有的汉字拼音标注方法大体基于以下内容来实现：规则库和神经网络。基于规则库的方法虽然准确度较高，但是需要耗费大量的人力和物力来构建规则库且人工构建的规则库更新周期较长。此外，当规则库达到一定规模后，容易出现规则冲突等问题，较难扩展和维护。基于神经网络的方法通常针对每个多音字单独进行建模。每个多音字都训练一个标注模型，显著增加了系统开销。此外，基于神经网络的方法准确率还难以满足需求，容易发生预测错误。

总之，现有的用于确定文本的拼音的方法有待改善。

发明内容

考虑到上述问题而提出了本发明。

根据本发明一个方面，提供了一种用于确定文本的拼音的方法。所述方法包括：

确定所述文本中的多音字的候选拼音；

至少根据所述文本中的多音字的候选拼音，确定所述文本的掩码；

提取文本中的汉字的特征；

基于所提取的特征，利用预测模型预测对应汉字的拼音；以及

基于预测结果和所述文本的掩码确定所述文本的拼音。

示例性地，在确定文本的掩码之前，所述方法还包括：

确定所述文本中的单音字的候选拼音；

确定所述文本的掩码包括：

根据所述文本中的每个汉字的候选拼音，确定每个汉字对应的掩码；以及

根据所述每个汉字对应的掩码，确定所述文本的掩码。

示例性地，对于所述文本中的每个汉字，该汉字的预测结果用预测向量表示，所述预测向量中的每个元素表示该汉字发出对应拼音的概率；

所述文本的掩码用掩码矩阵表示，所述掩码矩阵中的该汉字对应的向量中的每个元素表示该汉字能否发出对应拼音；

基于预测结果和所述文本的掩码确定所述文本的拼音包括：

用所述预测向量中的元素乘以所述掩码向量中的对应元素，以确定所述文本中的该汉字的拼音。

示例性地，所述提取所述文本中的汉字的特征包括：对于所述文本中的每个汉字，

确定该汉字的字符级特征；

将该汉字的字符级特征进行嵌入化处理；以及

根据经嵌入化处理的字符级特征获得该汉字的特征。

示例性地，所述确定该汉字的字符级特征包括：确定该汉字的多个字符级特征；

所述根据经嵌入化处理的字符级特征获得该汉字的特征包括：

连接经嵌入化处理的多个字符级特征，以获得所述汉字的特征。

示例性地，所述多个字符级特征包括：字符级字面特征和字符级多音字标识特征。

示例性地，所述多个字符级特征还包括：中文分词特征、词性特征、句法特征和语义特征。

示例性地，对于所述文本中的每个汉字，

所述确定所述文本的掩码包括：确定所述文本中的该汉字的掩码；

所述提取所述文本中的汉字的特征还包括：

将该汉字的掩码进行嵌入化处理；

连接经嵌入化处理的字符级特征和经嵌入化处理的掩码，以获得所述汉字的特征。

示例性地，预测模型是卷积神经网络模型、双向长短时记忆网络模型或序列到序列模型。

示例性地，所述方法还包括：利用样本数据对预测模型进行训练。

根据本发明另一方面，还提供了一种语音合成方法，包括：

利用上述的用于确定文本的拼音的方法，确定所述文本的拼音；以及

基于所确定的拼音，合成所述文本的语音。

根据本发明再一方面，还提供了一种用于确定文本的拼音的装置，包括：

候选拼音确定模块，用于确定所述文本中的多音字的候选拼音；

掩码确定模块，用于至少根据所述文本中的多音字的候选拼音，确定所述文本的掩码；

特征提取模块，用于提取所述文本中的汉字的特征；

预测模块，用于基于所提取的特征利用预测模型预测对应汉字的拼音；

输出模块，用于基于预测结果和所述文本的掩码确定所述文本的拼音。

根据本发明再一方面，还提供了一种用于确定文本的拼音的系统，包括：处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述的用于确定文本的拼音的方法。

根据本发明其他一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述的用于确定文本的拼音的方法。

上述技术方案无需人工手动操作即可自动确定文本的拼音。在此过程中，通过掩码来限制文本中汉字的候选拼音的范围，有效防止了将多音字的拼音预测错误的情况，提高了文本的拼音的预测准确率。由此，能够提高语音合成的可懂度和流畅度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了待确定拼音的文本的示意图；

图2示出了根据本发明一个实施例的用于确定文本的拼音的方法的示意性流程图；

图3示出了根据本发明一个实施例的图1所示文本中的汉字的候选拼音的示意图；

图4示出了根据本发明一个实施例的图1所示文本的掩码矩阵的示意图；

图5示出了根据本发明一个实施例的用于确定文本的拼音的装置的示意性框图；

图6示出了根据本发明一个实施例的特征提取模块的示意性框图；

图7示出了根据本发明另一个实施例的用于确定文本的拼音的装置的示意性框图；以及

图8示出了根据本发明一个实施例的用于确定文本的拼音的系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

本文描述的用于确定文本的拼音的方案能够在无额外人工手动操作的情况下，自动将文本的文字转化为文字对应的拼音。文本中可以包括多音字和单音字。可以理解，在文本中，每个汉字都有其对应的拼音。即使对于文本中的多音字，其在该文本中的发音也是确定的。汉字的拼音可以用音节和声调来表示。在以下描述中，用“音节声调”来表示汉字的拼音，其中声调的一声、二声、三声和四声分别用数字1、2、3和4来表示，声调中的轻声用数字5来表示。例如，汉字“会”的拼音“hui4”中，“hui”表示音节，“4”表示声调。利用汉字的拼音可以确定该汉字的发音。该方案可以用于语音合成、视频生成等应用场景的前端文本处理中。由于多数常用汉字都具有固定读音，因此汉字转拼音的处理重点实际上是对多音字的拼音标注。

下面以文本“仅会在行业规范和会计制度方面进行指导”为例，来说明用于确定文本的拼音的方法。图1示出了待确定拼音的文本“仅会在行业规范和会计制度方面进行指导”的示意图。该文本包括18个汉字。为了描述方便，可以用汉字的序号标识这些汉字。如图1所示，每个汉字上面标有数字以作为其序号，从1至18。比如，“仅”排在文本中的第一个位置，其序号为1。排在文本中的第二个位置的“会”的序号为2，以此类推。虽然文本中第二个和第九个汉字都是同一个字“会”，但其拼音不同。序号2的汉字“会”的拼音为“hui4”。序号9的汉字“会”的拼音为“kuai4”。类似地，文本中第四个汉字和第十六个汉字都是同一个字“行”，但其拼音不同。序号4的汉字“行”的拼音为“hang2”，序号16的汉字“行”的拼音为“xing2”。确定文本的拼音是将文本中各个汉字转换为与之对应的拼音，由此确定整个文本的拼音。

现有的自动确定文本拼音的方法，很难保证不会将当前汉字的拼音预测为其他汉字的拼音，或者将多音字的正确发音预测为该多音字的另外一个发音，导致预测错误。比如，将序号9的汉字“会”的正确拼音是“kuai4”，但现有的确定文本的拼音的方法可能将其预测为“suo3”或“hui4”。简言之，当前的确定文本拼音的方法难以保证正确率。一旦出现预测错误，则会对后续的语音合成等应用的造成严重负面影响，例如影响所合成的语音的可懂度。

为了至少部分地解决上述问题，本发明实施例提供一种用于确定文本的拼音的方法。可以理解，文本可以是一句话、一段或多段汉字。图2示出了根据本发明一个实施例的用于确定文本的拼音的方法200的示意性流程图。下面还以文本“仅会在行业规范和会计制度方面进行指导”为例来说明用于确定文本的拼音的方法200。如图2所示，所述方法200包括以下步骤。

步骤S210，确定文本中的多音字的候选拼音。

示例性地，可以利用汉字拼音词典确定文本中的多音字的候选拼音。这样，所确定的候选拼音准确无误。汉字拼音词典的每个条目包括汉字以及该汉字对应的候选拼音(即该汉字的可能拼音)。可以利用汉字拼音词典确定汉字的候选拼音。对于多音字，其候选拼音是多个。例如多音字“会”，其候选拼音包括“hui4”和“kuai4”；多音字“行”，其候选拼音包括“hang2”和“xing2”。对于单音字，其候选拼音是唯一的。比如，单音字“仅”，其候选拼音仅包括“jin3”。

表1示出了根据本发明一个实施例的汉字拼音词典。如表1所示，该汉字拼音词典包括16个词条。

表1汉字拼音词典

汉字	候选拼音	汉字	候选拼音	汉字	候选拼音
						仅	jin3	会	hui4；kuai4	在	zai4
行	hang2；xing2	业	ye4	规	gui1
						范	fan4	和	he2	计	ji4
制	zhi4	度	du4	方	fang1
						面	mian4	进	jin4	指	zhi3
导	dao3

可以理解，上述汉字拼音词典仅为示例，而不构成对本发明的限制。在一个示例中，汉字拼音词典中的词条可以涉及所有常用汉字，甚至所有汉字。由此，利用汉字拼音词典确定文本中的每个汉字的候选拼音。替代地，汉字拼音词典中也可以仅涉及多音字。

替代地，可以根据预测模型的先前预测结果确定文本中的多音字的候选拼音。

步骤S220，至少根据文本中的多音字的候选拼音，确定所述文本的掩码。

示例性地，可以根据候选拼音在拼音索引词典中的拼音索引确定文本的掩码。所述文本的掩码用于至少屏蔽所述文本中的多音字的非候选拼音。拼音索引词典中的每个条目包括拼音(即音节和声调)和该拼音所对应的拼音索引。可以利用拼音索引词典确定特定拼音对应的拼音索引。拼音索引可以认为是具体拼音内容的编号，用于标识具体拼音内容。换言之，每个拼音对应唯一一个拼音索引。

表2示出了根据本发明一个实施例的拼音索引词典。如表2所示，该拼音索引词典包括18个词条。

表2拼音索引词典

可以理解，上述拼音索引词典仅为示例，而不构成对本发明的限制。在一个示例中，拼音索引词典中的词条可以涉及所有汉语拼音。替代地，拼音索引词典中也可以仅涉及多音字的候选拼音。

再以上述文本“仅会在行业规范和会计制度方面进行指导”为例，图3示出了根据本发明一个实施例的利用该表2所示的拼音索引词典确定的前述文本中的汉字的候选拼音的拼音索引的示意图。所述文本中，“会”和“行”这两个汉字都是多音字。“会”对应的拼音为“hui4”和“kuai4”；“行”对应的拼音为“hang2”和“xing2”。所述文本中共有16个不重复的汉字，有14个单音字，2个多音字，总共对应18个拼音。如图3所示，下面的一行拼音为所述文本中的汉字的所涉及的所有拼音，共18个拼音，上面的一行数字为所述文本的汉字的候选拼音对应的拼音索引，取值分别为0至17，共18个拼音。比如，“jin3”这个拼音的拼音索引为0，“hui4”的拼音索引为1，“hang2”的拼音索引为4。

文本的掩码至少包括文本中的多音字对应的掩码，所述文本的掩码用于通过对步骤S220预测模型的预测结果进行相应的运算来屏蔽不可能正确的预测结果，以确定文本的拼音。所述运算可以包括多种运算方式。比如，所述运算可以包括按位“与”运算或乘法运算。

掩码可以用由1和0组成的向量来表示。每个汉字对应一个唯一的掩码向量。掩码向量的维度等于拼音索引词典中的条目的个数。掩码中的每个元素表示对应位置的拼音索引所标识的拼音是否可能是该掩码向量所对应的汉字的拼音。在一个示例的掩码向量中，汉字的候选拼音的拼音索引对应位置的元素为1，其他拼音的拼音索引对应位置的元素为0。下面以表2所示的拼音索引词典和图3所示的拼音索引为例来说明掩码。因为拼音索引词典中条目的个数为18，所以掩码向量的维度为18。“会”字的候选拼音为“hui4”和“kuai4”，根据拼音索引词典，“hui4”和“kuai4”的拼音索引分别为1和2，则“会”的掩码为(0，1，1，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0)。在拼音索引为1和2对应的位置上掩码向量的元素为1，其他位置上的元素为0。

可以理解，对于任一个汉字来说，不管其在文本中真正拼音是什么，但其候选拼音是确定的。由此，该汉字的掩码是确定。换言之，汉字的掩码向量中等于1的元素标识了该汉字的全部候选拼音，一个汉字不论其真正发音是候选拼音中的哪一个，其掩码都是相同的。比如，上述文本中的汉字“会”，共出现了两次，这两次出现的“会”所对应的正确拼音是不同的，但是其掩码是一样的，都是(0，1，1，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0)。

可以仅根据文本中的多音字的候选拼音在拼音索引词典中的拼音索引，确定所述文本的掩码。替代的，确定文本的掩码除了根据文本中的多音字在拼音索引词典中的拼音索引，还根据文本中的单音字在拼音索引词典中的拼音索引。

步骤S230，提取文本中的汉字的特征。

可选地，该特征可以是嵌入式特征。嵌入式特征是汉字的一种向量表达形式。嵌入式特征能够用连续向量表示离散变量。嵌入式特征携带了原来离散对象的内置属性。可以理解，文本中汉字的嵌入式特征可以更好的用于机器学习的输入，比如，用于多层全连接网络等神经网络的输入。

在一个示例中，可以首先提取文本中汉字的字符级特征。该字符级特征是离散变量，而且维度通常很高。例如对于汉字的字符级字面特征，其维度可能是5000至10000的规模。然后基于所提取的字符级特征利用嵌入式方法提取得到文本中该汉字的嵌入式特征。嵌入式特征不仅保留了原有的字符级特征的内置属性，而且其维度比字符级特征显著降低。可以基于应用需要，设置嵌入式特征的维度。

替代地，可以提取文本中的汉字的字符级特征，将该字符级特征直接作为所述汉字的特征。

步骤S240，基于步骤S230提取的特征，利用预测模型预测对应汉字的拼音。

所述预测模型可以是基于神经网络的模型，用于基于汉字的特征预测该汉字对应的拼音。换言之，汉字的特征可以作为预测模型的输入，预测模型输出对应汉字的拼音的预测结果。

所述预测模型可以是任何现有的或未来研发的人工神经网络模型，本申请对此不作限制。比如，所述神经网络可以是卷积神经网络(Convolutional Neural Network，CNN)、双向长短时记忆网络(Bidirectional Long Short-Term Memory，BiLSTM)等。可选地，预测模型还可以是序列到序列(Sequence to sequence，Seq2Seq)模型。上述卷积神经网络模型、双向长短时记忆网络模型和序列到序列模型能够更准确地预测汉字拼音。

示例性地，所述方法还可以包括：利用样本数据对所述预测模型进行训练。样本数据可以包括大量汉字的文本，并且其中的汉字标注有正确拼音。基于预测模型所预测的拼音结果与正确拼音的差距，调整预测模型的参数，直至预测模型所预测的拼音接近正确拼音或者能够完全预测出正确拼音。由此，完成预测模型的训练。基于样本数据对预测模型进行训练，可以提高预测模型预测汉字的拼音的准确率。

步骤S250，基于步骤S240的预测结果和步骤S220所确定的文本的掩码确定所述文本的拼音。

步骤S240的预测结果可以初步确定文本中的汉字对应的拼音，步骤S220所确定的掩码可以限制文本中的至少多音字对应的拼音的范围。基于预测结果和文本的掩码可以确定文本的每个汉字的拼音，最终可以确定所述文本的拼音。

上述自动确定文本的拼音的方法中，无需人工手动操作，通过掩码来限制文本中汉字的候选拼音的范围，有效防止了将多音字的拼音预测错误的情况，提高了文本的拼音的预测准确率。

可以理解，如果上述用于确定文本的拼音的方法中包括对预测模型进行训练的过程，那么在训练过程中，也可以利用文本的掩码来最终确定文本的拼音。由此，能够防止在训练过程中预测当前多音字时受到当前多音字的非候选拼音的影响。从而，加速训练。

示例性地，在确定所述文本的掩码之前，所述方法还包括确定所述文本中的单音字的候选拼音。可以理解，每个单音字的发音只有一个，即其候选拼音是一个。可以根据包括所有汉字的汉字拼音词典确定文本中的单音字的候选拼音。替代地，还可以根据预测模型的先前预测结果确定文本中的单音字的候选拼音。

确定文本的掩码包括：首先根据所述文本中的每个汉字的候选拼音，确定每个汉字对应的掩码，然后根据所述每个汉字对应的掩码，确定所述文本的掩码。在此情况中，所述文本的掩码不仅用于屏蔽所述文本中的多音字的非候选拼音，还用于屏蔽所述文本中的单音字的非候选拼音。

根据上述掩码的描述，再以上面的表2所示的拼音索引词典和图3所示的拼音索引为例来说明掩码。表2所示的拼音索引词典还包括文本中的单音字的拼音索引。比如“仅”这个单音字的候选拼音为“jin3”，基于该汉字的候选拼音的拼音索引为0，可以确定该汉字的掩码为(1，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0)。根据上面确定的“仅”这个单音字和“会”这个多音字的掩码，以此类推，可以确定文本中每个汉字对应的掩码。文本中所有汉字的掩码构成了文本的掩码。

基于文本的每个汉字的候选拼音确定文本的掩码，可以使预测的汉字的拼音更准确。如果仅基于文本中的多音字的候选拼音确定文本的掩码，在保证了多音字转拼音的准确度的同时，计算量较小。

替代地，单音字对应的掩码可以不基于其候选拼音来确定，可以将其掩码设置为元素全部为1的向量。换言之，所有单音字对应的掩码相同，且是元素全部为1的向量。再次以上述示例为例，所有单音字的掩码为(1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1)。在此替代方案中，文本的掩码仅用于屏蔽所述文本中的多音字的非候选拼音，而不能够用于屏蔽所述文本中的单音字的非候选音。

又替代地，文本的掩码中可以仅包括根据文本中的多音字的候选拼音确定的多音字对应的掩码。在此替代方案中，文本的掩码同样仅用于屏蔽文本中的多音字的非候选拼音。

示例性地，步骤S230提取文本中的汉字的特征可以具体包括以下步骤：对于所述文本中的每个汉字，确定该汉字的字符级特征，将该字符级特征进行嵌入化处理，并且至少根据经嵌入化处理的字符级特征获得该汉字的特征。

所述字符级特征可以是一个或多个。字符级特征例如是字面特征。字面特征是汉字自身的特征。汉字的字面特征与文本中其他汉字无关。所述字符级特征可以是多个，比如可以包括字面特征、多音字标识特征等。所述多音字标识特征用于标识文本中的汉字是否为多音字。利用多音字标识特征能够给出文本中多音字的信息，有利于后续确定多音字的拼音，进而保证了文本的拼音的准确性。这些字符级特征可以根据需要进行灵活调整，例如增加或删除其中的一个或多个。

为了处理方便，可以将字符级特征表达为独热(one-hot)型特征，即采用one-hot编码。所述one-hot编码是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位。在任意时候，整个编码中只有一位有效编码，利用one-hot编码来表示字符级特征易于机器学习，为后期数据分析提供了便利。但是字符级特征通常维度较高。下面以汉字的字面特征和多音字标识特征为例来说明汉字的字符级特征的确定。

示例性地，可以根据汉字索引词典确定每个汉字的字面特征。汉字索引词典中的每个条目包括汉字以及该汉字对应的索引，即该汉字的序号。表3示出了根据本发明一个实施例的汉字索引词典。如表3所示，该汉字索引词典包括16个词条。

表3汉字索引词典

汉字	索引	汉字	索引	汉字	索引
						仅	0	会	1	在	2
行	3	业	4	规	5
						范	6	和	7	计	8
制	9	度	10	方	11
						面	12	进	13	指	14
导	15

可以利用汉字索引词典确定汉字对应的索引，其用于标识汉字。然后，根据汉字对应的索引确定汉字的字面特征。

下面再以上述文本“仅会在行业规范和会计制度方面进行指导”为例详细说明汉字的字面特征。可以理解，文本中重复的汉字的字面特征相同。根据上面所示的汉字索引词典，所述文本中的文字的索引分别为“0 1 2 3 4 5 6 7 1 8 9 10 11 12 13 3 14 15”。根据每个汉字的汉字索引，确定该汉字的字面特征。以汉字“会”为例，其索引为“1”，即其在汉字索引词典中是第二个汉字，则其字面特征可以是：

One-Hot(‘会’)＝[0，1，0，0，0，0，0，0，0，0，0，0，0，0，0，0]，

每个汉字的字面特征可以用一个向量表示，其维度等于汉字索引词典中条目的个数，该向量中与汉字的索引对应的位置的元素为1，其余位置的元素为0。

本领域普通技术人员可以理解，利用汉字索引词典确定汉字的字面特征仅为举例，而不构成对本发明的限制。实际上，可以用任意其他现有的或未来研发的技术来确定汉字的字面特征，只需该字面特征能够标识汉字即可。

示例性地，可以根据多音字词典来确定汉字的多音字标识特征。多音字词典中的每个条目包括多音字以及该多音字对应的索引。表4示出了根据本发明一个实施例的多音字词典。如表4所示，该多音字词典包括3个词条。

表4多音字词典

多音字	索引	多音字	索引
				会	0	行	1

可以根据多音字词典确定多音字的多音字标识特征。可以理解，对于单音字，可以将其用多音字词典中不包括的一个索引值表示。例如对于表4所示的多音字词典，可以将所有单音字的索引设置为2。

仍以上述文本“仅会在行业规范和会计制度方面进行指导”为例详细说明汉字的多音字标识特征。根据上面所示的多音字词典，所述文本中的汉字的多音字索引分别为“20 2 1 2 2 2 2 0 2 2 2 2 2 2 1 2 2”。与字面特征类似地，根据每个汉字的多音字索引，确定该汉字的多音字标识特征。

本领域普通技术人员可以理解，利用多音字词典确定汉字的字面特征仅为举例，而不构成对本发明的限制。实际上，可以用任意其他现有的或未来研发的技术来确定汉字的多音字标识特征，只需该字面特征能够标识不同的多音字即可。例如，可以基于预测模型的先前预测结果来确定汉字的多音字标识特征。

示例性地，所述多个字符级特征还包括：中文分词特征、词性特征、句法特征和语义特征。基于上述关于字面特征和多音字标识特征的描述，本领域普通技术人员可以理解上述特征。可以利用任何现有的特征提取技术提取文本中汉字的这些字符级特征，例如利用专用的特征提取模型，本申请对此不做限制。

嵌入化处理能够对字符级特征进行降维，可以利用嵌入化处理将one-hot型字符级特征转换为低维度的特征。例如，在上述根据汉字索引词典确定汉字的字面特征的情况下，字面特征的维度是汉字索引词典中条目的个数。通过嵌入化处理，可以将字符级特征降到期望的维度。示例性地，可以通过多层全连接网络将one-hot型字符级特征进行嵌入化处理。经嵌入化处理的字符级特征可以称为嵌入式特征。

在汉字的字符级特征为1个的情况，可以将经嵌入化处理的字符级特征不做任何处理，直接作为该汉字的特征。

在汉字的字符级特征为多个的情况，根据经嵌入化处理的字符级特征获得汉字的特征包括：连接经嵌入化处理的多个字符级特征，以获得该汉字的最终特征。

汉字的多个字符级特征分别从不同角度描述了汉字，其携载不同的信息内容。所以，提取汉字的多个字符级特征能够保证后续预测模型的预测结果的准确性，进而保证最终所确定的文本的拼音的准确性。

上述连接操作，在保证了汉字的特征包括该汉字的多个字符级特征各自携载的信息的同时，操作简单，易实现。

可以理解，上述步骤S220确定文本的掩码可以包括确定文本中的每个汉字的掩码。如前所述，上述步骤S230可以包括：对于文本中的每个汉字执行如下操作：确定该汉字的字符级特征，并将该字符级特征进行嵌入化处理。示例性地，上述步骤S230提取文本中的汉字的特征还包括将汉字的掩码进行嵌入化处理。在该示例中，文本的掩码不仅用于步骤S250最终确定文本的拼音，还用作预测模型的输入数据。由此加强了预测模型对多种信息的利用，显著提高预测模型的性能。

可以理解，如果上述用于确定文本的拼音的方法中包括对预测模型进行训练的过程，那么在训练过程中，除了利用文本的掩码来最终确定文本的拼音，该文本的掩码也用于确定汉字的特征并输入到预测模型，以由预测模型用来预测汉字的拼音。由此，能够保证所训练的预测模型的预测准确度。进而，保证最终所确定的文本的拼音的准确度。

示例性地，对于文本中的每个汉字，该汉字的预测结果用预测向量表示，所述预测向量中的每个元素对应于该汉字发出对应拼音的概率。

文本中每个汉字对应一个预测向量。所述预测向量的维度可以等于所有可能拼音的个数。对于利用拼音索引词典的示例，预测向量的维度等于拼音索引词典的条目的个数。每个汉字的预测向量中的每个元素对应于该汉字发出元素所在位置对应的拼音的概率。可以理解，该元素可以并非0至1之间的数值，但是其与上述概率具有相关关系。可以利用归一化等运算将预测向量中的所有元素值统一到范围0至1内。通常情况下，预测向量中值最高的元素对应的拼音越可能是汉字所真正发出的拼音。

再以上述文本“仅会在行业规范和会计制度方面进行指导”和表2所示的拼音索引词典为例来说明预测向量。在图1所示的文本中，汉字个数为18个。由于每个汉字分别对应一个预测向量，因此可以确定预测向量有18个。根据表2所示的拼音索引词典中条目的个数，可以确定每个预测向量的维度为18。在一个示例中，文本中序号为2的汉字“会”的预测向量为(0，0.81，0.46，0.15，0.02，0.08，0.01，0.24，0.22，0.01，0.1，0.03，0.94，0.02，0.14，0.13，0.12，0.01)。这些元素分别对应于文本中序号为2的汉字“会”发出拼音索引词典中的对应拼音“jin3”、“hui4”、“kuai4”、“zai4”、“hang2”......“dao3”的概率。例如，在上述文本中序号为2的汉字“会”的预测向量中，第13个元素“0.94”对应于拼音“du4”。在整个预测向量中，该元素“0.94”数值最大，这表示该汉字“会”发出该元素所对应的拼音“du4”的概率最大。又例如，在上述汉字中序号为2的汉字“会”的该预测向量中，第2个元素“0.81”对应于拼音“hui4”。该元素“0.81”数值也较大，这表示该汉字“会”发出该元素所对应的拼音“hui4”的概率也较大。

在上述示例中，文本的掩码用掩码矩阵表示。对于文本中的每个汉字，掩码矩阵中包括一个与之一一对应的掩码向量。所述掩码矩阵中的该汉字对应的掩码向量中的每个元素表示该汉字能否发出对应拼音。所述掩码向量的维度可以等于所有可能的拼音的个数。对于利用拼音索引词典的示例，掩码向量的维度等于拼音索引词典的条目的个数。可以理解，掩码向量的维度与预测向量的维度相同。

在一个示例中，掩码矩阵由元素“1”和“0”组成。其中，元素“1”表示该汉字能够发出对应拼音，即元素“1”所对应的拼音是该汉字的候选拼音。元素“0”表示该汉字不可能发出对应拼音，即元素“0”所对应的拼音不是该汉字的候选拼音。

还以上述文本“仅会在行业规范和会计制度方面进行指导”和表2所示的拼音索引词典为例来说明掩码矩阵。图4示出了根据本发明一个实施例的根据文本的掩码矩阵的示意图。如图4所示，掩码矩阵的每个列向量对应文本中的一个汉字，即这些列向量是各个汉字的掩码向量。换言之，掩码矩阵的列数等于文本中的汉字的个数。掩码矩阵的每个行向量对应一个特定拼音，在此示例中，各个行向量按照顺序对应拼音索引词典中的各个拼音。换言之，掩码矩阵的行数等于拼音索引矩阵中的条目的个数。图4中示出了上述对应关系。如图4所示，从左至右，最左侧第一列为拼音索引词典中的拼音，第二列为拼音索引，第三列为矩阵行的编号0-17，从第四列开始为矩阵的数据。从上至下，最上方第一行为文本的汉字，第二行为汉字索引，第三行为矩阵列的编号0-17，从第四行开始为矩阵的数据。

如图5所示，掩码矩阵中的元素如果为1，则表示所述元素所在列的汉字能发出所述元素所在行的拼音。比如矩阵行号0和列号0对应的元素为1，表示汉字“仅”能发出对应的拼音“jin3”。在汉字为多音字的情况下，每个汉字对应的拼音为多个，那么该汉字所在的列中存在多个1。比如，矩阵中列号1对应的“会”这个汉字，该列中行号1和2的元素均为1，则表示该汉字为多音字，该汉字能发出这两行对应的拼音“hui4”和“kuai4”。

基于上述预测结果和所述文本的掩码确定所述文本的拼音可以包括：对于文本中的每个汉字，用其预测向量中的元素乘以其掩码向量中的对应元素，以确定该汉字的拼音。可以理解，预测向量中的元素与掩码向量中的对应位置的元素相对应。

可以根据预测向量中的元素乘以掩码向量中的对应元素得到的结果生成预测结果向量。所述预测结果向量的维度与预测向量和掩码向量的维度相同，均等于所有可能拼音的个数。与预测向量类似地，预测结果向量中的每个元素对应于该汉字发出对应拼音的概率。具体地，预测结果向量中的每个元素对应于该汉字发出对应位置的拼音索引所标识的拼音的概率。上述预测结果向量的计算过程可以是用预测向量中的第i个元素乘以掩码向量中的第i个元素，乘积的结果为预测结果向量的第i个元素。其中1＜i＜n+1，其中n为所有可能拼音的个数。

还以上述文本“仅会在行业规范和会计制度方面进行指导”中序号为2的汉字“会”为例，来说明确定该汉字的拼音的过程。在上述示例中，汉字“会”的预测向量为(0，0.81，0.46，0.15，0.02，0.08，0.01，0.24，0.22，0.01，0.1，0.03，0.94，0.02，0.14，0.13，0.12，0.01)。在图4所示的掩码矩阵中，文本中序号为2的汉字“会”的掩码向量为(0，1，1，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0)。上述两个向量中对应元素相乘得到预测结果向量为(0，0.81，0.46，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0)。预测结果向量中第2个元素为0.81为值最大的元素，可以确定文本中序号为2的汉字“会”的拼音为“hui4”。由此，在该示例中，利用文本的掩码屏蔽掉了“du4”等错误拼音，校正了预测结果。

基于预测向量乘以掩码矩阵，可以利用掩码矩阵中候选拼音信息将预测向量中非本汉字能发的拼音屏蔽掉，显著提高了预测拼音的准确率。

为了更清楚地说明本发明，图5示出了根据本发明一个实施例的用于确定文本的拼音的装置500的示意性框图。如图5所示，所述装置500包括候选拼音确定模块510、掩码确定模块520、特征提取模块530、预测模块540和输出模块550。

候选拼音确定模块510用于确定文本中的多音字的候选拼音。

掩码确定模块520用于至少根据所述文本中的多音字的候选拼音，确定文本的掩码。

特征提取模块530用于提取文本中的汉字的特征。

预测模块540用于基于特征提取模块530提取的文本中的汉字的特征预测汉字的拼音。示例性的，预测模块540用卷积神经网络模型、双向长短时记忆网络模型或序列到序列模型等来实现。

输出模块550用于基于预测模块540的预测结果和掩码确定模块520确定的掩码确定所述文本的拼音。

图6示出了根据本发明一个实施例的特征提取模块530的示意性框图。如图6所示，特征提取模块530可以包括输入单元531、嵌入单元532和拼接单元533。输入单元531用于确定文本中汉字的字符级特征，例如字面特征和多音字标识特征。嵌入化单元532用于输入单元531输入的字符级特征进行嵌入化处理。示例性地，嵌入化单元532可以用多层全连接神经网络来实现。拼接单元533用于连接经嵌入化处理的多个字符级特征，以获取汉字的特征，用于作为预测模块540的输入。

图7示出了根据本发明另一实施例的用于确定文本的拼音的装置700的示意性框图。装置700中的候选拼音确定模块710、预测模块740和输出模块750分别与装置500中的对应装置类似，为了简洁，在此不再赘述。在装置700中，掩码确定模块520除了连接到输出模块750，还连接到特征提取模块730。掩码确定模块520将所确定的文本中的汉字的掩码输入到特征提取模块730中的嵌入化单元732，以由嵌入化单元732对汉字的掩码进行嵌入化处理。特征提取模块730中的拼接单元733用于连接经嵌入化处理的字符级特征和掩码，以获得汉字的特征。

根据本发明另一方面，还提供了一种语音合成方法。所述语音合成方法首先利用上述用于确定文本的拼音的方法确定所述文本的拼音；然后基于所确定的拼音，合成所述文本的语音。可以理解，基于所确定的拼音合成文本的语音可以用任何现有的或未来研发的语音合成技术实现，为了简洁，在此不再赘述。

该语音合成方法基于上述用于确定文本的拼音的方法来确定文本的拼音，所合成的语音可懂度更高。

根据本发明又一方面，还提供了一种用于确定文本的拼音的系统，包括：处理器和存储器，其中，所述存储器中存储有计算机程序指令，其中，所述计算机程序指令被所述处理器运行时用于执行上述用于确定文本的拼音的方法。

图8示出了根据本发明一个实施例的用于确定文本的拼音的系统800的示意性框图。如图8所示，系统800包括输入装置810、存储装置820、处理器830以及输出装置840。

所述输入装置810用于接收用户所输入的操作指令以及采集数据。输入装置810可以包括键盘、鼠标、麦克风、触摸屏和图像采集装置等中的一个或多个。

所述存储装置820存储用于实现根据本发明实施例的用于确定文本的拼音的方法中的相应步骤的计算机程序指令。可以理解，存储装置820还可以存储上述汉字拼音词典、拼音索引词典、汉字索引词典、多音字索引词典中的一个或多个。

所述处理器830用于运行所述存储装置820中存储的计算机程序指令，以执行根据本发明实施例的用于确定文本的拼音的方法的相应步骤，并且用于实现根据本发明实施例的用于确定文本的拼音的装置中的候选拼音确定模块510、掩码确定模块520、特征提取模块530、预测模块540和输出模块550。

所述输出装置840用于向外部(例如用户)输出预测结果。

此外，根据本发明其他一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时使得所述计算机或处理器执行本发明实施例的上述用于确定文本的拼音的相应步骤，并且用于实现根据本发明实施例的上述用于确定文本的拼音的装置中的相应模块或上述用于确定文本的拼音的装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

通过阅读上述关于用于确定文本的拼音的方法的描述，本领域普通技术人员能够理解上述语音合成方法、用于确定文本的拼音的装置、系统和存储介质的具体实现和技术效果，为了简洁，在此不再赘述。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的用于确定文本的拼音的装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于确定文本的拼音的方法，包括：

确定所述文本中的多音字的候选拼音；

提取所述文本中的汉字的特征；

基于所提取的特征利用预测模型预测对应汉字的拼音；以及

基于预测结果和所述文本的掩码确定所述文本的拼音；

其中，对于所述文本中的每个汉字，

该汉字的预测结果用预测向量表示，所述预测向量中的每个元素对应于该汉字发出对应拼音的概率；

所述文本的掩码用掩码矩阵表示，所述掩码矩阵中的该汉字对应的掩码向量中的每个元素表示该汉字能否发出对应拼音；

所述基于预测结果和所述文本的掩码确定所述文本的拼音包括：

2.如权利要求1所述的方法，其中，

在确定所述文本的掩码之前，所述方法还包括：

确定所述文本中的单音字的候选拼音；

所述确定所述文本的掩码包括：

根据所述文本中的每个汉字的候选拼音，确定每个汉字对应的掩码；

根据所述每个汉字对应的掩码，确定所述文本的掩码。

3.如权利要求1或2所述的方法，其中，所述提取所述文本中的汉字的特征包括：对于所述文本中的每个汉字，

确定该汉字的字符级特征；

将该汉字的字符级特征进行嵌入化处理；以及

根据经嵌入化处理的字符级特征获得该汉字的特征。

4.如权利要求3所述的方法，其中，

所述确定该汉字的字符级特征包括：确定该汉字的多个字符级特征；

5.如权利要求4所述的方法，其中，所述多个字符级特征包括：字符级字面特征和字符级多音字标识特征。

6.如权利要求5所述的方法，其中，所述多个字符级特征还包括：中文分词特征、词性特征、句法特征和语义特征。

7.如权利要求3所述的方法，其中，对于所述文本中的每个汉字，

所述提取所述文本中的汉字的特征还包括：

将该汉字的掩码进行嵌入化处理；

8.如权利要求1或2所述的方法，其中，所述预测模型是卷积神经网络模型、双向长短时记忆网络模型或序列到序列模型。

9.如权利要求1或2所述的方法，其中，所述方法还包括：

利用样本数据对所述预测模型进行训练。

10.一种语音合成方法，包括：

利用如权利要求1至9任一项所述的用于确定文本的拼音的方法，确定所述文本的拼音；以及

基于所确定的拼音，合成所述文本的语音。

11.一种用于确定文本的拼音的装置，包括：

掩码确定模块，用于至少根据所述文本中的多音字的候选拼音，确定所述文本的掩码；其中，对于所述文本中的每个汉字，所述文本的掩码用掩码矩阵表示，所述掩码矩阵中的该汉字对应的掩码向量中的每个元素表示该汉字能否发出对应拼音；

特征提取模块，用于提取所述文本中的汉字的特征；

预测模块，用于基于所提取特征利用预测模型预测对应汉字的拼音；其中，对于所述文本中的每个汉字，该汉字的预测结果用预测向量表示，所述预测向量中的每个元素对应于该汉字发出对应拼音的概率；

输出模块，用于用所述预测向量中的元素乘以所述掩码向量中的对应元素，以确定所述文本中的该汉字的拼音。

12.一种用于确定文本的拼音的系统，包括：处理器和存储器，其中，所述存储器中存储有计算机程序指令，其特征在于，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至9任一项所述的用于确定文本的拼音的方法。

13.一种存储介质，在所述存储介质上存储了程序指令，其特征在于，所述程序指令在运行时用于执行如权利要求1至9任一项所述的用于确定文本的拼音的方法。