CN114662478A

CN114662478A - 发音预测方法、装置、设备及存储介质

Info

Publication number: CN114662478A
Application number: CN202210305723.7A
Authority: CN
Inventors: 金波
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2022-03-23
Filing date: 2022-03-23
Publication date: 2022-06-24

Abstract

本公开提供一种发音预测方法、装置、设备及存储介质，涉及语音处理技术领域。该方法包括：获取待处理字符序列中待处理字符；若确定待处理字符为多音字，根据待处理字符序列获得预设数量个目标片段，目标片段包括待处理字符，和/或目标片段包括待处理字符序列中连续的至少两个字符；将各个目标片段与第一词典中的词分别进行匹配，获得各个目标片段对应的第一特征值；根据各个目标片段对应的第一特征值获得待处理字符的预设数量维度的第一特征向量；根据待处理字符的第一特征向量和待处理字符的词嵌入向量获得待处理字符的输入向量；将待处理字符的输入向量输入第一神经网络模型，获得待处理字符的发音预测结果，提高了语音合成播报内容的准确性。

Description

发音预测方法、装置、设备及存储介质

技术领域

本公开涉及语音处理技术领域，具体而言，涉及一种发音预测方法、装置、电子设备及可读存储介质。

背景技术

随着人工智能的高速发展，语音合成技术应用越来越广泛，尤其在人工智能客服机器人等场景中，会使用语音合成的声音，用机器人播报出来和客户进行交互。在实际应用场景中，用户对机器人对话的准确程度、拟人程度要求越来越高。因此如何提高人机交互过程中语音合成播报内容的准确性是要解决的问题之一。

在语音合成技术中，多音字是其中重要环节。如何确定多音字在不同的上下文场景中的不同发音，以提高人机交互过程中语音合成播报内容的准确性，成为语音合成技术中亟待解决的问题。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种发音预测方法、装置、电子设备及可读存储介质，能够确定多音字在不同的上下文场景中的不同发音，至少在一定程度上提高了人机交互过程中语音合成播报内容的准确性。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提供一种发音预测方法，包括：获取待处理字符序列中的待处理字符；若确定所述待处理字符为多音字，根据所述待处理字符序列获得预设数量个目标片段，其中，所述目标片段包括所述待处理字符，和/或所述目标片段包括所述待处理字符序列中连续的至少两个字符；将各个所述目标片段与第一词典中的词分别进行匹配，获得各个所述目标片段对应的第一特征值；根据各个所述目标片段对应的第一特征值获得所述待处理字符的第一特征向量，所述第一特征向量的维度为所述预设数量；根据所述待处理字符的第一特征向量和所述待处理字符的词嵌入向量获得所述待处理字符的输入向量；将所述待处理字符的输入向量输入第一神经网络模型，获得所述待处理字符的发音预测结果。

根据本公开的一实施例，根据所述待处理字符序列获得预设数量个目标片段，包括：将所述待处理字符序列中所述待处理字符的上文和/或下文与所述待处理字符合并，获得所述目标片段。

根据本公开的一实施例，将所述待处理字符序列中所述待处理字符的上文和/或下文与所述待处理字符合并，获得所述目标片段，包括：若所述待处理字符在所述待处理字符序列中没有上文，将预设补位字符与所述待处理字符合并，获得所述目标片段，或若所述待处理字符在所述待处理字符序列中没有下文，将预设补位字符与所述待处理字符合并，获得所述目标片段。

根据本公开的一实施例，所述第一词典中的词包括目标词及其对应的发音类别编号，所述目标词包括至少一个多音字；将各个所述目标片段与第一词典中的词分别进行匹配，获得各个所述目标片段对应的第一特征值，包括：将各个所述目标片段与所述第一词典中的词分别进行匹配，若所述目标片段与所述目标词匹配成功，则获得所述目标片段对应的第一特征值为所述目标词对应的发音类别编号。

根据本公开的一实施例，将各个所述目标片段与第一词典中的词分别进行匹配，获得各个所述目标片段对应的第一特征值，还包括：若所述目标片段与所述第一词典中的任一目标词都未匹配成功，则获得所述目标片段对应的第一特征值为预设数值。

根据本公开的一实施例，所述待处理字符的发音预测结果包括所述待处理字符的多个发音分别对应的多个预测概率；所述方法还包括：若所述待处理字符的多个发音分别对应的多个预测概率均小于预设概率阈值，则确定所述待处理字符序列的所属领域；获得所述待处理字符序列的所属领域对应的第二词典，以基于所述第二词典对所述待处理字符进行发音预测。

根据本公开的一实施例，所述目标片段包括所述待处理字符序列中连续的至多四个字符。

根据本公开的再一方面，提供一种发音预测装置，包括：获取模块，用于获取待处理字符序列中的待处理字符；片段合成模块，用于若确定所述待处理字符为多音字，根据所述待处理字符序列获得预设数量个目标片段，其中，所述目标片段包括所述待处理字符，和/或所述目标片段包括所述待处理字符序列中连续的至少两个字符；匹配模块，用于将各个所述目标片段与第一词典中的词分别进行匹配，获得各个所述目标片段对应的第一特征值；向量获得模块，用于根据各个所述目标片段对应的第一特征值获得所述待处理字符的第一特征向量，所述第一特征向量的维度为所述预设数量；向量拼接模块，用于根据所述待处理字符的第一特征向量和所述待处理字符的词嵌入向量获得所述待处理字符的输入向量；发音预测模块，用于将所述待处理字符的输入向量输入第一神经网络模型，获得所述待处理字符的发音预测结果。

根据本公开的一实施例，所述片段合成模块，还用于：将所述待处理字符序列中所述待处理字符的上文和/或下文与所述待处理字符合并，获得所述目标片段。

根据本公开的一实施例，所述片段合成模块，还用于：若所述待处理字符在所述待处理字符序列中没有上文，将预设补位字符与所述待处理字符合并，获得所述目标片段，或若所述待处理字符在所述待处理字符序列中没有下文，将预设补位字符与所述待处理字符合并，获得所述目标片段。

根据本公开的一实施例，所述第一词典中的词包括目标词及其对应的发音类别编号，所述目标词包括至少一个多音字；所述匹配模块，还用于：将各个所述目标片段与所述第一词典中的词分别进行匹配，若所述目标片段与所述目标词匹配成功，则获得所述目标片段对应的第一特征值为所述目标词对应的发音类别编号。

根据本公开的一实施例，所述匹配模块，还用于若所述目标片段与所述第一词典中的任一目标词都未匹配成功，则获得所述目标片段对应的第一特征值为预设数值。

根据本公开的一实施例，所述待处理字符的发音预测结果包括所述待处理字符的多个发音分别对应的多个预测概率；所述装置还包括：领域确定模块，用于若所述待处理字符的多个发音分别对应的多个预测概率均小于预设概率阈值，则确定所述待处理字符序列的所属领域；词典获得模块，用于获得所述待处理字符序列的所属领域对应的第二词典，以基于所述第二词典对所述待处理字符进行发音预测。

根据本公开的再一方面，提供一种电子设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，所述处理器执行所述可执行指令时实现如上述任一种方法。

根据本公开的再一方面，提供一种计算机可读存储介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现如上述任一种方法。

本公开的实施例提供的发音预测方法，通过获取待处理字符序列中包括待处理多音字字符的预设数量个目标片段，该目标片段包括待处理字符序列中连续的至少两个字符，然后将各个目标片段与第一词典中的词分别进行匹配，获得各个目标片段对应的第一特征值，再根据各个目标片段对应的第一特征值获得待处理字符的预设数量维度的第一特征向量，根据待处理字符的第一特征向量和待处理字符的词嵌入向量获得待处理字符的输入向量，将待处理字符的输入向量输入第一神经网络模型，获得待处理字符的发音预测结果，通过将多音字词典的特征加入词嵌入向量输入神经网络模型进行发音预测，实现了神经网络模型的词嵌入向量包含上下文发音信息，从而提高了多音字发音预测的准确性，进一步提高了人机交互过程中语音合成播报内容的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。

图1示出本公开实施例中一种系统结构的示意图。

图2示出本公开实施例中一种发音预测方法的流程图。

图3示出本公开实施例中另一种发音预测方法的流程图。

图4示出本公开实施例中再一种发音预测方法的流程图。

图5示出本公开实施例中一种发音预测装置的框图。

图6示出本公开实施例中另一种发音预测装置的框图。

图7示出本公开实施例中一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施例使得本公开将更加全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。

在本公开中，除非另有明确的规定和限定，“连接”等术语应做广义理解，例如，可以是电连接或可以互相通讯；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本公开中的具体含义。

如上所述，在语音合成技术中，多音字是其中重要环节。一些相关技术中采用基于词典前后向匹配算法来预测多音字读音，该算法依据词典对一句话进行匹配，根据匹配规则判断一个多音字的发音，该方法会存在一定的歧义，例如“长沙市长沙区”，其中的第二个“长”，采用此种方法可以匹配得到“市长”和“长沙”，难以确定应该按哪个词来发音。另一些相关技术中采用神经网络模型来预测多音字读音，加入了词性、分词结果等作为特征，但模型的预测能力稍显欠缺，预测准确率较低。

因此，本公开提供了一种发音预测方法，通过将多音字词典的特征加入词嵌入向量输入神经网络模型进行发音预测，实现了神经网络模型的词嵌入向量包含上下文发音信息，从而提高了多音字发音预测的准确性，进一步提高了人机交互过程中语音合成播报内容的准确性。

图1示出了可以应用本公开的发音预测方法或发音预测装置的示例性系统架构10。

如图1所示，系统架构10可以包括终端设备102、网络104和服务器106。终端设备102可以是具有显示屏并且支持输入、输出的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居等等。网络104用以在终端设备102和服务器106之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。服务器106可以是提供各种服务的服务器或服务器集群等，例如数据库服务器、后台处理服务器、网络服务器等等。

可以使用终端设备102通过网络104与服务器106交互，以接收或发送数据等。例如用户可以在终端设备102上进行操作，将待处理字符序列通过网络104上传到服务器106进行发音预测处理，然后服务器106将发音预测结果通过网络104发送至终端设备102，终端设备102将待处理字符的预测发音播放出来。又例如用户可以通过网络104从服务器106中获取待处理字符序列，然后通过终端设备102上的软件进行词典匹配等处理获得待处理字符的输入向量，再将待处理字符的输入向量通过网络104发送到服务器106进行发音预测。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2是根据一示例性实施例示出的一种发音预测方法的流程图。如图2所示的方法例如可以应用于上述系统的服务器端，也可以应用于上述系统的终端设备。

参考图2，本公开实施例提供的方法20可以包括以下步骤。

在步骤S202中，获取待处理字符序列中的待处理字符。

在一些实施例中，待处理字符序列可以为待进行语音播报的中文句子，遍历句子中的各个字获得待处理字符。例如，待处理字符序列为“请问您计划什么时候接种疫苗呢”，则“请”、“问”、“您”……依次可以作为待处理字符。

在一些实施例中，待处理字符序列可以从待进行语音播报的文本段落获得，文本段落中包括标点符号，例如可以按照逗号、句号、分号、问号、感叹号等标点符号从文本段落中获得句子。

在步骤S204中，若确定待处理字符为多音字，根据待处理字符序列获得预设数量个目标片段，其中，目标片段包括待处理字符，和/或目标片段包括待处理字符序列中连续的至少两个字符。

在一些实施例中，可以先判断待处理字符是否为多音字，例如，可将与待处理字符预置的多音字字典中的各个多音字进行匹配，当匹配成功时确定待处理字符为多音字。

在一些实施例中，若确定待处理字符为多音字，可以将多音字与其在待处理字符序列中的上下文组合为短语(即目标片段)，短语中该多音字的读音通常可以确定，例如“什么”中的“什”读shen2(二声)，“什锦”中的“什”读shi2。

在一些实施例中，可以获得待处理字符序列中包含待处理字符的所有预定长度的目标片段，其中预定长度至少为两个字符，例如，可以待处理字符序列中包含待处理字符的所有2个字符、3个字符的目标片段，以待处理字符序列为“请问您计划什么时候接种疫苗呢”、待处理字符为“什”为例，目标片段可以分别为“划什”、“什么”、“计划什”、“划什么”、“什么时”，此时预设数量为5。预定长度包括2个字符、3个字符和4个字符、预设数量为9的具体实施方式可参照图3。

在步骤S206中，将各个目标片段与第一词典中的词分别进行匹配，获得各个目标片段对应的第一特征值。

在一些实施例中，例如，第一词典中的词包括目标词及其对应的发音类别编号，目标词包括至少一个多音字。如下为一第一词典的示例：

丧:sang1,0；丧事

丧:sang4,1；丧失，垂头丧气

中:zhong1,2；中国，中心

中:zhong4,3；中奖，说中了

为:wei2,4；作为，年轻有为

为:wei4,5；为什么，因为

乐:lao4,6；乐亭

乐:le4,7；快乐，乐于助人

乐:yue4,8；音乐，乐理

长:chang2,9；身无长物，长头发，长江，长沙，长沙区

长:zhang3,10长大，市长

行:hang2,11银行，行列

行:xing2,12行吗，行不行，行头，我行

……

什:shen2,181；什么

什:shi2,182；什锦

……

如示例所示，例如在第一词典中的多音字“什”，包括目标词“什么”，其中读音为“shen2”及对应的类别编号181，以及目标词“什锦”，其中读音为“shi2”及对应的类别编号182，这个类别编号可以作为上述第一特征值，以上述待处理字符序列为“请问您计划什么时候接种疫苗呢”、待处理字符为“什”、预设数量为5为例，将各个目标片段“划什”、“什么”、“计划什”、“划什么”、“什么时”与第一词典中的各个目标词进行匹配，只有目标片段“什么”与第一词典中的目标词匹配成功，则获得目标片段“什么”的第一特征值为181，其余未匹配成功的目标片段的第一特征值可以标为“-1”(仅为示例，也可标为-2、-3、-100等等)。

在步骤S208中，根据各个目标片段对应的第一特征值获得待处理字符的第一特征向量，第一特征向量的维度为预设数量。

在一些实施例中，仍以上述待处理字符序列为“请问您计划什么时候接种疫苗呢”、待处理字符为“什”为例，可以根据目标片段“划什”、“什么”、“计划什”、“划什么”、“什么时”的特征值，按照上述示例的第一词典的匹配结果，获得5维的第一特征向量为：-1181-1-1-1。

在步骤S210中，根据待处理字符的第一特征向量和待处理字符的词嵌入向量获得待处理字符的输入向量。

在一些实施例中，待处理字符的词嵌入(embedding)向量可以为一维向量，例如给所有汉字进行编号(如0000,0001,0002…0100,0101…)，那么embedding向量的就是该汉字的编号。

在另一些实施例中，可以经过模型计算得出各个汉字的高维向量，采用高维向量表达各个汉字之间的相互关系，将该高维向量作为待处理字符的词嵌入向量。

在一些实施例中，可以将待处理字符的第一特征向量和待处理字符的词嵌入向量进行拼接，获得待处理字符的输入向量，例如将待处理字符的第一特征向量拼接在词嵌入向量之前，或将待处理字符的第一特征向量拼接在词嵌入向量之后，本公开对此不作限制。

在步骤S212中，将待处理字符的输入向量输入第一神经网络模型，获得待处理字符的发音预测结果。

在一些实施例中，可以将一些自己生成或者开源模型生成的汉字embedding加上待处理字符的第一特征向量组成该汉字的数字形式，输入第一神经网络模型进行运算。

在一些实施例中，第一神经网络模型可以为包括输入层、隐藏层、输出层的神经网络(Neural Network，NN)，输入层、隐藏层、输出层中可以设置多个神经元，输入层、隐藏层、输出层中的神经元依次两两连接。

在一些实施例中，待处理字符的发音预测结果包括待处理字符的多个发音分别对应的多个预测概率，例如，对应上述第一词典示例，待处理字符序列“请问您计划什么时候接种疫苗呢”中待处理字符“什”的发音预测结果可以为：181,70％；182,30％。

根据本公开实施例提供的发音预测方法，通过获取待处理字符序列中包括待处理多音字字符的预设数量个目标片段，该目标片段包括待处理字符序列中连续的至少两个字符，然后将各个目标片段与第一词典中的词分别进行匹配，获得各个目标片段对应的第一特征值，再根据各个目标片段对应的第一特征值获得待处理字符的预设数量维度的第一特征向量，根据待处理字符的第一特征向量和待处理字符的词嵌入向量获得待处理字符的输入向量，将待处理字符的输入向量输入第一神经网络模型，获得待处理字符的发音预测结果，通过将多音字词典的特征加入词嵌入向量输入神经网络模型进行发音预测，实现了神经网络模型的词嵌入向量包含上下文发音信息，从而提高了多音字发音预测的准确性，进一步提高了人机交互过程中语音合成播报内容的准确性。

一些相关技术中单独采用NN模型，即仅将待处理字符的词嵌入向量特征输入NN模型进行预测，未加入本公开实施例提供的参照多音字词典的特征(即第一特征向量)，则发音预测结果中，将“什”的发音预测为“shi2”的概率与“shen2”的概率可能相同，而采用本公开实施例提供的发音预测方法，加入参照多音字词典的特征，会将“什”的发音预测为“shi2”的概率减小，从而提高了多音字发音预测的准确性。

图3是根据一示例性实施例示出的另一种发音预测方法的流程图。如图3所示的方法例如可以应用于上述系统的服务器端，也可以应用于上述系统的终端设备。

参考图3，本公开实施例提供的方法30可以包括以下步骤。

在步骤S302中，获取待处理字符序列中的待处理字符。

在一些实施例中，待处理字符序列可以为待进行语音播报的中文句子，遍历句子中的各个字获得待处理字符。例如，待处理字符序列为“长沙市长沙区”，则“长”、“沙”、“市”、“长”、“沙”、“区”依次可以作为待处理字符。

在步骤S304中，将待处理字符与多音字字典中的多音字进行匹配，若匹配成功则确定待处理字符为多音字。

在一些实施例中，步骤S304的具体实施方式可参照步骤S204。

在步骤S306中，将待处理字符序列中待处理字符的上文和/或下文与待处理字符合并，获得九个目标片段，其中，目标片段包括待处理字符，和/或目标片段包括待处理字符序列中连续的至少两个字符、至多四个字符。

在一些实施例中，例如，若将待处理字符序列表示为“L3 L2 L1 C R1 R2 R3”，其中“C”待处理字符(多音字)，则将“C”与上/下文合并得到的目标片段为：L1 C、C R1、L2 L1C、L1 C R1、C R1 R2、L3 L2 L1 C、、L1 C R1 R2、L2 L1 C R1C R1 R2 R3，共九个目标片段。

在一些实施例中，参照步骤S204，可以获得待处理字符序列中包含待处理字符的所有预定长度的目标片段，预定长度可以包括2个字符、3个字符和4个字符，此时预设数量为9。以上述待处理字符序列为“请问您计划什么时候接种疫苗呢”、待处理字符为“什”为例，可以获得九个目标片段为：“划什”、“什么”、“计划什”、“划什么”、“什么时”、“您计划什”、“计划什么”、“计划什么”、“什么时候”。

在一些实施例中，若待处理字符在待处理字符序列中没有上文，将预设补位字符与待处理字符合并，获得目标片段。

例如，以上述待处理字符序列为“长沙市长沙区”、待处理字符为第一个“长”为例，其在待处理字符序列中没有上文，则没有的部分可以用“_”补位(也可以为“*”或“#”等等，本公开不作限制)，则可获得其九个目标片段为：“_长”、“长沙”、“__长”、“_长沙”、“长沙市”、“___长”、“__长沙”、“_长沙市”、“长沙市长”。

在一些实施例中，若待处理字符在待处理字符序列中没有下文，将预设补位字符与待处理字符合并，获得目标片段。例如，参照没有上文的情况，下文没有的部分也可以用“_”或“*”、或“#”等等符号补位，本公开不作限制。

因为大部分词条都在四个汉字以内，如果短语超出四个汉字后，一句话所有汉字增加超过九维特征，会引起一句话的特征维数会扩增很多，导致计算资源消耗过大，对预测结果的帮助也不大，甚至起到负面作用，因此本公开实施例中仅包含四字以内的特征。

在步骤S308中，将各个目标片段与第一词典中的词分别进行匹配，若目标片段与目标词匹配成功，则获得目标片段对应的第一特征值为目标词对应的发音类别编号。

在步骤S310中，若目标片段与第一词典中的任一目标词都未匹配成功，则获得目标片段对应的第一特征值为预设数值。

在一些实施例中，例如，预设数值可以为-1、或-2、或-100等等，表示在第一词典中没有找到该短语的发音。

在步骤S312中，根据各个目标片段对应的第一特征值获得待处理字符的第一特征向量，第一特征向量的维度为九维。

在一些实施例中，参照步骤S206中示例的第一词典，以上述待处理字符序列为“请问您计划什么时候接种疫苗呢”、待处理字符为“什”、预设数量为9、预设数值为-1为例，九个目标片段“划什”、“什么”、“计划什”、“划什么”、“什么时”、“您计划什”、“计划什么”、“计划什么”、“什么时候”对应的第一特征值分别为-1、181、-1、-1、-1、-1、-1、-1、-1，九维的第一特征向量可以按照该顺序，也可以按照其他顺序，本公开不作限制。

在一些实施例中，参照步骤S206中示例的第一词典，以上述待处理字符序列为“长沙市长沙区”、待处理字符为第二个“长”、预设数量为9、预设数值为-1为例。由于“长”后面没有足够的汉字来组成四字短语，因此可以增加“_”在句尾来补位，让短语顺利生成。根据上下文组成的九个目标片段为：市长、沙市长、长沙市长、长沙、长沙区、长沙区_、市长沙、沙市长沙、市长沙区，这九个短语中有“市长”、“长沙”、“长沙区”在词典中，对应的第一特征值分别为：10、-1、-1、9、9、-1、-1、-1、-1，组成的九维的第一特征向量可以为：10 -1 -1 9 9 -1 -1 -1 -1。

在步骤S314中，将待处理字符的第一特征向量拼接到待处理字符的词嵌入向量，获得待处理字符的输入向量。

在一些实施例中，步骤S314的具体实施方式可参照步骤S210。

在步骤S316中，将待处理字符的输入向量输入第一神经网络模型，获得待处理字符的发音预测结果。

在一些实施例中，步骤S316的具体实施方式可参照步骤S212。

根据本公开实施例提供的发音预测方法，通过根据多音字上下文将包含多音字的上下文组成短语，然后将短语中的发音转换为对应的特征加入到多音字的表征中，将多音字词典的特征加入词嵌入向量输入神经网络模型进行发音预测，既可以缓解仅采用词典注音出现的歧音，又可以缓解仅采用NN模型预测错误发音的现象。

如果单独采用词典预测发音，在一些特殊的语境会引入一些问题，例如上述”长沙市长沙区”,“长”是多音字，对第二个”长”的发音做预测时，很容易被词典的前后向算法错误按“市长”来注音。

如果单独采用NN模型预测发音，有一些常见词条会被预测为错误的发音，通过观察大量的样本，可以获知大部分多音字是以固定的词组出现，这类词组按照词典发音大部分都可以读对。在本公开实施例提供的方法中，将词典信息引入NN模型进行发音预测，通过加入词条作为辅助，可以减少单独采用NN模型将常见词条预测为错误发音情况的发生，通过实验表明，增加词典信息后，多音字预测发音的准确率会有提升。

图4是根据一示例性实施例示出的再一种发音预测方法的流程图。如图4所示的方法例如可以应用于上述系统的服务器端，也可以应用于上述系统的终端设备。如图4所示的方法可以执行在步骤S212之后。

参考图4，本公开实施例提供的方法40可以包括以下步骤。

在步骤S402中，判断待处理字符的多个发音分别对应的多个预测概率是否均小于预设概率阈值。

在步骤S404中，若待处理字符的多个发音分别对应的多个预测概率均小于预设概率阈值，则确定待处理字符序列的所属领域。

在步骤S406中，获得待处理字符序列的所属领域对应的第二词典，以基于第二词典对待处理字符进行发音预测。

在一些实施例中，一些待处理字符序列所在的段落属于特定领域，此时待处理多音字字符所在的短语可能并不按照通用短语的发音来读，这时如果仍采用通用第一词典，则可能会匹配到错误发音类别特征。例如，以待处理字符序列为“我行推出新款理财产品”为例，其中的待处理字符“行”为银行的意思，应读hang2，而在第一词典中匹配到的目标词“我行”的读音为xing2，因为“我行”单独来看也可以是我可以的意思。这时采用第一词典很可能不会获得较容易分辨的发音预测结果，例如发音预测结果可以为：11,49％；12,51％，即两个读音都接近50％。例如可以设置预设概率阈值为55％、或58％、或60％，当得到的发音预测结果中多个发音分别对应的多个预测概率都小于该预设概率阈值时，说明其都接近50％而难以准确判断。这时可以通过段落关键词匹配等方法确定待处理字符序列的所属领域，然后将第一词典替换为该领域对应的第二词典，按照上述图3或图4所示的方法重新进行发音预测，可以提高发音预测的准确性。

图5是根据一示例性实施例示出的一种发音预测装置的框图。如图5所示的装置例如可以应用于中上述系统的服务器端，也可以应用于上述系统的终端设备。

参考图5，本公开实施例提供的装置50可以包括获取模块502、片段合成模块504、匹配模块506、向量获得模块508、向量拼接模块510和发音预测模块512。

获取模块502可用于获取待处理字符序列中的待处理字符。

片段合成模块504可用于若确定待处理字符为多音字，根据待处理字符序列获得预设数量个目标片段，其中，目标片段包括待处理字符，和/或目标片段包括待处理字符序列中连续的至少两个字符。

匹配模块506可用于将各个目标片段与第一词典中的词分别进行匹配，获得各个目标片段对应的第一特征值。

向量获得模块508可用于根据各个目标片段对应的第一特征值获得待处理字符的第一特征向量，第一特征向量的维度为预设数量。

向量拼接模块510可用于根据待处理字符的第一特征向量和待处理字符的词嵌入向量获得待处理字符的输入向量。

发音预测模块512可用于将待处理字符的输入向量输入第一神经网络模型，获得待处理字符的发音预测结果。

图6是根据一示例性实施例示出的一种发音预测装置的框图。如图6所示的装置例如可以应用于中上述系统的服务器端，也可以应用于上述系统的终端设备。

参考图6，本公开实施例提供的装置60可以包括获取模块602、片段合成模块604、匹配模块606、向量获得模块608、向量拼接模块610、发音预测模块612、领域确定模块614和词典获得模块616。

获取模块602可用于获取待处理字符序列中的待处理字符。

片段合成模块604可用于若确定待处理字符为多音字，根据待处理字符序列获得预设数量个目标片段，其中，目标片段包括待处理字符，和/或目标片段包括待处理字符序列中连续的至少两个字符。

目标片段可以包括待处理字符序列中连续的至多四个字符。

片段合成模块604还可用于将待处理字符序列中待处理字符的上文和/或下文与待处理字符合并，获得目标片段。

片段合成模块604还可用于：若待处理字符在待处理字符序列中没有上文，将预设补位字符与待处理字符合并，获得目标片段，或若待处理字符在待处理字符序列中没有下文，将预设补位字符与待处理字符合并，获得目标片段。

匹配模块606可用于将各个目标片段与第一词典中的词分别进行匹配，获得各个目标片段对应的第一特征值。

第一词典中的词可以包括目标词及其对应的发音类别编号，目标词包括至少一个多音字。

匹配模块606还可用于：将各个目标片段与第一词典中的词分别进行匹配，若目标片段与目标词匹配成功，则获得目标片段对应的第一特征值为目标词对应的发音类别编号。

匹配模块606还可用于若目标片段与第一词典中的任一目标词都未匹配成功，则获得目标片段对应的第一特征值为预设数值。

向量获得模块608可用于根据各个目标片段对应的第一特征值获得待处理字符的第一特征向量，第一特征向量的维度为预设数量。

向量拼接模块610可用于根据待处理字符的第一特征向量和待处理字符的词嵌入向量获得待处理字符的输入向量。

发音预测模块612可用于将待处理字符的输入向量输入第一神经网络模型，获得待处理字符的发音预测结果。

待处理字符的发音预测结果可以包括待处理字符的多个发音分别对应的多个预测概率。

领域确定模块614可用于若待处理字符的多个发音分别对应的多个预测概率均小于预设概率阈值，则确定待处理字符序列的所属领域。

词典获得模块616可用于获得待处理字符序列的所属领域对应的第二词典，以基于第二词典对待处理字符进行发音预测。

本公开实施例提供的装置中的各个模块的具体实现可以参照上述方法中的内容，此处不再赘述。

图7示出本公开实施例中一种电子设备的结构示意图。需要说明的是，图7示出的设备仅以计算机系统为示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有设备700操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本公开的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、片段合成模块、匹配模块、向量获得模块、向量拼接模块和发音预测模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取模块还可以被描述为“向所连接的终端获取待处理字符的模块”。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

获取待处理字符序列中的待处理字符；若确定待处理字符为多音字，根据待处理字符序列获得预设数量个目标片段，其中，目标片段包括待处理字符，和/或目标片段包括待处理字符序列中连续的至少两个字符；将各个目标片段与第一词典中的词分别进行匹配，获得各个目标片段对应的第一特征值；根据各个目标片段对应的第一特征值获得待处理字符的第一特征向量，第一特征向量的维度为预设数量；根据待处理字符的第一特征向量和待处理字符的词嵌入向量获得待处理字符的输入向量；将待处理字符的输入向量输入第一神经网络模型，获得待处理字符的发音预测结果。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种发音预测方法，其特征在于，包括：

获取待处理字符序列中的待处理字符；

若确定所述待处理字符为多音字，根据所述待处理字符序列获得预设数量个目标片段，其中，所述目标片段包括所述待处理字符，和/或所述目标片段包括所述待处理字符序列中连续的至少两个字符；

将各个所述目标片段与第一词典中的词分别进行匹配，获得各个所述目标片段对应的第一特征值；

根据各个所述目标片段对应的第一特征值获得所述待处理字符的第一特征向量，所述第一特征向量的维度为所述预设数量；

根据所述待处理字符的第一特征向量和所述待处理字符的词嵌入向量获得所述待处理字符的输入向量；

将所述待处理字符的输入向量输入第一神经网络模型，获得所述待处理字符的发音预测结果。

2.根据权利要求1所述的方法，其特征在于，根据所述待处理字符序列获得预设数量个目标片段，包括：

将所述待处理字符序列中所述待处理字符的上文和/或下文与所述待处理字符合并，获得所述目标片段。

3.根据权利要求2所述的方法，其特征在于，将所述待处理字符序列中所述待处理字符的上文和/或下文与所述待处理字符合并，获得所述目标片段，包括：

若所述待处理字符在所述待处理字符序列中没有上文，将预设补位字符与所述待处理字符合并，获得所述目标片段，或

若所述待处理字符在所述待处理字符序列中没有下文，将预设补位字符与所述待处理字符合并，获得所述目标片段。

4.根据权利要求1所述的方法，其特征在于，所述第一词典中的词包括目标词及其对应的发音类别编号，所述目标词包括至少一个多音字；

将各个所述目标片段与第一词典中的词分别进行匹配，获得各个所述目标片段对应的第一特征值，包括：

将各个所述目标片段与所述第一词典中的词分别进行匹配，若所述目标片段与所述目标词匹配成功，则获得所述目标片段对应的第一特征值为所述目标词对应的发音类别编号。

5.根据权利要求4所述的方法，其特征在于，将各个所述目标片段与第一词典中的词分别进行匹配，获得各个所述目标片段对应的第一特征值，还包括：

若所述目标片段与所述第一词典中的任一目标词都未匹配成功，则获得所述目标片段对应的第一特征值为预设数值。

6.根据权利要求1所述的方法，其特征在于，所述待处理字符的发音预测结果包括所述待处理字符的多个发音分别对应的多个预测概率；

所述方法还包括：

若所述待处理字符的多个发音分别对应的多个预测概率均小于预设概率阈值，则确定所述待处理字符序列的所属领域；

获得所述待处理字符序列的所属领域对应的第二词典，以基于所述第二词典对所述待处理字符进行发音预测。

7.根据权利要求1所述的方法，其特征在于，所述目标片段包括所述待处理字符序列中连续的至多四个字符。

8.一种发音预测装置，其特征在于，包括：

获取模块，用于获取待处理字符序列中的待处理字符；

片段合成模块，用于若确定所述待处理字符为多音字，根据所述待处理字符序列获得预设数量个目标片段，其中，所述目标片段包括所述待处理字符，和/或所述目标片段包括所述待处理字符序列中连续的至少两个字符；

匹配模块，用于将各个所述目标片段与第一词典中的词分别进行匹配，获得各个所述目标片段对应的第一特征值；

向量获得模块，用于根据各个所述目标片段对应的第一特征值获得所述待处理字符的第一特征向量，所述第一特征向量的维度为所述预设数量；

向量拼接模块，用于根据所述待处理字符的第一特征向量和所述待处理字符的词嵌入向量获得所述待处理字符的输入向量；

发音预测模块，用于将所述待处理字符的输入向量输入第一神经网络模型，获得所述待处理字符的发音预测结果。

9.一种电子设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，其特征在于，所述处理器执行所述可执行指令时实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如权利要求1-7任一项所述的方法。