CN113380223B

CN113380223B - 多音字消歧方法、装置、系统及存储介质

Info

Publication number: CN113380223B
Application number: CN202110577910.6A
Authority: CN
Inventors: 张海腾; 李秀林
Original assignee: Databaker Beijng Technology Co ltd
Current assignee: Beibei (Qingdao) Technology Co.,Ltd.
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-08-09
Anticipated expiration: 2041-05-26
Also published as: CN113380223A

Abstract

本发明提供一种多音字消歧方法、装置、系统及存储介质。方法包括：获取待处理文本；从待处理文本中识别目标多音字字符；从待处理文本中识别一个或多个目标词，一个或多个目标词中的每一个包含目标多音字字符；利用多音字词典确定与一个或多个目标词一一对应的一组或多组字符发音信息，每组字符发音信息用于表示在对应目标词中目标多音字字符的发音，多音字词典用于记录至少一个多音字字符中的每个多音字字符在包含该多音字字符的多个词中的发音；至少基于一组或多组字符发音信息生成输入特征；将输入特征输入多音字消歧模型，以获得目标多音字字符的预测发音结果。有助于提高多音字消歧的处理效率和预测准确率。

Description

多音字消歧方法、装置、系统及存储介质

技术领域

本发明涉及语音处理技术领域，具体地，涉及一种多音字消歧方法、装置、系统及存储介质。

背景技术

语音合成技术是一种将文字信息转化为声音信息的技术。语音合成技术可以为广大用户及目标应用提供语音合成服务。语音合成系统在如今有着较为广泛的应用。多音字消歧是语音合成系统中一个重要的任务。

在现有的汉字中，大部分汉字仅存在着单个发音，部分汉字存在着多个发音的情况，该部分汉字即为多音字，而为具有多个发音的汉字挑选正确的发音，这一过程即是多音字消歧的过程。多音字消歧是语音合成系统中前端模块的一个重要的任务，旨在利用规则或者模型等手段，为句子中出现的多音字预测出正确的发音，以此提升语音合成系统的质量以及语音合成系统的用户体验。

目前使用的多音字消歧方法，大部分是基于规则模板或者基于机器学习模型实现的。在基于规则模板的多音字消歧方法中，会基于大规模的标注语料，统计多音字所在位置的上下文特征，例如分词信息、词性信息等。基于大规模的语料建立对应的相对可靠模版库，根据模板库挑选多音字的发音。在基于机器学习模型的多音字消歧方法中，将多音字消歧划分为分类任务，根据上下文的分词特征以及词性特征，预测出不同发音的概率，进而确定多音字的最终发音结果。这些现有的多音字消歧方法对多音字发音预测的准确性尚存在不足，具有改进的空间。

发明内容

为了至少部分地解决现有技术中存在的问题，提供一种多音字消歧方法、装置、系统及存储介质。

根据本发明一个方面，提供一种多音字消歧方法，包括：获取待处理文本；从待处理文本中识别目标多音字字符；从待处理文本中识别一个或多个目标词，一个或多个目标词中的每一个包含目标多音字字符；利用多音字词典确定与一个或多个目标词一一对应的一组或多组字符发音信息，其中，一组或多组字符发音信息中的每组字符发音信息用于表示在对应目标词中目标多音字字符的发音，多音字词典用于记录至少一个多音字字符中的每个多音字字符在包含该多音字字符的多个词中的发音；至少基于一组或多组字符发音信息生成输入特征；将输入特征输入多音字消歧模型，以获得目标多音字字符的预测发音结果，预测发音结果用于指示目标多音字字符的发音。

示例性地，从待处理文本中识别一个或多个目标词包括：利用字典树技术从多音字词典中查找所有包含目标多音字字符且与待处理文本匹配的词，以获得一个或多个目标词。

示例性地，至少基于一组或多组字符发音信息生成输入特征包括：将一组或多组字符发音信息与附加信息结合在一起，以获得输入特征。

示例性地，从待处理文本中识别一个或多个目标词包括：从待处理文本中识别包含的所有词，其中，所有词包括一个或多个目标词；在至少基于一组或多组字符发音信息生成输入特征之前，方法还包括：将待处理文本中的所有字符以及所有词合并成字词表；将字词表中的所有字符和词分别转换为对应的标识数据，以获得标识特征；其中，标识数据用于唯一地标识对应的字符或词，附加信息包括标识特征。

示例性地，从待处理文本中识别一个或多个目标词包括：从待处理文本中识别包含的所有词，其中，所有词包括一个或多个目标词；在至少基于一组或多组字符发音信息生成输入特征之前，方法还包括：将待处理文本中的所有字符以及所有词合并成字词表；对于字词表中的每个字符或词，针对该字符或词进行对应的头位置计算，以确定该字符或词的头位置编码，头位置编码用于指示对应的字符或词中的第一个字符在整个待处理文本中所处的位置；针对该字符或词进行对应的尾位置计算，以确定该字符或词的尾位置编码，尾位置编码用于指示对应的字符或词中的最后一个字符在整个待处理文本中所处的位置；其中，附加信息包括字词表中的所有字符或词的头位置编码和尾位置编码。

示例性地，在至少基于一组或多组字符发音信息生成输入特征之前，方法还包括：根据目标多音字字符的所有已知发音生成掩码向量，掩码向量包括与已知发音集合中的所有已知发音一一对应的元素，每个元素表示对应已知发音的权重，已知发音集合包括至少一个已知多音字字符的所有已知发音，其中，在掩码向量中，与目标多音字字符的所有已知发音相对应的元素的值设置为1并且剩余元素的值设置为0；其中，附加信息包括掩码向量。

示例性地，多音字消歧模型包括前期处理模型和受限输出层，其中，将输入特征输入多音字消歧模型，以获得目标多音字字符的预测发音结果包括：将输入特征输入前期处理模型，以获得前期特征，前期特征包括与待处理文本中的所有字符一一对应的前期特征向量；将前期特征、掩码向量和目标位置编码输入受限输出层，其中，目标位置编码用于指示目标多音字字符在待处理文本中所处的位置；通过受限输出层基于目标位置编码从前期特征中确定与目标多音字字符所对应的前期特征向量；通过受限输出层对与目标多音字字符所对应的前期特征向量进行维度转换以获得转换特征向量，其中，转换特征向量包括与已知发音集合中的所有已知发音一一对应的元素，每个元素表示目标多音字字符属于对应已知发音的概率；通过受限输出层基于掩码向量从转换特征向量中确定与目标多音字字符的所有已知发音一一对应的元素；通过受限输出层从与目标多音字字符的所有已知发音一一对应的元素中选择最大元素所对应的已知发音作为预测发音结果输出。

示例性地，前期处理模型包括预训练语言模型层和转换器编码器层，预训练语言模型层采用BERT模型实现。

示例性地，至少基于一组或多组字符发音信息生成输入特征包括：将一组或多组字符发音信息中的每组字符发音信息转换为与该组字符发音信息相对应的多音字索引信息，以获得索引特征，其中，多音字索引信息是对应组字符发音信息在多音字词典中的索引；至少基于索引特征生成输入特征。

示例性地，从待处理文本中识别目标多音字字符包括：将待处理文本中的所有字符分别与多音字字表中的所有多音字字符进行匹配，以确定待处理文本包含的所有多音字字符，其中，多音字字表用于记录至少一个多音字字符；从待处理文本包含的所有多音字字符中选择一个或多个多音字字符分别作为目标多音字字符。

根据本发明另一方面，还提供一种多音字消歧装置，包括：获取模块，用于获取待处理文本；第一识别模块，用于从待处理文本中识别目标多音字字符；第二识别模块，用于从待处理文本中识别一个或多个目标词，一个或多个目标词中的每一个包含目标多音字字符；确定模块，用于利用多音字词典确定与一个或多个目标词一一对应的一组或多组字符发音信息，其中，一组或多组字符发音信息中的每组字符发音信息用于表示在对应目标词中目标多音字字符的发音，多音字词典用于记录至少一个多音字字符中的每个多音字字符在包含该多音字字符的多个词中的发音；生成模块，用于至少基于一组或多组字符发音信息生成输入特征；输入模块，用于将输入特征输入多音字消歧模型，以获得目标多音字字符的预测发音结果，预测发音结果用于指示目标多音字字符的发音。

根据本发明另一方面，还提供一种多音字消歧系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述多音字消歧方法。

根据本发明另一方面，还提供一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行上述多音字消歧方法。

根据本发明实施例的多音字消歧方法、装置、系统及存储介质，可以利用多音字词典预先获取目标多音字字符可能的发音，并将该发音信息融入输入特征，这样使得在多音字消歧模型的处理过程中，可以利用语言学家总结的关于多音字发音的先验知识，这样有助于提高多音字消歧的处理效率和预测准确率。

在发明内容中引入了一系列简化形式的概念，这将在具体实施方式部分中进一步详细说明。本发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征，更不意味着试图确定所要求保护的技术方案的保护范围。

以下结合附图，详细说明本发明的优点和特征。

附图说明

本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施方式及其描述，用来解释本发明的原理。在附图中，

图1示出根据本发明一个实施例的多音字消歧方法的示意性流程图；

图2示出根据本发明一个实施例的采用多音字消歧模型进行多音字消歧的流程示意图；

图3示出了根据本发明一个实施例的多音字消歧装置的示意性框图；以及

图4示出了根据本发明一个实施例的多音字消歧系统的示意性框图。

具体实施方式

在下文的描述中，提供了大量的细节以便能够彻底地理解本发明。然而，本领域技术人员可以了解，如下描述仅示例性地示出了本发明的优选实施例，本发明可以无需一个或多个这样的细节而得以实施。此外，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行详细描述。

发明人发现，现有的多音字消歧方法的预测准确率存在一定的上升空间，这是因为无论是基于规则模板的多音字消歧方法还是基于机器学习模型的多音字消歧方法，在建模过程中，均没有利用上多音字词典的信息，浪费了多音字词典中一些语言学专家所构建的特征信息，例如多音字的发音等。

为了至少部分地解决上述技术问题，本发明实施例提供一种多音字消歧方法、装置、系统及存储介质。根据本发明实施例的多音字消歧技术可以将多音字词典中的发音信息融入到输入特征中，并将输入特征输入多音字消歧模型中进行处理，这样可以使得在多音字消歧处理过程中运用到语言学专家总结的关于多音字发音的先验知识，从而可以提高多音字消歧的处理效率和预测准确率。该多音字消歧方法可以应用于任何采用语音合成技术的领域或其他需要进行多音字消歧的领域。

根据本发明一个方面，公开一种多音字消歧方法。图1示出根据本发明一个实施例的多音字消歧方法100的示意性流程图。如图1所示，多音字消歧方法100包括步骤S110-S160。

在步骤S110，获取待处理文本。

待处理文本可以是任何文本，其可以包含至少一个多音字字符。

在步骤S120，从待处理文本中识别目标多音字字符。

示例性地，可以利用多音字字表从待处理文本中识别目标多音字字符。多音字字表可以记录大量中文的多音字字符(例如当前已知的所有中文多音字字符)。可选地，多音字字表可以仅记录单个的多音字字符。可选地，多音字字表除记录多音字字符以外，还可以记录与每个多音字字符相关联的词。

在一个示例中，可以从待处理文本中识别所有多音字字符，并将所有多音字字符中的一个或多个分别作为所述目标多音字字符，并且可以针对每个目标多音字字符均执行后续的步骤S130-S150以及其他针对目标多音字字符的操作步骤。

在一个示例中，在目标多音字字符的数目为多个的情况下，可以每次利用多音字消歧模型处理一个目标多音字字符并获得当前目标多音字字符的预测发音结果，直至处理完所有的目标多音字字符为止。在另一个示例中，可以在一次处理中同时利用多音字消歧模型处理多个目标多音字字符，以一次性获得所有目标多音字字符的预测发音结果。

在步骤S130，从待处理文本中识别一个或多个目标词，一个或多个目标词中的每一个包含目标多音字字符。

在本文中，词是指由至少两个连续的字符组成的字符串。即，每个目标词是除目标多音字字符以外，还包含一个或多个其他字符的字符串。

图2示出根据本发明一个实施例的采用多音字消歧模型进行多音字消歧的流程示意图。图2所示的实施例是对“南京市长江大桥”进行多音字消歧处理。在此实施例中，“南京市长江大桥”为本文所述的待处理文本，其中的“长”为目标多音字字符，其具有两种发音“chang2”和“zhang3”。在识别出目标多音字字符“长”之后，可以识别出包含该字符的目标词，即“市长”和“长江大桥”。

在步骤S140，利用多音字词典确定与一个或多个目标词一一对应的一组或多组字符发音信息，其中，一组或多组字符发音信息中的每组字符发音信息用于表示在对应目标词中目标多音字字符的发音，多音字词典用于记录至少一个多音字字符中的每个多音字字符在包含该多音字字符的多个词中的发音。

此处的多音字词典可以称为第一多音字词典。该多音字词典可以用于记录至少一个多音字字符中的每个多音字字符在包含该多音字字符的多个词中的发音。可选地，多音字词典可以仅记录包含多音字字符的词中该多音字字符的发音，也可以记录包含多音字字符的词中的所有字符(即整个词)的发音。可选地，多音字词典可以仅记录多音字字符的发音以及包含多音字字符的词的发音。可选地，多音字词典可以进一步记录其他单音字字符的发音以及包含单音字字符的词的发音。

多音字词典可以记录大量中文的多音字字符(例如当前已知的所有中文多音字字符)的发音。可选地，上述多音字字表与本文所述的多音字词典(可以是此处的第一多音字词典或下文所述的第二多音字词典)可以是同一词典。

下面举例说明。对于图2中的实施例，与“长”相关的是目标词“市长”和“长江大桥”。多音字词典可以记载“长”在“市长”和“长江大桥”中的发音。可以在多音字词典中进行查找，发现“长”在“市长”和“长江大桥”中的发音分别为“zhang3”和“chang2”。可以获取用于表示这两个发音的发音信息，并将这些发音信息融入输入特征中。参见图2中的输入特征的第四行，该行信息就包括上述发音信息。在发音信息这一行中，单音字的发音信息可以不采用，即设置为0或图2所示的“None”。

在步骤S140中，至少基于一组或多组字符发音信息生成输入特征。

可选地，可以将发音信息进行一定的形式转换，转换成适合输入模型的向量形式。可选地，可以将发音信息(以上述向量形式)与其他附加信息进一步结合之后，生成输入特征。

在步骤S150，将输入特征输入多音字消歧模型，以获得目标多音字字符的预测发音结果，预测发音结果用于指示目标多音字字符的发音。

可选地，预测发音结果可以包括目标多音字字符属于多种候选发音(本文也称为“已知发音”)中的每种候选发音的概率。例如，图2的实施例中，针对目标多音字字符“长”可以输出其分别属于“chang2”和“zhang3”的概率，其中，概率最大的候选发音可以被选择为“长”的最终发音。可选地，预测发音结果可以包括目标多音字字符最终所属的候选发音是哪个。例如，图2的实施例中，针对目标多音字字符“长”可以直接输出“chang2”这一候选发音，表示其发音应为“chang2”。

多音字消歧模型可以是任何合适的能够实现多音字消歧的模型，其示例性的模型结构将在下文描述。

根据本发明实施例，可以利用多音字词典预先获取目标多音字字符可能的发音，并将该发音信息融入输入特征，这样使得在多音字消歧模型的处理过程中，可以利用语言学家总结的关于多音字发音的先验知识，这样有助于提高多音字消歧的处理效率和预测准确率。

根据本发明实施例，从待处理文本中识别一个或多个目标词包括：利用字典树技术从多音字词典中查找所有包含目标多音字字符且与待处理文本匹配的词，以获得一个或多个目标词。

此处的多音字词典可以称为第二多音字词典。比较可取的是，第二多音字词典和第一多音字词典是同一词典。但是上述方案仅是示例，第二多音字词典和第一多音字词典可以是不同词典。例如，第二多音字词典可以仅记录至少一个多音字字符以及包含各多音字字符的词，而不记录多音字字符和/或词的发音。

字典树可以视为一种搜索工具，通过字典树可以实现对构成各个词的关联字符的查找。本领域技术人员可以理解字典树技术的实现方式，本文不赘述。例如，参见图2，对于待处理文本“南京市长江大桥”，可以获得至少三个字符串“南京市”、“市长”和“长江大桥”，其中，后两个字符串是与目标多音字字符“长”相关的目标词，可以将这两个目标词均考虑到输入特征中。

在现有的多音字消歧方法中，通常首先进行中文分词，之后会基于分词获得的词汇信息进行多音字消歧处理。然而，由于中文分词可能会存在潜在的分词错误，因此，这种添加词汇信息的方式可能会导致模型依据错误的分词结果，将错误的词汇信息加载到模型中，这会大大增加模型预测多音字发音的难度甚至是导致多音字预测错误。例如，采用现有的分词技术，“南京市长江大桥”只会获得与目标多音字字符“长”相关的一个目标字符串，例如，如果分词获得的是“南京市”和“长江大桥”，则只能获得“长江大桥”；然而，如果分词获得的是“南京”、“市长”和“江大桥”，则只能获得“市长”。显然，如果按照后一种分词的词汇信息来进行多音字消歧处理，则很大可能会获得错误的多音字预测结果。

而根据本发明的实施例，可以同时将“市长”和“长江大桥”均考虑到多音字消歧过程中，这样可以大大减小分词错误带来的风险。

因此，根据上述实施例，可以将待处理文本中所有可能存在的词汇均融合在建模的单元中，使得所有可能的词汇均被考虑到。这样可以有效避免分词错误导致的多音字预测不准确的问题。

根据本发明实施例，至少基于一组或多组字符发音信息生成输入特征包括：将一组或多组字符发音信息与附加信息结合在一起，以获得输入特征。

附加信息可以是任何合适的信息，包括但不限于字符位置信息、字符词性信息、掩码向量等。附加信息的形式和内容可以依据采用的多音字消歧模型的要求而设定，本发明不对此进行限制。

根据本发明实施例，将一组或多组字符发音信息与附加信息结合在一起，以获得输入特征包括：将一组或多组字符发音信息转换成独热向量；将附加信息中的至少部分信息分别转换成独热向量；将转换后的所有独热向量以及附加信息中的剩余未转换的信息合并在一起，以获得输入特征。

在附加信息包括下述掩码向量的情况下，掩码向量可以不做转换，直接与其他转换后的向量合并即可。示例性地，除掩码向量以外，其他信息可以转换为独热向量，便于输入模型中进行处理。合并(concatenation)可以理解为将向量直接合并为向量组。

根据本发明实施例，从待处理文本中识别一个或多个目标词包括：从待处理文本中识别包含的所有词，其中，所有词包括一个或多个目标词；在至少基于一组或多组字符发音信息生成输入特征之前，方法还包括：将待处理文本中的所有字符以及所有词合并成字词表；将字词表中的所有字符和词分别转换为对应的标识数据，以获得标识特征；其中，标识数据用于唯一地标识对应的字符或词，附加信息包括标识特征。

如上所述，可以通过字典树技术找出待处理文本中包含的所有词。本文中采用字典树技术查找词的操作与现有的分词技术不同，本文中查找到的词之间允许存在重叠。即，所谓“识别包含的所有词”是只要存在待处理完文本中的词均会被识别出来，彼此重叠的词也可以同时存在于识别结果中。例如，上述“市长”和“长江大桥”都属于识别结果中的词。

可以将待处理文本中的所有字符以及待处理文本中包含的所有词分别转换为标识数据。标识数据可以称为token或ID，其可以用数字表示。每个字符或词可以对应着一个数字，例如，对于图2中的“南京市长江大桥”来说，可以将“南”字映射到数字0，“京”字映射到数字1，“市”字映射到数字2，“长”字映射到数字3，“江”字映射到数字4，“大”字映射到数字5，“桥”字映射到数字6，并且可以将“南京市”映射到数字7，将“市长”映射到数字8，将“长江大桥”映射到数字9。上述顺序编号的方式仅是示例而非对本发明的限制，标识数据并不局限于上述形式。标识数据可以是任何合适的数据，只要其能够唯一地标识对应字符或词即可。

多音字消歧模型可能是无法直接计算中文的，因此可以将这些中文字符或词转换成数字，这样可以使得模型能够识别该字符或词。

根据本发明实施例，从待处理文本中识别一个或多个目标词包括：从待处理文本中识别包含的所有词，其中，所有词包括一个或多个目标词；在至少基于一组或多组字符发音信息生成输入特征之前，方法还包括：将待处理文本中的所有字符以及所有词合并成字词表；对于字词表中的每个字符或词，针对该字符或词进行对应的头位置计算，以确定该字符或词的头位置编码，头位置编码用于指示对应的字符或词中的第一个字符在整个待处理文本中所处的位置；针对该字符或词进行对应的尾位置计算，以确定该字符或词的尾位置编码，尾位置编码用于指示对应的字符或词中的最后一个字符在整个待处理文本中所处的位置；其中，附加信息包括字词表中的所有字符或词的头位置编码和尾位置编码。

本实施例中的从待处理文本中识别包含的所有词的步骤的实现方式可以参考上一实施例的描述，不再赘述。

可以根据字符或词中的每个字符在待处理文本中所处的位置编码(也可以称为位置索引或下标)，进行对应的头位置(head)编码和尾位置(tail)编码的计算，得到所有字符和词的头位置编码和尾位置编码。

参见图2，其中输入特征中的第二行代表字符或词中的头位置编码，输入特征中的第三行代表字符或词中的尾位置编码。对于单个字符(参见前面7个字符)来说，其头位置编码和尾位置编码是一致的，都是该字符在整个待处理文本中的位置。例如，“南”字为第1个字符，因此其头位置编码和尾位置编码均为1。对于词(参见后面的3个词)来说，其头位置编码为该字符中的第一个字符在整个待处理文本中的位置，其尾位置编码为该字符中的最后一个字符在整个待处理文本中的位置。例如，“长江大桥”中的第一个字符“长”在整个待处理文本中为第4个字符，因此该词的头位置编码为4，而该词中的最后一个字符“桥”在整个待处理文本中为第7个字符，因此该词的尾位置编码为7。

根据本发明实施例，待处理文本中的所有字符以及所有词合并成的字词表可以构建为与晶格长短期记忆网络(Lattice-LSTM)模型或平行晶格(FLAT)模型的输入特征一致的格式。

字词表可以通过将所有字符以及所有词整理在一起获得。字词表可以构建为预定格式。该预定格式可以是类似于Lattice-LSTM模型或FLAT模型的输入特征的格式。图2所示的实施例采用的是类似FLAT模型的输入特征的字词表，通过这种方式可以获得平行的晶格架构，该架构可以直接建模字符与所有匹配的词汇信息间的交互。

根据本发明实施例，在至少基于一组或多组字符发音信息生成输入特征之前，方法还包括：根据目标多音字字符的所有已知发音生成掩码向量，掩码向量包括与已知发音集合中的所有已知发音一一对应的元素，每个元素表示对应已知发音的权重，已知发音集合包括至少一个已知多音字字符的所有已知发音，其中，在掩码向量中，与目标多音字字符的所有已知发音相对应的元素的值设置为1并且剩余元素的值设置为0；其中，附加信息包括掩码向量。

示例性地，已知发音集合可以来自上述多音字词典，即可以由多音字词典中的所有已知多音字字符的所有已知发音组成。

参考图2的输入特征中的最后一行，示出了掩码向量，其用Mask表示。Mask的维度与已知发音集合中的所有已知发音的数目一致，例如，假设采用的是包含400个多音字的多音字集合，这400个多音字各有两个或更多的发音，共形成1000种发音，则可以将这1000种发音视为已知发音集合。Mask可以设置为具有1000个维度(即1000个元素)，每个维度对应于一种发音。

例如，当前要预测的是“长”，则可以将Mask中与“chang2”和“zhang3”分别对应的两个元素的值设定为1，将其他发音所对应的元素的值设定为0。通过这样的Mask，可以在预测“长”字发音的过程中，屏蔽掉其他无关发音的干扰。

采用上述方案，可以仅针对目标多音字字符构建掩码向量。如果存在多个目标多音字字符，则可以分多次进行多音字消歧处理，每次生成当前目标多音字字符的掩码向量，并通过该掩码向量屏蔽其他单音字或多音字发音的干扰。

可选地，可以针对待处理文本的所有字符均分别构建上述掩码向量，获得一个向量组，即掩码矩阵。掩码矩阵包括与待处理文本的所有字符一一对应的掩码向量，其中，与单音字字符相对应的掩码向量中的所有元素的值均设置为0，与任一多音字字符相对应的掩码向量中的与该多音字字符的已知发音相对应的元素的值设置为1且剩余元素的值设置为0。通过掩码矩阵可以一次性针对多个多音字字符进行发音预测。然而，这种方案需要消耗大量的内存。

与针对整个待处理文本构建掩码矩阵相比，针对单个目标多音字字符构建掩码向量的方案可以有效地降低模型计算时的内存消耗。

将掩码向量或掩码矩阵输入多音字消歧模型的方法可以丰富输入特征，还可以防止模型将当前多音字错误预测成其他多音字的发音。

根据本发明实施例，多音字消歧模型包括前期处理模型和受限输出层，其中，将输入特征输入多音字消歧模型，以获得目标多音字字符的预测发音结果包括：将输入特征输入前期处理模型，以获得前期特征，前期特征包括与待处理文本中的所有字符一一对应的前期特征向量；将前期特征、掩码向量和目标位置编码输入受限输出层，其中，目标位置编码用于指示目标多音字字符在待处理文本中所处的位置；通过受限输出层基于目标位置编码从前期特征中确定与目标多音字字符所对应的前期特征向量；通过受限输出层对与目标多音字字符所对应的前期特征向量进行维度转换以获得转换特征向量，其中，转换特征向量包括与已知发音集合中的所有已知发音一一对应的元素，每个元素表示目标多音字字符属于对应已知发音的概率；通过受限输出层基于掩码向量从转换特征向量中确定与目标多音字字符的所有已知发音一一对应的元素；通过受限输出层从与目标多音字字符的所有已知发音一一对应的元素中选择最大元素所对应的已知发音作为预测发音结果输出。

参考图2，示出了多音字消歧模型的示例性模型结构。如图2所示，多音字消歧模型可以包括前期处理模型以及受限输出层(Restricted Output Layer)。图2示出前期处理模型包括预训练语言模型(其为可选的)和转换器编码器层(Transformers Encoder Layer)。

前期处理模型接收输入特征，并可以输出前期特征。前期特征无法直接体现目标多音字字符属于每种发音的概率，需要进一步转换之后才能获得。例如，沿用上述示例，假设已知发音集合包括1000种发音，则前期处理模型输出的前期特征可以包括一个向量组，该向量组包括与待处理文本中的所有字符一一对应的向量，每个向量的维度数目与已知发音集合的发音种类数目不同。例如，前期特征中，每个字符可以对应于一个300维的向量。需要将该300维的向量转换成1000维的向量，才可以获得字符属于1000种发音中每一种的概率。

关于目标位置编码，可以在步骤S120中识别目标多音字字符时，同时获得该目标多音字字符的位置编码，即其在整个待处理文本中的位置。例如，“长”在“南京市长江大桥”中的位置编码为4。受限输出层可以根据目标位置编码从前期特征中提取出与第4个字符“长”相对应的300维向量。随后，受限输出层可以将与“长”相对应的300维向量转换成与“长”相对应的1000维向量。随后，受限输出层再根据上述掩码向量从与“长”相对应的1000维向量中提取与“chang2”和“zhang3”这两个发音相对应的元素，分析元素的值，从中取出概率最大的发音作为“长”的预测发音结果。

根据本发明实施例，前期处理模型包括预训练语言模型层和转换器编码器层，预训练语言模型层采用BERT模型实现。

可以将输入特征输入预训练语言模型层，以由预训练语言模型层提取对应的动态词表征。随后，可以将动态词表征输入上述转换器编码器层，在转换器编码器层中进行自注意(self-attention)计算，以进行目标多音字字符和目标词之间的交互计算，进而获得前期特征。

预训练语言模型层可以提前采用大量中文进行训练。BERT模型是一种非常高效且有效的预训练语言模型，采用BERT模型可以有效地提高多音字发音的预测准确率。BERT模型仅是示例而非对本发明的限制，可以采用其他合适的预训练语言模型替换BERT模型实现相应功能，例如，还可以采用Electria等预训练结构。

目前尚未出现在预训练语言模型上建立较为复杂的模型结构，这会限制将其应用于多音字消歧时的性能。而根据上述实施例，可以将预训练语言模型与转换器编码器层结合在一起，从而有助于在实现多音字消歧的同时，有效地提升整个模型系统的性能。

上文在构建字词表时，还可以采用Lex-BERT模型的输入特征所使用的晶格格式替换Lattice-LSTM模型或FLAT模型所使用的晶格格式，实现对词汇信息的构建。在这种情况下，可以直接用Lex-BERT模型作为预训练语言模型，并保留转换器编码器层和受限输出层不变。

根据本发明实施例，至少基于一组或多组字符发音信息生成输入特征包括：将一组或多组字符发音信息中的每组字符发音信息转换为与该组字符发音信息相对应的多音字索引信息，以获得索引特征，其中，多音字索引信息是对应组字符发音信息在多音字词典中的索引；至少基于索引特征生成输入特征。

为了便于输入模型进行计算，可以将目标多音字字符的发音在多音字词典中的多音字索引信息提取出来。例如，在多音字词典包含上述1000种发音的情况下，可以为每种发音建立一个索引信息，用于唯一地标识该发音。这样，可以找出目标多音字字符所对应的一组或多组字符发音信息的多音字索引信息，形成索引特征，并直接或经过进一步转换(例如转换成上述独热向量)之后生成输入特征，输入多音字消歧模型中进行处理。

根据本发明实施例，从待处理文本中识别目标多音字字符包括：将待处理文本中的所有字符分别与多音字字表中的所有多音字字符进行匹配，以确定待处理文本包含的所有多音字字符，其中，多音字字表用于记录至少一个多音字字符；从待处理文本包含的所有多音字字符中选择一个或多个多音字字符分别作为目标多音字字符。

如上所述，可以利用多音字字表确定待处理文本中的哪些字符是多音字字符。可以将待处理文本中的至少部分多音字字符确定为目标多音字字符进行上述多音字消歧处理。

根据本发明另一方面，提供一种多音字消歧装置。图3示出了根据本发明一个实施例的多音字消歧装置300的示意性框图。

如图3所示，根据本发明实施例的多音字消歧装置300包括获取模块310、第一识别模块320、第二识别模块330、确定模块340、生成模块350和输入模块360。所述各个模块可分别执行上文中结合图1-2描述的多音字消歧方法100的各个步骤/功能。以下仅对该多音字消歧装置300的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块310用于获取待处理文本。

第一识别模块320用于从所述待处理文本中识别目标多音字字符。

第二识别模块330用于从所述待处理文本中识别一个或多个目标词，所述一个或多个目标词中的每一个包含所述目标多音字字符。

确定模块340用于利用多音字词典确定与所述一个或多个目标词一一对应的一组或多组字符发音信息，其中，所述一组或多组字符发音信息中的每组字符发音信息用于表示在对应目标词中所述目标多音字字符的发音，所述多音字词典用于记录至少一个多音字字符中的每个多音字字符在包含该多音字字符的多个词中的发音。

生成模块350用于至少基于所述一组或多组字符发音信息生成输入特征。

输入模块360用于将所述输入特征输入多音字消歧模型，以获得所述目标多音字字符的预测发音结果，所述预测发音结果用于指示所述目标多音字字符的发音。

根据本发明另一方面，提供一种多音字消歧系统。图4示出了根据本发明一个实施例的多音字消歧系统400的示意性框图。多音字消歧系统400包括处理器410和存储器420。

所述存储器420存储用于实现根据本发明实施例的多音字消歧方法100中的相应步骤的计算机程序指令。

所述处理器410用于运行所述存储器420中存储的计算机程序指令，以执行根据本发明实施例的多音字消歧方法100的相应步骤。

在一个实施例中，所述计算机程序指令被所述处理器410运行时用于执行以下步骤：获取待处理文本；从所述待处理文本中识别目标多音字字符；从所述待处理文本中识别一个或多个目标词，所述一个或多个目标词中的每一个包含所述目标多音字字符；利用多音字词典确定与所述一个或多个目标词一一对应的一组或多组字符发音信息，其中，所述一组或多组字符发音信息中的每组字符发音信息用于表示在对应目标词中所述目标多音字字符的发音，所述多音字词典用于记录至少一个多音字字符中的每个多音字字符在包含该多音字字符的多个词中的发音；至少基于所述一组或多组字符发音信息生成输入特征；将所述输入特征输入多音字消歧模型，以获得所述目标多音字字符的预测发音结果，所述预测发音结果用于指示所述目标多音字字符的发音。

根据本发明另一方面，提供一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的多音字消歧方法100的相应步骤，并且用于实现根据本发明实施例的多音字消歧装置300中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述程序指令被计算机或处理器运行时用于执行以下步骤：获取待处理文本；从所述待处理文本中识别目标多音字字符；从所述待处理文本中识别一个或多个目标词，所述一个或多个目标词中的每一个包含所述目标多音字字符；利用多音字词典确定与所述一个或多个目标词一一对应的一组或多组字符发音信息，其中，所述一组或多组字符发音信息中的每组字符发音信息用于表示在对应目标词中所述目标多音字字符的发音，所述多音字词典用于记录至少一个多音字字符中的每个多音字字符在包含该多音字字符的多个词中的发音；至少基于所述一组或多组字符发音信息生成输入特征；将所述输入特征输入多音字消歧模型，以获得所述目标多音字字符的预测发音结果，所述预测发音结果用于指示所述目标多音字字符的发音。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的多音字消歧系统中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种多音字消歧方法，包括：

获取待处理文本；

从所述待处理文本中识别目标多音字字符；

从所述待处理文本中识别一个或多个目标词，所述一个或多个目标词中的每一个包含所述目标多音字字符；

利用多音字词典确定与所述一个或多个目标词一一对应的一组或多组字符发音信息，其中，所述一组或多组字符发音信息中的每组字符发音信息用于表示在对应目标词中所述目标多音字字符的发音，所述多音字词典用于记录至少一个多音字字符中的每个多音字字符在包含该多音字字符的多个词中的发音；

至少基于所述一组或多组字符发音信息生成输入特征；

将所述输入特征输入多音字消歧模型，以获得所述目标多音字字符的预测发音结果，所述预测发音结果用于指示所述目标多音字字符的发音；

其中，所述至少基于所述一组或多组字符发音信息生成输入特征包括：

将所述一组或多组字符发音信息与附加信息结合在一起，以获得所述输入特征；

其中，在所述至少基于所述一组或多组字符发音信息生成输入特征之前，所述方法还包括：

根据所述目标多音字字符的所有已知发音生成掩码向量，所述掩码向量包括与已知发音集合中的所有已知发音一一对应的元素，每个元素表示对应已知发音的权重，所述已知发音集合包括至少一个已知多音字字符的所有已知发音，其中，在所述掩码向量中，与所述目标多音字字符的所有已知发音相对应的元素的值设置为1并且剩余元素的值设置为0；

其中，所述附加信息包括所述掩码向量；

其中，所述多音字消歧模型包括前期处理模型和受限输出层，其中，所述将所述输入特征输入多音字消歧模型，以获得所述目标多音字字符的预测发音结果包括：

将所述输入特征输入所述前期处理模型，以获得前期特征，所述前期特征包括与所述待处理文本中的所有字符一一对应的前期特征向量；

将所述前期特征、所述掩码向量和目标位置编码输入所述受限输出层，其中，所述目标位置编码用于指示所述目标多音字字符在所述待处理文本中所处的位置；

通过所述受限输出层基于所述目标位置编码从所述前期特征中确定与所述目标多音字字符所对应的前期特征向量；

通过所述受限输出层对与所述目标多音字字符所对应的前期特征向量进行维度转换以获得转换特征向量，其中，所述转换特征向量包括与所述已知发音集合中的所有已知发音一一对应的元素，每个元素表示所述目标多音字字符属于对应已知发音的概率；

通过所述受限输出层基于所述掩码向量从所述转换特征向量中确定与所述目标多音字字符的所有已知发音一一对应的元素；

通过所述受限输出层从与所述目标多音字字符的所有已知发音一一对应的元素中选择最大元素所对应的已知发音作为所述预测发音结果输出。

2.根据权利要求1所述的方法，其中，所述从所述待处理文本中识别一个或多个目标词包括：

利用字典树技术从所述多音字词典中查找所有包含所述目标多音字字符且与所述待处理文本匹配的词，以获得所述一个或多个目标词。

3.根据权利要求1所述的方法，其中，

所述从所述待处理文本中识别一个或多个目标词包括：

从所述待处理文本中识别包含的所有词，其中，所述所有词包括所述一个或多个目标词；

在所述至少基于所述一组或多组字符发音信息生成输入特征之前，所述方法还包括：

将所述待处理文本中的所有字符以及所述所有词合并成字词表；

将所述字词表中的所有字符和词分别转换为对应的标识数据，以获得标识特征；

其中，所述标识数据用于唯一地标识对应的字符或词，所述附加信息包括所述标识特征。

4.根据权利要求1所述的方法，其中，

所述从所述待处理文本中识别一个或多个目标词包括：

对于所述字词表中的每个字符或词，

针对该字符或词进行对应的头位置计算，以确定该字符或词的头位置编码，所述头位置编码用于指示对应的字符或词中的第一个字符在整个待处理文本中所处的位置；

针对该字符或词进行对应的尾位置计算，以确定该字符或词的尾位置编码，所述尾位置编码用于指示对应的字符或词中的最后一个字符在整个待处理文本中所处的位置；

其中，所述附加信息包括所述字词表中的所有字符或词的头位置编码和尾位置编码。

5.根据权利要求1所述的方法，其中，所述前期处理模型包括预训练语言模型层和转换器编码器层，所述预训练语言模型层采用BERT模型实现。

6.根据权利要求1至5任一项所述的方法，其中，所述至少基于所述一组或多组字符发音信息生成输入特征包括：

将所述一组或多组字符发音信息中的每组字符发音信息转换为与该组字符发音信息相对应的多音字索引信息，以获得索引特征，其中，所述多音字索引信息是对应组字符发音信息在所述多音字词典中的索引；

至少基于所述索引特征生成所述输入特征。

7.根据权利要求1至5任一项所述的方法，其中，所述从所述待处理文本中识别目标多音字字符包括：

将所述待处理文本中的所有字符分别与多音字字表中的所有多音字字符进行匹配，以确定所述待处理文本包含的所有多音字字符，其中，所述多音字字表用于记录至少一个多音字字符；

从所述待处理文本包含的所有多音字字符中选择一个或多个多音字字符分别作为所述目标多音字字符。

8.一种多音字消歧装置，包括：

获取模块，用于获取待处理文本；

第一识别模块，用于从所述待处理文本中识别目标多音字字符；

第二识别模块，用于从所述待处理文本中识别一个或多个目标词，所述一个或多个目标词中的每一个包含所述目标多音字字符；

确定模块，用于利用多音字词典确定与所述一个或多个目标词一一对应的一组或多组字符发音信息，其中，所述一组或多组字符发音信息中的每组字符发音信息用于表示在对应目标词中所述目标多音字字符的发音，所述多音字词典用于记录至少一个多音字字符中的每个多音字字符在包含该多音字字符的多个词中的发音；

第一生成模块，用于至少基于所述一组或多组字符发音信息生成输入特征；

输入模块，用于将所述输入特征输入多音字消歧模型，以获得所述目标多音字字符的预测发音结果，所述预测发音结果用于指示所述目标多音字字符的发音；

其中，所述第一生成模块包括：

结合子模块，用于将所述一组或多组字符发音信息与附加信息结合在一起，以获得所述输入特征；

其中，所述装置还包括：

第二生成模块，用于在所述第一生成模块至少基于所述一组或多组字符发音信息生成输入特征之前，根据所述目标多音字字符的所有已知发音生成掩码向量，所述掩码向量包括与已知发音集合中的所有已知发音一一对应的元素，每个元素表示对应已知发音的权重，所述已知发音集合包括至少一个已知多音字字符的所有已知发音，其中，在所述掩码向量中，与所述目标多音字字符的所有已知发音相对应的元素的值设置为1并且剩余元素的值设置为0；

其中，所述附加信息包括所述掩码向量；

其中，所述多音字消歧模型包括前期处理模型和受限输出层，其中，所述输入模块包括：

第一输入子模块，用于将所述输入特征输入所述前期处理模型，以获得前期特征，所述前期特征包括与所述待处理文本中的所有字符一一对应的前期特征向量；

第二输入子模块，用于将所述前期特征、所述掩码向量和目标位置编码输入所述受限输出层，其中，所述目标位置编码用于指示所述目标多音字字符在所述待处理文本中所处的位置；

第一确定子模块，用于通过所述受限输出层基于所述目标位置编码从所述前期特征中确定与所述目标多音字字符所对应的前期特征向量；

转换子模块，用于通过所述受限输出层对与所述目标多音字字符所对应的前期特征向量进行维度转换以获得转换特征向量，其中，所述转换特征向量包括与所述已知发音集合中的所有已知发音一一对应的元素，每个元素表示所述目标多音字字符属于对应已知发音的概率；

第二确定子模块，用于通过所述受限输出层基于所述掩码向量从所述转换特征向量中确定与所述目标多音字字符的所有已知发音一一对应的元素；

选择子模块，用于通过所述受限输出层从与所述目标多音字字符的所有已知发音一一对应的元素中选择最大元素所对应的已知发音作为所述预测发音结果输出。

9.一种多音字消歧系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至7任一项所述的多音字消歧方法。

10.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求1至7任一项所述的多音字消歧方法。