CN111078898B

CN111078898B - 一种多音字标注方法、装置以及计算机可读存储介质

Info

Publication number: CN111078898B
Application number: CN201911374465.2A
Authority: CN
Inventors: 冯小琴; 雷欣; 李志飞
Original assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2023-08-08
Anticipated expiration: 2039-12-27
Also published as: CN111078898A

Abstract

本发明公开了一种多音字标注方法、装置以及计算机可读存储介质，所述方法包括：获取多音字；将所获取的多音字作为预测模型的输入，得到多个对应于所述多音字的读音概率；从歧义规则词库中获取对应于所述多音字的读音权重；根据所获取到的读音概率和读音权重，得到置信度；根据所得到的置信度，对所述多音字进行读音标注。通过设置预测模型结合歧义规则词库，根据读音概率和读音权重对多音字进行标注，较现有技术，有着较高的读音标注准确率。

Description

一种多音字标注方法、装置以及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种多音字标注方法、装置以及计算机可读存储介质。

背景技术

当前的多音字读音获取方案，主要词典匹配获取。此方案系统考虑因素单一且对具有歧义或者固定搭配的短语，比如“为”、“得”等多音字，读音标注的准确度较低。

发明内容

本发明实施例提供了一种多音字标注方法、装置以及计算机可读存储介质，对多音字读音标注有着较高的准确率。

本发明一方面提供一种多音字标注方法，所述方法包括：获取多音字；将所获取的多音字作为预测模型的输入，得到多个对应于所述多音字的读音概率；从歧义规则词库中获取对应于所述多音字的读音权重；根据所获取到的读音概率和读音权重，得到置信度；根据所得到的置信度，对所述多音字进行读音标注。

在一可实施方式中，所述从歧义规则词库中获取对应于所述多音字的读音权重，包括：判断所述歧义规则词库中是否包含所述多音字；若判定所述歧义规则词库中包含所述多音字，则从所述歧义规则词库中获取对应于所述多音字的读音权重。

在一可实施方式中，若判定所述歧义规则词库中未包含所述多音字，则选取概率最高的两个读音概率，并设置所述两个读音概率相同的读音权重；相应的，所述根据所获取到的读音概率和读音权重，得到置信度，包括：根据所选取的两个读音概率和所设置的读音权重，得到置信度。

在一可实施方式中，所述根据所获取到的读音概率和读音权重，得到置信度，包括：将所获取到的语音概率和读音权重，通过公式得到置信度，公式为：P＝(p₁*w₁-p₂*w₂-…p_n*w_n)²*100(P∈(0～100))，其中P为置信度，p₁、p₂、…、p_n为所述多音字对应的多个读音概率，w₁、w₂、…、w_n为所述多音字对应的多个权重。

在一可实施方式中，所述根据所得到的置信度，对所述多音字进行读音标注，包括：判断所述置信度是否低于预设值；若判定所述置信度低于所述预设值，则从高频读音库搜索对应多音字的读音；将所述多音字标注所搜索到的读音。

在一可实施方式中，若判定所述置信度超过所述预设值，则从多个所述读音概率中选取最大读音概率；获取所述最大读音概率所对应的读音；将所述多音字标注为所获取的读音。

在一可实施方式中，所述获取多音字，包括：获取文本；对所获取的文本进行分词处理，得到多个分词；判断所得到的分词是否存在于多音字词库中；若判定所得到的分词存在于所述多音字词库中，则判定所述分词为多音字。

在一可实施方式中，在对所获取的文本进行分词处理，得到多个分词之后，所述方法还包括：利用读音字典对所述分词进行读音标注；判断所述分词和对应的读音标注是否存在于强规则词库中；若判定所述分词和对应的读音标注存在于所述强规则词库中，则将所述分词标注为由所述读音字典所标注的读音；若判定所述分词和对应的读音标注不存在于所述强规则词库中，则判断所述分词是否存在于多音字词库中。

本发明另一方面提供一种多音字标注装置，所述装置包括：多音字获取模块，用于获取多音字；读音概率获取模块，用于将所获取的多音字作为预测模型的输入，得到多个对应于所述多音字的读音概率；读音权重获取模块，用于从歧义规则词库中获取对应于所述多音字的读音权重；置信度获取模块，用于根据所获取到的读音概率和读音权重，得到置信度；读音标注模块，用于根据所得到的置信度，对所述多音字进行读音标注。

本发明另一方面提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行多音字标注方法。

在本发明实施例中，通过设置预测模型结合歧义规则词库，根据读音概率和读音权重对多音字进行标注，较现有技术，有着较高的读音标注准确率。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明实施例一种多音字标注方法的实现流程示意图；

图2为本发明实施例一种多音字标注方法的具体实现流程框图

图3为本发明实施例一种多音字标注装置的结构组成示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种多音字标注方法的实现流程示意图。

如图1所示，本发明一方面提供一种多音字标注方法，方法包括：

步骤101，获取多音字；

步骤102，将所获取的多音字作为预测模型的输入，得到多个对应于多音字的读音概率；

步骤103，从歧义规则词库中获取对应于多音字的读音权重；

步骤104，根据所获取到的读音概率和读音权重，得到置信度；

步骤105，根据所得到的置信度，对多音字进行读音标注。

本实施例中，首先获取到多音字，接着将所获取的多音字输入于预测模型中，得到多个对应于多音字的读音概率。其中，预测模型为已训练的统计模型或者神经网络模型，其中，神经网络模型大致的训练过程如下：

将训练语料(多音字)和对应训练语料的真实值(语音)输入于神经网络模型，得到对应的结果；

将所得到的结果与真实值通过损失函数得到损失值，根据损失值反复训练神经网络模型，直到损失值在指定范围内为止，模型训练完成。

接着从歧义规则词库中获取对应于该多音字的读音权重，其中，歧义规则词库中存有大量的高频多音字、读音标注以及读音权重，读音权重的获取方式可以是通过大量语料进行ngram(语言模型)统计。

接着根据所得到的读音概率和读音权重，得到一个置信度，最后根据置信度，对多音字进行读音标注。

由此，通过设置预测模型结合歧义规则词库，根据读音概率和读音权重对多音字进行标注，较现有技术，有着较高的读音标注准确率。

在一可实施方式中，获取多音字，包括：

获取文本；

对所获取的文本进行分词处理，得到多个分词；

判断所得到的分词是否存在于多音字词库中；

若判定所得到的分词存在于多音字词库中，则判定分词为多音字。

本实施例中，获取多音字的具体过程为：

首先获取文本，获取方式可以从线上获取，也可以人工撰写。接着通过现有的分词工具(比如NLPIR分词系统、THULAC、SnowNLP等)得到多个分词，然后判断所得到的分词是否存在于多音字词库中，其中多音字词库中至少包括所有的高频多音字。若判定多音字词库中存在该分词，则判定该分词为多音字。

在一可实施方式中，在对所获取的文本进行分词处理，得到多个分词之后，方法还包括：

利用读音字典对分词进行读音标注；

判断分词和对应的读音标注是否存在于强规则词库中；

若判定分词和对应的读音标注存在于强规则词库中，则将分词标注为由读音字典所标注的读音；

若判定分词和对应的读音标注不存在于强规则词库中，则判断分词是否存在于多音字词库中。

本实施例中，对所获取的文本进行分词处理，得到多个分词之后，利用读音字典对每个分词进行读音标注，接着判断每个分词以及对应的读音标注是否存在于强规则词库中，其中强规则词库中预先存有多音字以及对应的读音标注，若判定强规则词库中存在该分词和对应的读音标注，则将读音字典所标注的读音设为最终的读音。若判定分词和对应的读音标注不存在于强规则词库中，则继续判断分词是否存在于多音字词库中。

在一可实施方式中，从歧义规则词库中获取对应于多音字的读音权重，包括：

判断歧义规则词库中是否包含多音字；

若判定歧义规则词库中包含多音字，则从歧义规则词库中获取对应于多音字的读音权重。

本实施例中，上文中也提到，歧义规则词库中存有存有大量的高频多音字、对应的读音标注以及读音权重等信息，由此步骤103的具体过程为：

先判断歧义规则词库是否包含存在该多音字，若存在，则获取该多音字对应的读音权重。

在一可实施方式中，若判定歧义规则词库中未包含多音字，则选取概率最高的两个读音概率，并设置两个读音概率相同的读音权重；

相应的，根据所获取到的读音概率和读音权重，得到置信度，包括：

根据所选取的两个读音概率和所设置的读音权重，得到置信度。

本实施例中，若判定歧义规则词库中未包含多音字，则从经预测模型所得到的多个读音概率中选取概率值最高的两个，并设值该两个读音概率相同的读音权重，读音权重具体为百分之50。

相应的，步骤104的具体过程为：根据所选取的两个读音概率和所设置的读音权重，得到置信度。

在一可实施方式中，根据所获取到的读音概率和读音权重，得到置信度，包括：

将所获取到的语音概率和读音权重，通过公式得到置信度，公式为：

P＝(p₁*w₁-p₂*w₂-…p_n*w_n)²*100(P∈(0～100))，其中P为置信度，p₁、p₂、…、p_n为多音字对应的多个读音概率，w₁、w₂、…、w_n为多音字对应的多个权重。

本实施例中，步骤104的具体过程为：将所得到的读音概率和读音权重作为该公式的参数，对应得到置信度。

在一可实施方式中，根据所得到的置信度，对多音字进行读音标注，包括：

判断置信度是否低于预设值；

若判定置信度低于预设值，则从高频读音库搜索对应多音字的读音；

将多音字标注所搜索到的读音。

本实施例中，在获取到置信度后，步骤105的具体过程为：判断置信度是否低于预设值；

若判定置信度低于预设值，则从高频读音库搜索对应多音字的读音，将所搜索到的读音替换为事先通过读音字典所标注的读音。其中预设值为固定值，由人工设定。高频读音库中存有大量的通过人工录入的高频多音字以及对应的读音标注。

在一可实施方式中，若判定置信度超过预设值，则从多个读音概率中选取最大读音概率；

获取最大读音概率所对应的读音；

将多音字标注为所获取的读音。

本实施例中，当置信度超过预设值时，则将经预测模型得到的多个读音概率中选取值最大的读音概率，选取该读音概率对应的读音，并将该读音最终标注为该多音字的读音。

图2为本发明实施例一种多音字标注方法的具体实现流程框图，如图2所示。

首先获取文本，利用现有的分词工具将该文本进行分词处理，得到多个分词，利用读音字典将这些分词进行读音标注。

判断强规则词库中是否存在所获取得到的分词和对应的读音标注，若存在，则确定将该分词设为由读音字典所标注的读音。

若某些分词不存在于强规则词库中，则进一步判断这些分词是否存在于多音字词库中，若不存在，则将该分词设置为由读音字典所标注的读音，若存在，则将该分词输入于预测模型，获取得到对应于该分词的多个读音以及读音概率。接着从歧义规则词库中获取到对应该分词的多个读音权重。

然后根据所得到的读音概率和读音权重，通过上文中提供的计算公式进行置信度计算，得到对应的置信度。

接着判断所计算得到的置信度是否低于阈值(也就是上文中提到的预设值)，若该置信度低于阈值，则从高频读音库提取对应该分词的读音，并将该读音标注于该分词；若该置信度高于阈值，则将该分词标注经预测模型所得到的最大读音概率对应的读音。

其中，强规则词库、歧义规则词库以及预测模型均存储于系统的存储模块中。

图3为本发明实施例一种多音字标注装置的结构组成示意图，如图3所示。

基于上文提供的一种多音字标注方法，本发明实施例还提供一种多音字标注装置，装置包括：

多音字获取模块201，用于获取多音字；

读音概率获取模块202，用于将所获取的多音字作为预测模型的输入，得到多个对应于多音字的读音概率；

读音权重获取模块203，用于从歧义规则词库中获取对应于多音字的读音权重；

置信度获取模块204，用于根据所获取到的读音概率和读音权重，得到置信度；

读音标注模块205，用于根据所得到的置信度，对多音字进行读音标注。

本实施例中，首先通过多音字获取模块201获取到多音字，接着通过读音概率获取模块202将所获取的多音字输入于预测模型中，得到多个对应于多音字的读音概率。其中，预测模型为已训练的统计模型或者神经网络模型，其中，神经网络模型大致的训练过程如下：

接着通过读音权重获取模块203从歧义规则词库中获取对应于该多音字的读音权重，其中，歧义规则词库中存有大量的高频多音字、读音标注以及读音权重，读音权重的获取方式可以是通过大量语料进行ngram(语言模型)统计。

接着通过置信度获取模块204根据所得到的读音概率和读音权重，得到一个置信度，最后通过读音标注模块205根据置信度，对多音字进行读音标注。

本发明另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行上述任一项的多音字标注方法。

在本发明实施例中计算机可读存储介质包括一组计算机可执行指令，当指令被执行时用于，获取多音字；将所获取的多音字作为预测模型的输入，得到多个对应于多音字的读音概率；从歧义规则词库中获取对应于多音字的读音权重；根据所获取到的读音概率和读音权重，得到置信度；根据所得到的置信度，对多音字进行读音标注。

通过设置预测模型结合歧义规则词库，根据读音概率和读音权重对多音字进行标注，较现有技术，有着较高的读音标注准确率。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种多音字标注方法，其特征在于，所述方法包括：

获取多音字；

将所获取的多音字作为预测模型的输入，得到多个对应于所述多音字的读音概率；

从歧义规则词库中获取对应于所述多音字的读音权重；

根据所获取到的读音概率和读音权重，得到置信度；

根据所得到的置信度，对所述多音字进行读音标注；

所述从歧义规则词库中获取对应于所述多音字的读音权重，包括：判断所述歧义规则词库中是否包含所述多音字，若判定所述歧义规则词库中包含所述多音字，则从所述歧义规则词库中获取对应于所述多音字的读音权重；若判定所述歧义规则词库中未包含所述多音字，则选取概率最高的两个读音概率，并设置所述两个读音概率相同的读音权重；

相应的，若判定所述歧义规则词库中未包含所述多音字，所述根据所获取到的读音概率和读音权重，得到置信度，包括：根据所选取的两个读音概率和所设置的读音权重，得到置信度；

所述根据所获取到的读音概率和读音权重，得到置信度，包括：将所获取到的语音概率和读音权重，通过公式得到置信度，公式为：P＝(p₁*w₁-p₂*w₂-…p_n*w_n)²*100，P∈(0～100)，其中P为置信度，p₁、p₂、…、p_n为所述多音字对应的多个读音概率，w₁、w₂、…、w_n为所述多音字对应的多个读音权重。

2.根据权利要求1所述的方法，其特征在于，所述根据所得到的置信度，对所述多音字进行读音标注，包括：

判断所述置信度是否低于预设值；

若判定所述置信度低于所述预设值，则从高频读音库搜索对应多音字的读音；

将所述多音字标注所搜索到的读音。

3.根据权利要求2所述的方法，其特征在于，若判定所述置信度超过所述预设值，则从多个所述读音概率中选取最大读音概率；

获取所述最大读音概率所对应的读音；

将所述多音字标注为所获取的读音。

4.根据权利要求1所述的方法，其特征在于，所述获取多音字，包括：

获取文本；

对所获取的文本进行分词处理，得到多个分词；

判断所得到的分词是否存在于多音字词库中；

若判定所得到的分词存在于所述多音字词库中，则判定所述分词为多音字。

5.根据权利要求4所述的方法，其特征在于，在对所获取的文本进行分词处理，得到多个分词之后，所述方法还包括：

利用读音字典对所述分词进行读音标注；

判断所述分词和对应的读音标注是否存在于强规则词库中；

若判定所述分词和对应的读音标注存在于所述强规则词库中，则将所述分词标注为由所述读音字典所标注的读音；

若判定所述分词和对应的读音标注不存在于所述强规则词库中，则判断所述分词是否存在于多音字词库中。

6.一种多音字标注装置，其特征在于，所述装置包括：

多音字获取模块，用于获取多音字；

读音概率获取模块，用于将所获取的多音字作为预测模型的输入，得到多个对应于所述多音字的读音概率；

读音权重获取模块，用于从歧义规则词库中获取对应于所述多音字的读音权重；

置信度获取模块，用于根据所获取到的读音概率和读音权重，得到置信度；

读音标注模块，用于根据所得到的置信度，对所述多音字进行读音标注；

所述读音权重获取模块，还用于判断所述歧义规则词库中是否包含所述多音字；若判定所述歧义规则词库中包含所述多音字，则从所述歧义规则词库中获取对应于所述多音字的读音权重；若判定所述歧义规则词库中未包含所述多音字，则选取概率最高的两个读音概率，并设置所述两个读音概率相同的读音权重；

相应的，若判定所述歧义规则词库中未包含所述多音字，所述置信度获取模块，还用于根据所选取的两个读音概率和所设置的读音权重，得到置信度；

所述置信度获取模块，还用于将所获取到的语音概率和读音权重，通过公式得到置信度，公式为：P＝(p₁*w₁-p₂*w₂-…p_n*w_n)²*100，P∈(0～100)，其中P为置信度，p₁、p₂、…、p_n为所述多音字对应的多个读音概率，w₁、w₂、…、w_n为所述多音字对应的多个读音权重。

7.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1-5任一项所述的一种多音字标注方法。