CN111145724A

CN111145724A - 一种多音字标注方法、装置以及计算机可读存储介质

Info

Publication number: CN111145724A
Application number: CN201911421542.5A
Authority: CN
Inventors: 冯小琴; 李娜; 雷欣; 李志飞
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Mobvoi Information Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-12
Anticipated expiration: 2039-12-31
Also published as: CN111145724B

Abstract

本发明公开了一种多音字标注方法、装置以及计算机可读存储介质，包括：获取多音字；对所获取的多音字进行读音预判，得到对应于所述多音字的读音和置信度；根据所得到的置信度，展示所述多音字和对应的读音，并指示用户确定对应所述多音字的读音；根据所确定的读音，确定是否将所述多音字标注为用户所确定的读音。由此，通过将经读音预判所得到的读音展示于用户，然后根据用户的指示进一步来设定多音字的读音，从而提高了读音标注的准确度。

Description

一种多音字标注方法、装置以及计算机可读存储介质

技术领域

本发明涉及语音合成技术领域，尤其涉及一种多音字标注方法、装置以及计算机可读存储介质。

背景技术

目前在语音合成领域，针对文字的读音标注的准确度仅仅依赖语音合成系统，也即是用户获取音频之后，若存在读音标注错误，用户也无能为力。这样导致在合成一些专业性比较高或者严谨的文章时，存在较多不可逆转的读音错误，导致读音标注的准确度不高。

发明内容

本发明实施例提供了一种多音字标注方法、装置以及计算机可读存储介质，具有提高读音标注准确度的效果。

本发明一方面提供一种多音字标注方法，所述方法包括：获取多音字；对所获取的多音字进行读音预判，得到对应于所述多音字的读音和置信度；根据所得到的置信度，展示所述多音字和对应的读音，并指示用户确定对应所述多音字的读音；根据所确定的读音，确定是否将所述多音字标注为用户所确定的读音。

在一可实施方式中，所述获取多音字，包括：获取文本信息；对所述文本信息进行分词处理，得到若干个分词；利用多音字列表，从所得到的若干个分词中提取多音字。

在一可实施方式中，所述对所获取的多音字进行读音预判，得到对应于所述多音字的读音和置信度，包括：将所述多音字作为预测模型的输入，得到多个对应于所述多音字的读音和读音概率；从歧义规则词库中获取对应于所述多音字的读音权重；根据所得到的读音概率和读音权重，得到置信度。

在一可实施方式中，所述根据所得到的置信度，展示所述多音字和对应的读音，并指示用户确定对应所述多音字的读音，包括：判断所述置信度是否低于置信阈值；若判定所述置信度低于所述置信阈值，则展示所述多音字和对应的读音，并指示用户确定对应所述多音字的读音。

在一可实施方式中，所述指示用户确定对应所述多音字的读音，包括：指示用户对待修正的多音字设置包含预设读音的读音标签；相应的，所述将所述多音字标注为用户所确定的读音，包括：提取所述读音标签中的预设读音；将所述多音字标注为所述预设读音。

本发明另一方面提供一种多音字标注装置，所述装置包括：多音字获取模块，用于获取多音字；读音预判模块，用于对所获取的多音字进行读音预判，得到对应于所述多音字的读音和置信度；预判结果展示模块，用于根据所得到的置信度，展示所述多音字和对应的读音，并指示用户确定对应所述多音字的读音；读音标注模块，用于根据所确定的读音，确定是否将所述多音字标注为用户所确定的读音。

在一可实施方式中，所述读音预判模块，具体用于：将所述多音字作为预测模型的输入，得到多个对应于所述多音字的读音和读音概率；从歧义规则词库中获取对应于所述多音字的读音权重；根据所得到的读音概率和读音权重，得到置信度。

在一可实施方式中，所述预判结果展示模块，具体用于：判断所述置信度是否低于置信阈值；若判定所述置信度低于所述置信阈值，则展示所述多音字和对应的读音，并指示用户确定对应所述多音字的读音。

在一可实施方式中，所述预判结果展示模块在指示用户确定对应所述多音字的读音的过程中，具体用于：指示用户对待修正的多音字设置包含预设读音的读音标签；相应的，所述读音标注模块在将所述多音字标注为用户所确定的读音的过程中，具体用于：提取所述读音标签中的预设读音；将所述多音字标注为所述预设读音。

本发明另一方面提供一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行上述任一项所述的一种多音字标注方法。

在本发明实施例中，由此，通过将经读音预判所得到的读音和置信度展示于用户，然后根据用户的指示进一步更正多音字的读音，从而提高了读音标注的准确度。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明实施例一种多音字标注方法的实现流程示意图；

图2为本发明实施例一种多音字标注方法的具体实现流程示意图；

图3为本发明实施例一种多音字标注装置的结构组成示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种多音字标注方法的实现流程示意图；

图2为本发明实施例一种多音字标注方法的具体实现流程示意图。

请参考图1和图2，本发明一方面提供一种多音字标注方法，方法包括：

步骤101，获取多音字；

步骤102，对所获取的多音字进行读音预判，得到对应于多音字的读音和置信度；

步骤103，根据所得到的置信度，展示多音字和对应的读音，并指示用户确定对应多音字的读音；

步骤104，根据所确定的读音，确定是否将多音字标注为用户所确定的读音。

本实施例中，首先获取多音字，接着将多音字输入于语音合成系统进行读音预判，得到对应于多音字的读音和置信度，其中，读音包括拼音和声调，置信度为0到1之间的数值，例如：和(he2，0.3)；乐(le4，0.4)。

接着根据所得到的置信度，展示多音字和对应的读音给用户，具体是通过语音合成系统根据所得到的置信度将所得到的读音和对应的多音字显示在可视化交互界面上，可视化交互界面更具体来说是多音字标注系统上。

用户可通过可视化交互界面查看经读音预判所得到的读音，并判断该读音是否准确，若该读音不准确，则在多音字标注系统上给该多音字设置正确的读音，若该读音正确，则不需要修正。

若用户标注了正确的读音，则利用语音合成系统将该多音字的读音最终设置为用户所设置的读音；反之，若用户未作出修改，则对该多音字按照原先所预判的读音进行标注。

由此，通过将经读音预判所得到的读音展示于用户，然后根据用户的指示进一步来设定多音字的读音，从而提高了读音标注的准确度。

在一可实施方式中，获取多音字，包括：

获取文本信息；

对文本信息进行分词处理，得到若干个分词；

利用多音字列表，从所得到的若干个分词中提取多音字。

本实施例中，步骤101的具体过程为：首先获取文本信息，获取方式可以从线上获取，也可以线下本地端编辑得到。

接着利用现有的分词工具(比如Jieba分词工具)，对文本信息进行分词处理，得到若干个分词，该得到的分词中可能包括多音字和非多音字。

接着语音合成系统借助用户词典对所得到的分词进行标注，其中用户词典中主要包括非多音字的短语、读音和领域等属性。具体过程为判断所得到的分词是否存在于用户词典中，若该分词存在于用户词典中，则从用户词典中获取对应的读音，并对该多音字进行标注。

接着利用多音字列表筛选出若干分词中的多音字，其中，多音字列表中包含所有的多音字(包括高频多音字)，筛选的具体过程为：判断分词是否存在于多音字列表中，若该分词存在于多音字列表中，则判断该分词为多音字，并将其提取出来。

在一可实施方式中，对所获取的多音字进行读音预判，得到对应于多音字的读音和置信度，包括：

将多音字作为预测模型的输入，得到多个对应于多音字的读音和读音概率；

从歧义规则词库中获取对应于多音字的读音权重；

根据所得到的读音概率和读音权重，得到置信度。

本实施例中，步骤102的具体过程为：

将所筛选出来的多音字输入于预测模型中，其中，预测模型为已训练的统计模型或者神经网络模型，其中，神经网络模型大致的训练过程如下：

将训练语料(多音字)和对应训练语料的真实值(读音)输入于神经网络模型，得到对应的结果；

将所得到的结果与真实值通过损失函数得到损失值，根据损失值反复训练神经网络模型，直到损失值在指定范围内为止，模型训练完成。

接着从歧义规则词库中获取对应于多音字的读音权重，其中，歧义规则词库中存有每个多音字所对应的多个读音标注以及读音权重，读音权重的获取方式可以是通过大量语料进行ngram(语言模型)统计。

将读音概率和读音权重经过置信度计算公式得到针对该读音概率的置信度；选取该多音字所对应的一个或者多个读音概率所对应的读音展示在多音字标注系统上，以供用户查阅。

在一可实施方式中，根据所得到的置信度，展示多音字和对应的读音，并指示用户确定对应多音字的读音，包括：

判断置信度是否低于置信阈值；

若判定置信度低于置信阈值，则展示多音字和对应的读音，并指示用户确定对应多音字的读音。

本实施例中，步骤103中“根据所得到的置信度，展示多音字和对应的读音，并指示用户确定对应多音字的读音”的具体过程为：

判断置信度是否低于置信阈值，置信阈值为人工设置的固定值，优选为0.5。若经读音预判所得到的置信度低于置信阈值，则表明该读音极有可能存在错误，则将该读音展示在多音字标注系统界面上。若经读音预判所得到的置信度高于置信阈值，则表明该读音的错误率较低，则不将其展示在多音字标注系统上，此过程方便用户重点检查准确率较低的文字读音，简化多音字标注系统前端的显示冗余，简化视觉效果。

在一可实施方式中，指示用户确定对应多音字的读音，包括：

指示用户对待修正的多音字设置包含预设读音的读音标签；

相应的，将多音字标注为用户所确定的读音，包括：

提取读音标签中的预设读音；

将多音字标注为预设读音。

本实施例中，用户在标注读音的过程为：

在多音字标注系统上对待标注的文字上设置读音标签，其中，读音标签用语音合成标记语言(SSML：Speech Synthesis Markup Language)编写的具体格式例如为<aphoneme＝"ni2 hao3"tag＝"backward">你好</a>，其中，a为标签名，phoneme和tag为属性，ni2 hao3和backward为对应各自属性的属性值，用户可以通过简单的前端交互界面提供属性值，前端交互界面可根据用户提供的属性值在后台设置读音标签。

读音标签中包括预设读音、处理方式和领域等等属性，上文中提到的ni2 hao3即为预设读音。

若用户设置了读音标签，相应的，则步骤104中的“将多音字标注为用户所确定的读音”的具体过程为：

将修正后的输入于语音合成系统重新标注，利用语音合成系统判断该多音字处是否存在标签，若该多音字处存在标签，则利用语音合成系统提取出读音标签中的预设读音，并将该多音字标注为用户所设置的预设读音。

进一步地，在标注完成之后，标注平台还可将多音字标注数据和用户划选的用户词典回流至语音合成系统，为语音合成系统中的预测模型提供标注数据，以进一步训练预测模型，提高预判的准确度。

上述用户词典以及常用多音字列表均存于存储模块中。

图3为本发明实施例一种多音字标注装置的结构组成示意图。

如图3所示，本发明另一方面提供一种多音字标注装置，装置包括：

多音字获取模块201，用于获取多音字；

读音预判模块202，用于对所获取的多音字进行读音预判，得到对应于多音字的读音和置信度；

预判结果展示模块203，用于根据所得到的置信度，展示多音字和对应的读音，并指示用户确定对应多音字的读音；

读音标注模块204，用于根据所确定的读音，确定是否将多音字标注为用户所确定的读音。

本实施例中，首先通过多音字获取模块201获取多音字，接着通过读音预判模块202将多音字输入于语音合成系统进行读音预判，得到对应于多音字的读音和置信度，其中，读音包括拼音和声调，置信度为0到1之间的数值，例如：和(he2，0.3)；乐(le4，0.4)。

接着通过预判结果展示模块203根据所得到的置信度，接着展示多音字和对应的读音给用户，具体是通过语音合成系统根据所得到的置信度将所得到的读音和对应的多音字显示在可视化交互界面上，可视化交互界面更具体来说是多音字标注系统上。

用户可通过可视化交互界面查看经读音预判所得到的读音，并判断该读音是否准确，若该读音不准确，则给该多音字设置正确的读音，若该读音正确，则不需要修正。

若用户标注了正确的读音，则通过读音标注模块204利用语音合成系统将该多音字的读音最终设置为用户所设置的读音；反之，若用户未作出修改，则对该多音字按照原先所预判的读音进行标注。

在一可实施方式中，读音预判模块202，具体用于：

从歧义规则词库中获取对应于多音字的读音权重；

根据所得到的读音概率和读音权重，得到置信度。

本实施例中，读音预判模块202具体用于：

在一可实施方式中，预判结果展示模块203，具体用于：

判断置信度是否低于置信阈值；

本实施例中，预判结果展示模块203在执行判定置信度低于置信阈值，则展示多音字和对应的读音，并指示用户确定对应多音字的读音的过程中，具体用于：

在一可实施方式中，预判结果展示模块203在指示用户确定对应多音字的读音的过程中，具体用于：

指示用户对待修正的多音字设置包含预设读音的读音标签；

相应的，读音标注模块204在将多音字标注为用户所确定的读音的过程中，具体用于：

提取读音标签中的预设读音；

将多音字标注为预设读音。

本实施例中，用户在标注读音的过程为：

若用户设置了读音标签，相应的，读音标注模块204在将多音字标注为用户所确定的读音的过程中，具体用于：

本发明另一方面提供一种计算机可读存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行多音字标注方法。

在本发明实施例中计算机可读存储介质包括一组计算机可执行指令，当指令被执行时用于，获取多音字；对所获取的多音字进行读音预判，得到对应于多音字的读音和置信度；根据所得到的置信度，展示多音字和对应的读音，并指示用户确定对应多音字的读音；根据所确定的读音，确定是否将多音字标注为用户所确定的读音。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种多音字标注方法，其特征在于，所述方法包括：

获取多音字；

对所获取的多音字进行读音预判，得到对应于所述多音字的读音和置信度；

根据所得到的置信度，展示所述多音字和对应的读音，并指示用户确定对应所述多音字的读音；

根据所确定的读音，确定是否将所述多音字标注为用户所确定的读音。

2.根据权利要求1所述的方法，其特征在于，所述获取多音字，包括：

获取文本信息；

对所述文本信息进行分词处理，得到若干个分词；

利用多音字列表，从所得到的若干个分词中提取多音字。

3.根据权利要求1所述的方法，其特征在于，所述对所获取的多音字进行读音预判，得到对应于所述多音字的读音和置信度，包括：

将所述多音字作为预测模型的输入，得到多个对应于所述多音字的读音和读音概率；

从歧义规则词库中获取对应于所述多音字的读音权重；

根据所得到的读音概率和读音权重，得到置信度。

4.根据权利要求1所述的方法，其特征在于，所述根据所得到的置信度，展示所述多音字和对应的读音，并指示用户确定对应所述多音字的读音，包括：

判断所述置信度是否低于置信阈值；

若判定所述置信度低于所述置信阈值，则展示所述多音字和对应的读音，并指示用户确定对应所述多音字的读音。

5.根据权利要求1或4所述的方法，其特征在于，所述指示用户确定对应所述多音字的读音，包括：

指示用户对待修正的多音字设置包含预设读音的读音标签；

相应的，所述将所述多音字标注为用户所确定的读音，包括：

提取所述读音标签中的预设读音；

将所述多音字标注为所述预设读音。

6.一种多音字标注装置，其特征在于，所述装置包括：

多音字获取模块，用于获取多音字；

读音预判模块，用于对所获取的多音字进行读音预判，得到对应于所述多音字的读音和置信度；

预判结果展示模块，用于根据所得到的置信度，展示所述多音字和对应的读音，并指示用户确定对应所述多音字的读音；

读音标注模块，用于根据所确定的读音，确定是否将所述多音字标注为用户所确定的读音。

7.根据权利要求6所述的装置，其特征在于，所述读音预判模块，具体用于：

从歧义规则词库中获取对应于所述多音字的读音权重；

根据所得到的读音概率和读音权重，得到置信度。

8.根据权利要求6所述的装置，其特征在于，所述预判结果展示模块，具体用于：

判断所述置信度是否低于置信阈值；

9.根据权利要求6或8所述的装置，其特征在于，所述预判结果展示模块在指示用户确定对应所述多音字的读音的过程中，具体用于：

指示用户对待修正的多音字设置包含预设读音的读音标签；

相应的，所述读音标注模块在将所述多音字标注为用户所确定的读音的过程中，具体用于：

提取所述读音标签中的预设读音；

将所述多音字标注为所述预设读音。

10.一种计算机可读存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1-5任一项所述的一种多音字标注方法。