CN111128186B

CN111128186B - 多音字标音方法及装置

Info

Publication number: CN111128186B
Application number: CN201911398661.3A
Authority: CN
Inventors: 王鸣
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2022-06-17
Anticipated expiration: 2039-12-30
Also published as: CN111128186A

Abstract

本发明是关于多音字标音方法及装置。该方法包括：获取语音交互信息；识别所述语音交互信息，获得语音识别结果；基于所述语音识别结果，得到语音反馈信息；确定所述语音反馈信息中的待注音词汇；利用预设声学模型对所述待标音词汇进行标音。通过本发明的技术方案，可利用该预设声学模型对该待标音词汇自动进行标音，以提高标音效率和准确率，避免人为标注发音。

Description

多音字标音方法及装置

技术领域

本发明涉及终端技术领域，尤其涉及多音字标音方法及装置。

背景技术

目前，在对多音字进行标注时，通常都是按照预先设置的规则从多音字的多个发音中选择一个发音进行标注，甚至是手动对多音字的发音进行标注，以确保多音字的发音是正确的，而这种标音方式准确率比较低，甚至需要过多人为操作。

发明内容

本发明实施例提供了多音字标音方法及装置。所述技术方案如下：

根据本发明实施例的第一方面，提供一种多音字标音方法，包括：

获取语音交互信息；

识别所述语音交互信息，获得语音识别结果；

基于所述语音识别结果，得到语音反馈信息；

确定所述语音反馈信息中的待注音词汇；

利用预设声学模型对所述待标音词汇进行标音。

在一个实施例中，所述方法还包括：

获取预设语言模型和预设注音词典；

利用所述预设语言模型和所述预设注音词典，对标音后的所述待标音词汇进行注音校正。

在一个实施例中，将注音校正后的所述待标音词汇加入所述预设注音词典，以更新所述预设注音词典。

在一个实施例中，所述确定所述语音反馈信息中的待注音词汇，包括：

确定所述语音反馈信息中的多个实体；

根据所述多个实体中各实体是否为多音字，确定所述待标音词汇；

所述利用预设声学模型对所述待标音词汇进行标音，包括：

当所述语音交互信息包括所述待标音词汇时，基于所述语音交互信息中所述待标音词汇的发音、所述语音交互信息中除所述待标音词汇之外的其他词汇的发音以及所述预设声学模型，对所述语音反馈信息中的待标音词汇进行标音；

所述方法还包括：

将对所述待标音词汇进行标音后的语音反馈信息进行播报。

根据本发明实施例的第二方面，提供一种多音字标音装置，包括：

第一获取模块，用于获取语音交互信息；

识别模块，用于识别所述语音交互信息，获得语音识别结果；

处理模块，用于基于所述语音识别结果，得到语音反馈信息；

确定模块，用于确定所述语音反馈信息中的待注音词汇；

标音模块，用于利用预设声学模型对所述待标音词汇进行标音。

在一个实施例中，所述装置还包括：

第二获取模块，用于获取预设语言模型和预设注音词典；

校正模块，用于利用所述预设语言模型和所述预设注音词典，对标音后的所述待标音词汇进行注音校正。

在一个实施例中，更新模块，用于将注音校正后的所述待标音词汇加入所述预设注音词典，以更新所述预设注音词典。

在一个实施例中，所述确定模块包括：

第一确定子模块，用于确定所述语音反馈信息中的多个实体；

第二确定子模块，用于根据所述多个实体中各实体是否为多音字，确定所述待标音词汇；

所述标音模块包括：

标音子模块，用于当所述语音交互信息包括所述待标音词汇时，基于所述语音交互信息中所述待标音词汇的发音、所述语音交互信息中除所述待标音词汇之外的其他词汇的发音以及所述预设声学模型，对所述语音反馈信息中的待标音词汇进行标音；

所述装置还包括：

播报模块，用于将对所述待标音词汇进行标音后的语音反馈信息进行播报。

本发明的实施例提供的技术方案可以包括以下有益效果：

在获得语音交互信息后，可识别该语音交互信息以获得语音识别结果，然后自动确定语音识别结果中的待标音词汇，从而利用该预设声学模型对该待标音词汇自动进行标音，以提高标音效率和准确率，避免人为标注发音。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种多音字标音方法的流程图。

图2是根据一示例性实施例示出的一种多音字标音装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

为了解决上述技术问题，本发明实施例提供了一种多音字标音方法，该方法可用于多音字标音程序、系统或装置中，且该方法对应的执行主体可以是终端或服务器，如图1所示，该方法包括步骤S101至步骤S105：

在步骤S101中，获取语音交互信息；

在步骤S102中，识别所述语音交互信息，获得语音识别结果；

在步骤S103中，基于所述语音识别结果，得到语音反馈信息；

语音反馈信息是执行主体根据语音识别结果反馈的交互信息。

在步骤S104中，确定所述语音反馈信息中的待注音词汇；

在步骤S105中，利用预设声学模型对所述待标音词汇进行标音(即对待标音词汇的发音、音调进行标注，如将待注音词汇“剥”标音为bo或bao)。

在获得语音交互信息后，可识别该语音交互信息以获得语音识别结果，然后基于所述语音识别结果，得到语音反馈信息，从而自动确定语音反馈信息中的待标音词汇，利用该预设声学模型在人机交互过程中对该待标音词汇自动进行标音，以提高标音效率和准确率，避免人为标注发音。

在一个实施例中，所述方法还包括：

获取预设语言模型和预设注音词典；

在对所述待标音词汇初次进行标音之后，可利用预设语言模型和所述预设注音词典，对标音后的所述待标音词汇进行注音校正，以进一步提高待标音词汇的标音正确率，即能够更加准确地标注待标音词汇的发音。

通过将注音校正后的所述待标音词汇添加至所述预设注音词典，可自动更新所述预设注音词典，以确保注音词典中的多音字在动态变化中不断保持最新发音。

在一个实施例中，所述确定所述语音识别结果中的待注音词汇，包括：

确定所述语音反馈信息中的多个实体；实体为语音反馈信息中的人名、公司名、建筑名、小区名等，如实体可以是“打电话给李重”“导航到莘松小区”。

所述利用预设声学模型对所述待标音词汇进行标音，包括：

所述方法还包括：

将对所述待标音词汇进行标音后的语音反馈信息进行播报。

在确定语音识别结果中的多个实体后，可确定各实体是否存在多音字，若存在，则将语音识别结果中的多音字或多音词自动确定为待标音词汇，然后基于语音交互信息中待标音词汇的发音、语音交互信息中除待标音词汇之外的其他词汇的发音(也即语音交互信息中除待标音词汇之外的上下文信息的发音)以及预设声学模型，对语音反馈信息中的待标音词汇进行标音，以便对结合用户对待标音词汇的发音、上下文发音以及声学模型对语音反馈信息中待标音词汇进行标音，以提高标音准确率，进而将准确标音的语音反馈信息进行播报。

最后，需要明确的是：本领域技术人员可根据实际需求，将上述多个实施例进行自由组合。

对应本发明实施例提供的上述多音字标音方法，本发明实施例还提供一种多音字标音装置，如图2所示，该装置包括：

第一获取模块201，用于获取语音交互信息；

识别模块202，用于识别所述语音交互信息，获得语音识别结果；

处理模块203，用于基于所述语音识别结果，得到语音反馈信息；

确定模块204，用于确定所述语音反馈信息中的待注音词汇；

标音模块205，用于利用预设声学模型对所述待标音词汇进行标音。

在一个实施例中，所述装置还包括：

第二获取模块，用于获取预设语言模型和预设注音词典；

在一个实施例中，所述确定模块包括：

所述标音模块包括：

所述装置还包括：

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种多音字标音方法，其特征在于，包括：

获取语音交互信息；

识别所述语音交互信息，获得语音识别结果；

基于所述语音识别结果，得到语音反馈信息；

确定所述语音反馈信息中的待标音词汇；

利用预设声学模型对所述待标音词汇进行标音

获取预设语言模型和预设注音词典；

利用所述预设语言模型和所述预设注音词典，对标音后的所述待标音词汇进行注音校正；

将注音校正后的所述待标音词汇加入所述预设注音词典，以更新所述预设注音词典。

2.根据权利要求1中任一项所述的方法，其特征在于，

所述确定所述语音反馈信息中的待标音词汇，包括：

确定所述语音反馈信息中的多个实体；

所述利用预设声学模型对所述待标音词汇进行标音，包括：

所述方法还包括：

将对所述待标音词汇进行标音后的语音反馈信息进行播报。

3.一种多音字标音装置，其特征在于，包括：

第一获取模块，用于获取语音交互信息；

确定模块，用于确定所述语音反馈信息中的待标音词汇；

标音模块，用于利用预设声学模型对所述待标音词汇进行标音；

第二获取模块，用于获取预设语言模型和预设注音词典；

校正模块，用于利用所述预设语言模型和所述预设注音词典，对标音后的所述待标音词汇进行注音校正；

更新模块，用于将注音校正后的所述待标音词汇加入所述预设注音词典，以更新所述预设注音词典。

4.根据权利要求3中任一项所述的装置，其特征在于，

所述确定模块包括：

所述标音模块包括：

所述装置还包括：