CN113204959A

CN113204959A - 一种多音字消歧方法、装置、电子设备和存储介质

Info

Publication number: CN113204959A
Application number: CN202110616944.1A
Authority: CN
Inventors: 吴朗; 孙见青; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-08-03

Abstract

本发明涉及一种多音字消歧方法、装置、电子设备和存储介质，该方法包括：通过获取多个文本和多个文本对应的音频；训练多个文本和文本对应的音频得到声学模型；将待确定拼音的文本的字序列输入到声学模型中得到第一拼音序列；对第一拼音序列进行降噪得到第二拼音序列，第二拼音序列中包括待确定拼音的文本的拼音。本申请通过训练多个文本和文本对应的音频得到声学模型，将待确定拼音的文本的字序列输入到声学模型中得到第一拼音序列，上述得到第一拼音序列的步骤，只能机械依赖声学模型，存在一定的噪声，得到的第一拼音序列鲁棒性低，本申请对第一拼音序列进行降噪处理得到第二拼音序列，从而确定拼音，提高了待确定文本对应的拼音序列的鲁棒性。

Description

一种多音字消歧方法、装置、电子设备和存储介质

技术领域

本发明涉及多音字技术领域，具体涉及一种多音字消歧方法、装置、电子设备和存储介质。

背景技术

目前，多音字消歧一般有两种方法：一是基于语法规则方法，由语言专家总结出多音字发音规则，再将这些规则制作成一个计算机可以理解的知识库。计算机会根据规则逐条进行条件匹配，来判决多音字的拼音。二是基于数据驱动方法，人工制作充足的带拼音的文本数据，然后利用该数据训练多音字消歧模型。模型训练一般分为两种方法：一是传统机器学习方法，例如决策树，条件随机场等；二是深度学习方法。

上述方法一依赖语言专家先验知识，另外当多音字发音规则增加时，极易产生规则冲突。上述方法二依赖人工精标多音字数据，其中传统机器学习方法还依赖所选取的语法特征，例如分词和词性等；深度学习方法虽然对特征选取要求不高，但是对数据量规模要求较高。上述两种方法对不平衡分布多音字消歧性能一般，不平衡分布多音字是指某个多音字，某种常见的发音占95％以上，导致该多音字另一种发音的数据缺乏。

发明内容

本发明提供一种多音字消歧方法、装置、电子设备和存储介质，能够解决上述误操作的技术问题。

本发明解决上述技术问题的技术方案如下：

第一方面，本发明实施例提供一种多音字消歧方法，包括：

获取多个文本和多个文本对应的音频；

训练多个文本和文本对应的音频得到声学模型；

将所述待确定拼音的文本的字序列输入到声学模型中得到第一拼音序列；

对第一拼音序列进行降噪得到第二拼音序列，第二拼音序列中包括待确定拼音的文本的拼音。

在一些实施例中，上述方法中对所述第一拼音序列进行降噪得到第二拼音序列，包括：

训练拼音语言模型；

根据所述拼音语言模型对所述第一拼音序列进行重排列得到第二拼音序列；

所述第二拼音序列中概率最高的序列是待确定拼音的文本的拼音。

在一些实施例中，上述方法中训练拼音语言模型，包括：

获取多个拼音序列；

训练所述多个序列得到所述拼音语言模型。

在一些实施例中，上述方法中训练拼音语言模型采用Transformer网络结构。

第二方面，本发明实施例还提供了一种多音字消歧装置，包括：

获取模块：用于获取多个文本和多个文本对应的音频；

训练模块：用于训练多个文本和文本对应的音频得到声学模型；

输入模块：用于将待确定拼音的文本的字序列输入到声学模型中得到第一拼音序列；

降噪模块：用于对第一拼音序列进行降噪得到第二拼音序列，第二拼音序列中包括待确定拼音的文本的拼音。

在一些实施例中，降噪模块还用于：训练拼音语言模型；

根据拼音语言模型对第一拼音序列进行重排列第二拼音序列；

在一些实施例中，上述装置中的训练拼音语言模型，包括：

获取多个拼音序列；

训练多个序列得到所述拼音语言模型。

在一些实施例中，上述装置中训练拼音语言模型采用Transformer网络结构。

第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如上所述任一项所述一种多音字消歧方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如上所述任一项所述一种多音字消歧方法。

本发明的有益效果是：通过获取多个文本和多个文本对应的音频；训练多个文本和文本对应的音频得到声学模型；将待确定拼音的文本的字序列输入到声学模型中得到第一拼音序列；对第一拼音序列进行降噪得到第二拼音序列，第二拼音序列中包括待确定拼音的文本的拼音。本申请实施例中通过训练多个文本和文本对应的音频得到声学模型，将待确定拼音的文本的字序列输入到声学模型中得到第一拼音序列，将字序列输入到声学模型中得到第一拼音序列，只能机械依赖声学模型，声学模型提供的信息存在一定的噪声，得到的第一拼音序列鲁棒性低，本申请对第一拼音序列进行降噪处理得到第二拼音序列，从而确定拼音，达到了数据降噪的作用，提高了待确定文本对应的拼音序列的鲁棒性，并且不依赖人工标注多音字数据和语言先验知识，也避免了不同标注人员之间的不一致问题。

附图说明

图1为本发明实施例提供的一种多音字消歧方法图一；

图2为本发明实施例提供的一种多音字消歧方法图二；

图3为本发明实施例提供的一种多音字消歧方法图三；

图4为本发明实施例提供的一种多音字消歧装置图；

图5为本发明实施例提供的一种电子设备的示意性框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本申请的限定。基于所描述的本申请的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图1为本发明实施例提供的一种多音字消歧方法图一。

第一方面，结合图1，本发明实施例提供一种多音字消歧方法，包括S101、S102、S103和S104四个步骤：

S101：获取多个文本和多个文本对应的音频。

具体的，本申请实施例中获取可以从语音识别数据库中获取；语音识别数据库是指多个文本和多个文本对应的音频，录音文本内容覆盖多种应用场景，并考虑录音人的性别比例，不同区域，各个年龄段，以及多种录音环境，录音采集设备包括电话，手机，录音笔，麦克风等。

S102：训练多个文本和多个文本对应的音频得到声学模型。

具体的，本申请实施例中通过多个文本和多个文本对应的音频得到语音特征和相对应的拼音序列，将当前帧和当前帧的前后各两帧或前后各三帧的语音特征输入模型中，输出相对应的拼音序列，训练得到声学模型；也称为外部知识库，应理解，输入当前帧的前后各两帧或前后各三帧，也可以是前后各四帧的语音特征，目的是为了考虑上下文环境，使得训练出来的模型更准确。

S103：将待确定拼音的文本的字序列输入到声学模型中得到第一拼音序列。

具体的，本申请实施例中的字序列可以是通过爬取的大规模纯文本转换得到的，例如句子“朝阳银行”字序列的表现形式为[“朝”,“阳”,“银”,“行”]，将待确定拼音的文本的字序列输入到声学模型中得到第一拼音序列。

S104：对第一拼音序列进行降噪得到第二拼音序列，第二拼音序列中包括待确定拼音的文本的拼音。

应理解，将字序列输入到声学模型中得到第一拼音序列，只能机械依赖声学模型，假如声学模型中含有较多的“朝阳(zhao yang)”的例子，例如“朝阳产业”，“朝阳缓缓升起”等，会导致待确定拼音的文本“朝阳银行(chao2 yang2 yin2 hang2)”错误识别成“zhao1yang2 yin2 hang2”概率最高。这主要是由于声学模型包含一定的噪声，导致得到的第一拼音序列鲁棒性低，本申请对第一拼音序列进行降噪处理得到第二拼音序列，第二拼音序列中包括待确定拼音的文本的拼音。达到了数据降噪的作用，提高了待确定文本对应的拼音序列的鲁棒性。并且不依赖人工标注多音字数据和语言先验知识，也避免了不同标注人员之间的不一致问题。

图2为本发明实施例提供的一种多音字消歧方法图二。

在一些实施例中，结合图2，上述方法中对所述第一拼音序列进行降噪得到第二拼音序列，包括S201、S202和S203三个步骤：

S201：训练拼音语言模型。

应理解，本申请中使用Transformer网络结构训练拼音语言模型，可以一次性输入所有字实现并行，且考虑更远的上下文环境。因为第一拼音序列是通过声学模型生成模块生成得到的，导致输出的拼音序列里含有噪声，本申请对其重新校正。本申请中利用一个拼音语言模型来纠正这个错误，在获取“朝阳银行”中“朝”的拼音时，Transformer网络结构训练的拼音语言模型会看到后面的“银行(yin2 hang2)”，考虑上下文环境得到更准确的拼音序列。

S202：根据拼音语言模型对第一拼音序列进行重排列得到第二拼音序列。

具体的，本申请实施例中，例如输入“朝阳银行”，朝：chao2/zhao1，阳：yang2，银：yin2，行：hang2/xing2，声学模型输出得到第一拼音序列，共计2*1*1*2＝4种，即“zhao1yang2 yin2 hang2”,“chao2 yang2 yin2 hang2”，“chao2 yang2 yin2 xing2”，“zhao1yang2 yin2 xing2”，输出得到的4个拼音序列都有各自的概率值，当前概率最高的是“zhao1 yang2 yin2 hang2”，根据拼音语言模型重新排列，使得“chao2 yang2 yin2hang2”概率最高。

S203：第二拼音序列中概率最高的序列是待确定拼音的文本的拼音。

具体的，本申请实施例中，概率值越高越接近正确的输出。确定上述4个结果的概率中概率最高的序列为待确定拼音的文本的拼音如“chao2 yang2 yin2 hang2”为最终拼音序列。

图3为本发明实施例提供的一种多音字消歧方法图三。

在一些实施例中，上述方法中训练拼音语言模型，包括S301和S302两个步骤：

S301：获取多个拼音序列。

S302：训练所述多个序列得到所述拼音语言模型。

具体的，多个拼音序列从语音识别数据库中获取，使用Transformer网络结构训练拼音语言模型，考虑更远的上下文环境，得到的拼音序列准确率更高。

图4为本发明实施例提供的一种多音字消歧装置图。

获取模块401：用于获取多个文本和多个文本对应的音频。

具体的，本申请实施例中获取模块401可以从语音识别数据库中获取；语音识别数据库是指多个文本和多个文本对应的音频，录音文本内容覆盖多种应用场景，并考虑录音人的性别比例，不同区域，各个年龄段，以及多种录音环境，录音采集设备包括电话，手机，录音笔，麦克风等。

训练模块402：用于训练多个文本和文本对应的音频得到声学模型。

具体的，本申请实施例中通过多个文本和多个文本对应的音频得到语音特征和相对应的拼音序列，将当前帧和当前帧的前后各两帧或前后各三帧的语音特征输入模型中，输出相对应的拼音序列，训练模块402训练得到声学模型；也称为外部知识库，应理解，输入当前帧的前后各两帧或前后各三帧，也可以是前后各四帧的语音特征，目的是为了考虑上下文环境，使得训练出来的模型更准确。

输入模块403：用于将待确定拼音的文本的字序列输入到声学模型中得到第一拼音序列。

具体的，本申请实施例中的字可以是通过爬取的大规模纯文本转换得到的，例如句子“朝阳银行”字序列的表现形式为[“朝”,“阳”,“银”,“行”]，输入模块403将待确定拼音的文本的字序列输入到声学模型中得到第一拼音序列。

降噪模块404：用于对第一拼音序列进行降噪得到第二拼音序列，第二拼音序列中包括待确定拼音的文本的拼音。

应理解，将字序列输入到声学模型中得到第一拼音序列，只能机械依赖声学模型，声学模型提供的信息存在一定的噪声，得到的第一拼音序列鲁棒性低，本申请降噪模块404对第一拼音序列进行降噪处理得到第二拼音序列，达到了数据降噪的作用，提高了待确定文本对应的拼音序列的鲁棒性。并且不依赖人工标注多音字数据和语言先验知识，也避免了不同标注人员之间的不一致问题。

在一些实施例中，降噪模块404还用于：

训练拼音语言模型。

应理解，本申请中使用Transformer网络结构训练拼音语言模型，可以一次性输入所有字实现并行，且考虑更远的上下文环境。因为第一拼音序列是通过声学模型生成模块生成得到的，导致输出的拼音序列里含有噪声，本申请对其重新校正。本申请中利用一个语言模型来纠正这个错误，在获取“朝阳银行”中“朝”的拼音时，Transformer网络结构训练的语言模型会看到朝阳银行后面的“银行(yin2 hang2)”，考虑上下文环境得到更准确的拼音。

根据拼音语言模型对第一拼音序列进行重排列得到第二拼音序列。

第二拼音序列中概率最高的序列是待确定拼音的文本的拼音。具体的，本申请实施例中，概率值越高越接近正确的输出。确定上述4个结果的概率中概率最高的序列为待确定拼音的文本的拼音如“chao2 yang2 yin2 hang2”为最终拼音序列。

在一些实施例中，上述装置中的训练拼音语言模型，包括：

获取多个拼音序列；

训练多个序列得到所述拼音语言模型。

具体的，多个拼音序列来自语音识别数据库中的拼音序列，使用Transformer网络结构训练拼音语言模型，考虑更远的上下文环境，准确率更高。

图5是本公开实施例提供的一种电子设备的示意性框图。

如图5所示，电子设备包括：至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线系统504耦合在一起。通信接口503，用于与外部设备之间的信息传输。可理解，总线系统304用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图5中将各种总线都标为总线系统504。

可以理解，本实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例提供的一种多音字消歧方法中任一方法的程序可以包含在应用程序中。

在本申请实施例中，处理器501通过调用存储器502存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器501用于执行本申请实施例提供的一种多音字消歧方法各实施例的步骤。

获取多个文本和多个文本对应的音频；

训练多个文本和文本对应的音频得到声学模型；

对第一拼音序列进行降噪得到第二拼音序列，。

本申请实施例提供的一种多音字消歧方法中任一方法可以应用于处理器501中，或者由处理器501实现。处理器501可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器301中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器301可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的一种多音字消歧方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成多音字消歧方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种多音字消歧方法，其特征在于，包括：

获取多个文本和所述多个文本对应的音频；

训练所述多个文本和文本对应的音频得到声学模型；

将所述待确定拼音的文本的字序列输入到所述声学模型中得到第一拼音序列；

对所述第一拼音序列进行降噪得到第二拼音序列，所述第二拼音序列中包括待确定拼音的文本的拼音。

2.根据权利要求1所述的多音字消歧方法，其特征在于，所述对所述第一拼音序列进行降噪得到第二拼音序列，包括：

训练拼音语言模型；

3.根据权利要求2所述的多音字消歧方法，其特征在于，所述训练拼音语言模型，包括：

获取多个拼音序列；

训练所述多个序列得到所述拼音语言模型。

4.根据权利要求3所述的多音字消歧方法，其特征在于，训练所述拼音语言模型采用Transformer网络结构。

采用训练所述多个拼音序列得到拼音语言模型。

5.一种多音字消歧装置，其特征在于，包括：

获取模块：用于获取多个文本和所述多个文本对应的音频；

训练模块：用于训练所述多个文本和文本对应的音频得到声学模型；

输入模块：用于将所述待确定拼音的文本的字序列输入到所述声学模型中得到第一拼音序列；

降噪模块：用于对所述第一拼音序列进行降噪得到第二拼音序列，所述第二拼音序列中包括待确定拼音的文本的拼音。

6.根据权利要求5所述的多音字消歧装置，其特征在于，所述降噪模块还用于：训练拼音语言模型；

7.根据权利要求6所述的多音字消歧装置，其特征在于，所述训练拼音语言模型，包括：

获取多个拼音序列；

训练所述多个序列得到所述拼音语言模型。

8.根据权利要求7所述的多音字消歧装置，其特征在于，训练所述拼音语言模型采用Transformer网络结构。

9.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至4任一项所述一种多音字消歧方法。

10.一种计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至4任一项所述一种多音字消歧方法。