CN110909879A

CN110909879A - 自回归神经网络消歧模型、训练及使用方法、装置、系统

Info

Publication number: CN110909879A
Application number: CN201911251486.5A
Authority: CN
Inventors: 张晴晴; 张雪璐; 杨金富; 罗磊; 马光谦; 汪洋
Original assignee: Beijing Aishu Intelligence Technology Co Ltd
Current assignee: Beijing Aishu Intelligence Technology Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-03-24

Abstract

本发明公开了一种自回归神经网络消歧模型、训练及使用方法、装置、系统，属于语音通信技术领域。该自回归神经网络消歧模型训练方法包括获取训练数据集和训练模型，将训练文本输入模型后，模型对输出的发音序列进行自回归，直至得到自回归神经网络消歧模型。采用此模型对多音字进行发音预测时，将包含了多音字的文本输入自回归神经网络消歧模型，模型直接输出该文本的发音序列。本发明减少了模型所需训练数据的数量和模型整体的参数数量，简化了消歧流程，解决了变调现象产生的多音字发音无法通过语义和词性等非语音信息进行有效预测的问题。

Description

自回归神经网络消歧模型、训练及使用方法、装置、系统

技术领域

本发明涉及语音通信技术领域，特别是一种自回归神经网络消歧模型训练方法、模型及其应用。

背景技术

多音字消歧技术常用于发音词典制作、语音合成（Text-To-Speech, TTS）等涉及字音转换的技术领域。由于这些领域都涉及到将文本转换为相应的发音序列，因此发音序列的准确度会对模型输出有明显影响。世界上多数语言中都存在多音字/词（即同文不同音），而在中国部分方言中，多音字现象更加广泛。对多音字/词的发音预测成为了不可避免的技术挑战。

确定一个多音字的发音需要考虑相关变量的影响，同时也需要建立合适的消歧模型。根据现有相关科技文献，从相关变量（特征）的角度讲，模型的输入文本包含的语义和词性信息被普遍认为是多音字消歧中最关键的变量。从消歧模型的角度讲，使用较多的模型有基于规则的生成模型、基于统计的概率模型、深度神经网络模型等。

而在中国的普通话及多数方言中存在多种语调，因而多音字的发音常受变调影响。在变调情况下，多音字的发音受该字的语义和词性信息影响较小，而更多地受上下文发音影响。例如普通话中的“不”，在“不是”中读bú, 而在“不行”中读bù；长沙话中的“虾”，在“虾仁”中读xiā，而在“虾子”中读hā。这类多音字仅凭从输入文本提取的语义、词性、长度、位置等特征信息难以判断其发音，而若通过发音概率统计来预测其发音，则需要大量的训练数据。

发明内容

本发明主要解决的技术问题是提供一种自回归神经网络消歧模型训练方法、模型及其应用，建立通用于某种方言的多音字消歧模型，减少模型参数和训练模型所需数据的数量。

为了实现上述目的，本发明采用的第一个技术方案是：一种自回归神经网络消歧模型的训练方法，其特征在于包括：

获取训练数据集步骤，其获取第一文本及第一发音序列，将所述第一文本及所述第一发音序列整理得到所述训练数据集，所述第一发音序列与所述第一文本相互对应，所述第一文本包含有多音字；

训练模型步骤，其将所述第一文本输入神经网络模型，所述神经网络模型输出第二发音序列，将所述第二发音序列输入所述神经网络模型进行自回归，直至所述神经网络模型输出所述第一发音序列，得到所述自回归神经网络消歧模型。

优选的，在所述第二发音序列自回归过程中，将所述神经网络模型的输出与所述第一发音序列一同输入损失函数，从而将所述损失函数的数值在所述神经网络模型中进行反向传播，此为迭代一次，重复所述迭代一次的过程直至损失函数值收敛。

本发明采用的第二个技术方案是：一种自回归神经网络消歧模型，其特征在于，包括：

训练数据集获取模块，其获取第一文本及第一发音序列，并将所述第一文本及所述第一发音序列整理得到所述训练数据集，所述第一发音序列与所述第一文本相互对应，所述第一文本包含有多音字；

训练模块，其将所述第一文本输入神经网络模型，所述神经网络模型输出第二发音序列，将所述第二发音序列输入所述神经网络模型进行自回归，直至所述神经网络模型输出所述第一发音序列，得到所述自回归神经网络消歧模型。

优选的，所述第二发音序列自回归时，所述神经网络模型的输出与所述第一发音序列一同输入损失函数，从而将所述损失函数的数值在所述神经网络模型中进行反向传播，此为迭代一次，重复所述迭代一次的过程直至损失函数值收敛。

本发明采用的第三个技术方案是：一种使用自回归神经网络消歧模型进行多音字消歧的方法，其特征在于，包括：

获取第三文本，所述第三文本包含有多音字；以及

使用自回归神经网络消歧模型对所述第三文本进行发音预测，得到第三发音序列。

本发明采用的第四个技术方案是：一种使用自回归神经网络消歧模型进行多音字消歧的装置，其特征在于，包括：

构建模块，用于构建所述自回归神经网络消歧模型；

获取模块，其获取第三文本，所述第三文本包含有多音字；

预测模块，其使用所述自回归神经网络消歧模型对所述第三文本进行发音预测，得到第三发音序列。

本发明采用的第五个技术方案是：一种使用自回归神经网络消歧模型进行多音字消歧的计算机系统，其特征在于，包括：

输入装置，其传输包含多音字的文本；

处理器，其与所述输入装置连接，使用所述自回归神经网络消歧模型对所述包含多音字的文本进行发音预测，得到所述文本的发音序列；

输出装置，其与所述处理器连接，用于显示或播放所述发音序列。

本发明的有益效果：

本发明通过自回归方式训练得到自回归神经网络消歧模型，并利用其进行多音字发音预测，充分利用输入文本和当前已输出发音序列，有效减少了模型所需训练数据的数量和模型本身的参数数量。

本发明采用端到端模型，将特征提取步骤内化在模型内部，特征提取的算法将由模型自动习得，简化了消歧流程。

本发明充分利用了上下文的语音信息，解决了变调现象产生的多音字发音无法通过语义和词性等非语音信息进行有效预测的问题，同时对非变调现象产生的多音字发音依然能够有效预测。

附图说明

图1是本发明一种自回归神经网络消歧模型训练方法的流程图；

图2是本发明一种自回归神经网络消歧模型示意图；

图3是本发明一种使用自回归神经网络消歧模型进行多音字消歧的方法的流程图；

图4是本发明一种使用自回归神经网络消歧模型进行多音字消歧的装置示意图；

图5是本发明一种使用自回归神经网络消歧模型进行多音字消歧的计算机系统结构示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

需要说明的是，本申请权利要求书和说明书中的术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

图1所示为本发明一种自回归神经网络消歧模型训练方法，主要包括如下步骤：

获取训练数据集，搜集和整理含有多音字的文本（例如“胶水不粘了，书页粘不紧”）及此文本对应的发音序列（例如“jiāo shuǐ bù nián le, shū yè zhān bù jǐn”），将含有多音字的文本及其发音序列作为样本，每一个样本作为一个训练数据，将采集到的所有样本整理为一个训练数据集；

选择模型进行训练，为了简化多音字消歧的步骤，本发明模型将端到端神经网络模型和自回归模型整合后形成了自回归神经网络消歧模型。此模型包含多个神经层的集合，神经层类型包含深度神经网络（DNN）、单向或双向循环神经网络（RNN）、归一化层、注意力（Attention）机制等。模型训练使用的损失函数包括交叉熵（Cross Entuopy）、均方误差（Mean Squared Error）、Focal Loss等。

将训练数据集中的文本（例如“胶水不粘了，书页粘不紧”）输入神经网络模型，此神经网络模型输出该文本的发音序列，将该文本的发音序列输入神经网络模型进行自回归。将模型的输出与训练数据集中的发音序列一同输入损失函数，再将损失函数的数值在模型中进行反向传播，此为迭代一次。按照这种方式，迭代多次，直至损失函数值收敛，模型输出文本对应的发音序列（例如“jiāo shuǐ bù nián le, shū yè zhān bù jǐn”），从而得到自回归神经网络消歧模型。

在自回归神经网络消歧模型训练过程中，神经网络模型输出文本的发音序列和此文本的真实发音序列（例如“jiāo shuǐ bù nián le, shū yè zhān bù jǐn”）可能存在差别。当自回归神经网络消歧模型训练完成后，其输出文本的发音序列即为文本的真实发音序列（例如“jiāo shuǐ bù nián le, shū yè zhān bù jǐn”）。

经过样本训练构建的自回归神经网络消歧模型仅需要输入含有多音字的文本，即可输出该文本对应的发音序列。不再需要设计多个模块的结构和算法，从而简化了多音字消歧的流程，降低了多音字消歧的复杂度。

图2所示为本发明一种自回归神经网络消歧模型结构，主要包括训练数据集获取模块和训练模块。训练数据集获取模块主要是获取含有多音字的文本（例如“胶水不粘了，书页粘不紧”）及该文本对应的发音序列（例如“jiāo shuǐ bù nián le, shū yè zhān bùjǐn”）。并将获取的文本及对应的发音序列作为样本，整理成训练模型用的数据集。训练模块主要将训练数据集模块中的文本输入模型，模型内部自动进行特征向量（比如语义特征、词性特征、上下文发音特征和位置特征）提取，输出文本的发音序列，然后将此发音序列重新输入自回归神经网络消歧模型进行自回归，将模型的输出与训练数据集中的发音序列一同输入损失函数，再将损失函数的数值在模型中进行反向传播，此为迭代一次。按照这种方式，迭代多次，直至损失函数值收敛，模型输出文本的真实发音序列（例如“jiāo shuǐ bùnián le, shū yè zhān bù jǐn”），得到自回归神经网络消歧模型。

图3所示为本发明一种使用自回归神经网络消歧模型进行多音字消歧的方法，主要包括如下步骤：

获取包含多音字的文本（例如“名称和实物要相称”），并将其作为需要消歧的样本；

将整理好的文本样本输入自回归神经网络消歧模型，模型自动提取文本样品的特征并以自回归的方式进行发音预测，模型输出文本对应的发音序列（例如“míng chēng hé shíwù yào xiāng chèn”）。

其中，模型提取的文本样品的特征值包括已预测发音序列中的发音序列（例如“jiāo shuǐ bù nián le, shū yè zhān bù jǐn”）特征向量、多音字的文本（例如“名称和实物要相称”）中的字/词向量、文本中其它有价值的特征向量。

图4所示为本发明一种使用自回归神经网络消歧模型进行多音字消歧的装置，主要包括构建模块、获取模块及预测模块。

构建模块主要作用是构建自回归神经网络消歧模型。

获取模块主要作用是获取含有多音字的文本，该文本中的多音字发音未确定，需要进行消歧处理。

预测模块，将获取模块中的文本样本输入自回归神经网络模型，模型自动把已经完成预测并输出的发音序列再次输入模型，模型在输入端自动提取包括文本特征的信息。模型内部采用自回归的方式对文本样本进行发音预测。模型在输出端输出文本样本对应的发音序列。

图5所示为本发明一种使用自回归神经网络消歧模型进行多音字消歧的计算机系统，主要包括输入装置、处理器及输出装置。

输入装置可以采用手机、平板电脑、鼠标、键盘等，输入包含多音字的文本从而将该文本传输至处理器；

处理器接收输入装置传输的文本，利用自回归神经网络消歧模型对包含多音字的文本进行发音预测，得到该文本的发音序列。并将此发音序列传输至输出装置；

输出装置采用字幕显示或语音播报的形式输出此发音序列。该输出装置可以采用显示器、显示屏、扬声器、麦克风等。

本发明将自回归模型和端到端神经网络模型进行了整合，充分利用输入文本和已完成预测并输出的发音序列，有效减少了模型所需训练数据的数量和模型本身的参数数量。同时将特征提取步骤内化在模型内部，特征提取的算法将由模型自动习得，简化了消歧流程。

含有多音字的文本经过本发明预测后直接输出相应的发音序列，充分利用了上下文的语音信息，解决了变调现象产生的多音字发音无法通过语义和词性等非语音信息进行有效预测的问题，同时对非变调现象产生的多音字发音依然能够有效预测。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种自回归神经网络消歧模型的训练方法，其特征在于包括：

2.如权利要求1所述的自回归神经网络消歧模型的训练方法，其特征在于，在所述第二发音序列自回归过程中，将所述神经网络模型的输出与所述第一发音序列一同输入损失函数，从而将所述损失函数的数值在所述神经网络模型中进行反向传播，此为迭代一次，重复所述迭代一次的过程直至损失函数值收敛。

3.一种自回归神经网络消歧模型，其特征在于，包括：

4.如权利要求3所述的自回归神经网络消歧模型，其特征在于，

所述第二发音序列自回归时，所述神经网络模型的输出与所述第一发音序列一同输入损失函数，从而将所述损失函数的数值在所述神经网络模型中进行反向传播，此为迭代一次，重复所述迭代一次的过程直至损失函数值收敛。

5.一种使用权利要求3或4所述的自回归神经网络消歧模型进行多音字消歧的方法，其特征在于，包括：

获取第三文本，所述第三文本包含有多音字；以及

使用所述自回归神经网络消歧模型对所述第三文本进行发音预测，得到第三发音序列。

6.一种使用权利要求3或4所述的自回归神经网络消歧模型进行多音字消歧的装置，其特征在于，包括：

构建模块，用于构建所述自回归神经网络消歧模型；

获取模块，其获取第三文本，所述第三文本包含有多音字；

7.一种使用权利要求3或4所述的自回归神经网络消歧模型进行多音字消歧的计算机系统，其特征在于，包括：

输入装置，其传输包含多音字的文本；