CN110310619A

CN110310619A - 多音字预测方法、装置、设备及计算机可读存储介质

Info

Publication number: CN110310619A
Application number: CN201910407702.4A
Authority: CN
Inventors: 陈闽川; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2019-10-08
Also published as: WO2020228175A1

Abstract

本发明涉及人工智能技术领域，公开了一种多音字预测方法、装置、设备及计算机可读存储介质，多音字预测方法包括：获取包含多音字的训练文本以及所述多音字的原始发音；通过所述训练文本以及所述多音字的原始发音，基于迭代训练的方式对预置多音字预测模型进行训练，得到目标多音字预测模型；获取待转换文本，并检测所述待转换文本中是否存在多音字；若所述待转换文本中存在多音字，则获取所述待转换文本的特征信息；将所述特征信息输入目标多音字预测模型，输出所述多音字在所述待转换文本中的目标发音。通过本发明，根据待转换文本的特征信息，通过目标多音字预测模型预测多音字在待转换文本中的读音，提高了对多音字进行预测的准确度。

Description

多音字预测方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种多音字预测方法、装置、设备及计算机可读存储介质。

背景技术

语音合成，又称文语转换(Text to Speech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

对于汉字而言，汉字中的多音字约有一千个，其中常见多音字约200～300个。由于多音字在不用的语境下发音不同，导致在对包含多音字的汉字语句进行文语转换时，往往无法对多音字进行正确的转换，从而极大的影响了听者对合成声音语义的理解情况。

发明内容

本发明的主要目的在于提供一种多音字预测方法、装置、设备及计算机可读存储介质，旨在解决现有技术中对涉及多音字的汉字语句进行文语转换的准确度较低的技术问题。

为实现上述目的，本发明提供一种多音字预测方法，所述多音字预测方法包括以下步骤：

获取包含多音字的训练文本以及所述多音字的原始发音；

通过所述训练文本以及所述多音字的原始发音，基于迭代训练的方式对预置多音字预测模型进行训练，得到目标多音字预测模型；

获取待转换文本，并检测所述待转换文本中是否存在多音字；

若所述待转换文本中存在多音字，则获取所述待转换文本的特征信息；

将所述特征信息输入目标多音字预测模型，输出所述多音字在所述待转换文本中的目标发音。

可选地，所述获取待转换文本，并检测所述待转换文本中是否存在多音字的步骤包括：

获取待转换文本，并检测所述待转换文本中是否存在归属于预置的多音字字典的目标文字；

若存在归属于预置的多音字字典的目标文字，则确定所述待转换文本中存在多音字。

可选地，所述若所述待转换文本中存在多音字，则获取所述待转换文本的特征信息的步骤包括：

当所述待转换文本中存在多音字时，采用注意力机制并行式获取所述待转换文本的特征信息。

可选地，所述目标多音字预测模型包括编码器和解码器，将所述特征信息输入目标多音字预测模型，输出所述多音字在所述待转换文本中的目标发音的步骤包括：

通过所述编码器对所述特征信息进行编码，得到内容向量；

通过所述解码器对所述内容向量进行解码，输出所述多音字在所述待转换文本中的目标发音。

可选地，所述通过所述训练文本以及所述训练文本对应的原始发音，基于迭代训练的方式对预置多音字预测模型进行训练，得到目标多音字预测模型的步骤包括：

采用注意力机制并行式获取所述训练文本的特征信息；

将所述特征信息输入预置多音字预测模型，得到所述训练文本中多音字的预测结果；

判断所述多音字的预测结果与其对应的原始发音是否一致，并根据判断结果，得到map值；

检测所述map值是否大于或等于预设阈值；

若所述map值大于或等于预设阈值，则以所述预置多音字预测模型作为目标多音字预测模型；

若所述map值小于预设阈值，则对所述预置多音字预测模型进行参数调整，得到新的多音字预测模型；

将所述新的多音字预测模型作为预置多音字预测模型，并执行将所述特征信息输入预置多音字预测模型，得到所述训练文本中每个多音字的预测结果的步骤。

可选地，所述特征信息包括词向量、字向量、词性特征向量中的一种或多种。

此外，为实现上述目的，本发明还提供一种多音字预测装置，所述多音字预测装置包括：

获取模块，用于获取包含多音字的训练文本以及所述多音字的原始发音；

训练模块，用于通过所述训练文本以及所述多音字的原始发音，基于迭代训练的方式对预置多音字预测模型进行训练，得到目标多音字预测模型；

检测模块，用于获取待转换文本，并检测所述待转换文本中是否存在多音字；

特征信息获取模块，用于若所述待转换文本中存在多音字，则获取所述待转换文本的特征信息；

预测模块，用于将所述特征信息输入目标多音字预测模型，输出所述多音字在所述待转换文本中的目标发音。

可选地，所述检测模块包括：

检测单元，用于获取待转换文本，并检测所述待转换文本中是否存在归属于预置的多音字字典的目标文字；

判定单元，用于若存在归属于预置的多音字字典的目标文字，则确定所述待转换文本中存在多音字。

可选地，所述特征信息获取模块包括：

特征信息获取单元，用于当所述待转换文本中存在多音字时，采用注意力机制并行式获取所述待转换文本的特征信息。

可选地，所述预测模块包括：

编码单元，用于通过所述编码器对所述特征信息进行编码，得到内容向量；

预测单元，用于通过所述解码器对所述内容向量进行解码，输出所述多音字在所述待转换文本中的目标发音。

可选地，所述选路模块包括：

获取单元，用于采用注意力机制并行式获取所述训练文本的特征信息；

预测单元，用于将所述特征信息输入预置多音字预测模型，得到所述训练文本中多音字的预测结果；

map值获取单元，用于判断所述多音字的预测结果与其对应的原始发音是否一致，并根据判断结果，得到map值；

数值检测单元，用于检测所述map值是否大于或等于预设阈值；

认定单元，用于若所述map值大于或等于预设阈值，则以所述预置多音字预测模型作为目标多音字预测模型；

调整单元，用于若所述map值小于预设阈值，则对所述预置多音字预测模型进行参数调整，得到新的多音字预测模型；

步骤跳转单元，用于将所述新的多音字预测模型作为预置多音字预测模型，并执行将所述特征信息输入预置多音字预测模型，得到所述训练文本中每个多音字的预测结果的步骤。

此外，为实现上述目的，本发明还提供一种多音字预测设备，所述多音字预测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多音字预测程序，所述多音字预测程序被所述处理器执行时实现如上所述的多音字预测方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有多音字预测程序，所述多音字预测程序被处理器执行时实现如上所述的多音字预测方法的步骤。

本发明中，获取包含多音字的训练文本以及所述多音字的原始发音；通过所述训练文本以及所述多音字的原始发音，基于迭代训练的方式对预置多音字预测模型进行训练，得到目标多音字预测模型；获取待转换文本，并检测所述待转换文本中是否存在多音字；若所述待转换文本中存在多音字，则获取所述待转换文本的特征信息；将所述特征信息输入目标多音字预测模型，输出所述多音字在所述待转换文本中的目标发音。通过本发明，根据待转换文本的特征信息，通过目标多音字预测模型预测多音字在待转换文本中的读音，提高了对多音字进行预测的准确度。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的多音字预测设备结构示意图；

图2为本发明多音字预测方法第一实施例的流程示意图；

图3为本发明多音字预测方法一实施例中序列到序列模型的结果示意图；

图4为本发明多音字预测装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1为本发明实施例方案涉及的硬件运行环境的多音字预测设备结构示意图。

本发明实施例多音字预测设备可以是PC，也可以是智能手机、平板电脑、便携计算机等终端设备。

如图1所示，该多音字预测设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的多音字预测设备结构并不构成对多音字预测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及多音字预测程序。

在图1所示的多音字预测设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的多音字预测程序，并执行以下多音字预测方法的各个实施例的步骤。

参照图2，图2为本发明多音字预测方法第一实施例的流程示意图。

在本发明多音字预测方法第一实施例中，本发明多音字预测方法包括：

步骤S10，获取包含多音字的训练文本以及所述多音字的原始发音；

本实施例中，首先需要对预置多音字预测模型进行训练，从而得到目标多音字预测模型，包括：以一句包含一个或多个多音字的字数在10至15个字的句子(训练文本)以及该多音字在句子中的原始发音(即正确发音)为一组训练数据。为了提高目标多音字预测模型的性能，使用的训练数据可以尽可能多一些，例如获取1000组训练数据。

步骤S20，通过所述训练文本以及所述多音字的原始发音，基于迭代训练的方式对预置多音字预测模型进行训练，得到目标多音字预测模型。

本实施例中，预置多音字预测模型选取序列到序列模型，序列到序列模型是循环神经网络的升级版，其联合了两个循环神经网络。一个神经网络(编码器)负责接收源句子的特征信息；另一个循环神经网络(解码器)负责将句子输出成对应的拼音。本实施例中，选取的序列到序列模型中编码器和解码器的参数值均为初始值。训练过程即调整参数值的过程。

一实施例中，迭代训练的过程为：采用注意力机制并行式获取所述训练文本的特征信息；将所述特征信息输入预置多音字预测模型，得到所述训练文本中多音字的预测结果；判断所述多音字的预测结果与其对应的原始发音是否一致，并根据判断结果，得到map值；检测所述map值是否大于或等于预设阈值；若所述map值大于或等于预设阈值，则以所述预置多音字预测模型作为目标多音字预测模型；若所述map值小于预设阈值，则对所述预置多音字预测模型进行参数调整，得到新的多音字预测模型；将所述新的多音字预测模型作为预置多音字预测模型，并执行将所述特征信息输入预置多音字预测模型，得到所述训练文本中每个多音字的预测结果的步骤。

本实施例中，若用于训练的数据有1000组，其中，训练数据组1为训练文本1以及其中多音字的原始发音1(即训练文本1中的多音字在训练文本1中的正确发音)，训练数据组2为训练文本2以及其中多音字的原始发音2(即训练文本2中的多音字在训练文本2中的正确发音)......训练数据组1000为训练文本1000以及其中多音字的原始发音1000(即训练文本1000中的多音字在训练文本1000中的正确发音)。则分别获取训练文本1～训练文本1000的特征信息，得到特征信息1至特征信息1000。本实施例中，采用注意力机制并行式获取训练文本1～训练文本1000的特征信息，得到特征信息1至特征信息1000。然后，分别将特征信息1至特征信息1000输入预置多音字预测模型，得到特征信息1对应的预测结果1、特征信息2对应的预测结果2......特征信息1000对应的预测结果1000，然后比较预测结果1与原始发音1是否一致、预测结果2与原始发音2是否一致......预测结果1000与原始发音1000是否一致。若一致的情况出现X次，则当前的map值为0.001X。map反映了多音字预测模型的优劣，map越高，说明当前的多音字预测模型的预测结果越准确。本实施例中，为了使得训练得到的目标多音字预测模型更优秀，可设置一较高的阈值，例如90％。若根据上述步骤，计算得到的map值大于或等于90％，则以当前的多音字预测模型作为目标多音字预测模型，否则，对序列到序列模型中编码器(循环神经网络1)和解码器(循环神经网络2)的参数值进行调整(参数调整的实施方式可参考现有技术，神经网络本质上是一个计算流程，在前端接收输入信号后，经过一层层复杂的运算，在最末端输出结果。然后将计算结果和正确结果相比较，得到误差，再根据误差通过相应计算方法改进网络内部的相关参数，使得网络下次再接收到同样的数据时，最终计算输出得到的结果与正确结果之间的误差能越来越小)，得到新的序列到序列模型，然后再次分别将特征信息1至特征信息1000输入预置多音字预测模型，得到特征信息1对应的预测结果1`、特征信息2对应的预测结果2`......特征信息1000对应的预测结果1000`，然后比较预测结果1`与原始发音1是否一致、预测结果2`与原始发音2是否一致......预测结果1000`与原始发音1000是否一致。若一致的情况出现Y次，则当前的map值为0.001Y，若0.001Y大于或等于90％，则以当前的多音字预测模型作为目标多音字预测模型，否则重复上述步骤，直至map值大于或等于预设阈值时，将对应的多音字预测模型作为目标多音字预测模型。

步骤S30，获取待转换文本，并检测所述待转换文本中是否存在多音字；

本实施例中，对于一些文字而言，若该文字具备两种或两种以上的读音，则被称为多音字。在获取到待转换文本后，检测待转换文本中是否存在一个或多个文字具备两种或两种以上的读音，若存在，则该文字为多音字，即检测到待转换文本中存在多音字。例如，待转换文本为：“我看见了一棵树”，其中，“看”字有kan(一声)、kan(四声)这两种读音，即待转换文本中存在多音字“看”。若待转换文本为：“春节是传统节日”，其中“传”字有chuan(三声)、zhuan(四声)这两种读音，即待转换文本中存在多音字“传”。

步骤S40，若所述待转换文本中存在多音字，则获取所述待转换文本的特征信息；

本实施例中，若待转换文本中存在多音字，则获取待转换文本的特征信息。特征信息指可用于机器识别的一些信息，具体的，特征信息包括以词或字为粒度而得到的词向量或字向量、词性特征向量和词边界特征向量中的一种或多种；其中，在获取到多个特征向量到情况下，将多个特征向量进行拼接得到特征信息。其中，词向量可以为n维词向量，字向量可以为独热编码(one-hot)形式的向量。需要说明的是，独热编码的构造方法可以是，如果文本的规模为m，每个词或者字对应的向量表示为m维，文本中第i个词对应的向量表示为第i维为1，其他所有维为0的向量。以待转换文本为“我看见了一棵树”为例，若只以字的one-hot向量作为特征信息时，则该文本的特征数据包括一共7个特征向量，其中每个特征向量的维数一致，都是字表的大小，每个字按照在字表中的位置对应维为1其他所有维为0，则“看”的字向量是“0100000”，“了”的字向量是“0001000”。本实施例中，采用注意力机制并行式获取待转换文本的特征信息，采用注意力机制并行式获取待转换文本的特征信息，相较于CNN网络或RNN网络，能使用更少的计算资源，更好的捕捉到文本中各个字词间的短距离依赖信息和长距离依赖信息，从而提升预测效率和准确率。

步骤S50，将所述特征信息输入目标多音字预测模型，输出所述多音字在所述待转换文本中的目标发音。

本实施例中，将待转换文本的特征信息输入训练好的目标多音字预测模型，通过目标多音字预测模型预设好的计算流程，基于特征信息进行计算，即可得到多音字的预测结果，并将该预测结果作为多音字的目标发音。非多音字，则直接以其固定拼音作为其对应的转换结果，从而得到待转换文本对应的拼音。

本实施例中，获取包含多音字的训练文本以及所述多音字的原始发音；通过所述训练文本以及所述多音字的原始发音，基于迭代训练的方式对预置多音字预测模型进行训练，得到目标多音字预测模型；获取待转换文本，并检测所述待转换文本中是否存在多音字；若所述待转换文本中存在多音字，则获取所述待转换文本的特征信息；将所述特征信息输入目标多音字预测模型，输出所述多音字在所述待转换文本中的目标发音。通过本实施例，根据待转换文本的特征信息，通过目标多音字预测模型预测多音字在待转换文本中的读音，提高了对多音字进行预测的准确度。

进一步地，在本发明多音字预测方法一实施例中，步骤S30包括：

本实施例中，可预先设置多音字字典，该多音字字典中收录了汉字中的多音字(或汉字中常用的多音字)。在获取到待转换文本后，分别检索待转换文本中的每个字是否存在于预置的多音字字典。例如，待转换文本为“我看见了一棵树”，则分别检测“我”、“看”、“见”、“了”、“一”、“棵”、“树”这七个字是否在预置的多音字字典中存在。

本实施例中，以待转换文本为“我看见了一棵树”为例，通过检测，发现“看”归属于预置的多音字字典，则“看”为多音字，即待转换文本中存在多音字。

进一步地，在本发明多音字预测方法一实施例中，目标多音字预测模型包括编码器和解码器，步骤50包括：

通过所述编码器对所述特征信息进行编码，得到内容向量；通过所述解码器对所述内容向量进行解码，输出所述多音字在所述待转换文本中的目标发音。

本实施例中，参照图3，图3为本发明多音字预测方法一实施例中序列到序列模型的结果示意图。如图3所示，序列到序列模型是循环神经网络的升级版，其联合了两个循环神经网络。一个神经网络(编码器)负责接收源句子的特征信息；另一个循环神经网络(解码器)负责将句子输出成翻译的语言。这两个过程分别称为编码和解码的过程。编码过程实际上使用了循环神经网络记忆的功能，通过上下文的序列关系，将词向量依次输入网络。对于循环神经网络，每一次网络都会输出一个结果，但是编码的不同之处在于，其只保留最后一个隐藏状态，相当于将整句话浓缩在一起，将其存为一个内容向量供后面的解码器使用。解码和编码网络结构几乎是一样的，唯一不同的是在解码过程中，是根据前面的结果来得到后面的结果。编码过程中输入一句话，这一句话就是一个序列，而且这个序列中的每个词都是已知的，而解码过程相当于什么也不知道，将其输入网络得到第一个输出作为这句话的第一个词，接着通过得到的第一个词作为网络的下一个输入，得到的输出作为第二个词，不断循环，通过这种方式来得到最后网络输出的拼音(即预测结果)。本实施例中，若以若只以字的one-hot向量作为特征信息，且训练文本或待转换文本的特征信息包括四个，则依次将特征信息1～特征信息4输入编码器进行编码，得到内容向量C，将后将C给到解码器进行解码，得到预测结果。该预测结果即训练文本或待转换文本中的多音字的拼音。

参照图4，图4为本发明多音字预测装置第一实施例的功能模块示意图。

在本发明多音字预测装置第一实施例中，多音字预测装置包括：

获取模块10，用于获取包含多音字的训练文本以及所述多音字的原始发音；

训练模块20，用于通过所述训练文本以及所述多音字的原始发音，基于迭代训练的方式对预置多音字预测模型进行训练，得到目标多音字预测模型；

检测模块30，用于获取待转换文本，并检测所述待转换文本中是否存在多音字；

特征信息获取模块40，用于若所述待转换文本中存在多音字，则获取所述待转换文本的特征信息；

预测模块50，用于将所述特征信息输入目标多音字预测模型，输出所述多音字在所述待转换文本中的目标发音。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有多音字预测程序，所述多音字预测程序被处理器执行时实现如上多音字预测方法的各个实施例的步骤。

本发明计算机可读存储介质的具体实施例与上述多音字预测方法的各个实施例基本相同，在此不做赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多音字预测方法，其特征在于，所述多音字预测方法包括以下步骤：

获取包含多音字的训练文本以及所述多音字的原始发音；

2.如权利要求1所述的多音字预测方法，其特征在于，所述获取待转换文本，并检测所述待转换文本中是否存在多音字的步骤包括：

3.如权利要求1所述的多音字预测方法，其特征在于，所述若所述待转换文本中存在多音字，则获取所述待转换文本的特征信息的步骤包括：

4.如权利要求1所述的多音字预测方法，其特征在于，所述目标多音字预测模型包括编码器和解码器，将所述特征信息输入目标多音字预测模型，输出所述多音字在所述待转换文本中的目标发音的步骤包括：

通过所述编码器对所述特征信息进行编码，得到内容向量；

5.如权利要求1所述的多音字预测方法，其特征在于，所述通过所述训练文本以及所述训练文本对应的原始发音，基于迭代训练的方式对预置多音字预测模型进行训练，得到目标多音字预测模型的步骤包括：

采用注意力机制并行式获取所述训练文本的特征信息；

检测所述map值是否大于或等于预设阈值；

6.如权利要求1至5中任一项所述的多音字预测方法，其特征在于，所述特征信息包括词向量、字向量、词性特征向量中的一种或多种。

7.一种多音字预测装置，其特征在于，所述多音字预测装置包括：

8.如权利要求7所述的多音字预测装置，其特征在于，所述检测模块包括：

9.一种多音字预测设备，其特征在于，所述多音字预测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多音字预测程序，所述多音字预测程序被所述处理器执行时实现如权利要求1至6中任一项所述的多音字预测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有多音字预测程序，所述多音字预测程序被处理器执行时实现如权利要求1至6中任一项所述的多音字预测方法的步骤。