CN111611810A

CN111611810A - 一种多音字读音消歧装置及方法

Info

Publication number: CN111611810A
Application number: CN202010472747.2A
Authority: CN
Inventors: 高岩; 贾晓丰; 张晰; 王大亮; 齐红威
Original assignee: Hebei Shuyuntang Intelligent Technology Co ltd
Current assignee: Hebei Shuyuntang Intelligent Technology Co ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-01
Anticipated expiration: 2040-05-29
Also published as: CN111611810B

Abstract

本发明保护多音字读音消歧装置及方法。该装置包括数据处理模块用于：获取包含多音字的原始数据文本，并进行数据预处理，得到第一文本样本；特征提取模块用于：向第一文本样本中分别加入目标多音字的N条读音释义信息，得到N条第二文本样本；N由目标多音字的读音个数所决定；每一读音释义信息包括：读音及相应的词典释义；对目标文本样本进行特征提取，得到相应的多音字读音消歧特征；目标文本样本包括N个第二文本样本；目标文本样本中需进行多音字读音消歧的多音字为目标多音字；模型推断模块用于：将目标文本样本的多音字读音消歧特征输入训练好的多音字读音消歧神经网络，由训练好的多音字读音消歧神经网络决策出目标多音字的最终读音。

Description

一种多音字读音消歧装置及方法

技术领域

本发明涉及计算机领域，特别涉及一种多音字读音消歧装置及方法。

背景技术

在语音合成等应用场景中，字音转换是重要的组成部分，这一环节的准确率直接影响语音合成的可理解性。有些汉字有多种读音(多音字)，比如“还”有“huan2”和“hai2”两种读音。

对于多音字数据采集或文本拼音标注任务来说，使用人工标注的方式将耗费大量的人力物力，因此多音字自动化注音技术，可提高数据生产效率并降低人工成本。

多音字读音消歧(在特定环境下自动地辨析多音字的读音)是多音字自动化注音过程中的重点和难点，如何进行多音字读音消歧是目前研究的热门。

发明内容

有鉴于此，本发明实施例提供一种多音字读音消歧装置及方法，以实现多音字读音消歧。

为实现上述目的，本发明实施例提供如下技术方案：

一种多音字读音消歧装置，包括数据处理模块、特征提取模块和模型推断单元；

其中，

所述数据处理模块用于：获取包含多音字的原始数据文本，并进行数据预处理，得到第一文本样本；

所述特征提取模块用于：

在预测阶段，向所述第一文本样本中分别加入所述目标多音字的N条读音释义信息，得到N条第二文本样本；所述N由所述目标多音字的读音个数所决定；每一读音释义信息包括：读音及相应的词典释义；

对目标文本样本进行特征提取，得到相应的多音字读音消歧特征；在预测阶段，所述目标文本样本包括所述N个第二文本样本；所述目标文本样本中需进行多音字读音消歧的多音字为目标多音字；

所述模型推断模块用于：

在预测阶段，将所述目标文本样本的多音字读音消歧特征输入训练好的多音字读音消歧神经网络，由所述训练好的多音字读音消歧神经网络决策出所述目标多音字的最终读音。

可选的，在样本准备阶段，所述数据处理模块获取的第一文本样本包括标签；所述标签包括所述目标多音字的正确读音；在训练准备阶段，所述特征提取模块用于：向所述第一文本样本中加入与所述正确读音对应的读音释义信息，得到正文本样本；向所述第一文本样本中加入所述目标多音字的其他读音释义信息，得到负文本样本；将所述正文本样本和负文本样本随机分配至预设的训练集或测试集。

可选的，在所述训练阶段：所述目标文本样本包括所述训练集或所述测试集中的文本样本；任一文本样本为正文本样本，或负文本样本；所述装置还包括：模型训练模块，用于在训练阶段对多音字读音消歧神经网络执行多次迭代训练，其中，每一次迭代训练包括：多音字读音消歧神经网络基于所述训练集中文本样本的多音字读音消歧特征和标签进行学习，得到学习后的多音字读音消歧神经网络；将所述测试集中的文本样本的多音字读音消歧特征输入学习后的多音字读音消歧神经网络，根据所述学习后的多音字读音消歧神经网络所输出的读音和相应标签计算正确率，所述正确率用于判断是否停止迭代训练。

可选的，所述特征提取模块至少包括：文本加工模块，用于：在预测阶段，向所述第一文本样本中分别加入所述目标多音字的N条读音释义信息，得到N个第二文本样本，或者，在样本准备阶段，向所述第一文本样本中加入与所述正确读音对应的读音释义信息，得到正文本样本；向所述第一文本样本中加入所述目标多音字的其他任一读音释义信息，得到负文本样本；嵌入生成模块，用于：提取所述目标文本样本的多通道特征；特征表示模块，用于：根据所述多通道特征，提取所述目标文本样本的浅层语义特征和深层语义特征；对所述浅层语义特征和深层语义特征进行拼接，并对拼接结果提取融合表示向量作为所述多音字读音消歧特征。

可选的，所述文本加工子模块包括：多音字词性提取单元，用于在所述第一文本样本中，为所述目标多音字所属的词添加词性；多音字释义拓展单元，用于：在预测阶段，向所述第一文本样本中分别加入所述目标多音字的N条读音释义信息，或者，在样本准备阶段，向所述第一文本样本中加入与所述正确读音对应的读音释义信息；向所述第一文本样本中加入所述目标多音字的其他任一读音释义信息；模型输入数据生成单元，用于：在样本准备阶段，将所述正、负文本样本随机分配至预设的训练集或测试集。

可选的，所述嵌入生成模块包括：词性嵌入生成单元，用于为所述目标多音字所属的词所对应的词性，生成词性向量；读音嵌入生成单元，用于根据所述读音释义信息中的读音，生成读音向量；词嵌入生成单元，用于将所述目标文本样本中每一个字符转换成词向量；位置嵌入生成单元，用于生成所述目标文本样本中每一个字符的位置信息向量；段落嵌入生成单元，用于：为所述目标文本样本中的每一个字符分配段落索引，不同的段落索引用于表征相应的字符属于原始数据文本或释义信息；将每一字符的段落索引转换成唯一的段落信息向量。

可选的，所述特征表示模块包括：浅层语义特征表示单元，用于对所述词性向量与所述读音向量进行拼接，得到所述浅层语义特征；深层语义特征表示单元，用于从所述词向量、所述位置信息向量和所述段落信息向量中，提取深层语义特征；特征融合单元，用于：对所述浅层语义特征和深层语义特征进行拼接，并对拼接结果提取融合表示向量作为所述多音字读音消歧特征。

可选的，所述模型训练模块包括：训练参数迭代单元，用于：初始化待训练的多音字读音消歧神经网络的模型参数，并对模型参数进行更新；模型训练决策单元，用于根据所述文本样本的多音字读音消歧特征，决策所述文本样本中添加的读音是否正确；所述模型训练决策单元包括待训练的多音字读音消歧神经网络；模型评估单元，用于根据所述模型训练决策单元输出的决策结果和相应标签，计算损失值并反馈给所述训练参数迭代单元，所述损失值用于所述训练参数迭代单元更新模型参数。

可选的，所述模型推断模块包括：推断参数设置单元，用于加载训练好的模型参数，得到训练好的多音字读音消歧神经网络；模型推断决策单元，用于根据所述N个第二文本样本的多音字读音消歧特征，决策出所述目标多音字的最终读音；所述模型推断决策单元包括所述训练好的多音字读音消歧神经网络。

一种多音字读音消歧方法，包括：

获取包含多音字的原始数据文本，并进行数据预处理，得到第一文本样本；所述第一文本样本中的多音字为目标多音字；

向所述第一文本样本中分别加入所述目标多音字的N条读音释义信息，得到N条第二文本样本；所述N由所述目标多音字的读音个数所决定；每一读音释义信息包括：读音及相应的词典释义；

对目标文本样本进行特征提取，得到相应的多音字读音消歧特征；在预测阶段，所述目标文本样本包括所述N个第二文本样本；

将所述目标文本样本的多音字读音消歧特征输入训练好的多音字读音消歧神经网络，由所述训练好的多音字读音消歧神经网络决策输出所述目标多音字的最终读音。

可见，在本发明实施例中，在获取原始数据文本后，先进行预处理，得到第一文本样本，再向第一文本样本中加入目标多音字的N条读音释义信息，将第一文本样本扩充为目标文本样本。每一第二文本样本包含目标多音字的一个读音及相应的词典释义。再将这目标文本样本的多音字读音消歧特征输入训练好的音字读音消歧神经网络，得到目标多音字的最终读音，从而实现了多音字读音消歧。

附图说明

图1为本发明实施例提供的多音字读音消歧装置的一种示例性结构；

图2为本发明实施例提供的预测阶段的示例性流程；

图3为本发明实施例提供的多音字读音消歧装置的另一种示例性结构；

图4为本发明实施例提供的第二文本样本的示意图；

图5为本发明实施例提供的段落索引示意图；

图6为本发明实施例提供的提取融合表示向量的示意图；

图7为本发明实施例提供的多音字读音消歧方法的示例性流程。

具体实施方式

为了引用和清楚起见，下文中使用的技术名词、简写或缩写总结如下：

多音字释义：词典中多音字的词义或文义；

正负样本：读音正确的样本为正样本，反之则为负样本；

正确率：模型判断对的数据量与数据总量的比值；

嵌入：将数值索引序列转换为具有固定大小的向量。

本发明提供一种多音字读音消歧装置及方法，以实现多音字读音消歧。

请参见图1，上述多音字读音消歧装置的一种示例性结构包括：数据处理模块1、特征提取模块2和模型推断模块3。

上述多音字读音消歧装置中的各单元可以软件或组件的形式部署于同一服务器(例如标注服务器、语音合成服务器等)或计算机上，或者，上述多音字读音消歧装置所包含的各模块可分别为独立的服务器。

多音字读音消歧装置的核心是多音字读音消歧神经网络，其需进行训练(训练阶段)，训练完成后可正式投入使用(进入预测阶段)。

在本文中，可按照时间顺序分为：样本准备阶段、训练阶段和预测阶段。

先介绍预测阶段，请参见图2，在预测阶段上述数据处理模块1可用于：

获取包含多音字的原始数据文本，并进行数据预处理，得到第一文本样本。

需要说明的是，若原始数据文本中包含m个多音字，则会生成m个第一文本样本。举例来讲，原始数据文本为：他冲着我就来了。其中的“冲”和“着”都是多音字，则可生成2个第一文本样本，其中，一个第一文本样本的目标多音字为“冲”，另一个的目标多音字为“着”。

原始数据文本可能存在例如编码格式、网络标签、表情符号等噪音符号。因此，预处理可进一步包括：使用第一分隔符标注多音字(目标多音字)，数据清洗(例如去除非法网络标签、去除表情符号、繁简体转换、全半角转换、去除停用词等)中的任意一种或多种。

上述第一分隔符可根据需要灵活设置，例如，设置“#”作为第一分隔符，可在多音字的前后分别放置一个第一分隔符。举例来讲，“她穿着靓丽的衣服”在放置第一分隔符后，变为：她穿#着#靓丽的衣服。

上述停用词包括对于训练和预测没有帮助的标点，例如，《》【】<>/等。

网络标签是指原始数据中存在一些html标签，例如：<br><br/>、<div>、<htmls>、<html/>、<a href>等。

在预处理过程中，还可对数据清洗后的文本进行分词处理，对目标多音字所属的词添加词性。

更具体的，请参见图3，数据处理模块1可进一步包括：

数据输入单元4和数据预处理单元5。其中，数据输入单元4用于获取包含多音字的原始数据文本，数据预处理单元5用于进行上述数据预处理，得到第一文本样本。

特征提取单元2，用于：向第一文本样本中分别加入目标多音字的N条读音释义信息，得到N条第二文本样本，以及，对目标文本样本进行特征提取，得到相应的多音字读音消歧特征。

在预测阶段，目标文本样本包括上述N条第二文本样本。目标文本样本中需进行多音字读音消歧的多音字可称为目标多音字。

其中，每一读音释义信息包括：读音及相应的词典释义。上述N由目标多音字的读音个数所决定。例如，“冲”有两个读音，每一读音有不同的词典释义。则向第一文本样本中分别加入两条读音释义信息，得到两条第二文本样本。

所添加的读音释义信息是文本形式。具体的，前期可将中文词典中各多音字的读音和相应的词典释义均转成计算机文本形式。

更具体的，请参见图3，特征提取模块2可进一步包括：

文本加工模块6，用于：

在预测阶段，向第一文本样本中分别加入目标多音字的N条读音释义信息，得到N个第二文本样本；

嵌入生成模块7，用于：提取目标文本样本的多通道特征；

本文后续将详细介绍多通道特征。

特征表示模块8，用于：

根据上述多通道特征，提取目标文本样本的浅层语义特征和深层语义特征；对浅层语义特征和深层语义特征进行拼接，并对拼接结果提取融合表示向量作为多音字读音消歧特征。

本文后续还将详细介绍如何提取浅层语义特征和深层语义特征，如何提取融合表示向量，在此不作赘述。

模型推断模块3，用于将上述目标文本样本的多音字读音消歧特征输入训练好的多音字读音消歧神经网络，由其输出目标多音字的最终读音。

更具体的，请参见图3，模型推断模块3可进一步包括：

推断参数设置单元9，用于加载训练好的模型参数，得到训练好的多音字读音消歧神经网络；

模型推断决策单元10(包括训练好的多音字读音消歧神经网络)，用于根据N个第二文本样本的多音字读音消歧特征，决策出目标多音字的最终读音。

下面将按照测试阶段的处理过程，详细介绍各模块的作用(数据处理模块1不再赘述)。

一，文本加工模块。

仍请参见图3，文本加工子模块可一步包括：

多音字词性提取单元11，用于在第一文本样本中，为目标多音字所属的词添加词性。

在一个示例中，词性提取可使用开源的词性标注工具，例如，THULAC，一个开源工具进行词性标注。

多音字释义拓展单元12，用于：向第一文本样本中分别加入目标多音字的N条读音释义信息。

具体的，多音字释义拓展单元12可使用第二分隔符将第一文本样本与读音释义信息相连。

第二分隔符可进行灵活设计，其示例性的可为“[SEP]”。举例来讲，假定原始数据文本为：“调控影响房价这是一只有形之手”(其中的“只”是目标多音字)，那么在加入某条读音释义信息后，变为如图4所示的一条第二文本样本，其中，“只：量词，单独的，极少的”是词典释义，“adv”是目标多音字“只”所属的词的词性，adv表示副词，“zhi1”是目标多音字的一个读音，其与词典释义是一一对应的。

二，嵌入生成模块。

仍请参见图3，嵌入生成模块可一步包括五个单元，分别是：

词性嵌入生成单元14，用于为目标多音字所属的词所对应的词性，生成词性向量。

在一个示例中，词性种类及所对应的符号如下：

n/名词；np/人名；ns/地名；ni/机构名；nz/其它专名；

m/数词；q/量词；mq/数量词；t/时间词；f/方位词；s/处所词；

v/动词；a/形容词；d/副词；h/前接成分；k/后接成分；i/习语；

j/简称；r/代词；c/连词；p/介词；u/助词；y/语气助词；

e/叹词；o/拟声词；g/语素；w/标点；x/其它。

但是对于多音字，词性基本包含：名词、动词、副词、介词、助词等。

在一个示例中，可使用下述公式将目标多音字所属的词的词性(可简称为目标词性)转化为词性向量：

e_pos＝E_pos·pos (公式1)

其中：E_pos表示词性向量嵌入矩阵；词性向量嵌入矩阵包含11行词性向量，对应11个词性。词性向量嵌入矩阵是随机生成的。

pos表示目标词性的词性索引的独热表示形式(独热编码)。由于词性向量矩阵包含11行，所以pos的独热编码也有11位，其中只有一位是1，其他位是0。

可根据预设的对应关系来将目标词性转化为独热编码，例如，预设的对应关系中，“adv”与独热编码“00100000000”相对应，则当目标词性为“adv”时，其独热编码为“00100000000”。本领域技术人员可灵活设计词性与词性索引间的对应关系，在此不作赘述。

e_pos表示目标词性所对应的词性向量。公式1实现的是，若pos的独热编码在第i位为“1”，则取词性向量嵌入矩阵中的第i行词性向量作为e_pos。

举例来讲，若pos的独热编码在第8位为“1”，则取词性向量嵌入矩阵中的第8行词性向量作为e_pos。

读音嵌入生成单元15，用于根据读音释义信息中的读音生成读音向量。

在一个示例中，可使用下述公式根据读音释义信息中的读音(可称为目标读音)生成读音向量：

e_pron＝E_pron·pron (公式2)

其中:E_pron表示读音向量嵌入矩阵。经统计所有常见多音字共397个读音，因此，读音向量嵌入矩阵共包含397行读音向量；读音向量嵌入矩阵是随机生成的；

pron表示目标读音的读音索引的独热表示形式。可预设读音与独热表示形式(也即读音索引)的对应关系，根据对应关系得到目标读音的读音索引。

e_pron表示目标读音所对应的读音向量。公式2实现的是，若pron的独热编码在第i位为“1”，则取读音向量嵌入矩阵中的第i行词性向量作为e_pron。

举例来讲，若pron的独热编码在第8位为“1”，则取读音向量嵌入矩阵中的第8行词性向量作为e_pron。

词性嵌入生成单元与读音嵌入生成单元分别通过对应的向量词典将索引映射为高维词性向量与读音向量。

词嵌入生成单元16，用于将目标文本样本中每一个字符转换成词向量。

在预测阶段，目标文本样本包括前述的N个第二文本样本。

具体的，可首先将每一个字符转换成一个唯一的索引值，然后，将索引值转换成对应的词向量。

在一个示例中，可使用下述公式将任一字符的索引值(以第i个字符表示)转化为对应的词向量：

其中E_Word表示词嵌入矩阵，是训练来的。可使用Word2Vec方法，将文本数据作为训练样本，将训练的权重矩阵作为词向量矩阵；

x_i表示第i个字符的字符索引的独热表示形式；可预设字符与独热表示形式(也即字符索引)的对应关系，根据对应关系得到第i个字符的读音索引；

表示第i个字符的词向量(一般为300维的一串随机数)。

公式3实现的是，若x_i的独热编码在第j位为“1”，则取词嵌入矩阵中的第j行词性向量作为

位置嵌入生成单元17，用于生成目标文本样本中每一个字符的位置信息向量。

在一个示例中，可先生成每一字符的位置索引，再将字符的位置索引转化为对应的位置信息向量。

具体的，可先将位置索引转化为索引向量，再将索引向量转化为位置信息向量。

举例来讲，“今天天气不错”中每一字符的位置索引包括：1 2 3 4 5 6。

然后将位置索引1-6分别转化为索引向量。索引向量可随机生成。生成后，即固定下来。

也即，“今天天气不错”与“我今天出去玩了”中，第一个字符对应的索引向量均相同，同理，第二个字符对应的索引向量也均相同，可以此类推，不作赘述。

每一位置索引向量可为50维，也即包括50个元素。

位置索引向量可以“pos”表示。当位置索引为偶数时，可使用下述公式4来生成位置信息向量：

当“pos”为奇数时，可使用下述公式5：

其中：d_model表示模型隐层维度大小，e_{position(pos)}表示位置信息向量。

需要说明的是，以位置索引1为例，其对应的位置索引向量为50维，也即包括50个元素，那么会对这50个元素分别计算50个余弦值，从而得到一个50维(包含50个余弦值)的位置信息向量。

段落嵌入生成单元18，用于：

为目标文本样本中的每一个字符分配段落索引，不同的段落索引用于表征相应的字符属于原始数据文本或释义信息；将每一字符的段落索引转换成唯一的段落信息向量。

具体的，请参见图5，可以使用段落索引“0”表示属于原始数据文本(原句)，而使用段落索引“1”表示属于释义信息(图5中以“释义”表示)。

在一个示例中，可使用下述公式生成第i个字符对应的段落信息向量：

其中E_section表示段落嵌入矩阵(随机生成，只有两行段落向量)；

s_i表示第i个字符段落索引的独热表示形式。

表示第i个字符的段落向量。公式6实现的是，若s_i的独热编码在第j位为“1”，则取段落嵌入矩阵中的第j行词性向量作为

前述的多通道特征可包括：词性向量、读音向量、词向量、位置信息向量和段落信息向量。

三，特征表示模块。

仍请参见图3，特征表示模块可进一步包括：

浅层语义特征表示单元19，用于对词性向量与读音向量进行拼接，得到浅层语义特征。

浅层语义表示单元将多音字读音向量与多音字词性向量作为输入，将两个特征进行拼接，作为多音字读音消歧任务的浅层特征。在众多实验中，词性特征也作为多音字读音消歧任务的重要特征，能够辅助判断读音。

深层语义特征表示单元20，用于从词向量、位置信息向量和段落信息向量中，提取深层语义特征(也可称为深层语义表示向量)。

在一个示例中，深层语义特征表示单元20可使用双向深层次语义表示模型作为核心单元，捕获上下文语义信息，提取深层语义特征。

双向深层次语义表示模型的核心思想是通过大规模语料进行语言模型预训练，获得一个语义表示模型，该模型使用多层自注意力机制神经网络，摒弃了已有的计算注意力机制的方式，使用文本与文本本身的关系计算注意力。并且通过多头注意力机制，从不同维度进行语义特征抽取。输入的向量经过多层自注意力机制神经网络的迭代计算，生成了深层次语义表示向量。该向量作为多音字读音消歧任务的语义核心。

特征融合单元21，用于(请参见图6)：对浅层语义特征和深层语义特征进行拼接，并对拼接结果提取融合表示向量作为多音字读音消歧特征。

具体的，将深层语义特征表示向量与词性向量、读音向量进行拼接后，

可获得大小为Batch_size*Sequence_length*Hidden_size大小的矩阵。其中：

Batch_size:训练批次大小

Sequence_length:句子长度

Hidden_size:隐藏层大小。

之后，可通过双向长短时记忆神经网络对拼接结果进行融合(也即提取融合表示向量)。

双向长短时记忆神经网络是循环神经网络的变体，而循环神经网络是文本等序列化数据能够得以学习、训练。但是对于长文本，循环神经网络的记忆结构使得模型对于距离较近的数据记忆更深，而对于文本开始的数据记忆比较模糊，在实际应用的过程中，循环神经网络模型并不能充分学习到序列中关键信息。

与之相比，长短时记忆神经网络网络增加了三个门控制结构，分别为输入门、输出门、遗忘门，使用不同的权重控制信息的传递：重要的信息将会被长期传递下去，而无用的信息将会舍弃。这种机制使得长短时记忆神经网络网络比循环神经网络对于长文本的语义能够更加充分的理解。

由于本发明实施例使用的文本数据较长，因此使用双向长短时记忆神经网络融合语义信息与读音、词性信息。

拼接结果(拼接后的向量)通过双向长短时记忆神经网络进行编码，可获得融合语义信息、释义信息、词性信息和读音信息的融合表示向量。由图6所示示例可知，深层语义特征向量为768维，词性向量为50维，读音向量为50维，经过特征融合单元后，可生成大小为300维的融合表示向量。

下面介绍样本准备阶段。

样本准备阶段的目的主要是准备训练集、测试集，此外，在一些场景下，还准备验证集。

需要说明的是，在样本准备阶段，数据输入单元4所获取的原始数据文本是包含标签的，标签中包含多音字的正确读音。

而若原始数据文本中包含m个多音字，在样本准备阶段所获取的每一原始数据文本中，只针对一个多音字(该多音字为目标多音字)标注正确读音。

此外，在一个示例中，在样本准备阶段，上述数据预处理单元2所进行的预处理还可包括：将原始数据文本中人工标注的多音字读音提取并进行规范化处理，使标签样式统一。

举例来讲，原始数据文本为：他穿着(zhe5)靓丽的衣服。在多音字读音提取并进行规范化处理，成为：他穿#着#靓丽的衣服zhe5。

需要说明的是，在多音字前后以“#”进行标记，其目的在于以弱监督的方式进行训练，使多音字读音消歧神经网络能够判断需要对那个多音字进行消歧。

在预处理后，一个原始数据文本得到一个第一文本样本，这与预测阶段得到m个第一文本样本是不同的。

在训练准备阶段，图3中的文本加工模块6用于生成正负样本，其具体操作包括：

向第一文本样本中加入与正确读音对应的读音释义信息，得到正文本样本；

向第一文本样本中加入目标多音字的其他任一读音释义信息，得到负文本样本；

将正文本样本和负文本样本随机分配至训练集或测试集。

正负样本以1:1的比例生成。举例来讲，假定目标多音字有三个读音(读音1-3)，其中读音1为标签中标注的正确读音，则可向第一文本样本中加入与读音1对应的读音释义信息，得到正文本样本。之后，可从读音2或读音3中任选其一，将其对应的读音释义信息加入第一文本样本中，构成负文本样本。

然后，随机将正文本样本和负文本样本分配至训练集或测试集。

具体的，可由文本加工模块6中的多音字释义拓展单元12生成正负文本样本，而由模型输入数据生成单元13将正、负文本样本随机分配至预设的训练集或测试集。

此外，在需要生成验证集的场景下，可随机将正文本样本和负文本样本分配至训练集、测试集或验证集。

下面介绍训练阶段各单元的作用。

在训练阶段，前述的目标文本样本包括训练集的文本样本；其中，任一文本样本为正文本样本，或负文本样本；

为了训练神经网络，仍请参见图3，上述装置还可包括：模型训练模块，用于在训练阶段执行多次迭代训练，其中，每一次迭代训练包括：

多音字读音消歧神经网络基于训练集中文本样本的多音字读音消歧特征和标签进行学习，在学习过程中更新模型参数，得到学习后的多音字读音消歧神经网络。

此外，迭代训练还可包括：

将测试集中的文本样本的多音字读音消歧特征，输入学习后的多音字读音消歧神经网络，根据学习后的多音字读音消歧神经网络所输出的读音和相应标签计算正确率。正确率反应了模型性能的好坏，通过正确率可以直观的了解模型的训练程度，用于判断何时停止训练。一般当测试集的正确率不改变或者训练损失(Loss)不变的时候，认为模型训练完毕。

更具体的，上述模型训练模块可包括训练参数迭代单元22、模型训练决策单元23和模型训练决策单元24，其中：

训练参数迭代单元22用于：初始化待训练的多音字读音消歧神经网络的模型参数，并对模型参数进行更新。

训练参数迭代单元22会在神经网络初始化的时候为每一模型参数赋予一个初始值。

模型训练决策单元23用于：根据文本样本的多音字读音消歧特征，决策文本样本中添加的读音是否正确。

模型训练决策单元23即为待训练的多音字读音消歧神经网络。

具体的，多音字读音消歧神经网络可包括：单层全连接网络与SoftMax分类器。

特征融合单元的输出(融合表示向量)经过单层全连接网络进行特征映射(指将从隐藏层到输出层的这种映射，也就是从一个例如1024维的向量映射为2维向量作为概率向量)，由SoftMax分类器根据映射结果计算正文本样本中所添加读音的正确概率和错误概率，以及负文本样本中所添加读音的正确概率和错误概率。并且，将正负样本的正确概率归一化到范围在[0,1]之间的概率值。举例来讲，正样本的正确的概率值为0.8，负样本的正确的概率值为0.2。然后，将概率值大的样本中的读音作为决策结果。

在这过程中，多音字读音消歧神经网络对于每一样本来说，是个二分类器，用于判断该样本中的读音是否正确。

需要说明的是，在现有的其他方法中，通常将多音字读音消歧作为多分类问题，例如，前述介绍一共有将近400个读音，会以每一读音为一类，计算每一个读音的概率值，将概率值最大的读音作为最终读音。在现有方式中，全连接层映射的维度大小为读音数量的大小。则训练集可能会因标签数量不均衡造成训练误差。

而在本申请中，将读音嵌入到融合表示向量中，通过预测正确或者错误，将多分类转变为二分类，保证正负样本均衡，可减小模型学习难度与训练误差。

模型评估单元24用于：根据模型训练决策单元23输出的决策结果和相应标签，计算损失值并反馈给训练参数迭代单元，损失值用于训练参数迭代单元更新模型参数。

具体的，可使用训练集中的正负样本令模型训练决策单元23进行决策，输出决策结果，模型评估单元24根据决策结果和标识，通过损失函数计算得到模型的损失值，通过梯度下降算法更新整个网络的模型参数，从而促使模型能够得收敛。模型评估单元24还将计算的梯度反馈与训练参数迭代单元，用于模型参数更新。

同时，模型评估单元24还会利用测试集计算模型的正确率，正确率反应模型性能的好坏，通过正确率可以直观的了解模型的训练程度，用于判断何时停止训练。一般当测试集的正确率不改变或者训练损失(Loss)不变的时候，认为模型训练完毕。

前述的验证集，用于评估模型的泛化性，也就是在一个新的测试样本中看模型的鲁棒性或泛化能力，以评估模型性能。在此不作赘述。

需要说明的是，前述介绍的模型推断决策单元包括训练好的多音字读音消歧神经网络。

训练好的多音字读音消歧神经网络同样包括上述的单层全连接网络与SoftMax分类器，用于根据文本样本的多音字读音消歧特征，决策N条第二文本样本中每一文本样本所添加的读音是否正确。

具体的，特征融合单元输出的N条第二文本样本的融合表示向量，经过单层全连接网络进行特征映射，由SoftMax分类器根据映射结果计算各第二文本样本中所添加读音的正确概率和错误概率。并且，将正确概率归一化到范围在[0,1]之间的概率值。最后，将概率值大的样本中的读音作为最终的决策结果。

本发明还要求保护一种多音字读音消歧方法，请参见图7，其示例性的包括：

S1：获取包含多音字的原始数据文本，并进行数据预处理，得到第一文本样本；

所述第一文本样本中的多音字为目标多音字。

S2：向所述第一文本样本中分别加入所述目标多音字的N条读音释义信息，得到N条第二文本样本；

其中，所述N由所述目标多音字的读音个数所决定；每一读音释义信息包括：读音及相应的词典释义。

在本发明其他实施例中，还可在所述第一文本样本中，为所述目标多音字所属的词添加词性。

S3：对目标文本样本进行特征提取，得到相应的多音字读音消歧特征；

在预测阶段，所述目标文本样本包括所述N个第二文本样本。

S4：将所述目标文本样本的多音字读音消歧特征输入训练好的多音字读音消歧神经网络，由所述训练好的多音字读音消歧神经网络决策输出所述目标多音字的最终读音。

具体的，可根据所述N个第二文本样本的多音字读音消歧特征，决策出所述目标多音字的最终读音。

上述步骤S1-S4是预测阶段所执行的步骤。相关介绍可参考本文前述记载，在此不作赘述。

除了预测阶段，还可包括样本准备阶段和训练阶段。

其中，样本准备阶段的流程包括：

Step 1：获取包含多音字的原始数据文本，并进行数据预处理，得到第一文本样本。

在本实施例中，获取的第一文本样本包括标签，所述标签包括所述目标多音字的正确读音。

Step 2：向所述第一文本样本中加入与所述正确读音对应的读音释义信息，得到正文本样本；

Step 3：向所述第一文本样本中加入所述目标多音字的其他任一读音释义信息，得到负文本样本。

Step 4：将所述正文本样本和负文本样本随机分配至预设的训练集或测试集。

相关介绍可参考本文前述记载，在此不作赘述。

在生成训练集和测试集等后，可进入训练阶段。

训练阶段的流程包括：

Step5：获取训练集中的目标文本。

在所述训练阶段：所述目标文本样本包括所述训练集的文本样本；任一文本样本为正文本样本，或负文本样本。

当然，在计算正确率时，获取的目标文本包括测试集中的文本样本。

Step6：对目标文本样本进行特征提取，得到相应的多音字读音消歧特征。

具体的，可提取所述目标文本样本的多通道特征，根据所述多通道特征，提取所述目标文本样本的浅层语义特征和深层语义特征；对所述浅层语义特征和深层语义特征进行拼接，并对拼接结果提取融合表示向量作为所述多音字读音消歧特征。

Step7：对多音字读音消歧神经网络执行多次迭代训练。

其中，每一次迭代训练包括：

多音字读音消歧神经网络基于所述训练集中文本样本的多音字读音消歧特征和标签进行学习，得到学习后的多音字读音消歧神经网络；

将所述测试集中的文本样本的多音字读音消歧特征，输入学习后的多音字读音消歧神经网络，根据所述学习后的多音字读音消歧神经网络所输出的读音和相应标签计算正确率，所述正确率用于判断是否停止迭代训练。

具体的，在学习过程中，可初始化待训练的多音字读音消歧神经网络的模型参数，并对模型参数进行更新；

待训练的多音字读音消歧神经网络根据所述文本样本的多音字读音消歧特征，决策所述文本样本中添加的读音是否正确；

根据决策结果和相应标签，计算损失值并反馈给多音字读音消歧神经网络更新模型参数。

在正式预测阶段，在步骤S4之前，可加载训练好的模型参数，得到训练好的多音字读音消歧神经网络。

相关介绍可参考本文前述记载，在此不作赘述。

在本发明其他实施例中，可通过如下方式提取所述目标文本样本的多通道特征：

为所述目标多音字所属的词所对应的词性，生成词性向量；

根据所述读音释义信息中的读音，生成读音向量；

将所述目标文本样本中每一个字符转换成词向量；

生成所述目标文本样本中每一个字符的位置信息向量；

为所述目标文本样本中的每一个字符分配段落索引，不同的段落索引用于表征相应的字符属于原始数据文本或释义信息；将每一字符的段落索引转换成唯一的段落信息向量。

相关介绍可参考本文前述记载，在此不作赘述。

在本发明其他实施例中，可通过如下方式，提取所述目标文本样本的浅层语义特征和深层语义特征：

对所述词性向量与所述读音向量进行拼接，得到所述浅层语义特征；

从所述词向量、所述位置信息向量和所述段落信息向量中，提取深层语义特征。

相关介绍可参考本文前述记载，在此不作赘述。

综上，本发明提供的基于人机交互的多音字读音消歧装置及方法，具有如下特点：

1.将多音字释义信息、词性信息、读音信息同时融合到多音字读音消歧任务中。

2.使用词嵌入、位置嵌入、段落嵌入、词性嵌入与读音嵌入等五种嵌入信息作为多音字读音消歧的特征。

3.将以往多音字读音消歧工作中的多分类转换成二分类问题，给出了更加准确的识别结果，具备更好的泛化性能。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及模型步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或模型的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、WD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多音字读音消歧装置，其特征在于，包括数据处理模块、特征提取模块和模型推断单元；

其中，

所述特征提取模块用于：

所述模型推断模块用于：

2.如权利要求1所述的装置，其特征在于，

在样本准备阶段，所述数据处理模块获取的第一文本样本包括标签；所述标签包括所述目标多音字的正确读音；

在训练准备阶段，所述特征提取模块用于：

向所述第一文本样本中加入与所述正确读音对应的读音释义信息，得到正文本样本；

向所述第一文本样本中加入所述目标多音字的其他任一读音释义信息，得到负文本样本；

将所述正文本样本和负文本样本随机分配至预设的训练集或测试集。

3.如权利要求2所述的装置，其特征在于，

在所述训练阶段：所述目标文本样本包括所述训练集或所述测试集中的文本样本；任一文本样本为正文本样本，或负文本样本；

所述装置还包括：模型训练模块，用于在训练阶段对多音字读音消歧神经网络执行多次迭代训练，其中，每一次迭代训练包括：

将所述测试集中的文本样本的多音字读音消歧特征输入学习后的多音字读音消歧神经网络，根据所述学习后的多音字读音消歧神经网络所输出的读音和相应标签计算正确率，所述正确率用于判断是否停止迭代训练。

4.如权利要求3所述的装置，其特征在于，所述特征提取模块至少包括：

文本加工模块，用于：

在预测阶段，向所述第一文本样本中分别加入所述目标多音字的N条读音释义信息，得到N个第二文本样本，或者，

在样本准备阶段，向所述第一文本样本中加入与所述正确读音对应的读音释义信息，得到正文本样本；

嵌入生成模块，用于：提取所述目标文本样本的多通道特征；

特征表示模块，用于：

根据所述多通道特征，提取所述目标文本样本的浅层语义特征和深层语义特征；

对所述浅层语义特征和深层语义特征进行拼接，并对拼接结果提取融合表示向量作为所述多音字读音消歧特征。

5.如权利要求4所述的装置，其特征在于，所述文本加工子模块包括：

多音字词性提取单元，用于在所述第一文本样本中，为所述目标多音字所属的词添加词性；

多音字释义拓展单元，用于：

在预测阶段，向所述第一文本样本中分别加入所述目标多音字的N条读音释义信息，或者，

在样本准备阶段，向所述第一文本样本中加入与所述正确读音对应的读音释义信息；

向所述第一文本样本中加入所述目标多音字的其他任一读音释义信息；

模型输入数据生成单元，用于：在样本准备阶段，将所述正、负文本样本随机分配至预设的训练集或测试集。

6.如权利4所述的装置，其特征在于，所述嵌入生成模块包括：

词性嵌入生成单元，用于为所述目标多音字所属的词所对应的词性，生成词性向量；

读音嵌入生成单元，用于根据所述读音释义信息中的读音，生成读音向量；

词嵌入生成单元，用于将所述目标文本样本中每一个字符转换成词向量；

位置嵌入生成单元，用于生成所述目标文本样本中每一个字符的位置信息向量；

段落嵌入生成单元，用于：

为所述目标文本样本中的每一个字符分配段落索引，不同的段落索引用于表征相应的字符属于原始数据文本或释义信息；

将每一字符的段落索引转换成唯一的段落信息向量。

7.如权利要求4所述的装置，其特征在于，所述特征表示模块包括：

浅层语义特征表示单元，用于对所述词性向量与所述读音向量进行拼接，得到所述浅层语义特征；

深层语义特征表示单元，用于从所述词向量、所述位置信息向量和所述段落信息向量中，提取深层语义特征；

特征融合单元，用于：对所述浅层语义特征和深层语义特征进行拼接，并对拼接结果提取融合表示向量作为所述多音字读音消歧特征。

8.如权利要求3-7任一项所述的装置，其特征在于，所述模型训练模块包括：

训练参数迭代单元，用于：初始化待训练的多音字读音消歧神经网络的模型参数，并对模型参数进行更新；

模型训练决策单元，用于根据所述文本样本的多音字读音消歧特征，决策所述文本样本中添加的读音是否正确；所述模型训练决策单元包括待训练的多音字读音消歧神经网络；

模型评估单元，用于根据所述模型训练决策单元输出的决策结果和相应标签，计算损失值并反馈给所述训练参数迭代单元，所述损失值用于所述训练参数迭代单元更新模型参数。

9.如权利要求8所述的装置，其特征在于，所述模型推断模块包括：

推断参数设置单元，用于加载训练好的模型参数，得到训练好的多音字读音消歧神经网络；

模型推断决策单元，用于根据所述N个第二文本样本的多音字读音消歧特征，决策出所述目标多音字的最终读音；所述模型推断决策单元包括所述训练好的多音字读音消歧神经网络。

10.一种多音字读音消歧方法，其特征在于，包括：