CN109918681A

CN109918681A - 一种基于汉字-拼音的融合问题语义匹配方法

Info

Publication number: CN109918681A
Application number: CN201910249978.4A
Authority: CN
Inventors: 谢金宝; 战岭; 王振东; 王玉静; 梁欣涛; 向键鑫
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-06-21
Anticipated expiration: 2039-03-29
Also published as: CN109918681B

Abstract

本发明提出了一种融合问题语义匹配方法，属于自然语言处理领域。本发明用于自动匹配回答消费者线上咨询时所提出的问题，同时通过汉字‑拼音特征融合的方法降低消费者所输入的同音错别字对问题语义匹配模型性能的影响。本发明所提出的双孪生长短时记忆网络结构通过两个单孪生长短时记忆网络独立地对汉字与拼音两种特征进行语义提取，使模型能够以不同的方式提取汉字序列与拼音序列的特征，再通过汉字与拼音特征拼接并进行语义合成，得到融合了汉字与拼音特征的语义向量，最后通过计算两个问题语义向量之间的负指数曼哈顿距离，输出两个问题的语义匹配程度。本发明提高了问题语义匹配模型在实际应用中的效果。

Description

一种基于汉字-拼音的融合问题语义匹配方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于汉字-拼音的融合问题语义匹配方法。

背景技术

随互联网的快速发展，在线消费逐渐成为了人们的主要消费方式之一。与此同时，消费者在消费的过程中遇到的问题也逐渐增多。以往商家需要雇佣大量的客服人员来在线解答消费者所遇到的问题，而近年来以人工智能技术为核心的智能客服可以自动根据消费者所提出的问题，在知识库中找到与之相匹配的答案来进行回答，不仅缩短了客服的响应时间，而且降低了商家的人力成本。

问题语义匹配技术，是智能客服中最核心的技术。近年来，随着深度学习的快速发展，基于神经网络(如卷积神经网络CNN、长短时记忆网络LSTM、注意力机制Attention等)的深度学习模型被广泛地利用于问题语义匹配任务中。

然而在实际应用中，用户所输入的问题往往带有各种各样的拼写错误，现有的问题语义匹配模型很容易受到输入错误的干扰，从而导致匹配准确率的降低。在这些错误中，同音错别字错误就是常见的错误之一，因此本领域需要一种能够避免同音错别字干扰的问题语义匹配系统。

发明内容

针对以上问题，本发明提出一种基于汉字-拼音的融合问题语义匹配方法。采用字符级的汉字与拼音序列作为输入，分别对经过预处理的两句问题提取汉字特征与拼音特征，再分别通过双向长短时记忆网络进行特征融合，最后采用负指数曼哈顿距离来计算特征融合后两句中文问题向量之间的语义相似度。

一种基于汉字-拼音的融合问题语义匹配方法，其特征在于，包括以下步骤：

步骤(1)：将中文问题语料数据分为训练数据与测试数据；

步骤(2)：对训练数据与测试数据进行预处理；

步骤(3)：使用经过预训练的词嵌入向量建立词嵌入矩阵；

步骤(4)：建立双孪生结构的LSTM神经网络模型；

步骤(5)：在预处理后的训练数据上训练模型；

步骤(6)：在预处理后的测试数据上测试模型。

进一步地，步骤(1)中所述中文问题语料数据每个样本的格式为：问题1\t问题2\t标签，其中，“问题1”、“问题2”分别为两句中文问题，“\t”为分隔符，“标签”为“问题1”、“问题2”共同对应的标签，分为0与1，其中“0”代表“问题1”与“问题2”的语义不同，“1”代表“问题1”与“问题2”的语义相同。

进一步地，步骤(1)对中文问题语料数据按百分比进行切分，得到训练数据与测试数据。

进一步地，所述步骤(2)具体包括以下步骤：

步骤2a：将所述训练数据与测试数据中所有样本所包含的“问题1”、“问题2”以单个字作为基本单位进行分割并生成对应的拼音，得到字符级的汉字序列与拼音序列；

步骤2b：由所述训练数据中的汉字序列与拼音序列构成字典word2index，序列中所有不同的汉字与拼音在字典中对应唯一的索引数字；

步骤2c：根据所述字典，将所述训练数据与测试数据中所包含的的汉字序列与拼音序列转换为其在字典中所对应的索引，得到汉字索引序列与拼音索引序列；

步骤2d：对所述的汉字索引序列与拼音索引序列按最大长度进行补齐。

可选地，所述步骤(3)具体包括以下步骤：

步骤3a：将所述经过预训练的词嵌入向量读取到一个字典word2vec中；

步骤3b：初始化词嵌入矩阵为全0矩阵embedding_matrix；

步骤3c：由所述字典word2index与word2vec对词嵌入矩阵embedding_matrix进行修改。

可选地，所述步骤(4)具体包括以下步骤：

步骤4a：建立输入层，输入层共包含四个输入，分别为所述问题1的汉字序列sen_l、所述问题2的汉字序列sen_r、所述问题1的拼音序列sen_l_pinyin、所述问题2的拼音序列sen_r_pinyin；

步骤4b：建立嵌入层，将所述sen_l、sen_r、sen_l_pinyin、sen_r_pinyin分别输入到嵌入层、得到经过词嵌入的序列embedded_sen_l、embedded_sen_r、embedded_sen_l_pinyin、embedded_sen_r_pinyin；

步骤4c：建立编码层，编码层采用双孪生结构的LSTM来对输入序列进行编码，即两组孪生LSTM，记为Encoding_Layer与Encoding_Layer_pinyin，其中Encoding_Layer用来对汉字序列进行

编码，Encoding_Layer_pinyin用来对拼音序列进行编码，所述embedded_sen_l、embedded_sen_r分别输入到Encoding_Layer得到encoded_sen_l、encoded_sen_r，所述embedded_sen_l_pinyin、embedded_sen_r_pinyin分别输入到Encoding_Layer_pinyin得到encoded_sen_l_pinyin、encoded_sen_r_pinyin；

步骤4d：建立融合层，将所述encoded_sen_l与encoded_sen_l_pinyin串联，得到merged_sen_l，将所述encoded_sen_r与encoded_sen_r_pinyin串联，得到merged_sen_r；

步骤4e：建立语义合成层，语义合成层采用双向LSTM进行语义合成，所述merged_sen_l输入到语义合成层后得到语义向量composed_sen_l，所述merged_sen_r输入到语义合成层后得到语义向量composed_sen_r；

步骤4f：计算所述两个语义向量composed_sen_l与composed_sen_r(分别记为V₁(v₁₁,v₁₂,…,v_1n)、V₂(v₂₁,v₂₂,…,v_2n))之间的负指数曼哈顿距离，范围在(0,1]之间，公式为：

步骤4g：对所述距离按阈值分类为0(语义不同)或1(语义相同)；

步骤4h：编译模型以便进行训练。

进一步地，所述步骤(5)将所述神经网络模型在经过预处理后的训练数据进行训练。

进一步地，所述步骤(6)采用经过预处理后的测试数据进行测试，评价指标采用F1-Score。

综上所述，本发明提出了一种融合问题语义匹配方法，属于自然语言处理领域。本发明用于自动匹配回答消费者线上咨询时所提出的问题，同时通过汉字-拼音特征融合的方法降低消费者所输入的同音错别字对问题语义匹配模型性能的影响。本发明所提出的双孪生长短时记忆网络结构通过两个单孪生长短时记忆网络独立地对汉字与拼音两种特征进行语义提取，使模型能够以不同的方式提取汉字序列与拼音序列的特征，再通过汉字与拼音特征拼接并进行语义合成，得到融合了汉字与拼音特征的语义向量，最后通过计算两个问题语义向量之间的负指数曼哈顿距离，输出两个问题的语义匹配程度。本发明提高了问题语义匹配模型在实际应用中的效果。

有益效果：

1.本发明在数据预处理阶段将问题句分割为字符级的序列，结合具有选择性记忆能力的长短时记忆网络进行特征提取，相对于通过分词处理的序列，有效地避免了分词准确率对特征提取效果的影响。

2.本发明采用汉字特征与拼音特征相融合来提取问题的语义，提高了模型对同音错别字的识别能力，从而降低用户输入错误对模型性能的影响。

3.本发明提出的双孪生结构采用两个孪生长短时记忆网络分别提取问题的汉字特征与拼音特征，相比于单孪生长短时记忆网络，能够使模型有效地区分汉字序列与拼音序列的特点。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于汉字-拼音的融合问题语义匹配方法实施例流程图；

图2为数据预处理部分流程图；

图3为本发明基于双孪生LSTM的汉字-拼音特征融合问题语义匹配方法的神经网络模型整体框图。

具体实施方式

下面将结合附图对本发明的具体实施方式进行进一步的说明。

本发明的数据预处理流程图如图1所示，本发明所采用的中文问题语料数据为实际用户在线提出的中文问题数据，数据中每个样本都由一对中文问题(记为“问题1”、“问题2”)及相应的语义匹配标签所构成。

数据预处理包括以下步骤:

步骤1：将中文问题语料数据的70％划分为训练数据用于训练模型，30％划分为测试数据用于测试模型。为了便于区分，训练数据中的中文问题对用“问题1”、“问题2”表示，测试数据中的中文问题对用“问题1’”“问题2’”表示；

步骤2：将所有的中文问题进行字符化，处理成由单独的汉字组成的汉字序列，如“问”，“题”，“1”、“问”，“题”，“2”；

步骤3：生成上述汉字序列所对应的拼音序列，如“wen”，“ti”，“1”、“wen”，“ti”，“2”；

步骤4：根据所有汉字、拼音序列建立索引字典，字典中的元素为所有不同的字符到其索引的映射，其中索引“0”预留给补齐序列所用的特殊字符“__PAD__”，索引“1”预留给字典中所没有的字，用“__OOV__”表示；

步骤5：将汉字序列与拼音序列中的元素转换成在索引字典中所对应的索引，得到汉字索引序列与拼音索引序列；

步骤6：将所得的汉字索引序列与拼音索引序列补齐到所设定的最大长度，以便输入到问题语义匹配模型中，补齐所用索引为“0”，最大长度设置为100，补齐位置为序列的后部。

建立词嵌入矩阵包括以下步骤：

步骤1：将经过预训练的词嵌入向量读取到一个字典word2vec中，字典中的每个元素为一个键值对，所述“键”为单个汉字或拼音，所述“值”为对应于键的300维预训练向量；

步骤2：初始化词嵌入矩阵为全0矩阵embedding_matrix，维数为(len(word2index),300),其中len(word2index)为字典word2index中元素的个数；

步骤3：遍历所述字典word2index中的键值对，将所述词嵌入矩阵embedding_matrix中的第“值”行设置为所述字典word2vec中“键”所对应的300维向量，若“键”不存在于word2vec，则将该行初始化为(-1,1)之间的300维向量，所得词嵌入矩阵作为神经网络模型嵌入层的初始化参数。

本发明的神经网络模型整体框图如图2所示，包括以下步骤：

步骤1：将输入层接收到的问题1、2各自对应的汉字、拼音索引序列输入到嵌入层，为每个索引初始化一个300维的词向量，用于语义提取。嵌入层的输入维数为len(word2index)，即字典word2index中元素的个数，输出维数为300，输入序列长度为100，参数矩阵初始化为所述词嵌入矩阵embedding_matrix，设置嵌入层参数为可训练，嵌入层输出的嵌入矩阵维数为：(样本个数,序列最大长度,300)；

步骤2：将所得问题1、2的汉字嵌入矩阵输入到编码层孪生结构的双向长短时记忆网络1中进行汉字语义提取，将所得问题1、2的拼音嵌入矩阵输入到编码层孪生结构的双向长短时记忆网络2中进行拼音语义提取，所述长短时记忆网络神经元个数设定为128，返回序列设置为True，即每输入一个序列中元素的同时输出一个向量；

步骤3：将编码后问题1、2对应的汉字序列与拼音序列输入到融合层进行融合，融合方式为串联；

步骤4：将经过融合的问题1、2各自的语义向量输入到语义合成层进行语义合成，语义合成层所采用长短时记忆网络的神经元个数设定为128，返回序列设置为False，即只有在输入序列最后一个元素后输出一个语义向量；

步骤5：计算并输出经过合成的问题1、2所对应语义向量之间的负指数曼哈顿距离；

步骤6：对输出的距离进行分类：距离大于0.5分类为0(语义不同)，距离小于等于0.5分类为1(语义相同)。

建立模型实例并编译模型，优化器采用Adam、损失函数采用mean_squared_error。

在经过预处理后的训练数据上训练模型，批大小设置为256，训练次数设置为50次。

在经过预处理后的测试数据上进行测试，评价指标采用F1-Score，，计算公式为：

其中，TP为模型正确预测出标签“1”的个数，FP为模型将标签“0”预测为标签“1”的个数，TN为模型正确预测出标签“0”的个数，FN为模型将标签“1”预测为标签“0”的个数。

以上实施例用以说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于汉字-拼音的融合问题语义匹配方法，其特征在于，包括以下步骤：

步骤(1)：将中文问题语料数据分为训练数据与测试数据；

步骤(2)：对训练数据与测试数据进行预处理；

步骤(3)：使用经过预处理的训练数据的词嵌入向量建立词嵌入矩阵；

步骤(4)：建立双孪生结构的LSTM神经网络模型；

步骤(5)：在预处理后的训练数据上训练模型；

步骤(6)：在预处理后的测试数据上测试模型。

2.根据权利要求1所述的一种基于汉字-拼音的融合问题语义匹配方法，其特征在于，

所述将中文问题语料数据分为训练数据与测试数据中，中文问题语料数据每个样本的格式为：问题1\t问题2\t标签，其中，“问题1”、“问题2”分别为两句中文问题，“\t”为分隔符，“标签”为“问题1”、“问题2”共同对应的标签，分为0与1，其中“0”代表“问题1”与“问题2”的语义不同，“1”代表“问题1”与“问题2”的语义相同。

3.根据权利要求1所述的一种基于汉字-拼音的融合问题语义匹配方法，其特征在于，对中文问题语料数据按百分比进行切分，得到训练数据与测试数据。

4.根据权利要求1所述的一种基于汉字-拼音的融合问题语义匹配方法，其特征在于，所述对训练数据与测试数据进行预处理具体包括以下步骤：

步骤2c：根据所述字典，将所述训练数据与测试数据中所包含的汉字序列与拼音序列转换为其在字典中所对应的索引，得到汉字索引序列与拼音索引序列；

5.根据权利要求1所述的一种基于汉字-拼音的融合问题语义匹配方法，其特征在于，所述使用经过预处理的训练数据的词嵌入向量建立词嵌入矩阵具体包括以下步骤：

步骤3a：将所述经过预处理的训练数据的词嵌入向量读取到一个字典word2vec中；

步骤3b：初始化词嵌入矩阵为全0矩阵embedding_matrix；

6.根据权利要求1所述的一种基于汉字-拼音的融合问题语义匹配方法，其特征在于，所述建立双孪生结构的LSTM神经网络模型具体包括以下步骤：

步骤4c：建立编码层，编码层采用双孪生结构的LSTM来对输入序列进行编码，即两组孪生LSTM，记为Encoding_Layer与Encoding_Layer_pinyin，其中Encoding_Layer用来对汉字序列进行编码，Encoding_Layer_pinyin用来对拼音序列进行编码，所述embedded_sen_l、embedded_sen_r分别输入到Encoding_Layer得到encoded_sen_l、encoded_sen_r，所述embedded_sen_l_pinyin、embedded_sen_r_pinyin分别输入到Encoding_Layer_pinyin得到encoded_sen_l_pinyin、encoded_sen_r_pinyin；

步骤4f：计算所述两个语义向量composed_sen_l与composed_sen_r，将composed_sen_l记为V₁(v₁₁,v₁₂,…,v_1n、将composed_sen_r记为V₂(v₂₁,v₂₂,…,v_2n)两个向量之间的负指数曼哈顿距离，范围在(0,1]之间，公式为：

步骤4g：对所述距离按阈值分类为0或1，分别代表语义不同与语义相同；

步骤4h：编译模型以便进行训练。

7.根据权利要求1所述的一种基于汉字-拼音的融合问题语义匹配方法，其特征在于，所述在预处理后的训练数据上训练模型具体为将所述神经网络模型在经过预处理后的训练数据进行训练。

8.根据权利要求1所述的一种基于汉字-拼音的融合问题语义匹配方法，其特征在于，所述在预处理后的测试数据上测试模型采用经过预处理后的测试数据进行测试，评价指标采用F1-Score。