CN115422362B

CN115422362B - 一种基于人工智能的文本匹配方法

Info

Publication number: CN115422362B
Application number: CN202211226353.4A
Authority: CN
Inventors: 王进; 陈怡雯; 朴昌浩; 刘彬; 杜雨露; 邓欣; 孙开伟
Original assignee: Zhengzhou Shuzhi Technology Group Co ltd; Zhengzhou Digital Intelligence Technology Research Institute Co ltd
Current assignee: Yami Technology Guangzhou Co ltd; Zhengzhou Digital Intelligence Technology Research Institute Co ltd; Zhengzhou Shuzhi Technology Group Co ltd
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-10-31
Anticipated expiration: 2042-10-09
Also published as: CN115422362A

Abstract

本发明属于自然语言处理技术领域，具体涉及一种基于人工智能的文本匹配方法，包括：获取问题匹配的文本，其中包含用户的输入问题和标准问题，对数据集S进行预处理；构建BERT_MF模型包括BERT模型层、知识增强层、精确匹配层、相似度匹配层；BERT_MF模型利用拼音、词性以及句法知识，使用精确匹配层提取局部细粒度表征和全局细粒度表征；采用横向拼接的方式对多粒度特征进行融合，经过Softmax函数进行文本匹配。本发明不仅使用了预训练模型ERNIE‑Gram进行了微调，能够得到文本匹配程度，同时充分使用预训练模型的语义表征和词语表征，可以对文本的局部信息和全局信息进行辨识，进而细粒度的区分文本语义上的匹配。

Description

一种基于人工智能的文本匹配方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于人工智能的文本匹配方法。

背景技术

近年来，随着互联网、计算机技术的快速迭代，在网络中产生了海量以文本为主的数据。虽然在自然语言处理领域，利用预训练模型来解决文本匹配问题，已经在一定程度上取得了与人类相仿甚至超越人类的效果，但在处理真实应用场景中的问题时仍面临鲁棒性不足等问题。当存在微小的字面变化时，模型将无法做出正确判断，在影响产品体验的同时也会造成相应的经济损失。如：“黑色裤子配什么上衣-黑色上衣配什么裤子”，真实标签应该为0，模型预测则为1。

如何构建文本匹配模型对文本做出快速准确的分类是亟待解决的研究课题，同时也具有很高的商业价值，在信息检索、智能客服等领域发挥着重要作用。

发明内容

为解决上述技术问题，本发明提出一种基于人工智能的文本匹配方法，包括以下步骤：

S1：获取问题匹配的文本，包括用户的输入问题和标准问题，对获取的文本进行预处理，得到文本数据集；

S2：建立BERT_MF模型，所述BERT_MF模型包括：BERT模型层、知识增强层、精确匹配层、相似度匹配层；

S3：BERT模型层将文本数据集中的用户的输入问题和标准问题组成句子对，将组成的句子对作为BERT模型的输入序列进行语言表征提取，得到语义表征h_cls和词语表征h_last；

S4：知识增强层提取文本的拼音、词性、句法特征，并将拼音、词性、句法特征融入词语表征h_last，得到知识增强后的词语特征h_power；

S5：通过精确匹配层对知识增强后的词语特征h_power进行交互，得到全局的细粒度特征h_rnn、局部的细粒度特征h_cnn；

S6：将语义表征h_cls、全局的细粒度特征h_rnn、局部的细粒度特征h_cnn输入相似度匹配层，采用横向拼接的方式对多粒度特征进行融合，并经过Softmax函数进行文本匹配，得到用户的输入问题与标准问题之间的匹配程度，实现文本匹配分类。

优选的，对获取的文本进行预处理，具体包括：

对于文本中的外文字符，根据五十音图等外文字母表剔除外文字符；

对于文本中不规范的阿拉伯数字，通过构建数字词典，将文本中的阿拉伯数字规范化为标准形式；

对于文本中的繁体字，通过简体繁体字转换表，将文本中的繁体字转为简体字；

对于文本中未在BERT模型词表中出现的字，用[UNK]符号替换该字；

对于文本中的颜文字，构建颜文字库,过滤掉文本中的颜文字。

优选的，所述S4，具体包括：

S41：通过文本的拼音构建E_pin维的拼音embedding，拼音embedding经过宽度为4的卷积层后随机挑选三个向量，挑选相似的向量进行替换，得到将E_pin维的拼音特征h_pin；

S42：根据中文文本的词性初始化E_pos维的一个词性权重基于词性权重将文本的每个词的词性转为向量形式，得到E_po维的词性特征h_pos；

S43：将用户的输入问题和标准问题的依存关系转换为E_syntax维的邻接矩阵M_l1*l2，将词语表征h_last和邻接矩阵M_l1*l2输入6层的图注意力网络GAT中，得到E_syntax维的句法结构特征h_syntax；

S44：将E_pin维的拼音特征h_pin、E_pos维的词性特征h_pos、E_syntax维的句法结构特征h_syntax与h_last进行拼接，得到知识增强后的词语特征h_power。

进一步的，挑选相似的向量，表示为：

其中，j表示挑选出的相似向量，表示选择score分数最大的j列值，W^T表示可训练向量，H_j是拼音embedding的第j列向量，h_i表示被选中的需要替换的向量,[；]表示对向量按列拼接，/>表示元素按位相乘，score_ij表示h_i与H_j向量的相似度得分，E_pin表示拼音embedding的维度。

进一步的，拼音特征、词性特征、句法结构特征的具体维度，计算公式如下：

其中，E_name表示维度，entr_name表示特征信息熵k表示特征个数，p_name表示特征信息量权重，E_bert表示bert模型隐藏层维度，x_name表示数据集中name特征构成字典的大小,x_name′表示对xname进行归一化操作。

优选的，所述S5具体包括：精确匹配层包括循环神经网络层和分组卷积网络层，将知识增强后的词语特征h_power输入循环神经网络层中，交互时序信息，然后对此特征做最大池化和平均池化操作，以获得获取输入问题与标准问题之间全局的细粒度特征h_rnn；将知识增强后的词语特征h_power输入分组卷积网络层中，以卷积核Q尺度学习不同级别片段信息来强化对文本局部信息的辨识，最后获得输入问题与标准问题之间局部的细粒度特征h_cnn。

进一步的，循环神经网络的某时刻的时序信息，计算公式如下：

y^t＝sigmoid(W_y*h^t+b_y)

其中，y^t表示循环神经网络的t时刻的时序信息，sigmoid()表示sigmoid激活函数，W_y表示第一可训练权重，b_y表示第一偏差参数，h^t表示当前隐藏状态，h^t＝(1-z_t)⊙h^t+z_t⊙h′，h′表示当前时刻的候选状态，h′＝tanh(W_h′*[r_t⊙h^t-1；x_t]+b_h′)，tanh()表示tanh激活函数，W_h′表示第二可训练权重，h^t-1表示上一时刻的隐藏状态，x_t表示当前输入，b_h′表示第二偏差参数，r_t表示重置门状态，r_t＝sigmoid(W_r*[c_t-1⊙h^t-1；x_t]+b_r)，W_r表示的第三可训练权重，b_r表示第三偏差参数，表示记忆状态，c_t＝(1-z_t)⊙h^t，z_t表示更新门状态，z_t＝sigmoid(W_z*[h^t-1；x_t]+b_z)，W_z表示第四可训练权重，b_z表示第四偏差参数，*表示矩阵相乘，⊙表示按位点乘，[；]表示向量拼接。

进一步的，卷积核Q尺度的计算公式如下：

Q＝(channel₂,channel₁//group,k,k)，k＝{2，3，4}

其中，cannel₂表示输出时的维度，cannel₁表示输入时的维度，group表示分组的大小，k表示卷积核大小，μ表示卷积核的均值，σ表示卷积核的标准差，//表示当有小数产生时仅保留整数部分。

优选的，在相似度匹配层中，采用横向拼接的方式对多粒度特征进行融合，并经过Softmax函数进行文本匹配，得到用户的输入问题与标准问题之间的匹配程度，表示为：

γ＝Softmax(Linear(Concat(h_cls，h_rnn，h_cnn)))

其中，γ表示用户的输入问题与标准问题之间的匹配程度，h_cls表示句子表征特征，h_rnn表示全局细粒度特征，h_cnn表示局部细粒度特征,Concat()表示连接操作，Linear()表示将拼接后的向量维度为转化为维度为2的向量操作Softmax()表示激活函数。

本发明的有益效果：

1.利用BERT预训练模型自动从原始数据中抽取特征，使得提取到的特征更加符合实际需求，同时免去了大量人工提取特征的开销，节约了人工成本；

2.在BERT预训练模型提取的特征后面拼接了多特征多粒度额外知识，随后接入循环神经网络和卷积网络，对两个待匹配句子进行语义匹配和精确匹配，使得匹配结果更加精确，从而提高了问答匹配中标准问题的定位，提升了用户体验。

附图说明

图1为本发明的流程图；

图2为本发明的BERT_MF模型结构图；

图3为本发明的循环神经网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于人工智能的文本匹配方法，如图1所示，包括：

S2：建立BERT_MF模型，如图2所示，所述BERT_MF模型包括：BERT模型层、知识增强层、精确匹配层、相似度匹配层；

对获取的文本进行预处理，具体包括：

优选的，所述S4，具体包括：

S42：根据中文文本的词性初始化E_pos维的一个词性权重基于词性权重将文本的每个词的词性转为向量形式，得到E_pos维的词性特征h_pos；

S43：将用户的输入问题和标准问题的依存关系转换为E_syntax维的邻接矩阵M_l1*l2，将词语表征h_last和邻接矩阵M_l1*l2输入6层的图注意力网络GAT，得到E_syntax维的句法结构特征h_syntax；

挑选相似的向量，表示为：

拼音特征、词性特征、句法结构特征的具体维度，计算公式如下：

特征信息熵entr_name的计算方式如下：

其中，E_name表示维度，entr_name表示特征信息熵，k表示特征个数，p_name表示特征信息量权重，E_bert表示bert模型隐藏层维度，x_name表示数据集中name特征构成字典的大小,x_name′表示对xname进行归一化操作。

所述S5具体包括：精确匹配层包括循环神经网络层和分组卷积网络层，将知识增强后的词语特征h_power输入循环神经网络层中，交互时序信息，然后对此特征做最大池化和平均池化操作，以获得获取输入问题与标准问题之间全局的细粒度特征h_rnn；将知识增强后的词语特征h_power输入分组卷积网络层中，以卷积核Q尺度学习不同级别片段信息来强化对文本局部信息的辨识，最后获得输入问题与标准问题之间局部的细粒度特征h_cnn。

基于循环神经网络获得全局的细粒度特征向量h_rnn，全局细粒度特征向量h_rnn的计算表达式：

h_gru＝Concat(F_max(y)，F_mean(y))

其中，y表示循环神经网络层所有时间步的隐藏层状态，F_max表示对y进行最大池化操作，F_mean表示对S进行平均池化操作，Concat表示连接操作。

进一步的，循环神经网络的某时刻的时序信息，如图3所示，计算公式如下：

y^t＝sigmoid(W_y*h^t+b_y)

其中，

h^t＝(1-z_t)⊙h^t+z_t⊙h′

h′＝tanh(W_h′*[r_t⊙h^t-1；x_t]+b_h′)

r_t＝sigmoid(W_r*[c_t-1⊙h^t-1；x_t]+b_r)

z_t＝sigmoid(W_z*[h^t-1；x_t]+b_z)

c_t＝(1-z_t)⊙h^t

其中，y^t表示循环神经网络的t时刻的时序信息，sigmoid()表示sigmoid激活函数，W_y表示第一可训练权重，b_y表示第一偏差参数，h^t表示当前隐藏状态，h′表示当前时刻的候选状态，tanh()表示tanh激活函数，W_h′表示第二可训练权重，h^t-1表示上一时刻的隐藏状态，x_t表示当前输入，b_h′表示第二偏差参数，r_t表示重置门状态，W_r表示的第三可训练权重，b_r表示第三偏差参数，表示记忆状态，z_t表示更新门状态，W_z表示第四可训练权重，b_z表示第四偏差参数，*表示矩阵相乘，⊙表示按位点乘，[；]表示向量拼接。

卷积核Q尺度的计算公式如下：

Q＝(channel₂,channel₁//group,k,k)，k＝{2，3，4}

在相似度匹配层中，采用横向拼接的方式对多粒度特征进行融合，并经过Softmax函数进行文本匹配，得到用户的输入问题与标准问题之间的匹配程度，表示为：

γ＝Softmax(Linear(Concat(h_cls，h_rnn，h_cnn)))

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于人工智能的文本匹配方法，其特征在于，包括以下步骤：

S42：根据中文文本的词性初始化E_pos维的一个词性权重W_x*Epos，基于词性权重将文本的每个词的词性转为向量形式，得到E_pos维的词性特征h_pos；

S44：将E_pin维的拼音特征h_pin、E_pos维的词性特征h_pos、E_syntax维的句法结构特征h_syntax与h_last进行拼接，得到知识增强后的词语特征h_power；

精确匹配层包括循环神经网络层和分组卷积网络层，将知识增强后的词语特征h_power输入循环神经网络层中，交互时序信息，然后对此特征做最大池化和平均池化操作，以获得获取输入问题与标准问题之间全局的细粒度特征h_rnn；将知识增强后的词语特征h_power输入分组卷积网络层中，以卷积核Q尺度学习不同级别片段信息来强化对文本局部信息的辨识，最后获得输入问题与标准问题之间局部的细粒度特征h_cnn；

2.根据权利要求1所述的一种基于人工智能的文本匹配方法，其特征在于，对获取的文本进行预处理，具体包括：

对于文本中的颜文字，构建颜文字库，过滤掉文本中的颜文字。

3.根据权利要求1所述的一种基于人工智能的文本匹配方法，其特征在于，挑选相似的向量，表示为：

其中，j表示挑选出的相似向量，表示选择score分数最大的j列值，W^T表示可训练向量，H_j是拼音embedding的第j列向量，h_i表示被选中的需要替换的向量，[；]表示对向量按列拼接，/>表示元素按位相乘，score_ij表示h_i与H_j向量的相似度得分，E_pin表示拼音embedding的维度。

4.根据权利要求1所述的一种基于人工智能的文本匹配方法，其特征在于，拼音特征、词性特征、句法结构特征的具体维度，计算公式如下：

其中，E_name表示维度，entr_name表示特征信息熵k表示特征个数，p_name表示特征信息量权重，/>E_bert表示bert模型隐藏层维度，x_name表示数据集中name特征构成字典的大小，x_name′表示对xname进行归一化操作。

5.根据权利要求1所述的一种基于人工智能的文本匹配方法，其特征在于，循环神经网络的某时刻的时序信息，计算公式如下：

y^t＝sigmaid(W_y*h^t+b_y)

其中，y^t表示循环神经网络的t时刻的时序信息，sigmoid()表示sigmoid激活函数，W_y表示第一可训练权重，b_y表示第一偏差参数，h^t表示当前隐藏状态，h^t＝(1-z_t)⊙h^t+z_t⊙h′，h′表示当前时刻的候选状态，h′＝tanh(W_h′*[r_t⊙h^t-1；x_t]+b_h′)，tanh()表示tanh激活函数，W_h′表示第二可训练权重，h^t-1表示上一时刻的隐藏状态，x_t表示当前输入，b_h′表示第二偏差参数，r_t表示重置门状态，r_t＝sigmoid(W_r*[c_t-1⊙h^t-1；x_t]+b_r)，W_r表示的第三可训练权重，b_r表示第三偏差参数，表示记忆状态，c_t＝(1-z_t)⊙h^t，z_t表示更新门状态，W_z表示第四可训练权重，b_z表示第四偏差参数，*表示矩阵相乘，⊙表示按位点乘，[；]表示向量拼接。

6.根据权利要求1所述的一种基于人工智能的文本匹配方法，其特征在于，卷积核Q尺度的计算公式如下：

Q＝(channel₂，channel₁//group，k，k)，k＝{2，3，4}

其中，channel₂表示输出时的维度，channel₁表示输入时的维度，group表示分组的大小，k表示卷积核大小，μ表示卷积核的均值，σ表示卷积核的标准差，//表示当有小数产生时仅保留整数部分。

7.根据权利要求1所述的一种基于人工智能的文本匹配方法，其特征在于，在相似度匹配层中，采用横向拼接的方式对多粒度特征进行融合，并经过Softmax函数进行文本匹配，得到用户的输入问题与标准问题之间的匹配程度，表示为：

γ＝Softmax(Linear(Concat(h_cls，h_rnn，h_cnn)))

其中，γ表示用户的输入问题与标准问题之间的匹配程度，h_cls表示句子表征特征，h_rnn表示全局细粒度特征，h_cnn表示局部细粒度特征，Concat()表示连接操作，Linear()表示将拼接后的向量维度为转化为维度为2的向量操作Softmax()表示激活函数。