CN112232053A

CN112232053A - 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质

Info

Publication number: CN112232053A
Application number: CN202010970734.8A
Authority: CN
Inventors: 冯筠; 卢鑫; 孙霞; 邓瑶
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2021-01-15

Abstract

本发明提出了一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质，对于文本P和Q，借助Word2vec、双向长短期记忆网络(BiLSTM)、注意力(Attention)机制以及双任务架构完成文本相似度计算。本发明通过WP‑Attention和双任务架构避免了噪声和冗余数据对模型性能的影响，模型结构简单、易于扩展、鲁棒性强，在实践中易于推广使用。

Description

一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质

技术领域

本发明涉及文本挖掘和计算机技术领域，具体而言，涉及一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质。

背景技术

随着互联网和人工智能的迅速发展，互联网产生的信息呈现爆炸式的增长，人们迫切希望从海量信息中提取与自身需要和兴趣吻合度高的内容。为了满足此需求，出现了多种应用，如搜索引擎、自动问答系统、文档分类与聚类、文本信息检索等，而这些应用场景的关键技术之一就是文本相似度计算技术，这些应用的性能取决于句子相似度计算的准确性。

自然语言处理任务中的文本相似度旨在研究两个文本在语义层面的匹配程度，若相似度越大，则两者的之间越匹配；若相似度越小，则两者之间越不匹配。文本语义相似度计算的核心以及最大的难点就是语义理解，只有对文本具有很好的认知能力、理解能力，才能具备精准的计算能力。

文本相似度有着非常重要的意义，例如在某些特定领域(金融、医学)的自动问答系统，需要根据用户所描述的问题含义在已有数据库中进行检索匹配相关问题并返回最优答案，此时需要利用本文相似度技术计算最匹配的问题；在信息智能检索领域，搜索引擎需要对用户输入关键字的列出所有与该关键字相匹配的网页，并且利用文本相似度技术，对搜索结果进行进一步的处理，按照文本的相似度对搜索结果进行排序，以提高信息检索的质量。因此，研究文本相似度的算法具有重要的实际价值。

现有的文本相似度计算方法主要包括：基于词袋模型的方法、基于神经网络的方法、基于知识库的方法和基于句法分析的方法。这些方法都是通过捕获文本的语义向量来计算文本的相似度。这些方法都只是对文本对<P、Q>进行浅层的相似度计算并且忽略了文本对<P、Q>本身的特征：存在冗余信息和噪声，大大影响了文本对<P、Q>相似度计算的准确性。

发明内容

本发明的目的在于文本相似度计算现有技术存在缺陷或者不足，解决文本对<P、Q>存在的冗余和噪声问题，使用多种语义层面和词、句子两个粒度来对文本对<P、Q>进行相似度计算，本发明公开基于多关键词对匹配的文本相似度计算系统、方法、及存储介质。

为了实现上述任务，本发明采用如下技术方案予以实现：

一种基于多关键词对匹配的文本相似度计算系统，至少包括依次相连的：

文本预处理模块：将获取到的第一文本P、第二文本Q分别进行预处理，得到预处理后的文本对<P，Q>；

预训练模块：将文本对<P，Q>通过预训练得到每个词的词向量；

上下文模块：将预训练得到每个词的词向量进行语义编码，得到文本对<P，Q>的语义向量；

关键词对抽取模块：从文本对<P，Q>中抽取多个具有不同语义层面的关键词对；

词级别相似度计算模块：通过词级别的任务计算文本对<P，Q>词级别的相似度；

句子级别相似度计算模块：通过句子级别的任务计算文本对<P，Q>句子级别的相似度；

相似度结果输出模块：将文本对<P，Q>词级别的任务和句子级别的任务得到的相似度值经过权重加权求和，得到文本相似度值。

本发明还公开了一种基于多关键词对匹配的文本相似度计算方法，包括如下步骤：

步骤S1：将第一文本P、第二文本Q分别进行预处理，包括分词、去停用词处理，得到预处理后的文本对<P，Q>；

步骤S2：将预处理之后的文本对<P，Q>通过Word2vec预训练得到词向量；

步骤S3：将文本对<P，Q>进行词向量嵌入表示，然后使用BiLSTM得到文本对<P、Q>的上下文表示；

步骤S4：使用提出的WP-Attention机制从文本对<P，Q>中抽取多个具有不同语义层面的关键词对；

步骤S5：通过词级别的任务计算文本对<P，Q>词级别的相似度，即对每一个关键词对的语义向量进行相似度计算，再将结果求平均之后作为文本对<P，Q>词粒度的相似度；

步骤S6：通过句子级别的任务计算文本对<P，Q>句子级别的相似度，即首先对文本对<P，Q>进行去噪，仅保留抽取关键词，得到关键词序列，然后送入BiLSTM聚合得到文本对<P，Q>的句子语义向量，分别对文本P，Q的语义向量进行相似度的计算作为文本对<P，Q>句子粒度的相似度；

步骤S7：将步骤S5和S6得到的相似度值加权求和，得到最终的相似度值，输出结果。

本发明还可以应用制成任意一种计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本发明总体的基于多关键词对匹配的文本相似度计算方法。

本发明与现有技术相比有益的技术效果：

1.本方法通过抽取文本对<P，Q>关键词对，并且只使用这些关键词对来表示句子，避免了文本对<P，Q>中的冗余和噪声对相似度判断的影响。

2.本方法通过抽取不同层面的关键词对，来从多个层面计算文本对<P，Q>关键词的相似度，并且通过词级别的任务和句子级别的任务从词和句子两个粒度来计算文本对<P，Q>的相似度，使得结果更加准确。

3.本发明的模型结构简单、易于扩展、鲁棒性强，在实践中易于推广使用。

附图说明

图1是本发明的基于多关键词对匹配的文本相似度计算系统结构示意图。

图2是本发明的基于多关键词对匹配的文本相似度计算方法具体流程图。

图3是本发明的WP-Attention计算的结构示意图。

以下结合附图及具体实施方式，对本发明涉及的具体内容作进一步详细说明。

具体实施方式

参加图1，一种基于多关键词对匹配的文本相似度计算系统，至少包括依次相连的：

预处理模块：将获取到的文本P、文本Q分别进行预处理，得到预处理后的文本对<P，Q>；

预训练模块：将预处理之后的文本对<P、Q>通过预训练得到每个词的词向量；

所述的预处理模块，对原始数据集完成分词、去停用词，得到文本对<P，Q>。

进一步地，所述的预训练模块，预训练得到每个词的词向量为，使用Word2vec算法训练预处理后文本对<P，Q>的词-向量矩阵。

所述的上下文表示模块，首先对文本对<P，Q>序列进行词嵌入表示，然后将词嵌入表示通过一个BiLSTM得到文本对<P，Q>的上下文表示<h^p，h^q>。

进一步地，所述的关键词对抽取模块，提出一种基于词对的注意力机制WP-Attention来计算文本对<P、Q>对<P，Q>对P和Q的注意力分数，选择注意力分数最大的一组词作为关键词对<w^p，w^q>。使用不同的参数抽取多组表示不同语义层面的关键词对<w^p _k，w^q _k>，k＝1，2，...，K。

所述的词级别相似度计算模块，通过词级别的任务计算对每一个关键词对的语义向量进行相似度计算，再将结果求平均之后作为文本对<P，Q>词粒度的相似度。

进一步地，句子级别相似度计算模块，首先进行去噪，即仅保留抽取的关键词，得到关键词序列，然后送入BiLSTM聚合得到文本对<P，Q>的句子语义向量，分别对文本P，Q的语义向量进行相似度的计算作为文本对<P，Q>句子粒度的相似度。

进一步地，所述的相似度结果输出模块，将文本对<P，Q>词级别的任务和句子级别的任务得到的相似度值经过权重加权求和，得到文本的相似度值。

参见图2所示：本发明还公开了一种基于多关键词对匹配的文本相似度计算方法，包括如下步骤：

步骤S1：将将文本P、文本Q分别进行预处理，包括分词、去停用词处理，得到预处理后的文本对<P，Q>。

步骤S2：将预处理之后的文本对<P，Q>通过Word2vec预训练得到词向量。

步骤S3：将文本对<P、Q>进行词向量嵌入表示，然后使用BiLSTM得到文本对<P、Q>的上下文表示；

步骤S4：使用提出的WP-Attention机制从文本对<P、Q>对中抽取多个具有多种语义层面的关键词对；

步骤S6：通过句子级别的任务计算文本对<P，Q>句子级别的相似度，即首先对文本对<P，Q>进行去噪，仅保留抽取关键词，得到关键词序列，然后送入BiLSTM聚合得到文本对<P，Q>的句子语义向量，分别对文本P，Q的语义向量进行相似度的计算作为文本对<P，Q>句子粒度的相似度。

以下结合本发明的基于多关键词对匹配的文本相似度计算方法各个分步骤，进一步解释说明本发明的整体技术构思。

步骤S1采用Jieba分词工具完成对文本对<P、Q>的分词，并对分词后的文本进行去停用词的操作，得到文本对<P，Q>。

步骤S2使用步骤S1预处理后的文本对<P，Q>作为训练语料，采用Word2vec算法预训练得到单词-向量矩阵wv_matrix，得到每个词到词向量的映射。

步骤S3进一步包含两个步骤：

步骤S3.1使用Word2vec预训练词向量，字向量和精确匹配标记拼接在一起作为文本对<P，Q>的嵌入表示<E^p，E^q>。

步骤S3.2将文本对<P、Q>的嵌入表示送入BiLSTM得到文本对<<P，Q>的上下文表示<h^p，h^q>；

h^p＝BiLSTM(E^p) (1)

h^q＝BiLSTM(E^q) (2)

本发明的步骤S3.1进一步包括如下4个步骤，对于文本对<P、Q>中每个词w：

步骤S3.1.1根据预训练得到的单词-向量矩阵，得到词的向量表示

E1＝wv_matrix(w) (3)

步骤S3.1.2将w的每个字初始化为字向量，然后将字向量序列送入LSTM网络得到w的字向量表示；

E2＝char_LSTM(w) (4)

步骤S3.1.3标记P和Q中相同的词和近义词，如果P和Q中的存在相同词或者近义词，就将其标记为1，否则标记为0。

E3＝flag(w) (5)

步骤S3.1.4将E1，E2，E3级联在一起作为P和Q的嵌入表示。

E(w)＝[E1，E2，E3] (6)

E＝[E(w₁)，E(w₂)，...，E(w_l)] (7)

其中，w_i表示文本对<P、Q>第i个词，l表示文本对<P、Q>的长度，E表示文本的嵌入表示；

进一步地，本发明的步骤S4包含3个步骤：

步骤S4.1提出计算文本对<P、Q>对P和Q中每个词的注意力分数的WP-Attention。参见图3，对于P中的词Wp，如果它具有较大的WP-Attention，它应该具有如下三个特征：1、自身具有丰富的特征。2、在P中很重要。3、对Q的影响很大。具体的，这三个特征分别由：P自身的特征h^p、P对P的注意力分数

Q对P的注意力分数

的注意力分数决定，通过这三部分加权求和，然后通过Softmax函数计算<P，Q>对P和Q每个词的注意力权重，选择权值最大的一对作为关键词对。

步骤S4.2计算<P，Q>中每个词的WP-Attention，得到每个词的注意力权重α^p和α^q。

步骤S4.3选择中α最大的一组词作为一组关键词对。

w^p＝h^p _t，t＝index(max(α^p)) (8)

w^q＝h^q _t，t＝index(max(α^q)) (9)

其中，<w^p，w^q>即为抽取的关键词对。使用不同的参数抽取多组包含不同语义层面的关键词对<w^p _k，w^q _k>，k＝1，2，...，K。

本发明的步骤S4.1进一步包括如下2个步骤：

步骤S4.1.1通过式子(8，9)计算每个<P，Q>对P和Q的每个词的WP-Attention：

其中W_pp，W_qp，W_p，W_qq，W_pq，W_q，W_d是可训练参数矩阵，tanh是激活函数，wa^p和wa^q分别表示<P，Q>对P和Q的每个词的WP-Attention。

步骤S4.1.2通过Softmax函数计算每个<P，Q>对P和Q的每个词注意力权重，如式(12-13)所示：

其中α^p和α^q表示<P，Q>对P和Q的每个词注意力权重。

进一步地，本发明的步骤S5包含2个步骤：

步骤S5.1对每个关键词<w^p _k，w^q _k>的语义向量进行交互得到交互向量F_w：

其中k＝1，2，...，K表示关键词对的编号，

表示第k对关键词对的交互向量。

步骤S5.2使用多层感知机(MLP)对交互向量

进行拟合得到每组关键词对的相似度，求平均值作为<P，Q>词级别相似度：

进一步地，本发明的步骤S6包含2个步骤：

步骤S6.1对文本对<P，Q>进行去噪，得到关键词序列，然后送入BiLSTM将最后一个时间步的输出作为句子的语义向量<V^p，V^q>。

步骤S6.2将<V^p，V^q>进行交互，得到文本对<P，Q>句子级别的交互向量F_s。

F_s＝[V^p _k，V^q _k，V^p _k+V^q _k，V^p _k-V^q _k，|V^p _k-V^q _k|] (16)

步骤S6.3使用多层感知机(MLP)对交互向量F_s进行拟合得到文本对<P，Q>句子级别相似度。

similarity_s<P，Q>＝MLP(F_s) (17)

步骤S7将similarity_w<P，Q>和similarity_s<P，Q>加权求和得到最终文本对<P，Q>的相似度；

similarity_<P，Q>＝β*similarity_s<P，Q>+(1-β)*similarity_w<P，Q> (18)

其中β是句子级别的任务所占的权重，(1-β)是词级别的任务所占的权重，作为超参数进行调节。

为了对文本相似度计算的结果进行评估，本发明设计了一组实验，利用一个经典的文本相似度判断的数据集来衡量两个文本的语义相似度，也就是BQ语料库。此外，在和其他人提出的方法进行对比时，使用的对比评价指标是分类准确率Accuracy。

公共数据集BQ语料库是用于句子对语义相似度判断的中文银行问题对数据集，BQ语料库由WeBank中的真实客户服务系统构建而成。在数据集中，如果两个问题表达相同的意图或共享相同的答案，那么这两个问题在语义上是等同的，并标记为1。否则，说明这两个问题具有不同的意图，并标记为0。

因此，实验目的就是判断问题对是否相似，预测出问题对的标签，并和真实标记进行对比，计算出预测成功的准确率。

其中BQ数据集包含120,000个问题对，分为三部分：100,000对用于训练，10,000对用于验证，其余用于测试。

如图下表所示，是在BQ数据集上准确率计算的结果的对比表。

其中对比的baseline中，Text-CNN是用于句子分类的典型卷积神经网络(CNN)模型，BiLSTM是一个双向LSTM网络，适合捕获文本的长依赖关系。BiMPM是用于自然语言句子匹配的良好性能的双边多视角匹配模型。DIIN是用于自然语言推理(NLI)的密集交互推理网络。DRCN是一个密集连接的深度RNN网络，是近两年在文本相似度效果最好的方法。

发明同时计算了词级别和句子级别的相似度，并且在词级别相似度计算时对每一个关键词对的语义向量进行相似度计算，最后再将两个任务的相似度值加权求和，得到最终的结果。

从对比结果中可以看出，对比上述baseline，本发明在BQ数据集上的准确率是最高的，比经典文本相似度计算方法BiMPM 1.9个百分点，比DRCN方法高出0.6％，实验表明本发明的文本相似度计算方法十分有效。

Claims

1.一种基于多关键词对匹配的文本相似度计算系统，其特征在于，至少包括依次相连的：

2.如权利要求1所述的基于多关键词对匹配的文本相似度计算系统，其特征在于：所述的预处理模块，对原始数据集完成分词、去停用词，得到文本对<P，Q>。

3.如权利要求1所述的基于多关键词对匹配的文本相似度计算系统，其特征在于：所述的预训练得到每个词的词向量为，使用Word2vec算法训练预处理后文本对<P，Q>的词-向量矩阵。

4.如权利要求1所述的基于多关键词对匹配的文本相似度计算系统，其特征在于：所述的上下文表示模块，首先对文本对<P，Q>序列进行词嵌入表示，然后将词嵌入表示通过一个BiLSTM得到文本对<P，Q>的上下文表示<h^p，h^q>。

5.如权利要求1所述的基于多关键词对匹配的文本相似度计算系统，其特征在于：所述的关键词对抽取模块，提出一种基于词对的注意力机制WP-Attention来计算文本对<P，Q>对P和Q的注意力分数，选择注意力分数最大的一组词作为关键词对<w^p，w^q>，使用不同的参数抽取多组表示不同语义层面的关键词对<w^p _k，w^q _k>，k＝1，2，...，K。

6.如权利要求1所述的基于多关键词对匹配的文本相似度计算系统，其特征在于：所述的词级别相似度计算模块，通过词级别的任务计算对每一个关键词对的语义向量进行相似度计算，再将结果求平均之后作为文本对<P，Q>词粒度的相似度。

7.如权利要求1所述的基于多关键词对匹配的文本相似度计算系统，其特征在于：所述的句子级别相似度计算模块，首先进行去噪，即仅保留抽取的关键词，得到关键词序列，然后送入BiLSTM聚合得到文本对<P，Q>的句子语义向量，分别对文本P，Q的语义向量进行相似度的计算作为文本对<P，Q>句子粒度的相似度。

8.一种基于多关键词对匹配的文本相似度计算方法，其特征在于：包括如下步骤：

步骤S3：将文本对<P，Q>进行词向量嵌入表示，然后使用BiLSTM得到文本对<P，Q>的上下文表示；

9.如权利要求8所述的基于基于多关键词对匹配的文本相似度计算方法，其特征在于：所述的步骤S1采用Jieba分词工具完成对文本对<P、Q>的分词，并对分词后的文本进行去停用词的操作，得到文本对<P，Q>。

10.如权利要求8所述的基于基于多关键词对匹配的文本相似度计算方法，其特征在于：步骤S2使用步骤S1预处理后的文本对<P，Q>作为训练语料，采用Word2vec算法预训练得到单词-向量矩阵wv_matrix，得到每个词到词向量的映射。

11.如权利要求8所述的基于基于多关键词对匹配的文本相似度计算方法，其特征在于：所述的步骤S3进一步包含如下步骤：

步骤S3.1使用Word2vec预训练词向量，字向量和精确匹配标记拼接在一起作为文本对<P，Q>的嵌入表示<E^p，E^q>；

步骤S3.2将文本对<P，Q>的嵌入表示送入BiLSTM得到文本对<P，Q>的嵌入的上下文表示<h^p，h^q>，如式(1-2)所示；

h^p＝BiLSTM(E^p) (1)

h^q＝BiLSTM(E^q) (2)

所述的步骤S3.1进一步包括如下步骤，对于文本对<P，Q>中每个词记为w：

步骤S3.1.1根据预训练得到的单词-向量矩阵，得到词的向量表示，如式(3)所示。

E1＝wv_matrix(w) (3)

步骤S3.1.2将w的每个字初始化为字向量，然后将字向量序列送入LSTM网络得到w的字向量表示，如式(4)所示；

E2＝char_LSTM(w) (4)

步骤S3.1.3标记P和Q中相同的词和近义词，如果P和Q中的存在相同词或者近义词，就将其标记为1，否则标记为0，如式子(5)所示：

E3＝flag(w) (5)

步骤S3.1.4将E1，E2，E3级联在一起作为P和Q的嵌入表示，如式子(6-7)所示：

E(w)＝[E1，E2，E3] (6)

E＝[E(w₁)，E(w₂)，...，E(w_l)] (7)

其中，w_i表示文本对<P、Q>第i个词，l表示文本对<P、Q>的长度，E表示文本的嵌入表示。

12.如权利要求8所述的基于多关键词对匹配的文本相似度计算方法，其特征在于：所述的步骤S4包含如下步骤：

步骤S4.1提出计算文本对<P，Q>对P和Q中每个词的注意力分数的WP-Attention，分别计算P自身的特征h^p、P对P的注意力分数

Q对P的注意力分数

通过这三部分加权求和，然后通过Softmax函数计算文本对<P，Q>对P和Q每个词的注意力权重，选择权值最大的一对作为关键词对；

步骤S4.2计算文本对<P，Q>中每个词的WP-Attention，得到每个词的注意力权重α^p和α^q。

步骤S4.3选择中α最大的一组词作为一组关键词对，如式(8-9)所示。

w^p＝h^p _t，t＝index(max(α^p)) (8)

w^q＝h^q _t，t＝index(max(α^q)) (9)

其中，<w^p，w^q>即为抽取的关键词对；使用不同的参数抽取多组包含不同语义层面的关键词对<w^p _k，w^q _k>，k＝1，2，...，K；

所述的步骤S4.1进一步包括如下步骤：

步骤S4.1.1通过式(8，，9)计算文本对<P，Q>对P和Q的每个词的WP-Attention：

其中W_pp，W_qp，W_p，W_qq，W_pq，W_q，W_d是可训练参数矩阵，tanh是激活函数，wa^p和wa^q分别表示文本对<P，Q>对P和Q的每个词的WP-Attention；

步骤S4.1.2通过Softmax函数计算文本对<P，Q>对P和Q的每个词注意力权重，如式(12-13)所示：

其中α^p和α^q表示文本对<P，Q>对P和Q的每个词注意力权重。

13.如权利要求8所述的基于多关键词对匹配的文本相似度计算方法，其特征在于：所述的步骤S5进一步包括如下步骤：

步骤S5.1对每个关键词<w^p _k，w^q _k>的语义向量进行交互得到交互向量F_w，如式(14)所示：

其中k＝1，2，...，K表示关键词对的编号，

表示第k对关键词对的交互向量；

步骤S5.2使用多层感知机对交互向量

进行拟合得到每组关键词对的相似度，求平均值作为文本对<P，Q>词级别相似度，如式(15)所示：

14.如权利要求8所述的基于多关键词对匹配的文本相似度计算方法，其特征在于：所述的步骤S6进一步包括如下个步骤：

步骤S6.1对文本对<P，Q>进行去噪，得到关键词序列，然后送入BiLSTM将最后一个时间步的输出作为句子的语义向量<V^p，V^q>；

步骤S6.2将句子的语义向量<V^p，V^q>进行交互，得到文本对<P，Q>句子级别的交互向量F_s，如式(16)所示：

F_s＝[V^p _k，V^q _k，V^p _k+V^q _k，V^p _k-V^q _k，|V^p _k-V^q _k|] (16)

步骤S6.3使用多层感知机对交互向量F_s进行拟合得到文本对<P，Q>句子级别相似度，如式(17)所示：

similarity_s<P，Q>＝MLP(F_s) (17)。

15.如权利要求8所述的基于多关键词对匹配的文本相似度计算方法，其特征在于：所述的步骤S7将similarity_w<P，Q>和similarity_s<P，Q>加权求和得到最终文本对<P，Q>的相似度，如式(18)所示：

similarity_<P，Q>＝β*similarity_s<P，Q>+(1-β)*similarity_w<P，Q> (18)

16.一种存储有计算机可读指令的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求8-15中的任意所述的基于多关键词对匹配的文本相似度计算方法。