CN112232053A - 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 - Google Patents

一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 Download PDF

Info

Publication number
CN112232053A
CN112232053A CN202010970734.8A CN202010970734A CN112232053A CN 112232053 A CN112232053 A CN 112232053A CN 202010970734 A CN202010970734 A CN 202010970734A CN 112232053 A CN112232053 A CN 112232053A
Authority
CN
China
Prior art keywords
text
word
similarity
pair
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010970734.8A
Other languages
English (en)
Inventor
冯筠
卢鑫
孙霞
邓瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern University
Original Assignee
Northwestern University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern University filed Critical Northwestern University
Priority to CN202010970734.8A priority Critical patent/CN112232053A/zh
Publication of CN112232053A publication Critical patent/CN112232053A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质,对于文本P和Q,借助Word2vec、双向长短期记忆网络(BiLSTM)、注意力(Attention)机制以及双任务架构完成文本相似度计算。本发明通过WP‑Attention和双任务架构避免了噪声和冗余数据对模型性能的影响,模型结构简单、易于扩展、鲁棒性强,在实践中易于推广使用。

Description

一种基于多关键词对匹配的文本相似度计算系统、方法、及存 储介质
技术领域
本发明涉及文本挖掘和计算机技术领域,具体而言,涉及一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质。
背景技术
随着互联网和人工智能的迅速发展,互联网产生的信息呈现爆炸式的增长,人们迫切希望从海量信息中提取与自身需要和兴趣吻合度高的内容。为了满足此需求,出现了多种应用,如搜索引擎、自动问答系统、文档分类与聚类、文本信息检索等,而这些应用场景的关键技术之一就是文本相似度计算技术,这些应用的性能取决于句子相似度计算的准确性。
自然语言处理任务中的文本相似度旨在研究两个文本在语义层面的匹配程度,若相似度越大,则两者的之间越匹配;若相似度越小,则两者之间越不匹配。文本语义相似度计算的核心以及最大的难点就是语义理解,只有对文本具有很好的认知能力、理解能力,才能具备精准的计算能力。
文本相似度有着非常重要的意义,例如在某些特定领域(金融、医学)的自动问答系统,需要根据用户所描述的问题含义在已有数据库中进行检索匹配相关问题并返回最优答案,此时需要利用本文相似度技术计算最匹配的问题;在信息智能检索领域,搜索引擎需要对用户输入关键字的列出所有与该关键字相匹配的网页,并且利用文本相似度技术,对搜索结果进行进一步的处理,按照文本的相似度对搜索结果进行排序,以提高信息检索的质量。因此,研究文本相似度的算法具有重要的实际价值。
现有的文本相似度计算方法主要包括:基于词袋模型的方法、基于神经网络的方法、基于知识库的方法和基于句法分析的方法。这些方法都是通过捕获文本的语义向量来计算文本的相似度。这些方法都只是对文本对<P、Q>进行浅层的相似度计算并且忽略了文本对<P、Q>本身的特征:存在冗余信息和噪声,大大影响了文本对<P、Q>相似度计算的准确性。
发明内容
本发明的目的在于文本相似度计算现有技术存在缺陷或者不足,解决文本对<P、Q>存在的冗余和噪声问题,使用多种语义层面和词、句子两个粒度来对文本对<P、Q>进行相似度计算,本发明公开基于多关键词对匹配的文本相似度计算系统、方法、及存储介质。
为了实现上述任务,本发明采用如下技术方案予以实现:
一种基于多关键词对匹配的文本相似度计算系统,至少包括依次相连的:
文本预处理模块:将获取到的第一文本P、第二文本Q分别进行预处理,得到预处理后的文本对<P,Q>;
预训练模块:将文本对<P,Q>通过预训练得到每个词的词向量;
上下文模块:将预训练得到每个词的词向量进行语义编码,得到文本对<P,Q>的语义向量;
关键词对抽取模块:从文本对<P,Q>中抽取多个具有不同语义层面的关键词对;
词级别相似度计算模块:通过词级别的任务计算文本对<P,Q>词级别的相似度;
句子级别相似度计算模块:通过句子级别的任务计算文本对<P,Q>句子级别的相似度;
相似度结果输出模块:将文本对<P,Q>词级别的任务和句子级别的任务得到的相似度值经过权重加权求和,得到文本相似度值。
本发明还公开了一种基于多关键词对匹配的文本相似度计算方法,包括如下步骤:
步骤S1:将第一文本P、第二文本Q分别进行预处理,包括分词、去停用词处理,得到预处理后的文本对<P,Q>;
步骤S2:将预处理之后的文本对<P,Q>通过Word2vec预训练得到词向量;
步骤S3:将文本对<P,Q>进行词向量嵌入表示,然后使用BiLSTM得到文本对<P、Q>的上下文表示;
步骤S4:使用提出的WP-Attention机制从文本对<P,Q>中抽取多个具有不同语义层面的关键词对;
步骤S5:通过词级别的任务计算文本对<P,Q>词级别的相似度,即对每一个关键词对的语义向量进行相似度计算,再将结果求平均之后作为文本对<P,Q>词粒度的相似度;
步骤S6:通过句子级别的任务计算文本对<P,Q>句子级别的相似度,即首先对文本对<P,Q>进行去噪,仅保留抽取关键词,得到关键词序列,然后送入BiLSTM聚合得到文本对<P,Q>的句子语义向量,分别对文本P,Q的语义向量进行相似度的计算作为文本对<P,Q>句子粒度的相似度;
步骤S7:将步骤S5和S6得到的相似度值加权求和,得到最终的相似度值,输出结果。
本发明还可以应用制成任意一种计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本发明总体的基于多关键词对匹配的文本相似度计算方法。
本发明与现有技术相比有益的技术效果:
1.本方法通过抽取文本对<P,Q>关键词对,并且只使用这些关键词对来表示句子,避免了文本对<P,Q>中的冗余和噪声对相似度判断的影响。
2.本方法通过抽取不同层面的关键词对,来从多个层面计算文本对<P,Q>关键词的相似度,并且通过词级别的任务和句子级别的任务从词和句子两个粒度来计算文本对<P,Q>的相似度,使得结果更加准确。
3.本发明的模型结构简单、易于扩展、鲁棒性强,在实践中易于推广使用。
附图说明
图1是本发明的基于多关键词对匹配的文本相似度计算系统结构示意图。
图2是本发明的基于多关键词对匹配的文本相似度计算方法具体流程图。
图3是本发明的WP-Attention计算的结构示意图。
以下结合附图及具体实施方式,对本发明涉及的具体内容作进一步详细说明。
具体实施方式
参加图1,一种基于多关键词对匹配的文本相似度计算系统,至少包括依次相连的:
预处理模块:将获取到的文本P、文本Q分别进行预处理,得到预处理后的文本对<P,Q>;
预训练模块:将预处理之后的文本对<P、Q>通过预训练得到每个词的词向量;
上下文模块:将预训练得到每个词的词向量进行语义编码,得到文本对<P,Q>的语义向量;
关键词对抽取模块:从文本对<P,Q>中抽取多个具有不同语义层面的关键词对;
词级别相似度计算模块:通过词级别的任务计算文本对<P,Q>词级别的相似度;
句子级别相似度计算模块:通过句子级别的任务计算文本对<P,Q>句子级别的相似度;
相似度结果输出模块:将文本对<P,Q>词级别的任务和句子级别的任务得到的相似度值经过权重加权求和,得到文本相似度值。
所述的预处理模块,对原始数据集完成分词、去停用词,得到文本对<P,Q>。
进一步地,所述的预训练模块,预训练得到每个词的词向量为,使用Word2vec算法训练预处理后文本对<P,Q>的词-向量矩阵。
所述的上下文表示模块,首先对文本对<P,Q>序列进行词嵌入表示,然后将词嵌入表示通过一个BiLSTM得到文本对<P,Q>的上下文表示<hp,hq>。
进一步地,所述的关键词对抽取模块,提出一种基于词对的注意力机制WP-Attention来计算文本对<P、Q>对<P,Q>对P和Q的注意力分数,选择注意力分数最大的一组词作为关键词对<wp,wq>。使用不同的参数抽取多组表示不同语义层面的关键词对<wp k,wq k>,k=1,2,...,K。
所述的词级别相似度计算模块,通过词级别的任务计算对每一个关键词对的语义向量进行相似度计算,再将结果求平均之后作为文本对<P,Q>词粒度的相似度。
进一步地,句子级别相似度计算模块,首先进行去噪,即仅保留抽取的关键词,得到关键词序列,然后送入BiLSTM聚合得到文本对<P,Q>的句子语义向量,分别对文本P,Q的语义向量进行相似度的计算作为文本对<P,Q>句子粒度的相似度。
进一步地,所述的相似度结果输出模块,将文本对<P,Q>词级别的任务和句子级别的任务得到的相似度值经过权重加权求和,得到文本的相似度值。
参见图2所示:本发明还公开了一种基于多关键词对匹配的文本相似度计算方法,包括如下步骤:
步骤S1:将将文本P、文本Q分别进行预处理,包括分词、去停用词处理,得到预处理后的文本对<P,Q>。
步骤S2:将预处理之后的文本对<P,Q>通过Word2vec预训练得到词向量。
步骤S3:将文本对<P、Q>进行词向量嵌入表示,然后使用BiLSTM得到文本对<P、Q>的上下文表示;
步骤S4:使用提出的WP-Attention机制从文本对<P、Q>对中抽取多个具有多种语义层面的关键词对;
步骤S5:通过词级别的任务计算文本对<P,Q>词级别的相似度,即对每一个关键词对的语义向量进行相似度计算,再将结果求平均之后作为文本对<P,Q>词粒度的相似度;
步骤S6:通过句子级别的任务计算文本对<P,Q>句子级别的相似度,即首先对文本对<P,Q>进行去噪,仅保留抽取关键词,得到关键词序列,然后送入BiLSTM聚合得到文本对<P,Q>的句子语义向量,分别对文本P,Q的语义向量进行相似度的计算作为文本对<P,Q>句子粒度的相似度。
步骤S7:将步骤S5和S6得到的相似度值加权求和,得到最终的相似度值,输出结果。
以下结合本发明的基于多关键词对匹配的文本相似度计算方法各个分步骤,进一步解释说明本发明的整体技术构思。
步骤S1采用Jieba分词工具完成对文本对<P、Q>的分词,并对分词后的文本进行去停用词的操作,得到文本对<P,Q>。
步骤S2使用步骤S1预处理后的文本对<P,Q>作为训练语料,采用Word2vec算法预训练得到单词-向量矩阵wv_matrix,得到每个词到词向量的映射。
步骤S3进一步包含两个步骤:
步骤S3.1使用Word2vec预训练词向量,字向量和精确匹配标记拼接在一起作为文本对<P,Q>的嵌入表示<Ep,Eq>。
步骤S3.2将文本对<P、Q>的嵌入表示送入BiLSTM得到文本对<<P,Q>的上下文表示<hp,hq>;
hp=BiLSTM(Ep) (1)
hq=BiLSTM(Eq) (2)
本发明的步骤S3.1进一步包括如下4个步骤,对于文本对<P、Q>中每个词w:
步骤S3.1.1根据预训练得到的单词-向量矩阵,得到词的向量表示
E1=wv_matrix(w) (3)
步骤S3.1.2将w的每个字初始化为字向量,然后将字向量序列送入LSTM网络得到w的字向量表示;
E2=char_LSTM(w) (4)
步骤S3.1.3标记P和Q中相同的词和近义词,如果P和Q中的存在相同词或者近义词,就将其标记为1,否则标记为0。
E3=flag(w) (5)
步骤S3.1.4将E1,E2,E3级联在一起作为P和Q的嵌入表示。
E(w)=[E1,E2,E3] (6)
E=[E(w1),E(w2),...,E(wl)] (7)
其中,wi表示文本对<P、Q>第i个词,l表示文本对<P、Q>的长度,E表示文本的嵌入表示;
进一步地,本发明的步骤S4包含3个步骤:
步骤S4.1提出计算文本对<P、Q>对P和Q中每个词的注意力分数的WP-Attention。参见图3,对于P中的词Wp,如果它具有较大的WP-Attention,它应该具有如下三个特征:1、自身具有丰富的特征。2、在P中很重要。3、对Q的影响很大。具体的,这三个特征分别由:P自身的特征hp、P对P的注意力分数
Figure BDA0002683933100000061
Q对P的注意力分数
Figure BDA0002683933100000062
的注意力分数决定,通过这三部分加权求和,然后通过Softmax函数计算<P,Q>对P和Q每个词的注意力权重,选择权值最大的一对作为关键词对。
步骤S4.2计算<P,Q>中每个词的WP-Attention,得到每个词的注意力权重αp和αq
步骤S4.3选择中α最大的一组词作为一组关键词对。
wp=hp t,t=index(max(αp)) (8)
wq=hq t,t=index(max(αq)) (9)
其中,<wp,wq>即为抽取的关键词对。使用不同的参数抽取多组包含不同语义层面的关键词对<wp k,wq k>,k=1,2,...,K。
本发明的步骤S4.1进一步包括如下2个步骤:
步骤S4.1.1通过式子(8,9)计算每个<P,Q>对P和Q的每个词的WP-Attention:
Figure BDA0002683933100000063
Figure BDA0002683933100000064
其中Wpp,Wqp,Wp,Wqq,Wpq,Wq,Wd是可训练参数矩阵,tanh是激活函数,wap和waq分别表示<P,Q>对P和Q的每个词的WP-Attention。
步骤S4.1.2通过Softmax函数计算每个<P,Q>对P和Q的每个词注意力权重,如式(12-13)所示:
Figure BDA0002683933100000071
Figure BDA0002683933100000072
其中αp和αq表示<P,Q>对P和Q的每个词注意力权重。
进一步地,本发明的步骤S5包含2个步骤:
步骤S5.1对每个关键词<wp k,wq k>的语义向量进行交互得到交互向量Fw
Figure BDA0002683933100000074
其中k=1,2,...,K表示关键词对的编号,
Figure BDA0002683933100000075
表示第k对关键词对的交互向量。
步骤S5.2使用多层感知机(MLP)对交互向量
Figure BDA0002683933100000076
进行拟合得到每组关键词对的相似度,求平均值作为<P,Q>词级别相似度:
Figure BDA0002683933100000073
进一步地,本发明的步骤S6包含2个步骤:
步骤S6.1对文本对<P,Q>进行去噪,得到关键词序列,然后送入BiLSTM将最后一个时间步的输出作为句子的语义向量<Vp,Vq>。
步骤S6.2将<Vp,Vq>进行交互,得到文本对<P,Q>句子级别的交互向量Fs
Fs=[Vp k,Vq k,Vp k+Vq k,Vp k-Vq k,|Vp k-Vq k|] (16)
步骤S6.3使用多层感知机(MLP)对交互向量Fs进行拟合得到文本对<P,Q>句子级别相似度。
similaritys<P,Q>=MLP(Fs) (17)
步骤S7将similarityw<P,Q>和similaritys<P,Q>加权求和得到最终文本对<P,Q>的相似度;
similarity<P,Q>=β*similaritys<P,Q>+(1-β)*similarityw<P,Q> (18)
其中β是句子级别的任务所占的权重,(1-β)是词级别的任务所占的权重,作为超参数进行调节。
为了对文本相似度计算的结果进行评估,本发明设计了一组实验,利用一个经典的文本相似度判断的数据集来衡量两个文本的语义相似度,也就是BQ语料库。此外,在和其他人提出的方法进行对比时,使用的对比评价指标是分类准确率Accuracy。
公共数据集BQ语料库是用于句子对语义相似度判断的中文银行问题对数据集,BQ语料库由WeBank中的真实客户服务系统构建而成。在数据集中,如果两个问题表达相同的意图或共享相同的答案,那么这两个问题在语义上是等同的,并标记为1。否则,说明这两个问题具有不同的意图,并标记为0。
因此,实验目的就是判断问题对是否相似,预测出问题对的标签,并和真实标记进行对比,计算出预测成功的准确率。
其中BQ数据集包含120,000个问题对,分为三部分:100,000对用于训练,10,000对用于验证,其余用于测试。
如图下表所示,是在BQ数据集上准确率计算的结果的对比表。
Figure BDA0002683933100000081
其中对比的baseline中,Text-CNN是用于句子分类的典型卷积神经网络(CNN)模型,BiLSTM是一个双向LSTM网络,适合捕获文本的长依赖关系。BiMPM是用于自然语言句子匹配的良好性能的双边多视角匹配模型。DIIN是用于自然语言推理(NLI)的密集交互推理网络。DRCN是一个密集连接的深度RNN网络,是近两年在文本相似度效果最好的方法。
发明同时计算了词级别和句子级别的相似度,并且在词级别相似度计算时对每一个关键词对的语义向量进行相似度计算,最后再将两个任务的相似度值加权求和,得到最终的结果。
从对比结果中可以看出,对比上述baseline,本发明在BQ数据集上的准确率是最高的,比经典文本相似度计算方法BiMPM 1.9个百分点,比DRCN方法高出0.6%,实验表明本发明的文本相似度计算方法十分有效。

Claims (16)

1.一种基于多关键词对匹配的文本相似度计算系统,其特征在于,至少包括依次相连的:
文本预处理模块:将获取到的第一文本P、第二文本Q分别进行预处理,得到预处理后的文本对<P,Q>;
预训练模块:将文本对<P,Q>通过预训练得到每个词的词向量;
上下文模块:将预训练得到每个词的词向量进行语义编码,得到文本对<P,Q>的语义向量;
关键词对抽取模块:从文本对<P,Q>中抽取多个具有不同语义层面的关键词对;
词级别相似度计算模块:通过词级别的任务计算文本对<P,Q>词级别的相似度;
句子级别相似度计算模块:通过句子级别的任务计算文本对<P,Q>句子级别的相似度;
相似度结果输出模块:将文本对<P,Q>词级别的任务和句子级别的任务得到的相似度值经过权重加权求和,得到文本相似度值。
2.如权利要求1所述的基于多关键词对匹配的文本相似度计算系统,其特征在于:所述的预处理模块,对原始数据集完成分词、去停用词,得到文本对<P,Q>。
3.如权利要求1所述的基于多关键词对匹配的文本相似度计算系统,其特征在于:所述的预训练得到每个词的词向量为,使用Word2vec算法训练预处理后文本对<P,Q>的词-向量矩阵。
4.如权利要求1所述的基于多关键词对匹配的文本相似度计算系统,其特征在于:所述的上下文表示模块,首先对文本对<P,Q>序列进行词嵌入表示,然后将词嵌入表示通过一个BiLSTM得到文本对<P,Q>的上下文表示<hp,hq>。
5.如权利要求1所述的基于多关键词对匹配的文本相似度计算系统,其特征在于:所述的关键词对抽取模块,提出一种基于词对的注意力机制WP-Attention来计算文本对<P,Q>对P和Q的注意力分数,选择注意力分数最大的一组词作为关键词对<wp,wq>,使用不同的参数抽取多组表示不同语义层面的关键词对<wp k,wq k>,k=1,2,...,K。
6.如权利要求1所述的基于多关键词对匹配的文本相似度计算系统,其特征在于:所述的词级别相似度计算模块,通过词级别的任务计算对每一个关键词对的语义向量进行相似度计算,再将结果求平均之后作为文本对<P,Q>词粒度的相似度。
7.如权利要求1所述的基于多关键词对匹配的文本相似度计算系统,其特征在于:所述的句子级别相似度计算模块,首先进行去噪,即仅保留抽取的关键词,得到关键词序列,然后送入BiLSTM聚合得到文本对<P,Q>的句子语义向量,分别对文本P,Q的语义向量进行相似度的计算作为文本对<P,Q>句子粒度的相似度。
8.一种基于多关键词对匹配的文本相似度计算方法,其特征在于:包括如下步骤:
步骤S1:将第一文本P、第二文本Q分别进行预处理,包括分词、去停用词处理,得到预处理后的文本对<P,Q>;
步骤S2:将预处理之后的文本对<P,Q>通过Word2vec预训练得到词向量;
步骤S3:将文本对<P,Q>进行词向量嵌入表示,然后使用BiLSTM得到文本对<P,Q>的上下文表示;
步骤S4:使用提出的WP-Attention机制从文本对<P,Q>中抽取多个具有不同语义层面的关键词对;
步骤S5:通过词级别的任务计算文本对<P,Q>词级别的相似度,即对每一个关键词对的语义向量进行相似度计算,再将结果求平均之后作为文本对<P,Q>词粒度的相似度;
步骤S6:通过句子级别的任务计算文本对<P,Q>句子级别的相似度,即首先对文本对<P,Q>进行去噪,仅保留抽取关键词,得到关键词序列,然后送入BiLSTM聚合得到文本对<P,Q>的句子语义向量,分别对文本P,Q的语义向量进行相似度的计算作为文本对<P,Q>句子粒度的相似度;
步骤S7:将步骤S5和S6得到的相似度值加权求和,得到最终的相似度值,输出结果。
9.如权利要求8所述的基于基于多关键词对匹配的文本相似度计算方法,其特征在于:所述的步骤S1采用Jieba分词工具完成对文本对<P、Q>的分词,并对分词后的文本进行去停用词的操作,得到文本对<P,Q>。
10.如权利要求8所述的基于基于多关键词对匹配的文本相似度计算方法,其特征在于:步骤S2使用步骤S1预处理后的文本对<P,Q>作为训练语料,采用Word2vec算法预训练得到单词-向量矩阵wv_matrix,得到每个词到词向量的映射。
11.如权利要求8所述的基于基于多关键词对匹配的文本相似度计算方法,其特征在于:所述的步骤S3进一步包含如下步骤:
步骤S3.1使用Word2vec预训练词向量,字向量和精确匹配标记拼接在一起作为文本对<P,Q>的嵌入表示<Ep,Eq>;
步骤S3.2将文本对<P,Q>的嵌入表示送入BiLSTM得到文本对<P,Q>的嵌入的上下文表示<hp,hq>,如式(1-2)所示;
hp=BiLSTM(Ep) (1)
hq=BiLSTM(Eq) (2)
所述的步骤S3.1进一步包括如下步骤,对于文本对<P,Q>中每个词记为w:
步骤S3.1.1根据预训练得到的单词-向量矩阵,得到词的向量表示,如式(3)所示。
E1=wv_matrix(w) (3)
步骤S3.1.2将w的每个字初始化为字向量,然后将字向量序列送入LSTM网络得到w的字向量表示,如式(4)所示;
E2=char_LSTM(w) (4)
步骤S3.1.3标记P和Q中相同的词和近义词,如果P和Q中的存在相同词或者近义词,就将其标记为1,否则标记为0,如式子(5)所示:
E3=flag(w) (5)
步骤S3.1.4将E1,E2,E3级联在一起作为P和Q的嵌入表示,如式子(6-7)所示:
E(w)=[E1,E2,E3] (6)
E=[E(w1),E(w2),...,E(wl)] (7)
其中,wi表示文本对<P、Q>第i个词,l表示文本对<P、Q>的长度,E表示文本的嵌入表示。
12.如权利要求8所述的基于多关键词对匹配的文本相似度计算方法,其特征在于:所述的步骤S4包含如下步骤:
步骤S4.1提出计算文本对<P,Q>对P和Q中每个词的注意力分数的WP-Attention,分别计算P自身的特征hp、P对P的注意力分数
Figure FDA0002683933090000032
Q对P的注意力分数
Figure FDA0002683933090000031
通过这三部分加权求和,然后通过Softmax函数计算文本对<P,Q>对P和Q每个词的注意力权重,选择权值最大的一对作为关键词对;
步骤S4.2计算文本对<P,Q>中每个词的WP-Attention,得到每个词的注意力权重αp和αq
步骤S4.3选择中α最大的一组词作为一组关键词对,如式(8-9)所示。
wp=hp t,t=index(max(αp)) (8)
wq=hq t,t=index(max(αq)) (9)
其中,<wp,wq>即为抽取的关键词对;使用不同的参数抽取多组包含不同语义层面的关键词对<wp k,wq k>,k=1,2,...,K;
所述的步骤S4.1进一步包括如下步骤:
步骤S4.1.1通过式(8,,9)计算文本对<P,Q>对P和Q的每个词的WP-Attention:
Figure FDA0002683933090000041
Figure FDA0002683933090000042
其中Wpp,Wqp,Wp,Wqq,Wpq,Wq,Wd是可训练参数矩阵,tanh是激活函数,wap和waq分别表示文本对<P,Q>对P和Q的每个词的WP-Attention;
步骤S4.1.2通过Softmax函数计算文本对<P,Q>对P和Q的每个词注意力权重,如式(12-13)所示:
Figure FDA0002683933090000043
Figure FDA0002683933090000044
其中αp和αq表示文本对<P,Q>对P和Q的每个词注意力权重。
13.如权利要求8所述的基于多关键词对匹配的文本相似度计算方法,其特征在于:所述的步骤S5进一步包括如下步骤:
步骤S5.1对每个关键词<wp k,wq k>的语义向量进行交互得到交互向量Fw,如式(14)所示:
Figure FDA0002683933090000047
其中k=1,2,...,K表示关键词对的编号,
Figure FDA0002683933090000045
表示第k对关键词对的交互向量;
步骤S5.2使用多层感知机对交互向量
Figure FDA0002683933090000046
进行拟合得到每组关键词对的相似度,求平均值作为文本对<P,Q>词级别相似度,如式(15)所示:
Figure FDA0002683933090000051
14.如权利要求8所述的基于多关键词对匹配的文本相似度计算方法,其特征在于:所述的步骤S6进一步包括如下个步骤:
步骤S6.1对文本对<P,Q>进行去噪,得到关键词序列,然后送入BiLSTM将最后一个时间步的输出作为句子的语义向量<Vp,Vq>;
步骤S6.2将句子的语义向量<Vp,Vq>进行交互,得到文本对<P,Q>句子级别的交互向量Fs,如式(16)所示:
Fs=[Vp k,Vq k,Vp k+Vq k,Vp k-Vq k,|Vp k-Vq k|] (16)
步骤S6.3使用多层感知机对交互向量Fs进行拟合得到文本对<P,Q>句子级别相似度,如式(17)所示:
similaritys<P,Q>=MLP(Fs) (17)。
15.如权利要求8所述的基于多关键词对匹配的文本相似度计算方法,其特征在于:所述的步骤S7将similarityw<P,Q>和similaritys<P,Q>加权求和得到最终文本对<P,Q>的相似度,如式(18)所示:
similarity<P,Q>=β*similaritys<P,Q>+(1-β)*similarityw<P,Q> (18)
其中β是句子级别的任务所占的权重,(1-β)是词级别的任务所占的权重,作为超参数进行调节。
16.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求8-15中的任意所述的基于多关键词对匹配的文本相似度计算方法。
CN202010970734.8A 2020-09-16 2020-09-16 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 Pending CN112232053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010970734.8A CN112232053A (zh) 2020-09-16 2020-09-16 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010970734.8A CN112232053A (zh) 2020-09-16 2020-09-16 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质

Publications (1)

Publication Number Publication Date
CN112232053A true CN112232053A (zh) 2021-01-15

Family

ID=74117159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010970734.8A Pending CN112232053A (zh) 2020-09-16 2020-09-16 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质

Country Status (1)

Country Link
CN (1) CN112232053A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765960A (zh) * 2021-02-07 2021-05-07 成都新潮传媒集团有限公司 一种文本匹配方法、装置及计算机设备
CN113283230A (zh) * 2021-06-24 2021-08-20 中国平安人寿保险股份有限公司 文本相似度计算模型的更新方法、装置、设备及存储介质
CN113408267A (zh) * 2021-06-23 2021-09-17 沈阳雅译网络技术有限公司 一种基于预训练模型的词对齐性能提升方法
CN114595306A (zh) * 2022-01-26 2022-06-07 西北大学 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法
CN114742029A (zh) * 2022-04-20 2022-07-12 中国传媒大学 一种汉语文本比对方法、存储介质及设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765960A (zh) * 2021-02-07 2021-05-07 成都新潮传媒集团有限公司 一种文本匹配方法、装置及计算机设备
CN113408267A (zh) * 2021-06-23 2021-09-17 沈阳雅译网络技术有限公司 一种基于预训练模型的词对齐性能提升方法
CN113408267B (zh) * 2021-06-23 2023-09-01 沈阳雅译网络技术有限公司 一种基于预训练模型的词对齐性能提升方法
CN113283230A (zh) * 2021-06-24 2021-08-20 中国平安人寿保险股份有限公司 文本相似度计算模型的更新方法、装置、设备及存储介质
CN113283230B (zh) * 2021-06-24 2023-02-03 中国平安人寿保险股份有限公司 文本相似度计算模型的更新方法、装置、设备及存储介质
CN114595306A (zh) * 2022-01-26 2022-06-07 西北大学 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法
CN114595306B (zh) * 2022-01-26 2024-04-12 西北大学 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法
CN114742029A (zh) * 2022-04-20 2022-07-12 中国传媒大学 一种汉语文本比对方法、存储介质及设备

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN110427461B (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN111930942B (zh) 文本分类方法、语言模型训练方法、装置及设备
CN110287323B (zh) 一种面向目标的情感分类方法
CN111797196B (zh) 一种结合注意力机制lstm和神经主题模型的服务发现方法
CN111930887B (zh) 基于联合训练方式的多文档多答案机器阅读理解系统
CN111914097A (zh) 基于注意力机制和多层级特征融合的实体抽取方法与装置
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN111291188A (zh) 一种智能信息抽取方法及系统
CN114428850B (zh) 一种文本检索匹配方法和系统
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114298055B (zh) 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN111914553A (zh) 一种基于机器学习的金融信息负面主体判定的方法
Liu et al. Improved Chinese sentence semantic similarity calculation method based on multi-feature fusion
CN114282592A (zh) 一种基于深度学习的行业文本匹配模型方法及装置
CN111723572B (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN112988970A (zh) 一种服务于智能问答系统的文本匹配算法
CN112579739A (zh) 基于ELMo嵌入与门控自注意力机制的阅读理解方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
Putra et al. Textual Entailment Technique for the Bahasa Using BiLSTM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination