CN113239666A - 一种文本相似度计算方法及系统 - Google Patents

一种文本相似度计算方法及系统 Download PDF

Info

Publication number
CN113239666A
CN113239666A CN202110523688.1A CN202110523688A CN113239666A CN 113239666 A CN113239666 A CN 113239666A CN 202110523688 A CN202110523688 A CN 202110523688A CN 113239666 A CN113239666 A CN 113239666A
Authority
CN
China
Prior art keywords
text
sim
similarity
vector
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110523688.1A
Other languages
English (en)
Other versions
CN113239666B (zh
Inventor
洪声建
谭鹄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhiling Times Technology Co ltd
Original Assignee
Shenzhen Zhiling Times Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhiling Times Technology Co ltd filed Critical Shenzhen Zhiling Times Technology Co ltd
Priority to CN202110523688.1A priority Critical patent/CN113239666B/zh
Publication of CN113239666A publication Critical patent/CN113239666A/zh
Application granted granted Critical
Publication of CN113239666B publication Critical patent/CN113239666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及文本匹配技术领域,更具体地,涉及一种文本相似度计算方法。用于解决口语话表达和书面化文本之间匹配精度低的问题。此种文本相似度计算方法,包括获取第一文本、第一文本的关键词以及第二文本;对所述第一文本和第二文本进行文本特征抽取;根据抽取到的所述文本特征,通过计算字符串相似度和/或语义相似度来确定文本相似度得分。通过上述技术方案,以实现口语化表达与书面化文本之间的高精度匹配的技术效果。

Description

一种文本相似度计算方法及系统
技术领域
本发明涉及文本匹配技术领域,更具体地,涉及一种文本相似度计算方法及系统。
背景技术
智能陪练是一种人机交互应用,利用NLP技术和相关领域知识,虚拟出一个相关领域下的业务人,让使用者在特定场景下进行人机交互。通常涉及智能问答系统,目前,智能问答系统广泛应用于服务领域,一种可选的智能问答流程包括:预先将用户的常见问(Frequently Asked Questions,FAQ)整理形成问题库,并将问题库以及其中每个问题对应的答案存储在智能问答系统中,当智能问答系统接收到用户输入的问题时,从问题库中匹配与输入问题最接近的目标问题,进而,向用户显示目标问题对应的答案。
由于在智能陪练场景下,相关领域知识的表述通常以书面化形式给出,表述形式较为正式。但是在使用者层面,通常在学会书面表述的内在逻辑后,更倾向于用各自习惯的口语形式进行表述。这样会造成利用传统的文本相似度算法得出较低的匹配结果。在智能陪练场景下,这种结果通常是不可接受的。同时,智能陪练场景对响应速度有较高的要求,智能问答系统还需要完成匹配运算,以快速应答使用者。
现有技术中,常见的相似度计算方法有基于统计句子特征,如词频、词序、词性等的距离计算方法以及通过深度语言模型表征的距离计算方法,以及专利文献CN111813927A中所采用的基于主题模型和LSTM的句子相似度计算方法,都不能解决口语化表达和书面化文本之间匹配精度低的问题,并且由于运算量较大,完成匹配的速度较慢,不能很好地适应智能陪练场景。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷(不足),提供一种文本相似度计算方法,用于解决口语话表达和书面化文本之间匹配精度低的问题,以实现口语化表达与书面化文本之间的高精度匹配的技术效果,并满足在智能陪练场景里快速反馈的用户需求。
本发明采取的技术方案是,一种文本相似度计算方法,包括:获取第一文本、第一文本的关键词以及第二文本;对所述第一文本和第二文本进行文本特征抽取;根据抽取到的所述文本特征,通过计算字符串相似度charsim和/或语义相似度semanticsim来确定文本相似度得分;其中,对所述第一文本和第二文本进行文本特征抽取,具体包括:用分词器对所述第一文本和第二文本分别进行分词,得到所述第一文本的分词序列seqa和第二文本的分词序列seqq;用语言模型对所述第一文本和第二文本进行语义向量空间编码,得到所述第一文本的句向量veca和第二文本的句向量vecq;通过词性标注和向量编码得到所述第一文本的词性序列向量
Figure BDA0003065010670000021
和第二文本的词性序列向量
Figure BDA0003065010670000022
用主题模型对所述第一文本和第二文本进行主题抽取,得到所述第一文本的主题词序列topica和第二文本的主题词序列topicq,再将所述topica、topicq进行转换得到第一文本的主题句向量
Figure BDA0003065010670000023
和第二文本的主题句向量
Figure BDA0003065010670000024
所述根据抽取到的所述文本特征,通过计算字符串相似度charsim和/或语义相似度semanticsim来确定文本相似度得分的步骤具体包括:根据所述第一文本的分词序列seqa和第二文本的分词序列seqq计算字符串相似度charsim;判断所述字符串相似度charsim是否大于或等于预估阈值α;是则以所述字符串相似度charsim作为文本相似度得分;否则根据所述第一文本的句向量veca、第二文本的句向量vecq、第一文本的词性序列向量
Figure BDA0003065010670000025
第二文本的词性序列向量
Figure BDA0003065010670000026
第一文本的主题句向量
Figure BDA0003065010670000027
和第二文本的主题句向量
Figure BDA0003065010670000028
计算语义相似度semanticsim,以语义相似度semanticsim作为文本相似度得分。
所述第一文本为智能陪练场景下的标准答案文本,即书面化文本;所述第二文本为用户输入的答案文本,即口语化文本;其中,标准答案文本是预先根据领域相关知识设定的参照文本,标准答案中的关键词是标准答案中权重更高的文本内容;其中,用户输入答案文本是在用户陪练过程中结合当前场景和表达习惯表达出的待匹配文本。通过字符串相似度和/或语义相似度相结合的方式来计算文本相似度的最终得分,一方面能利用字符串匹配的高精确性满足输入泛化较为简单的情形,另一方面通过语义关联关系,有效提高了口语化文本与书面化文本之间匹配精度。
对所述第一文本和第二文本进行分词时,可以同时采用一个或多个分词器分别对所述第一文本和第二文本进行分词,并可以保留多个不同的结果;所述seqa和seqq如下:
Figure BDA0003065010670000031
其中ai,qi为seqa和seqq中的词,n为seqa包含的词个数,m为seqq包含的词个数,且n,m∈Rn
用语言模型LM对所述第一文本和第二文本进行句向量编码,得到veca和vecq
Figure BDA0003065010670000032
其中veca为所述第一文本的句向量,vecq为第二文本的句向量;所述语言模型是预先训练好的,其中veca和vecq为维度相同的浮点数向量,且所述维度为正整数。
用主题模型TextRank对所述第一文本和第二文本进行主题抽取,得到topica和topicq
Figure BDA0003065010670000033
其中topica为所述第一文本的主题词序列,topicq为第二文本的主题词序列,再利用词向量模型SKIP_GRAM以及TF_IDF模型对所述topica、topicq进行转换得到
Figure BDA0003065010670000034
Figure BDA0003065010670000035
Figure BDA0003065010670000036
其中
Figure BDA0003065010670000037
为第一文本的主题句向量,
Figure BDA0003065010670000038
为第二文本的主题句向量。
用词性标注模型POS对对所述第一文本和第二文本进行词性标注,得到词性序列后再利用Bag-of-Word的形式对词性进行编码得到
Figure BDA0003065010670000039
Figure BDA00030650106700000310
Figure BDA00030650106700000311
其中
Figure BDA00030650106700000312
为所述第一文本的词性编码向量,
Figure BDA00030650106700000313
为第二文本的词性编码向量。
所述预估阈值α预先进行设定,并根据预估阈值和字符串相似度确定最终的所述文本相似度得分,若字符串相似度大于或等于α,表明用户输入的答案文本与标准答案文本高度相似,无需再计算复杂的语义相似度,直接根据标准答案文本应答使用者,提高反馈速度,从分词序列的交集个数和关键词在分词序列中出现的次数这两个维度来计算字符串的相似度,提高了字符串相似度的匹配精度;若字符串相似度小于α,表明用户输入的答案文本与标准答案文本高度具有一定区别,需要慎重选择对应的标准答案文本,以保证匹配准确度,此时从句向量之间的距离、词性序列向量之间的距离以及主题句向量之间的距离这三个维度来计算语义相似度,提高了语义相似度的计算精度;同时,词性序列向量将文本按照词性划分词语,简化了词语维度的分析,降低系统的运算量,提高了对字符串相似度低的文本的匹配效率。
进一步地,所述通过词性标注和向量编码得到所述第一文本的词性序列向量
Figure BDA0003065010670000041
和第二文本的词性序列向量
Figure BDA0003065010670000042
具体为:用词性标注模型对所述第一文本和第二文本进行词性标注,得到所述第一文本的词性序列posa和所述第二文本的词性序列posq,再用Bag-of-words编码方式对所述posa和posq进行编码得到第一文本的词性序列向量
Figure BDA0003065010670000043
和第二文本的词性序列向量
Figure BDA0003065010670000044
所述
Figure BDA0003065010670000045
形如[1,0,2,0,0,…,1],其中
Figure BDA0003065010670000046
Figure BDA0003065010670000047
的长度取决于参与计算的词性的总个数,每一维的数字代表在特定词性下,该词性的个数。
进一步地,所述将所述topica、topicq进行转换得到主题句向量
Figure BDA0003065010670000048
Figure BDA0003065010670000049
具体为:将所述topica中的每个词按照其在所述第一文本中的顺序进行排列并拼接在一起得到新的topica,将所述topicq中的每个词按照其在所述第二文本中的顺序进行排列并拼接在一起得到新的topicq,再用词向量模型skip_gram以及tf_idf模型对所述新的topica和topicq进行词向量编码和词性权重计算,再将得到的词向量和词权重进行加权平均后得到主题句向量
Figure BDA00030650106700000410
Figure BDA00030650106700000411
进一步地,所述语言模型具体为:在大规模自然语言上通过随机掩盖部分词语或者句子,并利用深度神经网络对所述掩盖部分进行预测训练得到的模型。
通过对语言模型进行科学的训练,使得通过语言模型进行句向量编码得到编码更加科学的句向量,从而提高了所述第一文本和第二文本的句向量的匹配精度。
进一步地,所述根据所述第一文本的分词序列seqa和第二文本的分词序列seqq计算字符串相似度charsim,具体为:计算所述第一文本的分词序列seqa和第二文本的分词序列seqq的交集个数simn,以及所述关键词在所述seqq中出现的次数keyk;根据所述simn和keyk计算字符串相似度charsim,所述字符串相似度charsim的计算公式为:
Figure BDA0003065010670000051
其中n为seqa的长度、k为seqa序列中基于业务需求所定义的关键字个数、w1和w2为设定好的参数。
进一步地,所述根据所述第一文本的句向量veca、第二文本的句向量vecq、第一文本的词性序列向量
Figure BDA0003065010670000052
第二文本的词性序列向量
Figure BDA0003065010670000053
第一文本的主题句向量
Figure BDA0003065010670000054
和第二文本的主题句向量
Figure BDA0003065010670000055
计算语义相似度semanticsim,具体为:计算所述第一文本的句向量veca和第二文本的句向量vecq之间的距离,记为distancesentence;计算所述第一文本的词性序列向量
Figure BDA0003065010670000056
和第二文本的词性序列向量
Figure BDA0003065010670000057
之间的距离,记为distancepos;计算所述第一文本的主题句向量
Figure BDA0003065010670000058
和第二文本的主题句向量
Figure BDA0003065010670000059
之间的距离,记为distancetopic;根据公式:
Figure BDA00030650106700000510
semanticsim=t1*distancesenyence+t2*distancepos+t3*distancetopic
计算语义相似度semanticsim,其中t1、t2、t3为设定的参数且t1+t2+t3=1。
综上,最终的文本相似度得分sim计算公式如下:
Figure BDA00030650106700000511
与现有技术相比,本发明的有益效果为:本发明通过采用字符串相似度和基于深度语言模型抽取的语义特征相似度相结合的方式,一方面能利用字符串匹配的高精确性满足输入泛化较为简单的情形,另一方面通过语义关联关系,解决口语化匹配问题,相对于传统匹配方法,能大大提高智能陪练产品用户的使用体验;同时,从多个维度进行文本特征抽取,根据多个维度的文本特征抽取结果来计算字符串相似度和/或语义相似度,进一步提高了口语化表达和书面化文本之间的匹配精度。
附图说明
图1为本发明实施例提供的文本相似度计算方法流程图。
图2为本发明实施例提供的文本特征抽取流程图。
图3为本发明实施例提供的确定文本相似度得分流程图。
图4为本发明实施例提供的计算语义相似度流程图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例1
如图1所示,本实施例一种文本相似度计算方法,包括:
S1.获取第一文本、第一文本的关键词以及第二文本;
所述第一文本为智能陪练场景下的标准答案文本,即书面化文本;所述第二文本为用户输入的答案文本,即口语化文本;其中,标准答案文本是预先根据领域相关知识设定的参照文本,标准答案中的关键词是标准答案中权重更高的文本内容;其中,用户输入答案文本是在用户陪练过程中结合当前场景和表达习惯表达出的待匹配文本。所述第一文本的关键词为多个,同时可以为每一个关键词设定同义词集合,即关键词={同义词1,同义词2,同义词3,…}。
S2.对所述第一文本和第二文本进行文本特征抽取。
S21.如图2所示,用分词器对所述第一文本和第二文本分别进行分词,得到所述第一文本的分词序列seqa和第二文本的分词序列seqq
对所述第一文本和第二文本进行分词时,可以同时采用一个或多个分词器分别对所述第一文本和第二文本进行分词,并可以保留多个不同的结果;所述seqa=[a1,a2,…,an],所述seqq=[q1,q2,…,qn]。
S22.用语言模型对所述第一文本和第二文本进行句向量编码,得到所述第一文本的句向量veca和第二文本的句向量vecq
本实施例使用的语言模型为语言模型LM,其是预先训练好的,其中veca和vecq为维度相同的浮点数向量,且所述维度为正整数,用语言模型LM对所述第一文本和第二文本进行句向量编码,得到:
Figure BDA0003065010670000071
S23.通过词性标注和向量编码得到所述第一文本的词性序列向量
Figure BDA0003065010670000072
和第二文本的词性序列向量
Figure BDA0003065010670000073
本实施例用词性标注模型POS对所述第一文本和第二文本进行词性标注,得到所述第一文本的词性序列posa和所述第二文本的词性序列posq,再用Bag-of-words编码方式对所述posa和posq进行编码得到第一文本的词性序列向量
Figure BDA0003065010670000074
和第二文本的词性序列向量
Figure BDA0003065010670000075
即:
Figure BDA0003065010670000076
所述Bag-of-words编码方式使用的词性集合为自然语言语法中常见的词性(例如名词、动词、形容词、副词、介词等),对于词性序列的顺序并无特殊要求,只需保持每次所述第一文本和第二文本匹配时使用的顺序一致即可。
所述
Figure BDA0003065010670000077
形如[1,0,2,0,0,…,1],其中
Figure BDA0003065010670000078
Figure BDA0003065010670000079
的长度取决于参与计算的词性的总个数,每一维的数字代表在特定词性下该词性的个数。
S24.用主题模型对所述第一文本和第二文本进行进行主题抽取,得到所述第一文本的主题词序列topica和第二文本的主题词序列topicq,再将所述topica、topicq进行转换得到第一文本的主题句向量
Figure BDA00030650106700000710
和第二文本的主题句向量
Figure BDA00030650106700000711
本实施例的主题模型为TextRank对所述第一文本和第二文本进行主题抽取:
Figure BDA00030650106700000712
从主题维度对所述第一文本和第二文本进行文本特征抽取。所述topica、topicq均为词列表,所述主题模型为基于概率统计学方法,利用大规模通用语料训练得到的TextRank模型。本实施例再利用词向量模型SKIP_GRAM以及TF_IDF模型对所述topica、topicq进行转换得到:
Figure BDA0003065010670000081
将所述topica中的每个词按照其在所述第一文本进行排列并拼接在一起得到新的topica,将所述topicq中的每个词按照其在所述第二文本中的顺序进行排列并拼接在一起得到新的topicq,再用语言模型对所述新的topica和topicq进行句向量编码得到主题句向量
Figure BDA0003065010670000082
Figure BDA0003065010670000083
所述语言模型为在大规模自然语言上通过随机掩盖部分词语或者句子,并利用深度神经网络对所述掩盖部分进行预测训练得到的模型。通过对语言模型进行科学的训练,使得通过语言模型进行句向量编码得到编码更加科学的句向量,从而提高了所述第一文本和第二文本的句向量的匹配精度。
S3.根据抽取到的所述文本特征,通过计算字符串相似度和/或语义相似度来确定文本相似度得分sim。
S31.如图3所示,计算所述第一文本的分词序列seqa和第二文本的分词序列seqq的交集个数simn,以及所述关键词在所述seqq中出现的次数keyk
S32.根据所述simn和keyk计算字符串相似度,所述字符串相似度charsim=w1*simn/n+w2*keyk/k,其中n为simn的长度、k为keyk的长度、w1和w2为设定好的参数且w1+w2=1。
从分词序列的交集个数和关键词在分词序列中出现的次数这两个维度来计算字符串的相似度,提高了字符串相似度的匹配精度。
S33.当所述字符串相似度charsim的值大于等于预估阈值α时,所述字符串相似度charsim的值为所述文本相似度得分sim。
S34.当所述字符串相似度charsim的值小于预估阈值α时,计算语义相似度semanticsim,所述语义相似度semanticsim的值为所述文本相似度得分sim。
S341.如图4所示,计算所述第一文本的句向量veca和第二文本的句向量vecq之间的距离,记为distancesentence
S342.计算所述第一文本的词性序列向量
Figure BDA0003065010670000084
和第二文本的词性序列向量
Figure BDA0003065010670000085
之间的距离,记为distancepos
S343.计算所述第一文本的主题句向量
Figure BDA0003065010670000091
和第二文本的主题句向量
Figure BDA0003065010670000092
之间的距离,记distancetopic
S344.根据公式semanticsim=t1*distancesentence+t2*distancepos+t3*distancetopic计算语义相似度semanticsim
本实施例计算所述第一文本的主题句向量
Figure BDA0003065010670000093
和第二文本的主题句向量
Figure BDA0003065010670000094
的公式为:
Figure BDA0003065010670000095
其中,t1、t2、t3为设定的参数且t1+t2+t3=1。
从句向量之间的距离、词性序列向量之间的距离以及主题句向量之间的距离这三个维度来计算语义相似度,提高了语义相似度的计算精度。其中针对距离的计算算法可采用欧氏距离或或余弦距离或径向基距离。
最终,本实施例文本相似度得分sim的计算公式如下:
Figure BDA0003065010670000096
本实施例本发明中所表述的大规模通用语料,具体为各日常新闻渠道,百科,各领域评论网站及各科研机构公开发表的训练语料。所使用的语言涉及中文,英文等。
本发明实施例通过采用字符串相似度和基于深度语言模型抽取的语义特征相似度相结合的方式,一方面能利用字符串匹配的高精确性满足输入泛化较为简单的情形,另一方面通过语义关联关系,解决口语化匹配问题,相对于传统匹配方法,能大大提高智能陪练产品用户的使用体验;同时,从多个维度进行文本特征抽取,根据多个维度的文本特征抽取结果来计算字符串相似度和/或语义相似度,进一步提高了口语化表达和书面化文本之间的匹配精度。
实施例2
本实施例提供一种文本相似度计算系统,所述文本相似度计算系统包括:
文本获取单元,用于获取第一文本、第一文本的关键字以及第二文本;
文本特征抽取单元,用于对所述第一文本和第二文本进行特征抽取;
文本相似度计算单元,用于根据所述第一文本和第二文本的特征抽取结果计算文本相似度得分sim。
所述文本相似度计算系统实现如实施例1所述的一种文本相似度计算方法。
基于实施例1所述的一种文本相似度计算方法,本实施例还提供一种文本相似度计算设备和一种计算机可读存储介质。
所述文本相似度计算设备包括处理器和存储器,所述存储器,用于存储程序指令;所述处理器,用于调用并执行所述存储器中存储的程序指令,以使所述文本相似度计算设备执行实施例1所述的文本相似度计算方法。
所述计算机可读存储介质包括指令,当其在计算机上运行时,使得所述计算机执行实施例1所述的文本相似度计算方法。
需要说明的是,本说明书中术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种文本相似度计算方法,其特征在于,所述方法包括:
获取第一文本、第一文本的关键词以及第二文本;
对所述第一文本和第二文本进行文本特征抽取;
根据抽取到的所述文本特征,通过计算字符串相似度charsim和/或语义相似度semanticsim来确定文本相似度得分sim;
其中,所述对所述第一文本和第二文本进行文本特征抽取,所述文本特征抽取的步骤具体包括:
用分词器对所述第一文本和第二文本分别进行分词,得到所述第一文本的分词序列seqa和第二文本的分词序列seqq
用语言模型对所述第一文本和第二文本进行句向量编码,得到所述第一文本的句向量veca和第二文本的句向量vecq
通过词性标注和向量编码得到所述第一文本的词性序列向量
Figure FDA0003065010660000011
和第二文本的词性序列向量
Figure FDA0003065010660000012
用主题模型对所述第一文本和第二文本进行进行主题抽取,得到所述第一文本的主题词序列topica和第二文本的主题词序列topicq,再将所述topica、topicq进行转换得到第一文本的主题句向量
Figure FDA0003065010660000013
和第二文本的主题句向量
Figure FDA0003065010660000014
所述根据抽取到的所述文本特征,通过计算字符串相似度charsim和/或语义相似度semanticsim来确定文本相似度得分sim的步骤具体包括:
根据所述第一文本的分词序列seqa和第二文本的分词序列seqq计算字符串相似度charsim
判断所述字符串相似度charsim是否大于或等于预估阈值α;
是则以所述字符串相似度charsim作为文本相似度得分sim;
否则根据所述第一文本的句向量veca、第二文本的句向量vecq、第一文本的词性序列向量
Figure FDA0003065010660000015
第二文本的词性序列向量
Figure FDA0003065010660000016
第一文本的主题句向量
Figure FDA0003065010660000017
和第二文本的主题句向量
Figure FDA0003065010660000018
计算语义相似度semanticsim,以语义相似度semanticsim作为文本相似度得分sim。
2.根据权利要求1所述的一种文本相似度计算方法,其特征在于,
所述通过词性标注和向量编码得到所述第一文本的词性序列向量
Figure FDA0003065010660000021
和第二文本的词性序列向量
Figure FDA0003065010660000022
具体为:
用词性标注模型对所述第一文本和第二文本进行词性标注,得到所述第一文本的词性序列posa和所述第二文本的词性序列posq,再用Bag-of-words编码方式对所述posa和posq进行编码得到第一文本的词性序列向量
Figure FDA0003065010660000023
和第二文本的词性序列向量
Figure FDA0003065010660000024
3.根据权利要求1所述的一种文本相似度计算方法,其特征在于,
所述将所述topica、topicq进行转换得到主题句向量
Figure FDA0003065010660000025
Figure FDA0003065010660000026
具体为:
将所述topica中的每个词按照其在所述第一文本中的顺序进行排列并拼接在一起得到新的topica,将所述topicq中的每个词按照其在所述第二文本中的顺序进行排列并拼接在一起得到新的topicq,再用语言模型对所述新的topica和topicq进行句向量编码得到主题句向量
Figure FDA0003065010660000027
Figure FDA0003065010660000028
4.根据权利要求1所述的一种文本相似度计算方法,其特征在于,
所述语言模型具体为:
在大规模自然语言上通过随机掩盖部分词语或者句子,并利用深度神经网络对所述掩盖部分进行预测训练得到的模型。
5.根据权利要求1所述的一种文本相似度计算方法,其特征在于,
所述根据所述第一文本的分词序列seqa和第二文本的分词序列seqq计算字符串相似度charsim,具体为:
计算所述第一文本的分词序列seqa和第二文本的分词序列seqq的交集个数simn,以及所述关键词在所述seqq中出现的次数keyk
根据所述simn和keyk计算字符串相似度charsim,所述字符串相似度
charsim=w1*simn/n+w2*keyk/k,其中n为simn的长度、k为keyk的长度、w1和w2为设定好的参数且w1+w2=1。
6.根据权利要求1所述的一种文本相似度计算方法,其特征在于,
所述根据所述第一文本的句向量veca、第二文本的句向量vecq、第一文本的词性序列向量
Figure FDA0003065010660000031
第二文本的词性序列向量
Figure FDA0003065010660000032
第一文本的主题句向量
Figure FDA0003065010660000033
和第二文本的主题句向量
Figure FDA0003065010660000034
计算语义相似度semanticsim,具体为:
计算所述第一文本的句向量veca和第二文本的句向量vecq之间的距离,记为distancesentence
计算所述第一文本的词性序列向量
Figure FDA0003065010660000035
和第二文本的词性序列向量
Figure FDA0003065010660000036
之间的距离,记为distancepos
计算所述第一文本的主题句向量
Figure FDA0003065010660000037
和第二文本的主题句向量
Figure FDA0003065010660000038
之间的距离,记为distancetopic
根据公式semanticsim=t1*distancesentence+t2*distancepos+t3*distancetopic计算语义相似度semanticsim,其中t1、t2、t3为设定的参数且t1+t2+t3=1。
7.一种文本相似度计算系统,其特征在于,包括:
文本获取单元,用于获取第一文本、第一文本的关键字以及第二文本;
文本特征抽取单元,用于对所述第一文本和第二文本进行特征抽取;
文本相似度计算单元,用于根据所述第一文本和第二文本的特征抽取结果计算文本相似度得分sim;
所述文本特征抽取单元实现权利要求1至6任一项所述文本特征抽取的步骤;
所述文本相似度计算单元实现权利要求1至6任一项所述通过计算字符串相似度charsim和/或语义相似度semanticsim来确定文本相似度得分sim。
8.一种文本相似度计算设备,其特征在于,包括处理器和存储器,其中:
所述存储器,用于存储程序指令;
所述处理器,用于调用并执行所述存储器中存储的程序指令,以使所述文本相似度计算设备执行权利要求1至6中任一项所述的文本相似度计算方法。
9.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得所述计算机执行权利要求1至6中任一项所述的文本相似度计算方法。
CN202110523688.1A 2021-05-13 2021-05-13 一种文本相似度计算方法及系统 Active CN113239666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110523688.1A CN113239666B (zh) 2021-05-13 2021-05-13 一种文本相似度计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110523688.1A CN113239666B (zh) 2021-05-13 2021-05-13 一种文本相似度计算方法及系统

Publications (2)

Publication Number Publication Date
CN113239666A true CN113239666A (zh) 2021-08-10
CN113239666B CN113239666B (zh) 2023-09-29

Family

ID=77134128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110523688.1A Active CN113239666B (zh) 2021-05-13 2021-05-13 一种文本相似度计算方法及系统

Country Status (1)

Country Link
CN (1) CN113239666B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036957A (zh) * 2021-12-27 2022-02-11 中科大数据研究院 一种快速语义相似度计算方法
CN114398968A (zh) * 2022-01-06 2022-04-26 北京博瑞彤芸科技股份有限公司 基于文件相似度对同类获客文件进行标注的方法和装置
CN115878759A (zh) * 2023-01-05 2023-03-31 京华信息科技股份有限公司 一种文本查找方法、装置及存储介质
CN116204918A (zh) * 2023-01-17 2023-06-02 内蒙古科技大学 自然语言处理中的文本相似度保密计算方法及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN109062892A (zh) * 2018-07-10 2018-12-21 东北大学 一种基于Word2Vec的中文语句相似度计算方法
CN109284502A (zh) * 2018-09-13 2019-01-29 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN110377558A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 文档查询方法、装置、计算机设备和存储介质
CN110895656A (zh) * 2018-09-13 2020-03-20 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN112395886A (zh) * 2021-01-19 2021-02-23 深圳壹账通智能科技有限公司 相似文本确定方法及相关设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424279A (zh) * 2013-08-30 2015-03-18 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN109062892A (zh) * 2018-07-10 2018-12-21 东北大学 一种基于Word2Vec的中文语句相似度计算方法
CN109284502A (zh) * 2018-09-13 2019-01-29 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN110895656A (zh) * 2018-09-13 2020-03-20 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN110377558A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 文档查询方法、装置、计算机设备和存储介质
CN112395886A (zh) * 2021-01-19 2021-02-23 深圳壹账通智能科技有限公司 相似文本确定方法及相关设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036957A (zh) * 2021-12-27 2022-02-11 中科大数据研究院 一种快速语义相似度计算方法
CN114036957B (zh) * 2021-12-27 2022-06-21 中科大数据研究院 一种快速语义相似度计算方法
CN114398968A (zh) * 2022-01-06 2022-04-26 北京博瑞彤芸科技股份有限公司 基于文件相似度对同类获客文件进行标注的方法和装置
CN115878759A (zh) * 2023-01-05 2023-03-31 京华信息科技股份有限公司 一种文本查找方法、装置及存储介质
CN116204918A (zh) * 2023-01-17 2023-06-02 内蒙古科技大学 自然语言处理中的文本相似度保密计算方法及设备
CN116204918B (zh) * 2023-01-17 2024-03-26 内蒙古科技大学 自然语言处理中的文本相似度保密计算方法及设备

Also Published As

Publication number Publication date
CN113239666B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
Li et al. Context-aware emotion cause analysis with multi-attention-based neural network
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
CN113239666B (zh) 一种文本相似度计算方法及系统
CN110083710B (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN108628935A (zh) 一种基于端到端记忆网络的问答方法
CN115659954A (zh) 一种基于多阶段学习的作文自动评分方法
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN114428850B (zh) 一种文本检索匹配方法和系统
CN110597968A (zh) 一种回复选择方法及装置
Mocialov et al. Transfer learning for british sign language modelling
CN112131367A (zh) 自审核的人机对话方法、系统及可读存储介质
CN113449514A (zh) 一种适用于特定垂直领域的文本纠错方法及其纠错装置
CN116662502A (zh) 基于检索增强的金融问答文本生成方法、设备及存储介质
Mathur et al. A scaled‐down neural conversational model for chatbots
CN111949762B (zh) 基于上下文情感对话的方法和系统、存储介质
CN112579739A (zh) 基于ELMo嵌入与门控自注意力机制的阅读理解方法
Chowanda et al. Generative Indonesian conversation model using recurrent neural network with attention mechanism
Huang et al. Spoken document retrieval using multilevel knowledge and semantic verification
Parmar et al. Abstractive text summarization using artificial intelligence
CN110929006A (zh) 一种数据型问答系统
CN112270192B (zh) 一种基于词性和停用词过滤的语义识别方法及系统
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN111090720B (zh) 一种热词的添加方法和装置
Buoy et al. Joint Khmer word segmentation and part-of-speech tagging using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant