CN113239666B

CN113239666B - 一种文本相似度计算方法及系统

Info

Publication number: CN113239666B
Application number: CN202110523688.1A
Authority: CN
Inventors: 洪声建; 谭鹄
Original assignee: Shenzhen Zhiling Times Technology Co ltd
Current assignee: Shenzhen Zhiling Times Technology Co ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2023-09-29
Anticipated expiration: 2041-05-13
Also published as: CN113239666A

Abstract

本发明涉及文本匹配技术领域，更具体地，涉及一种文本相似度计算方法。用于解决口语话表达和书面化文本之间匹配精度低的问题。此种文本相似度计算方法，包括获取第一文本、第一文本的关键词以及第二文本；对所述第一文本和第二文本进行文本特征抽取；根据抽取到的所述文本特征，通过计算字符串相似度和/或语义相似度来确定文本相似度得分。通过上述技术方案，以实现口语化表达与书面化文本之间的高精度匹配的技术效果。

Description

一种文本相似度计算方法及系统

技术领域

本发明涉及文本匹配技术领域，更具体地，涉及一种文本相似度计算方法及系统。

背景技术

智能陪练是一种人机交互应用，利用NLP技术和相关领域知识，虚拟出一个相关领域下的业务人，让使用者在特定场景下进行人机交互。通常涉及智能问答系统，目前，智能问答系统广泛应用于服务领域，一种可选的智能问答流程包括：预先将用户的常见问(Frequently Asked Questions，FAQ)整理形成问题库，并将问题库以及其中每个问题对应的答案存储在智能问答系统中，当智能问答系统接收到用户输入的问题时，从问题库中匹配与输入问题最接近的目标问题，进而，向用户显示目标问题对应的答案。

由于在智能陪练场景下，相关领域知识的表述通常以书面化形式给出，表述形式较为正式。但是在使用者层面，通常在学会书面表述的内在逻辑后，更倾向于用各自习惯的口语形式进行表述。这样会造成利用传统的文本相似度算法得出较低的匹配结果。在智能陪练场景下，这种结果通常是不可接受的。同时，智能陪练场景对响应速度有较高的要求，智能问答系统还需要完成匹配运算，以快速应答使用者。

现有技术中，常见的相似度计算方法有基于统计句子特征，如词频、词序、词性等的距离计算方法以及通过深度语言模型表征的距离计算方法，以及专利文献CN111813927A中所采用的基于主题模型和LSTM的句子相似度计算方法，都不能解决口语化表达和书面化文本之间匹配精度低的问题，并且由于运算量较大，完成匹配的速度较慢，不能很好地适应智能陪练场景。

发明内容

本发明旨在克服上述现有技术的至少一种缺陷(不足)，提供一种文本相似度计算方法，用于解决口语话表达和书面化文本之间匹配精度低的问题，以实现口语化表达与书面化文本之间的高精度匹配的技术效果，并满足在智能陪练场景里快速反馈的用户需求。

本发明采取的技术方案是，一种文本相似度计算方法，包括：获取第一文本、第一文本的关键词以及第二文本；对所述第一文本和第二文本进行文本特征抽取；根据抽取到的所述文本特征，通过计算字符串相似度char_sim和/或语义相似度semantic_sim来确定文本相似度得分；其中，对所述第一文本和第二文本进行文本特征抽取，具体包括：用分词器对所述第一文本和第二文本分别进行分词，得到所述第一文本的分词序列seq_a和第二文本的分词序列seq_q；用语言模型对所述第一文本和第二文本进行语义向量空间编码，得到所述第一文本的句向量vec_a和第二文本的句向量vec_q；通过词性标注和向量编码得到所述第一文本的词性序列向量和第二文本的词性序列向量/>用主题模型对所述第一文本和第二文本进行主题抽取，得到所述第一文本的主题词序列topic_a和第二文本的主题词序列topic_q，再将所述topic_a、topic_q进行转换得到第一文本的主题句向量/>和第二文本的主题句向量/>所述根据抽取到的所述文本特征，通过计算字符串相似度char_sim和/或语义相似度semantic_sim来确定文本相似度得分的步骤具体包括：根据所述第一文本的分词序列seq_a和第二文本的分词序列seq_q计算字符串相似度char_sim；判断所述字符串相似度char_sim是否大于或等于预估阈值α；是则以所述字符串相似度char_sim作为文本相似度得分；否则根据所述第一文本的句向量vec_a、第二文本的句向量vec_q、第一文本的词性序列向量/>第二文本的词性序列向量/>第一文本的主题句向量/>和第二文本的主题句向量/>计算语义相似度semantic_sim，以语义相似度semantic_sim作为文本相似度得分。

所述第一文本为智能陪练场景下的标准答案文本，即书面化文本；所述第二文本为用户输入的答案文本，即口语化文本；其中，标准答案文本是预先根据领域相关知识设定的参照文本，标准答案中的关键词是标准答案中权重更高的文本内容；其中，用户输入答案文本是在用户陪练过程中结合当前场景和表达习惯表达出的待匹配文本。通过字符串相似度和/或语义相似度相结合的方式来计算文本相似度的最终得分，一方面能利用字符串匹配的高精确性满足输入泛化较为简单的情形，另一方面通过语义关联关系，有效提高了口语化文本与书面化文本之间匹配精度。

对所述第一文本和第二文本进行分词时，可以同时采用一个或多个分词器分别对所述第一文本和第二文本进行分词，并可以保留多个不同的结果；所述seq_a和seq_q如下：

其中a_i,q_i为seq_a和seq_q中的词，n为seq_a包含的词个数，m为seq_q包含的词个数，且n,m∈Rⁿ。

用语言模型LM对所述第一文本和第二文本进行句向量编码，得到vec_a和vec_q：

其中vec_a为所述第一文本的句向量，vec_q为第二文本的句向量；所述语言模型是预先训练好的，其中vec_a和vec_q为维度相同的浮点数向量，且所述维度为正整数。

用主题模型TextRank对所述第一文本和第二文本进行主题抽取，得到topic_a和topic_q：

其中topic_a为所述第一文本的主题词序列，topic_q为第二文本的主题词序列，再利用词向量模型SKIP_GRAM以及TF_IDF模型对所述topic_a、topic_q进行转换得到和

其中为第一文本的主题句向量，/>为第二文本的主题句向量。

用词性标注模型POS对对所述第一文本和第二文本进行词性标注，得到词性序列后再利用Bag-of-Word的形式对词性进行编码得到和/>

其中为所述第一文本的词性编码向量，/>为第二文本的词性编码向量。

所述预估阈值α预先进行设定，并根据预估阈值和字符串相似度确定最终的所述文本相似度得分，若字符串相似度大于或等于α，表明用户输入的答案文本与标准答案文本高度相似，无需再计算复杂的语义相似度，直接根据标准答案文本应答使用者，提高反馈速度，从分词序列的交集个数和关键词在分词序列中出现的次数这两个维度来计算字符串的相似度，提高了字符串相似度的匹配精度；若字符串相似度小于α，表明用户输入的答案文本与标准答案文本高度具有一定区别，需要慎重选择对应的标准答案文本，以保证匹配准确度，此时从句向量之间的距离、词性序列向量之间的距离以及主题句向量之间的距离这三个维度来计算语义相似度，提高了语义相似度的计算精度；同时，词性序列向量将文本按照词性划分词语，简化了词语维度的分析，降低系统的运算量，提高了对字符串相似度低的文本的匹配效率。

进一步地，所述通过词性标注和向量编码得到所述第一文本的词性序列向量和第二文本的词性序列向量/>具体为：用词性标注模型对所述第一文本和第二文本进行词性标注，得到所述第一文本的词性序列pos_a和所述第二文本的词性序列pos_q，再用Bag-of-words编码方式对所述pos_a和pos_q进行编码得到第一文本的词性序列向量和第二文本的词性序列向量/>

所述形如[1，0，2，0，0，…，1]，其中/>和/>的长度取决于参与计算的词性的总个数，每一维的数字代表在特定词性下，该词性的个数。

进一步地，所述将所述topic_a、topic_q进行转换得到主题句向量和具体为：将所述topic_a中的每个词按照其在所述第一文本中的顺序进行排列并拼接在一起得到新的topic_a，将所述topic_q中的每个词按照其在所述第二文本中的顺序进行排列并拼接在一起得到新的topic_q，再用词向量模型skip_gram以及tf_idf模型对所述新的topic_a和topic_q进行词向量编码和词性权重计算，再将得到的词向量和词权重进行加权平均后得到主题句向量/>和/>

进一步地，所述语言模型具体为：在大规模自然语言上通过随机掩盖部分词语或者句子，并利用深度神经网络对所述掩盖部分进行预测训练得到的模型。

通过对语言模型进行科学的训练，使得通过语言模型进行句向量编码得到编码更加科学的句向量，从而提高了所述第一文本和第二文本的句向量的匹配精度。

进一步地，所述根据所述第一文本的分词序列seq_a和第二文本的分词序列seq_q计算字符串相似度char_sim，具体为：计算所述第一文本的分词序列seq_a和第二文本的分词序列seq_q的交集个数sim_n，以及所述关键词在所述seq_q中出现的次数key_k；根据所述sim_n和key_k计算字符串相似度char_sim，所述字符串相似度char_sim的计算公式为：

其中n为seq_a的长度、k为seq_a序列中基于业务需求所定义的关键字个数、w₁和w₂为设定好的参数。

进一步地，所述根据所述第一文本的句向量vec_a、第二文本的句向量vec_q、第一文本的词性序列向量第二文本的词性序列向量/>第一文本的主题句向量和第二文本的主题句向量/>计算语义相似度semantic_sim，具体为：计算所述第一文本的句向量vec_a和第二文本的句向量vec_q之间的距离，记为distance_sentence；计算所述第一文本的词性序列向量/>和第二文本的词性序列向量/>之间的距离，记为distance_pos；计算所述第一文本的主题句向量/>和第二文本的主题句向量/>之间的距离，记为distance_topic；根据公式：

semantic_sim＝t₁*distance_senyence+t₂*distance_pos+t₃*distance_topic

计算语义相似度semantic_sim，其中t₁、t₂、t₃为设定的参数且t₁+t₂+t₃＝1。

综上，最终的文本相似度得分sim计算公式如下：

与现有技术相比，本发明的有益效果为：本发明通过采用字符串相似度和基于深度语言模型抽取的语义特征相似度相结合的方式，一方面能利用字符串匹配的高精确性满足输入泛化较为简单的情形，另一方面通过语义关联关系，解决口语化匹配问题，相对于传统匹配方法，能大大提高智能陪练产品用户的使用体验；同时，从多个维度进行文本特征抽取，根据多个维度的文本特征抽取结果来计算字符串相似度和/或语义相似度，进一步提高了口语化表达和书面化文本之间的匹配精度。

附图说明

图1为本发明实施例提供的文本相似度计算方法流程图。

图2为本发明实施例提供的文本特征抽取流程图。

图3为本发明实施例提供的确定文本相似度得分流程图。

图4为本发明实施例提供的计算语义相似度流程图。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。为了更好说明以下实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例1

如图1所示，本实施例一种文本相似度计算方法，包括：

S1.获取第一文本、第一文本的关键词以及第二文本；

所述第一文本为智能陪练场景下的标准答案文本，即书面化文本；所述第二文本为用户输入的答案文本，即口语化文本；其中，标准答案文本是预先根据领域相关知识设定的参照文本，标准答案中的关键词是标准答案中权重更高的文本内容；其中，用户输入答案文本是在用户陪练过程中结合当前场景和表达习惯表达出的待匹配文本。所述第一文本的关键词为多个，同时可以为每一个关键词设定同义词集合，即关键词＝{同义词1，同义词2，同义词3，…}。

S2.对所述第一文本和第二文本进行文本特征抽取。

S21.如图2所示，用分词器对所述第一文本和第二文本分别进行分词，得到所述第一文本的分词序列seq_a和第二文本的分词序列seq_q；

对所述第一文本和第二文本进行分词时，可以同时采用一个或多个分词器分别对所述第一文本和第二文本进行分词，并可以保留多个不同的结果；所述seq_a＝[a₁，a₂，…，a_n]，所述seq_q＝[q₁，q₂，…，q_n]。

S22.用语言模型对所述第一文本和第二文本进行句向量编码，得到所述第一文本的句向量vec_a和第二文本的句向量vec_q；

本实施例使用的语言模型为语言模型LM，其是预先训练好的，其中vec_a和vec_q为维度相同的浮点数向量，且所述维度为正整数，用语言模型LM对所述第一文本和第二文本进行句向量编码，得到：

S23.通过词性标注和向量编码得到所述第一文本的词性序列向量和第二文本的词性序列向量/>

本实施例用词性标注模型POS对所述第一文本和第二文本进行词性标注，得到所述第一文本的词性序列pos_a和所述第二文本的词性序列pos_q，再用Bag-of-words编码方式对所述pos_a和pos_q进行编码得到第一文本的词性序列向量和第二文本的词性序列向量/>即：

所述Bag-of-words编码方式使用的词性集合为自然语言语法中常见的词性(例如名词、动词、形容词、副词、介词等)，对于词性序列的顺序并无特殊要求，只需保持每次所述第一文本和第二文本匹配时使用的顺序一致即可。

所述形如[1，0，2，0，0，…，1]，其中/>和/>的长度取决于参与计算的词性的总个数，每一维的数字代表在特定词性下该词性的个数。

S24.用主题模型对所述第一文本和第二文本进行进行主题抽取，得到所述第一文本的主题词序列topic_a和第二文本的主题词序列topic_q，再将所述topic_a、topic_q进行转换得到第一文本的主题句向量和第二文本的主题句向量/>

本实施例的主题模型为TextRank对所述第一文本和第二文本进行主题抽取：

从主题维度对所述第一文本和第二文本进行文本特征抽取。所述topic_a、topic_q均为词列表，所述主题模型为基于概率统计学方法，利用大规模通用语料训练得到的TextRank模型。本实施例再利用词向量模型SKIP_GRAM以及TF_IDF模型对所述topic_a、topic_q进行转换得到：

将所述topic_a中的每个词按照其在所述第一文本进行排列并拼接在一起得到新的topic_a，将所述topic_q中的每个词按照其在所述第二文本中的顺序进行排列并拼接在一起得到新的topic_q，再用语言模型对所述新的topic_a和topic_q进行句向量编码得到主题句向量和/>

所述语言模型为在大规模自然语言上通过随机掩盖部分词语或者句子，并利用深度神经网络对所述掩盖部分进行预测训练得到的模型。通过对语言模型进行科学的训练，使得通过语言模型进行句向量编码得到编码更加科学的句向量，从而提高了所述第一文本和第二文本的句向量的匹配精度。

S3.根据抽取到的所述文本特征，通过计算字符串相似度和/或语义相似度来确定文本相似度得分sim。

S31.如图3所示，计算所述第一文本的分词序列seq_a和第二文本的分词序列seq_q的交集个数sim_n，以及所述关键词在所述seq_q中出现的次数key_k。

S32.根据所述sim_n和key_k计算字符串相似度，所述字符串相似度char_sim＝w₁*sim_n/n+w₂*key_k/k，其中n为sim_n的长度、k为key_k的长度、w₁和w₂为设定好的参数且w₁+w₂＝1。

从分词序列的交集个数和关键词在分词序列中出现的次数这两个维度来计算字符串的相似度，提高了字符串相似度的匹配精度。

S33.当所述字符串相似度char_sim的值大于等于预估阈值α时，所述字符串相似度char_sim的值为所述文本相似度得分sim。

S34.当所述字符串相似度char_sim的值小于预估阈值α时，计算语义相似度semantic_sim，所述语义相似度semantic_sim的值为所述文本相似度得分sim。

S341.如图4所示，计算所述第一文本的句向量vec_a和第二文本的句向量vec_q之间的距离，记为distance_sentence；

S342.计算所述第一文本的词性序列向量和第二文本的词性序列向量之间的距离，记为distance_pos；

S343.计算所述第一文本的主题句向量和第二文本的主题句向量/>之间的距离，记distance_topic；

S344.根据公式semantic_sim＝t₁*distance_sentence+t₂*distance_pos+t₃*distance_topic计算语义相似度semantic_sim。

本实施例计算所述第一文本的主题句向量和第二文本的主题句向量的公式为：

其中，t₁、t₂、t₃为设定的参数且t₁+t₂+t₃＝1。

从句向量之间的距离、词性序列向量之间的距离以及主题句向量之间的距离这三个维度来计算语义相似度，提高了语义相似度的计算精度。其中针对距离的计算算法可采用欧氏距离或或余弦距离或径向基距离。

最终，本实施例文本相似度得分sim的计算公式如下：

本实施例本发明中所表述的大规模通用语料，具体为各日常新闻渠道，百科，各领域评论网站及各科研机构公开发表的训练语料。所使用的语言涉及中文，英文等。

本发明实施例通过采用字符串相似度和基于深度语言模型抽取的语义特征相似度相结合的方式，一方面能利用字符串匹配的高精确性满足输入泛化较为简单的情形，另一方面通过语义关联关系，解决口语化匹配问题，相对于传统匹配方法，能大大提高智能陪练产品用户的使用体验；同时，从多个维度进行文本特征抽取，根据多个维度的文本特征抽取结果来计算字符串相似度和/或语义相似度，进一步提高了口语化表达和书面化文本之间的匹配精度。

实施例2

本实施例提供一种文本相似度计算系统，所述文本相似度计算系统包括：

文本获取单元，用于获取第一文本、第一文本的关键字以及第二文本；

文本特征抽取单元，用于对所述第一文本和第二文本进行特征抽取；

文本相似度计算单元，用于根据所述第一文本和第二文本的特征抽取结果计算文本相似度得分sim。

所述文本相似度计算系统实现如实施例1所述的一种文本相似度计算方法。

基于实施例1所述的一种文本相似度计算方法，本实施例还提供一种文本相似度计算设备和一种计算机可读存储介质。

所述文本相似度计算设备包括处理器和存储器，所述存储器，用于存储程序指令；所述处理器，用于调用并执行所述存储器中存储的程序指令，以使所述文本相似度计算设备执行实施例1所述的文本相似度计算方法。

所述计算机可读存储介质包括指令，当其在计算机上运行时，使得所述计算机执行实施例1所述的文本相似度计算方法。

需要说明的是，本说明书中术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种文本相似度计算方法，其特征在于，所述方法包括：

获取第一文本、第一文本的关键词以及第二文本；

对所述第一文本和第二文本进行文本特征抽取；

根据抽取到的所述文本特征，通过计算字符串相似度char_sim和语义相似度semantic_sim来确定文本相似度得分sim；

其中，所述对所述第一文本和第二文本进行文本特征抽取，所述文本特征抽取的步骤具体包括：

用分词器对所述第一文本和第二文本分别进行分词，得到所述第一文本的分词序列seq_a和第二文本的分词序列seq_q；

用语言模型对所述第一文本和第二文本进行句向量编码，得到所述第一文本的句向量vec_a和第二文本的句向量vec_q；

通过词性标注和向量编码得到所述第一文本的词性序列向量和第二文本的词性序列向量/>

用主题模型对所述第一文本和第二文本进行主题抽取，得到所述第一文本的主题词序列topic_a和第二文本的主题词序列topic_q，再将所述topic_a、topic_q进行转换得到第一文本的主题句向量和第二文本的主题句向量/>

所述根据抽取到的所述文本特征，通过计算字符串相似度char_sim和语义相似度semantic_sim来确定文本相似度得分sim的步骤具体包括：

根据所述第一文本的分词序列seq_a和第二文本的分词序列seq_q计算字符串相似度char_sim；

判断所述字符串相似度char_sim是否大于或等于预估阈值α；

是则以所述字符串相似度char_sim作为文本相似度得分sim；

否则根据所述第一文本的句向量vec_a、第二文本的句向量vec_q、第一文本的词性序列向量第二文本的词性序列向量/>第一文本的主题句向量/>和第二文本的主题句向量/>计算语义相似度semantic_sim，以语义相似度semantic_sim作为文本相似度得分sim；

所述根据所述第一文本的分词序列seq_a和第二文本的分词序列seq_q计算字符串相似度char_sim，具体为：

计算所述第一文本的分词序列seq_a和第二文本的分词序列seq_q的交集个数sim_n，以及所述关键词在所述seq_q中出现的次数key_k；

根据所述sim_n和key_k计算字符串相似度char_sim，所述字符串相似度char_sim＝w₁*sim_n/n+w₂*key_k/k，其中n为seq_a的长度、k为seq_a序列中关键词的个数、w₁和w₂为设定好的参数且w₁+w₂＝1；

所述根据所述第一文本的句向量vec_a、第二文本的句向量vec_q、第一文本的词性序列向量第二文本的词性序列向量/>第一文本的主题句向量/>和第二文本的主题句向量/>计算语义相似度semantic_sim，具体为：

计算所述第一文本的句向量vec_a和第二文本的句向量vec_q之间的距离，记为distance_sentence；

计算所述第一文本的词性序列向量和第二文本的词性序列向量/>之间的距离，记为distance_pos；

计算所述第一文本的主题句向量和第二文本的主题句向量/>之间的距离，记为distance_topic；

根据公式semantic_sim＝t₁*distance_sentence+t₂*distance_pos+t₃*distance_topic计算语义相似度semantic_sim，其中t₁、t₂、t₃为设定的参数且t₁+t₂+t₃＝1。

2.根据权利要求1所述的一种文本相似度计算方法，其特征在于，

所述通过词性标注和向量编码得到所述第一文本的词性序列向量和第二文本的词性序列向量/>具体为：

用词性标注模型对所述第一文本和第二文本进行词性标注，得到所述第一文本的词性序列pos_a和所述第二文本的词性序列pos_q，再用Bag-of-words编码方式对所述pos_a和pos_q进行编码得到第一文本的词性序列向量和第二文本的词性序列向量/>

3.根据权利要求1所述的一种文本相似度计算方法，其特征在于，

所述将所述topic_a、topic_q进行转换得到主题句向量和/>具体为：

将所述topic_a中的每个词按照其在所述第一文本中的顺序进行排列并拼接在一起得到新的topic_a，将所述topic_q中的每个词按照其在所述第二文本中的顺序进行排列并拼接在一起得到新的topic_q，再用语言模型对所述新的topic_a和topic_q进行句向量编码得到主题句向量和/>

4.根据权利要求1所述的一种文本相似度计算方法，其特征在于，

所述语言模型具体为：

在大规模自然语言上通过随机掩盖部分词语或者句子，并利用深度神经网络对所述掩盖部分进行预测训练得到的模型。

5.一种文本相似度计算设备，其特征在于，包括处理器和存储器，其中：

所述存储器，用于存储程序指令；

所述处理器，用于调用并执行所述存储器中存储的程序指令，以使所述文本相似度计算设备执行权利要求1至4中任一项所述的文本相似度计算方法。

6.一种计算机可读存储介质，其特征在于，包括指令，当其在计算机上运行时，使得所述计算机执行权利要求1至4中任一项所述的文本相似度计算方法。