CN110866095A - 一种文本相似度的确定方法及相关设备 - Google Patents

一种文本相似度的确定方法及相关设备 Download PDF

Info

Publication number
CN110866095A
CN110866095A CN201910960734.7A CN201910960734A CN110866095A CN 110866095 A CN110866095 A CN 110866095A CN 201910960734 A CN201910960734 A CN 201910960734A CN 110866095 A CN110866095 A CN 110866095A
Authority
CN
China
Prior art keywords
word
subject
text
vector
word vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910960734.7A
Other languages
English (en)
Inventor
刘念慈
李世武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Financial Assets Exchange LLC
Original Assignee
Chongqing Financial Assets Exchange LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Financial Assets Exchange LLC filed Critical Chongqing Financial Assets Exchange LLC
Priority to CN201910960734.7A priority Critical patent/CN110866095A/zh
Publication of CN110866095A publication Critical patent/CN110866095A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本相似度的确定方法及相关设备,所述方法应用于数据处理技术领域,包括:调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词,并获取至少一个第一主题词中各个第一主题词的第一词向量和至少一个第二主题词中各个第二主题词的第二词向量;计算各个第一词向量与各个第二词向量之间的余弦相似度、第一主题词的数量M、以及第二主题词的数量N,进而基于预设文本相似度算法对各个余弦相似度、第一主题词的数量M、以及第二主题词的数量N进行计算,确定出第一文本和第二文本之间的相似度。采用这样的方式,可以提高确定文本相似度的准确度。

Description

一种文本相似度的确定方法及相关设备
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本相似度的确定方法及相关设备。
背景技术
在自然语言处理(Natural Language Processing,NLP)中,经常会涉及到如何度量两个文本的相似度问题。在诸如对话系统和信息检索等的问题中,如何度量短文本(例句子或者短语等)之间的相似度尤为重要。当前采用的短文本相似度计算方法,通常是计算每个词的词向量,然后通过计算词向量间的余弦相似度得到文本间的相似度,这种方式对于所有词都“一视同仁”明显计算量加大,且同时减小了准确度。因此,如何准确且高效地的计算短文本之间的相似度,成为一个亟待解决的问题。
发明内容
本发明实施例提供了一种文本相似度的确定方法及相关设备,可以提高确定文本相似度的准确度。
第一方面,本发明实施例提供了一种文本相似度的确定方法,所述方法应用于服务器,该方法包括:
调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词;
获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,所述第一词向量和第二词向量包括静态词向量或者动态词向量;
计算所述各个第一词向量与所述各个第二词向量之间的余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N,所述M和N均为大于0的整数;
基于预设文本相似度算法对各个所述余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N进行计算,确定出所述第一文本和所述第二文本之间的相似度。
在一个实施例中,所述基于预设文本相似度算法对所述余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N进行计算,确定出所述第一文本和所述第二文本之间的相似度的具体实施方式为:
基于预设文本相似度算法对各个所述余弦相似度进行求和计算,并将求和计算结果除以log M与log N的和值,得到所述第一文本和所述第二文本之间的相似度。
在一个实施例中,所述调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词之前,还可以:
获取初始主题词识别模型,所述初始主题词识别模型包括特征函数;
基于预设特征函数对所述初始主题词识别模型中的所述特征函数进行调整;
获取包括主题词标注的训练短文本,并根据所述训练短文本对所述特征函数调整后的初始主题词识别模型进行训练优化,得到主题词识别模型。
在一个实施例中,所述获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量的具体实施方式为:
调用语言表示模型对所述至少一个第一主题词中的各个第一主题词和所述至少一个第二主题词中的各个第二主题词进行向量表示,得到所述各个第一主题词的第一词向量和所述各个第二主题词的第二词向量,所述第一词向量和所述第二词向量均为动态词向量。
在一个实施例中,所述获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量的具体实施方式为:
从开源词向量数据中查询并获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,所述第一词向量和所述第二词向量均为静态词向量。
在一个实施例中,所述从开源词向量数据中查询所述至少一个第一主题词中各个第一主题词的第一词向量之后,还可以:
若所述开源词向量数据中未查询到所述至少一个第一主题词中任一第一主题词的第一词向量,则构建全0向量,并将所述全0向量确定为所述任一第一主题词的第一词向量。
在一个实施例中,所述调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词之前,还可以:
检测第一文本和所述第二文本对应的字符数是否小于或者等于预设字符数阈值;
若检测到所述第一文本对应的字符数小于或者等于所述预设字符数阈值,则触发所述调用主题词识别模型确定出第一文本对应的至少一个第一主题词的步骤;
若检测到所述第二文本对应的字符数小于或者等于所述预设字符数阈值,则触发所述调用主题词识别模型确定出第二文本对应的至少一个第二主题词的步骤。
第二方面,本发明实施例提供了一种文本相似度的确定装置,该文本相似度的确定装置包括用于执行上述第一方面的方法的模块。
第三方面,本发明实施例提供了一种服务器,该服务器包括处理器、网络接口和存储器,所述处理器、网络接口和存储器相互连接,其中,所述网络接口受所述处理器的控制用于收发消息,所述存储器用于存储支持服务器执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本申请实施例中,服务器可以调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词,并获取至少一个第一主题词中各个第一主题词的第一词向量和至少一个第二主题词中各个第二主题词的第二词向量。进一步地,服务器可以计算各个第一词向量与各个第二词向量之间的余弦相似度、第一主题词的数量M、以及第二主题词的数量N,进而基于预设文本相似度算法对各个余弦相似度、第一主题词的数量M、以及第二主题词的数量N进行计算,确定出第一文本和第二文本之间的相似度。采用本申请,从文本中提取出主题词,不仅可以减少后续相似度计算的运算量,提高运算效率,还可以提高相似度的准确度。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种文本相似度的确定方法的流程示意图;
图2是本发明实施例提供的另一种文本相似度的确定方法的流程示意图;
图3是本发明实施例提供的一种预设特征函数的示意图;
图4是本发明实施例提供的一种文本相似度的确定装置的示意性框图;
图5是本发明实施例提供的一种服务器的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的一种文本相似度的确定方法的流程示意图,该方法应用于服务器,可由服务器执行,如图所示,该文本相似度的确定方法可包括:
S101:调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词。
其中,该第一文本和第二文本主要指短文本,例如微博、聊天信息、新闻主题、观点评论、问题文本、手机短信、文献摘要等。
在一个实施例中,在执行步骤S101之前,可以检测第一文本和第二文本对应的字符数是否小于或者等于预设字符数阈值,若检测到所述第一文本对应的字符数小于或者等于所述预设字符数阈值,则触发调用主题词识别模型确定出第一文本对应的至少一个第一主题词的步骤;若检测到第二文本对应的字符数小于或者等于预设字符数阈值,则触发调用主题词识别模型确定出第二文本对应的至少一个第二主题词的步骤。其中,该预设字符数是开发人员根据实验数据预先设置的,例如可以为160个字符数。
S102:获取至少一个第一主题词中各个第一主题词的第一词向量和至少一个第二主题词中各个第二主题词的第二词向量。
其中,第一词向量和第二词向量包括静态词向量或者动态词向量。该静态词向量可以基于开源词向量数据得到,该动态词向量可以语言表示模型得到,该语言表示模型例如可以为通过语言模型得到词向量表示(Embeddings from Language Model,ELMo)模型或者双向编码的预训练表示(Bidirectional Encoder Representations fromTransformers,BERT)模型。
其中,上述语言表示模型指的是相同词语在不同的句子中得到的词向量是不同的,即得到的是动态词向量。因此,相同词语在不同句子中经过语言表示模型后得到的词向量表示不同,得到的近义词候选集合也不同,即动态词向量不是一成不变的,而是根据上下文而随时变化,可以很好的反应词语在不同上下文语境中表示的含义。
例如:针对某一词多义的词汇“苹果”,静态词向量表示中,句子1:“我吃了一个苹果”和句子2:“苹果很好用”得到的“苹果”这个词语的词向量是一样的,但事实上,这两个词语的近义词候选集是完全不一样的,句子1中与“苹果”的这个词语词向量相近的词语是“橘子”,“香蕉”等水果,句子2中与“苹果”这个词语词向量相近的词语是“手机”,“华为”等词语。可以看出,采用语言表示模型得到第一文本和第二文本对应的动态词向量,并基于动态词向量确定出第一文本和所述第二文本之间的相似度,可以提高该相似度的准确性。
S103:计算各个第一词向量与各个第二词向量之间的余弦相似度、第一主题词的数量M、以及第二主题词的数量N,该M和N均为大于0的整数。
S104:基于预设文本相似度算法对各个余弦相似度、第一主题词的数量M、以及第二主题词的数量N进行计算,确定出第一文本和第二文本之间的相似度。
在一个实施例中,服务器可以基于预设文本相似度算法对各个余弦相似度进行求和计算,并将求和计算结果除以log M与log N的和值,得到第一文本和所述第二文本之间的相似度。
示例性地,该预设文本相似度算法对应的计算方法如公式1-1所示:
Figure BDA0002228714780000051
其中,wu为第一文本的所有被标识出的第一主题词对应的第一词向量集合,i为该第一词向量集合wu中的第一词向量;wt为第二文本的所有被标识出的第二主题词对应的第二词向量集合,j为第二词向量集合wt中的第二词向量,d为第一词向量和第二词向量之间的余弦相似度值;M和N分别为第一文本和第二文本的主题词个数,S为第一文本和第二文本之间的相似度。
可以看出,由于第一文本和第二文本均指短文本,公式1-1通过迭代计算第一词向量和第二词向量之间的余弦相似度值,最后取log平均的方式得到两个短文本间的相似度。采用这样的方式,可以抑制在相似度计算过程中相对较长的文本的算术优势,进而提高短文本之间相似度的准确性。
本申请实施例中,服务器可以调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词,并获取至少一个第一主题词中各个第一主题词的第一词向量和至少一个第二主题词中各个第二主题词的第二词向量。进一步地,服务器可以计算各个第一词向量与各个第二词向量之间的余弦相似度、第一主题词的数量M、以及第二主题词的数量N,进而基于预设文本相似度算法对各个余弦相似度、第一主题词的数量M、以及第二主题词的数量N进行计算,确定出第一文本和第二文本之间的相似度。采用本申请,从文本中提取出主题词,不仅可以减少后续相似度计算的运算量,还可以提高相似度的准确度。
参见图2,图2是本发明实施例提供的另一种文本相似度的确定方法的流程示意图,该方法应用于服务器,可由服务器执行,如图所示,该文本相似度的确定方法可包括:
S201:获取初始主题词识别模型,该初始主题词识别模型包括特征函数。
S202:基于预设特征函数对初始主题词识别模型中的特征函数进行调整。
S203:获取包括主题词标注的训练短文本,并根据训练短文本对特征函数调整后的初始主题词识别模型进行训练优化,得到主题词识别模型。
S204:调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词。
在一个实施例中,该初始主题词识别模型例如可以为条件随机场算法(conditional random field algorithm,CRF),该CRF算法特征在于特征设计灵活,可以容纳更多上下文信息,最后的识别结果为全局最优。对于自身信息比较少的短文本而言,采用该算法提取主题词,可以提高主题词提取的准确度。
示例性地,该CRF算法对应的计算公式如公式2-1所示:
Figure BDA0002228714780000071
其中,P为条件概率,Z(x)是规范化因子,即所有可能的输出序列的和,tk和sl为特征函数,λk和μl是tk和sl分别对应的权值,x表示输入观测序列,y表示输入观测序列对应的输出标记序列,在本方案中该输入的观测序列即为输入的第一文本或者第二文本,当输入的观测序列为第一文本时,该输入观测序列对应的输出标记序列即为输出的该第一文本对应的至少一个第一主题词;当输入的观测序列为第二文本时,该输入观测序列对应的输出标记序列即为输出的该第二文本对应的至少一个第二主题词。
在一个实施例中,服务器可以基于预设特征函数对初始主题词识别模型中的上述特征函数tk和sl进行调整,并获取若干个包括主题词标注的训练短文本。进一步地,可以基于该若干个训练短文本对调整特征函数后的初始主题词识别算法进行优化,得到主题词体识别算法。
其中,该预设特征函数是针对短文本主题词的检测设置的,该预设特征函数包括多个,增加了初始主题词识别算法中特征函数的数量,以及检测过程中检测的字段间隔,可以提高主题词体识别算法识别出短文本主题词的准确度。
示例性地,上述多个预设特征函数可以如图3所示,其中,U00~U12均为预设特征函数,表征了检测短文本主题词过程中的具体检测方式以及检测的字段间隔。例如,U00[-2,0],其中,该0表征当前词对应的第一位置,-2表征以该当前词为基准,往前推两个词的目标位置。这种情况下,基于该U00预设特征函数可以首先将通知文本中的任一词确定为当前词,对该当前词进行发文关键词识别;进一步地,可以以该当前词为基准,往前推两个词,得到目标位置对应的目标词,并对该目标词进行发文关键词识别。其中,U00中检测的最大字段间隔为2,相应的,其它U01~U12也是相应的理解。
可以理解的是,由于短文本一般词比较少,所以特征函数的最大范围(即检测的最大字段间隔)不能大于预设间隔阈值。图3中对应的预设间隔阈值为2,即图2中的“2”“-2”。
进一步地,当得到主题词识别模型之后,可以将第一文本和第二文本作为该主题词模型的输入,则该主题词模型会输出该一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词。
S205:获取至少一个第一主题词中各个第一主题词的第一词向量和至少一个第二主题词中各个第二主题词的第二词向量。
其中,第一词向量和第二词向量包括静态词向量或者动态词向量。该静态词向量可以基于开源词向量数据得到,该动态词向量可以语言表示模型得到。
在一个实施例中,服务器可以调用语言表示模型对至少一个第一主题词中的各个第一主题词和至少一个第二主题词中的各个第二主题词进行向量表示,得到各个第一主题词的第一词向量和各个第二主题词的第二词向量,该第一词向量和第二词向量均为动态词向量。
在一个实施例中,服务器可以首先利用训练语料对语言表示模型进行训练,并调用训练后的语言表示模型对待扩容的短文本语料进行数据处理,得到待扩容语料中每个词的动态词向量。其中,该待扩容的短文本语料可以为一个或者多个短句(例如一个问题),该训练语料可以包括大量的开源网络语料。
其中,上述语言表示模型指的是相同词语在不同的句子中得到的词向量是不同的,即得到的是动态词向量。因此,相同词语在不同句子中经过语言表示模型后得到的词向量表示不同,得到的近义词候选集合也不同,即动态词向量不是一成不变的,而是根据上下文而随时变化。
在一个实施例中,上述语言表示模型可以包括通过语言模型得到词向量表示(Embeddings from Language Model,ELMo)模型或者双向编码的预训练表示(Bidirectional Encoder Representations from Transformers,BERT)模型。其中,该ELMo模型是从深层的双向语言模型的内部状态学习而来,ELMo模型能够学习到词汇用法的复杂性,比如语法、语义,也能够学习不同上下文情况下的词汇多义性,进而得到的动态词向量能够灵活的适用于多种任务。该BERT模型为一种预训练语言表示的方法,可以理解为在一个大型文本语料库(比如维基百科)上训练的通用的“语言理解”模型,然后将这个模型用于下游自然语言处理(Natural Language Processing,NLP)任务(比如问题回答)。BERT优于以前的方法,因为它是第一个用于预训练NLP的无监督、深度双向的系统。
在一个实施例中,上述第一词向量和第二词向量为静态词向量。服务器可以从开源词向量数据中查询并获取至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,该第一词向量和所述第二词向量均为静态词向量。
在一个实施例中,服务器从开源词向量数据中查询至少一个第一主题词中各个第一主题词的第一词向量之后,若该开源词向量数据中未查询到至少一个第一主题词中任一第一主题词的第一词向量,则构建全0向量,并将全0向量确定为任一第一主题词的第一词向量。
可以看出,采用开源词向量数据确定第一词向量或者第二词向量的方式,保证向量质量的同时不仅可以省去自己训练模型的时秏,还可以避免数据收集、清洗及调参等繁琐步骤。
在一个实施例中,上述开源词向量数据中包括多个词以及各个词对应的词向量。针对这种情况,服务器可以从该开源词向量数据中查询每个第一主题词对应的第一词向量、以及每个第二主题词对应的第二词向量,若未在该开源词向量数据中查询到该第一词向量和第二词向量,则可以构建全0向量,并将该全0向量作为该对应的第一词向量或者第二词向量。例如,服务器未在开源词向量数据中查询到第一主题词对应的第一词向量,则可以构建全0向量,并将该全0向量确定为该第一主题词对应的第一词向量。
S206:计算各个第一词向量与各个第二词向量之间的余弦相似度、第一主题词的数量M、以及第二主题词的数量N,并基于预设文本相似度算法对各个余弦相似度、第一主题词的数量M、以及第二主题词的数量N进行计算,确定出第一文本和所述第二文本之间的相似度。其中,步骤206的具体实施方式,可以参见上述实施例中步骤S103~S104的相关描述,此处不再赘述。
本申请实施例中,服务器可以获取初始主题词识别模型,该初始主题词识别模型包括特征函数,并基于预设特征函数对初始主题词识别模型中的特征函数进行调整,进一步地,获取包括主题词标注的训练短文本,并根据训练短文本对特征函数调整后的初始主题词识别模型进行训练优化,进而得到主题词识别模型。进一步地,服务器调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词,并获取至少一个第一主题词中各个第一主题词的第一词向量和至少一个第二主题词中各个第二主题词的第二词向量。进一步地,服务器可以计算各个第一词向量与各个第二词向量之间的余弦相似度、第一主题词的数量M、以及第二主题词的数量N,进而基于预设文本相似度算法对各个余弦相似度、第一主题词的数量M、以及第二主题词的数量N进行计算,确定出第一文本和第二文本之间的相似度。采用本申请,可以提高确定出的第一主题词和第二主题词的准确度,进而有利于提高计算第一文本和第二文本相似度的准确度。
本发明实施例还提供了一种文本相似度的确定装置。该装置包括用于执行前述图1或者图2所述的方法的模块,配置于服务器。具体地,参见图4,是本发明实施例提供的文本相似度的确定装置的示意框图。本实施例的文本相似度的确定装置包括:
处理模块40,用于调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词;
获取模块41,用于获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,所述第一词向量和第二词向量包括静态词向量或者动态词向量;
所述处理模块40,还用于计算所述各个第一词向量与所述各个第二词向量之间的余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N,所述M和N均为大于0的整数;
所述处理模块40,还用于基于预设文本相似度算法对各个所述余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N进行计算,确定出所述第一文本和所述第二文本之间的相似度。
在一个实施例中,所述基于预设文本相似度算法对所述余弦相似度,所述处理模块40,具体用于:基于预设文本相似度算法对各个所述余弦相似度进行求和计算,并将求和计算结果除以log M与log N的和值,得到所述第一文本和所述第二文本之间的相似度。
在一个实施例中,所述获取模块41,还用于获取初始主题词识别模型以及获取包括主题词标注的训练短文本,所述初始主题词识别模型包括特征函数;所述处理模块40,还用于基于预设特征函数对所述初始主题词识别模型中的所述特征函数进行调整,并根据所述训练短文本对所述特征函数调整后的初始主题词识别模型进行训练优化,得到主题词识别模型。
在一个实施例中,所述获取模块41,还具体用于调用语言表示模型对所述至少一个第一主题词中的各个第一主题词和所述至少一个第二主题词中的各个第二主题词进行向量表示,得到所述各个第一主题词的第一词向量和所述各个第二主题词的第二词向量,所述第一词向量和所述第二词向量均为动态词向量。
在一个实施例中,所述获取模块41,还具体用于从开源词向量数据中查询并获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,所述第一词向量和所述第二词向量均为静态词向量。
在一个实施例中,所述获取模块41,还用于:若所述开源词向量数据中未查询到所述至少一个第一主题词中任一第一主题词的第一词向量,则构建全0向量,并将所述全0向量确定为所述任一第一主题词的第一词向量。
在一个实施例中,所述处理模块40,还用于:
检测第一文本和所述第二文本对应的字符数是否小于或者等于预设字符数阈值;
若检测到所述第一文本对应的字符数小于或者等于所述预设字符数阈值,则触发所述调用主题词识别模型确定出第一文本对应的至少一个第一主题词的步骤;
若检测到所述第二文本对应的字符数小于或者等于所述预设字符数阈值,则调用主题词识别模型确定出第二文本对应的至少一个第二主题词。
需要说明的是,本发明实施例所描述的文本相似度的确定装置的各功能模块的功能可根据图1或者图2所述的方法实施例中的方法具体实现,其具体实现过程可以参照图1或者图2的方法实施例的相关描述,此处不再赘述。
请参见图5,图5是本发明实施例提供的一种服务器的示意性框图,如图5所示,该服务器包括,处理器501、存储器502和网络接口503。上述处理器501、存储器502和网络接口503可通过总线或其他方式连接,在本发明实施例所示图5中以通过总线连接为例。其中,网络接口503受所述处理器的控制用于收发消息,存储器502用于存储计算机程序,所述计算机程序包括程序指令,处理器501用于执行存储器502存储的程序指令。其中,处理器501被配置用于调用所述程序指令执行:调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词;获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,所述第一词向量和第二词向量包括静态词向量或者动态词向量;计算所述各个第一词向量与所述各个第二词向量之间的余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N,所述M和N均为大于0的整数;基于预设文本相似度算法对各个所述余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N进行计算,确定出所述第一文本和所述第二文本之间的相似度。
在一个实施例中,所述处理器501,具体用于:基于预设文本相似度算法对各个所述余弦相似度进行求和计算,并将求和计算结果除以log M与log N的和值,得到所述第一文本和所述第二文本之间的相似度。
在一个实施例中,所述处理器501,还用于获取初始主题词识别模型以及获取包括主题词标注的训练短文本,所述初始主题词识别模型包括特征函数;所述处理器501,还用于基于预设特征函数对所述初始主题词识别模型中的所述特征函数进行调整,并根据所述训练短文本对所述特征函数调整后的初始主题词识别模型进行训练优化,得到主题词识别模型。
在一个实施例中,所述处理器501,还具体用于调用语言表示模型对所述至少一个第一主题词中的各个第一主题词和所述至少一个第二主题词中的各个第二主题词进行向量表示,得到所述各个第一主题词的第一词向量和所述各个第二主题词的第二词向量,所述第一词向量和所述第二词向量均为动态词向量。
在一个实施例中,所述处理器501,还具体用于从开源词向量数据中查询并获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,所述第一词向量和所述第二词向量均为静态词向量。
在一个实施例中,所述处理器501,还用于:若所述开源词向量数据中未查询到所述至少一个第一主题词中任一第一主题词的第一词向量,则构建全0向量,并将所述全0向量确定为所述任一第一主题词的第一词向量。
在一个实施例中,所述处理器501,还用于:
检测第一文本和所述第二文本对应的字符数是否小于或者等于预设字符数阈值;
若检测到所述第一文本对应的字符数小于或者等于所述预设字符数阈值,则触发所述调用主题词识别模型确定出第一文本对应的至少一个第一主题词的步骤;
若检测到所述第二文本对应的字符数小于或者等于所述预设字符数阈值,则调用主题词识别模型确定出第二文本对应的至少一个第二主题词。
应当理解,在本发明实施例中,所称处理器501可以是中央处理单元(CentralProcessing Unit,CPU),该处理器501还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器502可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器502的一部分还可以包括非易失性随机存取存储器。例如,存储器502还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器501、存储器502和网络接口503可执行本发明实施例提供的图1或者图2所述的方法实施例所描述的实现方式,也可执行本发明实施例所描述的文本相似度的确定装置的实现方式,在此不再赘述。
在本发明的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现:调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词;获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,所述第一词向量和第二词向量包括静态词向量或者动态词向量;计算所述各个第一词向量与所述各个第二词向量之间的余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N,所述M和N均为大于0的整数;基于预设文本相似度算法对各个所述余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N进行计算,确定出所述第一文本和所述第二文本之间的相似度。
所述计算机可读存储介质可以是前述任一实施例所述的服务器的内部存储单元,例如服务器的硬盘或内存。所述计算机可读存储介质也可以是所述服务器的外部存储设备,例如所述服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述服务器的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述服务器所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明的部分实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (10)

1.一种文本相似度的确定方法,其特征在于,所述方法包括:
调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词;
获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,所述第一词向量和第二词向量包括静态词向量或者动态词向量;
计算所述各个第一词向量与所述各个第二词向量之间的余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N,所述M和N均为大于0的整数;
基于预设文本相似度算法对各个所述余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N进行计算,确定出所述第一文本和所述第二文本之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述基于预设文本相似度算法对所述余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N进行计算,确定出所述第一文本和所述第二文本之间的相似度,包括:
基于预设文本相似度算法对各个所述余弦相似度进行求和计算,并将求和计算结果除以log M与log N的和值,得到所述第一文本和所述第二文本之间的相似度。
3.根据权利要求1所述的方法,其特征在于,所述调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词之前,所述方法还包括:
获取初始主题词识别模型,所述初始主题词识别模型包括特征函数;
基于预设特征函数对所述初始主题词识别模型中的所述特征函数进行调整;
获取包括主题词标注的训练短文本,并根据所述训练短文本对所述特征函数调整后的初始主题词识别模型进行训练优化,得到主题词识别模型。
4.根据权利要求1所述的方法,其特征在于,所述获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,包括:
调用语言表示模型对所述至少一个第一主题词中的各个第一主题词和所述至少一个第二主题词中的各个第二主题词进行向量表示,得到所述各个第一主题词的第一词向量和所述各个第二主题词的第二词向量,所述第一词向量和所述第二词向量均为动态词向量。
5.根据权利要求1所述的方法,其特征在于,所述获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,包括:
从开源词向量数据中查询并获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,所述第一词向量和所述第二词向量均为静态词向量。
6.根据权利要求5所述的方法,其特征在于,所述从开源词向量数据中查询所述至少一个第一主题词中各个第一主题词的第一词向量之后,所述方法还包括:
若所述开源词向量数据中未查询到所述至少一个第一主题词中任一第一主题词的第一词向量,则构建全0向量,并将所述全0向量确定为所述任一第一主题词的第一词向量。
7.根据权利要求1所述的方法,其特征在于,所述调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词之前,所述方法还包括:
检测第一文本和所述第二文本对应的字符数是否小于或者等于预设字符数阈值;
若检测到所述第一文本对应的字符数小于或者等于所述预设字符数阈值,则触发所述调用主题词识别模型确定出第一文本对应的至少一个第一主题词的步骤;
若检测到所述第二文本对应的字符数小于或者等于所述预设字符数阈值,则触发所述调用主题词识别模型确定出第二文本对应的至少一个第二主题词的步骤。
8.一种文本相似度的确定装置,其特征在于,所述装置包括:
处理模块,用于调用主题词识别模型确定出第一文本对应的至少一个第一主题词和第二文本对应的至少一个第二主题词;
获取模块,用于获取所述至少一个第一主题词中各个第一主题词的第一词向量和所述至少一个第二主题词中各个第二主题词的第二词向量,所述第一词向量和第二词向量包括静态词向量或者动态词向量;
所述处理模块,还用于计算所述各个第一词向量与所述各个第二词向量之间的余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N,所述M和N均为大于0的整数;
所述处理模块,还用于基于预设文本相似度算法对各个所述余弦相似度、所述第一主题词的数量M、以及所述第二主题词的数量N进行计算,确定出所述第一文本和所述第二文本之间的相似度。
9.一种服务器,其特征在于,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-7任意一项所述的方法。
CN201910960734.7A 2019-10-10 2019-10-10 一种文本相似度的确定方法及相关设备 Pending CN110866095A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910960734.7A CN110866095A (zh) 2019-10-10 2019-10-10 一种文本相似度的确定方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910960734.7A CN110866095A (zh) 2019-10-10 2019-10-10 一种文本相似度的确定方法及相关设备

Publications (1)

Publication Number Publication Date
CN110866095A true CN110866095A (zh) 2020-03-06

Family

ID=69652270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910960734.7A Pending CN110866095A (zh) 2019-10-10 2019-10-10 一种文本相似度的确定方法及相关设备

Country Status (1)

Country Link
CN (1) CN110866095A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581109A (zh) * 2020-05-15 2020-08-25 杭州安恒信息技术股份有限公司 一种接口返回数据校验的方法、系统及设备
CN111767706A (zh) * 2020-06-19 2020-10-13 北京工业大学 文本相似度的计算方法、装置、电子设备及介质
CN111881257A (zh) * 2020-07-24 2020-11-03 广州大学 基于主题词和语句主旨的自动匹配方法、系统及存储介质
CN112560457A (zh) * 2020-12-04 2021-03-26 上海风秩科技有限公司 基于非监督的文本去噪方法、系统、电子设备及存储介质
WO2021237928A1 (zh) * 2020-05-26 2021-12-02 深圳壹账通智能科技有限公司 文本相似度识别模型的训练方法、装置及相关设备
CN114416990A (zh) * 2022-01-17 2022-04-29 北京百度网讯科技有限公司 对象关系网络的构建方法、装置和电子设备
CN117556829A (zh) * 2024-01-11 2024-02-13 中汽信息科技(天津)有限公司 一种车辆故障码的比对方法、装置、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040162827A1 (en) * 2003-02-19 2004-08-19 Nahava Inc. Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
CN101477563A (zh) * 2009-01-21 2009-07-08 北京百问百答网络技术有限公司 一种短文本聚类的方法、系统及其数据处理装置
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN106776503A (zh) * 2016-12-22 2017-05-31 东软集团股份有限公司 文本语义相似度的确定方法及装置
CN106844350A (zh) * 2017-02-15 2017-06-13 广州索答信息科技有限公司 一种短文本语义相似度的计算方法
CN106933787A (zh) * 2017-03-20 2017-07-07 上海智臻智能网络科技股份有限公司 判决文书相似度的计算方法、查找装置及计算机设备
CN107844469A (zh) * 2017-10-26 2018-03-27 北京大学 基于词向量查询模型的文本简化方法
CN108170739A (zh) * 2017-12-18 2018-06-15 深圳前海微众银行股份有限公司 问题匹配方法、终端和计算机可读存储介质
CN108256056A (zh) * 2018-01-12 2018-07-06 广州杰赛科技股份有限公司 智能问答方法与系统
CN109408619A (zh) * 2018-10-10 2019-03-01 桂林电子科技大学 一种面向问答领域动态计算问句与答案相似性的方法
CN109871491A (zh) * 2019-03-20 2019-06-11 江苏满运软件科技有限公司 论坛帖子推荐方法、系统、设备及存储介质
CN109885813A (zh) * 2019-02-18 2019-06-14 武汉瓯越网视有限公司 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质
WO2019128311A1 (zh) * 2017-12-29 2019-07-04 广东神马搜索科技有限公司 广告的相似度处理方法和装置、计算设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040162827A1 (en) * 2003-02-19 2004-08-19 Nahava Inc. Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
CN101477563A (zh) * 2009-01-21 2009-07-08 北京百问百答网络技术有限公司 一种短文本聚类的方法、系统及其数据处理装置
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN106776503A (zh) * 2016-12-22 2017-05-31 东软集团股份有限公司 文本语义相似度的确定方法及装置
CN106844350A (zh) * 2017-02-15 2017-06-13 广州索答信息科技有限公司 一种短文本语义相似度的计算方法
CN106933787A (zh) * 2017-03-20 2017-07-07 上海智臻智能网络科技股份有限公司 判决文书相似度的计算方法、查找装置及计算机设备
CN107844469A (zh) * 2017-10-26 2018-03-27 北京大学 基于词向量查询模型的文本简化方法
CN108170739A (zh) * 2017-12-18 2018-06-15 深圳前海微众银行股份有限公司 问题匹配方法、终端和计算机可读存储介质
WO2019128311A1 (zh) * 2017-12-29 2019-07-04 广东神马搜索科技有限公司 广告的相似度处理方法和装置、计算设备及存储介质
CN108256056A (zh) * 2018-01-12 2018-07-06 广州杰赛科技股份有限公司 智能问答方法与系统
CN109408619A (zh) * 2018-10-10 2019-03-01 桂林电子科技大学 一种面向问答领域动态计算问句与答案相似性的方法
CN109885813A (zh) * 2019-02-18 2019-06-14 武汉瓯越网视有限公司 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质
CN109871491A (zh) * 2019-03-20 2019-06-11 江苏满运软件科技有限公司 论坛帖子推荐方法、系统、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
REYES-ORTIZ, JA等: "Phrase-based Semantic Textual Similarity for Linking Researchers", 《26TH INTERNATIONAL WORKSHOP ON DATABASE AND EXPERT SYSTEMS APPLICATIONS (DEXA)》, 4 September 2015 (2015-09-04), pages 202 - 206, XP032864899, DOI: 10.1109/DEXA.2015.54 *
何春辉: "一种基于文本相似度的网页新闻标题自动抽取算法", 《湖南城市学院学报(自然科学版)》, vol. 28, no. 1, 15 January 2019 (2019-01-15), pages 58 - 61 *
赵京胜等: "自动关键词抽取研究综述", 《软件学报》, vol. 28, no. 9, 5 June 2017 (2017-06-05), pages 2431 - 2449 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581109A (zh) * 2020-05-15 2020-08-25 杭州安恒信息技术股份有限公司 一种接口返回数据校验的方法、系统及设备
WO2021237928A1 (zh) * 2020-05-26 2021-12-02 深圳壹账通智能科技有限公司 文本相似度识别模型的训练方法、装置及相关设备
CN111767706A (zh) * 2020-06-19 2020-10-13 北京工业大学 文本相似度的计算方法、装置、电子设备及介质
CN111881257A (zh) * 2020-07-24 2020-11-03 广州大学 基于主题词和语句主旨的自动匹配方法、系统及存储介质
CN111881257B (zh) * 2020-07-24 2022-06-03 广州大学 基于主题词和语句主旨的自动匹配方法、系统及存储介质
CN112560457A (zh) * 2020-12-04 2021-03-26 上海风秩科技有限公司 基于非监督的文本去噪方法、系统、电子设备及存储介质
CN112560457B (zh) * 2020-12-04 2024-03-12 上海秒针网络科技有限公司 基于非监督的文本去噪方法、系统、电子设备及存储介质
CN114416990A (zh) * 2022-01-17 2022-04-29 北京百度网讯科技有限公司 对象关系网络的构建方法、装置和电子设备
CN114416990B (zh) * 2022-01-17 2024-05-21 北京百度网讯科技有限公司 对象关系网络的构建方法、装置和电子设备
CN117556829A (zh) * 2024-01-11 2024-02-13 中汽信息科技(天津)有限公司 一种车辆故障码的比对方法、装置、设备及存储介质
CN117556829B (zh) * 2024-01-11 2024-04-09 中汽信息科技(天津)有限公司 一种车辆故障码的比对方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110866095A (zh) 一种文本相似度的确定方法及相关设备
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
CN106874441B (zh) 智能问答方法和装置
CN112287670A (zh) 文本纠错方法、系统、计算机设备及可读存储介质
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN110909122B (zh) 一种信息处理方法及相关设备
US10747961B2 (en) Method and device for identifying a sentence
CN111241813B (zh) 语料扩展方法、装置、设备及介质
US20210200952A1 (en) Entity recognition model training method and entity recognition method and apparatus using them
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN107885717B (zh) 一种关键词提取方法及装置
CN112256822A (zh) 文本搜索方法、装置、计算机设备和存储介质
CN111428027A (zh) 查询意图确定方法及相关装置
CN113158687A (zh) 语义的消歧方法及装置、存储介质、电子装置
CN113934848A (zh) 一种数据分类方法、装置和电子设备
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN110347807B (zh) 问题信息处理方法及装置
CN112528646B (zh) 词向量生成方法、终端设备及计算机可读存储介质
CN113792131B (zh) 一种关键词的提取方法、装置、电子设备及存储介质
CN115906797A (zh) 文本实体对齐方法、装置、设备及介质
CN111625636B (zh) 一种人机对话的拒绝识别方法、装置、设备、介质
CN113934842A (zh) 文本聚类方法、装置及可读存储介质
CN113139374A (zh) 一种文档相似段落的标记查询方法、系统、设备及存储介质
CN112765357A (zh) 文本分类方法、装置和电子设备
CN110866106A (zh) 一种文本推荐方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination