CN111144109A

CN111144109A - 文本相似度确定方法和装置

Info

Publication number: CN111144109A
Application number: CN201911376931.0A
Authority: CN
Inventors: 张文剑; 牟小峰
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-12
Anticipated expiration: 2039-12-27
Also published as: CN111144109B

Abstract

本发明提供了一种文本相似度确定方法和装置，该方法包括：分别对第一文本和第二文本进行分词得到第一分词集合和第二分词集合，在预设的词向量库中，根据词向量和分词的对应关系，查找所述第一分词集合和所述第二分词集合中各分词对应的词向量，分别得到第一词向量集合和第二词向量合；当确定所述第一词向量集合和所述第二词向量集合都不为空集合时，计算所述第一词向量集合和所述第二词向量集合之间的最大余弦距离；根据所述第一词向量集合和所述第二词向量集合之间的最大余弦距离，以及预设的第一词向量集合和所述第二词向量集合的词频信息，确定所述第一文本和所述第二本文之间的相似度。

Description

文本相似度确定方法和装置

技术领域

本发明涉及计算机技术领域，具体涉及一种文本相似度确定方法和装置。

背景技术

在互联网飞速发展期间，文本数据呈现爆炸式增长，越来越多的应用场景需要对文本数据进行分析和挖掘。短文本相似性是其中的一项文本挖掘任务，在搜索、商品推荐和智能问答等领域都起着重要的作用。短文本一般是由若干短语或几个句子组成，其平均字数一般在几十左右。由于中文同义词较多，且存在许多语义相似的词，对短文本相似性的度量尤为重要。目前的文本相似度确定的算法都是针对有一个或几个词语组成的短文本，当文本中包括的词语较多时，根据现有技术中的方法得到的文本相似度不准确，降低了工作效率、增加了人工成本。

基于以上技术问题，本申请提供一种文本相似度确定方法和装置以解决现有技术中不能准确反映出包括较多词语的长文本的相似度的问题。

发明内容

为了解决上述技术问题，本发明提供了一种文本相似度确定方法和装置，对于长文本之间的相似度计算可以提高准确度、提高工作效率以及降低人工成本。

为了解决上述技术问题，本发明提供了一种文本相似度确定方法，其特征在于，包括：

分别对第一文本和第二文本进行分词得到第一分词集合和第二分词集合，在预设的词向量库中，根据词向量和分词的对应关系，查找所述第一分词集合和所述第二分词集合中各分词对应的词向量，分别得到第一词向量集合和第二词向量合；

当确定所述第一词向量集合和所述第二词向量集合都不为空集合时，计算所述第一词向量集合和所述第二词向量集合之间的最大余弦距离；

根据所述第一词向量集合和所述第二词向量集合之间的最大余弦距离，以及预设的第一词向量集合和所述第二词向量集合的词频信息，确定所述第一文本和所述第二本文之间的相似度。

在一个示例性实施例中，当确定所述第一词向量集合和所述第二词向量集合中任一个或均为空集合时，确定所述第一文本和所述第二文本不相似。

在一个示例性实施例中，所述第一词向量集合和所述第二词向量集合之间的最大余弦距离包括：所述第一词向量集合中每个词向量的最大余弦距离和所述第二词向量集合中每个词向量的最大余弦距离；

对于所述第一词向量集合中的每个词向量分别进行如下操作：

计算该词向量到第二词向量集合中每个词向量的余弦距离，将计算得到的最大的余弦距离作为该词向量的最大余弦距离；

对于所述第二词向量集合中每个词向量分别进行如下操作：

计算该词向量到所述第二词向量集合中每个词向量的余弦距离，将计算得到的最大的余弦距离作为该词向量的最大余弦距离。

在一个示例性实施例中，所述预设的第一词向量集合和所述第二词向量集合的词频信息包括：所述第一词向量集合中每个词向量的预设词频和所述第二词向量集合中每个词向量的预设词频；

所述根据所述第一词向量集合和所述第二词向量集合之间的最大余弦距离以及预设第一词向量集合和所述第二词向量集合的词频信息，确定所述第一文本和所述第二本文之间的相似度，包括：

根据所述第一词向量集合中每个词向量的预设词频和所述第二词向量集合中每个词向量的预设词频，确定所述第一词向量集合和所述第二词向量集合中每个词向量的权重；

根据所述第一词向量集合和所述第二词集合中每个词向量的权重，计算所述第一词向量集合中的所有词向量的最大余弦距离和所述第二词向量集合中所有词向量的最大余弦距离的加权平均和，得到所述第一文本和所述第二文本之间的相似度。

在一个示例性实施例中，根据所述第一词向量集合中每个词向量的预设词频和所述第二词向量集合中每个词向量的预设词频，确定所述第一词向量集合和所述第二词向量集合中每个词向量的权重，包括：根据所述第一词向量集合和第二词向量集合中每个词向量的预设词频，分别计算每个词向量的权重：

其中，α(w)为权重，p(w)为预设词频，c为超参数，其取值范围为[10^-4,10^-3]。

本发明提供的上述文本相似度确定方法中，通过分别对第一文本和第二文本进行分词得到第一分词集合和第二分词集合，在预设的词向量库中，根据词向量和分词的对应关系，查找所述第一分词集合和所述第二分词集合中各分词对应的词向量，分别得到第一词向量集合和第二词向量合；当确定所述第一词向量集合和所述第二词向量集合都不为空集合时，计算所述第一词向量集合和所述第二词向量集合之间的最大余弦距离；根据所述第一词向量集合和所述第二词向量集合之间的最大余弦距离，以及预设的第一词向量集合和所述第二词向量集合的词频信息，确定所述第一文本和所述第二本文之间的相似度，准确地反映出了长文本之间的相似度、提高了工作效率并降低了人工成本。

为了解决上述技术问题，本发明提供了一种文本相似度确定装置，包括存储器和处理器；其特征在于：

所述存储器，用于存储计算机可读指令；

所述处理器，用于执行所述计算机可读指令，以执行如下操作：

在一个示例性实施例中，所述处理器还用于执行所述计算机可读指令，以执行如下操作：

当确定所述第一词向量集合和所述第二词向量集合中任一个或均为空集合时，确定所述第一文本和所述第二文本不相似。

对于所述第二词向量集合中每个词向量分别进行如下操作：

本发明提供上述文本相似度确定装置通过分别对第一文本和第二文本进行分词得到第一分词集合和第二分词集合，在预设的词向量库中，根据词向量和分词的对应关系，查找所述第一分词集合和所述第二分词集合中各分词对应的词向量，分别得到第一词向量集合和第二词向量合；当确定所述第一词向量集合和所述第二词向量集合都不为空集合时，计算所述第一词向量集合和所述第二词向量集合之间的最大余弦距离；根据所述第一词向量集合和所述第二词向量集合之间的最大余弦距离，以及预设的第一词向量集合和所述第二词向量集合的词频信息，确定所述第一文本和所述第二本文之间的相似度，准确地反映出了长文本之间的相似度、提高了工作效率并降低了人工成本。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例的文本相似度确定方法的流程图；

图2为本发明实施例的文本相似度确定装置的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

Word2vec是一项度量词义的重要技术，它将每个词语转化为一个向量，该向量也叫词向量，且语义相似的词所对应的词向量的距离比较接近。Word2vec使用神经网络模型在大规模语料上进行训练得到词向量，通过计算词向量间的余弦距离或者欧几里得距离等可以度量两个词语的相似程度，且该方法已经在学术界和业界得到广泛认可和应用。然而，对于句子级别的相似性度量一直没有得到一种很好的解决办法。学术界曾提出了skip-thought和doc2vec等神经网络模型来直接训练句向量，但因其效果不够出色或者工业生产中效率很低而极少使用。因此在词向量的基础上来度量短文本的相似性是一种相对较好的解决方法。

工业生产中，常用的度量短文本相似性的算法一般是先将短文本通过分词工具分解成若干个词语，然后在去除停用词后，对短文本中每个词语的向量通过一种求加权平均和的方式得到短文本向量的表示，最后再计算各个短文本向量间的余弦距离从而得到相似性度量。常用的加权方法有算术平均、TF-IDF等。由于词向量能较好地表示相似词的语义，当短文本仅由一个词语或几个词语组成时，采用加权平均和的方式往往都能取得比较好的效果。但是，当文本中有较多词语组成或句子较长时，使用加权平均和的方法得到的文本向量通常难以正确表述该文本在向量空间中的位置，从而使得度量结果不准确。其次，在不同应用场景中，停用词往往需要人工创建，成本较高，且由于词义的复杂性，有些停用词在某些文本中也会较大地影响语义，从而使得停用词的构建难度增大。

图1是本发明实施例的文本相似度确定方法的流程图，包括：

步骤S101:分别对第一文本和第二文本进行分词得到第一分词集合和第二分词集合，在预设的词向量库中，根据词向量和分词的对应关系，查找所述第一分词集合和所述第二分词集合中各分词对应的词向量，分别得到第一词向量集合和第二词向量合。

在该步骤中的预设的词向量库可以是通过大量的训练获得的，例如，国内某实验室训练的包括800万词向量的词向量库，或者可以是公开。在具体实现时，可以将包括词向量数量较大的词向量库中的词向量根据其对应词汇的意思进行分类，例如，分为地理类、人文类、科学类、数学类等等，可以在对应的分类下查找各词向量。

步骤S102：当确定所述第一词向量集合和所述第二词向量集合都不为空集合时，计算所述第一词向量集合和所述第二词向量集合之间的最大余弦距离。

在该步骤中，采用了词向量距离来度量文本的相似度，而不需要来计算句向量，从而避免了采用句向量计算文本相似度的准确性问题。由于是在词义级别上来度量文本相似度，通过词向量间的距离能较准确地度量出包含较多词语的文本的相似度，有效解决了文本中包含较多个词语或句子较长时文本相似度不太准确的问题

步骤103：根据所述第一词向量集合和所述第二词向量集合之间的最大余弦距离，以及预设的第一词向量集合和所述第二词向量集合的词频信息，确定所述第一文本和所述第二本文之间的相似度。

在该步骤中，结合了词频信息确定文本的相似度，一方面避免了人工构建停用词的成本，另一方面由于在人类对短文本相似度的评判中，低频词的出现往往会让人对文本间的相似性做出较低的度量，例如人在判断文本“小明在中国”、“小红在美国”和文本“小明在中国”、“小椰在马达加斯加”各自的相似度时，前者通常会判定较高的相似度，而词频信息的引入，使得文本相似度的结果更加准确。

因此，本申请实施例中的文本相似度确定方法，通过分别对第一文本和第二文本进行分词得到第一分词集合和第二分词集合，在预设的词向量库中，根据词向量和分词的对应关系，查找所述第一分词集合和所述第二分词集合中各分词对应的词向量，分别得到第一词向量集合和第二词向量合；当确定所述第一词向量集合和所述第二词向量集合都不为空集合时，计算所述第一词向量集合和所述第二词向量集合之间的最大余弦距离；根据所述第一词向量集合和所述第二词向量集合之间的最大余弦距离，以及预设的第一词向量集合和所述第二词向量集合的词频信息，确定所述第一文本和所述第二本文之间的相似度，准确地反映出了长文本的相似度、提高了工作效率并降低了人工成本。

第一词向量集合和第二词向量集合中任一个或均为空集合表示第一分词集合或第二分词集合中的全部分词在词向量库中没有找到对应的词向量，或第一分词集合和第二分词集中的全部分词在词向量库中都没有找到对应的词向量。在这三种任一种情况下，可以直接确定两个文本之间不相似。

对于所述第二词向量集合中每个词向量分别进行如下操作：

在另一个示例性实施例中，每个词向量的权重可以通过词频-逆文件频率TI-IDF算法获得。

在其他示例性实施例中，每个词向量的权重中还可以通过算数平均算法获得，具体采用哪种算法获得每次词向量的权重，本申请对此不做限定。

在一个示例性实施例中，所述预设的词向量库是通过word2vec模型训练得到。

在另一个示例性实施例中，所述预设的词向量库是通过Glove模型训练得到。

在其他示例性实施例中，所述预设的词向量库可以通过其他模型训练得到，具体采用哪种模型训练，可以根据具体应用场景确定，本申请对此不做限定。

图2为本发明实施例的文本相似度确定装置，包括存储器10和处理器20。

存储器10，用于存储计算机可读指令；

处理器20，用于执行所述计算机可读指令，以执行如下操作：

对于所述第二词向量集合中每个词向量分别进行如下操作：

装置实施例的其它实现细节可参见上文方法实施例。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上仅为本发明的优选实施例，当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种文本相似度确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：当确定所述第一词向量集合和所述第二词向量集合中任一个或均为空集合时，确定所述第一文本和所述第二文本不相似。

3.根据权利要求1所述的方法，其特征在于，所述第一词向量集合和所述第二词向量集合之间的最大余弦距离包括：所述第一词向量集合中每个词向量的最大余弦距离和所述第二词向量集合中每个词向量的最大余弦距离；

对于所述第二词向量集合中每个词向量分别进行如下操作：

4.根据权利要求3所述的方法，其特征在于，所述预设的第一词向量集合和所述第二词向量集合的词频信息包括：所述第一词向量集合中每个词向量的预设词频和所述第二词向量集合中每个词向量的预设词频；

5.根据权利要求4所述的方法，其特征在于，根据所述第一词向量集合中每个词向量的预设词频和所述第二词向量集合中每个词向量的预设词频，确定所述第一词向量集合和所述第二词向量集合中每个词向量的权重，包括：根据所述第一词向量集合和第二词向量集合中每个词向量的预设词频，分别计算每个词向量的权重：

6.一种文本相似度确定装置，包括存储器和处理器；其特征在于：

所述存储器，用于存储计算机可读指令；

7.根据权利要求6所述的装置，其特征在于，所述处理器还用于执行所述计算机可读指令，以执行如下操作：

8.根据权利要求6所述的装置，其特征在于，所述第一词向量集合和所述第二词向量集合之间的最大余弦距离包括：所述第一词向量集合中每个词向量的最大余弦距离和所述第二词向量集合中每个词向量的最大余弦距离；

对于所述第二词向量集合中每个词向量分别进行如下操作：

9.根据权利要求6所述的装置，其特征在于，所述预设的第一词向量集合和所述第二词向量集合的词频信息包括：所述第一词向量集合中每个词向量的预设词频和所述第二词向量集合中每个词向量的预设词频；

10.根据权利要求9所述的装置，其特征在于，根据所述第一词向量集合中每个词向量的预设词频和所述第二词向量集合中每个词向量的预设词频，确定所述第一词向量集合和所述第二词向量集合中每个词向量的权重，包括：根据所述第一词向量集合和第二词向量集合中每个词向量的预设词频，分别计算每个词向量的权重：