CN109472008A

CN109472008A - 一种文本相似度计算方法、装置及电子设备

Info

Publication number: CN109472008A
Application number: CN201811381929.8A
Authority: CN
Inventors: 徐乐乐
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Wuhan Douyu Network Technology Co Ltd
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2019-03-15

Abstract

本发明实施例公开了一种文本相似度计算方法、装置及电子设备。本发明实施例方法包括：获取原始文本和目标文本；确定原始文本和目标文本中相同词性的词语；确定原始文本和目标文本中的共同词项集合和并集词项集合；基于相同的词性、共同词项集合所述并集词项集合，计算原始文本和所述目标文本的文本相似度。本发明实施例中文本相似度是综合两个文本之间的词性和共同词项集合和并集词项集合计算出来的，相同词性越多、共同词项越多，则文本相似度越高，计算的文本相似度更加贴近实际，文本相似度计算更加准确。

Description

一种文本相似度计算方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，特别涉及一种文本相似度计算方法、装置及电子设备。

背景技术

相似度计算用于衡量对象之间的相似程度。在自然语言处理技术领域，相似度计算一个基础性运算，被广泛应用于数据挖掘、数据分类、信息检索和信息采集等技术场景中。文本相似度计算是自然语言处理技术领域中常涉及到的相似度计算类型，通过计算不同文本之间的相似度能够实现对大规模的文本语料进行聚类分析、文本匹配或去重处理等。

现有技术中的文本相似度计算方法主要包括余弦相似度、编辑距离和基于神经网络语言模型的相似度计算方法。其中，余弦相似度方法对文本进行分词，并根据分词结果构造文本的特征向量，将特征向量之间的余弦相似度作为文本相似度；编辑距离是指两个文本之间，由一个转成另一个所需的最少编辑操作次数，许可的编辑操作包括将文本中的一个字符替换成另一个字符，插入一个字符或删除一个字符，最少编辑操作次数越少，则文本相似度越高；而神经网络语言模型的贡献是解决了传统的通过特征词向量计算文本相似度时出现的维度灾难问题。

与一些外文语言不同，在中文语言中，语法和语义的表达较多地依赖语序而实现。因此，在计算中文文本相似度的时候，除了要考虑文本内容以外，还要考虑语序对语义的影响。但是，现有技术的文本相似度方法无论是构造特征向量还是计算编辑距离，都仅仅是计算文本在字符内容上的相似度，没有或很少地考虑到语序对语法和语义的影响，例如，在计算弹幕相似度时候，采用传统的Jaccard算法(编辑距离算法的一种)，一般只考虑文本中相同词来计算文本相似度，没有考虑同类词之间的相关性，这就导致了现有技术中的文本相似度计算方法对依赖语序的中文语言的处理能力较弱，计算中文文本相似度的准确度还不够理想。

发明内容

本发明实施例提供了一种文本相似度计算方法、装置及电子设备，计算的文本相似度更加贴近实际，文本相似度计算更加准确。

第一方面，本申请提供了一种文本相似度计算方法、装置及电子设备，该方法包括：

获取原始文本和目标文本；

确定所述原始文本和所述目标文本中相同词性的词语；

确定所述原始文本和所述目标文本中的共同词项集合和并集词项集合；

基于所述相同的词性、所述共同词项集合和所述并集词项集合，计算所述原始文本和所述目标文本的文本相似度。

进一步的，所述获取原始文本和目标文本的步骤，包括：

获取目标领域的目标语料；

对所述目标语料进行分词，得到待计算文本；

在所述待计算文本中选择原始文本和目标文本。

进一步的，所述确定所述原始文本和所述目标文本中相同词性的词语的步骤，包括：

对所述原始文本和所述目标文本进行分词和词性标注，并去除停用词；

确定所述原始文本和所述目标文本中相同名词或动词词性的词语个数；

确定所述原始文本和所述目标文本中非名词或动词词性的词语个数。

进一步的，所述基于所述相同的词性、所述共同词项集合所述并集词项集合，计算所述原始文本和所述目标文本的文本相似度的步骤，包括：

基于所述相同的词性，计算所述原始文本和所述目标文本的第一文本相似度；

基于所述共同词项集合所述并集词项集合，计算所述原始文本和所述目标文本的第二文本相似度；

根据所述第一文本相似度和所述第二文本相似度，计算所述原始文本和所述目标文本的文本相似度。

进一步的，所述原始文本和所述目标文本的文本相似度为所述第一文本相似度和所述第二文本相似度之和。

进一步的，所述基于所述相同的词性、所述共同词项集合所述并集词项集合，计算所述原始文本和所述目标文本的文本相似度的步骤采用如下公式：

其中，pos_nv(A)∩pos_nv(B)表示所述原始文本和所述目标文本中含有相同名词或动词词性的词语个数；pos_other(A)∩pos_other(B)表示所述原始文本和所述目标文本中非名词或动词词性的词语个数；len(A)表示所述原始文本的长度，len(B)表示所述目标文本的长度；l₁含有名词或者动词的权重，l₂含有非名词或动词词性的权重；l₁+l₂＝1；A∩B表示所述原始文本和所述目标文本中含有相同词项的个数；A∪B表示所述原始文本和所述目标文本中并集的词项个数；λ₁表示词性在相似度计算中的权重；λ₂表示共同词项在相似度计算中的权重；λ₁+λ₂＝1。

第二方面，本申请提供一种文本相似度计算装置，该装置包括：

获取单元，用于获取原始文本和目标文本；

第一确定单元，用于确定所述原始文本和所述目标文本中相同词性的词语；

第二确定单元，用于确定所述原始文本和所述目标文本中的共同词项集合和并集词项集合；

计算单元，用于基于所述相同的词性、所述共同词项集合和所述并集词项集合，计算所述原始文本和所述目标文本的文本相似度。

进一步的，所述获取单元具体用于：

获取目标领域的目标语料；

对所述目标语料进行分词，得到待计算文本；

在所述待计算文本中选择原始文本和目标文本。

进一步的，所述计算单元具体用于：

进一步的，所述计算单元具体采用如下公式计算所述原始文本和所述目标文本的文本相似度：

第三方面，本发明还提供一种电子设备，包括：存储器，处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时可以实现第一方面中任一所述的方法。

第四方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一所述的方法。

本发明实施例通过获取原始文本和目标文本；确定原始文本和目标文本中相同词性的词语；确定原始文本和目标文本中的共同词项集合和并集词项集合；基于相同的词性、共同词项集合所述并集词项集合，计算原始文本和所述目标文本的文本相似度。本发明实施例中文本相似度是综合两个文本之间的词性和共同词项集合和并集词项集合计算出来的，相同词性越多、共同词项越多，则文本相似度越高，计算的文本相似度更加贴近实际，文本相似度计算更加准确。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中文本相似度计算方法的一个实施例示意图；

图2是本发明实施例中文本相似度计算装置的一个实施例示意图；

图3是本发明实施例中电子设备的一个实施例示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

杰卡德相似系数(Jaccard similarity coefficient)，也称杰卡德指数(JaccardIndex)，是用来衡量两个集合相似度的一种指标。Jaccard相似指数用来度量两个集合之间的相似性，它被定义为两个集合交集的元素个数除以并集的元素个数。在项目中对于文本的推荐，每个用户对新闻的浏览可以看做是一个集合。这样就可以使用jaccard算法实现用户之间的相似度计算。

在计算文本相似度时候，采用传统的Jaccard算法，一般只考虑文本中相同词来计算文本相似度，没有考虑同类词之间的相关性，本发明实施例中针对这一问题，提出了改进的Jaccard的文本相似度算法。具体的，提供一种文本相似度计算方法、装置及电子设备。

本发明实施例中文本相似度计算方法应用于文本相似度计算装置，该装置位于电子设备中，该电子设备可以是手机、平板电脑或者个人电脑等电子设备，也可以是未来出现的电子设备等。

请参阅图1，本发明实施例中文本相似度计算方法的一个实施例包括：

S101、获取原始文本和目标文本。

文本，是指书面语言的表现形式，从文学角度说，通常是具有完整、系统含义(Message)的一个句子或多个句子的组合。一个文本可以是一个句子(Sentence)、一个段落(Paragraph)或者一个篇章(Discourse)。

本发明实施例中，所述获取原始文本和目标文本的步骤，可以进一步包括：获取目标领域的目标语料；对所述目标语料进行分词，得到待计算文本；在所述待计算文本中选择原始文本和目标文本。

其中，语料，即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。所以，人们简单地用文本作为替代，并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。我们把一个文本集合称为语料库(Corpus)，当有几个这样的文本集合的时候，我们称之为语料库集合(Corpora)。

本发明实施例中，目标领域为预先确定的语料领域，例如“体育”、“经济”或“娱乐”等领域。目标语料可以包括一个或多个语料，由于一个语料中可以是一个文本集合。在对目标语料进行分词后，可以得到多个文本，即为本发明实施例中的待计算文本，在待计算文本中选择原始文本和目标文本即可进行它们之间的文本相似度计算。

本发明实施例中文本可以指的是直播间用户输入的弹幕。

S102、确定原始文本和所述目标文本中相同词性的词语。

词性指以词的特点作为划分词类的根据。现代汉语的词可以分为两类14种词性。词类是一个语言学术语，是一种语言中词的语法分类，是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果。从组合和聚合关系来说，一个词类是指：在一个语言中，众多具有相同句法功能、能在同样的组合位置中出现的词，聚合在一起形成的范畴。词类是最普遍的语法的聚合。词类划分具有层次性。如汉语中，词可以分成实词和虚词，实词中又包括体词、谓词等，体词中又可以分出名词和代词等。

本发明实施例中，词性可以包括名词、动词和其他之外的词性。进一步的，所述确定所述原始文本和所述目标文本中相同词性的词语的步骤，可以包括：对所述原始文本和所述目标文本进行分词和词性标注，并去除停用词；确定所述原始文本和所述目标文本中相同名词或动词词性的词语个数；确定所述原始文本和所述目标文本中非名词或动词词性的词语个数。具体的，本发明实施例中可以利用jieba工具进行分词和词性标注等。

S103、确定所述原始文本和所述目标文本中的共同词项集合和并集词项集合。

词项英文(原文)term and concept，指的是逻辑分析的基本单元。在传统逻辑里，词项就是直言命题的主项和谓项；能作为命题的主项和谓项的，就叫做概念。本发明实施例中，共同词项集合中标识原始文本和目标文本都包括的词项的集合，即取交集后的词项的集合，并集词项集合表示原始文本和目标文本中取并集后的词项的集合。

S104、基于所述相同的词性、所述共同词项集合和所述并集词项集合，计算所述原始文本和所述目标文本的文本相似度。

本发明实施例中，所述基于所述相同的词性、所述共同词项集合所述并集词项集合，计算所述原始文本和所述目标文本的文本相似度的步骤，可以进一步包括：基于所述相同的词性，计算所述原始文本和所述目标文本的第一文本相似度；基于所述共同词项集合所述并集词项集合，计算所述原始文本和所述目标文本的第二文本相似度；根据所述第一文本相似度和所述第二文本相似度，计算所述原始文本和所述目标文本的文本相似度。

在本发明一个优选实施例中，所述原始文本和所述目标文本的文本相似度为所述第一文本相似度和所述第二文本相似度之和。

在本发明一个优选实施例中，所述基于所述相同的词性、所述共同词项集合所述并集词项集合，计算所述原始文本和所述目标文本的文本相似度的步骤采用如下公式：

在本实施例中，其中公式(1)的前半部分即为第一相似度，后半部分即为第二相似度。前半部分，主要考虑词性层面考虑，一般认为如果2句话越相似，则2个句子中的文本中的词性越相似，且词性是含有语义层面的信息，因此在文本相似度计算中，贡献度更高，因此λ₁>λ₂；后半部分，是从2个句子拥有的共同词项出发，如果2个句子中的共同词项越多，则2个句子越相似。因此，上述公式(1)中的计算更加贴近实际，计算的文本相似度更加准确。

下面介绍本发明实施例中文本相似度计算装置的实施例。

请参阅图2，为本发明实施例中文本相似度计算装置一个实施例示意图，该装置包括：

获取单元201，用于获取原始文本和目标文本；

第一确定单元202，用于确定所述原始文本和所述目标文本中相同词性的词语；

第二确定单元203，用于确定所述原始文本和所述目标文本中的共同词项集合和并集词项集合；

计算单元204，用于基于所述相同的词性、所述共同词项集合和所述并集词项集合，计算所述原始文本和所述目标文本的文本相似度。

进一步的，所述获取单元201具体用于：

获取目标领域的目标语料；

对所述目标语料进行分词，得到待计算文本；

在所述待计算文本中选择原始文本和目标文本。

进一步的，所述计算单元204具体用于：

进一步的，所述计算单元204具体采用如下公式计算所述原始文本和所述目标文本的文本相似度：

本发明实施例通过获取单元201获取原始文本和目标文本；第一确定单元202确定原始文本和目标文本中相同词性的词语；第二确定单元203确定原始文本和目标文本中的共同词项集合和并集词项集合；计算单元204基于相同的词性、共同词项集合所述并集词项集合，计算原始文本和所述目标文本的文本相似度。本发明实施例中文本相似度是综合两个文本之间的词性和共同词项集合和并集词项集合计算出来的，相同词性越多、共同词项越多，则文本相似度越高，计算的文本相似度更加贴近实际，文本相似度计算更加准确。

下面以一个具体场景实施例介绍本发明实施例中文本相似度计算方法。

首先对弹幕语料库进行分词，同时进行词性标注，并去除停用词；

假设输入句子A＝我想去北京读大学，待匹配B＝北京的大学真好玩，利用jieba分词&词性标注后可以得到：

A＝我/n想去/adv北京/n读/v大学/n；

B＝北京/n的/adv大学/n真/adj好玩/adj；

A∪B＝{我,想去,北京,读,大学,的,真,好玩}；

A∩B＝{北京,大学}；

pos_nv(A)∩pos_nv(B)＝6；

pos_other(A)∩pos_other(B)＝4；

令l₁＝0.7，l₂＝0.3；λ₁＝0.6，λ₂＝0.4；

因此根据公式1，计算弹幕A、B的文本相似度为：

则弹幕A、B的文本相似度为0.424。

本发明实施例中还提供一种电子设备，请参见图3，所述电子设备包括：

存储器301，处理器302及存储在所述存储器上并可在所述处理器上运行的计算机程序303，其中，所述处理器302执行所述计算机程序303时可以实现上述文本相似度计算方法。

需要说明的是，本申请涉及的电子设备包括但不限于是：移动终端(手机、智能手机、PAD、笔记本电脑等等)、固定终端(计算机)。

为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。存储器301可用于存储计算机程序303，上述计算机程序包括软件程序、模块和数据，处理器302通过运行执行存储在存储器301的计算机程序303，从而执行电子设备的各种功能应用以及数据处理。

在具体的实施过程中，存储器301可用于存储软件程序以及模块，处理器302通过运行存储在存储器301的软件程序以及模块，从而执行电子设备的各种功能应用以及数据处理。存储器301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(例如游戏类应用程序、聊天类应用程序)等；存储数据区可存储根据电子设备的使用所创建的数据(游戏配置数据、音频数据)等。此外，存储器301可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。处理器302是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器301内的软件程序和/或模块，以及调用存储在存储器301内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器302可包括一个或多个处理单元；优选的，处理器302可集成应用处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等。

本发明实施例还提供一种计算机可读存储介质，其中，该计算机可读存储介质可存储有程序，该程序执行时包括上述方法实施例中记载的文本相似度计算方法的部分或全部步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本相似度计算方法，其特征在于，所述方法包括：

获取原始文本和目标文本；

确定所述原始文本和所述目标文本中相同词性的词语；

2.根据权利要求1所述的文本相似度计算方法，其特征在于，所述获取原始文本和目标文本的步骤，包括：

获取目标领域的目标语料；

对所述目标语料进行分词，得到待计算文本；

在所述待计算文本中选择原始文本和目标文本。

3.根据权利要求1所述的文本相似度计算方法，其特征在于，所述确定所述原始文本和所述目标文本中相同词性的词语的步骤，包括：

4.根据权利要求1所述的文本相似度计算方法，其特征在于，所述基于所述相同的词性、所述共同词项集合所述并集词项集合，计算所述原始文本和所述目标文本的文本相似度的步骤，包括：

5.根据权利要求1所述的文本相似度计算方法，其特征在于，所述原始文本和所述目标文本的文本相似度为所述第一文本相似度和所述第二文本相似度之和。

6.根据权利要求1所述的文本相似度计算方法，其特征在于，所述基于所述相同的词性、所述共同词项集合所述并集词项集合，计算所述原始文本和所述目标文本的文本相似度的步骤采用如下公式：

7.一种文本相似度计算装置，其特征在于，所述装置包括：

获取单元，用于获取原始文本和目标文本；

8.根据权利要求7所述的文本相似度计算装置，其特征在于，所述获取单元具体用于：

获取目标领域的目标语料；

对所述目标语料进行分词，得到待计算文本；

在所述待计算文本中选择原始文本和目标文本。

9.根据权利要求7所述的文本相似度计算装置，其特征在于，所述计算单元具体用于：

10.一种电子设备，其特征在于，包括：存储器，处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时可以实现权利要求1至6任一所述的方法。