CN109271641A

CN109271641A - 一种文本相似度计算方法、装置及电子设备

Info

Publication number: CN109271641A
Application number: CN201811381930.0A
Authority: CN
Inventors: 徐乐乐
Original assignee: Wuhan Douyu Network Technology Co Ltd
Current assignee: Guangxi Sanfangda Supply Chain Technology Service Co ltd
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2019-01-25
Anticipated expiration: 2038-11-20
Also published as: CN109271641B

Abstract

本发明实施例公开了一种文本相似度计算方法、装置及电子设备。本发明实施例方法包括：获取原始文本和目标文本；计算所述原始文本和所述目标文本的编辑距离；确定所述原始文本和所述目标文本的最长公共子串，并求得所述最长公共子串在所述原始文本中的起始位置；基于所述最长公共子串在所述原始文本中的起始位置，计算所述原始文本和所述目标文本的文本相似度。本发明实施例中结合原始文本和目标文本的编辑距离和最长公共子串计算文本相似度，计算的文本相似度更加贴近实际，提高了文本相似度计算的准确度。

Description

一种文本相似度计算方法、装置及电子设备

技术领域

本发明涉及视频播放技术领域，特别涉及一种文本相似度计算方法、装置及电子设备。

背景技术

相似度计算用于衡量对象之间的相似程度。在自然语言处理技术领域，相似度计算一个基础性运算，被广泛应用于数据挖掘、数据分类、信息检索和信息采集等技术场景中。文本相似度计算是自然语言处理技术领域中常涉及到的相似度计算类型，通过计算不同文本之间的相似度能够实现对大规模的文本语料进行聚类分析、文本匹配或去重处理等。

现有技术中的文本相似度计算方法主要包括余弦相似度、编辑距离和基于神经网络语言模型的相似度计算方法。其中，余弦相似度方法对文本进行分词，并根据分词结果构造文本的特征向量，将特征向量之间的余弦相似度作为文本相似度；编辑距离是指两个文本之间，由一个转成另一个所需的最少编辑操作次数，许可的编辑操作包括将文本中的一个字符替换成另一个字符，插入一个字符或删除一个字符，最少编辑操作次数越少，则文本相似度越高；而神经网络语言模型的贡献是解决了传统的通过特征词向量计算文本相似度时出现的维度灾难问题。

与一些外文语言不同，在中文语言中，语法和语义的表达较多地依赖语序而实现。因此，在计算中文文本相似度的时候，除了要考虑文本内容以外，还要考虑语序对语义的影响。但是，现有技术的文本相似度方法无论是构造特征向量还是计算编辑距离，都仅仅是计算文本在字符内容上的相似度，没有或很少地考虑到语序对语法和语义的影响，例如，在计算弹幕相似度时候，采用传统的Levenshtein算法(编辑距离算法的一种)，这种方式主要基于源字符串转换到目标字符串的编辑距离，这种方法因为没有考虑他们之间公共子串的因素，无法处理颠倒字符串情况。这就导致了现有技术中的文本相似度计算方法对依赖语序的中文语言的处理能力较弱，计算中文文本相似度的准确度还不够理想。

发明内容

本发明实施例提供了一种文本相似度计算方法、装置及电子设备，计算的文本相似度更加贴近实际，提高了文本相似度计算的准确度。

第一方面，本申请提供了文本相似度计算方法，该方法包括：

获取原始文本和目标文本；

计算所述原始文本和所述目标文本的编辑距离；

确定所述原始文本和所述目标文本的最长公共子串，并求得所述最长公共子串在所述原始文本中的起始位置；

基于所述最长公共子串在所述原始文本中的起始位置，计算所述原始文本和所述目标文本的文本相似度。

进一步的，所述获取原始文本和目标文本的步骤，包括：

获取目标领域的目标语料；

对所述目标语料进行分词和词性标注，并去除停用词，得到待计算文本；

在所述待计算文本中选择原始文本和目标文本。

进一步的，所述确定所述原始文本和所述目标文本的最长公共子串，并求得所述最长公共子串在所述原始文本中的起始位置的步骤，包括：

计算所述原始文本和所述目标文本中各公共子串的长度；

根据所述各公共子串的长度确定所述原始文本和所述目标文本的最长公共子串；

求得所述最长公共子串在所述原始文本中的起始位置。

进一步的，所述基于所述最长公共子串在所述原始文本中的起始位置，计算所述原始文本和所述目标文本的文本相似度的步骤包括：

获取及公共子串影响因素的第一权重及所述编辑距离的第二权重；

基于所述最长公共子串在所述原始文本中的起始位置、所述最长公共子串的长度、所述编辑距离、所述第一权重和所述第二权重，计算所述原始文本和所述目标文本的文本相似度。

进一步的，所述基于所述最长公共子串在所述原始文本中的起始位置、所述最长公共子串的长度、所述编辑距离、所述第一权重和所述第二权重，计算所述原始文本和所述目标文本的文本相似度的步骤采用如下公式：

其中，len(str_A∩B)表示所述原始文本和所述目标文本中最长公共子串的长度；levendis表示所述原始文本和所述目标文本编辑距离；index_A∩B表示所述最长公共子串在所述原始文本中开的起始位置，从0开始计数；len(A)表示所述原始文本的长度，len(B)表示所述目标文本的长度；α表示所述最长公共子串的影响因素的第一权重；β表示所述编辑距离的第二权重。

进一步的，所述第一权重和所述第二权重之和为1。

第二方面，本申请提供一种文本相似度计算装置，该装置包括：

获取单元，用于获取原始文本和目标文本；

第一计算单元，用于计算所述原始文本和所述目标文本的编辑距离；

确定单元，用于确定所述原始文本和所述目标文本的最长公共子串，并求得所述最长公共子串在所述原始文本中的起始位置；

第二计算单元，用于基于所述最长公共子串在所述原始文本中的起始位置，计算所述原始文本和所述目标文本的文本相似度。

进一步的，所述获取单元具体用于：

获取目标领域的目标语料；

在所述待计算文本中选择原始文本和目标文本。

进一步的，所述确定单元具体用于：

计算所述原始文本和所述目标文本中各公共子串的长度；

求得所述最长公共子串在所述原始文本中的起始位置。

进一步的，所述第二计算单元具体用于：

进一步的，所述第二计算单元具体采用如下公式计算所述原始文本和所述目标文本的文本相似度：

进一步的，所述第一权重和所述第二权重之和为1。

第三方面，本发明还提供一种电子设备，包括：存储器，处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时可以实现第一方面中任一所述的方法。

第四方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一所述的方法。

本发明实施例通过获取原始文本和目标文本；计算所述原始文本和所述目标文本的编辑距离；确定所述原始文本和所述目标文本的最长公共子串，并求得所述最长公共子串在所述原始文本中的起始位置；基于所述最长公共子串在所述原始文本中的起始位置，计算所述原始文本和所述目标文本的文本相似度。本发明实施例中结合原始文本和目标文本的编辑距离和最长公共子串计算文本相似度，计算的文本相似度更加贴近实际，提高了文本相似度计算的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中文本相似度计算方法的一个实施例示意图；

图2是本发明实施例中文本相似度计算装置的一个实施例示意图；

图3是本发明实施例中电子设备的一个实施例示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

莱文斯坦距离，又称Levenshtein距离，是编辑距离的一种。指两个子串之间，由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字

在计算文本相似度时候，采用传统的Levenshtein算法，这种方式主要基于源字符串转换到目标字符串的编辑距离，这种方法无法处理颠倒字符串情况，因为没有考虑它们之间公共子串的因素。基于此，本发明实施例中提供一种文本相似度计算方法、装置及电子设备。

本发明实施例中文本相似度计算方法应用于文本相似度计算装置，该装置位于电子设备中，该电子设备可以是手机、平板电脑或者个人电脑等电子设备，也可以是未来出现的电子设备等。

请参阅图1，本发明实施例中文本相似度计算方法的一个实施例包括：

S101、获取原始文本和目标文本。

文本，是指书面语言的表现形式，从文学角度说，通常是具有完整、系统含义(Message)的一个句子或多个句子的组合。一个文本可以是一个句子(Sentence)、一个段落(Paragraph)或者一个篇章(Discourse)。

本发明实施例中，所述获取原始文本和目标文本的步骤，可以进一步包括：获取目标领域的目标语料；对所述目标语料进行分词，得到待计算文本；在所述待计算文本中选择原始文本和目标文本。具体的，本发明实施例中可以利用jieba工具进行分词和词性标注等。

其中，语料，即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。所以，人们简单地用文本作为替代，并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。我们把一个文本集合称为语料库(Corpus)，当有几个这样的文本集合的时候，我们称之为语料库集合(Corpora)。

本发明实施例中，目标领域为预先确定的语料领域，例如“体育”、“经济”或“娱乐”等领域。目标语料可以包括一个或多个语料，由于一个语料中可以是一个文本集合。在对目标语料进行分词后，可以得到多个文本，即为本发明实施例中的待计算文本，在待计算文本中选择原始文本和目标文本即可进行它们之间的文本相似度计算。

本发明实施例中文本可以指的是直播间用户输入的弹幕。

S102、计算所述原始文本和所述目标文本的编辑距离。

编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离可以用在自然语言处理中，例如拼写检查可以根据一个拼错的字和其他正确的字的编辑距离，判断哪一个(或哪几个)是比较可能的字。

编辑距离有几种不同的定义，差异在可以对字符串进行的处理：在莱文斯坦距离中，可以删除、加入、取代字符串中的任何一个字元，也是较常用的编辑距离定义，常常提到编辑距离时，指的就是莱文斯坦距离。也存在其他编辑距离的定义方式，例如Damerau-Levenshtein距离是一种莱文斯坦距离的变种，但允许以单一操作交换相邻的两个字符(称为字符转置)，如AB→BA的距离是1(交换)而非2(先删除再插入、或者两次替换)。LCS(最长公共子序列)距离只允许删除、加入字元；Jaro距离只允许字符转置；汉明距离只允许取代字元。

具体的，计算所述原始文本和所述目标文本的编辑距离可以是计算所述原始文本和所述目标文本的莱文斯坦距离。

S103、确定所述原始文本和所述目标文本的最长公共子串，并求得所述最长公共子串在所述原始文本中的起始位置。

在计算机科学中，最长公共子串问题是寻找两个或多个已知字符串最长的子串。其与最长公共子序列问题的区别在于子序列不必是连续的，而子串却必须是。

其中，所述确定所述原始文本和所述目标文本的最长公共子串，并求得所述最长公共子串在所述原始文本中的起始位置的步骤，可以进一步包括：计算所述原始文本和所述目标文本中各公共子串的长度；根据所述各公共子串的长度确定所述原始文本和所述目标文本的最长公共子串；求得所述最长公共子串在所述原始文本中的起始位置。

例如，所述原始文本和所述目标文本分别为文本A和文本B，其中，A＝小姐姐人美声甜；B＝人美声甜的小姐姐。文本A和文本B的公共子串包括[小姐姐]和[人美声甜]，其中，[人美声甜]的长度为4，[小姐姐]长度为3，4＞3，确定文本A和文本B最长公共子串为[人美声甜]，即原始文本和目标文本的最长公共子串最长公共子串为[人美声甜]。

需要说明的是，上述举例中字符串长度比较时采用文字数量为长度，例如，[人美声甜]的长度为4，可以理解的是，在本发明其他实施例中，字符串长度比较时可以采用字符数量进行比较，例如对于GBK\GB2312编码，一个汉字占2个字符，此时[人美声甜]的长度为8，[小姐姐]长度为6，具体字符串长度采用哪种比较方式此处不做限定。

S104、基于所述最长公共子串在所述原始文本中的起始位置，计算所述原始文本和所述目标文本的文本相似度。

进一步的，所述基于所述最长公共子串在所述原始文本中的起始位置，计算所述原始文本和所述目标文本的文本相似度的步骤包括：获取及公共子串影响因素的第一权重及所述编辑距离的第二权重；基于所述最长公共子串在所述原始文本中的起始位置、所述最长公共子串的长度、所述编辑距离、所述第一权重和所述第二权重，计算所述原始文本和所述目标文本的文本相似度。

在本发明一些实施例中，所述基于所述最长公共子串在所述原始文本中的起始位置、所述最长公共子串的长度、所述编辑距离、所述第一权重和所述第二权重，计算所述原始文本和所述目标文本的文本相似度的步骤采用如下公式：

进一步的，所述第一权重和所述第二权重之和为1。

在本实施例中，该公式分为2部分，前半部分，主要考虑2个文本之间，最长公共子串对相似度的影响，另外结合最长公共子串的起始位置，可以进一步解决子串顺序颠倒的问题；因此最长公共子串的长度越长，最长公共子串的起始位置越靠前，就越能表示2个文本相似；后半部分，是从2个文本的编辑距离的角度来看，一个文本需要操作多少次才能转换成目标语句，操作次数越少，则2个文本越相似。

下面以一个具体场景实施例介绍本发明实施例中文本相似度计算方法。

以文本为弹幕位例，首先对弹幕语料库进行分词，并去除停用词；

假设输入原始弹幕A＝小姐姐人美声甜，目标弹幕B＝人美声甜的小姐姐，利用jieba分词后可以得到：

A＝小姐姐人美声甜；

B＝人美声甜的小姐姐；

str_A∩B＝[人美声甜,小姐姐]；

取最长的公共子串：str_A∩B＝人美声甜；

len(str_A∩B)＝4；

index_A∩B＝3；

levendis＝7；

len(A)＝7；len(B)＝8；

一般我们令α＝0.7，β＝0.3；

因此根据公式1，计算弹幕A、B的文本相似度为：

则弹幕A、B的文本相似度为0.407。

下面介绍本发明实施例中文本相似度计算装置的实施例。

请参阅图2，为本发明实施例中文本相似度计算装置一个实施例示意图，该装置包括：

获取单元201，用于获取原始文本和目标文本；

第一计算单元202，用于计算所述原始文本和所述目标文本的编辑距离；

确定单元203，用于确定所述原始文本和所述目标文本的最长公共子串，并求得所述最长公共子串在所述原始文本中的起始位置；

第二计算单元204，用于基于所述最长公共子串在所述原始文本中的起始位置，计算所述原始文本和所述目标文本的文本相似度。

进一步的，所述获取单元201具体用于：

获取目标领域的目标语料；

在所述待计算文本中选择原始文本和目标文本。

进一步的，所述确定单元203具体用于：

计算所述原始文本和所述目标文本中各公共子串的长度；

求得所述最长公共子串在所述原始文本中的起始位置。

进一步的，所述第二计算单元204具体用于：

进一步的，所述第一权重和所述第二权重之和为1。

本发明实施例通过获取单元201获取原始文本和目标文本；第一计算单元202计算所述原始文本和所述目标文本的编辑距离；确定单元203确定所述原始文本和所述目标文本的最长公共子串，并求得所述最长公共子串在所述原始文本中的起始位置；第二计算单元204基于所述最长公共子串在所述原始文本中的起始位置，计算所述原始文本和所述目标文本的文本相似度。本发明实施例中结合原始文本和目标文本的编辑距离和最长公共子串计算文本相似度，计算的文本相似度更加贴近实际，提高了文本相似度计算的准确度。

本发明实施例中还提供一种电子设备，请参见图3，所述电子设备包括：

存储器301，处理器302及存储在所述存储器上并可在所述处理器上运行的计算机程序303，其中，所述处理器302执行所述计算机程序303时可以实现上述文本相似度计算方法。

需要说明的是，本申请涉及的电子设备包括但不限于是：移动终端(手机、智能手机、PAD、笔记本电脑等等)、固定终端(计算机)。

为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。存储器301可用于存储计算机程序303，上述计算机程序包括软件程序、模块和数据，处理器302通过运行执行存储在存储器301的计算机程序303，从而执行电子设备的各种功能应用以及数据处理。

在具体的实施过程中，存储器301可用于存储软件程序以及模块，处理器302通过运行存储在存储器301的软件程序以及模块，从而执行电子设备的各种功能应用以及数据处理。存储器301可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(例如游戏类应用程序、聊天类应用程序)等；存储数据区可存储根据电子设备的使用所创建的数据(游戏配置数据、音频数据)等。此外，存储器301可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。处理器302是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器301内的软件程序和/或模块，以及调用存储在存储器301内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器302可包括一个或多个处理单元；优选的，处理器302可集成应用处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等。

本发明实施例还提供一种计算机可读存储介质，其中，该计算机可读存储介质可存储有程序，该程序执行时包括上述方法实施例中记载的文本相似度计算方法的部分或全部步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本相似度计算方法，其特征在于，所述方法包括：

获取原始文本和目标文本；

计算所述原始文本和所述目标文本的编辑距离；

2.根据权利要求1所述的方法，其特征在于，所述获取原始文本和目标文本的步骤，包括：

获取目标领域的目标语料；

在所述待计算文本中选择原始文本和目标文本。

3.根据权利要求1所述的方法，其特征在于，所述确定所述原始文本和所述目标文本的最长公共子串，并求得所述最长公共子串在所述原始文本中的起始位置的步骤，包括：

计算所述原始文本和所述目标文本中各公共子串的长度；

求得所述最长公共子串在所述原始文本中的起始位置。

4.根据权利要求3所述的方法，其特征在于，所述基于所述最长公共子串在所述原始文本中的起始位置，计算所述原始文本和所述目标文本的文本相似度的步骤包括：

获取公共子串影响因素的第一权重及所述编辑距离的第二权重；

5.根据权利要求4所述的方法，其特征在于，所述基于所述最长公共子串在所述原始文本中的起始位置、所述最长公共子串的长度、所述编辑距离、所述第一权重和所述第二权重，计算所述原始文本和所述目标文本的文本相似度的步骤采用如下公式：

6.根据权利要求5所述的方法，其特征在于，所述第一权重和所述第二权重之和为1。

7.一种文本相似度计算装置，其特征在于，所述装置包括：

获取单元，用于获取原始文本和目标文本；

8.根据权利要求7所述的装置，其特征在于，所述获取单元具体用于：

获取目标领域的目标语料；

在所述待计算文本中选择原始文本和目标文本。

9.根据权利要求7所述的装置，其特征在于，所述确定单元具体用于：

计算所述原始文本和所述目标文本中各公共子串的长度；

求得所述最长公共子串在所述原始文本中的起始位置。

10.一种电子设备，其特征在于，包括：存储器，处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时可以实现权利要求1至6任一所述的方法。