CN109615001A

CN109615001A - 一种识别相似文章的方法和装置

Info

Publication number: CN109615001A
Application number: CN201811482306.XA
Authority: CN
Inventors: 赵华蕾; 张晓军
Original assignee: SHANGHAI KAIYING NETWORK TECHNOLOGY Co Ltd
Current assignee: SHANGHAI KAIYING NETWORK TECHNOLOGY Co Ltd
Priority date: 2018-12-05
Filing date: 2018-12-05
Publication date: 2019-04-12
Anticipated expiration: 2038-12-05
Also published as: CN109615001B

Abstract

本发明一种识别相似文章的方法和装置，该方法包括：从第一文档中提取第一关键词；当所述第一关键词与第二文档的第二关键词相同时，选取所述第一关键词所在的第一语句并且选取所述第二关键词所在的第二语句；根据所述第一语句和所述第二语句中相同字符串的长度计算所述第一语句与所述第二语句的相似度距离；当所述相似度距离超过预设相似度距离阈值时，确定所述第一文档与所述第二文档相似。本发明提供的一种识别相似文章的方法和装置，方便灵活，计算消耗较小，适用参数少，可对短文本或数据集较少的文本进行处理。

Description

一种识别相似文章的方法和装置

技术领域

本发明涉及计算机领域，尤其涉及一种识别相似文章的方法和装置。

背景技术

语言是人类智慧的结晶，至今已发展几千年，广泛的素材也给自然语言处理带来了极大的挑战，同时自然语言的研究也充满了趣味。现有的文本相似度计算通常的做法是使用深度学习模型来提取文章特征，最常见的使用Word2Vec的结果，进入CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)等神经网络来提取文章特征，然后对文章进行相似度处理。

使用深度学习的办法准确率高，但是深度学习的计算消耗较大，参数较多，对于较小的项目来说，并不适用。

发明内容

本发明的一个目的是提供一种识别相似文章的方法和装置，以解决判断文章是否相似的问题。

本发明提供的识别相似文章的方法，包括：

从第一文档中提取第一关键词；

当所述第一关键词与第二文档的第二关键词相同时，选取所述第一关键词所在的第一语句并且选取所述第二关键词所在的第二语句；

根据所述第一语句和所述第二语句中相同字符串的长度计算所述第一语句与所述第二语句的相似度距离；

当所述相似度距离超过预设相似度距离阈值时，确定所述第一文档与所述第二文档相似。

进一步，本发明所述的方法，在计算所述第一语句与所述第二语句的相似度距离之前，还包括：

当所述第一语句和所述第二语句相同时，确定所述第一文档与所述第二文档相同。

进一步，本发明所述的方法，还包括：

当所述第一文档与所述第二文档不具有相同的关键词时，计算所述第一文档与所述第二文档的杰卡德系数距离；

当所述杰卡德系数距离超过预设杰卡德阈值时，确定所述第一文档与所述第二文档相似。

进一步，本发明所述的方法，在从第一文档中提取第一关键词之前，还包括：

对文档数据库进行ETL清洗。

进一步，本发明所述的方法，对文档数据库进行ETL清洗包括：

当两篇文档的题目和作者都相同时，对比所述两篇文档的长度；

当所述两篇文档的长度相等时，删除所述两篇文档中的任意一篇文档；

当所述两篇文档的长度不相等时，对比所述两篇文档的第一段和最后一段；

当所述两篇文档的第一段和最后一段相同时，删除所述两篇文档中的任意一篇文档；

当所述两篇文档的第一段或最后一段不相同时，提取并对比所述两篇文档的关键词；

当所述两篇文档的关键词相同并且所述两篇文档的关键词所在的语句均相同时，删除所述两篇文档中的任意一篇文档。

进一步，本发明所述的方法，从第一文档中提取第一关键词的步骤包括：

利用词频逆文本频率指数、频繁模式树、句法依存分别提取所述第一文档的至少两个关键词；

按照词频对所述第一文档的至少两个关键词排序；

从所述第一文档的至少两个关键词中取前N个关键词作为所述第一关键词；其中，N为自然数且N≥1。

进一步，本发明所述的方法，还包括：

当所述第一文档的长度超过第一长度阈值时，利用词频逆文本频率指数和频繁模式树分别提取所述第一文档的至少两个关键词；

当所述第一文档的长度没有超过所述第一长度阈值时，利用词频逆文本频率指数和句法依存分别提取所述第一文档的至少两个关键词。

本发明提供的识别相似文章的装置，包括：

关键词提取模块，用于从第一文档中提取第一关键词；

语句提取模块，用于当所述第一关键词与第二文档的第二关键词相同时，选取所述第一关键词所在的第一语句并且选取所述第二关键词所在的第二语句；

计算模块，用于根据所述第一语句和所述第二语句中相同字符串的长度计算所述第一语句与所述第二语句的相似度距离；

判定模块，用于当所述相似度距离超过预设相似度距离阈值时，确定所述第一文档与所述第二文档相似。

本发明还提供一种终端，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如本发明所述方法的操作。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令根据本发明所述的方法进行执行。

本发明提供的一种识别相似文章的方法和装置，从待对比的第一文档中提取出第一关键词，与数据库中的若干第二文档的第二关键词进行对比，当关键词相同时，对比关键词所在的语句是否相似，当关键词所在的语句相似时，判定第一文档与第二文档相似，本发明提供的一种识别相似文章的方法和装置，其文档相似判定方法方便灵活，计算消耗较小，适用参数少，可对短文本或数据集较少的文本进行处理，比较适合成本较低的小项目。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例一的识别相似文章的方法的流程示意图；

图2为本发明实施例二的识别相似文章的方法的流程示意图；

图3为本发明实施例二的文档数据库清洗程序的流程示意图；

图4为本发明实施例二的频繁模式树的结构示意图；

图5为本发明实施例二的依存句法结构的示例图；

图6为本发明实施例二的提取关键词的流程示意图；

图7为本发明实施例二的识别相似文章的方法原理示意图；

图8为本发明实施例三的识别相似文章的装置的结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1为本发明实施例一的识别相似文章的方法的流程示意图，如图1所示，本发明实施例一提供的识别相似文章的方法，包括：

步骤S101，从第一文档中提取第一关键词。

步骤S102，当所述第一关键词与第二文档的第二关键词相同时，选取所述第一关键词所在的第一语句并且选取所述第二关键词所在的第二语句。

步骤S103，根据所述第一语句和所述第二语句中相同字符串的长度计算所述第一语句与所述第二语句的相似度距离。

步骤S104，当所述相似度距离超过预设相似度距离阈值时，确定所述第一文档与所述第二文档相似。

其中，第一文档为待检测的新的文档，第二文档为来源于预存于文档数据库的已有文档，第一关键词提取自第一文档，第二关键词提取自第二文档。文档数据库预先存储有若干第二文档，在将新的第一文档加入文档数据库时，需要将新的第一文档与已有的若干第二文档相对比，当新加入的第一文档与已有的第二文档相似时，说明第一文档与第二文档相重复或者第一文档抄袭第二文档，此时，拒绝将第一文档加入文档数据库。

具体地，第一文档为尚未提取关键词的新的文档，第二文档为已经整理完成并已经提取关键词的已有文档。将第一文档提取的若干第一关键词与第二文档的若干第二关键词进行一一对比，当发现第一关键词与第二关键词相同时，从第一文档中选取出第一关键词所在的语句作为第一语句并且从第二文档中选取出第二关键词所在的语句作为第二语句，根据第一语句与第二语句包含的相同字符串的长度计算得到第一语句与第二语句的相似度距离，将相似度距离与预设的相似度距离阈值比较，当相似度距离超过预设相似度距离阈值时，确定第一文档与第二文档相似。

图2为本发明实施例二的识别相似文章的方法的流程示意图，如图2所示，本发明实施例二提供的识别相似文章的方法，包括：

步骤S201，对文档数据库进行ETL清洗。

其中，ETL指Extract-Transform-Load，用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。文档数据库包含若干第二文档。把已有的所有文档按照名称、作者、内容等存入文档数据库并设置索引信息，每个已有文档即为文档数据库的第二文档。之后只需要在添加新文档时更新文档数据库索引信息表即可。在使用文档数据库的第二文档前，需要先通过ETL方法对文档数据库进行清洗，以去除重复数据，减少数据量。

具体地，对文档数据库进行ETL清洗包括如下步骤a～f：

a.当两篇文档的题目和作者都相同时，对比所述两篇文档的长度；

b.当所述两篇文档的长度相等时，删除所述两篇文档中的任意一篇文档；

c.当所述两篇文档的长度不相等时，对比所述两篇文档的第一段和最后一段；

d.当所述两篇文档的第一段和最后一段相同时，删除所述两篇文档中的任意一篇文档；

e.当所述两篇文档的第一段或最后一段不相同时，提取并对比所述两篇文档的关键词；

f.当所述两篇文档的关键词相同并且所述两篇文档的关键词所在的语句均相同时，删除所述两篇文档中的任意一篇文档。

图3为本发明实施例二的文档数据库清洗程序的流程示意图，如图3所示，首先需要对两篇文档的名称和作者进行对比，如果相同，再对文档长度进行对比，若长度也一致则认为两篇文档相同，需删除其中一篇。其次对两篇文档第一段和最后一段进行对比，若一致则认为两篇文档相同，需删除其中一篇。再次提取两篇文档的关键词，若两篇文档的关键词及关键词所在语句完全相同，则认为两篇文档相同，需删除其中一篇。其中，可以利用词频逆文本频率指数对全部第二文档提取关键词，提取得到关键词作为第二文档的第二关键词。

步骤S202，利用词频逆文本频率指数、频繁模式树、句法依存分别提取所述第一文档的至少两个关键词。

其中，词频-逆文本频率指数(TF-IDF，Term Frequency–Inverse DocumentFrequency)使用紧缩的数据结构来存储查找频繁项集所需要的全部信息。文档中的词频越高，信息越重要，即为关键词。但文章中出现的一些常见词、连接词等词频也较高，所以需要把词频较高的常用词利用加权方法做归一化处理。例如，某文档包含词条t，包含词条t的文档越少，也就是词条t的个数n越小，逆文本频率指数IDF越大，则说明词条t具有很好的类别区分能力。

由于文章有长短之分，所以词频TF需要通过如下公式做归一化处理：

其中，i表示词语i，j表示文章j，k表示文章j中的所有词语，n表示词语i的个数，tf_i，j表示文章j的词语i的词频。

逆文本频率指数IDF是一个词语普遍性的度量，词语h的IDF，是由文章总数除以包含词语h的文章数量，再取对数得到，具体通过如下公式计算得到：

其中，t_i表示特定词语，dh表示含有t_i的文章，D表示所有文章，||表示取文章数量，idf_i表示逆文本频率指数。

频繁模式树(FP-Tree，Frequent Pattern tree)基于频繁项集的思路来提取关键词。考虑到TF-IDF的方法提取的关键词之间不存在关联关系，可以通过FP-Tree补充这方面的信息。图4为本发明实施例二的频繁模式树的结构示意图，如图4所示，FP-Tree算法的基本数据结构，包含一个一棵FP树和一个项头表，每个项通过一个结点链指向它在树中出现的位置。需要注意的是项头表需要按照支持度递减排序，在FPTree中高支持度的节点只能是低支持度节点的祖先节点。I1，I2……表示词语，支持度表示该词语出现的频次，结点链是表示该词语出现的相关位置，即该词语前后位置出现的其他词语。利用FP-Tree找到每个文章的关键词，这样可以提取出相似语句的信息，对两两文章进行相似语句的对比和相似度计算，节省计算资源并提高相似度准确率。

依存句法方法将句子分析成一颗依存句法树，描述出各个词语之间的依存关系，也即指出了词语之间在句法上的搭配关系。可采用第三方HanLp中的方法，基于句法依存的关系提取关键词。HanLP(Han Language Processing)自然语言处理包，是由自然语言开发者发布的一种开源工具，功能包括：支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注)，命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别)，关键词提取，自动摘要，短语提取，拼音转换，简繁转换，文本推荐，依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)。对于短文本是用HanLp的方法来处理，先根据HanLp中的依存句法分析短文本中的句法结构，然后在句法结构中选取关键的结构作为关键词。此处可选取的结构为：IDependencyParser_list＝[′前置宾语′，′主谓关系′，′动宾关系′，′定中关系′，′间宾关系′，′介宾关系′，′并列关系′，′核心关系′]。图5为本发明实施例二的依存句法结构的示例图，句法结构关系举例如图5所示。

步骤S203，按照词频对所述第一文档的至少两个关键词排序。

步骤S204，从所述第一文档的至少两个关键词中取前N个关键词作为所述第一关键词；其中，N为自然数且N≥1。

图6为本发明实施例二的提取关键词的流程示意图，如图6所示，根据以上三种方法(TF-IDF，TP-Tree，句法依存)提取出的关键词，根据关键词在3种方法中出现的词频大小进行聚合排序，取例如排序在top前50名的关键词，作为第一文档的第一关键词。

优选地，如图6所示，当所述第一文档的长度超过第一长度阈值时，说明第一文档为长文本，利用词频逆文本频率指数(TF-IDF)和频繁模式树(TP-Tree)分别提取所述第一文档的至少两个关键词。当所述第一文档的长度没有超过所述第一长度阈值时，说明第一文档为短文本，利用词频逆文本频率指数(TF-IDF)和依存句法分别提取所述第一文档的至少两个关键词。在按照以上三种方法(TF-IDF，TP-Tree，句法依存)的词频聚合排序后，提取出top排序靠前的关键词，作为第一关键词。

步骤S205，当所述第一关键词与第二文档的第二关键词相同时，选取所述第一关键词所在的第一语句并且选取所述第二关键词所在的第二语句。

其中，取得关键词之后，将文档中对应关键词所在的语句找到。每篇文档的关键词、语句与对应文档ID标识都会存入文档数据库，可以使得后面与新增文档的对比更加快速高效。

步骤S206，当所述第一语句和所述第二语句相同时，确定所述第一文档与所述第二文档相同。

例如，按照关键词和语句进行对比计算，如果关键词和语句都相同，则第一文档与第二文档的相似度为1，判定第一文档与第二文档相同。

步骤S207，根据所述第一语句和所述第二语句中相同字符串的长度计算所述第一语句与所述第二语句的相似度距离。

其中，如果关键词相同而语句不同，则根据语句中最长相同字符串的长度，通过如下公式来计算相似度距离：

其中，A表示第一文档的第一语句的字符串，B表示第二文档的第二语句的字符串，d(A，B)表示相似度距离，|A∩B|表示第一语句与第二语句的相同字符串的长度，max(|A|，|B|)表示第一语句和第二语句中最长字符串的长度。

步骤S208，当所述相似度距离超过预设相似度距离阈值时，确定所述第一文档与所述第二文档相似。

其中，当根据步骤S207中的公式计算得到的相似度距离超过预设相似度距离阈值时，说明第一文档与第二文档相似。

步骤S209，当所述第一文档与所述第二文档不具有相同的关键词时，计算所述第一文档与所述第二文档的杰卡德系数距离。

其中，如果关键词和语句都不同，则根据关键词进行相似度计算。可使用杰卡德(jaccard)系数的如下距离计算公式计算两篇文档之间的距离：

其中，a表示第一文档的第一关键词，b表示第二文档的第二关键词，J(a，b)表示jaccard相似度，d(a，b)表示杰卡德系数距离。

步骤S210，当所述杰卡德系数距离超过预设杰卡德阈值时，确定所述第一文档与所述第二文档相似。

其中，当根据步骤S209中的公式计算得到的杰卡德系数距离超过预设杰卡德阈值时，说明第一文档与第二文档相似。

图7为本发明实施例二的识别相似文章的方法原理示意图，如图7所示，当取到一篇新文章后，先对其进行文章长短判断，其次进行关键字提取，之后根据关键字提取出文章中含有关键字的句子。最后计算文章相似度：

如果关键字与句子都相同，则判定两篇文章相似度为1，即两篇文章相同；

若关键字相同句子不同，则通过两篇文章的最长公共字符串(即相同字符串)的长度来计算相似度；

若关键字和句子均不同，则根据两篇文章的jaccard距离来计算相似度。

图8为本发明实施例三的识别相似文章的装置的结构示意图，如图8所示，本发明实施例三提供的识别相似文章的装置，包括：

关键词提取模块81，用于从第一文档中提取第一关键词；

语句提取模块82，用于当所述第一关键词与第二文档的第二关键词相同时，选取所述第一关键词所在的第一语句并且选取所述第二关键词所在的第二语句；

计算模块83，用于根据所述第一语句和所述第二语句中相同字符串的长度计算所述第一语句与所述第二语句的相似度距离；

判定模块84，用于当所述相似度距离超过预设相似度距离阈值时，确定所述第一文档与所述第二文档相似。

本发明实施例三的识别相似文章的装置为本发明实施的识别相似文章的方法的实现装置，其具体原理参考本发明实施例一、二，此处不再赘述。

本发明还提供一种终端，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如本发明实施例一、二的方法的操作。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令根据本发明实施例一、二的方法进行执行。

本发明的方法提取了集成学习的思想，按照先验经验把所有模型中得到的关键字做误差分析，然后按照stacking的方法，在最后一层使用logsitic的方法计算出各个模型的权重，然后在提取关键字中按照权重模型的方法计算各个模型得出的关键字的得分，再按照得分高低提取关键字。分类学习中的集成学习算法(ensemble method)，一般用于训练各种有监督学习的分类器，在文本分析中使用较少。TF-IDF、句法依存、FPTree等三种模型为提取关键字的基模型，本发明使用已有的先验数据，对IF-IDF、句法依存、FPTree等提取关键字的做法进行权重回归，即在这三个模型的结果上再进行回归模型，得出三个模型的权重组合，回归出来的系数应用到最后stacking组成的高层关键字提取模型首先，对关键字提取的先验文本标签，之后利用这些标签对三种基模型进行回归计算权重。本发明的方法在前期数据处理比较多，在回归出权重之后建立的高层关键字提取模型，则是使用非常方便快捷的。而且提取关键字效果显著。不但提高了关键字命中率，也保留了关键字之间的句法结构关系。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种识别相似文章的方法，其特征在于，包括：

从第一文档中提取第一关键词；

2.根据权利要求1所述的方法，其特征在于，在计算所述第一语句与所述第二语句的相似度距离之前，还包括：

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，在从第一文档中提取第一关键词之前，还包括：

对文档数据库进行ETL清洗。

5.根据权利要求4所述的方法，其特征在于，对文档数据库进行ETL清洗包括：

6.根据权利要求1至3中任一项所述的方法，其特征在于，从第一文档中提取第一关键词的步骤包括：

按照词频对所述第一文档的至少两个关键词排序；

7.根据权利要求6所述的方法，其特征在于，还包括：

8.一种识别相似文章的装置，其特征在于，包括：

关键词提取模块，用于从第一文档中提取第一关键词；

9.一种终端，其特征在于，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1至8中任一项所述方法的操作。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储指令，所述指令根据权利要求1至8中任一项所述的方法进行执行。