CN104615768B

CN104615768B - 文档的同本识别方法及装置

Info

Publication number: CN104615768B
Application number: CN201510083171.XA
Authority: CN
Inventors: 黄胤人; 陈萌辉; 李媛媛
Original assignee: Guangzhou Shenma Mobile Information Technology Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2015-02-13
Filing date: 2015-02-13
Publication date: 2017-06-16
Anticipated expiration: 2035-02-13
Also published as: CN104615768A

Abstract

本发明公开了文档的同本识别方法及装置，所述方法包括：根据待识别文档的章节目录计算所述文档对应的simhash，并根据所述simhash对所述文档进行分组，再对所述分组后的文档进行同本判定以识别出属于同本的文档。本方法避免采用文档的正文数据进行同本判定，而是利用文档的章节目录对应的simhash来反映文档正文之间的相似程度，既缩小了计算的规模，同时也具有很高的准确性。并且根据simhash对文档分组后再进行同本判定，也能进一步减小对大量的文档之间进行比较运算的运算量。本方法能在海量的互联网文档中，识别出属于同一实质内容的文档，为后续对文档进行分类管理及质量排序等应用功能提供了技术支持。

Description

文档的同本识别方法及装置

技术领域

本发明涉及互联网技术领域，特别是涉及文档的同本识别方法及装置。

背景技术

随着网络技术的飞速发展，越来越多的作者在互联网上发表文学作品。有些作者在连载的过程中，因为更换网站发表或其他原因，将作品名进行修改后继续连载，也有一些网站将其他网站已发表的作品的书名或者章节目录稍微修改后重新发表，而实际上这些作品的文档正文部分的内容都是一样的。然而用户按照常规的搜索方法搜索更名前的作品时，通常无法搜索到更名后的这本作品的文档，即使是能够搜索到更名后的文档，但浏览器无法知道这些文档其实是同一个作品，因此就无法为用户优先提供高质量的版本，从而影响用户的阅读体验。因此，亟需在海量的互联网文学作品中，识别出属于同一作品的文档(简称同本识别)，以便于进一步分类管理。但申请人进行研究后发现，目前现有技术中尚无对互联网中的文学作品进行同本识别的方法。

发明内容

有鉴于此，本发明实施例提供了文档的同本识别方法及装置，以解决现有技术尚无法对互联网中的文学作品进行同本识别的问题。

为了解决上述技术问题，本发明实施例公开了如下技术方案：

一方面，提供了一种文档的同本识别方法，其特征在于，所述方法包括：

根据待识别文档的章节目录计算所述文档对应的simhash；

根据所述simhash对所述文档进行分组；

对所述分组后的文档进行同本判定以识别出属于同本的文档。

可选的，所述根据待识别文档的章节目录计算所述文档对应的simhash包括：

预设用于计算所述simhash的章节目录序号；

根据所述序号对应的章节目录计算所述文档的simhash。

可选的，如果目标文档的章节目录的最大序号小于所述预设的章节目录序号，则以所述最大序号对应的章节目录计算所述目标文档的simhash。

可选的，所述根据所述simhash对所述文档进行分组包括：

判断同一章节目录序号对应的simhash之间的海明距离是否小于预设的第一门限，如果是，则将对应的所述文档划分到同一相似集合中；或者

判断同一章节目录序号对应的simhash之间在预设位上的值是否对应相同，如果是，则将对应的所述文档划分到同一相似集合中；

判断不同章节目录序号的对应的相似集合之间是否包含任何相同文档，如果是，则将对应的所述不同章节目录序号的相似集合进行并，直至不同章节目录序号的任意相似集合之间不包含任何相同文档，则同一相似集合中的文档即属于同一组。

可选的，对所述分组后的文档进行同本判定以识别出属于同本的文档包括：

对同一组内的文档进行同本判定以获得同本文档集合；

对所述同本文档集合之间进行同本合并以获得属于同本的文档。

可选的，所述对同一组内的文档进行同本判定以获得同本文档集合包括：

判断同一组内的文档对应的simhash之间的海明距离是否小于预设的第二门限，如果是，则将对应的文档划分到同一个同本文档集合中。

判断同一组内的文档对应的文档名之间是否满足预设的第一匹配条件，如果是，则将对应的文档划分到同一个同本文档集合中，或者

判断同一组内的文档对应的章节目录之间是否满足预设的第二匹配条件，如果是，则将对应的文档划分到同一个同本文档集合中。

可选的，所述对所述同本文档集合之间进行同本合并以获得属于同本的文档包括：

判断任意同本文档集合之间是否包含任何相同文档，如果是，则将对应的同本文档集合合并，直至任意同本文档集合之间都不包含任何相同文档，则属于同一同本文档集合的文档即为同本的文档。

另一方面，提供了一种文档的同本识别装置，所述装置包括：

计算单元，用于根据待识别文档的章节目录计算所述文档对应的simhash；

分组单元，用于根据所述simhash对所述文档进行分组；

识别单元，用于对所述分组单元分组后的文档进行同本判定以识别出属于同本的文档。

可选的，所述计算单元用于预设所述simhash的章节目录序号，并根据所述序号对应的章节目录计算所述文档的simhash。

可选的，所述计算单元用于当目标文档的章节目录的最大序号小于所述预设的章节目录序号时，则以所述最大序号对应的章节目录计算所述目标文档的simhash。

可选的，所述分组单元包括：

判断分组子单元，用于判断同一章节目录序号对应的simhash之间的海明距离是否小于预设的第一门限，如果是，则将对应的所述文档划分到同一相似集合中；或者用于判断同一章节目录序号对应的simhash之间在预设位上的值是否对应相同，如果是，则将对应的所述文档划分到同一相似集合中；

分组合并子单元，用于判断不同章节目录序号的对应的相似集合之间是否包含任何相同文档，如果是，则将对应的所述不同章节目录序号的相似集合进行并，直至不同章节目录序号的任意相似集合之间不包含任何相同文档，则同一相似集合中的文档即属于同一组。

可选的，所述识别单元包括：

同本判定子单元，用于对同一组内的文档进行同本判定以获得同本文档集合；

同本合并子单元，用于对所述同本文档集合之间进行同本合并以获得属于同本的文档。

可选的，所述同本判定子单元用于判断同一组内的文档对应的simhash之间的海明距离是否小于预设的第二门限，如果是，则将对应的文档划分到同一个同本文档集合中。

可选的，所述同本判定子单元用于判断同一组内的文档对应的文档名之间是否满足预设的第一匹配条件，如果是，则将对应的文档划分到同一个同本文档集合中，或者

用于判断同一组内的文档对应的章节目录之间是否满足预设的第二匹配条件，如果是，则将对应的文档划分到同一个同本文档集合中。

可选的，所述同本合并子单元用于判断任意同本文档集合之间是否包含任何相同文档，如果是，则将对应的同本文档集合合并，直至任意同本文档集合之间都不包含任何相同文档，则属于同一同本文档集合的文档即为同本的文档。

本发明实施例提供的文档的同本识别方法及装置，根据待识别文档的章节目录计算所述文档对应的simhash，并根据所述simhash对所述文档进行分组，再对所述分组后的文档进行同本判定以识别出属于同本的文档。该技术方案避免采用文档的正文数据进行同本判定，而是利用文档的章节目录对应的simhash来反映文档正文之间的相似程度，既缩小了计算的规模，同时也具有很高的准确性。并且根据simhash对文档分组后再进行同本判定，也能进一步减小对大量的文档之间进行比较运算的运算量。本方案能在海量的互联网文档中，识别出属于同一实质内容的文档，为后续对文档进行分类管理及质量排序等应用功能提供了技术支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的文档的同本识别方法一个实施例的流程示意图；

图2为本发明提供的文档的同本识别方法的另一个实施例的流程示意图；

图3为本发明提供的文档的同本识别方法的另一个实施例的流程示意图；

图4为本发明提供的文档的同本识别装置的一个实施例的结构示意图；

图5为本发明提供的文档的同本识别装置的分组单元402的一个实施例的结构示意图；

图6为本发明提供的文档的同本识别装置的识别单元403的一个实施例的结构示意图。

具体实施方式

首先对文档的同本识别方法的实施例进行说明，参见图1，为本发明提供的文档的同本识别方法的一个实施例的流程示意图。

本实施例包括如下步骤101至103：

步骤101：根据待识别文档的章节目录计算所述文档对应的simhash。

参考背景技术，simhash算法是在网页去重或网页识别时最常用的一种hash算法，算法原理是将网页的文本内容用一个N位数(一般设为64位)的标签向量(简称simhash)来标识，在这里我们利用simhash算法的原理来计算文档的章节目录的simhash。通过长期观察发现，在互联网中同一文档经常出现改变文档名字或作者、内容介绍等方式在不同的网页中发表，但一般对于文档的章节目录名称的改动较小，因此在本发明中，用文档章节目录的simhash来代表该文档的正文对应的simhash，由于文档的章节目录的字符数量远远少于文档的正文，因此在这一步骤中计算量并不大。

步骤102：根据所述simhash对所述文档进行分组。

由于待识别的文档数量较大，因此将文档根据步骤101中计算得到的对应的simhash进行分组，以进一步减小计算量。具体的，可根据simhash的相似度，将simhash较为相似的文档分到同一组中。

步骤103：对所述分组后的文档进行同本判定以识别出属于同本的文档。

对分组后的文档进行组间或组内的同本判定，具体可根据预设的同本判断条件判断出同一组内的若干文档是否是同一文档，例如通过simhash的相似度，或通过对文档的章节目录进行模糊匹配，或通过人工对章节目录进行判别等方法。对组内判断完成后，再对不同组的判断结果进一步进行组间的同本判定，最终将属于同本的文档识别出来。

本发明实施例提供的文档的同本识别方法，根据待识别文档的章节目录计算所述文档对应的simhash，并根据所述simhash对所述文档进行分组，再对所述分组后的文档进行同本判定以识别出属于同本的文档。本方法避免采用文档的正文数据进行同本判定，而是利用文档的章节目录对应的simhash来反映文档正文之间的相似程度，既缩小了计算的规模，同时也具有很高的准确性。并且根据simhash对文档分组后再进行同本判定，也能进一步减小对大量的文档之间进行比较运算的运算量。本方法能在海量的互联网文档中，识别出属于同一实质内容的文档，为后续对文档进行分类管理及质量排序等应用功能提供了技术支持。

在本发明文档的同本识别方法的另一个实施例中，上述步骤101可具体包括如下子步骤1011和1012：

步骤1011：预设用于计算所述simhash的章节目录序号。

步骤1012：根据所述序号对应的章节目录计算所述文档的simhash。

优选的，如果目标文档的章节目录的最大序号小于所述预设的章节目录序号，则以所述最大序号对应的章节目录计算所述目标文档的simhash。

例如，可预设三个章节目录序号，分别为前10章、前30章、前50章，则根据这三个章节目录序号得到的simhash形成三个文档数据集合，即

N10＝{S1_10,S2_10,S3_10.....Si_10}；

N30＝{S1_30,S2_30,S3_30.....Si_30}；

N50＝{S1_50,S2_50,S3_50.....Si_50}。

N10、N30、N50中分别包含的是根据章节目录序号计算待识别文档的simhash的全部集合，并且以计算simhash的章节目录的序号来定义这三个文档数据集合。

例如，其中Si_10是指对文档i的前10章的章节目录计算得到的simhash,Si_30是指对文档i的前30章的章节目录计算得到的simhash，Si_50是指对文档i的前50章的章节目录计算得到的simhash。

参见图2，为本发明文档的同本识别方法提供的另一个实施例的流程示意图，该实施例中，上述步骤102可具体包含如下子步骤1021至1022：

步骤1021：判断同一章节目录序号对应的simhash之间的海明距离是否小于预设的第一门限。如果是，则将对应的所述文档划分到同一相似集合中。

仍以上述实施例中的N10、N30、N50三个文档数据集合为例，判断同一章节目录序号对应的simhash之间的海明距离是否小于预设的第一门限即为：判断同一数据集合中的两个文档的simhash的海明距离是否小于等于第一门限例如7，若是，则将这两个文档划分在该数据集合对应的的同一相似集合中。

步骤1021在判断的时候，也可以通过判断同一章节目录序号对应的simhash之间在预设位上的值是否对应相同，如果是，则将对应的所述文档划分到同一相似集合中。

例如，先将每个simhash每8位分为1段，总共分为8段，再判断同一数据集合中的两个文档的simhash是否有任意一段相同，若是，则将这两个文档分在该数据集合对应的的同一相似集合内。将上述N10，N30和N50分别对应若干相似集合如下：

N10对应如下相似集合：

{g1_10＝{S1_10,S3_10...},g2_10＝{S2_10,S3_10...},...gn_10＝{Si_1...Sj_10}}

N30对应如下相似集合：

{g1_30＝{S1_30,S8_30,...},g2_30＝{S2_30,S62_30,...},...gn_30＝{S3_10...Si_30}}；

N50对应如下相似集合：

N50＝{g1_50＝{S1_50,S77_50...},g2_50＝{S2_50,S23_50...},...gn_50＝{S3_50....Si_50}}。

步骤1022：判断不同章节目录序号的对应的相似集合之间是否包含任何相同文档，如果是，则将对应的所述不同章节目录序号的相似集合进行并，直至合并后的不同章节目录序号的任意相似集合之间不包含任何相同文档，则满足此条件的同一相似集合中的文档即属于同一组。

例如，分别选取N10,N30中的相似集合g2_10和g4_30，判断这两个相似集合是否包含相同的文档，即是否有交集，若是，则将这两个相似集合合并去重。之后，在继续判断新生成的相似集合与其他任一相似集合是否有任何的交集，直至N10,N30的任意相似集合之间不包含任何相同文档，则同一相似集合中的文档即属于同一组。

参见图3为本发明文档的同本识别方法提供的另一个实施例的流程示意图，在本实施例中，上述步骤103可具体包含如下子步骤1031和1032：

步骤1031：对同一组内的文档进行同本判定以获得同本文档集合。

具体来说，可通过如下三种方法之一进行判定：

方法1：判断同一组内的文档对应的simhash之间的海明距离是否小于预设的第二门限，如果是，则将这两个文档判定为同本文档，划分到同一个同本文档集合中。

例如，如果同一组内的两个文档的simhash的海明距离小于3，则将这两个文档划分到同一个同本文档集合中。

方法2：判断同一组内的文档对应的文档名之间是否满足预设的第一匹配条件，如果是，则将这两个文档判定为同本文档，划分到同一个同本文档集合中。

可以对同一组内的两个文档的文档名进行模糊匹配，如果匹配率大于预设的阈值，或者如果这两个文档名都包含相同的特定关键字，如“大主宰”和“大主宰完结”，“大主宰”和“大主宰最新章节”等，则将这两个文档判定为同本文档，将其划分到同一个同本文档集合中。

方法3：判断同一组内的文档对应的章节目录之间是否满足预设的第二匹配条件，如果是，则将这两个文档判定为同本文档，划分到同一个同本文档集合中。

可以对同一组内的两个文档的章节目录进行模糊匹配，如果匹配率大于预设的阈值，或者如果这两个文档的章节目录都包含相同的特定关键字，则将这两个文档判定为同本文档，将其文档划分到同一个同本文档集合中。

步骤1032：对所述同本文档集合之间进行同本合并以获得属于同本的文档。

与文档的识别方法的实施例相对应，本发明还提供了文档的识别装置的实施例，参见图4，所述实施例包括：计算单元401、分组单元402、识别单元403。

为了描述的方便，描述本申请的装置时以功能划分，对各个功能单元分别描述。当然，在实施本发明时可以把各单元的功能集成在在同一个或多个软件和/或硬件中实现。

其中，所述计算单元401，用于根据待识别文档的章节目录计算所述文档对应的simhash；

所述分组单元402，用于根据所述simhash对所述文档进行分组；

所述识别单元403，用于对所述分组单元402分组后的文档进行同本判定以识别出属于同本的文档。

可选的，所述计算单元401用于预设用来计算所述simhash的章节目录序号，并根据所述序号对应的章节目录计算所述文档的simhash。

可选的，所述计算单元401用于如果目标文档的章节目录的最大序号小于所述预设的章节目录序号，则以所述最大序号对应的章节目录计算所述目标文档的simhash。

参见图5，为本发明文档的同本识别装置的分组单元402的一个实施例的结构示意图，所述分组单元402包括：

判断分组子单元4021，用于判断同一章节目录序号对应的simhash之间的海明距离是否小于预设的第一门限，如果是，则将对应的所述文档划分到同一相似集合中，或者用于判断同一章节目录序号对应的simhash之间在预设位上的值是否对应相同，如果是，则将对应的所述文档划分到同一相似集合中；

分组合并子单元4022，用于判断不同章节目录序号的对应的相似集合之间是否包含任何相同文档，如果是，则将对应的所述不同章节目录序号的相似集合进行并，直至不同章节目录序号的任意相似集合之间不包含任何相同文档，则同一相似集合中的文档即属于同一组。

参见图6，为本发明文档的同本识别装置的识别单元403的一个实施例的结构示意图，所述识别单元403包括：

所述识别单元403包括：

同本判定子单元4031，用于对同一组内的文档进行同本判定以获得同本文档集合；

同本合并子单元4032，用于对所述同本文档集合之间进行同本合并以获得属于同本的文档。

可选的，所述同本判定子单元4031用于判断同一组内的文档对应的simhash之间的海明距离是否小于预设的第二门限，如果是，则将对应的文档划分到同一个同本文档集合中。

可选的，所述同本判定子单元4031用于判断同一组内的文档对应的文档名之间是否满足预设的第一匹配条件，如果是，则将对应的文档划分到同一个同本文档集合中，或者用于判断同一组内的文档对应的章节目录之间是否满足预设的第二匹配条件，如果是，则将对应的文档划分到同一个同本文档集合中。

可选的，所述同本合并子单元4032用于判断任意同本文档集合之间是否包含任何相同文档，如果是，则将对应的同本文档集合合并，直至任意同本文档集合之间都不包含任何相同文档，则属于同一同本文档集合的文档即为同本的文档。

上述文本的识别装置的实施例，其中各个模块单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明，相关之处参见方法实施例的部分说明即可。

本发明实施例提供的文档的同本识别装置，根据待识别文档的章节目录计算所述文档对应的simhash，并根据所述simhash对所述文档进行分组，再对所述分组后的文档进行同本判定以识别出属于同本的文档。本装置避免采用文档的正文数据进行同本判定，而是利用文档的章节目录对应的simhash来反映文档正文之间的相似程度，既缩小了计算的规模，同时也具有很高的准确性。并且根据simhash对文档分组后再进行同本判定，也能进一步减小对大量的文档之间进行比较运算的运算量。本装置能在海量的互联网文档中，识别出属于同一实质内容的文档，为后续对文档进行分类管理及质量排序等应用功能提供了技术支持。

作为本发明在实际中的具体应用，当搜索结果中存在多本相似的文档书籍时，可以利用本发明中的技术方案将这些书籍中实际为一本的书籍归结在一起，为后续对书籍的质量排序提供方便，从而可以确保输出给用户的书籍的准确和高质，提升用户的整体阅读体验。并且当书籍名称有变化时，本发明的技术方案可以智能识别出改名前和改名后的这两本书为同一本书，从而提升用户的搜索体验。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件的方式来实现，通用硬件包括通用集成电路、通用CPU、通用存储器、通用元器件等，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文档的同本识别方法，其特征在于，所述方法包括：

针对每个预设章节目录序号，计算待识别文档中不大于所述预设章节目标序号的每个章节目录的simhash；

根据同一预设章节目录序号对应的所有simhash对所述文档进行分组,包括：

判断同一章节目录序号对应的simhash之间的海明距离是否小于预设的第一门限，如果是，则将对应的所述文档划分到同一相似集合中；或者，判断同一章节目录序号对应的simhash之间在预设位上的值是否对应相同，如果是，则将对应的所述文档划分到同一相似集合中，

判断不同章节目录序号的对应的相似集合之间是否包含任何相同文档，如果是，则将对应的所述不同章节目录序号的相似集合进行合并，直至不同章节目录序号的任意相似集合之间不包含任何相同文档，则同一相似集合中的文档即属于同一组；

2.根据权利要求1所述的方法，其特征在于，如果目标文档的章节目录的最大序号小于所述预设的章节目录序号，则以所述最大序号对应的章节目录计算所述目标文档的simhash。

3.根据权利要求1至2任意一项所述的方法，其特征在于，对所述分组后的文档进行同本判定以识别出属于同本的文档包括：

对同一组内的文档进行同本判定以获得同本文档集合；

4.根据权利要求3所述的方法，其特征在于，所述对同一组内的文档进行同本判定以获得同本文档集合包括：

5.根据权利要求3所述的方法，其特征在于，所述对同一组内的文档进行同本判定以获得同本文档集合包括：

6.根据权利要求3所述的方法，其特征在于，所述对所述同本文档集合之间进行同本合并以获得属于同本的文档包括：

7.一种文档的同本识别装置，其特征在于，所述装置包括：

计算单元，用于针对每个预设章节目录序号，计算待识别文档中不大于所述预设章节目标序号的每个章节目录的simhash；

分组单元，用于根据同一预设章节目录序号对应的所有simhash对所述文档进行分组，包括：

判断分组子单元，用于判断同一章节目录序号对应的simhash之间的海明距离是否小于预设的第一门限，如果是，则将对应的所述文档划分到同一相似集合中，或者用于判断同一章节目录序号对应的simhash之间在预设位上的值是否对应相同，如果是，则将对应的所述文档划分到同一相似集合中，

分组合并子单元，用于判断不同章节目录序号的对应的相似集合之间是否包含任何相同文档，如果是，则将对应的所述不同章节目录序号的相似集合进行合并，直至不同章节目录序号的任意相似集合之间不包含任何相同文档，则同一相似集合中的文档即属于同一组；

8.根据权利要求7所述的装置，其特征在于，所述计算单元用于当目标文档的章节目录的最大序号小于所述预设的章节目录序号时，则以所述最大序号对应的章节目录计算所述目标文档的simhash。

9.根据权利要求7至8任意一项所述的装置，其特征在于，所述识别单元包括：

10.根据权利要求9所述的装置，其特征在于，所述同本判定子单元用于判断同一组内的文档对应的simhash之间的海明距离是否小于预设的第二门限，如果是，则将对应的文档划分到同一个同本文档集合中。

11.根据权利要求9所述的装置，其特征在于，所述同本判定子单元用于判断同一组内的文档对应的文档名之间是否满足预设的第一匹配条件，如果是，则将对应的文档划分到同一个同本文档集合中，或者

12.根据权利要求9所述的装置，其特征在于，所述同本合并子单元用于判断任意同本文档集合之间是否包含任何相同文档，如果是，则将对应的同本文档集合合并，直至任意同本文档集合之间都不包含任何相同文档，则属于同一同本文档集合的文档即为同本的文档。