CN103207864A

CN103207864A - 一种网络小说内容近似度比对方法

Info

Publication number: CN103207864A
Application number: CN2012100113299A
Authority: CN
Inventors: 刘瑞虹; 姜波
Original assignee: BEIJING CHINESEALL DIGITAL PUBLISHING Co Ltd
Current assignee: BEIJING CHINESEALL DIGITAL PUBLISHING Co Ltd
Priority date: 2012-01-13
Filing date: 2012-01-13
Publication date: 2013-07-17

Abstract

一种网络小说内容近似度比对方法，包括：预处理步骤：对待比对网络小说进行预处理，提取关键词，将关键词进行同义词替换，以形成规范化网络小说；特征指纹提取步骤：将待比对网络小说中的拆分为多组临近有序词，并对每一组临近有序词进行哈希运算形成的哈希表作为特征指纹；以及特征指纹比对步骤：将所述特征指纹与特征比对库中存储的现有网络小说的特征指纹相比较，以两者的特征指纹相同的数目或比率来确定待比对网络小说与现有网络小说的近似度。本发明的方法用于网络小说的近似度比对，通过预处理避免了方法复杂度大引起的效率不高，又避免了针对性不强引起的漏查，且具有自学习能力，提高了查重准确度。

Description

一种网络小说内容近似度比对方法

技术领域

本发明涉及一种内容近似度比对方法，更具体地，涉及一种针对网络小说的内容近似度比对方法。

背景技术

随着互联网技术的飞速发展，互联网上的各种数字内容越来越多，呈爆炸性增长趋势，包括各种内容的页面、学术论文、网络小说、学生作业等等，面对如此众多的数字内容，实现内容自动查重(近似度比对)是一项非常重要的技术，通过查重可以实现搜索引擎内容的重复检索、发表内容的抄袭检测、入库内容的非重复录入、有关研究内容的查新等。

查重技术源于复制检测技术。复制检测，就是判断一个文件的内容是否抄袭、剽窃或者复制于另外一个或多个文件。剽窃不仅仅意味着原封不动地照搬，还包括对原作的移位变换、同义词替换以及改变说法重述等方式。

查重技术从原理上分为两类：基于语法的方法(基于Shingle的方法)和基于语义的方法(基于Term的方法)。其中：Shingle是指文档中若干个连续出现的单词，这种方法从文档中选取一系列Shingle后统计相同的Shingle数目或者比率，作为判断文本相似度的依据。基于Term的方法采用单个词条作为计算的基本单元，而不考虑词条出现的位置和顺序.其中最著名的就是I-Match方法，选取IDF值(inverse documentfrequency，逆文本频率)较高的词条排序后构成为文档的特征向量值，特征向量值相似的文档被视为内容近似。其他基于Term的方法也大都采用SVM(Support Vector Machine，支持向量机)模型，利用TF/IDF(TermFrequency，词条频率)值进行文档关键词的提取，并将关键词作为文档的特征向量，通过计算文档间的近似度来进行近似度的检测。

当前已有针对网页内容和学术论文的近似度比对方法，针对页面的近似度比对的重点在于整个页面内容和格式的重复，学术论文查重的重点在于核心内容和方法的重复抄袭。但是网络小说有不同于网页和学术论文的特点，而且现有的针对网页和学术论文的直接处理方法计算量大，处理速度慢。因此，针对当前蓬勃发展的网络小说这一新内容形式，为了保护作者利益，亟需一种针对网络小说的处理更快速的近似度比对方法。

发明内容

针对上述问题，本发明提供了一种网络小说内容近似度比对方法，包括：

预处理步骤：对待比对网络小说进行预处理，提取关键词，将关键词进行同义词替换，以形成规范化网络小说；

特征指纹提取步骤：将待比对网络小说中的拆分为多组临近有序词，并对每一组临近有序词进行哈希运算形成的哈希表作为特征指纹；以及

特征指纹比对步骤：将所述特征指纹与特征比对库中存储的现有网络小说的特征指纹相比较，以两者的特征指纹相同的数目或比率来确定待比对网络小说与现有网络小说的近似度。

本发明的优点是：(1)针对网络小说的特点进行近似度比对；(2)近似度比对方法通过针对性的步骤，避免了方法复杂度大引起的效率不高问题，又避免了针对性不强引起的漏查问题；(3)本发明的方法具有自学习能力，通过学习机制，积累知识，提高查重准确度。

附图说明

图1为本发明的网络小说内容近似度比对方法的流程图。

具体实施方式

网络小说内容的本身的特殊性，是具有特殊的章节，特定人物，特定的时间和空间，以及这三个方面的彼此结合，构成了一个网络小说的自身特征。因此，本发明的方法的近似度比对主要针对：(1)重要章节的完全重复；(2)核心人物的情节重复；(3)时间空间的映射转换。

如图1所示，本发明首先对待比对网络小说进行预处理，然后进行特征提取，与特征比对库中存储的现有网络小说的特征进行比对，从而确定待比对网络小说与现有网络小说的近似度。下面详述本发明的近似度比对方法。

1.预处理：

1)同义词替换

优选地，在对待比对网络小说预处理之前，先去除网络小说的非内容信息，例如格式信息、版本信息等。

网络小说预处理同义词特征库(WIS)是网络小说中同义词特征的集合。这里，同义词包括等价关系、包含关系和相关关系。

等价关系就是通过增加同义词来提高获取网络小说内容的回应率(recall)。如：“计算机”、“电脑”、“computer”是等价关系，在比对过程中，不管这三个词的任何一个，通过等价关系处理都可以把其它两个等价词加入词中。这里用“equal(“计算机”)＝{“电脑”，“computer”}”表示“计算机”的等价关系集合。

包含关系就是词含义的包容。如：“计算机”包含“微机”、“小型机”、“中型机”、“大型机”、“并行机”等。包含关系的引入也是为了提高网络小说内容的回应率(recall)。当系统进行“计算机”关键词处理时，发现有“计算机”包含关系词的内容，那么系统也会认为此内容满足比对要求。这里用“include(“计算机”)＝{“微机”，“小型机”，“中型机”，“大型机”，“并行机”}”表示“计算机”的包含关系集合。

相关关系是指词之间的关联性，在这里主要是指与主题词的相关信息。如：主题词“计算机”和“信息处理”、“数据管理”、“数据分析”等具有相关关系。词之间的相关关系定义与所涉及的领域有密切的联系。这里用“interrelate(“计算机”)＝{“信息处理”，“数据管理”，“数据分析”}”表示“计算机”的相关关系集合。

WIS为关键词集合(Keyword_Set)、等价关系集合(Equal_Set)、包含关系集合(Include_Set)、相关关系集合(interrelate_Set)的四元组，即：

WIS＝<Keyword_Set，Equal_Set，Include_Set，Interrelate_Set>

例如：

WIS＝<{//关键词集合

“计算机”，“电脑”，“computer”，“微机”，“小型机”，“中型机”，“大型机”，“并行机”，“信息处理”，“数据管理”，“数据分析”，“IBM微机”，“Compaq微机”，“Digital微机”，“Dell微机”，“王勇”，“老王”，“王市长”

在如果关键词k具有包含关系集合，则关键词k是该包含关系集合中的其他元素(例如关键词k’)的根关键词，相应地，关键词k’设定为关键词k的叶子关键词。例如，“微机”为“计算机”的叶子关键词，“计算机”为“微机”的根关键词。如此，WIS中的关键词构成了一个关系树。

2)对网络小说进行等价替换操作

对于WIS中的关键词k，如果关键词k具有等价关系集合equal(k)，那么用关键词k替换集合equal(k)中的每个关键词。例如，如果文章中包括有“计算机”关键词，对文章中包括equal(“计算机”)集合中同义词进行替换，即把出现的“电脑”，“computer”全部替换为“计算机”。

3)对网络小说进行包含替换操作

对于WIS中的关键词k，如果关键词k具有包含关系集合include(k)，那么用关键词k替换集合include(k)中的每个关键词。例如，如果文章中包括有“计算机”关键词，对文章中包括include(“计算机”)集合中同义词进行替换，即把出现的“微机”，“小型机”，“中型机”，“大型机”，“并行机”全部替换为“计算机”。

其中，有可能包含关系集合include(k)中的关键词还具有包含关系集合，则需要进行多次替换操作。对包含关系集合include(k)中全部关键词进行等价替换操作和包含替换操作，获得的新关键词集合称为关键词k的1次间接包含词集合。对关键词k的1次间接包含词集合再进行等价替换操作和包含替换操作所获得的新关键词集合称为关键词k的2次间接包含词集合。依次类推，对关键词k的n-1次间接包含词集合再进行等价替换操作和包含替换操作所获得的新关键词集合称为关键词k的n次间接包含词集合。例如，如果文章中包括有“IBM微机”关键词，对文章依据include(“微机”)＝{“IBM微机”，“Compaq微机”，“Digital微机”，“Dell微机”}进行一次包含替换，实现用“微机”替换“IBM微机”，“Compaq微机”，“Digital微机”，“Dell微机”。然后依据include(“计算机”)＝{“微机”，“小型机”，“中型机”，“大型机”，“并行机”}，实现“微机”用“计算机”替换，由于“计算机”是基本关键词，所以n＝2完成。在替换过程中，先从叶子关键词开始替换操作，然后对根关键词开始替换操作。

替换之后，对于WIS中的关键词k，如果关键词k不存在包含关系集合include(k)，也不存在等价关系集合equal(k)，则设定其为基本关键字；否则设定为复合关键字。例如，上例中，“计算机”是基本关键字，“IBM微机”，“微机”为复合关键字。如果关键词k的n次间接包含词集合的元素全部为基本关键字(n为有限数)，那么认为关键字k是规范化的。如果WIS中的全部关键词都是规范化的，那么设定该WIS是规范化的。

通过上述定义1)～3)步骤，形成规范化同义词特征库。对于n，存在n≤等价关系集合元素数量+包含关系集合数量。如上例中，等价关系集合元素数量为1个，包含关系集合数量为2个，所以n≤3就可实现规范化。

通过上述预处理，将待比对网络小说转换成为规范化网络小说。所形成的规范化WIS可以存储到数据库中以备比对新的网络小说进行处理。

优选地，还可以对网络小说中的人物、地点、场景等的统一化归并，以提高比对的准确性和精度。例如，网络小说中人物“王勇”、“老王”、“王市长”等，表示都是一个人物，统一采用“王勇”来代替“老王”、“王市长”。更优选地，还可以用符合来代替“王勇”，从而当利用如下所述的基于概念和语义网络(CSN)的方法时，大大减少语义网络的节点数量，降低语义网络的结构复杂性。

下面详述网络小说内容近似度比对过程。

2.基于Shingle方法的网络小说内容近似度比对

根据调查，网络小说内容重复现象中，90％以上的重复是整篇章的完全一样，因此，通过Shingle方法，可以发现90％以上绝大多数重复的网络小说。基于Shingle方法的网络小说内容近似度比对方法包括：

1)提取特征指纹

Shingle是指文档中一组临近的有序词。基于Shingle的方法从文档中选取一系列Shingle，如果一个Shingle的长度为k，那么长度为n的文档就有n-k+1个Shingle。然后把Shingle用MD5或者其他方法映射到HASH表中，一个Shingle对应一个HASH值，也就是一个指纹值，那么该HASH表就是该网络小说的特征指纹。

例如网络小说内容如下：

“这个家族血管中流的每一滴血，都充满了罪恶、淫秽和肮脏的东西。他们是所有矛盾的集合：他们热情，他们冷酷；他们善于记忆，他们经常遗忘；他们忠于梦想，他们随时妥协；他们愿与圣徒为伴，他们总和魔鬼合作；他们非常冷静，他们必然疯狂。他们是天使，他们也是魔鬼。”

去掉标点符号和进行切词处理得到如下结果：

“这个家族血管中流的每一滴血都充满了罪恶淫秽和肮脏的东西他们是所有矛盾的集合他们热情他们冷酷他们善于记忆他们经常遗忘他们忠于梦想他们随时妥协他们愿与圣徒为伴他们总和魔鬼合作他们非常冷静他们必然疯狂他们是天使他们也是魔鬼”

所以该网络小说的n＝53(词)，选取k＝4，将得到n-k+1＝50个Shingle，如下所示(部分进行了省略)：

{(这个家族血管中流的)，(家族血管中流的每一滴血)，(血管中流的每一滴血都)，(流的每一滴血都充满了)，......，(合作他们非常冷静)，(他们非常冷静他们)，(非常冷静他们必然)，(冷静他们必然疯狂)，(他们必然疯狂他们)，(必然疯狂他们是)，(疯狂他们是天使)，(他们是天使他们)，(是天使他们也是)，(天使他们也是魔鬼)}

对上述50个Shingle用MD5计算出HASH值，存入HASH表中，则该HASH表为该网络小说的特征指纹。

更优选地，有时候n-k+1个指纹值还是太大，所以取m个指纹值函数，对每一个函数，都可以计算出n-k+1个指纹值，取其中的最小的指纹值，称为i-minvalue.那么一个网络小说的HASH表中就有m个i-minvalue个指纹值。具体为：将网络小说A分解成n-k+1个Shingle，取m个指纹函数，对每一个指纹函数计算i-minvalue值；将m个i-minvalue值组合形成具有m个surperShingle的集合。则该m个surperShingle的集合为该网络小说的特征指纹。

通过上述过程，可以提取网络小说的特征指纹，以用于与特征比对库中的特征指纹进行。其中特征比对库中存储的特征指纹也是通过上述方法针对已有网络小说而形成。

2)通过特征指纹比对来确定网络小说内容近似度

Shingle方法是通过抽取网络小说中多个特征词汇，比较两个特征集合的相似程度实现查重。也就是统计HASH表中相同的Shingle数目或者比率，作为判断网络小说内容近似度的依据。一般来说，两个网络小说的近似性以Jacard相似性来表示，Jarcard公式是指两个集合的近似性＝集合之交/集合之并。

在一个实施方式中，比对过程包括：针对待比对网络小说A的特征指纹(n-k+1个Shingle的HASH值组成的HASH表)，以及从特征比对库中提取已有网络小说的特征指纹(n-k+1个Shingle的HASH值组成的HASH表)，计算网络小说A与此该网络小说相同的Shingle的个数a；如果a大于某一个值b，那么网络小说A与该网络小说Jarcard近似；如果a小于某一个值b，那么网络小说A与该网络小说Jarcard不近似，转入步骤3提取另外已有网络小说的n-k+1个Shingle进行比对，如果没有新的可比对网络小说，可以认为采用Shingle方法判断A没有重复。

在另一个实施例中，比对过程包括：针对待比对网络小说A的特征指纹(将网络小说A分解成n-k+1个Shingle，取m个指纹函数，对每一个指纹函数计算i-minvalue值，将m个i-minvalue值组合形成具有m个surperShingle的集合)，以及从特征比对库中提取的已有网络小说的m个surperShingle，计算网络小说A与此该网络小说相同的surperShingle的个数a；如果a大于某一个值b，那么网络小说A与该网络小说Jarcard近似；如果a小于某一个值b，那么网络小说A与该网络小说Jarcard不近似，继续与特征比对库中其他的已有网络小说进行比对，如果没有新的可比对网络小说，可以认为采用Shingle方法判断A没有重复。例如，针对前述的例子，对于50个Shingle从小到大进行排序，选取前m＝20个Shingle生成20个i-minvalue值，i-minvalue一般取128bit，同样被比对网络小说A按照上述步骤生成另外20个i-minvalue值，然后进行Jarcard近似计算。

优选地，如果该网络小说A与特征比对库中的网络小说都不近似，将该网络小说A的特征指纹增加到标准特征库中，作为新的比对标准特征库内容，以便和后续被比对小说进行比对。

另外网络小说中还存在对核心人物的名字、性别、时空等进行替换的重复，为此，还可以进一步采用基于Term的方法，来进行等价语义的查重。

3.基于Term方法的网络小说内容近似度比对

基于Term的方法采用单个词条作为计算的基本单元。通过计算文档特征向量的余弦值来获得文档的近似度，而不考虑词条出现的位置和顺序。经过Term方法，可以发现网络小说中核心人物的情节重复，因此可以进行等价语义的查重。基于Term方法的网络小说内容近似度比对方法包括：

1)提取第一类型特征向量

基于Term的I-Match方法不依赖于完全的信息分析，而是使用数据集合的统计特征来抽取文档的主要特征，将非主要特征抛弃。

I-Match方法通过计算逆文本频率指数(IDF)来确定选择哪些词作为特征向量。IDF＝log(N/n)，其中N为文档的数目，n为包含该关键词的文档的数目。I-Match方法正是基于“在文档集中频繁出现的词并不会增加文档的语义信息”的推断，去掉IDF值较小的词，从而获得了更好的文档表示。经过过滤的关键词按降序排列构成文档的特征向量，然后计算“指纹”。主要步骤：

步骤1：将网络小说分解成token流，即把该网络小说以词为单位进行统计，并按照在该网络小说中不同词出现的次数按照从低到高进行排序；

步骤2：使用term的阈值(idf)，保留有意义的tokens，即去除高频出现词和低频出现词。

例如，一个网络小说中包括“中国足球队在米卢的率领下首次获得世界杯决赛阶段的比赛资格，新浪体育播报”。则将该网络小说中去掉高频：中国，在，的，获得，比赛，资格，新浪，体育，播报。然后去掉低频：米卢。则剩下中频词有：足球队，率领，首次，世界杯，决赛，阶段。则该“足球队，率领，首次，世界杯，决赛，阶段”即为该网络小说的第一类型特征向量。

通过上述过程，可以提取网络小说的第一类型特征向量，以用于与特征比对库中的第一类型特征向量进行。其中特征比对库中存储的第一类型特征向量也是通过上述方法针对已有网络小说而形成。

2)通过比对第一类型特征向量来确定网络小说内容近似度

首先，将待比对网络小说A的第一类型特征向量(tokens)与从网络小说特征库中提取已有网络小说的第一类型特征向量(tokens)进行比对；如果比对的tokens一样，则网络小说A是重复的；如果比对完毕没有一样的，则网络小说A采用Term方法比对是独创的。

优选地，如果该网络小说A与特征比对库中的网络小说都不近似，将该网络小说A的第一类型特征向量增加到标准特征库中，作为新的比对标准特征库内容，以便和后续被比对小说进行比对。

例如，比比对网络小说A为：“米卢率领中国足球队员首次杀入世界杯决赛阶段，搜狐体育播报”。网络小说A去掉高频：中国，搜狐，体育，播报；去掉低频：米卢，杀入；则剩下中频词有：率领，足球队，首次，世界杯，决赛，阶段。因此，待比对网络小说A的第一类型特征向量为“足球队，率领，首次，世界杯，决赛，阶段”，与特征比对库中已有的网络小说“中国足球队在米卢的率领下首次获得世界杯决赛阶段的比赛资格，新浪体育播报”的第一类型特征向量“足球队，率领，首次，世界杯，决赛，阶段”相同。因此，判断该网络小说A是语义是相同的。

为实现更高层面的内容查重，还可以使用基于CSN的方法，如下所述。

4.基于CSN方法的网络小说内容近似度比对

基于CSN的方法，可以对文档关键概念进行提取，用于内容语义结构的比对。关于CSN方法的详细内容，现有文章进行介绍，请参照“基于概念和语义网络的近似网页检测方法”(曹玉娟等，软件学报，2011.22(8)：1816-1826)。采用基于CSN的方法，可以发现网络小说中时间空间的映射转换的重复。基于CSN方法的网络小说内容近似度比对方法包括：

1)提取第二类型特征向量

通过对网络小说进行概念抽取，构建语义网络.对网络小说关键概念进行抽取，与其位置信息一起构成网络小说的第二类型特征向量。具体而言，为：对待比对网络小说进行概念抽取，构建语义网络，对该网络小说关键概念进行抽取，与其位置信息一起构成第二类型特征向量。

通过上述过程，可以提取网络小说的第二类型特征向量，以用于与特征比对库中的第二类型特征向量进行。其中特征比对库中存储的第二类型特征向量也是通过上述方法针对已有网络小说而形成。

2)通过比对第二类型特征向量来确定网络小说内容近似度

该比对方法包括：针对网络小说A的第二类型特征向量Va与特征比对库中的网络小说Di的第二类型特征向量VD_i，计算Va和VD_i的近似度ξ，如果ξ＞第一阈值，计算特征向量Va和VD_i的距离分布s，如果s＜第二阈值，则网络小说A与库中的网络小说VD_i近似；否则，如果不近似，从特征比对库中选取下一个网络小说D_i+1(如果有)再次进行比对。

优选地，如果该网络小说A与特征比对库中的网络小说都不近似，将其第二类型特征向量Va增加到标准特征库中，作为新的比对标准特征库内容，以便和后续被比对小说进行比对。

本发明针对网络小说内容重复的特点，从简单到复杂，首先确定最有可能的网络小说内容重复形式，然后根据需要，再排除其它可能的网络小说内容重复形式，查重效率高，减少计算资源使用。

Claims

1.一种网络小说内容近似度比对方法，其特征在于，包括：

2.根据权利要求1所述的网络小说内容近似度比对方法，其特征在于，还包括：

第一类型特征向量提取步骤：将待比对网络小说以词条进行分解，去除出现的高频词和低频词，然后按照出现频率进行排序，以形成第一类型特征向量；

第一类型特征向量比对步骤：将所述第一类型特征向量与特征比对库中存储的现有网络小说的第一类型特征向量相比较，以两者的词条相同的数目或比率来确定待比对网络小说与现有网络小说的近似度。

3.根据权利要求1所述的网络小说内容近似度比对方法，其特征在于，还包括：

第二类型特征向量提取步骤：将待比对网络小说进行概念抽取，并与其位置信息一起构成第二类型特征向量；

第二类型特征向量比对步骤：将所述第二类型特征向量与特征比对库中存储的现有网络小说的第二类型特征向量相比较，以两者的近似度来确定待比对网络小说与现有网络小说的近似度。

4.根据权利要求1至3中任意一项所述的网络小说内容近似度比对方法，其特征在于，所述预处理步骤进一步包括：

设定待比对网络小说的关键词；

提取所述关键词的等价关系集合和包含关系集合，所述关键词设定为根关键词，其包含关系集合中的关键词设定为叶子关键词；

替换步骤：在所述待比对网络小说中，用所述关键词替换其等价关系集合和包含关系集合中的全部元素关键词，以形成规范化网络小说。

5.根据权利要求4所述的网络小说内容近似度比对方法，其特征在于，在所述替换步骤中：先对叶子关键词进行替换，然后对根关键词进行替换。

6.根据权利要求1所述的网络小说内容近似度比对方法，其特征在于，进一步包括：如果该待比对网络小说与特征比对库中的网络小说的近似度低于一阈值，则将该待比对网络小说的特征指纹增量加入到该特征比对库中。

7.根据权利要求2所述的网络小说内容近似度比对方法，其特征在于，进一步包括：如果该待比对网络小说与特征比对库中的网络小说的近似度低于一阈值，则将该待比对网络小说的第一类型特征向量加入到该特征比对库中。

8.根据权利要求3所述的网络小说内容近似度比对方法，其特征在于，进一步包括：如果该待比对网络小说与特征比对库中的网络小说的近似度低于一阈值，则将该待比对网络小说的第二类型特征向量加入到该特征比对库中。

9.根据权利要求4所述的网络小说内容近似度比对方法，其特征在于，所述预处理步骤还包括：去除待比对网络小说的非内容信息，包括格式信息和版本信息。