CN103207864A - 一种网络小说内容近似度比对方法 - Google Patents

一种网络小说内容近似度比对方法 Download PDF

Info

Publication number
CN103207864A
CN103207864A CN2012100113299A CN201210011329A CN103207864A CN 103207864 A CN103207864 A CN 103207864A CN 2012100113299 A CN2012100113299 A CN 2012100113299A CN 201210011329 A CN201210011329 A CN 201210011329A CN 103207864 A CN103207864 A CN 103207864A
Authority
CN
China
Prior art keywords
network novel
compared
novel
approximation
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100113299A
Other languages
English (en)
Inventor
刘瑞虹
姜波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING CHINESEALL DIGITAL PUBLISHING Co Ltd
Original Assignee
BEIJING CHINESEALL DIGITAL PUBLISHING Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING CHINESEALL DIGITAL PUBLISHING Co Ltd filed Critical BEIJING CHINESEALL DIGITAL PUBLISHING Co Ltd
Priority to CN2012100113299A priority Critical patent/CN103207864A/zh
Publication of CN103207864A publication Critical patent/CN103207864A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种网络小说内容近似度比对方法,包括:预处理步骤:对待比对网络小说进行预处理,提取关键词,将关键词进行同义词替换,以形成规范化网络小说;特征指纹提取步骤:将待比对网络小说中的拆分为多组临近有序词,并对每一组临近有序词进行哈希运算形成的哈希表作为特征指纹;以及特征指纹比对步骤:将所述特征指纹与特征比对库中存储的现有网络小说的特征指纹相比较,以两者的特征指纹相同的数目或比率来确定待比对网络小说与现有网络小说的近似度。本发明的方法用于网络小说的近似度比对,通过预处理避免了方法复杂度大引起的效率不高,又避免了针对性不强引起的漏查,且具有自学习能力,提高了查重准确度。

Description

一种网络小说内容近似度比对方法
技术领域
本发明涉及一种内容近似度比对方法,更具体地,涉及一种针对网络小说的内容近似度比对方法。
背景技术
随着互联网技术的飞速发展,互联网上的各种数字内容越来越多,呈爆炸性增长趋势,包括各种内容的页面、学术论文、网络小说、学生作业等等,面对如此众多的数字内容,实现内容自动查重(近似度比对)是一项非常重要的技术,通过查重可以实现搜索引擎内容的重复检索、发表内容的抄袭检测、入库内容的非重复录入、有关研究内容的查新等。
查重技术源于复制检测技术。复制检测,就是判断一个文件的内容是否抄袭、剽窃或者复制于另外一个或多个文件。剽窃不仅仅意味着原封不动地照搬,还包括对原作的移位变换、同义词替换以及改变说法重述等方式。
查重技术从原理上分为两类:基于语法的方法(基于Shingle的方法)和基于语义的方法(基于Term的方法)。其中:Shingle是指文档中若干个连续出现的单词,这种方法从文档中选取一系列Shingle后统计相同的Shingle数目或者比率,作为判断文本相似度的依据。基于Term的方法采用单个词条作为计算的基本单元,而不考虑词条出现的位置和顺序.其中最著名的就是I-Match方法,选取IDF值(inverse documentfrequency,逆文本频率)较高的词条排序后构成为文档的特征向量值,特征向量值相似的文档被视为内容近似。其他基于Term的方法也大都采用SVM(Support Vector Machine,支持向量机)模型,利用TF/IDF(TermFrequency,词条频率)值进行文档关键词的提取,并将关键词作为文档的特征向量,通过计算文档间的近似度来进行近似度的检测。
当前已有针对网页内容和学术论文的近似度比对方法,针对页面的近似度比对的重点在于整个页面内容和格式的重复,学术论文查重的重点在于核心内容和方法的重复抄袭。但是网络小说有不同于网页和学术论文的特点,而且现有的针对网页和学术论文的直接处理方法计算量大,处理速度慢。因此,针对当前蓬勃发展的网络小说这一新内容形式,为了保护作者利益,亟需一种针对网络小说的处理更快速的近似度比对方法。
发明内容
针对上述问题,本发明提供了一种网络小说内容近似度比对方法,包括:
预处理步骤:对待比对网络小说进行预处理,提取关键词,将关键词进行同义词替换,以形成规范化网络小说;
特征指纹提取步骤:将待比对网络小说中的拆分为多组临近有序词,并对每一组临近有序词进行哈希运算形成的哈希表作为特征指纹;以及
特征指纹比对步骤:将所述特征指纹与特征比对库中存储的现有网络小说的特征指纹相比较,以两者的特征指纹相同的数目或比率来确定待比对网络小说与现有网络小说的近似度。
本发明的优点是:(1)针对网络小说的特点进行近似度比对;(2)近似度比对方法通过针对性的步骤,避免了方法复杂度大引起的效率不高问题,又避免了针对性不强引起的漏查问题;(3)本发明的方法具有自学习能力,通过学习机制,积累知识,提高查重准确度。
附图说明
图1为本发明的网络小说内容近似度比对方法的流程图。
具体实施方式
网络小说内容的本身的特殊性,是具有特殊的章节,特定人物,特定的时间和空间,以及这三个方面的彼此结合,构成了一个网络小说的自身特征。因此,本发明的方法的近似度比对主要针对:(1)重要章节的完全重复;(2)核心人物的情节重复;(3)时间空间的映射转换。
如图1所示,本发明首先对待比对网络小说进行预处理,然后进行特征提取,与特征比对库中存储的现有网络小说的特征进行比对,从而确定待比对网络小说与现有网络小说的近似度。下面详述本发明的近似度比对方法。
1.预处理:
1)同义词替换
优选地,在对待比对网络小说预处理之前,先去除网络小说的非内容信息,例如格式信息、版本信息等。
网络小说预处理同义词特征库(WIS)是网络小说中同义词特征的集合。这里,同义词包括等价关系、包含关系和相关关系。
等价关系就是通过增加同义词来提高获取网络小说内容的回应率(recall)。如:“计算机”、“电脑”、“computer”是等价关系,在比对过程中,不管这三个词的任何一个,通过等价关系处理都可以把其它两个等价词加入词中。这里用“equal(“计算机”)={“电脑”,“computer”}”表示“计算机”的等价关系集合。
包含关系就是词含义的包容。如:“计算机”包含“微机”、“小型机”、“中型机”、“大型机”、“并行机”等。包含关系的引入也是为了提高网络小说内容的回应率(recall)。当系统进行“计算机”关键词处理时,发现有“计算机”包含关系词的内容,那么系统也会认为此内容满足比对要求。这里用“include(“计算机”)={“微机”,“小型机”,“中型机”,“大型机”,“并行机”}”表示“计算机”的包含关系集合。
相关关系是指词之间的关联性,在这里主要是指与主题词的相关信息。如:主题词“计算机”和“信息处理”、“数据管理”、“数据分析”等具有相关关系。词之间的相关关系定义与所涉及的领域有密切的联系。这里用“interrelate(“计算机”)={“信息处理”,“数据管理”,“数据分析”}”表示“计算机”的相关关系集合。
WIS为关键词集合(Keyword_Set)、等价关系集合(Equal_Set)、包含关系集合(Include_Set)、相关关系集合(interrelate_Set)的四元组,即:
WIS=<Keyword_Set,Equal_Set,Include_Set,Interrelate_Set>
例如:
WIS=<{//关键词集合
“计算机”,“电脑”,“computer”,“微机”,“小型机”,“中型机”,“大型机”,“并行机”,“信息处理”,“数据管理”,“数据分析”,“IBM微机”,“Compaq微机”,“Digital微机”,“Dell微机”,“王勇”,“老王”,“王市长”
Figure BDA0000130866610000041
在如果关键词k具有包含关系集合,则关键词k是该包含关系集合中的其他元素(例如关键词k’)的根关键词,相应地,关键词k’设定为关键词k的叶子关键词。例如,“微机”为“计算机”的叶子关键词,“计算机”为“微机”的根关键词。如此,WIS中的关键词构成了一个关系树。
2)对网络小说进行等价替换操作
对于WIS中的关键词k,如果关键词k具有等价关系集合equal(k),那么用关键词k替换集合equal(k)中的每个关键词。例如,如果文章中包括有“计算机”关键词,对文章中包括equal(“计算机”)集合中同义词进行替换,即把出现的“电脑”,“computer”全部替换为“计算机”。
3)对网络小说进行包含替换操作
对于WIS中的关键词k,如果关键词k具有包含关系集合include(k),那么用关键词k替换集合include(k)中的每个关键词。例如,如果文章中包括有“计算机”关键词,对文章中包括include(“计算机”)集合中同义词进行替换,即把出现的“微机”,“小型机”,“中型机”,“大型机”,“并行机”全部替换为“计算机”。
其中,有可能包含关系集合include(k)中的关键词还具有包含关系集合,则需要进行多次替换操作。对包含关系集合include(k)中全部关键词进行等价替换操作和包含替换操作,获得的新关键词集合称为关键词k的1次间接包含词集合。对关键词k的1次间接包含词集合再进行等价替换操作和包含替换操作所获得的新关键词集合称为关键词k的2次间接包含词集合。依次类推,对关键词k的n-1次间接包含词集合再进行等价替换操作和包含替换操作所获得的新关键词集合称为关键词k的n次间接包含词集合。例如,如果文章中包括有“IBM微机”关键词,对文章依据include(“微机”)={“IBM微机”,“Compaq微机”,“Digital微机”,“Dell微机”}进行一次包含替换,实现用“微机”替换“IBM微机”,“Compaq微机”,“Digital微机”,“Dell微机”。然后依据include(“计算机”)={“微机”,“小型机”,“中型机”,“大型机”,“并行机”},实现“微机”用“计算机”替换,由于“计算机”是基本关键词,所以n=2完成。在替换过程中,先从叶子关键词开始替换操作,然后对根关键词开始替换操作。
替换之后,对于WIS中的关键词k,如果关键词k不存在包含关系集合include(k),也不存在等价关系集合equal(k),则设定其为基本关键字;否则设定为复合关键字。例如,上例中,“计算机”是基本关键字,“IBM微机”,“微机”为复合关键字。如果关键词k的n次间接包含词集合的元素全部为基本关键字(n为有限数),那么认为关键字k是规范化的。如果WIS中的全部关键词都是规范化的,那么设定该WIS是规范化的。
通过上述定义1)~3)步骤,形成规范化同义词特征库。对于n,存在n≤等价关系集合元素数量+包含关系集合数量。如上例中,等价关系集合元素数量为1个,包含关系集合数量为2个,所以n≤3就可实现规范化。
通过上述预处理,将待比对网络小说转换成为规范化网络小说。所形成的规范化WIS可以存储到数据库中以备比对新的网络小说进行处理。
优选地,还可以对网络小说中的人物、地点、场景等的统一化归并,以提高比对的准确性和精度。例如,网络小说中人物“王勇”、“老王”、“王市长”等,表示都是一个人物,统一采用“王勇”来代替“老王”、“王市长”。更优选地,还可以用符合来代替“王勇”,从而当利用如下所述的基于概念和语义网络(CSN)的方法时,大大减少语义网络的节点数量,降低语义网络的结构复杂性。
下面详述网络小说内容近似度比对过程。
2.基于Shingle方法的网络小说内容近似度比对
根据调查,网络小说内容重复现象中,90%以上的重复是整篇章的完全一样,因此,通过Shingle方法,可以发现90%以上绝大多数重复的网络小说。基于Shingle方法的网络小说内容近似度比对方法包括:
1)提取特征指纹
Shingle是指文档中一组临近的有序词。基于Shingle的方法从文档中选取一系列Shingle,如果一个Shingle的长度为k,那么长度为n的文档就有n-k+1个Shingle。然后把Shingle用MD5或者其他方法映射到HASH表中,一个Shingle对应一个HASH值,也就是一个指纹值,那么该HASH表就是该网络小说的特征指纹。
例如网络小说内容如下:
“这个家族血管中流的每一滴血,都充满了罪恶、淫秽和肮脏的东西。他们是所有矛盾的集合:他们热情,他们冷酷;他们善于记忆,他们经常遗忘;他们忠于梦想,他们随时妥协;他们愿与圣徒为伴,他们总和魔鬼合作;他们非常冷静,他们必然疯狂。他们是天使,他们也是魔鬼。”
去掉标点符号和进行切词处理得到如下结果:
“这个 家族 血管中 流的 每一滴血 都 充满了 罪恶 淫秽和 肮脏的 东西 他们 是 所有 矛盾的 集合 他们 热情他们 冷酷 他们 善于 记忆 他们 经常 遗忘 他们 忠于 梦想 他们 随时 妥协 他们 愿与 圣徒 为伴 他们 总和 魔鬼合作 他们 非常 冷静 他们 必然 疯狂 他们 是 天使 他们也是 魔鬼”
所以该网络小说的n=53(词),选取k=4,将得到n-k+1=50个Shingle,如下所示(部分进行了省略):
{(这个 家族 血管中 流的),(家族 血管中 流的 每一滴血),(血管中 流的 每一滴血 都),(流的 每一滴血 都 充满了),......,(合作 他们 非常 冷静),(他们 非常 冷静 他们),(非常 冷静 他们 必然),(冷静 他们 必然 疯狂),(他们 必然疯狂 他们),(必然 疯狂 他们 是),(疯狂 他们 是 天使),(他们 是 天使 他们),(是 天使 他们 也是),(天使 他们 也是魔鬼)}
对上述50个Shingle用MD5计算出HASH值,存入HASH表中,则该HASH表为该网络小说的特征指纹。
更优选地,有时候n-k+1个指纹值还是太大,所以取m个指纹值函数,对每一个函数,都可以计算出n-k+1个指纹值,取其中的最小的指纹值,称为i-minvalue.那么一个网络小说的HASH表中就有m个i-minvalue个指纹值。具体为:将网络小说A分解成n-k+1个Shingle,取m个指纹函数,对每一个指纹函数计算i-minvalue值;将m个i-minvalue值组合形成具有m个surperShingle的集合。则该m个surperShingle的集合为该网络小说的特征指纹。
通过上述过程,可以提取网络小说的特征指纹,以用于与特征比对库中的特征指纹进行。其中特征比对库中存储的特征指纹也是通过上述方法针对已有网络小说而形成。
2)通过特征指纹比对来确定网络小说内容近似度
Shingle方法是通过抽取网络小说中多个特征词汇,比较两个特征集合的相似程度实现查重。也就是统计HASH表中相同的Shingle数目或者比率,作为判断网络小说内容近似度的依据。一般来说,两个网络小说的近似性以Jacard相似性来表示,Jarcard公式是指两个集合的近似性=集合之交/集合之并。
在一个实施方式中,比对过程包括:针对待比对网络小说A的特征指纹(n-k+1个Shingle的HASH值组成的HASH表),以及从特征比对库中提取已有网络小说的特征指纹(n-k+1个Shingle的HASH值组成的HASH表),计算网络小说A与此该网络小说相同的Shingle的个数a;如果a大于某一个值b,那么网络小说A与该网络小说Jarcard近似;如果a小于某一个值b,那么网络小说A与该网络小说Jarcard不近似,转入步骤3提取另外已有网络小说的n-k+1个Shingle进行比对,如果没有新的可比对网络小说,可以认为采用Shingle方法判断A没有重复。
在另一个实施例中,比对过程包括:针对待比对网络小说A的特征指纹(将网络小说A分解成n-k+1个Shingle,取m个指纹函数,对每一个指纹函数计算i-minvalue值,将m个i-minvalue值组合形成具有m个surperShingle的集合),以及从特征比对库中提取的已有网络小说的m个surperShingle,计算网络小说A与此该网络小说相同的surperShingle的个数a;如果a大于某一个值b,那么网络小说A与该网络小说Jarcard近似;如果a小于某一个值b,那么网络小说A与该网络小说Jarcard不近似,继续与特征比对库中其他的已有网络小说进行比对,如果没有新的可比对网络小说,可以认为采用Shingle方法判断A没有重复。例如,针对前述的例子,对于50个Shingle从小到大进行排序,选取前m=20个Shingle生成20个i-minvalue值,i-minvalue一般取128bit,同样被比对网络小说A按照上述步骤生成另外20个i-minvalue值,然后进行Jarcard近似计算。
优选地,如果该网络小说A与特征比对库中的网络小说都不近似,将该网络小说A的特征指纹增加到标准特征库中,作为新的比对标准特征库内容,以便和后续被比对小说进行比对。
另外网络小说中还存在对核心人物的名字、性别、时空等进行替换的重复,为此,还可以进一步采用基于Term的方法,来进行等价语义的查重。
3.基于Term方法的网络小说内容近似度比对
基于Term的方法采用单个词条作为计算的基本单元。通过计算文档特征向量的余弦值来获得文档的近似度,而不考虑词条出现的位置和顺序。经过Term方法,可以发现网络小说中核心人物的情节重复,因此可以进行等价语义的查重。基于Term方法的网络小说内容近似度比对方法包括:
1)提取第一类型特征向量
基于Term的I-Match方法不依赖于完全的信息分析,而是使用数据集合的统计特征来抽取文档的主要特征,将非主要特征抛弃。
I-Match方法通过计算逆文本频率指数(IDF)来确定选择哪些词作为特征向量。IDF=log(N/n),其中N为文档的数目,n为包含该关键词的文档的数目。I-Match方法正是基于“在文档集中频繁出现的词并不会增加文档的语义信息”的推断,去掉IDF值较小的词,从而获得了更好的文档表示。经过过滤的关键词按降序排列构成文档的特征向量,然后计算“指纹”。主要步骤:
步骤1:将网络小说分解成token流,即把该网络小说以词为单位进行统计,并按照在该网络小说中不同词出现的次数按照从低到高进行排序;
步骤2:使用term的阈值(idf),保留有意义的tokens,即去除高频出现词和低频出现词。
例如,一个网络小说中包括“中国足球队在米卢的率领下首次获得世界杯决赛阶段的比赛资格,新浪体育播报”。则将该网络小说中去掉高频:中国,在,的,获得,比赛,资格,新浪,体育,播报。然后去掉低频:米卢。则剩下中频词有:足球队,率领,首次,世界杯,决赛,阶段。则该“足球队,率领,首次,世界杯,决赛,阶段”即为该网络小说的第一类型特征向量。
通过上述过程,可以提取网络小说的第一类型特征向量,以用于与特征比对库中的第一类型特征向量进行。其中特征比对库中存储的第一类型特征向量也是通过上述方法针对已有网络小说而形成。
2)通过比对第一类型特征向量来确定网络小说内容近似度
首先,将待比对网络小说A的第一类型特征向量(tokens)与从网络小说特征库中提取已有网络小说的第一类型特征向量(tokens)进行比对;如果比对的tokens一样,则网络小说A是重复的;如果比对完毕没有一样的,则网络小说A采用Term方法比对是独创的。
优选地,如果该网络小说A与特征比对库中的网络小说都不近似,将该网络小说A的第一类型特征向量增加到标准特征库中,作为新的比对标准特征库内容,以便和后续被比对小说进行比对。
例如,比比对网络小说A为:“米卢率领中国足球队员首次杀入世界杯决赛阶段,搜狐体育播报”。网络小说A去掉高频:中国,搜狐,体育,播报;去掉低频:米卢,杀入;则剩下中频词有:率领,足球队,首次,世界杯,决赛,阶段。因此,待比对网络小说A的第一类型特征向量为“足球队,率领,首次,世界杯,决赛,阶段”,与特征比对库中已有的网络小说“中国足球队在米卢的率领下首次获得世界杯决赛阶段的比赛资格,新浪体育播报”的第一类型特征向量“足球队,率领,首次,世界杯,决赛,阶段”相同。因此,判断该网络小说A是语义是相同的。
为实现更高层面的内容查重,还可以使用基于CSN的方法,如下所述。
4.基于CSN方法的网络小说内容近似度比对
基于CSN的方法,可以对文档关键概念进行提取,用于内容语义结构的比对。关于CSN方法的详细内容,现有文章进行介绍,请参照“基于概念和语义网络的近似网页检测方法”(曹玉娟等,软件学报,2011.22(8):1816-1826)。采用基于CSN的方法,可以发现网络小说中时间空间的映射转换的重复。基于CSN方法的网络小说内容近似度比对方法包括:
1)提取第二类型特征向量
通过对网络小说进行概念抽取,构建语义网络.对网络小说关键概念进行抽取,与其位置信息一起构成网络小说的第二类型特征向量。具体而言,为:对待比对网络小说进行概念抽取,构建语义网络,对该网络小说关键概念进行抽取,与其位置信息一起构成第二类型特征向量。
通过上述过程,可以提取网络小说的第二类型特征向量,以用于与特征比对库中的第二类型特征向量进行。其中特征比对库中存储的第二类型特征向量也是通过上述方法针对已有网络小说而形成。
2)通过比对第二类型特征向量来确定网络小说内容近似度
该比对方法包括:针对网络小说A的第二类型特征向量Va与特征比对库中的网络小说Di的第二类型特征向量VDi,计算Va和VDi的近似度ξ,如果ξ>第一阈值,计算特征向量Va和VDi的距离分布s,如果s<第二阈值,则网络小说A与库中的网络小说VDi近似;否则,如果不近似,从特征比对库中选取下一个网络小说Di+1(如果有)再次进行比对。
优选地,如果该网络小说A与特征比对库中的网络小说都不近似,将其第二类型特征向量Va增加到标准特征库中,作为新的比对标准特征库内容,以便和后续被比对小说进行比对。
本发明针对网络小说内容重复的特点,从简单到复杂,首先确定最有可能的网络小说内容重复形式,然后根据需要,再排除其它可能的网络小说内容重复形式,查重效率高,减少计算资源使用。

Claims (9)

1.一种网络小说内容近似度比对方法,其特征在于,包括:
预处理步骤:对待比对网络小说进行预处理,提取关键词,将关键词进行同义词替换,以形成规范化网络小说;
特征指纹提取步骤:将待比对网络小说中的拆分为多组临近有序词,并对每一组临近有序词进行哈希运算形成的哈希表作为特征指纹;以及
特征指纹比对步骤:将所述特征指纹与特征比对库中存储的现有网络小说的特征指纹相比较,以两者的特征指纹相同的数目或比率来确定待比对网络小说与现有网络小说的近似度。
2.根据权利要求1所述的网络小说内容近似度比对方法,其特征在于,还包括:
第一类型特征向量提取步骤:将待比对网络小说以词条进行分解,去除出现的高频词和低频词,然后按照出现频率进行排序,以形成第一类型特征向量;
第一类型特征向量比对步骤:将所述第一类型特征向量与特征比对库中存储的现有网络小说的第一类型特征向量相比较,以两者的词条相同的数目或比率来确定待比对网络小说与现有网络小说的近似度。
3.根据权利要求1所述的网络小说内容近似度比对方法,其特征在于,还包括:
第二类型特征向量提取步骤:将待比对网络小说进行概念抽取,并与其位置信息一起构成第二类型特征向量;
第二类型特征向量比对步骤:将所述第二类型特征向量与特征比对库中存储的现有网络小说的第二类型特征向量相比较,以两者的近似度来确定待比对网络小说与现有网络小说的近似度。
4.根据权利要求1至3中任意一项所述的网络小说内容近似度比对方法,其特征在于,所述预处理步骤进一步包括:
设定待比对网络小说的关键词;
提取所述关键词的等价关系集合和包含关系集合,所述关键词设定为根关键词,其包含关系集合中的关键词设定为叶子关键词;
替换步骤:在所述待比对网络小说中,用所述关键词替换其等价关系集合和包含关系集合中的全部元素关键词,以形成规范化网络小说。
5.根据权利要求4所述的网络小说内容近似度比对方法,其特征在于,在所述替换步骤中:先对叶子关键词进行替换,然后对根关键词进行替换。
6.根据权利要求1所述的网络小说内容近似度比对方法,其特征在于,进一步包括:如果该待比对网络小说与特征比对库中的网络小说的近似度低于一阈值,则将该待比对网络小说的特征指纹增量加入到该特征比对库中。
7.根据权利要求2所述的网络小说内容近似度比对方法,其特征在于,进一步包括:如果该待比对网络小说与特征比对库中的网络小说的近似度低于一阈值,则将该待比对网络小说的第一类型特征向量加入到该特征比对库中。
8.根据权利要求3所述的网络小说内容近似度比对方法,其特征在于,进一步包括:如果该待比对网络小说与特征比对库中的网络小说的近似度低于一阈值,则将该待比对网络小说的第二类型特征向量加入到该特征比对库中。
9.根据权利要求4所述的网络小说内容近似度比对方法,其特征在于,所述预处理步骤还包括:去除待比对网络小说的非内容信息,包括格式信息和版本信息。
CN2012100113299A 2012-01-13 2012-01-13 一种网络小说内容近似度比对方法 Pending CN103207864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100113299A CN103207864A (zh) 2012-01-13 2012-01-13 一种网络小说内容近似度比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100113299A CN103207864A (zh) 2012-01-13 2012-01-13 一种网络小说内容近似度比对方法

Publications (1)

Publication Number Publication Date
CN103207864A true CN103207864A (zh) 2013-07-17

Family

ID=48755089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100113299A Pending CN103207864A (zh) 2012-01-13 2012-01-13 一种网络小说内容近似度比对方法

Country Status (1)

Country Link
CN (1) CN103207864A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105446954A (zh) * 2015-11-18 2016-03-30 广东省科技基础条件平台中心 一种面向科技大数据的项目查重方法
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
CN105912514A (zh) * 2016-04-28 2016-08-31 吴国华 基于指纹特征的文本复制检测系统及方法
CN106055539A (zh) * 2016-05-27 2016-10-26 中国科学技术信息研究所 姓名消歧的方法和装置
CN106649222A (zh) * 2016-12-13 2017-05-10 浙江网新恒天软件有限公司 基于语义分析与多重Simhash的文本近似重复检测方法
CN107085568A (zh) * 2017-03-29 2017-08-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107562824A (zh) * 2017-08-21 2018-01-09 昆明理工大学 一种文本相似度检测方法
CN108021951A (zh) * 2017-12-29 2018-05-11 北京天融信网络安全技术有限公司 一种文档检测的方法、服务器及计算机可读存储介质
CN108804418A (zh) * 2018-05-21 2018-11-13 浪潮软件集团有限公司 一种基于语义分析的文档查重方法和装置
CN109472310A (zh) * 2018-11-12 2019-03-15 深圳八爪网络科技有限公司 确定两份简历为相同人才的识别方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1492327A (zh) * 2003-09-10 2004-04-28 西安交通大学 一种利用计算机程序检测电子文本剽窃的方法
KR100788440B1 (ko) * 2006-06-29 2007-12-24 중앙대학교 산학협력단 도용 패턴에 기반한 복사 감지시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1492327A (zh) * 2003-09-10 2004-04-28 西安交通大学 一种利用计算机程序检测电子文本剽窃的方法
KR100788440B1 (ko) * 2006-06-29 2007-12-24 중앙대학교 산학협력단 도용 패턴에 기반한 복사 감지시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曹玉娟等: "基于概念和语义网络的近似网页检测算法", 《软件学报》, 15 August 2011 (2011-08-15), pages 1816 - 1826 *
鲍军鹏等: "自然语言文档复制检测研究综述", 《软件学报》, 23 October 2003 (2003-10-23), pages 1753 - 1760 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105446954A (zh) * 2015-11-18 2016-03-30 广东省科技基础条件平台中心 一种面向科技大数据的项目查重方法
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
CN105912514A (zh) * 2016-04-28 2016-08-31 吴国华 基于指纹特征的文本复制检测系统及方法
CN105912514B (zh) * 2016-04-28 2019-03-22 吴国华 基于指纹特征的文本复制检测系统及方法
CN106055539B (zh) * 2016-05-27 2018-12-28 中国科学技术信息研究所 姓名消歧的方法和装置
CN106055539A (zh) * 2016-05-27 2016-10-26 中国科学技术信息研究所 姓名消歧的方法和装置
CN106649222A (zh) * 2016-12-13 2017-05-10 浙江网新恒天软件有限公司 基于语义分析与多重Simhash的文本近似重复检测方法
CN107085568A (zh) * 2017-03-29 2017-08-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107085568B (zh) * 2017-03-29 2022-11-22 腾讯科技(深圳)有限公司 一种文本相似度判别方法及装置
CN107562824A (zh) * 2017-08-21 2018-01-09 昆明理工大学 一种文本相似度检测方法
CN107562824B (zh) * 2017-08-21 2020-10-27 昆明理工大学 一种文本相似度检测方法
CN108021951A (zh) * 2017-12-29 2018-05-11 北京天融信网络安全技术有限公司 一种文档检测的方法、服务器及计算机可读存储介质
CN108804418A (zh) * 2018-05-21 2018-11-13 浪潮软件集团有限公司 一种基于语义分析的文档查重方法和装置
CN108804418B (zh) * 2018-05-21 2022-03-08 浪潮软件股份有限公司 一种基于语义分析的文档查重方法和装置
CN109472310A (zh) * 2018-11-12 2019-03-15 深圳八爪网络科技有限公司 确定两份简历为相同人才的识别方法及装置

Similar Documents

Publication Publication Date Title
CN103207864A (zh) 一种网络小说内容近似度比对方法
Bhagavatula et al. Methods for exploring and mining tables on wikipedia
Bouaziz et al. Short text classification using semantic random forest
CN106095737A (zh) 文档相似度计算方法及相似文档全网检索跟踪方法
CN110543595B (zh) 一种站内搜索系统及方法
CN103838833A (zh) 基于相关词语语义分析的全文检索系统
CN103593418A (zh) 一种面向大数据的分布式主题发现方法及系统
Wu et al. Efficient near-duplicate detection for q&a forum
CN103714118A (zh) 图书交叉阅读方法
CN103559258A (zh) 基于云计算的网页排序方法
Zhang et al. Learning hash codes for efficient content reuse detection
Kumar et al. Near-duplicate web page detection: an efficient approach using clustering, sentence feature and fingerprinting
JP2014085694A (ja) 検索装置、検索プログラムおよび検索方法
Nodarakis et al. Using hadoop for large scale analysis on twitter: A technical report
Gao et al. The Math Retrieval System of ICST for NTCIR-12 MathIR Task.
Haouari et al. bigIR at CLEF 2019: Automatic Verification of Arabic Claims over the Web.
Li et al. A comparison study of clustering algorithms for microblog posts
Zulkifeli et al. Classic term weighting technique for mining web content outliers
Balog et al. NTNU at SemSearch 2011
Zhang et al. An adaptive method for organization name disambiguation with feature reinforcing
Park et al. Searching social media streams on the web
Zhang et al. Research and implementation of keyword extraction algorithm based on professional background knowledge
CN113051907B (zh) 一种新闻内容的查重方法、系统及装置
Mohammadi et al. Multi-reference Cosine: A New Approach to Text Similarity Measurement in Large Collections
Mor et al. Effective presentation of results using ranking & clustering in meta search engine

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130717