CN106844314A - 一种文章的查重方法及装置 - Google Patents

一种文章的查重方法及装置 Download PDF

Info

Publication number
CN106844314A
CN106844314A CN201710092911.5A CN201710092911A CN106844314A CN 106844314 A CN106844314 A CN 106844314A CN 201710092911 A CN201710092911 A CN 201710092911A CN 106844314 A CN106844314 A CN 106844314A
Authority
CN
China
Prior art keywords
article
paragraph
duplicate checking
contrasted
similarity distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710092911.5A
Other languages
English (en)
Other versions
CN106844314B (zh
Inventor
袁玮玮
薛庆元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bodian Zhihe Technology Co ltd
Original Assignee
Beijing Focus Shinkansen Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Focus Shinkansen Information Technology Co Ltd filed Critical Beijing Focus Shinkansen Information Technology Co Ltd
Priority to CN201710092911.5A priority Critical patent/CN106844314B/zh
Publication of CN106844314A publication Critical patent/CN106844314A/zh
Application granted granted Critical
Publication of CN106844314B publication Critical patent/CN106844314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种文章的查重方法及装置,计算待查重文章与每个待对比文章的文章相似距离;根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述数据库中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章;从多个所述待比对文章中,采用文本向量距离算法筛选得到相似文章。解决了现有技术中没有对文章进行查重的方法的问题。

Description

一种文章的查重方法及装置
技术领域
本发明涉及信息处理领域,更具体的说,涉及一种文章的查重方法及装置。
背景技术
在发表文章之前,都需要判断即将发表的文章是抄袭还是原创,即需要对即将发表的文章进行查重。但是现有技术中,还没有对文章进行查重的方法。
因此,亟需一种能够对文章进行查重的方法。
发明内容
有鉴于此,本发明提供一种文章的查重方法及装置,以解决现有技术中没有对文章进行查重的方法的问题。
为解决上述技术问题,本发明采用了如下技术方案:
一种文章的查重方法,包括:
计算待查重文章与每个待对比文章的文章相似距离,其中,每个所述待对比文章预先存储在数据库中;
根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述数据库中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章;
从多个所述待比对文章中,采用文本向量距离算法筛选得到相似文章。
优选地,所述计算待查重文章与每个待对比文章的文章相似距离,包括:
计算所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离,
从计算得到的所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离中,选取数值最小的段落相似距离作为所述待查重文章与每个所述待对比文章的文章相似距离。
优选地,所述根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述数据库中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章,包括:
判断所述数据库中存储的所述待对比文章的数量是否大于所述预设数量;
当判断出所述数据库中存储的所述待对比文章的数量不大于所述预设数量,将所述数据库中存储的所述待对比文章作为所述待比对文章;
当判断出所述数据库中存储的所述待对比文章的数量大于所述预设数量,根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离的数值大小,将多个所述待对比文章进行排序;
筛选出排名前预设数值的多个所述待对比文章,作为多个所述待比对文章。
优选地,计算所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离,包括:
计算所述待查重文章的每个所述自然段落的相似性哈希值Simhash值以及计算每个所述待对比文章的每个所述目标自然段落的Simhash值;
将所述待查重文章的第i个所述自然段落的Simhash值与每个所述待对比文章的每个所述目标自然段落的Simhash值做差,得到所述待查重文章的第i个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离,其中,i=1;
判断是否计算得到所述待查重文章的每个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离;
当判断出未计算得到所述待查重文章的每个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离,使i=i+1,并返回将所述待查重文章的第i个所述自然段落的Simhash值与每个所述待对比文章的每个所述目标自然段落的Simhash值做差,得到所述待查重文章的第i个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离。
优选地,从多个所述待比对文章中,采用文本向量距离算法筛选得到相似文章,包括:
计算所述待查重文章的每个自然段落与每个所述待比对文章的每个目标自然段落的段落相似距离;
选取段落相似距离小于预设值的所述待查重文章中的所述自然段落和每个所述待比对文章中的所述目标自然段落作为所述待查重文章与每个所述待比对文章的相似段落;
计算所述待查重文章与每个所述待比对文章的每个所述相似段落之间的段落相似值;
从计算得到的所述待查重文章与每个所述待比对文章的每个所述相似段落之间的段落相似值中选取最小的段落相似值,作为所述待查重文章与每个所述待比对文章的文章相似值;
将与所述待查重文章的文章相似值大于指定数值的所述待比对文章作为相似文章。
一种文章的查重装置,包括:
第一计算单元,用于计算待查重文章与每个待对比文章的文章相似距离,其中,每个所述待对比文章预先存储在数据库中;
第一筛选单元,用于根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述数据库中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章;
第二筛选单元,用于从多个所述待比对文章中,采用文本向量距离算法筛选得到相似文章。
优选地,所述第一计算单元包括:
第二计算单元,用于计算所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离,
第一选取单元,用于从计算得到的所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离中,选取数值最小的段落相似距离作为所述待查重文章与每个所述待对比文章的文章相似距离。
优选地,所述第一筛选单元包括:
第一判断单元,用于判断所述数据库中存储的所述待对比文章的数量是否大于所述预设数量;
第二选取单元,用于当所述第一判断单元判断出所述数据库中存储的所述待对比文章的数量不大于所述预设数量,将所述数据库中存储的所述待对比文章作为所述待比对文章;
排序单元,用于当所述第一判断单元判断出所述数据库中存储的所述待对比文章的数量大于所述预设数量,根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离的数值大小,将多个所述待对比文章进行排序;
第三筛选单元,用于筛选出排名前预设数值的多个所述待对比文章,作为多个所述待比对文章。
优选地,所述第二计算单元包括:
第三计算单元,用于计算所述待查重文章的每个所述自然段落的相似性哈希值Simhash值以及计算每个所述待对比文章的每个所述目标自然段落的Simhash值;
做差单元,用于将所述待查重文章的第i个所述自然段落的Simhash值与每个所述待对比文章的每个所述目标自然段落的Simhash值做差,得到所述待查重文章的第i个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离,其中,i=1;
第二判断单元,用于判断是否计算得到所述待查重文章的每个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离;
控制单元,用于当所述第二判断单元判断出未计算得到所述待查重文章的每个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离,使i=i+1;
所述做差单元,还用于所述控制单元使i=i+1后,将所述待查重文章的第i个所述自然段落的Simhash值与每个所述待对比文章的每个所述目标自然段落的Simhash值做差,得到所述待查重文章的第i个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离。
优选地,所述第二筛选单元包括:
第四计算单元,用于计算所述待查重文章的每个自然段落与每个所述待比对文章的每个目标自然段落的段落相似距离;
第三选取单元,用于选取段落相似距离小于预设值的所述待查重文章中的所述自然段落和每个所述待比对文章中的所述目标自然段落作为所述待查重文章与每个所述待比对文章的相似段落;
第五计算单元,用于计算所述待查重文章与每个所述待比对文章的每个所述相似段落之间的段落相似值;
第四选取单元,用于从计算得到的所述待查重文章与每个所述待比对文章的每个所述相似段落之间的段落相似值中选取最小的段落相似值,作为所述待查重文章与每个所述待比对文章的文章相似值;
第五选取单元,用于将与所述待查重文章的文章相似值大于指定数值的所述待比对文章作为相似文章。
相较于现有技术,本发明具有以下有益效果:
本发明提供了一种文章的查重方法及装置,计算待查重文章与每个待对比文章的文章相似距离;根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述数据库中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章;从多个所述待比对文章中,采用文本向量距离算法筛选得到相似文章。解决了现有技术中没有对文章进行查重的方法的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种文章的查重方法的方法流程图;
图2为本发明提供的另一种文章的查重方法的方法流程图;
图3为本发明提供的第三种文章的查重方法的方法流程图;
图4为本发明提供的第四种文章的查重方法的方法流程图;
图5为本发明提供的一种文章的查重装置的结构示意图;
图6为本发明提供的另一种文章的查重装置的结构示意图;
图7为本发明提供的第三种文章的查重装置的结构示意图;
图8为本发明提供的第四种文章的查重装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种文章的查重方法,参照图1,包括:
S101、计算待查重文章与每个待对比文章的文章相似距离;
其中,每个待对比文章预先存储在数据库中。其中,文章相似距离是指待查重文章与待对比文章的最小的段落相似距离。段落相似距离是指两个段落间的相似性哈希值Simhash距离。
S102、根据计算得到的待查重文章与每个待对比文章的文章相似距离以及数据库中存储的待对比文章的数量,筛选出预设数量的多个待比对文章;
其中,数据库中存储的待对比文章的数量为多个,筛选出预设数量的多个待比对文章是进行粗筛选的过程,执行粗筛选能够缩短筛选得到相似文章的时间。
S103、从多个待比对文章中,采用文本向量距离算法筛选得到相似文章。
其中,从多个待比对文章中,采用文本向量距离算法筛选得到相似文章,是进行细筛选的过程。
本实施例提供了一种文章的查重方法,计算待查重文章与每个待对比文章的文章相似距离;根据计算得到的待查重文章与每个待对比文章的文章相似距离以及数据库中存储的待对比文章的数量,筛选出预设数量的多个待比对文章;从多个待比对文章中,采用文本向量距离算法筛选得到相似文章。解决了现有技术中没有对文章进行查重的方法的问题。
可选的,本发明的另一实施例中,参照图2,步骤S101包括:
S201、计算待查重文章的每个自然段落的Simhash值以及计算每个待对比文章的每个目标自然段落的Simhash值;
其中,Simhash值是通过Simhash算法计算得到,Simhash算法是将一段文本转化成一个数字序列。其中,文本指的是本发明中的自然段落或者是目标自然段落,数字序列指本发明中的Simhash值。
S202、将待查重文章的第i个自然段落的Simhash值与每个待对比文章的每个目标自然段落的Simhash值做差,得到待查重文章的第i个自然段落与每个待对比文章的每个目标自然段落的段落相似距离;
其中,i=1,具体的,当i=1时,将待查重文章的第一个自然段落的Simhash值与每个待对比文章的每个目标自然段落的Simhash值做差,得到待查重文章的第一个自然段落与每个待对比文章的每个目标自然段落的段落相似距离。
具体的,取数据库中的一个待对比文章,将待查重文章的第一个自然段落的Simhash值与被选取的待对比文章的第一个目标自然段落的Simhash值做差,得到待查重文章的第一个自然段落与被选取的待对比文章的第一个目标自然段落的段落相似距离。
按照这种方法,计算得到待查重文章的第一个自然段落与每个待对比文章的每个目标自然段落的段落相似距离。
S203、判断是否计算得到待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离;
具体的,待查重文章的自然段落的数量不定,但是一般情况下,待查重文章的自然段落均大于一,当执行一次步骤S202后,执行步骤S203时,不会计算得到待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离。
S204、使i=i+1;
具体的,当判断出未计算得到待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离,使i=i+1,并返回步骤S202,直到计算得到待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离时为止。
具体的,当i=1时,使i=i+1,即i=2,此时,将待查重文章的第二个自然段落的Simhash值与每个待对比文章的每个目标自然段落的Simhash值做差,得到待查重文章的第二个自然段落与每个待对比文章的每个目标自然段落的段落相似距离。
S205、从计算得到的待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离中,选取数值最小的段落相似距离作为待查重文章与每个待对比文章的文章相似距离。
具体的,待查重文章的每个自然段落与待对比文章的每个目标自然段落均有一个段落相似距离,从得到的待查重文章与待对比文章的多个段落相似距离中,选取一个数值最小的段落相似距离作为待查重文章与待对比文章的文章相似距离。
本实施例中,通过计算得到待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离,进而将待查重文章与待对比文章的数值最小的段落相似距离作为待查重文章与待对比文章的文章相似距离。
可选的,本发明的另一实施例中,参照图3,步骤S102包括:
S301、判断数据库中存储的待对比文章的数量是否大于预设数量;
其中,预设数值是技术人员根据文章查重的时间以及效率进行设定的。
S302、将数据库中存储的待对比文章作为待比对文章;
具体的,当判断出数据库中存储的待对比文章的数量不大于预设数量,将数据库中存储的待对比文章作为待比对文章。
其中,当数据库中存储的待对比文章的数量不大于预设数量时,说明数据库中存储的待对比文章的数量较小,后期可以对每个待对比文章采用文本向量距离算法进行分析。
S303、根据计算得到的待查重文章与每个待对比文章的文章相似距离的数值大小,将多个待对比文章进行排序;
其中,当判断出数据库中存储的待对比文章的数量大于预设数量,根据计算得到的待查重文章与每个待对比文章的文章相似距离的数值大小,将多个待对比文章进行排序。
具体的,当数据库中存储的待对比文章的数量大于预设数量时,说明数据库中存储的待对比文章的数量较大,当待对比文章的数量较大时,后期采用文本向量距离算法分析时,需要耗费较长的时间,此时需要从待对比文章中筛选出预设数值的待对比文章作为待比对文章,后期对待比对文章采用文本向量距离算法分析。其中,预设数值技术人员根据文章查重的时间以及效率进行设定的。
具体的,在从待对比文章中筛选出预设数值的待对比文章作为待比对文章之前,需要对待对比文章进行排序。
其中,排序的方法是,根据计算得到的待查重文章与每个待对比文章的文章相似距离的数值大小,将多个待对比文章进行排序。
在排序时,按照文章相似距离的数值由大到小的顺序,将待对比文章进行排序,其中,将待对比文章进行排序,是将待对比文章的文章账号ID排序。
其中,在排序过程中可能会出现至少两个文章相似距离的数值相同的情况,例如两个文章相似距离的数值均为48,为了能够判断哪个待对比文章排在前边,哪个待对比文章排在后边。现将数值相同的文章相似距离对应的待对比文章按照待对比文章与待查重文章的相似段落数量进行排序。
其中,相似段落数量是指相似段落的数量,其中,段落相似距离小于预设值的待查重文章中的自然段落和每个待比对文章中的目标自然段落作为待查重文章与每个待比对文章的相似段落。
当两个或多个待对比文章与待查重文章的文章相似距离相同时,将这两个或多个待对比文章按照待对比文章与待查重文章的相似段落数量进行排序,其中,相似段落数量较大的待对比文章排在前边,相似段落数量较小的待对比文章排在后边。
其中,将待对比文章按照待对比文章与待查重文章的相似段落数量进行排序时,可能也会出现相似段落数量相同的情况,此时,还是无法判断与待查重文章的文章相似距离、相似段落数量均相同的待对比文章的排序顺序。
此时,将与待查重文章的文章相似距离、相似段落数量均相同的待对比文章的所有目标自然段落组成一个目标自然段落,以及将待查重文章的所有自然段落组成一个自然段落,计算所有目标自然段落组成一个目标自然段落的待对比文章与所有自然段落组成一个自然段落的待查重文章的段落相似值。
其中,段落相似值是指段落A与段落B中出现的相同的关键词的数量与段落A、段落B中所有关键词的数量的比值。
在确定段落A与段落B中出现的相同的关键词的数量以及段落A、段落B中所有关键词的数量之前,需要将段落A与段落B中的停用词去除,其中,停用词包括的、了、啊等无意义的词。
段落A与段落B中出现的相同的关键词是指一个关键词在段落A与段落B中均出现,例如,只有苹果这个关键词在段落A与段落B中均出现时,则段落A与段落B中出现的相同的关键词的数量为1,当除了苹果这个关键词还有桃子这个关键词出现时,段落A与段落B中出现的相同的关键词的数量为2。
段落A、段落B中所有关键词的数量是指,段落A中所有关键词的数量与段落B中除去与段落A相同的关键词的数量之和。
计算得到待计算段落相似值的待对比文章与待查重文章的段落相似值后,将待对比文章按照其与待查重文章的段落相似值的数值的大小进行排序。其中,与待查重文章的段落相似值较大的待对比文章排在前边,与待查重文章的段落相似值较小的待对比文章排在后边。
S304、筛选出排名前预设数值的多个待对比文章,作为多个待比对文章。
其中,预设数值是技术人员根据文章查重的时间以及效率进行设定的。
本实施例中,当判断出数据库中存储的待对比文章的数量不大于预设数量,将数据库中存储的待对比文章作为待比对文章,当判断出数据库中存储的待对比文章的数量大于预设数量,筛选出排名前预设数值的多个待对比文章,作为多个待比对文章。进而能够保证采用文本向量距离算法分析时,待比对文章的数量不会过多。
可选的,本发明的另一实施例中,参照图4,步骤S103包括:
S401、计算待查重文章的每个自然段落与每个待比对文章的每个目标自然段落的段落相似距离;
其中,计算段落相似距离的方法见上述实施例中的内容,在此不再赘述。
S402、选取段落相似距离小于预设值的待查重文章中的自然段落和每个待比对文章中的目标自然段落作为待查重文章与每个待比对文章的相似段落;
其中,待查重文章与每个待比对文章的相似段落的数量可以为一个,也可以为多个。
S403、计算待查重文章与每个待比对文章的每个相似段落之间的段落相似值;
其中,段落相似值的计算方法见上述实施例中的内容,在此不再赘述。
S404、从计算得到的待查重文章与每个待比对文章的每个相似段落之间的段落相似值中选取最小的段落相似值,作为待查重文章与每个待比对文章的文章相似值;
其中,当待查重文章与待比对文章的相似段落为一个时,相似段落之间的段落相似值即为待查重文章与待比对文章的文章相似值;
当待查重文章与待比对文章的相似段落为多个时,相似段落之间的段落相似值中,最小的段落相似值即为待查重文章与待比对文章的文章相似值。
S405、将与待查重文章的文章相似值大于指定数值的待比对文章作为相似文章。
其中,指定数值是技术人员根据查重所需时间以及查重效率进行设定的。与待查重文章的文章相似值大于指定数值,说明与待查重文章的文章相似值大于指定数值的待比对文章与待查重文章的相似度较高,即为相似文章。
本实施例中,通过计算待查重文章与每个待比对文章的文章相似值,进而将与待查重文章的文章相似值大于指定数值的待比对文章作为相似文章。
可选的,本发明的另一实施例中提供了一种文章的查重装置,参照图5,包括:
第一计算单元101,用于计算待查重文章与每个待对比文章的文章相似距离,其中,每个待对比文章预先存储在数据库中;
第一筛选单元102,用于根据计算得到的待查重文章与每个待对比文章的文章相似距离以及数据库中存储的待对比文章的数量,筛选出预设数量的多个待比对文章;
第二筛选单元103,用于从多个待比对文章中,采用文本向量距离算法筛选得到相似文章。
本实施例提供了一种文章的查重装置,计算待查重文章与每个待对比文章的文章相似距离;根据计算得到的待查重文章与每个待对比文章的文章相似距离以及数据库中存储的待对比文章的数量,筛选出预设数量的多个待比对文章;从多个待比对文章中,采用文本向量距离算法筛选得到相似文章。解决了现有技术中没有对文章进行查重的方法的问题。
需要说明的是,本实施例中各个单元的工作过程,请参照图1对应的实施例中的内容,在此不再赘述。
可选的,本发明的另一实施例中,参照图6,第一计算单元101包括:
第二计算单元1011,用于计算待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离,
第一选取单元1012,用于从计算得到的待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离中,选取数值最小的段落相似距离作为待查重文章与每个待对比文章的文章相似距离。
其中,第二计算单元1011包括:
第三计算单元10111,用于计算待查重文章的每个自然段落的相似性哈希值Simhash值以及计算每个待对比文章的每个目标自然段落的Simhash值;
做差单元10112,用于将待查重文章的第i个自然段落的Simhash值与每个待对比文章的每个目标自然段落的Simhash值做差,得到待查重文章的第i个自然段落与每个待对比文章的每个目标自然段落的段落相似距离,其中,i=1;
第二判断单元10113,用于判断是否计算得到待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离;
控制单元10114,用于当第二判断单元10113判断出未计算得到待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离,使i=i+1;
做差单元10112,还用于控制单元10114使i=i+1后,将待查重文章的第i个自然段落的Simhash值与每个待对比文章的每个目标自然段落的Simhash值做差,得到待查重文章的第i个自然段落与每个待对比文章的每个目标自然段落的段落相似距离。
本实施例中,通过计算得到待查重文章的每个自然段落与每个待对比文章的每个目标自然段落的段落相似距离,进而将待查重文章与待对比文章的数值最小的段落相似距离作为待查重文章与待对比文章的文章相似距离。
需要说明的是,本实施例中各个单元的工作过程,请参照图2对应的实施例中的内容,在此不再赘述。
可选的,本发明的另一实施例中,参照图7,第一筛选单元102包括:
第一判断单元1021,用于判断数据库中存储的待对比文章的数量是否大于预设数量;
第二选取单元1022,用于当第一判断单元1021判断出数据库中存储的待对比文章的数量不大于预设数量,将数据库中存储的待对比文章作为待比对文章;
排序单元1023,用于当第一判断单元1021判断出数据库中存储的待对比文章的数量大于预设数量,根据计算得到的待查重文章与每个待对比文章的文章相似距离的数值大小,将多个待对比文章进行排序;
第三筛选单元1024,用于筛选出排名前预设数值的多个待对比文章,作为多个待比对文章。
本实施例中,当判断出数据库中存储的待对比文章的数量不大于预设数量,将数据库中存储的待对比文章作为待比对文章,当判断出数据库中存储的待对比文章的数量大于预设数量,筛选出排名前预设数值的多个待对比文章,作为多个待比对文章。进而能够保证采用文本向量距离算法分析时,待比对文章的数量不会过多。
需要说明的是,本实施例中各个单元的工作过程,请参照图3对应的实施例中的内容,在此不再赘述。
可选的,本发明的另一实施例中,参照图8,第二筛选单元103包括:
第四计算单元1031,用于计算待查重文章的每个自然段落与每个待比对文章的每个目标自然段落的段落相似距离;
第三选取单元1032,用于选取段落相似距离小于预设值的待查重文章中的自然段落和每个待比对文章中的目标自然段落作为待查重文章与每个待比对文章的相似段落;
第五计算单元1033,用于计算待查重文章与每个待比对文章的每个相似段落之间的段落相似值;
第四选取单元1034,用于从计算得到的待查重文章与每个待比对文章的每个相似段落之间的段落相似值中选取最小的段落相似值,作为待查重文章与每个待比对文章的文章相似值;
第五选取单元1035,用于将与待查重文章的文章相似值大于指定数值的待比对文章作为相似文章。
本实施例中,通过计算待查重文章与每个待比对文章的文章相似值,进而将与待查重文章的文章相似值大于指定数值的待比对文章作为相似文章。
需要说明的是,本实施例中各个单元的工作过程,请参照图4对应的实施例中的内容,在此不再赘述。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种文章的查重方法,其特征在于,包括:
计算待查重文章与每个待对比文章的文章相似距离,其中,每个所述待对比文章预先存储在数据库中;
根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述数据库中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章;
从多个所述待比对文章中,采用文本向量距离算法筛选得到相似文章。
2.根据权利要求1所述的查重方法,其特征在于,所述计算待查重文章与每个待对比文章的文章相似距离,包括:
计算所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离,
从计算得到的所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离中,选取数值最小的段落相似距离作为所述待查重文章与每个所述待对比文章的文章相似距离。
3.根据权利要求1所述的查重方法,其特征在于,所述根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述数据库中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章,包括:
判断所述数据库中存储的所述待对比文章的数量是否大于所述预设数量;
当判断出所述数据库中存储的所述待对比文章的数量不大于所述预设数量,将所述数据库中存储的所述待对比文章作为所述待比对文章;
当判断出所述数据库中存储的所述待对比文章的数量大于所述预设数量,根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离的数值大小,将多个所述待对比文章进行排序;
筛选出排名前预设数值的多个所述待对比文章,作为多个所述待比对文章。
4.根据权利要求2所述的查重方法,其特征在于,计算所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离,包括:
计算所述待查重文章的每个所述自然段落的相似性哈希值Simhash值以及计算每个所述待对比文章的每个所述目标自然段落的Simhash值;
将所述待查重文章的第i个所述自然段落的Simhash值与每个所述待对比文章的每个所述目标自然段落的Simhash值做差,得到所述待查重文章的第i个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离,其中,i=1;
判断是否计算得到所述待查重文章的每个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离;
当判断出未计算得到所述待查重文章的每个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离,使i=i+1,并返回将所述待查重文章的第i个所述自然段落的Simhash值与每个所述待对比文章的每个所述目标自然段落的Simhash值做差,得到所述待查重文章的第i个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离。
5.根据权利要求1所述的查重方法,其特征在于,从多个所述待比对文章中,采用文本向量距离算法筛选得到相似文章,包括:
计算所述待查重文章的每个自然段落与每个所述待比对文章的每个目标自然段落的段落相似距离;
选取段落相似距离小于预设值的所述待查重文章中的所述自然段落和每个所述待比对文章中的所述目标自然段落作为所述待查重文章与每个所述待比对文章的相似段落;
计算所述待查重文章与每个所述待比对文章的每个所述相似段落之间的段落相似值;
从计算得到的所述待查重文章与每个所述待比对文章的每个所述相似段落之间的段落相似值中选取最小的段落相似值,作为所述待查重文章与每个所述待比对文章的文章相似值;
将与所述待查重文章的文章相似值大于指定数值的所述待比对文章作为相似文章。
6.一种文章的查重装置,其特征在于,包括:
第一计算单元,用于计算待查重文章与每个待对比文章的文章相似距离,其中,每个所述待对比文章预先存储在数据库中;
第一筛选单元,用于根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述数据库中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章;
第二筛选单元,用于从多个所述待比对文章中,采用文本向量距离算法筛选得到相似文章。
7.根据权利要求6所述的查重装置,其特征在于,所述第一计算单元包括:
第二计算单元,用于计算所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离,
第一选取单元,用于从计算得到的所述待查重文章的每个自然段落与每个所述待对比文章的每个目标自然段落的段落相似距离中,选取数值最小的段落相似距离作为所述待查重文章与每个所述待对比文章的文章相似距离。
8.根据权利要求6所述的查重装置,其特征在于,所述第一筛选单元包括:
第一判断单元,用于判断所述数据库中存储的所述待对比文章的数量是否大于所述预设数量;
第二选取单元,用于当所述第一判断单元判断出所述数据库中存储的所述待对比文章的数量不大于所述预设数量,将所述数据库中存储的所述待对比文章作为所述待比对文章;
排序单元,用于当所述第一判断单元判断出所述数据库中存储的所述待对比文章的数量大于所述预设数量,根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离的数值大小,将多个所述待对比文章进行排序;
第三筛选单元,用于筛选出排名前预设数值的多个所述待对比文章,作为多个所述待比对文章。
9.根据权利要求7所述的查重装置,其特征在于,所述第二计算单元包括:
第三计算单元,用于计算所述待查重文章的每个所述自然段落的相似性哈希值Simhash值以及计算每个所述待对比文章的每个所述目标自然段落的Simhash值;
做差单元,用于将所述待查重文章的第i个所述自然段落的Simhash值与每个所述待对比文章的每个所述目标自然段落的Simhash值做差,得到所述待查重文章的第i个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离,其中,i=1;
第二判断单元,用于判断是否计算得到所述待查重文章的每个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离;
控制单元,用于当所述第二判断单元判断出未计算得到所述待查重文章的每个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离,使i=i+1;
所述做差单元,还用于所述控制单元使i=i+1后,将所述待查重文章的第i个所述自然段落的Simhash值与每个所述待对比文章的每个所述目标自然段落的Simhash值做差,得到所述待查重文章的第i个所述自然段落与每个所述待对比文章的每个所述目标自然段落的段落相似距离。
10.根据权利要求6所述的查重装置,其特征在于,所述第二筛选单元包括:
第四计算单元,用于计算所述待查重文章的每个自然段落与每个所述待比对文章的每个目标自然段落的段落相似距离;
第三选取单元,用于选取段落相似距离小于预设值的所述待查重文章中的所述自然段落和每个所述待比对文章中的所述目标自然段落作为所述待查重文章与每个所述待比对文章的相似段落;
第五计算单元,用于计算所述待查重文章与每个所述待比对文章的每个所述相似段落之间的段落相似值;
第四选取单元,用于从计算得到的所述待查重文章与每个所述待比对文章的每个所述相似段落之间的段落相似值中选取最小的段落相似值,作为所述待查重文章与每个所述待比对文章的文章相似值;
第五选取单元,用于将与所述待查重文章的文章相似值大于指定数值的所述待比对文章作为相似文章。
CN201710092911.5A 2017-02-21 2017-02-21 一种文章的查重方法及装置 Active CN106844314B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710092911.5A CN106844314B (zh) 2017-02-21 2017-02-21 一种文章的查重方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710092911.5A CN106844314B (zh) 2017-02-21 2017-02-21 一种文章的查重方法及装置

Publications (2)

Publication Number Publication Date
CN106844314A true CN106844314A (zh) 2017-06-13
CN106844314B CN106844314B (zh) 2019-10-18

Family

ID=59133222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710092911.5A Active CN106844314B (zh) 2017-02-21 2017-02-21 一种文章的查重方法及装置

Country Status (1)

Country Link
CN (1) CN106844314B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009599A (zh) * 2017-12-27 2018-05-08 福建中金在线信息科技有限公司 一种原创文档判断方法、装置、电子设备及存储介质
CN108021951A (zh) * 2017-12-29 2018-05-11 北京天融信网络安全技术有限公司 一种文档检测的方法、服务器及计算机可读存储介质
CN108846031A (zh) * 2018-05-28 2018-11-20 同方知网数字出版技术股份有限公司 一种面向电力行业的项目相似性对比方法
CN108984702A (zh) * 2018-07-06 2018-12-11 深圳市卓帆技术有限公司 试题比对方法及系统
CN109189824A (zh) * 2018-08-10 2019-01-11 阿里巴巴集团控股有限公司 一种检索相似文章的方法及装置
CN109255018A (zh) * 2018-08-31 2019-01-22 沈文策 一种识别相似文章的方法和装置
CN110019642A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN110162752A (zh) * 2019-05-13 2019-08-23 百度在线网络技术(北京)有限公司 文章判重处理方法、装置及电子设备
CN110781272A (zh) * 2019-09-10 2020-02-11 杭州云深科技有限公司 一种文本匹配方法和装置、存储介质
CN109359183B (zh) * 2018-10-11 2021-04-23 南京中孚信息技术有限公司 文本信息的查重方法、装置及电子设备
CN113535965A (zh) * 2021-09-16 2021-10-22 杭州费尔斯通科技有限公司 一种文本大规模分类的方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009048149A1 (ja) * 2007-10-11 2009-04-16 Nec Corporation 電子文書の同等判定システムおよび同等判定方法
CN102156689A (zh) * 2011-03-31 2011-08-17 百度在线网络技术(北京)有限公司 文档检测方法及装置
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法
CN104809256A (zh) * 2015-05-22 2015-07-29 数据堂(北京)科技股份有限公司 一种数据去重方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009048149A1 (ja) * 2007-10-11 2009-04-16 Nec Corporation 電子文書の同等判定システムおよび同等判定方法
CN102156689A (zh) * 2011-03-31 2011-08-17 百度在线网络技术(北京)有限公司 文档检测方法及装置
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法
CN104809256A (zh) * 2015-05-22 2015-07-29 数据堂(北京)科技股份有限公司 一种数据去重方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈露 等: "基于语义指纹和LCS的文本去重方法", 《软件》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019642A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN108009599A (zh) * 2017-12-27 2018-05-08 福建中金在线信息科技有限公司 一种原创文档判断方法、装置、电子设备及存储介质
CN108021951A (zh) * 2017-12-29 2018-05-11 北京天融信网络安全技术有限公司 一种文档检测的方法、服务器及计算机可读存储介质
CN108846031A (zh) * 2018-05-28 2018-11-20 同方知网数字出版技术股份有限公司 一种面向电力行业的项目相似性对比方法
CN108984702A (zh) * 2018-07-06 2018-12-11 深圳市卓帆技术有限公司 试题比对方法及系统
CN109189824A (zh) * 2018-08-10 2019-01-11 阿里巴巴集团控股有限公司 一种检索相似文章的方法及装置
CN109189824B (zh) * 2018-08-10 2022-04-26 创新先进技术有限公司 一种检索相似文章的方法及装置
CN109255018A (zh) * 2018-08-31 2019-01-22 沈文策 一种识别相似文章的方法和装置
CN109359183B (zh) * 2018-10-11 2021-04-23 南京中孚信息技术有限公司 文本信息的查重方法、装置及电子设备
CN110162752A (zh) * 2019-05-13 2019-08-23 百度在线网络技术(北京)有限公司 文章判重处理方法、装置及电子设备
CN110781272A (zh) * 2019-09-10 2020-02-11 杭州云深科技有限公司 一种文本匹配方法和装置、存储介质
CN113535965A (zh) * 2021-09-16 2021-10-22 杭州费尔斯通科技有限公司 一种文本大规模分类的方法和系统

Also Published As

Publication number Publication date
CN106844314B (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN106844314A (zh) 一种文章的查重方法及装置
CN103440335B (zh) 视频推荐方法及装置
CN106469187B (zh) 关键词的提取方法及装置
CN106598949B (zh) 一种词语对文本贡献度的确定方法及装置
CN106372977B (zh) 一种虚拟账户的处理方法和设备
CN107807982A (zh) 一种异构数据库的一致性校验方法及装置
CN104462554B (zh) 问答页面相关问题推荐方法和装置
CN112074818A (zh) 用于能够在区块链网络中访问过去的交易的方法及节点
CN106528755A (zh) 热点话题的生成方法及装置
CN105589847B (zh) 带权重的文章标识方法和装置
CN104778159B (zh) 一种基于词权重进行分词的方法和装置
CN104303176A (zh) 查询处理
CN110287361A (zh) 一种人物图片筛选方法及装置
CN110019806A (zh) 一种文档聚类方法及设备
CN108228634A (zh) 一种数据处理方法及装置
CN103530392B (zh) 确定抓取流量的方法及设备
CN106569734B (zh) 数据洗牌时内存溢出的修复方法及装置
CN106649333A (zh) 字段顺序一致性检测方法和装置
CN105786938A (zh) 一种对大数据进行处理的方法和装置
CN104036281B (zh) 一种图片的匹配方法、搜索方法及其装置
CN107085603A (zh) 一种数据处理方法及装置
JP6934662B2 (ja) 化合物設計装置と化合物設計方法及び化合物設計プログラム
JP2007257319A (ja) ファイル管理プログラム、ファイル管理装置およびファイル管理方法
CN103544278B (zh) 确定网站抓取流量配额的方法及设备
CN106570035B (zh) 数据库授权的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231113

Address after: 901-1, 9th Floor, Building 3, No. 2 Academy of Sciences South Road, Haidian District, Beijing, 100080

Patentee after: Beijing Bodian Zhihe Technology Co.,Ltd.

Address before: 20th floor, Building C, No. 2, Science Academy South Road, Haidian District, Beijing, 100090

Patentee before: BEIJING JIAODIAN XINGANXIAN INFORMATION TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right