CN111737966A - 文档重复度检测方法、装置、设备和可读存储介质 - Google Patents

文档重复度检测方法、装置、设备和可读存储介质 Download PDF

Info

Publication number
CN111737966A
CN111737966A CN202010530790.XA CN202010530790A CN111737966A CN 111737966 A CN111737966 A CN 111737966A CN 202010530790 A CN202010530790 A CN 202010530790A CN 111737966 A CN111737966 A CN 111737966A
Authority
CN
China
Prior art keywords
digital signature
document
similarity
detected
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010530790.XA
Other languages
English (en)
Other versions
CN111737966B (zh
Inventor
于一笑
杨力
肖施施
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010530790.XA priority Critical patent/CN111737966B/zh
Publication of CN111737966A publication Critical patent/CN111737966A/zh
Application granted granted Critical
Publication of CN111737966B publication Critical patent/CN111737966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本申请实施例公开了一种文档重复度检测方法、装置、设备和可读存储介质,涉及人工智能技术领域。具体的,本申请涉及一种在知识产品中检测文档重复度的方法。具体实现方案为:采用数字签名算法对待检测文档进行运算,得到所述待检测文档的数字签名;将所述数字签名在正版签名库中进行匹配,得到匹配结果;将所述待检测文档进行网络搜索,得到所述待检测文档的搜索结果;根据所述匹配结果和所述搜索结果,对所述待检测文档进行重复度检测。本申请实施例可以提高文档重复度的检测精度。

Description

文档重复度检测方法、装置、设备和可读存储介质
技术领域
本申请涉及计算机技术,尤其涉及人工智能技术领域。具体的,本申请涉及一种在知识产品中检测文档重复度的方法。
背景技术
随着互联网技术的飞速发展,网络上出现了大量的抄袭他人作品的盗版文档,需要从源头检测盗版文档并杜绝盗版文档的上传。
目前,盗版文档的检测手段为:对比盗版文档和正版文档之间相同的部分,进行重复度检测。这种检测手段的准确率较低,不能有效地抵制盗版文档。
发明内容
本申请实施例提供了一种文档重复度检测方法、装置、设备和可读存储介质,以检测文档的重复度。
第一方面,本申请实施例提供了一种文档重复度检测方法,包括:
采用数字签名算法对待检测文档进行运算,得到所述待检测文档的数字签名;
将所述数字签名在正版签名库中进行匹配,得到匹配结果;
将所述待检测文档进行网络搜索,得到所述待检测文档的搜索结果;
根据所述匹配结果和所述搜索结果,对所述待检测文档进行重复度检测。
第二方面,本申请实施例还提供了一种文档重复度检测装置,包括:
签名运算模块,用于采用数字签名算法对待检测文档进行运算,得到所述待检测文档的数字签名;
匹配模块,用于将所述数字签名在正版签名库中进行匹配,得到匹配结果;
网络搜索模块,用于将所述待检测文档进行网络搜索,得到所述待检测文档的搜索结果;
检测模块,用于根据所述匹配结果和所述搜索结果,对所述待检测文档进行重复度检测。
第三方面,本申请实施例提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行任一实施例所提供的一种文档重复度检测方法。
第四方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行任一实施例所提供的一种文档重复度检测方法。
根据本申请的技术可以提高文档重复度的检测精度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例中的第一种文档重复度检测方法的流程图;
图2是本申请实施例中的第二种文档重复度检测方法的流程图;
图3是本申请实施例中的第三种文档重复度检测方法的流程图;
图4是本申请实施例中的文档重复度检测装置的结构图;
图5是本申请实施例中的电子设备的结构图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
根据本申请的实施例,图1是本申请实施例中的第一种文档重复度检测方法的流程图,本申请实施例适用于检测文档是否重复的情况。该方法通过文档重复度检测装置执行,该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图1所示的文档重复度检测方法,包括:
S110、采用数字签名算法对待检测文档进行运算,得到待检测文档的数字签名。
本实施例中,待检测文档可以是用户上传的任一格式文档,如PDF格式或者WORD格式。待检测文档包括多个字符,本实施例旨在检测待检测文档中的字符是否重复。
为了提炼待检测文档的特征以便于重复度检测,采用数字签名算法对待检测文档中的字符进行运算,得到待检测文档的数字签名。其中,数字签名是一个带有密钥的消息摘要算法,用于验证数据完整性、认证数据来源和抗否认。
可选的,数字签名算法包括但不限于RSA加密算法和DSA(Digital signatureAlgorithm,数字签名标准算法)。
优选的,采用simhash(字符串签名算法)对待检测文档进行运算。签名的目标是:相同文档的simhash签名值相同;相似文档的simhash签名值的汉明码距离小于一定阈值,这是simhash特有的性质。采用simhas h算法把待检测文档中的字符串变成01串,两个相差只有一个字符的文本串:“你妈妈喊你回家吃饭哦,回家罗回家罗”和“你妈妈叫你回家吃饭啦,回家罗回家罗”通过simhash计算结果分别为:1000010010101101111111100000101011010001001111100001001011001011和1000010010101101011111100000101011010001001111100001101010001011。
S120、将数字签名在正版签名库中进行匹配,得到匹配结果。
预先采用数字签名算法分别对多个正版文档进行运算,得到每个正版文档的数字签名,并将每个正版文档的数字签名存储至正版签名库中。
具体的,可以将待检测文档的数字签名与每个正版文档的数字签名逐一进行相似度计算,得到相似度。
在一实施方式中,如果待检测文档的数字签名与一正版文档的数字签名一致,则将该正版文档和相似度100%作为匹配结果。
S130、将待检测文档进行网络搜索,得到待检测文档的搜索结果。
具体的,可以提取待检测文档中的关键词、句子或段落,采用搜索引擎以关键词、句子或段落作为检索词以网络大数据作为数据源进行搜索,得到搜索结果。例如,以待检测文档的标题作为检索词进行网络搜索。
可选的,为了提高搜索结果的精度,滤除明显与待检测文档无关的搜索结果,将待检测文档中的关键词、句子和段落合并为一组检索词进行网路搜索。考虑到搜索引擎会按照搜索结果与检测词的相关度由高到低的顺序对搜索结果进行排序,则可以选取前设定数量个搜索结果,如前20个搜索结果。
S140、根据匹配结果和搜索结果,对待检测文档进行重复度检测。
本实施例采用匹配结果与搜索结果这两个因素共同对待检测文档进行重复度检测。
在一实施方式中,计算各搜索结果与待检测文档的相似度,称为网络相似度,该网络相似度的计算方法包括但不限于通过word2vec模型计算文本相似度。如果正版签名库中,与待检测文档的数字签名匹配的正版文档的数字签名个数超过设定阈值,如20;并且,存在至少一个搜索结果与待检测文档的网络相似度超过设定相似度阈值,如70%,则测定待检测文档为重复文档。
本实施例中,利用2个文档中少量字符或标点符号不同时,能得到相匹配的数字签名,则通过将待检测文档的数字签名在正版签名库中匹配,能够准确得到可能与待检测文档重复的正版文档的数字签名;同时,利用网络搜索的特点,将待检测文档在海量数据中搜索得到可能与待检测文档重复的文档;正版文档的数字签名与搜索结果分别以正版签名库和网络数据为数据源,扩大了重复度检测的范围;通过匹配结果和搜索结果同时参与重复度检测,能够有效提高检测的精度。
根据本申请的实施例,图2是本申请实施例中的第二种文档重复度检测方法的流程图,本申请实施例在上述各实施例的技术方案的基础上对数字签名的匹配过程进行优化。
可选的,将操作“将数字签名在正版签名库中进行匹配,得到匹配结果”细化为“将数字签名在正版签名库中进行模糊匹配,得到目标数字签名;将数字签名与目标数字签名进行相似度计算,得到数字签名与目标数字签名的相似度”,通过模糊匹配与相似度计算进行数字签名的匹配。
如图2所示的文档重复度检测方法,包括:
S210、采用数字签名算法对待检测文档进行运算,得到待检测文档的数字签名。
本实施例中,本操作包括以下两个步骤。
步骤一:对待检测文档进行切分,得到多个特征片段。
将待检测文档按照词、句子或段落等至少一个维度进行切分,得到多个特征片段。在一个实施例中,切分得到的特征片段中可能有噪声(或者干扰信息)。例如,中文句子中“空格”可能由不同格式或版本引入,而非真实有意义的内容,为了保证不同版本的相似内容可以匹配,识别并去除类似的干扰内容。在另一个实施例中,考虑到一个特征片段过于短时,比如“你好”,其信息量太小,重复的可能性太大,从而对检测引起不必要的干扰,因此有必要从切分后或者去除干扰后的特征片段中选择信息量足够多的片段作为待检测文档的特征片段。可以选择超过长度阈值的特征片段,长度阈值可以是10个字符,从而留下特征鲜明的相对长的特征片段。
步骤二:采用数字签名算法对多个特征片段分别进行运算,得到多个数字签名。
本实施例通过将待检测文档以特征片段的维度运算数字签名,从而有效地表达待检测文档的内容特征,有利于得到准确的重复度检测结果。
S220、将数字签名在正版签名库中进行模糊匹配,得到目标数字签名。
本实施例中,模糊匹配相对于相似度计算(即精确匹配)而言,模糊匹配的精度低于相似度计算。
可选的,在正版签名库中查找包括数字签名的目标数字签名。具体的,对于每个特征片段均在正版签名库中进行查找,得到分别包括每个数字签名的多个目标数字签名。例如,从正版签名库中查找包含数字签名100101的所有正版签名。然后合并多个目标数字签名,得到与待检测文档有相似关系的所有正版数字签名,为下一步相似度计算做好准备。
其中,正版签名库存储有正版文档的标识与其所有特征片段的数字签名。可以在正版签名库中查找包括待检测文档单个特征片段的数字签名的目标数字签名;还可以进一步通过目标数字签名对应的标识,查找到其他特征片段的数字签名,从而查找到正版文档的完整数字签名作为目标数字签名。
本实施例中,如果目标数字签名包括数字签名,说明目标数字签名对应的正版文档一特征片段包括待检测文档的一特征片段,待检测文档与正版文档有部分内容重复,则通过数字签名之间的包含关系实现模糊匹配。
S230、将数字签名与目标数字签名进行相似度计算,得到数字签名与目标数字签名的相似度。
对于数字签名来说,计算模糊匹配的数字签名与目标数字签名的汉明码距离,并根据汉明码距离计算相似度。显然,汉明码距离越大,相似度越小。
可选的,在多个特征片段的情况下,会存在多对模糊匹配的数字签名与目标数字签名,则相应得到多个相似度。
S240、将待检测文档进行网络搜索,得到待检测文档的搜索结果。
S250、根据匹配结果和搜索结果,对待检测文档进行重复度检测。
本实施例中,匹配结果为数字签名与目标数字签名的相似度。
在一实施方式中,在将待检测文档的数字签名与目标数字签名进行相似度计算之后,确定平均相似度。如果平均相似度超过设定阈值,如70%;并且,存在至少一个搜索结果与待检测文档的网络相似度超过设定相似度阈值,则测定待检测文档为重复文档。
本实施例通过模糊匹配筛选出可能与待检测文档重复的文档,将文档范围缩小;再通过相似度计算进行精确匹配,从而通过粗细两种匹配尺度,减少了相似度计算量,同时保证对所有可能重复的文档进行检测,提高检测精度。
根据本申请的实施例,图3是本申请实施例中的第三种文档重复度检测方法的流程图,本实施例在上述实施例的基础上,对相似度计算过程进行优化。
可选的,数字签名包括标题的数字签名和正文的数字签名,目标数字签名包括目标标题的数字签名和目标正文的数字签名。相应的,将操作“将数字签名与目标数字签名进行相似度计算,得到数字签名与目标数字签名的相似度”细化为“将标题的数字签名与目标标题的数字签名进行相似度计算,得到标题的相似度;将正文的数字签名与目标正文的数字签名进行相似度计算,得到正文的相似度”。
可选的,将操作“根据匹配结果和搜索结果,对待检测文档进行重复度检测”细化为“计算待检测文档与搜索结果的网络相似度;根据标题的相似度和正文的相似度计算标题与正文的综合相似度;如果网络相似度和综合相似度中的较大者超过设定相似度阈值,测定待检测文档为重复文档”。
如图3所示的文档重复度检测方法,包括:
S310、采用数字签名算法对待检测文档进行运算,得到待检测文档的数字签名。
S320、将数字签名在正版签名库中进行模糊匹配,得到目标数字签名。
将待检测文档切分为标题和正文,采用数字签名算法分别对标题和正文进行运算,得到标题的数字签名和正文的数字签名。可选的,根据上述实施例的记载,标题或正文可以按照词、句子或段落等至少一个维度进行切分,得到标题的多个特征片段或正文的多个特征片段;进而得到标题的多个数字签名或正文的多个数字签名。
类似的,将正版文档切分为标题和正文,采用数字签名算法分别对标题和正文进行运算,得到标题的数字签名和正文的数字签名。可选的,正版文档的标题或正文可以按照词、句子或段落等至少一个维度进行切分,得到标题的多个特征片段或正文的多个特征片段;进而得到标题的多个数字签名或正文的多个数字签名。
将标题的多个数字签名逐个在正版签名库中标题的多个数字签名中模糊匹配,得到目标标题的多个数字签名。将正文的多个数字签名逐个在正版签名库中正文的多个数字签名中模糊匹配,得到目标正文的多个数字签名。
本实施例中的目标数字签名为正版文档的完整数字签名,包括标题的多个数字签名和正文的多个数字签名。
S330、将标题的数字签名与目标标题的数字签名进行相似度计算,得到标题的相似度。
S340、将正文的数字签名与目标正文的数字签名进行相似度计算,得到正文的相似度。
将模糊匹配的标题的数字签名和目标标题的数字签名进行相似度计算,得到标题的相似度;同理,将模糊匹配的正文的数字签名和目标正文的数字签名进行相似度计算,得到正文的相似度。相似度的计算方法详见上述实施例的记载,此处不再赘述。
值得说明的是,在将标题和正文均切分为多个特征片段的情况下,会存在多对模糊匹配的标题的数字签名与目标标题的数字签名,以及多对模糊匹配的正文的数字签名与目标正文的数字签名,则相应得到多个标题的相似度和多个正文的相似度。
由于标题是对文档内容的概括,正文是对文档内容的展开,通过分别计算标题相似度和正文相似度从概括和展开的角度进行文档重复度检测,有利于检测到重复的正版文档。
在S340处,在一个实施例中,从正文的数字签名中,筛选超过设定长度的目标特征片段的数字签名;如果目标特征片段的数字签名包含在目标正文的数字签名中,确定正文的相似度为设定值。为了方便描述和区分,将待检测文档正文的多个特征片段中超过设定长度的特征片段称为目标特征片段。设定长度可以自主设定,如100个字符。目标特征片段是比较长的一个片段,如果该片段的数字签名被完整包含在目标正文的数字签名中,说明该片段与目标正文中的一片段重复,即较长的片段是重复的,则可以直接确定正文的相似度为设定值,具体确定目标特征片段的数字签名的相似度为设定值,例如100%。
S350、将所述待检测文档进行网络搜索,得到所述待检测文档的搜索结果,并计算待检测文档与搜索结果的网络相似度。
S360、根据标题的相似度和正文的相似度计算标题与正文的综合相似度。
可选的,将标题的相似度与正文的相似度进行加权平均,得到综合相似度。考虑到标题包括的字符较少,容易与其他标题重复,则设置标题的相似度的权值小于正文的相似度的权值。例如,标题的相似度的权值为0.3,正文的相似度的权值为0.7。
根据上述描述,如果存在多个标题的相似度,则计算多个标题的平均相似度作为本操作中标题的相似度;相应的,计算多个正文的平均相似度作为本操作中正文的相似度。
S370、如果网络相似度和综合相似度中的较大者超过设定相似度阈值,测定待检测文档为重复文档。
将综合相似度与网络相似度进行比较,选取较大的相似度;如果较大的相似度超过设定相似度阈值,则测定待检测文档为重复文档。
可选的,获取待检测文档的作者上传的历史文档;根据历史文档中重复文档的占比,得到设定相似度阈值。例如历史文档的数量为100,将100篇历史文档分别进行重复度检测,得到80篇为重复文档,则重复文档的占比为80%。如果重复文档的占比较高,则结合作者较低的历史信誉,应倾向于测定待检测文档为重复文档,则设定相似度阈值可以为较小的值。具体的,用1减去重复文档的占比,得到设定相似度阈值。
本实施例中,通过标题相似度、正文相似度和搜索结果同时参与重复度检测,从而从多方面进行重复度检测,提高检测精度。
根据本申请的实施例,图4是本申请实施例中的文档重复度检测装置的结构图,本申请实施例适用于检测文档是否重复的情况,该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图4所示的一种文档重复度检测装置400,包括:签名运算模块401、匹配模块402、网络搜索模块403和检测模块404;其中,
签名运算模块401,用于采用数字签名算法对待检测文档进行运算,得到待检测文档的数字签名;
匹配模块402,用于将数字签名在正版签名库中进行匹配,得到匹配结果;
网络搜索模块403,用于将待检测文档进行网络搜索,得到待检测文档的搜索结果;
检测模块404,用于根据匹配结果和搜索结果,对待检测文档进行重复度检测。
本实施例中,利用2个文档中少量字符或标点符号不同时,能得到相匹配的数字签名,则通过将待检测文档的数字签名在正版签名库中匹配,能够准确得到可能与待检测文档重复的正版文档的数字签名;同时,利用网络搜索的特点,将待检测文档在海量数据中搜索得到可能与待检测文档重复的文档;正版文档的数字签名与搜索结果分别以正版签名库和网络数据为数据源,扩大了重复度检测的范围;通过匹配结果和搜索结果同时参与重复度检测,能够有效提高检测的精度。
进一步的,匹配模块402包括:模糊匹配子模块,用于将数字签名在正版签名库中进行模糊匹配,得到目标数字签名;相似度计算子模块,用于将数字签名与目标数字签名进行相似度计算,得到数字签名与目标数字签名的相似度。
进一步的,模糊匹配子模块,具体用于在正版签名库中查找包括数字签名的目标数字签名。
进一步的,签名运算模块,具体用于对待检测文档进行切分,得到多个特征片段;采用数字签名算法对多个特征片段分别进行运算,得到多个数字签名;模糊匹配子模块,具体用于在正版签名库中查找包括多个数字签名中任一数字签名的目标数字签名。
进一步的,数字签名包括标题的数字签名和正文的数字签名,目标数字签名包括目标标题的数字签名和目标正文的数字签名;相似度计算子模块,包括:标题相似度计算单元,用于将标题的数字签名与目标标题的数字签名进行相似度计算,得到标题的相似度;正文相似度计算单元,用于将正文的数字签名与目标正文的数字签名进行相似度计算,得到正文的相似度。
进一步的,正文相似度计算单元,具体用于从正文的数字签名中,筛选超过设定长度的目标特征片段的数字签名;如果目标特征片段的数字签名包含在目标正文的数字签名中,确定正文的相似度为设定值。
进一步的,检测模块404,具体用于计算待检测文档与搜索结果的网络相似度;根据标题的相似度和正文的相似度计算标题与正文的综合相似度;如果网络相似度和综合相似度中的较大者超过设定相似度阈值,测定待检测文档为重复文档。
进一步的,该装置还包括阈值确定模块,用于在如果网络相似度和综合相似度中的较大者超过设定相似度阈值,测定待检测文档为重复文档之前,获取待检测文档的作者上传的历史文档;根据历史文档中重复文档的占比,得到设定相似度阈值。
上述文档重复度检测装置可执行本申请任意实施例所提供的文档重复度检测方法,具备执行文档重复度检测方法相应的功能模块和有益效果。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是实现本申请实施例的文档重复度检测方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个终端提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的文档重复度检测方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文档重复度检测方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文档重复度检测方法对应的程序指令/模块(例如,附图4所示的包括签名运算模块401、匹配模块402、网络搜索模块403和检测模块404)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文档重复度检测方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储实现文档重复度检测方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至执行文档重复度检测方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
执行文档重复度检测方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与执行文档重复度检测方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (18)

1.一种文档重复度检测方法,包括:
采用数字签名算法对待检测文档进行运算,得到所述待检测文档的数字签名;
将所述数字签名在正版签名库中进行匹配,得到匹配结果;
将所述待检测文档进行网络搜索,得到所述待检测文档的搜索结果;
根据所述匹配结果和所述搜索结果,对所述待检测文档进行重复度检测。
2.根据权利要求1所述的方法,其中,所述将所述数字签名在正版签名库中进行匹配,得到匹配结果,包括:
将所述数字签名在正版签名库中进行模糊匹配,得到目标数字签名;
将所述数字签名与所述目标数字签名进行相似度计算,得到所述数字签名与所述目标数字签名的相似度。
3.根据权利要求2所述的方法,其中,所述将所述数字签名在正版签名库中进行模糊匹配,得到目标数字签名,包括:
在正版签名库中查找包括所述数字签名的目标数字签名。
4.根据权利要求3所述的方法,其中,所述采用数字签名算法对待检测文档进行运算,得到所述待检测文档的数字签名,包括:
对所述待检测文档进行切分,得到多个特征片段;
采用数字签名算法对所述多个特征片段分别进行运算,得到多个数字签名;
所述在正版签名库中查找包括所述数字签名的目标数字签名,包括:
在正版签名库中查找包括所述多个数字签名中任一数字签名的目标数字签名。
5.根据权利要求2-4任一项所述的方法,其中,所述数字签名包括标题的数字签名和正文的数字签名,所述目标数字签名包括目标标题的数字签名和目标正文的数字签名;
所述将所述数字签名与所述目标数字签名进行相似度计算,得到所述数字签名与所述目标数字签名的相似度,包括:
将所述标题的数字签名与所述目标标题的数字签名进行相似度计算,得到标题的相似度;
将所述正文的数字签名与所述目标正文的数字签名进行相似度计算,得到正文的相似度。
6.根据权利要求5所述的方法,其中,所述将所述正文的数字签名与所述目标正文的数字签名进行相似度计算,得到正文的相似度,包括:
从所述正文的数字签名中,筛选超过设定长度的目标特征片段的数字签名;
如果所述目标特征片段的数字签名包含在所述目标正文的数字签名中,确定正文的相似度为设定值。
7.根据权利要求5所述的方法,其中,所述根据所述匹配结果和所述搜索结果,对所述待检测文档进行重复度检测,包括:
计算所述待检测文档与所述搜索结果的网络相似度;
根据所述标题的相似度和正文的相似度计算标题与正文的综合相似度;
如果所述网络相似度和所述综合相似度中的较大者超过设定相似度阈值,测定所述待检测文档为重复文档。
8.根据权利要求7所述的方法,在如果所述网络相似度和所述综合相似度中的较大者超过设定相似度阈值,测定所述待检测文档为重复文档之前,还包括:
获取所述待检测文档的作者上传的历史文档;
根据所述历史文档中重复文档的占比,得到所述设定相似度阈值。
9.一种文档重复度检测装置,包括:
签名运算模块,用于采用数字签名算法对待检测文档进行运算,得到所述待检测文档的数字签名;
匹配模块,用于将所述数字签名在正版签名库中进行匹配,得到匹配结果;
网络搜索模块,用于将所述待检测文档进行网络搜索,得到所述待检测文档的搜索结果;
检测模块,用于根据所述匹配结果和所述搜索结果,对所述待检测文档进行重复度检测。
10.根据权利要求9所述的装置,其中,所述匹配模块,包括:
模糊匹配子模块,用于将所述数字签名在正版签名库中进行模糊匹配,得到目标数字签名;
相似度计算子模块,用于将所述数字签名与所述目标数字签名进行相似度计算,得到所述数字签名与所述目标数字签名的相似度。
11.根据权利要求10所述的装置,其中,
所述模糊匹配子模块,具体用于在正版签名库中查找包括所述数字签名的目标数字签名。
12.根据权利要求11所述的装置,其中,
所述签名运算模块,具体用于对所述待检测文档进行切分,得到多个特征片段;采用数字签名算法对所述多个特征片段分别进行运算,得到多个数字签名;
所述模糊匹配子模块,具体用于在正版签名库中查找包括所述多个数字签名中任一数字签名的目标数字签名。
13.根据权利要求10-12任一项所述的装置,其中,所述数字签名包括标题的数字签名和正文的数字签名,所述目标数字签名包括目标标题的数字签名和目标正文的数字签名;
所述相似度计算子模块,包括:
标题相似度计算单元,用于将所述标题的数字签名与所述目标标题的数字签名进行相似度计算,得到标题的相似度;
正文相似度计算单元,用于将所述正文的数字签名与所述目标正文的数字签名进行相似度计算,得到正文的相似度。
14.根据权利要求13所述的装置,其中,
所述正文相似度计算单元,具体用于从所述正文的数字签名中,筛选超过设定长度的目标特征片段的数字签名;如果所述目标特征片段的数字签名包含在所述目标正文的数字签名中,确定正文的相似度为设定值。
15.根据权利要求13所述的装置,其中,
所述检测模块,具体用于计算所述待检测文档与所述搜索结果的网络相似度;根据所述标题的相似度和正文的相似度计算标题与正文的综合相似度;如果所述网络相似度和所述综合相似度中的较大者超过设定相似度阈值,测定所述待检测文档为重复文档。
16.根据权利要求15所述的装置,还包括:
阈值确定模块,用于在如果所述网络相似度和所述综合相似度中的较大者超过设定相似度阈值,测定所述待检测文档为重复文档之前,获取所述待检测文档的作者上传的历史文档;根据所述历史文档中重复文档的占比,得到所述设定相似度阈值。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的一种文档重复度检测方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的一种文档重复度检测方法。
CN202010530790.XA 2020-06-11 2020-06-11 文档重复度检测方法、装置、设备和可读存储介质 Active CN111737966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010530790.XA CN111737966B (zh) 2020-06-11 2020-06-11 文档重复度检测方法、装置、设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010530790.XA CN111737966B (zh) 2020-06-11 2020-06-11 文档重复度检测方法、装置、设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN111737966A true CN111737966A (zh) 2020-10-02
CN111737966B CN111737966B (zh) 2024-03-01

Family

ID=72648837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010530790.XA Active CN111737966B (zh) 2020-06-11 2020-06-11 文档重复度检测方法、装置、设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN111737966B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529759A (zh) * 2020-12-22 2021-03-19 北京百度网讯科技有限公司 文档处理方法、装置、设备、存储介质和计算机程序产品
CN112861505A (zh) * 2021-02-04 2021-05-28 北京百度网讯科技有限公司 重复度检测方法、装置和电子设备
CN114090526A (zh) * 2022-01-19 2022-02-25 广东省出版集团数字出版有限公司 一种云教育资源管理系统
CN112529759B (zh) * 2020-12-22 2024-05-14 北京百度网讯科技有限公司 文档处理方法、装置、设备、存储介质和计算机程序产品

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060282430A1 (en) * 2005-06-10 2006-12-14 Diamond David L Fuzzy matching of text at an expected location
CN101076800A (zh) * 2004-08-23 2007-11-21 汤姆森环球资源公司 重复文档检测及表示功能
US20110029491A1 (en) * 2009-07-29 2011-02-03 International Business Machines Corporation Dynamically detecting near-duplicate documents
CN102831198A (zh) * 2012-08-07 2012-12-19 人民搜索网络股份公司 一种基于文档签名技术的相似文档识别装置及方法
CN102915295A (zh) * 2011-03-31 2013-02-06 百度在线网络技术(北京)有限公司 文档检测方法及装置
CN103294671A (zh) * 2012-02-22 2013-09-11 腾讯科技(深圳)有限公司 文档的检测方法及系统
CN103699567A (zh) * 2013-11-04 2014-04-02 北京中搜网络技术股份有限公司 一种基于标题指纹与正文指纹实现相同新闻聚类的方法
CN105808739A (zh) * 2016-03-10 2016-07-27 哈尔滨工程大学 基于Borda算法的搜索结果排序方法
CN106649871A (zh) * 2017-01-03 2017-05-10 广州爱九游信息技术有限公司 文章重复度的检测方法、装置及计算设备
CN108763486A (zh) * 2018-05-30 2018-11-06 湖南写邦科技有限公司 基于终端的论文查重方法、终端及存储介质
CN109635084A (zh) * 2018-11-30 2019-04-16 宁波深擎信息科技有限公司 一种多源数据文档实时快速去重方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101076800A (zh) * 2004-08-23 2007-11-21 汤姆森环球资源公司 重复文档检测及表示功能
US20060282430A1 (en) * 2005-06-10 2006-12-14 Diamond David L Fuzzy matching of text at an expected location
US20110029491A1 (en) * 2009-07-29 2011-02-03 International Business Machines Corporation Dynamically detecting near-duplicate documents
CN102915295A (zh) * 2011-03-31 2013-02-06 百度在线网络技术(北京)有限公司 文档检测方法及装置
CN103294671A (zh) * 2012-02-22 2013-09-11 腾讯科技(深圳)有限公司 文档的检测方法及系统
CN102831198A (zh) * 2012-08-07 2012-12-19 人民搜索网络股份公司 一种基于文档签名技术的相似文档识别装置及方法
CN103699567A (zh) * 2013-11-04 2014-04-02 北京中搜网络技术股份有限公司 一种基于标题指纹与正文指纹实现相同新闻聚类的方法
CN105808739A (zh) * 2016-03-10 2016-07-27 哈尔滨工程大学 基于Borda算法的搜索结果排序方法
CN106649871A (zh) * 2017-01-03 2017-05-10 广州爱九游信息技术有限公司 文章重复度的检测方法、装置及计算设备
CN108763486A (zh) * 2018-05-30 2018-11-06 湖南写邦科技有限公司 基于终端的论文查重方法、终端及存储介质
CN109635084A (zh) * 2018-11-30 2019-04-16 宁波深擎信息科技有限公司 一种多源数据文档实时快速去重方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张广庆;葛唯益;贺成龙;: "基于Simhash的海量相似文档快速搜索优化方法", 指挥信息系统与技术, no. 02 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529759A (zh) * 2020-12-22 2021-03-19 北京百度网讯科技有限公司 文档处理方法、装置、设备、存储介质和计算机程序产品
CN112529759B (zh) * 2020-12-22 2024-05-14 北京百度网讯科技有限公司 文档处理方法、装置、设备、存储介质和计算机程序产品
CN112861505A (zh) * 2021-02-04 2021-05-28 北京百度网讯科技有限公司 重复度检测方法、装置和电子设备
CN114090526A (zh) * 2022-01-19 2022-02-25 广东省出版集团数字出版有限公司 一种云教育资源管理系统

Also Published As

Publication number Publication date
CN111737966B (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
CN112560912B (zh) 分类模型的训练方法、装置、电子设备和存储介质
CN111709247B (zh) 数据集处理方法、装置、电子设备和存储介质
CN111967262B (zh) 实体标签的确定方法和装置
CN111078865B (zh) 文本标题生成方法和装置
CN111753914B (zh) 模型优化方法和装置、电子设备及存储介质
EP3832488A2 (en) Method and apparatus for generating event theme, device and storage medium
CN112560479B (zh) 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备
CN111783468B (zh) 文本处理方法、装置、设备和介质
CN111460083A (zh) 文档标题树的构建方法、装置、电子设备及存储介质
CN111488740A (zh) 一种因果关系的判别方法、装置、电子设备及存储介质
CN112507702B (zh) 文本信息的抽取方法、装置、电子设备及存储介质
CN112380847B (zh) 兴趣点处理方法、装置、电子设备及存储介质
CN111984774B (zh) 搜索方法、装置、设备以及存储介质
CN111737966B (zh) 文档重复度检测方法、装置、设备和可读存储介质
CN111310058B (zh) 资讯主题的推荐方法、装置、终端及存储介质
CN111984775A (zh) 问答质量确定方法、装置、设备和存储介质
CN112115313A (zh) 正则表达式的生成、数据提取方法、装置、设备及介质
CN112183052B (zh) 一种文档重复度检测方法、装置、设备和介质
CN112329453B (zh) 样本章节的生成方法、装置、设备以及存储介质
US20210216710A1 (en) Method and apparatus for performing word segmentation on text, device, and medium
CN113127669B (zh) 广告配图方法、装置、设备和存储介质
CN112052390A (zh) 一种资源筛选方法、装置、电子设备及存储介质
CN111783644A (zh) 检测方法、装置、设备和计算机存储介质
CN113590914B (zh) 信息处理方法、装置、电子设备和存储介质
CN112101012B (zh) 互动领域确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant