CN102915295B - 文档检测方法及装置 - Google Patents

文档检测方法及装置 Download PDF

Info

Publication number
CN102915295B
CN102915295B CN201210340026.1A CN201210340026A CN102915295B CN 102915295 B CN102915295 B CN 102915295B CN 201210340026 A CN201210340026 A CN 201210340026A CN 102915295 B CN102915295 B CN 102915295B
Authority
CN
China
Prior art keywords
document
paragraph
pirate
existing
characteristic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210340026.1A
Other languages
English (en)
Other versions
CN102915295A (zh
Inventor
周纾
李彦宏
徐兴军
张雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210340026.1A priority Critical patent/CN102915295B/zh
Publication of CN102915295A publication Critical patent/CN102915295A/zh
Application granted granted Critical
Publication of CN102915295B publication Critical patent/CN102915295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种文档检测方法,包括:获取与文档相应地段落特征信息;将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;根据所述比对结果判断是否具有与所述文档相似的已有文档。本发明通过段落特征信息对文档进行检测,可较为准确地进行文档之间的相似度比对,避免了对文档分段处理的作弊行为,且查询效率较高、服务器处理压力较小;将该文档检测方法用于改善在线文档版权属性检测,可在文档上传时,即对该文档进行检测,以避免后续对文档版权属性检测时,给服务器造成的不必要压力;同时,可批量的处理已有文档的版权属性检测,效率较高。

Description

文档检测方法及装置
技术领域
本发明涉及一种文档检测方法及装置,尤其是指一种用于比对长文档相似度的文档检测方法及装置。
背景技术
通常地,用于文档相似度的文档检测方法是通过文档的标题、作者、字词信息进行确认。然而,这样的做法具有以下缺陷:首先,通过文档的标题、作者、字词信息查询,容易产生遗漏,例如,将该文档的标题、作者信息修改或删除,或者将文档切分为多个部分,以使得通过字词信息无法准确的查询或比对其他文档;其次,如果待查询的文档篇幅较长,如一部长篇小说,则通过字词信息进行查询,查询效率较低、服务器或计算机处理压力较大,影响服务器或计算机的正常工作效率。
发明内容
本发明的目的在于提供一种经过改进的文档检测方法。
本发明的另一目的在于一种经过改进的文档检测装置,所述的装置应用所述的经过改进的文档检测方法。
相应地,本发明的一种实施方式的文档检测方法,包括:
S1、获取与文档相应地段落特征信息;
S2、将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;
S3、根据所述比对结果判断是否具有与所述文档相似的已有文档;
其中,所述获取与文档相应地段落特征信息包括:
S100、对文档中每一个段落进行切词,得到该段落的词和词频的二元组列表;
S101、对所述列表中的二元组进行初始权重向量计算;
S102、将所述二元组通过哈希算法进行计算,得到预设特征位的哈希字符串;
S103、将所述哈希字符串映射至所述权重向量中;
S104、计算所述权重向量对应位的值,获得段落特征信息。
作为本发明的进一步改进,所述段落特征信息为预设特征位的段落签名。
作为本发明的进一步改进,所述S103步骤具体包括:
判断所述哈希字符串中的每一位是0还是1,若是0的话,则在映射至所述权重向量相应位时,对该位进行减权;若是1的话,则在映射至所述权重向量相应位时,对该位进行加权。
作为本发明的进一步改进,所述S104步骤具体包括:
判断所述权重向量对应位的值是否大于0;若大于0,则将所述权重向量对应位的值设为1,若小于等于0,则将该权重向量对应位的值设为0。
作为本发明的进一步改进,当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值大于等于设定的第二阈值时,判定所述文档与已有文档相似;当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值小于设定的第二阈值时,则判定所述文档与已有文档不相似。作为本发明的进一步改进,所述相似段落是通过以下步骤得到的:
通过算法将所述文档得到预设特征位的段落签名与已有文档的预设特征位的段落签名进行计算,若计算结果大于预定的第一阈值,则所述段落不相似;若计算结果小于等于预定的第一阈值,则所述段落相似。
作为本发明的进一步改进,所述“通过算法将所述文档得到预设特征位的段落签名与已有文档的预设特征位的段落签名进行计算”是通过汉明码距离计算所述文档的段落签名与所述已有文档的段落签名的距离。
作为本发明的进一步改进,将与已有文档相似的所述文档的版权属性定义为盗版文档。
作为本发明的进一步改进,将与已有文档相似的所述文档的版权属性定义为疑似盗版文档。
作为本发明的进一步改进,审核所述疑似盗版文档,若审核确认所述疑似盗版文档为盗版文档,则发送反馈信息;若审核确认所述疑似盗版文档为非盗版文档,则在线发布所述非盗版文档。
作为本发明的进一步改进,将与所述文档相似的一个或多个所述已有文档的版权属性定义为盗版文档。
作为本发明的进一步改进,将与所述文档相似的一个或多个所述已有文档的属性定义为疑似盗版文档。
作为本发明的进一步改进,审核所述疑似盗版文档,若审核确认所述疑似盗版文档为盗版文档,则删除所述盗版文档;若审核确认所述疑似盗版文档为非盗版文档,则保留所述非盗版文档。
作为本发明的进一步改进,将所述非盗版文档的版权属性标记为已验证,和/或将所述非盗版文档复制/移动至已验证版权数据库。
作为本发明的进一步改进,重复权利要求17步骤,直至完成对所有已有文档的筛选。
作为本发明的进一步改进,根据所述判断结果得到所述文档的版权属性。
作为本发明的进一步改进,在所述S1步骤前,还包括构建所述已有文档的段落特征信息步骤:
获取已验证为正版的数字文件;
提取所述数字文件的段落特征信息并建立索引。
作为本发明的进一步改进,所述“构建所述已有文档的段落特征信息”步骤还包括:
识别所述数字文件是否为文档;
若是,则提取所述文档的段落特征信息并建立索引,若否,则通过算法将所述数字文件转换为文档后,提取所述文档的段落特征信息并建立索引。
作为本发明的进一步改进,在所述“构建所述已有文档的段落特征信息”步骤后,还包括:
接收上传的未验证版权属性的数字文件。
作为本发明的进一步改进,在所述“接收上传的未验证版权属性的数字文件”步骤后,还包括:
判断所述数字文件是否为文档;
若是,则执行S1步骤,若否,则通过算法将所述数字文件转换为文档后,执行S1步骤。
作为本发明的进一步改进,在所述S1步骤前,还包括将所述文档进行存储。
作为本发明的进一步改进,根据所述判断结果得到所述已有文档的版权属性。
作为本发明的进一步改进,在所述S1步骤前,还包括构建所述已有文档的段落特征信息步骤:
获取已有的未验证版权属性的数字文件;
提取所述数字文件的段落特征信息并建立索引。
作为本发明的进一步改进,所述“构建所述已有文档的段落特征信息”步骤还包括:
识别所述数字文件是否为文档;
若是,则提取所述文档的段落特征信息并建立索引,若否,则通过算法将所述数字文件转换为文档后,提取所述文档的段落特征信息并建立索引。
作为本发明的进一步改进,在所述“构建所述已有文档的段落特征信息”步骤后,还包括:
接收已验证为正版的数字文件。
作为本发明的进一步改进,在所述“接收已验证为正版的数字文件”步骤后,还包括:
判断所述数字文件是否为文档;
若是,则执行S1步骤,若否,则通过算法将所述数字文件转换为文档后,执行S1步骤。
相应地,本发明的一种实施方式的文档检测装置,包括:
获取单元,用于对文档中每一个段落进行切词,得到该段落的词和词频的二元组列表;对所述列表中的二元组进行初始权重向量计算;将所述二元组通过哈希算法进行计算,得到预设特征位的哈希字符串;将所述哈希字符串映射至所述权重向量中;计算所述权重向量对应位的值,获得段落特征信息;
比对单元,用于将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;
判断单元,用于根据所述比对结果判断是否具有与所述文档相似的已有文档。
作为本发明的进一步改进,所述段落特征信息为预设特征位的段落签名。
作为本发明的进一步改进,所述获取装置用于:判断所述哈希字符串中的每一位是0还是1,若是0的话,则在映射至所述权重向量相应位时,对该位进行减权;若是1的话,则在映射至所述权重向量相应位时,对该位进行加权。
作为本发明的进一步改进,所述获取装置用于:判断所述权重向量对应位的值是否大于0;若大于0,则将所述权重向量对应位的值设为1,若小于等于0,则将该权重向量对应位的值设为0。
作为本发明的进一步改进,所述判断单元用于:当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值大于等于设定的第二阈值时,判定所述文档与已有文档相似;当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值小于设定的第二阈值时,则判定所述文档与已有文档不相似。作为本发明的进一步改进,所述比对单元用于通过算法将所述文档得到预设特征位的段落签名与已有文档的预设特征位的段落签名进行计算,若计算结果大于预定的第一阈值,则所述段落不相似;若计算结果小于等于预定的第一阈值,则所述段落相似。
作为本发明的进一步改进,通过汉明码距离计算所述文档的段落签名与所述已有文档的段落签名的距离。
作为本发明的进一步改进,所述判断单元用于将与已有文档相似的所述文档的版权属性定义为盗版文档。
作为本发明的进一步改进,所述判断单元用于将与已有文档相似的所述文档的版权属性定义为疑似盗版文档。
作为本发明的进一步改进,所述文档检测装置还包括用于当审核确认所述文档为盗版文档后发送反馈信息的单元。
作为本发明的进一步改进,所述文档检测装置还包括用于当审核确认所述文档为非盗版文档后在线发布所述非盗版文档的单元。
作为本发明的进一步改进,所述判断单元用于将与所述文档相似的一个或多个所述已有文档的属性定义为盗版文档。
作为本发明的进一步改进,所述判断单元用于将与所述文档相似的一个或多个所述已有文档的属性定义为疑似盗版文档。
作为本发明的进一步改进,所述文档检测装置还包括用于当审核确认所述文档为盗版文档后删除所述盗版文档删除所述盗版文件的处理单元。
作为本发明的进一步改进,所述处理单元还用于当审核确认所述文档为非盗版文档后,将所述非盗版文档的版权属性标记为已验证,和/或将所述非盗版文档复制/移动至已验证版权数据库。
作为本发明的进一步改进,所述判断单元还用于根据所述判断结果得到所述文档的版权属性。
作为本发明的进一步改进,所述文档检测装置还包括:
用于存储已验证为正版的数字文件的单元;以及
用于提取所述数字文件的段落特征信息并建立索引的单元。
作为本发明的进一步改进,所述文档检测装置还包括:
用于接收上传的未验证版权属性的数字文件的单元。
作为本发明的进一步改进,所述判断单元还用于根据所述判断结果得到所述已有文档的版权属性。
作为本发明的进一步改进,所述文档检测装置还包括:
用于存储已有的未验证版权属性的数字文件的单元;以及
用于提取所述数字文件的段落特征信息并建立索引的单元。
作为本发明的进一步改进,所述文档检测装置还包括:
用于接收已验证为正版的数字文件的单元。
作为本发明的进一步改进,所述文档检测装置还包括:
用于识别所述数字文件是否为文档的单元;
用于通过算法将所述数字文件转换为文档的单元。
作为本发明的进一步改进,所述文档检测装置还包括用于将所述文档进行存储的单元。
本发明的有益效果是:本发明通过段落特征信息对文档进行检测,可较为准确地进行文档之间的相似度比对,同时避免了作弊行为,且通过这样的检测方式,使得查询效率较高、服务器/计算机处理压力较小;另外,本发明将该文档检测方法用于改善在线文档版权属性检测,可在文档上传时,即对该文档进行检测,以避免后续对文档版权属性检测时,给服务器造成的不必要压力;同时,本发明可批量的处理服务器端存储的已有文档的版权属性检测,效率较高。
附图说明
图1是本发明一实施方式中文档检测方法的流程图;
图2是本发明一实施方式中获得段落签名的方法的流程图;
图3是本发明一实施方式中将文档检测方式用于在上传文档时甄别文档的版权属性的流程图;
图4是本发明一种实施方式中将文档检测方式用于甄别已有文档的版权属性的流程图;
图5是本发明一种实施方式中建立正版数据库的流程图;
图6是本发明一种实施方式中建立未验证版权数据库的流程图;
图7是本发明一种实施方式中文档检测装置的模块图。
具体实施方式
以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
如图1所示,在本发明一实施方式中,所述文档检测方法包括:
S1、获取与文档相应地段落特征信息;其中,所述文档指的是以文本为主体的电子文件,优选地,在本实施方式中,所述文档也可是可进行文字编辑的电子文件,例如txt文件、doc文件等。通过识别该电子文件中的换行符,即可得到所述文档的段落信息,将所述文档分为一个或多个段落。在本发明最佳实施方式中,在得到所述一个或多个段落后,可通过哈希算法计算出所述一个或多个段落的段落特征信息,优选地,该段落特征信息为预设特征位的段落签名,为了提高S2步骤中与已有文档的段落特征信息比对的效率,同时兼顾比对的准确度,在本发明最佳实施方式中,该预定特征位为64位,例如:110101000100…011(总共64位,每一位取值0或1,没有其他值),当然,在本发明的其他实施方式中,该预定特征位还可为128位、256位等。如图2所示,为本发明一实施方式中,获得所述预设特征位的段落签名的方法,其包括下述步骤:
S100、对文档中每一个段落进行切词,得到该段落的词和词频的二元组列表;该切词的方法,本领域普通技术人员可通过现有技术熟练掌握,在此不再赘述。
S101、对所述列表中的二元组进行初始权重向量计算;其中,每一个词和词频都有一个权重向量,在本发明最佳实施方式中,若该预设特征位为64位,则该权重向量就具有64个维度,每一个维度即是代表该64位中的每一个特征位。
S102、将所述二元组通过哈希算法进行计算,得到预设特征位的哈希字符串;在本发明最佳实施方式中,即是对该段落的词和词频通过哈希算法进行计算并得到64位的哈希字符串。
S103、将所述哈希字符串映射至所述权重向量中;具体步骤为:首先判断所述哈希字符串中的每一位是0还是1,若是0的话,则在映射至所述权重向量相应位时,对该位进行减权,即是(-log(f+0.1));若是1的话,则在映射至所述权重向量相应位时,对该位进行加权,即是(+log(f+0.1)),需要说明的是:f是单词的出现频率,如果计算单位为段落,f则是该单词在段落中出现的总数量,如果为全文,f则是该单词在全文中出现的总数量。
S104、计算权重向量对应位的值,获得预设特征位的段落签名。具体步骤为:判断所述权重向量对应位的值是否大于0;若大于0,则将该权重向量对应位的值设为1,若小于等于0,则将该权重向量对应位的值设为0,这样,即可获得所述预设特征位的段落签名。
S2、将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;在本发明的最佳实施方式中,即是将所述文档得到预设特征位的段落签名与已有文档的预设特征位的段落签名按照一定算法计算,优选地,是通过汉明码距离计算文档的段落签名与已有的段落签名的距离,若该距离大于预定的第一阈值时,则认为该两个段落不相似,若该距离小于等于预定的第一阈值时,则认为该两个段落相似,在本发明最佳实施方式中,该第一阈值为6。当然,该比对也可包含在已有文档的索引库中进行查询,即是通过所述文档的段落特征和多个已有文档的段落特征信息进行比对,该索引库的构建方式将在下述结合图5、图6进行具体说明。
S3、根据所述比对结果判断是否具有与所述文档相似的已有文档。通过比对的结果可知,当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值大于等于设定的第二阈值时,判定所述文档与已有文档相似;当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值小于设定的第二阈值时,则判定所述文档与已有文档不相似。所述第二阈值为所述相似段落数/文档总段落数的比值,其可根据情况进行设定,例如,若需要比对较为精确,则可将所述第二阈值设定大些,若担心比对遗漏,则可将所述第二阈值设定小些。在本发明最佳实施方式中,该第二阈值被设定为0.5~1的区间内。优选地,在本发明的最佳实施方式中,不仅需要文档与已有文档的相似段落数大于等于设定的第二阈值,还需要满足所述文档的整体段落签名和所述已有文档的整体段落签名的汉明码距离小于等于第一阈值,该整体段落签名的获得方式可参S1步骤中揭示的内容,即是将整篇文章作为一个段落,通过哈希算法计算出该段落的段落签名。
通过上述流程,可较为准确地进行文档之间的相似度比对,避免作弊行为,且查询效率较高、服务器/计算机处理压力较小。
随着互联网的普及与发展,在线阅读已经成为一种主要的阅读方式,同时,在线文档的共享、推广也已经成为一种重要的信息发布手段。例如,国外比较著名的在线阅读网站有Google books(http://books.google.com/bkshp?tab=yp),国内比较著名的在线阅读网站有百度文库(http://wenku.baidu.com/)等等。
这种开放式的在线文档共享、推广、阅读方式,虽然大大的方便了用户搜索、阅读、分享文档,便捷地、免费地获取相关信息与知识。但是,这种方式也存在着较大弊端:即是因用户或服务商的共享、推广,而侵犯了原文作者、发行社、出版商的著作权,使得后者遭受巨大的经济损失。
为解决上述问题,需要将共享、推广的文档进行辨识,以甄别其版权属性。在本发明的一种实施方式中,可将上述的文档检测方式用于甄别文档的版权属性,其主要途径可包括两种:一是通过上述步骤的判断结果得到正在上传服务器的文档的版权属性,另一是通过上述步骤的判断结果得到服务器中已存储的已有文档的版权属性,下面将分别结合附图介绍这两种途径的具体流程。
如图3所示,在本发明一实施方式中,可通过上述文档检测方法的判断结果得到正在上传的文档的版权属性,并可根据所述版权属性对所述文档做出相应操作,其步骤包括:
S10、接收上传的未验证版权属性的数字文件;在本步骤中,一般地,可通过浏览器或客户端软件登录在线文档网站,并将本地的数字文件上传至在线文档网站的服务器,即是在线文档网站的服务器接收上传的数字文件,一般地,该数字文件是未验证版权属性的,其可能是通过各种渠道得到的数字文件,例如,下载,扫描等。该数字文件可包括多种形式,如文本、电子书、图片、PDF等等。在本实施方式的应用场景中,一般是通过用户或服务商从客户端上传所述未验证版权属性的数字文件。
S11、识别所述数字文件是否为文档;若是,则进入S13步骤,若否,则先进入S12步骤后,再进入S13步骤;在本步骤中,可通过识别所述数字文件的后缀名,以判断所述数字文件是否为文档,例如,若该数字文件为文本,其后缀名为txt、doc等等关于文档的后缀,则判断该数字文件为文档;若该数字文件为图片、PDF等,其后缀名为jpg、bmp、pdf等非文档的后缀,则判断该数字文件为非文档。当然,在所述在线文档网站的服务器上也可规定,只能上传文档文件,这样,即可排除掉其他非文档内的文件,即是此步骤并非必须的。
S12、通过算法将所述数字文件转换为文档;优选地,在本实施方式中,该算法可采用业界较为普遍的OCR识别算法。本领域普通技术人员可通过现有技术数量掌握,在此就不再赘述。当然,在所述在线文档网站的服务器上也可规定,只能上传文档文件,这样,即可排除掉其他非文档内的文件,即是此步骤并非必须的。
S13、将所述文档进行存储;其中,存储的文档包括了识别为文档的数字文件,和通过转换得到的文档。当然,该步骤也非必须,该文档可寄存于内存(RAM)中,其在完成甄别版权属性后,即可从所述内存中删除。
S14、获取与文档相应地段落特征信息;其中,该步骤采用了如图1、图2所描述的具体步骤,在此不再赘述。
S15、将所述文档的段落特征信息与至少一个已验证为正版的已有文档的段落特征信息进行比对;其中,具体执行该比对的步骤采用了如图1中的S2步骤,在此不再赘述。在本实施方式中,所述已有文档是事先建立好的正版数据库中存储的已有文档,所述已有文档的段落特征信息是通过所述正版数据库建立的索引信息,通过将所述文档的段落特征信息与该索引中的已有文档的段落特征信息进行比对,来确认所述文档的版权属性,该建立所述索引信息的步骤将在下述的图5进行详细说明。
S16、判断所述文档与一个或多个已有文档是否相似;在本实施方式中,该具体执行步骤可采用如图1所述的S3步骤,在此不再赘述。当判定所述文档与已有文档相似时,进入S17步骤;当判定所述文档与已有文档不相似时,则直接进入S19b步骤;
S17、将与已有文档相似的所述文档的版权属性定义为疑似盗版文档;优选地,可将一个或多个所述疑似盗版文档聚合为疑似表,并将所述疑似表和/或疑似盗版文档存储于服务器中的一指定路径,审核人员可通过进入该指定路径访问所述疑似表和/或疑似盗版文档,以执行下述S18步骤,当然,也可将所述疑似表和/或疑似盗版文档主动推送到指定审核人员端,以便审核人员第一时间处理该审核,例如通过电子邮件推送。在本发明的另一实施方式中,可将与已有文档相似的所述文档的版权属性直接定义为盗版文档,并进入S19a步骤,发送反馈信息至用户;
S18、审核所述疑似盗版文档,确认其是否为盗版文档;若确认为盗版文档,则进入S19a步骤,若确认为非盗版文档,则进入S19b步骤;
S19a、发送反馈信息;优选地,在本实施方式中,可发送反馈信息至上传所述未验证版权属性的数字文件方,一般来说,可通过提示框形式发送所述反馈信息,例如,在浏览器中弹出提示框、在客户端中弹出提示框等。当然也可返回一新页面至浏览器,以提示上传方上传的数字文件的内容为盗版或未通过版权认证。
S19b、在线发布所述非盗版文档。在一实施方式中,是将所述非盗版文档加入在线文档数据库,优选地,在本发明的一个特殊实施方式中,所述在线文档数据库即是正版数据库中,通过加入所述非盗版文档至所述正版数据库,可有效的扩充所述正版数据库中的正版文档,以更有效的甄别将来上传的数字文件。
通过上述流程,可在文档上传时,即对该文档进行检测,以避免后续对文档版权属性检测时,给服务器造成的不必要压力。
如图4所示,在本发明一实施方式中,可通过上述文档检测方法的判断结果得到未验证版权属性的已有文档(已存储于服务器中)的版权属性,并可根据所述版权属性对所述已有文档做出相应操作,其步骤包括:
S20、接收已经验证为正版的数字文件;在本步骤中,可通过授权的第三方获取该正版的数字文件,也可通过读取正版数据库得获取该正版的数字文件,该第三方可包括合作网站、作家、作家协会、高校、出版社等等合法的途径,并可将所述正版的数字文件上传至服务器,即是服务器接收上传的已经验证为正版的数字文件,一般地,该数字文件可包括多种形式,如文本、电子书、图片、PDF等等。优选地,该正版的数字文件可存储于上述的正版数据库中。
S21、识别所述数字文件是否为文档;若是,则进入S23步骤,若否,则先进入S22步骤后,再进入S23步骤;在本步骤中,可通过识别所述数字文件的后缀名,以判断所述数字文件是否为文档,例如,若该数字文件为文本,其后缀名为txt、doc等等关于文档的后缀,则判断该数字文件为文档;若该数字文件为图片、PDF等,其后缀名为jpg、bmp、pdf等非文档的后缀,则判断该数字文件为非文档。当然,在所述在线文档网站的服务器上也可规定,只能上传文档文件,这样,即可排除掉其他非文档内的文件,即是此步骤并非必须的。
S22、通过算法将所述数字文件转换为文档优选地,在本实施方式中,该算法可采用业界较为普遍的OCR识别算法。本领域普通技术人员可通过现有技术数量掌握,在此就不再赘述。当然,在所述在线文档网站的服务器上也可规定,只能上传文档文件,这样,即可排除掉其他非文档内的文件,即是此步骤并非必须的。
S23、获取与文档相应地段落特征信息;其中,该步骤采用了如图1、图2所描述的具体步骤,在此不再赘述。
S24、将所述文档的段落特征信息与至少一个未验证版权属性的已有文档的段落特征信息进行比对;其中,具体执行该比对的步骤采用了如图1中的S2步骤,在此不再赘述。在本实施方式中,所述已有文档是事先建立的未验证版权数据库中存储的已有文档,所述已有文档的段落特征信息是通过所述未验证版权数据库建立的索引信息,通过将所述文档的段落特征信息与该索引中的已有文档的段落特征信息进行比对,来确认所述已有文档的版权属性,该建立所述索引信息的步骤将在下述的图6进行详细说明。
S25、判断所述文档与一个或多个已有文档是否相似;在本实施方式中,该具体执行步骤可采用如图1所述的S3步骤,在此不再赘述。值得一提的是:在该步骤中,所述文档与已有文档的关系一般是一对多,即是一个正版文档很有可能对应多个相似的盗版文档/疑似盗版文档,以如此的方式进行比对,可批量的处理与所述正版文档相对应的多个盗版文档/疑似盗版文档。当判定所述文档与已有文档相似,则进入S26步骤;当判定所述文档与已有文档不相似,则直接进入S29步骤;
S26、将与所述文档相似的一个或多个所述已有文档的版权属性定义为疑似盗版文档;优选地,可将一个或多个所述疑似盗版文档聚合为疑似表,并将所述疑似表和/或疑似盗版文档存储于服务器中的一指定路径,审核人员可通过进入该指定路径访问所述疑似表和/或疑似盗版文档,以执行下述S27步骤,当然,也可将所述疑似表和/或疑似盗版文档主动推送到指定审核人员端,以便审核人员第一时间处理该审核,例如通过电子邮件推送。在本发明的另一实施方式中,可将与所述文档相似的一个或多个所述已有文档的版权属性直接定义为盗版文档,并进入S28步骤,直接删除所述盗版文档;
S27、审核所述疑似盗版文档,确认其是否为盗版文档;若确认为盗版文档,则进入S28步骤,若确认为非盗版文档,则进入S29步骤;
S28、删除所述盗版文档;在本实施方式中,即是将所述盗版文档从所述未验证版权数据库中删除。
S29、保留所述非盗版文档。优选地,在本实施方式中,还将所述非盗版文档的版权属性标记为已验证,和/或将所述非盗版文档复制/移动至已验证版权数据库。作为本实施方式的一个特例,该已验证版权数据库可是上述的正版数据库。
优选地,在本实施方式中,还可不断的重复上述步骤,直至对存储于所述未验证版权数据库中所有的已有文档完成筛选,即是删除盗版文档。
通过上述流程,可批量的处理服务器端存储的已有文档的版权属性检测,效率较高。
如图5所示,为本发明一实施方式中,该正版数据库以及根据所述正版数据库产生的索引信息可用于在通过文档检测方法的判断结果得到所述文档的版权属性。该建立所述索引信息的方法,包括以下步骤:
S30、获取已验证为正版的数字文件;该获取渠道可以是通过授权的第三方获取,该第三方可包括合作网站、作家、作家协会、高校、出版社等等合法的途径。
S31、识别所述数字文件是否为文档;若是,则进入S33步骤,若否,则进行S32步骤,对该数字文件进行转换后,再进入S33步骤;在本步骤中,可通过识别所述数字文件的后缀名,以判断所述数字文件是否为文档,例如,若该数字文件为文本,其后缀名为txt、doc等等关于文档的后缀,则判断该数字文件为文档;若该数字文件为图片、PDF等,其后缀名为jpg、bmp、pdf等非文档的后缀,则判断该数字文件为非文档。当然,在所述在线文档网站的服务器上也可规定,只能上传文档文件,这样,即可排除掉其他非文档内的文件,即是此步骤并非必须的。
S32、通过算法将所述数字文件转换为文档;在本实施方式中,该算法可采用业界较为普遍的OCR识别算法。本领域普通技术人员可通过现有技术数量掌握,在此就不再赘述。当然,在所述在线文档网站的服务器上也可规定,只能上传文档文件,这样,即可排除掉其他非文档内的文件,即是此步骤并非必须的。
S33、提取所述数字文件的段落特征信息并建立索引。该提取段落特征信息的方法可参照图1、图2中所揭示的方法,在此不再赘述。优选地,可将该索引存储于第一索引单元,以便供候选查询。当然在另一实施方式中,除了将所述段落特征信息建立索引,还将所述文档的标题、作者、字数、篇幅、字词等信息也建立相应索引,以满足不同类型的查询。
如图6所示,为本发明一实施方式中,未验证版权数据库以及根据所述未验证版权数据库产生的索引信息可用于在通过文档检测方法的判断结果得到所述已有文档的版权属性。该建立所述索引信息的方法,包括以下步骤:
S40、获取已有的未验证版权属性的数字文件;优选地,在本实施方式中,所述未验证版权属性的数字文件为已经上传至在线文档数据库的数字文件,其可能是已经在线发布的未验证版权属性的数字文件,也可是暂未发布的未验证版权属性的数字文件。该未验证版权属性的数字文件大多来自用户或服务商上传,并未经过正规途径验证其版权属性。
S41、识别所述数字文件是否为文档;若是,则进入S43步骤,若否,则进行S42步骤,对该数字文件进行转换后,再进入S43步骤;在本步骤中,可通过识别所述数字文件的后缀名,以判断所述数字文件是否为文档,例如,若该数字文件为文本,其后缀名为txt、doc等等关于文档的后缀,则判断该数字文件为文档;若该数字文件为图片、PDF等,其后缀名为jpg、bmp、pdf等非文档的后缀,则判断该数字文件为非文档。当然,在所述在线文档网站的服务器上也可规定,只能上传文档文件,这样,即可排除掉其他非文档内的文件,即是此步骤并非必须的。
S42、通过算法将所述数字文件转换为文档;在本实施方式中,该算法可采用业界较为普遍的OCR识别算法。本领域普通技术人员可通过现有技术数量掌握,在此就不再赘述。当然,在所述在线文档网站的服务器上也可规定,只能上传文档文件,这样,即可排除掉其他非文档内的文件,即是此步骤并非必须的。
S43、提取所述数字文件的段落特征信息并建立索引。该提取段落特征信息的方法可参照图1、图2中所揭示的方法,在此不再赘述。优选地,可将该索引存储于第二索引单元,以便供候选查询。当然在另一实施方式中,除了将所述段落特征信息建立索引,还将所述文档的标题、作者、字数、篇幅、字词等信息也建立相应索引,以满足不同类型的查询。
如图7所示,为本发明一实施方式中文档检测装置的模块图。所述文档检测装置包括了获取单元10、比对单元11、判断单元12、第一接收单元13、识别单元14、转换单元15、存储单元16、第二接收单元17、正版数据库18、第一索引单元19、为验证版权数据库20、第二索引单元21、反馈单元22、发布单元23,以及处理单元24。
在本发明一实施方式中,所述获取单元,用于获取与文档相应地段落特征信息;其中,所述文档指的是以文本为主体的电子文件,优选地,在本实施方式中,所述文档也可是可进行文字编辑的电子文件,例如txt文件、doc文件等。通过识别该电子文件中的换行符,即可得到所述文档的段落信息,将所述文档分为一个或多个段落。在本发明最佳实施方式中,在得到所述一个或多个段落后,可通过哈希算法计算出所述一个或多个段落的段落特征信息,优选地,该段落特征信息为预设特征位的段落签名,为了提高比对单元中与已有文档的段落特征信息比对的效率,同时兼顾比对的准确度,在本发明最佳实施方式中,该预定特征位为64位,例如:110101000100…011(总共64位,每一位取值0或1,没有其他值),当然,在本发明的其他实施方式中,该预定特征位还可为128位、256位等。其中,在获得所述预定特征位的段落特征时,所述获得单元可用于:对文档中每一个段落进行切词,得到该段落的词和词频的二元组列表;对所述列表中的二元组进行初始权重向量计算;将所述二元组通过哈希算法进行计算,得到预设特征位的哈希字符串;将所述哈希字符串映射至所述权重向量中;具体为:判断所述哈希字符串中的每一位是0还是1,若是0的话,则在映射至所述权重向量相应位时,对该位进行减权,即是(-log(f+0.1));若是1的话,则在映射至所述权重向量相应位时,对该位进行加权,即是(+log(f+0.1)),需要说明的是:f是单词的出现频率,如果计算单位为段落,f则是该单词在段落中出现的总数量,如果为全文,f则是该单词在全文中出现的总数量;以及,计算权重向量对应位的值,获得预设特征位的段落签名。具体为:判断所述权重向量对应位的值是否大于0;若大于0,则将该权重向量对应位的值设为1,若小于等于0,则将该权重向量对应位的值设为0,这样,即可获得所述预设特征位的段落签名。
比对单元,用于将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;在本发明的最佳实施方式中,即是将所述文档得到预设特征位的段落签名与已有文档的预设特征位的段落签名按照一定算法计算,优选地,是通过汉明码距离计算文档的段落签名与已有的段落签名的距离,若该距离大于预定的第一阈值时,则认为该两个段落不相似,若该距离小于等于预定的第一阈值时,则认为该两个段落相似,在本发明最佳实施方式中,该第一阈值为6。当然,该比对也可包含在已有文档的索引库中进行查询,即是通过所述文档的段落特征和多个已有文档的段落特征信息进行比对,该索引库的构建方式将在下述结合图5、图6进行具体说明。
判断单元,用于根据所述比对结果判断是否具有与所述文档相似的已有文档。当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值大于等于设定的第二阈值时,判定所述文档与已有文档相似;当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值小于设定的第二阈值时,则判定所述文档与已有文档不相似。所述第二阈值为所述相似段落数/文档总段落数的比值,其可根据情况进行设定,例如,若需要比对较为精确,则可将所述第二阈值设定大些,若担心比对遗漏,则可将所述第二阈值设定小些。在本发明最佳实施方式中,该第二阈值被设定为0.5~1的区间内。优选地,在本发明的最佳实施方式中,不仅需要文档与已有文档的相似段落数大于等于设定的第二阈值,还需要满足所述文档的整体段落签名和所述已有文档的整体段落签名的汉明码距离小于等于第一阈值,该整体段落签名的获得方式可参获取单元中揭示的内容,即是将整篇文章作为一个段落,通过哈希算法计算出该段落的段落签名。
通过上述单元,可较为准确地进行文档之间的相似度比对,避免作弊行为,且查询效率较高、服务器/计算机处理压力较小。
在本发明一实施方式中,所述文档识别装置还可用于甄别文档的版权属性,所述判断单元还用于根据上述判断结果得到所述文档的版权属性;以及根据上述判断结果得到所述已有文档的版权属性。优选地,所述判断单元根据不同的应用场景,还用于将与已有文档相似的所述文档的版权属性定义为盗版文档或疑似盗版文档;或用于将与所述文档相似的一个或多个所述已有文档的属性定义为盗版文档或疑似盗版文档。
在该实施方式中,所述文档识别装置还包括:
第一接收单元13,用于接收上传的未验证版权属性的数字文件。一般地,可通过浏览器或客户端软件登录在线文档网站,并将本地的数字文件上传至在线文档网站的服务器,即是在线文档网站的服务器接收上传的数字文件,一般地,该数字文件是未验证版权属性的,其可能是通过各种渠道得到的数字文件,例如,下载,扫描等。该数字文件可包括多种形式,如文本、电子书、图片、PDF等等。在本实施方式的应用场景中,一般是通过用户或服务商从客户端上传所述未验证版权属性的数字文件。
识别单元14,识别所述数字文件是否为文档。在本单元中,可通过识别所述数字文件的后缀名,以判断所述数字文件是否为文档,例如,若该数字文件为文本,其后缀名为txt、doc等等关于文档的后缀,则判断该数字文件为文档;若该数字文件为图片、PDF等,其后缀名为jpg、bmp、pdf等非文档的后缀,则判断该数字文件为非文档。当然,在所述在线文档网站的服务器上也可规定,只能上传文档文件,这样,即可排除掉其他非文档内的文件,即是此单元并非必须的。
转换单元15,用于通过算法将所述数字文件转换为文档;优选地,在本实施方式中,该算法可采用业界较为普遍的OCR识别算法。本领域普通技术人员可通过现有技术数量掌握,在此就不再赘述。当然,在所述在线文档网站的服务器上也可规定,只能上传文档文件,这样,即可排除掉其他非文档内的文件,即是此单元并非必须的。
存储单元16,将所述文档进行存储;其中,存储的文档包括了识别为文档的数字文件,和通过转换得到的文档。当然,该步骤也非必须,该文档可寄存于内存(RAM)中,其在完成甄别版权属性后,即可从所述内存中删除。
正版数据库18,用于存储已验证为正版的数字文件。该正版的数字文件可通过授权的第三方获取该正版的数字文件,该第三方可包括合作网站、作家、作家协会、高校、出版社等等合法的途径,并可将所述正版的数字文件上传至服务器,即是服务器接收上传的已经验证为正版的数字文件并存储于所述正版数据库18中,一般地,该数字文件可包括多种形式,如文本、电子书、图片、PDF等等。
第一索引单元19,用于提取所述正版的数字文件的段落特征信息并建立索引。优选地,该第一索引单元19是联合所述获取单元10提取数字文件的段落特征信息,该提取段落特征信息的方法可参照图1、图2中所揭示的方法,在此不再赘述。优选地,可将该索引存储于第一索引单元,以便供候选查询。当然在另一实施方式中,除了将所述段落特征信息建立索引,还将所述文档的标题、作者、字数、篇幅、字词等信息也建立相应索引,以满足不同类型的查询。
第二接收单元17,用于接收已经验证为正版的数字文件。在本单元中,可通过授权的第三方获取该正版的数字文件,也可从上述正版数据库中获取该正版的数字文件,该第三方可包括合作网站、作家、作家协会、高校、出版社等等合法的途径,并可将所述正版的数字文件上传至服务器,即是服务器接收上传的已经验证为正版的数字文件,一般地,该数字文件可包括多种形式,如文本、电子书、图片、PDF等等。
未验证版权数据库20,用于存储已有的未验证版权属性的数字文件。优选地,在本实施方式中,所述未验证版权属性的数字文件为已经上传至在线文档数据库的数字文件,其可能是已经在线发布的未验证版权属性的数字文件,也可是暂未发布的未验证版权属性的数字文件。该未验证版权属性的数字文件大多来自用户或服务商上传,并未经过正规途径验证其版权属性。
第二索引单元21,用于提取所述未验证版权属性的数字文件的段落特征信息并建立索引。优选地,该第二索引单元21是联合所述获取单元10提取数字文件的段落特征信息,该提取段落特征信息的方法可参照图1、图2中所揭示的方法,在此不再赘述。当然,在另一实施方式中,除了将所述段落特征信息建立索引,还将所述文档的标题、作者、字数、篇幅、字词等信息也建立相应索引,以满足不同类型的查询。
反馈单元22,用于发送反馈信息。优选地,是当审核确认所述文档为盗版文档后发送反馈信息的单元。在本实施方式中,可发送反馈信息至上传所述未验证版权属性的数字文件方,一般来说,可通过提示框形式发送所述反馈信息,例如,在浏览器中弹出提示框、在客户端中弹出提示框等。当然也可返回一新页面至浏览器,以提示上传方上传的数字文件的内容为盗版或未通过版权认证。
发布单元23,用于在线发布所述非盗版文档。优选地,是用于当审核确认所述文档为非盗版文档后将所述文档在线发布。在一实施方式中,是将所述非盗版文档加入在线文档数据库,优选地,在本发明的一个特殊实施方式中,所述在线文档数据库即是正版数据库中,通过加入所述非盗版文档至所述正版数据库,可有效的扩充所述正版数据库中的正版文档,以更有效的甄别将来上传的数字文件。
处理单元24,用于删除所述盗版文档。优选地,是用于当审核确认所述文档为盗版文档后删除所述盗版文档。
在本实施方式中,所述处理单元24还用于当审核确认所述文档为非盗版文档后,将所述非盗版文档的版权属性标记为已验证,和/或将所述非盗版文档复制/移动至已验证版权数据库。作为本实施方式的一个特例,该已验证版权数据库可是上述的正版数据库。
通过上述单元,可在文档上传时,即对该文档进行检测,以避免后续对文档版权属性检测时,给服务器造成的不必要压力;且可批量的处理服务器端存储的已有文档的版权属性检测,效率较高。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。
以上所描述的装置实施方式仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (49)

1.一种文档检测方法,其特征在于,所述文档检测方法包括以下步骤:
S1、获取与文档相应地段落特征信息;
S2、将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;
S3、根据所述比对结果判断是否具有与所述文档相似的已有文档;
其中,所述获取与文档相应地段落特征信息包括:
S100、对文档中每一个段落进行切词,得到该段落的词和词频的二元组列表;
S101、对所述列表中的二元组进行初始权重向量计算;
S102、将所述二元组通过哈希算法进行计算,得到预设特征位的哈希字符串;
S103、将所述哈希字符串映射至所述权重向量中;
S104、计算所述权重向量对应位的值,获得段落特征信息。
2.根据权利要求1所述的文档检测方法,其特征在于,所述段落特征信息为预设特征位的段落签名。
3.根据权利要求2所述的文档检测方法,其特征在于,所述S103步骤具体包括:
判断所述哈希字符串中的每一位是0还是1,若是0的话,则在映射至所述权重向量相应位时,对该位进行减权;若是1的话,则在映射至所述权重向量相应位时,对该位进行加权。
4.根据权利要求3所述的文档检测方法,其特征在于,所述S104步骤具体包括:
判断所述权重向量对应位的值是否大于0;若大于0,则将所述权重向量对应位的值设为1,若小于等于0,则将该权重向量对应位的值设为0。
5.根据权利要求2所述的文档检测方法,其特征在于,当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值大于等于设定的第二阈值时,判定所述文档与已有文档相似;当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值小于设定的第二阈值时,则判定所述文档与已有文档不相似。
6.根据权利要求5所述的文档检测方法,其特征在于,所述相似段落是通过以下步骤得到的:
通过算法将所述文档得到预设特征位的段落签名与已有文档的预设特征位的段落签名进行计算,若计算结果大于预定的第一阈值,则所述段落不相似;若计算结果小于等于预定的第一阈值,则所述段落相似。
7.根据权利要求6所述的文档检测方法,其特征在于,所述“通过算法将所述文档得到预设特征位的段落签名与已有文档的预设特征位的段落签名进行计算”是通过汉明码距离计算所述文档的段落签名与所述已有文档的段落签名的距离。
8.根据权利要求5所述的文档检测方法,其特征在于,将与已有文档相似的所述文档的版权属性定义为盗版文档。
9.根据权利要求5所述的文档检测方法,其特征在于,将与已有文档相似的所述文档的版权属性定义为疑似盗版文档。
10.根据权利要求9所述的文档检测方法,其特征在于,审核所述疑似盗版文档,若审核确认所述疑似盗版文档为盗版文档,则发送反馈信息;若审核确认所述疑似盗版文档为非盗版文档,则在线发布所述非盗版文档。
11.根据权利要去5所述的文档检测方法,其特征在于,将与所述文档相似的一个或多个所述已有文档的版权属性定义为盗版文档。
12.根据权利要求5所述的文档检测方法,其特征在于,将与所述文档相似的一个或多个所述已有文档的属性定义为疑似盗版文档。
13.根据权利要求12所述的文档检测方法,其特征在于,审核所述疑似盗版文档,若审核确认所述疑似盗版文档为盗版文档,则删除所述盗版文档;若审核确认所述疑似盗版文档为非盗版文档,则保留所述非盗版文档。
14.根据权利要求13所述的文档检测方法,其特征在于,将所述非盗版文档的版权属性标记为已验证,和/或将所述非盗版文档复制/移动至已验证版权数据库。
15.根据权利要求14所述的文档检测方法,其特征在于,重复权利要求17步骤,直至完成对所有已有文档的筛选。
16.根据权利要求1所述的文档检测方法,其特征在于,根据所述判断结果得到所述文档的版权属性。
17.根据权利要求16所述的文档检测方法,其特征在于,在所述S1步骤前,还包括构建所述已有文档的段落特征信息步骤:
获取已验证为正版的数字文件;
提取所述数字文件的段落特征信息并建立索引。
18.根据权利要求17所述的文档检测方法,其特征在于,所述“构建所述已有文档的段落特征信息”步骤还包括:
识别所述数字文件是否为文档;
若是,则提取所述文档的段落特征信息并建立索引,若否,则通过算法将所述数字文件转换为文档后,提取所述文档的段落特征信息并建立索引。
19.根据权利要求17所述的文档检测方法,其特征在于,在所述“构建所述已有文档的段落特征信息”步骤后,还包括:
接收上传的未验证版权属性的数字文件。
20.根据权利要求19所述文档检测方法,其特征在于,在所述“接收上传的未验证版权属性的数字文件”步骤后,还包括:
判断所述数字文件是否为文档;
若是,则执行S1步骤,若否,则通过算法将所述数字文件转换为文档后,执行S1步骤。
21.根据权利要求20所述的文档检测方法,其特征在于,在所述S1步骤前,还包括将所述文档进行存储。
22.根据权利要求1所述的文档检测方法,其特征在于,根据所述判断结果得到所述已有文档的版权属性。
23.根据权利要求22所述的文档检测方法,其特征在于,在所述S1步骤前,还包括构建所述已有文档的段落特征信息步骤:
获取已有的未验证版权属性的数字文件;
提取所述数字文件的段落特征信息并建立索引。
24.根据权利要求23所述的文档检测方法,其特征在于,所述“构建所述已有文档的段落特征信息”步骤还包括:
识别所述数字文件是否为文档;
若是,则提取所述文档的段落特征信息并建立索引,若否,则通过算法将所述数字文件转换为文档后,提取所述文档的段落特征信息并建立索引。
25.根据权利要求22所述的文档检测方法,其特征在于,在所述“构建所述已有文档的段落特征信息”步骤后,还包括:
接收已验证为正版的数字文件。
26.根据权利要求25所述文档检测方法,其特征在于,在所述“接收已验证为正版的数字文件”步骤后,还包括:
判断所述数字文件是否为文档;
若是,则执行S1步骤,若否,则通过算法将所述数字文件转换为文档后,执行S1步骤。
27.一种文档检测装置,其特征在于,所述文档检测装置包括:
获取单元,用于对文档中每一个段落进行切词,得到该段落的词和词频的二元组列表;对所述列表中的二元组进行初始权重向量计算;将所述二元组通过哈希算法进行计算,得到预设特征位的哈希字符串;将所述哈希字符串映射至所述权重向量中;计算所述权重向量对应位的值,获得段落特征信息;
比对单元,用于将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;
判断单元,用于根据所述比对结果判断是否具有与所述文档相似的已有文档。
28.根据权利要求27所述的文档检测装置,其特征在于,所述段落特征信息为预设特征位的段落签名。
29.根据权利要求28所述的文档检测装置,其特征在于,所述获取装置用于:判断所述哈希字符串中的每一位是0还是1,若是0的话,则在映射至所述权重向量相应位时,对该位进行减权;若是1的话,则在映射至所述权重向量相应位时,对该位进行加权。
30.根据权利要求29所述的文档检测装置,其特征在于,所述获取装置用于:判断所述权重向量对应位的值是否大于0;若大于0,则将所述权重向量对应位的值设为1,若小于等于0,则将该权重向量对应位的值设为0。
31.根据权利要求27所述的文档检测装置,其特征在于,所述判断单元用于:当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值大于等于设定的第二阈值时,判定所述文档与已有文档相似;当所述文档与所述已有文档的相似段落数与所述文档的总段落数的比值小于设定的第二阈值时,则判定所述文档与已有文档不相似。
32.根据权利要求31所述的文档检测装置,其特征在于,所述比对单元用于通过算法将所述文档得到预设特征位的段落签名与已有文档的预设特征位的段落签名进行计算,若计算结果大于预定的第一阈值,则所述段落不相似;若计算结果小于等于预定的第一阈值,则所述段落相似。
33.根据权利要求32所述的文档检测装置,其特征在于,通过汉明码距离计算所述文档的段落签名与所述已有文档的段落签名的距离。
34.根据权利要求31所述的文档检测装置,其特征在于,所述判断单元用于将与已有文档相似的所述文档的版权属性定义为盗版文档。
35.根据权利要求31所述的文档检测装置,其特征在于,所述判断单元用于将与已有文档相似的所述文档的版权属性定义为疑似盗版文档。
36.根据权利要求35所述的文档检测装置,其特征在于,所述文档检测装置还包括用于当审核确认所述文档为盗版文档后发送反馈信息的单元。
37.根据权利要求35所述的文档检测装置,其特征在于,所述文档检测装置还包括用于当审核确认所述文档为非盗版文档后在线发布所述非盗版文档的单元。
38.根据权利要去31所述的文档检测装置,其特征在于,所述判断单元用于将与所述文档相似的一个或多个所述已有文档的属性定义为盗版文档。
39.根据权利要求31所述的文档检测装置,其特征在于,所述判断单元用于将与所述文档相似的一个或多个所述已有文档的属性定义为疑似盗版文档。
40.根据权利要求39所述的文档检测装置,其特征在于,所述文档检测装置还包括用于当审核确认所述文档为盗版文档后删除所述盗版文档删除所述盗版文件的处理单元。
41.根据权利要求40所述的文档检测装置,其特征在于,所述处理单元还用于当审核确认所述文档为非盗版文档后,将所述非盗版文档的版权属性标记为已验证,和/或将所述非盗版文档复制/移动至已验证版权数据库。
42.根据权利要求27所述的文档检测装置,其特征在于,所述判断单元还用于根据所述判断结果得到所述文档的版权属性。
43.根据权利要求42所述的文档检测装置,其特征在于,所述文档检测装置还包括:
用于存储已验证为正版的数字文件的单元;以及
用于提取所述数字文件的段落特征信息并建立索引的单元。
44.根据权利要求42所述的文档检测装置,其特征在于,所述文档检测装置还包括:
用于接收上传的未验证版权属性的数字文件的单元。
45.根据权利要求27所述的文档检测装置,其特征在于,所述判断单元还用于根据所述判断结果得到所述已有文档的版权属性。
46.根据权利要求45所述的文档检测装置,其特征在于,所述文档检测装置还包括:
用于存储已有的未验证版权属性的数字文件的单元;以及
用于提取所述数字文件的段落特征信息并建立索引的单元。
47.根据权利要求45所述的文档检测装置,其特征在于,所述文档检测装置还包括:
用于接收已验证为正版的数字文件的单元。
48.根据权利要求42至47中任意一项所述的文档检测装置,其特征在于,所述文档检测装置还包括:
用于识别所述数字文件是否为文档的单元;
用于通过算法将所述数字文件转换为文档的单元。
49.根据权利要求42至47中任意一项所述的文档检测装置,其特征在于,所述文档检测装置还包括用于将所述文档进行存储的单元。
CN201210340026.1A 2011-03-31 2011-03-31 文档检测方法及装置 Active CN102915295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210340026.1A CN102915295B (zh) 2011-03-31 2011-03-31 文档检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210340026.1A CN102915295B (zh) 2011-03-31 2011-03-31 文档检测方法及装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2011100808382A Division CN102156689B (zh) 2011-03-31 2011-03-31 文档检测方法及装置

Publications (2)

Publication Number Publication Date
CN102915295A CN102915295A (zh) 2013-02-06
CN102915295B true CN102915295B (zh) 2015-03-25

Family

ID=47613667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210340026.1A Active CN102915295B (zh) 2011-03-31 2011-03-31 文档检测方法及装置

Country Status (1)

Country Link
CN (1) CN102915295B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008261B (zh) * 2013-02-27 2017-03-01 联想(北京)有限公司 信息处理的方法及电子设备
CN103412905A (zh) * 2013-07-31 2013-11-27 广联达软件股份有限公司 Pdf文件对比方法及系统
CN105681040B (zh) * 2014-11-17 2019-08-09 阿里巴巴集团控股有限公司 信息验证方法及装置
CN104615768B (zh) * 2015-02-13 2017-06-16 广州神马移动信息科技有限公司 文档的同本识别方法及装置
CN107229939B (zh) * 2016-03-24 2020-12-04 北大方正集团有限公司 相似文档的判定方法和装置
CN106658196A (zh) * 2017-01-11 2017-05-10 北京小度互娱科技有限公司 基于视频内嵌字幕来嵌入广告的方法及装置
CN107016386A (zh) * 2017-05-23 2017-08-04 重庆大学 一种手持式反盗版系统
CN110019642A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN111753505A (zh) * 2019-09-30 2020-10-09 北京沃东天骏信息技术有限公司 一种文档处理方法、装置、服务器及存储介质
CN111737966B (zh) * 2020-06-11 2024-03-01 北京百度网讯科技有限公司 文档重复度检测方法、装置、设备和可读存储介质
CN112001163B (zh) * 2020-09-03 2024-01-30 深圳证券信息有限公司 一种文件完整性的检测方法、系统、电子设备及存储介质
CN113138964B (zh) * 2021-05-20 2021-11-19 掌阅科技股份有限公司 电子书信息展示方法、用户终端及计算机存储介质
CN113626554B (zh) * 2021-08-17 2023-08-25 北京计算机技术及应用研究所 一种计算汉语文档哈希值的方法
CN115774785B (zh) * 2023-02-10 2023-04-25 京华信息科技股份有限公司 一种基于特征向量空间的查重方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833579B (zh) * 2010-05-11 2012-09-05 同方知网(北京)技术有限公司 一种自动检测学术不端文献的方法及系统
CN102156689B (zh) * 2011-03-31 2012-11-28 百度在线网络技术(北京)有限公司 文档检测方法及装置

Also Published As

Publication number Publication date
CN102915295A (zh) 2013-02-06

Similar Documents

Publication Publication Date Title
CN102915295B (zh) 文档检测方法及装置
CN102156689B (zh) 文档检测方法及装置
US8788925B1 (en) Authorized syndicated descriptions of linked web content displayed with links in user-generated content
US10216848B2 (en) Method and system for recommending cloud websites based on terminal access statistics
EP2693356B1 (en) Detecting pirated applications
JP5542859B2 (ja) ログ管理装置、ログ蓄積方法、ログ検索方法、およびプログラム
US8972374B2 (en) Content acquisition system and method of implementation
US8321382B2 (en) Validating aggregate documents
CN108667766B (zh) 文件探测方法及文件探测装置
US9069771B2 (en) Music recognition method and system based on socialized music server
CN104866985A (zh) 快递单号识别方法、装置及系统
KR20140016263A (ko) 소유권 해결 시스템
CN102436402A (zh) 一种软件中的模块修复方法及该软件设备
CN105488402A (zh) 一种暗链的检测方法及系统
CN101739522B (zh) Drm文件完整性的保护方法及装置
CN106713114B (zh) 一种核验信息处理方法及设备
CN112347328A (zh) 一种网络平台识别方法、装置、设备及可读存储介质
CN115935042B (zh) 一种基于融合模型的质押资产智能查重方法及系统
KR101563628B1 (ko) 도서 서지정보 오류 검출 방법, 오류 검출 장치 및 오류 검출 시스템
KR101436114B1 (ko) 디지털 컨텐츠의 다운로드 감지 장치 및 방법
KR101990998B1 (ko) 폰트 저작권 보호 시스템 및 방법
JP7269747B2 (ja) 検出装置、検出方法、および検出プログラム
CN112395476A (zh) 一种工程资料管理的方法
KR101709952B1 (ko) 개인정보 점검 관리 서버 및 이를 이용한 개인정보 점검 관리 방법
CN110879835A (zh) 基于区块链的数据处理方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant