CN102509042A - 文字作品数字指纹库的比对方法及系统 - Google Patents

文字作品数字指纹库的比对方法及系统 Download PDF

Info

Publication number
CN102509042A
CN102509042A CN2011103128569A CN201110312856A CN102509042A CN 102509042 A CN102509042 A CN 102509042A CN 2011103128569 A CN2011103128569 A CN 2011103128569A CN 201110312856 A CN201110312856 A CN 201110312856A CN 102509042 A CN102509042 A CN 102509042A
Authority
CN
China
Prior art keywords
print
writing
digital finger
compared
digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011103128569A
Other languages
English (en)
Inventor
郑达韡
陆坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shengle Information Technolpogy Shanghai Co Ltd
Original Assignee
Shengle Information Technolpogy Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengle Information Technolpogy Shanghai Co Ltd filed Critical Shengle Information Technolpogy Shanghai Co Ltd
Priority to CN2011103128569A priority Critical patent/CN102509042A/zh
Publication of CN102509042A publication Critical patent/CN102509042A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Collating Specific Patterns (AREA)

Abstract

本发明提供一种文字作品数字指纹库的比对方法及系统,通过建立已有文字作品的分类数据库的物理优化,以及采集各级颗粒度数字指纹并按照颗粒度数字指纹的由大到小的顺序比对的代数优化,改变大规模文字作品数据库查询方式,实现文字作品的高效查询比对,提高文字作品版权追踪的效率。

Description

文字作品数字指纹库的比对方法及系统
技术领域
本发明涉及数字指纹应用领域,尤其涉及一种文字作品数字指纹库的比对方法及系统。
背景技术
网络文学,是随着互联网的普及而产生的。互联网络为上亿网民提供了多如恒沙的各类文学资料信息,与此同时,一种以这种新兴媒体为载体、依托、手段,以网民为接受对象,具有不同于传统文学特点的网络文学悄然勃兴。
由于借助强大的网络媒介,网络文学具有多样性、互动性和知识产权保护困难的特点。其形式可以类似传统文学,也可以是博文、帖子等非传统文体。实时回复、实时评论和投票是网络文学的重要特征。
目前,网络书站的数据库收录大量原创网络文字作品,网络书站负有保护其版权的责任,但是由于网络文学的易获性使得盗版复制行为越来越猖獗。这种行为不仅危及着作者的切身利益,而且影响了科学文化的健康发展。
文字作品对比,就是判断一个文字作品的内容是否是盗版复制。
当网络书站的数据库收录作品量达到一定级别时,从该数据库中进行文字作品对比时通常会花费较长的时间,这将造成高额的时间成本,数据库系统的性能和数据组织管理能力也会因此大大的减弱,甚至会造成系统的崩溃。
因此,需要一种文字作品比对方法及系统,能够优化大规模文字作品数据库查询,实现文字作品的高效地查询比对。
发明内容
本发明的目的在于提供一种文字作品数字指纹库的比对方法及系统,利用数字指纹的颗粒度大小,优化大规模文字作品数据库查询,实现文字作品的高效地查询比对。
为解决上述问题,本发明提供一种文字作品数字指纹库的比对方法,包括:
步骤S1:对已有文字作品进行分类,建立分类数据库;
步骤S2:采集所述分类数据库中的每部已有文字作品的大小不同的颗粒度数字指纹,建立所述分类数据库的数字指纹库;
步骤S3:根据待比对的文字作品的分类确定其所属的分类数据库;
步骤S4:采集所述待比对的文字作品的大小不同的颗粒度数字指纹;
步骤S5:按照所述待比对的文字作品的颗粒度数字指纹由大到小的顺序,完成待比对的文字作品在其所属的分类数据库的数字指纹库中的查询比对。
进一步的,所述颗粒度数字指纹按照由大到小的顺序依次为整部数字指纹、章节数字指纹和段落数字指纹。
进一步的,所述步骤S5具体包括:
步骤S51:将所述待比对的文字作品的整部数字指纹与其所属的分类数据库的数字指纹库中的整部数字指纹进行比对,若不匹配,比对结束;若匹配,继续步骤S52;
步骤S52:将所述待比对的文字作品的章节数字指纹与整部数字指纹匹配的已有文字作品的章节数字指纹进行比对,若不匹配,比对结束;若匹配,继续步骤S53;
步骤S53:将所述待比对的文字作品的段落数字指纹与章节数字指纹匹配的已有文字作品的段落数字指纹进行比对,若不匹配,比对结束;若匹配,将所述待比对的文字作品的来源进行标记和存档。
进一步的,所属同一分类数据库的已有文字作品,按照存取的频率不同存放在其所属的分类数据库的不同位置。
相应的,本发明还提供一种文字作品数字指纹库的比对系统,包括:
分类数据库模块,用于对已有文字作品进行分类,建立分类数据库;
数字指纹库模块,用于采集所述分类数据库中的每部已有文字作品的大小不同的颗粒度数字指纹,建立所述分类数据库的数字指纹库;
分类查询模块,用于根据待比对的文字作品的分类确定其所属的分类数据库;
指纹采集模块,用于采集所述待比对的文字作品的大小不同的颗粒度数字指纹;
指纹比对模块,用于按照所述待比对的文字作品的颗粒度数字指纹由大到小的顺序,完成待比对的文字作品在其所属的分类数据库的数字指纹库中的查询比对。
进一步的,所述颗粒度数字指纹按照颗粒度由大到小的顺序依次为整部数字指纹、章节数字指纹和段落数字指纹。
进一步的,所述指纹采集模块包括:
整部数字指纹采集单元,用于采集所述待比对的文字作品的整部数字指纹;
章节数字指纹采集单元,用于采集所述待比对的文字作品的章节数字指纹;
段落数字指纹采集单元,用于采集所述待比对的文字作品的段落数字指纹。
进一步的,所述指纹比对模块包括:
整部数字指纹比对单元,用于将所述待比对的文字作品的整部数字指纹与其所属的分类数据库的数字指纹库中的整部数字指纹进行比对;
章节数字指纹比对单元,用于将所述待比对的文字作品的章节数字指纹与整部数字指纹匹配的已有文字作品的章节数字指纹进行比对;
段落数字指纹比对单元,用于将所述待比对的文字作品的段落数字指纹与章节数字指纹匹配的已有文字作品的段落数字指纹进行比对,若不匹配,比对结束;若匹配,将所述待比对的文字作品的来源进行标记和存档。
进一步的,所属同一分类数据库的文字作品,按照存取的频率不同存放在其所属的分类数据库的不同位置。
与现有技术相比,本发明的文字作品数字指纹库的比对方法及系统,通过建立已有文字作品的分类数据库的物理优化,以及采集各级颗粒度数字指纹并按照颗粒度数字指纹的由大到小的顺序比对的代数优化,改变大规模文字作品数据库查询方式,实现文字作品的高效查询比对,提高文字作品版权追踪的效率。
附图说明
图1是本发明的文字作品数字指纹库的比对方法流程图;
图2是本发明的颗粒度数字指纹从大到小的示意图;
图3是本发明的按颗粒度数字指纹从大到小的比对方法流程图;
图4是本发明具体实施例的章节数字指纹和段落数字指纹比对示意图;
图5是本发明的文字作品数字指纹库的比对系统的结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明提出的文字作品数字指纹库的比对方法及系统作进一步详细说明,凡是以文字形式表现的作品,都是本发明所要保护的文字作品,例如文学作品、历史著作、回忆录、教科书、期刊、论文等等。
如图1所示,本发明提出一种文字作品数字指纹库的比对方法,包括:
步骤S1:对已有文字作品进行分类,建立分类数据库,优选的,所属同一分类数据库的已有文字作品,按照存取的频率不同存放在其所属的分类数据库的不同位置,进一步的,所述已有文字作品为文学作品、历史著作、回忆录、教科书、期刊、论文等形式中的一种文字作品;
步骤S2:采集所述分类数据库中的每部已有文字作品的大小不同的颗粒度数字指纹,建立所述分类数据库的数字指纹库;
步骤S3:根据待比对的文字作品的分类确定其所属的分类数据库,所述待比对的文字作品为文学作品、历史著作、回忆录、教科书、期刊、论文等形式中的一种文字作品;
步骤S4:采集所述待比对的文字作品的大小不同的颗粒度数字指纹;
步骤S5:按照所述待比对的文字作品的颗粒度数字指纹由大到小的顺序,完成待比对的文字作品在其所属的分类数据库的数字指纹库中的查询比对。
如图2所示,根据文字作品的文章结构:整篇、章节、段落提取数字指纹提取和采集大小不同的颗粒度数字指纹,该颗粒度数字指纹按照由大到小的顺序依次为整部数字指纹、章节数字指纹和段落数字指纹。
相应的,如图3所示,所述步骤S5具体包括:
步骤S51:将所述待比对的文字作品的整部数字指纹与其所属的分类数据库的数字指纹库中的整部数字指纹进行比对,若不匹配,比对结束;若匹配,继续步骤S52;
步骤S52:将所述待比对的文字作品的章节数字指纹与整部数字指纹匹配的已有文字作品的章节数字指纹进行比对,若不匹配,比对结束;若匹配,继续步骤S53;
步骤S53:将所述待比对的文字作品的段落数字指纹与章节数字指纹匹配的已有文字作品的段落数字指纹进行比对,若不匹配,比对结束;若匹配,将所述待比对的文字作品的来源进行标记和存档。
图4所示为本发明一具体实施的比对流程,图中分类数据库中的已有文学作品的整部数字指纹与待比对文学作品的整部数字指纹经比对后匹配,接下来进行章节数字指纹的比对,查询该分类数据库的数字指纹库获得该已有文学作品的章节数字指纹(如图中所示),采集得到待比对文学作品的章节数字指纹(如图所示),比对后发现该已有文学作品的章节数字指纹与待比对文学作品的章节数字指纹匹配,那么需要继续比对该已有文学作品的段落数字指纹与待比对文学作品的段落数字指纹;查询该分类数据库的数字指纹库获得该已有文学作品的段落数字指纹(如图中所示),采集得到待比对文学作品的段落数字指纹(如图所示),比对后发现该待比对文学作品的段落数字指纹与该已有文学作品的段落数字指纹匹配,那么说明该待比对文学作品有盗版侵权行为,需要对该待比对文学作品的来源(一般为网站网址)进行标记和存档。
需要说明的是,步骤S1和S3属于物理优化,其余步骤为代数优化。在实际运行中,步骤S1的分类数据库和步骤S2的数字指纹库首次建立后,只需要及时更新即可,后续的每一个待比对的文字作品进行比对时,可直接执行步骤S3至步骤S5。步骤S51中,将待比对的文字作品和其所属分类的分类数据库中的已有文字作品的整部数字指纹进行比对,可过滤掉绝大部分的已有文字作品;然后在步骤S52中,再将待比对的文字作品的章节数字指纹和整部数字指纹匹配的已有文字作品的章节数字指纹进行比对,可过滤掉一部分整部数字指纹匹配的已有文字作品;最后在步骤S53中,对将待比对的文字作品的段落数字指纹和章节数字指纹匹配的已有文字作品的段落数字指纹进行查询比对,从而判断待比对的文字作品和某部已有文字作品的数字指纹是否匹配。
步骤S51至步骤S53可以采用map/reduce完成。Map/reduce是将一个任务切分为很多份,交给n台计算机并行执行,返回的结果再并行的归并,最后得到运算结果。其算法过程是:
步骤101:partition(划分数据):将数据划分为m份;
步骤102:Map(映射):将运算数据的代码map到每个运算节点上并发执行。每个运算节点各自执行自己的任务,执行完毕后将执行结果返回。
步骤103:Partition(归并数据):对m份结果进行归并。
步骤104:reduce(化简):把reduce代码和reduce数据分发到每个运算节点执行,每个运算节点执行完毕返回数据。
在实际进行时,对于一部待比对文字作品的比对,可以采用map/reduce首先将分类数据库的已存文字作品数据划分到不同的服务器上。在不同的服务器上分别执行步骤S51至步骤S53,最后将匹配结果汇总,进行标记和保存;对于多部待比对文字作品的比对,可以采用map/reduce首先将每部待比对文字作品以及其所属的分类数据库的数字指纹库划分到一服务器上。在不同的服务器上分别执行每部待比对文字作品的步骤S51至步骤S53,最后将匹配结果汇总,进行标记和保存,这样就进一步提高比对效率。
相应的,本发明还提供一种文字作品数字指纹库的比对系统,如图5所示,包括:分类数据库模块10、数字指纹库模块11、分类查询模块12、指纹采集模块13以及指纹比对模块14。
分类数据库模块10用于对已有文字作品进行分类,建立分类数据库1,2,...,n。
数字指纹库模块11用于采集分类数据库1,2,...,n中的每部已有文字作品的大小不同的颗粒度数字指纹,建立分类数据库1,2,...,n对应的数字指纹库1,2,...,n。若所述颗粒度数字指纹按照由大到小的顺序依次为整部数字指纹、章节数字指纹和段落数字指纹,每个数字指纹库中均存储有整部数字指纹、章节数字指纹和段落数字指纹,如图4所示,数字指纹库1中存储有整部数字指纹1、章节数字指纹1和段落数字指纹1,数字指纹库2中存储有整部数字指纹2、章节数字指纹2和段落数字指纹2,数字指纹库n中存储有整部数字指纹n、章节数字指纹n和段落数字指纹n。
分类查询模块12用于根据待比对的文字作品的分类确定其所属的分类数据库。
指纹采集模块13用于采集所述待比对的文字作品的大小不同的颗粒度数字指纹,对应于数字指纹库模块11中对已有文字作品的颗粒度数字指纹的采集,对待比对的文字作品采集相同大小的颗粒度数字指纹。指纹采集模块13可包括:
整部数字指纹采集单元131,用于采集所述待比对的文字作品的整部数字指纹;
章节数字指纹采集单元132,用于采集所述待比对的文字作品的章节数字指纹;
段落数字指纹采集单元133,用于采集所述待比对的文字作品的段落数字指纹。
指纹比对模块14,用于按照所述待比对的文字作品的颗粒度数字指纹由大到小的顺序,完成待比对的文字作品在其所属的分类数据库的数字指纹库中的查询比对,包括:
整部数字指纹比对单元141,用于将所述待比对的文字作品的整部数字指纹与其所属的分类数据库的数字指纹库中的整部数字指纹进行比对;
章节数字指纹比对单元142,用于将所述待比对的文字作品的章节数字指纹与整部数字指纹匹配的已有文字作品的章节数字指纹进行比对;
段落数字指纹比对单元143,用于将所述待比对的文字作品的段落数字指纹与章节数字指纹匹配的已有文字作品的段落数字指纹进行比对,若不匹配,比对结束;若匹配,将所述待比对的文字作品的来源进行标记和存档。
综上所述,本发明的文字作品数字指纹库的比对方法及系统,通过建立已存文字作品的分类数据库,采集分类数据库中每部已存文字作品的各级颗粒度数字指纹建立数字指纹库,比对时按照颗粒度数字指纹由大到小的顺序,即整部数字指纹、章节数字指纹、段落数字指纹的顺序,若大颗粒的数字指纹不匹配,则小颗粒的数字指纹就不匹配,来优化大规模文字作品数据库查询,实现文字作品的高效地查询比对,提高文字作品版权追踪的效率,适用于所有以文字形式表达内容的数字作品,包括文学作品、历史著作、回忆录、教科书、期刊、论文等形式的文字作品。
显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种文字作品数字指纹库的比对方法,其特征在于,包括:
步骤S1:对已有文字作品进行分类,建立分类数据库;
步骤S2:采集所述分类数据库中的每部已有文字作品的大小不同的颗粒度数字指纹,建立所述分类数据库的数字指纹库;
步骤S3:根据待比对的文字作品的分类确定其所属的分类数据库;
步骤S4:采集所述待比对的文字作品的大小不同的颗粒度数字指纹;
步骤S5:按照所述待比对的文字作品的颗粒度数字指纹由大到小的顺序,完成待比对的文字作品在其所属的分类数据库的数字指纹库中的查询比对。
2.如权利要求1所述的文字作品数字指纹库的比对方法,其特征在于,所述颗粒度数字指纹按照由大到小的顺序依次为整部数字指纹、章节数字指纹和段落数字指纹。
3.如权利要求2所述的文字作品数字指纹库的比对方法,其特征在于,所述步骤S5具体包括:
步骤S51:将所述待比对的文字作品的整部数字指纹与其所属的分类数据库的数字指纹库中的整部数字指纹进行比对,若不匹配,比对结束;若匹配,继续步骤S52;
步骤S52:将所述待比对的文字作品的章节数字指纹与整部数字指纹匹配的已有文字作品的章节数字指纹进行比对,若不匹配,比对结束;若匹配,继续步骤S53;
步骤S53:将所述待比对的文字作品的段落数字指纹与章节数字指纹匹配的已有文字作品的段落数字指纹进行比对,若不匹配,比对结束;若匹配,将所述待比对的文字作品的来源进行标记和存档。
4.如权利要求1所述的文字作品数字指纹库的比对方法,其特征在于,所属同一分类数据库的已有文字作品,按照存取的频率不同存放在其所属的分类数据库的不同位置。
5.一种文字作品数字指纹库的比对系统,其特征在于,包括:
分类数据库模块,用于对已有文字作品进行分类,建立分类数据库;
数字指纹库模块,用于采集所述分类数据库中的每部已有文字作品的大小不同的颗粒度数字指纹,建立所述分类数据库的数字指纹库;
分类查询模块,用于根据待比对的文字作品的分类确定其所属的分类数据库;
指纹采集模块,用于采集所述待比对的文字作品的大小不同的颗粒度数字指纹;
指纹比对模块,用于按照所述待比对的文字作品的颗粒度数字指纹由大到小的顺序,完成待比对的文字作品在其所属的分类数据库的数字指纹库中的查询比对。
6.如权利要求5所述的文字作品数字指纹库的比对系统,其特征在于,所述颗粒度数字指纹按照由大到小的顺序依次为整部数字指纹、章节数字指纹和段落数字指纹。
7.如权利要求6所述的文字作品数字指纹库的比对系统,其特征在于,所述指纹采集模块包括:
整部数字指纹采集单元,用于采集所述待比对的文字作品的整部数字指纹;
章节数字指纹采集单元,用于采集所述待比对的文字作品的章节数字指纹;
段落数字指纹采集单元,用于采集所述待比对的文字作品的段落数字指纹。
8.如权利要求6所述的文字作品数字指纹库的比对系统,其特征在于,所述指纹比对模块包括:
整部数字指纹比对单元,用于将所述待比对的文字作品的整部数字指纹与其所属的分类数据库的数字指纹库中的整部数字指纹进行比对;
章节数字指纹比对单元,用于将所述待比对的文字作品的章节数字指纹与整部数字指纹匹配的已有文字作品的章节数字指纹进行比对;
段落数字指纹比对单元,用于将所述待比对的文字作品的段落数字指纹与章节数字指纹匹配的已有文字作品的段落数字指纹进行比对,若不匹配,比对结束;若匹配,将所述待比对的文字作品的来源进行标记和存档。
9.如权利要求5所述的文字作品数字指纹库的比对系统,其特征在于,所属同一分类数据库的文字作品,按照存取的频率不同存放在其所属的分类数据库的不同位置。
CN2011103128569A 2011-10-14 2011-10-14 文字作品数字指纹库的比对方法及系统 Pending CN102509042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103128569A CN102509042A (zh) 2011-10-14 2011-10-14 文字作品数字指纹库的比对方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103128569A CN102509042A (zh) 2011-10-14 2011-10-14 文字作品数字指纹库的比对方法及系统

Publications (1)

Publication Number Publication Date
CN102509042A true CN102509042A (zh) 2012-06-20

Family

ID=46221124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103128569A Pending CN102509042A (zh) 2011-10-14 2011-10-14 文字作品数字指纹库的比对方法及系统

Country Status (1)

Country Link
CN (1) CN102509042A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704732A (zh) * 2017-08-30 2018-02-16 上海掌门科技有限公司 一种用于生成作品指纹的方法与设备
CN108664900A (zh) * 2018-04-20 2018-10-16 上海掌门科技有限公司 一种用于识别文字作品异同的方法与设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901325A (zh) * 2010-07-21 2010-12-01 赵步 作品版权保护法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901325A (zh) * 2010-07-21 2010-12-01 赵步 作品版权保护法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
类艳春: "《基于篇章结构的抄袭论文识别系统的研究与实现》", 《中国优秀硕士学位论文全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704732A (zh) * 2017-08-30 2018-02-16 上海掌门科技有限公司 一种用于生成作品指纹的方法与设备
CN108664900A (zh) * 2018-04-20 2018-10-16 上海掌门科技有限公司 一种用于识别文字作品异同的方法与设备

Similar Documents

Publication Publication Date Title
CN101645082B (zh) 基于并行编程模式的相似网页去重系统
CN111459985B (zh) 标识信息处理方法及装置
CN101446962B (zh) 一种数据转换方法、装置及数据处理系统
CN101694668B (zh) 网页结构相似性确定方法及装置
CN104112026A (zh) 一种短信文本分类方法及系统
CN103942220A (zh) 一种适用于it运维系统的工单智能关联知识库知识的方法
CN102253936A (zh) 记录用户访问商品信息的方法及搜索方法和服务器
CN102402605A (zh) 用于搜索引擎索引的混合分布模型
CN102279894A (zh) 基于语义的查找、集成和提供评论信息的方法及搜索系统
CN103473230A (zh) 服务范围确定方法、物流服务提供方推荐方法及相应装置
CN104199857A (zh) 一种基于多标签分类的税务文档层次分类方法
CN102710795A (zh) 热点聚合方法及装置
CN102023989A (zh) 一种信息检索方法及其系统
CN105183781A (zh) 信息推荐方法及装置
CN102346751B (zh) 一种信息推送方法及设备
CN103034663A (zh) 一种信息搜索方法和设备
CN105512143A (zh) 一种网页分类方法及装置
CN103329124A (zh) 用于为现有数字样本编译唯一的样本代码的方法和系统
CN105095247A (zh) 符号数据分析方法和系统
CN103425740A (zh) 一种面向物联网的基于语义聚类的物资信息检索方法
CN108509545B (zh) 一种文章的评论处理方法及系统
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN101963993B (zh) 一种数据库单表记录快速查找的方法
CN101719124A (zh) 基于正则匹配的无限层次多路径采集系统
CN104750673A (zh) 文本匹配过滤方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120620