CN102855423A - 一种文字作品的追踪方法和装置 - Google Patents

一种文字作品的追踪方法和装置 Download PDF

Info

Publication number
CN102855423A
CN102855423A CN2011101844047A CN201110184404A CN102855423A CN 102855423 A CN102855423 A CN 102855423A CN 2011101844047 A CN2011101844047 A CN 2011101844047A CN 201110184404 A CN201110184404 A CN 201110184404A CN 102855423 A CN102855423 A CN 102855423A
Authority
CN
China
Prior art keywords
writing
unit
print
identified
digital finger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101844047A
Other languages
English (en)
Inventor
郑达
陆坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shengting Information Technology Shanghai Co Ltd
Original Assignee
Shengle Information Technolpogy Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengle Information Technolpogy Shanghai Co Ltd filed Critical Shengle Information Technolpogy Shanghai Co Ltd
Priority to CN2011101844047A priority Critical patent/CN102855423A/zh
Publication of CN102855423A publication Critical patent/CN102855423A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本申请提供一种文字作品的追踪方法,包括:获取从未授权网站的地址下载的待识别的文字作品;生成所述待识别的文字作品的数字指纹;将所述待识别的文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别的文字作品的数字指纹与母本指纹库中的数字指纹的相似度值;所述母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹;当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库;对所述匹配结果库中的所述未授权网站的地址中被判定为非法拷贝的文字作品定期进行追踪。本申请的方法可靠性高,易于实现。

Description

一种文字作品的追踪方法和装置
技术领域
本申请涉及计算机网络技术领域,特别是涉及一种文字作品的追踪方法和装置。
背景技术
在互联网快速发展的同时,数字化技术也在高速发展,这使得各类信息的数字化程度越来越高。数字化信息以其易复制性、高效性、易传输性极大地促进了人类社会的发展。然而正是由于数字化信息的易复制性,使得各类盗版及侵权行为频频发生,如对数字化信息随意进行篡改、拷贝、未经授权非法使用等。这种行为严重损害了消费者、版权所有者的合法利益,极度挫伤了内容创造者及版权所有者创作的积极性。因此,需要一种快速有效的版权保护技术来保护数字媒体的版权,对网络上流传的数字文字作品的非法拷贝进行识别和追踪,从而保护版权所有者和内容创造者的合法权利。
数字版权技术目前主要流行的方法有两种:以数据加密和防拷贝为核心的数字版权管理(Digital Rights Management,DRM)技术和数字水印技术。其中,数字水印技术是在数字产品中嵌入隐藏的标记,这种标记通常不可见,一般需要通过专用的检测工具才能提取。数字水印技术嵌入的内容通常是销售商或发行商在数字产品拷贝中嵌入与购买者身份相关的唯一性信息,当发现非法拷贝后,销售商通过检测嵌入的指纹来识别非法拷贝的来源。现有技术中,有一种将数字水印技术应用于主动的版权追踪系统的方法,它的目的是找到网络上流传的数字产品非法拷贝的分发者,而不是对那些展现非法拷贝的盗版网站进行打击;它对通过手打等水印消隐的非法拷贝没有识别和追踪能力,可靠性不高。
发明内容
为解决上述技术问题,本申请实施例提供一种文字作品的追踪方法和装置,可以及时准确地对网络流传的文字作品的非法拷贝进行识别和追踪,可靠性高、易于实现,技术方案如下:
一种文字作品的追踪方法,包括:
获取从未授权网站的地址下载的待识别的文字作品;
生成所述待识别的文字作品的数字指纹;
将所述待识别的文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别的文字作品的数字指纹与母本指纹库中的数字指纹的相似度值;所述母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹;
当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库;
对所述匹配结果库中的所述未授权网站中的被判定为非法拷贝的文字作品定期进行追踪。
优选的,所述方法进一步包括:
利用网络爬虫工具抓取相关的网页地址,从所述网页地址下载文字作品,建立所述文字作品的文本索引,生成文字作品索引库;所述文字作品索引库保存有文字作品与网页地址的对应关系;
从所述文字作品索引库中读取文字作品,当根据所述文字作品与网页地址的对应关系判定所述文字作品为从未授权网站的地址下载的文字作品时,将所述文字作品作为待识别的文字作品。
优选的,所述对所述匹配结果库中的所述未授权网站的地址中的被判定为非法拷贝的文字作品定期进行追踪具体包括:
从所述匹配结果库中提取所述未授权网站的地址信息;
查询所述未授权网站中的被判定为非法拷贝的文字作品内容是否存在,如果所述文字作品内容不存在,则更新所述匹配结果库中的信息,将匹配结果库中的所述未授权网站的地址信息删除;如果所述文字作品存在,则向所述未授权网站发送侵权警告信息。
优选的,所述方法进一步包括:
为文字作品母本库中的每一部文字作品生成对应的数字指纹。
优选的,所述为文字作品母本库中的每一部文字作品生成对应的数字指纹具体包括:
从所述文字作品母本库中读取一部文字作品;
从划分方式集合中选取所有划分方式作为预设的划分方式;
将所述文字作品按照预设的划分方式划分为至少一个文字作品单元;
提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征;
保存所述文字作品中的所有文字作品单元的指纹特征,生成所述文字作品的数字指纹。
优选的,所述生成所述待识别的文字作品的数字指纹具体包括:
从划分方式集合中选取至少一种划分方式作为预设的划分方式;
将所述待识别的文字作品按照预设的划分方式划分为至少一个文字作品单元;
提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征;
保存所述待识别的文字作品中至少一个文字作品单元的指纹特征,生成所述待识别的文字作品的数字指纹。
优选的,所述提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征具体包括:
将所述文字作品单元中的所有文字转化为对应的拼音;
提取每一个文字对应的拼音的首字母,按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数;
分别计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例,得到每一类首字母对应的比例;
将所述每一类字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
优选的,所述划分方式集合包括:
将文字作品整体作为一个文字作品单元进行划分;
和/或
将文字作品的每一个章节作为一个文字作品单元进行划分;
和/或
将文字作品的每一个段落作为一个文字作品单元进行划分。
优选的,所述方法进一步包括:
向所述匹配结果库中的未授权网站发送侵权警告信息。
优选的,所述方法进一步包括:
读取所述匹配结果库中的未授权网站的地址信息和被判定为非法拷贝的文字作品的信息并显示。
本申请还公开了一种文字作品的追踪装置,包括:
待识别文字作品获取单元,用于获取从未授权网站的地址下载的待识别的文字作品;
待识别文字作品数字指纹生成单元,用于生成所述待识别的文字作品的数字指纹;
数字指纹比对单元,用于将所述待识别的文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别的文字作品的数字指纹与母本指纹库中的数字指纹的相似度值;所述母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹;
匹配单元,用于当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库;
追踪单元,用于对所述匹配结果库中的所述未授权网站中的被判定为非法拷贝的文字作品定期进行追踪。
优选的,所述装置进一步包括:
文本索引库建立单元,用于利用网络爬虫工具抓取相关的网页地址,从所述网页地址下载文字作品,建立所述文字作品的文本索引,生成文字作品索引库;所述文字作品索引库保存有文字作品与网页地址的对应关系。
优选的,所述装置进一步包括:
母本指纹库建立单元,用于为文字作品母本库中的每一部文字作品生成对应的数字指纹,建立母本指纹库。
本申请实施例的有益效果是:本申请实施例提供的文字作品的追踪方法和装置,通过提取从未授权网址下载的待识别的文字作品的数字指纹,将所述待识别文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别文字作品的数字指纹与母本指纹库中的数字指纹的相似度值,当相似度值小于设定阈值时判定所述待识别的文字作品属于非法拷贝,将判定为非法拷贝的文字作品及其网址信息保存至匹配结果库中,并对所述匹配结果库中的网页地址中被判定为非法拷贝的文字作品定期进行追踪,从而实现了对盗版文字作品的识别和追踪。本申请提供的方法的目的不是跟踪和识别文字作品非法拷贝的分发者,而是追踪和识别所有展现非法拷贝的盗版网站,追踪范围更广;提取文字作品本身的特征信息作为数字指纹,当网络上的拷贝和母本数字指纹的相似度值在一定的范围内都认为该拷贝为非法拷贝,可靠性高。
另一方面,本申请提供的方法采用多颗粒度的数字指纹,即不仅把整个文字作品作为一个颗粒提取指纹,也把文字作品的每一章节、每一段落作为颗粒提取指纹,并将得到的指纹录入到指纹母本库中。在判断网络上流传的文字作品是否为非法拷贝时,首先提取其指纹特征,然后与母本指纹库进行查询比对,这样不仅可以准确地识别网页中的作品是否为非法的拷贝,还能更及时更全面的识别和跟踪在网络上流传的非法拷贝具体对文字作品的哪一部分进行了非法拷贝,精确度高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例文字作品追踪的方法示意图;
图2为本申请实施例母本指纹库的建立流程图;
图3为本申请实施例指纹特征提取示意图;
图4为本申请实施例建立文字作品索引库的示意图;
图5为本申请实施例网络爬虫抓取方法流程图;
图6为本申请实施例生成待识别文字作品的数字指纹的方法示意图;
图7为本申请实施例指纹对比示意图;
图8为本申请另一实施例文字作品识别示意图;
图9为本申请实施例对文字作品进行追踪的流程图;
图10为本申请实施例文字作品追踪装置示意图。
具体实施方式
本申请公开了一种文字作品的追踪方法。为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请提供的文字作品的追踪方法,适用于所有以文字形式表达内容的作品,包括文学作品、历史著作、回忆录、教科书等形式的文字作品。
图1为本申请实施例文字作品追踪的方法示意图,如图1所示,本申请实施例提供的方法包括以下步骤:
步骤S101,获取从未授权网站的地址下载的待识别的文字作品。
步骤S102,生成所述待识别的文字作品的数字指纹。
步骤S103,将所述待识别文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别文字作品的数字指纹与母本指纹库中的数字指纹的相似度值;所述母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹。
步骤S104,当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库。
步骤S105,对所述匹配结果库中的所述未授权网站中的被判定为非法拷贝的文字作品定期进行追踪。
下面结合附图对本申请提供的方法进行详细的说明。
在本申请提供的实施例中,在步骤S101前,还可以包括预先建立母本指纹库的步骤,即为所述文字作品母本库中的每一部文字作品生成对应的数字指纹。
参见图2,为本申请实施例母本指纹库的建立流程图。
所述为所述文字作品母本库中的每一部文字作品生成对应的数字指纹具体可以包括:
步骤S201,从所述文字作品母本库中读取一部文字作品。
文字作品母本库为预先设立的保存授权文字作品的数据库。文字作品母本库保存有所有授权的、正版的文字作品,母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹。通过将待识别的文字作品的数字指纹与母本指纹库中的数字指纹进行比对,当得到的相似度值小于设定阈值时,即可判断待识别的文字作品是否属于盗版文字作品。
步骤S202,从划分方式集合中选取所有划分方式作为预设的划分方式,将所述文字作品按照预设的划分方式划分为至少一个文字作品单元。
在母本指纹库的建立过程中,从划分方式集合中选取所有划分方式作为预设的划分方式。具体的,划分方式集合可以只包括一种划分方式,划分方式集合也可以是多种划分方式的集合。
在本申请提供的实施例中,划分方式集合可以包括将文字作品整体当作一个文字作品单元进行划分的方式,也可以包括将文字作品的每一个章节作为一个文字作品单元进行划分的方式,也可以包括将文字作品的每一个段落作为一个文字作品单元进行划分的方式。具体的,划分方式集合可以包括上述划分方式的一种或多种,本申请对此不做限定。当然,除了本申请实施例提供的按章节、段落的划分方式外,还可以按其他方式对文字作品进行划分,由此得到的划分方式也都包括在划分方式集合内。本领域技术人员在不付出创造性劳动下得到的其他实现方式都属于本申请的保护范围。
一种优选的实施方式时,划分方式集合包括上述所有划分方式,在建立母本指纹库的过程中,将划分方式集合中的所有划分方式作为预设的划分方式对文字作品进行划分。进一步的,将根据所有划分方式得到的各种指纹特征都保存在母本指纹库中。当然,本申请不限制按照哪一种方式对文字作品母本库中的文字作品单元进行划分,也不限制对按照所述划分方式得到的文字作品单元的指纹特征进行保存。
步骤S203,提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征。
参见图3,为本申请实施例指纹特征提取示意图。
在步骤S203中,提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征具体可以包括:
步骤S203A,将所述文字作品单元中的所有文字转化为对应的拼音。
步骤S203B,提取每一个文字对应拼音的首字母,按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数。
步骤S203C,分别计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例,得到每一类首字母对应的比例。
步骤S203D,将所述每一类首字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
以下面的文字为例,进一步描述指纹特征提取过程。如表1所示,将表1所示文字视为文字作品的一个单元,提取表1所示文字的指纹特征。
表1
Figure BSA00000529905900081
上述文字作品单元的指纹特征提取过程即为:
在步骤S203A中,将所述文字作品单元中的所有文字转化为对应的拼音。如表2所示:
表2
在步骤S203B中,提取每一个文字对应的拼音的首字母,按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数。
(1),提取每一个文字对应的拼音的首字母。
Dzlsdwzcymsbsmsldszyxcydwgdzsnmwbqcjyzymzcjwdszywdledzljrdzjssdcjlzxzzdlyzzzxdtt
(2),按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数。如表3所示:
表3
Figure BSA00000529905900092
在步骤S203C中,分别计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例,得到每一类首字母对应的比例。
具体的,汉语拼音一共有23个首字母,假设每类字母下有ni(1≤i≤23)汉字,则每一类的字母的对应的比例为:
S i = n i Σ d = 1 23 n d - - - ( 1 )
其中Si为文字作品单元中第i类字母的对应的比例;
ni表示第i类字母所包括的文字的字数;
为将每一类字母所包括的文字的字数进行求和,得出的即为文学作品单元的总字数。
根据上述公式,计算Si。在本申请实施例中,对Si的计算是按照英文字母的顺序进行的,即S1对应的是字母a的比例,S2对应的是字母b的比例,S3对应的是字母c的比例,依次类推......S23对应的是字母z的比例。
由上述公式计算得到:
S1=0/(0+2+5+12+1+0+1+0+5+0+6+4+1+0+0+1+1+9+2+5+4+7+15)=0.00
S2=2/(0+2+5+12+1+0+1+0+5+0+6+4+1+0+0+1+1+9+2+5+4+7+15)=2/81=0.02
依次计算出S3、S4、S5......S23。在本申请提供的实施例中,对Si的值保留两位小数。也可以根据实际需要,确定保留的小数位数。
依次算出S3=0.06;S4=0.15;S5=0.01;S6=0.00;
S7=0.01;S8=0.00;S9=0.06;S10=0.00;
S11=0.07;S12=0.05;S13=0.01;S14=0.00;
S15=0.00;S16=0.01;S17=0.01;S18=0.11;
S19=0.02;S20=0.06;S21=0.05;S22=0.09;S23=0.19。
在步骤S203D中,将所述每一类首字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
在本申请提供的实施例中,将所述每一类首字母对应的比例的小数部分取前两位作为每一类字母的指纹,再将上述数字按照字母顺序进行组合,即可得到文字作品单元的指纹特征。
下面举例进行说明。在步骤S203C中,计算得到了每一类首字母对应的比例,例如字母a对应的比例S1为0.00,在本申请提供的实施例中,是将所述每一类首字母对应的比例的小数部分取前两位作为每一类字母的指纹,那么字母a的指纹即为00。相应地,字母b对应的比例S2为0.02,那么字母b的指纹即为02;字母c对应的比例为0.08,那么字母c的指纹即为08......依次类推,得出每一类字母的指纹,最后将每一类字母的指纹按照字母顺序进行组合,即可得到指纹特征。
通过上述步骤,得出指纹特征为:
0002061501000100060007050100000101110206050919
这只是本申请实施例的一种实现方式,本申请不限于这种实现方式,在本领域技术人员在不付出创造性劳动得到的其他实现方式亦属于本申请的保护范围。
在本申请提供的另一实施例中,为了计算的方便,也可以按照26个英文字母的顺序对文字作品单元中的所有文字进行分类。由于26个英文字母中有i、u、v三个字母是不能够作为声母的,因此在统计每一类字母所包括的文字的字数时,这三个字母包括的字数为0。这时,步骤S203中得到的比例即为:
S i = n i Σ d = 1 26 ni - - - ( 2 )
其中Si为文字作品单元中第i类字母的比例;
ni表示第i类字母所包括的文字的字数;
Figure BSA00000529905900112
为将每一类字母所包括的文字的字数进行求和,得出的即为文学作品单元的总字数。
同样的,对Si的计算也是按照26类英文字母的顺序进行的,即S1对应的是字母a的比例,S2对应的是字母b的比例,S3对应的是字母c的比例,依次类推......S26对应的是字母z的比例。
由此计算得到:
S1=0.00;S2=0.02;S3=0.06;S4=0.15;S5=0.01;S6=0.00;
S7=0.01;S8=0.00;S9=0.00;S10=0.06;S11=0.00;S12=0.07;
S13=0.05;S14=0.01;S15=0.00;S16=0.00;S17=0.01;S18=0.01;
S19=0.11;S20=0.02;S21=0.00;S22=0.00;S23=0.06;S24=0.05;
S25=0.09;S26=0.19
将每一类字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。这里,也是将所述每一类首字母对应的比例的小数部分取前两位作为每一类字母的指纹,再将上述数字按照字母顺序进行组合,即可得到文字作品单元的指纹特征。与前一实施例不同的是,当每一类字母的指纹取两位表示时,生成的指纹特征为52位数字组成的字符串,而前一实施例得到的是46位数字组成的字符串。本申请对字符串的位数不做限制。
那么,得到的指纹特征为:
0002061501000100000600070501000001011102000006050919
在本申请的另一实施例中,在步骤S203中,在统计每一类首字母所包括的文字的字数,进而计算计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例时,可以不对文字作品单元整体进行统计,而是从小颗粒度的单元开始统计,并对其进行求和,进而得出大颗粒度单元的数据。下面举例进行说明,这里是将文字作品以段落、章节、文字作品整体这三种方式进行划分的。在此实施例中,是先统计段落单元的数据,再对段落单元的数据进行求和得出章节单元的数据;进而通过对章节单元的数据进行求和得出文字作品整体的数据。下面进行详细的说明。
步骤A,将文字作品的每一个段落当作一个文字作品单元进行划分,提取每一个文字作品段落的指纹特征。
首先将文字作品某一个段落的所有文字转化为拼音;提取每一个文字对应的拼音的首字母,按照首字母对段落中的所有文字进行分类,统计每一类首字母所包括的文字的字数;分别计算每一类首字母所包括的文字的字数占某一段落中的所有文字的字数的比例,得到每一类首字母对应的比例;将所述每一类首字母对应的比例组合成字符串,生成该段落的指纹特征。汉语拼音一共有23个首字母,假设每类字母下有ni(1≤i≤23)汉字,则每一类的字母对应的比例为:
A i = n i Σ d = 1 23 n d - - - ( 3 )
其中Ai为文字作品某一段落中第i类字母对应的比例;
ni表示第i类字母所包括的文字的字数;
Figure BSA00000529905900131
为将每一类字母所包括的文字的字数进行求和,即得出某一段落的总字数。
最后将Ai按照字母顺序进行组合得到的一串数字生成该段落的指纹特征。
步骤B,将文字作品的每一个章节作为一个文字作品单元进行划分,提取每一个文字作品章节的指纹特征。
章节的指纹特征是统计章节中每类字母下汉字的数目,再计算每类字母占该章节中所有字数的比例,将每类字母所占的比例组合成字符串作为指纹特征。假设一章中包含m个段落,每个段落每类字母下有nij(1≤d≤23,1≤j≤m)个汉字,则章节中每类字母下有
Figure BSA00000529905900132
个汉字,Bi为章节中第i类字母的对应的比例:
B i = Σ j = 1 m n ij Σ d = 1 23 Σ j = 1 m n dj - - - ( 4 )
其中Bi为文字作品某一章节中第i类字母的比例;
nij表示某一个段落第i类字母所包括的文字的字数;
为m个段落中的第i类字母所包括的文字的字数进行求和,即得出某一章节第i类字母包括的字数。
Figure BSA00000529905900135
为将23类字母对应的字数进行求和,得出某一章节第i类字母包包括的字数。
最后将Bi按照字母顺序进行组合得到的一串数字生成该章节的指纹特征。
步骤C,将文字作品整体作为一个单元,提取文字作品整体的指纹特征。
文字作品整体的指纹特征是统计文字作品中每类字母下汉字的数目,再计算每类字母占该文字作品中所有字数的比例,将每类字母所占的比例组合成字符串作为
Figure BSA00000529905900141
文字作品整体的指纹特征。假设整部文字包含q个章节,每个章节包含m个段落。每个章节中每个段落下每类字母有nijk(1≤i≤24,1≤j≤m,1≤k≤q)个汉字,每个章节中每类字母下有
Figure BSA00000529905900142
个汉字,整部文字作品中每类字母下有
Figure BSA00000529905900143
个汉字,Ci为文字作品中第i类字母对应的比例:
C i = Σ k = 1 q Σ j = 1 m n ijk Σ d = 1 23 Σ k = 1 q Σ j = 1 m n dkj - - - ( 5 )
其中Ci为整部文字作品第i类字母的比例;
nijk表示某一个段落第i类字母所包括的文字的字数;
为m个段落中的第i类字母所包括的文字的字数进行求和,即
得出某一章节第i类字母包括的字数。
Figure BSA00000529905900146
为将q个章节中m个段落中的第i类字母对应的字数进行求和,即得出整部文字作品第i类字母包括的字数。
Figure BSA00000529905900147
为将23类字母q个章节中m个段落中包括的字数进行求和,得出整部文字作品第i类字母包括的字数。
最后将Ci按照字母顺序进行组合得到的一串数字生成该文字作品整体的指纹特征。
这样就可以得到文字作品单元的指纹特征。
在本申请提供的另一实施例中,本申请提供的方法不仅适用于提取以中文形式呈现的文字作品的数字指纹,也适用于提取以英文形式呈现的文字作品的数字指纹。这时,在步骤S203中,提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征具体包括:提取所述文字作品单元每一个单词的首字母,按照首字母对所述文字作品单元中的所有单词进行分类,统计每一类首字母所包括的单词的字数;分别计算每一类首字母所包括的单词的字数占所述文字作品单元中的所有单词的字数的比例,得到每一类首字母对应的比例;将所述每一类首字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
步骤S204,保存所述文字作品中的所有文字作品单元的指纹特征,生成所述文字作品的数字指纹。
在本申请的一个优选实施例中,是将文字作品所有段落、所有章节、文字作品整体的指纹特征保存在母本指纹库中,生成该文字作品的数字指纹。
步骤S205,读取其他的文字作品,返回步骤S201,直至读取完所有文字作品的指纹。
前面提到,在步骤S101中,获取从未授权网站的地址下载的待识别的文字作品。这里从未授权网站的地址下载的待识别的文字作品可以从预先建立的文字作品索引库获取得到。
参见图4,为本申请实施例建立文字作品索引库的示意图。
这里预先建立的文字作品索引库具体为:利用网络爬虫工具抓取相关的网页地址,从所述网页地址下载文字作品,建立所述文字作品的文本索引,生成文字作品索引库,所述文字作品索引库保存有文字作品与网页地址的对应关系。具体可以包括:
S401,利用网络爬虫工具抓取相关的网页地址,将所述网页地址保存至爬取数据库。
S402,从所述爬取数据库中读取网页地址,如果为新的网页地址,则从该网页地址下载文字作品,并将其保存,对进行过读取的网页地址进行标记。
S403,为下载的文字作品建立文本索引,保存至文字作品索引库中。
S404,从所述爬取数据库中读取下一个网址,直至爬取数据库中的所有网址读取完毕。
参见图5,为本申请实施例网络爬虫抓取方法流程图。
在步骤S401中,利用网络爬虫工具抓取相关的网页地址,将所述网页地址保存至爬取数据库。
网络爬虫(又被称为网页蜘蛛、网络机器人)是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。网络爬虫通常是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL(Uniform Resource Locator,网页地址),开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
这里,我们利用网络爬虫工具抓取相关的网页地址,并将所述网页地址保存至爬取数据库。爬取数据库用来保存利用网络爬虫工具抓取的网页地址。
在步骤S402中,从所述爬取数据库中读取网页地址,如果为新的网页地址,则从该网页地址下载文字作品,并将其保存,对进行过读取的网页地址进行标记。
如图5所示,在从爬取的数据库中读取URL网页地址时,如果所述URL对应的网页地址为空地址或不存在的网页地址时,则退出,读取下一条URL。如果所述URL不为空且是新的未进行读取的URL,那么我们将从该URL下载文字作品。当我们读取一条URL时,即对相应的URL进行标记。当读取的URL为未标记的URL时,我们可以判断其为新的URL,并从所述URL上下载文字作品。
在步骤S403中为下载的文字作品建立文本索引,保存至文字作品索引库中。
这里,我们为每一部下载的文字作品都建立文本索引,方便查找、引用,并将下载的文字作品的索引保存至文字作品索引库中。具体的,可以通过文字作品索引库获取文字作品。
在步骤S404中,从所述爬取数据库中读取下一个网址,直至爬取数据库中的所有网址读取完毕。
在步骤101中,我们可以先从所述文字作品索引库中读取文字作品,当根据所述文字作品与网页地址的对应关系判定所述文字作品为从未授权网站的地址下载的文字作品时,将所述文字作品作为待识别的文字作品。具体的,我们将授权网站的地址信息保存在白名单数据库中,当从文字作品索引库中读取文字作品时,首先会根据文字作品与网页地址的对应关系判定所述网页地址是否为未授权的网址,如果为未授权的网址,则下载该网址对应的文字作品,并将从未授权网站的地址下载的文字作品作为待识别的文字作品。
在步骤S101中,获取从未授权网站的地址下载的待识别的文字作品。当获取待识别的文字作品内容是图片时,利用光学字符识别技术OCR将图片转化为文字内容,再进行数字指纹的提取。
参见图6,为本申请实施例生成待识别文字作品的数字指纹的方法示意图。
待识别文字作品为需要判断其是否盗版文字作品的作品。待识别文字作品可以有用户提供,也可以从相关网页地址下载得到。在本申请实施例中,待识别的文字作品是利用网络爬虫工具从网页地址下载得到的。
在步骤S102中,生成所述待识别的文字作品的数字指纹,具体可以包括:
S601,从划分方式集合中选取至少一种划分方式作为预设的划分方式,将所述待识别的文字作品按照预设的划分方式划分为至少一个文字作品单元。
这里,可以在划分方式集合中选取任意一种或多种方式作为预设的划分方式,将所述待识别的文字作品按照预设的划分方式划分为至少一个文字作品单元。本申请不限定具体的划分方式。当然,除了本申请实施例提供的按章节、段落的划分方式外,还可以按其他方式对文字作品进行划分。本领域技术人员在不付出创造性劳动下想出的其他实现方式都属于本申请的保护范围。
具体的,当对待识别文字作品的数字指纹进行提取和比对时,为了快速的分辨出盗版文字作品,而对盗版作品具体复制了文字作品的哪一部分不做要求时,我们可以通过从划分方式集合中选取一种划分方式对待识别文字作品进行划分,进而提取待识别文字作品的数字指纹进行快速的判断。
另外,文字作品一般由多个章节组成,针对盗版网站或贴吧通常展示的盗版文字作品的一部分,如展示的是某一章节、某些段落。本申请的另一实施中,不仅把整个文字作品作为一个颗粒提取指纹,也把文字作品的每一章节作为颗粒提取指纹,并将得到的指纹录入到指纹母本库中。实际进行比对时,也首先与大颗粒度的数字指纹进行比较,得出相似度。如果相似度在可信赖的范围内,则再针对小颗粒度的数字指纹进行比对。最后根据相似度值判断该网站是否进行了非法拷贝。这样可以准确的识别出盗版作品对文字作品哪一部分进行了侵权。
当然,除了本申请实施例提供划分方式外,还可以按其他方式对文字作品进行划分。本领域技术人员在不付出创造性劳动下想出的其他实现方式都属于本申请的保护范围。
步骤S602,提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征。
在本申请提供的实施例中,是将文字作品文字的拼音特性作为文字特征信息进行数字指纹提取的。
其中,在步骤S602中,提取所述每一个文字作品单元中的文字特征信息作为该文字作品单元的指纹特征具体可以包括:
步骤S602A,将所述文字作品单元中的所有文字转化为对应的拼音。
步骤S602B,提取每一个文字对应的拼音的首字母,按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数。
步骤S602C,分别计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例,得到每一类首字母对应的比例。
步骤S603D,将所述每一类字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
以下面的文字为例,进一步描述指纹特征提取过程。如表4所示,将表4所示文字视为文字作品的一个单元,提取表1所示文字的指纹特征。
如表4所示,待识别作品的文字如表4所示:
表4
Figure BSA00000529905900181
假设表4所示文字为待识别文字作品的一个单元的文字。
在步骤S602A中,将所述文字作品单元中的所有文字转化为对应的拼音。
表5
Figure BSA00000529905900191
在步骤S602B中,提取每一个文字对应的拼音的首字母,按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数。如表6所示:
表6
Figure BSA00000529905900192
在步骤S602C中,分别计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例,得到每一类首字母对应的比例。这里,对Si的计算也是按照英文字母的顺序进行的,即S1对应的是字母a的比例,S2对应的是字母b的比例,S3对应的是字母c的比例,依次类推......S23对应的是字母z的比例。这里,最后生成的待识别的文字作品的单元的指纹特征的位数与建立母本指纹库时指纹特征的位数相同。
S1=0/(0+2+7+14+1+0+1+0+6+0+6+4+1+0+2+3+1+9+2+5+5+7+17)=0.00
S2=2/(0+2+7+14+1+0+1+0+6+0+6+4+1+0+2+3+1+9+2+5+5+7+17)=2/93=0.02
依次计算出S3、S4、S5......S23。在本申请提供的实施例中,对Si的值保留两位小数。也可以根据实际需要,确定保留的小数位数。
依次算出S3=0.08;S4=0.15;S5=0.01;S6=0.00;
S7=0.01;S8=0.00;S9=0.06;S10=0.00;
S11=0.06;S12=0.04;S13=0.01;S14=0.00;
S15=0.02;;S16=0.03;S17=0.01;S18=0.10;
S19=0.02;S20=0.05;S21=0.05;S22=0.08;S23=0.18。
在步骤S602D中,将所述每一类字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
在本申请提供的实施例中,是将每一类字母所占的比例对应的数字的小数部分取前两位作为每一类字母的指纹,再将每一类字母的指纹按照字母顺序进行组合,即可得到指纹特征。
下面举例进行说明。在步骤S603C中,计算得到了每一类首字母对应的比例,例如字母a对应的比例S1为0.00,在本申请提供的实施例中,是将所述每一类首字母对应的比例的小数部分取前两位作为每一类字母的指纹,那么字母a的指纹即为00。相应地,字母b对应的比例S2为0.02,那么字母b的指纹即为02;字母c对应的比例为0.08,那么字母c的指纹即为08......依次类推,得出每一类字母的指纹,最后将每一类字母的指纹按照字母顺序进行组合,即可得到指纹特征。
得出指纹为:
0002081501000100060006040100020301100205050818
这只是本申请实施例的一种实现方式,本申请不限于这种实现方式,在本领域技术人员在不付出创造性劳动得到的其他实现方式亦属于本申请的保护范围。
步骤S603,保存所述待识别的文字作品中至少一个文字作品单元的指纹特征,生成所述待识别的文字作品的数字指纹。
在生成待识别的文字作品的数字指纹后,即可将其与母本指纹库的数字指纹进行比对,进一步判断其是否为盗版文字作品。
在步骤S103中,将所述待识别文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别文字作品的数字指纹与母本指纹库中的数字指纹的相似度值。
下面结合表1和表4所示文字为例,对指纹比对过程进行说明。假设表1所示文字为文字作品母本库中的文字作品,其数字指纹保存在母本指纹库中。表4所示文字为待识别的文字作品。
将待识别文字作品的数字指纹与母本指纹库进行查询比对。在本申请提供的实施例中,是将提取的整部待识别文字作品的指纹与母本指纹库中的指纹进行差值计算,得到一串差值作为相似度值。
参见图7,为本申请实施例指纹对比示意图。
如图7所示,待识别文字作品的数字指纹为:
0002081501000100060006040100020301100205050818
将其与母本指纹库中的数字指纹进行查询比对,结合表1,母本指纹库中对应的指纹为:
0002061501000100060007050100000101110206050919
在本申请提供的实施例中,是将提取的待识别文字作品的指纹与母本指纹库中的指纹进行差值计算,从而获得相似度值的。
具体的,前面提到,文字作品单元的指纹特征是将文字作品单元中每一类首字母对应的比例组合成字符串而得到的。而保存至少一个文字作品的指纹特征即生成了文字作品的数字指纹。当我们将所述待识别文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对时,是将每一条待识别文字作品中的文字作品单元的指纹特征与预存在母本指纹库中每一条文字作品单元的指纹特征进行比较。由于指纹特征是由每一类首字母对应的比例组合而成的,在具体的比较过程中,我们是将每一类首字母对应的比例进行比较,得到差值的绝对值。
举例进行说明,待识别文字作品的指纹为:
0002081501000100060006040100020301100205050818。
其中,第1、2位代表字母a的比例为0.00,第3、4位代表字母b的比例为0.02,第5、6为代表字母c的比例为0.08......依次类推。
母本指纹库中对应的指纹为:
0002061501000100060007050100000101110206050919
其中,第1、2位代表字母a的比例为0.00,第3、4位代表字母b的比例为0.02,第5、6为代表字母c的比例为0.06......依次类推。
我们将二者进行比对时,是将二者每一类首字母对应的比例进行比较,得到差值的绝对值。
例如,对字母a的比例进行比较,得到差值的绝对值为0.00;对字母b的比例进行比较,得到差值的绝对值为0.00;对字母c的比例进行比较,得到差值的绝对值为0.02......依次类推。
相似度值为由上述每一类首字母对应的比例的差值的绝对值组成的字符串。即
待识别指纹:0002081501000100060006040100020301100205050818
母本库指纹:0002061501000100060007050100000101110206050919
相似度值:0000020000000000000001010000020200010001000101
这里,相似度值也可以表示为每一类首字母对应的比例的差值的绝对值进行求和得到的数值。
表1和表2所示的文字相似度值即为:
D=|0.00-0.00|+|0.02-0.02|+|0.08-0.06|+......+|0.18-0.19|=0.12
在步骤S104中,当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库。
当相似度值表示为每一类首字母对应的比例的差值的绝对值之和时,将所述相似度值与设定的阈值进行比较,当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝。这里,设定阈值为预设的经验值。例如,当设定的阈值为0.15时,当相似度值小于0.15时,则可以判定待识别的文字作品属于非法拷贝。保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库。匹配结果库中保留有文字作品的信息,具体可以包括文字作品的上架时间、下架时间、被点击的次数、网址的信息等。
当所述相似度值表示为由上述每一类首字母对应的比例的差值的绝对值组成的字符串时,在将相似度值与设定阈值进行比较时,是将每一类首字母对应的比例的差值的绝对值相加得到一个数值,将所述数值与设定的阈值进行比较,进而判定待识别的文字作品是否属于非法拷贝。
另外,当所述相似度值表示为由上述每一类首字母对应的比例的差值的绝对值组成的字符串时,也可以将所述相似度值的每一位数字相加,得到一个数值,将所述数值与设定的阈值进行比较,进而判定待识别的文字作品是否属于非法拷贝。
在本申请的另一实施例中,划分方式集合包括所有划分方式,在建立母本指纹库的过程中,即为文字作品母本库中的每一部文字作品生成对应的数字指纹时,将划分方式集合中的所有划分方式作为预设的划分方式对文字作品进行划分。进一步的,将根据所有划分方式得到的各种指纹特征都保存在母本指纹库中。在生成待识别的文字作品的数字指纹时,是从划分方式集合中选取所有的划分方式作为预设的划分方式对待识别的文字作品进行划分,进而提取其数字指纹的。
下面主要对文字作品的识别过程进行详细介绍。
参见图8,为本申请另一实施例文字作品识别示意图。
步骤S801,生成待识别的文字作品的数字指纹。
具体可以包括:
S801A,从划分方式集合中选取至少一种划分方式作为预设的划分方式,将所述待识别的文字作品按照预设的划分方式划分为至少一个文字作品单元。
为了准确的判断盗版文字作品具体对文字作品哪一部分进行了非法拷贝,在生成待识别的文字作品的数字指纹时,是从划分方式集合中选取所有的划分方式作为预设的划分方式对待识别的文字作品进行划分,进而提取其数字指纹的。
S801B,提取每一个文字作品单元中的文字特征信息作为该文字作品单元的指纹特征。
S801C,将待识别的文字作品中的至少一个文字作品单元的指纹特征保存,作为所述文字作品的数字指纹。
具体的,是将至少一个待识别的文字作品的段落的指纹特征、至少一个章节的指纹特征、至少一个文字作品整体的指纹特征保存,作为待识别文字作品的数字指纹。
步骤S802,将待识别的文字作品整体的指纹特征与母本指纹库中所有的数字指纹进行比对,分别得到待识别文字作品的数字指纹与母本指纹库中的数字指纹的相似度值。即提取的待识别文字作品的数字指纹与母本指纹库中的所有数字指纹进行差值计算,得到第一相似度值。
步骤S803,判断第一相似度值是否小于设定阈值,如果第一相似度值小于设定阈值,则转到步骤S804;如果相似度值大于设定阈值,则认为所述待识别文字作品不属于非法拷贝,退出比对。
步骤S804,将提取的所述待识别的文字作品的章节的指纹特征与所述母本指纹库中的指纹特征一一进行比对,得到第二相似度值。
步骤S805,判断第二相似度值是否小于设定阈值,如果第二相似度值小于设定阈值,转到步骤S806;否则认为所述待识别文字作品不属于非法拷贝,退出比对。
步骤S806,将提取的所述待识别文字作品的段落的指纹特征与所述母本指纹库中的指纹特征进行比对,得到第三相似度值。
步骤S807,判断第三相似度值是否小于设定阈值,如果第三相似度值小于设定阈值,则认为待识别文字作品属于非法拷贝,将文字作品信息、网站信息和相似度值存入匹配结果库中,比对结束。否则认为所述待识别文字作品不属于非法拷贝,退出比对。
在本申请提供的实施例中,对匹配结果库中的网址有两种处理方式:一种是向所述匹配结果库中的未授权网站发送侵权警告信息;另一种是读取所述匹配结果库中的未授权网站的地址信息和被判定为非法拷贝的文字作品的信息并显示。
在第一种处理方式中,为了减少误报率,将授权的网站存入白名单数据库中,在进行指纹查询和比对时则直接将白名单中的网站进行过滤;对相似度处于边界情况的网站,可加入人工判断。
第二种处理方式是读取匹配结果库中的信息显示在预设的网页上,包括作品的上架时间、下架时间、被点击的次数等。然后将操作结果显示界面的权限开放给相应的部门,由他们进行处理。
盗版网站的文字作品显示时间也许有一定的周期;对收到下架通知的盗版网站,可能会撤掉盗版的文字作品。针对上面两种情况,需要定期的对匹配的盗版网站进行跟踪。
参见图9,为本申请实施例对文字作品进行追踪的流程图。
在步骤S105中,所述对所述匹配结果库中的所述未授权网站的地址中的被判定为非法拷贝的文字作品定期进行追踪具体包括:
S901,从所述匹配结果库中读取所述未授权网站的地址信息;
S902,查询所述未授权网站的地址中的被判定为非法拷贝的文字作品是否存在网页页面上;
S903,如果所述文字作品不存在,则更新所述匹配结果库中的信息,将匹配结果库中的所述未授权网站的地址信息删除;如果所述文字作品存在,转到S904;
S904,向所述未授权网站发送侵权警告信息。
本申请还公开了一种文字作品的追踪装置。
参见图10,为本申请实施例文字作品追踪装置示意图。
所述装置包括:
待识别文字作品获取单元1001,用于获取从未授权网站的地址下载的待识别的文字作品。
数字指纹生成单元1002,用于生成所述待识别的文字作品的数字指纹。
数字指纹比对单元1003,用于将所述待识别的文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别的文字作品的数字指纹与母本指纹库中的数字指纹的相似度值;所述母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹。
匹配单元1004,用于当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库。
追踪单元1005,用于对所述匹配结果库中的所述未授权网站的地址中的被判定为非法拷贝的文字作品定期进行追踪。
优选的,所述装置进一步包括:
文本索引库建立单元,用于利用网络爬虫工具抓取相关的网页地址,从所述网页地址下载文字作品,建立所述文字作品的文本索引,生成文字作品索引库。
优选的,所述装置进一步包括:
母本指纹库建立单元,用于为文字作品母本库中的每一部文字作品生成对应的数字指纹,建立母本指纹库。
下面对母本指纹库建立单元进行详细介绍。在本申请提供的实施例中,母本指纹库建立单元进一步包括:
读取单元,用于从所述文字作品母本库中读取一部文字作品。
第一划分方式选取单元,用于从划分方式集合中选取所有划分方式作为预设的划分方式。
第一划分单元,用于将所述文字作品按照预设的划分方式划分为至少一个文字作品单元。
第一指纹特征提取单元,用于提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征。
第一生成单元,用于保存所述文字作品中的所有文字作品单元的指纹特征,生成所述文字作品的数字指纹。
其中,第一指纹特征提取单元进一步包括:
拼音转换单元,用于将所述文字作品单元中的所有文字转化为对应的拼音。
首字母字数统计单元,用于提取每一个文字对应拼音的首字母,按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数。
首字母比例计算单元,用于分别计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例,得到每一类首字母对应的比例。
指纹特征生成单元,用于将所述每一类首字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
根据本申请实施例,所述数字指纹生成单元902进一步包括:
第二划分方式选取单元,用于从划分方式集合中选取至少一种划分方式作为预设的划分方式;
第二划分单元,用于将所述待识别的文字作品按照预设的划分方式划分为至少一个文字作品单元;
第二指纹特征提取单元,用于提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征;
第二生成单元,用于保存所述待识别的文字作品中至少一个文字作品单元的指纹特征,生成所述待识别的文字作品的数字指纹。
其中,第二指纹特征提取单元进一步包括:
拼音转换单元,用于将所述文字作品单元中的所有文字转化为对应的拼音。
首字母字数统计单元,用于提取每一个文字对应拼音的首字母,按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数。
首字母比例计算单元,用于分别计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例,得到每一类首字母对应的比例。
指纹特征生成单元,用于将所述每一类首字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
通过以上实施例的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (13)

1.一种文字作品的追踪方法,其特征在于,所述方法包括:
获取从未授权网站的地址下载的待识别的文字作品;
生成所述待识别的文字作品的数字指纹;
将所述待识别的文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别的文字作品的数字指纹与母本指纹库中的数字指纹的相似度值;所述母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹;
当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库;
对所述匹配结果库中的所述未授权网站中的被判定为非法拷贝的文字作品定期进行追踪。
2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
利用网络爬虫工具抓取相关的网页地址,从所述网页地址下载文字作品,建立所述文字作品的文本索引,生成文字作品索引库;所述文字作品索引库保存有文字作品与网页地址的对应关系;
从所述文字作品索引库中读取文字作品,当根据所述文字作品与网页地址的对应关系判定所述文字作品为从未授权网站的地址下载的文字作品时,将所述文字作品作为待识别的文字作品。
3.根据权利要求1所述的方法,其特征在于,所述对所述匹配结果库中的所述未授权网站的地址中的被判定为非法拷贝的文字作品定期进行追踪具体包括:
从所述匹配结果库中提取所述未授权网站的地址信息;
查询所述未授权网站中的被判定为非法拷贝的文字作品是否存在,如果所述文字作品不存在,则更新所述匹配结果库中的信息,将匹配结果库中的所述未授权网站的地址信息删除;如果所述文字作品存在,则向所述未授权网站发送侵权警告信息。
4.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
为文字作品母本库中的每一部文字作品生成对应的数字指纹。
5.根据权利要求4所述的方法,其特征在于,所述为文字作品母本库中的每一部文字作品生成对应的数字指纹具体包括:
从所述文字作品母本库中读取一部文字作品;
从划分方式集合中选取所有划分方式作为预设的划分方式;
将所述文字作品按照预设的划分方式划分为至少一个文字作品单元;
提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征;
保存所述文字作品中的所有文字作品单元的指纹特征,生成所述文字作品的数字指纹。
6.根据权利要求1所述的方法,其特征在于,所述生成所述待识别的文字作品的数字指纹具体包括:
从划分方式集合中选取至少一种划分方式作为预设的划分方式;
将所述待识别的文字作品按照预设的划分方式划分为至少一个文字作品单元;
提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征;
保存所述待识别的文字作品中至少一个文字作品单元的指纹特征,生成所述待识别的文字作品的数字指纹。
7.根据权利要求5或6所述的方法,其特征在于,所述提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征具体包括:
将所述文字作品单元中的所有文字转化为对应的拼音;
提取每一个文字对应的拼音的首字母,按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数;
分别计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例,得到每一类首字母对应的比例;
将所述每一类字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
8.根据权利要求5或6所述的方法,其特征在于,所述划分方式集合包括:
将文字作品整体作为一个文字作品单元进行划分;
和/或
将文字作品的每一个章节作为一个文字作品单元进行划分;
和/或
将文字作品的每一个段落作为一个文字作品单元进行划分。
9.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
向所述匹配结果库中的未授权网站发送侵权警告信息。
10.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
读取所述匹配结果库中的未授权网站的地址信息和被判定为非法拷贝的文字作品的信息并显示。
11.一种文字作品的追踪装置,其特征在于,所述装置包括:
待识别文字作品获取单元,用于获取从未授权网站的地址下载的待识别的文字作品;
待识别文字作品数字指纹生成单元,用于生成所述待识别的文字作品的数字指纹;
数字指纹比对单元,用于将所述待识别的文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别的文字作品的数字指纹与母本指纹库中的数字指纹的相似度值;所述母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹;
匹配单元,用于当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库;
追踪单元,用于对所述匹配结果库中的所述未授权网站中的被判定为非法拷贝的文字作品定期进行追踪。
12.根据权利要求11所述的装置,其特征在于,所述装置进一步包括:
文本索引库建立单元,用于利用网络爬虫工具抓取相关的网页地址,从所述网页地址下载文字作品,建立所述文字作品的文本索引,生成文字作品索引库;所述文字作品索引库保存有文字作品与网页地址的对应关系。
13.根据权利要求11所述的装置,其特征在于,所述装置进一步包括:
母本指纹库建立单元,用于为文字作品母本库中的每一部文字作品生成对应的数字指纹,建立母本指纹库。
CN2011101844047A 2011-06-29 2011-06-29 一种文字作品的追踪方法和装置 Pending CN102855423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101844047A CN102855423A (zh) 2011-06-29 2011-06-29 一种文字作品的追踪方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101844047A CN102855423A (zh) 2011-06-29 2011-06-29 一种文字作品的追踪方法和装置

Publications (1)

Publication Number Publication Date
CN102855423A true CN102855423A (zh) 2013-01-02

Family

ID=47402006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101844047A Pending CN102855423A (zh) 2011-06-29 2011-06-29 一种文字作品的追踪方法和装置

Country Status (1)

Country Link
CN (1) CN102855423A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143055A (zh) * 2014-08-16 2014-11-12 合一网络技术(北京)有限公司 盗版视频监控方法与系统
CN104933138A (zh) * 2015-06-16 2015-09-23 携程计算机技术(上海)有限公司 网页爬虫系统及网页爬取方法
CN107317812A (zh) * 2017-06-27 2017-11-03 福建中金在线信息科技有限公司 一种查找盗版用户的方法、装置、电子设备及存储介质
CN107704732A (zh) * 2017-08-30 2018-02-16 上海掌门科技有限公司 一种用于生成作品指纹的方法与设备
CN107967332A (zh) * 2017-11-28 2018-04-27 厦门市美亚柏科信息股份有限公司 企业地址识别方法及识别系统
CN108108596A (zh) * 2017-12-13 2018-06-01 上海掌门科技有限公司 一种用于生成文字作品的数字指纹的方法与设备
CN108664900A (zh) * 2018-04-20 2018-10-16 上海掌门科技有限公司 一种用于识别文字作品异同的方法与设备
CN109858207A (zh) * 2019-01-31 2019-06-07 南京麦朵信息技术有限公司 一种非授权分发的多媒体版权追踪的方法
CN111046651A (zh) * 2019-12-27 2020-04-21 淄博职业学院 一种中文评论分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1409263A (zh) * 2001-09-10 2003-04-09 艾迪斯株式会社 多媒体数据加密方法
CN101262351A (zh) * 2008-05-13 2008-09-10 华中科技大学 一种网络追踪系统
CN101339588A (zh) * 2008-08-11 2009-01-07 北京航空航天大学 一种用于盗版追踪与数字取证的数字指纹系统与方法
CN101794363A (zh) * 2010-01-29 2010-08-04 华中科技大学 网络多媒体版权主动追踪与监视系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1409263A (zh) * 2001-09-10 2003-04-09 艾迪斯株式会社 多媒体数据加密方法
CN101262351A (zh) * 2008-05-13 2008-09-10 华中科技大学 一种网络追踪系统
CN101339588A (zh) * 2008-08-11 2009-01-07 北京航空航天大学 一种用于盗版追踪与数字取证的数字指纹系统与方法
CN101794363A (zh) * 2010-01-29 2010-08-04 华中科技大学 网络多媒体版权主动追踪与监视系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TIJUN HUANG: "Mediaprinting: Identifying Multimedia Content for Digital Rights Management", 《IEEE COMPUTING》 *
楼文高 等: "数字版权保护技术的现状及其发展趋势", 《出版与印刷》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143055A (zh) * 2014-08-16 2014-11-12 合一网络技术(北京)有限公司 盗版视频监控方法与系统
CN104933138A (zh) * 2015-06-16 2015-09-23 携程计算机技术(上海)有限公司 网页爬虫系统及网页爬取方法
CN107317812A (zh) * 2017-06-27 2017-11-03 福建中金在线信息科技有限公司 一种查找盗版用户的方法、装置、电子设备及存储介质
CN107704732A (zh) * 2017-08-30 2018-02-16 上海掌门科技有限公司 一种用于生成作品指纹的方法与设备
CN107967332A (zh) * 2017-11-28 2018-04-27 厦门市美亚柏科信息股份有限公司 企业地址识别方法及识别系统
CN108108596A (zh) * 2017-12-13 2018-06-01 上海掌门科技有限公司 一种用于生成文字作品的数字指纹的方法与设备
CN108664900A (zh) * 2018-04-20 2018-10-16 上海掌门科技有限公司 一种用于识别文字作品异同的方法与设备
CN109858207A (zh) * 2019-01-31 2019-06-07 南京麦朵信息技术有限公司 一种非授权分发的多媒体版权追踪的方法
CN109858207B (zh) * 2019-01-31 2023-03-31 南京麦朵信息技术有限公司 一种非授权分发的多媒体版权追踪的方法
CN111046651A (zh) * 2019-12-27 2020-04-21 淄博职业学院 一种中文评论分析方法
CN111046651B (zh) * 2019-12-27 2023-04-28 淄博职业学院 一种中文评论分析方法

Similar Documents

Publication Publication Date Title
CN102855423A (zh) 一种文字作品的追踪方法和装置
US6868405B1 (en) Copy detection for digitally-formatted works
US9087459B2 (en) Methods, apparatus, and articles of manufacture to encode auxilary data into text data and methods, apparatus, and articles of manufacture to obtain encoded data from text data
Meuschke et al. An adaptive image-based plagiarism detection approach
CN1259709A (zh) 在文档中嵌入信息的方法和系统
Zhang et al. Coverless text information hiding method based on the word rank map
CN103761459B (zh) 一种文档多重数字水印嵌入、提取方法及装置
US20050262034A1 (en) Method of invisibly embedding into a text document the license identification of the generating licensed software
CN108805787A (zh) 一种纸质文档篡改鉴真的方法和装置
Al-maweri et al. Robust digital text watermarking algorithm based on unicode extended characters
CN102855424A (zh) 一种数字指纹提取方法、装置和文字作品识别方法、装置
CN106126982A (zh) 一种基于数字指纹的pdf文档版权保护方法
Guru et al. Digital watermarking classification: a survey
CN101938475A (zh) 互联网信息发布者身份鉴别方法及其系统
Kankanhalli et al. Watermarking of electronic text documents
Myers et al. Signal separation for nonlinear dynamical systems
CN113918895A (zh) 一种文本文档溯源追踪的方法
Jalil et al. A novel text watermarking algorithm using image watermark
CN110020134B (zh) 一种知识服务信息的推送方法、系统、存储介质和处理器
Jeong et al. Study on the tracking revision history of MS Word files for forensic investigation
Bedi et al. A unique approach for watermarking non-numeric relational database
Chou et al. Research on E-book text copyright protection and anti-tampering technology
Mansor et al. An Antonym Substitution-based model on linguistic steganography method
Bashardoost et al. A novel zero-watermarking scheme for text document authentication
Yuan et al. Verify a valid message in single tuple: A watermarking technique for relational database

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHENGTING INFORMATION TECHNOLOGY (SHANGHAI) CO.,LT

Free format text: FORMER OWNER: SHENGYUE INFORMATION TECHNOLOGY (SHANGHAI) CO., LTD.

Effective date: 20140527

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20140527

Address after: 201203 Shanghai Guo Shou Jing Road, Zhangjiang High Tech Park of Pudong New Area No. 356 building 3 room 103

Applicant after: Shengting Information Technology (Shanghai) Co.,Ltd.

Address before: 201203 Shanghai Guo Shou Jing Road, Zhangjiang hi tech Park No. 356 building 3 Room 102

Applicant before: Shengle Information Technology (Shanghai) Co., Ltd.

AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20170609