具体实施方式
本申请公开了一种文字作品的追踪方法。为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请提供的文字作品的追踪方法,适用于所有以文字形式表达内容的作品,包括文学作品、历史著作、回忆录、教科书等形式的文字作品。
图1为本申请实施例文字作品追踪的方法示意图,如图1所示,本申请实施例提供的方法包括以下步骤:
步骤S101,获取从未授权网站的地址下载的待识别的文字作品。
步骤S102,生成所述待识别的文字作品的数字指纹。
步骤S103,将所述待识别文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别文字作品的数字指纹与母本指纹库中的数字指纹的相似度值;所述母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹。
步骤S104,当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库。
步骤S105,对所述匹配结果库中的所述未授权网站中的被判定为非法拷贝的文字作品定期进行追踪。
下面结合附图对本申请提供的方法进行详细的说明。
在本申请提供的实施例中,在步骤S101前,还可以包括预先建立母本指纹库的步骤,即为所述文字作品母本库中的每一部文字作品生成对应的数字指纹。
参见图2,为本申请实施例母本指纹库的建立流程图。
所述为所述文字作品母本库中的每一部文字作品生成对应的数字指纹具体可以包括:
步骤S201,从所述文字作品母本库中读取一部文字作品。
文字作品母本库为预先设立的保存授权文字作品的数据库。文字作品母本库保存有所有授权的、正版的文字作品,母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹。通过将待识别的文字作品的数字指纹与母本指纹库中的数字指纹进行比对,当得到的相似度值小于设定阈值时,即可判断待识别的文字作品是否属于盗版文字作品。
步骤S202,从划分方式集合中选取所有划分方式作为预设的划分方式,将所述文字作品按照预设的划分方式划分为至少一个文字作品单元。
在母本指纹库的建立过程中,从划分方式集合中选取所有划分方式作为预设的划分方式。具体的,划分方式集合可以只包括一种划分方式,划分方式集合也可以是多种划分方式的集合。
在本申请提供的实施例中,划分方式集合可以包括将文字作品整体当作一个文字作品单元进行划分的方式,也可以包括将文字作品的每一个章节作为一个文字作品单元进行划分的方式,也可以包括将文字作品的每一个段落作为一个文字作品单元进行划分的方式。具体的,划分方式集合可以包括上述划分方式的一种或多种,本申请对此不做限定。当然,除了本申请实施例提供的按章节、段落的划分方式外,还可以按其他方式对文字作品进行划分,由此得到的划分方式也都包括在划分方式集合内。本领域技术人员在不付出创造性劳动下得到的其他实现方式都属于本申请的保护范围。
一种优选的实施方式时,划分方式集合包括上述所有划分方式,在建立母本指纹库的过程中,将划分方式集合中的所有划分方式作为预设的划分方式对文字作品进行划分。进一步的,将根据所有划分方式得到的各种指纹特征都保存在母本指纹库中。当然,本申请不限制按照哪一种方式对文字作品母本库中的文字作品单元进行划分,也不限制对按照所述划分方式得到的文字作品单元的指纹特征进行保存。
步骤S203,提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征。
参见图3,为本申请实施例指纹特征提取示意图。
在步骤S203中,提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征具体可以包括:
步骤S203A,将所述文字作品单元中的所有文字转化为对应的拼音。
步骤S203B,提取每一个文字对应拼音的首字母,按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数。
步骤S203C,分别计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例,得到每一类首字母对应的比例。
步骤S203D,将所述每一类首字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
以下面的文字为例,进一步描述指纹特征提取过程。如表1所示,将表1所示文字视为文字作品的一个单元,提取表1所示文字的指纹特征。
表1
上述文字作品单元的指纹特征提取过程即为:
在步骤S203A中,将所述文字作品单元中的所有文字转化为对应的拼音。如表2所示:
表2
在步骤S203B中,提取每一个文字对应的拼音的首字母,按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数。
(1),提取每一个文字对应的拼音的首字母。
Dzlsdwzcymsbsmsldszyxcydwgdzsnmwbqcjyzymzcjwdszywdledzljrdzjssdcjlzxzzdlyzzzxdtt
(2),按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数。如表3所示:
表3
在步骤S203C中,分别计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例,得到每一类首字母对应的比例。
具体的,汉语拼音一共有23个首字母,假设每类字母下有ni(1≤i≤23)汉字,则每一类的字母的对应的比例为:
其中Si为文字作品单元中第i类字母的对应的比例;
ni表示第i类字母所包括的文字的字数;
为将每一类字母所包括的文字的字数进行求和,得出的即为文学作品单元的总字数。
根据上述公式,计算Si。在本申请实施例中,对Si的计算是按照英文字母的顺序进行的,即S1对应的是字母a的比例,S2对应的是字母b的比例,S3对应的是字母c的比例,依次类推......S23对应的是字母z的比例。
由上述公式计算得到:
S1=0/(0+2+5+12+1+0+1+0+5+0+6+4+1+0+0+1+1+9+2+5+4+7+15)=0.00
S2=2/(0+2+5+12+1+0+1+0+5+0+6+4+1+0+0+1+1+9+2+5+4+7+15)=2/81=0.02
依次计算出S3、S4、S5......S23。在本申请提供的实施例中,对Si的值保留两位小数。也可以根据实际需要,确定保留的小数位数。
依次算出S3=0.06;S4=0.15;S5=0.01;S6=0.00;
S7=0.01;S8=0.00;S9=0.06;S10=0.00;
S11=0.07;S12=0.05;S13=0.01;S14=0.00;
S15=0.00;S16=0.01;S17=0.01;S18=0.11;
S19=0.02;S20=0.06;S21=0.05;S22=0.09;S23=0.19。
在步骤S203D中,将所述每一类首字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
在本申请提供的实施例中,将所述每一类首字母对应的比例的小数部分取前两位作为每一类字母的指纹,再将上述数字按照字母顺序进行组合,即可得到文字作品单元的指纹特征。
下面举例进行说明。在步骤S203C中,计算得到了每一类首字母对应的比例,例如字母a对应的比例S1为0.00,在本申请提供的实施例中,是将所述每一类首字母对应的比例的小数部分取前两位作为每一类字母的指纹,那么字母a的指纹即为00。相应地,字母b对应的比例S2为0.02,那么字母b的指纹即为02;字母c对应的比例为0.08,那么字母c的指纹即为08......依次类推,得出每一类字母的指纹,最后将每一类字母的指纹按照字母顺序进行组合,即可得到指纹特征。
通过上述步骤,得出指纹特征为:
0002061501000100060007050100000101110206050919
这只是本申请实施例的一种实现方式,本申请不限于这种实现方式,在本领域技术人员在不付出创造性劳动得到的其他实现方式亦属于本申请的保护范围。
在本申请提供的另一实施例中,为了计算的方便,也可以按照26个英文字母的顺序对文字作品单元中的所有文字进行分类。由于26个英文字母中有i、u、v三个字母是不能够作为声母的,因此在统计每一类字母所包括的文字的字数时,这三个字母包括的字数为0。这时,步骤S203中得到的比例即为:
其中Si为文字作品单元中第i类字母的比例;
ni表示第i类字母所包括的文字的字数;
为将每一类字母所包括的文字的字数进行求和,得出的即为文学作品单元的总字数。
同样的,对Si的计算也是按照26类英文字母的顺序进行的,即S1对应的是字母a的比例,S2对应的是字母b的比例,S3对应的是字母c的比例,依次类推......S26对应的是字母z的比例。
由此计算得到:
S1=0.00;S2=0.02;S3=0.06;S4=0.15;S5=0.01;S6=0.00;
S7=0.01;S8=0.00;S9=0.00;S10=0.06;S11=0.00;S12=0.07;
S13=0.05;S14=0.01;S15=0.00;S16=0.00;S17=0.01;S18=0.01;
S19=0.11;S20=0.02;S21=0.00;S22=0.00;S23=0.06;S24=0.05;
S25=0.09;S26=0.19
将每一类字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。这里,也是将所述每一类首字母对应的比例的小数部分取前两位作为每一类字母的指纹,再将上述数字按照字母顺序进行组合,即可得到文字作品单元的指纹特征。与前一实施例不同的是,当每一类字母的指纹取两位表示时,生成的指纹特征为52位数字组成的字符串,而前一实施例得到的是46位数字组成的字符串。本申请对字符串的位数不做限制。
那么,得到的指纹特征为:
0002061501000100000600070501000001011102000006050919
在本申请的另一实施例中,在步骤S203中,在统计每一类首字母所包括的文字的字数,进而计算计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例时,可以不对文字作品单元整体进行统计,而是从小颗粒度的单元开始统计,并对其进行求和,进而得出大颗粒度单元的数据。下面举例进行说明,这里是将文字作品以段落、章节、文字作品整体这三种方式进行划分的。在此实施例中,是先统计段落单元的数据,再对段落单元的数据进行求和得出章节单元的数据;进而通过对章节单元的数据进行求和得出文字作品整体的数据。下面进行详细的说明。
步骤A,将文字作品的每一个段落当作一个文字作品单元进行划分,提取每一个文字作品段落的指纹特征。
首先将文字作品某一个段落的所有文字转化为拼音;提取每一个文字对应的拼音的首字母,按照首字母对段落中的所有文字进行分类,统计每一类首字母所包括的文字的字数;分别计算每一类首字母所包括的文字的字数占某一段落中的所有文字的字数的比例,得到每一类首字母对应的比例;将所述每一类首字母对应的比例组合成字符串,生成该段落的指纹特征。汉语拼音一共有23个首字母,假设每类字母下有ni(1≤i≤23)汉字,则每一类的字母对应的比例为:
其中Ai为文字作品某一段落中第i类字母对应的比例;
ni表示第i类字母所包括的文字的字数;
为将每一类字母所包括的文字的字数进行求和,即得出某一段落的总字数。
最后将Ai按照字母顺序进行组合得到的一串数字生成该段落的指纹特征。
步骤B,将文字作品的每一个章节作为一个文字作品单元进行划分,提取每一个文字作品章节的指纹特征。
章节的指纹特征是统计章节中每类字母下汉字的数目,再计算每类字母占该章节中所有字数的比例,将每类字母所占的比例组合成字符串作为指纹特征。假设一章中包含m个段落,每个段落每类字母下有n
ij(1≤d≤23,1≤j≤m)个汉字,则章节中每类字母下有
个汉字,B
i为章节中第i类字母的对应的比例:
其中Bi为文字作品某一章节中第i类字母的比例;
nij表示某一个段落第i类字母所包括的文字的字数;
为m个段落中的第i类字母所包括的文字的字数进行求和,即得出某一章节第i类字母包括的字数。
为将23类字母对应的字数进行求和,得出某一章节第i类字母包包括的字数。
最后将Bi按照字母顺序进行组合得到的一串数字生成该章节的指纹特征。
步骤C,将文字作品整体作为一个单元,提取文字作品整体的指纹特征。
文字作品整体的指纹特征是统计文字作品中每类字母下汉字的数目,再计算每类字母占该文字作品中所有字数的比例,将每类字母所占的比例组合成字符串作为
文字作品整体的指纹特征。假设整部文字包含q个章节,每个章节包含m个段落。每个章节中每个段落下每类字母有n
ijk(1≤i≤24,1≤j≤m,1≤k≤q)个汉字,每个章节中每类字母下有
个汉字,整部文字作品中每类字母下有
个汉字,C
i为文字作品中第i类字母对应的比例:
其中Ci为整部文字作品第i类字母的比例;
nijk表示某一个段落第i类字母所包括的文字的字数;
为m个段落中的第i类字母所包括的文字的字数进行求和,即
得出某一章节第i类字母包括的字数。
为将q个章节中m个段落中的第i类字母对应的字数进行求和,即得出整部文字作品第i类字母包括的字数。
为将23类字母q个章节中m个段落中包括的字数进行求和,得出整部文字作品第i类字母包括的字数。
最后将Ci按照字母顺序进行组合得到的一串数字生成该文字作品整体的指纹特征。
这样就可以得到文字作品单元的指纹特征。
在本申请提供的另一实施例中,本申请提供的方法不仅适用于提取以中文形式呈现的文字作品的数字指纹,也适用于提取以英文形式呈现的文字作品的数字指纹。这时,在步骤S203中,提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征具体包括:提取所述文字作品单元每一个单词的首字母,按照首字母对所述文字作品单元中的所有单词进行分类,统计每一类首字母所包括的单词的字数;分别计算每一类首字母所包括的单词的字数占所述文字作品单元中的所有单词的字数的比例,得到每一类首字母对应的比例;将所述每一类首字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
步骤S204,保存所述文字作品中的所有文字作品单元的指纹特征,生成所述文字作品的数字指纹。
在本申请的一个优选实施例中,是将文字作品所有段落、所有章节、文字作品整体的指纹特征保存在母本指纹库中,生成该文字作品的数字指纹。
步骤S205,读取其他的文字作品,返回步骤S201,直至读取完所有文字作品的指纹。
前面提到,在步骤S101中,获取从未授权网站的地址下载的待识别的文字作品。这里从未授权网站的地址下载的待识别的文字作品可以从预先建立的文字作品索引库获取得到。
参见图4,为本申请实施例建立文字作品索引库的示意图。
这里预先建立的文字作品索引库具体为:利用网络爬虫工具抓取相关的网页地址,从所述网页地址下载文字作品,建立所述文字作品的文本索引,生成文字作品索引库,所述文字作品索引库保存有文字作品与网页地址的对应关系。具体可以包括:
S401,利用网络爬虫工具抓取相关的网页地址,将所述网页地址保存至爬取数据库。
S402,从所述爬取数据库中读取网页地址,如果为新的网页地址,则从该网页地址下载文字作品,并将其保存,对进行过读取的网页地址进行标记。
S403,为下载的文字作品建立文本索引,保存至文字作品索引库中。
S404,从所述爬取数据库中读取下一个网址,直至爬取数据库中的所有网址读取完毕。
参见图5,为本申请实施例网络爬虫抓取方法流程图。
在步骤S401中,利用网络爬虫工具抓取相关的网页地址,将所述网页地址保存至爬取数据库。
网络爬虫(又被称为网页蜘蛛、网络机器人)是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。网络爬虫通常是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL(Uniform Resource Locator,网页地址),开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
这里,我们利用网络爬虫工具抓取相关的网页地址,并将所述网页地址保存至爬取数据库。爬取数据库用来保存利用网络爬虫工具抓取的网页地址。
在步骤S402中,从所述爬取数据库中读取网页地址,如果为新的网页地址,则从该网页地址下载文字作品,并将其保存,对进行过读取的网页地址进行标记。
如图5所示,在从爬取的数据库中读取URL网页地址时,如果所述URL对应的网页地址为空地址或不存在的网页地址时,则退出,读取下一条URL。如果所述URL不为空且是新的未进行读取的URL,那么我们将从该URL下载文字作品。当我们读取一条URL时,即对相应的URL进行标记。当读取的URL为未标记的URL时,我们可以判断其为新的URL,并从所述URL上下载文字作品。
在步骤S403中为下载的文字作品建立文本索引,保存至文字作品索引库中。
这里,我们为每一部下载的文字作品都建立文本索引,方便查找、引用,并将下载的文字作品的索引保存至文字作品索引库中。具体的,可以通过文字作品索引库获取文字作品。
在步骤S404中,从所述爬取数据库中读取下一个网址,直至爬取数据库中的所有网址读取完毕。
在步骤101中,我们可以先从所述文字作品索引库中读取文字作品,当根据所述文字作品与网页地址的对应关系判定所述文字作品为从未授权网站的地址下载的文字作品时,将所述文字作品作为待识别的文字作品。具体的,我们将授权网站的地址信息保存在白名单数据库中,当从文字作品索引库中读取文字作品时,首先会根据文字作品与网页地址的对应关系判定所述网页地址是否为未授权的网址,如果为未授权的网址,则下载该网址对应的文字作品,并将从未授权网站的地址下载的文字作品作为待识别的文字作品。
在步骤S101中,获取从未授权网站的地址下载的待识别的文字作品。当获取待识别的文字作品内容是图片时,利用光学字符识别技术OCR将图片转化为文字内容,再进行数字指纹的提取。
参见图6,为本申请实施例生成待识别文字作品的数字指纹的方法示意图。
待识别文字作品为需要判断其是否盗版文字作品的作品。待识别文字作品可以有用户提供,也可以从相关网页地址下载得到。在本申请实施例中,待识别的文字作品是利用网络爬虫工具从网页地址下载得到的。
在步骤S102中,生成所述待识别的文字作品的数字指纹,具体可以包括:
S601,从划分方式集合中选取至少一种划分方式作为预设的划分方式,将所述待识别的文字作品按照预设的划分方式划分为至少一个文字作品单元。
这里,可以在划分方式集合中选取任意一种或多种方式作为预设的划分方式,将所述待识别的文字作品按照预设的划分方式划分为至少一个文字作品单元。本申请不限定具体的划分方式。当然,除了本申请实施例提供的按章节、段落的划分方式外,还可以按其他方式对文字作品进行划分。本领域技术人员在不付出创造性劳动下想出的其他实现方式都属于本申请的保护范围。
具体的,当对待识别文字作品的数字指纹进行提取和比对时,为了快速的分辨出盗版文字作品,而对盗版作品具体复制了文字作品的哪一部分不做要求时,我们可以通过从划分方式集合中选取一种划分方式对待识别文字作品进行划分,进而提取待识别文字作品的数字指纹进行快速的判断。
另外,文字作品一般由多个章节组成,针对盗版网站或贴吧通常展示的盗版文字作品的一部分,如展示的是某一章节、某些段落。本申请的另一实施中,不仅把整个文字作品作为一个颗粒提取指纹,也把文字作品的每一章节作为颗粒提取指纹,并将得到的指纹录入到指纹母本库中。实际进行比对时,也首先与大颗粒度的数字指纹进行比较,得出相似度。如果相似度在可信赖的范围内,则再针对小颗粒度的数字指纹进行比对。最后根据相似度值判断该网站是否进行了非法拷贝。这样可以准确的识别出盗版作品对文字作品哪一部分进行了侵权。
当然,除了本申请实施例提供划分方式外,还可以按其他方式对文字作品进行划分。本领域技术人员在不付出创造性劳动下想出的其他实现方式都属于本申请的保护范围。
步骤S602,提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征。
在本申请提供的实施例中,是将文字作品文字的拼音特性作为文字特征信息进行数字指纹提取的。
其中,在步骤S602中,提取所述每一个文字作品单元中的文字特征信息作为该文字作品单元的指纹特征具体可以包括:
步骤S602A,将所述文字作品单元中的所有文字转化为对应的拼音。
步骤S602B,提取每一个文字对应的拼音的首字母,按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数。
步骤S602C,分别计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例,得到每一类首字母对应的比例。
步骤S603D,将所述每一类字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
以下面的文字为例,进一步描述指纹特征提取过程。如表4所示,将表4所示文字视为文字作品的一个单元,提取表1所示文字的指纹特征。
如表4所示,待识别作品的文字如表4所示:
表4
假设表4所示文字为待识别文字作品的一个单元的文字。
在步骤S602A中,将所述文字作品单元中的所有文字转化为对应的拼音。
表5
在步骤S602B中,提取每一个文字对应的拼音的首字母,按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数。如表6所示:
表6
在步骤S602C中,分别计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例,得到每一类首字母对应的比例。这里,对Si的计算也是按照英文字母的顺序进行的,即S1对应的是字母a的比例,S2对应的是字母b的比例,S3对应的是字母c的比例,依次类推......S23对应的是字母z的比例。这里,最后生成的待识别的文字作品的单元的指纹特征的位数与建立母本指纹库时指纹特征的位数相同。
S1=0/(0+2+7+14+1+0+1+0+6+0+6+4+1+0+2+3+1+9+2+5+5+7+17)=0.00
S2=2/(0+2+7+14+1+0+1+0+6+0+6+4+1+0+2+3+1+9+2+5+5+7+17)=2/93=0.02
依次计算出S3、S4、S5......S23。在本申请提供的实施例中,对Si的值保留两位小数。也可以根据实际需要,确定保留的小数位数。
依次算出S3=0.08;S4=0.15;S5=0.01;S6=0.00;
S7=0.01;S8=0.00;S9=0.06;S10=0.00;
S11=0.06;S12=0.04;S13=0.01;S14=0.00;
S15=0.02;;S16=0.03;S17=0.01;S18=0.10;
S19=0.02;S20=0.05;S21=0.05;S22=0.08;S23=0.18。
在步骤S602D中,将所述每一类字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
在本申请提供的实施例中,是将每一类字母所占的比例对应的数字的小数部分取前两位作为每一类字母的指纹,再将每一类字母的指纹按照字母顺序进行组合,即可得到指纹特征。
下面举例进行说明。在步骤S603C中,计算得到了每一类首字母对应的比例,例如字母a对应的比例S1为0.00,在本申请提供的实施例中,是将所述每一类首字母对应的比例的小数部分取前两位作为每一类字母的指纹,那么字母a的指纹即为00。相应地,字母b对应的比例S2为0.02,那么字母b的指纹即为02;字母c对应的比例为0.08,那么字母c的指纹即为08......依次类推,得出每一类字母的指纹,最后将每一类字母的指纹按照字母顺序进行组合,即可得到指纹特征。
得出指纹为:
0002081501000100060006040100020301100205050818
这只是本申请实施例的一种实现方式,本申请不限于这种实现方式,在本领域技术人员在不付出创造性劳动得到的其他实现方式亦属于本申请的保护范围。
步骤S603,保存所述待识别的文字作品中至少一个文字作品单元的指纹特征,生成所述待识别的文字作品的数字指纹。
在生成待识别的文字作品的数字指纹后,即可将其与母本指纹库的数字指纹进行比对,进一步判断其是否为盗版文字作品。
在步骤S103中,将所述待识别文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别文字作品的数字指纹与母本指纹库中的数字指纹的相似度值。
下面结合表1和表4所示文字为例,对指纹比对过程进行说明。假设表1所示文字为文字作品母本库中的文字作品,其数字指纹保存在母本指纹库中。表4所示文字为待识别的文字作品。
将待识别文字作品的数字指纹与母本指纹库进行查询比对。在本申请提供的实施例中,是将提取的整部待识别文字作品的指纹与母本指纹库中的指纹进行差值计算,得到一串差值作为相似度值。
参见图7,为本申请实施例指纹对比示意图。
如图7所示,待识别文字作品的数字指纹为:
0002081501000100060006040100020301100205050818
将其与母本指纹库中的数字指纹进行查询比对,结合表1,母本指纹库中对应的指纹为:
0002061501000100060007050100000101110206050919
在本申请提供的实施例中,是将提取的待识别文字作品的指纹与母本指纹库中的指纹进行差值计算,从而获得相似度值的。
具体的,前面提到,文字作品单元的指纹特征是将文字作品单元中每一类首字母对应的比例组合成字符串而得到的。而保存至少一个文字作品的指纹特征即生成了文字作品的数字指纹。当我们将所述待识别文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对时,是将每一条待识别文字作品中的文字作品单元的指纹特征与预存在母本指纹库中每一条文字作品单元的指纹特征进行比较。由于指纹特征是由每一类首字母对应的比例组合而成的,在具体的比较过程中,我们是将每一类首字母对应的比例进行比较,得到差值的绝对值。
举例进行说明,待识别文字作品的指纹为:
0002081501000100060006040100020301100205050818。
其中,第1、2位代表字母a的比例为0.00,第3、4位代表字母b的比例为0.02,第5、6为代表字母c的比例为0.08......依次类推。
母本指纹库中对应的指纹为:
0002061501000100060007050100000101110206050919
其中,第1、2位代表字母a的比例为0.00,第3、4位代表字母b的比例为0.02,第5、6为代表字母c的比例为0.06......依次类推。
我们将二者进行比对时,是将二者每一类首字母对应的比例进行比较,得到差值的绝对值。
例如,对字母a的比例进行比较,得到差值的绝对值为0.00;对字母b的比例进行比较,得到差值的绝对值为0.00;对字母c的比例进行比较,得到差值的绝对值为0.02......依次类推。
相似度值为由上述每一类首字母对应的比例的差值的绝对值组成的字符串。即
待识别指纹:0002081501000100060006040100020301100205050818
母本库指纹:0002061501000100060007050100000101110206050919
相似度值:0000020000000000000001010000020200010001000101
这里,相似度值也可以表示为每一类首字母对应的比例的差值的绝对值进行求和得到的数值。
表1和表2所示的文字相似度值即为:
D=|0.00-0.00|+|0.02-0.02|+|0.08-0.06|+......+|0.18-0.19|=0.12
在步骤S104中,当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库。
当相似度值表示为每一类首字母对应的比例的差值的绝对值之和时,将所述相似度值与设定的阈值进行比较,当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝。这里,设定阈值为预设的经验值。例如,当设定的阈值为0.15时,当相似度值小于0.15时,则可以判定待识别的文字作品属于非法拷贝。保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库。匹配结果库中保留有文字作品的信息,具体可以包括文字作品的上架时间、下架时间、被点击的次数、网址的信息等。
当所述相似度值表示为由上述每一类首字母对应的比例的差值的绝对值组成的字符串时,在将相似度值与设定阈值进行比较时,是将每一类首字母对应的比例的差值的绝对值相加得到一个数值,将所述数值与设定的阈值进行比较,进而判定待识别的文字作品是否属于非法拷贝。
另外,当所述相似度值表示为由上述每一类首字母对应的比例的差值的绝对值组成的字符串时,也可以将所述相似度值的每一位数字相加,得到一个数值,将所述数值与设定的阈值进行比较,进而判定待识别的文字作品是否属于非法拷贝。
在本申请的另一实施例中,划分方式集合包括所有划分方式,在建立母本指纹库的过程中,即为文字作品母本库中的每一部文字作品生成对应的数字指纹时,将划分方式集合中的所有划分方式作为预设的划分方式对文字作品进行划分。进一步的,将根据所有划分方式得到的各种指纹特征都保存在母本指纹库中。在生成待识别的文字作品的数字指纹时,是从划分方式集合中选取所有的划分方式作为预设的划分方式对待识别的文字作品进行划分,进而提取其数字指纹的。
下面主要对文字作品的识别过程进行详细介绍。
参见图8,为本申请另一实施例文字作品识别示意图。
步骤S801,生成待识别的文字作品的数字指纹。
具体可以包括:
S801A,从划分方式集合中选取至少一种划分方式作为预设的划分方式,将所述待识别的文字作品按照预设的划分方式划分为至少一个文字作品单元。
为了准确的判断盗版文字作品具体对文字作品哪一部分进行了非法拷贝,在生成待识别的文字作品的数字指纹时,是从划分方式集合中选取所有的划分方式作为预设的划分方式对待识别的文字作品进行划分,进而提取其数字指纹的。
S801B,提取每一个文字作品单元中的文字特征信息作为该文字作品单元的指纹特征。
S801C,将待识别的文字作品中的至少一个文字作品单元的指纹特征保存,作为所述文字作品的数字指纹。
具体的,是将至少一个待识别的文字作品的段落的指纹特征、至少一个章节的指纹特征、至少一个文字作品整体的指纹特征保存,作为待识别文字作品的数字指纹。
步骤S802,将待识别的文字作品整体的指纹特征与母本指纹库中所有的数字指纹进行比对,分别得到待识别文字作品的数字指纹与母本指纹库中的数字指纹的相似度值。即提取的待识别文字作品的数字指纹与母本指纹库中的所有数字指纹进行差值计算,得到第一相似度值。
步骤S803,判断第一相似度值是否小于设定阈值,如果第一相似度值小于设定阈值,则转到步骤S804;如果相似度值大于设定阈值,则认为所述待识别文字作品不属于非法拷贝,退出比对。
步骤S804,将提取的所述待识别的文字作品的章节的指纹特征与所述母本指纹库中的指纹特征一一进行比对,得到第二相似度值。
步骤S805,判断第二相似度值是否小于设定阈值,如果第二相似度值小于设定阈值,转到步骤S806;否则认为所述待识别文字作品不属于非法拷贝,退出比对。
步骤S806,将提取的所述待识别文字作品的段落的指纹特征与所述母本指纹库中的指纹特征进行比对,得到第三相似度值。
步骤S807,判断第三相似度值是否小于设定阈值,如果第三相似度值小于设定阈值,则认为待识别文字作品属于非法拷贝,将文字作品信息、网站信息和相似度值存入匹配结果库中,比对结束。否则认为所述待识别文字作品不属于非法拷贝,退出比对。
在本申请提供的实施例中,对匹配结果库中的网址有两种处理方式:一种是向所述匹配结果库中的未授权网站发送侵权警告信息;另一种是读取所述匹配结果库中的未授权网站的地址信息和被判定为非法拷贝的文字作品的信息并显示。
在第一种处理方式中,为了减少误报率,将授权的网站存入白名单数据库中,在进行指纹查询和比对时则直接将白名单中的网站进行过滤;对相似度处于边界情况的网站,可加入人工判断。
第二种处理方式是读取匹配结果库中的信息显示在预设的网页上,包括作品的上架时间、下架时间、被点击的次数等。然后将操作结果显示界面的权限开放给相应的部门,由他们进行处理。
盗版网站的文字作品显示时间也许有一定的周期;对收到下架通知的盗版网站,可能会撤掉盗版的文字作品。针对上面两种情况,需要定期的对匹配的盗版网站进行跟踪。
参见图9,为本申请实施例对文字作品进行追踪的流程图。
在步骤S105中,所述对所述匹配结果库中的所述未授权网站的地址中的被判定为非法拷贝的文字作品定期进行追踪具体包括:
S901,从所述匹配结果库中读取所述未授权网站的地址信息;
S902,查询所述未授权网站的地址中的被判定为非法拷贝的文字作品是否存在网页页面上;
S903,如果所述文字作品不存在,则更新所述匹配结果库中的信息,将匹配结果库中的所述未授权网站的地址信息删除;如果所述文字作品存在,转到S904;
S904,向所述未授权网站发送侵权警告信息。
本申请还公开了一种文字作品的追踪装置。
参见图10,为本申请实施例文字作品追踪装置示意图。
所述装置包括:
待识别文字作品获取单元1001,用于获取从未授权网站的地址下载的待识别的文字作品。
数字指纹生成单元1002,用于生成所述待识别的文字作品的数字指纹。
数字指纹比对单元1003,用于将所述待识别的文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别的文字作品的数字指纹与母本指纹库中的数字指纹的相似度值;所述母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹。
匹配单元1004,用于当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库。
追踪单元1005,用于对所述匹配结果库中的所述未授权网站的地址中的被判定为非法拷贝的文字作品定期进行追踪。
优选的,所述装置进一步包括:
文本索引库建立单元,用于利用网络爬虫工具抓取相关的网页地址,从所述网页地址下载文字作品,建立所述文字作品的文本索引,生成文字作品索引库。
优选的,所述装置进一步包括:
母本指纹库建立单元,用于为文字作品母本库中的每一部文字作品生成对应的数字指纹,建立母本指纹库。
下面对母本指纹库建立单元进行详细介绍。在本申请提供的实施例中,母本指纹库建立单元进一步包括:
读取单元,用于从所述文字作品母本库中读取一部文字作品。
第一划分方式选取单元,用于从划分方式集合中选取所有划分方式作为预设的划分方式。
第一划分单元,用于将所述文字作品按照预设的划分方式划分为至少一个文字作品单元。
第一指纹特征提取单元,用于提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征。
第一生成单元,用于保存所述文字作品中的所有文字作品单元的指纹特征,生成所述文字作品的数字指纹。
其中,第一指纹特征提取单元进一步包括:
拼音转换单元,用于将所述文字作品单元中的所有文字转化为对应的拼音。
首字母字数统计单元,用于提取每一个文字对应拼音的首字母,按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数。
首字母比例计算单元,用于分别计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例,得到每一类首字母对应的比例。
指纹特征生成单元,用于将所述每一类首字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
根据本申请实施例,所述数字指纹生成单元902进一步包括:
第二划分方式选取单元,用于从划分方式集合中选取至少一种划分方式作为预设的划分方式;
第二划分单元,用于将所述待识别的文字作品按照预设的划分方式划分为至少一个文字作品单元;
第二指纹特征提取单元,用于提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征;
第二生成单元,用于保存所述待识别的文字作品中至少一个文字作品单元的指纹特征,生成所述待识别的文字作品的数字指纹。
其中,第二指纹特征提取单元进一步包括:
拼音转换单元,用于将所述文字作品单元中的所有文字转化为对应的拼音。
首字母字数统计单元,用于提取每一个文字对应拼音的首字母,按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数。
首字母比例计算单元,用于分别计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例,得到每一类首字母对应的比例。
指纹特征生成单元,用于将所述每一类首字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
通过以上实施例的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。