CN107704732A - 一种用于生成作品指纹的方法与设备 - Google Patents
一种用于生成作品指纹的方法与设备 Download PDFInfo
- Publication number
- CN107704732A CN107704732A CN201710764794.2A CN201710764794A CN107704732A CN 107704732 A CN107704732 A CN 107704732A CN 201710764794 A CN201710764794 A CN 201710764794A CN 107704732 A CN107704732 A CN 107704732A
- Authority
- CN
- China
- Prior art keywords
- target text
- feature word
- works
- text works
- fingerprint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 239000000284 extract Substances 0.000 claims description 54
- 238000001514 detection method Methods 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 10
- 238000003860 storage Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 230000005291 magnetic effect Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/16—Program or content traceability, e.g. by watermarking
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Technology Law (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的目的是提供一种用于生成作品指纹的方法与设备。与现有技术相比,本申请获取目标文字作品,根据预定的抽取规则从所述目标文字作品中抽取特征文字,根据所述特征文字生成所述目标文字作品的指纹,本申请通过生成所述目标文字作品特有的指纹,可将所述指纹用于识别盗版复制件、识别抄袭作品等应用,可靠性较高。进一步地,本申请中所述抽取规则包括多种,因此更具有灵活性,可有效预防制作盗版者的规避盗版检测行为。进一步地,本申请基于所述目标文字作品的指纹在作品指纹库中进行匹配查询,可以提高效率,节约系统资源。
Description
技术领域
本申请涉及通信领域,尤其涉及一种用于生成作品指纹的技术。
背景技术
随着互联网的普及和数字化技术的发展,网上交易与传播的电子书、 图片等数字内容越来越多,由于数字化内容很容易被复制和传播,网络传 播的数字内容存在大量的盗版和侵权问题。传统的版权保护方式已不能满 足数字内容版权保护的需要。于是,人们提出一种新的技术:数字版权保 护技术。
常用的数字版权保护技术主要有数字水印技术。数字水印技术是在数 字内容中嵌入隐藏的标记,这种标记通常是与著作权相关的信息。一旦发 生盗版或侵权,即可通过检测隐藏在数字作品中的水印判断是否为盗版或 侵权作品。然而,当用户拿到数字作品的拷贝时,可通过检测工具或者一 定方法找到嵌入的内容,并对嵌入的水印进行消除处理。一旦嵌入的水印 被消除,就无法对盗版或者侵权作品进行识别,其可靠性不高。再一方面,数字水印技术无法防止手打族等的非法传播,对于通过手打方式展现的文 字作品无法识别其是否为盗版或侵权作品。
发明内容
本申请的一个目的是提供一种用于生成作品指纹的方法与设备。
根据本申请的一个方面,提供了一种用于生成作品指纹的方法,其中, 该方法包括:获取目标文字作品;根据预定的抽取规则,从所述目标文字 作品中抽取特征文字;根据所述特征文字,生成所述目标文字作品的指纹。
根据本申请的另一个方面,提供了一种包括指令的计算机可读介质, 所述指令在被执行时使得系统进行如上所述方法的操作。
根据本申请的另一个方面,提供了一种用于生成作品指纹的设备,其 中,该设备包括:处理器;以及被安排成存储计算机可执行指令的存储器, 所述可执行指令在被执行时使所述处理器执行如上所述的方法。
与现有技术相比,本申请获取目标文字作品,根据预定的抽取规则从 所述目标文字作品中抽取特征文字,根据所述特征文字生成所述目标文字 作品的指纹,本申请通过生成所述目标文字作品特有的指纹,可将所述指 纹用于识别盗版复制件、识别抄袭作品等应用,可靠性较高。进一步地, 本申请中所述抽取规则包括多种,因此更具有灵活性,可有效预防制作盗 版者的规避盗版检测行为。进一步地,本申请基于所述目标文字作品的指 纹在作品指纹库中进行匹配查询,可以提高效率,节约系统资源。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申 请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种用于生成作品指纹的方法流程图;
图2示出根据本申请另一个方面的一种用于生成作品指纹的方法流程 图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括 一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。 内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以 由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结 构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相 变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可 擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光 盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒 式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用 于存储可以被计算设备访问的信息。
本申请所指设备1包括但不限于用户设备、网络设备、或用户设备与 网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何 一种可与用户进行人机交互的电子产品,例如智能手机、平板电脑、笔记 本电脑等,所述电子产品可以采用任意操作系统,如android操作系统、 iOS操作系统、Windows操作系统等。其中,所述网络设备包括一种能够 按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备, 其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程逻辑器件 (PLD)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、嵌入式 设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、 多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计 算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述 网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自 组织网络(Ad Hoc网络)等。优选地,所述设备1还可以是运行于所述 用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。
当然,本领域技术人员应能理解上述设备1仅为举例,其他现有的或 今后可能出现的设备1如可适用于本申请,也应包含在本申请保护范围以 内,并在此以引用方式包含于此。
图1示出根据本申请一个方面的一种用于生成作品指纹的方法流程图, 其中,该方法包括步骤S11、步骤S12和步骤S13。
具体地,步骤S11中,设备1获取目标文字作品;步骤S12中,设备 1根据预定的抽取规则,从所述目标文字作品中抽取特征文字;步骤S13 中,设备1根据所述特征文字,生成所述目标文字作品的指纹。
例如,所述目标文字作品包括以文字形式表达内容的作品,包括但不 限于小说、教科书、人物传记、论文等文字作品。设备1根据预定的抽取 规则从所述目标文字作品中抽取特征文字,并根据所述特征文字生成所述 目标文字作品特有的指纹。假设作品A为所述目标文字作品的复制件,若 根据同样的抽取规则从作品A中抽取特征文字,并根据特征文字生成作品 A的指纹;因为作品A与所述目标文字作品的内容完全相同,抽取规则相 同,所生成的作品A的指纹与所述目标文字作品的指纹也相同;因此,所 生成的指纹可用于检测文字作品的盗版复制件。
优选地,所述抽取规则包括以下至少任一项:从所述目标文字作品中 按指定间隔抽取所述特征文字;从所述目标文字作品中每个段落的指定位 置抽取所述特征文字;从所述目标文字作品中每个标题的指定位置抽取所 述特征文字。
例如,假设将指定间隔设为M字,对应的抽取规则即为从所述目标 文字作品中每隔M字抽取所述特征文字。假设将指定位置设为每个段落 的段首或段尾,对应的抽取规则即为从所述目标文字作品中每个段落的段 首或段尾抽取所述特征文字;假设将指定位置设为每个段落的第c个字, 对应的抽取规则即为抽取所述目标文字作品中每个段落的第c个字作为所 述特征文字。假设将指定位置设为每个标题的第一个字或最后一个字,对 应的抽取规则即为抽取所述目标文字作品中每个标题的第一个字或最后 一个字作为所述特征文字。
优选地,所述步骤S12包括以下至少任一项:设备1确定所述目标文 字作品的总字数,根据所述目标文字作品的总字数确定所述指定间隔,从 所述目标文字作品中每隔所述指定间隔抽取所述特征文字;设备1确定所 述目标文字作品的总字数,根据所述目标文字作品的总字数确定所述每个 段落的指定位置,从所述目标文字作品中所述每个段落的指定位置抽取所 述特征文字;设备1确定所述目标文字作品的总字数,根据所述目标文字 作品的总字数确定所述每个标题的指定位置,从所述目标文字作品中所述 每个标题的指定位置抽取所述特征文字。
例如,假设将指定间隔设为M字,从所述目标文字作品中每隔M字 抽取所述特征文字,若所述目标文字作品的总字数为N字,可根据所述目 标文字作品的总字数N字确定所述指定间隔M字。在一个实施例中,如 果总字数N越大,则指定间隔M也越大。在另一个实施例中,可以根据 计算公式确定M的值,例如M=N/X。
再例如,可根据所述目标文字作品的总字数确定每个段落的指定位置, 然后从所述目标文字作品中每个段落的指定位置抽取所述特征文字。或者, 可根据所述目标文字作品的总字数确定每个标题的指定位置,然后从所述 目标文字作品中每个标题的指定位置抽取所述特征文字。
优选地,所述步骤S12包括以下至少任一项:设备1确定所述目标文 字作品的类型,根据所述目标文字作品的类型确定所述指定间隔,从所述 目标文字作品中每隔所述指定间隔抽取所述特征文字;设备1确定所述目 标文字作品的类型,根据所述目标文字作品的类型确定所述每个段落的指 定位置,从所述目标文字作品中所述每个段落的指定位置抽取所述特征文 字;设备1确定所述目标文字作品的类型,根据所述目标文字作品的类型确定所述每个标题的指定位置,从所述目标文字作品中所述每个标题的指 定位置抽取所述特征文字。
例如,假设将指定间隔设为M字,从所述目标文字作品中每隔M字 抽取所述特征文字;所述目标文字作品的类型包括但不限于小说、教科书、 人物传记、论文等,可根据所述目标文字作品的类型确定所述指定间隔M 字。
再例如,可根据所述目标文字作品的类型确定每个段落的指定位置, 然后从所述目标文字作品中每个段落的指定位置抽取所述特征文字。或者, 可根据所述目标文字作品的类型确定每个标题的指定位置,然后从所述目 标文字作品中每个标题的指定位置抽取所述特征文字。
优选地,所述抽取规则包括从所述目标文字作品中按指定间隔抽取所 述特征文字,其中,所述指定间隔包括第一指定间隔和第二指定间隔;其 中,所述从所述目标文字作品中按指定间隔抽取所述特征文字,包括:从 所述目标文字作品中每隔第一指定间隔抽取第一特征文字,从所述目标文 字作品中每隔第二指定间隔抽取第二特征文字;根据所述第一特征文字及 所述第二特征文字组成所述特征文字。
例如,假设将第一指定间隔设为M1字,将第二指定间隔设为M2字, 从所述目标文字作品中每隔M1字抽取所述第一特征文字,从所述目标文 字作品总每隔M2字抽取所述第二特征文字,所述特征文字由所述第一特 征文字和所述第二特征文字组成。
优选地,所述方法还包括:设备1确定所述目标文字作品的第一部分 所对应的所述第一指定间隔;确定所述目标文字作品的第二部分所对应的 所述第二指定间隔;从所述目标文字作品的第一部分中每隔第一指定间隔 抽取第一特征文字,从所述目标文字作品的第二部分中每隔第二指定间隔 抽取第二特征文字。
例如,接上例,所述第一部分可以包括所述目标文字作品的重点章节 (如小说的精彩部分),所述第二部分可以包括所述目标文字作品的次要 章节,在确定所述第一指定间隔M1字和所述第二指定间隔M2字时,可 以将所述第一指定间隔M1设为较小的值,将所述第二指定间隔M2设为 较大的值,以增加所述第一特征文字在所述特征文字中的比重。
优选地,步骤S12中,设备1根据第一抽取规则,从所述目标文字作 品中抽取第三特征文字;根据第二抽取规则,从所述目标文字作品中抽取 第四特征文字;步骤S13中,设备1根据所述第三特征文字,生成所述目 标文字作品的第一指纹;根据所述第四特征文字,生成所述目标文字作品 的第二指纹;根据所述第一指纹及所述第二指纹组成所述目标文字作品的 指纹。
在一个实施例中,所述第一抽取规则可以是从所述目标文字作品中每 隔M字抽取所述第三特征文字,根据所述第三特征文字生成所述第一指 纹,所述第二抽取规则可以是从所述目标文字作品中每个段落的指定位置 抽取所述第四特征文字,根据所述第四特征文字生成所述第二指纹,所述 目标文字作品的指纹由所述第一指纹和所述第二指纹组成。
在另一个实施例中,所述第一抽取规则可以是从所述目标文字作品中 每个段落的指定位置抽取所述第三特征文字,根据所述第三特征文字生成 所述第一指纹,所述第二抽取规则可以是从所述目标文字作品中每个标题 的指定位置抽取所述第四特征文字,根据所述第四特征文字生成所述第二 指纹,所述目标文字作品的指纹由所述第一指纹和所述第二指纹组成。
在又一个实施例中,所述第一抽取规则可以是从所述目标文字作品中 每隔M1字抽取所述第三特征文字,根据所述第三特征文字生成所述第一 指纹,所述第二抽取规则可以是从所述目标文字作品中每隔M2字抽取所 述第四特征文字,根据所述第四特征文字生成所述第二指纹,所述目标文 字作品的指纹由所述第一指纹和所述第二指纹组成。
优选地,所述第一抽取规则或所述第二抽取规则包括从所述目标文字 作品中按指定间隔抽取所述特征文字,其中,所述指定间隔包括第三指定 间隔和第四指定间隔;
其中,所述从所述目标文字作品中按指定间隔抽取所述特征文字,包 括:从所述目标文字作品中每隔第三指定间隔抽取第三一特征文字或第四 一特征文字,从所述目标文字作品中每隔第四指定间隔抽取第三二特征文 字或第四二特征文字;根据所述第三一特征文字及所述第三二特征文字组 成所述第三特征文字,或者,根据所述第四一特征文字及所述第四二特征 文字组成所述第四特征文字。
在一个实施例中,所述第一抽取规则可以包括:从所述目标文字作品 中每隔第三指定间隔抽取第三一特征文字,从所述目标文字作品中每隔第 四指定间隔抽取第三二特征文字;根据所述第三一特征文字及所述第三二 特征文字组成所述第三特征文字。
在另一个实施例中,所述第二抽取规则可以包括:从所述目标文字作 品中每隔第三指定间隔抽取第四一特征文字,从所述目标文字作品中每隔 第四指定间隔抽取第四二特征文字;根据所述第四一特征文字及所述第四 二特征文字组成所述第四特征文字。
优选地,所述第一抽取规则或所述第二抽取规则包括从所述目标文字 作品中每个段落的指定位置抽取所述特征文字,其中,所述指定位置包括 第一指定位置和第二指定位置;
其中,所述从所述目标文字作品中每个段落的指定位置抽取所述特征 文字,包括:从所述目标文字作品中每个段落的第一指定位置抽取第三三 特征文字或第四三特征文字,从所述目标文字作品中每个段落的第二指定 位置抽取第三四特征文字或第四四特征文字;根据所述第三三特征文字及 所述第三四特征文字组成所述第三特征文字,或者,根据所述第四三特征 文字及所述第四四特征文字组成所述第四特征文字。
在一个实施例中,所述第一抽取规则可以包括:从所述目标文字作品 中每个段落的第一指定位置抽取第三三特征文字,从所述目标文字作品中 每个段落的第二指定位置抽取第三四特征文字;根据所述第三三特征文字 及所述第三四特征文字组成所述第三特征文字。
在另一个实施例中,所述第二抽取规则可以包括:从所述目标文字作 品中每个段落的第一指定位置抽取第四三特征文字,从所述目标文字作品 中每个段落的第二指定位置抽取第四四特征文字;根据所述第四三特征文 字及所述第四四特征文字组成所述第四特征文字。
优选地,所述第一抽取规则或所述第二抽取规则包括从所述目标文字 作品中每个标题的指定位置抽取所述特征文字,其中,所述指定位置包括 第三指定位置和第四指定位置;
其中,所述从所述目标文字作品中每个标题的指定位置抽取所述特征 文字,包括:从所述目标文字作品中每个标题的第三指定位置抽取第三五 特征文字或第四五特征文字,从所述目标文字作品中每个标题的第四指定 位置抽取第三六特征文字或第四六特征文字;根据所述第三五特征文字及 所述第三六特征文字组成所述第三特征文字,或者,根据所述第四五特征 文字及所述第四六特征文字组成所述第四特征文字。
在一个实施例中,所述第一抽取规则可以包括:从所述目标文字作品 中每个标题的第三指定位置抽取第三五特征文字,从所述目标文字作品中 每个标题的第四指定位置抽取第三六特征文字;根据所述第三五特征文字 及所述第三六特征文字组成所述第三特征文字。
在另一个实施例中,所述第二抽取规则可以包括:从所述目标文字作 品中每个标题的第三指定位置抽取第四五特征文字,从所述目标文字作品 中每个标题的第四指定位置抽取第四六特征文字;根据所述第四五特征文 字及所述第四六特征文字组成所述第四特征文字。
在步骤S13中,设备1根据所述特征文字,生成所述目标文字作品的 指纹。
例如,根据所述特征文字(文本)生成指纹的算法包括但不限于 k-shingle算法、simhash算法、Minhash算法等。
其中,关于k-shingle算法,shingle在英文中表示相互覆盖的瓦片。 对于一段文本,分词向量为[w1,w2,w3,w4,…wn],设k=3,那么该文本 的shingle向量(指纹)表示为[(w1,w2,w3),(w2,w3,w4),(w3,w4,w5),…… (wn-2,wn-1,wn)]。
关于simhash算法,simhash是google用来处理海量文本去重的算法, 同时也是一种基于LSH(locality sensitive hashing,局部敏感哈希)的算法。 LSH(局部敏感哈希)可以将相似的字符串hash得到相似的hash值,使 得相似项会比不相似项更可能的hash到一个桶中,hash到同一个桶中的 文档间成为候选对。这样就可以以接近线性的时间去解决相似性判断和去 重问题。simhash算法通过计算每个特征文字的哈希值,并最终合并成一 个特征值即指纹。经过simhash算法生成的指纹是一个f位的二进制字符 串,如一个32位的指纹,‘101001111100011010100011011011’。
优选地,如图2所示,所述方法还包括步骤S14’和步骤S15’;步骤 S14’中,设备1基于所述目标文字作品的指纹在作品指纹库进行匹配查询; 步骤S15’中,设备1若查询获得与所述指纹相匹配的匹配指纹,确定所述 匹配指纹对应的作品与所述目标文字作品相似。
例如,若采用k-shingle算法生成指纹,可通过计算两个指纹(shingle 向量)的相似度(jarccard系数)来进行匹配查询。
若采用simhash算法生成指纹,经过simhash算法生成的指纹是一个f 位的二进制字符串,对于两个指纹的f位0-1字符串,simhash算法采用汉 明距离(hamming distance)来计算两个指纹之间的相似度。
优选地,所述匹配指纹与所述指纹的匹配度高于预定匹配阈值。
例如,若所述匹配指纹与所述指纹的相似度越高,则匹配度越高。在 此可以设定一个预定匹配阈值,当所述匹配指纹与所述指纹的匹配度高于 所述预定匹配阈值,则确定所述匹配指纹对应的作品与所述目标文字作品 相似。
优选地,所述方法还包括:设备1若未查询获得与所述指纹相匹配的 匹配指纹,从所述目标文字作品中抽取新的特征文字;根据所述新的特征 文字,生成所述目标文字作品对应的新指纹;基于所述新指纹在所述作品 指纹库进行匹配查询;若查询获得与所述新指纹相匹配的新匹配指纹,确 定所述新匹配指纹对应的作品与所述目标文字作品相似。
例如,若根据第一抽取规则从所述目标文字作品中抽取特征文字,并 据此生成所述指纹,若在作品指纹库中未查询获得与所述指纹相匹配的匹 配指纹,则可根据第二抽取规则从所述目标文字作品中抽取新的特征文字, 并据此生成新指纹,然后基于所述新指纹在所述作品指纹库进行匹配查询。 本实施例通过两次抽取的方式,避免因抽取规则方面的差错导致匹配查询 出错,从而可实现更精准的匹配查询。
根据本申请的另一个方面,提供了一种包括指令的计算机可读介质, 所述指令在被执行时使得系统进行如上所述方法的操作。
根据本申请的另一个方面,提供了一种用于生成作品指纹的设备,其 中,该设备包括:处理器;以及被安排成存储计算机可执行指令的存储器, 所述可执行指令在被执行时使所述处理器执行如上所述的方法。
与现有技术相比,本申请获取目标文字作品,根据预定的抽取规则从 所述目标文字作品中抽取特征文字,根据所述特征文字生成所述目标文字 作品的指纹,本申请通过生成所述目标文字作品特有的指纹,可将所述指 纹用于识别盗版复制件、识别抄袭作品等应用,可靠性较高。进一步地, 本申请中所述抽取规则包括多种,因此更具有灵活性,可有效预防制作盗 版者的规避盗版检测行为。进一步地,本申请基于所述目标文字作品的指 纹在作品指纹库中进行匹配查询,可以提高效率,节约系统资源。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施, 例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬 件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行 以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数 据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁 或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用 硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序 指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据 本申请的方法和/或技术方案。本领域技术人员应能理解,计算机程序指令 在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装 包文件等,相应地,计算机程序指令被计算机执行的方式包括但不限于: 该计算机直接执行该指令,或者该计算机编译该指令后再执行对应的编译后程序,或者该计算机读取并执行该指令,或者该计算机读取并安装该指 令后再执行对应的安装后程序。在此,计算机可读介质可以是可供计算机 访问的任意可用的计算机可读存储介质或通信介质。
通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或 其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包 括有导的传输介质(诸如电缆和线(例如,光纤、同轴等))和能传播能量波 的无线(未有导的传输)介质,诸如声音、电磁、RF、微波和红外。计算机 可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如 载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信 息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技 术。
作为示例而非限制,计算机可读存储介质可包括以用于存储诸如计算 机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实 现的易失性和非易失性、可移动和不可移动的介质。例如,计算机可读存 储介质包括,但不限于,易失性存储器,诸如随机存储器(RAM,DRAM, SRAM);以及非易失性存储器,诸如闪存、各种只读存储器(ROM,PROM, EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM);以及磁性 和光学存储设备(硬盘、磁带、CD、DVD);或其它现在已知的介质或今后 开发的能够存储供计算机系统使用的计算机可读信息/数据。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细 节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体 形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性 的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限 定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括 在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要 求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。第 一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (15)
1.一种用于生成作品指纹的方法,其中,该方法包括:
获取目标文字作品;
根据预定的抽取规则,从所述目标文字作品中抽取特征文字;
根据所述特征文字,生成所述目标文字作品的指纹。
2.根据权利要求1所述的方法,其中,所述抽取规则包括以下至少任一项:
从所述目标文字作品中按指定间隔抽取所述特征文字;
从所述目标文字作品中每个段落的指定位置抽取所述特征文字;
从所述目标文字作品中每个标题的指定位置抽取所述特征文字。
3.根据权利要求2所述的方法,其中,所述根据预定的抽取规则,从所述目标文字作品中抽取特征文字,包括以下至少任一项:
确定所述目标文字作品的总字数,根据所述目标文字作品的总字数确定所述指定间隔,从所述目标文字作品中每隔所述指定间隔抽取所述特征文字;
确定所述目标文字作品的总字数,根据所述目标文字作品的总字数确定所述每个段落的指定位置,从所述目标文字作品中所述每个段落的指定位置抽取所述特征文字;
确定所述目标文字作品的总字数,根据所述目标文字作品的总字数确定所述每个标题的指定位置,从所述目标文字作品中所述每个标题的指定位置抽取所述特征文字。
4.根据权利要求2所述的方法,其中,所述根据预定的抽取规则,从所述目标文字作品中抽取特征文字,包括以下至少任一项:
确定所述目标文字作品的类型,根据所述目标文字作品的类型确定所述指定间隔,从所述目标文字作品中每隔所述指定间隔抽取所述特征文字;
确定所述目标文字作品的类型,根据所述目标文字作品的类型确定所述每个段落的指定位置,从所述目标文字作品中所述每个段落的指定位置抽取所述特征文字;
确定所述目标文字作品的类型,根据所述目标文字作品的类型确定所述每个标题的指定位置,从所述目标文字作品中所述每个标题的指定位置抽取所述特征文字。
5.根据权利要求1所述的方法,其中,所述抽取规则包括从所述目标文字作品中按指定间隔抽取所述特征文字,其中,所述指定间隔包括第一指定间隔和第二指定间隔;
其中,所述从所述目标文字作品中按指定间隔抽取所述特征文字,包括:
从所述目标文字作品中每隔第一指定间隔抽取第一特征文字,从所述目标文字作品中每隔第二指定间隔抽取第二特征文字;
根据所述第一特征文字及所述第二特征文字组成所述特征文字。
6.根据权利要求5所述的方法,其中,所述方法还包括:
确定所述目标文字作品的第一部分所对应的所述第一指定间隔;
确定所述目标文字作品的第二部分所对应的所述第二指定间隔;
其中,所述从所述目标文字作品中每隔第一指定间隔抽取第一特征文字,从所述目标文字作品中每隔第二指定间隔抽取第二特征文字,包括:
从所述目标文字作品的第一部分中每隔第一指定间隔抽取第一特征文字,从所述目标文字作品的第二部分中每隔第二指定间隔抽取第二特征文字。
7.根据权利要求1所述的方法,其中,所述根据预定的抽取规则,从所述目标文字作品中抽取特征文字,包括:
根据第一抽取规则,从所述目标文字作品中抽取第三特征文字;
根据第二抽取规则,从所述目标文字作品中抽取第四特征文字;
其中,所述根据所述特征文字,生成所述目标文字作品的指纹,包括:
根据所述第三特征文字,生成所述目标文字作品的第一指纹;
根据所述第四特征文字,生成所述目标文字作品的第二指纹;
根据所述第一指纹及所述第二指纹组成所述目标文字作品的指纹。
8.根据权利要求7所述的方法,其中,所述第一抽取规则或所述第二抽取规则包括从所述目标文字作品中按指定间隔抽取所述特征文字,其中,所述指定间隔包括第三指定间隔和第四指定间隔;
其中,所述从所述目标文字作品中按指定间隔抽取所述特征文字,包括:
从所述目标文字作品中每隔第三指定间隔抽取第三一特征文字或第四一特征文字,从所述目标文字作品中每隔第四指定间隔抽取第三二特征文字或第四二特征文字;
根据所述第三一特征文字及所述第三二特征文字组成所述第三特征文字,或者,根据所述第四一特征文字及所述第四二特征文字组成所述第四特征文字。
9.根据权利要求7所述的方法,其中,所述第一抽取规则或所述第二抽取规则包括从所述目标文字作品中每个段落的指定位置抽取所述特征文字,其中,所述指定位置包括第一指定位置和第二指定位置;
其中,所述从所述目标文字作品中每个段落的指定位置抽取所述特征文字,包括:
从所述目标文字作品中每个段落的第一指定位置抽取第三三特征文字或第四三特征文字,从所述目标文字作品中每个段落的第二指定位置抽取第三四特征文字或第四四特征文字;
根据所述第三三特征文字及所述第三四特征文字组成所述第三特征文字,或者,根据所述第四三特征文字及所述第四四特征文字组成所述第四特征文字。
10.根据权利要求7所述的方法,其中,所述第一抽取规则或所述第二抽取规则包括从所述目标文字作品中每个标题的指定位置抽取所述特征文字,其中,所述指定位置包括第三指定位置和第四指定位置;
其中,所述从所述目标文字作品中每个标题的指定位置抽取所述特征文字,包括:
从所述目标文字作品中每个标题的第三指定位置抽取第三五特征文字或第四五特征文字,从所述目标文字作品中每个标题的第四指定位置抽取第三六特征文字或第四六特征文字;
根据所述第三五特征文字及所述第三六特征文字组成所述第三特征文字,或者,根据所述第四五特征文字及所述第四六特征文字组成所述第四特征文字。
11.根据权利要求1至10中任一项所述的方法,其中,该方法还包括:
基于所述目标文字作品的指纹在作品指纹库进行匹配查询;
若查询获得与所述指纹相匹配的匹配指纹,确定所述匹配指纹对应的作品与所述目标文字作品相似。
12.根据权利要求11所述的方法,其中,所述匹配指纹与所述指纹的匹配度高于预定匹配阈值。
13.根据权利要求12所述的方法,其中,所述方法还包括:
若未查询获得与所述指纹相匹配的匹配指纹,从所述目标文字作品中抽取新的特征文字;
根据所述新的特征文字,生成所述目标文字作品对应的新指纹;
基于所述新指纹在所述作品指纹库进行匹配查询;
若查询获得与所述新指纹相匹配的新匹配指纹,确定所述新匹配指纹对应的作品与所述目标文字作品相似。
14.一种包括指令的计算机可读介质,所述指令在被执行时使得系统进行如权利要求1至13中任一项所述方法的操作。
15.一种用于生成作品指纹的设备,其中,该设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1至13中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710764794.2A CN107704732B (zh) | 2017-08-30 | 2017-08-30 | 一种用于生成作品指纹的方法与设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710764794.2A CN107704732B (zh) | 2017-08-30 | 2017-08-30 | 一种用于生成作品指纹的方法与设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107704732A true CN107704732A (zh) | 2018-02-16 |
CN107704732B CN107704732B (zh) | 2020-12-01 |
Family
ID=61171299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710764794.2A Active CN107704732B (zh) | 2017-08-30 | 2017-08-30 | 一种用于生成作品指纹的方法与设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107704732B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664900A (zh) * | 2018-04-20 | 2018-10-16 | 上海掌门科技有限公司 | 一种用于识别文字作品异同的方法与设备 |
CN110209659A (zh) * | 2019-06-10 | 2019-09-06 | 广州合摩计算机科技有限公司 | 一种简历过滤方法、系统和计算机可读存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315622A (zh) * | 2007-05-30 | 2008-12-03 | 香港中文大学 | 检测文件相似度的系统及方法 |
CN101350043A (zh) * | 2007-07-17 | 2009-01-21 | 华为技术有限公司 | 数字内容的一致性检测方法及装置 |
CN102509042A (zh) * | 2011-10-14 | 2012-06-20 | 盛乐信息技术(上海)有限公司 | 文字作品数字指纹库的比对方法及系统 |
CN102542183A (zh) * | 2010-12-17 | 2012-07-04 | 盛乐信息技术(上海)有限公司 | 网络文学版权检测方法及系统 |
CN102591976A (zh) * | 2012-01-04 | 2012-07-18 | 复旦大学 | 基于句子级别的文本特征提取方法和文档拷贝检测系统 |
CN102855424A (zh) * | 2011-06-29 | 2013-01-02 | 盛乐信息技术(上海)有限公司 | 一种数字指纹提取方法、装置和文字作品识别方法、装置 |
CN102855423A (zh) * | 2011-06-29 | 2013-01-02 | 盛乐信息技术(上海)有限公司 | 一种文字作品的追踪方法和装置 |
CN104572679A (zh) * | 2013-10-16 | 2015-04-29 | 北大方正集团有限公司 | 舆情数据存储方法和装置 |
US20150169854A1 (en) * | 2013-12-16 | 2015-06-18 | Iowa State University Research Foundation, Inc. | Capturing cognitive fingerprints from keystroke dynamics for active authentication |
US9514312B1 (en) * | 2014-09-05 | 2016-12-06 | Symantec Corporation | Low-memory footprint fingerprinting and indexing for efficiently measuring document similarity and containment |
-
2017
- 2017-08-30 CN CN201710764794.2A patent/CN107704732B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315622A (zh) * | 2007-05-30 | 2008-12-03 | 香港中文大学 | 检测文件相似度的系统及方法 |
CN101350043A (zh) * | 2007-07-17 | 2009-01-21 | 华为技术有限公司 | 数字内容的一致性检测方法及装置 |
CN102542183A (zh) * | 2010-12-17 | 2012-07-04 | 盛乐信息技术(上海)有限公司 | 网络文学版权检测方法及系统 |
CN102855424A (zh) * | 2011-06-29 | 2013-01-02 | 盛乐信息技术(上海)有限公司 | 一种数字指纹提取方法、装置和文字作品识别方法、装置 |
CN102855423A (zh) * | 2011-06-29 | 2013-01-02 | 盛乐信息技术(上海)有限公司 | 一种文字作品的追踪方法和装置 |
CN102509042A (zh) * | 2011-10-14 | 2012-06-20 | 盛乐信息技术(上海)有限公司 | 文字作品数字指纹库的比对方法及系统 |
CN102591976A (zh) * | 2012-01-04 | 2012-07-18 | 复旦大学 | 基于句子级别的文本特征提取方法和文档拷贝检测系统 |
CN104572679A (zh) * | 2013-10-16 | 2015-04-29 | 北大方正集团有限公司 | 舆情数据存储方法和装置 |
US20150169854A1 (en) * | 2013-12-16 | 2015-06-18 | Iowa State University Research Foundation, Inc. | Capturing cognitive fingerprints from keystroke dynamics for active authentication |
US9514312B1 (en) * | 2014-09-05 | 2016-12-06 | Symantec Corporation | Low-memory footprint fingerprinting and indexing for efficiently measuring document similarity and containment |
Non-Patent Citations (4)
Title |
---|
华秀丽: "文本抄袭检测方法研究", 《CNKI中国优秀硕士学位论文全文数据库 信息科技辑》 * |
史彦军等: "抄袭论文识别研究与进展", 《大连理工大学学报》 * |
类艳春: "基于篇章结构的抄袭论文识别系统的研究与实现", 《CNKI中国优秀硕士学位论文全文数据库信息科技辑》 * |
赵俊杰: "基于文本挖掘技术的论文抄袭判定研究", 《CNKI中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664900A (zh) * | 2018-04-20 | 2018-10-16 | 上海掌门科技有限公司 | 一种用于识别文字作品异同的方法与设备 |
CN110209659A (zh) * | 2019-06-10 | 2019-09-06 | 广州合摩计算机科技有限公司 | 一种简历过滤方法、系统和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107704732B (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102226257B1 (ko) | 서비스 데이터를 블록체인 시스템에 기입하기 위한 방법 및 디바이스 | |
WO2019091177A1 (zh) | 风险识别模型构建和风险识别方法、装置及设备 | |
CN105453102B (zh) | 用于识别已泄漏的私有密钥的系统和方法 | |
US8291497B1 (en) | Systems and methods for byte-level context diversity-based automatic malware signature generation | |
US8336100B1 (en) | Systems and methods for using reputation data to detect packed malware | |
CN109074452A (zh) | 用于生成绊网文件的系统和方法 | |
Kumari et al. | Harnessing the vulnerability of latent layers in adversarially trained models | |
JP2016053956A (ja) | ウェブ基盤の悪性コード探知システムおよび方法 | |
CN109344568A (zh) | 基于区块链的文件处理方法及装置 | |
JP2012514267A (ja) | ソフトウェア分離実行方法、装置、及びコンピュータで読み取り可能な記録媒体 | |
CN103577323A (zh) | 基于动态关键指令序列胎记的软件抄袭检测方法 | |
Khadam et al. | Text data security and privacy in the internet of things: threats, challenges, and future directions | |
KR100602339B1 (ko) | 워터마킹 컴퓨터 및 방법과, 워터마크의 존재 판단 컴퓨터 및 방법과, 데이터 저장부와, 컴퓨터 판독 가능 기록 매체 | |
Bhattacharya et al. | Comparative analysis of different feature ranking techniques in data mining-based android malware detection | |
CN107704732A (zh) | 一种用于生成作品指纹的方法与设备 | |
CN110070360B (zh) | 一种事务请求处理方法、装置、设备及存储介质 | |
Roy et al. | Low overhead symmetrical protection of reusable IP core using robust fingerprinting and watermarking during high level synthesis | |
Hilal et al. | A hybrid intelligent text watermarking and natural language processing approach for transferring and receiving an authentic english text via internet | |
CN108319688A (zh) | 一种用于对用户进行阅读提醒的方法与设备 | |
Hamza et al. | A survey and taxonomy of program analysis for IoT platforms | |
Vanjire et al. | MDTA: a new approach of supervised machine learning for android malware detection and threat attribution using behavioral reports | |
CN111030978B (zh) | 一种基于区块链的恶意数据获取方法、装置及存储设备 | |
CN107533614B (zh) | 用于存储数据的装置和存储介质 | |
Badhani et al. | Android malware detection using code graphs | |
CN108108596B (zh) | 一种用于生成文字作品的数字指纹的方法与设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |