CN108664900B - 一种用于识别文字作品异同的方法与设备 - Google Patents

一种用于识别文字作品异同的方法与设备 Download PDF

Info

Publication number
CN108664900B
CN108664900B CN201810361444.6A CN201810361444A CN108664900B CN 108664900 B CN108664900 B CN 108664900B CN 201810361444 A CN201810361444 A CN 201810361444A CN 108664900 B CN108664900 B CN 108664900B
Authority
CN
China
Prior art keywords
work
written
unit group
works
units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810361444.6A
Other languages
English (en)
Other versions
CN108664900A (zh
Inventor
童小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhangmen Science and Technology Co Ltd
Original Assignee
Shanghai Zhangmen Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhangmen Science and Technology Co Ltd filed Critical Shanghai Zhangmen Science and Technology Co Ltd
Priority to CN201810361444.6A priority Critical patent/CN108664900B/zh
Publication of CN108664900A publication Critical patent/CN108664900A/zh
Application granted granted Critical
Publication of CN108664900B publication Critical patent/CN108664900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本申请的目的是提供一种用于识别文字作品异同的方法与设备,包括获取第一文字作品与第二文字作品对应的第一作品单元组,其中,所述第一作品单元组包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元;根据所述第一作品单元组中两个作品单元分别生成所述第一作品单元组对应的两个数字指纹信息;根据所述第一作品单元组对应的两个数字指纹信息的异同,确定所述第一文字作品与所述第二文字作品是否相同。与现有技术相比,本方案可更加快速、准确识别文字作品的异同,提高了数字作品版权管理的便捷性。

Description

一种用于识别文字作品异同的方法与设备
技术领域
本申请涉及通信领域,尤其涉及一种用于识别文字作品异同的技术。
背景技术
随着时代的发展,互联网的盛行使得数字作品越来越多,数字版权的保护也越来越受到关注。通常情况识别两部文字作品是否为同一作品,将文字作品处理生成整部作品的数字指纹,通过在数据库中查询、匹配来进行文字作品的版权检测,该方法计算量大,操作繁琐,为数字作品的版权保护带来诸多不便。
发明内容
本申请的一个目的是提供一种用于识别文字作品异同的方法与设备。
根据本申请的一个方面,提供了一种用于识别文字作品异同的方法,该方法包括:获取第一文字作品与第二文字作品对应的第一作品单元组,其中,所述第一作品单元组包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元;根据所述第一作品单元组中两个作品单元分别生成所述第一作品单元组对应的两个数字指纹信息;根据所述第一作品单元组对应的两个数字指纹信息的异同,确定所述第一文字作品与所述第二文字作品是否相同。
根据本申请的另一个方面,提供了一种用于识别文字作品异同的方法,该方法包括:获取第一文字作品与第二文字作品对应的待处理的多组作品单元,其中,每组作品单元包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元;对于所述多组作品单元中待处理的一组作品单元,执行处理操作;其中,所述处理操作包括:根据所述一组作品单元中两个作品单元分别生成所述一组作品单元对应的两个数字指纹信息;若所述一组作品单元对应的两个数字指纹信息不同,确定所述第一文字作品与所述第二文字作品不同;若所述一组作品单元对应的两个数字指纹信息相同,且所述多组作品单元均已执行完毕,确定所述第一文字作品与所述第二文字作品相同;否则,从所述多组作品单元中重新选择待处理的一组作品单元,并执行所述处理操作。
根据本申请的一个方面,提供了一种用于识别文字作品异同的设备,该设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行:获取第一文字作品与第二文字作品对应的第一作品单元组,其中,所述第一作品单元组包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元;根据所述第一作品单元组中两个作品单元分别生成所述第一作品单元组对应的两个数字指纹信息;根据所述第一作品单元组对应的两个数字指纹信息的异同,确定所述第一文字作品与所述第二文字作品是否相同。
根据本申请的另一个方面,提供了一种用于识别文字作品异同的设备,该设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行:获取第一文字作品与第二文字作品对应的待处理的多组作品单元,其中,每组作品单元包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元;对于所述多组作品单元中待处理的一组作品单元,执行处理操作;其中,所述处理操作包括:根据所述一组作品单元中两个作品单元分别生成所述一组作品单元对应的两个数字指纹信息;若所述一组作品单元对应的两个数字指纹信息不同,确定所述第一文字作品与所述第二文字作品不同;若所述一组作品单元对应的两个数字指纹信息相同,且所述多组作品单元均已执行完毕,确定所述第一文字作品与所述第二文字作品相同;否则,从所述多组作品单元中重新选择待处理的一组作品单元,并执行所述处理操作。
根据本申请的一个方面,提供了一种包括指令的计算机可读介质,所述指令在被执行时使得系统进行:获取第一文字作品与第二文字作品对应的第一作品单元组,其中,所述第一作品单元组包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元;根据所述第一作品单元组中两个作品单元分别生成所述第一作品单元组对应的两个数字指纹信息;根据所述第一作品单元组对应的两个数字指纹信息的异同,确定所述第一文字作品与所述第二文字作品是否相同。
根据本申请的另一个方面,提供了一种包括指令的计算机可读介质,所述指令在被执行时使得系统进行:获取第一文字作品与第二文字作品对应的待处理的多组作品单元,其中,每组作品单元包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元;对于所述多组作品单元中待处理的一组作品单元,执行处理操作;其中,所述处理操作包括:根据所述一组作品单元中两个作品单元分别生成所述一组作品单元对应的两个数字指纹信息;若所述一组作品单元对应的两个数字指纹信息不同,确定所述第一文字作品与所述第二文字作品不同;若所述一组作品单元对应的两个数字指纹信息相同,且所述多组作品单元均已执行完毕,确定所述第一文字作品与所述第二文字作品相同;否则,从所述多组作品单元中重新选择待处理的一组作品单元,并执行所述处理操作。
与现有技术相比,本申请的一种用于识别文字作品异同的方法,利用对两文字作品对应提取作品单元、生成相应的数字指纹,通过比较数字指纹的异同来判断该两文字作品的异同;本方案可通过提取两文字作品的部分来快速、准确地判断该两文字作品是否相同,提高了数字作品版权管理的便捷性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个实施例的一种用于识别文字作品异同的方法流程图;
图2示出根据本申请一个实施例中的应用场景示意图;
图3示出根据本申请另一个实施例的一种用于识别文字作品异同的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本申请所指设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品,例如智能手机、平板电脑等,所述移动电子产品可以采用任意操作系统,如android操作系统、iOS操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地,所述设备还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。
当然,本领域技术人员应能理解上述设备仅为举例,其他现有的或今后可能出现的设备如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
在本申请的描述中,“多个”的含义是两个或者更多,除非另有明确具体的限定。
图1示出了根据本申请一个实施例的一种用于识别文字作品异同的方法流程图。其中,该方法包括步骤S11、步骤S12和步骤S13,在步骤S11中,识别设备获取第一文字作品与第二文字作品对应的第一作品单元组,其中,所述第一作品单元组包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元;在步骤S12中,识别设备根据所述第一作品单元组中两个作品单元分别生成所述第一作品单元组对应的两个数字指纹信息;在步骤S13中,识别设备若所述第一作品单元组对应的两个数字指纹信息不同,确定所述第一文字作品与所述第二文字作品不同。此处,第一作品单元组包括识别设备按照目录、章节、部分对两文字作品对应提取作品单元,获取该两文字作品对应的第一作品单元组。
如图2所示,现有第一文字作品A与第二文字作品B需识别异同,识别设备从第一文字作品A中提取第一章节Ua1,对应的从第二文字作品B提取第一章节Ub1,Ua1与Ub1组成第一作品单元组{即(Ua1,Ub1)};识别设备根据第一作品单元组中两个作品单元Ua1、Ub1分别生成该第一作品单元组对应的两个数字指纹信息,如Fa1与Fb1,其中Fa1为ab476c、Fb1为ygue34gl;该两数字指纹信息不同,识别设备确定第一文字作品A与第二文字作品B不同。
或者识别设备从第一文字作品A中提取第一部分Pa1(包括Ua1+Ua3),对应的从第二文字作品B提取第一部分Pb1(包括Ub1+Ub3),Pa1与Pb1组成第一作品单元组(Pa1,Pb1);识别设备根据第一作品单元组中两个作品单元Pa1、Pb1分别生成该第一作品单元组对应的两个数字指纹信息,如Fa1与Fb1,其中Fa1为ab476c、Fb1为ygue34gl;该两数字指纹信息不同,识别设备确定第一文字作品A与第二文字作品B不同。在一些实施例中,识别设备根据第一作品单元组中两个作品单元生成对应的两个数字指纹信息包括通过对两个作品单元分别提取相同数量的文字首字母或者对两个作品单元提取相同比例的文字首字母来生成对应的两个数字指纹信息,例如对两个作品单元分别提取相同数量的文字首字母,如分别为zxcd、dfrg,生成对应的两个数字指纹信息分别为4zxcd、4dfrg;又如,对两个作品单元分别提取相同比例的文字首字母,如从第一文字作品单元中按1/3的比例提取zxcd、从第二文字作品单元中按1/3的比例提取vffedfrg,生成对应的两个数字指纹信息分别为4zxcd、8vffedfrg。
在一些实施例中,识别设备通过一次提取并获取两文字作品对应的第一作品单元组后,分别生成该第一作品单元组对应的两个数字指纹信息,若该两数字指纹信息不同,识别设备确定该两文字作品不同;或者识别设备通过多次提取作品单元组,对每次提取并获取的两文字作品对应第一作品单元组生成对应的两数字指纹信息,若每次提取生成的对应两数字指纹信息均相同,识别设备将对两文字作品进一步提取作品单元组,并生成该作品单元组对应的两数字指纹信息,若该两数字指纹信息不同,则识别设备最终确定该两文字作品不同。
本领域技术人员应能理解,上述获取第一作品单元组、生成第一作品单元组对应的两个数字指纹信息的方式仅为举例,现有的或者今后可能出现的其它获取第一作品单元组、生成第一作品单元组对应的两个数字指纹信息的方式,如可适用于本申请都应包含在本申请的保护范围内,并在此以引用的方式包含于此。
在一些实施例中,该方法步骤S13还包括:若所述第一作品单元组对应的两个数字指纹信息相同,识别设备确定所述第一文字作品与所述第二文字作品相同。
例如,识别设备对第一文字作品A和第二文字作品B获取第一作品单元组(Pa1,Pb1),生成该第一作品单元组对应的两个数字指纹信息,如Fa1为ai8dgc、Fb1为ai8dgc;该两数字指纹信息相同,识别设备确定第一文字作品A与第二文字作品B相同。
在一些实施例中,识别设备通过一次提取并获取两文字作品对应的第一作品单元组后,分别生成该第一作品单元组对应的两个数字指纹信息,若该两数字指纹信息相同,识别设备确定该两文字作品相同;或者识别设备通过多次提取作品单元组,对每次提取并获取的两文字作品对应第一作品单元组生成对应的两数字指纹信息,若每次提取生成的对应两数字指纹信息均相同,识别设备将对两文字作品进一步提取作品单元组,并生成该作品单元组对应的两数字指纹信息,若该两数字指纹信息还相同,则识别设备最终确定该两文字作品相同。
在一些实施例中,该方法步骤S13包括子步骤S131、子步骤S132和子步骤S133(均未示出),其中,在子步骤S131中,若所述第一作品单元组对应的两个数字指纹信息相同,识别设备获取第二作品单元组,其中,所述第二作品单元组包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元;在子步骤S132中,根据所述第二作品单元组中两个作品单元分别生成所述第二作品单元组对应的两个数字指纹信息;在子步骤S133中,若所述第二作品单元组对应的两个数字指纹信息不同,确定所述第一文字作品与所述第二文字作品不同。此处,第二作品单元组包括识别设备按照目录、章节、部分对两文字作品对应提取作品单元,获取该两文字作品对应的第二作品单元组。
如上例,第一文字作品A与第二文字作品B获取的第一作品单元组对应的两个数字指纹信息相同;识别设备从第一文字作品A中提取第五章节Ua5,对应的从第二文字作品B提取第五章节Ub5,Ua5与Ub5组成第二作品单元组{即(Ua5,Ub5)};识别设备根据第二作品单元组中两个作品单元Ua5、Ub5分别生成该第二作品单元组对应的两个数字指纹信息,如Fa2与Fb2,其中Fa2为1ab476c、Fb2为2ygue34gl;该两数字指纹信息不同,识别设备确定第一文字作品A与第二文字作品B不同。
在一些实施例中,其中,所述第二作品单元组包括但不限于以下任一项:所述第一作品单元组在所述第一文字作品中对应的提取部分与所述第二作品单元组在所述第一文字作品中对应的提取部分不同;所述第一作品单元组在所述第一文字作品中对应的提取部分真包含于所述第二作品单元组在所述第一文字作品中对应的提取部分;所述第一作品单元组在所述第一文字作品中对应的提取部分与所述第二作品单元组在所述第一文字作品中对应的提取部分相交为空;第一作品单元组中从所述第一文字作品中提取的作品单元,真包含于第二作品单元组中从所述第一文字作品中提取的作品单元。
如上例,第一作品单元组(Ua1,Ub1),第二作品单元组(Ua5,Ub5),第一作品单元组在第一文字作品A中对应的提取部分第一章节与第二作品单元组在第一文字作品中对应的提取部分第五章节不同。
又如,第一作品单元组(Pa1,Pb1),其中Pa1包括Ua1+Ua3;第二作品单元组(Pa2,Pb2),其中,Pa2包括Ua1+Ua3+Ua5;
Figure BDA0001636076650000081
(即
Figure BDA0001636076650000082
),第一作品单元组在第一文字作品A中对应的提取部分为第一章节和第三章节{即Pa1(Ua1+Ua3)}真包含于第二作品单元组在第一文字作品中对应的提取部分为第一章节、第三章节和第五章节{即Pa2(Ua1+Ua3+Ua5)}。
又如,第一作品单元组在第一文字作品A中对应的提取部分为“节日氛围浓厚”,第二作品单元组在第一文字作品A中对应的提取部分为“时光飞逝岁月如梭”,
Figure BDA0001636076650000083
即第一作品单元组在第一文字作品A中对应的提取部分与第二作品单元组在第一文字作品A中对应的提取部分相交为空。
再例如,从第一文字作品A和第二文字作品B中已相应提取3次,分别获取(Ua1,Ub1)、(Ua3,Ub3)、(Ua1+Ua3,Ub1+Ub3)3组作品单元,获取第一作品单元组(Ua1,Ub1),获取第二作品单元组(Ua1+Ua3,Ub1+Ub3),其中
Figure BDA0001636076650000084
即第一作品单元组中从第一文字作品A中提取的作品单元第一章节Ua1,且真包含于第二作品单元组中从第一文字作品A中提取的作品单元第一章节Ua1和第三章节Ua3。
本领域技术人员应能理解,上述第二作品单元组的内容仅为举例,现有的或者今后可能出现的其它第二作品单元组的内容,如可适用于本申请都应包含在本申请的保护范围内,并在此以引用的方式包含于此。
在一些实施例中,其中,所述子步骤S131包括:若所述第一作品单元组对应的两个数字指纹信息相同,且满足预定的继续比较触发条件,识别设备获取所述第二作品单元组,其中,所述第二作品单元组包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元;其中所述继续比较触发条件包括但不限于以下任一项:所述第一文字作品与所述第二文字作品间已比较的作品单元组数量小于预定比较次数阈值信息;所述第一文字作品与所述第二文字作品间已确认相同的所有部分作品的文字数量小于预定比较数量阈值信息;所述第一文字作品与所述第二文字作品间已确认相同的所有部分作品的文字数量与所述第一文字作品或所述第二文字作品的总文字数量的比值信息,小于预定比较比例阈值信息。此处,预定比较次数阈值信息、预定比较数量阈值信息或预定比较比例阈值信息均包括通过计算机分析、计算生成。
例如,第一文字作品A与第二文字作品B中获取第一作品单元组,生成对应的两数字指纹信息相同,且满足预定的继续比较触发条件,识别设备获取所述第二作品单元单元组(Ua2,Ub2),其中,该第二作品单元组包括从第一文字作品A提取的第二章节Ua2,及从第二文字作品B中对应提取的第二章节Ub2。在一些实施例中,例如当第一文字作品A与第二文字作品B间已比较的作品单元的数量信息为3,小于预定比较次数阈值信息为5,则识别设备获取第二作品单元组;又例如,当第一文字作品A与第二文字作品B间已确认相同的2部分作品的文字数量为3278,小于预定的比较数量阈值信息为5000,则识别设备获取第二作品单元组;再例如,第一文字作品A与第二文字作品B间已确认相同的2部分作品的文字数量为5612,第一文字作品A的总文字数量为12056,第二文字作品B的总文字数量为11789,其中5612/12056、5612/11789或5612/(12056+11789)均小于预定比较比例阈值信息1/2,则识别设备获取第二作品单元组;在一些实施例中,当两文字作品间已确认相同的所有部分作品的文字数量5612与第一文字作品A的总文字数量12056的比值5612/12056,小于预定比较比例阈值信息1/2,则识别设备获取第二作品单元组;或当两文字作品间已确认相同的所有部分作品的文字数量5612与第二文字作品B的总文字数量11789的比值5612/11789,小于预定比较比例阈值信息1/2,则识别设备获取第二作品单元组。
本领域技术人员应能理解,上述继续比较触发条件的内容仅为举例,现有的或者今后可能出现的其它继续比较触发条件的内容,如可适用于本申请都应包含在本申请的保护范围内,并在此以引用的方式包含于此。
在一些实施例中,其中,所述子步骤S131还包括:若所述第一作品单元组对应的两个数字指纹信息相同,且未满足所述继续比较触发条件,确定所述第一文字作品与所述第二文字作品相同。
例如,第一文字作品A与第二文字作品B获取的第一作品单元组对应的两数字指纹信息相同,且未满足上述列举的继续比较触发条件:第一文字作品A与第二文字作品B间已比较的作品单元的数量信息为3,小于预定比较次数阈值信息为5,识别设备确定该两文字作品相同。
在一些实施例中,其中,所述方法还包括步骤S14(未示出),在步骤S14中,若所述第一文字作品与所述第二文字作品不同,根据所述第一文字作品与所述第二文字作品间已比较的作品单元组信息,确定所述第一文字作品与所述第二文字作品的相似度信息。此处,相似度信息用来表示两文字作品的相似程度信息,在一些实施例中,当两文字作品不同时,通过计算相似度信息来判断两文字作品的相似程度,例如两文字作品的相似度信息为0.6,即表示该两文字作品有60%的相似程度。
例如,当第一文字作品A与第二文字作品B不同时,识别设备根据两文字作品间已比较的作品单元组信息,如(Ua2,Ub2),即第一文字作品A中提取的第二章节Ua2,及第二文字作品单元B中提取的第二章节Ub2等信息,确定第一文字作品A与第二文字作品B的相似度信息,如计算该两文字作品的相似度信息为0.5,即表示该两文字作品有50%的相似程度。
在一些实施例中,其中,所述步骤S14包括:若所述第一文字作品与所述第二文字作品不同,获取第三作品单元组,根据所述第三作品单元组中两个作品单元分别生成所述第三作品单元组对应的两个数字指纹信息,若所述第三作品单元组对应的两个数字指纹信息不同,确定所述第一文字作品与所述第二文字作品不同,直至满足预定的停止比较触发条件,其中,所述第三作品单元组包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元;
根据所述第一文字作品与所述第二文字作品间已比较的作品单元组信息,确定所述第一文字作品与所述第二文字作品的相似度信息。此处,第一作品单元组包括识别设备按照目录、章节、部分对两文字作品对应提取作品单元,获取该两文字作品对应的第一作品单元组。此处,停止比较触发条件包括用来确定不必再继续进行获取第三作品单元组且确定两文字作品不同的触发条件,例如,两文字作品已确定相同的所有部分作品的文字数量为6215,大于预定比较数量阈值信息5000,即已满足预定的停止比较触发条件,识别设备不需继续进行获取第三作品单元组,且最终确定该两文字作品不同。
例如,当第一文字作品A与第二文字作品B不同,获取第三作品单元组,如(Ua3,Ub3),即第一文字作品A中提取的第三章节Ua3,及第二文字作品单元B中提取的第三章节Ub3,分别生成该第三作品单元组对应的两个数字指纹信息,若所述该两数字指纹信息不同,且已满足预定的停止比较触发条件:两文字作品已确定相同的所有部分作品的文字数量为6215,大于预定比较数量阈值信息5000,识别设备确定该两文字作品不同;识别设备根据该两文字作品件已比较的作品单元组信息,如(Ua3,Ub3)和(Ua5,Ub5)即第一文字作品A中提取的第三章节Ua3及第二文字作品单元B中提取的第三章节Ub3、第一文字作品A中提取的第五章节Ua5及第二文字作品单元B中提取的第五章节Ub5等信息,最终确定该两文字作品的相似度信息为0.3,即表示该两文字作品有30%的相似程度。
在一些实施例中,其中,所述停止比较触发条件包括以下至少任一项:
所述第一文字作品与所述第二文字作品间已比较的作品单元组数量大于预定比较次数阈值信息;所述第一文字作品与所述第二文字作品间已确认相同的所有部分作品的文字数量大于预定比较数量阈值信息;所述第一文字作品与所述第二文字作品间已确认相同的所有部分作品的文字数量与所述第一文字作品或所述第二文字作品的总文字数量的比值信息,大于预定比较比例阈值信息。此处,预定比较次数阈值信息、预定比较数量阈值信息或预定比较比例阈值信息均包括通过计算机分析、计算生成。
例如,第一文字作品A与第二文字作品B不同,获取第三作品单元组且生成对应的两数字指纹信息不同,当满足预定的停止比较触发条件,识别设备确定该两文字作品不同。
在一些实施例中,例如当第一文字作品A与第二文字作品B间已比较的作品单元的数量信息为5,大于预定比较次数阈值信息为3,识别设备判断满足预定的停止比较条件,确定该两文字作品不同;又例如,当第一文字作品A与第二文字作品B间已确认相同的2部分作品的文字数量为6278,大于预定的比较数量阈值信息为5000,则识别设备判断满足预定的停止比较条件,确定该两文字作品不同;再例如,第一文字作品A与第二文字作品B间已确认相同的2部分作品的文字数量为5612,第一文字作品A的总文字数量为12056,第二文字作品B的总文字数量为11789,其中5612/12056或5612/11789均大于预定比较比例阈值信息1/3,识别设备判断满足预定的停止比较条件,确定该两文字作品不同;在一些实施例中,当两文字作品间已确认相同的所有部分作品的文字数量5612与第一文字作品A的总文字数量12056的比值5612/12056,大于预定比较比例阈值信息1/3,识别设备判断满足预定的停止比较条件,确定该两文字作品不同;或当两文字作品间已确认相同的所有部分作品的文字数量5612与第二文字作品B的总文字数量11789的比值5612/11789,大于预定比较比例阈值信息1/3,识别设备判断满足预定的停止比较条件,确定该两文字作品不同。
本领域技术人员应能理解,上述停止比较触发条件的内容仅为举例,现有的或者今后可能出现的其它停止比较触发条件的内容,如可适用于本申请都应包含在本申请的保护范围内,并在此以引用的方式包含于此。
在一些实施例中,其中,所述第一文字作品与所述第二文字作品的相似度信息为以下任一项:所述第一文字作品与所述第二文字作品间已比较的作品单元组的数量信息与所述预定比较数量阈值信息的比值信息;所述第一文字作品与所述第二文字作品间已确认相同的作品单元组的数量信息与所述预定比较数量阈值信息的比值信息;所述第一文字作品与所述第二文字作品间已确认相同的所有部分作品的文字数量与所述第一文字作品或所述第二文字作品的总文字数量的比值信息,其中,所述第一文字作品与所述第二文字作品间已确认相同的每个部分作品用于从中提取所述第一文字作品与所述第二文字作品间已确认相同的一个作品单元组。
例如,第一文字作品A与第二文字作品B的第二作品单元组对应的两个数字指纹信息Fa2(v13h5k)与Fb2(cdvf37)不同,根据该两文字作品已比较的作品单元组信息,识别设备确定该两文字作品的相似度信息。在一些实施例中,例如第一文字作品A与第二文字作品B间已比较的作品单元的数量信息为3,识别设备设定的预定比较数量阈值信息为5,识别设备确定该两文字作品的相似度信息为3/5(即0.6);又例如,第一文字作品A与第二文字作品B间已比较的作品单元的数量信息为3,已确认相同的作品单元的数量信息为2,识别设备设定的预定比较数量阈值信息为5,确定该两文字作品的相似度信息为2/5(即0.4);再例如,第一文字作品A与第二文字作品B间已确认相同的2部分作品的文字数量为5612,其中该2部分作品分别为Part1、Part2,第一文字作品A的总文数量为12056,第二文字作品B的总文字数量为11789,在一些实施例中,识别设备确定该两文字作品的相似度信息为该两文字作品已确认相同的所有部分作品的文字数量5612与第一文字作品A的总文数量12056的比值,即该两文字作品的相似度信息为5612/12056(即0.47);识别设备确定该两文字作品的相似度信息为该两文字作品已确认相同的所有部分作品的文字数量5612与第二文字作品B的总文字数量11789的比值,即该两文字作品的相似度信息为5612/11789(即0.48);识别设备确定该两文字作品的相似度信息为该两文字作品已确认相同的所有部分作品的文字数量5612与该两文字作品的合计总文字数量23845(12056+11789=23845)的比值,即该两文字作品的相似度信息为5612/23845(即0.24);其中,所述第一文字作品A与所述第二文字作品B间已确认相同的2部分作品,用于从中提取所述第一文字作品A与所述第二文字作品B间已确认相同的作品单元组,例如从Part1中提取相同的作品单元组(Ua1,Ub1),即从第一文字作品A中提取第一章节Ua1,对应的从第二文字作品B提取第一章节Ub1;从Part2中提取相同的作品单元组(Pa1,Pb1),即从第一文字作品A中提取第一章节Ua1和第三章节Ua3,对应的从第二文字作品B提取第一章节Ub1和第三章节Ub3。在一些实施例中,通过确定两文字作品的相似度信息来支持后续的数字版权保护,例如当两文字作品的相似度信息大于等于1/2(即0.5),判断该两文字作品存在抄袭,若其中一部文字作品是正版作品,则另一部文字作品可能为盗版作品。
本领域技术人员应能理解,上述确定相似度信息的方式仅为举例,现有的或者今后可能出现的其它确定相似度信息的方式,例如以上确定相似度信息的组合,如可适用于本申请都应包含在本申请的保护范围内,并在此以引用的方式包含于此。
图3示出了根据本申请另一个实施例的一种用于识别文字作品异同的方法流程图。其中,该方法包括步骤S21和步骤S22,其中,在步骤S21中,识别设备获取第一文字作品与第二文字作品对应的待处理的多组作品单元,其中,每组作品单元包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元;在步骤S22中,对于所述多组作品单元中待处理的一组作品单元,识别设备执行处理操作;其中,所述处理操作包括:根据所述一组作品单元中两个作品单元分别生成所述一组作品单元对应的两个数字指纹信息;若所述一组作品单元对应的两个数字指纹信息不同,确定所述第一文字作品与所述第二文字作品不同;若所述一组作品单元对应的两个数字指纹信息相同,且所述多组作品单元均已执行完毕,确定所述第一文字作品与所述第二文字作品相同;否则,从所述多组作品单元中重新选择待处理的一组作品单元,并执行所述处理操作。
例如,识别设备从第一文字作品A与第二文字作品B中对应获取3组待处理的作品单元,如(Ua2,Ub2)、(Pa3,Pb3)、(Pa1,Pb1),其中(Ua2,Ub2)为从第一文字作品A提取第二章节及从第二文字作品B对应提取第二章节;(Pa3,Pb3)为从第一文字作品A提取第三部分及从第二文字作品B对应提取第三部分;(Pa1,Pb1)为从第一文字作品A提取第一章节和第七章节及从第二文字作品B对应提取第一章节和第七章节。对上述3组作品单元中待处理的一组作品单元执行处理操作,如根据作品单元(Ua2,Ub2)中两个作品单元分别生成该组作品单元对应的两个数字指纹信息Fa2、Fb2,若该组作品单元对应的两个数字指纹信息不同如分别为v3h5k、a8dgc,识别设备确定第一文字作品A与第二文字作品B不同;又如,根据作品单元(Pa3,Pb3)中两个作品单元分别生成该组作品单元对应的两个数字指纹信息Fa3、Fb3,若该组作品单元对应的两个数字指纹信息相同均为8dlagc,并且如上述(Ua2,Ub2)、(Pa3,Pb3)、(Pa1,Pb1)3组作品单元都已经执行处理操作完毕,则识别设备确定第一文字作品A与第二文字作品B相同;再例如,根据作品单元(Pa1,Pb1)中两个作品单元分别生成该组作品单元对应的两个数字指纹信息Fa1、Fb1,若该组作品单元对应的两个数字指纹信息相同均为8dlagc,并且如上述(Ua2,Ub2)、(Pa3,Pb3)、(Pa1,Pb1)3组作品单元只有该组作品单元执行处理操作完毕,则从上述3组作品单元重新选择待处理的一组作品单元如(Pa3,Pb3),并执行所述处理操作。
本领域技术人员应能理解,上述处理操作的方式仅为举例,现有的或者今后可能出现的其它处理操作方式,如可适用于本申请都应包含在本申请的保护范围内,并在此以引用的方式包含于此。
在一些实施例中,其中,所述多组作品单元中不同组的作品单元分别提取自所述第一文字作品与所述第二文字作品的不同部分。此处,不同部分包括除去完全相同或重合部分的其它部分。
例如,识别设备从第一文字作品A与第二文字作品B中对应获取3组作品单元,如(Ua2,Ub2)、(Pa3,Pb3)、(Pa1,Pb1),其中(Ua2,Ub2)为从第一文字作品A提取第二章节及从第二文字作品B对应提取第二章节;(Pa3,Pb3)为从第一文字作品A提取第三部分及从第二文字作品B对应提取第三部分;(Pa1,Pb1)为从第一文字作品A提取第一章节和第七章节及从第二文字作品B对应提取第一章节和第七章节。
又例如,识别设备从第一文字作品A与第二文字作品B中对应获取2组作品单元,如(Ua3,Ub3)、(Pa2,Pb2),其中,(Ua3,Ub3)为从第一文字作品A提取第三章节及从第二文字作品B对应提取第三章节;(Pa2,Pb2)为从第一文字作品A提取第二部分(包括第三章节、第四章节和第五章节)及从第二文字作品B对应提取第二部分(包括第三章节和第四章节)。
在一些实施例中,其中,所述步骤S21包括:识别设备按照第一文字作品所包含的多个部分将第二文字作品相应地划分为多个部分,其中,所述第一文字作品的多个部分与所述第二文字作品的多个部分一一对应;识别设备获取所述第一文字作品与所述第二文字作品对应的待处理的多组作品单元,其中,每组作品单元包括分别从所述第一文字作品中的一个部分及所述第二文字作品中与该部分对应的另一部分提取的作品单元。此处,识别设备相应地划分多个部分包括按照相同的字数或按照相同的字数比例来相应划分,例如识别设备均按照每部分5000字分别将两文字作品相应的划分为5部分,或者按照每部分文字数量均占全文文字数量的1/5分别将两文字作品相应的划分为5部分。
例如,第一文字作品包括4个部分,共10个章节,其中第一章节和第二章节构成第一部分,第三章节和第四章节构成第二部分,第五章节、第六章节、第七章节和第八章节构成第三部分,第九章节和第十章节构成第四部分。第二文字作品共5章节,识别设备将第二文字作品相应地划分为4个部分,例如该两文字作品总文字数量相同,均为10288,第一文字作品共4个部分,各部分文字数量均为2572,识别设备相应地按照每部分2572个文字数量将第二文字作品划分为4个部分,其中,第一部分包括第一章节,第二部分包括第二章节和第三章节,第三部分包括第四章节,第四部分包括第五章节;或者第一部分包括第一章节和第二章节,第二部分包括第三章节、第四章节的前987字部分,第三部分包括第四章节的后1585字部分,第四部分包括第五章节;又例如第一文字作品总文字数量为10000,共4部分,各部分文字数量为2500、1000、3500和3000,其中,各部分字数比例为1/4、1/10、7/20、3/10,识别设备将总文字数量为12008的第二文字作品相应的划分为4部分,其中,第一部分按照1/4的比例划分文字数量为3002,第二部分按照1/10的比例划分文字数量为1201,第三部分按照7/20的比例划分文字数量为4203,第四部分按照3/10的比例划分文字数量为3602。
识别设备按照第一文字作品包含的4个部分将第二文字作品相应地划分为4个部分,其中第一文字作品的各个部分与第二文字作品的各个部分一一对应;识别设备获取第一文字作品与第二文字作品对应的待处理的2组作品单元,如(Pa1,Pb1)、(Pa4,Pb4),其中(Pa1,Pb1)为从第一文字作品提取第一部分及从第二文字作品对应提取第一部分;(Pa4,Pb4)为从第一文字作品提取第四部分及从第二文字作品对应提取第四部分。
本领域技术人员应能理解,上述相应划分多个部分的方式仅为举例,现有的或者今后可能出现的其它相应划分多个部分的方式,如可适用于本申请都应包含在本申请的保护范围内,并在此以引用的方式包含于此。
在一些实施例中,其中,所述步骤S22包括:根据每组作品单元所对应部分在所述第一文字作品或所述第二文字作品中的优先级信息,识别设备从所述多组作品单元中优选待处理的一组作品单元,并执行处理操作。此处,优先级信息包括按照文字内容吸引读者的程度对文字作品的划分等级信息,例如,对文字作品的高潮章节、部分等划分等级为1,对文字作品的结局部分等划分等级为2,对文字作品的开端、发展部分等划分等级为3,对文字作品的目录等划分等级为4。
如下表1所示,从第一文字作品A与第二文字作品B提取作品单元组(Ua3+Ua4,Ub4)、(Ua2,Ub2+Ub3)、(Ua5,Ub5)、(Ua1,Ub1),即分别对应从第一文字作品A提取第三、四章节及从第二文字作品B提取第四章节;从第一文字作品A提取第二章节及从第二文字作品B提取第二、二章节;从第一文字作品A提取第五章节及从第二文字作品B提取第五章节;从第一文字作品A提取第一章节及从第二文字作品B提取第一章节;识别设备根据每组作品单元所对应部分在该两文字作品中的优先级信息:(2,1)、(3,3)、(1,2)、(4,4),其中,优先级信息(2,1)表示第一文字作品A的第三、四章节对读者吸引程度划分等级为2和第二文字作品B的第四章节对读者吸引程度划分等级为1;优先级信息(3,3)表示第一文字作品A的第二章节对读者的吸引程度划分等级为3和第二文字作品B的第二、三章节对读者吸引程度划分等级为3;优先级信息(1,2)表示第一文字作品A的第五章节对读者吸引程度划分等级为1和第二文字作品B的第五章节对读者吸引程度划分等级为2;优先级信息(4,4)表示第一文字作品A的第一章节对读者吸引程度划分等级为4和第二文字作品B的第一章节对读者吸引程度划分等级为4;识别设备从上述4组作品单元中优先选择待处理的(Ua3+Ua4,Ub4)作品单元,并执行处理操作。
表1
Figure BDA0001636076650000181
如下表2所示,从第一文字作品A与第二文字作品B提取作品单元组(Ua1,Ub1)、(Ua2,Ub2)、(Ua3,Ub3)、(Ua4,Ub4),即分别对应从第一文字作品A提取第一章节及从第二文字作品B提取第一章节;从第一文字作品A提取第二章节及从第二文字作品B提取第二章节;从第一文字作品A提取第三章节及从第二文字作品B提取第三章节;从第一文字作品A提取第四章节及从第二文字作品B提取第四章节;识别设备根据每组作品单元所对应部分在该两文字作品中的优先级信息:(4,4)、(3,3)、(1,1)、(2,2),其中,优先级信息(4,4)表示第一文字作品A的第一章节对读者的吸引程度划分等级为4和第二文字作品B的第一章节对读者吸引程度划分等级为4;优先级信息(3,3)表示第一文字作品A的第二章节对读者的吸引程度划分等级为3和第二文字作品B的第二章节对读者吸引程度划分等级为3;优先级信息(1,1)表示第一文字作品A的第三章节对读者的吸引程度划分等级为1和第二文字作品B的第三章节对读者吸引程度划分等级为1;优先级信息(2,2)表示第一文字作品A的第四章节对读者的吸引程度划分等级为2和第二文字作品B的第四章节对读者吸引程度划分等级为2;识别设备从上述4组作品单元中优先选择待处理的(Ua3,Ub3)作品单元,并执行处理操作。
表2
Figure BDA0001636076650000191
本领域技术人员应能理解,上述优先级信息的内容仅为举例,现有的或者今后可能出现的其它优先级信息的内容,如可适用于本申请都应包含在本申请的保护范围内,并在此以引用的方式包含于此。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机代码,当所述计算机代码被执行时,如前任一项所述的方法被执行。
本申请还提供了一种计算机程序产品,当所述计算机程序产品被计算机设备执行时,如前任一项所述的方法被执行。
本申请还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个计算机程序;
当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前任一项所述的方法。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解,计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等,相应地,计算机程序指令被计算机执行的方式包括但不限于:该计算机直接执行该指令,或者该计算机编译该指令后再执行对应的编译后程序,或者该计算机读取并执行该指令,或者该计算机读取并安装该指令后再执行对应的安装后程序。在此,计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。
通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如,光纤、同轴等))和能传播能量波的无线(未有导的传输)介质,诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。
作为示例而非限制,计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如,计算机可读存储介质包括,但不限于,易失性存储器,诸如随机存储器(RAM,DRAM,SRAM);以及非易失性存储器,诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM);以及磁性和光学存储设备(硬盘、磁带、CD、DVD);或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。
在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (13)

1.一种用于识别文字作品异同的方法,其中,该方法包括:
获取第一文字作品与第二文字作品对应的第一作品单元组,其中,所述第一作品单元组包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元;
通过对所述第一作品单元组中两个作品单元分别提取相同数量的文字首字母或者对两个作品单元分别提取相同比例的文字首字母来生成所述第一作品单元组对应的两个数字指纹信息;
若所述第一作品单元组对应的两个数字指纹信息不同,确定所述第一文字作品与所述第二文字作品不同;
其中,所述若所述第一作品单元组对应的两个数字指纹信息不同,确定所述第一文字作品与所述第二文字作品不同还包括:
若所述第一作品单元组对应的两个数字指纹信息相同,获取第二作品单元组,其中,所述第二作品单元组包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元;
根据所述第二作品单元组中两个作品单元分别生成所述第二作品单元组对应的两个数字指纹信息;
若所述第二作品单元组对应的两个数字指纹信息不同,确定所述第一文字作品与所述第二文字作品不同;
其中,所述第二作品单元组满足以下至少任一项:
所述第一作品单元组在所述第一文字作品中对应的提取部分与所述第二作品单元组在所述第一文字作品中对应的提取部分不同;
所述第一作品单元组在所述第一文字作品中对应的提取部分真包含于所述第二作品单元组在所述第一文字作品中对应的提取部分;
所述第一作品单元组在所述第一文字作品中对应的提取部分与所述第二作品单元组在所述第一文字作品中对应的提取部分相交为空;
第一作品单元组中从所述第一文字作品中提取的作品单元,真包含于第二作品单元组中从所述第一文字作品中提取的作品单元。
2.根据权利要求1所述的方法,其中,所述若所述第一作品单元组对应的两个数字指纹信息不同,确定所述第一文字作品与所述第二文字作品不同还包括:
若所述第一作品单元组对应的两个数字指纹信息相同,确定所述第一文字作品与所述第二文字作品相同。
3.根据权利要求1所述的方法,其中,所述若所述第一作品单元组对应的两个数字指纹信息相同,获取第二作品单元组,其中,所述第二作品单元组包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元包括:
若所述第一作品单元组对应的两个数字指纹信息相同,且满足预定的继续比较触发条件,获取所述第二作品单元组,其中,所述第二作品单元组包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元。
4.根据权利要求3所述的方法,其中,所述继续比较触发条件包括以下至少任一项:
所述第一文字作品与所述第二文字作品间已比较的作品单元组数量小于预定比较次数阈值信息;
所述第一文字作品与所述第二文字作品间已确认相同的所有部分作品的文字数量小于预定比较数量阈值信息;
所述第一文字作品与所述第二文字作品间已确认相同的所有部分作品的文字数量与所述第一文字作品或所述第二文字作品的总文字数量的比值信息,小于预定比较比例阈值信息。
5.根据权利要求3或4所述的方法,其中,所述若所述第一作品单元组对应的两个数字指纹信息相同,且满足预定的继续比较触发条件,获取所述第二作品单元组,其中,所述第二作品单元组包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元还包括:
若所述第一作品单元组对应的两个数字指纹信息相同,且未满足所述继续比较触发条件,确定所述第一文字作品与所述第二文字作品相同。
6.根据权利要求1所述的方法,其中,所述方法还包括:
若所述第一文字作品与所述第二文字作品不同,根据所述第一文字作品与所述第二文字作品间已比较的作品单元组信息,确定所述第一文字作品与所述第二文字作品的相似度信息。
7.根据权利要求6所述的方法,其中,所述若所述第一文字作品与所述第二文字作品不同,根据所述第一文字作品与所述第二文字作品间已比较的作品单元组信息,确定所述第一文字作品与所述第二文字作品的相似度信息包括:
若所述第一文字作品与所述第二文字作品不同,获取第三作品单元组,根据所述第三作品单元组中两个作品单元分别生成所述第三作品单元组对应的两个数字指纹信息,若所述第三作品单元组对应的两个数字指纹信息不同,确定所述第一文字作品与所述第二文字作品不同,直至满足预定的停止比较触发条件,其中,所述第三作品单元组包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元;
根据所述第一文字作品与所述第二文字作品间已比较的作品单元组信息,确定所述第一文字作品与所述第二文字作品的相似度信息。
8.根据权利要求7所述的方法,其中,所述停止比较触发条件包括以下至少任一项:
所述第一文字作品与所述第二文字作品间已比较的作品单元组数量大于预定比较次数阈值信息;
所述第一文字作品与所述第二文字作品间已确认相同的所有部分作品的文字数量大于预定比较数量阈值信息;
所述第一文字作品与所述第二文字作品间已确认相同的所有部分作品的文字数量与所述第一文字作品或所述第二文字作品的总文字数量的比值信息,大于预定比较比例阈值信息。
9.根据权利要求6至8中任一项所述的方法,其中,所述第一文字作品与所述第二文字作品的相似度信息为以下任一项:
所述第一文字作品与所述第二文字作品间已比较的作品单元组的数量信息与预定比较数量阈值信息的比值信息;
所述第一文字作品与所述第二文字作品间已确认相同的作品单元组的数量信息与预定比较数量阈值信息的比值信息;
所述第一文字作品与所述第二文字作品间已确认相同的所有部分作品的文字数量与所述第一文字作品或所述第二文字作品的总文字数量的比值信息,其中,所述第一文字作品与所述第二文字作品间已确认相同的每个部分作品用于从中提取所述第一文字作品与所述第二文字作品间已确认相同的一个作品单元组。
10.一种用于识别文字作品异同的方法,其中,该方法包括:
获取第一文字作品与第二文字作品对应的待处理的多组作品单元,其中,每组作品单元包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元,所述多组作品单元中不同组的作品单元分别提取自所述第一文字作品与所述第二文字作品的不同部分;其中,所述获取第一文字作品与第二文字作品对应的待处理的多组作品单元,其中,每组作品单元包括两个分别从所述第一文字作品、所述第二文字作品中对应部分提取的作品单元包括:按照第一文字作品所包含的多个部分将第二文字作品相应地划分为多个部分,其中,所述第一文字作品的多个部分与所述第二文字作品的多个部分一一对应;获取所述第一文字作品与所述第二文字作品对应的待处理的多组作品单元,其中,每组作品单元包括分别从所述第一文字作品中的一个部分及所述第二文字作品中与该部分对应的另一部分提取的作品单元;
对于所述多组作品单元中待处理的一组作品单元,执行处理操作;
其中,所述处理操作包括:
通过对所述一组作品单元中两个作品单元分别提取相同数量的文字首字母或者对两个作品单元分别提取相同比例的文字首字母来生成所述一组作品单元对应的两个数字指纹信息;
若所述一组作品单元对应的两个数字指纹信息不同,确定所述第一文字作品与所述第二文字作品不同;
若所述一组作品单元对应的两个数字指纹信息相同,且所述多组作品单元均已执行完毕,确定所述第一文字作品与所述第二文字作品相同;否则,从所述多组作品单元中重新选择待处理的一组作品单元,并执行所述处理操作。
11.根据权利要求10所述的方法,其中,所述对于所述多组作品单元中待处理的一组作品单元,执行处理操作包括:
根据每组作品单元所对应部分在所述第一文字作品或所述第二文字作品中的优先级信息,从所述多组作品单元中优选待处理的一组作品单元,并执行处理操作。
12.一种用于识别文字作品异同的设备,其中,该设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求1至11中任一项所述方法的操作。
13.一种包括指令的计算机可读介质,所述指令在被执行时使得系统执行根据权利要求1至11中任一项所述方法的操作。
CN201810361444.6A 2018-04-20 2018-04-20 一种用于识别文字作品异同的方法与设备 Active CN108664900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810361444.6A CN108664900B (zh) 2018-04-20 2018-04-20 一种用于识别文字作品异同的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810361444.6A CN108664900B (zh) 2018-04-20 2018-04-20 一种用于识别文字作品异同的方法与设备

Publications (2)

Publication Number Publication Date
CN108664900A CN108664900A (zh) 2018-10-16
CN108664900B true CN108664900B (zh) 2022-05-27

Family

ID=63780188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810361444.6A Active CN108664900B (zh) 2018-04-20 2018-04-20 一种用于识别文字作品异同的方法与设备

Country Status (1)

Country Link
CN (1) CN108664900B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345416B (zh) * 2018-09-12 2021-09-21 连尚(新昌)网络科技有限公司 一种用于记录作品间的引用关系的方法与设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8838657B1 (en) * 2012-09-07 2014-09-16 Amazon Technologies, Inc. Document fingerprints using block encoding of text
CN107169325A (zh) * 2017-06-12 2017-09-15 物链(北京)科技有限公司 版权信息保护、确权方法、装置、系统及内容编辑设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8489583B2 (en) * 2004-10-01 2013-07-16 Ricoh Company, Ltd. Techniques for retrieving documents using an image capture device
US8750624B2 (en) * 2010-10-19 2014-06-10 Doron Kletter Detection of duplicate document content using two-dimensional visual fingerprinting
US8612754B2 (en) * 2011-06-14 2013-12-17 At&T Intellectual Property I, L.P. Digital fingerprinting via SQL filestream with common text exclusion
CN102855423A (zh) * 2011-06-29 2013-01-02 盛乐信息技术(上海)有限公司 一种文字作品的追踪方法和装置
CN102855424A (zh) * 2011-06-29 2013-01-02 盛乐信息技术(上海)有限公司 一种数字指纹提取方法、装置和文字作品识别方法、装置
CN102509042A (zh) * 2011-10-14 2012-06-20 盛乐信息技术(上海)有限公司 文字作品数字指纹库的比对方法及系统
WO2015140157A1 (en) * 2014-03-17 2015-09-24 Agfa Graphics Nv A decoder and encoder for a digital fingerprint code
CN107704732B (zh) * 2017-08-30 2020-12-01 上海掌门科技有限公司 一种用于生成作品指纹的方法与设备
CN108108596B (zh) * 2017-12-13 2020-12-01 上海掌门科技有限公司 一种用于生成文字作品的数字指纹的方法与设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8838657B1 (en) * 2012-09-07 2014-09-16 Amazon Technologies, Inc. Document fingerprints using block encoding of text
CN107169325A (zh) * 2017-06-12 2017-09-15 物链(北京)科技有限公司 版权信息保护、确权方法、装置、系统及内容编辑设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
学术论文数字指纹比对率辨析;刘大乾;《中国科技期刊研究》;20130715;第24卷(第4期);第775-776页 *
通过词频指纹论文检测算法统计论文中抄袭相似度;早检测网;《http://www.zaojiance.net/ccjc/566.html》;20140502;第775-776页 *

Also Published As

Publication number Publication date
CN108664900A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
US9977995B2 (en) Image clustering method, image clustering system, and image clustering server
EP2693356A2 (en) Detecting pirated applications
US10318479B2 (en) Method and device for automatically identifying junk file
CN111159697B (zh) 一种密钥检测方法、装置及电子设备
CN103942212A (zh) 一种用户界面的文字检测方法及装置
CN112241631A (zh) 文本语义识别方法、装置、电子设备及存储介质
WO2016015621A1 (zh) 人脸图片人名识别方法和系统
CN110909363A (zh) 基于大数据的软件第三方组件漏洞应急响应系统及方法
CN105095756A (zh) 可移植文档格式文档的检测方法和装置
US20190102165A1 (en) Method and system for identifying open-source software package based on binary files
CN112784016B (zh) 一种检测言论信息的方法与设备
CN109146625B (zh) 一种基于内容的多版本App更新评价方法及系统
CN106598997B (zh) 一种计算文本主题归属度的方法及装置
CN105630656A (zh) 基于日志模型的系统健壮性分析方法及装置
CN111258905B (zh) 缺陷定位方法、装置和电子设备及计算机可读存储介质
CN108664900B (zh) 一种用于识别文字作品异同的方法与设备
CN106547680A (zh) 覆盖率测试中的数据处理方法和装置
CN111159354A (zh) 一种敏感资讯检测方法、装置、设备及系统
CN112685534B (zh) 在创作过程中生成已创作内容的脉络信息的方法与设备
CN107704732B (zh) 一种用于生成作品指纹的方法与设备
CN109388617A (zh) 一种文件时间戳可信度的判定方法及装置
CN108132971B (zh) 数据库碎片文件的分析方法和装置
US9471569B1 (en) Integrating information sources to create context-specific documents
CN113268613B (zh) 一种用于获取侵权线索的方法、设备、介质及程序产品
CN113282921B (zh) 一种文件检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant