CN110390081A - 文档比对方法、装置及设备 - Google Patents

文档比对方法、装置及设备 Download PDF

Info

Publication number
CN110390081A
CN110390081A CN201810344478.4A CN201810344478A CN110390081A CN 110390081 A CN110390081 A CN 110390081A CN 201810344478 A CN201810344478 A CN 201810344478A CN 110390081 A CN110390081 A CN 110390081A
Authority
CN
China
Prior art keywords
page
small page
small
document
check code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810344478.4A
Other languages
English (en)
Inventor
丁兴邦
王力显
郎猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201810344478.4A priority Critical patent/CN110390081A/zh
Publication of CN110390081A publication Critical patent/CN110390081A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种文档比对方法、装置及设备。方法包括:接收第一文档、第二文档;根据第一文档、第二文档分别生成第一小页集合、第二小页集合;基于预设规则,根据第一小页的内容生成与第一小页对应的第一校验码,根据第二小页的内容生成与第二小页对应的第二校验码;获取第一小页与第二小页的对应关系,并比对具有对应关系的第一小页与第二小页的校验码是否相同,若是,则确定第一小页、第二小页内容相同,否则确定第一小页、第二小页的内容不同。本实施例提供的方法、装置及设备无需人工对各个小页是否进行了修改逐一进行比对,就能够确定文档间的差异,从而提高了比对文档差异的效率,同时,还能够提高比对文档差异的准确率。

Description

文档比对方法、装置及设备
技术领域
本发明涉及文档比对技术,尤其涉及一种文档比对方法、装置及设备,属于图书出版领域。
背景技术
目前,在图书正式出版前,需要对待出版的图书文档进行排版,并多次调整文档版式,以保证出版的图书满足质量要求。
在调整文档版式的过程中,需要比对不同版次的文档之间的差异,从而确定是否根据需求对文档进行了修改,以及是否存在错误修改的问题。现有技术中,比对不同版次的文档差异性的处理过程是由人工完成的。
但是,人工比对存在着误查、漏查等问题,这就导致现有技术中比对不同版次的文档之间的差异的方法存在着准确性低、效率低的问题。
发明内容
本发明提供一种文档比对方法、装置及设备,用于解决现有技术中比对不同版次的文档之间的差异的方法存在着准确性低、效率低的问题。
本发明的第一个方面是提供一种文档比对方法,包括:
接收第一文档、第二文档;
根据所述第一文档、所述第二文档分别生成第一小页集合、第二小页集合;
基于预设规则,根据第一小页的内容生成与所述第一小页对应的第一校验码,根据第二小页的内容生成与所述第二小页对应的第二校验码;
获取所述第一小页与所述第二小页的对应关系,并比对具有对应关系的第一小页与第二小页的校验码是否相同,若是,则确定所述第一小页、所述第二小页内容相同,否则确定第一小页、第二小页的内容不同。
本发明的另一个方面是提供一种文档比对装置,包括:
接收模块,用于接收第一文档、第二文档;
第一生成模块,用于根据所述第一文档、所述第二文档分别生成第一小页集合、第二小页集合;
第二生成模块,用于基于预设规则,根据第一小页的内容生成与所述第一小页对应的第一校验码,根据第二小页的内容生成与所述第二小页对应的第二校验码;
获取模块,用于获取所述第一小页与所述第二小页的对应关系;
比对模块,用于比对具有对应关系的第一小页与第二小页的校验码是否相同,若是,则确定所述第一小页、所述第二小页内容相同,否则确定第一小页、第二小页的内容不同。
本发明的又一个方面是提供一种文档比对设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并配置为由所述处理器执行以实现如上述第一方面所述的文档比对方法。
本发明提供的文档比对方法、装置及设备的技术效果是:
本发明提供的文档比对方法、装置及设备包括接收第一文档、第二文档;根据第一文档、第二文档分别生成第一小页集合、第二小页集合;基于预设规则,根据第一小页的内容生成与第一小页对应的第一校验码,根据第二小页的内容生成与第二小页对应的第二校验码;获取第一小页与第二小页的对应关系,并比对具有对应关系的第一小页与第二小页的校验码是否相同,若是,则确定第一小页、第二小页内容相同,否则确定第一小页、第二小页的内容不同。本发明提供的文档比对方法、装置及设备能够通过比对用户输入的第一文档、第二文档的小页校验码是否相同,确定第一文档、第二文档的小页之间是否相同,无需人工对各个小页是否进行了修改逐一进行比对,从而提高了比对文档差异的效率,同时,还能够提高比对文档差异的准确率。
附图说明
图1为本发明一示例性实施例示出的文档比对方法的流程图;
图2为本发明另一示例性实施例示出的文档比对方法的流程图;
图2A为本发明另一示例性实施例示出的文档内容差异的示意图;
图3为本发明又一示例性实施例示出的文档比对方法的流程图;
图3A为本发明一示例性实施例示出文档比对自动插页示意图;
图4为本发明一示例性实施例示出的文档比对装置的结构图;
图5为本发明另一示例性实施例示出的文档比对装置的结构图。
具体实施方式
图1为本发明一示例性实施例示出的文档比对方法的流程图。
如图1所示,本实施例提供的文档比对方法包括:
步骤101,接收第一文档、第二文档。
其中,用户可以主动提交第一文档以及第二文档,第一文档和第二文档是指用户选择的两个文档,该文档可以相同也可以不同,用户可以先上传第一文档,也可以先上传第二文档,还可以同时上传第一文档和第二文档。例如,用户可以通过将文档拖拽到操作界面中的方式上传文档,也可以通过操作界面中的上传按钮,选择第一文档和/或第二文档的方式上传该文档。
步骤102,根据第一文档、第二文档分别生成第一小页集合、第二小页集合。
一般来说,文档中包括多个页面,因此,可以根据文档的各个页面生成小页集合。例如,若文档是DOC格式,则可以将其拆分为多个DOC页面,并将根据第一文档拆分出的多个页面作为第一小页集合,将根据第二文档拆分出的多个页面作为第二小页集合。
具体的,还可以将接收的文档转换为PDF(Portable Document Format,便携式文档格式)格式,并将PDF文档拆分为多个小页,再将根据第一文档得到的小页作为第一小页集合,将根据第二文档得到的小页作为第二小页集合。若接收的文档本身即为PDF格式,则不需要对其再进行格式转换。
进一步的,还可以将PDF格式的文档分别生成页面预览图,并将每个页面预览图都转换为TIFF(Tag Image File Format,标签图像文件格式)格式,即每个页面都对应一个TIFF图,再将根据第一文档得到的TIFF图作为第一小页集合,将根据第二文档得到的TIFF图作为第二小页集合。
实际应用时,还可以为集合中的各个小页命名。可以预先设定命名规则,例如,用版次与页码组合的方式命名,如提交的文档是第五版,则可以将其小页分别命名为“五_1、五_2”等。另外,还可以采用页面与随机码组合的方式为各个小页命名,例如“页码_随机码”,其中,可以根据文件随机内容生成的包括数字和字母的随机码。
为了便于查找不同文档的小页,还可以生成不同文档所对应的文件夹,并为该文件夹设定唯一的编码名称。例如,第五版次的文档所对应的文件夹为105,并将该版次文档所对应的小页存放在文件夹内。当然,也可以按照其他规则命名该文件夹,例如上传文档的次数等。
其中,还可以接收用户输入的页面选择指令,并将用户选择的小页作为第一小页和第二小页。例如,用户仅希望比对文档的前五页,则可以选择第一文档以及第二文档的前五页,则将第一文档的前五页作为第一小页,第二文档的前五页作为第二小页,在这种应用场景下,后续执行的步骤中所提及的第一小页以及第二小页则为用户选择的页面。
步骤103,基于预设规则,根据第一小页的内容生成与第一小页对应的第一校验码,根据第二小页的内容生成与第二小页对应的第二校验码。
具体的,基于相同的预设规则,根据第一小页和第二小页的内容生成第一校验码以及第二校验码。由于采用的规则相同,若第一小页与第二小页的内容相同,则生成的校验码也相同。
进一步的,预设规则可以是MD5(Message Digest Algorithm MD5,消息摘要算法第五版)算法。
步骤104,获取第一小页与第二小页的对应关系。
进一步的,当第一小页集合与第二小页集合中均包括多个小页时,需要获取第一小页与第二小页的对应关系。
实际应用时,若小页名称中包括页码信息,可以通过获取页码信息的方式确定二者的对应关系。
另外,由于在调整文档版式时,存在着增/删页的情况,此时还可以通过获取各个小页的校验码的方式确定其对应关系,例如,第一小页5与第二小页4的校验码相同,则认为二者对应。
其中,还可以由用户手动确定页码对应关系。此时可以读取用户输入的对应指令,并根据用户输入的对应指令确定第一小页与第二小页的对应关系。
步骤105,比对具有对应关系的第一小页与第二小页的校验码是否相同,若是,则确定第一小页、第二小页内容相同,否则确定第一小页、第二小页的内容不同。
具体的,由于第一校验码与第二校验码是采用相同的规则,并且是根据页面内容生成的,当小页内容相同时,生成的校验码也相同。因此,可以通过比对对应页面的校验码是否相同来确定对应的页面内容是否相同,从而确定对应的小页是否进行过修改。例如,第一小页2与第二小页2的校验码相同,则可以认为该页面内容相同,没有进行修改。若第一小页3与第二小页3的校验码不同,则可以认为该页面进行过修改,工作人员可以仅比对修改过的页面内容,无需逐一比对每个页面是否被修改过,因此,本实施例提供的方法能够提高比对不同文档之间差异的准确率及效率。
进一步的,在实际应用时,用户也可以输入两个以上数量的文档,此时,可以根据本实施例提供的方法将两两文档进行比对,确定每两个文档间的差异。
本实施例提供的方法用于比对用户输入的至少两个文档之间的差异,该方法由安装有本实施例提供的方法的设备执行,该装置通常以硬件和/或软件的方式来实现。
本实施例提供的文档比对方法,包括接收第一文档、第二文档;根据第一文档、第二文档分别生成第一小页集合、第二小页集合;基于预设规则,根据第一小页的内容生成与第一小页对应的第一校验码,根据第二小页的内容生成与第二小页对应的第二校验码;获取第一小页与第二小页的对应关系,并比对具有对应关系的第一小页与第二小页的校验码是否相同,若是,则确定第一小页、第二小页内容相同,否则确定第一小页、第二小页的内容不同。本实施例提供的方法能够通过比对用户输入的第一文档、第二文档的小页校验码是否相同,确定第一文档、第二文档的小页之间是否相同,无需人工对各个小页是否进行了修改逐一进行比对,从而提高了比对文档差异的效率,同时,还能够提高比对文档差异的准确率。
图2为本发明另一示例性实施例示出的文档比对方法的流程图。
如图2所示,本实施例提供的文档比对方法包括:
步骤201,接收第一文档、第二文档。
步骤201的具体原理和实现方式均与步骤101类似,此处不再赘述。
步骤202,根据第一文档中的每个页面分别生成标签图像格式的第一小页,根据第一小页生成第一小页集合;根据第二文档中的每个页面分别生成标签图像格式的第二小页,根据第二小页生成第二小页集合。
其中,可以将接收的第一文档和/或第二文档转换为PDF格式的文档,并分别生成PDF文档的页面预览图,再将每个页面预览图转换成标签图像格式(TIFF)的图片。
具体的,可以将转换得到的TIFF图片存储在与第一文档/第二文档对应的文件夹中。为了便于识别各个图片,还可以预先设置命名规则,并根据命名规则对转换得到的TIFF图片进行命名。例如,可以采用页面和随机码组合的方式生成图片名称,页面和随机码之间可以通过下划线连接。页面为当前需要命名的TIFF图片在文档中的页数下标,随机码为根据文件随机内容生成的代码。
步骤202中生成第一小页集合以及第二小页集合的执行顺序不做限制,可以在接收到第一文档后就执行生成第一小页集合的步骤,接收到第二文档后就执行生成第二小页集合的步骤,也可以同时执行生成第一小页集合、第二小页集合的步骤。
步骤203,基于预设规则,根据第一小页的内容生成与第一小页对应的第一校验码;基于预设规则,根据第二小页的内容生成与第二小页对应的第二校验码。
步骤203的具体原理和实现方式均与步骤103类似,此处不再赘述。
此处不对生成第一校验码、第二校验码的步骤的执行顺序进行限制。
步骤204,获取第一小页的页码信息,获取第二小页的页码信息。
其中,第一小页集合中包括每个第一小页的页码信息,第二小页集合中包括每个第二小页的页码信息。因此,可以从第一小页集合、第二小页集合中获取页码信息。
具体的,页码信息可以是小页与页码的映射关系,例如,可以将小页名称与该小页页码的对应关系存储在小页集合中,此时可以读取小页的名称并获取与其对应的页码信息;还可以直接根据该小页的页码对其进行命名,此时直接读取小页的名称就可以确定其页码信息。
步骤205,根据第一小页的页码信息以及第二小页的页码信息确定第一小页与第二小页的对应关系。
进一步的,可以将页码相同的第一小页和第二小页相对应。如第一小页中的第1页与第二小页中的第1页相对应。
步骤206,比对具有对应关系的第一小页与第二小页的校验码是否相同。若是,则执行步骤207,否则,执行步骤209。
步骤207,确定第一小页、第二小页内容相同。
具体的,由于第一校验码与第二校验码是采用相同的规则,并且是根据页面内容生成的,当小页内容相同时,生成的校验码也相同。因此,可以通过比对对应页面的校验码是否相同来确定对应的页面内容是否相同,从而确定对应的页面是否进行过修改。例如,第一小页2与第二小页2的校验码相同,则可以认为该页面内容相同,没有进行修改。若第一小页3与第二小页3的校验码不同,则可以认为该页面进行过修改,工作人员可以仅比对修改过的页面内容,无需逐一比对每个页面是否被修改过,从而提高比对不同文档之间差异的准确率及效率。
本实施例提供的方法中,在步骤202之后还可以包括步骤208。
步骤208,根据第一小页集合生成第一缩略图集合,根据第二小页集合生成第二缩略图集合。
其中,可以根据小页集合中包括的各个TIFF图生成对应的缩略图,并将根据第一小页集合得到的缩略图作为第一缩略图集合。将根据第二小页集合得到的缩略图作为第二缩略图集合。
具体的,在生成缩略图时,可以使用各小页的名称为缩略图命名,例如,小页名称为“五-1”,则缩略图的名称也为“五-1”,但是二者的格式不同,因此不会出现混淆的问题。
进一步的,还可以创建用于存储缩略图的文件夹,例如第一缩略图文件夹以及第二缩略图文件夹,分别用于存储第一缩略图以及第二缩略图。
步骤208可以在步骤202-209之间执行。
相应的,若第一小页与第二小页的校验码不同,则可以认为二者内容不同,此时可以执行步骤209,即在步骤206的判断结果为否以及步骤208之后,可以执行步骤209。
步骤209,在第一缩略图集合中确定与第一小页对应的第一缩略图,在第二缩略图集合中确定与第二小页对应的第二缩略图。
其中,缩略图是根据小页生成的,因此可以获取二者的对应关系,从而根据第一、第二小页分别确定第一、第二缩略图。若缩略图的名称是根据小页名称得到的,那么还可以根据二者的名称确定对应关系。本步骤确定出的第一缩略图与第二缩略图对应,且二者的内容不同。
在确定出第一缩略图以及第二缩略图之后,可以确定第一缩略图与第二缩略图之间的差异内容。
具体的,由于第一小页与第二小页的内容不同,因此,根据第一小页与第二小页得到的第一缩略图、第二缩略图也不同。可以采用图像识别算法比对两个缩略图的区别,从而确定出二者的差异内容。通过缩略图对比的方式能够减少确定差异内容的计算量。
实际应用时,在确定缩略图之间的差异之前,还可以包括:
步骤210,接收选择指令,选择指令中包括算法标识。
其中,用户可以向执行本实施例提供的方法的装置发送选择指令,该选择指令用于选择算法。用户可以在步骤201之前就发送该指令,也可以在步骤201-209之间以及步骤209之后发送该指令,即步骤210可以在步骤201-209之间或之前、之后任意位置执行。
具体的,可以根据需求预先设置多个算法,用户可以通过界面交互的方式选择其中任一个算法,从而发送选择指令。例如,算法中可以包括比对缩略图的尺寸、内容特征值等,还可以包括图像识别算法等。
步骤211,根据算法标识确定目标算法,并根据目标算法确定第一缩略图与第二缩略图之间的差异内容。
进一步的,可以根据用户选择的目标算法确定第一缩略图与第二缩略图之间的差异内容。
实际应用时,还可以将第一缩略图与第二缩略图不同的部分通过高亮、框选等方式显示出来,从而使用户能够直接确定二者差异。
图2A为本发明另一示例性实施例示出的文档内容差异的示意图。
如图2A所示,第一小页中的第13页与第二小页中的第12页的校验码不同,因此通过步骤211对这两个小页的缩略图进行比对,并确定其中的差异内容,同时在界面中显示出差异内容。
本实施例提供的文档比对方法,可以根据第一小页、第二小页的页码信息匹配二者的对应关系,从而只需要比对具有对应关系的小页的校验码,就能够确定二者是否相同。若两个小页内容不同,则可以进一步根据小页生成的缩略图确定差异内容,无需用户对比两个文档,就能够确定内容不同的第一小页以及第二小页,还能够在无需人工比对的情况下确定二者的差异内容,从而使用户可以直接根据差异内容判断该修改位置是否为正确的修改,进而能够更进一步的解决人工比对效率低且准确率低的问题。
图3为本发明又一示例性实施例示出的文档比对方法的流程图。
如图3所示,本实施例提供的文档比对方法,包括:
步骤301,接收第一文档、第二文档。
步骤302,根据第一文档、第二文档分别生成第一小页集合、第二小页集合。
步骤303,基于预设规则,根据第一小页的内容生成与第一小页对应的第一校验码,根据第二小页的内容生成与第二小页对应的第二校验码。
步骤301-303的具体原理和实现方式可以与步骤101-103类似,步骤302的具体原理和实现方式还可以与步骤202类似,此处不再赘述。
步骤304,比对第一小页的第一校验码与第二小页的第二校验码,若第一校验码与第二校验码相同,则确定第一小页与第二小页对应。
其中,由于第一小页、第二小页的校验码是基于小页内容生成的,因此,若两个小页的校验码相同,那么两个小页的内容也就相同,则两个小页具有对应关系。
具体的,在执行步骤304之前还可以接收用户发送的自动匹配指令,本实施例提供的方法可以根据用户发送的该指令执行步骤304,从而实现通过校验码自动匹配小页的步骤。
进一步的,在第一小页集合中可以包括第一小页的顺序标识,在第二小页集合中可以包括第二小页的顺序标识。可以按照第一小页的顺序遍历每个第一小页,为其确定具有对应关系的第二小页。具体可以先获取一个第一小页的第一校验码,再按照第二小页的顺序在第二小页集合中获取未确定对应关系的第二小页的第二校验码,例如,第二小页集合中第1-5个小页都已经确定了对应关系,则直接获取第6个小页的第二校验码,并比对获取的第一校验码和第二校验码,若二者相同,则确定该第一小页与第二小页具有对应关系,否则,按照顺序获取下一个第二小页的第二校验码,并继续执行比对获取的第一校验码和第二校验码的步骤,直到确定出与第一小页对应的第二小页或者获取完所有未确定对应关系的第二小页的第二校验码为止。
实际应用时,用户在对文档进行修改时,会使小页内容发生改变,进而使得小页的校验码发生改变,此时通过步骤304无法确定修改后的小页与修改前的小页具有对应关系,因此,本实施例提供的方法还可以包括:
若第M-1个第一小页与第N-1个第二小页对应,第M+1个第一小页与第N+1个第二小页对应,则第M个第一小页与第N个第二小页对应。其中,M为第一小页集合中的第一小页的顺序标号,N为第二小页集合中的第二小页的顺序标号。
例如,第4个第一小页的校验码与第4个第二小页的校验码相同,则可以确定顺序为4的第一小页与第二小页对应,第6个第一小页的校验码与第6个第二小页的校验码相同,则可以确定顺序为6的第一小页与第二小页对应,此时,即使第5个第一小页的校验码与第5个第二小页的校验码不同,也确定顺序为5的第一小页与第二小页对应。
其中,若用户对文档进行增减页的处理,则会造成第一小页和/或第二小页没有与其对应的小页,此时,本实施例提供的方法还可以包括:
步骤305,若未在第二小页集合中确定与第一小页对应的第二小页,则在第二小页集合中创建第二空白页,并确定第二空白页与第一小页对应。
具体的,若第二文档比第一文档的页数少,则会造成一部分第一小页没有对应的第二小页,因此,可以创建第二空白页,并使第二空白页与该第一小页对应。
进一步的,若在第一小页集合以及第二小页集合中包括小页顺序信息,则还可以设置该第二空白页的顺序信息,使其与对应的第一小页的顺序相应。例如,小页的对应关系分别为:P1对应P1',P2对应P2',P4对应P3',P3没有对应的第二小页,即第一小页中的1、2、4页分别对应第二小页中的1、2、3页。此时可以在第二小页集合中创建第二空白页,并使其顺序为第三页,且与第一小页中的P3对应。相应的,第二小页集合中原有的P3向后移动,放置在第二空白页之后。
步骤306,若在确定完第一小页所对应的第二小页后,第二小页集合中还包括未确定对应关系的第二小页,则在第一小页集合中创建第一空白页,并确定空白页与第二小页对应。
实际应用时,若第二文档比第一文档的页数多,则会造成一部分第二小页没有对应的第一小页,因此,可以创建第一空白页,并使第一空白页与该第二小页对应。
其中,若在第一小页集合以及第二小页集合中包括小页顺序信息,则还可以设置该第一空白页的顺序信息,使其与对应的第二小页的顺序相应。
图3A为本发明一示例性实施例示出文档比对自动插页示意图。
如图3A所示,小页的对应关系分别为:P1对应P1',P2对应P2',P3对应P3',P4对应P4',P5对应P5',P6对应P7',P7对应P8',P8对应P9',P9对应P10',P6'没有对应的第一小页,即第一小页中的1-5页分别对应第二小页中的1-5页,第一小页中的6-9页分别对应第二小页中的7-10页。此时可以在第一小页集合中创建第一空白页,并使其顺序为第6页,且与第二小页中的P6'对应。相应的,第一小页集合中原有的P6向后移动,放置在第一空白页之后。
步骤307,获取第一小页与第二小页的对应关系。
步骤307的具体原理和实现方式均与步骤104类似,此处不再赘述。
步骤308,比对具有对应关系的第一小页与第二小页的校验码是否相同,若是,则确定第一小页、第二小页内容相同,否则确定第一小页、第二小页的内容不同。
步骤308的具体原理和实现方式均与步骤105或206-211类似,此处不再赘述。
本实施例提供的文档比对方法,能够根据小页的校验码自动匹配第一小页与第二小页的对应关系。当用户对文档进行增减页的造作后,无需人工比对各小页的对应关系,从而能够进一步的提高确定文档间差异的效率。
图4为本发明一示例性实施例示出的文档比对装置的结构图。
如图4所示,本实施例提供的文档比对装置,包括:
接收模块41,用于接收第一文档、第二文档;
第一生成模块42,用于根据所述第一文档、所述第二文档分别生成第一小页集合、第二小页集合;
第二生成模块43,用于基于预设规则,根据第一小页的内容生成与所述第一小页对应的第一校验码,根据第二小页的内容生成与所述第二小页对应的第二校验码;
获取模块44,用于获取所述第一小页与所述第二小页的对应关系;
比对模块45,用于比对具有对应关系的第一小页与第二小页的校验码是否相同,若是,则确定所述第一小页、所述第二小页内容相同,否则确定第一小页、第二小页的内容不同。
本实施例提供的文档比对装置,包括接收模块,用于接收第一文档、第二文档;第一生成模块,用于根据第一文档、第二文档分别生成第一小页集合、第二小页集合;第二生成模块,用于基于预设规则,根据第一小页的内容生成与第一小页对应的第一校验码,根据第二小页的内容生成与第二小页对应的第二校验码;获取模块,用于获取第一小页与第二小页的对应关系;比对模块,用于比对具有对应关系的第一小页与第二小页的校验码是否相同,若是,则确定第一小页、第二小页内容相同,否则确定第一小页、第二小页的内容不同。本实施例提供的装置能够通过比对用户输入的第一文档、第二文档的小页校验码是否相同,确定第一文档、第二文档的小页之间是否相同,无需人工对各个小页是否进行了修改逐一进行比对,从而提高了比对文档差异的效率,同时,还能够提高比对文档差异的准确率。
本实施例提供的文档比对装置的具体原理和实现方式均与图1所示的实施例类似,此处不再赘述。
图5为本发明另一示例性实施例示出的文档比对装置的结构图。
如图5所示,在上述实施例的基础上,本实施例提供的文档比对装置,所述第一小页集合中包括每个所述第一小页的页码信息,所述第二小页集合中包括每个所述第二小页的页码信息;
相应的,所述获取模块44包括:
获取单元441,用于获取所述第一小页的页码信息,获取所述第二小页的页码信息;
第一确定单元442,用于根据所述第一小页的页码信息以及所述第二小页的页码信息确定所述第一小页与所述第二小页的对应关系。
可选的,所述装置还包括:
对应模块46,用于比对所述第一小页的第一校验码与所述第二小页的第二校验码,若所述第一校验码与所述第二校验码相同,则确定所述第一小页与所述第二小页对应。
所述对应模块46还用于:
若未在所述第二小页集合中确定与所述第一小页对应的所述第二小页,则在所述第二小页集合中创建第二空白页,并确定所述第二空白页与所述第一小页对应;
和/或,若在确定完所述第一小页所对应的第二小页后,所述第二小页集合中还包括未确定所述对应关系的第二小页,则在所述第一小页集合中创建第一空白页,并确定所述第一空白页与所述第二小页对应。
可选的,所述第一生成模块42包括:
第一生成单元421,用于根据所述第一小页集合生成第一缩略图集合,根据所述第二小页集合生成第二缩略图集合;
相应的,若所述第一小页与所述第二小页的内容不同,则所述比对模块45包括:
第二确定单元451,用于在所述第一缩略图集合中确定与所述第一小页对应的第一缩略图,在所述第二缩略图集合中确定与所述第二小页对应的第二缩略图;
所述第二确定单元451还用于确定所述第一缩略图与所述第二缩略图之间的差异内容。
可选的,所述接收模块41还用于接收选择指令,所述选择指令中包括算法标识;
相应的,所述第二确定单元451还用于根据所述算法标识确定目标算法,并根据所述目标算法确定所述第一缩略图与所述第二缩略图之间的差异内容。
所述第一生成模块42,包括第二生成单元422,用于:
根据所述第一文档中的每个页面分别生成标签图像格式的第一小页,根据所述第一小页生成第一小页集合;
根据所述第二文档中的每个页面分别生成标签图像格式的第二小页,根据所述第二小页生成第二小页集合。
本实施例提供的装置的具体原理和实现方式均与图2-3所示的实施例类似,此处不再赘述。
本实施例还提供一种文档比对设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并配置为由所述处理器执行以实现以上所述的任一种方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (15)

1.一种文档比对方法,其特征在于,包括:
接收第一文档、第二文档;
根据所述第一文档、所述第二文档分别生成第一小页集合、第二小页集合;
基于预设规则,根据第一小页的内容生成与所述第一小页对应的第一校验码,根据第二小页的内容生成与所述第二小页对应的第二校验码;
获取所述第一小页与所述第二小页的对应关系,并比对具有对应关系的第一小页与第二小页的校验码是否相同,若是,则确定所述第一小页、所述第二小页内容相同,否则确定第一小页、第二小页的内容不同。
2.根据权利要求1所述的方法,其特征在于,所述第一小页集合中包括每个所述第一小页的页码信息,所述第二小页集合中包括每个所述第二小页的页码信息;
相应的,所述获取所述第一小页与所述第二小页的对应关系,包括:
获取所述第一小页的页码信息,获取所述第二小页的页码信息;
根据所述第一小页的页码信息以及所述第二小页的页码信息确定所述第一小页与所述第二小页的对应关系。
3.根据权利要求1所述的方法,其特征在于,所述获取所述第一小页与所述第二小页的对应关系之前,还包括:
比对所述第一小页的第一校验码与所述第二小页的第二校验码,若所述第一校验码与所述第二校验码相同,则确定所述第一小页与所述第二小页对应。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若未在所述第二小页集合中确定与所述第一小页对应的所述第二小页,则在所述第二小页集合中创建第二空白页,并确定所述第二空白页与所述第一小页对应;
和/或,若在确定完所述第一小页所对应的第二小页后,所述第二小页集合中还包括未确定所述对应关系的第二小页,则在所述第一小页集合中创建第一空白页,并确定所述第一空白页与所述第二小页对应。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述第一文档、所述第二文档分别生成第一小页集合、第二小页集合之后,包括:根据所述第一小页集合生成第一缩略图集合,根据所述第二小页集合生成第二缩略图集合;
相应的,若所述第一小页与所述第二小页的内容不同,则:
在所述第一缩略图集合中确定与所述第一小页对应的第一缩略图,在所述第二缩略图集合中确定与所述第二小页对应的第二缩略图;
确定所述第一缩略图与所述第二缩略图之间的差异内容。
6.根据权利要求5所述的方法,其特征在于,所述确定所述第一缩略图与所述第二缩略图之间的差异内容之前,还包括:
接收选择指令,所述选择指令中包括算法标识;
相应的,所述确定所述第一缩略图与所述第二缩略图之间的差异内容还包括:
根据所述算法标识确定目标算法,并根据所述目标算法确定所述第一缩略图与所述第二缩略图之间的差异内容。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述第一文档、所述第二文档分别生成第一小页集合、第二小页集合,包括:
根据所述第一文档中的每个页面分别生成标签图像格式的第一小页,根据所述第一小页生成第一小页集合;
根据所述第二文档中的每个页面分别生成标签图像格式的第二小页,根据所述第二小页生成第二小页集合。
8.一种文档比对装置,其特征在于,包括:
接收模块,用于接收第一文档、第二文档;
第一生成模块,用于根据所述第一文档、所述第二文档分别生成第一小页集合、第二小页集合;
第二生成模块,用于基于预设规则,根据第一小页的内容生成与所述第一小页对应的第一校验码,根据第二小页的内容生成与所述第二小页对应的第二校验码;
获取模块,用于获取所述第一小页与所述第二小页的对应关系;
比对模块,用于比对具有对应关系的第一小页与第二小页的校验码是否相同,若是,则确定所述第一小页、所述第二小页内容相同,否则确定第一小页、第二小页的内容不同。
9.根据权利要求8所述的装置,其特征在于,所述第一小页集合中包括每个所述第一小页的页码信息,所述第二小页集合中包括每个所述第二小页的页码信息;
相应的,所述获取模块包括:
获取单元,用于获取所述第一小页的页码信息,获取所述第二小页的页码信息;
第一确定单元,用于根据所述第一小页的页码信息以及所述第二小页的页码信息确定所述第一小页与所述第二小页的对应关系。
10.根据权利要求8所述的装置,其特征在于,还包括:
对应模块,用于比对所述第一小页的第一校验码与所述第二小页的第二校验码,若所述第一校验码与所述第二校验码相同,则确定所述第一小页与所述第二小页对应。
11.根据权利要求10所述的装置,其特征在于,所述对应模块还用于:
若未在所述第二小页集合中确定与所述第一小页对应的所述第二小页,则在所述第二小页集合中创建第二空白页,并确定所述第二空白页与所述第一小页对应;
和/或,若在确定完所述第一小页所对应的第二小页后,所述第二小页集合中还包括未确定所述对应关系的第二小页,则在所述第一小页集合中创建第一空白页,并确定所述第一空白页与所述第二小页对应。
12.根据权利要求8-11任一项所述的装置,其特征在于,所述第一生成模块包括:
第一生成单元,用于根据所述第一小页集合生成第一缩略图集合,根据所述第二小页集合生成第二缩略图集合;
相应的,若所述第一小页与所述第二小页的内容不同,则所述比对模块包括:
第二确定单元,用于在所述第一缩略图集合中确定与所述第一小页对应的第一缩略图,在所述第二缩略图集合中确定与所述第二小页对应的第二缩略图;
所述第二确定单元还用于确定所述第一缩略图与所述第二缩略图之间的差异内容。
13.根据权利要求12所述的装置,其特征在于,所述接收模块还用于接收选择指令,所述选择指令中包括算法标识;
相应的,所述第二确定单元还用于根据所述算法标识确定目标算法,并根据所述目标算法确定所述第一缩略图与所述第二缩略图之间的差异内容。
14.根据权利要求8-11任一项所述的装置,其特征在于,所述第一生成模块,包括第二生成单元,用于:
根据所述第一文档中的每个页面分别生成标签图像格式的第一小页,根据所述第一小页生成第一小页集合;
根据所述第二文档中的每个页面分别生成标签图像格式的第二小页,根据所述第二小页生成第二小页集合。
15.一种文档比对设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并配置为由所述处理器执行以实现如权利要求1-7所述的任一种方法。
CN201810344478.4A 2018-04-17 2018-04-17 文档比对方法、装置及设备 Pending CN110390081A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810344478.4A CN110390081A (zh) 2018-04-17 2018-04-17 文档比对方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810344478.4A CN110390081A (zh) 2018-04-17 2018-04-17 文档比对方法、装置及设备

Publications (1)

Publication Number Publication Date
CN110390081A true CN110390081A (zh) 2019-10-29

Family

ID=68283248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810344478.4A Pending CN110390081A (zh) 2018-04-17 2018-04-17 文档比对方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110390081A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079403A (zh) * 2019-12-10 2020-04-28 深圳市兴之佳科技有限公司 一种页面对比方法及装置
CN112395852A (zh) * 2020-12-22 2021-02-23 江西金格科技股份有限公司 多文件格式版式文档的对比方法
CN113238748A (zh) * 2021-06-17 2021-08-10 南方电网科学研究院有限责任公司 一种直流控保程序页面修改校验方法、装置、终端及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060112148A1 (en) * 2004-11-20 2006-05-25 International Business Machines Corporation Method, device and system for automatic retrieval of similar objects in a network of devices
CN102110083A (zh) * 2009-12-28 2011-06-29 北大方正集团有限公司 支持在线以及离线文档编辑的客户端装置及方法
CN103914496A (zh) * 2013-01-09 2014-07-09 北大方正集团有限公司 一种页面校对的方法和装置
CN104778199A (zh) * 2014-01-09 2015-07-15 富士施乐株式会社 图像处理设备和图像处理方法
CN107180020A (zh) * 2016-03-11 2017-09-19 北大方正集团有限公司 排版文件校验方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060112148A1 (en) * 2004-11-20 2006-05-25 International Business Machines Corporation Method, device and system for automatic retrieval of similar objects in a network of devices
CN102110083A (zh) * 2009-12-28 2011-06-29 北大方正集团有限公司 支持在线以及离线文档编辑的客户端装置及方法
CN103914496A (zh) * 2013-01-09 2014-07-09 北大方正集团有限公司 一种页面校对的方法和装置
CN104778199A (zh) * 2014-01-09 2015-07-15 富士施乐株式会社 图像处理设备和图像处理方法
CN107180020A (zh) * 2016-03-11 2017-09-19 北大方正集团有限公司 排版文件校验方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079403A (zh) * 2019-12-10 2020-04-28 深圳市兴之佳科技有限公司 一种页面对比方法及装置
CN111079403B (zh) * 2019-12-10 2023-08-08 深圳市兴之佳科技有限公司 一种页面对比方法及装置
CN112395852A (zh) * 2020-12-22 2021-02-23 江西金格科技股份有限公司 多文件格式版式文档的对比方法
CN113238748A (zh) * 2021-06-17 2021-08-10 南方电网科学研究院有限责任公司 一种直流控保程序页面修改校验方法、装置、终端及介质
CN113238748B (zh) * 2021-06-17 2023-05-23 南方电网科学研究院有限责任公司 一种直流控保程序页面修改校验方法、装置、终端及介质

Similar Documents

Publication Publication Date Title
Sweeney et al. HIPI: a Hadoop image processing interface for image-based mapreduce tasks
US9977770B2 (en) Conversion of a presentation to Darwin Information Typing Architecture (DITA)
US8347206B2 (en) Interactive image tagging
US20160275304A1 (en) Method and apparatus for verifying images based on image verification codes
US9591169B2 (en) Image processing apparatus and program
CN109343845A (zh) 一种代码文件生成方法和装置
CN110390081A (zh) 文档比对方法、装置及设备
RU2579899C1 (ru) Обработка документа с использованием нескольких потоков обработки
JP2022547895A (ja) ユーザカスタマイズ型の文書自動作成方法、そのための装置及びサーバー
US7574516B2 (en) Mechanisms for transferring raw data from one data structure to another representing the same item
CN110826342A (zh) 一种实现模型管理的方法、装置、计算机存储介质及终端
EP3149570A1 (en) Digital note creation
Gulwani et al. StriSynth: synthesis for live programming
CN103530313A (zh) 应用信息的搜索方法及装置
TW201349159A (zh) 產生學習試題的方法及其系統
CN108509396A (zh) Pdf文件转图片的方法、电子装置及计算机可读存储介质
CN111507405A (zh) 图片标注方法、装置、电子设备及计算机可读存储介质
CN104503992B (zh) 一种题库构建方法
JP2007011467A (ja) アサーション記述自動生成方法および装置
US8392829B2 (en) Modular documentation using a playlist model
Hodge et al. Formats for digital preservation: A review of alternatives and issues
CN107145530A (zh) 一种基于附加数据的文档检索方法及系统
CN116016553B (zh) 一种基于网盘的文件分享方法、装置、网盘及存储介质
CN111915424B (zh) 信息保存方法及相关产品
CN112579623B (zh) 存储数据的方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191029

RJ01 Rejection of invention patent application after publication