CN109597913B - 对齐文档图片的方法,装置,存储介质和电子设备 - Google Patents

对齐文档图片的方法,装置,存储介质和电子设备 Download PDF

Info

Publication number
CN109597913B
CN109597913B CN201811308614.0A CN201811308614A CN109597913B CN 109597913 B CN109597913 B CN 109597913B CN 201811308614 A CN201811308614 A CN 201811308614A CN 109597913 B CN109597913 B CN 109597913B
Authority
CN
China
Prior art keywords
document
picture
pictures
sequence information
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811308614.0A
Other languages
English (en)
Other versions
CN109597913A (zh
Inventor
韩志刚
宋洋
于广伟
姜楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811308614.0A priority Critical patent/CN109597913B/zh
Publication of CN109597913A publication Critical patent/CN109597913A/zh
Application granted granted Critical
Publication of CN109597913B publication Critical patent/CN109597913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本公开涉及一种对齐文档图片的方法,装置,存储介质和电子设备,用于解决现有技术在进行文档图片比较前需要进行人工对齐的问题。该方法包括:分别生成第一文档和第二文档中的图片序列信息;通过对所述第一文档和所述第二文档中的图片进行比较,确定所述第一文档和所述第二文档中的共通图片对;将所述第一文档的图片序列信息和所述第二文档的图片序列信息中,对应所述共通图片对的符号对作为相同的符号,并根据最大公共子序列算法确定所述第一文档的图片序列信息和所述第二文档的图片序列信息中的最大公共子序列;将所述最大公共子序列中每一符号对应的图片对在所述第一文档和所述第二文档中进行对齐。

Description

对齐文档图片的方法,装置,存储介质和电子设备
技术领域
本公开涉及文本比较领域,具体地,涉及一种对齐文档图片的方法,装置,存储介质和电子设备。
背景技术
有时候文档里有很多图片,这些图片之间往往有一定的逻辑顺序关系,文档编辑时有时需要替换原来的图片或者增删图片,从而造成两个文档中的这些图片失去最初的对应关系,当两个文档需要比较差异点时,目前只能通过人工选择图片进行两两对比,技术上无法实现自动选择具有相关性的图片进行比对。
例如,一个文档里有500张图片,经过版本变更后新文档里有498张图片,新文档中可能插入了新的图片,且删除了原有的部分图片,在此种情况下,如按照图片在文档中出现的次序依次进行两两比对,必然不准确。因此,如何对两个文档中图片进行差异性比对,找到两个文档中图片的相关性成为了亟待解决的问题。
发明内容
本公开的主要目的是提供一种对齐文档图片的方法,装置,存储介质和电子设备,用于解决现有技术在进行文档图片比较前需要进行人工对齐的问题。
为了实现上述目的,本公开实施例第一方面提供一种对齐文档图片的方法,包括:
分别生成第一文档和第二文档中的图片序列信息,其中,所述图片序列信息中的每一符号对应一图片,所述图片序列信息中各个符号的先后排序关系与对应的图片在文档中先后排序关系一致;
通过对所述第一文档和所述第二文档中的图片进行比较,确定所述第一文档和所述第二文档中的共通图片对,所述共通图片对是指所述第一文档和所述第二文档中相似度高于阈值的图片对;
将所述第一文档的图片序列信息和所述第二文档的图片序列信息中,对应所述共通图片对的符号对作为相同的符号,并根据最大公共子序列算法确定所述第一文档的图片序列信息和所述第二文档的图片序列信息中的最大公共子序列,其中,所述最大公共子序列是指所述第一文档的图片序列信息和所述第二文档的图片序列信息中具有相同符号序列的最长子序列;
将所述最大公共子序列中每一符号对应的图片对在所述第一文档和所述第二文档中进行对齐。
可选地,所述分别生成第一文档和第二文档中的图片序列信息,包括:
根据所述第一文档中每一图片在页面中的坐标信息,以及图片所在页面的页码信息生成所述第一文档的图片序列信息;
根据所述第二文档中每一图片在页面中的坐标信息,以及图片所在页面的页码信息生成所述第二文档的图片序列信息。
可选地,所述通过对所述第一文档和所述第二文档中的图片进行比较,确定所述第一文档和所述第二文档中的共通图片对,包括:
将所述第一文档中的每一图片,依次与所述第二文档中的所有图片进行图片比较,以确定所述第一文档中每一图片与所述第二文档中所有图片之间的相似度;
将相似度高于预设阈值的图片对作为所述共通图片对。
可选地,所述将所述最大公共子序列中每一符号对应的图片对在所述第一文档和所述第二文档中进行对齐,包括:
将所述最大公共子序列中每一符号对应的图片对的索引信息进行关联。
可选地,所述方法还包括:
分别比较所述最大公共子序列与所述第一文档的图片序列化信息以及与所述第二文档的图片序列化信息的差异符号,以确定所述第二文档相对所述第二文档增加的图片和删除的图片。
本公开实施例第二方面提供一种对齐文档图片的装置,所述装置包括:
生成模块,用于分别生成第一文档和第二文档中的图片序列信息,其中,所述图片序列信息中的每一符号对应一图片,所述图片序列信息中各个符号的先后排序关系与对应的图片在文档中先后排序关系一致;
图片比较模块,用于通过对所述第一文档和所述第二文档中的图片进行比较,确定所述第一文档和所述第二文档中的共通图片对,所述共通图片对是指所述第一文档和所述第二文档中相似度高于阈值的图片对;
序列确定模块,用于将所述第一文档的图片序列信息和所述第二文档的图片序列信息中,对应所述共通图片对的符号对作为相同的符号,并根据最大公共子序列算法确定所述第一文档的图片序列信息和所述第二文档的图片序列信息中的最大公共子序列,其中,所述最大公共子序列是指所述第一文档的图片序列信息和所述第二文档的图片序列信息中具有相同符号序列的最长子序列;
对齐模块,用于将所述最大公共子序列中每一符号对应的图片对在所述第一文档和所述第二文档中进行对齐。
可选地,所述生成模块用于:
根据所述第一文档中每一图片在页面中的坐标信息,以及图片所在页面的页码信息生成所述第一文档的图片序列信息;
根据所述第二文档中每一图片在页面中的坐标信息,以及图片所在页面的页码信息生成所述第二文档的图片序列信息。
可选地,所述图片比较模块用于:
将所述第一文档中的每一图片,依次与所述第二文档中的所有图片进行图片比较,以确定所述第一文档中每一图片与所述第二文档中所有图片之间的相似度;
将相似度高于预设阈值的图片对作为所述共通图片对。
可选地,所述对齐模块用于:
将所述最大公共子序列中每一符号对应的图片对的索引信息进行关联。
可选地,所述装置还包括:
增删确定模块,用于分别比较所述最大公共子序列与所述第一文档的图片序列化信息以及与所述第二文档的图片序列化信息的差异符号,以确定所述第二文档相对所述第二文档增加的图片和删除的图片。
本公开实施例第三方面还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述方法的步骤。
本公开实施例第四方面还提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面所述方法的步骤。
采用上述技术方案,至少能够达到如下技术效果:
通过对文档中的图片进行序列化,并根据最大公共子序列算法求取两个图片序列信息中的最大公共子序列,将该最大公共子序列对应的图片作为两个文档中未更改的图片进行对齐,这样,该最大公共子序列对应的图片以外的其他图片即可认为是文档中增加或删除的图片,从而为进一步的文档比较提供的依据,解决了现有技术在进行文档图片比较前需要进行人工对齐的问题。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开实施例提供的一种对齐文档图片的方法的流程示意图;
图2是本公开实施例提供的一种序列S1和序列S2的最大公共子序列的示意图;
图3是本公开实施例提供的一种对齐文档图片的装置的结构示意图;
图4是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
首先说明本公开实施例的一种应用场景,针对具有很多图片的文档,这些图片之间往往有一定的逻辑顺序关系,在进行文档编辑时,可能需要替换原来的图片或者增删图片,从而造成两个文档中的这些图片失去最初的对应关系,在此种情况下,当两个文档需要比较差异点时,首先需要将两个文档的图片进行对齐,即找到哪些图片是未经变动的图片,再根据其他图片与未经变动图片的位置关系,确定哪些是增加的图片,哪些是删除的图片。本公开实施例提供的技术方案用于自动对齐文档中的图片,解决现有技术在进行文档图片比较前需要进行人工对齐的问题。
本公开实施例提供一种对齐文档图片的方法,如图1所示,所述方法包括:
S101、分别生成第一文档和第二文档中的图片序列信息。
其中,所述图片序列信息中的每一符号对应一图片,所述图片序列信息中各个符号的先后排序关系与对应的图片在文档中先后排序关系一致。
示例地,该图片序列信息例如可以是CACCTAAGGT,其中,图片序列信息中的每一个字符对应一张图片,相同的字符表明在文档中不同位置出现的相同的图片,也就是说,该图片序列信息中各个符号的先后顺序与图片在文档中出现的顺序一致。
S102、通过对所述第一文档和所述第二文档中的图片进行比较,确定所述第一文档和所述第二文档中的共通图片对,所述共通图片对是指所述第一文档和所述第二文档中相似度高于阈值的图片对。
示例地,第一文档中包括依次出现的图片1,图片2,图片3,图片4,图片5,图片6,第二文档中包括依次出现的图片1,图片2,图片3,图片4,图片5,图片6,图片7。如果第一文档的图片1与第二文档的图片1的相似度高于预设阈值,则认为第一文档中的图片1和第二文档中的图片1为共通图片对,如果第一文档的图片1同时与第二文档中的图片5的相似度也高于预设阈值,则认为第一文档的图片1和第二文档的图片5也为一共通图片对。其中,共通图片对在图像序列化信息中采用统一符号表示,也就是说,在第一文档中的图片1和第二文档中的图片1为共通图片对,第一文档的图片1和第二文档的图片5也为一共通图片对,第一文档的图片3与第二文档的图片7为共通图片对,而其他图片均未找到与其相似度高于阈值的其他图片组成共通图片对的情况下,则第一文档的图片序列化信息可以表示为ABCDEF,第二文档的图片序列化信息可以表示为AHIJAMC。即使用符号A表示第一文档的图片1,第二文档的图片1和图片5,使用符号C表示第一文档的图片3和第二文档的图片7。
S103、将所述第一文档的图片序列信息和所述第二文档的图片序列信息中,对应所述共通图片对的符号对作为相同的符号,并根据最大公共子序列算法确定所述第一文档的图片序列信息和所述第二文档的图片序列信息中的最大公共子序列。
其中,所述最大公共子序列是指所述第一文档的图片序列信息和所述第二文档的图片序列信息中具有相同符号序列的最长子序列。
值得说明的是,最大公共子序列算法是指针对给定的两个字符串,求解这两个字符串的最长公共子序列(Longest Common Sequence)。比如字符串1:BDCABA;字符串2:ABCBDAB,则这两个字符串的最长公共子序列长度为4,最长公共子序列是:BCBA。其中,字符串的子序列的定义是从序列中按原顺序保留任意若干项得到的序列,例如一个序列A=a1,a2,……an,从中任意删除若干项,剩余的序列即为A的一个子序列。而公共子序列是指,如果序列C既是序列A的子序列,同时也是序列B的子序列,则称它为序列A和序列B的公共子序列。最大公共子序列即是指,A和B的公共子序列中长度最长的(包含元素最多的)的公共子序列。
上述步骤S103即是指,将第一文档的图片序列化信息和第二文档的图片序列化信息作为原始序列,通过最大公共子序列算法,求取第一文档的图片序列化信息和第二文档的图片序列化信息的最大公共子序列,即两个图片序列化信息中包括相同符号的最多的子序列。
S104、将所述最大公共子序列中每一符号对应的图片对在所述第一文档和所述第二文档中进行对齐。
以第一文档的图片序列为ABCDEF,第二文档的图片序列为AHIJAMC进行举例,通过最大公共子序列算法,可得两者的最大公共子序列为AC。这样,步骤S104是指,将符号A对应的在第一文档和第二文档中的图片进行对齐,例如,将第一文档中的图片1和第二文档中的图片1对齐,以及将符号C对应的在第一文档和第二文档中的图片进行对齐,即对齐第一文档中的图片3和第二文档中的图片7。
采用上述方法,通过对文档中的图片进行序列化,并根据最大公共子序列算法求取两个图片序列信息中的最大公共子序列,将该最大公共子序列对应的图片作为两个文档中未更改的图片进行对齐,这样,该最大公共子序列对应的图片以外的其他图片即可认为是文档中增加或删除的图片,从而为进一步的文档比较提供的依据,解决了现有技术在进行文档图片比较前需要进行人工对齐的问题。
具体地,上述步骤S101具体可以包括:根据所述第一文档中每一图片在页面中的坐标信息,以及图片所在页面的页码信息生成所述第一文档的图片序列信息;根据所述第二文档中每一图片在页面中的坐标信息,以及图片所在页面的页码信息生成所述第二文档的图片序列信息。
文档中每张图片都有位置信息,即页码和坐标,根据页码排序,同一页内根据坐标排序,可以建立文档中每张图片的索引信息,并将索引信息存储在一个逻辑有序的数组里,这样,一个文档中所有图片就有了逻辑上的前后顺序关系。分别对第一文档和第二文档执行上述操作,即可得到两个数组,即第一文档的图片序列化信息和第二文档的图片序列化信息。
可选地,步骤S102中通过对所述第一文档和所述第二文档中的图片进行比较,确定所述第一文档和所述第二文档中的共通图片对可以包括:
将所述第一文档中的每一图片,依次与所述第二文档中的所有图片进行图片比较,以确定所述第一文档中每一图片与所述第二文档中所有图片之间的相似度;并将相似度高于预设阈值的图片对作为所述共通图片对。
鉴于很难找到两张完全相同的图片,因此本公开实施例在具体实施时,可以自定义一个相似度阈值,例如0.7,具体数值大小可以根据实际需求设定,当两张图片的相似度高于该阈值,则认为这两张图片为共通图片对(即出自同一张图片),低于该阈值,则认为这两张图片无关。
可选地,步骤S104中将所述最大公共子序列中每一符号对应的图片对在所述第一文档和所述第二文档中进行对齐,包括:将所述最大公共子序列中每一符号对应的图片对的索引信息进行关联。
例如将索引信息进行关联的方式可以是,将最大公共子序列中每一符号对应的图片对的索引组成一个数组,该数组中每一元素是一对索引,每对索引都关联了两张对齐的图片,为进一步的图片比较提供基础。例如,进一步通过图片比较算法确定对齐的图片之间的内在联系,例如完全相同,更新了、比例变了、裁减了、旋转了、仅大小不同、镜像关系等等,本公开对此不做限定。
另外,通过分别比较所述最大公共子序列与所述第一文档的图片序列化信息以及与所述第二文档的图片序列化信息的差异符号,还可以确定所述第二文档相对所述第二文档增加的图片和删除的图片。
也就是说,最大公共子序列中的符号表示第一文档和第二文档中均存在的图片,这样,图片序列化信息中除最大公共子序列以外的其他符号即代表增加的或者删除的图片。
示例地,第一文档的图片序列化信息S1为:
S1=AAACCGTGAGTTATTCGTTCTAGA;
第二文档的图片序列化信息为S2为:
S2=CACCCCTAAGGTACCTTTGGTT。
利用最大公共子序列算法可求得S1和S2的最大公共子序列如图2所示,方框框住的符号为最大公共子序列中的符号。如图2所示,S1和S2的最大公共子序列为S=ACCTAGTACTTTG。
这样,通过比较S1与S的差异,即可得到第一文档变化到第二文档删除的图片。具体地,S1-S=AAGGTTTGCAA,即第一文档中AAGGTTTGCAA表示的图片为删除的图片;通过比较S2与S的差异,即可得到第一文档变化到第二文档增加的图片。具体地,S2-S=CCCAGCGTT,即第二文档中CCCAGCGTT表示的图片为增加的图片。
本公开实施例还提供一种对齐文档图片的装置,用于实施上述方法实施例提供的一种对齐文档图片的方法,如图3所示,所述对齐文档图片的装置30包括:
生成模块31,用于分别生成第一文档和第二文档中的图片序列信息,其中,所述图片序列信息中的每一符号对应一图片,所述图片序列信息中各个符号的先后排序关系与对应的图片在文档中先后排序关系一致;
图片比较模块32,用于通过对所述第一文档和所述第二文档中的图片进行比较,确定所述第一文档和所述第二文档中的共通图片对,所述共通图片对是指所述第一文档和所述第二文档中相似度高于阈值的图片对;
序列确定模块33,用于将所述第一文档的图片序列信息和所述第二文档的图片序列信息中,对应所述共通图片对的符号对作为相同的符号,并根据最大公共子序列算法确定所述第一文档的图片序列信息和所述第二文档的图片序列信息中的最大公共子序列,其中,所述最大公共子序列是指所述第一文档的图片序列信息和所述第二文档的图片序列信息中具有相同符号序列的最长子序列;
对齐模块34,用于将所述最大公共子序列中每一符号对应的图片对在所述第一文档和所述第二文档中进行对齐。
采用上述装置,该装置通过对文档中的图片进行序列化,并根据最大公共子序列算法求取两个图片序列信息中的最大公共子序列,将该最大公共子序列对应的图片作为两个文档中未更改的图片进行对齐,这样,该最大公共子序列对应的图片以外的其他图片即可认为是文档中增加或删除的图片,从而为进一步的文档比较提供的依据,解决了现有技术在进行文档图片比较前需要进行人工对齐的问题。
可选地,所述生成模块31用于:
根据所述第一文档中每一图片在页面中的坐标信息,以及图片所在页面的页码信息生成所述第一文档的图片序列信息;
根据所述第二文档中每一图片在页面中的坐标信息,以及图片所在页面的页码信息生成所述第二文档的图片序列信息。
可选地,所述图片比较模块32用于:
将所述第一文档中的每一图片,依次与所述第二文档中的所有图片进行图片比较,以确定所述第一文档中每一图片与所述第二文档中所有图片之间的相似度;
将相似度高于预设阈值的图片对作为所述共通图片对。
可选地,所述对齐模块34用于:
将所述最大公共子序列中每一符号对应的图片对的索引信息进行关联。
可选地,所述装置30还可以包括:增删确定模块,用于分别比较所述最大公共子序列与所述第一文档的图片序列化信息以及与所述第二文档的图片序列化信息的差异符号,以确定所述第二文档相对所述第二文档增加的图片和删除的图片。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法实施例提供的一种对齐文档图片的方法的步骤。
本公开实施例还提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述方法实施例提供的一种对齐文档图片的方法的步骤。
采用该电子设备,通过对文档中的图片进行序列化,并根据最大公共子序列算法求取两个图片序列信息中的最大公共子序列,将该最大公共子序列对应的图片作为两个文档中未更改的图片进行对齐,这样,该最大公共子序列对应的图片以外的其他图片即可认为是文档中增加或删除的图片,从而为进一步的文档比较提供的依据,解决了现有技术在进行文档图片比较前需要进行人工对齐的问题。
图4是上述电子设备的一种框图。电子设备40可以被提供为一服务器。如图4所示,该电子设备40可以包括:处理器401,其数量可以为一个或多个,以及储存器402,用于存储可由处理器401执行的计算机程序。储存器402中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块,储存器402还用于存储执行指令需要应用到的数据,例如文档各个图片的索引信息等。此外,处理器401可以被配置为执行该计算机程序,以执行上述对齐文档图片的方法。
另外,电子设备40还可以包括电源组件403和通信组件404,该电源组件403可以被配置为执行电子设备40的电源管理,该通信组件404可以被配置为实现电子设备40的通信,例如,有线或无线通信。此外,该电子设备40还可以包括输入/输出(I/O)接口405。电子设备40可以操作基于存储在储存器402的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
本公开实施例提供的所述计算机可读存储介质可以为上述包括程序指令的储存器402,上述程序指令可由电子设备40的处理器401执行以完成上述对齐文档图片的方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (12)

1.一种对齐文档图片的方法,其特征在于,所述方法包括:
分别生成第一文档和第二文档中的图片序列信息,其中,所述图片序列信息中的每一符号对应一图片,所述图片序列信息中各个符号的先后排序关系与对应的图片在文档中先后排序关系一致;
通过对所述第一文档和所述第二文档中的图片进行比较,确定所述第一文档和所述第二文档中的共通图片对,所述共通图片对是指所述第一文档和所述第二文档中相似度高于阈值的图片对;
将所述第一文档的图片序列信息和所述第二文档的图片序列信息中,对应所述共通图片对的符号对作为相同的符号,并根据最大公共子序列算法确定所述第一文档的图片序列信息和所述第二文档的图片序列信息中的最大公共子序列,其中,所述最大公共子序列是指所述第一文档的图片序列信息和所述第二文档的图片序列信息中具有相同符号序列的最长子序列;
将所述最大公共子序列中每一符号对应的图片对在所述第一文档和所述第二文档中进行对齐。
2.根据权利要求1所述的方法,其特征在于,所述分别生成第一文档和第二文档中的图片序列信息,包括:
根据所述第一文档中每一图片在页面中的坐标信息,以及图片所在页面的页码信息生成所述第一文档的图片序列信息;
根据所述第二文档中每一图片在页面中的坐标信息,以及图片所在页面的页码信息生成所述第二文档的图片序列信息。
3.根据权利要求1所述的方法,其特征在于,所述通过对所述第一文档和所述第二文档中的图片进行比较,确定所述第一文档和所述第二文档中的共通图片对,包括:
将所述第一文档中的每一图片,依次与所述第二文档中的所有图片进行图片比较,以确定所述第一文档中每一图片与所述第二文档中所有图片之间的相似度;
将相似度高于预设阈值的图片对作为所述共通图片对。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述将所述最大公共子序列中每一符号对应的图片对在所述第一文档和所述第二文档中进行对齐,包括:
将所述最大公共子序列中每一符号对应的图片对的索引信息进行关联。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
分别比较所述最大公共子序列与所述第一文档的图片序列化信息以及与所述第二文档的图片序列化信息的差异符号,以确定所述第二文档相对所述第一文档增加的图片和删除的图片。
6.一种对齐文档图片的装置,其特征在于,所述装置包括:
生成模块,用于分别生成第一文档和第二文档中的图片序列信息,其中,所述图片序列信息中的每一符号对应一图片,所述图片序列信息中各个符号的先后排序关系与对应的图片在文档中先后排序关系一致;
图片比较模块,用于通过对所述第一文档和所述第二文档中的图片进行比较,确定所述第一文档和所述第二文档中的共通图片对,所述共通图片对是指所述第一文档和所述第二文档中相似度高于阈值的图片对;
序列确定模块,用于将所述第一文档的图片序列信息和所述第二文档的图片序列信息中,对应所述共通图片对的符号对作为相同的符号,并根据最大公共子序列算法确定所述第一文档的图片序列信息和所述第二文档的图片序列信息中的最大公共子序列,其中,所述最大公共子序列是指所述第一文档的图片序列信息和所述第二文档的图片序列信息中具有相同符号序列的最长子序列;
对齐模块,用于将所述最大公共子序列中每一符号对应的图片对在所述第一文档和所述第二文档中进行对齐。
7.根据权利要求6所述的装置,其特征在于,所述生成模块用于:
根据所述第一文档中每一图片在页面中的坐标信息,以及图片所在页面的页码信息生成所述第一文档的图片序列信息;
根据所述第二文档中每一图片在页面中的坐标信息,以及图片所在页面的页码信息生成所述第二文档的图片序列信息。
8.根据权利要求6所述的装置,其特征在于,所述图片比较模块用于:
将所述第一文档中的每一图片,依次与所述第二文档中的所有图片进行图片比较,以确定所述第一文档中每一图片与所述第二文档中所有图片之间的相似度;将相似度高于预设阈值的图片对作为所述共通图片对。
9.根据权利要求6至8中任一项所述的装置,其特征在于,所述对齐模块用于:
将所述最大公共子序列中每一符号对应的图片对的索引信息进行关联。
10.根据权利要求6至8中任一项所述的装置,其特征在于,还包括:
增删确定模块,用于分别比较所述最大公共子序列与所述第一文档的图片序列化信息以及与所述第二文档的图片序列化信息的差异符号,以确定所述第二文档相对所述第一文档增加的图片和删除的图片。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。
12.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1至5中任一项所述方法的步骤。
CN201811308614.0A 2018-11-05 2018-11-05 对齐文档图片的方法,装置,存储介质和电子设备 Active CN109597913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811308614.0A CN109597913B (zh) 2018-11-05 2018-11-05 对齐文档图片的方法,装置,存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811308614.0A CN109597913B (zh) 2018-11-05 2018-11-05 对齐文档图片的方法,装置,存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN109597913A CN109597913A (zh) 2019-04-09
CN109597913B true CN109597913B (zh) 2021-01-29

Family

ID=65958455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811308614.0A Active CN109597913B (zh) 2018-11-05 2018-11-05 对齐文档图片的方法,装置,存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN109597913B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472205B (zh) * 2019-08-22 2023-06-06 北京明略软件系统有限公司 文件差异化的比对方法及装置、存储介质和电子装置
CN111104788B (zh) * 2019-12-05 2023-09-22 东软集团股份有限公司 文档差分内容的对齐方法、装置、存储介质、电子设备
CN112580308A (zh) * 2020-12-15 2021-03-30 北京百度网讯科技有限公司 文档比对方法、装置、电子设备及可读存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07262060A (ja) * 1994-03-18 1995-10-13 Hitachi Ltd 最長共通部分列摘出アルゴリズム高速化方式
US5465353A (en) * 1994-04-01 1995-11-07 Ricoh Company, Ltd. Image matching and retrieval by multi-access redundant hashing
US6904430B1 (en) * 2002-04-26 2005-06-07 Microsoft Corporation Method and system for efficiently identifying differences between large files
CN101221558A (zh) * 2008-01-22 2008-07-16 安徽科大讯飞信息科技股份有限公司 句子模板自动提取的方法
CN101826099B (zh) * 2010-02-04 2012-09-05 蓝盾信息安全技术股份有限公司 一种相似文档识别、文档扩散度确定的方法及系统
CN102682127B (zh) * 2012-05-16 2014-12-03 北京像素软件科技股份有限公司 一种数据版本的控制方法
CN102722556B (zh) * 2012-05-29 2014-10-22 清华大学 一种基于相似性度量的模型比对方法
CN103678645A (zh) * 2013-12-20 2014-03-26 中电长城网际系统应用有限公司 文档匹配方法和文档匹配装置
CN104536947A (zh) * 2014-12-10 2015-04-22 百度在线网络技术(北京)有限公司 版式文档的处理方法及装置
CN105589813B (zh) * 2015-07-02 2018-12-25 中国银联股份有限公司 一种电子文档版本变化跟踪方法
CN105956064B (zh) * 2016-04-28 2019-01-25 焦点科技股份有限公司 一种基于lcs的自定义元素顺序优化方法
CN106372040B (zh) * 2016-08-24 2019-03-12 长园深瑞继保自动化有限公司 智能变电站配置文件差异性比较系统
CN108268884B (zh) * 2016-12-31 2023-06-16 方正国际软件(北京)有限公司 一种文档对比方法及装置
CN108734110B (zh) * 2018-04-24 2022-08-09 达而观信息科技(上海)有限公司 基于最长公共子序列的文本段落识别对比方法及系统

Also Published As

Publication number Publication date
CN109597913A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN109597913B (zh) 对齐文档图片的方法,装置,存储介质和电子设备
US9824068B2 (en) Methods and apparatus for sorting data
EP3869403A2 (en) Image recognition method, apparatus, electronic device, storage medium and program product
CN107729935B (zh) 相似图片的识别方法和装置、服务器、存储介质
US20200183986A1 (en) Method and system for document similarity analysis
CN110147455B (zh) 一种人脸匹配检索装置及方法
US10268655B2 (en) Method, device, server and storage medium of searching a group based on social network
CN107315817B (zh) 电子图纸文本匹配方法、装置、存储介质和计算机设备
US9043275B2 (en) Data synchronization using string matching
JP2023014348A (ja) 生成方法、次元圧縮方法、表示方法および情報処理装置
US10210281B2 (en) Method and system for obtaining knowledge point implicit relationship
CN111191436A (zh) 版式文档的比对方法、装置、设备及计算机存储介质
CN111507405A (zh) 图片标注方法、装置、电子设备及计算机可读存储介质
CN111538672A (zh) 测试案例分层测试方法、计算机设备及计算机可读存储介质
CN106202423A (zh) 一种文件排序方法和设备
US20130159352A1 (en) Generating sketches sensitive to high-overlap estimation
CN108196921B (zh) 单据开发方法、装置、计算机设备和存储介质
CN110750268B (zh) 文件清理方法、装置、计算机可读存储介质及电子设备
US11574001B2 (en) Method and apparatus for generating unordered list, method for managing images and terminal device
CN111666278A (zh) 数据存储、检索方法、电子设备及存储介质
CN112836077B (zh) 特定人物检索方法、系统、设备及存储介质
CN113535722A (zh) 基于映射的dag溯源取样方法、系统、设备及存储介质
CN109684437B (zh) 用于文件比较的内容对齐方法、装置、存储介质和设备
US20120278352A1 (en) Computerized data set search method and apparatus
US9747260B2 (en) Information processing device and non-transitory computer readable medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant