CN108734110A - 基于最长公共子序列的文本段落识别对比方法及系统 - Google Patents

基于最长公共子序列的文本段落识别对比方法及系统 Download PDF

Info

Publication number
CN108734110A
CN108734110A CN201810374933.5A CN201810374933A CN108734110A CN 108734110 A CN108734110 A CN 108734110A CN 201810374933 A CN201810374933 A CN 201810374933A CN 108734110 A CN108734110 A CN 108734110A
Authority
CN
China
Prior art keywords
text
string
paragraph
sequence
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810374933.5A
Other languages
English (en)
Other versions
CN108734110B (zh
Inventor
李瀚清
高翔
纪达麒
陈运文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daguan Data Co ltd
Original Assignee
Information Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Technology (shanghai) Co Ltd filed Critical Information Technology (shanghai) Co Ltd
Priority to CN201810374933.5A priority Critical patent/CN108734110B/zh
Publication of CN108734110A publication Critical patent/CN108734110A/zh
Application granted granted Critical
Publication of CN108734110B publication Critical patent/CN108734110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于最长公共子序列的文本段落识别对比方法及系统。该文本段落识别对比方法包括:获取第一文本字符串和第二文本字符串;对所述第一文本字符串和所述第二文本字符串进行段落识别;对所述第一文本字符串和所述第二文本字符串进行段落顺序调整;将段落顺序调整后的所述第一文本字符串和所述第二文本字符串进行对比,获得差异项。该文本段落识别对比系统包括:前端、转换模块、段落识别模块、以及对比模块。本申请解决了解决了现有的文档对比工具无法对不能获取段落信息的文档进行对比、以及无法对段落对调情况进行很好的处理的问题。

Description

基于最长公共子序列的文本段落识别对比方法及系统
技术领域
本申请涉及文本处理领域,具体而言,涉及一种基于最长公共子序列的文本段落识别对比方法及系统。
背景技术
在当代社会,许多公司企业内部都有大量的文档,如合同,说明书,标书等等,这类文档之间相似度较高,只有少部分差异,常常会有对文档进行比对的需求产生。例如,对两份合同进行比对,找出二者差异,可以很快的找到合同的重点和风险等,可以说,文档比对对众多企业有着很大的实用价值。以往常常通过人工比对的方式,效率低下,且容易出错,由此产生了文档对比工具。
目前的文档对比工具,例如Word自带的比较功能,是以整个文档为对象,按照顺序,对整个文档进行比对,但是若两份文档,只是两个段落对调,这种比对工具会将其视为不一致,整段进行提示。例如,文档A的段落顺序为段落1、段落2、段落3,文档B的段落顺序为段落1、段落3、段落2,比对结果一般为文本A比文本B多了文档A中间的段落2,少了文档B后面的段落2,是将这两段落笼统的标记为差异,无法对比两个文档中的段落2的差异。
另一方面,现在企业中大量的文档是以PDF格式存储的,但是由于PDF格式的文档无法获得段落后面的换行信息,因此无法确定这种格式文档的段落信息,而现有的文档对比工具无法对不能获取段落信息的文档进行对比。
针对上述在文档对比中出现的问题,发明人提出了一种解决方案。
发明内容
本申请的主要目的在于提供一种文本段落识别对比方法,以解决现有的文档对比工具无法对不能获取段落信息的文档进行对比的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基于最长公共子序列的文本段落识别对比方法。
根据本申请的基于最长公共子序列的文本段落识别对比方法包括:获取第一文本字符串和第二文本字符串;对所述第一文本字符串和所述第二文本字符串进行段落识别,确定出所述第一文本字符串和所述第二文本字符串的差异段落;根据所述差异段落对所述第一文本字符串和所述第二文本字符串进行段落顺序调整;将段落顺序调整后的所述第一文本字符串和段落顺序调整后所述第二文本字符串进行对比,获得差异项。
进一步的,所述对所述第一文本字符串和所述第二文本字符串进行段落识别,确定出所述第一文本字符串和所述第二文本字符串的差异段落,包括:计算出所述第一文本字符串和所述第二文本字符串的最长公共子序列;获取所述最长公共子序列在所述第一文本字符串中的第一下标列表以及所述最长公共子序列在所述第二文本字符串中的第二下标列表;根据所述第一下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列。
进一步的,所述根据所述第一下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列,包括:对所述第一下标列表进行平滑处理,获得第一平滑下标列表,以及对所述第二下标列表进行平滑处理,获得第二平滑下标列表;根据所述第一平滑下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二平滑下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列。
进一步的,所述根据所述差异段落对所述第一文本字符串和所述第二文本字符串进行段落顺序调整,包括:获取所述第一文本字符串的第一差异段落序列以及所述第二文本字符串的第二差异段落序列;通过段落相似度匹配调整所述第一差异段落序列和所述第二差异段落序列的段落顺序;根据调整段落顺序后的所述第一差异段落序列对所述第一文本字符串进行段落顺序调整,以及根据调整段落顺序后的所述第二差异段落序列对所述第二文本字符串进行段落顺序调整。
进一步的,所述基于最长公共子序列的文本段落识别对比方法包括:获取第一文档和第二文档;对所述第一文档和所述第二文档进行字串符提取,获取所述第一文档的第一文本字符串以及所述第二文档的第二文本字符串。
进一步的,所述基于最长公共子序列的文本段落识别对比方法包括:将所述差异项标识在所述第一文档和/或所述第二文档中。
为了实现上述目的,根据本申请的另一方面,提供了一种基于最长公共子序列的文本段落对比系统。
根据本申请的基于最长公共子序列的文本段落对比系统包括:
前端,用于接收第一文档和第二文档以及显示所述第一文档和所述第二文档的对比结果;
转换模块,用于对所述第一文档和所述第二文档进行字串符提取,获取所述第一文档的第一文本字符串以及所述第二文档的第二文本字符串;
段落识别模块,用于识别所述第一文本字符串和所述第二文本字符串的差异段落,并根据所述差异段落调整所述第一文本字符串和所述第二文本字符串的段落顺序;
对比模块,用于将调整段落顺序后的所述第一文本字符串和第二文本字符串进行对比,获得差异项,并将所述差异项发送到所述前端。
进一步的,所述段落识别模块包括:
计算模块,用于计算出所述第一文本字符串和所述第二文本字符串的最长公共子序列,并获取所述最长公共子序列在所述第一文本字符串中的第一下标列表以及所述最长公共子序列在所述第二文本字符串中的第二下标列表;
数据处理模块,用于对所述第一下标列表进行平滑处理,获得第一平滑下标列表,以及对所述第二下标列表进行平滑处理,获得第二平滑下标列表;
文本分割模块,用于根据所述第一平滑下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二平滑下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列;
段落匹配模块,用于通过段落相似度匹配调整所述第一差异段落序列和所述第二差异段落序列的段落顺序;
文本调整模块,用于根据调整段落顺序后的所述第一差异段落序列对所述第一文本字符串进行段落顺序调整,以及根据调整段落顺序后的所述第二差异段落序列对所述第二文本字符串进行段落顺序调整。
根据本申请的另一方面,提供了一种计算机程序产品,当所述计算机程序产品被计算机设备执行时实现所述基于最长公共子序列的文本段落识别对比方法。
根据本申请的另一方面,提供了一种计算机设备,包括存储器、处理器及储存在储存器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现所述基于最长公共子序列的文本段落识别对比方法。
在本申请实施例中,采用对无法获取段落信息的文档的文本字符串进行段落识别,识别出文档的差异段落,进而通过差异段落对文本进行调序对比,得到文本差异项,达到了对无法获取段落信息的文档进行对比的目的,进而解决了现有的文档对比工具无法对不能获取段落信息的文档进行对比的问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是第一实施例文本段落识别对比方法流程示意图;
图2是第二实施例文本段落识别对比方法流程示意图;
图3是第三实施例文本段落识别对比方法流程示意图;
图4是第四实施例文本段落识别对比方法流程示意图;
图5是第一实施例文本段落识别对比系统结构示意图;以及
图6是第二实施例文本段落识别对比系统结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,基于本申请的一方面提供了一种基于最长公共子序列的文本段落识别对比方法,该方法包括步骤S101至步骤S104。
步骤S101,获取第一文本字符串和第二文本字符串。在本步骤中,获取无法识别段落信息的PDF文档的文本字符串,这里文本字符串为不带换行的一整行文本。
步骤S102,对所述第一文本字符串和所述第二文本字符串进行段落识别,确定出所述第一文本字符串和所述第二文本字符串的差异段落。在本步骤中,将两个待比对的文本字符串进行对比、识别,确定这两个文本字符串的相同段落和差异段落。
步骤S103,根据所述差异段落对所述第一文本字符串和所述第二文本字符串进行段落顺序调整。在本步骤中,根据两个文本字符串的相同段落和差异段落,对两个文本字符串重新段落排序,使两个文本字符串的相同段落之间和差异段落之间相互对应,在本申请的一可选实施例中,将两个文本字符串中的相同段落提取出来置于文本前部,将差异段落提取出来置于文本后部。
步骤S104,将段落顺序调整后的所述第一文本字符串和段落顺序调整后所述第二文本字符串进行对比,获得差异项。在本步骤中,将重新排序后的两个文本字符串进行文本对比,确定出每一段的差异文字,进而将差异文字标识在原文档中,展示给用户。
如图2所示,所述步骤S102,对所述第一文本字符串和所述第二文本字符串进行段落识别,确定出所述第一文本字符串和所述第二文本字符串的差异段落,具体包括步骤S201至步骤S204。
步骤S201,计算出所述第一文本字符串和所述第二文本字符串的最长公共子序列,在本步骤中,最长公共子序列为两条字符串的最长相同子序列,例如ABCDEF和ABDFG的最长公共子序列为ABDF。
步骤S202,获取所述最长公共子序列在所述第一文本字符串中的第一下标列表以及所述最长公共子序列在所述第二文本字符串中的第二下标列表,在本步骤中,下标列表储存了最长公共子序列中每个字在原文本中的位置。
步骤S203,对所述第一下标列表进行平滑处理,获得第一平滑下标列表,以及对所述第二下标列表进行平滑处理,获得第二平滑下标列表。在本步骤中,对步骤S202获得的最长公共子序列下标列表进行平滑处理,主要在两方面:去除相对离散的下标,以及填充个别缺失的下标。具体方法为首先设定一个阈值,即设定一个段落的最短长度,例如,下标列表[0,1,2,3,5,6,10,16,17,18,19,20],当阈值设定为2时,其中10为离散点,需要被去除,4为缺失点,需要填充,平滑后的下标列表为[0,1,2,3,4,5,6,16,17,18,19,20]。
这里最长公共子序列的下标列表出现离散下标以及缺失下标的原因在于,例如,如果两段文字中只有少数几个字或词不相同,这几个不相同的字或词在最长公共子序列的下标列表中就表现为缺失下标;而当两段文字的内容基本完全不相同,只有少数词组相同,这些相同的词组就造成了最长公共子序列的下标列表中出现的离散下标,而这些缺失下标和离散下标对后续的段落识别会产生影响,因此在本步骤中需要对下标列表进行平滑处理。
步骤S204,根据所述第一平滑下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二平滑下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列,在本步骤中,通过最长公共子序列对两个文本字符串进行分割,将每个文本字符串分割成最长公共子序列部分,即相同段落,以及提取出最长公共子序列部分留下的差异部分,即差异段落。
如图3所示,所述步骤S103,根据所述差异段落对所述第一文本字符串和所述第二文本字符串进行段落顺序调整,具体包括:步骤S301至步骤S303。
步骤S301,获取所述第一文本字符串的第一差异段落序列以及所述第二文本字符串的第二差异段落序列。
步骤S302,通过段落相似度匹配调整所述第一差异段落序列和所述第二差异段落序列的段落顺序,在本步骤中,将所述第一差异段落序列和所述第二差异段落序列中的所有差异段落两两进行对比,通过计算两者的相似度,判断是否为同一段落,并将其顺序调整一致。
步骤S303,根据调整段落顺序后的所述第一差异段落序列对所述第一文本字符串进行段落顺序调整,以及根据调整段落顺序后的所述第二差异段落序列对所述第二文本字符串进行段落顺序调整,在本步骤中,根据调整段落顺序后的第一差异段落序列和第二差异段落序列,将两文本字符串中的被判断为同一段落的差异段落的位置调整为一致,方便后续对比,在本申请的一可选实施例中将被判断为同一段落的差异段落一一对应且置于差异段落序列的前端,而没有找到匹配段落的差异段落则置于差异段落序列的后端。
如图4所示,本申请的基于最长公共子序列的文本段落识别对比方法,还包括步骤S401至步骤S402。
步骤S401,获取第一文档和第二文档。在本步骤中,接收用户通过前端输入的待比对的第一文档和第二文档。
步骤S402,对所述第一文档和所述第二文档进行字串符提取,获取所述第一文档的第一文本字符串以及所述第二文档的第二文本字符串。在本步骤中,分别提取出无法识别段落信息的第一文档和第二文档的文本字符串,用于进一步处理。
本申请的基于最长公共子序列的文本段落识别对比方法还包括:将所述差异项标识在所述第一文档和/或所述第二文档中。本步骤用于在识别出两个文本字符串的差异项后,将差异项在所述第一文档和/或所述第二文档中标识出来,展示给用户。
从以上的描述中,可以看出,本发明实现了如下技术效果:
1.解决了现有的文档对比工具无法对不能获取段落信息的文档进行对比的问题。
2.能够很好的对文本中对调的段落进行处理。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例,还提供了一种用于实施上述基于最长公共子序列的文本段落对比方法的文本段落对比系统,如图5所示,该系统包括:前端1、转换模块2、段落识别模块3、以及对比模块4,其中:
所述前端1,用于接收第一文档和第二文档以及显示所述第一文档和所述第二文档的对比结果;
所述转换模块2,用于对所述第一文档和所述第二文档进行字串符提取,获取所述第一文档的第一文本字符串以及所述第二文档的第二文本字符串;
所述段落识别模块3,用于识别所述第一文本字符串和所述第二文本字符串的差异段落,并根据所述差异段落调整所述第一文本字符串和所述第二文本字符串的段落顺序;
所述对比模块4,用于将调整段落顺序后的所述第一文本字符串和第二文本字符串进行对比,获得差异项,并将所述差异项发送到所述前端1。
如图6所示,所述段落识别模块3包括:计算模块301、数据处理模块302、文本分割模块303、段落匹配模块304、以及文本调整模块305,其中:
所述计算模块301,用于计算出所述第一文本字符串和所述第二文本字符串的最长公共子序列,并获取所述最长公共子序列在所述第一文本字符串中的第一下标列表以及所述最长公共子序列在所述第二文本字符串中的第二下标列表;
所述数据处理模块302,用于对所述第一下标列表进行平滑处理,获得第一平滑下标列表,以及对所述第二下标列表进行平滑处理,获得第二平滑下标列表;
所述文本分割模块303,用于根据所述第一平滑下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二平滑下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列;
所述段落匹配模块304,用于通过段落相似度匹配调整所述第一差异段落序列和所述第二差异段落序列的段落顺序;
所述文本调整模块305,用于根据调整段落顺序后的所述第一差异段落序列对所述第一文本字符串进行段落顺序调整,以及根据调整段落顺序后的所述第二差异段落序列对所述第二文本字符串进行段落顺序调整。
基于本申请的另一方面,提供了一种计算机程序产品,当所述计算机程序产品被计算机设备执行时实现上述基于最长公共子序列的文本段落对比方法。
基于本申请的另一方面,提供了一种计算机设备,包括存储器、处理器及储存在储存器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述基于最长公共子序列的文本段落对比方法。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于最长公共子序列的文本段落识别对比方法,其特征在于,包括:
获取第一文本字符串和第二文本字符串;
对所述第一文本字符串和所述第二文本字符串进行段落识别,确定出所述第一文本字符串和所述第二文本字符串的差异段落;
根据所述差异段落对所述第一文本字符串和所述第二文本字符串进行段落顺序调整;
将段落顺序调整后的所述第一文本字符串和段落顺序调整后所述第二文本字符串进行对比,获得差异项。
2.根据权利要求1所述的基于最长公共子序列的文本段落识别对比方法,其特征在于,所述对所述第一文本字符串和所述第二文本字符串进行段落识别,确定出所述第一文本字符串和所述第二文本字符串的差异段落,包括:
计算出所述第一文本字符串和所述第二文本字符串的最长公共子序列;
获取所述最长公共子序列在所述第一文本字符串中的第一下标列表以及所述最长公共子序列在所述第二文本字符串中的第二下标列表;
根据所述第一下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列。
3.根据权利要求2所述的基于最长公共子序列的文本段落识别对比方法,其特征在于,所述根据所述第一下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列,包括:
对所述第一下标列表进行平滑处理,获得第一平滑下标列表,以及对所述第二下标列表进行平滑处理,获得第二平滑下标列表;
根据所述第一平滑下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二平滑下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列。
4.根据权利要求1所述的基于最长公共子序列的文本段落识别对比方法,其特征在于,所述根据所述差异段落对所述第一文本字符串和所述第二文本字符串进行段落顺序调整,包括:
获取所述第一文本字符串的第一差异段落序列以及所述第二文本字符串的第二差异段落序列;
通过段落相似度匹配调整所述第一差异段落序列和所述第二差异段落序列的段落顺序;
根据调整段落顺序后的所述第一差异段落序列对所述第一文本字符串进行段落顺序调整,以及根据调整段落顺序后的所述第二差异段落序列对所述第二文本字符串进行段落顺序调整。
5.根据权利要求1所述的基于最长公共子序列的文本段落识别对比方法,其特征在于,所述基于最长公共子序列的文本段落识别对比方法包括:
获取第一文档和第二文档;
对所述第一文档和所述第二文档进行字串符提取,获取所述第一文档的第一文本字符串以及所述第二文档的第二文本字符串。
6.根据权利要求5所述的基于最长公共子序列的文本段落识别对比方法,其特征在于,所述基于最长公共子序列的文本段落识别对比方法包括:
将所述差异项标识在所述第一文档和/或所述第二文档中。
7.一种基于最长公共子序列的文本段落对比系统,其特征在于,包括:
前端,用于接收第一文档和第二文档以及显示所述第一文档和所述第二文档的对比结果;
转换模块,用于对所述第一文档和所述第二文档进行字串符提取,获取所述第一文档的第一文本字符串以及所述第二文档的第二文本字符串;
段落识别模块,用于识别所述第一文本字符串和所述第二文本字符串的差异段落,并根据所述差异段落调整所述第一文本字符串和所述第二文本字符串的段落顺序;
对比模块,用于将调整段落顺序后的所述第一文本字符串和第二文本字符串进行对比,获得差异项,并将所述差异项发送到所述前端。
8.根据权利要求7所述的基于最长公共子序列的文本段落对比系统,其特征在于,所述段落识别模块包括:
计算模块,用于计算出所述第一文本字符串和所述第二文本字符串的最长公共子序列,并获取所述最长公共子序列在所述第一文本字符串中的第一下标列表以及所述最长公共子序列在所述第二文本字符串中的第二下标列表;
数据处理模块,用于对所述第一下标列表进行平滑处理,获得第一平滑下标列表,以及对所述第二下标列表进行平滑处理,获得第二平滑下标列表;
文本分割模块,用于根据所述第一平滑下标列表对所述第一文本字符串进行分割,获得所述第一文本字符串的第一差异段落序列,以及根据所述第二平滑下标列表对所述第二文本字符串进行分割,获得所述第二文本字符串的第二差异段落序列;
段落匹配模块,用于通过段落相似度匹配调整所述第一差异段落序列和所述第二差异段落序列的段落顺序;
文本调整模块,用于根据调整段落顺序后的所述第一差异段落序列对所述第一文本字符串进行段落顺序调整,以及根据调整段落顺序后的所述第二差异段落序列对所述第二文本字符串进行段落顺序调整。
9.一种计算机程序产品,当所述计算机程序产品被计算机设备执行时实现如权利要求1至6中任一项所述的方法。
10.一种计算机设备,包括存储器、处理器及储存在储存器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的方法。
CN201810374933.5A 2018-04-24 2018-04-24 基于最长公共子序列的文本段落识别对比方法及系统 Active CN108734110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810374933.5A CN108734110B (zh) 2018-04-24 2018-04-24 基于最长公共子序列的文本段落识别对比方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810374933.5A CN108734110B (zh) 2018-04-24 2018-04-24 基于最长公共子序列的文本段落识别对比方法及系统

Publications (2)

Publication Number Publication Date
CN108734110A true CN108734110A (zh) 2018-11-02
CN108734110B CN108734110B (zh) 2022-08-09

Family

ID=63939767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810374933.5A Active CN108734110B (zh) 2018-04-24 2018-04-24 基于最长公共子序列的文本段落识别对比方法及系统

Country Status (1)

Country Link
CN (1) CN108734110B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597913A (zh) * 2018-11-05 2019-04-09 东软集团股份有限公司 对齐文档图片的方法,装置,存储介质和电子设备
CN109684610A (zh) * 2018-11-30 2019-04-26 东软集团股份有限公司 文本分块方法,装置,存储介质及电子设备
CN109740124A (zh) * 2018-12-25 2019-05-10 东软集团股份有限公司 文档比较的差异输出方法、装置、存储介质及电子设备
CN109815452A (zh) * 2018-12-25 2019-05-28 东软集团股份有限公司 文本比较方法、装置、存储介质及电子设备
CN109815446A (zh) * 2018-12-28 2019-05-28 东软集团股份有限公司 页边界处理方法、装置、存储介质和电子设备
CN110443269A (zh) * 2019-06-17 2019-11-12 平安信托有限责任公司 一种文档比对方法及装置
CN112149401A (zh) * 2020-08-10 2020-12-29 江苏群杰物联科技有限公司 一种基于ocr的文档对比识别方法和系统
CN112149402A (zh) * 2020-09-23 2020-12-29 创新奇智(青岛)科技有限公司 文档对比方法、装置、电子设备和计算机可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060112264A1 (en) * 2004-11-24 2006-05-25 International Business Machines Corporation Method and Computer Program Product for Finding the Longest Common Subsequences Between Files with Applications to Differential Compression
CN101763343A (zh) * 2008-12-23 2010-06-30 上海晨鸟信息科技有限公司 一种支持格式比对和剽窃检查的文档编辑器原理与方法
CN101996631A (zh) * 2009-08-28 2011-03-30 国际商业机器公司 用于对齐文本的方法和装置
CN102096660A (zh) * 2009-12-15 2011-06-15 北大方正集团有限公司 一种文档并行处理方法及系统
CN103136281A (zh) * 2011-12-05 2013-06-05 英顺源(上海)科技有限公司 网页搜寻结果显示系统及其方法
CN103324926A (zh) * 2012-03-06 2013-09-25 国际商业机器公司 用于文档校对的信息处理器和方法
CN104021343A (zh) * 2014-05-06 2014-09-03 南京大学 一种基于堆访问模式的恶意程序监控方法和系统
CN104699785A (zh) * 2015-03-10 2015-06-10 中国石油大学(华东) 一种论文相似度检测方法
CN105446962A (zh) * 2015-12-30 2016-03-30 武汉传神信息技术有限公司 原文和译文的对齐方法和装置
CN107766328A (zh) * 2017-10-24 2018-03-06 平安科技(深圳)有限公司 结构化文本的文本信息提取方法、存储介质和服务器

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060112264A1 (en) * 2004-11-24 2006-05-25 International Business Machines Corporation Method and Computer Program Product for Finding the Longest Common Subsequences Between Files with Applications to Differential Compression
CN101763343A (zh) * 2008-12-23 2010-06-30 上海晨鸟信息科技有限公司 一种支持格式比对和剽窃检查的文档编辑器原理与方法
CN101996631A (zh) * 2009-08-28 2011-03-30 国际商业机器公司 用于对齐文本的方法和装置
CN102096660A (zh) * 2009-12-15 2011-06-15 北大方正集团有限公司 一种文档并行处理方法及系统
CN103136281A (zh) * 2011-12-05 2013-06-05 英顺源(上海)科技有限公司 网页搜寻结果显示系统及其方法
CN103324926A (zh) * 2012-03-06 2013-09-25 国际商业机器公司 用于文档校对的信息处理器和方法
CN104021343A (zh) * 2014-05-06 2014-09-03 南京大学 一种基于堆访问模式的恶意程序监控方法和系统
CN104699785A (zh) * 2015-03-10 2015-06-10 中国石油大学(华东) 一种论文相似度检测方法
CN105446962A (zh) * 2015-12-30 2016-03-30 武汉传神信息技术有限公司 原文和译文的对齐方法和装置
CN107766328A (zh) * 2017-10-24 2018-03-06 平安科技(深圳)有限公司 结构化文本的文本信息提取方法、存储介质和服务器

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DARYA FROLOVA 等: "Most Probable Longest Common Subsequence for Recognition of Gesture Character Input", 《IEEE TRANSACTIONS ON CYBERNETICS》 *
PAOLA BONIZZONI 等: "Experimenting an approximation algorithm for the LCS", 《DISCRETE APPLIED MATHEMATICS》 *
王永新 等: "一种高效LCS算法", 《南阳理工学院学报》 *
禹继波 等: "基于图型建模的XML信息检索研究", 《中国电子学会第十六届信息论学术年会论文集》 *
龙舜: "用信息检索和运筹学等技术增强作业反抄袭", 《2010 THIRD INTERNATIONAL CONFERENCE ON EDUCATION TECHNOLOGY AND TRAINING (ETT)》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597913A (zh) * 2018-11-05 2019-04-09 东软集团股份有限公司 对齐文档图片的方法,装置,存储介质和电子设备
CN109684610A (zh) * 2018-11-30 2019-04-26 东软集团股份有限公司 文本分块方法,装置,存储介质及电子设备
CN109684610B (zh) * 2018-11-30 2023-06-16 东软集团股份有限公司 文本分块方法,装置,存储介质及电子设备
CN109815452B (zh) * 2018-12-25 2023-04-07 东软集团股份有限公司 文本比较方法、装置、存储介质及电子设备
CN109740124A (zh) * 2018-12-25 2019-05-10 东软集团股份有限公司 文档比较的差异输出方法、装置、存储介质及电子设备
CN109815452A (zh) * 2018-12-25 2019-05-28 东软集团股份有限公司 文本比较方法、装置、存储介质及电子设备
CN109815446B (zh) * 2018-12-28 2023-04-07 东软集团股份有限公司 页边界处理方法、装置、存储介质和电子设备
CN109815446A (zh) * 2018-12-28 2019-05-28 东软集团股份有限公司 页边界处理方法、装置、存储介质和电子设备
CN110443269A (zh) * 2019-06-17 2019-11-12 平安信托有限责任公司 一种文档比对方法及装置
CN112149401A (zh) * 2020-08-10 2020-12-29 江苏群杰物联科技有限公司 一种基于ocr的文档对比识别方法和系统
CN112149401B (zh) * 2020-08-10 2024-03-15 江苏群杰物联科技有限公司 一种基于ocr的文档对比识别方法和系统
CN112149402A (zh) * 2020-09-23 2020-12-29 创新奇智(青岛)科技有限公司 文档对比方法、装置、电子设备和计算机可读存储介质
CN112149402B (zh) * 2020-09-23 2023-05-23 创新奇智(青岛)科技有限公司 文档对比方法、装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN108734110B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN108734110A (zh) 基于最长公共子序列的文本段落识别对比方法及系统
US10796244B2 (en) Method and apparatus for labeling training samples
CN101950284B (zh) 中文分词方法及系统
US8601361B2 (en) Automatically populating and/or generating tables using data extracted from files
CN102722709B (zh) 一种垃圾图片识别方法和装置
CN108768654B (zh) 基于声纹识别的身份验证方法、服务器及存储介质
CN108268884B (zh) 一种文档对比方法及装置
CN102750534B (zh) 一种字符切分的方法和装置
CN107644070A (zh) 数据索引方法、数据查询方法及电子设备
CN105630767A (zh) 一种文本相似性的比较方法以及装置
CN105045927A (zh) 建设工程工料机数据自动编码方法及系统
CN113657395A (zh) 文本识别方法、视觉特征提取模型的训练方法及装置
CN102521713B (zh) 数据处理装置和数据处理方法
US20130322759A1 (en) Method and device for identifying font
CN102968610B (zh) 收据图像处理方法和设备
US10210281B2 (en) Method and system for obtaining knowledge point implicit relationship
CN109753976B (zh) 语料标注装置和方法
CN113283233B (zh) 文本纠错方法、装置、电子设备和存储介质
US20140172897A1 (en) Device, method, and program for processing data with tree structure
CN104268545A (zh) 一种电子档版式文件中的表格区域识别与内容栅格化方法
CN104462322B (zh) 字符串比对方法和装置
CN104090865A (zh) 文本相似度计算方法及装置
CN113360685A (zh) 笔记内容处理方法、装置、设备和介质
CN103136166B (zh) 字体确定方法和设备
CN104866631A (zh) 咨询问题聚合的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 501, 502, 503, No. 66 Boxia Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai, March 2012

Patentee after: Daguan Data Co.,Ltd.

Address before: Room 515, building Y1, No. 112, liangxiu Road, Pudong New Area, Shanghai 201203

Patentee before: DATAGRAND INFORMATION TECHNOLOGY (SHANGHAI) Co.,Ltd.