CN112307737A - 一种基于动态规划技术的复杂文档比较方法 - Google Patents

一种基于动态规划技术的复杂文档比较方法 Download PDF

Info

Publication number
CN112307737A
CN112307737A CN202011036551.5A CN202011036551A CN112307737A CN 112307737 A CN112307737 A CN 112307737A CN 202011036551 A CN202011036551 A CN 202011036551A CN 112307737 A CN112307737 A CN 112307737A
Authority
CN
China
Prior art keywords
paragraph
marked
document
same
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011036551.5A
Other languages
English (en)
Inventor
崔海东
吕玉玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taishan Information Technology Co ltd
Original Assignee
Taishan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taishan Information Technology Co ltd filed Critical Taishan Information Technology Co ltd
Priority to CN202011036551.5A priority Critical patent/CN112307737A/zh
Publication of CN112307737A publication Critical patent/CN112307737A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明为一种基于动态规划技术的复杂文档比较方法,用于对比文档A及文档B,包括以下步骤:将要比较的两份文档按照区域分成若干份,在每个区域内部,按照区域进行分割,区域的分割根据段落层及元素层,并将相似的段落层进行元素层比较,并得出结果,将步骤3中的结果进行整理形成结果集,对包含有段落、页眉页脚、内嵌文本框等复杂结构的文档,以分区域、分层次的方式将文档进行拆分,按照区域进行对应;对应区域内部包含的文字、图形、图片等复杂元素,进行统一化处理,再结合动态规划算法进行比较,得出差异部分,实现高效的复杂文档比较。

Description

一种基于动态规划技术的复杂文档比较方法
技术领域
本发明涉及文档处理技术领域,具体为一种基于动态规划技术的复杂文档比较方法。
背景技术
现有的文档比较技术,是基于字符的全文比对,无法实现对文档中页眉、页脚等文档结构的处理;也无法兼容包含有图片、图形、文本框以及文本样式等复杂元素的处理;且在处理时,若文档内容较多时,对临时性存储空间的要求极大,速度较慢。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种解决文档中文本外的其他复杂元素的兼容性问题,使文档无需经过处理即可直接比较的基于动态规划技术的复杂文档比较方法。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种基于动态规划技术的复杂文档比较方法,用于对比文档A及文档B,包括以下步骤:
步骤1、将要比较的两份文档按照区域分成若干份,文档A的每个区域与文档B的对应区域进行比较。
步骤2、在每个区域内部,按照区域进行分割,区域的分割根据段落层及元素层,段落层拥有行距、字间距属性;段落层包含有若干文本、图片及文本框元素,每种元素拥有自己的属性,共同构成元素层。
步骤3、对段落层进行比较,并得出段落层的比较中文字相似度阀值,并将相似的段落层进行元素层比较,并得出结果。
步骤4、将步骤3中的结果进行整理形成结果集。
本发明改进有,所述步骤1中,文档A及文档B分为页眉、页脚、标题、正文部分。
本发明改进有,所述步骤3中的段落层的比较具体步骤如下:
步骤3-1、将文档A区域中含有的段落层编入段落链表A1,将文档B区域中含有的段落层全部编入段落链表A2;
步骤3-2、将A1和A2进行纯文本的最长子序列的获取,获取的比较算法使用获取相似度的方式,若相似度高于预先设定的相似度阈值,则认定为两段落为同一段落,
步骤3-3,同一段落中,N为当前元素在A1中的序号,M为当前元素在A2中的序号,将A1(0-N)和A2(0-M)的元素分别存入链表B1和B2,并进行相识度的比较,判定为相同段落的标记为SAME,其余部分标记为NORMAL;
步骤3-4,B1和B2即为以相似度阈值为基础的包含有文档A和文档B的最长子序列信息的结果集,标记为SAME的部分即段落层级上相同的部分,将B1与B2中,标记为SAME的对应元素,进行格式比较,得到格式差异G1。
本发明改进有,所述元素层的比较具体步骤如下:
步骤4-1,根据字词或字符为基础单位,将B1和B2中标记为SAME的部分取出,按照段落比较的结果一一对应,存入C[X][2]的数组;
步骤4-2,以0-X为变量循环处理该数组,将C[0][0]以字词/字符为元素,拆分得到链表C1;将C[0][1]以字词/字符为元素,拆分得到链表C2;拆分时如若遇到图片、文本框等其他元素,以标识符的形式记录到链表中;
步骤4-3,拆分完成后,将C1和C2进行纯文本的最长子序列的获取,比较算法中使用文本全等认定为相同的方式进行比较,若遇到特殊元素标识符,特殊元素与文本元素之间认定为不等,特殊元素之间则根据元素种类与属性进行比较;对于文本框等内部包含有文本的特殊元素,内部文本也按照规则拆分然后比较,比较完成后,得到标记有SAME和NORMAL的结果链表D1、D2,将D1与D2中,标记为SAME的对应元素,进行格式比较,得到格式差异G2。
本发明改进有,步骤4中结构整理具体如下:对B1、B2、D1、D2、G1、G2进行整理:将B1中标记为NORMAL的部分存入链表R,并标记为DELETE;B2中标记为NORMAL的部分存入R,标记为INSERT;B1和B2中标记为SAME的部分,结合G1,对段落的格式差异进行标记;D1中标记为NORMAL的部分存入R,标记为DELETE,D2中标记为NORMAL的部分存入R,标记为INSERT;D1和D2中标记为SAME的部分,结合G2,对元素的格式差异进行标记,得到的链表R。
(三)有益效果
与现有技术相比,本发明提供了一种基于动态规划技术的复杂文档比较方法,具备以下有益效果:
在适应性方面,传统的处理方式无法解决复杂结构多元素混杂排版的复杂文档的比较,只能将复杂结构和元素去除后,提取出文本部分进行比较,然后再还原。技术复杂且效率低下。本方法解决了复杂结构和多元素的适应性问题,简化了整个流程。
在性能方面,传统方式所需的时间、空间复杂度均为两文档字符数的乘积,对机器性能和存储空间有较高要求。本方法通过分层拆分的方式,将所需资源压缩到的最小区域内部的字符数乘积,提升了性能表现并缩减了空间占用。
附图说明
图1为本发明的方法流程图;
图2为本发明段落层比较流程图;
图3为本发明的结果找整理流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,一种基于动态规划技术的复杂文档比较方法,包括以下步骤:
第一步,将要比较的两份文档按照区域分成若干份,如页眉、页脚、标题、正文等部分。在比较时,文档1的每个区域只与文档2的对应区域进行比较。
第二步,在每个区域内部,按照区域进行分割,然后进行比较,下面以正文区域为例,详细描述这个过程。
正文包含若干段落,段落本身拥有行距、字间距等属性;段落包含有若干文本、图片、文本框等元素,每种元素也都拥有自己的属性。在比较时,由上至下分为:段落、元素两层,逐层进行比较,其他区域与正文区域类似,可以根据需要不同的段落层及元素层进行适应性修改,本发明并不做具体赘述。
首先比较段落层,流程如图2所示,如图1所示,将文档1正文的段落层全部编入段落链表A1,将文档2正文的段落层全部编入段落链表A2,将A1和A2进行纯文本的最长子序列的获取,在获取时,比较算法使用获取相似度的方式,若相似度高于预先设定的相似度阈值,则认定为两段落为同一段落。N为当前元素在A1中的序号,M为当前元素在A2中的序号,将A1(0-N)和A2(0-M)的元素分别存入链表B1和B2,判定为相同段落的标记为SAME,其余部分标记为NORMAL。比较完成后,B1和B2即为以相似度阈值为基础的包含有文档1和文档2的最长子序列信息的结果集,标记为SAME的部分即段落层级上我们认定两文档相同的部分。将B1与B2中,标记为SAME的对应元素,进行格式比较,得到格式差异G1。至此,段落层级的比较完成。
然后比较元素层。根据设定元素层可以字词为基础单位,也可以字符为基础单位。将B1和B2中标记为SAME的部分取出,按照段落比较的结果一一对应,存入C[X][2]的数组,如图3所示。以0-X为变量循环处理该数组,以Num=0时为例:将C[0][0]以字词(字符)为元素,拆分得到链表C1;将C[0][1]以字词(字符)为元素,拆分得到链表C2;拆分时如若遇到图片、文本框等其他元素,以标识符的形式记录到链表中。拆分完成后,将C1和C2进行纯文本的最长子序列的获取,比较算法中使用文本全等认定为相同的方式进行比较,若遇到特殊元素标识符,特殊元素与文本元素之间认定为不等,特殊元素之间则根据元素种类与属性进行比较;对于文本框等内部包含有文本的特殊元素,内部文本也按照规则拆分然后比较。比较完成后,得到标记有SAME和NORMAL的结果链表D1、D2。将D1与D2中,标记为SAME的对应元素,进行格式比较,得到格式差异G2。至此,元素层级比较完成。
第三步,整理结果集。
参照附图3,对B1、B2、D1、D2、G1、G2进行整理:将B1中标记为NORMAL的部分存入链表R,并标记为DELETE;B2中标记为NORMAL的部分存入R,标记为INSERT;B1和B2中标记为SAME的部分,结合G1,对段落的格式差异进行标记;D1中标记为NORMAL的部分存入R,标记为DELETE,D2中标记为NORMAL的部分存入R,标记为INSERT;D1和D2中标记为SAME的部分,结合G2,对元素的格式差异进行标记。得到的链表R,即为我们想要的结果集。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种基于动态规划技术的复杂文档比较方法,用于对比文档A及文档B,其特征在于,包括以下步骤:
步骤1、将要比较的两份文档按照区域分成若干份,文档A的每个区域与文档B的对应区域进行比较;
步骤2、在每个区域内部,按照区域进行分割,区域的分割根据段落层及元素层,段落层拥有行距、字间距属性;段落层包含有若干文本、图片及文本框元素,每种元素拥有自己的属性,共同构成元素层;
步骤3、对段落层进行比较,并得出段落层的比较中文字相似度阀值,并将相似的段落层进行元素层比较,并得出结果;
步骤4、将步骤3中的结果进行整理形成结果集。
2.根据权利要求1所述的一种基于动态规划技术的复杂文档比较方法,其特征在于,所述步骤1中,文档A及文档B分为页眉、页脚、标题、正文部分。
3.根据权利要求2所述的一种基于动态规划技术的复杂文档比较方法,其特征在于,所述步骤3中的段落层的比较具体步骤如下:
步骤3-1、将文档A区域中含有的段落层编入段落链表A1,将文档B区域中含有的段落层全部编入段落链表A2;
步骤3-2、将A1和A2进行纯文本的最长子序列的获取,获取的比较算法使用获取相似度的方式,若相似度高于预先设定的相似度阈值,则认定为两段落为同一段落;
步骤3-3,同一段落中,N为当前元素在A1中的序号,M为当前元素在A2中的序号,将A1(0-N)和A2(0-M)的元素分别存入链表B1和B2,并进行相识度的比较,判定为相同段落的标记为SAME,其余部分标记为NORMAL;
步骤3-4,B1和B2即为以相似度阈值为基础的包含有文档A和文档B的最长子序列信息的结果集,标记为SAME的部分即段落层级上相同的部分,将B1与B2中,标记为SAME的对应元素,进行格式比较,得到格式差异G1。
4.根据权利要求3所述的一种基于动态规划技术的复杂文档比较方法,其特征在于,所述元素层的比较具体步骤如下:
步骤4-1,根据字词或字符为基础单位,将B1和B2中标记为SAME的部分取出,按照段落比较的结果一一对应,存入C[X][2]的数组;
步骤4-2,以0-X为变量循环处理该数组,将C[0][0]以字词/字符为元素,拆分得到链表C1;将C[0][1]以字词/字符为元素,拆分得到链表C2;拆分时如若遇到图片、文本框等其他元素,以标识符的形式记录到链表中;
步骤4-3,拆分完成后,将C1和C2进行纯文本的最长子序列的获取,比较算法中使用文本全等认定为相同的方式进行比较,若遇到特殊元素标识符,特殊元素与文本元素之间认定为不等,特殊元素之间则根据元素种类与属性进行比较;对于文本框等内部包含有文本的特殊元素,内部文本也按照规则拆分然后比较,比较完成后,得到标记有SAME和NORMAL的结果链表D1、D2,将D1与D2中,标记为SAME的对应元素,进行格式比较,得到格式差异G2。
5.根据权利要求4所述的一种基于动态规划技术的复杂文档比较方法,其特征在于,步骤4中结构整理具体如下:对B1、B2、D1、D2、G1、G2进行整理:将B1中标记为NORMAL的部分存入链表R,并标记为DELETE;B2中标记为NORMAL的部分存入R,标记为INSERT;B1和B2中标记为SAME的部分,结合G1,对段落的格式差异进行标记;D1中标记为NORMAL的部分存入R,标记为DELETE,D2中标记为NORMAL的部分存入R,标记为INSERT;D1和D2中标记为SAME的部分,结合G2,对元素的格式差异进行标记,得到的链表R。
CN202011036551.5A 2020-09-27 2020-09-27 一种基于动态规划技术的复杂文档比较方法 Withdrawn CN112307737A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011036551.5A CN112307737A (zh) 2020-09-27 2020-09-27 一种基于动态规划技术的复杂文档比较方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011036551.5A CN112307737A (zh) 2020-09-27 2020-09-27 一种基于动态规划技术的复杂文档比较方法

Publications (1)

Publication Number Publication Date
CN112307737A true CN112307737A (zh) 2021-02-02

Family

ID=74488079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011036551.5A Withdrawn CN112307737A (zh) 2020-09-27 2020-09-27 一种基于动态规划技术的复杂文档比较方法

Country Status (1)

Country Link
CN (1) CN112307737A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128195A (zh) * 2021-04-23 2021-07-16 达而观信息科技(上海)有限公司 一种金融行业基于文档结构自动寻找局部差异点的方法和装置
CN113254598A (zh) * 2021-06-23 2021-08-13 中国银行股份有限公司 文档比对方法、装置、服务器、介质及产品
CN113468864A (zh) * 2021-06-09 2021-10-01 广西电网有限责任公司 一种长文档的快速比对方法、装置和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128195A (zh) * 2021-04-23 2021-07-16 达而观信息科技(上海)有限公司 一种金融行业基于文档结构自动寻找局部差异点的方法和装置
CN113468864A (zh) * 2021-06-09 2021-10-01 广西电网有限责任公司 一种长文档的快速比对方法、装置和存储介质
CN113254598A (zh) * 2021-06-23 2021-08-13 中国银行股份有限公司 文档比对方法、装置、服务器、介质及产品
CN113254598B (zh) * 2021-06-23 2024-02-20 中国银行股份有限公司 文档比对方法、装置、服务器、介质及产品

Similar Documents

Publication Publication Date Title
CN112307737A (zh) 一种基于动态规划技术的复杂文档比较方法
KR101394723B1 (ko) 문서 내의 목록들의 재구성
CN104679902B (zh) 一种结合跨媒体融合的信息摘要提取方法
US7245762B2 (en) Color image processing method
CN101770446B (zh) 一种版式文件中表格识别方法及系统
CN111178079B (zh) 一种三元组抽取方法及装置
US20100198827A1 (en) Method for finding text reading order in a document
CN105930159A (zh) 一种基于图像的界面代码生成的方法及系统
CN101388042B (zh) 一种建立文件特征库索引的方法及装置
CN103885723B (zh) 数字证书存储方法、系统以及数字证书读取方法和系统
US10572528B2 (en) System and method for automatic detection and clustering of articles using multimedia information
CN103377237B (zh) 高维数据的近邻搜索方法以及快速近似图像搜索方法
US7046847B2 (en) Document processing method, system and medium
CN106250552A (zh) 在搜索引擎结果页面上聚集web页面
CN109800408A (zh) 词典数据存储方法和装置、基于词典的分词方法和装置
CN110941616A (zh) 出版物中关联数据生成方法、装置、设备及存储介质
JP4314853B2 (ja) 文書分類装置および文書分類プログラム
CN111741331B (zh) 一种视频片段处理方法、装置、存储介质及设备
JPWO2009087999A1 (ja) 目次構造特定装置
CN1117335C (zh) 数据库的管理方法
CN115203474A (zh) 一种数据库自动分类提取技术
CN111125024B (zh) 一种分布式系统文件的删除方法、装置、设备及存储介质
Cesarini et al. A two level knowledge approach for understanding documents of a multi-class domain
CN108268659B (zh) 一种相同新闻信息的归类方法及系统
CN117787258A (zh) 文档信息抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210202