CN113468864A - 一种长文档的快速比对方法、装置和存储介质 - Google Patents

一种长文档的快速比对方法、装置和存储介质 Download PDF

Info

Publication number
CN113468864A
CN113468864A CN202110644806.4A CN202110644806A CN113468864A CN 113468864 A CN113468864 A CN 113468864A CN 202110644806 A CN202110644806 A CN 202110644806A CN 113468864 A CN113468864 A CN 113468864A
Authority
CN
China
Prior art keywords
documents
groups
identification
mapping
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110644806.4A
Other languages
English (en)
Inventor
董贇
张希翔
梁仲峰
黄琦
蒙琦
郭传想
高翔
岳小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi Power Grid Co Ltd
Original Assignee
Guangxi Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Power Grid Co Ltd filed Critical Guangxi Power Grid Co Ltd
Priority to CN202110644806.4A priority Critical patent/CN113468864A/zh
Publication of CN113468864A publication Critical patent/CN113468864A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种长文档的快速比对方法,针对两份需要对比的长文档,所述比对方法包括如下步骤:s1分别解析两份文档形成树状文档结构;s2根据树状文档结构,将两个文档拆分为两组内容块;s3在两组内容块之间建立映射关系,形成多个映射对;s4并行多个任务,每个任务用来针对一个映射对的两个内容块逐字进行比对找到差异点。本发明的有益效果提高长文档比对的速度。

Description

一种长文档的快速比对方法、装置和存储介质
技术领域
本发明属于文档对比领域,具体涉及一种长文档的快速比对方法、装置和存储介质。
背景技术
在日常办公活动中,经常需要对不同版本的文档进行内容比对,例如,合同、论文、模板等可能会具有多种版本的文档,传统的比对算法虽然能够相较人工比对提高效率,但是其基于全文字符组成的字符串逐字比对的方式会随着字符串长度的增加呈指数增长。目前传统文档比对在较大样本上存在比对耗时过长的问题,进而影响工作效率。
发明内容
针对现有技术中存在的问题,本发明提供一种长文档的快速比对方法、装置和存储介质,本发明的部分实施例能够提高长文档比对的速度。
为实现上述目的,本发明采用以下技术方案:
一种长文档的快速比对方法,针对两份需要对比的长文档,所述比对方法包括如下步骤:s1分别解析两份文档形成树状文档结构;s2根据树状文档结构,将两个文档拆分为两组内容块;s3在两组内容块之间建立映射关系,形成多个映射对;s4并行多个任务,每个任务用来针对一个映射对的两个内容块逐字进行比对找到差异点。
优选地,所述比对方法还包括步骤:s5将多个任务的差异点合并,依据文档中的位置对差异点进行排序。
优选地,所述s1包括:分别解析两份文档中的字符信息,通过字符信息及上下文信息识别文档中的文档元素,将识别结果按文档结构组合成树状文档结构。
优选地,所述文档元素包括:标题、表格、段落、页眉页脚。
优选地,所述标题的识别策略包括:CV模型识别、语义模型识别、规则匹配;所述表格的解析策略包括:CV模型解析、文档原生表格信息解析;所述段落的识别策略包括:CV模型识别、语义模型识别、规则识别;所述页眉页脚识别策略包括:CV模型识别、规则识别。
优选地,所述s2包括:按照标题将两份文档拆分成若干块,并过滤掉其中的页眉页脚内容,得到两组内容块,每一个内容块具有字符串内容及标题属性。
优选地,所述s3包括:依据两组内容块中的标题信息和字符串内容的语义特征,将两组内容块形成多组内容块映射对。
一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被执行后实现任一所述的比对方法。
一种长文档的快速比对装置,所述装置包括:解析模块,所述解析模块分别解析两份文档形成树状文档结构;拆分模块,所述拆分模块根据树状文档结构,将两个文档拆分为两组内容块;映射模块,所述映射模块在两组内容块之间建立映射关系,形成多个映射对;以及比对模块,所述比对模块并行多个任务,每个任务用来针对一个映射对的两个内容块逐字进行比对找到差异点。
与现有技术相比,本发明的有益效果为:利用文档章节信息建立的映射关系将一个比对任务拆分成多个比对任务,并行处理多个比对任务可以大幅提升任务处理的总耗时;通过结构识别可以过滤掉页眉页脚等可能影响到比对结果的内容,从而降低比对召回率提高准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的文档结构解析示意图。
图2为本发明实施例的比对流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
如图1所示,本实施例主要流程分为五步:文档解析、文档拆分、内容映射、内容比对、后处理。
1.文档解析
文档解析的主要作用是将文档转换为字符串信息和结构化的文档数据,方便后续的处理。主要内容为:
分别解析两份文档中的字符信息,通过字符信息及上下文信息识别文档中的标题、表格、段落、页眉页脚等文档元素。
其中标题的识别策略主要有:
CV模型识别
语义模型识别
规则匹配
表格的解析策略主要有:
CV模型解析
文档原生表格信息解析
页眉页脚识别策略主要有:
CV模型识别
规则识别
段落识别的策略主要有:
CV模型识别
语义模型识别
规则识别
2.文档拆分
文档拆分的主要作用是将文档多个内容块,从而使得一个比对任务拆分为多个比对任务成为可能。
具体内容为:
按照一级标题将两份文档拆分成若干块,并过滤掉其中的页眉页脚内容(页眉页脚通常属于文档的附加信息不属于关注重点),得到两组内容块,每一个内容块具有字符串内容及一级标题属性。
3.内容映射
内容映射的主要作用是将两组内容块进行匹配建立映射关系,从而将一个比对任务拆分为多个比对任务,使得计算机可以并行处理当前的比对任务,从而实现比对的速度提升。
具体内容为:
依据两组内容块中的一级标题信息和字符串内容的语义特征将两组内容块形成多组内容块映射对,对于没有匹配到的内容块则其映射对为空。
其中映射的建立策略主要有:
内容块的标题语义相似度
内容块的内容语义相似度
内容块的规则匹配
4.内容比对
内容比对的主要作用是比对出两段字符串的差异点。
具体内容为:
对每一组的内容块映射对中的两个内容块中的字符串内容进行逐字进行比对,得到每一组的差异点。
5.后处理
将所有比对任务差异点合并为一组差异点,依据模板文档中的位置为基准对差异点进行排序。
通过如上方案,比对任务的处理速度便可以得到大幅提升。
尽管上述实施例已对本发明作出具体描述,但是对于本领域的普通技术人员来说,应该理解为可以在不脱离本发明的精神以及范围之内基于本发明公开的内容进行修改或改进,这些修改和改进都在本发明的精神以及范围之内。

Claims (9)

1.一种长文档的快速比对方法,其特征在于,针对两份需要对比的长文档,所述比对方法包括如下步骤:
s1分别解析两份文档形成树状文档结构;
s2根据树状文档结构,将两个文档拆分为两组内容块;
s3在两组内容块之间建立映射关系,形成多个映射对;
s4并行多个任务,每个任务用来针对一个映射对的两个内容块逐字进行比对找到差异点。
2.根据权利要求1所述的长文档的快速比对方法,其特征在于,所述比对方法还包括步骤:
s5将多个任务的差异点合并,依据文档中的位置对差异点进行排序。
3.根据权利要求1所述的长文档的快速比对方法,其特征在于,所述s1包括:分别解析两份文档中的字符信息,通过字符信息及上下文信息识别文档中的文档元素,将识别结果按文档结构组合成树状文档结构。
4.根据权利要求3所述的长文档的快速比对方法,其特征在于,所述文档元素包括:标题、表格、段落、页眉页脚。
5.根据权利要求4所述的长文档的快速比对方法,其特征在于,所述标题的识别策略包括:CV模型识别、语义模型识别、规则匹配;所述表格的解析策略包括:CV模型解析、文档原生表格信息解析;所述段落的识别策略包括:CV模型识别、语义模型识别、规则识别;所述页眉页脚识别策略包括:CV模型识别、规则识别。
6.根据权利要求5所述的长文档的快速比对方法,其特征在于,所述s2包括:按照标题将两份文档拆分成若干块,并过滤掉其中的页眉页脚内容,得到两组内容块,每一个内容块具有字符串内容及标题属性。
7.根据权利要求6所述的长文档的快速比对方法,其特征在于,所述s3包括:依据两组内容块中的标题信息和字符串内容的语义特征,将两组内容块形成多组内容块映射对。
8.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序被执行后实现权利要求1-7中任一所述的比对方法。
9.一种长文档的快速比对装置,其特征在于,所述装置包括:
解析模块,所述解析模块分别解析两份文档形成树状文档结构;
拆分模块,所述拆分模块根据树状文档结构,将两个文档拆分为两组内容块;
映射模块,所述映射模块在两组内容块之间建立映射关系,形成多个映射对;以及
比对模块,所述比对模块并行多个任务,每个任务用来针对一个映射对的两个内容块逐字进行比对找到差异点。
CN202110644806.4A 2021-06-09 2021-06-09 一种长文档的快速比对方法、装置和存储介质 Pending CN113468864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110644806.4A CN113468864A (zh) 2021-06-09 2021-06-09 一种长文档的快速比对方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110644806.4A CN113468864A (zh) 2021-06-09 2021-06-09 一种长文档的快速比对方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN113468864A true CN113468864A (zh) 2021-10-01

Family

ID=77869519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110644806.4A Pending CN113468864A (zh) 2021-06-09 2021-06-09 一种长文档的快速比对方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN113468864A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114021543A (zh) * 2022-01-05 2022-02-08 杭州实在智能科技有限公司 基于表格结构解析的文档比对分析方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908602A (zh) * 2017-12-15 2018-04-13 北京文因互联科技有限公司 一种文件检测方法及其装置
CN110837788A (zh) * 2019-10-31 2020-02-25 北京深度制耀科技有限公司 一种pdf文档的处理方法及装置
CN111222314A (zh) * 2020-01-03 2020-06-02 北大方正集团有限公司 版式文档的比对方法、装置、设备及存储介质
CN112231522A (zh) * 2020-09-24 2021-01-15 北京奥鹏远程教育中心有限公司 一种在线课程知识树的生成关联方法
CN112307737A (zh) * 2020-09-27 2021-02-02 泰山信息科技有限公司 一种基于动态规划技术的复杂文档比较方法
CN112580308A (zh) * 2020-12-15 2021-03-30 北京百度网讯科技有限公司 文档比对方法、装置、电子设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908602A (zh) * 2017-12-15 2018-04-13 北京文因互联科技有限公司 一种文件检测方法及其装置
CN110837788A (zh) * 2019-10-31 2020-02-25 北京深度制耀科技有限公司 一种pdf文档的处理方法及装置
CN111222314A (zh) * 2020-01-03 2020-06-02 北大方正集团有限公司 版式文档的比对方法、装置、设备及存储介质
CN112231522A (zh) * 2020-09-24 2021-01-15 北京奥鹏远程教育中心有限公司 一种在线课程知识树的生成关联方法
CN112307737A (zh) * 2020-09-27 2021-02-02 泰山信息科技有限公司 一种基于动态规划技术的复杂文档比较方法
CN112580308A (zh) * 2020-12-15 2021-03-30 北京百度网讯科技有限公司 文档比对方法、装置、电子设备及可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114021543A (zh) * 2022-01-05 2022-02-08 杭州实在智能科技有限公司 基于表格结构解析的文档比对分析方法及系统

Similar Documents

Publication Publication Date Title
CN108829658B (zh) 新词发现的方法及装置
CN109947904B (zh) 一种基于Spark环境的偏好空间Skyline查询处理方法
WO2017107566A1 (zh) 基于词向量相似度的检索方法和系统
US20120041955A1 (en) Enhanced identification of document types
WO2021052177A1 (zh) 日志解析方法、装置、服务器和存储介质
CN101079025B (zh) 一种文档相关度计算系统和方法
CN102750379B (zh) 一种基于过滤型的字符串快速匹配方法
CN105279277A (zh) 知识数据的处理方法和装置
CN103823838A (zh) 一种多格式文档录入并比对的方法
CN111460170B (zh) 一种词语识别方法、装置、终端设备及存储介质
CN101075251A (zh) 一种基于数据挖掘的文本搜索方法
CN103440232A (zh) 一种科技论文标准化自动检测编辑方法
CN103440233A (zh) 一种科技论文标准化自动检测编辑系统
CN113468864A (zh) 一种长文档的快速比对方法、装置和存储介质
CN111091003B (zh) 一种基于知识图谱查询的并行抽取方法
CN112528640A (zh) 一种基于异常子图检测的领域术语自动抽取方法
CN117235199A (zh) 一种基于文档树的信息智能匹配检索的方法
Bartík Text-based web page classification with use of visual information
CN114117035A (zh) 一种无监督粤语论坛抽取式摘要方法
CN115526601A (zh) 文件管理方法及装置
Tian A mathematical indexing method based on the hierarchical features of operators in formulae
CN102508920A (zh) 一种基于Boosting分类算法的信息检索方法
JP5389764B2 (ja) マイクロブログテキスト分類装置及び方法及びプログラム
Gao et al. Detecting data records in semi-structured web sites based on text token clustering
Kalaiarasi et al. Visual content based clustering of near duplicate web search images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211001