CN112084748A - 一种文本比对方法 - Google Patents

一种文本比对方法 Download PDF

Info

Publication number
CN112084748A
CN112084748A CN202010990828.1A CN202010990828A CN112084748A CN 112084748 A CN112084748 A CN 112084748A CN 202010990828 A CN202010990828 A CN 202010990828A CN 112084748 A CN112084748 A CN 112084748A
Authority
CN
China
Prior art keywords
files
comparison
page
difference
pdf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010990828.1A
Other languages
English (en)
Inventor
井焜
刘佳落
马文英
谷万田
郭恩英
李晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Synthesis Electronic Technology Co Ltd
Original Assignee
Synthesis Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Synthesis Electronic Technology Co Ltd filed Critical Synthesis Electronic Technology Co Ltd
Priority to CN202010990828.1A priority Critical patent/CN112084748A/zh
Publication of CN112084748A publication Critical patent/CN112084748A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Abstract

本发明涉及一种文本比对方法,包括以下步骤,a.选择两个文件并进行格式转化,确保转化后的文件为pdf格式文件;b.解析两个pdf格式文件,使用ocr文字识别技术识别出图片中包含的文字;c.对于普通的pdf文件,生成对应页码文字内容的比对结果,在共同页码内容比对完成后,若某一文件仍有剩余页码,则将剩余部分全部读取出来,作为两个文件差异之处,d.根据所有比对结果动态生成html文件,通过html文件展示两个文件的差异之处;e.在生成html文件时,会遍历每一处比对算法比对出的差异之处,若发现某一个差异在标点符号集合中存在,在生成的html页面中,将该处差异的背景置为淡黄色或者其他不显眼的颜色。本发明具有比对准确率高、异常比对容易的有益效果。

Description

一种文本比对方法
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本处理方法,具体是指一种文本比对方法。
背景技术
在日常工作中,为判断两个文档内容的不同,可以同时打开两个文档人工进行识别比对,不过这种比对方式较为耗时且出错可能较大。
在现有技术中,要比对两个文件内容差异,需要先通过程序读取出文件中的内容再进行比对。常见的txt文件可以通过IO流直接读取出内容,word文档和文字版的pdf文件也可以通过POI和pdfbox等技术读取出内容。但扫描版的pdf文件中内容无法通过以上技术读取。
此外,在文本比对领域,大多数文本比对工具都使用了Google-diff-match-patch开源类库来实现核心的比对功能,但文档的内容大小各异,在处理大篇幅文件时,容易比对异常,定位出错,影响比对正确率。
发明内容
本发明针对现有技术的不足,提供了一种比对准确率高、异常比对容易的文本处理方法。
本发明是通过如下技术方案实现的,提供一种文本比对方法,包括以下步骤,
a.选择两个文件并进行格式转化,确保转化后的文件为pdf格式文件;
b.解析两个pdf格式文件,判断两个pdf文件页数是否相同,取页码文件最小数,循环读取每一个pdf文件的每一页内容,对于扫描版pdf文件,每一页内容均为图片,使用ocr文字识别技术识别出图片中包含的文字;
c.对于普通的pdf文件,可使用pdfbox直接读取出每一页内容,两个文件每读取出一页内容就进行文本比对,生成对应页码文字内容的比对结果,在共同页码内容比对完成后,若某一文件仍有剩余页码,则将剩余部分全部读取出来,作为两个文件差异之处,
d.根据所有比对结果动态生成html文件,通过html文件展示两个文件的差异之处;
e.在系统中提前将所有可能出现的中英文标点符号放在一个集合中,在生成html文件时,会遍历每一处比对算法比对出的差异之处,若发现某一个差异在标点符号集合中存在,则该处差异即为标点符号,在生成的html页面中,将该处差异的背景置为淡黄色或者其他不显眼的颜色。
作为优选,所述的步骤d中,在生成的html页面中,不同页码之间插入明显的分割线,并标记页码。
作为优选,所述的步骤e之后还包括步骤f,所述的步骤f是指计算两个文件的文本相似度,在比对过程中,记录比对出的所有相同之处,文本相似度=所有相同文字的长度(数量)/原文本的文字总长度(数量),在生成html时,展示计算出的文本相似度。
综上所述,本发明利用文本比对算法,结合OCR文字识别技术,分页读取文档内容,并对识别出的每一页内容进行比对,减小每一次比对的量,从而提高比对准确率,最终对比对结果合并,从而实现对两个文本内容的差异比对,形成一个比对结果,通过html页面展示处来。本发明具有比对准确率高且异常比对容易的有益效果。
附图说明
图1为本发明文本比对整体流程示意图;
图2为本发明中差异中的标点符号过滤流程示意图。
具体实施方式
为能清楚说明本发明方案的技术特点,下面结合附图,并通过具体实施方式,对本方案进一步阐述。
如图1和图2中所示,提供一种文本比对方法,包括以下步骤,
在工具中选择两个文件,选择完成后,工具判断文件格式,若文件为非pdf格式,则使用jacob组件将非pdf文件转化为pdf文件;
同时解析两个pdf文件,判断两个文件页数是否相同,取页码文件最小数,循环读取每一个pdf文件的每一页内容,对于扫描版pdf文件,每一页内容均为图片,使用ocr文字识别技术识别出图片中包含的文字;
对于普通的pdf文件,可使用pdfbox直接读取出每一页内容,两个文件每读取出一页内容就进行文本比对,生成对应页码文字内容的比对结果,在共同页码内容比对完成后,若某一文件仍有剩余页码,则将剩余部分全部读取出来,作为两个文件差异之处,最后根据所有比对结果动态生成html文件,通过html文件展示两个文件的差异之处。在html页面中,不同页码之间插入了明显的分割线,并标记页码,便于工具比对后人工校验定位差异之处;
在扫描版的pdf中,每一页内容均为图片,图片中的各种标点符号中英文之间相似度较高,不易区分,使用ocr文字识别技术识别时,会存在中英文符号识别错误的情况,这些识别错误的标点符号会对比对结果造成较大影响。针对此问题,该工具可以在系统中提前将所有可能出现的中英文标点符号放在一个集合中,在生成html文件时,会遍历每一处比对算法比对出的差异之处,若发现某一个差异在标点符号集合中存在,则该处差异即为标点符号,在生成的html页面中,将该处差异的背景置为淡黄色或者其他不显眼的颜色,这样用户可以更关注实际文字的差异。
所有文字比对完成后,计算两个文件的文本相似度。在比对过程中,比对工具记录比对出的所有相同之处,文本相似度=所有相同文字的长度(数量)/原文本的文字总长度(数量)。在生成html时,展示计算出的文本相似度。
最后,还应说明,上述举例和说明也并不仅限于上述实施例,本发明未经描述的技术特征可以通过或采用现有技术实现,在此不再赘述;以上实施例及附图仅用于说明本发明的技术方案并非是对本发明的限制,参照优选的实施方式对本发明进行了详细说明,本领域的普通技术人员应当理解,本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换都不脱离本发明的宗旨,也应属于本发明的权利要求保护范围。

Claims (3)

1.一种文本比对方法,其特征在于,包括以下步骤,
a.选择两个文件并进行格式转化,确保转化后的文件为pdf格式文件;
b.解析两个pdf格式文件,判断两个pdf文件页数是否相同,取页码文件最小数,循环读取每一个pdf文件的每一页内容,对于扫描版pdf文件,每一页内容均为图片,使用ocr文字识别技术识别出图片中包含的文字;
c.对于普通的pdf文件,可使用pdfbox直接读取出每一页内容,两个文件每读取出一页内容就进行文本比对,生成对应页码文字内容的比对结果,在共同页码内容比对完成后,若某一文件仍有剩余页码,则将剩余部分全部读取出来,作为两个文件差异之处,
d.根据所有比对结果动态生成html文件,通过html文件展示两个文件的差异之处;
e.在系统中提前将所有可能出现的中英文标点符号放在一个集合中,在生成html文件时,会遍历每一处比对算法比对出的差异之处,若发现某一个差异在标点符号集合中存在,则该处差异即为标点符号,在生成的html页面中,将该处差异的背景置为淡黄色或者其他不显眼的颜色。
2.根据权利要求1所述的一种文本比对方法,其特征在于,所述的步骤d中,在生成的html页面中,不同页码之间插入明显的分割线,并标记页码。
3.根据权利要求1所述的一种文本比对方法,其特征在于,所述的步骤e之后还包括步骤f,所述的步骤f是指计算两个文件的文本相似度,在比对过程中,记录比对出的所有相同之处,文本相似度=所有相同文字的长度(数量)/原文本的文字总长度(数量),在生成html时,展示计算出的文本相似度。
CN202010990828.1A 2020-09-19 2020-09-19 一种文本比对方法 Pending CN112084748A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010990828.1A CN112084748A (zh) 2020-09-19 2020-09-19 一种文本比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010990828.1A CN112084748A (zh) 2020-09-19 2020-09-19 一种文本比对方法

Publications (1)

Publication Number Publication Date
CN112084748A true CN112084748A (zh) 2020-12-15

Family

ID=73739225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010990828.1A Pending CN112084748A (zh) 2020-09-19 2020-09-19 一种文本比对方法

Country Status (1)

Country Link
CN (1) CN112084748A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529111A (zh) * 2020-12-28 2021-03-19 广东国粒教育技术有限公司 一种基于ppt文档对比技术计算老师备课创新度的方法
CN113688616A (zh) * 2021-10-27 2021-11-23 深圳市明源云科技有限公司 图表报告差异检测方法、装置、设备及存储介质
CN113836092A (zh) * 2021-09-27 2021-12-24 北京来也网络科技有限公司 基于rpa和ai的文件比对方法、装置、设备及存储介质
CN113836096A (zh) * 2021-09-27 2021-12-24 北京来也网络科技有限公司 基于rpa和ai的文件比对方法、装置、设备、介质及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492199A (zh) * 2018-10-17 2019-03-19 四川译讯信息科技有限公司 一种基于ocr预判断的pdf文件转换方法
CN109543614A (zh) * 2018-11-22 2019-03-29 厦门商集网络科技有限责任公司 一种全文本差异比对方法及设备
CN109710301A (zh) * 2018-11-30 2019-05-03 福建天泉教育科技有限公司 一种自动比较接口文档差异的方法及终端
CN110427215A (zh) * 2019-07-30 2019-11-08 阿里巴巴集团控股有限公司 一种应用于前端开发的程序版本差异展示方法及装置
CN110688889A (zh) * 2019-08-06 2020-01-14 珠海格力电器股份有限公司 一种图文内容比对方法及装置
CN111368511A (zh) * 2020-02-28 2020-07-03 证通股份有限公司 Pdf文档解析方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492199A (zh) * 2018-10-17 2019-03-19 四川译讯信息科技有限公司 一种基于ocr预判断的pdf文件转换方法
CN109543614A (zh) * 2018-11-22 2019-03-29 厦门商集网络科技有限责任公司 一种全文本差异比对方法及设备
CN109710301A (zh) * 2018-11-30 2019-05-03 福建天泉教育科技有限公司 一种自动比较接口文档差异的方法及终端
CN110427215A (zh) * 2019-07-30 2019-11-08 阿里巴巴集团控股有限公司 一种应用于前端开发的程序版本差异展示方法及装置
CN110688889A (zh) * 2019-08-06 2020-01-14 珠海格力电器股份有限公司 一种图文内容比对方法及装置
CN111368511A (zh) * 2020-02-28 2020-07-03 证通股份有限公司 Pdf文档解析方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
中国人民大学: "基督教文化与文学研究", 《天何言哉》 *
戴庆厦 等: "《构建多语和谐的社会语言生活 民族语文国际学术研讨会论文集》", 31 December 2009 *
陈洪 等: "逐行对比显示", 《文学和语言的界面研究》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529111A (zh) * 2020-12-28 2021-03-19 广东国粒教育技术有限公司 一种基于ppt文档对比技术计算老师备课创新度的方法
CN113836092A (zh) * 2021-09-27 2021-12-24 北京来也网络科技有限公司 基于rpa和ai的文件比对方法、装置、设备及存储介质
CN113836096A (zh) * 2021-09-27 2021-12-24 北京来也网络科技有限公司 基于rpa和ai的文件比对方法、装置、设备、介质及系统
CN113688616A (zh) * 2021-10-27 2021-11-23 深圳市明源云科技有限公司 图表报告差异检测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US6782144B2 (en) Document scanner, system and method
CN112084748A (zh) 一种文本比对方法
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
US7668372B2 (en) Method and system for collecting data from a plurality of machine readable documents
US5164899A (en) Method and apparatus for computer understanding and manipulation of minimally formatted text documents
US8467614B2 (en) Method for processing optical character recognition (OCR) data, wherein the output comprises visually impaired character images
US11182604B1 (en) Computerized recognition and extraction of tables in digitized documents
JP5124885B2 (ja) 文書保存システム
WO2006002009A2 (en) Document management system with enhanced intelligent document recognition capabilities
Carrasco An open-source OCR evaluation tool
JPH06111056A (ja) 文書書式のデジタル・イメージの文字認識誤りを修復するデータ処理システム及び方法
JP4661921B2 (ja) 文書処理装置およびプログラム
KR100570224B1 (ko) 전표정의데이터 작성방법 및 전표처리장치
US8208726B2 (en) Method and system for optical character recognition using image clustering
JP2008059157A (ja) 書類確認支援システム、書類確認支援装置およびプログラム
JP2000293626A (ja) 文字認識方法及び装置ならびに記憶媒体
JPH04175966A (ja) 文書論理構造生成方法
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
JPH103483A (ja) 情報検索装置
CN109739981B (zh) 一种pdf文件类别判定方法及文字提取方法
JP2006085234A (ja) 電子文書作成装置、電子文書作成方法及び電子文書作成プログラム
JP7206644B2 (ja) 文字認識装置、文字認識方法、及びプログラム
CN106959940A (zh) 一种便于文档自动化录入的文档格式及转换和识别方法
CN114399774A (zh) 文件处理方法、装置和电子设备
JP2011150436A (ja) 文字データを置換する方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201215