CN112395852A - 多文件格式版式文档的对比方法 - Google Patents
多文件格式版式文档的对比方法 Download PDFInfo
- Publication number
- CN112395852A CN112395852A CN202011530649.6A CN202011530649A CN112395852A CN 112395852 A CN112395852 A CN 112395852A CN 202011530649 A CN202011530649 A CN 202011530649A CN 112395852 A CN112395852 A CN 112395852A
- Authority
- CN
- China
- Prior art keywords
- document
- link
- format
- data
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000000547 structure data Methods 0.000 claims abstract description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 abstract description 9
- 238000001514 detection method Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 241000726103 Atta Species 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 230000007774 longterm Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种多文件格式版式文档的对比方法,文档元素提取环节是依据不同版式文档格式的标准作为参考,对标准版式文档的格式解析与内容读取,并将最终解析出来的数据内容作为文档元素抽象环节的输入数据;按上述输入数据将文档中的主要图元元素抽象转换为自定义的文档图元结构,并将抽象后的文档图元结构数据以不同后缀类型的文件分类保存;文档内容对比环节按照文件后缀名分类,逐类型地进行图元抽象文件的读取与对比操作,且将对比结果作为文档差异输出环节的输入数据,对差异结果进行汇总、合并与展示。提供了一个弹性的质量效果衡量工具,解决了当前人工检测文档转换质量所存在的检测效率与准确性低下的弊端。
Description
技术领域
本发明版式文档元素提取技术,特别涉及一种多文件格式版式文档的对比方法。
背景技术
我国已经正式将OFD格式确立为我国电子文件的国家标准。OFD格式诞生之前,国内的文档格式应用较为混乱。此前市场上应用最广泛的是美国Adobe公司推出的PDF(Portable Document Format)版式的文档格式,其被广泛应用在电子商务和文档管理等领域,此外党委机关使用CEBX格式,政府机关使用的书生SEP格式、学术领域使用的知网CAJ格式互不兼容。国内电子文档由于缺乏统一的版式标准而应用混乱,而文件的长期保存也面临困境。
文档数据来源有三类:第一类为原生文档,即创建一个新的文档;第二类为转换文档,即由其他格式的电子文档转换而来;第三类为纸质文档,通过扫描生成的文档。
可以预见,对于上述版式文档数据来源的第二类,来自文档转换途径的需求量将会越来越大,在当前实际情况中,日益增多的文档云转换需求亦是体现了这一预期。目前,对于文档转换业务只能通过人工肉眼方式对转换前和转换后的文档内容进行对比,效率与准确性低下。
现有的版式文档的对比,仅限于相同文件格式的版式文档间的对比,是基于文档段落的语义分析与聚类对比,而且对于包含各种丰富图元和包含个性文档元素的复杂版式文档内容的对比没有良好的适应性与扩展性。通过将转换后的目标版式文档进行第二次文件格式还原转换,同时,配合相同文件格式的版式文档对比功能或者可以间接实现不同文件格式的版式文档的对比。但其所带来的弊端也较为明显:文档对比功能无法保持业务独立性,会对文档对比结果产生难以分析与察觉的关联性影响。另外由于不同文件格式的版式文档的差异性,需要为不同文件格式的版式文档各自设计一套独立的版式文档对比系统。
随着PDF与OFD等不同文件格式的版式文档之间的文档转换需求增大,不同文件格式的版式文档的对比成为一个需要面临和关注的问题。
发明内容
本发明的目的是提供一种多文件格式版式文档的对比方法,以实现对不同文件格式的版式文档内容的直接对比功能。
本发明的目的是这样实现的。一种多文件格式版式文档的对比方法,包括:文档元素提取环节、文档元素抽象环节、文档内容对比环节和文档差异输出环节;
所述文档元素提取环节是依据不同版式文档格式的标准作为参考,对版式文档进行格式解析与内容读取,并将最终解析出来的数据内容作为文档元素抽象环节的输入数据;
所述文档元素抽象环节是依赖于文档元素提取环节的结果数据,并按上述输入数据将文档中的主要图元元素抽象转换为自定义的文档图元结构,并将上述图元结构数据分类保存为不同的二进制文件,且以不同的文件后缀名区分类型;
所述文档内容对比环节是针对文档元素抽象环节的结果数据文件,按照文件后缀名分类,逐类型地进行图元抽象文件的读取与对比操作,且将对比结果将作为文档差异输出环节的输入数据;
所述文档差异输出环节依赖于文档内容对比环节的结果数据,对差异结果进行汇总、合并与展示。
本发明为不同格式的版式文档之间的文档转换质量效果检验提供了一个弹性的质量效果衡量工具,解决了当前人工检测文档转换质量所存在的检测效率与准确性低下的弊端。
附图说明
图1是本发明的实施例系统示意图。
具体实施方式
以下结合附图和实施步骤对本发明作进一步说明。参见图1,一种多文件格式版式文档的对比方法,其步骤如下:
1)参见本发明的系统结构图(见图1),数据流由图中左上角开始,并以虚线为指引,标明了整个多文件格式版式文档的对比步骤与过程。
2)首先将两个需要待比较的版式文档“版式文档1”与“版式文档2”作为本发明中对比装置文档元素提取模块的输入。
3)在文档元素提取模块中,根据输入文档的文件格式,进行相应的文件格式解析与文档内容提取。具体的文件格式解析过程依据相应的版式文档标准。例如OFD版式文档的格式解析与内容读取,以zip压缩文件格式解析OFD版式文档,首先读取OFD.xml配置文件,继而根据OFD.xml中的配置信息,分别读取压缩文件中包含其他各种xml配置文件与各类资源文件,并以相应的数据结构保存在计算机RAM内存中。对于PDF文档的格式解析与内容读取,从PDF版式文档的尾部读取trailer结构信息,首先定位到PDF交叉引用表部分,继而根据交叉引用表,逐步读取body部分描述的各种配置信息与各类资源信息,并以相应的数据结构保存在计算机RAM内存中。
4)对于文档元素提取模块的输出将作为元素对象抽象模块的输入。依据系统结构图(图1),此时数据流进入元素对象抽象模块。在此模块中,将对文档中的内容数据按照自定义的数据格式进行统一抽象处理,并分类保存至具有不同后缀名的二进制文件中。
如果“版式文档1”的内容中存在以下描述的各种版式文档图元信息,那么:
“版式文档1”的页对象数据将被保存至“版式文档1.page”文件;
“版式文档1”的资源对象数据将被保存至“版式文档1.res”文件;
“版式文档1”的复合对象数据将被保存至“版式文档1.comp”文件;
“版式文档1”的书签对象数据将被保存至“版式文档1. bkmk”文件;
“版式文档1”的字体对象数据将被保存至“版式文档1.font”文件;
“版式文档1”的图形对象数据将被保存至“版式文档1.path”文件;
“版式文档1”的图像对象数据将被保存至“版式文档1.img”文件;
“版式文档1”的批注对象数据将被保存至“版式文档1.annt”文件;
“版式文档1”的签名对象数据将被保存至“版式文档1.sign”文件;
“版式文档1”的摘要对象数据将被保存至“版式文档1.refe”文件;
“版式文档1”的附件对象数据将被保存至“版式文档1.atta”文件。
如果“版式文档2”的内容中存在以下描述的各种版式文档图元信息,那么:
“版式文档2”的页对象数据将被保存至“版式文档2.page”文件;
“版式文档2”的资源对象数据将被保存至“版式文档2.res”文件;
“版式文档2”的复合对象数据将被保存至“版式文档2.comp”文件;
“版式文档2”的书签对象数据将被保存至“版式文档2. bkmk”文件;
“版式文档2”的字体对象数据将被保存至“版式文档2.font”文件;
“版式文档2”的图形对象数据将被保存至“版式文档2.path”文件;
“版式文档2”的图像对象数据将被保存至“版式文档2.img”文件;
“版式文档2”的批注对象数据将被保存至“版式文档2.annt”文件;
“版式文档2”的签名对象数据将被保存至“版式文档2.sign”文件;
“版式文档2”的摘要对象数据将被保存至“版式文档2.refe”文件;
“版式文档2”的附件对象数据将被保存至“版式文档2.atta”文件。
5)对于元素对象抽象模块的输出将作为文档元素对比模块的输入。依据系统结构图(见图1),此时数据流进入文档元素对比模块。在此模块中,将对元素对象抽象模块输出的文档元素抽象文件按照文件后缀名称,逐类型的进行文档元素的读取与比较。并生成相应的比较结果。
6)依据系统结构图(见图1),此时数据流进行最后的文档内容差异报告模块。该模块主要是对文档元素对比模块的不同图元类型的差异结果进行汇总与合并,并最终通过文件或格式化的数据流进行对比差异的展示。
Claims (1)
1.一种多文件格式版式文档的对比方法,包括:文档元素提取环节、文档元素抽象环节、文档内容对比环节和文档差异输出环节;
所述文档元素提取环节是依据不同版式文档格式的标准作为参考,对版式文档进行格式解析与内容读取,并将最终解析出来的数据内容作为文档元素抽象环节的输入数据;
所述文档元素抽象环节是依赖于文档元素提取环节的结果数据,并按上述输入数据将文档中的主要图元元素抽象转换为自定义的文档图元结构,并将上述图元结构数据分类保存为不同的二进制文件,且以不同的文件后缀名区分类型;
所述文档内容对比环节是针对文档元素抽象环节的结果数据文件,按照文件后缀名分类,逐类型地进行图元抽象文件的读取与对比操作,且将对比结果将作为文档差异输出环节的输入数据;
所述文档差异输出环节依赖于文档内容对比环节的结果数据,对差异结果进行汇总、合并与展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011530649.6A CN112395852A (zh) | 2020-12-22 | 2020-12-22 | 多文件格式版式文档的对比方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011530649.6A CN112395852A (zh) | 2020-12-22 | 2020-12-22 | 多文件格式版式文档的对比方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112395852A true CN112395852A (zh) | 2021-02-23 |
Family
ID=74625304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011530649.6A Pending CN112395852A (zh) | 2020-12-22 | 2020-12-22 | 多文件格式版式文档的对比方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395852A (zh) |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101807207A (zh) * | 2010-03-22 | 2010-08-18 | 北京大用科技有限责任公司 | 一种基于内容差异比较的文档共享方法 |
CN102289407A (zh) * | 2011-09-06 | 2011-12-21 | 北京信息科技大学 | 文档格式转换自动测试方法及其装置 |
US20120014612A1 (en) * | 2010-07-16 | 2012-01-19 | Fuji Xerox Co., Ltd. | Document processing apparatus and computer readable medium |
KR101516684B1 (ko) * | 2013-12-19 | 2015-05-11 | 주식회사 지트레이스 | Ocr을 이용한 문서 변환 서비스 방법 |
US20160110599A1 (en) * | 2014-10-20 | 2016-04-21 | Lexmark International Technology, SA | Document Classification with Prominent Objects |
US20160188580A1 (en) * | 2014-12-31 | 2016-06-30 | Konica Minolta Laboratory U.S.A., Inc. | Document discovery strategy to find original electronic file from hardcopy version |
WO2016172257A1 (en) * | 2015-04-21 | 2016-10-27 | Orbiion, Inc. | Automated document processing system |
CN108021952A (zh) * | 2017-12-29 | 2018-05-11 | 广州品唯软件有限公司 | 一种多格式文本对比方法及装置 |
CN109086259A (zh) * | 2018-08-16 | 2018-12-25 | 郑州云海信息技术有限公司 | 一种通过文档自动化生成配置文件并进行差异对比的方法 |
CN109492140A (zh) * | 2018-11-06 | 2019-03-19 | 山东省计算中心(国家超级计算济南中心) | 一种国内外标准文档的比对方法及系统 |
CN110390081A (zh) * | 2018-04-17 | 2019-10-29 | 北大方正集团有限公司 | 文档比对方法、装置及设备 |
CN110443269A (zh) * | 2019-06-17 | 2019-11-12 | 平安信托有限责任公司 | 一种文档比对方法及装置 |
CN110543641A (zh) * | 2019-08-14 | 2019-12-06 | 交控科技股份有限公司 | 一种中外文信息对比方法及装置 |
CN110569230A (zh) * | 2019-08-30 | 2019-12-13 | 苏州浪潮智能科技有限公司 | 数据库设计模型与设计文档互相转换方法、系统及设备 |
CN110991163A (zh) * | 2019-11-29 | 2020-04-10 | 达而观信息科技(上海)有限公司 | 一种文档比对分析方法、装置、电子设备及存储介质 |
CN111191436A (zh) * | 2020-01-03 | 2020-05-22 | 北大方正集团有限公司 | 版式文档的比对方法、装置、设备及计算机存储介质 |
CN111222314A (zh) * | 2020-01-03 | 2020-06-02 | 北大方正集团有限公司 | 版式文档的比对方法、装置、设备及存储介质 |
CN111914597A (zh) * | 2019-05-09 | 2020-11-10 | 杭州睿琪软件有限公司 | 一种文档对照识别方法、装置、电子设备和可读存储介质 |
-
2020
- 2020-12-22 CN CN202011530649.6A patent/CN112395852A/zh active Pending
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101807207A (zh) * | 2010-03-22 | 2010-08-18 | 北京大用科技有限责任公司 | 一种基于内容差异比较的文档共享方法 |
US20120014612A1 (en) * | 2010-07-16 | 2012-01-19 | Fuji Xerox Co., Ltd. | Document processing apparatus and computer readable medium |
CN102289407A (zh) * | 2011-09-06 | 2011-12-21 | 北京信息科技大学 | 文档格式转换自动测试方法及其装置 |
KR101516684B1 (ko) * | 2013-12-19 | 2015-05-11 | 주식회사 지트레이스 | Ocr을 이용한 문서 변환 서비스 방법 |
US20160110599A1 (en) * | 2014-10-20 | 2016-04-21 | Lexmark International Technology, SA | Document Classification with Prominent Objects |
US20160188580A1 (en) * | 2014-12-31 | 2016-06-30 | Konica Minolta Laboratory U.S.A., Inc. | Document discovery strategy to find original electronic file from hardcopy version |
WO2016172257A1 (en) * | 2015-04-21 | 2016-10-27 | Orbiion, Inc. | Automated document processing system |
CN108021952A (zh) * | 2017-12-29 | 2018-05-11 | 广州品唯软件有限公司 | 一种多格式文本对比方法及装置 |
CN110390081A (zh) * | 2018-04-17 | 2019-10-29 | 北大方正集团有限公司 | 文档比对方法、装置及设备 |
CN109086259A (zh) * | 2018-08-16 | 2018-12-25 | 郑州云海信息技术有限公司 | 一种通过文档自动化生成配置文件并进行差异对比的方法 |
CN109492140A (zh) * | 2018-11-06 | 2019-03-19 | 山东省计算中心(国家超级计算济南中心) | 一种国内外标准文档的比对方法及系统 |
CN111914597A (zh) * | 2019-05-09 | 2020-11-10 | 杭州睿琪软件有限公司 | 一种文档对照识别方法、装置、电子设备和可读存储介质 |
CN110443269A (zh) * | 2019-06-17 | 2019-11-12 | 平安信托有限责任公司 | 一种文档比对方法及装置 |
CN110543641A (zh) * | 2019-08-14 | 2019-12-06 | 交控科技股份有限公司 | 一种中外文信息对比方法及装置 |
CN110569230A (zh) * | 2019-08-30 | 2019-12-13 | 苏州浪潮智能科技有限公司 | 数据库设计模型与设计文档互相转换方法、系统及设备 |
CN110991163A (zh) * | 2019-11-29 | 2020-04-10 | 达而观信息科技(上海)有限公司 | 一种文档比对分析方法、装置、电子设备及存储介质 |
CN111191436A (zh) * | 2020-01-03 | 2020-05-22 | 北大方正集团有限公司 | 版式文档的比对方法、装置、设备及计算机存储介质 |
CN111222314A (zh) * | 2020-01-03 | 2020-06-02 | 北大方正集团有限公司 | 版式文档的比对方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
冯辉;: "OFD与PDF的关联和差异", 信息技术与标准化 * |
冯辉;李海波;丛培勇;陈亚军;玄登影;谷晶;: "OFD与PDF对比分析", 信息技术与标准化 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753500B (zh) | 版式化后的电子表单与ofd合并展现及目录生成的方法 | |
CN109062874B (zh) | 财政数据的获取方法、终端设备及介质 | |
CN110083805B (zh) | 一种将Word文件转换为EPUB文件的方法及系统 | |
CN111767254B (zh) | 基于版式数据流文件技术的多文件阅读装置及其方法 | |
US10282410B2 (en) | Assistive technology for the impaired | |
US9081412B2 (en) | System and method for using paper as an interface to computer applications | |
JP2003114882A (ja) | 出版用コンテンツをフォーマットするシステム及び方法 | |
CN111191435B (zh) | 一种用于海关报表的动态模板生成报表的方法及其装置 | |
WO2021248492A1 (en) | Semantic representation of text in document | |
CN111062187A (zh) | 一种对docx格式文档进行结构化解析方法及系统 | |
CN116719784B (zh) | 多ofd版式文件弹性聚类组合阅读的装置 | |
US20220301285A1 (en) | Processing picture-text data | |
CN110532449B (zh) | 一种业务文档的处理方法、装置、设备和存储介质 | |
CN113723063B (zh) | 一种rtf转html并在pdf文件实现效果的方法 | |
CN102063415B (zh) | 向pdf文件内嵌单字节字体的方法及其系统 | |
CN102063416B (zh) | 向pdf文件内嵌双字节字体的方法及其系统 | |
US8020052B2 (en) | Fault analysis result generating system and method | |
CN111897778B (zh) | 一种计算机文件合并方法、装置及系统 | |
CN112395852A (zh) | 多文件格式版式文档的对比方法 | |
CN114722220A (zh) | 一种基于多文件类型智能标签的智慧搜索方法及系统 | |
CN114661255A (zh) | 支持矢量手写及图片的动态表单分页打印的方法及系统 | |
CN110852039A (zh) | Pdf文件中字符转曲线的方法及装置 | |
CN114743012A (zh) | 一种文本识别方法及装置 | |
CN113343663A (zh) | 一种票据结构化方法及装置 | |
CN113255369A (zh) | 文本相似度分析的方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210223 |