CN108415887A - 一种pdf文件向ofd文件转化的方法 - Google Patents

一种pdf文件向ofd文件转化的方法 Download PDF

Info

Publication number
CN108415887A
CN108415887A CN201810131230.XA CN201810131230A CN108415887A CN 108415887 A CN108415887 A CN 108415887A CN 201810131230 A CN201810131230 A CN 201810131230A CN 108415887 A CN108415887 A CN 108415887A
Authority
CN
China
Prior art keywords
pdf document
ofd
content
pdf
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810131230.XA
Other languages
English (en)
Other versions
CN108415887B (zh
Inventor
陆伟
于丰畅
程齐凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201810131230.XA priority Critical patent/CN108415887B/zh
Publication of CN108415887A publication Critical patent/CN108415887A/zh
Application granted granted Critical
Publication of CN108415887B publication Critical patent/CN108415887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种PDF文件向OFD文件转化的方法,首先输入PDF文件;然后利用机器视觉技术对PDF文件进行版面分析,得到版面的内容分布,再解析PDF文件数据,获得该文件中的所有元素的对象,以及对象信息;然后将对象与版面分布进行映射,定位文字、图片、表格、公式等元素,接着利用映射之后的对象信息,将PDF的对象转化为OFD格式的对象;最后将OFD对象按照输出要求进行排版,并输出OFD文件。本发明能够以较高的正确率自动将单个或批量PDF文件转换为OFD文件,并且有效地保证了PDF文件中的图片、表格、公式等特殊元素的正确性。降低了储存在PDF文件中的信息的使用难度,提高了PDF文件向OFD文件的转换效率。

Description

一种PDF文件向OFD文件转化的方法
技术领域
本发明属于计算机技术领域,涉及一种文件转化方法,尤其涉及一种PDF文件向OFD文件转化的方法。
技术背景
PDF格式是国际上现行的最流行的文件传输格式之一,是Adobe公司于1993年推出的技术标准,并于2008年开放成为国际标准。其最为显著的特征是它的跨平台性和打印时所见即所得的特点。但是PDF技术也存在着诸如:标准体系过于庞大、技术门槛较高等问题,不利于信息的有效传播和利用。
我国于2016年正式发布了OFD国家标准,可满足版式文件的可管可控、长期保存等需求,实现了与PDF格式基本一致的功能。因为该标准采用通用的XML语言对文件版式进行描述,从而大大降低了该标准的技术门槛,有利于信息的传播和利用。
现有的PDF格式转化技术,多数使用直接解析PDF文件数据流的方式,从数据流中读取元素的信息。但是现有的技术存在以下缺陷:1)现有技术只能针对严格按照PDF标准排版的文档,当PDF文件的排版不严格遵守标准时,该方法的准确率较低,内容发生错误、丢失等问题。2)现有技术一般对于嵌入PDF文件的图表格式有一定的要求,对于不支持的图片格式,亦会丢失内容。3)现有技术对于PDF中的数学公示难以识别,只能将数学公式与普通文字做相同的处理,不能满足对数学公式做区别处理的要求。故现有PDF的格式转化技术存在若干不足,导致程序的健壮性较差,转换的成功率、准确率较低。
发明内容
针对现有技术的不足,本方案中采用机器视觉技术,对PDF文档的版面进行分析,找出文档中的所有内容,有效的保证了不丢失原文档的内容。并且对于PDF文件中的任意格式的图表,均能够得以保留。采用本方法后,PDF文档的转换成功率得到了较大的提升。
本发明所采用的技术方案是:一种PDF文件向OFD文件转化的方法,其特征在于,包括以下步骤:
步骤1:输入PDF文件;
步骤2:利用机器视觉技术对PDF文件进行版面分析,得到内容版块的分布;
步骤3:解析PDF文件数据,获得该文件中的所有元素的对象,以及所有对象的信息;
步骤4:将元素对象和内容版块进行映射,并定位文字、图片、表格、公式等元素的位置,得到PDF文件元素和内容板块的隶属关系;
步骤5:利用对象信息,将映射之后的PDF对象转化为OFD格式的对象;
步骤6:将OFD对象按照输出要求进行排版,并输出OFD文件。
本发明有益效果为:采用方案后,能够自动将单个或批量将PDF文件转换为OFD文件,并且相较于现有方法,有效的保证了转化的成功率和准确率,提高了内容的完整程度。从而降低了储存在PDF文件中的信息的使用难度,提高了PDF文件向OFD文件的转换效率。
附图说明
图1为本发明的流程示意图;
图2为本发明实施例的PDF文件的元素层级结构示意图;
图3为本发明实施例的利用机器视觉技术对PDF文件进行版面分析的示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种PDF文件向OFD文件转化的方法,包括以下步骤:
步骤1:输入一份或者多份PDF格式文档,若输入为多份文档,则依次处理每一份文档或同时处理多份文档。
步骤2:利用机器视觉技术对PDF文件进行版面分析,得到内容版块的分布;
分析的具体方式为:将PDF文件转化成图片文件,使用机器视觉的方法对图片文件进行版面分析。
机器视觉的方法具体为:1)将图片转化为灰度图片,2)以适当的参数进行二值化操作,3)以适当的参数进行腐蚀或膨胀操作,4)以适当的参数查找轮廓,5)查找轮廓的包络。通过以上步骤得到内容板块的分布,如图3。得到内容版块列表。
步骤3:解析PDF文件数据,获得该文件中的所有元素的对象,以及所有对象的信息,得到PDF元素的对象列表。
PDF的对象包括PDF元数据、PDF页面、文字段落、文字字符、文字标点、文字分隔符号、项目符号、图片、几何图形、表格、表格内数据、曲线、直线、线段、水印、多媒体、书签、数字签名、嵌入字体等的其中一种或者多种的组合。
PDF的对象信息包括:1)文本的内容、字体、字号、位置等,2)图片内容的分辨率、图片色域、通道、图层信息、存储格式、图片位置、透明度等,3)表格内容的表头、表格样式、表格内容、表格内包含的前述文本信息等,4)几何图形内容信息包括:矢量几何内容的数学描述、颜色、位置、图层信息、透明度、存储格式,非适量几何内容的前述图片内容信息。5)字体内容的字体名称、字体文件等。
本实施例首先读取PDF文件的数据流,将PDF文件按照页码分解成为若干个Page对象,每一个Page对象为一页PDF文件的内容。解析每一个Page对象包含的数据流信息,如图2所示,从中提取出TextBox、Figure、Line、Rect、Image等对象信息若干,分别对应该页PDF文件中的文字段落、图表、直线、矩形、图像等内容。对于无法直接从Page对象中解析出来的Figure、Image对象,本方案采用机器视觉的方式:将PDF文件转换为图片,从视觉角度分析该图片的版式、边缘、颜色等属性,从图片中定位表格和图片,并生成对应的Figure、Image对象。
对于TextBox对象,其子类为TextLine对象,TextLine对象是一行文字,每一个TextBox对象中包含了若干个TextLine对象。
对于TextLine对象,其子类为Text对象,Text对象是一个汉字(或其他象形文字的一个字)或者一个拼音语言(如:英语、法语)的单词,每一个TextLine对象中包含了若干个Text对象。
对于拼音文字的Text对象,其有子类Char对象,Char对象是一个拼音文字的字母(如:英语的a,b,c等),每一个Text对象中包含了若干个Char对象。
该步骤提取上述所有对象的相关属性,具体来说:
提取TextBox、TextLine、Text、Char对象均的位置坐标、大小等属性,提取Text、Char对象的位置坐标、文字内容、文字字体、文字颜色、文字大小等属性值。
提取Figure的位置坐标、文字内容、上述文字对象的相关属性等。
提取Image对象位置坐标、图片二进制数据或者图片保存路径等属性值。
提取Line对象的位置坐标、颜色、宽度、样式等属性值。
提取Rect对象的位置坐标、颜色、宽度、样式等属性值。
步骤4:将元素对象和内容版块进行映射,并定位文字、图片、表格、公式等元素的位置,具体实现过程是:遍历PDF元素的对象列表,按照对象的位置信息,逐一判断该元素是否在内容板块的位置范围内之中。得到所有内容板块和所有PDF元素对象的位置包含关系。对于不包含文字信息的的内容版块,定义为图片,对于包含一定数量的不连续文字、数字、直线的内容版块,定义为表格,对于包含一定数量的文字、数字、符号,并且满足一定位置要求的内容版块定义为公示。将图片、表格、公式元素进行截图,用于生成OFD对象。
步骤5:利用对象信息,将映射之后的PDF的对象转化为OFD格式的对象,具体实现过程是:按照OFD标准的格式要求,生成全新的OFD对象;或者在PDF对象的基础上保留、修改或者补充增加原有信息,生成OFD对象。
其中OFD格式的对象,包括OFD元数据、OFD页面、文字段落、文字字符、文字标点、文字分隔符号、项目符号、图片、几何图形、表格、表格数据、曲线、直线、线段、水印、多媒体、书签、数字签名、嵌入字体或其中多种组合。
本实施例按照OFD的国家标准(GB/T 33190-2016),对以上对象的属性进行转换、保留、改写或添加,例如:对于一个Text对象,将PDF标准的坐标转化为OFD标准的坐标、字体大小,保留文字的内容等。
步骤6:将OFD对象按照输出要求进行排版,并输出OFD文件;
按照原有PDF文件的视觉样式输出为OFD文件,或者根据应用要求修改原有PDF文件的视觉样式。排版的形式包括:1)程序自动排版,2)人工手动排版。
本实施例中根据排版需要,修改OFD对象中的位置坐标、字体大小、字体颜色等信息,并按照OFD标准将所有对象封装在一个OFD文件中。
本实施例的PDF文件,指的是可移植文档格式(英语:Portable Document Format,简称PDF)文件,包括纯文本型PDF文件、文本加图片混合型PDF文件和纯图片型PDF文件,并且不限制PDF文件内容的语言。
本实施例的OFD文件,指的是电子文件存储与交换格式版式文档(英语OpenFixed-layout Document,简称OFD)的文件,这种文件符合GB/T 33190-2016国家标准,或者满足该国家标准的修订版本。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (10)

1.一种PDF文件向OFD文件转化的方法,其特征在于,包括以下步骤:
步骤1:输入PDF文件;
步骤2:对PDF文件进行版面分析,得到内容版块的分布;
步骤3:解析PDF文件数据,获得该文件中的所有元素的对象,以及所有对象的信息;
步骤4:将元素对象和内容版块进行映射,并定位元素对象的位置,得到PDF文件元素和内容板块的隶属关系;
步骤5:利用对象信息,将映射之后的PDF对象转化为OFD格式的对象;
步骤6:将OFD对象按照输出要求进行排版,并输出OFD文件。
2.根据权利要求1所述的PDF文件向OFD文件转化的方法,其特征在于:步骤2中,利用机器视觉技术对PDF文件进行版面分析。
3.根据权利要求1或2所述的PDF文件向OFD文件转化的方法,其特征在于:步骤2中,利用机器视觉技术对PDF文件进行版面分析,首先将PDF文件转化为图片格式文件,然后对图片格式文件进行处理,确定PDF文件页面中各个内容板块的分布,得到各个内容板块的位置、大小、内容的类型;所述处理方法包括大小变化、灰度变化、二值化、腐蚀、膨胀、开运算和闭运算、图像平滑、边缘检测、几何形状检测和拟合、聚类、坐标变换中的一种方法或者多种方法。
4.根据权利要求1或2所述的PDF文件向OFD文件转化的方法,其特征在于:步骤2中所述内容版块,是一页PDF文件页面中,大于一定间隔,与其他内容不相连的内容区块。
5.根据权利要求1或2所述的PDF文件向OFD文件转化的方法,其特征在于:步骤3中所述元素的对象包括PDF元数据、PDF页面、文字段落、文字字符、文字标点、文字分隔符号、项目符号、图片、几何图形、表格、表格数据、曲线、直线、线段、水印、多媒体、书签、数字签名、嵌入字体或其中多种组合。
6.根据权利要求1或2所述的PDF文件向OFD文件转化的方法,其特征在于:步骤3中所述对象的信息包括:文本内容信息,包括内容、字体、字号、位置;图片内容信息,包括分辨率、图片色域、通道、图层信息、存储格式、图片位置、透明度;表格内容信息,包括的表头、表格样式、表格内容、表格内包含的文本内容信息;几何图形内容信息包括:矢量几何内容的数学描述、颜色、位置、图层信息、透明度、存储格式,非适量几何内容的前述图片内容信息;字体内容的字体名称、字体文件。
7.根据权利要求1所述的PDF文件向OFD文件转化的方法,其特征在于:步骤4中,将元素对象和版面的内容分布进行映射,并定位文字、图片、表格、公式的位置,基于位置信息,得到PDF元素和内容板块的隶属关系。
8.根据权利要求1所述的PDF文件向OFD文件转化的方法,其特征在于:步骤5中所述OFD格式的对象,包括OFD元数据、OFD页面、文字段落、文字字符、文字标点、文字分隔符号、项目符号、图片、几何图形、表格、表格数据、曲线、直线、线段、水印、多媒体、书签、数字签名、嵌入字体或其中多种组合。
9.根据权利要求1所述的PDF文件向OFD文件转化的方法,其特征在于,步骤6的具体实现过程是:按照OFD标准的格式要求,生成全新的OFD对象;或者在PDF对象的基础上保留、修改或者补充增加原有信息,生成OFD对象。
10.根据权利要求1-9任意一项所述的PDF文件向OFD文件转化的方法,其特征在于:所述PDF文件包括纯文本型PDF文件、文本加图片混合型PDF文件和纯图片型PDF文件,并且不限制PDF文件内容的语言。
CN201810131230.XA 2018-02-09 2018-02-09 一种pdf文件向ofd文件转化的方法 Active CN108415887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810131230.XA CN108415887B (zh) 2018-02-09 2018-02-09 一种pdf文件向ofd文件转化的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810131230.XA CN108415887B (zh) 2018-02-09 2018-02-09 一种pdf文件向ofd文件转化的方法

Publications (2)

Publication Number Publication Date
CN108415887A true CN108415887A (zh) 2018-08-17
CN108415887B CN108415887B (zh) 2021-04-16

Family

ID=63127082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810131230.XA Active CN108415887B (zh) 2018-02-09 2018-02-09 一种pdf文件向ofd文件转化的方法

Country Status (1)

Country Link
CN (1) CN108415887B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109739981A (zh) * 2018-12-17 2019-05-10 四川译讯信息科技有限公司 一种pdf文件类别判定方法及文字提取方法
CN109829139A (zh) * 2019-01-30 2019-05-31 中国软件与技术服务股份有限公司 一种doc/docx格式的流式文件转换成ofd格式的版式文件的方法和装置
CN109948123A (zh) * 2018-11-27 2019-06-28 阿里巴巴集团控股有限公司 一种图像合并方法及装置
CN109977088A (zh) * 2019-03-30 2019-07-05 湖北畅云时讯软件技术有限公司 一种预设格式文件转换为ofd格式的方法
CN110109838A (zh) * 2019-05-08 2019-08-09 北京信息科技大学 一种办公文档排版式样的测试方法及装置
CN110348294A (zh) * 2019-05-30 2019-10-18 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备
CN110516124A (zh) * 2019-08-09 2019-11-29 济南浪潮数据技术有限公司 一种文件解析方法、装置和计算机可读存储介质
CN110609982A (zh) * 2019-08-08 2019-12-24 浙江中控技术股份有限公司 Pdf文件数据解析系统及方法
CN110889261A (zh) * 2018-09-06 2020-03-17 陕西国博政通信息科技有限公司 一种电子公文业务处理自动化的方法
CN110929479A (zh) * 2018-09-03 2020-03-27 珠海金山办公软件有限公司 转换pdf扫描件的方法、装置、电子设备及存储介质
CN110941947A (zh) * 2018-09-21 2020-03-31 广州金山移动科技有限公司 一种文档编辑的方法、装置、计算机存储介质及终端
CN111753499A (zh) * 2020-07-07 2020-10-09 江苏中威科技软件系统有限公司 电子表单与ofd版式文件合并展现及目录生成的方法
CN111767698A (zh) * 2020-07-07 2020-10-13 江苏中威科技软件系统有限公司 基于ofd版式文件技术的电子表单系统
CN111881651A (zh) * 2020-08-06 2020-11-03 泰山信息科技有限公司 一种uot流式文档转换成ofd版式文档的方法
CN111897776A (zh) * 2020-06-22 2020-11-06 百望股份有限公司 一种ofd文档的处理方法、电子设备及计算机可读存储介质
CN112100978A (zh) * 2020-09-16 2020-12-18 掌阅科技股份有限公司 基于电子书的排版处理方法、电子设备及存储介质
WO2020252931A1 (zh) * 2019-06-17 2020-12-24 平安科技(深圳)有限公司 一种pdf文件数据提取方法和装置、设备及存储介质
CN113033269A (zh) * 2019-12-25 2021-06-25 华为技术服务有限公司 一种数据处理方法及装置
CN113064560A (zh) * 2021-03-23 2021-07-02 珠海奔图电子有限公司 打印控制方法、打印驱动装置、图像形成设备及存储介质
CN114018243A (zh) * 2021-11-05 2022-02-08 苍穹数码技术股份有限公司 地图数据处理方法、装置、设备及存储介质
CN114118007A (zh) * 2021-12-02 2022-03-01 江苏中威科技软件系统有限公司 一种版式数据流文件转ofd文件的方法
CN115422126A (zh) * 2022-11-04 2022-12-02 浪潮软件股份有限公司 一种证照ofd版式文件快速转图片的方法、系统及装置
WO2023098448A1 (zh) * 2021-12-02 2023-06-08 江苏中威科技软件系统有限公司 一种用于转换ofd文件的方法
CN116704540A (zh) * 2023-08-09 2023-09-05 江苏中威科技软件系统有限公司 将纸质文件内容进行标识并高保真的转换为ofd文件的技术
CN113064560B (zh) * 2021-03-23 2024-06-04 珠海奔图电子有限公司 打印控制方法、打印驱动装置、图像形成设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101699426A (zh) * 2009-11-06 2010-04-28 上海传知信息科技发展有限公司 文档格式转化系统及方法
US20110258231A1 (en) * 2010-03-31 2011-10-20 International Business Machines Corporation Method and Apparatus for Providing the Information of Adverse Drug Effects
CN104346322A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 文档格式处理装置和文档格式处理方法
CN105760534A (zh) * 2016-03-10 2016-07-13 上海晶赞科技发展有限公司 自定义的可序列化的数据结构、hadoop集群、服务器及其应用方法
US20170235848A1 (en) * 2012-08-29 2017-08-17 Dennis Van Dusen System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101699426A (zh) * 2009-11-06 2010-04-28 上海传知信息科技发展有限公司 文档格式转化系统及方法
US20110258231A1 (en) * 2010-03-31 2011-10-20 International Business Machines Corporation Method and Apparatus for Providing the Information of Adverse Drug Effects
US20170235848A1 (en) * 2012-08-29 2017-08-17 Dennis Van Dusen System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction
CN104346322A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 文档格式处理装置和文档格式处理方法
CN105760534A (zh) * 2016-03-10 2016-07-13 上海晶赞科技发展有限公司 自定义的可序列化的数据结构、hadoop集群、服务器及其应用方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: ""European Court of Human Rights Buys PDF/A Compression and Conversion Software"", 《 INTERNATIONAL JOURNAL OF MICROGRAPHICS & OPTICAL TECHNOLOGY》 *
田学军: ""PDF文件格式及其转化方法探讨"", 《荆门职业技术学院学报》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929479A (zh) * 2018-09-03 2020-03-27 珠海金山办公软件有限公司 转换pdf扫描件的方法、装置、电子设备及存储介质
CN110889261A (zh) * 2018-09-06 2020-03-17 陕西国博政通信息科技有限公司 一种电子公文业务处理自动化的方法
CN110941947A (zh) * 2018-09-21 2020-03-31 广州金山移动科技有限公司 一种文档编辑的方法、装置、计算机存储介质及终端
CN109948123A (zh) * 2018-11-27 2019-06-28 阿里巴巴集团控股有限公司 一种图像合并方法及装置
CN109948123B (zh) * 2018-11-27 2023-06-02 创新先进技术有限公司 一种图像合并方法及装置
CN109739981A (zh) * 2018-12-17 2019-05-10 四川译讯信息科技有限公司 一种pdf文件类别判定方法及文字提取方法
CN109829139A (zh) * 2019-01-30 2019-05-31 中国软件与技术服务股份有限公司 一种doc/docx格式的流式文件转换成ofd格式的版式文件的方法和装置
CN109829139B (zh) * 2019-01-30 2023-04-18 中国软件与技术服务股份有限公司 一种doc/docx格式的流式文件转换成ofd格式的版式文件的方法和装置
CN109977088A (zh) * 2019-03-30 2019-07-05 湖北畅云时讯软件技术有限公司 一种预设格式文件转换为ofd格式的方法
CN110109838B (zh) * 2019-05-08 2023-03-21 北京信息科技大学 一种办公文档排版式样的测试方法及装置
CN110109838A (zh) * 2019-05-08 2019-08-09 北京信息科技大学 一种办公文档排版式样的测试方法及装置
CN110348294A (zh) * 2019-05-30 2019-10-18 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备
WO2020238054A1 (zh) * 2019-05-30 2020-12-03 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备
CN110348294B (zh) * 2019-05-30 2024-04-16 平安科技(深圳)有限公司 Pdf文档中图表的定位方法、装置及计算机设备
WO2020252931A1 (zh) * 2019-06-17 2020-12-24 平安科技(深圳)有限公司 一种pdf文件数据提取方法和装置、设备及存储介质
CN110609982A (zh) * 2019-08-08 2019-12-24 浙江中控技术股份有限公司 Pdf文件数据解析系统及方法
CN110516124A (zh) * 2019-08-09 2019-11-29 济南浪潮数据技术有限公司 一种文件解析方法、装置和计算机可读存储介质
CN110516124B (zh) * 2019-08-09 2022-04-22 济南浪潮数据技术有限公司 一种文件解析方法、装置和计算机可读存储介质
CN113033269A (zh) * 2019-12-25 2021-06-25 华为技术服务有限公司 一种数据处理方法及装置
CN113033269B (zh) * 2019-12-25 2023-08-25 华为技术服务有限公司 一种数据处理方法及装置
CN111897776A (zh) * 2020-06-22 2020-11-06 百望股份有限公司 一种ofd文档的处理方法、电子设备及计算机可读存储介质
CN111767698B (zh) * 2020-07-07 2021-02-05 江苏中威科技软件系统有限公司 基于ofd版式文件技术的电子表单系统
CN111753499B (zh) * 2020-07-07 2021-02-05 江苏中威科技软件系统有限公司 电子表单与ofd版式文件合并展现及目录生成的方法
CN111767698A (zh) * 2020-07-07 2020-10-13 江苏中威科技软件系统有限公司 基于ofd版式文件技术的电子表单系统
CN111753499A (zh) * 2020-07-07 2020-10-09 江苏中威科技软件系统有限公司 电子表单与ofd版式文件合并展现及目录生成的方法
CN111881651A (zh) * 2020-08-06 2020-11-03 泰山信息科技有限公司 一种uot流式文档转换成ofd版式文档的方法
CN112100978A (zh) * 2020-09-16 2020-12-18 掌阅科技股份有限公司 基于电子书的排版处理方法、电子设备及存储介质
CN113064560A (zh) * 2021-03-23 2021-07-02 珠海奔图电子有限公司 打印控制方法、打印驱动装置、图像形成设备及存储介质
CN113064560B (zh) * 2021-03-23 2024-06-04 珠海奔图电子有限公司 打印控制方法、打印驱动装置、图像形成设备及存储介质
CN114018243A (zh) * 2021-11-05 2022-02-08 苍穹数码技术股份有限公司 地图数据处理方法、装置、设备及存储介质
WO2023098448A1 (zh) * 2021-12-02 2023-06-08 江苏中威科技软件系统有限公司 一种用于转换ofd文件的方法
WO2023098447A1 (zh) * 2021-12-02 2023-06-08 江苏中威科技软件系统有限公司 一种版式数据流文件转ofd文件的方法
CN114118007B (zh) * 2021-12-02 2022-07-08 江苏中威科技软件系统有限公司 一种版式数据流文件转ofd文件的方法
CN114118007A (zh) * 2021-12-02 2022-03-01 江苏中威科技软件系统有限公司 一种版式数据流文件转ofd文件的方法
CN115422126B (zh) * 2022-11-04 2023-03-24 浪潮软件股份有限公司 一种证照ofd版式文件快速转图片的方法、系统及装置
CN115422126A (zh) * 2022-11-04 2022-12-02 浪潮软件股份有限公司 一种证照ofd版式文件快速转图片的方法、系统及装置
CN116704540A (zh) * 2023-08-09 2023-09-05 江苏中威科技软件系统有限公司 将纸质文件内容进行标识并高保真的转换为ofd文件的技术

Also Published As

Publication number Publication date
CN108415887B (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN108415887A (zh) 一种pdf文件向ofd文件转化的方法
US20240037173A1 (en) System and method for converting the digital typesetting documents used in publishing to a device-specific format for electronic publishing
US8081346B1 (en) System to create image transparency in a file generated utilising a print stream
US9471550B2 (en) Method and apparatus for document conversion with font metrics adjustment for format compatibility
US8201088B2 (en) Method and apparatus for associating with an electronic document a font subset containing select character forms which are different depending on location
US8451489B1 (en) Content-aware method for saving paper and ink while printing a PDF document
JP2009522626A (ja) コンピュータの組版ファイルを作成及び開く方法
CN102081594B (zh) 从可移植电子文档中提取字符外接矩形的设备和方法
RU2004117798A (ru) Способ обработки цифровых рукописных примечаний для распознавания, привязки и переформатирования цифровых рукописных примечаний и система для его осуществления
EP2416238A2 (en) Green printing: re-purposing a document to save ink and paper
CN111178088A (zh) 一种面向xml文档的可配置神经机器翻译方法
Clausner et al. Efficient ocr training data generation with aletheia
CN102289497A (zh) 文档预览图生成系统及方法
CN102110108B (zh) 一种对小样文件的处理方法及装置
CN112036330A (zh) 一种文本识别方法、文本识别装置及可读存储介质
CN107015959A (zh) 一种对pdf文件合版的方法
CN111191470A (zh) 文档翻译方法及装置
CN110737855A (zh) 一种不可复制文字网页内文字的提取方法
CN113297425B (zh) 文档转换方法、装置、服务器及存储介质
CN113378585A (zh) Xml文本数据翻译方法和装置、电子设备、存储介质
CN105335346A (zh) 一种pdf文档的文本提取方法和装置
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN109033054A (zh) 一种英文pdf文档的中文机器注释方法
CN111831460B (zh) 一种文本复制粘贴方法、系统及可读存储介质
CN103942182B (zh) 一种英文文本格式优化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant