CN108415887A - 一种pdf文件向ofd文件转化的方法 - Google Patents
一种pdf文件向ofd文件转化的方法 Download PDFInfo
- Publication number
- CN108415887A CN108415887A CN201810131230.XA CN201810131230A CN108415887A CN 108415887 A CN108415887 A CN 108415887A CN 201810131230 A CN201810131230 A CN 201810131230A CN 108415887 A CN108415887 A CN 108415887A
- Authority
- CN
- China
- Prior art keywords
- pdf document
- ofd
- content
- converted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/189—Automatic justification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种PDF文件向OFD文件转化的方法,首先输入PDF文件;然后利用机器视觉技术对PDF文件进行版面分析,得到版面的内容分布,再解析PDF文件数据,获得该文件中的所有元素的对象,以及对象信息;然后将对象与版面分布进行映射,定位文字、图片、表格、公式等元素,接着利用映射之后的对象信息,将PDF的对象转化为OFD格式的对象;最后将OFD对象按照输出要求进行排版,并输出OFD文件。本发明能够以较高的正确率自动将单个或批量PDF文件转换为OFD文件,并且有效地保证了PDF文件中的图片、表格、公式等特殊元素的正确性。降低了储存在PDF文件中的信息的使用难度,提高了PDF文件向OFD文件的转换效率。
Description
技术领域
本发明属于计算机技术领域,涉及一种文件转化方法,尤其涉及一种PDF文件向OFD文件转化的方法。
技术背景
PDF格式是国际上现行的最流行的文件传输格式之一,是Adobe公司于1993年推出的技术标准,并于2008年开放成为国际标准。其最为显著的特征是它的跨平台性和打印时所见即所得的特点。但是PDF技术也存在着诸如:标准体系过于庞大、技术门槛较高等问题,不利于信息的有效传播和利用。
我国于2016年正式发布了OFD国家标准,可满足版式文件的可管可控、长期保存等需求,实现了与PDF格式基本一致的功能。因为该标准采用通用的XML语言对文件版式进行描述,从而大大降低了该标准的技术门槛,有利于信息的传播和利用。
现有的PDF格式转化技术,多数使用直接解析PDF文件数据流的方式,从数据流中读取元素的信息。但是现有的技术存在以下缺陷:1)现有技术只能针对严格按照PDF标准排版的文档,当PDF文件的排版不严格遵守标准时,该方法的准确率较低,内容发生错误、丢失等问题。2)现有技术一般对于嵌入PDF文件的图表格式有一定的要求,对于不支持的图片格式,亦会丢失内容。3)现有技术对于PDF中的数学公示难以识别,只能将数学公式与普通文字做相同的处理,不能满足对数学公式做区别处理的要求。故现有PDF的格式转化技术存在若干不足,导致程序的健壮性较差,转换的成功率、准确率较低。
发明内容
针对现有技术的不足,本方案中采用机器视觉技术,对PDF文档的版面进行分析,找出文档中的所有内容,有效的保证了不丢失原文档的内容。并且对于PDF文件中的任意格式的图表,均能够得以保留。采用本方法后,PDF文档的转换成功率得到了较大的提升。
本发明所采用的技术方案是:一种PDF文件向OFD文件转化的方法,其特征在于,包括以下步骤:
步骤1:输入PDF文件;
步骤2:利用机器视觉技术对PDF文件进行版面分析,得到内容版块的分布;
步骤3:解析PDF文件数据,获得该文件中的所有元素的对象,以及所有对象的信息;
步骤4:将元素对象和内容版块进行映射,并定位文字、图片、表格、公式等元素的位置,得到PDF文件元素和内容板块的隶属关系;
步骤5:利用对象信息,将映射之后的PDF对象转化为OFD格式的对象;
步骤6:将OFD对象按照输出要求进行排版,并输出OFD文件。
本发明有益效果为:采用方案后,能够自动将单个或批量将PDF文件转换为OFD文件,并且相较于现有方法,有效的保证了转化的成功率和准确率,提高了内容的完整程度。从而降低了储存在PDF文件中的信息的使用难度,提高了PDF文件向OFD文件的转换效率。
附图说明
图1为本发明的流程示意图;
图2为本发明实施例的PDF文件的元素层级结构示意图;
图3为本发明实施例的利用机器视觉技术对PDF文件进行版面分析的示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种PDF文件向OFD文件转化的方法,包括以下步骤:
步骤1:输入一份或者多份PDF格式文档,若输入为多份文档,则依次处理每一份文档或同时处理多份文档。
步骤2:利用机器视觉技术对PDF文件进行版面分析,得到内容版块的分布;
分析的具体方式为:将PDF文件转化成图片文件,使用机器视觉的方法对图片文件进行版面分析。
机器视觉的方法具体为:1)将图片转化为灰度图片,2)以适当的参数进行二值化操作,3)以适当的参数进行腐蚀或膨胀操作,4)以适当的参数查找轮廓,5)查找轮廓的包络。通过以上步骤得到内容板块的分布,如图3。得到内容版块列表。
步骤3:解析PDF文件数据,获得该文件中的所有元素的对象,以及所有对象的信息,得到PDF元素的对象列表。
PDF的对象包括PDF元数据、PDF页面、文字段落、文字字符、文字标点、文字分隔符号、项目符号、图片、几何图形、表格、表格内数据、曲线、直线、线段、水印、多媒体、书签、数字签名、嵌入字体等的其中一种或者多种的组合。
PDF的对象信息包括:1)文本的内容、字体、字号、位置等,2)图片内容的分辨率、图片色域、通道、图层信息、存储格式、图片位置、透明度等,3)表格内容的表头、表格样式、表格内容、表格内包含的前述文本信息等,4)几何图形内容信息包括:矢量几何内容的数学描述、颜色、位置、图层信息、透明度、存储格式,非适量几何内容的前述图片内容信息。5)字体内容的字体名称、字体文件等。
本实施例首先读取PDF文件的数据流,将PDF文件按照页码分解成为若干个Page对象,每一个Page对象为一页PDF文件的内容。解析每一个Page对象包含的数据流信息,如图2所示,从中提取出TextBox、Figure、Line、Rect、Image等对象信息若干,分别对应该页PDF文件中的文字段落、图表、直线、矩形、图像等内容。对于无法直接从Page对象中解析出来的Figure、Image对象,本方案采用机器视觉的方式:将PDF文件转换为图片,从视觉角度分析该图片的版式、边缘、颜色等属性,从图片中定位表格和图片,并生成对应的Figure、Image对象。
对于TextBox对象,其子类为TextLine对象,TextLine对象是一行文字,每一个TextBox对象中包含了若干个TextLine对象。
对于TextLine对象,其子类为Text对象,Text对象是一个汉字(或其他象形文字的一个字)或者一个拼音语言(如:英语、法语)的单词,每一个TextLine对象中包含了若干个Text对象。
对于拼音文字的Text对象,其有子类Char对象,Char对象是一个拼音文字的字母(如:英语的a,b,c等),每一个Text对象中包含了若干个Char对象。
该步骤提取上述所有对象的相关属性,具体来说:
提取TextBox、TextLine、Text、Char对象均的位置坐标、大小等属性,提取Text、Char对象的位置坐标、文字内容、文字字体、文字颜色、文字大小等属性值。
提取Figure的位置坐标、文字内容、上述文字对象的相关属性等。
提取Image对象位置坐标、图片二进制数据或者图片保存路径等属性值。
提取Line对象的位置坐标、颜色、宽度、样式等属性值。
提取Rect对象的位置坐标、颜色、宽度、样式等属性值。
步骤4:将元素对象和内容版块进行映射,并定位文字、图片、表格、公式等元素的位置,具体实现过程是:遍历PDF元素的对象列表,按照对象的位置信息,逐一判断该元素是否在内容板块的位置范围内之中。得到所有内容板块和所有PDF元素对象的位置包含关系。对于不包含文字信息的的内容版块,定义为图片,对于包含一定数量的不连续文字、数字、直线的内容版块,定义为表格,对于包含一定数量的文字、数字、符号,并且满足一定位置要求的内容版块定义为公示。将图片、表格、公式元素进行截图,用于生成OFD对象。
步骤5:利用对象信息,将映射之后的PDF的对象转化为OFD格式的对象,具体实现过程是:按照OFD标准的格式要求,生成全新的OFD对象;或者在PDF对象的基础上保留、修改或者补充增加原有信息,生成OFD对象。
其中OFD格式的对象,包括OFD元数据、OFD页面、文字段落、文字字符、文字标点、文字分隔符号、项目符号、图片、几何图形、表格、表格数据、曲线、直线、线段、水印、多媒体、书签、数字签名、嵌入字体或其中多种组合。
本实施例按照OFD的国家标准(GB/T 33190-2016),对以上对象的属性进行转换、保留、改写或添加,例如:对于一个Text对象,将PDF标准的坐标转化为OFD标准的坐标、字体大小,保留文字的内容等。
步骤6:将OFD对象按照输出要求进行排版,并输出OFD文件;
按照原有PDF文件的视觉样式输出为OFD文件,或者根据应用要求修改原有PDF文件的视觉样式。排版的形式包括:1)程序自动排版,2)人工手动排版。
本实施例中根据排版需要,修改OFD对象中的位置坐标、字体大小、字体颜色等信息,并按照OFD标准将所有对象封装在一个OFD文件中。
本实施例的PDF文件,指的是可移植文档格式(英语:Portable Document Format,简称PDF)文件,包括纯文本型PDF文件、文本加图片混合型PDF文件和纯图片型PDF文件,并且不限制PDF文件内容的语言。
本实施例的OFD文件,指的是电子文件存储与交换格式版式文档(英语OpenFixed-layout Document,简称OFD)的文件,这种文件符合GB/T 33190-2016国家标准,或者满足该国家标准的修订版本。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (10)
1.一种PDF文件向OFD文件转化的方法,其特征在于,包括以下步骤:
步骤1:输入PDF文件;
步骤2:对PDF文件进行版面分析,得到内容版块的分布;
步骤3:解析PDF文件数据,获得该文件中的所有元素的对象,以及所有对象的信息;
步骤4:将元素对象和内容版块进行映射,并定位元素对象的位置,得到PDF文件元素和内容板块的隶属关系;
步骤5:利用对象信息,将映射之后的PDF对象转化为OFD格式的对象;
步骤6:将OFD对象按照输出要求进行排版,并输出OFD文件。
2.根据权利要求1所述的PDF文件向OFD文件转化的方法,其特征在于:步骤2中,利用机器视觉技术对PDF文件进行版面分析。
3.根据权利要求1或2所述的PDF文件向OFD文件转化的方法,其特征在于:步骤2中,利用机器视觉技术对PDF文件进行版面分析,首先将PDF文件转化为图片格式文件,然后对图片格式文件进行处理,确定PDF文件页面中各个内容板块的分布,得到各个内容板块的位置、大小、内容的类型;所述处理方法包括大小变化、灰度变化、二值化、腐蚀、膨胀、开运算和闭运算、图像平滑、边缘检测、几何形状检测和拟合、聚类、坐标变换中的一种方法或者多种方法。
4.根据权利要求1或2所述的PDF文件向OFD文件转化的方法,其特征在于:步骤2中所述内容版块,是一页PDF文件页面中,大于一定间隔,与其他内容不相连的内容区块。
5.根据权利要求1或2所述的PDF文件向OFD文件转化的方法,其特征在于:步骤3中所述元素的对象包括PDF元数据、PDF页面、文字段落、文字字符、文字标点、文字分隔符号、项目符号、图片、几何图形、表格、表格数据、曲线、直线、线段、水印、多媒体、书签、数字签名、嵌入字体或其中多种组合。
6.根据权利要求1或2所述的PDF文件向OFD文件转化的方法,其特征在于:步骤3中所述对象的信息包括:文本内容信息,包括内容、字体、字号、位置;图片内容信息,包括分辨率、图片色域、通道、图层信息、存储格式、图片位置、透明度;表格内容信息,包括的表头、表格样式、表格内容、表格内包含的文本内容信息;几何图形内容信息包括:矢量几何内容的数学描述、颜色、位置、图层信息、透明度、存储格式,非适量几何内容的前述图片内容信息;字体内容的字体名称、字体文件。
7.根据权利要求1所述的PDF文件向OFD文件转化的方法,其特征在于:步骤4中,将元素对象和版面的内容分布进行映射,并定位文字、图片、表格、公式的位置,基于位置信息,得到PDF元素和内容板块的隶属关系。
8.根据权利要求1所述的PDF文件向OFD文件转化的方法,其特征在于:步骤5中所述OFD格式的对象,包括OFD元数据、OFD页面、文字段落、文字字符、文字标点、文字分隔符号、项目符号、图片、几何图形、表格、表格数据、曲线、直线、线段、水印、多媒体、书签、数字签名、嵌入字体或其中多种组合。
9.根据权利要求1所述的PDF文件向OFD文件转化的方法,其特征在于,步骤6的具体实现过程是:按照OFD标准的格式要求,生成全新的OFD对象;或者在PDF对象的基础上保留、修改或者补充增加原有信息,生成OFD对象。
10.根据权利要求1-9任意一项所述的PDF文件向OFD文件转化的方法,其特征在于:所述PDF文件包括纯文本型PDF文件、文本加图片混合型PDF文件和纯图片型PDF文件,并且不限制PDF文件内容的语言。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810131230.XA CN108415887B (zh) | 2018-02-09 | 2018-02-09 | 一种pdf文件向ofd文件转化的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810131230.XA CN108415887B (zh) | 2018-02-09 | 2018-02-09 | 一种pdf文件向ofd文件转化的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108415887A true CN108415887A (zh) | 2018-08-17 |
CN108415887B CN108415887B (zh) | 2021-04-16 |
Family
ID=63127082
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810131230.XA Active CN108415887B (zh) | 2018-02-09 | 2018-02-09 | 一种pdf文件向ofd文件转化的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108415887B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109739981A (zh) * | 2018-12-17 | 2019-05-10 | 四川译讯信息科技有限公司 | 一种pdf文件类别判定方法及文字提取方法 |
CN109829139A (zh) * | 2019-01-30 | 2019-05-31 | 中国软件与技术服务股份有限公司 | 一种doc/docx格式的流式文件转换成ofd格式的版式文件的方法和装置 |
CN109948123A (zh) * | 2018-11-27 | 2019-06-28 | 阿里巴巴集团控股有限公司 | 一种图像合并方法及装置 |
CN109977088A (zh) * | 2019-03-30 | 2019-07-05 | 湖北畅云时讯软件技术有限公司 | 一种预设格式文件转换为ofd格式的方法 |
CN110109838A (zh) * | 2019-05-08 | 2019-08-09 | 北京信息科技大学 | 一种办公文档排版式样的测试方法及装置 |
CN110348294A (zh) * | 2019-05-30 | 2019-10-18 | 平安科技(深圳)有限公司 | Pdf文档中图表的定位方法、装置及计算机设备 |
CN110516124A (zh) * | 2019-08-09 | 2019-11-29 | 济南浪潮数据技术有限公司 | 一种文件解析方法、装置和计算机可读存储介质 |
CN110609982A (zh) * | 2019-08-08 | 2019-12-24 | 浙江中控技术股份有限公司 | Pdf文件数据解析系统及方法 |
CN110889261A (zh) * | 2018-09-06 | 2020-03-17 | 陕西国博政通信息科技有限公司 | 一种电子公文业务处理自动化的方法 |
CN110929479A (zh) * | 2018-09-03 | 2020-03-27 | 珠海金山办公软件有限公司 | 转换pdf扫描件的方法、装置、电子设备及存储介质 |
CN110941947A (zh) * | 2018-09-21 | 2020-03-31 | 广州金山移动科技有限公司 | 一种文档编辑的方法、装置、计算机存储介质及终端 |
CN111753499A (zh) * | 2020-07-07 | 2020-10-09 | 江苏中威科技软件系统有限公司 | 电子表单与ofd版式文件合并展现及目录生成的方法 |
CN111767698A (zh) * | 2020-07-07 | 2020-10-13 | 江苏中威科技软件系统有限公司 | 基于ofd版式文件技术的电子表单系统 |
CN111881651A (zh) * | 2020-08-06 | 2020-11-03 | 泰山信息科技有限公司 | 一种uot流式文档转换成ofd版式文档的方法 |
CN111897776A (zh) * | 2020-06-22 | 2020-11-06 | 百望股份有限公司 | 一种ofd文档的处理方法、电子设备及计算机可读存储介质 |
CN112100978A (zh) * | 2020-09-16 | 2020-12-18 | 掌阅科技股份有限公司 | 基于电子书的排版处理方法、电子设备及存储介质 |
WO2020252931A1 (zh) * | 2019-06-17 | 2020-12-24 | 平安科技(深圳)有限公司 | 一种pdf文件数据提取方法和装置、设备及存储介质 |
CN113033269A (zh) * | 2019-12-25 | 2021-06-25 | 华为技术服务有限公司 | 一种数据处理方法及装置 |
CN113064560A (zh) * | 2021-03-23 | 2021-07-02 | 珠海奔图电子有限公司 | 打印控制方法、打印驱动装置、图像形成设备及存储介质 |
CN114018243A (zh) * | 2021-11-05 | 2022-02-08 | 苍穹数码技术股份有限公司 | 地图数据处理方法、装置、设备及存储介质 |
CN114118007A (zh) * | 2021-12-02 | 2022-03-01 | 江苏中威科技软件系统有限公司 | 一种版式数据流文件转ofd文件的方法 |
CN115422126A (zh) * | 2022-11-04 | 2022-12-02 | 浪潮软件股份有限公司 | 一种证照ofd版式文件快速转图片的方法、系统及装置 |
WO2023098448A1 (zh) * | 2021-12-02 | 2023-06-08 | 江苏中威科技软件系统有限公司 | 一种用于转换ofd文件的方法 |
CN116704540A (zh) * | 2023-08-09 | 2023-09-05 | 江苏中威科技软件系统有限公司 | 将纸质文件内容进行标识并高保真的转换为ofd文件的技术 |
CN113064560B (zh) * | 2021-03-23 | 2024-06-04 | 珠海奔图电子有限公司 | 打印控制方法、打印驱动装置、图像形成设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101699426A (zh) * | 2009-11-06 | 2010-04-28 | 上海传知信息科技发展有限公司 | 文档格式转化系统及方法 |
US20110258231A1 (en) * | 2010-03-31 | 2011-10-20 | International Business Machines Corporation | Method and Apparatus for Providing the Information of Adverse Drug Effects |
CN104346322A (zh) * | 2013-08-08 | 2015-02-11 | 北大方正集团有限公司 | 文档格式处理装置和文档格式处理方法 |
CN105760534A (zh) * | 2016-03-10 | 2016-07-13 | 上海晶赞科技发展有限公司 | 自定义的可序列化的数据结构、hadoop集群、服务器及其应用方法 |
US20170235848A1 (en) * | 2012-08-29 | 2017-08-17 | Dennis Van Dusen | System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction |
-
2018
- 2018-02-09 CN CN201810131230.XA patent/CN108415887B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101699426A (zh) * | 2009-11-06 | 2010-04-28 | 上海传知信息科技发展有限公司 | 文档格式转化系统及方法 |
US20110258231A1 (en) * | 2010-03-31 | 2011-10-20 | International Business Machines Corporation | Method and Apparatus for Providing the Information of Adverse Drug Effects |
US20170235848A1 (en) * | 2012-08-29 | 2017-08-17 | Dennis Van Dusen | System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction |
CN104346322A (zh) * | 2013-08-08 | 2015-02-11 | 北大方正集团有限公司 | 文档格式处理装置和文档格式处理方法 |
CN105760534A (zh) * | 2016-03-10 | 2016-07-13 | 上海晶赞科技发展有限公司 | 自定义的可序列化的数据结构、hadoop集群、服务器及其应用方法 |
Non-Patent Citations (2)
Title |
---|
ANONYMOUS: ""European Court of Human Rights Buys PDF/A Compression and Conversion Software"", 《 INTERNATIONAL JOURNAL OF MICROGRAPHICS & OPTICAL TECHNOLOGY》 * |
田学军: ""PDF文件格式及其转化方法探讨"", 《荆门职业技术学院学报》 * |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929479A (zh) * | 2018-09-03 | 2020-03-27 | 珠海金山办公软件有限公司 | 转换pdf扫描件的方法、装置、电子设备及存储介质 |
CN110889261A (zh) * | 2018-09-06 | 2020-03-17 | 陕西国博政通信息科技有限公司 | 一种电子公文业务处理自动化的方法 |
CN110941947A (zh) * | 2018-09-21 | 2020-03-31 | 广州金山移动科技有限公司 | 一种文档编辑的方法、装置、计算机存储介质及终端 |
CN109948123A (zh) * | 2018-11-27 | 2019-06-28 | 阿里巴巴集团控股有限公司 | 一种图像合并方法及装置 |
CN109948123B (zh) * | 2018-11-27 | 2023-06-02 | 创新先进技术有限公司 | 一种图像合并方法及装置 |
CN109739981A (zh) * | 2018-12-17 | 2019-05-10 | 四川译讯信息科技有限公司 | 一种pdf文件类别判定方法及文字提取方法 |
CN109829139A (zh) * | 2019-01-30 | 2019-05-31 | 中国软件与技术服务股份有限公司 | 一种doc/docx格式的流式文件转换成ofd格式的版式文件的方法和装置 |
CN109829139B (zh) * | 2019-01-30 | 2023-04-18 | 中国软件与技术服务股份有限公司 | 一种doc/docx格式的流式文件转换成ofd格式的版式文件的方法和装置 |
CN109977088A (zh) * | 2019-03-30 | 2019-07-05 | 湖北畅云时讯软件技术有限公司 | 一种预设格式文件转换为ofd格式的方法 |
CN110109838B (zh) * | 2019-05-08 | 2023-03-21 | 北京信息科技大学 | 一种办公文档排版式样的测试方法及装置 |
CN110109838A (zh) * | 2019-05-08 | 2019-08-09 | 北京信息科技大学 | 一种办公文档排版式样的测试方法及装置 |
CN110348294A (zh) * | 2019-05-30 | 2019-10-18 | 平安科技(深圳)有限公司 | Pdf文档中图表的定位方法、装置及计算机设备 |
WO2020238054A1 (zh) * | 2019-05-30 | 2020-12-03 | 平安科技(深圳)有限公司 | Pdf文档中图表的定位方法、装置及计算机设备 |
CN110348294B (zh) * | 2019-05-30 | 2024-04-16 | 平安科技(深圳)有限公司 | Pdf文档中图表的定位方法、装置及计算机设备 |
WO2020252931A1 (zh) * | 2019-06-17 | 2020-12-24 | 平安科技(深圳)有限公司 | 一种pdf文件数据提取方法和装置、设备及存储介质 |
CN110609982A (zh) * | 2019-08-08 | 2019-12-24 | 浙江中控技术股份有限公司 | Pdf文件数据解析系统及方法 |
CN110516124A (zh) * | 2019-08-09 | 2019-11-29 | 济南浪潮数据技术有限公司 | 一种文件解析方法、装置和计算机可读存储介质 |
CN110516124B (zh) * | 2019-08-09 | 2022-04-22 | 济南浪潮数据技术有限公司 | 一种文件解析方法、装置和计算机可读存储介质 |
CN113033269A (zh) * | 2019-12-25 | 2021-06-25 | 华为技术服务有限公司 | 一种数据处理方法及装置 |
CN113033269B (zh) * | 2019-12-25 | 2023-08-25 | 华为技术服务有限公司 | 一种数据处理方法及装置 |
CN111897776A (zh) * | 2020-06-22 | 2020-11-06 | 百望股份有限公司 | 一种ofd文档的处理方法、电子设备及计算机可读存储介质 |
CN111767698B (zh) * | 2020-07-07 | 2021-02-05 | 江苏中威科技软件系统有限公司 | 基于ofd版式文件技术的电子表单系统 |
CN111753499B (zh) * | 2020-07-07 | 2021-02-05 | 江苏中威科技软件系统有限公司 | 电子表单与ofd版式文件合并展现及目录生成的方法 |
CN111767698A (zh) * | 2020-07-07 | 2020-10-13 | 江苏中威科技软件系统有限公司 | 基于ofd版式文件技术的电子表单系统 |
CN111753499A (zh) * | 2020-07-07 | 2020-10-09 | 江苏中威科技软件系统有限公司 | 电子表单与ofd版式文件合并展现及目录生成的方法 |
CN111881651A (zh) * | 2020-08-06 | 2020-11-03 | 泰山信息科技有限公司 | 一种uot流式文档转换成ofd版式文档的方法 |
CN112100978A (zh) * | 2020-09-16 | 2020-12-18 | 掌阅科技股份有限公司 | 基于电子书的排版处理方法、电子设备及存储介质 |
CN113064560A (zh) * | 2021-03-23 | 2021-07-02 | 珠海奔图电子有限公司 | 打印控制方法、打印驱动装置、图像形成设备及存储介质 |
CN113064560B (zh) * | 2021-03-23 | 2024-06-04 | 珠海奔图电子有限公司 | 打印控制方法、打印驱动装置、图像形成设备及存储介质 |
CN114018243A (zh) * | 2021-11-05 | 2022-02-08 | 苍穹数码技术股份有限公司 | 地图数据处理方法、装置、设备及存储介质 |
WO2023098448A1 (zh) * | 2021-12-02 | 2023-06-08 | 江苏中威科技软件系统有限公司 | 一种用于转换ofd文件的方法 |
WO2023098447A1 (zh) * | 2021-12-02 | 2023-06-08 | 江苏中威科技软件系统有限公司 | 一种版式数据流文件转ofd文件的方法 |
CN114118007B (zh) * | 2021-12-02 | 2022-07-08 | 江苏中威科技软件系统有限公司 | 一种版式数据流文件转ofd文件的方法 |
CN114118007A (zh) * | 2021-12-02 | 2022-03-01 | 江苏中威科技软件系统有限公司 | 一种版式数据流文件转ofd文件的方法 |
CN115422126B (zh) * | 2022-11-04 | 2023-03-24 | 浪潮软件股份有限公司 | 一种证照ofd版式文件快速转图片的方法、系统及装置 |
CN115422126A (zh) * | 2022-11-04 | 2022-12-02 | 浪潮软件股份有限公司 | 一种证照ofd版式文件快速转图片的方法、系统及装置 |
CN116704540A (zh) * | 2023-08-09 | 2023-09-05 | 江苏中威科技软件系统有限公司 | 将纸质文件内容进行标识并高保真的转换为ofd文件的技术 |
Also Published As
Publication number | Publication date |
---|---|
CN108415887B (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108415887A (zh) | 一种pdf文件向ofd文件转化的方法 | |
US20240037173A1 (en) | System and method for converting the digital typesetting documents used in publishing to a device-specific format for electronic publishing | |
US8081346B1 (en) | System to create image transparency in a file generated utilising a print stream | |
US9471550B2 (en) | Method and apparatus for document conversion with font metrics adjustment for format compatibility | |
US8201088B2 (en) | Method and apparatus for associating with an electronic document a font subset containing select character forms which are different depending on location | |
US8451489B1 (en) | Content-aware method for saving paper and ink while printing a PDF document | |
JP2009522626A (ja) | コンピュータの組版ファイルを作成及び開く方法 | |
CN102081594B (zh) | 从可移植电子文档中提取字符外接矩形的设备和方法 | |
RU2004117798A (ru) | Способ обработки цифровых рукописных примечаний для распознавания, привязки и переформатирования цифровых рукописных примечаний и система для его осуществления | |
EP2416238A2 (en) | Green printing: re-purposing a document to save ink and paper | |
CN111178088A (zh) | 一种面向xml文档的可配置神经机器翻译方法 | |
Clausner et al. | Efficient ocr training data generation with aletheia | |
CN102289497A (zh) | 文档预览图生成系统及方法 | |
CN102110108B (zh) | 一种对小样文件的处理方法及装置 | |
CN112036330A (zh) | 一种文本识别方法、文本识别装置及可读存储介质 | |
CN107015959A (zh) | 一种对pdf文件合版的方法 | |
CN111191470A (zh) | 文档翻译方法及装置 | |
CN110737855A (zh) | 一种不可复制文字网页内文字的提取方法 | |
CN113297425B (zh) | 文档转换方法、装置、服务器及存储介质 | |
CN113378585A (zh) | Xml文本数据翻译方法和装置、电子设备、存储介质 | |
CN105335346A (zh) | 一种pdf文档的文本提取方法和装置 | |
CN114399782B (zh) | 文本图像处理方法、装置、设备、存储介质及程序产品 | |
CN109033054A (zh) | 一种英文pdf文档的中文机器注释方法 | |
CN111831460B (zh) | 一种文本复制粘贴方法、系统及可读存储介质 | |
CN103942182B (zh) | 一种英文文本格式优化方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |