CN104063364A - 一种pdf文档识别方法 - Google Patents

一种pdf文档识别方法 Download PDF

Info

Publication number
CN104063364A
CN104063364A CN201310088513.8A CN201310088513A CN104063364A CN 104063364 A CN104063364 A CN 104063364A CN 201310088513 A CN201310088513 A CN 201310088513A CN 104063364 A CN104063364 A CN 104063364A
Authority
CN
China
Prior art keywords
pdf document
paragraph
recognition method
row
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310088513.8A
Other languages
English (en)
Inventor
樊孝龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING BRANCH OF FUJIAN FOXIT SOFTWARE DEVELOPMENT Co Ltd
FOXIT CORP
Original Assignee
BEIJING BRANCH OF FUJIAN FOXIT SOFTWARE DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING BRANCH OF FUJIAN FOXIT SOFTWARE DEVELOPMENT Co Ltd filed Critical BEIJING BRANCH OF FUJIAN FOXIT SOFTWARE DEVELOPMENT Co Ltd
Priority to CN201310088513.8A priority Critical patent/CN104063364A/zh
Priority to PCT/CN2014/000271 priority patent/WO2014146483A1/zh
Priority to US14/778,155 priority patent/US9798925B2/en
Publication of CN104063364A publication Critical patent/CN104063364A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Document Processing Apparatus (AREA)
  • Character Input (AREA)
  • Machine Translation (AREA)

Abstract

本发明一种PDF文档识别方法,包括以下步骤:S1:解析PDF文档中的路径对象,识别PDF文档中的表格;S2:解析PDF文档中表格区域以外的文本对象,识别PDF文档中的文字内容;S3:将识别结果写入临时文件,或将其以附件的形式写入PDF文件。本发明提出的PDF文档识别方法可以识别PDF文档中的表格、段落、标题及列表等对象,从而可以一段落为单位对PDF文档进行编辑,并能够方便地给PDF加标签,确定阅读顺序,方便视觉障碍人群阅读;同时,还可以根据识别结果,导出其他格式文档,极大方便了用户进行阅读和编辑PDF文档。

Description

一种PDF文档识别方法
技术领域
本发明涉及PDF文档编辑技术领域,特别涉及一种识别PDF文档中表格、段落、标题及列表的方法。
背景技术
PDF文档自带书签功能,当用户阅读PDF文档至某一页时,可在该页处添加书签,以便下次阅读时直接点击该书签便可跳到该页,而不必再从头查找,为用户的阅读提供了一定的便利条件。然而,目前的现有技术中,添加书签时只能定位不同的页面,却不能标记同一页面中阅读到的不同位置,因此只能在跳到书签页面之后,从该页面的第一行开始阅读查找。这对于有视觉障碍人群来说仍然是一件耗时耗力的事。因此,如何提供一种方法,不仅可以识别不同的页面,还可以识别同一页面中的不同内容,以便在添加书签时直接定位于页面中的特定位置处,实为本领域技术人员亟待解决的问题。
发明内容
本发明的目的在于解决现有技术中存在的上述缺陷,提供一种可以识别不同组成部分的PDF文档识别方法。
为达上述目的,本发明提供一种PDF文档识别方法,包括以下步骤:
S1:解析PDF文档中的路径对象,识别PDF文档中的表格;
S2:解析PDF文档中表格区域以外的文本对象,识别PDF文档中的文字内容;
S3:将识别结果写入临时文件,或将其以附件的形式写入PDF文件。
根据本发明提供的一种PDF文档识别方法,其中,所述步骤S1中包括:
S11:提取水平方向和竖直方向的线条路径对象,将所提取到的线条总和识别为一个表格;
S12:找出所提取到的线条端点在水平方向坐标和竖直方向坐标的最大值和最小值,通过这四个值确定表格的矩形区域;
S13:解析位于表格的矩形区域内的其他对象。
根据本发明提供的一种PDF文档识别方法,其中,所述步骤S2中包括:
S21:找出文档中文本对象与页面左边距离的最小值xLmin
S22:找出起始字符与页面左边间距为xLmin+段落缩进的行,定义为段落起始行;将自每个段落起始行起,至下一个段落起始行之间的内容解析为一个段落。
根据本发明提供的一种PDF文档识别方法,其中,若段落只有一行,且该行中的所有字符属性与其他段落中的字符属性不同,则将该行解析为一个段落标题。
根据本发明提供的一种PDF文档识别方法,其中,还包括以下步骤:
S31:根据段落的识别结果,将每段文本的第一个文本对象的首字符提取出来;
S32:比较提取出来的首字符,将所有符合列表特点的首字符所在的段落视为一个列表;其中所述列表特点包括:连续几个段落的首字符为相同的非文字类符号,或者为顺序排列的编号。
与现有技术相比,本发明的有益效果在于:
本发明提出的PDF文档识别方法可以识别PDF文档中的表格、段落、标题及列表等对象,从而可以一段落为单位对PDF文档进行编辑,并能够方便地给PDF加标签,确定阅读顺序,方便视觉障碍人群阅读;同时,还可以根据识别结果,导出其他格式文档,极大方便了用户进行阅读和编辑PDF文档。
具体实施方式
以下对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出的一种PDF文档识别方法,主要用来识别PDF文档中的表格、段落、标题以及列表。其依据就是文档中不同的内容具有不同的特点,比如,每个段落的段首会有两字符缩进量;段落标题与上下文之间的行距及字号、字体均会有所不同;表格通常包含元素表头、列标题、行标题、表尾、单元格、边框,且表格中一定包含多个行高或列高相同的单元格;列表则一般包含前缀特殊符号或编号,即除文字内容之外还会多余一个项目。根据以上特征,本发明通过一系列技术手段提出了PDF文档的识别方法,包括以下步骤:
S1:解析PDF文档中的路径对象,识别PDF文档中的表格;
S2:解析PDF文档中表格区域以外的文本对象,识别PDF文档中的文字内容;
S3:将识别结果写入临时文件,或将其以附件的形式写入PDF文件。
表格识别首先是PDF识别的基础,通过表格识别确定表格区域之后,再对PDF文档的其余部分进行文字识别,并对识别结果进行保存。保存时可采用写入临时文件的方式,由于临时文件中保存的是识别的结果,因此其他需要使用识别结果的应用可以直接对这个文件进行检索,而不用每次都识别一次,可以节省一定的时间。另外还可以利用PDF本身支持附件功能的特性,将识别结果直接按照添加附件的步骤添加到PDF中。
其中,上述步骤S1中识别表格的步骤又包括如下所列:
S11:提取水平方向和竖直方向的线条路径对象,将所提取到的线条总和识别为一个表格;在此还需要剔除既不与其他线条垂直,也不与其他线条平行的线条,以避免存在干扰和误差。
S12:找出所提取到的线条端点在水平方向坐标和竖直方向坐标的最大值和最小值,通过这四个值确定表格的矩形区域。
S13:解析位于表格的矩形区域内的其他对象。
这里的其他对象是指表格区域内的所有文字和符号,如果没有其他对象,则说明当前表格为空表格。
上述步骤S2中的文字内容识别有包括以下步骤:
S21:找出文档中文本对象与页面左边距离的最小值xLmin
S22:找出起始字符与页面左边间距为xLmin+段落缩进的行,定义为段落起始行;将自每个段落起始行起,至下一个段落起始行之间的内容解析为一个段落。
当段落只有一行,且该行中所有字符的属性与其他段落中的字符属性不同时,则将该行为一个段落标题。
而当连续多个段落的的段首都包含除文字之外的符号时,则这些连续的段落组成一个列表。因此,本发明在识别段落的基础上又提出了识别列表的步骤,包括:
S31:根据段落的识别结果,将每段文本的第一个文本对象的首字符提取出来;
S32:比较提取出来的首字符,将所有符合列表特点的首字符所在的段落视为一个列表;其中所述列表特点包括:连续几个段落的首字符为相同的非文字类符号,或者为顺序排列的编号。
综上所述,通过本发明提出的一种PDF文档识别方法,使PDF用户能以流式文档的阅读习惯阅读和操作版式文档;同时可给PDF页面上的不同区域处加标签,确定阅读顺序,方便读者的阅读。
以上对本发明的描述是说明性的,而非限制性的,本专业技术人员理解,在权利要求限定的精神与范围之内可对其进行许多修改、变化或等效,但是它们都将落入本发明的保护范围内。

Claims (5)

1.一种PDF文档识别方法,其特征在于,包括以下步骤:
S1:解析PDF文档中的路径对象,识别PDF文档中的表格;
S2:解析PDF文档中表格区域以外的文本对象,识别PDF文档中的文字内容;
S3:将识别结果写入临时文件,或将其以附件的形式写入PDF文件。
2.根据权利要求1所述的一种PDF文档识别方法,其特征在于,所述步骤S1中包括:
S11:提取水平方向和竖直方向的线条路径对象,将所提取到的线条总和识别为一个表格;
S12:找出所提取到的线条端点在水平方向坐标和竖直方向坐标的最大值和最小值,通过这四个值确定表格的矩形区域;
S13:解析位于表格的矩形区域内的其他对象。
3.根据权利要求1所述的一种PDF文档识别方法,其特征在于,所述步骤S2中包括:
S21:找出文档中文本对象与页面左边距离的最小值xLmin
S22:找出起始字符与页面左边间距为xLmin+段落缩进的行,定义为段落起始行;将自每个段落起始行起,至下一个段落起始行之间的内容解析为一个段落。
4.根据权利要求3所述的一种PDF文档识别方法,其特征在于,若段落只有一行,且该行中的所有字符属性与其他段落中的字符属性不同,则将该行解析为一个段落标题。
5.根据权利要求3所述的一种PDF文档识别方法,其特征在于,还包括以下步骤:
S31:根据段落的识别结果,将每段文本的第一个文本对象的首字符提取出来;
S32:比较提取出来的首字符,将所有符合列表特点的首字符所在的段落视为一个列表;其中所述列表特点包括:连续几个段落的首字符为相同的非文字类符号,或者为顺序排列的编号。
CN201310088513.8A 2013-03-19 2013-03-19 一种pdf文档识别方法 Pending CN104063364A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201310088513.8A CN104063364A (zh) 2013-03-19 2013-03-19 一种pdf文档识别方法
PCT/CN2014/000271 WO2014146483A1 (zh) 2013-03-19 2014-03-14 一种pdf文档识别方法
US14/778,155 US9798925B2 (en) 2013-03-19 2014-03-14 Method for identifying PDF document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310088513.8A CN104063364A (zh) 2013-03-19 2013-03-19 一种pdf文档识别方法

Publications (1)

Publication Number Publication Date
CN104063364A true CN104063364A (zh) 2014-09-24

Family

ID=51551080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310088513.8A Pending CN104063364A (zh) 2013-03-19 2013-03-19 一种pdf文档识别方法

Country Status (3)

Country Link
US (1) US9798925B2 (zh)
CN (1) CN104063364A (zh)
WO (1) WO2014146483A1 (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715233A (zh) * 2014-12-30 2015-06-17 上海孩子国科教设备有限公司 字符转换的方法及系统
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN105912516A (zh) * 2016-04-01 2016-08-31 南京朗坤软件有限公司 一种从AutoCAD文件中一键式提取表格数据的方法
CN106104518A (zh) * 2014-03-08 2016-11-09 微软技术许可有限责任公司 用于按照示例的数据提取的框架
CN106802884A (zh) * 2017-02-17 2017-06-06 同方知网(北京)技术有限公司 一种版式文档正文碎片化的方法
CN107291677A (zh) * 2017-07-14 2017-10-24 北京神州泰岳软件股份有限公司 一种pdf文档标题结构树生成方法、装置、终端及系统
CN107832676A (zh) * 2017-10-16 2018-03-23 平安科技(深圳)有限公司 表格信息换行识别方法、电子设备及计算机可读存储介质
CN107977346A (zh) * 2017-11-23 2018-05-01 万兴科技股份有限公司 一种pdf文档编辑方法及终端设备
CN108062297A (zh) * 2017-11-22 2018-05-22 万兴科技股份有限公司 一种pdf文件文本域的创建方法、创建装置及终端设备
CN108170697A (zh) * 2017-07-12 2018-06-15 信号旗智能科技(上海)有限公司 一种国际贸易文件处理方法、系统以及一种服务器
CN108182171A (zh) * 2017-11-30 2018-06-19 万兴科技股份有限公司 Pdf文件内的路径处理方法及装置
CN108391107A (zh) * 2017-04-01 2018-08-10 苏州龙诺法智能科技有限公司 智能翻译投影仪控制器、控制系统及控制方法
CN108470021A (zh) * 2018-03-26 2018-08-31 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
CN108664458A (zh) * 2017-03-28 2018-10-16 华多九州科技股份有限公司 一种pdf文件表格解析方法及系统
CN108763176A (zh) * 2018-04-10 2018-11-06 达而观信息科技(上海)有限公司 一种文档处理方法及装置
CN109065109A (zh) * 2018-06-28 2018-12-21 杭州势成科技有限公司 一种pdf文件解析方法及系统
WO2019041527A1 (zh) * 2017-08-31 2019-03-07 平安科技(深圳)有限公司 文档图表抽取方法、电子设备及计算机可读存储介质
CN110377885A (zh) * 2019-06-14 2019-10-25 北京百度网讯科技有限公司 转换pdf文件的方法、装置、设备和计算机存储介质
CN110727962A (zh) * 2019-10-17 2020-01-24 武汉英思工程科技股份有限公司 一种适用于全流程过程化的电子签章方法
CN110765826A (zh) * 2018-07-27 2020-02-07 珠海金山办公软件有限公司 一种可移植文档格式pdf中的乱码识别方法和装置
CN110888965A (zh) * 2019-10-22 2020-03-17 深圳市迪博企业风险管理技术有限公司 一种文档数据提取方法及装置
CN111967240A (zh) * 2020-07-09 2020-11-20 深圳价值在线信息科技股份有限公司 文本解析方法、装置、终端设备及计算机可读存储介质
CN112100978A (zh) * 2020-09-16 2020-12-18 掌阅科技股份有限公司 基于电子书的排版处理方法、电子设备及存储介质
CN112307163A (zh) * 2020-08-14 2021-02-02 新颖数位文创股份有限公司 对象识别装置和对象识别方法
CN112685994A (zh) * 2020-12-08 2021-04-20 福建亿榕信息技术有限公司 一种双层pdf文件样式格式化输出方法、装置、设备和介质
CN112861820A (zh) * 2021-04-06 2021-05-28 刘羽 基于pdf文件解析的图谱截图抓取方法
CN113033164A (zh) * 2021-03-31 2021-06-25 善诊(上海)信息技术有限公司 一种pdf文件信息分析方法和装置
CN113221632A (zh) * 2021-03-23 2021-08-06 奇安信科技集团股份有限公司 文档图片识别方法、装置以及计算机设备
CN114495147A (zh) * 2022-01-25 2022-05-13 北京百度网讯科技有限公司 识别方法、装置、设备以及存储介质
CN115618847A (zh) * 2022-12-20 2023-01-17 浙江保融科技股份有限公司 一种解析pdf文档的方法、装置和可读存储介质
CN118095237A (zh) * 2024-03-11 2024-05-28 一汽—大众汽车有限公司 表格生成方法、电子设备和存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106959940A (zh) * 2017-03-30 2017-07-18 程梦梦 一种便于文档自动化录入的文档格式及转换和识别方法
CN108132916B (zh) * 2017-11-30 2022-02-11 厦门市美亚柏科信息股份有限公司 解析pdf表格数据的方法、存储介质
CN110147537A (zh) * 2018-02-11 2019-08-20 鼎复数据科技(北京)有限公司 一种基于位置关系的pdf表格抽取方法
CN110941972B (zh) * 2018-09-21 2023-11-28 广州金山移动科技有限公司 一种pdf文档中文字的分段方法、装置及电子设备
CN109446487A (zh) * 2018-11-01 2019-03-08 北京神州泰岳软件股份有限公司 一种解析便携式文档格式文档表格的方法及装置
CN110837788B (zh) * 2019-10-31 2022-10-28 北京深度制耀科技有限公司 一种pdf文档的处理方法及装置
CN111046096B (zh) * 2019-12-16 2023-11-24 北京信息科技大学 用于生成图文结构化信息的方法和装置
CN113807158A (zh) * 2020-12-04 2021-12-17 四川医枢科技股份有限公司 一种pdf内容提取方法、装置及设备
CN113343744B (zh) * 2021-01-21 2024-09-10 西安理工大学 一种解决pdf中复杂流程图的自动识别与解析方法
CN112861822B (zh) * 2021-04-06 2024-03-12 刘羽 基于pdf文件解析的图谱数据处理方法
CN112861821B (zh) * 2021-04-06 2024-04-19 刘羽 基于pdf文件解析的图谱数据还原方法
US20240126800A1 (en) * 2022-10-16 2024-04-18 Oracle International Corporation Generating tagged content from a list in an electronic document
CN118379750B (zh) * 2024-06-25 2024-08-30 山东浪潮科学研究院有限公司 文档向量化并行加速方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060190804A1 (en) * 2005-02-22 2006-08-24 Yang George L Writing and reading aid system
CN101452445A (zh) * 2007-12-07 2009-06-10 北大方正集团有限公司 一种段落内文字对齐的排版方法及装置
CN101782896A (zh) * 2009-01-21 2010-07-21 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
CN101866335A (zh) * 2010-06-14 2010-10-20 深圳市万兴软件有限公司 一种文档转换中的表格处理方法及装置
CN101876967A (zh) * 2010-03-25 2010-11-03 深圳市万兴软件有限公司 一种pdf文本段落生成的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6968504B2 (en) * 2001-06-29 2005-11-22 Microsoft Corporation Automated document formatting tool
US7603351B2 (en) * 2006-04-19 2009-10-13 Apple Inc. Semantic reconstruction
CN101976232B (zh) * 2010-09-19 2012-06-20 深圳市万兴软件有限公司 一种识别文档中数据表格的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060190804A1 (en) * 2005-02-22 2006-08-24 Yang George L Writing and reading aid system
CN101452445A (zh) * 2007-12-07 2009-06-10 北大方正集团有限公司 一种段落内文字对齐的排版方法及装置
CN101782896A (zh) * 2009-01-21 2010-07-21 汉王科技股份有限公司 结合ocr技术的pdf文字提取方法
CN101876967A (zh) * 2010-03-25 2010-11-03 深圳市万兴软件有限公司 一种pdf文本段落生成的方法
CN101866335A (zh) * 2010-06-14 2010-10-20 深圳市万兴软件有限公司 一种文档转换中的表格处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵长领: ""基于XML的中间文档信息提取技术研究"", 《中国优秀博硕士学位论文全文数据库 (硕士) 信息科技辑》 *

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106104518A (zh) * 2014-03-08 2016-11-09 微软技术许可有限责任公司 用于按照示例的数据提取的框架
CN104715233A (zh) * 2014-12-30 2015-06-17 上海孩子国科教设备有限公司 字符转换的方法及系统
CN105589841A (zh) * 2016-01-15 2016-05-18 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN105589841B (zh) * 2016-01-15 2018-03-30 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN105912516A (zh) * 2016-04-01 2016-08-31 南京朗坤软件有限公司 一种从AutoCAD文件中一键式提取表格数据的方法
CN105912516B (zh) * 2016-04-01 2019-02-05 朗坤智慧科技股份有限公司 一种从AutoCAD文件中一键式提取表格数据的方法
CN106802884A (zh) * 2017-02-17 2017-06-06 同方知网(北京)技术有限公司 一种版式文档正文碎片化的方法
CN106802884B (zh) * 2017-02-17 2020-09-22 同方知网(北京)技术有限公司 一种版式文档正文碎片化的方法
CN108664458A (zh) * 2017-03-28 2018-10-16 华多九州科技股份有限公司 一种pdf文件表格解析方法及系统
CN108664458B (zh) * 2017-03-28 2022-06-14 中科云投科技股份有限公司 一种pdf文件表格解析方法及系统
CN108391107A (zh) * 2017-04-01 2018-08-10 苏州龙诺法智能科技有限公司 智能翻译投影仪控制器、控制系统及控制方法
CN108170697A (zh) * 2017-07-12 2018-06-15 信号旗智能科技(上海)有限公司 一种国际贸易文件处理方法、系统以及一种服务器
CN108170697B (zh) * 2017-07-12 2021-08-20 信号旗智能科技(上海)有限公司 一种国际贸易文件处理方法、系统以及一种服务器
CN107291677A (zh) * 2017-07-14 2017-10-24 北京神州泰岳软件股份有限公司 一种pdf文档标题结构树生成方法、装置、终端及系统
WO2019041527A1 (zh) * 2017-08-31 2019-03-07 平安科技(深圳)有限公司 文档图表抽取方法、电子设备及计算机可读存储介质
CN107832676B (zh) * 2017-10-16 2024-02-02 平安科技(深圳)有限公司 表格信息换行识别方法、电子设备及计算机可读存储介质
CN107832676A (zh) * 2017-10-16 2018-03-23 平安科技(深圳)有限公司 表格信息换行识别方法、电子设备及计算机可读存储介质
CN108062297B (zh) * 2017-11-22 2021-06-15 深圳市亿图软件有限公司 一种pdf文件文本域的创建方法、创建装置及终端设备
CN108062297A (zh) * 2017-11-22 2018-05-22 万兴科技股份有限公司 一种pdf文件文本域的创建方法、创建装置及终端设备
CN107977346A (zh) * 2017-11-23 2018-05-01 万兴科技股份有限公司 一种pdf文档编辑方法及终端设备
CN107977346B (zh) * 2017-11-23 2021-06-15 深圳市亿图软件有限公司 一种pdf文档编辑方法及终端设备
CN108182171A (zh) * 2017-11-30 2018-06-19 万兴科技股份有限公司 Pdf文件内的路径处理方法及装置
CN108182171B (zh) * 2017-11-30 2021-07-27 万兴科技股份有限公司 Pdf文件内的路径处理方法及装置
CN108470021A (zh) * 2018-03-26 2018-08-31 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
CN108470021B (zh) * 2018-03-26 2022-06-03 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
CN108763176A (zh) * 2018-04-10 2018-11-06 达而观信息科技(上海)有限公司 一种文档处理方法及装置
CN109065109A (zh) * 2018-06-28 2018-12-21 杭州势成科技有限公司 一种pdf文件解析方法及系统
CN110765826A (zh) * 2018-07-27 2020-02-07 珠海金山办公软件有限公司 一种可移植文档格式pdf中的乱码识别方法和装置
CN110377885A (zh) * 2019-06-14 2019-10-25 北京百度网讯科技有限公司 转换pdf文件的方法、装置、设备和计算机存储介质
CN110377885B (zh) * 2019-06-14 2023-09-26 北京百度网讯科技有限公司 转换pdf文件的方法、装置、设备和计算机存储介质
CN110727962A (zh) * 2019-10-17 2020-01-24 武汉英思工程科技股份有限公司 一种适用于全流程过程化的电子签章方法
CN110727962B (zh) * 2019-10-17 2023-07-07 武汉英思工程科技股份有限公司 一种适用于全流程过程化的电子签章方法
CN110888965A (zh) * 2019-10-22 2020-03-17 深圳市迪博企业风险管理技术有限公司 一种文档数据提取方法及装置
CN111967240A (zh) * 2020-07-09 2020-11-20 深圳价值在线信息科技股份有限公司 文本解析方法、装置、终端设备及计算机可读存储介质
CN112307163A (zh) * 2020-08-14 2021-02-02 新颖数位文创股份有限公司 对象识别装置和对象识别方法
CN112100978B (zh) * 2020-09-16 2022-07-08 掌阅科技股份有限公司 基于电子书的排版处理方法、电子设备及存储介质
CN112100978A (zh) * 2020-09-16 2020-12-18 掌阅科技股份有限公司 基于电子书的排版处理方法、电子设备及存储介质
CN112685994A (zh) * 2020-12-08 2021-04-20 福建亿榕信息技术有限公司 一种双层pdf文件样式格式化输出方法、装置、设备和介质
CN113221632A (zh) * 2021-03-23 2021-08-06 奇安信科技集团股份有限公司 文档图片识别方法、装置以及计算机设备
CN113033164A (zh) * 2021-03-31 2021-06-25 善诊(上海)信息技术有限公司 一种pdf文件信息分析方法和装置
CN112861820A (zh) * 2021-04-06 2021-05-28 刘羽 基于pdf文件解析的图谱截图抓取方法
CN112861820B (zh) * 2021-04-06 2024-07-26 刘羽 基于pdf文件解析的图谱截图抓取方法
CN114495147A (zh) * 2022-01-25 2022-05-13 北京百度网讯科技有限公司 识别方法、装置、设备以及存储介质
CN115618847A (zh) * 2022-12-20 2023-01-17 浙江保融科技股份有限公司 一种解析pdf文档的方法、装置和可读存储介质
CN118095237A (zh) * 2024-03-11 2024-05-28 一汽—大众汽车有限公司 表格生成方法、电子设备和存储介质

Also Published As

Publication number Publication date
US20160247020A1 (en) 2016-08-25
WO2014146483A1 (zh) 2014-09-25
US9798925B2 (en) 2017-10-24

Similar Documents

Publication Publication Date Title
CN104063364A (zh) 一种pdf文档识别方法
CN106709032B (zh) 抽取电子表格文档中结构化信息的方法及装置
CN103914443B (zh) 一种多语种文字的混排方法及装置
CN105224518B (zh) 文本相似度的计算方法及系统、相似文本的查找方法及系统
WO2019075969A1 (zh) 表格信息结构化提取方法、电子设备及计算机可读存储介质
CN108763591A (zh) 一种网页正文提取方法、装置、计算机装置及计算机可读存储介质
CN101882384A (zh) 一种在电子书上进行笔记管理的方法及电子书设备
CN101770446A (zh) 一种版式文件中表格识别方法及系统
CN110704570A (zh) 一种连续页版式文档结构化信息提取方法
US20120259618A1 (en) Computing device and method for comparing text data
CN102270206A (zh) 一种有效网页内容的抓取方法及装置
CN103488423A (zh) 实现电子阅读器中书签功能的方法和装置
WO2011072434A1 (en) System and method for web content extraction
CN105159877A (zh) 一种跨媒体自动排版系统及其方法
CN105654022A (zh) 一种提取文档结构化信息的方法及装置
CN102043762A (zh) 一种版面比对的方法及装置
CN101008940B (zh) 自动处理字体缺失的方法与装置
CN103942211A (zh) 一种正文页的识别方法及装置
JP2009506394A5 (zh)
CN102346748A (zh) 网络文学目录型网页自动识别方法
CN106446139A (zh) 一种提取网页内容的方法及装置
CN105488471A (zh) 一种字形识别方法及装置
US9418051B2 (en) Methods and devices for extracting document structure
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN102110108B (zh) 一种对小样文件的处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140924

RJ01 Rejection of invention patent application after publication