CN109582928B - Pdf报表数据提取方法及装置 - Google Patents

Pdf报表数据提取方法及装置 Download PDF

Info

Publication number
CN109582928B
CN109582928B CN201811488861.3A CN201811488861A CN109582928B CN 109582928 B CN109582928 B CN 109582928B CN 201811488861 A CN201811488861 A CN 201811488861A CN 109582928 B CN109582928 B CN 109582928B
Authority
CN
China
Prior art keywords
data
report
template
xml format
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811488861.3A
Other languages
English (en)
Other versions
CN109582928A (zh
Inventor
许德峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wondershare Technology Co ltd
Original Assignee
Wondershare Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wondershare Technology Co ltd filed Critical Wondershare Technology Co ltd
Priority to CN201811488861.3A priority Critical patent/CN109582928B/zh
Publication of CN109582928A publication Critical patent/CN109582928A/zh
Application granted granted Critical
Publication of CN109582928B publication Critical patent/CN109582928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/114Pagination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种PDF报表数据提取方法及装置,所述方法包括:根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,其中,XML格式模板包括报表的表头、各个数据项名称,及表头和各个数据项坐标,报表模板中数据项无对应数据。根据XML格式模板中各个数据项坐标,从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据;根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。通过XML格式模板提取PDF文档格式的报表数据,便于对报表数据进行统计,极大的提高了报表的可识别性和灵活性。

Description

PDF报表数据提取方法及装置
技术领域
本申请涉及数据提取领域,具体而言,涉及一种PDF报表数据提取方法及装置。
背景技术
PDF格式具有很强的安全性,保证了PDF文档不能被编辑,至少不能被轻易修改,对PDF文件内的小部分变动可能问题不大,但对PDF文档中的整块文字或影像的修改就相当困难,即便使用编辑工具,也无法避开这类限制。并且PDF格式的文档可通过设置权限,限制用户的内容打印、内容复制甚至是评论或批注的添加、修改或删除,而其他格式则很容易地被修改或编辑。
鉴于以上安全性保障,各大公司的财务报表都是以PDF格式形式进行发布,能够避免数据被肆意篡改的风险。PDF虽然带来了安全性、传输可靠性上的保证,但对于财务报表数据的统计也带来了许多不便,因此,从PDF中提取报表数据信息的需求也就应运而生。
发明内容
为了解决上述问题,本申请实施例提供一种PDF报表数据提取方法及装置。
第一方面,本申请实施例提供一种PDF报表数据提取方法,所述方法包括:
根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,其中,XML格式模板包括报表的表头、各个数据项名称,及表头和各个数据项坐标,报表模板中数据项无对应数据;
根据所述XML格式模板中各个数据项坐标,从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据;
根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。
可选地,在本实施例中,根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,包括:
对所述PDF文档中的第一页面树Pages Root进行检索,以获取第一页面字典;
对所述第一页面字典进行检索,以获取第一页面字典中的第一Contents字典项;
对所述第一Contents字典项进行检索,以获取所述第一Contents字典项中的第一内容流;
根据所述第一内容流中的内容信息和坐标信息创建XML格式的报表模板,其中所述内容信息包括报表的表头、各个数据项名称,所述坐标信息包括表头和各个数据项坐标。
可选地,在本实施例中,所述XML格式模板包括名称节点和坐标节点,其中,所述坐标节点为所述名称节点的子节点,所述根据所述第一内容流中的内容信息和坐标信息创建XML格式的报表模板,包括:
将所述第一内容流中的内容信息写入所述XML格式模板的名称节点中;
将所述第一内容流中的坐标信息写入所述XML格式模板的坐标节点中。
可选地,在本实施例中,在根据所述XML格式模板中各个数据项坐标,从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据之前,还包括解析目标PDF文档的步骤,所述步骤具体包括:
对所述目标PDF文档中的第二页面树Pages Root进行检索,以获取第二页面字典;
多所述第二页面字典进行检索,以获取第二页面字典中的第二Contents字典项;
对所述第二Contents字典项进行检索,以获取所述第二Contents字典项中的第二内容流。
可选地,在本实施例中,所述根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表,包括:
将从所述第二内容流中提取的数据项对应的数据的内容信息及数据的坐标信息写入XML格式模板,以形成XML格式的报表。
可选地,在本实施例中,所述根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表,还包括:
根据XML格式模板中的数据项坐标及预设的数据提取容差值确定该数据项对应的提取范围;
从该提取范围中提取该数据项的数据值。
第二方面,本申请实施例还提供一种PDF报表数据提取装置,所述装置包括:
创建模块,用于根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,其中,XML格式模板包括报表的表头、各个数据项名称,及表头和各个数据项坐标,报表模板中数据项无对应数据;
数据提取模块,用于根据所述XML格式模板中各个数据项坐标,从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据;
数据录入模块,用于根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。
可选的,在本实施例中,所述创建模块具体用于:对所述PDF文档中的第一页面树Pages Root进行检索,以获取第一页面字典;
对所述第一页面字典进行检索,以获取第一页面字典中的第一Contents字典项;
对所述第一Contents字典项进行检索,以获取所述第一Contents字典项中的第一内容流;
根据所述第一内容流中的内容信息和坐标信息创建XML格式的报表模板,其中所述内容信息包括报表的表头、各个数据项名称,所述坐标信息包括表头和各个数据项坐标。
可选的,在本实施例中,所述数据提取模块具体用于:对所述目标PDF文档中的第二页面树Pages Root进行检索,以获取第二页面字典;
多所述第二页面字典进行检索,以获取第二页面字典中的第二Contents字典项;
对所述第二Contents字典项进行检索,以获取所述第二Contents字典项中的第二内容流。
可选的,在本实施例中,所述数据录入模块具体用于:
将从所述第二内容流中提取的数据项对应的数据的内容信息及数据的坐标信息写入XML格式模板,以形成XML格式的报表。
相对于现有技术,本申请实施例具有以下有益效果:
本申请提供了一种PDF报表数据提取方法及装置,所述方法包括:根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,其中,XML格式模板包括报表的表头、各个数据项名称,及表头和各个数据项坐标,报表模板中数据项无对应数据。根据XML格式模板中各个数据项坐标,从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据;根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。通过XML格式模板提取PDF文档格式的报表数据,便于对报表数据进行统计,极大的提高了报表的可识别性和灵活性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的PDF报表数据提取方法的流程图;
图2为本申请实施例提供的报表模板的示意图;
图3为本申请实施例提供的图1中的步骤S110的流程图;
图4为本申请实施例提供的PDF格式的文档的树形层级结构图;
图5为本申请实施例提供的PDF报表数据提取装置的功能模块图。
图标:50-PDF报表数据提取装置;501-创建模块;502-数据提取模块;503-数据录入模块。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
请参照图1,图1为本申请实施例提供的PDF报表数据提取方法的流程图,在本实施例中,所述方法包括以下步骤:
步骤S110,根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板。
请参照图2,图2为本申请实施例提供的报表模板的示意图。在本步骤中,所述XML格式模板包括报表的表头、各个数据项名称,及表头和各个数据项坐标,报表模板中数据项无对应数据。例如,在图2中,“利润表”即为报表的表头,“项目”、“本期金额”等即为各个数据项的名称。
所述PDF文档格式的报表模板在进行解析后,可根据解析结果获取到所述报表模板中报表及每个数据项的坐标。
请参照图3,在本实施例中,所述步骤S110包括以下步骤:
步骤S310,对PDF文档中的第一页面树Pages Root进行检索,以获取第一页面字典。
步骤S320,对第一页面字典进行检索,以获取第一页面字典中的第一Contents字典项。
步骤S330,对第一Contents字典项进行检索,以获取第一Contents字典项中的第一内容流。
步骤S340,根据第一内容流中的内容信息和坐标信息创建XML格式的报表模板。
其中所述内容信息包括报表的表头、各个数据项名称,所述坐标信息包括表头和各个数据项坐标。
在上述步骤中,在根据所述PDF文档格式的报表模板创建与该报表模板对应的XML格式模板时,需要对PDF文档进行解析,解析所述PDF文档后,可根据解析后的结果得到一树形层级结构图,所述树形层级结构图如图4所示,对PDF文档的第一页面树进行检索,以获取PDF文档的第一页面字典,所述第一页面字典中包含有多个表示不同类型的字段,其中,所述Contents字段中包括有PDF文档的第一内容流;根据所述第一内容流即可获得包括报表的表头、各个数据项名称的内容信息及包括表头和各个数据项坐标的坐标信息,根据所述内容信息及坐标信息即可创建XML格式模板。
在本实施例中,所述XML格式模板包括名称节点和坐标节点,其中,所述坐标节点为所述名称节点的子节点,所述根据所述第一内容流中的内容信息和坐标信息创建XML格式的报表模板,包括:
将所述第一内容流中的内容信息写入所述XML格式模板的名称节点中;将所述第一内容流中的坐标信息写入所述XML格式模板的坐标节点中。
结合参照图2,例如图2中的表头“利润表”,假设我们对此PDF文档格式的报表模板解析后得到所述“利润表”的坐标信息为(400,20),则在所述XML格式模板中则有:
<title position=“400,20”,tolerance=“20,20”>利润表</title>
其中,所述tolerance是预设的数据提取容差值,在其他实施方式中,所述数据提取容差值还可根据需要设置为其他值。在上述例子中,title即为XML格式模板的名称节点,position即为所述XML格式模板的坐标节点。由于此处表示的是表头的名称节点及坐标节点,因此采用title作为名称节点的节点名字,表示其他数据项时,可采用其他节点名字作为该数据项的名称节点。
请继续参照图1,在本实施例中,所述PDF报表数据提取方法还包括以下步骤:
步骤S120,根据XML格式模板中各个数据项坐标,从与报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据。
在实施本步骤之前,所述方法还包括解析目标PDF的步骤,所述步骤包括以下子步骤:
对所述目标PDF文档中的第二页面树Pages Root字段进行检索,以获取第二页面字典。
多所述第二页面字典进行检索,以获取第二页面字典中的第二Contents字典项。
对所述第二Contents字典项进行检索,以获取所述第二Contents字典项中的第二内容流。
步骤S220,根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。
在上述步骤中,在对所述目标PDF进行解析后,可获得目标PDF中的第二内容流,所述第二内容流中包括有待提取的数据及数据的坐标。
在本实施例中,将所述第二内容流中的待提取的数据及数据的坐标写入所述XML格式模板中,即可形成XML格式的报表,该报表包括有表头、各个数据项及各个数据项对应的数据,以及表头、各个数据项及各个数据项对应的数据的坐标。
在本实施例中,所述根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表,还包括:
根据XML格式模板中的数据项坐标及预设的数据提取容差值确定该数据项对应的提取范围;从该提取范围中提取该数据项的数据值。
例如,在<title position=“400,20”,tolerance=“20,20”>利润表</title>中,tolerance=“20,20”即为所述数据提取容差值,因此,在提取数据时,可从数据坐标为(x±20,y±20)的范围内进行数据提取。其中,所述x,y为常数,代表PDF文档中的坐标值。
请参照图5,图5为本申请实施例提供的PDF报表数据提取装置50的功能模块图,所述PDF报表数据提取装置50包括:
创建模块501,用于根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,其中,XML格式模板包括报表的表头、各个数据项名称,及表头和各个数据项坐标,报表模板中数据项无对应数据;
数据提取模块502,用于根据所述XML格式模板中各个数据项坐标,从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据;
数据录入模块503,用于根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。
在本实施例中,所述创建模块501具体用于:
对所述PDF文档中的第一页面树Pages Root字段进行检索,以获取第一页面字典;
多所述第一页面字典进行检索,以获取第一页面字典中的第一Contents字典项;
对所述第一Contents字典项进行检索,以获取所述第一Contents字典项中的第一内容流;
根据所述第一内容流中的内容信息和坐标信息创建XML格式的报表模板,其中所述内容信息包括报表的表头、各个数据项名称,所述坐标信息包括表头和各个数据项坐标。
在本实施例中,数据提取模块502具体用于:
对所述目标PDF文档中的第二页面树Pages Root字段进行检索,以获取第二页面字典;
多所述第二页面字典进行检索,以获取第二页面字典中的第二Contents字典项;
对所述第二Contents字典项进行检索,以获取所述第二Contents字典项中的第二内容流。
在本实施例中,所述数据录入模块503具体用于:
将从所述第二内容流中提取的数据项对应的数据的内容信息及数据的坐标信息写入XML格式模板,以形成XML格式的报表。
可以理解的是,本实施例中的各功能模块的具体操作方法可参阅上述方法实施例中相应步骤的详细描述,在此不再重复赘述。
综上所述,本申请提供了一种PDF报表数据提取方法及装置,所述方法包括:根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,其中,XML格式模板包括报表的表头、各个数据项名称,及表头和各个数据项坐标,报表模板中数据项无对应数据。根据XML格式模板中各个数据项坐标,从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据;根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表。通过XML格式模板提取PDF文档格式的报表数据,便于对报表数据进行统计,极大的提高了报表的可识别性和灵活性。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种PDF报表数据提取方法,其特征在于,所述方法包括:
根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,其中,XML格式模板包括报表的表头、各个数据项名称,及表头和各个数据项坐标,报表模板中数据项无对应数据;
根据所述XML格式模板中各个数据项坐标,从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据;
根据所述XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表;
所述根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,包括:
对所述PDF文档中的第一页面树Pages Root进行检索,以获取第一页面字典;
对所述第一页面字典进行检索,以获取第一页面字典中的第一Contents字典项;
对所述第一Contents字典项进行检索,以获取所述第一Contents字典项中的第一内容流;
根据所述第一内容流中的内容信息和坐标信息创建XML格式的报表模板,其中所述内容信息包括报表的表头、各个数据项名称,所述坐标信息包括表头和各个数据项坐标。
2.根据权利要求1所述的方法,其特征在于,所述XML格式模板包括名称节点和坐标节点,其中,所述坐标节点为所述名称节点的子节点,所述根据所述第一内容流中的内容信息和坐标信息创建XML格式的报表模板,包括:
将所述第一内容流中的内容信息写入所述XML格式模板的名称节点中;
将所述第一内容流中的坐标信息写入所述XML格式模板的坐标节点中。
3.根据权利要求2所述的方法,其特征在于,在根据所述XML格式模板中各个数据项坐标,从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据之前,还包括解析目标PDF文档的步骤,所述步骤具体包括:
对所述目标PDF文档中的第二页面树Pages Root进行检索,以获取第二页面字典;
多所述第二页面字典进行检索,以获取第二页面字典中的第二Contents字典项;
对所述第二Contents字典项进行检索,以获取所述第二Contents字典项中的第二内容流。
4.根据权利要求3所述的方法,其特征在于,所述根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表,包括:
将从所述第二内容流中提取的数据项对应的数据的内容信息及数据的坐标信息写入XML格式模板,以形成XML格式的报表。
5.根据权利要求4所述的方法,其特征在于,所述根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表,还包括:
根据XML格式模板中的数据项坐标及预设的数据提取容差值确定该数据项对应的提取范围;
从该提取范围中提取该数据项的数据。
6.一种PDF报表数据提取装置,其特征在于,所述装置包括:
创建模块,用于根据一PDF文档格式的报表模板创建与该报表模板对应的XML格式模板,其中,XML格式模板包括报表的表头、各个数据项名称,及表头和各个数据项坐标,报表模板中数据项无对应数据;
数据提取模块,用于根据所述XML格式模板中各个数据项坐标,从与所述报表模板相同且存在数据项有数据的目标PDF文档中提取数据项对应的数据;
数据录入模块,用于根据XML格式模板的表头和提取的数据项对应的数据形成XML格式的报表;
所述创建模块具体用于:
对所述PDF文档中的第一页面树Pages Root进行检索,以获取第一页面字典;
对所述第一页面字典进行检索,以获取第一页面字典中的第一Contents字典项;
对所述第一Contents字典项进行检索,以获取所述第一Contents字典项中的第一内容流;
根据所述第一内容流中的内容信息和坐标信息创建XML格式的报表模板,其中所述内容信息包括报表的表头、各个数据项名称,所述坐标信息包括表头和各个数据项坐标。
7.根据权利要求6所述的装置,其特征在于,所述数据提取模块具体用于:
对所述目标PDF文档中的第二页面树Pages Root进行检索,以获取第二页面字典;
多所述第二页面字典进行检索,以获取第二页面字典中的第二Contents字典项;
对所述第二Contents字典项进行检索,以获取所述第二Contents字典项中的第二内容流。
8.根据权利要求7所述的装置,其特征在于,所述数据录入模块具体用于:
将从所述第二内容流中提取的数据项对应的数据的内容信息及数据的坐标信息写入XML格式模板,以形成XML格式的报表。
CN201811488861.3A 2018-12-06 2018-12-06 Pdf报表数据提取方法及装置 Active CN109582928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811488861.3A CN109582928B (zh) 2018-12-06 2018-12-06 Pdf报表数据提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811488861.3A CN109582928B (zh) 2018-12-06 2018-12-06 Pdf报表数据提取方法及装置

Publications (2)

Publication Number Publication Date
CN109582928A CN109582928A (zh) 2019-04-05
CN109582928B true CN109582928B (zh) 2023-07-21

Family

ID=65927519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811488861.3A Active CN109582928B (zh) 2018-12-06 2018-12-06 Pdf报表数据提取方法及装置

Country Status (1)

Country Link
CN (1) CN109582928B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008195B (zh) * 2019-04-11 2020-06-02 重庆猪八戒知识产权服务有限公司 一种动态配置html转pdf的方法、装置及系统
CN112000302B (zh) * 2020-08-25 2021-08-17 上海合阔信息技术有限公司 一种标签生成方法、模板配置方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1776673A (zh) * 2005-12-03 2006-05-24 福州大学 一种pdf文档到xml文档转换的方法
TW200828045A (en) * 2006-12-22 2008-07-01 Hon Hai Prec Ind Co Ltd System and method for filling a PDF document with related data
CN101216835A (zh) * 2007-12-29 2008-07-09 北京大学 一种数据文档转换方法及装置
CN102521327A (zh) * 2011-12-07 2012-06-27 江苏实达迪美数据处理有限公司 电子表单的展示方法及系统
CN106204684A (zh) * 2016-07-13 2016-12-07 国家海洋信息中心 一种基于任务流的海洋专题图件自动化编制方法
CN108052490A (zh) * 2017-12-29 2018-05-18 北京仁和汇智信息技术有限公司 一种xml论文在线撰写方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030106021A1 (en) * 2001-11-30 2003-06-05 Tushar Mangrola Apparatus and method for creating PDF documents
CN101201833A (zh) * 2006-12-13 2008-06-18 鸿富锦精密工业(深圳)有限公司 Pdf文档数据填充系统及方法
CN101122899B (zh) * 2007-09-18 2011-01-05 杭州华三通信技术有限公司 报表的生成方法和设备
CN105373562A (zh) * 2014-08-27 2016-03-02 北大方正集团有限公司 一种pdf文档注释的获取方法及装置
CN108197216A (zh) * 2017-12-28 2018-06-22 深圳市巨鼎医疗设备有限公司 一种信息处理的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1776673A (zh) * 2005-12-03 2006-05-24 福州大学 一种pdf文档到xml文档转换的方法
TW200828045A (en) * 2006-12-22 2008-07-01 Hon Hai Prec Ind Co Ltd System and method for filling a PDF document with related data
CN101216835A (zh) * 2007-12-29 2008-07-09 北京大学 一种数据文档转换方法及装置
CN102521327A (zh) * 2011-12-07 2012-06-27 江苏实达迪美数据处理有限公司 电子表单的展示方法及系统
CN106204684A (zh) * 2016-07-13 2016-12-07 国家海洋信息中心 一种基于任务流的海洋专题图件自动化编制方法
CN108052490A (zh) * 2017-12-29 2018-05-18 北京仁和汇智信息技术有限公司 一种xml论文在线撰写方法和装置

Also Published As

Publication number Publication date
CN109582928A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
US10067931B2 (en) Analysis of documents using rules
US7979793B2 (en) Graphical creation of a document conversion template
US20040221233A1 (en) Systems and methods for report design and generation
Al-Zaidy et al. Automatic extraction of data from bar charts
Lowagie iText in Action
CN108595389B (zh) 一种将Word文档转换为txt纯文本文档的方法
CN104699714B (zh) 将书版格式文件转换为epub格式文件的方法及装置
Bin-Habtoor et al. A survey on plagiarism detection systems
TW200300233A (en) Document conversion system, document conversion method and computer readable recording medium storing document conversion program
DE102018007165A1 (de) Vorhersage von stilbrüchen innerhalb eines textinhalts
KR20120051419A (ko) 종속형 스타일 시트 규칙 추출 장치 및 방법
CN109885569A (zh) 基于配置文件对xml数据进行字段提取及结构化方法
CN109582928B (zh) Pdf报表数据提取方法及装置
CN113177125A (zh) 标准知识图谱构建、标准查询方法及装置
Hardy et al. Mapping and displaying structural transformations between xml and pdf
CN114238575A (zh) 文档解析方法、系统、计算机设备及计算机可读存储介质
CN107145591B (zh) 一种基于标题的网页有效元数据内容提取方法
CN112597410A (zh) 基于规则配置库对网页内容执行结构化提取的方法及装置
CN105373562A (zh) 一种pdf文档注释的获取方法及装置
CN113807070A (zh) 关于法律文书模板线上编辑及使用的解决方法
KR20050004960A (ko) Xml 기반 학습 컨텐츠 표준화 방법 및 장치
CN110457659B (zh) 条款文档生成方法及终端设备
JP5102474B2 (ja) Xmlデータ生成方法及びそのプログラム
CN117215536A (zh) 一种接口代码创建方法、装置、设备及存储介质
Baur et al. The home stretch: developing automated solutions for legacy container list data at the Cuban Heritage Collection, University of Miami Libraries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant