CN105302626A - Xps结构化数据的解析方法 - Google Patents

Xps结构化数据的解析方法 Download PDF

Info

Publication number
CN105302626A
CN105302626A CN201510751578.5A CN201510751578A CN105302626A CN 105302626 A CN105302626 A CN 105302626A CN 201510751578 A CN201510751578 A CN 201510751578A CN 105302626 A CN105302626 A CN 105302626A
Authority
CN
China
Prior art keywords
coordinate
xps
field data
document
relative coordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510751578.5A
Other languages
English (en)
Other versions
CN105302626B (zh
Inventor
刘春波
黎涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen huge ancient cooking vessel Medical Devices Co., Ltd
Original Assignee
Shenzhen Yiban Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yiban Digital Technology Co Ltd filed Critical Shenzhen Yiban Digital Technology Co Ltd
Priority to CN201510751578.5A priority Critical patent/CN105302626B/zh
Publication of CN105302626A publication Critical patent/CN105302626A/zh
Application granted granted Critical
Publication of CN105302626B publication Critical patent/CN105302626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种XPS结构化数据的解析方法,包括步骤:初始化XPS文件;识别XPS文件中所需的字段数据;提取所述字段数据及其原始坐标;按照预定算法对所述原始坐标进行计算,得到准确的相对坐标;对所述相对坐标进行排序,先排序Y坐标,后排序X坐标;将排序后的文档或链表输出到指定路径。本发明不仅可以提高识别的准确度,而且简化了XPS文档中字段数据的提取难度,解决了XPS文档中原始坐标混乱的问题。

Description

XPS结构化数据的解析方法
技术领域
本发明涉及电子文档处理技术领域,特别涉及一种XPS结构化数据的解析方法。
背景技术
XPS(XMLPaperSpecification,XML文件规格书)是一种电子文件格式,它是微软公司开发的一种文档保存与查看的规范。XPS可以维护文档的一致外观(不管环境变量如何),实现所见即所得,也支持安全功能(例如,数字签名),因此,被越来越广泛地使用在各个领域。但是,XPS文档类似于PDF文档,是一种只读文档格式,其采用结构化数据形式保存数据,在使用计算机读取文档内容时,需要进行相应的解析和提取处理。
发明内容
本发明旨在提供一种XPS结构化数据的解析方法,以实现对XPS文档内容进行自动识别和提取功能。
为达到上述目的,本发明采用如下技术方案。
本发明提供一种XPS结构化数据的解析方法,包括步骤:
初始化XPS文件;
识别XPS文件中所需的字段数据;
提取所述字段数据及其原始坐标;
按照预定算法对所述原始坐标进行计算,得到准确的相对坐标;
对所述相对坐标进行排序,先排序Y坐标,后排序X坐标;
将排序后的文档或链表输出到指定路径。
上述解析方法中,所述识别XPS文件中所需的字段数据的步骤具体包括:
利用关键字库,通过Y坐标或X坐标或前后关键字来匹配所述字段数据。
上述解析方法中,所述按照预定算法对原始坐标进行计算,得到准确的相对坐标的步骤具体包括:
按照预设的坐标修正算法,分别对原始的X、Y坐标进行计算,分别得到所述字段数据相对于文档左上角原点的X轴相对坐标和Y轴相对坐标。
上述解析方法中,所述X轴相对坐标和Y轴相对坐标的参照位置为所述字段数据的首个字符。
上述解析方法中,如果所述字段数据包含多个字符,则按照预定要求分别计算每个字符的相对坐标。
上述解析方法中,所述对所述相对坐标进行排序,先排序Y坐标,后排序X坐标的步骤具体包括:
根据排版要求,依照先页后行再列的顺序对所述字段数据及计算后得到的相对坐标进行重新排序。
上述解析方法中,所述将排序后的文档输出到指定路径的步骤具体包括:
将排序后的文档转换成txt格式或xml格式,并将该文档输出到指定路径,或者,
将排序后的包含字段数据及其相对坐标的文档生成一个链表,并将该链表输出到指定路径。
本发明采用上述方法,不仅可以提高识别的准确度,而且通过直接输出txt或xml文档或链表到指定路径供识别模块读取,可以降低对识别模块的设计人员的能力要求,无需精通正则表达式。此外,本发明的上述方法还简化了XPS文档中字段数据的提取难度,解决了XPS文档中原始坐标混乱的问题。
附图说明
图1为本发明实施例的XPS结构化数据的解析方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明的结构原理及功能特点作进一步说明,以便理解本发明的发明实质。
参照图1所示,本实施例提供一种XPS结构化数据的解析方法,其主要包括以下步骤:
S10:初始化XPS文件;
S20:识别XPS文件中所需的字段数据;
S30:提取所述字段数据及其原始坐标;
S40:按照预定算法对所述原始坐标进行计算,得到准确的相对坐标;
S50:对所述相对坐标进行排序,先排序Y坐标,后排序X坐标;
S60:将排序后的文档或链表输出到指定路径。
在对需要识别的XPS文件进行初始化后,系统可以自动对XPS文件内的字段数据进行提取和识别。首先,需要建立关键字库,将拟识别的文本内容全部添加到关键字库中,并将关键字库放在上述XPS文件所在的目录下。然后利用该关键字库,通过Y坐标和X坐标,或者利用前后关键字来匹配需要识别的字段数据。
匹配到某一字段数据后,进入下一步,即提取该字段数据及其原始坐标。
由于对XPS文件解析后,每个字段都对应有一个坐标,包括X坐标和Y坐标,以确定该字段在文档页面中的相对位置。但是,由于排版需要,字段之间会有各种插图、标点符号或空格等,导致字段的原始坐标呈无序化状态,无参考性,因此需要对这些坐标进行修正。
修正坐标的过程就是对原始坐标进行计算,得到准确的相对坐标,具体为:
按照预设的坐标修正算法,分别对原始的X、Y坐标进行计算,分别得到该字段数据相对于XPS文档左上角原点的X轴相对坐标和Y轴相对坐标。
对于包含多个字符的字段数据,如何确定每个字符的相对位置呢,本实施例在计算X轴相对坐标和Y轴相对坐标时,当多个字符之间无空格或格式要求时,可以以该字段数据的首个字符作为参照位置,否则,可以按照预定格式或排版要求分别计算每个字符的相对坐标,即分别计算每个字符相对于文档左上角原点的X轴相对坐标和Y轴相对坐标。
例如,在处理“姓名:”这一字段数据时,由于“姓”与“名:”之间无空格,只要确定了“姓”的相对坐标,那么“名:”的相对坐标便也跟着确定,因此,只需要计算“姓”字的X轴相对坐标和Y轴相对坐标,“名:”的X轴相对坐标为对前者的X坐标值进行“+2”处理,而Y轴相对坐标与前者的Y坐标值相同。而在处理类似于“姓(空格)(空格)……名:”这种字段数据时,由于“姓”与“名:”之间有若干空格,需要分别对“姓”和“名:”进行坐标计算,以确定该字段数据的相对坐标。
在得到所有字段数据及其相对坐标后,需要进行有序化处理,本实施例中,对上述相对坐标进行排序,先排序Y坐标,后排序X坐标,具体为:
由于XPS文件是以页为单位的一种文件格式,因此,根据页面的排版要求,依照先页后行再列的顺序对所有字段数据及计算后得到的相对坐标进行重新排序,实现有序化识别处理。
通常地,在完成字段数据识别后,需要进行预处理,再将预处理结果输入到识别模块中,以读取相应的字段和坐标。本实施例将排序后的文档输出到指定路径,识别模块可以从该路径直接找到相应文档进行识别。上述将排序后的文档输出到指定路径的步骤可以是:
将排序后的文档转换为txt格式或xml格式,或者将该文档以链表的形式输出到上述指定路径。
这样,在进行识别模块的设计时,设计人员无需精通正则表达式,便可以满足设计团队的技术能力要求,降低了技术门槛。
综上所述,本发明采用上述方法,不仅可以提高识别的准确度,而且通过直接输出txt或xml文档或链表到指定路径供识别模块读取,可以降低对识别模块的设计人员的能力要求,无需精通正则表达式。此外,本发明的上述方法还简化了XPS文档中字段数据的提取难度,解决了XPS文档中原始坐标混乱的问题。
以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围以权利要求的保护范围为准。

Claims (7)

1.一种XPS结构化数据的解析方法,包括步骤:
初始化XPS文件;
识别XPS文件中所需的字段数据;
提取所述字段数据及其原始坐标;
按照预定算法对所述原始坐标进行计算,得到准确的相对坐标;
对所述相对坐标进行排序,先排序Y坐标,后排序X坐标;
将排序后的文档或链表输出到指定路径。
2.如权利要求1所述的XPS结构化数据的解析方法,其特征在于,所述识别XPS文件中所需的字段数据的步骤具体包括:
利用关键字库,通过Y坐标或X坐标或前后关键字来匹配所述字段数据。
3.如权利要求1所述的XPS结构化数据的解析方法,其特征在于,所述按照预定算法对原始坐标进行计算,得到准确的相对坐标的步骤具体包括:
按照预设的坐标修正算法,分别对原始的X、Y坐标进行计算,分别得到所述字段数据相对于文档左上角原点的X轴相对坐标和Y轴相对坐标。
4.如权利要求3所述的XPS结构化数据的解析方法,其特征在于,所述X轴相对坐标和Y轴相对坐标的参照位置为所述字段数据的首个字符。
5.如权利要求3所述的XPS结构化数据的解析方法,其特征在于,如果所述字段数据包含多个字符,则按照预定要求分别计算每个字符的相对坐标。
6.如权利要求1所述的XPS结构化数据的解析方法,其特征在于,所述对所述相对坐标进行排序,先排序Y坐标,后排序X坐标的步骤具体包括:
根据排版要求,依照先页后行再列的顺序对所述字段数据及计算后得到的相对坐标进行重新排序。
7.如权利要求1所述的XPS结构化数据的解析方法,其特征在于,所述将排序后的文档输出到指定路径的步骤具体包括:
将排序后的文档转换成txt格式或xml格式,并将该文档输出到指定路径,或者,
将排序后的包含字段数据及其相对坐标的文档生成一个链表,并将该链表输出到指定路径。
CN201510751578.5A 2015-11-09 2015-11-09 Xps结构化数据的解析方法 Active CN105302626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510751578.5A CN105302626B (zh) 2015-11-09 2015-11-09 Xps结构化数据的解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510751578.5A CN105302626B (zh) 2015-11-09 2015-11-09 Xps结构化数据的解析方法

Publications (2)

Publication Number Publication Date
CN105302626A true CN105302626A (zh) 2016-02-03
CN105302626B CN105302626B (zh) 2021-07-23

Family

ID=55199920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510751578.5A Active CN105302626B (zh) 2015-11-09 2015-11-09 Xps结构化数据的解析方法

Country Status (1)

Country Link
CN (1) CN105302626B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808511A (zh) * 2016-03-02 2016-07-27 中国科学院地理科学与资源研究所 一种基于空间位置的cad电子数据中文本信息重构方法
CN108021711A (zh) * 2017-12-28 2018-05-11 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN108170651A (zh) * 2017-12-28 2018-06-15 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN108197216A (zh) * 2017-12-28 2018-06-22 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN108228553A (zh) * 2017-12-28 2018-06-29 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN113626389A (zh) * 2021-08-16 2021-11-09 深圳市云采网络科技有限公司 一种坐标文件的解析方法以及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1381799A (zh) * 2001-04-16 2002-11-27 三菱电机株式会社 文书检索装置
US6791571B1 (en) * 1999-02-27 2004-09-14 Microsoft Corporation Absolute and relative coordinate based format description system and method
CN101515984A (zh) * 2008-02-19 2009-08-26 佳能株式会社 电子文档生成设备及电子文档生成方法
CN102262619A (zh) * 2010-05-31 2011-11-30 汉王科技股份有限公司 文档的文字提取方法和装置
CN102306294A (zh) * 2011-08-23 2012-01-04 深圳市万兴软件有限公司 一种从pdf格式文件页面中提取图像的方法及系统
CN102332002A (zh) * 2011-07-28 2012-01-25 深圳市万兴软件有限公司 一种将pdf格式文件转换为epub格式的方法及系统
CN102841941A (zh) * 2012-08-22 2012-12-26 龚如宾 基于索引的版式可回流文件建立和绘制方法
US20130042172A1 (en) * 2009-01-02 2013-02-14 Philip Andrew Mansfield Methods for efficient cluster analysis
CN103186655A (zh) * 2011-12-31 2013-07-03 北大方正集团有限公司 版式文件的处理方法和装置
CN103268340A (zh) * 2013-05-21 2013-08-28 龚如宾 基于层次式索引的版式可回流文件建立和绘制方法
CN104268127A (zh) * 2014-09-22 2015-01-07 同方知网(北京)技术有限公司 一种电子档版式文件阅读顺序分析的方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6791571B1 (en) * 1999-02-27 2004-09-14 Microsoft Corporation Absolute and relative coordinate based format description system and method
CN1381799A (zh) * 2001-04-16 2002-11-27 三菱电机株式会社 文书检索装置
CN101515984A (zh) * 2008-02-19 2009-08-26 佳能株式会社 电子文档生成设备及电子文档生成方法
US20130042172A1 (en) * 2009-01-02 2013-02-14 Philip Andrew Mansfield Methods for efficient cluster analysis
CN102262619A (zh) * 2010-05-31 2011-11-30 汉王科技股份有限公司 文档的文字提取方法和装置
CN102332002A (zh) * 2011-07-28 2012-01-25 深圳市万兴软件有限公司 一种将pdf格式文件转换为epub格式的方法及系统
CN102306294A (zh) * 2011-08-23 2012-01-04 深圳市万兴软件有限公司 一种从pdf格式文件页面中提取图像的方法及系统
CN103186655A (zh) * 2011-12-31 2013-07-03 北大方正集团有限公司 版式文件的处理方法和装置
CN102841941A (zh) * 2012-08-22 2012-12-26 龚如宾 基于索引的版式可回流文件建立和绘制方法
CN103268340A (zh) * 2013-05-21 2013-08-28 龚如宾 基于层次式索引的版式可回流文件建立和绘制方法
CN104268127A (zh) * 2014-09-22 2015-01-07 同方知网(北京)技术有限公司 一种电子档版式文件阅读顺序分析的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ROBERT C. 等: "CytometryML and other data formats", 《PROCEEDINGS OF THE SPIE》 *
周亚凤 等: "XPS文档的字形处理技术", 《计算机应用与软件》 *
林青 等: "PDF文档HTML化中文本重排问题研究", 《电脑与信息技术》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808511A (zh) * 2016-03-02 2016-07-27 中国科学院地理科学与资源研究所 一种基于空间位置的cad电子数据中文本信息重构方法
CN108021711A (zh) * 2017-12-28 2018-05-11 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN108170651A (zh) * 2017-12-28 2018-06-15 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN108197216A (zh) * 2017-12-28 2018-06-22 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN108228553A (zh) * 2017-12-28 2018-06-29 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN108170651B (zh) * 2017-12-28 2022-11-18 深圳市巨鼎医疗股份有限公司 一种信息处理的方法
CN113626389A (zh) * 2021-08-16 2021-11-09 深圳市云采网络科技有限公司 一种坐标文件的解析方法以及电子设备

Also Published As

Publication number Publication date
CN105302626B (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN105302626A (zh) Xps结构化数据的解析方法
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
US8838657B1 (en) Document fingerprints using block encoding of text
US20090109227A1 (en) System and method for independent font substitution of string characters
US20150095769A1 (en) Layout Analysis Method And System
CN108536745B (zh) 基于Shell的数据表提取方法、终端、设备及存储介质
CN105654022A (zh) 一种提取文档结构化信息的方法及装置
CN105653984A (zh) 文件指纹校验方法及装置
CN110705226A (zh) 电子表格的创建方法、装置及计算机设备
US9779091B2 (en) Restoration of modified document to original state
US20160103831A1 (en) Detecting homologies in encrypted and unencrypted documents using fuzzy hashing
CN110990010A (zh) 一种软件界面代码的生成方法及装置
CN114090671A (zh) 数据导入方法、装置、电子设备及存储介质
US9141867B1 (en) Determining word segment boundaries
CN104102704A (zh) 系统控件展示方法和装置
Nayak et al. Odia running text recognition using moment-based feature extraction and mean distance classification technique
CN111177506A (zh) 一种基于大数据的分类存储方法及系统
CN105608205A (zh) 结构化数据的指纹校验方法及装置
Au et al. Finsbd-2021: the 3rd shared task on structure boundary detection in unstructured text in the financial domain
US20140372878A1 (en) Text editing system and method
CN105653549A (zh) 一种提取文档信息的方法及装置
CN112149402B (zh) 文档对比方法、装置、电子设备和计算机可读存储介质
US9483463B2 (en) Method and system for motif extraction in electronic documents
CN108170651B (zh) 一种信息处理的方法
CN106227713A (zh) 文档的处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Ukraine stone road 518000 Guangdong city of Shenzhen province Nanshan District Science Park District No. 8 Tianming Technology Building 5 floor

Applicant after: Shenzhen Collier Information Technology Co., Ltd.

Address before: Ukraine stone road 518000 Guangdong city of Shenzhen province Nanshan District Science Park District No. 8 Tianming Technology Building 5 floor

Applicant before: SHENZHEN YIBAN DIGITAL TECHNOLOGY CO., LTD.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20191014

Address after: 518000 Guangdong city of Shenzhen province Luohu District Wenjin Road East Wensheng center Wenjin square 2001

Applicant after: Shenzhen huge ancient cooking vessel Medical Devices Co., Ltd

Address before: Ukraine stone road 518000 Guangdong city of Shenzhen province Nanshan District Science Park District No. 8 Tianming Technology Building 5 floor

Applicant before: Shenzhen Collier Information Technology Co., Ltd.

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: 518000 Wensheng center, Wenjin square, East Wenjin Road, Luohu District, Shenzhen, Guangdong, 2001

Applicant after: Shenzhen juding Medical Co.,Ltd.

Address before: 518000 Wensheng center, Wenjin square, East Wenjin Road, Luohu District, Shenzhen, Guangdong, 2001

Applicant before: SHENZHEN JUDING MEDICAL DEVICE Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant