CN112861820A - 基于pdf文件解析的图谱截图抓取方法 - Google Patents
基于pdf文件解析的图谱截图抓取方法 Download PDFInfo
- Publication number
- CN112861820A CN112861820A CN202110364510.7A CN202110364510A CN112861820A CN 112861820 A CN112861820 A CN 112861820A CN 202110364510 A CN202110364510 A CN 202110364510A CN 112861820 A CN112861820 A CN 112861820A
- Authority
- CN
- China
- Prior art keywords
- screenshot
- picture
- pdf file
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000004458 analytical method Methods 0.000 title claims abstract description 12
- 230000006870 function Effects 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims 3
- 238000013523 data management Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Document Processing Apparatus (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开基于PDF文件解析的图谱截图抓取方法,所述方法包括:通过解析文件的中以PDF页面为参照物生成的路径对象(Path Object),得到目标图谱的坐标范围;通过解析PDF页面属性,得到PDF页面的尺寸信息;上述得到的数据形成截图位置中间参数;将目标图谱的PDF页面保存为图片格式;分析输出图片的尺寸属性;根据截图位置中间参数、所保存的目标图谱的PDF页面图片的尺寸及截图专用软件的原点设置情况,进行计算,得到截图位置参数;通过截图专用软件导入截图位置参数对所保存的目标图谱的PDF页面图片进行处理,间接得到目标图谱的截图。上述方案可在PDF文件中对图谱进行准确定位,间接截取图谱为可引用的图片。
Description
技术领域
本发明涉及实验室报告数据管理领域,是基于PDF文件解析的图谱截图抓取方法。
背景技术
图谱作为科学研究的重要手段,在分析实验中的作用巨大。
现有lims系统(实验室信息管理系统)及SDMS(科学数据管理系统)对多是对图谱中的文字性记录进行采集,对图谱的采集支持较差。图谱报告中的图谱因报告编辑的原因,其位置会发生变化,准确的截取较为困难。
目前的处理方式通常是采用工作站或专用软件的报告程序生成的报告文件作为附件提供。
PDF(Portable Document Format,便携式文档格式)是一种独立于硬件、操作系统、应用程序的电子文档。上述的图谱数据都可以通过虚拟打印的方式实现图谱报告的输出,生成图谱的PDF文件。PDF文件因其独特的优点成了事实上的实验室通用报告文本。
发明内容
发明目的:本发明针对数据采集存在的问题,提出了一种图谱的截取方法,通过判断图谱在图谱报告PDF页面中的位置,间接地在图谱报告页面上进行截取,实现图谱的抓取和使用。
技术方案:PDF是从PS语言(Postscript语言,即页面描述语言)发展而来的一种结构化的文档格式。通过页面描述指令对指定区域进行着色绘制页面,PDF支持5种类型的的位图对象(Graphic Objects)包括:路径对象(Path Object),文本对象(Text Obejct),图像对象(Image Object)和外部对象(External object:XObject)。
PDF文件中的图谱通常是采用路径对象(Path Object)形式实现,其中直线(Line),曲线(Curve),长方形(Rectangle)都属于路径对象(Path Object)。
随着信息技术的发展,目前已经工具可以实现对PDF文件中各类资源的解析,更进一步的可以实现对路径对象的识别和位置确定。这就为本发明的实现创造了必要的条件。
图谱报告通常采用安装于PC机、工作站或者网络服务器的专用工作软件的报告程序调用预设报告模板生成图谱报告,通过调用PDF的虚拟打印功能生成图谱报告的PDF文件。在上述过程中,所设置的报告模板会以框架的形式设定报告图谱的位置范围,这种框架在进行PDF虚拟打印的过程中通常采用长方形(Rectangle)的路径对象的形式输出到PDF页面上。
通过对这一路径对象的识别即可得到图谱的位置范围;结合页面尺寸的数据,即可测算所需确定的位置范围在各个方向的比例特征;通过对目标页面图像的等比例处理,即可实现准确截图。
由于采用了上述技术方案,本发明的有益效果为:可在PDF文件中对图谱进行准确定位,间接截取图谱为可引用的图片;可以统一实验室的报告形式,无需通过附件形式附加图谱,有助于形成更规范的报告文本;减少人工介入,提高工作效率。
附图说明
图1为本发明的流程示意图;
图2为本发明中实施例1的目标图谱PDF页面;
图3为本发明中的相关术语示意图(以实施例1为例);
图4为本发明中实施例1处理过程的示例;
图5为本发明中实施例1处理结果示例;
图6为本发明中实施例2的目标图谱PDF页面;
图7为本发明中的相关术语示意图(以实施例2为例);
图8为本发明中实施例8处理过程的示例;
附图标记:1、图谱范围(LTRect对象)示例。
具体实施方式
下面将结合附图来和具体实施例,为便于理解,本实施例采用python语言编写的Pdfminer作为PDF解析工作软件,采用ImageMagick作为PDF页面图片输出软件,采用Python语言编写的Pillow作为截图软件,进一步阐明本发明。
需要说明的是,因生成PDF图谱文件的报告程序不同,所调用的虚拟打印的方法不同,不同的图谱PDF文件在绘图细节上也存在差异,如表征图谱范围的 LTRect对象是隐藏或显示,但并不影响路径对象的识别和判断。基本流程见图1。
下面结合附图描述本发明的具体实施例。
实施例1:
目标PDF见图2,该实施例的表征图谱范围的 LTRect对象为显示状态,参见图3。
1、采用Pdfminer软件对PDF进行解析,获得PDF页面的尺寸信息;
结果为[x0=0、y0=0、x1=595、y1=842]。
2、通过解析文件的中以PDF页面为参照物生成的用于标示图谱范围的路径对象(Path Object),该类路径对象在Pdfminer中定义为LTRect对象,参见图3的标记;解析LTRect对象的位置信息(x0、y0、x1、y1),计算并寻找满足x1-x0及y1-y0均为最大值的LTRect对象1,并记录LTRect对象1的位置信息(x0,y0,x1,y1),参见图4,结果为(x0=73.080、y0=327.000、x1=537.600、y1=635.040);将结果与PDF页面的尺寸信息保存为截图中间参数。
3、采用ImageMagick作为PDF页面图片输出软件,将待截取的PDF页面保存为长宽比与PDF页面一致的图片格式,清晰度根据需要,选择300dpi,保存到指定位置备用。
4、采用Python语言编写的Pillow作为截图软件,对备用的图片进行尺寸分析;
图片尺寸:高1101,宽778;
采用Python语言编写的Pillow作为截图软件,其对参照原点(0,0)规定为图片的左上角,而所获得的截图中间参数的参照原点(0,0)为左下角,需要进行参数的计算和变换;
计算公式采用:
xL=x0/Pw*SW
yU=( PH -y1)/PH*SH
xR=x1/ Pw *SW
yL=( PH -y0)/ PH *SH
其中:
PW=595、PH=842,所述PW与PH为PDF页面尺寸,PW为页面宽度,PH为页面高度;
x0=73.080、y0=327.000、x1=537.600、y1=635.040,所述x0、y0、x1、y1为所获得的图谱位置信息。
SH=1101、SW=778,所述SH与SW为备用的PDF页面图片的尺寸,SH为图片高度,SW为图片宽度。
计算得到截图参数xL、yU、xR、yL即截图的Left:左、 Upper:上、Right:右、Lower:下。
5、根据所得到的截图参数截图并输出为图片,保存到指定位置备用,结果见图5。并删除备用的PDF页面图片。
6、采用Lims(实验室信息管理系统)或者SDMS(科学数据管理系统)通过程序调用所输出的图谱图片合成报告文件。
实施例2:
目标PDF见图6,该实施例的表征图谱范围的 LTRect对象为隐藏状态,参见图7;其页面尺寸与实施例一中的目标PDF不一致。实施过程的操作步骤亦进行了调整。
1、采用ImageMagick作为PDF页面图片输出软件,将待截取的PDF页面保存为长宽比与PDF页面一致的图片格式,清晰度根据需要,选择600dpi。保存到指定位置备用。
2、通过解析文件的中以PDF页面为参照物生成的用于标示图谱范围的路径对象(Path Object),该类路径对象在Pdfminer中定义为LTRect对象;解析LTRect对象的位置信息(x0、y0、x1、y1),计算并寻找满足x1-x0及y1-y0均为最大值的LTRect对象1,并记录LTRect对象1的位置信息(x0、y0、x1、y1),结果为(x0=60.66、y0=379.8、x1=550.40、y1=570.36)。
3、采用Pdfminer软件对PDF进行解析,获得PDF页面的尺寸信息;
结果为[x0=0,y0=0,x1=612,y1=792] ,将尺寸结果与图谱位置信息保存为截图中间参数。
4、采用Python语言编写的Pillow作为截图软件,对备用的图片进行尺寸分析;
图片尺寸:高1558,宽1204;
采用Python语言编写的Pillow作为截图软件,其对参照原点(0,0)规定为图片的左上角,而所获得的截图中间参数的参照原点(0,0)为左下角,需要进行参数的计算和变换;
计算公式采用:
xL=x0/Pw*SW
yU=( PH -y1)/PH*SH
xR=x1/ Pw *SW
yL=( PH -y0)/ PH *SH
其中:
PW=612、PH=792,所述PW与PH为PDF页面尺寸,PW为页面宽度,PH为页面高度;
x0=60.66、y0=379.8、x1=550.40、y1=570.36,所述x0、y0、x1、y1为所获得的图谱位置信息。
SH=1558、SW=1204,所述SH与SW为备用的PDF页面图片的尺寸,SH为图片高度,SW为图片宽度。
计算得到截图参数xL、yU、xR、yL即截图的Left:左、 Upper:上、Right:右、Lower:下。
5、根据所得到的截图参数截图并输出为图片,保存到指定位置备用,结果见图8。并删除备用的PDF页面图片。
6、采用Lims(实验室信息管理系统)或者SDMS(科学数据管理系统)通过程序调用所输出的图谱图片合成报告文件。
所述实施例仅为本发明的部分实施例,并非因此限制本发明的专利范围,在本发明的技术构思范围内,采用不同的编程语言及处理软件,对技术方案进行的变换或直接/间接应用于其他技术领域均在本发明的专利保护范围内。
Claims (10)
1.基于PDF文件解析的图谱截图抓取方法,其特征在于,所述处理方法包括以下步骤:
步骤一:使用计算机软件工具对PDF文件进行解析,获得页面尺寸(高和宽);
步骤二:使用计算机软件工具对PDF文件进行解析,依次读取图谱报告中存在的路径对象(Path Object),并对路径对象的位置信息进行分析,寻找确定图谱位置相对坐标,与步骤一所述页面尺寸一起保存为截图中间参数;
步骤三:将PDF格式的图谱文件页面输出为具有可满足使用需求的清晰度的图片格式;
步骤四:获得步骤三所输出的图片尺寸(高和宽);
步骤五:根据步骤二所述截图中间参数进行计算,对步骤三所输出的已知尺寸的图片的指定位置进行截图,并输出为具有特定清晰度的图谱的图片格式,同时根据需要可删除步骤三所输出的图片。
2.根据权利要求1所述基于PDF文件解析的图谱截图抓取方法,其特征在于,所述PDF文件为由生成数据的仪器设备的工作站或专用软件的报告程序通过调用PDF虚拟打印功能直接生成的具备规范内部结构的可被程序解析其中所包含的各类对象位置和内容的PDF文件。
3.根据权利要求1所述基于PDF文件解析的图谱截图抓取方法,其特征在于,所述步骤一、步骤二中涉及的计算机工具软件包括而不仅限于C、C#、Python、Java、Visual Studio等计算机语言所创建的可对PDF文件内容进行解析的工具软件,进一步要求为可实现对PDF中各类对象的位置信息进行解析的工具软件,更进一步要求为Python语言中的Pdfminer或Pdfminer3K。
4.根据权利要求1基于PDF文件解析的图谱截图抓取方法,其特征在于,所述步骤一中的PDF文件页面尺寸的高和宽通过可进行PDF文件解析的工具软件分析文件属性获得;优选通过分析符合Pdfminer工具软件所定义的页面的Mediabox属性获得。
5.根据权利要求1基于PDF文件解析的图谱截图抓取方法,其特征在于,所述步骤二中路径对象(Path Object)为符合Pdfminer工具软件所定义的LTRect对象。
6.根据权利要求1基于PDF文件解析的图谱截图抓取方法,其特征在于,所述步骤二中图谱位置相对坐标系指由满足x1-x0最大且y1-y0最大的LTRect对象的x0、y0、x1、y1。
7.根据权利要求1基于PDF文件解析的图谱截图抓取方法,其特征在于,所述步骤三中图片的输出所采用的计算机工具软件包括而不仅限于C、C#、Python、Java、Visual Studio等计算机语言所创建的可实现对PDF页面进行图片转换并输出的软件,进一步要求为PyMuPDF,Pdf2image或ImageMagick。
8.根据权利要求1基于PDF文件解析的图谱截图抓取方法,其特征在于,所述步骤三中图片格式在尺寸上维持与原页面文件一致或具有相同长宽比。
9.根据权利要求1基于PDF文件解析的图谱截图抓取方法,其特征在于,所述步骤五中对步骤三所输出的已知尺寸的图片的指定位置进行截图的具体方法为:
通过截图专用工具软件,在导入截图中间参数经过计算后,对步骤三所输出的已知尺寸的图片的根据定位位置的页面比例设定特定范围进行截取并保存,进一步要求所述步骤五中的图片的指定位置(xL、yU、xR、yL)系根据截图软件所定义的坐标原点的情况计算得到:
如截图软件定义的坐标原点为PDF页面图片的左上角,则通过以下公式计算得到:
xL=x0/Pw*SW;
yU=( PH -y1)/PH*SH;
xR=x1/ Pw *SW;
yL=( PH -y0)/ PH *SH;
如截图软件定义的坐标原点为PDF页面图片的左下角,则通过以下公式计算得到:
xL=x0/ Pw *SW;
yU=y1/ PH *SH;
xR=x1/ Pw *SW;
yL=y0/ PH *SH;
其中:
x0、y0、x1、y1为步骤二所述图谱位置相对坐标;
(xL,yU)、(xR,yL)分别对应定义截图位置的矩形的呈对角线分布的左上角及右下角的坐标;
Sw,SH分别为步骤四所述的PDF文件页面图片的宽和高;
Pw,PH分别为步骤一所述的PDF页面的宽和高。
10.根据权利要求9基于PDF文件解析的图谱截图抓取方法,其特征在于,所述截图专用工具软件包括而不仅限于通过C、C#、Python、Java、Visual Studio等计算机语言创建的工具软件,优选为Python语言所创建的Pillow或Opencv。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110364510.7A CN112861820B (zh) | 2021-04-06 | 2021-04-06 | 基于pdf文件解析的图谱截图抓取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110364510.7A CN112861820B (zh) | 2021-04-06 | 2021-04-06 | 基于pdf文件解析的图谱截图抓取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112861820A true CN112861820A (zh) | 2021-05-28 |
CN112861820B CN112861820B (zh) | 2024-07-26 |
Family
ID=75992206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110364510.7A Active CN112861820B (zh) | 2021-04-06 | 2021-04-06 | 基于pdf文件解析的图谱截图抓取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861820B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090327873A1 (en) * | 2008-06-26 | 2009-12-31 | Glen Cairns | Page editing |
CN104063364A (zh) * | 2013-03-19 | 2014-09-24 | 福建福昕软件开发股份有限公司北京分公司 | 一种pdf文档识别方法 |
US20150012339A1 (en) * | 2004-06-01 | 2015-01-08 | Daniel W. Onischuk | Computerized voting system |
CN109492199A (zh) * | 2018-10-17 | 2019-03-19 | 四川译讯信息科技有限公司 | 一种基于ocr预判断的pdf文件转换方法 |
CN110532523A (zh) * | 2019-08-30 | 2019-12-03 | 深圳点猫科技有限公司 | 网页页面数据转换成pdf文件的方法与装置 |
-
2021
- 2021-04-06 CN CN202110364510.7A patent/CN112861820B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150012339A1 (en) * | 2004-06-01 | 2015-01-08 | Daniel W. Onischuk | Computerized voting system |
US20090327873A1 (en) * | 2008-06-26 | 2009-12-31 | Glen Cairns | Page editing |
CN104063364A (zh) * | 2013-03-19 | 2014-09-24 | 福建福昕软件开发股份有限公司北京分公司 | 一种pdf文档识别方法 |
CN109492199A (zh) * | 2018-10-17 | 2019-03-19 | 四川译讯信息科技有限公司 | 一种基于ocr预判断的pdf文件转换方法 |
CN110532523A (zh) * | 2019-08-30 | 2019-12-03 | 深圳点猫科技有限公司 | 网页页面数据转换成pdf文件的方法与装置 |
Non-Patent Citations (2)
Title |
---|
刘华中: "面向PDF文档的论文元数据提取方法研究", 中国优秀硕士学位论文全文数据库, 15 August 2012 (2012-08-15) * |
杨道良, 常明, 任晓霞: "PDF及其在电子出版领域的应用", 计算机应用, no. 01, 28 January 1999 (1999-01-28) * |
Also Published As
Publication number | Publication date |
---|---|
CN112861820B (zh) | 2024-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8718364B2 (en) | Apparatus and method for digitizing documents with extracted region data | |
CN107220274B (zh) | 一种可视化数据接口集市实现方法 | |
GB2406674A (en) | Specifying scanned image document layout definition | |
CN113094770A (zh) | 图纸生成方法、装置、计算机设备和存储介质 | |
CN109656652B (zh) | 网页图表绘制方法、装置、计算机设备和存储介质 | |
CN116245052A (zh) | 一种图纸迁移方法、装置、设备和存储介质 | |
CN110688688A (zh) | 一种测绘竣工图批量转换为勘测定界图的方法 | |
CN112560406B (zh) | 生成预报会商演示文稿的方法及装置 | |
CN110706240B (zh) | 基于小图斑的无人机影像数据批量裁切方法 | |
CN111723799B (zh) | 坐标定位方法、装置、设备及存储介质 | |
CN112861820A (zh) | 基于pdf文件解析的图谱截图抓取方法 | |
CN112861821B (zh) | 基于pdf文件解析的图谱数据还原方法 | |
CN112861822B (zh) | 基于pdf文件解析的图谱数据处理方法 | |
CA3105227C (en) | Techniques for extraction of vectorized content of an oil and gas play within an unstructured file | |
CN110675729B (zh) | 一种多版本地理信息一体化制图方法及系统 | |
CN111506690A (zh) | 一种南方CASS数据向MapGis数据无损转换的方法 | |
CN109741417B (zh) | 一种图形文件的生成方法、装置、计算设备及存储介质 | |
CN111696154A (zh) | 坐标定位方法、装置、设备及存储介质 | |
CN111367478A (zh) | 一种用于实验室仪器的数据交互打印系统及其打印方法 | |
CN117891448B (zh) | 用于构建页面的可视化组件编辑方法、系统、设备及介质 | |
CN114676484B (zh) | 一种光伏电站三维结构的生成方法、存储介质及电子设备 | |
CN117523417B (zh) | 应用于自然资源统一确权登记的方法及电子设备 | |
CN118332147B (zh) | 多图层图斑数据的差异对比方法、装置及电子设备 | |
Baumann | Towards a Model-Driven Datacube Analytics Language | |
CN112182130A (zh) | 场地环境调查中场地数据内业可视化方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |