CN106202229A - 一种针对心脏起搏器的结构化数据提取方法 - Google Patents

一种针对心脏起搏器的结构化数据提取方法 Download PDF

Info

Publication number
CN106202229A
CN106202229A CN201610494114.5A CN201610494114A CN106202229A CN 106202229 A CN106202229 A CN 106202229A CN 201610494114 A CN201610494114 A CN 201610494114A CN 106202229 A CN106202229 A CN 106202229A
Authority
CN
China
Prior art keywords
content
structural data
extraction method
cardiac pacemaker
report file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610494114.5A
Other languages
English (en)
Inventor
陈样新
毛涌泉
罗超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Haoxuan Software Technology Co Ltd
Original Assignee
Guangzhou Haoxuan Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Haoxuan Software Technology Co Ltd filed Critical Guangzhou Haoxuan Software Technology Co Ltd
Priority to CN201610494114.5A priority Critical patent/CN106202229A/zh
Publication of CN106202229A publication Critical patent/CN106202229A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • G06F19/36

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electrotherapy Devices (AREA)

Abstract

本发明公开一种针对心脏起搏器的结构化数据提取方法,包括以下步骤:从起搏器程控器设备中导出PDF格式的报告文件,读取报告文件的内容并设置文本标记,根据文本标记将报告文件的内容分切成独立的内容块,将内容块制作成表格,然后将表格内容转换为数据;该针对心脏起搏器的结构化数据提取方法抽取效率高。

Description

一种针对心脏起搏器的结构化数据提取方法
技术领域
本发明涉及一种针对心脏起搏器的结构化数据提取方法。
背景技术
随着心血管疾病患者的数量增多、经济水平提高等因素,国内接受起搏器治疗的患者数量逐年递增。中国每年植入起搏器的患者超过5万,且以年10-15%的速度递增。根据近年的ACC/AHA/HRS起搏治疗指南推荐,起搏器植入后患者应该每3-12个月随访一次。
心脏病患者植入起搏器后,需要定期回医院进行随访,也就是传统意义上的手术后回医院复诊,以便专科医生定期通过成勇气对起搏器工作进行评价,并结合起搏器的诊断功能,优化设备参数,使患者最大收益。
目前国外起搏器厂家均采用程控仪导出患者体内起搏器的运行日志、参数等信息,导出格式为PDF,不支持其他数据格式,如Excel。
随着国内临床科研向大数据方向发展,从起搏器程控器中提取结构化数据的需求越发迫切。
发明内容
本发明要解决的技术问题是提供一种抽取效率高的针对心脏起搏器的结构化数据提取方法。
为解决上述问题,本发明采用如下技术方案:
一种针对心脏起搏器的结构化数据提取方法,包括以下步骤:
1)从起搏器程控器设备中导出PDF格式的报告文件;
2)读取报告文件的内容并设置文本标记;
3)根据文本标记将报告文件的内容分切成独立的内容块;
4)将内容块制作成表格;
5)将表格内容转换成结构化数据;
作为优选,所述步骤2)的具体实现方式为:
2.1)打开PDF格式的报告文件;
2.2)使用计算机编程语言编程读取PDF格式的报告文件;
2.3)将读取到的PDF格式的报告文件进行文本标记。
作为优选,所述步骤4)的具体实现方式为:
4.1)根据内容块的内容的所在位置使用计算机编程语言编程实现坐标定位;
4.2)根据坐标对内容块进行栅格化处理;
4.3)形成表格。
作为优选,所述步骤5)的具体实现方式为:
5.1)根据表格每一行的单元格使用计算机编程语言编程按照第1列内容=属性名1;第2列内容=属性值1;第3列内容=属性名2;第4列内容=属性值2的格式进行提取;
5.2)将提取后的数据重新通过编程组合成属性名1=属性值1;属性名2=属性值2的格式;
5.3)编程筛选数据;
5.4)剔除无用的信息。
作为优选,所述计算机编程语言为JAVA或C语言。
作为优选,还包括有步骤6)将结构化数据写入数据库保存。
作为优选,所述数据库为SQLserver数据库或MySQL数据库。
本发明的有益效果为:采用计算机编程读取PDF格式的起搏器程控文件中的各项指标和参数,并将文本内容转为结构化数据格式,数据抽取效率和准确率高,彻底解决了人工抄录模式难以管控质量的难题,方便临床科研工作者进行精准判断,可以方便使用者导出成Excel和cvs等数据格式进行统计分析。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种针对心脏起搏器的结构化数据提取方法制作成的表格图;
图2为本发明一种针对心脏起搏器的结构化数据提取方法文件的内容切分图。
具体实施方式
实施例1
一种针对心脏起搏器的结构化数据提取方法,包括以下步骤:
1)从起搏器程控器设备中导出PDF格式的报告文件;
2)读取报告文件的内容并设置文本标记;
3)根据文本标记将报告文件的内容分切成独立的内容块,如图1所示;
4)将内容块制作成表格,如图2所示;
5)将表格内容转换成结构化数据;
本实施例的有益效果为:采用计算机编程读取PDF格式的起搏器程控文件中的各项指标和参数,并将文本内容转为结构化数据格式,数据抽取效率和准确率高,彻底解决了人工抄录模式难以管控质量的难题,方便临床科研工作者进行精准判断,可以方便使用者导出成Excel和cvs等数据格式进行统计分析。
实施例2
一种针对心脏起搏器的结构化数据提取方法,包括以下步骤:
1)从起搏器程控器设备中导出PDF格式的报告文件;
2)打开PDF格式的报告文件;使用JAVA编程读取PDF格式的报告文件;然后将读取到的PDF格式的报告文件进行文本标记;
3)根据文本标记将报告文件的内容分切成独立的内容块,如图1所示;
4)根据内容块的内容的所在位置,使用JAVA编程实现坐标定位;根据坐标对内容块进行栅格化处理;形成表格,如图2所示;
5)根据表格每一行的单元格,使用JAVA编程按照第1列内容= Last Delivered Shock;第2列内容= 24-SEP-2012 11:13;第3列内容= Cumulative Charge Time;第4列内容= 00:40m:s的格式进行提取;然后将提取后的数据重新通过编程组合成Last Delivered Shock=24-SEP-2012 11:13;Cumulative Charge Time =00:40m:s的格式;编程筛选数据;剔除无用的信息,得到有价值的结构化数据;
6)将结构化数据写入SQLserver数据库保存。
本实施例的有益效果为:采用JAVA编程读取PDF格式的起搏器程控文件中的各项指标和参数,Java 技术具有卓越的通用性和高效性,工作效率高,将文本内容转为结构化数据格式,数据抽取效率和准确率高,彻底解决了人工抄录模式难以管控质量的难题,方便临床科研工作者进行精准判断,可以方便使用者导出成Excel和cvs等数据格式进行统计分析。
实施例3
一种针对心脏起搏器的结构化数据提取方法,包括以下步骤:
1)从起搏器程控器设备中导出PDF格式的报告文件;
2)打开PDF格式的报告文件;使用C语言读取PDF格式的报告文件;然后将读取到的PDF格式的报告文件进行文本标记;
3)根据文本标记将报告文件的内容分切成独立的内容块,如图1所示;
4)根据内容块的内容的所在位置,使用C语言编程实现坐标定位;根据坐标对内容块进行栅格化处理;形成表格,如图2所示;
5)根据表格每一行的单元格,使用C语音编程按照第1列内容= Last DeliveredShock;第2列内容= 24-SEP-2012 11:13;第3列内容= Cumulative Charge Time;第4列内容= 00:40m:s的格式进行提取;然后将提取后的数据重新通过编程组合成Last DeliveredShock =24-SEP-2012 11:13;Cumulative Charge Time =00:40m:s的格式;编程筛选数据;剔除无用的信息,得到有价值的结构化数据;
6)将有价值的结构化数据写入MySQL数据库保存。
本实施例的有益效果为:采用C语音编程读取PDF格式的起搏器程控文件中的各项指标和参数,C语音编程具有高效、灵活、功能丰富、表达力强和较高的移植性,操作方便,将文本内容转为结构化数据格式,数据抽取效率和准确率高,彻底解决了人工抄录模式难以管控质量的难题,方便临床科研工作者进行精准判断,可以方便使用者导出成Excel和cvs等数据格式进行统计分析。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种针对心脏起搏器的结构化数据提取方法,其特征在于:包括以下步骤:
1)从起搏器程控器设备中导出PDF格式的报告文件;
2)读取报告文件的内容并设置文本标记;
3)根据文本标记将报告文件的内容分切成独立的内容块;
4)将内容块制作成表格;
5)将表格内容转换成结构化数据。
2.根据权利要求1所述的针对心脏起搏器的结构化数据提取方法,其特征在于:所述步骤2)的具体实现方式为:
2.1)打开PDF格式的报告文件;
2.2)使用计算机编程语言编程读取PDF格式的报告文件;
2.3)将读取到的PDF格式的报告文件进行文本标记。
3.根据权利要求2所述的针对心脏起搏器的结构化数据提取方法,其特征在于:所述步骤4)的具体实现方式为:
4.1)根据内容块的内容的所在位置使用计算机编程语言编程实现坐标定位;
4.2)根据坐标对内容块进行栅格化处理;
4.3)形成表格。
4.根据权利要求3所述的针对心脏起搏器的结构化数据提取方法,其特征在于:所述步骤5)的具体实现方式为:
5.1)根据表格每一行的单元格使用计算机编程语言编程按照第1列内容=属性名1;第2列内容=属性值1;第3列内容=属性名2;第4列内容=属性值2的格式进行提取;
5.2)将提取后的数据重新通过编程组合成属性名1=属性值1;属性名2=属性值2的格式;
5.3)编程筛选数据;
5.4)剔除无用的信息。
5.根据权利要求4所述的针对心脏起搏器的结构化数据提取方法,其特征在于:所述计算机编程语言为JAVA或C语言。
6.根据权利要求5所述的针对心脏起搏器的结构化数据提取方法,其特征在于:还包括有步骤6)将结构化数据写入数据库保存。
7.根据权利要求6所述的针对心脏起搏器的结构化数据提取方法,其特征在于:所述数据库为SQLserver数据库或MySQL数据库。
CN201610494114.5A 2016-06-30 2016-06-30 一种针对心脏起搏器的结构化数据提取方法 Pending CN106202229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610494114.5A CN106202229A (zh) 2016-06-30 2016-06-30 一种针对心脏起搏器的结构化数据提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610494114.5A CN106202229A (zh) 2016-06-30 2016-06-30 一种针对心脏起搏器的结构化数据提取方法

Publications (1)

Publication Number Publication Date
CN106202229A true CN106202229A (zh) 2016-12-07

Family

ID=57461449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610494114.5A Pending CN106202229A (zh) 2016-06-30 2016-06-30 一种针对心脏起搏器的结构化数据提取方法

Country Status (1)

Country Link
CN (1) CN106202229A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388683A (zh) * 2018-09-17 2019-02-26 中山大学 一种钻孔柱状图信息批量提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009117810A1 (en) * 2008-03-28 2009-10-01 Smart Technologies Ulc Method and tool for recognizing a hand-drawn table
CN102722475A (zh) * 2012-05-09 2012-10-10 深圳市万兴软件有限公司 一种PDF文档中的表格转换成Excel表格的方法
CN102855243A (zh) * 2011-06-28 2013-01-02 北大方正集团有限公司 用于提取文档结构的方法和装置
CN105701091A (zh) * 2014-11-24 2016-06-22 北大方正集团有限公司 一种基于语义的pdf文档的处理方法及处理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009117810A1 (en) * 2008-03-28 2009-10-01 Smart Technologies Ulc Method and tool for recognizing a hand-drawn table
CN102855243A (zh) * 2011-06-28 2013-01-02 北大方正集团有限公司 用于提取文档结构的方法和装置
CN102722475A (zh) * 2012-05-09 2012-10-10 深圳市万兴软件有限公司 一种PDF文档中的表格转换成Excel表格的方法
CN105701091A (zh) * 2014-11-24 2016-06-22 北大方正集团有限公司 一种基于语义的pdf文档的处理方法及处理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张伯: "基于PDF文字流的表格识别技术的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388683A (zh) * 2018-09-17 2019-02-26 中山大学 一种钻孔柱状图信息批量提取方法

Similar Documents

Publication Publication Date Title
CN103970666B (zh) 一种软件重复缺陷报告检测的方法
CN107911227A (zh) 一种断点数据跟进方法、电子装置及计算机可读存储介质
CN110472209A (zh) 基于深度学习的表格生成方法、装置和计算机设备
CN107748742A (zh) 一种基于句法依存关系提取中心词的方法、终端以及设备
CN106202229A (zh) 一种针对心脏起搏器的结构化数据提取方法
CN106355354A (zh) 一种基于互联网应用的远程组培技术员管理系统
EP1639475B1 (de) Prozessorarchitektur für exakte zeigeridentifizierung
CN107103528A (zh) 一种财务进出账单反馈系统
CN101482897A (zh) 一种智能裙装款式与纸样设计系统
CN108229502A (zh) 一种树冠层的三维点云数据中叶片基点提取方法
Flum et al. Logic and automata: history and perspectives
CN204017132U (zh) 植入穿刺针固定装置
CN105912883A (zh) 一种针对icd起搏器的结构化数据提取方法
CN104572812B (zh) 一种历史数据存储及索引方法
CN201269992Y (zh) 针织横机电脑控制系统
CN110188800A (zh) 一种基于智能分配算法的数据标注系统及方法
CN110378783A (zh) 一种基于直觉模糊数的纳税人信用评价指标排序方法
Clematide et al. Improving OCR quality of historical newspapers with handwritten text recognition models
CN103488981A (zh) 基于手指血管分布的身份识别系统及方法
Furman Atrial Pacing.
CN208744618U (zh) 一种锦丝线画记治具
Jakubowski Funkcje subkonta ZUS a uwarunkowania prawne
Rahman et al. Role of Remittance as a Dynamic Source of Capital Inflow of Bangladesh During Current COVID-19 Outbreak.
Bailey The labour force behind New Zealand's increased productivity in the horticulture and viticulture sectors
CN206249413U (zh) 一种用于财务经营诊断辅助分析的平台

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207

RJ01 Rejection of invention patent application after publication