CN108021711A - 一种信息处理的方法 - Google Patents
一种信息处理的方法 Download PDFInfo
- Publication number
- CN108021711A CN108021711A CN201711460305.0A CN201711460305A CN108021711A CN 108021711 A CN108021711 A CN 108021711A CN 201711460305 A CN201711460305 A CN 201711460305A CN 108021711 A CN108021711 A CN 108021711A
- Authority
- CN
- China
- Prior art keywords
- medical electronic
- character
- keyword
- report
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明涉及医学电子报告信息提取技术领域,尤其涉及一种信息处理的方法,包括以下步骤:系统初始化;获取医学电子报告中的中间格式数据;根据中间格式数据,获取中间格式数据中每个字符的位置,并根据每个字符的位置对每个字符按行和列重新排序;根据医学电子报告的预设规范,将医学电子报告进行分块;对医学电子报告中每一块逐行关键字匹配;根据每行的关键字,获取关键字对应的值;结构化信息整合并以JSON格式输出整合结果;对整合结果打分。本发明的一种信息处理的方法,实现医疗数据从PDF,XPS等的文件流数据到结构化数据的转换工作,该结构化数据可以用来做进一步的结构化存储或者传输,大大方便了数据的有效利用。
Description
技术领域
本发明涉及医学电子报告信息提取技术领域,尤其涉及一种信息处理的方法。
背景技术
医学电子报告多以PDF,XPS格式文件为主,包含丰富的患者个人和病历数据,XPS文档与PDF文档类似,是一种只读文档格式,其采用结构化数据形式保存数据,在使用计算机读取文档内容时,需要进行相应的解析和提取处理。.net中有读取处理的组件,该组件虽能够获取XPS或PDF中的文本信息,但不公开提供坐标信息的获取能力,有个隐藏接口虽可获取坐标信息但准确度很低。目前多采用手工配置模板,程序自动进行模板匹配的方式进行结构化数据的提取,由于人工的高成本和非可控性,实现一个完成度高的模板配置方案非常困难,导致提取效率低下,提取范围受限。
发明内容
针对现有技术中存在的问题,本发明提供一种信息处理的方法。
一种信息处理的方法,包括以下步骤:
系统初始化;
获取医学电子报告中的中间格式数据;
根据中间格式数据,获取中间格式数据中每个字符的位置,并根据每个字符的位置对每个字符按行和列重新排序;
根据医学电子报告的预设规范,将医学电子报告进行分块;
对医学电子报告中每一块逐行关键字匹配;
根据每行的关键字,获取关键字对应的值;
对医学电子报告中每一块提取到的结构化信息整合,以JSON格式输出整合结果;
通过评判算法对整合结果打分。
进一步的,在获取医学报告中的中间格式数据之前,还包括:
将XPS、PDF格式的医学电子报告转换成统一的带有坐标的中间格式医学电子报告。
进一步的,按行列重新排序具体包括:
利用中间格式文件,获取到每个字符的位置坐标(X0,Y0,X1,Y1);
将所有字符的Y0按照大小进行对所有字符排序,划分得到每个字符的行信息;
根据每行中每个字符的X0按照大小进行每行中的所有字符排序,划分得到每个字符的前后位置。
进一步的,根据医学电子报告的预设规范,将医学电子报告进行分块的步骤具体为:
将医学电子报告划分为Title、Head、Body和Bottom四块内容。
进一步的,对医学电子报告中每一块逐行关键字匹配的步骤,具体为:
根据预设关键字数据库,对每一块中每一行进行关键字匹配,得到该行所匹配到的关键字。
进一步的,通过评判算法对结果打分,具体包括:
根据整合结果所处的块,对关键词进行语义分析,来判断该关键词提取的可靠性,以评判该报告的解析正确性。
本发明的一种信息处理的方法,通过关键字匹配的方式,实现医疗数据从PDF,XPS等的文件流数据到结构化数据的转换工作,该结构化数据可以用来做进一步的结构化存储或者传输,大大方便了数据的有效利用;自动化从医疗电子报告中提取数据,免配置,高效率,方便大规模使用;构建了一个从各类医学电子报告中获取的关键词库,利用位置坐标关系,得到关键词对应的值,实现了自动评判提取的效果。
附图说明
为了更清楚的说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明的一种信息处理的方法流程图。
具体实施方式
下面将结合本发明中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通的技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本发明的保护范围。
本发明实施例提供一种信息处理的方法,如图1所示包括以下步骤:
SO1:系统初始化;进行相关参数的配置。
SO2:获取医学电子报告中的中间格式数据;将XPS、PDF格式文件转换成统一的带有坐标的中间格式文件,获取每个单字的相关数据;
XPS和PDF文件都是包含固定布局的平面文档,但由于各自使用了不同的标准和描述语言,再从原有的文件流解析到单字信息的中间格式方面有很大不同。XPS是解析出ZIP文件后,进一步分析XLM描述文件,从而解析出每个单字信息。PDF是解析文件本身,获取到文件对象后,进一步从对象里面解析出单字信息。这些单字信息构成了下面步骤的基础。中间格式数据包括每个单字的字符信息和位置信息,位置信息记录在一个Matrix,包含偏置,旋转等信息,通过这些信息可以计算出单字的准确坐标信息(X0,Y0,X1,Y1),单字的左上角坐标定义为(X0,Y0),右下角坐标定义为(X1,Y1)。
SO3:根据中间格式数据,获取中间格式数据中每个字符的位置,并根据每个字符的位置对每个字符按行和列重新排序;利用中间格式文件,获取到每个字符的位置坐标(X0,Y0,X1,Y1);首先将所有字符的Y0按照大小进行对所有字符排序,划分得到每个字符的行信息;通过Y0排序,首先会将所有字符按照从上到下的顺序划分到对应的行里面,通过特定阈值,会准确的划分成行。根据每行中每个字符的X0按照大小进行每行中的所有字符排序,划分得到每个字符的前后位置,使每个单字按照从上到下、从左到右的顺序排列。至此,已将中间格式数据按照位置坐标准确的划分成中间坐标数据。
SO4:根据医学电子报告的预设规范,将医学电子报告进行分块;通过已经构建的关键词库和中间坐标数据,将整个中间格式数据划分成四块。医学类文档呈现出一定的格式和信息布局,每块格式里面对应着不同的信息,通过每块含有信息的不同和行之间的位置间隙,可将整个文档划分成四块Title,Head,Body和Bottom四块内容。
SO5:对医学电子报告中每一块逐行关键字匹配;根据预设关键词数据库,对每一块的每一行进行关键字匹配,得到该行所匹配到的关键字。每块包含了不同的关键词信息,比如Head块包括:"姓名","性别","年龄","检查号","来源","科室","住院号","床号","部位","ID号"等等。
SO6:根据每行的关键字,获取关键字对应的值;每一行包含若干的关键字和对应的值,通过位置的分析判定,可找到关键词对应的值。例如对"部位",可提取其对应值为"颈部淋巴结彩色多普勒超声"。
SO7:对医学电子报告中每一块提取到的结构化信息整合,以JSON格式输出整合结果。
SO8:通过评判算法对整合结果打分;根据整合结果所处的块,对关键词进行语义分析,来判断该关键词提取的可靠性,以评判该报告的解析正确性。
本发明的一种信息处理的方法,通过关键字匹配的方式,实现医疗数据从PDF,XPS等的文件流数据到结构化数据的转换工作,该结构化数据可以用来做进一步的结构化存储或者传输,大大方便了数据的有效利用;自动化从医疗电子报告中提取数据,免配置,高效率,方便大规模使用;构建了一个从各类医学电子报告中获取的关键词库,利用位置坐标关系,得到关键词对应的值,实现了自动评判提取的效果。
以上借助具体实施例对本发明做了进一步描述,但是应该理解的是,这里具体的描述,不应理解为对本发明的实质和范围的限定,本领域内的普通技术人员在阅读本说明书后对上述实施例做出的各种修改,都属于本发明所保护的范围。
Claims (6)
1.一种信息处理的方法,其特征在于,包括以下步骤:
系统初始化;
获取医学电子报告中的中间格式数据;
根据中间格式数据,获取中间格式数据中每个字符的位置,并根据每个字符的位置对每个字符按行和列重新排序;
根据医学电子报告的预设规范,将医学电子报告进行分块;
对医学电子报告中每一块逐行关键字匹配;
根据每行的关键字,获取所述关键字对应的值;
对医学电子报告中每一块提取到的结构化信息整合,以JSON格式输出整合结果;
通过评判算法对所述整合结果打分。
2.如权利要求1所述的一种信息处理的方法,其特征在于,在获取医学报告中的中间格式数据之前,还包括:
将XPS、PDF格式的医学电子报告转换成统一的带有坐标的中间格式医学电子报告。
3.如权利要求1所述的一种信息处理的方法,其特征在于,按行列重新排序具体包括:
利用中间格式文件,获取到每个字符的位置坐标(X0,Y0,X1,Y1);
将所有字符的Y0按照大小进行对所有字符排序,划分得到每个字符的行信息;
根据每行中每个字符的X0按照大小进行每行中的所有字符排序,划分得到每个字符的前后位置。
4.如权利要求1所述的一种信息处理的方法,其特征在于,所述根据医学电子报告的预设规范,将医学电子报告进行分块的步骤具体为:
将医学电子报告划分为Title、Head、Body和Bottom四块内容。
5.如权利要求1所述的一种信息处理的方法,其特征在于,所述对医学电子报告中每一块逐行关键字匹配的步骤,具体为:
根据预设关键字数据库,对每一块中每一行进行关键字匹配,得到该行所匹配到的关键字。
6.如权利要求1所述的一种信息处理的方法,其特征在于,通过评判算法对结果打分,具体包括:
根据整合结果所处的块,对关键词进行语义分析,来判断该关键词提取的可靠性,以评判该报告的解析正确性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711460305.0A CN108021711A (zh) | 2017-12-28 | 2017-12-28 | 一种信息处理的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711460305.0A CN108021711A (zh) | 2017-12-28 | 2017-12-28 | 一种信息处理的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108021711A true CN108021711A (zh) | 2018-05-11 |
Family
ID=62072214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711460305.0A Pending CN108021711A (zh) | 2017-12-28 | 2017-12-28 | 一种信息处理的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108021711A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263176A (zh) * | 2019-05-14 | 2019-09-20 | 武汉维特鲁威生物科技有限公司 | 一种基于本体的医学数据整合方法及系统 |
CN112651725A (zh) * | 2019-10-11 | 2021-04-13 | 清华大学 | 电子发票解析方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1495660A (zh) * | 1995-09-06 | 2004-05-12 | 富士通株式会社 | 用于从文档图象抽取标题的标题抽取装置及其方法 |
CN101055578A (zh) * | 2006-04-12 | 2007-10-17 | 龙搜(北京)科技有限公司 | 基于规则的文档内容挖掘器 |
WO2013176903A1 (en) * | 2012-05-21 | 2013-11-28 | Health Management Associates, Inc. | Medical record generation and processing |
CN105095284A (zh) * | 2014-05-14 | 2015-11-25 | 北大方正集团有限公司 | 一种数据规范化处理方法和系统 |
CN105302626A (zh) * | 2015-11-09 | 2016-02-03 | 深圳市依伴数字科技有限公司 | Xps结构化数据的解析方法 |
-
2017
- 2017-12-28 CN CN201711460305.0A patent/CN108021711A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1495660A (zh) * | 1995-09-06 | 2004-05-12 | 富士通株式会社 | 用于从文档图象抽取标题的标题抽取装置及其方法 |
CN101055578A (zh) * | 2006-04-12 | 2007-10-17 | 龙搜(北京)科技有限公司 | 基于规则的文档内容挖掘器 |
WO2013176903A1 (en) * | 2012-05-21 | 2013-11-28 | Health Management Associates, Inc. | Medical record generation and processing |
CN105095284A (zh) * | 2014-05-14 | 2015-11-25 | 北大方正集团有限公司 | 一种数据规范化处理方法和系统 |
CN105302626A (zh) * | 2015-11-09 | 2016-02-03 | 深圳市依伴数字科技有限公司 | Xps结构化数据的解析方法 |
Non-Patent Citations (1)
Title |
---|
武云鹏: "面向移动平台的复杂文档结构分析系统", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263176A (zh) * | 2019-05-14 | 2019-09-20 | 武汉维特鲁威生物科技有限公司 | 一种基于本体的医学数据整合方法及系统 |
CN112651725A (zh) * | 2019-10-11 | 2021-04-13 | 清华大学 | 电子发票解析方法和装置 |
CN112651725B (zh) * | 2019-10-11 | 2022-12-13 | 清华大学 | 电子发票解析方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104268160B (zh) | 一种基于领域词典和语义角色的评价对象抽取方法 | |
e Silva et al. | Design of an end-to-end method to extract information from tables | |
Hurst | The interpretation of tables in texts | |
CN111767732B (zh) | 基于图注意力模型的文档内容理解方法及系统 | |
CN107133213A (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN107392143A (zh) | 一种基于svm文本分类的简历精确解析方法 | |
CN106709032A (zh) | 抽取电子表格文档中结构化信息的方法及装置 | |
CN111581376A (zh) | 一种知识图谱自动构建系统及方法 | |
CN108959566A (zh) | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 | |
CN107239694A (zh) | 一种基于用户评论的Android应用权限推理方法及装置 | |
CN107608951A (zh) | 报表生成方法和系统 | |
CN107463537A (zh) | 一种对文本信息进行结构化处理的方法 | |
CN108021711A (zh) | 一种信息处理的方法 | |
CN105740355B (zh) | 基于聚集文本密度的网页正文提取方法及装置 | |
CN105740267A (zh) | 一种处理pdf文件的方法及装置 | |
CN109508448A (zh) | 基于长篇文章生成短资讯方法、介质、装置和计算设备 | |
WO2024109097A1 (zh) | 专利文本的知识图谱创建方法、装置、存储介质及设备 | |
CN103927179A (zh) | 一种基于WordNet的程序可读性分析方法 | |
CN103608805A (zh) | 辞典产生装置、方法、及程序 | |
CN107145591A (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
CN111966785B (zh) | 一种基于层叠序列标注的简历信息抽取方法 | |
CN110232328A (zh) | 一种征信报告解析方法、装置及计算机可读存储介质 | |
JP2004178010A (ja) | 文書処理装置並びにその方法及びプログラム | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及系统 | |
Di Castro et al. | Automated extractions for machine generated mail |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 518000 Wensheng center, Wenjin square, East Wenjin Road, Luohu District, Shenzhen, Guangdong, 2001 Applicant after: Shenzhen juding Medical Co.,Ltd. Address before: 518000 Wensheng center, Wenjin square, East Wenjin Road, Luohu District, Shenzhen, Guangdong, 2001 Applicant before: SHENZHEN JUDING MEDICAL DEVICE Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180511 |