CN108021711A

CN108021711A - 一种信息处理的方法

Info

Publication number: CN108021711A
Application number: CN201711460305.0A
Authority: CN
Inventors: 龙汉; 李爱成; 王海生
Original assignee: Shenzhen Huge Ancient Cooking Vessel Medical Devices Co Ltd
Current assignee: Shenzhen Huge Ancient Cooking Vessel Medical Devices Co Ltd
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-05-11

Abstract

本发明涉及医学电子报告信息提取技术领域，尤其涉及一种信息处理的方法，包括以下步骤：系统初始化；获取医学电子报告中的中间格式数据；根据中间格式数据，获取中间格式数据中每个字符的位置，并根据每个字符的位置对每个字符按行和列重新排序；根据医学电子报告的预设规范，将医学电子报告进行分块；对医学电子报告中每一块逐行关键字匹配；根据每行的关键字，获取关键字对应的值；结构化信息整合并以JSON格式输出整合结果；对整合结果打分。本发明的一种信息处理的方法，实现医疗数据从PDF，XPS等的文件流数据到结构化数据的转换工作，该结构化数据可以用来做进一步的结构化存储或者传输，大大方便了数据的有效利用。

Description

一种信息处理的方法

技术领域

本发明涉及医学电子报告信息提取技术领域，尤其涉及一种信息处理的方法。

背景技术

医学电子报告多以PDF，XPS格式文件为主，包含丰富的患者个人和病历数据，XPS文档与PDF文档类似，是一种只读文档格式，其采用结构化数据形式保存数据，在使用计算机读取文档内容时，需要进行相应的解析和提取处理。.net中有读取处理的组件，该组件虽能够获取XPS或PDF中的文本信息，但不公开提供坐标信息的获取能力，有个隐藏接口虽可获取坐标信息但准确度很低。目前多采用手工配置模板，程序自动进行模板匹配的方式进行结构化数据的提取，由于人工的高成本和非可控性，实现一个完成度高的模板配置方案非常困难，导致提取效率低下，提取范围受限。

发明内容

针对现有技术中存在的问题，本发明提供一种信息处理的方法。

一种信息处理的方法，包括以下步骤：

系统初始化；

获取医学电子报告中的中间格式数据；

根据中间格式数据，获取中间格式数据中每个字符的位置，并根据每个字符的位置对每个字符按行和列重新排序；

根据医学电子报告的预设规范，将医学电子报告进行分块；

对医学电子报告中每一块逐行关键字匹配；

根据每行的关键字，获取关键字对应的值；

对医学电子报告中每一块提取到的结构化信息整合，以JSON格式输出整合结果；

通过评判算法对整合结果打分。

进一步的，在获取医学报告中的中间格式数据之前，还包括：

将XPS、PDF格式的医学电子报告转换成统一的带有坐标的中间格式医学电子报告。

进一步的，按行列重新排序具体包括：

利用中间格式文件，获取到每个字符的位置坐标(X₀,Y₀,X₁,Y₁)；

将所有字符的Y₀按照大小进行对所有字符排序，划分得到每个字符的行信息；

根据每行中每个字符的X₀按照大小进行每行中的所有字符排序，划分得到每个字符的前后位置。

进一步的，根据医学电子报告的预设规范，将医学电子报告进行分块的步骤具体为：

将医学电子报告划分为Title、Head、Body和Bottom四块内容。

进一步的，对医学电子报告中每一块逐行关键字匹配的步骤，具体为:

根据预设关键字数据库，对每一块中每一行进行关键字匹配，得到该行所匹配到的关键字。

进一步的，通过评判算法对结果打分，具体包括：

根据整合结果所处的块，对关键词进行语义分析，来判断该关键词提取的可靠性，以评判该报告的解析正确性。

本发明的一种信息处理的方法，通过关键字匹配的方式，实现医疗数据从PDF，XPS等的文件流数据到结构化数据的转换工作，该结构化数据可以用来做进一步的结构化存储或者传输，大大方便了数据的有效利用；自动化从医疗电子报告中提取数据，免配置，高效率，方便大规模使用；构建了一个从各类医学电子报告中获取的关键词库，利用位置坐标关系，得到关键词对应的值，实现了自动评判提取的效果。

附图说明

为了更清楚的说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明的一种信息处理的方法流程图。

具体实施方式

下面将结合本发明中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通的技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本发明的保护范围。

本发明实施例提供一种信息处理的方法，如图1所示包括以下步骤：

SO1：系统初始化；进行相关参数的配置。

SO2：获取医学电子报告中的中间格式数据；将XPS、PDF格式文件转换成统一的带有坐标的中间格式文件，获取每个单字的相关数据；

XPS和PDF文件都是包含固定布局的平面文档，但由于各自使用了不同的标准和描述语言，再从原有的文件流解析到单字信息的中间格式方面有很大不同。XPS是解析出ZIP文件后，进一步分析XLM描述文件，从而解析出每个单字信息。PDF是解析文件本身，获取到文件对象后，进一步从对象里面解析出单字信息。这些单字信息构成了下面步骤的基础。中间格式数据包括每个单字的字符信息和位置信息，位置信息记录在一个Matrix，包含偏置，旋转等信息，通过这些信息可以计算出单字的准确坐标信息(X₀,Y₀,X₁,Y₁)，单字的左上角坐标定义为(X₀,Y₀)，右下角坐标定义为(X₁,Y₁)。

SO3：根据中间格式数据，获取中间格式数据中每个字符的位置，并根据每个字符的位置对每个字符按行和列重新排序；利用中间格式文件，获取到每个字符的位置坐标(X₀,Y₀,X₁,Y₁)；首先将所有字符的Y₀按照大小进行对所有字符排序，划分得到每个字符的行信息；通过Y₀排序，首先会将所有字符按照从上到下的顺序划分到对应的行里面，通过特定阈值，会准确的划分成行。根据每行中每个字符的X₀按照大小进行每行中的所有字符排序，划分得到每个字符的前后位置，使每个单字按照从上到下、从左到右的顺序排列。至此，已将中间格式数据按照位置坐标准确的划分成中间坐标数据。

SO4：根据医学电子报告的预设规范，将医学电子报告进行分块；通过已经构建的关键词库和中间坐标数据，将整个中间格式数据划分成四块。医学类文档呈现出一定的格式和信息布局，每块格式里面对应着不同的信息，通过每块含有信息的不同和行之间的位置间隙，可将整个文档划分成四块Title，Head，Body和Bottom四块内容。

SO5：对医学电子报告中每一块逐行关键字匹配；根据预设关键词数据库，对每一块的每一行进行关键字匹配，得到该行所匹配到的关键字。每块包含了不同的关键词信息，比如Head块包括："姓名","性别"，"年龄"，"检查号"，"来源"，"科室"，"住院号"，"床号"，"部位"，"ID号"等等。

SO6：根据每行的关键字，获取关键字对应的值；每一行包含若干的关键字和对应的值，通过位置的分析判定，可找到关键词对应的值。例如对"部位"，可提取其对应值为"颈部淋巴结彩色多普勒超声"。

SO7：对医学电子报告中每一块提取到的结构化信息整合，以JSON格式输出整合结果。

SO8：通过评判算法对整合结果打分；根据整合结果所处的块，对关键词进行语义分析，来判断该关键词提取的可靠性，以评判该报告的解析正确性。

以上借助具体实施例对本发明做了进一步描述，但是应该理解的是，这里具体的描述，不应理解为对本发明的实质和范围的限定，本领域内的普通技术人员在阅读本说明书后对上述实施例做出的各种修改，都属于本发明所保护的范围。

Claims

1.一种信息处理的方法，其特征在于，包括以下步骤：

系统初始化；

获取医学电子报告中的中间格式数据；

根据医学电子报告的预设规范，将医学电子报告进行分块；

对医学电子报告中每一块逐行关键字匹配；

根据每行的关键字，获取所述关键字对应的值；

通过评判算法对所述整合结果打分。

2.如权利要求1所述的一种信息处理的方法，其特征在于，在获取医学报告中的中间格式数据之前，还包括：

3.如权利要求1所述的一种信息处理的方法，其特征在于，按行列重新排序具体包括：

4.如权利要求1所述的一种信息处理的方法，其特征在于，所述根据医学电子报告的预设规范，将医学电子报告进行分块的步骤具体为：

将医学电子报告划分为Title、Head、Body和Bottom四块内容。

5.如权利要求1所述的一种信息处理的方法，其特征在于，所述对医学电子报告中每一块逐行关键字匹配的步骤，具体为:

6.如权利要求1所述的一种信息处理的方法，其特征在于，通过评判算法对结果打分，具体包括：