CN111209924B

CN111209924B - 一种用于对医嘱进行自动提取的系统及应用

Info

Publication number: CN111209924B
Application number: CN201811377709.8A
Authority: CN
Inventors: 罗立刚; 康悦; 罗翔凤; 马丁; 张天泽
Original assignee: Linkdoc Technology Beijing Co ltd
Current assignee: Linkdoc Technology Beijing Co ltd
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2023-04-18
Anticipated expiration: 2038-11-19
Also published as: CN111209924A

Abstract

本发明公开了一种用于对医嘱进行自动提取的系统及应用。所述系统，包括：模板生成模块，用于将不同版面类型样本医嘱单进行分类，并按样本医嘱单类型分别获取对应每一类型的有效医嘱信息区域，以生成对应不同类型样本医嘱单的不同类型的医嘱模板；训练模块，用于将所述不同类型样本医嘱单输入至卷积神经网络中训练以获取用于对医嘱单进行分类的神经网络模型；提取模块，用于根据所述用于对医嘱单进行分类的神经网络模型获取的待提取医嘱单的类型匹配其对应类型的医嘱模板，并根据匹配的医嘱模板对所述待提取医嘱单进行待提取区域的定位以及提取处理，以获取提取的有效医嘱信息。由上，本申请能够实现高效准确地对医嘱进行提取。

Description

一种用于对医嘱进行自动提取的系统及应用

技术领域

本发明涉及模式识别、机器学习、卷积神经网络等技术领域，特别涉及一种用于对医嘱进行自动提取的系统及应用。

背景技术

在医疗环境中，医嘱单是医生对病人在饮食、用药、化验等方面的指示，对病人的治疗效果起着至关重要的作用。随着如今就医人数的增加及疾病种类的多样化，利用人工进行医疗信息抽取无论在效率与准确率上都表现出了很大的局限性。由于不同医院及科室的医嘱单一般版面不同，缺乏统一出信息的结构标准，难以应用一套统一的结构提取有效的医嘱信息。而如果直接利用现有的光标识别技术对医嘱单图片进行识别，无效的信息同样会被识别而造成不必要的耗时。另一方面，单独的光标识别技术不能保证抽取信息的逻辑性和有效性，容易造成有效信息的缺失或误读。因此，现有技术尚未实现高效准确的对医嘱进行自动提取。

因此，目前亟需一种用于对医嘱进行自动提取的系统，以实现高效准确的对医嘱进行自动提取。

发明内容

有鉴于此，本申请提供一种用于对医嘱进行自动提取的系统，以实现高效准确的对医嘱进行提取。

本申请提供的用于对医嘱信息进行自动提取的系统，包括：

模板生成模块，用于将不同版面类型样本医嘱单进行分类，并按样本医嘱单类型分别获取对应每一类型的有效医嘱信息区域，以生成对应不同类型样本医嘱单的不同类型的医嘱模板；

训练模块，用于将所述不同类型样本医嘱单输入至卷积神经网络中训练以获取用于对医嘱单进行分类的神经网络模型；

提取模块，用于根据所述用于对医嘱单进行分类的神经网络模型获取的待提取医嘱单的类型匹配其对应类型的医嘱模板，并根据匹配的医嘱模板对所述待提取医嘱单进行待提取区域的定位以及提取处理，以获取提取的有效医嘱信息。

由上，本申请的自动提取系统可以实现高效准确地对不同类型的医嘱进行自动提取。既克服了现有技术中利用人工进行医嘱提取在效率与可靠性上的局限性的缺陷；又通过本申请的上述各个模块的功能，克服了现有技术中的利用光标识别技术对进行医嘱单提取时，由于需要对医嘱单的全部内容进行识别，相同的信息会被不断重复识别而造成不必要的耗时的缺陷。

优选地，所述模板生成模块，具体包括：

采集子模块，用于采集不同医院的不同版面类型的样本医嘱单；

标注子模块，用于标注出所述样本医嘱单中的有效医嘱信息区域；

分类子模块，用于根据已标注的样本医嘱单中的不同版面结构及有效医嘱信息区域所在位置将样本医嘱单分成不同类型的样本医嘱单；

记录子模块，用于记录每一类型样本医嘱单的被标注的有效医嘱信息区域的坐标值；

模板生成子模块，用于对于每一类型样本医嘱单：根据每一类型样本医嘱单中的每个样本医嘱单的被标注的有效医嘱信息区域的坐标值，将所含面积最大的有效医嘱信息区域作为每一类型样本医嘱单的最终有效医嘱信息区域，并将标注有所述最终有效医嘱信息区域的样本医嘱单作为该类型样本医嘱单的医嘱模板。

由上，有利于生成对应不同类型样本医嘱单的不同类型的医嘱模板。其中，模板生成子模块，将所含面积最大的有效医嘱信息区域作为每一类型样本医嘱单的最终的有效医嘱信息区域。有利于保证在医嘱单进行提取处理时，有效医嘱信息能够充分包含在被提取的区域中。

优选地，所述模板生成模块，还包括：

图像预处理子模块，用于对所述标注子模块标注后的样本医嘱单进行去噪与二值化处理，以获取处理后的样本医嘱单的二值图像。

由上，所述去噪处理能够去除与有效医嘱信息无关的噪点，所述二值化处理有利于在对图像做进一步处理时，图像的集合性质只与像素值为0或255的点的位置有关，不再涉及像素的多级值，使处理变得简单，而且数据的处理和压缩量小。

优选地，所述训练模块，具体用于：

将所述每一类型样本医嘱单及其所述类型输入至卷积神经网络的输入层；

所述卷积神经网络的卷积层提取所述样本医嘱单的特征图；

所述卷积神经网络的池化层对所述特征图进行压缩，以及用于提取主要特征；

所述卷积神经网络的全连接层用于对所述池化层提取的特征进行全连接或者全局平均处理，并进行分类处理以获取用于对医嘱单进行分类的神经网络模型。

由上，有利于生成用于针对不同版面类型医嘱单分类和初始待提取区域标注的神经网络模型。其中，将所含面积最大的有效医嘱信息区域作为每一类型医嘱模板的最终的有效医嘱信息区域。有利于保证在对医嘱进行提取处理时，有效医嘱信息能够充分包含在被提取的区域中。

优选地，所述提取模块，具体包括：

匹配子模块，用于根据所述训练模块获取的神经网络模型获取的待提取医嘱的类型匹配其对应的医嘱模板；

标注子模块，用于根据所述医嘱模板对所述带提取医嘱进行初始待提取区域的标注；

定位子模块，用于利用图像处理技术，对所述初始待提取区域进行只保留医嘱信息区域的精确定位，以获取精确定位后的待提取区域；

提取子模块，用于对每个精确定位后的待提取区域进行单独的提取处理。

由上，本申请通过用于针对不同版面类型医嘱的特征提取的神经网络模型获取带提取的医嘱的初始待提取区域，并进一步精确定位及提取。克服了现有技术中的利用光标识别技术对进行医嘱提取时，由于需要对医嘱全部内容进行识别，相同的信息会被不断重复识别而造成不必要的耗时的缺陷。

优选地，所述提取子模块，包括：

医嘱信息识别子模块，用于识别出所述待提取区域的句段，并使用指定长度的滑动窗口所述句段中的词语进行识别；

校正子模块，用于对所述每个滑动窗口中的识别出的词语进行校对编辑操作。

由上，有利于实现对医嘱信息的准确有效的提取。

优选地，所述校正子模块，具体用于：

根据所述每个滑动窗口中的识别出的可能的词语的概率，所述可能的词语按照降序排列，并将概率最高的词语选定为校正后的词语进行输出；或者

对于同一原词语编辑得到的相同概率的词语，以编辑距离最小的词语做为校正后的词语进行输出。

由上，有利于更好地实现对医嘱信息的准确有效的提取。

优选地，所述有效医嘱信息至少包括但不限于以下其一：所需检查的项目及检查时间、饮食指导信息、服药时间及所需忌口。

由上，有效医嘱信息可以是上述信息不限于上述信息，还可以是其他的与医嘱有关的信息。

基于上述系统，本申请还提供一种对医嘱进行自动提取的方法，包括：

A、获取待提取医嘱单；

B、对所述待提取医嘱单进行图片质量判定，保留分辨率高于指定阈值的待提取医嘱单；

C、对所述待提取医嘱单进行去噪与二值化处理；

D、通过所述用于对医嘱单进行分类的神经网络模型对处理后的所述待提取医嘱单进行分类以获取其所属的医嘱单的类型；

E、根据所述医嘱单的类型匹配其对应类型的医嘱模板，并据此获取所述待提取医嘱单的初始待提取区域；

F、利用图像处理技术，对所述初始待提取区域进行只保留医嘱信息区域的精确定位，以获取精确定位后的待提取区域；

G、对所述精确定位后的待提取区域进行提取处理。

由上，本申请的上述方法可以实现高效准确地对不同类型的医嘱单进行自动提取。既克服了现有技术中利用人工进行医嘱提取在效率与可靠性上的局限性的缺陷；同时，本申请还对原始医嘱进行分类以及对其进行初始待提取区域的定位，进一步的对其进行精确定位及提取处理，克服了现有技术中的利用光标识别技术对进行医嘱提取时，由于需要对医嘱全部内容进行识别，相同的信息会被不断重复识别而造成不必要的耗时的缺陷。

优选地，所述步骤G包括：

G1、识别出所述待提取区域的句段，并使用指定长度的滑动窗口所述句段中的词语进行识别；

G2、根据所述每个滑动窗口中的识别出的可能的词语的概率，所述可能的词语按照降序排列，并将概率最高的词语选定为校正后的词语进行输出；或者

由上，有利于更好地实现对医嘱信息的准确有效的提取。

综上所述，本申请提供的用于对医嘱进行自动提取的系统及应用，可以实现高效准确地对不同类型的医嘱进行自动提取。既克服了现有技术中利用人工进行医嘱提取在效率与可靠性上的局限性的缺陷；又克服了现有技术中的利用光标识别技术对进行医嘱提取时，由于需要对医嘱全部内容进行识别，相同的信息会被不断重复识别而造成不必要的耗时的缺陷。

附图说明

图1为本申请提供的一种用于对医嘱进行自动提取的系统的结构示意图；

图2为本申请提供的一种用于对医嘱进行自动提取的系统的模板生成模块和训练模块的原理示意图；

图3为本申请提供的一种对医嘱进行自动提取的方法的流程示意图；

图4为本申请提供的一种对医嘱进行自动提取的方法中的对医嘱单匹配模板的流程示意图；

图5为本申请提供的一种对医嘱进行自动提取的方法中的医嘱信息识别与校正的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行进一步的详细说明。应当理解为此处所描述的具体实施例仅用以解释本发明，并不用于限制本发明的保护范围。

实施例一

如图1-2所示，本发明提供一种用于对医嘱进行自动提取的系统，包括：

所述模板生成模块101，用于将不同版面类型样本医嘱单进行有效医嘱信息区域标注生成对应不同类型样本医嘱单的不同类型的医嘱模板。其中所述图2中的A示出了模板生成模块101的原理图，具体地，所述模板生成模块具体用于：

标注子模块，用于标注出所述样本医嘱单中的有效医嘱信息区域；其中，所述有效医嘱信息至少包括但不限于以下其一：所需检查的项目及检查时间、饮食指导信息、服药时间及所需忌口。

模板生成子模块，用于对于每一类型样本医嘱单：根据每一类型样本医嘱单中的每个样本医嘱单的被标注的有效医嘱信息区域的坐标值，将所含面积最大的有效医嘱信息区域作为每一类型样本医嘱单的最终有效医嘱信息区域，并将标注有所述最终有效医嘱信息区域的样本医嘱单作为该类型样本医嘱单的医嘱模板。此处，将所含面积最大的有效医嘱信息区域作为每一类型医嘱模板的最终的有效医嘱信息区域。有利于保证在对医嘱进行提取处理时，有效医嘱信息能够充分包含在被提取的区域中。

样本扩充子模块，用于将记录子模块记录的已标注的每一类型内的样本医嘱单进行仿射变换，以获取指定数量的样本医嘱单。

训练模块102，用于将所述模板处理模块处理后的每一类医嘱模板分别输入至卷积神经网络中训练以获取用于针对不同版面类型医嘱的有效医嘱信息提取的神经网络模型。其中所述图2中的B示出了模板生成模块102的原理图，具体地，所述模板生成模块，具体用于：

N1、将所述每一类型样本医嘱单及其所述类型输入至卷积神经网络的输入层；

N2、所述卷积神经网络的卷积层提取所述样本医嘱单的特征图；其中，所述卷积神经网络的卷积层提取所述医嘱模板的特征图与所述样本医嘱单之间的映射关系式为：

x^m＝f(Σx^m _i*k^m _ij+b^m _j)

其中，所述x^m表示第m层的输出向量；所述x^m _i表示第m层第i个节点的输入向量；所述k^m _ij表示第m层第i个节点需要训练的滤波器参数；所述b^m _j表示第m层第i个借口点需要训练的基；所述m表示m表示当前层数；所述i表示当前节点；所述j表示当前层。

N3、所述卷积神经网络的池化层对所述特征图进行压缩，以及用于提取主要特征；

N3、所述卷积神经网络的全连接层用于对所述池化层提取的特征进行全连接或者全局平均处理，并进行分类处理以获取用于对医嘱单进行分类的神经网络模型。

其中，所述卷积神经网络的全连接层的用于分类时的平方代价函数为：E^N＝Σ^NΣ^c(t_k ⁿ-y_k ⁿ)²

其中，所述N表示样本医嘱单的个数，E^N表示输出的第N个样本医嘱单的类型；所述c表示医嘱模版的类型的数量，所述k表示所述样本医嘱单的版面类型及所述卷积神经网络的全连接层输出的医嘱模板类型上的维度，所述t表示第n个样本对应标签的第k维，所述y表示第n个样本对应网络输出的第k维。

本申请的训练模块102采用有监督学习方法，通过反向传播算法对各层的初始参数进行训练，实现训练样本的特征提取。

提取模块103，用于根据所述训练模块获取的神经网络模型获取的待提取医嘱的类型匹配其对应的医嘱模板，并根据匹配的医嘱模板对所述待提取医嘱进行待提取区域的标注以及提取处理，以获取提取处理后的医嘱。具体包括：

定位子模块，用于利用图像处理技术(例如OCR识别)，对所述初始待提取区域进行只保留医嘱信息区域的精确定位，以获取精确定位后的待提取区域；

提取子模块，用于对每个精确定位后的待提取区域进行单独的提取处理。具体包括：

校正子模块，用于对所述每个滑动窗口中的识别出的词语进行校对编辑操作。其中，所述校正子模块，具体用于：

根据所述每个滑动窗口中的识别出的可能的词语的概率，所述可能的词语按照降序排列，并将概率最高的词语选定为校正后的词语进行输出；具体地，基于N元语言模型及标准药品词库，使用已标注的医嘱单作为训练语料库。基于马尔可夫假设，定义当前词的出现概率只与它前面的N-1(N＝1-3)个词有关。对于每个识别出的句段(可以使用OCR识别)，使用指定长度的滑动窗口进行逐个词语判断。对于每个滑动窗口中，利用编辑距离法对其进行2-3次编辑操作(包括删，添，更换字符)。计算所有可能词语概率，按降序排列。具体表示为：

P(Wi|Wi-1，Wi-2...Wi-n)≈count(Wi-n...Wi-1Wi)/count(Wi-n...Wi-1)

其中，将概率最高的词语选定为校正后的词语进行输出；或者

实施例二

基于实施例一中的用于对医嘱进行自动提取的系统，本申请还提供一种对医嘱进行自动提取的方法，如图3-4所示，包括：

S301，获取待提取医嘱单；

S302，对所述待提取医嘱单进行图片质量判定，保留分辨率高于指定阈值的待提取医嘱单；

S303，对所述待提取医嘱单进行去噪与二值化处理；

S304，通过实施例一中训练模块102获取的所述用于对医嘱单进行分类的神经网络模型对S303中处理后的所述待提取医嘱单进行分类以获取其所属的医嘱单的类型。

S305，根据所述医嘱单的类型匹配其对应类型的医嘱模板，并据此获取所述待提取医嘱单的初始待提取区域；具体的，根据所述医嘱模板的有效医嘱信息区域的坐标信息，获取所述待提取的原始医嘱图片的对应坐标位置的初始待提取区域。

S306，利用图像处理技术，对所述初始待提取区域进行精确定位，获取精确定位后的待提取区域；此处可以利用OCR识别技术进行进一步的精确定位。仅显示与医嘱信息有关的区域。

S307，对所述精确定位后的待提取区域进行提取处理。具体地，包括包括：

基于N元语言模型及标准药品词库，使用已标注的医嘱单作为训练语料库。基于马尔可夫假设，定义当前词的出现概率只与它前面的N-1(N＝1-3)个词有关。对于每个识别出的句段(可以使用OCR识别)，使用指定长度的滑动窗口进行逐个词语判断。对于每个滑动窗口中，利用编辑距离法对其进行2-3次编辑操作(包括删，添，更换字符)。计算所有可能词语概率，按降序排列。具体表示为：

P(Wi|Wi-1，Wi-2...Wi-n)≈count(Wi-n...Wi-1Wi)/count(Wi-n...Wi-1)

其中count(…)表示一个特定词序列在整个语料库中出现的累计次数，Wi表示第Wi个词语，P表示概率。

将概率最高的词语选定为校正后的词语进行输出；或者

以上所述仅为本发明以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于对医嘱信息进行自动提取的系统，其特征在于，包括：

提取模块，用于根据所述用于对医嘱单进行分类的神经网络模型获取的待提取医嘱单的类型匹配其对应类型的医嘱模板，并根据匹配的医嘱模板对所述待提取医嘱单进行待提取区域的定位以及提取处理，以获取提取的有效医嘱信息；

所述提取模块具体包括：

标注子模块，用于根据所述医嘱模板对所述待提取医嘱进行初始待提取区域的标注；

提取子模块，用于对每个精确定位后的待提取区域进行单独的提取处理；

所述提取子模块具体包括：

医嘱信息识别子模块，用于识别出所述待提取区域的句段，并使用指定长度的滑动窗口对所述句段中的词语进行识别；

校正子模块，用于对所述滑动窗口中的识别出的词语进行校对编辑操作；

所述校正子模块具体用于：根据所述滑动窗口中的识别出的可能的词语的概率，所述可能的词语按照降序排列，并将概率最高的词语选定为校正后的词语进行输出；或者，对于同一原词语使用编辑距离法编辑得到的相同概率的词语时，将编辑距离最小的词语做为校正后的词语进行输出。

2.根据权利要求1所述的系统，其特征在于，所述模板生成模块，具体包括：

3.根据权利要求2所述的系统，其特征在于，所述模板生成模块，还包括：

图像预处理子模块，用于对所述标注子模块标注后的样本医嘱单进行去噪与二值化处理。

4.根据权利要求3所述的系统，其特征在于，所述训练模块包括输入子模块和一卷积神经网络：

所述输入子模块，用于将所述每一类型样本医嘱单及其所述类型输入至卷积神经网络的输入层；

所述卷积神经网络的卷积层用于提取所述样本医嘱单的特征图；

所述卷积神经网络的池化层用于对所述特征图进行压缩，以及用于提取主要特征；

5.根据权利要求2所述的系统，其特征在于，所述有效医嘱信息至少包括但不限于以下其一：所需检查的项目及检查时间、饮食指导信息、服药时间及所需忌口。

6.一种对医嘱进行自动提取的方法，基于权利要求1-5任一项所述的系统，其特征在于，包括：

A、获取待提取医嘱单；

C、对所述待提取医嘱单进行去噪与二值化处理；

G、对所述精确定位后的待提取区域进行提取处理；

所述步骤G包括：

G1、识别出所述待提取区域的句段，并使用指定长度的滑动窗口对所述句段中的词语进行识别；

G2、根据所述滑动窗口中的识别出的可能的词语的概率，所述可能的词语按照降序排列，并将概率最高的词语选定为校正后的词语进行输出；或者

对于同一原词语使用编辑距离法编辑得到的相同概率的词语，以编辑距离最小的词语做为校正后的词语进行输出。