CN111209924B - 一种用于对医嘱进行自动提取的系统及应用 - Google Patents

一种用于对医嘱进行自动提取的系统及应用 Download PDF

Info

Publication number
CN111209924B
CN111209924B CN201811377709.8A CN201811377709A CN111209924B CN 111209924 B CN111209924 B CN 111209924B CN 201811377709 A CN201811377709 A CN 201811377709A CN 111209924 B CN111209924 B CN 111209924B
Authority
CN
China
Prior art keywords
medical advice
extracted
order
type
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811377709.8A
Other languages
English (en)
Other versions
CN111209924A (zh
Inventor
罗立刚
康悦
罗翔凤
马丁
张天泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Linkdoc Technology Beijing Co ltd
Original Assignee
Linkdoc Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Linkdoc Technology Beijing Co ltd filed Critical Linkdoc Technology Beijing Co ltd
Priority to CN201811377709.8A priority Critical patent/CN111209924B/zh
Publication of CN111209924A publication Critical patent/CN111209924A/zh
Application granted granted Critical
Publication of CN111209924B publication Critical patent/CN111209924B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种用于对医嘱进行自动提取的系统及应用。所述系统,包括:模板生成模块,用于将不同版面类型样本医嘱单进行分类,并按样本医嘱单类型分别获取对应每一类型的有效医嘱信息区域,以生成对应不同类型样本医嘱单的不同类型的医嘱模板;训练模块,用于将所述不同类型样本医嘱单输入至卷积神经网络中训练以获取用于对医嘱单进行分类的神经网络模型;提取模块,用于根据所述用于对医嘱单进行分类的神经网络模型获取的待提取医嘱单的类型匹配其对应类型的医嘱模板,并根据匹配的医嘱模板对所述待提取医嘱单进行待提取区域的定位以及提取处理,以获取提取的有效医嘱信息。由上,本申请能够实现高效准确地对医嘱进行提取。

Description

一种用于对医嘱进行自动提取的系统及应用
技术领域
本发明涉及模式识别、机器学习、卷积神经网络等技术领域,特别涉及一种用于对医嘱进行自动提取的系统及应用。
背景技术
在医疗环境中,医嘱单是医生对病人在饮食、用药、化验等方面的指示,对病人的治疗效果起着至关重要的作用。随着如今就医人数的增加及疾病种类的多样化,利用人工进行医疗信息抽取无论在效率与准确率上都表现出了很大的局限性。由于不同医院及科室的医嘱单一般版面不同,缺乏统一出信息的结构标准,难以应用一套统一的结构提取有效的医嘱信息。而如果直接利用现有的光标识别技术对医嘱单图片进行识别,无效的信息同样会被识别而造成不必要的耗时。另一方面,单独的光标识别技术不能保证抽取信息的逻辑性和有效性,容易造成有效信息的缺失或误读。因此,现有技术尚未实现高效准确的对医嘱进行自动提取。
因此,目前亟需一种用于对医嘱进行自动提取的系统,以实现高效准确的对医嘱进行自动提取。
发明内容
有鉴于此,本申请提供一种用于对医嘱进行自动提取的系统,以实现高效准确的对医嘱进行提取。
本申请提供的用于对医嘱信息进行自动提取的系统,包括:
模板生成模块,用于将不同版面类型样本医嘱单进行分类,并按样本医嘱单类型分别获取对应每一类型的有效医嘱信息区域,以生成对应不同类型样本医嘱单的不同类型的医嘱模板;
训练模块,用于将所述不同类型样本医嘱单输入至卷积神经网络中训练以获取用于对医嘱单进行分类的神经网络模型;
提取模块,用于根据所述用于对医嘱单进行分类的神经网络模型获取的待提取医嘱单的类型匹配其对应类型的医嘱模板,并根据匹配的医嘱模板对所述待提取医嘱单进行待提取区域的定位以及提取处理,以获取提取的有效医嘱信息。
由上,本申请的自动提取系统可以实现高效准确地对不同类型的医嘱进行自动提取。既克服了现有技术中利用人工进行医嘱提取在效率与可靠性上的局限性的缺陷;又通过本申请的上述各个模块的功能,克服了现有技术中的利用光标识别技术对进行医嘱单提取时,由于需要对医嘱单的全部内容进行识别,相同的信息会被不断重复识别而造成不必要的耗时的缺陷。
优选地,所述模板生成模块,具体包括:
采集子模块,用于采集不同医院的不同版面类型的样本医嘱单;
标注子模块,用于标注出所述样本医嘱单中的有效医嘱信息区域;
分类子模块,用于根据已标注的样本医嘱单中的不同版面结构及有效医嘱信息区域所在位置将样本医嘱单分成不同类型的样本医嘱单;
记录子模块,用于记录每一类型样本医嘱单的被标注的有效医嘱信息区域的坐标值;
模板生成子模块,用于对于每一类型样本医嘱单:根据每一类型样本医嘱单中的每个样本医嘱单的被标注的有效医嘱信息区域的坐标值,将所含面积最大的有效医嘱信息区域作为每一类型样本医嘱单的最终有效医嘱信息区域,并将标注有所述最终有效医嘱信息区域的样本医嘱单作为该类型样本医嘱单的医嘱模板。
由上,有利于生成对应不同类型样本医嘱单的不同类型的医嘱模板。其中,模板生成子模块,将所含面积最大的有效医嘱信息区域作为每一类型样本医嘱单的最终的有效医嘱信息区域。有利于保证在医嘱单进行提取处理时,有效医嘱信息能够充分包含在被提取的区域中。
优选地,所述模板生成模块,还包括:
图像预处理子模块,用于对所述标注子模块标注后的样本医嘱单进行去噪与二值化处理,以获取处理后的样本医嘱单的二值图像。
由上,所述去噪处理能够去除与有效医嘱信息无关的噪点,所述二值化处理有利于在对图像做进一步处理时,图像的集合性质只与像素值为0或255的点的位置有关,不再涉及像素的多级值,使处理变得简单,而且数据的处理和压缩量小。
优选地,所述训练模块,具体用于:
将所述每一类型样本医嘱单及其所述类型输入至卷积神经网络的输入层;
所述卷积神经网络的卷积层提取所述样本医嘱单的特征图;
所述卷积神经网络的池化层对所述特征图进行压缩,以及用于提取主要特征;
所述卷积神经网络的全连接层用于对所述池化层提取的特征进行全连接或者全局平均处理,并进行分类处理以获取用于对医嘱单进行分类的神经网络模型。
由上,有利于生成用于针对不同版面类型医嘱单分类和初始待提取区域标注的神经网络模型。其中,将所含面积最大的有效医嘱信息区域作为每一类型医嘱模板的最终的有效医嘱信息区域。有利于保证在对医嘱进行提取处理时,有效医嘱信息能够充分包含在被提取的区域中。
优选地,所述提取模块,具体包括:
匹配子模块,用于根据所述训练模块获取的神经网络模型获取的待提取医嘱的类型匹配其对应的医嘱模板;
标注子模块,用于根据所述医嘱模板对所述带提取医嘱进行初始待提取区域的标注;
定位子模块,用于利用图像处理技术,对所述初始待提取区域进行只保留医嘱信息区域的精确定位,以获取精确定位后的待提取区域;
提取子模块,用于对每个精确定位后的待提取区域进行单独的提取处理。
由上,本申请通过用于针对不同版面类型医嘱的特征提取的神经网络模型获取带提取的医嘱的初始待提取区域,并进一步精确定位及提取。克服了现有技术中的利用光标识别技术对进行医嘱提取时,由于需要对医嘱全部内容进行识别,相同的信息会被不断重复识别而造成不必要的耗时的缺陷。
优选地,所述提取子模块,包括:
医嘱信息识别子模块,用于识别出所述待提取区域的句段,并使用指定长度的滑动窗口所述句段中的词语进行识别;
校正子模块,用于对所述每个滑动窗口中的识别出的词语进行校对编辑操作。
由上,有利于实现对医嘱信息的准确有效的提取。
优选地,所述校正子模块,具体用于:
根据所述每个滑动窗口中的识别出的可能的词语的概率,所述可能的词语按照降序排列,并将概率最高的词语选定为校正后的词语进行输出;或者
对于同一原词语编辑得到的相同概率的词语,以编辑距离最小的词语做为校正后的词语进行输出。
由上,有利于更好地实现对医嘱信息的准确有效的提取。
优选地,所述有效医嘱信息至少包括但不限于以下其一:所需检查的项目及检查时间、饮食指导信息、服药时间及所需忌口。
由上,有效医嘱信息可以是上述信息不限于上述信息,还可以是其他的与医嘱有关的信息。
基于上述系统,本申请还提供一种对医嘱进行自动提取的方法,包括:
A、获取待提取医嘱单;
B、对所述待提取医嘱单进行图片质量判定,保留分辨率高于指定阈值的待提取医嘱单;
C、对所述待提取医嘱单进行去噪与二值化处理;
D、通过所述用于对医嘱单进行分类的神经网络模型对处理后的所述待提取医嘱单进行分类以获取其所属的医嘱单的类型;
E、根据所述医嘱单的类型匹配其对应类型的医嘱模板,并据此获取所述待提取医嘱单的初始待提取区域;
F、利用图像处理技术,对所述初始待提取区域进行只保留医嘱信息区域的精确定位,以获取精确定位后的待提取区域;
G、对所述精确定位后的待提取区域进行提取处理。
由上,本申请的上述方法可以实现高效准确地对不同类型的医嘱单进行自动提取。既克服了现有技术中利用人工进行医嘱提取在效率与可靠性上的局限性的缺陷;同时,本申请还对原始医嘱进行分类以及对其进行初始待提取区域的定位,进一步的对其进行精确定位及提取处理,克服了现有技术中的利用光标识别技术对进行医嘱提取时,由于需要对医嘱全部内容进行识别,相同的信息会被不断重复识别而造成不必要的耗时的缺陷。
优选地,所述步骤G包括:
G1、识别出所述待提取区域的句段,并使用指定长度的滑动窗口所述句段中的词语进行识别;
G2、根据所述每个滑动窗口中的识别出的可能的词语的概率,所述可能的词语按照降序排列,并将概率最高的词语选定为校正后的词语进行输出;或者
对于同一原词语编辑得到的相同概率的词语,以编辑距离最小的词语做为校正后的词语进行输出。
由上,有利于更好地实现对医嘱信息的准确有效的提取。
综上所述,本申请提供的用于对医嘱进行自动提取的系统及应用,可以实现高效准确地对不同类型的医嘱进行自动提取。既克服了现有技术中利用人工进行医嘱提取在效率与可靠性上的局限性的缺陷;又克服了现有技术中的利用光标识别技术对进行医嘱提取时,由于需要对医嘱全部内容进行识别,相同的信息会被不断重复识别而造成不必要的耗时的缺陷。
附图说明
图1为本申请提供的一种用于对医嘱进行自动提取的系统的结构示意图;
图2为本申请提供的一种用于对医嘱进行自动提取的系统的模板生成模块和训练模块的原理示意图;
图3为本申请提供的一种对医嘱进行自动提取的方法的流程示意图;
图4为本申请提供的一种对医嘱进行自动提取的方法中的对医嘱单匹配模板的流程示意图;
图5为本申请提供的一种对医嘱进行自动提取的方法中的医嘱信息识别与校正的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行进一步的详细说明。应当理解为此处所描述的具体实施例仅用以解释本发明,并不用于限制本发明的保护范围。
实施例一
如图1-2所示,本发明提供一种用于对医嘱进行自动提取的系统,包括:
所述模板生成模块101,用于将不同版面类型样本医嘱单进行有效医嘱信息区域标注生成对应不同类型样本医嘱单的不同类型的医嘱模板。其中所述图2中的A示出了模板生成模块101的原理图,具体地,所述模板生成模块具体用于:
采集子模块,用于采集不同医院的不同版面类型的样本医嘱单;
标注子模块,用于标注出所述样本医嘱单中的有效医嘱信息区域;其中,所述有效医嘱信息至少包括但不限于以下其一:所需检查的项目及检查时间、饮食指导信息、服药时间及所需忌口。
图像预处理子模块,用于对所述标注子模块标注后的样本医嘱单进行去噪与二值化处理,以获取处理后的样本医嘱单的二值图像。
分类子模块,用于根据已标注的样本医嘱单中的不同版面结构及有效医嘱信息区域所在位置将样本医嘱单分成不同类型的样本医嘱单;
记录子模块,用于记录每一类型样本医嘱单的被标注的有效医嘱信息区域的坐标值;
模板生成子模块,用于对于每一类型样本医嘱单:根据每一类型样本医嘱单中的每个样本医嘱单的被标注的有效医嘱信息区域的坐标值,将所含面积最大的有效医嘱信息区域作为每一类型样本医嘱单的最终有效医嘱信息区域,并将标注有所述最终有效医嘱信息区域的样本医嘱单作为该类型样本医嘱单的医嘱模板。此处,将所含面积最大的有效医嘱信息区域作为每一类型医嘱模板的最终的有效医嘱信息区域。有利于保证在对医嘱进行提取处理时,有效医嘱信息能够充分包含在被提取的区域中。
样本扩充子模块,用于将记录子模块记录的已标注的每一类型内的样本医嘱单进行仿射变换,以获取指定数量的样本医嘱单。
训练模块102,用于将所述模板处理模块处理后的每一类医嘱模板分别输入至卷积神经网络中训练以获取用于针对不同版面类型医嘱的有效医嘱信息提取的神经网络模型。其中所述图2中的B示出了模板生成模块102的原理图,具体地,所述模板生成模块,具体用于:
N1、将所述每一类型样本医嘱单及其所述类型输入至卷积神经网络的输入层;
N2、所述卷积神经网络的卷积层提取所述样本医嘱单的特征图;其中,所述卷积神经网络的卷积层提取所述医嘱模板的特征图与所述样本医嘱单之间的映射关系式为:
xm=f(Σxm i*km ij+bm j)
其中,所述xm表示第m层的输出向量;所述xm i表示第m层第i个节点的输入向量;所述km ij表示第m层第i个节点需要训练的滤波器参数;所述bm j表示第m层第i个借口点需要训练的基;所述m表示m表示当前层数;所述i表示当前节点;所述j表示当前层。
N3、所述卷积神经网络的池化层对所述特征图进行压缩,以及用于提取主要特征;
N3、所述卷积神经网络的全连接层用于对所述池化层提取的特征进行全连接或者全局平均处理,并进行分类处理以获取用于对医嘱单进行分类的神经网络模型。
其中,所述卷积神经网络的全连接层的用于分类时的平方代价函数为:EN=ΣNΣc(tk n-yk n)2
其中,所述N表示样本医嘱单的个数,EN表示输出的第N个样本医嘱单的类型;所述c表示医嘱模版的类型的数量,所述k表示所述样本医嘱单的版面类型及所述卷积神经网络的全连接层输出的医嘱模板类型上的维度,所述t表示第n个样本对应标签的第k维,所述y表示第n个样本对应网络输出的第k维。
本申请的训练模块102采用有监督学习方法,通过反向传播算法对各层的初始参数进行训练,实现训练样本的特征提取。
提取模块103,用于根据所述训练模块获取的神经网络模型获取的待提取医嘱的类型匹配其对应的医嘱模板,并根据匹配的医嘱模板对所述待提取医嘱进行待提取区域的标注以及提取处理,以获取提取处理后的医嘱。具体包括:
匹配子模块,用于根据所述训练模块获取的神经网络模型获取的待提取医嘱的类型匹配其对应的医嘱模板;
标注子模块,用于根据所述医嘱模板对所述带提取医嘱进行初始待提取区域的标注;
定位子模块,用于利用图像处理技术(例如OCR识别),对所述初始待提取区域进行只保留医嘱信息区域的精确定位,以获取精确定位后的待提取区域;
提取子模块,用于对每个精确定位后的待提取区域进行单独的提取处理。具体包括:
医嘱信息识别子模块,用于识别出所述待提取区域的句段,并使用指定长度的滑动窗口所述句段中的词语进行识别;
校正子模块,用于对所述每个滑动窗口中的识别出的词语进行校对编辑操作。其中,所述校正子模块,具体用于:
根据所述每个滑动窗口中的识别出的可能的词语的概率,所述可能的词语按照降序排列,并将概率最高的词语选定为校正后的词语进行输出;具体地,基于N元语言模型及标准药品词库,使用已标注的医嘱单作为训练语料库。基于马尔可夫假设,定义当前词的出现概率只与它前面的N-1(N=1-3)个词有关。对于每个识别出的句段(可以使用OCR识别),使用指定长度的滑动窗口进行逐个词语判断。对于每个滑动窗口中,利用编辑距离法对其进行2-3次编辑操作(包括删,添,更换字符)。计算所有可能词语概率,按降序排列。具体表示为:
P(Wi|Wi-1,Wi-2...Wi-n)≈count(Wi-n...Wi-1Wi)/count(Wi-n...Wi-1)
其中,将概率最高的词语选定为校正后的词语进行输出;或者
对于同一原词语编辑得到的相同概率的词语,以编辑距离最小的词语做为校正后的词语进行输出。
实施例二
基于实施例一中的用于对医嘱进行自动提取的系统,本申请还提供一种对医嘱进行自动提取的方法,如图3-4所示,包括:
S301,获取待提取医嘱单;
S302,对所述待提取医嘱单进行图片质量判定,保留分辨率高于指定阈值的待提取医嘱单;
S303,对所述待提取医嘱单进行去噪与二值化处理;
S304,通过实施例一中训练模块102获取的所述用于对医嘱单进行分类的神经网络模型对S303中处理后的所述待提取医嘱单进行分类以获取其所属的医嘱单的类型。
S305,根据所述医嘱单的类型匹配其对应类型的医嘱模板,并据此获取所述待提取医嘱单的初始待提取区域;具体的,根据所述医嘱模板的有效医嘱信息区域的坐标信息,获取所述待提取的原始医嘱图片的对应坐标位置的初始待提取区域。
S306,利用图像处理技术,对所述初始待提取区域进行精确定位,获取精确定位后的待提取区域;此处可以利用OCR识别技术进行进一步的精确定位。仅显示与医嘱信息有关的区域。
S307,对所述精确定位后的待提取区域进行提取处理。具体地,包括包括:
基于N元语言模型及标准药品词库,使用已标注的医嘱单作为训练语料库。基于马尔可夫假设,定义当前词的出现概率只与它前面的N-1(N=1-3)个词有关。对于每个识别出的句段(可以使用OCR识别),使用指定长度的滑动窗口进行逐个词语判断。对于每个滑动窗口中,利用编辑距离法对其进行2-3次编辑操作(包括删,添,更换字符)。计算所有可能词语概率,按降序排列。具体表示为:
P(Wi|Wi-1,Wi-2...Wi-n)≈count(Wi-n...Wi-1Wi)/count(Wi-n...Wi-1)
其中count(…)表示一个特定词序列在整个语料库中出现的累计次数,Wi表示第Wi个词语,P表示概率。
将概率最高的词语选定为校正后的词语进行输出;或者
对于同一原词语编辑得到的相同概率的词语,以编辑距离最小的词语做为校正后的词语进行输出。
综上所述,本申请提供的用于对医嘱进行自动提取的系统及应用,可以实现高效准确地对不同类型的医嘱进行自动提取。既克服了现有技术中利用人工进行医嘱提取在效率与可靠性上的局限性的缺陷;又克服了现有技术中的利用光标识别技术对进行医嘱提取时,由于需要对医嘱全部内容进行识别,相同的信息会被不断重复识别而造成不必要的耗时的缺陷。
以上所述仅为本发明以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种用于对医嘱信息进行自动提取的系统,其特征在于,包括:
模板生成模块,用于将不同版面类型样本医嘱单进行分类,并按样本医嘱单类型分别获取对应每一类型的有效医嘱信息区域,以生成对应不同类型样本医嘱单的不同类型的医嘱模板;
训练模块,用于将所述不同类型样本医嘱单输入至卷积神经网络中训练以获取用于对医嘱单进行分类的神经网络模型;
提取模块,用于根据所述用于对医嘱单进行分类的神经网络模型获取的待提取医嘱单的类型匹配其对应类型的医嘱模板,并根据匹配的医嘱模板对所述待提取医嘱单进行待提取区域的定位以及提取处理,以获取提取的有效医嘱信息;
所述提取模块具体包括:
匹配子模块,用于根据所述训练模块获取的神经网络模型获取的待提取医嘱的类型匹配其对应的医嘱模板;
标注子模块,用于根据所述医嘱模板对所述待提取医嘱进行初始待提取区域的标注;
定位子模块,用于利用图像处理技术,对所述初始待提取区域进行只保留医嘱信息区域的精确定位,以获取精确定位后的待提取区域;
提取子模块,用于对每个精确定位后的待提取区域进行单独的提取处理;
所述提取子模块具体包括:
医嘱信息识别子模块,用于识别出所述待提取区域的句段,并使用指定长度的滑动窗口对所述句段中的词语进行识别;
校正子模块,用于对所述滑动窗口中的识别出的词语进行校对编辑操作;
所述校正子模块具体用于:根据所述滑动窗口中的识别出的可能的词语的概率,所述可能的词语按照降序排列,并将概率最高的词语选定为校正后的词语进行输出;或者,对于同一原词语使用编辑距离法编辑得到的相同概率的词语时,将编辑距离最小的词语做为校正后的词语进行输出。
2.根据权利要求1所述的系统,其特征在于,所述模板生成模块,具体包括:
采集子模块,用于采集不同医院的不同版面类型的样本医嘱单;
标注子模块,用于标注出所述样本医嘱单中的有效医嘱信息区域;
分类子模块,用于根据已标注的样本医嘱单中的不同版面结构及有效医嘱信息区域所在位置将样本医嘱单分成不同类型的样本医嘱单;
记录子模块,用于记录每一类型样本医嘱单的被标注的有效医嘱信息区域的坐标值;
模板生成子模块,用于对于每一类型样本医嘱单:根据每一类型样本医嘱单中的每个样本医嘱单的被标注的有效医嘱信息区域的坐标值,将所含面积最大的有效医嘱信息区域作为每一类型样本医嘱单的最终有效医嘱信息区域,并将标注有所述最终有效医嘱信息区域的样本医嘱单作为该类型样本医嘱单的医嘱模板。
3.根据权利要求2所述的系统,其特征在于,所述模板生成模块,还包括:
图像预处理子模块,用于对所述标注子模块标注后的样本医嘱单进行去噪与二值化处理。
4.根据权利要求3所述的系统,其特征在于,所述训练模块包括输入子模块和一卷积神经网络:
所述输入子模块,用于将所述每一类型样本医嘱单及其所述类型输入至卷积神经网络的输入层;
所述卷积神经网络的卷积层用于提取所述样本医嘱单的特征图;
所述卷积神经网络的池化层用于对所述特征图进行压缩,以及用于提取主要特征;
所述卷积神经网络的全连接层用于对所述池化层提取的特征进行全连接或者全局平均处理,并进行分类处理以获取用于对医嘱单进行分类的神经网络模型。
5.根据权利要求2所述的系统,其特征在于,所述有效医嘱信息至少包括但不限于以下其一:所需检查的项目及检查时间、饮食指导信息、服药时间及所需忌口。
6.一种对医嘱进行自动提取的方法,基于权利要求1-5任一项所述的系统,其特征在于,包括:
A、获取待提取医嘱单;
B、对所述待提取医嘱单进行图片质量判定,保留分辨率高于指定阈值的待提取医嘱单;
C、对所述待提取医嘱单进行去噪与二值化处理;
D、通过所述用于对医嘱单进行分类的神经网络模型对处理后的所述待提取医嘱单进行分类以获取其所属的医嘱单的类型;
E、根据所述医嘱单的类型匹配其对应类型的医嘱模板,并据此获取所述待提取医嘱单的初始待提取区域;
F、利用图像处理技术,对所述初始待提取区域进行只保留医嘱信息区域的精确定位,以获取精确定位后的待提取区域;
G、对所述精确定位后的待提取区域进行提取处理;
所述步骤G包括:
G1、识别出所述待提取区域的句段,并使用指定长度的滑动窗口对所述句段中的词语进行识别;
G2、根据所述滑动窗口中的识别出的可能的词语的概率,所述可能的词语按照降序排列,并将概率最高的词语选定为校正后的词语进行输出;或者
对于同一原词语使用编辑距离法编辑得到的相同概率的词语,以编辑距离最小的词语做为校正后的词语进行输出。
CN201811377709.8A 2018-11-19 2018-11-19 一种用于对医嘱进行自动提取的系统及应用 Active CN111209924B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811377709.8A CN111209924B (zh) 2018-11-19 2018-11-19 一种用于对医嘱进行自动提取的系统及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811377709.8A CN111209924B (zh) 2018-11-19 2018-11-19 一种用于对医嘱进行自动提取的系统及应用

Publications (2)

Publication Number Publication Date
CN111209924A CN111209924A (zh) 2020-05-29
CN111209924B true CN111209924B (zh) 2023-04-18

Family

ID=70789183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811377709.8A Active CN111209924B (zh) 2018-11-19 2018-11-19 一种用于对医嘱进行自动提取的系统及应用

Country Status (1)

Country Link
CN (1) CN111209924B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7441391B1 (ja) 2023-08-21 2024-03-01 株式会社医療情報技術研究所 大規模言語モデルを用いた電子カルテシステム

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272866A (ja) * 1995-03-31 1996-10-18 Olympus Optical Co Ltd 医療情報処理装置
US8589366B1 (en) * 2007-11-01 2013-11-19 Google Inc. Data extraction using templates
CN103617343A (zh) * 2013-11-06 2014-03-05 中国人民解放军第四军医大学 一种急诊电子病历系统及其信息处理方法
CN105447392A (zh) * 2014-08-22 2016-03-30 国际商业机器公司 用于保护特定信息的方法和系统
CN105893601A (zh) * 2016-04-20 2016-08-24 零氪科技(北京)有限公司 一种数据对比方法
CN107067044A (zh) * 2017-05-31 2017-08-18 北京空间飞行器总体设计部 一种财务报销全票据智能审核系统
CN107423736A (zh) * 2017-04-20 2017-12-01 深圳可思美科技有限公司 一种检测皮肤症状的降噪方法和装置
CN107562732A (zh) * 2017-10-26 2018-01-09 北京康夫子科技有限公司 电子病历的处理方法及系统
CN107679544A (zh) * 2017-08-04 2018-02-09 平安科技(深圳)有限公司 数据自动匹配方法、电子设备及计算机可读存储介质
WO2018120447A1 (zh) * 2016-12-28 2018-07-05 北京搜狗科技发展有限公司 一种医案信息的处理方法、装置和设备
CN108280389A (zh) * 2017-01-06 2018-07-13 南通艾思达智能科技有限公司 医疗票据icr识别系统及其医疗票据识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US9208382B2 (en) * 2013-03-08 2015-12-08 Trimble Navigation Limited Methods and systems for associating a keyphrase with an image
US9241650B2 (en) * 2013-12-15 2016-01-26 Lifewatch Technologies Ltd. Patient specific QRS complex classification for arrhythmia detection

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272866A (ja) * 1995-03-31 1996-10-18 Olympus Optical Co Ltd 医療情報処理装置
US8589366B1 (en) * 2007-11-01 2013-11-19 Google Inc. Data extraction using templates
CN103617343A (zh) * 2013-11-06 2014-03-05 中国人民解放军第四军医大学 一种急诊电子病历系统及其信息处理方法
CN105447392A (zh) * 2014-08-22 2016-03-30 国际商业机器公司 用于保护特定信息的方法和系统
CN105893601A (zh) * 2016-04-20 2016-08-24 零氪科技(北京)有限公司 一种数据对比方法
WO2018120447A1 (zh) * 2016-12-28 2018-07-05 北京搜狗科技发展有限公司 一种医案信息的处理方法、装置和设备
CN108280389A (zh) * 2017-01-06 2018-07-13 南通艾思达智能科技有限公司 医疗票据icr识别系统及其医疗票据识别方法
CN107423736A (zh) * 2017-04-20 2017-12-01 深圳可思美科技有限公司 一种检测皮肤症状的降噪方法和装置
CN107067044A (zh) * 2017-05-31 2017-08-18 北京空间飞行器总体设计部 一种财务报销全票据智能审核系统
CN107679544A (zh) * 2017-08-04 2018-02-09 平安科技(深圳)有限公司 数据自动匹配方法、电子设备及计算机可读存储介质
CN107562732A (zh) * 2017-10-26 2018-01-09 北京康夫子科技有限公司 电子病历的处理方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Lewis, PJ.Developing a Job Description for a Vice Chair of Education in Radiology. The ADVICER Template.《Academic Radiology》.2015,第22卷(第7期),第933-938页. *
吴辉坤 ; 李晓东 ; 杨帆 ; 王军 ; 李慧 ; 黄晶晶 ; 陶军秀 ; 郭明星 ; 盛国光 ; 毛树松 ; .临床科研一体化电子病历质量控制制度与体系新探.中西医结合肝病杂志.2013,第23卷(第3期),第181-182页. *
罗立刚 ; 胡佳佳 ; 王晓哲 ; 张天泽 ; 李丽平 ; .从医疗记录中提取结构化数据的双阅读/录入系统及其应用.药物流行病学杂志.2017,第26卷(第6期 ),第406-409页. *

Also Published As

Publication number Publication date
CN111209924A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
CN110110585B (zh) 基于深度学习的智能阅卷实现方法及系统、计算机程序
Mathew et al. Docvqa: A dataset for vqa on document images
CN108664996B (zh) 一种基于深度学习的古文字识别方法及系统
CN109086756B (zh) 一种基于深度神经网络的文本检测分析方法、装置及设备
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
US7724957B2 (en) Two tiered text recognition
CN111199050B (zh) 一种用于对病历进行自动脱敏的系统及应用
Mahmoud et al. Online-khatt: an open-vocabulary database for Arabic online-text processing
CN111428480B (zh) 简历识别方法、装置、设备及存储介质
CN113836306B (zh) 基于篇章成分识别的作文自动测评方法、设备和存储介质
CN112862024A (zh) 一种文本识别方法及系统
Jain et al. “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning
CN106933802B (zh) 一种面向多数据源的社保类实体识别方法及装置
Mohammad et al. Contour-based character segmentation for printed Arabic text with diacritics
Vázquez Enríquez et al. Eccv 2022 sign spotting challenge: dataset, design and results
CN111209924B (zh) 一种用于对医嘱进行自动提取的系统及应用
CN116842168B (zh) 跨领域问题处理方法、装置、电子设备及存储介质
BenZeghiba et al. Hybrid word/Part-of-Arabic-Word Language Models for arabic text document recognition
CN113254814A (zh) 网络课程视频打标签方法、装置、电子设备及介质
CN117152770A (zh) 一种面向手写输入的书写能力智能评测方法及系统
CN117057350A (zh) 中文电子病历命名实体识别方法和系统
Khosrobeigi et al. A rule-based post-processing approach to improve Persian OCR performance
Bailey et al. Breathing new life into death certificates: Extracting handwritten cause of death in the LIFE-M project
CN111540343B (zh) 一种语料识别方法和装置
Yang et al. Automatic metadata information extraction from scientific literature using deep neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant