CN115881265B

CN115881265B - 电子病历智能病案质控方法、系统、设备及存储介质

Info

Publication number: CN115881265B
Application number: CN202310120018.4A
Authority: CN
Inventors: 王莹; 何昆仑; 孙宇慧; 杨华; 李达; 郑琳; 王�琦; 张燕; 丁玲
Original assignee: First Medical Center of PLA General Hospital
Current assignee: First Medical Center of PLA General Hospital
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-05-12
Anticipated expiration: 2043-02-16
Also published as: CN115881265A

Abstract

本发明涉及电子病历智能病案质控方法、系统、设备及存储介质。包括：获取临床医生书写的电子病历；采用质控电子病历插件识别所述电子病历输出各个界面坐标；获取所述各个界面的录入内容；将所述录入内容与预制的规则库进行比对，当所述录入内容与所述预制的规则库比对通过，输出电子病历合格的结果；当所述录入内容与所述预制的规则库比对不通过，输出质控问题所在界面及质控要求。本申请提供的智能病案质控系统提高质控的效率和准确率，具有重要的临床应用价值。

Description

电子病历智能病案质控方法、系统、设备及存储介质

技术领域

本发明涉及智能医疗技术领域，更具体地，涉及电子病历智能病案质控方法、系统、设备及存储介质。

背景技术

随着DRG工作在国内全面展开，病案信息的准确性尤为重要，做好病案质量控制在医院病案科是非常重要的工作。病案终末质控是病案进入库房归档、面对患者前的最后一道关，对医院运营管理非常重要。除了发现问题解决问题，还需要对集中问题、解决效果不好的问题分科室、分医生进行总结并反馈。通常病案科主要通过设立专门的质控医师岗或成立临床质控专家组进行该工作。目前主要是由编码员到病房收取病历后进行整理、签收，在签收过程中检查病历中的时间节点及签字等问题。整个过程全部通过人工驱动和审核，主管性、时效性都较差。

电子病历中的文书内容目前无法通过传统的电子病历系统进行校验，仅能通过手工质控检查。同时，在电子病历质控中常见问题包括病历内容前后一致性问题（如入院记录中的入院诊断和出院记录中的入院诊断不一致，首页和入院记录时间不一致等问题），需要从多维度对电子病历的内容进行质控。

发明内容

为解决上述问题，本申请建立一种电子病历智能病案质控方法、系统、设备及存储介质。通过前置质控电子病历插件，将电子病历结构化，识别电子病历中各个界面的坐标，克服不同厂家电子病历界面布局不统一的问题；通过将电子病历录入内容与原有纸质病案内容的比对，提高质控的准确率；通过多维度规则库的比对，提高质控的效率和准确率。

本申请的目的在于提供一种电子病历智能病案质控方法，具体方法步骤包括：

获取临床医生书写的电子病历；

采用质控电子病历插件识别所述电子病历输出各个界面坐标；

获取所述各个界面的录入内容；

将所述录入内容与预制的规则库进行比对，当所述录入内容与所述预制的规则库比对通过，输出电子病历合格的结果；当所述录入内容与所述预制的规则库比对不通过，输出质控问题所在界面及质控要求。

进一步，所述质控电子病历插件为前置质控电子病历插件，将前置质控电子病历插件层覆盖于电子病历层上，当质控电子病历插件初始化时，自动识别所述电子病历，输出各个界面坐标；

可选的，当质控电子病历插件初始化时，所述质控电子病历插件自动截屏获得电子病历截屏图像，自动识别所述电子病历截屏图像，输出各个界面坐标。

进一步，所述质控电子病历插件为训练好的电子病历分割模型，所述训练好的电子病历分割模型识别所述电子病历输出各个界面坐标；

可选的，所述训练好的电子病历分割模型识别所述电子病历输出各个界面坐标，根据所述各个界面坐标分割得到各个界面图像。

进一步，所述训练好的电子病历分割模型训练方法为：获取各个厂家的电子病历，采用电子病历分割模型识别所述各个厂家的电子病历，输出电子病历各个界面坐标，将所述输出电子病历各个界面坐标与实际电子病历各个界面坐标进行比对，生成损失值，优化电子病历分割模型，得到训练好的电子病历分割模型。

进一步，所述预制的规则库包括质控规范规则库、数据规范规则库和书写格式规则库，将所述录入内容分别与所述质控规范规则库、数据规范规则库和书写格式规则库进行比对，当所述录入内容与所述质控规范规则库、数据规范规则库和书写格式规则库比对均通过，输出电子病历合格的结果；当所述录入内容与所述质控规范规则库、数据规范规则库和书写格式规则库任意一种或几种规则库比对不通过，输出质控问题所在界面及质控要求；可选的，输出质控问题所在界面、具体质控问题、质控要求及参考内容。

进一步，所述预制的规则库还包括纸质病案内容比对模块，所述纸质病历比对模块用于将所述电子病历的录入内容与纸质病案内容进行比对，当所述录入内容与所述纸质病案内容比对通过，输出电子病历合格的结果；当所述录入内容与所述纸质病案内容比对不通过，输出质控问题所在界面及具体质控问题。

进一步，所述获取所述各个界面的录入内容包括以下步骤：

获取所述各个界面的图像；

对所述各个界面的图像中的文本区域进行印刷体或手写体文字分类，将所述各个界面的图像中的文本区域分为手写体文字图像和印刷体文字图像；

对所述手写体文字图像采用神经网络模型对手写体文字图像进行过切分，获得多个基元片段，将所述基元片段进行组合，得到切分候选网格，采用字符分类器对所述切分候选网格进行字符分类，得到字符候选网格，采用路径搜索网络判断所述字符候选网格的最优路径，得到手写体文字图像的文本内容，所述路径搜索网络包括语言上下文模型和几何上下文模型；

对所述印刷体文字图像采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别，得到印刷体文字图像的文本内容。

进一步，所述过切分为两步法过切分，首先，使用基于前景点可见性分析的粘连字符切分算法对文本行图像进行初始的切分，将两个连续切分段之间的位置视作一个候选切分点；接着，使用滑动窗在上一步骤中得到的候选切分片段上生成一系列相同大小的窗口，并且使用一个二值卷积神经网络模型对这些窗口进行分类，判断窗口的中心是否属于合法切分点。

进一步，所述字符分类器为卷积神经网络，可选的，所述字符分类器为一个15层的卷积神经网络。

进一步，所述几何上下文模型为基于神经网络的几何上下文模型，所述基于神经网络的几何上下文模型利用卷积神经网络对切分候选网格进行特征提取和分类或回归；

可选的，使用多项式回归算法处理切分候选网格得到手写体文本行的走向，然后动态调整切分候选网格的上下空白，得到调整后的切分候选网格，利用卷积神经网络对调整后的切分候选网格进行特征提取和分类。

进一步，所述语言上下文模型为前馈神经网络语言模型、递归神经网络语言模型或混合语言模型；

可选的，所述神经网络语言模型使用短列表方法和输出层分解方法进行计算加速，所述短列表方法是在神经网络语言模型的输出层增加一个类别表示所有不属于短列表的词集合，所述输出层分解方法是将所有的词被划分成数量较小的词类，对词类和类内的词分别进行归一化。

进一步，对所述印刷体文字图像采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别为采用卷积层从所述印刷体文字图像中提取特征序列；循环层对卷积层输出的特征序列的每一帧进行预测，预测每一帧的标签分布；转录层将循环层的每一帧的预测变为最终的标签序列，得到印刷体文字图像的文本内容。

进一步，所述卷积层由去除全连接层的标准CNN模型中的卷积层和最大池化层组成；

可选的，所述循环层由两个LSTM组合成一个双向的LSTM组成；

可选的，所述转录层为CTC。

可选的，所述转录层根据循环层的每一帧的预测找到具有最高概率的标签序列作为最终的标签序列。

本申请的目的在于提供一种电子病历智能病案质控系统，包括：

第一获取单元，用于获取临床医生书写的电子病历；

识别单元，用于采用质控电子病历插件识别所述电子病历输出各个界面坐标；

第二获取单元，用于获取所述各个界面的录入内容；

比对输出单元，用于将所述录入内容与预制的规则库进行比对，当所述录入内容与所述预制的规则库比对通过，输出电子病历合格的结果；当所述录入内容与所述预制的规则库比对不通过，输出质控问题所在界面及质控要求。

本申请的目的在于提供一种电子病历智能病案质控设备，包括：存储器和处理器；

所述存储器用于存储程序指令；

所述处理器用于调用程序指令，当程序指令被执行时实现上述电子病历智能病案质控基于图文识别技术的病例自动识别方法。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的电子病历智能病案质控方法。

本申请的优点：

1.通过前置质控电子病历插件，将电子病历结构化，识别电子病历中各个界面的坐标，克服目前因为不同厂家电子病历界面布局不统一导致系统无法统一对电子病历进行质检的问题，通过自适应的质控电子病历插件，能解决上述问题。

2.为提高质控的效率和准确率，一方面，通过多维度规则库的比对，包括质控规范规则库、数据规范规则库和书写格式规则库；另一方面，对于在医院有纸质病案的病历，将电子病历录入内容与原有纸质病案内容的比对。

3.本申请针对高阶语言模型建模过程中出现的数据稀疏和维度灾难等问题，我们将神经网络语言模型引入到基于过切分的中文手写字符串识别系统中，神经网络语言模型可以在连续空间进行隐式的平滑以及序列概率的预测，从而可以很大程度上克服传统高阶语言模型的不足；

4.本申请考虑到包含单字分类器、过切分以及几何模型在内的形状模型在文本行图像建模中的巨大作用，我们提出一种卷积神经网络形状模型，将其融入过切分识别系统之后发现可以大幅提升系统性能；

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他的附图。

图1是本发明实施例提供的一种电子病历智能病案质控方法示意流程图；

图2是本发明实施例提供的一种电子病历智能病案质控系统示意图；

图3是本发明实施例提供的一种电子病历智能病案质控设备示意图。

图4是本发明实施例提供的一种手写体文字图像切分识别框架示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种基于图文识别技术的病例自动识别方法示意流程图，具体地，所述方法包括如下步骤：

101：获取临床医生书写的电子病历；

102：采用质控电子病历插件识别所述电子病历输出各个界面坐标；

103：获取所述各个界面的录入内容；

104：将所述录入内容与预制的规则库进行比对，当所述录入内容与所述预制的规则库比对通过，输出电子病历合格的结果；当所述录入内容与所述预制的规则库比对不通过，输出质控问题所在界面及质控要求。

在一个实施例中，所述质控电子病历插件为前置质控电子病历插件，将前置质控电子病历插件层覆盖于电子病历层上，当质控电子病历插件初始化时，自动识别所述电子病历，输出各个界面坐标；可选的，当质控电子病历插件初始化时，所述质控电子病历插件自动截屏获得电子病历截屏图像，自动识别所述电子病历截屏图像，输出各个界面坐标。

在一个实施例中，所述质控电子病历插件为训练好的电子病历分割模型，所述训练好的电子病历分割模型识别所述电子病历输出各个界面坐标；可选的，所述训练好的电子病历分割模型识别所述电子病历输出各个界面坐标，根据所述各个界面坐标分割得到各个界面的图像，基于文字识别技术（例如OCR技术、深度学习网络等）获取所述各个界面的图像的录入内容，将所述录入内容与预制的规则库进行比对，当所述录入内容与所述预制的规则库比对通过，输出电子病历合格的结果；当所述录入内容与所述预制的规则库比对不通过，输出质控问题所在界面及质控要求。

在一个实施例中，所述训练好的电子病历分割模型的训练方法为：获取各个厂家的电子病历，采用电子病历分割模型识别所述各个厂家的电子病历，输出电子病历各个界面坐标，将所述输出电子病历各个界面坐标与实际电子病历各个界面坐标进行比对，生成损失值，优化电子病历分割模型，得到训练好的电子病历分割模型。

在一个实施例中，所述预制的规则库包括质控规范规则库、数据规范规则库和书写格式规则库，将所述录入内容分别与所述质控规范规则库、数据规范规则库和书写格式规则库进行比对，当所述录入内容与所述质控规范规则库、数据规范规则库和书写格式规则库比对均通过，输出电子病历合格的结果；当所述录入内容与所述质控规范规则库、数据规范规则库和书写格式规则库任意一种或几种规则库比对不通过，输出质控问题所在界面及质控要求；可选的，输出质控问题所在界面、具体质控问题、质控要求及参考内容。所述质控规范规则库为包括数种规范，例如《病案管理质量控制指标（2021年版）的通知》。所述数据规范规则库为包括下列规范中的一种或数种：《数据治理规范GB/T34960.5-2018标准》、《国家医疗保障DRG（CHS-DRG）分组方案》、《国家医疗保障DRG分组与付费技术规范》、《临床医学术语标准》、《手术操作分类与代码（ICD-9-CM-3）》2019医保版、《手术操作分类代码》国家临床版2.0、《手术操作分类与代码》全国2017版、《北京市住院病案首页手术操作名称与代码标准》V6.01版本、《北京市住院病案首页手术操作名称与代码标准》v5.0、《北京版手术操作名称》v6.0、《北京版RC022-ICD-9手术编码》、《TCHIA 001-2017手术、操作分类与代码》、《Health Insurance Portability and Accountability，HIPAA》等。所述书写格式规则库包括下列规范中的一种或数种：《住院病案首页数据填写质量规范(暂行)》、《医疗机构病历管理规定》、《病历书写基本规范》、《电子病历基本规范》等。

在一个实施例中，所述预制的规则库还包括纸质病案内容比对模块，所述纸质病历比对模块用于将所述电子病历的录入内容与纸质病案内容进行比对，当所述录入内容与所述纸质病案内容比对通过，输出电子病历合格的结果；当所述录入内容与所述纸质病案内容比对不通过，输出质控问题所在界面及具体质控问题。

在一个实施例中，所述获取所述各个界面的录入内容包括以下步骤：

获取所述各个界面的图像；对所述各个界面的图像中的文本区域进行印刷体或手写体文字分类，将所述各个界面的图像中的文本区域分为手写体文字图像和印刷体文字图像；对所述手写体文字图像采用神经网络模型对手写体文字图像进行过切分，获得多个基元片段，将所述基元片段进行组合，得到切分候选网格，采用字符分类器对所述切分候选网格进行字符分类，得到字符候选网格，采用路径搜索网络判断所述字符候选网格的最优路径，得到手写体文字图像的文本内容，所述路径搜索网络包括语言上下文模型和几何上下文模型；对所述印刷体文字图像采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别，得到印刷体文字图像的文本内容。

在一个实施例中，所述各个界面的图像中的文本区域识别是采用条件随机场来对连通区域进行结构话预测，将各个界面的图像中的文本区域分类出来，进一步，采用条件随机场来对文字连通区域进行结构化预测，其中条件随机场的一元势能函数和二元势能函数都采用卷积神经网络进行建模，卷积神经网络可以自动从样本中学习到有用的特征，尤其是纹理、边缘、曲率等，这对印刷体和手写体文字的分类是非常适合的。经过此步骤后，文档中所有的文字部件被分为两类：印刷体文字和手写体文字。采用卷积神经网络对条件随机场的一元势能函数和二元势能函数来进行建模，其优势在于：可以自动对图像提取有用的特征。不仅可以对相邻节点间的相容性进行建模，也可以对相邻节点之间的不相容性进行建模，从而可以避免在不同类别边界处的过度平滑。卷积神经网络的参数和条件随机场的参数可以进行端到端的联合训练。

在一个实施例中，通过字符分类器能够得到多个候选字符分类，从而进一步得到字符候选网格，该字符候选网格中每一条路径不仅代表了一种切分方式，同时也代表了一种识别结果，因此称为切分识别路径。优选的，综合候选字符分类的置信度、语言上下文模型、几何上下文模型等各方面的评分结果给每一条切分识别路径进行打分，并且通过搜索算法选择出一条最好的路径作为识别结果。

我们把字符分类器、过切分以及几何上下文模型合称为形状模型，它们主要是从图像形状层面对文本行进行建模，发挥着十分重要的作用。我们搭建一个15层CNN作为字符分类器，网络的输入层是9× 32×32的扩展方向特征图，包含八方向非线性归一化图像和保持宽高比归一化成大小为32×32的原始字符图像。首先对原始字幅图像进行线密度插值归一化，然后提取八方向梯度特征，特征平面的大小设置为32×32。对于梯度方向分解，先使用Sobel算子在原图中进行边缘检测，接着使用平行四边形法则将边缘梯度分解到八个方向。为了使网络层数尽可能深一些，我们的网络中每三个卷积层之间才插入一个空间池化层。我们的网络使用最大池化层，每次该层都将特征平面的大小减半。在经过12个卷积层和4个池化层之后，将特征平面展平成1600 维向量送入后面的两个全连接层，全连接层的大小分别为900和200。最后，Softmax归一化层对将7357个输出节点的值变换到0到1之间的概率值。7357类中，7356个类别为字符类，还有一个是非字符类，用于显式地对非字符模式进行建模。非字符类在切分候选网格中十分常见，作为一个判别模型，卷积神经网络模型对于异常类的建模性能并不好，需要显式地加入样本才能使卷积神经网络对非字类有拒识的效果。此外，这种增加一个非字类的方式比使用级联卷积神经网络的方法效果更好。

在一个实施例中，所述过切分为两步法过切分，首先，使用基于前景点可见性分析的粘连字符切分算法对文本行图像进行初始的切分，将两个连续切分段之间的位置视作一个候选切分点；接着，使用滑动窗在上一步骤中得到的候选切分片段上生成一系列相同大小的窗口，并且使用一个二值卷积神经网络模型对这些窗口进行分类，判断窗口的中心是否属于合法切分点。本文构建了一个简单的4层CNN网络用于切分点二值分类，输入层同样是扩展方向特征图。在训练过程中，如果切分点位于窗口中心，那么该窗口就被认为是正样本，否则为负样本。在滑动窗过切分之后，需要对距离较近的候选切分点进行合并。本文的合并策略是，对一定水平距离内的切分点进行分析，取其中前景像素点竖直投影值最小的点作为合并的最终结果。一般来说，待合并的切分点的距离范围为1倍的笔画宽度，而笔画宽度则通过文本行图像的前景轮廓分析得到。本申请提出的基于学习的两步过切分方法，将传统的基于前景点可见性分析的方法与滑动窗卷积神经网络分类器相结合，使得召回率有了进一步的提升。

在一个实施例中，所述几何上下文模型为基于神经网络的几何上下文模型，所述基于神经网络的几何上下文模型利用卷积神经网络对切分候选网格进行特征提取和分类或回归。几何模型分为一元类别相关、二元类别相关、一元类别无关、二元类别无关几何模型。为了对四个几何模型进行建模，传统的做法都是首先提取几何特征，再使用二次判别函数或者支持向量机进行分类，最后通过置信度转换将分类器的输出转化为概率。由于几何模型的特征设计比较繁复，本文利用卷积神经网络对特征提取和分类进行联合训练，然后直接使用特定单元的输出作为最终得分。

在一个具体实施例中，使用多项式回归算法处理切分候选网格得到手写体文本行的走向，然后动态调整切分候选网格的上下空白，得到调整后的切分候选网格，利用卷积神经网络对调整后的切分候选网格进行特征提取和分类。由于几何上下文模型需要保持文本行的书写风格，因而不能采用将候选模式进行尺寸归一化之后直接送入神经网络的方式，我们提出首先通过多项式回归算法拟合获得文本行的中心曲线。多项式的阶数设置为连通部件数目的0.075倍。之后，根据中心曲线和字符高度进行顶部和底部边界进行调整。本申请将几何上下文模型从传统的分类器转换为基于卷积神经网络的模型，并且考虑几何上下文模型需要保持文本行的书写风格，因而不能采用将候选模式进行尺寸归一化之后直接送入神经网络的方式，我们提出首先通过多项式拟合获得文本行的中心曲线。

在一个实施例中，所述语言上下文模型为前馈神经网络语言模型、递归神经网络语言模型或混合语言模型；可选的，所述神经网络语言模型使用短列表方法和输出层分解方法进行计算加速，所述短列表方法是在神经网络语言模型的输出层增加一个类别表示所有不属于短列表的词集合，所述输出层分解方法是将所有的词被划分成数量较小的词类，对词类和类内的词分别进行归一化。本申请研究神经网络语言模型的加速策略，使用短列表(Short-List)和输出层分解(Output Factorization)技术进行计算加速，提高识别速度。

在一个实施例中，具体如图4所述，对所述手写体文字图像采用神经网络模型对手写体文字图像进行过切分，获得多个基元片段，将所述基元片段进行组合，得到切分候选网格，采用CNN作为字符分类器对所述切分候选网格进行字符分类，得到字符候选网格，采用基于神经网络的语言上下文模型和/或基于神经网络的几何上下文模型的路径搜索网络判断所述字符候选网格的最优路径，得到手写体文字图像的文本内容。

前馈神经网络语言模型的核心思想就是将历史词从离散空间投影到连续空间中，从而完成对语言模型的隐式平滑以便更好地给出字符串的语言概率。前馈神经网络语言模型仍然是一个基于统计的N-gram语言模型，它的输入是前面个历史词构成的序列hi，一般将这些历史词串联起来以便保持相对位置关系。网络的输出是词表中所有字符在当前位置的后验概率。使用前馈神经网络估计词语概率可以分为以下几个步骤：

（1）将个历史词中的每一个词通过独热编码(One-Hot Encoding)变换成为长度等于词表规模的V维向量。

（2）将每一个V维字符向量经过映射层变换为连续空间中的一个低维向量r。事实上，维投影矩阵中的每一列对应一个词向量，并且映射层的所有参数是被所有历史词所共享的。

（3）如果将映射层和隐层之间的连接权重表示为, 历史词向量表示为R，那么隐层的输出S可以用下式进行计算：。其中表示正切激活函数，按照逐个元素的方式对每一个单元进行。激活操作。如果要将模型推广到多层，只需要将前一隐层的输出作为当前层的输入。

（4）最后，词表中所有词的概率可以表示为：。表示归一化前的激活向量，是中的第个元素，为指数函数。中第个元素便对应语言模型中第个词语的估计概率。

递归神经网络与前馈神经网络语言模型非常相似，两者最大的不同在于，递归神经网络通过隐层的递归连接理论上可以对任意范围内的上下文进行建模。递归神经网络也将词投影到连续空间中，估计词语概率一般要分为以下三个步骤：

首先，组合生成时刻网络的输入。它由两部分经过连接组成：前一个历史词的独热编码向量，以及前一时刻的隐层输出。可以将表示为:。

然后，将输入向量中的元素做投影，并聚合成为一个连续向量，公式如下所示，同时该向量也将作为送入下一个时刻的隐层输出：。其中，表示激活函数，同样按照逐个元素的方式对每一个单元进行激活操作，和分别为维投影矩阵以及维递归权值矩阵。

最后，使用与前馈神经网语言模型步骤4相同的方式对词表中所有的词给出基于历史词序列的概率估计

对于识别类别较大的任务，将采用混合语言模型，。其中，分别表示混合语言模型、神经网络语言模型以及传统语言模型的概率分布，为线性插值系数，一般通过最小化在验证集上的困惑度得到。由于神经网络语言模型与传统的语言模型分别学到了不同的语言分布，即使是经过简化的神经网络语言模型需要与传统语言模型相结合也能显著提升混合语言模型的性能。为了克服神经网络语言模型较高的计算复杂度这一缺陷，选择一些简单的结构或者一些近似的策略来加速神经网络语言模型。

短列表方法通过选取出现词频概率最高的那些词语作为短列表，这些属于短列表的词将使用神经网络语言模型进行概率估计，以便减少输出层的单元数。具体方法是，在神经网络语言模型的输出部分加入一个额外的类别，表示所有不属于短列表的词集合，这个概率分布可以通过神经网络优化得到。通过这种方式，我们可以认为网络对不属于短列表的词概率给出了足够可信的估计。

输出层分解方法中，所有的词被划分成数量较小的词类，这种方式下，可以对词类和类内的词分别进行归一化，因而可以降低计算复杂度。相比使用长度为1万的全词表进行输出层归一化，基于词的分解输出层分解方式可以提升15倍的速度。在划分词类的过程中，根据某一统计量（比如词频、概率似然等）得到一个直方图，然后采用类似于图像中“直方图均衡化”的做法，将各个词划分到相应类别中，使得每一类的统计量之和基本一致。尽管基于词频的划分方式比基于概率似然）的方式在困惑度指标上要稍逊色，但是它在分类速度上有明显的优势。因此，为了兼顾精度和速度，我们使用基于词频的划分方式。

在一个实施例中，对所述印刷体文字图像采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别为采用卷积层从所述印刷体文字图像中提取特征序列；循环层对卷积层输出的特征序列的每一帧进行预测，预测每一帧的标签分布；转录层将循环层的每一帧的预测变为最终的标签序列，得到印刷体文字图像的文本内容。

在一个实施例中，所述卷积层由去除全连接层的标准CNN模型中的卷积层和最大池化层组成；可选的，所述循环层由两个LSTM组合成一个双向的LSTM组成；可选的，所述转录层为CTC。所述转录层根据循环层的每一帧的预测找到具有最高概率的标签序列作为最终的标签序列。

在一个具体实施例中，通过采用标准CNN模型（去除全连接层）中的卷积层和最大池化层来构造卷积层的组件，这样的组件用于从输入图像中提取序列特征表示。在进入网络之前，所有的图像需要缩放到相同的高度，然后从卷积层组件产生的特征图中提取特征向量序列，这些特征向量序列作为循环层的输入。具体地，特征序列的每一个特征向量在特征图上按列从左到右生成，这意味着第i个特征向量是所有特征图第i列的连接。在我们的设置中每列的宽度固定为单个像素。由于卷积层，最大池化层和元素激活函数在局部区域上执行，因此它们是平移不变的。特征图的每列对应于原始图像的一个矩形区域（称为感受野），并且这些矩形区域与特征图上从左到右的相应列具有相同的顺序。特征序列中的每个向量关联一个感受野，并且可以被认为是该区域的图像描述符。

在一个具体实施例中，LSTM是定向的，它只使用过去的上下文。然而，在基于图像的序列中，两个方向的上下文是相互有用且互补的，因此，我们将两个LSTM，一个向前和一个向后组合到一个双向LSTM中。在循环层中，采用基于时间的反向传播算法（BPTT）。在循环层的底部，传播差异的序列被连接成映射，将特征映射转换为特征序列的操作进行反转并反馈到卷积层，作为卷积层和循环层之间的桥梁。

在一个具体实施例中，我们采用Graves等人提出的连续时间序列分类（Connectionist Temporal Classification，CTC）层中定义的条件概率，CTC能够直接对未分割的序列进行预测，然后对预测结果按照一定的规则进行映射得到最终的输出结果，实验表明CTC用于文本识别具有非常好的效果。当我们使用这种概率的负对数似然作为训练网络的目标函数时，我们只需要图像及其相应的标签序列，避免了标注单个字符位置的劳动。

在一个具体实施例中，我们采用真实印刷病例的扫描图像作为训练图像，对每幅训练图像进行人工标注，得到病例对应的文字标签序列，训练目标是最小化真实条件概率的负对数似然，目标函数直接从图像和它的真实标签序列计算代价值。因此，网络可以在成对的图像和序列上进行端对端训练，去除了在训练图像中手动标记所有单独组件的过程。网络使用随机梯度下降（SGD）进行训练，梯度由反向传播算法计算。特别地，在转录层中，误差使用前向算法进行反向传播。在循环层中，应用随时间反向传播（BPTT）来计算误差。为了优化，我们使用ADADELTA自动计算每维的学习率，与传统方法相比，ADADELTA不需要手动设置学习率。更重要的是，使用ADADELTA的优化收敛速度比动量方法快。

图2是本发明实施例提供的一种电子病历智能病案质控系统，包括：

第一获取单元，用于获取临床医生书写的电子病历；

第二获取单元，用于获取所述各个界面的录入内容；

图3是本发明实施例提供的一种电子病历智能病案质控设备，包括：存储器和处理器；

所述存储器用于存储程序指令；

本发明的一个目的在于提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的电子病历智能病案质控方法。

本验证实施例的验证结果表明，为适应症分配固有权重相对于默认设置来说可以适度改善本方法的性能。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种计算机设备进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种电子病历智能病案质控方法，其特征在于，具体方法步骤包括：

获取临床医生书写的电子病历；

采用质控电子病历插件识别所述电子病历输出各个界面坐标，具体包括：所述质控电子病历插件为前置质控电子病历插件，将前置质控电子病历插件层覆盖于电子病历层上，当质控电子病历插件初始化时，所述质控电子病历插件自动截屏获得电子病历截屏图像，自动识别所述电子病历截屏图像，输出各个界面坐标；

获取所述各个界面的录入内容；

将所述录入内容与预制的规则库进行比对，当所述录入内容与所述预制的规则库比对通过，输出电子病历合格的结果；当所述录入内容与所述预制的规则库比对不通过，输出质控问题所在界面及质控要求；

所述获取所述各个界面的录入内容包括以下步骤：获取所述各个界面的图像；

采用神经网络模型对所述手写体文字图像进行过切分，获得多个基元片段，将所述基元片段进行组合，得到切分候选网格，采用字符分类器对所述切分候选网格进行字符分类，得到字符候选网格，采用路径搜索网络判断所述字符候选网格的最优路径，得到手写体文字图像的文本内容，所述路径搜索网络包括语言上下文模型和几何上下文模型；所述过切分为两步法过切分：使用基于前景点可见性分析的粘连字符切分算法对文本行图像进行初始的切分，得到切分段，将两个连续切分段之间的位置视作一个候选切分点；使用滑动窗在所述切分段上生成一系列相同大小的窗口，并且使用一个二值卷积神经网络模型对所述一系列相同大小的窗口进行分类，得到所述一系列相同大小的窗口的中心，基于所述一系列相同大小的窗口的中心和所述候选切分点判断所述一系列相同大小的窗口的中心是否属于合法切分点；

2.根据权利要求1中所述的电子病历智能病案质控方法，其特征在于，所述质控电子病历插件为训练好的电子病历分割模型，所述训练好的电子病历分割模型识别所述电子病历输出各个界面坐标。

3.根据权利要求2中所述的电子病历智能病案质控方法，其特征在于，所述训练好的电子病历分割模型识别所述电子病历输出各个界面坐标，根据所述各个界面坐标分割得到各个界面图像。

4.根据权利要求1中所述的电子病历智能病案质控方法，其特征在于，所述预制的规则库包括质控规范规则库、数据规范规则库和书写格式规则库，将所述录入内容分别与所述质控规范规则库、数据规范规则库和书写格式规则库进行比对，当所述录入内容与所述质控规范规则库、数据规范规则库和书写格式规则库比对均通过，输出电子病历合格的结果；当所述录入内容与所述质控规范规则库、数据规范规则库和书写格式规则库任意一种或几种规则库比对不通过，输出质控问题所在界面及质控要求。

5.根据权利要求1中所述的电子病历智能病案质控方法，其特征在于，输出质控问题所在界面、具体质控问题、质控要求及参考内容。

6.根据权利要求1中所述的电子病历智能病案质控方法，其特征在于，所述预制的规则库还包括纸质病案内容比对模块，所述纸质病案内容比对模块用于将所述电子病历的录入内容与纸质病案内容进行比对，当所述录入内容与所述纸质病案内容比对通过，输出电子病历合格的结果；当所述录入内容与所述纸质病案内容比对不通过，输出质控问题所在界面及具体质控问题。

7.一种电子病历智能病案质控系统，其特征在于，包括：

第一获取单元，用于获取临床医生书写的电子病历；

识别单元，用于采用质控电子病历插件识别所述电子病历输出各个界面坐标，具体包括：所述质控电子病历插件为前置质控电子病历插件，将前置质控电子病历插件层覆盖于电子病历层上，当质控电子病历插件初始化时，所述质控电子病历插件自动截屏获得电子病历截屏图像，自动识别所述电子病历截屏图像，输出各个界面坐标；

第二获取单元，用于获取所述各个界面的录入内容；所述获取所述各个界面的录入内容包括以下步骤：获取所述各个界面的图像；

对所述印刷体文字图像采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别，得到印刷体文字图像的文本内容；

8.一种电子病历智能病案质控设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储程序指令；

所述处理器用于调用程序指令，当程序指令被执行时实现权利要求1-6任意一项所述的电子病历智能病案质控方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6任意一项所述的电子病历智能病案质控方法。