CN115880704B

CN115880704B - 一种病例的自动编目方法、系统、设备及存储介质

Info

Publication number: CN115880704B
Application number: CN202310120017.XA
Authority: CN
Inventors: 王莹; 何昆仑; 孙宇慧; 杨华; 谢地
Original assignee: First Medical Center of PLA General Hospital
Current assignee: First Medical Center of PLA General Hospital
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-06-16
Anticipated expiration: 2043-02-16
Also published as: CN115880704A

Abstract

本发明涉及病例的自动编目方法、系统、设备及存储介质。包括：获取待归档的病例图像；提取所述病例图像中的联通区域，采用条件随机场对所有联通区域整体分类，划分为标题区域、图像区域、表格区域、几何图形区域、文字区域；对所述标题区域进行文字识别，得到基于标题区域的标题文本；采用机器学习对所述图像区域和表格区域进行分类，预测病例图像所属的编目标题，得到基于图像区域和基于表格区域的标题文本；对所述文字区域进行文字识别，得到病例图像的内容文本；将所述标题文本或所述内容文本与预定义的编目标题匹配，根据匹配度进行待归档的病例的自动编目。本申请提供一种智能病例编目系统，具有重要的临床应用价值。

Description

一种病例的自动编目方法、系统、设备及存储介质

技术领域

本发明涉及智能医疗技术领域，更具体地，涉及一种病例的自动编目方法、系统、设备及存储介质。

背景技术

伴随着机器学习、深度学习技术在视觉识别领域研究的兴起，以文档版面检测、标记、分析和识别等技术为基础的应用成为当下的热点，包括文档的自动编目命名。文档自动编目应用依赖的基础就是文档图文识别，他是自动编目应用的关键技术。传统的文档图文识别依赖于光学OCR识别技术，而病例图像在形成过程中因图像质量及版面复杂，很多病例既包括影像图像又包括表格、文字等，此外，很多病例中的文字部分除了印刷字体，还有很多医生及护理人员的手写字体时，由于手写内容千变万化，中文手写字符串切分的手段比较单一，缺乏基于统计学习的算法，尽管基于卷积神经网络的分类模型在单个字符分类上得到成功应用，但是只有极少数的工作证明其在串识别中的提升程度。故而，在病例的复杂性导致其自动编目的实现成为难题。

发明内容

为解决上述问题，本申请建立一种病例的自动编目方法、系统、设备及存储介质。

一种病例的自动编目方法，具体方法步骤包括：

获取待归档的病例图像；

提取所述病例图像中的联通区域，采用条件随机场对所有联通区域整体分类，划分为标题区域、图像区域、表格区域、几何图形区域、文字区域；

对所述标题区域进行文字识别，得到基于标题区域的标题文本；

采用机器学习对所述图像区域进行分类，预测病例图像所属的编目标题，得到基于图像区域的标题文本；

采用机器学习对所述表格区域进行分类，预测病例图像所属的编目标题，得到基于表格区域的标题文本；

对所述文字区域进行文字识别，得到病例图像的内容文本；

将所述标题文本或所述内容文本与预定义的编目标题匹配，根据匹配度进行待归档的病例的自动编目。

进一步，对所述标题区域进行文字识别是采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别，得到基于标题区域的标题文本；

可选的，对所述标题区域进行文字识别是采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别为采用卷积层从所述标题区域中提取特征序列；循环层对卷积层输出的特征序列的每一帧进行预测，预测每一帧的标签分布；转录层将循环层的每一帧的预测变为最终的标签序列，得到标题区域的文本内容。

进一步，所述对所述文字区域进行文字识别还包括对所述文字区域进行印刷体或手写体文字分类，将文字区域分为手写体文字区域和印刷体文字区域，当文字区域为印刷体时，采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别，得到印刷体文字区域的内容文本；当文字区域为手写体时，采用神经网络模型对手写体文字区域进行过切分，获得多个基元片段，将所述基元片段进行组合，得到切分候选网格，采用字符分类器对所述切分候选网格进行字符分类，得到字符候选网格，采用路径搜索网络判断所述字符候选网格的最优路径，得到手写体文字区域的内容文本。

进一步，对所述文字区域进行文字识别，得到病例图像的内容文本，将得到病例图像的内容文本与预定义内容文本进行匹配，根据匹配到的预定义内容的编目标题得到基于文字区域的标题文本。

进一步，所述病例的标题文本是基于图像区域的标题文本、基于表格区域的标题文本、基于标题区域的标题文本的加权融合，得到最终的病例的标题文本；

可选的，将所述基于文字区域的标题文本、基于图像区域的标题文本、基于表格区域的标题文本、基于标题区域的标题文本的加权融合，得到最终的病例的标题文本。

所述对所述文字区域进行文字识别还包括对所述文字区域进行印刷体或手写体文字分类，将文字区域分为手写体文字区域和印刷体文字区域；

对所述手写体文字区域采用神经网络模型对手写体文字区域进行过切分，获得多个基元片段，将所述基元片段进行组合，得到切分候选网格，采用字符分类器对所述切分候选网格进行字符分类，得到字符候选网格，采用路径搜索网络判断所述字符候选网格的最优路径，得到手写体文字区域的文本内容，所述路径搜索网络包括语言上下文模型和几何上下文模型；

对所述印刷体文字区域采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别，得到印刷体文字区域的文本内容。

进一步，所述字符分类器为卷积神经网络，可选的，所述字符分类器为一个15层的卷积神经网络。

进一步，所述几何上下文模型为基于神经网络的几何上下文模型，所述基于神经网络的几何上下文模型利用卷积神经网络对切分候选网格进行特征提取和分类或回归；

可选的，使用多项式回归算法处理切分候选网格得到手写体文本行的走向，然后动态调整切分候选网格的上下空白，得到调整后的切分候选网格，利用卷积神经网络对调整后的切分候选网格进行特征提取和分类。

进一步，所述语言上下文模型为前馈神经网络语言模型、递归神经网络语言模型或混合语言模型；

可选的，所述神经网络语言模型使用短列表方法和输出层分解方法进行计算加速，所述短列表方法是在神经网络语言模型的输出层增加一个类别表示所有不属于短列表的词集合，所述输出层分解方法是将所有的词被划分成数量较小的词类，对词类和类内的词分别进行归一化。

进一步，对所述印刷体文字区域采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别为采用卷积层从所述印刷体文字区域中提取特征序列；循环层对卷积层输出的特征序列的每一帧进行预测，预测每一帧的标签分布；转录层将循环层的每一帧的预测变为最终的标签序列，得到印刷体文字区域的文本内容。

进一步，所述卷积层由去除全连接层的标准CNN模型中的卷积层和最大池化层组成；

可选的，所述循环层由两个LSTM组合成一个双向的LSTM组成；

可选的，所述转录层为CTC。

可选的，所述转录层根据循环层的每一帧的预测找到具有最高概率的标签序列作为最终的标签序列。

进一步，所述过切分为两步法过切分，首先，使用基于前景点可见性分析的粘连字符切分算法对文本行图像进行初始的切分，将两个连续切分段之间的位置视作一个候选切分点；接着，使用滑动窗在上一步骤中得到的候选切分片段上生成一系列相同大小的窗口，并且使用一个二值卷积神经网络模型对这些窗口进行分类，判断窗口的中心是否属于合法切分点。

进一步，所述方法还包括对病例图像进行轮廓提取，所述轮廓提取是使用多种算法结合对病例图像进行边缘检测，得到病例图像中的联通区域，可选的，采用Canny 算子和Sobel 算子结合对病例图像进行边缘检测，得到病例图像中的联通区域；可选的，在边缘检测前对病例图像进行预处理，所述预处理包括采用包括去除黑边、倾斜矫正、二值化、高斯模糊或灰度化。

进一步，所述待归档的病例图像为多个图像时，分别提取前后病例图像的标题文本或内容文本进行匹配，匹配结果显示存在内容关联时，判定为后面病例图像与前面病例图像相同编目标题。

本申请的目的在于提供一种病例的自动编目系统，包括：

获取单元，用于获取待归档的病例图像；

提取单元，用于提取所述病例图像中的联通区域，并对所有联通区域提取特征，采用条件随机场对所有联通区域整体分类，划分为标题区域、图像区域、表格区域、几何图形区域、文字区域；

第一标题文本生成单元，用于对所述标题区域进行文字识别，得到基于标题区域的标题文本；

第二标题文本生成单元，用于采用机器学习对所述图像区域进行分类，预测病例图像所属的编目标题，得到基于图像区域的标题文本；

第三标题文本生成单元，用于采用机器学习对所述表格区域进行分类，预测病例图像所属的编目标题，得到基于表格区域的标题文本；

内容文本审查单元，用于对所述文字区域进行文字识别，得到病例图像的内容文本；

匹配单元，用于将所述标题文本或所述内容文本与预定义的编目标题匹配，根据匹配度进行待归档的病例的自动编目。

本申请的目的在于提供一种病例的自动编目设备，包括：存储器和处理器；

所述存储器用于存储程序指令；

所述处理器用于调用程序指令，当程序指令被执行时实现上述的病例的自动编目方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的病例的自动编目方法。

本申请的优点：

1.本申请基于病例本身的特点和特有的问题：很多病例既包括影像图像又包括表格、文字等，构建了一个适合复杂情况的病例自动编目系统；

2.本申请考虑很多病例中的文字部分除了印刷字体，还有很多医生及护理人员的手写字体时，并且手写内容千变万化，对所述文字区域进行文字识别还包括对所述文字区域进行印刷体或手写体文字分类，并且针对两种分类采用不同的文字识别方式，以达到精准识别的目的；

3.本申请考虑到包含单字分类器、过切分以及几何模型在内的形状模型在文本行图像建模中的巨大作用，我们提出一种卷积神经网络形状模型，将其融入过切分识别系统之后发现可以大幅提升系统性能；

4.本申请提出一种基于学习的两步过切分方法，将传统的基于前景点可见性分析的方法与滑动窗卷积神经网络分类器相结合，使得召回率有了进一步的提升。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他的附图。

图1是本发明实施例提供的一种病例的自动编目方法示意流程图；

图2是本发明实施例提供的一种基于图文识别技术的病例自动识别系统示意图；

图3是本发明实施例提供的一种基于图文识别技术的病例自动识别设备示意图。

图4是本发明实施例提供的一种手写体文字区域切分识别框架示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种病例的自动编目方法示意流程图，具体地，所述方法包括如下步骤：

101：获取待归档的病例图像；

102：提取所述病例图像中的联通区域，采用条件随机场对所有联通区域整体分类，划分为标题区域、图像区域、表格区域、几何图形区域、文字区域；

103：对所述标题区域进行文字识别，得到基于标题区域的标题文本；

104：采用机器学习对所述图像区域进行分类，预测病例图像所属的编目标题，得到基于图像区域的标题文本；

105：采用机器学习对所述表格区域进行分类，预测病例图像所属的编目标题，得到基于表格区域的标题文本；

106：对所述文字区域进行文字识别，得到病例图像的内容文本；

107：将所述标题文本或所述内容文本与预定义的编目标题匹配，根据匹配度进行待归档的病例的自动编目。

在一个实施例中，所述获取待归档的病例图像是通过对纸质病历进行扫描/拍照。拍照前可在拍照区域的上方设置拍照参数，可设置拍照的颜色：彩色、黑白、灰度；可设置拍照的切边方式：手工切边、自动切边、不切边；可设置拍照时是否去除阴影。所述病例图像中的文本区域含有印刷体和/或手写体文字。

在一个实施例中，所述方法还包括对病例图像进行轮廓提取，所述轮廓提取是使用多种算法结合对病例图像进行边缘检测，得到病例图像中的联通区域，可选的，采用Canny 算子和Sobel 算子结合对病例图像进行边缘检测，得到病例图像中的联通区域；可选的，在边缘检测前对病例图像进行预处理，所述预处理包括采用包括去除黑边、倾斜矫正、二值化、高斯模糊或灰度化。

在一个实施例中，对所述标题区域进行文字识别是采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别，得到基于标题区域的标题文本；在一个具体实施例中，对所述标题区域进行文字识别是采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别为采用卷积层从所述标题区域中提取特征序列；循环层对卷积层输出的特征序列的每一帧进行预测，预测每一帧的标签分布；转录层将循环层的每一帧的预测变为最终的标签序列，得到标题区域的文本内容。

在一个实施例中，所述病例图像中的文本区域识别是采用条件随机场来对连通区域进行结构话预测，将病例图像中的文本区域分类出来，进一步，采用条件随机场来对文字连通区域进行结构化预测，其中条件随机场的一元势能函数和二元势能函数都采用卷积神经网络进行建模，卷积神经网络可以自动从样本中学习到有用的特征，尤其是纹理、边缘、曲率等，这对印刷体和手写体文字的分类是非常适合的。经过此步骤后，文档中所有的文字部件被分为两类：印刷体文字和手写体文字。采用卷积神经网络对条件随机场的一元势能函数和二元势能函数来进行建模，其优势在于：可以自动对图像提取有用的特征。不仅可以对相邻节点间的相容性进行建模，也可以对相邻节点之间的不相容性进行建模，从而可以避免在不同类别边界处的过度平滑。卷积神经网络的参数和条件随机场的参数可以进行端到端的联合训练。

在一个实施例中，所述对所述文字区域进行文字识别还包括对所述文字区域进行印刷体或手写体文字分类，将文字区域分为手写体文字区域和印刷体文字区域，当文字区域为印刷体时，采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别，得到印刷体文字区域的内容文本；当文字区域为手写体时，采用神经网络模型对手写体文字区域进行过切分，获得多个基元片段，将所述基元片段进行组合，得到切分候选网格，采用字符分类器对所述切分候选网格进行字符分类，得到字符候选网格，采用路径搜索网络判断所述字符候选网格的最优路径，得到手写体文字区域的内容文本。

在一个实施例中，通过字符分类器能够得到多个候选字符分类，从而进一步得到字符候选网格，该字符候选网格中每一条路径不仅代表了一种切分方式，同时也代表了一种识别结果，因此称为切分识别路径。优选的，综合候选字符分类的置信度、语言上下文模型、几何上下文模型等各方面的评分结果给每一条切分识别路径进行打分，并且通过搜索算法选择出一条最好的路径作为识别结果。

我们把字符分类器、过切分以及几何上下文模型合称为形状模型，它们主要是从图像形状层面对文本行进行建模，发挥着十分重要的作用。我们搭建一个15层CNN作为字符分类器，网络的输入层是9× 32×32的扩展方向特征图，包含八方向非线性归一化图像和保持宽高比归一化成大小为32×32的原始字符图像。首先对原始字幅图像进行线密度插值归一化，然后提取八方向梯度特征，特征平面的大小设置为32×32。对于梯度方向分解，先使用Sobel算子在原图中进行边缘检测，接着使用平行四边形法则将边缘梯度分解到八个方向。为了使网络层数尽可能深一些，我们的网络中每三个卷积层之间才插入一个空间池化层。我们的网络使用最大池化层，每次该层都将特征平面的大小减半。在经过12个卷积层和4个池化层之后，将特征平面展平成1600 维向量送入后面的两个全连接层，全连接层的大小分别为900和200。最后，Softmax归一化层对将7357个输出节点的值变换到0到1之间的概率值。7357类中，7356个类别为字符类，还有一个是非字符类，用于显式地对非字符模式进行建模。非字符类在切分候选网格中十分常见，作为一个判别模型，卷积神经网络模型对于异常类的建模性能并不好，需要显式地加入样本才能使卷积神经网络对非字类有拒识的效果。此外，这种增加一个非字类的方式比使用级联卷积神经网络的方法效果更好。

在一个实施例中，所述过切分为两步法过切分，首先，使用基于前景点可见性分析的粘连字符切分算法对文本行图像进行初始的切分，将两个连续切分段之间的位置视作一个候选切分点；接着，使用滑动窗在上一步骤中得到的候选切分片段上生成一系列相同大小的窗口，并且使用一个二值卷积神经网络模型对这些窗口进行分类，判断窗口的中心是否属于合法切分点。本文构建了一个简单的4层CNN网络用于切分点二值分类，输入层同样是扩展方向特征图。在训练过程中，如果切分点位于窗口中心，那么该窗口就被认为是正样本，否则为负样本。在滑动窗过切分之后，需要对距离较近的候选切分点进行合并。本文的合并策略是，对一定水平距离内的切分点进行分析，取其中前景像素点竖直投影值最小的点作为合并的最终结果。一般来说，待合并的切分点的距离范围为1倍的笔画宽度，而笔画宽度则通过文本行图像的前景轮廓分析得到。

在一个实施例中，所述几何上下文模型为基于神经网络的几何上下文模型，所述基于神经网络的几何上下文模型利用卷积神经网络对切分候选网格进行特征提取和分类或分类。几何模型分为一元类别相关、二元类别相关、一元类别无关、二元类别无关几何模型。为了对四个几何模型进行建模，传统的做法都是首先提取几何特征，再使用二次判别函数或者支持向量机进行分类，最后通过置信度转换将分类器的输出转化为概率。由于几何模型的特征设计比较繁复，本文利用卷积神经网络对特征提取和分类进行联合训练，然后直接使用特定单元的输出作为最终得分。

在一个具体实施例中，使用多项式回归算法处理切分候选网格得到手写体文本行的走向，然后动态调整切分候选网格的上下空白，得到调整后的切分候选网格，利用卷积神经网络对调整后的切分候选网格进行特征提取和分类。由于几何上下文模型需要保持文本行的书写风格，因而不能采用将候选模式进行尺寸归一化之后直接送入神经网络的方式，我们提出首先通过多项式回归算法拟合获得文本行的中心曲线。多项式的阶数设置为连通部件数目的0.075倍。之后，根据中心曲线和字符高度进行顶部和底部边界进行调整。

在一个实施例中，所述语言上下文模型为前馈神经网络语言模型、递归神经网络语言模型或混合语言模型；可选的，所述神经网络语言模型使用短列表方法和输出层分解方法进行计算加速，所述短列表方法是在神经网络语言模型的输出层增加一个类别表示所有不属于短列表的词集合，所述输出层分解方法是将所有的词被划分成数量较小的词类，对词类和类内的词分别进行归一化。

在一个实施例中，具体如图4所述，对所述手写体文字区域（图像）采用神经网络模型对手写体文字区域进行过切分，获得多个基元片段，将所述基元片段进行组合，得到切分候选网格，采用CNN作为字符分类器对所述切分候选网格进行字符分类，得到字符候选网格，采用基于神经网络的语言上下文模型和/或基于神经网络的几何上下文模型的路径搜索网络判断所述字符候选网格的最优路径，得到手写体文字区域（图像）的文本内容。

前馈神经网络语言模型的核心思想就是将历史词从离散空间投影到连续空间中，从而完成对语言模型的隐式平滑以便更好地给出字符串的语言概率。前馈神经网络语言模型仍然是一个基于统计的N-gram语言模型，它的输入是前面N- 1个历史词构成的序列hi，一般将这些历史词串联起来以便保持相对位置关系。网络的输出是词表中所有字符在当前位置的后验概率。使用前馈神经网络估计词语概率可以分为以下几个步骤：

（1）将N- 1个历史词中的每一个词通过独热编码(One-Hot Encoding)变换成为长度等于词表规模的V维向量。

（2）将每一个V维字符向量经过映射层变换为连续空间中的一个低维向量r。事实上，P × V维投影矩阵中的每一列对应一个词向量，并且映射层的所有参数是被所有历史词所共享的。

（3）如果将映射层和隐层之间的连接权重表示为W_PH, N- 1历史词向量表示为R，那么隐层的输出S可以用下式进行计算：S= tanh(W_PH *R)。其中tanh(·)表示正切激活函数，按照逐个元素的方式对每一个单元进行。激活操作。如果要将模型推广到多层，只需要将前一隐层的输出作为当前层的输入。

（4）最后，词表中所有词的概率可以表示为：

。M表示Softmax 归一化前的激活向量，/>

是M中的第/>

个元素，/>

为指数函数。O中第j个元素便对应语言模型中第j个词语的估计概率。

递归神经网络与前馈神经网络语言模型非常相似，两者最大的不同在于，递归神经网络通过隐层的递归连接理论上可以对任意范围内的上下文进行建模。递归神经网络也将词投影到连续空间中，估计词语概率一般要分为以下三个步骤：

首先，组合生成t时刻网络的输入R（t）。它由两部分经过连接组成：前一个历史词的独热编码向量

，以及前一时刻的隐层输出/>

。可以将/>

表示为:

。

然后，将输入向量

中的元素做投影，并聚合成为一个连续向量 />

，公式如下所示，同时该向量也将作为送入下一个时刻的隐层输出：

。其中，/>

表示sigmoid激活函数，同样按照逐个元素的方式对每一个单元进行激活操作，WI,H 和WH,H分别为H ×V维投影矩阵以及H ×H维递归权值矩阵。

最后，使用与前馈神经网语言模型步骤4相同的方式对词表中所有的词给出基于历史词序列的概率估计对于识别类别较大的任务，将采用混合语言模型

其中，

分别表示混合语言模型、神经网络语言模型以及传统语言模型的概率分布，/>

为线性插值系数，一般通过最小化在验证集上的困惑度得到。由于神经网络语言模型与传统的语言模型分别学到了不同的语言分布，即使是经过简化的神经网络语言模型需要与传统语言模型相结合也能显著提升混合语言模型的性能。为了克服神经网络语言模型较高的计算复杂度这一缺陷，选择一些简单的结构或者一些近似的策略来加速神经网络语言模型。

短列表方法通过选取出现词频概率最高的那些词语作为短列表，这些属于短列表的词将使用神经网络语言模型进行概率估计，以便减少输出层的单元数。具体方法是，在神经网络语言模型的输出部分加入一个额外的类别，表示所有不属于短列表的词集合，这个概率分布可以通过神经网络优化得到。通过这种方式，我们可以认为网络对不属于短列表的词概率给出了足够可信的估计。

输出层分解方法中，所有的词被划分成数量较小的词类，这种方式下，可以对词类和类内的词分别进行归一化，因而可以降低计算复杂度。相比使用长度为1万的全词表进行输出层归一化，基于词的分解输出层分解方式可以提升15倍的速度。在划分词类的过程中，根据某一统计量（比如词频、概率似然等）得到一个直方图，然后采用类似于图像中“直方图均衡化”的做法，将各个词划分到相应类别中，使得每一类的统计量之和基本一致。尽管基于词频的划分方式比基于概率似然）的方式在困惑度指标上要稍逊色，但是它在分类速度上有明显的优势。因此，为了兼顾精度和速度，我们使用基于词频的划分方式。

在一个实施例中，对所述文字区域进行文字识别，得到病例图像的内容文本，将得到病例图像的内容文本与预定义内容文本进行匹配，根据匹配到的预定义内容的编目标题得到基于文字区域的标题文本。

在一个实施例中，所述病例的标题文本是基于图像区域的标题文本、基于表格区域的标题文本、基于标题区域的标题文本的加权融合，得到最终的病例的标题文本；在一个具体实施例中，将所述基于文字区域的标题文本、基于图像区域的标题文本、基于表格区域的标题文本、基于标题区域的标题文本的加权融合，得到最终的病例的标题文本。

在一个实施例中，对所述印刷体文字区域采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别为采用卷积层从所述印刷体文字区域中提取特征序列；循环层对卷积层输出的特征序列的每一帧进行预测，预测每一帧的标签分布；转录层将循环层的每一帧的预测变为最终的标签序列，得到印刷体文字区域的文本内容。

在一个实施例中，所述卷积层由去除全连接层的标准CNN模型中的卷积层和最大池化层组成；可选的，所述循环层由两个LSTM组合成一个双向的LSTM组成；可选的，所述转录层为CTC。所述转录层根据循环层的每一帧的预测找到具有最高概率的标签序列作为最终的标签序列。

在一个具体实施例中，通过采用标准CNN模型（去除全连接层）中的卷积层和最大池化层来构造卷积层的组件，这样的组件用于从输入图像中提取序列特征表示。在进入网络之前，所有的图像需要缩放到相同的高度，然后从卷积层组件产生的特征图中提取特征向量序列，这些特征向量序列作为循环层的输入。具体地，特征序列的每一个特征向量在特征图上按列从左到右生成，这意味着第i个特征向量是所有特征图第i列的连接。在我们的设置中每列的宽度固定为单个像素。由于卷积层，最大池化层和元素激活函数在局部区域上执行，因此它们是平移不变的。特征图的每列对应于原始图像的一个矩形区域（称为感受野），并且这些矩形区域与特征图上从左到右的相应列具有相同的顺序。特征序列中的每个向量关联一个感受野，并且可以被认为是该区域的图像描述符。

在一个具体实施例中，LSTM是定向的，它只使用过去的上下文。然而，在基于图像的序列中，两个方向的上下文是相互有用且互补的，因此，我们将两个LSTM，一个向前和一个向后组合到一个双向LSTM中。在循环层中，采用基于时间的反向传播算法（BPTT）。在循环层的底部，传播差异的序列被连接成映射，将特征映射转换为特征序列的操作进行反转并反馈到卷积层，作为卷积层和循环层之间的桥梁。

在一个具体实施例中，我们采用Graves等人提出的连续时间序列分类（Connectionist Temporal Classification，CTC）层中定义的条件概率，CTC能够直接对未分割的序列进行预测，然后对预测结果按照一定的规则进行映射得到最终的输出结果，实验表明CTC用于文本识别具有非常好的效果。当我们使用这种概率的负对数似然作为训练网络的目标函数时，我们只需要图像及其相应的标签序列，避免了标注单个字符位置的劳动。

在一个具体实施例中，我们采用真实印刷病例的扫描图像作为训练图像，对每幅训练图像进行人工标注，得到病例对应的文字标签序列，训练目标是最小化真实条件概率的负对数似然，目标函数直接从图像和它的真实标签序列计算代价值。因此，网络可以在成对的图像和序列上进行端对端训练，去除了在训练图像中手动标记所有单独组件的过程。网络使用随机梯度下降（SGD）进行训练，梯度由反向传播算法计算。特别地，在转录层中，误差使用前向算法进行反向传播。在循环层中，应用随时间反向传播（BPTT）来计算误差。为了优化，我们使用ADADELTA自动计算每维的学习率，与传统方法相比，ADADELTA不需要手动设置学习率。更重要的是，使用ADADELTA的优化收敛速度比动量方法快。

在一个实施例中，所述待归档的病例图像为多个图像时，分别提取前后病例图像的标题文本或内容文本进行匹配，匹配结果显示存在内容关联时，判定为后面病例图像与前面病例图像相同编目标题。

图2是本发明实施例提供的一种病例的自动编目系统，包括：

获取单元201，用于获取待归档的病例图像；

提取单元202，用于提取所述病例图像中的联通区域，并对所有联通区域提取特征，采用条件随机场对所有联通区域整体分类，划分为标题区域、图像区域、表格区域、几何图形区域、文字区域；

第一标题文本生成单元203，用于对所述标题区域进行文字识别，得到基于标题区域的标题文本；

第二标题文本生成单元204，用于采用机器学习对所述图像区域进行分类，预测病例图像所属的编目标题，得到基于图像区域的标题文本；

第三标题文本生成单元205，用于采用机器学习对所述表格区域进行分类，预测病例图像所属的编目标题，得到基于表格区域的标题文本；

内容文本审查单元206，用于对所述文字区域进行文字识别，得到病例图像的内容文本；

匹配单元207，用于将所述标题文本或所述内容文本与预定义的编目标题匹配，根据匹配度进行待归档的病例的自动编目。

图3是本发明实施例提供的一种病例的自动编目设备，包括：存储器和处理器；

所述存储器用于存储程序指令；

所述处理器用于调用程序指令，当程序指令被执行时实现上述的病例的自动编目方法步骤。

本发明的一个目的在于提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的病例的自动编目方法步骤。

本验证实施例的验证结果表明，为适应症分配固有权重相对于默认设置来说可以适度改善本方法的性能。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种计算机设备进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种病例的自动编目方法，其特征在于，具体方法步骤包括：

获取待归档的病例图像；

对所述文字区域进行文字识别，得到病例图像的内容文本，所述对所述文字区域进行文字识别还包括对所述文字区域进行手写体文字分类，当文字区域为手写体时，采用神经网络模型对手写体文字区域进行过切分，获得多个基元片段，将所述基元片段进行组合，得到切分候选网格，使用多项式回归算法处理切分候选网格得到手写体文本行的走向，然后动态调整切分候选网格的上下空白，得到调整后的切分候选网格，采用字符分类器对所述调整后的切分候选网格进行字符分类，得到字符候选网格，采用路径搜索网络判断所述字符候选网格的最优路径，得到手写体文字区域的内容文本；所述过切分为两步法过切分：使用基于前景点可见性分析的粘连字符切分算法对文本行图像进行初始的切分，得到切分段，将两个连续切分段之间的位置视作一个候选切分点；使用滑动窗在所述切分段上生成一系列相同大小的窗口，并且使用一个二值卷积神经网络模型对所述窗口进行分类，得到窗口的中心，基于所述候选切分点和所述窗口的中心判断窗口的中心是否属于合法切分点；

2.根据权利要求1中所述的病例的自动编目方法，其特征在于，对所述标题区域进行文字识别是采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别为采用卷积层从所述标题区域中提取特征序列；循环层对卷积层输出的特征序列的每一帧进行预测，预测每一帧的标签分布；转录层将循环层的每一帧的预测变为最终的标签序列，得到标题区域的文本内容。

3.根据权利要求1中所述的病例的自动编目方法，其特征在于，所述对所述文字区域进行文字识别还包括对所述文字区域进行印刷体或手写体文字分类，将文字区域分为手写体文字区域和印刷体文字区域，当文字区域为印刷体时，采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别，得到印刷体文字区域的内容文本。

4.根据权利要求1中所述的病例的自动编目方法，其特征在于，对所述文字区域进行文字识别，得到病例图像的内容文本，将得到病例图像的内容文本与预定义内容文本进行匹配，根据匹配到的预定义内容的编目标题得到基于文字区域的标题文本。

5.根据权利要求1中所述的病例的自动编目方法，其特征在于，所述病例的标题文本是基于图像区域的标题文本、基于表格区域的标题文本、基于标题区域的标题文本的加权融合，得到最终的病例的标题文本。

6.根据权利要求1中所述的病例的自动编目方法，其特征在于，所述方法还包括对病例图像进行轮廓提取，所述轮廓提取是使用多种算法结合对病例图像进行边缘检测，得到病例图像中的联通区域。

7.根据权利要求1中所述的病例的自动编目方法，其特征在于，所述待归档的病例图像为多个图像时，分别提取前后病例图像的标题文本或内容文本进行匹配，匹配结果显示存在内容关联时，判定为后面病例图像与前面病例图像相同编目标题。

8.一种病例的自动编目系统，其特征在于，包括：

获取单元，用于获取待归档的病例图像；

内容文本审查单元，用于对所述文字区域进行文字识别，得到病例图像的内容文本，所述对所述文字区域进行文字识别还包括对所述文字区域进行手写体文字分类，当文字区域为手写体时，采用神经网络模型对手写体文字区域进行过切分，获得多个基元片段，将所述基元片段进行组合，得到切分候选网格，采用字符分类器对所述切分候选网格进行字符分类，得到字符候选网格，采用路径搜索网络判断所述字符候选网格的最优路径，得到手写体文字区域的内容文本；所述过切分为两步法过切分：使用基于前景点可见性分析的粘连字符切分算法对文本行图像进行初始的切分，得到切分段，将两个连续切分段之间的位置视作一个候选切分点；使用滑动窗在所述切分段上生成一系列相同大小的窗口，并且使用一个二值卷积神经网络模型对所述窗口进行分类，得到窗口的中心，基于所述候选切分点和所述窗口的中心判断窗口的中心是否属于合法切分点；

9.一种病例的自动编目设备，其特征在于，包括：存储器和处理器；

所述存储器用于存储程序指令；

所述处理器用于调用程序指令，当程序指令被执行时实现权利要求1-7任意一项所述的病例的自动编目方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任意一项所述的病例的自动编目方法。