CN115862045B - 基于图文识别技术的病例自动识别方法、系统、设备及存储介质 - Google Patents

基于图文识别技术的病例自动识别方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN115862045B
CN115862045B CN202310120016.5A CN202310120016A CN115862045B CN 115862045 B CN115862045 B CN 115862045B CN 202310120016 A CN202310120016 A CN 202310120016A CN 115862045 B CN115862045 B CN 115862045B
Authority
CN
China
Prior art keywords
text
image
layer
segmentation
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310120016.5A
Other languages
English (en)
Other versions
CN115862045A (zh
Inventor
王莹
何昆仑
孙宇慧
杨华
谢地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Medical Center of PLA General Hospital
Original Assignee
First Medical Center of PLA General Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Medical Center of PLA General Hospital filed Critical First Medical Center of PLA General Hospital
Priority to CN202310120016.5A priority Critical patent/CN115862045B/zh
Publication of CN115862045A publication Critical patent/CN115862045A/zh
Application granted granted Critical
Publication of CN115862045B publication Critical patent/CN115862045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明涉及基于图文识别技术的病例自动识别方法、系统、设备及存储介质。包括:获取待识别病例图像;对所述病例图像中的文本区域进行印刷体或手写体文字分类,将文档图片中的文本区域分为手写体文字图像和印刷体文字图像;对所述手写体文字图像采用神经网络模型对手写体文字图像进行过切分,基元片段组合,字符分类,基于语言上下文模型和几何上下文模型的路径搜索,得到手写体文字图像的文本内容,对所述印刷体文字图像采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别,得到印刷体文字图像的文本内容。本申请提供一种智能的病例自动识别方法和系统,具有重要的临床应用价值。

Description

基于图文识别技术的病例自动识别方法、系统、设备及存储 介质
技术领域
本发明涉及智能医疗技术领域,更具体地,涉及基于图文识别技术的病例自动识别方法、系统、设备及存储介质。
背景技术
传统的自动识别算法都是依赖于光学OCR识别技术,而病例图像在形成过程中因图像质量及版面复杂,文字识别准确率低,病例版面分析不准确,造成自动识别无法达到实际应用要求。
病例中有很多医生及护理人员的手写字体时,由于手写内容千变万化,中文手写字符串切分的手段比较单一,缺乏基于统计学习的算法,尽管基于卷积神经网络的分类模型在单个字符分类上得到成功应用,但是只有极少数的工作证明其在串识别中的提升程度。
发明内容
为解决上述问题,本申请建立一种基于图文识别技术的病例自动识别方法、系统、设备及存储介质。
一种基于图文识别技术的病例自动识别方法,具体方法步骤包括:
获取待识别病例图像;
对所述病例图像中的文本区域进行印刷体或手写体文字分类,将文档图片中的文本区域分为手写体文字图像和印刷体文字图像;
对所述手写体文字图像采用神经网络模型对手写体文字图像进行过切分,获得多个基元片段,将所述基元片段进行组合,得到切分候选网格,采用字符分类器对所述切分候选网格进行字符分类,得到字符候选网格,采用路径搜索网络判断所述字符候选网格的最优路径,得到手写体文字图像的文本内容,所述路径搜索网络包括语言上下文模型和几何上下文模型;
对所述印刷体文字图像采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别,得到印刷体文字图像的文本内容。
进一步,所述字符分类器为卷积神经网络,可选的,所述字符分类器为一个15层的卷积神经网络。
进一步,所述几何上下文模型为基于神经网络的几何上下文模型,所述基于神经网络的几何上下文模型利用卷积神经网络对切分候选网格进行特征提取和分类或回归;
可选的,使用多项式回归算法处理切分候选网格得到手写体文本行的走向,然后动态调整切分候选网格的上下空白,得到调整后的切分候选网格,利用卷积神经网络对调整后的切分候选网格进行特征提取和分类。
进一步,所述语言上下文模型为前馈神经网络语言模型、递归神经网络语言模型或混合语言模型;
可选的,所述神经网络语言模型使用短列表方法和输出层分解方法进行计算加速,所述短列表方法是在神经网络语言模型的输出层增加一个类别表示所有不属于短列表的词集合,所述输出层分解方法是将所有的词被划分成数量较小的词类,对词类和类内的词分别进行归一化。
进一步,对所述印刷体文字图像采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别为采用卷积层从所述印刷体文字图像中提取特征序列;循环层对卷积层输出的特征序列的每一帧进行预测,预测每一帧的标签分布;转录层将循环层的每一帧的预测变为最终的标签序列,得到印刷体文字图像的文本内容。
进一步,所述卷积层由去除全连接层的标准CNN模型中的卷积层和最大池化层组成;
可选的,所述循环层由两个LSTM组合成一个双向的LSTM组成;
可选的,所述转录层为CTC。
可选的,所述转录层根据循环层的每一帧的预测找到具有最高概率的标签序列作为最终的标签序列。
进一步,所述过切分为两步法过切分,首先,使用基于前景点可见性分析的粘连字符切分算法对文本行图像进行初始的切分,将两个连续切分段之间的位置视作一个候选切分点;接着,使用滑动窗在上一步骤中得到的候选切分片段上生成一系列相同大小的窗口,并且使用一个二值卷积神经网络模型对这些窗口进行分类,判断窗口的中心是否属于合法切分点。
本申请的目的在于提供一种基于图文识别技术的病例自动识别系统,包括:
获取单元,用于获取待识别病例图像;
分类单元,用于对所述病例图像中的文本区域进行印刷体或手写体文字分类,将文档图片中的文本区域分为手写体文字图像和印刷体文字图像;
手写体文字识别单元,用于对所述手写体文字图像采用神经网络模型对手写体文字图像进行过切分,获得多个基元片段,将所述基元片段进行组合,得到切分候选网格,采用字符分类器对所述切分候选网格进行字符分类,得到字符候选网格,采用路径搜索网络判断所述字符候选网格的最优路径,得到手写体文字图像的文本内容,所述路径搜索网络包括语言上下文模型和几何上下文模型;
印刷体文字识别单元,用于对所述印刷体文字图像采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别,得到印刷体文字图像的文本内容。
本申请的目的在于提供一种基于图文识别技术的病例自动识别设备,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用程序指令,当程序指令被执行时实现上述的基于图文识别技术的病例自动识别方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于图文识别技术的病例自动识别方法。
本申请的优点:
1.本申请针对高阶语言模型建模过程中出现的数据稀疏和维度灾难等问题,我们将神经网络语言模型引入到基于过切分的中文手写字符串识别系统中,神经网络语言模型可以在连续空间进行隐式的平滑以及序列概率的预测,从而可以很大程度上克服传统高阶语言模型的不足;
2.本申请考虑到包含单字分类器、过切分以及几何模型在内的形状模型在文本行图像建模中的巨大作用,我们提出一种卷积神经网络形状模型,将其融入过切分识别系统之后发现可以大幅提升系统性能;
3.本申请提出一种基于学习的两步过切分方法,将传统的基于前景点可见性分析的方法与滑动窗卷积神经网络分类器相结合,使得召回率有了进一步的提升;
4.本申请将几何上下文模型从传统的分类器转换为基于卷积神经网络的模型,并且考虑几何上下文模型需要保持文本行的书写风格,因而不能采用将候选模式进行尺寸归一化之后直接送入神经网络的方式,我们提出首先通过多项式拟合获得文本行的中心曲线;
5.本申请研究神经网络语言模型的加速策略,使用短列表(Short-List)和输出层分解(Output Factorization)技术进行计算加速,提高识别速度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的一种基于图文识别技术的病例自动识别方法示意流程图;
图2是本发明实施例提供的一种基于图文识别技术的病例自动识别系统示意图;
图3是本发明实施例提供的一种基于图文识别技术的病例自动识别设备示意图;
图4是本发明实施例提供的一种手写体文字图像切分识别框架示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种基于图文识别技术的病例自动识别方法示意流程图,具体地,所述方法包括如下步骤:
101:获取待识别病例图像;
在一个实施例中,所述待识别病例图像是通过对纸质病历进行扫描/拍照。拍照前可在拍照区域的上方设置拍照参数,可设置拍照的颜色:彩色、黑白、灰度;可设置拍照的切边方式:手工切边、自动切边、不切边;可设置拍照时是否去除阴影。所述病例图像中的文本区域含有印刷体和/或手写体文字。
102:对所述病例图像中的文本区域进行印刷体或手写体文字分类,将文档图片中的文本区域分为手写体文字图像和印刷体文字图像;
在一个实施例中,所述病例图像中的文本区域识别是采用条件随机场来对连通区域进行结构话预测,将病例图像中的文本区域分类出来,进一步,采用条件随机场来对文字连通区域进行结构化预测,其中条件随机场的一元势能函数和二元势能函数都采用卷积神经网络进行建模,卷积神经网络可以自动从样本中学习到有用的特征,尤其是纹理、边缘、曲率等,这对印刷体和手写体文字的分类是非常适合的。经过此步骤后,文档中所有的文字部件被分为两类:印刷体文字和手写体文字。采用卷积神经网络对条件随机场的一元势能函数和二元势能函数来进行建模,其优势在于:可以自动对图像提取有用的特征。不仅可以对相邻节点间的相容性进行建模,也可以对相邻节点之间的不相容性进行建模,从而可以避免在不同类别边界处的过度平滑。卷积神经网络的参数和条件随机场的参数可以进行端到端的联合训练。
103:对所述手写体文字图像采用神经网络模型对手写体文字图像进行过切分,获得多个基元片段,将所述基元片段进行组合,得到切分候选网格,采用字符分类器对所述切分候选网格进行字符分类,得到字符候选网格,采用路径搜索网络判断所述字符候选网格的最优路径,得到手写体文字图像的文本内容,所述路径搜索网络包括语言上下文模型和几何上下文模型;
在一个实施例中,通过字符分类器能够得到多个候选字符分类,从而进一步得到字符候选网格,该字符候选网格中每一条路径不仅代表了一种切分方式,同时也代表了一种识别结果,因此称为切分识别路径。优选的,综合候选字符分类的置信度、语言上下文模型、几何上下文模型等各方面的评分结果给每一条切分识别路径进行打分,并且通过搜索算法选择出一条最好的路径作为识别结果。
我们把字符分类器、过切分以及几何上下文模型合称为形状模型,它们主要是从图像形状层面对文本行进行建模,发挥着十分重要的作用。我们搭建一个15层CNN作为字符分类器,网络的输入层是9× 32×32的扩展方向特征图,包含八方向非线性归一化图像和保持宽高比归一化成大小为32×32的原始字符图像。首先对原始字幅图像进行线密度插值归一化,然后提取八方向梯度特征,特征平面的大小设置为32×32。对于梯度方向分解,先使用Sobel算子在原图中进行边缘检测,接着使用平行四边形法则将边缘梯度分解到八个方向。为了使网络层数尽可能深一些,我们的网络中每三个卷积层之间才插入一个空间池化层。我们的网络使用最大池化层,每次该层都将特征平面的大小减半。在经过12个卷积层和4个池化层之后,将特征平面展平成1600 维向量送入后面的两个全连接层,全连接层的大小分别为900和200。最后,Softmax归一化层对将7357个输出节点的值变换到0到1之间的概率值。7357类中,7356个类别为字符类,还有一个是非字符类,用于显式地对非字符模式进行建模。非字符类在切分候选网格中十分常见,作为一个判别模型,卷积神经网络模型对于异常类的建模性能并不好,需要显式地加入样本才能使卷积神经网络对非字类有拒识的效果。此外,这种增加一个非字类的方式比使用级联卷积神经网络的方法效果更好。
在一个实施例中,所述过切分为两步法过切分,首先,使用基于前景点可见性分析的粘连字符切分算法对文本行图像进行初始的切分,将两个连续切分段之间的位置视作一个候选切分点;接着,使用滑动窗在上一步骤中得到的候选切分片段上生成一系列相同大小的窗口,并且使用一个二值卷积神经网络模型对这些窗口进行分类,判断窗口的中心是否属于合法切分点。本文构建了一个简单的4层CNN网络用于切分点二值分类,输入层同样是扩展方向特征图。在训练过程中,如果切分点位于窗口中心,那么该窗口就被认为是正样本,否则为负样本。在滑动窗过切分之后,需要对距离较近的候选切分点进行合并。本文的合并策略是,对一定水平距离内的切分点进行分析,取其中前景像素点竖直投影值最小的点作为合并的最终结果。一般来说,待合并的切分点的距离范围为1倍的笔画宽度,而笔画宽度则通过文本行图像的前景轮廓分析得到。
在一个实施例中,所述几何上下文模型为基于神经网络的几何上下文模型,所述基于神经网络的几何上下文模型利用卷积神经网络对切分候选网格进行特征提取和分类或回归。几何模型分为一元类别相关、二元类别相关、一元类别无关、二元类别无关几何模型。为了对四个几何模型进行建模,传统的做法都是首先提取几何特征,再使用二次判别函数或者支持向量机进行分类,最后通过置信度转换将分类器的输出转化为概率。由于几何模型的特征设计比较繁复,本文利用卷积神经网络对特征提取和分类进行联合训练,然后直接使用特定单元的输出作为最终得分。
在一个具体实施例中,使用多项式回归算法处理切分候选网格得到手写体文本行的走向,然后动态调整切分候选网格的上下空白,得到调整后的切分候选网格,利用卷积神经网络对调整后的切分候选网格进行特征提取和分类。由于几何上下文模型需要保持文本行的书写风格,因而不能采用将候选模式进行尺寸归一化之后直接送入神经网络的方式,我们提出首先通过多项式回归算法拟合获得文本行的中心曲线。多项式的阶数设置为连通部件数目的0.075倍。之后,根据中心曲线和字符高度进行顶部和底部边界进行调整。
在一个实施例中,所述语言上下文模型为前馈神经网络语言模型、递归神经网络语言模型或混合语言模型;可选的,所述神经网络语言模型使用短列表方法和输出层分解方法进行计算加速,所述短列表方法是在神经网络语言模型的输出层增加一个类别表示所有不属于短列表的词集合,所述输出层分解方法是将所有的词被划分成数量较小的词类,对词类和类内的词分别进行归一化。
在一个实施例中,具体如图4所述,对所述手写体文字图像采用神经网络模型对手写体文字图像进行过切分,获得多个基元片段,将所述基元片段进行组合,得到切分候选网格,采用CNN作为字符分类器对所述切分候选网格进行字符分类,得到字符候选网格,采用基于神经网络的语言上下文模型和/或基于神经网络的几何上下文模型的路径搜索网络判断所述字符候选网格的最优路径,得到手写体文字图像的文本内容。
前馈神经网络语言模型的核心思想就是将历史词从离散空间投影到连续空间中,从而完成对语言模型的隐式平滑以便更好地给出字符串的语言概率。前馈神经网络语言模型仍然是一个基于统计的N-gram语言模型,它的输入是前面
Figure SMS_1
个历史词构成的序列hi,一般将这些历史词串联起来以便保持相对位置关系。网络的输出是词表中所有字符在当前位置的后验概率。使用前馈神经网络估计词语概率可以分为以下几个步骤:
(1)将
Figure SMS_2
个历史词中的每一个词通过独热编码(One-Hot Encoding)变换成为长度等于词表规模的V维向量。
(2)将每一个V维字符向量经过映射层变换为连续空间中的一个低维向量r。事实上,
Figure SMS_3
维投影矩阵中的每一列对应一个词向量,并且映射层的所有参数是被所有历史词所共享的。
(3)如果将映射层和隐层之间的连接权重表示为
Figure SMS_4
, />
Figure SMS_5
历史词向量表示为R,那么隐层的输出S可以用下式进行计算:/>
Figure SMS_6
。其中/>
Figure SMS_7
表示正切激活函数,按照逐个元素的方式对每一个单元进行。激活操作。如果要将模型推广到多层,只需要将前一隐层的输出作为当前层的输入。
(4)最后,词表中所有词的概率可以表示为:
Figure SMS_10
。/>
Figure SMS_13
表示
Figure SMS_16
归一化前的激活向量,/>
Figure SMS_9
是/>
Figure SMS_12
中的第/>
Figure SMS_15
个元素,/>
Figure SMS_17
为指数函数。/>
Figure SMS_8
中第/>
Figure SMS_11
个元素便对应语言模型中第/>
Figure SMS_14
个词语的估计概率。
递归神经网络与前馈神经网络语言模型非常相似,两者最大的不同在于,递归神经网络通过隐层的递归连接理论上可以对任意范围内的上下文进行建模。递归神经网络也将词投影到连续空间中,估计词语概率一般要分为以下三个步骤:
首先,组合生成
Figure SMS_18
时刻网络的输入/>
Figure SMS_19
。它由两部分经过连接组成:前一个历史词的独热编码向量/>
Figure SMS_20
,以及前一时刻的隐层输出/>
Figure SMS_21
。可以将/>
Figure SMS_22
表示为:
Figure SMS_23
然后,将输入向量
Figure SMS_25
中的元素做投影,并聚合成为一个连续向量/>
Figure SMS_29
,公式如下所示,同时该向量也将作为送入下一个时刻的隐层输出:
Figure SMS_30
。其中,/>
Figure SMS_26
表示/>
Figure SMS_28
激活函数,同样按照逐个元素的方式对每一个单元进行激活操作,/>
Figure SMS_31
和/>
Figure SMS_32
分别为/>
Figure SMS_24
维投影矩阵以及/>
Figure SMS_27
维递归权值矩阵。
最后,使用与前馈神经网语言模型步骤4相同的方式对词表中所有的词给出基于历史词序列的概率估计
对于识别类别较大的任务,将采用混合语言模型
Figure SMS_33
Figure SMS_34
。其中,
Figure SMS_35
分别表示混合语言模型、神经网络语言模型以及传统语言模型的概率分布,/>
Figure SMS_36
为线性插值系数,一般通过最小化在验证集上的困惑度得到。由于神经网络语言模型与传统的语言模型分别学到了不同的语言分布,即使是经过简化的神经网络语言模型需要与传统语言模型相结合也能显著提升混合语言模型的性能。为了克服神经网络语言模型较高的计算复杂度这一缺陷,选择一些简单的结构或者一些近似的策略来加速神经网络语言模型。
短列表方法通过选取出现词频概率最高的那些词语作为短列表,这些属于短列表的词将使用神经网络语言模型进行概率估计,以便减少输出层的单元数。具体方法是,在神经网络语言模型的输出部分加入一个额外的类别,表示所有不属于短列表的词集合,这个概率分布可以通过神经网络优化得到。通过这种方式,我们可以认为网络对不属于短列表的词概率给出了足够可信的估计。
输出层分解方法中,所有的词被划分成数量较小的词类,这种方式下,可以对词类和类内的词分别进行归一化,因而可以降低计算复杂度。相比使用长度为1万的全词表进行输出层归一化,基于词的分解输出层分解方式可以提升15倍的速度。在划分词类的过程中,根据某一统计量(比如词频、概率似然等)得到一个直方图,然后采用类似于图像中“直方图均衡化”的做法,将各个词划分到相应类别中,使得每一类的统计量之和基本一致。尽管基于词频的划分方式比基于概率似然)的方式在困惑度指标上要稍逊色,但是它在分类速度上有明显的优势。因此,为了兼顾精度和速度,我们使用基于词频的划分方式。
104:对所述印刷体文字图像采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别,得到印刷体文字图像的文本内容。
在一个实施例中,对所述印刷体文字图像采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别为采用卷积层从所述印刷体文字图像中提取特征序列;循环层对卷积层输出的特征序列的每一帧进行预测,预测每一帧的标签分布;转录层将循环层的每一帧的预测变为最终的标签序列,得到印刷体文字图像的文本内容。
在一个实施例中,所述卷积层由去除全连接层的标准CNN模型中的卷积层和最大池化层组成;可选的,所述循环层由两个LSTM组合成一个双向的LSTM组成;可选的,所述转录层为CTC。所述转录层根据循环层的每一帧的预测找到具有最高概率的标签序列作为最终的标签序列。
在一个具体实施例中,通过采用标准CNN模型(去除全连接层)中的卷积层和最大池化层来构造卷积层的组件,这样的组件用于从输入图像中提取序列特征表示。在进入网络之前,所有的图像需要缩放到相同的高度,然后从卷积层组件产生的特征图中提取特征向量序列,这些特征向量序列作为循环层的输入。具体地,特征序列的每一个特征向量在特征图上按列从左到右生成,这意味着第i个特征向量是所有特征图第i列的连接。在我们的设置中每列的宽度固定为单个像素。由于卷积层,最大池化层和元素激活函数在局部区域上执行,因此它们是平移不变的。特征图的每列对应于原始图像的一个矩形区域(称为感受野),并且这些矩形区域与特征图上从左到右的相应列具有相同的顺序。特征序列中的每个向量关联一个感受野,并且可以被认为是该区域的图像描述符。
在一个具体实施例中,LSTM是定向的,它只使用过去的上下文。然而,在基于图像的序列中,两个方向的上下文是相互有用且互补的,因此,我们将两个LSTM,一个向前和一个向后组合到一个双向LSTM中。在循环层中,采用基于时间的反向传播算法(BPTT)。在循环层的底部,传播差异的序列被连接成映射,将特征映射转换为特征序列的操作进行反转并反馈到卷积层,作为卷积层和循环层之间的桥梁。
在一个具体实施例中,我们采用Graves等人提出的连续时间序列分类(Connectionist Temporal Classification,CTC)层中定义的条件概率,CTC能够直接对未分割的序列进行预测,然后对预测结果按照一定的规则进行映射得到最终的输出结果,实验表明CTC用于文本识别具有非常好的效果。当我们使用这种概率的负对数似然作为训练网络的目标函数时,我们只需要图像及其相应的标签序列,避免了标注单个字符位置的劳动。
在一个具体实施例中,我们采用真实印刷病例的扫描图像作为训练图像,对每幅训练图像进行人工标注,得到病例对应的文字标签序列,训练目标是最小化真实条件概率的负对数似然,目标函数直接从图像和它的真实标签序列计算代价值。因此,网络可以在成对的图像和序列上进行端对端训练,去除了在训练图像中手动标记所有单独组件的过程。网络使用随机梯度下降(SGD)进行训练,梯度由反向传播算法计算。特别地,在转录层中,误差使用前向算法进行反向传播。在循环层中,应用随时间反向传播(BPTT)来计算误差。为了优化,我们使用ADADELTA自动计算每维的学习率,与传统方法相比,ADADELTA不需要手动设置学习率。更重要的是,使用ADADELTA的优化收敛速度比动量方法快。
图2是本发明实施例提供的一种基于图文识别技术的病例自动识别系统,包括:
获取单元201,用于获取待识别病例图像;
分类单元202,用于对所述病例图像中的文本区域进行印刷体或手写体文字分类,将文档图片中的文本区域分为手写体文字图像和印刷体文字图像;
手写体文字识别单元203,用于对所述手写体文字图像采用神经网络模型对手写体文字图像进行过切分,获得多个基元片段,将所述基元片段进行组合,得到切分候选网格,采用字符分类器对所述切分候选网格进行字符分类,得到字符候选网格,采用路径搜索网络判断所述字符候选网格的最优路径,得到手写体文字图像的文本内容,所述路径搜索网络包括语言上下文模型和几何上下文模型;
印刷体文字识别单元204,用于对所述印刷体文字图像采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别,得到印刷体文字图像的文本内容。
图3是本发明实施例提供的一种基于图文识别技术的病例自动识别设备,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用程序指令,当程序指令被执行时实现上述的基于图文识别技术的病例自动识别方法步骤。
本发明的一个目的在于提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的基于图文识别技术的病例自动识别方法步骤。
本验证实施例的验证结果表明,为适应症分配固有权重相对于默认设置来说可以适度改善本方法的性能。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (11)

1.一种基于图文识别技术的病例自动识别方法,其特征在于,具体方法步骤包括:
获取待识别病例图像;
对所述病例图像中的文本区域进行印刷体或手写体文字分类,将文档图片中的文本区域分为手写体文字图像和印刷体文字图像;
对所述手写体文字图像采用神经网络模型对手写体文字图像进行过切分,获得多个基元片段,将所述基元片段进行组合,得到切分候选网格,采用字符分类器对所述切分候选网格进行字符分类,得到字符候选网格,采用路径搜索网络判断所述字符候选网格的最优路径,得到手写体文字图像的文本内容,所述路径搜索网络包括语言上下文模型和几何上下文模型;所述过切分为两步法过切分:使用基于前景点可见性分析的粘连字符切分算法对文本行图像进行初始的切分,得到切分段,将两个连续切分段之间的位置视作一个候选切分点;使用滑动窗在所述切分段上生成一系列相同大小的窗口,并且使用一个二值卷积神经网络模型对所述窗口进行分类,得到窗口的中心,基于所述候选切分点和所述窗口的中心判断窗口的中心是否属于合法切分点;
对所述印刷体文字图像采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别,得到印刷体文字图像的文本内容。
2.根据权利要求1中所述的基于图文识别技术的病例自动识别方法,其特征在于,所述字符分类器为卷积神经网络。
3.根据权利要求1中所述的基于图文识别技术的病例自动识别方法,其特征在于,所述几何上下文模型为基于神经网络的几何上下文模型,所述基于神经网络的几何上下文模型利用卷积神经网络对切分候选网格进行特征提取和分类或回归。
4.根据权利要求3中所述的基于图文识别技术的病例自动识别方法,其特征在于,使用多项式回归算法处理切分候选网格得到手写体文本行的走向,然后动态调整切分候选网格的上下空白,得到调整后的切分候选网格,利用卷积神经网络对调整后的切分候选网格进行特征提取和分类。
5.根据权利要求1中所述的基于图文识别技术的病例自动识别方法,其特征在于,所述语言上下文模型为前馈神经网络语言模型、递归神经网络语言模型或混合语言模型。
6.根据权利要求5中所述的基于图文识别技术的病例自动识别方法,其特征在于,所述神经网络语言模型使用短列表方法和输出层分解方法进行计算加速,所述短列表方法是在神经网络语言模型的输出层增加一个类别表示所有不属于短列表的词集合,所述输出层分解方法是将所有的词被划分成数量较小的词类,对词类和类内的词分别进行归一化。
7.根据权利要求1中所述的基于图文识别技术的病例自动识别方法,其特征在于,对所述印刷体文字图像采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别为采用卷积层从所述印刷体文字图像中提取特征序列;循环层对卷积层输出的特征序列的每一帧进行预测,预测每一帧的标签分布;转录层将循环层的每一帧的预测变为最终的标签序列,得到印刷体文字图像的文本内容。
8.根据权利要求1中所述的基于图文识别技术的病例自动识别方法,其特征在于,所述卷积层由去除全连接层的标准CNN模型中的卷积层和最大池化层组成;或所述循环层由两个LSTM组合成一个双向的LSTM组成;或所述转录层为CTC,所述转录层根据循环层的每一帧的预测找到具有最高概率的标签序列作为最终的标签序列。
9.一种基于图文识别技术的病例自动识别系统,其特征在于,包括:
获取单元,用于获取待识别病例图像;
分类单元,用于对所述病例图像中的文本区域进行印刷体或手写体文字分类,将文档图片中的文本区域分为手写体文字图像和印刷体文字图像;
手写体文字识别单元,用于对所述手写体文字图像采用神经网络模型对手写体文字图像进行过切分,获得多个基元片段,将所述基元片段进行组合,得到切分候选网格,采用字符分类器对所述切分候选网格进行字符分类,得到字符候选网格,采用路径搜索网络判断所述字符候选网格的最优路径,得到手写体文字图像的文本内容,所述路径搜索网络包括语言上下文模型和几何上下文模型;所述过切分为两步法过切分:使用基于前景点可见性分析的粘连字符切分算法对文本行图像进行初始的切分,得到切分段,将两个连续切分段之间的位置视作一个候选切分点;使用滑动窗在所述切分段上生成一系列相同大小的窗口,并且使用一个二值卷积神经网络模型对所述窗口进行分类,得到窗口的中心,基于所述候选切分点和所述窗口的中心判断窗口的中心是否属于合法切分点;
印刷体文字识别单元,用于对所述印刷体文字图像采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别,得到印刷体文字图像的文本内容。
10.一种基于图文识别技术的病例自动识别设备,其特征在于,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用程序指令,当程序指令被执行时实现权利要求1-8任意一项所述的基于图文识别技术的病例自动识别方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任意一项所述的基于图文识别技术的病例自动识别方法。
CN202310120016.5A 2023-02-16 2023-02-16 基于图文识别技术的病例自动识别方法、系统、设备及存储介质 Active CN115862045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310120016.5A CN115862045B (zh) 2023-02-16 2023-02-16 基于图文识别技术的病例自动识别方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310120016.5A CN115862045B (zh) 2023-02-16 2023-02-16 基于图文识别技术的病例自动识别方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115862045A CN115862045A (zh) 2023-03-28
CN115862045B true CN115862045B (zh) 2023-05-26

Family

ID=85658107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310120016.5A Active CN115862045B (zh) 2023-02-16 2023-02-16 基于图文识别技术的病例自动识别方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115862045B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116386063B (zh) * 2023-06-06 2023-08-11 武汉大学人民医院(湖北省人民医院) 纸质病历的内容识别方法及装置
CN116912845B (zh) * 2023-06-16 2024-03-19 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169542A (zh) * 2010-02-25 2011-08-31 汉王科技股份有限公司 文字识别中粘连字符的切分方法和装置
CN113936181A (zh) * 2021-08-01 2022-01-14 北京工业大学 一种粘连手写英文字符的识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446896B (zh) * 2015-08-04 2020-02-18 阿里巴巴集团控股有限公司 一种字符分割方法、装置及电子设备
CN105528607B (zh) * 2015-10-30 2019-02-15 小米科技有限责任公司 区域提取方法、模型训练方法及装置
CN109684928B (zh) * 2018-11-22 2023-04-11 西交利物浦大学 基于互联网检索的中文文档识别方法
CN110689658A (zh) * 2019-10-08 2020-01-14 北京邮电大学 一种基于深度学习的出租车票据识别方法和系统
CN112651323B (zh) * 2020-12-22 2022-12-13 山东山大鸥玛软件股份有限公司 一种基于文本行检测的中文手写体识别方法及系统
CN112862024B (zh) * 2021-04-28 2021-09-21 明品云(北京)数据科技有限公司 一种文本识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169542A (zh) * 2010-02-25 2011-08-31 汉王科技股份有限公司 文字识别中粘连字符的切分方法和装置
CN113936181A (zh) * 2021-08-01 2022-01-14 北京工业大学 一种粘连手写英文字符的识别方法

Also Published As

Publication number Publication date
CN115862045A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
US20210390706A1 (en) Detection model training method and apparatus, computer device and storage medium
CN115862045B (zh) 基于图文识别技术的病例自动识别方法、系统、设备及存储介质
CN115880704B (zh) 一种病例的自动编目方法、系统、设备及存储介质
CN110321967B (zh) 基于卷积神经网络的图像分类改进方法
CN111191583A (zh) 基于卷积神经网络的空间目标识别系统及方法
CN109033978B (zh) 一种基于纠错策略的cnn-svm混合模型手势识别方法
CN111062277B (zh) 基于单目视觉的手语-唇语转化方法
CN107704859A (zh) 一种基于深度学习训练框架的文字识别方法
CN112818951A (zh) 一种票证识别的方法
JP2021193610A (ja) 情報処理方法、情報処理装置、電子機器及び記憶媒体
CN108230330B (zh) 一种快速的高速公路路面分割和摄像机定位的方法
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
CN113269089A (zh) 基于深度学习的实时手势识别方法及系统
CN111985525A (zh) 基于多模态信息融合处理的文本识别方法
Zhu et al. Text detection based on convolutional neural networks with spatial pyramid pooling
CN111242114B (zh) 文字识别方法及装置
Zhou et al. Morphological Feature Aware Multi-CNN Model for Multilingual Text Recognition.
CN115810106A (zh) 一种复杂环境下茶叶嫩梢品级精准识别方法
CN115881265B (zh) 电子病历智能病案质控方法、系统、设备及存储介质
CN111898473B (zh) 一种基于深度学习的司机状态实时监测方法
CN114387592A (zh) 一种复杂背景下字符定位和识别方法
CN112183336A (zh) 表情识别模型训练方法、装置、终端设备及存储介质
CN116740688B (zh) 一种药品识别方法和系统
CN111325270B (zh) 一种基于模板匹配和bp神经网络的东巴文识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant