CN108921166A

CN108921166A - 基于深度神经网络的医疗票据类文本检测识别方法及系统

Info

Publication number: CN108921166A
Application number: CN201810653246.7A
Authority: CN
Inventors: 夏路遥
Original assignee: Shenzhen Yuan Heng Technology Co Ltd
Current assignee: Shenzhen Yuan Heng Technology Co Ltd
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2018-11-30

Abstract

本发明公开了一种基于深度神经网络的医疗票据类文本检测识别方法及系统，该方法包括：使用目标检测算法，检测出票据图片中票据的所在位置，对票据图片进行裁剪；对裁剪后的票据图片进行边缘检测，并根据票据图片中的水平和竖直的直线的角度，将票据图片旋转至水平方向；对完成裁剪和旋转后的票据图片进行文字检测和识别；根据识别出来的文字与方位，进行筛选和提取，获得所需数据。本发明结合了目标检测、文字识别等方法，可以提高数据录入的效率与准确度。并且本发明基于深度神经网络，在文本检测和文本识别中能获取极高的准确率；通过使用传统的图像处理算法对图片做方便提取特征的处理，使得在医疗票据的复杂场景下也能达到超高准确率。

Description

基于深度神经网络的医疗票据类文本检测识别方法及系统

技术领域

本发明涉及文字识别技术领域，尤其涉及一种基于深度神经网络的医疗票据类文本检测识别方法及系统。

背景技术

保险公司处理医疗类保险案件时，用户会提供大量的报销票据或复印件的图片，而保险公司需要根据这些图片内容，录入保险案件所需要的医疗数据。目前，对于医疗票据类文本的录入都是依靠人工的方式来识别票据图片中的内容，进而实现保险案件所需要的医疗数据的录入，因此这部分工作需要大量的人力，人工成本极高，且录入过程耗时过长，效率较低。

此外，保险公司常见的医疗票据主要分为4个大类：门诊票据、住院票据、结算单、明细单。每个大类下有各个省份各个医院不同样式的小类，小类数量超过上百种，而且不同小类别的票据可能样式差别极大，再加上票据本身的背景较为复杂，导致通过传统识别系统自动识别票据文本非常困难。因此采用传统的文本检测和文本识别方法，会有准确率过低的问题；虽然对于简单环境下的文本，传统方式识别准确率较高，但是由于票据本身的一些特点，比如拍摄角度非水平、票据过小等，传统识别方式的准确率就会受到很大影响。

发明内容

针对上述现有技术中存在的不足之处，本发明提供一种基于深度神经网络的医疗票据类文本检测识别方法及系统，通过结合目标检测、文字识别等方法，对医疗票据类文本图片进行了数据提取，用以提高医疗票据类的数据录入的效率与准确度。

该基于深度神经网络的医疗票据类文本检测识别方法包括以下步骤：

步骤一、使用目标检测算法，检测出票据图片中票据的所在位置；

步骤二、根据检测出的票据的所在位置对票据图片进行裁剪；

步骤三、对裁剪后的票据图片进行边缘检测，并根据票据图片中的水平和竖直的直线的角度，将票据图片旋转至水平方向；

步骤四、对完成裁剪和旋转后的票据图片进行文字检测和识别；

步骤五、根据识别出来的文字与方位，进行筛选和提取，获得所需数据。

可选地，所述步骤一中的目标检测算法为Faster RCNN、SSD、YOLO以及YOLO-v2中的任意一种。

优选地，所述步骤一中的目标检测算法为Faster RCNN；进一步地，所述步骤一中检测票据的所在位置的过程具体为：

深度卷积网络提取票据图片抽象特征；使用区域候选网络推荐票据候选区域；从候选区域回归票据的精准区域，检测出票据图片中票据的所在位置。

优选地，所述步骤三中采用Sobel边缘检测算子对裁剪后的票据图片进行边缘检测。

可选地，所述步骤四中对完成裁剪和旋转后的票据图片进行文字检测的算法为Faster RCNN、SSD、YOLO、EAST、RRCNN、TextBoxes以及CTPN中的任意一种。

优选地，所述步骤四中对完成裁剪和旋转后的票据图片进行文字检测的算法为Faster RCNN。

进一步地，所述步骤四中对完成裁剪和旋转后的票据图片的文字识别结合了深度卷积神经网络和循环神经网络，其过程具体为：

使用卷积网络提取票据图片特征；将提取到的票据图片特征输入LSTM构成的双向循环神经网络；使用CTC算法合并叠字和占位符，输出概率最大的文字序列。

进一步地，所述基于深度神经网络的医疗票据类文本检测识别方法还包括：针对票据中预设类型的数字，训练一个只有数字集合的数字识别模型；

当所述步骤四中识别出的文本为纯数字时，使用所述数字识别模型重新进行一次识别，以提高数字的准确率。

进一步地，所述步骤五具体为：

根据不同票据的格式，首先搜索具有预设特征的文字，然后在搜索到的文字附近寻找对应的项目与金额。

该基于深度神经网络的医疗票据类文本检测识别系统包括：

目标检测模块，用于使用目标检测算法，检测出票据图片中票据的所在位置；

裁剪模块，用于根据检测出的票据的所在位置对票据图片进行裁剪；

旋转模块，用于对裁剪后的票据图片进行边缘检测，并根据票据图片中的水平和竖直的直线的角度，将票据图片旋转至水平方向；

文字检测和识别模块，用于对完成裁剪和旋转后的票据图片进行文字检测和识别；

文字筛选和提取模块，用于根据识别出来的文字与方位，进行筛选和提取，获得所需数据。

本发明结合了目标检测、文字识别等方法，可以对医疗票据类文本图片进行数据提取，用以提高医疗票据类的数据录入的效率与准确度。通过检测票据图片中票据的所在位置，对票据图片进行裁剪；将裁剪后的票据图片旋转至水平方向；对完成裁剪和旋转后的票据图片进行文字检测和识别；根据识别出来的文字与方位，进行筛选和提取，获得所需数据。实现对医疗票据类文本的检测和识别；并且本发明基于深度神经网络，在文本检测和文本识别中能获取极高的准确率；通过使用传统的图像处理算法对图片做方便提取特征的处理，使得在医疗票据的复杂场景下也能达到超高准确率。

附图说明

图1为本发明第一实施例提供的基于深度神经网络的医疗票据类文本检测识别方法的流程示意图；

图2为本发明第一实施例提供的基于深度神经网络的医疗票据类文本检测识别方法的另一流程示意图；

图3为本发明第二实施例提供的基于深度神经网络的医疗票据类文本检测识别系统结构框图；

图4为通过Faster RCNN进行目标检测的原理示意图；

图5为本发明对文字进行识别的原理图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一实施例

请参阅图1，图1示出了本实施例中的基于深度神经网络的医疗票据类文本检测识别方法的流程图，该基于深度神经网络的医疗票据类文本检测识别方法包括以下步骤：

S101，使用目标检测算法，检测出票据图片中票据的所在位置；

S102，根据检测出的票据的所在位置对票据图片进行裁剪；

S103，对裁剪后的票据图片进行边缘检测，并根据票据图片中的水平和竖直的直线的角度，将票据图片旋转至水平方向；

S104，对完成裁剪和旋转后的票据图片进行文字检测和识别；

S105，根据识别出来的文字与方位，进行筛选和提取，获得所需数据。

进一步地，在本实施例中，上述S101中的目标检测算法可以为现有目标检测算法中的任意一种，比如Faster RCNN、SSD、YOLO、YOLO-v2等。本实施例以Faster RCNN为例来说明其检测原理；该模型对于较大的物体有比较高的准确率，该模型对图片提取特征后，会选取图中最有可能的特征点，根据特征点位置枚举大量的矩形来试图框选出对应的物体，然后根据矩形与原图实际物体所在位置进行比对，选取最好的框。

进一步地，请参阅图4，本实施例中进行目标检测的原理为：深度卷积网络(convlayers)提取票据图片抽象特征(feature maps)；使用区域候选网络推荐票据候选区域；从候选区域回归票据的精准区域，检测出票据图片中票据的所在位置。

上述S103中采用Sobel边缘检测算子对裁剪后的票据图片进行边缘检测。因为票据类的图片往往票据本身带有较为明显的水平和竖直的直线，因此通过边缘检测算法检测出票据中的水平和竖直的直线后，就可以根据票据中的水平和竖直的直线的角度，对票据进行旋转，将票据旋转至接近水平的方向，以便后续对票据中的文字进行检测和识别。

使用Sobel边缘检测算子可以减少票据中噪音的干扰；Sobel边缘检测算子主要用作边缘检测，在技术上，它是一离散性差分算子，用来运算图像亮度函数的灰度的近似值。在图像的任何一点使用此算子，将会产生对应的灰度矢量或是其法矢量。Sobel卷积因子为：

该算子包含两组3x3的矩阵，分别为横向及纵向，将其与图像作平面卷积，即可分别得出横向及纵向的亮度差分近似值。如果以A代表原始图像，Gx及Gy分别代表经横向及纵向边缘检测的图像灰度值，其公式如下：

具体计算如下：

Gx＝(-1)*f(x-1,y-1)+0*f(x,y-1)+1*f(x+1,y-1)

+(-2)*f(x-1,y)+0*f(x,y)+2*f(x+1,y)

+(-1)*f(x-1,y+1)+0*f(x,y+1)+1*f(x+1,y+1)

＝[f(x+1,y-1)+2*f(x+1,y)+f(x+1,y+1)]-[f(x-1,y-1)+2*f(x-1,y)+f(x-1,y+1)]

Gy＝1*f(x-1,y-1)+2*f(x,y-1)+1*f(x+1,y-1)

+0*f(x-1,y)0*f(x,y)+0*f(x+1,y)

+(-1)*f(x-1,y+1)+(-2)*f(x,y+1)+(-1)*f(x+1,y+1)

＝[f(x-1,y-1)+2f(x,y-1)+f(x+1,y-1)]-[f(x-1,y+1)+2*f(x,y+1)+f(x+1,y+1)]

其中，f(a,b)表示图像(a,b)点的灰度值；图像的每一个像素的横向及纵向灰度值通过以下公式结合，来计算该点灰度的大小：

通常，为了提高效率使用不开平方的近似值：|G|＝|Gx|+|Gy|，如果梯度G大于某一阀值则认为该点(x，y)为边缘点。然后可用以下公式计算梯度方向：Sobel算子根据像素点上下、左右邻点灰度加权差，在边缘处达到极值这一现象检测边缘。对噪声具有平滑作用，提供较为精确的边缘方向信息。

此外，Hough变换是图像处理中从图像中识别几何形状的基本方法之一。Hough变换的基本原理在于利用点与线的对偶性，将原始图像空间的给定的曲线通过曲线表达形式变为参数空间的一个点。这样就把原始图像中给定曲线的检测问题转化为寻找参数空间中的峰值问题。也即把检测整体特性转化为检测局部特性。比如直线、椭圆、圆、弧线等。

上述S104中对完成裁剪和旋转后的票据图片进行文字检测可以使用通用的目标检测算法，比如：Faster RCNN、SSD、YOLO等，也可以使用专门为文字检测优化过后的算法：比如：EAST、RRCNN、TextBoxes、CTPN等。本实施例中采用Faster RCNN对完成裁剪和旋转后的票据图片进行文字检测。

上述S104中对完成裁剪和旋转后的票据图片的文字识别结合了深度卷积神经网络和循环神经网络，共同实现图片到文字的转换，其原理如图5所示，其算法原理为：使用卷积网络提取票据图片特征；将提取到的票据图片特征输入LSTM构成的双向循环神经网络；使用CTC算法合并叠字和占位符，输出概率最大的文字序列。

此外，本实施例中的基于深度神经网络的医疗票据类文本检测识别方法还包括：针对票据中特征比较明显且比较重要的数字，训练一个只有数字集合的数字识别模型；当上述S104中识别出的文本为纯数字时，使用训练出的数字识别模型重新进行一次识别，以提高数字的准确率，如图2所示。

上述S105具体为：根据不同票据的格式，首先搜索具有比较强特征的文字，然后在搜索到的文字附近寻找对应的项目与金额。

第二实施例

请参阅图3，图3示出了本实施中的基于深度神经网络的医疗票据类文本检测识别系统300的结构框图，该基于深度神经网络的医疗票据类文本检测识别系统300包括以下结构：

目标检测模块301，用于使用目标检测算法，检测出票据图片中票据的所在位置；

裁剪模块302，用于根据检测出的票据的所在位置对票据图片进行裁剪；

旋转模块303，用于对裁剪后的票据图片进行边缘检测，并根据票据图片中的水平和竖直的直线的角度，将票据图片旋转至水平方向；

文字检测和识别模块304，用于对完成裁剪和旋转后的票据图片进行文字检测和识别；

文字筛选和提取模块305，用于根据识别出来的文字与方位，进行筛选和提取，获得所需数据。

该基于深度神经网络的医疗票据类文本检测识别系统300可以实现上述的基于深度神经网络的医疗票据类文本检测识别方法中需要系统实现的功能，故，在此不再赘述。

需要说明的是，本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明实施例可采用完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度神经网络的医疗票据类文本检测识别方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的基于深度神经网络的医疗票据类文本检测识别方法，其特征在于，所述步骤一中的目标检测算法为Faster RCNN、SSD、YOLO以及YOLO-v2中的任意一种。

3.如权利要求2所述的基于深度神经网络的医疗票据类文本检测识别方法，其特征在于，所述步骤一中的目标检测算法为Faster RCNN；所述步骤一中检测票据的所在位置的过程具体为：

4.如权利要求1所述的基于深度神经网络的医疗票据类文本检测识别方法，其特征在于，所述步骤三中采用Sobel边缘检测算子对裁剪后的票据图片进行边缘检测。

5.如权利要求1所述的基于深度神经网络的医疗票据类文本检测识别方法，其特征在于，所述步骤四中对完成裁剪和旋转后的票据图片进行文字检测的算法为Faster RCNN、SSD、YOLO、EAST、RRCNN、TextBoxes以及CTPN中的任意一种。

6.如权利要求5所述的基于深度神经网络的医疗票据类文本检测识别方法，其特征在于，所述步骤四中对完成裁剪和旋转后的票据图片进行文字检测的算法为Faster RCNN。

7.如权利要求6所述的基于深度神经网络的医疗票据类文本检测识别方法，其特征在于，所述步骤四中对完成裁剪和旋转后的票据图片的文字识别结合了深度卷积神经网络和循环神经网络，其过程具体为：

8.如权利要求1所述的基于深度神经网络的医疗票据类文本检测识别方法，其特征在于，所述基于深度神经网络的医疗票据类文本检测识别方法还包括：针对票据中预设类型的数字，训练一个只有数字集合的数字识别模型；

9.如权利要求1所述的基于深度神经网络的医疗票据类文本检测识别方法，其特征在于，所述步骤五具体为：

10.一种基于深度神经网络的医疗票据类文本检测识别系统，其特征在于，所述基于深度神经网络的医疗票据类文本检测识别系统包括：