CN112818949A

CN112818949A - 一种产证文字的识别方法及系统

Info

Publication number: CN112818949A
Application number: CN202110256783.XA
Authority: CN
Inventors: 冯瑜; 姚松妹
Original assignee: Zhejiang Tianpai Technology Co ltd
Current assignee: Zhejiang Tianpai Technology Co ltd
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-05-18

Abstract

本发明涉及一种产证文字的识别方法即系统。所述方法包括获取产证图像；采用可微分二值化处理算法对所述产证图像进行文字检测得到文字区域；采用卷积递归神经网络对所述文字区域进行文本识别得到所述产证图像的文本识别结果。本发明能快速精确的在离线状态下识别出产证图片上的文字。

Description

一种产证文字的识别方法及系统

技术领域

本发明涉及文字识别领域，特别是涉及一种产证文字的识别方法及系统。

背景技术

复杂背景下的光学字符识别(Optical Character Recognition，OCR)技术涉及的图像处理与模式识别技术比通用的OCR技术更为复杂。由于图像中的文字通常叠加在复杂的图像背景之上，背景成分的干扰使得现有的OCR技术难以识别出文字。

根据OCR技术的应用场景而言，我们可以大致分成识别特定场景下的专用OCR技术以及识别多种场景下的通用OCR技术。就前者而言，证件识别以及车牌识别就是专用OCR技术的典型案例。针对特定场景进行设计、优化以达到最好的特定场景下的效果展示。那通用的OCR技术就是使用在更多、更复杂的场景下，拥有比较好的泛性。在这个过程中由于场景的不确定性，比如：图片背景极其丰富、亮度不均衡、光照不均衡、残缺遮挡、文字扭曲和字体多样等等问题，会带来极大的挑战。

典型的OCR技术路线为输入、图像预处理、文字检测、文本识别和输出，其中OCR技术的关键路径在于文字检测和文本识别部分，这也是目前技术可以充分发挥功效的地方。当然现在的OCR技术已经比较成熟了，但像百度和图鉴等提供的识别大多都是线上识别，离线识别技术是比较匮乏的。比如Tessract-OCR这一门传统的OCR离线识别技术，对于背景单一、数据场景简单(word文档截图)的情况，它还能达到比较好的效果，但在复杂背景(现场拍摄图片)的情况下识别率上却大打折扣，和理想识别率有较大差距，即使对图像做了一些二值化处理，缺乏自然语言处理能力，受光线、清晰度影响较大，在干扰因素较多的情况下它的文本检测和文字切割等算法(连通域分析和垂直投影)会出现较大误差，导致识别率不高。

传统OCR技术按处理方式划分为三个阶段：预处理阶段、识别阶段和后处理阶段。首先文本定位，接着进行倾斜文本矫正，分割出单字后，使用人工特征HOG或者CNN特征，结合分类模型对单字进行识别，最后基于统计语言模型(如隐马尔科夫链，HMM)或者规则进行语义纠错，其中关键在于预处理阶段，预处理阶段的质量直接决定了最终的识别效果。

传统OCR技术发展至今，已经解决了大部分简单场景，并且取得很好效果，但是在一些复杂场景，传统OCR技术面临了巨大的挑战，精度很难满足实际应用需求。

发明内容

本发明的目的是提供一种产证文字的识别方法及系统，能快速精确的在离线状态下识别出产证图片上的文字。

为实现上述目的，本发明提供了如下方案：

一种产证文字的识别方法，包括：

获取产证图像；

采用可微分二值化处理算法对所述产证图像进行文字检测得到文字区域；

采用卷积递归神经网络对所述文字区域进行文本识别得到所述产证图像的文本识别结果。

可选的，所述采用可微分二值化处理算法对所述产证图像进行文字检测得到文字区域，具体包括：

采用不同的设定比例分别对所述产证图像进行特征提取，得到多个特征图，不同的设定比例对应不同的特征图；

将多个所述特征图进行融合得到目标特征图；

确定所述目标特征图的概率图和阈值图；

根据所述阈值图和所述概率图得到二值图；

对所述二值图进行轮廓提取得到文字区域。

可选的，所述根据所述阈值图和所述概率图得到二值图，具体为：

根据公式

得到二值图，其中

为二值图，T_i,j为阈值图，P_i,j为概率图，k是放大倍数，(i，j)是图中每个坐标点的坐标，exp()为以e为底的指数函数。

可选的，所述确定所述目标特征图的概率图和阈值图，具体包括：

采用Vatti clipping算法根据预设缩略比例对所述目标特征图进行缩略得到概率图；

采用Vatti clipping算法根据预设扩张比例对所述目标特征图进行扩张得到阈值图。

可选的，所述卷积递归神经网络包括：依次连接的卷积神经网络层、循环神经网络层和转录层。

一种产证文字的识别系统，包括：

获取模块，用于获取产证图像；

文字检测模块，用于采用可微分二值化处理算法对所述产证图像进行文字检测得到文字区域；

文本识别模块，用于采用卷积递归神经网络对所述文字区域进行文本识别得到所述产证图像的文本识别结果。

可选的，所述文字检测模块，具体包括：

特征提取单元，用于采用不同的设定比例分别对所述产证图像进行特征提取，得到多个特征图，不同的设定比例对应不同的特征图；

特征融合单元，用于将多个所述特征图进行融合得到目标特征图；

概率阈值确定单元，用于确定所述目标特征图的概率图和阈值图；

二值图确定单元，用于根据所述阈值图和所述概率图得到二值图；

文字检测单元，用于对所述二值图进行轮廓提取得到文字区域。

可选的，所述二值图确定单元，具体为：

根据公式

得到二值图，其中

可选的，所述概率阈值确定单元，具体包括：

概率图确定子单元，用于采用Vatti clipping算法根据预设缩略比例对所述目标特征图进行缩略得到概率图；

阈值图确定子单元，用于采用Vatti clipping算法根据预设扩张比例对所述目标特征图进行扩张得到阈值图。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明通过将可微分二值化处理算法和卷积递归神经网络相结合对产证图像进行处理可以快速精确地在离线状态下识别出产证图片上的文字。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种产证文字的识别方法的流程图；

图2为本发明实施例提供的DB算法的流程图；

图3为本发明实施例提供的生成DB标签的流程图；

图4为本发明实施例提供的卷积递归神经网络的结构图

图5为本发明实施例提供的卷积层到循环层的示意图；

图6为本发明实施例提供的LSTM神经元的结构示意图；

图7为本发明实施例提供的双向RNN的结构示意图；

图8为本发明实施例提供的转录层的识别效果图；

图9为本发明实施例提供的第一张产证识别效果图；

图10为本发明实施例提供的第二张产证识别效果图；

图11为本发明实施例提供的产证文字的识别系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

在各种文本检测算法中，基于分割的检测算法可以更好地处理弯曲等不规则形状文本，因此往往能取得更好的检测效果。但分割法后处理步骤中将分割结果转化为检测框的流程复杂，耗时严重。因此本实施例使用了一个可微的二值化模块(DifferentiableBinarization，DB)，将二值化阈值加入训练中学习，可以获得更准确的检测边界，从而简化后处理流程。DB算法最终在5个数据集上达到了最新的效果和性能。为实现上述效果，本实施例提供了一种产证文字的识别方法，如图1所示，所述方法，包括：

101：获取产证图像。

102：采用可微分二值化处理算法对所述产证图像进行文字检测得到文字区域。

103：采用卷积递归神经网络对所述文字区域进行文本识别得到所述产证图像的文本识别结果。

在实际应用中，102具体包括：

采用不同的设定比例分别对所述产证图像进行特征提取，得到多个特征图，不同的设定比例对应不同的特征图。

将多个所述特征图进行融合得到目标特征图。

确定所述目标特征图的概率图和阈值图。

根据所述阈值图和所述概率图得到二值图。

对所述二值图进行轮廓提取得到文字区域。

在实际应用中，所述根据所述阈值图和所述概率图得到二值图，具体为：

根据

公式(1)得到二值图，其中

为二值图，T_i,_j为阈值图，P_i,j为概率图，k是放大倍数，(i，j)是图中每个坐标点的坐标，exp()为以e为底的指数函数。在试验中k取值为50。这个函数的曲线与标准二值方法曲线具有较高的近似度，而且还是可微的。该可微二值化方法不仅可以区分文本区域和背景，而且可以分离紧密相连的文本实例。

在实际应用中，所述确定所述目标特征图的概率图和阈值图，具体包括：

采用Vatti clipping(图形学多边形裁剪)算法根据预设缩略比例对所述目标特征图进行缩略得到概率图。

在实际应用中，所述卷积递归神经网络包括：依次连接的卷积神经网络层、循环神经网络层和转录层。

针对上述方法提供了一个更加具体的产证文字的识别方法：

步骤1：对产证图像进行特征提取，利用融合算法进行特征信息累加，然后利用特征图预测概率图和阈值图处理，然后用二值化处理得到文本框位置处的图片。

DB算法流程图解析如图2所示：

首先，“1/2”、“1/4”……“1/32”表示与输入图像相比的比例，输入的图像经过不同比例阶段的采样之后获得不同大小的特征图。

之后由这些特征图构建特征金字塔，特征金字塔将不同尺度的特征图进行融合让最终进行回归的特征图获得不同尺度的特征信息以处理不同尺寸大小的文字实例，融合使用的方法为元素对应乘积求和的方法，就是逐个特征信息相加；然后通过特征图预测概率图和阈值图。最后，通过概率图和阈值图使用公式(1)生成近似的二值图，经过cv2提取轮廓得到文字框位置处的图片，cv2为opencv一个计算机视觉库。

参见图3由图像得到多边形缩小和扩张，然后分别得到概率图和阈值图，图像中文本多边形的注释用中间实线框选。缩小后的多边形和放大后的多边形分别用内部虚线和外部虚线框选。

概率图生成：参考PSENet，使用Vatti clipping算法，使用Polygon库计算多边形区域的周长和面积，通过pyclipper这个库，将中间实线缩减到内部虚线。

阈值图生成：使用生成概率图一样的方法，向外进行扩张，得到内部虚线和外部虚线中间的区域，根据到中间实线的距离制作标签，(设置thresh_max＝0.7)，其他区域使用thresh_min＝0.3进行填充。传入比例后会计算多边形的周长面积差，扩张情况下传入正的周长面积差，缩小会传入负的周长面积差。

步骤2：将步骤1文本框位置的图片作为神经网络的输入，进行翻译识别，得到识别结果。

在得到上面检索的文本位置的图片后，使用CRNN(Convolutional RecurrentNeural Network)即卷积递归神经网络，结构如图4所示，用于识别图像中的序列式对象，与CTC loss(转录层)配合使用，进行文字识别，可以直接从文本词级或行级的标注中学习，不需要详细的字符级的标注，将图片输入到卷积层，在卷积层进行卷积特征图提取，然后输入循环层，进行特征序列的提取和经过LSTM神经元和双向RNN处理，然后输入转录层进行序列的识别和输出，卷积层到循环层的过程如图5所示。

文字识别是对序列的预测方法，CRNN采用了对序列预测的RNN网络。通过CNN将图片的特征提取出来后采用RNN对序列进行预测，最后通过一个CTC的转录层得到最终结果。

CNN该组件用于从输入图像中提取连续的特征表示。在输入网络之前，所有的图像都需要缩放到相同的高度。然后从卷积层组件生成的特征图中提取出一系列的特征向量，卷积层组件是循环层的输入。

具体来说，特征序列的每个特征向量在特征图上按列从左到右生成。这意味着第i个特征向量是所有映射的第i列的串联。在本实施例的设置中，每一列的宽度固定为单个像素。由于卷积层、最大池层和元素激活函数层作用于局部区域，所以它们是平移不变的。因此，特征图的每一列对应于原始图像的一个矩形区域(称为接受域)，并且这些矩形区域从左到右与特征图上对应的列顺序相同。

CNN是对于卷积层的操作，而RNN则是在卷积层的顶部建立一个深度双向递归神经网络，称为递归层。递归层对CNN中得到的特征序列中每帧的标签分布进行预测。这里采用了LSTM神经单元作为RNN的单元。本实施例认为对于序列的预测，序列的前向信息和后向信息都有助于序列的预测，所以这里采用了双向RNN网络。LSTM神经元的结构如图6所示，双向RNN结构如图7所示。

CTC(转录层)在RNN预测后会给出一个输出序列，与之前CNN传给它的输入序列形成一种关系，但输入和输出序列中的值的长度和比例都是可能发生变化的，对应的关系也不一定是严格的1：1，而转录层就可以解决这个问题。

CTC中有一种特殊的对齐方式，对于一个给定的输入，它可以计算对应所有可能的输出的概率分布。通过该概率分布，可以预测最大概率对应的输出或者某个特定输出的概率。CTC算法引入了一个特殊的字符——占位符，它表示一个占位，不对应任何字符，在最终的输出时要将其删除。具体效果如图8所示。

如图9和10所示，就是产证识别的效果图，产证上的信息大致都能识别出来，识别率也有着较高的保证。

如图11所示，本实施例还提供了一种与上述方法对应的产证文字的识别系统，包括：

获取模块A1，用于获取产证图像。

文字检测模块A2，用于采用可微分二值化处理算法对所述产证图像进行文字检测得到文字区域。

文本识别模块A3，用于采用卷积递归神经网络对所述文字区域进行文本识别得到所述产证图像的文本识别结果。

作为一种可选的实施方式，所述文字检测模块，具体包括：

特征提取单元，用于采用不同的设定比例分别对所述产证图像进行特征提取，得到多个特征图，不同的设定比例对应不同的特征图。

特征融合单元，用于将多个所述特征图进行融合得到目标特征图。

概率阈值确定单元，用于确定所述目标特征图的概率图和阈值图。

二值图确定单元，用于根据所述阈值图和所述概率图得到二值图。

作为一种可选的实施方式，所述二值图确定单元，具体为：

根据公式

得到二值图，其中

作为一种可选的实施方式，所述概率阈值确定单元，具体包括：

概率图确定子单元，用于采用Vatti clipping算法根据预设缩略比例对所述目标特征图进行缩略得到概率图。

作为一种可选的实施方式，所述卷积递归神经网络包括：依次连接的卷积神经网络层、循环神经网络层和转录层。

所述系统可以部署在业务机上用于识别，使用时只需将图片以http请求格式发送到服务端，后台会进行一系列处理，最终返回结果集，配合高拍仪拍摄图片。除此之外，也可在windows或者linux上实时部署，支持docker容器虚拟化部署，已集成了现成的docker镜像，通过下载docker镜像即可快速实施部署。目前的识别模型也是较为轻量级的，同时提供了多种文本检测算法和文本识别算法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明能快速精确的在离线状态下本地OCR快速识别出业务机上高拍仪拍摄的房产证图片，快速锁定其中要检索的信息，无需其他操作方便快捷，能便捷方便的识别文字释放劳动力和时间成本，能更准确的识别出目标文字，在识别率上有着良好的保证。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种产证文字的识别方法，其特征在于，包括：

获取产证图像；

2.根据权利要求1所述的一种产证文字的识别方法，其特征在于，所述采用可微分二值化处理算法对所述产证图像进行文字检测得到文字区域，具体包括：

将多个所述特征图进行融合得到目标特征图；

确定所述目标特征图的概率图和阈值图；

根据所述阈值图和所述概率图得到二值图；

对所述二值图进行轮廓提取得到文字区域。

3.根据权利要求2所述的一种产证文字的识别方法，其特征在于，所述根据所述阈值图和所述概率图得到二值图，具体为：

根据公式

得到二值图，其中

4.根据权利要求2所述的一种产证文字的识别方法，其特征在于，所述确定所述目标特征图的概率图和阈值图，具体包括：

5.根据权利要求1所述的一种产证文字的识别方法，其特征在于，所述卷积递归神经网络包括：依次连接的卷积神经网络层、循环神经网络层和转录层。

6.一种产证文字的识别系统，其特征在于，包括：

获取模块，用于获取产证图像；

7.根据权利要求6所述的一种产证文字的识别系统，其特征在于，所述文字检测模块，具体包括：

8.根据权利要求7所述的一种产证文字的识别系统，其特征在于，所述二值图确定单元，具体为：

根据公式

得到二值图，其中

9.根据权利要求7所述的一种产证文字的识别系统，其特征在于，所述概率阈值确定单元，具体包括：

10.根据权利要求6所述的一种产证文字的识别系统，其特征在于，所述卷积递归神经网络包括：依次连接的卷积神经网络层、循环神经网络层和转录层。