CN110175603A

CN110175603A - 一种雕刻文字识别方法、系统及存储介质

Info

Publication number: CN110175603A
Application number: CN201910255132.1A
Authority: CN
Inventors: 林健发; 李飞洋; 邓学良; 肖盼
Original assignee: Foshan Connie Vision Technology Co Ltd
Current assignee: Foshan Connie Vision Technology Co Ltd
Priority date: 2019-04-01
Filing date: 2019-04-01
Publication date: 2019-08-27
Anticipated expiration: 2039-04-01
Also published as: CN110175603B

Abstract

本发明公开了一种雕刻文字识别方法、系统及存储介质，方法包括以下步骤：通过双目摄像机自动采集被测物体的图像；通过卷积操作和反卷积操作对采集到的图像进行处理，生成深度图；通过区域推荐网络提取深度图中的文字区域；基于双向长短期记忆网络，对文字区域进行文字识别，得到雕刻文字的识别结果。本发明将双目立体视觉技术与深度学习技术结合起来，通过构建深度图，使得文字区域的显著性更好，本发明无需人工进行检测识别，大大降低了人工成本，提高了雕刻文字识别的可靠性以及工作效率，可广泛应用于文字识别技术领域。

Description

一种雕刻文字识别方法、系统及存储介质

技术领域

本发明涉及文字识别技术领域，尤其是一种雕刻文字识别方法、系统及存储介质。

背景技术

雕刻文字通常出现在机械制造领域中的金属工件上和食品化工领域中的用于流体过滤的石膏管上。这些雕刻文字一般标识了不同工件具有的规格、属性等。由于这些工件表面字符是通过雕刻形成的凹体字符，这些字符与背景之间的色差不明显，因此雕刻文字的图像一般只能通过文字区域和背景区域的表面反射条件的差异形成，故其对光学采集系统的要求比较苛刻。此外，受限于光照条件和工件的反射特性，采集的图像往往存在文字区域不完整，背景区域和文字区域的灰度差异性很小的缺点，这些都为雕刻文字的检测和识别带来了困难。

目前，文字识别技术已经取得了很大的进展，文字识别的准确率不断提高，出现了一些诸如CTPN、CRNN等在自然场景下识别准确率比较高的方法。但是，在某些特定场景下，该方法的文字识别率还远远没有达到所需要求，尤其是在机械制造领域内的一些金属零件表面特殊雕刻字和食品化工领域内的陶瓷、石膏过滤分离组件上的雕刻字检测识别方面，准确率还远远达不到检测要求。这些零件或工件表面形状不一，多为不规则曲面，表面雕刻文字大小、形状、深浅又各不相同，这些因素都制约着传统方法的有效性，最直接的表现为无法使用原始图像样本直接检测。目前，这些领域内的雕刻文字的检测识别仍然依赖于人工实现。然而，工作环境的恶劣、人力成本的高昂、工作人员本身的视觉疲劳以及主观性差异，都是造成识别低可靠性的原因。为了满足生产流水线自动化的需求，需要设计一种高效可靠的雕刻文字检测与识别方法及装置，代替人力操作。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种高效可靠的雕刻文字识别方法、系统及存储介质。

本发明一方面所采取的技术方案为：

一种雕刻文字识别方法，包括以下步骤：

通过双目摄像机自动采集被测物体的图像；

通过卷积操作和反卷积操作对采集到的图像进行处理，生成深度图；

通过区域推荐网络提取深度图中的文字区域；

基于双向长短期记忆网络，对文字区域进行文字识别，得到雕刻文字的识别结果。

进一步，所述通过双目摄像机自动采集被测物体的图像这一步骤，包括以下步骤：

控制光源与被测物体之间的倾斜角满足预设要求；

对光源进行旋转控制；

对光源进行亮度调节；

对被测物体进行旋转控制。

进一步，所述通过卷积操作和反卷积操作对采集到的图像进行处理，生成深度图这一步骤，包括以下步骤：

通过卷积操作对采集到的图像进行第一处理，得到特征图；

通过反卷积操作对特征图进行第二处理，得到深度图。

进一步，所述通过卷积操作对采集到的图像进行第一处理，得到特征图这一步骤，包括以下步骤：

通过第一卷积核对采集到的图像进行升维操作，得到第一通道和第二通道；

通过两个第二卷积核对第一通道进行特征提取，并通过一个第二卷积核对第二通道进行特征提取；

通过第一卷积核分别对第一通道和第二通道进行卷积操作；

根据激活函数，将采集到的图像与卷积操作的结果进行结合操作；

通过最大池化层对结合操作的结果进行采样，得到特征图。

进一步，所述通过反卷积操作对特征图进行第二处理，得到深度图这一步骤，包括以下步骤：

通过损失函数来度量预测深度图与真实深度图的误差程度；

计算双目视觉系统的视差；

根据计算得到的视差进行图像预测；

对预测得到的图像进行平滑处理，生成深度图。

进一步，所述通过区域推荐网络提取深度图中的文字区域这一步骤，包括以下步骤：

基于深度图，通过区域推荐网络生成候选区域；

通过回归器判断候选区域内的文字状态；

根据文字状态的判断结果，通过分类器对候选区域中的文字区域进行标记。

进一步，所述基于双向长短期记忆网络，对文字区域进行文字识别，得到雕刻文字的识别结果这一步骤，包括以下步骤：

通过卷积神经网络对文字区域进行第三处理，得到特征序列；

通过双向长短期记忆网络对特征序列进行第四处理，得到上下文信息；

根据上下文信息，对观测样本进行最大似然估计；

根据最大似然估计的结果，得到雕刻文字的识别结果。

本发明另一方面所采取的技术方案是：

一种雕刻文字识别系统，包括：

采集模块，用于通过双目摄像机自动采集被测物体的图像；

生成模块，用于通过卷积操作和反卷积操作对采集到的图像进行处理，生成深度图；

提取模块，用于通过区域推荐网络提取深度图中的文字区域；

识别模块，用于基于双向长短期记忆网络，对文字区域进行文字识别，得到雕刻文字的识别结果。

本发明另一方面所采取的技术方案是：

一种雕刻文字识别系统，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述的雕刻文字识别方法。

本发明另一方面所采取的技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行所述的雕刻文字识别方法。

本发明的有益效果是：本发明将双目立体视觉技术与深度学习技术结合起来，通过构建深度图，使得文字区域的显著性更好，本发明无需人工进行检测识别，大大降低了人工成本，提高了雕刻文字识别的可靠性以及工作效率。

附图说明

图1为本发明实施例的步骤流程图；

图2为本发明实施例的双目采集系统的结构示意图；

图3为本发明实施例的block操作的结构示意图；

图4为本发明实施例的Up-mapping操作的结构示意图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作进一步解释和说明。对于本发明实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

目前，雕刻领域的文字检测识别技术具有以下缺点：

(1)、传统的文字识别方法依赖于人工定义的特征。

虽然有大量工作研究如何定义一组好的文字特征，但是大部分实际应用的特征都不具有通用性，而且对噪声的鲁棒性不强，甚至并未能很好地区分噪声和文字。在极端情况下，很多特征几乎无效或甚至无法提取，如笔画特征，形状特征，边缘特征等；另一方面，由于特征的提取需要大量专业的先验知识，需要经验丰富的专业人员进行筛选操作，定义和提取人工特征也是一件极为耗时耗力的工作。

(2)、脱离上下文的字符识别易造成显著的歧义。

基于字符的识别方法通常以字符为处理单位，通过分割或者滑动窗口搜索的方法，将单个字符进行分离，然后利用字符分类器来预测字符分类。然而，在复杂情况下，字符的分割非常困难，而强行分割则会破坏字符结构。另外，将一些外形相似的字符分立地识别容易产生歧义，如“0”和“O”，“1”、“I”、“l”，“6”和“9”(相互反转得到)。

(3)、高层特征与低层特征分离。

传统的图像处理方法往往关注低层特征，比如颜色、边缘、纹理等像素级的特征。颜色特征一般容易理解，提取方便，但很难表达颜色的空间分布信息。纹理特征表达图像中对象的布局信息，其直观地对物体表象进行表达，难以描述对象的本质属性。近年来，深度学习在语义识别、分类领域表现出独特的优势，由于物体无论在图像中呈现何种形态，其自身语义信息始终保持不变，具有较强的对象本征表达能力。总的来说，低层特征对文字区域的空间信息敏感但是抗噪能力较差，有可能错将噪声和文字一起定位；高层特征抽象语义性强，具有很好的抗噪能力，但是对空间信息不敏感，可能将部分文字当成噪声排除在外。

(4)、雕刻文字本身的特殊性造成一些已有的方法达不到理想效果。

雕刻文字的采集难度远大于印刷文字和自然场景文字，因为雕刻文字对光照的要求非常苛刻，文字区域和背景区域差异性极小。受限于光照条件和工件表面反射特性，不可能将将光源均匀地正面照射在物体表明上来获得完整文字区域的图像，因此只能打侧光。若光照过亮，会造成强烈反射导致文字区域的反射和背景区域的反射条件几乎趋于一致，某些阴影信息缺失，从而采集到的文字产生缺陷；若光照过暗，距离光源较远处雕刻较浅的文字区域接收到的光线太少，而且当表面为曲面时，背对光源的部分文字区域根本接收不到光线，表现为部分文字区域发生遮挡。总之，采集一个肉眼可见的完整文字区域的样本是非常困难的。

针对以上缺点，本发明将立体视觉和深度学习方法融合起来，共同引入雕刻文字的识别，提出一种端对端的适用于曲面(也适用于平面)雕刻文字识别方法。

具体地，参照图1，本发明实施例提供了一种雕刻文字识别方法，包括以下步骤：

S1、通过双目摄像机自动采集被测物体的图像；

进一步作为步骤S1的优选实施方式，所述步骤S1包括以下步骤：

S11、控制光源与被测物体之间的倾斜角满足预设要求；

S12、对光源进行旋转控制；

S13、对光源进行亮度调节；

S14、对被测物体进行旋转控制。

具体地，如图2所示，其中，本实施例的光源4使用条形光源，两个摄像机(左摄像头1和右摄像头2)的焦距必须相等；两个摄像机中心的连线称为基线，并记为B。由于被测物体3上的雕刻文字凹陷的深度很浅，因此当光源正对物体(即光源方向与被测物体表明垂直)时，大部分光线都是垂直反射，这样的话摄像头几乎采集不到阴影和纹理信息，不能进行后续文字识别。因此，光源4的方向需要与被测物体3保持一定的倾斜角，这样凹陷处则会发生局部遮挡从而产生局部阴影，使得纹理信息变得明显。倾斜角度视雕刻深度而定，凹陷越浅，光源方向倾斜角度越小。本实施例在使用如图2所示的双目采集系统进行图像采集时，可以绕与基线垂直的方向旋转光源、调节光源亮度以及旋转被测物体，进而得到更多地图像样本。通过上述方法采集到大量双目样本后，可以用于训练卷积神经网络(CNN)模型。

S2、通过卷积操作和反卷积操作对采集到的图像进行处理，生成深度图；

进一步作为优选的实施方式，所述步骤S2包括以下步骤：

S21、通过卷积操作对采集到的图像进行第一处理，得到特征图；

具体地，所述步骤S21包括以下步骤：

S211、通过第一卷积核对采集到的图像进行升维操作，得到第一通道和第二通道；

S212、通过两个第二卷积核对第一通道进行特征提取，并通过一个第二卷积核对第二通道进行特征提取；

S213、通过第一卷积核分别对第一通道和第二通道进行卷积操作；

S214、根据激活函数，将采集到的图像与卷积操作的结果进行结合操作；

S215、通过最大池化层对结合操作的结果进行采样，得到特征图。

S22、通过反卷积操作对特征图进行第二处理，得到深度图。

具体地，所述步骤S22包括以下步骤：

S221、通过损失函数来度量预测深度图与真实深度图的误差程度；

S222、计算双目视觉系统的视差；

S223、根据计算得到的视差进行图像预测；

S224、对预测得到的图像进行平滑处理，生成深度图。

在本发明中，生成深度图的问题实际上就是双目立体视觉匹配问题，本发明输入的是一对双目图像，记为I_lI_r，输出的是深度图depth map。其中，本发明的特征图先逐渐缩减再逐渐扩大，具体地，逐渐缩减的过程相当于编码过程，实现了对高维向量的低维特征提取，使特征变得紧凑，其中使用到一系列block操作(本实施例中block操作的次数为m+1次，具体数值可根据实际需要调整)；在此之后特征图逐渐扩大的过程相当于解码过程，实现了低维向量到高维向量的重构，最终目的是为了重建出与原图同样大小的深度图，其中解码过程中使用到up-mapping操作，操作次数与block对称(本实施例为m+1次，具体数值可根据实际需要调整)。在深度图重建过程中，本发明的每个特征图都与解码过程中对应相同大小的特征图进行累加，这样做既能重复利用特征，又能防止梯度消失。

如图3所示，block中只有两种基本的卷积核，其大小分别为3×3和1×1，其中1×1的主要用于降维或升维(即：用于扩张特征图的通道或缩减特征图的通道)，能够更好的整合特征图通道间的信息。本实施例中池化核的大小均为2×2。

如图3所示，首先将特征图输入1×1卷积核进行升维操作，使得特征图的通道数增加，达到扩张特征的目的。

然后分成两支处理。其中，一支仅使用一个3×3卷积核进行特征提取，之后再次进行1×1卷积操作，压缩通道，消除冗余信息；另一支使用两个3×3卷积核进行特征提取，能够学习到范围更大的信息，之后也进行1×1卷积操作；

最后，将两支学习到的特征，与输入特征图一并相加，再接上ReLU(ReLu(x)＝max(x，0))激活函数，最后进行max-pooling采样，以得到最终的输出特征图。本发明的方法能学习多级残差和多尺度信息，使得整个网络既关注到局部信息，又能结合全局信息；既能增加对局部特征的敏感性，又能增强对噪声的鲁棒性；而且还能抑制梯度消失问题，具有更好的训练效果和泛化能力。

如图4所示，Up-mapping操作相当于block操作的反操作，其结构与block操作类似，只是将3×3卷积操作替换成反卷积操作。

反卷积的作用效果与卷积相反，其输出特征大小比输入特征大。反卷积体现了稀疏编码的思想。由于编码过程中已经使得特征图变小，特征压缩得比较稠密，但是生成深度图相当于做原始图片尺寸空间的像素级预测，所以往往需要通过反卷积操作，可以从一些稠密的特征图中重建与原图同样大小的图像。

网络结构确定后，需要构造损失函数来度量预测深度图与真实深度图的误差程度。损失函数值越小，模型预测准确性越高。本实施例定义总损失函数为：

L_depth(I_l，I_r，Z^(gt))＝γL_s(I_l，I_r，Z^(gt))+(1-γ)L_u(I_l，I_r)+λL_smooth(I_l，I_r)+ηL_penalty(I_l，I_r)

其中，γ是监督损失与非监督损失的权衡因子，λ是平滑项系数，η是惩罚项系数，

L_s(I_l，I_r，Z^(gt))代表监督损失；L_u(I_l，I_r)代表非监督损失；L_smooth(I_l，I_r)代表平滑项；L_penalty(I_l，I_r)代表惩罚项；I_l，I_r分别表示左目图像和右目图像；Z^(gt)是真实的深度图；以下的N都是指像素个数。监督损失函数的定义式如下：

其中，I_l，I_r分别表示左目图像和右目图像，是网络预测的深度图，Z^(gt)是真实的深度图。||·||_mix是一种混合范数，其定义式为

混合范数相当于L1范数和L2范数的结合，这样定义的意义是可以抑制梯度消失问题。当x的值比较接近于0时，L2范数的导数会变得非常小，从而导致梯度消失问题，训练到一定程度时很容易陷入局部最优且梯度趋于零，无法继续训练。所以当误差小于一定的值时，换用L1范数即绝对值范数进行求导，这样梯度不至于变得过小。两范数的间断点δ的计算公式为：

通过上述间断点的计算公式就可以使间断阈值δ根据当前误差自适应调整。

本实施例中非监督损失函数的定义式如下：

其中B是基线即两摄像机中心距离长度；f是摄像机焦距。本发明的原理是利用预测的深度信息计算双目视觉系统的视差d，即：

然后根据左右图像像素间坐标对应关系可得预测的右图像即：

理论上只要视差计算准确，与I_r能够完全重合。基于此本发明的非监督信息实际上是一种自监督，监督信息来自于输入样本自身。

由于视差误匹配点通常出现在图像梯度较大的区域，当图像某一区域梯度过大时，生成的深度图对应区域可能出现一些不连续点(过黑或者过白)，给后续的检测和识别任务引入过多噪声，影响识别效果。因此需要对预测的深度图作一定的平滑处理，本实施例通过引入该平滑项来根据原始图像有效惩罚深度图中梯度过大的区域。

本实施例的惩罚项的计算公式为：

其中，即引入深度图像素的最大值不超过255的约束，以便深度图可视化。

S3、通过区域推荐网络提取深度图中的文字区域；

进一步作为步骤S3的优选实施方式，所述步骤S3包括以下步骤：

S31、基于深度图，通过区域推荐网络生成候选区域；

S32、通过回归器判断候选区域内的文字状态；

S33、根据文字状态的判断结果，通过分类器对候选区域中的文字区域进行标记。

本发明在经过双目立体视觉深度图重建之后，雕刻文字的显著性比原始图像更好，字符边缘和纹理变得明显，有利于文本检测。

本发明的文本检测通过输入深度图，其中block的操作过程如图3所示，该过程与步骤S2中的block操作一致，本发明中操作次数为n+2(可根据实际需要调整)。其中，本实施例将每个block处理后的特征图堆叠成金字塔形状(层数视实际需要而定，本实施例以3层示例)，作为RPN网络的输入。金字塔形状的特征图融合了低层的纹理、边缘信息和高层的抽象语义信息。这里起到关键作用的是RPN(Region Proposal Network)即区域候选网络，该网络产生一系列候选区域，供后续的回归器和分类器判定该区域是否包含文字及输出包含文字区域的坐标。其中是否包含文字是一个两模式(即包含文字/不包含文字)识别问题，本实施例使用Softmax+交叉熵损失函数训练；文字区域的确定是一个回归问题，就是使算法能够在原图中用一个方框来标记文字区域，一般使用Smooth-L1损失函数训练；另外引入偏移回归损失函数，也使用Smooth-L1损失函数训练。

本实施例的RPN网络输入的是上一个卷积层输出的特征图。本实施例中定义的回归框呈窄长方形条状，坐标为(y，h，θ)。一般来说，回归框的定义都需要给出box中心点的x，y坐标以及box的宽度和高度，由于文字具有线型形状，因此本实施例只回归box中心点的y坐标和回归框的高度h，x方向采用固定宽度(w＝16 pixels)，故x坐标可以在滑动窗口(滑窗即为RPN中的3×3和5×5卷积层，这两个卷积在处理不同尺度的特征图时共享参数)时可以确定。此外还需要回归box的旋转角度θ，角度θ提供一系列候选值，θ＝30°，45°，60°，-30°，45°，-60°，高度h也提供一系列候选值，h＝5，11，16，23，33，48，68，97，139，198，283。为了能够在不同的图像中检测文字，提供3种放缩比例，scale＝0.5，1，2。至此，根据这些候选值可以生成许多个(记为k)回归框，组成anchor boxes。本发明的回归过程使用相对坐标构造损失函数，其定义为：

t_θ＝θ-θ_a，

其中，t＝{t_y，t_h，t_θ}和分别为相对预测坐标和真实坐标，相对坐标不受尺度变化影响。y_a，h_a，θ_a分别是anchor box的中心y坐标，高度及旋转角度；y，h，θ分别是预测的中心y坐标、高度和旋转角度；y^*，h^*，θ^*分别是真实标记的中心y坐标、高度和旋转角度。

另外，由于将每个孤立的标记进行独立处理的鲁棒性较低，而雕刻文字和背景的差异性并不一定很大，很可能会导致对与文字模式类似的非文字目标的误检，还可能丢弃一些含有弱文字信息的模糊模式。文字具有明显的序列特征，序列上下文信息对做出可靠决策至关重要。因此，引入B-LSTM即双向长短时记忆模块来对每个尺度的特征之间的上下文信息进行编码(同样地，每个尺度的特征图共享B-LSTM参数)，当某个标记孤立地处理可能不被识别成文字(例如刚好这个标记对应的区域为雕刻文字的中间部分，不含字体边缘)，由于B-LSTM具有记忆功能，引入上下文信息后，这个标记融合了前向及后向的信息(雕刻文字的边缘)，就可能被识别成文字。

在水平方向上，图像被分成一系列相等的宽度为16个像素的标记。当最左边和最右边的标记没有完全被实际文字区域覆盖，或者某些包含文字的标记被丢弃时，这可能会导致不准确的定位(可能会框出多余区域或者没有完整框出文字区域)。这种不准确性在通用目标检测中可能并不重要，但在文字检测中不应忽视，特别是对于那些小型文本行或文字。为了解决这个问题，本发明提出了一种边缘细化的方法，可以精确地估计左右两侧的每个标记的偏移量。与y坐标预测类似，本实施例计算相对偏移为：

其中，x_side是当前这个anchor box下预测的最左边或最右边边缘的x坐标，是实际的最左或最右边缘x坐标。x^a是anchor的中心x坐标。w^a是固定的anchor宽度，w^a＝16。通过最小化这些偏移量，本发明可以对边界框进行更细粒度的精修，最后将这些细长的预测框连接起来就可以得到一个框出完整文本的边界框。

最后文字区域定位任务的损失函数为：

其中，p_i是第i个anchor box预测包含文字的概率，为文字/非文字标签；t_j是第j个anchor box预测的坐标，该anchor box对应的真实标注坐标；o_k是第k个anchor box预测的x轴偏移量，是该anchor box对应的真实x轴偏移量。该损失函数包含三个问题，第一个问题是分类问题，使用交叉熵损失函数训练；第二和第三个问题都是回归问题，使用Smooth-L1损失函数训练。

S4、基于双向长短期记忆网络，对文字区域进行文字识别，得到雕刻文字的识别结果。

进一步作为步骤S4的优选实施方式，所述步骤S4包括以下步骤：

S41、通过卷积神经网络对文字区域进行第三处理，得到特征序列；

S42、通过双向长短期记忆网络对特征序列进行第四处理，得到上下文信息；

S43、根据上下文信息，对观测样本进行最大似然估计；

S44、根据最大似然估计的结果，得到雕刻文字的识别结果。

本发明在检测出文字区域后，就可以将其提取出来进行文字识别。文字识别问题可以看作序列标注问题解决，即输入文字区域图像，经过CNN处理后得到特征序列，然后使用BLSTM处理这些特征序列，并使用CTC Loss损失函数训练。

本发明首先输入步骤S3得到的文字区域的图像，并继续使用如图3所示的block操作流程进行特征提取，需要注意的是经过所有的block处理后，输出的是特征序列，也就是特征图的大小变成1×1。然后使用BLSTM即双向长短时记忆模块处理，捕捉上下文信息。CTC(Connectionist Temporal Classification)Loss是一种基于序列的误差度量，它有一个好处是不要求序列严格对齐。给定样本x，其标签是l的条件概率是p(l|x)，CTC Loss实际上是对根据观测样本进行最大似然估计，所述似然函数为：

其中，x是经过BLSTM处理过的特征序列，l是该样本真实的文本序列。根据前向后向算法计算得到：

本实施例利用状态序列的路径结构递推地计算条件概率，其中，α(t，u)是t时刻经过节点u的所有前向路径概率，β(t，u)是t时刻经过节点u的所有后向路径概率。

由于计算p(l|x)需要计算很多条路径的概率，且路径数量随路径长度呈指数增长，引入类似隐马尔科夫模型的前向后向算法计算p(l|x)可以避免大量计算。

CTC在每个字符间都插入blank，不需要输入序列和输出序列严格对齐，也不需要对单个字符进行人工标注，只需要对输出序列进行一定的解码操作就能得到预测序列。

最终端对端网络的总损失函数为：

L_total＝α₁L_depth+α₂L_detect+a₃L_recog

其中，α₁，α₂，α₃是权衡因子。训练时根据需要进行调整。

针对雕刻文字本身的特殊性，本发明利用文字区域和背景区域深度信息的差异，并放大这种差异，达到图像增强的效果。为此，本发明设计了一个双目图像样本采集系统，用两个在不同位置的摄像机对同一个场景同时取像，模仿人类的双目视觉，利用两幅图像间所产生的视差求取物体表面的深度图。本发明将这个思想融入了深度学习的端对端结构当中，不需要任何预处理和后续处理。

针对文字检测，本发明提出了多尺度候选区域提取的方法，在faster-RCNN的基础上，融合低层次特征和高层次特征共同产生候选框，高层次特征有利于分类任务，低层次特征有利于回归任务，再引入B-LSTM融入上下文信息，防止孤立处理引起的错误，大大提高了本发明的鲁棒性和抗噪能力。

针对文字识别，本发明舍弃了容易引起歧义的传统的字符分割的方法，将具有一串文字的图像直接送入识别器处理，这样就把文字识别问题转化成一个时间序列标注问题。字符图像首先经过CNN提取出特征序列，然后输入B-LSTM引入上下文依赖，最后将特征序列输入联结主义时间分类器(Connectionist Temporal Classifier，CTC)。

另外，由于端对端网络层数过深，不可避免地引起梯度消失或梯度爆炸问题。因此，本发明所提出的网络结构中，引入了自定义的一些带有多层连接的block操作，这样能够重复利用已有特征进行学习，既减少了参数，又能防止梯度消失或者爆炸。在损失函数方面，引入了一些自适应策略调整梯度。

本发明首次将双目立体视觉和深度学习结合起来，融入到雕刻文字的检测和识别任务中。与传统的图像处理方法和一般的深度学习文字识别方法相比，本发明采用双目立体视觉的方法进行立体信息融合，重建深度图，与原图相比文字区域显著性更好，并且将立体视觉跟文字检测和识别融合成一个完全端对端的卷积神经网络模型，不需要任何手工特征，不需要任何的图像预处理和后续处理。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种雕刻文字识别方法，其特征在于：包括以下步骤：

通过双目摄像机自动采集被测物体的图像；

通过区域推荐网络提取深度图中的文字区域；

2.根据权利要求1所述的一种雕刻文字识别方法，其特征在于：所述通过双目摄像机自动采集被测物体的图像这一步骤，包括以下步骤：

控制光源与被测物体之间的倾斜角满足预设要求；

对光源进行旋转控制；

对光源进行亮度调节；

对被测物体进行旋转控制。

3.根据权利要求1所述的一种雕刻文字识别方法，其特征在于：所述通过卷积操作和反卷积操作对采集到的图像进行处理，生成深度图这一步骤，包括以下步骤：

通过卷积操作对采集到的图像进行第一处理，得到特征图；

通过反卷积操作对特征图进行第二处理，得到深度图。

4.根据权利要求3所述的一种雕刻文字识别方法，其特征在于：所述通过卷积操作对采集到的图像进行第一处理，得到特征图这一步骤，包括以下步骤：

通过第一卷积核分别对第一通道和第二通道进行卷积操作；

通过最大池化层对结合操作的结果进行采样，得到特征图。

5.根据权利要求3所述的一种雕刻文字识别方法，其特征在于：所述通过反卷积操作对特征图进行第二处理，得到深度图这一步骤，包括以下步骤：

通过损失函数来度量预测深度图与真实深度图的误差程度；

计算双目视觉系统的视差；

根据计算得到的视差进行图像预测；

对预测得到的图像进行平滑处理，生成深度图。

6.根据权利要求1所述的一种雕刻文字识别方法，其特征在于：所述通过区域推荐网络提取深度图中的文字区域这一步骤，包括以下步骤：

基于深度图，通过区域推荐网络生成候选区域；

通过回归器判断候选区域内的文字状态；

7.根据权利要求1所述的一种雕刻文字识别方法，其特征在于：所述基于双向长短期记忆网络，对文字区域进行文字识别，得到雕刻文字的识别结果这一步骤，包括以下步骤：

根据上下文信息，对观测样本进行最大似然估计；

根据最大似然估计的结果，得到雕刻文字的识别结果。

8.一种雕刻文字识别系统，其特征在于：包括：

采集模块，用于通过双目摄像机自动采集被测物体的图像；

9.一种雕刻文字识别系统，其特征在于：包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7中任一项所述的雕刻文字识别方法。

10.一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-7中任一项所述的雕刻文字识别方法。