CN111986220A

CN111986220A - 一种基于图像变换的环形文本检测和识别方法

Info

Publication number: CN111986220A
Application number: CN202010866455.7A
Authority: CN
Inventors: 高飞; 葛逸凡; 卢书芳; 翁立波; 张元鸣
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2020-11-24

Abstract

本发明公开了一种基于图像变换的环形文本检测和识别方法，首先通过一种基于霍夫圆检测算法的自适应阈值的圆环检测方法来检测图像中文本所在的圆环区域，接着使用所提出的文字边缘检测算法确定文字之间的扇形空隙区域，采用TPS插值算法将环形文本沿空隙最大处展开，得到包含举行文本区域的图像，最后采用基于深度神经网络的文字识别模型输出文字识别结果。相比于现有的环形文本检测和识别技术，本发明所提出的方法时间消耗短、识别准确率高并且不会因为图像变换而丢失原有的语义信息。

Description

一种基于图像变换的环形文本检测和识别方法

技术领域

本发明涉及图像处理和场景文字检测识别技术领域，具体为一种基于图像变换的环形文本检测和识别方法。

背景技术

文本作为图像中的高层语义信息，能够帮助人们更好地理解图像。将图像中的文本通过计算机技术识别出，是实现人工智能技术的基础。相比于光学字符识别(OCR技术)，自然场景下的文字识别具有更高的难度。而在自然场景文字识别领域中，相比于水平或竖直文本的识别，曲线文本甚至是环形文本的识别挑战性更大。因此，提出一种能够高效、精准的环形文本检测和识别方法具有重要的意义。

针对环形文本的检测和识别，国内外专家和学者展开了重点研究。其中与本发明较为接近的包括：。发明专利(发明人：李辉；朱文康；申胜男；方启航；谭震彪，申请号：CN201910920945.8，名称：环形文字快速识别方法及装置)通过深度神经网络YOLO算法检测图像中的环形区域，通过坐标转换方法将环形文字带转换为矩形文字带，通过深度神经网络YOLO算法定位转换后图像中的文字区域，将定位到的文字区域进行分割和校正，得到各个字符图像，将每个分割好的字符图像进行神经网络的字符识别,得出文字的识别结果。

在现有环形文本检测方法中，存在如下不足：1)以上方法所提到的采用深度神经网络YOLO算法来检测图像中的环形区域，该方法对运行设备资源占用率大、时间消耗长；2)通过基于坐标转换方法转换后的图像在边缘处平滑度不高，容易丢失细节信息；3)在图像转换之前未检测文本在环形区域中的位置，直接转换图像可能会导致因为对单个文字的切分或对某段文字的切分而造成的语义信息丢失的问题。

发明内容

为解决现有方法的不足，本发明提出一种基于图像变换的针对环形文本检测和识别方法；首先通过一种基于霍夫圆检测算法的自适应阈值的圆环检测方法来检测图像中文本所在的圆环区域，接着使用所提出的文字边缘检测算法确定文字之间的扇形空隙区域，采用TPS插值算法将环形文本沿空隙最大处展开，得到包含举行文本区域的图像，最后采用基于深度神经网络的文字识别模型输出文字识别结果，用于解决现有环形文本检测和识别技术中效率低、精度差、容易丢失语义信息等问题。

本发明的技术方案如下：

一种基于图像变换的环形文本检测和识别方法，其特征在于，包括如下步骤：

步骤1：检测文本所在的环形区域，具体为：

步骤1.1：对包含环形文本区域的图像I采用霍夫圆检测算法，检测阈值设为λ，检测后的结果记为集合L＝{l_k|k＝1,2,…,K}，其中，l_k表示检测到的第k个圆，K表示检测到的圆的数量；令l_k的圆心坐标为(xl_k,yl_k)；

步骤1.2：选取L中半径最大的圆，记为R₁，令R₁的圆心坐标为(xl₀,yl₀)；

步骤1.3：增大检测阈值，令λ＝λ+λ₀，以增大后的λ为检测阈值对I采用霍夫圆检测算法，将检测到的圆加入集合L中，λ₀表示增量常数；

步骤1.4：重复步骤1.3，直到I中不再检测到圆；

步骤1.5：根据公式(1)计算L中每个圆的圆心(xl_k,yl_k)与(xl₀,yl₀)的距离d_k，当d_k<δ时，将l_k加入集合L′＝{l′_k|k＝1,2,…,K′}中，其中，K′表示满足条件的圆的数量，δ表示距离阈值常数；

步骤1.6：选取L′中除了R₁之外半径最大的圆，记为R₂；最终R₁与R₂所组成的圆环形区域为文本实际所在的环形区域；

步骤2：确定文字起始和终止处之间的扇形空隙区域，具体步骤为：

步骤2.1：采用canny边缘算子对I处理，得到的二值化图像记为I′，根据公式(2)和(3)设置I′中的像素点(x_i,y_j)的灰度值；

其中，pv_ij表示图像中像素点(x_i,y_j)的灰度值，R和r分别表示R₁和R₂的半径长度，d_ij表示I′中的像素点(x_i,y_j)到R₁的圆心的距离；

步骤2.2：在图像I′中从(xl₀,yl₀)出发水平向右引一条射线，记为sl₁；若sl₁上存在灰度值为0的像素点，则将sl₁围绕(xl₀,yl₀)逆时针旋转，直到sl₁上每个像素点的灰度值均为255；

步骤2.3：生成一条与sl₁重合的射线，记为sl′₁；将sl′₁围绕(xl₀,yl₀)逆时针旋转，直到sl′₁上存在灰度值为0的像素点；sl₁与sl′₁之间的区域为不包含边缘信息的扇形空隙区域，记为(θ₁,Δθ₁)，其中θ₁表示sl₁旋转经过的角度，Δθ₁表示sl′₁旋转经过的角度，设置该区域上全部像素点的灰度值为0；

步骤2.4：重复步骤2.2和步骤2.3，其中第q次重复生成的射线分别记为sl_q和sl′_q，直到sl_q旋转经过的角度θ_q＞360°；定义集合SL＝{(θ_q,Δθ_q)|q＝1,2,…,K_SL}，其中，Δθ_q表示sl′_q旋转经过的角度，K_SL表示检测到的文本区域个数；根据公式(4)得到文字起始和终止处之间的扇形空隙区域(θ′,Δθ′)；

其中Δθ_q＝max(Δθ₁,Δθ₂,...,Δθ_KSL) (4)

步骤3：生成TPS插值算法所需要的控制点集，具体步骤为：

步骤3.1：生成在图像I中的控制点集：在图像I中以(x₀,y₀)为极点、从(x₀,y₀)出发水平向右引一条射线作为极轴构建极坐标系，在该极坐标系中将R₁上的点集记为T＝{t_i＝(R,θ′+Δθ′+θ_i)|i＝1,2,…,N}，将R₂上的点集记为B＝{b_i＝(r,θ′+Δθ′+θ_i)|i＝1,2,…,N}；其中t_i和b_i分别表示在R₁和R₂上的点，θ_i可以根据公式(5)计算得到，N表示集合T和B中点的数目；

其中，Δθ′表示文字起始和终止处之间的扇形空隙区域对应的夹角；

步骤3.3：将待生成的目标图像记为I″，构造生成I″的控制点集：构建分布在I″上沿的点集T′＝{t′_i＝((i-1)×d,0)|i＝1,2,...,N}；构建分布在I″下沿的点集B′＝{b′_i＝((i-1)×d,H)|i＝1,2,...,N}，其中，点间距d和图像I″的高度H根据公式(6)计算得到；

步骤4：定义集合TB＝{{(t_i,t′_i),(b_i,b′_i)}|i＝1,2,...,N}，其中(t_i,t′_i)表示t_i和t′_i组成的控制点对，(b_i,b′_i)表示b_i和b′组成的控制点对；将TB中的控制点对代入TPS样条插值函数实现图像I到图像I″的转换；转换后的图像I″为平直的矩形图像，在I″中的内容为被拉直后水平排列的文字；

步骤5：定义排列于同一文本行且分布靠近的一组字符被称为同一组合字符簇；通过深度神经网络对图像I″进行检测，得到的结果记为S＝{s_i|i＝1,2,…,M}，其中，s_i表示第i个组合字符簇所在的最小外接矩形，M表示I″中检测到的组合字符簇的数量；

步骤6：将s_i包围的图像输入至深度神经网络文字识别模型中，输出s_i对应的文本的识别结果；最终按照s_i在I″中的排列分布，输出全部文本的识别结果。

本发明的优点是：本发明提出一种针对环形文本检测和识别方法。首先通过一种基于霍夫圆检测算法的自适应阈值的圆环检测方法来检测图像中文本所在的圆环区域，接着使用所提出的文字边缘检测算法确定文字之间的扇形空隙区域，采用TPS(Thin-Plate-Spline transforms)插值算法将环形文本沿空隙最大处展开，得到包含举行文本区域的图像，最后采用基于深度神经网络的文字识别模型输出文字识别结果。相比于现有的环形文本检测和识别技术，本发明所提出的方法时间消耗短、识别准确率高并且不会因为图像变换而丢失原有的语义信息。

附图说明

图1为霍夫圆检测后的效果；

图2为变换后的图像；

图3为文本区域中的图像；

图中：R₁为L中半径最大的圆；R₂为L′中除了R₁之外半径最大的圆；s₁-s₈第1-8个组合字符簇所在的最小外接矩形。

具体实施方式

下面结合实施例和图片来详细阐述本发明。

步骤1：检测文本所在的环形区域，具体为：

步骤1.1：对包含环形文本区域的图像I采用霍夫圆检测算法，检测阈值设为λ，检测后的结果记为集合L＝{l_k|k＝1,2,…,K}，其中，l_k表示检测到的第k个圆，K表示检测到的圆的数量；令l_k的圆心坐标为(xl_k,yl_k)，在本实施例中，λ＝20；

步骤1.3：增大检测阈值，令λ＝λ+λ₀，以增大后的λ为检测阈值对I采用霍夫圆检测算法，将检测到的圆加入集合L中，λ₀表示增量常数，在本实施例中，λ₀＝5；

步骤1.4：重复步骤1.3，直到I中不再检测到圆；

步骤1.5：根据公式(1)计算L中每个圆的圆心(xl_k,yl_k)与(xl₀,yl₀)的距离d_k，当d_k<δ时，将l_k加入集合L′＝{l′_k|k＝1,2,…,K′}中，其中，K′表示保留后的检测圆的数量，δ表示距离阈值常数，在本实施例中，δ＝10；

步骤1.6：选取L′中除了R₁之外半径最大的圆，记为R₂；如图1所示，最终R₁与R₂所组成的圆环形区域为文本实际所在的环形区域；

步骤2.2：在图像I′中从(xl₀,yl₀)出发水平向右引一条射线，记为sl₁；若sl₁上存在灰度值为0像素点，则将sl₁围绕(xl₀,yl₀)逆时针旋转，直到sl₁上每个像素点的灰度值均为255；

其中

步骤3：生成TPS插值算法所需要的控制点集，具体步骤为：

步骤3.1：生成在图像I中的控制点集：在图像I中以(x₀,y₀)为极点、从(x₀,y₀)出发水平向右引一条射线作为极轴构建极坐标系，在该极坐标系中将R₁上的点集记为T＝{t_i＝(R,θ′+Δθ′+θ_i)|i＝1,2,…,N}，将R₂上的点集记为B＝{b_i＝(r,θ′+Δθ′+θ_i)|i＝1,2,…,N}；其中t_i和b_i分别表示在R₁和R₂上的点，θ_i可以根据公式(5)计算得到，N表示集合T和B中点的数目，在本实施例中N＝36；

步骤3.2：将待生成的目标图像记为I″，构造生成I″的控制点集：构建分布在I″上沿的点集T′＝{t′_i＝((i-1)×d,0)|i＝1,2,...,N}；构建分布在I″下沿的点集B′＝{b′_i＝((i-1)×d,H)|i＝1,2,...,N}，其中，点间距d和图像I″的高度H根据公式(6)计算得到；

步骤4：定义集合TB＝{{(t_i,t′_i),(b_i,b′_i)}|i＝1,2,...,N}，其中(t_i,t′_i)表示t_i和t′_i组成的控制点对，(b_i,b′_i)表示b_i和b′组成的控制点对；将TB中的控制点对代入TPS样条插值函数实现图像I到图像I″的转换；转换后的图像I″为平直的矩形图像，在I″中的内容为被拉直后水平排列的文字；得到矫正后的图像如图2所示；

步骤5：定义排列于同一文本行且分布靠近的一组字符被称为同一组合字符簇；通过深度神经网络对图像I″进行检测，得到的结果记为S＝{s_i|i＝1,2,…,M}，其中，s_i表示第i个组合字符簇所在的最小外接矩形，M表示I″中检测到的组合字符簇的数量；如图3所示为s₅所包围的图像；

Claims

1.一种基于图像变换的环形文本检测和识别方法，其特征在于，包括：

步骤1：检测文本所在的环形区域，具体为：

步骤1.4：重复步骤1.3，直到I中不再检测到圆；

其中

步骤3：生成TPS插值算法所需要的控制点集，具体步骤为：