CN112541417B

CN112541417B - 一种文字检测中使用的高效解码方法

Info

Publication number: CN112541417B
Application number: CN202011413971.0A
Authority: CN
Inventors: 吴军; 张伯政; 樊昭磊; 何彬彬
Original assignee: Shandong Msunhealth Technology Group Co Ltd
Current assignee: Zhongyang Health Technology Group Co ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-09-16
Anticipated expiration: 2040-12-03
Also published as: CN112541417A

Abstract

一种文字检测中使用的高效解码方法，使用张量之间的逻辑与按位计算取代了传统的解码方法中的像素迭代计算，本专利的文字检测中使用的解码方法更容易进行并行计算加速，即使不进行并行计算加速，也可以借助X86架构处理器的向量处理单元达到远高于原理解码方法的处理速度。在保证解码效果的前提下，降低了解码的耗时，提高了解码效率。

Description

一种文字检测中使用的高效解码方法

技术领域

本发明涉及图像中文字检测领域，具体涉及一种文字检测中使用的高效解码方法。

背景技术

文字检测是当今图像领域研究的一个重要问题，在很多行业领域都有应用。而在文字检测中，Advanced-East是一种效果优异的模型，其本质是一种对目标方向和区域同时进行检测的算法模型。该模型中的解码部分，由于依赖像素级的迭代，效率较低，且由于其解码方法在数据上存在行或者列的依赖性，并行优化的效率提升有限。这造成了现在使用Advanced-East模型在做文字检测的时候，由于解码部分的效率过低，导致检测的速度较慢。

如何能够在使用Advanced-East进行图像中文字检测时，在保证解码效果的前提下，降低解码的耗时。并在提升效率的同时，降低硬件的开销。显得尤为重要。

发明内容

本发明为了克服以上技术的不足，提供了一种提高解码效率、降低硬件成本的文字检测中使用的高效解码方法。

本发明克服其技术问题所采用的技术方案是：

一种文字检测中使用的高效解码方法，包括如下步骤：

a)获取运行参数，将目标图像内像素的激活阈值表示为T_i，将头部和尾部回归像素的激活阈值表示为T_s，将尾部回归像素的激活阈值表示为T_t；

b)获取Advanced-East模型的输出张量并表示为P，使用P_(i,：,：)表示张量P中第一个维度索引为i，第二个维度索引全部区域，第三个维度索引全部区域，P_(0,：,：)为目标内像素的激活概率，P_(1,：,：)为头部和尾部回归像素的激活概率；P_(2,：,：)为尾部回归像素的激活概率；P_(3,：,：)为头部回归像素的左上点横向坐标的差值或尾部回归像素的右下点横向坐标的差值，P_(4,：,：)代表头部回归像素的左上点纵向坐标的差值或尾部回归像素点右下点纵向坐标的差值，P_(5,：,：)代表头部回归像素的左下点横向坐标的差值或尾部回归像素点右上点横向坐标的差值，P_(6,：,：)代表头部回归像素的左下点纵向坐标的差值或尾部回归像素点右上点纵向坐标的差值，获取像素的坐标图，表示为张量M，张量M横向第l列中纵向第n个像素的坐标为M_(：,l,n)；

c)设置空集合R，用于收集结果；

d)使用高斯模糊方法，对P_(0,：,：)进行模糊处理，模糊后的P_(0,：,：)表示为P_G(0,：,：)；

e)对P_G(0,：,：)进行二值化处理，处理后的P_G(0,：,：)表示为P_B(0,：,：)；

f)使用连通域分析算法求取P_B(0,：,：)中的连通域，将得到的结果表示为矩阵A和值N，矩阵A为每个像素对应的连通域标号，值N为连通域的个数；

g)设置循环变量k＝0；

h)设置临时变量Y_i，通过公式

计算更新Y_i的值，式中*为矩阵对应位置相乘的计算，＝＝为相等的逻辑计算；

i)如果Y_i＞T_i，则执行步骤j)，如果Y_i≤T_i，则使用公式k＝k+1更新k的值后，返回执行步骤h)；

j)设置临时变量Y_s，通过公式

计算更新Y_s的值，式中＞为大于的逻辑计算；

k)如果Y_s＞0，则执行步骤l)，如果Y_s≤0，则使用公式k＝k+1更新k的值后，返回执行步骤h)；

l)设置临时变量TM，使用公式TM＝(A＝＝k)*(P_(1,：,：)＞T_s)计算更新TM的值，计算得到目标左上角的横向坐标AX₁、目标左下角的横向坐标AX₂、目标右下角的横向坐标AX₃以及目标右上角的横向坐标AX₄，将集合{AX₁,AX₂,AX₃,AX₄}存入集合R中，如果k＜N则使用公式k＝k+1更新k的值后，返回执行步骤h)，如果k≥N，则执行步骤m)；

m)最终集合R为最终解码输出的结果。

进一步的，步骤b)中张量P的维度为(7,w,h)，w为输出的宽度，h为输出的高度。

进一步的，步骤b)中张量M的维度为(2,w,h)。

进一步的，步骤l)中AX₁、AX₂、AX₃、AX₄的计算方法为：

l-1)

计算得到AX₁，式中P_{(3:5,：,：)}为张量P的第一个维度取3到5，但不包括5，第二个维度和第三个维度全部包括的区域；

l-2)

计算得到AX₂，式中P_{(5:7,：,：)}为张量P的第一个维度取5到7，但不包括7，第二个维度和第三个维度全部包括的区域；

l-3)

计算得到AX₃；

l-4)

计算得到AX₄。

本发明的有益效果是：使用张量之间的逻辑与按位计算取代了传统的解码方法中的像素迭代计算，本专利的文字检测中使用的解码方法更容易进行并行计算加速，即使不进行并行计算加速，也可以借助X86架构处理器的向量处理单元达到远高于原理解码方法的处理速度。在保证解码效果的前提下，降低了解码的耗时，提高了解码效率。

具体实施方式

下面对本发明做进一步说明。

一种文字检测中使用的高效解码方法，包括如下步骤：

c)设置空集合R，用于收集结果；

g)设置循环变量k＝0；

h)设置临时变量Y_i，通过公式

j)设置临时变量Y_s，通过公式

计算更新Y_s的值，式中＞为大于的逻辑计算；

m)最终集合R为最终解码输出的结果。

使用张量之间的逻辑与按位计算取代了传统的解码方法中的像素迭代计算，本专利的文字检测中使用的解码方法更容易进行并行计算加速，即使不进行并行计算加速，也可以借助X86架构处理器的向量处理单元达到远高于原理解码方法的处理速度。在保证解码效果的前提下，降低了解码的耗时，提高了解码效率。

实施例1：

步骤b)中张量P的维度为(7,w,h)，w为输出的宽度，h为输出的高度。

实施例2：

步骤b)中张量M的维度为(2,w,h)。

实施例3：

步骤l)中AX₁、AX₂、AX₃、AX₄的计算方法为：

l-1)

计算得到AX₁，式中P_{(3:5,：,：)}为张量P的第一个维度取3到5，但不包括5，第二个维度和第三个维度全部包括的区域。公式中的求和符号仅在张量的最后两个维度求和，第一个维度不匹配时，纬度值为1的张量向纬度值大于1的张量扩展。

l-2)

计算得到AX₂，式中P_{(5:7,：,：)}为张量P的第一个维度取5到7，但不包括7，第二个维度和第三个维度全部包括的区域。公式中的求和符号仅在张量的最后两个维度求和，第一个维度不匹配时，纬度值为1的张量向纬度值大于1的张量扩展。

l-3)

计算得到AX₃，式中P_{(3:5,：,：)}为张量P的第一个维度取3到5，但不包括5，第二个维度和第三个维度全部包括的区域。公式中的求和符号仅在张量的最后两个维度求和，第一个维度不匹配时，纬度值为1的张量向纬度值大于1的张量扩展。

l-4)

计算得到AX₄，式中P_(5:7,：,：)为张量P的第一个维度取5到7，但不包括7，第二个维度和第三个维度全部包括的区域。公式中的求和符号仅在张量的最后两个维度求和，第一个维度不匹配时，纬度值为1的张量向纬度值大于1的张量扩展。最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。