CN112541417A - 一种文字检测中使用的高效解码方法 - Google Patents

一种文字检测中使用的高效解码方法 Download PDF

Info

Publication number
CN112541417A
CN112541417A CN202011413971.0A CN202011413971A CN112541417A CN 112541417 A CN112541417 A CN 112541417A CN 202011413971 A CN202011413971 A CN 202011413971A CN 112541417 A CN112541417 A CN 112541417A
Authority
CN
China
Prior art keywords
pixel
regression
tensor
value
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011413971.0A
Other languages
English (en)
Other versions
CN112541417B (zh
Inventor
吴军
张伯政
樊昭磊
何彬彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongyang Health Technology Group Co ltd
Original Assignee
Shandong Msunhealth Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Msunhealth Technology Group Co Ltd filed Critical Shandong Msunhealth Technology Group Co Ltd
Priority to CN202011413971.0A priority Critical patent/CN112541417B/zh
Publication of CN112541417A publication Critical patent/CN112541417A/zh
Application granted granted Critical
Publication of CN112541417B publication Critical patent/CN112541417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种文字检测中使用的高效解码方法,使用张量之间的逻辑与按位计算取代了传统的解码方法中的像素迭代计算,本专利的文字检测中使用的解码方法更容易进行并行计算加速,即使不进行并行计算加速,也可以借助X86架构处理器的向量处理单元达到远高于原理解码方法的处理速度。在保证解码效果的前提下,降低了解码的耗时,提高了解码效率。

Description

一种文字检测中使用的高效解码方法
技术领域
本发明涉及图像中文字检测领域,具体涉及一种文字检测中使用的高效解码方法。
背景技术
文字检测是当今图像领域研究的一个重要问题,在很多行业领域都有应用。而在文字检测中,Advanced-East是一种效果优异的模型,其本质是一种对目标方向和区域同时进行检测的算法模型。该模型中的解码部分,由于依赖像素级的迭代,效率较低,且由于其解码方法在数据上存在行或者列的依赖性,并行优化的效率提升有限。这造成了现在使用Advanced-East模型在做文字检测的时候,由于解码部分的效率过低,导致检测的速度较慢。
如何能够在使用Advanced-East进行图像中文字检测时,在保证解码效果的前提下,降低解码的耗时。并在提升效率的同时,降低硬件的开销。显得尤为重要。
发明内容
本发明为了克服以上技术的不足,提供了一种提高解码效率、降低硬件成本的文字检测中使用的高效解码方法。
本发明克服其技术问题所采用的技术方案是:
一种文字检测中使用的高效解码方法,包括如下步骤:
a)获取运行参数,将目标图像内像素的激活阈值表示为Ti,将头部和尾部回归像素的激活阈值表示为Ts,将尾部回归像素的激活阈值表示为Tt
b)获取Advanced-East模型的输出张量并表示为P,使用P(i,:,:)表示张量P中第一个维度索引为i,第二个维度索引全部区域,第三个维度索引全部区域,P(0,:,:)为目标内像素的激活概率,P(1,:,:)为头部和尾部回归像素的激活概率;P(2,:,:)为尾部回归像素的激活概率;P(3,:,:)为头部回归像素的左上点横向坐标的差值或尾部回归像素的右下点横向坐标的差值,P(4,:,:)代表头部回归像素的左上点纵向坐标的差值或尾部回归像素点右下点纵向坐标的差值,P(5,:,:)代表头部回归像素的左下点横向坐标的差值或尾部回归像素点右上点横向坐标的差值,P(6,:,:)代表头部回归像素的左下点纵向坐标的差值或尾部回归像素点右上点纵向坐标的差值,获取像素的坐标图,表示为张量M,张量M横向第l列中纵向第n个像素的坐标为M(:,l,n)
c)设置空集合R,用于收集结果;
d)使用高斯模糊方法,对P(0,:,:)进行模糊处理,模糊后的P(0,:,:)表示为PG(0,:,:)
e)对PG(0,:,:)进行二值化处理,处理后的PG(0,:,:)表示为PB(0,:,:)
f)使用连通域分析算法求取PB(0,:,:)中的连通域,将得到的结果表示为矩阵A和值N,矩阵A为每个像素对应的连通域标号,值N为连通域的个数;
g)设置循环变量k=0;
h)设置临时变量Yi,通过公式
Figure BDA0002813442090000021
计算更新Yi的值,式中*为矩阵对应位置相乘的计算,==为相等的逻辑计算;
i)如果Yi>Ti,则执行步骤j),如果Yi≤Ti,则使用公式k=k+1更新k的值后,返回执行步骤h);
j)设置临时变量Ys,通过公式
Figure BDA0002813442090000031
计算更新Ys的值,式中>为大于的逻辑计算;
k)如果Ys>0,则执行步骤l),如果Ys≤0,则使用公式k=k+1更新k的值后,返回执行步骤h);
l)设置临时变量TM,使用公式TM=(A==k)*(P(1,:,:)>Ts)计算更新TM的值,计算得到目标左上角的横向坐标AX1、目标左下角的横向坐标AX2、目标右下角的横向坐标AX3以及目标右上角的横向坐标AX4,将集合{AX1,AX2,AX3,AX4}存入集合R中,如果k<N则使用公式k=k+1更新k的值后,返回执行步骤h),如果k≥N,则执行步骤m);
m)最终集合R为最终解码输出的结果。
进一步的,步骤b)中张量P的维度为(7,w,h),w为输出的宽度,h为输出的高度。
进一步的,步骤b)中张量M的维度为(2,w,h)。
进一步的,步骤l)中AX1、AX2、AX3、AX4的计算方法为:
l-1)
Figure BDA0002813442090000032
算得到AX1,式中P(3:5,:,:)为张量P的第一个维度取3到5,但不包括5,第二个维度和第三个维度全部包括的区域;
l-2)
Figure BDA0002813442090000041
计算得到AX2,式中P(5:7,:,:)为张量P的第一个维度取5到7,但不包括7,第二个维度和第三个维度全部包括的区域;
l-3)
Figure BDA0002813442090000042
计算得到AX3
l-4)
Figure BDA0002813442090000043
计算得到AX4
本发明的有益效果是:使用张量之间的逻辑与按位计算取代了传统的解码方法中的像素迭代计算,本专利的文字检测中使用的解码方法更容易进行并行计算加速,即使不进行并行计算加速,也可以借助X86架构处理器的向量处理单元达到远高于原理解码方法的处理速度。在保证解码效果的前提下,降低了解码的耗时,提高了解码效率。
具体实施方式
下面对本发明做进一步说明。
一种文字检测中使用的高效解码方法,包括如下步骤:
a)获取运行参数,将目标图像内像素的激活阈值表示为Ti,将头部和尾部回归像素的激活阈值表示为Ts,将尾部回归像素的激活阈值表示为Tt
b)获取Advanced-East模型的输出张量并表示为P,使用P(i,:,:)表示张量P中第一个维度索引为i,第二个维度索引全部区域,第三个维度索引全部区域,P(0,:,:)为目标内像素的激活概率,P(1,:,:)为头部和尾部回归像素的激活概率;P(2,:,:)为尾部回归像素的激活概率;P(3,:,:)为头部回归像素的左上点横向坐标的差值或尾部回归像素的右下点横向坐标的差值,P(4,:,:)代表头部回归像素的左上点纵向坐标的差值或尾部回归像素点右下点纵向坐标的差值,P(5,:,:)代表头部回归像素的左下点横向坐标的差值或尾部回归像素点右上点横向坐标的差值,P(6,:,:)代表头部回归像素的左下点纵向坐标的差值或尾部回归像素点右上点纵向坐标的差值,获取像素的坐标图,表示为张量M,张量M横向第l列中纵向第n个像素的坐标为M(:,l,n)
c)设置空集合R,用于收集结果;
d)使用高斯模糊方法,对P(0,:,:)进行模糊处理,模糊后的P(0,:,:)表示为PG(0,:,:)
e)对PG(0,:,:)进行二值化处理,处理后的PG(0,:,:)表示为PB(0,:,:)
f)使用连通域分析算法求取PB(0,:,:)中的连通域,将得到的结果表示为矩阵A和值N,矩阵A为每个像素对应的连通域标号,值N为连通域的个数;
g)设置循环变量k=0;
h)设置临时变量Yi,通过公式
Figure BDA0002813442090000061
计算更新Yi的值,式中*为矩阵对应位置相乘的计算,==为相等的逻辑计算;
i)如果Yi>Ti,则执行步骤j),如果Yi≤Ti,则使用公式k=k+1更新k的值后,返回执行步骤h);
j)设置临时变量Ys,通过公式
Figure BDA0002813442090000062
计算更新Ys的值,式中>为大于的逻辑计算;
k)如果Ys>0,则执行步骤l),如果Ys≤0,则使用公式k=k+1更新k的值后,返回执行步骤h);
l)设置临时变量TM,使用公式TM=(A==k)*(P(1,:,:)>Ts)计算更新TM的值,计算得到目标左上角的横向坐标AX1、目标左下角的横向坐标AX2、目标右下角的横向坐标AX3以及目标右上角的横向坐标AX4,将集合{AX1,AX2,AX3,AX4}存入集合R中,如果k<N则使用公式k=k+1更新k的值后,返回执行步骤h),如果k≥N,则执行步骤m);
m)最终集合R为最终解码输出的结果。
使用张量之间的逻辑与按位计算取代了传统的解码方法中的像素迭代计算,本专利的文字检测中使用的解码方法更容易进行并行计算加速,即使不进行并行计算加速,也可以借助X86架构处理器的向量处理单元达到远高于原理解码方法的处理速度。在保证解码效果的前提下,降低了解码的耗时,提高了解码效率。
实施例1:
步骤b)中张量P的维度为(7,w,h),w为输出的宽度,h为输出的高度。
实施例2:
步骤b)中张量M的维度为(2,w,h)。
实施例3:
步骤l)中AX1、AX2、AX3、AX4的计算方法为:
l-1)
Figure BDA0002813442090000071
计算得到AX1,式中P(3:5,:,:)为张量P的第一个维度取3到5,但不包括5,第二个维度和第三个维度全部包括的区域。公式中的求和符号仅在张量的最后两个维度求和,第一个维度不匹配时,纬度值为1的张量向纬度值大于1的张量扩展。
l-2)
Figure BDA0002813442090000072
计算得到AX2,式中P(5:7,:,:)为张量P的第一个维度取5到7,但不包括7,第二个维度和第三个维度全部包括的区域。公式中的求和符号仅在张量的最后两个维度求和,第一个维度不匹配时,纬度值为1的张量向纬度值大于1的张量扩展。
l-3)
Figure BDA0002813442090000073
计算得到AX3,式中P(3:5,:,:)为张量P的第一个维度取3到5,但不包括5,第二个维度和第三个维度全部包括的区域。公式中的求和符号仅在张量的最后两个维度求和,第一个维度不匹配时,纬度值为1的张量向纬度值大于1的张量扩展。
l-4)
Figure BDA0002813442090000081
计算得到AX4,式中P(5:7,:,:)为张量P的第一个维度取5到7,但不包括7,第二个维度和第三个维度全部包括的区域。公式中的求和符号仅在张量的最后两个维度求和,第一个维度不匹配时,纬度值为1的张量向纬度值大于1的张量扩展。最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种文字检测中使用的高效解码方法,其特征在于,包括如下步骤:
a)获取运行参数,将目标图像内像素的激活阈值表示为Ti,将头部和尾部回归像素的激活阈值表示为Ts,将尾部回归像素的激活阈值表示为Tt
b)获取Advanced-East模型的输出张量并表示为P,使用P(i,:,:)表示张量P中第一个维度索引为i,第二个维度索引全部区域,第三个维度索引全部区域,P(0,:,:)为目标内像素的激活概率,P(1,:,:)为头部和尾部回归像素的激活概率;P(2,:,:)为尾部回归像素的激活概率;P(3,:,:)为头部回归像素的左上点横向坐标的差值或尾部回归像素的右下点横向坐标的差值,P(4,:,:)代表头部回归像素的左上点纵向坐标的差值或尾部回归像素点右下点纵向坐标的差值,P(5,:,:)代表头部回归像素的左下点横向坐标的差值或尾部回归像素点右上点横向坐标的差值,P(6,:,:)代表头部回归像素的左下点纵向坐标的差值或尾部回归像素点右上点纵向坐标的差值,获取像素的坐标图,表示为张量M,张量M横向第l列中纵向第n个像素的坐标为M(:,l,n)
c)设置空集合R,用于收集结果;
d)使用高斯模糊方法,对P(0,:,:)进行模糊处理,模糊后的P(0,:,:)表示为PG(0,:,:)
e)对PG(0,:,:)进行二值化处理,处理后的PG(0,:,:)表示为PB(0,:,:)
f)使用连通域分析算法求取PB(0,:,:)中的连通域,将得到的结果表示为矩阵A和值N,矩阵A为每个像素对应的连通域标号,值N为连通域的个数;
g)设置循环变量k=0;
h)设置临时变量Yi,通过公式
Figure FDA0002813442080000021
计算更新Yi的值,式中*为矩阵对应位置相乘的计算,==为相等的逻辑计算;
i)如果Yi>Ti,则执行步骤j),如果Yi≤Ti,则使用公式k=k+1更新k的值后,返回执行步骤h);
j)设置临时变量Ys,通过公式Ys=∑[(A==k)*(P(1,:,:)>Ts)]计算更新Ys的值,式中>为大于的逻辑计算;
k)如果Ys>0,则执行步骤l),如果Ys≤0,则使用公式k=k+1更新k的值后,返回执行步骤h);
l)设置临时变量TM,使用公式TM=(A==k)*(P(1,:,:)>Ts)计算更新TM的值,计算得到目标左上角的横向坐标AX1、目标左下角的横向坐标AX2、目标右下角的横向坐标AX3以及目标右上角的横向坐标AX4,将集合{AX1,AX2,AX3,AX4}存入集合R中,如果k<N则使用公式k=k+1更新k的值后,返回执行步骤h),如果k≥N,则执行步骤m);
m)最终集合R为最终解码输出的结果。
2.根据权利要求1所述的文字检测中使用的高效解码方法,其特征在于:步骤b)中张量P的维度为(7,w,h),w为输出的宽度,h为输出的高度。
3.根据权利要求1所述的文字检测中使用的高效解码方法,其特征在于:步骤b)中张量M的维度为(2,w,h)。
4.根据权利要求1所述的文字检测中使用的高效解码方法,其特征在于,步骤
l)中AX1、AX2、AX3、AX4的计算方法为:
l-1)
Figure FDA0002813442080000031
计算得到AX1,式中P(3:5,:,:)为张量P的第一个维度取3到5,但不包括5,第二个维度和第三个维度全部包括的区域;
l-2)
Figure FDA0002813442080000032
计算得到AX2,式中P(5:7,:,:)为张量P的第一个维度取5到7,但不包括7,第二个维度和第三个维度全部包括的区域;
l-3)
Figure FDA0002813442080000033
计算得到AX3
l-4)
Figure FDA0002813442080000034
计算得到AX4
CN202011413971.0A 2020-12-03 2020-12-03 一种文字检测中使用的高效解码方法 Active CN112541417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011413971.0A CN112541417B (zh) 2020-12-03 2020-12-03 一种文字检测中使用的高效解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011413971.0A CN112541417B (zh) 2020-12-03 2020-12-03 一种文字检测中使用的高效解码方法

Publications (2)

Publication Number Publication Date
CN112541417A true CN112541417A (zh) 2021-03-23
CN112541417B CN112541417B (zh) 2022-09-16

Family

ID=75016164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011413971.0A Active CN112541417B (zh) 2020-12-03 2020-12-03 一种文字检测中使用的高效解码方法

Country Status (1)

Country Link
CN (1) CN112541417B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110042665A (ko) * 2009-10-19 2011-04-27 전남대학교산학협력단 문자 검출 방법 및 장치
US20140067735A1 (en) * 2012-08-29 2014-03-06 Microsoft Corporation Computer-implemented deep tensor neural network
CN104794685A (zh) * 2014-01-17 2015-07-22 腾讯科技(深圳)有限公司 一种实现图像去噪的方法及装置
CN108734187A (zh) * 2017-04-20 2018-11-02 中山大学 一种基于张量奇异值分解的多视图谱聚类算法
CN110020676A (zh) * 2019-03-18 2019-07-16 华南理工大学 基于多感受野深度特征的文本检测方法、系统、设备及介质
CN111191065A (zh) * 2019-12-18 2020-05-22 海尔优家智能科技(北京)有限公司 一种同源图像确定方法及装置
CN111259899A (zh) * 2020-01-13 2020-06-09 华中科技大学 一种喷码字符检测方法
CN111695527A (zh) * 2020-06-15 2020-09-22 内蒙古大学 一种蒙古文在线手写体识别方法
CN111860027A (zh) * 2020-06-11 2020-10-30 贝壳技术有限公司 二维码的识别方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110042665A (ko) * 2009-10-19 2011-04-27 전남대학교산학협력단 문자 검출 방법 및 장치
US20140067735A1 (en) * 2012-08-29 2014-03-06 Microsoft Corporation Computer-implemented deep tensor neural network
CN104794685A (zh) * 2014-01-17 2015-07-22 腾讯科技(深圳)有限公司 一种实现图像去噪的方法及装置
CN108734187A (zh) * 2017-04-20 2018-11-02 中山大学 一种基于张量奇异值分解的多视图谱聚类算法
CN110020676A (zh) * 2019-03-18 2019-07-16 华南理工大学 基于多感受野深度特征的文本检测方法、系统、设备及介质
CN111191065A (zh) * 2019-12-18 2020-05-22 海尔优家智能科技(北京)有限公司 一种同源图像确定方法及装置
CN111259899A (zh) * 2020-01-13 2020-06-09 华中科技大学 一种喷码字符检测方法
CN111860027A (zh) * 2020-06-11 2020-10-30 贝壳技术有限公司 二维码的识别方法及装置
CN111695527A (zh) * 2020-06-15 2020-09-22 内蒙古大学 一种蒙古文在线手写体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANAN LIU 等: "Active Post-refined Multimodality Video Semantic Concept Detection with Tensor Representation", 《PROCEEDINGS OF THE 16TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
马芳 等: "复杂背景图像中文字区域检测的新方法", 《电子设计工程》 *

Also Published As

Publication number Publication date
CN112541417B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
US11775836B2 (en) Hand pose estimation
CN106599900B (zh) 一种识别图像中的字符串的方法和装置
CN106228240B (zh) 基于fpga的深度卷积神经网络实现方法
CN108647694B (zh) 基于上下文感知和自适应响应的相关滤波目标跟踪方法
CN109472792B (zh) 结合局部熵的局部能量泛函与非凸正则项的图像分割方法
CN112330719B (zh) 基于特征图分割和自适应融合的深度学习目标跟踪方法
Chen et al. A blind CNN denoising model for random-valued impulse noise
CN111310609B (zh) 基于时序信息和局部特征相似性的视频目标检测方法
CN112528845B (zh) 一种基于深度学习的物理电路图识别方法及其应用
CN111382759A (zh) 一种像素级分类方法、装置、设备及存储介质
CN108932715B (zh) 一种基于深度学习的冠状动脉造影图分割的优化方法
CN108062559A (zh) 一种基于多重感受野的图像分类方法、系统及装置
CN116309668A (zh) 基于改进灰狼优化算法的复杂图像多阈值分割方法
Rastegari et al. Enabling AI at the edge with XNOR-networks
CN107240100B (zh) 一种基于遗传算法的图像分割方法和系统
CN112541417B (zh) 一种文字检测中使用的高效解码方法
Adel et al. Accelerating deep neural networks using FPGA
CN111145221A (zh) 一种基于多层深度特征提取的目标跟踪算法
US10460189B2 (en) Method and apparatus for determining summation of pixel characteristics for rectangular region of digital image avoiding non-aligned loads using multiple copies of input data
Liu et al. A novel histogram region merging based multithreshold segmentation algorithm for MR brain images
Liang et al. NLKD: Using coarse annotations for semantic segmentation based on knowledge distillation
CN110570450A (zh) 一种基于级联的上下文感知框架的目标跟踪方法
CN111783979B (zh) 一种基于ssim算法的图像相似度检测硬件加速器vlsi结构
CN115170599A (zh) 通过图神经网络的链路预测进行血管分割的方法和装置
Alaeddine et al. A CONVblock for convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 12 / F, building 1, Aosheng building, 1166 Xinluo street, hi tech Zone, Jinan City, Shandong Province

Patentee after: Zhongyang Health Technology Group Co.,Ltd.

Address before: 12 / F, building 1, Aosheng building, 1166 Xinluo street, high tech Zone, Jinan City, Shandong Province

Patentee before: SHANDONG MSUNHEALTH TECHNOLOGY GROUP Co.,Ltd.