CN112541417B - 一种文字检测中使用的高效解码方法 - Google Patents

一种文字检测中使用的高效解码方法 Download PDF

Info

Publication number
CN112541417B
CN112541417B CN202011413971.0A CN202011413971A CN112541417B CN 112541417 B CN112541417 B CN 112541417B CN 202011413971 A CN202011413971 A CN 202011413971A CN 112541417 B CN112541417 B CN 112541417B
Authority
CN
China
Prior art keywords
pixel
regression
tensor
value
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011413971.0A
Other languages
English (en)
Other versions
CN112541417A (zh
Inventor
吴军
张伯政
樊昭磊
何彬彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongyang Health Technology Group Co ltd
Original Assignee
Shandong Msunhealth Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Msunhealth Technology Group Co Ltd filed Critical Shandong Msunhealth Technology Group Co Ltd
Priority to CN202011413971.0A priority Critical patent/CN112541417B/zh
Publication of CN112541417A publication Critical patent/CN112541417A/zh
Application granted granted Critical
Publication of CN112541417B publication Critical patent/CN112541417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Abstract

一种文字检测中使用的高效解码方法,使用张量之间的逻辑与按位计算取代了传统的解码方法中的像素迭代计算,本专利的文字检测中使用的解码方法更容易进行并行计算加速,即使不进行并行计算加速,也可以借助X86架构处理器的向量处理单元达到远高于原理解码方法的处理速度。在保证解码效果的前提下,降低了解码的耗时,提高了解码效率。

Description

一种文字检测中使用的高效解码方法
技术领域
本发明涉及图像中文字检测领域,具体涉及一种文字检测中使用的高效解码方法。
背景技术
文字检测是当今图像领域研究的一个重要问题,在很多行业领域都有应用。而在文字检测中,Advanced-East是一种效果优异的模型,其本质是一种对目标方向和区域同时进行检测的算法模型。该模型中的解码部分,由于依赖像素级的迭代,效率较低,且由于其解码方法在数据上存在行或者列的依赖性,并行优化的效率提升有限。这造成了现在使用Advanced-East模型在做文字检测的时候,由于解码部分的效率过低,导致检测的速度较慢。
如何能够在使用Advanced-East进行图像中文字检测时,在保证解码效果的前提下,降低解码的耗时。并在提升效率的同时,降低硬件的开销。显得尤为重要。
发明内容
本发明为了克服以上技术的不足,提供了一种提高解码效率、降低硬件成本的文字检测中使用的高效解码方法。
本发明克服其技术问题所采用的技术方案是:
一种文字检测中使用的高效解码方法,包括如下步骤:
a)获取运行参数,将目标图像内像素的激活阈值表示为Ti,将头部和尾部回归像素的激活阈值表示为Ts,将尾部回归像素的激活阈值表示为Tt
b)获取Advanced-East模型的输出张量并表示为P,使用P(i,:,:)表示张量P中第一个维度索引为i,第二个维度索引全部区域,第三个维度索引全部区域,P(0,:,:)为目标内像素的激活概率,P(1,:,:)为头部和尾部回归像素的激活概率;P(2,:,:)为尾部回归像素的激活概率;P(3,:,:)为头部回归像素的左上点横向坐标的差值或尾部回归像素的右下点横向坐标的差值,P(4,:,:)代表头部回归像素的左上点纵向坐标的差值或尾部回归像素点右下点纵向坐标的差值,P(5,:,:)代表头部回归像素的左下点横向坐标的差值或尾部回归像素点右上点横向坐标的差值,P(6,:,:)代表头部回归像素的左下点纵向坐标的差值或尾部回归像素点右上点纵向坐标的差值,获取像素的坐标图,表示为张量M,张量M横向第l列中纵向第n个像素的坐标为M(:,l,n)
c)设置空集合R,用于收集结果;
d)使用高斯模糊方法,对P(0,:,:)进行模糊处理,模糊后的P(0,:,:)表示为PG(0,:,:)
e)对PG(0,:,:)进行二值化处理,处理后的PG(0,:,:)表示为PB(0,:,:)
f)使用连通域分析算法求取PB(0,:,:)中的连通域,将得到的结果表示为矩阵A和值N,矩阵A为每个像素对应的连通域标号,值N为连通域的个数;
g)设置循环变量k=0;
h)设置临时变量Yi,通过公式
Figure BDA0002813442090000021
计算更新Yi的值,式中*为矩阵对应位置相乘的计算,==为相等的逻辑计算;
i)如果Yi>Ti,则执行步骤j),如果Yi≤Ti,则使用公式k=k+1更新k的值后,返回执行步骤h);
j)设置临时变量Ys,通过公式
Figure BDA0002813442090000031
计算更新Ys的值,式中>为大于的逻辑计算;
k)如果Ys>0,则执行步骤l),如果Ys≤0,则使用公式k=k+1更新k的值后,返回执行步骤h);
l)设置临时变量TM,使用公式TM=(A==k)*(P(1,:,:)>Ts)计算更新TM的值,计算得到目标左上角的横向坐标AX1、目标左下角的横向坐标AX2、目标右下角的横向坐标AX3以及目标右上角的横向坐标AX4,将集合{AX1,AX2,AX3,AX4}存入集合R中,如果k<N则使用公式k=k+1更新k的值后,返回执行步骤h),如果k≥N,则执行步骤m);
m)最终集合R为最终解码输出的结果。
进一步的,步骤b)中张量P的维度为(7,w,h),w为输出的宽度,h为输出的高度。
进一步的,步骤b)中张量M的维度为(2,w,h)。
进一步的,步骤l)中AX1、AX2、AX3、AX4的计算方法为:
l-1)
Figure BDA0002813442090000032
计算得到AX1,式中P(3:5,:,:)为张量P的第一个维度取3到5,但不包括5,第二个维度和第三个维度全部包括的区域;
l-2)
Figure BDA0002813442090000041
计算得到AX2,式中P(5:7,:,:)为张量P的第一个维度取5到7,但不包括7,第二个维度和第三个维度全部包括的区域;
l-3)
Figure BDA0002813442090000042
计算得到AX3
l-4)
Figure BDA0002813442090000043
计算得到AX4
本发明的有益效果是:使用张量之间的逻辑与按位计算取代了传统的解码方法中的像素迭代计算,本专利的文字检测中使用的解码方法更容易进行并行计算加速,即使不进行并行计算加速,也可以借助X86架构处理器的向量处理单元达到远高于原理解码方法的处理速度。在保证解码效果的前提下,降低了解码的耗时,提高了解码效率。
具体实施方式
下面对本发明做进一步说明。
一种文字检测中使用的高效解码方法,包括如下步骤:
a)获取运行参数,将目标图像内像素的激活阈值表示为Ti,将头部和尾部回归像素的激活阈值表示为Ts,将尾部回归像素的激活阈值表示为Tt
b)获取Advanced-East模型的输出张量并表示为P,使用P(i,:,:)表示张量P中第一个维度索引为i,第二个维度索引全部区域,第三个维度索引全部区域,P(0,:,:)为目标内像素的激活概率,P(1,:,:)为头部和尾部回归像素的激活概率;P(2,:,:)为尾部回归像素的激活概率;P(3,:,:)为头部回归像素的左上点横向坐标的差值或尾部回归像素的右下点横向坐标的差值,P(4,:,:)代表头部回归像素的左上点纵向坐标的差值或尾部回归像素点右下点纵向坐标的差值,P(5,:,:)代表头部回归像素的左下点横向坐标的差值或尾部回归像素点右上点横向坐标的差值,P(6,:,:)代表头部回归像素的左下点纵向坐标的差值或尾部回归像素点右上点纵向坐标的差值,获取像素的坐标图,表示为张量M,张量M横向第l列中纵向第n个像素的坐标为M(:,l,n)
c)设置空集合R,用于收集结果;
d)使用高斯模糊方法,对P(0,:,:)进行模糊处理,模糊后的P(0,:,:)表示为PG(0,:,:)
e)对PG(0,:,:)进行二值化处理,处理后的PG(0,:,:)表示为PB(0,:,:)
f)使用连通域分析算法求取PB(0,:,:)中的连通域,将得到的结果表示为矩阵A和值N,矩阵A为每个像素对应的连通域标号,值N为连通域的个数;
g)设置循环变量k=0;
h)设置临时变量Yi,通过公式
Figure BDA0002813442090000061
计算更新Yi的值,式中*为矩阵对应位置相乘的计算,==为相等的逻辑计算;
i)如果Yi>Ti,则执行步骤j),如果Yi≤Ti,则使用公式k=k+1更新k的值后,返回执行步骤h);
j)设置临时变量Ys,通过公式
Figure BDA0002813442090000062
计算更新Ys的值,式中>为大于的逻辑计算;
k)如果Ys>0,则执行步骤l),如果Ys≤0,则使用公式k=k+1更新k的值后,返回执行步骤h);
l)设置临时变量TM,使用公式TM=(A==k)*(P(1,:,:)>Ts)计算更新TM的值,计算得到目标左上角的横向坐标AX1、目标左下角的横向坐标AX2、目标右下角的横向坐标AX3以及目标右上角的横向坐标AX4,将集合{AX1,AX2,AX3,AX4}存入集合R中,如果k<N则使用公式k=k+1更新k的值后,返回执行步骤h),如果k≥N,则执行步骤m);
m)最终集合R为最终解码输出的结果。
使用张量之间的逻辑与按位计算取代了传统的解码方法中的像素迭代计算,本专利的文字检测中使用的解码方法更容易进行并行计算加速,即使不进行并行计算加速,也可以借助X86架构处理器的向量处理单元达到远高于原理解码方法的处理速度。在保证解码效果的前提下,降低了解码的耗时,提高了解码效率。
实施例1:
步骤b)中张量P的维度为(7,w,h),w为输出的宽度,h为输出的高度。
实施例2:
步骤b)中张量M的维度为(2,w,h)。
实施例3:
步骤l)中AX1、AX2、AX3、AX4的计算方法为:
l-1)
Figure BDA0002813442090000071
计算得到AX1,式中P(3:5,:,:)为张量P的第一个维度取3到5,但不包括5,第二个维度和第三个维度全部包括的区域。公式中的求和符号仅在张量的最后两个维度求和,第一个维度不匹配时,纬度值为1的张量向纬度值大于1的张量扩展。
l-2)
Figure BDA0002813442090000072
计算得到AX2,式中P(5:7,:,:)为张量P的第一个维度取5到7,但不包括7,第二个维度和第三个维度全部包括的区域。公式中的求和符号仅在张量的最后两个维度求和,第一个维度不匹配时,纬度值为1的张量向纬度值大于1的张量扩展。
l-3)
Figure BDA0002813442090000073
计算得到AX3,式中P(3:5,:,:)为张量P的第一个维度取3到5,但不包括5,第二个维度和第三个维度全部包括的区域。公式中的求和符号仅在张量的最后两个维度求和,第一个维度不匹配时,纬度值为1的张量向纬度值大于1的张量扩展。
l-4)
Figure BDA0002813442090000081
计算得到AX4,式中P(5:7,:,:)为张量P的第一个维度取5到7,但不包括7,第二个维度和第三个维度全部包括的区域。公式中的求和符号仅在张量的最后两个维度求和,第一个维度不匹配时,纬度值为1的张量向纬度值大于1的张量扩展。最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种文字检测中使用的高效解码方法,其特征在于,包括如下步骤:
a)获取运行参数,将目标图像内像素的激活阈值表示为Ti,将头部和尾部回归像素的激活阈值表示为Ts,将尾部回归像素的激活阈值表示为Tt
b)获取Advanced-East模型的输出张量并表示为P,使用P(i,:,:)表示张量P中第一个维度索引为i,第二个维度索引全部区域,第三个维度索引全部区域,P(0,:,:)为目标内像素的激活概率,P(1,:,:)为头部和尾部回归像素的激活概率;P(2,:,:)为尾部回归像素的激活概率;P(3,:,:)为头部回归像素的左上点横向坐标的差值或尾部回归像素的右下点横向坐标的差值,P(4,:,:)代表头部回归像素的左上点纵向坐标的差值或尾部回归像素点右下点纵向坐标的差值,P(5,:,:)代表头部回归像素的左下点横向坐标的差值或尾部回归像素点右上点横向坐标的差值,P(6,:,:)代表头部回归像素的左下点纵向坐标的差值或尾部回归像素点右上点纵向坐标的差值,获取像素的坐标图,表示为张量M,张量M横向第l列中纵向第n个像素的坐标为M(:,l,n)
c)设置空集合R,用于收集结果;
d)使用高斯模糊方法,对P(0,:,:)进行模糊处理,模糊后的P(0,:,:)表示为PG(0,:,:)
e)对PG(0,:,:)进行二值化处理,处理后的PG(0,:,:)表示为PB(0,:,:)
f)使用连通域分析算法求取PB(0,:,:)中的连通域,将得到的结果表示为矩阵A和值N,矩阵A为每个像素对应的连通域标号,值N为连通域的个数;
g)设置循环变量k=0;
h)设置临时变量Yi,通过公式
Figure FDA0002813442080000021
计算更新Yi的值,式中*为矩阵对应位置相乘的计算,==为相等的逻辑计算;
i)如果Yi>Ti,则执行步骤j),如果Yi≤Ti,则使用公式k=k+1更新k的值后,返回执行步骤h);
j)设置临时变量Ys,通过公式Ys=∑[(A==k)*(P(1,:,:)>Ts)]计算更新Ys的值,式中>为大于的逻辑计算;
k)如果Ys>0,则执行步骤l),如果Ys≤0,则使用公式k=k+1更新k的值后,返回执行步骤h);
l)设置临时变量TM,使用公式TM=(A==k)*(P(1,:,:)>Ts)计算更新TM的值,计算得到目标左上角的横向坐标AX1、目标左下角的横向坐标AX2、目标右下角的横向坐标AX3以及目标右上角的横向坐标AX4,将集合{AX1,AX2,AX3,AX4}存入集合R中,如果k<N则使用公式k=k+1更新k的值后,返回执行步骤h),如果k≥N,则执行步骤m);
m)最终集合R为最终解码输出的结果。
2.根据权利要求1所述的文字检测中使用的高效解码方法,其特征在于:步骤b)中张量P的维度为(7,w,h),w为输出的宽度,h为输出的高度。
3.根据权利要求1所述的文字检测中使用的高效解码方法,其特征在于:步骤b)中张量M的维度为(2,w,h)。
4.根据权利要求1所述的文字检测中使用的高效解码方法,其特征在于,步骤
l)中AX1、AX2、AX3、AX4的计算方法为:
l-1)
Figure FDA0002813442080000031
计算得到AX1,式中P(3:5,:,:)为张量P的第一个维度取3到5,但不包括5,第二个维度和第三个维度全部包括的区域;
l-2)
Figure FDA0002813442080000032
计算得到AX2,式中P(5:7,:,:)为张量P的第一个维度取5到7,但不包括7,第二个维度和第三个维度全部包括的区域;
l-3)
Figure FDA0002813442080000033
计算得到AX3
l-4)
Figure FDA0002813442080000034
计算得到AX4
CN202011413971.0A 2020-12-03 2020-12-03 一种文字检测中使用的高效解码方法 Active CN112541417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011413971.0A CN112541417B (zh) 2020-12-03 2020-12-03 一种文字检测中使用的高效解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011413971.0A CN112541417B (zh) 2020-12-03 2020-12-03 一种文字检测中使用的高效解码方法

Publications (2)

Publication Number Publication Date
CN112541417A CN112541417A (zh) 2021-03-23
CN112541417B true CN112541417B (zh) 2022-09-16

Family

ID=75016164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011413971.0A Active CN112541417B (zh) 2020-12-03 2020-12-03 一种文字检测中使用的高效解码方法

Country Status (1)

Country Link
CN (1) CN112541417B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110042665A (ko) * 2009-10-19 2011-04-27 전남대학교산학협력단 문자 검출 방법 및 장치
CN104794685A (zh) * 2014-01-17 2015-07-22 腾讯科技(深圳)有限公司 一种实现图像去噪的方法及装置
CN108734187A (zh) * 2017-04-20 2018-11-02 中山大学 一种基于张量奇异值分解的多视图谱聚类算法
CN110020676A (zh) * 2019-03-18 2019-07-16 华南理工大学 基于多感受野深度特征的文本检测方法、系统、设备及介质
CN111191065A (zh) * 2019-12-18 2020-05-22 海尔优家智能科技(北京)有限公司 一种同源图像确定方法及装置
CN111259899A (zh) * 2020-01-13 2020-06-09 华中科技大学 一种喷码字符检测方法
CN111695527A (zh) * 2020-06-15 2020-09-22 内蒙古大学 一种蒙古文在线手写体识别方法
CN111860027A (zh) * 2020-06-11 2020-10-30 贝壳技术有限公司 二维码的识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9292787B2 (en) * 2012-08-29 2016-03-22 Microsoft Technology Licensing, Llc Computer-implemented deep tensor neural network

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110042665A (ko) * 2009-10-19 2011-04-27 전남대학교산학협력단 문자 검출 방법 및 장치
CN104794685A (zh) * 2014-01-17 2015-07-22 腾讯科技(深圳)有限公司 一种实现图像去噪的方法及装置
CN108734187A (zh) * 2017-04-20 2018-11-02 中山大学 一种基于张量奇异值分解的多视图谱聚类算法
CN110020676A (zh) * 2019-03-18 2019-07-16 华南理工大学 基于多感受野深度特征的文本检测方法、系统、设备及介质
CN111191065A (zh) * 2019-12-18 2020-05-22 海尔优家智能科技(北京)有限公司 一种同源图像确定方法及装置
CN111259899A (zh) * 2020-01-13 2020-06-09 华中科技大学 一种喷码字符检测方法
CN111860027A (zh) * 2020-06-11 2020-10-30 贝壳技术有限公司 二维码的识别方法及装置
CN111695527A (zh) * 2020-06-15 2020-09-22 内蒙古大学 一种蒙古文在线手写体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Active Post-refined Multimodality Video Semantic Concept Detection with Tensor Representation;Yanan Liu 等;《Proceedings of the 16th ACM international conference on multimedia》;20081026;第91-100页 *
复杂背景图像中文字区域检测的新方法;马芳 等;《电子设计工程》;20200430;第28卷(第8期);第184-193页 *

Also Published As

Publication number Publication date
CN112541417A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
CN108256562B (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
US11775836B2 (en) Hand pose estimation
CN106599900B (zh) 一种识别图像中的字符串的方法和装置
CN106228240B (zh) 基于fpga的深度卷积神经网络实现方法
CN108647694B (zh) 基于上下文感知和自适应响应的相关滤波目标跟踪方法
CN109741318B (zh) 基于有效感受野的单阶段多尺度特定目标的实时检测方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN109214353B (zh) 一种基于剪枝模型的人脸图像快速检测训练方法和装置
Chen et al. A blind CNN denoising model for random-valued impulse noise
CN112215773B (zh) 基于视觉显著性的局部运动去模糊方法、装置及存储介质
CN108932715B (zh) 一种基于深度学习的冠状动脉造影图分割的优化方法
CN111382759A (zh) 一种像素级分类方法、装置、设备及存储介质
CN112102384A (zh) 一种非刚性医学影像配准方法及系统
Rastegari et al. Enabling AI at the edge with XNOR-networks
CN116977844A (zh) 一种轻量级水下目标实时检测方法
CN107240100B (zh) 一种基于遗传算法的图像分割方法和系统
CN112541417B (zh) 一种文字检测中使用的高效解码方法
CN112907750A (zh) 一种基于卷积神经网络的室内场景布局估计方法及系统
Adel et al. Accelerating deep neural networks using FPGA
US10460189B2 (en) Method and apparatus for determining summation of pixel characteristics for rectangular region of digital image avoiding non-aligned loads using multiple copies of input data
CN111145221A (zh) 一种基于多层深度特征提取的目标跟踪算法
CN109117886B (zh) 一种图像帧中目标尺度与区域估计的方法
CN114913528A (zh) 图像语义分割方法及装置
CN111382834B (zh) 一种置信度比较方法及装置
CN113610016A (zh) 视频帧特征提取模型的训练方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 12 / F, building 1, Aosheng building, 1166 Xinluo street, hi tech Zone, Jinan City, Shandong Province

Patentee after: Zhongyang Health Technology Group Co.,Ltd.

Address before: 12 / F, building 1, Aosheng building, 1166 Xinluo street, high tech Zone, Jinan City, Shandong Province

Patentee before: SHANDONG MSUNHEALTH TECHNOLOGY GROUP Co.,Ltd.