CN112541417A - 一种文字检测中使用的高效解码方法 - Google Patents
一种文字检测中使用的高效解码方法 Download PDFInfo
- Publication number
- CN112541417A CN112541417A CN202011413971.0A CN202011413971A CN112541417A CN 112541417 A CN112541417 A CN 112541417A CN 202011413971 A CN202011413971 A CN 202011413971A CN 112541417 A CN112541417 A CN 112541417A
- Authority
- CN
- China
- Prior art keywords
- pixel
- regression
- tensor
- value
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种文字检测中使用的高效解码方法,使用张量之间的逻辑与按位计算取代了传统的解码方法中的像素迭代计算,本专利的文字检测中使用的解码方法更容易进行并行计算加速,即使不进行并行计算加速,也可以借助X86架构处理器的向量处理单元达到远高于原理解码方法的处理速度。在保证解码效果的前提下,降低了解码的耗时,提高了解码效率。
Description
技术领域
本发明涉及图像中文字检测领域,具体涉及一种文字检测中使用的高效解码方法。
背景技术
文字检测是当今图像领域研究的一个重要问题,在很多行业领域都有应用。而在文字检测中,Advanced-East是一种效果优异的模型,其本质是一种对目标方向和区域同时进行检测的算法模型。该模型中的解码部分,由于依赖像素级的迭代,效率较低,且由于其解码方法在数据上存在行或者列的依赖性,并行优化的效率提升有限。这造成了现在使用Advanced-East模型在做文字检测的时候,由于解码部分的效率过低,导致检测的速度较慢。
如何能够在使用Advanced-East进行图像中文字检测时,在保证解码效果的前提下,降低解码的耗时。并在提升效率的同时,降低硬件的开销。显得尤为重要。
发明内容
本发明为了克服以上技术的不足,提供了一种提高解码效率、降低硬件成本的文字检测中使用的高效解码方法。
本发明克服其技术问题所采用的技术方案是:
一种文字检测中使用的高效解码方法,包括如下步骤:
a)获取运行参数,将目标图像内像素的激活阈值表示为Ti,将头部和尾部回归像素的激活阈值表示为Ts,将尾部回归像素的激活阈值表示为Tt;
b)获取Advanced-East模型的输出张量并表示为P,使用P(i,:,:)表示张量P中第一个维度索引为i,第二个维度索引全部区域,第三个维度索引全部区域,P(0,:,:)为目标内像素的激活概率,P(1,:,:)为头部和尾部回归像素的激活概率;P(2,:,:)为尾部回归像素的激活概率;P(3,:,:)为头部回归像素的左上点横向坐标的差值或尾部回归像素的右下点横向坐标的差值,P(4,:,:)代表头部回归像素的左上点纵向坐标的差值或尾部回归像素点右下点纵向坐标的差值,P(5,:,:)代表头部回归像素的左下点横向坐标的差值或尾部回归像素点右上点横向坐标的差值,P(6,:,:)代表头部回归像素的左下点纵向坐标的差值或尾部回归像素点右上点纵向坐标的差值,获取像素的坐标图,表示为张量M,张量M横向第l列中纵向第n个像素的坐标为M(:,l,n);
c)设置空集合R,用于收集结果;
d)使用高斯模糊方法,对P(0,:,:)进行模糊处理,模糊后的P(0,:,:)表示为PG(0,:,:);
e)对PG(0,:,:)进行二值化处理,处理后的PG(0,:,:)表示为PB(0,:,:);
f)使用连通域分析算法求取PB(0,:,:)中的连通域,将得到的结果表示为矩阵A和值N,矩阵A为每个像素对应的连通域标号,值N为连通域的个数;
g)设置循环变量k=0;
i)如果Yi>Ti,则执行步骤j),如果Yi≤Ti,则使用公式k=k+1更新k的值后,返回执行步骤h);
k)如果Ys>0,则执行步骤l),如果Ys≤0,则使用公式k=k+1更新k的值后,返回执行步骤h);
l)设置临时变量TM,使用公式TM=(A==k)*(P(1,:,:)>Ts)计算更新TM的值,计算得到目标左上角的横向坐标AX1、目标左下角的横向坐标AX2、目标右下角的横向坐标AX3以及目标右上角的横向坐标AX4,将集合{AX1,AX2,AX3,AX4}存入集合R中,如果k<N则使用公式k=k+1更新k的值后,返回执行步骤h),如果k≥N,则执行步骤m);
m)最终集合R为最终解码输出的结果。
进一步的,步骤b)中张量P的维度为(7,w,h),w为输出的宽度,h为输出的高度。
进一步的,步骤b)中张量M的维度为(2,w,h)。
进一步的,步骤l)中AX1、AX2、AX3、AX4的计算方法为:
l-1)
算得到AX1,式中P(3:5,:,:)为张量P的第一个维度取3到5,但不包括5,第二个维度和第三个维度全部包括的区域;
l-2)
l-3)
l-4)
本发明的有益效果是:使用张量之间的逻辑与按位计算取代了传统的解码方法中的像素迭代计算,本专利的文字检测中使用的解码方法更容易进行并行计算加速,即使不进行并行计算加速,也可以借助X86架构处理器的向量处理单元达到远高于原理解码方法的处理速度。在保证解码效果的前提下,降低了解码的耗时,提高了解码效率。
具体实施方式
下面对本发明做进一步说明。
一种文字检测中使用的高效解码方法,包括如下步骤:
a)获取运行参数,将目标图像内像素的激活阈值表示为Ti,将头部和尾部回归像素的激活阈值表示为Ts,将尾部回归像素的激活阈值表示为Tt;
b)获取Advanced-East模型的输出张量并表示为P,使用P(i,:,:)表示张量P中第一个维度索引为i,第二个维度索引全部区域,第三个维度索引全部区域,P(0,:,:)为目标内像素的激活概率,P(1,:,:)为头部和尾部回归像素的激活概率;P(2,:,:)为尾部回归像素的激活概率;P(3,:,:)为头部回归像素的左上点横向坐标的差值或尾部回归像素的右下点横向坐标的差值,P(4,:,:)代表头部回归像素的左上点纵向坐标的差值或尾部回归像素点右下点纵向坐标的差值,P(5,:,:)代表头部回归像素的左下点横向坐标的差值或尾部回归像素点右上点横向坐标的差值,P(6,:,:)代表头部回归像素的左下点纵向坐标的差值或尾部回归像素点右上点纵向坐标的差值,获取像素的坐标图,表示为张量M,张量M横向第l列中纵向第n个像素的坐标为M(:,l,n);
c)设置空集合R,用于收集结果;
d)使用高斯模糊方法,对P(0,:,:)进行模糊处理,模糊后的P(0,:,:)表示为PG(0,:,:);
e)对PG(0,:,:)进行二值化处理,处理后的PG(0,:,:)表示为PB(0,:,:);
f)使用连通域分析算法求取PB(0,:,:)中的连通域,将得到的结果表示为矩阵A和值N,矩阵A为每个像素对应的连通域标号,值N为连通域的个数;
g)设置循环变量k=0;
i)如果Yi>Ti,则执行步骤j),如果Yi≤Ti,则使用公式k=k+1更新k的值后,返回执行步骤h);
k)如果Ys>0,则执行步骤l),如果Ys≤0,则使用公式k=k+1更新k的值后,返回执行步骤h);
l)设置临时变量TM,使用公式TM=(A==k)*(P(1,:,:)>Ts)计算更新TM的值,计算得到目标左上角的横向坐标AX1、目标左下角的横向坐标AX2、目标右下角的横向坐标AX3以及目标右上角的横向坐标AX4,将集合{AX1,AX2,AX3,AX4}存入集合R中,如果k<N则使用公式k=k+1更新k的值后,返回执行步骤h),如果k≥N,则执行步骤m);
m)最终集合R为最终解码输出的结果。
使用张量之间的逻辑与按位计算取代了传统的解码方法中的像素迭代计算,本专利的文字检测中使用的解码方法更容易进行并行计算加速,即使不进行并行计算加速,也可以借助X86架构处理器的向量处理单元达到远高于原理解码方法的处理速度。在保证解码效果的前提下,降低了解码的耗时,提高了解码效率。
实施例1:
步骤b)中张量P的维度为(7,w,h),w为输出的宽度,h为输出的高度。
实施例2:
步骤b)中张量M的维度为(2,w,h)。
实施例3:
步骤l)中AX1、AX2、AX3、AX4的计算方法为:
l-1)
计算得到AX1,式中P(3:5,:,:)为张量P的第一个维度取3到5,但不包括5,第二个维度和第三个维度全部包括的区域。公式中的求和符号仅在张量的最后两个维度求和,第一个维度不匹配时,纬度值为1的张量向纬度值大于1的张量扩展。
l-2)
计算得到AX2,式中P(5:7,:,:)为张量P的第一个维度取5到7,但不包括7,第二个维度和第三个维度全部包括的区域。公式中的求和符号仅在张量的最后两个维度求和,第一个维度不匹配时,纬度值为1的张量向纬度值大于1的张量扩展。
l-3)
计算得到AX3,式中P(3:5,:,:)为张量P的第一个维度取3到5,但不包括5,第二个维度和第三个维度全部包括的区域。公式中的求和符号仅在张量的最后两个维度求和,第一个维度不匹配时,纬度值为1的张量向纬度值大于1的张量扩展。
l-4)
Claims (4)
1.一种文字检测中使用的高效解码方法,其特征在于,包括如下步骤:
a)获取运行参数,将目标图像内像素的激活阈值表示为Ti,将头部和尾部回归像素的激活阈值表示为Ts,将尾部回归像素的激活阈值表示为Tt;
b)获取Advanced-East模型的输出张量并表示为P,使用P(i,:,:)表示张量P中第一个维度索引为i,第二个维度索引全部区域,第三个维度索引全部区域,P(0,:,:)为目标内像素的激活概率,P(1,:,:)为头部和尾部回归像素的激活概率;P(2,:,:)为尾部回归像素的激活概率;P(3,:,:)为头部回归像素的左上点横向坐标的差值或尾部回归像素的右下点横向坐标的差值,P(4,:,:)代表头部回归像素的左上点纵向坐标的差值或尾部回归像素点右下点纵向坐标的差值,P(5,:,:)代表头部回归像素的左下点横向坐标的差值或尾部回归像素点右上点横向坐标的差值,P(6,:,:)代表头部回归像素的左下点纵向坐标的差值或尾部回归像素点右上点纵向坐标的差值,获取像素的坐标图,表示为张量M,张量M横向第l列中纵向第n个像素的坐标为M(:,l,n);
c)设置空集合R,用于收集结果;
d)使用高斯模糊方法,对P(0,:,:)进行模糊处理,模糊后的P(0,:,:)表示为PG(0,:,:);
e)对PG(0,:,:)进行二值化处理,处理后的PG(0,:,:)表示为PB(0,:,:);
f)使用连通域分析算法求取PB(0,:,:)中的连通域,将得到的结果表示为矩阵A和值N,矩阵A为每个像素对应的连通域标号,值N为连通域的个数;
g)设置循环变量k=0;
i)如果Yi>Ti,则执行步骤j),如果Yi≤Ti,则使用公式k=k+1更新k的值后,返回执行步骤h);
j)设置临时变量Ys,通过公式Ys=∑[(A==k)*(P(1,:,:)>Ts)]计算更新Ys的值,式中>为大于的逻辑计算;
k)如果Ys>0,则执行步骤l),如果Ys≤0,则使用公式k=k+1更新k的值后,返回执行步骤h);
l)设置临时变量TM,使用公式TM=(A==k)*(P(1,:,:)>Ts)计算更新TM的值,计算得到目标左上角的横向坐标AX1、目标左下角的横向坐标AX2、目标右下角的横向坐标AX3以及目标右上角的横向坐标AX4,将集合{AX1,AX2,AX3,AX4}存入集合R中,如果k<N则使用公式k=k+1更新k的值后,返回执行步骤h),如果k≥N,则执行步骤m);
m)最终集合R为最终解码输出的结果。
2.根据权利要求1所述的文字检测中使用的高效解码方法,其特征在于:步骤b)中张量P的维度为(7,w,h),w为输出的宽度,h为输出的高度。
3.根据权利要求1所述的文字检测中使用的高效解码方法,其特征在于:步骤b)中张量M的维度为(2,w,h)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011413971.0A CN112541417B (zh) | 2020-12-03 | 2020-12-03 | 一种文字检测中使用的高效解码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011413971.0A CN112541417B (zh) | 2020-12-03 | 2020-12-03 | 一种文字检测中使用的高效解码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112541417A true CN112541417A (zh) | 2021-03-23 |
CN112541417B CN112541417B (zh) | 2022-09-16 |
Family
ID=75016164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011413971.0A Active CN112541417B (zh) | 2020-12-03 | 2020-12-03 | 一种文字检测中使用的高效解码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541417B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110042665A (ko) * | 2009-10-19 | 2011-04-27 | 전남대학교산학협력단 | 문자 검출 방법 및 장치 |
US20140067735A1 (en) * | 2012-08-29 | 2014-03-06 | Microsoft Corporation | Computer-implemented deep tensor neural network |
CN104794685A (zh) * | 2014-01-17 | 2015-07-22 | 腾讯科技(深圳)有限公司 | 一种实现图像去噪的方法及装置 |
CN108734187A (zh) * | 2017-04-20 | 2018-11-02 | 中山大学 | 一种基于张量奇异值分解的多视图谱聚类算法 |
CN110020676A (zh) * | 2019-03-18 | 2019-07-16 | 华南理工大学 | 基于多感受野深度特征的文本检测方法、系统、设备及介质 |
CN111191065A (zh) * | 2019-12-18 | 2020-05-22 | 海尔优家智能科技(北京)有限公司 | 一种同源图像确定方法及装置 |
CN111259899A (zh) * | 2020-01-13 | 2020-06-09 | 华中科技大学 | 一种喷码字符检测方法 |
CN111695527A (zh) * | 2020-06-15 | 2020-09-22 | 内蒙古大学 | 一种蒙古文在线手写体识别方法 |
CN111860027A (zh) * | 2020-06-11 | 2020-10-30 | 贝壳技术有限公司 | 二维码的识别方法及装置 |
-
2020
- 2020-12-03 CN CN202011413971.0A patent/CN112541417B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110042665A (ko) * | 2009-10-19 | 2011-04-27 | 전남대학교산학협력단 | 문자 검출 방법 및 장치 |
US20140067735A1 (en) * | 2012-08-29 | 2014-03-06 | Microsoft Corporation | Computer-implemented deep tensor neural network |
CN104794685A (zh) * | 2014-01-17 | 2015-07-22 | 腾讯科技(深圳)有限公司 | 一种实现图像去噪的方法及装置 |
CN108734187A (zh) * | 2017-04-20 | 2018-11-02 | 中山大学 | 一种基于张量奇异值分解的多视图谱聚类算法 |
CN110020676A (zh) * | 2019-03-18 | 2019-07-16 | 华南理工大学 | 基于多感受野深度特征的文本检测方法、系统、设备及介质 |
CN111191065A (zh) * | 2019-12-18 | 2020-05-22 | 海尔优家智能科技(北京)有限公司 | 一种同源图像确定方法及装置 |
CN111259899A (zh) * | 2020-01-13 | 2020-06-09 | 华中科技大学 | 一种喷码字符检测方法 |
CN111860027A (zh) * | 2020-06-11 | 2020-10-30 | 贝壳技术有限公司 | 二维码的识别方法及装置 |
CN111695527A (zh) * | 2020-06-15 | 2020-09-22 | 内蒙古大学 | 一种蒙古文在线手写体识别方法 |
Non-Patent Citations (2)
Title |
---|
YANAN LIU 等: "Active Post-refined Multimodality Video Semantic Concept Detection with Tensor Representation", 《PROCEEDINGS OF THE 16TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 * |
马芳 等: "复杂背景图像中文字区域检测的新方法", 《电子设计工程》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112541417B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11775836B2 (en) | Hand pose estimation | |
CN106599900B (zh) | 一种识别图像中的字符串的方法和装置 | |
CN106228240B (zh) | 基于fpga的深度卷积神经网络实现方法 | |
CN108647694B (zh) | 基于上下文感知和自适应响应的相关滤波目标跟踪方法 | |
CN109472792B (zh) | 结合局部熵的局部能量泛函与非凸正则项的图像分割方法 | |
CN112330719B (zh) | 基于特征图分割和自适应融合的深度学习目标跟踪方法 | |
Chen et al. | A blind CNN denoising model for random-valued impulse noise | |
CN111310609B (zh) | 基于时序信息和局部特征相似性的视频目标检测方法 | |
CN112528845B (zh) | 一种基于深度学习的物理电路图识别方法及其应用 | |
CN111382759A (zh) | 一种像素级分类方法、装置、设备及存储介质 | |
CN108932715B (zh) | 一种基于深度学习的冠状动脉造影图分割的优化方法 | |
CN108062559A (zh) | 一种基于多重感受野的图像分类方法、系统及装置 | |
CN116309668A (zh) | 基于改进灰狼优化算法的复杂图像多阈值分割方法 | |
Rastegari et al. | Enabling AI at the edge with XNOR-networks | |
CN107240100B (zh) | 一种基于遗传算法的图像分割方法和系统 | |
CN112541417B (zh) | 一种文字检测中使用的高效解码方法 | |
Adel et al. | Accelerating deep neural networks using FPGA | |
CN111145221A (zh) | 一种基于多层深度特征提取的目标跟踪算法 | |
US10460189B2 (en) | Method and apparatus for determining summation of pixel characteristics for rectangular region of digital image avoiding non-aligned loads using multiple copies of input data | |
Liu et al. | A novel histogram region merging based multithreshold segmentation algorithm for MR brain images | |
Liang et al. | NLKD: Using coarse annotations for semantic segmentation based on knowledge distillation | |
CN110570450A (zh) | 一种基于级联的上下文感知框架的目标跟踪方法 | |
CN111783979B (zh) | 一种基于ssim算法的图像相似度检测硬件加速器vlsi结构 | |
CN115170599A (zh) | 通过图神经网络的链路预测进行血管分割的方法和装置 | |
Alaeddine et al. | A CONVblock for convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 12 / F, building 1, Aosheng building, 1166 Xinluo street, hi tech Zone, Jinan City, Shandong Province Patentee after: Zhongyang Health Technology Group Co.,Ltd. Address before: 12 / F, building 1, Aosheng building, 1166 Xinluo street, high tech Zone, Jinan City, Shandong Province Patentee before: SHANDONG MSUNHEALTH TECHNOLOGY GROUP Co.,Ltd. |