CN112418220A - 一种单字检测方法、装置、设备及介质 - Google Patents
一种单字检测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112418220A CN112418220A CN202011389988.7A CN202011389988A CN112418220A CN 112418220 A CN112418220 A CN 112418220A CN 202011389988 A CN202011389988 A CN 202011389988A CN 112418220 A CN112418220 A CN 112418220A
- Authority
- CN
- China
- Prior art keywords
- target
- training
- initial
- sample
- box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 82
- 238000003062 neural network model Methods 0.000 claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 238000009825 accumulation Methods 0.000 claims description 6
- 230000000750 progressive effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 101100517651 Caenorhabditis elegans num-1 gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本申请公开了一种单字检测方法、装置、设备及介质,包括:获取训练样本集,训练样本集中的初始样本为包括初始box标签的文本图像,初始box标签为文本块的位置标签;针对任一初始样本,基于初始box标签生成多个尺度的目标box标签,得到目标样本;利用目标样本对初始神经网络模型进行训练,得到训练后模型;当获取到待检测文本图像,利用训练后模型输出多个包括预测box信息的第一特征图,不同第一特征图的预测box信息尺度不同;基于预测box信息对全部第一特征图进行合并,以得到第二特征图以及目标box信息;从第二特征图中提取出文本块图像;利用MSER算法输出文本块图像的单字检测结果。能够提升单字检测的鲁棒性。
Description
技术领域
本申请涉及深度学习技术领域,特别涉及一种单字检测方法、装置、设备及介质。
背景技术
随着人工智能技术的发展,将深度学习应用于图像目标检测领域得到广泛研究,目前,大量研究都是基于文本检测与识别,而基于单字检测的研究少之甚少,若直接使用传统图像算法比如MSER(即Maximally Stable Extremal Regions,最大极值稳定区域)算法进行单字检测,将会由于背景的复杂性出现大量错检的情况,影响了检测的鲁棒性。
发明内容
有鉴于此,本申请的目的在于提供一种单字检测方法、装置、设备及介质,能够降低图像背景复杂性引起的错检率,从而提升单字检测的鲁棒性。其具体方案如下:
第一方面,本申请公开了一种单字检测方法,包括:
获取训练样本集,其中,所述训练样本集中的初始样本为包括初始box标签的文本图像,并且,所述初始box标签为文本块的位置标签;
针对所述训练样本集中的任一所述初始样本,基于所述初始box标签生成多个尺度的目标box标签,得到对应的目标样本;
利用所述目标样本对初始神经网络模型进行训练,得到训练后模型;
当获取到待检测文本图像,则利用所述训练后模型输出所述待检测文本图像对应的多个包括预测box信息的第一特征图,不同所述第一特征图的所述预测box信息的尺度不同;
基于所述预测box信息对全部所述第一特征图进行合并,以得到第二特征图以及目标box信息;
基于所述目标box信息从所述第二特征图中提取出对应的文本块图像;
利用预设MSER算法输出所述文本块图像的单字检测结果。
可选的,所述基于所述预测box信息对全部所述第一特征图进行合并,以得到第二特征图以及目标box信息,包括:
对全部所述第一特征图进行合并,基于所述预测box信息利用渐进尺度扩张算法确定连通区域,得到所述第二特征图;
计算每个所述连通区域的最小外接矩阵,得到所述目标box信息。
可选的,所述计算每个所述连通区域的最小外接矩阵,得到所述目标box信息之前,还包括:
计算每个所述连通区域的平均像素值,判断所述平均像素值是否大于预设阈值,若否,则将对应的所述连通区域过滤。
可选的,所述初始神经网络模型为基于FPN结构的ResNet18网络模型,其中,所述ResNet18网络模型的Basicblock中的下采样卷积层采用分组卷积运算。
可选的,所述利用所述目标样本对初始神经网络模型进行训练,得到训练后模型,包括:
通过所述初始神经网络模型中多个卷积层提取所述目标样本的特征,得到多个不同尺寸的第三特征图;
基于所述FPN结构对多个所述第三特征图进行特征融合,得到对应的多个尺寸的第四特征图;
以像素累加的方式对多个所述第四特征图进行融合,得到融合特征图;
基于所述融合特征图确定训练结果;
基于所述训练结果利用预设损失函数计算训练损失;
利用所述训练损失更新所述初始神经网络模型;
当所述训练损失满足预设收敛条件,则输出所述训练后模型。
可选的,所述利用所述目标样本对初始神经网络模型进行训练之前,还包括:
利用所述目标样本进行数据增强处理,得到增强样本;
相应的,所述利用所述目标样本对初始神经网络模型进行训练,包括:
利用所述目标样本以及所述增强样本对所述初始神经网络模型进行训练。
可选的,所述利用所述目标样本进行数据增强处理,得到增强样本,包括:
对所述目标样本进行随机旋转和/或缩放和/或裁剪和/或噪声模糊,以得到所述增强样本。
第二方面,本申请公开了一种单字检测装置,包括:
样本集获取模块,用于获取训练样本集,其中,所述训练样本集中的初始样本为包括初始box标签的文本图像,并且,所述初始box标签为文本块的位置标签;
目标样本获取模块,用于针对所述训练样本集中的任一所述初始样本,基于所述初始box标签生成多个尺度的目标box标签,得到对应的目标样本;
模型训练模块,用于利用所述目标样本对初始神经网络模型进行训练,得到训练后模型;
特征输出模块,用于当获取到待检测文本图像,则利用所述训练后模型输出所述待检测文本图像对应的多个包括预测box信息的第一特征图,不同所述第一特征图的所述预测box信息的尺度不同;
特征合并模块,用于基于所述预测box信息对全部所述第一特征图进行合并,以得到第二特征图以及目标box信息;
文本块图像提取模块,用于基于所述目标box信息从所述第二特征图中提取出对应的文本块图像;
单字检测模块,用于利用预设MSER算法输出所述文本块图像的单字检测结果。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述的单字检测方法。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的单字检测方法。
可见,本申请先获取训练样本集,所述训练样本集中的初始样本为包括初始box标签的文本图像,所述初始box标签为文本块的位置标签,然后针对所述训练样本集中的任一所述初始样本,基于所述初始box标签生成多个尺度的目标box标签,得到对应的目标样本,之后利用所述目标样本对初始神经网络模型进行训练,得到训练后模型,当获取到待检测文本图像,则利用所述训练后模型输出所述待检测文本图像对应的多个包括预测box信息的第一特征图,不同所述第一特征图的所述预测box信息的尺度不同,然后基于所述预测box信息对全部所述第一特征图进行合并,以得到第二特征图以及目标box信息,之后基于所述目标box信息从所述第二特征图中提取出对应的文本块图像,最后利用预设MSER算法输出所述文本块图像的单字检测结果。也即,本申请实施例先利用训练样本训练神经网络模型,当获取到待检测文本图像,则利用训练后模型输出包括多个包括不同尺度预测box信息的第一特征图,进行合并后提取出文本块图像,利用预设MSER算法输出文本块图像的单字检测结果,这样,先基于训练后模型提取待检测文本图像的文本块图像,然后再利用预设MSER算法输出所述文本块图像的单字检测结果,能够降低图像背景复杂性引起的错检率,从而提升单字检测的鲁棒性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种单字检测方法流程图;
图2为本申请公开的一种具体的单字检测示意图;
图3为本申请公开的一种单字检测装置结构示意图;
图4为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着人工智能技术的发展,将深度学习应用于图像目标检测领域得到广泛研究,目前,大量研究都是基于文本检测与识别,而基于单字检测的研究少之甚少,若直接使用传统图像算法比如MSER算法进行单字检测,将会由于背景的复杂性出现大量错检的情况,影响了检测的鲁棒性。为此,本申请提供了一种单字检测方案,能够降低图像背景复杂性引起的错检率,从而提升单字检测的鲁棒性。
参见图1所示,本申请实施例公开了一种单字检测方法,包括:
步骤S11:获取训练样本集,其中,所述训练样本集中的初始样本为包括初始box标签的文本图像,并且,所述初始box标签为文本块的位置标签。
在具体的实施方式中,可以从网上收集下载三种公开的中文数据集,分别是MSR-TD500数据集,MTWI2018数据集,和RCTW2017数据集,以及结合具体用于场景收集对应的数据集,比如收集批票据数据集。并为每个样本数据生成需要的标签,审查清洗数据,并制作训练集和测试集,以得到训练样本集。
其中,文本块可以为单行文本。
步骤S12:针对所述训练样本集中的任一所述初始样本,基于所述初始box标签生成多个尺度的目标box标签,得到对应的目标样本。
在具体的实施方式中,可以先对训练样本集中的每个初始样本的初始box标签,即box坐标以不同缩放比例进行缩小,例如,可以对初始box进行缩小,最终得到5个不同尺寸的目标box标签,具体的,设置kernel_num=5,生成包括5种尺度的目标box标签的目标样本,这样,对于模型输出,则有五种包括不同尺度box标签的分割mask,对于一个目标样本,会被处理成都是0/1的二值化分割图s1,s2,s3,s4,s5。其中,S1为原始完整标注尺度获得的分割图。另外,获取不同尺寸box标签的收缩率的计算方式为:
ri=1.0-(1.0-min_scale)/(kernel_num-1)*i,(i=1,2,3,4;min_scale=0.4),其中,min_scale为缩小比例值。
再依次获取,相比较于原始标注尺度需要缩小的像素量offset,最终经过计算得到要缩小的像素量offset,得到分割图s2,s3,s4,s5。Offset的计算方式如下:
0ffset=Area(box)(1-ri)/Perimeter(box);
其中,Area(box)为初始box的面积,Perimeter(box)为初始box的周长。
关于上述计算收缩率以及像素量offset以及基于像素量offset确定分割图的具体过程,可参考现有技术。
步骤S13:利用所述目标样本对初始神经网络模型进行训练,得到训练后模型。
其中,所述初始神经网络模型为基于FPN(Feature Pyramid Networks,特征金字塔网络)结构的ResNet18网络模型,其中,所述ResNet18网络模型的Basicblock中的下采样卷积层采用分组卷积运算。
在具体的实施方式中,可以通过所述初始神经网络模型中多个卷积层提取所述目标样本的特征,得到多个不同尺寸的第三特征图;基于所述FPN结构对多个所述第三特征图进行特征融合,得到对应的多个尺寸的第四特征图;以像素累加的方式对多个所述第四特征图进行融合,得到融合特征图;基于所述融合特征图确定训练结果;基于所述训练结果利用预设损失函数计算训练损失;利用所述训练损失更新所述初始神经网络模型;当所述训练损失满足预设收敛条件,则输出所述训练后模型。
其中,所述基于所述融合特征图确定训练结果具体包括:对所述融合特征图进行预设个数的卷积操作以及upsampling和sigmoid操作,得到所述训练结果,所述训练结果为多个分割特征图,每个所述分割特征图的box标签尺度不同。
具体的,基于所述FPN结构自顶向下的对多个所述第三特征图进行特征融合,得到对应的多个尺寸的第四特征图;
具体的,在自底向上前向传播的过程中,为了减少参数量,本实施例可以将ResNet18模型的BasicBlock模块中的第一个卷积层由3*3卷积改为1*1卷积,BasicBlock模块中的下采样卷积层采用分组卷积运算,其中,可以设置参数groups(组数)=32,使用基于resnet18网络中每个阶段的最后一个残差结构的特征激活输出,将这些残差模块输出表示为{C2,C3,C4,C5},这些也是对应于卷积层conv_2x、conv_3x、conv_4x、conv_5x的输出,即第三特征图。其中,分组卷积可以包括:将卷积层的输入特征图进行分组如组数g=32,每个卷积核也相应的分成组,在对应的组内做卷积,各自组内的特征图与对应的卷积核进行卷积。每组卷积都生成一个新的特征图,共生成32组。将32组结果进行拼接,则分组卷积得到的参数量是标准卷积的1/32。
进一步的,由于网络的高层语义信息更加丰富,因此采用自上而下Top-down操作,即把高层特征做2倍上采样,然后和将其对应的前一层特征以像素累加的方式融合,也即,多尺度特征图{c2,c3,c4,c5}来获取精细的融合特征层feature map{p2,p3,p4,p5}即第四特征图,前述第三特征图得到第四特征图的过程可参考现有技术。对应的层空间尺寸是相同的,即p5和c5尺寸相同,P4和c4尺寸相同,P3和C3尺寸相同,P2和C2尺寸相同;并且,每层的通道数都是256。然后feature map分别上采样2,4,8倍(与p2尺寸一致),以像素累加的方式进行融合,得到通道数为256的融合特征图,相对于现有技术中的直接进行叠加得到256*4通道数的特征图,这样可以减少模型计算的参数,提升模型预测时间。最后融合特征图经过n个conv_1*1卷积+upsampling+sigmoid操作得到目标样本对应的5个分割mask,即二值化分割图s1,s2,s3,s4,s5。
例如,参见图2所示,图2为本申请实施例公开的一种具体的单字检测示意图。
在具体的实施方式中,损失函数的定义如下:
L=λLc+(1-λ)Ls;
其中,其中,Lc和Ls分别表示完整文本实例和收缩文本实例的损失。两种损失的计算公式如下:
Lc=1-D(Sn·M,Gn·M)
其中,M为OHEM输出的掩码,W表示原始的文本区域的掩码,上式中Si,x,y和Gi,x,y分别代表在位置(x,y)处分割结果Si和groundtruthSi的值。
步骤S14:当获取到待检测文本图像,则利用所述训练后模型输出所述待检测文本图像对应的多个包括预测box信息的第一特征图,不同所述第一特征图的所述预测box信息的尺度不同。
步骤S15:基于所述预测box信息对全部所述第一特征图进行合并,以得到第二特征图以及目标box信息。
在具体的实施方式中,可以对全部所述第一特征图进行合并,基于所述预测box信息利用渐进尺度扩张算法确定连通区域,得到所述第二特征图,然后计算每个所述连通区域的最小外接矩阵,得到所述目标box信息。
并且,在计算每个所述连通区域的最小外接矩阵,得到所述目标box信息之前,还包括:
计算每个所述连通区域的平均像素值,判断所述平均像素值是否大于预设阈值,若否,则将对应的所述连通区域过滤。
也即,本实施例对多个包括预测box信息的第一特征图进行渐进式扩展算法(PSE,Progressive Scale Expansion)来得到连通区域,其主要采用广度优先搜索算法,在对特征图,即多个分割结果进行合并过程中遇到冲突的情况下,采用先到先得的方式,并且,可以根据合并后的预测特征图信息计算连通区域的平均像素得分情况对连通区域进行过滤筛选,最终利用Opencv方法获取最小外接矩阵,得到图像中的文本检测框,获取检测框的左上角和右下角坐标数据,即目标box信息。
步骤S16:基于所述目标box信息从所述第二特征图中提取出对应的文本块图像。
步骤S17:利用预设MSER算法输出所述文本块图像的单字检测结果。
在具体的实施方式中,对于得到的每一个文本块图像输入预设MSER算法,该算法为现有技术中的一种MSER算法,主要是先进行ER树的构建。将切割的文本块图像转化为灰度图,通过设置不同阈值得到不同的二值图像,即一个灰度图可得到很多个极大值区域ER,将这些ER构建成一个树型的结构,并设置参数delta值为6,在一个ER的全路径上计算稳定性值var,获取稳定的ER区域,var计算方式如下:
其中,Rt表示一个极值区域,t表示不同阈值,t的不同可获取不同的极值区域。参数delta值为设6,它主要是保证对候选字符提取的数量不会太大也不会太小。
然后根据获取的全路径ER区域进行子路径规划与裁剪,以子路径的形式加以划分,选择子路径中最稳定的区域作为最小稳定区域提取出来。其中一个路径被划分为子路径的依据是两个相邻的ER之间的相似度S小于阈值0.7。其相似度S计算方式如下:
其中,A为相邻连通区域的面积。
接着对子路径中长度较短的区域进行排除。并对最终确定的连通区域冗余部分得到最小外接矩阵,进行NMS(即Non Maximum Suppression,非极大值抑制)算法过滤。
进一步的,由于中文汉字之间存在一定的间隔,因此该方法中可较好检测出单字。并且输入改进MSER算法是单行文本图片,减小了单字检测后处理的复杂性。由于中文汉字的结构多样性,算法的检测结果存在一个汉字由多个框构成的情况,因此制定规则进行后处理,进而得到一系列的单字信息。
在具体的实施方式中,可以基于预设限制条件遍历MSER算法以及NMS算法输出结果中的box检测框,输出优化检测结果。
具体的,可以预设限制条件如下:
对于上下结构框多框,a:相邻两个单字检测框box1、box2中心点x坐标差值不大于两者中宽的最大值的1/2;b:box1的右下角y值减去box2的右上角的y值小于0;c:box1的中心点的y值小于box2的中心点的y值。对于左右结构多框,a:两个相邻的box来说,对于box1与box2中,两者的中心点y坐标值之差小于0.3;其连通区域的像素之差小于较小连通区域的点数的5倍;c:两个连通域宽度之差小于较宽连通域宽度的1/2。
对于一个框包含多个小框结构,遍历每个box,设当前box左上角坐标(x1,y1)右下角坐标(x2,y2),对于满足左上角坐标值(x0,y0)大于(x1,y1)以及右下角坐标值(x,y)小于(x2,y2)的box,进行删除。
进一步的,在一些实施例中,可以利用所述目标样本进行数据增强处理,得到增强样本;相应的,所述利用所述目标样本对初始神经网络模型进行训练,包括:利用所述目标样本以及所述增强样本对所述初始神经网络模型进行训练。
其中,所述利用所述目标样本进行数据增强处理,得到增强样本,包括:
对所述目标样本进行随机旋转和/或缩放和/或裁剪和/或噪声模糊,以得到所述增强样本。
可见,本申请实施例先获取训练样本集,所述训练样本集中的初始样本为包括初始box标签的文本图像,所述初始box标签为文本块的位置标签,然后针对所述训练样本集中的任一所述初始样本,基于所述初始box标签生成多个尺度的目标box标签,得到对应的目标样本,之后利用所述目标样本对初始神经网络模型进行训练,得到训练后模型,当获取到待检测文本图像,则利用所述训练后模型输出所述待检测文本图像对应的多个包括预测box信息的第一特征图,不同所述第一特征图的所述预测box信息的尺度不同,然后基于所述预测box信息对全部所述第一特征图进行合并,以得到第二特征图以及目标box信息,之后基于所述目标box信息从所述第二特征图中提取出对应的文本块图像,最后利用预设MSER算法输出所述文本块图像的单字检测结果。也即,本申请实施例先利用训练样本训练神经网络模型,当获取到待检测文本图像,则利用训练后模型输出包括多个包括不同尺度预测box信息的第一特征图,进行合并后提取出文本块图像,利用预设MSER算法输出文本块图像的单字检测结果,这样,先基于训练后模型提取待检测文本图像的文本块图像,然后再利用预设MSER算法输出所述文本块图像的单字检测结果,能够降低图像背景复杂性引起的错检率,从而提升单字检测的鲁棒性。
第二方面,本申请公开了一种单字检测装置,包括:
样本集获取模块11,用于获取训练样本集,其中,所述训练样本集中的初始样本为包括初始box标签的文本图像,并且,所述初始box标签为文本块的位置标签;
目标样本获取模块12,用于针对所述训练样本集中的任一所述初始样本,基于所述初始box标签生成多个尺度的目标box标签,得到对应的目标样本;
模型训练模块13,用于利用所述目标样本对初始神经网络模型进行训练,得到训练后模型;
特征输出模块14,用于当获取到待检测文本图像,则利用所述训练后模型输出所述待检测文本图像对应的多个包括预测box信息的第一特征图,不同所述第一特征图的所述预测box信息的尺度不同;
特征合并模块15,用于基于所述预测box信息对全部所述第一特征图进行合并,以得到第二特征图以及目标box信息;
文本块图像提取模块16,用于基于所述目标box信息从所述第二特征图中提取出对应的文本块图像;
单字检测模块17,用于利用预设MSER算法输出所述文本块图像的单字检测结果。
可见,本申请实施例先获取训练样本集,所述训练样本集中的初始样本为包括初始box标签的文本图像,所述初始box标签为文本块的位置标签,然后针对所述训练样本集中的任一所述初始样本,基于所述初始box标签生成多个尺度的目标box标签,得到对应的目标样本,之后利用所述目标样本对初始神经网络模型进行训练,得到训练后模型,当获取到待检测文本图像,则利用所述训练后模型输出所述待检测文本图像对应的多个包括预测box信息的第一特征图,不同所述第一特征图的所述预测box信息的尺度不同,然后基于所述预测box信息对全部所述第一特征图进行合并,以得到第二特征图以及目标box信息,之后基于所述目标box信息从所述第二特征图中提取出对应的文本块图像,最后利用预设MSER算法输出所述文本块图像的单字检测结果。也即,本申请实施例先利用训练样本训练神经网络模型,当获取到待检测文本图像,则利用训练后模型输出包括多个包括不同尺度预测box信息的第一特征图,进行合并后提取出文本块图像,利用预设MSER算法输出文本块图像的单字检测结果,这样,先基于训练后模型提取待检测文本图像的文本块图像,然后再利用预设MSER算法输出所述文本块图像的单字检测结果,能够降低图像背景复杂性引起的错检率,从而提升单字检测的鲁棒性。
其中,所述特征合并模块15,具体用于对全部所述第一特征图进行合并,基于所述预测box信息利用渐进尺度扩张算法确定连通区域,得到所述第二特征图;计算每个所述连通区域的最小外接矩阵,得到所述目标box信息。
并且,所述特征合并模块15,还用于在计算每个所述连通区域的最小外接矩阵,得到所述目标box信息之前,计算每个所述连通区域的平均像素值,判断所述平均像素值是否大于预设阈值,若否,则将对应的所述连通区域过滤。
其中,所述初始神经网络模型为基于FPN结构的ResNet18网络模型,其中,所述ResNet18网络模型的Basicblock中的下采样卷积层采用分组卷积运算。
所述模型训练模块13,具体用于通过所述初始神经网络模型中多个卷积层提取所述目标样本的特征,得到多个不同尺寸的第三特征图;
基于所述FPN结构对多个所述第三特征图进行特征融合,得到对应的多个尺寸的第四特征图;
以像素累加的方式对多个所述第四特征图进行融合,得到融合特征图;
基于所述融合特征图确定训练结果;
基于所述训练结果利用预设损失函数计算训练损失;
利用所述训练损失更新所述初始神经网络模型;当所述训练损失满足预设收敛条件,则输出所述训练后模型。
所述装置还包括数据增强模块,用于利用所述目标样本进行数据增强处理,得到增强样本;
相应的,所述模型训练模块13,具体用于利用所述目标样本以及所述增强样本对所述初始神经网络模型进行训练。
在具体的实施方式中,所述数据增强模块,用于对所述目标样本进行随机旋转和/或缩放和/或裁剪和/或噪声模糊,以得到所述增强样本。
参见图4所示,本申请实施例公开了一种电子设备,包括处理器21和存储器22;其中,所述存储器22,用于保存计算机程序;所述处理器21,用于执行所述计算机程序,以实现前述实施例公开的单字检测方法。
关于上述单字检测方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步的,本申请实施例还公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述实施例公开的单字检测方法。
关于上述单字检测方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种单字检测方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种单字检测方法,其特征在于,包括:
获取训练样本集,其中,所述训练样本集中的初始样本为包括初始box标签的文本图像,并且,所述初始box标签为文本块的位置标签;
针对所述训练样本集中的任一所述初始样本,基于所述初始box标签生成多个尺度的目标box标签,得到对应的目标样本;
利用所述目标样本对初始神经网络模型进行训练,得到训练后模型;
当获取到待检测文本图像,则利用所述训练后模型输出所述待检测文本图像对应的多个包括预测box信息的第一特征图,不同所述第一特征图的所述预测box信息的尺度不同;
基于所述预测box信息对全部所述第一特征图进行合并,以得到第二特征图以及目标box信息;
基于所述目标box信息从所述第二特征图中提取出对应的文本块图像;
利用预设MSER算法输出所述文本块图像的单字检测结果。
2.根据权利要求1所述的单字检测方法,其特征在于,所述基于所述预测box信息对全部所述第一特征图进行合并,以得到第二特征图以及目标box信息,包括:
对全部所述第一特征图进行合并,基于所述预测box信息利用渐进尺度扩张算法确定连通区域,得到所述第二特征图;
计算每个所述连通区域的最小外接矩阵,得到所述目标box信息。
3.根据权利要求2所述的单字检测方法,其特征在于,所述计算每个所述连通区域的最小外接矩阵,得到所述目标box信息之前,还包括:
计算每个所述连通区域的平均像素值,判断所述平均像素值是否大于预设阈值,若否,则将对应的所述连通区域过滤。
4.根据权利要求1所述的单字检测方法,其特征在于,所述初始神经网络模型为基于FPN结构的ResNet18网络模型,其中,所述ResNet18网络模型的Basicblock中的下采样卷积层采用分组卷积运算。
5.根据权利要求4所述的单字检测方法,其特征在于,所述利用所述目标样本对初始神经网络模型进行训练,得到训练后模型,包括:
通过所述初始神经网络模型中多个卷积层提取所述目标样本的特征,得到多个不同尺寸的第三特征图;
基于所述FPN结构对多个所述第三特征图进行特征融合,得到对应的多个尺寸的第四特征图;
以像素累加的方式对多个所述第四特征图进行融合,得到融合特征图;
基于所述融合特征图确定训练结果;
基于所述训练结果利用预设损失函数计算训练损失;
利用所述训练损失更新所述初始神经网络模型;
当所述训练损失满足预设收敛条件,则输出所述训练后模型。
6.根据权利要求1所述的单字检测方法,其特征在于,所述利用所述目标样本对初始神经网络模型进行训练之前,还包括:
利用所述目标样本进行数据增强处理,得到增强样本;
相应的,所述利用所述目标样本对初始神经网络模型进行训练,包括:
利用所述目标样本以及所述增强样本对所述初始神经网络模型进行训练。
7.根据权利要求6所述的单字检测方法,其特征在于,所述利用所述目标样本进行数据增强处理,得到增强样本,包括:
对所述目标样本进行随机旋转和/或缩放和/或裁剪和/或噪声模糊,以得到所述增强样本。
8.一种单字检测装置,其特征在于,包括:
样本集获取模块,用于获取训练样本集,其中,所述训练样本集中的初始样本为包括初始box标签的文本图像,并且,所述初始box标签为文本块的位置标签;
目标样本获取模块,用于针对所述训练样本集中的任一所述初始样本,基于所述初始box标签生成多个尺度的目标box标签,得到对应的目标样本;
模型训练模块,用于利用所述目标样本对初始神经网络模型进行训练,得到训练后模型;
特征输出模块,用于当获取到待检测文本图像,则利用所述训练后模型输出所述待检测文本图像对应的多个包括预测box信息的第一特征图,不同所述第一特征图的所述预测box信息的尺度不同;
特征合并模块,用于基于所述预测box信息对全部所述第一特征图进行合并,以得到第二特征图以及目标box信息;
文本块图像提取模块,用于基于所述目标box信息从所述第二特征图中提取出对应的文本块图像;
单字检测模块,用于利用预设MSER算法输出所述文本块图像的单字检测结果。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的单字检测方法。
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的单字检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011389988.7A CN112418220A (zh) | 2020-12-02 | 2020-12-02 | 一种单字检测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011389988.7A CN112418220A (zh) | 2020-12-02 | 2020-12-02 | 一种单字检测方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112418220A true CN112418220A (zh) | 2021-02-26 |
Family
ID=74829547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011389988.7A Pending CN112418220A (zh) | 2020-12-02 | 2020-12-02 | 一种单字检测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418220A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115393868A (zh) * | 2022-08-18 | 2022-11-25 | 中化现代农业有限公司 | 文本检测方法、装置、电子设备和存储介质 |
CN116993963A (zh) * | 2023-09-21 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503715A (zh) * | 2016-11-07 | 2017-03-15 | 南京大学 | 基于深度学习的自然场景多语言文本检测方法 |
CN107038409A (zh) * | 2016-02-03 | 2017-08-11 | 斯特拉德视觉公司 | 检测图像中所含文本的方法、装置和计算机可读记录介质 |
CN110032998A (zh) * | 2019-03-18 | 2019-07-19 | 华南师范大学 | 自然场景图片的文字检测方法、系统、装置和存储介质 |
US10445569B1 (en) * | 2016-08-30 | 2019-10-15 | A9.Com, Inc. | Combination of heterogeneous recognizer for image-based character recognition |
CN110633646A (zh) * | 2019-08-21 | 2019-12-31 | 数字广东网络建设有限公司 | 图像敏感信息检测的方法、装置、计算机设备和存储介质 |
CN111402226A (zh) * | 2020-03-13 | 2020-07-10 | 浙江工业大学 | 一种基于级联卷积神经网络的表面疵点检测方法 |
CN111476309A (zh) * | 2020-04-13 | 2020-07-31 | 北京字节跳动网络技术有限公司 | 图像处理方法、模型训练方法、装置、设备及可读介质 |
-
2020
- 2020-12-02 CN CN202011389988.7A patent/CN112418220A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038409A (zh) * | 2016-02-03 | 2017-08-11 | 斯特拉德视觉公司 | 检测图像中所含文本的方法、装置和计算机可读记录介质 |
US10445569B1 (en) * | 2016-08-30 | 2019-10-15 | A9.Com, Inc. | Combination of heterogeneous recognizer for image-based character recognition |
CN106503715A (zh) * | 2016-11-07 | 2017-03-15 | 南京大学 | 基于深度学习的自然场景多语言文本检测方法 |
CN110032998A (zh) * | 2019-03-18 | 2019-07-19 | 华南师范大学 | 自然场景图片的文字检测方法、系统、装置和存储介质 |
CN110633646A (zh) * | 2019-08-21 | 2019-12-31 | 数字广东网络建设有限公司 | 图像敏感信息检测的方法、装置、计算机设备和存储介质 |
CN111402226A (zh) * | 2020-03-13 | 2020-07-10 | 浙江工业大学 | 一种基于级联卷积神经网络的表面疵点检测方法 |
CN111476309A (zh) * | 2020-04-13 | 2020-07-31 | 北京字节跳动网络技术有限公司 | 图像处理方法、模型训练方法、装置、设备及可读介质 |
Non-Patent Citations (4)
Title |
---|
WENHAI WANG等: "Shape Robust Text Detection with Progressive Scale Expansion Network", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 9336 - 9345 * |
ZHENG ZHANG等: "Multi-Oriented Text Detection with Fully Convolutional Networks", 《ARXIV:1604.04018V2》, pages 1 - 9 * |
刘树春等: "《深度实践OCR 基于深度学习的文字识别》", 31 May 2020, 机械工业出版社, pages: 6 * |
李翌昕;马尽文;: "文本检测算法的发展与挑战", 信号处理, no. 04, pages 104 - 117 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115393868A (zh) * | 2022-08-18 | 2022-11-25 | 中化现代农业有限公司 | 文本检测方法、装置、电子设备和存储介质 |
CN116993963A (zh) * | 2023-09-21 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备及存储介质 |
CN116993963B (zh) * | 2023-09-21 | 2024-01-05 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109376681B (zh) | 一种多人姿态估计方法及系统 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN112966691B (zh) | 基于语义分割的多尺度文本检测方法、装置及电子设备 | |
CN109241861B (zh) | 一种数学公式识别方法、装置、设备及存储介质 | |
CN105144239A (zh) | 图像处理装置、程序及图像处理方法 | |
RU2697649C1 (ru) | Способы и системы сегментации документа | |
JP7026165B2 (ja) | テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体 | |
CN109948533B (zh) | 一种文本检测方法、装置、设备及可读存储介质 | |
CN113313083B (zh) | 文本检测方法及装置 | |
JP2018081674A (ja) | 手書きテキスト画像に対する行及び単語切り出し方法 | |
CN113239818B (zh) | 基于分割和图卷积神经网络的表格跨模态信息提取方法 | |
CN112418220A (zh) | 一种单字检测方法、装置、设备及介质 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN112507876A (zh) | 一种基于语义分割的有线表格图片解析方法和装置 | |
CN112906794A (zh) | 一种目标检测方法、装置、存储介质及终端 | |
CN114266894A (zh) | 一种图像分割方法、装置、电子设备及存储介质 | |
CN115546809A (zh) | 基于单元格约束的表格结构识别方法及其应用 | |
CN113570540A (zh) | 一种基于检测-分割架构的图像篡改盲取证方法 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
Feild et al. | Scene text recognition with bilateral regression | |
CN111340139B (zh) | 一种图像内容复杂度的判别方法及装置 | |
CN113537187A (zh) | 文本识别方法、装置、电子设备及可读存储介质 | |
CN116189214A (zh) | 版面分析方法、装置、电子设备及存储介质 | |
CN116188906A (zh) | 一种识别弹窗图像中关闭标识的方法、装置、设备及介质 | |
CN111488400A (zh) | 数据分类方法、装置和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |