CN112418207B - 一种基于自注意力蒸馏的弱监督文字检测方法 - Google Patents
一种基于自注意力蒸馏的弱监督文字检测方法 Download PDFInfo
- Publication number
- CN112418207B CN112418207B CN202011320840.8A CN202011320840A CN112418207B CN 112418207 B CN112418207 B CN 112418207B CN 202011320840 A CN202011320840 A CN 202011320840A CN 112418207 B CN112418207 B CN 112418207B
- Authority
- CN
- China
- Prior art keywords
- text
- network
- attention
- character
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 69
- 238000004821 distillation Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000011176 pooling Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 5
- 230000001373 regressive effect Effects 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 claims description 2
- 238000012804 iterative process Methods 0.000 claims description 2
- 239000010410 layer Substances 0.000 description 21
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 229920000433 Lyocell Polymers 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于自注意力蒸馏的弱监督文字检测方法,获取图片样本,并将图片样本中的含文字图片和不含文字图片分别标记为正负样本;对于获取后的正负样本采用VGGNet网络作为主干网络训练一个弱监督文字分类网络;通过训练好的文字分类网络对待检测图片的输出信息进行筛选,筛选出包含有文字的文字候选区,然后根据文字候选区生成伪标注来训练文字检测网络,并通过自注意力蒸馏法提高文字检测网络的精度。
Description
技术领域
本发明涉及计算机文字识别技术,具体涉及一种基于自注意力蒸馏的弱监督文字检测方法。
背景技术
场景文字识别(Scene Text Recognition,STR)的应用非常广泛,包括图片文字实时翻译、自动表格数据读取、盲人辅助导航、自助旅游翻译、地理位置信息服务、智能交通系统、无人驾驶汽车、工业自动化等。完整的STR流程通常包括文字检测与文字识别两个步骤,文字检测的任务是找出图片中文字区域并标记相应边界框。从某种意义上说,文字检测比文字识别更重要,如果对文字定位有偏差,就无法从场景图片中正确识别文本。
目前,基于深度学习的方法正成为场景文字检测的主流,而大量精确标注的样本是此类方法取得成功的关键。由于对大规模真实文字场景数据集进行标注是一项极其费时费力的工作,绝大多数检测方法使用人工合成数据集进行模型预训练。然而,该数据集主要将大量的单词实例经过简单变换后嵌入到自然场景图片中,不足以代表自然场景中纷繁多变的文字,训练出来的模型泛化性能有待提高。
也有研究人员提出使用弱监督学习进行文字检测,利用现有标准数据集中大量的单词级标签来生成字符级伪标签,然后训练字符分割模型以及字符间区域分割模型,最后得到文字区域。然而,这类方法需要复杂的后处理过程,并存在文字漏检的情况。
目前弱监督学习在通用目标检测应用中应用较多,只需使用图像级标注样本而无需包含物体的矩形框标签便可训练检测器来定位图像中的目标。然而与一般的物体相比,文字具有许多独有特点,比如呈现出较大宽高比、无明显闭合边缘轮廓、字符之间有间隔等,基于弱监督学习的通用检测网络并不能直接用于定位文字。
因此综上所述,如何在较小的标注成本情况下进行有效的文字检测是当前亟需解决的技术难题。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于自注意力蒸馏的弱监督文字检测方法,本发明在只给定有无文字(含文字计数,相当于图像级监督信息)的图片样本情况下,利用弱监督学习训练文字检测器,同时利用自注意力蒸馏SAD来提高弱监督条件下文字检测的精确度。
技术方案:本发明的一种基于自注意力蒸馏的弱监督文字检测方法,包括图片分类和图片检测,具体如下:
获取图片样本,并将图片样本中的含文字图片和不含文字图片分别标记为正负样本;对于获取后的正负样本采用VGGNet网络作为主干网络训练为基于弱监督的文字分类网络;
通过训练好的文字分类网络对待检测图片的输出信息进行筛选,筛选出包含有文字的文字候选区,然后根据文字候选区生成伪标注来训练文字检测网络,并通过自注意力蒸馏法SAD提高文字检测网络检测文字精度,减少背景噪声。
本发明使用基于激活函数的注意力特征图,即把长、宽、通道三维特征转换为长、宽两维特征,通过考虑各通道上激活后的特征值,来确定空间上特征的分布状况。其中通过注意力生成模块AGM先把网络中的指定特征输入AGM得到注意力热图,再上采样到目标大小,最后通过softmax处理。整个过程中,自注意力蒸馏法SAD只在训练阶段使用,不会给具体检测过程带来计算成本。
进一步的,训练文字分类网络时,在VGGNet网络结构中的高层卷积层使用层次Inception模块(支持不同长度的感受野,实现对文字大小的鲁棒性),使其前后层的特征图分别进行下采样和上采样然后相结合生成FAIF,然后使用注意力(Self Attention)模块沿特征通道使用池化操作压缩前述FAIF,再将调整尺寸后的新特征图与压缩后的FAIF点乘,最后通过全局平均池化完成图片分类。
进一步的,使用训练好的文字分类网络对待检测图片进行分类,即进行像素级判别,判断图片中是否含有文字(如果含有文字,就给出文字的概率和位置修正信息),并生成包含文字部分像素的概率热图;正样本中包括有文字计数。
进一步的,对待检测图片进行文字检测时,包括以下步骤:
(1)使用Edge Boxes法为输入的待检测图片生成一组候选区,将所有候选区输入到训练好的分类网络中计算其对比度分值CS,并根据对比度分值CS的大小进行排序:
其中,为给定候选框,/>是/>对应的图像,/>是将输入待检测图片中/>部分掩膜后的图像,pc表示输入为文字图像的概率;
生成掩膜图像时,先计算训练集中图像像素均值然后将其填入/>部分;如果值比较大,则意味着/>是文字区域的可能性大,然后选择CS取值最大的前M个候选区作为正训练样本,与之重叠的IoU在[0.1,0.5)的候选区作为负训练样本来训练文字检测器;
(2)使用CNN提取候选区特征来训练新的文字检测网络,该文字检测网络有两个输出分支;一个输出分支计算输入的待检测图片为文字图像的概率,另一个分支输出对文字窗口回归的坐标偏移;
在多任务检测器训练过程中,使用多任务损失函数,定义为Lmul=Lcls+Lloc;
其中Lcls为交叉熵损失,用于优化softmax二分类,Lloc为Smooth-L1损失,用于优化文字窗口回归。
训练文字检测网络时在各迭代时间点均可以通过注意力生成模块AGM使用自注意力蒸馏SAD进行迭代求精,使低层注意力热图可以从高层注意力热图获取有用的上下文信息;
上述迭代过程中,对应损失如下:
其中,Mfin(i)和Mfin(i+1)分别表示检测网络中相邻卷积层上AGM生成的注意力热图,P为使用注意力生成模块AGM的卷积层数目;
使用自注意力蒸馏SAD后,训练文字检测网络的总损失函数为:
L=Lmul+λ·Ldis;
Lmul为两个输出分支的损失,λ用于调节使用SAD的权重。
进一步的,所述注意力生成模块AGM可适配分类和检测网络特征差异,其具体过程为:
令输入注意力生成模块AGM的特征图为其中H和W分别为特征图的长与宽,C为当前卷积层的通道数;
首先,对F沿通道使用平均池化,设Fj为第j个通道上的特征图,记
然后,对Matt进行sigmoid变换;
最后,将非线性热图与Matt相乘得到Mfin,Mfin进行适配分类和检测网络的特征差异。
进一步的,训练文字检测网络时将文字计数信息作为图像级监督信息中的一种,并在训练时先选择若干较大分数值的候选框,然后执行基于计数的区域选择算法CRS来得出最合适的候选框作为正训练样本调节文字检测网络。
有益效果:与现有技术相比,本发明的优势在于:使用“有无文字+文字计数(如有文字)”的图像级标注样本,这种方式极大地提高了标注时间,同时弱监督信息很容易用来训练检测器。使用自注意力蒸馏,减小二步检测器中候选区内背景噪声以及图像中与文字具有相似模式对检测的影响,提高文字定位精度。图6给出了使用CRS以及SAD机制进行文字检测的效果。
附图说明
图1为本发明实施例中弱监督分类网络判定示意图;
图2为本发明实施例中分类网络计算CS值流程图;
图3为本发明实施例中训练文字检测网络示意图;
图4为本发明实施例中注意力生成模块AGM输入输出示意图;
图5为本发明实施例中确定文字过程示意图;
图6为本发明实施例中文字检测对比示意图;
图7为本发明的整体流程示意图;
其中,图6(a)为无CRS和SAD机制结果,图6(b)为CRS+SAD迭代30K结果,图6(c)为CRS+SAD迭代40K结果,图6(d)为CRS+SAD迭代50K结果。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
如图7所示,本实施例的一种基于自注意力蒸馏的弱监督文字检测方法,包括图片分类和图片检测,具体步骤如下:
步骤S1:获取图片样本,并将图片样本中的含文字图片和不含文字图片分别标记为正负样本;对于获取后的正负样本采用VGGNet网络作为主干网络训练为基于弱监督的文字分类网络。
训练文字分类网络时,在VGGNet网络结构中的高层卷积层使用层次Inception模块,使其前后层的特征图分别进行下采样和上采样然后相结合生成FAIF,然后使用注意力模块Self Attention沿特种证通道使用池化操作压缩前述FAIF,再将调整尺寸后的新特征图与压缩后的FAIF点乘,最后通过全局平均池化完成图片分类。
使用训练好后文字分类网络对待检测图片进行分类,即进行像素级判别,判断图片中是否含有文字,并生成包含文字部分像素的概率热图;正样本中包括有文字计数。
步骤S2:通过训练好的文字分类网络对待检测图片的输出信息进行筛选,筛选出包含有文字的文字候选区,然后根据文字候选区生成伪标注来训练文字检测网络,并通过自注意力蒸馏法提高文字检测网络检测文字精度。具体包括以下步骤:
(1)使用Edge Boxes法为输入的待检测图片生成一组候选区,将所有候选区输入到训练好的分类网络中计算其对比度分值CS,并根据对比度分值CS的大小进行排序:
其中,为给定候选框,/>是/>对应的图像,/>是将输入待检测图片中/>部分掩膜后的图像,pc表示输入为文字图像的概率;
生成掩膜图像时,先计算训练集中图像像素均值然后将其填入/>部分;如果值比较大,则意味着/>是文字区域的可能性大,然后选择选择CS取值最大的前M个候选区作为正训练样本,与之重叠的IoU在[0.1,0.5)的候选区作为负训练样本来训练文字检测器;
(2)使用CNN提取候选区特征来训练新的文字检测网络,该文字检测网络有两个输出分支;一个输出分支计算输入的待检测图片为文字图像的概率,另一个分支输出对文字窗口回归的坐标偏移。
实施例1:本实施例中采用搜索引擎(如百度,腾讯,谷歌,Wikipedia,Flickr等)中的图片作为数据源。
一、文字分类
先将数据源中的样本图片为:含文字图片与不含文字图片(文本和非文本),并将这两种图片分别标记为正样本和负样本。然后,采用VGG网络作为主干网络训练对应的基于弱监督的文字分类网络(如图1所示)。本实施例中,采用VGG16网络。
由于传统CNN低层特征图表示图像的局部细节,高层特征图刻画图像的语义信息。因此本实施例中训练文字分类网络时,在高层卷积层使使用Inception模块,同时利用多层特征图有利于表现不同大小的文字特性。本实施例的卷积层,分别使用1×1卷积,3×3空洞卷积,3×3最大池化以及5×5空洞卷积操作生成Inception特征;以某层特征图为标准,将其前后层的特征图分别进行下采样和上采样然后相结合生成FAIF。在将FAIF用于分类前,增加自注意力模块(Self Attention),该自注意力模块沿对应特征通道使用池化操作来压缩FAIF,使得生成的特征图中每个像素的强度与识别能力成正比。将调整尺寸后的新特征图与FAIF进行点乘,经全局平均池化后完成分类。
二、文字检测
对于给定输入图像先在已训练好的文字分类网络上选定一系列文字候选区,然后根据对应候选区来生成伪标记以训练文字检测器,使用文字检测器进行检测推断时,首先计算所有候选区的文字分数,然后对其排序,使用NMS消除重复检测的文字。本阶段分为以下两个步骤:
(1)本实施例使用Edge Boxes法为输入图像生成一组文字候选区,将所有文字候选区输入到训练好的文字分类网络中计算其对比度分值CS,定义为
其中,为给定候选框,/>是/>对应的图像,/>是将输入图片中/>部分掩膜后的图像,pc表示输入为文字图像的概率。在生成掩膜图像/>时,先计算训练集中图像像素均值然后将其填入/>部分。
上述过程如图2所示,其中如果值比较大,则意味着/>是文字区域的可能性大,然后选择选择CS取值最大的前M个候选区作为正训练样本,与之重叠的IoU在[0.1,0.5)的候选区作为负训练样本来训练文字检测器。
本实施例中,除对每个训练的图片样本标注是否含有文字以外,将含有文字的图片样本中的文字计数信息也作为图像级的监督信息来训练检测器,能够极大提高文字检测精度。如图5所示,在训练时先选择若干最大分的候选框,然后执行基于计数的区域选择算法(Count-based region selection,CRS)来得出最合适的候选框作为正训练样本调节网络。这样能够有效避免遇到靠得很近的多个文字图片而被误识别为一个文字的风险。
(2)本实施例使用对应CNN来提取候选区特征进而训练文字检测网络。
该文字检测网络有两个输出分支。一个输出分支计算输入图像是文字图像的概率,另一个输出分支输出对文字窗口回归的坐标偏移。
在多任务检测器训练过程中,使用多任务损失函数,定义为Lmul=Lcls+Lloc。其中Lcls为交叉熵损失,用于优化softmax二分类,Lloc为Smooth-L1损失,用于优化文字窗口回归。
本实施例在上述文字检测网络结合自注意力蒸馏SAD,使得低层注意力热图可从高层注意力热图获取有用的上下文信息,从而使得低层特征不再局限于捕捉文字局部特性。在整个训练过程的不同时间点引入SAD,可以不断改善注意力热图的表征能力,减小候选区内背景噪声以及图像中与文字具有相似模式对检测的影响,一旦训练收敛,文字检测网络可生成更具表现力的注意力热图,从而完成更精确的文字定位。
如图6所示,本实施例中在最终做文字检测时,图6(A)为不使用CRS和SAD法的现有常规技术的检测结果,图6(b)至图6(d)依次为使用本发明方法(结合CRS和SAD)但迭代次数不同情况下的检测结果。通过该对比图可以明显看出,本发明的文字检测精度更高,并且本发明的层间自注意力蒸馏法能够通过迭代训练来提高文字检测器精度。
如图3所示,本实施例选择若干CS较大的候选框及对应负样本作为伪标签训练文字检测网络,通过SAD进行迭代求精。图3中上方的虚线框中内为自注意力蒸馏SAD,其对应损失定义如下:
其中Mfin(i)和Mfin(i+1)分别表示检测网络中相邻卷积层上AGM生成的注意力热图,P是使用了AGM.模块的卷积层数目。
训练文字检测网络的总损失函数为:L=Lmul+λ·Ldis。并且,随着训练回合数增加,文字检测网络可先从定位最有可能是文字的区域,以coarse-to-fine的方式逐步匹配完整的文字。
如图3所示,为使训练过程中能够精确定位文字区域,图中下方虚线框内使用有注意力生成模块AGM。
注意力生成模块AGM的具体原理如图4所示,令输入注意力生成模块AGM的特征图为其中H和W分别为特征图的长与宽,C为当前卷积层的通道数。
首先,对F沿通道使用平均池化,设Fj为第j个通道上的特征图,记然后,对Matt进行sigmoid变换,非线性变换保证了在注意力热图中对应最具辨识力的像素值趋近1,且所有通道上的热图概率总和为1;最后,将非线性热图与Matt相乘得到Mfin,该特征Mfin可用于适配分类和检测网络间的差异。
上述注意力生成模块AGM能够方便接入到任何卷积层,然后利用上采样和下采样将相邻层不同大小的Mfin聚合起来用于预测。
Claims (3)
1.一种基于自注意力蒸馏的弱监督文字检测方法,其特征在于:包括图片分类和图片检测,具体如下:
获取图片样本,并将图片样本中的含文字图片和不含文字图片分别标记为正负样本;对于获取后的正负样本采用VGGNet网络作为主干网络训练为基于弱监督的文字分类网络;
训练文字分类网络时,在VGGNet网络结构中的高层卷积层使用层次Inception模块,使其前后层的特征图分别进行下采样和上采样然后相结合生成FAIF,然后使用注意力SelfAttention模块沿特征通道使用池化操作压缩前述FAIF,再将调整尺寸后的新特征图与压缩后的FAIF点乘,最后通过全局平均池化完成图片分类;
通过训练好的文字分类网络对待检测图片的输出信息进行筛选,筛选出包含有文字的文字候选区,然后根据文字候选区生成伪标注来训练文字检测网络,并通过自注意力蒸馏法提高文字检测网络检测文字精度;
使用训练好的文字分类网络对待检测图片进行分类,即进行像素级判别,判断图片中是否含有文字;正样本中包括有文字计数;
对待检测图片进行文字检测时,包括以下步骤:
(1)使用Edge Boxes法为输入的待检测图片生成一组候选区,将所有候选区输入到训练好的分类网络中计算其对比度分值CS,并根据对比度分值的大小进行排序:
其中,为给定候选框,/>是/>对应的图像,/>是将输入待检测图片中/>部分掩膜后的图像,pc表示输入为文字图像的概率;
如果值比较大,则意味着/>是文字区域的可能性大,然后选择对比度分值CS取值最大的前M个候选区作为正训练样本,而与之重叠的IoU在[0.1,0.5)的候选区作为负训练样本来训练文字检测器;
(2)使用CNN提取候选区特征来训练新的文字检测网络,该文字检测网络有两个输出分支;一个输出分支计算输入的待检测图片为文字图像的概率,另一个分支输出对文字窗口回归的坐标偏移;
训练文字检测网络时在各迭代时间点均可通过注意力生成模块AGM使用自注意力蒸馏SAD进行迭代求精,使低层注意力热图从高层注意力热图获取有用的上下文信息;
上述迭代过程中,对应损失如下:
其中,Mfin(i)和Mfin(i+1)分别表示检测网络中相邻卷积层上AGM生成的注意力热图,P为使用注意力生成模块AGM的卷积层数目;
使用自注意力蒸馏SAD后,训练文字检测网络的总损失函数为:
L=Lmul+λ·Ldis,Lmul为两个输出分支的损失,λ用于调节使用SAD的权重。
2.根据权利要求1所述的基于自注意力蒸馏的弱监督文字检测方法,其特征在于:所述注意力生成模块AGM可适配分类和检测网络特征差异,其具体过程为:
令输入注意力生成模块AGM的特征图为其中H和W分别为特征图的长与宽,C为当前卷积层的通道数;
首先,对F沿通道使用平均池化,设Fj为第j个通道上的特征图,记
然后,对Matt进行sigmoid变换;
最后,将非线性热图与Matt相乘得到Mfin,Mfin进行适配分类和检测网络的特征差异。
3.根据权利要求1所述的基于自注意力蒸馏的弱监督文字检测方法,其特征在于:训练文字检测网络时将文字计数信息作为图像级监督信息中的一种,并在训练时先选择若干较大分数值的候选框,然后执行基于计数的区域选择算法CRS来得出最合适的候选框作为正训练样本调节文字检测网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011320840.8A CN112418207B (zh) | 2020-11-23 | 2020-11-23 | 一种基于自注意力蒸馏的弱监督文字检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011320840.8A CN112418207B (zh) | 2020-11-23 | 2020-11-23 | 一种基于自注意力蒸馏的弱监督文字检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112418207A CN112418207A (zh) | 2021-02-26 |
CN112418207B true CN112418207B (zh) | 2024-03-19 |
Family
ID=74778173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011320840.8A Active CN112418207B (zh) | 2020-11-23 | 2020-11-23 | 一种基于自注意力蒸馏的弱监督文字检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418207B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158768B (zh) * | 2021-03-03 | 2023-02-24 | 中山大学 | 基于ResNeSt和自注意力蒸馏的智能车辆车道线检测方法 |
CN113673338B (zh) * | 2021-07-16 | 2023-09-26 | 华南理工大学 | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650725A (zh) * | 2016-11-29 | 2017-05-10 | 华南理工大学 | 基于全卷积神经网络的候选文本框生成和文本检测方法 |
CN110084249A (zh) * | 2019-04-24 | 2019-08-02 | 哈尔滨工业大学 | 基于金字塔特征注意的图像显著性检测方法 |
CN110322495A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种基于弱监督深度学习的场景文本分割方法 |
CN110443252A (zh) * | 2019-08-16 | 2019-11-12 | 广东工业大学 | 一种文字检测方法、装置及设备 |
CN110728277A (zh) * | 2019-09-27 | 2020-01-24 | 达而观信息科技(上海)有限公司 | 一种印章智能检测与识别的方法 |
CN110766008A (zh) * | 2019-10-29 | 2020-02-07 | 北京华宇信息技术有限公司 | 一种面向任意方向和形状的文本检测方法 |
CN111275688A (zh) * | 2020-01-19 | 2020-06-12 | 合肥工业大学 | 基于注意力机制的上下文特征融合筛选的小目标检测方法 |
CN111523597A (zh) * | 2020-04-23 | 2020-08-11 | 北京百度网讯科技有限公司 | 目标识别模型训练方法、装置、设备以及存储介质 |
CN111881671A (zh) * | 2020-09-27 | 2020-11-03 | 华南师范大学 | 一种属性词提取方法 |
CN111950453A (zh) * | 2020-08-12 | 2020-11-17 | 北京易道博识科技有限公司 | 一种基于选择性注意力机制的任意形状文本识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052937B (zh) * | 2017-12-28 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 基于弱监督的字符检测器训练方法、装置、系统及介质 |
US11574122B2 (en) * | 2018-08-23 | 2023-02-07 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
US12008459B2 (en) * | 2019-04-19 | 2024-06-11 | Microsoft Technology Licensing, Llc | Multi-task machine learning architectures and training procedures |
-
2020
- 2020-11-23 CN CN202011320840.8A patent/CN112418207B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106650725A (zh) * | 2016-11-29 | 2017-05-10 | 华南理工大学 | 基于全卷积神经网络的候选文本框生成和文本检测方法 |
CN110084249A (zh) * | 2019-04-24 | 2019-08-02 | 哈尔滨工业大学 | 基于金字塔特征注意的图像显著性检测方法 |
CN110322495A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种基于弱监督深度学习的场景文本分割方法 |
CN110443252A (zh) * | 2019-08-16 | 2019-11-12 | 广东工业大学 | 一种文字检测方法、装置及设备 |
CN110728277A (zh) * | 2019-09-27 | 2020-01-24 | 达而观信息科技(上海)有限公司 | 一种印章智能检测与识别的方法 |
CN110766008A (zh) * | 2019-10-29 | 2020-02-07 | 北京华宇信息技术有限公司 | 一种面向任意方向和形状的文本检测方法 |
CN111275688A (zh) * | 2020-01-19 | 2020-06-12 | 合肥工业大学 | 基于注意力机制的上下文特征融合筛选的小目标检测方法 |
CN111523597A (zh) * | 2020-04-23 | 2020-08-11 | 北京百度网讯科技有限公司 | 目标识别模型训练方法、装置、设备以及存储介质 |
CN111950453A (zh) * | 2020-08-12 | 2020-11-17 | 北京易道博识科技有限公司 | 一种基于选择性注意力机制的任意形状文本识别方法 |
CN111881671A (zh) * | 2020-09-27 | 2020-11-03 | 华南师范大学 | 一种属性词提取方法 |
Non-Patent Citations (3)
Title |
---|
A Fast Scene Text Detector Using Knowledge Distillation;Peng Yang,等;《IEEE》(第7期);第22588-22598页 * |
A Weakly Supervised Text Detection on Attention Mechanism;Lanfang Dong,等;《Image and Graphics》;第11901卷;第406-417页 * |
基于半监督学习的文本分类关键技术研究;孙旭明;《中国优秀硕士学位论文全文数据库 信息科技辑》(第01期);I138-5116 * |
Also Published As
Publication number | Publication date |
---|---|
CN112418207A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110390251B (zh) | 一种基于多神经网络模型融合处理的图像文字语义分割方法 | |
CN107679250B (zh) | 一种基于深度自编码卷积神经网络的多任务分层图像检索方法 | |
CN110555475A (zh) | 一种基于语义信息融合的少样本目标检测方法 | |
CN111401410B (zh) | 一种基于改进级联神经网络的交通标志检测方法 | |
CN110569738B (zh) | 基于密集连接网络的自然场景文本检测方法、设备和介质 | |
CN108108657A (zh) | 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法 | |
CN112966684A (zh) | 一种注意力机制下的协同学习文字识别方法 | |
CN111259786A (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN111339975A (zh) | 基于中心尺度预测与孪生神经网络的目标检测识别跟踪方法 | |
CN112801182B (zh) | 一种基于困难样本感知的rgbt目标跟踪方法 | |
CN112418207B (zh) | 一种基于自注意力蒸馏的弱监督文字检测方法 | |
CN114266794A (zh) | 基于全卷积神经网络的病理切片图像癌症区域分割系统 | |
CN115019133B (zh) | 基于自训练和标签抗噪的图像中弱目标的检测方法及系统 | |
CN114627437A (zh) | 一种交通目标识别方法及系统 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN117829243A (zh) | 模型训练方法、目标检测方法、装置、电子设备及介质 | |
CN117612136A (zh) | 一种基于增量小样本学习的自动驾驶目标检测方法 | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 | |
CN110287970B (zh) | 一种基于cam与掩盖的弱监督物体定位方法 | |
CN116665009A (zh) | 一种基于多尺度ssd网络的管道漏磁图像检测方法 | |
CN116189130A (zh) | 基于图像标注模型的车道线分割方法及装置 | |
Wang et al. | Human reading knowledge inspired text line extraction | |
CN114663760A (zh) | 模型训练的方法、目标检测方法、存储介质及计算设备 | |
CN113610088A (zh) | 一种基于自注意力的车牌字符识别方法 | |
Qin et al. | Dynamic receptive field adaptation for attention-based text recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |