CN115546490A - 一种基于显著性引导的弱监督语义分割方法 - Google Patents
一种基于显著性引导的弱监督语义分割方法 Download PDFInfo
- Publication number
- CN115546490A CN115546490A CN202211473470.0A CN202211473470A CN115546490A CN 115546490 A CN115546490 A CN 115546490A CN 202211473470 A CN202211473470 A CN 202211473470A CN 115546490 A CN115546490 A CN 115546490A
- Authority
- CN
- China
- Prior art keywords
- class
- target object
- region
- label
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000004913 activation Effects 0.000 claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000007670 refining Methods 0.000 claims abstract description 9
- 239000000126 substance Substances 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 230000002441 reversible effect Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 238000005065 mining Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000000452 restraining effect Effects 0.000 claims description 2
- 238000001994 activation Methods 0.000 description 54
- 238000013461 design Methods 0.000 description 4
- 230000000750 progressive effect Effects 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于显著性引导的弱监督语义分割方法,包括给定带有图像级弱标签的图像,通过训练一个分类网络,此时利用从注意力图导出的类别激活图定位目标对象区域,生成初始伪标签。本发明通过设计了一个类别无关距离损失,扩大类别激活图中激活的目标对象区域,同时设计了一个类别特定距离损失,使目标对象区域比背景区域具有更高的激活度,由此拉近类内特征和分离类间特征,使显著图在分类网络的训练过程中,可以扩展类别激活图中激活的目标对象区域,提取紧凑完整的目标对象区域;进一步的,通过构建一个对象引导的标签精炼子方法,充分利用分割预测对初始伪标签再训练,为弱监督语义分割网络训练提供了一个更高质量的进阶伪标签。
Description
技术领域
本发明涉及弱监语义分割技术领域,具体涉及一种基于显著性引导的弱监督语义分割方法。
背景技术
目前基于图像级标注的弱监督语义分割任务的挑战在于,虽然图像级别标签可以指示特定类别对象的存在,但它们不提供有关其位置或边界的任何线索,故很难直接使用图像级标注来训练分割网络。
现有的工作通常是利用图像级标注训练一个分类网络,然后借助类别激活图(CAMs)生成伪标签来指导语义分割模型的训练,然而,类别激活图只能定位物体最具辨别力的部分,针对小而稀疏的激活区域,难以获得高质量的像素级标签;
故扩大类别激活图中的激活区域以覆盖整个目前对象区域,是弱监督语义分割的主要研究方向,但是当扩展最具辨别力的部分以覆盖更多的对象区域时,对象周围的背景区域也不可避免地会被激活;
鉴于此,在弱监督语义分割任务中,已广泛采用显著图,为伪标签的生成提供背景线索,但是,显著图不能帮助分离显著区域内不同类别的对象,也不能识别显著区域外对象的边界。
因此,如何进一步挖掘显著图的潜力,在分类网络的训练过程中,扩展类别激活图中激活的目标对象区域,同时提取紧凑完整的目标对象区域,生成更加有利于分割网络训练的伪标签,对弱监督语义分割任务来说至关重要。
发明内容
本发明的目的是提供一种基于显著性引导的弱监督语义分割方法,通过设计了一个类别无关距离损失,用以显示最小化类内特征方差,为类别激活图提供边界线索,对类内关系进行约束,防止类别激活图中的目标对象区域激活扩散到背景区域,同时扩大类别激活图中激活的目标对象区域,同时设计了一个类别特定距离损失,最大化不同类间的特征差异,促使网络将目标对象区域和背景特征区域分开,使目标对象区域比背景区域具有更高的激活度,由此拉近类内特征和分离类间特征,挖掘显著图的潜力,使其在分类网络的训练过程中,可以扩展类别激活图中激活的目标对象区域,提取紧凑完整的目标对象区域;进一步的,根据分割预测和从类别激活图获得的初始伪标签具有互补性的特点,构建一个对象引导的标签精炼子方法,以充分利用分割预测和初始伪标签,进而通过分割模型生成进阶伪标签,用于分割网络训练,有利于分割网络训练,以解决技术中的上述不足之处。
为了实现上述目的,本发明提供如下技术方案:一种基于显著性引导的弱监督语义分割方法,包括以下步骤:
步骤(A)、给定带有图像级弱标签的图像,训练一个分类网络,通过构建一个用以显示最小化类内特征方差的类别无关距离损失,对类内关系进行约束,扩大类别激活图中的目标对象区域;
步骤(B)、构建一个类别特定距离损失,以最大化不同类间的特征差异,用以将目标对象区域和背景区域特征区分开,此时利用从注意力图导出的类别激活图定位目标对象区域,生成初始伪标签;
步骤(C)、构建一个对象引导的标签精炼子方法,充分利用分割预测对初始伪标签再训练,进而通过分割模型生成进阶伪标签,用于弱监督语义分割网络训练。
优选的,步骤(A)、给定带有图像级弱标签的图像,训练一个分类网络,通过构建一个用以显示最小化类内特征方差的类别无关距离损失,对类内关系进行约束,扩大类别激活图中的目标对象区域,包括以下步骤:
(A1)、对于只包含一类对象的简单图像,其类别无关的显著图可近似为其相应的目标对象掩码,故借助类别无关的显著图掩码,对特征应用掩码平均池化操作,提取类别原型向量,具体的,当注意力图F 上采样到与掩码M相同的大小后,按下式计算目标对象区域原型向量:
其中,h是显著图的高度,w是显著图的宽度;
其中,h′是注意力图的高度,w′是注意力图的宽度,c是注意力图的通道数;
优选的,步骤(B)、构建一个类别特定距离损失,以最大化不同类间的特征差异,用以将目标对象区域和背景区域特征区分开,此时利用从注意力图导出的类别激活图定位目标对象区域,生成初始伪标签,包括以下步骤:
优选的,步骤(C)、构建一个对象引导的标签精炼子方法,充分利用分割预测对初始伪标签再训练,进而通过分割模型生成进阶伪标签,用于弱监督语义分割网络训练,包括以下步骤:
(C3)、进一步挖掘网络预测和初始标签中遗漏的目标对象区域,获得进阶伪标签用于弱监督语义分割网络训练,如下式所示:
与现有技术相比,本发明的有益效果是:
1、本发明通过设计了一个类别无关距离损失,减少了类内特征方差,为类别激活图提供边界线索,促使网络激活显著区域内的完整目标对象,同时对类内关系进行约束,防止类别激活图中的目标对象区域激活扩散到背景区域,并扩大类别激活图中激活的目标对象区域,促使网络学习紧凑且一致的背景特征,帮助减少背景区域内的错误激活,同时通过设计了一个类别特定距离损失,可以显式地鼓励网络为目标对象区域原型生成比背景区域原型更高的注意值,促使网络将目标对象区域和背景特征区域分开,避免更加一致的类内特征,不能保证目标对象区域的激活高于背景区域,并促使目标对象区域比背景区域具有更高的激活度,避免网络生成平滑的特征,最大化不同类间的特征差异,促使目标对象区域比背景区域具有更高的激活度,进而通过类别无关距离损失和类别特定距离损失来拉近类内特征和分离类间特征,从而挖掘显著图的潜力,使其在分类网络的训练过程中,可以扩展类别激活图中激活的目标对象区域,提取紧凑完整的目标对象区域;
2、本发明通过设计了一个对象引导的标签精炼子方法,以分割预测为基础,在初始伪标签的指导下将部分背景修正为目标或不可靠标签,并通过图像级标注,修正预测中并不存在于图像内的目标类别的像素标签,进一步挖掘网络预测中缺失的类别,进而充分利用分割预测对初始伪标签再训练,进而通过分割模型生成进阶伪标签,为弱监督语义分割网络训练提供了一个更高质量的进阶伪标签,有利于分割网络训练。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明基于显著性引导的类间和类内关系约束算法示意图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图对本发明作进一步的详细介绍。
本发明提供了如图1所示的一种基于显著性引导的弱监督语义分割方法,包括以下步骤:
步骤(A)、给定带有图像级弱标签的图像,训练一个分类网络,通过构建一个用以显示最小化类内特征方差的类别无关距离损失,对类内关系进行约束,扩大类别激活图中的目标对象区域,包括以下步骤:
如图1(a)所示:(A1)、对于只包含一类对象的简单图像,其类别无关的显著图可近似为其相应的目标对象掩码,故借助类别无关的显著图掩码,对特征应用掩码平均池化操作,提取类别原型向量,具体的,当注意力图F 上采样到与掩码M相同的大小后,按下式计算目标对象区域原型向量:
其中,h是显著图的高度,w是显著图的宽度;
在本实施例中,通过将显著区域内的目标对象区域特征与其类别原型对齐,促使网络在显著对象区域内学习更紧凑、一致,从而在类别激活图中实现更完整的目标对象区域激活;
其中,h′是注意力图的高度,w′是注意力图的宽度,c是注意力图的通道数;
在本实施例中,定义类别无关距离损失后,不仅可以通过该类别无关距离损失减少类内特征方差,促使网络激活显著区域内的完整目标对象区域;
其次,将类内特征方差与类别原型对齐,还可降低类别激活图中最具辨别力区域的峰值,迫使网络进一步激活其他不太具有辨别力,但又和分类任务密切相关的其它目标对象区域,以保持网络的分类能力;
在本实施例中,可以避免当目标对象区域与其环境具有较强的共现性时,分类网络有时会激活与识别相关的部分背景区域,同时由于显著对象区域只有类内关系约束,为了防止网络为激活的具有高鉴别性的区域学习一个狡猾的位置偏移,绕过显著区域中的类内关系约束,将对象激活转移到背景区域,削弱类别激活图的定位能力,进而将类别无关距离损失与反向显著图进行结合,以鼓励背景特征提取的紧凑性和一致性,即将显著性引导的类别无关距离损失应用于显著图之外的背景区域,促使网络学习紧凑且一致的背景特征,帮助减少背景区域内的错误激活;
在本实施例中,通过类别无关距离模型的类内关系约束,可以有效地最小化显著区域内外的特征方差,且该类别无关距离损失显式地约束分类网络在训练过程中,为显著区域内的特征学习一致且紧凑的表征,使得该类别无关距离损失将促使分类网络激活更多的目标对象区域,有利于后期借助类别激活图更好地挖掘完整的目标对象区域;
步骤(B)、构建一个类别特定距离损失,以最大化不同类间的特征差异,用以将目标对象区域和背景区域特征区分开,此时利用从注意力图导出的类别激活图定位目标对象区域,生成初始伪标签,包括以下步骤:
在本实施例中,该类别特定的距离损失可以显式地鼓励网络为目标对象区域原型生成比背景区域原型更高的注意值;
在本实施例中,通过一个类别特定距离损失,可以促使网络将目标对象区域和背景特征区域,避免更加一致的类内特征,不能保证目标对象区域的激活高于背景区域;
同时促使目标对象区域比背景区域具有更高的激活度;
且可以避免网络生成平滑的特征,导致目标对象区域和背景区域具有相同的激活值;
同时鉴于目标对象区域被期望在其类别激活图中能够有更高的激活,特定类别的对象原型被显式地鼓励具有比背景原型更大的激活值,此处需要注意的是,CAD 损失和CSD损失仅适用于步骤(B1)中所述简单图像,对于具有两种或两种以上对象类别的复杂图像,显著图和目标对象区域掩码之间的近似不成立,因此仅将 CAD损失和 CSD 损失应用于简单图像,而尽管类间和类内关系约束仅在简单图像上应用,受益于深度网络强大的学习和拟合能力,本发明方法训练得到的网络同样适用于为复杂图像激活紧凑和完整的对象区域 ,即为复杂图像的每个类别都生成相应的激活图,从而定位每个类别的对象区域;
步骤(C)、构建一个对象引导的标签精炼子方法,充分利用分割预测对初始伪标签再训练,进而通过分割模型生成进阶伪标签,用于弱监督语义分割网络训练,包括以下步骤:
在本实施例中,在分割网络训练的过程中,错误的目标对象区域标签会在被更正为 255 后忽略,从而有助于丢弃由误导性信息生成的梯度;
在本实施例中,鉴于在初始伪标签中,只有显著区域内的像素或在类别激活图中具有高激活度的像素会被识别为非背景区域,故可以假设这些像素是可靠的,不应被视为背景;
(C3)、进一步挖掘网络预测和初始标签中遗漏的目标对象区域,获得进阶伪标签用于弱监督语义分割网络训练,如下式所示:
在本实施例中,通过遍历图像级标签中的所有类别,检查中是否缺少某些类别的目标对象区域,如果存在类别缺失的情况,便将图像的所有背景设置为 255,由于没有任何线索来纠正当前标记为背景的对象像素,因此,此处将所有背景设置为不可靠的标签,即标为 255,从而在训练过程中进行忽略,进而着重于降低初始伪标签的假负率,即目标对象区域被错标为背景区域的可能,并依靠分割网络的自校正能力来发现遗漏的目标对象区域,进而获得更高质量的伪标签。
在PASCALVOC2012和MSCOCO 数据集上进行了实验和研究,表明了本弱监督语义分割方法的优越性,其在VGG主干网络上,可以在PASCALVOC2012验证集上达到64.3%mIoU,在测试集达到65.4%mIoU,其与利用额外训练图像的方法相比,本弱监督语义分割方法可以将结果提高6.7%mIoU以上。在更强大的 ResNet主干网络上,本弱监督语义分割方法的分割结果在验证集和测试集上分别达到69.3%和69.5%。在更具挑战性的COCO数据集上,本弱监督语义分割方法中提出的算法在验证集上达到了31.2%的最佳性能。
综上所述,本发明通过设计了一个类别无关距离损失,减少了类内特征方差,为类别激活图提供边界线索,促使网络激活显著区域内的完整目标对象,同时对类内关系进行约束,防止类别激活图中的目标对象区域激活扩散到背景区域,并扩大类别激活图中激活的目标对象区域,促使网络学习紧凑且一致的背景特征,帮助减少背景区域内的错误激活,同时通过设计了一个类别特定距离损失,可以显式地鼓励网络为目标对象区域原型生成比背景区域原型更高的注意值,促使网络将目标对象区域和背景特征区域分开,避免更加一致的类内特征,不能保证目标对象区域的激活高于背景区域,并促使目标对象区域比背景区域具有更高的激活度,避免网络生成平滑的特征,最大化不同类间的特征差异,促使目标对象区域比背景区域具有更高的激活度,进而通过类别无关距离损失和类别特定距离损失来拉近类内特征和分离类间特征,从而挖掘显著图的潜力,使其在分类网络的训练过程中,可以扩展类别激活图中激活的目标对象区域,提取紧凑完整的目标对象区域;
本发明通过设计了一个对象引导的标签精炼子方法,以分割预测为基础,在初始伪标签的指导下将部分背景修正为目标或不可靠标签,并通过图像级标注,修正预测中并不存在于图像内的目标类别的像素标签,进一步挖掘网络预测中缺失的类别,充分利用分割预测对初始伪标签再训练,进而通过分割模型生成进阶伪标签,为弱监督语义分割网络训练提供了一个更高质量的进阶伪标签。
以上只通过说明的方式描述了本发明的某些示范性实施例,毋庸置疑,对于本领域的普通技术人员,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式对所描述的实施例进行修正。因此,上述附图和描述在本质上是说明性的,不应理解为对本发明权利要求保护范围的限制。
Claims (4)
1.一种基于显著性引导的弱监督语义分割方法,其特征在于:包括以下步骤:
步骤(A)、给定带有图像级弱标签的图像,训练一个分类网络,通过构建一个用以显示最小化类内特征方差的类别无关距离损失,对类内关系进行约束,扩大类别激活图中的目标对象区域;
步骤(B)、构建一个类别特定距离损失,以最大化不同类间的特征差异,用以将目标对象区域和背景区域特征区分开,此时利用从注意力图导出的类别激活图定位目标对象区域,生成初始伪标签;
步骤(C)、构建一个对象引导的标签精炼子方法,充分利用分割预测对初始伪标签再训练,进而通过分割模型生成进阶伪标签,用于弱监督语义分割网络训练。
2.根据权利要求1所述的一种基于显著性引导的弱监督语义分割方法,其特征在于:步骤(A)、给定带有图像级弱标签的图像,训练一个分类网络,通过构建一个用以显示最小化类内特征方差的类别无关距离损失,对类内关系进行约束,扩大类别激活图中的目标对象区域,包括以下步骤:
(A1)、对于只包含一类对象的简单图像,其类别无关的显著图可近似为其相应的目标对象掩码,故借助类别无关的显著图掩码,对特征应用掩码平均池化操作,提取类别原型向量,具体的,当注意力图F 上采样到与掩码M相同的大小后,按下式计算目标对象区域原型向量:
其中,h是显著图的高度,w是显著图的宽度;
其中,h′ 是注意力图的高度,w′是注意力图的宽度,c是注意力图的通道数;
3.根据权利要求1所述的一种基于显著性引导的弱监督语义分割方法,其特征在于:步骤(B)、构建一个类别特定距离损失,以最大化不同类间的特征差异,用以将目标对象区域和背景区域特征区分开,此时利用从注意力图导出的类别激活图定位目标对象区域,生成初始伪标签,包括以下步骤:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211473470.0A CN115546490A (zh) | 2022-11-23 | 2022-11-23 | 一种基于显著性引导的弱监督语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211473470.0A CN115546490A (zh) | 2022-11-23 | 2022-11-23 | 一种基于显著性引导的弱监督语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115546490A true CN115546490A (zh) | 2022-12-30 |
Family
ID=84721269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211473470.0A Pending CN115546490A (zh) | 2022-11-23 | 2022-11-23 | 一种基于显著性引导的弱监督语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115546490A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079103A (zh) * | 2023-10-16 | 2023-11-17 | 暨南大学 | 一种用于神经网络训练的伪标签生成方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699892A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种无监督领域自适应语义分割方法 |
US20210150281A1 (en) * | 2019-11-14 | 2021-05-20 | Nec Laboratories America, Inc. | Domain adaptation for semantic segmentation via exploiting weak labels |
CN114820655A (zh) * | 2022-04-26 | 2022-07-29 | 中国地质大学(武汉) | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 |
-
2022
- 2022-11-23 CN CN202211473470.0A patent/CN115546490A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210150281A1 (en) * | 2019-11-14 | 2021-05-20 | Nec Laboratories America, Inc. | Domain adaptation for semantic segmentation via exploiting weak labels |
CN112699892A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种无监督领域自适应语义分割方法 |
CN114820655A (zh) * | 2022-04-26 | 2022-07-29 | 中国地质大学(武汉) | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 |
Non-Patent Citations (1)
Title |
---|
TAO CHEN等: "Saliency Guided Inter- and Intra-Class Relation Constraints for Weakly Supervised Semantic Segmentation", 《IEEE TRANSACTIONS ON MULTIMEDIA》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117079103A (zh) * | 2023-10-16 | 2023-11-17 | 暨南大学 | 一种用于神经网络训练的伪标签生成方法及系统 |
CN117079103B (zh) * | 2023-10-16 | 2024-01-02 | 暨南大学 | 一种用于神经网络训练的伪标签生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hao et al. | A brief survey on semantic segmentation with deep learning | |
Bušta et al. | E2e-mlt-an unconstrained end-to-end method for multi-language scene text | |
Zhu et al. | Learning instance activation maps for weakly supervised instance segmentation | |
Liu et al. | Squeezedtext: A real-time scene text recognition by binary convolutional encoder-decoder network | |
Mishra et al. | Top-down and bottom-up cues for scene text recognition | |
Chen et al. | Detection evolution with multi-order contextual co-occurrence | |
Pan et al. | A robust system to detect and localize texts in natural scene images | |
Pfister et al. | Large-scale Learning of Sign Language by Watching TV (Using Co-occurrences). | |
Ding et al. | Phraseclick: toward achieving flexible interactive segmentation by phrase and click | |
Oliveira et al. | Automatic graphic logo detection via fast region-based convolutional networks | |
Rong et al. | Recognizing text-based traffic guide panels with cascaded localization network | |
Zhu et al. | Could scene context be beneficial for scene text detection? | |
Hashmi et al. | Guided table structure recognition through anchor optimization | |
US20210110189A1 (en) | Character-based text detection and recognition | |
US11769341B2 (en) | System and method to extract information from unstructured image documents | |
Ghosh et al. | Understanding movie poster: transfer-deep learning approach for graphic-rich text recognition | |
CN115546490A (zh) | 一种基于显著性引导的弱监督语义分割方法 | |
CN114898372A (zh) | 一种基于边缘注意力引导的越南场景文字检测方法 | |
Jain et al. | Indian vehicle number-plate recognition using single shot detection and ocr | |
Figueroa-Flores et al. | Hallucinating saliency maps for fine-grained image classification for limited data domains | |
US9111142B2 (en) | Method and apparatus for providing sign information | |
Aladhadh et al. | Recurrent Convolutional Neural Network MSER-Based Approach for Payable Document Processing. | |
Lee et al. | Complementary combination of holistic and component analysis for recognition of low-resolution video character images | |
CN112785601A (zh) | 一种图像分割方法、系统、介质及电子终端 | |
Do et al. | SignboardText: Text Detection and Recognition in In-the-Wild Signboard Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221230 |