CN110322495A - 一种基于弱监督深度学习的场景文本分割方法 - Google Patents

一种基于弱监督深度学习的场景文本分割方法 Download PDF

Info

Publication number
CN110322495A
CN110322495A CN201910570489.9A CN201910570489A CN110322495A CN 110322495 A CN110322495 A CN 110322495A CN 201910570489 A CN201910570489 A CN 201910570489A CN 110322495 A CN110322495 A CN 110322495A
Authority
CN
China
Prior art keywords
text
scene
loss
picture
scene text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910570489.9A
Other languages
English (en)
Other versions
CN110322495B (zh
Inventor
杨路
曹阳
李佑华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910570489.9A priority Critical patent/CN110322495B/zh
Publication of CN110322495A publication Critical patent/CN110322495A/zh
Application granted granted Critical
Publication of CN110322495B publication Critical patent/CN110322495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration by the use of local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • G06T7/49Analysis of texture based on structural texture description, e.g. using primitives or placement rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Abstract

本发明提供了一种基于弱监督深度学习的场景文本分割方法,包括以下步骤:将场景图片与任意文本叠加生成场景文本图片,生成训练样本,标签为场景图片本身;利用卷积神经网络进行特征提取,逐步得到高层语义;通过反卷积进行上采样,使高层语义特征图逐步恢复到输入图像尺寸;将卷积层与反卷积层输出的特征图进行多尺度融合;将融合后的特征图经过激活得到场景与文本的二分类黑白图;设定损失函数进行训练;将训练后得到的场景文本分割图经过腐蚀与膨胀,生成文本区域边界框。本发明方法不需要任何强监督的像素级标注样本,简单高效地解决了场景文本检测中的文本分割问题,大大降低了算法成本,提高了场景文本分割效率。

Description

一种基于弱监督深度学习的场景文本分割方法
技术领域
本发明属于图像处理领域,具体涉及一种基于弱监督深度学习的场景文本分割方法。
背景技术
近年来,从现实场景图像中提取文本信息变得日益流行。场景文本检测(一种自然场景图像文本的定位技术)在各种文本阅读系统中发挥着不可或缺的作用。自然场景图像中的文本检测,相较于一般物体检测更为复杂,其中一个主要原因是因为自然场景文本图像的背景极其复杂多样,如文字可以出现在平面、曲面或折皱面上;文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理等。因为干扰十分严重,算法在定位边界框时会难以判定文本实例。
传统方法中,需要对原始图片进行预处理去除背景干扰,得到比较干净的黑白文本与非文本图,以便后续的特征提取和学习。这个过程通常包含:灰度化、二值化、降噪等子步骤,每一个步骤都涉及了不同的算法,操作起来十分复杂。随着摄像头技术的发展,采集到的图片越来越丰富,背景干扰越来越严重,去除背景干扰的工作难度越来越大,传统的算法已经无法满足人们的需要。
随着深度学习在图像处理领域的快速发展,许多传统的场景文本检测领域的图像处理方法逐渐被取代。起源于图像分类、检测、语义分割等视觉处理任务的各种卷积神经网络,纷纷被用来提升场景文本检测的效率。深度学习在场景文本检测领域近期成果显著,演化出两类主流的检测网络。第一类基于普通的物体检测网络,如SSD、YOLO等,可以直接预测候选文本区域边界框;第二类基于全卷积语义分割网络,可以生成场景文本分割图,通过后处理给出最终的文本区域边界框。相比较而言,全卷积语义分割网络的优点在于可以接受任意大小的输入图像,而且避免了由于使用像素块而带来的重复存储和计算卷积的问题,因此更加高效。采用全卷积方式,可根据高分辨率的特征图直接检测文字与非文字区域,最后一层特征图中每个像素将被分成文字行(前景)和非文字行(背景)两个类别,简单高效地解决了场景文本背景干扰问题,受到了研究者的广泛青睐。
但是,全卷积语义分割网络也具有很大的问题,原因在于其属于监督式的深度学习,需要大量训练样本来构建预测模型,其中每个训练样本都有一个标签注明其真值输出。尽管当前的技术已经取得了巨大的成功,但值得注意的是,由于数据标注过程的高成本,在场景文本检测这样一个复杂任务下,研究者们很难获得拥有全部真值标签,即强监督的像素级标注样本进行训练,因此全卷积语义分割网络在场景文本检测与识别中的应用受到了很大限制。
发明内容
本发明所要解决的技术问题是提供一种基于弱监督深度学习的场景文本分割方法,基于全卷积语义分割网络,不需要任何强监督的像素级标注样本,简单高效地解决场景文本检测中的文本分割问题,大大降低算法成本,提高场景文本检测效率。
为解决上述技术问题,本发明采用的技术方案是:
一种基于弱监督深度学习的场景文本分割方法,包括以下步骤:
步骤1:将场景图片与任意文本叠加生成场景文本图片作为训练样本,标签为场景图片本身;
步骤2:选取ResNet50残差卷积神经网络,使用组归一化与空洞卷积配合对训练样本进行特征提取,逐步得到高层语义特征图;
步骤3:通过反卷积进行上采样,使高层语义特征图逐步恢复到输入训练样本大小;
步骤4:对应不同深度的特征图,将反卷积层的输出特征图与对应深度的特征提取网络的输出特征图相加融合;
步骤5:将融合后的特征图经过sigmoid函数激活,输出黑白场景文本分割图;
步骤6:输入训练样本,设定损失函数loss对深度学习模型进行训练与优化;
步骤7:将经过深度学习模型训练与优化后的场景文本分割图经过腐蚀与膨胀,生成文本区域边界框。
进一步的,在步骤4中,将特征提取网络第五残差单元的输出高层语义特征图输入第一反卷积层,将特征提取网络前4个部分第一卷积单元、第二残差单元、第三残差单元、第四残差单元的输出特征图分别加到第二反卷积层、第三反卷积层、第四反卷积层与第五反卷积层的输入特征图上,弥补反卷积造成的细节损失。
进一步的,在步骤6对损失函数loss的设定中,使用场景文本与输出黑白图的视图差和隐藏层稀疏性KL散度惩罚因子的组合对网络模型进行训练,如下式:
loss=λ1lossm2losskl
其中,loss代表模型的训练损失函数,lossm代表场景文本与输出黑白图的视图差,losskl代表网络模型的隐藏层稀疏性KL散度惩罚因子,λ1、λ2代表权重;i,j代表像素点,Mi,j代表网络输出的黑白图的像素;代表叠加后的场景文本图片像素,代表原始场景图片像素,ρ代表稀疏性系数。
进一步的,所述步骤6中,采用端到端的训练方式,网络以224*224的场景文本图片作为输入,输出文本和背景的黑白图;训练一共50个阶段,每批次64张图像,初始学习率为0.001,每迭代1000次学习率乘以0.1,采用0.9的动量和0.0005的权重衰减。
与现有技术相比,本发明的有益效果是:
1)采用弱监督的思想,将场景文本分割所需要的像素级标注训练样本替换为简单可得的场景图片与随机文本叠加合成图,利用合成图与场景图的视图差异进行文本区域的检测训练,大大降低了算法成本,提高了全卷积语义分割网络在场景文本检测中的效率;
2)通过全卷积语义分割网络,隐式获取了文本区域信息,只需整体标签即可获取具体文本区域信息,这为目标检测提供了一种新的思路,即可以用整体的标签来对部分进行估计,拓宽了该方法的应用范围。
附图说明
图1为本发明方法的流程图;
图2为训练数据生成示意图;
图3为组归一化示意图;
图4为空洞卷积示意图;
图5为特征提取、特征融合、尺度恢复与后处理的整体流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明一种基于弱监督深度学习的场景文本分割方法,其基于全卷积语义分割网络,包括以下步骤:
步骤1:生成训练数据
将场景图片与任意文本叠加生成场景文本图片训练数据,标签为场景图片本身。
本实例从网上任意搜索选取了多组生活场景图片,随机剪裁出224*224的背景区域,经过工具操作,将任意角度的中文和英文文字样本添加到背景区域上,得到训练场景文本图片。对所需的生活场景图片和文字样本没有特殊要求,数据来源极广,数据门槛较低,具有较强的泛化性,如图2所示。
步骤2:提取图片特征
选取ResNet50残差卷积神经网络,使用组归一化与空洞卷积配合进行特征提取,逐步得到图片的高层语义。
所述特征提取网络以ResNet50为基本骨架,该网络由5个部分组成,分别为第一卷积单元(conv1)、第二残差单元(conv2_x)、第三残差单元(conv3_x)、第四残差单元(conv4_x)和第五残差单元(conv5_x),用于逐级提取图像的高层语义特征,每个部分包含数量不等的卷积层和一个池化层。对于输入的图像,经过ResNet50的每个单元处理后,其输出特征图的分辨率缩小2倍。
在选用的ResNet50卷积神经网络中使用组归一化层(group Normalization,GN),避开训练样本的Batch Size(批大小)对模型的影响。组归一化的公式如下:
其中,Sk表示的是特征图的像素总个数;xi表示第i个像素,u表示特征图的像素平均值,ξ为接近0的正值;γ、β分别表示缩放参数和平移参数。
假如输入的特征图形状为N*H*W*C,其中N表示Batch Size,H、W表示特征图的尺寸大小,C表示特征图的通道数。对GN而言:首先将N*H*W*C分成G组N*H*W*C/G,Sk就是H*W*C/G内的所有点,GN对H*W*C/G个像素一起归一化,再将G组归一化的结果合并得到H*W*C;对每个通道作缩放和平移变换,都有一组γ,β,因此参数总数为C*2,如图3所示。
在特征提取网络中,将传统卷积核中插入不同尺度的零得到空洞卷积核,扩大特征提取的范围。相比传统卷积操作,空洞卷积能在不增加参数的情况下得到较大的感受野,并得到和输入大小相同的特征图。本实施例只需将每个3×3的普通卷积替换为3×3空洞卷积就可以将空洞卷积合并到残差单元中,如图4所示。
步骤3:恢复图片尺度
通过反卷积进行上采样,使特征图逐步恢复到输入图像大小。在图片尺度恢复过程中,将特征提取网络得到的高层语义输入第一反卷积层,每一个反卷积层的放大倍数与ResNet50的各模块对应,为固定的2倍放大。通过反卷积的加深,逐渐增大输出特征图的尺寸,最后一个反卷积的输出特征图维度为1,尺度大小初始输入图片一致。
步骤4:特征融合
对应不同深度的特征图,将卷积层与反卷积层输出的特征图进行多尺度融合,实现对图像的细节补充。
在特征融合中,将特征提取网络第五残差单元的输出高层语义特征图输入第一反卷积层,将特征提取网络前4个部分(第一卷积单元、第二残差单元、第三残差单元、第四残差单元)的输出特征图分别加到第二反卷积层、第三反卷积层、第四反卷积层与第五反卷积层的输入特征图上,弥补反卷积造成的细节损失,如图4所示。
步骤5:特征图激活
将融合后的特征图经过sigmoid层,输出特征图的文本与背景概率分布,然后设定阈值进行二值化,得到文本和背景的黑白图。sigmoid层如下式:
其中,mask()代表黑白场景文本分割图,x代表融合后的特征图。
步骤6:训练模型
输入训练场景文本图片样本,设定损失函数loss对深度学习模型进行训练,逐步更新网络参数,网络输出为与初始输入图片大小一致,每个像素分为文本和背景的黑白图。
在损失函数loss设定中,使用场景文本与输出黑白图的视图差和隐藏层稀疏性KL散度惩罚因子的组合对网络模型进行训练,如下式:
loss=λ1lossm2losskl
其中,loss代表模型的训练损失函数,lossm代表场景图片,场景文本图片和输出黑白图的视图差异,losskl代表网络模型的隐藏层稀疏性KL散度惩罚因子,λ1、λ2代表权重;i,j代表像素点,Mi,j代表网络输出的黑白图的像素;代表叠加后的场景文本图片像素,代表原始场景图片像素,ρ代表稀疏性系数。
利用场景文本和输出黑白图的视图差作为损失函数是本发明弱监督方法的核心所在。场景文本图片可以由场景图片和场景文本组成,因此视图差包含了文本检测所需要的丰富隐层信息,通过这种隐性的约束使得网络不断加强对文本区域的学习,最后得到能够准确对文本区域进行分割的特征图。
将隐含层稀疏化以降低隐藏神经元的数量过多引起的模型训练困难,得到输入的压缩表示。具体来说,给隐藏神经元加入稀疏性限制,那么神经网络即使在隐藏神经元数量较多的情况下仍然可以发现输入数据中富有实际意义的结构。为了实现这一限制,需要引入稀疏性参数与对应惩罚因子,如果存在稀疏性参数异常的情况,惩罚因子将进行惩罚,使得隐藏神经元的平均活跃度保持在较小范围内,保证训练稳步进行。
采用端到端的训练方式,网络以224*224的场景文本图片作为输入,输出文本和背景的黑白图;训练一共50个阶段,每批次64张图像,初始学习率为0.001,每迭代1000次学习率乘以0.1,采用0.9的动量和0.0005的权重衰减。
步骤7:后处理
将得到的场景文本分割图经过膨胀与腐蚀,生成文本区域边界框。
将测试样本输入训练好的深度学习网络模型,得到只有文本与背景的黑白图;通过腐蚀消除白色的噪声斑点,再通过膨胀适当扩张白色区域,以避免图像样本的损失;找到轮廓并沿着轮廓搜索,考虑文本旋转,以最小面积绘制边界矩形,得到文本区域边界框。
膨胀或者腐蚀操作实际上是将图像与卷积核进行卷积,该卷积核可以是任何的形状和大小,拥有一个单独定义出来的参考点,称其为锚点。多数情况下,核是一个小的中间带有参考点和实心正方形或者圆盘,可视为模板。膨胀就是求局部最大值的操作,卷积核与图形卷积,即计算卷积核覆盖的区域的像素点的最大值,并把这个最大值赋值给参考点指定的像素,这样就会使图像中的高亮区域逐渐增长;腐蚀与膨胀是相反的操作,腐蚀是求局部最小值,经过腐蚀操作,高亮部分被腐蚀减小。

Claims (4)

1.一种基于弱监督深度学习的场景文本分割方法,其特征在于,包括以下步骤:
步骤1:将场景图片与任意文本叠加生成场景文本图片作为训练样本,标签为场景图片本身;
步骤2:选取ResNet50残差卷积神经网络,使用组归一化与空洞卷积配合对训练样本进行特征提取,逐步得到高层语义特征图;
步骤3:通过反卷积进行上采样,使高层语义特征图逐步恢复到输入训练样本大小;
步骤4:对应不同深度的特征图,将反卷积层的输出特征图与对应深度的特征提取网络的输出特征图相加融合;
步骤5:将融合后的特征图经过sigmoid函数激活,输出黑白场景文本分割图;
步骤6:输入训练样本,设定损失函数loss对深度学习模型进行训练与优化;
步骤7:将经过深度学习模型训练与优化后的场景文本分割图经过腐蚀与膨胀,生成文本区域边界框。
2.如权利要求1所述的一种基于弱监督深度学习的场景文本分割方法,其特征在于,在步骤4中,将特征提取网络第五残差单元的输出高层语义特征图输入第一反卷积层,将特征提取网络前4个部分第一卷积单元、第二残差单元、第三残差单元、第四残差单元的输出特征图分别加到第二反卷积层、第三反卷积层、第四反卷积层与第五反卷积层的输入特征图上,弥补反卷积造成的细节损失。
3.如权利要求1所述的一种基于弱监督深度学习的场景文本分割方法,其特征在于,在步骤6对损失函数loss的设定中,使用场景文本与输出黑白图的视图差和隐藏层稀疏性KL散度惩罚因子的组合对网络模型进行训练,如下式:
loss=λ1lossm2losskl
其中,loss代表模型的训练损失函数,lossm代表场景文本和输出黑白图的视图差,losskl代表网络模型的隐藏层稀疏性KL散度惩罚因子,λ1、λ2代表权重;i,j代表像素点,Mi,j代表网络输出的黑白图的像素;代表叠加后的场景文本图片像素,代表原始场景图片像素,ρ代表稀疏性系数。
4.如权利要求3所述的一种基于弱监督深度学习的场景文本分割方法,其特征在于,所述步骤6中,采用端到端的训练方式,网络以224*224的场景文本图片作为输入,输出文本和背景的黑白图;训练一共50个阶段,每批次64张图像,初始学习率为0.001,每迭代1000次学习率乘以0.1,采用0.9的动量和0.0005的权重衰减。
CN201910570489.9A 2019-06-27 2019-06-27 一种基于弱监督深度学习的场景文本分割方法 Active CN110322495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910570489.9A CN110322495B (zh) 2019-06-27 2019-06-27 一种基于弱监督深度学习的场景文本分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910570489.9A CN110322495B (zh) 2019-06-27 2019-06-27 一种基于弱监督深度学习的场景文本分割方法

Publications (2)

Publication Number Publication Date
CN110322495A true CN110322495A (zh) 2019-10-11
CN110322495B CN110322495B (zh) 2021-11-02

Family

ID=68121299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910570489.9A Active CN110322495B (zh) 2019-06-27 2019-06-27 一种基于弱监督深度学习的场景文本分割方法

Country Status (1)

Country Link
CN (1) CN110322495B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991303A (zh) * 2019-11-27 2020-04-10 上海智臻智能网络科技股份有限公司 一种图像中文本定位方法、装置及电子设备
CN111260666A (zh) * 2020-01-19 2020-06-09 上海商汤临港智能科技有限公司 图像处理方法及装置、电子设备、计算机可读存储介质
CN111476226A (zh) * 2020-02-29 2020-07-31 新华三大数据技术有限公司 一种文本定位方法、装置及模型训练方法
CN111488873A (zh) * 2020-04-03 2020-08-04 中国科学院深圳先进技术研究院 一种基于弱监督学习的字符级场景文字检测方法和装置
CN111582084A (zh) * 2020-04-24 2020-08-25 北京航空航天大学 基于弱监督学习的空基视角下的铁轨异物检测方法及系统
CN111598133A (zh) * 2020-04-22 2020-08-28 腾讯科技(深圳)有限公司 基于人工智能的图像显示方法、装置、设备及介质
CN111611895A (zh) * 2020-05-15 2020-09-01 北京联合大学 一种基于OpenPose的多视角人体骨架自动标注方法
CN111898608A (zh) * 2020-07-04 2020-11-06 西北工业大学 一种基于边界预测的自然场景多语言文字检测方法
CN112147189A (zh) * 2020-09-11 2020-12-29 北京航空航天大学 一种用于二值化电容层析成像的闭环图像重建方法
CN112329737A (zh) * 2020-12-01 2021-02-05 哈尔滨理工大学 一种基于改进Faster RCNN的车辆检测方法
CN112418207A (zh) * 2020-11-23 2021-02-26 南京审计大学 一种基于自注意力蒸馏的弱监督文字检测方法
CN112861739A (zh) * 2021-02-10 2021-05-28 中国科学技术大学 端到端文本识别方法、模型训练方法及装置
CN112966684A (zh) * 2021-03-15 2021-06-15 北湾科技(武汉)有限公司 一种注意力机制下的协同学习文字识别方法
WO2021129466A1 (zh) * 2019-12-26 2021-07-01 Oppo广东移动通信有限公司 检测水印的方法、装置、终端及存储介质
CN113065411A (zh) * 2021-03-10 2021-07-02 国网河北省电力有限公司 基于中心点监督信息的文本检测方法
CN113537223A (zh) * 2020-04-20 2021-10-22 北京沃东天骏信息技术有限公司 训练样本生成、模型训练和图像处理方法及装置
CN113591719A (zh) * 2021-08-02 2021-11-02 南京大学 一种自然场景任意形状文本检测方法、装置和训练方法
CN113642535A (zh) * 2021-10-13 2021-11-12 聊城高新生物技术有限公司 一种生物分支检测方法、装置及电子设备
CN113888505A (zh) * 2021-09-30 2022-01-04 大连理工大学 一种基于语义分割的自然场景文本检测方法
CN114972947A (zh) * 2022-07-26 2022-08-30 之江实验室 一种基于模糊语义建模的深度场景文本检测方法和装置
CN115393726A (zh) * 2022-10-28 2022-11-25 国网思极位置服务有限公司 线路交叉跨越区识别方法及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404868A (zh) * 2015-11-19 2016-03-16 电子科技大学 一种基于交互平台的复杂背景中文本的快速检测方法
CN106485211A (zh) * 2016-09-26 2017-03-08 西安交通大学 一种基于二叉树的文本行精确定位方法
CN108009548A (zh) * 2018-01-09 2018-05-08 贵州大学 一种智能路牌识别方法及系统
CN108416828A (zh) * 2018-03-26 2018-08-17 南开大学 一种3d场景文本图片合成方法及系统
CN108573255A (zh) * 2017-03-13 2018-09-25 阿里巴巴集团控股有限公司 文字合成图像的识别方法及装置、图像识别方法
CN109544563A (zh) * 2018-11-12 2019-03-29 北京航空航天大学 一种面向违禁物安检的被动毫米波图像人体目标分割方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404868A (zh) * 2015-11-19 2016-03-16 电子科技大学 一种基于交互平台的复杂背景中文本的快速检测方法
CN106485211A (zh) * 2016-09-26 2017-03-08 西安交通大学 一种基于二叉树的文本行精确定位方法
CN108573255A (zh) * 2017-03-13 2018-09-25 阿里巴巴集团控股有限公司 文字合成图像的识别方法及装置、图像识别方法
CN108009548A (zh) * 2018-01-09 2018-05-08 贵州大学 一种智能路牌识别方法及系统
CN108416828A (zh) * 2018-03-26 2018-08-17 南开大学 一种3d场景文本图片合成方法及系统
CN109544563A (zh) * 2018-11-12 2019-03-29 北京航空航天大学 一种面向违禁物安检的被动毫米波图像人体目标分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
VIJAY BADRINARAYANAN 等: "SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
YU MENG等: "Weakly-Supervised Neural Text Classification", 《 CIKM ’18: PROCEEDINGS OF THE 27TH ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *
程显毅 等: "基于深度学习监控场景下的多尺度目标检测算法研究", 《南京师范大学学报( 工程技术版)》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991303A (zh) * 2019-11-27 2020-04-10 上海智臻智能网络科技股份有限公司 一种图像中文本定位方法、装置及电子设备
WO2021129466A1 (zh) * 2019-12-26 2021-07-01 Oppo广东移动通信有限公司 检测水印的方法、装置、终端及存储介质
CN111260666B (zh) * 2020-01-19 2022-05-24 上海商汤临港智能科技有限公司 图像处理方法及装置、电子设备、计算机可读存储介质
CN111260666A (zh) * 2020-01-19 2020-06-09 上海商汤临港智能科技有限公司 图像处理方法及装置、电子设备、计算机可读存储介质
CN111476226A (zh) * 2020-02-29 2020-07-31 新华三大数据技术有限公司 一种文本定位方法、装置及模型训练方法
CN111476226B (zh) * 2020-02-29 2022-08-30 新华三大数据技术有限公司 一种文本定位方法、装置及模型训练方法
CN111488873A (zh) * 2020-04-03 2020-08-04 中国科学院深圳先进技术研究院 一种基于弱监督学习的字符级场景文字检测方法和装置
CN111488873B (zh) * 2020-04-03 2023-10-24 中国科学院深圳先进技术研究院 一种基于弱监督学习的字符级场景文字检测方法和装置
CN113537223A (zh) * 2020-04-20 2021-10-22 北京沃东天骏信息技术有限公司 训练样本生成、模型训练和图像处理方法及装置
CN111598133A (zh) * 2020-04-22 2020-08-28 腾讯科技(深圳)有限公司 基于人工智能的图像显示方法、装置、设备及介质
CN111582084A (zh) * 2020-04-24 2020-08-25 北京航空航天大学 基于弱监督学习的空基视角下的铁轨异物检测方法及系统
CN111582084B (zh) * 2020-04-24 2022-07-08 北京航空航天大学 基于弱监督学习的空基视角下的铁轨异物检测方法及系统
CN111611895B (zh) * 2020-05-15 2023-12-19 北京联合大学 一种基于OpenPose的多视角人体骨架自动标注方法
CN111611895A (zh) * 2020-05-15 2020-09-01 北京联合大学 一种基于OpenPose的多视角人体骨架自动标注方法
CN111898608A (zh) * 2020-07-04 2020-11-06 西北工业大学 一种基于边界预测的自然场景多语言文字检测方法
CN112147189A (zh) * 2020-09-11 2020-12-29 北京航空航天大学 一种用于二值化电容层析成像的闭环图像重建方法
CN112418207B (zh) * 2020-11-23 2024-03-19 南京审计大学 一种基于自注意力蒸馏的弱监督文字检测方法
CN112418207A (zh) * 2020-11-23 2021-02-26 南京审计大学 一种基于自注意力蒸馏的弱监督文字检测方法
CN112329737A (zh) * 2020-12-01 2021-02-05 哈尔滨理工大学 一种基于改进Faster RCNN的车辆检测方法
CN112861739B (zh) * 2021-02-10 2022-09-09 中国科学技术大学 端到端文本识别方法、模型训练方法及装置
CN112861739A (zh) * 2021-02-10 2021-05-28 中国科学技术大学 端到端文本识别方法、模型训练方法及装置
CN113065411A (zh) * 2021-03-10 2021-07-02 国网河北省电力有限公司 基于中心点监督信息的文本检测方法
CN112966684B (zh) * 2021-03-15 2022-11-04 北湾科技(武汉)有限公司 一种注意力机制下的协同学习文字识别方法
CN112966684A (zh) * 2021-03-15 2021-06-15 北湾科技(武汉)有限公司 一种注意力机制下的协同学习文字识别方法
CN113591719A (zh) * 2021-08-02 2021-11-02 南京大学 一种自然场景任意形状文本检测方法、装置和训练方法
CN113888505A (zh) * 2021-09-30 2022-01-04 大连理工大学 一种基于语义分割的自然场景文本检测方法
CN113642535B (zh) * 2021-10-13 2022-01-25 聊城高新生物技术有限公司 一种生物分支检测方法、装置及电子设备
CN113642535A (zh) * 2021-10-13 2021-11-12 聊城高新生物技术有限公司 一种生物分支检测方法、装置及电子设备
CN114972947A (zh) * 2022-07-26 2022-08-30 之江实验室 一种基于模糊语义建模的深度场景文本检测方法和装置
CN114972947B (zh) * 2022-07-26 2022-12-06 之江实验室 一种基于模糊语义建模的深度场景文本检测方法和装置
CN115393726A (zh) * 2022-10-28 2022-11-25 国网思极位置服务有限公司 线路交叉跨越区识别方法及计算机可读存储介质
CN115393726B (zh) * 2022-10-28 2023-01-10 国网思极位置服务有限公司 线路交叉跨越区识别方法及计算机可读存储介质

Also Published As

Publication number Publication date
CN110322495B (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN110322495A (zh) 一种基于弱监督深度学习的场景文本分割方法
Ji et al. Salient object detection via multi-scale attention CNN
CN110428428B (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN112966684A (zh) 一种注意力机制下的协同学习文字识别方法
CN111259786A (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
Xu et al. Fast vehicle and pedestrian detection using improved Mask R-CNN
CN105528575B (zh) 基于上下文推理的天空检测方法
CN109886159B (zh) 一种非限定条件下的人脸检测方法
CN111310766A (zh) 基于编解码和二维注意力机制的车牌识别方法
CN110853039B (zh) 一种多数据融合的草图图像分割方法、系统、装置及存储介质
CN113989890A (zh) 基于多通道融合和轻量级神经网络的人脸表情识别方法
CN115424017B (zh) 一种建筑物内外轮廓分割方法、装置及存储介质
Sharma et al. Character recognition using machine learning and deep learning-a survey
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
CN112597324A (zh) 一种基于相关滤波的图像哈希索引构建方法、系统及设备
CN114973222A (zh) 基于显式监督注意力机制的场景文本识别方法
CN116740527A (zh) U型网络与自注意力机制结合的遥感图像变化检测方法
Saqib et al. Intelligent dynamic gesture recognition using CNN empowered by edit distance
Li A deep learning-based text detection and recognition approach for natural scenes
CN116091764A (zh) 一种基于融合变换网络的云图像分割方法
Ahmed et al. Sub-sampling approach for unconstrained Arabic scene text analysis by implicit segmentation based deep learning classifier
Chi et al. Handwriting Recognition Based on Resnet-18
Xu et al. SPNet: Superpixel pyramid network for scene parsing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant