CN110322495B - 一种基于弱监督深度学习的场景文本分割方法 - Google Patents
一种基于弱监督深度学习的场景文本分割方法 Download PDFInfo
- Publication number
- CN110322495B CN110322495B CN201910570489.9A CN201910570489A CN110322495B CN 110322495 B CN110322495 B CN 110322495B CN 201910570489 A CN201910570489 A CN 201910570489A CN 110322495 B CN110322495 B CN 110322495B
- Authority
- CN
- China
- Prior art keywords
- text
- scene
- loss
- picture
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000013135 deep learning Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims abstract description 4
- 230000003213 activating effect Effects 0.000 claims abstract description 3
- 238000010606 normalization Methods 0.000 claims description 7
- 238000013136 deep learning model Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 18
- 230000004927 fusion Effects 0.000 abstract description 6
- 238000013527 convolutional neural network Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000003628 erosive effect Effects 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
- G06T7/49—Analysis of texture based on structural texture description, e.g. using primitives or placement rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于弱监督深度学习的场景文本分割方法,包括以下步骤:将场景图片与任意文本叠加生成场景文本图片,生成训练样本,标签为场景图片本身;利用卷积神经网络进行特征提取,逐步得到高层语义;通过反卷积进行上采样,使高层语义特征图逐步恢复到输入图像尺寸;将卷积层与反卷积层输出的特征图进行多尺度融合;将融合后的特征图经过激活得到场景与文本的二分类黑白图;设定损失函数进行训练;将训练后得到的场景文本分割图经过腐蚀与膨胀,生成文本区域边界框。本发明方法不需要任何强监督的像素级标注样本,简单高效地解决了场景文本检测中的文本分割问题,大大降低了算法成本,提高了场景文本分割效率。
Description
技术领域
本发明属于图像处理领域,具体涉及一种基于弱监督深度学习的场景文本分割方法。
背景技术
近年来,从现实场景图像中提取文本信息变得日益流行。场景文本检测(一种自然场景图像文本的定位技术)在各种文本阅读系统中发挥着不可或缺的作用。自然场景图像中的文本检测,相较于一般物体检测更为复杂,其中一个主要原因是因为自然场景文本图像的背景极其复杂多样,如文字可以出现在平面、曲面或折皱面上;文字区域附近有复杂的干扰纹理、或者非文字区域有近似文字的纹理等。因为干扰十分严重,算法在定位边界框时会难以判定文本实例。
传统方法中,需要对原始图片进行预处理去除背景干扰,得到比较干净的黑白文本与非文本图,以便后续的特征提取和学习。这个过程通常包含:灰度化、二值化、降噪等子步骤,每一个步骤都涉及了不同的算法,操作起来十分复杂。随着摄像头技术的发展,采集到的图片越来越丰富,背景干扰越来越严重,去除背景干扰的工作难度越来越大,传统的算法已经无法满足人们的需要。
随着深度学习在图像处理领域的快速发展,许多传统的场景文本检测领域的图像处理方法逐渐被取代。起源于图像分类、检测、语义分割等视觉处理任务的各种卷积神经网络,纷纷被用来提升场景文本检测的效率。深度学习在场景文本检测领域近期成果显著,演化出两类主流的检测网络。第一类基于普通的物体检测网络,如SSD、YOLO等,可以直接预测候选文本区域边界框;第二类基于全卷积语义分割网络,可以生成场景文本分割图,通过后处理给出最终的文本区域边界框。相比较而言,全卷积语义分割网络的优点在于可以接受任意大小的输入图像,而且避免了由于使用像素块而带来的重复存储和计算卷积的问题,因此更加高效。采用全卷积方式,可根据高分辨率的特征图直接检测文字与非文字区域,最后一层特征图中每个像素将被分成文字行(前景)和非文字行(背景)两个类别,简单高效地解决了场景文本背景干扰问题,受到了研究者的广泛青睐。
但是,全卷积语义分割网络也具有很大的问题,原因在于其属于监督式的深度学习,需要大量训练样本来构建预测模型,其中每个训练样本都有一个标签注明其真值输出。尽管当前的技术已经取得了巨大的成功,但值得注意的是,由于数据标注过程的高成本,在场景文本检测这样一个复杂任务下,研究者们很难获得拥有全部真值标签,即强监督的像素级标注样本进行训练,因此全卷积语义分割网络在场景文本检测与识别中的应用受到了很大限制。
发明内容
本发明所要解决的技术问题是提供一种基于弱监督深度学习的场景文本分割方法,基于全卷积语义分割网络,不需要任何强监督的像素级标注样本,简单高效地解决场景文本检测中的文本分割问题,大大降低算法成本,提高场景文本检测效率。
为解决上述技术问题,本发明采用的技术方案是:
一种基于弱监督深度学习的场景文本分割方法,包括以下步骤:
步骤1:将场景图片与任意文本叠加生成场景文本图片作为训练样本,标签为场景图片本身;
步骤2:选取ResNet50残差卷积神经网络,使用组归一化与空洞卷积配合对训练样本进行特征提取,逐步得到高层语义特征图;
步骤3:通过反卷积进行上采样,使高层语义特征图逐步恢复到输入训练样本大小;
步骤4:对应不同深度的特征图,将反卷积层的输出特征图与对应深度的特征提取网络的输出特征图相加融合;
步骤5:将融合后的特征图经过sigmoid函数激活,输出黑白场景文本分割图;
步骤6:输入训练样本,设定损失函数loss对深度学习模型进行训练与优化;
步骤7:将经过深度学习模型训练与优化后的场景文本分割图经过腐蚀与膨胀,生成文本区域边界框。
进一步的,在步骤4中,将特征提取网络第五残差单元的输出高层语义特征图输入第一反卷积层,将特征提取网络前4个部分第一卷积单元、第二残差单元、第三残差单元、第四残差单元的输出特征图分别加到第二反卷积层、第三反卷积层、第四反卷积层与第五反卷积层的输入特征图上,弥补反卷积造成的细节损失。
进一步的,在步骤6对损失函数loss的设定中,使用场景文本与输出黑白图的视图差和隐藏层稀疏性KL散度惩罚因子的组合对网络模型进行训练,如下式:
loss=λ1lossm+λ2losskl
其中,loss代表模型的训练损失函数,lossm代表场景文本图片与输出黑白图的视图差,losskl代表网络模型的隐藏层稀疏性KL散度惩罚因子,λ1、λ2代表权重;i,j代表像素点,Mi,j代表网络输出的黑白图的像素;代表叠加后的场景文本图片像素,代表原始场景图片像素,ρ代表稀疏性系数。
进一步的,所述步骤6中,采用端到端的训练方式,网络以224*224的场景文本图片作为输入,输出文本和背景的黑白图;训练一共50个阶段,每批次64张图像,初始学习率为0.001,每迭代1000次学习率乘以0.1,采用0.9的动量和0.0005的权重衰减。
与现有技术相比,本发明的有益效果是:
1)采用弱监督的思想,将场景文本分割所需要的像素级标注训练样本替换为简单可得的场景图片与随机文本叠加合成图,利用合成图与场景图的视图差异进行文本区域的检测训练,大大降低了算法成本,提高了全卷积语义分割网络在场景文本检测中的效率;
2)通过全卷积语义分割网络,隐式获取了文本区域信息,只需整体标签即可获取具体文本区域信息,这为目标检测提供了一种新的思路,即可以用整体的标签来对部分进行估计,拓宽了该方法的应用范围。
附图说明
图1为本发明方法的流程图;
图2为训练数据生成示意图;
图3为组归一化示意图;
图4为空洞卷积示意图;
图5为特征提取、特征融合、尺度恢复与后处理的整体流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明一种基于弱监督深度学习的场景文本分割方法,其基于全卷积语义分割网络,包括以下步骤:
步骤1:生成训练数据
将场景图片与任意文本叠加生成场景文本图片训练数据,标签为场景图片本身。
本实例从网上任意搜索选取了多组生活场景图片,随机剪裁出224*224的背景区域,经过工具操作,将任意角度的中文和英文文字样本添加到背景区域上,得到训练场景文本图片。对所需的生活场景图片和文字样本没有特殊要求,数据来源极广,数据门槛较低,具有较强的泛化性,如图2所示。
步骤2:提取图片特征
选取ResNet50残差卷积神经网络,使用组归一化与空洞卷积配合进行特征提取,逐步得到图片的高层语义。
所述特征提取网络以ResNet50为基本骨架,该网络由5个部分组成,分别为第一卷积单元(conv1)、第二残差单元(conv2_x)、第三残差单元(conv3_x)、第四残差单元(conv4_x)和第五残差单元(conv5_x),用于逐级提取图像的高层语义特征,每个部分包含数量不等的卷积层和一个池化层。对于输入的图像,经过ResNet50的每个单元处理后,其输出特征图的分辨率缩小2倍。
在选用的ResNet50卷积神经网络中使用组归一化层(group Normalization,GN),避开训练样本的Batch Size(批大小)对模型的影响。组归一化的公式如下:
其中,Sk表示的是特征图的像素总个数;xi表示第i个像素,u表示特征图的像素平均值,x为接近0的正值;γ、β分别表示缩放参数和平移参数。
假如输入的特征图形状为N*H*W*C,其中N表示Batch Size,H、W表示特征图的尺寸大小,C表示特征图的通道数。对GN而言:首先将N*H*W*C分成G组N*H*W*C/G,Sk就是H*W*C/G内的所有点,GN对H*W*C/G个像素一起归一化,再将G组归一化的结果合并得到H*W*C;对每个通道作缩放和平移变换,都有一组γ,β,因此参数总数为C*2,如图3所示。
在特征提取网络中,将传统卷积核中插入不同尺度的零得到空洞卷积核,扩大特征提取的范围。相比传统卷积操作,空洞卷积能在不增加参数的情况下得到较大的感受野,并得到和输入大小相同的特征图。本实施例只需将每个3×3的普通卷积替换为3×3空洞卷积就可以将空洞卷积合并到残差单元中,如图4所示。
步骤3:恢复图片尺度
通过反卷积进行上采样,使特征图逐步恢复到输入图像大小。在图片尺度恢复过程中,将特征提取网络得到的高层语义输入第一反卷积层,每一个反卷积层的放大倍数与ResNet50的各模块对应,为固定的2倍放大。通过反卷积的加深,逐渐增大输出特征图的尺寸,最后一个反卷积的输出特征图维度为1,尺度大小初始输入图片一致。
步骤4:特征融合
对应不同深度的特征图,将卷积层与反卷积层输出的特征图进行多尺度融合,实现对图像的细节补充。
在特征融合中,将特征提取网络第五残差单元的输出高层语义特征图输入第一反卷积层,将特征提取网络前4个部分(第一卷积单元、第二残差单元、第三残差单元、第四残差单元)的输出特征图分别加到第二反卷积层、第三反卷积层、第四反卷积层与第五反卷积层的输入特征图上,弥补反卷积造成的细节损失,如图4所示。
步骤5:特征图激活
将融合后的特征图经过sigmoid层,输出特征图的文本与背景概率分布,然后设定阈值进行二值化,得到文本和背景的黑白图。sigmoid层如下式:
其中,mask()代表黑白场景文本分割图,x代表融合后的特征图。
步骤6:训练模型
输入训练场景文本图片样本,设定损失函数loss对深度学习模型进行训练,逐步更新网络参数,网络输出为与初始输入图片大小一致,每个像素分为文本和背景的黑白图。
在损失函数loss设定中,使用场景文本与输出黑白图的视图差和隐藏层稀疏性KL散度惩罚因子的组合对网络模型进行训练,如下式:
loss=λ1lossm+λ2losskl
其中,loss代表模型的训练损失函数,lossm代表场景文本图片和输出黑白图的视图差异,losskl代表网络模型的隐藏层稀疏性KL散度惩罚因子,λ1、λ2代表权重;i,j代表像素点,Mi,j代表网络输出的黑白图的像素;代表叠加后的场景文本图片像素,代表原始场景图片像素,ρ代表稀疏性系数。
利用场景文本和输出黑白图的视图差作为损失函数是本发明弱监督方法的核心所在。场景文本图片可以由场景图片和场景文本组成,因此视图差包含了文本检测所需要的丰富隐层信息,通过这种隐性的约束使得网络不断加强对文本区域的学习,最后得到能够准确对文本区域进行分割的特征图。
将隐含层稀疏化以降低隐藏神经元的数量过多引起的模型训练困难,得到输入的压缩表示。具体来说,给隐藏神经元加入稀疏性限制,那么神经网络即使在隐藏神经元数量较多的情况下仍然可以发现输入数据中富有实际意义的结构。为了实现这一限制,需要引入稀疏性参数与对应惩罚因子,如果存在稀疏性参数异常的情况,惩罚因子将进行惩罚,使得隐藏神经元的平均活跃度保持在较小范围内,保证训练稳步进行。
采用端到端的训练方式,网络以224*224的场景文本图片作为输入,输出文本和背景的黑白图;训练一共50个阶段,每批次64张图像,初始学习率为0.001,每迭代1000次学习率乘以0.1,采用0.9的动量和0.0005的权重衰减。
步骤7:后处理
将得到的场景文本分割图经过膨胀与腐蚀,生成文本区域边界框。
将测试样本输入训练好的深度学习网络模型,得到只有文本与背景的黑白图;通过腐蚀消除白色的噪声斑点,再通过膨胀适当扩张白色区域,以避免图像样本的损失;找到轮廓并沿着轮廓搜索,考虑文本旋转,以最小面积绘制边界矩形,得到文本区域边界框。
膨胀或者腐蚀操作实际上是将图像与卷积核进行卷积,该卷积核可以是任何的形状和大小,拥有一个单独定义出来的参考点,称其为锚点。多数情况下,核是一个小的中间带有参考点和实心正方形或者圆盘,可视为模板。膨胀就是求局部最大值的操作,卷积核与图形卷积,即计算卷积核覆盖的区域的像素点的最大值,并把这个最大值赋值给参考点指定的像素,这样就会使图像中的高亮区域逐渐增长;腐蚀与膨胀是相反的操作,腐蚀是求局部最小值,经过腐蚀操作,高亮部分被腐蚀减小。
Claims (3)
1.一种基于弱监督深度学习的场景文本分割方法,其特征在于,包括以下步骤:
步骤1:将场景图片与任意文本叠加生成场景文本图片作为训练样本,标签为场景图片本身;
步骤2:选取ResNet50残差卷积神经网络,使用组归一化与空洞卷积配合对训练样本进行特征提取,逐步得到高层语义特征图;
步骤3:通过反卷积进行上采样,使高层语义特征图逐步恢复到输入训练样本大小;
步骤4:对应不同深度的特征图,将反卷积层的输出特征图与对应深度的特征提取网络的输出特征图相加融合;
步骤5:将融合后的特征图经过sigmoid函数激活,输出黑白场景文本分割图;
步骤6:输入训练样本,设定损失函数loss对深度学习模型进行训练与优化;
步骤7:将经过深度学习模型训练与优化后的场景文本分割图经过腐蚀与膨胀,生成文本区域边界框;
在步骤6对损失函数loss的设定中,使用场景文本与输出黑白图的视图差和隐藏层稀疏性KL散度惩罚因子的组合对网络模型进行训练,如下式:
loss=λ1lossm+λ2losskl
2.如权利要求1所述的一种基于弱监督深度学习的场景文本分割方法,其特征在于,在步骤4中,将特征提取网络第五残差单元的输出高层语义特征图输入第一反卷积层,将特征提取网络前4个部分第一卷积单元、第二残差单元、第三残差单元、第四残差单元的输出特征图分别加到第二反卷积层、第三反卷积层、第四反卷积层与第五反卷积层的输入特征图上,弥补反卷积造成的细节损失。
3.如权利要求1所述的一种基于弱监督深度学习的场景文本分割方法,其特征在于,所述步骤6中,采用端到端的训练方式,网络以224*224的场景文本图片作为输入,输出文本和背景的黑白图;训练一共50个阶段,每批次64张图像,初始学习率为0.001,每迭代1000次学习率乘以0.1,采用0.9的动量和0.0005的权重衰减。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910570489.9A CN110322495B (zh) | 2019-06-27 | 2019-06-27 | 一种基于弱监督深度学习的场景文本分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910570489.9A CN110322495B (zh) | 2019-06-27 | 2019-06-27 | 一种基于弱监督深度学习的场景文本分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110322495A CN110322495A (zh) | 2019-10-11 |
CN110322495B true CN110322495B (zh) | 2021-11-02 |
Family
ID=68121299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910570489.9A Active CN110322495B (zh) | 2019-06-27 | 2019-06-27 | 一种基于弱监督深度学习的场景文本分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110322495B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991303A (zh) * | 2019-11-27 | 2020-04-10 | 上海智臻智能网络科技股份有限公司 | 一种图像中文本定位方法、装置及电子设备 |
CN111062854B (zh) * | 2019-12-26 | 2023-08-25 | Oppo广东移动通信有限公司 | 检测水印的方法、装置、终端及存储介质 |
CN111260666B (zh) * | 2020-01-19 | 2022-05-24 | 上海商汤临港智能科技有限公司 | 图像处理方法及装置、电子设备、计算机可读存储介质 |
CN111476226B (zh) * | 2020-02-29 | 2022-08-30 | 新华三大数据技术有限公司 | 一种文本定位方法、装置及模型训练方法 |
CN111488873B (zh) * | 2020-04-03 | 2023-10-24 | 中国科学院深圳先进技术研究院 | 一种基于弱监督学习的字符级场景文字检测方法和装置 |
CN113537223A (zh) * | 2020-04-20 | 2021-10-22 | 北京沃东天骏信息技术有限公司 | 训练样本生成、模型训练和图像处理方法及装置 |
CN111598133B (zh) | 2020-04-22 | 2022-10-14 | 腾讯医疗健康(深圳)有限公司 | 基于人工智能的图像显示方法、装置、系统、设备及介质 |
CN111582084B (zh) * | 2020-04-24 | 2022-07-08 | 北京航空航天大学 | 基于弱监督学习的空基视角下的铁轨异物检测方法及系统 |
CN111611895B (zh) * | 2020-05-15 | 2023-12-19 | 北京联合大学 | 一种基于OpenPose的多视角人体骨架自动标注方法 |
CN111898608B (zh) * | 2020-07-04 | 2022-04-26 | 西北工业大学 | 一种基于边界预测的自然场景多语言文字检测方法 |
CN112147189A (zh) * | 2020-09-11 | 2020-12-29 | 北京航空航天大学 | 一种用于二值化电容层析成像的闭环图像重建方法 |
CN112418207B (zh) * | 2020-11-23 | 2024-03-19 | 南京审计大学 | 一种基于自注意力蒸馏的弱监督文字检测方法 |
CN112329737A (zh) * | 2020-12-01 | 2021-02-05 | 哈尔滨理工大学 | 一种基于改进Faster RCNN的车辆检测方法 |
CN112861739B (zh) * | 2021-02-10 | 2022-09-09 | 中国科学技术大学 | 端到端文本识别方法、模型训练方法及装置 |
CN113065411A (zh) * | 2021-03-10 | 2021-07-02 | 国网河北省电力有限公司 | 基于中心点监督信息的文本检测方法 |
CN112966684B (zh) * | 2021-03-15 | 2022-11-04 | 北湾科技(武汉)有限公司 | 一种注意力机制下的协同学习文字识别方法 |
CN113591719B (zh) * | 2021-08-02 | 2024-05-28 | 南京大学 | 一种自然场景任意形状文本检测方法、装置和训练方法 |
CN113888505B (zh) * | 2021-09-30 | 2024-05-07 | 大连理工大学 | 一种基于语义分割的自然场景文本检测方法 |
CN113642535B (zh) * | 2021-10-13 | 2022-01-25 | 聊城高新生物技术有限公司 | 一种生物分支检测方法、装置及电子设备 |
CN114972947B (zh) * | 2022-07-26 | 2022-12-06 | 之江实验室 | 一种基于模糊语义建模的深度场景文本检测方法和装置 |
CN115393726B (zh) * | 2022-10-28 | 2023-01-10 | 国网思极位置服务有限公司 | 线路交叉跨越区识别方法及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404868A (zh) * | 2015-11-19 | 2016-03-16 | 电子科技大学 | 一种基于交互平台的复杂背景中文本的快速检测方法 |
CN106485211A (zh) * | 2016-09-26 | 2017-03-08 | 西安交通大学 | 一种基于二叉树的文本行精确定位方法 |
CN108416828A (zh) * | 2018-03-26 | 2018-08-17 | 南开大学 | 一种3d场景文本图片合成方法及系统 |
CN108573255A (zh) * | 2017-03-13 | 2018-09-25 | 阿里巴巴集团控股有限公司 | 文字合成图像的识别方法及装置、图像识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009548A (zh) * | 2018-01-09 | 2018-05-08 | 贵州大学 | 一种智能路牌识别方法及系统 |
CN109544563B (zh) * | 2018-11-12 | 2021-08-17 | 北京航空航天大学 | 一种面向违禁物安检的被动毫米波图像人体目标分割方法 |
-
2019
- 2019-06-27 CN CN201910570489.9A patent/CN110322495B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105404868A (zh) * | 2015-11-19 | 2016-03-16 | 电子科技大学 | 一种基于交互平台的复杂背景中文本的快速检测方法 |
CN106485211A (zh) * | 2016-09-26 | 2017-03-08 | 西安交通大学 | 一种基于二叉树的文本行精确定位方法 |
CN108573255A (zh) * | 2017-03-13 | 2018-09-25 | 阿里巴巴集团控股有限公司 | 文字合成图像的识别方法及装置、图像识别方法 |
CN108416828A (zh) * | 2018-03-26 | 2018-08-17 | 南开大学 | 一种3d场景文本图片合成方法及系统 |
Non-Patent Citations (2)
Title |
---|
Weakly-Supervised Neural Text Classification;Yu Meng等;《 CIKM ’18: Proceedings of the 27th ACM International Conference on Information and Knowledge Management》;20181026;全文 * |
基于深度学习监控场景下的多尺度目标检测算法研究;程显毅 等;《南京师范大学学报( 工程技术版)》;20180930;第18卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110322495A (zh) | 2019-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110322495B (zh) | 一种基于弱监督深度学习的场景文本分割方法 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN111723585B (zh) | 一种风格可控的图像文本实时翻译与转换方法 | |
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
Nakamura et al. | Scene text eraser | |
CN109726657B (zh) | 一种深度学习场景文本序列识别方法 | |
CN110751154B (zh) | 一种基于像素级分割的复杂环境多形状文本检测方法 | |
CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
CN110866529A (zh) | 字符识别方法、装置、电子设备及存储介质 | |
US10373022B1 (en) | Text image processing using stroke-aware max-min pooling for OCR system employing artificial neural network | |
CN110866938B (zh) | 一种全自动视频运动目标分割方法 | |
CN113569865A (zh) | 一种基于类别原型学习的单样本图像分割方法 | |
CN112418216A (zh) | 一种复杂自然场景图像中的文字检测方法 | |
CN111523463B (zh) | 基于匹配-回归网络的目标跟踪方法及训练方法 | |
CN115424017B (zh) | 一种建筑物内外轮廓分割方法、装置及存储介质 | |
Wu et al. | Automatic object extraction from images using deep neural networks and the level‐set method | |
CN116030396A (zh) | 一种用于视频结构化提取的精确分割方法 | |
CN113657225B (zh) | 一种目标检测方法 | |
Sun et al. | TSINIT: a two-stage Inpainting network for incomplete text | |
CN114387610A (zh) | 一种基于增强特征金字塔网络的任意形状场景文本检测方法 | |
CN113139544A (zh) | 一种基于多尺度特征动态融合的显著性目标检测方法 | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
Pinto et al. | SECI-GAN: Semantic and Edge Completion for dynamic objects removal | |
CN115953663A (zh) | 一种利用线标注的弱监督阴影检测方法 | |
CN113516114B (zh) | 一种自然场景文本检测方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |