CN110674807A - 一种基于半监督与弱监督学习的曲形场景文字检测方法 - Google Patents
一种基于半监督与弱监督学习的曲形场景文字检测方法 Download PDFInfo
- Publication number
- CN110674807A CN110674807A CN201910720688.3A CN201910720688A CN110674807A CN 110674807 A CN110674807 A CN 110674807A CN 201910720688 A CN201910720688 A CN 201910720688A CN 110674807 A CN110674807 A CN 110674807A
- Authority
- CN
- China
- Prior art keywords
- supervised learning
- semi
- detector
- supervised
- curved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明提供一种基于半监督与弱监督学习的曲形场景文字检测方法,用于减少曲形文字检测算法所需要的人工标注,同时让整个算法框架更加简洁,利用少量精确的像素级标注数据及大量的无标注或由水平包围框标注的数据,就能训练得到一个准确的曲形文字检测器,能够对场景曲形文字进行准确检测。
Description
技术领域
本发明涉及图像文字检测技术领域,具体涉及一种基于半监督与弱监督学习的曲形场景文字检测方法。
背景技术
场景文字通常出现在车牌、产品包装、广告牌等上,是图像中最常见的对象之一,携带有丰富的语义信息。阅读自然场景图像中的文字是各种复杂任务,如车辆自动导航和产品自动检索等任务的一个基本任务。场景文字因其重要性和基础性,吸引了学术界和工业界越来越多的关注。与图像中的通用目标相比,场景文字天生具有多个方向、大宽高比、形状任意、背景复杂等特点,给文字的检测和识别带来了巨大困难和挑战。场景文字的早期研究主要集中在横向文字上,随着技术及数据集的发展与进步,多向文字逐渐成为研究的主要对象。近年来,曲形文本作为自然场景文字中的一种常见对象,吸引了大量的关注。
目前,场景文字检测识别方法都主要基于卷积神经网络。曲形文字检测方法主要包括基于语义分割[8]和实例分割[9]的方法。Ch’ng等[1]利用反卷积网络对图像进行语义分割得到文字区域。Liu等[2]利用R-FCN[10]网络结构回归得到包围文字的十四边形。Lyu等[7]利用实例分割方法Mask R-CNN[6],同时得到文字实例的矩形包围框及文字区域的像素级二值表示。Long等[5]将曲形文字建模成多个沿中心线的圆盘,同时回归圆盘的半径及角度,最后得到文字区域的重建结果。利用以上这些全监督方法可以取得不错的性能,然而这些方法大多依赖于准确的多形性或像素级标注,大大加重了人工标注的负担。
Li等[3]提出一种利用图像有无文字的类别标签来产生类别激活图的弱监督方法。之后进行最大极值稳定区域提取,并将其聚类得到文字建议区域。Tian等[4]提出一种利用少量字符级标签和大量单词集标签来训练一个文字检测器的框架。然而,这种方法需要复杂的、耗费大量人力的字符级标注,而且,最后将字符聚集成单词或文本行无法扩展到除横向文字以外的情况。
基于监督学习的曲形文本检测方法虽然可以取得不错的效果,但是他们依赖于精确的多边形或像素级标注,人工标注成本高。Li等[3]提出的方法可以产生较好的水平矩形建议区域,却无法对曲形文字进行准确的定位;WeText[4]方法需要复杂的字符级标签,且其后处理方法扩展性不佳。
发明内容
为了减少曲形文字检测算法所需要的人工标注,同时让整个算法框架更加简洁,本发明提供了一种基于半监督与弱监督学习的曲形场景文字检测方法。利用少量精确的像素级标注数据及大量的无标注或由水平包围框标注的数据就能训练得到一个准确的曲形文字检测器,能够对场景曲形文字进行准确检测。
本发明采用的技术方案如下:
一种基于半监督与弱监督学习的曲形场景文字检测方法,包括以下步骤:
构建一个检测器,利用少量全标注数据对检测器进行初次训练;
根据半监督与弱监督学习策略,利用无标注或弱标注数据对初次训练好的检测器进行微调训练;
利用微调训练好的检测器检测曲形场景文字,检测步骤包括:
从目标图像中提取多尺度的图像特征表示;
利用图像特征表示得到可能含有文字的候选区域;
根据候选区域的局部特征,利用粗定位网络回归得到文字的水平矩形包围框;
利用水平矩形包围框重新提取更精确的局部特征,根据该更精确的局部特征,利用精细定位网络得到水平矩形包围框中主体文字区域的二值表示。
其中,半监督与弱监督学习策略包括三种策略。朴素半监督学习策略,该朴素半监督学习策略为:利用初次训练好的检测器对无标注数据进行伪标注,得到标注候选集,经过阈值筛选得到伪标注数据集,将伪标注数据与已标注数据合并在一起,对初次训练好的检测器进行微调训练。
基于过滤的弱监督学习策略,该基于过滤的弱监督学习策略为:在朴素半监督学习策略的基础上,利用数据的弱标签来对标注候选集进行过滤,弱标签包含重要的语义信息,利用弱标注框与检测结果的交并比,过滤误检测得到的结果,减少朴素半监督学习中引入的噪声。
基于局部监督的弱监督学习策略,该基于局部监督的弱监督学习策略为:粗定位网络采用全监督,将弱标注水平矩形包围框直接输入到精细定位网络中,得到相应的二值标注,利用得到标注来训练精细定位网络。
一种曲形场景文字检测器,包括:
文字特征提取网络模块,用于从目标图像中提取得到多尺度的图像特征表示;
文字建议区域生成网络模块,用于利用图像特征表示得到可能含有文字的候选区域;
区域特征采样器,用于根据候选文字区域得到局部特征,以及根据水平矩形包围框重新提取更精确的局部特征;
粗定位网络模块,用于根据局部特征回归得到文字的水平矩形包围框;
精细定位网络模块,用于根据更精确的局部特征得到水平矩形包围框中主体文字区域的二值表示。
进一步地,文字特征提取网络模块由ResNet50和FPN组成。
进一步地,文字建议区域生成网络模块采用全卷积层,在FPN的五个阶段分别设置不同长宽比为0.2、0.5、1、2和5的锚框。
进一步地,区域特征采样器采用ROI-Align。
进一步地,粗定位网络模块采用两个全连接层。
进一步地,精细定位网络模块采用卷积层。
本发明取得的技术效果如下:
1、基础检测器可端到端训练,直接得到曲形文字检测结果,无须中间步骤。
2、半监督学习与弱监督学习策略只影响标签生成过程,不会影响训练过程,使得整体框架简洁有效。
3、学习策略3将检测器视为多个部分组成,有效的利用了弱标签,同时减少了伪标注过程中引入的噪声,大大提高了模型的性能。
附图说明
图1是本发明的曲形场景文字检测方法流程图。
图2是本发明的检测器框架图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
本实施例提出一种基于半监督学习与弱监督学习的曲形场景文字检测方法,该方法通过提出的高效利用弱标签进行学习的弱监督学习策略对构建的检测器进行训练,利用训练好的训练器来检测曲形场景文字。
该检测器包括以下几个网络模块:
(1)文字特征提取网络,由ResNet50和FPN组成。
(2)文字建议区域生成网络,由全卷积层构成,在FPN的五个阶段设置大小不同长宽比为0.2、0.5、1、2和5的锚框。
(3)区域特征采样器,采用ROI-Align对布局特征进行提取。
(4)粗定位网络,由两个全连接层组成,回归得到文字实例的水平矩形包围框。
(5)精细定位网络,由四个连续的卷积及一个反卷积层组成,得到水平矩形包围框中主体文字区域的二值表示。
本检测器通过训练实现由粗到精的过程,具体地,首先利用少量全标注数据进行初次训练,为表述方便,此处将初次训练好的检测器称为基准检测器,再采用半监督与弱监督学习策略,利用大量无标注或弱标注数据进行微调训练,通过迭代标注和训练,最终得到准确的曲形文字检测器。
半监督与弱监督学习策略包括以下三种学习策略:
1.朴素半监督学习策略。该策略利用训练好的基准检测器来对无标注数据进行伪标注,得到的标注候选集,经过简单的阈值筛选得到伪标注数据集,将伪标注数据与已标注数据合并在一起,对基准检测器进行微调训练。
2.基于过滤的弱监督学习策略。该策略在策略1的基础上,利用数据的弱标签来对标注候选集进行过滤,弱标签包含重要的语义信息,利用弱标注框与有粗定位网络回归得到的矩形框的交并比,来过滤误检测得到的结果,减少朴素半监督学习中引入的噪声。
3.基于局部监督的弱监督学习策略。该策略不再将整个检测器当作一个黑盒,而是作为一个由多个模块有机结合的整体。将弱标注水平矩形包围框直接输入到精细定位网络中,得到相应的二值标注,利用得到标注来训练精细定位网络。相比于策略2,本策略中,粗定位网络为全监督,大大减少了策略2引入的噪声。
为验证本发明的有效性,选取了公共数据集SCUT-CTW1500以及Total-Text来进行验证。SCUT-CTW1500中包含1500张图片,其中训练集和测试集中分别有1000张和500张图片,每个实例均由十四边形标注,标注级别为文本行级。Total-Text中包含1555张场景图像,其中训练集包含1255张图像,验证集包含300张图像,每个实例均由多边形标注,标注级别为单词级。
本发明在采用10%的完全标注数据集和90%无标注或弱标注的数据集训练得到的模型上与其他全监督模型进行对比。在SCUT-CTW1500和Total-Text上本发明与近年来其他主流检测算法的对比如表1和表2所示,其中F-measure是一个综合考虑了准确率和召回率的指标。请注意本段段首说明了我们的弱监督方法是和全监督方法来比较的,在这种前提下,策略三在两个曲形文字数据集上依然比现有的全监督方法要好,前两种策略相对于其他方法也具有一定的竞争性,说明了本文方法的优越性实验结果表明本发明在大幅度减少标注劳动力(少用了90%的精确标注)的同时,仍可获得更佳的检测效果,仍然比现有的全监督方法要好。
表1本发明与其他算法在SCUT-CTW1500上的结果对比
算法 | 准确率 | 召回率 | F-Measure |
本发明策略一 | 67% | 72% | 70% |
本发明策略二 | 75% | 68% | 71% |
本发明策略三 | 74% | 78% | 76% |
Liu[2] | 77% | 70% | 73% |
Long[5] | 68% | 85% | 75% |
表2本发明与其他算法在Total-Text上的结果对比
算法 | 准确率 | 召回率 | F-Measure |
本发明策略一 | 71% | 77% | 74% |
本发明策略二 | 80% | 74% | 77% |
本发明策略三 | 78% | 82% | 80% |
Ch’ng[1] | 33% | 40% | 36% |
Lyu[7] | 69% | 55% | 61% |
Long[5] | 83% | 74% | 78% |
参考文献:
[1]Chee Kheng Ch'ng and Chee Seng Chan,“Total-text:A comprehensivedataset for scene text detection and recognition”,in 2017 14th IAPRInternational Conference on Document Analysis and Recognition(ICDAR).IEEE,2017,pp.935-942.
[2]Yuliang Liu,Lianwen Jin,Shuaitao Zhang and Sheng Zhang,“Detectingcurve text in the wild:New dataset and new solution”,arXiv preprint arXiv:1712.02170,2017.
[3]Rong Li,MengYi En,JianQiang Li and HaiBin Zhang,“Weakly supervisedtext attention network for generating text proposals in scene images”,in 201714th IAPR International Conference on Document Analysis and Recognition(ICDAR).IEEE,2017,pp.324-330.
[4]Shangxuan Tian,Shijian Lu,and Chongshou Li,“Wetext:Scene textdetection under weak supervision”,In 2017 IEEE International Conference onComputer Vision(ICCV).IEEE,2017,pp.1492-1500.
[5]Shangbang Long,Jiaqiang Ruan,Wenjie Zhang,Xin He,Wenhao Wu,CongYao,“Textsnake:A flexible representation for detecting text of arbitraryshapes”,in the European Conference on Computer Vision(ECCV).Springer,2018,pp.20-36.
[6]Kaiming He,Georgia Gkioxari,Piotr Doll′ar,and Ross Girshick,“Maskr-cnn”,in 2017 IEEE International Conference on Computer Vision(ICCV).IEEE,2017,pp.2980–2988.
[7]Pengyuan Lyu,Minghui Liao,Cong Yao,Wenhao Wu and Xiang Bai,“MaskTextSpotter:An End-to-End Trainable Neural Network for Spotting Text withArbitrary Shapes”,in the European Conference on Computer Vision(ECCV).Springer,2018,pp.67-83.
[8]Jonathan Long,Evan Shelhamer and Trevor Darrell,“Fullyconvolutional networks for semantic segmentation”,in 2015 IEEE Conference onComputer Vision and Pattern Recognition(CVPR).IEEE,2015,pp.3431-3440.
[9]Yi Li,Haozhi Qi,Jifeng Dai,Xiangyang Ji and Yichen Wei,“Fullyconvolutional instance-aware semantic segmentation”,in 2017 IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR).IEEE,2017,pp.4438-4446.
[10]Jifeng Dai,Yi Li,Kaiming He and Jian Sun,“R-fcn:Object detectionvia region-based fully convolutional networks”,in Advances in NeuralInformation Processing Systems(NIPS),2016,pp.379-387.
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (10)
1.一种基于半监督与弱监督学习的曲形场景文字检测方法,其特征在于,包括以下步骤:
构建一个检测器,利用全标注数据对检测器进行初次训练;
根据半监督与弱监督学习策略,利用无标注或弱标注数据对初次训练好的检测器进行微调训练;
利用微调训练好的检测器检测曲形场景文字,检测步骤包括:
从目标图像中提取多尺度的图像特征表示;
利用图像特征表示得到可能含有文字的候选区域;
根据候选区域的局部特征,利用粗定位网络回归得到文字的水平矩形包围框;
利用水平矩形包围框重新提取更精确的局部特征,根据该更精确的局部特征,利用精细定位网络得到水平矩形包围框中主体文字区域的二值表示。
2.如权利要求1所述的方法,其特征在于,半监督与弱监督学习策略包括朴素半监督学习策略,该朴素半监督学习策略为:利用初次训练好的检测器对无标注数据进行伪标注,得到标注候选集,经过阈值筛选得到伪标注数据集,将伪标注数据与已标注数据合并在一起,对初次训练好的检测器进行微调训练。
3.如权利要求2所述的方法,其特征在于,半监督与弱监督学习策略包括基于过滤的弱监督学习策略,该基于过滤的弱监督学习策略为:在朴素半监督学习策略的基础上,利用数据的弱标签来对标注候选集进行过滤,弱标签包含重要的语义信息,利用弱标注框与检测结果的交并比,过滤误检测得到的结果,减少朴素半监督学习中引入的噪声。
4.如权利要求1所述的方法,其特征在于,半监督与弱监督学习策略包括基于局部监督的弱监督学习策略,该基于局部监督的弱监督学习策略为:粗定位网络采用全监督,将弱标注水平矩形包围框直接输入到精细定位网络中,得到相应的二值标注,利用得到标注来训练精细定位网络。
5.一种曲形场景文字检测器,其特征在于,包括:
文字特征提取网络模块,用于从目标图像中提取得到多尺度的图像特征表示;
文字建议区域生成网络模块,用于利用图像特征表示得到可能含有文字的候选区域;
区域特征采样器,用于根据候选文字区域得到局部特征,以及根据水平矩形包围框重新提取更精确的局部特征;
粗定位网络模块,用于根据局部特征回归得到文字的水平矩形包围框;
精细定位网络模块,用于根据更精确的局部特征得到水平矩形包围框中主体文字区域的二值表示。
6.如权利要求5所述的曲形场景文字检测器,其特征在于,文字特征提取网络模块由ResNet50和FPN组成。
7.如权利要求5所述的曲形场景文字检测器,其特征在于,文字建议区域生成网络模块采用全卷积层,在FPN的五个阶段分别设置不同长宽比为0.2、0.5、1、2和5的锚框。
8.如权利要求5所述的曲形场景文字检测器,其特征在于,粗定位网络模块采用两个全连接层。
9.如权利要求5所述的曲形场景文字检测器,其特征在于,区域特征采样器采用ROI-Align。
10.如权利要求5所述的曲形场景文字检测器,其特征在于,精细定位网络模块采用卷积层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910720688.3A CN110674807A (zh) | 2019-08-06 | 2019-08-06 | 一种基于半监督与弱监督学习的曲形场景文字检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910720688.3A CN110674807A (zh) | 2019-08-06 | 2019-08-06 | 一种基于半监督与弱监督学习的曲形场景文字检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110674807A true CN110674807A (zh) | 2020-01-10 |
Family
ID=69068702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910720688.3A Pending CN110674807A (zh) | 2019-08-06 | 2019-08-06 | 一种基于半监督与弱监督学习的曲形场景文字检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674807A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488873A (zh) * | 2020-04-03 | 2020-08-04 | 中国科学院深圳先进技术研究院 | 一种基于弱监督学习的字符级场景文字检测方法和装置 |
CN111931763A (zh) * | 2020-06-09 | 2020-11-13 | 浙江大学 | 一种基于随机形态边缘几何建模的深度场景文本检测方法 |
CN112070082A (zh) * | 2020-08-24 | 2020-12-11 | 西安理工大学 | 一种基于实例感知成分合并网络的曲线文字定位方法 |
CN112801092A (zh) * | 2021-01-29 | 2021-05-14 | 重庆邮电大学 | 一种自然场景图像中字符元素检测方法 |
Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955462A (zh) * | 2014-03-21 | 2014-07-30 | 南京邮电大学 | 一种基于多视图和半监督学习机制的图像标注方法 |
CN105488522A (zh) * | 2015-11-23 | 2016-04-13 | 浙江鸿程计算机系统有限公司 | 融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法 |
CN107153822A (zh) * | 2017-05-19 | 2017-09-12 | 北京航空航天大学 | 一种基于深度学习的半自动图像精标注方法 |
CN107506792A (zh) * | 2017-08-16 | 2017-12-22 | 上海荷福人工智能科技(集团)有限公司 | 一种半监督的显著对象检测方法 |
CN107563123A (zh) * | 2017-09-27 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 用于标注医学图像的方法和装置 |
CN107944454A (zh) * | 2017-11-08 | 2018-04-20 | 国网电力科学研究院武汉南瑞有限责任公司 | 一种针对变电站的基于机器学习的语义标注方法 |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN108052937A (zh) * | 2017-12-28 | 2018-05-18 | 百度在线网络技术(北京)有限公司 | 基于弱监督的字符检测器训练方法、装置、系统及介质 |
CN108109160A (zh) * | 2017-11-16 | 2018-06-01 | 浙江工业大学 | 一种基于深度学习的免交互式GrabCut舌体分割方法 |
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN108399406A (zh) * | 2018-01-15 | 2018-08-14 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN108764281A (zh) * | 2018-04-18 | 2018-11-06 | 华南理工大学 | 一种基于半监督自步学习跨任务深度网络的图像分类方法 |
CN109145713A (zh) * | 2018-07-02 | 2019-01-04 | 南京师范大学 | 一种结合目标检测的小目标语义分割方法 |
CN109255790A (zh) * | 2018-07-27 | 2019-01-22 | 北京工业大学 | 一种弱监督语义分割的自动图像标注方法 |
CN109253722A (zh) * | 2018-08-22 | 2019-01-22 | 顺丰科技有限公司 | 融合语义分割的单目测距系统、方法、设备及存储介质 |
CN109409371A (zh) * | 2017-08-18 | 2019-03-01 | 三星电子株式会社 | 用于图像的语义分割的系统和方法 |
CN109492638A (zh) * | 2018-11-07 | 2019-03-19 | 北京旷视科技有限公司 | 文本检测方法、装置及电子设备 |
CN109583449A (zh) * | 2018-10-29 | 2019-04-05 | 深圳市华尊科技股份有限公司 | 字符识别方法及相关产品 |
CN109657697A (zh) * | 2018-11-16 | 2019-04-19 | 中山大学 | 基于半监督学习和细粒度特征学习的分类优化方法 |
CN109711401A (zh) * | 2018-12-03 | 2019-05-03 | 广东工业大学 | 一种基于Faster Rcnn的自然场景图像中的文本检测方法 |
CN109949317A (zh) * | 2019-03-06 | 2019-06-28 | 东南大学 | 基于逐步对抗学习的半监督图像实例分割方法 |
CN110008962A (zh) * | 2019-04-11 | 2019-07-12 | 福州大学 | 基于注意力机制的弱监督语义分割方法 |
CN110084131A (zh) * | 2019-04-03 | 2019-08-02 | 华南理工大学 | 一种基于深度卷积网络的半监督行人检测方法 |
-
2019
- 2019-08-06 CN CN201910720688.3A patent/CN110674807A/zh active Pending
Patent Citations (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955462A (zh) * | 2014-03-21 | 2014-07-30 | 南京邮电大学 | 一种基于多视图和半监督学习机制的图像标注方法 |
CN105488522A (zh) * | 2015-11-23 | 2016-04-13 | 浙江鸿程计算机系统有限公司 | 融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法 |
CN107153822A (zh) * | 2017-05-19 | 2017-09-12 | 北京航空航天大学 | 一种基于深度学习的半自动图像精标注方法 |
CN107506792A (zh) * | 2017-08-16 | 2017-12-22 | 上海荷福人工智能科技(集团)有限公司 | 一种半监督的显著对象检测方法 |
CN109409371A (zh) * | 2017-08-18 | 2019-03-01 | 三星电子株式会社 | 用于图像的语义分割的系统和方法 |
CN107563123A (zh) * | 2017-09-27 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 用于标注医学图像的方法和装置 |
CN107944454A (zh) * | 2017-11-08 | 2018-04-20 | 国网电力科学研究院武汉南瑞有限责任公司 | 一种针对变电站的基于机器学习的语义标注方法 |
CN108109160A (zh) * | 2017-11-16 | 2018-06-01 | 浙江工业大学 | 一种基于深度学习的免交互式GrabCut舌体分割方法 |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN108052937A (zh) * | 2017-12-28 | 2018-05-18 | 百度在线网络技术(北京)有限公司 | 基于弱监督的字符检测器训练方法、装置、系统及介质 |
CN108399406A (zh) * | 2018-01-15 | 2018-08-14 | 中山大学 | 基于深度学习的弱监督显著性物体检测的方法及系统 |
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN108764281A (zh) * | 2018-04-18 | 2018-11-06 | 华南理工大学 | 一种基于半监督自步学习跨任务深度网络的图像分类方法 |
CN109145713A (zh) * | 2018-07-02 | 2019-01-04 | 南京师范大学 | 一种结合目标检测的小目标语义分割方法 |
CN109255790A (zh) * | 2018-07-27 | 2019-01-22 | 北京工业大学 | 一种弱监督语义分割的自动图像标注方法 |
CN109253722A (zh) * | 2018-08-22 | 2019-01-22 | 顺丰科技有限公司 | 融合语义分割的单目测距系统、方法、设备及存储介质 |
CN109583449A (zh) * | 2018-10-29 | 2019-04-05 | 深圳市华尊科技股份有限公司 | 字符识别方法及相关产品 |
CN109492638A (zh) * | 2018-11-07 | 2019-03-19 | 北京旷视科技有限公司 | 文本检测方法、装置及电子设备 |
CN109657697A (zh) * | 2018-11-16 | 2019-04-19 | 中山大学 | 基于半监督学习和细粒度特征学习的分类优化方法 |
CN109711401A (zh) * | 2018-12-03 | 2019-05-03 | 广东工业大学 | 一种基于Faster Rcnn的自然场景图像中的文本检测方法 |
CN109949317A (zh) * | 2019-03-06 | 2019-06-28 | 东南大学 | 基于逐步对抗学习的半监督图像实例分割方法 |
CN110084131A (zh) * | 2019-04-03 | 2019-08-02 | 华南理工大学 | 一种基于深度卷积网络的半监督行人检测方法 |
CN110008962A (zh) * | 2019-04-11 | 2019-07-12 | 福州大学 | 基于注意力机制的弱监督语义分割方法 |
Non-Patent Citations (5)
Title |
---|
GEORGE PAPANDREOU 等: "Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation", 《ARXIV:1502.02734V3 [CS.CV]》 * |
PENGYUAN LYU 等: "Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes", 《ARXIV:1807.02242V2 [CS.CV]》 * |
QIZHU LI 等: "Weakly- and Semi-Supervised Panoptic Segmentation", 《ARXIV:1808.03575V3 [CS.CV]》 * |
SHANGXUAN TIAN 等: "WeText: Scene Text Detection underWeak Supervision", 《ARXIV:1710.04826V1 [CS.CV]》 * |
郑宝玉等: "基于深度卷积神经网络的弱监督图像语义分割", 《南京邮电大学学报(自然科学版)》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488873A (zh) * | 2020-04-03 | 2020-08-04 | 中国科学院深圳先进技术研究院 | 一种基于弱监督学习的字符级场景文字检测方法和装置 |
CN111488873B (zh) * | 2020-04-03 | 2023-10-24 | 中国科学院深圳先进技术研究院 | 一种基于弱监督学习的字符级场景文字检测方法和装置 |
CN111931763A (zh) * | 2020-06-09 | 2020-11-13 | 浙江大学 | 一种基于随机形态边缘几何建模的深度场景文本检测方法 |
CN111931763B (zh) * | 2020-06-09 | 2024-03-12 | 浙江大学 | 一种基于随机形态边缘几何建模的深度场景文本检测方法 |
CN112070082A (zh) * | 2020-08-24 | 2020-12-11 | 西安理工大学 | 一种基于实例感知成分合并网络的曲线文字定位方法 |
CN112070082B (zh) * | 2020-08-24 | 2023-04-07 | 西安理工大学 | 一种基于实例感知成分合并网络的曲线文字定位方法 |
CN112801092A (zh) * | 2021-01-29 | 2021-05-14 | 重庆邮电大学 | 一种自然场景图像中字符元素检测方法 |
CN112801092B (zh) * | 2021-01-29 | 2022-07-15 | 重庆邮电大学 | 一种自然场景图像中字符元素检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deitsch et al. | Automatic classification of defective photovoltaic module cells in electroluminescence images | |
Wang et al. | Weakly-supervised semantic segmentation by iterative affinity learning | |
CN110674807A (zh) | 一种基于半监督与弱监督学习的曲形场景文字检测方法 | |
Bosquet et al. | STDnet: Exploiting high resolution feature maps for small object detection | |
Shen et al. | Weakly supervised object detection via object-specific pixel gradient | |
US20140270489A1 (en) | Learned mid-level representation for contour and object detection | |
Gao et al. | A novel feature extraction method for scene recognition based on centered convolutional restricted Boltzmann machines | |
Huang et al. | Weakly supervised learning of 3D deep network for neuron reconstruction | |
Xiong et al. | MSN: Modality separation networks for RGB-D scene recognition | |
Shrivastava et al. | Deep learning model for text recognition in images | |
Shivakumara et al. | Fractional means based method for multi-oriented keyword spotting in video/scene/license plate images | |
Khalil et al. | Text detection and script identification in natural scene images using deep learning | |
Li et al. | Multilingual text detection with nonlinear neural network | |
Zhang et al. | Scene text detection with scribble line | |
Lyu et al. | The early Japanese books reorganization by combining image processing and deep learning | |
Basavaraju et al. | Arbitrary oriented multilingual text detection and segmentation using level set and Gaussian mixture model | |
Zhang et al. | Multi-scale salient object detection with pyramid spatial pooling | |
Liu et al. | Progressive context-dependent inference for object detection in remote sensing imagery | |
Wu et al. | Image data field for homogeneous region based segmentation | |
Gao et al. | An improved XGBoost based on weighted column subsampling for object classification | |
Qin | Application of efficient recognition algorithm based on deep neural network in English teaching scene | |
Makhura et al. | Learn-select-track: An approach to multi-object tracking | |
Mao et al. | An image authentication technology based on depth residual network | |
Li et al. | Do we really need more training data for object localization | |
Lu et al. | Superpixel level object recognition under local learning framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200110 |