CN109711401A - 一种基于Faster Rcnn的自然场景图像中的文本检测方法 - Google Patents

一种基于Faster Rcnn的自然场景图像中的文本检测方法 Download PDF

Info

Publication number
CN109711401A
CN109711401A CN201811468492.1A CN201811468492A CN109711401A CN 109711401 A CN109711401 A CN 109711401A CN 201811468492 A CN201811468492 A CN 201811468492A CN 109711401 A CN109711401 A CN 109711401A
Authority
CN
China
Prior art keywords
loss
characteristic pattern
proposals
input
ssn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811468492.1A
Other languages
English (en)
Other versions
CN109711401B (zh
Inventor
李卫军
沈伟生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201811468492.1A priority Critical patent/CN109711401B/zh
Publication of CN109711401A publication Critical patent/CN109711401A/zh
Application granted granted Critical
Publication of CN109711401B publication Critical patent/CN109711401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于Faster Rcnn的自然场景图像中的文本检测方法,应用于计算机视觉领域中的文本检测方向,这种方法包括将训练集首先进行进行缩放处理;再将缩放处理后的图像输入到特征金字塔网络中进行处理并将其输出结果输入到RPN中选取文本目标候选区域,同时增加网络模型SSN用于选取候选区域;将两者候选区域进行合成,并将合成结果输入到Fast网络中得到目标候选区域框。这种方法使得文本目标的位置更准确,语义信息更加丰富,并且算法的精确率和召回率也得到大大提高。

Description

一种基于Faster Rcnn的自然场景图像中的文本检测方法
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于Faster Rcnn的自然场景图像中的文本检测方法。
背景技术
文本检测技术是文本识别的一个核心的前端模块,文本检测技术的水平直接影响着后续的文本识别效果的好坏。自然场景图像是我们现实所处的生活环境,图像中存在着大量的文本信息,这些信息可以作为为场景理解提供有价值的帮助,因此研究一种全自动文本检测技术,对场景图像的检索,分析及场景理解具有重要的意义。但是自然场景图像的分辨率以及其中的不均匀光照,遮挡,模糊,透视变换等客观因素使得自然场景图像中的文本检测问题变得极为困难,高效的文本检测具有很大挑战。
现有技术中存在的Faster Rcnn的文本检测方法,其得到文本目标的框候选框(Proposals)是由RPN在特征网络最后一层Feature maps上进行操作的。最后一层特征图Feature maps特征语义信息比较丰富,但是目标位置比较粗略,往往会将小文本目标忽略,因此无法将自然场景图像中所有文本目标的Proposals找出,导致该方法精确率和召回率低的结果。虽然可以通过RPN来寻找文本目标的候选框Proposals,但是还是受RPN中参数的影响,每给一组参数,找寻到的Proposals也有所不同。
发明内容
本发明为克服上述现有技术所述的找寻的目标位置比较粗略,无法将所有文本目标的候选框Proposals找出的缺陷,提供一种基于Faster Rcnn的自然场景图像中的文本检测方法。
为解决上述技术问题,本发明的技术方案如下:一种基于Faster Rcnn的自然场景图像中的文本检测方法,包括以下步骤:
S1:从数据集中分别选取训练集、测试集以及性能测试集;
S2:将训练集中的图像输入到预训练的网络模型中进行缩放处理;
S3:将缩放处理后的图像输入到特征金字塔网络FPN中进行处理,并将预训练的网络模型的第一层输出输入到预训练的网络模型SSN中进行处理;
S4:将FPN的输出结果输入到RPN中选取文本目标候选区域,并将其与SSN中选取的候选区域进行合成,并将合成结果输入到Fast网络中;
S5:从Fast网络中输出最终的结果得到文本中目标候选区域框;
S6:步骤S1到S5进行迭代直到训练次数达到预设的迭代次数结束训练。
优选地,步骤S2的具体步骤为:将训练图像输入到预训练的网络模型中,依次经过P1、P2、P3,其中P1表示缩放N1倍,P2表示缩放N2倍,P3表示缩放N3倍,其中N1<N2<N3。
优选地,所述N1为4,N2为16,N3为64。
优选地,步骤S3中的将缩放处理后的图像输入到特征金字塔网络FPN中具体步骤为:
S31:FPN中包括P4、P5、P6,其中P3的输出特征图作为P4的特征图;
S32:对P4特征图进行上采样操作,并采用1*1的卷积对P2的输出特征图进行降维处理,将经过上采样的特征图与降维处理后的特征图相加作为P5的特征图;
S33:将P5的特征图进行上采样,并采用1*1的卷积对P1的输出特征图进行降维处理,将经过上采样的特征图与降维处理后的特征图相加作为P6的特征图。
优选地,步骤S3中将预训练的网络模型的最后一层输出输入到预训练的网络模型SSN中进行处理的具体步骤为:
S34:将经过P1缩放N1倍处理后得到的特征图输入到选择性搜索网络中,随机从选择性搜索网络中挑选出Num_SSN个候选框Proposals_ss;
S35:将Num_SSN个Proposals_ss使用Bbox regression1(bounding box回归)进行位置修正得到候选框Proposals_B1。使用光滑smoothL1函数作为Bbox regression1的损失函数loss_B1;
S36:将候选框Proposals_B1继续使用Bbox regression2进行位置修正,得到Proposals_B2,并得到此次回归的损失,定义为loss_B2;
S37:将候选框Proposals_B2使用Bbox regression3进行精修正,得到此次回归的损失,定义为loss_B3;
S38:得到修正后的Num_SSN个候选框Proposals映射回特征图上,最终得到候选区域Proposals_SSN;
S39:将loss_B1,loss_B2,loss_B3加起来得到SSN的总损失,记为loss_SSN。
优选地,loss_SSN的公式如下:
其中Nreg1表示参与Bboxregression1训练时的挑选的候选框Proposals个数;
表示对应的文本标签的预测概率,ti表示预测的第i个候选框Proposal坐标,表示与预测对应的第i个候选框Proposal对应的文本标签坐标,Lreg表示公式如下:
i表示第i个候选框Proposal的索引index。
优选地,步骤S4将FPN的输出结果输入到RPN中选取文本目标候选区域,并将其与SSN中选取的候选区域进行合成,并将合成结果输入到Fast网络中的具体步骤为;
S41:将P4输出的特征图输入到RPN处理得到候选框Proposals1,并且得到损失为loss_RPN1;
S42:将P5输出的特征图输入到RPN处理得到候选框Proposals2,并且得到的损失为loss_RPN2;
S43:将P65输出的特征图输入到RPN处理得到候选框Proposals3,得到的损失为loss_RPN3;
S44:将Proposals1,Proposals2,Proposals3合成得到RPN最终的候选框:
S45:将loss_RPN1,loss_RPN2,loss_RPN3合成得到RPN最终的损失loss_RPNS;
S46:将Proposals_RPN和Proposals_SSN合成得到候选框Proposals_s:
优选地,loss_RPNS的公式为:
表示参与softmax训练时候选框的个数
表示公式如下:
λj为平衡系数,表示在实际过程中,当和Nreg1的数值差距过大时,用参数λj平衡二者,Pi表示候选框Proposals经过softmax判别后是前景框的概率。
优选地,步骤S5从Fast网络中输出最终的结果得到文本中目标候选区域的框的具体步骤为:将Proposals_s输入Fast网络中可得到Fast网络的损失loss_Fast和最终文本中目标候选区域框,并将loss_Fast,loss_RPNS以及loss_SSN合并得到总损失Total_loss:
Total_loss=loss_RPNS+loss_Fast+loss_SSN。
优选地,采用Mini-batch梯度下降法来优化Total_loss。
与现有技术相比,本发明技术方案的有益效果是:本发明中FPN构架了一个可以进行端端训练的特征金字塔,可以使得不同特征层都能独立进行RPN操作。既使用了低层的语义特征,使得文本目标的位置更准确,也使用了高层的语义特征,语义信息丰富,这样做可以使算法的精确率和召回率大大提高。除了用RPN寻找文本目标的候选框的同时,引入SSN不受参数约束,可以确保输入图像中的所有文本目标的候选框被找出,同样提高算法的精确率和召回率。
附图说明
图1为本发明的技术流程图。
图2为本发明特征金字塔网络(FPN)的流程示意图。
图3为本发明区域候选网络(RPN)的结构图。
图4为本发明各层Feature maps输入区域候选网络(RPN)的流程图。
图5为本发明选择性搜索网络(SSN)的流程示意图。
图6为本发明Fast网络结构的流程示意图。
图7为本发明生成最终结果的流程示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示的本发明的总体流程图,包括以下步骤:
S1:从数据集中分别选取训练集、测试集以及性能测试集;
S1.1选择ICDAR2015数据集中的自然场景文本图像作为本发明的输入图像;从数据集中获取已经标注文本框坐标的图像,其中将70%作为训练集,用于对本检测方法的训练,30%作为测试集作为测试模型的性能;将无标注文本框的图像作为最终评判该检测方法最终实际性能的数据集,称之为性能测试集。
S2:将训练集中的图像输入到预训练的网络模型中进行缩放处理;
S2.1:将训练图像输入到预训练的网络模型中,依次经过P1、P2、P3,其中P1表示将特征图缩放4倍,P2表示将特征图缩放16倍,P3表示将特征图缩放64倍,其流程图如图2所示。
S3:将缩放处理后的图像输入到特征金字塔网络FPN中进行处理,并将预训练的网络模型的第一层输出输入到预训练的网络模型SSN中进行处理;
S31:FPN中包括P4、P5、P6,其中P3的输出特征图作为P4的特征图;
S32:对P4特征图进行上采样操作,并采用1*1的卷积对P2的输出特征图进行降维处理,将经过上采样的特征图与降维处理后的特征图相加作为P5的特征图;
S33:将P5的特征图进行上采样,并采用1*1的卷积对P1的输出特征图进行降维处理,将经过上采样的特征图与降维处理后的特征图相加作为P6的特征图。
S34:将P1中输出的缩放4倍处理后得到的特征图输入到选择性搜索网络中,随机从选择性搜索网络中挑选出2000个候选框Proposals_ss;
S35:将2000个候选框Proposals_ss使用Bbox regression1进行位置修正得到候选框Proposals_B1,使用光滑smoothL1函数作为Bbox regression1的损失函数loss_B1;
S36:将候选框Proposals_B1继续使用Bbox regression2进行位置修正,得到Proposals_B2,并得到此次回归的损失,定义为loss_B2;
S37:将候选框Proposals_B2使用Bbox regression3进行精修正,得到此次回归的损失,定义为loss_B3;
S38:得到修正后的2000个候选框Proposals映射回特征图上,最终得到候选区域Proposals_SSN;
S39:将loss_B1,loss_B2,loss_B3加起来得到SSN的总损失,记为loss_SSN,公式如下:
其中Nreg1表示参与Bboxregression1训练时的挑选的候选框Proposals个数;
表示对应的文本标签(Ground Truth)的预测概率,即当第i个候选框Proposal与文本标签(Ground Truth)间的并交比IOU>0.7时,认为Proposal是前景框,反之IOU<0.3认为Proposal是背景框,
ti表示预测的第i个候选框Proposal坐标,
表示与预测对应的第i个候选框Proposal对应的文本标签(Ground Truth)坐标,
Lreg表示公式如下:
i表示第i个候选框Proposal的索引index。
其流程图如图5所示。
S4:将FPN的输出结果输入到RPN中选取文本目标候选区域,并将其与SSN中选取的候选区域进行合成,并将合成结果输入到Fast网络中;
S41:首先在特征图上每个像素点映射回原图的部分都生成12个有三种长宽比和四种缩放尺度的矩形框,长宽比ratios为width:height=[1:1,1:2,2:1],缩放尺度scales为[4,8,16,32]。
S42:对各层输入的Feature maps进行3﹡3的卷积操作,然后将其输入两条通道,如图3所示。其中通道1中将3﹡3卷积操作后的Feature maps再做1﹡1的卷积操作进行降维,输入的Feature maps中包含了所有Proposal的特征,然后输入Softmax分类器。在Softmax分类器中,定义候选的Proposal中与文本的标注框即标签的重叠比例大于0.7则称之为前景框(里面有文本),同理重叠比例小于0.3的称之为背景框(里面无文本看成背景)。以128个前景框和128个背景框来做二分类的训练得到,其中会构造交叉熵作为损失函数,定义为loss1。loss1公式如下:
S43:通道2将3﹡3卷积操作后的Feature maps再做1﹡1的卷积操作进行降维,再将其做边界框回归(Bbox regression),也就是每个Proposal都做边界框的回归操作。通道2训练的时候会使用光滑smoothL1函数作为Bbox regression的损失函数,定义为loss2。loss2公式如下:
S44:将P4、P5、P6输出的特征图输入到RPN并分别经过步骤S41到S43处理依次得到候选框:Proposals1,Proposals2,Proposals3,损失:loss_RPN1,loss_RPN2,loss_RPN3,如图4所示;
S45:将Proposals1,Proposals2,Proposals3合成得到RPN最终的候选框:
S46:将loss_RPN1,loss_RPN2,loss_RPN3合成得到RPN最终的损失:
表示参与softmax训练时候选框的个数
表示公式如下:
λj表示在实际过程中,和Nreg1的数值差距过大,用参数λj平衡二者,实验仿真过程中λj设置为10。
Pi表示候选框Proposals经过softmax判别后是前景框的概率。
S47:将Proposals_RPN和Proposals_SSN合成得到候选框Proposals_s:
S5:从Fast网络中输出最终的结果得到文本中目标候选区域框,其简要流程如图7所示;
S51:将候选框Proposals_s进行ROI Pooling的操作得到Proposals_s的特征再输入全连接层中得到高度提纯的Proposals_s特征。
S52:分别输入上下两条通道,其中上面通道继续对候选框做Bbox regression操作,得到候选框Proposal_b。这里的回归也采用光滑的smoothL1函数作为损失函数,定义为loss3,公式如下:
通过Softmax得到候选框是否为文本的分数cls_prod,这里也采用交叉熵损失函数,定义为loss4,公式如下:
S53:对回归修正和判断是否有文本的候选框Proposals_f做非极大值抑制(NMS)操作,得到最终的结果(Result)。
S54:将loss3和loss4相加得到Fast网络的总损失,定义为loss_Fast,公式如下:
其具体流程如图6所示。
S55:将loss_Fast,loss_RPNS以及loss_SSN合并得到总损失Total_loss,并采用Mini-batch梯度下降来优化Total loss:
Total_loss=loss_RPNS+loss_Fast+loss_SSN。
S6:步骤S1到S5进行迭代直到训练次数达到预设的迭代次数结束训练。
在一种具体实施例中设置迭代次数为10万次为训练终止条件,使得最终的Totalloss将收敛于0.8到1之间附近波动。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,包括以下步骤:
S1:从数据集中分别选取训练集、测试集以及性能测试集;
S2:将训练集中的图像输入到预训练的网络模型中进行缩放处理;
S3:将缩放处理后的图像输入到特征金字塔网络FPN中进行处理,并将预训练的网络模型的第一层输出输入到预训练的网络模型SSN中进行处理;
S4:将FPN的输出结果输入到RPN中选取文本目标候选区域,并将其与SSN中选取的候选区域进行合成,并将合成结果输入到Fast网络中;
S5:从Fast网络中输出最终的结果得到文本中目标候选区域框;
S6:步骤S1到S5进行迭代直至训练次数达到预设的迭代次数结束训练。
2.根据权利要求1所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,步骤S2的具体步骤为:将训练图像输入到预训练的网络模型中,依次经过P1、P2、P3,其中P1表示将特征图缩放N1倍,P2表示将特征图缩放N2倍,P3表示将特征图缩放N3倍,其中N1<N2<N3。
3.根据权利要求2所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,所述N1为4,N2为16,N3为64。
4.根据权利要求1所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,步骤S3中的将缩放处理后的图像输入到特征金字塔网络FPN中具体步骤为:
S31:FPN中包括P4、P5、P6,其中P3的输出特征图作为P4的特征图;
S32:对P4特征图进行上采样操作,并采用1*1的卷积对P2的输出特征图进行降维处理,将经过上采样的特征图与降维处理后的特征图相加作为P5的特征图;
S33:将P5的特征图进行上采样,并采用1*1的卷积对P1的输出特征图进行降维处理,将经过上采样的特征图与降维处理后的特征图相加作为P6的特征图。
5.根据权利要求1所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,步骤S3中将预训练的网络模型的最后一层输出输入到预训练的网络模型SSN中进行处理的具体步骤为:
S34:将经过P1缩放N1倍处理后得到的特征图输入到选择性搜索网络中,随机从选择性搜索网络中挑选出Num_SSN个候选框Proposals_ss;
S35:将Num_SSN个Proposals_ss使用Bbox regression1进行位置修正得到候选框Proposals_B1,使用光滑smoothL1函数作为Bbox regression1的损失函数loss_B1;
S36:将候选框Proposals_B1继续使用Bbox regression2进行位置修正,得到Proposals_B2,并得到此次回归的损失,定义为loss_B2;
S37:将候选框Proposals_B2使用Bbox regression3进行精修正,得到此次回归的损失,定义为loss_B3;
S38:得到修正后的Num_SSN个候选框Proposals映射回特征图上,最终得到候选区域Proposals_SSN;
S39:将loss_B1,loss_B2,loss_B3加起来得到SSN的总损失,记为loss_SSN。
6.根据权利要求5所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,loss_SSN的公式如下:
其中Nreg1表示参与Bbox regression1训练时的挑选的候选框Proposals个数;
表示对应的文本标签的预测概率,ti表示预测的第i个候选框Proposal坐标,表示与预测对应的第i个候选框Proposal对应的文本标签坐标,Lreg表示公式如下:
i表示第i个候选框Proposal的索引index。
7.根据权利要求1所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,步骤S4将FPN的输出结果输入到RPN中选取文本目标候选区域,并将其与SSN中选取的候选区域进行合成,并将合成结果输入到Fast网络中的具体步骤为;
S41:将P4输出的特征图输入到RPN处理得到候选框Proposals1,并且得到损失为loss_RPN1;
S42:将P5输出的特征图输入到RPN处理得到候选框Proposals2,并且得到的损失为loss_RPN2;
S43:将P65输出的特征图输入到RPN处理得到候选框Proposals3,得到的损失为loss_RPN3;
S44:将Proposals1,Proposals2,Proposals3合成得到RPN最终的候选框:
S45:将loss_RPN1,loss_RPN2,loss_RPN3合成得到RPN最终的损失loss_RPNS;
S46:将Proposals_RPN和Proposals_SSN合成得到候选框Proposals_s:
8.根据权利要求7所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,loss_RPNS的公式为:
表示参与softmax训练时候选框的个数
表示公式如下:
λj为平衡系数,表示在实际过程中,当和Nreg1的数值差距过大时,用参数λj平衡二者,Pi表示候选框Proposals经过softmax判别后是前景框的概率。
9.根据权利要求1所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,步骤S5从Fast网络中输出最终的结果得到文本中目标候选区域的框的具体步骤为:将Proposals_s输入Fast网络中可得到Fast网络的损失loss_Fast和最终文本中目标候选区域框,并将loss_Fast,loss_RPNS以及loss_SSN合并得到总损失Total_loss:
Total_loss=loss_RPNS+loss_Fast+loss_SSN。
10.根据权利要求7所述的一种基于Faster Rcnn的自然场景图像中的文本检测方法,其特征在于,采用Mini-batch梯度下降法来优化Total_loss。
CN201811468492.1A 2018-12-03 2018-12-03 一种基于Faster Rcnn的自然场景图像中的文本检测方法 Active CN109711401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811468492.1A CN109711401B (zh) 2018-12-03 2018-12-03 一种基于Faster Rcnn的自然场景图像中的文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811468492.1A CN109711401B (zh) 2018-12-03 2018-12-03 一种基于Faster Rcnn的自然场景图像中的文本检测方法

Publications (2)

Publication Number Publication Date
CN109711401A true CN109711401A (zh) 2019-05-03
CN109711401B CN109711401B (zh) 2023-05-26

Family

ID=66254494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811468492.1A Active CN109711401B (zh) 2018-12-03 2018-12-03 一种基于Faster Rcnn的自然场景图像中的文本检测方法

Country Status (1)

Country Link
CN (1) CN109711401B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210400A (zh) * 2019-06-03 2019-09-06 上海眼控科技股份有限公司 一种表格文件检测方法及设备
CN110443280A (zh) * 2019-07-05 2019-11-12 北京达佳互联信息技术有限公司 图像检测模型的训练方法、装置及存储介质
CN110598693A (zh) * 2019-08-12 2019-12-20 浙江工业大学 一种基于Faster-RCNN的船牌识别方法
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN110807422A (zh) * 2019-10-31 2020-02-18 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN111291754A (zh) * 2020-01-22 2020-06-16 广州图匠数据科技有限公司 一种文本级联检测方法、装置及存储介质
CN111401418A (zh) * 2020-03-05 2020-07-10 浙江理工大学桐乡研究院有限公司 一种基于改进Faster r-cnn的员工着装规范检测方法
CN112364754A (zh) * 2020-11-09 2021-02-12 云南电网有限责任公司迪庆供电局 螺栓缺陷检测方法及系统
CN116630755A (zh) * 2023-04-10 2023-08-22 雄安创新研究院 一种检测场景图像中的文本位置的方法、系统和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203606A (zh) * 2017-05-17 2017-09-26 西北工业大学 基于卷积神经网络的自然场景下文本检测与识别方法
CN108154145A (zh) * 2018-01-24 2018-06-12 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
US10032072B1 (en) * 2016-06-21 2018-07-24 A9.Com, Inc. Text recognition and localization with deep learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032072B1 (en) * 2016-06-21 2018-07-24 A9.Com, Inc. Text recognition and localization with deep learning
CN107203606A (zh) * 2017-05-17 2017-09-26 西北工业大学 基于卷积神经网络的自然场景下文本检测与识别方法
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
CN108154145A (zh) * 2018-01-24 2018-06-12 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邢志祥等: "基于卷积神经网络的行人检测方法研究新进展", 《安全与环境工程》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210400A (zh) * 2019-06-03 2019-09-06 上海眼控科技股份有限公司 一种表格文件检测方法及设备
CN110443280B (zh) * 2019-07-05 2022-06-03 北京达佳互联信息技术有限公司 图像检测模型的训练方法、装置及存储介质
CN110443280A (zh) * 2019-07-05 2019-11-12 北京达佳互联信息技术有限公司 图像检测模型的训练方法、装置及存储介质
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN110598693A (zh) * 2019-08-12 2019-12-20 浙江工业大学 一种基于Faster-RCNN的船牌识别方法
CN110807422A (zh) * 2019-10-31 2020-02-18 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110807422B (zh) * 2019-10-31 2023-05-23 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN111291754B (zh) * 2020-01-22 2023-05-12 广州图匠数据科技有限公司 一种文本级联检测方法、装置及存储介质
CN111291754A (zh) * 2020-01-22 2020-06-16 广州图匠数据科技有限公司 一种文本级联检测方法、装置及存储介质
CN111401418A (zh) * 2020-03-05 2020-07-10 浙江理工大学桐乡研究院有限公司 一种基于改进Faster r-cnn的员工着装规范检测方法
CN112364754A (zh) * 2020-11-09 2021-02-12 云南电网有限责任公司迪庆供电局 螺栓缺陷检测方法及系统
CN116630755A (zh) * 2023-04-10 2023-08-22 雄安创新研究院 一种检测场景图像中的文本位置的方法、系统和存储介质
CN116630755B (zh) * 2023-04-10 2024-04-02 雄安创新研究院 一种检测场景图像中的文本位置的方法、系统和存储介质

Also Published As

Publication number Publication date
CN109711401B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN109711401A (zh) 一种基于Faster Rcnn的自然场景图像中的文本检测方法
CN113065558B (zh) 一种结合注意力机制的轻量级小目标检测方法
CN106796716B (zh) 用于为低分辨率图像提供超分辨率的设备和方法
CN108319957A (zh) 一种基于超点图的大规模点云语义分割方法
CN107610123A (zh) 一种基于深度卷积神经网络的图像美学质量评价方法
CN105631415A (zh) 一种基于卷积神经网络的视频行人识别方法
CN107909015A (zh) 基于卷积神经网络及空谱信息融合的高光谱图像分类方法
CN107529650A (zh) 网络模型的构建和闭环检测方法、相应装置及计算机设备
CN110070107A (zh) 物体识别方法及装置
CN109583483A (zh) 一种基于卷积神经网络的目标检测方法和系统
CN106600595A (zh) 一种基于人工智能算法的人体特征尺寸自动测量方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN113486764B (zh) 一种基于改进的YOLOv3的坑洼检测方法
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN109635812B (zh) 图像的实例分割方法及装置
CN108460391A (zh) 基于生成对抗网络的高光谱图像无监督特征提取方法
CN112348036A (zh) 基于轻量化残差学习和反卷积级联的自适应目标检测方法
CN106372597B (zh) 基于自适应上下文信息的cnn交通检测方法
CN110879982A (zh) 一种人群计数系统及方法
CN111861906A (zh) 一种路面裂缝图像虚拟增广模型建立及图像虚拟增广方法
CN109272487A (zh) 一种基于视频的公共区域内人群的数量统计方法
CN110070116A (zh) 基于深度树状训练策略的分段式选择集成图像分类方法
CN109376787A (zh) 流形学习网络及基于其的计算机视觉图像集分类方法
CN110009628A (zh) 一种针对连续二维图像中多形态目标的自动检测方法
CN108510013A (zh) 基于低秩核心矩阵的改进稳健张量主成分分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant