CN110766003A - 一种基于卷积神经网络的片段和链接的场景文字的检测方法 - Google Patents
一种基于卷积神经网络的片段和链接的场景文字的检测方法 Download PDFInfo
- Publication number
- CN110766003A CN110766003A CN201910993784.5A CN201910993784A CN110766003A CN 110766003 A CN110766003 A CN 110766003A CN 201910993784 A CN201910993784 A CN 201910993784A CN 110766003 A CN110766003 A CN 110766003A
- Authority
- CN
- China
- Prior art keywords
- convolution
- segment
- size
- layer
- link
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
Abstract
本发明公开发明了一种基于卷积神经网络的片段和链接的场景文字的检测方法。本发明中构建的片段链接模型包括若干个依次连接的卷积特征层和卷积预测器,由于该发明能够在前向传导的过程中同时在多个尺度上密集地检测片段和链接,因此检测效率非常高。链接类型具体分为同层链接和跨层链接两种,同层链接连接同一个特征层中检测到的片段,而跨层链接可以连接不同层上的片段。基于此,使用跨层链接和同层链接可以组合相同或者不同尺度上的片段,很好的避免了漏检和重复检查的问题。
Description
技术领域
本发明属于数字图像处理的应用领域,具体涉及一种基于卷积神经网络的片段和链接的场景文字的检测方法。
背景技术
理解图像是计算机视觉的主要目标。对图像的理解分为不同的层级,例如物体的边缘检测是底层的图像理解;对物体的语义分割是中层的理解等等。而对图像中所携带的文字的理解,则是高层语义信息(high level semantics)的理解,这些信息和人类的符号系统兼容,可以直接被用于高层的语义、逻辑分析。由于文字的普遍存在和文字信息的重要性,理解图片中的文字在计算机视觉中一直处于重要的位置。从图像中识别文字的技术通常被称作光学字符识别(OCR),它是计算机视觉最早的应用之一,受到技术水平和硬件条件的限制,传统的OCR方法只针对文档文字设计。自然图片中的文字通常被称作场景文字,场景文字检测识别是传统OCR在自然图片上的延续和升级,其应用及其广泛。
深层神经网络是深度学习的核心,它是一种灵活且学习能力极强的机器学习模型。从数学角度来看,深层神经网络是一种高度非线性、高度参数化的通用拟合函数,通过大量的样本训练后可以达到良好的预测准确率及泛化性能。深度神经网络是解决场景文字识别问题的有效手段。
检测场景文字需要克服自然图像丰富变化带来的干扰,在方法上和传统的文档文字分析有很大的不同。在过去一段时间有许多针对自然图像文字或视频文字的算法被提出。早期方法大多基于纹理和连通域的分析,通过分析图像中较为底层的视觉特征来检测场景文字。但是由于场景文字和一般物体在形状上存在差别,所以一般物体的检测方法并不是理想的解决方案。首先,一般物体检测方法受其候选区域提取算法的限制,输出包围盒的长宽比往往只能在小范围内变化。因此难以被用于检测如中文、日文等非拉丁文字,因为这些文字的词与词之间并没有间隔,检测目标常是宽高比极端的细长包围盒;其次,一般物体检测方法只能输出水平包围盒,不能检测非水平方向的文字。
发明内容
为了解决现有技术中存在的上述文本,本发明在此提出一种基于卷积神经网络的片段和链接的场景文字的检测方法。
本发明采用的技术方案包括如下步骤:
步骤1,获得大小为wI*hI的文字图片I;
步骤2,构建片段链接模型,其中片段链接模型包括若干个依次连接的卷积特征层和卷积预测器,其中卷积特征层和卷积预测器均用L进行编号索引;每个卷积特征层对应的特征图上的位置都对应一个参考盒,对于特征卷积层L,设定特征图大小为wL*hL,特征图的位置(i,j)对应一个正方形的参考盒,其中心点(xa,ya)通过以下公式计算:
上式中,设定参考盒的宽度和高度均为常量aL;
步骤3,将图片I输入到构建的片段链接模型中,获得卷积预测器的结果输出,包括以下子步骤;
步骤3.1,通过片段链接模型将图片I中的文字划分为片段,获得片段的得分和片段的集合坐标;
步骤3.2,检测片段的相邻片段实现同层链接;
步骤3.3,检测片段的跨层近邻片段实现跨层链接;
步骤4,利用无向图将卷积预测器的结果进行片段组合得到整词;
步骤5,输出整词的检测结果。
进一步的,步骤2中片段链接模型包括6个卷积特征层和卷积预测器,卷积特征层分别是conv4_3、conv7_3、conv8_2、conv9_2、conv10_2、con11,其中conv4_3的卷积核有1024个,卷积核大小为3,卷积步长为1;conv7_3卷积核有256个,卷积核大小为1,卷积步长为1;conv8_2卷积核有128个,卷积核大小为1,卷积步长为1;con9_2卷积核有128个,卷积核大小为1,卷积步长为1;conv10_2卷积核有128个,卷积核大小为3,卷积步长为2;卷积预测器的卷积核大小为3。
进一步的,步骤3.1中片段的得分直接通过卷积预测器获得,片段的集合坐标由卷积特征层对应的参考盒的坐标和卷积预测器预测的偏移量计算得到,具体实现方式如下,
假设片段的矩形框表示为s=(xs,ys,ωs,hs,qs),其中xs,ys表示矩形框中心的位置,ws,hs表示矩形框的长宽,qs表示矩形框相对水平方向的旋转角度,则片段的集合坐标的具体计算公式如下所示:
xs=aLΔxs+xa
ys=aLΔys+ya
ws=aLexp(Δws)
hs=aLexp(Δhs)
θs=Δθs
其中,偏移量(Δxs,Δys,Δws,Δhs,Δqs)和参考盒中心坐标(xa,ya)由片段连接模型得到,参考盒的宽高aL控制了输出片段的尺寸。
进一步的,步骤3.2中相邻片段被定义在特征图上8-邻域位置上检测到的片段,假设用特征图的序号L以及特征图上的位置(i,j)来索引片段,即片段由s(i,j,L)表示,定义相邻片段为该片段s(i,j,L)在特征图上的属于同一连通域的片段,数学表示为:
进一步的,步骤3.3中跨层近邻片段定义为连续两个特征层上的符合一定空间约束关系的片段对,数学表示为:
本发明的有益效果是:提出一种基于卷积神经网络的片段和链接的场景文字的检测方法。该方法基于“片段链接”的思想,将文字行拆分成片段和链接两种元素,片段是单词或文字行的一小段,链接将属于同一单词或文字行的相邻片段相连。片段和链接通过一个全卷积网络在多个尺度上密集地检测,并根据几何规则组合得到整词。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例待检测的源图像,(a)为实施例1待检测的源图像;(b)为对实施例1(a)划分片段之后的源图像;(c)为对实施例1(b)进行同层链接后的图像;(d)为对实施例1(b)进行跨层链接后的图像;(e)为对实施例1(d)进行片段链接后的图像;(f)为对实施例1(e)的片段进行组合后的图像。
图3为本发明实施片段链接模型的网络结构图,其中灰色块的内容表示卷积层输出;灰色细箭表示卷积预测器;卷积层的配置用卷积核个数、卷积核大小(k)、卷积步长(s)表示。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明所采用的技术方案是:一种基于卷积神经网络的片段和链接的场景文字的检测方法,其特征在于,包括以下步骤:
步骤1:输入大小为wI*hI图片I中的文字,其中wI和hI分别表示图片的宽和长;
步骤2:构建片段链接模型,其中片段链接模型的网络结构图见图3,该模型包括6个特征层,分别是conv4_3、conv7_3、conv8_2、conv9_2、conv10_2、con11,其中conv4_3的卷积核有1024个,卷积核大小为3,卷积步长为1;conv7_3卷积核有256个,卷积核大小为1,卷积步长为1;conv8_2卷积核有128个,卷积核大小为1,卷积步长为1;con9_2卷积核有128个,卷积核大小为1,卷积步长为1;conv10_2卷积核有128个,卷积核大小为3,卷积步长为2;它们提供了不同尺度、不同深度的特征,其中conv4_3的深度最浅,尺度也最小;con11深度最深,尺度最大;6个特征层上各自连接了一个卷积预测器,其卷积核大小为3*3,被用于预测片段和链接的得分,特征层和卷积预测器都由L=1......6来编号索引。
每个特征层对应的特征图上的位置都对应一个参考盒,参考盒的置信度和偏移量由其对应的特征估计得到。片段和整词都由带角度的矩形框表示,假设表示整词的矩形框为b=(xb,yb,ωb,hb,qb),表示片段的矩形框为s=(xs,ys,ωs,hs,qs);其中xb,yb和xs,ys分别表示矩形框中心的位置,wb,hb和ws,hs分别表示矩形框的长宽,qb和qs表示矩形框相对水平方向的旋转角度。
对于特征层L,设定特征图大小为wL*hL,特征图的位置(i,j)对应一个正方形的参考盒,其中心点(xa,ya)通过以下公式计算:
上式中,设定参考盒的宽度和高度均为常量aL,其中相同层的参考盒的宽高盒相同,不同层的则不同。
步骤3:将图片I输入到构建的片段链接模型中,获得卷积预测器的结果输出;
步骤3.1,通过片段链接模型将图片I中的文字划分为片段,获得片段的得分和片段的集合坐标;
卷积预测器在特征图上的每个位置预测参考盒的置信度和偏移量,得到了一个7通道的得分图。针对其中2个通道进一步进行softmax归一化,得到(0,1)中的片段分数,片段分数越高说明片段的检测精度越高,另外的5个通道对应了几个偏移量(Δxs,Δys,Δws,Δhs,Δqs),片段的集合坐标由参考盒的坐标和偏移量计算得到,具体公式如下所示:
xs=aLΔxs+xa
ys=aLΔys+ya
ws=aLexp(Δws)
hs=aLexp(Δhs)
θs=Δθs
步骤3.2,检测片段的相邻片段实现同层链接;
链接用于将两个相邻片段相连,指示两个片段是否属于同一个单词,链接既可以将相同单词的片段相连,也可以帮助分离不同单词的片段。比如:即使两个单词距离很近,它们的片段之间的链接也会被预测为负,从而让两个不同单词不被组合在一起。
由于片段的局部性,特征图上相邻的片段在图片上位置也相近。因此,链接可以由局部的特征检测。与片段一样,链接也通过一个卷积预测器预测,卷积预测器会输出16通道的预测得分图,对应每个特征图位置上的片段和它的8近邻之间的连接关系。其中,每个链接的预测都由两个通道组成,每2个通道均进行softmax归一化以获取链接得分,链接得分越高说明片段链接的准确性越高。
相邻片段被定义在特征图上8-邻域位置上检测到的片段。由于每个特征位置上只检测一个片段,用特征图的序号以及特征图上的位置(i,j)来索引片段,即片段由s(i,j,L)表示,定义一个片段的相邻片段为它在特征图上的属于同一连通域的片段,数学表示为:
步骤3.3,检测片段的跨层近邻片段实现跨层链接;
跨层链接连接处于不同特征层的片段即跨层近邻,故针对跨层链接,定义跨层近邻片段为连续两个特征层上的符合一定空间约束关系的片段对,数学表示为:
步骤4:将卷积预测器的结果进行片段组合得到整词;
对片段进行组合,首先需建立一个无向图表示片段的链接关系,每个节点代表一个片段,每一条边代表一个链接,并连接两个片段;然后,使用深度优先搜索在无向图上找到所有的连通组,属于同一连通组的片段,两两之间都存在链接组成的通路。
步骤5:输出整词的检测结果。
本发明通过利用一种基于卷积神经网络的片段和链接的场景文字的检测方法,该方法可用于场景文字检测处理相关领域中。
以下是发明人提供的实施例,以对本发明的技术方案作进一步解释说明。遵循本发明的技术方案,该实施例进行场景文字检测,待检测的源图像为图2(a),大小均为512*512像素。片段和链接的置信度阈值分别设置为0.9和0.7,表1列出并比较了片段链接和其他方法的性能表现。其中,部分方法的结果从光放竞赛网站的排行榜获得。F一分数是确率和平均率的几何平均,它用于衡量检测的整体性能,表1如下所示:
表1片段链接结果客观指标对比结果
由表1可以看出,片段链接的F-分数大幅领先于其他方法,并超出第二名10%以上。考虑到一些方法比片段链接具有接近甚至更高的准确率,可以认为片段链接的性能提升主要来自召回率的提升。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (5)
1.一种基于卷积神经网络的片段和链接的场景文字的检测方法,其特征在于,包括如下步骤:
步骤1,获得大小为wI*hI的文字图片I;
步骤2,构建片段链接模型,其中片段链接模型包括若干个依次连接的卷积特征层和卷积预测器,其中卷积特征层和卷积预测器均用L进行编号索引;每个卷积特征层对应的特征图上的位置都对应一个参考盒,对于特征卷积层L,设定特征图大小为wL*hL,特征图的位置(i,j)对应一个正方形的参考盒,其中心点(xa,ya)通过以下公式计算:
上式中,设定参考盒的宽度和高度均为常量aL;
步骤3,将图片I输入到构建的片段链接模型中,获得卷积预测器的结果输出,包括以下子步骤;
步骤3.1,通过片段链接模型将图片I中的文字划分为片段,获得片段的得分和片段的集合坐标;
步骤3.2,检测片段的相邻片段实现同层链接;
步骤3.3,检测片段的跨层近邻片段实现跨层链接;
步骤4,利用无向图将卷积预测器的结果进行片段组合得到整词;
步骤5,输出整词的检测结果。
2.如权利要求1所述的一种基于卷积神经网络的片段和链接的场景文字的检测方法,其特征在于:步骤2中片段链接模型包括6个卷积特征层和卷积预测器,卷积特征层分别是conv4_3、conv7_3、conv8_2、conv9_2、conv10_2、con11,其中conv4_3的卷积核有1024个,卷积核大小为3,卷积步长为1;conv7_3卷积核有256个,卷积核大小为1,卷积步长为1;conv8_2卷积核有128个,卷积核大小为1,卷积步长为1;con9_2卷积核有128个,卷积核大小为1,卷积步长为1;conv10_2卷积核有128个,卷积核大小为3,卷积步长为2;卷积预测器的卷积核大小为3。
3.如权利要求1所述的一种基于卷积神经网络的片段和链接的场景文字的检测方法,其特征在于:步骤3.1中片段的得分直接通过卷积预测器获得,片段的集合坐标由卷积特征层对应的参考盒的坐标和卷积预测器预测的偏移量计算得到,具体实现方式如下,
假设片段的矩形框表示为s=(xs,ys,ωs,hs,qs),其中xs,ys表示矩形框中心的位置,ws,hs表示矩形框的长宽,qs表示矩形框相对水平方向的旋转角度,则片段的集合坐标的具体计算公式如下所示:
xs=aLΔxs+xa
ys=aLΔys+ya
ws=aLexp(Δws)
hs=aLexp(Δhs)
θs=Δθs
其中,偏移量(Δxs,Δys,Δws,Δhs,Δqs)和参考盒中心坐标(xa,ya)由片段连接模型得到,参考盒的宽高aL控制了输出片段的尺寸。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910993784.5A CN110766003A (zh) | 2019-10-18 | 2019-10-18 | 一种基于卷积神经网络的片段和链接的场景文字的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910993784.5A CN110766003A (zh) | 2019-10-18 | 2019-10-18 | 一种基于卷积神经网络的片段和链接的场景文字的检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110766003A true CN110766003A (zh) | 2020-02-07 |
Family
ID=69332595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910993784.5A Pending CN110766003A (zh) | 2019-10-18 | 2019-10-18 | 一种基于卷积神经网络的片段和链接的场景文字的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110766003A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967463A (zh) * | 2020-06-23 | 2020-11-20 | 南昌大学 | 一种检测自然场景中弯曲文本的曲线拟合的方法 |
CN112270234A (zh) * | 2020-10-20 | 2021-01-26 | 天津大学 | 一种基于航拍图像的输电线路绝缘子目标识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170364746A1 (en) * | 2004-09-27 | 2017-12-21 | Google Inc. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
-
2019
- 2019-10-18 CN CN201910993784.5A patent/CN110766003A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170364746A1 (en) * | 2004-09-27 | 2017-12-21 | Google Inc. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
Non-Patent Citations (1)
Title |
---|
石葆光: "基于深度学习的自然场景文字检测与识别方法研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967463A (zh) * | 2020-06-23 | 2020-11-20 | 南昌大学 | 一种检测自然场景中弯曲文本的曲线拟合的方法 |
CN112270234A (zh) * | 2020-10-20 | 2021-01-26 | 天津大学 | 一种基于航拍图像的输电线路绝缘子目标识别方法 |
CN112270234B (zh) * | 2020-10-20 | 2022-04-19 | 天津大学 | 一种基于航拍图像的输电线路绝缘子目标识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN106446896B (zh) | 一种字符分割方法、装置及电子设备 | |
CN107665498B (zh) | 基于典型示例挖掘的全卷积网络飞机检测方法 | |
TWI821671B (zh) | 一種文本區域的定位方法及裝置 | |
Lv et al. | Residential floor plan recognition and reconstruction | |
US20170076448A1 (en) | Identification of inflammation in tissue images | |
CN110852349A (zh) | 一种图像处理方法、检测方法、相关设备及存储介质 | |
CN109948533B (zh) | 一种文本检测方法、装置、设备及可读存储介质 | |
Zheng et al. | Improvement of grayscale image 2D maximum entropy threshold segmentation method | |
Zhu et al. | Deep residual text detection network for scene text | |
CN113033558A (zh) | 一种用于自然场景的文本检测方法及装置、存储介质 | |
CN110766003A (zh) | 一种基于卷积神经网络的片段和链接的场景文字的检测方法 | |
Dong et al. | Learning regional purity for instance segmentation on 3d point clouds | |
Cai et al. | IOS-Net: An inside-to-outside supervision network for scale robust text detection in the wild | |
CN110516731B (zh) | 一种基于深度学习的视觉里程计特征点检测方法及系统 | |
CN111144469B (zh) | 基于多维关联时序分类神经网络的端到端多序列文本识别方法 | |
Gui et al. | A fast caption detection method for low quality video images | |
Rest et al. | Illumination-based augmentation for cuneiform deep neural sign classification | |
CN112991395B (zh) | 一种基于前景条件概率优化尺度和角度的视觉跟踪方法 | |
CN115775220A (zh) | 使用多个机器学习程序检测图像中的异常的方法和系统 | |
Fang et al. | Visual music score detection with unsupervised feature learning method based on k-means | |
Kim et al. | Graph neural network based scene change detection using scene graph embedding with hybrid classification loss | |
Sun et al. | Contextual models for automatic building extraction in high resolution remote sensing image using object-based boosting method | |
CN112836510A (zh) | 一种产品图片文字识别方法和系统 | |
Maia et al. | A machine learning approach for graph-based page segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200207 |
|
RJ01 | Rejection of invention patent application after publication |