CN105608456B - 一种基于全卷积网络的多方向文本检测方法 - Google Patents

一种基于全卷积网络的多方向文本检测方法 Download PDF

Info

Publication number
CN105608456B
CN105608456B CN201510989079.XA CN201510989079A CN105608456B CN 105608456 B CN105608456 B CN 105608456B CN 201510989079 A CN201510989079 A CN 201510989079A CN 105608456 B CN105608456 B CN 105608456B
Authority
CN
China
Prior art keywords
marking area
character
text
word bar
bar marking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510989079.XA
Other languages
English (en)
Other versions
CN105608456A (zh
Inventor
白翔
章成全
张拯
姚聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201510989079.XA priority Critical patent/CN105608456B/zh
Publication of CN105608456A publication Critical patent/CN105608456A/zh
Application granted granted Critical
Publication of CN105608456B publication Critical patent/CN105608456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于全卷积网络的多方向文本检测方法,首先获取训练数据集中的文本块,并训练全卷积网络模型;然后利用训练好的全卷积网络模型对测试数据集中的图片进行检测,获取文本块;然后提取文本块的字符成分,并根据字符成分的位置信息估算图像中的候选文本条位置;最后训练针对文本条中字符成分的全卷积网络模型,利用训练好的模型对候选文本条进行检测,获取其中的字符成分,根据字符成分过滤掉不需要的文本条,得到图像中文本条的位置。本发明方法文本检测方法检测率高,且能够克服光照、遮挡、模糊等不利因素的影响。

Description

一种基于全卷积网络的多方向文本检测方法
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于全卷积网络的多方向文本检测方法。
背景技术
人们在生产和生活的过程中,要处理大量的文本、报表和文字,利用计算机自动识别字符,是计算机视觉应用中的一个重要领域。在文本的处理中,有大量的文本信息是以图片的形式保存的,如何利用计算机自动的从这些图片中提取出这些文本信息,是目前计算机视觉领域的一个重要的研究方向。文本检测是提取图片中文本信息的关键步骤,检测效果将直接影响文本的识别精度,进而影响文本信息提取的可信度。文本检测技术是以计算机视觉、模式识别和图像处理为基础,要求能够将文本从复杂的自然场景下检测出来,为文本识别以及文本信息提取能取得更好的效果做好铺垫。
发明内容
本发明的目的在于提供一种基于全卷积网络的多方向文本检测方法,该方法文本检测过程简单易行,且检测准确率高。
为实现上述方法,本发明提供了一种基于全卷积网络的文本检测方法,包括下述步骤:
(1)获得待检测图像中的文字条显著区域:
(1.1)对训练图像集中的各文本图像,根据文本在文本图像中的位置,获取各文本图像中的文字条显著区域,得到文字条显著区域集;
具体地,对给定的训练图像集,用人工标注的方法将训练图像集中各文本图像上的文本区域用矩形框标记出来,获取训练图像集中的文字条显著区域集;
(1.2)利用文字条显著区域集训练文本块全卷积网络模型;
具体地,对标注好的训练图像集中的文字条显著区域集,以这些文字条显著区域为正样本训练全卷积网络,得到文本块全卷积网络模型;
(1.3)利用训练得到的文本块全卷积网络模型获取待检测图像的文字条显著区域;
具体地,利用训练好的文本块全卷积网络模型对待检测图像进行检测,得到一张概率图,概率图中的每个像素点的灰度值表示该像素点是否在文字条显著区域内的概率,概率图中灰度级比阈值TB高的像素点即为图像中文字条显著区域内的像素点,这些像素点连成的区域即为得到的待检测图像中的文字条显著区域,其中TB为判断概率图中某像素点是否在文字条显著区域内的像素点灰度级的阈值,比如可以取0.2,灰度级在阈值TB以上的像素点连成的区域为待检测图像的文字条显著区域,表示为其中表示获取的第i个文字条显著区域,BNum为文字条显著区域的个数,Bs表示获取的所有文字条显著区域的集合。
(2)获取待检测图像中的多方向候选文本条:
(2.1)在获取的待检测图像的文字条显著区域中提取其中的字符成分;
具体地,对步骤(1)中获取的待检测图像中的每个文字条显著区域提取其最大稳定极值区域作为候选的字符成分,并用所得的候选字符成分的面积比和宽高比对得到的候选字符成分进行筛选,排除掉不满足条件的字符成分,对某个文字条显著区域记从该区域提取的字符成分集合为其中,表示在某文本块中提取的第j个字符成分,表示文本块中提取的字符成分的个数;
(2.2)估计获取的待检测图像的文字条显著区域的方向;
具体地,根据步骤(2.1)中获取的每个文字条显著区域中提取的字符成分的位置信息,估算该文字条显著区域的方向,其估算的方法如下式所示:
其中,Φ(θ,h)表示当该估算的文字条显著区域的中心点位置纵坐标为h、区域方向为θ时在该估算区域内的文字成分的数量,得到的角度即为估算出的该文字条显著区域的方向;
(2.3)提取待检测图像的候选文本条;
(2.3.1)获取待检测图像的文本块的字符成分组;
具体地,对步骤(2.1)中提取的文本块的字符成分集按照规则进行分组,其中分组规则为:对两个字符成分A和B,如果满足下述条件,则被划分到同一组,需要满足的条件如下式所示:
其中,H(A)和H(B)分别表示字符成分A和B的高度,O(A,B)表示字符成分A和B的区域中心的方向,为步骤(2.2)中估算出的文本块的方向,这样,可以对文本块中提取的所有字符成分进行分组,最终得到该区域的所有的字符成分组的集合,记为:其中βk={cj},表示文本块中的字符成分经过分组后的第k个字符成分组,表示区域中提取的字符成分集合的第j个字符成分,表示区域中字符成分组的个数;
(2.3.2)获取待检测图像的文本块的文本条边界点集;
具体地,对步骤(2.3.1)中获取的文本块的某字符成分组β={cj},得到一条以步骤(2.2)中估算得到的文本块的方向为方向,且穿过该字符成分组β中心的直线l,则文本条边界点即为直线l与字符成分组β的边界的交点,文本条边界点集Ps表示为:
其中表示区域中提取的字符成分集合的第j个字符成分,表示区域的所有字符成分边界点的集合,pm为直线l与区域的边界的第m个交点,PNum表示直线l与区域的边界的交点个数;
(2.3.3)获取待检测图像的候选文本条;
具体地,对步骤(2.3.1)中得到的文本块的字符成分组集合中的每一个字符成分组β和步骤(2.3.2)中得到的边界点集Ps,计算文本条的最小包围盒bb,计算方法如下式所示:
bb=∪{β,Ps}
其中∪表示计算包含字符成分组β中的所有字符成分和边界点集Ps中所有的点的最小区域,候选文本条的位置即为最小包围盒bb,则文本块中提取的候选文本条集合可表示为其中bbn表示显著区域中提取的第n个文本条的包围盒,表示显著区域中候选文本条的个数,显著区域中的文本条集合表示为其中tla表示中的第a个文本条,中文本条个数,且
(3)获取待检测图像中文本条位置:
(3.1)获取待检测图像中文本条中的字符中心位置;
(3.1.1)获取待检测图像中文本条中的字符中心位置概率图;
具体地,首先对训练图像集中标注好的图像块,用步骤(2)中的方法获取文本条,并利用人工标注的方法获取文本条中字符集,并利用标注的字符集训练字符全卷积网络模型,然后利用训练好的字符全卷积网络模型对步骤(2)中提取的候选文本条tl进行检测,得到文本条中的字符中心位置概率图,概率图中的每个点的像素值表示该点为字符中心的概率;
(3.1.2)获取待检测图像中文本条中的字符中心位置;
具体地,对步骤(3.1.1)中得到的字符中心位置概率图,计算其极值点集,记为其中eb表示概率图的第b个极值点的位置,分数sb表示概率图在该极值点处的像素值,ENum表示极值点的个数,这些极值点即为文本条中字符中心的位置。
(3.2)获取待检测图像中文本条的位置;
具体地,对候选的文本条进行筛选,过滤掉不符合要求的文本条,最终得到的即为图像中的文本条,其中筛选的规则有:
(3.2.1)对于一个候选文本条,计算步骤(3.1.2)中得到的极值点个数Nc以及极值点分数的平均值Savg,如果Nc<thresNc或者Savg<thresS,则删掉该候选文本条,其中thresNc表示极值点个数的阈值,比如可以取2,thresS表示极值点分数平均值的阈值,比如可以取0.6,sb表示该候选文本条的第b个极值点的分数;
(3.2.2)对一个候选文本条,计算文本条中字符中心位置之间方向角度的均值μ和标准差σ,其中均值和标准差的计算方法如下:
其中Nc表示候选文本条中极值点的个数,O(eq,er)表示文本条的第q和第r个极值点eq和er之间的方向角度,如果则删掉该文本条;
对筛选出来的文本条做非最大抑制,其中非最大抑制所需要的每个文本条的得分为文本条中所有极值点的得分的和,非最大抑制之后得到的文本条即为图像中检测得到的文本条。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下技术效果:
1、自然场景下的文本图像容易受光照、灰尘、空气质量以及相机分辨率和拍摄角度等因素的影响而变得不容易辨认,现有的文本检测算法无法适应外界环境的变化,无法在各种复杂场景下都提供高的检测率。本发明方法采用先检测文本块的方法,文本块相对字符部件较为稳定,自然场景中单个字符级别部件的检测,往往是容易受到复杂背景的干扰而不容易被检测到,如:光照、遮挡、模糊等,相对于较为细粒度的字符部件检测,文本块是基于整个文字条区域来定义的,个别字符级别部件受干扰对整个文字区域的提取的影响较小,所以较为稳定;本发明方法利用全卷积网络模型进行文本块以及字符中心的检测,全卷积网络能实现文本块区域的有效检测,运用于像素级别的识别任务,该网络在判决的时候充分考虑多层感知域卷积特征,以卷积层替代全链接层的操作使得判决实现高速有效的端到端输出;因此,本发明方法可以有效克服光照、遮挡、模糊等不利因素的影响;
2、本发明方法检测图像中的文本条,采用先检测文本块,然后检测文本块中的字符,然后利用字符检测的信息确定文本条的方法,和传统的自底而上的文字条检测方法不同,本发明方法对字符部件的提取要求比较低,只要保证大部分落在文本块内的字符部件被找到,就可以很好检测到文本条的位置;本发明方法根据字符部件的投影统计预测出多方向文字条的分布规律,提取文字条的时候充分利用了文本块信息和字符部件信息;因此,本发明方法充分考虑了全局和局部的信息,提高了多方向文本条检测的精度;
3、本发明方法在检测文本条的位置的步骤,针对字符中心训练的小规模全卷积网络,能够快速简洁的实现候选文字条的字符中心预测;本发明方法基于字符中心的响应概率和分布规则来滤除虚警,相对于简单的分类器过滤方法而言,更合乎文本条的特性,高效便捷;因此,本发明方法对多方向文本条的检测更加简单、有效。
附图说明
图1是本发明基于全卷积网络的文本检测的流程图;
图2是本发明一实施例中利用训练好的全卷积网络模型获取图像文本块位置概率图的示意图;
图3是本发明一实施例中利用训练好的全卷积网络模型获取候选文本条中字符中心位置概率图的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先就本发明的技术术语进行解释和说明:
全卷积网络:网络模型全由卷基层和非线性变换层组成,不同于卷积神经网络,全卷积的末端去处掉了全连接层,因此对输入图像没有大小限制,能够实现端到端的像素级别预测。
最大稳定极值区域:图像在灰度空间上根据连续的不同阈值进行区域分割过程中,在比较宽的阈值范围内保持稳定的区域即为最大稳定极值区域。
本发明基于全卷积网络的文本检测方法包括以下步骤:
(1)获得待检测图像中的文字条显著区域:
(1.1)对训练图像集中的各文本图像,根据文本在文本图像中的位置信息,获取各文本图像中的文字条显著区域,得到文字条显著区域集;
具体地,对给定的训练图像集,用人工标注的方法将训练图像集中文本图像上的文本区域用矩形框标记出来,获取训练图像中的文字条显著区域集;
(1.2)利用训练文本块的全卷积网络模型;
具体地,对标注好的训练图像集中的文字条显著区域集,以这些文字条显著区域为正样本训练全卷积网络,并得到文本块的全卷积网络模型;
(1.3)利用训练得到的文本块全卷积网络模型获取待检测图像中的文字条显著区域;
具体地,利用训练好的文本块全卷积网络模型对待检测图像进行检测,能够得到一张概率图,概率图中的每个像素点的灰度值表示该像素点是否在文字条显著区域内的概率,如图2所示,为本发明一实施例中利用训练好的全卷积网络模型获取图像文本块位置概率图的示意图,那么概率图中灰度级比阈值TB高的像素点即为图像中文字条显著区域内的像素点,这些像素点连成的区域即为得到的待检测图像中的文字条显著区域,其中TB为判断概率图中某像素点是否在文字条显著区域内的像素点灰度级的阈值,比如可以取0.2,灰度级在阈值TB以上的像素点连成的区域为待检测图像的文字条显著区域,表示为其中表示获取的第i个文字条显著区域,BNum为文字条显著区域的个数,Bs表示获取的所有文字条显著区域的集合。
(2)获取待检测图像中的多方向候选文本条:
(2.1)在获取的待检测图像的文字条显著区域中提取其中的字符成分;
具体地,对步骤(1)中获取的待检测图像中的每个文字条显著区域提取其最大稳定极值区域最为候选的字符成分,并用所得的候选字符成分的面积比和宽高比对得到的候选字符成分进行筛选,排除掉不满足条件的字符成分,对某个文字条显著区域记从该区域提取的字符成分集合为其中,表示在某文本块中提取的第j个字符成分,表示文本块中提取的字符成分的个数;
(2.2)估计获取的待检测图像的文字条显著区域的方向;
具体地,根据步骤(2.1)中获取的每个文字条显著区域中提取的字符成分的位置信息,估算该文字条显著区域的方向,其估算的方法如下式所示:
其中,Φ(θ,h)表示当该估算的文字条显著区域的中心点位置纵坐标为h、区域方向为θ时在该估算区域内的文字成分的数量,得到的角度即为估算出的该文字条显著区域的方向;
(2.3)提取待检测图像的候选的文本条;
(2.3.1)获取待检测图像的文本块的字符成分组;
具体地,对步骤(2.1)中提取的文本块的字符成分集按照规则进行分组,其中分组规则为:对两个字符成分A和B,如果满足下述条件,则被划分到同一组,需要满足的条件如下式所示:
其中,H(A)和H(B)分别表示字符成分A和B的高度,O(A,B)表示字符成分A和B的区域中心的方向,为步骤(2.2)中估算出的文本块的方向,这样,可以对文本块中提取的所有字符成分进行分组,最终得到该区域的所有的字符成分组的集合,记为:其中βk={cj},表示文本块中的字符成分经过分组后的第k个字符成分组,表示区域中提取的字符成分集合的第j个字符成分,表示区域中字符成分组的个数;
(2.3.2)获取待检测图像的文本块的文本条边界点集;
具体地,对步骤(2.3.1)中获取的文本块的某字符成分组β={cj},可以得到一条以步骤(2.2)中估算得到的文本块的方向为方向,且穿过该字符成分组β的直线l,则文本条边界点即为直线l与字符成分组β的边界的交点,文本条边界点集Ps表示为:
其中表示区域中提取的字符成分集合的第j个字符成分,表示区域的所有字符成分边界点的集合,pm为直线l与区域的边界的第m个交点,PNum表示直线l与区域的边界的交点个数;
(2.3.3)获取待检测图像的候选文本条;
具体地,对步骤(2.3.1)中得到的文本块的字符成分组集合中的每一个字符成分组β和步骤(2.3.2)中得到的边界点集Ps,计算文本条的最小包围盒bb,计算方法如下式所示:
bb=∪{β,Ps}
其中∪表示计算包含字符成分组β中的所有字符成分和边界点集Ps中所有的点的最小区域,候选文本条的位置即为最小包围盒bb,则文本块中提取的候选文本条集合可表示为其中bbn表示显著区域中提取的第n个文本条的包围盒,表示显著区域中候选文本条的个数,显著区域中的文本条集合表示为其中tla表示中的第a个文本条,中文本条个数,且
(3)获取待检测图图像中文本条位置:
(3.1)获取待检测图像的文本条中的字符中心位置;
(3.1.1)获取待检测图像的文本条中的字符中心位置概率图;
具体地,首先对训练图像集中标注好的图像块,用步骤(2)中的方法获取文本条,并利用人工标注的方法获取文本条中字符集,并利用标注的字符集训练字符的全卷积网络模型,然后利用训练好的字符全卷积网络模型对步骤(2)中提取的候选文本条tl进行检测,得到文本条中的字符中心位置概率图,如图3所示,为本发明一实施例中利用训练好的全卷积网络模型获取候选文本条中的字符中心位置概率图的示意图,概率图中的每个点的像素值表示该点为字符中心的概率;
(3.1.2)获取待检测图像的文本条中的字符中心位置;
具体地,对步骤(3.1.1)中得到的字符中心位置概率图,计算其极值点集,记为其中eb表示概率图的第b个极值点的位置,分数sb表示概率图在该极值点处的像素值,ENum表示极值点的个数,这些极值点即为文本条中字符中心的位置。
(3.2)获取待检测图像中文本条的位置;
具体地,对候选的文本条进行筛选,过滤掉不符合要求的文本条,最终得到的即为图像中的文本条,其中筛选的规则有:
(3.2.1)对于一个候选文本条,计算步骤(3.1.2)中得到的极值点个数Nc以及极值点分数的平均值Savg,如果Nc<thresNc或者Savg<thresS,则删掉该候选文本条,其中thresNc表示极值点个数的阈值,比如可以取2,thresS表示极值点分数平均值的阈值,比如可以取0.6,sb表示该候选文本条的第b个极值点的分数;
(3.2.2)对一个候选文本条,计算文本条中字符中心位置之间方向角度的均值μ和标准差σ,其中均值和标准差的计算方法如下:
其中Nc表示候选文本条中极值点的个数,O(eq,er)表示文本条的第q和第r个极值点eq和er之间的方向角度,如果则删掉该文本条;
对筛选出来的文本条做非最大抑制,其中非最大抑制所需要的每个文本条的得分为文本条中所有极值点的得分的和,非最大抑制之后得到的文本条即为图像中检测得到的文本条。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种基于全卷积网络的多方向文本检测方法,其特征在于,所述方法包括下述步骤:
(1)获得待检测图像中的文字条显著区域:
(1.1)对训练图像集中的各文本图像,根据文本在文本图像中的位置,获取各文本图像中的文字条显著区域,得到文字条显著区域集;
(1.2)利用文字条显著区域集训练文本块全卷积网络模型;
(1.3)利用训练得到的文本块全卷积网络模型获取待检测图像中的文字条显著区域;
(2)获取待检测图像中多方向的候选文字条显著区域:
(2.1)在获取的待检测图像的文字条显著区域中提取其中的字符成分;
(2.2)根据步骤(2.1)提供的字符成分,估计获取的待检测图像的文字条显著区域的方向;
(2.3)根据步骤(2.1)提供的字符成分和步骤(2.2)获得的方向,提取待检测图像的候选文字条显著区域,即得到多方向的候选文字条显著区域;
(3)获取待检测图像中多方向的文字条显著区域的位置:
(3.1)获取步骤(2)中所得的待检测图像中多方向的候选文字条显著区域中的字符中心位置;
(3.2)根据步骤(3.1)获取的字符中心位置,获取待检测图像中多方向的文字条显著区域的位置。
2.根据权利要求1所述的基于全卷积网络的多方向文本检测方法,其特征在于,所述步骤(1.3)具体为:利用训练好的文本块全卷积网络模型对待检测图像进行检测,得到一张概率图,概率图中的每个像素点的灰度值表示该像素点是否在文字条显著区域内的概率,概率图中灰度级比阈值TB高的像素点即为图像中文字条显著区域内的像素点,这些像素点连成的区域即为得到的待检测图像中的文字条显著区域。
3.根据权利要求1所述的基于全卷积网络的多方向文本检测方法,其特征在于,所述步骤(2.1)具体为:对步骤(1)中获取的待检测图像中的每个文字条显著区域提取其最大稳定极值区域作为候选的字符成分,并用所得的候选字符成分的面积比和宽高比对得到的候选字符成分进行筛选,排除掉不满足条件的字符成分,对某个文字条显著区域记从该区域提取的字符成分集合为其中,表示在某文字条显著区域中提取的第j个字符成分,表示文字条显著区域中提取的字符成分的个数。
4.根据权利要求2所述的基于全卷积网络的多方向文本检测方法,其特征在于,所述步骤(2.1)具体为:对步骤(1)中获取的待检测图像中的每个文字条显著区域提取其最大稳定极值区域作为候选的字符成分,并用所得的候选字符成分的面积比和宽高比对得到的候选字符成分进行筛选,排除掉不满足条件的字符成分,对某个文字条显著区域记从该区域提取的字符成分集合为其中,表示在某文字条显著区域中提取的第j个字符成分,表示文字条显著区域中提取的字符成分的个数。
5.根据权利要求3所述的基于全卷积网络的多方向文本检测方法,其特征在于,所述步骤(2.2)具体为:根据步骤(2.1)中获取的每个文字条显著区域中提取的字符成分的位置信息,估算该文字条显著区域的方向,其估算的方法如下式所示:
θ r ( ∂ ) = arg m a x θ m a x h Φ ( θ , h )
其中,Φ(θ,h)表示当该估算的文字条显著区域的中心点位置纵坐标为h、区域方向为θ时在该估算区域内的文字成分的数量,得到的角度即为估算出的该文字条显著区域的方向。
6.根据权利要求3所述的基于全卷积网络的多方向文本检测方法,其特征在于,所述步骤(2.3)具体为:
(2.3.1)获取待检测图像的文本块的字符成分组;
(2.3.2)获取待检测图像的文本块的文字条显著区域边界点集;
(2.3.3)获取待检测图像的候选文字条显著区域。
7.根据权利要求5所述的基于全卷积网络的多方向文本检测方法,其特征在于,所述步骤(2.3)具体为:
(2.3.1)获取待检测图像的文本块的字符成分组;
(2.3.2)获取待检测图像的文本块的文字条显著区域边界点集;
(2.3.3)获取待检测图像的候选文字条显著区域。
8.根据权利要求7所述的基于全卷积网络的多方向文本检测方法,其特征在于,所述步骤(2.3.1)具体为:
对步骤(2.1)中提取的文字条显著区域的字符成分集按照规则进行分组,其中分组规则为:对两个字符成分A和B,如果满足下述条件,则被划分到同一组,需要满足的条件如下式所示:
(i)
(ii)
其中,H(A)和H(B)分别表示字符成分A和B的高度,O(A,B)表示字符成分A和B的区域中心的方向,为步骤(2.2)中估算出的文字条显著区域的方向,这样,可以对文字条显著区域中提取的所有字符成分进行分组,最终得到该区域的所有的字符成分组的集合,记为:其中βk={cj},表示文字条显著区域中的字符成分经过分组后的第k个字符成分组,表示区域中提取的字符成分集合的第j个字符成分,表示区域中字符成分组的个数。
9.根据权利要求6所述的基于全卷积网络的多方向文本检测方法,其特征在于,所述步骤(2.3.2)具体为:
对步骤(2.3.1)中获取的文字条显著区域的某字符成分组β={cj},得到一条以步骤(2.2)中估算得到的文字条显著区域的方向为方向,且穿过该字符成分组β的直线l,则文字条显著区域边界点即为直线l与字符成分组β的边界的交点,文字条显著区域边界点集Ps表示为:
P s = { p m } m = 1 P N u m , p m ∈ l ∩ B D s ( ∂ )
其中表示区域中提取的字符成分集合的第j个字符成分,表示区域的所有字符成分边界点的集合,pm为直线l与区域的边界的第m个交点,PNum表示直线l与区域的边界的交点个数。
10.根据权利要求7所述的基于全卷积网络的多方向文本检测方法,其特征在于,所述步骤(2.3.3)具体为:
对步骤(2.3.1)中得到的文字条显著区域的字符成分组的集合中的每一个字符成分组β和步骤(2.3.2)中得到的边界点集Ps,计算文字条显著区域的最小包围盒bb,计算方法如下式所示:
bb=∪{β,Ps}
其中∪表示计算包含字符成分组β中的所有字符成分和边界点集Ps中所有的点的最小区域,候选文字条显著区域的位置即为最小包围盒bb,则文字条显著区域中提取的候选文字条显著区域集合可表示为其中bbn表示显著区域中提取的第n个文字条显著区域的包围盒,表示显著区域中候选文字条显著区域的个数,显著区域中的文字条显著区域集合表示为其中tla表示中的第a个文字条显著区域,中文字条显著区域个数,且
11.根据权利要求1至10任一项所述的基于全卷积网络的多方向文本检测方法,其特征在于,所述步骤(3.1)具体为:
(3.1.1)首先对训练图像集中标注好的图像块,用步骤(2)中的方法获取文字条显著区域,并利用人工标注的方法获取文字条显著区域中字符集,并利用标注的字符集训练字符全卷积网络模型,然后利用训练好的字符全卷积网络模型对步骤(2)中提取的候选文字条显著区域tl进行检测,得到文字条显著区域中的字符中心位置概率图,概率图中的每个点的像素值表示该点为字符中心的概率;
(3.1.2)对步骤(3.1.1)中得到的字符中心位置概率图,计算其极值点集,记为其中eb表示概率图的第b个极值点的位置,分数sb表示概率图在该极值点处的像素值,ENum表示极值点的个数,这些极值点即为文字条显著区域中字符中心的位置。
12.根据权利要求1至10任一项所述的基于全卷积网络的多方向文本检测方法,其特征在于,所述步骤(3.2)具体为:
对候选的文字条显著区域进行筛选,过滤掉不符合要求的文字条显著区域,最终得到的即为图像中的文字条显著区域,其中筛选的规则有:
(3.2.1)对于一个候选文字条显著区域,计算步骤(3.1.2)中得到的极值点个数Nc以及极值点分数的平均值Savg,如果Nc<thresN或者Savg<thresS,则删掉该候选文字条显著区域,其中thresNc表示极值点个数的阈值,thresS表示极值点分数平均值的阈值,sb表示该候选文字条显著区域的第b个极值点的分数;
(3.2.2)对一个候选文字条显著区域,计算文字条显著区域中字符中心位置之间方向角度的均值μ和标准差σ,其中均值和标准差的计算方法如下:
μ = 1 N c Σ q = 1 N c Σ r = 1 N c O ( e q , e r )
σ = 1 N C Σ q = 1 N c Σ r = 1 N c ( O ( e q , e r ) - μ ) 2
其中Nc表示候选文字条显著区域中极值点的个数,O(eq,er)表示文字条显著区域的第q和第r个极值点eq和er之间的方向角度,如果则删掉该文字条显著区域;
对筛选出来的文字条显著区域做非最大抑制,其中非最大抑制所需要的每个文字条显著区域的得分为文字条显著区域中所有极值点的得分的和,非最大抑制之后得到的文字条显著区域即为待检测图像中检测得到的文字条显著区域。
CN201510989079.XA 2015-12-22 2015-12-22 一种基于全卷积网络的多方向文本检测方法 Active CN105608456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510989079.XA CN105608456B (zh) 2015-12-22 2015-12-22 一种基于全卷积网络的多方向文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510989079.XA CN105608456B (zh) 2015-12-22 2015-12-22 一种基于全卷积网络的多方向文本检测方法

Publications (2)

Publication Number Publication Date
CN105608456A CN105608456A (zh) 2016-05-25
CN105608456B true CN105608456B (zh) 2017-07-18

Family

ID=55988382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510989079.XA Active CN105608456B (zh) 2015-12-22 2015-12-22 一种基于全卷积网络的多方向文本检测方法

Country Status (1)

Country Link
CN (1) CN105608456B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106257496B (zh) * 2016-07-12 2019-06-07 华中科技大学 海量网络文本与非文本图像分类方法
CN106295502B (zh) * 2016-07-25 2019-07-12 厦门中控智慧信息技术有限公司 一种人脸检测方法及装置
CN106529602B (zh) * 2016-11-21 2019-08-13 中国科学院上海微系统与信息技术研究所 一种毫米波图像自动目标识别方法及装置
CN106682697B (zh) * 2016-12-29 2020-04-14 华中科技大学 一种基于卷积神经网络的端到端物体检测方法
CN106897732B (zh) * 2017-01-06 2019-10-08 华中科技大学 一种基于连接文字段的自然图片中多方向文本检测方法
CN108734052A (zh) * 2017-04-13 2018-11-02 北京旷视科技有限公司 文字检测方法、装置和系统
CN107545262B (zh) * 2017-07-31 2020-11-06 华为技术有限公司 一种在自然场景图像中检测文本的方法及装置
CN107977620B (zh) * 2017-11-29 2020-05-19 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108009524B (zh) * 2017-12-25 2021-07-09 西北工业大学 一种基于全卷积网络的车道线检测方法
CN108052937B (zh) 2017-12-28 2019-05-31 百度在线网络技术(北京)有限公司 基于弱监督的字符检测器训练方法、装置、系统及介质
CN108304835B (zh) 2018-01-30 2019-12-06 百度在线网络技术(北京)有限公司 文字检测方法和装置
CN108427924B (zh) * 2018-03-09 2020-06-23 华中科技大学 一种基于旋转敏感特征的文本回归检测方法
CN108805131B (zh) * 2018-05-22 2021-08-10 北京旷视科技有限公司 文本行检测方法、装置及系统
CN110619325B (zh) * 2018-06-20 2024-03-08 北京搜狗科技发展有限公司 一种文本识别方法及装置
CN109344824B (zh) * 2018-09-21 2022-06-10 泰康保险集团股份有限公司 一种文本行区域检测方法、装置、介质和电子设备
CN109447078B (zh) * 2018-10-23 2020-11-06 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109584211A (zh) * 2018-10-31 2019-04-05 南开大学 一种动物卵母细胞极体的视觉自动检测方法
CN109977945A (zh) * 2019-02-26 2019-07-05 博众精工科技股份有限公司 基于深度学习的定位方法和系统
CN110490232B (zh) * 2019-07-18 2021-08-13 北京捷通华声科技股份有限公司 训练文字行方向预测模型的方法、装置、设备、介质
CN110610166B (zh) * 2019-09-18 2022-06-07 北京猎户星空科技有限公司 文本区域检测模型训练方法、装置、电子设备和存储介质
CN110751152B (zh) * 2019-10-18 2021-06-08 中国科学技术大学 检测任意形状文本的方法
CN112861860B (zh) * 2021-03-11 2024-04-19 南京大学 一种基于上下边界提取的自然场景下文字检测方法
CN113807337B (zh) * 2021-08-17 2022-09-06 厦门市美亚柏科信息股份有限公司 一种基于图连通的文本检测方法、终端设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542268A (zh) * 2011-12-29 2012-07-04 中国科学院自动化研究所 用于视频中文本区域检测与定位的方法
CN103942550A (zh) * 2014-05-04 2014-07-23 厦门大学 一种基于稀疏编码特征的场景文本识别方法
CN104182722A (zh) * 2013-05-24 2014-12-03 佳能株式会社 文本检测方法和装置以及文本信息提取方法和系统
CN104751153A (zh) * 2013-12-31 2015-07-01 中国科学院深圳先进技术研究院 一种识别场景文字的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013001941A1 (ja) * 2011-06-27 2013-01-03 日本電気株式会社 物体検知装置、物体検知方法および物体検知プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102542268A (zh) * 2011-12-29 2012-07-04 中国科学院自动化研究所 用于视频中文本区域检测与定位的方法
CN104182722A (zh) * 2013-05-24 2014-12-03 佳能株式会社 文本检测方法和装置以及文本信息提取方法和系统
CN104751153A (zh) * 2013-12-31 2015-07-01 中国科学院深圳先进技术研究院 一种识别场景文字的方法及装置
CN103942550A (zh) * 2014-05-04 2014-07-23 厦门大学 一种基于稀疏编码特征的场景文本识别方法

Also Published As

Publication number Publication date
CN105608456A (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
CN105608456B (zh) 一种基于全卷积网络的多方向文本检测方法
CN107423760A (zh) 基于预分割和回归的深度学习目标检测方法
CN108898047B (zh) 基于分块遮挡感知的行人检测方法及系统
CN109508710A (zh) 基于改进YOLOv3网络的无人车夜间环境感知方法
CN103049763B (zh) 一种基于上下文约束的目标识别方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN110348445A (zh) 一种融合空洞卷积和边缘信息的实例分割方法
CN107481264A (zh) 一种自适应尺度的视频目标跟踪方法
CN106529419B (zh) 视频显著性堆栈式聚合的对象自动检测方法
CN106709568A (zh) 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
CN103886325B (zh) 一种分块的循环矩阵视频跟踪方法
CN110232379A (zh) 一种车辆姿态检测方法及系统
CN107103326A (zh) 基于超像素聚类的协同显著性检测方法
CN107689052A (zh) 基于多模型融合和结构化深度特征的视觉目标跟踪方法
CN106557740B (zh) 一种遥感图像中油库目标的识别方法
CN108648211A (zh) 一种基于深度学习的小目标检测方法、装置、设备和介质
CN106897681A (zh) 一种遥感图像对比分析方法及系统
CN104778470A (zh) 基于组件树和霍夫森林的文字检测和识别方法
CN103413149B (zh) 复杂背景中实现静态目标检测和识别的方法
CN107038416A (zh) 一种基于二值图像改进型hog特征的行人检测方法
CN107767416A (zh) 一种低分辨率图像中行人朝向的识别方法
CN108960115A (zh) 基于角点的多方向文本检测方法
CN103871081A (zh) 一种自适应鲁棒在线目标跟踪方法
CN107480585A (zh) 基于dpm算法的目标检测方法
CN109800756A (zh) 一种用于中文历史文献密集文本的文字检测识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant