CN107368826B - 用于文本检测的方法和装置 - Google Patents

用于文本检测的方法和装置 Download PDF

Info

Publication number
CN107368826B
CN107368826B CN201610319516.1A CN201610319516A CN107368826B CN 107368826 B CN107368826 B CN 107368826B CN 201610319516 A CN201610319516 A CN 201610319516A CN 107368826 B CN107368826 B CN 107368826B
Authority
CN
China
Prior art keywords
component
text
components
component connection
connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610319516.1A
Other languages
English (en)
Other versions
CN107368826A (zh
Inventor
马彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to CN201610319516.1A priority Critical patent/CN107368826B/zh
Publication of CN107368826A publication Critical patent/CN107368826A/zh
Application granted granted Critical
Publication of CN107368826B publication Critical patent/CN107368826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种用于文本检测的方法和装置。本发明用于对自然场景图像中的文本区域进行定位。其公开内容涉及文本检测方法和装置、及文本信息提取方法和系统。该用于检测图像中的文本区域的方法包括:根据输入图像生成组件;基于任意两个组件的特征值之间的相似度,生成连接这两个组件的组件连接;根据连接到各组件的组件连接的方向分布,针对由组件连接而连接的各组件确定主方向,作为各组件的主方向;基于组件的主方向与连接组件的组件连接的方向之间的差,将由组件连接而连接的组件分组为至少一个组件组;以及基于至少一个组件组,生成文本区域。与现有技术相比,本发明能够对图像中的文本区域精确定位,并且检测结果可以进一步用于文本识别。

Description

用于文本检测的方法和装置
技术领域
本发明涉及计算机视觉、图像处理并理解,尤其涉及一种多方向文本检测方法和装置。
背景技术
在自然场景图像或视频帧中的文本携带有用于视觉内容理解和检索的重要信息。在图像中,特别是在自然图像或视频帧中提取文本信息或者检测文本,对许多计算机视觉应用(例如,对视觉障碍人士或外国人的计算机化援助、对图像或视频的自动检索以及城市环境中的机器人导航等)来说是至关重要的。不过,在自然场景中的文本检索是一个难题,主要的挑战在于具有不同的字体、大小、倾斜角或失真等的多样化的文本。像不均匀的照度和反射、照明不足条件以及复杂的背景等环境因素增加更多的复杂性。
用于在自然场景中进行文本区域检测的常用方法一般遵循如下的主要步骤:根据图像生成分离的组件,并基于某些规则将组件分组以生成组件组,然后验证组件组以移除非文本组,并通过使用剩余的文本组来恢复文本区域(例如文本行、文字等)。为了更好的性能,利用一组特征对所生成的组件进行过滤,以排除非文本组件。通常,从组件中提取几何特征和纹理特征,并把它们馈送到用于估算组件的文本可能性的分类器。
当对剩余的组件一起分组以生成组件组时,通常是基于不同组件之间的相似度测量或者空间距离。此外,组件分组步骤对于文本检测是必须的也是至关重要的,其中,对于将组件归类为文本部分,组件与其他邻近组件相关是最重要的。所以,确定哪些组件属于同一文本部分是很大的挑战。同时,文本的布局通常保持着复杂的布局,并且在自然场景中一般存在多方向文本,因此,如何正确地对文本组件进行分组,对于文本区域检测性能是至关重要的。
在相关文献中,公开了多种组件分组方法。例如,在公开号为CN103136523A的中国专利申请中,公开了一种自然图像中的任意方向文本行检测方法。该方法首先检测候选文本区域;然后找到候选文本行的三个种子区域(种子组件)并通过候选文本行扩展到行中的所有区域;最后过滤并移除非文本行。另一示例,即专利号为US6798895B1的美国专利,公开了一种字符串提取方法。该方法基于连接组件的延伸的边界框(水平地或垂直地)来处理水平的和垂直的文本行。
此外,《IEEE Transactions on Pattern Analysis and Machine Intelligence》刊登的出版物(X.Yin,W.Pei,X.Yin,J.Zhang,and H.Hao,《Multi-orientation scenetext detection with adaptive clustering》)中,公开了基于文本行的方向的组件分组方法。该方法首先基于组件的特征相似度,在组件之间生成组件连接;然后基于方向聚类分析所有连接的方向,并自动确定文本行的可能方向。因此,该方法在组件分组期间自动检测文本行的方向,而不是假设所有文本行都分布在某一特定方向上。
然而,在文本的布局很复杂的情况下,或者在具有不同方向的多个文本行位于一个局部区域的情况下,上面公开的方法只能检测一个特定方向中的文本,使得在不同文本行内的组件被错误地分组到同一组,并导致错误的检测结果。
术语释义
下面的术语在本文中频繁地出现,并以下面的详细描述来限定:
组件是指字符或噪声的基本元素,通常涉及具有相似的颜色、灰度或笔划宽度并在空间上连接的一组像素。
组件连接是指两个相似组件之间的逻辑连接,并且仅在两个组件之间的组件相似度大于预定义的阈值的情况下生成组件连接。
组件主方向是指能够将连接到组件的所有组件连接的主要分布特征化的方向。
文本组件是指字符的基本元素。
组件组是指具有相似的外观并线性对齐的一组组件,并且根据人的感知应当属于同一文本行。这其中,组件组至少由两个组件构成。
文本组是指由文本组件构成的组件组。
文本区域是指边界框或文本组的四边形,即文本检测的输出。
发明内容
因此,为了提高在图像中、尤其是在自然场景图像中(例如在广告牌、海报及徽标等中)的文本检测的性能,提出了一种新的多方向文本检测方法和装置。根据本发明的一个方面,提供一种文本检测方法,所述文本检测方法包括:组件生成步骤,用于根据所述输入图像生成组件;组件连接生成步骤,用于基于任意两个组件的特征值之间的相似度,生成连接这两个组件的组件连接;组件主方向确定步骤,用于根据连接到各组件的组件连接的方向分布,针对由所述组件连接而连接的各组件确定主方向,作为各组件的主方向;组件分组步骤,用于基于所述组件的主方向与连接所述组件的组件连接的方向之间的差,将由所述组件连接而连接的组件分组为至少一个组件组;以及文本区域生成步骤,用于基于所述至少一个组件组,生成文本区域。
本发明旨在采用组件连接的方向分布来将组件分组为组件组。本发明主要的创新点在于组件分组模块,该组件分组模块包括确定组件主方向,并基于组件连接方向与组件主方向之间的关系移除某些组件连接。
例如在文本的布局很复杂的情况下,具有多方向的多文本行在图像的局部区域内混合在一起。本发明能够对各单文本行的独立区域进行定位,并利用最小四边形来指示其区域。检测结果能够从各种方面进一步利于文本识别处理,例如提供各文本行的位置和方向信息,从而将识别模块从复杂的布局分析预处理中解放出来。
附图说明
图1是示出进行本发明的实施例的计算机系统的硬件构造的框图。
图2是示出文本检测装置的构造的框图。
图3是示出由文本检测装置进行的文本检测的流程图。
图4是示出用于根据本发明的实施例确定组件主方向的方法的流程图。
图5A示出了具有组件连接的组件的例示性示例。
图5B示出了表示在欧氏空间(Euclidean space)中的组件连接的例示性示例。
图5C示出了表示在极坐标空间(Polar space)中的组件连接的例示性示例。
图5D示出了组件连接的方向直方图的例示性示例。
图5E示出了组件连接的加权方向直方图的例示性示例。
图6是示出用于根据本发明的其他实施例确定组件主方向的方法的流程图。
图7A至图7B示出了扫描窗口的例示性示例。
图8A至图8D示出了用于确定使冲突函数最小化的扫描窗口位置的例示性的图。
图9是示出用于根据本发明的实施例移除某些组件连接的方法的流程图。
图10A示出了评估组件连接方向与组件主方向之间的冲突的例示性示例。
图10B示出了组件连接的冲突因子的例示性示例。
图11A至图11E示出了根据冲突因子移除组件连接的例示性示例。
图12A至图12E示出了根据连接移除条件和终止条件用于组件连接移除的迭代处理的例示性示例。
图13是示出根据本发明的实施例的文本信息提取方法的流程图。
图14是示出根据本发明的实施例的文本信息提取系统的框图。
具体实施方式
参照如上所列的附图,这部分描述特殊实施例及其详细构造和操作。请注意,仅通过例示的方式阐明下文中要描述的实施例,但不限于此,因此该些实施例并不限制本发明的范围,并能够在本发明的范围内改为各种形式。本领域技术人员根据本文中的教导能够识别出还存在一系列的本文中描述的实施例的等同例。
图1是示出进行本发明的实施例的计算机系统的硬件构造的框图。
如图1所示,系统至少包括计算机100,计算机100包括CPU 101、RAM 102、ROM 103、系统总线104、输入设备105、输出设备106和驱动器107。在一个实施例中,计算机100可以是图像识别系统。请注意,计算机100可以包括一个或多个计算机,且多个计算机可以独立地实现计算机100的各个功能。
CPU 101根据RAM 102或ROM 103中存储的程序进行整体处理。RAM 102在CPU 101进行诸如本发明的实施例等的各种处理时用作临时存储区域。
输入设备105可以是图像拍摄设备(例如扫描仪、数码照相机等)、或者使用户能够向计算机100发出各种指令的用户输入接口或网络接口。
输出设备106包括输出外围设备接口、显示设备(例如监视器、CRT、液晶显示器或图形控制器等)或打印机,使用户能够输出本发明的文本检测结果。
驱动器107用于对诸如硬盘、存储卡或光盘(例如CD-ROM或DVD ROM)等存储介质进行驱动。例如,用来进行文本检测处理的图像数据或程序存储在存储介质中,并由驱动器107进行驱动。
系统总线104将CPU 101、RAM 102、ROM 103、输入设备105、输出设备106和驱动器107连接。在系统总线104中进行数据通信。这里使用的术语“连接”是指直接或间接通过一个或多个中介进行逻辑或物理连接。
通常,针对本发明的文本检测的输入是各种图像。例如,可以通过诸如数码照相机、数码摄像机、传感器或扫描设备(例如扫描仪或多功能设备)等的图像拍摄设备来获得图像。
图1中所示的系统仅是例示性的,无意将本发明(包括其应用和使用)限于此。例如,当启动用于进行文本检测处理的程序时,CPU 101通过执行诸如图3、图4、图6、图9和图13所例示的本发明公开的所有步骤,从输入设备105获得输入图像,提取组件,确定组件主方向,并生成文本区域。在那之后,CPU 101通过系统总线104将结果发送到输出设备106。结果也可以存储到RAM 102中。针对其他的应用,结果也可以经由网络接口被发送到远程计算机。
此外,可以通过软件、硬件、固件或其任意组合来实现本发明的装置的各个单元、设备、组件或者被构造为进行文本检测的装置集合(例如图2和图14中所示的装置)。
图2是示出文本检测装置的构造的框图。图3是示出由图2中示出的文本检测装置进行的文本检测的流程图。CPU 101利用RAM 102或ROM 103中存储的程序和图像数据来进行本发明的方法。
如图2所示,在此,文本检测装置200可以包括:图像输入单元201、组件生成单元202、组件连接生成单元203、组件主方向确定单元204、组件分组单元205、文本区域生成单元206和文本区域输出单元207。
图像输入单元201被构造为针对文本检测装置200获取由图像拍摄设备208拍摄的自然场景图像,或者获取存储在存储设备(例如硬盘等)中的自然场景图像。
组件生成单元202被构造为根据输入图像生成一组候选文本组件(图3的步骤S301所描述)。
在步骤S301中,组件生成单元202基于文本组件的性质或特征,生成一组候选文本组件。组件通常是具有相似的颜色、灰度或笔划宽度并在空间上连接的一组像素。可以采用几种方法(例如色彩聚类、自适应二值化、形态处理等)来生成组件。根据本发明的示例性实施例,组件由基于最大稳定极值区域(Maximally Stable Extremal Regions,MSER)的灰度图像来生成。
在组件生成之后,为了更好的结果,应用组件过滤,来移除一些明显的非文本组件。组件过滤时常用的特征是组件大小、组件纵横比、组件密度(组件的边界框内部的组件像素的占有比)、组件笔划宽度的统计学特征以及从组件区域提取的纹理特征(例如局部二值模式)等。这些特征可以被用作层级过滤器,或者输入到学习分类器系统。根据本发明的示例性实施例,可以采用支持向量机(Support Vector Machine,SVM)分类器来将文本组件与非文本组件区分开。
组件连接生成单元203被构造为生成连接两个组件的组件连接(图3的步骤S302所描述)。
在步骤S302中,组件连接生成单元203基于两个组件的特征值之间的相似度,从两个组件生成组件连接。在此,组件连接是在两个相似组件之间的逻辑连接,并且基于组件的相似度而生成。一些描述两个组件之间的相似度的外观特征值通常包括距离特征、差特征和比例特征,例如空间距离、灰度差、颜色差、边界对比度差、边界框高度比、宽度比、笔划宽度比等。距离特征的值由组件的中心之间的归一化欧氏距离来计算。差特征的值由差除以最大值的绝对值来计算。比例特征的值由指定性质的最大值除以指定性质的最小值来计算。相似度是差特征的值与比例特征的值的加权和。在本实施例中,将外观特征的权重同等地设置为1.0。还可以基于经验来手动调整权重。例如,如果认为对于描述组件的特征相似度来说,笔划宽度比更重要,则可以增加笔划宽度比的权重。
如果两个组件的相似度大于第一预定义阈值,则生成组件之间的组件连接。在这种情况下,通过组件连接将两个组件连接,这意味着组件连接连接到这两个组件。同时,还可以将两个组件的相似度记录为将这两个组件连接的组件连接的临界性质,并用于子顺序处理。
图5A示出了具有五个组件连接的组件的例示性示例。组件由黑色圆块例示,而基于组件的相似度生成的组件连接由例如五个线段例示。因此,假设有五个组件连接,连接到该组件。也即,组件连接①、组件连接②、组件连接③、组件连接④和组件连接⑤连接到该组件。
组件主方向确定单元204被构造为确定组件主方向(在图3的步骤S303所描述)。根据本发明的实施例,针对各组件,组件主方向确定单元204基于连接到各组件的所有组件连接来确定各组件的主方向。下面参照图4、图5B至图5E来描述用于确定组件主方向的一个实施例。
在生成组件连接之后,组件主方向确定单元204计算包括组件连接的方向、组件连接的长度等的组件连接的属性。
图5B示出了表示在欧氏空间中的组件连接的例示性示例。在此,组件由黑色圆块例示,而基于组件的相似度生成的组件连接由例如五个线段例示。图5C示出了表示在极坐标空间中的五个组件连接的例示性示例。如图5B所示,组件连接②可以由其在欧氏空间中的两个端点(x1,y1)和(x2,y2)的坐标来表示。如果将组件连接②转变到如图5C所示的极坐标空间,则组件连接②可以表示为具有极坐标(o,r)的点。“o”和“r”的物理含义还例示在欧氏空间中,其中“o”表示组件连接②的方向角度,而“r”表示组件连接②的长度。组件主方向确定单元204利用下面的等式,根据(x1,y1)和(x2,y2)来计算“o”和“r”:
Figure BDA0000989577010000081
Figure BDA0000989577010000082
组件连接②的方向的角度还能以弧度来表示,即
Figure BDA0000989577010000083
在此,采用[0,360]范围内的度值作为方向的单位。如图5C所示,组件连接的方向的角度如下:组件连接①是225度,组件连接②是45度,组件连接③是240度,组件连接④是135度,组件连接⑤是340度。
针对一个组件,其主方向是从连接到该组件的组件连接的方向分布获得的主要方向。大体上,组件连接的方向对于确定组件主方向来说,是最重要的性质。同时,组件连接的其他性质(诸如长度和特征相似度等)对于确定组件主方向来说,也能用作补充信息。
现在转向图4,图4是示出在步骤S303中实行的、用于根据本发明的实施例确定组件主方向的方法的流程图。
在步骤S401中,组件主方向确定单元204将组件连接的方向的角度归一化到预定义的范围。基本上,方向的角度是[0,360]度范围内的实数。然而,针对于方向对称,其中一些角度应被认为是相同的。根据本发明的示例性实施例,方向的角度等于0度或180度的组件连接都是水平组件连接。在该实施例中,将组件连接的方向的角度归一化为:θ=360–θ(在θ≧180的情况下),否则θ=θ。在归一化之后,组件连接的方向的角度如下:组件连接①是45度,组件连接②是45度,组件连接③是60度,组件连接④是135度,组件连接⑤是160度。
在步骤S402中,组件主方向确定单元204生成组件连接的方向的归一化的角度的直方图。将方向的归一化的角度的整个范围(即[0,180]度)划分为一系列的小区间,各小区间是直方图柱(histogram bin)。直方图中各柱的宽度由第二预定义阈值来确定。在本实施例中,将柱宽度设置为例如10度。
直方图值(y轴)是方向的归一化的角度属于相应柱的组件连接的数量。
图5D示出了图5A中所示的组件连接的方向直方图的例示性示例。可以看出组件连接①和组件连接②具有相同的方向(45度),二者都属于[40,50)的柱,因而相应的直方图值是这两个组件连接的总数,且等于2。其他三个组件连接(例如组件连接③、组件连接④和组件连接⑤)分别具有不同的方向,因而直方图值分别是1。
在步骤S403中,组件主方向确定单元204找出最高的直方图柱,并将具有最高的直方图柱中的方向角的方向分配为组件主方向。对比具有不同方向角度的所有组件连接的直方图,并找出最高的直方图柱,然后将具有最高的直方图柱中的方向角的方向分配为组件主方向。
如图5D所示,最高的直方图柱是2,且柱的宽度是[40,50)度。这里的组件主方向的角(记为θm)等于最高的直方图柱的宽度的中心(θm=45度),因而分配具有θm=45度的角的方向作为组件主方向,也即,组件主方向与组件连接①和组件连接②的方向相对应。
作为可选实施例,还可以利用组件连接的其他性质来确定组件主方向。这里给出另一实施例,该实施例使用特征相似度来生成组件连接的加权的方向直方图(如图5E所示)。组件连接通过其相似度值进行加权,而不是等同对待各组件连接,因而制成加权的方向直方图,用来生成区分度更高的直方图。
与图5D中的累积组件连接的数量作为直方图值的方向直方图不同的是,加权的方向直方图累积组件连接的特征相似度作为直方图值。
五个组件连接(如图5A所示)的特征相似度值分别是2.5、2.3、1.8、3和1.2。包含组件连接①和组件连接②的直方图柱的直方图值是2.5+2.3=4.8。受益于特征相似度的补充信息,加权的方向直方图(如图5E所示)区分度更高。
可以看出最高的直方图是4.8,但是最低的直方图只有1.2,因此根据步骤S403,分配具有最高的直方图柱中的方向角的方向作为组件主方向。
此外,参照图6至图8D描述用于确定组件主方向的其他实施例。
现在转向图6,图6是示出在步骤S303中实行的、用于根据本发明的其他实施例确定组件主方向的方法的流程图。
在步骤S601中,组件主方向确定单元204定义用于确定组件主方向的扫描窗口(“Ψ”)和冲突函数(“Fc”)。扫描窗口是在方向空间中的滑动窗口,并通过三个形状参数来描述:Ψ=(x,Δ,G),其中,
“x”是扫描窗口的位置。该位置是扫描窗口的中心与零度之间所得的角度。
“Δ”是扫描窗口的宽度。该宽度确定扫描窗口的覆盖范围,在本示例中将宽度设为30度。
“G”是子窗口之间的间隔。考虑到直线的对称性,该间隔通常设为180度。
该扫描窗口是方向空间中的滑动窗口,其特征在于:
1)大量的子窗口;
2)不同的子窗口之间的距离;
3)各子窗口的大小;
4)用来评估扫描窗口内或扫描窗口外部的方向之间的差异的距离函数。
图7A至图7B示出了扫描窗口的例示性示例,其中形状参数“x”、“Δ”和“G”例示在方向空间[0,180]度和[0,360]度中。
然后,取决于扫描窗口位置的冲突函数被定义为:
Figure BDA0000989577010000111
其中,
“x”是扫描窗口的位置。
“θi”是第i个组件连接的方向值。
“wi”是针对各组件连接的加权因子,例如可以一律设为1,或者与步骤S401中计算出的组件连接的特征相似度成比例。
“d(x,θi)”是评估两个方向x和θi之间的差的距离函数。该距离函数可以是下面示例中的一个:
(1)角度值的绝对差:
d(x,θi)=|x-θi|
(2)具有高斯核的欧氏距离:
Figure BDA0000989577010000112
其中,||·||2是矢量的l2-范数。
(3)基于距离函数的三角函数:
d(x,θi)=1-cos(x-θi)
(4)分段函数:
Figure BDA0000989577010000113
在步骤S602中,组件主方向确定单元204确定将冲突函数最小化的扫描窗口位置“x”,并将其分配作为组件主方向。
Figure BDA0000989577010000121
在此,呈现出找到冲突函数的最小值的简单穷举搜索方法。如图8A至图8D所演示,能够在[0,180)度范围内以0.5度的步距滑动扫描窗口来获得一系列的相应Fc(x)值。然后,可以采用通常非最大抑制方法来找到具有Fc(x)的最小冲突函数值的扫描窗口位置“x”。
图8A至图8D示出了用于确定使冲突函数最小化的扫描窗口位置的例示性的图。图8A、图8B和图8C示出了扫描窗口的三个中间状态,在此,组件由黑色圆块例示,而基于组件的相似度生成的组件连接由例如五个线段例示。图8D示出了关于不同的扫描窗口位置(x轴)的冲突函数的值(y轴,FC(x))。在图8D中,箭头(A)、(B)和(C)分别表示图8A、图8B和图8C中例示的状态的相应冲突函数值。从图8D中的示例,可以很容易地发现与(B)相对应的扫描窗口位置x是组件的主方向。
或者,可以采用任意直线搜索优化算法来提高确定Fc(x)最小值的效率。在一些特殊情况下,如果Fc(x)是凸函数,可以通过求解F'c(x)=0的函数来直接计算出组件主方向,其中F'c(x)表示Fc(x)的导数。
在步骤S603中,组件主方向确定单元204分配具有最小冲突函数值
Figure BDA0000989577010000122
的扫描窗口的位置作为组件主方向(记为θm),即
Figure BDA0000989577010000123
如上所述,为了在步骤S303中确定组件主方向,本发明提供了两种实施例。请注意,仅通过例示的方式阐述下文中要描述的实施例,但不限于此,因此该些实施例并不限制本发明的范围,并能够在本发明的范围内改为各种形式。本领域技术人员根据本文中的教导能够识别出还存在一系列的本文中描述的实施例的等同例。
组件分组单元205被构造为在组件连接方向与组件主方向之间的差小于第三预定义阈值的情况下,基于组件的主方向与连接组件的组件连接的方向之间的差,对组件进行分组(图3的步骤S304所描述)。
在步骤S304中,组件分组单元205基于组件连接的特征相似度或者组件连接方向与组件主方向之间的关系,对候选组件进行分组。
参照图9至图12E所描述,为了取得更好的结果,在对组件分组之前,本发明提供用于移除某些方向与组件主方向不同的组件连接,以得到剩余的组件连接,然后针对通过剩余的组件连接而连接的各组件,重新确定主方向。
现在转向图9,图9是示出在步骤S303中实行的、用于根据本发明的实施例移除某些组件连接的方法的流程图。
在步骤S901中,组件主方向确定单元204评估组件连接方向与组件主方向之间的冲突。针对各组件连接,分析各组件连接方向之间的关系以及通过该组件连接而连接的两个组件的主方向。在组件连接方向与组件主方向之间的差小于第三预定义阈值的情况下,组件连接方向与组件主方向相一致;否则,组件连接方向与组件主方向相冲突。
例如,图10A示出了评估组件连接方向与组件主方向之间的冲突的例示性示例。如图10A所示,组件由黑色圆块例示,而基于组件的特征相似度生成的组件连接由例如五个线段例示。箭头方向表示组件主方向,而第三预定义阈值例如设为15度。由于组件连接方向与组件主方向之间的差小于第三预定义阈值,因而组件连接①、组件连接②和组件连接③与组件主方向相一致;但是由于组件连接方向与组件主方向之间的差大于第三预定义阈值,因而组件连接④和组件连接⑤与组件主方向相冲突。
针对各组件连接,冲突因子(“CF”)定义如下:
CF=ΣwcsNcs+ΣwcfNcf
其中,Ncs,Ncf∈{0,1,2},“Ncs”,是当前的组件连接与组件主方向相一致的组件的数量;“Ncf”是当前的组件连接与组件主方向相冲突的组件的数量。如果令“Ntbd”表示主方向不能通过主方向计算步骤来确定的组件的数量,由于每个连接总是与两个组件连接,因而针对各组件连接存在Ncs+Ncf+Ntbd≡2。
wcs,wcf∈R是针对一致数量Ncs和冲突数量Ncf的相应的加权因子。基本上,为了更加强调对冲突的罚函数,优选wcs≤wcf。在本实施例中,设wcs=-1.0,wcf=2.0。图10B中示出一些用于计算组件的“CF”的示例。
图10B示出了组件连接的冲突因子的例示性示例。组件由黑色圆块例示,而基于组件的特征相似度生成的组件连接由线段例示;箭头方向表示组件主方向。对于第一示例,NCS=0,NCf=2,则冲突因子CF=(-1.0)×0+2.0×2=4.0。对于第二示例,NCS=1,NCf=1,则CF=(-1.0)×1+2.0×1=1.0。对于第三示例,没有确定的组件主方向,则NCS=0,NCf=0,则CF=0。
在步骤S902中,组件主方向确定单元204移除满足移除条件的候选组件连接。基于某些预定义移除条件来移除候选组件连接。在此,可以基于组件连接的“CF”来定义移除条件:
1)在“CF”值大于第四预定义阈值的情况下,移除组件连接,或者
2)在组件连接具有所有组件连接中的最大的“CF”值的情况下,移除组件连接。
图11A至图11E示出了根据冲突因子移除组件连接的例示性示例。
图11A示出了最初组件连接和相应的图。在此,通过虚线来例示具有高冲突因子的组件连接。
图11B示出了三个“CF”值,CF=-1.0,CF=2.0,CF=4.0。具有高“CF”的组件连接应当以高优先级来处理,因此,首先,移除具有最高“CF”值(CF=4.0)的组件连接。当移除了具有最高“CF”值的组件连接时,重新计算与该组件连接连接的两个组件的主方向,并重新计算连接到这两个组件的组件连接的“CF”值。
如图11C所示,由于对组件连接(CF=4.0)的移除并没有改变与该组件连接连接的两个组件的主方向,则对连接到这两个组件的连接的“CF”值没有影响。因此,图11C示出了具有CF=-1.0和CF=2.0的“CF”值的剩余两个组件连接。在“CF”值仍大于第四预定义阈值的情况下,移除具有更高“CF”值(CF=2.0)的组件连接。
当移除了具有更高“CF”值的组件连接时,冲突可能不再存在。例如,如图11D所示,在移除了具有CF=2.0的冲突组件连接之后,重新计算两个组件的主方向,并重新计算连接到这两个组件的组件连接的“CF”值。在此之后,CF=-1.0的当前组件连接的冲突因子的“CF”值降到-2.0(CF=-2),并转变为针对与该组件连接相连接的两个组件都一致的组件连接。图11E示出了最终剩余的组件连接。
在步骤S903中,组件主方向确定单元204判断是否满足终止条件。在该决定步骤中,核实某些预定义终止条件,以确定是否结束连接移除或从步骤S901开始重新执行。一些终止条件可以定义为:
1)任意一个组件连接的“CF”小于第五预定义阈值;
2)基于步骤S902中定义的移除条件,无法再移除组件连接;或者
3)达到最大迭代次数。
图12A至图12E示出了根据连接移除条件和终止条件用于组件连接移除的迭代处理的例示性示例。在此,例如移除条件是移除具有最高“CF”值的组件连接,而终止条件是确定了所有组件的主方向且没有冲突组件连接。
如图12A所示,在图像中的两个组件之间生成最初组件连接。
如图12B所示,在第一迭代中,最高CF=4,因而在图12B中以虚线例示的具有CF=4的组件连接需要被移除。
如图12C所示,在第二迭代中,最高CF=2,因而在图12C中以虚线例示的具有CF=2的组件连接仍需要被移除。
如图12D所示,在第三迭代中,最高CF=0,且仅有一个具有CF=0的组件连接需要被移除,该组件连接是图12D中的字符“高”的两个“口”之间的组件连接。在第三迭代之后,满足了终止条件,因而组件连接移除步骤在三次迭代之后终止。
图12E示出了最终剩余的组件连接。
此后,组件分组单元205基于剩余的组件连接对组件进行分组。
至于作为图的顶点集V的所有组件和作为相同图的边集E的所有组件连接:G=<V,E>。本步骤的任务是提取图G的连接的组件以形成单独的组件组。可以使用图形理论中通用的拓扑分析方法来实现。在此,采用普里姆算法(Prim’s algorithm)来提取图G的N个最小生成树(MST):G1=<V1,E1>,G2=<V2,E2>,…GN=<VN,EN>。最后,这些子图的顶点集V1、V2、…VN构成N个分组的组件组。
通常来说,应该进行旨在移除从非文本组件生成的噪声组的组过滤操作,来提高文本检测性能。在本实施例中,首先提取组件组中组件的大小、颜色和笔划宽度等方面的方差作为组级别特征。然后,基于前述的组级别特征,采用SVM分类器来将文本组和非文本组区分开。在最终结果中仅保留文本组,并传到用于生成文本区域的下一步骤。
文本区域生成单元206被构造为基于剩余的文本组来生成文本区域(图3的步骤S305中所描述)。
在步骤S305中,文本区域生成单元206将剩余的组件组转换为文本区域。通常基于组中的组件的矩形、以及组的字符串行,来生成文本区域。本步骤的一个示例性的实施如下所示:
首先,由组中的所有组件的中心的最小二乘回归来获得字符串行。
然后,通过字符串行的平行位移来确定上边界线以覆盖组中的组件的最上点。并以相似的方式确定下边界线。
最后,通过组中的最左组件和最右组件的矩形来确定左边界线和右边界线。
文本区域输出单元207被构造为向输出设备106(例如图像识别设备)输出文本区域的结果,以进一步进行图像处理,例如信息提取或识别。
图13示出了根据本发明的实施例的文本信息提取方法。
本发明能够在从照相机所抓取的图像或视频对文本信息自动提取时使用。如图13所示,在块1301中,使用根据参照图3至图12E所描述的文本检测方法的文本检测方法,而从输入图像或输入视频检测文本区域。
在块1302中,文本能够从所检测的文本区域中提取出来。或者,当从输入视频检测到文本区域时,可以跟踪输入视频中的文本(如块1304中所示)。
在块1303中,可以对所提取的文本进行文本识别,以获得文本信息。
图14是示出根据本发明的实施例的文本信息提取系统的框图。
现在将参照图14例示根据本发明的实施例的文本信息提取系统1400的框图。系统1400可以用来实施参照图13描述的方法。
如图14所示,系统1400可以包括文本检测装置1401、提取装置1402和识别装置1403。
文本检测装置1401可以被构造为检测来自输入图像或输入视频的文本区域。该文本检测装置可以与图2所描述的文本检测装置200相同。
提取装置1402可以被构造为从所检测的文本区域提取文本。
识别装置1403可以被构造为识别所提取的文本,以获得文本信息。
或者,系统1400还可以包括跟踪装置1404。在文本检测装置1401被构造为检测来自输入视频的文本区域的情况下,跟踪装置1404可以被构造为跟踪输入视频中的文本。
应当理解上述关于图2和图14的单元和装置都是示例性的和/或用于实施各种步骤的优选模块。这些模块可以是硬件单元(例如处理器、专用集成电路等)和/或软件模块(例如计算机程序)。上面没有穷举用于实施各步骤的模块。然而,如果存在进行某一处理的步骤,则能够存在相应的用于实施相同步骤的功能模块或单元(由硬件和/或软件实施)。本申请公开的内容中涵盖上述步骤和对应于这些步骤的单元的所有组合而成的技术方案,只要这些技术方案是完整的且可应用的即可。

Claims (19)

1.一种文本检测方法,其用于检测输入图像中的文本区域,所述文本检测方法包括:
组件生成步骤,用于根据所述输入图像生成组件;
组件连接生成步骤,用于基于任意两个组件的特征值之间的相似度,生成连接这两个组件的组件连接;
组件主方向确定步骤,用于根据连接到各组件的组件连接的方向分布,针对由所述组件连接而连接的各组件确定主方向,作为各组件的主方向;
组件分组步骤,用于基于所述组件的主方向与连接所述组件的组件连接的方向之间的差,将由所述组件连接而连接的组件分组为至少一个组件组;以及
文本区域生成步骤,用于基于所述至少一个组件组,生成文本区域;
其中,基于组件连接的方向分布的方向直方图,所述组件主方向确定步骤还包括:
将组件连接的方向的角度归一化到预定义的范围;
生成组件连接的方向的归一化角度的直方图;以及
将具有最高直方图柱中的方向角的方向分配为组件主方向。
2.根据权利要求1所述的文本检测方法,其中所述组件主方向确定步骤还包括:
移除步骤,用于基于至少一个组件连接的方向与由所述至少一个组件连接而连接的组件的主方向之间的差,移除所述至少一个组件连接;
重新确定步骤,用于针对由剩余的组件连接而连接的各组件重新确定主方向。
3.根据权利要求1或2所述的文本检测方法,其中,所述组件连接生成步骤还包括基于所述两个组件之间的空间距离来生成所述组件连接。
4.根据权利要求1所述的文本检测方法,其中,基于组件连接的特征,对组件连接的方向的角度进行加权。
5.根据权利要求1或2所述的文本检测方法,其中,所述组件主方向确定步骤基于扫描窗口,所述组件主方向确定步骤还包括:
定义组件连接的扫描窗口和冲突函数;
确定使组件连接的所述冲突函数最小化的所述扫描窗口的位置;以及
将具有最小冲突函数值的扫描窗口的位置分配为组件主方向。
6.根据权利要求5所述的文本检测方法,其中,所述扫描窗口是在方向空间中的滑动窗口,并通过下述形状参数中的至少一个来描述:
1)子窗口的数量;
2)不同子窗口之间的距离;
3)各子窗口的大小;
4)用来评估所述扫描窗口内或所述扫描窗口外部的方向之间的差的距离函数。
7.根据权利要求2所述的文本检测方法,其中,所述移除步骤还包括:
评估组件连接方向与组件主方向之间的冲突;以及
移除满足移除条件的组件连接。
8.根据权利要求7所述的文本检测方法,所述文本检测方法还包括基于各组件连接的方向和组件主方向,针对各组件连接计算冲突因子。
9.根据权利要求8所述的文本检测方法,其中,所述移除条件是下述条件中的至少一个:
1)所述冲突因子大于预定义阈值;
2)组件连接的所述冲突因子是所有组件连接的冲突因子中最大的。
10.根据权利要求8所述的文本检测方法,所述文本检测方法还包括判断是否终止组件连接移除,其中,终止条件是下述条件中的至少一个:
1)基于所述移除条件,没有移除组件连接;
2)所有组件连接的所述冲突因子都小于预定义阈值;
3)算法达到预定义迭代次数。
11.一种文本检测装置,其用于检测输入图像中的文本区域,所述文本检测装置包括:
组件生成单元,其被构造为根据所述输入图像生成组件;
组件连接生成单元,其被构造为基于任意两个组件的特征值之间的相似度,生成连接这两个组件的组件连接;
组件主方向确定单元,其被构造为根据连接到各组件的组件连接的方向分布,针对由所述组件连接而连接的各组件确定主方向,作为各组件的主方向;
组件分组单元,其被构造为基于所述组件的主方向与连接所述组件的组件连接的方向之间的差,将由所述组件连接而连接的组件分组为至少一个组件组;以及
文本区域生成单元,其被构造为基于所述至少一个组件组,生成文本区域;
其中,基于组件连接的方向分布的方向直方图,所述组件主方向确定单元还用于:
将组件连接的方向的角度归一化到预定义的范围;
生成组件连接的方向的归一化角度的直方图;以及
将具有最高直方图柱中的方向角的方向分配为组件主方向。
12.根据权利要求11所述的文本检测装置,其中,所述组件主方向确定单元还用于:
基于至少一个组件连接的方向与由所述至少一个组件连接而连接的组件的主方向之间的差,移除所述至少一个组件连接;
对由剩余的组件连接而连接的各组件重新确定主方向。
13.根据权利要求11或12所述的文本检测装置,其中,所述组件连接生成单元还用于基于所述两个组件之间的空间距离来生成所述组件连接。
14.根据权利要求11或12所述的文本检测装置,其中,所述组件主方向确定单元基于扫描窗口,所述组件主方向确定单元还用于:
定义组件连接的扫描窗口和冲突函数;
确定使组件连接的所述冲突函数最小化的所述扫描窗口的位置;以及
将具有最小冲突函数值的扫描窗口的位置分配为组件主方向。
15.根据权利要求12所述的文本检测装置,其中,用于移除组件连接的所述组件主方向确定单元还用于:
评估组件连接方向与组件主方向之间的冲突;以及
移除满足移除条件的组件连接。
16.一种文本信息提取方法,所述文本信息提取方法包括:
使用根据权利要求1-10中任一项的所述文本检测方法,从输入图像或输入视频检测文本区域;
从所检测的文本区域提取文本;以及
识别所提取的文本来获得文本信息。
17.根据权利要求16所述的文本信息提取方法,所述文本信息提取方法还包括:
使用根据权利要求1-10中任一项的所述文本检测方法,在从所述输入视频检测到文本区域的情况下,跟踪所述输入视频中的文本。
18.一种文本信息提取系统,所述文本信息提取系统包括:
文本检测装置,其被构造为从输入图像或输入视频检测文本区域,所述文本检测装置包括:
组件连接生成单元,其被构造为基于任意两个组件的特征值之间的相似度,生成连接这两个组件的组件连接;
组件主方向确定单元,其被构造为根据连接到各组件的组件连接的方向分布,针对由所述组件连接而连接的各组件确定主方向,作为各组件的主方向;组件分组单元,其被构造为基于所述组件的主方向与连接所述组件的所述组件连接的方向之间的差,将由所述组件连接而连接的所述组件分组为至少一个组件组;以及
文本区域生成单元,其被构造为基于所述至少一个组件组,生成文本区域,
其中,基于组件连接的方向分布的方向直方图,所述组件主方向确定单元还用于:
将组件连接的方向的角度归一化到预定义的范围;
生成组件连接的方向的归一化角度的直方图;以及
将具有最高直方图柱中的方向角的方向分配为组件主方向;
提取装置,其被构造为从所检测的文本区域提取文本;以及
识别装置,其被构造为识别所提取的文本来获得文本信息。
19.根据权利要求18所述的文本信息提取系统,其中,在所述文本检测装置被构造为从所述输入视频检测文本区域的情况下,所述文本信息提取系统还包括跟踪装置,所述跟踪装置被构造为跟踪所述输入视频中的文本。
CN201610319516.1A 2016-05-13 2016-05-13 用于文本检测的方法和装置 Active CN107368826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610319516.1A CN107368826B (zh) 2016-05-13 2016-05-13 用于文本检测的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610319516.1A CN107368826B (zh) 2016-05-13 2016-05-13 用于文本检测的方法和装置

Publications (2)

Publication Number Publication Date
CN107368826A CN107368826A (zh) 2017-11-21
CN107368826B true CN107368826B (zh) 2022-05-31

Family

ID=60304135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610319516.1A Active CN107368826B (zh) 2016-05-13 2016-05-13 用于文本检测的方法和装置

Country Status (1)

Country Link
CN (1) CN107368826B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368830B (zh) * 2016-05-13 2021-11-09 佳能株式会社 文本检测方法和装置以及文本识别系统
CN108875744B (zh) * 2018-03-05 2022-03-04 南京理工大学 基于矩形框坐标变换的多方向文本行检测方法
CN108596181B (zh) * 2018-04-16 2022-02-25 腾讯科技(深圳)有限公司 文本识别方法、系统、机器设备和计算可读存储介质
CN108717543B (zh) * 2018-05-14 2022-01-14 北京市商汤科技开发有限公司 一种发票识别方法及装置、计算机存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682091A (zh) * 2012-04-25 2012-09-19 腾讯科技(深圳)有限公司 基于云服务的视觉搜索方法和系统
US8606011B1 (en) * 2012-06-07 2013-12-10 Amazon Technologies, Inc. Adaptive thresholding for image recognition
CN103136523B (zh) * 2012-11-29 2016-06-29 浙江大学 一种自然图像中任意方向文本行检测方法
CN103077389B (zh) * 2013-01-07 2016-08-03 华中科技大学 一种结合字符级分类和字符串级分类的文本检测和识别方法
CN104182722B (zh) * 2013-05-24 2018-05-18 佳能株式会社 文本检测方法和装置以及文本信息提取方法和系统
CN104182744B (zh) * 2013-05-24 2018-09-04 佳能株式会社 文本检测方法和装置以及文本信息提取方法和系统
CN107368830B (zh) * 2016-05-13 2021-11-09 佳能株式会社 文本检测方法和装置以及文本识别系统

Also Published As

Publication number Publication date
CN107368826A (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
Ye et al. Text detection and recognition in imagery: A survey
US9224070B1 (en) System for three-dimensional object recognition and foreground extraction
US9646202B2 (en) Image processing system for cluttered scenes and method of operation thereof
Yao et al. Detecting texts of arbitrary orientations in natural images
Namboodiri et al. Document structure and layout analysis
US8644616B2 (en) Character recognition
US9076056B2 (en) Text detection in natural images
CN107368826B (zh) 用于文本检测的方法和装置
JP2003515230A (ja) ビデオストリームの分類可能な記号の分離方法及びシステム
WO2014160426A1 (en) Classifying objects in digital images captured using mobile devices
CN108154151B (zh) 一种快速多方向文本行检测方法
Bataineh et al. A novel statistical feature extraction method for textual images: Optical font recognition
US20140270479A1 (en) Systems and methods for parameter estimation of images
Abedin et al. Traffic sign recognition using surf: Speeded up robust feature descriptor and artificial neural network classifier
Gilly et al. A survey on license plate recognition systems
Faustina Joan et al. A survey on text information extraction from born-digital and scene text images
Feild et al. Scene text recognition with bilateral regression
Song et al. Text region extraction and text segmentation on camera-captured document style images
JP6377214B2 (ja) テキスト検出方法および装置
Liu et al. Effectively localize text in natural scene images
Huang et al. Text extraction in natural scenes using region-based method
Höhn Detecting arbitrarily oriented text labels in early maps
Ismail et al. Detection and recognition via adaptive binarization and fuzzy clustering
El Bahi et al. Document text detection in video frames acquired by a smartphone based on line segment detector and dbscan clustering
JPH10261047A (ja) 文字認識装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant