CN105303156B

CN105303156B - 字符检测装置、方法及程序

Info

Publication number: CN105303156B
Application number: CN201510341213.5A
Authority: CN
Inventors: 登内洋次郎; 铃木薰
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-06-19
Filing date: 2015-06-18
Publication date: 2020-04-21
Anticipated expiration: 2035-06-18
Also published as: US10339657B2; JP2016004553A; US20150371399A1; CN105303156A; JP6352695B2

Abstract

能够提高字符串的检测精度及再现性。有关本实施方式的字符检测装置包括特征提取部、决定部及合并部。提取部提取包含1以上的字符串的图像的特征量。决定部对于不同的多个字符检测方式，分别决定与对于具有与上述特征量对应的特征的图像区域的字符检测精度对应的优先级。合并部将作为分别使用上述多个字符检测方式检测上述字符串的结果、包含该字符串的区域的候选的各个字符检测方式的字符行候选合并，在表示在该字符行候选间重叠的区域的比例的重叠度是第1阈值以上的情况下，选择通过上述优先级最高的字符检测方式检测出的字符行候选作为字符行。

Description

字符检测装置、方法及程序

技术领域

本发明涉及字符检测装置、方法及程序

背景技术

通过智能电话、可穿戴设备的普及，有将存在于招牌、标识及餐厅的菜单等实际空间中的字符串用照相机摄影、想要根据摄影的图像检测字符串的要求。由照相机摄影的图像通过向字符部分照射的照明的条件及影子的影响，字符串的观看方式各种各样地变化。作为根据这样的图像检测字符串的方法，例如有使用将图像中的像素连结的连结成分的方法、及使用基于机械学习的检测器的方法。

专利文献

专利文献1：特开2005－309771号公报

专利文献2：特开2006－268825号公报

专利文献3：特许第4901676号说明书

非专利文献

非专利文献1：J.Lee，P.Lee，S.Lee，A.Yuille，and C.Koch.Adaboost for textdetection.In Proceedings of International Conferenceon Document Analysis andRecognition，pp.429－434，2011.

但是，使用连结成分的方法如果不能正确地检测连结成分则不能检测字符串。由此，例如在字符与背景的一部分为同系色的情况下、或因背景反射或影子而字符色较大地变化的情况下，有不能正确地检测连结成分而不能检测出字符串的情况。此外，在使用基于机械学习的检测器的情况下，是否能够检测到字符串依存于学习数据，所以在特殊的徽标、笔记体、装饰字符等与学习时的数据较大地不同的情况下，不能检测这些字符串。

发明内容

发明的概要

发明要解决的课题

本公开是为了解决上述课题而做出的，目的是提供一种能够提高字符串的检测精度及再现性的字符检测装置、方法及程序。

解决课题的手段

有关本实施方式的字符检测装置包括特征提取部、决定部及合并部。提取部提取包含1个以上的字符串的图像的特征量。决定部对于不同的多个字符检测方式，分别决定与对于具有与上述特征量对应的特征的图像区域的字符检测精度对应的优先级。合并部将作为分别使用上述多个字符检测方式检测上述字符串的结果、即包含该字符串的区域的候选的各个字符检测方式的字符行候选合并，在表示在该字符行候选间重叠的区域的比例的重叠度是第1阈值以上的情况下，选择通过上述优先级最高的字符检测方式检测出的字符行候选作为字符行。

附图说明

图1是表示有关本实施方式的字符检测装置的块图。

图2是表示字符候选区域检测部的检测处理的图。

图3是表示字符候选区域检测部的检测处理的检测结果的图。

图4是表示第2字符行生成部的字符行生成处理的图。

图5是说明优先级决定部的一致度的计算方法的图。

图6是表示字符检测方式与特征量的对应的一例的图。

图7是说明字符行的长度与宽度的概念的图。

图8是表示合并部的合并处理的流程图。

图9是表示合并部的合并处理结果的一例的图。

图10是表示合并部的合并处理结果的另一例的图。

图11是表示字符检测装置的检测精度的评价结果的曲线图。

具体实施方式

以下，参照附图对有关本实施方式的字符检测装置、方法及程序详细地说明。另外，在以下的实施方式中，带有相同的标号的部分进行同样的动作，将重复的说明适当省略。

参照图1的块图对有关本实施方式的字符检测装置进行说明。

有关本实施方式的字符检测装置100包括图像取得部101、第1字符行检测部102(第1检测部)、第2字符行检测部103(第2检测部)、特征提取部104、优先级决定部105及合并部106。第1字符行检测部102包括连结成分提取部107及第1字符行生成部108，第2字符行检测部103包括字符候选区域检测部109及第2字符行生成部110。

图像取得部101取得包含1个以上的字符串的图像。图像在这里设想了将存在于招牌、标识及餐厅的菜单等实际空间中的字符串用照相机摄影的图像，但只要是包含至少1个字符串的图像就可以。

第1字符行检测部102从图像取得部101获取图像，使用作为用来检测字符串的方式的第1字符检测方式检测1个以上的字符行候选(也称作第1字符行候选)。字符行候选在本实施方式中是包含字符串的区域的候选，例如是用矩形、梯形或其他四边形、或者闭多边形表示的区域。用矩形、梯形或其他四边形表示的字符行候选通过表示区域那样的坐标值、起点及终点的坐标值、字符串的中央线和宽度等表示。另外，在本实施方式中，设想了字符串为横向书写的情况，但也可以是纵向书写，字符行也只要为匹配于字符串的方向而在纵向上较长的区域就可以。

第2字符行检测部103从图像取得部101获取图像，使用作为与第1 字符检测方式不同的方式的第2字符检测方式，检测1个以上的字符行候选(也称作第2字符行候选)。另外，由于对相同的图像检测第1字符行候选及第2字符行候选，所以坐标系相同，以相同的字符串为对象，检测第1 字符行候选及第2字符行候选。

特征提取部104分别从第1字符行检测部102获取第1字符行候选，从第2字符行检测部103获取第2字符行候选，提取图像的特征量。作为图像的特征量，例如只要提取亮度值及字符行的长度就可以。

优先级决定部105从特征提取部104获取图像的特征量，根据对于具有与特征量对应的特征的图像中的区域(也称作图像区域)的字符检测精度，决定表示以第1字符检测方式及第2字符检测方式的哪个为优先的优先级。关于优先级的决定方法参照图5后述。

合并部106分别从第1字符行检测部102获取第1字符行候选、从第2 字符行检测部103获取第2字符行候选、从优先级决定部105获取优先级。合并部106根据表示第1字符行候选及第2字符行候选重叠的区域的比例的重叠度、图像的特征量及优先级，选择第1字符行候选及第2字符行候选进行合并，生成字符行。关于合并部106的具体的处理参照图8后述。

接着，对第1字符行检测部102具体地说明。

连结成分提取部107从图像取得部101获取图像，在图像中的像素中的相邻的像素间，将像素的色信息等特征类似的像素彼此连结，生成1个以上的连结成分。这里，将图像中的像素用白及黑二值化，在二值化的像素中的为黑的像素相邻两个以上连续的情况下，生成连续的像素的集合作为连结成分。

第1字符行生成部108从连结成分提取部107获取连结成分，根据连结成分间的位置关系和连结成分的类似度，将排列在大致相同直线上的连结成分组合，生成第1字符行候选。具体而言，按照连结成分生成特征向量，将两个连结成分间的位置关系和特征的类似度用特征向量的距离定义。如果特征向量的距离未满阈值，则两个连结成分类似，可以认为在相同直线上排列，所以将两个连结成分连接。作为特征向量的各要素，例如可以举出表示连结成分的中心点的x坐标及y坐标、各连结成分的平均色、连结成分的尺寸(高度、宽度、周围的长度等)。另外，所谓中心点，例如只要是相对于连结成分外接的四边形的中央点就可以。此外，也可以使用在 Neumann L.，Matas J.：Text Localization in Real－world Imagesusing Efficiently Pruned Exhaustive Search，ICDAR 2011(Beijing，China)“C.Exhaustive search”中公开的方法生成字符行候选。将以上的第1字符行生成部108的处理称作使用连结成分的行检测(CC行检测)。

接着，对第2字符行检测部103具体地说明。

字符候选区域检测部109从图像取得部101获取图像，预先学习了字符的图像数据，检测具有特定的形状的图像区域，生成字符候选区域。关于图像数据的学习，只要进行通常的学习处理就可以，所以这里的说明省略。

第2字符行生成部110从字符候选区域检测部109获取字符候选区域，将相同尺寸的字符候选区域大致在相同直线上排列的连结成分组合，生成第2字符行候选。这里，第2字符行生成部110中的处理设想为使用字符候选区域的行检测。

接着，对字符候选区域检测部109的检测处理参照图2及图3进行说明。

作为字符候选区域提取处理的一例，如图2所示，对图像201整体使用各种各样尺寸的窗口202进行扫描，在图像201中提取被推测为字符的字符候选区域。通过将窗口202的尺寸变更，对于各种各样的大小的字符都能够作为字符候选区域检测。即，关于用某个尺寸的窗口202时从区域伸出那样的字符，通过使窗口202的尺寸变大也包含在窗口202的区域内，能够检测为字符候选区域。

在图3中表示用图2所示的方法将字符候选区域提取的结果。如图3 所示，能够对图像201中的字符提取字符候选区域301。

接着，参照图4对第2字符行生成部110的字符行生成处理进行说明。

图4表示使用霍夫(Hough)变换的行检测(霍夫行检测)的概念。作为表示图像的图像平面401，设想纵轴为x、横轴为y的坐标平面。将图像平面401中的字符候选区域402向投票空间403投票。投票空间403是纵轴为ρ、横轴为θ、具有关于字符候选区域402的尺寸的s的表示3维的参数的空间。如图4所示，在字符候选区域402的尺寸较小的情况下，将字符候选区域402向s较小的投票空间投票，在字符候选区域402的尺寸较大的情况下，将字符候选区域402向s较大的投票空间投票。在各投票空间中生成以作为最大的投票数的坐标值为直线参数的第2字符行候选。

接着，参照图5对优先级决定部105的优先级决定处理进行说明。

预先准备能够掌握字符行的位置的学习用的图像(以下称作学习用图像)，对于学习用图像，第1字符行检测部102通过第1字符检测方式生成第1字符行候选，第2字符行检测部103通过第2字符检测方式生成第2 字符行候选。另外，只要是相同的字符检测方式，也可以是第1字符行检测部102及第2字符行检测部103不进行处理，而使用预先以第1字符检测方式及第2字符检测方式处理的第1字符行候选及第2字符行候选。

优先级决定部105计算第1字符行候选与预先能够掌握字符串的位置的字符行(以下称作基准字符行)的一致度。同样，优先级决定部105计算第2字符行候选与基准字符行的一致度。将对第1字符行候选计算的一致度与对第2字符行候选计算的一致度比较，将一致度较高者作为字符检测精度较高的方式，将优先级设定得比其他方式高。

一致度只要使用将字符行候选与基准字符行重叠的区域的面积用字符行候选和基准字符行的整体的面积除的值就可以，例如可以通过以下的式 (1)计算。

一致度＝S(s1∩s2)/S(s1∪s2)···(1)

这里，S()是面积，s1是基准字符行，s2是第1字符行候选或第2 字符行候选，∩是交集，∪是并集。

在图5的例子中，例如如果设想将基准字符行501与第1字符行候选 502比较的情况，则对于用虚线包围的表示基准字符行501及第1字符行候选502整体的面积的区域503，用斜线表示的区域504越大，一致度越高。

此外，例如在特征提取部104中，计算用于优先级决定的学习用图像中的基准字符行的区域的特征量，优先级决定部105将特征量与优先级建立对应。由此，只要根据作为处理对象的图像的特征量，参照对应于与基准字符行的区域的特征量一致或类似的特征量的优先级，就能够掌握以第1 字符检测方式及第2字符检测方式的哪个为优先。

参照图6，对字符检测方式与特征量的对应建立的一例进行说明。

图6表示对于条件601的、第1字符检测方式602及第2字符检测方式603的各自的检测结果。条件601是关于特征量的条件，在这里设想亮度差。

例如，条件601“亮度变化小的情况”，例如是背景和字符串为同色的情况，有第1字符检测方式602比第2字符检测方式603检测精度高的趋势。另一方面，条件601“亮度变化大的情况”，是字符串为例如中空字符的情况，有第2字符检测方式603比第1字符检测方式602检测精度高的趋势。

由此，在对作为处理对象的图像决定字符检测方式的优先级的情况下，作为特征量，计算由第1字符检测方式602生成的第1字符行候选及由第2 字符检测方式603生成的第2字符行候选的各自的区域的亮度分布。在亮度分布的分散是阈值以上的情况下，符合条件601“亮度变化大的情况”，将第2字符检测方式603的优先级设定得高。另一方面，在亮度分布的分散未满阈值的情况下，认为符合条件601“亮度变化小的情况”，只要将第 1字符检测方式602的优先级设定得高就可以。另外，也可以代替计算第1 字符行候选及第2字符行候选各自的区域的亮度，而计算图像整体的亮度，参照图像整体的亮度。在此情况下，只要特征提取部104从图像取得部101 获取图像并计算图像整体的亮度、在决定优先级时使用就可以。

进而，作为关于特征量的条件，也可以使用字符行候选的长度、宽度及面积。

在图7中表示字符行候选的长度和宽度的概念。字符串的长度701越长，第2字符检测方式与第1字符检测方式相比检测精度越高。由此，例如作为特征量，计算通过第1字符检测方式生成的第1字符行候选与通过第2字符检测方式生成的第2字符行候选的平均的长度。只要在平均的长度是阈值以上的情况下将第2字符检测方式的优先级设定得较高、在平均的长度未满阈值的情况下将第1字符检测方式的优先级设定得较高就可以。

接着，参照图8的流程图对合并部106中的合并处理进行说明。

在步骤S801中，判定第1字符行候选与第2字符行候选的重叠度是否是阈值以上。重叠度只要与优先级决定部105中的第1字符行候选和基准字符行的一致度或第2字符行候选和基准字符行的一致度的计算方法同样地计算就可以，只要使用将第1字符行候选与第2字符行候选重叠的区域的面积用第1字符行候选及第2字符行候选的整体的面积除的值就可以。在重叠度是阈值以上的情况下向步骤S802前进，在重叠度未满阈值的情况下向步骤S803前进。

在步骤S802中，选择通过优先级较高的字符检测方式生成的字符行候选作为字符行。

在步骤S803中，判定是否存在内包的区域、即是否存在内包关系。内包关系的判定在这里判定是否在第1字符行候选中内包第2字符行候选、或者在第2字符行候选中内包第1字符行候选。只要如果在第1字符行候选及第2字符行候选中的具有较小的区域的字符行候选(也称作最小字符行候选)整体的大小中所占的重叠的区域的大小是阈值以上则判定为存在内包关系就可以。在存在内包的区域的情况下向步骤S804前进，在不存在内包的区域的情况下向步骤S805前进。

在步骤S804中，选择处于内包关系的字符行候选中的具有大的区域的字符行候选(最大字符行候选)作为字符行。例如，如果第2字符行候选内包在第1字符行候选中，则选择第1字符行候选作为字符行。

在步骤S805中，由于是第1字符行候选及第2字符行候选相互不重叠、或者重叠部分比作为内包关系的面积小的情况，所以选择第1字符行候选及第2字符行候选的两者作为字符行。以上结束合并处理。

接着，参照图9对合并部106的合并处理结果的一例进行说明。

图9的(a)是在合并前的状态下、对于作为处理对象的图像生成第1 字符行候选和第2字符行候选的两者而显示在1个图像中的情况。虚线表示第1字符行候选901，单点划线是第2字符行候选902。

如图9的(a)所示，处于中间部的区域903其重叠度是阈值以上，处于最下部的区域904为第1字符行候选901内包在第2字符行候选902中的内包关系。此外，设想第1字符检测方式的优先级高的情况。

如图9的(b)所示，在合并后，在区域903中由于重叠度是阈值以上，所以选择优先级高的第1字符行候选901作为字符行，在区域904中由于存在内包关系，所以选择区域大的第2字符行候选902作为字符行。

接着，参照图10对合并处理结果的另一例进行说明。

图10的(a)是第2字符行候选，图10的(b)是第1字符行候选，图10的(c)是合并结果。

与图9的情况同样，例如如果字符串“Tiredness”的字符行候选的重叠度是阈值以上，则选择优先级较高的图10的(b)所示的第1字符行候选作为字符行。此外，字符串“yourlife”由于第1字符行候选内包在第2 字符行候选中，所以选择较大的第2字符行候选作为字符行。

接着，参照图11对检测精度的评价结果进行说明。

图11所示的曲线图是评价因检测字符行的方法的差异得到的检测精度的曲线图，纵轴是语言正确率，横轴是再现率。点1101是仅第1字符检测方式的情况，点1102是仅第2字符检测方式的情况，点1103是有关本实施方式的字符检测装置的处理的情况。

如图11所示，在点1101的第1字符检测方式中，再现率是约62％，语言正确率是约82％，在点1102的第2字符检测方式中，再现率是约59％，语言正确率是约85％。另一方面，根据点1103的有关本实施方式的字符检测装置，再现率为约68％，语言正确率为约87％，可知再现率及语言正确率都提高了。

另外，在本实施方式中，设想了使用第1字符检测方式和第2字符检测方式的两个方式检测字符的情况，但并不限定于此，也可以使用3以上的字符检测方式。

例如，在优先级决定部105中，在使用3个以上的字符检测方式的情况下，只要对于多个字符检测方式分别计算与基准字符行的一致度、将一致度最高的字符检测方式的优先级决定为最高就可以。

此外，在合并部106中，也能够与图8所示的流程图同样地处理。例如，在图8所示的步骤S801中，在3个以上的字符检测方式的各自中检测的字符行候选间有重叠的区域、并且重叠度是阈值以上的情况下，在步骤 S802中，只要选择通过优先级最高的字符检测方式检测出的字符行候选作为字符行就可以。

此外，在步骤S803中，只要将通过多个字符检测方式检测出的字符行候选中的具有最小的区域的字符行候选作为最小字符行候选、如果相对于最小字符行候选整体的大小、重叠的区域的大小是阈值以上则判定为存在内包关系就可以。在步骤S804中，只要将通过多个字符检测方式检测出的字符行候选中的具有最大的区域的字符行候选作为最大字符行候选、选择最大字符行候选作为字符行就可以。

在步骤S805中，只要将通过多个字符检测方式检测出的字符行候选分别选择为字符行就可以。

根据以上所示的本实施方式，通过根据图像的特征量决定字符检测方式的优先级，从图像使用多个字符检测方式检测字符行候选，根据与图像的特征量对应的优先级选择字符行候选而合并为字符行，对于怎样的图像都能够使字符串的检测精度及再现性提高。

由在上述实施方式中表示的处理次序表示的指示能够基于作为软件的程序执行。通用的计算机系统预先存储该程序，通过将该程序读入，也能够得到与上述字符检测装置的效果同样的效果。在上述实施方式中记述的指示作为能够使计算机执行的程序，记录到磁盘(软盘、硬盘等)、光盘(CD －ROM、CD－R、CD－RW、DVD－ROM、DVD±R、DVD±RW、蓝光 (注册商标)光盘等)、半导体存储器或与其类似的记录媒体中。只要是计算机或嵌入系统能够读取的记录媒体，其存储形式是怎样的形态都可以。计算机只要从该记录媒体将程序读入，使CPU基于该程序执行记述在程序中的指示，就能够实现与上述实施方式的字符检测装置同样的动作。当然，在计算机取得程序的情况或读入的情况下，也可以经由网络取得或读入。

此外，也可以基于从记录媒体安装到计算机或嵌入系统中的程序的指示，在计算机上工作的OS(操作系统)或数据库管理软件、网络等的MW (中间件)等执行用来实现本实施方式的各处理的一部分。

进而，本实施方式的记录媒体并不限于与计算机或嵌入系统独立的媒体，也包括将通过LAN或因特网等传递的程序下载并存储或暂时存储的记录媒体。

此外，记录媒体并不限于1个，从多个媒体执行本实施方式的处理的情况也包含在本实施方式的记录媒体中，媒体的结构是哪种结构都可以。

另外，本实施方式的计算机或嵌入系统是用来基于存储在记录媒体中的程序执行本实施方式的各处理的，是由个人计算机、微型计算机等的1 个构成的装置、将多个装置网络连接的系统等的哪种结构都可以。

此外，本实施方式的计算机并不限于个人计算机，也包含包含在信息处理设备中的运算处理装置、微型计算机等，是能够通过程序实现本实施方式的功能的设备、装置的统称。

说明了本发明的一些实施方式，但这些实施方式是作为例子提示的，并不是要限定发明的范围。这些新的实施方式能够以其他各种各样的形态实施，在不脱离发明的主旨的范围内能够进行各种省略、替代、变更。这些实施方式及其变形包含在发明的范围及主旨中，并且包含在权利要求书所记载的范围的发明和其等价的范围中。

符号说明

100字符检测装置；101图像取得部；102第1字符行检测部；103第2字符行检测部；104特征提取部；105优先级决定部；106合并部；107连结成分提取部；108第1字符行生成部；109字符候选区域检测部；110第 2字符行生成部；201图像；202窗口；301、402字符候选区域；401图像平面；403投票空间；501基准字符行；502、901第1字符行候选；503、 504、903、904区域；601条件；701长度；902第2字符行候选；1101、 1102、1103点。

Claims

1.一种字符检测装置，其特征在于，具备：

特征提取部，提取包含1个以上的字符串的图像的特征量，上述特征量是亮度值或字符行候选的长度、宽度及面积；

决定部，根据上述特征量，在多个字符检测方式中，将对于图像区域具有最高的字符检测精度的字符检测方式的优先级设定为比其他的多个字符检测方式的优先级高；以及

合并部，在由上述多个字符检测方式检测出的多个字符行候选间的重叠度是第1阈值以上的情况下，选择通过上述优先级被上述决定部设定为最高的字符检测方式检测出的字符行候选作为字符行，在上述重叠度未满上述第1阈值、并且重叠的字符行候选中的具有最小的区域的最小字符行候选中重叠的区域所占的比例是第2阈值以上的情况下，选择上述重叠的字符行候选中的具有最大的区域的最大字符行候选作为字符行，在该最小字符行候选中重叠的区域所占的比例未满该第2阈值的情况下，将重叠的字符行候选分别作为字符行。

2.如权利要求1所述的字符检测装置，其特征在于，

还具备：

第1检测部，使用第1字符检测方式检测上述字符串，得到作为包含该字符串的区域的候选的第1字符行候选；

第2检测部，使用第2字符检测方式检测上述字符串，得到作为包含该字符串的区域的候选的第2字符行候选；

上述决定部对上述第1字符检测方式及上述第2字符检测方式分别决定优先级；

上述合并部将上述第1字符行候选及上述第2字符行候选进行合并，在表示该第1字符行候选与该第2字符行候选重叠的区域的比例的重叠度是上述第1阈值以上的情况下，选择通过上述优先级高的字符检测方式检测出的字符行候选作为字符行。

3.如权利要求2所述的字符检测装置，其特征在于，

上述第1检测部具备：

连结成分提取部，将上述图像中的相邻的像素中的特征类似的像素彼此连结，得到多个连结成分；以及

第1生成部，根据上述连结成分间的位置关系和连结成分的类似度将连结成分组合，生成上述第1字符行候选；

上述第2检测部具备：

字符候选区域检测部，从上述图像中选择作为字符候选的1个以上的字符候选区域；以及

第2生成部，将上述1个以上的字符候选区域组合，生成上述第2字符行候选。

4.如权利要求3所述的字符检测装置，其特征在于，

上述第1生成部通过使用连结成分的行检测生成上述第1字符行候选；

上述第2生成部通过使用字符候选区域的行检测生成上述第2字符行候选。

5.一种字符检测方法，其特征在于，

提取包含1个以上的字符串的图像的特征量，上述特征量是亮度值或字符行候选的长度、宽度以及面积；

基于上述特征量，在多个字符检测方式中，将对于图像区域具有最高的字符检测精度字符检测方式的优先级设定为比其他的多个字符检测方式的优先级高；

在由上述多个字符检测方式检测出的多个字符行候选间的重叠度是第1阈值以上的情况下，选择通过上述优先级被设定为最高的字符检测方式检测出的字符行候选作为字符行，在上述重叠度未满上述第1阈值、并且重叠的字符行候选中的具有最小的区域的最小字符行候选中重叠的区域所占的比例是第2阈值以上的情况下，选择上述重叠的字符行候选中的具有最大的区域的最大字符行候选作为字符行，在该最小字符行候选中重叠的区域所占的比例未满该第2阈值的情况下，将重叠的字符行候选分别作为字符行。