CN102209969B

CN102209969B - 字符区域提取装置、具备字符区域提取功能的摄像装置以及字符区域提取程序

Info

Publication number: CN102209969B
Application number: CN2008801319430A
Authority: CN
Inventors: 原伸之; 藤井勇作; 武部浩明; 藤本克仁; 堀田悦伸; 皆川明洋
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-11-12
Filing date: 2008-11-12
Publication date: 2013-05-01
Anticipated expiration: 2028-11-12
Also published as: JP5229328B2; US20110255785A1; US8447113B2; CN102209969A; WO2010055558A1; JPWO2010055558A1

Abstract

为了高精度地从包含浓淡值对比度不同的部分的图像数据中确定字符区域，字符区域提取装置接收对被摄体进行摄像而得到的图像数据，利用第1阈值将图像数据整体二值化，并分离成像素数饱和的反射区域和像素值不饱和的非反射区域。接着，利用第2阈值将反射区域二值化并分离成字符区域和背景区域。同样地，利用第3阈值将非反射区域二值化并分离成字符区域和背景区域。合并反射区域和非反射区域各自的字符区域，并确定图像数据中的字符区域的位置信息。

Description

字符区域提取装置、具备字符区域提取功能的摄像装置以及字符区域提取程序

技术领域

本发明涉及从图像数据提取字符区域的处理。具体来讲，涉及为了从对被摄体进行摄像而得到的图像数据取得作为字符识别处理对象的二值图像数据，即使从由于环境光的映射而发生了反射的图像数据也能够高精度地提取字符区域的处理。

字符区域是被分类成字符像素的像素区域。将按照相同的基线排列的一个或者多个字符区域称为“行”。

背景技术

在小型数码相机、搭载有相机功能的手机等已经普及的今天，对于相机摄影功能，正在追求高精度的字符识别功能。

对于以往的字符识别处理的对象图像数据来说，由于是利用扫描仪等固定装置来对被摄体进行摄像，所以是在没有干扰的摄影环境下得到的数据。

但是，由于小型数码相机、手机等在室内室外均可以利用，所以需要考虑摄影时的干扰影响变大的情况。作为较严重的问题之一，尤其是存在如下现象：由于被摄体的表面存在具有较高反射率的玻璃或塑料等材料而导致在摄影图像上发生照明光的反射，从而会使视觉辨认度、字符识别精度下降。

这种现象产生的原因在于，在反射部分处背景和字符的浓淡值均上升，而两者的对比度下降，从而成为与非反射区域处的背景和字符的对比度不同的状态，因此分离处理的精度下降。另外，该现象也会发生在背景、字符没有复杂图案的比较均匀的情况下。

作为对发生了反射的摄影图像补充反射区域的背景色和字符色，从

在专利文献1中，根据局部的边沿强度来分离字符和背景区域，使用根据各区域所属的像素推定出的背景色和字符色并根据浓淡进行修正来分离字符和背景。

另外，在专利文献2中，根据输入图像的浓淡值直方图来推定背景色从而分离字符和背景色，将具有比该背景色高的浓淡值的区域作为反射区域部，根据浓淡值分布直方图来推定反射区域内的背景色，通过以推定结果为基础分离字符和背景来求出包含反射区域的图像整体的字符区域。

专利文献1：日本特开2008-113446号公报

专利文献2：日本特开2008-79258号公报

但是，在具有反射区域的图像中，除了字符和背景的边界之外，在反射区域和非反射区域的边界处也会产生边沿。因此，在专利文献1中，考虑到如下情况，即有时会将在背景区域上产生的反射区域和非反射区域的边沿误检测为字符区域的一部分，从而导致字符区域提取的精度下降，进而导致字符识别处理中的识别精度下降。

另外，在专利文献2中，考虑到如下情况，即在属于字符区域和背景区域的像素的浓淡值在各区域内不均匀的情况下，无法在直方图上检测出分离处理的合理的阈值。另外，由于不进行阈值的评价和基于评价的修正，所以字符区域和背景区域的分离精度下降，导致字符区域提取精度下降，进而导致字符识别处理中的识别精度下降。

发明内容

鉴于上述问题，本发明的目的在于，提供一种字符区域提取装置、具备字符区域提取功能的摄像装置以及字符区域提取程序，能够从产生了如反射区域那样的、具有与图像数据整体的浓淡值倾向不同的倾向的区域的图像数据中高精度地分离出字符区域。

作为本发明的一个方面的字符区域提取装置输入成为处理对象的图像数据，使用根据图像数据整体的浓淡值而决定的第1阈值将图像数据整体二值化，并分离成像素值饱和的反射区域和像素值不饱和的非反射区域。

并且，将反射区域和非反射区域分别使用单独的阈值(第2阈值、第3阈值)进行二值化处理，从而分离成字符区域和背景区域。

并且，对分别在反射区域和非反射区域中被分离出的字符区域进行合并，求出图像数据整体的字符区域，并提取字符区域的位置信息。

这里，在上述的第1阈值～第3阈值不合理的情况下，反射区域和非反射区域的分离处理的处理精度下降，进而分别分离反射区域和非反射区域中的字符区域和背景区域的处理的处理精度下降。例如，在对字符区域进行合并时，字符笔划的连接变得不连续，会存在产生部分缺失之类的问题。因此，使用反射区域和非反射区域中的分离结果来评价二值化处理中使用的第1阈值～第3阈值。在根据规定的评价条件将分离结果判定为不合理的情况下，对与该分离结果相关的阈值进行调整，并再次进行二值化分离处理。

具体来讲，在作为本发明的一个实施方式而公开的字符区域提取装置中，具备：图像输入部，其接收对被摄体进行摄像而得到的图像数据；反射及非反射区域分离部，其利用第1阈值将图像数据二值化，将图像数据分离成像素值饱和的反射区域和像素值不饱和的非反射区域，并在上述第1阈值被评价为不合理的情况下，变更该第1阈值来将上述图像数据二值化；反射区域二值化部，其利用第2阈值将图像数据的反射区域二值化，将反射区域分离成字符区域和背景区域，并在上述第2阈值被评价为不合理的情况下，变更该第2阈值来将上述反射区域二值化；非反射区域二值化部，其利用第3阈值将图像数据的非反射区域二值化，将非反射区域分离成字符区域和背景区域，并在上述第3阈值被评价为不合理的情况下，变更该第3阈值来将上述非反射区域二值化；反射及非反射区域分离评价部，其利用反射区域二值化部和非反射区域二值化部的分离结果来评价第1阈值、第2阈值、第3阈值；以及行提取部，其对反射区域和上述非反射区域各自的字符区域进行合并，并提取出图像数据中的结合后的字符区域的位置信息。

在公开的字符区域提取装置中，通过根据各像素的特征量来将对被摄体进行摄像而得到的图像数据二值化，能够进行分离成反射区域和非反射区域的处理，进而能够分别使用分离结果的反射区域和非反射区域的像素的特征量来进行二值化处理，从而分离成字符区域和背景区域。因此，能够通过与特征量不同的区域相匹配的二值化处理来提取字符区域，从而能够更加高精度地得到图像数据中的字符位置。

并且，在上述的字符区域提取装置中，由于能够使用反射区域和非反射区域中的分离结果来评价二值化处理的阈值，并将该评价向二值化处理反映来进一步进行二值化处理，所以能够更加高精度地从图像数据提取字符位置。

在上述的字符区域提取装置中，作为用于评价二值化处理的阈值(第1阈值～第3阈值)的分离结果，例如可以利用分别在反射区域和非反射区域中被分离出的字符区域相接的轮廓部分的长度(轮廓像素数)的差异、被分类为非反射区域中的字符区域的区域面积(像素数)和其轮廓长(轮廓像素数)的比例、在反射和非反射区域的二值化处理中得到的反射区域的轮廓线和在反射区域中的二值化处理中的低浓淡值区域的轮廓线相接的部分的长度(轮廓像素长)等。

并且，上述的字符区域提取装置也可以具备字符识别部，该字符识别部以通过行提取部确定出的字符区域的位置信息为基础，从图像数据的字符区域中提取字符并进行识别。

并且，也可以具备字符识别评价部，该字符识别评价部根据上述的字符识别结果来评价二值化处理的第1阈值～第3阈值。

另外，本发明的另一个方面是具备能够进行由上述的字符区域提取装置执行的处理的字符区域提取功能的摄像装置。

并且，本发明的另一个方面是用于使计算机作为上述的字符区域提取装置来发挥功能的字符区域提取程序。

公开的字符区域提取装置利用第1阈值将摄影时干扰的影响存在的图像数据二值化从而分离成反射区域和非反射区域，利用其他的阈值(第2、第3阈值)分别将反射区域和非反射区域二值化从而分离成字符区域和背景区域，并将被分离出的字符区域进行结合从而能够提取图像数据中的字符区域的位置信息，因此与包含基于直方图上的单一阈值的分离处理、基于边沿的分离处理的现有分离处理相比，能够更加高精度地确定字符区域的位置。

并且，公开的字符区域提取装置能够对反射区域和非反射区域的分离处理、分别在反射区域和非反射区域中进行字符和背景的二值化处理所使用的各个阈值进行评价，并将阈值的评价反映在这些二值化处理中，因此能够进一步高精度地确定字符区域的位置。

因此，通过实现高精度的字符区域提取处理，能够提高从图像数据分割字符的处理精度以及字符识别的处理精度。

通过将本发明组装到具备小型数码相机、相机摄像功能的手机等中，能够实现在室外进行摄像而得到的图像数据的高精度的字符识别处理。

附图说明

图1是表示本发明的一个实施方式的字符区域提取装置的功能块的构成例的图。

图2是表示字符区域提取装置所处理的图像数据例的图。

图3是表示本发明的一个实施方式的字符区域提取装置的处理概要的图。

图4是本发明的一个实施方式的字符区域提取处理的处理流程图。

图5是表示本发明的一个实施方式的图像数据的非反射区域处的字符区域和背景区域的分离结果的例子的图。

图6是表示第1阈值不是合理值的情况下的分离结果的例子的图。

图7是用于说明从图像数据的合并处理到字符区域的生成处理的流程的图。

图8是表示分别在反射区域和非反射区域被分离出的字符区域的合并结果的例子的图。

图9是用于说明在行提取处理中求出边沿外接矩形的处理的图。

图10是用于说明基于行提取处理中的外接矩形的宽度的分布曲线的字符区域提取阈值的图。

附图标记说明：

1...字符区域提取装置；10...图像存储部；11...图像输入部；12...反射及非反射区域分离部；13...反射区域二值化部；14...非反射区域二值化部；15...反射区域二值化评价部；16...非反射区域二值化评价部；17...反射及非反射区域分离评价部；18...行提取部；20...字符分割及字符识别部；21...字符识别评价部。

具体实施方式

图1是表示本发明的一个实施方式的字符区域提取装置1的功能块的构成例的图。

字符区域提取装置1具有图像存储部10、图像输入部11、反射及非反射区域分离部12、反射区域二值化部13、非反射区域二值化部14、反射区域二值化评价部15、非反射区域二值化评价部16、反射及非反射区域分离评价部17以及行提取部18。

在本实施方式中，字符区域提取装置1还附加具有用于实现字符识别功能的字符分割及字符识别部20和字符识别评价部21。

图像存储部10存储对被摄体进行摄影而得到的图像数据3。

图像输入部11接收由数码相机等对被摄体进行摄影而得到的图像数据3，并将其保存在图像存储部10中。

图2(A)是表示图像数据3的例子的图。

在图2(A)的图像数据3中，荧光灯照明在画面下部的左右两侧跨越字符区域(行)产生映射反射。在没有产生反射的非反射区域，背景和字符之间具有足够的对比度，而在产生反射的反射区域，背景和字符之间的对比度下降。

图2(B)是将图像数据3的字符“ぉ”的部分放大了的示意图。

在图2(B)的图像数据3的字符“ぉ”的部分处产生反射。反射区域被表示在虚线框内。另外，用黑色像素区域表示字符区域，用灰色像素区域表示背景区域。

由于该反射区域，图像数据的背景和字符的分离精度下降。

反射及非反射区域分离部12利用第1阈值将图像数据3二值化，并将图像数据3分离成像素值饱和的反射区域和像素值不饱和的非反射区域。另外，在第1阈值未被评价为合理的情况下，反射及非反射区域分离部12变更第1阈值来进行图像数据3的二值化。

反射区域二值化部13利用第2阈值将图像数据3的反射区域二值化，并将反射区域分离成比第2阈值暗的像素的字符区域和除此以外的背景区域。另外，在第2阈值未被评价为合理的情况下，反射区域二值化部13变更第2阈值来进行图像数据3的反射区域的二值化处理。

非反射区域二值化部14利用第3阈值将图像数据3的非反射区域二值化，并将非反射区域分离成比第3阈值暗的像素的字符区域和除此以外的背景区域。另外，在第3阈值未被评价为合理的情况下，非反射区域二值化部14变更第3阈值来进行图像数据3的非反射区域的二值化处理。

反射区域二值化评价部15求出图像数据3的反射区域的轮廓和在反射区域被分类为低浓淡值的区域的背景区域的轮廓相接的部分的轮廓线长(轮廓像素长)，并通过判定轮廓像素长和规定的评价值之间的关系来评价第1阈值。

这里，着眼于通过反射及非反射区域分离部12分离出的图像数据3的反射区域的轮廓和通过反射区域二值化部13分离出的反射区域的背景区域相接的部分，在作为反射及非反射区域的二值化处理的第1阈值而使用的浓淡值低于合理值的情况下，反射区域内的背景区域的面积增加，与此同时，反射区域和背景区域各自的轮廓相接的部分也增加。

在本实施方式中，反射区域二值化评价部15计算反射区域的轮廓和反射区域内的背景区域的轮廓相接部分的像素数，判定求出的像素数是否在规定的评价值(第1阈值用评价值)以下，在求出的像素数在第1阈值用评价值以下的情况下，将二值化处理所使用的第1阈值评价为合理，在求出的像素数超过了第1阈值用评价值的情况下将第1阈值评价为不合理。

反射区域二值化评价部15使用反射区域中的字符区域和背景区域的分离结果，来评价第2阈值是否是合理的值。

非反射区域二值化评价部16使用非反射区域中的字符区域和背景区域的分离结果，来评价第3阈值是否是合理的值。

在本实施方式中，反射区域二值化评价部15求出在图像数据3的反射区域被分离出的字符区域的面积(字符区域的像素数)和轮廓长(字符区域的轮廓像素数)，通过判断轮廓像素数与字符区域的像素数的比例和规定的评价值之间的关系来评价第2阈值。

另外，非反射区域二值化评价部16求出在图像数据3的非反射区域被分离出的字符区域的面积(字符区域的像素数)和轮廓长(字符区域的轮廓像素数)，通过判断轮廓像素数与字符区域的像素数的比例和规定的评价值之间的关系来评价第3阈值。

当在非反射区域二值化部14的二值化处理中第3阈值不是合理值时，有时会在分离结果中作为字符区域被分离出的图像内产生噪声。在基于非反射区域的非合理阈值的分离结果中，与基于合理阈值的分离结果相比产生噪声的情况增多。

在本实施方式中，着眼于字符区域的面积和轮廓长的比例，非反射区域二值化评价部16计算轮廓像素数(轮廓长)与字符区域的像素数(面积)的比例，判定求出的比例是否在规定的评价值(第3阈值用评价值)以下，在求出的比例在第3阈值用评价值以下的情况下，将二值化处理所使用的第3阈值评价为合理，在求出的比例超过了第3阈值用评价值的情况下将二值化处理所使用的第3阈值评价为不合理。

反射区域二值化评价部15也进行与非反射区域二值化评价部16同样的处理来评价第2阈值。

反射及非反射区域分离评价部17使用反射区域中的分离结果和非反射区域中的分离结果来评价第1阈值～第3阈值是否合理。反射及非反射区域分离评价部17合并在图像数据3的非反射区域中被分离出的字符区域和在反射区域中被分离出的字符区域，求出合并后的字符区域的反射区域和非反射区域的结合部分处的各字符区域的轮廓像素数，并通过判定结合部分处的轮廓像素数的差异和规定的评价条件之间的关系来分别评价第1阈值～第3阈值是否是合理值。

对于对在图像数据3的反射区域和非反射区域中分别经过二值化而得到的2个字符区域图像进行合并得到的结果，期待如下效果，即对于跨越反射区域和非反射区域的边界部分的字符区域来说，在边界的两侧(反射区域侧和非反射区域侧)区域的宽度没有较大的变化，即字符区域之间相接的部分处的轮廓宽度基本相同。

但是，在反射区域和非反射区域的分离处理的第1阈值不是合理值的情况下，字符区域可能成为非连接的状态。另外，在分别在反射区域和非反射区域中的字符及背景的分离处理的第2阈值、第3阈值不是合理值的情况下，轮廓宽度的差异也会变大。

在本实施方式中，反射及非反射区域分离评价部17计算结合后的字符区域的反射侧的轮廓长(轮廓像素数)和非反射侧的轮廓长(轮廓像素数)之间的差异，判定求出的差异是否在规定的评价值的范围(第1分离评价范围)内，在求出的差异是第1分离评价范围内的值的情况下将第1阈值评价为合理，在求出的差异不在第1分离评价值范围内的情况下将第1阈值评价为不合理。

另外，反射及非反射区域分离评价部17判断结合后的字符区域的反射侧的轮廓长(轮廓像素数)和非反射侧的轮廓长(轮廓像素数)之间的差异是在第1分离评价范围内还是在规定的第2分离评价范围内，在求出的差异是第2分离评价范围内的值的情况下，将第2阈值和第3阈值评价为合理，在求出的差异不在第2分离评价范围内的情况下，将第2阈值或者第3阈值、或者这两者评价为不合理。

行提取部18对在图像数据3的反射区域中被分离出的字符区域和在非反射区域中被分离出的字符区域进行合并，并提取图像数据3中的字符区域的位置信息。

并且，在对基于相同的二值化处理的分离结果进行多种评价的情况下，反射及非反射区域分离部12、反射区域二值化部13以及非反射区域二值化部14能够根据多种评价的组合来变更二值化处理的阈值(第1阈值～第3阈值)，并进而根据变更后的阈值来进行二值化处理。

由此，能够反映出各二值化处理的评价并进而进行二值化处理，从而能够得到更加高精度的反射及非反射、和字符及背景的分离结果。

并且，在具有2个以上的浓淡值作为自处理所使用的阈值(第1阈值～第3阈值)，预先保持基于多个浓淡值的二值化处理的分离结果，并存在有针对多个浓淡值各自的分离结果的评价的情况下，反射及非反射区域分离部12、反射区域二值化部13、和非反射区域二值化部14能够选择最合理的浓淡值的分离结果。

通过预先进行基于多个阈值的二值化处理并保持其分离结果，反射区域二值化部13、非反射区域二值化部14和反射及非反射区域分离评价部17能够一次得到多个分离结果来进行各分离结果的评价处理。

因此，与逐次的评价处理、即对基于一个阈值的分离结果进行评价，并利用根据该评价结果进行了变更的阈值来再次进行二值化处理的情况相比，能够更加有效地得到基于合理的阈值的分离结果，从而能够提高整体的处理效率。

字符分割及字符识别部20以由行提取部18所确定的字符区域的位置信息为基础，从图像数据3的字符区域中分割字符，并对分割出的字符进行字符识别处理。

字符识别评价部21对字符分割及字符识别部20的字符识别的精度进行评价。

字符识别评价部21分别计算反射区域和非反射区域中的字符识别的识别率，在反射区域中的识别率低于规定的评价值的情况下将第2阈值判断为不是合理值，在非反射区域中的识别率低于规定的评价值的情况下将第3阈值评价为不是合理值。另外，在反射区域和非反射区域中的识别率均较低的情况下，将第1阈值评价为不是合理值。

通过对字符识别的识别精度进行评价，反射及非反射区域分离部12、反射区域二值化部13或者非反射区域二值化部14能够对二值化处理的阈值进行变更。通过进行基于变更后的阈值的二值化处理，能够更加高精度地确定字符区域，进而能够提高字符识别的精度。

字符区域提取装置1通过具备如上所述的各处理单元的构成，能够递归执行图像数据的两级分离处理(反射及非反射的区域分离和字符及背景的区域分离)和这些分离结果的评价处理，因此能够得到高精度的字符区域(行)的提取结果。

图3是表示本实施方式的字符区域提取装置1的处理概要的图。

字符区域提取装置1的图像输入部11接收对被摄体进行摄影而得到的图像数据3，并将其保存在图像存储部10中(步骤S1)。反射及非反射区域分离部12利用第1阈值将图像存储部10的图像数据3二值化，并分离成反射区域和非反射区域(步骤S2)。

接着，反射区域二值化部13利用第2阈值将图像数据3的反射区域二值化，非反射区域二值化部14利用第3阈值将图像数据3的非反射区域二值化，并分别将反射区域和非反射区域分离成字符区域和背景区域(步骤S3)。

并且，反射区域二值化评价部15、非反射区域二值化评价部16以及反射及非反射区域分离评价部17判断由反射区域二值化部13和非反射区域二值化部14进行的分离结果是否满足规定的评价条件，由此来评价二值化处理的第1阈值、第2阈值、第3阈值是否合理(步骤S4)。

接着，行提取部18对在反射区域中被分离出的字符区域和在非反射区域中被分离出的字符区域进行合并，确定并输出合并后的字符区域的图像数据3的位置信息(步骤S5)。

在步骤S5的处理后，字符分割及字符识别部20以字符区域的位置信息为基础分割字符，并对分割出的字符进行字符识别。

并且，在字符识别处理后，字符识别评价部21对字符分割及字符识别部20的字符识别的精度进行评价。

字符识别评价部21执行已知的字符识别处理。例如，对提取出的字符串进行识别，求出各字符串的置信度，将具有规定的阈值以上的置信度的字符串所包含的字符成分判定为真的字符成分，将小于阈值的置信度的字符串判定为不是字符成分，从而提取真的字符成分的集合，并将真的字符成分的集合与全部字符成分的比例设为识别率(参照专利第3913985号公报)。

下面对字符区域提取装置1的处理进行更加详细的说明。

图4是字符区域提取处理的处理流程图。

图像输入部11受理图2(A)所示的图像数据3的输入，并将其保存在图像存储部10中(步骤S101)。

反射及非反射区域分离部12为了分离反射区域和非反射区域，进行基于被设定为第1阈值的像素浓淡值的图像数据3的二值化处理(步骤S102)。

作为二值化处理的准备，反射及非反射区域分离部12根据图像数据3的整体像素浓淡值来决定作为第1阈值的像素浓淡值。可以使用浓淡值的众数、浓淡值的平均值等作为第1阈值，但是并不限于这些值。反射及非反射区域分离部12根据第1阈值将图像数据整体的像素分类为反射区域和非反射区域中的任一种。在分类后分别求出反射区域和非反射区域的面积(像素数)、轮廓长(轮廓像素数)。

接着，如果处理对象不是反射区域(步骤S103的否)，则进行步骤S104的处理，如果处理对象是反射区域(步骤S103的是)，则进行步骤S106的处理。

在步骤S104的处理中，非反射区域二值化部14根据第3阈值将从图像数据分离出的非反射区域的像素数据二值化，并将像素分类成字符区域和背景区域。第3阈值是与第1阈值不同的浓淡值，根据图像数据3的非反射区域内的像素浓淡值来决定。作为第3阈值，可以使用浓淡值直方图的最小值、浓淡值的众数(mode)等，但并不限于这些值。

非反射区域二值化部14在图像数据3的非反射区域的像素被分类后，求出字符区域的面积(像素数)、轮廓长(轮廓像素数)。

接着，非反射区域二值化评价部16判断非反射区域二值化部14的分离结果是否满足“在非反射区域内作为字符区域候补的黑色像素区域的轮廓像素数(轮廓长)和面积(像素数)的比例在规定值以下”这个评价条件，由此来评价第3阈值是否是合理值(步骤S105)。

图5表示图像数据3的非反射区域中的字符区域和背景区域的分离结果的例子。图5(A)是表示基于合理的第3阈值的字符和背景的分离结果的例子的图，图5(B)是表示基于不合理的第3阈值的分离结果的例子(部分)的图。

在图5(B)所示的图像数据3中，由于第3阈值不是合理值，所以应该被分类为背景区域的像素被误分类为字符区域，从而在非反射区域的字符区域图像中表现为噪声。

当产生噪声时，字符区域的面积(像素数)和轮廓线长(轮廓像素数)增加。但是，作为背景中的噪声发生的特性，存在如下倾向：由于会产生多个微小的字符区域，所以轮廓线长的增加率变得比区域面积的增加率高，轮廓线长(轮廓像素数)和面积(像素数)的比例因噪声开始发生的阈值而大幅度增加。

根据该倾向，非反射区域二值化评价部16判断非反射区域的字符区域的轮廓像素数和字符区域的像素数的比例是否在规定的评价值以下。

在该比例在评价值以下的情况下，即在满足评价条件的情况下(步骤S105的“合理”)，将第3阈值评价为合理值，并前进至步骤S108的处理。

另一方面，在分离结果不满足评价条件的情况下(步骤S105的“不合理”)，返回步骤S104的处理。由于第3阈值被评价为“不合理”，所以非反射区域二值化部14将第3阈值向字符区域变得更小的方向的值修正，并根据修正后的第3阈值，在非反射区域进行字符区域和背景区域的分离。

由此，能够得到图5(A)所示那样的合理的字符区域和背景区域的分离结果。

在步骤S106的处理中，反射区域二值化部13根据第2阈值将从图像数据3分离出的反射区域的图像数据二值化，并将像素分类成字符区域和背景区域。第2阈值是与第1阈值不同的浓淡值，根据图像数据3的非反射区域内的像素浓淡值来决定。作为第2阈值，可以使用浓淡值直方图的最小值或浓淡值的众数，但并不限于这些值。

接着，反射区域二值化评价部15利用反射区域二值化部13的分离结果和反射及非反射区域分离部12的分离结果，判断是否满足“反射区域的轮廓和反射区域内的背景区域(低浓淡值区域)的轮廓相接的部分的长度(轮廓像素数)在规定值以下”这个评价条件，由此评价第1阈值是否是合理值(步骤S107)。

图6是表示第1阈值不是合理值的情况下的分离结果的图。

这里，着眼于从图像数据3分离出的反射区域的轮廓和在各反射区域中基于第2阈值分离出的背景区域(低浓淡值区域)的轮廓相接的部分。在第1阈值低于合理值的情况下，图像数据3的反射区域中的低浓淡值区域增加。于是，低浓淡值区域各自的轮廓相接的部分的长度(轮廓像素数)也同时增加。因此，判断这些区域的轮廓相接的部分的轮廓像素数是否在规定的评价值以下，由此来评价第1阈值是否是合理值。

在轮廓像素长在评价值以下的情况下，即在满足评价条件的情况下(步骤S107的“合理”)，评价第1阈值是否是合理值，并前进至步骤S108。

另一方面，在分离结果不满足评价条件的情况下(步骤S107的“不合理”)，返回步骤S102的处理。

由于第1阈值被评价为“不合理”，所以反射及非反射区域分离部12将第1阈值向较高方向的值修正，并根据修正后的第1阈值来进行图像数据3的反射区域和非反射区域的分离。

由此，作为成为反射区域中的字符和背景的分离处理的基础的反射和非反射区域的分离结果，能够得到更高精度的分离结果。

接着，反射及非反射区域分离评价部17对反射区域和非反射区域中各自的分离结果(二值化结果)进行合并，并生成作为图像数据3整体的字符区域和背景区域(步骤S108)。

图7是用于说明从反射区域和非反射区域的合并开始到字符区域和背景区域的生成为止的处理的图。如图7(A)所示那样，设想在图像数据3中，灰色的背景像素上有黑色的字符笔划，并以横切该字符笔划的方式产生了反射区域的情况。

图7(A)的图像数据3通过反射及非反射区域分离部12，被分离成图7(B)所示的图像数据3的反射区域(中央部分)和图7(C)所示的图像数据3的非反射区域(周围部分)。另外，图7(B)和图7(C)的图像数据3的横线所表示的区域是合并处理时的屏蔽区域。

并且，通过反射区域二值化部13和非反射区域二值化部14，在图7(D)所示的反射区域和图7(E)所示的非反射区域中，分别被分离成字符区域和背景区域。这里，反射区域的背景区域用白色像素表示，字符区域用黑色像素表示。

接着，如图7(F)所示那样，通过反射及非反射区域分离评价部17，反射区域和非反射区域的字符区域被合并，从而取得图像数据3整体的字符区域。在图7(F)的图像数据3上，可知检测出了与图7(A)所示的字符笔划(黑色像素)相同的字符区域。

接着，反射及非反射区域分离评价部17利用在反射及非反射区域中被分离的字符区域的合并结果来评价第1阈值～第3阈值(步骤S109、S110)。

在评价处理中，针对反射区域和非反射区域各自的字符区域的合并结果，使用反射区域的字符区域和非反射区域的字符区域的结合部分处各自的字符区域的轮廓像素数的差异。

在本实施方式中，求出字符区域的结合部分处的反射区域和非反射区域各自的像素数，在求出的像素数之间的差异超过了规定的评价值的情况下，将第1阈值评价为不是合理值。

并且，在字符区域的结合部分处的2个字符区域的轮廓像素数的差异大于规定的评价范围内的值的情况下，将第2阈值和第3阈值评价为不是合理值。

图8是表示反射区域和非反射区域各自的字符区域的合并结果的例子的图。

如图8(A)所示那样，在第1阈值是远高于合理值的值的情况下，在合并后的字符区域，由于反射区域的字符像素的一部分被误分类为非反射区域的背景，所以在反射区域和非反射区域的边界处字符笔划被切断。

另外，如图8(B)所示那样，在第1阈值远低于合理值的情况下，在合并后的字符区域，由于非反射区域的背景像素的一部分被误分类为反射区域的字符，所以边界附近的像素被作为字符处理，从而表现为噪声。

另外，如图8(C)所示那样，在第1阈值是与合理值相比略高或者略低的值的情况下，在合并后的字符区域中，表现为被结合的字符区域的字符笔划的宽度的差。

如图8(A)或者(B)所示那样，当在字符区域的结合部分处的反射区域和非反射区域各自的像素数的差异非常大，从而超过了规定的评价值的范围(第1分离评价范围)时，反射及非反射区域分离评价部17将第1阈值评价为不是合理值(步骤S109的“不合理”)，并返回步骤S102的处理。

在步骤S102的处理中，修正第1阈值，从而再次执行反射及非反射区域的分离处理。

另外，如图8(C)所示那样，在2个字符区域的轮廓像素数的差异超过了规定的评价值的范围(第2分离评价范围)的情况下，第2阈值和第3阈值被评价为不合理(步骤S110的“不合理”)，并返回步骤S103的处理。

在步骤S103的处理中，处理对象被判定，对于反射区域，第2阈值被修正，字符和背景区域的分离处理被再次执行(步骤S106)，对于非反射区域，第3阈值被修正，字符和背景区域的分离处理被再次执行(步骤S104)。

在第1阈值、第2阈值、第3阈值均被评价为合理的情况下(步骤S109的“合理”以及S110的“合理”)，行提取部18确定图像数据3中的合并后的字符区域的位置信息，并输出位置信息(步骤S111)。

行提取部18进行已知的行提取处理，并将得到的字符串的位置作为行提取结果输出。

图9和图10是用于说明行提取部18的行提取处理的图。

为了从图9(A)所示的图像数据3合并后的字符区域的数据中得到字符要素而提取边沿，并如图9(B)所示那样求出边沿外接矩形。生成外接矩形的横方向的长度(字符宽度)在横方向上投影得到的分布曲线，将高于规定阈值的部分作为字符串区域，将阈值以下的部分作为背景区域。

这里，如图10(A)所示那样，在被作为字符区域的噪声部分的影响较大的情况下，需要分离成字符串区域和非字符串区域。按照每个由一个或者多个字符区域排成列的字符区域，求出字符区域左右两端之间的长度(作为字符串长)，并将分布曲线上的值除以字符串长来进行归一化。

在字符串区域，分布曲线上的值、即边沿外接矩形宽度的合计与字符串长成为接近的值。另一方面，在非字符串区域，当噪声分布较广泛时，存在字符串长长于边沿外接矩形宽度合计的倾向，因此如图10(B)所示那样，在归一化后的分布曲线上，由于字符串区域和非字符串区域中高低差变大，所以根据规定的字符区域判定的阈值能够判断并除去是噪声的字符区域，因此能够确定仅存在字符的字符区域的位置。

在字符区域提取装置1中，通过步骤S102～S110的一系列处理，能够执行如下的递归处理，即根据分离处理的评价结果来修正第1阈值～第3阈值的各个阈值，反复执行基于修正后的阈值的二值化处理，并在满足了规定的评价条件的时间点上结束分离处理。

上面通过该实施方式对本发明进行了说明，但是本发明当然也能够在其主旨的范围内进行各种变形。

字符区域提取装置1也可以构成为组装入具有数码相机和摄影功能的手机中。

另外。字符区域提取装置1可以通过如下方式构成，即由计算机读取并执行程序，由此来实现图像输入部、反射及非反射区域分离部、反射区域二值化部、非反射区域二值化部、反射区域二值化评价部、非反射区域二值化评价部、反射及非反射区域分离评价部、行提取部、分子分割及字符识别部以及字符识别评价部等。该程序可以保存在计算机可读取的可移动介质存储器、半导体存储器、和硬盘等适当的记录介质中，也可以记录在这些记录介质中来提供，或者也可以经由通信接口通过利用了各种通信网络的收发来提供。

Claims

1.一种字符区域提取装置，其特征在于，具备：

图像输入部，其接收对被摄体进行摄像而得到的图像数据；

图像存储部，其保存接收到的图像数据；

反射及非反射区域分离部，其利用第1阈值将上述图像数据二值化，将上述图像数据分离成像素值饱和的反射区域和像素值不饱和的非反射区域，并在上述第1阈值被评价为不合理的情况下，变更该第1阈值来将上述图像数据二值化；

反射区域二值化部，其利用第2阈值将上述图像数据的反射区域二值化，将上述反射区域分离成字符区域和背景区域，并在上述第2阈值被评价为不合理的情况下，变更该第2阈值来将上述反射区域二值化；

非反射区域二值化部，其利用第3阈值将上述图像数据的非反射区域二值化，将上述非反射区域分离成字符区域和背景区域，并在上述第3阈值被评价为不合理的情况下，变更该第3阈值来将上述非反射区域二值化；

反射及非反射区域分离评价部，其利用上述反射区域二值化部和上述非反射区域二值化部的分离结果来评价上述第1阈值、上述第2阈值或者上述第3阈值；以及

行提取部，其对上述反射区域和上述非反射区域各自的字符区域进行合并，并提取出上述图像数据中的结合后的字符区域的位置信息。

2.根据权利要求1所述的字符区域提取装置，其特征在于，

上述反射及非反射区域分离评价部对上述非反射区域的字符区域和上述反射区域的字符区域进行合并，求出合并后的字符区域中的非反射区域和反射区域的边界部分处的各自的轮廓像素数，判定该非反射区域的轮廓像素数和该反射区域的轮廓像素数之间的差异是否是第1分离评价范围内的值，并在上述差异不在上述第1分离评价值范围内的情况下将上述第1阈值评价为不合理。

3.根据权利要求1或者2所述的字符区域提取装置，其特征在于，

上述反射及非反射区域分离评价部对上述非反射区域的字符区域和上述反射区域的字符区域进行合并，求出合并后的字符区域中的非反射区域和反射区域的边界部分处的各自的轮廓像素数，判断该非反射区域的轮廓像素数和该反射区域的轮廓像素数之间的差异是否是第2分离评价范围内的值，并在上述差异不在上述第2分离评价范围内的情况下将上述第2阈值、或者上述第3阈值、或者上述第2阈值以及第3阈值这二者评价为不合理。

4.根据权利要求1所述的字符区域提取装置，其特征在于，

具备反射区域二值化评价部，该反射区域二值化评价部求出由上述反射及非反射区域分离部分离出的反射区域的轮廓和由上述反射区域二值化部分离出的上述反射区域的背景区域的轮廓相接的部分的像素数，判断该像素数是否在第1阈值用评价值以下，并在上述像素数超过了上述第1阈值用评价值的情况下将上述第1阈值评价为不合理。

5.根据权利要求1所述的字符区域提取装置，其特征在于，

上述反射区域二值化评价部求出由上述反射区域二值化部分离出的字符区域的像素数和该字符区域的轮廓像素数，求出上述字符区域的像素数与上述轮廓像素数的比例，判断求出的比例是否在第2阈值用评价值以下，并在该比例超过了上述第2阈值用评价值的情况下将上述第2阈值评价为不合理。

6.根据权利要求1所述的字符区域提取装置，其特征在于，

具备非反射区域二值化评价部，该非反射区域二值化评价部求出由上述非反射区域二值化部分离出的字符区域的像素数和该字符区域的轮廓像素数，求出上述字符区域的像素数与上述轮廓像素数的比例，判断求出的比例是否在第3阈值用评价值以下，并在该比例超过了上述第3阈值用评价值的情况下将上述第3阈值评价为不合理。

7.根据权利要求1所述的字符区域提取装置，其特征在于，

在具有多个像素浓淡值作为上述第1阈值，根据该多个像素浓淡值将上述图像数据二值化从而保持多个分离结果，并且存在针对作为上述第1阈值的该多个像素浓淡值的评价的情况下，上述反射及非反射区域分离部选择基于被评价为最合理的像素浓淡值的分离结果。

8.根据权利要求1所述的字符区域提取装置，其特征在于，

在具有多个像素浓淡值作为上述第2阈值，根据该多个像素浓淡值将上述图像数据的反射区域二值化从而保持多个分离结果，并且存在针对作为上述第2阈值的该多个像素浓淡值的评价的情况下，上述反射区域二值化部选择基于被评价为最合理的像素浓淡值的分离结果。

9.根据权利要求1所述的字符区域提取装置，其特征在于，

在具有多个像素浓淡值作为上述第3阈值，根据该多个像素浓淡值将上述图像数据的非反射区域二值化从而保持多个分离结果，并且存在针对作为上述第3阈值的该多个像素浓淡值的评价的情况下，上述非反射区域二值化部选择基于被评价为最合理的像素浓淡值的分离结果。

10.根据权利要求1所述的字符区域提取装置，其特征在于，

具备字符分割及字符识别部，该字符分割及字符识别部以针对上述合并后的字符区域而被上述行提取部确定出的行的位置信息为基础，从上述图像数据的字符区域中分割字符，并对分割出的字符进行字符识别。

11.根据权利要求10所述的字符区域提取装置，其特征在于，

具备字符识别评价部，该字符识别评价部评价上述字符分割及字符识别部所进行的字符识别，并根据评价后的评价结果来评价上述第1阈值、上述第2阈值或者上述第3阈值。

12.一种摄像装置，其具备字符区域提取功能，上述摄像装置的特征在于，具备：

图像输入部，其接收对被摄体进行摄像而得到的图像数据；

图像存储部，其保存接收到的图像数据；

13.一种字符区域提取方法，用于从图像数据中提取字符区域，上述字符区域提取方法的特征在于，具备：

图像输入步骤，其接收对被摄体进行摄像而得到的图像数据；

图像存储步骤，其保存接收到的图像数据；

反射及非反射区域分离步骤，其利用第1阈值将上述图像数据二值化，将上述图像数据分离成像素值饱和的反射区域和像素值不饱和的非反射区域，并在上述第1阈值被评价为不合理的情况下，变更该第1阈值来将上述图像数据二值化；

反射区域二值化步骤，其利用第2阈值将上述图像数据的反射区域二值化，将上述反射区域分离成字符区域和背景区域，并在上述第2阈值被评价为不合理的情况下，变更该第2阈值来将上述反射区域二值化；

非反射区域二值化步骤，其利用第3阈值将上述图像数据的非反射区域二值化，将上述非反射区域分离成字符区域和背景区域，并在上述第3阈值被评价为不合理的情况下，变更该第3阈值来将上述非反射区域二值化；

反射及非反射区域分离评价步骤，其利用上述反射区域二值化步骤和上述非反射区域二值化步骤的分离结果来评价上述第1阈值、上述第2阈值或者上述第3阈值；以及

行提取步骤，其对上述反射区域和上述非反射区域各自的字符区域进行合并，并提取出上述图像数据中的结合后的字符区域的位置信息。