CN105426810A

CN105426810A - 信息处理装置和图像修改方法

Info

Publication number: CN105426810A
Application number: CN201510570264.5A
Authority: CN
Inventors: 高桥梓帆美; 柴田智行; 铃木薰; 登内洋次郎; 井本和范; 三原功雄
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-09-17
Filing date: 2015-09-09
Publication date: 2016-03-23
Anticipated expiration: 2035-09-09
Also published as: US9384557B2; JP6325401B2; JP2016062263A; CN105426810B; US20160078631A1

Abstract

根据实施例，信息处理装置包括获取单元、第一和第二分割单元、计算部、修改单元和输出单元。获取单元获取图像。第一分割单元将所述图像分割成为包含一个以上的字符的文本包含区域和除了所述文本包含区域之外的背景区域。第二分割单元将所述文本包含区域分割成为由形成所述字符的线所构成的字符区域和除了所述字符区域之外的字符背景区域。计算部计算所述字符区域的预定属性的第一代表值、所述字符背景区域的所述预定属性的第二代表值、和所述背景区域的所述预定属性的第三代表值。修改单元以基于第一代表值和第三代表值的第一差、基于第一代表值和第二代表值的第二差、以及基于第二代表值和第三代表值的第三差变大的方式，修改第一代表值、第二代表值和第三代表值中的至少一个。输出单元通过以下获得修改后的图像：当所述第一代表值被修改时，将所述字符区域的所述预定属性的值改变为修改后的第一代表值，当所述第二代表值被修改时，将所述字符背景区域的所述预定属性的值改变为修改后的第二代表值，或者当所述第三代表值被修改时，将所述背景区域的所述预定属性的值改变为修改后的第三代表值。

Description

信息处理装置和图像修改方法

相关申请的交叉引用

这个申请基于2014年9月17日提交的第2014-189286号日本专利申请，并要求其优先权，其全部内容通过引用被结合在此。

技术领域

在此描述的实施例大体涉及信息处理装置和图像修改方法。

背景技术

在相关的技术中，已知在包括包含字符的文本包含区域的图像上显示光标、以及将光标移动到文本包含区域以引起用户对于该文本包含区域的注意的技术。

然而，利用如上所述的相关技术，间接地引起对于图像中的本文的注意，这使得与直接地引起对于图像中的本文的注意的情况相比，用户的本文的识别较慢。

发明内容

实施例的目的是提供能够加快用户对于图像中的本文的识别的信息处理装置和图像修改方法。

根据实施例，信息处理装置包括获取单元、第一分割单元、第二分割单元、计算器、修改单元和输出单元。获取单元获取图像。第一分割单元将所述图像分割成为包含一个以上的字符的文本包含区域和除了所述文本包含区域之外的背景区域。第二分割单元将所述文本包含区域分割成为由形成所述字符的线所构成的字符区域和除了所述字符区域之外的字符背景区域。计算部计算所述字符区域的预定属性的第一代表值、所述字符背景区域的所述预定属性的第二代表值、和所述背景区域的所述预定属性的第三代表值。修改单元以基于第一代表值和第三代表值的第一差、基于第一代表值和第二代表值的第二差以及基于第二代表值和第三代表值的第三差变大的方式，修改第一代表值、第二代表值和第三代表值中的至少一个。输出单元通过以下获得修改后的图像：当所述第一代表值被修改时，将所述字符区域的所述预定属性的值改变为修改后的第一代表值，当所述第二代表值被修改时，将所述字符背景区域的所述预定属性的值改变为修改后的第二代表值，或者当所述第三代表值被修改时，将所述背景区域的所述预定属性的值改变为修改后的第三代表值。

根据如上所述的信息处理装置，可以加快用户对于图像中的本文的识别。

附图说明

图1是图解根据第一实施例的信息处理装置的实例的配置图。

图2是根据第一实施例的文本包含区域和背景区域的实例的说明图；

图3是用于从图像检测采集一个以上的字符的区域的已知技术的实例的说明图；

图4是用于从图像中提取字符成分的已知技术的实例的说明图；

图5是根据第一实施例的字符区域和字符背景区域的实例的说明图；

图6是图解根据第一实施例的视觉识别距离表的实例的表；

图7是图解根据第一实施例的修改后的图像的实例的图；

图8是图解根据第一实施例的处理实例的流程图；

图9是图解根据第一实施例的Lab颜色空间中的第一代表值在修改前后的位置的图；

图10是图解根据第一实施例的ab平面上的第一代表值在修改前后的位置的图；

图11是图解根据第二实施例的信息处理装置的实例的配置图；

图12是判定线是否被包含在根据变形实例7的字符区域的外接矩形的长边的周围中的技术的实例的说明图；

图13是判定线是否被包含在根据变形实例7的字符区域的外接矩形的长边的周围中的技术的实例的说明图；

图14是判定线是否被包含在根据变形实例7的字符区域的外接矩形的长边的周围中的技术的实例的说明图；

图15是判定线是否被包含在根据变形实例7的字符区域的外接矩形的长边的周围中的技术的实例的说明图；

图16是判定小型字符是否被包含在根据变形实例8的字符区域的外接矩形的周围中的技术的实例的说明图；

图17是判定小型字符是否被包含在根据变形实例8的字符区域的外接矩形的周围中的技术的实例的说明图；

图18是判定小型字符是否被包含在根据变形实例8的字符区域的外接矩形的周围中的技术的实例的说明图；

图19是图解根据第三实施例的信息处理系统的实例的配置图；

图20是图解根据第三实施例的信息处理系统的使用实例的说明图；

图21是图解根据第三实施例的信息处理系统的使用实例的说明图；

图22是图解根据第四实施例的信息处理系统的实例的配置图；

图23是根据第四实施例的组合技术的实例的说明图；

图24是图解根据第四实施例的合成图像的实例的图；以及

图25是图解根据实施例和变形实例的信息处理装置的硬件配置实例的方框图。

具体实施方式

以下将参照附图详细地描述实施例。

第一实施例

图1是图解根据第一实施例的信息处理装置10的实例的配置图。如图1图示的，信息处理装置10包括成像单元9、获取单元11、第一分割单元12、第二分割单元13、计算部14、存储单元15、修改单元16、输出单元17、和显示单元18。

在第一实施例中，假定该信息处理装置10是眼镜式可佩带终端，但是替换地，可以是除了眼镜式终端之外的可佩带终端、智能手机、平板终端、个人计算机(PC)等等。

成像单元9例如可以由成像器构成，该成像器具有电荷耦合装置(CCD)或互补金属氧化物半导体(CMOS)作为图像传感器。

获取单元11、第一分割单元12、第二分割单元13、计算部14、修改单元16和输出单元17可以通过使得诸如中央处理单元(CPU)的处理装置执行程序来被实现，即，可以通过软件来被实现，可以通过诸如集成电路(IC)的硬件来被实现，或可以通过软件和硬件的组合来被实现。

存储单元15可以由存储装置构成，存储装置可以磁性地、光学地或电力地存储信息，例如，存储装置诸如是硬盘驱动器(HDD)、固态驱动器(SSD)、存储卡、光盘、随机存取存储器(RAM)、或只读存储器(ROM)。

显示单元18可以由显示装置构成，例如，显示装置诸如是液晶显示器或触摸板显示器。

成像单元9拍摄图像。在第一实施例中，因为假定信息处理装置10是眼镜式可佩带终端，所以成像单元9拍摄由用户经由信息处理装置10在视觉上识别出的图像。

获取单元11获取由成像单元9拍摄的图像。

第一分割单元12将获取单元11获取到的图像分割成为包含一个以上的字符的文本包含区域和除了该文本包含区域之外的背景区域。

注意，文本包含区域的数量取决于由获取单元11获取到的图像。因此，当一个文本包含区域被包含在由获取单元11获取到的图像中时，第一分割单元12从图像分割一个文本包含区域，或当多个文本包含区域被包含在由获取单元11获取到的图像中时，第一分割单元12从图像分割多个文本包含区域。

具体地，第一分割单元12从获取单元11获取到的图像中检测采集一个以上的字符的区域，从该图像中提取外接检测到的区域的区域，并且将提取到的区域设定为文本包含区域以及将非提取到的区域设定为背景区域。

图2是根据第一实施例的文本包含区域和背景区域的实例的说明图。在图2图示的实例中，包含本文“STOP”的八边形的区域是文本包含区域106，并且除了文本包含区域106之外的区域是背景区域。尽管在图像上部的包含韩国字符的区域实际上也是文本包含区域，但是这里将不提供其描述，该区域将被假定为背景区域的一部分。

注意，已知技术可以被用于从图像中检测采集一个以上的字符的区域的技术。

图3是用于从图像中检测采集一个以上的字符的区域的已知技术的实例的说明图。在图3图示的实例中，通过从图像中提取组成全部或一部分字符的字符成分121到125(一个以上的连续像素)、从提取到的字符成分121到125中选择估计被包含在相同的字符串中的字符成分(这里选择字符成分121到125)、并且基于选择出的字符成分121到125来获取关于字符串的方向和高度的信息，从图2图示的图像中检测到采集一个以上的字符的区域126(例如，细节参考JP-A2005-309771(公报))。注意，区域126可以被设定为文本包含区域。

图4是用于从图像中提取字符成分的已知技术的实例的说明图。在图4图示的实例中，图像101以恒定比率r(其中，0<r<1)逐渐地缩小尺寸，以便生成一个以上的改变尺寸的图像102-1到102-2，图像101和改变尺寸的图像102-1到102-2以它们的中心被对准的方式被竖直地布置，以便获得分辨率角锥体图像103，并且通过具有预定尺寸的检测窗口104，包含在分辨率角锥体图像103中的图像101和改变尺寸的图像102-1到102-2中的对应部分被切掉，以便生成三个局部图像。然后，使用已经预先学习了字符图像和非字符图像的字符检测词典，三个局部图像各自被检查，并且如果局部图像具有指示字符的可能性超过用于提取字符成分的阈值的分数，那么每个局部图像被提取作为字符成分。可以通过诸如使用子空间方法、支撑向量机等等的模式识别的已知技术，来获得指示字符的可能性的分数。

第二分割单元13将通过第一分割单元12的分割而获得的文本包含区域分割成为由形成字符的线构成的字符区域和除了该字符区域之外的字符背景区域。

图5是根据第一实施例的字符领域和字符背景区域的实例的说明图。在图5图示的实例中，第二分割单元13将文本包含区域106分割成为由字符“STOP”构成的字符区域107和从文本包含区域106排除字符区域107而产生的字符背景区域108。

具体地，第二分割单元13对组成文本包含区域的像素进行二值化并且进行分析，通过连接具有类似特征的相邻像素来生成多个连接成分，根据生成的连接成分的相对位置和连接成分的类似度来组合基本上被布置成一直线的连接成分,提取组成字符的线，以及将提取到的线的区域设定为字符区域并且将其中没有线被提取的区域设定为字符背景区域。

在已知了字符以比字符背景的颜色深的颜色被写入的情况下，要被连接的像素是黑色像素，并且在已知了字符以比字符背景浅的颜色被写入的情况下，要被连接的像素是白色像素。此外，在未知字符是否比字符背景深或浅的情况下，当白色像素的数量在组成文本包含区域的像素中较多时，可以判定字符以比字符背景颜色深的颜色被写入、并且因此要被连接的像素是黑色像素，而且当黑色像素的数量在组成文本包含区域的像素中较多时，可以判定字符以比字符背景的颜色浅的颜色被写入、并且因此要被连接的像素是白色像素。

然而，用于分割成为字符区域和字符背景区域的技术并不局限于如上所述的技术，因此可以使用其他已知技术等等。注意，第二分割单元13将文本包含区域分割成为字符区域和字符背景区域，在处理量(例如，处理时间和处理所需的数据量)可以被减少这一点上以及在可以独立于语言类型而进行字符区域和字符背景区域的分割这一点上，比光学字符识别(OCR)等等更加有利。

计算部14计算第一代表值、第二代表值和第三代表值，第一代表值具有从第二分割单元13的分割所产生的字符区域的预定属性，第二代表值具有从第二分割单元13的分割所产生的字符背景区域的预定属性，第三代表值具有从第一分割单元12的分割所产生的背景区域的预定属性。

预定属性可以是能够表现人类感知到的容易性的任何属性，也就是说，可以表现对人眼的重要性或感知的容易性的属性，而且它们的实例包括色调、亮度和饱和度。在第一实施例中将描述预定属性是色调的实例，但是属性并不局限于此。

此外，在第一实施例中，第一代表值是具有字符区域中的色调的代表颜色，更具体地，是字符区域中最显著的颜色。第二代表值是具有字符背景区域中的色调的代表颜色，更具体地，是字符背景区域中最显著的颜色。第三代表值是具有背景区域中的色调的代表颜色，更具体地，是背景区域中最显著的颜色。

例如，在字符区域中，最显著的颜色可以是字符区域中最常用的颜色。替换地，在字符区域中，例如，生成字符区域的显著性图，并且最显著的颜色可以是该显著性图中最显著的像素的颜色。这个同样适用于字符背景区域和背景区域。

显著性图是表现区域中的每一个像素的重要性程度(概率)的图，并且可以以根据颜色、辉度和边缘来分解区域、并且多尺度的图像中的各个成分的相邻特征之间的差分被计算和综合(对于细节，例如参考L.Itti、C.Koch、和E.Niebur，“Amodelofsaliency-basedvisualattentionforrapidsceneanalysis”，IEEETrans.PatternAnal.Mach.Intell.，第20卷，第11号，第1254-1259页，1998)的方式被生成。

存储单元15存储视觉识别距离表。图6是图解根据第一实施例的视觉识别距离表的实例的表。图6图示的视觉识别距离表是显示图案颜色和背景颜色的每种组合的视觉识别距离，是基于大岛Oshima(1953)的研究。视觉识别距离是可以视觉上识别图案的距离。在视觉识别距离的值较大时，图案的颜色相对于背景的颜色更加引人注意并且该图案更加容易被人识别。注意，视觉识别距离表并不局限于此。

修改单元16以由计算部14计算出的基于第一代表值和第三代表值的第一差、基于第一代表值和第二代表值的第二差、以及基于第二代表值和第三代表值的第三差变得较大的方式，来修改第一代表值、第二代表值和第三代表值中的至少一个。

在第一实施例中，预定属性是如上所述的色调。此外，在第一实施例中，第一差是当第一代表值是图案的颜色(对象的实例)并且第三代表值是图案的背景的颜色时的视觉识别距离，第二差是当第一代表值是图案的颜色并且第二代表值是图案的背景的颜色时的视觉识别距离，以及第三差是当第二代表值是图案的颜色并且第三代表值是图案的背景的颜色时的视觉识别距离。

修改单元16参照存储在存储单元15中的视觉识别距离表，并且以第一差、第二差和第三差变得较大的方式，来修改第一代表值、第二代表值和第三代表值中的至少一个。

更具体地，修改单元16参照图6中图示的视觉识别距离表，并且以第一差被最大化、第二差和第三差变得较大、并且进一步第二差和第三差的和被最大化的方式，来修改第一代表值和第二代表值。

例如，在图5中图示的状态中，假定字符区域107的第一代表值是“橙色”，字符背景区域108的第二代表值是“红色”，以及背景区域的第三代表值是“红色”。

在这种情况下，修改单元16首先参照图6中图示的视觉识别距离表，并且以第一差被最大化的方式，来修改第一代表值。结果，字符区域107的第一代表值被改变为“黄色”。

随后，修改单元16参照图6中图示的视觉识别距离表，并且，以第二差和第三差变得较大、并且进一步第二差和第三差的和被最大化的方式，来修改第二代表值。结果，字符背景区域108的第二代表值被改变为“紫色”。

当修改单元16修改第一代表值时，输出单元17将通过改变字符区域的预定属性的值所获得的修改后的图像输出到修改后的第一代表值；当修改单元16修改第二代表值时，输出单元17将通过改变字符背景区域的预定属性的值所获得的修改后的图像输出到修改后的第二代表值；并且当修改单元16修改第三代表值时，输出单元17将通过改变背景区域的预定属性的值所获得的修改后的图像输出到修改后的第三代表值。具体地，输出单元17将修改后的图像输出到显示单元18之上用于显示。

在参照图6中图示的视觉识别距离表的实例中，因为通过修改单元16，第一代表值从“橙色”被修改为“黄色”，并且第二代表值从“红色”改变为“紫色”，因此，如图7图示的，输出单元17将修改后的图像输出到显示单元18之上用于显示，该修改后的图像是通过将整个字符区域107的颜色改变为“黄色”并且将整个字符背景区域108的颜色改变为“紫色”而获得的。

图8是图解由根据第一实施例的信息处理装置10进行的处理的过程的流程的实例的流程图。

首先，获取单元11获取由成像单元9拍摄的图像，并且第一分割单元12将获取单元11获取到的图像分割成为文本包含区域和背景区域(步骤S1)。

随后，对于文本包含区域(在步骤S2中为“是”)，第二分割单元13将文本包含区域分割成为字符区域和字符背景区域(步骤S4)。

随后，对于背景区域(在步骤S2中为“否”)，计算部14计算作为背景区域的预定属性的代表值的第三代表值(步骤S3)；对于字符背景区域(在步骤S5中为“否”)，计算部14计算作为字符背景区域的预定属性的代表值的第二代表值(步骤S6)；并且对于字符区域(在步骤S5中为“是”)，计算部14计算作为字符区域的预定属性的代表值的第一代表值(步骤S7)。

随后，修改单元16以第一差、第二差和第三差变得较大的方式，修改第一代表值、第二代表值和第三代表值中的至少一个(步骤S8)。

随后，当修改单元16修改第一代表值时，输出单元17将通过改变字符区域的预定属性的值所获得的修改后的图像输出到修改后的第一代表值；当修改单元16修改第二代表值时，输出单元17将通过改变字符背景区域的预定属性的值所获得的修改后的图像输出到修改后的第二代表值；并且当修改单元16修改第三代表值时，输出单元17将通过改变背景区域的预定属性的值所获得的修改后的图像输出到修改后的第三代表值(步骤S9)。

如上所述，根据第一实施例，做出使得属性的差较大的这种修改，该属性的差可以表现字符区域、字符背景区域和背景区域之间的被人识别的容易性，这可以加快用户对于图像中的字符的识别。

特别地，根据第一实施例，因为在字符区域和字符背景区域的颜色被改变的同时，背景区域的颜色没有被改变，所以可以在没有改变用户对于原始图像所具有的印象的情况下，加快用户对于图像中的字符的识别。

变形实例1

在如上所述的第一实施例中，字符区域、字符背景区域和背景区域的颜色可以用L*a*b*颜色空间(以下简称为“Lab颜色空间”)表示，预定属性可以是Lab颜色空间中的亮度，第一代表值可以是字符区域中的亮度的代表值，第二代表值可以是字符背景区域中的亮度的代表值，并且第三代表值可以是背景区域中的亮度的代表值。

对于字符区域，第一代表值可以是字符区域中最显著的亮度的值，也就是说，字符区域中最常用的亮度或字符区域的显著性图中最显著的像素的亮度。这同样适用于字符背景区域和背景区域。

在这种情况下，第一差是第一代表值和第三代表值之间的差(亮度差)，第二差是第一代表值和第二代表值之间的差(亮度差)，并且第三差是第二代表值和第三代表值之间的差(亮度差)。

注意，Lab颜色空间中的亮度差可以通过表达式(1)被获得。

Δ L = \sqrt{{(L 1 - L 2)}^{2}} - - - (1)

因此，计算部14可以将第一代表值赋值给表达式(1)的L1以及将第三代表值赋值给表达式(1)L2，以获得第一差，可以将第一代表值赋值给表达式(1)的L1以及将第二代表值赋值给表达式(1)L2，以获得第二差，并且可以将第二代表值赋值给表达式(1)的L1以及将第三代表值赋值给表达式(1)的L2，以获得第三差。

当第一差由ΔL1表示，第二差由ΔL2表示，第三差由ΔL3表示时，修改后的第一差由ΔL1_new表示，修改后的第二差由ΔL2_new表示，以及修改后的第三差由ΔL3_new表示，修改单元16可以以满足表达式(2)的方式，来修改第一代表值、第二代表值以及第三代表值中的任何一个值。

ΔL1_new>ΔL1andΔL2_new>ΔL2andΔL3_new>ΔL3(2)

根据变形实例1，做出使得字符区域、字符背景区域以及背景区域之间的亮度差较大的这种修改，这可以加快用户对于图像中的字符的识别。

变形实例2

在变形实例1中，Lab颜色空间中的饱和度可以被添加到预定属性，并且字符区域的饱和度的代表值可以进一步被添加到第一代表值，字符背景区域的饱和度的代表值可以进一步被添加到第二代表值，以及背景区域的饱和度的代表值可以进一步被添加到第三代表值。注意，饱和度的代表值由一对a值和b值表示。因为已经在变形实例1中描述了亮度，所以将不重复对于亮度的描述，并且将在变形实例2中对于饱和度做出具体地描述。

对于字符区域，字符区域中最显著的饱和度的值被添加到第一代表值。最显著的饱和度的值可以是字符区域中最常用的饱和度或字符区域的显著性图中最显著的像素的饱和度。这同样适用于字符背景区域和背景区域。

在这种情况下，第一差是第一代表值和第三代表值之间的差(亮度差和饱和度差)，第二差是第一代表值和第二代表值之间的差(亮度差和饱和度差)，并且第三差是第二代表值和第三代表值之间的差(亮度差和饱和度差)。

注意，因为Lab颜色空间中的饱和度由表达式(3)限定，所以可以通过表达式(4)获得Lab颜色空间中的饱和度差。

C = \sqrt{a^{2} + b^{2}} - - - (3)

Δ C = \sqrt{{(a 1 - a 2)}^{2} + {(b 1 - b 2)}^{2}} - - - (4)

如此，计算部14可以将第一代表值赋值给表达式(4)的a1和b1、以及将第三代表值赋值给表达式(4)的a2和b2，以获得第一差的饱和度差，可以将第一代表值赋值给表达式(4)的a1和b1、以及将第二代表值赋值给表达式(4)的a2和b2，以获得第二差的饱和度差，并且可以将第二代表值赋值给表达式(4)的a1和b1、以及将第三代表值赋值给表达式(4)的a2和b2，以获得第三差的饱和度差。

当第一差的饱和度差由ΔC1表示、第二差的饱和度差由ΔC2表示、以及第三差的饱和度差由ΔC3表示时，修改后的第一差的饱和度差由ΔC1_new表示，修改后的第二差的饱和度差由ΔC2_new表示，以及修改后的第三差的饱和度差由ΔC3_new表示，修改单元16可以以满足表达式(5)的方式，来修改第一代表值、第二代表值以及第三代表值中的任何一个值。

ΔC1_new>ΔC1andΔC2_new>ΔC2andΔC3_new>ΔC3(5)

根据变形实例2，做出使得字符区域、字符背景区域以及背景区域之间的亮度差和饱和度差较大的这种修改，这可以加快用户对于图像中的字符的识别。

尽管在变形实例2中描述了Lab颜色空间中的亮度和饱和度两者都用于预定属性的实例，但是在不使用亮度的情况下，仅仅饱和度可以被使用。

变形实例3

在如上所述的第一实施例中，字符区域、字符背景区域和背景区域的颜色可以用Lab颜色空间表示，预定属性可以是Lab颜色空间中的颜色，第一代表值可以是字符区域中的颜色的代表值，第二代表值可以是字符背景区域中的颜色的代表值，并且第三代表值可以是背景区域中的颜色的代表值。注意，颜色的代表值由一组L值、a值和b值表示。

对于字符区域，第一代表值可以是字符区域中最显著的颜色的值，也就是说，字符区域中最常用的颜色或字符区域的显著性图中最显著的像素的颜色。这同样适用于字符背景区域和背景区域。

在这种情况下，第一差是第一代表值和第三代表值之间的差(颜色差)，第二差是第一代表值和第二代表值之间的差(颜色差)，并且第三差是第二代表值和第三代表值之间的差(颜色差)。

注意，Lab颜色空间中的颜色差可以通过表达式(6)被获得。

Δ d = \sqrt{{(L 1 - L 2)}^{2} + {(a 1 - a 2)}^{2} + {(b 1 - b 2)}^{2}} - - - (6)

如此，计算部14可以将第一代表值赋值给表达式(6)的L1、a1和b1、将第三代表值赋值给表达式(6)的L2、a2和b2，以获得第一差，可以将第一代表值赋值给表达式(6)的L1、a1和b1、将第二代表值赋值给表达式(6)的L2、a2和b2，以获得第二差，并且可以将第二代表值赋值给表达式(6)的L1、a1和b1、将第三代表值赋值给表达式(6)的L2、a2和b2，以获得第三差。

当第一差由Δd1表示、第二差由Δd2表示、第三差由Δd3表示时，修改后的第一差由Δd1_new表示，修改后的第二差由Δd2_new表示，并且修改后的第三差由Δd3_new表示，修改单元16可以以满足以下情形中的任何一个的方式，来修改第一代表值、第二代表值和第三代表值中的任何一个。

注意，因为Lab颜色空间是均匀的颜色空间，其中颜色差表示颜色的接近度，所以具有较大的颜色差的配色更加容易被人识别。因此，修改单元16将第一代表值修改为具有较高视觉吸引力的颜色的值。具有高视觉吸引力的颜色的实例包括ISO3864-1:2002(日本工业标准：JISz9101-2001)中提供的安全色。

具体地，修改单元16将第一代表值修改为Δd1_new和Δd2_new之间的差是安全色的值中最大值的颜色的值。在这种情况下，修改单元16以Δd_new和Δd2_new的值是3以上的方式，修改第一代表值。

替换地，具有高视觉吸引力的颜色可以是暖色。在这种情况下，修改单元16在正向(朝向较暖色)上、并且以第一代表值的a值和b值的绝对值变得较大的方式修改第一代表值的a值和b值，从而以ab平面上第一代表值和原点之间的角度变得较大的方式，修改第一代表值的a值和b值，如图9和10图示。注意，图9是图解根据第一实施例的Lab颜色空间中的第一代表值在修改前后的位置的实例的图，并且图10是根据第一实施例的平面上的第一代表值在修改前后的位置的实例的图。

根据变形实例3，做出使得字符区域和字符背景区域之间的颜色差较大、而且使得字符区域和背景区域之间的颜色差较大的这种修改，这可以加快用户对于图像中的字符的识别。

变形实例4

在如上所述的第一实施例中，预定属性可以是区域的短边或包含在区域中的线的粗细(总称为“线的粗细”)，第一代表值可以是字符区域中的线的粗细，第二代表值可以是字符背景区域中的线的粗细，第三代表值可以是背景区域中的线的粗细，并且第一差、第二差和第三差可以是线粗细的差。

第二实施例

在第二实施例中，将描述一个实例，在该实例中，文本包含区域的重要性进一步用于判定文本包含区域是被处理作为文本包含区域还是背景区域。在下文中，将主要描述与第一实施例的差异，并且具有与第一实施例中类似作用的部件将被指定与第一实施例中的那些部件相同的名称和参考数字，并且将不重复它们的描述。

图11是图解根据第二实施例的信息处理装置210的实例的配置图。如图11图示的，根据第二实施例的信息处理装置210与第一实施例的不同之处在于存储单元215和判定单元219。

在第二实施例中，假定多个文本包含区域被包含在由获取单元11获取到的图像中，第一分割单元12从该图像分割多个文本包含区域，而且第二分割单元13将每一个文本包含区域分割成为字符区域和字符背景区域。

存储单元215进一步存储安全色表，该安全色表定义ISO3864-1:2002中提供的安全色。

判定单元219判定从第二分割单元13的分割所得到的每一个字符区域的重要性，并且将重要性等于或低于阈值的字符区域以及这个字符区域的字符背景区域判定为背景区域。具体地，判定单元219使用图6图示的视觉识别距离表以及存储在存储单元215中的安全色表，来判定字符区域的重要性。

例如，判定单元219参照图6图示的视觉识别距离表，并且如果字符区域的视觉识别距离超过视觉识别距离的阈值，那么判定字符区域要被视为字符区域，或者如果字符区域的视觉识别距离等于或小于视觉识别距离的阈值，那么判定字符区域和它的字符背景区域要被视为背景区域。在这种情况下，重要性对应于视觉识别距离。

替换地，例如，判定单元219参照安全色表，如果字符区域包含安全色，那么判定字符区域要被视为字符区域，或者如果字符区域不包含安全色，那么判定字符区域和它的字符背景区域要被视为背景区域。在这种情况下，重要性和阈值对应于安全色的存在/不存在。

根据第二实施例，在存在多个字符区域的情况下，可以加快用户对于具有高重要性的字符区域中的字符的识别。

变形实例5

在如上所述的第二实施例中，如果字符区域中的线的粗细超过线粗细的阈值，那么判定单元219可以判定字符区域要被视为字符区域，或者如果字符区域中的线的粗细等于或者小于线粗细的阈值，那么字符区域和它的字符背景区域要被视为背景区域。在这种情况下，重要性对应于线粗细。

变形实例6

在如上所述的第二实施例中，判定单元219可以从字符区域中的多条线来计算第一主方向成分和第二主方向成分，而且如果第一主方向成分和第二主方向成分没有互相正交，那么可以判定字符区域要被视为字符区域，或者如果第一主方向成分和第二主方向成分互相正交，那么字符区域和它的字符背景区域要被视为背景区域。在这种情况下，重要性和阈值对应于第一主方向成分和第二主方向成分是否互相正交。注意，第一主方向成分是字符区域中的多条线的方向成分中最常用的方向成分，而且第二主方向成分是字符区域中的多条线的方向成分中第二最常用的方向成分。

根据变形实例6，在存在多个字符区域的情况下，可以加快用户对于斜体的字符区域中的字符的识别。

变形实例7

在第二实施例中，如果线被包含在字符区域的外接矩形的长边的周围，那么判定单元219可以判定字符区域要被视为字符区域，或者如果没有线被包含在字符区域的外接矩形的长边的周围，那么可以判定字符区域和它的字符背景区域要被视为背景区域。在这种情况下，重要性和阈值对应于字符区域的外接矩形的长边的周围中的线的存在/不存在。

例如，当图12图示的图像被获取单元11获取时，因为线被包含在外接矩形311的长边的周围，所以判定单元219判定外接矩形311的字符区域要被视为字符区域，并且因为没有线被包含在外接矩形312的长边的周围，所以判定外接矩形312的字符区域和它的字符背景区域要被视为背景区域，如图13图示。

具体地，判定单元219将外接矩形分割成为三个部分，上部、中部和下部，并且如果是外接矩形的短边的两倍以上的线存在于下部之中，那么判定线被包含在外接矩形的长边的周围。因此，如图14图示的，判定线被包含在外接矩形311的长边周围，而且如图15图示的，判定没有线被包含在外接矩形312的长边周围。

根据变形实例7，在存在多个字符区域的情况下，可以加快用户对于使用下划线的字符区域中的字符的识别。

变形实例8

在第二实施例中，如果小型字符被包含在字符区域的外接矩形的周围，那么判定单元219可以判定字符区域要被视为字符区域，或者如果没有小型字符被包含在字符区域的外接矩形的周围，那么可以判定字符区域和它的字符背景区域要被视为背景区域。在这种情况下，重要性和阈值对应于字符区域的外接矩形的周围的小型字符的存在/不存在。

例如，当图16图示的图像被获取单元11获取时，在图17图示的实例中，因为小型字符的外接矩形332被包含在外接矩形331的周围，所以判定单元219判定外接矩形331的字符区域要被视为字符区域，或者在图18图示的实例中，因为没有小型字符的外接矩形被包含在外接矩形341和342的周围，所以判定外接矩形341的字符区域和它的字符背景区域要被视为背景区域，而且外接矩形342的字符区域和它的字符背景区域要被视为背景区域。

具体地，判定单元219在外接区域的上部设定具有与外接矩形相同尺寸的区域，如果具有短边在区域的短边2/3长度以下的外接矩形存在于该区域之中，那么判定小型字符被包含在外接矩形的周围。因此，如图17图示的，判定小型字符存在于外接矩形331的周围，而且如图18图示的，判定没有小型字符被包含在外接矩形341和342周围。

第三实施例

在第三实施例中，将描述从外部获取图像并且修改后的图像被输出到外部的实例。在下文中，将主要描述与第一实施例的差异，并且具有与第一实施例中类似作用的部件将被指定与第一实施例中的那些部件相同的名称和参考数字，并且将不重复它们的描述。

图19是图解根据第三实施例的信息处理系统400的实例的配置图。如图19图示的，信息处理系统400包括成像装置401、信息处理装置410和显示装置402。

注意，信息处理装置410经由网络(未图示)被连接到成像装置401和显示装置402。网络的实例包括因特网、虚拟专用网络(VPN)、和局域网(LAN)。

信息处理装置410与第一实施例的不同之处，在于不包含成像单元9和显示单元18，以及在于获取单元411和输出单元417。

成像装置401被配置为拍摄图像，并且例如，可以由具有作为图像传感器的CCD或者CMOS的成像器构成。

获取单元411经由网络从成像装置401获取图像。

输出单元417经由网络将用于显示的修改后的图像输出到显示装置402之上。

显示装置402被配置为显示修改后的图像，并且例如，可以由显示装置构成，显示装置诸如是液晶显示器或者触摸板显示器。

根据第三实施例，如图20图示的，信息处理装置410可以获取由安装在工作场地的成像装置401所拍摄的图像501，通过第一实施例中描述的技术生成修改后的图像，并且如图21图示的，将通过修改字符区域522和字符背景区域521的颜色而获得的修改后的图像520显示到工作者的显示装置402。

因此，包含用户的视野之外的领域或者具有该领域和用户之间的障碍物的领域中的字符区域的图像可以被呈现给用户，并且可以加快用户对于图像中的字符的识别。

特别地，对于监控远程位置的用户而言，可以加快用户对于远程位置中的本文信息的识别。例如，对于监控远程位置中的测量计的数值的用户而言，可以加快用户对于测量计的数值的识别。

第四实施例

在第四实施例中，将描述组合获取图像的实例。在下文中，将主要描述与第三实施例的差异，并且具有与第三实施例中类似作用的部件将被指定与第三实施例中的那些部件相同的名称和参考数字，并且将不重复它们的描述。

图22是图解根据第四实施例的信息处理系统600的实例的配置图。如图22图示的，信息处理系统600与第三实施例的不同之处在于，信息处理装置610包括补偿单元619。

在第四实施例中，获取单元411被配置为获取同时拍摄的多个图像。

补偿单元619组合由获取单元411获取到的多个图像。具体地，补偿单元619计算局部特征量，在由获取单元411获取到的图像701和702中，局部特征量表现具有不会通过转动和缩放比例被改变的稳定的特征的点的区域，补偿单元619判定各个图像中的局部特征量之中最类似的点为对应点，如图23图示。然后，补偿单元619从多个判定出的对应点推测两个图像之间的移位量和变形量，根据推测的移位量和变形量，互相重叠图像，以使对应点互相匹配，并且将图像校正为如图24图示的合成图像703。

硬件配置

图25是图解根据如上所述的实施例和变形实例的信息处理装置的硬件配置实例的方框图。如图25图示的，根据如上所述的实施例以及变形实例的信息处理装置各自包括诸如CPU的控制器901、诸如ROM和RAM的存储装置902、诸如HDD和SSD的外储存器装置903、诸如显示器的显示装置904、诸如鼠标和键盘的输入装置905、通信接口(I/F)906、以及诸如摄像机的成像装置907，可以通过使用常用的计算机系统的硬件配置来实现。然而，根据第三和第四实施例信息处理装置不必包括成像装置907。

要由根据如上所述的实施例和变形实例的信息处理装置执行的程序可以被预先内置在ROM等等中，并且从那里被提供。

替换地，要由根据如上所述的实施例以及变形实例的信息处理装置执行的程序可以以能够被安装或者执行的文件的形式被记录在计算机可读的记录介质上，计算机可读的记录介质诸如是CD-ROM、CD-R、存储卡、DVD和软磁盘(FD)，并从那里被提供。

替换地，要由根据如上所述的实施例和变形实例的信息处理装置执行的程序可以被存储在连接到诸如因特网的网络的计算机系统上，并且通过经由该网络被下载而被提供。仍然替换地，可以经由诸如因特网的网络来提供或者分配要由根据如上所述的实施例和变形实例的信息处理装置执行的程序。

要由按照如上所述的实施例和变形实例的信息处理装置执行的程序具有用于在计算机系统上实现如上所述的单元的模块结构。在实际的硬件配置中，例如，控制器901从外部存储装置903读取程序到存储装置902上，并且执行该程序，从而在计算机上实现各个单元。

如上所述，根据实施例和变形实例，可以加快用户对于图像中的字符的识别。

例如，如上所述的实施例中的流程图中的步骤可以以不同的顺序被执行，一些步骤可以同时被执行，或者每当执行步骤时，执行步骤的顺序可以被改变。

此外，例如，第二实施例可以与第三实施例或者第四实施例组合。

虽然已经描述了某些实施例，但是这些实施例仅仅是通过举例而给出的，并不是想要限定本发明的范围。实际上，在此描述的新的实施例可以包含在各种其他形态之中；此外，在没有违背本发明的精神的情况下，能够以在此描述的实施例的形式，作出各种省略、替换和变化。附带的如权利要求书和它们的等效物意欲覆盖这种属于本发明的范围和精神的形式或变形。

Claims

1.一种信息处理装置，其特征在于，包括：

获取图像的获取单元；

第一分割单元，所述第一分割单元将所述图像分割成为包含一个以上的字符的文本包含区域和除了所述文本包含区域之外的背景区域；

第二分割单元，所述第二分割单元将所述文本包含区域分割成为由形成所述字符的线所构成的字符区域和除了所述字符区域之外的字符背景区域；

计算部，所述计算部计算所述字符区域的预定属性的第一代表值、所述字符背景区域的所述预定属性的第二代表值、和所述背景区域的所述预定属性的第三代表值；

修改单元，所述修改单元以基于所述第一代表值和所述第三代表值的第一差、基于所述第一代表值和所述第二代表值的第二差、以及基于所述第二代表值和所述第三代表值的第三差变大的方式，修改所述第一代表值、所述第二代表值和所述第三代表值中的至少一个；和

输出单元，所述输出单元通过以下过程获得修改后的图像

当所述第一代表值被修改时，将所述字符区域的所述预定属性的值改变为修改后的第一代表值，

当所述第二代表值被修改时，将所述字符背景区域的所述预定属性的值改变为修改后的第二代表值，或者

当所述第三代表值被修改时，将所述背景区域的所述预定属性的值改变为修改后的第三代表值。

2.如权利要求1所述的装置，其特征在于，所述预定属性是能够表现被人识别的容易性的属性。

3.如权利要求2所述的装置，其特征在于，

所述预定属性是色调，

所述第一代表值是所述字符区域中的色调的代表颜色，

所述第二代表值是所述字符背景区域中的色调的代表颜色，

所述第三代表值是所述背景区域中的色调的代表颜色，

所述第一差是当所述第一代表值是对象的颜色并且所述第三代表值是所述对象的背景的颜色时的视觉识别距离，

所述第二差是当所述第一代表值是对象的颜色并且所述第二代表值是所述对象的背景的颜色时的视觉识别距离，以及

所述第三差是当所述第二代表值是对象的颜色并且所述第三代表值是所述对象的背景的颜色时的视觉识别距离。

4.如权利要求3所述的装置，其特征在于，所述修改单元进一步以所述第二差和所述第三差的和被最大化的方式，修改所述第一代表值和所述第二代表值。

5.如权利要求2所述的装置，其特征在于，

所述预定属性是亮度，以及

所述第一代表值是所述字符区域中的亮度的代表值，

所述第二代表值是所述字符背景区域中的亮度的代表值，

所述第三代表值是所述背景区域中的亮度的代表值，以及

所述第一差、所述第二差和所述第三差是亮度差。

6.如权利要求2所述的装置，其特征在于，

所述预定属性是饱和度，以及

所述第一代表值是所述字符区域中的饱和度的代表值，

所述第二代表值是所述字符背景区域中的饱和度的代表值，

所述第三代表值是所述背景区域中的饱和度的代表值，以及

所述第一差、所述第二差和所述第三差是饱和度差。

7.如权利要求2所述的装置，其特征在于，

所述预定属性是颜色，以及

所述第一代表值是所述字符区域中的颜色的代表值，

所述第二代表值是所述字符背景区域中的颜色的代表值，

所述第三代表值是所述背景区域中的颜色的代表值，以及

所述第一差、所述第二差和所述第三差是颜色差。

8.如权利要求1所述的装置，其特征在于，

所述第一分割单元将所述图像分割成为多个文本包含区域和所述背景区域，并且

所述第二分割单元将每个所述文本包含区域分割成为所述字符区域和所述字符背景区域，

所述信息处理装置进一步包括判定单元，所述判定单元判定所述字符区域中的每个字符区域的重要性，并且将重要性等于或低于阈值的字符区域以及所述字符区域的字符背景区域判定为背景区域。

9.如权利要求1所述的装置，其特征在于，所述输出单元将所述修改后的图像输出到显示单元，用于显示。

10.如权利要求1所述的装置，其特征在于，所述输出单元将所述修改后的图像输出到外部装置。