CN104598018B

CN104598018B - 图像显示装置以及图像显示方法

Info

Publication number: CN104598018B
Application number: CN201410386716.XA
Authority: CN
Inventors: 浜田伸郎; 浜田伸一郎; 长田邦男; 三原功雄; 登内洋次郎; 铃木薰
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2013-10-31
Filing date: 2014-08-07
Publication date: 2018-12-11
Anticipated expiration: 2034-08-07
Also published as: US10296803B2; EP2869237A1; CN104598018A; JP2015088046A; JP6419421B2; US20150116349A1

Abstract

本发明提供一种图像显示装置以及图像显示方法。实施方式的图像显示装置具备检测部、生成部以及显示控制部。检测部从输入图像检测注目区域。生成部对检测到的注目区域的图像实施提高目视确认性的修正且是包含尺寸修正、正对修正和颜色修正中的至少某一个的修正而生成副图像。显示控制部使所生成的副图像以伴随着表示与注目区域的对应关系的画面表现的形式与输入图像一起显示于显示器。

Description

图像显示装置以及图像显示方法

本申请享受于2013年10月31日在先提出的日本国专利申请号2013－227350的优先权，并编入其全部内容。

技术领域

实施方式涉及图像显示装置以及图像显示方法。

背景技术

以往，已知有对输入图像进行文字识别、目标识别等的识别处理，并将识别处理的结果与输入图像重叠并加以显示的技术。应用了该技术的图像显示装置，能够将在输入图像中被推测为用户关心的对象以容易理解的形式提示给用户。但是，到对于图像的识别处理获得结果为止需要时间，因此，例如在将通过便携式终端的照相机拍摄的情景图像作为输入图像的应用等中，从响应性的观点出发谋求改善。

发明内容

实施方式的图像显示装置具备检测部、生成部以及显示控制部。检测部从输入图像检测注目区域。生成部对检测到的上述注目区域的图像实施提高目视确认性的修正且是包含尺寸修正、颜色修正以及正对修正中的至少某一个的上述修正而生成副图像，其中，上述尺寸修正对上述注目区域的图像的尺寸进行调整，上述颜色修正对上述注目区域的图像的颜色进行调整，上述正对修正以使得上述注目区域所包含的对象成为从正面观察的图像的方式对上述注目区域的图像进行转换。显示控制部使所生成的上述副图像以伴随着表示与上述注目区域的对应关系的画面表现的形式与上述输入图像一起显示于显示器。

附图说明

图1是示出第一实施方式的图像显示装置的构成例的框图。

图2是示出输入图像的具体例的图。

图3是示出目标检测器的处理顺序的一例的流程图。

图4是对图3的步骤S108以及步骤S109的处理进行说明的图。

图5是示出检测部对图2的输入图像进行了处理的情况下的检测结果例的图。

图6是示出正对修正器的处理顺序的一例的流程图。

图7是示出颜色修正器的处理顺序的一例的流程图。

图8是示出副图像接近配置计划器的处理顺序的一例的流程图。

图9是示出接近配置计划最佳化模型的一例的图。

图10是示出在图5的检测结果例中、根据作为接近配置计划最佳化模型的解而得到的配置计划信息配置副图像的例子的图。

图11是对注目区域(区域图像)与对应的副图像的距离的算出方法进行说明的图。

图12是示出副图像显示控制部的处理顺序的一例的流程图。

图13是示出作为由识别结果显示控制部进行处理的结果显示于显示器的图像的一例的图。

图14是示出正误识(false-positive)的检测错误的订正的处理顺序的一例的流程图。

图15是示出负误识的(false-negative)检测错误的订正的处理顺序的一例的流程图。

图16是示出未检测的订正的处理顺序的一例的流程图。

图17是对副图像区域奖励进行说明的图。

图18是示出第二实施方式的图像显示装置的构成例的框图。

图19是示出副图像重叠配置计划器的处理顺序的一例的流程图。

图20是示出重叠配置计划最佳化模型的一例的图。

图21是示出根据作为重叠配置计划最佳化模型的解而得到的配置计划信息配置副图像的例子的图。

图22是对注目区域(区域图像)与对应的副图像的距离的算出方法进行说明的图。

图23是示出作为由识别结果显示控制部进行处理的结果显示于显示器的图像的一例的图。

图24是示出第三实施方式的图像显示装置的构成例的框图。

图25是示出作为副图像显示控制部的处理的结果显示于显示器的图像的一例的图。

图26是示出作为识别结果显示控制部的处理的结果显示于显示器的图像的一例的图。

图27是对图像显示装置的硬件结构进行说明的图。

具体实施方式

以下，对实施方式的图像显示装置、图像显示方法以及程序进行详细说明。以下所示出的实施方式是应用到图像显示装置的应用例，该图像显示装置具有输入通过例如照相机拍摄的情景图像，对该情景图像进行文字识别、目标识别等的识别处理，将该识别结果与情景图像一起进行显示的功能。以下，将这样的功能称作情景图像识别。并且，可作为实施方式加以应用的图像显示装置并不限定于具有情景图像识别的功能，能够应用于显示输入图像的所有的图像显示装置。

情景图像识别的一个典型应用是向智能手机等的带照相机的便携式终端的应用。当用户对着情景举起照相机时，该终端对照相机捕捉到的情景图像进行文字、目标的识别，在显示器上显示在情景图像上重叠了文字列等的识别结果的图像。向车载装置的应用也是一个典型应用。对安装于车前方的照相机捕捉到的情景图像进行文字、目标的识别，在前窗的情景中重叠显示识别结果。

在情景图像识别中，可能会产生文字识别、目标识别等的识别处理的识别错误的失误、从情景图像检测包含成为识别处理的对象的文字、目标的区域(以下，称作注目区域。)时的检测错误的失误。因此，为了实现实用的应用，要求准备针对识别错误的复原功能[A1]、针对注目区域的检测错误的复原功能[A2]。

另外，通过情景图像识别处理的情景图像存在被大范围图像化、高析像度化的倾向。因此，在今后的情景图像识别中，还要求针对以下所示的问题点的对策。

伴随着情景图像的高析像度化，文字识别、目标识别等的识别处理所需要的时间增加，响应性的降低成为问题。由于响应性对情景图像识别的便利性造成大的影响，因此期望实现弥补因识别处理而引起的响应性的降低的功能[B]。

伴随着情景图像的大范围图像化，在情景图像整体中注目区域所占的比例变小。另外，从一个情景图像检测多个注目区域的情形也变多。在这样的状况下，仅将识别结果简单地重叠显示于情景图像，容易产生识别结果的漏看。因此，期望实现进行适当的注视引导的功能[C]。

情景图像被高析像度化，与此相对，显示器(尤其是便携式终端的显示器)的大小受到限制，所以注目区域的图像变得致密，尤其是对于老人、眼睛不好使的人而言，难以确认处于注目区域的对象。因此，期望实现对注目区域的阅览性进行辅助的功能[D]。

在本实施方式中，提出实现了上述的[A1]、[A2]、[B]、[C]、[D]的全部功能的基于情景图像识别的图像显示。

实施方式的图像显示装置，首先，从输入图像(本实施方式中为情景图像)对包含作为文字识别的对象的文字、作为目标识别的对象的目标的注目区域的全部进行检测。其次，图像显示装置对所检测到的各注目区域的图像实施尺寸修正、正对修正、颜色修正等的提高目视确认性的修正，分别生成与各注目区域对应的副图像。其次，图像显示装置使用知道与原来的注目区域的对应关系的画面表现将所生成的各副图像与输入图像一起显示于显示器。另外，图像显示装置对所生成的各副图像所包含的文字、目标进行识别处理，在结束识别处理的时刻，使用知道与副图像的对应关系的画面表现将该识别结果进一步显示于显示器。

这样，实施方式的图像显示装置在对注目区域所包含的文字、目标进行识别处理之前，生成使注目区域的图像的目视确认性提高的副图像，以知道与注目区域的对应关系的方式显示于显示器。由此，副图像起到识别结果的预览的作用，从而实现弥补因识别处理而引起的响应性的降低的功能[B]。另外，由于以知道与注目区域的对应关系的方式显示副图像，所以实现进行适当的注视引导的功能[C]。进而，由于副图像是使注目区域的图像的目视确认性提高的图像，所以也实现对注目区域的阅览性进行辅助的功能[D]。

另外，假设当在文字、目标的识别处理中产生错误的情况下，通过参照副图像能够确认正解，因此实现针对识别错误的复原功能[A1]。

实施方式的图像显示装置也可以在从输入图像检测到的注目区域中按照预先确定的规则选择要进行识别处理的注目区域。在该情况下，优选将从选择为要进行识别处理的注目区域生成的副图像(第一副图像)与从不进行识别处理的注目区域生成的副图像(第二副图像)以不同的显示方式显示于显示器。例如，第一副图像显示为在右上附加“×”按钮的透明度低的图像，第二副图像显示为透明度比第一副图像的透明度高的(能够透过而看到下面的输入图像)图像。

在该情况下，用户如果判断为与第一副图像对应的注目区域不是应当作为识别处理的对象，则例如通过操作「×」按钮，能够变更为将该注目区域不作为识别处理的对象的处理。另外，用户如果判断为与第二副图像对应的注目区域应当作为识别处理的对象，则例如通过点击配置第二副图像的区域，能够变更为将该注目区域作为识别处理的对象的处理。这些用户的操作除了反映到该时刻的画面显示之外，还作为用于对检测注目区域的检测部进行再训练的事例加以使用，由此起到下次以后的利用的检测制度的改善效果。由此，实现针对注目区域的检测错误的复原功能[A2]。

如以上那样，实施方式的图像显示装置能够全部实现针对识别错误的复原功能[A1]、针对注目区域的检测错误的复原功能[A2]、弥补因识别处理而引起的响应性的降低的功能[B]、进行适当的注视引导的功能[C]、以及对注目区域的阅览性进行辅助的功能[D]，将在输入图像中被推测为用户关心的对象以容易理解的形式提示给用户。以下，参照附图对实施方式的图像显示装置的具体例进行更详细的说明。

(第一实施方式)

图1是示出第一实施方式的图像显示装置的构成例的框图。如图1所示，第一实施方式的图像显示装置具备主系统100、检测部教练机200以及识别部教练机300。

主系统100是作为本实施方式的图像显示装置的核心的系统。主系统100从输入图像检测注目区域，对所检测到的注目区域的图像进行提高目视确认性的修正而生成副图像。然后，主系统100将所生成的副图像与输入图像一起进行显示。进而，主系统100对所检测到的注目区域进行识别处理，并显示该识别结果。

检测部教练机200以及识别部教练机300是对在主系统100的检测功能以及识别功能中使用的识别模型组进行训练的副系统。这些检测部教练机200以及识别部教练机300只要在利用主系统100之前预先执行一次对识别模型组进行训练的处理即可。但是，有时根据来自主系统100的呼叫，在利用主系统100的期间执行。

以下，对主系统100的详细情况进行说明，在该说明中，也提及到检测部教练机200以及识别部教练机300。

如图1所示，主系统100具备检测部110、生成部120、副图像接近配置计划器130、识别部140、显示控制部150以及显示器160。并且，图1中的圆角四边形表示构成主系统100的上述各模块110～150的输入输出数据。

检测部110接受输入图像D1，从该输入图像D1对存在应当注目的对象的区域亦即注目区域的全部进行检测。然后，检测部110将从输入图像D1检测到的注目区域的图像与检测时的得分一并输出。将检测部110的输出称作带得分的区域图像组D2。

图2是示出输入图像D1的具体例的图。在本实施方式中，将通过照相机拍摄的情景图像设定为输入图像D1。作为应当注目的对象的例子，除了文字之外，可举出狗、猫、食物、字体标志(logo mark)等的目标。

在本实施方式中，取得利用独立的模块针对每个具有共通性的事物进行处理的设计。作为例子，将字体标志和文字设定为检测对象，利用目标检测器111对字体标志进行检测，利用文字区域检测器112对文字进行检测。

将目标检测器111以及文字区域检测器112的检测结果作为带得分的区域图像组D2予以输出。将包含字体标志的区域的图像与文字区域的图像以可区别的状态予以输出，因此，虽可以说实际存在两种输出，但此处将它们一并作为带得分的区域图像组D2。

并且，带得分的区域图像组D2是形成输入图像D1的一部分的图像组，具有位置(XY坐标)以及尺寸。与此相对，后述的带得分的副图像组D3是相对于输入图像D1独立的存在，虽然具有尺寸，但在进行配置处理之前位置(XY坐标)是不确定的。

图3是示出目标检测器111的处理顺序的一例的流程图。目标检测器111当被输入输入图像D1时，进行以下的步骤S101～步骤S111的处理，输出带得分的区域图像组D2。

步骤S101：目标检测器111将滑动窗放置在输入图像D1的左上。

步骤S102：目标检测器111提取与滑动窗相符的图像。

步骤S103：目标检测器111将所提取的图像发送到二进制分类器。二进制分类器判定对象图像是不是目标的一部分，并输出表示其可信度的得分。将该二进制分类器所输出的得分称作局部得分。

步骤S104：目标检测器111判定二进制分类器所输出的局部得分是否在第一阈值以上。然后，如果判定的结果为“是”则朝步骤S105前进，如果为“否”则朝步骤S106前进。

步骤S105：目标检测器111将滑动窗的当前的矩形区域与局部得分一并追加记录于检测完毕局部区域缓冲器B1。

步骤S106：目标检测器111使滑动窗朝下一个位置移动。

步骤S107：目标检测器111判定滑动窗是否已经到达输入图像D1的右下。然后，如果判定的结果为“是”则朝步骤S108前进，如果为“否”则返回到步骤S102。

步骤S108：目标检测器111以登记于检测完毕局部区域缓冲器B1的矩形区域组中的、连结的区域彼此成为一个组的方式进行分组，并且，取各区域的局部得分的平均并算出合并得分。另外，在平均计算中，也可以进行基于面积的加权。

步骤S109：目标检测器111对于在步骤S108中制作的组，分别求出作为组的成员的各矩形区域的外接矩形，并与合并得分一并追加登记于检测完毕合并区域缓冲器B2。

步骤S110：目标检测器111对于在步骤S108中制作的全部的组，判定步骤S109的处理是否已经结束。然后，如果判定的结果为“是”则朝步骤S111前进，如果为“否”则返回到步骤S109。

步骤S111：目标检测器111将位于登记于检测完毕合并区域缓冲器B2的各矩形区域的图像与合并得分的配对作为带得分的区域图像组D2输出。

图4是对上述步骤S108以及步骤S109的处理进行说明的图。在图4的例子中，在上述步骤S108中，以图4(a)所示的矩形区域0401、0402、0403、0404、矩形区域0405、0406、矩形区域0407、0408、0409、0410、0411分别成为一个组的方式进行分组。然后，作为矩形区域0401、0402、0403、0404的组的合并得分算出0.75，作为矩形区域0405、0406的组的合并得分算出0.80，作为矩形区域0407、0408、0409、0410、0411的合并得分算出0.55。另外，在上述步骤S109中，如图4(b)所示，通过针对每组求出外接矩形，对包含各个目标的注目区域(合并区域)进行检测，并与合并得分一起登记于检测完毕合并区域缓冲器B2。并且，合并得分表示其值越大则在该注目区域中包含目标的可信度越高。

在上述步骤S103中使用的二进制分类器使用利用检测部教练机200训练后的识别模型。因而，需要在利用主系统100之前执行一次检测部教练机200，制作识别模型。

该识别模型针对识别对象的每个种类准备字体标志的识别模型、文字的识别模型等。使用正例用图像组210和负例用图像组220来进行基于检测部教练机200的识别模型的训练。正例用图像组210是以滑动窗的尺寸旋开包含相符的种类的对象的图像的图像组，负例用图像组220是以滑动窗的尺寸旋开不包含相符的种类的对象的图像的图像组。将它们作为正例以及负例加以使用，对SVM(Support Vector Machine)等的二进制分类器的识别模型进行训练。

文字区域检测器112能够利用与上述的目标检测器111大致相同的方法从输入图像D1检测文字区域，输出带得分的区域图像组D2。因此，对于由文字区域检测器112进行的处理省略详细的说明。

图5是示出检测部110(目标检测器111以及文字区域检测器112)对图2所示的输入图像D1进行了处理的情况下的检测结果例的图。图5中用实线包围的区域是由文字区域检测器112检测到的注目区域，用虚线包围的区域是由目标检测器111检测到的注目区域。

生成部120接受带得分的区域图像组D2，对带得分的区域图像组D2所包含的各区域图像实施用于提高目视确认性的修正而生成副图像，输出在各副图像中并入合并得分的带得分的副图像组D3。

在本实施方式中，作为用于提高目视确认性的修正，准备尺寸修正、正对修正、颜色修正这三种，应用这些中的至少一种修正。进行各个处理的是尺寸修正器121、正对修正器122以及颜色修正器123这三个副模块，均成为将图像作为输入予以接受，并输出修正结果的图像的接口。在应用两种以上的修正的情况下，只要将这些副模块的输入输出串联结合即可。以下，对这些副模块的处理分开进行说明。

尺寸修正器121具有将所输入的图像放大或者缩小到容易观看的尺寸的功能。例如，在由检测部110的文字区域检测器112检测到的文字区域非常小的情况下，可能会产生对于人来说难以目视确认在那写了些什么的情况。在该情况下，尺寸修正器121将放大到人容易目视确认的尺寸的文字区域作为修正结果予以输出。并且，作为适当的尺寸的决定方法的一种，存在对于将纵横的像素数累计的面积预先确定应当满足的范围等的、预先确定与大小相关的某一规则的方法。

正对修正器122对所输入的图像所包含的文字、目标等的对象的旋转、歪斜进行修正，将对象转换成从正面撮影那样的图像而后输出。

图6是示出正对修正器122的处理顺序的一例的流程图。正对修正器122对所输入的图像进行以下的步骤S201～步骤S207的处理，输出副图像。

步骤S201：正对修正器122生成将所输入的图像标准化为正方形的图像。以下，将标准化后的图像称作标准化图像。

步骤S202：正对修正器122将在步骤S201中生成的标准化图像转换成灰色标度图像。此处，如果标准化图像是RGB彩色图像的话，则通过将各像素的R、G、B的平均值置于灰色标度图像的像素值，进行向灰色标度的转换。另一方面，如果标准化图像原本就是灰色标度图像的话，则将各像素值直接置于灰色标度转换完毕图像的像素值。

步骤S203：正对修正器122提取在步骤S202中生成的灰色标度转换完毕图像的边缘特征。该边缘特征是通过对灰色标度转换完毕图像进行块分割，算出各块的边缘强度的总和，并且将各块的边缘强度的总和捆绑在一起而成。边缘强度能够使用公知的索贝尔滤波器算出。

步骤S204：正对修正器122对在步骤S203中提取的边缘特征与投影转换参数词典P1中的词典边缘特征进行比较，获得与最相似的词典边缘特征建立关联的投影转换参数。此处，作为边缘特征与词典边缘特征的相似尺度使用余弦相似度。

在投影转换参数词典P1中存储有一个以上的词典边缘特征与投影转换参数的对。词典边缘特征与投影转换参数使用示教用(训练用)的图像数据预先生成。对于对图像进行投影转换的方法、投影转换参数的算出方法，一般公知有如果给出图像中的任意的4点的坐标和对该4点进行投影转换后的对应点的坐标则就能够算出(参照下述的参考文献)。

参考文献：财团法人图像信息教育振兴协会，“数字图像处理(第一版第一次印刷)”，2004年，p.163－164、171

步骤S205：正对修正器122使用在步骤S204中获得的投影转换参数，对标准化图像进行投影转换。

步骤S206：正对修正器122将在步骤S205中投影转换后的图像的高度和宽度定标成与所输入的图像相同的高度和宽度。

步骤S207：正对修正器122将在步骤S206中定标而得到的图像作为副图像予以输出。

颜色修正器123，例如通过消除所输入的图像的阴影而对图像的颜色进行修正，并作为副图像予以输出。

图7是示出颜色修正器123的处理顺序的一例的流程图。颜色修正器123对所输入的图像进行以下的步骤S301～步骤S307的处理，输出副图像。

步骤S301：颜色修正器123将所输入的图像转换成灰色标度图像。此处，如果所输入的图像是RGB彩色图像的话，则将各像素的R、G、B的平均值置于灰色标度图像的像素值，由此进行向灰色标度的转换。另一方面，如果所输入的图像原本就是灰色标度图像的话，则将各像素值直接置于灰色标度转换完毕图像的像素值。

步骤S302：颜色修正器123对于所输入的图像、在步骤S301中生成的灰色标度转换完毕图像、以及作为输出的副图像，分别将注目像素置于图像的左上。以下，将所输入的图像中的注目像素简称为注目像素，将灰色标度转换完毕图像中的注目像素称作灰色注目像素，将副图像中的注目像素称作副注目像素。

步骤S303：颜色修正器123算出以灰色注目像素为中心的矩形窗内的平均像素值。

步骤S304：颜色修正器123将注目像素的像素值除以在步骤S303中算出的平均像素值而得到的值作为副注目像素的像素值。此时，如果所输入的图像是RGB彩色图像，注目像素的像素值针对R、G、B等的多个通道的每个具有值，则针对每个通道进行与平均值的除法运算。

步骤S305：颜色修正器123使注目像素、灰色注目像素以及副注目像素分别朝图像的下一个位置移动。

步骤S306：颜色修正器123判定注目像素、灰色注目像素以及副注目像素分别是否已经到达图像的右下。然后，如果判定的结果为“是”则朝步骤S307前进，如果为“否”则返回到步骤S303。

步骤S307：颜色修正器123输出放置了全部的像素值的副图像。

副图像接近配置计划器130是通过对用于将副图像配置于原来的注目区域的附近的配置计划最佳化的数学模型求解，决定将副图像重叠在输入图像D1上时的位置的模块。副图像接近配置计划器130作为输入接受带得分的区域图像组D2以及带得分的副图像组D3，决定带得分的副图像组D3所包含的各副图像的最佳的配置，输出包含该配置计划信息在内的带配置计划的副图像组D4。

图8是示出副图像接近配置计划器130的处理顺序的一例的流程图。副图像接近配置计划器130使用带得分的区域图像组D2以及带得分的副图像组D3进行以下的步骤S401～步骤S408的处理，求出副图像的配置计划信息，输出带配置计划的副图像组D4。

步骤S401：副图像接近配置计划器130例如对图9所示的接近配置计划最佳化模型M1求解。并且，对于图9所示的接近配置计划最佳化模型M1将在后面叙述其详细情况。

步骤S402：副图像接近配置计划器130判定是否通过步骤S401的处理求得了解。然后，如果判定的结果为“是”则朝步骤S404前进，如果为“否”则朝步骤S403前进。没有求得解意味着：因带得分的区域图像组D2所包含的各区域图像与带得分的副图像组D3所包含的各副图像不相互重叠的限制而无法将副图像配置于原来的注目区域的附近。因此，在无法求得解的情况下，采用对作为配置对象的副图像进行间拔的策略。

步骤S403：副图像接近配置计划器130从配置的对象除去带得分的副图像组D3所包含的副图像中的合并得分最低的副图像并登记于除去清单缓冲器B3，返回到步骤S401。

副图像接近配置计划器130通过反复进行以上的步骤S401～步骤S403的处理，求出在对带得分的副图像组D3中所包含的副图像进行局部间拔的状态下的最佳的配置。但是，此处求出的配置并不限定于最佳的配置，存在在过多间拔副图像的可能性。这是因为在步骤S403中不基于配置限制而基于合并得分选择从配置的对象除去的副图像的缘故。

例如，在图5所示的检测结果例中，考虑当左上的包含“小岩カメラ”在内的注目区域(区域图像)的合并得分非常低，右上的包含“分倍書店本”在内的注目区域(区域图像)的合并得分高时，无法得到配置包含“分倍書店本”在内的注目区域的副图像的场所，成为没有解的结果的情况。在该情况下，作为优先间拔的对象的是合并得分低的包含“小岩カメラ”在内的注目区域的副图像。但是，包含“小岩カメラ”在内的注目区域的周边原来就在空间上具有富余，即便间拔副图像也无助于配置的改善，因此成为不需要的间拔。

之所以成为这样的处理是因为一般在最佳化问题的求解中使用后述的被称作解算机的软件，但在借助解算机而未求得解的情况下，难以解开求得解的条件缓和中的、最少的条件缓和集合是哪个的问题。

因此，在步骤S404以后的处理中，对于一旦成为间拔对象的副图像，在保持到此为止获得的配置的状态下尝试进行是否能够配置。如果判断为能够配置，则直接进行配置。由此，如上述的包含“小岩カメラ”在内的注目区域的副图像那样成为不需要的间拔的对象的副图像在这些处理中配置恢复。

步骤S404：副图像接近配置计划器130从除去清单缓冲器B3按照合并得分从高到低的顺序一个一个地取出副图像。

步骤S405：副图像接近配置计划器130判定取出的副图像在不与其他的副图像、作为其他的副图像的基础的区域图像重叠的限制下，是否能够配置在作为该副图像的基础的注目区域的附近。如果为“是”则朝步骤S406前进，如果为“否”则朝步骤S407前进。

步骤S406：副图像接近配置计划器130将在步骤S405中判定为能够配置的副图像配置于作为该副图像的基础的注目区域的附近。并且，实际上也通过步骤S405以及步骤S406的处理解决最佳化问题，但此处省略详细的说明。

步骤S407：副图像接近配置计划器130判定是否从除去清单缓冲器B3取出全部的副图像。然后，如果判定的结果为“是”则朝步骤S408前进，如果为“否”则返回到步骤S404。

步骤S408：副图像接近配置计划器130将作为解而求得的R’_i(i＝1，…，N)设定为副图像的配置计划信息，并输出带配置计划的副图像组D4。

此处，参照图9对在上述步骤S401中使用的接近配置计划最佳化模型M1的算式进行说明。图9是示出接近配置计划最佳化模型M1的一例的图。

图9所示的接近配置计划最佳化模型M1的第一行示出针对全部的幅图像将注目区域(区域图像)与对应的副图像的距离合计而得的距离最小化的情况。后面使用图11对距离的定义和算出方法进行叙述。

在图9所示的接近配置计划最佳化模型M1的第二行以后示出限制条件。在第三行中，设置在所有的注目区域中最接近各副图像的配置预定区域的注目区域是与该副图像对应的注目区域这样的限制。换言之，要求副图像以使得与作为该副图像的基础的注目区域对应的区域图像最接近的方式进行配置。

在第四行中，设置副图像与作为该副图像的基础的注目区域(区域图像)之间的距离在一定以上的限制。由此，获得防止因将副图像以与注目区域接连的方式配置而导致难以观看图像的效果。

在第五行中，在组合区域图像组与副图像组的集合中，设置图像彼此不相互重合的限制。但是，为了防止变得繁杂而未记载在算式上，但因为注目区域最初重合而被检测到，所以将区域图像重合的情况作为例外情况。

图10是示出在图5所示的检测结果例中，根据作为接近配置计划最佳化模型M1的解而得到的配置计划信息来配置副图像的例子的图。副图像以相对于作为该副图像的基础的注目区域(区域图像)保持预定值以上的距离并且最接近的方式配置，进而，所有的副图像以与其他的副图像、注目区域(区域图像)不重合的方式配置。但是，在一部分的区域中不能满足该条件，因此进行副图像的间拔。例如，在图的右上侧的包含“ホリーズ”在内的注目区域、包含「SK不動産」在内的注目区域、包含“分倍書店本”在内的注目区域等中，对副图像进行间拔。

并且，图9所示的接近配置计划最佳化模型M1是在副图像接近配置计划器130中使用的最佳化模型的一例，但并不限定于此。例如，也可以相对于图9所示的接近配置计划最佳化模型M1编入要配置的副图像数的上限。由此，能够消除因副图像的显示数多而导致图像变得难以观察的不良情况。

作为利用计算机求出最佳化模型的解的方法之一，存在使用被称作解算机的软件的方法。解算机是当以文本形式等输入最佳化的数学模型时而算出该数字模型的解的软件，以免费软件lpsolve为首，发行了各种软件。在本实施方式中，使用解算机求出接近配置计划最佳化模型M1的解。

图11是对注目区域(区域图像)与对应的副图像之间的距离的算出方法进行说明的图。注目区域(区域图像)与副图像之间的距离被作为矩形间的距离而求出。虽然认为矩形间的距离为各种各样，但在本实施方式中，使用以下的定义。

对于矩形A和矩形B，当将XA设为矩形A的外周上的任意的点，将XB设为矩形B的外周上的任意的点时，矩形A与矩形B之间的距离D(A，B)通过下述式(1)表示。

D(A，B)＝min(XA，XB)……(1)

以下对在计算机上计测遵循上述的定义的矩形间的距离的方法进行简单说明。首先，判定是如图11(a)所示那样两个矩形上下排列(情形1)、如图11(b)所示那样两个矩形左右排列(情形2)的哪一个情形。然后，在情形1的情况下，对图11(a)所示的距离d1进行计测来作为矩形间的距离，在情形2的情况下，对图11(b)所示的距离d2进行计测来作为矩形间的距离。并且，也可以使用多个距离指标对矩形间的距离进行计测。在该情况下，需要将多个指标的值合并成一个标量。作为该方法，考虑取得线性和的方法、采用多个指标中的最小值的方法等。

按照以上方式制作的带配置计划的副图像组D4朝显示控制部150的后述的副图像显示控制部151以及识别部140这双方输出。然后，并行地进行副图像显示控制部151基于配置计划信息将副图像直接显示于显示器160的处理、以及识别部140对副图像所包含的文字、字体标志等的对象(注目区域所包含的对象)进行识别的处理。将由识别部140进行识别的识别结果利用显示控制部150的后述的识别结果显示控制部152显示于显示器160，但该识别结果的显示因在其间夹着由识别部140进行识别的识别处理而相比副图像的显示延迟一拍。因此，对用户的眼睛带来首先在显示器60先显示副图像而后延迟显示识别结果的画面效果。由此，能够产生副图像起到到在显示器160中显示识别结果为止的、与识别相关的预览的作用等的效果。

识别部140作为输入接受带配置计划的副图像组D4，进行带配置计划的副图像组D4所包含的副图像中的合并得分在第二阈值以上的副图像所包含的对象、即作为合并得分在第二阈值以上的副图像的基础的注目区域所包含的对象的识别处理，输出识别结果D5。并且，第二阈值是与在检测部110的目标检测器111、文字区域检测器112中作为相对于二进制分类器所输出的局部得分的阈值使用的第一阈值不同的值，被设定为比第一阈值严格的值(大的值)。

在本实施方式中，将字体标志和文字设定为由识别部140进行识别的识别对象。所输入的带配置计划的副图像组D4被分成字体标志的副图像和文字的副图像，对于前者利用作为副模块的目标识别器141进行识别处理，对于后者利用文字识别器142进行识别处理。

目标识别器141鉴别副图像所包含的字体标志是预先登记的字体标志中的哪一个，作为识别结果，输出表示字体标志名的单词。并且，对于字体标志的识别处理，只要使用公知的技术即可。

文字识别器142对副图像内所包含的由1行乃至多行构成的文本(文字)进行识别，作为识别结果输出该文本。对于文字的识别处理，只要使用公知的技术即可。例如，已知有对图像(副图像)进行二值化，单独地特定文字的区域，单独地进行文字识别的方法，能够应用该方法。

在本实施方式中，设为不论是使用目标识别器141进行字体标志的识别处理的情况，还是使用文字识别器142进行文字识别的情况，作为输出的识别结果D5都是文本。

识别部140的目标识别器141以及文字识别器142均使用通过识别部教练机300进行了训练的多等级识别模型。因而，需要在利用主系统100之前，执行一次识别部教练机300，制作多等级识别模型。

该多等级识别模型针对识别对象的每个类别准备字体标志的识别模型、文字的识别模型等。使用正例用图像组310和负例用图像组320进行基于识别部教练机300的多等级识别模型的训练。正例用图像组310是包含相符的类别的对象的图像组，负例用图像组320是不包含相符的类别的对象的图像组。将这些作为正例以及负例加以使用，对多等级SVM等的多等级分类器的识别模型进行训练。

显示控制部150将带配置计划的副图像组D4所包含的各副图像、以及通过识别部140的识别处理而得到的识别结果D5例如以重叠于输入图像D1的方式显示于显示器160。当显示控制部150从副图像接近配置计划器130取得带配置计划的副图像组D4时，开始执行副图像的显示。另一方面，当显示控制部150从识别部140取得识别结果D5时，开始执行识别结果D5的显示。两者不同步执行。但是，识别结果D5到达的定时相比带配置计划的副图像组D4到达的定时延迟在识别部140中的识别处理所花费的时间的量。因此，作为结果，在显示器160中显示副图像之后显示识别结果D5。

另外，显示控制部150进行接受用户对显示器160所显示的图像进行的操作等的UI(User Interface)控制。并且，作为显示器160，例如能够利用液晶显示面板等的各种显示器。另外，作为用户为了对图像进行操作而利用的操作设备，除了鼠标、键盘之外，还能够利用与显示器160成为一体的触摸面板等的各种操作设备。利用副图像显示控制部151、识别结果显示控制部152以及UI控制部153这三个副模块分别单独地进行副图像的显示控制、识别结果D5的显示控制以及UI控制。

副图像显示控制部151将带配置计划的副图像组D4所包含的各副图像根据上述的配置计划信息以伴随着表示与输入图像D1内的注目区域(区域图像)的对应关系的画面表现的形式例如以与输入图像D1重叠的显示方式显示于显示器160。

图12是示出副图像显示控制部151的处理顺序的一例的流程图。副图像显示控制部151使用输入图像D1和带配置计划的副图像组D4进行以下的步骤S501～步骤S505的处理，使重叠了副图像的输入图像D1显示于显示器160。

步骤S501：副图像显示控制部151从带配置计划的副图像组D4取出一个副图像。

步骤S502：副图像显示控制部151判定在步骤S501中取出的副图像的合并得分是否在第二阈值以上。如果为“是”则朝步骤S503前进，如果为“否”则朝步骤S504前进。并且，此处的第二阈值与识别部140判定是否进行识别处理时使用的阈值相同。也就是说，副图像显示控制部151在步骤S502中判定在步骤S501中取出的副图像是通过识别部140进行识别处理的副图像(第一副图像)还是不通过识别部140进行识别处理的副图像(第二副图像)。

步骤S503：副图像显示控制部151将在步骤S501中取出的副图像(第一副图像)以低的透明度(以无法透视观察下面的输入图像D1的方式)重叠显示于输入图像D1上的、根据配置计划信息指定的位置。另外，此时，副图像显示控制部151在该副图像的右上放置“×”按钮。该「×」按钮作为用于接受用户从识别处理除去该副图像所包含的对象的操作的UI加以利用。

步骤S504：副图像显示控制部151将在步骤S501中取出的副图像(第二副图像)以高的透明度(以透视观察下面的输入图像D1的方式)重叠显示于输入图像D1上的、根据配置计划信息指定的位置。该副图像的显示区域作为用于接受用户对识别处理的对象追加该副图像所包含的对象的操作的UI加以利用。

步骤S505：副图像显示控制部151判定是否从带配置计划的副图像组D4取出全部的副图像。然后，如果判定的结果为“否”则返回到步骤S501，如果为“是”则结束处理。

副图像显示控制部151进行以上的处理的结果，如图10所示，在显示器160中显示在输入图像D1上重叠带配置计划的副图像组D4所包含的各副图像而得的图像。并且，在本实施方式中，作为表示副图像与输入图像D1内的注目区域(区域图像)的对应关系的画面表现，使用将副图像接近配置于注目区域(区域图像)的画面表现，但并不限定于此。例如，为了明确示出副图像与输入图像D1内的注目区域(区域图像)的对应关系，也可以将引出线等的画面表现追加到接近配置来加以利用或者单独地加以利用。

识别结果显示控制部152将识别部140的目标识别器141及文字识别器142所输出的识别结果D5以伴随着表示与对应的副图像的对应关系的画面表现的形式并以例如与输入图像D1重叠的显示方式显示于显示器160。

在本实施方式中，作为表示识别结果D5与副图像的对应关系的画面表现，使用将识别结果D5以与对应的副图像局部重叠的方式配置的画面表现。即，将对根据配置计划信息指定的各副图像的位置赋予与副图像的大小对应的偏移的位置设定为识别结果D5的配置位置。并且，表示识别结果D5与副图像的对应关系的画面表现并不限定于该例，能够使用利用上述的引出线等的各种画面表现。

图13是示出作为由识别结果显示控制部152进行处理的结果显示于显示器160的图像的一例的图。图13的图像例表示对图10所示的图像进一步追加显示识别结果D5的例子。在显示器160中，在显示图10所示的图像之后由识别部140进行的识别处理结束的阶段，显示图13所示的图像。

对于由显示器160进行的图像的显示，如上所述，利用副图像接近配置计划器130的算法在满足限制中进行最佳的配置。但是，在这样依旧不满足限制的情况下，通过放弃合并得分低的副图像的显示来满足限制。因而，因副图像密集而无法配置全部的副图像，从而存在产生副图像被间拔的局部的区域的情况。例如，在图10、图13所示的图像例中，图像的右上的区域与此相符，包含“ホリーズ”在内的注目区域的副图像、包含“SK不動産”在内的注目区域的副图像、包含“分倍書店本”在内的注目区域的副图像不通过间拔而显示。

另一方面，因为副图像稀疏而在空间上具有富余，也有可能产生显示至合并得分为低于第二阈值的程度的低的副图像的局部的区域。例如，在图10、图13所示的图像例中，图像的左上的区域与此相符，由于在空间上具有富余，所以也显示合并得分低于第二阈值的包含“小岩カメラ”在内的注目区域的副图像。

UI控制部153进行接受用户对显示器160所显示的图像进行的操作等的UI控制。在本实施方式中，作为用户对显示器160所显示的图像进行的操作，进行与朝所显示的副图像的反馈相关的两个操作、与朝未检测的区域的反馈相关的一个操作。以下，对相对于各个操作的UI控制部153的处理进行说明。

合并得分在第二阈值以上的副图像(成为识别处理的对象的第一副图像)如上述那样以在图像的右上附加“×”按钮的状态显示。然后，当用户进行按下该“×”按钮的操作时，能够对该副图像施加反馈以便再解释为该副图像是合并得分低于第二阈值的副图像。由此，能够修正由检测部110进行检测的区域的检测错误。以下，将该处理称作正误识的检测错误的订正。

图14是示出正误识的检测错误的订正的处理顺序的一例的流程图。当用户进行按下显示于显示器160的副图像的右上的“×”按钮的操作时，UI控制部153进行以下的步骤S601～步骤S604的处理，使显示器160的显示更新。

步骤S601：UI控制部153接受按下显示于显示器160的副图像的右上的“×”按钮的用户的操作。

步骤S602：UI控制部153以被按下“×”按钮的副图像的合并得分低于第二阈值的方式仅对该副图像设定惩罚值(副图像单独惩罚D6)。该副图像单独惩罚D6是为了发送至副图像接近配置计划器130而对副图像的合并得分进行修正而使用的。

步骤S603：UI控制部153基于被按下“×”按钮的副图像，制作以滑动窗的尺寸旋开的图像组(追加负例用图像组D7)，并追加登记于检测部教练机200的负例用图像组220。然后，UI控制部153对检测部教练机200发出再训练的指示，使检测部教练机200进行检测部110的再训练。在主系统100的下一次以后的利用时反映该再训练的结果。

步骤S604：UI控制部153使处理返回到副图像接近配置计划器130，使相对于被按下“×”按钮的副图像的处理更新。由此，被按下“×”按钮的副图像基于副图像单独惩罚D6被修正合并得分，作为合并得分低于第二阈值的副图像加以处理。结果，副图像显示控制部151对由显示器160进行的该副图像的显示进行更新，将该副图像作为透明度高的图像再次描绘在输入图像D1上。另外，识别结果显示控制部152停止与到此为止显示的该副图像相关的识别结果的显示。

将合并得分低于第二阈值的副图像如上述那样以高的透明度(以能够透视观察下面的输入图像D1的方式)重叠显示在输入图像D1上。然后，当用户进行通过例如鼠标点击等的方法指定像这样显示的副图像的显示区域的操作时，能够对该副图像施加反馈以便再解释为该副图像是合并得分在第二阈值以上的副图像。由此，能够修正由检测部110进行检测的区域的检测错误。以下，将该处理称作负误识的检测错误的订正。

图15是示出负误识的检测错误的订正的处理顺序的一例的流程图。当用户进行指定以高的透明度显示于显示器160的副图像的区域的操作时，UI控制部153进行以下的步骤S701～步骤S704的处理，使显示器160的显示更新。

步骤S701：UI控制部153接受指定以高的透明度显示于显示器160的副图像的区域的用户的操作。

步骤S702：UI控制部153以使得该副图像的合并得分在第二阈值以上的方式仅对该副图像设定奖励值(副图像单独奖励D8)。该副图像单独奖励D8是为了被发送至副图像接近配置计划器130而对副图像的合并得分进行修正而使用的。

步骤S703：UI控制部153基于该副图像制作以滑动窗的尺寸旋开的图像组(追加正例用图像组D9)，并追加登记于检测部教练机200的正例用图像组210。然后，UI控制部153对检测部教练机200发出再训练的指示，使检测部教练机200进行检测部110的再训练。在主系统100的下一次以后的利用时反映该再训练的结果。

步骤S704：UI控制部153使处理返回到副图像接近配置计划器130，更新对该副图像的处理。由此，该副图像基于副图像单独奖励D8而修正合并得分，作为合并得分在第二阈值以上的副图像加以处理。结果，副图像显示控制部151对由显示器160进行的该副图像的显示进行更新，将该副图像作为透明度低且在右上附加“×”按钮的图像再次描绘在输入图像D1上。另外，识别部140对该副图像所包含的对象进行识别处理，该识别结果D5由识别结果显示控制部152以追加的方式显示于显示器160。

另外，应当作为由识别部140进行识别的识别对象的注目区域未由检测部110检测到的结果，也考虑在显示器160中不显示该区域的副图像的情况。在这样的情况下，例如当在该区域附近按压住鼠标按钮一定时间等的、用户进行指定该未检测到的区域的位置的操作时，也能够施加反馈以使得包含用户指定的位置在内的周边区域容易由检测部110检测。由此，即便是不显示副图像的区域，也能够修正由检测部110进行检测的区域的检测错误。以下，将该处理称作未检测的订正。

图16是示出未检测的订正的处理顺序的一例的流程图。当进行在显示于显示器160的输入图像D1上指定不重叠显示副图像的区域的位置的操作时，UI控制部153进行以下的步骤S801～步骤S803的处理，使显示器160的显示更新。

步骤S801：UI控制部153接受在显示于显示器160的输入图像D1上指定不重叠显示副图像的区域的位置的用户的操作。

步骤S802：UI控制部153将输入图像D1上的用户指定的位置作为峰值，按照随着趋向其周边而衰减的分配对该位置周边的像素设定奖励值(副图像区域奖励D10)。

图17是对副图像区域奖励D10进行说明的图。在图17的例子中，涂黑的矩形表示由用户指定的输入图像D1上的位置，用交叉阴影线的矩形表示其位置的周边，进而，用阴影线的矩形表示其周边。在该情况下，UI控制部153例如对于涂黑的矩形的位置设定+3，对于交叉阴影线的矩形的位置设定+2，对于阴影线的矩形的位置设定+1的副图像区域奖励。此处，例如如果检测部110检测注目区域时使用的滑动窗的尺寸为图17的矩形四份的尺寸，则当滑动窗位于图17的用虚线表示的位置时，对由滑动窗包围的区域的局部得分相加合计4点的奖励值。并且，此处用整数表示奖励值，但在用1以下的值表示局部得分的情况下，奖励值也成为小数的值。

步骤S803：UI控制部153使处理返回到检测部110，以从由检测部110进行的注目区域的检测重做的方式更新以后的处理。通过该处理的返回而被呼叫的检测部110需要进行与副图像区域奖励D10对应的处理。具体而言，对二进制分类器所算出的局部得分进行图17所示那样的加上奖励值的处理。结果，在输入图像D1上用户指定的位置的周边区域被作为注目区域重新检测，对显示器160所显示的输入图像D1上的副图像、识别结果D5的显示进行更新。

如以上举出具体例详细说明的那样，在本实施方式的图像显示装置中，检测部110从输入图像D1检测注目区域，生成部120对检测到的注目区域的图像(区域图像)进行提高目视确认性的修正而生成副图像。然后，副图像接近配置计划器130决定所生成的副图像的配置计划，显示控制部150根据所决定的配置计划将副图像以知道与输入图像D1内的注目区域(区域图像)的对应关系的方式重叠于输入图像D1并显示于显示器160。另外，识别部140对合并得分在第二阈值以上的副图像进行识别处理，当识别处理结束时，显示控制部150将识别结果D5以知道与副图像的对应关系的方式进一步重叠于输入图像D1并显示于显示器160。

进而，在本实施方式的图像显示装置中，将通过识别部140进行了识别处理的副图像与未通过识别部140进行识别处理的副图像以不同的显示方式显示于显示器160，接受用户对于所显示的副图像的操作，由此对由检测部110进行的注目区域的检测进行反映用户的意图的反馈。

因而，根据本实施方式的图像显示装置，能够提供实现了针对上述的识别错误的复原功能[A1]、针对注目区域的检测错误的复原功能[A2]、弥补因识别处理而引起的响应性的降低的功能[B]、进行适当的注视引导的功能[C]、以及对注目区域的阅览性进行辅助的功能[D]的全部的、基于便利性高的情景图像识别的图像显示。

(第二实施方式)

其次，对第二实施方式的图像显示装置进行说明。第二实施方式的图像显示装置具有与上述的第一实施方式的图像显示装置大致相同的功能，但副图像、识别结果的显示的方法不同。以下，对与第一实施方式的图像显示装置相同的构成要素标注相同的标记并省略重复的说明，仅对本实施方式的特征部分进行说明。

图18是示出第二实施方式的图像显示装置的构成例的框图。在第二实施方式的图像显示装置中，如图18所示，代替设置于第一实施方式的图像显示装置的主系统100的副图像接近配置计划器130，而在主系统100’上设置副图像重叠配置计划器170。第二实施方式的图像显示装置的其他结构与第一实施方式的图像显示装置相同。

副图像重叠配置计划器170是通过对用于将副图像重叠配置于作为其基础的注目区域的配置计划最佳化的数学模型求解、来决定将副图像重叠在输入图像D1上时的位置的模块。副图像重叠配置计划器170作为输入而接受带得分的区域图像组D2以及带得分的副图像组D3，决定带得分的副图像组D3所包含的各副图像的最佳的配置，并输出包含该配置计划信息在内的带配置计划的副图像组D4。

图19是示出副图像重叠配置计划器170的处理顺序的一例的流程图。副图像重叠配置计划器170使用带得分的区域图像组D2以及带得分的副图像组D3，进行以下的步骤S901～步骤S908的处理，求出副图像的配置计划信息，输出带配置计划的副图像组D4。

步骤S901：副图像重叠配置计划器170例如对图20所示的重叠配置计划最佳化模型M2求解。并且，后面将对图20所示的重叠配置计划最佳化模型M2进行详细叙述。

步骤S902：副图像重叠配置计划器170判定通过步骤S901的处理是否求得解。然后，如果判定的结果为“是”则朝步骤S904前进，如果为“否”则朝步骤S903前进。未求得解意味着在带得分的副图像组D3所包含的各副图像不与其他的副图像以及与其他的副图像对应的区域图像重合的限制下，无法将副图像重叠配置于作为其基础的注目区域。因此，在未求得解的情况下，采取对作为配置对象的副图像进行间拔的策略。

步骤S903：副图像重叠配置计划器170从配置的对象除去带得分的副图像组D3所包含的副图像中的合并得分最低的副图像并登记于除去清单缓冲器B3，返回到步骤S901。

副图像重叠配置计划器170通过反复进行以上的步骤S901～步骤S903的处理，求出将带得分的副图像组D3所包含的副图像的一部分间拔的状态下的最佳的配置。但是，此处求出的配置并不限定于成为最佳的配置，也存在过多对副图像进行间拔的可能性。这是因为在步骤S903中不基于配置限制而基于合并得分选择从配置的对象除去的副图像的缘故。

因此，在步骤S904以后的处理中，对于暂时成为间拔对象的副图像，在保持到此为止获得的配置的状态下尝试是否能够进行配置。如果判断为能够配置，则直接进行配置。由此，成为不需要的间拔的对象的副图像在这些处理中配置恢复。

步骤S904：副图像重叠配置计划器170从除去清单缓冲器B3按照合并得分从高到低的顺序一个一个地取出副图像。

步骤S905：副图像重叠配置计划器170判定在不与其他的副图像、作为其他的副图像的基础的区域图像重叠的限制下，是否能够将所取出的副图像重叠配置于作为该副图像的基础的注目区域。然后，如果判定的结果为“是”则朝步骤S906前进，如果为“否”则朝步骤S907前进。

步骤S906：副图像重叠配置计划器170将在步骤S905中判定为能够配置的副图像重叠配置于作为该副图像的基础的注目区域。并且，实际上也通过步骤S905以及步骤S906的处理解决最佳化问题，但此处省略详细的说明。

步骤S907：副图像重叠配置计划器170判定是否从除去清单缓冲器B3取出全部的副图像。然后，如果判定的结果为“是”则朝步骤S908前进，如果为“否”则返回到步骤S904。

步骤S908：副图像重叠配置计划器170将作为解而得到的R’_i(i＝1，…，N)设定为副图像的配置计划信息，输出带配置计划的副图像组D4。

此处，参照图20对在上述步骤S901中使用的重叠配置计划最佳化模型M2的算式进行说明。图20是示出重叠配置计划最佳化模型M2的一例的图。

图20所示的重叠配置计划最佳化模型M2的第一行示出将对于全部的副图像将注目区域(区域图像)与对应的副图像之间的距离、同区域图像中的未被对应的副图像遮盖而能够观察到的面积的线性和进行合计而得的值进行最小化的情况。在后面使用图22对距离的定义和算出方法进行叙述。

图20所示的重叠配置计划最佳化模型M2的第二行以后示出限制条件。在第三行中，设置在所有的注目区域中最接近各副图像的配置预定区域的注目区域是与该副图像对应的注目区域的限制。换言之，要求副图像以最接近与作为该副图像的基础的注目区域对应的区域图像的方式配置。

在第四行中，设置全部的副图像不相互重合的限制。

图21是示出在图5所示的检测结果例中，根据作为重叠配置计划最佳化模型M2的解而得到的配置计划信息配置副图像的例子的图。副图像重叠配置于作为该副图像的基础的注目区域(区域图像)，进而，所有的副图像以不与其他的副图像重合的方式配置。但是，由于在一部分的区域中不满足该条件，所以进行副图像的间拔。例如，在图的右上侧的包含“ホリーズ”在内的注目区域等中，对副图像进行间拔。

并且，图20所示的重叠配置计划最佳化模型M2是在副图像重叠配置计划器170中使用的最佳化模型的一例，但并不限定于此。例如，也可以对于图20所示的重叠配置计划最佳化模型M2编入要配置的副图像数的上限。由此，能够消除因副图像的显示数多而导致图像变得难以观察的不良情况。

图22是对注目区域(区域图像)与对应的副图像之间的距离的算出方法进行说明的图。注目区域(区域图像)与副图像之间的距离作为矩形间的距离而被求出。认为矩形间的距离为各种各样，但在本实施方式中，如图22所示，将各矩形的重心间的距离d设定为矩形间的距离。另外，图22的带阴影线的部分的面积为图20所示的重叠配置计划最佳化模型M2中的函数S的值。

按照以上方式制作的带配置计划的副图像组D4与第一实施方式相同，朝显示控制部150的副图像显示控制部151以及识别部140这双方输出。然后，并行地进行副图像显示控制部151基于配置计划信息将副图像直接显示于显示器160的处理、以及识别部140对副图像所包含的文字、字体标志等的对象(注目区域所包含的对象)进行识别的处理。另外，当识别部140对副图像的识别处理结束时，与第一实施方式相同，利用显示控制部150的识别结果显示控制部152将该识别结果D5相比副图像的显示延迟一拍地显示于显示器160。

图23是示出作为由识别结果显示控制部152进行的处理结果显示于显示器160的图像的一例的图。图23的图像例表示对图21所示的图像进一步追加显示识别结果D5的例子。在显示器160中，在显示图21所示的图像之后、由识别部140进行的识别处理结束的阶段，显示图23所示的图像。

对于由显示器160进行的图像的显示，如上所述，通过副图像重叠配置计划器170的算法在满足限制中进行最佳的配置。具体而言，以满足副图像彼此不相互重叠、各副图像配置于对应的区域图像(注目区域)的附近这两个条件，并且使对于全部的副图像将副图像与对应的区域图像(注目区域)的重心间距离以及被副图像遮盖的区域图像的面积的线性和进行合计而得的值最小的方式配置。但是，在这样仍旧不满足限制的情况下，放弃合并得分低的副图像的显示，由此来满足限制。因而，存在因副图像密集而无法配置全部的副图像、产生副图像被间拔的局部的区域的情况。例如，在图21、图23所示的图像例中，图像的右上的区域与此相符，包含“ホリーズ”在内的注目区域的副图像不通过间拔而显示。

另一方面，因为副图像稀疏而在空间上具有富余，也有可能产生显示至合并得分为低于第二阈值的程度的低的副图像的局部的区域。例如，在图21、图23所示的图像例中，图像的左上的区域与此相符，由于在空间上具有富余，所以也显示合并得分低于第二阈值的包含“小岩カメラ”在内的注目区域的副图像。

并且，在本实施方式中，作为表示副图像与输入图像D1内的注目区域(区域图像)的对应关系的画面表现，使用将副图像重叠配置于注目区域(区域图像)的画面表现，但并不限定于此。例如，为了明确指出副图像与输入图像D1内的注目区域(区域图像)的对应关系，也可以将引出线等的画面表现追加到重叠配置而加以利用，或者单独地加以利用。

另外，在本实施方式中，作为表示识别结果D5与副图像的对应关系的画面表现，与第一实施方式相同，使用将识别结果D5以与对应的副图像局部重叠的方式配置的画面表现，但并不限定于此。例如，能够使用利用上述的引出线等的各种画面表现。

(第三实施方式)

其次，对第三实施方式的图像显示装置进行说明。第三实施方式的图像显示装置具有与上述的第一实施方式的图像显示装置大致相同的功能，但副图像、识别结果的显示的方法不同。以下，对与第一实施方式的图像显示装置相同的构成要素标注相同的标记并省略重复的说明，仅对本实施方式的特征部分进行说明。

图24是示出第三实施方式的图像显示装置的构成例的框图。在第三实施方式的图像显示装置中，如图24所示，代替设置于第一实施方式的图像显示装置的主系统100的副图像接近配置计划器130，而在主系统100”中设置副图像外部配置计划器180。第三实施方式的图像显示装置的其他结构与第一实施方式的图像显示装置相同。

副图像外部配置计划器180是决定将副图像显示于输入图像D1的外部时的位置的模块。副图像外部配置计划器180作为输入接受带得分的副图像组D3，决定带得分的副图像组D3所包含的各副图像的最佳的配置，输出包含该配置计划信息在内的、带配置计划的副图像组D4。

带配置计划的副图像组D4与第一实施方式相同，朝显示控制部150的副图像显示控制部151以及识别部140这双方输出。然后，并行地进行副图像显示控制部151基于配置计划信息直接将副图像显示于显示器160的处理、以及识别部140对副图像所包含的文字、字体标志等的对象(注目区域所包含的对象)进行识别的处理。另外，当识别部140对副图像的识别处理结束时，与第一实施方式相同，利用显示控制部150的识别结果显示控制部152将该识别结果D5相比副图像的显示延迟一拍地显示于显示器160。

图25是示出作为显示控制部150的副图像显示控制部151基于从副图像外部配置计划器180输出的带配置计划的副图像组D4进行处理的结果而显示于显示器160的图像的一例的图。

在本实施方式中，如图25所示，显示器160的显示画面被左右分割，在左侧的画面显示检测到注目区域的输入图像D1，在右侧的画面显示副图像。对于右侧的画面中的各副图像的配置，例如在副图像彼此不相互重合的限制下，对应的注目区域的输入图像D1上的位置越是位于画面上部，则越是配置于右侧的画面中的靠上侧的位置，且合并得分越高，则越是配置于右侧的画面中的靠上侧的位置。另外，对于显示于画面右侧的副图像与配置于画面左侧的输入图像D1内的注目区域(区域图像)的对应关系，例如通过显示连结它们的引出线而明确表现。

并且，在本实施方式中，作为表示副图像与输入图像D1内的注目区域(区域图像)的对应关系的画面表现，利用使用了连结副图像与对应的注目区域(区域图像)的引出线的明确的表现方法，但并不限定于此。例如，也可以代替使用了引出线的画面表现而使用强调表现。具体而言，例如，考虑当将鼠标指针放在输入图像D1内的注目区域(区域图像)或者副图像的任一方上时，包围对应的副图像或者注目区域(区域图像)的框明亮显示的画面表现。

图26是示出作为显示控制部150的识别结果显示控制部152基于从识别部140输出的识别结果D5进行处理的结果而显示于显示器160的图像的一例的图。在本实施方式中，如图26所示，形成为通过将从识别部140输出的识别结果D5分别配置于在右侧的画面显示的副图像的右相邻侧，来表示识别结果D5与副图像的对应关系的显示方式。

图25以及图26所示的本实施方式的显示方法在输入图像D1没有被副图像、识别结果D5遮盖方面具有优点。但是，存在对于人而言建立关联的表现稍微没有直观的感觉、以及发生为了确认副图像、识别结果而移动视野的代价等缺点。因而，优选考虑这些的优点以及缺点，选择利用本实施方式的显示方法的适当的应用，或者根据用户的选择从其他的显示方法切换成本实施方式的显示方法。

根据以上说明的各实施方式的图像显示装置，能够将在输入图像中被推测为用户关心的对象响应性良好且以容易理解的形式提供给用户。

以上说明的各实施方式的图像显示装置的上述的各功能例如能够通过在图像显示装置中执行预定的程序而实现。在该情况下，例如如图27所示，图像显示装置能够形成为利用具备CPU(Central Processing Unit)11等的控制装置、ROM(Read Only Memory)12、RAM(Random Access Memory)13等的存储装置、显示器160、与各种操作设备连接的输入输出I/F14、与网络连接而进行通信的通信I/F15、连接各部的总线16等的、通常的计算机的硬件结构。

在上述的各实施方式的图像显示装置中执行的程序，例如以可安装的形式或者可执行的形式的文件存储于CD－ROM(Compact Disk Read Only Memory)、软盘(FD)、CD－R(Compact Disk Recordable)、DVD(Digital Versatile Disc)等的可由计算机读取的存储介质中，并作为计算机程序产品而被提供。

另外，也可以构成为将在上述的各实施方式的图像显示装置中执行的程序存储在与互联网等的网络连接的计算机上，通过经由网络下载而提供。另外，也可以构成为将在上述的各实施方式的图像显示装置中执行的程序经由互联网等的网络提供或者分配。

另外，也可以构成为将在上述的各实施方式的图像显示装置中执行的程序预先编入ROM12等而提供。

在上述的各实施方式的图像显示装置中执行的程序形成为包含图像显示装置的各处理部(检测部110、生成部120、副图像接近配置计划器130(副图像重叠配置计划器170、副图像外部配置计划器180)、识别部140以及显示控制部150)的模块结构，作为实际的硬件，例如CPU11(处理器)从上述存储介质读出程序并加以执行，由此将上述的各处理部下载到RAM13(主存储)上，将上述的各处理部在RAM13(主存储)上生成。并且，上述的各实施方式的图像显示装置，也可以使用ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)等的专用的硬件实现上述的各处理部的一部分或者全部。

以上对本发明的实施方式进行了说明，此处说明的实施方式作为例子而示出，并不意图对发明的范围进行限定。此处说明的新的实施方式能够以其他的各种方式加以实施，在不脱离发明的主旨的范围内能够进行各种省略、置换、变更。此处说明的实施方式及其变形包含于发明的范围及主旨中，并且包含于权利要求书所记载的发明和与其等同的范围中。

Claims

1.一种图像显示装置，其特征在于，具备：

检测部，从输入图像检测多个注目区域；

生成部，对所述多个注目区域的图像分别实施提高目视确认性的修正且是包含尺寸修正、颜色修正以及正对修正中的至少某一个的所述修正而生成与所述多个注目区域分别对应的多个副图像，其中，所述尺寸修正对该注目区域的图像的尺寸进行调整，所述颜色修正对该注目区域的图像的颜色进行调整，所述正对修正以使得该注目区域所包含的对象成为从正面观察的图像的方式对该注目区域的图像进行转换；

配置决定部，将所述多个副图像在所述输入图像中的配置决定为各副图像至少不与其他副图像以及与该副图像对应的注目区域以外的其他注目区域重叠，并且所述多个注目区域之中最接近的注目区域成为与该副图像对应的注目区域；

识别部，对所述多个注目区域分别进行针对该注目区域所包含的对象的识别处理；以及

显示控制部，使所述多个副图像分别按照决定出的配置重叠于所述输入图像上并显示于显示器，当所述识别处理结束时，使所述识别处理的结果以伴随着表示与所述副图像的对应关系的画面表现的形式进一步显示于所述显示器。

2.如权利要求1所述的图像显示装置，其特征在于，

所述识别部对所述注目区域中的按照预先确定的规则选择的所述注目区域所包含的对象进行所述识别处理，

所述显示控制部使从作为所述识别处理的对象而选择的所述注目区域的图像生成的所述副图像、即第一副图像、与从未作为所述识别处理的对象而选择的所述注目区域的图像生成的所述副图像、即第二副图像以不同的显示方式显示于所述显示器。

3.如权利要求2所述的图像显示装置，其特征在于，

在进行了指定所述显示器所显示的所述第一副图像的第一操作的情况下，所述显示控制部使与所指定的所述第一副图像对应的所述识别处理的结果的显示停止。

4.如权利要求3所述的图像显示装置，其特征在于，

所述检测部利用使用训练数据进行训练后的识别模型从所述输入图像检测所述注目区域，

在进行了指定所述显示器所显示的所述第一副图像的所述第一操作的情况下，将所指定的所述第一副图像追加到负例的所述训练数据并进行所述识别模型的再训练。

5.如权利要求2所述的图像显示装置，其特征在于，

在进行了指定所述显示器所显示的所述第二副图像的第二操作的情况下，所述识别部对与所指定的所述第二副图像对应的所述注目区域所包含的对象进行所述识别处理。

6.如权利要求5所述的图像显示装置，其特征在于，

在进行了指定所述显示器所显示的所述第二副图像的所述第二操作的情况下，将所指定的所述第二副图像追加到正例的所述训练数据并进行所述识别模型的再训练。

7.如权利要求1所述的图像显示装置，其特征在于，

所述显示控制部作为表示所述副图像与所述注目区域的对应关系的画面表现，使用将所述副图像配置于与该副图像对应的所述注目区域的附近的画面表现。

8.如权利要求1所述的图像显示装置，其特征在于，

所述显示控制部作为表示所述副图像与所述注目区域的对应关系的画面表现，使用利用线连结所述副图像和与该副图像对应的所述注目区域的图像表现。

9.一种图像显示方法，该图像显示方法在图像显示装置中执行，其特征在于，包含以下工序：

从输入图像检测多个注目区域的工序，

对所述多个注目区域的图像分别实施提高目视确认性的修正且是包含尺寸修正、颜色修正以及正对修正中的至少某一个的所述修正而生成副图像的工序，其中，所述尺寸修正对该注目区域的图像的尺寸进行调整，所述颜色修正对该注目区域的图像的颜色进行调整，所述正对修正以使得该注目区域所包含的对象成为从正面观察的图像的方式对该注目区域的图像进行转换，

将所述多个副图像在所述输入图像中的配置决定为各副图像至少不与其他副图像以及与该副图像对应的注目区域以外的其他注目区域重叠，并且所述多个注目区域之中最接近的注目区域成为与该副图像对应的注目区域的工序，

对所述多个注目区域所分别进行针对该注目区域包含的对象的识别处理的工序，

使所述多个副图像分别按照决定出的配置重叠于所述输入图像上并显示于显示器，当所述识别处理结束时，使所述识别处理的结果以伴随着表示与所述副图像的对应关系的画面表现的形式进一步显示于所述显示器的工序。