CN102782680A

CN102782680A - 信息处理装置、信息处理方法、记录了信息处理程序的记录介质

Info

Publication number: CN102782680A
Application number: CN2011800105510A
Authority: CN
Inventors: 益子宗
Original assignee: Rakuten Inc
Current assignee: Lotte Group Co ltd
Priority date: 2010-02-26
Filing date: 2011-02-28
Publication date: 2012-11-14
Anticipated expiration: 2031-02-28
Also published as: JP5075291B2; US20130188872A1; CN102782680B; JP2012073999A; JP5647916B2; US8949267B2; WO2011105608A1; US8825670B2; JP5259876B2; JPWO2011105607A1; EP2541440A1; JP2013041602A; JPWO2011105608A1; CN102763104A; EP2541441A4; EP2541441A1; CN102763104B; US20120323901A1; EP2541440A4; WO2011105607A1

Abstract

在图像中特征性地利用了检索关键字的情况下使检测容易。图像检索装置（10）包括：图像数据库（11），其保存检索对象的图像；字符串区域提取部（13），其提取图像中的包含字符串的字符串区域；字符串候选识别部（14），其对字符串区域中包含的字符串进行识别；视觉性特征量计算部（16），其根据字符串区域的图像，计算基于构成字符串的字符的大小、颜色、形状及装饰、以及字符颜色与背景颜色的对比度中的任一个的该字符串的视觉性特征量；检索关键字输入部（17），其输入检索用的关键字；检索部（18），其检索关键字是否与由图像识别的字符串一致，并且根据根据识别了一致的字符串的字符串区域计算的所述视觉性特征量计算包含该字符串的图像的得分值；输出部（19），其根据计算的得分值输出检索的结果。

Description

信息处理装置、信息处理方法、记录了信息处理程序的记录介质

技术领域

本发明涉及与图像检索有关的信息处理装置、信息处理方法、记录了信息处理程序的记录介质。

背景技术

作为对图像的检索方法，例如可考虑将图像中包含的字符串进行文本化而对进行了文本化的字符串进行检索。作为将图像中包含的字符串进行文本化的技术，例如有专利文献1中记载的进行字符识别的技术。

现有技术文献

专利文献

专利文献1：日本特开2001-337993号公报

发明内容

发明要解决的课题

但是，在图像中使用字符串的情况下，将图像使用于Web页面等的使用者有时会有意图地、特征性地使用图像中的布局、字符的字体、字符颜色与背景颜色的对比度。作为该意图，例如有，为使商品显眼的意图、或者在广告中使用夸大表现等的不正当表现。在该情况下，如果单纯地检索图像中包含的字符串，则不能够按照将图像使用于Web页面等的使用者的意图而进行适当的检索。

本发明是鉴于上述问题点而完成的，本发明的目的在于提供一种在图像中特征性地利用了检索关键字的情况下能够使检测容易的信息处理装置、信息处理方法、记录了信息处理程序的记录介质。

用于解决课题的手段

为了达到上述目的，本发明的信息处理装置的特征在于，包括：图像数据库，其保存检索对象的图像；字符串区域提取单元，其提取保存于图像数据库的图像中的包含字符串的字符串区域；字符串识别单元，其对由字符串区域提取单元提取出的字符串区域所包含的字符串进行识别；视觉性特征量计算单元，其根据由字符串区域提取单元提取出的字符串区域的图像，计算基于构成字符串的字符的大小、颜色、形状及装饰、以及字符颜色与背景颜色的对比度中的至少任意一个的该字符串的视觉性特征量并进行存储。

在本发明的信息处理装置中，计算基于构成图像中包含的字符串的字符的大小、颜色、形状及装饰、以及字符颜色与背景颜色的对比度中的至少任意一个的该字符串的视觉性特征量并进行存储。如果利用该信息进行检索，则能够输出与该视觉性特征量相应的检索结果。因此，例如，在图像中特征性地利用了检索关键字的情况下，能够输出使得该图像处于上位的检索结果。即，根据本发明的信息处理装置，在图像中特征性地利用了检索关键字的情况下能够使检测容易。

视觉性特征量计算单元可以计算构成字符串的每个字符的视觉性特征量并进行存储。根据该结构，在检索时，能够将每个字符的视觉性特征量相加而作为字符串的视觉性特征量。

本发明优选为，信息处理装置还包括：检索关键字输入单元，其输入检索用的关键字；检索单元，其检索由关键字输入单元输入的关键字是否与由字符串识别单元识别的字符串中的至少一部分一致，并且根据识别出一致的字符串的字符串区域的视觉性特征量计算包含该字符串的图像的得分值；输出单元，其根据由检索单元计算的得分值输出检索单元的检索结果。根据该结构，能够利用根据视觉性特征量计算单元计算的视觉性特征量可靠地进行检索。

本发明优选为，视觉性特征量计算单元根据构成字符串区域的字符串的像素的明度与构成字符串区域的背景的像素的明度之差而计算视觉性特征量。根据该结构，能够适当地提取基于图像的颜色的视觉性特征量，并适当地实施本发明。

本发明优选为，视觉性特征量计算单元将构成字符串区域的字符串的像素的明度设为在该像素中最多的颜色的像素的明度，将构成字符串区域的背景的像素的明度设为在该像素中最多的颜色的像素的明度。根据该结构，能够可靠地提取基于图像的颜色的视觉性特征量，并可靠地实施本发明。

本发明优选为，检索单元对由关键字输入单元输入的多个关键字计算得分值。根据该结构，能够进行针对多个检索用的关键字的检索，能够进行对用户而言便利性更高的检索。

本发明优选为，检索单元根据包含关键字的图像相对于图像数据库中保存的图像的比例而计算得分值。根据该结构，能够输出与图像中包含的关键字的出现率相应的检索结果。即，能够输出对用户而言便利性更高的检索结果。

本发明优选为，图像数据库以不包含多个同一图像的方式保存检索对象的图像，并且将根据该图像得到的哈希值和表示该图像被利用的Web页面的部位的信息对应地进行保存，输出单元输出表示通过检索单元的检索得到并且不包含多个同一图像的图像的信息、以及以与该图像的哈希值对应的方式保存在图像数据库中的表示该图像被利用的Web页面的部位的信息。根据该结构，能够将作为检索对象的图像的哈希值与表示该图像被利用的Web页面的部位的信息进行对应而保存，作为检索结果，输出表示根据检索而得到的图像的信息、以及以与该图像的哈希值进行对应的方式保存的表示该图像被利用的Web页面的部位的信息。如果是同一图像，则哈希值成为一定的范围内的值，因此在多个Web页面的部位中被利用的图像能够作为一个图像进行处理。因此，根据该结构，即使在同一图像在多个Web页面的部位被利用的情况下也能够有效地灵活利用检索结果。即，能够防止同一图像作为检索结果而排列，用户能够高效地发现想要检索的图像。例如，能够防止记载有用户检索到的关键字的同一图像作为检索结果而排列的情况。

另外，本发明除了如上所述作为信息处理装置的发明记载以外，还能够如以下所述作为图像检索方法以及记录了图像检索程序的计算机可读取的记录介质来记载。这只是类别不同，实质上是相同的发明，起到相同的作用以及効果。

即，本发明的图像检索方法为由根据包括保存检索对象的图像的图像数据库的信息处理装置执行的图像检索方法，该图像检索方法的特征在于，包括：字符串区域提取步骤，提取保存于图像数据库的图像中的包含字符串的字符串区域；字符串识别步骤，对在字符串区域提取步骤中提取出的字符串区域所包含的字符串进行识别；视觉性特征量计算步骤，根据在字符串区域提取步骤中提取出的字符串区域的图像，计算基于构成字符串的字符的大小、颜色、形状及装饰、以及字符颜色与背景颜色的对比度中的至少任意一个的该字符串的视觉性特征量并进行存储。

另外，根据本发明的记录介质为记录了使一个以上的计算机作为如下单元进行工作的计算机可读取的记录介质：图像数据库，其保存检索对象的图像；字符串区域提取单元，其提取保存于图像数据库的图像中的包含字符串的字符串区域；字符串识别单元，其对由字符串区域提取单元提取出的字符串区域所包含的字符串进行识别；视觉性特征量计算单元，其根据由字符串区域提取单元提取出的字符串区域的图像，计算基于构成字符串的字符的大小、颜色、形状及装饰、以及字符颜色与背景颜色的对比度中的至少任意一个的该字符串的视觉性特征量并进行存储。

发明效果

本发明中，能够根据基于构成图像中包含的字符串的字符的大小、颜色、形状及装饰、以及字符颜色与背景颜色的对比度中的至少任一个的该字符串的视觉性特征量输出检索结果。因此，例如，在图像中特征性地利用了检索关键字的情况下，能够使得该图像上位而输出检索结果。即，根据本发明，在图像中特征性地利用了检索关键字的情况下能够使检测容易。

附图说明

图1是表示作为本发明的实施方式的信息处理装置的图像检索装置的功能结构的图。

图2是表示根据图像识别并由图像检索装置存储的字符候选的例子的表。

图3是表示根据图像的字符串区域取得了字符颜色和背景颜色的例子的图。

图4是用于根据字符串的字符尺寸、以及字符颜色的明度与背景颜色的明度之差求出字符串的视觉性特征量的表。

图5是用于说明检索关键字与字符识别可信度的关系的图。

图6是根据图像检索装置作为检索结果而输出并表示的画面的例子。

图7是表示由本发明的实施方式的图像检索装置执行的处理(信息处理方法)中的直至生成图像检索用的信息为止的处理的流程图。

图8是表示由本发明的实施方式的图像检索装置执行的处理(信息处理方法)中的实际上进行图像检索的处理的流程图。

图9是表示由本发明的实施方式的图像检索装置执行的处理(信息处理方法)中的关键字的检索处理的流程图。

图10是表示字符候选数与图像内字符检索的精度的关系的曲线图。

图11是表示目视结果与检索结果的比较(N=30的情况)的表。

图12是用于实验的样本图像。

图13是表示图像得分的计算结果的表。

图14是表示字符候选数与检索时间的关系的曲线图。

图15是将本发明的实施方式的信息处理程序的结构与记录介质一起示出的图。

图16是表示将由图像检索装置存储的根据图像识别的字符候选进行组合而得到的字符串的例子的表。

具体实施方式

下面，参照附图详细地说明本发明的信息处理装置、信息处理方法、信息处理程序、记录了信息处理程序的记录介质以及图像检索用信息生成装置的优选的实施方式。另外，在附图的说明中对同一要件标记同一符号，并省略重复的说明。

图1是示出作为本实施方式的信息处理装置的图像检索装置10。图像检索装置10是受理针对检索对象的图像的检索要求而输出与该检索要求相应的检索结果的装置。在本实施方式中，检索对象的图像是在网络购物商城中销售的商品的说明图像。图像检索装置10的图像检索的目的是检查作为商品的说明图像有无不合适的图像。作为商品的说明图像不合适的图像是指，例如被消費者过度地期待健康商品、化妆品等商品的効果的图像。根据上述的检索对象以及目的，例如由管理网络购物商城的企业主使用图像检索装置10。因此，虽然在图1中没有明示，但图像检索装置10能够与构成网络购物商城的服务器连接等而取得检索对象的图像。

图像检索装置10能够与管理者终端30连接而互相进行信息的收发。图像检索装置10从管理者终端30受理针对检索对象的图像的检索要求，向管理者终端30输出表示与检索要求相应的检索结果的信息。

图像检索装置10是通过具备CPU(Central Processing Unit)、存储器、通信模块等硬件的服务器装置等的计算机来实现的。通过这些结构要件通过程序等进行动作，从而发挥后述的图像检索装置10的功能。另外，图像检索装置10也可以由包括多个计算机的计算机系统构成。

管理者终端30是由管理上述网络购物商城的企业主的用户使用的具有通信功能的终端，能够与图像检索装置10进行信息的收发。管理者终端30具体相当于PC(Personal Computer)等通信装置。

接下来，对图像检索装置10的功能性的结构进行说明。如图1所示，图像检索装置10具备图像数据库11、图像登记部12、字符串区域提取部13、字符候选识别部14、字符候选存储部15、视觉性特征量计算部16、检索关键字输入部17、检索部18、以及输出部19。

图像数据库11是保存(存储)检索对象的图像的数据库。图像数据库11中保存的图像是如上所述登载在构成网络购物商城的Web站点中的、在该网络购物商城中销售的商品的说明图像。各图像被赋予确定图像的ID等信息，由此能够确定图像。另外，图像数据库11不会重复地保存同一图像。即，图像数据库11以不包含多个同一图像的方式保存图像。具体地，图像数据库11通过图像检索装置10所具备的存储器、硬盘等硬件来实现。图像数据库11既可以对通过构成数据库的软件来保存的图像的数据进行管理，也可以只是单纯地将图像的数据保存到存储器、硬盘等。

图像数据库11与保存的图像对应地存储通过对该图像应用哈希函数而得到的哈希值。该哈希函数是预先设定的特定的哈希函数。如果是同一图像，则由此得到的哈希值在一定的范围内。由此，在网络购物商城中在多个Web站点中使用同一图像的情况下，能够用一个哈希值进行管理。另外，在此，对于字符颜色相似(红色与橙色等)的图像、字符的大小相似的图像等对用户而言视为相同的图像，也可以设为是同一图像。上述哈希值的一定的范围是可以根据视为同一图像的图像而适当设定的。图像数据库11将表示作为该图像被利用的Web页面的部位的Web站点的信息与上述哈希值进行对应而保存。表示Web站点的信息例如是URL(Uniform ResourceLocator)。另外，图像数据库11将数值与表示上述Web站点的各个信息进行对应而保存。该数值例如是该Web站点中的该图像所涉及的商品的销售价格。另外，也可以将表示上述Web站点的各个信息与该Web站点中的该商品的说明等其它的信息进行对应。根据上述的数据结构，图像数据库11能够将图像、与图像被利用的Web站点以及该Web站点中的该图像所涉及的商品的销售价格的信息进行对应而存储。

图像登记部12是输入新登记到图像数据库11中的图像与表示该图像被利用的Web站点的信息，并使这些信息保存到图像数据库中的图像登记单元。图像登记部12预先存储上述特定的哈希函数。图像登记部12对输入的图像应用该哈希函数而计算哈希值。图像登记部12读出图像数据库11中保存的哈希值，判断计算的哈希值是否是从已经保存在图像数据库11中的哈希值起在一定的范围内的值。图像登记部12在判断为计算的哈希值是从已经保存的哈希值起在一定的范围内的值的情况下，将表示该图像被利用的Web站点的信息与该已经保存的哈希值进行对应而保存到图像数据库11中。图像登记部12在判断为计算的哈希值不是从已经保存的哈希值起在一定的范围内的值的情况下，将输入的图像及表示Web站点的信息、以及计算的哈希值进行对应而重新保存到图像数据库11中。此时，如上所述也可以还结合该Web站点中的该图像所涉及的商品的销售价格的信息等来进行登记。

例如，通过管理网络购物商城的企业主的用户的操作，从管理者终端30向图像登记部12输入图像和表示该图像被利用的Web站点的信息。或者，也可以在网络购物商城的Web站点中新利用图像的情况下自动地进行输入。

字符串区域提取部13是提取图像数据库11中保存的图像中的包含字符串的字符串区域的字符串区域提取单元。字符串区域的提取例如如下这样进行。首先，为了提取图像内的字符而将对象图像变换为灰度图像之后，通过辨别分析法来决定阈值并变换为2值图像。该方法例如可以使用如下方法，即，大津：基于辨别以及最小2乘规范的自动阈值选定法，信学论D，Vol.63，No.4，pp.349-356(1980)中记载的方法。接下来，提取对2值图像进行标记处理，并将得到的图像连结要素使用间距、纵横比以及角度来连结区域并在横向和纵向上排列而成的字符串图像。该方法例如可以使用如下方法:芦田，永井，冈本，宫尾，山本：从情景图像的字符提取，信学论D，Vol.J88-D2，No.9，pp.1817-1824(2005)中记载的方法。

字符串区域提取部13将如上所述提取的字符串区域(的图像的数据)输出到字符候选识别部14以及视觉性特征量计算部16。此时，以使能够辨别提取的字符串区域是从哪个图像进行了提取(提取源的图像)。另外，字符串区域提取部13也可以从一个图像提取多个字符串区域。在该情况下，对从图像提取的各个字符串区域例如赋予ID等而以使能够进行辨别。另外，提取的字符串区域也可以是在图像中区域重复的部分。在图像中，一个部位也可以属于纵向的字符串区域和横向的字符串区域这两个区域。这是为了在无法明确地辨别在哪个方向上读取字符串的情况下，也防止遗漏字符串的提取。

字符串区域提取部13提取字符串的定时例如是在图像数据库11中新保存图像的定时。或者，也可以将用户的操作作为触发而进行提取。

字符候选识别部14是对于构成由字符串区域提取部13提取并输入的字符串区域中包含的字符串的各字符，根据图像进行字符识别来确定多个字符候选的字符候选识别单元。另外，字符候选识别部14关于进行字符识别时确定的各字符候选，评价字符识别的正确性，对各字符候选附加顺序。字符识别如下述这样进行。

使用词素解析，将输入的字符串区域的图像分割为构成字符串的各字符的图像，对各字符的图像进行字符识别处理。通过从图像提取字符识别中使用的特征量，比较该特征量与预先提取的能成为字符候选的字符的特征量，从而进行字符识别。关于字符识别中使用的特征量，例如能够使用利用了字符的轮廓的方向线性元素特征。该方法例如可以使用如下方法：孙，田原，阿曾，木村：使用了方向线性元素特征量的高精度字符识别，信学论，vol.J74-D-II，No.3，pp.330-339(1991)中记载的方法。

作为字符识别的正确性，例如可以使用特征量的欧几里德距離的短度。即，越是具有在特征量的欧几里德距離上与从图像提取的特征量近的特征量的字符，设为正确性越高的字符候选。使用该字符识别的正确性，对于各对象字符图像，对字符候选附加顺序。附加顺序的字符候选作为直至第N位被复用的字符候选而被保持(N是预先设定的2以上的自然数)。通过对这样构成字符串的各字符保持多个字符候选，避免字符候选错误所导致的检索遗漏。如上所述，字符候选识别部14将构成根据字符串区域确定的字符串的各字符的多个字符候选的信息输出到字符候选存储部15。

字符候选存储部15是将由字符候选识别部14确定的多个字符候选按照字符串的顺序与作为该字符候选的确定源的图像进行对应而存储的字符候选存储单元。字符候选存储部15按照由字符候选识别部14评价的正确性从高到低的顺序将表示各字符候选的信息针对每个字符作为针对图像的索引而进行存储。例如，通过向图像检索装置10的存储器、硬盘等保存例如下述的表示各字符候选的数据(文件)，从而进行该存储。

图2示出字符候选存储部15所存储的信息的例子。图2所示的例子是根据一个字符串区域识别的字符候选。如图2所示，字符候选存储部15所存储的信息是将字符的顺序(图2中的“No.j”)、字符坐标、以及识别结果的信息分别对应的信息。字符的顺序是表示该字符候选相当于构成字符串的第几个字符的信息。字符坐标是表示该字符候选位于字符候选的确定源的图像中的哪个位置的信息。字符坐标的信息表示将图像左上设为原点(0，0)时的字符图像的(x坐标，y坐标，宽度，高度)。在此，x坐标以及y坐标表示字符图像中的预先设定的基准位置(例如，字符图像的左上的像素的位置)。例如由字符候选识别部14取得字符坐标的信息。

识别结果是按照正确性从高到低的顺序排列各字符的字符候选的结果。在此，将识别结果C的第n个字符候选第j位表现为C[n][j]。例如，图2的表的识别结果C中的C[1][1]、C[1][2]以及C[10][1]分别为“そ”、“予”以及“高”。

字符候选存储部15将如图2所示的表示识别结果的信息与作为字符候选的确定源的图像的哈希值等的对图像进行确定的信息进行对应而存储，以使能够辨别从哪个图像进行了提取。另外，在从一个图像提取多个字符串区域的情况下，与字符串区域的ID等进行对应而存储，以使能够辨别从哪个字符串区域进行了提取。

字符候选存储部15也可以将由字符候选识别部14确定的多个字符候选作为将该字符候选中的任意一个按照所述字符串的顺序进行组合得到的字符串，与作为该字符候选的确定源的图像进行对应而存储。即，也可以对于图2所示的各字符，存储选择一个字符候选并按照字符串的顺序进行组合而得到的字符串。

例如，是如图2所示的识别结果的情况下，该字符串如图16所示。在此，组合而存储的字符串并非按照根据图像取得的字符候选的顺序连续，而是部分性地遗漏了字符串。例如，关于根据图像取得的字符候选，“安全性”“の高さ”虽然没有按照字符候选的顺序连续，但也可以是那样的组合。另外，针对每个字符存储字符候选的情况下，与上述同样地在后述的检索中也可以并非一定按照字符候选的顺序判断一致。另外，如上所述存储字符串的情况下，对于与字符候选对应的信息(字符识别的正确性的信息等)，也可以和与字符串进行对应而针对每个字符存储了字符候选的情况同样地进行处理。

在此存储的字符串既可以对于所有的字符候选的组合进行存储，也可以仅存储与作为预先设定的检索关键字而设想的字符串一致的组合。另外，也可以对于字符串的一部分(例如，在图2的信息的例子中“その安全性”这样的部分)进行存储。

视觉性特征量计算部16是根据由字符串区域提取部13提取的字符串区域的图像，计算基于构成字符串的字符的大小以及颜色中的至少任一个的该字符串的视觉性特征量(saliency)并进行存储的视觉性特征量计算单元。视觉性特征量计算部16根据构成字符串区域的字符串的像素的明度、与构成字符串区域的背景的像素的明度之差计算视觉性特征量。视觉性特征量计算部16将构成字符串区域的字符串的像素的明度设为在该像素中最多的颜色的像素的明度，将构成字符串区域的背景的像素的明度设为在该像素中最多的颜色的像素的明度。更具体地，视觉性特征量计算部16通过以下的处理来计算字符串的视觉性特征量。视觉性特征量计算部16将计算的视觉性特征量与字符串进行对应而存储。例如，通过向图像检索装置10的存储器、硬盘等保存信息，从而进行该存储。

另外，视觉性特征量计算部16也可以计算构成字符串的每个字符的视觉性特征量并进行存储。根据该结构，能够在检索时相加每个字符的视觉性特征量而设为字符串的视觉性特征量。

视觉性特征量计算部16与字符候选识别部14同样地进行字符识别。但是，视觉性特征量计算部16的字符的识别也可以并非一定确定多个字符候选。视觉性特征量计算部16根据在提取字符时得到的字符图像区域的纵横的大小，确定字符的大小(字符尺寸)。例如，以点(pt)单位得到字符尺寸。

视觉性特征量计算部16对于字符图像区域中包含的字符区域与背景区域，使用代表颜色选择法来取得字符颜色和背景颜色。代表颜色选择法例如记载于如下：长谷，米田，酒井，丸山：关于以彩色文书图像中的字符区域提取为目的的颜色分割的研究，信学论D-II vol.J83-D-II No.5 pp.1294-1304(2000)。选择代表颜色的过程是，首先针对字符区域和背景区域的各区域，将像素值从RGB颜色空间变换为L*a*b*颜色空间。之后，将所有的像素映射到分割为一边是w的立方体的L*a*b*颜色空间，并调查落在小区域中的像素的数量。在此，w是预先设定的值。其结果，将小区域的像素值与落在周围存在的26附近的各个小区域中的像素数相比最多的小区域设为代表颜色。但是，在产生多处的情况下，将它们中的任意一个区域设为代表颜色。

图3中示出实际上进行代表颜色选择并取得了字符颜色和背景颜色的例子。在图3中，用虚线示出的区域是字符串区域。另外，选择代表颜色时的w的值设为4。视觉性特征量计算部16根据代表颜色的像素的RGB值，通过以下的式(1)来求出明度L。

L=0.298912R+0.586611G+0.114478B (1)

视觉性特征量计算部16求出字符颜色的明度L与背景颜色的明度L之差的绝对值。接下来，视觉性特征量计算部16按照图4的表，根据得到的字符尺寸与明度差，计算字符串的视觉性特征量。在图4所示的表中，视觉性特征量为与low（低）、medium（中）以及high（高）等定性的标记，但也可以将它们变换为定量的值。视觉性特征量计算部16将表示计算的字符串的视觉性特征量的信息输出到检索部18。

视觉性特征量计算部16计算视觉性特征量的定时例如与字符串区域提取部13提取字符串的定时同样地，是在图像数据库11中新保存图像的定时。在该情况下，视觉性特征量例如作为向作为针对图像的索引的索引付加的信息而存储。或者，也可以在检索部18进行检索处理时，根据来自检索部18的指示来进行。另外，视觉性特征量计算部16除了大小以及颜色以外，也可以根据其它的字符的特征、例如形状(字体)及装饰、以及字符颜色与背景颜色的对比度中的至少任一个来计算视觉性特征量。

检索关键字输入部17是输入检索用的关键字的检索关键字输入单元。检索关键字输入部17也可以输入多个关键字。在该情况下，优选还结合表示以多个关键字进行AND检索还是进行OR检索的信息来进行输入。例如，如下述进行检索用的关键字的输入。

检索关键字输入部17受理来自管理者终端30的访问要求，向管理者终端30发送具有用于输入关键字的表格（Form）的Web页面的数据。在管理者终端30中，接收并显示该Web页面的数据。在管理者终端30中，由用户进行关键字的输入操作，包含该关键字的检索要求被发送到图像检索装置10。检索关键字输入部17接收该检索要求，根据接收到的检索要求取得关键字，从而输入关键字。检索关键字输入部17将输入的关键字输出到检索部18。

检索部18是使用从检索关键字输入部17输入的关键字，将图像数据库11中保存的图像作为对象进行检索的检索单元。通过判定构成从检索关键字输入部17输入的关键字的各字符是否按照该关键字的顺序与构成由字符候选存储部15存储的字符串的多个字符候选中的任意一个一致，从而进行检索。例如，在检索用的关键字是“安全性”，且构成字符串的多个字符候选是图2的表所示的内容的情况下，由于在第3个字符～第5个字符的字符候选中分别包含“安”，“全”，“性”的字符，因此图2所示的字符串被判断为命中了“安全性”这一关键字。关于字符串是否命中关键字的判断，将使用流程来后述。

如上所述，在字符候选存储部15存储将字符候选按照字符串的顺序进行组合得到的字符串的状态下，也可以通过比较从检索关键字输入部17输入的关键字、与字符候选存储部15存储的字符串来进行检索。在字符候选存储部15存储的字符串中包含从检索关键字输入部17输入的关键字的情况下，判断为字符候选存储部15所存储的字符串命中了关键字。这样，如果字符候选存储部15存储了字符串，则能够通过如上所述与检索用的关键字判断字符串彼此的一致来进行检索，因此能够加快检索处理。另外，如果不作为字符串存储而作为图2所示的信息存储字符候选，则对于未知词、模糊的关键字也能够进行检索。

在上述检索方法中，与仅使用字符识别的结果的第1候选进行检索的情况相比，能够期待降低检索遗漏(提高再现率)，但与此同时，包含较多的识别错误的检索错误会増加(精确率下降)。因此，检索部18在构成关键字的各字符与由字符候选存储部15存储的多个字符候选中的任意一个一致的情况(字符候选命中关键字的情况)下，根据表示上述正确性的信息，评价关于该一致的可信度(一致度)。更具体地，检索部18根据与关键字的字符一致的字符候选的顺序，作为表示上述可信度的值而计算对于关键字t的字符识别可信度(similarity)。在此，字符识别可信度是0.0～1.0的范围的值，如果是更大的值则表示可信度高。检索部18通过以下的式(2)计算字符识别可信度similarity。

similarity(t)=Keyword(t).length/totalscore(t) (2)

在上述式中，Keyword(t).length是关键字t的长度(字符数)，totalscore(t)是一致(匹配)的字符候选的顺序的合计。另外，仅以第1候选而与关键字一致的字符串的字符识别可信度为1.0。

例如，示出从图5所示的2个图像各自的字符识别结果以“絶対痩せる（绝对减肥）”这样的关键字进行了检索的情况下的字符识别可信度的例子。在图5(a)所示的例子中，所有的字符与第1候选一致，因此字符识别可信度通过5÷(1+1+1+1+1)来计算，成为1.00。在图5(b)所示的例子中，最后的字符与第3候选一致，因此字符识别可信度通过5÷(1+1+1+1+3)来计算，成为0.71。这样，字符识别可信度低的图像被误检索的可能性高，字符识别可信度高的图像正确地包含检索关键字的可能性高。即，字符识别可信度能够作为更正确地包含检索关键字的指标而使用。为此，在从大量的图像中列出包含关键字的图像时，根据字符识别可信度来分类检索结果，从而优先提示检索错误少的结果的图像。

检索部18也可以根据关键字的字符数，决定对与关键字的一致进行判定的字符候选的数量。虽然在后面更详细说明，但在检索关键字的字符数少的(检索关键字短的)情况下，存在产生检索错误而精确率降低的倾向。因此，例如在判断为关键字的字符数是预先设定的阈值以下的情况下，也可以将判定一致的字符候选的数量设为比通常少的数量。检索部18如果决定了字符候选的数量，则根据表示关于字符候选的正确性的信息，决定对与关键字的一致进行判定的字符候选。具体地，检索部18将直至决定的字符候选的数量的顺序为止的字符候选设为判定一致的字符候选。

检索部18根据关键字与字符候选的一致的检索的结果，计算包含针对该关键字的该字符候选的图像的得分值。该得分值表示作为检索结果而输出的图像的顺序，在本实施方式中，表示检索关键字以不合适的形式包含在图像中的可能性的高低。

首先，检索部18根据如上述求出的检索关键字t的视觉性特征量saliency(t)和字符识别可信度similarity(t)，通过以下的式(3)来求出包含在图像内的第m个字符串(t，m)的字符特征量termscore(t，m)。

termscore(t，m)=(1-α)·similarity(t，m)+α·saliency(t，m) (3)

在此，α是表示视觉性特征量与字符识别可信度的权重的值。α是0～1的值且是预先设定的值。α、similarity以及saliency之间存在相关关系，由此得到精度更好的检索结果。希望根据检索的使用方法、目的来决定α的附加方法、即对similarity和saliency应该如何附加权重。在设α=0的情况下，成为仅反映了字符识别可信度similarity的得分，视觉性特征量saliency不被考虑。另一方面，在设为α=1的情况下，成为仅反映了视觉性特征量saliency的得分，字符识别可信度similarity不被考虑。越使α接近1，在字符是否一致这样的观点中结果越差。另外，图像内的第m个字符串表示是由字符串区域提取部13提取的多个字符串区域所相关的字符串中的哪个字符串。关于m，取从1至由字符串区域提取部13提取的字符串区域的数量为止的值中的某一个值。

即，检索部18根据由视觉性特征量计算部16根据如下字符串区域而计算的视觉性特征量，计算包含该字符串的图像的得分值，其中，所述字符串区域是构成了构成关键字的各字符按照该关键字的顺序一致的字符串的多个字符候选被识别的字符串区域。

另外，检索部18对于由检索关键字输入部17输入的多个关键字，计算得分值。检索部18为了考虑图像中包含的关键字的出现频度而计算图像中包含的关键字的tf-idf。tf-idf作为用于提取文章中的特征性单词的算法而已知，且是主要在信息检索、文章摘要等的领域中利用的指标。tf是文章中的单词的出现频度，idf是用于降低许多文档中出现的词的重要度，并提高只在特定的文档中出现的单词的重要度的逆出现频度。在本方案中，将该tf-idf的思想扩展到图像内字符，通过组合到字符串的视觉性特征量和字符识别可信度中来使用，从而计算图像得分。

检索部18为了根据检索关键字t的出现频度来提高图像得分，通过以下的式(4)来求出在图像内包含tf(t)个的检索关键字t的各个字符特征量的平方和，并设为利用检索关键字的图像的得分。另外，关于字符串与图像的对应，参照由字符候选存储部15存储的字符候选与图像的对应的信息。在此，m是在成为对象的图像中包含关键字t的字符串的下标，是1～tf(t)的范围的整数。

数[1]

score (t, image) = Σ_{m = 1}^{tf (t)} {termscore (t, m)}^{2} - - - (4)

另外，以多个检索关键字进行检索时的图像得分能够使用idf(t)的值来计算。使用检索对象的总图像数(A)和包含t的图像数(S)，通过以下的式(5)来求出检索关键字t的idf(t)。包含检索关键字t的图像越少idf(t)成为越大的值，idf(t)表示罕见词。

idf(t)=log(A/(S+1))+1 (5)

通过以下的式(6)来求出对查询(检索要求)q中包含的多个检索关键字t的图像得分score(t，image)乘以idf(t)的值而得到的数值的总积，从而计算以多个检索关键字进行AND检索时的图像得分。

[数2]

score (q, image) = \underset{t &Element; q}{Π} idf (t) \cdot score (t, image) - - - (6)

通过以下的式(7)来求出对查询q中包含的多个检索关键字t的图像得分score(t，image)乘以idf(t)的值而得到的数值的总和，从而计算以多个检索关键字进行OR检索时的图像得分。

[数3]

score (q, image) = \underset{t &Element; q}{Σ} idf (t) \cdot score (t, image) - - - (7)

如上所述，检索部18根据针对图像数据库11中保存的图像数的、包含关键字的图像数的比例，计算得分值。

在tf-idf的思想中，文章越长，包含检索关键字t的概率越高，因此一般根据文章量来调整tf。为此，在本手法中，也优选作为图像内包含的文章量的指标而使用字符识别后的字符串的长度、图像的尺寸来进行加权。但是，在本实施方式中作为对象的商品说明图像具有复杂的背景、布局，因此在字符识别时将背景识别为字符等、在识别结果中包含噪声的情况较多。因此，难以一概地将字符识别后的字符串的长度作为图像内的字符量的指标而使用。另外，由于图像尺寸和图像内包含的字符量并非一定，存在600×10，000pix(像素)的超巨大图像的得分非常低的情况、20×100pix左右的小的旗帜图像的得分急剧变高的情况。为此，在本实施方式中，无需一定进行基于图像内的文章量的加权。

检索部18将表示通过检索命中关键字的图像的信息、以及针对这些图像的图像得分score(q，image)输出到输出部19。

输出部19是示出检索部18的检索的结果的输出单元。输出部19输出表示命中关键字的图像的信息。表示输出部19所输出的图像的信息是基于由字符候选存储部15存储的字符候选与图像的对应性的信息。

具体地，例如通过向管理者终端30发送包含检索结果的信息的Web页面的信息，从而进行输出部19的输出。图6示出在管理者终端30的浏览器中显示该Web页面的例子。如图6所示，显示命中关键字的图像。在此，所显示的图像按照图像得分score(q，image)从高到低的顺序排列。即，输出部19根据关于由检索部18评价的关键字与字符候选之间的一致的可信度，输出检索部18的检索的结果。另外，输出部19根据由检索部18计算的各图像的得分值，输出检索部18的检索的结果。

另外，输出部19根据与图像数据库11中保存的图像的哈希值相关联的信息输出信息。输出部19输出表示通过检索单元的检索得到并且不包含多个同一图像的图像的信息、以及与图像的哈希值进行对应而保存在图像数据库11中的表示该图像被利用的Web站点的信息。更具体地，输出部19输出表示通过检索部18的检索得到的图像的信息，根据该输出来受理选择图像的输入，输出与该输入相关的图像的哈希值进行对应而保存的表示该图像被利用的Web站点的信息。

在图6所示的例子中，首先，输出部19对管理者终端30，作为检索部18的检索的结果发送显示命中关键字的图像的Web页面的数据。在管理者终端30中，在浏览器上显示这些图像。图6的区域A1是显示命中关键字的图像的部分。接下来，在管理者终端30中，通过由用户点击“销售该商品的商铺”这样的部分，从而在浏览器上选择所显示的图像中的任意一个时，管理者终端30将表示所选择的图像的信息发送到图像检索装置10。输出部19接收表示所选择的图像的信息，参照图像数据库11，取得与该图像的哈希值对应的表示Web站点的信息，并输出到管理者终端30。

而且，输出部19参照图像数据库11，取得与Web站点所示的信息对应的表示商品的销售价格的信息。输出部19在向管理者终端30发送表示Web站点的信息时，以按照商品的销售价格顺序(例如，价格从高到低的顺序，或者从低到高的顺序)显示的方式进行输出。另外，在管理者终端30中显示表示Web站点的信息时，也可以还结合商品的销售价格、Web站点中的商品的说明来显示。图6的区域A2是表示利用图像的Web站点的信息、以及显示商品的销售价格等的部分。如上所述，输出部19根据图像数据库11中保存的销售价格，输出表示图像被利用的Web站点的信息。以上是图像检索装置10的功能性的结构。

接下来，使用图7～图9的流程图来说明在本实施方式的图像检索装置10中执行的处理(信息处理方法)。首先，使用图7的流程图，对直至生成图像检索用的信息为止的处理进行说明，之后使用图8以及图9的流程图，对实际进行图像检索的处理进行说明。

在本实施方式的图像检索装置10中，输入检索对象的图像，通过图像登记部12将该图像登记到图像数据库11中(S01)。结合图像的输入，还进行表示该图像被利用的Web站点的信息、图像所相关的商品的销售价格的信息等的图像中附随的信息的输入，这些信息如上述与哈希值进行对应而保存在图像检索装置10中。例如，通过管理网络购物商城的企业主的用户的操作，从管理者终端30进行图像的输入。在输入了多个图像的情况下，对于各个图像进行登记，进行以下的处理。

接下来，在图像检索装置10中，由字符串区域提取部13提取图像数据库11中保存的图像中的包含字符串的字符串区域(S02，字符串区域提取步骤)。所提取的字符串图像从字符串区域提取部13输出到字符候选识别部14。

接下来，由字符候选识别部14将所提取的字符串区域的图像分割为构成字符串的各字符的图像(S03，字符候选识别步骤)。接下来，由字符候选识别部14对所分割的各图像进行字符识别处理，对于各字符确定预先决定的数量的多个字符候选(S04，字符候选识别步骤)。表示这样确定的字符候选的信息从字符候选识别部14输出到字符候选存储部15。在S02中，在提取多个字符串区域的情况下，针对每个字符串区域进行上述处理。

接下来，通过字符候选存储部15，以在检索处理时能够从检索部18进行检索的方式存储从字符候选识别部14输入的多个字符候选的信息(S05，字符候选存储步骤)。以上是直至生成图像检索用的信息为止的处理。

接下来，使用图8以及图9的流程图，对实际进行图像检索的处理进行说明。在本实施方式的图像检索装置10中，通过检索关键字输入部17来输入检索用的关键字(S11，检索关键字输入步骤)。例如，从管理者终端30接收包含关键字的检索要求，从而输入检索用的关键字。所输入的检索用的关键字从检索关键字输入部17输出到检索部18。

接下来，通过检索部18来判定所输入的检索用的关键字是否与由字符候选存储部15存储的字符候选中的任意一个一致，从而进行利用该关键字的检索(S12，检索步骤)。

使用图9的流程图，更详细地说明该关键字的检索。在此，设检索用关键字的各字符为Keyword[i]。i是表示关键字的字符的顺序的下标。Keyword[1]表示检索用关键字的第1个字符。另外，设检索用关键字的字符数为Keyword.length。另外，设从图像取得的字符串的字符候选为C[n][j]。n是表示字符串的字符的顺序的下标，j是表示字符候选的顺序的下标(与图1的表中的说明相同)。另外，N表示字符串的字符数。另外，在此，设判定与关键字的一致的字符候选的顺序为直至第30个。

在本处理中，首先设n=1而开始。这是为了从字符串的第1个字符的字符候选起判定与关键字的一致。接下来，设i=1(S1201)。这是为了判定关键字的第1个字符是否与字符候选一致。接下来，设j=1(S1202)。这是为了判定第1顺序的字符候选是否与关键字一致。

接下来，判断是否满足C[n][j]=Keyword[i](S1203)。在判断为不满足上述的情况(S1203的否)下，接着，设j=j+1(S1204)。这是为了判定接下来的顺序的字符候选是否与关键字一致。接下来，判断是否满足j>30(S1205)。这是为了在判定了与关键字的一致的字符候选的顺序超过所设定的值时进行从下一个字符起的判定。在判断为不满足S1205的条件的情况(S1205的否)下，再次进行S1203的判断。

在判断为满足S1205的条件的情况(S1205的是)下，接下来，设n=n+1(S1206)。这是为了判定字符串的下一个字符的字符候选与关键字的一致。接下来，判断是否满足n>N(S1207)。判断是否直至字符串的最后判定了一致。在判断为满足S1207的条件的情况(S1207的是)下，作为关键字与字符串的字符候选不一致而结束检索的处理。在判断为不满足S1207的条件的情况(S1207的否)下，为了再次从关键字的第1个字符起开始一致的判定而返回S1201的处理。

在判断为满足S1203的条件的情况(S1203的是)下，接下来判断是否满足i=Keyword.length (S1208)。判断是否直至关键字的最后的字符为止判定了一致。在判断为不满足S1208的条件的情况(S1208的否)下，接下来设i=i+1以及n=n+1(S1209)。为了判定关键字的下一个字符与字符串的接下来的字符的字符候选的一致。接下来，判断是否满足n>N(S1210)。判断是否直至字符串的最后为止判定了一致。在判断为满足S1210的条件的情况(S1210的是)下，作为关键字与字符串的字符候选不一致而结束检索的处理。在判断为不满足S1210的条件的情况(S1210的否)下，返回S1202的处理。这是为了判定关键字的下一个字符与字符串的下一个字符的第1顺序的字符候选的一致。

在判断为满足S1208的条件的情况(S1208的是)下，关键字的所有的字符按照关键字的顺序，与构成字符串的字符候选中的任意一个一致，因此作为关键字与字符串匹配而结束关键字的检索。另外，在本处理中，在该时刻结束关键字的检索，但也可以进一步继续进行检索来判定在之后的字符候选中是否存在关键字一致的部分。另外，也可以使用上述方法以外的方法来判定关键字与字符候选中的任意一个的一致。

在S12中，对成为检索对象的所有的字符串进行上述关键字与构成字符串的字符候选的一致的判定。另外，在S11中输入的关键字是多个的情况下，对多个关键字进行上述判断。

接下来，返回图8，对于判断为与关键字匹配的字符串计算字符串的得分(S13，检索步骤)。具体地，如下述这样计算得分。首先，通过检索部18，对于与关键字一致的字符串(字符候选)，使用上述式(2)来计算字符识别可信度(S131，检索步骤)。

接下来，使用上述式(1)，计算与关键字一致的字符串所涉及的字符串区域的图像的视觉性特征量(S132，视觉性特征量计算步骤)。通过从检索部18对视觉性特征量计算部16进行指示，由视觉性特征量计算部16进行视觉性特征量的计算。另外，视觉性特征量计算部16的视觉性特征量的计算本身无需一定在该定时进行，也可以预先在例如与S04同样的定时进行并存储，并参照在该定时存储的信息。所计算的表示视觉性特征量的信息从视觉性特征量计算部16输出到检索部18。

接下来，通过检索部18，使用上述式(3)来计算作为字符串的得分值的字符特征量termscore(t，m)(S133，检索步骤)。

接下来，通过检索部18，使用上述式(5)，计算作为表示关键字的使用率的值的idf(t)(S14，检索步骤)。接下来，通过检索部18，根据所计算的字符特征量termscore(t，m)和idf(t)，使用上述式(4)、式(6)以及式(7)中的任意一个，计算图像得分score(q，image)(S15，检索步骤)。从检索部18将表示包含有在S12中判断为与关键字匹配的字符串的图像的信息、以及表示上述图像得分的信息输出到输出部19。

接下来，通过输出部19，输出检索部18的检索的结果(S16，输出步骤)。根据从检索部18输入的信息，生成针对来自管理者终端30的检索要求的检索结果的信息并发送到管理者终端30，从而进行检索的结果的输出。具体地，关于检索结果的信息，在管理者终端30中显示如上述表示包含有判断为按照图像得分从高到低的顺序与关键字匹配的字符串的图像的信息。另外，如上所述，关于该图像被利用的Web站点的信息等，也从输出部19发送到管理者终端30。用户能够通过参照在管理者终端30中显示的检索结果来识别检索结果。以上是在图像检索装置10中实际进行图像检索的处理。

如上所述，在本实施方式中，能够根据基于构成图像中包含的字符串的字符的大小、颜色、形状及装饰、以及字符颜色与背景颜色的对比度中的至少任一个的该字符串的视觉性特征量输出检索结果。因此，例如，在图像中特征性地利用了检索关键字的情况下，能够输出使得该图像处于上位的检索结果。即，根据本发明，在图像中特征性地利用了检索关键字的情况下能够使检测容易。例如，即便在包含同一字符串的图像中，与用小的字符进行说明的情况相比，在标题等用大的字符书写的图像的情况下得分值高。由此，在视觉上显眼的同时能够发现不正当的概率高的表现。

另外，在上述实施方式中，确定了从字符串区域构成字符串的字符的多个字符候选。但是，在根据视觉性特征量进行的检索中，无需一定确定多个字符候选，也可以从字符串区域唯一地识别字符串。即，上述的图像检索装置10的字符串候选识别部14是对由字符串区域提取部13提取的字符串区域中包含的字符串进行识别的字符串识别单元。另外，图7中的S03以及S04构成本实施方式的图像检索方法的字符串识别步骤。

另外，如上述实施方式那样，如果根据构成图像的像素的明度计算视觉性特征量，则能够适当且适当地提取视觉性特征量，并能够适当且适当地实施本发明。

另外，使用视觉性特征量的本发明的特征是通过以下的本发明的发明人的想法而得到的。即使是使用了用于对不正当的图像进行检测的检索的关键字的图像，根据关键字的使用方法，很多情况下未必是不正当的表现。

因此，本发明的发明人作为预备实验，网络购物商城的管理者事先通过目视确认了判断为是不正当的图像的674张图像。其结果，得知在包含不正当表现的图像中有(1)不正当单词在视觉上显眼的多、(2)不正当单词的出现频度高、(3)在图像内包含多个不正当单词这样的特征。基于这些想法，根据视觉性特征量计算图像的得分值。另外，关于出现频度等的想法，也反映在上述本发明的特征中。

人在很多情况下无意识地将视线投向在周囲的视觉刺激中具有不同的属性的刺激。根据W3C的Techniques For Accessibility Evaluation And Repair Tools，明度差为125以上、颜色差为500以上是容易阅读的颜色的组合。可知为了在网页内容制作中也设为容易阅读的内容，需要确保字符颜色与背景颜色的明度差、颜色差所导致的对比度。另外，在槙等的研究中，根据使字符与背景的色彩分别变化为40种的1600样本的评定结果，示出了配色的明度差与阅读的容易度有很大关系。

因此，为了使上述“不正当单词在视觉上显眼的情况多”这样想法反映到得分中，关注674张包含不正当表现的样本图像内的不正当的字符串与其它的图像中包含的字符串的尺寸和对比度，并测量了分布。其结果，与图像的尺寸无关地有如下倾向：字符尺寸为30pt以上多用于标题、目录，20pt以下的字符尺寸多用于说明文。另外，可知想要检测的关键字是被设成标题或使用对比度高且容易引人注目的颜色。根据这些想法，构成了上述那样的视觉性特征量的特征。但是，明度差的范围以在W3C中定义的容易阅读的明度差125、以及通过高本等的研究得到的对于白内障的人而言感觉容易阅读的“大致充分的境界”的158为基准。

另外，优选如本实施方式这样，根据多个关键字计算得分值。如上所述，根据该结构，能够进行AND检索、OR检索等对于多个检索用的关键字的检索，能够进行对用户而言便利性更高的检索。

另外，优选如本实施方式这样，根据图像中的关键字的出现率计算得分值。根据该结构，能够输出对用户而言便利性更高的检索结果。

另外，优选如本实施方式这样，对于根据图像得到的哈希值，将表示该图像被使用的Web站点的信息进行对应，并根据该对应来进行输出。如果是同一图像，则哈希值成为一定范围内的值，因此在多个部位中利用的图像能够作为一个图像进行处理。因此，根据该结构，即使同一图像在多个部位中被利用的情况下，也能够有效地灵活利用检索结果。即，能够防止同一图像作为检索结果而排列，高效地发现用户想要检索的图像。例如，能够防止记载有由用户检索的关键字的同一图像作为检索结果而排列。但是，关于不设想上述那样的事例的情况等，无需一定进行使用了哈希值的信息的保存、输出。

在上述实施方式中，图像检索装置10具备直至生成图像检索用的信息为止的处理、以及使用所生成的图像检索用的信息而实际进行图像检索的处理这两个处理。但是，仅进行上述各个处理的装置也可以作为本发明的装置而分别构成。即，其中的一个装置是在上述功能中作为至少具备图像数据库11、字符串区域提取部13、字符候选识别部14、字符候选存储部15、以及视觉性特征量计算部16的信息处理装置的图像检索用信息生成装置。另外，另一个装置是在上述功能中作为至少具备字符候选存储部15、检索关键字输入部17、检索部18、以及输出部19的信息处理装置的图像检索装置。

另外，在本实施方式中，作为检索对象的图像以在网络购物商城销售的商品的说明图像为例进行了说明，但在本发明中，检索对象的图像不限于上述目的的图像，可以将任意的图像设为检索对象。例如，在作为被电子数据化的书本的对象而进行检索的情况下也能够应用。另外，本发明的图像检索的目的也不限于上述目的，可以对于任意的目的而使用。另外，在检测不正当的图像的情况下，也可以使用上述基准以外的基准而进行检索。例如，在检测以小的字符来表现的不正当表现的情况下，也可以使用字符越小得分越高这样的基准。

接下来，说明本发明的评价实验。本发明进行了以下的评价实验。为了利用字符候选数N来评价图像内字符检索的精度变化了何种程度，使字符候选数在1～60的范围中每5个地变化，利用在包含不正当表现的图像中容易使用的以下的66个检索关键字来进行了图像内字符检索。检索关键字具体例如是白肤、细胞、发毛、抑毛、花粉症、嫩肤、抗老化。

在实验中，网络购物商城的管理者预先使用包含在“医药品·接触·照顾类别”内检测到的不正当表现的样本图像，通过上述方案来识别图像内字符，得到识别结果。但是，作为字符类别，利用包括英、数、记号、平假名、片假名、汉字(JIS第一标准)的3410字符，并利用了为了制作辞典而在电子商店中较多地利用的“HGS创英角流行体”“HGP行书体”“MS哥特式”这3个字体。另外，将使用上述检索关键字通过目视而计数的包含检索关键字的图像数(S)、与使字符候选数变化而得到的正解图像数(T)、错误地检测到的图像数(E)进行比较，通过式(8)、(9)、(10)求出平均的再现率(Recall)、精确率(Precision)以及F值。

Recall=T/S (8)

Precision=T/(T+E) (9)

F=(2·Recall·Precision) (10)

图10示出表示字符候选数与上述值的关系的曲线图。如图10所示，通过增加字符候选，发现精确率下降且再现率上升的倾向，通过对字符识别结果进行复用，可知能够降低检索遗漏。另外，在字符候选数在30附近F值稳定，字符候选数为30以后，检索性能的差变小，因此在本实施方式中的字符识别方案中可知，通过将字符候选利用到第30位为止，能够得到良好的检索结果。

另外，在图11的表中示出字符候选数30的情况下的检索关键字的长度与检索精度的关系。如该表所示，在检索关键字短的情况下，看到发生检索错误且精确率下降的倾向。这是因为通过增加字符候选数，对被误识别的字符识别结果进行检测的概率变高，能够通过根据检索关键字的长度来调整字符候选数，从而提高精确率。而且，虽然没有发现再现率与检索关键字的长度的关联，但看到整体上再现率下降的倾向。这是因为在样本图像中较多地包含配置成拱形形状的字符串、斜体的字符、尺寸小这样的、字符提取以及识别困难的事例。

接下来，为了确认通过使用利用了字符识别可信度、图像内的字符串的视觉性特征、以及出现频度的图像得分，是否能够高效地发现包含不正当的概率高的在视觉上显眼的字符串的图像，进行了以下的实验。作为样本图像制作图12所示的10种图像来求出图像得分。图像内的字符颜色利用#000000(颜色的书写是Web销售彩色书写。以下同样)的“MS哥特式”的字体，在(1)、(4)、(6)～(10)中字符尺寸为30pt，(3)、(5)利用20pt，(2)利用30pt和20pt这两个，在(1)～(5)、(7)、(8)、(10)中将背景颜色设为#FFFFFF，在(6)、(9)中设为#666666。另外，对于“绝对痩せる”和“绝对痩せろ”的各字符串的图像的识别结果，在以“绝对痩せる”这一关键字进行了检索的情况下的字符识别可信度如在使用上述图5的说明中所示那样，与字符尺寸无关地分别成为1.00、0.71。

在图13的表中示出使取得上述字符识别可信度与视觉性特征量的平衡的参数α在0.0～1.0中每0.2地变化而计算样本图像的得分而得到的结果。但是，在式(3)中将saliency(t)设为0.0的情况下，上述视觉性特征量saliency(t)无法使图像内字符的视觉性的特征反映到得分中，因此在本实验中，将low设为0.5，将high设为1.0，将medium设为作为其中间的值的0.75。

首先，在关注α为0.0的情况时，在图像的得分中仅仅反映了字符识别可信度，因此能够优先提示检索错误少的结果的图像。但是，字符识别可信度相同的(1)～(3)和(6)成为相同的得分，在视觉上不显眼的(6)有可能到上位。α是取字符识别可信度与视觉性特征量的平衡的参数，因此使α的值越高，能够越强地反映视觉性特征量。但是，在α为0.6以上的情况下，不包含检索关键字的(7)以及(10)的得分会分别超过包含相同数量的检索关键字的(6)以及(5)的得分。因此，导致会显示包含检索结果的上位的检索错误的结果。同样地，在比较(4)、(9)、(10)时，在α为0.0的情况下(4)和(9)成为相同得分，在α为1.0的情况下(4)和(10)成为相同得分。

接下来，在比较(1)、(7)、(8)时，在α为1.0以外的情况下，可知图像中包含的检索关键字越多，图像得分越高。从这些结果，可确认通过将α的值设定为0.2～0.4从而降低不包含检索关键字的图像的得分，另外根据视觉性特征量能够将检索结果良好地进行分类。

这样，不仅是字符识别可信度，而且还考虑字符串的视觉性特征量和出现频度，从而相比于在包含相同数量的同一字符串的情况下用小的字符说明的图像，在标题等用大的字符书写的图像的情况下能够提高得分。由此，能够高效地发现在视觉上显眼的同时包含不正当的概率高的表现的图像。

接下来，制作上述图像检索装置10(图像内字符检索系统)，以实际在网络购物商城中利用的图像为对象进行了检索时间的评价。所制作的系统是在Web服务器上动作的网页应用程序。为了根据上述复用的识别结果高速地实现任意的字符串检索而使用了Lucene(Apache项目所管理的全文检索引擎)。在本系统中为了制作索引而使用利用了Lucene中安装的N-gram的单词分割Analyzer(uni-gram)，从直到第N位为止的字符识别候选的组合中进行了任意单词的检索。但是，在制作索引时通过使Field具备根据字符颜色与背景颜色的对比度、以及字符尺寸求出的视觉性特征量，从而进行与检索关键字相应的图像得分的计算。为了进行所开发的图像内字符检索系统的応答性能、检索精度这样的实用性的确认，对以下识别结果进行了索引化：以从实际的网络购物商城的“减肥·健康类别”，“医药品·接触·照顾类别”取得的567、667张图像为对象预先进行图像内的字符识别而得到的识别结果。

利用通过标准的OS进行动作的标准的PC，在以下的条件下进行了测定。

图像数：567、667张

索引尺寸(GB)：2.2(N=1)、2.8(N=5)、3.6(N=10)、4.4(N=15)、5.2(N=20)、6.0(N=25)、30(N=6.8)

在实验中，利用上述的与字符候选数N相应的图像内字符检索的精度变化的评价中使用的66个检索关键字，使用字符候选数为1～30的索引确认了针对字符候选数的检索时间。图14示出表示字符候选数与检索时间的关系的曲线图。如图14所示，针对字符候选数的检索时间以O(n)增加。同时，标准偏差的值变大，由此可知根据关键字的长度而发生探索时间的偏差。另外，在字符候选数30的情况下平均检索时间也是约350毫秒，可知在感觉不到压力这样的意图下能够实现充分经得住实用的応答性能。但是，平均检索时间是将上述66个关键字作为查询而进行了10次检索时的平均的时间。

接下来，对用于使计算机执行进行上述一系列的图像检索装置10的图像检索的处理的信息处理程序进行说明。如图15所示，信息处理程序41保存在插入到计算机而被访问的、或者计算机所具备的记录介质40中形成的程序保存区域40a内。

信息处理程序41具备总体控制图像检索处理的主模块41a、图像数据库模块41b、图像登记模块41c、字符串提取模块41d、字符候选识别模块41e、字符候选存储模块41f、视觉性特征量计算模块41g、检索关键字输入模块41h、检索模块41i、以及输出模块41j。通过执行图像数据库模块41b、图像登记模块41c、字符串区域提取模块41d、字符候选识别模块41e、字符候选存储模块41f、视觉性特征量计算模块41g、检索关键字输入模块41h、检索模块41i、以及输出模块41j而实现的功能与上述图像检索装置10的图像数据库11、图像登记部12、字符串区域提取部13、字符候选识别部14、字符候选存储部15、视觉性特征量计算部16、检索关键字输入部17、检索部18、输出部19的功能分别相同。

另外，信息处理程序41也可以构成为其一部分或全部通过通信线路等的传送介质而被传送，并根据其它的机器接收并记录(包括安装)。另外，信息处理程序41的各模块不限于安装于一个计算机而是可以安装于多个计算机中的任一个。在该情况下，由该多个计算机的计算机系统执行进行上述一系列的信息处理程序41的信息处理的处理。

符号说明

10：图像检索装置；11：图像数据库；12：图像登记部；13：字符串区域提取部；14：字符候选识别部；15：字符候选存储部；16：视觉性特征量计算部；17：检索关键字输入部；18：检索部；19：输出部；30：管理者终端；40：记录介质；40a：程序保存区域；41：信息处理程序；41a：主模块；41b：图像数据库模块；41c：图像登记模块；41d：字符串区域提取模块；41e：字符候选识别模块；41f：字符候选存储模块；41g：视觉性特征量计算模块；41h：检索关键字输入模块；41i：检索模块；41j：输出模块。

Claims

1.一种信息处理装置，其特征在于包括：

图像数据库，其保存检索对象的图像；

字符串区域提取单元，其提取保存于所述图像数据库的图像中的包含字符串的字符串区域；

字符串识别单元，其对由所述字符串区域提取单元提取出的字符串区域所包含的字符串进行识别；以及

视觉性特征量计算单元，其根据由所述字符串区域提取单元提取出的字符串区域的图像，计算基于构成所述字符串的字符的大小、颜色、形状及装饰、以及字符颜色与背景颜色的对比度中的至少任意一个的该字符串的视觉性特征量并进行存储。

2.根据权利要求1所述的信息处理装置，其特征在于，

所述视觉性特征量计算单元计算构成所述字符串的每个字符的视觉性特征量并进行存储。

3.根据权利要求1或2所述的信息处理装置，其特征在于，

所述视觉性特征量计算单元根据构成所述字符串区域的字符串的像素的明度与构成所述字符串区域的背景的像素的明度之差计算所述视觉性特征量。

4.根据权利要求3所述的信息处理装置，其特征在于，

所述视觉性特征量计算单元将构成所述字符串区域的字符串的像素的明度设为在该像素中最多的颜色的像素的明度，将构成所述字符串区域的背景的像素的明度设为在该像素中最多的颜色的像素的明度。

5.根据权利要求1至4中的任意一项所述的信息处理装置，其特征在于，该信息处理装置还包括：

检索关键字输入单元，其输入检索用的关键字；

检索单元，其检索由所述关键字输入单元输入的关键字是否与由所述字符串识别单元识别的字符串中的至少一部分一致，并且根据识别出一致的字符串的所述字符串区域的所述视觉性特征量计算包含该字符串的图像的得分值；以及

输出单元，其根据由所述检索单元计算的得分值输出所述检索单元的检索结果。

6.根据权利要求5所述的信息处理装置，其特征在于，

所述检索单元对由所述关键字输入单元输入的多个所述关键字计算所述得分值。

7.根据权利要求5或6所述的信息处理装置，其特征在于，

所述检索单元根据包含所述关键字的图像相对于所述图像数据库所保存的图像的比例而计算所述得分值。

8.根据权利要求5至7中的任意一项所述的信息处理装置，其特征在于，

所述图像数据库以不包含多个同一图像的方式保存检索对象的图像，并且将根据该图像得到的哈希值和表示该图像被利用的Web页面的部位的信息对应地进行保存，

所述输出单元输出通过所述检索单元的检索得到的并且表示不包含多个同一图像的图像的信息、以及以与该图像的哈希值对应的方式保存在所述图像数据库中的表示该图像被利用的部位的信息。

9.一种图像检索方法，由包括保存检索对象的图像的图像数据库的信息处理装置执行，

该图像检索方法包括：

字符串区域提取步骤，提取保存于所述图像数据库的图像中的包含字符串的字符串区域；

字符串识别步骤，对在所述字符串区域提取步骤中提取出的字符串区域所包含的字符串进行识别；以及

视觉性特征量计算步骤，根据在所述字符串区域提取步骤中提取出的字符串区域的图像，计算基于构成所述字符串的字符的大小、颜色、形状及装饰、以及字符颜色与背景颜色的对比度中的至少任意一个的该字符串的视觉性特征量并进行存储。

10.一种计算机可读取的记录介质，其记录了使一个以上的计算机作为如下单元进行工作的信息处理程序：

图像数据库，其保存检索对象的图像；