JP6448696B2

JP6448696B2 - 情報処理装置、方法及びプログラム

Info

Publication number: JP6448696B2
Application number: JP2017055352A
Authority: JP
Inventors: 洋次郎登内; 小林　大祐; 大祐小林; 山口　修; 修山口; 梅木　秀雄; 秀雄梅木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2019-01-09
Anticipated expiration: 2037-03-22
Also published as: US10832100B2; EP3379451B1; JP2018159972A; US20180276505A1; EP3379451A1

Description

本発明の実施形態は、情報処理装置、方法及びプログラムに関する。

近年では、例えば画像から特定の認識対象を認識することが可能な情報処理装置が開発されている。このような情報処理装置の一例としては、例えば文字が記載されている被写体の画像を撮像することによって当該画像から文字を認識する文字認識装置がある。
ところで、上記した画像には様々な文字（認識対象）が含まれている場合があり、当該文字の全てを認識しようとすると多くの処理時間が必要となる場合がある。

これに対して、例えば文字認識装置において認識する文字のサイズ等を制限することにより、処理時間を短縮することが可能となる。

しかしながら、文字認識装置において認識される文字（のサイズ）をユーザが把握していなければ、画像から当該ユーザの希望する文字が認識されないような事態が生じ、当該文字認識装置に対する利便性が低下する。

特開２０１６−０４５８７７号公報特開２００１−３５７３５５号公報特開平５−２８２０９１号公報

そこで、本発明が解決しようとする課題は、画像から認識される対象をユーザが容易に把握することが可能な情報処理装置、方法及びプログラムを提供することにある。

実施形態に係る情報処理装置は、表示処理手段と、認識手段とを備える。前記表示処理手段は、画像及び認識対象のサイズに関する情報の表示処理を実行する。前記認識手段は、前記画像から認識対象を認識する。前記認識対象のサイズに関する情報は、第１サイズ及び前記第１サイズより大きな第２サイズに関する情報を含む。前記第１サイズ及び前記第２サイズの何れか一つは変更可能である。

第１の実施形態に係る文字認識装置の構成の一例を示すブロック図。文字認識装置の処理手順の一例を示すフローチャート。表示部に表示された画像の一例を示す図。画像から文字が認識されない例について示す図。第２のサイズ変更操作の一例について説明するための図。サイズ指定領域の一例を示す図。スライドバーを用いて認識サイズを変更する場合について説明するための図。カーソルを用いて認識サイズを変更する場合について説明するための図。第２の実施形態に係る文字認識装置の構成の一例を示すブロック図。文字認識装置の処理手順の一例を示すフローチャート。第１のパラメータ変更処理について具体的に説明するための図。第２のパラメータ変更処理について具体的に説明するための図。第２のパラメータ変更処理について具体的に説明するための図。第３のパラメータ変更処理について具体的に説明するための図。第３のパラメータ変更処理について具体的に説明するための図。

以下、図面を参照して、各実施形態について説明する。
（第１の実施形態）
図１は、第１の実施形態に係る情報処理装置の構成の一例を示すブロック図である。本実施形態に係る情報処理装置は、画像から認識対象を認識することが可能な機能を有し、例えばスマートフォン及びタブレットコンピュータ等の携帯型の電子機器として実現され得る。以下の説明においては、上記した認識対象として文字を認識する情報処理装置（以下、文字認識装置と表記）について主に説明する。なお、本実施形態において、例えば、文字を「認識」するとは、単に文字を「検出」すること等を含むものとする。

図１に示すように、文字認識装置１０は、カメラ１１、格納部１２、処理部１３及び表示部１４を含む。

カメラ１１は、上記したスマートフォンのような文字認識装置１０の背面等に搭載されており、当該文字認識装置１０を把持するユーザの周辺に配置されている被写体の画像を撮像する。なお、被写体は、例えば文字（から構成される文字列）が記載されている街中の看板等を含む。すなわち、本実施形態において、カメラ１１は、複数の文字を含む画像を撮像する。

格納部１２は、文字認識装置１０に備えられる例えばＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、ＲＯＭ（Read Only Memory）またはＲＡＭ（Random Access Memory）等の記憶装置を用いて実現される。

格納部１２には、カメラ１１によって撮像された画像から文字を認識するために用いられるパラメータが設定された設定ファイルが格納されている。設定ファイルにおいて設定されているパラメータには、文字のサイズに関する情報であるサイズパラメータ（第１のパラメータ）及び認識対象とする画像の領域（認識対象領域）に関する情報であるエリアパラメータ（第２のパラメータ）が含まれる。サイズパラメータには、例えば画像から認識される文字のサイズ（以下、認識サイズと表記）が規定されている。一方、エリアパラメータには、文字が認識される画像中の領域（以下、認識エリアと表記）が規定されている。

処理部１３は、記憶装置に格納されたプログラムを実行する文字認識装置１０に備えられるコンピュータ（例えば、プロセッサ等）によって実現される。なお、コンピュータによって実行されるプログラムには、オペレーティングシステム及び画像から文字を認識するためのアプリケーションプログラム（以下、文字認識アプリケーションと表記）等が含まれる。

処理部１３は、主として画像及び文字（認識対象）のサイズに関する情報を表示するための処理を実行する機能部である。処理部１３は、画像表示処理部（第１の表示処理部）１３１、サイズ表示処理部（第２の表示処理部）１３２、エリア表示処理部（第３の表示処理部）１３３及び文字認識処理部１３４を含む。処理部１３に含まれる各部１３１〜１３４の一部または全ては、例えばコンピュータに上記した文字認識アプリケーションを実行させること、すなわち、ソフトウェアによって実現されるものとする。なお、これらの各部１３１〜１３４の一部または全ては、例えばＩＣ（Integrated Circuit）等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせ構成として実現されてもよい。コンピュータに実行させる文字認識アプリケーションは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、またはネットワークを通じて文字認識装置１０にダウンロードされてもよい。

画像表示処理部１３１は、カメラ１１によって撮像された画像を取得する。なお、カメラ１１によって撮像された画像は、格納部１１に格納されていても構わない。この場合、画像表示処理部１３１は、格納部１１から画像を取得することができる。また、画像表示処理部１３１は、例えば文字認識装置１０の外部のサーバ装置等から画像を取得してもよい。画像表示処理部１３１は、取得された画像を表示部１４に表示する。

サイズ表示処理部１３２は、画像表示処理部１３１によって表示された画像上に、上記したサイズパラメータに規定されている認識サイズを視覚的に把握することが可能な情報（認識対象の視覚情報）を表示する。この場合、サイズ表示処理部１３２は、認識サイズの文字（当該認識サイズと同程度のサイズの文字）を表示する。すなわち、本実施形態において、サイズパラメータ（文字に関する情報）は、文字の形状に関する情報（つまり、表示する文字の視覚情報）を含む。また、サイズ表示処理部１３２は、文字認識装置１０に対するユーザの操作に応じて、認識サイズの変更に関する情報を取得し、サイズパラメータを変更する。

エリア表示処理部１３３は、画像表示処理部１３１によって表示された画像上に、上記したエリアパラメータに規定されている認識エリアを表示する。また、エリア表示処理部１３３は、文字認識装置１０に対するユーザの操作に応じて、認識エリアの変更に関する情報を取得し、エリアパラメータを変更する。

文字認識処理部１３４は、設定ファイルにおいて設定されているパラメータ（サイズパラメータ及びエリアパラメータ）に従って、画像表示処理部１３１によって表示された画像（カメラ１１によって撮像された画像）から文字を認識する。なお、文字認識処理部１３４は、サイズパラメータまたはエリアパラメータが変更された場合には、当該変更されたサイズパラメータまたはエリアパラメータに従って（つまり、認識サイズまたは認識エリアの変更に関する情報に基づいて）文字を認識する。

表示部１４は、文字認識装置１０に備えられる例えばタッチパネルディスプレイ等を用いて実現される。

なお、上記したタッチパネルディスプレイには、当該タッチパネルディスプレイの画面上の指（またはペン）の接触位置を検出することが可能な例えば静電容量方式のタッチパネル等が組み込まれている。これによれば、ユーザは、タッチパネルディスプレイの画面に指を接触させる（タッチする）ことにより文字認識装置１０に対する操作を行うことが可能である。

次に、図２のフローチャートを参照して、本実施形態に係る文字認識装置１０の処理手順の一例について説明する。

なお、図２に示す処理は、例えば文字認識装置１０において上記した文字認識アプリケーションが起動された際に処理部１３によって実行されるものとする。

まず、文字認識装置１０において文字認識アプリケーションが起動されると、画像表示処理部１３１は、カメラ１１によって撮像された画像を取得する。ここで、上記したように文字認識装置１０がスマートフォン等であるものとすると、当該文字認識装置１０には、ユーザがカメラ１１に対して画像の撮像を指示するためのボタン（例えば、シャッターボタン）が設けられているものとする。この場合、画像表示処理部１３１は、例えばユーザがシャッターボタンを押下することによってカメラ１１によって撮像された静止画像を取得する。画像表示処理部１３１は、取得された画像を表示部１４に表示する（ステップＳ１）。

次に、サイズ表示処理部１３２は、格納部１２に格納されている設定ファイルを参照して、当該設定ファイルに設定されているパラメータのうちサイズパラメータを取得する。なお、サイズ表示処理部１３２によって取得されるサイズパラメータにおいては、上記した認識サイズの最小値（第１のサイズ）及び最大値（第２のサイズ）が規定（定義）されている。すなわち、サイズパラメータには、認識サイズの範囲（最小値から最大値までの範囲）が規定されている。このようなサイズパラメータによれば、最小値から最大値までの範囲に該当するサイズの文字が画像から認識されることが示されている。

サイズ表示処理部１３２は、取得されたサイズパラメータに規定されている認識サイズの文字を、ステップＳ１において表示部１４に表示された画像上に表示する（ステップＳ２）。

次に、エリア表示処理部１３３は、格納部１２に格納されている設定ファイルを参照して、当該設定ファイルに設定されているパラメータのうちエリアパラメータを取得する。なお、エリア表示処理部１３３によって取得されるエリアパラメータにおいては、上記した認識エリアの位置及び大きさが例えば画像上の座標値等により規定（定義）されている。具体的には、エリアパラメータには、例えば画像上のｘ座標の最大値及び最小値とｙ座標の最大値及び最小値が規定されているものとする。なお、エリアパラメータとしては、例えば画像中の多角形（認識エリア）の内側の画素数をＮとした場合における当該Ｎ点の座標値が規定されていてもよい。また、例えば画素値が０以外の領域を認識エリアとするようにエリアパラメータが規定されていてもよい。

エリア表示処理部１３３は、取得されたエリアパラメータに規定されている認識エリアを、ステップＳ１において表示部１４に表示された画像上に表示する（ステップＳ３）。

ここで、図３を参照して、表示部１４に表示された画像の一例について説明する。図３に示す例では、表示部１４には、例えば街中等に配置されている「○○美術館」の文字（列）が記載された看板を含む画像３０１が表示されている。

また、この画像３０１上には、サイズ表示領域３０２が設けられている。サイズ表示領域３０２は、サイズパラメータに規定されている認識サイズ（画像から認識される文字のサイズ）を表示するための領域である。具体的には、サイズ表示領域３０２には、小さいサイズの文字３０２ａ及び大きいサイズの文字３０２ｂが表示されている。

ここで、サイズパラメータにおいては、上記したように認識サイズの最小値及び最大値が規定されている。すなわち、サイズ表示領域３０２に表示されている文字３０２ａは、サイズパラメータに規定されている最小値に対応するサイズの文字（つまり、認識可能な最小の文字）を表している。一方、サイズ表示領域３０２に表示されている文字３０２ｂは、サイズパラメータに規定されている最大値に対応するサイズの文字（つまり、認識可能な最大の文字）を表している。

ユーザは、このようなサイズ表示領域３０２（に表示されている文字３０２ａ及び文字３０２ｂ）を確認することによって、サイズパラメータに従って文字３０２ａのサイズから文字３０２ｂのサイズまでの範囲の文字を認識可能であることを把握することができる。

なお、図３に示す例では、サイズ表示領域３０２には文字３０２ａ及び文字３０２ｂの２つの文字が表示されているが、当該サイズ表示領域３０２には、３つ以上の文字が表示されても構わない。この場合、文字３０２ａ及び文字３０２ｂ以外には、例えばサイズパラメータに規定されている認識サイズの最小値と最大値との中間の値に対応するサイズの文字等が表示されても構わない。

また、画像３０１上には、エリアパラメータに規定されている認識エリア（文字が認識される画像中の領域）が表示される。図３に示す例では、エリアパラメータに規定されている認識エリアは、矩形の枠３０３で表されている。これによれば、ユーザは、矩形の枠３０３によって表される領域（以下、認識エリア３０３と表記）内の文字（列）が認識可能であることを把握することができる。なお、エリアパラメータにおいて、認識エリア３０３は、例えば画像１０１の中央に位置するように規定されているものとする。同様に、エリアパラメータにおいては、例えば認識エリア３０３の各辺の長さ等が規定されているものとする。

ここで、図３に示す例において、画像３０１に含まれる看板に記載されている「○○美術館」の文字列を構成する各文字は、文字３０２ａのサイズよりも大きく、文字３０２ｂのサイズよりも小さい。また、「○○美術館」の文字列は、認識エリア３０３内に含まれている。この場合、画像３０１に含まれる「○○美術館」の文字列（を構成する文字）は、後述する文字認識処理によって画像３０１から認識可能である。

ここでは文字が認識可能な例について説明したが、例えば図４に示すように画像３１１に含まれる文字のサイズが文字３０２ｂのサイズよりも大きい場合には、「○○美術館」の文字列（を構成する文字）は画像３１１から認識されない。

この場合、ユーザは、図４に示す画像３１１に含まれる文字列「○○美術館」を文字認識装置１０において認識させるために、文字認識装置１０を操作することによってサイズパラメータに規定されている認識サイズ（の範囲）を変更することができる。

ここで、サイズパラメータに規定されている認識サイズの範囲を変更する際のユーザの操作（以下、サイズ変更操作と表記）の例について説明する。なお、文字認識装置１０はタッチパネルディスプレイを備え、サイズ変更操作は、当該タッチパネルディスプレイに対する操作であるものとする。

ここでは、第１〜第３のサイズ変更操作について説明する。第１のサイズ変更操作は、例えばサイズ表示領域３０２に表示されている文字３０２ａまたは文字３０２ｂをタッチする操作である。このような第１のサイズ変更操作によれば、当該第１のサイズ変更操作が行われる度に、サイズパラメータに規定されている認識サイズの最小値または最大値が段階的に変更されるものとする。

具体的には、サイズ表示領域３０２に表示されている文字３０２ａが１回タッチされた場合には、認証サイズの最小値を１段階大きくすることができる。この場合、サイズ表示領域３０２に表示されている文字３０２ａのサイズは、変更された後の最小値に対応するサイズに変更される。

また、サイズ表示領域３０２に表示されている文字３０２ｂが１回タッチされた場合には、認証サイズの最大値を１段階大きくすることができる。この場合、サイズ表示領域３０２に表示されている文字３０２ｂのサイズは、変更された後の最大値に対応するサイズに変更される。

ここでは、認識サイズの最小値または最大値を大きくする場合について説明したが、当該最小値または最大値を小さくする場合には、ユーザは、当該最小値または最大値を大きくする場合の操作とは異なる第１のサイズ変更操作を行うものとする。この認識サイズの最小値または最大値を小さくする場合の第１のサイズ変更操作には、例えばサイズ表示領域３０２に表示されている文字３０２ａまたは文字３０２ｂを連続で２回タッチするまたは長くタッチするといった操作が含まれる。

次に、第２のサイズ変更操作は、例えばサイズ表示領域３０２に表示されている文字３０２ａまたは文字３０２ｂをスライドさせる操作である。このような第２のサイズ変更操作によれば、当該第２のサイズ変更操作によって文字がスライドさせられた距離に応じてサイズパラメータに規定されている認識サイズの最小値または最大値が変更されるものとする。

具体的には、図５に示すように、サイズ表示領域３０２に表示されている文字３０２ａをタッチした状態で左方向にスライドさせた場合には、認識サイズの最小値を小さくすることができる。一方、図示しないが、サイズ表示領域３０２に表示されている文字３０２ａをタッチした状態で右方向にスライドさせた場合には、認識サイズの最小値を大きくすることができる。なお、認識サイズの最小値が変更された場合、サイズ表示領域３０２に表示されている文字３０２ａのサイズは、当該変更された後の最小値に対応するサイズに変更される。

同様に、サイズ表示領域３０２に表示されている文字３０２ｂをタッチした状態で左方向にスライドさせた場合には、認識サイズの最大値を小さくすることができる。一方、サイズ表示領域３０２に表示されている文字３０２ｂをタッチした状態で右方向にスライドさせた場合には、認識サイズの最大値を大きくすることができる。なお、認識サイズの最大値が変更された場合、サイズ表示領域３０２に表示されている文字３０２ｂのサイズは、当該変更された後の最大値に対応するサイズに変更される。

第３のサイズ変更操作は、例えばサイズパラメータに規定されている認識サイズの最小値及び最大値を直接指定（選択）する操作である。

具体的には、例えばサイズ表示領域３０２（に表示されている文字３０２ａまたは文字３０２ｂ）がタッチされた場合に、図６に示すようなサイズ指定領域３０４が表示部１４に表示されるものとする。ユーザは、このようなサイズ指定領域３０４において、認識サイズの最小値（に対応するサイズの文字）及び最大値（に対応するサイズの文字）のそれぞれをタッチする操作を行うことができる。

図６に示す例においては、ユーザは、例えば認識サイズの最小値に対応するサイズの文字として文字３０４ａをタッチし、当該サイズパラメータにおいて規定する認識サイズの最大値に対応するサイズの文字として文字３０４ｂをタッチすることができる。これによれば、認識サイズの最小値（文字３０２ａに対応するサイズ）及び最大値（文字３０２ｂに対応するサイズ）を、ユーザによってタッチされた文字３０４ａ及び文字３０４ｂの各々のサイズに対応する最小値及び最大値に変更することができる。なお、このように認識サイズの最小値及び最大値が変更された場合、サイズ表示領域３０２には、文字３０４ａ及び文字３０４ｂが表示されることになる。

上記したような第１〜第３のサイズ変更操作によれば、例えば図４に示す画像３１１が表示されている場合において、サイズ表示領域３０２に表示されている文字３０２ｂのサイズが「○○美術館」の文字よりも大きくなるように認識サイズの最大値を変更することができる。これにより、画像３１１に含まれる「○○美術館」の文字を当該画像３１１から認識されるようにすることができる。

なお、ここでは第１〜第３のサイズ変更操作について説明したが、サイズパラメータに規定されている認識サイズは、例えば画像上に表示されるスライドバー等に対する操作のような他の操作によって変更されても構わない。

ここで、図７を参照して、スライドバーに対する操作によってサイズパラメータに規定されている認識サイズが変更される場合について説明する。上記したように例えばサイズ表示領域３０２がタッチされた場合、表示部１４にはサイズ指定領域３０４が表示される。この場合、サイズ指定領域３０４には、それぞれ異なるサイズの文字が当該サイズの順に並べて配置されており、当該文字の配置に沿うようにスライドバー３０４ｃが設けられている。また、スライドバー３０４ｃ上には、認識サイズの最小値に対応するスライダー３０４ｄ及び認識サイズの最大値に対応するスライダー３０４ｅが配置されている。ユーザは、このようなスライダー３０４ｄ及び３０４ｅを左右方向にスライドさせることにより、認識サイズの最小値及び最大値を変更することができる。

なお、ここでは認識サイズの最小値から最大値までの範囲を変更する場合について説明したが、例えば図８に示すようにサイズ指定領域３０４においてカーソル３０４ｆを移動させることによって１つのサイズ（の文字）を選択するようにしてもよい。この場合には、例えば選択されたサイズと一致するサイズの文字のみが認識されるように認識サイズが変更されてもよいし、当該選択されたサイズを含む予め定められた範囲内のサイズの文字が認識されるように認識サイズが変更されてもよい。なお、図８に示すように１つのサイズが選択された場合には、例えばサイズ表示領域３０２には当該サイズの１つの文字が表示されるようにしてもよい。

再び図２に戻ると、サイズ表示処理部１３２は、上記したサイズ変更操作がユーザによって行われたか否かを判定する（ステップＳ４）。

サイズ変更操作がユーザによって行われたと判定された場合（ステップＳ４のＹＥＳ）、サイズ表示処理部１３２は、上記したようにサイズパラメータに規定されている認識サイズの範囲（最小値または最大値）を変更する処理を実行する（ステップＳ５）。なお、ステップＳ５において認識サイズの範囲が変更された場合、サイズ表示処理部１３２は、当該変更された認識サイズの範囲に基づいてサイズ表示領域３０２（に表示される文字）の表示を更新する。

一方、サイズ変更操作がユーザによって行われていないと判定された場合（ステップＳ４のＮＯ）、ステップＳ５の処理は実行されない。

なお、上記したようにユーザはサイズ変更操作を行うことによってサイズパラメータに規定されている認識サイズ（の範囲）を変更することができるものとして説明したが、当該ユーザは、文字認識装置１０を操作することによってエリアパラメータに規定されている認識エリア（の範囲）を変更することも可能である。

具体的には、ユーザは、例えば表示部１４に表示されている認識エリアの内部をタッチした状態で、当該認識エリアを上下または左右方向にスライドさせる操作を行うことによって、当該認識エリアの位置を移動させる（つまり、変更する）ことができる。

また、ユーザは、例えば表示部１４に表示されている認識エリアを表す枠上の２点を２本の指でタッチした状態で、当該指を広げるまたは狭くする等の操作を行うことによって、当該認識エリアの大きさを変更することができる。

上記したように認識エリアの位置または大きさが変更された場合、当該認識エリアは、当該変更された後の位置または大きさに基づいて表示部１４に表示される。

なお、以下の説明において、上記したエリアパラメータに規定されている認識エリアの位置または大きさを変更する際のユーザの操作を、便宜的にエリア変更操作と称する。

この場合、エリア表示処理部１３３は、上記したエリア変更操作がユーザによって行われたか否かを判定する（ステップＳ６）。

エリア変更操作がユーザによって行われたと判定された場合（ステップＳ６のＹＥＳ）、エリア表示処理部１３３は、上記したようにエリアパラメータに規定されている認識エリアの位置及び大きさを変更する処理を実行する（ステップＳ７）。なお、ステップＳ７において認識エリアの位置及び大きさが変更された場合、エリア表示処理部１３３は、当該変更された認識エリアの位置及び大きさに基づいて認識エリア３０３の表示を更新する。

一方、エリア変更操作がユーザによって行われていないと判定された場合（ステップＳ６のＮＯ）、ステップＳ７の処理は実行されない。

次に、文字認識処理部１３４は、サイズパラメータに規定されている認識サイズ及びエリアパラメータに規定されている認識エリアに基づいて、ステップＳ１において表示された画像に含まれる文字（列）を認識する処理（以下、文字認識処理と表記）を実行する（ステップＳ８）。なお、文字認識の手法については公知の技術を利用することが可能であり、例えば特開２０１６−０４５８７７号公報に開示された技術等を利用することが可能である。

ここで、文字認識処理においては、ステップＳ１において表示された画像から文字を含む領域を検出する処理が実行される。この場合、画像に含まれる複数の文字のうち、サイズパラメータに規定されている認識サイズの範囲（最小値から最大値までの範囲）内に該当する文字であって、かつ、エリアパラメータに規定されている認識エリア内に存在する文字を含む領域（以下、文字領域と表記）が検出される。

次に、文字認識処理部１３４は、検出された文字領域に対して文字認識を行う。文字認識処理部１３４は、文字認識結果として、文字領域に含まれる文字から構成される文字列を表すテキストを取得する。

上記したように文字認識処理部１３４によって取得されたテキストは、例えば言語解析処理等により予め設定された言語に翻訳されて、表示部１４に表示されることができる。

ここで、上記したように文字認識処理部１３４によって取得されるテキストが日本語であり、当該テキストを英語に翻訳して表示部１４に表示する場合を想定する。この場合、画像から検出される文字（つまり、翻訳前の文字）は日本語で使用される文字である。このため、上記した画像上に表示される認識サイズの文字（図３及び図４に示す文字３０２ａ及び文字３０２ｂ）としては、日本語で使用される文字を利用する。これによれば、画像から検出される文字（画像に含まれる文字）が当該画像上に表示された認識サイズの範囲に該当する（つまり、認識可能である）か否かについてのユーザの判断を容易にすることできる。なお、翻訳前の言語及び翻訳語の言語は文字認識装置１０の動作モード（例えば、日英モード等）としてユーザによって予め設定されており、認識サイズの文字の言語は、当該動作モードに従って決定されるものとする。すなわち、例えば翻訳前の言語が英語であり、翻訳後の言語が日本語である（つまり、動作モードが英日モードである）場合には、認識サイズの文字として英字（例えば、「Ａ」等）を利用することができる。

また、画像から検出される文字の種別（例えば、フォント等）が定められているような場合には、当該種別に従った文字が画像上に表示されるようにしてもよい。また、画像から検出される文字が手書きの文字である場合には、認識サイズの文字として手書きの文字が画像上に表示されても構わない。

すなわち、本実施形態において、文字のサイズに関する情報には当該文字の形状に関する情報（画像上に表示される認識サイズの文字の種別等）が含まれるものとし、当該文字の形状に関する情報は上記した動作モードに応じて決定される構成とすることができる。

ここでは文字認識処理部１３４によって取得されたテキストが翻訳される場合について説明したが、例えばユーザにとって有用な情報として提示されるのであれば、当該テキストに対して他の処理が実行されても構わない。

なお、本実施形態においては、ステップＳ１において取得される画像が静止画であるものとして説明したが、当該画像は動画像であってもよいし、当該動画像を構成する複数の画像のうちの１つであっても構わない。

また、図２においては、認識サイズ（の範囲）が変更された後に認識エリア（の位置及び大きさ）が変更されるものとして説明したが、認識エリアが変更された後に認識サイズが変更されるような構成であっても構わない。

上記したように本実施形態においては、画像上にサイズパラメータ（第１のパラメータ）に規定されている認識サイズ（画像から認識される文字のサイズ）の文字を表示し、当該画像に含まれている複数の文字のうち、当該サイズパラメータに規定されているサイズの文字を当該画像から認識する。

本実施形態においては、このような構成により、画像から認識される文字をサイズパラメータに規定されている認識サイズに該当する文字に制限することによって文字認識処理の処理速度を向上させることができるとともに、当該認識サイズ（の範囲）をユーザに提示することが可能であるため、ユーザは、画像から認識される文字のサイズを容易に把握することができる。

また、本実施形態においては、サイズパラメータに規定されている認識サイズの文字が表示されることにより、ユーザは、当該認識サイズを直感的に把握することができる。

更に、本実施形態においては、画像に含まれる文字のサイズが認識サイズに該当していないことによりユーザの希望する文字が認識されないような場合には、当該ユーザの操作に応じて認識サイズの範囲を変更することも可能である。

なお、本実施形態においては上記したようにサイズパラメータに規定されている認識サイズの最小値または最大値を変更することによって、画像から認識される文字のサイズの範囲を変更するものとして説明したが、例えば当該画像に含まれる文字（表示部１４に表示されている文字）をユーザが指定することによって、当該ユーザによって指定された文字と同程度のサイズの文字を検出するようにサイズパラメータが変更されてもよい。一方、画像に含まれる文字をユーザが指定することによって、当該ユーザによって指定された文字と同程度のサイズの文字が検出されないようにサイズパラメータが変更されてもよい。

また、本実施形態においては、画像上にエリアパラメータ（第２のパラメータ）に規定されている認識エリア（文字が認識される画像中の領域）を表示し、当該認識エリア内の文字を認識する。本実施形態においては、このような構成により、文字が認識される領域を画像の一部に制限することによって文字認識処理の処理速度を向上させることができるとともに、ユーザは、文字が認識される画像中の領域を容易に把握することができる。

なお、本実施形態においては、エリアパラメータに規定されている認識エリア以外の画像中の領域に含まれる文字は認識されないものとして説明したが、当該認識エリアに含まれる文字を優先的に認識するような構成とすることも可能である。この場合、認識エリアに文字が含まれている（つまり、認識エリアに含まれている文字が認識された）場合には当該認識エリア以外の領域に含まれる文字を認識する処理は実行されないが、当該認識エリアに文字が含まれていない場合には当該認識エリア以外の領域に含まれる文字を認識する処理が実行されるような構成であってもよい。このような構成であっても、認識エリアから文字が認識された場合には当該認識エリア以外の領域から文字を認識する処理は実行されないため、文字認識処理の処理速度を向上させることは可能である。

更に、エリアパラメータに規定されている認識エリアは、画像中の全ての領域であってもよい。また、画像中の全ての領域から文字を認識する場合であって、当該文字を認識する領域（認識エリア）を変更する必要がないような場合には、設定ファイルにおいてエリアパラメータは設定されない構成であってもよい。

また、本実施形態において、サイズ表示領域（サイズパラメータに規定されている認識サイズの文字）が表示される画像上の位置は、例えば図３及び図４に示すように認識エリアの近傍に設定することができる。これによれば、認識エリア内に含まれる文字と認識サイズの文字（範囲）とを適切に比較することが可能となる。

なお、上記したように認識エリアの位置及び大きさが変更された場合には、当該変更後の認識エリアの位置及び大きさに応じてサイズ表示領域の位置が変更されても構わない。

また、サイズ表示領域は、例えば画像処理等によって文字が存在しないと推定される領域に表示されてもよい。更に、サイズ表示領域は、ユーザによって指示された場合に当該ユーザによって指定された位置に表示されるようにしてもよい。また、サイズ表示領域は、画像に含まれる文字が認識された場合には非表示となるようにしてもよい。

なお、本実施形態においては、例えば街中に配置されている看板等を含む画像がカメラ１１によって撮像されるものとして説明したが、カメラ１１によって撮像される被写体は、文字が記載されているものであれば、例えば案内板、メニュー、商品のタグ及び書籍等であってもよいし、例えば文字が表示されたディスプレイ等であっても構わない。

また、本実施形態においては画像から文字を認識する文字認識装置について説明したが、本実施形態は、画像から文字以外の認識対象を認識する場合に適用されても構わない。具体的には、本実施形態は、画像から顔、人物、記号、標識または他の物体等を認識する情報処理装置（認識装置）に適用されても構わない。認識する物体が自動車等の移動体であってもよい。これら物体の認識には、統計学習等を用いた公知の技術を用いることができる。例えば、顔を検出する場合、顔の視覚情報として、大小異なる大きさの顔の写真・イラストなどをディスプレイ等に表示してもよい。

（第２の実施形態）
次に、第２の実施形態について説明する。図９は、本実施形態に係る文字認識装置（情報処理装置）の構成の一例を示すブロック図である。なお、図９においては、前述した図１と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図１と異なる部分について主に述べる。

なお、本実施形態に係る文字認識装置は、設定ファイルに設定されているパラメータを自動的に調整する点で、前述した第１の実施形態とは異なる。

図９に示すように、文字認識装置２０は、処理部２１を含む。処理部２１は、記憶装置に格納されたプログラムを実行する文字認識装置２０に備えられるコンピュータ（例えば、プロセッサ等）によって実現される。なお、コンピュータによって実行されるプログラムには、オペレーティングシステム及び文字認識アプリケーション等が含まれる
処理部２１は、パラメータ変更部２１１を含む。パラメータ変更部２１１は、例えばコンピュータに文字認識アプリケーションを実行させること、すなわち、ソフトウェアによって実現されるものとする。なお、パラメータ変更部２１１は、例えばＩＣ等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせ構成として実現されていてもよい。

パラメータ変更部２１１は、例えば文字認識処理部１３４による文字認識処理の結果に基づいて、認識サイズまたは認識エリアの変更に関する情報を取得し、設定ファイルに設定されているパラメータ（サイズパラメータ及びエリアパラメータ）を変更する。なお、パラメータ変更部２１１によるパラメータの変更処理の詳細については後述する。

次に、図１０のフローチャートを参照して、本実施形態に係る文字認識装置１０の処理手順の一例について説明する。

なお、図１０に示す処理は、例えば文字認識装置１０において文字認識アプリケーションが起動された際に処理部２１によって実行されるものとする。

まず、前述した図２に示すステップＳ１〜Ｓ３の処理に相当するステップＳ１１〜Ｓ１３の処理が実行される。

次に、前述した図２に示すステップＳ８の処理に相当するステップＳ１４の処理が実行される。なお、図１０においては図２に示すステップＳ４〜Ｓ７の処理は省略されているが、本実施形態において、当該ステップＳ４〜Ｓ７の処理に相当する処理が実行されても構わない。

ステップＳ１４の処理が実行されると、パラメータ変更部２１１は、ステップＳ１４における文字認識処理の結果に基づいて設定ファイルに設定されているパラメータを変更する必要があるか否かを判定する（ステップＳ１５）。

パラメータを変更する必要があると判定された場合（ステップＳ１５のＹＥＳ）、パラメータ変更部２１１は、当該パラメータを変更する処理を実行する（ステップＳ１６）。なお、ステップＳ１６においてパラメータが変更された場合、ステップＳ１４に戻って処理が繰り返される。

一方、パラメータを変更する必要がないと判定された場合（ステップＳ１６のＮＯ）、図１０に示す処理は終了される。

以下、上記した図１０に示すステップＳ１６の処理（以下、パラメータ変更処理と表記）について具体的に説明する。ここでは、第１〜第３のパラメータ変更処理について説明する。

まず、第１のパラメータ変更処理について説明する。ここで、上記したようにステップＳ１１において取得された画像が例えばユーザがシャッターボタンを押下することによってカメラ１１によって撮像された静止画像である場合、当該画像にはユーザが認識されることを希望する文字（列）が含まれていると推測される。このため、文字認識処理において画像から文字が認識されていない場合には、当該画像から文字が認識されるようにパラメータを調整する必要がある。

すなわち、第１のパラメータ変更処理は、例えばステップＳ１４の処理（文字認識処理）において文字が認識されない場合（つまり、サイズパラメータに規定されている認識サイズの範囲に該当する文字がエリアパラメータに規定されている認識エリア内に存在しない場合）に実行される。具体的には、ステップＳ１４の処理において文字が認識されない場合にステップＳ１５においてパラメータを変更する必要があると判定され、ステップＳ１６において第１のパラメータ変更処理が実行される。

この場合、例えばサイズパラメータに規定されている認識サイズの最小値から最大値までの範囲が狭いことにより、ユーザが希望する文字が認識されていない可能性がある。このため、第１のパラメータ変更処理において、パラメータ変更部２１１は、例えばサイズパラメータに規定されている認識サイズの範囲が広くなるように当該サイズパラメータを変更する。具体的には、パラメータ変更部２１１は、例えばサイズパラメータに規定されている認識サイズの最小値を小さくし、当該認識サイズの最大値を大きくする。

例えば上述した図４において説明したように「○○美術館」の文字列（を構成する文字）が画像３１１から認識されない場合には、図１１に示すサイズ表示領域３０２（に表示されている文字３０５ａ及び文字３０５ｂ）のように認識サイズの範囲を広くする。これによれば、「○○美術館」の文字列は画像３１１から認識可能となる。

なお、サイズパラメータに規定されている認識サイズの最小値及び最大値の一方のみが変更される構成であっても構わない。

ここでは認識サイズの範囲を変更する場合について説明したが、エリアパラメータに規定されている認識エリアの大きさが小さいことにより、ユーザが希望する文字が認識されていない可能性もある。このため、第１のパラメータ変更処理において、パラメータ変更部２１１は、例えばエリアパラメータに規定されている認識エリアの大きさを拡大するように当該エリアパラメータを変更する構成であっても構わない。

上記したような第１のパラメータ変更処理によれば、当該第１のパラメータ変更処理後に実行される文字認識処理において、画像から文字が認識される範囲を広くすることによって、ユーザが希望する文字が認識されるようにすることができる。

次に、第２のパラメータ変更処理について説明する。第２のパラメータ変更処理は、上記した第１のパラメータ変更処理とは異なり、例えばステップＳ１４の処理（文字認識処理）において文字が認識された場合に実行される処理である。

ここで、街中等に多数の看板が配置されているような状況においては、ユーザが様々な看板に記載されている文字を認識させるようなことが想定される。このような場合、ユーザは、看板に記載されている文字が同程度の大きさとなるように当該看板を撮影する場合が多いと推測される。このような場合において広い範囲のサイズの文字を認識する処理が実行されると、撮像された画像によってはユーザが意図しない文字を認識してしまう場合があり、処理速度が低下する。

このため、例えばステップＳ１４の処理において文字が認識された場合であっても、例えばサイズパラメータに規定されている認識サイズの範囲が比較的広い場合にはステップＳ１５においてパラメータを変更する必要があると判定され、ステップＳ１６において第２のパラメータ変更処理が実行される。

この第２のパラメータ変更処理においては、例えばステップＳ１４の処理において認識された文字を認識することができる程度に認識サイズの範囲を狭くするようにサイズパラメータが変更される。

具体的には、例えば図１２に示すように、サイズ表示領域３０２には、文字３０６ａ及び文字３０６ｂが表示されている場合を想定する。これによれば、文字３０６ａのサイズから文字３０６ｂのサイズまでの広い範囲の文字を認識可能である。ここで、図１２に示す「○○美術館」の文字が認識されている場合、例えば図１３に示すサイズ表示領域３０２に表示されている文字３０７ａ及び文字３０７ｂのように、当該「○○美術館」の文字を認識可能な程度に認識サイズの範囲を狭くする。これによれば、図１２に示す認識サイズの範囲（文字３０６ａ及び文字３０６ｂ）と比較して、「○○美術館」以外の不必要な文字が画像１１１に含まれていたとしても、当該不必要な文字については認識されないようにすることができる。

なお、認識サイズの範囲が比較的広いか否かについては、例えば当該認識サイズの範囲（認識サイズの最小値と最大値との差）が予め定められている値よりも広いか否かに基づいて判定されてもよいし、画像から認識された文字のサイズと認識サイズ（の最小値または最大値）との差が予め定められている値よりも大きいか否かに基づいて判定されてもよい。

同様に、第２のパラメータ変更処理においては、例えばエリアパラメータに規定されている認識エリアが比較的広い場合に、ステップＳ１４において認識された文字を包含する程度に認識エリアのサイズを小さくするように当該エリアパラメータが変更されても構わない。

このような第２のパラメータ変更処理によれば、文字認識処理において必要な文字を認識することができるとともに、認識される文字のサイズまたは文字が認識される領域を制限することにより処理速度を向上させることが可能となる。

なお、上記した第２のパラメータ変更処理の後に実行される文字認識処理において文字が認識されないような場合には、第２のパラメータ変更処理によって変更された認識サイズ及び認識エリアを当該変更前の状態に戻す、当該認識サイズの範囲を広くする、または当該認識エリアの大きさを拡大するようにしてもよい。

次に、第３のパラメータ変更処理について説明する。本実施形態においてはカメラ１１によって撮像された静止画像が表示部１４に表示される場合について主に説明したが、文字認識装置１０においては、当該カメラ１１によって撮像された動画像がリアルタイムに表示部１４に表示され、当該動画像（を構成する画像）に含まれる文字が認識される構成であっても構わない。このような構成の場合、ユーザが文字認識装置２０（例えば、スマートフォン）を把持することによって調整されたカメラ１１の向きに応じた動画像がリアルタイムに表示部１４に表示される。

ここで、第３のパラメータ変更処理は、動画像が表示されている間にユーザによってカメラ１１の向きが調整（変更）された場合に実行される処理である。具体的には、動画像が表示されている間にユーザによってカメラ１１の向きが調整された場合にステップＳ１５においてパラメータを変更する必要があると判定され、ステップＳ１６において第３のパラメータ変更処理が実行される。

ここで、図１４に示すように、表示部１４にカメラ１１によって撮像された画像３２１（を含む複数の画像から構成される動画像）が表示されている場合を想定する。なお、画像３２１上には、文字３０８ａ及び文字３０８ｂが表示されたサイズ表示領域３０２が設けられている。この場合において、ユーザがカメラ１１の向きを左方向に調整したものとすると、ユーザは、カメラ１１から見た場合における左方向に存在する文字を認識させることを意図しているものと推測される。このため、第３のパラメータ変更処理においては、図１５に示すように、図１４におけるカメラ１１の向きが左方向に調整された場合にエリアパラメータに規定されている認識エリア３０３が左方向に移動するように当該エリアパラメータを変更する。

このような第３のパラメータ変更処理によれば、例えば「○○美術館」の文字が画像の中央付近に表示されるまでカメラ１１の向きを変更させることなく当該文字を認識エリア３０３内に包含させることができるため、文字を認識させるまでに必要なカメラ１１の向きの調整量を低減させることができる。ここでは、カメラ１１の向きが左方向に調整される場合について説明したが、当該カメラ１１の向きが他の方向に調整される場合についても同様である。

なお、カメラ１１の向き（の調整方向）は、例えば文字認識装置１０（例えば、スマートフォン）に備えられる加速度センサ等によって判別（検出）することが可能である。

すなわち、第３のパラメータ変更処理においては、例えばパラメータ変更部２１１内に備えられる文字認識装置１０（自装置）の動きに関する情報（カメラ１１の向き等）を検出する検出部の検出結果に基づいて、認識エリアの位置を制御（決定）することが可能である。なお、検出部を、パラメータ変更部２１１以外の構成部に含めてもよい。また、文字認識装置が加速度センサ等のセンサを備えてもよい。

また、ここではカメラ１１の向きが調整された方向に認識エリアを移動させる（つまり、当該方向に認識エリアの位置を変更する）ものとして説明したが、当該方向に認識エリアの範囲が拡大されるような構成であってもよい。

また、文字認識装置１０を使用するユーザは、上記したように動画像が撮像されている場合に、当該動画像に含まれる被写体（看板等）を拡大または縮小する操作を行うことができるものとする。

ここで、ユーザが被写体を拡大する操作を行う場合には、例えば動画像に含まれる看板等に記載されている文字が認識サイズと比較して小さいことが想定される。この場合には、サイズパラメータに規定されている認識サイズの最小値が小さくなるように当該サイズパラメータを変更する。これによれば、文字が認識可能となるまでに必要な被写体（文字）の拡大量を低減させることができる。

一方、ユーザが被写体を縮小する操作を行う場合には、例えば動画像に含まれる看板等に記載されている文字が認識サイズと比較して大きいことが想定される。この場合には、サイズパラメータに規定されている認識サイズの最大値が大きくなるように当該サイズパラメータを変更する。これによれば、文字が認識可能となるまでに必要な被写体（文字）の縮小量を低減させることができる。なお、ユーザが被写体を縮小する場合には、エリアパラメータに規定されている認識エリアのサイズが拡大されるように当該エリアパラメータが変更されても構わない。

すなわち、本実施形態においては、画像の拡大表示及び縮小表示のいずれかの処理に基づいて、認識サイズの変更に関する情報が決定される構成としても構わない。

ここでは動画像に含まれる被写体を拡大または縮小する操作が行われる場合について説明したが、例えばカメラ１１を被写体に近づけるまたはカメラ１１を被写体から遠ざける場合に上記したようにパラメータが変更されても構わない。なお、カメラ１１の被写体に近づける方向への移動または被写体から遠ざける方向への移動は、上記した加速度センサ等によって判別することが可能である。

ここで説明したパラメータ変更処理は一例であり、他の処理が実行されることによってパラメータが変更されても構わない。

上記したように本実施形態においては、例えばサイズパラメータ（第１のパラメータ）に規定されている認識サイズの最小値（第１のサイズ）から最大値（第２のサイズ）までの範囲に該当するサイズの文字が画像に含まれていない場合に、当該範囲を拡大する（広くする）ようにサイズパラメータを変更する。本実施形態においては、このような構成により、画像から文字が認識されない場合に当該画像から文字が認識される範囲を広くすることで、ユーザが手動でパラメータを変更することなく当該ユーザが希望する文字が認識されるようにすることが可能となる。

また、本実施形態においては、画像（に含まれる文字）が拡大して表示された場合には認識サイズ（の最小値）を小さくし、当該画像（に含まれる文字）が縮小して表示された場合には認識サイズ（の最大値）を大きくすることにより、文字認識装置２０において文字を認識可能とするためのユーザの拡大または縮小操作の手間を低減することができ、ユーザの利便性を向上させることができる。

更に、本実施形態においては、カメラ１１によって撮像された動画像がリアルタイムに表示されている間にユーザによって当該カメラ１１の向きが調整された場合、例えばエリアパラメータに規定されている認識エリアの位置を当該カメラ１１の向きが調整された方向に変更する。本実施形態においては、このような構成により、文字認識装置２０において文字を認識可能とするためのユーザのカメラ１１の向きを調整する操作の手間を低減することができ、ユーザの利便性を向上させることができる。また、この場合には、エリアパラメータに規定されている認識エリアをカメラ１１の向きが調整された方向に拡大するような構成であっても、同様にユーザの利便性を向上させることができる。

なお、本実施形態においては、主に文字認識処理の結果に基づいて設定ファイルに設定されているパラメータ（サイズパラメータ及びエリアパラメータ）が変更されるものとして説明したが、当該パラメータは、例えば文字認識処理が実行される前に変更されてもよい。

具体的には、一般的に漢字のような複雑な文字は、英字（アルファベット）と比較して、文字認識処理のために大きく表示する必要がある場合が多い。このため、例えば文字認識処理において漢字を含む文字が認識される場合にはサイズパラメータに規定されている認識サイズの最大値が大きくなるようにサイズパラメータが変更されてもよい。一方、例えば文字認識処理において英字が認識される場合にはサイズパラメータに規定されている認識サイズの最小値が小さくなるようにサイズパラメータが変更されてもよい。なお、文字認識処理において認識される文字の言語は、上述した文字認識装置２０の動作モード等により判別可能である。

以上述べた少なくとも１つの実施形態によれば、画像から認識される対象をユーザが容易に把握することが可能な情報処理装置、方法及びプログラムを提供することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１０，２０…文字認識装置、１１…カメラ、１２…格納部、１３，２１…処理部、１４…表示部、１３１…画像表示処理部、１３２…サイズ表示処理部、１３３…エリア表示処理部、１３４…文字認識処理部、２１１…パラメータ変更部。

Claims

画像及び認識対象のサイズに関する情報の表示処理を実行する表示処理手段と、
前記画像から認識対象を認識する認識手段と、を備え、
前記認識対象のサイズに関する情報は、第１サイズ及び前記第１サイズより大きな第２サイズに関する情報を含み、
前記第１サイズ及び前記第２サイズの何れか一つは変更可能である
情報処理装置。
前記第１サイズから前記第２サイズの範囲に該当するサイズの認識対象が前記画像に含まれていない場合、前記範囲を拡大する情報を取得する変更手段を更に備える請求項１に記載の情報処理装置。
前記画像の拡大表示及び縮小表示の何れかの処理に基づいて、サイズの変更に関する情報を取得する変更手段を更に備える請求項１に記載の情報処理装置。
前記表示処理手段は、前記認識手段が認識する領域に関する情報の表示処理を実行し、
前記認識手段は、前記領域から認識対象を認識する請求項１乃至３の何れか一項に記載の情報処理装置。
前記表示処理手段は、前記領域に認識対象が含まれていない場合、前記領域を拡大する処理を実行する請求項４に記載の情報処理装置。
自装置の動きに関する情報を検出する検出手段を更に備え、
前記表示処理手段は、前記動きに関する情報に基づいて、前記画像における前記領域の位置を制御する請求項４または５に記載の情報処理装置。
前記画像及び前記認識対象のサイズに関する情報を表示する表示手段を更に備える請求項１乃至６の何れか一項に記載の情報処理装置。
情報処理装置のコンピュータによって実行されるプログラムであって、
前記コンピュータに、
画像及び認識対象のサイズに関する情報の表示処理を実行するステップと、
前記画像から認識対象を認識するステップと
を実行させ、
前記認識対象のサイズに関する情報は、第１サイズ及び前記第１サイズより大きな第２サイズに関する情報を含み、
前記第１サイズ及び前記第２サイズの何れか一つは変更可能である
プログラム。
情報処理装置が実行する方法であって、
画像及び認識対象のサイズに関する情報の表示処理を実行するステップと、
前記画像から認識対象を認識するステップと
を備え、
前記認識対象のサイズに関する情報は、第１サイズ及び前記第１サイズより大きな第２サイズに関する情報を含み、
前記第１サイズ及び前記第２サイズの何れか一つは変更可能である
方法。