JP6408055B2

JP6408055B2 - 情報処理装置、方法及びプログラム

Info

Publication number: JP6408055B2
Application number: JP2017055368A
Authority: JP
Inventors: 洋次郎登内; 一成大内; 梅木　秀雄; 秀雄梅木
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2018-10-17
Anticipated expiration: 2037-03-22
Also published as: EP3379452A1; JP2018159978A; US10528852B2; US20180276506A1

Description

本発明の実施形態は、情報処理装置、方法及びプログラムに関する。

近年では、例えば画像から特定の認識対象を認識することが可能な情報処理装置が開発されている。このような情報処理装置の一例としては、例えば文字が記載されている被写体の画像を撮像することによって当該画像から文字を認識する文字認識装置がある。

ここで、上記したように撮像された画像から文字を認識するためには、文字認識装置において一定の処理時間を必要とする。

しかしながら、このような文字を認識する処理（以下、文字認識処理と表記）が実行されている間の文字認識装置の画面には例えば撮像された画像が表示されているのみであり、ユーザは、文字認識処理の結果が画面に表示されるまで、文字認識装置において適切に文字認識処理が実行されているか否かを把握することができない。

また、例えば複数の文字認識結果の結果が表示されるような場合には、当該結果に対するユーザの視認性が低下する可能性がある。

このような文字認識装置はユーザにとって使い勝手が悪く、利便性が低い。このため、例えば文字を含む認識対象に対する画像認識に関してユーザの利便性を向上させるような表示を実現することが望まれている。

特開２０１３−１２２７４７号公報特開２００３−０７８６４０号公報特開２０００−２０７４８７号公報

そこで、本発明が解決しようとする課題は、画像認識に関してユーザの利便性を向上させるような表示を実現することが可能な情報処理装置、方法及びプログラムを提供することにある。

実施形態に係る情報処理装置は、第１認識手段と、第１表示処理手段と、第２認識手段と、第２表示処理手段とを具備する。前記第１認識手段は、第１画像に含まれる第１認識対象を認識する。前記第１表示処理手段は、前記第１認識手段における認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第１認識対象の認識結果を表示する。前記第２認識手段は、前記第１画像とは異なる第２画像に含まれる第２認識対象を認識する。前記第２表示処理手段は、前記第２認識手段における認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第２認識対象の認識結果を表示する。前記第１認識対象の認識結果と前記第２認識対象の認識結果とは、認識結果の履歴として表示される。前記履歴として表示された前記第１認識対象の認識結果及び前記第２認識対象の認識結果のうち前記第１認識対象の認識結果が選択された場合、前記第１画像及び前記第１画像が撮像された位置が表示され、前記第２認識対象の認識結果が選択された場合、前記第２画像及び前記第２画像が撮像された位置が表示される。

実施形態に係る文字認識装置の構成の一例を示すブロック図。文字認識装置の処理手順の一例を示すフローチャート。カメラによって撮像された画像が表示された場合における表示画面の一例を示す図。フォードバック情報として尤度マップ画像が表示された場合における表示画面の一例を示す図。尤度マップ画像の代わりに文字候補領域の各々を表す枠線が表示された場合における表示画面の一例を示す図。フィードバック情報として文字列領域の枠線が表示された場合における表示画面の一例を示す図。文字認識結果が表示された場合における表示画面の一例を示す図。テキストの取得に応じて枠線が強調表示された場合における表示画面の一例を示す図。テキストの取得に応じて枠線が強調表示された場合における表示画面の一例を示す図。文字を認識することができない旨の結果が表示された場合における表示画面の一例を示す図。文字を認識することができない文字列領域を包含する枠線が破線で表示された場合における表示画面の一例を示す図。文字認識結果を検索処理に用いる場合の文字認識装置の処理手順の一例を示すフローチャート。認識対象となっている領域に対してモザイク処理が施された場合における表示画面の一例を示す図。認識対象となっている領域上に特定の文字列が表示された場合における表示画面の一例を示す図。

以下、図面を参照して、実施形態について説明する。
図１は、本実施形態に係る情報処理装置の構成の一例を示すブロック図である。本実施形態に係る情報処理装置は、画像から認識対象を認識することが可能な機能を有し、例えばスマートフォン及びタブレットコンピュータ等の携帯型の電子機器として実現され得る。以下の説明においては、上記した認識対象として文字を認識する情報処理装置（以下、文字認識装置と表記）について主に説明する。

図１に示すように、文字認識装置１０は、カメラ１１、格納部１２、処理部１３及び表示部１４を含む。

カメラ１１は、上記したスマートフォンのような文字認識装置１０の背面等に搭載されており、当該文字認識装置１０を把持するユーザの周辺に配置されている被写体の画像を撮像する。なお、被写体は、例えば文字（から構成される文字列）が記載されている街中の看板等を含む。すなわち、本実施形態において、カメラ１１は、複数の文字を含む画像を撮像する。

格納部１２は、文字認識装置１０に備えられる例えばＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、ＲＯＭ（Read Only Memory）またはＲＡＭ（Random Access Memory）等の記憶装置を用いて実現される。また、格納部１２には、例えばカメラ１１によって撮像された画像等を格納することが可能である。

処理部１３は、記憶装置に格納されたプログラムを実行する文字認識装置１０に備えられるコンピュータ（例えば、プロセッサ等）によって実現される。なお、コンピュータによって実行されるプログラムには、オペレーティングシステム及び画像から文字を認識するためのアプリケーションプログラム（以下、文字認識アプリケーションと表記）等が含まれる。

処理部１３は、第１表示処理部１３１、文字認識処理部１３２、第２表示処理部１３３、第３表示処理部１３４及び検索処理部１３５を含む。処理部１３に含まれる各部１３１〜１３５の一部または全ては、例えばコンピュータに上記した文字認識アプリケーションを実行させること、すなわち、ソフトウェアによって実現されるものとする。なお、これらの各部１３１〜１３５の一部または全ては、例えばＩＣ（Integrated Circuit）等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせ構成として実現されてもよい。コンピュータに実行させる文字認識アプリケーションは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、またはネットワークを通じて文字認識装置１０にダウンロードされてもよい。

第１表示処理部１３１は、カメラ１１によって撮像された画像を取得する。なお、第１表示処理部１３１は、例えば格納部１２に格納されている画像を取得しても構わない。また、第１表示処理部１３１は、例えば文字認識装置１０の外部のサーバ装置等から画像を取得してもよい。第１表示処理部１３１は、取得された画像を表示部１４に表示する。

文字認識処理部１３２は、第１表示処理部１３１によって表示された画像（カメラ１１によって撮像された画像）から文字を認識する処理（以下、文字認識処理と表記）を実行する。

第２表示処理部１３３は、文字認識処理部１３２による文字認識処理の実行の開始から、当該文字認識処理の結果が取得されるまでの間（つまり、文字認識処理の実行中）に、当該文字認識処理が実行中であることを表す情報（以下、フィードバック情報と表記）を表示部１４に表示する。なお、フィードバック情報は、例えば画像に含まれる文字の位置を示す情報を含み、上記したように文字認識処理が終了する前に表示される。

第３表示処理部１３４は、文字認識処理部１３２による文字認識処理が終了した場合に、当該文字認識処理の結果を表示部１４に表示する。

検索処理部１３５は、第３の表示処理部１３４によって表示された文字認識処理の結果を用いた検索処理を実行する。なお、検索処理部１３５による検索処理の結果は、表示部１４に表示される。

表示部１４は、文字認識装置１０に備えられる例えばタッチパネルディスプレイ等を用いて実現される。

なお、上記したタッチパネルディスプレイには、当該タッチパネルディスプレイの画面上の指（またはペン）の接触位置を検出することが可能な例えば静電容量方式のタッチパネル等が組み込まれている。これによれば、ユーザは、タッチパネルディスプレイの画面に指を接触させる（タッチする）ことにより文字認識装置１０に対する操作を行うことが可能である。

次に、図２のフローチャートを参照して、本実施形態に係る文字認識装置１０の処理手順の一例について説明する。

なお、図２に示す処理は、例えば文字認識装置１０において上記した文字認識アプリケーションが起動された際に処理部１３によって実行されるものとする。

まず、文字認識装置１０において文字認識アプリケーションが起動されると、第１表示処理部１３１は、カメラ１１によって撮像された画像を取得する。ここで、上記したように文字認識装置１０がスマートフォン等であるものとすると、当該文字認識装置１０には、ユーザがカメラ１１に対して画像の撮像を指示するためのボタン（例えば、シャッターボタン）が設けられている。この場合、第１表示処理部１３１は、例えばユーザがシャッターボタンを押下することによってカメラ１１によって撮像された静止画像を取得する。第１表示処理部１３１は、このように取得された画像を表示部１４に表示する（ステップＳ１）。なお、第１表示処理部１３１によって取得された画像は、例えば格納部１２に格納（蓄積）されるものとする。ここでは、カメラ１１によって撮像された静止画像が取得されて表示部１４に表示されるものとして説明するが、カメラ１１によって撮像された動画像が取得されて表示部１４に表示されても構わない。

次に、文字認識処理部１３２は、ステップＳ１において表示された画像に含まれる文字（列）を認識するために文字認識処理を実行する（ステップＳ２）。

ここで、文字認識処理においては、ステップＳ１において表示された画像から文字列を含む一部の領域（以下、文字列領域と表記）を検出する処理が実行される。次に、検出された文字列領域に含まれる文字列を認識する処理が実行され、文字認識処理の結果（以下、文字認識結果と表記）として、当該文字列を表すテキストが取得される。

なお、文字認識処理部１３２は、上記したように取得されたテキストに対して翻訳処理を実行しても構わない。この翻訳処理によれば、テキストが予め設定された言語に翻訳された結果（つまり、当該テキストの翻訳文）を取得することができる。

すなわち、本実施形態における文字認識結果は、上記した画像（文字列領域）に含まれる文字列を表すテキストであってもよいし、当該テキストが翻訳された翻訳文であっても構わない。

また、本実施形態においては、上記した画像から文字列領域を検出する処理及び当該検出された文字列領域に含まれる文字列を認識する処理（当該文字列を表すテキストを取得する処理）を含む処理を文字認識処理として主に説明するが、これらの処理に上記したテキストに対する翻訳処理を加えた一連の処理を文字認識処理としても構わない。

ここで、上記した文字認識処理において文字認識結果を取得するまでには一定の処理時間が必要である。このため、第２表示処理部１３３は、文字認識処理部１３２による文字認識処理が実行されている間（つまり、文字認識結果が取得されるまでの間）に、当該文字認識処理が実行中であることを表すフィードバック情報を表示する（ステップＳ３）。なお、フィードバック情報は、文字認識に関する処理状況を、当該文字認識装置１０を使用するユーザにフィードバックするための情報である。

具体的には、第２表示処理部１３３は、フィードバック情報として、例えば上記した文字認識処理（文字列領域を検出する処理）において文字があると推定された画像上の一部領域（つまり、画像上の文字があるらしい領域）を表示するものとする。なお、表示部１４に表示されるフィードバック情報の具体例については後述する。

ステップＳ３の処理が実行されると、上記した文字認識処理部１３２による文字認識処理が終了したか否かが判定される（ステップＳ４）。

文字認識処理が終了したと判定された場合（ステップＳ４のＹＥＳ）、文字認識処理部１３２によって上記した文字認識結果が取得される。第３表示処理部１３４は、文字認識処理部１３２によって取得された文字認識結果を表示部１４に表示する（ステップＳ５）。なお、上記したように文字認識処理に翻訳処理が含まれる場合には、当該翻訳処理が完了した（翻訳文が取得された）時点で文字認識処理が終了したと判定されるものとする。

一方、文字認識処理が終了していないと判定された場合（ステップＳ４のＮＯ）、ステップＳ３に戻って処理が繰り返される。すなわち、図２に示す処理においては、文字認識処理が終了するまで、上記したフィードバック情報の表示が維持される。なお、フィードバック情報は、例えば文字認識処理の進捗（処理状況）に応じて更新される（つまり、異なるフィードバック情報が表示される）ような構成であってもよい。

以下、文字認識装置１０において文字認識処理が実行される際の表示部１４に表示される画面（以下、表示画面と表記）の遷移例について具体的に説明する。

上記したように文字認識装置１０において文字認識アプリケーションが起動され、カメラ１１によって画像が撮像された場合、表示部１４には、当該画像（を含む表示画面）が表示される。

ここで、図３は、上記したカメラ１１によって撮像された画像（以下、撮像画像と表記）が表示された場合における表示画面の一例を示す。

図３に示すように、表示画面には、第１の領域１４１及び第２の領域１４２が設けられている。

第１の領域１４１は、撮像画像（静止画像）が表示される領域である。図３に示す例では、第１の領域１４１には、「○○駅この先右折」の文字（列）が記載された看板を含む撮像画像３００が表示されている。

第２の領域１４２は、例えば第１の領域１４１に表示された撮像画像に対して文字認識処理が実行された結果（文字認識結果）が表示される領域である。文字認識処理が実行される前の時点では、図３に示すように、第２の領域１４２は空欄となっている。

次に、図３に示す画像３００に対して文字認識処理が実行される。この文字認識処理においては、例えば上記したように文字列領域を検出する処理及び当該文字列領域に含まれる文字列を表すテキストを取得する処理等が実行される。

ここで、本実施形態において、上記した文字認識処理が実行されている間には、当該文字認識処理が実行中であることを表すフィードバック情報が表示される。

以下、このフィードバック情報について具体的に説明する。本実施形態において、フィードバック情報には、例えば撮像画像を構成する画素毎の文字があるらしい度合い（以下、尤度と表記）を表す尤度マップ画像（尤度情報に基づく情報）が含まれる。

この場合、第２表示処理部１３３は、例えば撮像画像（元画像）から複数の文字候補領域を抽出し、当該文字候補領域の各々に含まれる各画素の尤度に例えば１を加算する（即ち、画素の尤度を高くする）。なお、文字候補領域とは、例えば撮像画像中の文字が存在する可能性のある画像の一部領域をいう。この文字候補領域の抽出は、例えば撮像画像の各画素の輝度値に基づいてエッジ等の特徴部分を抽出し、文字らしさの特徴を有する領域を特定することによって行われる。なお、上記したように文字候補領域は複数抽出されるが、文字候補領域として抽出される回数の多い画素の尤度は高くなり、当該文字候補領域として抽出される回数の低い画素の尤度は低くなる。第２表示処理部１３３は、このような処理により得られる各画素の尤度に応じた色彩を当該各画素に付与することによって尤度マップ画像を生成する。すなわち、本実施形態において、フィードバック情報は色彩情報を含む。上記尤度マップの作成方法は一例であり、他の公知技術を用いて尤度マップを作成してもよい。

本実施形態において、第２表示処理部１３３によって生成された尤度マップ画像は、例えば文字認識処理の実行が開始された後、文字列領域が検出されるまでの間、表示部１４に表示される。

ここで、図４は、フィードバック情報として尤度マップ画像が表示された場合における表示画面の一例を示す。

図４に示すように、尤度マップ画像４００は、例えば第１の領域１４１に表示されている撮像画像３００上に表示される。なお、図４に示す尤度マップ画像４００中の領域４０１は、尤度の低い画素を含む領域（つまり、文字の存在する可能性の低い領域）を示す。一方、尤度マップ画像４００中の領域４０２は、尤度の高い画素を含む領域（つまり、文字の存在する可能性の高い領域）を示す。

具体的には、尤度マップ画像４００において、例えば尤度が予め定められた値よりも低い領域４０１は黒（またはグレー等）で表され、尤度が予め定められた値よりも高い領域４０２は白で表されるものとする。

なお、ここでは例えば領域４０２が１つの色（白色）で表されるものとして説明したが、当該領域４０２は、例えば各画素の尤度に応じた複数の色彩（カラー）で表されても構わない。

これによれば、文字認識装置１０を使用するユーザは、文字認識装置１０において文字認識処理が実行中であること、及び領域４０２が当該文字認識装置１０によって文字があると推定されている領域であること（つまり、文字認識装置１０が文字らしいと認識している画像中の箇所）を把握することができる。

なお、図４においては尤度マップ画像４００が撮像画像３００上に重畳表示されるものとして説明したが、例えば文字認識処理が開始された時点で当該撮像画像３００は非表示とし、尤度マップ画像４００のみが表示されるような構成としても構わない。

また、ここでは尤度マップ画像４００が表示されるものとして説明したが、当該尤度マップ画像４００の代わりに、例えば図５に示す複数の文字候補領域（画像の一部領域）の各々を表す枠線（つまり、撮像画像３００上の文字が存在する可能性のある領域を包含する枠線）５００がフィードバック情報として撮像画像３００上に表示されても構わない。なお、上記した尤度マップ画像４００上に図５に示す枠線５００を更に表示するようにしてもよい。このような枠線５００を表示することによって、検出される文字列のおおよその大きさをユーザに対して提示することができる。なお、図５において枠線５００は矩形形状を有しているが、当該枠線５００は他の形状（例えば、円形状等）であっても構わない。

すなわち、本実施形態において、フィートバック情報（認識対象の位置を示す情報）は、画像の一部領域を示す情報または画像の一部領域を包含する枠線の情報等を含む。

ここで、文字認識処理部１３２によって上記した文字列領域が検出された場合を想定する。

この場合、第２表示処理部１３３は、上記した尤度マップ画像４００を非表示とし、フィードバック情報として、文字認識処理部１３２によって検出された文字列領域（の外接矩形）を表す枠線（以下、文字列領域の枠線と表記）を表示する。

図６は、フィードバック情報として文字列領域の枠線が表示された場合における表示画面の一例を示す。

図６に示すように、文字列領域の枠線は、例えば撮像画像３００上に表示される。図６に示す例では、撮像画像３００に含まれる看板に記載されている「○○駅」の文字列を含む文字列領域の枠線６０１及び「この先右折」の文字列を含む文字列領域の枠線６０２が表示されている。

図６に示す文字列領域の枠線６０１及び６０２は、例えば上記した文字認識処理において文字認識結果が取得されるまでの間、表示部１４（第１の領域１４１）に表示される。

これによれば、文字認識装置１０を使用するユーザは、文字認識装置１０において文字認識処理が実行中であること、及び枠線６０１及び６０２によって包含される領域が文字列領域として検出された領域であることを把握することができる。

なお、図６に示す枠線６０１及び６０２の各々によって包含される文字列領域の検出精度（確からしさ）に応じて、当該枠線６０１及び６０２の各々の表示態様（例えば、形状または色彩等）を変化させても構わない。文字列領域の検出精度としては、上記した撮像画像３００を構成する画素の各々の尤度のうち、例えば当該文字列領域に含まれる画素の尤度の合計値を用いることができる。

また、図６においては枠線６０１及び６０２の双方が表示された状態を示しているが、当該枠線６０１及び６０２は、全ての文字列領域の検出が終了した時点で表示されてもよいし、例えば各文字列領域が検出される度に順次表示されるようにしてもよい。

なお、図６において枠線６０１及び６０２は矩形形状を有しているが、当該枠線６０１及び６０２は他の形状（例えば、円形状等）であっても構わない。

ここで、文字認識処理が終了し、文字認識処理部１３２によって文字認識結果（例えば、文字列領域に含まれる文字列を表すテキスト）が取得された場合を想定する。

この場合、第３表示処理部１３４は、上記した文字列領域の枠線を非表示とし、文字認識処理部１３２によって取得された文字認識結果を表示する。

図７は、文字認識結果が表示された場合における表示画面の一例を示す。図７に示すように、文字認識結果は、表示画面に設けられている第２の領域１４２に表示される。

図７に示す例では、撮像画像３００に対する文字認識結果として「○○駅この先右折」の文字列（を表すテキスト）が第２の領域１４２に表示されている。

ここでは文字列領域に含まれる文字列を表すテキストが文字認識結果として取得されたものとして説明するが、当該テキストが翻訳された結果（テキストの翻訳文）が文字認識結果として取得された場合には、当該テキストの翻訳文が第２の領域１４２に表示される。なお、テキスト及び当該テキストの翻訳文の双方が第２の領域１４２に表示されるようにしてもよい。

また、本実施形態においては表示画面に第１の領域１４１及び第２の領域１４２が設けられているものとして説明したが、例えば文字認識結果が取得されるまでは表示画面全体に第１の領域１４１が設けられており、上記した文字認識結果が取得された（つまり、文字認識結果が表示される）際に、第２の領域１４２を当該画面上に出現させるような構成としてもよい。

なお、文字列領域に含まれる文字列を表すテキストを取得する処理は、当該文字列領域毎に順次実行されるものとする。具体的には、例えば図６に示す枠線６０１によって表される文字列領域に含まれる文字列を表すテキストが取得された後に、枠線６０２によって表される文字列領域に含まれる文字列を表すテキストが取得される。

ここで、図７に示す例では文字認識結果が取得された場合には文字列領域の枠線６０１及び６０２が非表示とされるものとして説明したが、文字認識結果が取得された場合であっても当該文字列領域の枠線６０１及び６０２の表示が維持されていても構わない。この場合、上記したように例えば図６に示す枠線６０１によって包含される文字列領域に含まれる文字列を表すテキストが取得された場合には当該枠線６０１が強調表示され、枠線６０２によって包含される文字列領域に含まれる文字列を表すテキストが取得された場合には当該枠線６０２が強調表示されるような構成とすることができる。具体的には、枠線６０１によって包含される文字列領域に含まれる文字列「○○駅」を表すテキストが取得された場合には、図８に示すように当該枠線６０１が強調表示される。その後、枠線６０２によって包含される文字列領域に含まれる文字列「この先右折」を表すテキストが取得された場合には、図９に示すように当該枠線６０２が強調表示される。

なお、第２の領域１４２に表示された文字列（を表すテキスト）がユーザによって指定（選択）された場合に、当該指定された文字列に対応する文字列領域を包含する枠線が強調表示されるような構成であってもよい。具体的には、第２の領域１４２に表示された文字列「○○駅」が指定された場合には枠線６０１が強調表示され、一方、文字列「この先右折」が指定された場合には枠線６０２が強調表示される。

また、第２の領域１４２に表示された文字列「○○駅」が指定された場合には、枠線６０１のみが表示される（つまり、枠線６０２を非表示とする）ようにしてもよい。一方、文字列「この先右折」が指定された場合には、枠線６０２のみが表示される（つまり、枠線６０１は非表示とする）。

上記したような構成によれば、ユーザは、文字認識結果に対応する文字列領域（つまり、テキストが取得された文字列を含む文字列領域）を容易に把握することが可能となる。

また、文字列領域は検出されたが、当該文字列領域に含まれる文字列が認識可能な言語ではない（例えば、当該文字列が認識可能な言語の単語ではない文字の並びである）ような場合には、図１０に示すように、当該文字（列）を認識することができない旨の結果が例えば第２の領域１４２に表示されるものとする。

なお、上記したように文字列領域を包含する枠線が表示されている場合には、文字列を認識することができない文字列領域を包含する枠線を例えば破線のような他の態様で表示するような構成としても構わない。例えば上記した枠線６０１によって包含される文字列領域に含まれる文字列は認識することが可能であるが、枠線６０２によって包含される文字列領域に含まれる文字列は認識することができないような場合には、図１１に示すように、枠線６０２を破線で表示することができる。なお、ここでは文字列を認識することができない文字列領域を包含する枠線６０２を破線で表しているが、当該枠線６０２は、例えば異なる色彩（文字を認識することができないことを表す色彩）で表示してもよいし、非表示としてもよい。

なお、上記した図２に示す処理は、例えばユーザがシャッターボタンを押下することによってカメラ１１によって画像が撮像される度に実行されるものとする。このような場合において、例えばカメラ１１によって第１の画像が撮像された場合には第２の領域１４２に当該第１の画像に対する文字認識結果が表示され、その後、カメラ１１によって第２の画像が撮像された場合には第２の領域１４２に当該第２の画像に対する文字認識結果が表示される。ここで、例えば第２の画像が撮像された後に第１の画像に対する文字認識結果を確認したい場合には、再度第１の画像をカメラ１１で撮像して文字認識処理を実行する（または、第１の画像を例えば格納部１２から取得して文字認識処理を実行する）必要がある。これは、ユーザにとっては非常に煩雑である。

このため、本実施形態において、第２の領域１４２には、文字認識結果の履歴が表示されるものとする。具体的には、上記したように第１の画像が撮像された後に第２の画像が撮像されたような場合には、第２の領域１４２には、第１の画像に対する文字認識結果及び第２の画像に対する文字認識結果の双方が表示される。他の画像に対する文字認識処理が更に実行された場合には、当該他の画像に対する文字認識結果が第２の領域１４２に追加される。この場合、第２の領域１４２には、第１の画像に対する文字認識結果に対応づけて第１の画像（のサムネイル画像）、第２の画像に対する文字認識結果に対応づけて第２の画像（のサムネイル画像）が更に表示されるようにしてもよい。

なお、上記した第１の画像及び第２の画像は、上記したように静止画像であってもよいし、例えば表示部１４（第１の領域１４１）にリアルタイムに表示される動画像を構成する画像であっても構わない。

また、主として表示部１４にリアルタイムに表示される動画像を構成する画像の各々に対して文字認識処理が実行される場合には、同一の文字認識結果が重複して取得される場合がある。このような場合に、同一の文字認識結果が文字認識結果の履歴として第２の領域１４２に表示されることは、ユーザにとって有用ではない。このため、本実施形態においては、過去に取得された文字認識結果（テキスト）と同一の文字認識結果が取得された場合には、当該文字認識結果はまとめて（つまり、１つの文字認識結果として）第２の領域１４２に表示するものとする。

なお、単に同一の文字認識結果をまとめて表示するのではなく、例えば画像同士のマッチングまたは文字認識装置１０（カメラ１１）の位置等に基づく撮像対象（つまり、被写体）等の情報に基づいて、同一の文字列領域（または同一の被写体を含む撮像画像）に対する文字認識結果のみをまとめて表示するような構成としても構わない。具体的には、例えばサイズが正規化された複数の画像間で相関をとることによって当該複数の画像の類似を判定し、類似と判定された複数の画像から取得された文字認識結果はまとめて表示するというような構成とすることができる。

同様に、例えば文字認識装置１０の位置及びカメラ１１の向きの情報等に基づいて撮像対象の同一性を判別することによって同一の文字列領域に対する文字認識結果をまとめて表示するような構成とすることも可能である。

すなわち、本実施形態においては、複数の画像の各々に含まれる撮像対象（第１認識対象及び第２認識対象）が同一である場合、当該複数の画像の各々に対する文字認識結果の何れか一つの表示処理（例えば第１認識対象の認識結果の表示処理）が実行される構成とすることができる。

なお、撮像対象の同一性を判別する構成の場合、当該判別処理は、文字認識処理が実行される前に実行されても構わない。このような構成によれば、撮像対象が同一である場合には、当該撮像対象（文字列領域）に対する文字認識処理を省略することが可能となり、文字認識装置１０における処理量を低減することが可能となる。

上記した文字認識装置１０の位置は、例えば文字認識装置１０（例えば、スマートフォン）に備えられるＧＰＳ機能等により取得することが可能である。また、カメラ１１の向きの情報は、例えば文字認識装置１０に備えられる加速度センサ等によって判別（検出）することが可能である。

なお、複数の文字認識結果が第２の領域１４２に表示されていることによって、当該第２の領域１４２に新たな文字認識結果を追加（表示）することができない（つまり、新たな文字認識結果を追加するスペースが第２の領域１４２にない）場合には、過去の文字認識結果が取得された順に第２の領域１４２から削除されるようにしてもよい。

また、本実施形態においては第１の領域１４１に表示されている画像（撮像画像）に対する文字認識結果及び文字認識結果の履歴の双方が第２の領域１４２に表示されるものとして説明したが、当該第１の領域１４１に表示されている画像に対する文字認識結果が表示される領域と、文字認識結果の履歴が表示される領域とは別個に設けられていてもよい。

なお、本実施形態においては第２の領域１４２に文字認識結果の履歴が表示されるものとして説明したが、表示部１４にリアルタイムに動画像が表示されているような場合には、当該動画像（リアルタイムに表示されている画像）に対する文字認識結果のみが表示され、文字認識結果の履歴（つまり、過去の文字認識結果）は表示されないようにしてもよい。すなわち、文字認識の対象となる画像の種類（静止画像または動画像）等に応じて文字認識結果の履歴の表示及び非表示灯が切り替えられるような構成とすることも可能である。

ここで、上記したように文字認識処理が実行されることによって取得される文字認識結果は第２の領域１４２に表示されるが、本実施形態においては、当該第２の領域１４２に表示された文字認識結果を検索処理に用いることができる。

以下、図１２のフローチャートを参照して、文字認識結果を検索処理に用いる場合の文字認識装置１０の処理手順の一例について説明する。

ここでは、上記した図２に示す処理が実行されることによって、第２の領域１４２に文字認識結果が表示されている場合を想定する。この場合、文字認識装置１０を使用するユーザは、第２の領域１４２に表示された文字認識結果を指定する操作（以下、指定操作と表記）を行うことができる。なお、文字認識装置１０がタッチパネルディスプレイを備える構成の場合、指定操作は、例えば第２の領域１４２に表示されている文字認識結果を指でタッチする操作等を含む。

このような指定操作がユーザによって行われた場合、処理部１３に含まれる検索処理部１３５は、当該指定操作によって指定された文字認識結果を取得する（ステップＳ１１）。なお、ステップＳ１１において取得された文字認識結果は、例えば上述した撮像画像に含まれる文字列を表すテキスト等を含む。

次に、検索処理部１３５は、ステップＳ１１において取得された文字認識結果に基づいて検索処理を実行する（ステップＳ１２）。この検索処理においては、例えば文字認識結果（テキスト）を検索キーワードとしてインターネットを介してＷｅｂページ（サイト）が検索される。

ステップＳ１２における検索処理の結果（以下、検索結果と表記）は、表示部１４に表示される（ステップＳ１３）。この場合、検索結果は、例えば第２の領域１４２に表示されるものとする。

ここで、上記した図１２に示す処理について具体的に説明する。ここでは、上記した撮像画像３００に対する文字認識結果として「○○駅この先右折」を表すテキストが第２の領域１４２に表示されているものとする。

この場合、ユーザは、例えば第２の領域１４２に表示されているテキストを構成する複数の単語のうちの少なくとも１つを指定する指定操作を行うことができるものとする。この場合、ユーザは、例えば「○○駅」の部分を検索キーワードとして指定する（タッチする）ことができる。

これによれば、検索処理部１３５は、「○○駅」を検索キーワードとしてＷｅｂページを検索する。この場合、第２の領域１４２には、例えば○○駅の時刻表（を含むＷｅｂページ）等を含む検索結果が例えばサムネイル形式で表示される。なお、検索結果としては、例えば検索キーワードに合致する度合い（スコア）が上位の予め定められた数のＷｅｂページが表示されればよい。

ユーザは、このような検索結果（サムネイル）を第２の領域１４２において指定することにより、例えば○○駅の時刻表（を含むＷｅｂページ）を表示部１４（第１の領域１４１または画面全体等）に表示させることができる。

なお、本実施形態において、文字認識結果は撮像画像に含まれる文字列を表すテキストの翻訳文であってもよい。このような文字認識結果（翻訳文）を用いてＷｅｂページを検索する場合には、当該翻訳文に基づいて検索処理が実行されてもよいし、翻訳前のテキストに基づいて検索処理が実行されてもよい。

ここではＷｅｂページが検索されるものとして説明したが、例えば文字認識装置１０にインストールされているアプリケーション（プログラム）等が検索されるような構成でもよい。上記したように「○○駅」が検索キーワードとして指定された場合には、例えば鉄道の乗換案内等に用いられるアプリケーションが検索され、当該アプリケーションが自動的に起動されるような構成であってもよい。また、例えば地図（情報）を表示するアプリケーションが検索され、検索キーワードとして指定された○○駅の周辺の地図が自動的に表示されても構わない。

また、アプリケーション以外にも、例えば格納部１２に格納されている各種コンテンツ等が検索される構成であってもよい。上記したように格納部１２にカメラ１１によって撮像された画像が格納（蓄積）されているような場合には、ユーザによって指定された文字認識結果が取得された画像が当該格納部１２から検索されて、表示部１４（例えば、第１の領域１４１）に表示されても構わない。この場合、画像と当該画像に対する文字認識結果とは、文字認識装置１０（格納部１２）において対応づけられていればよい。

なお、格納部１２において画像に対応づけて当該画像が撮像された位置を示す位置情報を格納しておくことにより、文字認識結果が指定された場合に、当該文字認識結果が取得された画像とともに当該画像が撮像された位置を表示することができる。このような構成によれば、例えば飲食店の名称等が記載された看板の画像を複数枚撮像していたような場合において、第２の領域１４２においてユーザが希望する飲食店の名称を指定した場合には、当該飲食店の名称が記載された看板の画像及び当該看板の位置（当該画像が撮像された位置）を把握することができる。

ここでは、格納部１２から画像が検索されるものとして説明したが、例えば外部のサーバ装置に格納されている各種コンテンツ等が検索されるような構成であっても構わない。

なお、上記したように検索結果が第２の領域１４２に表示される場合、例えば上記した図７等に示す第２の領域１４２の範囲（大きさ）では当該検索結果を十分に表示することができない可能性がある。このため、上記した検索処理が実行される（つまり、検索結果が第２の領域１４２に表示される）場合には、第２の領域１４２（の範囲）が拡大されるようにしてもよい。また、第２の領域１４２が拡大される場合には第１の領域１４１は小さくなるが、この場合には、例えば少なくとも文字列領域（に含まれる文字列）が第１の領域１４１に表示されるように撮像画像３００の表示範囲が調整されるようにしてもよい。

上記したように本実施形態においては、画像から文字列領域を検出する処理（第１の処理）及び当該検出された領域に含まれている文字を認識する処理（第２の処理）を含む文字認識処理を実行し、当該文字認識処理が実行されている間に当該文字認識処理が実行中であることを表すフィードバック情報を表示し、当該文字認識処理が終了した場合に当該文字認識処理の結果を表示する。なお、本実施形態においては、文字列領域を検出する処理において文字があると推定された（つまり、文字があるらしい）画像上の領域がフィードバック情報として表示される。

具体的には、画像を構成する画素毎の尤度（文字があるらしい度合い）に応じた色彩が当該画素に付与された尤度マップ画像または画像中の文字が存在する可能性がある領域を包含する枠線がフィードバック情報として表示される。

本実施形態においては、このような構成により、文字認識に関する処理状況をユーザに提示することが可能であるため、画像に対する文字認識処理が実行されていることをユーザが把握することができるとともに、例えば応答時間（待ち時間）が長いとユーザに感じさせないようにすることができる。すなわち、本実施形態においては、画像認識に関してユーザの利便性を向上させるような表示を実現することが可能となる。

なお、本実施形態においては、文字があると文字認識装置１０が認識している領域（の位置）をユーザに提示することができるため、ユーザは、文字認識処理が適切に実行されている（つまり、ユーザの意図する文字が認識されている）か否かについても把握することができる。具体的には、例えば図４に示すような尤度マップ画像４００が表示された場合には、ユーザは、撮像画像３００に含まれる文字の位置が適切に認識されていることを把握することができる。一方、例えば全体的に領域４０１となるような尤度マップ画像が表示された場合には、ユーザは、文字の位置が適切に認識されていないことを把握することができ、例えば画像を再度撮像するまたは文字認識処理を再度実行するといった操作を行うことができる。

なお、本実施形態においては、フィードバック情報の一例について説明したが、フィードバック情報は文字認識処理が実行中であることを表すものであればよく、例えば文字認識処理の途中経過等が異なる態様で表示されても構わない。具体的には、図１３に示すように例えば認識対象となっている領域（文字の存在する可能性の高い領域）７００に対してモザイク処理が施された状態の画像が表示されてもよいし、図１４に示すように当該領域７００上に例えば「処理中」のような特定の文字列（文字認識処理が実行中であることを示す文字列に関する情報）が表示されてもよい。また、図示しないが、画像を変化させる（動き）によって文字認識処理が実行中であることを表現しても構わない。

また、本実施形態においては、文字認識装置１０（表示部１４）の画面上の第１の領域１４１に画像を表示し、当該画面上の第２の領域１４２に文字認識結果（文字認識処理の結果）を表示する構成により、ユーザの文字認識結果に対する視認性を向上させることができる。

なお、本実施形態においては、第２の領域１４２が第１の領域１４１の下側に設けられるものとして説明したが、当該第２の領域１４２は、例えば第１の領域１４１の上側に設けられてもよいし、当該第１の領域１４１の左側または右側に設けられてもよい。また、第２の領域１４２の画面上の位置は、第１の領域１４１に表示される画像に含まれる文字（文字列領域）の位置等に応じて変更されるような構成であっても構わない。具体的には、例えば文字列領域の近傍に設けられるように第２の領域１４２の位置を変更するような構成としてもよい。

また、本実施形態においては、画像が表示される領域（第１の領域１４１）と文字認識結果が表示される領域（第２の領域１４２）とが別個に設けられるものとして説明したが、例えば画面全体に画像が表示され、当該画像に含まれる文字（列）上に文字認識結果が表示されるような構成であってもよい。

更に、本実施形態においては、複数の画像（第１の画像及び第２の画像）の各々に含まれている文字を認識する文字認識処理を実行し、第２の領域１４２には、複数の文字認識処理（第１の文字認識処理及び第２の文字認識処理）の結果が履歴として表示される。本実施形態においては、このような構成により、例えば過去にカメラ１１によって撮像された画像に対する文字認識結果を確認したいような場合であっても、ユーザは、当該画像を再度撮像することなく、当該文字認識結果を容易に確認することが可能となる。

また、本実施形態においては、上記したように履歴として表示される複数の文字認識結果が同一である場合、当該複数の文字認識結果をまとめて表示する（つまり、当該複数の文字認識結果の何れか１つを表示する処理を実行する）構成により、当該履歴が表示される領域（第２の領域１４２）を有効に利用することが可能となる。

また、本実施形態においては、第２の領域１４２に表示された文字認識結果がユーザによって指定された場合、当該文字認識結果が取得された画像を表示する。本実施形態においては、このような構成により、ユーザは、文字認識結果を指定することによって、例えば過去に撮像された画像であっても当該文字認識結果が取得された画像を容易に確認することが可能となる。

また、本実施形態においては、第２の領域１４２に表示された文字認識結果がユーザによって指定された場合、当該文字認識結果（テキスト）を用いた検索処理を実行し、当該検索結果（検索処理の結果）を表示する。本実施形態においては、このような構成により、ユーザは文字認識結果に関する情報を容易に検索する（取得する）ことが可能となるため、当該ユーザに対する利便性を向上させることが可能となる。

上記したように本実施形態においては画像認識（文字認識）に関してユーザの利便性を向上させるような表示の様々な例について説明したが、本実施形態に係る文字認識装置１０は、本実施形態において説明した表示例の少なくとも１つを含む構成であればよいが、当該表示例のいくつかを組み合わせた構成としてもよい。

なお、本実施形態においては、例えば街中に配置されている看板等を含む画像がカメラ１１によって撮像されるものとして説明したが、カメラ１１によって撮像される被写体は、文字が記載されているものであれば、例えば案内板、メニュー、商品のタグ及び書籍等であってもよいし、例えば文字が表示されたディスプレイ等であっても構わない。

また、本実施形態に係る文字認識装置１０は例えばスマートフォン及びタブレットコンピュータ等の携帯型の電子機器として実現されるものとして説明したが、当該文字認識装置１０は、例えばカメラ１１等を備える電子機器と通信可能に接続されるサーバ装置として実現されても構わない。

また、本実施形態においては画像から文字を認識する文字認識装置について説明したが、本実施形態は、画像から文字以外の認識対象を認識する場合に適用されても構わない。具体的には、本実施形態は、画像から顔、人物、標識、記号、移動体または他の物体等を認識する情報処理装置（認識装置）に適用されても構わない。上記物体等の認識には、統計学習等を用いた公知技術を用いることができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１０…文字認識装置（情報処理装置）、１１…カメラ、１２…格納部、１３…処理部、１４…表示部、１３１…第１表示処理部、１３２…文字認識処理部、１３３…第２表示処理部、１３４…第３表示処理部、１３５…検索処理部。

Claims

第１画像に含まれる第１認識対象を認識する第１認識手段と、
前記第１認識手段における認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第１認識対象の認識結果を表示する第１表示処理手段と、
前記第１画像とは異なる第２画像に含まれる第２認識対象を認識する第２認識手段と、
前記第２認識手段における認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第２認識対象の認識結果を表示する第２表示処理手段と
を具備し、
前記第１認識対象の認識結果と前記第２認識対象の認識結果とは、認識結果の履歴として表示され、
前記履歴として表示された前記第１認識対象の認識結果及び前記第２認識対象の認識結果のうち前記第１認識対象の認識結果が選択された場合、前記第１画像及び前記第１画像が撮像された位置が表示され、前記第２認識対象の認識結果が選択された場合、前記第２画像及び前記第２画像が撮像された位置が表示される
情報処理装置。
前記第１表示処理手段によって表示されるフィードバック情報は、前記第１認識対象の位置を示す情報を含み、
前記第２表示処理手段によって表示されるフィードバック情報は、前記第２認識対象の位置を示す情報を含む
請求項１記載の情報処理装置。
前記第１認識対象の位置を示す情報は、前記第１画像の一部領域を示す情報であり、
前記第２認識対象の位置を示す情報は、前記第２画像の一部領域を示す情報である
請求項２記載の情報処理装置。
前記第１認識対象の位置を示す情報は、前記第１画像の一部領域を包含する枠線の情報であり、
前記第２認識対象の位置を示す情報は、前記第２画像の一部領域を包含する枠線の情報である
請求項２または３に記載の情報処理装置。
前記第１認識対象の位置を示す情報及び前記第２認識対象の位置を示す情報は、色彩情報である請求項２乃至４の何れか一項に記載の情報処理装置。
前記第１認識対象の位置を示す情報は、前記第１認識手段における認識処理が実行中であることを示す文字列に関する情報であり、
前記第２認識対象の位置を示す情報は、前記第２認識手段における認識処理が実行中であることを示す文字列に関する情報である
請求項２記載の情報処理装置。
前記第１認識対象の位置を示す情報は、前記第１認識手段における検出の尤度情報に基づく情報であり、
前記第２認識対象の位置を示す情報は、前記第２認識手段における検出の尤度情報に基づく情報である
請求項２記載の情報処理装置。
前記第１認識対象及び前記第２認識対象が同一対象である場合、前記第１認識対象の認識結果及び前記第２認識対象の認識結果はまとめて表示される請求項１記載の情報処理装置。
前記フィードバック情報及び前記認識結果を表示する表示手段を更に備える請求項１乃至８の何れか一項に記載の情報処理装置。
情報処理装置のコンピュータが実行するプログラムであって、
前記コンピュータに、
第１画像に含まれる第１認識対象を認識するステップと、
前記第１認識対象に対する認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第１認識対象の認識結果を表示するステップと、
前記第１画像とは異なる第２画像に含まれる第２認識対象を認識するステップと、
前記第２認識対象に対する認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第２認識対象の認識結果を表示するステップと
を実行させ、
前記第１認識対象の認識結果と前記第２認識対象の認識結果とは、認識結果の履歴として表示され、
前記履歴として表示された前記第１認識対象の認識結果及び前記第２認識対象の認識結果のうち前記第１認識対象の認識結果が選択された場合、前記第１画像及び前記第１画像が撮像された位置が表示され、前記第２認識対象の認識結果が選択された場合、前記第２画像及び前記第２画像が撮像された位置が表示される
プログラム。
情報処理装置が実行する方法であって、
第１画像に含まれる第１認識対象を認識するステップと、
前記第１認識対象に対する認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第１認識対象の認識結果を表示するステップと、
前記第１画像とは異なる第２画像に含まれる第２認識対象を認識するステップと、
前記第２認識対象に対する認識処理が終了する前に当該認識処理が実行中であることを示すフィードバック情報を表示し、当該認識処理が終了した後に前記第２認識対象の認識結果を表示するステップと
を備え、
前記第１認識対象の認識結果と前記第２認識対象の認識結果とは、認識結果の履歴として表示され、
前記履歴として表示された前記第１認識対象の認識結果及び前記第２認識対象の認識結果のうち前記第１認識対象の認識結果が選択された場合、前記第１画像及び前記第１画像が撮像された位置が表示され、前記第２認識対象の認識結果が選択された場合、前記第２画像及び前記第２画像が撮像された位置が表示される
方法。