JP2017021695A

JP2017021695A - 情報処理装置および情報処理方法

Info

Publication number: JP2017021695A
Application number: JP2015140489A
Authority: JP
Inventors: 鈴木　薫; Kaoru Suzuki; 薫鈴木; 洋次郎登内; Yojiro Touchi
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-07-14
Filing date: 2015-07-14
Publication date: 2017-01-26
Also published as: US20170017856A1; US10121086B2

Abstract

【課題】取得された画像からより確実に文字列を検出することができる情報処理装置および情報処理方法を提供することである。【解決手段】実施形態によれば、情報処理装置は、画像取得手段が画像を取得する。文字行領域検出手段は、画像中から文字を含む第１領域を検出し、一定数以上の前記第１領域からなる文字行を含む第２領域を検出する。変動量検出手段は、画像が撮像されたときの撮像手段の位置的及び姿勢的な変動量を検出する。制御手段は、変動量が閾値以下であった場合、画像中からの第２領域の検出を文字行領域検出手段に実行させる。制御手段は、第２領域が検出されなかった場合、第１領域または第２領域の検出の少なくとも一方に関わる文字行領域検出手段の設定を変更し、画像中からの第２領域の検出を文字行領域検出手段に実行させる。【選択図】図１

Description

本発明の実施形態は、情報処理装置および情報処理方法に関する。

近年、看板や標識、紙面などに記載された文字をカメラによって撮像された画像から検出し、当該検出された文字に対して文字認識処理や翻訳処理を行う情報処理装置が普及してきている。この情報処理装置を利用するにあたって、ユーザは、ディスプレイに表示されるプレビュー画面を通して、カメラが現在どこを写しているかを把握し、撮像対象の文字に向けて情報処理装置を動かし、撮像対象の文字を撮像範囲に収めるフレーミングという作業を行う必要がある。

換言すれば、フレーミング中には、撮影された画像（の特に略中央部）に検出・認識・翻訳などの対象となる文字列の全体が写っておらず、フレーミングが完了して初めて、撮影された画像（の特に略中央部）に対象の文字列の全体が写っていると仮定することができる。しかしながら、従来の情報処理装置では、撮影された画像中に文字がない場合を想定した、すなわち、過検出の起こりにくいリジェクト設定（例えば検出のための閾値）が常に一定の厳しい基準で稼働するため、フレーミング完了後に文字列が画像中にあったとしても、この厳しすぎる基準のためにそれを検出できない場合があるという問題が生じていた。

特開２００１−３３１８０３号公報

本発明が解決しようとする課題は、取得された画像からより確実に文字列を検出することのできる情報処理装置および情報処理方法を提供することである。

実施形態によれば、情報処理装置は、画像取得手段と、文字行領域検出手段と、変動量検出手段と、制御手段とを具備する。前記画像取得手段は、画像を取得する。前記文字行領域検出手段は、前記画像中から文字を含む第１領域を検出し、前記第１領域の検出結果に基づき、前記画像中から一定数以上の前記第１領域からなる文字行を含む第２領域を検出する。前記変動量検出手段は、前記画像が撮像されたときの撮像手段の位置的及び姿勢的な変動量を検出する。前記制御手段は、前記変動量検出手段により検出される変動量が閾値以下であった場合、前記画像中からの前記第２領域の検出を前記文字行領域検出手段に実行させる。前記制御手段は、前記文字行領域検出手段により前記第２領域が検出されなかった場合、前記画像中からの前記第１領域の検出または前記第２領域の検出の少なくとも一方に関わる前記文字行領域検出手段の設定を変更し、前記画像中からの前記第２領域の検出を前記文字行領域検出手段に実行させる。

実施形態に係る情報処理装置の構成例を示す機能ブロック図。同実施形態の情報処理装置の動作の一例を示すフローチャート。画像に対する計測窓の配置例を示す図。同実施形態の情報処理装置が備える文字行検出部による文字候補検出処理を説明するための模式図。同実施形態の情報処理装置が備える文字候補検出部による文字候補検出処理の結果として得られる第１検出結果情報を説明するための模式図。直線ハフ変換の原理を説明するための模式図。直線ハフ変換の原理を説明するための別の模式図。ハフ投票を説明するための模式図。フレーミング期間について説明するための模式図。同実施形態の情報処理装置がフレーミングの状態を示唆するための各種アイコンについて説明するための模式図。同実施形態の情報処理装置が姿勢変化量を示唆するためのアイコンについて説明するための模式図。同実施形態の情報処理装置が備える静止検出部において設定されている閾値を変更可能とするユーザインタフェースについて説明するための模式図。同実施形態の情報処理装置のハードウェア構成の一例を示す機能ブロック図。撮像範囲を等速度で移動させて広い撮像対象領域の画像を撮像する例について説明するための模式図。

以下、実施の形態について図面を参照して説明する。

図１は、一実施形態に係る情報処理装置１０の構成例を示す機能ブロック図である。図１に示すように、情報処理装置１０は、制御部１００、画像取得部１０１、静止検出部１０２、画像解析・設定部１０３、文字検出辞書記憶部１０４、文字行検出部１０５、アプリケーション部１０６および出力部１０７などを備えている。なお、本実施形態では、情報処理装置１０がタブレット端末である場合を想定して説明する。

また、図２は、本情報処理装置１０の動作の一例を示すフローチャートである。図２に示すように、情報処理装置１０は、画像取得処理ステップＳ１、静止検出処理ステップＳ２、初期設定処理ステップＳ３、文字候補・文字行検出処理ステップＳ４、成否判定処理ステップＳ５、アプリケーション処理ステップＳ６、プレビュー表示処理ステップＳ７、変更可能判定処理ステップＳ８、設定変更処理ステップＳ９とから成る処理を実行する。

制御部１００は、情報処理装置１０内の各部（画像取得部１０１、静止検出部１０２、画像解析・設定部１０３、文字検出辞書記憶部１０４、文字行検出部１０５、アプリケーション部１０６および出力部１０７）を有機的に動作させるための制御を司る。換言すれば、情報処理装置１０内の各部は、制御部１００の制御下で動作する。

画像取得部１０１は、例えば情報処理装置１０に搭載されたカメラなどの撮像手段により撮像された画像を取得する（図２の画像取得処理ステップＳ１）。なお、本実施形態における撮像対象は、看板や標識、紙面などに記載された文字を想定している。また、撮像手段は、基本ユニットとして情報処理装置１０に固定的に配置されるものであってもよいし、外部ユニットとして情報処理装置１０にオプション的に取り外し自在に装着されるものであってもよい。

静止検出部１０２は、画像取得部１０１により取得された画像の撮像時の情報処理装置１０の位置姿勢変化量（位置的及び姿勢的な変動量）を、情報処理装置１０に内蔵された加速度センサや角速度センサなどから取得し、この値が所定閾値以下であるときに、後述する初期設定処理ステップＳ３以降を実行させるためのトリガを出力する（静止検出処理ステップＳ２のＹｅｓ）。位置姿勢変化量とは、画像撮像時に、情報処理装置１０（より具体的には、情報処理装置１０に搭載された撮像手段）がどの程度速く並進及び回転していたのかを示す値である。この位置姿勢変化量が一定値よりも大きい間はフレーミングの途中であると推察される。逆に位置姿勢変化量が一定値以下に下がったとき（略静止状態と称する）はフレーミングが完了したと推察される。例えば加速度センサを使用した場合、重力成分を除去した加速度ベクトルを時間積分して得た速度ベクトルの大きさを位置姿勢変化量とすることができる。また、例えば角速度センサにより得られる回転速度の大きさを特に姿勢変化を表す近似的な位置姿勢変化量とみなすこともできる。フレーミングの動きは撮像手段を構えた位置で向きを大きく変える回転運動が主な成分であると考えられる。よって姿勢変化を表す近似的な位置姿勢変化量だけでもフレーミングの状態を推察可能であると考えられる。このようなセンサの応答は速く、少ない計算量で位置姿勢変化量を取得することができる。

静止検出部１０２は、取得した位置姿勢変化量と、予め設定された閾値とを比較し、当該位置姿勢変化量が当該閾値以下である場合にだけ、前述のトリガを出力する。なお、位置姿勢変化量が予め設定された閾値より大きい場合、静止検出部１０２は、出力部１０７に対して、後述するプレビュー表示処理を実行させるためのコマンドを出力する（静止検出処理ステップＳ２のＮｏ）。

なお、ここでは、静止検出部１０２が加速度センサなどのセンサ手段により計測された位置姿勢変化量を用いる場合について説明したが、例えば、撮像手段の位置姿勢変化量が大きいために画像にぶれが生じていると、画像のコントラスト値（なお、当該コントラスト値は、最大輝度値と最小輝度値の差として求めることができる）が小さくなるという特徴を利用して、画像取得部１０１により取得された画像のコントラスト値を算出し、所定定数から当該コントラスト値を減算した値を位置姿勢変化量として用いても良い。あるいは、オプティカルフローのように画像中の動きベクトルの大きさを直接計算し、その画像全体における最大値などを位置姿勢変化量として用いても良い。このようにすれば、加速度センサなどを内蔵していない情報処理装置であっても、画像取得部１０１により取得された画像から直接位置姿勢変化量を算出し、上記の処理を実行することができるようになる。

さらに、ここでは、トリガは、位置姿勢変化量が予め設定された閾値以下である場合に出力されるとしたが、例えば、位置姿勢変化量が閾値以下であったとしても、撮像手段のフォーカスがあっていなければ、画像はぼけたものになってしまい、後述する文字候補検出処理に対して悪影響を与えてしまう。このため、トリガは、位置姿勢変化量が閾値以下であり、かつ撮像手段のフォーカスがあっている場合にだけ、出力されるとしても良い。撮像手段のフォーカスがあっているか否かは、画像を解析して判断してもよいし、撮像手段から（例えばレンズを移動させるモーターの駆動状況等を含む）ステータス情報を取得して判断してもよい。

画像解析・設定部１０３は、静止検出部１０２から出力されたトリガの入力を受け付けると、画像取得部１０１により取得された画像を解析し、後続の文字候補・文字行検出処理ステップＳ４のための初期パラメータ値を決定して出力する（図２の初期設定処理ステップＳ３）。画像解析・設定部１０３がトリガの入力を受け付けたときは、ユーザによるフレーミングが完了している可能性が高い。このとき、画像取得部１０１により取得された画像には文字が写っているはずである。すなわち、本実施形態の情報処理装置１０は、位置姿勢変化量が一旦所定閾値を越えた後、所定閾値以下になったことを検出すると、取得された画像中に文字があるはずだと仮定してその検出を開始するのである。

このとき、画像解析・設定部１０３は、図３に例示するような、画像に対して予め設定されている位置の異なる複数の計測窓内（図３の１０１３）の複雑度を計算する。複雑度は例えばエッジ密度（微分オペレータ出力絶対値の窓内の平均値として計算）などとする。看板などの比較的単純な背景に文字が書かれている場合（図３の１０１１）、複雑度は文字のある計測窓で高く、文字の無い計測窓で低くなると期待できる。すなわち、計測窓の一部で複雑度が所定閾値を超えないときは単純背景であると判断できる。一方、花崗岩に刻まれた文字のように複雑な模様を持つ背景に文字が書かれている場合（図３の１０１２）は、複雑度は文字のある計測窓と文字の無い計測窓でともに高くなると期待できる。すなわち、計測窓の全てで複雑度が所定閾値以上となるときは複雑背景であると判断できる。このようにして取得された画像に写る文字が単純背景の文字か複雑背景の文字かを区別し、これをパラメータ値の１つとして出力する。このようにすることで、後続の文字行検出処理ステップＳ４では、それぞれに特化した文字検出辞書を選んで文字を検出することが可能になる。なお、出力されるパラメータ値には、文字候補を検出する際の閾値（以下、文字候補検出閾値）と、文字行を検出する際の閾値（以下、文字行検出閾値）も含まれる。初期パラメータ値としては、これらの閾値には所定の値が設定される。

文字検出辞書記憶部１０４は、文字行検出部１０５によって使用される文字検出辞書を記憶する記憶装置である。

文字行検出部１０５は、画像解析・設定部１０３の出力したパラメータ値を受け付けると、このパラメータ値を使用して、画像取得部１０１により取得された画像から文字らしい画像領域を文字候補（すなわち、文字が記載されている考えられる領域）として検出する文字候補検出処理を実行し、さらに検出された文字候補の並びから文字行を検出する文字行検出処理を実行する（図２の文字候補・文字行検出処理ステップＳ４）。

ここで、図４を参照して、文字行検出部１０５による文字候補検出処理について詳しく説明する。

文字行検出部１０５は、画像解析・設定部１０３の出力した単純背景か複雑背景かの区別に従って文字検出辞書記憶部１０４に記憶された対応する文字検出辞書を読み出す。

次いで、文字行検出部１０５は、画像取得部１０１により取得された画像（入力画像）に対して縮小処理を実行し、いわゆる解像度ピラミッド画像を生成し、当該解像度ピラミッド画像上で文字を探索・検出する文字候補検出処理を実行する。具体的には、文字行検出部１０５は、図４に示すように、画像取得部１０１により取得された入力画像２０１を一定比率ｒ（但し、０＜ｒ＜１）で順次縮小して、１以上のリサイズ画像２０２，２０３を生成する。生成されるリサイズ画像の数、換言すると、上記した縮小処理が実行される回数は、仕様上の検出すべき文字の最小サイズと最大サイズとに依存する。図４に示す検出窓２０５の大きさは、最も解像度の高い入力画像２０１上で検出すべき文字の大きさに合わせて決定される。すなわち、この検出窓２０５の大きさが、仕様上の検出すべき文字の最小サイズとなる。一定比率ｒを乗じて縮小されるリサイズ画像２０２，２０３の上では、同じ大きさの検出窓２０５が覆う範囲は広くなるので、検出される文字の大きさは、これに応じて大きくなっていく。この文字の大きさが仕様上の検出すべき文字の最大サイズを超えるまで、文字行検出部１０５はリサイズ画像を生成する。このようにして、１以上のリサイズ画像を生成すると、文字行検出部１０５は、図４に示すように、入力画像２０１とリサイズ画像２０２，２０３とを合わせた解像度ピラミッド画像２０４を生成する。

文字行検出部１０５は、解像度ピラミッド画像２０４を生成すると、生成された解像度ピラミッド画像２０４に含まれる各画像２０１〜２０３上で所定サイズの検出窓２０５を走査させつつ、各位置での検出窓２０５内の画像を切り取って、複数の部分画像を生成する。また、文字行検出部１０５は、生成された複数の部分画像と、前記読み出した文字検出辞書とに基づいて、文字候補を検出する。具体的には、文字行検出部１０５は、上記した各部分画像と、上記した文字検出辞書とを照合して、文字らしさを示すスコアをそれぞれの部分画像について計算し、これら各スコアが画像解析・設定部１０３の出力した文字候補検出閾値を超えているかどうかをそれぞれ判定する。これにより、各部分画像が文字を含む画像であるかどうかを判定（評価）することができる。この判定の結果に応じて、文字行検出部１０５は、文字を含む画像であると判定された部分画像には文字であることを示す第１コードを付与し、文字を含まない画像（換言すると、非文字を含む画像）であると判定された部分画像には非文字であることを示す第２コードを付与する。これにより、文字行検出部１０５は、第１コードが付与された部分画像が存在する領域（換言すると、第１コードが付与された部分画像を切り取った検出窓２０５が位置する領域）を文字が存在する領域として検出することができる。

文字行検出部１０５は、上記した文字候補検出処理を実行した結果、第１コードが付与された部分画像の数が、予め設定された閾値以上である場合に、入力画像２０１上で文字が存在する領域を示す第１検出結果情報を作成する。第１検出結果情報とは、例えば図５に示すように、入力画像２０１上で文字が存在する領域を矩形の枠で示した情報である。

第１コードが付与された部分画像の数が、予め設定された閾値未満である場合、文字行検出部１０５は、十分な文字候補の検出に失敗したとして、画像解析・設定部１０３に対して、後述する設定変更処理を実行させるための第１コマンドを出力する（成否判定処理ステップＳ５のＮｏ）。

なお、上記検出窓２０５内の部分画像に対して文字らしさを評価するスコア計算方法としては、部分空間法やサポートベクトルマシンなど、公知のパターン識別方法を利用して実現することができるため、本実施形態ではその詳しい説明は省略する。

文字行検出部１０５は、前記第１検出結果情報を作成した場合、この第１検出結果情報に基づいて、画像取得部１０１により取得された画像中に記載された文字行を検出する文字行検出処理を実行する。文字行検出処理は、文字候補の直線的な配置を直線ハフ（Hough）変換を用いて検出する処理である。

以下では、まず、図６を参照して、直線ハフ変換の原理について説明する。

直線ハフ変換の原理を説明するにあたって、まず、ハフ曲線について説明する。図６に示すように、２次元座標上の点ｐ（ｘ，ｙ）を通り得る直線は、例えば図６中の３０１〜３０３に例示するように、無数に存在する。しかしながら、原点Ｏからこれら各直線におろした垂線３０４のＸ軸からの傾きをθとし、この垂線３０４の長さをρと定義すると、１つの直線について、θとρは一意に決まる。これによれば、ある点（ｘ，ｙ）を通り得る無数の直線をそれぞれ一意に決められるθとρの組は、θρ座標系上で（ｘ，ｙ）の値に応じて、固有の軌跡３０５（ρ＝ｘ・ｃｏｓθ＋ｙ・ｓｉｎθ）を描くことが知られている。この軌跡３０５を、一般的に、ハフ曲線と称している。

直線ハフ変換とは、（ｘ，ｙ）座標値を通り得る直線を、上記したようにして一意に決められる（θ，ρ）により描かれるハフ曲線に変換することを指す。なお、（ｘ，ｙ）を通り得る直線が左に傾いている場合、上記したθは正の値となり、垂直の場合、上記したθの値は０となり、右に傾いている場合、上記したθは負の値となるものとする。また、上記したθの定義域は、−π＜θ≦πを逸脱することはないものとする。

ハフ曲線は、ＸＹ座標系上の各点について独立に求めることができるが、例えば図７に示すように、３点ｐ１〜ｐ３を共通に通る直線４０１は、ｐ１〜ｐ３にそれぞれ対応したハフ曲線４０２〜４０４が交差する点４０５の座標（θ０，ρ０）で定められる直線として求めることができる。多くの点を通る直線であればあるほど、その直線を表すθとρの位置を、多くのハフ曲線が通過する。すなわち、直線ハフ変換は、点群から直線を検出する用途に向いているといえる。

点群から直線を検出する場合、ハフ投票という工学的な手法が用いられる。この手法は、θとρを座標軸とする２次元のハフ投票空間に各ハフ曲線の通過するθとρの組を投票することで、ハフ投票空間の得票数の大きい位置に多数のハフ曲線の通過するθとρの組、すなわち、多数の点を通る直線の存在を示唆させるようにする手法である。一般的には、まず、θとρについての必要な探索範囲分の大きさを持つ２次元の配列（ハフ投票空間）を用意して、得票数を０で初期化しておく。次いで、点毎のハフ曲線を、上記したハフ変換によって求め、このハフ曲線が通過する配列上の値を１だけ加算する。これを一般的にハフ投票と称している。全ての点について、上記したハフ投票がなされると、得票数０の位置（すなわち、ハフ曲線が１つも通過しなかった位置）には直線が存在せず、得票数１の位置（すなわち、ハフ曲線が１つだけ通過した位置）には１つの点だけを通る直線が、得票数２の位置（すなわち、ハフ曲線が２つ通過した位置）には２つの点を通る直線が、さらに、得票数ｎの位置（すなわち、ハフ曲線がｎ個通過した位置）にはｎ個の点を通る直線がそれぞれ存在することが分かる。つまり、ＸＹ座標系上の２点以上を通過する直線は、ハフ投票空間上で得票数２以上の場所として現れる。

ハフ投票空間の分解能を無限大にできれば、上記したように、軌跡の通過する点のみが、そこを通過する軌跡の数だけの得票を得ることになるが、実際のハフ投票空間はθとρについて適当な分解能で量子化されているため、複数の軌跡が交差する位置の周辺にも高い得票分布が生じる。そのため、ハフ投票空間の得票分布から極大値を持つ位置を探すことで、軌跡の交差する位置を求めることになる。

ここで、図８を参照して、上記した直線ハフ変換ならびにハフ投票を用いた文字行検出処理について詳しく説明する。但し、ここでは、入力画像を示す画像平面を、横軸がＸであり、縦軸がＹである座標平面５０１とみなした場合を想定する。

文字候補５０２の画像上の中心座標を（ｘ，ｙ）とした場合、この点を通る直線は無数に存在するが、それらは必ず上記した直線ハフ変換の式ρ＝ｘ・ｃｏｓθ＋ｙ・ｓｉｎθを満たす。上記したように、ρとθは、それぞれ、ＸＹ座標系における原点Ｏから直線におろした垂線の長さ、ならびに、この垂線のＸ軸からの傾きを示す。つまり、点（ｘ，ｙ）を通る直線の満たす（θ，ρ）の値はθρ座標系ではハフ曲線となる。異なる２点を通る直線は、これら２点のハフ曲線が１点で交わる（θ，ρ）の組で表すことができる。文字行検出部１０５は、文字行検出部１０５によって検出された複数の文字候補の中心点からそれぞれハフ曲線を求めて、それらが多く交差する（θ，ρ）の組を見つけると、多数の文字候補が直線的に並んでいるその直線、すなわち、文字行の存在を検出する。

文字行検出部１０５は、ハフ曲線が多く交差する（θ，ρ）の組を見つけるために、文字候補の中心座標から計算されるハフ曲線をハフ投票空間に投票する。ハフ投票空間は、図８に示すように、縦軸がρであり、横軸がθであり、さらに、文字候補５０２のサイズｓに応じて、図８中の５０３〜５０５のように複数用意される。文字候補５０２のサイズが小さい場合は、文字候補５０２はｓの小さいハフ投票空間５０３に投票され、文字候補５０２のサイズが大きい場合は、文字候補５０２はｓの大きいハフ投票空間に投票される。文字行検出部１０５は、各ハフ投票空間において、画像解析・設定部１０３の出力した文字行検出閾値以上の得票数をもつ極大位置（θ，ρ）で定義される直線を検出し、この直線に投票した文字候補の集合を文字行として検出する。なお、文字行検出部１０５は、１つのハフ曲線上に、文字行検出閾値以上の得票数をもつ極大位置（θ，ρ）で定義される直線を複数検出した場合、最も得票数の高い直線に投票した文字候補の集合を文字行として検出する。例えば、文字行検出閾値が２である場合、図８のハフ投票空間５０３では、得票数３の極大位置５０６が、他の得票数２の極大位置を抑えて、文字行検出部１０５により文字行として検出される。また、図８のハフ投票空間５０５では、得票数２の極大位置５０７が、文字行検出部１０５により唯一の文字行として検出される。つまり、入力画像からは極大位置５０６，５０７にそれぞれ対応した２本の直線が検出される。直線が検出されると、文字行検出部１０５は、各直線に投票した文字候補を抽出し、これらが覆う領域として文字行を検出する。

なお、サイズｓの隣接した異なるハフ投票空間においてそれぞれ検出された極大位置が所定距離内で近接している場合、文字行検出部１０５は、同一の文字行を別々に検出したとして、これらの極大位置に投票した文字候補の集合から１つの文字行として検出する。

再び図１および図２の説明に戻る。文字行検出部１０５は、上記した文字行検出処理の結果、１以上の文字行を検出した場合、当該１以上の文字行が存在する領域を示す第２検出結果情報をアプリケーション部１０６に出力する（成否判定処理ステップＳ５のＹｅｓ）。一方、上記した文字行検出処理の結果、１つの文字行も検出しなかった場合、文字行検出部１０５は、画像解析・設定部１０３に対して、後述する設定変更処理を実行させるための第２コマンドを出力する（成否判定処理ステップＳ５のＮｏ）。

再び画像解析・設定部１０３の説明に戻る。画像解析・設定部１０３は、文字行検出部１０５から出力された設定変更処理を実行させるための第１コマンドや第２コマンドの入力を受け付けると、パラメータの変更が可能か否かを判定し（変更可能判定処理ステップＳ８）、変更可能であるときは、パラメータ値を変更して出力する（図２の設定変更処理ステップＳ９）。変更されたパラメータ値を受けた文字行検出部１０５は、この新しいパラメータ値に従って再度文字候補・文字行検出処理ステップＳ４を実行する。

画像解析・設定部１０３が第１コマンドの入力を受け付けたときは、文字行検出部１０５で十分数の文字候補が検出できなかったときである。この場合は、前述の文字候補検出閾値が厳しすぎた可能性が高い。そこで、画像解析・設定部１０３は、現在の文字候補検出閾値を下げて処理を繰り返させることができるか否かを判定する（変更可能判定処理ステップＳ８）。この判定には２つの条件がある。１つは現在の文字候補検出閾値が予め設定されている所定の下限値に達しているか否かである。２つ目は取得された画像に対して設定変更の回数が所定の上限値に達しているか否かである。いずれか１つでも達している場合には（変更可能判定処理ステップＳ８のＮｏ）、画像解析・設定部１０３は、いたずらに文字候補・文字行検出処理ステップＳ４を繰り返すのを止めて、出力部１０７に対して、ユーザにフレーミングのやり直しを求める情報を重畳した取得画像をプレビュー表示させるためのコマンドを出力部１０７に対して出力する。一方、いずれも達していない場合には（変更可能判定処理ステップＳ８のＹｅｓ）、現在の文字候補検出閾値を所定量減じた新しい閾値を決定し、この値を更新された文字候補検出閾値として出力する。

また、画像解析・設定部１０３が第２コマンドの入力を受け付けたときは、文字行検出部１０５で文字行が検出できなかったときである。この場合は、前述の文字行検出閾値が厳しすぎた可能性が高い。そこで、画像解析・設定部１０３は、現在の文字行検出閾値を下げて処理を繰り返させることができるか否かを判定する（変更可能判定処理ステップＳ８）。この判定には２つの条件がある。１つは現在の文字行検出閾値が予め設定されている所定の下限値に達しているか否かである。２つ目は取得された画像に対して設定変更の回数が所定の上限値に達しているか否かである。いずれか１つでも達している場合には（変更可能判定処理ステップＳ８のＮｏ）、画像解析・設定部１０３は、いたずらに文字候補・文字行検出処理ステップＳ４を繰り返すのを止めて、出力部１０７に対して、ユーザにフレーミングのやり直しを求める情報を重畳した取得画像をプレビュー表示させるためのコマンドを出力部１０７に対して出力する。一方、いずれも達していない場合には（変更可能判定処理ステップＳ８のＹｅｓ）には、現在の文字行検出閾値を所定量減じた新しい閾値を決定し、この値を更新された文字行検出閾値として出力する。

なお、ここでは、文字候補検出閾値および文字行検出閾値の双方を適応的に変更し得る例を説明したが、これらのうちの一方のみを適応的に変更し得るようにしてもよい。

また、本実施形態の情報処理装置１０では、前述したように、文字候補検出閾値および文字行検出閾値の双方を適応的に変更し得るので、前述の画像解析・設定部１０３による初期設定処理ステップＳ３を省略し、静止検出部１０２からトリガが出力された場合、前述の文字行検出部１０５による文字候補・文字行検出処理ステップＳ４を、例えば汎用的な文字検出辞書が選ばれるべく設定された初期パラメータ値を用いて即時的に実行するようにしてもよい。

アプリケーション部１０６は、文字行検出部１０５から出力された第２検出結果情報を受け付けると、予めインストールされたアプリケーション固有の処理（図２のアプリケーション処理ステップＳ６）を実行する。例えば、文字認識処理を実行可能なアプリケーション（例えばＯＣＲ機能を有したアプリケーション等）が予めインストールされている場合、アプリケーション部１０６は、第２検出結果情報により示される文字行が存在する領域の画像パターンを抽出し、抽出された文字行の画像パターンに対して文字認識処理を実行して、当該領域内の文字行に対応した文字コード列を取得する。

なお、画像中の文字をＯＣＲなどで認識した場合、アプリケーション部１０６は、取得した文字コード列に関連する情報を検索することもできる。具体的には、商品名からその値段やスペック等の情報を検索したり、地名や名所の名前などからそこまでの地図情報を得たり、ある言語を他の言語に翻訳したりすることができる。アプリケーション部１０６によって実行された処理の結果を示す処理結果情報は出力部１０７に出力される。

出力部１０７は、アプリケーション部１０６から出力された処理結果情報を画像取得部１０１により取得された画像に重畳させた上で、情報処理装置１０のディスプレイに表示させるプレビュー表示処理を実行する。また、出力部１０７は、アプリケーション部１０６とは異なる各部からプレビュー表示処理を実行させるためのコマンドの入力を受け付けると、当該コマンドにしたがって、少なくとも入力画像をそのままディスプレイに表示させるプレビュー表示処理を実行する。

ここで、図９を参照して、フレーミング期間について説明する。

フレーミング期間とは、情報処理装置１０（撮像手段）を撮像対象の文字列に向けて動かし始めてから、ユーザが当該フレーミングの目的である所望の文字認識結果や翻訳結果を例えば表示出力などで得られることになる画像（すなわち、この画像を処理することによって所望の結果が得られるという画像）が取得されるまでの期間を指す。このフレーミング期間は、大別すると、３つの段階に区分することができる。１つ目が、図９（ａ）に示すように、撮像対象の文字列に向けて情報処理装置１０を大きく動かす期間（以下、「動き大期間」と称する）である。この動き大期間では、情報処理装置１０を大きく動かすことに起因して、画像にぶれが生じてしまうため、文字候補検出処理が実行されたとしても、図９（ａ）に示すように、文字候補は検出されない。２つ目が、図９（ｂ）に示すように、撮像対象の文字列を撮像範囲に収めるために、大きく動かしていた情報処理装置１０を減速させる期間（以下、「微調整期間」と称する）である。この微調整期間では、情報処理装置１０が減速し始めたばかりということもあって、画像にぶれが生じ、文字候補検出処理が実行されたとしても、文字候補は検出されたり、検出されなかったりする。また、撮像対象の文字列が撮像範囲の外にはみ出していたりする。３つ目が、図９（ｃ）に示すように、撮像対象の文字列を完全に撮像範囲に収めたとき（以下、「フレーミング完了時」と称する）である。この時点以降は、手振れによる微小な動きはあるものの、情報処理装置１０（撮像手段）は略静止した状態にある。そして、このフレーミング完了時には、理想的には画像中央部に対象の文字列がある。そこで、静止検出部１０２は、このフレーミング完了を検出するよう位置姿勢変化量を閾値処理する。

次に、図１０を参照して、フレーミングの状態を示唆するための各種アイコンについて説明する。図９にて既に説明したように、フレーミング期間が開始されてからフレーミング期間が完了されるまでには、３つの期間が存在する。具体的には、（１）動き大期間と、（２）微調整期間と、（３）フレーミング完了時とが存在する。これら３つの期間の違いを出力部１０７によるプレビュー表示を通じてユーザに対して示唆することで、ユーザは、フレーミングの状態を正確に把握することができ、ひいては、より的確なフレーミングを実施することができるようになる。

図１０（ａ）は、上記した（１）の期間であることをユーザに対して示唆するアイコンの一例を示す模式図である。現在の期間が、上記した（１）〜（３）の期間のうち、（１）の期間、すなわち、図９における動き大期間に相当する場合、情報処理装置１０のディスプレイ上のアイコン表示領域６０１には、現在の期間が動き大期間であることを示唆するアイコン６０２が表示される。図１０（ａ）では、動き大期間であることを示唆するアイコンとして、情報処理装置１０を使用するユーザの動き、ひいては、情報処理装置１０の動きが大きいことを表現した矢印のアイコン６０２が表示される場合を示したが、動き大期間を示唆するアイコンのデザインはこれに限定されない。例えば、単に、動き大期間という文字列がディスプレイに表示されるとしても良い。但し、動き大期間であることをユーザが容易に把握することができるデザインである方が好ましい。

図１０（ｂ）は、上記した（２）の期間であることをユーザに対して示唆するアイコンの一例を示す模式図である。現在の期間が、上記した（１）〜（３）の期間のうち、（２）の期間、すなわち、図９における微調整期間に相当する場合、情報処理装置１０のディスプレイ上のアイコン表示領域６０１には、現在の期間が微調整期間であることを示唆するアイコン６０３が表示される。図１０（ｂ）では、微調整期間であることを示唆するアイコンとして、撮像対象が情報処理装置１０の撮像範囲に入りかけていることを表現したアイコン６０３が表示される場合を示したが、微調整期間を示唆するアイコンのデザインはこれに限定されない。例えば、単に、微調整期間という文字列がディスプレイに表示されるとしても良い。但し、微調整期間であることをユーザが容易に把握することができるデザインである方が好ましい。

図１０（ｃ）は、上記した（３）の期間であることをユーザに対して示唆するアイコンの一例を示す模式図である。現在の期間が、上記した（１）〜（３）の期間のうち、（３）の期間、すなわち、図９におけるフレーミング終了時に相当する場合、情報処理装置１０のディスプレイ上のアイコン表示領域６０１には、現在の期間がフレーミング終了時であることを示唆するアイコン６０４が表示される。図１０（ｃ）では、フレーミング終了時であることを示唆するアイコンとして、撮像対象が情報処理装置１０の撮像範囲に入り終えた（収まっている）ことを表現したアイコン６０４が表示される場合を示したが、フレーミング終了時を示唆するアイコンのデザインはこれに限定されない。例えば、単に、フレーミング終了時という文字列がディスプレイに表示されるとしても良い。但し、フレーミング終了時であることをユーザが容易に把握することができるデザインである方が好ましい。

なお、図１０では、上記した（１）〜（３）の期間を示唆するアイコンがそれぞれ表示される場合について説明したが、例えば、これら３つの期間にそれぞれ対応した音や音声を出力部１０７から出力するとしても良い。

また、上記した（１）〜（３）の期間を示唆するだけでなく、上記した「位置姿勢変化量」を、出力部１０７によるプレビュー表示に重畳表示されるグラフを用いて、ユーザに対して示唆することもできる。さらに、文字行検出部１０５によって検出された文字候補や文字行の位置を、例えば枠などを用いて、ユーザに対して示唆することもできる。以下では、図１１を参照して、位置姿勢変化量を示唆するためのグラフアイコンについて説明する。

図１１は、位置姿勢変化量を示唆するためのグラフアイコンの一例を示す模式図である。位置姿勢変化量を示すグラフ（ここでは、棒グラフ）を模したアイコン７０１は、情報処理装置１０のディスプレイ上のグラフ表示領域に表示される。アイコン７０１は、２つのオブジェクト７０２，７０３を含む。オブジェクト７０２は、静止検出部１０２によって算出された位置姿勢変化量を示す。また、オブジェクト７０３は、静止検出部１０２において、予め設定された閾値を示す。すなわち、図１１によれば、静止検出部１０２によって算出された位置姿勢変化量が、予め設定された閾値を下回っている（すなわち、トリガが出力されている）ことを、ユーザは視覚的に把握することができる。なお、位置姿勢変化量が予め設定された閾値を下回っている（すなわち、トリガが出力されている）場合、当該閾値を超えているときとは、グラフの色や明るさを変えることにより、ユーザはより容易にトリガが出力されていることを把握することができるようになる。

図１１に示したように、位置姿勢変化量をユーザに対して示唆することで、ユーザは、文字行の検出・認識・翻訳の結果が上手く得られないときに、その原因が、動き大期間によるものなのか、撮像対象の文字が遠すぎたり、当該文字の傾きが大きすぎたりして文字候補の検出に失敗していることによるものなのか、といったことをより具体的に推測することができるようになる。

さらに、情報処理装置１０のディスプレイがタッチパネルを含むタッチスクリーンディスプレイである場合、図１２に示すように、前述のグラフ表示領域に表示されるアイコン７０１内のオブジェクト７０３を左または右に移動させるタッチスクリーンディスプレイ上でのタッチ操作を受け付けて、静止検出部１０２において設定されている閾値をユーザが任意に変更できるようにしてもよい。このようなユーザインタフェース機能を持つことで、例えば、情報処理装置１０を略静止状態に把持することが苦手であり、フレーミング完了時が検出できないことを原因として文字行の検出・認識・翻訳の結果が上手く得られないユーザについて、オブジェクト７０３で示される当該閾値を上げてみることによりフレーミング完了時を検出し易くして、文字行の検出・認識・翻訳の結果が得られるように救済・支援し得る。

なお、以上では、静止検出部１０２は、図２のステップＳ２の静止検出処理を初期設定以降の処理（図２のステップＳ３〜Ｓ９）が開始されて以降、ステップＳ１の画像取得処理が再度行われるまで行わないように説明しているが、ユーザが途中でフレーミングをやり直す可能性を考慮して、静止検出部１０２は、初期設定以降の処理（図２のステップＳ３〜Ｓ９）が開始されていても、バックグラウンドで図２のステップＳ２の静止検出処理を継続しており、位置姿勢変化量が閾値を超えたときには、直ちにトリガの出力を止め、初期設定以降の処理（ステップＳ３〜Ｓ９）を中断させて、取得された画像をそのままプレビュー表示させるために、ステップＳ７の処理に進むようにすることも可能である。このようにすれば、フレーミングをやり直すために、ユーザが情報処理装置を再度動かし始めたとき、これに追従してトリガ出力前の状態から処理を行わせることができるようになる。

このとき、さらに、画像解析・設定部１０３が、トリガの入力を受けた直後に初期設定処理を実行するのではなく、トリガの入力を受け付けてから一定期間経過（例えば、０．５秒程度）しても、静止検出部１０２から出力されるトリガの入力を変わらず受け付けていたときに、初期設定処理を実行するようにすることも可能である。このようにすると、静止検出部１０２からトリガが出力されてすぐに、当該トリガの入力を覆す行動（例えば、情報処理装置１０を大きく動かすなど）が行われたとしても、無駄な初期設定や文字行検出処理を実行せずにすむという利点がある。

次に、図１３を参照して、情報処理装置１０のハードウェア構成例を説明する。

図１３は、情報処理装置１０のハードウェア構成例を示す図である。図１３に示すように、情報処理装置１０は、ＣＰＵ８０１、ＲＡＭ８０２、ＲＯＭ８０３、ＨＤＤ８０４、ＬＡＮ８０５、入力デバイス８０６、ディスプレイ８０７、外部インタフェース８０８、外部ストレージデバイス８０９、カメラ８１０および加速度センサ８１１などを備えている。

ＣＰＵ８０１は、情報処理装置１０内のコンポーネントを制御するプロセッサである。ＣＰＵ８０１は、ＨＤＤ８０４からＲＡＭ８０２にロードされる文字行検出プログラムを実行する。ＣＰＵ８０１はこの文字行検出プログラムを実行することにより、上記した情報処理を実行するように構成された処理部として機能することができる。なお、ＣＰＵ８０１は、外部ストレージデバイス８０９（例えば、ＵＳＢデバイス等）からＲＡＭ８０２に文字行検出プログラムをロードし、これを実行することも可能である。外部ストレージデバイス８０９からは文字行検出プログラムだけでなく、情報処理実行時に使用される画像などをロードすることができる。

入力デバイス８０６はキーボード、マウス、タッチパネル、他の各種入力デバイスである。ディスプレイ８０７は、情報処理装置１０によって実行される各種処理の結果を表示可能なデバイスである。カメラ８１０は前述した撮像手段に相当するものであって情報処理の対象となり得る画像を撮影可能なデバイスである。なお、カメラ８１０は、前述したように、基本ユニットとして情報処理装置１０に固定的に配置されるものであってもよいし、外部ユニットとして情報処理装置１０にオプション的に取り外し自在に装着されるものであってもよい。加速度センサ８１１は劣化評価値を取得可能なデバイスである。

以上説明した一実施形態によれば、フレーミングが完了して画像中に文字が存在する可能性が高いと判断された場合にだけ、初期設定処理および文字候補・文字行検出処理が実行され、また、文字行が検出されなかった場合、文字候補検出閾値または文字行検出閾値が適応的に変更されるので、過検出の起こりにくいリジェクト設定が常に一定の厳しい基準で稼働するといったことを不要にでき、取得された画像からより確実に文字列を検出することができるようになる。なお、前述したように、文字候補検出閾値または文字行検出閾値を適応的に変更できるようにしたことから、画像の解析を伴う（例えば文字検出辞書を選ぶための）初期設定処理を省略することも可能である。

ところで、文字行の検出・認識・翻訳の結果が上手く得られない原因の１つとして、撮像対象の文字が遠すぎるというものも存在する。撮像対象領域が広い場合、当該撮像対象領域全体を一度に撮像範囲に収めるべく離れて画像を撮像したとすると、撮像対象の文字が遠くなり、文字行の検出・認識・翻訳の結果が上手く得られない可能性が高い。そのために、ユーザは、例えば図１４（ａ）に示すように、１つの撮像対象領域９０１を複数の撮像範囲９０２Ａ，９０２Ｂ，９０２Ｃに分けて収めるべくフレーミング作業を複数回行うことを強いられ得る。

このような場合を考慮して、さらに、本情報処理装置１０は、例えば図１４（ｂ）に示すように、撮像範囲９０２Ｄが等速移動しているとき、ユーザの行動を、当該撮像範囲９０２Ｄの移動経路全体を撮像対象領域９０１としようとする意図があるものと判断し、文字行の検出・認識・翻訳を開始するようにしてもよい。この場合、ユーザは、撮像対象領域９０１の一端から他端まで撮像範囲９０２Ｄを等速で移動させるフレーミング作業を１回だけ行えばよいこととなる。

撮像範囲９０２Ｄが等速移動していることは、情報処理装置１０が等速運動状態にあることと捉えて検出することができる。そこで、静止検出部１０２は、前述のように取得した位置姿勢変化量に基づき、より具体的には、加速度センサの値から計算された速度ベクトルの向きと長さが略一定である場合、（前述のトリガとの違いを識別可能な）第２トリガを出力する。

この第２トリガが出力されている期間では、例えば制御部１００は、前記画像取得部１０１（あるいは撮像手段）に通常よりも短い時間間隔で連続的に画像を取得させる。

また、この第２トリガが出力された場合、例えば制御部１００は、文字行検出部１０５によって使用される文字検出辞書として、ぶれた文字の検出に特化した（ぶれた文字を学習させた）文字検出辞書を設定する。文字行検出部１０５は、当該ぶれた文字の検出に特化した文字検出辞書を使用して、前記連続的に取得された画像に対して前述の文字候補検出処理および文字行検出処理を実行する。

さらに、例えばブラインドデコンボリューション等の画像のぶれを補正する画像処理機能を備え、第２トリガが出力された場合、例えば制御部１００が、画像取得部１０１により取得された画像全体または文字行検出部１０５により検出された文字候補もしくは文字行もしくはこれらを含む部分画像に対して、当該画像処理機能を作動させるようにしてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０…情報処理装置、１００…制御部、１０１…画像取得部、１０２…静止検出部、１０３…画像解析・設定部、１０４…文字検出辞書記憶部、１０５…文字行検出部、１０６…アプリケーション部、１０７…出力部。

Claims

画像を取得する画像取得手段と、
前記画像中から文字を含む第１領域を検出し、前記第１領域の検出結果に基づき、前記画像中から一定数以上の前記第１領域からなる文字行を含む第２領域を検出する文字行領域検出手段と、
前記画像が撮像されたときの撮像手段の位置的及び姿勢的な変動量を検出する変動量検出手段と、
前記変動量検出手段により検出される変動量が閾値以下であった場合、前記画像中からの前記第２領域の検出を前記文字行領域検出手段に実行させる制御手段と
を具備し、
前記制御手段は、前記文字行領域検出手段により前記第２領域が検出されなかった場合、前記画像中からの前記第１領域の検出または前記第２領域の検出の少なくとも一方に関わる前記文字行領域検出手段の設定を変更し、前記画像中からの前記第２領域の検出を前記文字行領域検出手段に実行させる
情報処理装置。
前記画像を解析して前記画像における前記第１領域の検出または前記第２領域の検出の少なくとも一方に適する前記文字行領域検出手段の設定を判定する解析手段をさらに具備し、
前記制御手段は、前記変動量検出手段により検出される変動量が前記閾値以下であった場合、前記文字行領域検出手段による前記画像中からの前記第２領域の検出の実行前に、前記画像における前記第１領域の検出または前記第２領域の検出の少なくとも一方に適する前記文字行領域検出手段の設定を前記解析手段に判定させて、前記文字行領域検出手段を初期設定する
請求項１に記載の情報処理装置。
前記画像が撮像されたときの撮像手段の位置的及び姿勢的な変動量を示す第１オブジェクトと、前記閾値を示す第２オブジェクトとを含み、前記画像が撮像されたときの撮像手段の位置的及び姿勢的な変動量を前記閾値と比較しつつ視覚的に認識可能に提示するアイコンをタッチスクリーンディスプレイ上に表示し、前記第２オブジェクトを移動させるためのタッチ操作が前記タッチスクリーンディスプレイ上で行われた場合、前記閾値を変更するユーザインタフェース手段をさらに具備する請求項１または２に記載の情報処理装置。
前記制御手段は、前記撮像手段が略等速運動状態にあることが前記変動量検出手段により検出される変動量から判断される場合、時間的に連続して撮像を行う前記撮像手段に対して撮像間隔の短縮を指示する請求項１または２に記載の情報処理装置。
前記制御手段は、前記撮像手段が略静止状態にあることが前記変動量検出手段により検出される変動量から判断される場合、前記文字行領域検出手段が前記画像中から前記第１領域を検出するために使用する文字検出辞書として第１辞書を設定し、前記撮像手段が略等速運動状態にあることが前記変動量検出手段により検出される変動量から判断される場合、前記文字検出辞書として前記第１辞書とは異なる第２辞書を設定する請求項１、２または４に記載の情報処理装置。
画像のぶれを補正する画像処理手段をさらに具備し、
前記制御手段は、前記撮像手段が略等速運動状態にあることが前記変動量検出手段により検出される変動量から判断される場合、前記画像全体または前記文字行領域検出手段により検出される前記第１領域もしくは前記第２領域の部分画像に対して前記画像のぶれの補正を前記画像処理手段に実行させる請求項４または５に記載の情報処理装置。
前記画像を解析して前記画像が撮像されたときの前記撮像手段が合焦状態にあったか否かを判断する判断手段をさらに具備し、
前記制御手段は、前記判断手段により前記画像が撮像されたときの前記撮像手段が合焦状態にあったと判断された場合、前記画像中からの前記第２領域の検出を前記文字行領域検出手段に実行させる
請求項１または２に記載の情報処理装置。
前記画像が撮像されたときの前記撮像手段が合焦状態にあったか否かを判断可能な情報を取得する情報取得手段をさらに具備し、
前記制御手段は、前記画像が撮像されたときの前記撮像手段が合焦状態にあったことが前記情報取得手段により取得される情報から判断される場合、前記画像中からの前記第２領域の検出を前記文字行領域検出手段に実行させる
請求項１または２に記載の情報処理装置。
画像を取得することと、
前記画像が撮像されたときの撮像手段の位置的及び姿勢的な変動量を検出することと、
前記変動量が閾値以下であった場合、前記画像中から文字を含む第１領域を検出し、前記第１領域の検出結果に基づき、前記画像中から一定数以上の前記第１領域からなる文字行を含む第２領域を検出することと、
前記第２領域が検出されなかった場合、前記画像中からの前記第１領域の検出または前記第２領域の検出の少なくとも一方に関わる設定を変更し、前記画像中からの前記第２領域の検出を実行することと、
を具備する情報処理方法。
前記変動量が前記閾値以下であった場合、前記画像中からの前記第２領域の検出の実行前に、前記画像を解析して前記画像における前記第１領域の検出または前記第２領域の検出の少なくとも一方に適する設定を判定し、初期設定を行うことをさらに具備する請求項９に記載の情報処理方法。