JP2016045877A

JP2016045877A - 情報処理装置、情報処理システム、情報処理方法及びそのプログラム

Info

Publication number: JP2016045877A
Application number: JP2014171848A
Authority: JP
Inventors: 鈴木　薫; Kaoru Suzuki; 薫鈴木; 洋次郎登内; Yojiro Touchi; 智行柴田; Satoyuki Shibata; 三原　功雄; Isao Mihara; 功雄三原
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-08-26
Filing date: 2014-08-26
Publication date: 2016-04-04
Anticipated expiration: 2034-08-26
Also published as: US20160063340A1; US9679217B2; JP6208094B2; CN105389578A; CN105389578B

Abstract

【課題】画像から文字を安定かつ頑健に検出すること。【解決手段】実施形態によれば、情報処理装置は、取得された仰角値に基づいて、入力された画像内の文字の見かけ形状がどのように変形しているかを特定する。また、情報処理装置は、多種多様に変形した文字の見かけ形状に対応付けられた複数の文字検出辞書を記憶する。さらに、情報処理装置は、入力された画像内の文字の見かけ形状がどのように変形しているかが特定されると、当該特定された文字の見かけ形状に対応付けられた文字検出辞書を選択する。情報処理装置は、選択された文字検出辞書を使用して入力された画像に対して文字検出処理を実行し、当該画像において文字が存在する領域を検出する。【選択図】図３

Description

本発明の実施形態は、情報処理装置、情報処理システム、情報処理方法及びそのプログラムに関する。

一般に、看板や標識、紙面等に記載された文字をカメラによって撮影された画像から検出する場合、文字が記載された文字面とカメラの視点位置とによって画像内の文字の見かけ形状が多種多様に変形するため（例えば、射影変形を受けるため）、画像から文字を安定かつ頑健に検出し辛いという不都合がある。

このため、画像内から文字を安定かつ頑健に検出するために、文字の記載された枠を検出して、検出された枠の形状を変形のない状態に補正した画像を生成し、生成された補正後の画像から変形のない状態の文字を検出する文字検出方法がある。

特開２００１−３０７０１７号公報

ＩＥＥＥＴＲＡＮＳＡＣＴＩＯＮＳＯＮＩＭＡＧＥＰＲＯＣＥＳＳＩＮＧ，ＶＯＬ．２０，ＮＯ．３，ＭＡＲＣＨ２０１１「ＡＨｙｂｒｉｄＡｐｐｒｏａｃｈｔｏＤｅｔｅｃｔａｎｄＬｏｃａｌｉｚｅＴｅｘｔｓｉｎＮａｔｕｒａｌＳｃｅｎｅＩｍａｇｅｓ」

しかしながら、上記した文字検出方法では、文字が既知の枠内に記載されている必要があり、未知の形状の枠内に文字が記載されている場合、画像から文字を安定かつ頑健に検出することができないという不都合がある。

本発明の一形態の目的は、画像から文字を安定かつ頑健に検出可能な情報処理装置、情報処理システム、情報処理方法及びそのプログラムを提供することである。

実施形態によれば、情報処理装置は、画像入力手段、仰角取得手段、文字変形特定手段、文字検出辞書記憶手段、文字検出辞書選択手段及び文字検出手段を備えている。画像入力手段は、文字が記載された文字面を撮影することで得られた画像の入力を受け付ける。仰角取得手段は、前記入力された画像を撮影した撮影装置に関し、当該画像を撮影した時の当該撮影装置の仰角値を取得する。文字変形特定手段は、前記取得された仰角値に基づいて、前記入力された画像内の文字の見かけ形状がどのように変形しているかを特定する。文字検出辞書記憶手段は、多種多様に変形した文字の見かけ形状に対応付けられた複数の文字検出辞書を記憶する。文字検出辞書選択手段は、前記文字変形特定手段により前記入力された画像内の文字の見かけ形状がどのように変形しているかが特定されると、当該特定された文字の見かけ形状に対応付けられた文字検出辞書を前記文字検出辞書記憶手段から選択する。文字検出手段は、前記選択された文字検出辞書を使用して前記入力された画像に対して文字検出処理を実行し、当該画像において文字が存在する領域を検出する。

見る角度によって変形する文字の見かけ形状の多様性を説明するための図。カメラの３次元的回転を模式的に示す図。一実施形態に係る情報処理装置の構成例を示す図。仰角値を算出する方法を説明するための図。仰角値を算出する方法を説明するための別の図。同実施形態に係る仰角ゾーンと文字変形仮説との関係を示す図。同実施形態に係る文字検出辞書記憶部を説明するための図。同実施形態に係る文字検出部によって実行される縮小処理を説明するための図。同実施形態に係る検出結果情報を説明するための図。同実施形態に係る情報処理装置の動作の一例を示すフローチャート。同実施形態に係る情報処理システムの構成例を示す図。同実施形態に係る情報処理装置のハードウェア構成を示す図。スウィング回転角の値を算出する方法を説明するための図。同実施形態に係る情報処理装置の変形例を説明するための図。同実施形態に係る情報処理装置の変形例を説明するための別の図。同実施形態に係る情報処理装置の変形例を説明するためのさらに別の図。

以下、実施の形態について図面を参照して説明する。
始めに、看板や標識、紙面（例、レストランのメニュー等）を撮影した画像（情景画像）から、看板や標識、紙面等に記載された文字を検出する場合に生じる問題点について説明する。カメラで撮影した画像から看板や標識、紙面等に記載された文字を検出する場合の問題点としては、文字が記載された文字面と、この文字面を撮影するカメラの視点との位置関係によって、当該文字の見かけ形状が多種多様に変形してしまうということに起因して、画像から文字を安定かつ頑健に検出することができないという問題点がある。文字の見かけ形状は、例えば図１に示すように多種多様に変形する。

図１は、見る角度によって変形する文字の見かけ形状の多様性を説明するための図である。見かけ形状Ａ１は「ＴＥＸＴ」という文字が記載された文字面を右斜め下方向から撮影した場合の文字の見かけ形状を示している。また、見かけ形状Ａ５は「ＴＥＸＴ」という文字が記載された文字面を真正面から撮影した場合の文字の見かけ形状を示している。さらに、見かけ形状Ａ９は「ＴＥＸＴ」という文字が記載された文字面を左斜め上方向から撮影した場合の文字の見かけ形状を示している。ここでは、見かけ形状Ａ１，Ａ５，Ａ９を例にとって説明したが、その他の見かけ形状Ａ２〜Ａ４，Ａ６〜Ａ８も各種方向から「ＴＥＸＴ」という文字が記載された文字面を撮影した場合の見かけ形状を示している。

図１に示したように、「ＴＥＸＴ」という同一の文字であっても、この文字が記載された文字面と、この文字面を撮影するカメラの視点との位置関係によって、文字の見かけ形状は多種多様に変形してしまう。このため、上記したように画像から文字を安定かつ頑健に検出することができないという問題が生じる。

そこで、画像から文字を安定かつ頑健に検出するために様々な文字検出方法が提案されている。
例えば、画像から文字が記載されている文字面の枠を検出し、この枠の形状を変形の無い状態に補正した画像を生成して、補正後の画像から変形の無い文字を検出する文字検出方法がある。具体的には、長方形のプレートに記載された文字を画像から検出する場合、水平エッジと垂直エッジとから２組の平行線で囲まれる４辺形を上記プレートの枠として検出し、この４辺形の４頂点の座標値から当該枠の変形を補正した画像を生成して、補正後の画像から変形の無い文字を検出する文字検出方法が提案されている。

また、別の文字検出方法としては、色に基づく領域分割と統合により、画像から文字の記載された所定の領域を枠として抽出し、当該所定の領域の輪郭直線に基づいて当該枠の変形を補正した画像を生成して、補正後の画像から変形の無い文字を検出する文字検出方法が提案されている。

しかしながら、上記した文字検出方法は、文字が既知の形状の枠内に記載されていることが前提であり、未知の形状の枠内に記載された文字や枠を持たない文字面に記載された文字を画像から安定かつ頑健に検出することができないという不都合がある。

このため、様々な背景を持ち、様々に変形した文字を教示可能な万能辞書を使用して、補正されていない画像から枠を検出することなく文字を検出する文字検出方法がある。

しかしながら、この文字検出方法は、様々な背景を持ち、様々に変形した文字を教示可能な万能辞書を用いるため、教示可能な文字の多さから逆に照合精度が低下し、誤検出が生じやすくなるという不都合がある。

このため、万能辞書ではなく、文字の見かけ形状の変形のタイプ毎に辞書を用意し、入力画像に対して、全ての辞書と照合を行うことで、文字を検出する文字検出方法がある。しかしながら、全ての辞書と照合を行うため、文字検出処理が終了するまでにかかる時間が超過してしまうという不都合がある。

以上説明したように、画像から文字を検出する一般的な文字検出方法では、枠の制約、辞書の照合精度の低下、照合時間の超過といった問題を全て解決することができない。このため、本実施形態では、上記した各問題を解決して、画像から安定かつ頑健に文字を検出可能な文字検出処理を実行し得る情報処理装置を提案する。

以下、一実施形態に係る情報処理装置１０の構成について説明するが、その前に、情報処理装置１０が画像内の文字を検出する文字検出処理を実行するにあたって考慮するカメラ姿勢に関連した前提条件について説明する。

カメラ機能を有する端末装置（以下、単に「カメラ」とも表記）は一般的に使用者（撮影者、ユーザ）によって３次元的に回転させることができる。要するに、使用者は３次元においてカメラを上下左右方向に向けることもできるし、斜め方向に傾けることもできる。図２は、上記したカメラの３次元的回転を模式的に示す図である。図２の１０１はカメラの視点位置を示す。図２の１０２はカメラの撮像面を示す。撮像面１０２の中心が画像中心１０３である。カメラの視点位置１０１を通り、地面に対して水平方向に伸びる座標軸がＸ軸１０４である。また、カメラの視点位置１０１を通り、地面に対して垂直方向に伸びる座標軸がＹ軸１０５である。さらに、Ｘ軸１０４とＹ軸１０５に直交するＺ軸１０７を設けると、Ｚ軸１０７もまた地面に対して水平方向に伸びる座標軸である。すなわち、Ｘ軸１０４とＺ軸１０７により張られるＸ−Ｚ平面は地面に対して水平であり、Ｙ軸１０５とＺ軸１０７により張られるＹ−Ｚ平面は地面に対して垂直である。

ここで、カメラの視点位置１０１から撮像面１０２の法線方向（換言すると、カメラの視点位置１０１と画像中心１０３とを結ぶ線分を伸ばした方向）に伸びる軸がカメラの向きを示す光軸１０６である。このとき、光軸１０６は常にＹ−Ｚ平面内にあるものとする。カメラ姿勢とは撮像面１０２の３次元的な姿勢のことであり、カメラの視点位置１０１を中心としたＹ軸１０５、Ｘ軸１０４、光軸１０６の順に行われる各軸周りの回転の角度値で表すことができる。

Ｙ軸周りの回転角は、カメラの水平面内の向きを変えるパン回転（ＰＡＮ回転）に関連するため「パン回転角」と称される。ＰＡＮ回転によりＸ軸１０４とＺ軸１０７、換言すればＸ−Ｚ平面が水平回転するものとする。Ｘ−Ｚ平面の回転に伴い、光軸１０６を含むＹ−Ｚ平面も水平回転する。すなわち、ＰＡＮ回転によって光軸１０６（換言すれば撮像面１０２）の水平向きが変化する。

一方、Ｘ軸周りの回転角は、カメラの垂直面内の向きを変えるチルト回転（ＴＩＬＴ回転）に関連するため「チルト回転角」とも称される。ＴＩＬＴ回転によりＹ−Ｚ平面内で光軸１０６が回転する。すなわち、ＴＩＬＴ回転によって光軸１０６（換言すれば撮像面１０２）の垂直向きが変化する。このとき、Ｙ−Ｚ平面内にある光軸１０６とＺ軸１０７の成す角を仰角と定義し、光軸１０６がＺ軸１０７と一致するとき仰角値は０、光軸１０６がＺ軸１０７より上に向けば仰角値は正、下に向けば仰角値は負であるとする。

さらに、光軸１０６周りの回転角は、画像中心１０３を中心に撮像面１０２像を回転させるスウィング回転（ＳＷＩＮＧ回転）に関連するため「スウィング回転角」と称される。すなわち、カメラ姿勢（撮像面１０２の姿勢）は、パン回転角、チルト回転角、及びスウィング回転角によって表される。そして、このうちのチルト回転角が仰角である。

本実施形態では、上記したカメラ姿勢に関連した（使用者の撮影行為に関連した）２つの前提条件が存在するものと仮定する。

（前提条件１）使用者は撮影対象に向けてカメラを構えるので、カメラが斜め上方向や斜め下方向、又は正面方向を向いている（換言すると、チルト回転角（仰角）が、例えば、−８０°〜＋８０°である）場合、カメラは看板や標識等、地面に対して略垂直な文字面を撮影しているものと仮定する。同様に、カメラが真上方向や真下方向を向いている（換言すると、チルト回転角（仰角）が、例えば、＋８０°〜＋９０°、−９０°〜−８０°である）場合、カメラは天井や机上に置かれた紙面等、地面に対して略水平な文字面を撮影しているものと仮定する。

（前提条件２）使用者はチルト回転とパン回転だけを制御して（換言すると、チルト回転角とパン回転角だけを変えて）カメラを構えるものと仮定する。つまり、使用者はスウィング回転、例えば、カメラを撮影対象にあわせて斜め方向に傾ける行為をほぼ行わないものと仮定する。

本実施形態に係る情報処理装置１０は、上記した２つの前提条件を考慮した上で文字検出処理を実行する。

図３は、一実施形態に係る情報処理装置の構成例を示す図である。図３に示すように、情報処理装置１０は、画像入力部１１、仰角取得部１２、文字変形仮説特定部１３、文字検出辞書記憶部１４、文字検出辞書選択部１５、文字検出部１６、アプリケーション部１７及び出力部１８を備えている。以下、図３の他に、図４〜図９を参照しながら、各部１１〜１８について詳しく説明する。

画像入力部１１は、カメラによって撮影された画像の入力を受け付けると、当該入力を受け付けた画像（入力画像）を文字検出部１６に出力する機能を有している。仰角取得部１２は、画像入力部１１に入力された入力画像を撮影した際のカメラの仰角値を取得し、当該取得した仰角値を文字変形仮説特定部１３に出力する機能を有している。

ここで、図４及び図５を参照しながら、カメラにおいて、上記した仰角値を算出する方法について詳しく説明する。
図４は、カメラ機能を有した端末装置固有の座標系と、これに基づく当該端末装置の姿勢を表す回転角とを定義した図である。図４の端末装置２０１には、図中左の上面図に示すように端末右方向を正とするピッチ軸ｘと、これに直交した端末上方向を正とするロール軸ｙとが予め定義されているものとする。また、図中右の側面図に示すように端末奥行方向を正とするヨー軸ｚが予め定義されているものとする。このとき、ヨー軸ｚはピッチ軸ｘとロール軸ｙとに直交しており、ピッチ軸ｘ、ロール軸ｙ及びヨー軸ｚでｘｙｚの３次元座標が端末装置２０１について固有に定義されていることになる。

このように座標系ｘｙｚを定義したとき、端末装置２０１の姿勢は各軸周りの回転角で表すことができる。ピッチ軸ｘ周りの回転角は「ピッチ角」と称され、「θ（シータ）」で表される。また、ロール軸ｙ周りの回転角は「ロール角」と称され、「φ（ファイ）」で表される。さらに、ヨー軸ｚ周りの回転角は「ヨー角」と称され、「ψ（プサイ）」で表される。すなわち、このピッチ角θ、ロール角φ、ヨー角ψによって端末装置２０１の姿勢を一意に表すことができる。

なお、端末装置２０１はヨー軸ｚ正方向の面に撮影部２０２を備えており、その光軸２０３はヨー軸ｚと略平行になるように調整されているものとする。つまり、ヨー軸ｚの水平面からの上下角度を算出すれば、光軸２０３の仰角を近似的に算出することができる。

また、端末装置２０１は上記した撮影部２０２に加えて、３軸の加速度センサ２０４も備えている。この加速度センサ２０４はピッチ軸ｘ、ロール軸ｙ、ヨー軸ｚそれぞれの方向の加速度値Ａ（ｘ）、Ａ（ｙ）、Ａ（ｚ）を出力する。

上記した端末装置２０１を使用者が構え、撮影部２０２を撮影対象に向けて静止させて撮影を行った場合、加速度センサ２０４に作用する加速度は重力のみとなる。すなわち、この状態で観測される加速度センサの出力値Ａ（ｘ）、Ａ（ｙ）、Ａ（ｚ）はそれぞれ重力加速度Ｇをベクトル分解したｘ軸成分、ｙ軸成分、ｚ軸成分とみなすことができる。

図５は、端末装置２０１の側面図である。図中の仰角βはヨー軸ｚが水平のとき０となり、上向きのとき正値となり、下向きのとき負値となるものである。また、重力加速度Ｇのｚ軸成分を表す加速度値Ａ（ｚ）は、ヨー軸ｚが水平のとき０となり、上向きのとき負値となり、下向きのとき正値となるものである。つまり、端末装置２０１が静止している状態であれば、以下の（１）式に基づいて、重力加速度Ｇの大きさと加速度値Ａ（ｚ）とから仰角βを算出することができる。

以上のようにして算出された仰角（仰角値）を、仰角取得部１２は取得し、文字変形仮説特定部１３に出力する。

再び図３の説明に戻ると、文字変形仮説特定部１３は、仰角取得部１２から出力された仰角値が後述するいずれの仰角ゾーンに含まれているかを特定する。仰角ゾーンが特定されることで、文字変形仮説特定部１３は、上記した前提条件１，２を考慮することにより画像撮影時に撮影対象がどの方向にあったかを特定することができる。また、文字変形仮説特定部１３は、撮影対象がどの方向にあったかを特定することで、撮影対象の文字面に記載された文字の見かけ形状がどのように変形しているかを予測することができる。本実施形態では、上記予測の結果を「文字変形仮説」と称する。文字変形仮説特定部１３は、文字の見かけ形状がどのように変形しているかを予測すると、すなわち、文字変形仮説を導き出すと、当該導き出された文字変形仮説を文字検出辞書選択部１５に出力する。

ここで、図６を参照しながら、上記した仰角ゾーンについて詳しく説明する。
図６は、仰角ゾーンと文字変形仮説との関係を示す図である。仰角ゾーンは、撮影対象の文字面がカメラから見てどの方向にあるかを特定し、撮影対象の文字面が地面に対して略水平な文字面であるか又は略垂直な文字面であるかを特定するためのものである。図６では、５つの仰角ゾーンＡ〜Ｅが定義されている場合を示している。

例えば、仰角ゾーンＡは、仰角値βが「＋８０°＜β≦＋９０°」である場合に対応したゾーンである。つまり、仰角取得部１２から出力された仰角値βが仰角ゾーンＡに含まれる場合、文字変形仮説特定部１３は、撮影対象の文字面がカメラの真上方向にあり、この文字面が地面に対して略水平な文字面３０１であることを特定することができる。同様に、仰角ゾーンＢは、仰角値βが「＋３０°＜β≦＋８０°」である場合に対応したゾーンである。つまり、仰角取得部１２から出力された仰角値βが仰角ゾーンＢに含まれる場合、文字変形仮説特定部１３は、撮影対象の文字面がカメラの斜め上方向にあり、この文字面が地面に対して略垂直な文字面３０２であることを特定することができる。さらに、仰角ゾーンＣは、仰角値βが「−３０°＜β≦＋３０°」である場合に対応したゾーンである。つまり、仰角取得部１２から出力された仰角値βが仰角ゾーンＣに含まれる場合、文字変形仮説特定部１３は、撮影対象の文字面がカメラの正面方向にあり、この文字面が地面に対して略垂直な文字面３０３であることを特定することができる。また、仰角ゾーンＤは、仰角値βが「−８０°＜β≦−３０°」である場合に対応したゾーンである。つまり、仰角取得部１２から出力された仰角値βが仰角ゾーンＤに含まれる場合、文字変形仮説特定部１３は、撮影対象の文字面がカメラの斜め下方向にあり、この文字面が地面に対して略垂直な文字面３０４であることを特定することができる。さらに、仰角ゾーンＥは、仰角値βが「−９０°＜β≦−８０°」である場合に対応したゾーンである。つまり、仰角取得部１２から出力された仰角値βが仰角ゾーンＥに含まれる場合、文字変形仮説特定部１３は、撮影対象の文字面がカメラの真下方向にあり、この文字面が地面に対して略水平な文字面３０５であることを特定することができる。

各仰角ゾーンＡ〜Ｅには、図６に示すように、文字変形仮説４０１〜４０５がそれぞれ対応付けられている。すなわち、文字変形仮説特定部１３は、仰角値がいずれの仰角ゾーンに含まれているかを特定すると、撮影対象の文字面に記載された文字の見かけ形状がどのように変形しているか（文字変形仮説）を特定することができる。

例えば、仰角値βが仰角ゾーンＡ又は仰角ゾーンＥに含まれる場合、撮影者（使用者）は撮影対象の文字面３０１，３０５をほぼ正面から見ることができるので、文字変形仮説特定部１３は、文字の見かけ形状が図６の文字変形仮説４０１，４０５により示される形状になっていると特定することができる。なお、本実施形態では、撮影対象の文字面には「ＴＥＸＴ」という文字が記載されているものとする。

また、仰角値βが仰角ゾーンＢに含まれる場合、撮影者は撮影対象の文字面を斜め下方向からとその左右に視点を動かした状態とで見ることができるので、文字変形仮説特定部１３は、文字の見かけ形状が図６の文字変形仮説４０２により示される形状になっていると（変形していると）特定することができる。さらに、仰角値βが仰角ゾーンＣに含まれる場合、撮影者は撮影対象の文字面を正面からとその左右に視点を動かした状態とで見ることができるので、文字変形仮説特定部１３は、文字の見かけ形状が図６の文字変形仮説４０３により示される形状になっていると特定することができる。また、仰角値βが仰角ゾーンＤに含まれる場合、撮影者は撮影対象の文字面を斜め上方向からとその左右に視点を動かした状態とで見ることができるので、文字変形仮説特定部１３は、文字の見かけ形状が図６の文字変形仮説４０４により示される形状になっていると特定することができる。

再び図３の説明に戻ると、文字検出辞書記憶部１４は、文字検出部１６によって使用される複数の辞書（文字検出辞書）を、文字変形仮説に対応付けて記憶する記憶装置である。具体的には、文字検出辞書記憶部１４には、図７に示すように、文字変形仮説の種類の数だけ辞書が記憶されている。図７では、文字変形仮説４０１，４０５が同一の見かけ形状を示しているので、４つの辞書５０１〜５０４が文字検出辞書記憶部１４に記憶されている場合を示す。辞書は、文字検出処理時に使用される部分画像が文字／非文字のどちらであるかを評価するために利用される。

文字検出辞書選択部１５は、文字変形仮説特定部１３によって特定された文字変形仮説に対応する辞書を文字検出辞書記憶部１４から選択する（取得する）機能を有している。選択された辞書は文字検出部１６に出力される。

文字検出部１６は、画像入力部１１から出力された入力画像に対して縮小処理を実行して所謂解像度ピラミッドを生成し、該解像度ピラミッド上で文字を探索・検出する。

ここで、図８を参照しながら、上記した縮小処理について詳しく説明する。
図８は、文字検出部１６によって実行される縮小処理を説明するための図である。文字検出部１６は、図８に示すように、入力画像６０１を一定比率ｒ（但し、０＜ｒ＜１）で順次縮小して、１以上のリサイズ画像６０２、６０３を生成する。生成されるリサイズ画像の数、換言すると、上記した縮小処理が実行される回数は、仕様上の検出すべき文字の最小サイズと最大サイズに依存する。最も解像度の高い入力画像６０１上で検出すべき文字の大きさに合わせて図８に示す検出窓６０５の大きさが決定される。すなわち、この検出窓６０５の大きさが仕様上の検出すべき文字の最小サイズとなる。一定比率ｒを乗じて縮小されるリサイズ画像６０２、６０３の上では、同じ大きさの検出窓６０５が覆う入力画像６０１上の範囲は広くなり、これに応じて検出される文字の大きさも大きくなっていく。この文字の大きさが仕様上の検出すべき文字の最大サイズを超えるまで、文字検出部１６はリサイズ画像を生成する。このようにして文字検出部１６は、１以上のリサイズ画像を生成すると、図８に示すように、入力画像６０１とリサイズ画像６０２，６０３とをあわせて解像度ピラミッド画像６０４を生成する。

文字検出部１６は、解像度ピラミッド画像を生成すると、生成された解像度ピラミッド画像に含まれる各画像上で所定サイズの検出窓６０５を走査しつつ、各位置での検出窓６０５内の画像を切り取って、複数の部分画像を生成する。また、文字検出部１６は、生成された複数の部分画像と、文字検出辞書選択部１５によって選択された辞書とに基づいて、文字検出処理を実行する。具体的には、文字検出部１６は、上記した各部分画像と、上記選択された辞書とを照合して、文字らしさを表すスコアをそれぞれ計算し、これら各スコアが所定の閾値を超えているかどうかをそれぞれ判定する。これにより、各部分画像が文字を含む画像であるかどうかを判定（評価）することができる。上記判定の結果に応じて、文字検出部１６は、文字を含む画像であると判定された部分画像には文字であることを示す第１のコードを付与し、文字を含まない画像（換言すると、非文字を含む画像）であると判定された部分画像には非文字であることを示す第２のコードを付与する。これにより、文字検出部１６は、第１のコードが付与された部分画像が存在する領域（換言すると、第１のコードが付与された部分画像を切り取った検出窓が位置する領域）を文字が存在する領域として検出することができる。入力画像上で文字が存在する領域を示す検出結果情報はアプリケーション部１７に出力される。検出結果情報とは、例えば図９（ａ）及び図９（ｂ）に示すように、入力画像上で文字が存在する領域を矩形の枠で示した情報である。

なお、上記検出窓内の部分画像に対して文字らしさを評価するスコア計算方法としては、部分空間法やサポートベクトルマシン等、公知のパターン識別方法を利用して実現することができるため、本実施形態ではその詳しい説明は省略する。そして、上記検出結果情報には、各検出窓に対して上記スコアが付与されているものとする。

アプリケーション部１７は、文字検出部１６から出力された検出結果情報を用いて予めインストールされたアプリケーション固有の処理を実行する。例えば、文字認識処理を実行可能なアプリケーション（例、ＯＣＲ機能を有したアプリケーション等）が予めインストールされている場合、アプリケーション部１７は、検出結果情報により示される文字が存在する領域を利用して文字列の画像パターンを抽出し、抽出された文字列の画像パターンに対して文字認識処理を実行して、当該領域内の文字に対応した文字コード列を取得する。

文字が存在するとされる大きさの異なる多数の検出窓の情報から文字列の画像パターンを抽出する方法として、例えば、非特許文献「ＡＨｙｂｒｉｄＡｐｐｒｏａｃｈｔｏＤｅｔｅｃｔａｎｄＬｏｃａｌｉｚｅＴｅｘｔｓｉｎＮａｔｕｒａｌＳｃｅｎｅＩｍａｇｅｓ」に開示される方法がある。この方法では、「ＴｅｘｔＲｅｇｉｏｎＤｅｔｅｃｔｏｒ」から得られる検出窓の位置とスコアに基づいて「ｔｅｘｔｃｏｎｆｉｄｅｎｃｅｍａｐ」と「ｔｅｘｔｓｃａｌｅｍａｐ」を生成し、後者で「Ｎｉｂｌａｃｋの３値化」の閾値を決定し、画像を連結成分に分解する。また、前者と他の特徴を用いて文字を構成する連結成分を選別し、その隣接関係を解析して文字列とそれを構成する画像パターンを得る。本発明においては、当該文献に記載される「ＴｅｘｔＲｅｇｉｏｎＤｅｔｅｃｔｏｒ」の出力として検出窓とスコアの組から成る前記検出結果情報を利用することができる。

あるいは、予め画像を適応的に２値化・ラベリングして連結成分を得ておき、より単純に上記検出結果情報の文字が存在する領域をマスクとして、このマスク内に包含される連結成分のみを抽出し、同様にその隣接関係を解析して文字列とそれを構成する画像パターンを得ることもできる。

なお、画像中の文字をＯＣＲで認識した場合、アプリケーション部１７は、取得した文字コード列に関連する情報を検索することもできる。具体的には、商品名からその値段やスペック等の情報を検索したり、地名や名所の名前などからそこまでの地図情報を得たり、ある言語を他の言語に翻訳したりすることができる。アプリケーション部１７によって実行された処理の結果を示す処理結果情報は出力部１８に出力される。

出力部１８は、アプリケーション部１７から出力された処理結果情報を情報処理装置１０の図示しないディスプレイ等を介してユーザに提示する機能を有している。なお、上記したアプリケーション部１７及び出力部１８は、上記した文字検出処理の結果を利用するために設けられる機能部であり、情報処理装置１０とは異なる装置の機能部として設けられてもよい。

次に、図１０のフローチャートを参照して、情報処理装置１０の動作の一例について簡単に説明する。
始めに、画像入力部１１は、カメラによって撮影された画像の入力を受け付けると、当該入力を受け付けた画像を文字検出部１６に出力する（ステップＳ１）。続いて、仰角取得部１２は、画像入力部１１に入力された画像が撮影された際のカメラの仰角値を取得し、当該取得した仰角値を文字変形仮説特定部１３に出力する（ステップＳ２）。

次に、文字変形仮説特定部１３は、仰角取得部１２によって取得された仰角値がいずれの仰角ゾーンに含まれているかを特定すると共に、当該特定された仰角ゾーンに対応する文字変形仮説を特定する（ステップＳ３）。

続いて、文字検出辞書選択部１５は、文字変形仮説特定部１３によって特定された文字変形仮説に対応する辞書を文字検出辞書記憶部１４から選択する（ステップＳ４）。そして、文字検出部１６は、画像入力部１１から出力された画像と、文字検出辞書選択部１５によって選択された辞書とを使用して文字検出処理を実行する（ステップＳ５）。

次に、アプリケーション部１７は、文字検出部１６によって実行された文字検出処理の結果を使用して、各種アプリケーション固有の処理を実行する（ステップＳ６）。しかる後、出力部１８は、アプリケーション部１７によって実行された処理の結果をユーザに対して提示し（ステップＳ７）、情報処理装置１０での処理を終了させる。

次に、図１１を参照して、情報処理システムの構成例を説明する。
図１１は、上記した情報処理装置１０が有する各種機能を、クライアント装置とサーバ装置とに分けて実装した情報処理システムの構成例を示す図である。図１１の情報処理システム２０は、クライアント装置３０及びサーバ装置４０を備えている。クライアント装置３０は、図１１に示すように、上記した画像入力部１１、仰角取得部１２及び出力部１８の他に通信部３１を備えている。サーバ装置４０は、図１１に示すように、上記した文字変形仮説特定部１３、文字検出辞書記憶部１４、文字検出辞書選択部１５、文字検出部１６及びアプリケーション部１７の他に通信部４１を備えている。

クライアント装置３０は、通信部３１を介して、画像入力部１１に入力された入力画像と、仰角取得部１２によって取得された仰角値とをサーバ装置４０に出力する処理を実行する。また、クライアント装置３０は、通信部３１を介して、サーバ装置４０内のアプリケーション部１７によって実行される各種アプリケーション固有の処理の結果を受けると、当該結果を出力部１８を介してユーザに提示する処理を実行する。

サーバ装置４０は、通信部４１を介して、クライアント装置３０から出力された入力画像と仰角値との入力を受け付けると、当該入力画像と当該仰角値とを用いて文字検出処理を実行する。また、サーバ装置４０は、上記した文字検出処理の結果として得られた情報を用いて、各種アプリケーション固有の処理を実行し、当該処理の結果として得られた情報を通信部４１を介してクライアント装置３０に出力する処理を実行する。

次に、図１２を参照して、情報処理装置１０のハードウェア構成例を説明する。
図１２は、情報処理装置のハードウェア構成を示す図である。図１２の情報処理装置１０は、ＣＰＵ５１、ＲＡＭ５２、ＲＯＭ５３、ＨＤＤ５４、ＬＡＮ５５、入力デバイス５６、ディスプレイ５７、外部インタフェース５８、外部ストレージデバイス５９、カメラ６０及び姿勢センサ６１を備えている。

ＣＰＵ５１は、情報処理装置１０内のコンポーネントを制御するプロセッサである。ＣＰＵ５１は、ＨＤＤ５４からＲＡＭ５２にロードされる文字検出プログラムを実行する。ＣＰＵ５１はこの文字検出プログラムを実行することにより、上記した文字検出処理を実行するように構成された処理部として機能することができる。なお、ＣＰＵ５１は、外部ストレージデバイス５９（例えば、ＵＳＢデバイス等）からＲＡＭ５２に文字検出プログラムをロードし、これを実行することも可能である。外部ストレージデバイス５９からは文字検出プログラムだけでなく、文字検出処理実行時に使用される画像や、仰角値を示す情報もロードすることができる。

入力デバイス５６はキーボード、マウス、タッチパネル、他の各種入力デバイスである。ディスプレイ５７は、情報処理装置１０によって実行される各種処理の結果を表示可能なデバイスである。カメラ６０は文字検出処理の対象となり得る画像を撮影可能なデバイスである。姿勢センサ６１はカメラ６０の仰角値を取得可能なデバイスである。

以上説明した一実施形態では、上記したカメラ姿勢に関連した２つの前提条件１，２が存在するものと仮定したが、前提条件２は以下に示す前提条件２’に置き換えられてもよい。

（前提条件２’）使用者はチルト回転とパン回転だけでなく、画像内でできるだけ文字が回転しないようにスウィング回転も制御してカメラを構えるものと仮定する。つまり、撮影された画像内の文字はほぼ水平となる。

前提条件２を前提条件２’に置き換えたとしても、文字変形仮説の一部を、文字列が水平な文字の見かけ形状を示す文字変形仮説に置き換える必要はあるが、情報処理装置１０は、上記した文字検出処理と同様な文字検出処理を実行することができる。

また、本実施形態では、情報処理装置１０は仰角値だけを用いて文字検出処理を実行するとしたが、情報処理装置１０はスウィング回転角の値をさらに用いて文字検出処理を実行するとしてもよい。このようにすることで、スウィング回転角の絶対値が大きい程、画像内の文字列が傾いている（水平でない）ことを判別できるので、文字変形仮説をより細やかに特定することができ、ひいては、文字検出処理に使用する辞書の数を減らすことができるので、文字検出処理に要する時間を短縮することができる。

以下に、図１３を参照しながら、カメラにおいて、上記したスウィング回転角の値を算出する方法について補足的に説明する。以下の説明では、図４及び図５と共通する部分には同一の符号を付し、その詳しい説明を省略するものとする。
一般的に、各回転角θ、φ、ψの原点と向きは任意に定義可能である。ここでは、ピッチ角θとロール角φについては端末装置２０１を水平に置いたとき、すなわち、ヨー軸ｚが鉛直下向きになったときをそれぞれ０（原点）とし、端末装置２０１上辺を持ち上げる方向（ピッチ軸ｘ方向に見て右回り）をピッチ角θの正方向、端末装置２０１右辺を持ち上げる方向（ロール軸ｙ方向を見て左回り）をロール角φの正方向と仮定する。また、ヨー角ψについては、仰角が０、すなわち、ヨー軸ｚが水平であり、かつピッチ軸ｘが水平（換言すると、ロール軸ｙが垂直）であるときを０（原点）とし、ヨー軸ｚ方向を見て左回りをヨー角ψの正方向と仮定する。

また、撮影部２０２の撮像面の横軸と縦軸は共にピッチ軸ｘとロール軸ｙに略平行になっているものと仮定する。つまり、ヨー角ψを算出することで、スウィング回転角を近似的に算出することができる。

ヨー軸ｚ周りの回転は、端末装置２０１のｘｙ平面内の回転である。すなわち、図１３に示すように、加速度値Ａ（ｘ）、Ａ（ｙ）から端末装置２０１のヨー角ψ、要するに、撮像面のスウィング回転角を近似的に算出することができる。なお、重力加速度Ｇを観測したｘ軸成分Ａ（ｘ）とｙ軸成分Ａ（ｙ）はヨー軸ｚが重力加速度Ｇと平行にならない限り共に０になることはない。したがって、以下の（２）式で計算されるＡ（ｘ）とＡ（ｙ）の合成ベクトルの長さＧ_ｘｙも０にはならない。

このとき、ヨー角ψは以下に示す（３）式で計算することができる。なお、Ｇ_ｘｙが０になるときはヨー角ψを便宜上０とする。

以上説明した一実施形態によれば、カメラの仰角値から予め定義された文字変形仮説を特定し、当該特定された文字変形仮説に対応した辞書を使用して文字検出処理を実行する構成を備えているので、上記した枠の制約、辞書の照合精度の低下、照合時間の超過といった問題を解決して、画像内の文字を安定（効率的）かつ頑健（高精度）に検出することができる。

以下、変形例について説明する。
（変形例１）
上記した実施形態では、文字変形仮説として、仰角ゾーンＡ〜Ｅにそれぞれ対応した５つの文字変形仮説４０１〜４０５が定義されている場合について説明したが、定義される文字変形仮説の数は各仰角ゾーンに１つでなくてもよい。図６に示したように文字の見かけ形状は、真上方向、真下方向、真正面方向からみた文字の見かけ形状が同一であるので、９類型に分類することができる。このため、この９類型の文字の見かけ形状のそれぞれが文字変形仮説として定義されてもよい。

この場合、図１４に示すように、仰角ゾーンＡには１つの文字変形仮説４１５が対応付けられ、仰角ゾーンＢには３つの文字変形仮説４１１〜４１３が対応付けられ、仰角ゾーンＣには３つの文字変形仮説４１４〜４１６が対応付けられ、仰角ゾーンＤには３つの文字変形仮説４１７〜４１９が対応付けられ、仰角ゾーンＥには１つの文字変形仮説４１５が対応付けられていることになる。また、文字検出辞書記憶部１４には、文字変形仮説の種類の数だけ場合分けされた辞書が記憶されているため、図１４に示すように、文字変形仮説４１１〜４１９にそれぞれ対応した辞書５１１〜５１９が記憶されることになる。

（変形例２）
上記した実施形態では、仰角取得部１２によって取得される仰角値に対応する仰角ゾーンとして、５つの仰角ゾーンＡ〜Ｅが定義されている場合について説明したが、定義される仰角ゾーンの数は５つでなくてもよい。例えば、各仰角ゾーンＡ〜Ｅの境界部に４つの新たな仰角ゾーンが定義されてもよい。

具体的には、図１５に示すように、仰角ゾーンＡと仰角ゾーンＢとの間に新たな仰角ゾーンＡＢが定義され、仰角ゾーンＢと仰角ゾーンＣとの間に新たな仰角ゾーンＢＣが定義され、仰角ゾーンＣと仰角ゾーンＤとの間に新たな仰角ゾーンＣＤが定義され、仰角ゾーンＤと仰角ゾーンＥとの間に新たな仰角ゾーンＤＥが定義されてもよい。図１５に示すように９つの仰角ゾーンが定義される場合、各仰角ゾーンと仰角値との対応関係は例えば次のようになる。仰角ゾーンＡは、仰角値βが「＋８５°＜β≦＋９０°」に対応したゾーンとなる。仰角ゾーンＡＢは、仰角値βが「＋６０°＜β≦＋８５°」に対応したゾーンとなる。仰角ゾーンＢは、仰角値βが「＋４０°＜β≦＋６０°」に対応したゾーンとなる。仰角ゾーンＢＣは、仰角値βが「＋１０°＜β≦＋４０°」に対応したゾーンとなる。仰角ゾーンＣは、仰角値βが「−１０°＜β≦＋１０°」に対応したゾーンとなる。仰角ゾーンＣＤは、仰角値βが「−４０°＜β≦−１０°」に対応したゾーンとなる。仰角ゾーンＤは、仰角値βが「−６０°＜β≦−４０°」に対応したゾーンとなる。仰角ゾーンＤＥは、仰角値βが「−８５°＜β≦−６０°」に対応したゾーンとなる。仰角ゾーンＥは、仰角値βが「−９０°＜β≦−８５°」に対応したゾーンとなる。

なお、仰角取得部１２によって取得される仰角値が新たに定義された境界部の仰角ゾーンに含まれる場合、文字変形仮説特定部１３では、複数の文字変形仮説を特定する。例えば、上記したように９つの仰角ゾーンが定義され、かつ上記した変形例１に示したように９つの文字変形仮説が定義されている場合を想定する。この想定の下、仰角値が仰角ゾーンＡＢに含まれる場合、文字変形仮説特定部１３は、仰角ゾーンＡ，Ｂにそれぞれ対応した文字変形仮説４１１〜４１３，４１５を文字変形仮説として特定する。同様に、仰角値が仰角ゾーンＢＣに含まれる場合、文字変形仮説特定部１３は、仰角ゾーンＢ，Ｃにそれぞれ対応した文字変形仮説４１１〜４１６を文字変形仮説として特定する。また、仰角値が仰角ゾーンＣＤに含まれる場合、文字変形仮説特定部１３は、仰角ゾーンＣ，Ｄにそれぞれ対応した文字変形仮説４１４〜４１９を文字変形仮説として特定する。さらに、仰角値が仰角ゾーンＤＥに含まれる場合、文字変形仮説特定部１３は、仰角ゾーンＤ，Ｅにそれぞれ対応した文字変形仮説４１５，４１７〜４１９を文字変形仮説として特定する。

これにより、文字検出辞書選択部１５は、仰角値が仰角ゾーンＡＢに含まれる場合、図１６に示すように、仰角ゾーンＡ，Ｂにそれぞれ対応した文字変形仮説４１１〜４１３，４１５に対応付けられた辞書５１１〜５１３，５１５を選択することができる。同様に、仰角値が仰角ゾーンＢＣに含まれる場合、文字検出辞書選択部１５は、仰角ゾーンＢ，Ｃにそれぞれ対応した文字変形仮説４１１〜４１６に対応付けられた辞書５１１〜５１６を選択することができる。また、仰角値が仰角ゾーンＣＤに含まれる場合、文字検出辞書選択部１５は、仰角ゾーンＣ，Ｄにそれぞれ対応した文字変形仮説４１４〜４１９に対応付けられた辞書５１４〜５１９を選択することができる。さらに、仰角値が仰角ゾーンＤＥに含まれる場合、文字検出辞書選択部１５は、仰角ゾーンＤ，Ｅにそれぞれ対応した文字変形仮説４１５，４１７〜４１９に対応付けられた辞書５１５，５１７〜５１９を選択することができる。

このようにすることで、情報処理装置１０は文字変形仮説をより緻密に想定することができるので、文字検出精度を向上させることができる。

なお、本実施形態の処理は、コンピュータプログラムによって実現することができるので、このコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのコンピュータプログラムをコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。

なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０…情報処理装置、１１…画像入力部、１２…仰角取得部、１３…文字変形仮説特定部、１４…文字検出辞書記憶部、１５…文字検出辞書選択部、１６…文字検出部、１７…アプリケーション部、１８…出力部。

Claims

文字が記載された文字面を撮影することで得られた画像の入力を受け付ける画像入力手段と、
前記入力された画像を撮影した撮影装置に関し、当該画像を撮影した時の当該撮影装置の仰角値を取得する仰角取得手段と、
前記取得された仰角値に基づいて、前記入力された画像内の文字の見かけ形状がどのように変形しているかを特定する文字変形特定手段と、
多種多様に変形した文字の見かけ形状に対応付けられた複数の文字検出辞書を記憶する文字検出辞書記憶手段と、
前記文字変形特定手段により前記入力された画像内の文字の見かけ形状がどのように変形しているかが特定されると、当該特定された文字の見かけ形状に対応付けられた文字検出辞書を前記文字検出辞書記憶手段から選択する文字検出辞書選択手段と、
前記選択された文字検出辞書を使用して前記入力された画像に対して文字検出処理を実行し、当該画像において文字が存在する領域を検出する文字検出手段と
を具備することを特徴とする情報処理装置。
前記文字変形特定手段は、
前記取得された仰角値が予め定義された複数の仰角ゾーンのいずれに含まれるかを特定することで、前記入力された画像内の文字の見かけ形状がどのように変形しているかを特定することを特徴とする請求項１に記載の情報処理装置。
前記各仰角ゾーンは、
前記撮影装置の真上方向に位置する文字面に対応した第１の仰角ゾーン、前記撮影装置の斜め上方向に位置する文字面に対応した第２の仰角ゾーン、前記撮影装置の正面方向に位置する文字面に対応した第３の仰角ゾーン、前記撮影装置の斜め下方向に位置する文字面に対応した第４の仰角ゾーン、及び前記撮影装置の真下方向に位置する文字面に対応した第５の仰角ゾーンのいずれかであることを特徴とする請求項２に記載の情報処理装置。
クライアント装置及びサーバ装置を備える情報処理システムであって、
前記サーバ装置は、
文字が記載された文字面を撮影することで得られた画像の入力を受け付ける画像入力手段と、
前記入力された画像を撮影したクライアント装置に関し、当該画像を撮影した時の当該クライアント装置の仰角値を取得する仰角取得手段と、
前記取得された仰角値に基づいて、前記入力された画像内の文字の見かけ形状がどのように変形しているかを特定する文字変形特定手段と、
多種多様に変形した文字の見かけ形状に対応付けられた複数の文字検出辞書を記憶する文字検出辞書記憶手段と、
前記文字変形特定手段により前記入力された画像内の文字の見かけ形状がどのように変形しているかが特定されると、当該特定された文字の見かけ形状に対応付けられた文字検出辞書を前記文字検出辞書記憶手段から選択する文字検出辞書選択手段と、
前記選択された文字検出辞書を使用して前記入力された画像に対して文字検出処理を実行し、当該画像において文字が存在する領域を検出する文字検出手段と
を具備することを特徴とする情報処理システム。
多種多様に変形した文字の見かけ形状に対応付けられた複数の文字検出辞書を記憶する文字検出辞書記憶部を備える情報処理装置によって実行される情報処理方法であって、
文字が記載された文字面を撮影することで得られた画像の入力を受け付ける画像入力ステップと、
前記入力された画像を撮影した撮影装置に関し、当該画像を撮影した時の当該撮影装置の仰角値を取得する仰角取得ステップと、
前記取得された仰角値に基づいて、前記入力された画像内の文字の見かけ形状がどのように変形しているかを特定する文字変形特定ステップと、
前記文字変形特定ステップにより前記入力された画像内の文字の見かけ形状がどのように変形しているかが特定されると、当該特定された文字の見かけ形状に対応付けられた文字検出辞書を前記文字検出辞書記憶部から選択する文字検出辞書選択ステップと、
前記選択された文字検出辞書を使用して前記入力された画像に対して文字検出処理を実行し、当該画像において文字が存在する領域を検出する文字検出ステップと
を具備することを特徴とする情報処理方法。
コンピュータにより実行されるプログラムであって、前記プログラムは前記コンピュータを、
文字が記載された文字面を撮影することで得られた画像の入力を受け付ける画像入力手段と、
前記入力された画像を撮影した撮影装置に関し、当該画像を撮影した時の当該撮影装置の仰角値を取得する仰角取得手段と、
前記取得された仰角値に基づいて、前記入力された画像内の文字の見かけ形状がどのように変形しているかを特定する文字変形特定手段と、
前記文字変形特定手段により前記入力された画像内の文字の見かけ形状がどのように変形しているかが特定されると、当該特定された文字の見かけ形状に対応付けられた文字検出辞書を、多種多様に変形した文字の見かけ形状に対応付けられた複数の文字検出辞書を記憶する文字検出辞書記憶部から選択する文字検出辞書選択手段と、
前記選択された文字検出辞書を使用して前記入力された画像に対して文字検出処理を実行し、当該画像において文字が存在する領域を検出する文字検出手段として動作させるプログラム。