JP2016045877A - 情報処理装置、情報処理システム、情報処理方法及びそのプログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法及びそのプログラム Download PDF

Info

Publication number
JP2016045877A
JP2016045877A JP2014171848A JP2014171848A JP2016045877A JP 2016045877 A JP2016045877 A JP 2016045877A JP 2014171848 A JP2014171848 A JP 2014171848A JP 2014171848 A JP2014171848 A JP 2014171848A JP 2016045877 A JP2016045877 A JP 2016045877A
Authority
JP
Japan
Prior art keywords
character
image
elevation angle
detection
character detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014171848A
Other languages
English (en)
Other versions
JP6208094B2 (ja
Inventor
鈴木 薫
Kaoru Suzuki
薫 鈴木
洋次郎 登内
Yojiro Touchi
洋次郎 登内
智行 柴田
Satoyuki Shibata
智行 柴田
三原 功雄
Isao Mihara
功雄 三原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2014171848A priority Critical patent/JP6208094B2/ja
Priority to US14/834,792 priority patent/US9679217B2/en
Priority to CN201510531717.3A priority patent/CN105389578B/zh
Publication of JP2016045877A publication Critical patent/JP2016045877A/ja
Application granted granted Critical
Publication of JP6208094B2 publication Critical patent/JP6208094B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/1607Correcting image deformation, e.g. trapezoidal deformation caused by perspective

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】画像から文字を安定かつ頑健に検出すること。【解決手段】実施形態によれば、情報処理装置は、取得された仰角値に基づいて、入力された画像内の文字の見かけ形状がどのように変形しているかを特定する。また、情報処理装置は、多種多様に変形した文字の見かけ形状に対応付けられた複数の文字検出辞書を記憶する。さらに、情報処理装置は、入力された画像内の文字の見かけ形状がどのように変形しているかが特定されると、当該特定された文字の見かけ形状に対応付けられた文字検出辞書を選択する。情報処理装置は、選択された文字検出辞書を使用して入力された画像に対して文字検出処理を実行し、当該画像において文字が存在する領域を検出する。【選択図】図3

Description

本発明の実施形態は、情報処理装置、情報処理システム、情報処理方法及びそのプログラムに関する。
一般に、看板や標識、紙面等に記載された文字をカメラによって撮影された画像から検出する場合、文字が記載された文字面とカメラの視点位置とによって画像内の文字の見かけ形状が多種多様に変形するため(例えば、射影変形を受けるため)、画像から文字を安定かつ頑健に検出し辛いという不都合がある。
このため、画像内から文字を安定かつ頑健に検出するために、文字の記載された枠を検出して、検出された枠の形状を変形のない状態に補正した画像を生成し、生成された補正後の画像から変形のない状態の文字を検出する文字検出方法がある。
特開2001−307017号公報
IEEE TRANSACTIONS ON IMAGE PROCESSING,VOL.20,NO.3,MARCH 2011「A Hybrid Approach to Detect and Localize Texts in Natural Scene Images」
しかしながら、上記した文字検出方法では、文字が既知の枠内に記載されている必要があり、未知の形状の枠内に文字が記載されている場合、画像から文字を安定かつ頑健に検出することができないという不都合がある。
本発明の一形態の目的は、画像から文字を安定かつ頑健に検出可能な情報処理装置、情報処理システム、情報処理方法及びそのプログラムを提供することである。
実施形態によれば、情報処理装置は、画像入力手段、仰角取得手段、文字変形特定手段、文字検出辞書記憶手段、文字検出辞書選択手段及び文字検出手段を備えている。画像入力手段は、文字が記載された文字面を撮影することで得られた画像の入力を受け付ける。仰角取得手段は、前記入力された画像を撮影した撮影装置に関し、当該画像を撮影した時の当該撮影装置の仰角値を取得する。文字変形特定手段は、前記取得された仰角値に基づいて、前記入力された画像内の文字の見かけ形状がどのように変形しているかを特定する。文字検出辞書記憶手段は、多種多様に変形した文字の見かけ形状に対応付けられた複数の文字検出辞書を記憶する。文字検出辞書選択手段は、前記文字変形特定手段により前記入力された画像内の文字の見かけ形状がどのように変形しているかが特定されると、当該特定された文字の見かけ形状に対応付けられた文字検出辞書を前記文字検出辞書記憶手段から選択する。文字検出手段は、前記選択された文字検出辞書を使用して前記入力された画像に対して文字検出処理を実行し、当該画像において文字が存在する領域を検出する。
見る角度によって変形する文字の見かけ形状の多様性を説明するための図。 カメラの3次元的回転を模式的に示す図。 一実施形態に係る情報処理装置の構成例を示す図。 仰角値を算出する方法を説明するための図。 仰角値を算出する方法を説明するための別の図。 同実施形態に係る仰角ゾーンと文字変形仮説との関係を示す図。 同実施形態に係る文字検出辞書記憶部を説明するための図。 同実施形態に係る文字検出部によって実行される縮小処理を説明するための図。 同実施形態に係る検出結果情報を説明するための図。 同実施形態に係る情報処理装置の動作の一例を示すフローチャート。 同実施形態に係る情報処理システムの構成例を示す図。 同実施形態に係る情報処理装置のハードウェア構成を示す図。 スウィング回転角の値を算出する方法を説明するための図。 同実施形態に係る情報処理装置の変形例を説明するための図。 同実施形態に係る情報処理装置の変形例を説明するための別の図。 同実施形態に係る情報処理装置の変形例を説明するためのさらに別の図。
以下、実施の形態について図面を参照して説明する。
始めに、看板や標識、紙面(例、レストランのメニュー等)を撮影した画像(情景画像)から、看板や標識、紙面等に記載された文字を検出する場合に生じる問題点について説明する。カメラで撮影した画像から看板や標識、紙面等に記載された文字を検出する場合の問題点としては、文字が記載された文字面と、この文字面を撮影するカメラの視点との位置関係によって、当該文字の見かけ形状が多種多様に変形してしまうということに起因して、画像から文字を安定かつ頑健に検出することができないという問題点がある。文字の見かけ形状は、例えば図1に示すように多種多様に変形する。
図1は、見る角度によって変形する文字の見かけ形状の多様性を説明するための図である。見かけ形状A1は「TEXT」という文字が記載された文字面を右斜め下方向から撮影した場合の文字の見かけ形状を示している。また、見かけ形状A5は「TEXT」という文字が記載された文字面を真正面から撮影した場合の文字の見かけ形状を示している。さらに、見かけ形状A9は「TEXT」という文字が記載された文字面を左斜め上方向から撮影した場合の文字の見かけ形状を示している。ここでは、見かけ形状A1,A5,A9を例にとって説明したが、その他の見かけ形状A2〜A4,A6〜A8も各種方向から「TEXT」という文字が記載された文字面を撮影した場合の見かけ形状を示している。
図1に示したように、「TEXT」という同一の文字であっても、この文字が記載された文字面と、この文字面を撮影するカメラの視点との位置関係によって、文字の見かけ形状は多種多様に変形してしまう。このため、上記したように画像から文字を安定かつ頑健に検出することができないという問題が生じる。
そこで、画像から文字を安定かつ頑健に検出するために様々な文字検出方法が提案されている。
例えば、画像から文字が記載されている文字面の枠を検出し、この枠の形状を変形の無い状態に補正した画像を生成して、補正後の画像から変形の無い文字を検出する文字検出方法がある。具体的には、長方形のプレートに記載された文字を画像から検出する場合、水平エッジと垂直エッジとから2組の平行線で囲まれる4辺形を上記プレートの枠として検出し、この4辺形の4頂点の座標値から当該枠の変形を補正した画像を生成して、補正後の画像から変形の無い文字を検出する文字検出方法が提案されている。
また、別の文字検出方法としては、色に基づく領域分割と統合により、画像から文字の記載された所定の領域を枠として抽出し、当該所定の領域の輪郭直線に基づいて当該枠の変形を補正した画像を生成して、補正後の画像から変形の無い文字を検出する文字検出方法が提案されている。
しかしながら、上記した文字検出方法は、文字が既知の形状の枠内に記載されていることが前提であり、未知の形状の枠内に記載された文字や枠を持たない文字面に記載された文字を画像から安定かつ頑健に検出することができないという不都合がある。
このため、様々な背景を持ち、様々に変形した文字を教示可能な万能辞書を使用して、補正されていない画像から枠を検出することなく文字を検出する文字検出方法がある。
しかしながら、この文字検出方法は、様々な背景を持ち、様々に変形した文字を教示可能な万能辞書を用いるため、教示可能な文字の多さから逆に照合精度が低下し、誤検出が生じやすくなるという不都合がある。
このため、万能辞書ではなく、文字の見かけ形状の変形のタイプ毎に辞書を用意し、入力画像に対して、全ての辞書と照合を行うことで、文字を検出する文字検出方法がある。しかしながら、全ての辞書と照合を行うため、文字検出処理が終了するまでにかかる時間が超過してしまうという不都合がある。
以上説明したように、画像から文字を検出する一般的な文字検出方法では、枠の制約、辞書の照合精度の低下、照合時間の超過といった問題を全て解決することができない。このため、本実施形態では、上記した各問題を解決して、画像から安定かつ頑健に文字を検出可能な文字検出処理を実行し得る情報処理装置を提案する。
以下、一実施形態に係る情報処理装置10の構成について説明するが、その前に、情報処理装置10が画像内の文字を検出する文字検出処理を実行するにあたって考慮するカメラ姿勢に関連した前提条件について説明する。
カメラ機能を有する端末装置(以下、単に「カメラ」とも表記)は一般的に使用者(撮影者、ユーザ)によって3次元的に回転させることができる。要するに、使用者は3次元においてカメラを上下左右方向に向けることもできるし、斜め方向に傾けることもできる。図2は、上記したカメラの3次元的回転を模式的に示す図である。図2の101はカメラの視点位置を示す。図2の102はカメラの撮像面を示す。撮像面102の中心が画像中心103である。カメラの視点位置101を通り、地面に対して水平方向に伸びる座標軸がX軸104である。また、カメラの視点位置101を通り、地面に対して垂直方向に伸びる座標軸がY軸105である。さらに、X軸104とY軸105に直交するZ軸107を設けると、Z軸107もまた地面に対して水平方向に伸びる座標軸である。すなわち、X軸104とZ軸107により張られるX−Z平面は地面に対して水平であり、Y軸105とZ軸107により張られるY−Z平面は地面に対して垂直である。
ここで、カメラの視点位置101から撮像面102の法線方向(換言すると、カメラの視点位置101と画像中心103とを結ぶ線分を伸ばした方向)に伸びる軸がカメラの向きを示す光軸106である。このとき、光軸106は常にY−Z平面内にあるものとする。カメラ姿勢とは撮像面102の3次元的な姿勢のことであり、カメラの視点位置101を中心としたY軸105、X軸104、光軸106の順に行われる各軸周りの回転の角度値で表すことができる。
Y軸周りの回転角は、カメラの水平面内の向きを変えるパン回転(PAN回転)に関連するため「パン回転角」と称される。PAN回転によりX軸104とZ軸107、換言すればX−Z平面が水平回転するものとする。X−Z平面の回転に伴い、光軸106を含むY−Z平面も水平回転する。すなわち、PAN回転によって光軸106(換言すれば撮像面102)の水平向きが変化する。
一方、X軸周りの回転角は、カメラの垂直面内の向きを変えるチルト回転(TILT回転)に関連するため「チルト回転角」とも称される。TILT回転によりY−Z平面内で光軸106が回転する。すなわち、TILT回転によって光軸106(換言すれば撮像面102)の垂直向きが変化する。このとき、Y−Z平面内にある光軸106とZ軸107の成す角を仰角と定義し、光軸106がZ軸107と一致するとき仰角値は0、光軸106がZ軸107より上に向けば仰角値は正、下に向けば仰角値は負であるとする。
さらに、光軸106周りの回転角は、画像中心103を中心に撮像面102像を回転させるスウィング回転(SWING回転)に関連するため「スウィング回転角」と称される。すなわち、カメラ姿勢(撮像面102の姿勢)は、パン回転角、チルト回転角、及びスウィング回転角によって表される。そして、このうちのチルト回転角が仰角である。
本実施形態では、上記したカメラ姿勢に関連した(使用者の撮影行為に関連した)2つの前提条件が存在するものと仮定する。
(前提条件1) 使用者は撮影対象に向けてカメラを構えるので、カメラが斜め上方向や斜め下方向、又は正面方向を向いている(換言すると、チルト回転角(仰角)が、例えば、−80°〜+80°である)場合、カメラは看板や標識等、地面に対して略垂直な文字面を撮影しているものと仮定する。同様に、カメラが真上方向や真下方向を向いている(換言すると、チルト回転角(仰角)が、例えば、+80°〜+90°、−90°〜−80°である)場合、カメラは天井や机上に置かれた紙面等、地面に対して略水平な文字面を撮影しているものと仮定する。
(前提条件2) 使用者はチルト回転とパン回転だけを制御して(換言すると、チルト回転角とパン回転角だけを変えて)カメラを構えるものと仮定する。つまり、使用者はスウィング回転、例えば、カメラを撮影対象にあわせて斜め方向に傾ける行為をほぼ行わないものと仮定する。
本実施形態に係る情報処理装置10は、上記した2つの前提条件を考慮した上で文字検出処理を実行する。
図3は、一実施形態に係る情報処理装置の構成例を示す図である。図3に示すように、情報処理装置10は、画像入力部11、仰角取得部12、文字変形仮説特定部13、文字検出辞書記憶部14、文字検出辞書選択部15、文字検出部16、アプリケーション部17及び出力部18を備えている。以下、図3の他に、図4〜図9を参照しながら、各部11〜18について詳しく説明する。
画像入力部11は、カメラによって撮影された画像の入力を受け付けると、当該入力を受け付けた画像(入力画像)を文字検出部16に出力する機能を有している。仰角取得部12は、画像入力部11に入力された入力画像を撮影した際のカメラの仰角値を取得し、当該取得した仰角値を文字変形仮説特定部13に出力する機能を有している。
ここで、図4及び図5を参照しながら、カメラにおいて、上記した仰角値を算出する方法について詳しく説明する。
図4は、カメラ機能を有した端末装置固有の座標系と、これに基づく当該端末装置の姿勢を表す回転角とを定義した図である。図4の端末装置201には、図中左の上面図に示すように端末右方向を正とするピッチ軸xと、これに直交した端末上方向を正とするロール軸yとが予め定義されているものとする。また、図中右の側面図に示すように端末奥行方向を正とするヨー軸zが予め定義されているものとする。このとき、ヨー軸zはピッチ軸xとロール軸yとに直交しており、ピッチ軸x、ロール軸y及びヨー軸zでxyzの3次元座標が端末装置201について固有に定義されていることになる。
このように座標系xyzを定義したとき、端末装置201の姿勢は各軸周りの回転角で表すことができる。ピッチ軸x周りの回転角は「ピッチ角」と称され、「θ(シータ)」で表される。また、ロール軸y周りの回転角は「ロール角」と称され、「φ(ファイ)」で表される。さらに、ヨー軸z周りの回転角は「ヨー角」と称され、「ψ(プサイ)」で表される。すなわち、このピッチ角θ、ロール角φ、ヨー角ψによって端末装置201の姿勢を一意に表すことができる。
なお、端末装置201はヨー軸z正方向の面に撮影部202を備えており、その光軸203はヨー軸zと略平行になるように調整されているものとする。つまり、ヨー軸zの水平面からの上下角度を算出すれば、光軸203の仰角を近似的に算出することができる。
また、端末装置201は上記した撮影部202に加えて、3軸の加速度センサ204も備えている。この加速度センサ204はピッチ軸x、ロール軸y、ヨー軸zそれぞれの方向の加速度値A(x)、A(y)、A(z)を出力する。
上記した端末装置201を使用者が構え、撮影部202を撮影対象に向けて静止させて撮影を行った場合、加速度センサ204に作用する加速度は重力のみとなる。すなわち、この状態で観測される加速度センサの出力値A(x)、A(y)、A(z)はそれぞれ重力加速度Gをベクトル分解したx軸成分、y軸成分、z軸成分とみなすことができる。
図5は、端末装置201の側面図である。図中の仰角βはヨー軸zが水平のとき0となり、上向きのとき正値となり、下向きのとき負値となるものである。また、重力加速度Gのz軸成分を表す加速度値A(z)は、ヨー軸zが水平のとき0となり、上向きのとき負値となり、下向きのとき正値となるものである。つまり、端末装置201が静止している状態であれば、以下の(1)式に基づいて、重力加速度Gの大きさと加速度値A(z)とから仰角βを算出することができる。
Figure 2016045877
以上のようにして算出された仰角(仰角値)を、仰角取得部12は取得し、文字変形仮説特定部13に出力する。
再び図3の説明に戻ると、文字変形仮説特定部13は、仰角取得部12から出力された仰角値が後述するいずれの仰角ゾーンに含まれているかを特定する。仰角ゾーンが特定されることで、文字変形仮説特定部13は、上記した前提条件1,2を考慮することにより画像撮影時に撮影対象がどの方向にあったかを特定することができる。また、文字変形仮説特定部13は、撮影対象がどの方向にあったかを特定することで、撮影対象の文字面に記載された文字の見かけ形状がどのように変形しているかを予測することができる。本実施形態では、上記予測の結果を「文字変形仮説」と称する。文字変形仮説特定部13は、文字の見かけ形状がどのように変形しているかを予測すると、すなわち、文字変形仮説を導き出すと、当該導き出された文字変形仮説を文字検出辞書選択部15に出力する。
ここで、図6を参照しながら、上記した仰角ゾーンについて詳しく説明する。
図6は、仰角ゾーンと文字変形仮説との関係を示す図である。仰角ゾーンは、撮影対象の文字面がカメラから見てどの方向にあるかを特定し、撮影対象の文字面が地面に対して略水平な文字面であるか又は略垂直な文字面であるかを特定するためのものである。図6では、5つの仰角ゾーンA〜Eが定義されている場合を示している。
例えば、仰角ゾーンAは、仰角値βが「+80°<β≦+90°」である場合に対応したゾーンである。つまり、仰角取得部12から出力された仰角値βが仰角ゾーンAに含まれる場合、文字変形仮説特定部13は、撮影対象の文字面がカメラの真上方向にあり、この文字面が地面に対して略水平な文字面301であることを特定することができる。同様に、仰角ゾーンBは、仰角値βが「+30°<β≦+80°」である場合に対応したゾーンである。つまり、仰角取得部12から出力された仰角値βが仰角ゾーンBに含まれる場合、文字変形仮説特定部13は、撮影対象の文字面がカメラの斜め上方向にあり、この文字面が地面に対して略垂直な文字面302であることを特定することができる。さらに、仰角ゾーンCは、仰角値βが「−30°<β≦+30°」である場合に対応したゾーンである。つまり、仰角取得部12から出力された仰角値βが仰角ゾーンCに含まれる場合、文字変形仮説特定部13は、撮影対象の文字面がカメラの正面方向にあり、この文字面が地面に対して略垂直な文字面303であることを特定することができる。また、仰角ゾーンDは、仰角値βが「−80°<β≦−30°」である場合に対応したゾーンである。つまり、仰角取得部12から出力された仰角値βが仰角ゾーンDに含まれる場合、文字変形仮説特定部13は、撮影対象の文字面がカメラの斜め下方向にあり、この文字面が地面に対して略垂直な文字面304であることを特定することができる。さらに、仰角ゾーンEは、仰角値βが「−90°<β≦−80°」である場合に対応したゾーンである。つまり、仰角取得部12から出力された仰角値βが仰角ゾーンEに含まれる場合、文字変形仮説特定部13は、撮影対象の文字面がカメラの真下方向にあり、この文字面が地面に対して略水平な文字面305であることを特定することができる。
各仰角ゾーンA〜Eには、図6に示すように、文字変形仮説401〜405がそれぞれ対応付けられている。すなわち、文字変形仮説特定部13は、仰角値がいずれの仰角ゾーンに含まれているかを特定すると、撮影対象の文字面に記載された文字の見かけ形状がどのように変形しているか(文字変形仮説)を特定することができる。
例えば、仰角値βが仰角ゾーンA又は仰角ゾーンEに含まれる場合、撮影者(使用者)は撮影対象の文字面301,305をほぼ正面から見ることができるので、文字変形仮説特定部13は、文字の見かけ形状が図6の文字変形仮説401,405により示される形状になっていると特定することができる。なお、本実施形態では、撮影対象の文字面には「TEXT」という文字が記載されているものとする。
また、仰角値βが仰角ゾーンBに含まれる場合、撮影者は撮影対象の文字面を斜め下方向からとその左右に視点を動かした状態とで見ることができるので、文字変形仮説特定部13は、文字の見かけ形状が図6の文字変形仮説402により示される形状になっていると(変形していると)特定することができる。さらに、仰角値βが仰角ゾーンCに含まれる場合、撮影者は撮影対象の文字面を正面からとその左右に視点を動かした状態とで見ることができるので、文字変形仮説特定部13は、文字の見かけ形状が図6の文字変形仮説403により示される形状になっていると特定することができる。また、仰角値βが仰角ゾーンDに含まれる場合、撮影者は撮影対象の文字面を斜め上方向からとその左右に視点を動かした状態とで見ることができるので、文字変形仮説特定部13は、文字の見かけ形状が図6の文字変形仮説404により示される形状になっていると特定することができる。
再び図3の説明に戻ると、文字検出辞書記憶部14は、文字検出部16によって使用される複数の辞書(文字検出辞書)を、文字変形仮説に対応付けて記憶する記憶装置である。具体的には、文字検出辞書記憶部14には、図7に示すように、文字変形仮説の種類の数だけ辞書が記憶されている。図7では、文字変形仮説401,405が同一の見かけ形状を示しているので、4つの辞書501〜504が文字検出辞書記憶部14に記憶されている場合を示す。辞書は、文字検出処理時に使用される部分画像が文字/非文字のどちらであるかを評価するために利用される。
文字検出辞書選択部15は、文字変形仮説特定部13によって特定された文字変形仮説に対応する辞書を文字検出辞書記憶部14から選択する(取得する)機能を有している。選択された辞書は文字検出部16に出力される。
文字検出部16は、画像入力部11から出力された入力画像に対して縮小処理を実行して所謂解像度ピラミッドを生成し、該解像度ピラミッド上で文字を探索・検出する。
ここで、図8を参照しながら、上記した縮小処理について詳しく説明する。
図8は、文字検出部16によって実行される縮小処理を説明するための図である。文字検出部16は、図8に示すように、入力画像601を一定比率r(但し、0<r<1)で順次縮小して、1以上のリサイズ画像602、603を生成する。生成されるリサイズ画像の数、換言すると、上記した縮小処理が実行される回数は、仕様上の検出すべき文字の最小サイズと最大サイズに依存する。最も解像度の高い入力画像601上で検出すべき文字の大きさに合わせて図8に示す検出窓605の大きさが決定される。すなわち、この検出窓605の大きさが仕様上の検出すべき文字の最小サイズとなる。一定比率rを乗じて縮小されるリサイズ画像602、603の上では、同じ大きさの検出窓605が覆う入力画像601上の範囲は広くなり、これに応じて検出される文字の大きさも大きくなっていく。この文字の大きさが仕様上の検出すべき文字の最大サイズを超えるまで、文字検出部16はリサイズ画像を生成する。このようにして文字検出部16は、1以上のリサイズ画像を生成すると、図8に示すように、入力画像601とリサイズ画像602,603とをあわせて解像度ピラミッド画像604を生成する。
文字検出部16は、解像度ピラミッド画像を生成すると、生成された解像度ピラミッド画像に含まれる各画像上で所定サイズの検出窓605を走査しつつ、各位置での検出窓605内の画像を切り取って、複数の部分画像を生成する。また、文字検出部16は、生成された複数の部分画像と、文字検出辞書選択部15によって選択された辞書とに基づいて、文字検出処理を実行する。具体的には、文字検出部16は、上記した各部分画像と、上記選択された辞書とを照合して、文字らしさを表すスコアをそれぞれ計算し、これら各スコアが所定の閾値を超えているかどうかをそれぞれ判定する。これにより、各部分画像が文字を含む画像であるかどうかを判定(評価)することができる。上記判定の結果に応じて、文字検出部16は、文字を含む画像であると判定された部分画像には文字であることを示す第1のコードを付与し、文字を含まない画像(換言すると、非文字を含む画像)であると判定された部分画像には非文字であることを示す第2のコードを付与する。これにより、文字検出部16は、第1のコードが付与された部分画像が存在する領域(換言すると、第1のコードが付与された部分画像を切り取った検出窓が位置する領域)を文字が存在する領域として検出することができる。入力画像上で文字が存在する領域を示す検出結果情報はアプリケーション部17に出力される。検出結果情報とは、例えば図9(a)及び図9(b)に示すように、入力画像上で文字が存在する領域を矩形の枠で示した情報である。
なお、上記検出窓内の部分画像に対して文字らしさを評価するスコア計算方法としては、部分空間法やサポートベクトルマシン等、公知のパターン識別方法を利用して実現することができるため、本実施形態ではその詳しい説明は省略する。そして、上記検出結果情報には、各検出窓に対して上記スコアが付与されているものとする。
アプリケーション部17は、文字検出部16から出力された検出結果情報を用いて予めインストールされたアプリケーション固有の処理を実行する。例えば、文字認識処理を実行可能なアプリケーション(例、OCR機能を有したアプリケーション等)が予めインストールされている場合、アプリケーション部17は、検出結果情報により示される文字が存在する領域を利用して文字列の画像パターンを抽出し、抽出された文字列の画像パターンに対して文字認識処理を実行して、当該領域内の文字に対応した文字コード列を取得する。
文字が存在するとされる大きさの異なる多数の検出窓の情報から文字列の画像パターンを抽出する方法として、例えば、非特許文献「A Hybrid Approach to Detect and Localize Texts in Natural Scene Images」に開示される方法がある。この方法では、「Text Region Detector」から得られる検出窓の位置とスコアに基づいて「text confidence map」と「text scale map」を生成し、後者で「Niblackの3値化」の閾値を決定し、画像を連結成分に分解する。また、前者と他の特徴を用いて文字を構成する連結成分を選別し、その隣接関係を解析して文字列とそれを構成する画像パターンを得る。本発明においては、当該文献に記載される「Text Region Detector」の出力として検出窓とスコアの組から成る前記検出結果情報を利用することができる。
あるいは、予め画像を適応的に2値化・ラベリングして連結成分を得ておき、より単純に上記検出結果情報の文字が存在する領域をマスクとして、このマスク内に包含される連結成分のみを抽出し、同様にその隣接関係を解析して文字列とそれを構成する画像パターンを得ることもできる。
なお、画像中の文字をOCRで認識した場合、アプリケーション部17は、取得した文字コード列に関連する情報を検索することもできる。具体的には、商品名からその値段やスペック等の情報を検索したり、地名や名所の名前などからそこまでの地図情報を得たり、ある言語を他の言語に翻訳したりすることができる。アプリケーション部17によって実行された処理の結果を示す処理結果情報は出力部18に出力される。
出力部18は、アプリケーション部17から出力された処理結果情報を情報処理装置10の図示しないディスプレイ等を介してユーザに提示する機能を有している。なお、上記したアプリケーション部17及び出力部18は、上記した文字検出処理の結果を利用するために設けられる機能部であり、情報処理装置10とは異なる装置の機能部として設けられてもよい。
次に、図10のフローチャートを参照して、情報処理装置10の動作の一例について簡単に説明する。
始めに、画像入力部11は、カメラによって撮影された画像の入力を受け付けると、当該入力を受け付けた画像を文字検出部16に出力する(ステップS1)。続いて、仰角取得部12は、画像入力部11に入力された画像が撮影された際のカメラの仰角値を取得し、当該取得した仰角値を文字変形仮説特定部13に出力する(ステップS2)。
次に、文字変形仮説特定部13は、仰角取得部12によって取得された仰角値がいずれの仰角ゾーンに含まれているかを特定すると共に、当該特定された仰角ゾーンに対応する文字変形仮説を特定する(ステップS3)。
続いて、文字検出辞書選択部15は、文字変形仮説特定部13によって特定された文字変形仮説に対応する辞書を文字検出辞書記憶部14から選択する(ステップS4)。そして、文字検出部16は、画像入力部11から出力された画像と、文字検出辞書選択部15によって選択された辞書とを使用して文字検出処理を実行する(ステップS5)。
次に、アプリケーション部17は、文字検出部16によって実行された文字検出処理の結果を使用して、各種アプリケーション固有の処理を実行する(ステップS6)。しかる後、出力部18は、アプリケーション部17によって実行された処理の結果をユーザに対して提示し(ステップS7)、情報処理装置10での処理を終了させる。
次に、図11を参照して、情報処理システムの構成例を説明する。
図11は、上記した情報処理装置10が有する各種機能を、クライアント装置とサーバ装置とに分けて実装した情報処理システムの構成例を示す図である。図11の情報処理システム20は、クライアント装置30及びサーバ装置40を備えている。クライアント装置30は、図11に示すように、上記した画像入力部11、仰角取得部12及び出力部18の他に通信部31を備えている。サーバ装置40は、図11に示すように、上記した文字変形仮説特定部13、文字検出辞書記憶部14、文字検出辞書選択部15、文字検出部16及びアプリケーション部17の他に通信部41を備えている。
クライアント装置30は、通信部31を介して、画像入力部11に入力された入力画像と、仰角取得部12によって取得された仰角値とをサーバ装置40に出力する処理を実行する。また、クライアント装置30は、通信部31を介して、サーバ装置40内のアプリケーション部17によって実行される各種アプリケーション固有の処理の結果を受けると、当該結果を出力部18を介してユーザに提示する処理を実行する。
サーバ装置40は、通信部41を介して、クライアント装置30から出力された入力画像と仰角値との入力を受け付けると、当該入力画像と当該仰角値とを用いて文字検出処理を実行する。また、サーバ装置40は、上記した文字検出処理の結果として得られた情報を用いて、各種アプリケーション固有の処理を実行し、当該処理の結果として得られた情報を通信部41を介してクライアント装置30に出力する処理を実行する。
次に、図12を参照して、情報処理装置10のハードウェア構成例を説明する。
図12は、情報処理装置のハードウェア構成を示す図である。図12の情報処理装置10は、CPU51、RAM52、ROM53、HDD54、LAN55、入力デバイス56、ディスプレイ57、外部インタフェース58、外部ストレージデバイス59、カメラ60及び姿勢センサ61を備えている。
CPU51は、情報処理装置10内のコンポーネントを制御するプロセッサである。CPU51は、HDD54からRAM52にロードされる文字検出プログラムを実行する。CPU51はこの文字検出プログラムを実行することにより、上記した文字検出処理を実行するように構成された処理部として機能することができる。なお、CPU51は、外部ストレージデバイス59(例えば、USBデバイス等)からRAM52に文字検出プログラムをロードし、これを実行することも可能である。外部ストレージデバイス59からは文字検出プログラムだけでなく、文字検出処理実行時に使用される画像や、仰角値を示す情報もロードすることができる。
入力デバイス56はキーボード、マウス、タッチパネル、他の各種入力デバイスである。ディスプレイ57は、情報処理装置10によって実行される各種処理の結果を表示可能なデバイスである。カメラ60は文字検出処理の対象となり得る画像を撮影可能なデバイスである。姿勢センサ61はカメラ60の仰角値を取得可能なデバイスである。
以上説明した一実施形態では、上記したカメラ姿勢に関連した2つの前提条件1,2が存在するものと仮定したが、前提条件2は以下に示す前提条件2’に置き換えられてもよい。
(前提条件2’) 使用者はチルト回転とパン回転だけでなく、画像内でできるだけ文字が回転しないようにスウィング回転も制御してカメラを構えるものと仮定する。つまり、撮影された画像内の文字はほぼ水平となる。
前提条件2を前提条件2’に置き換えたとしても、文字変形仮説の一部を、文字列が水平な文字の見かけ形状を示す文字変形仮説に置き換える必要はあるが、情報処理装置10は、上記した文字検出処理と同様な文字検出処理を実行することができる。
また、本実施形態では、情報処理装置10は仰角値だけを用いて文字検出処理を実行するとしたが、情報処理装置10はスウィング回転角の値をさらに用いて文字検出処理を実行するとしてもよい。このようにすることで、スウィング回転角の絶対値が大きい程、画像内の文字列が傾いている(水平でない)ことを判別できるので、文字変形仮説をより細やかに特定することができ、ひいては、文字検出処理に使用する辞書の数を減らすことができるので、文字検出処理に要する時間を短縮することができる。
以下に、図13を参照しながら、カメラにおいて、上記したスウィング回転角の値を算出する方法について補足的に説明する。以下の説明では、図4及び図5と共通する部分には同一の符号を付し、その詳しい説明を省略するものとする。
一般的に、各回転角θ、φ、ψの原点と向きは任意に定義可能である。ここでは、ピッチ角θとロール角φについては端末装置201を水平に置いたとき、すなわち、ヨー軸zが鉛直下向きになったときをそれぞれ0(原点)とし、端末装置201上辺を持ち上げる方向(ピッチ軸x方向に見て右回り)をピッチ角θの正方向、端末装置201右辺を持ち上げる方向(ロール軸y方向を見て左回り)をロール角φの正方向と仮定する。また、ヨー角ψについては、仰角が0、すなわち、ヨー軸zが水平であり、かつピッチ軸xが水平(換言すると、ロール軸yが垂直)であるときを0(原点)とし、ヨー軸z方向を見て左回りをヨー角ψの正方向と仮定する。
また、撮影部202の撮像面の横軸と縦軸は共にピッチ軸xとロール軸yに略平行になっているものと仮定する。つまり、ヨー角ψを算出することで、スウィング回転角を近似的に算出することができる。
ヨー軸z周りの回転は、端末装置201のxy平面内の回転である。すなわち、図13に示すように、加速度値A(x)、A(y)から端末装置201のヨー角ψ、要するに、撮像面のスウィング回転角を近似的に算出することができる。なお、重力加速度Gを観測したx軸成分A(x)とy軸成分A(y)はヨー軸zが重力加速度Gと平行にならない限り共に0になることはない。したがって、以下の(2)式で計算されるA(x)とA(y)の合成ベクトルの長さGxyも0にはならない。
Figure 2016045877
このとき、ヨー角ψは以下に示す(3)式で計算することができる。なお、Gxyが0になるときはヨー角ψを便宜上0とする。
Figure 2016045877
以上説明した一実施形態によれば、カメラの仰角値から予め定義された文字変形仮説を特定し、当該特定された文字変形仮説に対応した辞書を使用して文字検出処理を実行する構成を備えているので、上記した枠の制約、辞書の照合精度の低下、照合時間の超過といった問題を解決して、画像内の文字を安定(効率的)かつ頑健(高精度)に検出することができる。
以下、変形例について説明する。
(変形例1)
上記した実施形態では、文字変形仮説として、仰角ゾーンA〜Eにそれぞれ対応した5つの文字変形仮説401〜405が定義されている場合について説明したが、定義される文字変形仮説の数は各仰角ゾーンに1つでなくてもよい。図6に示したように文字の見かけ形状は、真上方向、真下方向、真正面方向からみた文字の見かけ形状が同一であるので、9類型に分類することができる。このため、この9類型の文字の見かけ形状のそれぞれが文字変形仮説として定義されてもよい。
この場合、図14に示すように、仰角ゾーンAには1つの文字変形仮説415が対応付けられ、仰角ゾーンBには3つの文字変形仮説411〜413が対応付けられ、仰角ゾーンCには3つの文字変形仮説414〜416が対応付けられ、仰角ゾーンDには3つの文字変形仮説417〜419が対応付けられ、仰角ゾーンEには1つの文字変形仮説415が対応付けられていることになる。また、文字検出辞書記憶部14には、文字変形仮説の種類の数だけ場合分けされた辞書が記憶されているため、図14に示すように、文字変形仮説411〜419にそれぞれ対応した辞書511〜519が記憶されることになる。
(変形例2)
上記した実施形態では、仰角取得部12によって取得される仰角値に対応する仰角ゾーンとして、5つの仰角ゾーンA〜Eが定義されている場合について説明したが、定義される仰角ゾーンの数は5つでなくてもよい。例えば、各仰角ゾーンA〜Eの境界部に4つの新たな仰角ゾーンが定義されてもよい。
具体的には、図15に示すように、仰角ゾーンAと仰角ゾーンBとの間に新たな仰角ゾーンABが定義され、仰角ゾーンBと仰角ゾーンCとの間に新たな仰角ゾーンBCが定義され、仰角ゾーンCと仰角ゾーンDとの間に新たな仰角ゾーンCDが定義され、仰角ゾーンDと仰角ゾーンEとの間に新たな仰角ゾーンDEが定義されてもよい。図15に示すように9つの仰角ゾーンが定義される場合、各仰角ゾーンと仰角値との対応関係は例えば次のようになる。仰角ゾーンAは、仰角値βが「+85°<β≦+90°」に対応したゾーンとなる。仰角ゾーンABは、仰角値βが「+60°<β≦+85°」に対応したゾーンとなる。仰角ゾーンBは、仰角値βが「+40°<β≦+60°」に対応したゾーンとなる。仰角ゾーンBCは、仰角値βが「+10°<β≦+40°」に対応したゾーンとなる。仰角ゾーンCは、仰角値βが「−10°<β≦+10°」に対応したゾーンとなる。仰角ゾーンCDは、仰角値βが「−40°<β≦−10°」に対応したゾーンとなる。仰角ゾーンDは、仰角値βが「−60°<β≦−40°」に対応したゾーンとなる。仰角ゾーンDEは、仰角値βが「−85°<β≦−60°」に対応したゾーンとなる。仰角ゾーンEは、仰角値βが「−90°<β≦−85°」に対応したゾーンとなる。
なお、仰角取得部12によって取得される仰角値が新たに定義された境界部の仰角ゾーンに含まれる場合、文字変形仮説特定部13では、複数の文字変形仮説を特定する。例えば、上記したように9つの仰角ゾーンが定義され、かつ上記した変形例1に示したように9つの文字変形仮説が定義されている場合を想定する。この想定の下、仰角値が仰角ゾーンABに含まれる場合、文字変形仮説特定部13は、仰角ゾーンA,Bにそれぞれ対応した文字変形仮説411〜413,415を文字変形仮説として特定する。同様に、仰角値が仰角ゾーンBCに含まれる場合、文字変形仮説特定部13は、仰角ゾーンB,Cにそれぞれ対応した文字変形仮説411〜416を文字変形仮説として特定する。また、仰角値が仰角ゾーンCDに含まれる場合、文字変形仮説特定部13は、仰角ゾーンC,Dにそれぞれ対応した文字変形仮説414〜419を文字変形仮説として特定する。さらに、仰角値が仰角ゾーンDEに含まれる場合、文字変形仮説特定部13は、仰角ゾーンD,Eにそれぞれ対応した文字変形仮説415,417〜419を文字変形仮説として特定する。
これにより、文字検出辞書選択部15は、仰角値が仰角ゾーンABに含まれる場合、図16に示すように、仰角ゾーンA,Bにそれぞれ対応した文字変形仮説411〜413,415に対応付けられた辞書511〜513,515を選択することができる。同様に、仰角値が仰角ゾーンBCに含まれる場合、文字検出辞書選択部15は、仰角ゾーンB,Cにそれぞれ対応した文字変形仮説411〜416に対応付けられた辞書511〜516を選択することができる。また、仰角値が仰角ゾーンCDに含まれる場合、文字検出辞書選択部15は、仰角ゾーンC,Dにそれぞれ対応した文字変形仮説414〜419に対応付けられた辞書514〜519を選択することができる。さらに、仰角値が仰角ゾーンDEに含まれる場合、文字検出辞書選択部15は、仰角ゾーンD,Eにそれぞれ対応した文字変形仮説415,417〜419に対応付けられた辞書515,517〜519を選択することができる。
このようにすることで、情報処理装置10は文字変形仮説をより緻密に想定することができるので、文字検出精度を向上させることができる。
なお、本実施形態の処理は、コンピュータプログラムによって実現することができるので、このコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのコンピュータプログラムをコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。
なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10…情報処理装置、11…画像入力部、12…仰角取得部、13…文字変形仮説特定部、14…文字検出辞書記憶部、15…文字検出辞書選択部、16…文字検出部、17…アプリケーション部、18…出力部。

Claims (6)

  1. 文字が記載された文字面を撮影することで得られた画像の入力を受け付ける画像入力手段と、
    前記入力された画像を撮影した撮影装置に関し、当該画像を撮影した時の当該撮影装置の仰角値を取得する仰角取得手段と、
    前記取得された仰角値に基づいて、前記入力された画像内の文字の見かけ形状がどのように変形しているかを特定する文字変形特定手段と、
    多種多様に変形した文字の見かけ形状に対応付けられた複数の文字検出辞書を記憶する文字検出辞書記憶手段と、
    前記文字変形特定手段により前記入力された画像内の文字の見かけ形状がどのように変形しているかが特定されると、当該特定された文字の見かけ形状に対応付けられた文字検出辞書を前記文字検出辞書記憶手段から選択する文字検出辞書選択手段と、
    前記選択された文字検出辞書を使用して前記入力された画像に対して文字検出処理を実行し、当該画像において文字が存在する領域を検出する文字検出手段と
    を具備することを特徴とする情報処理装置。
  2. 前記文字変形特定手段は、
    前記取得された仰角値が予め定義された複数の仰角ゾーンのいずれに含まれるかを特定することで、前記入力された画像内の文字の見かけ形状がどのように変形しているかを特定することを特徴とする請求項1に記載の情報処理装置。
  3. 前記各仰角ゾーンは、
    前記撮影装置の真上方向に位置する文字面に対応した第1の仰角ゾーン、前記撮影装置の斜め上方向に位置する文字面に対応した第2の仰角ゾーン、前記撮影装置の正面方向に位置する文字面に対応した第3の仰角ゾーン、前記撮影装置の斜め下方向に位置する文字面に対応した第4の仰角ゾーン、及び前記撮影装置の真下方向に位置する文字面に対応した第5の仰角ゾーンのいずれかであることを特徴とする請求項2に記載の情報処理装置。
  4. クライアント装置及びサーバ装置を備える情報処理システムであって、
    前記サーバ装置は、
    文字が記載された文字面を撮影することで得られた画像の入力を受け付ける画像入力手段と、
    前記入力された画像を撮影したクライアント装置に関し、当該画像を撮影した時の当該クライアント装置の仰角値を取得する仰角取得手段と、
    前記取得された仰角値に基づいて、前記入力された画像内の文字の見かけ形状がどのように変形しているかを特定する文字変形特定手段と、
    多種多様に変形した文字の見かけ形状に対応付けられた複数の文字検出辞書を記憶する文字検出辞書記憶手段と、
    前記文字変形特定手段により前記入力された画像内の文字の見かけ形状がどのように変形しているかが特定されると、当該特定された文字の見かけ形状に対応付けられた文字検出辞書を前記文字検出辞書記憶手段から選択する文字検出辞書選択手段と、
    前記選択された文字検出辞書を使用して前記入力された画像に対して文字検出処理を実行し、当該画像において文字が存在する領域を検出する文字検出手段と
    を具備することを特徴とする情報処理システム。
  5. 多種多様に変形した文字の見かけ形状に対応付けられた複数の文字検出辞書を記憶する文字検出辞書記憶部を備える情報処理装置によって実行される情報処理方法であって、
    文字が記載された文字面を撮影することで得られた画像の入力を受け付ける画像入力ステップと、
    前記入力された画像を撮影した撮影装置に関し、当該画像を撮影した時の当該撮影装置の仰角値を取得する仰角取得ステップと、
    前記取得された仰角値に基づいて、前記入力された画像内の文字の見かけ形状がどのように変形しているかを特定する文字変形特定ステップと、
    前記文字変形特定ステップにより前記入力された画像内の文字の見かけ形状がどのように変形しているかが特定されると、当該特定された文字の見かけ形状に対応付けられた文字検出辞書を前記文字検出辞書記憶部から選択する文字検出辞書選択ステップと、
    前記選択された文字検出辞書を使用して前記入力された画像に対して文字検出処理を実行し、当該画像において文字が存在する領域を検出する文字検出ステップと
    を具備することを特徴とする情報処理方法。
  6. コンピュータにより実行されるプログラムであって、前記プログラムは前記コンピュータを、
    文字が記載された文字面を撮影することで得られた画像の入力を受け付ける画像入力手段と、
    前記入力された画像を撮影した撮影装置に関し、当該画像を撮影した時の当該撮影装置の仰角値を取得する仰角取得手段と、
    前記取得された仰角値に基づいて、前記入力された画像内の文字の見かけ形状がどのように変形しているかを特定する文字変形特定手段と、
    前記文字変形特定手段により前記入力された画像内の文字の見かけ形状がどのように変形しているかが特定されると、当該特定された文字の見かけ形状に対応付けられた文字検出辞書を、多種多様に変形した文字の見かけ形状に対応付けられた複数の文字検出辞書を記憶する文字検出辞書記憶部から選択する文字検出辞書選択手段と、
    前記選択された文字検出辞書を使用して前記入力された画像に対して文字検出処理を実行し、当該画像において文字が存在する領域を検出する文字検出手段として動作させるプログラム。
JP2014171848A 2014-08-26 2014-08-26 情報処理装置、情報処理システム、情報処理方法及びそのプログラム Active JP6208094B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014171848A JP6208094B2 (ja) 2014-08-26 2014-08-26 情報処理装置、情報処理システム、情報処理方法及びそのプログラム
US14/834,792 US9679217B2 (en) 2014-08-26 2015-08-25 Information processing apparatus, information processing system, information processing method and storage medium
CN201510531717.3A CN105389578B (zh) 2014-08-26 2015-08-26 信息处理装置、信息处理系统以及信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014171848A JP6208094B2 (ja) 2014-08-26 2014-08-26 情報処理装置、情報処理システム、情報処理方法及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2016045877A true JP2016045877A (ja) 2016-04-04
JP6208094B2 JP6208094B2 (ja) 2017-10-04

Family

ID=55402864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014171848A Active JP6208094B2 (ja) 2014-08-26 2014-08-26 情報処理装置、情報処理システム、情報処理方法及びそのプログラム

Country Status (3)

Country Link
US (1) US9679217B2 (ja)
JP (1) JP6208094B2 (ja)
CN (1) CN105389578B (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9679217B2 (en) 2014-08-26 2017-06-13 Kabushiki Kaisha Toshiba Information processing apparatus, information processing system, information processing method and storage medium
US9819860B2 (en) 2015-03-09 2017-11-14 Kabushiki Kaisha Toshiba Data processor, data processing method and storage medium
EP3358502A1 (en) 2017-02-03 2018-08-08 Kabushiki Kaisha Toshiba Image processing device, image processing method and computer-readable medium
EP3379451A1 (en) 2017-03-22 2018-09-26 Kabushiki Kaisha Toshiba Information processing device
US10121086B2 (en) 2015-07-14 2018-11-06 Kabushiki Kaisha Toshiba Information processing apparatus and information processing method
US10528852B2 (en) 2017-03-22 2020-01-07 Kabushiki Kaisha Toshiba Information processing apparatus, method and computer program product

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11567566B2 (en) 2015-04-08 2023-01-31 Controlrad Systems, Inc. Devices and methods for monitoring gaze
US20180349110A1 (en) * 2017-05-31 2018-12-06 Wipro Limited Method and layout identification system for facilitating identification of a layout of a user interface
CN110555433B (zh) * 2018-05-30 2024-04-26 北京三星通信技术研究有限公司 图像处理方法、装置、电子设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03250280A (ja) * 1990-02-28 1991-11-08 Hitachi Ltd 文字認識方法及び装置並びに情報処理装置
JP2003242445A (ja) * 2002-02-19 2003-08-29 Fujitsu Ltd ナンバープレート読取装置

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2789873B2 (ja) 1991-08-23 1998-08-27 日本電気株式会社 光学文字読取装置
JPH0644405A (ja) 1991-09-20 1994-02-18 Fujitsu Ltd Ocr読み取り位置補正制御装置
JP3576570B2 (ja) * 1991-11-19 2004-10-13 ゼロックス コーポレイション 比較方法
CA2077970C (en) * 1991-11-19 1999-02-23 Daniel P. Huttenlocher Optical word recognition by examination of word shape
JP3031579B2 (ja) 1991-12-05 2000-04-10 株式会社日立製作所 帳票の文字認識領域指定方法
JP2998383B2 (ja) 1992-01-14 2000-01-11 松下電器産業株式会社 駐車検出装置
JPH05258118A (ja) 1992-03-10 1993-10-08 Sharp Corp 名刺読取装置
JPH05258119A (ja) 1992-03-13 1993-10-08 Sharp Corp 名刺読取装置
US6330358B1 (en) * 1993-01-14 2001-12-11 Atr Auditory And Visual Perception Research Laboratories Apparatus for character segmentation and apparatus for character recognition using the same
JPH06245032A (ja) 1993-02-15 1994-09-02 Fujitsu Ltd 光学認識装置
JPH07152857A (ja) 1993-08-27 1995-06-16 Matsushita Electric Ind Co Ltd 運転免許証認識装置
JPH0785215A (ja) 1993-09-14 1995-03-31 Nippon Digital Kenkyusho:Kk 文字認識装置
JPH0793476A (ja) 1993-09-22 1995-04-07 Toshiba Corp 文字列検出装置
JP3443141B2 (ja) 1993-10-05 2003-09-02 株式会社リコー 画像傾き検出方法及び表処理方法
US5410611A (en) * 1993-12-17 1995-04-25 Xerox Corporation Method for identifying word bounding boxes in text
JPH07182459A (ja) 1993-12-22 1995-07-21 Matsushita Electric Ind Co Ltd 表構造抽出装置
JP3400151B2 (ja) * 1994-12-08 2003-04-28 株式会社東芝 文字列領域抽出装置および方法
JPH08190610A (ja) 1995-01-12 1996-07-23 Oki Electric Ind Co Ltd 光学式文字読取装置
JPH08194776A (ja) 1995-01-17 1996-07-30 Nippon Telegr & Teleph Corp <Ntt> 帳票処理方法及び装置
JPH08315067A (ja) 1995-05-12 1996-11-29 Fujitsu Ltd 文字読取装置
US6188790B1 (en) * 1996-02-29 2001-02-13 Tottori Sanyo Electric Ltd. Method and apparatus for pre-recognition character processing
JP3677666B2 (ja) 1996-07-08 2005-08-03 九州電力株式会社 光学的文字認識装置
JPH11203404A (ja) 1998-01-20 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 景観画像中文字読み取り方法およびその装置およびその方法を記録した記録媒体
JP3574562B2 (ja) 1998-03-19 2004-10-06 日本電信電話株式会社 画像内の一連パターンの認識および変形検出方法及びそのプログラムを記録した記録媒体
JP2000030052A (ja) 1998-07-13 2000-01-28 Oki Electric Ind Co Ltd 画像処理装置
JP2000181988A (ja) 1998-12-16 2000-06-30 Hitachi Ltd 光学文字読取装置
JP2001307017A (ja) 2000-04-20 2001-11-02 Fujitsu Ltd 文字プレート認識装置
JP2001331803A (ja) 2000-05-19 2001-11-30 Akira Kurematsu 画像中の文字領域抽出方法
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
JP2002117373A (ja) 2000-10-11 2002-04-19 Ntt Advanced Technology Corp アドレス自動入力装置及びその方法、並びに通信端末装置
JP3554703B2 (ja) 2000-10-12 2004-08-18 リバーベル株式会社 情報端末装置
JP4145014B2 (ja) 2001-01-11 2008-09-03 株式会社リコー 画像処理装置
JP4164568B2 (ja) 2001-10-01 2008-10-15 独立行政法人産業技術総合研究所 文字情報入力装置および文字情報入力方法並びに記録媒体
US6922487B2 (en) * 2001-11-02 2005-07-26 Xerox Corporation Method and apparatus for capturing text images
JP4383790B2 (ja) 2003-08-06 2009-12-16 日立オムロンターミナルソリューションズ株式会社 携帯情報端末
JP3891981B2 (ja) 2003-11-20 2007-03-14 リバーベル株式会社 情報端末装置
JP2006172083A (ja) 2004-12-15 2006-06-29 Canon Inc 文書登録システム
JP4991154B2 (ja) * 2005-06-03 2012-08-01 株式会社リコー 画像表示装置、画像表示方法及びコマンド入力方法
JP4958497B2 (ja) 2006-08-07 2012-06-20 キヤノン株式会社 位置姿勢測定装置及び位置姿勢測定方法、複合現実感提示システム、コンピュータプログラム及び記憶媒体
JP4774390B2 (ja) 2006-09-13 2011-09-14 株式会社キーエンス 文字切り出し装置、方法およびプログラム
JP2008123245A (ja) 2006-11-13 2008-05-29 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2008234160A (ja) 2007-03-19 2008-10-02 Meiyu Techno Co Ltd 検針メータ読取装置、ハンディーターミナル、および検針システム
JP2008287517A (ja) 2007-05-17 2008-11-27 National Institute Of Information & Communication Technology 強調表示装置及びプログラム
JP2009230411A (ja) 2008-03-21 2009-10-08 Fujitsu Ltd 文字入力システム
JP2009301206A (ja) * 2008-06-11 2009-12-24 Fuji Xerox Co Ltd 情報表示装置及びプログラム
KR20100064533A (ko) 2008-12-05 2010-06-15 삼성전자주식회사 카메라를 이용한 문자 크기 자동 조절 장치 및 방법
JP5229050B2 (ja) 2009-03-30 2013-07-03 富士通株式会社 画像からの文書領域抽出装置、方法、及びプログラム
JP4798296B1 (ja) * 2010-04-15 2011-10-19 パナソニック株式会社 帳票
JP5877335B2 (ja) 2011-04-12 2016-03-08 パナソニックIpマネジメント株式会社 帳票
JP5992206B2 (ja) 2012-05-28 2016-09-14 株式会社東芝 パターン認識用辞書の学習装置、パターン認識装置、コーディング装置、区分装置、および、パターン認識用辞書の学習方法
JP6208094B2 (ja) 2014-08-26 2017-10-04 株式会社東芝 情報処理装置、情報処理システム、情報処理方法及びそのプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03250280A (ja) * 1990-02-28 1991-11-08 Hitachi Ltd 文字認識方法及び装置並びに情報処理装置
JP2003242445A (ja) * 2002-02-19 2003-08-29 Fujitsu Ltd ナンバープレート読取装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9679217B2 (en) 2014-08-26 2017-06-13 Kabushiki Kaisha Toshiba Information processing apparatus, information processing system, information processing method and storage medium
US9819860B2 (en) 2015-03-09 2017-11-14 Kabushiki Kaisha Toshiba Data processor, data processing method and storage medium
US10121086B2 (en) 2015-07-14 2018-11-06 Kabushiki Kaisha Toshiba Information processing apparatus and information processing method
EP3358502A1 (en) 2017-02-03 2018-08-08 Kabushiki Kaisha Toshiba Image processing device, image processing method and computer-readable medium
US10296802B2 (en) 2017-02-03 2019-05-21 Kabushiki Kaisha Toshiba Image processing device, image processing method, and computer program product
EP3379451A1 (en) 2017-03-22 2018-09-26 Kabushiki Kaisha Toshiba Information processing device
US10528852B2 (en) 2017-03-22 2020-01-07 Kabushiki Kaisha Toshiba Information processing apparatus, method and computer program product
US10832100B2 (en) 2017-03-22 2020-11-10 Kabushiki Kaisha Toshiba Target recognition device

Also Published As

Publication number Publication date
JP6208094B2 (ja) 2017-10-04
CN105389578A (zh) 2016-03-09
US20160063340A1 (en) 2016-03-03
CN105389578B (zh) 2018-10-16
US9679217B2 (en) 2017-06-13

Similar Documents

Publication Publication Date Title
JP6208094B2 (ja) 情報処理装置、情報処理システム、情報処理方法及びそのプログラム
JP6338595B2 (ja) モバイルデバイスベースのテキスト検出および追跡
JP4958497B2 (ja) 位置姿勢測定装置及び位置姿勢測定方法、複合現実感提示システム、コンピュータプログラム及び記憶媒体
EP2808645A1 (en) Camera calibration device, camera calibration method, and camera calibration program
US8135172B2 (en) Image processing apparatus and method thereof
JP2012103789A (ja) オブジェクト表示装置及びオブジェクト表示方法
JP2017146938A (ja) 書籍検出装置、書籍検出方法及び書籍検出用コンピュータプログラム
KR20120044484A (ko) 이미지 처리 시스템에서 물체 추적 장치 및 방법
JP2017036970A (ja) 情報処理装置、情報処理方法、プログラム
US10121086B2 (en) Information processing apparatus and information processing method
JP6530432B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN111652103B (zh) 室内定位方法、装置、设备以及存储介质
JP6548920B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6229554B2 (ja) 検出装置および検出方法
JP2020071739A (ja) 画像処理装置
WO2018167971A1 (ja) 画像処理装置、制御方法及び制御プログラム
JP2016206909A (ja) 情報処理装置、情報処理方法
JP2016009395A (ja) 文書ファイル生成装置及び文書ファイル生成方法
JP2011071746A (ja) 映像出力装置及び映像出力方法
JP2018036901A (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2017120455A (ja) 情報処理装置、プログラム及び制御方法
US10235776B2 (en) Information processing device, information processing method, and information processing program
JP5636966B2 (ja) 誤差検出装置及び誤差検出プログラム
JP2013003753A (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP7262689B1 (ja) 情報処理装置、生成方法、及び生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170906

R151 Written notification of patent or utility model registration

Ref document number: 6208094

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350