JP2017021695A - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
JP2017021695A
JP2017021695A JP2015140489A JP2015140489A JP2017021695A JP 2017021695 A JP2017021695 A JP 2017021695A JP 2015140489 A JP2015140489 A JP 2015140489A JP 2015140489 A JP2015140489 A JP 2015140489A JP 2017021695 A JP2017021695 A JP 2017021695A
Authority
JP
Japan
Prior art keywords
image
detection
area
character
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2015140489A
Other languages
English (en)
Inventor
鈴木 薫
Kaoru Suzuki
薫 鈴木
洋次郎 登内
Yojiro Touchi
洋次郎 登内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015140489A priority Critical patent/JP2017021695A/ja
Priority to US15/060,151 priority patent/US10121086B2/en
Publication of JP2017021695A publication Critical patent/JP2017021695A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/631Graphical user interfaces [GUI] specially adapted for controlling image capture or setting capture parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】取得された画像からより確実に文字列を検出することができる情報処理装置および情報処理方法を提供することである。【解決手段】実施形態によれば、情報処理装置は、画像取得手段が画像を取得する。文字行領域検出手段は、画像中から文字を含む第1領域を検出し、一定数以上の前記第1領域からなる文字行を含む第2領域を検出する。変動量検出手段は、画像が撮像されたときの撮像手段の位置的及び姿勢的な変動量を検出する。制御手段は、変動量が閾値以下であった場合、画像中からの第2領域の検出を文字行領域検出手段に実行させる。制御手段は、第2領域が検出されなかった場合、第1領域または第2領域の検出の少なくとも一方に関わる文字行領域検出手段の設定を変更し、画像中からの第2領域の検出を文字行領域検出手段に実行させる。【選択図】図1

Description

本発明の実施形態は、情報処理装置および情報処理方法に関する。
近年、看板や標識、紙面などに記載された文字をカメラによって撮像された画像から検出し、当該検出された文字に対して文字認識処理や翻訳処理を行う情報処理装置が普及してきている。この情報処理装置を利用するにあたって、ユーザは、ディスプレイに表示されるプレビュー画面を通して、カメラが現在どこを写しているかを把握し、撮像対象の文字に向けて情報処理装置を動かし、撮像対象の文字を撮像範囲に収めるフレーミングという作業を行う必要がある。
換言すれば、フレーミング中には、撮影された画像(の特に略中央部)に検出・認識・翻訳などの対象となる文字列の全体が写っておらず、フレーミングが完了して初めて、撮影された画像(の特に略中央部)に対象の文字列の全体が写っていると仮定することができる。しかしながら、従来の情報処理装置では、撮影された画像中に文字がない場合を想定した、すなわち、過検出の起こりにくいリジェクト設定(例えば検出のための閾値)が常に一定の厳しい基準で稼働するため、フレーミング完了後に文字列が画像中にあったとしても、この厳しすぎる基準のためにそれを検出できない場合があるという問題が生じていた。
特開2001−331803号公報
本発明が解決しようとする課題は、取得された画像からより確実に文字列を検出することのできる情報処理装置および情報処理方法を提供することである。
実施形態によれば、情報処理装置は、画像取得手段と、文字行領域検出手段と、変動量検出手段と、制御手段とを具備する。前記画像取得手段は、画像を取得する。前記文字行領域検出手段は、前記画像中から文字を含む第1領域を検出し、前記第1領域の検出結果に基づき、前記画像中から一定数以上の前記第1領域からなる文字行を含む第2領域を検出する。前記変動量検出手段は、前記画像が撮像されたときの撮像手段の位置的及び姿勢的な変動量を検出する。前記制御手段は、前記変動量検出手段により検出される変動量が閾値以下であった場合、前記画像中からの前記第2領域の検出を前記文字行領域検出手段に実行させる。前記制御手段は、前記文字行領域検出手段により前記第2領域が検出されなかった場合、前記画像中からの前記第1領域の検出または前記第2領域の検出の少なくとも一方に関わる前記文字行領域検出手段の設定を変更し、前記画像中からの前記第2領域の検出を前記文字行領域検出手段に実行させる。
実施形態に係る情報処理装置の構成例を示す機能ブロック図。 同実施形態の情報処理装置の動作の一例を示すフローチャート。 画像に対する計測窓の配置例を示す図。 同実施形態の情報処理装置が備える文字行検出部による文字候補検出処理を説明するための模式図。 同実施形態の情報処理装置が備える文字候補検出部による文字候補検出処理の結果として得られる第1検出結果情報を説明するための模式図。 直線ハフ変換の原理を説明するための模式図。 直線ハフ変換の原理を説明するための別の模式図。 ハフ投票を説明するための模式図。 フレーミング期間について説明するための模式図。 同実施形態の情報処理装置がフレーミングの状態を示唆するための各種アイコンについて説明するための模式図。 同実施形態の情報処理装置が姿勢変化量を示唆するためのアイコンについて説明するための模式図。 同実施形態の情報処理装置が備える静止検出部において設定されている閾値を変更可能とするユーザインタフェースについて説明するための模式図。 同実施形態の情報処理装置のハードウェア構成の一例を示す機能ブロック図。 撮像範囲を等速度で移動させて広い撮像対象領域の画像を撮像する例について説明するための模式図。
以下、実施の形態について図面を参照して説明する。
図1は、一実施形態に係る情報処理装置10の構成例を示す機能ブロック図である。図1に示すように、情報処理装置10は、制御部100、画像取得部101、静止検出部102、画像解析・設定部103、文字検出辞書記憶部104、文字行検出部105、アプリケーション部106および出力部107などを備えている。なお、本実施形態では、情報処理装置10がタブレット端末である場合を想定して説明する。
また、図2は、本情報処理装置10の動作の一例を示すフローチャートである。図2に示すように、情報処理装置10は、画像取得処理ステップS1、静止検出処理ステップS2、初期設定処理ステップS3、文字候補・文字行検出処理ステップS4、成否判定処理ステップS5、アプリケーション処理ステップS6、プレビュー表示処理ステップS7、変更可能判定処理ステップS8、設定変更処理ステップS9とから成る処理を実行する。
制御部100は、情報処理装置10内の各部(画像取得部101、静止検出部102、画像解析・設定部103、文字検出辞書記憶部104、文字行検出部105、アプリケーション部106および出力部107)を有機的に動作させるための制御を司る。換言すれば、情報処理装置10内の各部は、制御部100の制御下で動作する。
画像取得部101は、例えば情報処理装置10に搭載されたカメラなどの撮像手段により撮像された画像を取得する(図2の画像取得処理ステップS1)。なお、本実施形態における撮像対象は、看板や標識、紙面などに記載された文字を想定している。また、撮像手段は、基本ユニットとして情報処理装置10に固定的に配置されるものであってもよいし、外部ユニットとして情報処理装置10にオプション的に取り外し自在に装着されるものであってもよい。
静止検出部102は、画像取得部101により取得された画像の撮像時の情報処理装置10の位置姿勢変化量(位置的及び姿勢的な変動量)を、情報処理装置10に内蔵された加速度センサや角速度センサなどから取得し、この値が所定閾値以下であるときに、後述する初期設定処理ステップS3以降を実行させるためのトリガを出力する(静止検出処理ステップS2のYes)。位置姿勢変化量とは、画像撮像時に、情報処理装置10(より具体的には、情報処理装置10に搭載された撮像手段)がどの程度速く並進及び回転していたのかを示す値である。この位置姿勢変化量が一定値よりも大きい間はフレーミングの途中であると推察される。逆に位置姿勢変化量が一定値以下に下がったとき(略静止状態と称する)はフレーミングが完了したと推察される。例えば加速度センサを使用した場合、重力成分を除去した加速度ベクトルを時間積分して得た速度ベクトルの大きさを位置姿勢変化量とすることができる。また、例えば角速度センサにより得られる回転速度の大きさを特に姿勢変化を表す近似的な位置姿勢変化量とみなすこともできる。フレーミングの動きは撮像手段を構えた位置で向きを大きく変える回転運動が主な成分であると考えられる。よって姿勢変化を表す近似的な位置姿勢変化量だけでもフレーミングの状態を推察可能であると考えられる。このようなセンサの応答は速く、少ない計算量で位置姿勢変化量を取得することができる。
静止検出部102は、取得した位置姿勢変化量と、予め設定された閾値とを比較し、当該位置姿勢変化量が当該閾値以下である場合にだけ、前述のトリガを出力する。なお、位置姿勢変化量が予め設定された閾値より大きい場合、静止検出部102は、出力部107に対して、後述するプレビュー表示処理を実行させるためのコマンドを出力する(静止検出処理ステップS2のNo)。
なお、ここでは、静止検出部102が加速度センサなどのセンサ手段により計測された位置姿勢変化量を用いる場合について説明したが、例えば、撮像手段の位置姿勢変化量が大きいために画像にぶれが生じていると、画像のコントラスト値(なお、当該コントラスト値は、最大輝度値と最小輝度値の差として求めることができる)が小さくなるという特徴を利用して、画像取得部101により取得された画像のコントラスト値を算出し、所定定数から当該コントラスト値を減算した値を位置姿勢変化量として用いても良い。あるいは、オプティカルフローのように画像中の動きベクトルの大きさを直接計算し、その画像全体における最大値などを位置姿勢変化量として用いても良い。このようにすれば、加速度センサなどを内蔵していない情報処理装置であっても、画像取得部101により取得された画像から直接位置姿勢変化量を算出し、上記の処理を実行することができるようになる。
さらに、ここでは、トリガは、位置姿勢変化量が予め設定された閾値以下である場合に出力されるとしたが、例えば、位置姿勢変化量が閾値以下であったとしても、撮像手段のフォーカスがあっていなければ、画像はぼけたものになってしまい、後述する文字候補検出処理に対して悪影響を与えてしまう。このため、トリガは、位置姿勢変化量が閾値以下であり、かつ撮像手段のフォーカスがあっている場合にだけ、出力されるとしても良い。撮像手段のフォーカスがあっているか否かは、画像を解析して判断してもよいし、撮像手段から(例えばレンズを移動させるモーターの駆動状況等を含む)ステータス情報を取得して判断してもよい。
画像解析・設定部103は、静止検出部102から出力されたトリガの入力を受け付けると、画像取得部101により取得された画像を解析し、後続の文字候補・文字行検出処理ステップS4のための初期パラメータ値を決定して出力する(図2の初期設定処理ステップS3)。画像解析・設定部103がトリガの入力を受け付けたときは、ユーザによるフレーミングが完了している可能性が高い。このとき、画像取得部101により取得された画像には文字が写っているはずである。すなわち、本実施形態の情報処理装置10は、位置姿勢変化量が一旦所定閾値を越えた後、所定閾値以下になったことを検出すると、取得された画像中に文字があるはずだと仮定してその検出を開始するのである。
このとき、画像解析・設定部103は、図3に例示するような、画像に対して予め設定されている位置の異なる複数の計測窓内(図3の1013)の複雑度を計算する。複雑度は例えばエッジ密度(微分オペレータ出力絶対値の窓内の平均値として計算)などとする。看板などの比較的単純な背景に文字が書かれている場合(図3の1011)、複雑度は文字のある計測窓で高く、文字の無い計測窓で低くなると期待できる。すなわち、計測窓の一部で複雑度が所定閾値を超えないときは単純背景であると判断できる。一方、花崗岩に刻まれた文字のように複雑な模様を持つ背景に文字が書かれている場合(図3の1012)は、複雑度は文字のある計測窓と文字の無い計測窓でともに高くなると期待できる。すなわち、計測窓の全てで複雑度が所定閾値以上となるときは複雑背景であると判断できる。このようにして取得された画像に写る文字が単純背景の文字か複雑背景の文字かを区別し、これをパラメータ値の1つとして出力する。このようにすることで、後続の文字行検出処理ステップS4では、それぞれに特化した文字検出辞書を選んで文字を検出することが可能になる。なお、出力されるパラメータ値には、文字候補を検出する際の閾値(以下、文字候補検出閾値)と、文字行を検出する際の閾値(以下、文字行検出閾値)も含まれる。初期パラメータ値としては、これらの閾値には所定の値が設定される。
文字検出辞書記憶部104は、文字行検出部105によって使用される文字検出辞書を記憶する記憶装置である。
文字行検出部105は、画像解析・設定部103の出力したパラメータ値を受け付けると、このパラメータ値を使用して、画像取得部101により取得された画像から文字らしい画像領域を文字候補(すなわち、文字が記載されている考えられる領域)として検出する文字候補検出処理を実行し、さらに検出された文字候補の並びから文字行を検出する文字行検出処理を実行する(図2の文字候補・文字行検出処理ステップS4)。
ここで、図4を参照して、文字行検出部105による文字候補検出処理について詳しく説明する。
文字行検出部105は、画像解析・設定部103の出力した単純背景か複雑背景かの区別に従って文字検出辞書記憶部104に記憶された対応する文字検出辞書を読み出す。
次いで、文字行検出部105は、画像取得部101により取得された画像(入力画像)に対して縮小処理を実行し、いわゆる解像度ピラミッド画像を生成し、当該解像度ピラミッド画像上で文字を探索・検出する文字候補検出処理を実行する。具体的には、文字行検出部105は、図4に示すように、画像取得部101により取得された入力画像201を一定比率r(但し、0<r<1)で順次縮小して、1以上のリサイズ画像202,203を生成する。生成されるリサイズ画像の数、換言すると、上記した縮小処理が実行される回数は、仕様上の検出すべき文字の最小サイズと最大サイズとに依存する。図4に示す検出窓205の大きさは、最も解像度の高い入力画像201上で検出すべき文字の大きさに合わせて決定される。すなわち、この検出窓205の大きさが、仕様上の検出すべき文字の最小サイズとなる。一定比率rを乗じて縮小されるリサイズ画像202,203の上では、同じ大きさの検出窓205が覆う範囲は広くなるので、検出される文字の大きさは、これに応じて大きくなっていく。この文字の大きさが仕様上の検出すべき文字の最大サイズを超えるまで、文字行検出部105はリサイズ画像を生成する。このようにして、1以上のリサイズ画像を生成すると、文字行検出部105は、図4に示すように、入力画像201とリサイズ画像202,203とを合わせた解像度ピラミッド画像204を生成する。
文字行検出部105は、解像度ピラミッド画像204を生成すると、生成された解像度ピラミッド画像204に含まれる各画像201〜203上で所定サイズの検出窓205を走査させつつ、各位置での検出窓205内の画像を切り取って、複数の部分画像を生成する。また、文字行検出部105は、生成された複数の部分画像と、前記読み出した文字検出辞書とに基づいて、文字候補を検出する。具体的には、文字行検出部105は、上記した各部分画像と、上記した文字検出辞書とを照合して、文字らしさを示すスコアをそれぞれの部分画像について計算し、これら各スコアが画像解析・設定部103の出力した文字候補検出閾値を超えているかどうかをそれぞれ判定する。これにより、各部分画像が文字を含む画像であるかどうかを判定(評価)することができる。この判定の結果に応じて、文字行検出部105は、文字を含む画像であると判定された部分画像には文字であることを示す第1コードを付与し、文字を含まない画像(換言すると、非文字を含む画像)であると判定された部分画像には非文字であることを示す第2コードを付与する。これにより、文字行検出部105は、第1コードが付与された部分画像が存在する領域(換言すると、第1コードが付与された部分画像を切り取った検出窓205が位置する領域)を文字が存在する領域として検出することができる。
文字行検出部105は、上記した文字候補検出処理を実行した結果、第1コードが付与された部分画像の数が、予め設定された閾値以上である場合に、入力画像201上で文字が存在する領域を示す第1検出結果情報を作成する。第1検出結果情報とは、例えば図5に示すように、入力画像201上で文字が存在する領域を矩形の枠で示した情報である。
第1コードが付与された部分画像の数が、予め設定された閾値未満である場合、文字行検出部105は、十分な文字候補の検出に失敗したとして、画像解析・設定部103に対して、後述する設定変更処理を実行させるための第1コマンドを出力する(成否判定処理ステップS5のNo)。
なお、上記検出窓205内の部分画像に対して文字らしさを評価するスコア計算方法としては、部分空間法やサポートベクトルマシンなど、公知のパターン識別方法を利用して実現することができるため、本実施形態ではその詳しい説明は省略する。
文字行検出部105は、前記第1検出結果情報を作成した場合、この第1検出結果情報に基づいて、画像取得部101により取得された画像中に記載された文字行を検出する文字行検出処理を実行する。文字行検出処理は、文字候補の直線的な配置を直線ハフ(Hough)変換を用いて検出する処理である。
以下では、まず、図6を参照して、直線ハフ変換の原理について説明する。
直線ハフ変換の原理を説明するにあたって、まず、ハフ曲線について説明する。図6に示すように、2次元座標上の点p(x,y)を通り得る直線は、例えば図6中の301〜303に例示するように、無数に存在する。しかしながら、原点Oからこれら各直線におろした垂線304のX軸からの傾きをθとし、この垂線304の長さをρと定義すると、1つの直線について、θとρは一意に決まる。これによれば、ある点(x,y)を通り得る無数の直線をそれぞれ一意に決められるθとρの組は、θρ座標系上で(x,y)の値に応じて、固有の軌跡305(ρ=x・cosθ+y・sinθ)を描くことが知られている。この軌跡305を、一般的に、ハフ曲線と称している。
直線ハフ変換とは、(x,y)座標値を通り得る直線を、上記したようにして一意に決められる(θ,ρ)により描かれるハフ曲線に変換することを指す。なお、(x,y)を通り得る直線が左に傾いている場合、上記したθは正の値となり、垂直の場合、上記したθの値は0となり、右に傾いている場合、上記したθは負の値となるものとする。また、上記したθの定義域は、−π<θ≦πを逸脱することはないものとする。
ハフ曲線は、XY座標系上の各点について独立に求めることができるが、例えば図7に示すように、3点p1〜p3を共通に通る直線401は、p1〜p3にそれぞれ対応したハフ曲線402〜404が交差する点405の座標(θ0,ρ0)で定められる直線として求めることができる。多くの点を通る直線であればあるほど、その直線を表すθとρの位置を、多くのハフ曲線が通過する。すなわち、直線ハフ変換は、点群から直線を検出する用途に向いているといえる。
点群から直線を検出する場合、ハフ投票という工学的な手法が用いられる。この手法は、θとρを座標軸とする2次元のハフ投票空間に各ハフ曲線の通過するθとρの組を投票することで、ハフ投票空間の得票数の大きい位置に多数のハフ曲線の通過するθとρの組、すなわち、多数の点を通る直線の存在を示唆させるようにする手法である。一般的には、まず、θとρについての必要な探索範囲分の大きさを持つ2次元の配列(ハフ投票空間)を用意して、得票数を0で初期化しておく。次いで、点毎のハフ曲線を、上記したハフ変換によって求め、このハフ曲線が通過する配列上の値を1だけ加算する。これを一般的にハフ投票と称している。全ての点について、上記したハフ投票がなされると、得票数0の位置(すなわち、ハフ曲線が1つも通過しなかった位置)には直線が存在せず、得票数1の位置(すなわち、ハフ曲線が1つだけ通過した位置)には1つの点だけを通る直線が、得票数2の位置(すなわち、ハフ曲線が2つ通過した位置)には2つの点を通る直線が、さらに、得票数nの位置(すなわち、ハフ曲線がn個通過した位置)にはn個の点を通る直線がそれぞれ存在することが分かる。つまり、XY座標系上の2点以上を通過する直線は、ハフ投票空間上で得票数2以上の場所として現れる。
ハフ投票空間の分解能を無限大にできれば、上記したように、軌跡の通過する点のみが、そこを通過する軌跡の数だけの得票を得ることになるが、実際のハフ投票空間はθとρについて適当な分解能で量子化されているため、複数の軌跡が交差する位置の周辺にも高い得票分布が生じる。そのため、ハフ投票空間の得票分布から極大値を持つ位置を探すことで、軌跡の交差する位置を求めることになる。
ここで、図8を参照して、上記した直線ハフ変換ならびにハフ投票を用いた文字行検出処理について詳しく説明する。但し、ここでは、入力画像を示す画像平面を、横軸がXであり、縦軸がYである座標平面501とみなした場合を想定する。
文字候補502の画像上の中心座標を(x,y)とした場合、この点を通る直線は無数に存在するが、それらは必ず上記した直線ハフ変換の式ρ=x・cosθ+y・sinθを満たす。上記したように、ρとθは、それぞれ、XY座標系における原点Oから直線におろした垂線の長さ、ならびに、この垂線のX軸からの傾きを示す。つまり、点(x,y)を通る直線の満たす(θ,ρ)の値はθρ座標系ではハフ曲線となる。異なる2点を通る直線は、これら2点のハフ曲線が1点で交わる(θ,ρ)の組で表すことができる。文字行検出部105は、文字行検出部105によって検出された複数の文字候補の中心点からそれぞれハフ曲線を求めて、それらが多く交差する(θ,ρ)の組を見つけると、多数の文字候補が直線的に並んでいるその直線、すなわち、文字行の存在を検出する。
文字行検出部105は、ハフ曲線が多く交差する(θ,ρ)の組を見つけるために、文字候補の中心座標から計算されるハフ曲線をハフ投票空間に投票する。ハフ投票空間は、図8に示すように、縦軸がρであり、横軸がθであり、さらに、文字候補502のサイズsに応じて、図8中の503〜505のように複数用意される。文字候補502のサイズが小さい場合は、文字候補502はsの小さいハフ投票空間503に投票され、文字候補502のサイズが大きい場合は、文字候補502はsの大きいハフ投票空間に投票される。文字行検出部105は、各ハフ投票空間において、画像解析・設定部103の出力した文字行検出閾値以上の得票数をもつ極大位置(θ,ρ)で定義される直線を検出し、この直線に投票した文字候補の集合を文字行として検出する。なお、文字行検出部105は、1つのハフ曲線上に、文字行検出閾値以上の得票数をもつ極大位置(θ,ρ)で定義される直線を複数検出した場合、最も得票数の高い直線に投票した文字候補の集合を文字行として検出する。例えば、文字行検出閾値が2である場合、図8のハフ投票空間503では、得票数3の極大位置506が、他の得票数2の極大位置を抑えて、文字行検出部105により文字行として検出される。また、図8のハフ投票空間505では、得票数2の極大位置507が、文字行検出部105により唯一の文字行として検出される。つまり、入力画像からは極大位置506,507にそれぞれ対応した2本の直線が検出される。直線が検出されると、文字行検出部105は、各直線に投票した文字候補を抽出し、これらが覆う領域として文字行を検出する。
なお、サイズsの隣接した異なるハフ投票空間においてそれぞれ検出された極大位置が所定距離内で近接している場合、文字行検出部105は、同一の文字行を別々に検出したとして、これらの極大位置に投票した文字候補の集合から1つの文字行として検出する。
再び図1および図2の説明に戻る。文字行検出部105は、上記した文字行検出処理の結果、1以上の文字行を検出した場合、当該1以上の文字行が存在する領域を示す第2検出結果情報をアプリケーション部106に出力する(成否判定処理ステップS5のYes)。一方、上記した文字行検出処理の結果、1つの文字行も検出しなかった場合、文字行検出部105は、画像解析・設定部103に対して、後述する設定変更処理を実行させるための第2コマンドを出力する(成否判定処理ステップS5のNo)。
再び画像解析・設定部103の説明に戻る。画像解析・設定部103は、文字行検出部105から出力された設定変更処理を実行させるための第1コマンドや第2コマンドの入力を受け付けると、パラメータの変更が可能か否かを判定し(変更可能判定処理ステップS8)、変更可能であるときは、パラメータ値を変更して出力する(図2の設定変更処理ステップS9)。変更されたパラメータ値を受けた文字行検出部105は、この新しいパラメータ値に従って再度文字候補・文字行検出処理ステップS4を実行する。
画像解析・設定部103が第1コマンドの入力を受け付けたときは、文字行検出部105で十分数の文字候補が検出できなかったときである。この場合は、前述の文字候補検出閾値が厳しすぎた可能性が高い。そこで、画像解析・設定部103は、現在の文字候補検出閾値を下げて処理を繰り返させることができるか否かを判定する(変更可能判定処理ステップS8)。この判定には2つの条件がある。1つは現在の文字候補検出閾値が予め設定されている所定の下限値に達しているか否かである。2つ目は取得された画像に対して設定変更の回数が所定の上限値に達しているか否かである。いずれか1つでも達している場合には(変更可能判定処理ステップS8のNo)、画像解析・設定部103は、いたずらに文字候補・文字行検出処理ステップS4を繰り返すのを止めて、出力部107に対して、ユーザにフレーミングのやり直しを求める情報を重畳した取得画像をプレビュー表示させるためのコマンドを出力部107に対して出力する。一方、いずれも達していない場合には(変更可能判定処理ステップS8のYes)、現在の文字候補検出閾値を所定量減じた新しい閾値を決定し、この値を更新された文字候補検出閾値として出力する。
また、画像解析・設定部103が第2コマンドの入力を受け付けたときは、文字行検出部105で文字行が検出できなかったときである。この場合は、前述の文字行検出閾値が厳しすぎた可能性が高い。そこで、画像解析・設定部103は、現在の文字行検出閾値を下げて処理を繰り返させることができるか否かを判定する(変更可能判定処理ステップS8)。この判定には2つの条件がある。1つは現在の文字行検出閾値が予め設定されている所定の下限値に達しているか否かである。2つ目は取得された画像に対して設定変更の回数が所定の上限値に達しているか否かである。いずれか1つでも達している場合には(変更可能判定処理ステップS8のNo)、画像解析・設定部103は、いたずらに文字候補・文字行検出処理ステップS4を繰り返すのを止めて、出力部107に対して、ユーザにフレーミングのやり直しを求める情報を重畳した取得画像をプレビュー表示させるためのコマンドを出力部107に対して出力する。一方、いずれも達していない場合には(変更可能判定処理ステップS8のYes)には、現在の文字行検出閾値を所定量減じた新しい閾値を決定し、この値を更新された文字行検出閾値として出力する。
なお、ここでは、文字候補検出閾値および文字行検出閾値の双方を適応的に変更し得る例を説明したが、これらのうちの一方のみを適応的に変更し得るようにしてもよい。
また、本実施形態の情報処理装置10では、前述したように、文字候補検出閾値および文字行検出閾値の双方を適応的に変更し得るので、前述の画像解析・設定部103による初期設定処理ステップS3を省略し、静止検出部102からトリガが出力された場合、前述の文字行検出部105による文字候補・文字行検出処理ステップS4を、例えば汎用的な文字検出辞書が選ばれるべく設定された初期パラメータ値を用いて即時的に実行するようにしてもよい。
アプリケーション部106は、文字行検出部105から出力された第2検出結果情報を受け付けると、予めインストールされたアプリケーション固有の処理(図2のアプリケーション処理ステップS6)を実行する。例えば、文字認識処理を実行可能なアプリケーション(例えばOCR機能を有したアプリケーション等)が予めインストールされている場合、アプリケーション部106は、第2検出結果情報により示される文字行が存在する領域の画像パターンを抽出し、抽出された文字行の画像パターンに対して文字認識処理を実行して、当該領域内の文字行に対応した文字コード列を取得する。
なお、画像中の文字をOCRなどで認識した場合、アプリケーション部106は、取得した文字コード列に関連する情報を検索することもできる。具体的には、商品名からその値段やスペック等の情報を検索したり、地名や名所の名前などからそこまでの地図情報を得たり、ある言語を他の言語に翻訳したりすることができる。アプリケーション部106によって実行された処理の結果を示す処理結果情報は出力部107に出力される。
出力部107は、アプリケーション部106から出力された処理結果情報を画像取得部101により取得された画像に重畳させた上で、情報処理装置10のディスプレイに表示させるプレビュー表示処理を実行する。また、出力部107は、アプリケーション部106とは異なる各部からプレビュー表示処理を実行させるためのコマンドの入力を受け付けると、当該コマンドにしたがって、少なくとも入力画像をそのままディスプレイに表示させるプレビュー表示処理を実行する。
ここで、図9を参照して、フレーミング期間について説明する。
フレーミング期間とは、情報処理装置10(撮像手段)を撮像対象の文字列に向けて動かし始めてから、ユーザが当該フレーミングの目的である所望の文字認識結果や翻訳結果を例えば表示出力などで得られることになる画像(すなわち、この画像を処理することによって所望の結果が得られるという画像)が取得されるまでの期間を指す。このフレーミング期間は、大別すると、3つの段階に区分することができる。1つ目が、図9(a)に示すように、撮像対象の文字列に向けて情報処理装置10を大きく動かす期間(以下、「動き大期間」と称する)である。この動き大期間では、情報処理装置10を大きく動かすことに起因して、画像にぶれが生じてしまうため、文字候補検出処理が実行されたとしても、図9(a)に示すように、文字候補は検出されない。2つ目が、図9(b)に示すように、撮像対象の文字列を撮像範囲に収めるために、大きく動かしていた情報処理装置10を減速させる期間(以下、「微調整期間」と称する)である。この微調整期間では、情報処理装置10が減速し始めたばかりということもあって、画像にぶれが生じ、文字候補検出処理が実行されたとしても、文字候補は検出されたり、検出されなかったりする。また、撮像対象の文字列が撮像範囲の外にはみ出していたりする。3つ目が、図9(c)に示すように、撮像対象の文字列を完全に撮像範囲に収めたとき(以下、「フレーミング完了時」と称する)である。この時点以降は、手振れによる微小な動きはあるものの、情報処理装置10(撮像手段)は略静止した状態にある。そして、このフレーミング完了時には、理想的には画像中央部に対象の文字列がある。そこで、静止検出部102は、このフレーミング完了を検出するよう位置姿勢変化量を閾値処理する。
次に、図10を参照して、フレーミングの状態を示唆するための各種アイコンについて説明する。図9にて既に説明したように、フレーミング期間が開始されてからフレーミング期間が完了されるまでには、3つの期間が存在する。具体的には、(1)動き大期間と、(2)微調整期間と、(3)フレーミング完了時とが存在する。これら3つの期間の違いを出力部107によるプレビュー表示を通じてユーザに対して示唆することで、ユーザは、フレーミングの状態を正確に把握することができ、ひいては、より的確なフレーミングを実施することができるようになる。
図10(a)は、上記した(1)の期間であることをユーザに対して示唆するアイコンの一例を示す模式図である。現在の期間が、上記した(1)〜(3)の期間のうち、(1)の期間、すなわち、図9における動き大期間に相当する場合、情報処理装置10のディスプレイ上のアイコン表示領域601には、現在の期間が動き大期間であることを示唆するアイコン602が表示される。図10(a)では、動き大期間であることを示唆するアイコンとして、情報処理装置10を使用するユーザの動き、ひいては、情報処理装置10の動きが大きいことを表現した矢印のアイコン602が表示される場合を示したが、動き大期間を示唆するアイコンのデザインはこれに限定されない。例えば、単に、動き大期間という文字列がディスプレイに表示されるとしても良い。但し、動き大期間であることをユーザが容易に把握することができるデザインである方が好ましい。
図10(b)は、上記した(2)の期間であることをユーザに対して示唆するアイコンの一例を示す模式図である。現在の期間が、上記した(1)〜(3)の期間のうち、(2)の期間、すなわち、図9における微調整期間に相当する場合、情報処理装置10のディスプレイ上のアイコン表示領域601には、現在の期間が微調整期間であることを示唆するアイコン603が表示される。図10(b)では、微調整期間であることを示唆するアイコンとして、撮像対象が情報処理装置10の撮像範囲に入りかけていることを表現したアイコン603が表示される場合を示したが、微調整期間を示唆するアイコンのデザインはこれに限定されない。例えば、単に、微調整期間という文字列がディスプレイに表示されるとしても良い。但し、微調整期間であることをユーザが容易に把握することができるデザインである方が好ましい。
図10(c)は、上記した(3)の期間であることをユーザに対して示唆するアイコンの一例を示す模式図である。現在の期間が、上記した(1)〜(3)の期間のうち、(3)の期間、すなわち、図9におけるフレーミング終了時に相当する場合、情報処理装置10のディスプレイ上のアイコン表示領域601には、現在の期間がフレーミング終了時であることを示唆するアイコン604が表示される。図10(c)では、フレーミング終了時であることを示唆するアイコンとして、撮像対象が情報処理装置10の撮像範囲に入り終えた(収まっている)ことを表現したアイコン604が表示される場合を示したが、フレーミング終了時を示唆するアイコンのデザインはこれに限定されない。例えば、単に、フレーミング終了時という文字列がディスプレイに表示されるとしても良い。但し、フレーミング終了時であることをユーザが容易に把握することができるデザインである方が好ましい。
なお、図10では、上記した(1)〜(3)の期間を示唆するアイコンがそれぞれ表示される場合について説明したが、例えば、これら3つの期間にそれぞれ対応した音や音声を出力部107から出力するとしても良い。
また、上記した(1)〜(3)の期間を示唆するだけでなく、上記した「位置姿勢変化量」を、出力部107によるプレビュー表示に重畳表示されるグラフを用いて、ユーザに対して示唆することもできる。さらに、文字行検出部105によって検出された文字候補や文字行の位置を、例えば枠などを用いて、ユーザに対して示唆することもできる。以下では、図11を参照して、位置姿勢変化量を示唆するためのグラフアイコンについて説明する。
図11は、位置姿勢変化量を示唆するためのグラフアイコンの一例を示す模式図である。位置姿勢変化量を示すグラフ(ここでは、棒グラフ)を模したアイコン701は、情報処理装置10のディスプレイ上のグラフ表示領域に表示される。アイコン701は、2つのオブジェクト702,703を含む。オブジェクト702は、静止検出部102によって算出された位置姿勢変化量を示す。また、オブジェクト703は、静止検出部102において、予め設定された閾値を示す。すなわち、図11によれば、静止検出部102によって算出された位置姿勢変化量が、予め設定された閾値を下回っている(すなわち、トリガが出力されている)ことを、ユーザは視覚的に把握することができる。なお、位置姿勢変化量が予め設定された閾値を下回っている(すなわち、トリガが出力されている)場合、当該閾値を超えているときとは、グラフの色や明るさを変えることにより、ユーザはより容易にトリガが出力されていることを把握することができるようになる。
図11に示したように、位置姿勢変化量をユーザに対して示唆することで、ユーザは、文字行の検出・認識・翻訳の結果が上手く得られないときに、その原因が、動き大期間によるものなのか、撮像対象の文字が遠すぎたり、当該文字の傾きが大きすぎたりして文字候補の検出に失敗していることによるものなのか、といったことをより具体的に推測することができるようになる。
さらに、情報処理装置10のディスプレイがタッチパネルを含むタッチスクリーンディスプレイである場合、図12に示すように、前述のグラフ表示領域に表示されるアイコン701内のオブジェクト703を左または右に移動させるタッチスクリーンディスプレイ上でのタッチ操作を受け付けて、静止検出部102において設定されている閾値をユーザが任意に変更できるようにしてもよい。このようなユーザインタフェース機能を持つことで、例えば、情報処理装置10を略静止状態に把持することが苦手であり、フレーミング完了時が検出できないことを原因として文字行の検出・認識・翻訳の結果が上手く得られないユーザについて、オブジェクト703で示される当該閾値を上げてみることによりフレーミング完了時を検出し易くして、文字行の検出・認識・翻訳の結果が得られるように救済・支援し得る。
なお、以上では、静止検出部102は、図2のステップS2の静止検出処理を初期設定以降の処理(図2のステップS3〜S9)が開始されて以降、ステップS1の画像取得処理が再度行われるまで行わないように説明しているが、ユーザが途中でフレーミングをやり直す可能性を考慮して、静止検出部102は、初期設定以降の処理(図2のステップS3〜S9)が開始されていても、バックグラウンドで図2のステップS2の静止検出処理を継続しており、位置姿勢変化量が閾値を超えたときには、直ちにトリガの出力を止め、初期設定以降の処理(ステップS3〜S9)を中断させて、取得された画像をそのままプレビュー表示させるために、ステップS7の処理に進むようにすることも可能である。このようにすれば、フレーミングをやり直すために、ユーザが情報処理装置を再度動かし始めたとき、これに追従してトリガ出力前の状態から処理を行わせることができるようになる。
このとき、さらに、画像解析・設定部103が、トリガの入力を受けた直後に初期設定処理を実行するのではなく、トリガの入力を受け付けてから一定期間経過(例えば、0.5秒程度)しても、静止検出部102から出力されるトリガの入力を変わらず受け付けていたときに、初期設定処理を実行するようにすることも可能である。このようにすると、静止検出部102からトリガが出力されてすぐに、当該トリガの入力を覆す行動(例えば、情報処理装置10を大きく動かすなど)が行われたとしても、無駄な初期設定や文字行検出処理を実行せずにすむという利点がある。
次に、図13を参照して、情報処理装置10のハードウェア構成例を説明する。
図13は、情報処理装置10のハードウェア構成例を示す図である。図13に示すように、情報処理装置10は、CPU801、RAM802、ROM803、HDD804、LAN805、入力デバイス806、ディスプレイ807、外部インタフェース808、外部ストレージデバイス809、カメラ810および加速度センサ811などを備えている。
CPU801は、情報処理装置10内のコンポーネントを制御するプロセッサである。CPU801は、HDD804からRAM802にロードされる文字行検出プログラムを実行する。CPU801はこの文字行検出プログラムを実行することにより、上記した情報処理を実行するように構成された処理部として機能することができる。なお、CPU801は、外部ストレージデバイス809(例えば、USBデバイス等)からRAM802に文字行検出プログラムをロードし、これを実行することも可能である。外部ストレージデバイス809からは文字行検出プログラムだけでなく、情報処理実行時に使用される画像などをロードすることができる。
入力デバイス806はキーボード、マウス、タッチパネル、他の各種入力デバイスである。ディスプレイ807は、情報処理装置10によって実行される各種処理の結果を表示可能なデバイスである。カメラ810は前述した撮像手段に相当するものであって情報処理の対象となり得る画像を撮影可能なデバイスである。なお、カメラ810は、前述したように、基本ユニットとして情報処理装置10に固定的に配置されるものであってもよいし、外部ユニットとして情報処理装置10にオプション的に取り外し自在に装着されるものであってもよい。加速度センサ811は劣化評価値を取得可能なデバイスである。
以上説明した一実施形態によれば、フレーミングが完了して画像中に文字が存在する可能性が高いと判断された場合にだけ、初期設定処理および文字候補・文字行検出処理が実行され、また、文字行が検出されなかった場合、文字候補検出閾値または文字行検出閾値が適応的に変更されるので、過検出の起こりにくいリジェクト設定が常に一定の厳しい基準で稼働するといったことを不要にでき、取得された画像からより確実に文字列を検出することができるようになる。なお、前述したように、文字候補検出閾値または文字行検出閾値を適応的に変更できるようにしたことから、画像の解析を伴う(例えば文字検出辞書を選ぶための)初期設定処理を省略することも可能である。
ところで、文字行の検出・認識・翻訳の結果が上手く得られない原因の1つとして、撮像対象の文字が遠すぎるというものも存在する。撮像対象領域が広い場合、当該撮像対象領域全体を一度に撮像範囲に収めるべく離れて画像を撮像したとすると、撮像対象の文字が遠くなり、文字行の検出・認識・翻訳の結果が上手く得られない可能性が高い。そのために、ユーザは、例えば図14(a)に示すように、1つの撮像対象領域901を複数の撮像範囲902A,902B,902Cに分けて収めるべくフレーミング作業を複数回行うことを強いられ得る。
このような場合を考慮して、さらに、本情報処理装置10は、例えば図14(b)に示すように、撮像範囲902Dが等速移動しているとき、ユーザの行動を、当該撮像範囲902Dの移動経路全体を撮像対象領域901としようとする意図があるものと判断し、文字行の検出・認識・翻訳を開始するようにしてもよい。この場合、ユーザは、撮像対象領域901の一端から他端まで撮像範囲902Dを等速で移動させるフレーミング作業を1回だけ行えばよいこととなる。
撮像範囲902Dが等速移動していることは、情報処理装置10が等速運動状態にあることと捉えて検出することができる。そこで、静止検出部102は、前述のように取得した位置姿勢変化量に基づき、より具体的には、加速度センサの値から計算された速度ベクトルの向きと長さが略一定である場合、(前述のトリガとの違いを識別可能な)第2トリガを出力する。
この第2トリガが出力されている期間では、例えば制御部100は、前記画像取得部101(あるいは撮像手段)に通常よりも短い時間間隔で連続的に画像を取得させる。
また、この第2トリガが出力された場合、例えば制御部100は、文字行検出部105によって使用される文字検出辞書として、ぶれた文字の検出に特化した(ぶれた文字を学習させた)文字検出辞書を設定する。文字行検出部105は、当該ぶれた文字の検出に特化した文字検出辞書を使用して、前記連続的に取得された画像に対して前述の文字候補検出処理および文字行検出処理を実行する。
さらに、例えばブラインドデコンボリューション等の画像のぶれを補正する画像処理機能を備え、第2トリガが出力された場合、例えば制御部100が、画像取得部101により取得された画像全体または文字行検出部105により検出された文字候補もしくは文字行もしくはこれらを含む部分画像に対して、当該画像処理機能を作動させるようにしてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10…情報処理装置、100…制御部、101…画像取得部、102…静止検出部、103…画像解析・設定部、104…文字検出辞書記憶部、105…文字行検出部、106…アプリケーション部、107…出力部。

Claims (10)

  1. 画像を取得する画像取得手段と、
    前記画像中から文字を含む第1領域を検出し、前記第1領域の検出結果に基づき、前記画像中から一定数以上の前記第1領域からなる文字行を含む第2領域を検出する文字行領域検出手段と、
    前記画像が撮像されたときの撮像手段の位置的及び姿勢的な変動量を検出する変動量検出手段と、
    前記変動量検出手段により検出される変動量が閾値以下であった場合、前記画像中からの前記第2領域の検出を前記文字行領域検出手段に実行させる制御手段と
    を具備し、
    前記制御手段は、前記文字行領域検出手段により前記第2領域が検出されなかった場合、前記画像中からの前記第1領域の検出または前記第2領域の検出の少なくとも一方に関わる前記文字行領域検出手段の設定を変更し、前記画像中からの前記第2領域の検出を前記文字行領域検出手段に実行させる
    情報処理装置。
  2. 前記画像を解析して前記画像における前記第1領域の検出または前記第2領域の検出の少なくとも一方に適する前記文字行領域検出手段の設定を判定する解析手段をさらに具備し、
    前記制御手段は、前記変動量検出手段により検出される変動量が前記閾値以下であった場合、前記文字行領域検出手段による前記画像中からの前記第2領域の検出の実行前に、前記画像における前記第1領域の検出または前記第2領域の検出の少なくとも一方に適する前記文字行領域検出手段の設定を前記解析手段に判定させて、前記文字行領域検出手段を初期設定する
    請求項1に記載の情報処理装置。
  3. 前記画像が撮像されたときの撮像手段の位置的及び姿勢的な変動量を示す第1オブジェクトと、前記閾値を示す第2オブジェクトとを含み、前記画像が撮像されたときの撮像手段の位置的及び姿勢的な変動量を前記閾値と比較しつつ視覚的に認識可能に提示するアイコンをタッチスクリーンディスプレイ上に表示し、前記第2オブジェクトを移動させるためのタッチ操作が前記タッチスクリーンディスプレイ上で行われた場合、前記閾値を変更するユーザインタフェース手段をさらに具備する請求項1または2に記載の情報処理装置。
  4. 前記制御手段は、前記撮像手段が略等速運動状態にあることが前記変動量検出手段により検出される変動量から判断される場合、時間的に連続して撮像を行う前記撮像手段に対して撮像間隔の短縮を指示する請求項1または2に記載の情報処理装置。
  5. 前記制御手段は、前記撮像手段が略静止状態にあることが前記変動量検出手段により検出される変動量から判断される場合、前記文字行領域検出手段が前記画像中から前記第1領域を検出するために使用する文字検出辞書として第1辞書を設定し、前記撮像手段が略等速運動状態にあることが前記変動量検出手段により検出される変動量から判断される場合、前記文字検出辞書として前記第1辞書とは異なる第2辞書を設定する請求項1、2または4に記載の情報処理装置。
  6. 画像のぶれを補正する画像処理手段をさらに具備し、
    前記制御手段は、前記撮像手段が略等速運動状態にあることが前記変動量検出手段により検出される変動量から判断される場合、前記画像全体または前記文字行領域検出手段により検出される前記第1領域もしくは前記第2領域の部分画像に対して前記画像のぶれの補正を前記画像処理手段に実行させる請求項4または5に記載の情報処理装置。
  7. 前記画像を解析して前記画像が撮像されたときの前記撮像手段が合焦状態にあったか否かを判断する判断手段をさらに具備し、
    前記制御手段は、前記判断手段により前記画像が撮像されたときの前記撮像手段が合焦状態にあったと判断された場合、前記画像中からの前記第2領域の検出を前記文字行領域検出手段に実行させる
    請求項1または2に記載の情報処理装置。
  8. 前記画像が撮像されたときの前記撮像手段が合焦状態にあったか否かを判断可能な情報を取得する情報取得手段をさらに具備し、
    前記制御手段は、前記画像が撮像されたときの前記撮像手段が合焦状態にあったことが前記情報取得手段により取得される情報から判断される場合、前記画像中からの前記第2領域の検出を前記文字行領域検出手段に実行させる
    請求項1または2に記載の情報処理装置。
  9. 画像を取得することと、
    前記画像が撮像されたときの撮像手段の位置的及び姿勢的な変動量を検出することと、
    前記変動量が閾値以下であった場合、前記画像中から文字を含む第1領域を検出し、前記第1領域の検出結果に基づき、前記画像中から一定数以上の前記第1領域からなる文字行を含む第2領域を検出することと、
    前記第2領域が検出されなかった場合、前記画像中からの前記第1領域の検出または前記第2領域の検出の少なくとも一方に関わる設定を変更し、前記画像中からの前記第2領域の検出を実行することと、
    を具備する情報処理方法。
  10. 前記変動量が前記閾値以下であった場合、前記画像中からの前記第2領域の検出の実行前に、前記画像を解析して前記画像における前記第1領域の検出または前記第2領域の検出の少なくとも一方に適する設定を判定し、初期設定を行うことをさらに具備する請求項9に記載の情報処理方法。
JP2015140489A 2015-07-14 2015-07-14 情報処理装置および情報処理方法 Abandoned JP2017021695A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015140489A JP2017021695A (ja) 2015-07-14 2015-07-14 情報処理装置および情報処理方法
US15/060,151 US10121086B2 (en) 2015-07-14 2016-03-03 Information processing apparatus and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015140489A JP2017021695A (ja) 2015-07-14 2015-07-14 情報処理装置および情報処理方法

Publications (1)

Publication Number Publication Date
JP2017021695A true JP2017021695A (ja) 2017-01-26

Family

ID=57775995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015140489A Abandoned JP2017021695A (ja) 2015-07-14 2015-07-14 情報処理装置および情報処理方法

Country Status (2)

Country Link
US (1) US10121086B2 (ja)
JP (1) JP2017021695A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019207645A (ja) * 2018-05-30 2019-12-05 大日本印刷株式会社 文字切り出し装置、文字切り出し方法、及びプログラム
WO2020027282A1 (ja) * 2018-08-02 2020-02-06 日本電信電話株式会社 候補領域推定装置、候補領域推定方法、及びプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6971894B2 (ja) * 2018-03-09 2021-11-24 株式会社東芝 画像処理装置
CN109598185B (zh) * 2018-09-04 2022-09-20 创新先进技术有限公司 图像识别翻译方法、装置、设备及可读存储介质
CN110166621B (zh) * 2019-04-17 2020-09-15 维沃移动通信有限公司 一种文字处理方法及终端设备

Family Cites Families (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2789873B2 (ja) 1991-08-23 1998-08-27 日本電気株式会社 光学文字読取装置
JPH0644405A (ja) 1991-09-20 1994-02-18 Fujitsu Ltd Ocr読み取り位置補正制御装置
JP3576570B2 (ja) 1991-11-19 2004-10-13 ゼロックス コーポレイション 比較方法
CA2077970C (en) 1991-11-19 1999-02-23 Daniel P. Huttenlocher Optical word recognition by examination of word shape
JP3031579B2 (ja) 1991-12-05 2000-04-10 株式会社日立製作所 帳票の文字認識領域指定方法
JP2998383B2 (ja) 1992-01-14 2000-01-11 松下電器産業株式会社 駐車検出装置
JPH05258118A (ja) 1992-03-10 1993-10-08 Sharp Corp 名刺読取装置
JPH05258119A (ja) 1992-03-13 1993-10-08 Sharp Corp 名刺読取装置
US6330358B1 (en) 1993-01-14 2001-12-11 Atr Auditory And Visual Perception Research Laboratories Apparatus for character segmentation and apparatus for character recognition using the same
JPH06245032A (ja) 1993-02-15 1994-09-02 Fujitsu Ltd 光学認識装置
JPH07152857A (ja) 1993-08-27 1995-06-16 Matsushita Electric Ind Co Ltd 運転免許証認識装置
JPH0785215A (ja) 1993-09-14 1995-03-31 Nippon Digital Kenkyusho:Kk 文字認識装置
JPH0793476A (ja) 1993-09-22 1995-04-07 Toshiba Corp 文字列検出装置
JP3443141B2 (ja) 1993-10-05 2003-09-02 株式会社リコー 画像傾き検出方法及び表処理方法
US5410611A (en) 1993-12-17 1995-04-25 Xerox Corporation Method for identifying word bounding boxes in text
JPH07182459A (ja) 1993-12-22 1995-07-21 Matsushita Electric Ind Co Ltd 表構造抽出装置
JP3400151B2 (ja) 1994-12-08 2003-04-28 株式会社東芝 文字列領域抽出装置および方法
JPH08190610A (ja) 1995-01-12 1996-07-23 Oki Electric Ind Co Ltd 光学式文字読取装置
JPH08194776A (ja) 1995-01-17 1996-07-30 Nippon Telegr & Teleph Corp <Ntt> 帳票処理方法及び装置
JPH08315067A (ja) 1995-05-12 1996-11-29 Fujitsu Ltd 文字読取装置
US6188790B1 (en) 1996-02-29 2001-02-13 Tottori Sanyo Electric Ltd. Method and apparatus for pre-recognition character processing
JP3677666B2 (ja) 1996-07-08 2005-08-03 九州電力株式会社 光学的文字認識装置
JPH11203404A (ja) 1998-01-20 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 景観画像中文字読み取り方法およびその装置およびその方法を記録した記録媒体
JP3574562B2 (ja) 1998-03-19 2004-10-06 日本電信電話株式会社 画像内の一連パターンの認識および変形検出方法及びそのプログラムを記録した記録媒体
JP2000030052A (ja) 1998-07-13 2000-01-28 Oki Electric Ind Co Ltd 画像処理装置
JP2000181988A (ja) 1998-12-16 2000-06-30 Hitachi Ltd 光学文字読取装置
JP2001307017A (ja) 2000-04-20 2001-11-02 Fujitsu Ltd 文字プレート認識装置
JP2001331803A (ja) 2000-05-19 2001-11-30 Akira Kurematsu 画像中の文字領域抽出方法
US7031553B2 (en) 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
JP2002117373A (ja) 2000-10-11 2002-04-19 Ntt Advanced Technology Corp アドレス自動入力装置及びその方法、並びに通信端末装置
JP3554703B2 (ja) 2000-10-12 2004-08-18 リバーベル株式会社 情報端末装置
JP4145014B2 (ja) 2001-01-11 2008-09-03 株式会社リコー 画像処理装置
JP4164568B2 (ja) 2001-10-01 2008-10-15 独立行政法人産業技術総合研究所 文字情報入力装置および文字情報入力方法並びに記録媒体
US6922487B2 (en) 2001-11-02 2005-07-26 Xerox Corporation Method and apparatus for capturing text images
JP4383790B2 (ja) 2003-08-06 2009-12-16 日立オムロンターミナルソリューションズ株式会社 携帯情報端末
JP3891981B2 (ja) 2003-11-20 2007-03-14 リバーベル株式会社 情報端末装置
JP2006172083A (ja) 2004-12-15 2006-06-29 Canon Inc 文書登録システム
JP4958497B2 (ja) 2006-08-07 2012-06-20 キヤノン株式会社 位置姿勢測定装置及び位置姿勢測定方法、複合現実感提示システム、コンピュータプログラム及び記憶媒体
JP4774390B2 (ja) 2006-09-13 2011-09-14 株式会社キーエンス 文字切り出し装置、方法およびプログラム
JP2008123245A (ja) 2006-11-13 2008-05-29 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2008234160A (ja) 2007-03-19 2008-10-02 Meiyu Techno Co Ltd 検針メータ読取装置、ハンディーターミナル、および検針システム
JP2008287517A (ja) 2007-05-17 2008-11-27 National Institute Of Information & Communication Technology 強調表示装置及びプログラム
JP2009230411A (ja) 2008-03-21 2009-10-08 Fujitsu Ltd 文字入力システム
JP2009301206A (ja) 2008-06-11 2009-12-24 Fuji Xerox Co Ltd 情報表示装置及びプログラム
KR20100064533A (ko) 2008-12-05 2010-06-15 삼성전자주식회사 카메라를 이용한 문자 크기 자동 조절 장치 및 방법
JP5229050B2 (ja) 2009-03-30 2013-07-03 富士通株式会社 画像からの文書領域抽出装置、方法、及びプログラム
US20120092329A1 (en) * 2010-10-13 2012-04-19 Qualcomm Incorporated Text-based 3d augmented reality
US8989499B2 (en) * 2010-10-20 2015-03-24 Comcast Cable Communications, Llc Detection of transitions between text and non-text frames in a video stream
JP5877335B2 (ja) 2011-04-12 2016-03-08 パナソニックIpマネジメント株式会社 帳票
US8996371B2 (en) * 2012-03-29 2015-03-31 Nice-Systems Ltd. Method and system for automatic domain adaptation in speech recognition applications
JP5992206B2 (ja) 2012-05-28 2016-09-14 株式会社東芝 パターン認識用辞書の学習装置、パターン認識装置、コーディング装置、区分装置、および、パターン認識用辞書の学習方法
WO2014141404A1 (ja) * 2013-03-13 2014-09-18 楽天株式会社 画像処理装置、画像処理方法、および画像処理プログラム
US9640173B2 (en) * 2013-09-10 2017-05-02 At&T Intellectual Property I, L.P. System and method for intelligent language switching in automated text-to-speech systems
WO2015073920A1 (en) * 2013-11-15 2015-05-21 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
EP3089102B1 (en) * 2013-12-03 2019-02-20 ML Netherlands C.V. User feedback for real-time checking and improving quality of scanned image
EP3748953B1 (en) * 2014-01-07 2024-04-17 ML Netherlands C.V. Adaptive camera control for reducing motion blur during real-time image capture
US10410321B2 (en) * 2014-01-07 2019-09-10 MN Netherlands C.V. Dynamic updating of a composite image
US9355336B1 (en) * 2014-04-23 2016-05-31 Amazon Technologies, Inc. Recognizing text from frames of image data using contextual information
US9269009B1 (en) * 2014-05-20 2016-02-23 Amazon Technologies, Inc. Using a front-facing camera to improve OCR with a rear-facing camera
JP6208094B2 (ja) 2014-08-26 2017-10-04 株式会社東芝 情報処理装置、情報処理システム、情報処理方法及びそのプログラム
US9978095B2 (en) * 2014-08-30 2018-05-22 Digimarc Corporation Methods and arrangements including data migration among computing platforms, E.G. through use of steganographic screen encoding
JP6325401B2 (ja) 2014-09-17 2018-05-16 株式会社東芝 情報処理装置、画像変更方法及びプログラム
US10463315B2 (en) * 2014-12-01 2019-11-05 Covidien Lp Adaptive alarm for physiological monitoring
JP6548920B2 (ja) 2015-03-09 2019-07-24 株式会社東芝 情報処理装置、情報処理方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019207645A (ja) * 2018-05-30 2019-12-05 大日本印刷株式会社 文字切り出し装置、文字切り出し方法、及びプログラム
JP7127365B2 (ja) 2018-05-30 2022-08-30 大日本印刷株式会社 文字切り出し装置、文字切り出し方法、及びプログラム
WO2020027282A1 (ja) * 2018-08-02 2020-02-06 日本電信電話株式会社 候補領域推定装置、候補領域推定方法、及びプログラム
JP2020021340A (ja) * 2018-08-02 2020-02-06 日本電信電話株式会社 候補領域推定装置、候補領域推定方法、及びプログラム
JP7028099B2 (ja) 2018-08-02 2022-03-02 日本電信電話株式会社 候補領域推定装置、候補領域推定方法、及びプログラム

Also Published As

Publication number Publication date
US20170017856A1 (en) 2017-01-19
US10121086B2 (en) 2018-11-06

Similar Documents

Publication Publication Date Title
JP2017021695A (ja) 情報処理装置および情報処理方法
CN106803244B (zh) 缺陷识别方法及系统
CN109426835B (zh) 信息处理装置、信息处理装置的控制方法和存储介质
JP6208094B2 (ja) 情報処理装置、情報処理システム、情報処理方法及びそのプログラム
JP5538160B2 (ja) 瞳孔検出装置及び瞳孔検出方法
JP4479756B2 (ja) 画像処理装置及び画像処理方法、並びにコンピュータ・プログラム
CN109934847B (zh) 弱纹理三维物体姿态估计的方法和装置
JP4616120B2 (ja) 画像処理装置及び検査装置
KR102336431B1 (ko) 화상 처리 시스템, 및 화상 처리를 행하기 위한 컴퓨터 프로그램
IL275535B1 (en) Analysis of a captured image to determine a test result
JP4309927B2 (ja) まぶた検出装置及びプログラム
CN111415302B (zh) 图像处理方法、装置、存储介质及电子设备
CN105718931B (zh) 用于确定采集图像中的杂斑的系统和方法
CN110737785B (zh) 一种图片标注的方法及装置
KR102653177B1 (ko) 객체 정보 추출 장치 및 방법
US20190005600A1 (en) Position control system, position detection device, and non-transitory recording medium
US8873839B2 (en) Apparatus of learning recognition dictionary, and method of learning recognition dictionary
JP6548920B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2010103694A (ja) 翻訳機能付きカメラ、及びテキストの表示方法
JP2014238727A (ja) 情報処理装置およびその方法
JP2007025902A (ja) 画像処理装置、画像処理方法
CN107958202B (zh) 人体检测设备、人体检测设备的控制方法和存储介质
JP5835035B2 (ja) 文字認識用のプログラムおよび文字認識装置
JP2012243285A (ja) 特徴点位置決定装置、特徴点位置決定方法及びプログラム
KR101766787B1 (ko) Gpu장치를 기반으로 하는 딥러닝 분석을 이용한 영상 보정 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190111

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20190125