JP2016181182A - 画像処理装置、画像処理方法及びプログラム - Google Patents

画像処理装置、画像処理方法及びプログラム Download PDF

Info

Publication number
JP2016181182A
JP2016181182A JP2015061683A JP2015061683A JP2016181182A JP 2016181182 A JP2016181182 A JP 2016181182A JP 2015061683 A JP2015061683 A JP 2015061683A JP 2015061683 A JP2015061683 A JP 2015061683A JP 2016181182 A JP2016181182 A JP 2016181182A
Authority
JP
Japan
Prior art keywords
character
area
region
image processing
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015061683A
Other languages
English (en)
Inventor
石田 良弘
Yoshihiro Ishida
良弘 石田
洋介 五十嵐
Yosuke Igarashi
洋介 五十嵐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2015061683A priority Critical patent/JP2016181182A/ja
Publication of JP2016181182A publication Critical patent/JP2016181182A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 撮像位置からの距離が互いに相異なる複数の文字領域の同一領域化による文字の誤認識が発生する。
【解決手段】 画像処理装置は、撮像対象を撮像した画像から文字領域を抽出する抽出手段と、前記文字領域に対応する前記撮像対象の部分の奥行情報を保持する保持手段と、前記奥行情報に基づいて、前記撮像対象が前方部分と後方部分を含む複数の部分からなると判定される場合に、前記文字領域を、前記前方部分に対応する第一文字領域と前記後方部分に対応する第二文字領域とを含む複数の文字領域に分割する分割手段と、を有することにより、文字の誤認識を抑制する。
【選択図】 図3

Description

本発明は、画像から文字領域を抽出する画像処理装置、画像処理方法及びプログラムに関する。
撮像された画像を解析して情報を取り出すことで、大量の画像の取り扱いを容易にすることが試みられている。例えば、観光地において撮像された記念写真に名所等の名称が記載された碑や看板が写っていれば、文字認識により撮像場所が特定可能になる。
そこで、撮像された画像から文字領域を検出し文字認識することで、文字情報を取り出す手法が開示されている(例えば非特許文献1)。また、特許文献1では、入力画像から道路標識にある数字を認識することを行っている。画素グループに属する異なる画素それぞれに対応する実空間における奥行き値の差が所定値以上の場合には、その画素グループは道路標識ではないと考えられるので、文字認識の処理対象とせず、処理負荷を減らしている。そして、実空間における奥行き値の差が小さい画素グループに対して、テンプレートサイズを計算してテンプレートマッチングの処理を行い道路標識にある数字を認識している。
特開2010−224918号公報 US2012/0249550
Epshtein他、「Detecting text in natural scenes with stroke width transform」、CVPR 2010 Conference on Computer Vision and Pattern Recognition、2963−2970 Merino−Gracia他、「A head−mounted device for recognizing text in natural scenes」、CBDAR 2011 Proceedings of the 4th international conference on Camera−Based Document Analysis and Recognition、29−41
しかしながら、同一画像内に、それぞれ独立した、互いに相異なる文字列を含んだ複数の文字領域が存在することも少なくない。撮像時に画角内に撮像位置からの距離が異なる複数の被写体が存在する場合がある。この場合、複数の被写体のそれぞれに互いに独立した文字領域が含まれている状況では、それら複数の被写体間の位置関係によっては、複数の文字領域が隣接した状態となって撮像されることも少なくない。従来技術では、本来は、それぞれに互いに独立した複数の文字領域が、隣接した状態となって撮像された場合、隣接した文字領域の間にある境界線は認識されないので、まとまった一つの文字領域として抽出されてしまう。
例えば、一般参加型マラソン大会等の参加者を撮像した写真からゼッケン番号を自動的に抽出する場合、それぞれにゼッケンをつけた複数の人物が、撮像位置からの距離が異なるが、同一の写真に収まっていることが多々ある。この様な場合に、ゼッケン番号を認識することにより、当該写真内に写った人物を同定しようとすると、複数のゼッケン領域が連続して一つのゼッケン領域として抽出される可能性があるので、正しいゼッケン番号にそれぞれ分けて認識できない課題がある。また、画像情報と奥行情報を同時に使って、文字領域を分離する場合は、画像全体について画像情報に奥行情報を加えて処理することになるので、処理負荷が高くなる課題がある。
本発明は上記の問題に鑑みてなされたもので、低い処理負荷で、撮像位置からの距離が異なる複数の文字領域を含む画像から正しく分離された文字領域を特定することを目的とする。
かかる課題を解決するため、本発明に係る画像処理装置は、以下の構成を備える。すなわち、画像処理装置は、撮像対象を撮像した画像から文字領域を抽出する抽出手段と、前記文字領域に対応する前記撮像対象の部分の奥行情報を保持する保持手段と、前記奥行情報に基づいて、前記撮像対象が前方部分と後方部分を含む複数の部分からなると判定される場合に、前記文字領域を、前記前方部分に対応する第一文字領域と前記後方部分に対応する第二文字領域とを含む複数の文字領域に分割する分割手段と、を有することを特徴とする。
本発明によれば、低い処理負荷で、撮像位置からの距離が異なる複数の文字領域を含む画像から正しく分離した文字領域を特定することができる。
本実施形態の画像処理装置のハードウエア構成例、及び機能構成例を示すブロック図である。 第1の実施形態における処理対象の一例を示す図である。 第1の実施形態における画像中の文字情報を認識する処理の流れを説明するフローチャートである。 第1の実施形態における文字領域抽出の流れを説明するフローチャートである。 第1の実施形態における文字領域の抽出例を示す図である。 第1の実施形態における注目領域を特定する流れを説明するフローチャートである。 第1の実施形態における特定された注目領域を説明する図である。 第1の実施形態における特定された注目領域の特徴を説明図である。 第1の実施形態における奥行値の頻度分布の例を示す図である。 第2の実施形態における処理対象の一例を示す図である。 第2の実施形態における文字領域の抽出例を示す図である。 第2の実施形態における文字領域の抽出処理を説明する図である。 第2の実施形態における文字領域抽出の流れを説明するフローチャートである。
以下、本発明を実施する好適な形態について図面を用いて説明する。
(第1の実施形態)
図1(a)は、本実施形態の画像処理装置のハードウエア構成の例である。画像処理装置は本装置の処理を行うCPU102、制御プログラムを格納するROM103、処理中のデータ等を一時記憶するRAM104、磁気ディスク等の外部記憶装置105などを含む。ROM103には、後述するフローチャートに示す本装置の処理プログラムが格納されていてもよい。なお、CPU102は複数あっても良い。
画像処理装置はネットワークインターフェース106を介して、LANやWANと接続し、遠隔地の装置と通信を行う。また、画像処理装置に本装置の操作を行うキーボード等の操作部107、本装置の状態や作業者への情報を表示する表示部108、外部の撮像装置110と通信する通信インターフェース109が含まれる。本実施形態の撮像装置110に、撮像対象の奥行情報を生成する生成手段(非図示)が含まれる。撮像対象の奥行情報は、生成手段から撮像対象までの距離を示す奥行値を含む情報である。なお、タッチパネル液晶モニターのように、操作部108と表示部107が一体となっていてもよい。
後述するフローチャートに示す本装置の処理プログラムは、外部記憶装置105に記憶したものや、ネットワークインターフェース106を介して外部から供給されたものを、CPU102の制御の元、RAM104に展開するように構成されていてもよい。
これら各構成要素はシステムバス101上に配置される。
なお、本実施形態の画像処理装置のハードウエア構成として、汎用コンピュータを用いてもよい。
図1(b)は、第1の実施形態の画像処理装置の機能構成の例を示すブロック図である。画像処理装置111に非図示の画像入力部から画像処理の対象となる画像が入力されたとする。文字領域抽出部112は、入力された画像から文字領域を抽出する。距離画像取得部113は、入力された画像に対応する距離画像を取得し、距離画像から画素ごとの奥行値を示す奥行情報を取得する。奥行情報保持部114は、取得された奥行情報を保持する。画像解析部115は本実施形態の各種解析や処理を行う。さらに、領域分割部116と領域拡張部117が画像解析部115に含まれている。領域分割部116および領域拡張部117の処理の詳細は、それぞれ第1の実施形態および第2の実施形態で説明する。文字認識部118は、特定の文字領域の画像に対して、文字認識処理を行う。
図2は、図1の画像処理装置が処理する画像の一例である、一般競技者が参加する市民マラソンやロードレースを撮像した画像である。撮像された画像をデータ又は印刷された写真の形式で希望者に提供するために、画像情報からゼッケン番号で検索可能となっている必要がある。本実施形態の画像処理装置を用いて、図2に例示する画像に写っている参加者のゼッケン番号を読み取り、その画像に紐付けて記録する。
次に、本実施形態で画像処理装置が実行する、画像から文字情報を読み取る処理の流れを、図3のフローチャートを参照して説明する。以下、フローチャートは、CPUが制御プログラムを実行することにより実現されるものとする。
ステップS301で非図示の画像入力部は処理を行う画像を入力し、RAM104に記憶する。ステップS302において、距離画像取得部113はステップS301で入力された画像に対応する距離マップ画像(距離画像)を取得し、奥行情報を取得する。取得された距離画像や奥行情報は、RAM104上のステップS301で入力した画像とは、異なるメモリ領域に記憶される。尚、前記距離マップ画像とは、前記入力された画像の各画素が、撮像時に撮像位置からどの程度離れた位置にある被写体部分から得られたものかを与える奥行情報(奥行値)を、前記入力された画像の各画素に対応する画素の画素値としてもつ画像である。以降、距離マップ画像を単に距離画像と称することがある。
上記入力画像と対応する距離画像は、例えば、特許文献2に記載のライトフィールド写真(light field photograph)によるデータ(特許文献2のFig.11等に開示されるデータ)から得られる。また、撮像装置をメインカメラとサブカメラの2台のカメラを一対にしたカメラセットとして構成し、これら2台のカメラ間の相対的な配置を予め定めた既知の状態にしたステレオカメラを用いて被写体を撮像したものを用いても良い。ステレオカメラで同一被写体を撮像した際に得られる、メインカメラとサブカメラからの一対の画像から、公知のステレオマッチング処理によって距離画像を得ることができる。この時のメインカメラからの画像と前記公知のステレオマッチング処理により得られた距離画像とを合わせて、上述の入力画像と上述の距離マップ画像として用いることもできる。また、一台のカメラのみで画像Tを撮像すると同時に赤外光等を画像Tに撮像された撮像対象に照射し、その反射光の情報に基づいて画像Tに撮像された撮像対象までの距離Zを測定する測距装置等で距離画像を得たものでもよい。この様な測距装置は公知の光飛行時間(TOF:time of flight)型距離センサ等で実現されている。
さて、かくして、ある画像とその画像に対応する距離画像を取得すると、ステップS303に進む。ステップS303において、文字領域抽出部112は入力された画像から文字領域を抽出する。なお、ステップS302とステップS303の処理の順番を入れ替えてもよい。ステップS303の文字領域の抽出処理を行ってから、ステップS302の奥行値の取得処理を行う場合は、抽出された文字領域の画素だけについて、対応する奥行値を距離画像から取得すればよい。入力画像の全画素について奥行値を取得しなくてよいので、処理負荷が小さい。
ここで、ステップS303の文字領域の抽出処理について、図4のフローチャートを使用して詳細に説明する。
ステップS401では、ステップS301で入力された画像から画素塊を生成する。画素塊の生成は、例えば画像を2値化し、黒画素を抽出する等で実現できる。更に、入力画像を複数のレベルで2値化し、得られた複数の2値画像から安定的な画素塊を取り出すことで、ノイズを低減した画素塊が抽出可能である(非特許文献2)。
ステップS402では、ステップS401で得られた画素塊から、文字領域である可能性が高い画素塊を判定する。これは、画素塊の大きさ、画素塊を囲む矩形内でその画素塊を構成する画素の密度、同矩形領域の縦と横のサイズの比(アスペクト比)等の特徴をあらかじめ学習した識別器を用いて実施できる。ステップS401で得られた画素塊のうちステップS402で文字領域と判定された以外の画素塊は非文字とみなし、ステップS403で処理対象から削除する。
次に、ステップS404において、選択された画素塊を、その位置関係を用いてまとめていく。これにより、文字の一部を構成する複数の画素塊が一つのグループとしてまとまり、文字領域候補となる。
ステップS405では、ステップS404で得られた画素塊のグループの背景部を解析し、グルーピングされた画素塊が文字領域であるか否か、あるいは、同一文字領域の画素塊であるか否か等を判断する。
これまでの処理で得られた画素塊グループおよびその背景部の情報から、ステップS406において文字領域を決定する。この処理ステップにおいて、グルーピングされた画素塊同士をさらに結合したり、不要な画素塊を削除したりすることで、最終的な文字領域が確定する。なお、説明した図4に示す処理の流れは文字領域の抽出処理の一例であり、図4の流れに限るものではない。この様に、文字領域抽出処理は、距離マップ画像や奥行情報を用いることなく、入力画像から文字抽出処理により文字領域を得る処理である。
図2に示す画像を入力画像とし、図4で示した文字領域の抽出処理を用いて、ステップS303で実施する文字領域の抽出処理を行うことにより得られた、文字領域の様子を図5に示した。同図において、領域51と領域52とで示される破線で囲まれる領域が抽出される文字領域の例を表わしている。領域51で表わされる領域を図7(a)に示した。この領域51内の文字部のみを表わしたのが図7(b)である。即ち、文字領域である領域51を直接ステップS305で示す文字認識処理を行うと、『X0』を除いた『1234』なる文字列として認識したいところを、両者を混同した『X01234』なる文字列として誤認識してしまう、という課題があった。
さて、ステップS303の処理を終えると、ステップS304に進む。ステップS304では、ステップS303で得られた文字領域と、ステップS302で取得された距離画像を用いて注目領域を特定する。
ここで、ステップS304の注目領域の特定処理について、図6のフローチャートを使用して詳細に説明する。
ステップS601では、距離マップ画像(距離画像)において、ステップS303で抽出された文字領域に対応する領域中の各画素の奥行情報である奥行値をもとに、文字領域に奥行値の範囲が異なる領域が混在しているか否かを判定する。即ち、処理対象とする文字領域の各画素の奥行値の頻度分布(対象文字領域中で、それぞれの奥行値をもつ画素数の分布)をとる。発生頻度が低い(画素数の少ない)奥行値をもつ画素をノイズ画素として無視する。その上で、発生頻度(画素数の)分布が、複数の山に分かれずに一連なりにまとまった形の単峰性となっているか否かを判定する。即ち、文字領域に対応する撮像対象の奥行値は連続する範囲にあるか否かを判定する。単峰性となっている場合には、文字領域に対応する撮像対象の部分の奥行値は連続する範囲にあるので、奥行値の範囲が異なる領域は混在していないと判断してステップS604に進む。単峰性となっていない場合には、文字領域に対応する撮像対象の部分の奥行値は連続しない範囲にあるので、文字領域に奥行値の範囲が異なる領域は混在しているものと判断し、ステップS602に進む。
図9(a)は、単峰性の頻度分布の典型的な例を表わしている。同図の頻度分布93は、図5の領域52に対応する距離画像上の画素奥行値の頻度分布の例を表現している。一方、図9(b)は、単峰性の頻度分布ではく、双峰性の頻度分布となっている例である。同図は、図5の領域51に対応する距離画像上の画素奥行値の頻度分布の例を表現している。図5の領域52の場合では、同一人物の胸部のゼッケンに描かれる文字領域であり、同領域に対応する距離マップ画像中の領域内の各画素の示す奥行値は、所定距離範囲内に収まる値(距離データ)となる。一方、同図の領域51の場合には、前方にいる(撮像位置に近い)人物の胸部のゼッケンに描かれる文字領域と、後方にいる(撮像位置に遠い)人物の胸部のゼッケンに描かれる文字領域とで、それぞれ異なる奥行値の範囲を有する二つの画素群に分かれる。図9(b)における頻度分布92が前方にいる(撮像位置に近い)人物の胸部のゼッケンに描かれる文字領域、頻度分布91が後方にいる(撮像位置に遠い)人物の胸部のゼッケンに描かれる文字領域に対応する。領域分割部116は、奥行情報に基づいて、文字領域51を、頻度分布92と対応する文字領域と、頻度分布91と対応する文字領域と、の二つの文字領域に分割する。なお、奥行情報に基づいて、一つの文字領域から生成した領域情報は二つに限らず、領域情報生成部114は文字領域51を二つ以上の文字領域に分割してもよい。
ステップS602では、奥行情報に基づいて、処理対象の文字領域51を分割する。その結果、ステップS601で作成した頻度分布データから、異なるまとまりとなった分布の峰毎に画素のグループ分けが行われる。上述の図9(b)の例では、頻度分布91を構成する画素群と頻度分布92を構成する画素群とをそれぞれ異なる領域として分割される。図8にこの様子を示した。同図において、領域81と領域82が、図9(b)における頻度分布91と頻度分布92にそれぞれ対応する。尚、図8の領域81と領域82は、図5で示される領域51を分割したものとなっている。
次にステップS603では、領域分割部116は、奥行情報に基づいてステップS602で分割された複数の領域の中で最も距離が近い、即ち、撮像位置に最も近い領域を同定し、これを撮像対象の前方部分として特定する。先述の図9(b)においては、頻度分布92の方が頻度分布91よりも距離が近い(奥行値が小さい)画素群に相当するので、頻度分布92に対応する図8の領域82に示す撮像対象の前方部分の領域を注目領域として特定する。かくして、領域分割部116は、図5の領域51で示した文字領域に対しては、図8の領域82に示す領域を注目領域として特定するものである。なお、図8の領域81に示す撮像対象の後方部分の領域をさらに注目領域として特定することもできる。図8の領域81に対しても文字認識処理を行う場合に、このように注目領域としてさらに特定することになる。
一方、ステップS604では、処理対象の文字領域そのものを注目領域として特定する。上述の図9(a)の例では、図5の領域52に対応する距離画像上の画素奥行値の頻度分布93のみとなっている。頻度分布93に対応する画素群から構成される文字領域は、図8の領域83であり、これは、図5の領域52そのものである。
以上、ステップS304の注目領域の特定処理の結果、図5の領域51は、図7(c)の様に分割され、図7(d)の破線で囲まれた部分が注目領域として特定されることとなる。
次に、ステップS305で、文字認識部118はステップS304で特定された注目領域の画像に対して、文字認識処理を行う。
かくして、上述の如く、図5の領域51からは、図7(d)の破線で示した『1234』なる文字列を認識することができ、撮像位置からの撮像対象までの距離(奥行値)が互いに相異なる複数の文字領域を正確に分離して、文字認識が可能となる。なお、本実施形態では、例として、撮像位置に最も近い領域のみを特定して文字認識処理を行っているが、これに限る必要はない。撮像位置から最も遠い領域のみを特定したり、撮像位置から近い領域と撮像位置から遠い領域との両方の領域を特定したりして文字認識処理をすることもできる。
上記の説明において、ステップS601で文字領域中での奥行値の範囲の異なる領域の混在判定に、同領域に対応する距離画像から得られた各画素の奥行値の頻度分布を用いる方法を説明したが、本実施形態はこれに限らない。例えば、公知のクラスタリング手法を用いても良いのはもちろんである。即ち、距離画像から得られた各画素の奥行値間の差分が既定の範囲内にあるか否かでクラスタリングする。範囲内にある場合には、同一クラスタにある画素とし、範囲内には無い画素同士は、互いに異なるクラスタに分類するようにする。領域分割部116は、互いに異なるクラスタに対応する領域を分割する。その結果、複数のクラスタに分割される場合には、奥行値の範囲の異なる領域が混在すると判定し、そうではない場合には、奥行値が全て同一とみなせる範囲にある領域であると判定しても良い(ステップS601)。この場合には、クラスタ毎にそれぞれが独立した奥行値の範囲にある文字領域として分割し(ステップS602)、撮像位置に最も近い文字領域を注目領域として特定すれば良い(ステップS603)。尚、全て同一とみなせる奥行値の範囲にある領域である場合には、処理対象の文字領域をそのまま注目領域とすれば良い(ステップS604)。
本実施形態では、画像から抽出された文字領域が得られた後に、文字領域に絞って奥行情報を用いるので、低い処理負荷で撮像位置から撮像対象までの距離が異なる複数の文字領域を含む画像から正しく分離された文字領域を特定することができる。
(第2の実施形態)
以下、第2の実施形態を説明する。本実施形態の画像処理装置の構成図は前述の第1の実施形態と同一であるので説明を省略する。
本実施形態においては、撮像位置から見て、文字列領域がそれよりも手前にある物体により一部遮蔽されている場合を想定する。図10に典型的な例を示した。同図においては、胸部に文字列を含むゼッケンを有する競技者が、自身の右腕で文字列領域に当たる領域の一部を遮蔽している状況を示している。この様な場合には、上述の第1の実施形態のステップS303の文字領域の抽出処理を進めると、図11の領域111に示す様に、文字列中の遮蔽されていない部分のみが文字列領域として抽出されることとなる。本実施形態では、この様に一部が遮蔽されていたとしても、従前と比べ、可能な限り文字列の一部とみなされる部分領域をも含めて文字領域として抽出する実施形態を説明する。
本実施形態は、第1の実施形態における図3のステップS304での注目領域を特定する処理内容の一部と異なるものである。図3のステップS303、及び、図4の文字領域抽出まで、および、ステップS305の文字認識の部分に関しては、前述の第1の実施形態と同一である。
ステップS304での処理を説明する図6を用いて、本実施形態と第1の実施形態との違いを説明する。第1の実施形態では、ステップS601では、文字領域に対応する領域中の各画素の奥行情報である奥行値をもとに、文字領域に奥行値の範囲が異なる領域が混在していないと判定された場合に、入力された文字領域を注目領域として特定して処理を終了する。一方、本実施形態では、文字領域に奥行値の範囲の異なる領域が混在していないと判定された場合には、さらに文字領域を拡張して、再度文字領域を抽出する処理を行う。以下、図10〜13を用いて、その処理の詳細を説明する。
図10を本実施形態の入力画像とした場合の、図11の領域111付近に抽出された文字領域付近の部分領域を図12に示した。図12(a)は、図4のステップS401で説明した、この部分領域での画素塊の様子を示している。図12(b)は、この場合に存在する3つの画素塊のそれぞれを外接矩形121、122、および、123で囲んで示したものである。ここで、図4のステップS402で説明した文字領域画素塊の選択の処理において、それぞれの画素塊の大きさや画素塊、囲む矩形内でその画素塊を構成する画素密度、同矩形のアスペクト比等の特徴等に基づいて、文字領域画素塊を選択する。その結果、外接矩形122、123で囲まれる画素塊は、文字領域画素塊として選択され、外接矩形121で囲まれる画素塊は、画素塊を構成する画素数は大きく、アスペクト比も文字領域画素塊とするには特殊である等、選択されない。次に図4のステップS403で説明した非文字領域画素塊の削除の処理により、外接矩形122、123で囲まれる画素塊のみが残される。残された結果を図12(c)に示した。続いて、図4のステップS404〜ステップS406で説明した処理の結果として、文字領域として抽出される領域を図12(d)に示した。図12(d)の領域124は、図11の領域111に対応している。
以上、図10を入力画像とした場合に沿って、前述の第1の実施形態における文字領域抽出の処理までを説明した。即ち、図6を用いて説明した第1の実施形態での注目領域の特定処理では、文字領域に互いに奥行値の異なる範囲にある複数の領域の混在がないため、文字領域そのものが注目領域として特定されることとなる。
以降、本実施形態における文字領域抽出処理を図13に示すフローチャートを用いて説明する。
ステップS1301では、拡張領域生成部117は、文字領域を上下左右の近傍に、予め定める規則に従って、拡張した拡張領域を生成する。上述の図12(d)に示した、文字領域124の場合で説明すると、文字領域124の上下にそれぞれ文字領域124の縦方向のサイズ分、文字領域124の左右にそれぞれ文字領域124の横方向のサイズ分の領域拡張を行う。拡張された拡張領域125と拡張のもとになる文字領域124との関係を図12(e)示す。拡張領域125が、拡張された領域サイズを示している。拡張領域125は文字領域124に比し、横方向に3倍、縦方向にも3倍のサイズを有することになる。図12(f)は、拡張領域125内に存在する画素塊の様子を示している。
ステップS1302では、拡張領域125に対応する距離画像の領域情報を参照して、拡張領域125内の何れかの画素塊を構成する画素群で、文字領域124の距離範囲よりも撮像位置に近い距離範囲にあるものがあるかを判定する。存在する場合には、ステップS1303に進み、存在しない場合には、ステップS1306に進む。
ステップS1303では、拡張領域125内で、文字領域の画素塊を構成する画素群に対応する撮像対象の部分の奥行値の範囲とは異なる(連続しない)範囲に、他の画素群に対応する撮像対象の部分の奥行値が属するので、この他の画素群で構成される領域を除去する。具体的に、領域分割部116は奥行値の範囲に基づいて、拡張領域を、文字領域の画素塊を含む領域と文字領域以外の画素塊を含む領域とに分割し、文字領域の画素塊を含む領域を注目領域とする。そして、拡張領域内の注目領域の画素塊をもとに、ステップS402と同様な要領で、改めて文字領域画素塊を判定する。
図12(g)の領域126は、図12(f)における除去対象画素群を示しており、領域126を除去した結果を図12(h)に示した。尚、図12(i)は、図12(h)で点線で示した仮想的な領域境界を表示しない状態で表記したものである。図12(i)で示した拡張領域125内の注目領域の画素塊をもとに、ステップS402と同様な要領で、改めて文字領域画素塊を判定した結果を図12(j)に示した。
ステップS1304では、拡張領域125内で、ステップS1303で判定した文字領域画素塊の中で、ステップS1303において削除された領域、即ち、隠れ部分を構成する画素群でなる領域と接していない画素塊に着目する。着目する画素塊、即ち、文字領域画素塊からその外接矩形を仮想的に設定する等により、文字領域サイズを推定する。図12(j)で示した画素塊の中では、129と130で示した外接矩形で囲まれる画素塊が、着目される画素塊であり、これら外接矩形のサイズをもって文字領域サイズの推定値とする。例えば、129と130の外接矩形の高さの平均と横幅の平均をもって、改めて抽出しようとする文字領域の縦横サイズを推定する。
ステップS1305では、拡張領域125内で隠れ部分を構成する領域と接する画素塊から検出された文字領域画素塊の中で、所定値内に収まるサイズをもつものがあれば、これを選択する。その上で、ステップS1304で着目した文字領域画素塊と、直前に述べた、選択した文字領域画素塊がある場合はこれをも加えた文字領域画素塊とで構成される文字領域を改めて抽出された文字領域とする。図12(j)においては、外接矩形128で囲まれる画素塊がステップS1305で追加される画素塊となり、図12(k)の破線で囲まれる領域131が、改めて抽出された文字領域として出力される。
ステップS1306では、隠れ部分がないので、既に抽出された文字領域がそのまま文字領域として出力される。
尚、ステップS1301で説明した文字領域を拡張して、拡張領域を定める際の拡張の仕方は、上述の方法に限るものではない。例えば、上下左右に既定サイズ(固定値)を加えるように定めてもよいし、あるいは、拡張前の領域の縦横サイズの半分をそれぞれ上下、左右に加えるようなものであってもよいのはもちろんである。
以上説明したように、本実施形態では、撮像位置から見て、文字列領域がそれよりも手前にある物体により一部遮蔽されている場合に、従前に比し、文字列領域に含まれる文字をより正確に抽出し、認識可能とするものである。
なお、本実施形態ではゼッケン番号を用いて説明したが、これに限定されるものではない。例えば、自然画像中の看板や標識、ナンバープレート等の文字領域が何らかの物体により一部隠されている場合や、撮像方向に対する文字領域を含む物体間の配置により撮像位置からの距離が異なる複数の文字領域が重なって撮像された場合等にも有効である。
なお、上述の第2の実施形態のステップS1305の説明での、拡張領域125内で隠れ部分を構成する領域(画素群)と接する画素塊から検出された文字領域画素塊の扱いは、上述の扱いに限るものではない。即ち、ステップS1304で推定された文字領域サイズよりも小さな外接矩形のサイズとなる画素塊であっても、本来、何らかの文字の一部が隠されたことによって外接矩形となっていると考え、何らかの文字の部分文字として文字認識対象としても良い。この場合は、推定サイズと実際の画素塊のサイズとから、文字認識結果の信頼度となる何らかの指標を規定し、当該画素塊をその一部として含む文字の候補を選び出す等の処理を行う様にしてもよい。例えば、推定サイズの文字パターンの部分パターンとの公知の方法によるパターンマッチングを行うことにより、部分的に一致する文字を認識又は同定するようにしてもよい。
この場合でも、この部分に関しては、確度の高い文字認識は期待できないものの、候補となる文字を提示するようなシステム構成に用いることが可能である。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
101 システムバス
102 CPU
103 ROM
104 RAM
105 外部記憶装置
106 ネットワークインターフェース
107 表示部
108 操作部

Claims (12)

  1. 撮像対象を撮像した画像から文字領域を抽出する抽出手段と、
    前記文字領域に対応する前記撮像対象の部分の奥行情報を保持する保持手段と、
    前記奥行情報に基づいて、前記撮像対象が前方部分と後方部分を含む複数の部分からなると判定される場合に、前記文字領域を、前記前方部分に対応する第一文字領域と前記後方部分に対応する第二文字領域とを含む複数の文字領域に分割する分割手段と、
    を有することを特徴とする画像処理装置。
  2. 前記撮像対象が複数の部分からなると判定されなかった場合、前記文字領域を拡張して拡張領域を生成する拡張手段と、をさらに有し、
    前記保持手段は、前記拡張領域に対応する前記撮像対象の部分の奥行情報をさらに保持し、
    前記拡張領域に対応する前記撮像対象の部分の前記奥行情報に基づいて、前記拡張領域に対応する前記撮像対象が複数の部分からなると判定される場合に、前記分割手段は、前記拡張領域を、前記文字領域を含む第三文字領域と前記第三文字領域以外の領域とに分割することを特徴とする請求項1に記載の画像処理装置。
  3. 前記奥行情報は、前記画像処理装置の外部にある生成手段によって生成され、前記生成手段から前記撮像対象までの距離を示す奥行値であることを特徴とする請求項1又は2に記載の画像処理装置。
  4. 前記奥行情報が示す奥行値は、連続しない範囲にある場合は、前記撮像対象が前記複数の部分からなると判定されることを特徴とする請求項1乃至3の何れか1項に記載の画像処理装置。
  5. 前記拡張手段は、前記文字領域の左右に、前記文字領域の横方向のサイズ分をそれぞれ拡張することによって、前記拡張領域を生成することを特徴とする請求項2に記載の画像処理装置。
  6. 前記拡張手段は、さらに、前記文字領域の上下に、前記文字領域の縦方向のサイズ分をそれぞれ拡張することによって、前記拡張領域を生成することを特徴とする請求項5に記載の画像処理装置。
  7. 少なくとも前記第一文字領域に対して、文字認識処理を行う文字認識手段をさらに有することを特徴とする請求項1乃至6の何れか1項に記載の画像処理装置。
  8. 前記文字認識手段は、さらに、前記第二文字領域に対して、文字認識処理を行うことを特徴とする請求項7に記載の画像処理装置。
  9. 前記文字認識手段は、さらに、前記第三文字領域に対して、文字認識処理を行うことを特徴とする請求項7又は8に記載の画像処理装置。
  10. 前記文字認識手段は、前記第三文字領域に対して文字認識処理を行う際に、前記文字領域に対する文字認識処理で得られた文字のサイズに基づいて文字認識処理を行うことを特徴とする請求項9に記載の画像処理装置。
  11. 撮像対象を撮像した画像から文字領域を抽出する抽出工程と、
    前記文字領域に対応する前記撮像対象の部分の奥行情報を保持手段に保持させる保持工程と、
    前記奥行情報に基づいて、前記撮像対象が前方部分と後方部分を含む複数の部分からなると判定される場合に、前記文字領域を、前記前方部分に対応する第一文字領域と前記後方部分に対応する第二文字領域とを含む複数の文字領域に分割する分割工程と、
    を有することを特徴とする画像処理方法。
  12. 撮像対象を撮像した画像から文字領域を抽出する抽出ステップと、
    前記文字領域に対応する前記撮像対象の部分の奥行情報を保持手段に保持させる保持ステップと、
    前記奥行情報に基づいて、前記撮像対象が前方部分と後方部分を含む複数の部分からなると判定される場合に、前記文字領域を、前記前方部分に対応する第一文字領域と前記後方部分に対応する第二文字領域とを含む複数の文字領域に分割する分割ステップと、
    をコンピュータに実行させることを特徴とするプログラム。
JP2015061683A 2015-03-24 2015-03-24 画像処理装置、画像処理方法及びプログラム Pending JP2016181182A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015061683A JP2016181182A (ja) 2015-03-24 2015-03-24 画像処理装置、画像処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015061683A JP2016181182A (ja) 2015-03-24 2015-03-24 画像処理装置、画像処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2016181182A true JP2016181182A (ja) 2016-10-13

Family

ID=57132631

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015061683A Pending JP2016181182A (ja) 2015-03-24 2015-03-24 画像処理装置、画像処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2016181182A (ja)

Similar Documents

Publication Publication Date Title
CN103578116B (zh) 用于跟踪对象的设备和方法
KR101538935B1 (ko) 깊이 차이를 이용한 얼굴 구성요소의 자동 분류 방법
CN106326832B (zh) 基于物体区域处理图像的装置及方法
KR101870902B1 (ko) 영상 처리 장치 및 영상 처리 방법
EP3163509A1 (en) Method for region extraction, method for model training, and devices thereof
US20120092329A1 (en) Text-based 3d augmented reality
WO2016187888A1 (zh) 基于字符识别的关键词通知方法及设备、计算机程序产品
US9171222B2 (en) Image processing device, image capturing device, and image processing method for tracking a subject in images
EP3300022A1 (en) Image processing apparatus, image processing method, and program
US10079974B2 (en) Image processing apparatus, method, and medium for extracting feature amount of image
KR20160057867A (ko) 디스플레이 장치 및 그에 의한 이미지 처리 방법
TW201222288A (en) Image retrieving system and method and computer program product thereof
EP3093822B1 (en) Displaying a target object imaged in a moving picture
CN104463134B (zh) 一种车牌检测方法和系统
CN106295640A (zh) 一种智能终端的物体识别方法和装置
JP2021108193A (ja) 画像処理装置、画像処理方法、及びプログラム
US20180184012A1 (en) Image processing apparatus, control method, and storage medium
US10891740B2 (en) Moving object tracking apparatus, moving object tracking method, and computer program product
JP4348028B2 (ja) 画像処理方法、画像処理装置、撮像装置及びコンピュータプログラム
JP5027201B2 (ja) テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム
JP2016053763A (ja) 画像処理装置、画像処理方法及びプログラム
CN116958795A (zh) 翻拍图像的识别方法、装置、电子设备及存储介质
JP2010271921A (ja) 皮膚領域抽出方法、皮膚領域抽出装置、および皮膚領域抽出プログラム
CN107491778B (zh) 一种基于定位图像的智能设备屏幕提取方法和系统
CN116051736A (zh) 一种三维重建方法、装置、边缘设备和存储介质