JP2016181182A

JP2016181182A - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP2016181182A
Application number: JP2015061683A
Authority: JP
Inventors: 石田　良弘; Yoshihiro Ishida; 良弘石田; 洋介五十嵐; Yosuke Igarashi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-03-24
Filing date: 2015-03-24
Publication date: 2016-10-13

Abstract

【課題】撮像位置からの距離が互いに相異なる複数の文字領域の同一領域化による文字の誤認識が発生する。
【解決手段】画像処理装置は、撮像対象を撮像した画像から文字領域を抽出する抽出手段と、前記文字領域に対応する前記撮像対象の部分の奥行情報を保持する保持手段と、前記奥行情報に基づいて、前記撮像対象が前方部分と後方部分を含む複数の部分からなると判定される場合に、前記文字領域を、前記前方部分に対応する第一文字領域と前記後方部分に対応する第二文字領域とを含む複数の文字領域に分割する分割手段と、を有することにより、文字の誤認識を抑制する。
【選択図】図３

Description

本発明は、画像から文字領域を抽出する画像処理装置、画像処理方法及びプログラムに関する。

撮像された画像を解析して情報を取り出すことで、大量の画像の取り扱いを容易にすることが試みられている。例えば、観光地において撮像された記念写真に名所等の名称が記載された碑や看板が写っていれば、文字認識により撮像場所が特定可能になる。
そこで、撮像された画像から文字領域を検出し文字認識することで、文字情報を取り出す手法が開示されている（例えば非特許文献１）。また、特許文献１では、入力画像から道路標識にある数字を認識することを行っている。画素グループに属する異なる画素それぞれに対応する実空間における奥行き値の差が所定値以上の場合には、その画素グループは道路標識ではないと考えられるので、文字認識の処理対象とせず、処理負荷を減らしている。そして、実空間における奥行き値の差が小さい画素グループに対して、テンプレートサイズを計算してテンプレートマッチングの処理を行い道路標識にある数字を認識している。

特開２０１０−２２４９１８号公報ＵＳ２０１２／０２４９５５０

Ｅｐｓｈｔｅｉｎ他、「Ｄｅｔｅｃｔｉｎｇｔｅｘｔｉｎｎａｔｕｒａｌｓｃｅｎｅｓｗｉｔｈｓｔｒｏｋｅｗｉｄｔｈｔｒａｎｓｆｏｒｍ」、ＣＶＰＲ２０１０ＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ、２９６３−２９７０Ｍｅｒｉｎｏ−Ｇｒａｃｉａ他、「Ａｈｅａｄ−ｍｏｕｎｔｅｄｄｅｖｉｃｅｆｏｒｒｅｃｏｇｎｉｚｉｎｇｔｅｘｔｉｎｎａｔｕｒａｌｓｃｅｎｅｓ」、ＣＢＤＡＲ２０１１Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４ｔｈｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＣａｍｅｒａ−ＢａｓｅｄＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓａｎｄＲｅｃｏｇｎｉｔｉｏｎ、２９−４１

しかしながら、同一画像内に、それぞれ独立した、互いに相異なる文字列を含んだ複数の文字領域が存在することも少なくない。撮像時に画角内に撮像位置からの距離が異なる複数の被写体が存在する場合がある。この場合、複数の被写体のそれぞれに互いに独立した文字領域が含まれている状況では、それら複数の被写体間の位置関係によっては、複数の文字領域が隣接した状態となって撮像されることも少なくない。従来技術では、本来は、それぞれに互いに独立した複数の文字領域が、隣接した状態となって撮像された場合、隣接した文字領域の間にある境界線は認識されないので、まとまった一つの文字領域として抽出されてしまう。

例えば、一般参加型マラソン大会等の参加者を撮像した写真からゼッケン番号を自動的に抽出する場合、それぞれにゼッケンをつけた複数の人物が、撮像位置からの距離が異なるが、同一の写真に収まっていることが多々ある。この様な場合に、ゼッケン番号を認識することにより、当該写真内に写った人物を同定しようとすると、複数のゼッケン領域が連続して一つのゼッケン領域として抽出される可能性があるので、正しいゼッケン番号にそれぞれ分けて認識できない課題がある。また、画像情報と奥行情報を同時に使って、文字領域を分離する場合は、画像全体について画像情報に奥行情報を加えて処理することになるので、処理負荷が高くなる課題がある。

本発明は上記の問題に鑑みてなされたもので、低い処理負荷で、撮像位置からの距離が異なる複数の文字領域を含む画像から正しく分離された文字領域を特定することを目的とする。

かかる課題を解決するため、本発明に係る画像処理装置は、以下の構成を備える。すなわち、画像処理装置は、撮像対象を撮像した画像から文字領域を抽出する抽出手段と、前記文字領域に対応する前記撮像対象の部分の奥行情報を保持する保持手段と、前記奥行情報に基づいて、前記撮像対象が前方部分と後方部分を含む複数の部分からなると判定される場合に、前記文字領域を、前記前方部分に対応する第一文字領域と前記後方部分に対応する第二文字領域とを含む複数の文字領域に分割する分割手段と、を有することを特徴とする。

本発明によれば、低い処理負荷で、撮像位置からの距離が異なる複数の文字領域を含む画像から正しく分離した文字領域を特定することができる。

本実施形態の画像処理装置のハードウエア構成例、及び機能構成例を示すブロック図である。第１の実施形態における処理対象の一例を示す図である。第１の実施形態における画像中の文字情報を認識する処理の流れを説明するフローチャートである。第１の実施形態における文字領域抽出の流れを説明するフローチャートである。第１の実施形態における文字領域の抽出例を示す図である。第１の実施形態における注目領域を特定する流れを説明するフローチャートである。第１の実施形態における特定された注目領域を説明する図である。第１の実施形態における特定された注目領域の特徴を説明図である。第１の実施形態における奥行値の頻度分布の例を示す図である。第２の実施形態における処理対象の一例を示す図である。第２の実施形態における文字領域の抽出例を示す図である。第２の実施形態における文字領域の抽出処理を説明する図である。第２の実施形態における文字領域抽出の流れを説明するフローチャートである。

以下、本発明を実施する好適な形態について図面を用いて説明する。

（第１の実施形態）
図１（ａ）は、本実施形態の画像処理装置のハードウエア構成の例である。画像処理装置は本装置の処理を行うＣＰＵ１０２、制御プログラムを格納するＲＯＭ１０３、処理中のデータ等を一時記憶するＲＡＭ１０４、磁気ディスク等の外部記憶装置１０５などを含む。ＲＯＭ１０３には、後述するフローチャートに示す本装置の処理プログラムが格納されていてもよい。なお、ＣＰＵ１０２は複数あっても良い。

画像処理装置はネットワークインターフェース１０６を介して、ＬＡＮやＷＡＮと接続し、遠隔地の装置と通信を行う。また、画像処理装置に本装置の操作を行うキーボード等の操作部１０７、本装置の状態や作業者への情報を表示する表示部１０８、外部の撮像装置１１０と通信する通信インターフェース１０９が含まれる。本実施形態の撮像装置１１０に、撮像対象の奥行情報を生成する生成手段（非図示）が含まれる。撮像対象の奥行情報は、生成手段から撮像対象までの距離を示す奥行値を含む情報である。なお、タッチパネル液晶モニターのように、操作部１０８と表示部１０７が一体となっていてもよい。

後述するフローチャートに示す本装置の処理プログラムは、外部記憶装置１０５に記憶したものや、ネットワークインターフェース１０６を介して外部から供給されたものを、ＣＰＵ１０２の制御の元、ＲＡＭ１０４に展開するように構成されていてもよい。

これら各構成要素はシステムバス１０１上に配置される。

なお、本実施形態の画像処理装置のハードウエア構成として、汎用コンピュータを用いてもよい。

図１（ｂ）は、第１の実施形態の画像処理装置の機能構成の例を示すブロック図である。画像処理装置１１１に非図示の画像入力部から画像処理の対象となる画像が入力されたとする。文字領域抽出部１１２は、入力された画像から文字領域を抽出する。距離画像取得部１１３は、入力された画像に対応する距離画像を取得し、距離画像から画素ごとの奥行値を示す奥行情報を取得する。奥行情報保持部１１４は、取得された奥行情報を保持する。画像解析部１１５は本実施形態の各種解析や処理を行う。さらに、領域分割部１１６と領域拡張部１１７が画像解析部１１５に含まれている。領域分割部１１６および領域拡張部１１７の処理の詳細は、それぞれ第１の実施形態および第２の実施形態で説明する。文字認識部１１８は、特定の文字領域の画像に対して、文字認識処理を行う。

図２は、図１の画像処理装置が処理する画像の一例である、一般競技者が参加する市民マラソンやロードレースを撮像した画像である。撮像された画像をデータ又は印刷された写真の形式で希望者に提供するために、画像情報からゼッケン番号で検索可能となっている必要がある。本実施形態の画像処理装置を用いて、図２に例示する画像に写っている参加者のゼッケン番号を読み取り、その画像に紐付けて記録する。

次に、本実施形態で画像処理装置が実行する、画像から文字情報を読み取る処理の流れを、図３のフローチャートを参照して説明する。以下、フローチャートは、ＣＰＵが制御プログラムを実行することにより実現されるものとする。

ステップＳ３０１で非図示の画像入力部は処理を行う画像を入力し、ＲＡＭ１０４に記憶する。ステップＳ３０２において、距離画像取得部１１３はステップＳ３０１で入力された画像に対応する距離マップ画像（距離画像）を取得し、奥行情報を取得する。取得された距離画像や奥行情報は、ＲＡＭ１０４上のステップＳ３０１で入力した画像とは、異なるメモリ領域に記憶される。尚、前記距離マップ画像とは、前記入力された画像の各画素が、撮像時に撮像位置からどの程度離れた位置にある被写体部分から得られたものかを与える奥行情報（奥行値）を、前記入力された画像の各画素に対応する画素の画素値としてもつ画像である。以降、距離マップ画像を単に距離画像と称することがある。

上記入力画像と対応する距離画像は、例えば、特許文献２に記載のライトフィールド写真（ｌｉｇｈｔｆｉｅｌｄｐｈｏｔｏｇｒａｐｈ）によるデータ（特許文献２のＦｉｇ．１１等に開示されるデータ）から得られる。また、撮像装置をメインカメラとサブカメラの２台のカメラを一対にしたカメラセットとして構成し、これら２台のカメラ間の相対的な配置を予め定めた既知の状態にしたステレオカメラを用いて被写体を撮像したものを用いても良い。ステレオカメラで同一被写体を撮像した際に得られる、メインカメラとサブカメラからの一対の画像から、公知のステレオマッチング処理によって距離画像を得ることができる。この時のメインカメラからの画像と前記公知のステレオマッチング処理により得られた距離画像とを合わせて、上述の入力画像と上述の距離マップ画像として用いることもできる。また、一台のカメラのみで画像Ｔを撮像すると同時に赤外光等を画像Ｔに撮像された撮像対象に照射し、その反射光の情報に基づいて画像Ｔに撮像された撮像対象までの距離Ｚを測定する測距装置等で距離画像を得たものでもよい。この様な測距装置は公知の光飛行時間（ＴＯＦ：ｔｉｍｅｏｆｆｌｉｇｈｔ）型距離センサ等で実現されている。

さて、かくして、ある画像とその画像に対応する距離画像を取得すると、ステップＳ３０３に進む。ステップＳ３０３において、文字領域抽出部１１２は入力された画像から文字領域を抽出する。なお、ステップＳ３０２とステップＳ３０３の処理の順番を入れ替えてもよい。ステップＳ３０３の文字領域の抽出処理を行ってから、ステップＳ３０２の奥行値の取得処理を行う場合は、抽出された文字領域の画素だけについて、対応する奥行値を距離画像から取得すればよい。入力画像の全画素について奥行値を取得しなくてよいので、処理負荷が小さい。

ここで、ステップＳ３０３の文字領域の抽出処理について、図４のフローチャートを使用して詳細に説明する。

ステップＳ４０１では、ステップＳ３０１で入力された画像から画素塊を生成する。画素塊の生成は、例えば画像を２値化し、黒画素を抽出する等で実現できる。更に、入力画像を複数のレベルで２値化し、得られた複数の２値画像から安定的な画素塊を取り出すことで、ノイズを低減した画素塊が抽出可能である（非特許文献２）。

ステップＳ４０２では、ステップＳ４０１で得られた画素塊から、文字領域である可能性が高い画素塊を判定する。これは、画素塊の大きさ、画素塊を囲む矩形内でその画素塊を構成する画素の密度、同矩形領域の縦と横のサイズの比（アスペクト比）等の特徴をあらかじめ学習した識別器を用いて実施できる。ステップＳ４０１で得られた画素塊のうちステップＳ４０２で文字領域と判定された以外の画素塊は非文字とみなし、ステップＳ４０３で処理対象から削除する。

次に、ステップＳ４０４において、選択された画素塊を、その位置関係を用いてまとめていく。これにより、文字の一部を構成する複数の画素塊が一つのグループとしてまとまり、文字領域候補となる。

ステップＳ４０５では、ステップＳ４０４で得られた画素塊のグループの背景部を解析し、グルーピングされた画素塊が文字領域であるか否か、あるいは、同一文字領域の画素塊であるか否か等を判断する。

これまでの処理で得られた画素塊グループおよびその背景部の情報から、ステップＳ４０６において文字領域を決定する。この処理ステップにおいて、グルーピングされた画素塊同士をさらに結合したり、不要な画素塊を削除したりすることで、最終的な文字領域が確定する。なお、説明した図４に示す処理の流れは文字領域の抽出処理の一例であり、図４の流れに限るものではない。この様に、文字領域抽出処理は、距離マップ画像や奥行情報を用いることなく、入力画像から文字抽出処理により文字領域を得る処理である。

図２に示す画像を入力画像とし、図４で示した文字領域の抽出処理を用いて、ステップＳ３０３で実施する文字領域の抽出処理を行うことにより得られた、文字領域の様子を図５に示した。同図において、領域５１と領域５２とで示される破線で囲まれる領域が抽出される文字領域の例を表わしている。領域５１で表わされる領域を図７（ａ）に示した。この領域５１内の文字部のみを表わしたのが図７（ｂ）である。即ち、文字領域である領域５１を直接ステップＳ３０５で示す文字認識処理を行うと、『Ｘ０』を除いた『１２３４』なる文字列として認識したいところを、両者を混同した『Ｘ０１２３４』なる文字列として誤認識してしまう、という課題があった。

さて、ステップＳ３０３の処理を終えると、ステップＳ３０４に進む。ステップＳ３０４では、ステップＳ３０３で得られた文字領域と、ステップＳ３０２で取得された距離画像を用いて注目領域を特定する。

ここで、ステップＳ３０４の注目領域の特定処理について、図６のフローチャートを使用して詳細に説明する。

ステップＳ６０１では、距離マップ画像（距離画像）において、ステップＳ３０３で抽出された文字領域に対応する領域中の各画素の奥行情報である奥行値をもとに、文字領域に奥行値の範囲が異なる領域が混在しているか否かを判定する。即ち、処理対象とする文字領域の各画素の奥行値の頻度分布（対象文字領域中で、それぞれの奥行値をもつ画素数の分布）をとる。発生頻度が低い（画素数の少ない）奥行値をもつ画素をノイズ画素として無視する。その上で、発生頻度（画素数の）分布が、複数の山に分かれずに一連なりにまとまった形の単峰性となっているか否かを判定する。即ち、文字領域に対応する撮像対象の奥行値は連続する範囲にあるか否かを判定する。単峰性となっている場合には、文字領域に対応する撮像対象の部分の奥行値は連続する範囲にあるので、奥行値の範囲が異なる領域は混在していないと判断してステップＳ６０４に進む。単峰性となっていない場合には、文字領域に対応する撮像対象の部分の奥行値は連続しない範囲にあるので、文字領域に奥行値の範囲が異なる領域は混在しているものと判断し、ステップＳ６０２に進む。

図９（ａ）は、単峰性の頻度分布の典型的な例を表わしている。同図の頻度分布９３は、図５の領域５２に対応する距離画像上の画素奥行値の頻度分布の例を表現している。一方、図９（ｂ）は、単峰性の頻度分布ではく、双峰性の頻度分布となっている例である。同図は、図５の領域５１に対応する距離画像上の画素奥行値の頻度分布の例を表現している。図５の領域５２の場合では、同一人物の胸部のゼッケンに描かれる文字領域であり、同領域に対応する距離マップ画像中の領域内の各画素の示す奥行値は、所定距離範囲内に収まる値（距離データ）となる。一方、同図の領域５１の場合には、前方にいる（撮像位置に近い）人物の胸部のゼッケンに描かれる文字領域と、後方にいる（撮像位置に遠い）人物の胸部のゼッケンに描かれる文字領域とで、それぞれ異なる奥行値の範囲を有する二つの画素群に分かれる。図９（ｂ）における頻度分布９２が前方にいる（撮像位置に近い）人物の胸部のゼッケンに描かれる文字領域、頻度分布９１が後方にいる（撮像位置に遠い）人物の胸部のゼッケンに描かれる文字領域に対応する。領域分割部１１６は、奥行情報に基づいて、文字領域５１を、頻度分布９２と対応する文字領域と、頻度分布９１と対応する文字領域と、の二つの文字領域に分割する。なお、奥行情報に基づいて、一つの文字領域から生成した領域情報は二つに限らず、領域情報生成部１１４は文字領域５１を二つ以上の文字領域に分割してもよい。

ステップＳ６０２では、奥行情報に基づいて、処理対象の文字領域５１を分割する。その結果、ステップＳ６０１で作成した頻度分布データから、異なるまとまりとなった分布の峰毎に画素のグループ分けが行われる。上述の図９（ｂ）の例では、頻度分布９１を構成する画素群と頻度分布９２を構成する画素群とをそれぞれ異なる領域として分割される。図８にこの様子を示した。同図において、領域８１と領域８２が、図９（ｂ）における頻度分布９１と頻度分布９２にそれぞれ対応する。尚、図８の領域８１と領域８２は、図５で示される領域５１を分割したものとなっている。

次にステップＳ６０３では、領域分割部１１６は、奥行情報に基づいてステップＳ６０２で分割された複数の領域の中で最も距離が近い、即ち、撮像位置に最も近い領域を同定し、これを撮像対象の前方部分として特定する。先述の図９（ｂ）においては、頻度分布９２の方が頻度分布９１よりも距離が近い（奥行値が小さい）画素群に相当するので、頻度分布９２に対応する図８の領域８２に示す撮像対象の前方部分の領域を注目領域として特定する。かくして、領域分割部１１６は、図５の領域５１で示した文字領域に対しては、図８の領域８２に示す領域を注目領域として特定するものである。なお、図８の領域８１に示す撮像対象の後方部分の領域をさらに注目領域として特定することもできる。図８の領域８１に対しても文字認識処理を行う場合に、このように注目領域としてさらに特定することになる。

一方、ステップＳ６０４では、処理対象の文字領域そのものを注目領域として特定する。上述の図９（ａ）の例では、図５の領域５２に対応する距離画像上の画素奥行値の頻度分布９３のみとなっている。頻度分布９３に対応する画素群から構成される文字領域は、図８の領域８３であり、これは、図５の領域５２そのものである。

以上、ステップＳ３０４の注目領域の特定処理の結果、図５の領域５１は、図７（ｃ）の様に分割され、図７（ｄ）の破線で囲まれた部分が注目領域として特定されることとなる。

次に、ステップＳ３０５で、文字認識部１１８はステップＳ３０４で特定された注目領域の画像に対して、文字認識処理を行う。

かくして、上述の如く、図５の領域５１からは、図７（ｄ）の破線で示した『１２３４』なる文字列を認識することができ、撮像位置からの撮像対象までの距離（奥行値）が互いに相異なる複数の文字領域を正確に分離して、文字認識が可能となる。なお、本実施形態では、例として、撮像位置に最も近い領域のみを特定して文字認識処理を行っているが、これに限る必要はない。撮像位置から最も遠い領域のみを特定したり、撮像位置から近い領域と撮像位置から遠い領域との両方の領域を特定したりして文字認識処理をすることもできる。

上記の説明において、ステップＳ６０１で文字領域中での奥行値の範囲の異なる領域の混在判定に、同領域に対応する距離画像から得られた各画素の奥行値の頻度分布を用いる方法を説明したが、本実施形態はこれに限らない。例えば、公知のクラスタリング手法を用いても良いのはもちろんである。即ち、距離画像から得られた各画素の奥行値間の差分が既定の範囲内にあるか否かでクラスタリングする。範囲内にある場合には、同一クラスタにある画素とし、範囲内には無い画素同士は、互いに異なるクラスタに分類するようにする。領域分割部１１６は、互いに異なるクラスタに対応する領域を分割する。その結果、複数のクラスタに分割される場合には、奥行値の範囲の異なる領域が混在すると判定し、そうではない場合には、奥行値が全て同一とみなせる範囲にある領域であると判定しても良い（ステップＳ６０１）。この場合には、クラスタ毎にそれぞれが独立した奥行値の範囲にある文字領域として分割し（ステップＳ６０２）、撮像位置に最も近い文字領域を注目領域として特定すれば良い（ステップＳ６０３）。尚、全て同一とみなせる奥行値の範囲にある領域である場合には、処理対象の文字領域をそのまま注目領域とすれば良い（ステップＳ６０４）。

本実施形態では、画像から抽出された文字領域が得られた後に、文字領域に絞って奥行情報を用いるので、低い処理負荷で撮像位置から撮像対象までの距離が異なる複数の文字領域を含む画像から正しく分離された文字領域を特定することができる。

（第２の実施形態）
以下、第２の実施形態を説明する。本実施形態の画像処理装置の構成図は前述の第１の実施形態と同一であるので説明を省略する。

本実施形態においては、撮像位置から見て、文字列領域がそれよりも手前にある物体により一部遮蔽されている場合を想定する。図１０に典型的な例を示した。同図においては、胸部に文字列を含むゼッケンを有する競技者が、自身の右腕で文字列領域に当たる領域の一部を遮蔽している状況を示している。この様な場合には、上述の第１の実施形態のステップＳ３０３の文字領域の抽出処理を進めると、図１１の領域１１１に示す様に、文字列中の遮蔽されていない部分のみが文字列領域として抽出されることとなる。本実施形態では、この様に一部が遮蔽されていたとしても、従前と比べ、可能な限り文字列の一部とみなされる部分領域をも含めて文字領域として抽出する実施形態を説明する。

本実施形態は、第１の実施形態における図３のステップＳ３０４での注目領域を特定する処理内容の一部と異なるものである。図３のステップＳ３０３、及び、図４の文字領域抽出まで、および、ステップＳ３０５の文字認識の部分に関しては、前述の第１の実施形態と同一である。

ステップＳ３０４での処理を説明する図６を用いて、本実施形態と第１の実施形態との違いを説明する。第１の実施形態では、ステップＳ６０１では、文字領域に対応する領域中の各画素の奥行情報である奥行値をもとに、文字領域に奥行値の範囲が異なる領域が混在していないと判定された場合に、入力された文字領域を注目領域として特定して処理を終了する。一方、本実施形態では、文字領域に奥行値の範囲の異なる領域が混在していないと判定された場合には、さらに文字領域を拡張して、再度文字領域を抽出する処理を行う。以下、図１０〜１３を用いて、その処理の詳細を説明する。

図１０を本実施形態の入力画像とした場合の、図１１の領域１１１付近に抽出された文字領域付近の部分領域を図１２に示した。図１２（ａ）は、図４のステップＳ４０１で説明した、この部分領域での画素塊の様子を示している。図１２（ｂ）は、この場合に存在する３つの画素塊のそれぞれを外接矩形１２１、１２２、および、１２３で囲んで示したものである。ここで、図４のステップＳ４０２で説明した文字領域画素塊の選択の処理において、それぞれの画素塊の大きさや画素塊、囲む矩形内でその画素塊を構成する画素密度、同矩形のアスペクト比等の特徴等に基づいて、文字領域画素塊を選択する。その結果、外接矩形１２２、１２３で囲まれる画素塊は、文字領域画素塊として選択され、外接矩形１２１で囲まれる画素塊は、画素塊を構成する画素数は大きく、アスペクト比も文字領域画素塊とするには特殊である等、選択されない。次に図４のステップＳ４０３で説明した非文字領域画素塊の削除の処理により、外接矩形１２２、１２３で囲まれる画素塊のみが残される。残された結果を図１２（ｃ）に示した。続いて、図４のステップＳ４０４〜ステップＳ４０６で説明した処理の結果として、文字領域として抽出される領域を図１２（ｄ）に示した。図１２（ｄ）の領域１２４は、図１１の領域１１１に対応している。

以上、図１０を入力画像とした場合に沿って、前述の第１の実施形態における文字領域抽出の処理までを説明した。即ち、図６を用いて説明した第１の実施形態での注目領域の特定処理では、文字領域に互いに奥行値の異なる範囲にある複数の領域の混在がないため、文字領域そのものが注目領域として特定されることとなる。

以降、本実施形態における文字領域抽出処理を図１３に示すフローチャートを用いて説明する。

ステップＳ１３０１では、拡張領域生成部１１７は、文字領域を上下左右の近傍に、予め定める規則に従って、拡張した拡張領域を生成する。上述の図１２（ｄ）に示した、文字領域１２４の場合で説明すると、文字領域１２４の上下にそれぞれ文字領域１２４の縦方向のサイズ分、文字領域１２４の左右にそれぞれ文字領域１２４の横方向のサイズ分の領域拡張を行う。拡張された拡張領域１２５と拡張のもとになる文字領域１２４との関係を図１２（ｅ）示す。拡張領域１２５が、拡張された領域サイズを示している。拡張領域１２５は文字領域１２４に比し、横方向に３倍、縦方向にも３倍のサイズを有することになる。図１２（ｆ）は、拡張領域１２５内に存在する画素塊の様子を示している。

ステップＳ１３０２では、拡張領域１２５に対応する距離画像の領域情報を参照して、拡張領域１２５内の何れかの画素塊を構成する画素群で、文字領域１２４の距離範囲よりも撮像位置に近い距離範囲にあるものがあるかを判定する。存在する場合には、ステップＳ１３０３に進み、存在しない場合には、ステップＳ１３０６に進む。

ステップＳ１３０３では、拡張領域１２５内で、文字領域の画素塊を構成する画素群に対応する撮像対象の部分の奥行値の範囲とは異なる（連続しない）範囲に、他の画素群に対応する撮像対象の部分の奥行値が属するので、この他の画素群で構成される領域を除去する。具体的に、領域分割部１１６は奥行値の範囲に基づいて、拡張領域を、文字領域の画素塊を含む領域と文字領域以外の画素塊を含む領域とに分割し、文字領域の画素塊を含む領域を注目領域とする。そして、拡張領域内の注目領域の画素塊をもとに、ステップＳ４０２と同様な要領で、改めて文字領域画素塊を判定する。

図１２（ｇ）の領域１２６は、図１２（ｆ）における除去対象画素群を示しており、領域１２６を除去した結果を図１２（ｈ）に示した。尚、図１２（ｉ）は、図１２（ｈ）で点線で示した仮想的な領域境界を表示しない状態で表記したものである。図１２（ｉ）で示した拡張領域１２５内の注目領域の画素塊をもとに、ステップＳ４０２と同様な要領で、改めて文字領域画素塊を判定した結果を図１２（ｊ）に示した。

ステップＳ１３０４では、拡張領域１２５内で、ステップＳ１３０３で判定した文字領域画素塊の中で、ステップＳ１３０３において削除された領域、即ち、隠れ部分を構成する画素群でなる領域と接していない画素塊に着目する。着目する画素塊、即ち、文字領域画素塊からその外接矩形を仮想的に設定する等により、文字領域サイズを推定する。図１２（ｊ）で示した画素塊の中では、１２９と１３０で示した外接矩形で囲まれる画素塊が、着目される画素塊であり、これら外接矩形のサイズをもって文字領域サイズの推定値とする。例えば、１２９と１３０の外接矩形の高さの平均と横幅の平均をもって、改めて抽出しようとする文字領域の縦横サイズを推定する。

ステップＳ１３０５では、拡張領域１２５内で隠れ部分を構成する領域と接する画素塊から検出された文字領域画素塊の中で、所定値内に収まるサイズをもつものがあれば、これを選択する。その上で、ステップＳ１３０４で着目した文字領域画素塊と、直前に述べた、選択した文字領域画素塊がある場合はこれをも加えた文字領域画素塊とで構成される文字領域を改めて抽出された文字領域とする。図１２（ｊ）においては、外接矩形１２８で囲まれる画素塊がステップＳ１３０５で追加される画素塊となり、図１２（ｋ）の破線で囲まれる領域１３１が、改めて抽出された文字領域として出力される。

ステップＳ１３０６では、隠れ部分がないので、既に抽出された文字領域がそのまま文字領域として出力される。

尚、ステップＳ１３０１で説明した文字領域を拡張して、拡張領域を定める際の拡張の仕方は、上述の方法に限るものではない。例えば、上下左右に既定サイズ（固定値）を加えるように定めてもよいし、あるいは、拡張前の領域の縦横サイズの半分をそれぞれ上下、左右に加えるようなものであってもよいのはもちろんである。

以上説明したように、本実施形態では、撮像位置から見て、文字列領域がそれよりも手前にある物体により一部遮蔽されている場合に、従前に比し、文字列領域に含まれる文字をより正確に抽出し、認識可能とするものである。

なお、本実施形態ではゼッケン番号を用いて説明したが、これに限定されるものではない。例えば、自然画像中の看板や標識、ナンバープレート等の文字領域が何らかの物体により一部隠されている場合や、撮像方向に対する文字領域を含む物体間の配置により撮像位置からの距離が異なる複数の文字領域が重なって撮像された場合等にも有効である。

なお、上述の第２の実施形態のステップＳ１３０５の説明での、拡張領域１２５内で隠れ部分を構成する領域（画素群）と接する画素塊から検出された文字領域画素塊の扱いは、上述の扱いに限るものではない。即ち、ステップＳ１３０４で推定された文字領域サイズよりも小さな外接矩形のサイズとなる画素塊であっても、本来、何らかの文字の一部が隠されたことによって外接矩形となっていると考え、何らかの文字の部分文字として文字認識対象としても良い。この場合は、推定サイズと実際の画素塊のサイズとから、文字認識結果の信頼度となる何らかの指標を規定し、当該画素塊をその一部として含む文字の候補を選び出す等の処理を行う様にしてもよい。例えば、推定サイズの文字パターンの部分パターンとの公知の方法によるパターンマッチングを行うことにより、部分的に一致する文字を認識又は同定するようにしてもよい。

この場合でも、この部分に関しては、確度の高い文字認識は期待できないものの、候補となる文字を提示するようなシステム構成に用いることが可能である。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０１システムバス
１０２ＣＰＵ
１０３ＲＯＭ
１０４ＲＡＭ
１０５外部記憶装置
１０６ネットワークインターフェース
１０７表示部
１０８操作部

Claims

撮像対象を撮像した画像から文字領域を抽出する抽出手段と、
前記文字領域に対応する前記撮像対象の部分の奥行情報を保持する保持手段と、
前記奥行情報に基づいて、前記撮像対象が前方部分と後方部分を含む複数の部分からなると判定される場合に、前記文字領域を、前記前方部分に対応する第一文字領域と前記後方部分に対応する第二文字領域とを含む複数の文字領域に分割する分割手段と、
を有することを特徴とする画像処理装置。
前記撮像対象が複数の部分からなると判定されなかった場合、前記文字領域を拡張して拡張領域を生成する拡張手段と、をさらに有し、
前記保持手段は、前記拡張領域に対応する前記撮像対象の部分の奥行情報をさらに保持し、
前記拡張領域に対応する前記撮像対象の部分の前記奥行情報に基づいて、前記拡張領域に対応する前記撮像対象が複数の部分からなると判定される場合に、前記分割手段は、前記拡張領域を、前記文字領域を含む第三文字領域と前記第三文字領域以外の領域とに分割することを特徴とする請求項１に記載の画像処理装置。
前記奥行情報は、前記画像処理装置の外部にある生成手段によって生成され、前記生成手段から前記撮像対象までの距離を示す奥行値であることを特徴とする請求項１又は２に記載の画像処理装置。
前記奥行情報が示す奥行値は、連続しない範囲にある場合は、前記撮像対象が前記複数の部分からなると判定されることを特徴とする請求項１乃至３の何れか１項に記載の画像処理装置。
前記拡張手段は、前記文字領域の左右に、前記文字領域の横方向のサイズ分をそれぞれ拡張することによって、前記拡張領域を生成することを特徴とする請求項２に記載の画像処理装置。
前記拡張手段は、さらに、前記文字領域の上下に、前記文字領域の縦方向のサイズ分をそれぞれ拡張することによって、前記拡張領域を生成することを特徴とする請求項５に記載の画像処理装置。
少なくとも前記第一文字領域に対して、文字認識処理を行う文字認識手段をさらに有することを特徴とする請求項１乃至６の何れか１項に記載の画像処理装置。
前記文字認識手段は、さらに、前記第二文字領域に対して、文字認識処理を行うことを特徴とする請求項７に記載の画像処理装置。
前記文字認識手段は、さらに、前記第三文字領域に対して、文字認識処理を行うことを特徴とする請求項７又は８に記載の画像処理装置。
前記文字認識手段は、前記第三文字領域に対して文字認識処理を行う際に、前記文字領域に対する文字認識処理で得られた文字のサイズに基づいて文字認識処理を行うことを特徴とする請求項９に記載の画像処理装置。
撮像対象を撮像した画像から文字領域を抽出する抽出工程と、
前記文字領域に対応する前記撮像対象の部分の奥行情報を保持手段に保持させる保持工程と、
前記奥行情報に基づいて、前記撮像対象が前方部分と後方部分を含む複数の部分からなると判定される場合に、前記文字領域を、前記前方部分に対応する第一文字領域と前記後方部分に対応する第二文字領域とを含む複数の文字領域に分割する分割工程と、
を有することを特徴とする画像処理方法。
撮像対象を撮像した画像から文字領域を抽出する抽出ステップと、
前記文字領域に対応する前記撮像対象の部分の奥行情報を保持手段に保持させる保持ステップと、
前記奥行情報に基づいて、前記撮像対象が前方部分と後方部分を含む複数の部分からなると判定される場合に、前記文字領域を、前記前方部分に対応する第一文字領域と前記後方部分に対応する第二文字領域とを含む複数の文字領域に分割する分割ステップと、
をコンピュータに実行させることを特徴とするプログラム。