JP2013200872A

JP2013200872A - 連続して存在する英数字を識別するための画像処理システムおよびその方法

Info

Publication number: JP2013200872A
Application number: JP2013060524A
Authority: JP
Inventors: Chattopadhyay Tanushyam; チョトパッダーエタヌシャム; Bhattacharya Ujjwal; バッタチャリヤウジワル; Baran Chaudhuri Bidyut; バランチャウドゥーリービデュート
Original assignee: Tata Consultancy Services Ltd; Indian Statistical Inst
Current assignee: Tata Consultancy Services Ltd; Indian Statistical Inst
Priority date: 2012-03-26
Filing date: 2013-03-22
Publication date: 2013-10-03
Anticipated expiration: 2033-03-22
Also published as: US20130272607A1; US8965123B2; EP2645305A3; CN103366167A; EP2645305A2; JP5521164B2; CN103366167B

Abstract

【課題】画像中に連続して存在する英数字を識別するためのシステムで、認識精度を改善する２値化画像を得る。
【解決手段】画像をキャプチャーし、画像のパターンを計算することで、画像に２値化のための処理をする。生成された２値化画像は、不要な成分を除去するためにフィルターされる。候補画像は、フィルター化された２値化画像から特定される。得られた全ての候補画像は、存在する有効な英数字を認識するためにさらにセグメント化されたファイナル候補画像を生成するために結合される。
【選択図】図１

Description

本発明は、文字を識別するための方法およびシステムに関する。より具体的に、本発明は、画像に連続して存在する英数字を識別するための方法およびシステムに関する。

車両識別番号（Vihicle Identification Number (VIN)）の画像は、特別な状況において、特別な目的で一般人による携帯電話のカメラによって、何回もキャプチャーされる。キャプチャープロセスにおけるマニュアル操作の関与、不均一で不十分な照明、および高機能な焦点調節機構の使い勝手の悪さなどが、画質を低下させている。

携帯電話によってキャプチャーされたVIN画像に利用できるオープンソースの光学式文字識別（Opticat Character Recognition (OCR)）システムの性能は、画質が種々のノイズによって影響されるため、極端に悪い。したがって、画質を高める技術は、入力としてスキャンされた画像を光学式文字識別システムにかける前に使用される必要がある。２値化技術は、複雑なバックグラウンド（より具体的にはバックグラウンドテキスト）からテキスト領域を得るために、画質を高める技術として使用される。

携帯電話でキャプチャーされた画像におけるテキストのＯＣＲには、種々の欠点がある。従来のシステムにおいて、小さいメモリと遅い処理スピードを有する組み込みモバイルプラットフォーム（embedde mobile platform）上で個別の文字を復元することが必要とされている。２値化技術は、複雑なバックグラウンド（より具体的にはバックグラウンドテキスト）からテキスト領域を得るために、画質を高める技術として使用される。多くの２値化技術が、画像の認識精度を改善するために提案されている。従来の２値化技術は、せいぜい５．８９％までのみ、画像の認識精度を改善することができる。

したがって、より広い範囲に対して画像の認識精度を改善する適切な低複雑度２値化技術を提供することができるシステムと方法が必要性とされている。

本発明の第１の目的は、画像に連続して存在する英数字を識別するためのシステムおよび方法を提供することにある。

本発明の別の目的は、キャプチャーされた画像の２値化を実行するためのシステムおよび方法を提供することにある。

また、本発明の他の目的は、２値化画像から不要なセグメント、オーバーセグメント化されたセグメント、およびアンダーセグメント化されたセグメントを取り除くシステムおよび方法を提供することにある。

本発明の他の目的は、有効な英数字におけるマルチプルコンポーネントラベル（multiple component labels）を統合するモルフォロジカルクロージング（morphological closing）を適用するためのシステムおよび方法を提供することにある。

本発明は、画像に連続して存在する英数字を識別するための方法を提供する。その方法は、プロセッサが実行する、連続した英数字を含む画像をキャプチャーする工程と、連続した英数字の中から識別できる文字のセットを得るために画像を処理する工程とを含む。当該処理工程は、バッググラウンドピークを決定するために画像におけるピクセル輝度分布（pixel intensity distribution）を認識するパターンをコンピューターで計算する工程と、バッググラウンドピークとフォアグラウンドピークとの間の複数の動的閾値（dynamic threshold values）を選択することによって複数の２値化画像を生成する工程と、１または２以上の有効な文字を識別するために複数の画像から不要な成分を取り除くことによって得られた２値化画像をフィルターする工程とをさらに含んでいる。その処理は、公知のグラウンドトゥルース値（ground truth value）に対して有効な文字を比較することで１または２以上の候補画像（candidate images）を識別する工程と、候補画像の結合が所定の状態によって決まるように候補画像を結合することでファイナル候補画像を生成する工程と、所定のセグメントにファイナル候補画像を分割し、各セグメントと関連付けられた有効な英数字を認識する工程と、をさらに含んでいる。

本発明は、画像に連続して存在する英数字を識別するためのシステムを提供する。そのシステムは、連続して存在する英数字を含む画像をキャプチャーする画像取得デバイスと、連続した英数字の中から識別できる文字のセットを得るように構成されたプロセッサとを含んでいる。プロセッサは、バッググラウンドピークとフォアグラウンドピークとを決定するための画像におけるピクセル輝度分布を認識するパターンをコンピューターで計算するように構成されたコンピューターモジュールと、バッググラウンドピークとフォアグラウンドピークとの間の複数の動的閾値を選択することによって複数の２値化画像を生成するように構成された２値化モジュールと、１または２以上の有効な文字を識別するために複数の画像から不要な成分を取り除くように構成されたフィルターと、を含んでいる。プロセッサは、１または２以上の候補画像を識別するために、公知のグラウンドトゥルース値に対して有効な文字を比較するように構成されたコンパレーターと、候補画像の結合が所定の状態によって決まるように候補画像を結合することで、ファイナル候補画像を生成するよう構成された画像発生器とをさらに含んでいる。システムは、所定のセグメントにファイナル候補画像を分割するように構成された出力発生モジュールをさらに含み、各セグメントと関連付けられた有効な英数字を認識している。

図１は、本発明の実施形態におけるシステムアーキテクチャを示す図である。

図２は、本発明の別の実施形態における典型的なフローチャート示す。

図３は、本発明のシステムの別の実施形態におけるモルフォロジカルクロージングを適用した後の画像形式を示す図である。

図４は、他の実施形態における本発明の２値化技術の分析を従来技術の２値化技術の分析と比較する図である。

本発明の実施形態を以下に説明するとともに、その特徴を説明する。
明細書中、「構成する」、「有する」、「含む」、「含んでいる」およびそれらの他の形式は、同等な意味であり、ある事項またはこれらの文言のいずれか一つに続く事項はそのような事項の包括的なリストであるような意味ではなく、また、列挙された事項のみに限定されるという意味ではない。

明細書および添付のクレームにおいて使用されるように、単数形“a”、“an”、“the”は、文脈が明確に示していなければ、複数形も含むことに注意しなければならない。ここで説明されるシステム、方法、装置、機器と同等、または似ているシステム、方法、装置、機器は、本発明の実施形態の実施またはテストに使用されることができるが、好ましいシステムとパーツは以下に説明される。以下の説明において、説明と理解の目的のために、発明の範囲に限定されない意図で、多数の実施形態が作られた。

本発明の１または２以上の成分は、詳細な説明の理解のためにモジュールとして説明されている。例えば、モジュールは、論理ゲート、半導体デバイス、集積回路または他のどのような個別部品を含むハードウエア回路における内蔵コンポーネントを含んでいてもよい。モジュールは、実施例のプロセッサ用のハードウェアエンティティによって実行されるソフトウェアプログラムの一部であってもよい。ソフトウェアプログラムとしてのモジュールの実行は、プロセッサまたは他のどのようなハードウェアエンティティによって実行されるべき論理演算命令のセットを含んでいてもよい。また、モジュールは、インターフェースを用いて、命令やプログラムのセットで具現化されていてもよい。

開示された実施形態は、本発明の単なる一例にすぎず、他の種々の形態であってもよい。

本発明は、画像に連続して存在する英数字を識別するためのシステムおよび方法に関する。第１段階において、２つの主なピークがスケール画像のパターンから確認され、多数の２値化画像が得られる。不要な成分は、２値化画像から除去される。また、１または２以上の候補画像はセグメント化され、それにより各セグメントがファイナル候補画像を生成するために有効な文字を含むようになっている。

本実施形態に従い、図１を参照すると、システム１００は、連続して存在する英数字を含む画像を取得する画像取得デバイス（image capturing device）１０２を含む（図２のステップ２０２に示される）。また、システム１００は、連続する英数字のうちの中から識別できる文字のセットを得るように構成されたプロセッサ１０４を含んでいる（図２のステップ２０６に示される）。また、プロセッサ１０４は、コンピューターモジュール１０６と、２値化モジュール１０８と、フィルター１１０と、コンパレーター１１２と、画像発生器１１４とを含んでいる。

本実施形態に従い、図１を参照すると、画像取得デバイス１０２は、グレースケールにおける画像を取得する。画像取得デバイス１０２は、カメラを有していてもよい。このカメラは、他の電子機器に連結されていてもよい。特別な例として、カメラは携帯電話に存在していてもよい。画像は、複数のフレーム画像取得デバイス１０２によって取得される。これらの画像は、識別されるべき連続した英数字を含み、したがって、１または２以上のノイズのタイプを含んでいるかもしれない。取得された画像は、プロセッサによってさらに処理される。プロセッサ１０４は、画像に存在する連続した英数字のうちの識別できる文字のセットを作り出す。

特別な例として、連続に存在する英数字の数は、１７英数字を含むが、これに限定されない。

プロセッサ１０４は、コンピューターモジュール１０６をさらに含んでいる。コンピューターモジュール１０６は、バッググラウンドピークとフォアグラウンドピークとを決定するために画像におけるピクセル輝度分布を認識するパターンをコンピューターで計算するように構成されている。ピクセル輝度は、ヒストグラムで認識される。

コンピューターモジュール１０６は、レティネックス方式（retinex strategy）を適用することで入力画質を高めることができる（図２のステップ２０４に示される）。画質の増大は、２つのノイズ源があるという２つの主な観測（observation）に基づいている。一方は、実際、乗法的であり、バックグラウンドテキストおよびガラスからの反射のため現れる。また、コンピューターモジュール１０６は、グレースケール画像に画像を変換する。グレースケール画像は、色がグレーの色調のみであるものである。グレースケール画像の輝度ヒストグラムは、コンピューターで計算される。その輝度ヒストグラムは、画像に発見されるそれぞれ異なった輝度値でその画像にピクセルの数を示すグラフである（図２のステップ２０８に示される）。特別な例として、８ビットグレースケール画像にとって、２５６の異なる輝度がある。その結果、ヒストグラムは、グレースケール値の間で、ピクセルの分布を示す２５６の数をグラフ化して表示している。また、この分布から、２つの主要ピークが特定される。一方は０値付近に位置し、他方は２２５値近くに位置している（図２のステップ２１０に示される）。これらのピークは、画像のバッググラウンド部とフォアグラウンド部として表される。

プロセッサ１０４は、複数の２値化画像を生成するように構成された２値化モジュールをさらに含んでいる。

本実施形態に従い、開示された２値化方法は、２つの主な観測に基づいている。その２つの主な観測は、バックグラウンドテキスト（BGT）と関心テキスト（TOI）との間にわずかなグレースケール変化があるということと、１７英数字が取得された画像に正確に存在するということである。バッググラウンドピークとフォアグラウンドピークとの間の動的閾値（ピクセル値）の特別の数（ｎ）は、２値化のために使用される（図２のステップ２１２に示される）。ピクセルにつき８ビットの画像形式にとって、この数は、ヒューリスティックに得られる１６である。こうして、２値化画像のｎ数はシングルグレースケール画像から得られる（図２のステップ２１４に示される）。

本実施形態に従い、そのような各画像のフォアグラウンドピクセルは、連結成分ラベル化方法（Connnected-component labeling method）を使用してラベル化される。連結成分ラベル化は、グラフ理論のアルゴリズムアプリケーションである。連結成分のサブセットは、与えられたヒューリスティックに基づいて、ユニークにラベル化される。頂点を含み、辺を結合するグラフは、入力画像から構成される。頂点は、ヒューリスティック比較によって要求される情報を含む。一方、辺は、連結された「隣（neighbors）」を示す。アルゴリズムは、グラフをトラバースし、それらの「隣」の相対的価値と連結性に基づいて頂点をラベル化している。ラベル化段階に続き、グラフは、サブセットに区分化される。その後、オリジナルの情報が回復され、処理される。

プロセッサ１０４は、１または２以上の有効な文字を特定するためにｎ数の２値化画像から不要な成分を取り除くように構成されたフィルターをさらに含んでいる（図２のステップ２１６に示される）。非常に大きいまたは非常に小さい成分は除去される。特別なレベルを有するピクセルの数が１００よりも小さい場合、または、成分が３ピクセルよりも小さい高さ（ｈ）または幅（ｗ）を有している場合、成分は非常に小さくなるように構成されている。同様に、特別なレベルを有するピクセルの数が幅／４よりも大きい場合、または、ｈ＞（ｈｔ＿ｉｍａｇｅ／３）またはｗ＞（ｗｄ＿ｉｍａｇｅ／４）である場合（ここで、ｈｔ＿ｉｍａｇｅは画像の高さを表し、ｗｄ＿ｉｍａｇｅは画像の幅を示す。）、成分は、非常に大きくなるように構成されている。

プロセッサ１０４は、１または２以上の候補画像を特定するために、公知のグラウンドトゥルース値（known ground truth value）に対して有効な文字を比較するように構成されたコンパレーター１１２をさらに含んでいる。公知のグラウンドトゥルース値（ｋ）は、連続して存在する英数字の数と等しい。

コンパレーター１１２は、候補画像を特定するために不要な成分を取り除くよう使用される。成分の数がｋ／２よりも小さい場合、それは、実際の文字のｋ数がとても少なくセグメント化されるか、２値化画像がフォアグラウンドとして全ての有効な文字を含んでいないということを意味している（図２のステップ２１８に示される）。したがって、この２値化画像は候補画像として考えられない。同様に、成分の数がｋ＊３よりも大きい場合、一つの有効な文字は、平均で、３セグメントよりも大きくなるようにオーバーセグメント化されている（図２のステップ２１８に示される）。オーバーセグメント２値化画像およびアンダーセグメント２値化画像は、無視される。残りの２値化画像は、候補画像として考えられる。こうして、少数の有効な画像のみがｎ個の２値化画像から外される。典型的に、各入力画像のためのそのような候補画像の数は、３以上である（連続して存在する英数字の数が１７である場合）。

プロセッサ１０４は、候補画像を結合することで、ファイナル候補画像を生成するように構成された画像発生器114をさらに含んでいる（図２のステップ２２０に示される）。候補画像の半分以上においてバックグラウンドテキストとして決定される場合に限り、候補画像は、バックグラウンドテキスト（BGT）としてピクセルをマーキングすることによって結合される。この所定の状態の実現で、ファイナル候補画像は構築される。

システム１００は、出力発生モジュール１１６をさらに含んでいる。その出力発生モジュール１１６は、ファイナル候補画像を所定のセグメントに分割するように構成され、それによって、各セグメントは一つの有効な文字のみを含んでいる。候補画像は、連続して存在する英数字の数と等しい数に分割される（図２のステップ２２２に示される）。

本実施形態に従って、スキュー補正の従来の方法は、予めセグメンテーションに使用される。セグメンテーションの以下の方法は、有効な文字の数が連続して存在する英数字の数ｋと等しいという観測に基づいている。文字数字セグメンテーション認識方法に含まれるステップは、以下の通りである。
・フォアグラウンドピクセルなしにコラム（段）を特定する。連続する列が得られる場合、これらのコラムの中心は候補カットコラム（ＣＣＣ）としてとられる。得られるＣＣＣの数はｎである。
・連続するＣＣＣｓの間の距離（δ）を見つける。第ｉ番目のＣＣＣと第（ｉ＋１）番目のＣＣＣとの間の距離がδ_ｉ＝｜ＣＣＣ_ｉ＋１−ＣＣＣ_ｉ｜として規定される。
・δ_ｉ∀ｉ∈（１、２・・・・・、ｎ）のメジアン（ｍｅｄ_δ）を見つける。ｎは画像中におけるＣＣＣｓの数を示す。ヒューリスティックに得られるトレランスファクターτは、Ｔｈ_δ＝（ｍｅｄ_δ−τ）として規定される閾値（Ｔｈ_δ）を規定するように使用される。
・ほぼ等間隔のコラムｋ−１成分が得られたら、各セグメントは候補セグメントとして使用される。
・ｎ＞ｋ−１であるなら、有効な文字が横にセグメント化されることが結論付けられる。そのようなＣＣＣｓは、統合され、ｎは繰り返して一つによって少なくされる。
・ｎ＜ｋ−１であるなら、互いに関連する有効な文字が確かにあるということが結論付けられる。

こうして、有効な文字を有するセグメントのｋ数が得られる。得られたセグメントは、オーバーセグメント化された形式であってもよい。

本実施形態に従い、図３を参照すると、いずれかのセグメントがマルチプルコンポーネントラベルを含んでいれば、マルチプルコンポーネントラベルはモルフォロジカルクロージングを適用することによって統合される（図２のステップ２２４に示される）。図３ａはオーバーセグメント化された文字を示し、図３ｂはモルフォロジカルクロージングを適用した後の同じ文字を示す。クロージングは、まるでオープニングが逆に実行されるようなことと似ている。それは、両方の操作にとって、同じ構造要素を使用するダイレーション（dilation）と、それに続くエロージョン（erosion）として単に規定される。したがって、クロージング操作者は、２つの入力を必要とする。それは、クローズされるべき画像と、構造要素とである。グレイレベルクロージングは、グレイレベルダイレーションと、それに続くグレイレベルエロージョンとで直接的に構成される。クロージングはデュアルオープニングである。すなわち、特別な構造要素を有するフォアグラウンドピクセルのクロージングは、同じエレメントを有するバッググラウンドをクロージングすることと等しい。

本実施形態に従い、図４（ｇ）は、図４（ａ）、４（ｂ）、４（ｃ）、４（ｄ）、４（ｅ）、４（ｆ）に示される先行技術に対して、本発明に開示されるような２値化技術の改善された結果を示している。

画像に連続して存在する英数字を識別するためのシステムと方法は、以下の段落で説明される例を実施することによって説明されてもよい。そのようなプロセスは、前記例のみに限定されない。
モバイルにおける解像度２メガピクセルのカメラでキャプチャーされる車両識別番号(VIN)の画像を検討する。画像が複数のノイズによって影響されることを検討する（ナンバープレート上の泥、他の車両による影など）。オリジナルのナンバーは、ＭＨ０５１４２４６６７２００８７である（２つのアルファベットを含む１７の数）。そのうち、明確な数および／またはアルファベットは、Ｍ−０５１４‐４‐‐‐２００８‐（残りのナンバーは部分的に識別できる）。ＯＣＲ（Optical character recognition）によって識別される前の、数とアルファベットを含むこの画像は、上述された方法とシステムによって改善される。ヒストグラムは、バッググラウンドとフォアグラウンドのピークポイントを与えることでコンピューター計算される。これは、閾値（例えば、１６）を与え、それによって複数の２値化画像が得られる。

これらの２値化画像は、さらにフィルターされ、不要なものは除去され、有効な文字が得られる。これらの有効な文字は、それとグラウンドトゥルース値（本ケースでは１７）とを比較することによって、候補画像を識別するために使用される。ファイナル候補画像は、これらの小さい候補画像を結合することで得られる。こうして、識別できなかった文字が識別される。

このプロセスは、欠けているまたはノイズに影響されたすべての文字の識別のために繰り返し使用される。そして、最後に、画質はＯＣＲによって処理される前に改善される。

Claims

画像中に連続して存在する英数字の識別方法であって、
前記方法は、プロセッサで実行される、
前記連続する英数字を含む前記画像をキャプチャーする工程と、
前記連続する英数字のうちの識別できる文字のセットを得るために、前記画像を処理する工程とを含み、
前記画像を処理する工程は、
バッググラウンドピークとフォアグラウンドピークとを決定するために前記画像中のピクセル輝度分布を認識するためのパターンを計算する工程と、
前記バッググラウンドピークと前記フォアグラウンドピークとの間の複数の動的閾値を選択することで、複数の２値化画像を生成する工程と、
１または２以上の有効な文字を識別するために、複数の画像から不要な成分を除去することによって、前記生成された２値化画像をフィルターする工程と、
所定のグラウンドトゥルース値に対して前記有効な文字を比較することで、１または２以上の候補画像を特定する工程と、
前記候補画像の結合が所定の状態によって決まるように、前記候補画像を結合することによってファイナル候補画像を生成する工程と、を含み、
前記識別方法は、プロセッサで実行される、
前記ファイナル候補画像を所定のセグメントに分割し、前記各セグメントと関連する有効な英数字を認識する工程とをさらに含むことを特徴とする英数字の識別方法。
前記連続する英数字は、限定されないが、１７の英数字を含んでいる請求項１に記載の英数字の識別方法。
前記ピクセル輝度を認識するためのパターンは、ヒストグラムの形式である請求項１に記載の英数字の識別方法。
複数のピクセル値は、前記連続して存在する英数字の数によって決まる請求項１に記載の英数字の識別方法。
前記不要な成分は、大きい成分と小さい成分とを含み、
特別なレベルを有するピクセルの数が１００より小さいと、成分は前記小さい成分であり、
特別なレベルを有するピクセルの数が幅／４であると、成分は前記大きい成分である請求項１に記載の英数字の識別方法。
前記１または２以上の候補画像は、オーバーセグメント２値化画像と、アンダーセグメント２値化画像とを無視することによって識別される請求項１に記載の英数字の識別方法。
前記グラウンドトゥルース値は、前記連続して存在する英数字の数と等しい請求項１に記載の英数字の識別方法。
前記候補画像を結合するための前記所定の状態は、半分以上の前記候補画像がバックグラウンドである場合、前記候補画像がバッググラウンドとして前記候補画像の全てのピクセルをマークすることによって結合される状態である請求項１に記載の英数字の識別方法。
前記候補画像は、前記連続して存在する英数字の数と等しい数に分けられる請求項１に記載の英数字の識別方法。
前記有効な英数字におけるマルチプルコンポーネントラベルは、モルフォロジカルクロージングを適用することによって統合される請求項１に記載の英数字の識別方法。
画像中に連続して存在する英数字を識別するためのシステムであって、
前記システムは、
前記連続して存在する英数字を含む前記画像を取得する画像取得デバイスと、
前記連続する英数字のうちの識別できる文字のセットを得るように構成されたプロセッサとを含み、
前記プロセッサは、
バッググラウンドピークとフォアグラウンドピークとを決定するために前記画像中のピクセル輝度分布を認識するためのパターンを計算するよう構成されたコンピューターモジュールと、
前記バッググラウンドピークと前記フォアグラウンドピークとの間の複数の動的閾値を選択することで、複数の２値化画像を生成するように構成された２値化モジュールと、
１または２以上の有効な文字を識別するために、複数の画像から不要な成分を除去するように構成されたフィルターと、
１または２以上の候補画像を特定するために、所定のグラウンドトゥルース値に対して前記有効な文字を比較するように構成されたコンパレーターと、
前記候補画像の結合が所定の状態によって決まるように、前記候補画像を結合することによってファイナル候補画像を生成するように構成された画像発生器と、を含み、
前記システムは、
前記ファイナル候補画像を所定のセグメントに分け、前記各セグメントと関連する有効な英数字を認識するように構成された出力発生モジュールとをさらに含むことを特徴とするシステム。
前記画像取得デバイスは、カメラを含む請求項１１に記載のシステム。
前記コンピューターモジュールは、前記ピクセル輝度を認識するためのヒストグラムパターンを計算する請求項１１に記載のシステム。
前記前記取得された画像は、１７の前記連続して存在する英数字を含む請求項１１に記載のシステム。