JP2012194705A

JP2012194705A - 画像処理装置、画像処理方法および画像処理プログラム

Info

Publication number: JP2012194705A
Application number: JP2011057262A
Authority: JP
Inventors: Tadashi Hyuga; 匡史日向; Masashi Kurita; 真嗣栗田; Hatsumi Aoi; 初美青位
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2011-03-15
Filing date: 2011-03-15
Publication date: 2012-10-11
Also published as: US20120237118A1

Abstract

【課題】教師データに含まれる文字に通常の縦横比とは異なるものが多数含まれている場合でも、文字などを的確に認識可能な画像処理装置、画像処理方法および画像処理プログラムを提供する。
【解決手段】固定サイズのサンプル画像を教師データとする統計的学習によって生成される識別器を用いて文字検出を行う画像処理方法であって、検出すべき文字が含まれる対象画像のアスペクト比が予め設定された所定比となるように前記対象画像を幾何学的に変換して変換後画像を得る変換工程Ｓ１０３と、前記変換後画像において前記識別器によって文字らしい領域である１つ以上の文字候補を探索する探索工程Ｓ１０４と、前記文字候補をクラスタリングして統合するとともに、信頼性の低い前記文字候補を削除する統合工程Ｓ１０５と、統合されるとともに削除はされなかった前記文字候補から含まれる文字を切り出し、その文字に矩形を外接させる外接工程Ｓ１０７とを含む。
【選択図】図４

Description

本発明は、商品サンプルなどに印刷されている文字などの検出を行う画像処理装置、画像処理方法および画像処理プログラムに関し、特に、固定サイズのサンプル画像を教師データとする統計的学習によって生成される識別器を用いて文字検出を行う画像処理装置、画像処理方法および画像処理プログラムに関する。

従来、統計的学習手法を用いた文字検出を行う技術として、通常の２値化処理などでは１文字毎に正しく切り出せない状態の文字であっても、各文字を正しく認識することができる画像処理方法およびその装置が提案されている（例えば、特許文献１参照）。

この特許文献１に記載の技術では、文字切り出し後に認識処理をするのではなく、各要素の組み合わせ毎に文字認識処理を繰り返すため、処理に時間がかかる。

また、ブースティング学習により形成したカスケード型識別器を用いて、現実世界のカラー画像中の文字を検出するシステムおよび方法も提案されている（例えば、特許文献２参照）。

この特許文献２に記載の技術では、識別器によって文字列を検出した後、１文字ずつ切り分ける処理が必要となり、やはり処理に時間がかかる。

さらに、学習の容易な統計的手法を用いて、小領域毎に文字領域とそれ以外の領域を分離し、その結果を統合することで、信頼性の高い文字領域抽出結果を得ることができる文字画像分離装置、文字画像分離方法、文字画像分離プログラム、およびこのプログラムを格納した記録媒体も提案されている（例えば、特許文献３参照）
この特許文献３に記載の技術では、判定および結果統合処理を画素単位で行っているため、やはり処理に時間がかかる。

特許第３９６５９８３号公報米国特許第７８１７８５５号公報特開２００６−０２３９８３号公報

このような統計的学習手法を用いた文字検出を行う技術では、固定サイズの画像サンプル（教師データ）と学習フレームワークによって生成される識別器を用いた文字抽出において、教師データとして極端な縦長文字を付加すると、画像中に現れる縦長なパターンを誤って文字として抽出しまうことが多くなる傾向があった。

例えば、図１５（ａ）に示すような通常の縦横比の「１」や「８」などの文字を専ら教師データとして用いていれば、これらの文字の検出に特に問題が生じることはない。ところが、図１５（ｂ）に示すような縦長の「１」や「８」などの文字も教師データに加えた場合、文字と文字以外の縦長なパターンとの特徴の差が小さくなり、誤検出率が高くなることがある。

従来技術のこのような課題に鑑み、本発明の目的は、たとえ認識対象画像に含まれる文字に通常の縦横比とは異なるものが多数含まれている場合であっても、それらの影響を極力抑制して、商品サンプルなどに印刷されている文字などを的確に認識することが可能な画像処理装置、画像処理方法および画像処理プログラムを提供することである。

上記目的を達成するため、本発明の画像処理装置は、固定サイズのサンプル画像を教師データとする統計的学習によって生成される識別器を用いて文字検出を行う画像処理装置であって、検出すべき文字が含まれる対象画像のアスペクト比が予め設定された所定比となるように前記対象画像を幾何学的に変換して変換後画像を得る変換手段と、前記変換後画像において前記識別器によって文字らしい領域である１つ以上の文字候補を探索する探索手段と、この探索手段によって探索された前記文字候補をクラスタリングして統合するとともに、信頼性の低い前記文字候補を削除する統合手段と、この統合手段によって統合されるとともに削除はされなかった前記文字候補から含まれる文字を切り出し、その文字に矩形を外接させる外接手段とを備えることを特徴とする。

ここで、前記識別器は、例えば、複数の弱識別器をカスケード構造をなすように組み合わせて強識別器としたカスケード型識別器が挙げられるが、必ずしもこれに限らない。

このような構成の画像処理装置によれば、たとえ教師データに含まれる文字に通常の縦横比とは異なるものが多数含まれている場合であっても、それらの影響を極力抑制して、商品サンプルなどに印刷されている文字などを的確に認識することが可能となる。

また、本発明の画像処理装置において、前記変換手段で前記対象画像の前記アスペクト比を定める前記所定比の外部からの設定入力を受け付ける設定入力手段をさらに備えることを特徴としてもよい。

また、本発明の画像処理装置において、前記外接手段によって矩形が外接された文字以外の領域から記号に相当する領域を抽出する記号検出手段をさらに備えることを特徴としてもよい。

また、本発明の画像処理装置において、前記外接手段によって矩形が外接された文字の認識を行う文字認識手段をさらに備えることを特徴としてもよい。

あるいは、上記目的を達成するため、本発明の画像処理装置は、固定サイズのサンプル画像を教師データとする統計的学習によって生成される識別器を用いて文字検出を行う画像処理装置であって、検出すべき文字が含まれる対象画像の幾何学的特徴を示すパラメータが予め設定された値となるように前記対象画像を幾何学的に変換して変換後画像を得る変換手段と、この変換手段によって得られた前記変換後画像において前記識別器によって文字らしい領域である１つ以上の文字候補を探索する探索手段とを備えることを特徴とする。

また、本発明の画像処理装置において、前記パラメータは前記対象画像のアスペクト比であることを特徴としてもよい。

また、本発明の画像処理装置において、前記探索手段によって探索された前記文字候補をクラスタリングして統合するとともに、信頼性の低い前記文字候補を削除する統合手段をさらに備えることを特徴としてもよい。

また、本発明の画像処理装置において、前記統合手段によって統合されるとともに削除はされなかった前記文字候補から含まれる文字を切り出し、その文字に矩形を外接させる外接手段をさらに備えることを特徴としてもよい。

あるいは、上記目的を達成するため、本発明の画像処理方法は、固定サイズのサンプル画像を教師データとする統計的学習によって生成される識別器を用いて文字検出を行う画像処理方法であって、検出すべき文字が含まれる対象画像のアスペクト比が予め設定された所定比となるように前記対象画像を幾何学的に変換して変換後画像を得る変換工程と、前記変換後画像において前記識別器によって文字らしい領域である１つ以上の文字候補を探索する探索工程と、この探索工程で探索された前記文字候補をクラスタリングして統合するとともに、信頼性の低い前記文字候補を削除する統合工程と、この統合工程によって統合されるとともに削除はされなかった前記文字候補から含まれる文字を切り出し、その文字に矩形を外接させる外接工程とを含むことを特徴とする。

このような構成の画像処理方法によれば、たとえ教師データに含まれる文字に通常の縦横比とは異なるものが多数含まれている場合であっても、それらの影響を極力抑制して、商品サンプルなどに印刷されている文字などを的確に認識することが可能となる。

あるいは、上記目的を達成するため、本発明の画像処理プログラムは、上記の画像処理方法をコンピュータに実行させることを特徴とする。

このような構成の画像処理プログラムによれば、プログラムが実行可能なコンピュータ環境さえあれば、どこにおいても本発明の画像処理方法を実現することができる。さらに、この画像処理プログラムを汎用的なコンピュータで実行可能なものにしておけば、本発明の画像処理方法を実現するために専用のコンピュータ環境を準備する必要もなくなり、本発明の画像処理プログラムの有用性が高まる。

本発明の画像処理装置および画像処理方法によれば、たとえ認識対象画像に含まれる文字に通常の縦横比とは異なるものが多数含まれている場合であっても、それらの影響を極力抑制して、商品サンプルなどに印刷されている文字などを的確に認識することが可能となる。

また、本発明の画像処理プログラムによれば、プログラムが実行可能なコンピュータ環境さえあれば、どこにおいても本発明の画像処理方法を実現することができる。さらに、この画像処理プログラムを汎用的なコンピュータで実行可能なものにしておけば、本発明の画像処理方法を実現するために専用のコンピュータ環境を準備する必要もなくなり、本発明の画像処理プログラムの有用性が高まる。

本発明に係る画像処理装置１００の配設状態の一例を示す斜視図である。本発明に係る画像処理装置本体１の構成の一例を示す構成図である。図２に示すＣＰＵ１１などの機能構成の一例を示す機能構成図である。ＣＰＵ１１で実行される文字検出アルゴリズムの概略処理を示すフローチャートである。（ａ）〜（ｄ）は図４のフローチャートのステップＳ１０４、Ｓ１０５、Ｓ１０７およびＳ１０８で得られる画像をそれぞれ例示する図である。（ａ）および（ｂ）はステップＳ１０３の前後での各画像を例示する図である。ステップＳ１０４の説明に用いる画像を例示する図である。ステップＳ１０４で用いられるカスケード型識別器７によって行われる判定の流れを示す概略図である。（ａ）は交差判定によるクラスタリングの説明図であり、（ｂ）は交差判定による矩形削除の説明図である。（ａ）は矩形間の重なり調整の説明図であり、（ｂ）は矩形毎の画像切り抜きの説明図であり、（ｃ）は微分ヒストグラムを利用した２値化の説明図である。（ａ）はラベリングの説明図であり、（ｂ）は矩形枠線上ノイズ除去の説明図であり、（ｃ）はフィッティングの説明図である。記号探索領域の推定の説明図である。２値化・投影による記号検出の説明図である。画像圧縮部１１１で対象画像のアスペクト比を定める所定比を入力装置４でのユーザー操作で入力可能とする場合にモニタ３に表示させるユーザーインターフェイス画面を例示する説明図である。（ａ）は教師データが専ら通常の縦横比の文字である場合を例示する説明図であり、（ｂ）は教師データに縦長の文字が多い場合を例示する説明図である。

以下、本発明に係る画像処理装置、画像処理方法および画像処理プログラムの実施形態を図面に基づいて説明する。

＜画像処理装置１００の配設状態＞
まず、図１を参照して、本発明に係る画像処理装置１００が配設されている状態の一例について説明する。図１は、本発明に係る画像処理装置１００の配設状態の一例を示す斜視図である。画像処理装置１００は、例えば、製品５を製造する工場などにおいて、製品５の表面（本実施形態では、ＣＣＤカメラ２と対向する側の面）に形成された複数の文字（例えば、アルファベット３文字）からなる文字列を含む画像に対して画像処理を施して、前記文字列を構成する各文字を認識するものである。ここで、製品５は、特許請求の範囲に記載の物体に相当する。

本実施形態においては、製品５の表面に文字列が形成されている場合について説明するが、物体の表面に文字列が形成されている形態であればよい。例えば、果物、野菜などの農産物、魚介類などの海産物、ＩＣ（Integrated Circuit）、抵抗、コンデンサなどの部品、原材料、半製品などの表面に文字列が形成されている形態でもよい。

また、本実施形態においては、文字列が形成されている面が、平面状である場合について説明するが、文字列が形成されている面は、曲面であっても、凹凸があってもよい。

図１に示すように、画像処理装置１００は、画像処理装置本体１、ＣＣＤカメラ２、モニタ３、及び、入力装置４を備え、ここでは、製品５を搬送するコンベア６の近傍に配設されている。なお、画像処理装置１００のうち、ＣＣＤカメラ２は、製品５の表面に形成された文字列を含む画像を生成するものであるから、コンベア６の近傍に配設することが好ましい。一方、画像処理装置本体１、モニタ３、及び、入力装置４は、コンベア６の近傍に配設する必要はない。例えば、画像処理装置本体１、モニタ３、及び、入力装置４は、画像処理装置１００を操作するオペレータの部屋などの粉塵が少なく、且つ、温度が常温近傍に維持される場所に配設することが好ましい。

画像処理装置本体１は、画像処理装置１００全体の動作を制御するものである。画像処理装置本体１の具体的な構成については、図２を用いて後述する。

ＣＣＤ（Charge Coupled Device）カメラ２（以下、単に「カメラ２」ともいう）は、コンベア６上を搬送される各製品５の表面に形成された文字列を含む画像を順に撮像するものであって、レンズをコンベア６上の製品５に向けて配設されている。また、カメラ２によって生成された画像情報は、順次、画像処理装置本体１へ出力される。

モニタ３は、画像処理装置本体１からの指示に従って、種々の画像を外部から視認可能に表示するものであって、例えば、ＬＣＤ（Liquid Crystal Display）などを備えている。ここで、モニタ３は、特許請求の範囲に記載の画像表示手段に相当する。モニタ３には、例えば、カメラ２によって生成された画像情報、図８を参照して後述する結果表示画面８００、８１０、及び、種々のガイダンス情報などが表示される。

入力装置４は、オペレータなどからの操作を受け付ける装置であって、キーボード、マウスなどを備えている。ここでは、入力装置４は、特許請求の範囲に記載の操作受付手段に相当する。なお、入力装置４によって受け付けられたオペレータの操作入力情報は、画像処理装置本体１へ出力される。

＜画像処理装置本体１の構成＞
次に、図２を参照して、画像処理装置本体１の構成について説明する。図２は、本発明に係る画像処理装置本体１の構成の一例を示す構成図である。図２に示すように、画像処理装置本体１は、ＣＰＵ１１、ＥＥＰＲＯＭ１２、ＲＡＭ１３、画像メモリ１４、Ａ／Ｄ変換器１５、Ｄ／Ａ変換器１６、及び、入出力部１７を備えている。

ＣＰＵ（Central Processing Unit）１１は、画像処理装置本体１全体の動作を制御するものであって、図略のＲＯＭ（Read Only Memory）又は、ＥＥＰＲＯＭ１２などに格納される制御プログラムを実行することによって、種々の処理を実行する。なお、本発明に係る画像処理プログラムは、上記の制御プログラムの一部に相当する。また、ＣＰＵ１１は、特許請求の範囲に記載のコンピュータに相当する。

ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）１２は、書き換え可能な不揮発性メモリであって、カメラ２によって生成された画像情報から文字を認識する画像処理に用いられる各種パラメータの値などを記憶するものである。ＲＡＭ（Random Access Memory）は、ＣＰＵ１１での処理の結果、入力装置４から入力されたデータなどを一時的に記憶するメモリである。

Ａ／Ｄ変換器１５は、カメラ２からのアナログの画像信号を取り込んで、ディジタルの画像情報に変換するものである。変換された濃淡画像情報は、画像メモリ１４に記録される。ここでは、濃淡画像情報の各画素には、それぞれ、白色から黒色までの輝度の範囲に対応して、例えば、２５６階調の濃淡を示す値（諧調情報ともいう）が割り当てられている。すなわち、濃淡画像情報とは、画素毎に対応付けられた諧調情報である。

画像メモリ１４は、種々の画像情報を記憶するメモリであって、Ａ／Ｄ変換器１５から出力された画像情報を記憶すると共に、文字認識の画像処理において２値化処理された画像情報（以下、二値画像ともいう）などを記憶する。Ｄ／Ａ変換器１６は、画像メモリ１４に格納された画像情報を、アナログの表示用画像信号に変換してモニタ３に出力するものである。

入出力部１７は、ＣＰＵ１１と入力装置４との間、及び、ＣＰＵ１１とモニタ３との間のデータの入出力処理を行うインターフェースである。

＜ＣＰＵ１１の機能構成＞
次に、図３を参照して、ＣＰＵ１１などの構成について説明する。図３は、図２に示すＣＰＵ１１などの機能構成の一例を示す機能構成図である。ＣＰＵ１１は、図略のＲＯＭなどに記憶された制御プログラム（本発明に係る画像処理プログラム）を読み出して実行することによって、画像圧縮部１１１、文字候補探索部１１２、文字候補統合部１１３、統合矩形外接部１１４、記号検出部１１５、文字認識部１１６などとして機能する。

画像圧縮部１１１は、画像メモリ１４に格納されていて検出すべき文字が含まれる対象画像を読み出し、そのアスペクト比が所定比となるように対象画像を圧縮して圧縮後画像得を得る（詳細は図４のステップＳ１０３を参照して後述）。なお、対象画像のアスペクト比を定める所定比は、予め設定した上でＥＥＰＲＯＭ１２などに記憶させておいてもよいし、例えば、入力装置４でのユーザー操作など、外部からの設定入力を受け付けることで設定や変更ができるようにしてもよい（図１４を参照して後述）。

文字候補探索部１１２は、画像圧縮部１１１によって得られた圧縮後画像において文字らしい領域である１つ以上の文字候補を探索する（詳細は図４のステップＳ１０４を参照して後述）。

文字候補統合部１１３は、文字候補探索部１１２によって探索された文字候補をクラスタリングして統合するとともに、信頼性の低い文字候補を削除する（詳細は図４のステップＳ１０５を参照して後述）。

統合矩形外接部１１４は、文字候補統合部１１３によって統合されるとともに削除はされなかった文字候補から含まれる文字を切り出し、その文字に矩形を外接させる（詳細は図４のステップＳ１０７を参照して後述）。

記号検出部１１５は、統合矩形外接部１１４によって矩形が外接された文字以外の領域から記号に相当する領域を抽出する（詳細は図４のステップＳ１０８を参照して後述）。

文字認識部１１６は、統合矩形外接部１１４によって矩形が外接された文字の認識を行うが、これには既知の文字認識技術を適用することが可能である。

＜文字検出アルゴリズムの処理フロー＞
図４はＣＰＵ１１で実行される文字検出アルゴリズムの概略処理を示すフローチャートである。例えば、このような文字検出アルゴリズムをソフトウェアライブラリなどに関数として登録しておいてもよい。図５（ａ）〜図５（ｄ）は図４のフローチャートのステップＳ１０４、Ｓ１０５、Ｓ１０７およびＳ１０８で得られる画像をそれぞれ例示する図である。

なお、この文字検出アルゴリズムの実行に先立って、検出すべき文字が含まれる画像がカメラ２（図１、図２参照）によって取得されて画像メモリ１４に格納されているものとする。また、この文字検出アルゴリズムの実行後には、既知の文字認識技術を適用することになる。

ステップＳ１０１：各種パラメータチェック
まず、引数で与えたられた各パラメータ値が使用範囲内かどうかを確認し、
問題がなければ与えられた各引数の値に従って各パラメータを設定する。具体的には、画像サイズ確認／設定、および処理領域サイズ確認／設定を順次行う。

ステップＳ１０２：検出器（学習結果）情報取得
次に、検出器の情報（学習結果）を取得する。

ステップＳ１０３：対象画像の変換
対象画像を文字探索用フォーマットに変換する。具体的には、画像グレースケール変換を行った後、次のようなアスペクト変換を行う。ここで、図６（ａ）および図６（ｂ）はこのステップＳ１０３の前後での各画像を例示する図である。

カメラ２（図１、図２参照）によって取得され画像メモリ１４に格納された検出すべき文字が含まれる画像（原画像）を対象画像とし、縦横比（アスペクト比）が、図６（ａ）に示すように、Ｈ：Ｗであるとする。ここで、例えば、パラメータａを導入し、
Ｈ：Ｗ＝ａ：１
または
Ｈ／Ｗ＝ａ
となるように対象画像をアスペクト変換する。これにより、図６（ｂ）に示すように、縦横比（アスペクト比）がＷ×ａ：Ｗである画像（変換後画像）が得られることになる。この変換後画像を、対象画像とは別に画像メモリ１４に格納する。

なお、画像変換方法については、例えば、周辺の２×２画素（４画素）を使って輝度値を直線的に補間するバイリニア補間（Bilinear補間、双一次補間ともいう）や、周辺の４×４画素（１６画素）を使って輝度値を三次式で補間するバイキュビック補間（Bicubic補間、双三次補間ともいう）など、一般的な補間技術を用いればよい。

ステップＳ１０４：文字探索
統計的学習手法によって生成された識別器を用いて、画像メモリ１４に格納された変換後画像において文字探索、つまり、文字らしい領域の抽出を行う。ここで、図７はこのステップＳ１０４の説明に用いる画像を例示する図である。図８はこのステップＳ１０４で用いられるカスケード型識別器７によって行われる判定の流れを示す概略図である。

より具体的には、例えば、図７に例示した画像に対して、図８に示すように、文字探索処理を行う。ここでは、ブースティング学習による識別器を用いて文字検出を行うが、より具体的には、Haar-like 特徴を用いたAdaBoostベース識別器による文字検出を行うとともにカスケード型としている。図８に示すように、カスケード型識別器７は、５つの弱識別器７１〜７５をカスケード構造をなすように組み合わせて強識別器としたものである。このようなカスケード型識別器は、学習には多くの時間を必要とするものの、識別時には非検出対象がカスケードの初期に除外されるため，単一の識別対象に対してはより高速な処理が可能となる。

この文字探索処理は、複数のレイヤによって実行される。各レイヤには、異なる組み合わせの文字矩形が割り当てられる。ここで、「文字矩形」とは、文字のサンプル画像と同じ大きさの領域を囲む矩形のことである。図８では、各レイヤに割り当てられる文字矩形の数も異なる。また、各レイヤには判定を実施する順番が割り当てられており、各レイヤはその順番に従って処理を行う。すなわち、例えば、図８において、レイヤ１（Ｌａｙｅｒ１）の次にレイヤ２（Ｌａｙｅｒ２）が判定を実施し、その次にレイヤ３（Ｌａｙｅｒ３）が判定を実施する。

各レイヤは、自身に割り当てられた順番に、自身に割り当てられたパターンの文字矩形を用いて、注目領域内に文字が含まれるか否かを判定する。あるレイヤにおいて、注目領域内に文字が含まれないと判定された場合、それ以降の順番のレイヤでは、この注目領域についての判定は実施されない。そして、最後の順番のレイヤによる判定で、注目領域内に文字が含まれると判定された場合に、最終的に文字探索処理において注目領域内に文字が含まれると判定される。

なお、統計的学習によって生成される識別器としては、上記の構成に限らず、例えばバックプロパゲーションによって学習させたニューラルネットワークや、ベイズ識別器等を用いてもよい。

ステップＳ１０５：探索結果統合
探索結果、すなわち文字探索（ステップＳ１０４）で抽出された複数の文字らしい領域を交差判定によってクラスタリングし、１つの矩形に統合する。その後、再度交差判定を行って信頼度の低い矩形を削除する。ここで、図９（ａ）は交差判定によるクラスタリングの説明図であり、図９（ｂ）は交差判定による矩形削除の説明図である。

交差判定によるクラスタリングでは、図９（ａ）に示すように、探索矩形ＳＲが一定距離以上接近している場合に同一グループとする。例えば、次のような判定式を考えると、
（Ｒ１＋Ｒ２）× Threshold ＜Ｌ１
これがＹｅｓの場合には別グループとし、Ｎｏの場合には同一グループとすればよい。

また、交差判定による矩形削除では、図９（ｂ）に示すように、探索矩形ＳＲが一定距離以上接近している場合に信頼度の低い矩形を削除する。例えば、図９（ａ）の場合と同様の判定式を考えると、これがＹｅｓの場合には何もせず、Ｎｏの場合には信頼度の低い矩形を削除すればよい。

ステップＳ１０６：統合結果のアスペクト比復元
対象画像の変換（ステップＳ１０３）でアスペクト変換した画像から得られた検出結果を元のアスペクト比に戻す。すなわち、統合された文字候補領域の縦横比をｈ：ｗとすると、前述のパラメータａを用い、ｈ／ｗ＝１／ａとなるように、文字候補領域をアスペクト変換する。これにより、この後の外接処理および記号検出処理を元の対象画像の上で行うことができるため、文字の切り出し結果を対象画像に重ねて表示することができる。

ステップＳ１０７：統合矩形の外接
アスペクト比が復元された統合結果をもとに、画像メモリ１４に格納された元の対象画像から文字の切り出しを行い、矩形を文字に外接させる。具体的には、矩形間の重なりの調整、矩形毎の画像切り抜き、２値化、ラベリング、矩形枠線上ノイズ除去、およびフィッティングを順次行う。ここで、図１０（ａ）は矩形間の重なり調整の説明図であり、図１０（ｂ）は矩形毎の画像切り抜きの説明図であり、図１０（ｃ）は２値化の説明図である。図１１（ａ）はラベリングの説明図であり、図１１（ｂ）は矩形枠線上ノイズ除去の説明図であり、図１１（ｃ）はフィッティングの説明図である。

まず、図１０（ａ）左側に示すように、例えば、文字「Ａ」とともに汚れ（から生じた小点）Ｂを含む矩形ＳＲ１と文字「Ｌ」を含む矩形ＳＲ２とを切り分ける矩形間の重なり調整を行い、図１０（ａ）右側に示すように、両方の矩形が重ならないようにする。

次に、図１０（ｂ）に示すように、矩形毎に画像切り抜きを行う。ここでは、文字「Ａ」や汚れを含む画像を「画像Ｇ１」、文字「Ｌ」を含む画像を「画像Ｇ２」と呼ぶことにする。

次に、判別分析法など公知の手法を利用した２値化を行うと、例えば、図１０（ｃ）に示すような２値化された画像Ｇｂ１が得られる。

次に、２値化された画像Ｇｂ１にラベリング（領域化）を行う。例えば、図１１（ａ）に示すように、画像Ｇｂ１内の文字「Ａ」に相当する領域には「Ｘ１」というラベルを付けるとともに、汚れに相当する領域には「Ｘ２」というラベルを付ける。

次に、矩形枠線上にある領域面積が閾値より小さい場合はノイズとみなして除去する。これにより、例えば、図１１（ｂ）に示すように、汚れに相当する領域Ｘ２は除去対象Ｄとなるが、文字「Ａ］を含む領域Ｘ１は除去対象Ｄとはならずにそのまま残る。

最後に、ラベル付けされている位置まで矩形を縮小してフィッティングする。これにより、例えば、図１１（ｃ）左側に示すような画像Ｇｂ１の矩形は領域Ｘ１というラベルが付いている位置まで縮小されて、図１１（ｃ）右側に示すように、文字「Ａ」にちょうど外接するサイズとなる。

ステップＳ１０８：記号検出
２値化・投影によって記号に相当する領域を抽出する記号検出を行う。ここで、図１２は記号探索領域の推定の説明図である。図１３は２値化・投影による記号検出の説明図である。

記号探索領域の推定については、図１２に示すように、文字検出結果ＣＤの最大高さを利用する。文字列先頭Ｃ１、文字間Ｃ２および文字列末尾Ｃ３が記号探索領域Ｒ１４となる。そして、図１３に示すように、２値化やｘ方向およびｙ方向への投影によって記号を検出する。

なお、この記号検出（ステップＳ１１１）も、統合矩形の外接（ステップＳ１０９）同様、アスペクト比が復元された統合結果をもとに、画像メモリ１４に格納された元の対象画像の上で行う。文字探索（ステップＳ１０４）とは違い、変換後画像を処理対象とはしないことで、アスペクト変換処理による記号の潰れ等の悪影響を回避することができる。

＜ユーザーインターフェイス画面＞
図１４は画像圧縮部１１１で対象画像のアスペクト比を定める所定比を入力装置４でのユーザー操作で入力可能とする場合にモニタ３に表示させるユーザーインターフェイス画面３０を例示する説明図である。

この図１４に示すように、ユーザーインターフェイス画面３０は、その左側上寄りに配置されて入力された画像を表示する入力画像表示部３１と、この入力画像表示部の下側左寄りに配置されて文字検出結果を表示する結果表示部３２と、右側の最上部に配置されて画像入力のトリガとして利用可能な画像入力用ボタン３３と、その下に配置されて対象画像のアスペクト比を定める所定比を入力可能な縦横比入力部３４と、その下に配置されて文字色を指定可能な文字色入力部３５と、その下に配置されて回転角度を入力可能な回転角度入力部３６と、その下に配置される処理領域設定ボタン３７とを含む。

縦横比入力部３４としては、例えば、縦横比として１：１０〜１０：１を入力可能なスクロールバーが挙げられる。

文字色入力部３５は様々な文字色に対応して高速に認識を実施するためのものであり、例えば、ラジオボタンが挙げられる。

回転角度入力部３６は画像を回転させることで斜めなどに映る文字の認識を容易にするためのものである。

処理領域設定ボタン３７は処理領域を限定（例えば、タッチパネル操作や座標入力などで対応）することで処理を高速化したり、認識対象外の文字を除外したりできるものである。

なお、画像入力用ボタン３３、文字色入力部３５、回転角度入力部３６および処理領域設定ボタン３７は不可欠なものではない。

なお、本発明は、その主旨または主要な特徴から逸脱することなく、他のいろいろな形で実施することができる。そのため、上述の実施形態はあらゆる点で単なる例示にすぎず、限定的に解釈してはならない。本発明の範囲は特許請求の範囲によって示すものであって、明細書本文にはなんら拘束されない。さらに、特許請求の範囲の均等範囲に属する変形や変更は、全て本発明の範囲内のものである。

本発明は、文字などの検出を行う画像処理装置、画像処理方法および画像処理プログラムなどに適用可能である。

１００画像処理装置
１画像処理装置本体
１１ＣＰＵ
１１１画像圧縮部
１１２文字候補探索部
１１３文字候補統合部
１１４統合矩形外接部
１１５記号検出部
１１６文字認識部
１２ＥＥＰＲＯＭ
１３ＲＡＭ
１４画像メモリ
１５Ａ／Ｄ変換器
１６Ｄ／Ａ変換器
１７入出力部
２ＣＣＤカメラ
３モニタ
３０ユーザーインターフェイス画面
３１入力画像表示部
３２結果表示部
３３画像入力用ボタン
３４縦横比入力部
３５文字色入力部
３６回転角度入力部
３７処理領域設定ボタン
４入力装置
５製品
６コンベア
７カスケード型識別器

Claims

固定サイズのサンプル画像を教師データとする統計的学習によって生成される識別器を用いて文字検出を行う画像処理装置であって、
検出すべき文字が含まれる対象画像のアスペクト比が予め設定された所定比となるように前記対象画像を幾何学的に変換して変換後画像を得る変換手段と、
前記変換後画像において前記識別器によって文字らしい領域である１つ以上の文字候補を探索する探索手段と、
この探索手段によって探索された前記文字候補をクラスタリングして統合するとともに、信頼性の低い前記文字候補を削除する統合手段と、
この統合手段によって統合されるとともに削除はされなかった前記文字候補から含まれる文字を切り出し、その文字に矩形を外接させる外接手段と
を備えることを特徴とする画像処理装置。
請求項１に記載の画像処理装置において、
前記変換手段で前記対象画像の前記アスペクト比を定める前記所定比の外部からの設定入力を受け付ける設定入力手段をさらに備えることを特徴とする画像処理装置。
請求項１または２に記載の画像処理装置において、
前記文字候補領域を、前記所定比の逆数の比でアスペクト変換する第二変換手段をさらに備えることを特徴とする画像処理装置。
請求項３に記載の画像処理装置において、
前記外接手段によって矩形が外接された文字以外の領域から記号に相当する領域を抽出する記号検出手段をさらに備えることを特徴とする画像処理装置。
請求項１または２に記載の画像処理装置において、
前記外接手段によって矩形が外接された文字の認識を行う文字認識手段をさらに備えることを特徴とする画像処理装置。
固定サイズのサンプル画像を教師データとする統計的学習によって生成される識別器を用いて文字検出を行う画像処理装置であって、
検出すべき文字が含まれる対象画像の幾何学的特徴を示すパラメータが予め設定された値となるように前記対象画像を幾何学的に変換する変換手段と、
この変換手段によって得られた前記変換後画像において前記識別器によって文字らしい領域である１つ以上の文字候補領域を探索する探索手段と
を備えることを特徴とする画像処理装置。
請求項６に記載の画像処理装置において、
前記パラメータは前記対象画像のアスペクト比であることを特徴とする画像処理装置。
請求項６または７に記載の画像処理装置において、
前記探索手段によって探索された前記文字候補をクラスタリングして統合するとともに、信頼性の低い前記文字候補を削除する統合手段をさらに備えることを特徴とする画像処理装置。
請求項８に記載の画像処理装置において、
前記統合手段によって統合されるとともに削除はされなかった前記文字候補から含まれる文字を切り出し、その文字に矩形を外接させる外接手段をさらに備えることを特徴とする画像処理装置。
固定サイズのサンプル画像を教師データとする統計的学習によって生成される識別器を用いて文字検出を行う画像処理方法であって、
検出すべき文字が含まれる対象画像のアスペクト比が予め設定された所定比となるように前記対象画像を幾何学的に変換して変換後画像を得る変換工程と、
前記変換後画像において前記識別器によって文字らしい領域である１つ以上の文字候補を探索する探索工程と、
この探索工程で探索された前記文字候補をクラスタリングして統合するとともに、信頼性の低い前記文字候補を削除する統合工程と、
この統合工程によって統合されるとともに削除はされなかった前記文字候補から含まれる文字を切り出し、その文字に矩形を外接させる外接工程と
を含むことを特徴とする画像処理方法。
請求項１０に記載の画像処理方法をコンピュータに実行させることを特徴とする画像処理プログラム。