JP2018500706A

JP2018500706A - 領域認識方法及び装置

Info

Publication number: JP2018500706A
Application number: JP2017547048A
Authority: JP
Inventors: ▲飛▼ ▲龍▼; 涛 ▲張▼; 志▲軍▼ ▲陳▼
Original assignee: Xiaomi Inc
Current assignee: Xiaomi Inc
Priority date: 2015-10-30
Filing date: 2015-12-29
Publication date: 2018-01-11
Anticipated expiration: 2035-12-29
Also published as: MX360693B; RU2629537C1; MX2016003577A; EP3163500A1; CN105528602A; WO2017071065A1; KR20170061629A; KR101864759B1; JP6401873B2; US20170124386A1

Abstract

本発明は領域認識方法及び装置を開示し、画像処理分野に属する。前記領域認識方法は、証明書類画像における顔領域の領域位置を取得し、前記顔領域の領域位置に基づき少なくとも１つの情報領域を決定し、前記情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることによって、関連技術における直接的に撮影された証明書類画像におけるある情報領域に対する認識の難易度が大きく且つある情報領域に対する位置決めが不正確であるという問題を解決し、証明書類画像における顔領域の領域位置により他の情報領域を決定し、他の情報領域を切断することによって、情報領域に対して正確に位置決めを行うとともに情報領域におけるキャラクター領域を正確に認識する効果を達する。【選択図】図１

Description

本願は、出願番号がＣＮ２０１５１０７２８２８２．１であり、出願日が２０１５年１０月３０日である中国特許出願に基づいて提出され、且つ該中国特許出願の優先権を主張し、該中国特許出願のすべての内容はここで参考として本願に援用される。

本発明は画像処理分野に関し、特に領域認識方法及び装置に関する。

身分証明書の自動認識技術は、画像処理により身分証明書における文字情報を認識する技術である。

関連技術は、身分証明書走査装置が一定の相対位置に従って身分証明書を走査することにより、身分証明書の走査画像を得て、走査画像におけるｎ個の所定領域に対して文字認識を行い、名前情報、性別情報、民族情報、生年月日情報、アドレス情報及び公民身分証明書番号情報のうちの少なくとも１種を得る身分証明書の自動認識方法を提供している。しかしながら、直接的に撮影された身分証明書画像に対して、認識の難易度がまだ大きい。

関連技術における問題を解決するために、本発明は領域認識方法及び装置を提供する。

前記技術案は、以下のとおりである。

本発明の実施例に係る第１態様によれば、
証明書類画像における顔領域の領域位置を取得することと、
前記顔領域の領域位置に基づき少なくとも１つの情報領域を決定することと、
前記情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることと、を含む領域認識方法を提供している。

好ましい実施例では、
前記顔領域の領域位置は前記顔領域の所定縁で示され、
前記証明書類画像における顔領域の領域位置を取得することは、
前記証明書類画像を顔認識し、前記顔領域を得ることと、
前記顔領域に基づき前記顔領域の前記所定縁を認識することと、を含む。

好ましい実施例では、
前記証明書類画像を顔認識し、前記顔領域を得ることは、
所定の顔サイズに対する顔モデルによって、前記証明書類画像における所定領域を顔認識し、前記顔領域を得ることを含む。

好ましい実施例では、
前記顔領域に基づき前記顔領域の前記所定縁を認識することは、
前記顔領域の下部に基づき前記顔領域の下縁を含む関心領域を決定することと、
前記関心領域を直線検出し、前記顔領域の下縁を認識することと、を含む。

好ましい実施例では、
前記関心領域を直線検出し、前記顔領域の下縁を認識することは、
前記関心領域に対してソーベル水平フィルタリング及び２値化を行い、処理後の前記関心領域を得ることと、
前記処理後の前記関心領域に対してハフ（Ｈｏｕｇｈ）変換を行い、長さが所定の長さよりも大きい線分を得て、前記線分を前記顔領域の下縁として認識することと、を含む。

好ましい実施例では、
前記所定縁の傾きに基づいて、前記証明書類画像に対して勾配補正を行うことを更に含む。

好ましい実施例では、
前記所定縁の傾きに基づいて、前記証明書類画像に対して勾配補正を行うことは、
前記所定縁の傾きに基づいて、前記所定縁と水平方向とのなす角度を決定することと、
前記証明書類画像を前記角度に応じて回転させ、回転後の前記証明書類画像における前記所定縁が前記水平方向と平行になることと、を含む。

好ましい実施例では、
前記情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることは、
前記情報領域を２値化し、２値化後の情報領域を得ることと、
前記２値化後の情報領域に対して水平方向に応じて第１ヒストグラムを算出し、前記第１ヒストグラムが、各行ピクセルの縦座標及び前記各行ピクセルにおける前景色ピクセルの累積値を含むことと、
前記第１ヒストグラムにおける前景色ピクセルの累積値が第１閾値よりも大きい行からなる連続行セットに基づき、ｎ行の文字領域を認識して、ｎが正整数であることと、
第ｉ行の文字領域に対して、垂直方向に応じて第２ヒストグラムを算出し、前記第２ヒストグラムが、各列のピクセルの横座標と前記各列のピクセルにおける前景色ピクセルの累積値を含み、ｎ≧ｉ≧１、ｉが正整数であることと、
前記第２ヒストグラムにおける前景色ピクセルの累積値が第２閾値よりも大きい列からなる連続列セットに基づいて、ｎｉ個のキャラクター領域を認識する。

本発明の実施例に係る第２態様によれば、
証明書類画像における顔領域の領域位置を取得するように配置される取得モジュールと、
前記顔領域の領域位置に基づき少なくとも１つの情報領域を決定するように配置される決定モジュールと、
前記情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得るように配置される切断モジュールと、を備える領域認識装置を提供している。

好ましい実施例では、
前記顔領域の領域位置は前記顔領域の所定縁で示され、
前記取得モジュールは、
前記証明書類画像を顔認識し、前記顔領域を得るように配置される第１認識サブモジュールと、
前記顔領域に基づき前記顔領域の前記所定縁を認識するように配置される第２認識サブモジュールと、を備える。

好ましい実施例では、
前記第１認識サブモジュールは、所定の顔サイズに対する顔モデルによって、前記証明書類画像における所定領域を顔認識し、前記顔領域を得るように配置される。

好ましい実施例では、
前記第２認識サブモジュールは、
前記顔領域の下部に基づき前記顔領域の下縁を含む関心領域を決定するように配置される関心決定サブモジュールと、
前記関心領域を直線検出し、前記顔領域の下縁を認識するように配置される検出サブモジュールと、を備える。

好ましい実施例では、
前記検出サブモジュールは、
前記関心領域に対してソーベル水平フィルタリング及び２値化を行い、処理後の前記関心領域を得るように配置されるフィルタリングサブモジュールと、
前記処理後の前記関心領域に対して直線フィッティング又はハフ（Ｈｏｕｇｈ）変換を行い、長さが所定の長さよりも大きい線分を得て、前記線分を前記顔領域の下縁として認識するように配置される変換サブモジュールと、を備える。

好ましい実施例では、
前記所定縁の傾きに基づいて、前記証明書類画像に対して勾配補正を行うように配置される修正モジュールを更に備える。

好ましい実施例では、
前記修正モジュールは、
前記所定縁の傾きに基づいて、前記所定縁と水平方向とのなす角度を決定するように配置される角度決定サブモジュールと、
前記証明書類画像を前記角度に応じて回転させ、回転後の前記証明書類画像における前記所定縁が前記水平方向と平行になるように配置される回転サブモジュールと、を備える。

好ましい実施例では、
前記切断モジュールは、
前記情報領域を２値化し、２値化後の情報領域を得るように配置される２値化サブモジュールと、
前記２値化後の情報領域に対して水平方向に応じて第１ヒストグラムを算出し、前記第１ヒストグラムが、各行ピクセルの縦座標及び前記各行ピクセルにおける前景色ピクセルの累積値を含むように配置される第１算出サブモジュールと、
前記第１ヒストグラムにおける前景色ピクセルの累積値が第１閾値よりも大きい行からなる連続行セットに基づいて、ｎ行の文字領域を認識し、ｎが正整数であるように配置される行認識サブモジュールと、
ｉ行目の文字領域に対して、垂直方向に応じて第２ヒストグラムを算出し、前記第２ヒストグラムが各列のピクセルの横座標及び前記各列のピクセルにおける前景色ピクセルの累積値を含み、ｎ≧ｉ≧１、ｉが正整数であるように配置される第２算出サブモジュールと、
前記第２ヒストグラムにおける前景色ピクセルの累積値が第２閾値よりも大きい列からなる連続列セットに基づいて、ｎ_ｉ個のキャラクター領域を認識するように配置されるキャラクター認識サブモジュールと、を備える。

本発明の実施例に係る第３態様によれば、
証明書類画像における顔領域の領域位置を取得し、
前記顔領域の領域位置に基づき少なくとも１つの情報領域を決定し、
前記情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得るように配置されるプロセッサと、
前記プロセッサにより実行可能なコマンドを記憶するためのメモリと、を備える領域認識装置を提供している。

本発明の実施例により提供される技術案は下記の有益な効果を含んでもよい。

証明書類画像における顔領域の領域位置を取得し、顔領域の領域位置に基づき少なくとも１つの情報領域を決定し、情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることによって、関連技術における直接的に撮影された証明書類画像におけるある情報領域に対する認識の難易度が大きく、且つある情報領域に対する位置決めが不正確であるという問題を解決し、証明書類画像における顔領域の領域位置により他の情報領域を決定し、他の情報領域を切断することによって、情報領域に対して正確に位置決めを行うとともに情報領域におけるキャラクター領域を正確に認識する効果を達する。

以上の一般的な説明及び後述する詳細は例示的なものに過ぎず、本発明を制限するためのものではない。

本図面は明細書に組み込まれて本明細書の一部を構成し、本発明に適合する実施例を示し、明細書と共に本発明の原理を解釈するのに用いられる。

例示的な実施例に係る領域認識方法を示すフローチャートである。は別の例示的な実施例に係る領域認識方法を示すフローチャートである。は別の例示的な実施例に係る領域認識方法を示すフローチャートである。は例示的な実施例に係る顔認識の模式図である。は別の例示的な実施例に係る領域認識方法を示すフローチャートである。は例示的な実施例に係るソーベル（ｓｏｂｅｌ）水平フィルタリングの顔画像模式図である。は例示的な実施例に係る２値化後の顔画像模式図である。は例示的な実施例に係るハフ（Ｈｏｕｇｈ）変換後の顔画像模式図である。は別の例示的な実施例に係る領域認識方法を示すフローチャートである。は別の例示的な実施例に係る領域認識方法を示すフローチャートである。は例示的な実施例に係る情報領域第１ヒストグラムの模式図である。は例示的な実施例に係る情報領域連続行セットの模式図である。は別の例示的な実施例に係る情報領域第２ヒストグラムの模式図である。は例示的な実施例に係る情報領域連続列セットの模式図である。は例示的な実施例に係る領域認識装置のブロック図である。は別の例示的な実施例に係る領域認識装置のブロック図である。一実施例に係る領域認識装置における第２認識サブモジュールを示すブロック図である。は別の例示的な実施例に係る領域認識装置を示すブロック図である。は別の例示的な実施例に係る領域認識装置を示すブロック図である。は例示的な実施例に係る領域認識装置を示すブロック図である。

ここでは、例示的な実施例を詳しく説明し、その例を図面に示す。下記の説明は図面を参照する場合、特に明記しない限り、異なる図面における同一の符号は同一又は類似の要素を示す。下記の例示的な実施例で説明した実施形態は、本発明と一致するすべての実施形態を表すものではない。反対に、これらは、特許請求の範囲に詳細に説明した、本発明のいくつかの態様に一致する装置および方法の例に過ぎない。

図１は例示的な実施例に係る領域認識方法を示すフローチャートである。図１に示すように、該領域認識方法は、下記のステップを含む。

ステップ１０２において、証明書類画像における顔領域の領域位置を取得し、
証明書類画像は証明書類を直接的に撮影して得た画像であり、例えば、身分証明書画像、社会保障カード画像等が挙げられる。

証明書類には通常ユーザーの証明写真があるため、証明書類画像には顔領域が存在する。

ステップ１０４において、顔領域の領域位置に基づき少なくとも１つの情報領域を決定する。

証明書類における顔領域の位置は相対的に一定であり、且つ顔領域の位置決めの難易度が常に情報領域の位置決めの難易度より低いため、顔領域の領域位置に基づき証明書類画像において各情報領域を決定することができる。

情報領域は、証明書類画像において文字情報がある領域、例えば、名前情報領域、生年月日情報領域、性別領域、アドレス情報領域、公民身分証明書番号情報領域、番号情報領域、証明書発行機関情報領域および有効期限情報領域などの情報領域のうちの少なくとも１種を意味する。

ステップ１０６において、情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得る。

情報領域は複数のキャラクターを含む。１つの情報領域に対して、領域切断により少なくとも１つのキャラクター領域を得ることができる。キャラクター領域は単一キャラクターを含む領域である。キャラクターは漢字、アルファベット、数字又は他の言語の文字であってもよい。

以上のように、本発明の実施例において提供した領域認識方法は、証明書類画像における顔領域の領域位置を取得し、顔領域の領域位置に基づき少なくとも１つの情報領域を決定し、情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を取得することで、関連技術における直接的に撮影された証明書類画像におけるある情報領域に対する認識の難易度が大きく且つある情報領域に対する位置決めが不正確であればいう問題を解決し、証明書類画像における顔領域の領域位置により他の情報領域を決定し、他の情報領域を切断することによって、情報領域に対して正確に位置決めを行うとともに情報領域におけるキャラクター領域を正確に認識する効果を達する。

図２は別の例示的な実施例に係る領域認識方法を示すフローチャートである。図２に示すように、該領域認識方法は以下のステップを含む。

ステップ２０２において、証明書類画像を顔認識し、顔領域を得る。

好ましくは、証明書類画像を撮影する場合、撮影インターフェースにおいて撮影をガイドするための矩形領域が設置され、ユーザーは矩形領域を証明書類と位置合わせするとき、証明書類画像を撮影する。

証明書類には通常ユーザーの証明写真があるため、証明書類画像には顔領域が存在する。顔認識技術により、証明書類画像から顔領域を認識して得ることができる。顔認識技術は熟成した認識技術であり、本実施例はどのような顔認識技術を使用するかに対して制限されない。

ステップ２０４において、顔領域に基づき顔領域の所定縁を認識する。

好ましくは、所定縁が顔領域の下縁である。

証明書類画像では、顔領域の下縁と証明書類の背景色に大きな差があるため、顔領域の下縁は比較的に認識しやすい縁である。

ステップ２０６において、顔領域の所定縁に基づき少なくとも１つの情報領域を決定する。

証明書類画像のタイプが既知した際に、顔領域の所定縁と証明書類における他の情報領域の間に一定の相対的な位置関係が存在し、顔領域の所定縁と該相対的な位置関係に基づき少なくとも１つの情報領域を決定する。

例えば、第２代身分証明書を例とし、公民身分証明書番号領域は顔領域の下縁の下方にあり、また、例えば、アドレス情報領域は、水平方向で顔領域の左側にあり、垂直方向で顔領域の下縁と顔領域の１/２高度の間の領域にある。該相対的な位置関係によって、顔領域の所定縁に基づいて少なくとも１つの情報領域を決定できる。

ステップ２０８において、情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得る。

情報領域は複数のキャラクターを含む。１つの情報領域に対して、領域切断により少なくとも１つのキャラクター領域を得ることができる。キャラクター領域は単一キャラクターを含む領域である。文字は、漢字、アルファベット、数字又は他の言語の文字であってもよい。

以上のように、本発明の実施例において提供した領域認識方法は、証明書類画像における顔領域の所定縁を取得し、顔領域の所定縁に基づき情報領域を決定し、情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることで、関連技術における直接的に撮影された証明書類画像におけるある情報領域に対する認識の難易度が大きく、且つある情報領域に対する位置決めが不正確であればいう問題を解決し、証明書類画像における顔領域の領域位置により他の情報領域を決定し、他の情報領域を切断することによって、情報領域に対して正確に位置決めを行うとともに情報領域におけるキャラクター領域を正確に認識する効果を達する。

図２に基づく実施例が提供する好ましい実施例では、上記ステップ２０２が代替的にステップ２０２ａとして実現され、上記ステップ２０４が代替的にステップ２０４ａ及び２０４ｂとして実現され、図３Ａに示すように、
ステップ２０２ａにおいて、所定の顔サイズの顔モデルに対して、証明書類画像における所定領域を顔認識し、顔領域を得る。

予め訓練して顔モデルを得ることが好ましい。証明書類画像における顔領域の大きさが相対的に一定であるため、該顔モデルが所定の顔サイズに対する顔モデルである。

端末は該所定の顔サイズに対する顔モデルにより、証明書類画像における所定領域を顔認識し、顔領域を得る。好ましくは、証明書類画像を複数のウィンドウ領域に分割し、各ウィンドウ領域における画像特徴を抽出して順次に顔モデルに入力する。顔モデルから正結果であれば出力された際に、対応するウィンドウ領域を顔領域として認識し、顔モデルから負結果であれば出力された際に、対応するウィンドウ領域を非顔領域として認識する。

好ましくは、証明書類における顔領域が通常証明書類の右上方にあるため、顔認識する際に、優先的に証明書類画像における右側の所定領域において顔認識する。

本実施例は認識した顔領域の精度を厳格に制限することがない。

ステップ２０４ａにおいて、顔領域の下部に基づき関心領域を決定し、関心領域が顔領域の下縁を含む。

顔領域の下部において所定のウィンドウに応じて関心領域を決定し、該関心領域が顔領域の下縁を覆うことを基準とする。

例示的に、図３Ｂに示すように、顔領域３０を認識した後、認識した顔領域３０の下部中心３２を中心として、所定のウィンドウの大きさを範囲として、証明書類画像において関心領域３４を選択する。

ステップ２０４ｂにおいて、関心領域を直線検出し、顔領域の下縁を認識する。

好ましくは、直線検出方法は直線フィッティングアルゴリズム又はハフ（Ｈｏｕｇｈ）変換アルゴリズムを用いる。ステップ２０４ｂが代替的にステップ３０１とステップ３０２として実現され、図３Ｃに示す。

ステップ３０１において、関心領域に対してソーベル水平フィルタリング及び２値化を行い、処理後の関心領域を得る。

まず、関心領域をソーベル（ｓｏｂｅｌ）水平フィルタリングして、即ちｓｏｂｅｌ演算子を使用して水平方向に沿ってフィルタリングし、フィルタリング後の効果を図３Ｄに示す。次に、フィルタリング後の関心領域を２値化する。２値化とは関心領域におけるピクセルのグレー値と所定のグレー閾値を比較し、関心領域におけるピクセルを、所定のグレー閾値よりも大きいピクセル群と所定のグレー閾値よりも小さいピクセル群の２つの部分に分け、２つの部分のピクセル群に関心領域においてそれぞれ黒と白の２種の異なる色を呈させ、２値化後の関心領域を得ることを指し、図３Ｅのように示す。そのうち、前景に位置する１種の色のピクセルが前景色ピクセルと称され、即ち図３Ｅの白色ピクセルであり、背景に位置する１種の色のピクセルが背景ピクセルと称され、即ち図３Ｅにおける黒色ピクセルである。

ステップ３０２において、処理後の関心領域を直線フィッティング又はハフ（Ｈｏｕｇｈ）変換し、長さが所定の長さよりも大きい線分を得て、該線分を顔領域の下縁として認識する。

図３Ｆに示すように、ハフ（Ｈｏｕｇｈ）変換後、顔領域の下方に長さが所定の長さより大きい線分が存在し、即ち顔領域の下縁である。

以上のように、本実施例により提供される領域認識方法は、顔領域の下部に基づき関心領域を決定し、関心領域をソーベル水平フィルタリング及び２値化し、処理後の関心領域を得て、処理後の関心領域を直線フィッティング又はハフ（Ｈｏｕｇｈ）変換し、長さが所定の長さよりも大きい線分を得て、該線分を顔領域の下縁として認識することによって、効果的で、正確に顔領域の下縁を認識できる。また、関心領域の範囲が小さいため、下縁を抽出するときの算出量も小さく、速い認識速度を得ることができる。

上記ステップ２０２ａに対して、予め訓練して顔モデルを得る必要がある。例えば、該訓練過程は、以下の内容を含む。

正サンプル画像と負サンプル画像を予め取得する。正サンプル画像は所定の大きさの顔領域を含み、負サンプル画像は、顔領域がない画像、不完全な顔領域を備えた画像、所定の大きさでない顔領域を備えた画像、混乱背景の画像等を含む。

正サンプル画像の画像特徴と負サンプル画像の画像特徴、例えばｈａａｒ特徴を抽出する。次に、正サンプル画像の画像特徴と正結果を表すための第１ラベルを初期モデルに入力し、負サンプル画像の画像特徴と負結果を表すための第２ラベルを初期モデルに入力し、訓練した後、顔モデルを得る。好ましくは、第１ラベルが１であり、第２ラベルが０である。該初期モデルは分類アルゴリズム、例えば、Ａｄａｂｏｏｓｔ又はＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、サポートベクターマシン）により構築される。

図２に基づく実施例が提供する代替的な実施例では、証明書類は証明書類画像において微小角度の回転が存在し、即ち証明書類画像における証明書類の位置が水平ではなく、水平方向と角度が存在する。好ましくは、端末は所定縁の傾きに基づいて証明書類画像に対して勾配補正を行う。即ち、ステップ２０４の後、該方法はステップ２０５ａ及びステップ２０５ｂを更に含み、図４に示すように、
ステップ２０５ａにおいて、所定縁の傾きに基づいて、所定縁と水平方向とのなす角度を決定し、
端末は顔領域の下縁と水平方向とのなす角度を算出する。該角度も証明書類と水平方向とのなす角度である。

ステップ２０５ｂにおいて、証明書類画像を角度に応じて回転させ、回転後の証明書類画像における所定縁が水平方向と平行である。

以上のように、本実施例により提供される領域認識方法は、顔領域の所定縁を回転校正することによって、証明書類画像における証明書類を水平方向と平行させ、後続の情報領域を認識するときの正確性を向上させることができる。

図２に基づく実施例が提供する代替的な実施例では、ステップ２０８は情報領域を領域切断する過程である。代替的に、例えばステップ２０８ａ〜ステップ２０８ｅとして実現してもよく、図５Ａに示すように、
ステップ２０８ａにおいて、情報領域を２値化し、２値化後の情報領域を得る。

情報領域が公民身分証明書番号領域であることを例とし、まず情報領域をプリ処理し、プリ処理後の情報領域を２値化することが好ましい。そのうち、プリ処理は、ノイズ除去、フィルタリング、縁抽出等の操作を含んでもよい。

ステップ２０８ｂにおいて、２値化後の情報領域に対して水平方向に応じて第１ヒストグラムを算出し、第１ヒストグラムが、各行ピクセルの縦座標及び各行ピクセルにおける前景色ピクセルの累積値を含む。

２値化後の情報領域に対して水平方向に応じて第１ヒストグラムを算出し、該第１ヒストグラムが、垂直方向で各行のピクセルの縦座標を示し、水平方向で各行のピクセルにおける前景色ピクセルの個数累積値を表し、図５Ｂに示す。

ステップ２０８ｃにおいて、第１ヒストグラムにおける前景色ピクセルの累積値が第１閾値よりも大きい行からなる連続行セットにより、ｎ行の文字領域を認識し、ｎが正整数であり、
第１ヒストグラムに基づいて、各行のピクセルにおける前景色ピクセルの累積値を取得し、各行のピクセルにおける前景色ピクセルの累積値と第１閾値を比較し、第１ヒストグラムにおける前景色ピクセルの累積値が第１閾値よりも大きい行からなる連続行セットを、文字領域が所在する行として決定することができる。

連続行セットは、前景色ピクセルの累積値が第１閾値よりも大きい行が連続的なｍ行であり、該連続的なｍ行のピクセルにより構成されるセットを意味し、図５Ｃに示すように、図におけるｍ行のピクセルに対して、左側ヒストグラムに位置する前景色ピクセルの累積値がいずれも第１閾値よりも大きい。該ｍ行のピクセルは証明書類画像において公民身分証明書番号の行「０４２１１９９」と対応する。

もちろん、該情報領域がアドレス情報領域又は他の情報領域であれば、文字領域は２行又は２行以上である可能性がある。このとき、各連続行セットを１行の文字領域として認識し、ｎ個の連続行セットをｎ行の文字領域として認識する。

ステップ２０８ｄにおいて、ｉ行目の文字領域に対して、垂直方向に応じて第２ヒストグラムを算出し、第２ヒストグラムが、各列のピクセルの横座標及び各列のピクセルにおける前景色ピクセルの累積値を含み、ｎ≧ｉ≧１、ｉが正の整数である。

認識された公民身分証明書番号の行に対して、垂直方向に応じて第２ヒストグラムを算出し、該第２ヒストグラムは水平方向で各列のピクセルの横座標を表し、垂直方向で各列のピクセルにおける前景色ピクセルの個数累積値を表し、図５Ｄに示す。

ステップ２０８ｅにおいて、第２ヒストグラムにおける前景色ピクセルの累積値が第２閾値よりも大きい列からなる連続列セットにより、ｎ_ｉ個のキャラクター領域を認識する。

第２ヒストグラムに基づいて、各列のピクセルにおける前景色ピクセルの累積値を取得し、各列のピクセルにおける前景色ピクセルの累積値と第２閾値を比較し、第２ヒストグラムにおける前景色ピクセルの累積値が第２閾値よりも大きい列からなる連続列セットを、キャラクター領域が所在する列として決定することができる。

連続列セットは、前景色ピクセルの累積値が第２閾値よりも大きい列が連続的なｐ列であり、該連続的なｐ列のピクセルにより構成されるセットを意味し、図５Ｅに示すように、連続な列セットはｐであり、即ち第２ヒストグラムに形成された連続的な白色領域である。図におけるｐ列のピクセルに対して、下側に位置するヒストグラムにおける前景色ピクセルの累積値がいずれも第２閾値よりも大きい。該ｐ列ピクセルは証明書類画像においてキャラクター領域「３」と対応する。

各連続列セットを１つのキャラクター領域として認識し、ｎ個の連続な列セットをｎ個のキャラクター領域として認識する。図５Ｅでは、１８個のキャラクター領域を認識することができる。

文字領域がｎ行あると、ステップ２０８ｄ及びステップ２０８ｅは各行文字領域に対して１回実行され、共にｎ回実行される。

認識された各キャラクター領域に対して、更にキャラクター認識技術により、該キャラクター領域に含む文字を認識することができる。文字は、漢字、アルファベット、数字又は他の言語の単一文字であってもよい。

以上のように、本実施例は情報領域を２値化し、２値化後の情報領域に対して水平方向に応じて第１ヒストグラムを算出し、第２情報領域におけるｎ行の文字領域を決定し、更にそれぞれｎ行の文字領域に対して垂直方向に応じて第２ヒストグラムを算出し、各文字の対応するキャラクター領域を認識することによって、情報領域におけるキャラクター領域を認識する正確性を向上させることができる。

以下は本発明の装置の実施例であり、本発明の方法の実施例の実施において使用することができる。本発明の装置の実施例で開示されていない詳細は、本発明の方法の実施例を参照する。

図６は例示的な実施例に係る領域認識装置を示すブロック図であり、図６に示すように、該領域認識装置は、以下を備えるが、これらに限定されない。

取得モジュール６１０は、証明書類画像における顔領域の領域位置を取得するように配置され、
証明書類画像は証明書類を直接的に撮影した画像であり、例えば、身分証明書画像、社会保障カード画像等が挙げられる。

取得モジュール６１０は証明書類画像における顔領域の領域位置を取得する。

決定モジュール６２０は、顔領域の領域位置に基づき少なくとも１つの情報領域を決定するように配置され、
情報領域は、証明書類画像において文字情報がある領域、例えば、名前情報領域、生年月日情報領域、性別領域、アドレス情報領域、公民身分証明書番号情報領域、番号情報領域、証明書発行機関情報領域および有効期限情報領域などの情報領域のうちの少なくとも１種を意味する。

取得モジュール６１０によって取得された領域位置に基づき、決定モジュール６２０が少なくとも１つの情報領域を決定する。

切断モジュール６３０は、情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得るように配置される。

情報領域は複数のキャラクターを含む。１つの情報領域に対して、切断モジュール６３０は、領域切断により少なくとも１つのキャラクター領域を得ることができる。キャラクター領域は単一キャラクターを含む領域である。キャラクターは、漢字、アルファベット、数字又は他の言語の文字であってもよい。

以上のように、本発明の実施例において提供した領域認識装置は、証明書類画像における顔領域の領域位置を取得し、顔領域の領域位置に基づき少なくとも１つの情報領域を決定し、情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることによって、関連技術における直接的に撮影された証明書類画像におけるある情報領域に対する認識の難易度が大きく、且つある情報領域に対する位置決めが不正確であるという問題を解決し、証明書類画像における顔領域の領域位置により他の情報領域を決定し、他の情報領域を切断することによって、情報領域に対して正確に位置決めを行うとともに情報領域におけるキャラクター領域を正確に認識する効果を達する。

図７は別の例示的な実施例に係る領域認識装置的ブロック図であり、図７に示すように、該領域認識装置は、以下を備えるが、これらに限定されない。

取得モジュール６１０は、証明書類画像における顔領域の領域位置を取得するように配置され、
本実施例において、取得モジュール６１０は下記のサブモジュールを備えてもよい。

第１認識サブモジュール６１１は、証明書類画像を顔認識し、顔領域を得るように配置され、
証明書類には通常ユーザーの証明写真があるため、証明書類画像には顔領域が存在する。顔認識技術により、証明書類画像から顔領域を認識することができる。

本実施例において顔領域を認識するモジュールが第１認識サブモジュール６１１である。

第２認識サブモジュール６１２は、顔領域に基づき顔領域の所定縁を認識するように配置される。

証明書類画像では、顔領域の下縁と証明書類の背景色は大きな差があるため、顔領域の下縁は比較的に認識しやすい縁である。

第２認識サブモジュール６１２は顔領域に基づき顔領域の所定縁を認識する。

そのうち、第１認識サブモジュール６１１は、更に、所定の顔サイズに対する顔モデルにより、証明書類画像における所定領域を顔認識し、顔領域を得るように配置される。

決定モジュール６２０は顔領域の領域位置に基づき少なくとも１つの情報領域を決定するように配置され、
証明書類画像のタイプが既知した際に、顔領域の所定縁と証明書類におけるその他の情報領域の間に固定の相対的な位置関係が存在し、決定モジュール６２０は顔領域の所定縁と該相対的な位置関係に基づき少なくとも１つの情報領域を決定する。

以上のように、本発明の実施例において提供した領域認識装置は、証明書類画像における顔領域の所定縁を取得し、顔領域の所定縁に基づき情報領域を決定し、情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることによって、関連技術における直接的に撮影された証明書類画像におけるある情報領域に対する認識の難易度が大きく、且つある情報領域に対する位置決めが不正確であるという問題を解決し、証明書類画像における顔領域の領域位置により他の情報領域を決定し、他の情報領域を切断することによって、情報領域に対して正確に位置決めを行うとともに情報領域におけるキャラクター領域を正確に認識する効果を達する。

図７に基づく実施例が提供する代替的な実施例では、第２認識サブモジュール６１２は、下記のサブモジュールを備えてもよく、図８に示すように、
関心決定サブモジュール８１０は、顔領域の下部に基づき顔領域の下縁を含む関心領域を決定するように配置され、
関心決定サブモジュール８１０は、顔領域の下部に所定のウィンドウに応じて関心領域を決定し、該関心領域は顔領域の下縁を覆うことを基準とする。

検出サブモジュール８２０は、関心領域を直線検出し、顔領域の下縁を認識するように配置される。

直線検出方法は直線フィッティングアルゴリズム又はＨｏｕｇｈ変換アルゴリズムを用いることが好ましい。

そのうち、検出サブモジュール８２０は、下記のサブモジュールを備えてもよく、
フィルタリングサブモジュール８２１は、関心領域をソーベル水平フィルタリング及び２値化し、処理後の関心領域を得るように配置され、
まず、フィルタリングサブモジュール８２１は関心決定サブモジュール８１０における関心領域をソーベル（ｓｏｂｅｌ）水平フィルタリングし、即ちソーベル（ｓｏｂｅｌ）演算子を使用して水平方向に沿ってフィルタリングする。次に、フィルタリング後の関心領域を２値化する。

２値化とは関心領域におけるピクセルのグレー値と所定のグレー閾値を比較し、関心領域におけるピクセルを、所定のグレー閾値よりも大きいピクセル群と所定のグレー閾値よりも小さいピクセル群の２つの部分に分け、２つの部分のピクセル群に関心領域においてそれぞれ黒と白の２種の異なる色を呈させ、２値化後の関心領域を得ることを指す。

変換サブモジュール８２２は、処理後の関心領域を直線フィッティング又はハフ（Ｈｏｕｇｈ）変換し、長さが所定の長さよりも大きい線分を得、線分を顔領域の下縁として認識するように配置される。

変換サブモジュール８２２はフィルタリングサブモジュール８２１によって処理された関心領域を直線フィッティング又はハフ（Ｈｏｕｇｈ）変換する。ハフ（Ｈｏｕｇｈ）変換した後、顔領域の下方に長さが所定の長さよりも大きい線分、即ち顔領域の下縁が存在する。

以上のように、本実施例により提供される領域認識装置は、顔領域の下部に基づき関心領域を決定し、関心領域をソーベル水平フィルタリング及び２値化し、処理後の関心領域を得、処理後の関心領域を直線フィッティング又はハフ（Ｈｏｕｇｈ）変換し、長さが所定の長さよりも大きい線分を得て、該線分を顔領域の下縁として認識することによって、効果的で、正確に顔領域の下縁を認識できる。また、関心領域の範囲が小さいため、下縁を抽出するときの算出量も小さく、速い認識速度を得ることができる。

図７に基づく実施例が提供する代替的な実施例では、領域認識装置は、下記のモジュールを更に備えてもよく、図９に示すように、
修正モジュール９１０は、所定縁の傾きに基づいて、証明書類画像に対して勾配補正を行うように配置される。

そのうち、修正モジュール９１０は、下記のモジュールを備えてもよく、
角度決定サブモジュール９１１は、所定縁の傾きに基づいて、所定縁と水平方向とのなす角度を決定するように配置され、
端末における角度決定サブモジュール９１１は顔領域の下縁と水平方向とのなす角度を算出する。該角度も証明書類と水平方向とのなす角度である。

回転サブモジュール９１２は、証明書類画像を角度に応じて回転させ、回転後の証明書類画像における所定縁が水平方向と平行になるように配置される。

角度決定サブモジュール９１１により算出された角度に基づき、回転サブモジュール９１２は証明書類画像を角度で回転する。

以上のように、本実施例により提供される領域認識装置は、顔領域の所定縁を回転校正することによって、証明書類画像における証明書類を水平方向と平行させ、後続の情報領域を認識する際の正確性を向上させることができる。

図７に基づく実施例が提供する代替的な実施例では、切断モジュール６３０は、下記のサブモジュールを備えてもよく、図１０に示すように、
２値化サブモジュール６３１は、情報領域を２値化し、２値化後の情報領域を得るように配置され、
情報領域が公民身分証明書番号領域であることを例とし、２値化サブモジュール６３１はまず情報領域をプリ処理し、プリ処理後の情報領域を２値化することが好ましい。そのうち、プリ処理は、ノイズ除去、フィルタリング、縁抽出等の操作を含んでもよい。

第１算出サブモジュール６３２は、２値化後の情報領域に対して水平方向に応じて第１ヒストグラムを算出し、第１ヒストグラムが、各行ピクセルの縦座標及び各行ピクセルにおける前景色ピクセルの累積値を含むように配置され、
第１算出サブモジュール６３２は２値化後の情報領域に対して水平方向に応じて第１ヒストグラムを算出し、該第１ヒストグラムが、垂直方向で各行のピクセルの縦座標を示し、水平方向で各行のピクセルにおける前景色ピクセルの個数累積値を表す。

行認識サブモジュール６３３は、第１ヒストグラムにおける前景色ピクセルの累積値が第１閾値よりも大きい行からなる連続行セットにより、ｎ行の文字領域を認識し、ｎが正整数であるように配置され、
第１ヒストグラムに基づいて、各行ピクセルにおける前景色ピクセルの累積値を取得し、行認識サブモジュール６３３は、各行ピクセルにおける前景色ピクセルの累積値と第１閾値を比較し、第１ヒストグラムにおける前景色ピクセルの累積値が第１閾値よりも大きい行からなる連続行セットを、文字領域が所在する行として決定することができる。

連続行セットとは、前景色ピクセルの累積値が第１閾値よりも大きい行は連続的なｍ行であり、該連続的なｍ行のピクセルにより構成されるセットを意味する。

各連続行セットを１行の文字領域として認識し、ｎ個の連続行セットをｎ行の文字領域として認識する。

第２算出サブモジュール６３４は、ｉ行目の文字領域に対して、垂直方向に応じて第２ヒストグラムを算出し、第２ヒストグラムが、各列のピクセルの横座標及び各列のピクセルにおける前景色ピクセルの累積値を含み、ｎ≧ｉ≧１、ｉが正の整数であるように配置され、
行認識サブモジュール６３３により認識された公民身分証明書番号行に対して、第２算出サブモジュール６３４は垂直方向に応じて第２ヒストグラムを算出し、該第２ヒストグラムは水平方向で各列のピクセルの横座標を表し、垂直方向で各列のピクセルにおける前景色ピクセルの個数累積値を表す。

キャラクター認識サブモジュール６３５は、第２ヒストグラムにおける前景色ピクセルの累積値が第２閾値よりも大きい列からなる連続列セットにより、ｎ_ｉ個のキャラクター領域を認識するように配置される。

第２ヒストグラムに基づいて、各列のピクセルにおける前景色ピクセルの累積値を取得、キャラクター認識サブモジュール６３５は、各列のピクセルにおける前景色ピクセルの累積値と第２閾値を比較し、第２ヒストグラムにおける前景色ピクセルの累積値が第２閾値よりも大きい列からなる連続列セットを、キャラクター領域が所在する列として決定することができる。

連続列セットは、前景色ピクセルの累積値が第２閾値よりも大きい列が連続的なｐ列であり、該連続的なｐ列ピクセルにより構成されるセットを意味する。

各連続列セットを一つのキャラクター領域として認識し、ｎ個の連続列セットをｎ個のキャラクター領域として認識する。

以上のように、本実施例は情報領域を２値化し、且つ２値化後の情報領域に対して水平方向に応じて第１ヒストグラムを算出し、第２情報領域におけるｎ行の文字領域を決定し、更にそれぞれｎ行の文字領域に対して垂直方向に応じて第２ヒストグラムを算出し、各文字の対応するキャラクター領域を認識することによって、正確にキャラクター領域を切断及び認識する装置を提供する。

本発明は領域認識装置をさらに提供し、該装置は、プロセッサと、
プロセッサにより実行可能なコマンドを記憶するためのメモリと、を備え、
そのうち、プロセッサは、
証明書類画像における顔領域の領域位置を取得し、
顔領域の領域位置に基づき少なくとも１つの情報領域を決定し、
情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を取得するように配置される。

上記実施例における装置について、そのうち、それぞれのモジュールの操作を実行する具体的な方式は、該方法に関する実施例で詳細に説明したので、ここで詳しく説明しない。

図１１は例示的な実施例に係る領域抽出方法を実行するための装置を示すブロック図である。例えば、装置１１００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信設備、ゲームコンソール、タブレット型装置、医療設備、フィットネス装置、パーソナルデジタルアシスタントなどである。

図１１を参照して、装置１１００は、処理部材１１０２、メモリ１１０４、電源部材１１０６、マルチメディア部材１１０８、オーディオ部材１１１０、入力／出力（Ｉ／Ｏ）インターフェース１１１２、センサー部材１１１４、及び通信部材１１１６のうちの一つ又は複数の部材を含むことができる。

処理部材１１０２は、通常、装置１１００の全体的操作、例えば、表示、電話呼び出し、データ通信、カメラ操作及び記録操作に関する操作を制御する。処理部材１１０２は、上記方法の全部又は一部のステップを完成するために、コマンドを実行する一つ又は複数のプロセッサ１１１８を含むことができる。さらに、処理部材１１０２はその他の部材とのインタラクションが容易であるように、一つ又は複数のモジュールを含むことができる。例えば、処理部材１１０２は、マルチメディア部材１１０８と処理部材１１０２とのインタラクションが容易であるように、マルチメディアモジュールを含むことができる。

メモリ１１０４は、装置１１００における操作をサポートするために、さまざまなタイプのデータを記憶するように配置される。これらのデータの実例は、装置１１００において操作される如何なるアプリケーション又は方法のコマンド、連絡先データ、電話帳データ、メッセージ、ピクチャ、ビデオなどを含む。メモリ１１０４は如何なるタイプの揮発性又は非揮発性メモリ又はそれらの組合せ、例えばスタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクにより実現することができる。

電源部材１１０６は装置１１００のさまざまな部材に対し電力を供給する。電源部材１１０６は電源管理システム、一つ又は複数の電源、及びその他の装置１１００に対する電力の生成、管理及び供給に関連する部材を含むことができる。

マルチメディア部材１１０８は、装置１１００とユーザーの間の出力インターフェースを提供するスクリーンを含む。一部の実施例において、スクリーンは液晶ディスプレイ（ＬＣＤ）とタッチパネル（ＴＰ）を含むことができる。スクリーンにタッチパネルが含まれる場合、スクリーンはユーザーからの入力信号を受信するために、タッチスクリーンで実現されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルにおけるジェスチャーを感知するために、一つ又は複数のタッチセンサーを含む。タッチセンサーは、タッチ又はスワイプ動作の境界を感知するとともに、タッチ又はスワイプ動作に関わる持続時間及び圧力を検出することができる。一部の実施例において、マルチメディア部材１１０８は、フロントカメラ及び／又はバックカメラを含む。装置１１００が操作モードである場合、例えば、撮影モード又はビデオモードである場合、フロントカメラ及び／又はバックカメラは外部のマルチメディアデータを受信することができる。各フロントカメラ及びバックカメラは、固定された光学レンズシステムであってもよく、又は焦点距離と光学ズーム能力を有する。

オーディオ部材１１１０は、オーディオ信号を出力及び／又は入力するように配置される。例えば、オーディオ部材１１１０は、マイクロフォン（ＭＩＣ）を含み、装置１１００が操作モードである場合、例えば、呼び出しモード、記録モード及び音声認識モードである場合、マイクロフォンは外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらにメモリ１１０４に記憶され、又は通信部材１１１６を介して送信される。一部の実施例において、オーディオ部材１１１０は、さらにオーディオ信号を出力するスピーカーを含む。

Ｉ／Ｏインターフェース１１１２は、処理部材１１０２と周辺インターフェースモジュールとの間にインターフェースを提供し、上記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン及びロックボタンを含むことができるがこれに限定されない。

センサー部材１１１４は、装置１１００に対し各方面の状態評価を提供する一つ又は複数のセンサーを含む。例えば、センサー部材１１１４は、装置１１００のオン／オフ状態、部材の相対的位置決めを検出することができ、前記部材は、例えば、装置１１００のディスプレイ及びキーパッドであり、センサー部材１１１４は、さらに装置１１００又は装置１１００の一つの部材の位置変化、ユーザーと装置１１００との接触の有無、装置１１００の方角又は加速／減速及び装置１１００の温度変化を検出することができる。センサー部材１１１４は、近接センサーを含むことができ、如何なる物理的接触がないとき、近傍物体の存在を検出するように構成される。センサー部材１１１４は、さらにイメージングアプリケーションに用いられる光学センサー、例えば、ＣＭＯＳ又はＣＣＤイメージセンサーを含むことができる。一部の実施例において、該センサー部材１１１４は、さらに加速度センサー、ジャイロセンサー、磁気センサー、圧力センサー又は温度センサーを含むことができる。

通信部材１１１６は、装置１１００とその他の装置との有線又は無線による通信が容易であるように配置される。装置１１００は、通信標準に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇ又は３Ｇ、又はそれらの組合せにアクセスすることができる。一例示的な実施例において、通信部材１１１６は、放送チャネルを介して外部放送管理システムからの放送信号又は放送関連情報を受信する。一例示的な実施例において、通信部材１１１６は、狭域通信を促進するために、さらに近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールにおいて、無線周波数認識（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術及びその他の技術に基づいて実現することができる。

例示的な実施例において、装置１１００は、一つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラー、マイクロコントローラー、マイクロプロセッサ又はその他の電子部品により実現することができ、上記領域抽出方法を実行するのに用いられる。

例示的な実施例において、さらに、コマンドを含む非一時的なコンピュータ可読記憶媒体、例えば、コマンドを含むメモリ１１０４を提供し、上記領域抽出方法を完成するために、上記コマンドは装置１１００のプロセッサ１１１８により実行することができる。例えば、非一時的なコンピュータ可読記憶媒体は、ＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ−ＲＯＭ、磁気テープ、フロッピーディスク及び光データ記憶装置などであってもよい。

当業者であれば、明細書を考慮しここに開示された発明を実践した後、本発明のその他の実施態様を容易に想到できる。本願は、本発明の如何なる変形、用途又は適応的変化を含むためのものであり、これらの変形、用途又は適応的変化は本発明の一般的な原理に準じ、本発明の開示されていない本技術分野における公知常識又は慣用の技術手段を含む。明細書と実施例は例示的なものに過ぎず、本発明の実際の範囲と精神は下記特許請求の範囲により与えられる。

理解すべきことは、本発明は既に上記のように説明され、図面に示された正確な構造に限定されず、その範囲を逸脱しない限りにおいて様々な修正や変更を行うことができる。本発明の範囲は特許請求の範囲のみにより限定される。

Claims

証明書類画像における顔領域の領域位置を取得することと、
前記顔領域の領域位置に基づき少なくとも１つの情報領域を決定することと、
前記情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることと、を含むことを特徴とする領域認識方法。
前記顔領域の領域位置は前記顔領域の所定縁で示され、
前記証明書類画像における顔領域の領域位置を取得することは、
前記証明書類画像を顔認識し、前記顔領域を得ることと、
前記顔領域に基づき前記顔領域の前記所定縁を認識することと、を含むことを特徴とする請求項１に記載の方法。
前記証明書類画像を顔認識し、前記顔領域を得ることは、
所定の顔サイズに対する顔モデルによって、前記証明書類画像における所定領域を顔認識し、前記顔領域を得ることを含むことを特徴とする請求項２に記載の方法。
前記顔領域に基づき前記顔領域の前記所定縁を認識することは、
前記顔領域の下部に基づき前記顔領域の下縁を含む関心領域を決定することと、
前記関心領域を直線検出し、前記顔領域の下縁を認識することと、を含むことを特徴とする請求項２に記載の方法。
前記関心領域を直線検出し、前記顔領域の下縁を認識することは、
前記関心領域に対してソーベル水平フィルタリング及び２値化を行い、処理後の関心領域を得ることと、
前記処理後の関心領域に対して直線フィッティング又はハフ変換を行い、長さが所定の長さよりも大きい線分を得て、前記線分を前記顔領域の下縁として認識することと、を含むことを特徴とする請求項４に記載の方法。
前記所定縁の傾きに基づいて、前記証明書類画像に対して勾配補正を行うことを更に含むことを特徴とする請求項２〜５のいずれかに記載の方法。
前記所定縁の傾きに基づいて、前記証明書類画像に対して勾配補正を行うことは、
前記所定縁の傾きに基づいて、前記所定縁と水平方向とのなす角度を決定することと、
前記証明書類画像を前記角度に応じて回転させ、回転後の前記証明書類画像における前記所定縁が前記水平方向と平行になることと、を含むことを特徴とする請求項６に記載の方法。
前記情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることは、
前記情報領域を２値化し、２値化後の情報領域を得ることと、
前記２値化後の情報領域に対して水平方向に応じて第１ヒストグラムを算出し、前記第１ヒストグラムが、各行ピクセルの縦座標及び前記各行ピクセルにおける前景色ピクセルの累積値を含むことと、
前記第１ヒストグラムにおける前景色ピクセルの累積値が第１閾値よりも大きい行からなる連続行セットに基づき、ｎ行の文字領域を認識して、ｎが正整数であり、ｎ≧ｉ≧１、ｉが正整数であることと、
第ｉ行の文字領域に対して、垂直方向に応じて第２ヒストグラムを算出し、前記第２ヒストグラムが、各列のピクセルの横座標と前記各列のピクセルにおける前景色ピクセルの累積値を含むことと、
前記第２ヒストグラムにおける前景色ピクセルの累積値が第２閾値よりも大きい列からなる連続列セットに基づいて、ｎ_ｉ個のキャラクター領域を認識することを特徴とする請求項１〜５のいずれかに記載の方法。
証明書類画像における顔領域の領域位置を取得するように配置される取得モジュールと、
前記顔領域の領域位置に基づき少なくとも１つの情報領域を決定するように配置される決定モジュールと、
前記情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得るように配置される切断モジュールと、を備えることを特徴とする領域認識装置。
前記顔領域の領域位置は前記顔領域の所定縁で示され、
前記取得モジュールは、
前記証明書類画像を顔認識し、前記顔領域を得るように配置される第１認識サブモジュールと、
前記顔領域に基づき前記顔領域の前記所定縁を認識するように配置される第２認識サブモジュールと、を備えることを特徴とする請求項９に記載の装置。
前記第１認識サブモジュールは、所定の顔サイズに対する顔モデルによって、前記証明書類画像における所定領域を顔認識し、前記顔領域を得るように配置されることを特徴とする請求項１０に記載の装置。
前記第２認識サブモジュールは、
前記顔領域の下部に基づき前記顔領域の下縁を含む関心領域を決定するように配置される関心決定サブモジュールと、
前記関心領域を直線検出し、前記顔領域の下縁を認識するように配置される検出サブモジュールと、を備えることを特徴とする請求項１０に記載の装置。
前記検出サブモジュールは、
前記関心領域に対してソーベル水平フィルタリング及び２値化を行い、処理後の関心領域を得るように配置されるフィルタリングサブモジュールと、
前記処理後の関心領域に対して直線フィッティング又はハフ変換を行い、長さが所定の長さよりも大きい線分を得て、前記線分を前記顔領域の下縁として認識するように配置される変換サブモジュールと、を備えることを特徴とする請求項１２に記載の装置。
前記所定縁の傾きに基づいて、前記証明書類画像に対して勾配補正を行うように配置される修正モジュールを更に備えることを特徴とする請求項１０〜１３のいずれかに記載の装置。
前記修正モジュールは、
前記所定縁の傾きに基づいて、前記所定縁と水平方向とのなす角度を決定するように配置される角度決定サブモジュールと、
前記証明書類画像を前記角度に応じて回転させ、回転後の前記証明書類画像における前記所定縁が前記水平方向と平行になるように配置される回転サブモジュールと、を備えることを特徴とする請求項１４に記載の装置。
前記切断モジュールは、
前記情報領域を２値化し、２値化後の情報領域を得るように配置される２値化サブモジュールと、
前記２値化後の情報領域に対して水平方向に応じて第１ヒストグラムを算出し、前記第１ヒストグラムが、各行ピクセルの縦座標及び前記各行ピクセルにおける前景色ピクセルの累積値を含むように配置される第１算出サブモジュールと、
前記第１ヒストグラムにおける前景色ピクセルの累積値が第１閾値よりも大きい行からなる連続行セットに基づいて、ｎ行の文字領域を認識し、ｎが正整数であるように配置される行認識サブモジュールと、
ｉ行目の文字領域に対して、垂直方向に応じて第２ヒストグラムを算出し、前記第２ヒストグラムが各列のピクセルの横座標及び前記各列のピクセルにおける前景色ピクセルの累積値を含み、ｎ≧ｉ≧１、ｉが正整数であるように配置される第２算出サブモジュールと、
前記第２ヒストグラムにおける前景色ピクセルの累積値が第２閾値よりも大きい列からなる連続列セットに基づいて、ｎ_ｉ個のキャラクター領域を認識するように配置されるキャラクター認識サブモジュールと、を備えることを特徴とする請求項９〜１３のいずれかに記載の装置。
証明書類画像における顔領域の領域位置を取得し、
前記顔領域の領域位置に基づき少なくとも１つの情報領域を決定し、
前記情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得るように配置されるプロセッサと、
前記プロセッサにより実行可能なコマンドを記憶するためのメモリと、を備えることを特徴とする領域認識装置。