JP2018500704A

JP2018500704A - 領域抽出方法及び装置

Info

Publication number: JP2018500704A
Application number: JP2017547045A
Authority: JP
Inventors: ▲飛▼ ▲龍▼; 涛 ▲張▼; 志▲軍▼ ▲陳▼
Original assignee: Xiaomi Inc
Current assignee: Xiaomi Inc
Priority date: 2015-10-30
Filing date: 2015-12-29
Publication date: 2018-01-11
Anticipated expiration: 2035-12-29
Also published as: US20170124718A1; US10127471B2; EP3163504A1; EP3163504B1; CN105426818A; MX364147B; CN105426818B; RU2642404C2; WO2017071062A1; JP6396605B2; KR20170061630A; KR101760109B1; RU2016110818A; MX2016003769A

Abstract

本発明は領域抽出方法及び装置を開示し、画像処理分野に属する。領域抽出方法は、証明書類画像における第１の情報領域の領域位置を取得することと、第１の情報領域の領域位置により第２の情報領域を決定することと、第２の情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることと、を含む。関連技術における直接的に撮影した証明書類画像におけるある情報領域に対する認識難易度が大きく、且つある情報領域に対し正確に位置決めを行うことができない問題を解決し、証明書類画像における第１の情報領域の領域位置により第２の情報領域を決定し、第２の情報領域を切断し、それにより第２の情報領域を正確に位置決めするとともに第２の情報領域におけるキャラクター領域を正確に認識する効果を達成する。【選択図】図１

Description

本出願は、出願番号がＣＮ２０１５１０７２６２７２．４であり、出願日が２０１５年１０月３０日である中国特許出願に基づいて提出され、且つ該中国特許出願の優先権を主張し、該中国特許出願のすべての内容はここで参考として本出願に援用される。

本発明は画像処理分野に関し、特に領域抽出方法及び装置に関する。

身分証明書の自動認識技術は、画像処理により身分証明書における文字情報を認識する技術である。

関連技術は、身分証明書の自動認識方法を提供しており、身分証明書走査装置が一定の相対位置に従って身分証明書を走査することにより、身分証明書の走査画像を得、走査画像におけるｎ個の所定領域に対して文字認識を行い、名前情報、性別情報、民族情報、生年月日情報、アドレス情報及び公民身分証明書番号情報中の少なくとも１種を得る。しかしながら、直接的に撮影された身分証明書画像に対して、認識難易度が依然として大きい。

関連技術における問題を解決するために、本発明は領域抽出方法及び装置を提供する。

当該技術案は、以下のとおりである。

本発明の実施例に係る第１の態様では、
証明書類画像における第１の情報領域の領域位置を得ることと、
前記第１の情報領域の領域位置により第２の情報領域を決定することと、
前記第２の情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることと、を含む領域抽出方法を提供している。

好ましい実施例において、
前記領域位置は頂点座標で示され、
前記第１の情報領域の領域位置により第２の情報領域を決定することは、
前記第１の情報領域の少なくとも２つの前記頂点座標と所定の相対的な位置関係により、前記第２の情報領域を決定し、前記相対的な位置関係は前記頂点座標と前記第２の情報領域との間の相対的な位置関係であることを含む。

好ましい実施例において、前記第１の情報領域は、第二代身分証明書における公民身分証明書番号領域であり、
前記少なくとも２つの前記頂点座標は、前記公民身分証明書番号領域の２つの頂点座標であり、
前記第２の情報領域は、前記第二代身分証明書におけるアドレス情報領域であり、
前記第１の情報領域の少なくとも２つの前記頂点座標と所定の相対的な位置関係により、前記第２の情報領域を決定することは、
２つの前記頂点座標における前記アドレス情報領域に最も近接する１つの頂点座標の縦座標により、前記アドレス情報領域の下縁を決定することと、
前記最も近接する１つの頂点座標の前記縦座標と所定の高さにより、前記アドレス情報領域の上縁を決定することと、
前記２つの頂点座標における任意の１つの頂点座標の横座標と第１の所定の幅により、前記アドレス情報領域の左縁を決定することと、
前記２つの頂点座標における任意の１つの頂点座標の横座標と第２の所定の幅により、前記アドレス情報領域の右縁を決定することと、
前記下縁、前記上縁、前記左縁及び前記右縁により前記アドレス情報領域を切り取ることと、を含む。

好ましい実施例において、前記第２の情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることは、
前記第２の情報領域を２値化し、２値化後の第２の情報領域を得ることと、
前記２値化後の第２の情報領域に対して水平方向により第１のヒストグラムを算出し、前記第１のヒストグラムは各行のピクセルの縦座標と前記各行のピクセルにおける前景色ピクセルの累積値を含むことと、
前記第１のヒストグラムにおける前景色ピクセルの累積値が第１の閾値より大きい行からなる連続行セットにより、ｎ行の文字領域を認識し、ｎが正の整数であることと、
ｉ行目の文字領域に対して、垂直方向により第２のヒストグラムを算出し、前記第２のヒストグラムは各列のピクセルの横座標と前記各列のピクセルにおける前景色ピクセルの累積値を含み、ｎ≧ｉ≧１、ｉが正の整数であることと、
前記第２のヒストグラムにおける前景色ピクセルの累積値が第２の閾値より大きい列からなる連続列セットにより、ｎ_ｉ個のキャラクター領域を認識することと、を含む。

好ましい実施例において、当該方法は、
前記第１のヒストグラムにおける前景色ピクセルの累積値が前記第１の閾値より大きい行からなる連続行セットにより、隣接する２行の前記文字領域間の行間隔を認識することと、
前記行間隔が第３閾値より大きい場合に、前記第２の情報領域の縁により近接する１行の前記文字領域を廃棄し、前記縁が上縁又は下縁であることと、をさらに含む。

好ましい実施例において、当該方法は、
前記第２のヒストグラムにおける前景色ピクセルの累積値が前記第２の閾値より大きい列からなる連続列セットにより、隣接する２つの前記キャラクター領域間の字間隔を認識することと、
隣接する２つの前記キャラクター領域が前記第２の情報領域の左側に位置して且つ前記字間隔が第４閾値より大きい場合に、隣接する２つの前記キャラクター領域における右側にある前記キャラクター領域を現在の行の文字領域における最初の前記キャラクター領域と認識することと、
隣接する２つの前記キャラクター領域が前記第２の情報領域の右側に位置して且つ前記字間隔が第５閾値より大きい場合に、隣接する２つの前記キャラクター領域における左側にある前記キャラクター領域を現在の行の文字領域における最後の前記キャラクター領域と認識することと、をさらに含む。

本発明の実施例に係る第２の態様では、
証明書類画像における第１の情報領域の領域位置を取得するように配置される取得モジュールと、
前記第１の情報領域の領域位置により第２の情報領域を決定するように配置される決定モジュールと、
前記第２の情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得るように配置される認識モジュールと、を含む領域抽出装置を提供している。

好ましい実施例において、
前記領域位置は頂点座標で示され、
前記決定モジュールは前記第１の情報領域の少なくとも２つの前記頂点座標と所定の相対的な位置関係により、前記第２の情報領域を決定し、前記相対的な位置関係は前記頂点座標と前記第２の情報領域との間の相対的な位置関係であるように配置される。

好ましい実施例において、
前記第１の情報領域は、第二代身分証明書における公民身分証明書番号領域であり、
前記少なくとも２つの前記頂点座標は、前記公民身分証明書番号領域の２つの頂点座標であり、
前記第２の情報領域は、前記第二代身分証明書におけるアドレス情報領域であり、
前記決定モジュールは、
２つの前記頂点座標における前記アドレス情報領域に最も近接する１つの頂点座標の縦座標により、前記アドレス情報領域の下縁を決定するように配置される第１の決定サブモジュールと、
前記最も近接する１つの頂点座標の前記縦座標と所定の高さにより、前記アドレス情報領域の上縁を決定するように配置される第２の決定サブモジュールと、
前記２つの頂点座標における任意の１つの頂点座標の横座標と第１の所定の幅により、前記アドレス情報領域の左縁を決定するように配置される第３の決定サブモジュールと、
前記２つの頂点座標における任意の１つの頂点座標の横座標と第２の所定の幅により、前記アドレス情報領域の右縁を決定するように配置される第４の決定サブモジュールと、
前記下縁、前記上縁、前記左縁及び前記右縁により前記アドレス情報領域を切り取るように配置される切り取りサブモジュールと、を含む。

好ましい実施例において、前記認識モジュールは、
前記第２の情報領域を２値化し、２値化後の第２の情報領域を得るように配置される２値化サブモジュールと、
前記２値化後の第２の情報領域に対して水平方向により第１のヒストグラムを算出し、前記第１のヒストグラムは各行のピクセルの縦座標と前記各行のピクセルにおける前景色ピクセルの累積値を含むように配置される第１の算出サブモジュールと、
前記第１のヒストグラムにおける前景色ピクセルの累積値が第１の閾値より大きい行からなる連続行セットにより、ｎ行の文字領域を認識し、ｎが正の整数であるように配置される行認識サブモジュールと、
ｉ行目の文字領域に対して、垂直方向により第２のヒストグラムを算出し、前記第２のヒストグラムは各列のピクセルの横座標と前記各列のピクセルにおける前景色ピクセルの累積値を含み、ｎ≧ｉ≧１、ｉが正の整数であるように配置される第２の算出サブモジュールと、
前記第２のヒストグラムにおける前景色ピクセルの累積値が第２の閾値より大きい列からなる連続列セットにより、ｎ_ｉ個のキャラクター領域を認識するように配置されるキャラクター認識サブモジュールと、を含む。

好ましい実施例において、当該装置は、
前記第１のヒストグラムにおける前景色ピクセルの累積値が前記第１の閾値より大きい行からなる連続行セットにより、隣接する２行の前記文字領域間の行間隔を認識するように配置される行間隔認識モジュールと、
前記行間隔が第３閾値より大きい場合に、前記第２の情報領域の縁により近接する１行の前記文字領域を廃棄し、前記縁が上縁又は下縁であるように配置される廃棄モジュールと、を更に含む。

好ましい実施例において、当該装置は、
前記第２のヒストグラムにおける前景色ピクセルの累積値が前記第２の閾値より大きい列からなる連続列セットにより、隣接する２つの前記キャラクター領域間の字間隔を認識するように配置される字間隔認識モジュールと、
隣接する２つの前記キャラクター領域が前記第２の情報領域の左側に位置して且つ前記字間隔が第４閾値より大きい場合に、隣接する２つの前記キャラクター領域における右側にある前記キャラクター領域を現在の行の文字領域における最初の前記キャラクター領域と認識するように配置される文字認識モジュールと、
隣接する２つの前記キャラクター領域が前記第２の情報領域の右側に位置して且つ前記字間隔が第５閾値より大きい場合に、隣接する２つの前記キャラクター領域における左側にある前記キャラクター領域を現在の行の文字領域における最後の前記キャラクター領域と認識するように配置される単一キャラクター認識モジュールと、を更に含む。

本発明の実施例に係る第３の態様では、
証明書類画像における第１の情報領域の領域位置を取得し、
前記第１の情報領域の領域位置により第２の情報領域を決定し、
前記第２の情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得るように配置されるプロセッサと、
前記プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含む領域抽出装置を提供している。

本発明の実施例に係る技術案は以下の有益な効果を含む。

証明書類画像における第１の情報領域の領域位置を取得し、第１の情報領域の領域位置により第２の情報領域を決定して、第２の情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることで、関連技術における直接的に撮影した証明書類画像におけるある情報領域に対する認識難易度が大きく、且つある情報領域に対し正確に位置決めを行うことができない問題を解決し、証明書類画像における第１の情報領域の領域位置により第２の情報領域を決定し、第２の情報領域を切断し、それにより第２の情報領域を正確に位置決めするとともに第２の情報領域におけるキャラクター領域を正確に認識する効果を達成する。

以上の一般的な説明及び後述する詳細は例示的なものに過ぎず、本発明を制限するためのものではない。

ここの図面は明細書に組み込まれて本明細書の一部を構成し、本発明に適合する実施例を示し、明細書と共に本発明の原理を解釈するのに用いられる。

例示的な実施例で示す領域抽出方法のフローチャートである。別の例示的な実施例で示す領域抽出方法のフローチャートである。別の例示的な実施例で示す領域抽出方法のフローチャートである。例示的な実施例で示すアドレス情報領域の下縁を決定する模式図である。例示的な実施例で示すアドレス情報領域の上縁を決定する模式図である。例示的な実施例で示すアドレス情報領域の左縁を決定する模式図である。例示的な実施例で示すアドレス情報領域の右縁を決定する模式図である。例示的な実施例で示すアドレス情報領域を決定する模式図である。別の例示的な実施例で示す領域抽出方法のフローチャートである。例示的な実施例で示す第２の情報領域を２値化した模式図である。例示的な実施例で示す水平方向により第１のヒストグラムを算出する模式図である。例示的な実施例で示す連続行セットの模式図である。例示的な実施例で示す垂直方向により第２のヒストグラムを算出する模式図である。例示的な実施例で示す連続列セットの模式図である。別の例示的な実施例で示す領域抽出方法のフローチャートである。例示的な実施例で示す隣接する２行の文字領域間の行間隔の模式図である。別の例示的な実施例で示す領域抽出方法のフローチャートである。例示的な実施例で示す隣接する２つのキャラクター領域間のキャラクター間隔の模式図である。例示的な実施例で示す領域抽出装置のブロック図である。別の例示的な実施例で示す領域抽出装置のブロック図である。別の例示的な実施例で示す領域抽出装置のブロック図である。他の例示的な実施例で示す領域抽出装置のブロック図である。例示的な実施例で示す領域抽出装置のブロック図である。

ここで例示的な実施例について詳しく説明し、その実施例は図面に示す通りである。下記の説明が図面に関わるとき、別途に表示されない限り、異なる図面における同じ数字は同じ又は類似する要素を示す。以下の例示的な実施例に説明される実施形態は本発明と一致する全ての実施形態を表すわけではない。逆に、それらは特許請求の範囲に詳細に記載された本発明の一部の態様と一致する装置と方法の例に過ぎない。

図１は例示的な実施例で示す領域抽出方法のフローチャートであり、図１に示すように、該領域抽出方法は以下のステップを含む。

ステップ１０１において、証明書類画像における第１の情報領域の領域位置を取得する。

証明書類画像は、証明書類を直接撮影した画像であり、例えば、身分証明書画像または社会保障カードの画像等が挙げられる。

第１の情報領域は、証明書類画像において文字情報がある領域を指し、例えば、名前情報領域、出生日情報領域、性別領域、アドレス情報領域、公民身分証明書番号情報領域、番号情報領域、証明書発行機関情報領域および有効期限情報領域等の情報領域中の少なくとも１種である。

ステップ１０２において、第１の情報領域の領域位置により第２の情報領域を決定する。

好ましくは、第１の情報領域の位置決め難易度が第２の情報領域の位置決め難易度より低い。

ステップ１０３において、第２の情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得る。

以上のように、本発明の実施例の提供した領域抽出方法は、証明書類画像における第１の情報領域の領域位置を取得し、第１の情報領域の領域位置により第２の情報領域を決定し、第２の情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることで、関連技術における直接的に撮影した証明書類画像におけるある情報領域に対する認識難易度が大きく、且つある情報領域に対し正確に位置決めを行うことができない問題を解決し、証明書類画像における第１の情報領域の領域位置により第２の情報領域を決定し、第２の情報領域を切断し、それにより第２の情報領域を正確に位置決めするとともに第２の情報領域におけるキャラクター領域を正確に認識する効果を達成する。

図２Ａは別の例示的な実施例で示す領域抽出方法のフローチャートであり、図２Ａに示すように、該領域抽出方法は以下のステップを含む。

ステップ２０１において、証明書類画像における第１の情報領域の領域位置を取得し、領域位置は頂点座標で示される。

証明書類画像は証明書類を直接的に撮影した画像であり、例えば、身分証明書画像、社会保障カードの画像等が挙げられる。好ましくは、証明書類画像を撮影する場合に、撮影インターフェースにおいて撮影をガイドするための矩形領域が設置され、ユーザーは矩形領域と証明書類とを位置合わせするときに、証明書類画像を撮影する。

端末は証明書類画像における第１の情報領域の領域位置を取得し、第１の情報領域の領域位置により該第１の領域位置における各頂点の頂点座標を取得する。又は，領域位置は頂点座標で示される。

例えば、証明書類画像の左上角を原点、上縁を横座標ｘの正軸、左縁を縦座標ｙの正軸として直交座標系を確立し、第１の情報領域の各頂点の直交座標系での位置に基づいて、各頂点に対応する頂点座標を取得し、頂点座標で該第１の情報領域の領域位置を示す。

ステップ２０２において、第１の情報領域の少なくとも２つの頂点座標と所定の相対的な位置関係により、第２の情報領域を決定し、相対的な位置関係は頂点座標と第２の情報領域との間の相対的な位置関係である。

所定の相対的な位置関係は、第１の情報領域の頂点座標と第２の情報領域の上縁、下縁、左縁及び右縁との間の相対位置を意味する。

端末は第１の情報領域で取得された少なくとも２つの頂点座標と所定の相対的な位置関係により第２の情報領域の領域位置を決定することができる。

好ましくは、第１の情報領域は４つの頂点を含み、第１の情報領域における４つの頂点のうち、どの２つの頂点を頂点座標とするかについては限定されない。好ましくは、第１の情報領域における２つの頂点座標間の距離が大きいほど、決定した第２の情報領域に出現した誤差が小さくなる。

ステップ２０３において、第２の情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得る。

第２の情報領域の領域位置を決定した後、第２の情報領域に対し領域切断を行う。領域切断をした後、第２の情報領域は少なくとも１つのキャラクター領域に切断される。キャラクター領域は単一キャラクターを含む画像領域である。

以上のように、本発明の実施例の提供した領域抽出方法は、証明書類画像における第１の情報領域の領域位置を取得し、第１の情報領域の少なくとも２つの頂点座標と所定の相対的な位置関係により、第２の情報領域を決定し、相対的な位置関係は頂点座標と第２の情報領域との間の相対的な位置関係であり、第２の情報領域に対して領域切断を行い、少なくとも１つの文字領域を得ることで、身分証明書の自動認識方法が直接的に撮影した証明書類画像における身分証明書情報に対する認識難易度が大きく、且つ身分証明書情報に対し正確に位置決めを行うことができない問題を解決し、証明書類画像における第１の情報領域の領域位置により第２の情報領域を決定し、第２の情報領域を切断し、それにより第２の情報領域を正確に位置決めするとともに第２の情報領域におけるキャラクター領域を正確に認識する効果を達成する。

図２Ａに示す選択可能な実施例において、第１の情報領域は第二代身分証明書における公民身分証明書番号領域であり、少なくとも２つの頂点座標は公民身分証明書番号領域の左上頂点と右上頂点の２つの頂点座標であり、第２の情報領域は第二代身分証明書におけるアドレス情報領域である。ステップ２０２を以下のステップ２０２ａ〜２０２ｅに替えることができ、図２Ｂに示す。

ステップ２０２ａにおいて、２つの頂点座標におけるアドレス情報領域に最も近接する１つの頂点座標の縦座標により、アドレス情報領域の下縁を決定する。

公民身分証明書番号領域とアドレス情報領域との間の所定の相対的な位置関係から明らかなように、アドレス情報領域は公民身分証明書番号領域の上方にある。そのため、直交座標系の確立方式から分かるように、２つの頂点座標における頂点が高いほど縦座標が小さくなり、アドレス情報領域に近接するので、取得した２つの頂点座標におけるより高い頂点の縦座標の所在する横直線をアドレス情報領域の下縁として、図２Ｃに示すように、公民身分証明書番号領域の最初の数字３の縦座標の所在する横直線をアドレス情報領域の下縁ｍ１とする。

ステップ２０２ｂにおいて、最も近接する１つの頂点座標の縦座標と所定の高さにより、アドレス情報領域の上縁を決定する。

アドレス情報領域に最も近接する１つの頂点座標の縦座標を決定した後、該頂点座標の縦座標を開始位置として、所定の高さの距離で上方に平行移動させ、所定の高さで平行移動した後の縦座標の所在する横直線をアドレス情報領域の上縁とする。

好ましくは、該所定の高さは広い高さであり、所定の高さで平行移動した領域がアドレス情報領域を被覆すればよく、図２Ｄに示すように、公民身分証明書番号領域の最初の数字３の縦座標を開始位置として、上方にｈ（高さ）で平行移動した後、ｈ（高さ）に対応する縦座標の所在する横直線をアドレス情報領域の上縁ｍ２とする。

ステップ２０２ｃにおいて、２つの頂点座標における任意の１つの頂点座標の横座標と第１の所定の幅により、アドレス情報領域の左縁を決定する。

２つの頂点座標における任意の１つの頂点座標の横座標を左へ第１の所定の幅で平行移動し、該頂点座標を平行移動した後の横座標の所在する垂直線をアドレス情報領域の左縁として、図２Ｅに示すように、公民身分証明書番号領域の最初の数字３の横座標を開始位置として、左へｒ＊ｗ（幅）で平行移動した後、ｒ＊ｗ（幅）に対応する横座標の所在する垂直線をアドレス情報領域の左縁ｍ３とし、そのうち、ｒがパーセンテージであり、ｗが公民身分証明書番号領域の長さである。

好ましくは、異なる頂点座標の横座標に対応する第１の所定の幅が異なり、即ち異なる頂点座標の横座標を利用して左へ平行移動する第１の所定の幅が異なる。

好ましくは、第１の所定の幅が公民身分証明書番号領域の長さのパーセンテージである。

ステップ２０２ｄにおいて、２つの頂点座標における任意の１つの頂点座標の横座標と第２の所定の幅により、アドレス情報領域の右縁を決定する。

２つの頂点座標における任意の１つの頂点座標の横座標を第２の所定の幅で平行移動し、該頂点座標を平行移動した後の横座標の所在する垂直線をアドレス情報領域の右縁として、図２Ｆに示すように、公民身分証明書番号領域の最後の数字４の横座標を開始位置として、左へｄ（幅）で平行移動した後に、ｄ（幅）に対応する横座標の所在する垂直線をアドレス情報領域の右縁ｍ４とする。

好ましくは、異なる頂点座標の横座標に対応する第２の所定の幅が異なり、即ち異なる頂点座標の横座標を利用して平行移動する第２の所定の幅が異なり、同時に、アドレス情報領域の右縁を決定する場合に、一部分の頂点座標の横座標が左へ平行移動する必要があり、一部分の頂点座標の横座標が右へ平行移動する必要がり、異なる頂点座標の横座標の平行移動する方向が異なる。この部分の内容がいずれも上記相対的な位置関係により定義される。

好ましくは、第２の所定の幅が公民身分証明書番号領域の長さのパーセンテージである。

ステップ２０２ｅにおいて、下縁、上縁、左縁及び右縁によりアドレス情報領域を切り取る。

ステップ２０２ａ〜ステップ２０２ｄにおいて決定されたアドレス情報領域の下縁、上縁、左縁及び右縁によりアドレス情報領域を切り取り、図２Ｇに示す。

以上のように、本実施例が提供する領域抽出方法は、第１の情報領域における２つの頂点座標と所定の相対的な位置関係により、第２の情報領域の上縁、下縁、左縁及び右縁をそれぞれ決定し、それにより第２の情報領域のおおよその位置を切り取ることができ、第２の情報領域における文字切断際の正確な位置決めに有利である。

なお、図２Ｂ実施例において、ステップ２０１で第二代身分証明書画像における公民身分証明書番号領域の領域位置を取得する実現方式に対して、第二代身分証明書画像における公民身分証明書番号領域のフォーマットが相対的に固定されたものであり、関連技術の取得方法は比較的に公知であるので、本実施例においてさらに説明しない。例示的な方式として、第二代身分証明書画像におけるｈａａｒ特徴又はその他の特徴を抽出することにより、抽出した特徴をＡｄａｂｏｏｓｔ又はＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、サポートベクターマシン）に入力して訓練し、訓練モデルを取得し、訓練モデルを利用して認識しようとする第二代身份証明書画像における公民身分証明書番号領域を認識し、それにより公民身分証明書番号領域の領域位置を決定する。

図２Ａに示す選択可能な実施例において、ステップ２０３を以下のステップ２０３ａ〜２０３ｅに替えることができ、図３Ａに示すように、
ステップ２０３ａにおいて、第２の情報領域を２値化し、２値化後の第２の情報領域を得る。

好ましくは、ステップ２０２で決定した第２の情報領域により、該第２の情報領域をプリ処理し、プリ処理後の第２の情報領域を２値化する。そのうち、プリ処理は、ノイズ除去、フィルタリング、縁抽出等の操作を含むことができる。

２値化とは、第２の情報領域におけるピクセルのグレー値と予め設定されたグレー閾値を比較し、第２の情報領域におけるピクセルを、予め設定されたグレー閾値より大きい画素群と予め設定されたグレー閾値より小さい画素群という２つの部分に分けて、２つの部分の画素群に第２の情報領域においてそれぞれ黒と白という２種の異なる色を呈させ、２値化後の第２の情報領域を得、図３Ｂに示すことである。そのうち、前景に位置する１種の色のピクセルが前景色ピクセルと称され、即ち、図３Ｂにおける白色ピクセルであり、背景に位置する１種の色のピクセルが背景色ピクセルと称され、即ち、図３Ｂにおける黒色ピクセルである。

ステップ２０３ｂにおいて、２値化後の第２の情報領域に対して水平方向により第１のヒストグラムを算出し、第１のヒストグラムは、各行のピクセルの縦座標と各行のピクセルにおける前景色ピクセルの累積値を含む。

２値化後の第２の情報領域は水平方向により第１のヒストグラムを算出し、該第１のヒストグラムは垂直方向で各行のピクセルの縦座標を示し、水平方向で各行のピクセルにおける前景色ピクセルの個数累積値を示し、図３Ｃに示す。

ステップ２０３ｃにおいて、第１のヒストグラムにおける前景色ピクセルの累積値が第１の閾値より大きい行からなる連続行セットにより、ｎ行の文字領域を認識し、ｎが正の整数である。

第１のヒストグラムにより、各行のピクセルにおける前景色ピクセルの累積値を取得し、各行のピクセルにおける前景色ピクセルの累積値と第１の閾値を比較し、第１のヒストグラムにおける前景色ピクセルの累積値が第１の閾値より大きい行からなる連続行セットを、文字領域の所在する行として決定することができる。

連続行セットとは、前景色ピクセルの累積値が第１の閾値より大きい行が連続的なｍ行であり、該連続的なｍ行のピクセルにより構成されるセットであり、図３Ｄに示すように、図におけるｍ行のピクセルに対して、左側ヒストグラムにある前景色ピクセルの累積値がいずれも第１の閾値より大きい。該ｍ行のピクセルは証明書類画像において文字領域「村大東王１２６号」に対応する。

各連続行セットを１行の文字領域として認識し、ｎ個の連続行セットをｎ行の文字領域として認識する。

ステップ２０３ｄにおいて、ｉ行目の文字領域に対して、垂直方向により第２のヒストグラムを算出し、第２のヒストグラムは、各列のピクセルの横座標と各列のピクセルにおける前景色ピクセルの累積値を含み、ｎ≧ｉ≧１、ｉが正の整数である。

ｎ行の文字領域を決定した後に、垂直方向により第２のヒストグラムを算出し、該第２のヒストグラムは水平方向で各列のピクセルの横座標を示し、垂直方向で各列のピクセルにおける前景色ピクセルの個数累積値を示し、図３Ｅに示す。

ステップ２０３ｅにおいて、第２のヒストグラムにおける前景色ピクセルの累積値が第２の閾値より大きい列からなる連続列セットにより、ｎ_ｉ個の文字領域を認識する。

第２のヒストグラムにより、各列のピクセルにおける前景色ピクセルの累積値を取得し、各列のピクセルにおける前景色ピクセルの累積値と第２の閾値を比較し、第２のヒストグラムにおける前景色ピクセルの累積値が第２の閾値より大きい列からなる連続列セットを、キャラクター領域の所在する列として決定することができる。

連続列セットとは、前景色ピクセルの累積値が第２の閾値より大きい列が連続的なｐ列であり、該連続的なｐ列のピクセルにより構成されるセットであり、図３Ｆに示すように、連続列セットはｐであり、即ち第２のヒストグラムに形成された連続的な白色領域である。図におけるｐ列のピクセルに対して、下側に位置するヒストグラムにおける前景色ピクセルの累積値がいずれも第２の閾値より大きい。該ｐ列のピクセルは証明書類画像において文字領域「浙」に対応する。

各連続列セットを１つのキャラクター領域として認識し、ｎ個の連続列セットをｎ個のキャラクター領域として認識する。

以上のように、本実施例により提供される領域抽出方法は、第２の情報領域を２値化して、２値化後の第２の情報領域に対して水平方向により第１のヒストグラムを算出し、第２の情報領域におけるｎ行の文字領域を決定し、更にそれぞれｎ行の文字領域に対して垂直方向により第２のヒストグラムを算出し、各文字に対応するキャラクター領域を認識する。まず文字領域の所在する行を決定し、次に文字領域の所在する行により各行の文字領域におけるキャラクター領域を決定することにより、第２の情報領域におけるキャラクター領域の位置決めをより正確にする。

図３Ａに示す実施例において、第１の情報領域の領域位置と所定の相対的な位置関係により第２の情報領域を決定する過程において、誤差が発生する可能性があり、非第２の情報領域の文字又はノイズを第２の情報領域の領域範囲に分けるので、行間隔により非第２の情報領域の文字領域を廃棄することができ、以下の実施例を参照する。

図３Ａに示す選択可能な実施例において、ステップ２０３ｃの後、以下のステップを更に含むことができ、図４Ａに示す。

ステップ４０１において、第１のヒストグラムにおける前景色ピクセルの累積値が第１の閾値より大きい行からなる連続行セットにより、隣接する２行の文字領域間の行間隔を認識する。

なお、アドレス情報領域は一般的に１〜３行の文字領域を含み、該１〜３行の文字領域はより短い行間隔を有する。同時に、該１〜３行の文字領域とその他の情報領域における文字領域はより大きい行間隔を有する。本ステップは行間隔の特徴により、非第２の情報領域の文字領域を廃棄する。

ステップ２０３ｃで認識したｎ行の文字領域に対して、隣接する２行の文字領域間の行間隔を取得する。行間隔とは、第１のヒストグラムにおける２行の文字領域間の間隔であり、図４Ｂに示すように、１行の文字領域と隣接する行の文字領域との間の行間隔はｈ１である。

ステップ４０２において、行間隔が第３閾値より大きい場合に、第２の情報領域の縁により近接する１行の文字領域を廃棄し、縁が上縁又は下縁である。

第１のヒストグラムにより、下から上へ文字領域を検索し、検索した最初の隣接する２行の文字領域の行間隔が第３閾値より大きい場合に、直下行の文字領域を廃棄し、上へ検索し続け、再び隣接する２行の文字領域の行間隔が第３閾値より大きいと検索した場合に、検索を終了し、且つ直上行の文字領域を廃棄する。また、残りの文字領域が第２の情報領域に属すると決定する。

検索した最初の隣接する２行の文字領域の行間隔が第３閾値より小さい場合に、該２行の文字領域がいずれも第２の情報領域に属すると決定する。上へ検索し続け、隣接する２行の文字領域の行間隔が第３閾値より大きいと検索するまで、直上行の文字領域を廃棄し、且つ検索を終了する。又は、上へ検索し続け、隣接する２行の文字領域の行間隔が第３閾値より大きいと検索しない場合に、検索を終了する。

好ましくは、第１のヒストグラムにより、上から下へ文字領域を検索し、検索した最初の隣接する２行の文字領域の行間隔が第３閾値より大きい場合に、直上行の文字領域を廃棄し、上へ検索し続け、隣接する２行の文字領域の行間隔が第３閾値より大きいことをさらに検索した場合に、検索を終了し、且つ直下行の文字領域を廃棄する。また、残りの文字領域が第２の情報領域に属すると決定する。

検索した最初の隣接する２行の文字領域の行間隔が第３閾値より小さい場合に、該２行の文字領域がいずれも第２の情報領域に属すると決定し、下へ検索し続け、隣接する２行の文字領域の行間隔が第３閾値より大きいと検索するまで、直下行の文字領域を廃棄し、且つ検索を終了する。又は、下へ検索し続け、隣接する２行の文字領域の行間隔が第３閾値より大きいと検索しない場合に、検索を終了する。

以上のように、本実施例により提供される領域抽出方法は、第１のヒストグラムにおける前景色ピクセルの累積値が第１の閾値よりも大きい行からなる連続行セットにより、隣接する２行の文字領域間の行間隔を認識する。行間隔が第３閾値より大きい場合に、第２の情報領域の縁により近接する１行の文字領域を廃棄し、縁が上縁又は下縁である。行間隔の大きさにより第２の情報領域における行の文字領域を決定し、それにより第２の情報領域をより正確に位置決めする。

図３Ａに示す実施例において、第２の情報領域の左縁及び右縁への決定過程において、誤差が発生する可能性があり、非第２の情報領域のキャラクター領域を第２の情報領域的範囲に分けるので、字間隔により非第２の情報領域のキャラクター領域を廃棄し、以下の実施例を参照する。

図４Ａに示す選択可能な実施例において、ステップ２０３ｅの後、以下のステップを更に含むことができ、図５Ａに示す。

ステップ５０１において、第２のヒストグラムにおける前景色ピクセルの累積値が第２の閾値より大きい列からなる連続列セットにより、隣接する２つのキャラクター領域間の字間隔を認識する。

ステップ２０３ｅで認識したｎ_ｉ個のキャラクター領域により、隣接する２つのキャラクター領域間の字間隔を取得し、各行の文字領域における隣接する２つのキャラクター領域間の字間隔がより小さい。

字間隔とは第２のヒストグラムにおける２つのキャラクター領域間の間隔であり、図５Ｂに示すように、字と字との間の字間隔がｈ２である。

ステップ５０２において、隣接する２つのキャラクター領域が第２の情報領域の左側に位置して且つ字間隔が第４閾値より大きい場合に、隣接する２つのキャラクター領域における右側にあるキャラクター領域を現在の行の文字領域における最初のキャラクター領域と認識する。

現在の文字領域の中間のあるキャラクターを開始位置として、開始位置から左へ検索し始め、最初の隣接する２つのキャラクター領域間の字間隔が第４閾値より大きいと検索した場合に、隣接する２つのキャラクター領域における左側にあるキャラクター領域（該字間隔の左側にある全部のキャラクター領域）を廃棄し、隣接する２つのキャラクター領域における右側にあるキャラクター領域を現在の行の文字領域における最初のキャラクター領域と認識する。最初のキャラクター領域を認識した後、更に最初のキャラクター領域の位置により右へ検索し始め、隣接する２つのキャラクター領域間の字間隔が第４閾値より大きいと検索するまで、検索を終了する。

最初の隣接する２つのキャラクター領域間の字間隔が第４閾値より小さいと検索した場合に、隣接する２つのキャラクター領域をいずれも現在の行の文字領域に属するキャラクター領域と決定する。

ステップ５０３において、隣接する２つのキャラクター領域が第２の情報領域の右側に位置して且つ字間隔が第５閾値より大きい場合に、隣接する２つのキャラクター領域における左側にあるキャラクター領域を現在の行の文字領域における最後のキャラクター領域と認識する。

現在の文字領域の中間のあるキャラクターを開始位置として、開始位置から右へ検索し始め、最初の隣接する２つのキャラクター領域間の字間隔が第５閾値より大きいと検索した場合に、隣接する２つのキャラクター領域における右側にあるキャラクター領域（該字間隔の右側にある全部のキャラクター領域）を廃棄し、隣接する２つのキャラクター領域における左側にあるキャラクター領域を現在の行の文字領域における最後のキャラクター領域と認識する。最後のキャラクター領域を認識した後、更に最後のキャラクター領域の位置により左へ検索し始め、隣接する２つのキャラクター領域間の字間隔が第５閾値より大きいと検索するまで、検索を終了する。

最初の隣接する２つのキャラクター領域間の字間隔が第５閾値より小さいと検索した場合に、隣接する２つのキャラクター領域をいずれも現在の行の文字領域に属するキャラクター領域と決定する。

以上のように、本実施例により提供される領域抽出方法は、第２のヒストグラムにおける前景色ピクセルの累積値が第２の閾値より大きい列からなる連続列セットにより、隣接する２つのキャラクター領域間の字間隔を認識する。隣接する２つのキャラクター領域が第２の情報領域の左側に位置して且つ字間隔が第４閾値より大きい場合に、隣接する２つのキャラクター領域における右側にあるキャラクター領域を現在の行の文字領域における最初の文字領域と認識し、隣接する２つのキャラクター領域が第２の情報領域の右側に位置して且つ字間隔が第５閾値より大きい場合に、隣接する２つのキャラクター領域における左側にあるキャラクター領域を現在の行の文字領域における最後のキャラクター領域と認識する。字間隔の大きさにより第２の情報領域におけるキャラクター領域を決定し、それにより第２の情報領域における各キャラクター領域を正確に位置決めする。

なお、図１に示す実施例、図２Ａに示す実施例、図２Ｂに示す実施例、図３Ａに示す実施例、図４Ａに示す実施例及び図５Ａに示す実施例において、キャラクター領域を認識した後、従来のキャラクター認識アルゴリズムによりキャラクター領域を更に処理し、キャラクター領域におけるキャラクターを認識する。
なお、上記方法の実施例に関する身分証明書画像は本発明における模式的な例示説明であり、実際の身分証明書画像ではない。

以下は本発明の装置の実施例であり、本発明の方法の実施例の実施に使用することができる。本発明の装置の実施例で開示されていない詳細は、本発明の方法の実施例を参照する。

図６は例示的な実施例で示す領域抽出装置のブロック図であり、図６に示すように、該領域抽出装置は以下を備えるが、これらに限定されない。

取得モジュール６１０は、証明書類画像における第１の情報領域の領域位置を取得するように配置される。

証明書類画像は証明書類を直接的に撮影した画像であり、例えば、身分証明書画像、社会保障カードの画像等が挙げられる。

第１の情報領域は、証明書類画像において文字情報がある領域を指し、例えば、名前情報領域、生年月日情報領域、性別領域、アドレス情報領域、公民身分証明書番号情報領域、番号情報領域、証明書発行機関情報領域および有効期限情報領域等の情報領域の少なくとも１種である。

決定モジュール６２０は、第１の情報領域の領域位置により第２の情報領域を決定するように配置される。

認識モジュール６３０は、第２の情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得るように配置される。

以上のように、本発明の実施例により提供される領域抽出装置は、証明書類画像における第１の情報領域の領域位置を取得し、第１の情報領域の領域位置により第２の情報領域を決定し、第２の情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることで、関連技術における直接的に撮影した証明書類画像におけるある情報領域に対する認識難易度が大きく、且つある情報領域に対し正確に位置決めを行うことができない問題を解決し、証明書類画像における第１の情報領域の領域位置により第２の情報領域を決定し、第２の情報領域を切断し、それにより第２の情報領域を正確に位置決めするとともに第２の情報領域におけるキャラクター領域を正確に認識する効果を達成する。

図７は別の例示的な実施例で示す領域抽出装置のブロック図であり、図７に示すように、該領域抽出装置は、以下を備えるが、これらに限定されない。

取得モジュール６１０は証明書類画像における第１の情報領域の領域位置を取得する場合に、第１の情報領域の領域位置により該第１の領域位置における各頂点の頂点座標を取得する。又は、領域位置は頂点座標で示される。

決定モジュール６２０は、更に第１の情報領域の少なくとも２つの頂点座標と所定の相対的な位置関係により、第２の情報領域を決定し、相対的な位置関係は頂点座標と第２の情報領域との間の相対的な位置関係であるように配置される。

決定モジュール６２０は第１の情報領域で取得された少なくとも２つの頂点座標と所定の相対的な位置関係により第２の情報領域の領域位置を決定することができる。

本実施例において、決定モジュール６２０は以下の複数のサブモジュールを含むことができる。

第１の決定サブモジュール６２１は、２つの頂点座標におけるアドレス情報領域に最も近接する１つの頂点座標の縦座標により、アドレス情報領域の下縁を決定するように配置される。

公民身分証明書番号領域とアドレス情報領域との間の所定の相対的な位置関係から明らかなように、アドレス情報領域は公民身分証明書番号領域の上方にある。このため、直交座標系の確立方式から分かるように、２つの頂点座標における頂点が高いほど縦座標が小さくなり、アドレス情報領域に近くなり、このため、第１の決定サブモジュール６２１は取得された２つの頂点座標におけるより高い頂点の縦座標の所在する横直線をアドレス情報領域の下縁とする。

第２の決定サブモジュール６２２は、最も近接する１つの頂点座標の縦座標と所定の高さにより、アドレス情報領域の上縁を決定するように配置される。

第１の決定サブモジュール６２１によりアドレス情報領域に最も近接する１つの頂点座標の縦座標が決定された後、第２の決定サブモジュール６２２は該頂点座標の縦座標を開始位置として、所定の高さの距離で上方に平行移動し、所定の高さで平行移動した後の縦座標の所在する横直線をアドレス情報領域の上縁とする。

第３の決定サブモジュール６２３は、２つの頂点座標における任意の１つの頂点座標の横座標と第１の所定の幅により、アドレス情報領域の左縁を決定するように配置される。

第３の決定サブモジュール６２３は、２つの頂点座標における任意の１つの頂点座標の横座標を第１の所定の幅で左へ平行移動し、該頂点座標を平行移動した後の横座標の所在する垂直線をアドレス情報領域の左縁とする。

第４の決定サブモジュール６２４は、２つの頂点座標における任意の１つの頂点座標の横座標と第２の所定の幅により、アドレス情報領域の右縁を決定するように配置される。

第４の決定サブモジュール６２４は、２つの頂点座標における任意の１つの頂点座標の横座標を第２の所定の幅で平行移動し、該頂点座標を平行移動した後の横座標の所在する垂直線をアドレス情報領域の右縁とする。

切り取りサブモジュール６２５は、下縁、上縁、左縁及び右縁によりアドレス情報領域を切り取るように配置される。

第１の決定サブモジュール６２１〜第４の決定サブモジュール６２４で決定されたアドレス情報領域の下縁、上縁、左縁及び右縁により、切り取りサブモジュール６２５は、アドレス情報領域を切り取る。

切り取りサブモジュール６２５により第２の情報領域の領域位置が決定された後、認識モジュール６３０は第２の情報領域に対して領域切断を行う。領域切断をした後、第２の情報領域は少なくとも１つのキャラクター領域に切断される。キャラクター領域は単一キャラクターを含む画像領域である。

図７に示す選択可能な実施例において、認識モジュール６３０は、図８に示すように、以下のサブモジュールを含むことができる。

２値化サブモジュール６３１は、第２の情報領域を２値化し、２値化後の第２の情報領域を得るように配置される。

好ましくは、切り取りサブモジュール６２５で決定された第２の情報領域により、該第２の情報領域をプリ処理し、そのうち、プリ処理はノイズ除去、フィルタリング、縁抽出等の操作を含み、プリ処理後の第２の情報領域を２値化することができる。

２値化とは、第２の情報領域におけるピクセルのグレー値と予め設定されたグレー閾値を比較し、第２の情報領域におけるピクセルを、予め設定されたグレー閾値より大きい画素群と予め設定されたグレー閾値より小さい画素群という２つの部分に分けて、２つの部分の画素群に第２の情報領域においてそれぞれ黒と白という２種の異なる色を呈させ、２値化後の第２の情報領域を得ることである。

第１の算出サブモジュール６３２は、２値化後の第２の情報領域に対して水平方向により第１のヒストグラムを算出し、第１のヒストグラムは各行のピクセルの縦座標と各行のピクセルにおける前景色ピクセルの累積値を含むように配置される。

第１の算出サブモジュール６３２は、２値化サブモジュール６３１により処理された第２の情報領域に対して水平方向により第１のヒストグラムを算出し、該第１のヒストグラムは垂直方向で各行のピクセルの縦座標を示し、水平方向で各行のピクセルにおける前景色ピクセルの個数累積値を示す。

行認識サブモジュール６３３は、第１のヒストグラムにおける前景色ピクセルの累積値が第１の閾値より大きい行からなる連続行セットにより、ｎ行の文字領域を認識し、ｎが正の整数であるように配置される。

第１のヒストグラムにより、各行ピクセルにおける前景色ピクセルの累積値を取得することができ、行認識サブモジュール６３３は、各行ピクセルにおける前景色ピクセルの累積値と第１の閾値を比較し、第１のヒストグラムにおける前景色ピクセルの累積値が第１の閾値より大きい行からなる連続行セットを、文字領域が所在する行として決定する。

連続行セットは、前景色ピクセルの累積値が第１の閾値より大きい行が連続的なｍ行であり、該連続的なｍ行のピクセルにより構成されるセットを意味する。

第２の算出サブモジュール６３４は、ｉ行目の文字領域に対して、垂直方向により第２のヒストグラムを算出し、第２のヒストグラムは各列のピクセルの横座標と各列のピクセルにおける前景色ピクセルの累積値を含み、ｎ≧ｉ≧１、ｉが正の整数であるように配置される。

行認識サブモジュール６３３によりｎ行の文字領域が決定された後、第２の算出サブモジュール６３４は垂直方向により第２のヒストグラムを算出し、該第２のヒストグラムは水平方向で各列のピクセルの横座標を示し、垂直方向で各列のピクセルにおける前景色ピクセルの個数累積値を示す。

キャラクター認識サブモジュール６３５は、第２のヒストグラムにおける前景色ピクセルの累積値が第２の閾値より大きい列からなる連続列セットにより、ｎ_ｉ個のキャラクター領域を認識するように配置される。

第２のヒストグラムにより、各列のピクセルにおける前景色ピクセルの累積値を取得することができ、キャラクター認識サブモジュール６３５は、各列のピクセルにおける前景色ピクセルの累積値と第２の閾値を比較し、第２のヒストグラムにおける前景色ピクセルの累積値が第２の閾値より大きい列からなる連続列セットを、キャラクター領域が所在する列として決定する。

連続列セットは、前景色ピクセルの累積値が第２の閾値より大きい列が連続的なｐ列であり、該連続的なｐ列のピクセルにより構成されるセットを意味する。

以上のように、本実施例により提供される領域抽出装置は、第２の情報領域を２値化して、２値化後の第２の情報領域に対して水平方向により第１のヒストグラムを算出し、第２の情報領域におけるｎ行の文字領域を決定し、更にそれぞれｎ行の文字領域に対して垂直方向により第２のヒストグラムを算出し、各文字に対応するキャラクター領域を認識する。まず文字領域の所在する行を決定し、次に文字領域の所在する行により各行文字領域におけるキャラクター領域を決定することにより、第２の情報領域におけるキャラクター領域をより正確に位置決めする。

図８に示す選択的な実施例では、該装置は、以下のモジュールを更に備えてもよく、図９に示すように、
行間隔認識モジュール９１０は、第１のヒストグラムにおける前景色ピクセルの累積値が第１の閾値より大きい行からなる連続行セットにより、隣接する２行の文字領域間の行間隔を認識するように配置される。

行認識サブモジュール６３３により認識されたｎ行の文字領域に対して、行間隔認識モジュール９１０は隣接する２行の文字領域間の行間隔を取得する。行間隔とは第１のヒストグラムにおける２行の文字領域間の間隔である。

廃棄モジュール９２０は、行間隔が第３閾値より大きい場合に、第２の情報領域の縁により近接する１行の文字領域を廃棄し、縁が上縁又は下縁であるように配置される。

第１のヒストグラムにより、下から上へ文字領域を検索し、検索した最初の隣接する２行の文字領域の行間隔が第３閾値より大きい場合に、廃棄モジュール９２０は直下行の文字領域を廃棄し、上へ検索し続け、隣接する２行の文字領域の行間隔が第３閾値より大きいことをさらに検索した場合に、検索を終了し、且つ直上行の文字領域を廃棄する。同時に、残りの文字領域が第２の情報領域に属すると決定する。

字間隔認識モジュール９３０は、第２のヒストグラムにおける前景色ピクセルの累積値が第２の閾値よりも大きい列からなる連続列セットにより、隣接する２つの文字領域間の字間隔を認識するように配置される。

キャラクター認識サブモジュール６３５により認識されたｎ_ｉ個のキャラクター領域により、字間隔認識モジュール９３０は隣接する２つのキャラクター領域間の字間隔を取得し、各行の文字領域における隣接する２つのキャラクター領域間の字間隔がより小さい。

字間隔とは、第２のヒストグラムにおける２つのキャラクター領域間の間隔である。

文字認識モジュール９４０は、隣接する２つのキャラクター領域が第２の情報領域の左側に位置して且つ字間隔が第４閾値より大きい場合に、隣接する２つのキャラクター領域における右側にあるキャラクター領域を現在の行の文字領域における最初の文字領域と認識するように配置される。

単一キャラクター認識モジュール９５０は、隣接する２つのキャラクター領域が第２の情報領域の右側に位置して且つ字間隔が第５閾値より大きい場合に、隣接する２つのキャラクター領域における左側にあるキャラクター領域を現在の行の文字領域における最後のキャラクター領域と認識するように配置される。

以上のように、本実施例により提供される領域抽出装置は、第２のヒストグラムにおける前景色ピクセルの累積値が第２の閾値より大きい列からなる連続列セットにより、隣接する２つのキャラクター領域間の字間隔を認識する。隣接する２つのキャラクター領域が第２の情報領域の左側に位置して且つ字間隔が第４閾値より大きい場合に、隣接する２つのキャラクター領域における右側にあるキャラクター領域を現在の行の文字領域における最初のキャラクター領域に認識する。隣接する２つのキャラクター領域が第２の情報領域の右側に位置して且つ字間隔が第５閾値より大きい場合に、隣接する２つのキャラクター領域における左側にあるキャラクター領域を現在の行の文字領域における最後のキャラクター領域と認識し、字間隔の大きさにより第２の情報領域におけるキャラクター領域を決定し、それにより第２の情報領域における各キャラクター領域を正確に位置決めする。

上記実施例における装置について、そのうち、それぞれのモジュールの操作を実行する具体的な方式は、該方法に関する実施例で詳細に説明したので、ここでは詳しく説明しない。

本発明の例示的な実施例の提供した領域抽出装置は、本発明が提供する領域抽出方法を実現することができ、該領域抽出装置は、プロセッサと、プロセッサにより実行可能なコマンドを記憶するためのメモリとを含む。

そのうち、プロセッサは、
証明書類画像における第１の情報領域の領域位置を取得し、
第１の情報領域の領域位置により第２の情報領域を決定し
第２の情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得るように配置される。

図１０は一例示的な実施例により示された領域抽出方法に適用される装置のブロック図である。例えば、装置１０００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信設備、ゲームコンソール、タブレット型装置、医療設備、フィットネス装置、パーソナルデジタルアシスタントなどである。

図１０を参照して、装置１０００は、処理部材１００２、メモリ１００４、電源部材１００６、マルチメディア部材１００８、オーディオ部材１０１０、入力／出力（Ｉ／Ｏ）インターフェース１０１２、センサー部材１０１４、及び通信部材１０１６のうちの一つ又は複数の部材を含むことができる。

処理部材１００２は、通常、装置１０００の全体的操作、例えば、表示、電話呼び出し、データ通信、カメラ操作及び記録操作に関する操作を制御する。処理部材１００２は、上記方法の全部又は一部のステップを完成するために、コマンドを実行する一つ又は複数のプロセッサ１０１８を含むことができる。さらに、処理部材１００２はその他の部材とのインタラクションが容易であるように、一つ又は複数のモジュールを含むことができる。例えば、処理部材１００２は、マルチメディア部材１００８と処理部材１００２とのインタラクションが容易であるように、マルチメディアモジュールを含むことができる。

メモリ１００４は、装置１０００における操作をサポートするために、さまざまなタイプのデータを記憶するように配置される。これらのデータの実例は、装置１０００において操作される如何なるアプリケーション又は方法のコマンド、連絡先データ、電話帳データ、メッセージ、ピクチャ、ビデオなどを含む。メモリ１００４は如何なるタイプの揮発性又は非揮発性メモリ又はそれらの組合せ、例えばスタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクにより実現することができる。

電源部材１００６は装置１０００のさまざまな部材に対し電力を供給する。電源部材１００６は電源管理システム、一つ又は複数の電源、及びその他の装置１０００に対する電力の生成、管理及び供給に関連する部材を含むことができる。

マルチメディア部材１００８は、装置１０００とユーザーの間の出力インターフェースを提供するスクリーンを含む。一部の実施例において、スクリーンは液晶ディスプレイ（ＬＣＤ）とタッチパネル（ＴＰ）を含むことができる。スクリーンにタッチパネルが含まれる場合、スクリーンはユーザーからの入力信号を受信するために、タッチスクリーンで実現されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルにおけるジェスチャーを感知するために、一つ又は複数のタッチセンサーを含む。タッチセンサーは、タッチ又はスワイプ動作の境界を感知するとともに、タッチ又はスワイプ動作に関わる持続時間及び圧力を検出することができる。一部の実施例において、マルチメディア部材１００８は、フロントカメラ及び／又はバックカメラを含む。装置１０００が操作モードである場合、例えば、撮影モード又はビデオモードである場合、フロントカメラ及び／又はバックカメラは外部のマルチメディアデータを受信することができる。各フロントカメラ及びバックカメラは、固定された光学レンズシステムであってもよく、又は焦点距離と光学ズーム能力を有する。

オーディオ部材１０１０は、オーディオ信号を出力及び／又は入力するように配置される。例えば、オーディオ部材１０１０は、マイクロフォン（ＭＩＣ）を含み、装置１０００が操作モードである場合、例えば、呼び出しモード、記録モード及び音声認識モードである場合、マイクロフォンは外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらにメモリ１００４に記憶され、又は通信部材１０１６を介して送信される。一部の実施例において、オーディオ部材１０１０は、さらにオーディオ信号を出力するスピーカーを含む。

Ｉ／Ｏインターフェース１０１２は、処理部材１００２と周辺インターフェースモジュールとの間にインターフェースを提供し、上記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン及びロックボタンを含むことができるがこれに限定されない。

センサー部材１０１４は、装置１０００に対し各方面の状態評価を提供する一つ又は複数のセンサーを含む。例えば、センサー部材１０１４は、装置１０００のオン／オフ状態、部材の相対的位置決めを検出することができ、前記部材は、例えば、装置１０００のディスプレイ及びキーパッドであり、センサー部材１０１４は、さらに装置１０００又は装置１０００の一つの部材の位置変化、ユーザーと装置１０００との接触の有無、装置１０００の方角又は加速／減速及び装置１０００の温度変化を検出することができる。センサー部材１０１４は、近接センサーを含むことができ、如何なる物理的接触がないとき、近傍物体の存在を検出するように構成される。センサー部材１０１４は、さらにイメージングアプリケーションに用いられる光学センサー、例えば、ＣＭＯＳ又はＣＣＤイメージセンサーを含むことができる。一部の実施例において、該センサー部材１０１４は、さらに加速度センサー、ジャイロセンサー、磁気センサー、圧力センサー又は温度センサーを含むことができる。

通信部材１０１６は、装置１０００とその他の装置との有線又は無線による通信が容易であるように配置される。装置１０００は、通信標準に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇ又は３Ｇ、又はそれらの組合せにアクセスすることができる。一例示的な実施例において、通信部材１０１６は、放送チャネルを介して外部放送管理システムからの放送信号又は放送関連情報を受信する。一例示的な実施例において、通信部材１０１６は、狭域通信を促進するために、さらに近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールにおいて、無線周波数認識（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術及びその他の技術に基づいて実現することができる。

例示的な実施例において、装置１０００は、一つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラー、マイクロコントローラー、マイクロプロセッサ又はその他の電子部品により実現することができ、上記領域抽出方法を実行するのに用いられる。

例示的な実施例において、さらに、コマンドを含む非一時的なコンピュータ可読記憶媒体、例えば、コマンドを含むメモリ１００４を提供し、上記領域抽出方法を完成するために、上記コマンドは装置１０００のプロセッサ１０１８により実行することができる。例えば、非一時的なコンピュータ可読記憶媒体は、ＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ−ＲＯＭ、磁気テープ、フロッピーディスク及び光データ記憶装置などであってもよい。

当業者であれば、明細書を考慮しここに開示された発明を実践した後、本発明のその他の実施態様を容易に想到できる。本願は、本発明の如何なる変形、用途又は適応的変化を含むためのものであり、これらの変形、用途又は適応的変化は本発明の一般的な原理に準じ、本発明の開示されていない本技術分野における公知常識又は慣用の技術手段を含む。明細書と実施例は例示的なものに過ぎず、本発明の実際の範囲と精神は下記特許請求の範囲により与えられる。

理解すべきことは、本発明は既に上記のように説明され、図面に示された正確な構造に限定されず、その範囲を逸脱しない限りにおいて様々な修正や変更を行うことができる。本発明の範囲は特許請求の範囲のみにより限定される。

Claims

証明書類画像における第１の情報領域の領域位置を得ることと、
前記第１の情報領域の領域位置により第２の情報領域を決定することと、
前記第２の情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることと、を含むことを特徴とする領域抽出方法。
前記領域位置は頂点座標で示され、
前記第１の情報領域の領域位置により第２の情報領域を決定することは、
前記第１の情報領域の少なくとも２つの前記頂点座標と所定の相対的な位置関係により、前記第２の情報領域を決定し、前記相対的な位置関係は前記頂点座標と前記第２の情報領域との間の相対的な位置関係であることを含むことを特徴とする請求項１に記載の方法。
前記第１の情報領域は第二代身分証明書における公民身分証明書番号領域であり、前記少なくとも２つの前記頂点座標は前記公民身分証明書番号領域の２つの頂点座標であり、
前記第２の情報領域は前記第二代身分証明書におけるアドレス情報領域であり、
前記第１の情報領域の少なくとも２つの前記頂点座標と所定の相対的な位置関係により、前記第２の情報領域を決定することは、
２つの前記頂点座標における前記アドレス情報領域に最も近接する１つの頂点座標の縦座標により、前記アドレス情報領域の下縁を決定することと、
前記最も近接する１つの頂点座標の前記縦座標と所定の高さにより、前記アドレス情報領域の上縁を決定することと、
前記２つの頂点座標における任意の１つの頂点座標の横座標と第１の所定の幅により、前記アドレス情報領域の左縁を決定することと、
前記２つの頂点座標における任意の１つの頂点座標の横座標と第２の所定の幅により、前記アドレス情報領域の右縁を決定することと、
前記下縁、前記上縁、前記左縁及び前記右縁により前記アドレス情報領域を切り取ることと、を含むことを特徴とする請求項２に記載の方法。
前記第２の情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得ることは、
前記第２の情報領域を２値化し、２値化後の第２の情報領域を得ることと、
前記２値化後の第２の情報領域に対して水平方向により第１のヒストグラムを算出し、前記第１のヒストグラムは各行のピクセルの縦座標と前記各行のピクセルにおける前景色ピクセルの累積値を含むことと、
前記第１のヒストグラムにおける前景色ピクセルの累積値が第１の閾値より大きい行からなる連続行セットにより、ｎ行の文字領域を認識し、ｎが正の整数であることと、
ｉ行目の文字領域に対して、垂直方向により第２のヒストグラムを算出し、前記第２のヒストグラムは各列のピクセルの横座標と前記各列のピクセルにおける前景色ピクセルの累積値を含み、ｎ≧ｉ≧１、ｉが正の整数であることと、
前記第２のヒストグラムにおける前景色ピクセルの累積値が第２の閾値より大きい列からなる連続列セットにより、ｎ_ｉ個のキャラクター領域を認識することと、を含むことを特徴とする請求項１〜３のいずれかに記載の方法。
前記第１のヒストグラムにおける前景色ピクセルの累積値が前記第１の閾値より大きい行からなる連続行セットにより、隣接する２行の前記文字領域間の行間隔を認識することと、
前記行間隔が第３閾値より大きい場合に、前記第２の情報領域の縁により近接する１行の前記文字領域を廃棄し、前記縁が上縁又は下縁であることと、をさらに含むことを特徴とする請求項４に記載の方法。
前記第２のヒストグラムにおける前景色ピクセルの累積値が前記第２の閾値より大きい列からなる連続列セットにより、隣接する２つの前記キャラクター領域間の字間隔を認識することと、
隣接する２つの前記キャラクター領域が前記第２の情報領域の左側に位置して且つ前記字間隔が第４閾値より大きい場合に、隣接する２つの前記キャラクター領域における右側にある前記キャラクター領域を現在の行の文字領域における最初の前記キャラクター領域と認識することと、
隣接する２つの前記キャラクター領域が前記第２の情報領域の右側に位置して且つ前記字間隔が第５閾値より大きい場合に、隣接する２つの前記キャラクター領域における左側にある前記キャラクター領域を現在の行の文字領域における最後の前記キャラクター領域と認識することと、をさらに含むことを特徴とする請求項４に記載の方法。
証明書類画像における第１の情報領域の領域位置を取得するように配置される取得モジュールと、
前記第１の情報領域の領域位置により第２の情報領域を決定するように配置される決定モジュールと、
前記第２の情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得るように配置される認識モジュールと、を含むことを特徴とする領域抽出装置。
前記領域位置は頂点座標で示され、
前記決定モジュールは前記第１の情報領域の少なくとも２つの前記頂点座標と所定の相対的な位置関係により、前記第２の情報領域を決定し、前記相対的な位置関係は前記頂点座標と前記第２の情報領域との間の相対的な位置関係であるように配置されることを特徴とする請求項７に記載の装置。
前記第１の情報領域は、第二代身分証明書における公民身分証明書番号領域であり、
前記少なくとも２つの前記頂点座標は、前記公民身分証明書番号領域の２つの頂点座標であり、
前記第２の情報領域は、前記第二代身分証明書におけるアドレス情報領域であり、
前記決定モジュールは、
２つの前記頂点座標における前記アドレス情報領域に最も近接する１つの頂点座標の縦座標により、前記アドレス情報領域の下縁を決定するように配置される第１の決定サブモジュールと、
前記最も近接する１つの頂点座標の前記縦座標と所定の高さにより、前記アドレス情報領域の上縁を決定するように配置される第２の決定サブモジュールと、
前記２つの頂点座標における任意の１つの頂点座標の横座標と第１の所定の幅により、前記アドレス情報領域の左縁を決定するように配置される第３の決定サブモジュールと、
前記２つの頂点座標における任意の１つの頂点座標の横座標と第２の所定の幅により、前記アドレス情報領域の右縁を決定するように配置される第４の決定サブモジュールと、
前記下縁、前記上縁、前記左縁及び前記右縁により前記アドレス情報領域を切り取るように配置される切り取りサブモジュールと、を含むことを特徴とする請求項８に記載の装置。
前記認識モジュールは、
前記第２の情報領域を２値化し、２値化後の第２の情報領域を得るように配置される２値化サブモジュールと、
前記２値化後の第２の情報領域に対して水平方向により第１のヒストグラムを算出し、前記第１のヒストグラムは各行のピクセルの縦座標と前記各行のピクセルにおける前景色ピクセルの累積値を含むように配置される第１の算出サブモジュールと、
前記第１のヒストグラムにおける前景色ピクセルの累積値が第１の閾値より大きい行からなる連続行セットにより、ｎ行の文字領域を認識し、ｎが正の整数であるように配置される行認識サブモジュールと、
ｉ行目の文字領域に対して、垂直方向により第２のヒストグラムを算出し、前記第２のヒストグラムは各列のピクセルの横座標と前記各列のピクセルにおける前景色ピクセルの累積値を含み、ｎ≧ｉ≧１、ｉが正の整数であるように配置される第２の算出サブモジュールと、
前記第２のヒストグラムにおける前景色ピクセルの累積値が第２の閾値より大きい列からなる連続列セットにより、ｎ_ｉ個のキャラクター領域を認識するように配置されるキャラクター認識サブモジュールと、を含むことを特徴とする請求項７〜９のいずれかに記載の装置。
前記第１のヒストグラムにおける前景色ピクセルの累積値が前記第１の閾値より大きい行からなる連続行セットにより、隣接する２行の前記文字領域間の行間隔を認識するように配置される行間隔認識モジュールと、
前記行間隔が第３閾値より大きい場合に、前記第２の情報領域の縁により近接する１行の前記文字領域を廃棄し、前記縁が上縁又は下縁であるように配置される廃棄モジュールと、を更に含むことを特徴とする請求項１０に記載の装置。
前記第２のヒストグラムにおける前景色ピクセルの累積値が前記第２の閾値より大きい列からなる連続列セットにより、隣接する２つの前記キャラクター領域間の字間隔を認識するように配置される字間隔認識モジュールと、
隣接する２つの前記キャラクター領域が前記第２の情報領域の左側に位置して且つ前記字間隔が第４閾値より大きい場合に、隣接する２つの前記キャラクター領域における右側にある前記キャラクター領域を現在の行の文字領域における最初の前記キャラクター領域と認識するように配置される文字認識モジュールと、
隣接する２つの前記キャラクター領域が前記第２の情報領域の右側に位置して且つ前記字間隔が第５閾値より大きい場合に、隣接する２つの前記キャラクター領域における左側にある前記キャラクター領域を現在の行の文字領域における最後の前記キャラクター領域と認識するように配置される単一キャラクター認識モジュールと、を更に含むことを特徴とする請求項１０に記載の装置。
証明書類画像における第１の情報領域の領域位置を取得し、
前記第１の情報領域の領域位置により第２の情報領域を決定し、
前記第２の情報領域に対して領域切断を行い、少なくとも１つのキャラクター領域を得るように配置されるプロセッサと、
前記プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含むことを特徴とする領域抽出装置。