JP6396605B2 - 領域抽出方法及び装置 - Google Patents

領域抽出方法及び装置 Download PDF

Info

Publication number
JP6396605B2
JP6396605B2 JP2017547045A JP2017547045A JP6396605B2 JP 6396605 B2 JP6396605 B2 JP 6396605B2 JP 2017547045 A JP2017547045 A JP 2017547045A JP 2017547045 A JP2017547045 A JP 2017547045A JP 6396605 B2 JP6396605 B2 JP 6396605B2
Authority
JP
Japan
Prior art keywords
character
information area
region
area
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017547045A
Other languages
English (en)
Other versions
JP2018500704A (ja
Inventor
▲飛▼ ▲龍▼
▲飛▼ ▲龍▼
涛 ▲張▼
涛 ▲張▼
志▲軍▼ ▲陳▼
志▲軍▼ ▲陳▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Publication of JP2018500704A publication Critical patent/JP2018500704A/ja
Application granted granted Critical
Publication of JP6396605B2 publication Critical patent/JP6396605B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Description

本出願は、出願番号がCN201510726272.4であり、出願日が2015年10月30日である中国特許出願に基づいて提出され、且つ該中国特許出願の優先権を主張し、該中国特許出願のすべての内容はここで参考として本出願に援用される。
本発明は画像処理分野に関し、特に領域抽出方法及び装置に関する。
身分証明書の自動認識技術は、画像処理により身分証明書における文字情報を認識する技術である。
関連技術は、身分証明書の自動認識方法を提供しており、身分証明書走査装置が一定の相対位置に従って身分証明書を走査することにより、身分証明書の走査画像を得、走査画像におけるn個の所定領域に対して文字認識を行い、名前情報、性別情報、民族情報、生年月日情報、アドレス情報及び公民身分証明書番号情報中の少なくとも1種を得る。しかしながら、直接的に撮影された身分証明書画像に対して、認識難易度が依然として大きい。
関連技術における問題を解決するために、本発明は領域抽出方法及び装置を提供する。
当該技術案は、以下のとおりである。
本発明の実施例に係る第1の態様では、
証明書類画像における第1の情報領域の領域位置を得ることと、
前記第1の情報領域の領域位置により第2の情報領域を決定することと、
前記第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることと、を含む領域抽出方法を提供している。
好ましい実施例において、
前記領域位置は頂点座標で示され、
前記第1の情報領域の領域位置により第2の情報領域を決定することは、
前記第1の情報領域の少なくとも2つの前記頂点座標と所定の相対的な位置関係により、前記第2の情報領域を決定し、前記相対的な位置関係は前記頂点座標と前記第2の情報領域との間の相対的な位置関係であることを含む。
好ましい実施例において、前記第1の情報領域は、第二代身分証明書における公民身分証明書番号領域であり、
前記少なくとも2つの前記頂点座標は、前記公民身分証明書番号領域の2つの頂点座標であり、
前記第2の情報領域は、前記第二代身分証明書におけるアドレス情報領域であり、
前記第1の情報領域の少なくとも2つの前記頂点座標と所定の相対的な位置関係により、前記第2の情報領域を決定することは、
2つの前記頂点座標における前記アドレス情報領域に最も近接する1つの頂点座標の縦座標により、前記アドレス情報領域の下縁を決定することと、
前記最も近接する1つの頂点座標の前記縦座標と所定の高さにより、前記アドレス情報領域の上縁を決定することと、
前記2つの頂点座標における任意の1つの頂点座標の横座標と第1の所定の幅により、前記アドレス情報領域の左縁を決定することと、
前記2つの頂点座標における任意の1つの頂点座標の横座標と第2の所定の幅により、前記アドレス情報領域の右縁を決定することと、
前記下縁、前記上縁、前記左縁及び前記右縁により前記アドレス情報領域を切り取ることと、を含む。
好ましい実施例において、前記第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることは、
前記第2の情報領域を2値化し、2値化後の第2の情報領域を得ることと、
前記2値化後の第2の情報領域に対して水平方向により第1のヒストグラムを算出し、前記第1のヒストグラムは各行のピクセルの縦座標と前記各行のピクセルにおける前景色ピクセルの累積値を含むことと、
前記第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットにより、n行の文字領域を認識し、nが正の整数であることと、
i行目の文字領域に対して、垂直方向により第2のヒストグラムを算出し、前記第2のヒストグラムは各列のピクセルの横座標と前記各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正の整数であることと、
前記第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットにより、n個のキャラクター領域を認識することと、を含む。
好ましい実施例において、当該方法は、
前記第1のヒストグラムにおける前景色ピクセルの累積値が前記第1の閾値より大きい行からなる連続行セットにより、隣接する2行の前記文字領域間の行間隔を認識することと、
前記行間隔が第3閾値より大きい場合に、前記第2の情報領域の縁により近接する1行の前記文字領域を廃棄し、前記縁が上縁又は下縁であることと、をさらに含む。
好ましい実施例において、当該方法は、
前記第2のヒストグラムにおける前景色ピクセルの累積値が前記第2の閾値より大きい列からなる連続列セットにより、隣接する2つの前記キャラクター領域間の字間隔を認識することと、
隣接する2つの前記キャラクター領域が前記第2の情報領域の左側に位置して且つ前記字間隔が第4閾値より大きい場合に、隣接する2つの前記キャラクター領域における右側にある前記キャラクター領域を現在の行の文字領域における最初の前記キャラクター領域と認識することと、
隣接する2つの前記キャラクター領域が前記第2の情報領域の右側に位置して且つ前記字間隔が第5閾値より大きい場合に、隣接する2つの前記キャラクター領域における左側にある前記キャラクター領域を現在の行の文字領域における最後の前記キャラクター領域と認識することと、をさらに含む。
本発明の実施例に係る第2の態様では、
証明書類画像における第1の情報領域の領域位置を取得するように配置される取得モジュールと、
前記第1の情報領域の領域位置により第2の情報領域を決定するように配置される決定モジュールと、
前記第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置される認識モジュールと、を含む領域抽出装置を提供している。
好ましい実施例において、
前記領域位置は頂点座標で示され、
前記決定モジュールは前記第1の情報領域の少なくとも2つの前記頂点座標と所定の相対的な位置関係により、前記第2の情報領域を決定し、前記相対的な位置関係は前記頂点座標と前記第2の情報領域との間の相対的な位置関係であるように配置される。
好ましい実施例において、
前記第1の情報領域は、第二代身分証明書における公民身分証明書番号領域であり、
前記少なくとも2つの前記頂点座標は、前記公民身分証明書番号領域の2つの頂点座標であり、
前記第2の情報領域は、前記第二代身分証明書におけるアドレス情報領域であり、
前記決定モジュールは、
2つの前記頂点座標における前記アドレス情報領域に最も近接する1つの頂点座標の縦座標により、前記アドレス情報領域の下縁を決定するように配置される第1の決定サブモジュールと、
前記最も近接する1つの頂点座標の前記縦座標と所定の高さにより、前記アドレス情報領域の上縁を決定するように配置される第2の決定サブモジュールと、
前記2つの頂点座標における任意の1つの頂点座標の横座標と第1の所定の幅により、前記アドレス情報領域の左縁を決定するように配置される第3の決定サブモジュールと、
前記2つの頂点座標における任意の1つの頂点座標の横座標と第2の所定の幅により、前記アドレス情報領域の右縁を決定するように配置される第4の決定サブモジュールと、
前記下縁、前記上縁、前記左縁及び前記右縁により前記アドレス情報領域を切り取るように配置される切り取りサブモジュールと、を含む。
好ましい実施例において、前記認識モジュールは、
前記第2の情報領域を2値化し、2値化後の第2の情報領域を得るように配置される2値化サブモジュールと、
前記2値化後の第2の情報領域に対して水平方向により第1のヒストグラムを算出し、前記第1のヒストグラムは各行のピクセルの縦座標と前記各行のピクセルにおける前景色ピクセルの累積値を含むように配置される第1の算出サブモジュールと、
前記第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットにより、n行の文字領域を認識し、nが正の整数であるように配置される行認識サブモジュールと、
i行目の文字領域に対して、垂直方向により第2のヒストグラムを算出し、前記第2のヒストグラムは各列のピクセルの横座標と前記各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正の整数であるように配置される第2の算出サブモジュールと、
前記第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットにより、n個のキャラクター領域を認識するように配置されるキャラクター認識サブモジュールと、を含む。
好ましい実施例において、当該装置は、
前記第1のヒストグラムにおける前景色ピクセルの累積値が前記第1の閾値より大きい行からなる連続行セットにより、隣接する2行の前記文字領域間の行間隔を認識するように配置される行間隔認識モジュールと、
前記行間隔が第3閾値より大きい場合に、前記第2の情報領域の縁により近接する1行の前記文字領域を廃棄し、前記縁が上縁又は下縁であるように配置される廃棄モジュールと、を更に含む。
好ましい実施例において、当該装置は、
前記第2のヒストグラムにおける前景色ピクセルの累積値が前記第2の閾値より大きい列からなる連続列セットにより、隣接する2つの前記キャラクター領域間の字間隔を認識するように配置される字間隔認識モジュールと、
隣接する2つの前記キャラクター領域が前記第2の情報領域の左側に位置して且つ前記字間隔が第4閾値より大きい場合に、隣接する2つの前記キャラクター領域における右側にある前記キャラクター領域を現在の行の文字領域における最初の前記キャラクター領域と認識するように配置される文字認識モジュールと、
隣接する2つの前記キャラクター領域が前記第2の情報領域の右側に位置して且つ前記字間隔が第5閾値より大きい場合に、隣接する2つの前記キャラクター領域における左側にある前記キャラクター領域を現在の行の文字領域における最後の前記キャラクター領域と認識するように配置される単一キャラクター認識モジュールと、を更に含む。
本発明の実施例に係る第3の態様では、
証明書類画像における第1の情報領域の領域位置を取得し、
前記第1の情報領域の領域位置により第2の情報領域を決定し、
前記第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置されるプロセッサと、
前記プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含む領域抽出装置を提供している。
本発明の実施例に係る技術案は以下の有益な効果を含む。
証明書類画像における第1の情報領域の領域位置を取得し、第1の情報領域の領域位置により第2の情報領域を決定して、第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることで、関連技術における直接的に撮影した証明書類画像におけるある情報領域に対する認識難易度が大きく、且つある情報領域に対し正確に位置決めを行うことができない問題を解決し、証明書類画像における第1の情報領域の領域位置により第2の情報領域を決定し、第2の情報領域を切断し、それにより第2の情報領域を正確に位置決めするとともに第2の情報領域におけるキャラクター領域を正確に認識する効果を達成する。
以上の一般的な説明及び後述する詳細は例示的なものに過ぎず、本発明を制限するためのものではない。
ここの図面は明細書に組み込まれて本明細書の一部を構成し、本発明に適合する実施例を示し、明細書と共に本発明の原理を解釈するのに用いられる。
例示的な実施例で示す領域抽出方法のフローチャートである。 別の例示的な実施例で示す領域抽出方法のフローチャートである。 別の例示的な実施例で示す領域抽出方法のフローチャートである。 例示的な実施例で示すアドレス情報領域の下縁を決定する模式図である。 例示的な実施例で示すアドレス情報領域の上縁を決定する模式図である。 例示的な実施例で示すアドレス情報領域の左縁を決定する模式図である。 例示的な実施例で示すアドレス情報領域の右縁を決定する模式図である。 例示的な実施例で示すアドレス情報領域を決定する模式図である。 別の例示的な実施例で示す領域抽出方法のフローチャートである。 例示的な実施例で示す第2の情報領域を2値化した模式図である。 例示的な実施例で示す水平方向により第1のヒストグラムを算出する模式図である。 例示的な実施例で示す連続行セットの模式図である。 例示的な実施例で示す垂直方向により第2のヒストグラムを算出する模式図である。 例示的な実施例で示す連続列セットの模式図である。 別の例示的な実施例で示す領域抽出方法のフローチャートである。 例示的な実施例で示す隣接する2行の文字領域間の行間隔の模式図である。 別の例示的な実施例で示す領域抽出方法のフローチャートである。 例示的な実施例で示す隣接する2つのキャラクター領域間のキャラクター間隔の模式図である。 例示的な実施例で示す領域抽出装置のブロック図である。 別の例示的な実施例で示す領域抽出装置のブロック図である。 別の例示的な実施例で示す領域抽出装置のブロック図である。 他の例示的な実施例で示す領域抽出装置のブロック図である。 例示的な実施例で示す領域抽出装置のブロック図である。
ここで例示的な実施例について詳しく説明し、その実施例は図面に示す通りである。下記の説明が図面に関わるとき、別途に表示されない限り、異なる図面における同じ数字は同じ又は類似する要素を示す。以下の例示的な実施例に説明される実施形態は本発明と一致する全ての実施形態を表すわけではない。逆に、それらは特許請求の範囲に詳細に記載された本発明の一部の態様と一致する装置と方法の例に過ぎない。
図1は例示的な実施例で示す領域抽出方法のフローチャートであり、図1に示すように、該領域抽出方法は以下のステップを含む。
ステップ101において、証明書類画像における第1の情報領域の領域位置を取得する。
証明書類画像は、証明書類を直接撮影した画像であり、例えば、身分証明書画像または社会保障カードの画像等が挙げられる。
第1の情報領域は、証明書類画像において文字情報がある領域を指し、例えば、名前情報領域、出生日情報領域、性別領域、アドレス情報領域、公民身分証明書番号情報領域、番号情報領域、証明書発行機関情報領域および有効期限情報領域等の情報領域中の少なくとも1種である。
ステップ102において、第1の情報領域の領域位置により第2の情報領域を決定する。
好ましくは、第1の情報領域の位置決め難易度が第2の情報領域の位置決め難易度より低い。
ステップ103において、第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得る。
以上のように、本発明の実施例の提供した領域抽出方法は、証明書類画像における第1の情報領域の領域位置を取得し、第1の情報領域の領域位置により第2の情報領域を決定し、第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることで、関連技術における直接的に撮影した証明書類画像におけるある情報領域に対する認識難易度が大きく、且つある情報領域に対し正確に位置決めを行うことができない問題を解決し、証明書類画像における第1の情報領域の領域位置により第2の情報領域を決定し、第2の情報領域を切断し、それにより第2の情報領域を正確に位置決めするとともに第2の情報領域におけるキャラクター領域を正確に認識する効果を達成する。
図2Aは別の例示的な実施例で示す領域抽出方法のフローチャートであり、図2Aに示すように、該領域抽出方法は以下のステップを含む。
ステップ201において、証明書類画像における第1の情報領域の領域位置を取得し、領域位置は頂点座標で示される。
証明書類画像は証明書類を直接的に撮影した画像であり、例えば、身分証明書画像、社会保障カードの画像等が挙げられる。好ましくは、証明書類画像を撮影する場合に、撮影インターフェースにおいて撮影をガイドするための矩形領域が設置され、ユーザーは矩形領域と証明書類とを位置合わせするときに、証明書類画像を撮影する。
端末は証明書類画像における第1の情報領域の領域位置を取得し、第1の情報領域の領域位置により該第1の領域位置における各頂点の頂点座標を取得する。又は,領域位置は頂点座標で示される。
例えば、証明書類画像の左上角を原点、上縁を横座標xの正軸、左縁を縦座標yの正軸として直交座標系を確立し、第1の情報領域の各頂点の直交座標系での位置に基づいて、各頂点に対応する頂点座標を取得し、頂点座標で該第1の情報領域の領域位置を示す。
ステップ202において、第1の情報領域の少なくとも2つの頂点座標と所定の相対的な位置関係により、第2の情報領域を決定し、相対的な位置関係は頂点座標と第2の情報領域との間の相対的な位置関係である。
所定の相対的な位置関係は、第1の情報領域の頂点座標と第2の情報領域の上縁、下縁、左縁及び右縁との間の相対位置を意味する。
端末は第1の情報領域で取得された少なくとも2つの頂点座標と所定の相対的な位置関係により第2の情報領域の領域位置を決定することができる。
好ましくは、第1の情報領域は4つの頂点を含み、第1の情報領域における4つの頂点のうち、どの2つの頂点を頂点座標とするかについては限定されない。好ましくは、第1の情報領域における2つの頂点座標間の距離が大きいほど、決定した第2の情報領域に出現した誤差が小さくなる。
ステップ203において、第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得る。
第2の情報領域の領域位置を決定した後、第2の情報領域に対し領域切断を行う。領域切断をした後、第2の情報領域は少なくとも1つのキャラクター領域に切断される。キャラクター領域は単一キャラクターを含む画像領域である。
以上のように、本発明の実施例の提供した領域抽出方法は、証明書類画像における第1の情報領域の領域位置を取得し、第1の情報領域の少なくとも2つの頂点座標と所定の相対的な位置関係により、第2の情報領域を決定し、相対的な位置関係は頂点座標と第2の情報領域との間の相対的な位置関係であり、第2の情報領域に対して領域切断を行い、少なくとも1つの文字領域を得ることで、身分証明書の自動認識方法が直接的に撮影した証明書類画像における身分証明書情報に対する認識難易度が大きく、且つ身分証明書情報に対し正確に位置決めを行うことができない問題を解決し、証明書類画像における第1の情報領域の領域位置により第2の情報領域を決定し、第2の情報領域を切断し、それにより第2の情報領域を正確に位置決めするとともに第2の情報領域におけるキャラクター領域を正確に認識する効果を達成する。
図2Aに示す選択可能な実施例において、第1の情報領域は第二代身分証明書における公民身分証明書番号領域であり、少なくとも2つの頂点座標は公民身分証明書番号領域の左上頂点と右上頂点の2つの頂点座標であり、第2の情報領域は第二代身分証明書におけるアドレス情報領域である。ステップ202を以下のステップ202a〜202eに替えることができ、図2Bに示す。
ステップ202aにおいて、2つの頂点座標におけるアドレス情報領域に最も近接する1つの頂点座標の縦座標により、アドレス情報領域の下縁を決定する。
公民身分証明書番号領域とアドレス情報領域との間の所定の相対的な位置関係から明らかなように、アドレス情報領域は公民身分証明書番号領域の上方にある。そのため、直交座標系の確立方式から分かるように、2つの頂点座標における頂点が高いほど縦座標が小さくなり、アドレス情報領域に近接するので、取得した2つの頂点座標におけるより高い頂点の縦座標の所在する横直線をアドレス情報領域の下縁として、図2Cに示すように、公民身分証明書番号領域の最初の数字3の縦座標の所在する横直線をアドレス情報領域の下縁m1とする。
ステップ202bにおいて、最も近接する1つの頂点座標の縦座標と所定の高さにより、アドレス情報領域の上縁を決定する。
アドレス情報領域に最も近接する1つの頂点座標の縦座標を決定した後、該頂点座標の縦座標を開始位置として、所定の高さの距離で上方に平行移動させ、所定の高さで平行移動した後の縦座標の所在する横直線をアドレス情報領域の上縁とする。
好ましくは、該所定の高さは広い高さであり、所定の高さで平行移動した領域がアドレス情報領域を被覆すればよく、図2Dに示すように、公民身分証明書番号領域の最初の数字3の縦座標を開始位置として、上方にh(高さ)で平行移動した後、h(高さ)に対応する縦座標の所在する横直線をアドレス情報領域の上縁m2とする。
ステップ202cにおいて、2つの頂点座標における任意の1つの頂点座標の横座標と第1の所定の幅により、アドレス情報領域の左縁を決定する。
2つの頂点座標における任意の1つの頂点座標の横座標を左へ第1の所定の幅で平行移動し、該頂点座標を平行移動した後の横座標の所在する垂直線をアドレス情報領域の左縁として、図2Eに示すように、公民身分証明書番号領域の最初の数字3の横座標を開始位置として、左へr*w(幅)で平行移動した後、r*w(幅)に対応する横座標の所在する垂直線をアドレス情報領域の左縁m3とし、そのうち、rがパーセンテージであり、wが公民身分証明書番号領域の長さである。
好ましくは、異なる頂点座標の横座標に対応する第1の所定の幅が異なり、即ち異なる頂点座標の横座標を利用して左へ平行移動する第1の所定の幅が異なる。
好ましくは、第1の所定の幅が公民身分証明書番号領域の長さのパーセンテージである。
ステップ202dにおいて、2つの頂点座標における任意の1つの頂点座標の横座標と第2の所定の幅により、アドレス情報領域の右縁を決定する。
2つの頂点座標における任意の1つの頂点座標の横座標を第2の所定の幅で平行移動し、該頂点座標を平行移動した後の横座標の所在する垂直線をアドレス情報領域の右縁として、図2Fに示すように、公民身分証明書番号領域の最後の数字4の横座標を開始位置として、左へd(幅)で平行移動した後に、d(幅)に対応する横座標の所在する垂直線をアドレス情報領域の右縁m4とする。
好ましくは、異なる頂点座標の横座標に対応する第2の所定の幅が異なり、即ち異なる頂点座標の横座標を利用して平行移動する第2の所定の幅が異なり、同時に、アドレス情報領域の右縁を決定する場合に、一部分の頂点座標の横座標が左へ平行移動する必要があり、一部分の頂点座標の横座標が右へ平行移動する必要がり、異なる頂点座標の横座標の平行移動する方向が異なる。この部分の内容がいずれも上記相対的な位置関係により定義される。
好ましくは、第2の所定の幅が公民身分証明書番号領域の長さのパーセンテージである。
ステップ202eにおいて、下縁、上縁、左縁及び右縁によりアドレス情報領域を切り取る。
ステップ202a〜ステップ202dにおいて決定されたアドレス情報領域の下縁、上縁、左縁及び右縁によりアドレス情報領域を切り取り、図2Gに示す。
以上のように、本実施例が提供する領域抽出方法は、第1の情報領域における2つの頂点座標と所定の相対的な位置関係により、第2の情報領域の上縁、下縁、左縁及び右縁をそれぞれ決定し、それにより第2の情報領域のおおよその位置を切り取ることができ、第2の情報領域における文字切断際の正確な位置決めに有利である。
なお、図2B実施例において、ステップ201で第二代身分証明書画像における公民身分証明書番号領域の領域位置を取得する実現方式に対して、第二代身分証明書画像における公民身分証明書番号領域のフォーマットが相対的に固定されたものであり、関連技術の取得方法は比較的に公知であるので、本実施例においてさらに説明しない。例示的な方式として、第二代身分証明書画像におけるhaar特徴又はその他の特徴を抽出することにより、抽出した特徴をAdaboost又はSVM(Support Vector Machine、サポートベクターマシン)に入力して訓練し、訓練モデルを取得し、訓練モデルを利用して認識しようとする第二代身份証明書画像における公民身分証明書番号領域を認識し、それにより公民身分証明書番号領域の領域位置を決定する。
図2Aに示す選択可能な実施例において、ステップ203を以下のステップ203a〜203eに替えることができ、図3Aに示すように、
ステップ203aにおいて、第2の情報領域を2値化し、2値化後の第2の情報領域を得る。
好ましくは、ステップ202で決定した第2の情報領域により、該第2の情報領域をプリ処理し、プリ処理後の第2の情報領域を2値化する。そのうち、プリ処理は、ノイズ除去、フィルタリング、縁抽出等の操作を含むことができる。
2値化とは、第2の情報領域におけるピクセルのグレー値と予め設定されたグレー閾値を比較し、第2の情報領域におけるピクセルを、予め設定されたグレー閾値より大きい画素群と予め設定されたグレー閾値より小さい画素群という2つの部分に分けて、2つの部分の画素群に第2の情報領域においてそれぞれ黒と白という2種の異なる色を呈させ、2値化後の第2の情報領域を得、図3Bに示すことである。そのうち、前景に位置する1種の色のピクセルが前景色ピクセルと称され、即ち、図3Bにおける白色ピクセルであり、背景に位置する1種の色のピクセルが背景色ピクセルと称され、即ち、図3Bにおける黒色ピクセルである。
ステップ203bにおいて、2値化後の第2の情報領域に対して水平方向により第1のヒストグラムを算出し、第1のヒストグラムは、各行のピクセルの縦座標と各行のピクセルにおける前景色ピクセルの累積値を含む。
2値化後の第2の情報領域は水平方向により第1のヒストグラムを算出し、該第1のヒストグラムは垂直方向で各行のピクセルの縦座標を示し、水平方向で各行のピクセルにおける前景色ピクセルの個数累積値を示し、図3Cに示す。
ステップ203cにおいて、第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットにより、n行の文字領域を認識し、nが正の整数である。
第1のヒストグラムにより、各行のピクセルにおける前景色ピクセルの累積値を取得し、各行のピクセルにおける前景色ピクセルの累積値と第1の閾値を比較し、第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットを、文字領域の所在する行として決定することができる。
連続行セットとは、前景色ピクセルの累積値が第1の閾値より大きい行が連続的なm行であり、該連続的なm行のピクセルにより構成されるセットであり、図3Dに示すように、図におけるm行のピクセルに対して、左側ヒストグラムにある前景色ピクセルの累積値がいずれも第1の閾値より大きい。該m行のピクセルは証明書類画像において文字領域「村大東王126号」に対応する。
各連続行セットを1行の文字領域として認識し、n個の連続行セットをn行の文字領域として認識する。
ステップ203dにおいて、i行目の文字領域に対して、垂直方向により第2のヒストグラムを算出し、第2のヒストグラムは、各列のピクセルの横座標と各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正の整数である。
n行の文字領域を決定した後に、垂直方向により第2のヒストグラムを算出し、該第2のヒストグラムは水平方向で各列のピクセルの横座標を示し、垂直方向で各列のピクセルにおける前景色ピクセルの個数累積値を示し、図3Eに示す。
ステップ203eにおいて、第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットにより、n個の文字領域を認識する。
第2のヒストグラムにより、各列のピクセルにおける前景色ピクセルの累積値を取得し、各列のピクセルにおける前景色ピクセルの累積値と第2の閾値を比較し、第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットを、キャラクター領域の所在する列として決定することができる。
連続列セットとは、前景色ピクセルの累積値が第2の閾値より大きい列が連続的なp列であり、該連続的なp列のピクセルにより構成されるセットであり、図3Fに示すように、連続列セットはpであり、即ち第2のヒストグラムに形成された連続的な白色領域である。図におけるp列のピクセルに対して、下側に位置するヒストグラムにおける前景色ピクセルの累積値がいずれも第2の閾値より大きい。該p列のピクセルは証明書類画像において文字領域「浙」に対応する。
各連続列セットを1つのキャラクター領域として認識し、n個の連続列セットをn個のキャラクター領域として認識する。
以上のように、本実施例により提供される領域抽出方法は、第2の情報領域を2値化して、2値化後の第2の情報領域に対して水平方向により第1のヒストグラムを算出し、第2の情報領域におけるn行の文字領域を決定し、更にそれぞれn行の文字領域に対して垂直方向により第2のヒストグラムを算出し、各文字に対応するキャラクター領域を認識する。まず文字領域の所在する行を決定し、次に文字領域の所在する行により各行の文字領域におけるキャラクター領域を決定することにより、第2の情報領域におけるキャラクター領域の位置決めをより正確にする。
図3Aに示す実施例において、第1の情報領域の領域位置と所定の相対的な位置関係により第2の情報領域を決定する過程において、誤差が発生する可能性があり、非第2の情報領域の文字又はノイズを第2の情報領域の領域範囲に分けるので、行間隔により非第2の情報領域の文字領域を廃棄することができ、以下の実施例を参照する。
図3Aに示す選択可能な実施例において、ステップ203cの後、以下のステップを更に含むことができ、図4Aに示す。
ステップ401において、第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットにより、隣接する2行の文字領域間の行間隔を認識する。
なお、アドレス情報領域は一般的に1〜3行の文字領域を含み、該1〜3行の文字領域はより短い行間隔を有する。同時に、該1〜3行の文字領域とその他の情報領域における文字領域はより大きい行間隔を有する。本ステップは行間隔の特徴により、非第2の情報領域の文字領域を廃棄する。
ステップ203cで認識したn行の文字領域に対して、隣接する2行の文字領域間の行間隔を取得する。行間隔とは、第1のヒストグラムにおける2行の文字領域間の間隔であり、図4Bに示すように、1行の文字領域と隣接する行の文字領域との間の行間隔はh1である。
ステップ402において、行間隔が第3閾値より大きい場合に、第2の情報領域の縁により近接する1行の文字領域を廃棄し、縁が上縁又は下縁である。
第1のヒストグラムにより、下から上へ文字領域を検索し、検索した最初の隣接する2行の文字領域の行間隔が第3閾値より大きい場合に、直下行の文字領域を廃棄し、上へ検索し続け、再び隣接する2行の文字領域の行間隔が第3閾値より大きいと検索した場合に、検索を終了し、且つ直上行の文字領域を廃棄する。また、残りの文字領域が第2の情報領域に属すると決定する。
検索した最初の隣接する2行の文字領域の行間隔が第3閾値より小さい場合に、該2行の文字領域がいずれも第2の情報領域に属すると決定する。上へ検索し続け、隣接する2行の文字領域の行間隔が第3閾値より大きいと検索するまで、直上行の文字領域を廃棄し、且つ検索を終了する。又は、上へ検索し続け、隣接する2行の文字領域の行間隔が第3閾値より大きいと検索しない場合に、検索を終了する。
好ましくは、第1のヒストグラムにより、上から下へ文字領域を検索し、検索した最初の隣接する2行の文字領域の行間隔が第3閾値より大きい場合に、直上行の文字領域を廃棄し、上へ検索し続け、隣接する2行の文字領域の行間隔が第3閾値より大きいことをさらに検索した場合に、検索を終了し、且つ直下行の文字領域を廃棄する。また、残りの文字領域が第2の情報領域に属すると決定する。
検索した最初の隣接する2行の文字領域の行間隔が第3閾値より小さい場合に、該2行の文字領域がいずれも第2の情報領域に属すると決定し、下へ検索し続け、隣接する2行の文字領域の行間隔が第3閾値より大きいと検索するまで、直下行の文字領域を廃棄し、且つ検索を終了する。又は、下へ検索し続け、隣接する2行の文字領域の行間隔が第3閾値より大きいと検索しない場合に、検索を終了する。
以上のように、本実施例により提供される領域抽出方法は、第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値よりも大きい行からなる連続行セットにより、隣接する2行の文字領域間の行間隔を認識する。行間隔が第3閾値より大きい場合に、第2の情報領域の縁により近接する1行の文字領域を廃棄し、縁が上縁又は下縁である。行間隔の大きさにより第2の情報領域における行の文字領域を決定し、それにより第2の情報領域をより正確に位置決めする。
図3Aに示す実施例において、第2の情報領域の左縁及び右縁への決定過程において、誤差が発生する可能性があり、非第2の情報領域のキャラクター領域を第2の情報領域的範囲に分けるので、字間隔により非第2の情報領域のキャラクター領域を廃棄し、以下の実施例を参照する。
図4Aに示す選択可能な実施例において、ステップ203eの後、以下のステップを更に含むことができ、図5Aに示す。
ステップ501において、第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットにより、隣接する2つのキャラクター領域間の字間隔を認識する。
ステップ203eで認識したn個のキャラクター領域により、隣接する2つのキャラクター領域間の字間隔を取得し、各行の文字領域における隣接する2つのキャラクター領域間の字間隔がより小さい。
字間隔とは第2のヒストグラムにおける2つのキャラクター領域間の間隔であり、図5Bに示すように、字と字との間の字間隔がh2である。
ステップ502において、隣接する2つのキャラクター領域が第2の情報領域の左側に位置して且つ字間隔が第4閾値より大きい場合に、隣接する2つのキャラクター領域における右側にあるキャラクター領域を現在の行の文字領域における最初のキャラクター領域と認識する。
現在の文字領域の中間のあるキャラクターを開始位置として、開始位置から左へ検索し始め、最初の隣接する2つのキャラクター領域間の字間隔が第4閾値より大きいと検索した場合に、隣接する2つのキャラクター領域における左側にあるキャラクター領域(該字間隔の左側にある全部のキャラクター領域)を廃棄し、隣接する2つのキャラクター領域における右側にあるキャラクター領域を現在の行の文字領域における最初のキャラクター領域と認識する。最初のキャラクター領域を認識した後、更に最初のキャラクター領域の位置により右へ検索し始め、隣接する2つのキャラクター領域間の字間隔が第4閾値より大きいと検索するまで、検索を終了する。
最初の隣接する2つのキャラクター領域間の字間隔が第4閾値より小さいと検索した場合に、隣接する2つのキャラクター領域をいずれも現在の行の文字領域に属するキャラクター領域と決定する。
ステップ503において、隣接する2つのキャラクター領域が第2の情報領域の右側に位置して且つ字間隔が第5閾値より大きい場合に、隣接する2つのキャラクター領域における左側にあるキャラクター領域を現在の行の文字領域における最後のキャラクター領域と認識する。
現在の文字領域の中間のあるキャラクターを開始位置として、開始位置から右へ検索し始め、最初の隣接する2つのキャラクター領域間の字間隔が第5閾値より大きいと検索した場合に、隣接する2つのキャラクター領域における右側にあるキャラクター領域(該字間隔の右側にある全部のキャラクター領域)を廃棄し、隣接する2つのキャラクター領域における左側にあるキャラクター領域を現在の行の文字領域における最後のキャラクター領域と認識する。最後のキャラクター領域を認識した後、更に最後のキャラクター領域の位置により左へ検索し始め、隣接する2つのキャラクター領域間の字間隔が第5閾値より大きいと検索するまで、検索を終了する。
最初の隣接する2つのキャラクター領域間の字間隔が第5閾値より小さいと検索した場合に、隣接する2つのキャラクター領域をいずれも現在の行の文字領域に属するキャラクター領域と決定する。
以上のように、本実施例により提供される領域抽出方法は、第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットにより、隣接する2つのキャラクター領域間の字間隔を認識する。隣接する2つのキャラクター領域が第2の情報領域の左側に位置して且つ字間隔が第4閾値より大きい場合に、隣接する2つのキャラクター領域における右側にあるキャラクター領域を現在の行の文字領域における最初の文字領域と認識し、隣接する2つのキャラクター領域が第2の情報領域の右側に位置して且つ字間隔が第5閾値より大きい場合に、隣接する2つのキャラクター領域における左側にあるキャラクター領域を現在の行の文字領域における最後のキャラクター領域と認識する。字間隔の大きさにより第2の情報領域におけるキャラクター領域を決定し、それにより第2の情報領域における各キャラクター領域を正確に位置決めする。
なお、図1に示す実施例、図2Aに示す実施例、図2Bに示す実施例、図3Aに示す実施例、図4Aに示す実施例及び図5Aに示す実施例において、キャラクター領域を認識した後、従来のキャラクター認識アルゴリズムによりキャラクター領域を更に処理し、キャラクター領域におけるキャラクターを認識する。
なお、上記方法の実施例に関する身分証明書画像は本発明における模式的な例示説明であり、実際の身分証明書画像ではない。
以下は本発明の装置の実施例であり、本発明の方法の実施例の実施に使用することができる。本発明の装置の実施例で開示されていない詳細は、本発明の方法の実施例を参照する。
図6は例示的な実施例で示す領域抽出装置のブロック図であり、図6に示すように、該領域抽出装置は以下を備えるが、これらに限定されない。
取得モジュール610は、証明書類画像における第1の情報領域の領域位置を取得するように配置される。
証明書類画像は証明書類を直接的に撮影した画像であり、例えば、身分証明書画像、社会保障カードの画像等が挙げられる。
第1の情報領域は、証明書類画像において文字情報がある領域を指し、例えば、名前情報領域、生年月日情報領域、性別領域、アドレス情報領域、公民身分証明書番号情報領域、番号情報領域、証明書発行機関情報領域および有効期限情報領域等の情報領域の少なくとも1種である。
決定モジュール620は、第1の情報領域の領域位置により第2の情報領域を決定するように配置される。
認識モジュール630は、第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置される。
以上のように、本発明の実施例により提供される領域抽出装置は、証明書類画像における第1の情報領域の領域位置を取得し、第1の情報領域の領域位置により第2の情報領域を決定し、第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることで、関連技術における直接的に撮影した証明書類画像におけるある情報領域に対する認識難易度が大きく、且つある情報領域に対し正確に位置決めを行うことができない問題を解決し、証明書類画像における第1の情報領域の領域位置により第2の情報領域を決定し、第2の情報領域を切断し、それにより第2の情報領域を正確に位置決めするとともに第2の情報領域におけるキャラクター領域を正確に認識する効果を達成する。
図7は別の例示的な実施例で示す領域抽出装置のブロック図であり、図7に示すように、該領域抽出装置は、以下を備えるが、これらに限定されない。
取得モジュール610は、証明書類画像における第1の情報領域の領域位置を取得するように配置される。
証明書類画像は証明書類を直接的に撮影した画像であり、例えば、身分証明書画像、社会保障カードの画像等が挙げられる。
取得モジュール610は証明書類画像における第1の情報領域の領域位置を取得する場合に、第1の情報領域の領域位置により該第1の領域位置における各頂点の頂点座標を取得する。又は、領域位置は頂点座標で示される。
例えば、証明書類画像の左上角を原点、上縁を横座標xの正軸、左縁を縦座標yの正軸として直交座標系を確立し、第1の情報領域の各頂点の直交座標系での位置に基づいて、各頂点に対応する頂点座標を取得し、頂点座標で該第1の情報領域の領域位置を示す。
決定モジュール620は、第1の情報領域の領域位置により第2の情報領域を決定するように配置される。
決定モジュール620は、更に第1の情報領域の少なくとも2つの頂点座標と所定の相対的な位置関係により、第2の情報領域を決定し、相対的な位置関係は頂点座標と第2の情報領域との間の相対的な位置関係であるように配置される。
所定の相対的な位置関係は、第1の情報領域の頂点座標と第2の情報領域の上縁、下縁、左縁及び右縁との間の相対位置を意味する。
決定モジュール620は第1の情報領域で取得された少なくとも2つの頂点座標と所定の相対的な位置関係により第2の情報領域の領域位置を決定することができる。
本実施例において、決定モジュール620は以下の複数のサブモジュールを含むことができる。
第1の決定サブモジュール621は、2つの頂点座標におけるアドレス情報領域に最も近接する1つの頂点座標の縦座標により、アドレス情報領域の下縁を決定するように配置される。
公民身分証明書番号領域とアドレス情報領域との間の所定の相対的な位置関係から明らかなように、アドレス情報領域は公民身分証明書番号領域の上方にある。このため、直交座標系の確立方式から分かるように、2つの頂点座標における頂点が高いほど縦座標が小さくなり、アドレス情報領域に近くなり、このため、第1の決定サブモジュール621は取得された2つの頂点座標におけるより高い頂点の縦座標の所在する横直線をアドレス情報領域の下縁とする。
第2の決定サブモジュール622は、最も近接する1つの頂点座標の縦座標と所定の高さにより、アドレス情報領域の上縁を決定するように配置される。
第1の決定サブモジュール621によりアドレス情報領域に最も近接する1つの頂点座標の縦座標が決定された後、第2の決定サブモジュール622は該頂点座標の縦座標を開始位置として、所定の高さの距離で上方に平行移動し、所定の高さで平行移動した後の縦座標の所在する横直線をアドレス情報領域の上縁とする。
第3の決定サブモジュール623は、2つの頂点座標における任意の1つの頂点座標の横座標と第1の所定の幅により、アドレス情報領域の左縁を決定するように配置される。
第3の決定サブモジュール623は、2つの頂点座標における任意の1つの頂点座標の横座標を第1の所定の幅で左へ平行移動し、該頂点座標を平行移動した後の横座標の所在する垂直線をアドレス情報領域の左縁とする。
第4の決定サブモジュール624は、2つの頂点座標における任意の1つの頂点座標の横座標と第2の所定の幅により、アドレス情報領域の右縁を決定するように配置される。
第4の決定サブモジュール624は、2つの頂点座標における任意の1つの頂点座標の横座標を第2の所定の幅で平行移動し、該頂点座標を平行移動した後の横座標の所在する垂直線をアドレス情報領域の右縁とする。
切り取りサブモジュール625は、下縁、上縁、左縁及び右縁によりアドレス情報領域を切り取るように配置される。
第1の決定サブモジュール621〜第4の決定サブモジュール624で決定されたアドレス情報領域の下縁、上縁、左縁及び右縁により、切り取りサブモジュール625は、アドレス情報領域を切り取る。
認識モジュール630は、第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置される。
切り取りサブモジュール625により第2の情報領域の領域位置が決定された後、認識モジュール630は第2の情報領域に対して領域切断を行う。領域切断をした後、第2の情報領域は少なくとも1つのキャラクター領域に切断される。キャラクター領域は単一キャラクターを含む画像領域である。
図7に示す選択可能な実施例において、認識モジュール630は、図8に示すように、以下のサブモジュールを含むことができる。
2値化サブモジュール631は、第2の情報領域を2値化し、2値化後の第2の情報領域を得るように配置される。
好ましくは、切り取りサブモジュール625で決定された第2の情報領域により、該第2の情報領域をプリ処理し、そのうち、プリ処理はノイズ除去、フィルタリング、縁抽出等の操作を含み、プリ処理後の第2の情報領域を2値化することができる。
2値化とは、第2の情報領域におけるピクセルのグレー値と予め設定されたグレー閾値を比較し、第2の情報領域におけるピクセルを、予め設定されたグレー閾値より大きい画素群と予め設定されたグレー閾値より小さい画素群という2つの部分に分けて、2つの部分の画素群に第2の情報領域においてそれぞれ黒と白という2種の異なる色を呈させ、2値化後の第2の情報領域を得ることである。
第1の算出サブモジュール632は、2値化後の第2の情報領域に対して水平方向により第1のヒストグラムを算出し、第1のヒストグラムは各行のピクセルの縦座標と各行のピクセルにおける前景色ピクセルの累積値を含むように配置される。
第1の算出サブモジュール632は、2値化サブモジュール631により処理された第2の情報領域に対して水平方向により第1のヒストグラムを算出し、該第1のヒストグラムは垂直方向で各行のピクセルの縦座標を示し、水平方向で各行のピクセルにおける前景色ピクセルの個数累積値を示す。
行認識サブモジュール633は、第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットにより、n行の文字領域を認識し、nが正の整数であるように配置される。
第1のヒストグラムにより、各行ピクセルにおける前景色ピクセルの累積値を取得することができ、行認識サブモジュール633は、各行ピクセルにおける前景色ピクセルの累積値と第1の閾値を比較し、第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットを、文字領域が所在する行として決定する。
連続行セットは、前景色ピクセルの累積値が第1の閾値より大きい行が連続的なm行であり、該連続的なm行のピクセルにより構成されるセットを意味する。
各連続行セットを1行の文字領域として認識し、n個の連続行セットをn行の文字領域として認識する。
第2の算出サブモジュール634は、i行目の文字領域に対して、垂直方向により第2のヒストグラムを算出し、第2のヒストグラムは各列のピクセルの横座標と各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正の整数であるように配置される。
行認識サブモジュール633によりn行の文字領域が決定された後、第2の算出サブモジュール634は垂直方向により第2のヒストグラムを算出し、該第2のヒストグラムは水平方向で各列のピクセルの横座標を示し、垂直方向で各列のピクセルにおける前景色ピクセルの個数累積値を示す。
キャラクター認識サブモジュール635は、第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットにより、n個のキャラクター領域を認識するように配置される。
第2のヒストグラムにより、各列のピクセルにおける前景色ピクセルの累積値を取得することができ、キャラクター認識サブモジュール635は、各列のピクセルにおける前景色ピクセルの累積値と第2の閾値を比較し、第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットを、キャラクター領域が所在する列として決定する。
連続列セットは、前景色ピクセルの累積値が第2の閾値より大きい列が連続的なp列であり、該連続的なp列のピクセルにより構成されるセットを意味する。
各連続列セットを1つのキャラクター領域として認識し、n個の連続列セットをn個のキャラクター領域として認識する。
以上のように、本実施例により提供される領域抽出装置は、第2の情報領域を2値化して、2値化後の第2の情報領域に対して水平方向により第1のヒストグラムを算出し、第2の情報領域におけるn行の文字領域を決定し、更にそれぞれn行の文字領域に対して垂直方向により第2のヒストグラムを算出し、各文字に対応するキャラクター領域を認識する。まず文字領域の所在する行を決定し、次に文字領域の所在する行により各行文字領域におけるキャラクター領域を決定することにより、第2の情報領域におけるキャラクター領域をより正確に位置決めする。
図8に示す選択的な実施例では、該装置は、以下のモジュールを更に備えてもよく、図9に示すように、
行間隔認識モジュール910は、第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットにより、隣接する2行の文字領域間の行間隔を認識するように配置される。
行認識サブモジュール633により認識されたn行の文字領域に対して、行間隔認識モジュール910は隣接する2行の文字領域間の行間隔を取得する。行間隔とは第1のヒストグラムにおける2行の文字領域間の間隔である。
廃棄モジュール920は、行間隔が第3閾値より大きい場合に、第2の情報領域の縁により近接する1行の文字領域を廃棄し、縁が上縁又は下縁であるように配置される。
第1のヒストグラムにより、下から上へ文字領域を検索し、検索した最初の隣接する2行の文字領域の行間隔が第3閾値より大きい場合に、廃棄モジュール920は直下行の文字領域を廃棄し、上へ検索し続け、隣接する2行の文字領域の行間隔が第3閾値より大きいことをさらに検索した場合に、検索を終了し、且つ直上行の文字領域を廃棄する。同時に、残りの文字領域が第2の情報領域に属すると決定する。
字間隔認識モジュール930は、第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値よりも大きい列からなる連続列セットにより、隣接する2つの文字領域間の字間隔を認識するように配置される。
キャラクター認識サブモジュール635により認識されたn個のキャラクター領域により、字間隔認識モジュール930は隣接する2つのキャラクター領域間の字間隔を取得し、各行の文字領域における隣接する2つのキャラクター領域間の字間隔がより小さい。
字間隔とは、第2のヒストグラムにおける2つのキャラクター領域間の間隔である。
文字認識モジュール940は、隣接する2つのキャラクター領域が第2の情報領域の左側に位置して且つ字間隔が第4閾値より大きい場合に、隣接する2つのキャラクター領域における右側にあるキャラクター領域を現在の行の文字領域における最初の文字領域と認識するように配置される。
単一キャラクター認識モジュール950は、隣接する2つのキャラクター領域が第2の情報領域の右側に位置して且つ字間隔が第5閾値より大きい場合に、隣接する2つのキャラクター領域における左側にあるキャラクター領域を現在の行の文字領域における最後のキャラクター領域と認識するように配置される。
以上のように、本実施例により提供される領域抽出装置は、第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットにより、隣接する2つのキャラクター領域間の字間隔を認識する。隣接する2つのキャラクター領域が第2の情報領域の左側に位置して且つ字間隔が第4閾値より大きい場合に、隣接する2つのキャラクター領域における右側にあるキャラクター領域を現在の行の文字領域における最初のキャラクター領域に認識する。隣接する2つのキャラクター領域が第2の情報領域の右側に位置して且つ字間隔が第5閾値より大きい場合に、隣接する2つのキャラクター領域における左側にあるキャラクター領域を現在の行の文字領域における最後のキャラクター領域と認識し、字間隔の大きさにより第2の情報領域におけるキャラクター領域を決定し、それにより第2の情報領域における各キャラクター領域を正確に位置決めする。
上記実施例における装置について、そのうち、それぞれのモジュールの操作を実行する具体的な方式は、該方法に関する実施例で詳細に説明したので、ここでは詳しく説明しない。
本発明の例示的な実施例の提供した領域抽出装置は、本発明が提供する領域抽出方法を実現することができ、該領域抽出装置は、プロセッサと、プロセッサにより実行可能なコマンドを記憶するためのメモリとを含む。
そのうち、プロセッサは、
証明書類画像における第1の情報領域の領域位置を取得し、
第1の情報領域の領域位置により第2の情報領域を決定し
第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置される。
図10は一例示的な実施例により示された領域抽出方法に適用される装置のブロック図である。例えば、装置1000は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信設備、ゲームコンソール、タブレット型装置、医療設備、フィットネス装置、パーソナルデジタルアシスタントなどである。
図10を参照して、装置1000は、処理部材1002、メモリ1004、電源部材1006、マルチメディア部材1008、オーディオ部材1010、入力/出力(I/O)インターフェース1012、センサー部材1014、及び通信部材1016のうちの一つ又は複数の部材を含むことができる。
処理部材1002は、通常、装置1000の全体的操作、例えば、表示、電話呼び出し、データ通信、カメラ操作及び記録操作に関する操作を制御する。処理部材1002は、上記方法の全部又は一部のステップを完成するために、コマンドを実行する一つ又は複数のプロセッサ1018を含むことができる。さらに、処理部材1002はその他の部材とのインタラクションが容易であるように、一つ又は複数のモジュールを含むことができる。例えば、処理部材1002は、マルチメディア部材1008と処理部材1002とのインタラクションが容易であるように、マルチメディアモジュールを含むことができる。
メモリ1004は、装置1000における操作をサポートするために、さまざまなタイプのデータを記憶するように配置される。これらのデータの実例は、装置1000において操作される如何なるアプリケーション又は方法のコマンド、連絡先データ、電話帳データ、メッセージ、ピクチャ、ビデオなどを含む。メモリ1004は如何なるタイプの揮発性又は非揮発性メモリ又はそれらの組合せ、例えばスタティックランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクにより実現することができる。
電源部材1006は装置1000のさまざまな部材に対し電力を供給する。電源部材1006は電源管理システム、一つ又は複数の電源、及びその他の装置1000に対する電力の生成、管理及び供給に関連する部材を含むことができる。
マルチメディア部材1008は、装置1000とユーザーの間の出力インターフェースを提供するスクリーンを含む。一部の実施例において、スクリーンは液晶ディスプレイ(LCD)とタッチパネル(TP)を含むことができる。スクリーンにタッチパネルが含まれる場合、スクリーンはユーザーからの入力信号を受信するために、タッチスクリーンで実現されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルにおけるジェスチャーを感知するために、一つ又は複数のタッチセンサーを含む。タッチセンサーは、タッチ又はスワイプ動作の境界を感知するとともに、タッチ又はスワイプ動作に関わる持続時間及び圧力を検出することができる。一部の実施例において、マルチメディア部材1008は、フロントカメラ及び/又はバックカメラを含む。装置1000が操作モードである場合、例えば、撮影モード又はビデオモードである場合、フロントカメラ及び/又はバックカメラは外部のマルチメディアデータを受信することができる。各フロントカメラ及びバックカメラは、固定された光学レンズシステムであってもよく、又は焦点距離と光学ズーム能力を有する。
オーディオ部材1010は、オーディオ信号を出力及び/又は入力するように配置される。例えば、オーディオ部材1010は、マイクロフォン(MIC)を含み、装置1000が操作モードである場合、例えば、呼び出しモード、記録モード及び音声認識モードである場合、マイクロフォンは外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらにメモリ1004に記憶され、又は通信部材1016を介して送信される。一部の実施例において、オーディオ部材1010は、さらにオーディオ信号を出力するスピーカーを含む。
I/Oインターフェース1012は、処理部材1002と周辺インターフェースモジュールとの間にインターフェースを提供し、上記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン及びロックボタンを含むことができるがこれに限定されない。
センサー部材1014は、装置1000に対し各方面の状態評価を提供する一つ又は複数のセンサーを含む。例えば、センサー部材1014は、装置1000のオン/オフ状態、部材の相対的位置決めを検出することができ、前記部材は、例えば、装置1000のディスプレイ及びキーパッドであり、センサー部材1014は、さらに装置1000又は装置1000の一つの部材の位置変化、ユーザーと装置1000との接触の有無、装置1000の方角又は加速/減速及び装置1000の温度変化を検出することができる。センサー部材1014は、近接センサーを含むことができ、如何なる物理的接触がないとき、近傍物体の存在を検出するように構成される。センサー部材1014は、さらにイメージングアプリケーションに用いられる光学センサー、例えば、CMOS又はCCDイメージセンサーを含むことができる。一部の実施例において、該センサー部材1014は、さらに加速度センサー、ジャイロセンサー、磁気センサー、圧力センサー又は温度センサーを含むことができる。
通信部材1016は、装置1000とその他の装置との有線又は無線による通信が容易であるように配置される。装置1000は、通信標準に基づく無線ネットワーク、例えばWiFi、2G又は3G、又はそれらの組合せにアクセスすることができる。一例示的な実施例において、通信部材1016は、放送チャネルを介して外部放送管理システムからの放送信号又は放送関連情報を受信する。一例示的な実施例において、通信部材1016は、狭域通信を促進するために、さらに近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールにおいて、無線周波数認識(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及びその他の技術に基づいて実現することができる。
例示的な実施例において、装置1000は、一つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラー、マイクロコントローラー、マイクロプロセッサ又はその他の電子部品により実現することができ、上記領域抽出方法を実行するのに用いられる。
例示的な実施例において、さらに、コマンドを含む非一時的なコンピュータ可読記憶媒体、例えば、コマンドを含むメモリ1004を提供し、上記領域抽出方法を完成するために、上記コマンドは装置1000のプロセッサ1018により実行することができる。例えば、非一時的なコンピュータ可読記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD−ROM、磁気テープ、フロッピーディスク及び光データ記憶装置などであってもよい。
当業者であれば、明細書を考慮しここに開示された発明を実践した後、本発明のその他の実施態様を容易に想到できる。本願は、本発明の如何なる変形、用途又は適応的変化を含むためのものであり、これらの変形、用途又は適応的変化は本発明の一般的な原理に準じ、本発明の開示されていない本技術分野における公知常識又は慣用の技術手段を含む。明細書と実施例は例示的なものに過ぎず、本発明の実際の範囲と精神は下記特許請求の範囲により与えられる。
理解すべきことは、本発明は既に上記のように説明され、図面に示された正確な構造に限定されず、その範囲を逸脱しない限りにおいて様々な修正や変更を行うことができる。本発明の範囲は特許請求の範囲のみにより限定される。

Claims (11)

  1. 証明書類画像における第1の情報領域の領域位置を得ることと、
    前記第1の情報領域の領域位置により第2の情報領域を決定することと、
    前記第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることと、を含み、
    前記第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることは、
    前記第2の情報領域を2値化し、2値化後の第2の情報領域を得ることと、
    前記2値化後の第2の情報領域に対して水平方向により第1のヒストグラムを算出し、前記第1のヒストグラムは各行のピクセルの縦座標と前記各行のピクセルにおける前景色ピクセルの累積値を含むことと、
    前記第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットにより、n行の文字領域を認識し、nが正の整数であることと、
    前記第1のヒストグラムにおける前景色ピクセルの累積値が前記第1の閾値より大きい行からなる連続行セットにより、隣接する2行の前記文字領域の間の行間隔を認識することと、
    前記行間隔が第3閾値より大きい場合に、前記第2の情報領域の縁により近接する1行の前記文字領域を廃棄し、前記縁が上縁又は下縁であることと、含むことを特徴とする領域抽出方法。
  2. 前記領域位置は頂点座標で示され、
    前記第1の情報領域の領域位置により第2の情報領域を決定することは、
    前記第1の情報領域の少なくとも2つの前記頂点座標と所定の相対的な位置関係により、前記第2の情報領域を決定し、前記相対的な位置関係は前記頂点座標と前記第2の情報領域との間の相対的な位置関係であることを含むことを特徴とする請求項1に記載の方法。
  3. 前記第1の情報領域は第二代身分証明書における公民身分証明書番号領域であり、前記少なくとも2つの前記頂点座標は前記公民身分証明書番号領域の2つの頂点座標であり、
    前記第2の情報領域は前記第二代身分証明書におけるアドレス情報領域であり、
    前記第1の情報領域の少なくとも2つの前記頂点座標と所定の相対的な位置関係により、前記第2の情報領域を決定することは、
    2つの前記頂点座標における前記アドレス情報領域に最も近接する1つの頂点座標の縦座標により、前記アドレス情報領域の下縁を決定することと、
    前記最も近接する1つの頂点座標の前記縦座標と所定の高さにより、前記アドレス情報領域の上縁を決定することと、
    前記2つの頂点座標における任意の1つの頂点座標の横座標と第1の所定の幅により、前記アドレス情報領域の左縁を決定することと、
    前記2つの頂点座標における任意の1つの頂点座標の横座標と第2の所定の幅により、前記アドレス情報領域の右縁を決定することと、
    前記下縁、前記上縁、前記左縁及び前記右縁により前記アドレス情報領域を切り取ることと、を含むことを特徴とする請求項2に記載の方法。
  4. 前記第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることは
    i行目の文字領域に対して、垂直方向により第2のヒストグラムを算出し、前記第2のヒストグラムは各列のピクセルの横座標と前記各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正の整数であることと、
    前記第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットにより、n個のキャラクター領域を認識することと、を更に含むことを特徴とする請求項1〜3のいずれかに記載の方法。
  5. 前記第2のヒストグラムにおける前景色ピクセルの累積値が前記第2の閾値より大きい列からなる連続列セットにより、隣接する2つの前記キャラクター領域間の字間隔を認識することと、
    隣接する2つの前記キャラクター領域が前記第2の情報領域の左側に位置して且つ前記字間隔が第4閾値より大きい場合に、隣接する2つの前記キャラクター領域における右側にある前記キャラクター領域を現在の行の文字領域における最初の前記キャラクター領域と認識することと、
    隣接する2つの前記キャラクター領域が前記第2の情報領域の右側に位置して且つ前記字間隔が第5閾値より大きい場合に、隣接する2つの前記キャラクター領域における左側にある前記キャラクター領域を現在の行の文字領域における最後の前記キャラクター領域と認識することと、をさらに含むことを特徴とする請求項4に記載の方法。
  6. 証明書類画像における第1の情報領域の領域位置を取得するように配置される取得モジュールと、
    前記第1の情報領域の領域位置により第2の情報領域を決定するように配置される決定モジュールと、
    前記第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置される認識モジュールと、を含み、
    前記認識モジュールは、
    前記第2の情報領域を2値化し、2値化後の第2の情報領域を得るように配置される2値化サブモジュールと、
    前記2値化後の第2の情報領域に対して水平方向により第1のヒストグラムを算出し、前記第1のヒストグラムは各行のピクセルの縦座標と前記各行のピクセルにおける前景色ピクセルの累積値を含むように配置される第1の算出サブモジュールと、
    前記第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットにより、n行の文字領域を認識し、nが正の整数であるように配置される行認識サブモジュールと、
    前記第1のヒストグラムにおける前景色ピクセルの累積値が前記第1の閾値より大きい行からなる連続行セットにより、隣接する2行の前記文字領域の間の行間隔を認識するように配置される行間隔認識モジュールと、
    前記行間隔が第3閾値より大きい場合に、前記第2の情報領域の縁により近接する1行の前記文字領域を廃棄し、前記縁が上縁又は下縁であるように配置される廃棄モジュールと、を含むことを特徴とする領域抽出装置。
  7. 前記領域位置は頂点座標で示され、
    前記決定モジュールは前記第1の情報領域の少なくとも2つの前記頂点座標と所定の相対的な位置関係により、前記第2の情報領域を決定し、前記相対的な位置関係は前記頂点座標と前記第2の情報領域との間の相対的な位置関係であるように配置されることを特徴とする請求項に記載の装置。
  8. 前記第1の情報領域は、第二代身分証明書における公民身分証明書番号領域であり、
    前記少なくとも2つの前記頂点座標は、前記公民身分証明書番号領域の2つの頂点座標であり、
    前記第2の情報領域は、前記第二代身分証明書におけるアドレス情報領域であり、
    前記決定モジュールは、
    2つの前記頂点座標における前記アドレス情報領域に最も近接する1つの頂点座標の縦座標により、前記アドレス情報領域の下縁を決定するように配置される第1の決定サブモジュールと、
    前記最も近接する1つの頂点座標の前記縦座標と所定の高さにより、前記アドレス情報領域の上縁を決定するように配置される第2の決定サブモジュールと、
    前記2つの頂点座標における任意の1つの頂点座標の横座標と第1の所定の幅により、前記アドレス情報領域の左縁を決定するように配置される第3の決定サブモジュールと、
    前記2つの頂点座標における任意の1つの頂点座標の横座標と第2の所定の幅により、前記アドレス情報領域の右縁を決定するように配置される第4の決定サブモジュールと、
    前記下縁、前記上縁、前記左縁及び前記右縁により前記アドレス情報領域を切り取るように配置される切り取りサブモジュールと、を含むことを特徴とする請求項に記載の装置。
  9. 前記認識モジュールは
    i行目の文字領域に対して、垂直方向により第2のヒストグラムを算出し、前記第2のヒストグラムは各列のピクセルの横座標と前記各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正の整数であるように配置される第2の算出サブモジュールと、
    前記第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットにより、n個のキャラクター領域を認識するように配置されるキャラクター認識サブモジュールと、を更に含むことを特徴とする請求項6〜8のいずれかに記載の装置。
  10. 前記第2のヒストグラムにおける前景色ピクセルの累積値が前記第2の閾値より大きい列からなる連続列セットにより、隣接する2つの前記キャラクター領域間の字間隔を認識するように配置される字間隔認識モジュールと、
    隣接する2つの前記キャラクター領域が前記第2の情報領域の左側に位置して且つ前記字間隔が第4閾値より大きい場合に、隣接する2つの前記キャラクター領域における右側にある前記キャラクター領域を現在の行の文字領域における最初の前記キャラクター領域と認識するように配置される文字認識モジュールと、
    隣接する2つの前記キャラクター領域が前記第2の情報領域の右側に位置して且つ前記字間隔が第5閾値より大きい場合に、隣接する2つの前記キャラクター領域における左側にある前記キャラクター領域を現在の行の文字領域における最後の前記キャラクター領域と認識するように配置される単一キャラクター認識モジュールと、を更に含むことを特徴とする請求項に記載の装置。
  11. 証明書類画像における第1の情報領域の領域位置を取得し、
    前記第1の情報領域の領域位置により第2の情報領域を決定し、
    前記第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置されるプロセッサと、
    前記プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、
    前記第2の情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることは、
    前記第2の情報領域を2値化し、2値化後の第2の情報領域を得ることと、
    前記2値化後の第2の情報領域に対して水平方向により第1のヒストグラムを算出し、前記第1のヒストグラムは各行のピクセルの縦座標と前記各行のピクセルにおける前景色ピクセルの累積値を含むことと、
    前記第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットにより、n行の文字領域を認識し、nが正の整数であることと、
    前記第1のヒストグラムにおける前景色ピクセルの累積値が前記第1の閾値より大きい行からなる連続行セットにより、隣接する2行の前記文字領域の間の行間隔を認識することと、
    前記行間隔が第3閾値より大きい場合に、前記第2の情報領域の縁により近接する1行の前記文字領域を廃棄し、前記縁が上縁又は下縁であることと、含むことを特徴とする領域抽出装置。
JP2017547045A 2015-10-30 2015-12-29 領域抽出方法及び装置 Active JP6396605B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510726272.4 2015-10-30
CN201510726272.4A CN105426818B (zh) 2015-10-30 2015-10-30 区域提取方法及装置
PCT/CN2015/099298 WO2017071062A1 (zh) 2015-10-30 2015-12-29 区域提取方法及装置

Publications (2)

Publication Number Publication Date
JP2018500704A JP2018500704A (ja) 2018-01-11
JP6396605B2 true JP6396605B2 (ja) 2018-09-26

Family

ID=55505018

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017547045A Active JP6396605B2 (ja) 2015-10-30 2015-12-29 領域抽出方法及び装置

Country Status (8)

Country Link
US (1) US10127471B2 (ja)
EP (1) EP3163504B1 (ja)
JP (1) JP6396605B2 (ja)
KR (1) KR101760109B1 (ja)
CN (1) CN105426818B (ja)
MX (1) MX364147B (ja)
RU (1) RU2642404C2 (ja)
WO (1) WO2017071062A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229932B (zh) * 2016-03-25 2021-05-28 阿里巴巴集团控股有限公司 一种图像文本的识别方法和装置
CN106547912A (zh) * 2016-11-25 2017-03-29 西安理工大学 身份证数据库中非二代身份证照片的识别和剔除方法
CN108388872B (zh) * 2018-02-28 2021-10-22 北京奇艺世纪科技有限公司 一种基于字体颜色的新闻标题识别方法及装置
CN108764240A (zh) * 2018-03-28 2018-11-06 中科博宏(北京)科技有限公司 基于字符相对大小的计算机视觉身份证字符分割识别技术
KR102063036B1 (ko) * 2018-04-19 2020-01-07 한밭대학교 산학협력단 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법
CN109977959B (zh) * 2019-03-29 2021-07-06 国家电网有限公司 一种火车票字符区域分割方法及装置
US11501548B2 (en) * 2019-04-02 2022-11-15 Edgeverve Systems Limited Method and system for determining one or more target objects in an image
CN110321895A (zh) * 2019-04-30 2019-10-11 北京市商汤科技开发有限公司 证件识别方法和装置、电子设备、计算机可读存储介质
CN110378340A (zh) * 2019-07-23 2019-10-25 上海秒针网络科技有限公司 地址合规识别方法、装置、存储介质及电子装置
WO2021145466A1 (ko) * 2020-01-13 2021-07-22 엘지전자 주식회사 객체의 정보를 확인하는 이동 단말기 및 그 제어 방법
CN111539269A (zh) * 2020-04-07 2020-08-14 北京达佳互联信息技术有限公司 文本区域的识别方法、装置、电子设备和存储介质
CN113536858A (zh) * 2020-04-20 2021-10-22 阿里巴巴集团控股有限公司 图像识别方法和系统
CN111582085B (zh) * 2020-04-26 2023-10-10 中国工商银行股份有限公司 单据拍摄图像识别方法及装置
CN111639648B (zh) * 2020-05-26 2023-09-19 浙江大华技术股份有限公司 证件识别方法、装置、计算设备和存储介质
CN111898601A (zh) * 2020-07-14 2020-11-06 浙江大华技术股份有限公司 一种身份证要素提取方法及装置
CN112232336A (zh) * 2020-09-02 2021-01-15 深圳前海微众银行股份有限公司 一种证件识别方法、装置、设备及存储介质
CN112633193A (zh) * 2020-12-28 2021-04-09 深圳壹账通智能科技有限公司 地址信息的提取方法、装置、设备及介质
US20240112348A1 (en) * 2021-02-09 2024-04-04 Hewlett-Packard Development Company, L.P. Edge identification of documents within captured image
CN113592877B (zh) * 2021-03-25 2024-04-12 国网新源控股有限公司 一种抽水蓄能电站红线超标识别方法及装置
CN115082919B (zh) * 2022-07-22 2022-11-29 平安银行股份有限公司 一种地址识别方法、电子设备及存储介质
CN115862041B (zh) * 2023-02-13 2023-05-09 武汉天恒信息技术有限公司 一种基于神经网络的不动产证书识别方法
CN118072299B (zh) * 2024-04-17 2024-07-30 福建晨曦信息科技集团股份有限公司 证件图像文字内容识别方法、计算机设备及可读存储介质
CN118378918B (zh) * 2024-06-21 2024-09-06 安徽省交通规划设计研究总院股份有限公司 基于图像处理的工程项目采购分包商确定方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3795238B2 (ja) * 1998-10-01 2006-07-12 シャープ株式会社 文書画像処理装置及び文書画像処理方法
RU2329535C2 (ru) * 2006-05-24 2008-07-20 Самсунг Электроникс Ко., Лтд. Способ автоматического кадрирования фотографий
JP2010231541A (ja) * 2009-03-27 2010-10-14 Oki Electric Ind Co Ltd 情報処理装置、文字認識方法、およびプログラム
CN101561876A (zh) * 2009-06-05 2009-10-21 四川泸州航天金穗高技术有限公司 一种身份证信息采集与识别方法及系统
JP5591578B2 (ja) * 2010-04-19 2014-09-17 日本電産サンキョー株式会社 文字列認識装置および文字列認識方法
CN102955941A (zh) * 2011-08-31 2013-03-06 汉王科技股份有限公司 身份信息录入方法和装置
KR101295000B1 (ko) * 2013-01-22 2013-08-09 주식회사 케이지모빌리언스 카드 번호의 영역 특성을 이용하는 신용 카드의 번호 인식 시스템 및 신용 카드의 번호 인식 방법
JP6080259B2 (ja) * 2013-02-06 2017-02-15 日本電産サンキョー株式会社 文字切り出し装置及び文字切り出し方法
JP6188052B2 (ja) * 2013-02-26 2017-08-30 Kddi株式会社 情報システム及びサーバー
CN103488984B (zh) * 2013-10-11 2017-04-12 瑞典爱立信有限公司 基于智能移动设备的二代身份证识别方法及装置
KR20150047060A (ko) 2013-10-23 2015-05-04 주식회사 디오텍 명함 이미지 여부를 판별하는 장치 및 방법
CN104573616A (zh) * 2013-10-29 2015-04-29 腾讯科技(深圳)有限公司 一种信息识别方法、相关装置及系统
CN104408450A (zh) * 2014-11-21 2015-03-11 深圳天源迪科信息技术股份有限公司 身份证识别方法、装置及系统

Also Published As

Publication number Publication date
US20170124718A1 (en) 2017-05-04
CN105426818B (zh) 2019-07-02
CN105426818A (zh) 2016-03-23
JP2018500704A (ja) 2018-01-11
KR101760109B1 (ko) 2017-07-31
RU2016110818A (ru) 2017-10-02
RU2642404C2 (ru) 2018-01-24
KR20170061630A (ko) 2017-06-05
EP3163504A1 (en) 2017-05-03
EP3163504B1 (en) 2019-01-02
WO2017071062A1 (zh) 2017-05-04
US10127471B2 (en) 2018-11-13
MX364147B (es) 2019-04-12
MX2016003769A (es) 2017-05-30

Similar Documents

Publication Publication Date Title
JP6396605B2 (ja) 領域抽出方法及び装置
JP6401873B2 (ja) 領域認識方法及び装置
JP6392468B2 (ja) 領域認識方法及び装置
JP6400226B2 (ja) 領域認識方法及び装置
JP6392467B2 (ja) 領域識別方法及び装置
WO2017071064A1 (zh) 区域提取方法、模型训练方法及装置
CN105894042A (zh) 检测证件图像遮挡的方法和装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180828

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180829

R150 Certificate of patent or registration of utility model

Ref document number: 6396605

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250