JP6400226B2 - 領域認識方法及び装置 - Google Patents

領域認識方法及び装置 Download PDF

Info

Publication number
JP6400226B2
JP6400226B2 JP2017547042A JP2017547042A JP6400226B2 JP 6400226 B2 JP6400226 B2 JP 6400226B2 JP 2017547042 A JP2017547042 A JP 2017547042A JP 2017547042 A JP2017547042 A JP 2017547042A JP 6400226 B2 JP6400226 B2 JP 6400226B2
Authority
JP
Japan
Prior art keywords
certificate
area
predetermined
certificate image
predetermined edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017547042A
Other languages
English (en)
Other versions
JP2018500702A (ja
Inventor
▲飛▼ ▲龍▼
▲飛▼ ▲龍▼
涛 ▲張▼
涛 ▲張▼
志▲軍▼ ▲陳▼
志▲軍▼ ▲陳▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Publication of JP2018500702A publication Critical patent/JP2018500702A/ja
Application granted granted Critical
Publication of JP6400226B2 publication Critical patent/JP6400226B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Description

本出願は、出願番号がCN201510727934.Xであり、出願日が2015年10月30日である中国特許出願に基づいて提出され、且つ該中国特許出願の優先権を主張し、該中国特許出願の全ての内容はここで参考として本願に援用される。
本発明は画像処理分野に関し、特に領域認識方法及び装置に関する。
身分証明書の自動認識技術は、画像処理により身分証明書における文字情報を認識する技術である。
関連技術は、身分証明書走査装置が一定の相対位置に従って身分証明書を走査することにより、身分証明書の走査画像を得、走査画像におけるn個の所定領域に対して文字認識を行い、名前情報、性別情報、民族情報、生年月日情報、アドレス情報及び公民身分証明書番号情報のうちの少なくとも1種を得る身分証明書の自動認識方法を提供している。しかしながら、直接に撮影された身分証明書画像に対して、認識の難易度が大きい。
関連技術における問題を解決するために、本発明は領域認識方法及び装置を提供する。当該技術案は、以下のとおりである。
本発明の実施例に係る第1態様により、領域認識方法を提供し、該方法は、
証明書類画像における証明書類の所定縁を認識し、所定縁が証明書類の所定方向に位置する縁であることと、
所定縁に基づいて、証明書類画像において少なくとも1つの情報領域を決定することと、
情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることと、を含む。
好ましい実施例では、証明書類画像における証明書類の所定縁を認識することは、
証明書類画像に対してソーベル水平フィルタリングと2値化を行い、処理後の証明書類画像を得ることと、
処理後の証明書類画像における所定領域を直線検出して、ターゲット直線を得、ターゲット直線を証明書類の所定縁として認識することと、を含む。
好ましい実施例では、該方法は、
予め証明書類画像を所定の縮小比例で縮小処理することを更に含む。
好ましい実施例では、該方法は、
処理後の証明書類画像における所定領域を連結処理することを更に含む。
好ましい実施例では、所定縁に基づいて証明書類画像において少なくとも1つの情報領域を決定することは、
所定縁と相対的な位置関係に基づいて、少なくとも1つの情報領域を決定し、相対的な位置関係は所定縁と情報領域の間の相対的な位置関係であることを含む。
好ましい実施例では、証明書類は第2代身分証明書であり、所定縁は第2代身分証明書の下縁であり、情報領域は第2代身分証明書の公民身分証明書番号領域であり、
所定縁と相対的な位置関係に基づき、少なくとも1つの情報領域を決定することは、
下縁の上方にある所定高さの領域を、公民身分証明書番号領域として決定することを含む。
好ましい実施例では、該方法は、
所定縁の傾きに基づいて、証明書類画像に対して勾配修正を行うことを更に含む。
好ましい実施例では、所定縁の傾きに基づいて、証明書類画像に対して勾配修正を行うことは、
所定縁の傾きに基づいて、所定縁と水平方向とのなす角度を決定することと、
証明書類画像を角度に応じて回転させ、回転後の証明書類画像における所定縁が水平方向と平行になることと、を含む。
好ましい実施例では、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることは、
情報領域を2値化し、2値化後の情報領域を得ることと、
2値化後の情報領域に対して水平方向に応じて第1のヒストグラムを算出し、第1のヒストグラムが、各行ピクセルの縦座標及び各行ピクセルにおける前景色ピクセルの累積値を含むことと、
第1ヒストグラムにおける前景色ピクセルの累積値が第1閾値よりも大きい行からなる連続行セットに基づいて、n行の文字領域を認識して得て、nが正整数であることと、
i行目の文字領域に対して、垂直方向に応じて第2のヒストグラムを算出し、第2のヒストグラムが、各列のピクセルの横座標及び各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正の整数であることと、
第2ヒストグラムにおける前景色ピクセルの累積値が第2閾値より大きい列からなる連続列セットに基づいて、n個のキャラクター領域を認識して得ることと、を含む。
本発明の実施例の第2態様により、領域認識装置を提供し、該装置は、
証明書類画像における証明書類の所定縁を認識し、所定縁が証明書類の所定方向に位置する縁であるように配置される認識モジュールと、
所定縁に基づいて、証明書類画像において少なくとも1つの情報領域を決定するように配置される決定モジュールと、
情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置される切断モジュールと、を備える。
好ましい実施例では、認識モジュールは、
証明書類画像に対してソーベル水平フィルタリングと2値化を行い、処理後の証明書類画像を得るように配置されるフィルタリングサブモジュールと、
処理後の証明書類画像における所定領域を直線検出して、ターゲット直線を得、ターゲット直線を証明書類の所定縁として認識するように配置される検出サブモジュールと、を備える。
好ましい実施例では、該装置は、
予め証明書類画像を所定の縮小比例で縮小処理するように配置される縮小モジュールを更に備える。
好ましい実施例では、該装置は、
処理後の証明書類画像における所定領域を連結処理するように配置される連結モジュールを更に備える。
好ましい実施例では、決定モジュールは、所定縁と相対的な位置関係に基づき、少なくとも1つの情報領域を決定し、相対的な位置関係が所定縁と情報領域の間の相対的な位置関係であるように配置される。
好ましい実施例では、証明書類は第2代身分証明書であり、所定縁は第2代身分証明書の下縁であり、情報領域は第2代身分証明書の公民身分証明書番号領域であり、
決定モジュールは、下縁の上方にある所定高さの領域を、公民身分証明書番号領域として決定するように配置される。
好ましい実施例では、該装置は、
所定縁の傾きに基づいて、証明書類画像に対して勾配修正を行うように配置される修正モジュールを更に備える。
好ましい実施例では、修正モジュールは、
所定縁の傾きに基づいて、所定縁と水平方向とのなす角度を決定するように配置される角度決定サブモジュールと、
証明書類画像を角度に応じて回転させ、回転後の証明書類画像における所定縁が水平方向と平行になるように配置される回転サブモジュールと、を備える。
好ましい実施例では、切断モジュールは、
情報領域を2値化し、2値化後の情報領域を得るように配置される2値化サブモジュールと、
2値化後の情報領域に対して水平方向に応じて第1のヒストグラムを算出し、第1のヒストグラムが、各行ピクセルの縦座標及び各行ピクセルにおける前景色ピクセルの累積値を含むように配置される第1の算出サブモジュールと、
第1ヒストグラムにおける前景色ピクセルの累積値が第1閾値より大きい行からなる連続行セットに基づいて、n行の文字領域を認識して得て、nが正整数であるように配置される行認識サブモジュールと、
i行目の文字領域に対して、垂直方向に応じて第2のヒストグラムを算出し、第2のヒストグラムが、各列のピクセルの横座標及び各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正の整数であるように配置される第2の算出サブモジュールと、
第2ヒストグラムにおける前景色ピクセルの累積値が第2閾値より大きい列からなる連続列セットに基づいて、n個のキャラクター領域を認識して得るように配置されるキャラクター認識サブモジュールと、を備える。
本発明の実施例に係る第3態様により、領域認識装置を提供し、該装置は、
証明書類画像における証明書類の所定縁を認識し、所定縁が証明書類の所定方向に位置する縁であり、
所定縁に基づいて、証明書類画像において少なくとも1つの情報領域を決定し、
情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置されるプロセッサと、
プロセッサにより実行可能なコマンドを記憶するためのメモリと、を備える。
本発明の実施例により提供される技術案は下記の有益な効果を含んでもよい。
証明書類画像における証明書類の所定縁を認識し、所定縁に基づいて、証明書類画像において少なくとも1つの情報領域を決定し、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得る。関連技術において直接的に撮影して得られた証明書類画像におけるある情報領域に対する認識難易度が大きく、且つある情報領域に対する位置決めが不正確な問題を解決し、証明書類画像における所定縁によって情報領域を決定し、情報領域を切断し、それにより情報領域に対し正確に位置決めを行うと共に、情報領域におけるキャラクター領域を正確に認識する効果を達する。
以上の一般的な説明及び後述する詳細は例示的なものに過ぎず、本発明を制限するためのものではないと理解すべきである。
ここの図面は明細書に組み込まれて本明細書の一部を構成し、本発明に適合する実施例を示し、明細書と共に本発明の原理を解釈するのに用いられる。
図1は例示的な実施例に係る領域認識方法を示すフローチャートである。 図2Aは別の例示的な実施例に係る領域認識方法を示すフローチャートである。 図2Bは例示的な実施例に係る証明書類画像の2値化を示す模式図である。 図2Cは例示的な実施例に係る証明書類画像における直線検出を示す模式図である。 図3Aは別の例示的な実施例に係る領域認識方法を示すフローチャートである。 図3Bは例示的な実施例に係る連結処理後の証明書類画像を示す模式図である。 図4は別の例示的な実施例に係る領域認識方法を示すフローチャートである。 図5Aは別の例示的な実施例に係る領域認識方法を示すフローチャートである。 図5Bは例示的な実施例に係る水平方向に応じて第1ヒストグラムを算出する模式図である。 図5Cは例示的な実施例に係る連続行セットを示す模式図である。 図5Dは例示的な実施例に係る垂直方向に応じて第2ヒストグラムを算出する模式図である。 図5Eは例示的な実施例に係る連続列セットを示す模式図である。 図6は例示的な実施例に係る領域認識装置を示すブロック図である。 図7は別の例示的な実施例に係る領域認識装置を示すブロック図である。 図8は別の例示的な実施例に係る領域認識装置を示すブロック図である。 図9は別の例示的な実施例に係る領域認識装置を示すブロック図である。 図10は別の例示的な実施例に係る領域認識装置を示すブロック図である。 図11は例示的な実施例に係る領域認識装置を示すブロック図である。
ここで例示的な実施例について詳しく説明し、その実施例は図面に示す通りである。下記の説明が図面に関わるとき、別途に表示されない限り、異なる図面における同じ数字は同じ又は類似する要素を表示する。以下の例示的な実施例に説明される実施形態は本発明と一致する全ての実施形態を表すわけではない。逆に、それらは特許請求の範囲に詳細に記載された本発明の一部の態様と一致する装置と方法の例に過ぎない。
図1は例示的な実施例に係る領域認識方法を示すフローチャートである。図1に示すように、該領域認識方法は、以下のようなステップを含む。
ステップ102において、証明書類画像における証明書類の所定縁を認識し、所定縁が証明書類の所定方向に位置する縁であり、
証明書類画像は証明書類を直接的に撮影して得られた画像であり、例えば、身分証明書画像、社会保障カード画像等が挙げられる。
ステップ104では、所定縁に基づいて、証明書類画像において少なくとも1つの情報領域を決定し、
証明書類画像における所定縁の位置が相対的に一定であり、且つ所定縁の位置決めの難易度が常に情報領域の位置決めの難易度より低いため、所定縁に基づき証明書類画像において各情報領域を決定することができる。
情報領域は、証明書類画像において文字情報がある領域、例えば、名前情報領域、生年月日情報領域、性別領域、アドレス情報領域、公民身分証明書番号情報領域、番号情報領域、証明書発行機関情報領域および有効期限情報領域などの情報領域のうちの少なくとも1種を意味する。
ステップ106において、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得る。
情報領域には複数のキャラクターが含まれている。1つの情報領域に対して、領域切断により少なくとも1つのキャラクター領域を得ることができる。キャラクター領域は単一キャラクターを含む領域である。キャラクターは漢字、アルファベット、数字又は他の言語のキャラクターであってもよい。
以上のように、本発明の実施例により提供された領域認識方法は、証明書類画像における証明書類の所定縁を認識し、所定縁に基づいて、証明書類画像において少なくとも1つの情報領域を決定し、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得る。関連技術において直接的に撮影して得られた証明書類画像におけるある情報領域に対する認識難易度が大きく、且つある情報領域に対する位置決めが不正確な問題を解決し、証明書類画像における所定縁によって情報領域を決定し、情報領域を切断し、それにより情報領域に対し正確に位置決めを行うと共に、情報領域におけるキャラクター領域を正確に認識する効果を達する。
図2Aは別の例示的な実施例に係る領域認識方法を示すフローチャートである。図2Aに示すように、該領域認識方法は以下のステップを含む。
ステップ202において、証明書類画像に対してソーベル水平フィルタリングと2値化を行い、処理後の証明書類画像を得る。
証明書類画像を撮影する場合、撮影インターフェースにおいて撮影をガイドするための矩形領域が設置され、ユーザーは矩形領域を証明書類と位置合わせするとき、証明書類画像を撮影して得ることが好ましい。
まず、証明書類画像をソーベル(sobel)水平フィルタリングし、即ちsobel演算子を採用して水平方向に沿ってフィルタリングする。次に、フィルタリング後の証明書類画像を2値化する。2値化とは、証明書類画像におけるピクセルのグレー値と所定のグレー閾値を比較して、証明書類画像におけるピクセルを、所定のグレー閾値よりも大きいピクセル群と所定のグレー閾値よりも小さいピクセル群との両方に分け、これらのピクセル群に証明書類画像においてそれぞれ黒と白の2種の異なる色を呈させ、2値化後の証明書類画像を得、図2Bに示すようである。そのうち、前景に位置する1種の色のピクセルが前景色ピクセルと称され、即ち図2Bの白色ピクセルであり、背景に位置する1種の色のピクセルが背景ピクセルと称され、即ち図2Bにおける黒色ピクセルである。
ステップ204において、処理後の証明書類画像における所定領域を直線検出して、ターゲット直線を得て、ターゲット直線を証明書類の所定縁として認識する。
該所定領域は証明書類画像における証明書類の所定縁が存在する可能性がある領域である。例えば、該所定領域は、証明書類の下縁の証明書類画像における領域などであり、又は、該所定領域は、証明書類の上縁の証明書類画像における領域などである。
処理後の証明書類画像を取得した後に、処理後の証明書類画像を直線検出する。該直線検出は直線フィッティングアルゴリズム又はハフ(Hough)変換アルゴリズムによって実現され、それによりターゲット直線を得、該ターゲット直線を証明書類の証明書類画像における所定縁として認識することが好ましい。
例えば、ソーベル水平フィルタリングと2値化処理後の証明書類画像に対して、証明書類の下縁の証明書類画像における領域を直線検出して、直線フィッティング又はハフ(Hough)変換を経た後に、証明書類画像の下方に一本の直線が存在し、該直線を証明書類の証明書類画像における所定縁として認識する。証明書類の下縁の証明書類画像における位置が、例示的な図2Cに示すようである。
ステップ206において、所定縁に基づいて、証明書類画像において少なくとも1つの情報領域を決定し、
証明書類画像のタイプが既知である場合に、証明書類画像の所定縁と証明書類における他の情報領域の間に一定の相対的な位置関係が存在し、証明書類画像の所定縁と該相対的な位置関係に基づき少なくとも1つの情報領域を決定できる。
相対的な位置関係とは、証明書類画像の所定縁と情報領域との間の相対的な位置関係を指す。
証明書類は第2代身分証明書であり、所定縁は第2代身分証明書の下縁であり、情報領域は第2代身分証明書の公民身分証明書番号領域であれば、ステップ206は更に、下縁の上方にある所定高さの領域を、公民身分証明書番号領域として決定するように実現することが好ましい。
例えば、第2代身分証明書を例として、公民身分証明書番号領域が証明書類画像の所定縁の上方にあり、また、例えば、アドレス情報領域が証明書類画像の所定縁の左上方位置にある。該相対的な位置関係によって、証明書類画像の所定縁に基づいて少なくとも1つの情報領域を決定することができる。
ステップ208において、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得る。
情報領域には複数のキャラクターが含まれている。1つの情報領域に対して、領域切断により少なくとも1つのキャラクター領域を得ることができる。キャラクター領域は単一キャラクターを含む領域である。キャラクターは漢字、アルファベット、数字又は他の言語のキャラクターであってもよい。
以上のように、本発明の実施例により提供された領域認識方法は、証明書類画像に対してソーベル水平フィルタリングと2値化を行い、処理後の証明書類画像を得、処理後の証明書類画像における所定領域を直線検出して、ターゲット直線を得て、ターゲット直線を証明書類の所定縁として認識し、所定縁に基づいて、証明書類画像において少なくとも1つの情報領域を決定し、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得る。関連技術において直接的に撮影して得られた証明書類画像におけるある情報領域に対する認識難易度が大きく、且つある情報領域に対する位置決めが不正確な問題を解決し、証明書類画像における所定縁によって情報領域を決定し、情報領域を切断し、それにより情報領域に対し正確に位置決めを行うとともに、情報領域におけるキャラクター領域を正確に認識する効果を達する。
図2Aに基づく実施例により提供される選択可能な実施例において、証明書類画像における所定縁をより高速に見つけるために、端末は予め証明書類画像の大きさに基づき証明書類画像を縮小処理することが好ましい。即ち、ステップ202の前に、該方法はステップ201を更に含む。処理後の証明書類画像における所定領域を直線検出する際に、より正確な直線を取得するために、端末は処理後の証明書類画像における所定領域を連結処理することが好ましい。即ち、ステップ202の後に、該方法はステップ203を更に含み、図3Aに示すように、
ステップ201において、予め証明書類画像を所定の縮小比例で縮小処理する。
端末は予め証明書類画像の大きさに基づき所定の縮小比例で証明書類画像を縮小処理し、縮小処理後の証明書類画像を得る。証明書類画像の縮小処理は証明書類画像における所定縁を探す速度を向上させることができる。
ステップ203において、処理後の証明書類画像における所定領域を連結処理する。
ソーベル水平フィルタリングと2値化処理後の証明書類画像を取得し、処理後の証明書類画像を連結処理し、2値化した証明書類画像における前景色ピクセルからなる面積が大きい領域と面積が小さい領域を除去し、それによってより正確に証明書類画像における所定縁を認識することができる。連結処理後の証明書類画像を図3Bに示す。
以上のように、本実施例により提供される領域認識方法は、予め証明書類画像を所定の縮小比例で縮小処理することによって、証明書類画像における所定縁の探す速度を向上させる。
処理後の証明書類画像における所定領域に対して連結処理を行うことにより、証明書類画像における所定縁を決定する正確性を向上させ、後続の情報領域の認識時の正確性を向上させることができる。
図2Aに基づく実施例により提供される選択可能な実施例において、証明書類は証明書類画像において微小角度の回転が存在し、即ち証明書類の証明書類画像における位置が水平ではなく、水平方向に角度が存在する。端末は所定縁の傾きに基づいて証明書類画像に対して勾配修正を行うことが好ましい。即ち、ステップ204の後、該方法はステップ205aとステップ205bを更に含み、図4に示すように、
ステップ205aにおいて、所定縁の傾きに基づいて、所定縁と水平方向とのなす角度を決定し、
端末は証明書類画像の所定縁と水平方向とのなす角度を算出する。該角度は、証明書類と水平方向とのなす角度である。
ステップ205bにおいて、証明書類画像を角度に応じて回転させ、回転後の証明書類画像における所定縁が水平方向と平行になる。
以上のように、本実施例により提供される領域認識方法は、証明書類画像における証明書類が水平方向と平行になるように、証明書類画像の所定縁を回転校正することによって、後続の情報領域の認識時の正確性を向上させることができる。
図2Aに基づく実施例により提供される選択可能な実施例において、ステップ208は情報領域を領域切断する過程である。そのかわりに、例えば以下のステップ208a〜ステップ208eとして実現してもよく、図5Aに示すように、
ステップ208aにおいて、情報領域を2値化し、2値化後の情報領域を得て、
情報領域が公民身分証明書番号領域であることを例として、まず情報領域をプリ処理することが好ましい。そのうち、プリ処理は、ノイズ除去、フィルタリング、縁抽出等の操作を含んでもよく、プリ処理後の情報領域を2値化する。
ステップ208bにおいて、2値化後の情報領域に対して水平方向に応じて第1のヒストグラムを計算し、第1のヒストグラムが、各行ピクセルの縦座標及び各行ピクセルにおける前景色ピクセルの累積値を含み、
2値化後の情報領域を水平方向に応じて第1のヒストグラムを算出し、図5Bに示すように、該第1のヒストグラムは、垂直方向で各行のピクセルの縦座標を表し、水平方向で各行のピクセルにおける前景色ピクセルの個数累積値を表す。
ステップ208cでは、第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットに基づいて、n行の文字領域を認識して得て、nが正の整数であり、
第1のヒストグラムに基づいて、各行のピクセルにおける前景色ピクセルの累積値を取得し、各行のピクセルにおける前景色ピクセルの累積値と第1の閾値とを比較し、第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットを、文字領域が所在する行として決定することができる。
連続行セットは、前景色ピクセルの累積値が第1の閾値より大きい行が連続的なm行であり、該連続的なm行のピクセルからなるセットを意味し、図5Cに示すように、図におけるm行のピクセルに対して、左側ヒストグラムに位置する前景色ピクセルの累積値がいずれも第1の閾値より大きい。該m行のピクセルは証明書類画像において公民身分証明書番号行「0421199」と対応する。
もちろん、該情報領域がアドレス情報領域又は他の情報領域であれば、文字領域は2行又は2行以上である可能性がある。このとき、各連続行セットを1行の文字領域として認識し、n個の連続行セットをn行の文字領域として認識する。
ステップ208dでは、i行目の文字領域に対して、垂直方向に応じて第2のヒストグラムを算出し、第2のヒストグラムが、各列のピクセルの横軸及び各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正の整数である。
認識した公民身分証明書番号行に対して、垂直方向に応じて第2ヒストグラムを算出し、該第2ヒストグラムは水平方向で各列のピクセルの横軸を表し、垂直方向で各列のピクセルにおける前景色ピクセルの個数累積値を表し、前景色ピクセルは2値化後の画像における白色ピクセルを指し、図5Dに示すようである。
ステップ208eでは、第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットに基づいて、n個のキャラクター領域を認識して得る。
第2のヒストグラムに基づいて、各列のピクセルにおける前景色ピクセルの累積値を取得し、各列のピクセルにおける前景色ピクセルの累積値と第2の閾値を比較し、第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットを、キャラクター領域が所在する列として決定することができる。
連続列セットは、前景色ピクセルの累積値が第2の閾値より大きい列が連続的なp列で、該連続的なp列のピクセルからなるセットを意味し、図5Eに示すように、連続列セットはpであり、即ち第2のヒストグラムに形成された連続的な白色領域である。図におけるp列のピクセルに対して、下側に位置するヒストグラムにおける前景色ピクセルの累積値がいずれも第2の閾値より大きい。該p列ピクセルは証明書類画像においてキャラクター領域「3」と対応する。
各連続列セットを1つのキャラクター領域として認識し、n個の連続列セットをn個のキャラクター領域として認識する。図5Eで、18個のキャラクター領域を認識することができる。
文字領域にn行あれば、ステップ208d及びステップ208eは各行文字領域に対して1回実行され、共にn回実行される。
認識された各キャラクター領域に対して、更にキャラクター認識技術により、該キャラクター領域に含む文字を認識することができる。文字は漢字、アルファベット、数字又は他の言語の単一キャラクターであってもよい。
以上のように、本実施例により提供される領域認識方法は、情報領域を2値化して、2値化後の情報領域を水平方向に応じて第1ヒストグラムを算出し、情報領域におけるn行の文字領域を決定し、更にそれぞれn行の文字領域を垂直方向に応じて第2ヒストグラムを算出し、各文字の対応するキャラクター領域を認識することによって、認識情報領域におけるキャラクター領域の正確性を向上させることができる。
以下は本発明の装置の実施例であり、本発明の方法の実施例の実行において使用することができる。本発明の装置の実施例で開示されていない詳細は、本発明の方法の実施例を参照する。
図6は例示的な実施例に係る領域認識装置を示すブロック図であり、図6に示すように、該領域認識装置は、認識モジュール610、決定モジュール620、及び切断モジュール630を備えるが、これらに限定されない。
認識モジュール610は、証明書類画像における証明書類の所定縁を認識し、所定縁が証明書類の所定方向に位置する縁であるように配置され、
証明書類画像は証明書類を直接的に撮影して得られた画像であり、例えば、身分証明書画像または社会保障カード画像等が挙げられる。
決定モジュール620は、所定縁に基づいて、証明書類画像において少なくとも1つの情報領域を決定するように配置され、
証明書類画像における所定縁の位置は相対的に一定であり、且つ所定縁の位置決めの難易度が通常情報領域の位置決めの難易度より低いため、決定モジュール620は所定縁に基づき証明書類画像において各情報領域を決定することができる。
情報領域は、証明書類画像において文字情報がある領域、例えば、名前情報領域、生年月日情報領域、性別領域、アドレス情報領域、公民身分証明書番号情報領域、番号情報領域、証明書発行機関情報領域および有効期限情報領域などの情報領域のうちの少なくとも1種を意味する。
切断モジュール630は、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置される。
情報領域には複数のキャラクターが含まれている。1つの情報領域に対して、切断モジュール630は、領域切断により少なくとも1つのキャラクター領域を得ることができる。キャラクター領域は単一キャラクターを含む領域である。キャラクターは漢字、アルファベット、数字又は他の言語のキャラクターであってもよい。
以上のように、本発明の実施例により提供された領域認識装置は、証明書類画像における証明書類の所定縁を認識し、所定縁に基づいて、証明書類画像において少なくとも1つの情報領域を決定し、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得る。関連技術において直接的に撮影して得られた証明書類画像におけるある情報領域に対する認識難易度が大きく、且つある情報領域に対する位置決めが不正確な問題を解決し、証明書類画像における所定縁によって情報領域を決定し、情報領域を切断し、それにより情報領域に対し正確に位置決めを行うとともに、情報領域におけるキャラクター領域を正確に認識する効果を達する。
図6に基づく実施例により提供される選択可能な実施例において、認識モジュール610は以下のサブモジュールを更に備えてもよく、図7に示すように、
フィルタリングサブモジュール611は、証明書類画像に対してソーベル水平フィルタリングと2値化を行い、処理後の証明書類画像を得るように配置され、
まず、フィルタリングサブモジュール611は証明書類画像をソーベル(sobel)水平フィルタリングして、即ちソーベル(sobel)演算子を採用して水平方向に沿ってフィルタリングする。次に、フィルタリング後の証明書類画像を2値化する。
2値化とは、証明書類画像におけるピクセルのグレー値と所定のグレー閾値を比較して、証明書類画像におけるピクセルを、所定のグレー閾値よりも大きいピクセル群と所定のグレー閾値よりも小さいピクセル群との両方に分け、これらのピクセル群に証明書類画像においてそれぞれ黒と白の2種の異なる色を呈させ、2値化後の証明書類画像を得る。
検出サブモジュール612は、処理後の証明書類画像における所定領域を直線検出して、ターゲット直線を得て、ターゲット直線を証明書類の所定縁として認識するように配置される。
該所定領域は、証明書類画像における証明書類の所定縁が存在する可能性がある領域である。例えば、該所定領域は、証明書類の下縁の証明書類画像における領域などであり、又は、該所定領域は、証明書類の上縁の証明書類画像における領域などである。
フィルタリングサブモジュール611によって処理された証明書類画像を取得した後に、検出サブモジュール612は処理後の証明書類画像を直線検出する。検出サブモジュール612における直線検出は直線フィッティングアルゴリズム又はハフ(Hough)変換アルゴリズムによって実現され、それによりターゲット直線を得て、該ターゲット直線を証明書類の証明書類画像における所定縁として認識することが好ましい。
以上のように、本発明の実施例により提供された領域認識装置は、証明書類画像に対してソーベル水平フィルタリングと2値化を行い、処理後の証明書類画像を得、処理後の証明書類画像における所定領域を直線検出して、ターゲット直線を得て、ターゲット直線を証明書類の所定縁として認識し、所定縁に基づいて、証明書類画像において少なくとも1つの情報領域を決定し、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得る。関連技術において直接的に撮影して得られた証明書類画像におけるある情報領域に対する認識難易度が大きく、且つある情報領域に対する位置決めが不正確な問題を解決し、証明書類画像における所定縁によって情報領域を決定し、情報領域を切断し、それにより情報領域に対し正確に位置決めを行うとともに、情報領域におけるキャラクター領域を正確に認識する効果を達する。
図7に基づく実施例により提供される選択可能な実施例において、該装置は下記のモジュールを更に備えてもよく、図8に示すように、
縮小モジュール810は、予め証明書類画像を所定の縮小比例で縮小処理するように配置される。
縮小モジュール810は予め証明書類画像の大きさに基づき所定の縮小比例で証明書類画像を縮小処理して、縮小処理後の証明書類画像を得る。証明書類画像の縮小処理は証明書類画像における所定縁を探す速度を向上させることができる。
連結モジュール820は、処理後の証明書類画像における所定領域を連結処理するように配置される。
フィルタリングサブモジュール611によって処理された証明書類画像を取得して、連結モジュール820は処理後の証明書類画像を連結処理して、2値化した証明書類画像における前景色ピクセルからなる面積が大きい領域と面積が小さい領域を除去し、それにより、より正確に証明書類画像における所定縁を認識できる。
そのうち、決定モジュール620は、更に所定縁及び所定縁と情報領域の間の相対的な位置関係である相対的な位置関係に基づいて、少なくとも1つの情報領域を決定するように配置される。
証明書類は第2代身分証明書であり、所定縁は第2代身分証明書の下縁であり、情報領域は第2代身分証明書の公民身分証明書番号領域であれば、決定モジュール620は、下縁の上方にある所定高さの領域を、公民身分証明書番号領域として決定するように配置されることが好ましい。
以上のように、本実施例により提供される領域認識装置は、予め証明書類画像を所定の縮小比例で縮小処理することによって、証明書類画像における所定縁の探す速度を向上させる。
処理後の証明書類画像における所定領域に対して連結処理を行うことにより、証明書類画像における所定縁を決定する正確性を向上させ、後続の情報領域を認識するときの正確性を向上させることができる。
図7に基づく実施例により提供される選択可能な実施例において、該装置は下記のモジュールを更に備えてもよく、図9に示すように、
修正モジュール910は、所定縁の傾きに基づいて、証明書類画像に対して勾配修正を行うように配置される。
該修正モジュール910は下記のサブモジュールを備えることが好ましい。
角度決定サブモジュール911は所定縁の傾きに基づいて、所定縁と水平方向とのなす角度を決定するように配置され、
端末は角度決定サブモジュール911によって証明書類画像の所定縁と水平方向とのなす角度を算出する。該角度は、証明書類と水平方向とのなす角度である。
回転サブモジュール912は、証明書類画像を角度に応じて回転させ、回転後の証明書類画像における所定縁が水平方向と平行になるように配置される。
端末は回転サブモジュール912によって証明書類画像を角度決定サブモジュール911によって算出された角度で回転する。
以上のように、本実施例により提供される領域認識装置は、証明書類画像における証明書類が水平方向と平行になるように、証明書類画像の所定縁を回転校正することによって、後続の情報領域の認識時の正確性を向上させることができる。
図7に基づく実施例により提供される選択可能な実施例において、切断モジュール630は下記のモジュールを備えてよく、図10に示すように、
2値化サブモジュール631は、情報領域を2値化し、2値化後の情報領域を得るように配置され、
情報領域が公民身分証明書番号領域であることを例として、2値化サブモジュール631はまず情報領域をプリ処理することが好ましい。そのうち、プリ処理は、ノイズ除去、フィルタリング、縁抽出などの操作を含んでもよく、プリ処理後の情報領域を2値化する。
第1の算出サブモジュール632は、2値化後の情報領域に対して水平方向に応じて各行ピクセルの縦座標及び各行ピクセルにおける前景色ピクセルの累積値を含む第1のヒストグラムを算出するように配置され、
第1の算出サブモジュール632は2値化サブモジュール631によって処理された情報領域を水平方向に応じて第1ヒストグラムを算出し、該第1ヒストグラムが、垂直方向で各行のピクセルの縦座標を示し、水平方向で各行のピクセルにおける前景色ピクセルの個数累積値を表す。
行認識サブモジュール633は、第1ヒストグラムにおける前景色ピクセルの累積値が第1閾値よりも大きい行からなる連続行セットに基づいて、n行の文字領域を認識して得て、nが正整数であるように配置され、
第1のヒストグラムに基づいて、各行ピクセルにおける前景色ピクセルの累積値を取得することができ、行認識サブモジュール633は、各行ピクセルにおける前景色ピクセルの累積値と第1の閾値を比較し、第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットを、文字領域が所在する行として決定する。
連続行セットは、前景色ピクセルの累積値が第1の閾値より大きい行が連続的なm行であり、該連続的なm行のピクセルからなるセットを意味する。
各連続行セットを1行の文字領域として認識し、n個の連続行セットをn行の文字領域として認識する。
第2の算出サブモジュール634はi行目の文字領域に対して、垂直方向に応じて第2のヒストグラムを算出し、第2のヒストグラムが、各列のピクセルの横座標及び各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正の整数であるように配置され、
行認識サブモジュール633により認識された公民身分証明書番号行に対して、第2の算出サブモジュール634は垂直方向に応じて第2ヒストグラムを計算し、該第2ヒストグラムは水平方向で各列のピクセルの横座標を表し、垂直方向で各列のピクセルにおける前景色ピクセルの個数累積値を表し、前景色ピクセルとは2値化後の画像における白色ピクセルを指す。
キャラクター認識サブモジュール635は、第2ヒストグラムにおける前景色ピクセルの累積値が第2閾値よりも大きい列からなる連続列セットに基づいて、n個のキャラクター領域を認識して得るように配置される。
第2のヒストグラムに基づいて、各列のピクセルにおける前景色ピクセルの累積値を取得することができ、キャラクター認識サブモジュール635は、各列のピクセルにおける前景色ピクセルの累積値と第2の閾値を比較し、第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットを、キャラクター領域が所在する列として決定する。
連続列セットは、前景色ピクセルの累積値が第2の閾値より大きい列が連続的なp列で、該連続的なp列ピクセルからなるセットを意味する。
各連続列セットを1つのキャラクター領域として認識し、n個の連続列セットをn個のキャラクター領域として認識する。
以上のように、本実施例により提供される領域認識装置は、情報領域を2値化して、2値化後の情報領域を水平方向に応じて第1ヒストグラムを算出し、情報領域におけるn行の文字領域を決定し、更にそれぞれn行の文字領域を垂直方向に応じて第2ヒストグラムを算出し、各文字の対応するキャラクター領域を認識することによって、情報領域におけるキャラクター領域を認識する正確性を向上させることができる。
本発明の例示的な実施例は、領域認識装置を提供しており、本発明に係る領域認識方法を実現することができ、該領域認識装置は、プロセッサと、プロセッサにより実行可能なコマンドを記憶するためのメモリとを備え、
そのうち、プロセッサは、
証明書類画像における証明書類の所定縁を認識し、所定縁が証明書類の所定方向に位置する縁であり、
所定縁に基づいて、証明書類画像において少なくとも1つの情報領域を決定し、
情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置される。
上記実施例における装置について、各モジュールの操作を実行する具体的な方式は既に該方法に関する実施例において詳しく説明したため、ここで詳細に説明しない。
図11は一例示的な実施例により示された領域認識方法に適用される装置のブロック図である。例えば、装置1100は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信設備、ゲームコンソール、タブレット型装置、医療設備、フィットネス装置またはパーソナルデジタルアシスタントなどである。
図11を参照して、装置1100は、処理部材1102、メモリ1104、電源部材1106、マルチメディア部材1108、オーディオ部材1110、入力/出力(I/O)インターフェース1112、センサー部材1114、及び通信部材1116のうちの一つ又は複数の部材を含むことができる。
処理部材1102は、通常、装置1100の全体的操作、例えば、表示、電話呼び出し、データ通信、カメラ操作及び記録操作に関する操作を制御する。処理部材1102は、上記方法の全部又は一部のステップを完成するために、コマンドを実行する一つ又は複数のプロセッサ1118を含むことができる。さらに、処理部材1102はその他の部材とのインタラクションが容易であるように、一つ又は複数のモジュールを含むことができる。例えば、処理部材1102は、マルチメディア部材1108と処理部材1102とのインタラクションが容易であるように、マルチメディアモジュールを含むことができる。
メモリ1104は、装置1100における操作をサポートするために、さまざまなタイプのデータを記憶するように配置される。これらのデータの実例は、装置1100において操作される如何なるアプリケーション又は方法のコマンド、連絡先データ、電話帳データ、メッセージ、ピクチャ、ビデオなどを含む。メモリ1104は如何なるタイプの揮発性又は非揮発性メモリ又はそれらの組合せ、例えばスタティックランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクにより実現することができる。
電源部材1106は装置1100のさまざまな部材に対し電力を供給する。電源部材1106は電源管理システム、一つ又は複数の電源、及びその他の装置1100に対する電力の生成、管理及び供給に関連する部材を含むことができる。
マルチメディア部材1108は、装置1100とユーザーとの間の出力インターフェースを提供するスクリーンを含む。一部の実施例において、スクリーンは液晶ディスプレイ(LCD)とタッチパネル(TP)を含むことができる。スクリーンにタッチパネルが含まれる場合、スクリーンはユーザーからの入力信号を受信するために、タッチスクリーンで実現されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルにおけるジェスチャーを感知するために、一つ又は複数のタッチセンサーを含む。タッチセンサーは、タッチ又はスワイプ動作の境界を感知するとともに、タッチ又はスワイプ動作に関わる持続時間及び圧力を検出することができる。一部の実施例において、マルチメディア部材1108は、フロントカメラ及び/又はバックカメラを含む。装置1100が操作モードである場合、例えば、撮影モード又はビデオモードである場合、フロントカメラ及び/又はバックカメラは外部のマルチメディアデータを受信することができる。各フロントカメラ及びバックカメラは、固定された光学レンズシステムであってもよく、又は焦点距離と光学ズーム能力を有する。
オーディオ部材1110は、オーディオ信号を出力及び/又は入力するように配置される。例えば、オーディオ部材1110は、マイクロフォン(MIC)を含み、装置1100が操作モードである場合、例えば、呼び出しモード、記録モード及び音声認識モードである場合、マイクロフォンは外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらにメモリ1104に記憶され、又は通信部材1116を介して送信される。一部の実施例において、オーディオ部材1110は、さらにオーディオ信号を出力するスピーカーを含む。
I/Oインターフェース1112は、処理部材1102と周辺インターフェースモジュールとの間にインターフェースを提供し、上記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン及びロックボタンを含むことができるがこれに限定されない。
センサー部材1114は、装置1100に対し各方面の状態評価を提供する一つ又は複数のセンサーを含む。例えば、センサー部材1114は、装置1100のオン/オフ状態、部材の相対的位置決めを検出することができ、上記部材は、例えば、装置1100のディスプレイ及びキーパッドであり、センサー部材1114は、さらに装置1100又は装置1100の一つの部材の位置変化、ユーザーと装置1100との接触の有無、装置1100の方角又は加速/減速及び装置1100の温度変化を検出することができる。センサー部材1114は、近接センサーを含むことができ、如何なる物理的接触がないとき、近傍物体の存在を検出するように構成される。センサー部材1114は、さらにイメージングアプリケーションに用いられる光学センサー、例えば、CMOS又はCCDイメージセンサーを含むことができる。一部の実施例において、該センサー部材1114は、さらに加速度センサー、ジャイロセンサー、磁気センサー、圧力センサー又は温度センサーを含むことができる。
通信部材1116は、装置1100とその他の装置との有線又は無線による通信が容易であるように配置される。装置1100は、通信標準に基づく無線ネットワーク、例えばWiFi、2G又は3G、又はそれらの組合せにアクセスすることができる。一例示的な実施例において、通信部材1116は、放送チャネルを介して外部放送管理システムからの放送信号又は放送関連情報を受信する。一例示的な実施例において、通信部材1116は、狭域通信を促進するために、さらに近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールにおいて、無線周波数認識(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及びその他の技術に基づいて実現することができる。
例示的な実施例において、装置1100は、一つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラー、マイクロコントローラー、マイクロプロセッサ又はその他の電子部品により実現することができ、上記領域認識方法を実行するのに用いられる。
例示的な実施例において、さらに、コマンドを含む非一時的なコンピュータ可読記憶媒体、例えば、コマンドを含むメモリ1104を提供し、上記領域認識方法を完成するために、上記コマンドは装置1100のプロセッサ1118により実行することができる。例えば、非一時的なコンピュータ可読記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD−ROM、磁気テープ、フロッピーディスク及び光データ記憶装置などであってもよい。
当業者であれば、明細書を考慮しここに開示された発明を実践した後、本発明のその他の実施態様を容易に想到できる。本願は、本発明の如何なる変形、用途又は適応的変化を含むためのものであり、これらの変形、用途又は適応的変化は本発明の一般的な原理に準じ、本発明の開示されていない本技術分野における公知常識又は慣用の技術手段を含む。明細書と実施例は例示的なものに過ぎず、本発明の実際の範囲と精神は特許請求の範囲により与えられる。
理解すべきことは、本発明は既に上記のように説明され、図面に示された正確な構造に限定されず、その範囲を逸脱しない限りにおいて様々な修正や変更を行うことができる。本発明の範囲は特許請求の範囲のみにより限定される。

Claims (17)

  1. 領域認識方法であって
    証明書類画像における証明書類の所定縁を認識し、前記所定縁が前記証明書類の所定方向に位置する縁であることと、
    前記所定縁に基づいて、前記証明書類画像において少なくとも1つの情報領域を決定することと、
    前記情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を取得ことと、を含み、
    前記情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を取得することは、
    前記情報領域を2値化し、2値化後の情報領域を取得することと、
    前記2値化後の情報領域に対して水平方向に応じて第1のヒストグラムを算出し、前記第1のヒストグラムが、各行ピクセルの縦座標及び前記各行ピクセルにおける前景色ピクセルの累積値を含むことと、
    前記第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットに基づいて、n行の文字領域を認識して取得して、nが正の整数であることと、
    i行目の文字領域に対して、垂直方向に応じて第2のヒストグラムを算出し、前記第2のヒストグラムが各列のピクセルの横座標及び前記各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正の整数であることと、
    前記第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットに基づいて、複数個のキャラクター領域を認識して取得することと、を含むことを特徴とする領域認識方法。
  2. 前記証明書類画像における証明書類の所定縁を認識することは、
    前記証明書類画像に対してソーベル水平フィルタリング及び2値化を行い、処理後の証明書類画像を得ることと、
    前記処理後の証明書類画像における所定領域を直線検出して、ターゲット直線を得、前記ターゲット直線を前記証明書類の前記所定縁として認識することと、を含むことを特徴とする請求項1に記載の方法。
  3. 予め前記証明書類画像を所定の縮小比例で縮小処理することを更に含むことを特徴とする請求項1又は2に記載の方法。
  4. 前記処理後の証明書類画像における所定領域を連結処理することを更に含むことを特徴とする請求項2に記載の方法。
  5. 前記所定縁に基づいて、前記証明書類画像において少なくとも1つの情報領域を決定することは、
    前記所定縁と相対的な位置関係に基づき、少なくとも1つの情報領域を決定し、前記相対的な位置関係は前記所定縁と前記情報領域との間の相対的な位置関係であることを含むことを特徴とする請求項1〜4のいずれかに記載の方法。
  6. 前記証明書類は第2代身分証明書であり、前記所定縁は前記第2代身分証明書の下縁であり、前記情報領域は前記第2代身分証明書の公民身分証明書番号領域であり、
    前記所定縁と相対的な位置関係に基づき、少なくとも1つの情報領域を決定することは、
    前記下縁の上方にある所定高さの領域を、前記公民身分証明書番号領域として決定することを含むことを特徴とする請求項5に記載の方法。
  7. 前記所定縁の傾きに基づいて、前記証明書類画像に対して勾配修正を行うことを更に含むことを特徴とする請求項1〜のいずれかに記載の方法。
  8. 前記所定縁の傾きに基づいて、前記証明書類画像に対して勾配修正を行うことは、
    前記所定縁の傾きに基づいて、前記所定縁と水平方向とのなす角度を決定することと、
    前記証明書類画像を前記角度に応じて回転させ、回転後の前記証明書類画像における前記所定縁が前記水平方向と平行になることと、を含むことを特徴とする請求項7に記載の方法。
  9. 領域認識装置であって、
    証明書類画像における証明書類の所定縁を認識し、前記所定縁が前記証明書類の所定方向に位置する縁であるように配置される認識モジュールと、
    前記所定縁に基づいて、前記証明書類画像において少なくとも1つの情報領域を決定するように配置される決定モジュールと、
    前記情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を取得するように配置される切断モジュールと、を備え
    前記切断モジュールは、
    前記情報領域を2値化し、2値化後の情報領域を取得するように配置される2値化サブモジュールと、
    前記2値化後の情報領域に対して水平方向に応じて第1のヒストグラムを算出し、前記第1のヒストグラムが、各行ピクセルの縦座標及び前記各行ピクセルにおける前景色ピクセルの累積値を含むように配置される第1の算出サブモジュールと、
    前記第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットに基づいて、n行の文字領域を認識して取得して、nが正の整数であるように配置される行認識サブモジュールと、
    i行目の文字領域に対して、垂直方向に応じて第2のヒストグラムを算出し、前記第2のヒストグラムが各列のピクセルの横座標及び前記各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正の整数であるように配置される第2の算出サブモジュールと、
    前記第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットに基づいて、複数個のキャラクター領域を認識して取得するように配置されるキャラクター認識サブモジュールと、を備えることを特徴とする領域認識装置。
  10. 前記認識モジュールは、
    前記証明書類画像に対してソーベル水平フィルタリングと2値化を行い、処理後の証明書類画像を得るように配置されるフィルタリングサブモジュールと、
    前記処理後の証明書類画像における所定領域を直線検出して、ターゲット直線を得、前記ターゲット直線を前記証明書類の前記所定縁として認識するように配置される検出サブモジュールと、を備えることを特徴とする請求項に記載の装置。
  11. 予め前記証明書類画像を所定の縮小比例で縮小処理するように配置される縮小モジュールを更に備えることを特徴とする請求項9又は10に記載の装置。
  12. 前記処理後の証明書類画像における所定領域を連結処理するように配置される連結モジュールを更に備えることを特徴とする請求項10に記載の装置。
  13. 前記決定モジュールは、前記所定縁と相対的な位置関係に基づき、少なくとも1つの情報領域を決定し、前記相対的な位置関係が前記所定縁と前記情報領域との間の相対的な位置関係であるように配置されることを特徴とする請求項9〜12のいずれかに記載の装置。
  14. 前記証明書類は第2代身分証明書であり、前記所定縁は前記第2代身分証明書の下縁であり、前記情報領域は前記第2代身分証明書の公民身分証明書番号領域であり、
    前記決定モジュールは、前記下縁の上方にある所定高さの領域を、前記公民身分証明書番号領域として決定するように配置されることを特徴とする請求項13に記載の装置。
  15. 前記所定縁の傾きに基づいて、前記証明書類画像に対して勾配修正を行うように配置される修正モジュールを更に備えることを特徴とする請求項9〜14のいずれかに記載の装置。
  16. 前記修正モジュールは、
    前記所定縁の傾きに基づいて、前記所定縁と水平方向とのなす角度を決定するように配置される角度決定サブモジュールと、
    前記証明書類画像を前記角度に応じて回転させ、回転後の前記証明書類画像における前記所定縁が前記水平方向と平行になるように配置される回転サブモジュールと、を備えることを特徴とする請求項15に記載の装置。
  17. 領域認識装置であって、
    プロセッサと、前記プロセッサにより実行可能なコマンドを記憶するメモリと、を備え、
    前記プロセッサは、
    証明書類画像における証明書類の所定縁を認識し、前記所定縁が前記証明書類の所定方向に位置する縁であり、
    前記所定縁に基づいて、前記証明書類画像において少なくとも1つの情報領域を決定し、
    前記情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を取得するように配置され
    前記情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を取得することは、
    前記情報領域を2値化し、2値化後の情報領域を取得することと、
    前記2値化後の情報領域に対して水平方向に応じて第1のヒストグラムを算出し、前記第1のヒストグラムが、各行ピクセルの縦座標及び前記各行ピクセルにおける前景色ピクセルの累積値を含むことと、
    前記第1のヒストグラムにおける前景色ピクセルの累積値が第1の閾値より大きい行からなる連続行セットに基づいて、n行の文字領域を認識して取得して、nが正の整数であることと、
    i行目の文字領域に対して、垂直方向に応じて第2のヒストグラムを算出し、前記第2のヒストグラムが各列のピクセルの横座標及び前記各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正の整数であることと、
    前記第2のヒストグラムにおける前景色ピクセルの累積値が第2の閾値より大きい列からなる連続列セットに基づいて、複数個のキャラクター領域を認識して取得することと、を含むことを特徴とする領域認識装置。
JP2017547042A 2015-10-30 2015-12-28 領域認識方法及び装置 Active JP6400226B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510727934.XA CN105528600A (zh) 2015-10-30 2015-10-30 区域识别方法及装置
CN201510727934.X 2015-10-30
PCT/CN2015/099264 WO2017071058A1 (zh) 2015-10-30 2015-12-28 区域识别方法及装置

Publications (2)

Publication Number Publication Date
JP2018500702A JP2018500702A (ja) 2018-01-11
JP6400226B2 true JP6400226B2 (ja) 2018-10-03

Family

ID=55770814

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017547042A Active JP6400226B2 (ja) 2015-10-30 2015-12-28 領域認識方法及び装置

Country Status (8)

Country Link
US (1) US20170124412A1 (ja)
EP (1) EP3163505A1 (ja)
JP (1) JP6400226B2 (ja)
KR (1) KR101782633B1 (ja)
CN (1) CN105528600A (ja)
MX (1) MX361846B (ja)
RU (1) RU2641449C2 (ja)
WO (1) WO2017071058A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550633B (zh) * 2015-10-30 2018-12-11 小米科技有限责任公司 区域识别方法及装置
CN106446898A (zh) * 2016-09-14 2017-02-22 宇龙计算机通信科技(深圳)有限公司 一种图像中文字信息的提取方法及装置
CN106778744A (zh) * 2016-12-17 2017-05-31 北京小米移动软件有限公司 一种识别信息卡的信息的方法和装置
CN106778748A (zh) * 2016-12-30 2017-05-31 江西憶源多媒体科技有限公司 基于人工神经网络的身份证快速识别方法及其装置
JP6810892B2 (ja) * 2017-06-05 2021-01-13 京セラドキュメントソリューションズ株式会社 画像処理装置
CN107918935B (zh) * 2017-12-05 2022-03-08 深圳市北电仪表有限公司 嵌入式系统的图像匹配切割装置及切割方法
CN108838099A (zh) * 2018-03-28 2018-11-20 广州大学 基于机器视觉的别针徽章瑕疵检测系统及方法
CN108647680B (zh) * 2018-04-28 2021-11-12 北京盒子鱼教育科技有限公司 图像定位框检测方法和装置
CN110569835B (zh) * 2018-06-06 2024-03-05 北京搜狗科技发展有限公司 一种图像识别方法、装置和电子设备
CN109164932B (zh) * 2018-08-02 2021-07-23 深圳市德明利技术股份有限公司 一种触控识别方法及触控装置
CN109325480B (zh) * 2018-09-03 2024-07-23 安徽华泰高科信息技术有限责任公司 身份信息的录入方法及终端设备
CN111325063B (zh) * 2018-12-14 2024-01-05 航天信息股份有限公司 识别虚拟数字键盘的方法、装置和存储介质
KR102226843B1 (ko) * 2019-02-26 2021-03-12 주식회사 핀그램 오브젝트 검출 시스템 및 그 방법
CN111723627B (zh) * 2019-03-22 2024-07-23 北京搜狗科技发展有限公司 一种图像处理方法、装置和电子设备
CN110533030B (zh) * 2019-08-19 2023-07-14 三峡大学 基于深度学习的太阳胶片图像时间戳信息提取方法
CN110378328B (zh) * 2019-09-16 2019-12-13 图谱未来(南京)人工智能研究院有限公司 一种证件图像处理方法及装置
CN113256490A (zh) * 2020-02-13 2021-08-13 北京小米松果电子有限公司 文档图像的处理方法、装置及介质
CN111898602B (zh) * 2020-08-10 2024-04-16 赞同科技股份有限公司 一种图像中的凭证号码区域识别方法、装置及设备
CN115082919B (zh) * 2022-07-22 2022-11-29 平安银行股份有限公司 一种地址识别方法、电子设备及存储介质

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161423A (ja) * 1994-12-06 1996-06-21 Dainippon Printing Co Ltd 照明装置および文字読取装置
US5999647A (en) * 1995-04-21 1999-12-07 Matsushita Electric Industrial Co., Ltd. Character extraction apparatus for extracting character data from a text image
US5889884A (en) * 1995-05-23 1999-03-30 Minolta Co., Ltd. Image forming apparatus capable of recognizing top and bottom of document image
KR100389194B1 (ko) * 2001-07-09 2003-06-27 씨엔씨엔터프라이즈 주식회사 카드 블랙리스트 데이터의 압축방법 및 그의 전송시스템
JP3823782B2 (ja) * 2001-08-31 2006-09-20 日産自動車株式会社 先行車両認識装置
JP3931651B2 (ja) * 2001-12-21 2007-06-20 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置
JP4322041B2 (ja) * 2003-04-25 2009-08-26 シャープ株式会社 画像処理装置、画像処理方法、画像処理プログラムおよびそのプログラムを記録したコンピュータ読取可能な記録媒体
RU2309456C2 (ru) * 2005-12-08 2007-10-27 "Аби Софтвер Лтд." Способ распознавания текстовой информации из векторно-растрового изображения
CN100517374C (zh) * 2005-12-29 2009-07-22 佳能株式会社 从复杂背景文档图像提取文本的装置、方法
EP2143041A4 (en) * 2007-05-01 2011-05-25 Compulink Man Ct Inc PHOTODOCUMENTEGMENTATION METHOD AND METHOD
US8064729B2 (en) * 2008-04-03 2011-11-22 Seiko Epson Corporation Image skew detection apparatus and methods
CN101510258B (zh) * 2009-01-16 2013-02-13 北京中星微电子有限公司 一种证件验证方法、系统及一种证件验证终端
JP2010186246A (ja) * 2009-02-10 2010-08-26 Nec Corp 画像処理装置、方法、及び、プログラム
US9639949B2 (en) * 2010-03-15 2017-05-02 Analog Devices, Inc. Edge orientation for second derivative edge detection methods
JP5591578B2 (ja) * 2010-04-19 2014-09-17 日本電産サンキョー株式会社 文字列認識装置および文字列認識方法
CN102955941A (zh) * 2011-08-31 2013-03-06 汉王科技股份有限公司 身份信息录入方法和装置
CN102930265B (zh) * 2012-09-19 2015-07-29 广州市中崎商业机器有限公司 一种多身份证扫描方法及装置
KR101295000B1 (ko) * 2013-01-22 2013-08-09 주식회사 케이지모빌리언스 카드 번호의 영역 특성을 이용하는 신용 카드의 번호 인식 시스템 및 신용 카드의 번호 인식 방법
JP6161484B2 (ja) * 2013-09-19 2017-07-12 株式会社Pfu 画像処理装置、画像処理方法及びコンピュータプログラム
US8995774B1 (en) * 2013-09-19 2015-03-31 IDChecker, Inc. Automated document recognition, identification, and data extraction
CN103488984B (zh) * 2013-10-11 2017-04-12 瑞典爱立信有限公司 基于智能移动设备的二代身份证识别方法及装置
CN104573616A (zh) * 2013-10-29 2015-04-29 腾讯科技(深圳)有限公司 一种信息识别方法、相关装置及系统
CN104298985A (zh) * 2014-08-11 2015-01-21 东莞中山大学研究院 一种基于迭代的图像文本区域检测方法
US9760788B2 (en) * 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
CN104680161A (zh) * 2015-01-09 2015-06-03 安徽清新互联信息科技有限公司 一种身份证数字识别方法

Also Published As

Publication number Publication date
WO2017071058A1 (zh) 2017-05-04
MX2016003578A (es) 2017-07-14
KR101782633B1 (ko) 2017-09-27
EP3163505A1 (en) 2017-05-03
KR20170061627A (ko) 2017-06-05
CN105528600A (zh) 2016-04-27
RU2641449C2 (ru) 2018-01-17
MX361846B (es) 2018-12-18
RU2016110142A (ru) 2017-09-28
US20170124412A1 (en) 2017-05-04
JP2018500702A (ja) 2018-01-11

Similar Documents

Publication Publication Date Title
JP6400226B2 (ja) 領域認識方法及び装置
JP6401873B2 (ja) 領域認識方法及び装置
US10127471B2 (en) Method, device, and computer-readable storage medium for area extraction
JP6392468B2 (ja) 領域認識方法及び装置
JP6392467B2 (ja) 領域識別方法及び装置
US20170124719A1 (en) Method, device and computer-readable medium for region recognition
US20170185820A1 (en) Method, device and medium for fingerprint identification
CN110569835B (zh) 一种图像识别方法、装置和电子设备
CN104899588A (zh) 识别图像中的字符的方法及装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180904

R150 Certificate of patent or registration of utility model

Ref document number: 6400226

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250