JP6401873B2 - 領域認識方法及び装置 - Google Patents

領域認識方法及び装置 Download PDF

Info

Publication number
JP6401873B2
JP6401873B2 JP2017547048A JP2017547048A JP6401873B2 JP 6401873 B2 JP6401873 B2 JP 6401873B2 JP 2017547048 A JP2017547048 A JP 2017547048A JP 2017547048 A JP2017547048 A JP 2017547048A JP 6401873 B2 JP6401873 B2 JP 6401873B2
Authority
JP
Japan
Prior art keywords
region
area
face
histogram
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017547048A
Other languages
English (en)
Other versions
JP2018500706A (ja
Inventor
▲飛▼ ▲龍▼
▲飛▼ ▲龍▼
涛 ▲張▼
涛 ▲張▼
志▲軍▼ ▲陳▼
志▲軍▼ ▲陳▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Publication of JP2018500706A publication Critical patent/JP2018500706A/ja
Application granted granted Critical
Publication of JP6401873B2 publication Critical patent/JP6401873B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18067Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18086Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
    • G06V30/18095Summing image-intensity values; Projection and histogram analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R33/00Arrangements or instruments for measuring magnetic variables
    • G01R33/20Arrangements or instruments for measuring magnetic variables involving magnetic resonance
    • G01R33/44Arrangements or instruments for measuring magnetic variables involving magnetic resonance using nuclear magnetic resonance [NMR]
    • G01R33/48NMR imaging systems
    • G01R33/54Signal processing systems, e.g. using pulse sequences ; Generation or control of pulse sequences; Operator console
    • G01R33/56Image enhancement or correction, e.g. subtraction or averaging techniques, e.g. improvement of signal-to-noise ratio and resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

本願は、出願番号がCN201510728282.1であり、出願日が2015年10月30日である中国特許出願に基づいて提出され、且つ該中国特許出願の優先権を主張し、該中国特許出願のすべての内容はここで参考として本願に援用される。
本発明は画像処理分野に関し、特に領域認識方法及び装置に関する。
身分証明書の自動認識技術は、画像処理により身分証明書における文字情報を認識する技術である。
関連技術は、身分証明書走査装置が一定の相対位置に従って身分証明書を走査することにより、身分証明書の走査画像を得て、走査画像におけるn個の所定領域に対して文字認識を行い、名前情報、性別情報、民族情報、生年月日情報、アドレス情報及び公民身分証明書番号情報のうちの少なくとも1種を得る身分証明書の自動認識方法を提供している。しかしながら、直接的に撮影された身分証明書画像に対して、認識の難易度がまだ大きい。
関連技術における問題を解決するために、本発明は領域認識方法及び装置を提供する。
前記技術案は、以下のとおりである。
本発明の実施例に係る第1態様によれば、
証明書類画像における顔領域の領域位置を取得することと、
前記顔領域の領域位置に基づき少なくとも1つの情報領域を決定することと、
前記情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることと、を含む領域認識方法を提供している。
好ましい実施例では、
前記顔領域の領域位置は前記顔領域の所定縁で示され、
前記証明書類画像における顔領域の領域位置を取得することは、
前記証明書類画像を顔認識し、前記顔領域を得ることと、
前記顔領域に基づき前記顔領域の前記所定縁を認識することと、を含む。
好ましい実施例では、
前記証明書類画像を顔認識し、前記顔領域を得ることは、
所定の顔サイズに対する顔モデルによって、前記証明書類画像における所定領域を顔認識し、前記顔領域を得ることを含む。
好ましい実施例では、
前記顔領域に基づき前記顔領域の前記所定縁を認識することは、
前記顔領域の下部に基づき前記顔領域の下縁を含む関心領域を決定することと、
前記関心領域を直線検出し、前記顔領域の下縁を認識することと、を含む。
好ましい実施例では、
前記関心領域を直線検出し、前記顔領域の下縁を認識することは、
前記関心領域に対してソーベル水平フィルタリング及び2値化を行い、処理後の前記関心領域を得ることと、
前記処理後の前記関心領域に対してハフ(Hough)変換を行い、長さが所定の長さよりも大きい線分を得て、前記線分を前記顔領域の下縁として認識することと、を含む。
好ましい実施例では、
前記所定縁の傾きに基づいて、前記証明書類画像に対して勾配補正を行うことを更に含む。
好ましい実施例では、
前記所定縁の傾きに基づいて、前記証明書類画像に対して勾配補正を行うことは、
前記所定縁の傾きに基づいて、前記所定縁と水平方向とのなす角度を決定することと、
前記証明書類画像を前記角度に応じて回転させ、回転後の前記証明書類画像における前記所定縁が前記水平方向と平行になることと、を含む。
好ましい実施例では、
前記情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることは、
前記情報領域を2値化し、2値化後の情報領域を得ることと、
前記2値化後の情報領域に対して水平方向に応じて第1ヒストグラムを算出し、前記第1ヒストグラムが、各行ピクセルの縦座標及び前記各行ピクセルにおける前景色ピクセルの累積値を含むことと、
前記第1ヒストグラムにおける前景色ピクセルの累積値が第1閾値よりも大きい行からなる連続行セットに基づき、n行の文字領域を認識して、nが正整数であることと、
第i行の文字領域に対して、垂直方向に応じて第2ヒストグラムを算出し、前記第2ヒストグラムが、各列のピクセルの横座標と前記各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正整数であることと、
前記第2ヒストグラムにおける前景色ピクセルの累積値が第2閾値よりも大きい列からなる連続列セットに基づいて、ni個のキャラクター領域を認識する。
本発明の実施例に係る第2態様によれば、
証明書類画像における顔領域の領域位置を取得するように配置される取得モジュールと、
前記顔領域の領域位置に基づき少なくとも1つの情報領域を決定するように配置される決定モジュールと、
前記情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置される切断モジュールと、を備える領域認識装置を提供している。
好ましい実施例では、
前記顔領域の領域位置は前記顔領域の所定縁で示され、
前記取得モジュールは、
前記証明書類画像を顔認識し、前記顔領域を得るように配置される第1認識サブモジュールと、
前記顔領域に基づき前記顔領域の前記所定縁を認識するように配置される第2認識サブモジュールと、を備える。
好ましい実施例では、
前記第1認識サブモジュールは、所定の顔サイズに対する顔モデルによって、前記証明書類画像における所定領域を顔認識し、前記顔領域を得るように配置される。
好ましい実施例では、
前記第2認識サブモジュールは、
前記顔領域の下部に基づき前記顔領域の下縁を含む関心領域を決定するように配置される関心決定サブモジュールと、
前記関心領域を直線検出し、前記顔領域の下縁を認識するように配置される検出サブモジュールと、を備える。
好ましい実施例では、
前記検出サブモジュールは、
前記関心領域に対してソーベル水平フィルタリング及び2値化を行い、処理後の前記関心領域を得るように配置されるフィルタリングサブモジュールと、
前記処理後の前記関心領域に対して直線フィッティング又はハフ(Hough)変換を行い、長さが所定の長さよりも大きい線分を得て、前記線分を前記顔領域の下縁として認識するように配置される変換サブモジュールと、を備える。
好ましい実施例では、
前記所定縁の傾きに基づいて、前記証明書類画像に対して勾配補正を行うように配置される修正モジュールを更に備える。
好ましい実施例では、
前記修正モジュールは、
前記所定縁の傾きに基づいて、前記所定縁と水平方向とのなす角度を決定するように配置される角度決定サブモジュールと、
前記証明書類画像を前記角度に応じて回転させ、回転後の前記証明書類画像における前記所定縁が前記水平方向と平行になるように配置される回転サブモジュールと、を備える。
好ましい実施例では、
前記切断モジュールは、
前記情報領域を2値化し、2値化後の情報領域を得るように配置される2値化サブモジュールと、
前記2値化後の情報領域に対して水平方向に応じて第1ヒストグラムを算出し、前記第1ヒストグラムが、各行ピクセルの縦座標及び前記各行ピクセルにおける前景色ピクセルの累積値を含むように配置される第1算出サブモジュールと、
前記第1ヒストグラムにおける前景色ピクセルの累積値が第1閾値よりも大きい行からなる連続行セットに基づいて、n行の文字領域を認識し、nが正整数であるように配置される行認識サブモジュールと、
i行目の文字領域に対して、垂直方向に応じて第2ヒストグラムを算出し、前記第2ヒストグラムが各列のピクセルの横座標及び前記各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正整数であるように配置される第2算出サブモジュールと、
前記第2ヒストグラムにおける前景色ピクセルの累積値が第2閾値よりも大きい列からなる連続列セットに基づいて、n個のキャラクター領域を認識するように配置されるキャラクター認識サブモジュールと、を備える。
本発明の実施例に係る第3態様によれば、
証明書類画像における顔領域の領域位置を取得し、
前記顔領域の領域位置に基づき少なくとも1つの情報領域を決定し、
前記情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置されるプロセッサと、
前記プロセッサにより実行可能なコマンドを記憶するためのメモリと、を備える領域認識装置を提供している。
本発明の実施例により提供される技術案は下記の有益な効果を含んでもよい。
証明書類画像における顔領域の領域位置を取得し、顔領域の領域位置に基づき少なくとも1つの情報領域を決定し、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることによって、関連技術における直接的に撮影された証明書類画像におけるある情報領域に対する認識の難易度が大きく、且つある情報領域に対する位置決めが不正確であるという問題を解決し、証明書類画像における顔領域の領域位置により他の情報領域を決定し、他の情報領域を切断することによって、情報領域に対して正確に位置決めを行うとともに情報領域におけるキャラクター領域を正確に認識する効果を達する。
以上の一般的な説明及び後述する詳細は例示的なものに過ぎず、本発明を制限するためのものではない。
本図面は明細書に組み込まれて本明細書の一部を構成し、本発明に適合する実施例を示し、明細書と共に本発明の原理を解釈するのに用いられる。
例示的な実施例に係る領域認識方法を示すフローチャートである。 は別の例示的な実施例に係る領域認識方法を示すフローチャートである。 は別の例示的な実施例に係る領域認識方法を示すフローチャートである。 は例示的な実施例に係る顔認識の模式図である。 は別の例示的な実施例に係る領域認識方法を示すフローチャートである。 は例示的な実施例に係るソーベル(sobel)水平フィルタリングの顔画像模式図である。 は例示的な実施例に係る2値化後の顔画像模式図である。 は例示的な実施例に係るハフ(Hough)変換後の顔画像模式図である。 は別の例示的な実施例に係る領域認識方法を示すフローチャートである。 は別の例示的な実施例に係る領域認識方法を示すフローチャートである。 は例示的な実施例に係る情報領域第1ヒストグラムの模式図である。 は例示的な実施例に係る情報領域連続行セットの模式図である。 は別の例示的な実施例に係る情報領域第2ヒストグラムの模式図である。 は例示的な実施例に係る情報領域連続列セットの模式図である。 は例示的な実施例に係る領域認識装置のブロック図である。 は別の例示的な実施例に係る領域認識装置のブロック図である。 一実施例に係る領域認識装置における第2認識サブモジュールを示すブロック図である。 は別の例示的な実施例に係る領域認識装置を示すブロック図である。 は別の例示的な実施例に係る領域認識装置を示すブロック図である。 は例示的な実施例に係る領域認識装置を示すブロック図である。
ここでは、例示的な実施例を詳しく説明し、その例を図面に示す。下記の説明は図面を参照する場合、特に明記しない限り、異なる図面における同一の符号は同一又は類似の要素を示す。下記の例示的な実施例で説明した実施形態は、本発明と一致するすべての実施形態を表すものではない。反対に、これらは、特許請求の範囲に詳細に説明した、本発明のいくつかの態様に一致する装置および方法の例に過ぎない。
図1は例示的な実施例に係る領域認識方法を示すフローチャートである。図1に示すように、該領域認識方法は、下記のステップを含む。
ステップ102において、証明書類画像における顔領域の領域位置を取得し、
証明書類画像は証明書類を直接的に撮影して得た画像であり、例えば、身分証明書画像、社会保障カード画像等が挙げられる。
証明書類には通常ユーザーの証明写真があるため、証明書類画像には顔領域が存在する。
ステップ104において、顔領域の領域位置に基づき少なくとも1つの情報領域を決定する。
証明書類における顔領域の位置は相対的に一定であり、且つ顔領域の位置決めの難易度が常に情報領域の位置決めの難易度より低いため、顔領域の領域位置に基づき証明書類画像において各情報領域を決定することができる。
情報領域は、証明書類画像において文字情報がある領域、例えば、名前情報領域、生年月日情報領域、性別領域、アドレス情報領域、公民身分証明書番号情報領域、番号情報領域、証明書発行機関情報領域および有効期限情報領域などの情報領域のうちの少なくとも1種を意味する。
ステップ106において、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得る。
情報領域は複数のキャラクターを含む。1つの情報領域に対して、領域切断により少なくとも1つのキャラクター領域を得ることができる。キャラクター領域は単一キャラクターを含む領域である。キャラクターは漢字、アルファベット、数字又は他の言語の文字であってもよい。
以上のように、本発明の実施例において提供した領域認識方法は、証明書類画像における顔領域の領域位置を取得し、顔領域の領域位置に基づき少なくとも1つの情報領域を決定し、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を取得することで、関連技術における直接的に撮影された証明書類画像におけるある情報領域に対する認識の難易度が大きく且つある情報領域に対する位置決めが不正確であればいう問題を解決し、証明書類画像における顔領域の領域位置により他の情報領域を決定し、他の情報領域を切断することによって、情報領域に対して正確に位置決めを行うとともに情報領域におけるキャラクター領域を正確に認識する効果を達する。
図2は別の例示的な実施例に係る領域認識方法を示すフローチャートである。図2に示すように、該領域認識方法は以下のステップを含む。
ステップ202において、証明書類画像を顔認識し、顔領域を得る。
好ましくは、証明書類画像を撮影する場合、撮影インターフェースにおいて撮影をガイドするための矩形領域が設置され、ユーザーは矩形領域を証明書類と位置合わせするとき、証明書類画像を撮影する。
証明書類には通常ユーザーの証明写真があるため、証明書類画像には顔領域が存在する。顔認識技術により、証明書類画像から顔領域を認識して得ることができる。顔認識技術は熟成した認識技術であり、本実施例はどのような顔認識技術を使用するかに対して制限されない。
ステップ204において、顔領域に基づき顔領域の所定縁を認識する。
好ましくは、所定縁が顔領域の下縁である。
証明書類画像では、顔領域の下縁と証明書類の背景色に大きな差があるため、顔領域の下縁は比較的に認識しやすい縁である。
ステップ206において、顔領域の所定縁に基づき少なくとも1つの情報領域を決定する。
証明書類画像のタイプが既知した際に、顔領域の所定縁と証明書類における他の情報領域の間に一定の相対的な位置関係が存在し、顔領域の所定縁と該相対的な位置関係に基づき少なくとも1つの情報領域を決定する。
例えば、第2代身分証明書を例とし、公民身分証明書番号領域は顔領域の下縁の下方にあり、また、例えば、アドレス情報領域は、水平方向で顔領域の左側にあり、垂直方向で顔領域の下縁と顔領域の1/2高度の間の領域にある。該相対的な位置関係によって、顔領域の所定縁に基づいて少なくとも1つの情報領域を決定できる。
ステップ208において、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得る。
情報領域は複数のキャラクターを含む。1つの情報領域に対して、領域切断により少なくとも1つのキャラクター領域を得ることができる。キャラクター領域は単一キャラクターを含む領域である。文字は、漢字、アルファベット、数字又は他の言語の文字であってもよい。
以上のように、本発明の実施例において提供した領域認識方法は、証明書類画像における顔領域の所定縁を取得し、顔領域の所定縁に基づき情報領域を決定し、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることで、関連技術における直接的に撮影された証明書類画像におけるある情報領域に対する認識の難易度が大きく、且つある情報領域に対する位置決めが不正確であればいう問題を解決し、証明書類画像における顔領域の領域位置により他の情報領域を決定し、他の情報領域を切断することによって、情報領域に対して正確に位置決めを行うとともに情報領域におけるキャラクター領域を正確に認識する効果を達する。
図2に基づく実施例が提供する好ましい実施例では、上記ステップ202が代替的にステップ202aとして実現され、上記ステップ204が代替的にステップ204a及び204bとして実現され、図3Aに示すように、
ステップ202aにおいて、所定の顔サイズの顔モデルに対して、証明書類画像における所定領域を顔認識し、顔領域を得る。
予め訓練して顔モデルを得ることが好ましい。証明書類画像における顔領域の大きさが相対的に一定であるため、該顔モデルが所定の顔サイズに対する顔モデルである。
端末は該所定の顔サイズに対する顔モデルにより、証明書類画像における所定領域を顔認識し、顔領域を得る。好ましくは、証明書類画像を複数のウィンドウ領域に分割し、各ウィンドウ領域における画像特徴を抽出して順次に顔モデルに入力する。顔モデルから正結果であれば出力された際に、対応するウィンドウ領域を顔領域として認識し、顔モデルから負結果であれば出力された際に、対応するウィンドウ領域を非顔領域として認識する。
好ましくは、証明書類における顔領域が通常証明書類の右上方にあるため、顔認識する際に、優先的に証明書類画像における右側の所定領域において顔認識する。
本実施例は認識した顔領域の精度を厳格に制限することがない。
ステップ204aにおいて、顔領域の下部に基づき関心領域を決定し、関心領域が顔領域の下縁を含む。
顔領域の下部において所定のウィンドウに応じて関心領域を決定し、該関心領域が顔領域の下縁を覆うことを基準とする。
例示的に、図3Bに示すように、顔領域30を認識した後、認識した顔領域30の下部中心32を中心として、所定のウィンドウの大きさを範囲として、証明書類画像において関心領域34を選択する。
ステップ204bにおいて、関心領域を直線検出し、顔領域の下縁を認識する。
好ましくは、直線検出方法は直線フィッティングアルゴリズム又はハフ(Hough)変換アルゴリズムを用いる。ステップ204bが代替的にステップ301とステップ302として実現され、図3Cに示す。
ステップ301において、関心領域に対してソーベル水平フィルタリング及び2値化を行い、処理後の関心領域を得る。
まず、関心領域をソーベル(sobel)水平フィルタリングして、即ちsobel演算子を使用して水平方向に沿ってフィルタリングし、フィルタリング後の効果を図3Dに示す。次に、フィルタリング後の関心領域を2値化する。2値化とは関心領域におけるピクセルのグレー値と所定のグレー閾値を比較し、関心領域におけるピクセルを、所定のグレー閾値よりも大きいピクセル群と所定のグレー閾値よりも小さいピクセル群の2つの部分に分け、2つの部分のピクセル群に関心領域においてそれぞれ黒と白の2種の異なる色を呈させ、2値化後の関心領域を得ることを指し、図3Eのように示す。そのうち、前景に位置する1種の色のピクセルが前景色ピクセルと称され、即ち図3Eの白色ピクセルであり、背景に位置する1種の色のピクセルが背景ピクセルと称され、即ち図3Eにおける黒色ピクセルである。
ステップ302において、処理後の関心領域を直線フィッティング又はハフ(Hough)変換し、長さが所定の長さよりも大きい線分を得て、該線分を顔領域の下縁として認識する。
図3Fに示すように、ハフ(Hough)変換後、顔領域の下方に長さが所定の長さより大きい線分が存在し、即ち顔領域の下縁である。
以上のように、本実施例により提供される領域認識方法は、顔領域の下部に基づき関心領域を決定し、関心領域をソーベル水平フィルタリング及び2値化し、処理後の関心領域を得て、処理後の関心領域を直線フィッティング又はハフ(Hough)変換し、長さが所定の長さよりも大きい線分を得て、該線分を顔領域の下縁として認識することによって、効果的で、正確に顔領域の下縁を認識できる。また、関心領域の範囲が小さいため、下縁を抽出するときの算出量も小さく、速い認識速度を得ることができる。
上記ステップ202aに対して、予め訓練して顔モデルを得る必要がある。例えば、該訓練過程は、以下の内容を含む。
正サンプル画像と負サンプル画像を予め取得する。正サンプル画像は所定の大きさの顔領域を含み、負サンプル画像は、顔領域がない画像、不完全な顔領域を備えた画像、所定の大きさでない顔領域を備えた画像、混乱背景の画像等を含む。
正サンプル画像の画像特徴と負サンプル画像の画像特徴、例えばhaar特徴を抽出する。次に、正サンプル画像の画像特徴と正結果を表すための第1ラベルを初期モデルに入力し、負サンプル画像の画像特徴と負結果を表すための第2ラベルを初期モデルに入力し、訓練した後、顔モデルを得る。好ましくは、第1ラベルが1であり、第2ラベルが0である。該初期モデルは分類アルゴリズム、例えば、Adaboost又はSVM(SupportVectorMachine、サポートベクターマシン)により構築される。
図2に基づく実施例が提供する代替的な実施例では、証明書類は証明書類画像において微小角度の回転が存在し、即ち証明書類画像における証明書類の位置が水平ではなく、水平方向と角度が存在する。好ましくは、端末は所定縁の傾きに基づいて証明書類画像に対して勾配補正を行う。即ち、ステップ204の後、該方法はステップ205a及びステップ205bを更に含み、図4に示すように、
ステップ205aにおいて、所定縁の傾きに基づいて、所定縁と水平方向とのなす角度を決定し、
端末は顔領域の下縁と水平方向とのなす角度を算出する。該角度も証明書類と水平方向とのなす角度である。
ステップ205bにおいて、証明書類画像を角度に応じて回転させ、回転後の証明書類画像における所定縁が水平方向と平行である。
以上のように、本実施例により提供される領域認識方法は、顔領域の所定縁を回転校正することによって、証明書類画像における証明書類を水平方向と平行させ、後続の情報領域を認識するときの正確性を向上させることができる。
図2に基づく実施例が提供する代替的な実施例では、ステップ208は情報領域を領域切断する過程である。代替的に、例えばステップ208a〜ステップ208eとして実現してもよく、図5Aに示すように、
ステップ208aにおいて、情報領域を2値化し、2値化後の情報領域を得る。
情報領域が公民身分証明書番号領域であることを例とし、まず情報領域をプリ処理し、プリ処理後の情報領域を2値化することが好ましい。そのうち、プリ処理は、ノイズ除去、フィルタリング、縁抽出等の操作を含んでもよい。
ステップ208bにおいて、2値化後の情報領域に対して水平方向に応じて第1ヒストグラムを算出し、第1ヒストグラムが、各行ピクセルの縦座標及び各行ピクセルにおける前景色ピクセルの累積値を含む。
2値化後の情報領域に対して水平方向に応じて第1ヒストグラムを算出し、該第1ヒストグラムが、垂直方向で各行のピクセルの縦座標を示し、水平方向で各行のピクセルにおける前景色ピクセルの個数累積値を表し、図5Bに示す。
ステップ208cにおいて、第1ヒストグラムにおける前景色ピクセルの累積値が第1閾値よりも大きい行からなる連続行セットにより、n行の文字領域を認識し、nが正整数であり、
第1ヒストグラムに基づいて、各行のピクセルにおける前景色ピクセルの累積値を取得し、各行のピクセルにおける前景色ピクセルの累積値と第1閾値を比較し、第1ヒストグラムにおける前景色ピクセルの累積値が第1閾値よりも大きい行からなる連続行セットを、文字領域が所在する行として決定することができる。
連続行セットは、前景色ピクセルの累積値が第1閾値よりも大きい行が連続的なm行であり、該連続的なm行のピクセルにより構成されるセットを意味し、図5Cに示すように、図におけるm行のピクセルに対して、左側ヒストグラムに位置する前景色ピクセルの累積値がいずれも第1閾値よりも大きい。該m行のピクセルは証明書類画像において公民身分証明書番号の行「0421199」と対応する。
もちろん、該情報領域がアドレス情報領域又は他の情報領域であれば、文字領域は2行又は2行以上である可能性がある。このとき、各連続行セットを1行の文字領域として認識し、n個の連続行セットをn行の文字領域として認識する。
ステップ208dにおいて、i行目の文字領域に対して、垂直方向に応じて第2ヒストグラムを算出し、第2ヒストグラムが、各列のピクセルの横座標及び各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正の整数である。
認識された公民身分証明書番号の行に対して、垂直方向に応じて第2ヒストグラムを算出し、該第2ヒストグラムは水平方向で各列のピクセルの横座標を表し、垂直方向で各列のピクセルにおける前景色ピクセルの個数累積値を表し、図5Dに示す。
ステップ208eにおいて、第2ヒストグラムにおける前景色ピクセルの累積値が第2閾値よりも大きい列からなる連続列セットにより、n個のキャラクター領域を認識する。
第2ヒストグラムに基づいて、各列のピクセルにおける前景色ピクセルの累積値を取得し、各列のピクセルにおける前景色ピクセルの累積値と第2閾値を比較し、第2ヒストグラムにおける前景色ピクセルの累積値が第2閾値よりも大きい列からなる連続列セットを、キャラクター領域が所在する列として決定することができる。
連続列セットは、前景色ピクセルの累積値が第2閾値よりも大きい列が連続的なp列であり、該連続的なp列のピクセルにより構成されるセットを意味し、図5Eに示すように、連続な列セットはpであり、即ち第2ヒストグラムに形成された連続的な白色領域である。図におけるp列のピクセルに対して、下側に位置するヒストグラムにおける前景色ピクセルの累積値がいずれも第2閾値よりも大きい。該p列ピクセルは証明書類画像においてキャラクター領域「3」と対応する。
各連続列セットを1つのキャラクター領域として認識し、n個の連続な列セットをn個のキャラクター領域として認識する。図5Eでは、18個のキャラクター領域を認識することができる。
文字領域がn行あると、ステップ208d及びステップ208eは各行文字領域に対して1回実行され、共にn回実行される。
認識された各キャラクター領域に対して、更にキャラクター認識技術により、該キャラクター領域に含む文字を認識することができる。文字は、漢字、アルファベット、数字又は他の言語の単一文字であってもよい。
以上のように、本実施例は情報領域を2値化し、2値化後の情報領域に対して水平方向に応じて第1ヒストグラムを算出し、第2情報領域におけるn行の文字領域を決定し、更にそれぞれn行の文字領域に対して垂直方向に応じて第2ヒストグラムを算出し、各文字の対応するキャラクター領域を認識することによって、情報領域におけるキャラクター領域を認識する正確性を向上させることができる。
以下は本発明の装置の実施例であり、本発明の方法の実施例の実施において使用することができる。本発明の装置の実施例で開示されていない詳細は、本発明の方法の実施例を参照する。
図6は例示的な実施例に係る領域認識装置を示すブロック図であり、図6に示すように、該領域認識装置は、以下を備えるが、これらに限定されない。
取得モジュール610は、証明書類画像における顔領域の領域位置を取得するように配置され、
証明書類画像は証明書類を直接的に撮影した画像であり、例えば、身分証明書画像、社会保障カード画像等が挙げられる。
証明書類には通常ユーザーの証明写真があるため、証明書類画像には顔領域が存在する。
取得モジュール610は証明書類画像における顔領域の領域位置を取得する。
決定モジュール620は、顔領域の領域位置に基づき少なくとも1つの情報領域を決定するように配置され、
情報領域は、証明書類画像において文字情報がある領域、例えば、名前情報領域、生年月日情報領域、性別領域、アドレス情報領域、公民身分証明書番号情報領域、番号情報領域、証明書発行機関情報領域および有効期限情報領域などの情報領域のうちの少なくとも1種を意味する。
取得モジュール610によって取得された領域位置に基づき、決定モジュール620が少なくとも1つの情報領域を決定する。
切断モジュール630は、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置される。
情報領域は複数のキャラクターを含む。1つの情報領域に対して、切断モジュール630は、領域切断により少なくとも1つのキャラクター領域を得ることができる。キャラクター領域は単一キャラクターを含む領域である。キャラクターは、漢字、アルファベット、数字又は他の言語の文字であってもよい。
以上のように、本発明の実施例において提供した領域認識装置は、証明書類画像における顔領域の領域位置を取得し、顔領域の領域位置に基づき少なくとも1つの情報領域を決定し、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることによって、関連技術における直接的に撮影された証明書類画像におけるある情報領域に対する認識の難易度が大きく、且つある情報領域に対する位置決めが不正確であるという問題を解決し、証明書類画像における顔領域の領域位置により他の情報領域を決定し、他の情報領域を切断することによって、情報領域に対して正確に位置決めを行うとともに情報領域におけるキャラクター領域を正確に認識する効果を達する。
図7は別の例示的な実施例に係る領域認識装置的ブロック図であり、図7に示すように、該領域認識装置は、以下を備えるが、これらに限定されない。
取得モジュール610は、証明書類画像における顔領域の領域位置を取得するように配置され、
本実施例において、取得モジュール610は下記のサブモジュールを備えてもよい。
第1認識サブモジュール611は、証明書類画像を顔認識し、顔領域を得るように配置され、
証明書類には通常ユーザーの証明写真があるため、証明書類画像には顔領域が存在する。顔認識技術により、証明書類画像から顔領域を認識することができる。
本実施例において顔領域を認識するモジュールが第1認識サブモジュール611である。
第2認識サブモジュール612は、顔領域に基づき顔領域の所定縁を認識するように配置される。
証明書類画像では、顔領域の下縁と証明書類の背景色は大きな差があるため、顔領域の下縁は比較的に認識しやすい縁である。
第2認識サブモジュール612は顔領域に基づき顔領域の所定縁を認識する。
そのうち、第1認識サブモジュール611は、更に、所定の顔サイズに対する顔モデルにより、証明書類画像における所定領域を顔認識し、顔領域を得るように配置される。
決定モジュール620は顔領域の領域位置に基づき少なくとも1つの情報領域を決定するように配置され、
証明書類画像のタイプが既知した際に、顔領域の所定縁と証明書類におけるその他の情報領域の間に固定の相対的な位置関係が存在し、決定モジュール620は顔領域の所定縁と該相対的な位置関係に基づき少なくとも1つの情報領域を決定する。
切断モジュール630は、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置される。
情報領域は複数のキャラクターを含む。1つの情報領域に対して、切断モジュール630は、領域切断により少なくとも1つのキャラクター領域を得ることができる。キャラクター領域は単一キャラクターを含む領域である。キャラクターは、漢字、アルファベット、数字又は他の言語の文字であってもよい。
以上のように、本発明の実施例において提供した領域認識装置は、証明書類画像における顔領域の所定縁を取得し、顔領域の所定縁に基づき情報領域を決定し、情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることによって、関連技術における直接的に撮影された証明書類画像におけるある情報領域に対する認識の難易度が大きく、且つある情報領域に対する位置決めが不正確であるという問題を解決し、証明書類画像における顔領域の領域位置により他の情報領域を決定し、他の情報領域を切断することによって、情報領域に対して正確に位置決めを行うとともに情報領域におけるキャラクター領域を正確に認識する効果を達する。
図7に基づく実施例が提供する代替的な実施例では、第2認識サブモジュール612は、下記のサブモジュールを備えてもよく、図8に示すように、
関心決定サブモジュール810は、顔領域の下部に基づき顔領域の下縁を含む関心領域を決定するように配置され、
関心決定サブモジュール810は、顔領域の下部に所定のウィンドウに応じて関心領域を決定し、該関心領域は顔領域の下縁を覆うことを基準とする。
検出サブモジュール820は、関心領域を直線検出し、顔領域の下縁を認識するように配置される。
直線検出方法は直線フィッティングアルゴリズム又はHough変換アルゴリズムを用いることが好ましい。
そのうち、検出サブモジュール820は、下記のサブモジュールを備えてもよく、
フィルタリングサブモジュール821は、関心領域をソーベル水平フィルタリング及び2値化し、処理後の関心領域を得るように配置され、
まず、フィルタリングサブモジュール821は関心決定サブモジュール810における関心領域をソーベル(sobel)水平フィルタリングし、即ちソーベル(sobel)演算子を使用して水平方向に沿ってフィルタリングする。次に、フィルタリング後の関心領域を2値化する。
2値化とは関心領域におけるピクセルのグレー値と所定のグレー閾値を比較し、関心領域におけるピクセルを、所定のグレー閾値よりも大きいピクセル群と所定のグレー閾値よりも小さいピクセル群の2つの部分に分け、2つの部分のピクセル群に関心領域においてそれぞれ黒と白の2種の異なる色を呈させ、2値化後の関心領域を得ることを指す。
変換サブモジュール822は、処理後の関心領域を直線フィッティング又はハフ(Hough)変換し、長さが所定の長さよりも大きい線分を得、線分を顔領域の下縁として認識するように配置される。
変換サブモジュール822はフィルタリングサブモジュール821によって処理された関心領域を直線フィッティング又はハフ(Hough)変換する。ハフ(Hough)変換した後、顔領域の下方に長さが所定の長さよりも大きい線分、即ち顔領域の下縁が存在する。
以上のように、本実施例により提供される領域認識装置は、顔領域の下部に基づき関心領域を決定し、関心領域をソーベル水平フィルタリング及び2値化し、処理後の関心領域を得、処理後の関心領域を直線フィッティング又はハフ(Hough)変換し、長さが所定の長さよりも大きい線分を得て、該線分を顔領域の下縁として認識することによって、効果的で、正確に顔領域の下縁を認識できる。また、関心領域の範囲が小さいため、下縁を抽出するときの算出量も小さく、速い認識速度を得ることができる。
図7に基づく実施例が提供する代替的な実施例では、領域認識装置は、下記のモジュールを更に備えてもよく、図9に示すように、
修正モジュール910は、所定縁の傾きに基づいて、証明書類画像に対して勾配補正を行うように配置される。
そのうち、修正モジュール910は、下記のモジュールを備えてもよく、
角度決定サブモジュール911は、所定縁の傾きに基づいて、所定縁と水平方向とのなす角度を決定するように配置され、
端末における角度決定サブモジュール911は顔領域の下縁と水平方向とのなす角度を算出する。該角度も証明書類と水平方向とのなす角度である。
回転サブモジュール912は、証明書類画像を角度に応じて回転させ、回転後の証明書類画像における所定縁が水平方向と平行になるように配置される。
角度決定サブモジュール911により算出された角度に基づき、回転サブモジュール912は証明書類画像を角度で回転する。
以上のように、本実施例により提供される領域認識装置は、顔領域の所定縁を回転校正することによって、証明書類画像における証明書類を水平方向と平行させ、後続の情報領域を認識する際の正確性を向上させることができる。
図7に基づく実施例が提供する代替的な実施例では、切断モジュール630は、下記のサブモジュールを備えてもよく、図10に示すように、
2値化サブモジュール631は、情報領域を2値化し、2値化後の情報領域を得るように配置され、
情報領域が公民身分証明書番号領域であることを例とし、2値化サブモジュール631はまず情報領域をプリ処理し、プリ処理後の情報領域を2値化することが好ましい。そのうち、プリ処理は、ノイズ除去、フィルタリング、縁抽出等の操作を含んでもよい。
第1算出サブモジュール632は、2値化後の情報領域に対して水平方向に応じて第1ヒストグラムを算出し、第1ヒストグラムが、各行ピクセルの縦座標及び各行ピクセルにおける前景色ピクセルの累積値を含むように配置され、
第1算出サブモジュール632は2値化後の情報領域に対して水平方向に応じて第1ヒストグラムを算出し、該第1ヒストグラムが、垂直方向で各行のピクセルの縦座標を示し、水平方向で各行のピクセルにおける前景色ピクセルの個数累積値を表す。
行認識サブモジュール633は、第1ヒストグラムにおける前景色ピクセルの累積値が第1閾値よりも大きい行からなる連続行セットにより、n行の文字領域を認識し、nが正整数であるように配置され、
第1ヒストグラムに基づいて、各行ピクセルにおける前景色ピクセルの累積値を取得し、行認識サブモジュール633は、各行ピクセルにおける前景色ピクセルの累積値と第1閾値を比較し、第1ヒストグラムにおける前景色ピクセルの累積値が第1閾値よりも大きい行からなる連続行セットを、文字領域が所在する行として決定することができる。
連続行セットとは、前景色ピクセルの累積値が第1閾値よりも大きい行は連続的なm行であり、該連続的なm行のピクセルにより構成されるセットを意味する。
各連続行セットを1行の文字領域として認識し、n個の連続行セットをn行の文字領域として認識する。
第2算出サブモジュール634は、i行目の文字領域に対して、垂直方向に応じて第2ヒストグラムを算出し、第2ヒストグラムが、各列のピクセルの横座標及び各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正の整数であるように配置され、
行認識サブモジュール633により認識された公民身分証明書番号行に対して、第2算出サブモジュール634は垂直方向に応じて第2ヒストグラムを算出し、該第2ヒストグラムは水平方向で各列のピクセルの横座標を表し、垂直方向で各列のピクセルにおける前景色ピクセルの個数累積値を表す。
キャラクター認識サブモジュール635は、第2ヒストグラムにおける前景色ピクセルの累積値が第2閾値よりも大きい列からなる連続列セットにより、n個のキャラクター領域を認識するように配置される。
第2ヒストグラムに基づいて、各列のピクセルにおける前景色ピクセルの累積値を取得、キャラクター認識サブモジュール635は、各列のピクセルにおける前景色ピクセルの累積値と第2閾値を比較し、第2ヒストグラムにおける前景色ピクセルの累積値が第2閾値よりも大きい列からなる連続列セットを、キャラクター領域が所在する列として決定することができる。
連続列セットは、前景色ピクセルの累積値が第2閾値よりも大きい列が連続的なp列であり、該連続的なp列ピクセルにより構成されるセットを意味する。
各連続列セットを一つのキャラクター領域として認識し、n個の連続列セットをn個のキャラクター領域として認識する。
以上のように、本実施例は情報領域を2値化し、且つ2値化後の情報領域に対して水平方向に応じて第1ヒストグラムを算出し、第2情報領域におけるn行の文字領域を決定し、更にそれぞれn行の文字領域に対して垂直方向に応じて第2ヒストグラムを算出し、各文字の対応するキャラクター領域を認識することによって、正確にキャラクター領域を切断及び認識する装置を提供する。
本発明は領域認識装置をさらに提供し、該装置は、プロセッサと、
プロセッサにより実行可能なコマンドを記憶するためのメモリと、を備え、
そのうち、プロセッサは、
証明書類画像における顔領域の領域位置を取得し、
顔領域の領域位置に基づき少なくとも1つの情報領域を決定し、
情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を取得するように配置される。
上記実施例における装置について、そのうち、それぞれのモジュールの操作を実行する具体的な方式は、該方法に関する実施例で詳細に説明したので、ここで詳しく説明しない。
図11は例示的な実施例に係る領域抽出方法を実行するための装置を示すブロック図である。例えば、装置1100は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信設備、ゲームコンソール、タブレット型装置、医療設備、フィットネス装置、パーソナルデジタルアシスタントなどである。
図11を参照して、装置1100は、処理部材1102、メモリ1104、電源部材1106、マルチメディア部材1108、オーディオ部材1110、入力/出力(I/O)インターフェース1112、センサー部材1114、及び通信部材1116のうちの一つ又は複数の部材を含むことができる。
処理部材1102は、通常、装置1100の全体的操作、例えば、表示、電話呼び出し、データ通信、カメラ操作及び記録操作に関する操作を制御する。処理部材1102は、上記方法の全部又は一部のステップを完成するために、コマンドを実行する一つ又は複数のプロセッサ1118を含むことができる。さらに、処理部材1102はその他の部材とのインタラクションが容易であるように、一つ又は複数のモジュールを含むことができる。例えば、処理部材1102は、マルチメディア部材1108と処理部材1102とのインタラクションが容易であるように、マルチメディアモジュールを含むことができる。
メモリ1104は、装置1100における操作をサポートするために、さまざまなタイプのデータを記憶するように配置される。これらのデータの実例は、装置1100において操作される如何なるアプリケーション又は方法のコマンド、連絡先データ、電話帳データ、メッセージ、ピクチャ、ビデオなどを含む。メモリ1104は如何なるタイプの揮発性又は非揮発性メモリ又はそれらの組合せ、例えばスタティックランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクにより実現することができる。
電源部材1106は装置1100のさまざまな部材に対し電力を供給する。電源部材1106は電源管理システム、一つ又は複数の電源、及びその他の装置1100に対する電力の生成、管理及び供給に関連する部材を含むことができる。
マルチメディア部材1108は、装置1100とユーザーの間の出力インターフェースを提供するスクリーンを含む。一部の実施例において、スクリーンは液晶ディスプレイ(LCD)とタッチパネル(TP)を含むことができる。スクリーンにタッチパネルが含まれる場合、スクリーンはユーザーからの入力信号を受信するために、タッチスクリーンで実現されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルにおけるジェスチャーを感知するために、一つ又は複数のタッチセンサーを含む。タッチセンサーは、タッチ又はスワイプ動作の境界を感知するとともに、タッチ又はスワイプ動作に関わる持続時間及び圧力を検出することができる。一部の実施例において、マルチメディア部材1108は、フロントカメラ及び/又はバックカメラを含む。装置1100が操作モードである場合、例えば、撮影モード又はビデオモードである場合、フロントカメラ及び/又はバックカメラは外部のマルチメディアデータを受信することができる。各フロントカメラ及びバックカメラは、固定された光学レンズシステムであってもよく、又は焦点距離と光学ズーム能力を有する。
オーディオ部材1110は、オーディオ信号を出力及び/又は入力するように配置される。例えば、オーディオ部材1110は、マイクロフォン(MIC)を含み、装置1100が操作モードである場合、例えば、呼び出しモード、記録モード及び音声認識モードである場合、マイクロフォンは外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらにメモリ1104に記憶され、又は通信部材1116を介して送信される。一部の実施例において、オーディオ部材1110は、さらにオーディオ信号を出力するスピーカーを含む。
I/Oインターフェース1112は、処理部材1102と周辺インターフェースモジュールとの間にインターフェースを提供し、上記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン及びロックボタンを含むことができるがこれに限定されない。
センサー部材1114は、装置1100に対し各方面の状態評価を提供する一つ又は複数のセンサーを含む。例えば、センサー部材1114は、装置1100のオン/オフ状態、部材の相対的位置決めを検出することができ、前記部材は、例えば、装置1100のディスプレイ及びキーパッドであり、センサー部材1114は、さらに装置1100又は装置1100の一つの部材の位置変化、ユーザーと装置1100との接触の有無、装置1100の方角又は加速/減速及び装置1100の温度変化を検出することができる。センサー部材1114は、近接センサーを含むことができ、如何なる物理的接触がないとき、近傍物体の存在を検出するように構成される。センサー部材1114は、さらにイメージングアプリケーションに用いられる光学センサー、例えば、CMOS又はCCDイメージセンサーを含むことができる。一部の実施例において、該センサー部材1114は、さらに加速度センサー、ジャイロセンサー、磁気センサー、圧力センサー又は温度センサーを含むことができる。
通信部材1116は、装置1100とその他の装置との有線又は無線による通信が容易であるように配置される。装置1100は、通信標準に基づく無線ネットワーク、例えばWiFi、2G又は3G、又はそれらの組合せにアクセスすることができる。一例示的な実施例において、通信部材1116は、放送チャネルを介して外部放送管理システムからの放送信号又は放送関連情報を受信する。一例示的な実施例において、通信部材1116は、狭域通信を促進するために、さらに近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールにおいて、無線周波数認識(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及びその他の技術に基づいて実現することができる。
例示的な実施例において、装置1100は、一つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラー、マイクロコントローラー、マイクロプロセッサ又はその他の電子部品により実現することができ、上記領域抽出方法を実行するのに用いられる。
例示的な実施例において、さらに、コマンドを含む非一時的なコンピュータ可読記憶媒体、例えば、コマンドを含むメモリ1104を提供し、上記領域抽出方法を完成するために、上記コマンドは装置1100のプロセッサ1118により実行することができる。例えば、非一時的なコンピュータ可読記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD−ROM、磁気テープ、フロッピーディスク及び光データ記憶装置などであってもよい。
当業者であれば、明細書を考慮しここに開示された発明を実践した後、本発明のその他の実施態様を容易に想到できる。本願は、本発明の如何なる変形、用途又は適応的変化を含むためのものであり、これらの変形、用途又は適応的変化は本発明の一般的な原理に準じ、本発明の開示されていない本技術分野における公知常識又は慣用の技術手段を含む。明細書と実施例は例示的なものに過ぎず、本発明の実際の範囲と精神は下記特許請求の範囲により与えられる。
理解すべきことは、本発明は既に上記のように説明され、図面に示された正確な構造に限定されず、その範囲を逸脱しない限りにおいて様々な修正や変更を行うことができる。本発明の範囲は特許請求の範囲のみにより限定される。

Claims (15)

  1. 証明書類画像における顔領域の領域位置を取得することと、
    前記顔領域の領域位置に基づき少なくとも1つの情報領域を決定することと、
    前記情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることと、を含み、
    前記情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることは、
    前記情報領域を2値化し、2値化後の情報領域を得ることと、
    前記2値化後の情報領域に対して水平方向に応じて第1ヒストグラムを算出し、前記第1ヒストグラムが、各行ピクセルの縦座標及び前記各行ピクセルにおける前景色ピクセルの累積値を含むことと、
    前記第1ヒストグラムにおける前景色ピクセルの累積値が第1閾値よりも大きい行からなる連続行セットに基づき、n行の文字領域を認識して、nが正整数であり、n≧i≧1、iが正整数であることと、
    第i行の文字領域に対して、垂直方向に応じて第2ヒストグラムを算出し、前記第2ヒストグラムが、各列のピクセルの横座標と前記各列のピクセルにおける前景色ピクセルの累積値を含むことと、
    前記第2ヒストグラムにおける前景色ピクセルの累積値が第2閾値よりも大きい列からなる連続列セットに基づいて、n 個のキャラクター領域を認識することを含むことを特徴とする領域認識方法。
  2. 前記顔領域の領域位置は前記顔領域の所定縁で示され、
    前記証明書類画像における顔領域の領域位置を取得することは、
    前記証明書類画像を顔認識し、前記顔領域を得ることと、
    前記顔領域に基づき前記顔領域の前記所定縁を認識することと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記証明書類画像を顔認識し、前記顔領域を得ることは、
    所定の顔サイズに対する顔モデルによって、前記証明書類画像における所定領域を顔認識し、前記顔領域を得ることを含むことを特徴とする請求項2に記載の方法。
  4. 前記顔領域に基づき前記顔領域の前記所定縁を認識することは、
    前記顔領域の下部に基づき前記顔領域の下縁を含む関心領域を決定することと、
    前記関心領域を直線検出し、前記顔領域の下縁を認識することと、を含むことを特徴とする請求項2に記載の方法。
  5. 前記関心領域を直線検出し、前記顔領域の下縁を認識することは、
    前記関心領域に対してソーベル水平フィルタリング及び2値化を行い、処理後の関心領域を得ることと、
    前記処理後の関心領域に対して直線フィッティング又はハフ変換を行い、長さが所定の長さよりも大きい線分を得て、前記線分を前記顔領域の下縁として認識することと、を含むことを特徴とする請求項4に記載の方法。
  6. 前記所定縁の傾きに基づいて、前記証明書類画像に対して勾配補正を行うことを更に含むことを特徴とする請求項2〜5のいずれかに記載の方法。
  7. 前記所定縁の傾きに基づいて、前記証明書類画像に対して勾配補正を行うことは、
    前記所定縁の傾きに基づいて、前記所定縁と水平方向とのなす角度を決定することと、
    前記証明書類画像を前記角度に応じて回転させ、回転後の前記証明書類画像における前記所定縁が前記水平方向と平行になることと、を含むことを特徴とする請求項6に記載の方法。
  8. 証明書類画像における顔領域の領域位置を取得するように配置される取得モジュールと、
    前記顔領域の領域位置に基づき少なくとも1つの情報領域を決定するように配置される決定モジュールと、
    前記情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置される切断モジュールと、を備え
    前記切断モジュールは、
    前記情報領域を2値化し、2値化後の情報領域を得るように配置される2値化サブモジュールと、
    前記2値化後の情報領域に対して水平方向に応じて第1ヒストグラムを算出し、前記第1ヒストグラムが、各行ピクセルの縦座標及び前記各行ピクセルにおける前景色ピクセルの累積値を含むように配置される第1算出サブモジュールと、
    前記第1ヒストグラムにおける前景色ピクセルの累積値が第1閾値よりも大きい行からなる連続行セットに基づいて、n行の文字領域を認識し、nが正整数であるように配置される行認識サブモジュールと、
    i行目の文字領域に対して、垂直方向に応じて第2ヒストグラムを算出し、前記第2ヒストグラムが各列のピクセルの横座標及び前記各列のピクセルにおける前景色ピクセルの累積値を含み、n≧i≧1、iが正整数であるように配置される第2算出サブモジュールと、
    前記第2ヒストグラムにおける前景色ピクセルの累積値が第2閾値よりも大きい列からなる連続列セットに基づいて、n 個のキャラクター領域を認識するように配置されるキャラクター認識サブモジュールと、を備えることを特徴とする領域認識装置。
  9. 前記顔領域の領域位置は前記顔領域の所定縁で示され、
    前記取得モジュールは、
    前記証明書類画像を顔認識し、前記顔領域を得るように配置される第1認識サブモジュールと、
    前記顔領域に基づき前記顔領域の前記所定縁を認識するように配置される第2認識サブモジュールと、を備えることを特徴とする請求項に記載の装置。
  10. 前記第1認識サブモジュールは、所定の顔サイズに対する顔モデルによって、前記証明書類画像における所定領域を顔認識し、前記顔領域を得るように配置されることを特徴とする請求項に記載の装置。
  11. 前記第2認識サブモジュールは、
    前記顔領域の下部に基づき前記顔領域の下縁を含む関心領域を決定するように配置される関心決定サブモジュールと、
    前記関心領域を直線検出し、前記顔領域の下縁を認識するように配置される検出サブモジュールと、を備えることを特徴とする請求項に記載の装置。
  12. 前記検出サブモジュールは、
    前記関心領域に対してソーベル水平フィルタリング及び2値化を行い、処理後の関心領域を得るように配置されるフィルタリングサブモジュールと、
    前記処理後の関心領域に対して直線フィッティング又はハフ変換を行い、長さが所定の長さよりも大きい線分を得て、前記線分を前記顔領域の下縁として認識するように配置される変換サブモジュールと、を備えることを特徴とする請求項11に記載の装置。
  13. 前記所定縁の傾きに基づいて、前記証明書類画像に対して勾配補正を行うように配置される修正モジュールを更に備えることを特徴とする請求項12のいずれかに記載の装置。
  14. 前記修正モジュールは、
    前記所定縁の傾きに基づいて、前記所定縁と水平方向とのなす角度を決定するように配置される角度決定サブモジュールと、
    前記証明書類画像を前記角度に応じて回転させ、回転後の前記証明書類画像における前記所定縁が前記水平方向と平行になるように配置される回転サブモジュールと、を備えることを特徴とする請求項13に記載の装置。
  15. 証明書類画像における顔領域の領域位置を取得し、
    前記顔領域の領域位置に基づき少なくとも1つの情報領域を決定し、
    前記情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得るように配置されるプロセッサと、
    前記プロセッサにより実行可能なコマンドを記憶するためのメモリと、を備え
    前記情報領域に対して領域切断を行い、少なくとも1つのキャラクター領域を得ることは、
    前記情報領域を2値化し、2値化後の情報領域を得ることと、
    前記2値化後の情報領域に対して水平方向に応じて第1ヒストグラムを算出し、前記第1ヒストグラムが、各行ピクセルの縦座標及び前記各行ピクセルにおける前景色ピクセルの累積値を含むことと、
    前記第1ヒストグラムにおける前景色ピクセルの累積値が第1閾値よりも大きい行からなる連続行セットに基づき、n行の文字領域を認識して、nが正整数であり、n≧i≧1、iが正整数であることと、
    第i行の文字領域に対して、垂直方向に応じて第2ヒストグラムを算出し、前記第2ヒストグラムが、各列のピクセルの横座標と前記各列のピクセルにおける前景色ピクセルの累積値を含むことと、
    前記第2ヒストグラムにおける前景色ピクセルの累積値が第2閾値よりも大きい列からなる連続列セットに基づいて、ni個のキャラクター領域を認識することを備えることを特徴とする領域認識装置。
JP2017547048A 2015-10-30 2015-12-29 領域認識方法及び装置 Active JP6401873B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510728282.1 2015-10-30
CN201510728282.1A CN105528602A (zh) 2015-10-30 2015-10-30 区域识别方法及装置
PCT/CN2015/099301 WO2017071065A1 (zh) 2015-10-30 2015-12-29 区域识别方法及装置

Publications (2)

Publication Number Publication Date
JP2018500706A JP2018500706A (ja) 2018-01-11
JP6401873B2 true JP6401873B2 (ja) 2018-10-10

Family

ID=55770816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017547048A Active JP6401873B2 (ja) 2015-10-30 2015-12-29 領域認識方法及び装置

Country Status (8)

Country Link
US (1) US20170124386A1 (ja)
EP (1) EP3163500A1 (ja)
JP (1) JP6401873B2 (ja)
KR (1) KR101864759B1 (ja)
CN (1) CN105528602A (ja)
MX (1) MX360693B (ja)
RU (1) RU2629537C1 (ja)
WO (1) WO2017071065A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2885751A4 (en) 2012-08-15 2016-03-30 Jumio Inc IMAGE PROCESSING FOR CREDIT VALIDATION
CN106250894B (zh) * 2016-07-26 2021-10-26 北京小米移动软件有限公司 卡片信息识别方法及装置
CN106446898A (zh) * 2016-09-14 2017-02-22 宇龙计算机通信科技(深圳)有限公司 一种图像中文字信息的提取方法及装置
CN106778755A (zh) * 2016-11-30 2017-05-31 北京小米移动软件有限公司 卡片信息识别方法及装置
CN106778744A (zh) * 2016-12-17 2017-05-31 北京小米移动软件有限公司 一种识别信息卡的信息的方法和装置
CN107194397A (zh) * 2017-05-09 2017-09-22 珠海赛纳打印科技股份有限公司 卡片放置方向的识别方法、装置以及图像处理装置
US10606993B2 (en) * 2017-08-09 2020-03-31 Jumio Corporation Authentication using facial image comparison
CN108154132A (zh) * 2018-01-10 2018-06-12 马上消费金融股份有限公司 一种身份证文字提取方法、系统及设备和存储介质
CN108446699A (zh) * 2018-02-08 2018-08-24 东华大学 一种复杂场景下身份证图片信息识别系统
CN108509885A (zh) * 2018-03-26 2018-09-07 东南大学 一种高效的身份证照片筛选方法
CN109145891B (zh) * 2018-06-27 2022-08-02 上海携程商务有限公司 客户端及其识别身份证的方法、识别身份证的系统
CN110889470B (zh) * 2018-09-07 2023-11-07 京东科技控股股份有限公司 用于处理图像的方法和装置
JP2020086847A (ja) * 2018-11-22 2020-06-04 株式会社Pfu 画像処理装置、制御方法及び制御プログラム
CN109919164B (zh) * 2019-02-22 2021-01-05 腾讯科技(深圳)有限公司 用户界面对象的识别方法及装置
CN110248037B (zh) * 2019-05-30 2022-01-07 苏宁金融服务(上海)有限公司 一种身份证件扫描方法及装置
CN110245616B (zh) * 2019-06-17 2023-04-18 深圳市安络科技有限公司 一种虚假通缉令预警方法及装置
CN110928457B (zh) * 2019-11-13 2020-06-26 南京甄视智能科技有限公司 基于红外相机的平面触摸方法
CN111191657B (zh) * 2019-11-19 2023-08-18 泰康保险集团股份有限公司 一种文字识别方法、装置及计算机可读存储介质
CN111222541B (zh) * 2019-12-02 2022-08-12 国网浙江省电力有限公司 一种基于深度卷积神经网络的外表箱类型识别方法
CN110929725B (zh) * 2019-12-06 2023-08-29 深圳市碧海扬帆科技有限公司 证件分类方法、装置及计算机可读存储介质
CN111259891B (zh) * 2020-01-19 2023-04-18 福建升腾资讯有限公司 一种自然场景下身份证识别方法、装置、设备和介质
CN111626274B (zh) * 2020-07-30 2020-10-27 四川骏逸富顿科技有限公司 一种社保卡识别方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040049401A1 (en) * 2002-02-19 2004-03-11 Carr J. Scott Security methods employing drivers licenses and other documents
JP4078045B2 (ja) * 2001-07-02 2008-04-23 キヤノン株式会社 画像処理装置、方法、プログラム、及び記憶媒体
KR100473600B1 (ko) * 2002-12-04 2005-03-10 삼성전자주식회사 얼굴 인식 시스템에서의 사진 판별 장치 및 방법
JP4354225B2 (ja) * 2003-07-24 2009-10-28 コニカミノルタエムジー株式会社 複写型idカード作製装置及び複写型idカード作製方法
JP4752694B2 (ja) * 2006-09-13 2011-08-17 沖電気工業株式会社 画像抽出装置
US8194933B2 (en) * 2007-12-12 2012-06-05 3M Innovative Properties Company Identification and verification of an unknown document according to an eigen image process
CN101751568B (zh) * 2008-12-12 2012-07-18 汉王科技股份有限公司 证件号码定位和识别方法
JP5240093B2 (ja) * 2009-06-25 2013-07-17 株式会社リコー 身分証明書撮影システム、身分証明書撮影方法およびプログラム
CN101662581B (zh) * 2009-09-09 2011-06-01 谭洪舟 多功能证件信息采集系统
JP5591578B2 (ja) * 2010-04-19 2014-09-17 日本電産サンキョー株式会社 文字列認識装置および文字列認識方法
EP2474931A1 (en) * 2010-12-31 2012-07-11 Gemalto SA System providing an improved skimming resistance for an electronic identity document.
US9087204B2 (en) * 2012-04-10 2015-07-21 Sita Information Networking Computing Ireland Limited Airport security check system and method therefor
US9373031B2 (en) * 2013-03-14 2016-06-21 Digitech Systems Private Reserve, LLC System and method for document alignment, correction, and classification
US8995774B1 (en) * 2013-09-19 2015-03-31 IDChecker, Inc. Automated document recognition, identification, and data extraction
CN104573616A (zh) * 2013-10-29 2015-04-29 腾讯科技(深圳)有限公司 一种信息识别方法、相关装置及系统
CN104680161A (zh) * 2015-01-09 2015-06-03 安徽清新互联信息科技有限公司 一种身份证数字识别方法
CN104680130A (zh) * 2015-01-09 2015-06-03 安徽清新互联信息科技有限公司 一种身份证汉字识别方法

Also Published As

Publication number Publication date
US20170124386A1 (en) 2017-05-04
CN105528602A (zh) 2016-04-27
RU2629537C1 (ru) 2017-08-29
MX360693B (es) 2018-11-14
JP2018500706A (ja) 2018-01-11
WO2017071065A1 (zh) 2017-05-04
KR101864759B1 (ko) 2018-06-05
MX2016003577A (es) 2017-07-14
EP3163500A1 (en) 2017-05-03
KR20170061629A (ko) 2017-06-05

Similar Documents

Publication Publication Date Title
JP6401873B2 (ja) 領域認識方法及び装置
JP6400226B2 (ja) 領域認識方法及び装置
US10127471B2 (en) Method, device, and computer-readable storage medium for area extraction
JP6392467B2 (ja) 領域識別方法及び装置
JP6392468B2 (ja) 領域認識方法及び装置
WO2017071064A1 (zh) 区域提取方法、模型训练方法及装置
CN106296665B (zh) 卡片图像模糊检测方法和装置
CN105894042A (zh) 检测证件图像遮挡的方法和装置
CN106056117A (zh) 矩形物体的图像处理方法及装置
CN103955684A (zh) 字符提取方法、装置及终端

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180828

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180907

R150 Certificate of patent or registration of utility model

Ref document number: 6401873

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250