JP6392468B2 - 領域認識方法及び装置 - Google Patents

領域認識方法及び装置 Download PDF

Info

Publication number
JP6392468B2
JP6392468B2 JP2017547046A JP2017547046A JP6392468B2 JP 6392468 B2 JP6392468 B2 JP 6392468B2 JP 2017547046 A JP2017547046 A JP 2017547046A JP 2017547046 A JP2017547046 A JP 2017547046A JP 6392468 B2 JP6392468 B2 JP 6392468B2
Authority
JP
Japan
Prior art keywords
abscissa
histogram
characters
character
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017547046A
Other languages
English (en)
Other versions
JP2018500705A (ja
Inventor
▲飛▼ ▲龍▼
▲飛▼ ▲龍▼
涛 ▲張▼
涛 ▲張▼
志▲軍▼ ▲陳▼
志▲軍▼ ▲陳▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaomi Inc
Original Assignee
Xiaomi Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaomi Inc filed Critical Xiaomi Inc
Publication of JP2018500705A publication Critical patent/JP2018500705A/ja
Application granted granted Critical
Publication of JP6392468B2 publication Critical patent/JP6392468B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Description

本願は出願番号がCN201510726153.9であり、出願日が2015年10月30日である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全ての内容はここで参考として本願に援用される。
本発明は画像処理分野に関し、特に領域認識方法及び装置に関する。
画像処理分野において、端末は画像における文字を認識する前に、まず文字のキャラクター領域を認識する必要がある。
関連技術により提供される領域認識方法は、端末が画像における背景を除去し、前景画像を抽出して、その後に、エッジ強化技術により抽出された前景画像における文字のエッジを認識し、認識した各文字のエッジにより各文字のキャラクター領域を決定することを含む。
上記手段において、エッジ強化技術は粗位置決めを行うだけであるため、上記手段により位置決められたキャラクター領域の正確度が低い。
関連技術におけるキャラクター領域の位置決めの正確度が低い問題を解決するために、本発明は領域認識方法及び装置を提供する。前記技術案は、以下のとおりである。
本発明の実施例に係る第1形態により、
文字領域を2値化し、2値化後の文字領域を得、前記文字領域が同一行に属する若干の文字を含むことと、
前記2値化後の文字領域に対して垂直方向に応じてヒストグラムを算出し、前記ヒストグラムが各列のピクセルの横座標及び各列のピクセルにおける前景色ピクセルの累積値を含むことと、
ヒストグラムにおける累積値の分布情報に基づいて、文字領域における文字のキャラクター領域を認識することと、を含む領域認識方法を提供している。
好ましくは、ヒストグラムにおける累積値の分布情報により、文字領域における文字のキャラクター領域を認識することは、
ヒストグラムにおける累積値の分布情報により若干の組の横座標を決定し、各組の横座標は第1の横座標及び第1の横座標の右側にある初めの第2の横座標を含み、前記第1の横座標及び第1の横座標の右側の隣接する横座標に対応する累積値が第1の閾値より大きく、且つ第1の横座標の左側の隣接する横座標に対応する累積値が第2の閾値より小さく、第2の横座標及び第2の横座標の左側の隣接する横座標に対応する累積値が第1の閾値より大きく、且つ第2の横座標の右側の隣接する横座標に対応する累積値が第2の閾値より小さく、
各組の横座標に対して、第1の横座標の所在する画素列をキャラクター領域の左縁に認識し、第2の横座標の所在する画素列をキャラクター領域の右縁に認識することを含む。
好ましくは、ヒストグラムにおける累積値の分布情報により若干の組の横座標を決定することは、
累積値の分布情報により、ヒストグラムにおける第3の横座標を認識し、第3の横座標は、若干の文字における最初の有効文字のキャラクター領域の左縁のヒストグラムでの対応する横座標であり、又は、若干の文字における最後の有効文字のキャラクター領域の右縁のヒストグラムでの対応する横座標であり、
第3の横座標を検索開始点として、所定の方向に従って、累積値の分布情報に基づいて若干の組の横座標を検索すること、を含む。
好ましくは、第3の横座標は若干の文字における最初の有効文字のキャラクター領域の左縁のヒストグラムでの対応する横座標であり、
第3の横座標を検索開始点として、所定の方向に従って、累積値の分布情報に基づいて若干の組の横座標を検索することは、
第i組の横座標に対して、ヒストグラムにおける第i組の横座標における第1の横座標を検索開始点として、右へ初めの第4の横座標を検索し、第4の横座標及び第4の横座標の左側の隣接する横座標に対応する累積値が第1の閾値より大きく、第4の横座標の右側の隣接する横座標に対応する累積値が第2の閾値より小さく、1≦i≦n、iは初期値が1である正の整数であり、nは若干の文字における有効文字の個数であり、第1組の座標における第1の横座標は第3の横座標であり、
第4の横座標を第i組の座標における第2の横座標として決定し、
i<nであれば、ヒストグラムにおける第4の横座標を検索開始点とし、右側へ初めの第5の横座標を検索し、第5の横座標及び第5の横座標の右側の隣接する横座標に対応する累積値が第1の閾値より大きく、第5の横座標の左側の隣接する横座標に対応する累積値が第2の閾値より小さく、
i=i+1とし、第5の横座標を第i組の座標における第1の横座標として決定することを含む。
好ましくは、第3の横座標は若干の文字における最後の有効文字のキャラクター領域の右縁のヒストグラムでの対応する横座標であり、
第3の横座標を検索開始点とし、所定の方向に従って、累積値の分布情報に基づいて若干の組の横座標を検索することは、
第j組の座標に対して、ヒストグラムにおける第j組の座標における第2の横座標を検索開始点とし、左へ初めの第6の横座標を検索し、第6の横座標及び第6の横座標の右側の隣接する横座標に対応する累積値が第1の閾値より大きく、第6の横座標の左側の隣接する横座標に対応する累積値が第2の閾値より小さく、1≦j≦n、jは初期値がnである正の整数であり、nは若干の文字における有効文字の個数であり、第n組の座標における第2の横座標は第3の横座標であり、
第6の横座標を第j組の座標における第1の横座標として決定し、
j>0であれば、ヒストグラムにおける第6の横座標を検索開始点として、左側へ初めの第7の横座標を検索し、第7の横座標及び第7の横座標の左側の隣接する横座標に対応する累積値が第1の閾値より大きく、第7の横座標の右側の隣接する横座標に対応する累積値が第2の閾値より小さく、1≦j≦n、jは初期値がnである正の整数であり、j=j−1とし、第7の横座標を第j組の座標における第2の横座標として決定することを含む。
好ましくは、第3の横座標は若干の文字における最初の有効文字のキャラクター領域の左縁のヒストグラムでの対応する横座標であり、
累積値の分布情報に基づいて、ヒストグラムにおける第3の横座標を認識することは、
若干の文字が有効文字と無効文字を含み、有効文字と無効文字との間の第1の距離が隣接する2つの有効文字間の第2の距離より大きく、ヒストグラムにおける予め設定された横座標から、左側へ初めの幅が第2の距離より大きい隙間を探し、隙間の右側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定し、予め設定された横座標は予め設定された区間に属する座標であり、予め設定された区間は経験値に基づいて設定された区間であり、隙間の前景色ピクセルの累積値が第2の閾値より小さいこと、
又は、
若干の文字がいずれも有効文字であり、ヒストグラムにおける左側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定することを含む。
好ましくは、第3の横座標は若干の文字における最後の有効文字のキャラクター領域の右縁のヒストグラムでの対応する横座標であり、
累積値の分布情報に基づいて、ヒストグラムにおける第3の横座標を認識することは、
若干の文字が有効文字と無効文字を含み、有効文字と無効文字との間の第1の距離が隣接する2つの有効文字間の第2の距離より大きく、ヒストグラムにおける予め設定された横座標から、右側へ幅が第2の距離より大きい隙間を探し、隙間の左側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定し、予め設定された横座標は予め設定された区間に属する座標であり、予め設定された区間は経験値に基づいて設定された区間であり、隙間の前景色ピクセルの累積値は第2の閾値より小さいこと、
又は、
若干の文字がいずれも有効文字であり、ヒストグラムの右側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定することを含む。
好ましくは、当該方法は、
ターゲット画像領域を2値化し、2値化後のターゲット画像領域を得ることと、
2値化後のターゲット画像領域に対して水平方向に応じて水平ヒストグラムを算出し、水平ヒストグラムは、各行のピクセルの縦座標及び各行のピクセルにおける前景色ピクセルの累積値を含むことと、
水平ヒストグラムにおける累積値の分布情報により、若干の組の縦座標を決定し、各組の縦座標は、第1の縦座標と第1の縦座標の下側にある第2の縦座標を含み、各組の縦座標に対して、第1の縦座標の所在する画素行を1行の文字領域の上縁として認識し、第2の縦座標の所在する画素行を文字領域の下縁として認識し、第1の縦座標及び第1の縦座標の下側の隣接する縦座標に対応する累積値が第1の閾値より大きく、且つ第1の縦座標の上側の隣接する縦座標に対応する累積値が第2の閾値より小さく、第2の縦座標及び第2の縦座標の上側の隣接する縦座標に対応する累積値が第1の閾値より大きく、且つ第2の縦座標の下側の隣接する縦座標に対応する累積値が第2の閾値より小さいことと、
第k行の文字領域に対して、文字領域を2値化し、2値化後の文字領域を得るステップを実行し、m≧k≧1、kが正の整数であり、mが認識された総行数であることと、
をさらに含む。
本発明の実施例に係る第2形態により、
同一の行に属する若干の文字を含む文字領域を2値化し、2値化後の文字領域を得るように配置される第1の2値化モジュールと、
2値化後の文字領域に対して垂直方向に応じて各列のピクセルの横座標及び各列のピクセルにおける前景色ピクセルの累積値を含むヒストグラムを算出するように配置される第1の算出モジュールと、
ヒストグラムにおける累積値の分布情報に基づいて、文字領域における文字のキャラクター領域を認識するように配置される領域認識モジュールと、を含む領域認識装置を提供している。
好ましくは、領域認識モジュールは、
ヒストグラムにおける累積値の分布情報により若干の組の横座標を決定し、各組の横座標は第1の横座標及び第1の横座標の右側にある初めの第2の横座標を含み、第1の横座標及び第1の横座標の右側の隣接する横座標に対応する累積値が第1の閾値より大きく、且つ第1の横座標の左側の隣接する横座標に対応する累積値が第2の閾値より小さく、第2の横座標及び第2の横座標の左側の隣接する横座標に対応する累積値が第1の閾値より大きく、且つ第2の横座標の右側の隣接する横座標に対応する累積値が第2の閾値より小さいように配置される座標決定サブモジュールと、
各組の横座標に対して、第1の横座標の所在する画素列をキャラクター領域の左縁に認識し、第2の横座標の所在する画素列をキャラクター領域の右縁に認識するように配置される領域認識サブモジュールと、を含む。
好ましくは、座標決定サブモジュールは、
累積値の分布情報により、ヒストグラムにおける第3の横座標を認識し、第3の横座標は、若干の文字における最初の有効文字のキャラクター領域の左縁のヒストグラムでの対応する座標であり、又は、若干の文字における最後の有効文字のキャラクター領域の右縁のヒストグラムでの対応する座標であるように配置される座標認識サブモジュールと、
第3の横座標を検索開始点として、所定の方向に従って、累積値の分布情報に基づいて若干の組の横座標を検索するように配置される座標検索サブモジュールと、を含む。
好ましくは、第3の横座標は若干の文字における最初の有効文字のキャラクター領域の左縁のヒストグラムでの対応する横座標であり、
座標検索サブモジュールは、更に、
第i組の横座標に対して、ヒストグラムにおける第i組の横座標における第1の横座標を検索開始点とし、右へ初めの第4の横座標を検索し、第4の横座標及び第4の横座標の左側の隣接する横座標に対応する累積値が第1の閾値より大きく、第4の横座標の右側の隣接する横座標に対応する累積値が第2の閾値より小さく、1≦i≦n、iは初期値が1である正の整数であり、nは若干の文字における有効文字の個数であり、第1組の座標における第1の横座標は第3の横座標であり、
第4の横座標を第i組の座標における第2の横座標として決定し、
i<nであれば、ヒストグラムにおける第4の横座標を検索開始点として、右側へ初めの第5の横座標を検索し、第5の横座標及び第5の横座標の右側の隣接する横座標に対応する累積値が第1の閾値より大きく、第5の横座標の左側の隣接する横座標に対応する累積値が第2の閾値より小さく、
i=i+1とし、第5の横座標を第i組の座標における第1の横座標として決定するように配置される。
好ましくは、第3の横座標は若干の文字における最後の有効文字のキャラクター領域の右縁のヒストグラムでの対応する横座標であり、
座標検索サブモジュールは、更に、
第j組の座標に対して、ヒストグラムにおける第j組の座標における第2の横座標を検索開始点として、左へ初めの第6の横座標を検索し、第6の横座標及び第6の横座標の右側の隣接する横座標に対応する累積値が第1の閾値より大きく、第6の横座標の左側の隣接する横座標に対応する累積値が第2の閾値より小さく、1≦j≦n、jは初期値がnである正の整数であり、nは若干の文字における有効文字の個数であり、第n組の座標における第2の横座標は第3の横座標であり、
第6の横座標を第j組の座標における第1の横座標として決定し、
j>0であれば、ヒストグラムにおける第6の横座標を検索開始点として、左側へ初めの第7の横座標を検索し、第7の横座標及び第7の横座標の左側の隣接する横座標に対応する累積値が第1の閾値より大きく、第7の横座標の右側の隣接する横座標に対応する累積値が第2の閾値より小さく、1≦j≦n、jは初期値がnである正の整数であり、
j=j−1とし、第7の横座標を第j組の座標における第2の横座標として決定するように配置される。
好ましくは、第3の横座標は若干の文字における最初の有効文字のキャラクター領域の左縁のヒストグラムでの対応する横座標であり、
座標認識サブモジュールは、更に、
若干の文字が有効文字と無効文字を含み、有効文字と無効文字との間の第1の距離が隣接する2つの有効文字間の第2の距離より大きい場合に、ヒストグラムにおける予め設定された横座標から、左側へ初めの幅が第2の距離より大きい隙間を探し、隙間の右側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定し、予め設定された横座標が予め設定された区間に属する座標であり、予め設定された区間は経験値に基づいて設定された区間であり、隙間の前景色ピクセルの累積値が第2の閾値より小さいように配置され、
又は、
若干の文字がいずれも有効文字である場合に、ヒストグラムにおける左側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定するように配置される。
好ましくは、第3の横座標は若干の文字における最後の有効文字のキャラクター領域の右縁のヒストグラムでの対応する横座標であり、
座標認識サブモジュールは、更に、
若干の文字が有効文字と無効文字を含み、有効文字と無効文字との間の第1の距離が隣接する2つの有効文字間の第2の距離より大きい場合に、ヒストグラムにおける予め設定された横座標から、右側へ幅が第2の距離より大きい隙間を探し、隙間の左側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定し、予め設定された横座標は予め設定された区間に属する座標であり、予め設定された区間は経験値に基づいて設定された区間であり、隙間の前景色ピクセルの累積値は第2の閾値より小さいように配置され、
又は、
若干の文字がいずれも有効文字である場合に、ヒストグラムの右側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定するように配置される。
好ましくは、当該装置は、
ターゲット画像領域を2値化し、2値化後のターゲット画像領域を得るように配置される第2の2値化モジュールと、
2値化後のターゲット画像領域に対して水平方向に応じて各行のピクセルの縦座標及び各行のピクセルにおける前景色ピクセルの累積値を含む水平ヒストグラムを算出するように配置される第2の算出モジュールと、
水平ヒストグラムにおける累積値の分布情報により、若干の組の縦座標を決定し、各組の縦座標は第1の縦座標と第1の縦座標の下側にある第2の縦座標を含み、各組の縦座標に対して、第1の縦座標の所在する画素行を1行の文字領域の上縁として認識し、第2の縦座標の所在する画素行を文字領域の下縁として認識し、第1の縦座標及び第1の縦座標の下側の隣接する縦座標に対応する累積値が第1の閾値より大きく、且つ第1の縦座標の上側の隣接する縦座標に対応する累積値が第2の閾値より小さく、第2の縦座標及び第2の縦座標の上側の隣接する縦座標に対応する累積値が第1の閾値より大きく、且つ第2の縦座標の下側の隣接する縦座標に対応する累積値が前記第2の閾値より小さいように配置される縁決定モジュールと、を更に備え、
第1の2値化モジュールは、更に第k行の文字領域に対して、文字領域を2値化し、2値化後の文字領域を得るステップを実行し、m≧k≧1、kが正の整数であり、mが認識された総行数であるように配置される。
本発明の実施例に係る第3形態により、
同一の行に属する若干の文字を含む文字領域を2値化し、2値化後の文字領域を得、
2値化後の文字領域に対して垂直方向に応じて各列のピクセルの横座標及び各列のピクセルにおける前景色ピクセルの累積値を含むヒストグラムを算出し、
ヒストグラムにおける累積値の分布情報に基づいて、文字領域における文字のキャラクター領域を認識するように配置されるプロセッサと、
プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含む領域認識装置を提供している。
本発明の実施例に係る技術案は以下の有益な効果を含む。
2値化後の文字領域に対して垂直方向に応じてヒストグラムを算出し、ヒストグラムにおける分布情報に基づいて、文字領域における文字のキャラクター領域を認識することで、関連技術における文字領域の位置決めの正確性が低いという問題を解決し、ヒストグラムにおける前景色ピクセルの累積値の分布情報に基づいて文字のキャラクター領域を正確に位置決めすることができるという効果を達する。
以上の一般的な説明及び後述する詳細は例示的なものに過ぎず、本発明を制限するためのものではない。
ここの図面は明細書に組み込まれて本明細書の一部を構成し、本発明に適合する実施例を示し、明細書と共に本発明の原理を解釈するのに用いられる。
一部の例示的な実施例で示す文字領域の模式図である。 例示的な実施例で示す領域認識方法のフローチャートである。 別の例示的な実施例で示す領域認識方法のフローチャートである。 別の例示的な実施例で示す文字領域を2値化後の模式図である。 別の例示的な実施例で示す垂直方向に応じて算出されたヒストグラムの模式図である。 別の例示的な実施例で示す端末が若干の組の横座標を決定する決定方法のフローチャートである。 別の例示的な実施例で示す端末が認識したヒストグラムにおける第3の横座標の模式図である。 別の例示的な実施例で示すヒストグラムにより決定された各組の横座標の模式図である。 別の例示的な実施例で示すヒストグラムにおける予め設定された横座標の模式図である。 別の例示的な実施例で示すヒストグラムにより決定された第3の横座標の模式図である。 例示的な実施例で示す第3の横座標と累積値の分布情報に基づいて各組の横座標を認識する認識方法のフローチャートである。 別の例示的な実施例で示す別の第3の横座標と累積値の分布情報に基づいて各組の横座標を認識する認識方法のフローチャートである。 他の例示的な実施例で示す端末が認識した文字領域の認識方法のフローチャートである。 例示的な実施例で示す領域認識装置のブロック図である。 別の例示的な実施例で示す領域認識装置のブロック図である。 例示的な実施例で示す領域認識装置のブロック図である。
ここで例示的な実施例について詳しく説明し、その実例は図面に示す通りである。下記の説明が図面に関わるとき、別途に表示されない限り、異なる図面における同じ数字は同じ又は類似する要素を示す。以下の例示的な実施例に説明される実施形態は本発明と一致する全ての実施形態を表すわけではない。逆に、それらは特許請求の範囲に詳細に記載された本発明の一部の態様と一致する装置と方法の例に過ぎない。
理解しやすいために、まず、本発明の各例示的な実施例に関する用語を簡単に説明する。
文字領域は同一の行に属する若干の文字を含み、該文字領域は証明書類画像における領域であってもよいし、書類走査画像における領域であってもよいし、電子文書における領域であってもよいが、本実施例はこれに限定されない。また、本実施例における文字領域の上縁が同一の行における文字の上縁と直上の行における文字の下縁との間にあり、文字領域の下縁が当該行における文字の下縁と直下の行における文字の上縁との間にある。
例えば、文字領域が第2代身分証明書における同一の行に属する公民身分証明書番号を含む領域であることを例として説明し、図1を参照して、文字領域の上縁がlとlとの間にあり、下縁がlとlとの間にある。例えば、文字領域が図1に示す領域11である。
文字領域における文字は有効文字であってもよく、有効文字と無効文字の組合せであってもよい。有効文字がキャラクター領域を認識する必要がある文字であり、無効文字がキャラクター領域を認識する必要がない文字である。例えば、図1における公民身分証明書番号における各デジタルの領域を認識する必要があること、即ち公民身分証明書番号が有効文字であることを挙げて説明し、文字領域における文字はその中のデジタル‘3 3 0 4 2 1 1 9 9 0 1 2 1 6 2 8 3 4’のみを含んでもよく、デジタル‘3 3 0 4 2 1 1 9 9 0 1 2 1 6 2 8 3 4’を含むとともにデジタルの左側にある少なくとも1つの漢字を含んでもよく、例えば文字領域における文字が‘番号 3 3 0 4 2 1 1 9 9 0 1 2 1 6 2 8 3 4’である。そのうち、キャラクター領域とは単一の文字に対応する領域である。
また、本発明の各実施例に記載する文字はデジタル、字母、漢字、写真又はその他の算出されたヒストグラムにおける前景色ピクセルの値が閾値より大きい内容である。
図2は例示的な実施例で示す領域認識方法のフローチャートであり、図2に示すように、該領域認識方法は以下のステップを含む。
ステップ201では、文字領域を2値化し、2値化後の文字領域を得、該文字領域が同一の行に属する若干の文字を含む。
ステップ202では、2値化後の文字領域に対して垂直方向に応じてヒストグラムを算出し、該ヒストグラムは、各列のピクセルの横座標及び各列のピクセルにおける前景色ピクセルの累積値を含む。
ステップ203では、ヒストグラムにおける累積値の分布情報に基づいて、文字領域における文字のキャラクター領域を認識する。
以上のように、本発明の実施例により提供される領域認識方法は、2値化後の文字領域に対して垂直方向に応じてヒストグラムを算出し、ヒストグラムにおける分布情報に基づいて、文字領域における文字のキャラクター領域を認識することで、関連技術における文字領域の位置決めの正確性が低いという問題を解決し、ヒストグラムにおける前景色ピクセルの累積値の分布情報に基づいて文字のキャラクター領域を正確に位置決めすることができるという効果を達する。
図3Aは別の例示的な実施例で示す領域認識方法のフローチャートであり、図3Aに示すように、該領域認識方法は以下のステップを含む。
ステップ301において、文字領域を2値化し、2値化後の文字領域を得、該文字領域は同一の行に属する若干の文字を含む。
端末は該文字領域をプリ処理することが好ましい。そのうち、プリ処理はノイズ除去、フィルタリング、エッジ抽出等の操作を含み、プリ処理後の文字領域を2値化することができる。
2値化とは、文字領域におけるピクセルのグレー値と予め設定されたグレー閾値を比較し、文字領域におけるピクセルを、予め設定されたグレー閾値より大きい画素群と予め設定されたグレー閾値より小さい画素群という2つの部分に分けて、2つの部分の画素群に文字領域でそれぞれ黒と白という2種の異なる色を呈させ、2値化後の文字領域を得、図3Bに示すようである。そのうち、前景にある1種の色のピクセルが前景色ピクセル、即ち図3Bにおける白色ピクセルと称され、背景にある1種の色のピクセルが背景色ピクセル、即ち図3Bにおける黒色ピクセルと称される。
ステップ302において、2値化後の文字領域に対して垂直方向に応じてヒストグラムを算出し、該ヒストグラムは各列のピクセルの横座標と各列のピクセルにおける前景色ピクセルの累積値を含む。
文字領域を2値化した後に、垂直方向に応じてヒストグラムを算出する。該ヒストグラムは、水平方向に各列のピクセルの横座標を表し、垂直方向に各列のピクセルにおける前景色ピクセルの個数累積値を表し、前景色ピクセルは、2値化後の文字領域における白色領域のピクセルを意味し、背景色ピクセルに対するものである。例えば、端末は図3Cに示すヒストグラムを算出する。
ステップ303において、ヒストグラムにおける累積値の分布情報により若干の組の横座標を決定する。
図3Dを参照して、本ステップは、以下を含むことが好ましい。
ステップ303aにおいて、累積値の分布情報により、ヒストグラムにおける第3の横座標を認識する。
そのうち、該第3の横座標が、若干の文字における最初の有効文字のキャラクター領域の左縁のヒストグラムでの対応する横座標、又は、若干の文字における最後の有効文字のキャラクター領域の右縁のヒストグラムでの対応する横座標である。
例えば、文字領域における有効文字が図1における公民身分証明書番号であることを例として説明し、図3Eを参照して、第3の横座標は、最初の有効デジタル‘3’の左縁のヒストグラムでの対応する横座標X、又は、最後の有効デジタル‘4’の右縁のヒストグラムでの対応する横座標Xである。
ステップ303bにおいて、第3の横座標を検索開始点として、所定の方向に従って累積値の分布情報に基づいて若干の組の横座標を検索する。
第3の横座標を認識した後に,端末はヒストグラムにおける第3の横座標を検索開始点として、所定の方向に従って累積値の分布情報に基づいて若干の組の横座標を検索する。そのうち、第3の横座標が最初の有効文字のキャラクター領域の左縁のヒストグラムでの対応する横座標である場合に、所定の方向は右向きの方向であり、第3の横座標が最後の有効文字のキャラクター領域の右縁のヒストグラムでの対応する横座標である場合に、所定の方向は左向きの方向である。
横座標の組数は文字領域における有効文字の個数に対応し、即ち、各組の横座標は有効文字のキャラクター領域の左縁のヒストグラムでの対応する第1の横座標及び該有効文字のキャラクター領域の右縁のヒストグラムでの対応する第2の横座標を含む。即ち、各組の横座標は、第1の横座標及び第1の横座標の右側にある初めの第2の横座標を含む。そのうち、該第1の横座標及び第1の横座標の右側の隣接する横座標に対応する累積値が第1の閾値より大きく、且つ第1の横座標の左側の隣接する横座標に対応する累積値が第2の閾値がより小さく、第2の横座標及び第2の横座標の左側の隣接する横座標に対応する累積値が第1の閾値より大きく、且つ第2の横座標の右側の隣接する横座標に対応する累積値が第2の閾値がより小さい。
例えば、第1の横座標をXとし、第2の横座標をXとすることを例として説明し、端末は図3Fに示す各組の横座標を認識することができる。なお、図3Fには認識された複数の組の横座標を例示として説明し、実際には、より多くの組の横座標を更に含むが、本実施例はこれに限定されない。
上記第1の閾値及び第2の閾値は小さい値であることができる。例えば、第1の閾値及び第2の閾値は0よりわずかに大きい値であることができる。第1の閾値が0であり、第2の閾値が0に近い値であることができる。且つ、実際には、第1の横座標及び第1の横座標の右側の隣接する横座標に対応する累積値が0ではなく、且つ第1の横座標の左側の隣接する横座標に対応する累積値が0であり、第2の横座標及び第2の横座標の左側の隣接する横座標に対応する累積値が0ではなく、且つ第2の横座標の右側の隣接する横座標に対応する累積値が0である。
ステップ304において、各組の横座標に対して、第1の横座標の所在する画素列をキャラクター領域の左縁に認識し、第2の横座標の所在する画素列をキャラクター領域の右縁に認識する。
以上のように、本発明の実施例に係る領域認識方法は、2値化後の文字領域に対して垂直方向に応じてヒストグラムを算出し、ヒストグラムにおける分布情報に基づいて、文字領域における文字のキャラクター領域を認識することで、関連技術における文字領域の位置決めの正確性が低いという問題を解決し、ヒストグラムにおける前景色ピクセルの累積値の分布情報に基づいて文字のキャラクター領域を正確に位置決めすることができるという効果を達する。
図3Aに示す実施例において、文字領域における文字が有効文字と無効文字を含み、且つ有効文字と無効文字との間の第1の距離が隣接する2つの有効文字間の第2の距離より大きい場合に、ステップ303aは以下を含むことができる。
端末はヒストグラムにおける予め設定された横座標から、左側へ初めの幅が第2の距離より大きい隙間を探し、且つ隙間の右側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定する。
予め設定された横座標は予め設定された区間に属する座標であり、予め設定された区間は文字領域における有効文字のヒストグラムでの対応するマッピング区間に属する。例えば、有効文字を公民身分証明書番号として挙げて説明すると、図3Eを組み合わせ、予め設定された区間が図における[X,X]の区間に属する。該予め設定された区間は一般的に経験値に基づいて設定された区間である。且つ隙間の前景色ピクセルの累積値が第2の閾値より小さい。
有効文字を図1における公民身分証明書番号として挙げて説明し、第2代身分証明書における水平方向の半分の位置が公民身分証明書番号であるため、予め設定された横座標は第2代身分証明書における水平方向の半分の位置のヒストグラムでの対応する横座標であることができる。例えば、文字領域の幅が第2代身分証明書の幅全体であることを例に、図3Gを参照して、予め設定された横座標は図におけるXである。端末はXから左側へ探し始めることができる。公民身分証明書番号における隣接する2つのデジタル間の第1の距離が漢字‘号’と最初のデジタルとの間の第2の距離より遥かに小さいので、端末は左側へ幅が第2の距離より大きい隙間、即ち図における隙間dを探した後に、端末は隙間の右側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定することができ、即ち第3の横座標Xを決定している。
以上は端末が予め設定された横座標から左側へ探すことを例として説明し、同様に、端末は更に予め設定された横座標から右側へ探し、幅が第2の距離より大きい隙間を探した後に、隙間の左側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定し、本実施例はここで挙げて説明しない。
図3Aに示す代替的な実施例において、文字領域における文字がいずれも有効文字であれば、ステップ303aは以下のステップを含むことができる。
文字領域における文字がいずれも有効文字である場合に、端末は2値化後の文字領域のヒストグラムを算出して、算出されたヒストグラムにおける左側の初めの前景色ピクセルの累積値が第1の閾値より大きい横座標が最初の有効文字のヒストグラムでの対応する横座標であるため、端末はヒストグラムにおける左側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定することができる。
例えば、図3Hを参照して、端末は図におけるXを第3の横座標として決定することができる。
同様に、ヒストグラムにおける右側の初めの前景色ピクセルの累積値が第1の閾値より大きい横座標が最後の有効文字のヒストグラムでの対応する横座標であるため、端末はヒストグラム右側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定することができる。図3Hを再び参照して、端末は図におけるXを第3の横座標として決定することができる。
図3Aに示す実施例において、端末が上記算出方式により第3の横座標を算出し、算出された第3の横座標が若干の文字における最初の有効文字のキャラクター領域の左縁のヒストグラムでの対応する横座標であれば、図4を参照して、ステップ303bをステップ401〜ステップ404に替えることができる。
ステップ401において、第i組の横座標に対して、ヒストグラムにおける第i組の横座標における第1の横座標を検索開始点として、右へ初めの第4の横座標を検索する。
1≦i≦n、iは初期値が1である正の整数であり、nは若干の文字における有効文字の個数である。例えば、有効文字を第2代身分証明書における公民身分証明書番号として挙げて説明し、有効文字の個数nが18である。
なお、第1組の座標における第1の横座標が第3の横座標であり、且つ第4の横座標及び第4の横座標の左側の隣接する横座標に対応する累積値が第1の閾値より大きく、第4の横座標の右側の隣接する横座標に対応する累積値が第2の閾値より小さい。
iを1として挙げて説明し、第1組の横座標における第1の横座標xが第3の横座標Xであれば、端末はヒストグラムにおけるXを検索開始点として、左側へ検索して、更に初めの第4の横座標を決定する。
ステップ402において、第4の横座標を第i組の座標における第2の横座標として決定する。
ステップ403において、i<nであればれば、ヒストグラムにおける第4の横座標を検索開始点として、右側へ初めの第5の横座標を検索する。
i<nであれば、端末は右側にキャラクター領域を認識していない有効文字があることを決定することができ、このとき、端末は、決定された現在の有効文字のキャラクター領域の右縁のヒストグラムでの対応する横座標を検索開始点として、右側へ次の有効文字のキャラクター領域の左縁のヒストグラムでの対応する横座標を検索し続ける。
端末は、ヒストグラムにおける第4の横座標を検索開始点として、右側へ初めの第5の横座標を検索し、第5の横座標及び第5の横座標の右側の隣接する横座標に対応する累積値が第1の閾値より大きく、第5の横座標の左側の隣接する横座標に対応する累積値が第2の閾値より小さいことが好ましい。
ステップ404において、i=i+1とし、第5の横座標を第i組の座標における第1の横座標として決定する。
端末は検索された横座標を次の有効文字のキャラクター領域の左縁のヒストグラムでの対応する横座標として決定する。端末は、i=i+1とし、第5の横座標を第i組の座標における第1の横座標として決定することが好ましい。
その後に、端末は上記方法に従って右側へ検索し続け、更に各有効文字のキャラクター領域に対応する一組の横座標を決定する。
図3Aに示す実施例において、端末が上記算出方式により第3の横座標を算出し、算出された第3の横座標が、若干の文字における最後の有効文字のキャラクター領域の右縁のヒストグラムでの対応する横座標であれば、図5を参照して、ステップ303bをステップ501〜ステップ504に替えることができる。
ステップ501において、第j組の座標に対して、ヒストグラムにおける第j組の座標における第2の横座標を検索開始点として、左へ初めの第6の横座標を検索する。
第6の横座標及び第6の横座標の右側の隣接する横座標に対応する累積値が第1の閾値より大きく、第6の横座標の左側の隣接する横座標に対応する累積値が第2の閾値より小さく、1≦j≦n、jは初期値がnである正の整数であり、nは若干の文字における有効文字の個数であり、第n組の座標における第2の横座標が第3の横座標である。
ステップ502において、第6の横座標を第j組の座標における第1の横座標として決定する。
ステップ503において、j>0であれば、ヒストグラムにおける第6の横座標を検索開始点として、左側へ初めの第7の横座標を検索し、第7の横座標及び第7の横座標の左側の隣接する横座標に対応する累積値が第1の閾値より大きく、第7の横座標の右側の隣接する横座標に対応する累積値が第2の閾値より小さく、1≦j≦n、jは初期値がnである正の整数である。
ステップ504において、j=j−1とし、第7の横座標を第j組の座標における第2の横座標として決定する。
なお、ステップ501〜ステップ504が上記ステップ401〜ステップ404に類似し、両者は、ステップ401〜ステップ404が提供する方法が左側から右へ検索することであるが、ステップ501〜ステップ504が右から左へ検索することである点で相違しているため、本実施例はここで繰り返して説明しない。
以上に提供する各実施例に基づいて、図6を参照して、文字領域を2値化して、更に2値化後の文字領域を得る前に、端末は更に以下のステップを実行することができる。
ステップ601において、ターゲット画像領域を2値化し、2値化後のターゲット画像領域を得る。
ターゲット画像領域は複数の行の文字を含む領域であることができる。
本ステップが上記実施例におけるステップ301に類似し、詳しい技術は上記実施例を参照して、本実施例はこれに限定されない。
ステップ602では、2値化後のターゲット画像領域に対して水平方向に応じて水平ヒストグラムを算出し、水平ヒストグラムは、各行のピクセルの縦座標及び各行ピクセルにおける前景色ピクセルの累積値を含む。
本ステップは上記実施例におけるステップ302に類似し、その相違は、ステップ302において2値化後の文字領域に垂直方向に従ってヒストグラムを算出し、本ステップでは2値化後のターゲット画像領域に水平方向に応じてヒストグラムを算出することである。
ステップ603において、水平ヒストグラムにおける累積値の分布情報により、若干の組の縦座標を決定し、各組の縦座標は第1の縦座標と第1の縦座標の下側にある第2の縦座標を含み、各組の縦座標に対して、第1の縦座標の所在する画素行を1行の文字領域の上縁として認識し、第2の縦座標の所在する画素行を文字領域の下縁として認識する。
水平方向の水平ヒストグラムを算出して、端末は水平ヒストグラムにおける累積値の分布情報により、若干の組の縦座標を決定し、各組の縦座標により各行の領域を決定する。
本ステップは上記実施例における垂直方向のヒストグラムにおける累積値の分布情報により、若干の組の横座標を決定し、更に各組の横座標により文字の左縁及び右縁を決定することと類似し、詳しい技術は上記実施例を参照する。
そのうち、該第1の縦座標及び第1の縦座標の下側の隣接する縦座標に対応する累積値が第1の閾値より大きく、且つ第1の縦座標の上側の隣接する縦座標に対応する累積値が第2の閾値がより小さく、第2の縦座標及び第2の縦座標の上側の隣接する縦座標に対応する累積値が第1の閾値より大きく、且つ第2の縦座標の下側の隣接する縦座標に対応する累積値が第2の閾値より小さい。
ステップ604において、第k行の文字領域に対して、文字領域を2値化し、2値化後の文字領域を得るステップを実行し、m≧k≧1、kが正の整数であり、mが認識された総行数である。
ステップ603において各行の文字領域を認識した後、各行の文字領域に対して、端末は文字領域を2値化し、2値化後の文字領域を得る操作を実行することができる。
ここで、端末はターゲット画像領域における各行における各有効文字のキャラクター領域を認識することができる。
上記実施例は、端末が水平方向のヒストグラムにより文字領域を決定することを例として説明し、端末は更にその他の決定方式により文字領域を決定することができる。例えば、端末は画像位置決め技術により文字領域を位置決めする。文字領域が第2代身分証明書における公民身分証明書番号を例として説明し、公民身分証明書番号の第2代身分証明書における位置は比較的に一定であり、且つ公民身分証明書番号と上方のアドレス及び頭像との間の距離が大きいため、端末は証明書類画像の下方の1/5の領域を直接的に位置決めすることができ、位置決めされた画像領域を文字領域とするが、本実施例はこれに限定されない。
以下は本発明の装置の実施例であり、本発明の方法の実施例の実行において使用することができる。本発明の装置の実施例で開示されていない詳細は、本発明の方法の実施例を参照する。
図7は例示的な実施例で示す領域認識装置のブロック図であり、図7に示すように、該領域認識装置は第1の2値化モジュール710、第1の算出モジュール720及び領域認識モジュール730を含むが、これらに限定されない。
第1の2値化モジュール710は、文字領域を2値化し、2値化後の文字領域を得、該文字領域が同一の行に属する若干の文字を含むように配置される。
第1の算出モジュール720は、2値化後の文字領域に対して垂直方向に応じてヒストグラムを算出し、ヒストグラムは、各列のピクセルの横座標及び各列のピクセルにおける前景色ピクセルの累積値を含むように配置される。
領域認識モジュール730は、ヒストグラムにおける累積値の分布情報に基づいて、文字領域における文字のキャラクター領域を認識するように配置される。
以上のように、本発明の実施例により提供される領域認識装置は、2値化後の文字領域に対して垂直方向に応じてヒストグラムを算出し、ヒストグラムにおける分布情報に基づいて、文字領域における文字のキャラクター領域を認識することで、関連技術における文字領域の位置決めの正確性が低いという問題を解決し、ヒストグラムにおける前景色ピクセルの累積値の分布情報に基づいて文字のキャラクター領域を正確に位置決めすることができるという効果を奏する。
図8は別の例示的な実施例で示す領域認識装置のブロック図であり、図8に示すように、該領域認識装置は、第1の2値化モジュール810、第1の算出モジュール820及び領域認識モジュール830を含むが、これらに限定さない。
第1の2値化モジュール810は、文字領域を2値化し、2値化後の文字領域を得、該文字領域が同一の行に属する若干の文字を含むように配置される。
第1の2値化モジュール810は、文字領域をプリ処理することが好ましく、そのうち、プリ処理はノイズ除去、フィルタリング、エッジ抽出等の操作を含み、プリ処理後の文字領域を2値化することができる。
2値化とは、文字領域におけるピクセルのグレー値と予め設定されたグレー閾値を比較し、文字領域におけるピクセルを予め設定されたグレー閾値より大きい画素群と予め設定されたグレー閾値より小さい画素群という2つの部分に分けて、2つの部分の画素群に文字領域でそれぞれ黒と白という2種の異なる色を呈させ、2値化後の文字領域を得ることである。
第1の算出モジュール820は、2値化後の文字領域に対して垂直方向に応じてヒストグラムを算出し、ヒストグラムは、各列のピクセルの横座標及び各列のピクセルにおける前景色ピクセルの累積値を含むように配置される。
第1の2値化モジュール810が文字領域を2値化した後に、第1の算出モジュール820は垂直方向に応じてヒストグラムを算出する。該ヒストグラムは、水平方向に各列のピクセルの横座標を表し、垂直方向に各列のピクセルにおける前景色ピクセルの個数累積値を表し、前景色ピクセルは、2値化後の文字領域における白色領域のピクセルを意味し、背景ピクセルに対するものである。
領域認識モジュール830は、ヒストグラムにおける累積値の分布情報に基づいて、文字領域における文字のキャラクター領域を認識するように配置される。
選択可能な実施形態において、領域認識モジュール830は、座標決定サブモジュール831と領域認識サブモジュール832とを含む。
座標決定サブモジュール831はヒストグラムにおける累積値の分布情報により若干の組の横座標を決定し、各組の横座標は第1の横座標及び第1の横座標の右側にある初めの第2の横座標を含み、第1の横座標及び第1の横座標の右側の隣接する横座標に対応する累積値が第1の閾値より大きく、且つ第1の横座標の左側の隣接する横座標に対応する累積値が第2の閾値より小さく、第2の横座標及び第2の横座標の左側の隣接する横座標に対応する累積値が第1の閾値より大きく、且つ第2の横座標の右側の隣接する横座標に対応する累積値が第2の閾値より小さいように配置される。
領域認識サブモジュール832は、各組の横座標に対して、第1の横座標の所在する画素列をキャラクター領域の左縁に認識し、第2の横座標の所在する画素列をキャラクター領域の右縁に認識するように配置される。
座標決定サブモジュール831は、座標認識サブモジュール831aと座標検索サブモジュール831bを含むことが好ましい。
座標認識サブモジュール831aは、累積値の分布情報により、ヒストグラムにおける第3の横座標を認識し、第3の横座標が若干の文字における最初の有効文字のキャラクター領域の左縁のヒストグラムでの対応する座標、又は、若干の文字における最後の有効文字のキャラクター領域の右縁のヒストグラムでの対応する座標であるように配置される。
座標検索サブモジュール831bは第3の横座標を検索開始点として、所定の方向に従って累積値の分布情報に基づいて若干の組の横座標を検索するように配置される。
座標認識サブモジュール831aが第3の横座標を認識した後、座標検索サブモジュール831bがヒストグラムにおける第3の横座標を検索開始点として、所定の方向に従って累積値の分布情報に基づいて若干の組の横座標を検索することができる。そのうち、第3の横座標が最初の有効文字のキャラクター領域の左縁のヒストグラムでの対応する横座標である場合に、所定の方向は右向きの方向であり、第3の横座標が最後の有効文字のキャラクター領域の右縁のヒストグラムでの対応する横座標である場合に、所定の方向は左向きの方向である。
横座標の組数は文字領域における有効文字の個数に対応し、即ち、各組の横座標は有効文字のキャラクター領域の左縁のヒストグラムでの対応する第1の横座標及び該有効文字のキャラクター領域の右縁のヒストグラムでの対応する第2の横座標を含む。即ち、各組の横座標は、第1の横座標及び第1の横座標の右側にある初めの第2の横座標を含む。そのうち、該第1の横座標及び第1の横座標の右側の隣接する横座標に対応する累積値が第1の閾値より大きく、且つ第1の横座標の左側の隣接する横座標に対応する累積値が第2の閾値より小さく、第2の横座標及び第2の横座標の左側の隣接する横座標に対応する累積値が第1の閾値より大きく、且つ第2の横座標の右側の隣接する横座標に対応する累積値が第2の閾値より小さい。
上記第1の閾値及び第2の閾値は小さい値であることができる。例えば、第1の閾値及び第2の閾値は0よりわずかに大きい値であることができる。第1の閾値が0であってもよく、第2の閾値が0に近い値であってもよい。且つ、実際には、第1の横座標及び第1の横座標の右側の隣接する横座標に対応する累積値が0ではなく、且つ第1の横座標の左側の隣接する横座標に対応する累積値が0であり、第2の横座標及び第2の横座標の左側の隣接する横座標に対応する累積値が0ではなく、且つ第2の横座標の右側の隣接する横座標に対応する累積値が0である。
第3の横座標は若干の文字中の最初の有効文字のキャラクター領域の左縁のヒストグラムでの対応する横座標であることが好ましい。
座標検索サブモジュール831bは、更に、
第i組の横座標に対して、ヒストグラムにおける第i組の横座標における第1の横座標を検索開始点として、右へ初めの第4の横座標を検索し、第4の横座標及び第4の横座標の左側の隣接する横座標に対応する累積値が第1の閾値より大きく、第4の横座標の右側の隣接する横座標に対応する累積値が第2の閾値より小さく、1≦i≦n、iは初期値が1である正の整数であり、nは若干の文字における有効文字の個数であり、第1組の座標における第1の横座標は第3の横座標であるように配置される。
第4の横座標を第i組の座標における第2の横座標として決定する。
i<nであれば、ヒストグラムにおける第4の横座標を検索開始点として、右側へ初めの第5の横座標を検索し、第5の横座標及び第5の横座標の右側の隣接する横座標に対応する累積値が第1の閾値より大きく、第5の横座標の左側の隣接する横座標に対応する累積値が第2の閾値より小さい。
i=i+1とし、第5の横座標を第i組の座標における第1の横座標として決定する。
座標検索サブモジュール831bは検索された横座標を次の有効文字のキャラクター領域の左縁のヒストグラムでの対応する横座標として決定する。座標検索サブモジュール831bはi=i+1とし、第5の横座標を第i組の座標における第1の横座標として決定することが好ましい。
その後、座標検索サブモジュール831bは上記方法により右側へ検索し続けて更に各有効文字のキャラクター領域の対応する一組の横座標を決定する。
第3の横座標が若干の文字における最後の有効文字のキャラクター領域の右縁のヒストグラムでの対応する横座標であることが好ましい。
座標検索サブモジュール831bは、更に、
第j組の座標に対して、ヒストグラムにおける第j組の座標における第2の横座標を検索開始点として、左へ初めの第6の横座標を検索し、第6の横座標及び第6の横座標の右側の隣接する横座標に対応する累積値が第1の閾値より大きく、第6の横座標の左側の隣接する横座標に対応する累積値が第2の閾値より小さく、1≦j≦n、jは初期値がnである正の整数であり、nは若干の文字における有効文字の個数であり、第n組の座標における第2の横座標は第3の横座標であるように配置される。
第6の横座標を第j組の座標における第1の横座標として決定する。
j>0であれば、ヒストグラムにおける第6の横座標を検索開始点として、左側へ初めの第7の横座標を検索し、第7の横座標及び第7の横座標の左側の隣接する横座標に対応する累積値が第1の閾値より大きく、第7の横座標の右側の隣接する横座標に対応する累積値が第2の閾値より小さく、1≦j≦n、jは初期値がnである正の整数である。
j=j−1とし、第7の横座標を第j組の座標における第2の横座標として決定する。
第3の横座標が若干の文字における最初の有効文字のキャラクター領域の左縁のヒストグラムでの対応する横座標であることが好ましい。
なお、第3の横座標が若干の文字における最後の有効文字のキャラクター領域の右縁のヒストグラムでの対応する横座標である場合に、座標検索サブモジュール831bの実行ステップは上記第3の横座標が若干の文字における最初の有効文字のキャラクター領域の左縁のヒストグラムでの対応する横座標である場合に実行されたステップに類似するため、本実施例はここで繰り返して説明しない。
座標認識サブモジュール831aは、更に、
若干の文字が有効文字と無効文字を含み、有効文字と無効文字との間の第1の距離が隣接する2つの有効文字間の第2の距離より大きい場合に、ヒストグラムにおける予め設定された横座標から、左側へ初めの幅が第2の距離より大きい隙間を探し、隙間の右側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定し、予め設定された横座標が予め設定された区間に属する座標であり、予め設定された区間が経験値に基づいて設定された区間であり、隙間の前景色ピクセルの累積値が第2の閾値より小さいように配置される。
又は、
若干の文字がいずれも有効文字である場合に、ヒストグラムにおける左側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定する。
文字領域における文字が有効文字と無効文字を含み、且つ有効文字と無効文字との間の第1の距離が隣接する2つの有効文字間の第2の距離より大きい場合に、座標認識サブモジュール831aはヒストグラムにおける予め設定された横座標から、左側へ初めの幅が第2の距離より大きい隙間を探し、且つ隙間の右側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定することが好ましい。
予め設定された横座標が予め設定された区間に属する座標であり、予め設定された区間が文字領域における有効文字のヒストグラムでの対応するマッピング区間に属する。
以上、座標認識サブモジュール831aが予め設定された横座標から左側へを探すことを説明しており、同様に、座標認識サブモジュール831aは予め設定された横座標から右側へ探し、幅が第2の距離より大きい隙間を探した後、隙間の左側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定してもよく、本実施例は、ここで繰り返して説明しない。
好ましくは、文字領域における文字がいずれも有効文字である場合に、2値化後の文字領域のヒストグラムを算出して、算出されたヒストグラムにおける左側の初めの前景色ピクセルの累積値が第1の閾値より大きい横座標が最初の有効文字のヒストグラムでの対応する横座標であるため、座標認識サブモジュール831aはヒストグラムにおける左側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定することができる。
好ましくは、第3の横座標は若干の文字における最後の有効文字のキャラクター領域の右縁のヒストグラムでの対応する横座標である。
座標認識サブモジュール831aは、更に、
若干の文字が有効文字と無効文字を含み、有効文字と無効文字との間の第1の距離が隣接する2つの有効文字間の第2の距離より大きい場合に、ヒストグラムにおける予め設定された横座標から、右側へ幅が第2の距離より大きい隙間を探し、隙間の左側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定する。予め設定された横座標が予め設定された区間に属する座標であり、予め設定された区間が経験値に基づいて設定された区間であり、隙間の前景色ピクセルの累積値が第2の閾値より小さい。
又は、
若干の文字がいずれも有効文字である場合に、ヒストグラムの右側にある初めの前景色ピクセルの累積値が第1の閾値より大きい横座標を第3の横座標として決定するように配置される。
なお、第3の横座標が若干の文字における最後の有効文字のキャラクター領域の右縁のヒストグラムでの対応する横座標である場合に、座標認識サブモジュール831aの実行ステップは上記第3の横座標が若干の文字における最初の有効文字のキャラクター領域の左縁のヒストグラムでの対応する横座標である場合に実行されたステップに類似するため、本実施例はここで繰り返して説明しない。
好ましくは、該装置は、更に第2の2値化モジュール840、第2の算出モジュール850及び縁決定モジュール860を含む。
第2の2値化モジュール840はターゲット画像領域を2値化し、2値化後のターゲット画像領域を得るように配置される。
ターゲット画像領域は複数の行の文字を含む領域であることができる。
第2の2値化モジュール840が第1の2値化モジュール810に類似し、詳しい技術は第1の2値化モジュール810を参照して、本実施例は第2の2値化モジュール840を限定しない。
第2の算出モジュール850は、2値化後のターゲット画像領域に対して水平方向に応じて水平ヒストグラムを算出し、水平ヒストグラムは、各行のピクセルの縦座標及び各行のピクセルにおける前景色ピクセルの累積値を含むように配置される。
第2の算出モジュール850が第1の算出モジュール820に類似し、その相違は、第1の算出モジュール820が2値化後の文字領域に対して垂直方向に従ってヒストグラムを算出し、第2の算出モジュール850は2値化後のターゲット画像領域に対して水平方向に応じてヒストグラムを算出することである。
縁決定モジュール860は、水平ヒストグラムにおける累積値の分布情報により、若干の組の縦座標を決定し、各組の縦座標が第1の縦座標と第1の縦座標の下側にある第2の縦座標を含み、各組の縦座標に対して、第1の縦座標の所在する画素行を1行の文字領域の上縁として認識し、第2の縦座標の所在する画素行を文字領域の下縁として認識し、第1の縦座標及び第1の縦座標の右側の隣接する横座標に対応する累積値が第1の閾値より大きく、且つ第1の縦座標の左側の隣接する横座標に対応する累積値が第2の閾値より小さく、第2の縦座標及び第2の縦座標の左側の隣接する横座標に対応する累積値が第1の閾値より大きく、且つ第2の縦座標の右側の隣接する横座標に対応する累積値が第2の閾値より小さいように配置される。
水平方向の水平ヒストグラムを算出した後、縁決定モジュール860は水平ヒストグラムにおける累積値の分布情報により、若干の組の縦座標を決定し、各組の縦座標により各行の領域を決定することができる。
第1の2値化モジュール810は、更に第k行の文字領域に対して、文字領域を2値化し、2値化後の文字領域を得るステップを実行し、m≧k≧1、kが正の整数であり、mが認識された総行数であるように配置される。
ここで、該領域認識装置はターゲット画像領域における各行における各有効文字のキャラクター領域を認識することができる。
以上のように、本発明の実施例により提供される領域認識装置は、2値化後の文字領域に対して垂直方向に応じてヒストグラムを算出し、ヒストグラムにおける分布情報に基づいて、文字領域における文字のキャラクター領域を認識することで、関連技術における文字領域の位置決めの正確性が低いという問題を解決し、ヒストグラムにおける前景色ピクセルの累積値の分布情報に基づいて文字のキャラクター領域を正確に位置決めすることができるという効果を奏する。
上記実施例における装置について、そのうち、各モジュールの操作を実行する具体的な方式は、該方法に関する実施例で詳細に説明したので、ここで詳細に説明しない。
本発明の例示的な実施例は、領域認識装置を提供しており、本発明が提供する領域認識方法を実現することができ、該領域認識装置は、プロセッサと、プロセッサにより実行可能なコマンドを記憶するためのメモリとを備える。
そのうち、プロセッサは、
文字領域を2値化し、2値化後の文字領域を得、該文字領域が同一の行に属する若干の文字を含み、
2値化後の文字領域に対して垂直方向に応じてヒストグラムを算出し、該ヒストグラムが各列のピクセルの横座標及び各列のピクセルにおける前景色ピクセルの累積値を含み、
ヒストグラムにおける累積値の分布情報に基づいて、文字領域における文字のキャラクター領域を認識するように配置される。
図9は一例示的な実施例により示された領域認識装置のブロック図である。例えば、装置900は携帯電話、コンピューター、デジタル放送端末、メッセージ送受信設備、ゲームコンソール、タブレット型装置、医療設備、フィットネス装置、パーソナルデジタルアシスタントなどである。
図9に示すように、装置900は、処理部材902、メモリ904、電源部材906、マルチメディア部材908、オーディオ部材910、入力/出力(I/O)インターフェース912、センサー部材914、及び通信部材916のうちの一つ又は複数の部材を含むことができる。
処理部材902は、一般的に装置900の全体的操作、例えば、表示、電話呼び出し、データ通信、カメラ操作及び記録操作に関する操作を制御する。処理部材902は、上記方法の全部又は一部のステップを完成するために、コマンドを実行する一つ又は複数のプロセッサ918を含むことができる。さらに、処理部材902はその他の部材とのインタラクションが容易であるように、一つ又は複数のモジュールを含むことができる。例えば、処理部材902は、マルチメディア部材908と処理部材902とのインタラクションが容易であるように、マルチメディアモジュールを含むことができる。
メモリ904は、装置900における操作をサポートするために、さまざまなタイプのデータを記憶するように構成される。これらのデータの実例は、装置900において操作される如何なるアプリケーション又は方法のコマンド、連絡先データ、電話帳データ、メッセージ、ピクチャ、ビデオなどを含む。メモリ904は如何なるタイプの揮発性又は非揮発性メモリ又はそれらの組合せ、例えばスタティックランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク又は光ディスクにより実現することができる。
電源部材906は装置900のさまざまな部材に対し電力を供給する。電源部材906は電源管理システム、一つ又は複数の電源、及びその他の装置900に対する電力の生成、管理及び供給に関連する部材を含むことができる。
マルチメディア部材908は、装置900とユーザーの間の出力インターフェースを提供するスクリーンを含む。一部の実施例において、スクリーンは液晶ディスプレイ(LCD)とタッチパネル(TP)を含むことができる。スクリーンにタッチパネルが含まれる場合、スクリーンはユーザーからの入力信号を受信するために、タッチスクリーンで実現されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルにおけるジェスチャーを感知するために、一つ又は複数のタッチセンサーを含む。タッチセンサーは、タッチ又はスワイプ動作の境界を感知するとともに、タッチ又はスワイプ動作に関わる持続時間及び圧力を検出することができる。一部の実施例において、マルチメディア部材908は、フロントカメラ及び/又はバックカメラを含む。装置900が操作モードである場合、例えば、撮影モード又はビデオモードである場合、フロントカメラ及び/又はバックカメラは外部のマルチメディアデータを受信することができる。各フロントカメラ及びバックカメラは、固定された光学レンズシステムであってもよく、又は焦点距離と光学ズーム能力を有する。
オーディオ部材910は、オーディオ信号を出力及び/又は入力するように構成される。例えば、オーディオ部材910は、マイクロフォン(MIC)を含み、装置900が操作モードである場合、例えば、呼び出しモード、記録モード及び音声認識モードである場合、マイクロフォンは外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号は、さらにメモリ904に記憶され、又は通信部材916を介して送信される。一部の実施例において、オーディオ部材910は、さらにオーディオ信号を出力するスピーカーを含む。
I/Oインターフェース912は、処理部材902と周辺インターフェースモジュールとの間にインターフェースを提供し、上記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン及びロックボタンを含むことができるがこれに限定されない。
センサー部材914は、装置900に対し各方面の状態評価を提供する一つ又は複数のセンサーを含む。例えば、センサー部材914は、装置900のオン/オフ状態、部材の相対的位置決めを検出することができ、前記部材は、例えば、装置900のディスプレイ及びキーパッドであり、センサー部材914は、さらに装置900又は装置900の一つの部材の位置変化、ユーザーと装置900との接触の有無、装置900の方角又は加速/減速及び装置900の温度変化を検出することができる。センサー部材914は、近接センサーを含むことができ、如何なる物理的接触がないとき、近傍物体の存在を検出するように構成される。センサー部材914は、さらにイメージングアプリケーションに用いられる光学センサー、例えば、CMOS又はCCDイメージセンサーを含むことができる。一部の実施例において、該センサー部材914は、さらに加速度センサー、ジャイロセンサー、磁気センサー、圧力センサー又は温度センサーを含むことができる。
通信部材916は、装置900とその他の装置との有線又は無線による通信が容易であるように構成される。装置900は、通信標準に基づく無線ネットワーク、例えばWiFi、2G又は3G、又はそれらの組合せにアクセスすることができる。一例示的な実施例において、通信部材916は、放送チャネルを介して外部放送管理システムからの放送信号又は放送関連情報を受信する。一例示的な実施例において、通信部材916は、狭域通信を促進するために、さらに近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールにおいて、無線周波数認識(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及びその他の技術に基づいて実現することができる。
例示的な実施例において、装置900は、一つ又は複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラー、マイクロコントローラー、マイクロプロセッサ又はその他の電子部品により実現することができ、上記方法を実行するのに用いられる。
例示的な実施例において、さらに、コマンドを含む非一時的なコンピューター可読記憶媒体、例えば、コマンドを含むメモリ904を提供し、上記領域認識方法を完成するために、上記コマンドは装置900のプロセッサ918により実行することができる。例えば、非一時的なコンピューター可読記憶媒体は、ROM、ランダムアクセスメモリ(RAM)、CD−ROM、磁気テープ、フロッピーディスク及び光データ記憶装置などであってもよい。
当業者であれば、明細書を考慮しここに開示された発明を実践した後、本発明のその他の実施態様を容易に想到できる。本願は、本発明の如何なる変形、用途又は適応的変化を含むためのものであり、これらの変形、用途又は適応的変化は本発明の一般的な原理に準じ、本発明の開示されていない本技術分野における公知常識又は慣用の技術手段を含む。明細書と実施例は例示的なものに過ぎず、本発明の実際の範囲と精神は特許請求の範囲により与えられる。
理解すべきことは、本発明は既に上記のように説明され、図面に示された正確な構造に限定されず、その範囲を逸脱しない限りにおいて様々な修正や変更を行うことができる。本発明の範囲は特許請求の範囲のみにより限定される。

Claims (15)

  1. 文字領域を2値化し、2値化後の文字領域を得、前記文字領域が同一行に属する若干の文字を含むことと、
    前記2値化後の文字領域に対して垂直方向に応じてヒストグラムを算出し、前記ヒストグラムが各列のピクセルの横座標及び前記各列のピクセルにおける前景色ピクセルの累積値を含むことと、
    前記ヒストグラムにおける前記累積値の分布情報に基づいて、前記文字領域における前記文字のキャラクター領域を認識することと、を含み、
    前記ヒストグラムにおける前記累積値の分布情報により、前記文字領域における前記文字のキャラクター領域を認識することは、
    前記ヒストグラムにおける前記累積値の分布情報により若干の組の横座標を決定し、各組の前記横座標は第1の横座標及び前記第1の横座標の右側にある初めの第2の横座標を含み、前記第1の横座標及び前記第1の横座標の右側の隣接する横座標に対応する前記累積値が第1の閾値より大きく、且つ前記第1の横座標の左側の隣接する横座標に対応する前記累積値が第2の閾値より小さく、前記第2の横座標及び前記第2の横座標の左側の隣接する横座標に対応する前記累積値が前記第1の閾値より大きく、且つ前記第2の横座標の右側の隣接する横座標に対応する前記累積値が前記第2の閾値より小さく、
    各組の前記横座標に対して、前記第1の横座標の所在する画素列をキャラクター領域の左縁に認識し、前記第2の横座標の所在する画素列を前記キャラクター領域の右縁に認識することを含むことを特徴とする領域認識方法。
  2. 前記ヒストグラムにおける前記累積値の分布情報により若干の組の横座標を決定することは、
    前記累積値の分布情報により、前記ヒストグラムにおける第3の横座標を認識し、前記第3の横座標は、前記若干の文字における最初の有効文字のキャラクター領域の左縁の前記ヒストグラムでの対応する横座標であり、又は、前記若干の文字における最後の有効文字のキャラクター領域の右縁の前記ヒストグラムでの対応する横座標であり、
    前記第3の横座標を検索開始点として、所定の方向に従って、前記累積値の分布情報に基づいて前記若干の組の横座標を検索すること、を含むことを特徴とする請求項に記載の方法。
  3. 前記第3の横座標は前記若干の文字における最初の有効文字のキャラクター領域の左縁の前記ヒストグラムでの対応する横座標であり、
    前記第3の横座標を検索開始点として、所定の方向に従って、前記累積値の分布情報に基づいて前記若干の組の横座標を検索することは、
    第i組の横座標に対して、前記ヒストグラムにおける前記第i組の横座標における前記第1の横座標を検索開始点として、右へ初めの第4の横座標を検索し、前記第4の横座標及び前記第4の横座標の左側の隣接する横座標に対応する前記累積値が前記第1の閾値より大きく、前記第4の横座標の右側の隣接する横座標に対応する前記累積値が前記第2の閾値より小さく、1≦i≦n、iは初期値が1である正の整数であり、nは前記若干の文字における有効文字の個数であり、前記第1組の座標における前記第1の横座標は前記第3の横座標であり、
    前記第4の横座標を前記第i組の座標における前記第2の横座標として決定し、
    i<nであれば、前記ヒストグラムにおける前記第4の横座標を検索開始点とし、右側へ初めの第5の横座標を検索し、前記第5の横座標及び前記第5の横座標の右側の隣接する横座標に対応する前記累積値が前記第1の閾値より大きく、前記第5の横座標の左側の隣接する横座標に対応する前記累積値が前記第2の閾値より小さく、
    i=i+1とし、前記第5の横座標を前記第i組の座標における前記第1の横座標として決定することを含むことを特徴とする請求項に記載の方法。
  4. 前記第3の横座標は前記若干の文字における最後の有効文字のキャラクター領域の右縁の前記ヒストグラムでの対応する横座標であり、
    前記第3の横座標を検索開始点とし、所定の方向に従って、前記累積値の分布情報に基づいて前記若干の組の横座標を検索することは、
    第j組の座標に対して、前記ヒストグラムにおける前記第j組の座標における前記第2の横座標を検索開始点とし、左へ初めの第6の横座標を検索し、前記第6の横座標及び前記第6の横座標の右側の隣接する横座標に対応する前記累積値が前記第1の閾値より大きく、前記第6の横座標の左側の隣接する横座標に対応する前記累積値が前記第2の閾値より小さく、1≦j≦n、jは初期値がnである正の整数であり、nは前記若干の文字における有効文字の個数であり、前記第n組の座標における前記第2の横座標は前記第3の横座標であり、
    前記第6の横座標を前記第j組の座標における前記第1の横座標として決定し、
    j>0であれば、前記ヒストグラムにおける前記第6の横座標を検索開始点として、左側へ初めの第7の横座標を検索し、前記第7の横座標及び前記第7の横座標の左側の隣接する横座標に対応する前記累積値が前記第1の閾値より大きく、前記第7の横座標の右側の隣接する横座標に対応する前記累積値が前記第2の閾値より小さく、1≦j≦n、jは初期値がnである正の整数であり、
    j=j−1とし、前記第7の横座標を前記第j組の座標における前記第2の横座標として決定することを含むことを特徴とする請求項に記載の方法。
  5. 前記第3の横座標は前記若干の文字における最初の有効文字のキャラクター領域の左縁の前記ヒストグラムでの対応する横座標であり、
    前記累積値の分布情報に基づいて、前記ヒストグラムにおける第3の横座標を認識することは、
    前記若干の文字が有効文字と無効文字を含み、前記有効文字と前記無効文字との間の第1の距離が隣接する2つの有効文字間の第2の距離より大きく、前記ヒストグラムにおける予め設定された横座標から、左側へ初めの幅が前記第2の距離より大きい隙間を探し、前記隙間の右側にある初めの前景色ピクセルの累積値が前記第1の閾値より大きい横座標を前記第3の横座標として決定し、前記予め設定された横座標は予め設定された区間に属する座標であり、前記予め設定された区間は経験値に基づいて設定された区間であり、前記隙間の前景色ピクセルの累積値が前記第2の閾値より小さいこと、
    又は、
    前記若干の文字がいずれも有効文字であり、前記ヒストグラムにおける左側にある初めの前景色ピクセルの累積値が前記第1の閾値より大きい横座標を前記第3の横座標として決定することを含むことを特徴とする請求項に記載の方法。
  6. 前記第3の横座標は前記若干の文字における最後の有効文字のキャラクター領域の右縁の前記ヒストグラムでの対応する横座標であり、
    前記累積値の分布情報に基づいて、前記ヒストグラムにおける第3の横座標を認識することは、
    前記若干の文字が有効文字と無効文字を含み、前記有効文字と前記無効文字との間の第1の距離が隣接する2つの有効文字間の第2の距離より大きく、前記ヒストグラムにおける予め設定された横座標から、右側へ幅が前記第2の距離より大きい隙間を探し、前記隙間の左側にある初めの前景色ピクセルの累積値が前記第1の閾値より大きい横座標を前記第3の横座標として決定し、前記予め設定された横座標は予め設定された区間に属する座標であり、前記予め設定された区間は経験値に基づいて設定された区間であり、前記隙間の前景色ピクセルの累積値は前記第2の閾値より小さいこと、
    又は、
    前記若干の文字がいずれも有効文字であり、前記ヒストグラムの右側にある初めの前景色ピクセルの累積値が前記第1の閾値より大きい横座標を前記第3の横座標として決定することを含むことを特徴とする請求項に記載の方法。
  7. ターゲット画像領域を2値化し、2値化後のターゲット画像領域を得ることと、
    前記2値化後のターゲット画像領域に対して水平方向に応じて水平ヒストグラムを算出し、前記水平ヒストグラムは、各行のピクセルの縦座標及び前記各行のピクセルにおける前景色ピクセルの累積値を含むことと、
    前記水平ヒストグラムにおける前記累積値の分布情報により、若干の組の縦座標を決定し、各組の縦座標は、第1の縦座標と前記第1の縦座標の下側にある第2の縦座標を含み、各組の縦座標に対して、前記第1の縦座標の所在する画素行を1行の文字領域の上縁として認識し、前記第2の縦座標の所在する画素行を前記文字領域の下縁として認識し、前記第1の縦座標及び前記第1の縦座標の下側の隣接する縦座標に対応する前記累積値が第1の閾値より大きく、且つ前記第1の縦座標の上側の隣接する縦座標に対応する前記累積値が第2の閾値より小さく、前記第2の縦座標及び前記第2の縦座標の上側の隣接する縦座標に対応する前記累積値が前記第1の閾値より大きく、且つ前記第2の縦座標の下側の隣接する縦座標に対応する前記累積値が前記第2の閾値より小さいことと、
    第k行の文字領域に対して、前記文字領域を2値化し、2値化後の文字領域を得るステップを実行し、m≧k≧1、kが正の整数であり、mが認識された総行数であることと、をさらに含むことを特徴とする請求項1〜のいずれかに記載の方法。
  8. 同一の行に属する若干の文字を含む文字領域を2値化し、2値化後の文字領域を得るように配置される第1の2値化モジュールと、
    前記2値化後の文字領域に対して垂直方向に応じて各列のピクセルの横座標及び前記各列のピクセルにおける前景色ピクセルの累積値を含むヒストグラムを算出するように配置される第1の算出モジュールと、
    前記ヒストグラムにおける前記累積値の分布情報に基づいて、前記文字領域における前記文字のキャラクター領域を認識するように配置される領域認識モジュールと、を含み、
    前記領域認識モジュールは、
    前記ヒストグラムにおける前記累積値の分布情報により若干の組の横座標を決定し、各組の前記横座標は第1の横座標及び前記第1の横座標の右側にある初めの第2の横座標を含み、前記第1の横座標及び前記第1の横座標の右側の隣接する横座標に対応する前記累積値が第1の閾値より大きく、且つ前記第1の横座標の左側の隣接する横座標に対応する前記累積値が第2の閾値より小さく、前記第2の横座標及び前記第2の横座標の左側の隣接する横座標に対応する前記累積値が前記第1の閾値より大きく、且つ前記第2の横座標の右側の隣接する横座標に対応する前記累積値が前記第2の閾値より小さいように配置される座標決定サブモジュールと、
    各組の前記横座標に対して、前記第1の横座標の所在する画素列をキャラクター領域の左縁に認識し、前記第2の横座標の所在する画素列を前記キャラクター領域の右縁に認識するように配置される領域認識サブモジュールと、を含むことを特徴とする領域認識装置。
  9. 前記座標決定サブモジュールは、
    前記累積値の分布情報により、前記ヒストグラムにおける第3の横座標を認識し、前記第3の横座標は、前記若干の文字における最初の有効文字のキャラクター領域の左縁の前記ヒストグラムでの対応する座標であり、又は、前記若干の文字における最後の有効文字のキャラクター領域の右縁の前記ヒストグラムでの対応する座標であるように配置される座標認識サブモジュールと、
    前記第3の横座標を検索開始点として、所定の方向に従って、前記累積値の分布情報に基づいて前記若干の組の横座標を検索するように配置される座標検索サブモジュールと、を含むことを特徴とする請求項に記載の装置。
  10. 前記第3の横座標は前記若干の文字における最初の有効文字のキャラクター領域の左縁の前記ヒストグラムでの対応する横座標であり、
    前記座標検索サブモジュールは、更に、
    第i組の横座標に対して、前記ヒストグラムにおける前記第i組の横座標における前記第1の横座標を検索開始点とし、右へ初めの第4の横座標を検索し、前記第4の横座標及び前記第4の横座標の左側の隣接する横座標に対応する前記累積値が前記第1の閾値より大きく、前記第4の横座標の右側の隣接する横座標に対応する前記累積値が前記第2の閾値より小さく、1≦i≦n、iは初期値が1である正の整数であり、nは前記若干の文字における有効文字の個数であり、前記第1組の座標における前記第1の横座標は前記第3の横座標であり、
    前記第4の横座標を前記第i組の座標における前記第2の横座標として決定し、
    i<nであれば、前記ヒストグラムにおける前記第4の横座標を検索開始点として、右側へ初めの第5の横座標を検索し、前記第5の横座標及び前記第5の横座標の右側の隣接する横座標に対応する前記累積値が前記第1の閾値より大きく、前記第5の横座標の左側の隣接する横座標に対応する前記累積値が前記第2の閾値より小さく、
    i=i+1とし、前記第5の横座標を前記第i組の座標における前記第1の横座標として決定するように配置されることを特徴とする請求項に記載の装置。
  11. 前記第3の横座標は前記若干の文字における最後の有効文字のキャラクター領域の右縁の前記ヒストグラムでの対応する横座標であり、
    前記座標検索サブモジュールは、更に、
    第j組の座標に対して、前記ヒストグラムにおける前記第j組の座標における前記第2の横座標を検索開始点として、左へ初めの第6の横座標を検索し、前記第6の横座標及び前記第6の横座標の右側の隣接する横座標に対応する前記累積値が前記第1の閾値より大きく、前記第6の横座標の左側の隣接する横座標に対応する前記累積値が前記第2の閾値より小さく、1≦j≦n、jは初期値がnである正の整数であり、nは前記若干の文字における有効文字の個数であり、前記第n組の座標における前記第2の横座標は前記第3の横座標であり、
    前記第6の横座標を前記第j組の座標における前記第1の横座標として決定し、
    j>0であれば、前記ヒストグラムにおける前記第6の横座標を検索開始点として、左側へ初めの第7の横座標を検索し、前記第7の横座標及び前記第7の横座標の左側の隣接する横座標に対応する前記累積値が前記第1の閾値より大きく、前記第7の横座標の右側の隣接する横座標に対応する前記累積値が前記第2の閾値より小さく、1≦j≦n、jは初期値がnである正の整数であり、
    j=j−1とし、前記第7の横座標を前記第j組の座標における前記第2の横座標として決定するように配置されることを特徴とする請求項に記載の装置。
  12. 前記第3の横座標は前記若干の文字における最初の有効文字のキャラクター領域の左縁の前記ヒストグラムでの対応する横座標であり、
    前記座標認識サブモジュールは、更に、
    前記若干の文字が有効文字と無効文字を含み、前記有効文字と前記無効文字との間の第1の距離が隣接する2つの有効文字間の第2の距離より大きい場合に、前記ヒストグラムにおける予め設定された横座標から、左側へ初めの幅が前記第2の距離より大きい隙間を探し、前記隙間の右側にある初めの前景色ピクセルの累積値が前記第1の閾値より大きい横座標を前記第3の横座標として決定し、前記予め設定された横座標が予め設定された区間に属する座標であり、前記予め設定された区間は経験値に基づいて設定された区間であり、前記隙間の前景色ピクセルの累積値が前記第2の閾値より小さいように配置され
    又は、
    前記若干の文字がいずれも有効文字である場合に、前記ヒストグラムにおける左側にある初めの前景色ピクセルの累積値が前記第1の閾値より大きい横座標を前記第3の横座標として決定するように配置されることを特徴とする請求項に記載の装置。
  13. 前記第3の横座標は前記若干の文字における最後の有効文字のキャラクター領域の右縁の前記ヒストグラムでの対応する横座標であり、
    前記座標認識サブモジュールは、更に、
    前記若干の文字が有効文字と無効文字を含み、前記有効文字と前記無効文字との間の第1の距離が隣接する2つの有効文字間の第2の距離より大きい場合に、前記ヒストグラムにおける予め設定された横座標から、右側へ幅が前記第2の距離より大きい隙間を探し、前記隙間の左側にある初めの前景色ピクセルの累積値が前記第1の閾値より大きい横座標を前記第3の横座標として決定し、前記予め設定された横座標は予め設定された区間に属する座標であり、前記予め設定された区間は経験値に基づいて設定された区間であり、前記隙間の前景色ピクセルの累積値は前記第2の閾値より小さいように配置され、
    又は、
    前記若干の文字がいずれも有効文字である場合に、前記ヒストグラムの右側にある初めの前景色ピクセルの累積値が前記第1の閾値より大きい横座標を前記第3の横座標として決定するように配置されることを特徴とする請求項に記載の装置。
  14. ターゲット画像領域を2値化し、2値化後のターゲット画像領域を得るように配置される第2の2値化モジュールと、
    前記2値化後のターゲット画像領域に対して水平方向に応じて各行のピクセルの縦座標及び前記各行のピクセルにおける前景色ピクセルの累積値を含む水平ヒストグラムを算出するように配置される第2の算出モジュールと、
    前記水平ヒストグラムにおける前記累積値の分布情報により、若干の組の縦座標を決定し、各組の縦座標は第1の縦座標と前記第1の縦座標の下側にある第2の縦座標を含み、各組の縦座標に対して、前記第1の縦座標の所在する画素行を1行の文字領域の上縁として認識し、前記第2の縦座標の所在する画素行を前記文字領域の下縁として認識し、前記第1の縦座標及び前記第1の縦座標の下側の隣接する縦座標に対応する前記累積値が第1の閾値より大きく、且つ前記第1の縦座標の上側の隣接する縦座標に対応する前記累積値が第2の閾値より小さく、前記第2の縦座標及び前記第2の縦座標の上側の隣接する縦座標に対応する前記累積値が前記第1の閾値より大きく、且つ前記第2の縦座標の下側の隣接する縦座標に対応する前記累積値が前記第2の閾値より小さいように配置される縁決定モジュールと、を更に備え、
    前記第1の2値化モジュールは、更に第k行の文字領域に対して、前記文字領域を2値化し、2値化後の文字領域を得るステップを実行し、m≧k≧1、kが正の整数であり、mが認識された総行数であるように配置されることを特徴とする請求項8〜13のいずれかに記載の装置。
  15. 同一の行に属する若干の文字を含む文字領域を2値化し、2値化後の文字領域を得、
    前記2値化後の文字領域に対して垂直方向に応じて各列のピクセルの横座標及び前記各列のピクセルにおける前景色ピクセルの累積値を含むヒストグラムを算出し、
    前記ヒストグラムにおける前記累積値の分布情報に基づいて、前記文字領域における前記文字のキャラクター領域を認識するように配置されるプロセッサと、
    前記プロセッサにより実行可能なコマンドを記憶するためのメモリと、を含み、
    前記プロセッサは、
    前記ヒストグラムにおける前記累積値の分布情報により、前記文字領域における前記文字のキャラクター領域を認識する場合、
    前記ヒストグラムにおける前記累積値の分布情報により若干の組の横座標を決定し、各組の前記横座標は第1の横座標及び前記第1の横座標の右側にある初めの第2の横座標を含み、前記第1の横座標及び前記第1の横座標の右側の隣接する横座標に対応する前記累積値が第1の閾値より大きく、且つ前記第1の横座標の左側の隣接する横座標に対応する前記累積値が第2の閾値より小さく、前記第2の横座標及び前記第2の横座標の左側の隣接する横座標に対応する前記累積値が前記第1の閾値より大きく、且つ前記第2の横座標の右側の隣接する横座標に対応する前記累積値が前記第2の閾値より小さく、
    各組の前記横座標に対して、前記第1の横座標の所在する画素列をキャラクター領域の左縁に認識し、前記第2の横座標の所在する画素列を前記キャラクター領域の右縁に認識するように配置されることを特徴とする領域認識装置。
JP2017547046A 2015-10-30 2015-12-29 領域認識方法及び装置 Active JP6392468B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510726153.9 2015-10-30
CN201510726153.9A CN105528606B (zh) 2015-10-30 2015-10-30 区域识别方法及装置
PCT/CN2015/099299 WO2017071063A1 (zh) 2015-10-30 2015-12-29 区域识别方法及装置

Publications (2)

Publication Number Publication Date
JP2018500705A JP2018500705A (ja) 2018-01-11
JP6392468B2 true JP6392468B2 (ja) 2018-09-19

Family

ID=55770820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017547046A Active JP6392468B2 (ja) 2015-10-30 2015-12-29 領域認識方法及び装置

Country Status (8)

Country Link
US (1) US10157326B2 (ja)
EP (1) EP3163502A1 (ja)
JP (1) JP6392468B2 (ja)
KR (1) KR101805090B1 (ja)
CN (1) CN105528606B (ja)
MX (1) MX2016003679A (ja)
RU (1) RU2639668C2 (ja)
WO (1) WO2017071063A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8708227B1 (en) 2006-10-31 2014-04-29 United Services Automobile Association (Usaa) Systems and methods for remote deposit of checks
US7873200B1 (en) 2006-10-31 2011-01-18 United Services Automobile Association (Usaa) Systems and methods for remote deposit of checks
US9058512B1 (en) 2007-09-28 2015-06-16 United Services Automobile Association (Usaa) Systems and methods for digital signature detection
US9159101B1 (en) 2007-10-23 2015-10-13 United Services Automobile Association (Usaa) Image processing
US10380562B1 (en) 2008-02-07 2019-08-13 United Services Automobile Association (Usaa) Systems and methods for mobile deposit of negotiable instruments
US10504185B1 (en) 2008-09-08 2019-12-10 United Services Automobile Association (Usaa) Systems and methods for live video financial deposit
US8452689B1 (en) 2009-02-18 2013-05-28 United Services Automobile Association (Usaa) Systems and methods of check detection
US10956728B1 (en) 2009-03-04 2021-03-23 United Services Automobile Association (Usaa) Systems and methods of check processing with background removal
US9779392B1 (en) 2009-08-19 2017-10-03 United Services Automobile Association (Usaa) Apparatuses, methods and systems for a publishing and subscribing platform of depositing negotiable instruments
US8977571B1 (en) 2009-08-21 2015-03-10 United Services Automobile Association (Usaa) Systems and methods for image monitoring of check during mobile deposit
US9129340B1 (en) 2010-06-08 2015-09-08 United Services Automobile Association (Usaa) Apparatuses, methods and systems for remote deposit capture with enhanced image detection
US10380565B1 (en) 2012-01-05 2019-08-13 United Services Automobile Association (Usaa) System and method for storefront bank deposits
US9286514B1 (en) 2013-10-17 2016-03-15 United Services Automobile Association (Usaa) Character count determination for a digital image
US10506281B1 (en) 2015-12-22 2019-12-10 United Services Automobile Association (Usaa) System and method for capturing audio or video data
US11030752B1 (en) 2018-04-27 2021-06-08 United Services Automobile Association (Usaa) System, computing device, and method for document detection
CN109145891B (zh) * 2018-06-27 2022-08-02 上海携程商务有限公司 客户端及其识别身份证的方法、识别身份证的系统
CN109635807A (zh) * 2018-10-16 2019-04-16 深圳壹账通智能科技有限公司 信息录入方法、装置、设备及计算机可读存储介质
CN111104940A (zh) * 2018-10-26 2020-05-05 深圳怡化电脑股份有限公司 图像旋转校正方法、装置、电子设备及存储介质
CN111223104B (zh) * 2018-11-23 2023-10-10 杭州海康威视数字技术股份有限公司 一种包裹提取及跟踪方法、装置及电子设备
CN110533030B (zh) * 2019-08-19 2023-07-14 三峡大学 基于深度学习的太阳胶片图像时间戳信息提取方法
CN111291750B (zh) * 2020-01-21 2023-03-24 河南大学 一种基于空间近邻关系的甲骨文自动标注方法
CN111898602B (zh) * 2020-08-10 2024-04-16 赞同科技股份有限公司 一种图像中的凭证号码区域识别方法、装置及设备
US11900755B1 (en) 2020-11-30 2024-02-13 United Services Automobile Association (Usaa) System, computing device, and method for document detection and deposit processing
CN113723301A (zh) * 2021-08-31 2021-11-30 广州新丝路信息科技有限公司 一种进口货物报关单ocr识别分行处理方法及装置
CN117351438B (zh) * 2023-10-24 2024-06-04 武汉无线飞翔科技有限公司 一种基于图像识别的车辆实时位置跟踪方法及系统
CN117274267B (zh) * 2023-11-22 2024-04-05 合肥晶合集成电路股份有限公司 掩膜版图的自动检测方法、装置、处理器以及电子设备
CN117727059B (zh) * 2024-02-18 2024-05-03 蓝色火焰科技成都有限公司 汽车金融发票信息核验方法、装置、电子设备及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0186172B1 (ko) 1995-12-06 1999-05-15 구자홍 문자 인식장치의 접촉문자 분리 및 특징 추출방법
JP3452774B2 (ja) * 1997-10-16 2003-09-29 富士通株式会社 文字認識方法
US7339992B2 (en) * 2001-12-06 2008-03-04 The Trustees Of Columbia University In The City Of New York System and method for extracting text captions from video and generating video summaries
RU2234126C2 (ru) 2002-09-09 2004-08-10 Аби Софтвер Лтд. Способ распознавания текста с применением настраиваемого классификатора
US7302098B2 (en) * 2004-12-03 2007-11-27 Motorola, Inc. Character segmentation method and apparatus
JP2007206985A (ja) * 2006-02-01 2007-08-16 Sharp Corp 文字列抽出装置、文字列抽出方法、そのプログラムおよび記録媒体
JP4991411B2 (ja) * 2006-07-28 2012-08-01 キヤノン株式会社 画像処理方法
CN101408933A (zh) * 2008-05-21 2009-04-15 浙江师范大学 基于粗网格特征提取和bp神经网络的车牌字符识别方法
JP5334042B2 (ja) * 2008-11-23 2013-11-06 日本電産サンキョー株式会社 文字列認識方法及び文字列認識装置
KR20110087620A (ko) 2010-01-26 2011-08-03 광주과학기술원 레이아웃 기반의 인쇄매체 페이지 인식방법
JP5591578B2 (ja) * 2010-04-19 2014-09-17 日本電産サンキョー株式会社 文字列認識装置および文字列認識方法
CN102184399A (zh) * 2011-03-31 2011-09-14 上海名图信息技术有限公司 基于水平投影和连通域分析的字符分割方法
CN103310435B (zh) * 2012-03-21 2016-04-06 华中科技大学 将垂直投影和最优路径相结合对车牌字符进行分割的方法
JP6080259B2 (ja) * 2013-02-06 2017-02-15 日本電産サンキョー株式会社 文字切り出し装置及び文字切り出し方法
JP6161484B2 (ja) * 2013-09-19 2017-07-12 株式会社Pfu 画像処理装置、画像処理方法及びコンピュータプログラム
CN104156704A (zh) * 2014-08-04 2014-11-19 胡艳艳 一种新的车牌识别方法及系统

Also Published As

Publication number Publication date
EP3163502A1 (en) 2017-05-03
WO2017071063A1 (zh) 2017-05-04
US10157326B2 (en) 2018-12-18
KR20170061631A (ko) 2017-06-05
JP2018500705A (ja) 2018-01-11
RU2016110434A (ru) 2017-09-26
CN105528606B (zh) 2019-08-06
MX2016003679A (es) 2018-06-22
RU2639668C2 (ru) 2017-12-21
CN105528606A (zh) 2016-04-27
KR101805090B1 (ko) 2017-12-05
US20170124414A1 (en) 2017-05-04

Similar Documents

Publication Publication Date Title
JP6392468B2 (ja) 領域認識方法及び装置
JP6392467B2 (ja) 領域識別方法及び装置
RU2642404C2 (ru) Способ и устройство для извлечения области изображения
JP6400226B2 (ja) 領域認識方法及び装置
KR101864759B1 (ko) 영역 인식 방법 및 장치
CN105095881B (zh) 人脸识别方法、装置及终端
US20150332439A1 (en) Methods and devices for hiding privacy information
US20170124719A1 (en) Method, device and computer-readable medium for region recognition
US10216976B2 (en) Method, device and medium for fingerprint identification
CN106127751B (zh) 图像检测方法、装置以及系统
US20180165802A1 (en) Image processing method and apparatus, and storage medium
CN106557759B (zh) 一种标志牌信息获取方法及装置
EP3974953A1 (en) Icon position determination method and device
CN110619257B (zh) 一种文字区域确定方法和装置
CN110929548A (zh) 指纹识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180822

R150 Certificate of patent or registration of utility model

Ref document number: 6392468

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250