JP7033208B2 - 証明文書認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体 - Google Patents

証明文書認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体 Download PDF

Info

Publication number
JP7033208B2
JP7033208B2 JP2020543760A JP2020543760A JP7033208B2 JP 7033208 B2 JP7033208 B2 JP 7033208B2 JP 2020543760 A JP2020543760 A JP 2020543760A JP 2020543760 A JP2020543760 A JP 2020543760A JP 7033208 B2 JP7033208 B2 JP 7033208B2
Authority
JP
Japan
Prior art keywords
text
line
height
predicted
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020543760A
Other languages
English (en)
Other versions
JP2021524948A (ja
Inventor
▲鄭▼▲廸▼▲しん▼
▲劉▼学博
Original Assignee
ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド filed Critical ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
Publication of JP2021524948A publication Critical patent/JP2021524948A/ja
Application granted granted Critical
Publication of JP7033208B2 publication Critical patent/JP7033208B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1452Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on positionally close symbols, e.g. amount sign or URL-specific characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)

Description

(関連出願の相互参照)
本願は、出願の番号が201910362419.4で、出願日が2019年4月30日の中国特許出願に基づいて提出され、且つこの中国特許出願の優先権を主張し、この中国特許出願の全ての内容が参照によって本願に組み込まれる。
本開示は、コンピュータビジョン技術に関し、特に、証明文書認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体に関する。
光学式文字認識(Optical Character Recognition:OCR)技術は、各種の証明文書、カードや手形の認識に広く用いられている。現在のOCR認識技術は常用文字の認識に高い認識精度を有するが、少数民族文字等の特別な文字の認識精度の向上が期待されている。
本開示の実施例は、証明文書認識技術を提供する。
本開示の実施例の第1態様によれば、
証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するステップであって、前記複数のキーポイントが前記証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含むステップと、
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するステップと、を含む証明文書認識方法を提供する。
本開示の実施例の第2態様によれば、
証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するためのキーポイント検出ユニットであって、前記複数のキーポイントが前記証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含むキーポイント検出ユニットと、
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するためのテキスト認識ユニットと、を含む証明文書認識装置を提供する。
いくつかの実施例では、前記証明文書は、前記第1文字型と異なる第2文字型に対応するテキスト行を少なくとも1つ含み、且つ前記第1テキスト領域のテキスト内容と同様である第2テキスト領域を更に含む。
本開示の実施例の更にまた1つの態様によれば、上記のいずれか1つの実施例に記載の証明文書認識装置を備えるプロセッサを含む電子機器を提供する。
本開示の実施例の別の態様によれば、実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して上記のいずれか1つの実施例に記載の証明文書認識方法の操作を完成するためのプロセッサと、を含む電子機器を提供する。
本開示の実施例の更に別の態様によれば、コンピュータ読取可能コマンドを記憶するためのコンピュータ可読記憶媒体であって、前記コマンドが実行される時に上記のいずれか1つの実施例に記載の証明文書認識方法の操作を実行するコンピュータ可読記憶媒体を提供する。
本開示の実施例のまた1つの態様によれば、コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが上記のいずれか1つの実施例に記載の証明文書認識方法を実現するためのコマンドを実行するコンピュータプログラムを提供する。
本開示の実施例の更にまた1つの態様によれば、コンピュータ可読コマンドを記憶するためのコンピュータプログラム製品であって、前記コマンドが実行される時にコンピュータが上記のいずれか1つの可能な実施形態に記載の顔認識方法又は顔認識ネットワークの訓練方法の操作を実行する別のコンピュータプログラム製品を提供する。
選択可能な一実施形態では、前記コンピュータプログラム製品は、具体的には、コンピュータ記憶媒体であり、別の選択可能な実施形態では、前記コンピュータプログラム製品は、具体的には、例えば、SDK等のソフトウェア製品である。
本開示の実施例によれば、更に、別の証明文書認識方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム製品を提供し、ここで、証明文書画像に対してキーポイント検出を行って前記証明文書画像の複数のキーポイントの情報を取得し、そのうち、前記複数のキーポイントが前記証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含み、前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定する。
本開示の上記実施例で提供された証明文書認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体によれば、証明文書画像に対してキーポイント検出を行って証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得し、そのうち、前記複数のキーポイントが前記証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含み、前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するようになっており、第1テキスト領域の少なくとも2つの境界限定点を増加することで、第1テキスト領域における複数行のテキストのテキスト位置の認識正確率の向上に寄与し、他の文字型が第1文字型のテキスト認識に及ぼす悪影響を低減し、証明文書における第1文字型内容の認識正確率を高くした。
例えば、本願は以下の項目を提供する。
(項目1)
証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するステップであって、前記複数のキーポイントが前記証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含むステップと、
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するステップと、を含む証明文書認識方法。
(項目2)
前記証明文書は、前記第1文字型と異なる第2文字型に対応するテキスト行を少なくとも1つ含み、且つ前記第1テキスト領域のテキスト内容と同様である第2テキスト領域を更に含む項目1に記載の方法。
(項目3)
前記第1文字型は漢字であり、前記第2文字型は少数民族文字である項目2に記載の方法。
(項目4)
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定する前記ステップは、
前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定するステップと、
前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第1文字型に対応する少なくとも1つの目標テキスト領域を認識して、前記証明文書のテキスト認識結果を取得するステップと、を含む項目1~3のいずれか一項に記載の方法。
(項目5)
前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定する前記ステップは、
前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の初期予測位置を決定するステップと、
前記複数のテキスト行の初期予測位置に異常があるか否かを決定するステップと、
前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域に含まれる複数のテキスト行の初期予測位置を修正処理して、前記複数のテキスト行の目標予測位置を取得するステップと、を含む項目4に記載の方法。
(項目6)
前記複数のテキスト行の初期予測位置に異常があるか否かを決定する前記ステップは、
前記複数のテキスト行の中で、対応する初期予測行高さが第1の所定の行高さより大きいテキスト行が存在することに応答して、前記複数のテキスト行の初期予測位置に異常があると決定するステップを含む項目5に記載の方法。
(項目7)
前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域に含まれる複数のテキスト行の初期予測位置を修正処理して、前記複数のテキスト行の目標予測位置を取得する前記ステップは、
前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、
前記第1テキスト領域における第1テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得るステップと、
前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置を修正して、前記第1テキスト行の目標予測位置を得るステップと、を含む項目5又は6に記載の方法。
(項目8)
前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得る前記ステップは、
前記第1テキスト領域に含まれる複数のテキスト行の第1予測平均行高さと前記第1テキスト行の初期予測行高さに基づいて、前記複数のテキスト行における前記第1テキスト行以外の少なくとも1つの第2テキスト行の第2予測平均行高さを決定するステップと、
前記第2予測平均行高さに基づいて前記第1テキスト行の初期予測行高さを修正するステップと、を含む項目7に記載の方法。
(項目9)
前記第2予測平均行高さに基づいて前記第1テキスト行の初期予測行高さを修正する前記ステップは、
前記第2予測平均行高さが第1所定数値を超えたことに応答して、前記第1テキスト行の高さを第2所定数値に修正するステップ、及び/又は
前記第2予測平均行高さが前記第2所定数値以下であることに応答して、前記第1テキスト行の高さを前記第2予測平均行高さに修正するステップを含む項目8に記載の方法。
(項目10)
前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得る前記ステップは、
前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の修正行高さを得るステップと、
前記第1テキスト行の修正行高さが第2所定数値以上であることに応答して、前記第1テキスト行の次のテキスト行の初期予測位置に対応する初期予測行高さを前記第1テキスト行の目標予測行高さとし、及び/又は
前記第1テキスト行の修正行高さが第3所定数値より小さいことに応答して、前記第1テキスト行の修正行高さを前記第1テキスト行の目標予測行高さとするステップと、を含む項目7~9のいずれか一項に記載の方法。
(項目11)
前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置を修正して、前記第1テキスト行の目標予測位置を得る前記ステップは、
前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置に対応する予測上境界を調整して、前記第1テキスト行の目標予測上境界を得るステップを含む項目7~10のいずれか一項に記載の方法。
(項目12)
前記第1テキスト領域における初期予測行高さに異常があるテキスト行を決定する前記ステップは、
前記第1テキスト領域における複数のテキスト行の第1予測平均行高さ及び前記第1テキスト行の少なくとも1つの隣接行の初期予測位置に対応する初期予測行高さのうちの少なくとも一つに基づいて、前記第1テキスト行の初期予測行高さに異常があるか否かを決定するステップを含む項目7~11のいずれか一項に記載の方法。
(項目13)
前記第1テキスト領域の第1予測平均行高さ及び前記第1テキスト行の少なくとも1つの隣接行の初期予測位置に対応する初期予測行高さのうちの少なくとも一つに基づいて、前記第1テキスト行の初期予測行高さに異常があるか否かを決定する前記ステップは、
前記第1テキスト行の初期予測行高さが前記第1予測平均行高さの第1所定倍数に到達したこと、
及び/又は、
前記第1テキスト行の初期予測行高さが前記第1テキスト行の少なくとも1つの隣接行の初期予測行高さの第2所定倍数に到達したことに応答して、
前記第1テキスト行の初期予測行高さに異常があると決定するステップを含む項目12に記載の方法。
(項目14)
前記第1テキスト領域の少なくとも2つの境界限定点の情報及び前記第1テキスト領域の予測行数に基づいて、前記第1テキスト領域における複数のテキスト行の第1予測平均行高さを決定するステップを更に含む項目12又は13に記載の方法。
(項目15)
前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第1文字型に対応する少なくとも1つの目標テキスト領域を認識する前記ステップは、
前記第1テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも1つの目標テキスト領域における第3テキスト領域の初期予測位置を修正して、前記第3テキスト領域の目標予測位置を得るステップと、
前記第3テキスト領域の目標予測位置に基づいて前記第3テキスト領域のテキスト認識結果を得るステップと、を含む項目4~14のいずれか一項に記載の方法。
(項目16)
前記第1テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも1つの目標テキスト領域における第3テキスト領域の初期予測位置を修正して、前記第3テキスト領域の目標予測位置を得る前記ステップは、
前記第1テキスト領域に含まれる複数のテキスト行の目標予測行高さに基づいて、前記第1テキスト領域における複数のテキスト行の目標予測平均行高さを決定するステップと、
前記目標予測平均行高さと前記第3テキスト領域に含まれる第3テキスト行の初期予測位置に対応する初期予測行高さに基づいて、前記第3テキスト行の初期予測位置を修正して、前記第3テキスト領域行の最終的予測位置を得るステップと、を含む項目15に記載の方法。
(項目17)
前記証明文書は身分証明文書を含み、及び/又は
前記第1テキスト領域はアドレスフィールド情報領域を含む項目1~16のいずれか一項に記載の方法。
(項目18)
証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するためのキーポイント検出ユニットであって、前記複数のキーポイントが前記証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含むキーポイント検出ユニットと、
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するためのテキスト認識ユニットと、を含む証明文書認識装置。
(項目19)
前記証明文書は、前記第1文字型と異なる第2文字型に対応するテキスト行を少なくとも1つ含み、且つ前記第1テキスト領域のテキスト内容と同様である第2テキスト領域を更に含む項目18に記載の装置。
(項目20)
前記第1文字型は漢字であり、前記第2文字型は少数民族文字である項目19に記載の装置。
(項目21)
前記テキスト認識ユニットは、
前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定するための位置予測モジュールと、
前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第1文字型に対応する少なくとも1つの目標テキスト領域を認識して、前記証明文書のテキスト認識結果を取得するためのテキスト認識モジュールと、を含む項目19に記載の装置。
(項目22)
前記位置予測モジュールは、前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の初期予測位置を決定するステップと、前記複数のテキスト行の初期予測位置に異常があるか否かを決定するステップと、前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域に含まれる複数のテキスト行の初期予測位置を修正処理して、前記複数のテキスト行の目標予測位置を取得するステップとに用いられる項目21に記載の装置。
(項目23)
前記位置予測モジュールは、前記複数のテキスト行の中で、対応する初期予測行高さが第1の所定の行高さより大きいテキスト行が存在することに応答して、前記複数のテキスト行の初期予測位置に異常があると決定するために用いられる項目22に記載の装置。
(項目24)
前記位置予測モジュールは、前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、前記第1テキスト領域における第1テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得るステップと、前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置を修正して、前記第1テキスト行の目標予測位置を得るステップとに用いられる項目22又は23に記載の装置。
(項目25)
前記位置予測モジュールは、前記第1テキスト領域に含まれる複数のテキスト行の第1予測平均行高さと前記第1テキスト行の初期予測行高さに基づいて、前記複数のテキスト行における前記第1テキスト行以外の少なくとも1つの第2テキスト行の第2予測平均行高さを決定するステップと、前記第2予測平均行高さに基づいて前記第1テキスト行の初期予測行高さを修正するステップとに用いられる項目24に記載の装置。
(項目26)
前記位置予測モジュールは、前記第2予測平均行高さが第1所定数値を超えたことに応答して、前記第1テキスト行の高さを第2所定数値に修正するステップ、及び/又は前記第2予測平均行高さが前記第2所定数値以下であることに応答して、前記第1テキスト行の高さを前記第2予測平均行高さに修正するステップに用いられる項目25に記載の装置。
(項目27)
前記位置予測モジュールは、前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の修正行高さを得るステップと、前記第1テキスト行の修正行高さが第2所定数値以上であることに応答して、前記第1テキスト行の次のテキスト行の初期予測位置に対応する初期予測行高さを前記第1テキスト行の目標予測行高さとし、及び/又は、前記第1テキスト行の修正行高さが第3所定数値より小さいことに応答して、前記第1テキスト行の修正行高さを前記第1テキスト行の目標予測行高さとするステップとに用いられる項目24~26のいずれか一項に記載の装置。
(項目28)
前記位置予測モジュールは、前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置に対応する予測上境界を調整して、前記第1テキスト行の目標予測上境界を得るために用いられる項目24~27のいずれか一項に記載の装置。
(項目29)
前記位置予測モジュールは、前記第1テキスト領域における複数のテキスト行の第1予測平均行高さ及び前記第1テキスト行の少なくとも1つの隣接行の初期予測位置に対応する初期予測行高さのうちの少なくとも一つに基づいて、前記第1テキスト行の初期予測行高さに異常があるか否かを決定するために用いられる項目24~28のいずれか一項に記載の装置。
(項目30)
前記位置予測モジュールは、前記第1テキスト行の初期予測行高さが前記第1予測平均行高さの第1所定倍数に到達したこと、及び/又は、前記第1テキスト行の初期予測行高さが前記第1テキスト行の少なくとも1つの隣接行の初期予測行高さの第2所定倍数に到達したことに応答して、前記第1テキスト行の初期予測行高さに異常があると決定するために用いられる項目29に記載の装置。
(項目31)
前記位置予測モジュールは、更に、前記第1テキスト領域の少なくとも2つの境界限定点の情報及び前記第1テキスト領域の予測行数に基づいて、前記第1テキスト領域における複数のテキスト行の第1予測平均行高さを決定するために用いられる項目29又は30に記載の装置。
(項目32)
前記位置予測モジュールは、前記第1テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも1つの目標テキスト領域における第3テキスト領域の初期予測位置を修正して、前記第3テキスト領域の目標予測位置を得るために用いられ、前記テキスト認識モジュールは、前記第3テキスト領域の目標予測位置に基づいて前記第3テキスト領域のテキスト認識結果を得るために用いられる項目20~31のいずれか一項に記載の装置。
(項目33)
前記位置予測モジュールは、前記第1テキスト領域に含まれる複数のテキスト行の目標予測行高さに基づいて、前記第1テキスト領域における複数のテキスト行の目標予測平均行高さを決定するステップと、
前記目標予測平均行高さと前記第3テキスト領域に含まれる第3テキスト行の初期予測位置に対応する初期予測行高さに基づいて、前記第3テキスト行の初期予測位置を修正して、前記第3テキスト行の最終的予測位置を得るステップとに用いられる項目32に記載の装置。
(項目34)
前記証明文書は身分証明文書を含み、及び/又は
前記第1テキスト領域はアドレスフィールド情報領域を含む項目18~33のいずれか一項に記載の装置。
(項目35)
実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して項目1~17のいずれか一項に記載の証明文書認識方法の操作を完成するためのプロセッサと、を含む電子機器。
(項目36)
コンピュータ読取可能コマンドを記憶するためのコンピュータ可読記憶媒体であって、前記コマンドが実行される時に項目1~17のいずれか一項に記載の証明文書認識方法の操作を実行するコンピュータ可読記憶媒体。
(項目37)
コンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが項目1~17のいずれか一項に記載の証明文書認識方法を実現するためのコマンドを実行するコンピュータプログラム製品。
以下、図面と実施例を参照しながら本開示の技術的解決手段を更に詳細に説明する。
本開示の実施例で提供された証明文書認識技術を適用した身分証明文書の例示的図である。 本開示の実施例で提供された証明文書認識方法の1つのフローチャートである。 本開示の実施例で提供された証明文書認識方法のまた1つのフローチャートである。 本開示の実施例で提供された証明文書認識方法のまた1つのフローチャートである。 本開示の実施例で提供された証明文書認識方法の更にまた1つのフローチャートである。 本開示の実施例で提供された証明文書認識方法の更に別のフローチャートである。 本開示の実施例で提供された証明文書認識方法の1つの応用例の図である。 本開示の実施例で提供された証明文書認識方法のまた1つの応用例の図である。 本開示の実施例で提供された証明文書認識装置の構造模式図である。 本開示の実施例の電子機器の例示的構造模式図である。
明細書の一部を構成する図面は、本開示の実施例を説明し、その説明と共に本開示の原理を解釈することに用いられる。
図面を参照し、以下の詳細な説明により本開示をより明瞭に理解することができる。
ここで、図面を参照しながら本開示の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本開示の範囲を限定するものではないことに注意すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本開示及びその適用または使用へのなんらの制限にもならない。
関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。
なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本開示の実施例は主に身分証明文書の認識に用いられるが、決まったフォーマット又は部分的に決まったフォーマットを有する他の証明文書又は手形の認識にも用いられ、本開示の実施例はそれを限定するものではない。
従来のOCR認識アルゴリズムは、例えば漢族身分証明文書のような大部分の身分証明文書に高い認識精度を有するが、例えば少数民族身分証明文書のような小部分の身分証明文書の認識に主に以下のようないくつかの重要な問題がある。
例えば、図1に示すように、モンゴル族、ウイグル族等のような一般の少数民族身分証明文書には漢字がある他に、対応する少数民族文字もある。関連技術で使用される身分証明文書認識モデルは少数民族文字を認識できないので、少数民族身分証明文書のテキスト認識において少数民族文字が文字化けすることがあり、また、少数民族文字に影響されるため、漢字認識に多くの誤りが発生する。
また、少数民族身分証明文書は、様々なフォーマットを有し、アドレスフィールドを例とすると、現在、少数民族文字と漢字とが明らかなに別々の行に区別されておらず、順に行に現れるフォーマット、図1に示すように少数民族と漢字が同一の領域に存在するが、順に行に現れることでなく、明らかに別々の行に区別されているフォーマットといった2種の一般のフォーマットがある。フォーマットの多様化は少数民族身分証明文書の認識正確率に影響を及ぼす。
上記の少なくとも1種の問題を解決するために、本開示の実施例は、キーポイントとして、漢字領域における複数のテキスト行を含む第1テキスト領域の少なくとも2つの境界限定点(例えば、左上キーポイントと右下キーポイント等の第1テキスト領域の境界を決定可能な点)を増加することで、少なくとも第1テキスト領域を含む漢字領域の位置決定精度を高くし、少数民族文字が漢字認識に及ぼす影響を低くすることができ、証明文書認識精度の向上に寄与する画像認識技術を提案する。
図1は、証明文書画像の4つの頂角キーポイント、文字フィールド名称領域(「氏名」、「性別」、「生年月日」、「住所」及び「公民身分証明文書番号」を含む)の左上キーポイントと右下キーポイント、一部の文字フィールドの文字フィールド情報領域(氏名文字フィールド情報領域、性別文字フィールド情報領域、民族文字フィールド情報領域及び身分証明文書番号文字フィールド情報領域を含む)の左上キーポイントと右下キーポイント並びにアドレスフィールド情報領域の左上キーポイントと右下キーポイントを含む、本開示の実施例中の24個のキーポイントを例示するものであり、本開示の実施例はアドレスフィールド情報領域の左上キーポイントと右下キーポイントによって、少数民族身分証明文書中の漢字の認識正確率を高くした。
図1に示す24個のキーポイントが例示するためのものに過ぎず、本開示の実施例で他の数量や種類のキーポイントを用いてもよいことを理解すべきであり、本開示の実施例はそれを限定するものではない。
本開示の実施例で提供された技術的解決手段は、少数民族身分証明文書の認識精度の向上に寄与するが、漢族身分証明文書の認識、又は類似的に少なくとも2種の異なる文字型を含む任意の証明文書の認識にも適用可能であることを理解すべきであり、本開示の実施例はそれを限定するものではない。
図2は本開示の実施例で提供された証明文書認識方法の1つのフローチャートである。
ステップ210において、証明文書画像に対してキーポイント検出を行って証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得する。
いくつかの実施例では、この証明文書認識方法は、例えば、携帯電話、タブレット、ウエアラブル機器、出入り管理装置等の端末装置を含む各種画像処理装置に利用可能である。
別の実施例では、この証明文書認識方法は、ネットワーク側のサーバに利用可能であり、端末で証明文書画像を取得し且つサーバにアップロードし、サーバでこの証明文書画像を認識して証明文書画像に対応する証明文書の、少なくともテキスト認識結果を含む証明文書情報を取得する。
例えば、ユーザが身元情報を提供して身元認証を行うことが要求される場合に、本願の実施例の証明文書認識方法を利用すれば、ユーザが身元情報を手動で入力することが不要になり、証明文書画像を簡便に取得でき、端末又はサーバが証明文書画像を認識することによって証明文書中のテキストの認識結果を取得する。
そのうち、複数のキーポイントが証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含む。
前記複数のキーポイントの情報は、複数のキーポイントの証明文書画像での位置情報を含む。
前記証明文書画像は証明文書から取得された画像である。前記証明文書は、身分証明文書、パスポート、在住許可証、一時滞在許可証、学位証明文書、学歴証明文書等、様々な文字型を含む各種証明文書画像を含むが、それらに限定されない。
証明文書には第1文字型と第2文字型の2種の文字を含み、そのうち、第1文字型と第2文字型のテキストは別々の行に現れ、そのうち、第1文字型のテキスト行と第2文字型のテキスト行は同じ内容を有してもよいし、異なる内容を有してもよい。
いくつかの実施例では、第1文字型は認識可能文字型又は認識しようとする目標文字型、例えば漢字等であり、第2文字型は認識不可能文字型又は認識しようとしない文字型、例えば、少数民族文字等である。例えば、身分証明文書の認識技術で、認識技術の一般性を保持して、漢族身分証明文書の認識と少数民族身分証明文書の認識に同時に適用するために、身分証明文書中の漢字を認識するが、その中の少数民族文字を認識しない。
いくつかの実施例では、前記第1文字型は漢字であってよく、前記第2文字型は他の国家又は地域で使用される言語、例えば、他の国家の使用範囲の小さい言語の文字であってよい。
本開示の実施例では、第1文字型に対応するテキスト領域は第1文字型のテキストのみを含んでもよく、又は更に第1と第2文字型以外の他の文字型、例えば数字等を含んでもよく、それに類似するように、第2文字型に対応するテキスト領域は第2文字型のテキスト及び他の文字型のテキストを含んでよく、本開示の実施例はそれを限定するものではない。
いくつかの選択可能な実施例では、証明文書は、第1文字型と異なる第2文字型に対応するテキスト行を少なくとも1つ含み、且つ第1テキスト領域と同じテキスト内容を有する第2テキスト領域を更に含む。例えば、図1に示すように、身分証明文書中のアドレスフィールド情報領域は人物の同一住所を表す漢字情報領域と少数民族文字情報領域を含む。図1に示す例におけるアドレスフィールド情報領域の漢字情報領域と少数民族文字情報領域をそれぞれ第1テキスト領域と第2テキスト領域とすれば、第2テキスト領域と第1テキスト領域が隣接するものであるか、又は少なくとも1つの空白行の間隔があるが、本開示の実施例はそれを限定するものではない。
本開示の実施例では、証明文書画像に対してキーポイント検出を行って証明文書画像に含まれる証明文書の複数のキーポイントの情報を得、そのうち、キーポイントの情報は位置情報を含み、又は更に他の情報を含み、本開示の実施例はそれを限定するものではない。
証明文書の複数のキーポイントは第1テキスト領域の少なくとも2つの境界限定点、例えば、左上キーポイントと右下キーポイント又は左下キーポイントと右上キーポイント又は4つの頂点等を含み、本開示の実施例はそれを限定するものではない。
キーポイントに第1文字型に対応する第1テキスト領域の少なくとも2つの境界限定点を含むことで、第1テキスト領域の位置を比較的精確に決定でき、第1テキスト領域の比較的正確な予測行高さを取得し、第2文字型のテキストが証明文書認識に及ぼす影響を低減し、認識精度を高くすることに寄与する。
ステップ220において、複数のキーポイントの情報に基づいて証明文書のテキスト認識結果を決定する。
いくつかの実施例では、複数のキーポイントの情報に基づいて第1テキスト領域に含まれるテキスト行の比較的精確な位置を決定でき、テキスト認識方法に基づいて、更に位置が決定された第1文字型のテキストを認識して第1テキスト領域のテキスト認識結果を得る。いくつかの実施例では、更に、第1テキスト領域に含まれる第1文字型のテキスト行の位置に基づいて証明文書に含まれる他のテキスト領域中の第1文字型のテキスト行の位置を決定してもよく、証明文書のテキストの認識精度の向上に寄与する。
本開示の上記実施例で提供された証明文書認識方法によれば、証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得し、そのうち、前記複数のキーポイントが前記証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含み、前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するようになっており、第1テキスト領域の少なくとも2つの境界限定点を増加することで、第1テキスト領域における複数行のテキストのテキスト位置の認識正確率の向上に寄与し、他の文字型が第1文字型のテキスト認識に及ぼす影響を低減し、証明文書における第1文字型内容の認識正確率を高くした。
少数民族の証明文書において、第1文字型は漢字であり、第2文字型は少数民族文字である。
文字認識技術によって少数民族文字を認識することがまだ実現されていないので、本開示の実施例は少数民族文字が漢字内容に与える干渉を取り除く必要があり、例えば、少数民族文字と漢字が順に行に現れない時に、即ち、少数民族文字フィールドと漢字フィールドの間に間隔がある時に、従来の身分証明文書処理方法によれば、テキスト領域を検出できず、誤って少数民族文字を漢字として検出認識して、誤った結果を引き起こすことが多い。
いくつかの実施例では、前記第1テキスト領域と前記第2テキスト領域は共に連通する四辺形領域、例えば、矩形領域であってよい。
図3は本開示の実施例で提供された証明文書認識方法のまた1つのフローチャートである。
ステップ310において、証明文書画像に対してキーポイント検出を行って証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得する。
ここで、複数のキーポイントは証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含む。
ステップ320において、第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定する。
いくつかの実施例では、第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて1つの矩形領域を決定でき、この矩形領域には少なくとも第1テキスト領域を含み、更に一部の第2テキスト領域を含むことも可能であり、第1テキスト領域中の第1文字型を認識するために、それぞれのテキスト行の位置を決定する必要があり、即ち本開示の実施例でそれぞれのテキスト行の目標予測位置を決定する必要があり、続いて目標予測位置で文字を認識し、それによって第1領域に含まれる第1文字型の内容を決定できる。第1テキスト領域における内容を認識する際にして、行毎に認識してよく、行毎に認識することで文字認識の正確率が高くなり、行と行が交差した原因で誤って認識することが少なくなった。
ステップ330において、第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、証明文書に含まれる、第1文字型に対応する少なくとも1つのテキスト領域を認識して、証明文書のテキスト認識結果を取得する。
証明文書の種類が多くあるので、証明文書には内容が認識可能なテキスト領域(第1テキスト領域を含む)を複数含んでよく、これらのテキスト領域中の文字型が全て第1文字型であり、また、証明文書が相対的に固定されたフォーマットの特別な画像となるので、複数のテキスト領域中の文字の行高さが同じであることがあり、例えば、身分証明文書中の漢字の高さが同じであり、即ち、身分証明文書画像中の漢字の行高さが同じであり、従って、第1テキスト領域に含まれるテキスト行の目標予測位置が決定された時に、第1テキスト領域に含まれるテキスト行の高さを決定でき、この行高さで他のテキスト領域中のテキスト行の高さを補正し、補正されたテキスト行の高さで他のテキスト領域におけるそれぞれのテキスト行の位置を決定し、更に他のテキスト領域中の内容を決定することができ、他のテキスト領域中の文字の認識正確率が高くなった。
図4は本開示の実施例で提供された証明文書認識方法のまた1つの実施例の一部のフローチャートである。上記実施例をもとに、ステップ320は以下のステップを含む。
ステップ402において、第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の初期予測位置を決定する。
いくつかの実施例では、テキスト行の初期予測位置はテキスト行の上境界と下境界を含んでよく、上下境界の座標によってテキスト行の位置を決定でき、本開示の実施例における初期予測位置は、第1テキスト領域に含まれる行数、それぞれのテキスト行の初期行高さ、及び境界限定点の情報に基づいて決定された第1テキスト領域の上境界と下境界に基づいて決定可能であり、そのうち、行数と初期行高さはニューラルネットワークで取得可能であり、例えば、深度ニューラルネットワークで証明文書中の第1テキスト領域に含まれる行数と第1テキスト領域におけるそれぞれのテキストの初期行高さを認識する。
ステップ404において、複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、第1テキスト領域に含まれる複数のテキスト行の初期予測位置を修正処理して、複数のテキスト行の目標予測位置を取得する。
内容認識の正確率を向上させるために、本開示の実施例は初期予測位置を取得した後、この初期予測位置が正常か否かを判断する必要があり、初期予測位置に異常がある時に、この初期予測位置で認識すれば、誤った認識内容を引き起こすことがあり、本開示の実施例は修正処理によってテキスト行位置の正確率の向上を図っており、第1テキスト領域に複数のテキスト行を含むので、そのうちの1つ又は複数のテキスト行の初期予測位置に異常がある可能性があり、その修正過程において他のテキスト行の高さに基づいて異常のある初期予測位置を修正してもよく、他の手法に基づいて初期予測位置を修正してもよく、本開示の実施例は具体的な修正手法を限定するものではない。
複数のテキスト行の初期予測位置が得られた後、複数のテキスト行の初期予測位置に異常があるか否かを決定してよい。
具体的には、複数のテキスト行の初期位置に異常があるか否かを総合的に判断してよい。いくつかの実施例では、複数のテキスト行の中で行高さに異常があるテキスト行が存在するか否かを判断することで、複数のテキスト行の初期位置に異常があるか否かを決定する。例えば、前記複数のテキスト行の中で、対応する初期予測行高さが第1の所定の行高さより大きいテキスト行が存在することに応答して、前記複数のテキスト行の初期予測位置に異常があると決定する。もう1つの例を挙げると、前記複数のテキスト行の平均予測行高さが第2の所定の行高さより高いことに応答して、前記複数のテキスト行の初期予測位置に異常があると決定する。
いくつかの実施例では、第1の所定の行高さは大量の証明文書中のテキスト行の高さを統計することで取得されたものであってよく、例えば、第1の所定の行高さを15画素に設定する。
本開示の実施例は第1の所定の行高さより大きいか否かを初期予測行高さが正常か否かの判断基準とする。各テキスト行の高さが全て第1の所定の行高さ以下である時に、行数と初期予測行高さの認識結果が比較的正確であることを示し、この時に、いくつかの実施例では、認識された第1テキスト領域上境界と第1テキスト領域下境界及び行数に基づいて(又は全ての行の高さの平均値を求めて)、第1平均行高さを取得し、第1平均行高さを各テキスト行の目標予測行高さとし、更に各テキスト行の目標予測位置を決定する。別の実施例では、複数のテキスト行のうちの1つ又は1つ以上のテキスト行の初期予測行高さが第1の所定の行高さより大きい時に、複数のテキスト行の初期予測行高さが誤って認識されたものであることを示し、文字認識結果の正確率を向上させるために、修正する必要がある。
いくつかの実施例では、ステップ404には、前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、前記第1テキスト領域における第1テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第1テキスト行の初期予測行高さを修正して前記第1テキスト行の目標予測行高さを得るステップと、前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置を修正して前記第1テキスト行の目標予測位置を得るステップと、を含む。
具体的には、複数のテキスト行の初期予測位置に異常があると決定された場合に、まず複数のテキスト行のうちのどのテキスト行の初期予測位置に異常があるかを判断し、続いてこれらの初期予測位置に異常があるテキスト行の位置を修正する。一例として、複数のテキスト行のうちの第1テキスト行の初期予測位置に異常があり、例えば、初期予測行高さに異常があると検出された場合に、この第1テキスト行の予測行高さを修正して精確な目標予測位置を取得する。
いくつかの実施例では、前記第1テキスト領域に含まれる複数のテキスト行の第1予測平均行高さと前記第1テキスト行の初期予測行高さに基づいて、前記複数のテキスト行のうち前記第1テキスト行以外の少なくとも1つの第2テキスト行の第2予測平均行高さを決定し、前記第2予測平均行高さに基づいて前記第1テキスト行の初期予測行高さを修正する。
いくつかの実施例では、第1テキスト領域の境界限定点の位置情報及び予測行数に基づいて第1テキスト領域の第1予測平均行高さを得、続いて第1予測平均行高さと第1テキスト行の初期予測行高さに基づいて第1テキスト領域における残りの少なくとも1つの第2テキスト行の平均予測行高さ、即ち第2平均予測行高さを得るようにしてよく、最後に、第2平均予測行高さに基づいて第1テキスト行の初期予測行高さを修正して第1テキスト行の目標予測行高さを得てよい。
図5は本開示の実施例で提供された証明文書認識方法の更にまた1つのフローチャートである。ここで、一例として、ステップ404には以下ステップを含む。
ステップ502において、第1テキスト領域の少なくとも2つの境界限定点の情報及び第1テキスト行の少なくとも1つの隣接行の初期予測位置に基づいて、第1テキスト行の初期予測位置に対応する初期予測行高さに異常があるか否かを決定する。
ここで、隣接行は第1テキスト行の1行前のテキスト行及び/又は次のテキスト行であってよく、第1テキスト行が1行目である時に、この隣接行が次のテキスト行であり、第1テキスト行が中間行である時に、この隣接行が1行前のテキスト行と次のテキスト行であり、第1テキスト行が最後の行である時に、この隣接行が1行前の行であり、第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の高さが同じものであり、従って、第1テキスト行と隣接行の初期予測行高さの差が所定程度に到達した時に、第1テキスト行の初期予測行高さに異常があることを示す。
ステップ504において、第1テキスト行の初期予測行高さに異常があると決定されたことに応答して、第1テキスト行の初期予測行高さを修正して、第1テキスト行の目標予測行高さを得る。
いくつかの実施例では、第2テキスト領域中の内容が第1テキスト領域中の内容と同じなので、第2テキスト領域が一般に第1テキスト領域に隣接する。
第2テキスト領域が第1テキスト領域内の文字内容に及ぼす影響を減少するために、第2テキスト領域が第1テキスト領域の上方にある時に、一般的には、本開示の実施例の第1テキスト領域中の最後の行の位置を修正する必要がない。この時に第1テキスト行の次の行で第1テキスト行の初期予測位置を修正し、第1テキスト領域中のテキスト行は1行目から逆に数えた2行目まで修正され、また、第2テキスト領域が第1テキスト領域の下方にある時に、一般的には、本開示の実施例の第1テキスト領域中の1行目の位置を修正する必要がなく、この時に第1テキスト行の前の行で第1テキスト行の初期予測位置を修正し、第1テキスト領域中のテキスト行は最後の行から2行目まで修正される。
ステップ506において、第1テキスト行の目標予測行高さに基づいて第1テキスト行の初期予測位置を修正して、第1テキスト行の目標予測位置を得る。
いくつかの実施例では、第1テキスト行の目標予測行高さが決定された後、決定された第1テキスト行の上境界に基づいて下境界を決定でき、又は決定された第1テキスト行の下境界に基づいて上境界を決定でき、上境界と下境界に基づいて目標予測位置か決定可能になる。
いくつかの実施例では、第1テキスト行の目標予測行高さに基づいて第1テキスト行の初期予測上境界を調整して第1テキスト行の目標予測上境界を得る。
第1テキスト行の目標予測行高さが決定された後、第2テキスト領域が第1テキスト領域の上方に位置する場合に、誤って認識される可能性があるところが一般に上境界であると決定できる。この時に、次の行の上境界に基づいて第1テキスト行の上境界を決定してよい。いくつかの実施例では、第1テキスト行の下境界と次のテキスト行の上境界に重なったところがある可能性があり、本開示の実施例は第1テキスト行の下境界を修正して、次のテキスト行の文字が第1テキスト行に影響を及ぼすことを防止できる。例えば、第1テキスト行の下境界=次のテキスト行の上境界-1画素(pixel)。任意選択的に、第1テキスト行の目標予測上境界=第1テキスト行の下境界-目標予測行高さ。
本開示の実施例は隣接行の初期予測位置によって第1テキスト行の初期予測行高さを修正し、次に修正された目標予測行高さに基づいて目標予測位置を決定し、それによって取得された第1テキスト領域に含まれる複数のテキスト行は行の高さと位置関係がより正確になって、第1テキスト領域中の内容の認識の正確率が高くなった。
図6は本開示の実施例で提供された証明文書認識方法の別のフローチャートである。ここで、一例として、ステップ502には以下のステップを含む。
ステップ602において、第1テキスト領域の少なくとも2つの境界限定点の情報及び第1テキスト領域の予測行数に基づいて、第1テキスト領域中の複数のテキスト行の第1予測平均行高さを決定する。
例えば、少なくとも2つの境界限定点は左上キーポイントと右下キーポイントを含み、第1テキスト領域の左上キーポイントに基づいて第1テキスト領域の上境界座標を決定し、右下キーポイントに基づいて第1テキスト領域の下境界座標を決定するようにしてよく、上境界座標と下境界座標の差を求めることで第1テキスト領域の高さを決定でき、ニューラルネットワークによって第1テキスト領域に含まれる予測行数を認識し、この時に、第1テキスト領域の高さを予測行数で割って、第1予測平均行高さを決定できる。
ステップ604において、第1テキスト領域中の複数のテキスト行の第1予測平均行高さ及び第1テキスト行の少なくとも1つの隣接行の初期予測位置に対応する初期予測行高さのうちの少なくとも一つに基づいて、第1テキスト行の初期予測行高さに異常があるか否かを決定する。例えば、第1テキスト領域の第1予測平均行高さ及び第1テキスト行の少なくとも1つの隣接行の初期予測位置に対応する初期予測行高さに基づいて、第1テキスト行の初期予測行高さに異常があるか否かを決定する。
本開示の実施例では、第1予測平均行高さは第1テキスト領域における全てのテキスト行の高さを判断することに利用可能であり、行数が正確に予測された時に、第1テキスト行の初期予測行高さと第1予測平均行高さとの間の関係に基づいて初期予測行高さに異常があるか否かを決定でき、例えば、第1テキスト行の初期予測行高さが第1予測平均行高さの所定倍数より大きい。しかしながら、認識過程で行数が誤って予測される可能性もあるので、本開示の実施例は、第1予測平均行高さに加えて、隣接行の初期予測位置を第1テキスト行の初期予測行高さに異常があるか否かの評価基礎として、初期予測行高さに異常があるか否かを判断する正確率を向上させた。
例えば、いくつかの実施例では、ステップ604には、第1テキスト行の初期予測行高さが第1予測平均行高さの第1所定倍数に到達したことに応答して、第1テキスト行の初期予測行高さに異常があると決定し、又は、第1テキスト行の初期予測行高さが第1テキスト行の少なくとも1つの隣接行の初期予測行高さの第2所定倍数に到達したことに応答して、第1テキスト行の初期予測行高さに異常があると決定し、又は、第1テキスト行の初期予測行高さが第1予測平均行高さの第1所定倍数に到達し且つ第1テキスト行の初期予測行高さが第1テキスト行の少なくとも1つの隣接行の初期予測行高さの第2所定倍数に到達したことに応答して、第1テキスト行の初期予測行高さに異常があると決定するステップを含む。この時に第1所定倍数と第2所定倍数は同じであってもよいし、異なっていてもよく、例えば、第1所定倍数と第2所定倍数を1.2等に設定し、本開示の実施例は第1所定倍数と第2所定倍数の具体的な値を限定するものではない。
更に例を挙げると、いくつかの実施例では、ステップ604には、第1テキスト行の初期予測行高さが第1予測平均行高さの第1所定倍数に到達し且つ第1テキスト行の初期予測行高さが第1テキスト行の次のテキスト行の初期予測行高さの第2所定倍数に到達したことに応答して、第1テキスト行の初期予測行高さに異常があると決定するステップを含む。
本開示の実施例では第2テキスト領域が第1テキスト領域の上方に位置しており、この時に、テキスト行が下方に位置するほど、テキスト内容に干渉を与える第2テキスト領域から離れ、即ち、下方に位置するテキスト行の初期予測行高さが比較的正確であるので、本開示の実施例は次のテキスト行の初期予測行高さに基づいて第1テキスト行の初期予測行高さに異常があるか否かを確認して、異常確認の正確率を高くした。
いくつかの実施例では、ステップ504には、第1予測平均行高さと第1テキスト行の初期予測行高さに基づいて複数のテキスト行のうちの第1テキスト行以外の他のテキスト行の第2予測平均行高さを決定するステップと、第2予測平均行高さに基づいて第1テキスト行の初期予測行高さを修正して、第1テキスト行の目標予測行高さを得るステップと、を含む。本開示の実施例では、第1予測平均行高さと次のテキスト行の初期予測行高さに基づいて第1テキスト行の初期予測行高さに異常があると決定されており、この時に、他のテキスト行(次のテキスト行を含む)の初期予測行高さが比較的正確であると考えられるので、他のテキスト行の初期予測行高さに基づいて平均値を求めて第2予測平均行高さを取得し、この第2予測平均行高さで第1テキスト行の初期予測行高さを修正し、それによって第1テキスト行の目標予測行高さを第1テキスト領域中の他のテキスト行の高さに更に接近させ、第1テキスト領域中の各テキスト行の目標予測行高さの正確率を高くした。
いくつかの実施例では、第2予測平均行高さが第1所定数値を超えたことに応答して、第1テキスト行の高さを第2所定数値に修正し、例えば、前記第1テキスト行の修正行高さが第2所定数値以上であることに応答して、前記第1テキスト行の次のテキスト行の初期予測位置に対応する初期予測行高さを前記第1テキスト行の目標予測行高さとする。
別の実施例では、第2予測平均行高さが第2所定数値以下であることに応答して、第1テキスト行の高さを第2予測平均行高さに修正する。
第1テキスト行の高さは、理論的には第1テキスト行の高さを除去した後他の行の高さに基づいて決定された第2予測平均行高さと等しく、第2予測平均行高さが第1所定数値より大きければ、この時に検出された第1テキスト行が真実の証明文書中の第1テキスト領域の1行ではなく、誤って認識した後2行を1行に合わせた結果であることを示し、例えば、真実の身分証明文書の第1テキスト領域に4行があるが、実際に3行が検出され、その中間行の高さがちょうど第1平均行高さに近い場合に、中間行を1行目と3行目の第2行高さ初期予測行高さに基づいて修正し、この時に第2所定数値を第1テキスト行の高さとすればよく、第2予測平均行高さが第2所定数値以下であれば、第2予測平均行高さを第1テキスト行の高さとする。
いくつかの実施例では、第1テキスト行の目標予測行高さが決定された後、第1テキスト行の下境界が変わらないように、前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置に対応する予測上境界を調整して、前記第1テキスト行の目標予測上境界を得る。
いくつかの実施例では、ステップ604には、
第1テキスト行の初期予測行高さが第1テキスト行の1行前のテキスト行と次のテキスト行の初期予測行高さの第2所定倍数に到達したことに応答して、第1テキスト行の初期予測行高さに異常があると決定するステップと、
第1テキスト行の1行前のテキスト行と次のテキスト行の初期予測行高さに基づいて第1テキスト行の修正行高さを得るステップと、を含む。
本開示の実施例では、第1テキスト行は中間行であり、それに隣接するテキスト行は1行前のテキスト行と次のテキスト行を含み、第1テキスト行の初期予測行高さは上記実施例で提供された第1予測平均行高さと次のテキスト行の初期予測行高さによって異常があるか否かを決定できない時に、この第1テキスト行の初期予測行高さが第1予測平均行高さに近いが、次のテキスト行の初期予測行高さより大きいことが可能であり、この時に、第1テキスト行の初期予測行高さと1行前のテキスト行及び次のテキスト行の初期予測行高さの間の関係によって、2つのテキスト行が1つの第1テキスト行とされて行数が誤って認識されたか否かを確認でき、第1テキスト行の初期予測行高さが第1テキスト行の1行前のテキスト行と次のテキスト行の初期予測行高さの第2所定倍数(例えば、2倍程度等)に到達した場合に、行数が誤って認識されたと確認でき、この時に1行前のテキスト行と次のテキスト行の初期予測行高さで第1テキスト行の高さを修正し、修正の過程は、
第1テキスト行の1行前のテキスト行と次のテキスト行の初期予測行高さの平均値を求めて第3予測平均行高さを得るステップと、
第3予測平均行高さを第1テキスト行の目標予測行高さとするステップと、を含む。
目標予測行高さを取得する公式は目標予測行高さ=(1行前のテキスト行の高さ+次のテキスト行の高さ)/2であってよい。いくつかの実施例では、第3平均行高さと第1テキスト行の下境界に基づいて第1テキスト行の上境界を決定するステップを更に含む。即ち、第1テキスト行上境界=第1テキスト行下境界-目標予測行高さ。
いくつかの実施例では、ステップ504の後、
第1テキスト行の修正行高さが第2所定数値以上であることに応答して、第1テキスト行の次のテキスト行の初期予測行高さを第1テキスト行の目標予測行高さとするステップ、及び/又は
第1テキスト行の修正行高さが第3所定数値より小さいことに応答して、第1テキスト行の修正行高さを第1テキスト行の目標予測行高さとするステップを更に含む。
上記実施例で第1テキスト行の初期予測行高さが修正された後、修正済み行高さが依然として基準的な行高さより明らかに大きいことも可能であり、例えば、本開示の実施例で提供された修正済み行高さが第2所定数値(例えば、22画素)以上であり、この時に、第1テキスト行の高さが依然として正確ではないことを示し、第1テキスト行が1行目ではない場合に、次のテキスト行の初期予測行高さを第1テキスト行の目標予測行高さとし、修正行高さが基準的な行高さに近い場合に、例えば、本開示の実施例中の修正行高さが第3所定数値より小さく、この時に、修正行高さを第1テキスト行の目標予測行高さとする。
いくつかの実施例では、ステップ330には、第1テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、少なくとも1つの目標テキスト領域中の第3テキスト領域の初期予測位置を修正して、第3テキスト領域の目標予測位置を得るステップと、前記第3テキスト領域の目標予測位置に基づいて前記第3テキスト領域のテキスト認識結果を得るステップと、を含む。
本開示の実施例で第1テキスト領域におけるそれぞれのテキスト行の高さは修正された目標予測行高さであり、いくつかの実施例では、第3テキスト領域(例えば、身分証明文書画像中の氏名文字フィールド)の取得した初期予測行高さが正常ではない時に(例えば、特定の行高さより大きい又は特定の行高さとの差が所定値より大きい等の時に)、いくつかの実施例では、第1テキスト領域に含まれる複数のテキスト行の目標予測行高さに基づいて第1テキスト領域の第3予測平均行高さを決定し、第3予測平均行高さと第3テキスト領域の初期予測位置に対応する初期予測行高さに基づいて第3テキスト領域の初期予測位置を修正して、第3テキスト領域の最終的予測位置を得る。この例において、第1テキスト領域のそれぞれのテキスト行の目標予測行高さに基づいて平均値を求めて第1テキスト領域の第3予測平均行高さを取得し、この平均行高さで第3テキスト領域の行の高さを修正するようにしてよく、いくつかの実施例では、修正方法は第3テキスト領域中のテキスト行の高さをこの第3予測平均行高さに変更するようになってよい。
いくつかの実施例では、第1テキスト領域の文字検出による各行の情報を読み取り、各行の高さが正常で異常な高さがなければ、第1テキスト領域の平均行高さを記録し、第3テキスト領域中のテキスト行の高さを補正する。補正規則は、第3テキスト領域中のテキスト行の高さ-第1テキスト領域の第3予測平均行高さ>2画素(pixels)であれば、第3テキスト領域中のテキスト行の高さを第1テキスト領域の第3予測平均行高さに修正することを含んでよい。
いくつかの実施例では、証明文書は身分証明文書を含み、及び/又は、第1テキスト領域は住所領域を含む。
具体的な一応用例において、本開示の実施例で提供された証明文書認識方法は少数民族身分証明文書の認識に用いられ、図7は本開示の実施例で提供された証明文書認識方法の1つの応用例の図である。
ステップ710において、少数民族身分証明文書の証明文書画像に対してキーポイント検出を行って、漢字に対応するテキスト行を複数含むアドレスフィールド情報領域の左上キーポイントと右下キーポイントを含む、少数民族身分証明文書の24個のキーポイントの情報を取得する。
ステップ720において、左上キーポイントと右下キーポイントによってアドレスフィールド情報領域を決定し、ニューラルネットワーク等によって認識してアドレスフィールド情報領域に含まれるテキスト行の行数と各テキスト行の高さを取得する。
ステップ730において、各テキスト行の高さが正常である(例えば、大規模データ統計による身分証明文書の行の高さとの差が設定値より小さい)か否かを判断し、各テキスト行の高さが全て正常であれば、ステップ750を実行し、逆には、ステップ740を実行する。
ステップ740において、認識されたアドレスフィールド情報領域のテキスト行の数量が3以上であり且つそのうちの1つ又は複数のテキスト行(一般に1つのテキスト行)の高さに異常がある場合に、高さに異常があるテキスト行の高さを修正して、修正されたアドレスフィールド情報領域中のテキスト行の平均行高さを取得する。いくつかの実施例では、少数民族文字が漢字の上方に位置するので、この時の修正方法は最後の行を修正せず、前のN-1行のみを修正し、Nがアドレスフィールド情報領域に含まれるテキスト行の数量を表す。
ステップ750において、アドレスフィールド情報領域中のテキスト行の平均行高さavg_h_addrを記録し、且つ氏名文字フィールド情報領域の行の高さh_nameを補正する。ここで、補正規則は、h_name-avg_h_addr>2画素(pixels)であれば、氏名文字フィールド情報領域の行の高さh_nameをアドレスフィールドの平均行高さavg_h_addrに修正するようになっている。
ステップ760において、アドレスフィールド情報領域中のテキスト行の平均行高さに基づいてアドレスフィールド情報領域中のそれぞれのテキスト行の漢字内容を認識して少数民族身分証明文書中の住所情報を取得し、補正された氏名文字フィールド情報領域の行の高さに基づいて氏名文字フィールド情報領域中の漢字内容を認識して少数民族身分証明文書中の氏名情報を取得して、少数民族身分証明文書の認識を実現する。
図8は本開示の実施例で提供された証明文書認識方法のまた1つの応用例の図である。上記ステップ740で提供された行の高さの修正方法によって、少数民族身分証明文書中のアドレスフィールド情報領域の複数のテキスト行に対して上から下へ(例えば、1行目からN-1行目へ)順に修正操作を行い、いくつかの実施例では、修正過程は以下のステップを含む。
ステップ802において、アドレスフィールド情報領域の所在する矩形枠の上下境界及び行数に基づいて計算して少数民族身分証明文書中のアドレスフィールド情報領域のテキスト行の平均行高さを取得し、検出して現在行の高さ及び次の行の高さを取得する。
ステップ804において、現在行の高さが次の行の高さの1.2倍(設定値、場合によって設定可能)以上であり且つ平均行高さの1.2倍(設定値、場合によって設定可能)以上であるか否かを判断し、YESの場合に、現在行の高さに異常があると決定し、ステップ806を実行し、NOの場合に、ステップ808を実行する。
ステップ806において、認識することで現在行の下境界を決定し、現在行の下境界と次の行の上境界には重なったところがあれば、現在行の下境界を修正して、次の行の文字が現在行に影響を及ぼすことを防止する。この時に、現在行の下境界=次の行の上境界-1pixel。続いて、現在行の高さを修正し、現在行の高さは、理論的には現在行の高さを除去した後他の行(アドレスフィールドにおける現在行以外の全てのテキスト行)の高さの平均値new_h_avg_lineと等しく、new_h_avg_lineが15pixels(選択可能な値であり、大規模データ統計によって取得可能である)より大きければ、この時に検出された現在行が真実の少数民族身分証明文書のアドレスフィールドの1行ではなく、誤って検出されて2行が1行とされた結果であることを示し、この時に現在の行高さを15pixelsにすればよく、new_h_avg_lineが15pixels以下であれば、new_h_avg_lineを現在の行高さとして、現在行の修正行高さを取得し、ステップ810を実行する。
ステップ808において、現在行の高さが平均行高さに近いと検出された場合に(例えば、現在行の高さがアドレスフィールド情報領域の高さを行数で割ったものと等しい)、現在行の高さと現在行の隣接する2行の高さの差を判断し、現在行の高さが次の行の高さの1.8倍(設定値、場合によって設定可能)より大きく且つ1行前の行の高さの1.8倍より大きい場合に、現在行の上下境界を修正し、修正公式は現在行の修正行高さ=(1行前の行の高さ+次の行の高さ)/2であり、ステップ810を実行する。
このステップでは、真実の少数民族身分証明文書のアドレスフィールドに4行があるが、実際に3行が検出されたことに対応する。
ステップ810において、現在行の修正行高さが22pixels(選択可能な値であり、大規模データ統計によって取得可能である)より大きいか否かを判断し、YESの場合に、ステップ812を実行し、NOの場合に、現在行の修正行高さを現在行の目標行高さとして、ステップ814を実行する。
ステップ812において、現在行が1行目ではない場合に、次の行の高さを現在行の目標行高さとして、ステップ814を実行する。
ステップ814において、現在行の上境界を修正する。修正規則:現在行上境界=現在行下境界-現在行の目標行高さ。
当業者であれば、上記方法の実施例の全てまたは一部のステップを実現するにはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解でき、前記プログラムは、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例のステップを実行する。
図9は本開示の実施例で提供された証明文書認識装置の構造模式図である。この装置は本開示の上記の各方法の実施例を実現することに利用可能である。図9に示すように、この装置は、以下を含む。
キーポイント検出ユニット91は、証明文書画像に対してキーポイント検出を行って、証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するために用いられる。
そのうち、複数のキーポイントは証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含む。
テキスト認識ユニット92は、複数のキーポイントの情報に基づいて証明文書のテキスト認識結果を決定するために用いられる。
本開示の上記実施例で提供された証明文書認識装置によれば、前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定し、第1テキスト領域の少なくとも2つの境界限定点を増加することで、第1テキスト領域における複数行のテキストのテキスト位置の認識正確率の向上に寄与し、他の文字型が第1文字型のテキスト認識に及ぼす影響を低減し、証明文書における第1文字型内容の認識正確率を高くした。
いくつかの実施例では、証明文書は、第1文字型と異なる第2文字型に対応するテキスト行を少なくとも1つ含み、且つ第1テキスト領域のテキスト内容と同様である第2テキスト領域を更に含む。
いくつかの実施例では、第1文字型は漢字であり、第2文字型は少数民族文字である。
1つ又は複数の実施例では、テキスト認識ユニット92は、
前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定するための位置予測モジュールと、
前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第1文字型に対応する少なくとも1つの目標テキスト領域を認識して、前記証明文書のテキスト認識結果を取得するためのテキスト認識モジュールと、を含む。
いくつかの実施例では、前記位置予測モジュールは、前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の初期予測位置を決定するステップと、前記複数のテキスト行の初期予測位置に異常があるか否かを決定するステップと、前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域に含まれる複数のテキスト行の初期予測位置を修正処理して、前記複数のテキスト行の目標予測位置を取得するステップとに用いられる。
いくつかの実施例では、前記位置予測モジュールは、
前記複数のテキスト行の中で、対応する初期予測行高さが第1の所定の行高さより大きいテキスト行が存在することに応答して、前記複数のテキスト行の初期予測位置に異常があると決定するための位置予測モジュールを含む。
いくつかの実施例では、前記位置予測モジュールは、
前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、前記第1テキスト領域における第1テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得るステップと、前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置を修正して、前記第1テキスト行の目標予測位置を得るステップとに用いられる位置予測モジュールを含む。
いくつかの実施例では、前記位置予測モジュールは、前記第1テキスト領域に含まれる複数のテキスト行の第1予測平均行高さと前記第1テキスト行の初期予測行高さに基づいて、前記複数のテキスト行における前記第1テキスト行以外の少なくとも1つの第2テキスト行の第2予測平均行高さを決定するステップと、前記第2予測平均行高さに基づいて前記第1テキスト行の初期予測行高さを修正するステップとに用いられる。
いくつかの実施例では、前記位置予測モジュールは、前記第2予測平均行高さが第1所定数値を超えたことに応答して、前記第1テキスト行の高さを第2所定数値に修正するステップ、及び/又は前記第2予測平均行高さが前記第2所定数値以下であることに応答して、前記第1テキスト行の高さを前記第2予測平均行高さに修正するステップに用いられる。
いくつかの実施例では、前記位置予測モジュールは、前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の修正行高さを得るステップと、前記第1テキスト行の修正行高さが第2所定数値以上であることに応答して、前記第1テキスト行の次のテキスト行の初期予測位置に対応する初期予測行高さを前記第1テキスト行の目標予測行高さとし、及び/又は前記第1テキスト行の修正行高さが第3所定数値より小さいことに応答して、前記第1テキスト行の修正行高さを前記第1テキスト行の目標予測行高さとするステップとに用いられる。
いくつかの実施例では、前記位置予測モジュールは、前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置に対応する予測上境界を調整して、前記第1テキスト行の目標予測上境界を得るために用いられる。
いくつかの実施例では、前記位置予測モジュールは、前記第1テキスト領域における複数のテキスト行の第1予測平均行高さ及び前記第1テキスト行の少なくとも1つの隣接行の初期予測位置に対応する初期予測行高さのうちの少なくとも一つに基づいて、前記第1テキスト行の初期予測行高さに異常があるか否かを決定するために用いられる。
いくつかの実施例では、前記位置予測モジュールは、前記第1テキスト行の初期予測行高さが前記第1予測平均行高さの第1所定倍数に到達したこと、
及び/又は、
前記第1テキスト行の初期予測行高さが前記第1テキスト行の少なくとも1つの隣接行の初期予測行高さの第2所定倍数に到達したことに応答して、
前記第1テキスト行の初期予測行高さに異常があると決定するために用いられる。
いくつかの実施例では、前記位置予測モジュールは、更に、前記第1テキスト領域の少なくとも2つの境界限定点の情報及び前記第1テキスト領域の予測行数に基づいて、前記第1テキスト領域における複数のテキスト行の第1予測平均行高さを決定するために用いられる。
いくつかの実施例では、前記テキスト認識モジュールは、前記第1テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも1つの目標テキスト領域における第3テキスト領域の初期予測位置を修正して、前記第3テキスト領域の目標予測位置を得るステップと、前記第3テキスト領域の目標予測位置に基づいて前記第3テキスト領域のテキスト認識結果を得るステップとに用いられる。
いくつかの実施例では、前記テキスト認識モジュールは、前記第1テキスト領域に含まれる複数のテキスト行の目標予測行高さに基づいて、前記第1テキスト領域における複数のテキスト行の目標予測平均行高さを決定するステップと、
前記目標予測平均行高さと前記第3テキスト領域に含まれる第3テキスト行の初期予測位置に対応する初期予測行高さに基づいて、前記第3テキスト行の初期予測位置を修正して、前記第3テキスト行の最終的予測位置を得るステップとに用いられる。
いくつかの実施例では、前記証明文書は身分証明文書を含み、及び/又は
前記第1テキスト領域はアドレスフィールド情報領域を含む。
本開示の実施例の別の態様によれば、本開示の上記のいずれか1つの実施例の証明文書認識装置を備えるプロセッサを含む電子機器を提供する。
本開示の実施例の別の態様によれば、実行可能コマンドを記憶するためのメモリと、
メモリと通信して実行可能コマンドを実行して本開示で提供された証明文書認識方法の上記のいずれか1つの実施例を完成するためのプロセッサと、を含む電子機器を提供する。
本開示の実施例の別の態様によれば、コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、コマンドがプロセッサにより実行される時に、このプロセッサが本開示で提供された証明文書認識方法の上記のいずれか1つの実施例を実行するコンピュータ記憶媒体を提供する。
本開示の実施例の別の態様によれば、コンピュータ可読コードを含むコンピュータプログラムであって、コンピュータ可読コードが機器上で作動する時に、機器におけるプロセッサが本開示で提供された証明文書認識方法を実行するコンピュータプログラムを提供する。
本開示の実施例の更に別の態様によれば、コンピュータ可読コマンドを記憶するためのコンピュータプログラム製品であって、前記コマンドが実行される時にコンピュータが上記のいずれか1つの可能な実施形態に記載の証明文書認識方法を実行するコンピュータプログラム製品を提供する。
1つ又は複数の選択可能な実施形態では、本開示の実施例は、コンピュータ可読コマンドを記憶するためのコンピュータプログラム製品であって、前記コマンドが実行される時にコンピュータが上記のいずれか1つの実施例に記載の証明文書認識方法を実行するコンピュータプログラム製品を更に提供する。
該コンピュータプログラム製品は具体的にはハードウェア、ソフトウェア又はそれらの組合せにより実現可能である。選択可能な一例において、前記コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として実現され、別の選択可能な一例において、前記コンピュータプログラム製品は具体的には、例えばソフトウェア開発キット(Software Development Kit、SDK)などのソフトウェア製品として実現される。
本開示の実施例によれば、証明文書画像に対してキーポイント検出を行って証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するステップであって、複数のキーポイントが証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含むステップと、複数のキーポイントの情報に基づいて証明文書のテキスト認識結果を決定するステップと、を含む別の証明文書認識方法及びそれに対応する装置、電子機器、コンピュータ記憶媒体、コンピュータプログラム並びにコンピュータプログラム製品を更に提供する。
いくつかの実施例では、この証明文書認識指示は具体的には呼び出しコマンドであってもよく、第1の装置は呼び出すことで第2の装置に証明文書認識を実行させるように指示してもよく、それに対して、呼び出しコマンドを受信したことに応答して、第2の装置は上記証明文書認識方法中の任意の実施例中のステップ及び/又は流れを実行することができる。
本開示の実施例における「第1の」、「第2の」などの用語は区別するためのものに過ぎず、本開示の実施例に対する限定と理解してはならないことを理解すべきである。
更に、本開示では、「複数の」は2つ又は2つ以上を指してよく、「少なくとも1つの」は1つ、2つ又は2つ以上を指してよいことを理解すべきである。
更に、本開示で言及された任意の部材、データ又は構造は、明確に限定され又は明細書の前後で反対的に示唆された場合でなければ、一般的には1つ又は複数と理解してよいことを理解すべきである。
更に、本開示ではそれぞれの実施例についての説明はそれぞれの実施例の相違点を重点として強調し、その同一又は類似的な点について相互に参照してよく、簡単化するために、ここで一つずつに繰り返して説明しないことを理解すべきである。
本開示の実施例は、例えば、携帯端末、パーソナルコンピュータ(PC)、タブレット型コンピュータ、サーバなどであってよい電子機器を更に提供する。以下、本開示の実施例の端末装置又はサーバを実現するのに適する電子機器1000の構造模式図を示す図10を参照し、図10に示すように、電子機器1000は1つ又は複数のプロセッサ、通信部などを含み、前記1つ又は複数のプロセッサは、例えば、1つ又は複数の中央処理ユニット(CPU)1001、及び/又は1つ又は複数の画像プロセッサ(GPU)1013などであり、プロセッサは、読み取り専用メモリ(ROM)1002に記憶された実行可能コマンド又は記憶部1008からランダムアクセスメモリ(RAM)1003にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信パート1012はネットワークカードを含むが、それに限定されなく、前記ネットワークカードはIB(Infiniband)ネットワークカードを含むが、それに限定されない。
プロセッサは読み取り専用メモリ1002及び/又はランダムアクセスメモリ1003と通信して実行可能コマンドを実行し、通信バス1004を介して通信パート1012に接続され、通信パート1012を介して他のターゲットデバイスと通信してよく、それにより本開示の実施例で提供されるいずれか一項の方法に対応する操作を完成し、例えば、証明文書画像に対してキーポイント検出を行って証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得し、そのうち、複数のキーポイントが証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含み、複数のキーポイントの情報に基づいて証明文書のテキスト認識結果を決定する。
また、RAM1003には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。CPU1001、ROM1002及びRAM1003は、通信バス1004を介して相互に接続される。RAM1003を有する場合に、ROM1002は選択可能なモジュールである。RAM1003は実行可能コマンドを格納するか、または動作時に実行可能コマンドをROM1002に書き込み、実行可能コマンドによってプロセッサ1001に上記通信方法に対応する操作を実行させる。入力/出力(I/O)インタフェース1005も通信バス1004に接続される。通信パート1012は、統合的に設置されてもよく、複数のサブモジュール(例えば複数のIBネットワークカード)を有し、通信バスのリンク上にあるように設置されてもよい。
キーボード、マウスなどを含む入力部1006と、陰極線管(CRT)、液晶ディスプレイー(LCD)など及びスピーカなどを含む出力部1007と、ハードディスクなどを含む記憶部1008と、LANカード、モデムなどのネットワークインタフェースカードを含む通信部1009とがI/Oインタフェース1005に接続されている。通信部1009は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ1010も必要に応じてI/Oインタフェース1005に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体1011は、必要に応じてドライブ1010上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部1008にインストールする。
なお、図10に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記図10の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPUとCPUは分離設置するかまたはGPUをCPUに統合するようにしてよく、通信部は分離設置するか、またはCPUやGPUに統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本開示の保護範囲に属する。
特に、本開示の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本開示の実施例により提供される方法のステップを対応して実行する対応のコマンドを含み、例えば、証明文書画像に対してキーポイント検出を行って証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得し、そのうち、複数のキーポイントが証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含み、複数のキーポイントの情報に基づいて証明文書のテキスト認識結果を決定する。このような実施例では、該コンピュータプログラムは通信部1009によってネットワークからダウンロード及びインストールされ、及び/又はリムーバブル媒体1011からインストールされ得る。中央処理ユニット(CPU)1001によって該コンピュータプログラムを実行する時に、本開示の方法で限定された上記機能を実行する。
本開示の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本開示の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本開示の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本開示は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本開示の方法を実現するための機械可読コマンドを含む。従って、本開示は本開示の方法を実行するためのプログラムが記憶された記録媒体も含む。
本開示の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本開示を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本開示の原理及び実際応用をより明瞭に説明するため、かつ当業者が本開示を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。

Claims (15)

  1. 証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するステップであって、前記複数のキーポイントが前記証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含むステップと、
    前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の初期予測位置を決定するステップと、
    前記複数のテキスト行の初期予測位置に異常があるか否かを決定するステップと、
    前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、
    前記第1テキスト領域における第1テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得るステップと、
    前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置を修正して、前記第1テキスト行の目標予測位置を得るステップと、
    前記第1テキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第1文字型に対応する少なくとも1つの目標テキスト領域を認識して、前記証明文書のテキスト認識結果を取得するステップ
    を含む証明文書認識方法。
  2. 前記証明文書は、前記第1文字型と異なる第2文字型に対応するテキスト行を少なくとも1つ含み、且つ前記第1テキスト領域のテキスト内容と同様である第2テキスト領域を更に含み、前記第1文字型は漢字であり、前記第2文字型は少数民族文字である、請求項1に記載の方法。
  3. 前記複数のテキスト行の初期予測位置に異常があるか否かを決定する前記ステップは、
    前記複数のテキスト行の中で、対応する初期予測行高さが第1の所定の行高さより大きいテキスト行が存在することに応答して、前記複数のテキスト行の初期予測位置に異常があると決定するステップを含む請求項に記載の方法。
  4. 前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得る前記ステップは、
    前記第1テキスト領域に含まれる複数のテキスト行の第1予測平均行高さと前記第1テキスト行の初期予測行高さに基づいて、前記複数のテキスト行における前記第1テキスト行以外の少なくとも1つの第2テキスト行の第2予測平均行高さを決定するステップと、
    前記第2予測平均行高さに基づいて前記第1テキスト行の初期予測行高さを修正するステップ
    を含む請求項に記載の方法。
  5. 前記第2予測平均行高さに基づいて前記第1テキスト行の初期予測行高さを修正する前記ステップは、
    前記第2予測平均行高さが第1所定数値を超えたことに応答して、前記第1テキスト行の高さを第2所定数値に修正するステップ、及び/又は
    前記第2予測平均行高さが前記第2所定数値以下であることに応答して、前記第1テキスト行の高さを前記第2予測平均行高さに修正するステッ
    を含む請求項に記載の方法。
  6. 前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得る前記ステップは、
    前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の修正行高さを得るステップと、
    前記第1テキスト行の修正行高さが第2所定数値以上であることに応答して、前記第1テキスト行の次のテキスト行の初期予測位置に対応する初期予測行高さを前記第1テキスト行の目標予測行高さとし、及び/又は
    前記第1テキスト行の修正行高さが第3所定数値より小さいことに応答して、前記第1テキスト行の修正行高さを前記第1テキスト行の目標予測行高さとするステップ
    を含む請求項のいずれか一項に記載の方法。
  7. 前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置を修正して、前記第1テキスト行の目標予測位置を得る前記ステップは、
    前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置に対応する予測上境界を調整して、前記第1テキスト行の目標予測上境界を得るステップを含む請求項のいずれか一項に記載の方法。
  8. 前記第1テキスト領域における初期予測行高さに異常があるテキスト行を決定する前記ステップは、
    前記第1テキスト領域における複数のテキスト行の第1予測平均行高さ及び前記第1テキスト行の少なくとも1つの隣接行の初期予測位置に対応する初期予測行高さのうちの少なくとも一つに基づいて、前記第1テキスト行の初期予測行高さに異常があるか否かを決定するステップを含む請求項のいずれか一項に記載の方法。
  9. 前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第1文字型に対応する少なくとも1つの目標テキスト領域を認識する前記ステップは、
    前記第1テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも1つの目標テキスト領域における第3テキスト領域の初期予測位置を修正して、前記第3テキスト領域の目標予測位置を得るステップと、
    前記第3テキスト領域の目標予測位置に基づいて前記第3テキスト領域のテキスト認識結果を得るステップ
    を含む請求項のいずれか一項に記載の方法。
  10. 前記第1テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも1つの目標テキスト領域における第3テキスト領域の初期予測位置を修正して、前記第3テキスト領域の目標予測位置を得る前記ステップは、
    前記第1テキスト領域に含まれる複数のテキスト行の目標予測行高さに基づいて、前記第1テキスト領域における複数のテキスト行の目標予測平均行高さを決定するステップと、
    前記目標予測平均行高さと前記第3テキスト領域に含まれる第3テキスト行の初期予測位置に対応する初期予測行高さに基づいて、前記第3テキスト行の初期予測位置を修正して、前記第3テキスト領域の最終的予測位置を得るステップ
    を含む請求項に記載の方法。
  11. 前記証明文書は身分証明文書を含み、及び/又は
    前記第1テキスト領域はアドレスフィールド情報領域を含む請求項1~10のいずれか一項に記載の方法。
  12. 証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するためのキーポイント検出ユニットであって、前記複数のキーポイントが前記証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含むキーポイント検出ユニットと、
    前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するためのテキスト認識ユニット
    を含み、
    前記テキスト認識ユニットは、
    前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定するための位置予測モジュールと、
    前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第1文字型に対応する少なくとも1つの目標テキスト領域を認識して、前記証明文書のテキスト認識結果を取得するためのテキスト認識モジュールと
    を含み、
    前記位置予測モジュールは、前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の初期予測位置を決定するステップと、前記複数のテキスト行の初期予測位置に異常があるか否かを決定するステップと、前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域に含まれる複数のテキスト行の初期予測位置を修正処理して、前記複数のテキスト行の目標予測位置を取得するステップとを行うようにさらに構成されており、
    前記位置予測モジュールは、前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、前記第1テキスト領域における第1テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得るステップと、前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置を修正して、前記第1テキスト行の目標予測位置を得るステップとを行うようにさらに構成されている、証明文書認識装置。
  13. 実行可能コマンドを記憶するためのメモリと、
    前記メモリと通信して前記実行可能コマンドを実行して請求項1~11のいずれか一項に記載の証明文書認識方法の操作を完成するためのプロセッサ
    を含む電子機器。
  14. コンピュータ読取可能コマンドを記憶するためのコンピュータ可読記憶媒体であって、前記コマンドが実行される時に請求項1~11のいずれか一項に記載の証明文書認識方法の操作を実行するコンピュータ可読記憶媒体。
  15. 求項1~11のいずれか一項に記載の証明文書認識方法を実行することをコンピュータに行わせるためのコンピュータプログラム。
JP2020543760A 2019-04-30 2019-09-26 証明文書認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体 Active JP7033208B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910362419.4 2019-04-30
CN201910362419.4A CN110321895A (zh) 2019-04-30 2019-04-30 证件识别方法和装置、电子设备、计算机可读存储介质
PCT/CN2019/108209 WO2020220575A1 (zh) 2019-04-30 2019-09-26 证件识别方法和装置、电子设备、计算机可读存储介质

Publications (2)

Publication Number Publication Date
JP2021524948A JP2021524948A (ja) 2021-09-16
JP7033208B2 true JP7033208B2 (ja) 2022-03-09

Family

ID=68113412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020543760A Active JP7033208B2 (ja) 2019-04-30 2019-09-26 証明文書認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体

Country Status (7)

Country Link
US (1) US20200372248A1 (ja)
JP (1) JP7033208B2 (ja)
KR (1) KR102435365B1 (ja)
CN (1) CN110321895A (ja)
SG (1) SG11202007758TA (ja)
TW (1) TW202042105A (ja)
WO (1) WO2020220575A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126125B (zh) * 2019-10-15 2023-08-01 平安科技(深圳)有限公司 证件中的目标文本提取方法、装置、设备及可读存储介质
CN111191652A (zh) * 2019-12-20 2020-05-22 中国建设银行股份有限公司 一种证件图像识别方法、装置、电子设备及存储介质
CN111242083B (zh) * 2020-01-21 2024-01-26 腾讯云计算(北京)有限责任公司 基于人工智能的文本处理方法、装置、设备、介质
CN117912017A (zh) * 2020-02-17 2024-04-19 支付宝(杭州)信息技术有限公司 文本识别方法、装置及电子设备
CN111639648B (zh) * 2020-05-26 2023-09-19 浙江大华技术股份有限公司 证件识别方法、装置、计算设备和存储介质
CN112232336A (zh) * 2020-09-02 2021-01-15 深圳前海微众银行股份有限公司 一种证件识别方法、装置、设备及存储介质
KR102560051B1 (ko) * 2021-01-28 2023-07-27 네이버 주식회사 고차원 다항식 회귀를 이용한 문자열 검출 방법 및 시스템
CN113313114B (zh) * 2021-06-11 2023-06-30 北京百度网讯科技有限公司 证件信息获取方法、装置、设备以及存储介质
CN113569839B (zh) * 2021-08-31 2024-02-09 重庆紫光华山智安科技有限公司 证件识别方法、系统、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018500704A (ja) 2015-10-30 2018-01-11 小米科技有限責任公司Xiaomi Inc. 領域抽出方法及び装置
JP6458239B1 (ja) 2017-08-29 2019-01-30 株式会社マーケットヴィジョン 画像認識システム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10126835B4 (de) * 2001-06-01 2004-04-29 Siemens Dematic Ag Verfahren und Vorrichtung zum automatischen Lesen von Adressen in mehr als einer Sprache
CN101751567B (zh) * 2008-12-12 2012-10-17 汉王科技股份有限公司 快速文本识别方法
US9798948B2 (en) * 2015-07-31 2017-10-24 Datalogic IP Tech, S.r.l. Optical character recognition localization tool
CN105809164B (zh) * 2016-03-11 2019-05-14 北京旷视科技有限公司 文字识别方法和装置
CN106886777B (zh) * 2017-04-11 2020-06-09 深圳怡化电脑股份有限公司 一种字符边界确定方法及装置
CN108229299B (zh) * 2017-10-31 2021-02-26 北京市商汤科技开发有限公司 证件的识别方法和装置、电子设备、计算机存储介质
CN109492643B (zh) * 2018-10-11 2023-12-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109670480B (zh) * 2018-12-29 2023-01-24 深圳市丰巢科技有限公司 图像判别方法、装置、设备及存储介质
CN109598272B (zh) * 2019-01-11 2021-08-06 北京字节跳动网络技术有限公司 字符行图像的识别方法、装置、设备及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018500704A (ja) 2015-10-30 2018-01-11 小米科技有限責任公司Xiaomi Inc. 領域抽出方法及び装置
JP6458239B1 (ja) 2017-08-29 2019-01-30 株式会社マーケットヴィジョン 画像認識システム

Also Published As

Publication number Publication date
US20200372248A1 (en) 2020-11-26
WO2020220575A1 (zh) 2020-11-05
CN110321895A (zh) 2019-10-11
TW202042105A (zh) 2020-11-16
KR102435365B1 (ko) 2022-08-23
SG11202007758TA (en) 2020-12-30
KR20200128015A (ko) 2020-11-11
JP2021524948A (ja) 2021-09-16

Similar Documents

Publication Publication Date Title
JP7033208B2 (ja) 証明文書認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体
CN112016438B (zh) 一种基于图神经网络识别证件的方法及系统
CN107798299B (zh) 票据信息识别方法、电子装置及可读存储介质
WO2021027336A1 (zh) 基于印章和签名的身份验证方法、装置和计算机设备
US10296803B2 (en) Image display apparatus, image display method, and computer program product
CN110069767B (zh) 基于电子书的排版方法、电子设备及计算机存储介质
US11341322B2 (en) Table detection in spreadsheet
US11430241B2 (en) Entry field extraction device and computer readable medium
CN108229301B (zh) 眼睑线检测方法、装置和电子设备
US20150262030A1 (en) Image processing device, image processing method, and image processing program
CN110942004A (zh) 基于神经网络模型的手写识别方法、装置及电子设备
KR20210125955A (ko) 정보 처리 방법, 정보 처리 장치, 전자 기기 및 저장 매체
WO2021190155A1 (zh) 文本行中的空格识别方法、装置、电子设备及存储介质
CN111310426A (zh) 基于ocr的表格版式恢复方法、装置及存储介质
CN113011144A (zh) 表单信息的获取方法、装置和服务器
CN113065536A (zh) 处理表格的方法、计算设备和计算机可读存储介质
CN111553251A (zh) 证件四角残缺检测方法、装置、设备及存储介质
US20160062637A1 (en) Method, apparatus and non-transitory storage medium for processing punctuation mark
CN116311300A (zh) 表格生成方法、装置、电子设备以及存储介质
US20210303842A1 (en) Information processing device and non-transitory computer readable medium
CN112183019B (zh) 电子书手写笔记的显示方法、计算设备及计算机存储介质
JP2016173710A (ja) 情報入力装置、およびプログラム
CN110751140A (zh) 字符批量识别方法、装置和计算机设备
US11727700B2 (en) Line removal from an image
JP7512798B2 (ja) 情報処理装置及びコンピュータプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200817

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220225

R150 Certificate of patent or registration of utility model

Ref document number: 7033208

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150