JP7033208B2 - 証明文書認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体 - Google Patents
証明文書認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体 Download PDFInfo
- Publication number
- JP7033208B2 JP7033208B2 JP2020543760A JP2020543760A JP7033208B2 JP 7033208 B2 JP7033208 B2 JP 7033208B2 JP 2020543760 A JP2020543760 A JP 2020543760A JP 2020543760 A JP2020543760 A JP 2020543760A JP 7033208 B2 JP7033208 B2 JP 7033208B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- line
- height
- predicted
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/12—Detection or correction of errors, e.g. by rescanning the pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1448—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1452—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on positionally close symbols, e.g. amount sign or URL-specific characters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Character Input (AREA)
Description
本願は、出願の番号が201910362419.4で、出願日が2019年4月30日の中国特許出願に基づいて提出され、且つこの中国特許出願の優先権を主張し、この中国特許出願の全ての内容が参照によって本願に組み込まれる。
証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するステップであって、前記複数のキーポイントが前記証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含むステップと、
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するステップと、を含む証明文書認識方法を提供する。
証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するためのキーポイント検出ユニットであって、前記複数のキーポイントが前記証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含むキーポイント検出ユニットと、
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するためのテキスト認識ユニットと、を含む証明文書認識装置を提供する。
前記メモリと通信して前記実行可能コマンドを実行して上記のいずれか1つの実施例に記載の証明文書認識方法の操作を完成するためのプロセッサと、を含む電子機器を提供する。
例えば、本願は以下の項目を提供する。
(項目1)
証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するステップであって、前記複数のキーポイントが前記証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含むステップと、
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するステップと、を含む証明文書認識方法。
(項目2)
前記証明文書は、前記第1文字型と異なる第2文字型に対応するテキスト行を少なくとも1つ含み、且つ前記第1テキスト領域のテキスト内容と同様である第2テキスト領域を更に含む項目1に記載の方法。
(項目3)
前記第1文字型は漢字であり、前記第2文字型は少数民族文字である項目2に記載の方法。
(項目4)
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定する前記ステップは、
前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定するステップと、
前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第1文字型に対応する少なくとも1つの目標テキスト領域を認識して、前記証明文書のテキスト認識結果を取得するステップと、を含む項目1~3のいずれか一項に記載の方法。
(項目5)
前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定する前記ステップは、
前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の初期予測位置を決定するステップと、
前記複数のテキスト行の初期予測位置に異常があるか否かを決定するステップと、
前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域に含まれる複数のテキスト行の初期予測位置を修正処理して、前記複数のテキスト行の目標予測位置を取得するステップと、を含む項目4に記載の方法。
(項目6)
前記複数のテキスト行の初期予測位置に異常があるか否かを決定する前記ステップは、
前記複数のテキスト行の中で、対応する初期予測行高さが第1の所定の行高さより大きいテキスト行が存在することに応答して、前記複数のテキスト行の初期予測位置に異常があると決定するステップを含む項目5に記載の方法。
(項目7)
前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域に含まれる複数のテキスト行の初期予測位置を修正処理して、前記複数のテキスト行の目標予測位置を取得する前記ステップは、
前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、
前記第1テキスト領域における第1テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得るステップと、
前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置を修正して、前記第1テキスト行の目標予測位置を得るステップと、を含む項目5又は6に記載の方法。
(項目8)
前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得る前記ステップは、
前記第1テキスト領域に含まれる複数のテキスト行の第1予測平均行高さと前記第1テキスト行の初期予測行高さに基づいて、前記複数のテキスト行における前記第1テキスト行以外の少なくとも1つの第2テキスト行の第2予測平均行高さを決定するステップと、
前記第2予測平均行高さに基づいて前記第1テキスト行の初期予測行高さを修正するステップと、を含む項目7に記載の方法。
(項目9)
前記第2予測平均行高さに基づいて前記第1テキスト行の初期予測行高さを修正する前記ステップは、
前記第2予測平均行高さが第1所定数値を超えたことに応答して、前記第1テキスト行の高さを第2所定数値に修正するステップ、及び/又は
前記第2予測平均行高さが前記第2所定数値以下であることに応答して、前記第1テキスト行の高さを前記第2予測平均行高さに修正するステップを含む項目8に記載の方法。
(項目10)
前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得る前記ステップは、
前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の修正行高さを得るステップと、
前記第1テキスト行の修正行高さが第2所定数値以上であることに応答して、前記第1テキスト行の次のテキスト行の初期予測位置に対応する初期予測行高さを前記第1テキスト行の目標予測行高さとし、及び/又は
前記第1テキスト行の修正行高さが第3所定数値より小さいことに応答して、前記第1テキスト行の修正行高さを前記第1テキスト行の目標予測行高さとするステップと、を含む項目7~9のいずれか一項に記載の方法。
(項目11)
前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置を修正して、前記第1テキスト行の目標予測位置を得る前記ステップは、
前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置に対応する予測上境界を調整して、前記第1テキスト行の目標予測上境界を得るステップを含む項目7~10のいずれか一項に記載の方法。
(項目12)
前記第1テキスト領域における初期予測行高さに異常があるテキスト行を決定する前記ステップは、
前記第1テキスト領域における複数のテキスト行の第1予測平均行高さ及び前記第1テキスト行の少なくとも1つの隣接行の初期予測位置に対応する初期予測行高さのうちの少なくとも一つに基づいて、前記第1テキスト行の初期予測行高さに異常があるか否かを決定するステップを含む項目7~11のいずれか一項に記載の方法。
(項目13)
前記第1テキスト領域の第1予測平均行高さ及び前記第1テキスト行の少なくとも1つの隣接行の初期予測位置に対応する初期予測行高さのうちの少なくとも一つに基づいて、前記第1テキスト行の初期予測行高さに異常があるか否かを決定する前記ステップは、
前記第1テキスト行の初期予測行高さが前記第1予測平均行高さの第1所定倍数に到達したこと、
及び/又は、
前記第1テキスト行の初期予測行高さが前記第1テキスト行の少なくとも1つの隣接行の初期予測行高さの第2所定倍数に到達したことに応答して、
前記第1テキスト行の初期予測行高さに異常があると決定するステップを含む項目12に記載の方法。
(項目14)
前記第1テキスト領域の少なくとも2つの境界限定点の情報及び前記第1テキスト領域の予測行数に基づいて、前記第1テキスト領域における複数のテキスト行の第1予測平均行高さを決定するステップを更に含む項目12又は13に記載の方法。
(項目15)
前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第1文字型に対応する少なくとも1つの目標テキスト領域を認識する前記ステップは、
前記第1テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも1つの目標テキスト領域における第3テキスト領域の初期予測位置を修正して、前記第3テキスト領域の目標予測位置を得るステップと、
前記第3テキスト領域の目標予測位置に基づいて前記第3テキスト領域のテキスト認識結果を得るステップと、を含む項目4~14のいずれか一項に記載の方法。
(項目16)
前記第1テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも1つの目標テキスト領域における第3テキスト領域の初期予測位置を修正して、前記第3テキスト領域の目標予測位置を得る前記ステップは、
前記第1テキスト領域に含まれる複数のテキスト行の目標予測行高さに基づいて、前記第1テキスト領域における複数のテキスト行の目標予測平均行高さを決定するステップと、
前記目標予測平均行高さと前記第3テキスト領域に含まれる第3テキスト行の初期予測位置に対応する初期予測行高さに基づいて、前記第3テキスト行の初期予測位置を修正して、前記第3テキスト領域行の最終的予測位置を得るステップと、を含む項目15に記載の方法。
(項目17)
前記証明文書は身分証明文書を含み、及び/又は
前記第1テキスト領域はアドレスフィールド情報領域を含む項目1~16のいずれか一項に記載の方法。
(項目18)
証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するためのキーポイント検出ユニットであって、前記複数のキーポイントが前記証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含むキーポイント検出ユニットと、
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するためのテキスト認識ユニットと、を含む証明文書認識装置。
(項目19)
前記証明文書は、前記第1文字型と異なる第2文字型に対応するテキスト行を少なくとも1つ含み、且つ前記第1テキスト領域のテキスト内容と同様である第2テキスト領域を更に含む項目18に記載の装置。
(項目20)
前記第1文字型は漢字であり、前記第2文字型は少数民族文字である項目19に記載の装置。
(項目21)
前記テキスト認識ユニットは、
前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定するための位置予測モジュールと、
前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第1文字型に対応する少なくとも1つの目標テキスト領域を認識して、前記証明文書のテキスト認識結果を取得するためのテキスト認識モジュールと、を含む項目19に記載の装置。
(項目22)
前記位置予測モジュールは、前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の初期予測位置を決定するステップと、前記複数のテキスト行の初期予測位置に異常があるか否かを決定するステップと、前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域に含まれる複数のテキスト行の初期予測位置を修正処理して、前記複数のテキスト行の目標予測位置を取得するステップとに用いられる項目21に記載の装置。
(項目23)
前記位置予測モジュールは、前記複数のテキスト行の中で、対応する初期予測行高さが第1の所定の行高さより大きいテキスト行が存在することに応答して、前記複数のテキスト行の初期予測位置に異常があると決定するために用いられる項目22に記載の装置。
(項目24)
前記位置予測モジュールは、前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、前記第1テキスト領域における第1テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得るステップと、前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置を修正して、前記第1テキスト行の目標予測位置を得るステップとに用いられる項目22又は23に記載の装置。
(項目25)
前記位置予測モジュールは、前記第1テキスト領域に含まれる複数のテキスト行の第1予測平均行高さと前記第1テキスト行の初期予測行高さに基づいて、前記複数のテキスト行における前記第1テキスト行以外の少なくとも1つの第2テキスト行の第2予測平均行高さを決定するステップと、前記第2予測平均行高さに基づいて前記第1テキスト行の初期予測行高さを修正するステップとに用いられる項目24に記載の装置。
(項目26)
前記位置予測モジュールは、前記第2予測平均行高さが第1所定数値を超えたことに応答して、前記第1テキスト行の高さを第2所定数値に修正するステップ、及び/又は前記第2予測平均行高さが前記第2所定数値以下であることに応答して、前記第1テキスト行の高さを前記第2予測平均行高さに修正するステップに用いられる項目25に記載の装置。
(項目27)
前記位置予測モジュールは、前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の修正行高さを得るステップと、前記第1テキスト行の修正行高さが第2所定数値以上であることに応答して、前記第1テキスト行の次のテキスト行の初期予測位置に対応する初期予測行高さを前記第1テキスト行の目標予測行高さとし、及び/又は、前記第1テキスト行の修正行高さが第3所定数値より小さいことに応答して、前記第1テキスト行の修正行高さを前記第1テキスト行の目標予測行高さとするステップとに用いられる項目24~26のいずれか一項に記載の装置。
(項目28)
前記位置予測モジュールは、前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置に対応する予測上境界を調整して、前記第1テキスト行の目標予測上境界を得るために用いられる項目24~27のいずれか一項に記載の装置。
(項目29)
前記位置予測モジュールは、前記第1テキスト領域における複数のテキスト行の第1予測平均行高さ及び前記第1テキスト行の少なくとも1つの隣接行の初期予測位置に対応する初期予測行高さのうちの少なくとも一つに基づいて、前記第1テキスト行の初期予測行高さに異常があるか否かを決定するために用いられる項目24~28のいずれか一項に記載の装置。
(項目30)
前記位置予測モジュールは、前記第1テキスト行の初期予測行高さが前記第1予測平均行高さの第1所定倍数に到達したこと、及び/又は、前記第1テキスト行の初期予測行高さが前記第1テキスト行の少なくとも1つの隣接行の初期予測行高さの第2所定倍数に到達したことに応答して、前記第1テキスト行の初期予測行高さに異常があると決定するために用いられる項目29に記載の装置。
(項目31)
前記位置予測モジュールは、更に、前記第1テキスト領域の少なくとも2つの境界限定点の情報及び前記第1テキスト領域の予測行数に基づいて、前記第1テキスト領域における複数のテキスト行の第1予測平均行高さを決定するために用いられる項目29又は30に記載の装置。
(項目32)
前記位置予測モジュールは、前記第1テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも1つの目標テキスト領域における第3テキスト領域の初期予測位置を修正して、前記第3テキスト領域の目標予測位置を得るために用いられ、前記テキスト認識モジュールは、前記第3テキスト領域の目標予測位置に基づいて前記第3テキスト領域のテキスト認識結果を得るために用いられる項目20~31のいずれか一項に記載の装置。
(項目33)
前記位置予測モジュールは、前記第1テキスト領域に含まれる複数のテキスト行の目標予測行高さに基づいて、前記第1テキスト領域における複数のテキスト行の目標予測平均行高さを決定するステップと、
前記目標予測平均行高さと前記第3テキスト領域に含まれる第3テキスト行の初期予測位置に対応する初期予測行高さに基づいて、前記第3テキスト行の初期予測位置を修正して、前記第3テキスト行の最終的予測位置を得るステップとに用いられる項目32に記載の装置。
(項目34)
前記証明文書は身分証明文書を含み、及び/又は
前記第1テキスト領域はアドレスフィールド情報領域を含む項目18~33のいずれか一項に記載の装置。
(項目35)
実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して項目1~17のいずれか一項に記載の証明文書認識方法の操作を完成するためのプロセッサと、を含む電子機器。
(項目36)
コンピュータ読取可能コマンドを記憶するためのコンピュータ可読記憶媒体であって、前記コマンドが実行される時に項目1~17のいずれか一項に記載の証明文書認識方法の操作を実行するコンピュータ可読記憶媒体。
(項目37)
コンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが項目1~17のいずれか一項に記載の証明文書認識方法を実現するためのコマンドを実行するコンピュータプログラム製品。
第1テキスト行の初期予測行高さが第1テキスト行の1行前のテキスト行と次のテキスト行の初期予測行高さの第2所定倍数に到達したことに応答して、第1テキスト行の初期予測行高さに異常があると決定するステップと、
第1テキスト行の1行前のテキスト行と次のテキスト行の初期予測行高さに基づいて第1テキスト行の修正行高さを得るステップと、を含む。
第1テキスト行の1行前のテキスト行と次のテキスト行の初期予測行高さの平均値を求めて第3予測平均行高さを得るステップと、
第3予測平均行高さを第1テキスト行の目標予測行高さとするステップと、を含む。
第1テキスト行の修正行高さが第2所定数値以上であることに応答して、第1テキスト行の次のテキスト行の初期予測行高さを第1テキスト行の目標予測行高さとするステップ、及び/又は
第1テキスト行の修正行高さが第3所定数値より小さいことに応答して、第1テキスト行の修正行高さを第1テキスト行の目標予測行高さとするステップを更に含む。
前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定するための位置予測モジュールと、
前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第1文字型に対応する少なくとも1つの目標テキスト領域を認識して、前記証明文書のテキスト認識結果を取得するためのテキスト認識モジュールと、を含む。
前記複数のテキスト行の中で、対応する初期予測行高さが第1の所定の行高さより大きいテキスト行が存在することに応答して、前記複数のテキスト行の初期予測位置に異常があると決定するための位置予測モジュールを含む。
前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、前記第1テキスト領域における第1テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得るステップと、前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置を修正して、前記第1テキスト行の目標予測位置を得るステップとに用いられる位置予測モジュールを含む。
及び/又は、
前記第1テキスト行の初期予測行高さが前記第1テキスト行の少なくとも1つの隣接行の初期予測行高さの第2所定倍数に到達したことに応答して、
前記第1テキスト行の初期予測行高さに異常があると決定するために用いられる。
前記目標予測平均行高さと前記第3テキスト領域に含まれる第3テキスト行の初期予測位置に対応する初期予測行高さに基づいて、前記第3テキスト行の初期予測位置を修正して、前記第3テキスト行の最終的予測位置を得るステップとに用いられる。
前記第1テキスト領域はアドレスフィールド情報領域を含む。
メモリと通信して実行可能コマンドを実行して本開示で提供された証明文書認識方法の上記のいずれか1つの実施例を完成するためのプロセッサと、を含む電子機器を提供する。
Claims (15)
- 証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するステップであって、前記複数のキーポイントが前記証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含むステップと、
前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の初期予測位置を決定するステップと、
前記複数のテキスト行の初期予測位置に異常があるか否かを決定するステップと、
前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、
前記第1テキスト領域における第1テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得るステップと、
前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置を修正して、前記第1テキスト行の目標予測位置を得るステップと、
前記第1テキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第1文字型に対応する少なくとも1つの目標テキスト領域を認識して、前記証明文書のテキスト認識結果を取得するステップと
を含む証明文書認識方法。 - 前記証明文書は、前記第1文字型と異なる第2文字型に対応するテキスト行を少なくとも1つ含み、且つ前記第1テキスト領域のテキスト内容と同様である第2テキスト領域を更に含み、前記第1文字型は漢字であり、前記第2文字型は少数民族文字である、請求項1に記載の方法。
- 前記複数のテキスト行の初期予測位置に異常があるか否かを決定する前記ステップは、
前記複数のテキスト行の中で、対応する初期予測行高さが第1の所定の行高さより大きいテキスト行が存在することに応答して、前記複数のテキスト行の初期予測位置に異常があると決定するステップを含む、請求項1に記載の方法。 - 前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得る前記ステップは、
前記第1テキスト領域に含まれる複数のテキスト行の第1予測平均行高さと前記第1テキスト行の初期予測行高さに基づいて、前記複数のテキスト行における前記第1テキスト行以外の少なくとも1つの第2テキスト行の第2予測平均行高さを決定するステップと、
前記第2予測平均行高さに基づいて前記第1テキスト行の初期予測行高さを修正するステップと
を含む請求項1に記載の方法。 - 前記第2予測平均行高さに基づいて前記第1テキスト行の初期予測行高さを修正する前記ステップは、
前記第2予測平均行高さが第1所定数値を超えたことに応答して、前記第1テキスト行の高さを第2所定数値に修正するステップ、及び/又は
前記第2予測平均行高さが前記第2所定数値以下であることに応答して、前記第1テキスト行の高さを前記第2予測平均行高さに修正するステップ
を含む、請求項4に記載の方法。 - 前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得る前記ステップは、
前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の修正行高さを得るステップと、
前記第1テキスト行の修正行高さが第2所定数値以上であることに応答して、前記第1テキスト行の次のテキスト行の初期予測位置に対応する初期予測行高さを前記第1テキスト行の目標予測行高さとし、及び/又は
前記第1テキスト行の修正行高さが第3所定数値より小さいことに応答して、前記第1テキスト行の修正行高さを前記第1テキスト行の目標予測行高さとするステップと
を含む、請求項1~5のいずれか一項に記載の方法。 - 前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置を修正して、前記第1テキスト行の目標予測位置を得る前記ステップは、
前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置に対応する予測上境界を調整して、前記第1テキスト行の目標予測上境界を得るステップを含む、請求項1~6のいずれか一項に記載の方法。 - 前記第1テキスト領域における初期予測行高さに異常があるテキスト行を決定する前記ステップは、
前記第1テキスト領域における複数のテキスト行の第1予測平均行高さ及び前記第1テキスト行の少なくとも1つの隣接行の初期予測位置に対応する初期予測行高さのうちの少なくとも一つに基づいて、前記第1テキスト行の初期予測行高さに異常があるか否かを決定するステップを含む、請求項1~7のいずれか一項に記載の方法。 - 前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第1文字型に対応する少なくとも1つの目標テキスト領域を認識する前記ステップは、
前記第1テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも1つの目標テキスト領域における第3テキスト領域の初期予測位置を修正して、前記第3テキスト領域の目標予測位置を得るステップと、
前記第3テキスト領域の目標予測位置に基づいて前記第3テキスト領域のテキスト認識結果を得るステップと
を含む請求項1~8のいずれか一項に記載の方法。 - 前記第1テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも1つの目標テキスト領域における第3テキスト領域の初期予測位置を修正して、前記第3テキスト領域の目標予測位置を得る前記ステップは、
前記第1テキスト領域に含まれる複数のテキスト行の目標予測行高さに基づいて、前記第1テキスト領域における複数のテキスト行の目標予測平均行高さを決定するステップと、
前記目標予測平均行高さと前記第3テキスト領域に含まれる第3テキスト行の初期予測位置に対応する初期予測行高さに基づいて、前記第3テキスト行の初期予測位置を修正して、前記第3テキスト領域の最終的予測位置を得るステップと
を含む、請求項9に記載の方法。 - 前記証明文書は身分証明文書を含み、及び/又は
前記第1テキスト領域はアドレスフィールド情報領域を含む請求項1~10のいずれか一項に記載の方法。 - 証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するためのキーポイント検出ユニットであって、前記複数のキーポイントが前記証明文書における、第1文字型に対応するテキスト行を複数含む第1テキスト領域の少なくとも2つの境界限定点を含むキーポイント検出ユニットと、
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するためのテキスト認識ユニットと
を含み、
前記テキスト認識ユニットは、
前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定するための位置予測モジュールと、
前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第1文字型に対応する少なくとも1つの目標テキスト領域を認識して、前記証明文書のテキスト認識結果を取得するためのテキスト認識モジュールと
を含み、
前記位置予測モジュールは、前記第1テキスト領域の少なくとも2つの境界限定点の情報に基づいて、前記第1テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の初期予測位置を決定するステップと、前記複数のテキスト行の初期予測位置に異常があるか否かを決定するステップと、前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域に含まれる複数のテキスト行の初期予測位置を修正処理して、前記複数のテキスト行の目標予測位置を取得するステップとを行うようにさらに構成されており、
前記位置予測モジュールは、前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第1テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、前記第1テキスト領域における第1テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第1テキスト行の初期予測行高さを修正して、前記第1テキスト行の目標予測行高さを得るステップと、前記第1テキスト行の目標予測行高さに基づいて前記第1テキスト行の初期予測位置を修正して、前記第1テキスト行の目標予測位置を得るステップとを行うようにさらに構成されている、証明文書認識装置。 - 実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して請求項1~11のいずれか一項に記載の証明文書認識方法の操作を完成するためのプロセッサと
を含む電子機器。 - コンピュータ読取可能コマンドを記憶するためのコンピュータ可読記憶媒体であって、前記コマンドが実行される時に請求項1~11のいずれか一項に記載の証明文書認識方法の操作を実行する、コンピュータ可読記憶媒体。
- 請求項1~11のいずれか一項に記載の証明文書認識方法を実行することをコンピュータに行わせるためのコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910362419.4 | 2019-04-30 | ||
CN201910362419.4A CN110321895A (zh) | 2019-04-30 | 2019-04-30 | 证件识别方法和装置、电子设备、计算机可读存储介质 |
PCT/CN2019/108209 WO2020220575A1 (zh) | 2019-04-30 | 2019-09-26 | 证件识别方法和装置、电子设备、计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021524948A JP2021524948A (ja) | 2021-09-16 |
JP7033208B2 true JP7033208B2 (ja) | 2022-03-09 |
Family
ID=68113412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020543760A Active JP7033208B2 (ja) | 2019-04-30 | 2019-09-26 | 証明文書認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20200372248A1 (ja) |
JP (1) | JP7033208B2 (ja) |
KR (1) | KR102435365B1 (ja) |
CN (1) | CN110321895A (ja) |
SG (1) | SG11202007758TA (ja) |
TW (1) | TW202042105A (ja) |
WO (1) | WO2020220575A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126125B (zh) * | 2019-10-15 | 2023-08-01 | 平安科技(深圳)有限公司 | 证件中的目标文本提取方法、装置、设备及可读存储介质 |
CN111191652A (zh) * | 2019-12-20 | 2020-05-22 | 中国建设银行股份有限公司 | 一种证件图像识别方法、装置、电子设备及存储介质 |
CN111242083B (zh) * | 2020-01-21 | 2024-01-26 | 腾讯云计算(北京)有限责任公司 | 基于人工智能的文本处理方法、装置、设备、介质 |
CN117912017A (zh) * | 2020-02-17 | 2024-04-19 | 支付宝(杭州)信息技术有限公司 | 文本识别方法、装置及电子设备 |
CN111639648B (zh) * | 2020-05-26 | 2023-09-19 | 浙江大华技术股份有限公司 | 证件识别方法、装置、计算设备和存储介质 |
CN112232336A (zh) * | 2020-09-02 | 2021-01-15 | 深圳前海微众银行股份有限公司 | 一种证件识别方法、装置、设备及存储介质 |
KR102560051B1 (ko) * | 2021-01-28 | 2023-07-27 | 네이버 주식회사 | 고차원 다항식 회귀를 이용한 문자열 검출 방법 및 시스템 |
CN113313114B (zh) * | 2021-06-11 | 2023-06-30 | 北京百度网讯科技有限公司 | 证件信息获取方法、装置、设备以及存储介质 |
CN113569839B (zh) * | 2021-08-31 | 2024-02-09 | 重庆紫光华山智安科技有限公司 | 证件识别方法、系统、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018500704A (ja) | 2015-10-30 | 2018-01-11 | 小米科技有限責任公司Xiaomi Inc. | 領域抽出方法及び装置 |
JP6458239B1 (ja) | 2017-08-29 | 2019-01-30 | 株式会社マーケットヴィジョン | 画像認識システム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10126835B4 (de) * | 2001-06-01 | 2004-04-29 | Siemens Dematic Ag | Verfahren und Vorrichtung zum automatischen Lesen von Adressen in mehr als einer Sprache |
CN101751567B (zh) * | 2008-12-12 | 2012-10-17 | 汉王科技股份有限公司 | 快速文本识别方法 |
US9798948B2 (en) * | 2015-07-31 | 2017-10-24 | Datalogic IP Tech, S.r.l. | Optical character recognition localization tool |
CN105809164B (zh) * | 2016-03-11 | 2019-05-14 | 北京旷视科技有限公司 | 文字识别方法和装置 |
CN106886777B (zh) * | 2017-04-11 | 2020-06-09 | 深圳怡化电脑股份有限公司 | 一种字符边界确定方法及装置 |
CN108229299B (zh) * | 2017-10-31 | 2021-02-26 | 北京市商汤科技开发有限公司 | 证件的识别方法和装置、电子设备、计算机存储介质 |
CN109492643B (zh) * | 2018-10-11 | 2023-12-19 | 平安科技(深圳)有限公司 | 基于ocr的证件识别方法、装置、计算机设备及存储介质 |
CN109670480B (zh) * | 2018-12-29 | 2023-01-24 | 深圳市丰巢科技有限公司 | 图像判别方法、装置、设备及存储介质 |
CN109598272B (zh) * | 2019-01-11 | 2021-08-06 | 北京字节跳动网络技术有限公司 | 字符行图像的识别方法、装置、设备及介质 |
-
2019
- 2019-04-30 CN CN201910362419.4A patent/CN110321895A/zh active Pending
- 2019-09-26 JP JP2020543760A patent/JP7033208B2/ja active Active
- 2019-09-26 SG SG11202007758TA patent/SG11202007758TA/en unknown
- 2019-09-26 KR KR1020207025083A patent/KR102435365B1/ko active IP Right Grant
- 2019-09-26 WO PCT/CN2019/108209 patent/WO2020220575A1/zh active Application Filing
- 2019-12-25 TW TW108147690A patent/TW202042105A/zh unknown
-
2020
- 2020-08-12 US US16/991,533 patent/US20200372248A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018500704A (ja) | 2015-10-30 | 2018-01-11 | 小米科技有限責任公司Xiaomi Inc. | 領域抽出方法及び装置 |
JP6458239B1 (ja) | 2017-08-29 | 2019-01-30 | 株式会社マーケットヴィジョン | 画像認識システム |
Also Published As
Publication number | Publication date |
---|---|
US20200372248A1 (en) | 2020-11-26 |
WO2020220575A1 (zh) | 2020-11-05 |
CN110321895A (zh) | 2019-10-11 |
TW202042105A (zh) | 2020-11-16 |
KR102435365B1 (ko) | 2022-08-23 |
SG11202007758TA (en) | 2020-12-30 |
KR20200128015A (ko) | 2020-11-11 |
JP2021524948A (ja) | 2021-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7033208B2 (ja) | 証明文書認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体 | |
CN112016438B (zh) | 一种基于图神经网络识别证件的方法及系统 | |
CN107798299B (zh) | 票据信息识别方法、电子装置及可读存储介质 | |
WO2021027336A1 (zh) | 基于印章和签名的身份验证方法、装置和计算机设备 | |
US10296803B2 (en) | Image display apparatus, image display method, and computer program product | |
CN110069767B (zh) | 基于电子书的排版方法、电子设备及计算机存储介质 | |
US11341322B2 (en) | Table detection in spreadsheet | |
US11430241B2 (en) | Entry field extraction device and computer readable medium | |
CN108229301B (zh) | 眼睑线检测方法、装置和电子设备 | |
US20150262030A1 (en) | Image processing device, image processing method, and image processing program | |
CN110942004A (zh) | 基于神经网络模型的手写识别方法、装置及电子设备 | |
KR20210125955A (ko) | 정보 처리 방법, 정보 처리 장치, 전자 기기 및 저장 매체 | |
WO2021190155A1 (zh) | 文本行中的空格识别方法、装置、电子设备及存储介质 | |
CN111310426A (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
CN113011144A (zh) | 表单信息的获取方法、装置和服务器 | |
CN113065536A (zh) | 处理表格的方法、计算设备和计算机可读存储介质 | |
CN111553251A (zh) | 证件四角残缺检测方法、装置、设备及存储介质 | |
US20160062637A1 (en) | Method, apparatus and non-transitory storage medium for processing punctuation mark | |
CN116311300A (zh) | 表格生成方法、装置、电子设备以及存储介质 | |
US20210303842A1 (en) | Information processing device and non-transitory computer readable medium | |
CN112183019B (zh) | 电子书手写笔记的显示方法、计算设备及计算机存储介质 | |
JP2016173710A (ja) | 情報入力装置、およびプログラム | |
CN110751140A (zh) | 字符批量识别方法、装置和计算机设备 | |
US11727700B2 (en) | Line removal from an image | |
JP7512798B2 (ja) | 情報処理装置及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200817 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200817 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7033208 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |