JP7033208B2

JP7033208B2 - 証明文書認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体

Info

Publication number: JP7033208B2
Application number: JP2020543760A
Authority: JP
Inventors: ▲鄭▼▲廸▼▲しん▼; ▲劉▼学博
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2019-04-30
Filing date: 2019-09-26
Publication date: 2022-03-09
Anticipated expiration: 2039-09-26
Also published as: US20200372248A1; WO2020220575A1; CN110321895A; TW202042105A; KR102435365B1; SG11202007758TA; KR20200128015A; JP2021524948A

Description

（関連出願の相互参照）
本願は、出願の番号が２０１９１０３６２４１９．４で、出願日が２０１９年４月３０日の中国特許出願に基づいて提出され、且つこの中国特許出願の優先権を主張し、この中国特許出願の全ての内容が参照によって本願に組み込まれる。

本開示は、コンピュータビジョン技術に関し、特に、証明文書認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体に関する。

光学式文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ：ＯＣＲ）技術は、各種の証明文書、カードや手形の認識に広く用いられている。現在のＯＣＲ認識技術は常用文字の認識に高い認識精度を有するが、少数民族文字等の特別な文字の認識精度の向上が期待されている。

本開示の実施例は、証明文書認識技術を提供する。

本開示の実施例の第１態様によれば、
証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するステップであって、前記複数のキーポイントが前記証明文書における、第１文字型に対応するテキスト行を複数含む第１テキスト領域の少なくとも２つの境界限定点を含むステップと、
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するステップと、を含む証明文書認識方法を提供する。

本開示の実施例の第２態様によれば、
証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するためのキーポイント検出ユニットであって、前記複数のキーポイントが前記証明文書における、第１文字型に対応するテキスト行を複数含む第１テキスト領域の少なくとも２つの境界限定点を含むキーポイント検出ユニットと、
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するためのテキスト認識ユニットと、を含む証明文書認識装置を提供する。

いくつかの実施例では、前記証明文書は、前記第１文字型と異なる第２文字型に対応するテキスト行を少なくとも１つ含み、且つ前記第１テキスト領域のテキスト内容と同様である第２テキスト領域を更に含む。

本開示の実施例の更にまた１つの態様によれば、上記のいずれか１つの実施例に記載の証明文書認識装置を備えるプロセッサを含む電子機器を提供する。

本開示の実施例の別の態様によれば、実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して上記のいずれか１つの実施例に記載の証明文書認識方法の操作を完成するためのプロセッサと、を含む電子機器を提供する。

本開示の実施例の更に別の態様によれば、コンピュータ読取可能コマンドを記憶するためのコンピュータ可読記憶媒体であって、前記コマンドが実行される時に上記のいずれか１つの実施例に記載の証明文書認識方法の操作を実行するコンピュータ可読記憶媒体を提供する。

本開示の実施例のまた１つの態様によれば、コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが上記のいずれか１つの実施例に記載の証明文書認識方法を実現するためのコマンドを実行するコンピュータプログラムを提供する。

本開示の実施例の更にまた１つの態様によれば、コンピュータ可読コマンドを記憶するためのコンピュータプログラム製品であって、前記コマンドが実行される時にコンピュータが上記のいずれか１つの可能な実施形態に記載の顔認識方法又は顔認識ネットワークの訓練方法の操作を実行する別のコンピュータプログラム製品を提供する。

選択可能な一実施形態では、前記コンピュータプログラム製品は、具体的には、コンピュータ記憶媒体であり、別の選択可能な実施形態では、前記コンピュータプログラム製品は、具体的には、例えば、ＳＤＫ等のソフトウェア製品である。

本開示の実施例によれば、更に、別の証明文書認識方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム製品を提供し、ここで、証明文書画像に対してキーポイント検出を行って前記証明文書画像の複数のキーポイントの情報を取得し、そのうち、前記複数のキーポイントが前記証明文書における、第１文字型に対応するテキスト行を複数含む第１テキスト領域の少なくとも２つの境界限定点を含み、前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定する。

本開示の上記実施例で提供された証明文書認識方法及び装置、電子機器並びにコンピュータ可読記憶媒体によれば、証明文書画像に対してキーポイント検出を行って証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得し、そのうち、前記複数のキーポイントが前記証明文書における、第１文字型に対応するテキスト行を複数含む第１テキスト領域の少なくとも２つの境界限定点を含み、前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するようになっており、第１テキスト領域の少なくとも２つの境界限定点を増加することで、第１テキスト領域における複数行のテキストのテキスト位置の認識正確率の向上に寄与し、他の文字型が第１文字型のテキスト認識に及ぼす悪影響を低減し、証明文書における第１文字型内容の認識正確率を高くした。
例えば、本願は以下の項目を提供する。
（項目１）
証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するステップであって、前記複数のキーポイントが前記証明文書における、第１文字型に対応するテキスト行を複数含む第１テキスト領域の少なくとも２つの境界限定点を含むステップと、
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するステップと、を含む証明文書認識方法。
（項目２）
前記証明文書は、前記第１文字型と異なる第２文字型に対応するテキスト行を少なくとも１つ含み、且つ前記第１テキスト領域のテキスト内容と同様である第２テキスト領域を更に含む項目１に記載の方法。
（項目３）
前記第１文字型は漢字であり、前記第２文字型は少数民族文字である項目２に記載の方法。
（項目４）
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定する前記ステップは、
前記第１テキスト領域の少なくとも２つの境界限定点の情報に基づいて、前記第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定するステップと、
前記第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第１文字型に対応する少なくとも１つの目標テキスト領域を認識して、前記証明文書のテキスト認識結果を取得するステップと、を含む項目１～３のいずれか一項に記載の方法。
（項目５）
前記第１テキスト領域の少なくとも２つの境界限定点の情報に基づいて、前記第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定する前記ステップは、
前記第１テキスト領域の少なくとも２つの境界限定点の情報に基づいて、前記第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の初期予測位置を決定するステップと、
前記複数のテキスト行の初期予測位置に異常があるか否かを決定するステップと、
前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第１テキスト領域に含まれる複数のテキスト行の初期予測位置を修正処理して、前記複数のテキスト行の目標予測位置を取得するステップと、を含む項目４に記載の方法。
（項目６）
前記複数のテキスト行の初期予測位置に異常があるか否かを決定する前記ステップは、
前記複数のテキスト行の中で、対応する初期予測行高さが第１の所定の行高さより大きいテキスト行が存在することに応答して、前記複数のテキスト行の初期予測位置に異常があると決定するステップを含む項目５に記載の方法。
（項目７）
前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第１テキスト領域に含まれる複数のテキスト行の初期予測位置を修正処理して、前記複数のテキスト行の目標予測位置を取得する前記ステップは、
前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第１テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、
前記第１テキスト領域における第１テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第１テキスト行の初期予測行高さを修正して、前記第１テキスト行の目標予測行高さを得るステップと、
前記第１テキスト行の目標予測行高さに基づいて前記第１テキスト行の初期予測位置を修正して、前記第１テキスト行の目標予測位置を得るステップと、を含む項目５又は６に記載の方法。
（項目８）
前記第１テキスト行の初期予測行高さを修正して、前記第１テキスト行の目標予測行高さを得る前記ステップは、
前記第１テキスト領域に含まれる複数のテキスト行の第１予測平均行高さと前記第１テキスト行の初期予測行高さに基づいて、前記複数のテキスト行における前記第１テキスト行以外の少なくとも１つの第２テキスト行の第２予測平均行高さを決定するステップと、
前記第２予測平均行高さに基づいて前記第１テキスト行の初期予測行高さを修正するステップと、を含む項目７に記載の方法。
（項目９）
前記第２予測平均行高さに基づいて前記第１テキスト行の初期予測行高さを修正する前記ステップは、
前記第２予測平均行高さが第１所定数値を超えたことに応答して、前記第１テキスト行の高さを第２所定数値に修正するステップ、及び／又は
前記第２予測平均行高さが前記第２所定数値以下であることに応答して、前記第１テキスト行の高さを前記第２予測平均行高さに修正するステップを含む項目８に記載の方法。
（項目１０）
前記第１テキスト行の初期予測行高さを修正して、前記第１テキスト行の目標予測行高さを得る前記ステップは、
前記第１テキスト行の初期予測行高さを修正して、前記第１テキスト行の修正行高さを得るステップと、
前記第１テキスト行の修正行高さが第２所定数値以上であることに応答して、前記第１テキスト行の次のテキスト行の初期予測位置に対応する初期予測行高さを前記第１テキスト行の目標予測行高さとし、及び／又は
前記第１テキスト行の修正行高さが第３所定数値より小さいことに応答して、前記第１テキスト行の修正行高さを前記第１テキスト行の目標予測行高さとするステップと、を含む項目７～９のいずれか一項に記載の方法。
（項目１１）
前記第１テキスト行の目標予測行高さに基づいて前記第１テキスト行の初期予測位置を修正して、前記第１テキスト行の目標予測位置を得る前記ステップは、
前記第１テキスト行の目標予測行高さに基づいて前記第１テキスト行の初期予測位置に対応する予測上境界を調整して、前記第１テキスト行の目標予測上境界を得るステップを含む項目７～１０のいずれか一項に記載の方法。
（項目１２）
前記第１テキスト領域における初期予測行高さに異常があるテキスト行を決定する前記ステップは、
前記第１テキスト領域における複数のテキスト行の第１予測平均行高さ及び前記第１テキスト行の少なくとも１つの隣接行の初期予測位置に対応する初期予測行高さのうちの少なくとも一つに基づいて、前記第１テキスト行の初期予測行高さに異常があるか否かを決定するステップを含む項目７～１１のいずれか一項に記載の方法。
（項目１３）
前記第１テキスト領域の第１予測平均行高さ及び前記第１テキスト行の少なくとも１つの隣接行の初期予測位置に対応する初期予測行高さのうちの少なくとも一つに基づいて、前記第１テキスト行の初期予測行高さに異常があるか否かを決定する前記ステップは、
前記第１テキスト行の初期予測行高さが前記第１予測平均行高さの第１所定倍数に到達したこと、
及び／又は、
前記第１テキスト行の初期予測行高さが前記第１テキスト行の少なくとも１つの隣接行の初期予測行高さの第２所定倍数に到達したことに応答して、
前記第１テキスト行の初期予測行高さに異常があると決定するステップを含む項目１２に記載の方法。
（項目１４）
前記第１テキスト領域の少なくとも２つの境界限定点の情報及び前記第１テキスト領域の予測行数に基づいて、前記第１テキスト領域における複数のテキスト行の第１予測平均行高さを決定するステップを更に含む項目１２又は１３に記載の方法。
（項目１５）
前記第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第１文字型に対応する少なくとも１つの目標テキスト領域を認識する前記ステップは、
前記第１テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも１つの目標テキスト領域における第３テキスト領域の初期予測位置を修正して、前記第３テキスト領域の目標予測位置を得るステップと、
前記第３テキスト領域の目標予測位置に基づいて前記第３テキスト領域のテキスト認識結果を得るステップと、を含む項目４～１４のいずれか一項に記載の方法。
（項目１６）
前記第１テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも１つの目標テキスト領域における第３テキスト領域の初期予測位置を修正して、前記第３テキスト領域の目標予測位置を得る前記ステップは、
前記第１テキスト領域に含まれる複数のテキスト行の目標予測行高さに基づいて、前記第１テキスト領域における複数のテキスト行の目標予測平均行高さを決定するステップと、
前記目標予測平均行高さと前記第３テキスト領域に含まれる第３テキスト行の初期予測位置に対応する初期予測行高さに基づいて、前記第３テキスト行の初期予測位置を修正して、前記第３テキスト領域行の最終的予測位置を得るステップと、を含む項目１５に記載の方法。
（項目１７）
前記証明文書は身分証明文書を含み、及び／又は
前記第１テキスト領域はアドレスフィールド情報領域を含む項目１～１６のいずれか一項に記載の方法。
（項目１８）
証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するためのキーポイント検出ユニットであって、前記複数のキーポイントが前記証明文書における、第１文字型に対応するテキスト行を複数含む第１テキスト領域の少なくとも２つの境界限定点を含むキーポイント検出ユニットと、
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するためのテキスト認識ユニットと、を含む証明文書認識装置。
（項目１９）
前記証明文書は、前記第１文字型と異なる第２文字型に対応するテキスト行を少なくとも１つ含み、且つ前記第１テキスト領域のテキスト内容と同様である第２テキスト領域を更に含む項目１８に記載の装置。
（項目２０）
前記第１文字型は漢字であり、前記第２文字型は少数民族文字である項目１９に記載の装置。
（項目２１）
前記テキスト認識ユニットは、
前記第１テキスト領域の少なくとも２つの境界限定点の情報に基づいて、前記第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定するための位置予測モジュールと、
前記第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第１文字型に対応する少なくとも１つの目標テキスト領域を認識して、前記証明文書のテキスト認識結果を取得するためのテキスト認識モジュールと、を含む項目１９に記載の装置。
（項目２２）
前記位置予測モジュールは、前記第１テキスト領域の少なくとも２つの境界限定点の情報に基づいて、前記第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の初期予測位置を決定するステップと、前記複数のテキスト行の初期予測位置に異常があるか否かを決定するステップと、前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第１テキスト領域に含まれる複数のテキスト行の初期予測位置を修正処理して、前記複数のテキスト行の目標予測位置を取得するステップとに用いられる項目２１に記載の装置。
（項目２３）
前記位置予測モジュールは、前記複数のテキスト行の中で、対応する初期予測行高さが第１の所定の行高さより大きいテキスト行が存在することに応答して、前記複数のテキスト行の初期予測位置に異常があると決定するために用いられる項目２２に記載の装置。
（項目２４）
前記位置予測モジュールは、前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第１テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、前記第１テキスト領域における第１テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第１テキスト行の初期予測行高さを修正して、前記第１テキスト行の目標予測行高さを得るステップと、前記第１テキスト行の目標予測行高さに基づいて前記第１テキスト行の初期予測位置を修正して、前記第１テキスト行の目標予測位置を得るステップとに用いられる項目２２又は２３に記載の装置。
（項目２５）
前記位置予測モジュールは、前記第１テキスト領域に含まれる複数のテキスト行の第１予測平均行高さと前記第１テキスト行の初期予測行高さに基づいて、前記複数のテキスト行における前記第１テキスト行以外の少なくとも１つの第２テキスト行の第２予測平均行高さを決定するステップと、前記第２予測平均行高さに基づいて前記第１テキスト行の初期予測行高さを修正するステップとに用いられる項目２４に記載の装置。
（項目２６）
前記位置予測モジュールは、前記第２予測平均行高さが第１所定数値を超えたことに応答して、前記第１テキスト行の高さを第２所定数値に修正するステップ、及び／又は前記第２予測平均行高さが前記第２所定数値以下であることに応答して、前記第１テキスト行の高さを前記第２予測平均行高さに修正するステップに用いられる項目２５に記載の装置。
（項目２７）
前記位置予測モジュールは、前記第１テキスト行の初期予測行高さを修正して、前記第１テキスト行の修正行高さを得るステップと、前記第１テキスト行の修正行高さが第２所定数値以上であることに応答して、前記第１テキスト行の次のテキスト行の初期予測位置に対応する初期予測行高さを前記第１テキスト行の目標予測行高さとし、及び／又は、前記第１テキスト行の修正行高さが第３所定数値より小さいことに応答して、前記第１テキスト行の修正行高さを前記第１テキスト行の目標予測行高さとするステップとに用いられる項目２４～２６のいずれか一項に記載の装置。
（項目２８）
前記位置予測モジュールは、前記第１テキスト行の目標予測行高さに基づいて前記第１テキスト行の初期予測位置に対応する予測上境界を調整して、前記第１テキスト行の目標予測上境界を得るために用いられる項目２４～２７のいずれか一項に記載の装置。
（項目２９）
前記位置予測モジュールは、前記第１テキスト領域における複数のテキスト行の第１予測平均行高さ及び前記第１テキスト行の少なくとも１つの隣接行の初期予測位置に対応する初期予測行高さのうちの少なくとも一つに基づいて、前記第１テキスト行の初期予測行高さに異常があるか否かを決定するために用いられる項目２４～２８のいずれか一項に記載の装置。
（項目３０）
前記位置予測モジュールは、前記第１テキスト行の初期予測行高さが前記第１予測平均行高さの第１所定倍数に到達したこと、及び／又は、前記第１テキスト行の初期予測行高さが前記第１テキスト行の少なくとも１つの隣接行の初期予測行高さの第２所定倍数に到達したことに応答して、前記第１テキスト行の初期予測行高さに異常があると決定するために用いられる項目２９に記載の装置。
（項目３１）
前記位置予測モジュールは、更に、前記第１テキスト領域の少なくとも２つの境界限定点の情報及び前記第１テキスト領域の予測行数に基づいて、前記第１テキスト領域における複数のテキスト行の第１予測平均行高さを決定するために用いられる項目２９又は３０に記載の装置。
（項目３２）
前記位置予測モジュールは、前記第１テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも１つの目標テキスト領域における第３テキスト領域の初期予測位置を修正して、前記第３テキスト領域の目標予測位置を得るために用いられ、前記テキスト認識モジュールは、前記第３テキスト領域の目標予測位置に基づいて前記第３テキスト領域のテキスト認識結果を得るために用いられる項目２０～３１のいずれか一項に記載の装置。
（項目３３）
前記位置予測モジュールは、前記第１テキスト領域に含まれる複数のテキスト行の目標予測行高さに基づいて、前記第１テキスト領域における複数のテキスト行の目標予測平均行高さを決定するステップと、
前記目標予測平均行高さと前記第３テキスト領域に含まれる第３テキスト行の初期予測位置に対応する初期予測行高さに基づいて、前記第３テキスト行の初期予測位置を修正して、前記第３テキスト行の最終的予測位置を得るステップとに用いられる項目３２に記載の装置。
（項目３４）
前記証明文書は身分証明文書を含み、及び／又は
前記第１テキスト領域はアドレスフィールド情報領域を含む項目１８～３３のいずれか一項に記載の装置。
（項目３５）
実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して項目１～１７のいずれか一項に記載の証明文書認識方法の操作を完成するためのプロセッサと、を含む電子機器。
（項目３６）
コンピュータ読取可能コマンドを記憶するためのコンピュータ可読記憶媒体であって、前記コマンドが実行される時に項目１～１７のいずれか一項に記載の証明文書認識方法の操作を実行するコンピュータ可読記憶媒体。
（項目３７）
コンピュータ可読コードを含むコンピュータプログラム製品であって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが項目１～１７のいずれか一項に記載の証明文書認識方法を実現するためのコマンドを実行するコンピュータプログラム製品。

以下、図面と実施例を参照しながら本開示の技術的解決手段を更に詳細に説明する。

本開示の実施例で提供された証明文書認識技術を適用した身分証明文書の例示的図である。本開示の実施例で提供された証明文書認識方法の１つのフローチャートである。本開示の実施例で提供された証明文書認識方法のまた１つのフローチャートである。本開示の実施例で提供された証明文書認識方法のまた１つのフローチャートである。本開示の実施例で提供された証明文書認識方法の更にまた１つのフローチャートである。本開示の実施例で提供された証明文書認識方法の更に別のフローチャートである。本開示の実施例で提供された証明文書認識方法の１つの応用例の図である。本開示の実施例で提供された証明文書認識方法のまた１つの応用例の図である。本開示の実施例で提供された証明文書認識装置の構造模式図である。本開示の実施例の電子機器の例示的構造模式図である。

明細書の一部を構成する図面は、本開示の実施例を説明し、その説明と共に本開示の原理を解釈することに用いられる。

図面を参照し、以下の詳細な説明により本開示をより明瞭に理解することができる。

ここで、図面を参照しながら本開示の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本開示の範囲を限定するものではないことに注意すべきである。

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。

以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本開示及びその適用または使用へのなんらの制限にもならない。

関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。

なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

本開示の実施例は主に身分証明文書の認識に用いられるが、決まったフォーマット又は部分的に決まったフォーマットを有する他の証明文書又は手形の認識にも用いられ、本開示の実施例はそれを限定するものではない。

従来のＯＣＲ認識アルゴリズムは、例えば漢族身分証明文書のような大部分の身分証明文書に高い認識精度を有するが、例えば少数民族身分証明文書のような小部分の身分証明文書の認識に主に以下のようないくつかの重要な問題がある。

例えば、図１に示すように、モンゴル族、ウイグル族等のような一般の少数民族身分証明文書には漢字がある他に、対応する少数民族文字もある。関連技術で使用される身分証明文書認識モデルは少数民族文字を認識できないので、少数民族身分証明文書のテキスト認識において少数民族文字が文字化けすることがあり、また、少数民族文字に影響されるため、漢字認識に多くの誤りが発生する。

また、少数民族身分証明文書は、様々なフォーマットを有し、アドレスフィールドを例とすると、現在、少数民族文字と漢字とが明らかなに別々の行に区別されておらず、順に行に現れるフォーマット、図１に示すように少数民族と漢字が同一の領域に存在するが、順に行に現れることでなく、明らかに別々の行に区別されているフォーマットといった２種の一般のフォーマットがある。フォーマットの多様化は少数民族身分証明文書の認識正確率に影響を及ぼす。

上記の少なくとも１種の問題を解決するために、本開示の実施例は、キーポイントとして、漢字領域における複数のテキスト行を含む第１テキスト領域の少なくとも２つの境界限定点（例えば、左上キーポイントと右下キーポイント等の第１テキスト領域の境界を決定可能な点）を増加することで、少なくとも第１テキスト領域を含む漢字領域の位置決定精度を高くし、少数民族文字が漢字認識に及ぼす影響を低くすることができ、証明文書認識精度の向上に寄与する画像認識技術を提案する。

図１は、証明文書画像の４つの頂角キーポイント、文字フィールド名称領域（「氏名」、「性別」、「生年月日」、「住所」及び「公民身分証明文書番号」を含む）の左上キーポイントと右下キーポイント、一部の文字フィールドの文字フィールド情報領域（氏名文字フィールド情報領域、性別文字フィールド情報領域、民族文字フィールド情報領域及び身分証明文書番号文字フィールド情報領域を含む）の左上キーポイントと右下キーポイント並びにアドレスフィールド情報領域の左上キーポイントと右下キーポイントを含む、本開示の実施例中の２４個のキーポイントを例示するものであり、本開示の実施例はアドレスフィールド情報領域の左上キーポイントと右下キーポイントによって、少数民族身分証明文書中の漢字の認識正確率を高くした。

図１に示す２４個のキーポイントが例示するためのものに過ぎず、本開示の実施例で他の数量や種類のキーポイントを用いてもよいことを理解すべきであり、本開示の実施例はそれを限定するものではない。

本開示の実施例で提供された技術的解決手段は、少数民族身分証明文書の認識精度の向上に寄与するが、漢族身分証明文書の認識、又は類似的に少なくとも２種の異なる文字型を含む任意の証明文書の認識にも適用可能であることを理解すべきであり、本開示の実施例はそれを限定するものではない。

図２は本開示の実施例で提供された証明文書認識方法の１つのフローチャートである。

ステップ２１０において、証明文書画像に対してキーポイント検出を行って証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得する。

いくつかの実施例では、この証明文書認識方法は、例えば、携帯電話、タブレット、ウエアラブル機器、出入り管理装置等の端末装置を含む各種画像処理装置に利用可能である。

別の実施例では、この証明文書認識方法は、ネットワーク側のサーバに利用可能であり、端末で証明文書画像を取得し且つサーバにアップロードし、サーバでこの証明文書画像を認識して証明文書画像に対応する証明文書の、少なくともテキスト認識結果を含む証明文書情報を取得する。

例えば、ユーザが身元情報を提供して身元認証を行うことが要求される場合に、本願の実施例の証明文書認識方法を利用すれば、ユーザが身元情報を手動で入力することが不要になり、証明文書画像を簡便に取得でき、端末又はサーバが証明文書画像を認識することによって証明文書中のテキストの認識結果を取得する。

そのうち、複数のキーポイントが証明文書における、第１文字型に対応するテキスト行を複数含む第１テキスト領域の少なくとも２つの境界限定点を含む。

前記複数のキーポイントの情報は、複数のキーポイントの証明文書画像での位置情報を含む。

前記証明文書画像は証明文書から取得された画像である。前記証明文書は、身分証明文書、パスポート、在住許可証、一時滞在許可証、学位証明文書、学歴証明文書等、様々な文字型を含む各種証明文書画像を含むが、それらに限定されない。

証明文書には第１文字型と第２文字型の２種の文字を含み、そのうち、第１文字型と第２文字型のテキストは別々の行に現れ、そのうち、第１文字型のテキスト行と第２文字型のテキスト行は同じ内容を有してもよいし、異なる内容を有してもよい。

いくつかの実施例では、第１文字型は認識可能文字型又は認識しようとする目標文字型、例えば漢字等であり、第２文字型は認識不可能文字型又は認識しようとしない文字型、例えば、少数民族文字等である。例えば、身分証明文書の認識技術で、認識技術の一般性を保持して、漢族身分証明文書の認識と少数民族身分証明文書の認識に同時に適用するために、身分証明文書中の漢字を認識するが、その中の少数民族文字を認識しない。

いくつかの実施例では、前記第１文字型は漢字であってよく、前記第２文字型は他の国家又は地域で使用される言語、例えば、他の国家の使用範囲の小さい言語の文字であってよい。

本開示の実施例では、第１文字型に対応するテキスト領域は第１文字型のテキストのみを含んでもよく、又は更に第１と第２文字型以外の他の文字型、例えば数字等を含んでもよく、それに類似するように、第２文字型に対応するテキスト領域は第２文字型のテキスト及び他の文字型のテキストを含んでよく、本開示の実施例はそれを限定するものではない。

いくつかの選択可能な実施例では、証明文書は、第１文字型と異なる第２文字型に対応するテキスト行を少なくとも１つ含み、且つ第１テキスト領域と同じテキスト内容を有する第２テキスト領域を更に含む。例えば、図１に示すように、身分証明文書中のアドレスフィールド情報領域は人物の同一住所を表す漢字情報領域と少数民族文字情報領域を含む。図１に示す例におけるアドレスフィールド情報領域の漢字情報領域と少数民族文字情報領域をそれぞれ第１テキスト領域と第２テキスト領域とすれば、第２テキスト領域と第１テキスト領域が隣接するものであるか、又は少なくとも１つの空白行の間隔があるが、本開示の実施例はそれを限定するものではない。

本開示の実施例では、証明文書画像に対してキーポイント検出を行って証明文書画像に含まれる証明文書の複数のキーポイントの情報を得、そのうち、キーポイントの情報は位置情報を含み、又は更に他の情報を含み、本開示の実施例はそれを限定するものではない。

証明文書の複数のキーポイントは第１テキスト領域の少なくとも２つの境界限定点、例えば、左上キーポイントと右下キーポイント又は左下キーポイントと右上キーポイント又は４つの頂点等を含み、本開示の実施例はそれを限定するものではない。

キーポイントに第１文字型に対応する第１テキスト領域の少なくとも２つの境界限定点を含むことで、第１テキスト領域の位置を比較的精確に決定でき、第１テキスト領域の比較的正確な予測行高さを取得し、第２文字型のテキストが証明文書認識に及ぼす影響を低減し、認識精度を高くすることに寄与する。

ステップ２２０において、複数のキーポイントの情報に基づいて証明文書のテキスト認識結果を決定する。

いくつかの実施例では、複数のキーポイントの情報に基づいて第１テキスト領域に含まれるテキスト行の比較的精確な位置を決定でき、テキスト認識方法に基づいて、更に位置が決定された第１文字型のテキストを認識して第１テキスト領域のテキスト認識結果を得る。いくつかの実施例では、更に、第１テキスト領域に含まれる第１文字型のテキスト行の位置に基づいて証明文書に含まれる他のテキスト領域中の第１文字型のテキスト行の位置を決定してもよく、証明文書のテキストの認識精度の向上に寄与する。

本開示の上記実施例で提供された証明文書認識方法によれば、証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得し、そのうち、前記複数のキーポイントが前記証明文書における、第１文字型に対応するテキスト行を複数含む第１テキスト領域の少なくとも２つの境界限定点を含み、前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するようになっており、第１テキスト領域の少なくとも２つの境界限定点を増加することで、第１テキスト領域における複数行のテキストのテキスト位置の認識正確率の向上に寄与し、他の文字型が第１文字型のテキスト認識に及ぼす影響を低減し、証明文書における第１文字型内容の認識正確率を高くした。

少数民族の証明文書において、第１文字型は漢字であり、第２文字型は少数民族文字である。

文字認識技術によって少数民族文字を認識することがまだ実現されていないので、本開示の実施例は少数民族文字が漢字内容に与える干渉を取り除く必要があり、例えば、少数民族文字と漢字が順に行に現れない時に、即ち、少数民族文字フィールドと漢字フィールドの間に間隔がある時に、従来の身分証明文書処理方法によれば、テキスト領域を検出できず、誤って少数民族文字を漢字として検出認識して、誤った結果を引き起こすことが多い。

いくつかの実施例では、前記第１テキスト領域と前記第２テキスト領域は共に連通する四辺形領域、例えば、矩形領域であってよい。

図３は本開示の実施例で提供された証明文書認識方法のまた１つのフローチャートである。

ステップ３１０において、証明文書画像に対してキーポイント検出を行って証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得する。

ここで、複数のキーポイントは証明文書における、第１文字型に対応するテキスト行を複数含む第１テキスト領域の少なくとも２つの境界限定点を含む。

ステップ３２０において、第１テキスト領域の少なくとも２つの境界限定点の情報に基づいて、第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定する。

いくつかの実施例では、第１テキスト領域の少なくとも２つの境界限定点の情報に基づいて１つの矩形領域を決定でき、この矩形領域には少なくとも第１テキスト領域を含み、更に一部の第２テキスト領域を含むことも可能であり、第１テキスト領域中の第１文字型を認識するために、それぞれのテキスト行の位置を決定する必要があり、即ち本開示の実施例でそれぞれのテキスト行の目標予測位置を決定する必要があり、続いて目標予測位置で文字を認識し、それによって第１領域に含まれる第１文字型の内容を決定できる。第１テキスト領域における内容を認識する際にして、行毎に認識してよく、行毎に認識することで文字認識の正確率が高くなり、行と行が交差した原因で誤って認識することが少なくなった。

ステップ３３０において、第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、証明文書に含まれる、第１文字型に対応する少なくとも１つのテキスト領域を認識して、証明文書のテキスト認識結果を取得する。

証明文書の種類が多くあるので、証明文書には内容が認識可能なテキスト領域（第１テキスト領域を含む）を複数含んでよく、これらのテキスト領域中の文字型が全て第１文字型であり、また、証明文書が相対的に固定されたフォーマットの特別な画像となるので、複数のテキスト領域中の文字の行高さが同じであることがあり、例えば、身分証明文書中の漢字の高さが同じであり、即ち、身分証明文書画像中の漢字の行高さが同じであり、従って、第１テキスト領域に含まれるテキスト行の目標予測位置が決定された時に、第１テキスト領域に含まれるテキスト行の高さを決定でき、この行高さで他のテキスト領域中のテキスト行の高さを補正し、補正されたテキスト行の高さで他のテキスト領域におけるそれぞれのテキスト行の位置を決定し、更に他のテキスト領域中の内容を決定することができ、他のテキスト領域中の文字の認識正確率が高くなった。

図４は本開示の実施例で提供された証明文書認識方法のまた１つの実施例の一部のフローチャートである。上記実施例をもとに、ステップ３２０は以下のステップを含む。

ステップ４０２において、第１テキスト領域の少なくとも２つの境界限定点の情報に基づいて、第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の初期予測位置を決定する。

いくつかの実施例では、テキスト行の初期予測位置はテキスト行の上境界と下境界を含んでよく、上下境界の座標によってテキスト行の位置を決定でき、本開示の実施例における初期予測位置は、第１テキスト領域に含まれる行数、それぞれのテキスト行の初期行高さ、及び境界限定点の情報に基づいて決定された第１テキスト領域の上境界と下境界に基づいて決定可能であり、そのうち、行数と初期行高さはニューラルネットワークで取得可能であり、例えば、深度ニューラルネットワークで証明文書中の第１テキスト領域に含まれる行数と第１テキスト領域におけるそれぞれのテキストの初期行高さを認識する。

ステップ４０４において、複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、第１テキスト領域に含まれる複数のテキスト行の初期予測位置を修正処理して、複数のテキスト行の目標予測位置を取得する。

内容認識の正確率を向上させるために、本開示の実施例は初期予測位置を取得した後、この初期予測位置が正常か否かを判断する必要があり、初期予測位置に異常がある時に、この初期予測位置で認識すれば、誤った認識内容を引き起こすことがあり、本開示の実施例は修正処理によってテキスト行位置の正確率の向上を図っており、第１テキスト領域に複数のテキスト行を含むので、そのうちの１つ又は複数のテキスト行の初期予測位置に異常がある可能性があり、その修正過程において他のテキスト行の高さに基づいて異常のある初期予測位置を修正してもよく、他の手法に基づいて初期予測位置を修正してもよく、本開示の実施例は具体的な修正手法を限定するものではない。

複数のテキスト行の初期予測位置が得られた後、複数のテキスト行の初期予測位置に異常があるか否かを決定してよい。

具体的には、複数のテキスト行の初期位置に異常があるか否かを総合的に判断してよい。いくつかの実施例では、複数のテキスト行の中で行高さに異常があるテキスト行が存在するか否かを判断することで、複数のテキスト行の初期位置に異常があるか否かを決定する。例えば、前記複数のテキスト行の中で、対応する初期予測行高さが第１の所定の行高さより大きいテキスト行が存在することに応答して、前記複数のテキスト行の初期予測位置に異常があると決定する。もう１つの例を挙げると、前記複数のテキスト行の平均予測行高さが第２の所定の行高さより高いことに応答して、前記複数のテキスト行の初期予測位置に異常があると決定する。

いくつかの実施例では、第１の所定の行高さは大量の証明文書中のテキスト行の高さを統計することで取得されたものであってよく、例えば、第１の所定の行高さを１５画素に設定する。

本開示の実施例は第１の所定の行高さより大きいか否かを初期予測行高さが正常か否かの判断基準とする。各テキスト行の高さが全て第１の所定の行高さ以下である時に、行数と初期予測行高さの認識結果が比較的正確であることを示し、この時に、いくつかの実施例では、認識された第１テキスト領域上境界と第１テキスト領域下境界及び行数に基づいて（又は全ての行の高さの平均値を求めて）、第１平均行高さを取得し、第１平均行高さを各テキスト行の目標予測行高さとし、更に各テキスト行の目標予測位置を決定する。別の実施例では、複数のテキスト行のうちの１つ又は１つ以上のテキスト行の初期予測行高さが第１の所定の行高さより大きい時に、複数のテキスト行の初期予測行高さが誤って認識されたものであることを示し、文字認識結果の正確率を向上させるために、修正する必要がある。

いくつかの実施例では、ステップ４０４には、前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第１テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、前記第１テキスト領域における第１テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第１テキスト行の初期予測行高さを修正して前記第１テキスト行の目標予測行高さを得るステップと、前記第１テキスト行の目標予測行高さに基づいて前記第１テキスト行の初期予測位置を修正して前記第１テキスト行の目標予測位置を得るステップと、を含む。

具体的には、複数のテキスト行の初期予測位置に異常があると決定された場合に、まず複数のテキスト行のうちのどのテキスト行の初期予測位置に異常があるかを判断し、続いてこれらの初期予測位置に異常があるテキスト行の位置を修正する。一例として、複数のテキスト行のうちの第１テキスト行の初期予測位置に異常があり、例えば、初期予測行高さに異常があると検出された場合に、この第１テキスト行の予測行高さを修正して精確な目標予測位置を取得する。

いくつかの実施例では、前記第１テキスト領域に含まれる複数のテキスト行の第１予測平均行高さと前記第１テキスト行の初期予測行高さに基づいて、前記複数のテキスト行のうち前記第１テキスト行以外の少なくとも１つの第２テキスト行の第２予測平均行高さを決定し、前記第２予測平均行高さに基づいて前記第１テキスト行の初期予測行高さを修正する。

いくつかの実施例では、第１テキスト領域の境界限定点の位置情報及び予測行数に基づいて第１テキスト領域の第１予測平均行高さを得、続いて第１予測平均行高さと第１テキスト行の初期予測行高さに基づいて第１テキスト領域における残りの少なくとも１つの第２テキスト行の平均予測行高さ、即ち第２平均予測行高さを得るようにしてよく、最後に、第２平均予測行高さに基づいて第１テキスト行の初期予測行高さを修正して第１テキスト行の目標予測行高さを得てよい。

図５は本開示の実施例で提供された証明文書認識方法の更にまた１つのフローチャートである。ここで、一例として、ステップ４０４には以下ステップを含む。

ステップ５０２において、第１テキスト領域の少なくとも２つの境界限定点の情報及び第１テキスト行の少なくとも１つの隣接行の初期予測位置に基づいて、第１テキスト行の初期予測位置に対応する初期予測行高さに異常があるか否かを決定する。

ここで、隣接行は第１テキスト行の１行前のテキスト行及び／又は次のテキスト行であってよく、第１テキスト行が１行目である時に、この隣接行が次のテキスト行であり、第１テキスト行が中間行である時に、この隣接行が１行前のテキスト行と次のテキスト行であり、第１テキスト行が最後の行である時に、この隣接行が１行前の行であり、第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の高さが同じものであり、従って、第１テキスト行と隣接行の初期予測行高さの差が所定程度に到達した時に、第１テキスト行の初期予測行高さに異常があることを示す。

ステップ５０４において、第１テキスト行の初期予測行高さに異常があると決定されたことに応答して、第１テキスト行の初期予測行高さを修正して、第１テキスト行の目標予測行高さを得る。

いくつかの実施例では、第２テキスト領域中の内容が第１テキスト領域中の内容と同じなので、第２テキスト領域が一般に第１テキスト領域に隣接する。

第２テキスト領域が第１テキスト領域内の文字内容に及ぼす影響を減少するために、第２テキスト領域が第１テキスト領域の上方にある時に、一般的には、本開示の実施例の第１テキスト領域中の最後の行の位置を修正する必要がない。この時に第１テキスト行の次の行で第１テキスト行の初期予測位置を修正し、第１テキスト領域中のテキスト行は１行目から逆に数えた２行目まで修正され、また、第２テキスト領域が第１テキスト領域の下方にある時に、一般的には、本開示の実施例の第１テキスト領域中の１行目の位置を修正する必要がなく、この時に第１テキスト行の前の行で第１テキスト行の初期予測位置を修正し、第１テキスト領域中のテキスト行は最後の行から２行目まで修正される。

ステップ５０６において、第１テキスト行の目標予測行高さに基づいて第１テキスト行の初期予測位置を修正して、第１テキスト行の目標予測位置を得る。

いくつかの実施例では、第１テキスト行の目標予測行高さが決定された後、決定された第１テキスト行の上境界に基づいて下境界を決定でき、又は決定された第１テキスト行の下境界に基づいて上境界を決定でき、上境界と下境界に基づいて目標予測位置か決定可能になる。

いくつかの実施例では、第１テキスト行の目標予測行高さに基づいて第１テキスト行の初期予測上境界を調整して第１テキスト行の目標予測上境界を得る。

第１テキスト行の目標予測行高さが決定された後、第２テキスト領域が第１テキスト領域の上方に位置する場合に、誤って認識される可能性があるところが一般に上境界であると決定できる。この時に、次の行の上境界に基づいて第１テキスト行の上境界を決定してよい。いくつかの実施例では、第１テキスト行の下境界と次のテキスト行の上境界に重なったところがある可能性があり、本開示の実施例は第１テキスト行の下境界を修正して、次のテキスト行の文字が第１テキスト行に影響を及ぼすことを防止できる。例えば、第１テキスト行の下境界＝次のテキスト行の上境界－１画素（ｐｉｘｅｌ）。任意選択的に、第１テキスト行の目標予測上境界＝第１テキスト行の下境界－目標予測行高さ。

本開示の実施例は隣接行の初期予測位置によって第１テキスト行の初期予測行高さを修正し、次に修正された目標予測行高さに基づいて目標予測位置を決定し、それによって取得された第１テキスト領域に含まれる複数のテキスト行は行の高さと位置関係がより正確になって、第１テキスト領域中の内容の認識の正確率が高くなった。

図６は本開示の実施例で提供された証明文書認識方法の別のフローチャートである。ここで、一例として、ステップ５０２には以下のステップを含む。

ステップ６０２において、第１テキスト領域の少なくとも２つの境界限定点の情報及び第１テキスト領域の予測行数に基づいて、第１テキスト領域中の複数のテキスト行の第１予測平均行高さを決定する。

例えば、少なくとも２つの境界限定点は左上キーポイントと右下キーポイントを含み、第１テキスト領域の左上キーポイントに基づいて第１テキスト領域の上境界座標を決定し、右下キーポイントに基づいて第１テキスト領域の下境界座標を決定するようにしてよく、上境界座標と下境界座標の差を求めることで第１テキスト領域の高さを決定でき、ニューラルネットワークによって第１テキスト領域に含まれる予測行数を認識し、この時に、第１テキスト領域の高さを予測行数で割って、第１予測平均行高さを決定できる。

ステップ６０４において、第１テキスト領域中の複数のテキスト行の第１予測平均行高さ及び第１テキスト行の少なくとも１つの隣接行の初期予測位置に対応する初期予測行高さのうちの少なくとも一つに基づいて、第１テキスト行の初期予測行高さに異常があるか否かを決定する。例えば、第１テキスト領域の第１予測平均行高さ及び第１テキスト行の少なくとも１つの隣接行の初期予測位置に対応する初期予測行高さに基づいて、第１テキスト行の初期予測行高さに異常があるか否かを決定する。

本開示の実施例では、第１予測平均行高さは第１テキスト領域における全てのテキスト行の高さを判断することに利用可能であり、行数が正確に予測された時に、第１テキスト行の初期予測行高さと第１予測平均行高さとの間の関係に基づいて初期予測行高さに異常があるか否かを決定でき、例えば、第１テキスト行の初期予測行高さが第１予測平均行高さの所定倍数より大きい。しかしながら、認識過程で行数が誤って予測される可能性もあるので、本開示の実施例は、第１予測平均行高さに加えて、隣接行の初期予測位置を第１テキスト行の初期予測行高さに異常があるか否かの評価基礎として、初期予測行高さに異常があるか否かを判断する正確率を向上させた。

例えば、いくつかの実施例では、ステップ６０４には、第１テキスト行の初期予測行高さが第１予測平均行高さの第１所定倍数に到達したことに応答して、第１テキスト行の初期予測行高さに異常があると決定し、又は、第１テキスト行の初期予測行高さが第１テキスト行の少なくとも１つの隣接行の初期予測行高さの第２所定倍数に到達したことに応答して、第１テキスト行の初期予測行高さに異常があると決定し、又は、第１テキスト行の初期予測行高さが第１予測平均行高さの第１所定倍数に到達し且つ第１テキスト行の初期予測行高さが第１テキスト行の少なくとも１つの隣接行の初期予測行高さの第２所定倍数に到達したことに応答して、第１テキスト行の初期予測行高さに異常があると決定するステップを含む。この時に第１所定倍数と第２所定倍数は同じであってもよいし、異なっていてもよく、例えば、第１所定倍数と第２所定倍数を１．２等に設定し、本開示の実施例は第１所定倍数と第２所定倍数の具体的な値を限定するものではない。

更に例を挙げると、いくつかの実施例では、ステップ６０４には、第１テキスト行の初期予測行高さが第１予測平均行高さの第１所定倍数に到達し且つ第１テキスト行の初期予測行高さが第１テキスト行の次のテキスト行の初期予測行高さの第２所定倍数に到達したことに応答して、第１テキスト行の初期予測行高さに異常があると決定するステップを含む。

本開示の実施例では第２テキスト領域が第１テキスト領域の上方に位置しており、この時に、テキスト行が下方に位置するほど、テキスト内容に干渉を与える第２テキスト領域から離れ、即ち、下方に位置するテキスト行の初期予測行高さが比較的正確であるので、本開示の実施例は次のテキスト行の初期予測行高さに基づいて第１テキスト行の初期予測行高さに異常があるか否かを確認して、異常確認の正確率を高くした。

いくつかの実施例では、ステップ５０４には、第１予測平均行高さと第１テキスト行の初期予測行高さに基づいて複数のテキスト行のうちの第１テキスト行以外の他のテキスト行の第２予測平均行高さを決定するステップと、第２予測平均行高さに基づいて第１テキスト行の初期予測行高さを修正して、第１テキスト行の目標予測行高さを得るステップと、を含む。本開示の実施例では、第１予測平均行高さと次のテキスト行の初期予測行高さに基づいて第１テキスト行の初期予測行高さに異常があると決定されており、この時に、他のテキスト行（次のテキスト行を含む）の初期予測行高さが比較的正確であると考えられるので、他のテキスト行の初期予測行高さに基づいて平均値を求めて第２予測平均行高さを取得し、この第２予測平均行高さで第１テキスト行の初期予測行高さを修正し、それによって第１テキスト行の目標予測行高さを第１テキスト領域中の他のテキスト行の高さに更に接近させ、第１テキスト領域中の各テキスト行の目標予測行高さの正確率を高くした。

いくつかの実施例では、第２予測平均行高さが第１所定数値を超えたことに応答して、第１テキスト行の高さを第２所定数値に修正し、例えば、前記第１テキスト行の修正行高さが第２所定数値以上であることに応答して、前記第１テキスト行の次のテキスト行の初期予測位置に対応する初期予測行高さを前記第１テキスト行の目標予測行高さとする。

別の実施例では、第２予測平均行高さが第２所定数値以下であることに応答して、第１テキスト行の高さを第２予測平均行高さに修正する。

第１テキスト行の高さは、理論的には第１テキスト行の高さを除去した後他の行の高さに基づいて決定された第２予測平均行高さと等しく、第２予測平均行高さが第１所定数値より大きければ、この時に検出された第１テキスト行が真実の証明文書中の第１テキスト領域の１行ではなく、誤って認識した後２行を１行に合わせた結果であることを示し、例えば、真実の身分証明文書の第１テキスト領域に４行があるが、実際に３行が検出され、その中間行の高さがちょうど第１平均行高さに近い場合に、中間行を１行目と３行目の第２行高さ初期予測行高さに基づいて修正し、この時に第２所定数値を第１テキスト行の高さとすればよく、第２予測平均行高さが第２所定数値以下であれば、第２予測平均行高さを第１テキスト行の高さとする。

いくつかの実施例では、第１テキスト行の目標予測行高さが決定された後、第１テキスト行の下境界が変わらないように、前記第１テキスト行の目標予測行高さに基づいて前記第１テキスト行の初期予測位置に対応する予測上境界を調整して、前記第１テキスト行の目標予測上境界を得る。

いくつかの実施例では、ステップ６０４には、
第１テキスト行の初期予測行高さが第１テキスト行の１行前のテキスト行と次のテキスト行の初期予測行高さの第２所定倍数に到達したことに応答して、第１テキスト行の初期予測行高さに異常があると決定するステップと、
第１テキスト行の１行前のテキスト行と次のテキスト行の初期予測行高さに基づいて第１テキスト行の修正行高さを得るステップと、を含む。

本開示の実施例では、第１テキスト行は中間行であり、それに隣接するテキスト行は１行前のテキスト行と次のテキスト行を含み、第１テキスト行の初期予測行高さは上記実施例で提供された第１予測平均行高さと次のテキスト行の初期予測行高さによって異常があるか否かを決定できない時に、この第１テキスト行の初期予測行高さが第１予測平均行高さに近いが、次のテキスト行の初期予測行高さより大きいことが可能であり、この時に、第１テキスト行の初期予測行高さと１行前のテキスト行及び次のテキスト行の初期予測行高さの間の関係によって、２つのテキスト行が１つの第１テキスト行とされて行数が誤って認識されたか否かを確認でき、第１テキスト行の初期予測行高さが第１テキスト行の１行前のテキスト行と次のテキスト行の初期予測行高さの第２所定倍数（例えば、２倍程度等）に到達した場合に、行数が誤って認識されたと確認でき、この時に１行前のテキスト行と次のテキスト行の初期予測行高さで第１テキスト行の高さを修正し、修正の過程は、
第１テキスト行の１行前のテキスト行と次のテキスト行の初期予測行高さの平均値を求めて第３予測平均行高さを得るステップと、
第３予測平均行高さを第１テキスト行の目標予測行高さとするステップと、を含む。

目標予測行高さを取得する公式は目標予測行高さ＝（１行前のテキスト行の高さ＋次のテキスト行の高さ）／２であってよい。いくつかの実施例では、第３平均行高さと第１テキスト行の下境界に基づいて第１テキスト行の上境界を決定するステップを更に含む。即ち、第１テキスト行上境界＝第１テキスト行下境界－目標予測行高さ。

いくつかの実施例では、ステップ５０４の後、
第１テキスト行の修正行高さが第２所定数値以上であることに応答して、第１テキスト行の次のテキスト行の初期予測行高さを第１テキスト行の目標予測行高さとするステップ、及び／又は
第１テキスト行の修正行高さが第３所定数値より小さいことに応答して、第１テキスト行の修正行高さを第１テキスト行の目標予測行高さとするステップを更に含む。

上記実施例で第１テキスト行の初期予測行高さが修正された後、修正済み行高さが依然として基準的な行高さより明らかに大きいことも可能であり、例えば、本開示の実施例で提供された修正済み行高さが第２所定数値（例えば、２２画素）以上であり、この時に、第１テキスト行の高さが依然として正確ではないことを示し、第１テキスト行が１行目ではない場合に、次のテキスト行の初期予測行高さを第１テキスト行の目標予測行高さとし、修正行高さが基準的な行高さに近い場合に、例えば、本開示の実施例中の修正行高さが第３所定数値より小さく、この時に、修正行高さを第１テキスト行の目標予測行高さとする。

いくつかの実施例では、ステップ３３０には、第１テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、少なくとも１つの目標テキスト領域中の第３テキスト領域の初期予測位置を修正して、第３テキスト領域の目標予測位置を得るステップと、前記第３テキスト領域の目標予測位置に基づいて前記第３テキスト領域のテキスト認識結果を得るステップと、を含む。

本開示の実施例で第１テキスト領域におけるそれぞれのテキスト行の高さは修正された目標予測行高さであり、いくつかの実施例では、第３テキスト領域（例えば、身分証明文書画像中の氏名文字フィールド）の取得した初期予測行高さが正常ではない時に（例えば、特定の行高さより大きい又は特定の行高さとの差が所定値より大きい等の時に）、いくつかの実施例では、第１テキスト領域に含まれる複数のテキスト行の目標予測行高さに基づいて第１テキスト領域の第３予測平均行高さを決定し、第３予測平均行高さと第３テキスト領域の初期予測位置に対応する初期予測行高さに基づいて第３テキスト領域の初期予測位置を修正して、第３テキスト領域の最終的予測位置を得る。この例において、第１テキスト領域のそれぞれのテキスト行の目標予測行高さに基づいて平均値を求めて第１テキスト領域の第３予測平均行高さを取得し、この平均行高さで第３テキスト領域の行の高さを修正するようにしてよく、いくつかの実施例では、修正方法は第３テキスト領域中のテキスト行の高さをこの第３予測平均行高さに変更するようになってよい。

いくつかの実施例では、第１テキスト領域の文字検出による各行の情報を読み取り、各行の高さが正常で異常な高さがなければ、第１テキスト領域の平均行高さを記録し、第３テキスト領域中のテキスト行の高さを補正する。補正規則は、第３テキスト領域中のテキスト行の高さ－第１テキスト領域の第３予測平均行高さ＞２画素（ｐｉｘｅｌｓ）であれば、第３テキスト領域中のテキスト行の高さを第１テキスト領域の第３予測平均行高さに修正することを含んでよい。

いくつかの実施例では、証明文書は身分証明文書を含み、及び／又は、第１テキスト領域は住所領域を含む。

具体的な一応用例において、本開示の実施例で提供された証明文書認識方法は少数民族身分証明文書の認識に用いられ、図７は本開示の実施例で提供された証明文書認識方法の１つの応用例の図である。

ステップ７１０において、少数民族身分証明文書の証明文書画像に対してキーポイント検出を行って、漢字に対応するテキスト行を複数含むアドレスフィールド情報領域の左上キーポイントと右下キーポイントを含む、少数民族身分証明文書の２４個のキーポイントの情報を取得する。

ステップ７２０において、左上キーポイントと右下キーポイントによってアドレスフィールド情報領域を決定し、ニューラルネットワーク等によって認識してアドレスフィールド情報領域に含まれるテキスト行の行数と各テキスト行の高さを取得する。

ステップ７３０において、各テキスト行の高さが正常である（例えば、大規模データ統計による身分証明文書の行の高さとの差が設定値より小さい）か否かを判断し、各テキスト行の高さが全て正常であれば、ステップ７５０を実行し、逆には、ステップ７４０を実行する。

ステップ７４０において、認識されたアドレスフィールド情報領域のテキスト行の数量が３以上であり且つそのうちの１つ又は複数のテキスト行（一般に１つのテキスト行）の高さに異常がある場合に、高さに異常があるテキスト行の高さを修正して、修正されたアドレスフィールド情報領域中のテキスト行の平均行高さを取得する。いくつかの実施例では、少数民族文字が漢字の上方に位置するので、この時の修正方法は最後の行を修正せず、前のＮ－１行のみを修正し、Ｎがアドレスフィールド情報領域に含まれるテキスト行の数量を表す。

ステップ７５０において、アドレスフィールド情報領域中のテキスト行の平均行高さａｖｇ＿ｈ＿ａｄｄｒを記録し、且つ氏名文字フィールド情報領域の行の高さｈ＿ｎａｍｅを補正する。ここで、補正規則は、ｈ＿ｎａｍｅ－ａｖｇ＿ｈ＿ａｄｄｒ＞２画素（ｐｉｘｅｌｓ）であれば、氏名文字フィールド情報領域の行の高さｈ＿ｎａｍｅをアドレスフィールドの平均行高さａｖｇ＿ｈ＿ａｄｄｒに修正するようになっている。

ステップ７６０において、アドレスフィールド情報領域中のテキスト行の平均行高さに基づいてアドレスフィールド情報領域中のそれぞれのテキスト行の漢字内容を認識して少数民族身分証明文書中の住所情報を取得し、補正された氏名文字フィールド情報領域の行の高さに基づいて氏名文字フィールド情報領域中の漢字内容を認識して少数民族身分証明文書中の氏名情報を取得して、少数民族身分証明文書の認識を実現する。

図８は本開示の実施例で提供された証明文書認識方法のまた１つの応用例の図である。上記ステップ７４０で提供された行の高さの修正方法によって、少数民族身分証明文書中のアドレスフィールド情報領域の複数のテキスト行に対して上から下へ（例えば、１行目からＮ－１行目へ）順に修正操作を行い、いくつかの実施例では、修正過程は以下のステップを含む。

ステップ８０２において、アドレスフィールド情報領域の所在する矩形枠の上下境界及び行数に基づいて計算して少数民族身分証明文書中のアドレスフィールド情報領域のテキスト行の平均行高さを取得し、検出して現在行の高さ及び次の行の高さを取得する。

ステップ８０４において、現在行の高さが次の行の高さの１．２倍（設定値、場合によって設定可能）以上であり且つ平均行高さの１．２倍（設定値、場合によって設定可能）以上であるか否かを判断し、ＹＥＳの場合に、現在行の高さに異常があると決定し、ステップ８０６を実行し、ＮＯの場合に、ステップ８０８を実行する。

ステップ８０６において、認識することで現在行の下境界を決定し、現在行の下境界と次の行の上境界には重なったところがあれば、現在行の下境界を修正して、次の行の文字が現在行に影響を及ぼすことを防止する。この時に、現在行の下境界＝次の行の上境界－１ｐｉｘｅｌ。続いて、現在行の高さを修正し、現在行の高さは、理論的には現在行の高さを除去した後他の行（アドレスフィールドにおける現在行以外の全てのテキスト行）の高さの平均値ｎｅｗ＿ｈ＿ａｖｇ＿ｌｉｎｅと等しく、ｎｅｗ＿ｈ＿ａｖｇ＿ｌｉｎｅが１５ｐｉｘｅｌｓ（選択可能な値であり、大規模データ統計によって取得可能である）より大きければ、この時に検出された現在行が真実の少数民族身分証明文書のアドレスフィールドの１行ではなく、誤って検出されて２行が１行とされた結果であることを示し、この時に現在の行高さを１５ｐｉｘｅｌｓにすればよく、ｎｅｗ＿ｈ＿ａｖｇ＿ｌｉｎｅが１５ｐｉｘｅｌｓ以下であれば、ｎｅｗ＿ｈ＿ａｖｇ＿ｌｉｎｅを現在の行高さとして、現在行の修正行高さを取得し、ステップ８１０を実行する。

ステップ８０８において、現在行の高さが平均行高さに近いと検出された場合に（例えば、現在行の高さがアドレスフィールド情報領域の高さを行数で割ったものと等しい）、現在行の高さと現在行の隣接する２行の高さの差を判断し、現在行の高さが次の行の高さの１．８倍（設定値、場合によって設定可能）より大きく且つ１行前の行の高さの１．８倍より大きい場合に、現在行の上下境界を修正し、修正公式は現在行の修正行高さ＝（１行前の行の高さ＋次の行の高さ）／２であり、ステップ８１０を実行する。

このステップでは、真実の少数民族身分証明文書のアドレスフィールドに４行があるが、実際に３行が検出されたことに対応する。

ステップ８１０において、現在行の修正行高さが２２ｐｉｘｅｌｓ（選択可能な値であり、大規模データ統計によって取得可能である）より大きいか否かを判断し、ＹＥＳの場合に、ステップ８１２を実行し、ＮＯの場合に、現在行の修正行高さを現在行の目標行高さとして、ステップ８１４を実行する。

ステップ８１２において、現在行が１行目ではない場合に、次の行の高さを現在行の目標行高さとして、ステップ８１４を実行する。

ステップ８１４において、現在行の上境界を修正する。修正規則：現在行上境界＝現在行下境界－現在行の目標行高さ。

当業者であれば、上記方法の実施例の全てまたは一部のステップを実現するにはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解でき、前記プログラムは、ＲＯＭ、ＲＡＭ、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例のステップを実行する。

図９は本開示の実施例で提供された証明文書認識装置の構造模式図である。この装置は本開示の上記の各方法の実施例を実現することに利用可能である。図９に示すように、この装置は、以下を含む。

キーポイント検出ユニット９１は、証明文書画像に対してキーポイント検出を行って、証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するために用いられる。

そのうち、複数のキーポイントは証明文書における、第１文字型に対応するテキスト行を複数含む第１テキスト領域の少なくとも２つの境界限定点を含む。

テキスト認識ユニット９２は、複数のキーポイントの情報に基づいて証明文書のテキスト認識結果を決定するために用いられる。

本開示の上記実施例で提供された証明文書認識装置によれば、前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定し、第１テキスト領域の少なくとも２つの境界限定点を増加することで、第１テキスト領域における複数行のテキストのテキスト位置の認識正確率の向上に寄与し、他の文字型が第１文字型のテキスト認識に及ぼす影響を低減し、証明文書における第１文字型内容の認識正確率を高くした。

いくつかの実施例では、証明文書は、第１文字型と異なる第２文字型に対応するテキスト行を少なくとも１つ含み、且つ第１テキスト領域のテキスト内容と同様である第２テキスト領域を更に含む。

いくつかの実施例では、第１文字型は漢字であり、第２文字型は少数民族文字である。

１つ又は複数の実施例では、テキスト認識ユニット９２は、
前記第１テキスト領域の少なくとも２つの境界限定点の情報に基づいて、前記第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定するための位置予測モジュールと、
前記第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第１文字型に対応する少なくとも１つの目標テキスト領域を認識して、前記証明文書のテキスト認識結果を取得するためのテキスト認識モジュールと、を含む。

いくつかの実施例では、前記位置予測モジュールは、前記第１テキスト領域の少なくとも２つの境界限定点の情報に基づいて、前記第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の初期予測位置を決定するステップと、前記複数のテキスト行の初期予測位置に異常があるか否かを決定するステップと、前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第１テキスト領域に含まれる複数のテキスト行の初期予測位置を修正処理して、前記複数のテキスト行の目標予測位置を取得するステップとに用いられる。

いくつかの実施例では、前記位置予測モジュールは、
前記複数のテキスト行の中で、対応する初期予測行高さが第１の所定の行高さより大きいテキスト行が存在することに応答して、前記複数のテキスト行の初期予測位置に異常があると決定するための位置予測モジュールを含む。

いくつかの実施例では、前記位置予測モジュールは、
前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第１テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、前記第１テキスト領域における第１テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第１テキスト行の初期予測行高さを修正して、前記第１テキスト行の目標予測行高さを得るステップと、前記第１テキスト行の目標予測行高さに基づいて前記第１テキスト行の初期予測位置を修正して、前記第１テキスト行の目標予測位置を得るステップとに用いられる位置予測モジュールを含む。

いくつかの実施例では、前記位置予測モジュールは、前記第１テキスト領域に含まれる複数のテキスト行の第１予測平均行高さと前記第１テキスト行の初期予測行高さに基づいて、前記複数のテキスト行における前記第１テキスト行以外の少なくとも１つの第２テキスト行の第２予測平均行高さを決定するステップと、前記第２予測平均行高さに基づいて前記第１テキスト行の初期予測行高さを修正するステップとに用いられる。

いくつかの実施例では、前記位置予測モジュールは、前記第２予測平均行高さが第１所定数値を超えたことに応答して、前記第１テキスト行の高さを第２所定数値に修正するステップ、及び／又は前記第２予測平均行高さが前記第２所定数値以下であることに応答して、前記第１テキスト行の高さを前記第２予測平均行高さに修正するステップに用いられる。

いくつかの実施例では、前記位置予測モジュールは、前記第１テキスト行の初期予測行高さを修正して、前記第１テキスト行の修正行高さを得るステップと、前記第１テキスト行の修正行高さが第２所定数値以上であることに応答して、前記第１テキスト行の次のテキスト行の初期予測位置に対応する初期予測行高さを前記第１テキスト行の目標予測行高さとし、及び／又は前記第１テキスト行の修正行高さが第３所定数値より小さいことに応答して、前記第１テキスト行の修正行高さを前記第１テキスト行の目標予測行高さとするステップとに用いられる。

いくつかの実施例では、前記位置予測モジュールは、前記第１テキスト行の目標予測行高さに基づいて前記第１テキスト行の初期予測位置に対応する予測上境界を調整して、前記第１テキスト行の目標予測上境界を得るために用いられる。

いくつかの実施例では、前記位置予測モジュールは、前記第１テキスト領域における複数のテキスト行の第１予測平均行高さ及び前記第１テキスト行の少なくとも１つの隣接行の初期予測位置に対応する初期予測行高さのうちの少なくとも一つに基づいて、前記第１テキスト行の初期予測行高さに異常があるか否かを決定するために用いられる。

いくつかの実施例では、前記位置予測モジュールは、前記第１テキスト行の初期予測行高さが前記第１予測平均行高さの第１所定倍数に到達したこと、
及び／又は、
前記第１テキスト行の初期予測行高さが前記第１テキスト行の少なくとも１つの隣接行の初期予測行高さの第２所定倍数に到達したことに応答して、
前記第１テキスト行の初期予測行高さに異常があると決定するために用いられる。

いくつかの実施例では、前記位置予測モジュールは、更に、前記第１テキスト領域の少なくとも２つの境界限定点の情報及び前記第１テキスト領域の予測行数に基づいて、前記第１テキスト領域における複数のテキスト行の第１予測平均行高さを決定するために用いられる。

いくつかの実施例では、前記テキスト認識モジュールは、前記第１テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも１つの目標テキスト領域における第３テキスト領域の初期予測位置を修正して、前記第３テキスト領域の目標予測位置を得るステップと、前記第３テキスト領域の目標予測位置に基づいて前記第３テキスト領域のテキスト認識結果を得るステップとに用いられる。

いくつかの実施例では、前記テキスト認識モジュールは、前記第１テキスト領域に含まれる複数のテキスト行の目標予測行高さに基づいて、前記第１テキスト領域における複数のテキスト行の目標予測平均行高さを決定するステップと、
前記目標予測平均行高さと前記第３テキスト領域に含まれる第３テキスト行の初期予測位置に対応する初期予測行高さに基づいて、前記第３テキスト行の初期予測位置を修正して、前記第３テキスト行の最終的予測位置を得るステップとに用いられる。

いくつかの実施例では、前記証明文書は身分証明文書を含み、及び／又は
前記第１テキスト領域はアドレスフィールド情報領域を含む。

本開示の実施例の別の態様によれば、本開示の上記のいずれか１つの実施例の証明文書認識装置を備えるプロセッサを含む電子機器を提供する。

本開示の実施例の別の態様によれば、実行可能コマンドを記憶するためのメモリと、
メモリと通信して実行可能コマンドを実行して本開示で提供された証明文書認識方法の上記のいずれか１つの実施例を完成するためのプロセッサと、を含む電子機器を提供する。

本開示の実施例の別の態様によれば、コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、コマンドがプロセッサにより実行される時に、このプロセッサが本開示で提供された証明文書認識方法の上記のいずれか１つの実施例を実行するコンピュータ記憶媒体を提供する。

本開示の実施例の別の態様によれば、コンピュータ可読コードを含むコンピュータプログラムであって、コンピュータ可読コードが機器上で作動する時に、機器におけるプロセッサが本開示で提供された証明文書認識方法を実行するコンピュータプログラムを提供する。

本開示の実施例の更に別の態様によれば、コンピュータ可読コマンドを記憶するためのコンピュータプログラム製品であって、前記コマンドが実行される時にコンピュータが上記のいずれか１つの可能な実施形態に記載の証明文書認識方法を実行するコンピュータプログラム製品を提供する。

１つ又は複数の選択可能な実施形態では、本開示の実施例は、コンピュータ可読コマンドを記憶するためのコンピュータプログラム製品であって、前記コマンドが実行される時にコンピュータが上記のいずれか１つの実施例に記載の証明文書認識方法を実行するコンピュータプログラム製品を更に提供する。

該コンピュータプログラム製品は具体的にはハードウェア、ソフトウェア又はそれらの組合せにより実現可能である。選択可能な一例において、前記コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として実現され、別の選択可能な一例において、前記コンピュータプログラム製品は具体的には、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などのソフトウェア製品として実現される。

本開示の実施例によれば、証明文書画像に対してキーポイント検出を行って証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するステップであって、複数のキーポイントが証明文書における、第１文字型に対応するテキスト行を複数含む第１テキスト領域の少なくとも２つの境界限定点を含むステップと、複数のキーポイントの情報に基づいて証明文書のテキスト認識結果を決定するステップと、を含む別の証明文書認識方法及びそれに対応する装置、電子機器、コンピュータ記憶媒体、コンピュータプログラム並びにコンピュータプログラム製品を更に提供する。

いくつかの実施例では、この証明文書認識指示は具体的には呼び出しコマンドであってもよく、第１の装置は呼び出すことで第２の装置に証明文書認識を実行させるように指示してもよく、それに対して、呼び出しコマンドを受信したことに応答して、第２の装置は上記証明文書認識方法中の任意の実施例中のステップ及び／又は流れを実行することができる。

本開示の実施例における「第１の」、「第２の」などの用語は区別するためのものに過ぎず、本開示の実施例に対する限定と理解してはならないことを理解すべきである。

更に、本開示では、「複数の」は２つ又は２つ以上を指してよく、「少なくとも１つの」は１つ、２つ又は２つ以上を指してよいことを理解すべきである。

更に、本開示で言及された任意の部材、データ又は構造は、明確に限定され又は明細書の前後で反対的に示唆された場合でなければ、一般的には１つ又は複数と理解してよいことを理解すべきである。

更に、本開示ではそれぞれの実施例についての説明はそれぞれの実施例の相違点を重点として強調し、その同一又は類似的な点について相互に参照してよく、簡単化するために、ここで一つずつに繰り返して説明しないことを理解すべきである。

本開示の実施例は、例えば、携帯端末、パーソナルコンピュータ（ＰＣ）、タブレット型コンピュータ、サーバなどであってよい電子機器を更に提供する。以下、本開示の実施例の端末装置又はサーバを実現するのに適する電子機器１０００の構造模式図を示す図１０を参照し、図１０に示すように、電子機器１０００は１つ又は複数のプロセッサ、通信部などを含み、前記１つ又は複数のプロセッサは、例えば、１つ又は複数の中央処理ユニット（ＣＰＵ）１００１、及び／又は１つ又は複数の画像プロセッサ（ＧＰＵ）１０１３などであり、プロセッサは、読み取り専用メモリ（ＲＯＭ）１００２に記憶された実行可能コマンド又は記憶部１００８からランダムアクセスメモリ（ＲＡＭ）１００３にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信パート１０１２はネットワークカードを含むが、それに限定されなく、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含むが、それに限定されない。

プロセッサは読み取り専用メモリ１００２及び／又はランダムアクセスメモリ１００３と通信して実行可能コマンドを実行し、通信バス１００４を介して通信パート１０１２に接続され、通信パート１０１２を介して他のターゲットデバイスと通信してよく、それにより本開示の実施例で提供されるいずれか一項の方法に対応する操作を完成し、例えば、証明文書画像に対してキーポイント検出を行って証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得し、そのうち、複数のキーポイントが証明文書における、第１文字型に対応するテキスト行を複数含む第１テキスト領域の少なくとも２つの境界限定点を含み、複数のキーポイントの情報に基づいて証明文書のテキスト認識結果を決定する。

また、ＲＡＭ１００３には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。ＣＰＵ１００１、ＲＯＭ１００２及びＲＡＭ１００３は、通信バス１００４を介して相互に接続される。ＲＡＭ１００３を有する場合に、ＲＯＭ１００２は選択可能なモジュールである。ＲＡＭ１００３は実行可能コマンドを格納するか、または動作時に実行可能コマンドをＲＯＭ１００２に書き込み、実行可能コマンドによってプロセッサ１００１に上記通信方法に対応する操作を実行させる。入力／出力（Ｉ／Ｏ）インタフェース１００５も通信バス１００４に接続される。通信パート１０１２は、統合的に設置されてもよく、複数のサブモジュール（例えば複数のＩＢネットワークカード）を有し、通信バスのリンク上にあるように設置されてもよい。

キーボード、マウスなどを含む入力部１００６と、陰極線管（ＣＲＴ）、液晶ディスプレイー（ＬＣＤ）など及びスピーカなどを含む出力部１００７と、ハードディスクなどを含む記憶部１００８と、ＬＡＮカード、モデムなどのネットワークインタフェースカードを含む通信部１００９とがＩ／Ｏインタフェース１００５に接続されている。通信部１００９は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ１０１０も必要に応じてＩ／Ｏインタフェース１００５に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体１０１１は、必要に応じてドライブ１０１０上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部１００８にインストールする。

なお、図１０に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記図１０の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばＧＰＵとＣＰＵは分離設置するかまたはＧＰＵをＣＰＵに統合するようにしてよく、通信部は分離設置するか、またはＣＰＵやＧＰＵに統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本開示の保護範囲に属する。

特に、本開示の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本開示の実施例により提供される方法のステップを対応して実行する対応のコマンドを含み、例えば、証明文書画像に対してキーポイント検出を行って証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得し、そのうち、複数のキーポイントが証明文書における、第１文字型に対応するテキスト行を複数含む第１テキスト領域の少なくとも２つの境界限定点を含み、複数のキーポイントの情報に基づいて証明文書のテキスト認識結果を決定する。このような実施例では、該コンピュータプログラムは通信部１００９によってネットワークからダウンロード及びインストールされ、及び／又はリムーバブル媒体１０１１からインストールされ得る。中央処理ユニット（ＣＰＵ）１００１によって該コンピュータプログラムを実行する時に、本開示の方法で限定された上記機能を実行する。

本開示の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本開示の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本開示の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本開示は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本開示の方法を実現するための機械可読コマンドを含む。従って、本開示は本開示の方法を実行するためのプログラムが記憶された記録媒体も含む。

本開示の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本開示を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本開示の原理及び実際応用をより明瞭に説明するため、かつ当業者が本開示を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。

Claims

証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するステップであって、前記複数のキーポイントが前記証明文書における、第１文字型に対応するテキスト行を複数含む第１テキスト領域の少なくとも２つの境界限定点を含むステップと、
前記第１テキスト領域の少なくとも２つの境界限定点の情報に基づいて、前記第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の初期予測位置を決定するステップと、
前記複数のテキスト行の初期予測位置に異常があるか否かを決定するステップと、
前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第１テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、
前記第１テキスト領域における第１テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第１テキスト行の初期予測行高さを修正して、前記第１テキスト行の目標予測行高さを得るステップと、
前記第１テキスト行の目標予測行高さに基づいて前記第１テキスト行の初期予測位置を修正して、前記第１テキスト行の目標予測位置を得るステップと、
前記第１テキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第１文字型に対応する少なくとも１つの目標テキスト領域を認識して、前記証明文書のテキスト認識結果を取得するステップと
を含む証明文書認識方法。
前記証明文書は、前記第１文字型と異なる第２文字型に対応するテキスト行を少なくとも１つ含み、且つ前記第１テキスト領域のテキスト内容と同様である第２テキスト領域を更に含み、前記第１文字型は漢字であり、前記第２文字型は少数民族文字である、請求項１に記載の方法。
前記複数のテキスト行の初期予測位置に異常があるか否かを決定する前記ステップは、
前記複数のテキスト行の中で、対応する初期予測行高さが第１の所定の行高さより大きいテキスト行が存在することに応答して、前記複数のテキスト行の初期予測位置に異常があると決定するステップを含む、請求項１に記載の方法。
前記第１テキスト行の初期予測行高さを修正して、前記第１テキスト行の目標予測行高さを得る前記ステップは、
前記第１テキスト領域に含まれる複数のテキスト行の第１予測平均行高さと前記第１テキスト行の初期予測行高さに基づいて、前記複数のテキスト行における前記第１テキスト行以外の少なくとも１つの第２テキスト行の第２予測平均行高さを決定するステップと、
前記第２予測平均行高さに基づいて前記第１テキスト行の初期予測行高さを修正するステップと
を含む請求項１に記載の方法。
前記第２予測平均行高さに基づいて前記第１テキスト行の初期予測行高さを修正する前記ステップは、
前記第２予測平均行高さが第１所定数値を超えたことに応答して、前記第１テキスト行の高さを第２所定数値に修正するステップ、及び／又は
前記第２予測平均行高さが前記第２所定数値以下であることに応答して、前記第１テキスト行の高さを前記第２予測平均行高さに修正するステップ
を含む、請求項４に記載の方法。
前記第１テキスト行の初期予測行高さを修正して、前記第１テキスト行の目標予測行高さを得る前記ステップは、
前記第１テキスト行の初期予測行高さを修正して、前記第１テキスト行の修正行高さを得るステップと、
前記第１テキスト行の修正行高さが第２所定数値以上であることに応答して、前記第１テキスト行の次のテキスト行の初期予測位置に対応する初期予測行高さを前記第１テキスト行の目標予測行高さとし、及び／又は
前記第１テキスト行の修正行高さが第３所定数値より小さいことに応答して、前記第１テキスト行の修正行高さを前記第１テキスト行の目標予測行高さとするステップと
を含む、請求項１～５のいずれか一項に記載の方法。
前記第１テキスト行の目標予測行高さに基づいて前記第１テキスト行の初期予測位置を修正して、前記第１テキスト行の目標予測位置を得る前記ステップは、
前記第１テキスト行の目標予測行高さに基づいて前記第１テキスト行の初期予測位置に対応する予測上境界を調整して、前記第１テキスト行の目標予測上境界を得るステップを含む、請求項１～６のいずれか一項に記載の方法。
前記第１テキスト領域における初期予測行高さに異常があるテキスト行を決定する前記ステップは、
前記第１テキスト領域における複数のテキスト行の第１予測平均行高さ及び前記第１テキスト行の少なくとも１つの隣接行の初期予測位置に対応する初期予測行高さのうちの少なくとも一つに基づいて、前記第１テキスト行の初期予測行高さに異常があるか否かを決定するステップを含む、請求項１～７のいずれか一項に記載の方法。
前記第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第１文字型に対応する少なくとも１つの目標テキスト領域を認識する前記ステップは、
前記第１テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも１つの目標テキスト領域における第３テキスト領域の初期予測位置を修正して、前記第３テキスト領域の目標予測位置を得るステップと、
前記第３テキスト領域の目標予測位置に基づいて前記第３テキスト領域のテキスト認識結果を得るステップと
を含む請求項１～８のいずれか一項に記載の方法。
前記第１テキスト領域に含まれる複数のテキスト行の目標予測位置に対応する目標予測行高さに基づいて、前記少なくとも１つの目標テキスト領域における第３テキスト領域の初期予測位置を修正して、前記第３テキスト領域の目標予測位置を得る前記ステップは、
前記第１テキスト領域に含まれる複数のテキスト行の目標予測行高さに基づいて、前記第１テキスト領域における複数のテキスト行の目標予測平均行高さを決定するステップと、
前記目標予測平均行高さと前記第３テキスト領域に含まれる第３テキスト行の初期予測位置に対応する初期予測行高さに基づいて、前記第３テキスト行の初期予測位置を修正して、前記第３テキスト領域の最終的予測位置を得るステップと
を含む、請求項９に記載の方法。
前記証明文書は身分証明文書を含み、及び／又は
前記第１テキスト領域はアドレスフィールド情報領域を含む請求項１～１０のいずれか一項に記載の方法。
証明文書画像に対してキーポイント検出を行って前記証明文書画像に含まれる証明文書の複数のキーポイントの情報を取得するためのキーポイント検出ユニットであって、前記複数のキーポイントが前記証明文書における、第１文字型に対応するテキスト行を複数含む第１テキスト領域の少なくとも２つの境界限定点を含むキーポイント検出ユニットと、
前記複数のキーポイントの情報に基づいて前記証明文書のテキスト認識結果を決定するためのテキスト認識ユニットと
を含み、
前記テキスト認識ユニットは、
前記第１テキスト領域の少なくとも２つの境界限定点の情報に基づいて、前記第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置を決定するための位置予測モジュールと、
前記第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の目標予測位置に基づいて、前記証明文書に含まれる、前記第１文字型に対応する少なくとも１つの目標テキスト領域を認識して、前記証明文書のテキスト認識結果を取得するためのテキスト認識モジュールと
を含み、
前記位置予測モジュールは、前記第１テキスト領域の少なくとも２つの境界限定点の情報に基づいて、前記第１テキスト領域に含まれる複数のテキスト行のうちのそれぞれのテキスト行の初期予測位置を決定するステップと、前記複数のテキスト行の初期予測位置に異常があるか否かを決定するステップと、前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第１テキスト領域に含まれる複数のテキスト行の初期予測位置を修正処理して、前記複数のテキスト行の目標予測位置を取得するステップとを行うようにさらに構成されており、
前記位置予測モジュールは、前記複数のテキスト行の初期予測位置に異常があると決定されたことに応答して、前記第１テキスト領域における初期予測行高さに異常があるテキスト行を決定するステップと、前記第１テキスト領域における第１テキスト行の初期予測行高さに異常があると決定されたことに応答して、前記第１テキスト行の初期予測行高さを修正して、前記第１テキスト行の目標予測行高さを得るステップと、前記第１テキスト行の目標予測行高さに基づいて前記第１テキスト行の初期予測位置を修正して、前記第１テキスト行の目標予測位置を得るステップとを行うようにさらに構成されている、証明文書認識装置。
実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して前記実行可能コマンドを実行して請求項１～１１のいずれか一項に記載の証明文書認識方法の操作を完成するためのプロセッサと
を含む電子機器。
コンピュータ読取可能コマンドを記憶するためのコンピュータ可読記憶媒体であって、前記コマンドが実行される時に請求項１～１１のいずれか一項に記載の証明文書認識方法の操作を実行する、コンピュータ可読記憶媒体。
請求項１～１１のいずれか一項に記載の証明文書認識方法を実行することをコンピュータに行わせるためのコンピュータプログラム。