JP2022177232A

JP2022177232A - 画像処理方法、テキスト認識方法及び装置

Info

Publication number: JP2022177232A
Application number: JP2022152161A
Authority: JP
Inventors: リウ，ジントゥオ; Jingtuo Liu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-25
Filing date: 2022-09-26
Publication date: 2022-11-30
Anticipated expiration: 2042-09-26
Also published as: US20220415072A1; CN114550177A; JP7425147B2; KR20220125712A; CN114550177B

Abstract

【課題】画像処理の信頼性を向上させるための画像処理方法、テキスト認識方法及び装置を提供する。【解決手段】方法は、取得されたサンプル画像を前処理し、サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック及びテキストコンテンツを取得し、フィールドにそれぞれ対応する位置情報、画像ブロック及びテキストコンテンツに従って、フィールドの位置情報に対してマスク予測を行い、予測結果を取得し、予測結果に従って訓練してテキスト認識モデルを取得する。テキスト認識モデルは、認識対象の画像に対してテキスト認識を行うためのものであり、サンプル画像の複数の次元のコンテンツを融合して「事前訓練」をすることで、「事前訓練」が高い全面性及び信頼性を有する。また、予測結果に基づいてテキスト認識モデルを生成するとき、テキスト認識モデルは高い正確性を有する。【選択図】図２

Description

本開示は、人工知能技術の分野に関し、具体的には、深層学習、コンピュータビジョン技術の分野に関し、光学式文字認識（ＯＣＲ、ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）などのシーンに適用でき、特に、画像処理方法、テキスト認識方法及び装置に関する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）技術の発展につれ、ネットワークモデルが各分野で広く使用されるようになっている。例えば、テキスト認識モデルを訓練して、テキスト認識モデルに基づいて画像内の文字を認識することにより、テキストコンテンツを得るなどが挙げられる。

関連技術において、通常、ラベル付けされたサンプル画像を使用して基本ネットワークモデルを訓練することにより、基本ネットワークモデルがサンプル画像内のテキストコンテンツを認識する能力を学習し、テキスト認識モデルが得られる。

しかしながら、上記方法を使用する場合、テキスト認識モデルの信頼性が低いという技術的問題がある。

本開示は、画像処理の信頼性を向上させるための画像処理方法、テキスト認識方法及び装置を提供する。

第１の態様によれば、本開示は、画像処理方法を提供し、前記方法は、
取得されたサンプル画像を前処理し、前記サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るステップと、
前記フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、前記フィールドの位置情報に対してマスク予測を行い、予測結果を得るステップと、
前記予測結果に従って訓練してテキスト認識モデルを得るステップであって、前記テキスト認識モデルが認識対象の画像に対してテキスト認識を行うためのものであるステップと、を含む。

第２の態様によれば、本開示は、テキスト認識方法を提供し、前記方法は、
認識対象の画像を取得するステップと、
予め訓練されたテキスト認識モデルに基づいて前記認識対象の画像に対してテキスト認識を行い、前記認識対象の画像のテキストコンテンツを得るステップと、を含み、
前記テキスト認識モデルが第１の態様に記載の方法に基づいて得られたものである。

第３の態様によれば、本開示は、画像処理装置を提供し、前記装置は、
取得されたサンプル画像を前処理し、前記サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るための第１の処理ユニットと、
前記フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、前記フィールドの位置情報に対してマスク予測を行い、予測結果を得るための予測ユニットと、
前記予測結果に従って訓練してテキスト認識モデルを得るための訓練ユニットであって、前記テキスト認識モデルが認識対象の画像に対してテキスト認識を行うためのものである訓練ユニットと、を含む。

第４の態様によれば、本開示は、テキスト認識装置を提供し、前記装置は、
認識対象の画像を取得するための取得ユニットと、
予め訓練されたテキスト認識モデルに基づいて前記認識対象の画像に対してテキスト認識を行い、前記認識対象の画像のテキストコンテンツを得るための認識ユニットと、を含み、
前記テキスト認識モデルが第１の態様に記載の方法に基づいて訓練されたものである。

第５の態様によれば、本開示は、電子機器を提供し、前記電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサが第１の態様又は第２の態様に記載の方法を実行できる。

第６の態様によれば、本開示は、コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令がコンピュータに第１の態様又は第２の態様による方法を実行させるためのものである。

第７の態様によれば、本開示は、コンピュータプログラム提供し、前記コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも１つのプロセッサは前記可読記憶媒体から前記コンピュータプログラムを読み取ることができ、前記少なくとも１つのプロセッサが前記コンピュータプログラムを実行すると、電子機器が第１の態様又は第２の態様に記載の方法を実行する。

本開示において、フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを組み合わせて、フィールドの位置情報に対してマスク予測を行い、「事前訓練」を完了させ、「事前訓練」の予測結果に基づいて訓練してテキスト認識モデルを得る解決策によれば、サンプル画像の複数の次元のコンテンツを融合して「事前訓練」をするため、「事前訓練」を高い全面性及び信頼性を有するものにすることができ、それにより、予測結果に基づいてテキスト認識モデル（すなわち、「微調整」を完了させる）を生成するとき、テキスト認識モデルを高い正確性及び信頼性を有するものにすることができ、さらに、テキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の正確性を向上させることができる。

なお、この部分に記載されている内容は、本開示の実施例の主要な又は重要な特徴を特定することを意図しておらず、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の明細書を通じて容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本願を限定するものではない。
本開示の実施例の画像処理方法及びテキスト認識方法を実現できるシーン図である。本開示の第１の実施例による概略図である。本開示の第２の実施例による概略図である。本開示の第３の実施例による概略図である。本開示による原理概略図の１である。本開示による原理概略図の２である。本開示の第４の実施例による概略図である。本開示の第５の実施例による概略図である。本開示の第６の実施例による概略図である。本開示の第７の実施例による概略図である。本開示の第８の実施例による概略図である。本開示の第９の実施例による概略図である。本開示の第１０の実施例による概略図である。本開示の実施例の画像処理方法及びテキスト認識方法を実現するための電子機器のブロック図である。

以下、本開示の例示的な実施例について、図面を参照して説明し、理解を容易にするために、その中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、詳細の説明に記載れている実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

ドキュメント画像構造化とは、画像内のテキストコンテンツ（画像内のすべての文字情報を指す）や主要な情報（着目される情報の一部を指し、必要に応じて決定できる）を抽出し、画像内のコンテンツをデジタル化及び構造化することである。

相応に、テキスト構造化情報は、ドキュメント画像を構造化して得られたテキスト構造化情報、すなわち、テキストコンテンツとして理解できる。

例えば、図１に示される領収書に対してドキュメント画像の構造化を行う場合、図１に示される領収書を写真に撮って、領収書画像を得て、領収書画像内の領収書番号、金額、日付などの情報を抽出することができる。

図１は、ドキュメント画像の可能な形態について例示的に説明するためのものであり、ドキュメント画像を限定するものとして理解できないことを理解すべきであり、ドキュメント画像は、乗車券やフェリーチケットなど、テキストコンテンツが含まれる画像として理解でき、また、看板画像などとして理解できる。

ドキュメント画像の構造化は、テキストコンテンツが含まれる画像内のテキストコンテンツが取得される過程として理解でき、人工知能技術の発展につれ、ネットワークモデルに基づいて実現されることができ、例えば、テキスト認識モデルを訓練して、テキスト認識モデルに基づいて認識対象の画像に対して文字認識を行うことにより、認識対象の画像内のテキストコンテンツを得る。

いくつかの実施例では、サンプル画像に基づいて基本ネットワークモデルを訓練し、テキスト認識モデルを得るようにしてもよい。

例えば、異なる応用シーンに応じて、当該応用シーンに対応するサンプル画像（テキストコンテンツが含まれる）を選択し、サンプル画像にラベルを付け、ラベル付けされたサンプル画像に基づいて基本ネットワークモデルを訓練することにより、テキスト認識モデルを得る。

上記分析によれば、異なる応用シーンでのテキスト認識モデルは、異なるタイプのドキュメント画像のテキストコンテンツを検出するために使用される可能性がある。例えば、領収書の応用シーンでは、領収書画像を認識するためのテキスト認識モデルを訓練するとき、サンプル領収書画像を取得し、サンプル領収書画像にラベルを付け、ラベル付けされたサンプル領収書画像に基づいて基本ネットワークモデルを訓練することにより、認識対象の画像が領収書画像である場合の画像を認識するためのテキスト認識モデルを得る。

また、例えば、乗車券の応用シーンでは、乗車券画像を認識するためのテキスト認識モデルを訓練するとき、サンプル乗車券画像を取得し、サンプル乗車券画像にラベルを付け、ラベル付けされたサンプル乗車券画像に基づいて基本ネットワークモデルを訓練することにより、認識対象の画像が乗車券画像である場合の画像を認識するためのテキスト認識モデルを得る。

しかしながら、当該方法を使用すると、さまざまな応用シーンに応じて、ラベルを付けて訓練するには、その対応する応用シーンでのサンプル画像を収集する必要があるため、大量のラベル付け、長い訓練時間、及び低い汎用性が引き起こされる。

他のいくつかの実施例では、「事前訓練＋微調整」を使用して訓練してテキスト認識モデルを得るようにしてもよい。

「事前訓練」は、応用シーンを区別して対処する必要がなく、サンプル画像に基づいて事前訓練モデルを生成することとして理解でき、その本質は隠れ層として理解できる。「微調整」は、隠れ層に基づき、応用シーンに応じて、訓練して応用シーンに適したテキスト認識モデルを得ることとして理解できる。

例示的に、上記分析によれば、テキスト認識モデルの訓練は、「事前訓練」段階及び「微調整」段階という２つの段階を含むことができる。領収書の応用シーン及び乗車券の応用シーンに応じて、「事前訓練」段階では、その２つの応用シーンによって共用できる隠れ層を得ることができる一方、「微調整段階」では、領収書の応用シーンに応じて、サンプル領収書画像及び隠れ層に基づいて訓練して領収書の応用シーンに適したテキスト認識モデルを得ることができるが、乗車券の応用シーンに応じて、サンプル乗車券画像及び隠れ層に基づいて訓練して乗車券の応用シーンに適したテキスト認識モデルを得ることができる。

一例では、マスクされた視覚言語モデル（ＭａｓｋｅｄＶｉｓｕａｌ－ＬａｎｇｕａｇｅＭｏｄｅｌ、ＭＶＬＭ）に基づいて「事前訓練」を完了させてもよい。

例えば、マスクされた視覚言語モデルに基づいてサンプル画像内の文字の一部に対してマスク（ｍａｓｋ）処理を行い、すなわち、サンプル画像内の文字の一部をカバーして、サンプル画像内のカバーされていない文字の一部に基づいてカバーされた文字の一部を復元してもよい。

具体的には、サンプル画像内のカバーされていない文字の一部のコンテキストに基づいてカバーされた文字の一部を決定することができる。サンプル画像の文字の一部がカバーされるとき、カバーされたのは、文字の一部のテキスト自体及びサンプル画像内のカバーされた文字の一部がある領域であってもよい。

他の例では、テキストの長さを予測して「事前訓練」を完了させてもよい。

例えば、サンプル画像の視覚的特徴を取得し、視覚的特徴に従ってサンプル画像内のテキストコンテンツの文字長を予測して得て、予測された文字長及び実際の文字長（予めラベル付けされた）に基づいて「事前訓練」を完了させてもよい。

他の例では、フィールド間の位置情報に基づいて「事前訓練」を完了させてもよい。

例えば、サンプル画像の異なるフィールド（例えば、２つのフィールド）にそれぞれ対応する視覚的特徴を取得し、各視覚的特徴に基づいて異なるフィールド間の位置関係を予測し、予測して得られた異なるフィールド間の位置関係に基づいて「事前訓練」を完了させてもよい。

他の例では、サンプル画像内のテキストの一部をカバーして、テキストの一部の出力に対して単語レベルの二項分類を行い、各単語がカバーされているかどうかを予測し、予測結果に基づいて「事前訓練」を完了させてもよい。

他の例では、サンプル画像の一部を交換又は破棄して、ネガティブサンプルを得て、サンプル画像が一部の画像内のテキストコンテンツにマッチするかどうかを二項分類に基づいて予測し、予測結果に基づいて「事前訓練」を完了させてもよい。

しかしながら、上記分析によれば、上記方法を使用して「事前訓練」を完了させるとき、通常、テキスト特徴の次元から行われているため、融合されたサンプル画像内の特徴は比較的不完全であるため、「事前訓練」の信頼性及び正確性が低いという問題がある。

本開示の発明者は、上記問題の少なくとも１つを回避するために、創造的労働を通じて、サンプル画像の複数の次元の特徴を組み合わせて「事前訓練」を完了させ、「微調整」してテキスト認識モデルを得るという本開示の発明構想に思いついた。

本開示は、上記発明構想に基づき、訓練効率及び信頼性の向上を達成する画像処理方法、テキスト認識方法及び装置を提供し、人工知能技術の分野、具体的には、深層学習、コンピュータビジョン技術の分野に適用され、ＯＣＲなどのシーンに適用できる。

図２は、本開示の第１の実施例による概略図であり、図２に示すように、本実施例の画像処理方法は、以下のステップを含む。

Ｓ２０１では、取得されたサンプル画像を前処理し、サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得る。

例示的に、本実施例の実行主体は、画像処理装置であってもよく、画像処理装置は、サーバ（例えば、クラウドサーバ、又は、ローカルサーバ、又は、サーバクラスタ）であってもよいし、または、コンピュータ、端末機器、プロセッサ、チップなどあってもよく、本実施例は、それについて限定しない。

本実施例は、前処理の方法について限定しない、文字検出技術によって実現されてもよいし、文字認識技術によって実現されてもよい。

当該ステップは、サンプル画像を取得し、サンプル画像には、フィールドが含まれ、すなわち、サンプル画像には、文字が含まれ、フィールドを前処理し、文字のピクセル座標など、フィールドの位置情報を得ることができ、また、フィールドをボックス選択するための長方形ボックスなど、フィールドの画像ブロックを得ることができ、さらに、フィールドのテキストコンテンツ、すなわち、サンプル画像のテキストコンテンツを得ることもできるステップとして理解できる。

Ｓ２０２では、フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、フィールドの位置情報に対してマスク予測を行い、予測結果を得る。

マスク予測とは、フィールドの位置情報に対してマスク処理を行い、マスク前の位置情報を予測することである。

本実施例では、３つの次元のコンテンツ（すなわち、フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツ）を組み合わせてマスク予測を行うことで、マスク予測を高い信頼性を有するものにして、マスク予測の正確性を向上させることができ、さらに、予測結果に基づいて訓練してテキスト認識モデルを得るとき、テキスト認識モデルを高い正確性及び信頼性を有するものにすることができる。

Ｓ２０３では、予測結果に従って訓練してテキスト認識モデルを得る。

テキスト認識モデルは、認識対象の画像に対してテキスト認識を行うためのものである。

上記実施例によれば、Ｓ２０１～Ｓ２０２は、「事前訓練」段階として、Ｓ２０３は、「微調整」段階として理解できる。

上記分析に基づき分かるように、本開示は、画像処理方法を提供し、当該方法は、取得されたサンプル画像を前処理し、サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得て、フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、フィールドの位置情報に対してマスク予測を行い、予測結果を得て、予測結果に従って訓練してテキスト認識モデルを得、テキスト認識モデルが認識対象の画像に対してテキスト認識を行うためのものであり、本実施例では、フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを組み合わせて、フィールドの位置情報に対してマスク予測を行い、「事前訓練」を完了させ、「事前訓練」の予測結果に基づいて訓練してテキスト認識モデルを得る技術的特徴によれば、サンプル画像の複数の次元のコンテンツを融合して「事前訓練」をするため、「事前訓練」を高い全面性及び信頼性を有するものにすることができ、それにより、予測結果に基づいてテキスト認識モデル（すなわち、「微調整」を完了させる）を生成するとき、テキスト認識モデルを高い正確性及び信頼性を有するものにすることができ、さらに、テキスト認識モデルに基づいてテキスト認識を行うとき、テキスト認識の正確性を向上させることができる。

図３は、本開示の第２の実施例による概略図であり、図３に示すように、本実施例の画像処理方法は、以下のステップを含む。

Ｓ３０１では、取得されたサンプル画像を前処理し、サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得る。

煩雑な記述を回避するために、上記実施例と同じである本実施例の技術的特徴について、本実施例では繰り返して説明しないことを理解すべきである。

Ｓ３０２では、フィールドの位置情報に対応する位置的特徴を取得し、画像ブロックに対応する視覚的特徴を取得し、テキストコンテンツに対応するテキスト特徴を取得する。

本実施例は、上記３つの次元の特徴を取得する方法について限定しない、例えば、モデルによって実現されてもよいし、アルゴリズムによって実現されてもよい。

位置的特徴は、フィールドのサンプル画像におけるピクセル座標次元をキャラクタリゼーションする特徴ベクトルであってもよく、視覚的特徴は、フィールドの視覚的次元（色やテクスチャなど）をキャラクタリゼーションする特徴ベクトルであってもよく、テキスト特徴は、フィールドの文字特色次元（ストロークや構造など）をキャラクタリゼーションする特徴ベクトルであってもよい。

Ｓ３０３では、フィールドの位置的特徴、視覚的特徴、及びテキスト特徴に従って、フィールドの位置的特徴に対してマスク予測を行い、事前訓練モデルを得る。

つまり、予測結果は、事前訓練モデルであってもよい。上記分析によれば、予測結果の本質は隠れ層であることがわかる。

本実施例では、３つの次元の特徴でサンプル画像の特徴を比較的強く表現できるため、３つの次元の特徴を組み合わせてフィールドの位置的特徴に対してマスク予測を行うと、マスク予測を高い正確性及び信頼性を有するものにすることができる。

いくつかの実施例では、Ｓ３０３は、以下のステップを含んでもよい。

第１のステップでは、フィールドの一部の位置的特徴をランダムに取り除く。

モデル訓練のプロセスは、反復的な訓練プロセスであり、いくつかの実施例では、需要や、履歴記録、実験などに応じて取り除き比率を設定し、取り除き比率に基づいてフィールドの一部の位置的特徴をランダムに取り除いてもよい。他のいくつかの実施例では、異なる取り除き比率に基づいて、フィールドの一部の位置的特徴を取り除いてもよい。

第２のステップでは、視覚的特徴、テキスト特徴、及びフィールドの位置的特徴のうち保持された一部の位置的特徴に従って、フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対してマスク予測を行い、事前訓練モデルを得る。

本実施例では、一部の位置的特徴をランダムな取り除き方式で取り除くことで、事前訓練モデルは異なる位置的特徴を復元することができるようになり、そして、事前訓練モデルは高い正確性及び信頼性を持つものになり、また、取り除かれていない３つの次元の特徴を組み合わせて、取り除かれた一部の位置的特徴に対してマスク予測を行うことで、マスク予測により、取り除かれた一部の位置的特徴をピクセル座標の次元から復元することができ、また、取り除かれた一部の位置的特徴をテキストコンテンツの次元から復元することができ、さらに、取り除かれた一部の位置的特徴を文字の視覚的次元から復元することができるようになり、復元された一部の位置的特徴が取り除かれた一部の位置的特徴と極度に類似するようになる。

いくつかの実施例では、第２のステップは、以下のサブステップを含んでもよい。

第１のサブステップでは、視覚的特徴、テキスト特徴、及びフィールドの位置的特徴のうち保持された一部の位置的特徴に従って、フィールドの位置的特徴のうち取り除かれた一部の位置的特徴を予測して得る。

上記分析によれば、本実施例では、取り除かれていない３つの次元の特徴を利用して、取り除かれた一部の位置的特徴を予測して得る実施例は、取り除かれた一部の位置的特徴と保持された一部の位置的特徴との間のピクセル座標での関連関係、及びコンテキスト語義間の関連関係、並びに視覚的コンテキスト間の関連関係を考慮した上での実施例であるため、予測して得られた、取り除かれた一部の位置的特徴が高い正確性及び信頼性を持つものになっている。

第２のサブステップでは、フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対応する位置情報を取得する。

第３のサブステップでは、フィールドの位置情報及び取得された位置情報に従って、事前訓練モデルを生成する。

例示的に、当該実施例は、保持された３つの次元の特徴に従って取り除かれた一部の位置的特徴に対応する位置情報を予測して得ることにより、取り除く前の位置情報及び取り除かれた位置情報に基づいて事前訓練モデルを生成することが容易になる実施例として理解できる。

いくつかの実施例では、フィールドの位置情報及び取得された位置情報間の損失関数を計算して、損失関数に基づいて訓練して事前訓練モデルを得る。

損失関数は、フィールドの位置情報、及び取得された位置情報間の差分情報をキャラクタリゼーションするためのものである。つまり、取り除く前の位置情報と取り除かれた位置情報間の差分情報とを組み合わせて、事前訓練モデルを生成することで、事前訓練モデルを特定対象向けのものとして生成すると同時に、事前訓練モデルを生成する収束速度を向上させる。

Ｓ３０４では、事前訓練モデルに従って訓練してテキスト認識モデルを得る。

図４は、本開示の第３の実施例による概略図であり、図４に示すように、本実施例の画像処理方法は、以下のステップを含む。

Ｓ４０１では、サンプル画像に対して文字検出処理を行い、画像ブロック、及びフィールドの位置情報を得る。

画像ブロックは、フィールドの位置情報に対応する領域をボックス選択するためのバウンディングボックスである。

同様に、煩雑な記述を回避するために、上記実施例と同じである本実施例の技術的特徴について、本実施例では繰り返して説明しない。

つまり、文字検出技術に基づいてサンプル画像を前処理し、サンプル画像の視覚的次元における画像ブロック、及び位置でのサンプル画像の位置情報を得ることができる。

Ｓ４０２では、サンプル画像に対して文字認識処理を行い、テキストコンテンツを得る。

つまり、文字認識技術を使用してサンプル画像を前処理し、サンプル画像のテキストコンテンツを得ることができる。

例示的に、図５を参照して、前処理は、文字検出処理及び文字認識処理を含み、サンプル画像に対して文字検出処理を行い、画像ブロック及び位置情報を得て、サンプル画像に対して文字認識処理を行い、テキストコンテンツを得ることがわかる。

本実施例では、異なる前処理手段（すなわち、文字検出処理及び文字認識処理）を用いてサンプル画像を前処理し、サンプル画像の異なる次元のコンテンツを得ることにより、サンプル画像を前処理する柔軟性及び多様性を向上させる。

Ｓ４０３では、フィールドの位置情報を第１のネットワークモデルに入力し、フィールドの位置的特徴を出力する。

例示的に、図５に示すように、第１のネットワークモデルから出力されたのは、位置的特徴である。

Ｓ４０４では、画像ブロックを第２のネットワークモデルに入力し、視覚的特徴を出力する。

Ｓ４０５では、テキストコンテンツを第３のネットワークモデルに入力し、テキスト特徴を出力する。

本実施例は、第１のネットワークモデル、第２のネットワークモデル、第３のネットワークモデルのネットワークアーキテクチャ、構造、及びパラメータなどについて限定しない。各ネットワークモデルに基づいてそれぞれに対応する特徴を抽出する実現原理は、関連技術を参照することができ、本実施例は、それについて限定しない。

本実施例では、サンプル画像の３つの次元の特徴を並行して決定することにより、各特徴間の相互干渉を回避し、各特徴決定の効率及び正確性を向上させることができる。

Ｓ４０６では、フィールドの一部の位置的特徴をランダムに取り除いて、保持された一部の位置的特徴を得る。

例示的に、図５に示すように、第１のネットワークモデルから出力された位置的特徴、第２のネットワークモデルから出力された視覚的特徴、及び第３のネットワークモデルから出力されたテキスト特徴に対して、位置的特徴のランダムな取り除きを行い、保持された特徴を得る。

保持された特徴には、第２のネットワークモデルから出力された視覚的特徴、第３のネットワークモデルから出力されたテキスト特徴、及び第１のネットワークモデルから出力された位置的特徴のうち、ランダムに取り除かれていない位置的特徴が含まれる。

Ｓ４０７では、視覚的特徴、テキスト特徴、及びフィールドの位置的特徴のうち保持された一部の位置的特徴を第４のネットワークモデルに入力し、フィールドの位置的特徴のうち取り除かれた一部の位置的特徴の位置情報を出力する。

同様に、本実施例は、第４のネットワークモデルについて限定しない。

例示的に、図５に示すように、保持された特徴（視覚的特徴、テキスト特徴、及びフィールドの位置的特徴のうち保持された一部の位置的特徴が含まれる）を第４のネットワークモデルに入力し、位置的特徴をランダムに取り除いた位置的特徴の位置情報を予測して得る。

同様に、本実施例では、３つの次元の特徴を組み合わせて、位置的特徴をランダムに取り除いた位置的特徴の位置情報を予測して得ることで、予測して得られた位置情報を高い正確性及び信頼性を有するものにすることができ、すなわち、取り除かれた位置的特徴に対応する位置情報を比較的正確に復元することができる。

Ｓ４０８では、フィールドの位置情報及び出力された位置情報間の損失関数を計算する。

例示的に、図５に示すように、文字検出処理して得られた位置情報と第４のネットワークモデルによって予測して得られた位置情報との損失関数を計算する。

損失関数は、フィールドの位置情報、及び出力された位置情報間の距離損失を含むことができる。

例示的に、フィールドの位置情報、及び取得された位置情報間の距離損失を計算し、距離損失を損失関数として決定してもよい。

上記分析によれば、本実施例では、位置的特徴に対してマスク予測を行うことにより事前訓練モデルを得るため、距離損失を損失関数として決定することにより、損失関数を、マスク処理前後の位置情報間の差分情報をキャラクタリゼーションするための関数にすることができ、また、距離損失関数に基づいて事前訓練モデルを生成するとき、事前訓練モデルの信頼性及び正確性を向上させる。

いくつかの実施例では、フィールドの位置情報は、ピクセル座標系に基づくフィールドの検出横座標及び検出縦座標を含み、出力された位置情報は、ピクセル座標系に基づくフィールドの予測横座標及び予測縦座標を含み、距離損失の計算は、以下のステップを含んでもよい。

第１のステップでは、予測横座標と検出横座標との間の横座標差分情報、及び予測縦座標と検出縦座標との間の縦座標差分情報を計算する。

第２のステップでは、横座標差分情報及び縦座標差分情報に従って、距離損失を決定する。

例示的に、位置情報は、ピクセル座標（ｘ１，ｙ１，ｘ２，ｙ２）で示すことができ、（ｘ１，ｙ１）が位置情報の左上隅の座標で、（ｘ２，ｙ２）が位置情報の右下隅の座標であり、当然ながら、位置情報は、（ｘ，ｙ，ｗ，ｈ）など、他の形式で示されてもよい。

ｘ、ｘ１、ｘ２が横座標で、ｙ、ｙ１、ｙ２が縦座標で、ｗが幅で、ｈが高さである。

位置情報は、ピクセル座標（ｘ１，ｙ１，ｘ２，ｙ２）で示される場合、いくつかの実施例では、式１で距離損失Ｌ１を決定してもよい。式１は、以下の通りである。

他のいくつかの実施例では、式２で距離損失Ｌ２を決定してもよい。式２は、以下の通りである。

上付き文字ｐが予測横座標で、上付き文字ｇが検出横座標（すなわち、実際の値）である。

本実施例では、２つの次元（すなわち、横座標差分情報及び縦座標差分情報）から、距離損失を決定するため、距離損失を全体的に決定し、決定された距離損失を高い全面性及び信頼性を有するものにすることができる。

Ｓ４０９では、損失関数に従って第１のネットワークモデル、第２のネットワークモデル、第３のネットワークモデル、及び第４のネットワークモデルのそれぞれに対応するモデルパラメータを調整し、事前訓練モデルを得る。

本実施例では、第１のネットワークモデル、第２のネットワークモデル、第３のネットワークモデル、及び第４のネットワークモデルを１つのネットワークモデル全体として、損失関数に基づいてネットワークモデル全体を訓練することにより、各ネットワークモデル間が緊密に組み合わせて、誤差が減る。

Ｓ４１０では、事前訓練モデルに従って訓練してテキスト認識モデルを得る。

当該ステップは、「微調整」段階として理解できる。

つまり、図６に示すように、本実施例では、訓練してテキスト認識モデルを得るステップは、「事前訓練」段階及び「微調整」段階という２つの段階を含み、「事前訓練」段階は、具体的にＳ４０１～Ｓ４０９を参照して、「微調整」段階は、具体的にＳ４１０を参照する。

また、図６に示すように、「事前訓練」段階は、「訓練データ前処理」及び「位置的特徴マスク予測」という２つのサブ段階を含み、「訓練データ前処理」サブ段階は、具体的にＳ４０１～Ｓ４０２を参照して、サンプル画像が訓練データであり、「位置的特徴マスク予測」サブ段階は、具体的にＳ４０３～Ｓ４０９を参照する。

「事前訓練」段階で得られた事前訓練モデルは、さまざまな応用シーンに応じて、或いは、さまざまなタイプの認識必要に応じて汎用できる汎用モデルであり、さまざまな応用シーン又はさまざまなタイプの認識必要に応じて、当該汎用モデルに基づいて対象を絞って訓練することにより、対応する応用シーンに適用される最終的なニューラルネットワークモデルを得ることができる。例えば、領収書に対してテキスト認識を行うためのニューラルネットワークモデル、又は契約書を認識するニューラルネットワークモデルが挙げられる。

事前訓練モデルに基づき、ラベル付けされた訓練データを使用して再訓練することにより、対応する応用シーンに適用される最終的なニューラルネットワークモデルを得ることができる。

相応に、対応する応用シーンに適用される最終的なニューラルネットワークモデルに基づき、認識対象の画像のテキスト構造化情報（すなわち、テキストコンテンツ）を出力することができる。

図７は、本開示の第４の実施例による概略図であり、図７に示すように、本実施例の画像処理装置７００は、
取得されたサンプル画像を前処理し、サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るための第１の処理ユニット７０１と、
フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、フィールドの位置情報に対してマスク予測を行い、予測結果を得るための予測ユニット７０２と、
予測結果に従って訓練してテキスト認識モデルを得るための訓練ユニット７０３であって、テキスト認識モデルが認識対象の画像に対してテキスト認識を行うためのものである訓練ユニット７０３と、を含む。

図８は、本開示の第５の実施例による概略図であり、図８に示すように、本実施例の画像処理装置８００は、
取得されたサンプル画像を前処理し、サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るための第１の処理ユニット８０１を含む。

いくつかの実施例では、前処理は、文字検出処理及び文字認識処理を含み、図８を参照して、第１の処理ユニット８０１は、
サンプル画像に対して文字検出処理を行い、画像ブロック、及びフィールドの位置情報を得るための第１の処理サブユニット８０１１であって、画像ブロックがフィールドの位置情報に対応する領域をボックス選択するためのバウンディングボックスである第１の処理サブユニット８０１１と、
サンプル画像に対して文字認識処理を行い、テキストコンテンツを得るための第２の処理サブユニット８０１２と、
フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、フィールドの位置情報に対してマスク予測を行い、予測結果を得るための予測ユニット８０２と、を含むことがわかる。

図８を参照してわかるように、いくつかの実施例では、予測結果が事前訓練モデルであり、予測ユニット８０２は、取得サブユニット８０２１と、予測サブユニット８０２２と、を含み、
取得サブユニット８０２１は、フィールドの位置情報に対応する位置的特徴を取得し、画像ブロックに対応する視覚的特徴を取得し、テキストコンテンツに対応するテキスト特徴を取得するために使用される。

いくつかの実施例では、取得サブユニット８０２１は、
フィールドの位置情報を第１のネットワークモデルに入力するための第１の入力モジュールと、
フィールドの位置情報に対応する位置的特徴を出力するための第１の出力モジュールと、
画像ブロックを第２のネットワークモデルに入力するための第２の入力モジュールと、
視覚的特徴を出力するための第２の出力モジュールと、
テキストコンテンツを第３のネットワークモデルに入力するための第３の入力モジュールと、
テキスト特徴を出力するための第３の出力モジュールと、を含み、
予測サブユニット８０２２は、フィールドの位置的特徴、視覚的特徴、及びテキスト特徴に従って、フィールドの位置的特徴に対してマスク予測を行い、事前訓練モデルを得るために使用される。

いくつかの実施例では、予測サブユニット８０２２は、
フィールドの一部の位置的特徴をランダムに取り除くための取り除きモジュールと、
視覚的特徴、テキスト特徴、及びフィールドの位置的特徴のうち保持された一部の位置的特徴に従って、フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対してマスク予測を行い、事前訓練モデルを得るための予測モジュールと、を含む。

いくつかの実施例では、予測モジュールは、
視覚的特徴、テキスト特徴、及びフィールドの位置的特徴のうち保持された一部の位置的特徴を第４のネットワークモデルに入力するための入力サブモジュールと、
フィールドの位置的特徴のうち取り除かれた一部の位置的特徴の位置情報を出力するための出力サブモジュールと、
フィールドの位置情報、及び出力された位置情報に従って、事前訓練モデルを生成するための第２の生成サブモジュールと、を含む。

いくつかの実施例では、第２の生成サブモジュールは、フィールドの位置情報及び出力された位置情報間の損失関数を計算して、損失関数に従って前記第１のネットワークモデル、第２のネットワークモデル、第３のネットワークモデル、及び第４のネットワークモデルのそれぞれに対応するモデルパラメータを調整し、事前訓練モデルを得るためのものである。

いくつかの実施例では、第２の生成サブモジュールは、フィールドの位置情報、及び出力された位置情報間の距離損失を計算し、距離損失を損失関数として決定するためのものである。

いくつかの実施例では、フィールドの位置情報は、ピクセル座標系に基づくフィールドの検出横座標及び検出縦座標を含み、取得された位置情報は、ピクセル座標系に基づくフィールドの予測横座標及び予測縦座標を含み、第２の生成サブモジュールは、予測横座標と検出横座標との間の横座標差分情報、及び予測縦座標と検出縦座標との間の縦座標差分情報を計算して、横座標差分情報及び縦座標差分情報に従って、距離損失を決定するためのものである。

いくつかの実施例では、予測モジュールは、
視覚的特徴、テキスト特徴、及びフィールドの位置的特徴のうち保持された一部の位置的特徴に従って、フィールドの位置的特徴のうち取り除かれた一部の位置的特徴を予測して得るための予測サブモジュールと、
フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対応する位置情報を取得するための取得サブモジュールと、
フィールドの位置情報及び取得された位置情報に従って、事前訓練モデルを生成するための第１の生成サブモジュールと、を含む。

いくつかの実施例では、第１の生成サブモジュールは、フィールドの位置情報及び取得された位置情報間の損失関数を計算して、損失関数に基づいて訓練して事前訓練モデルを得るためのものであり、
訓練ユニット８０３は、予測結果に従って訓練してテキスト認識モデルを得るためのものであり、テキスト認識モデルが認識対象の画像に対してテキスト認識を行うためのものである。

図９は、本開示の第６の実施例による概略図であり、図９に示すように、本実施例のテキスト認識方法は、以下のステップを含む。

Ｓ９０１では、認識対象の画像を取得する。

例示的に、本実施例の実行主体は、テキスト認識装置であってもよく、テキスト認識装置は、上記実施例で使用される画像処理装置と同じ装置であってもよいし、異なる装置であってもよく、本実施例は、それについて限定しない。

認識対象の画像を取得するステップは、以下の例を参照して実現することができる。

一例では、テキスト認識装置は、画像収集装置に接続され、画像収集装置から送信された画像を受信してもよい。

画像収集装置は、カメラなど、画像収集機能付きの装置であってもよい。

他の例では、テキスト認識装置は、画像をロードするためのツールを提供してもよく、ユーザは当該画像をロードするためのツールを使用して認識対象の画像をテキスト認識装置に伝送することができる。

画像をロードするためのツールは、外部機器に接続するためのインタフェースであってもよく、例えば、他の記憶デバイスに接続するためのインタフェースが挙げられ、当該インタフェースを介して外部機器から伝送された認識対象の画像を取得する。また、画像をロードするためのツールは、表示装置にしてもよく、例えば、テキスト認識装置により、表示装置に画像をロードする機能付きのインタフェースを入力することができ、ユーザは、当該インタフェースを介して認識対象の画像をテキスト認識装置にインポートすることができ、テキスト認識装置はインポートされた認識対象の画像を取得する。

Ｓ９０２では、予め訓練されたテキスト認識モデルに基づいて認識対象の画像に対してテキスト認識を行い、認識対象の画像のテキストコンテンツを得る。

テキスト認識モデルは、上記いずれか１つの実施例に記載の画像処理方法を利用して得られたものである。

図１０は、本開示の第７の実施例による概略図であり、図１０に示すように、本実施例のテキスト認識方法は、以下のステップを含む。

Ｓ１００１では、認識対象の画像を取得する。

Ｓ１００２では、認識対象の画像を前処理し、認識対象の画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得る。

同様に、上記分析を組み合わせて分かるように、前処理は、文字検出処理及び文字認識処理を含むことができ、Ｓ１００２は、以下のステップを含むことができる。

第１のステップでは、認識対象の画像に対して文字検出処理を行い、認識対象の画像内のフィールドにそれぞれ対応する画像ブロック及び位置情報を得る。

認識対象の画像内のフィールドに対応する画像ブロックは、認識対象の画像内のフィールドの位置情報に対応する領域をボックス選択するためのバウンディングボックスである。

第２のステップでは、認識対象の画像に対して文字認識処理を行い、認識対象の画像に対応するテキストコンテンツを得る。

Ｓ１００３では、認識対象の画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツをテキスト認識モデルに入力し、認識対象の画像のテキストコンテンツを出力する。

図１１は、本開示の第８の実施例による概略図であり、図１１に示すように、本実施例のテキスト認識装置１１００は、
認識対象の画像を取得するための取得ユニット１１０１と、
予め訓練されたテキスト認識モデルに基づいて認識対象の画像に対してテキスト認識を行い、認識対象の画像のテキストコンテンツを得るための認識ユニット１１０２と、を含む。

図１２は、本開示の第９の実施例による概略図であり、図１２に示すように、本実施例のテキスト認識装置１２００は、
認識対象の画像を取得するための取得ユニット１２０１と、
認識対象の画像を前処理し、認識対象の画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るための第２の処理ユニット１２０２と、
認識対象の画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツをテキスト認識モデルに入力し、認識対象の画像のテキストコンテンツを出力するための認識ユニット１２０３と、を含む。

図１３は、本開示の第１０の実施例による概略図であり、図１３に示すように、本開示における電子機器１３００は、プロセッサ１３０１とメモリ１３０２とを含む。

メモリ１３０２は、プログラムを記憶するためのものであり、メモリ１３０２は、ランダムアクセスメモリ（ｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭと略称）、スタティックランダムアクセスメモリ（ｓｔａｔｉｃｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ、ＳＲＡＭと略称）、ダブルデータレートの同期ダイナミックランダムアクセスメモリ（ＤｏｕｂｌｅＤａｔａＲａｔｅＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＤＤＲＳＤＲＡＭと略称）などの揮発性メモリ（ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）を含んでもよいし、メモリは、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）などの不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）を含んでもよい。メモリ１３０２は、コンピュータプログラム（例えば、上記方法を実現するためのアプリケーションプログラムや機能モジュールなど）やコンピュータ命令などを記憶するためのものであり、上記のコンピュータプログラムやコンピュータ命令などは、領域別に１つ又は複数のメモリ１３０２内に記憶されることができる。また、上記のコンピュータプログラムや、コンピュータ命令、データなどはプロセッサ１３０１によって呼び出されることができる。

プロセッサ１３０１は、メモリ１３０２内に記憶されたコンピュータプログラムを実行するためのものであり、それによって上記実施例における方法の各ステップは実現される。

具体的には、前述した方法の実施例の説明を参照することができる。

プロセッサ１３０１とメモリ１３０２は独立した構造であってもよいし、集積された集積構造であってもよい。プロセッサ１３０１とメモリ１３０２は独立した構造である場合、メモリ１３０２とプロセッサ１３０１は、バス１３０３を介して結合されて接続されることができる。

本実施例に係る電子機器は、上記方法における技術案を実行することができ、その具体的な実現プロセス及び技術的原理が同じであるため、ここで繰り返して説明しない。

本開示に係る技術案において、関連するユーザの個人情報（顔画像など）の収集や、保存、使用、加工、伝送、提供、開示などの処理は、いずれも関連する法令の規定に準拠しており、公序良俗にも違反しない。

本開示の実施例によれば、本開示は、さらに、電子機器、可読記憶媒体、及びコンピュータプログラムを提供する。

本開示の実施例によれば、本開示は、さらに、コンピュータプログラムを提供し、コンピュータプログラムが可読記憶媒体に記憶されており、電子機器の少なくとも１つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み取ることができ、少なくとも１つのプロセッサがコンピュータプログラムを実行すると、電子機器が上記いずれか１つの実施例により提供される技術案を実行する。

図１４は、本開示の実施例を実施するために使用可能な例示的な電子機器１４００の概略ブロック図を示している。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルアシスタント、セルラ電話、スマートフォン、ウェアラブルデバイス、他の類似する計算デバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実施を制限することを意図したものではない。

図１４に示すように、電子機器１４００は、計算ユニット１４０１を含み、当該計算ユニット１４０１は、読み取り専用メモリ（ＲＯＭ）１４０２に記憶されたコンピュータプログラム、または、記憶ユニット１４０８からランダムアクセスメモリ（ＲＡＭ）１４０３にロードされたコンピュータプログラムに基づき、さまざまな、適当な動作及び処理を実行することができる。ＲＡＭ１４０３には、さらに、電子機器１４００の操作に必要なさまざまなプログラム及びデータが記憶されることができる。計算ユニット１４０１、ＲＯＭ１４０２及びＲＡＭ１４０３は、バス１４０４を介して接続される。入力／出力（Ｉ／Ｏ）インタフェース１４０５も、バス１４０４に接続される。

キーボードやマウスなどの入力ユニット１４０６と、さまざまなタイプのモニタやスピーカーなどの出力ユニット１４０７と、磁気ディスクや光ディスクなどの記憶ユニット１４０８と、ネットワークカードや、モデム、無線通信トランシーバーなどの通信ユニット１４０９と、を含む、電子機器１４００における複数のコンポーネントは、Ｉ／Ｏインタフェース１４０５に接続される。通信ユニット１４０９は、電子機器１４００がインターネットなどのコンピュータネットワーク及び／又はさまざまな電気通信ネットワークを介して他の機器と情報／データを交換することを可能にさせる。

計算ユニット１４０１は、処理能力や計算能力を有するさまざまな汎用及び／又は専用処理コンポーネントであってもよい。計算ユニット１４０１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、さまざまな専用な人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行するさまざまな計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、および任意の適当なプロセッサ、コントローラー、マイクロコントローラーなどを含むが、それらに限定されない。計算ユニット１４０１は、画像処理方法及びテキスト認識方法などの上記に記載の各方法や処理を実行する。例えば、いくつかの実施例において、画像処理方法及びテキスト認識方法は、コンピュータソフトウェアプログラムとして実現されることができ、記憶ユニット１４０８などの機械可読媒体に有形的に含まれている。いくつかの実施例において、コンピュータプログラムの一部またはすべては、ＲＯＭ１４０２及び／又は通信ユニット１４０９を介して電子機器１４００にロード及び／又はインストールされることができる。コンピュータプログラムは、ＲＡＭ１４０３にロードされて計算ユニット１４０１により実行されると、上記に記載の画像処理方法及びテキスト認識方法の１つ又は複数のステップを実行することができる。選択的に、他の実施例において、計算ユニット１４０１は、他の任意の適当な手段（例えば、ファームウェアに頼る）を用いて画像処理方法及びテキスト認識方法を実行するように構成されることができる。

本明細書において、上記に記載のシステム及び技術的さまざまな実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップのシステム（ＳＯＣ）、ロードプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにより実施されることができる。これらのさまざまな実施形態は、１つ又は複数のコンピュータプログラムに実施され、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサが含まれるプログラマブルシステムで実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、専用または汎用プログラマブルプロセッサであってもよく、記憶システムや、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータや命令を受信し、そして、データや命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

本開示に係る方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせを採用してプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサ又はコントローラーに提供されることができ、これにより、プログラムコードは、プロセッサ又はコントローラーにより実行されると、フローチャート及び／又はブロック図に示される機能／操作が実施される。プログラムコードは、完全に機械で実行され、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして部分的に機械で実行され、且つ、部分的にリモートマシンで実行されるか、又は完全にリモートマシン又はサーバで実行されることができる。

本開示のコンテキストでは、機械可読媒体は、有形的な媒体であってもよく、命令実行システム、装置又は機器に使用されるプログラム、または、命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体システム、装置又は機器、または上記に記載の任意の適合な組み合わせを含むが、それらに限定されない。機械可読記憶媒体のより具体的な例として、１つ又は複数の配線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光学的記憶デバイス、磁気的記憶デバイス、又は上記に記載の任意の適合な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータ上で、本明細書に説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

本明細書で説明されているシステム及び技術は、バックエンドコンポーネントを含む計算システム（例えば、データサーバとする）、或いは、ミドルウェアコンポーネントを含む計算システム（例えば、アプリケーションサーバ）、或いは、フロントエンドコンポーネントを含む計算システム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、或いは、当該バックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの実例は、ローカルネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアント端末とサーバとを含むことができる。クライアント端末とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント端末－サーバの関係を有するコンピュータプログラムによって、クライアント端末とサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、伝統的な物理ホスト及びＶＰＳサービス（「ＶｉｒｔｕａＬＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略称）に存在する管理が難しく、ビジネスのスケーラビリティが弱い欠点を解決する。サーバは、さらに、分散システムのサーバか、またはブロックチェーンと組み合わせたサーバであってもよい。

上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解すべきである。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。

上記の発明を実施するための形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

画像処理方法であって、
取得されたサンプル画像を前処理し、前記サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るステップと、
前記フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、前記フィールドの位置情報に対してマスク予測を行い、予測結果を得るステップと、
前記予測結果に従って訓練してテキスト認識モデルを得るステップであって、前記テキスト認識モデルが認識対象の画像に対してテキスト認識を行うためのものであるステップと、を含む画像処理方法。
前記予測結果が事前訓練モデルであり、
前記フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、前記フィールドの位置情報に対してマスク予測を行い、予測結果を得る前記ステップは、
前記フィールドの位置情報に対応する位置的特徴を取得し、前記画像ブロックに対応する視覚的特徴を取得し、前記テキストコンテンツに対応するテキスト特徴を取得するステップと、
前記フィールドの位置的特徴、前記視覚的特徴、及び前記テキスト特徴に従って、前記フィールドの位置的特徴に対してマスク予測を行い、前記事前訓練モデルを得るステップと、を含む請求項１に記載の方法。
前記フィールドの位置的特徴、前記視覚的特徴、及び前記テキスト特徴に従って、前記フィールドの位置的特徴に対してマスク予測を行い、前記事前訓練モデルを得る前記ステップは、
前記フィールドの一部の位置的特徴をランダムに取り除くステップと、
前記視覚的特徴、前記テキスト特徴、及び前記フィールドの位置的特徴のうち保持された一部の位置的特徴に従って、前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対してマスク予測を行い、前記事前訓練モデルを得るステップと、を含む請求項２に記載の方法。
前記視覚的特徴、前記テキスト特徴、及び前記フィールドの位置的特徴のうち保持された一部の位置的特徴に従って、前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対してマスク予測を行い、前記事前訓練モデルを得る前記ステップは、
前記視覚的特徴、前記テキスト特徴、及び前記フィールドの位置的特徴のうち保持された一部の位置的特徴に従って、前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴を予測して得るステップと、
前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対応する位置情報を取得するステップと、
前記フィールドの位置情報、及び取得された位置情報に従って、前記事前訓練モデルを生成するステップと、を含む請求項３に記載の方法。
前記フィールドの位置情報、及び取得された位置情報に従って、前記事前訓練モデルを生成する前記ステップは、
前記フィールドの位置情報、及び取得された位置情報間の損失関数を計算して、前記損失関数に基づいて訓練して前記事前訓練モデルを得るステップを含む請求項４に記載の方法。
前記フィールドの位置情報に対応する位置的特徴を取得し、前記画像ブロックに対応する視覚的特徴を取得し、前記テキストコンテンツに対応するテキスト特徴を取得する前記ステップは、
前記フィールドの位置情報を第１のネットワークモデルに入力し、前記フィールドの位置情報に対応する位置的特徴を出力するステップと、
前記画像ブロックを第２のネットワークモデルに入力し、前記視覚的特徴を出力するステップと、
前記テキストコンテンツを第３のネットワークモデルに入力し、前記テキスト特徴を出力するステップと、を含む請求項３に記載の方法。
前記視覚的特徴、前記テキスト特徴、及び前記フィールドの位置的特徴のうち保持された一部の位置的特徴に従って、前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対してマスク予測を行い、前記事前訓練モデルを得る前記ステップは、
前記視覚的特徴、前記テキスト特徴、及び前記フィールドの位置的特徴のうち保持された一部の位置的特徴を第４のネットワークモデルに入力し、前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴の位置情報を出力するステップと、
前記フィールドの位置情報、及び出力された位置情報に従って、前記事前訓練モデルを生成するステップと、を含む請求項６に記載の方法。
前記フィールドの位置情報、及び出力された位置情報に従って、前記事前訓練モデルを生成する前記ステップは、
前記フィールドの位置情報、及び出力された位置情報間の損失関数を計算するステップと、
前記損失関数に従って前記第１のネットワークモデル、前記第２のネットワークモデル、前記第３のネットワークモデル、及び前記第４のネットワークモデルのそれぞれに対応するモデルパラメータを調整し、前記事前訓練モデルを得るステップと、を含む請求項７に記載の方法。
前記フィールドの位置情報、及び出力された位置情報間の損失関数を計算する前記ステップは、
前記フィールドの位置情報、及び出力された位置情報間の距離損失を計算して、前記距離損失を前記損失関数として決定するステップを含む請求項８に記載の方法。
前記フィールドの位置情報は、ピクセル座標系に基づく前記フィールドの検出横座標及び検出縦座標を含み、出力された位置情報は、ピクセル座標系に基づく前記フィールドの予測横座標及び予測縦座標を含み、
前記フィールドの位置情報、及び出力された位置情報間の距離損失を計算する前記ステップは、
前記予測横座標と前記検出横座標との間の横座標差分情報、及び前記予測縦座標と前記検出縦座標との間の縦座標差分情報を計算するステップと、
前記横座標差分情報及び前記縦座標差分情報に従って、前記距離損失を決定するステップと、を含む請求項９に記載の方法。
前記前処理は、文字検出処理及び文字認識処理を含み、
取得されたサンプル画像を前処理し、前記サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得る前記ステップは、
前記サンプル画像に対して文字検出処理を行い、前記画像ブロック、及び前記フィールドの位置情報を得るステップであって、前記画像ブロックが前記フィールドの位置情報に対応する領域をボックス選択するためのバウンディングボックスであるステップと、
前記サンプル画像に対して文字認識処理を行い、前記テキストコンテンツを得るステップと、を含む請求項１に記載の方法。
テキスト認識方法であって、
認識対象の画像を取得するステップと、
予め訓練されたテキスト認識モデルに基づいて前記認識対象の画像に対してテキスト認識を行い、前記認識対象の画像のテキストコンテンツを得るステップと、を含み、
前記テキスト認識モデルが請求項１～１１のいずれか１項に記載の方法を利用して得られたものであるテキスト認識方法。
前記方法は、さらに、
認識対象の画像を前処理し、前記認識対象の画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るステップを含み、
予め訓練されたテキスト認識モデルに基づいて前記認識対象の画像に対してテキスト認識を行い、前記認識対象の画像のテキストコンテンツを得るステップは、前記認識対象の画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを前記テキスト認識モデルに入力し、前記認識対象の画像のテキストコンテンツを出力するステップを含む請求項１２に記載の方法。
画像処理装置であって、
取得されたサンプル画像を前処理し、前記サンプル画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るための第１の処理ユニットと、
前記フィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツに従って、前記フィールドの位置情報に対してマスク予測を行い、予測結果を得るための予測ユニットと、
前記予測結果に従って訓練してテキスト認識モデルを得るための訓練ユニットであって、前記テキスト認識モデルが認識対象の画像に対してテキスト認識を行うためのものである訓練ユニットと、を含む画像処理装置。
前記予測結果が事前訓練モデルであり、前記予測ユニットは、
前記フィールドの位置情報に対応する位置的特徴を取得し、前記画像ブロックに対応する視覚的特徴を取得し、前記テキストコンテンツに対応するテキスト特徴を取得するための取得サブユニットと、
前記フィールドの位置的特徴、前記視覚的特徴、及び前記テキスト特徴に従って、前記フィールドの位置的特徴に対してマスク予測を行い、前記事前訓練モデルを得るための予測サブユニットと、を含む請求項１４に記載の装置。
前記予測サブユニットは、
前記フィールドの一部の位置的特徴をランダムに取り除くための取り除きモジュールと、
前記視覚的特徴、前記テキスト特徴、及び前記フィールドの位置的特徴のうち保持された一部の位置的特徴に従って、前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対してマスク予測を行い、前記事前訓練モデルを得るための予測モジュールと、を含む請求項１５に記載の装置。
前記予測モジュールは、
前記視覚的特徴、前記テキスト特徴、及び前記フィールドの位置的特徴のうち保持された一部の位置的特徴に従って、前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴を予測して得るための予測サブモジュールと、
前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴に対応する位置情報を取得するための取得サブモジュールと、
前記フィールドの位置情報、及び取得された位置情報に従って、前記事前訓練モデルを生成するための第１の生成サブモジュールと、を含む請求項１６に記載の装置。
前記第１の生成サブモジュールは、前記フィールドの位置情報、及び取得された位置情報間の損失関数を計算して、前記損失関数に基づいて訓練して前記事前訓練モデルを得るためのものである請求項１７に記載の装置。
前記取得サブユニットは、
前記フィールドの位置情報を第１のネットワークモデルに入力するための第１の入力モジュールと、
前記フィールドの位置情報に対応する位置的特徴を出力するための第１の出力モジュールと、
前記画像ブロックを第２のネットワークモデルに入力するための第２の入力モジュールと、
前記視覚的特徴を出力するための第２の出力モジュールと、
前記テキストコンテンツを第３のネットワークモデルに入力するための第３の入力モジュールと、
前記テキスト特徴を出力するための第３の出力モジュールと、を含む請求項１６に記載の装置。
前記予測モジュールは、
前記視覚的特徴、前記テキスト特徴、及び前記フィールドの位置的特徴のうち保持された一部の位置的特徴を第４のネットワークモデルに入力するための入力サブモジュールと、
前記フィールドの位置的特徴のうち取り除かれた一部の位置的特徴の位置情報を出力するための出力サブモジュールと、
前記フィールドの位置情報、及び出力された位置情報に従って、前記事前訓練モデルを生成するための第２の生成サブモジュールと、を含む請求項１９に記載の装置。
前記第２の生成サブモジュールは、前記フィールドの位置情報、及び出力された位置情報間の損失関数を計算して、前記損失関数に従って前記第１のネットワークモデル、前記第２のネットワークモデル、前記第３のネットワークモデル、及び前記第４のネットワークモデルのそれぞれに対応するモデルパラメータを調整し、前記事前訓練モデルを得るためのものである請求項２０に記載の装置。
前記第２の生成サブモジュールは、前記フィールドの位置情報、及び出力された位置情報間の距離損失を計算して、前記距離損失を前記損失関数として決定するためのものである請求項２１に記載の装置。
前記フィールドの位置情報は、ピクセル座標系に基づく前記フィールドの検出横座標及び検出縦座標を含み、出力された位置情報は、ピクセル座標系に基づく前記フィールドの予測横座標及び予測縦座標を含み、前記第２の生成サブモジュールは、前記予測横座標と前記検出横座標との間の横座標差分情報、及び前記予測縦座標と前記検出縦座標との間の縦座標差分情報を計算して、前記横座標差分情報及び前記縦座標差分情報に従って、前記距離損失を決定するためのものである請求項２２に記載の装置。
前記前処理は、文字検出処理及び文字認識処理を含み、前記第１の処理ユニットは、
前記サンプル画像に対して文字検出処理を行い、前記画像ブロック、及び前記フィールドの位置情報を得るための第１の処理サブユニットであって、前記画像ブロックが前記フィールドの位置情報に対応する領域をボックス選択するためのバウンディングボックスである第１の処理サブユニットと、
前記サンプル画像に対して文字認識処理を行い、前記テキストコンテンツを得るための第２の処理サブユニットと、を含む請求項１４～２３のいずれか１項に記載の装置。
テキスト認識装置であって、
認識対象の画像を取得するための取得ユニットと、
予め訓練されたテキスト認識モデルに基づいて前記認識対象の画像に対してテキスト認識を行い、前記認識対象の画像のテキストコンテンツを得るための認識ユニットと、を含み、
前記テキスト認識モデルが請求項１～１１のいずれか１項に記載の方法を利用して得られたものであるテキスト認識装置。
前記装置は、さらに、
認識対象の画像を前処理し、前記認識対象の画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを得るための第２の処理ユニットを含み、
前記認識ユニットは、前記認識対象の画像内のフィールドにそれぞれ対応する位置情報、画像ブロック、及びテキストコンテンツを前記テキスト認識モデルに入力し、前記認識対象の画像のテキストコンテンツを出力するためのものである請求項２５に記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令が前記少なくとも１つのプロセッサにより実行されると、前記少なくとも１つのプロセッサが請求項１～１１のいずれか１項に記載の方法を実行できるか、前記少なくとも１つのプロセッサが請求項１２又は１３に記載の方法を実行できる電子機器。
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令がコンピュータに請求項１～１１のいずれか１項に記載の方法を実行させるためのものであるか、前記コンピュータ命令が前記コンピュータに請求項１２又は１３に記載の方法を実行させるためのものである非一時的なコンピュータ可読記憶媒体。
コンピュータプログラムであって、当該コンピュータプログラムがプロセッサにより実行されると、請求項１～１１のいずれか１項に記載の方法は実現されるか、当該コンピュータプログラムがプロセッサにより実行されると、請求項１２又は１３に記載の方法は実現されるコンピュータプログラム。