JP7390445B2

JP7390445B2 - 文字位置決めモデルのトレーニング方法及び文字位置決め方法

Info

Publication number: JP7390445B2
Application number: JP2022130338A
Authority: JP
Inventors: ジュウファン，; ユウリンリー，; ペンワン，; クンイシー，; シャメンキン，; クンヤオ，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-23
Filing date: 2022-08-18
Publication date: 2023-12-01
Anticipated expiration: 2042-08-18
Also published as: CN113762109B; EP4068225A3; CN113762109A; US20220392242A1; JP2022166215A; EP4068225A2

Description

本開示は、コンピュータ技術分野に関し、より具体的には、人工知能分野に関し、特にコンピュータビジョン及び深層学習技術分野に関する。

近年、人工知能技術の飛躍的な発展に伴い、文字位置決めも幅広く適用されている。特に、手形などの文字を含む画像に対する文字位置決めは、ますます重要視されるようになってきている。ここで、手形は重要な構造化情報のテキストキャリアであり、様々なビジネスシーンで幅広く利用されている。電子領収書はますます発展しているが、従来の紙領収書は依然として多く使われている。様々な手形は、レイアウトが複雑で項目が多いため、文字位置決め結果の精度を保証することが困難になる場合が多い。これと同時に、大量の手形の文字位置決めプロセスには、通常、多くの人件費がかかるため、文字位置決め中の効率が非常に悪くなり、手形の審査、帳票の精算などの業務の効率に影響を及ぼす可能性が高い。

関連技術において、文字を位置決めする時に、光学文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、ＯＣＲと略称する）技術の急速な発展により、自動化審査方式は、徐々に人手審査方式に代わるようになってきている。しかしながら、手形には、レイアウトが複雑で多様であり、文字の重なりが多く存在し、文字行の長さが異なるなどの特徴があるから、現在の分割又は検出に基づく文字位置決め方法は、ＯＣＲなどの適用シーンで予期に達成できない。

したがって、文字位置決め中の効率及び信頼性を如何に向上させるかは、重要な研究方向の１つになっている。

本開示は、文字位置決めモデルのトレーニング方法及び文字位置決め方法を提供する。

本開示の一態様によれば、文字位置決めモデルのトレーニング方法が提供され、前記文字位置決めモデルのトレーニング方法は、サンプル画像を取得するステップであって、前記サンプル画像にはサンプルの位置決め対象の文字及び前記サンプルの位置決め対象の文字のマーキングテキストボックスが含まれているステップと、前記サンプル画像をトレーニング対象の文字位置決めモデルに入力し、前記サンプルの位置決め対象の文字を位置決めし、前記サンプル画像の予測テキストボックスを出力するステップと、前記サンプル画像に対応するサンプルの事前アンカーボックスを取得するステップと、前記サンプルの事前アンカーボックス、前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、前記文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の前記文字位置決めモデルをトレーニングし続けるステップと、を含む。

本開示の他の態様によれば、文字位置決め方法が提供され、前記文字位置決め方法は、画像を取得するステップであって、前記画像には位置決め対象の文字が含まれているステップと、前記画像を目標文字位置決めモデルに入力して前記位置決め対象の文字を位置決めし、前記画像の目標テキストボックスを出力するステップであって、前記目標文字位置決めモデルは、本開示の第１の態様の実施例に記載のトレーニング方法に基づいてトレーニングされたモデルであるステップと、を含む。

本開示の他の態様によれば、文字位置決めモデルのトレーニング装置が提供され、前記文字位置決めモデルのトレーニング装置は、サンプル画像を取得するように構成される第１の取得モジュールであって、前記サンプル画像にはサンプルの位置決め対象の文字及び前記サンプルの位置決め対象の文字のマーキングテキストボックスが含まれている第１の取得モジュールと、前記サンプル画像をトレーニング対象の文字位置決めモデルに入力し、前記サンプルの位置決め対象の文字を位置決めし、前記サンプル画像の予測テキストボックスを出力するように構成される出力モジュールと、前記サンプル画像に対応するサンプルの事前アンカーボックスを取得するように構成される第２の取得モジュールと、前記サンプルの事前アンカーボックス、前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、前記文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の前記文字位置決めモデルをトレーニングし続けるように構成される生成モジュールと、を備える。

本開示の他の態様によれば、文字位置決め装置が提供され、前記文字位置決め装置は、画像を取得するように構成される取得モジュールであって、前記画像には位置決め対象の文字が含まれている取得モジュールと、前記画像を目標文字位置決めモデルに入力して前記位置決め対象の文字を位置決めし、前記画像の目標テキストボックスを出力するように構成される出力モジュールであって、前記目標文字位置決めモデルは、本開示の一態様に記載のトレーニング方法に基づいてトレーニングされたモデルである出力モジュールと、を備える。

本開示の他の態様によれば、少なくとも１つのプロセッサ及び前記少なくとも１つのプロセッサに通信可能に接続されるメモリを備える電子機器が提供され、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な指令が記憶されており、前記指令は、前記少なくとも１つのプロセッサが本開示の第１の態様に記載の文字位置決めモデルのトレーニング方法又は第２の態様に記載の文字位置決め方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

本開示の他の態様によれば、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体が提供され、前記コンピュータ指令は、前記コンピュータに本開示の第１の態様に記載の文字位置決めモデルのトレーニング方法又は第２の態様に記載の文字位置決め方法を実行させることに用いられる。

本開示の他の態様によれば、コンピュータプログラムがプロセッサによって実行される場合、本開示の第１の態様に記載の文字位置決めモデルのトレーニング方法又は第２の態様に記載の文字位置決め方法のステップが実現されることを特徴とするコンピュータプログラムが提供される。

なお、本部分に記載された内容は、本開示の実施例の肝心または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって容易に理解されやすくなる。

図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の第１の実施例に係る概略図である。本開示に係るサンプル画像の概略図である。本開示に係る予測テキストボックスの概略図である。本開示の第２の実施例に係る概略図である。本開示の第３の実施例に係る概略図である。本開示の第４の実施例に係る概略図である。本開示に係るマーキングテキストボックス及びサンプルの事前アンカーボックスの概略図である。本開示の第５の実施例に係る概略図である。本開示の実施例に係る文字位置決めモデルのトレーニング方法を実現するための文字位置決めモデルのトレーニング装置のブロック図である。本開示の実施例に係る文字位置決め方法を実現するための文字位置決め装置のブロック図である。本開示の実施例に係る文字位置決めモデルのトレーニング方法又は文字位置決め方法を実現するための電子機器のブロック図である。

以下、図面を組み合わせて本開示の例示的な実施例を説明し、理解を容易にするために、本開示の実施例の様々な詳細事項が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

以下、本開示の方案に係る技術分野を簡略に説明する。

コンピュータ技術（ＣｏｍｐｕｔｅｒＴｅｃｈｎｏｌｏｇｙ）は、内容が非常に広く、コンピュータシステム技術、コンピュータデバイス技術、コンピュータ部品技術及びコンピュータ組み立て技術などのいくつかの方面に大まかに分けられる。コンピュータ技術は、演算方法の基本原理及び演算器設計、指令ステム、中央処理装置（ＣＰＵ）設計、パイプライン原理及びそのＣＰＵ設計での応用、記憶システム、バス及び入出力を含む。

ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能）は、コンピュータに人間のある思考過程と知能行為（例えば、学習、推理、思考、計画など）をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能ハードウェア技術は、一般的にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習／深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方向を含む。

コンピュータビジョン（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ）は、どのように機械に「見せる」かを研究する学科であり、さらに言えば、カメラやコンピュータで人間の目に代えて目標に対して認識、追跡及び測定などの機械ビジョンを行い、さらにグラフィック処理を行い、人間の目で観察することにさらに適したり、検出のために計器に伝送したりする画像にコンピュータが処理できるようにすることを指す。科学学科として、コンピュータビジョンは、関連する理論や技術を研究し、画像や多次元データから「情報」を取得できる人工知能システムの確立を意図している。

ＤＬ（ＤｅｅｐＬｅａｒｎｉｎｇ、深層学習）とは、サンプルデータの内在法則及び表現階層を学習することであり、これらの学習過程で取得された情報は、文字、画像及び音声などのデータの説明に大きく役立つ。究極の目標は、機械が人間のように分析学習能力を持ち、文字、画像及び音声などのデータを認識できるようにすることである。深層学習は、複雑な機械学習アルゴリズムであり、音声及び画像認識の面で得られた効果は、従来の関連技術を遥かに上回っている。深層学習は、検索技術、データマイニング、機械学習、機械翻訳、自然言語処理、マルチメディア学習、音声、推奨及びパーソナライズ技術、及びその他の関連分野で多くの成果を収めている。深層学習は、機械に視聴及び思考などの人間の活動をシミュレートさせ、複雑なパターン認識の多くの難題を解決し、人工知能技術関連の技術を大きく進歩させた。

以下に、図面を参照して本開示の実施例の文字位置決めモデルのトレーニング方法及び文字位置決め方法を説明する。

図１は、本開示の第１の実施例に係る概略図である。

図１に示すように、本実施例に係る文字位置決めモデルのトレーニング方法は、以下のステップを含む。

Ｓ１０１において、サンプル画像を取得し、サンプル画像にはサンプルの位置決め対象の文字及びサンプルの位置決め対象の文字のマーキングテキストボックスが含まれている。

ここで、サンプル画像は、文字位置決め結果（サンプルの位置決め対象の文字及びサンプルの位置決め対象の文字のマーキングテキストボックス）をマーキングしたいずれかの画像であってもよい。

例えば、図２に示すように、サンプル画像は、収集された会計伝票の画像であってもよく、ここで、サンプル画像には、２－１～２－４の計４つのマーキングテキストボックスが含まれており、マーキングテキストボックスには、サンプルの位置決め対象の文字が含まれている。

なお、本開示では、サンプル画像の数を限定せず、実際の状況に応じて取得することができる。

例えば、１０００個のサンプル画像を取得することができ、この場合、１０００個のサンプル画像には、計１０００個のサンプルの位置決め対象の文字及び１０００個のサンプルの位置決め対象の文字のマーキングテキストボックスが含まれている。

Ｓ１０２において、サンプル画像をトレーニング対象の文字位置決めモデルに入力し、サンプルの位置決め対象の文字を位置決めし、サンプル画像の予測テキストボックスを出力する。

本開示の実施例において、サンプル画像が取得された後、サンプル画像に基づいてトレーニング対象の文字位置決めモデルをトレーニングすることができる。選択可能に、サンプル画像をトレーニング対象の文字位置決めモデルに入力してサンプルの位置決め対象の文字を位置決めし、サンプル画像の予測テキストボックスを出力することができる。

例えば、図３に示すように、図２におけるマーキングテキストボックス（２－１）に対応する画像領域を例として、サンプル画像をトレーニング対象の文字位置決めモデルに入力してサンプルの位置決め対象の文字を位置決めし、サンプル画像の予測テキストボックス３－１を取得することができる。

Ｓ１０３において、サンプル画像に対応するサンプルの事前アンカーボックスを取得する。

ここで、サンプルの事前アンカーボックス（Ａｎｃｈｏｒ）は、サンプル画像に対応するいずれかのサンプルの事前アンカーボックスであってもよい。

なお、本開示において、サンプルの事前アンカーボックスの数は、サンプル画像の数以上であり、つまり、各サンプル画像に対して、少なくとも対応する１つのサンプルのアンカーボックスを取得する。いくつかの例示において、サンプルの事前アンカーボックスは、画像における目標テキストボックスを位置決めしてマーキングする参照ボックスであり、該参照ボックスは特徴マップにおける各特徴点に基づいて決定されてもよい。具体的には、図４および図５を参照する。

なお、本開示において、サンプルの事前アンカーボックスを取得する具体的な方式を限定せず、実際の状況に応じて選択することができる。例えば、サンプル画像に対応するバーチカルサービスを取得し、バーチカルサービスに基づいて対応するサンプルの事前アンカーボックスを取得することができる。いくつの例示において、前記バーチカルサービスはサンプルの画像内容が属するバーチカルタイプである。別の例として、サンプル画像の特徴マップを取得し、特徴マップに基づいて対応するサンプルの事前アンカーボックスを取得することができる。

Ｓ１０４において、サンプルの事前アンカーボックス、マーキングテキストボックス及び予測テキストボックスに基づいて、文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の文字位置決めモデルをトレーニングし続ける。

本開示の実施例において、サンプルの事前アンカーボックス、マーキングテキストボックス及び予測テキストボックスが取得された後、サンプルの事前アンカーボックス、マーキングテキストボックス及び予測テキストボックスに基づいて、文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングの終了条件を満たすまで、次のサンプル画像を利用して調整後の文字位置決めモデルをトレーニングし続けることができ、最後にモデルパラメータを調整したモデルを目標文字位置決めモデルとする。

ここで、トレーニングの終了条件は、実際の状況に応じて設定することができ、本開示では限定しない。

選択可能に、トレーニングの終了条件は、予測テキストボックスとマーキングテキストボックスとの違いが予め設定された違いの閾値より小さいように設定することができる。例えば、トレーニングの終了条件は、予測テキストボックスとマーキングテキストボックスとの違いが９５％未満であるように設定することができる。

本開示の実施例に係る文字位置決めモデルのトレーニング方法は、サンプル画像を取得し、サンプル画像をトレーニング対象の文字位置決めモデルに入力してサンプルの位置決め対象の文字を位置決めすることにより、サンプル画像の予測テキストボックスを出力し、サンプル画像に対応するサンプルの事前アンカーボックスを取得し、サンプルの事前アンカーボックス、マーキングテキストボックス及び予測テキストボックスに基づいて、文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の文字位置決めモデルをトレーニングし続けることができる。これにより、本開示は、サンプルの事前アンカーボックスを導入し、モデルトレーニング中の予測テキストボックスの取得のために参照を提供し、モデルトレーニングにおいてゼロからの回帰予測を必要とせず、モデルトレーニングの消費時間及び難易度を低減し、モデルトレーニング結果の信頼性を向上させる。

図４は、本開示の第２の実施例に係る概略図である。

図４に示すように、本開示に係る文字位置決めモデルのトレーニング方法は、上記実施例に基づいて、具体的に以下のステップを含む。

Ｓ４０１において、サンプル画像を取得し、ここで、サンプル画像にはサンプルの位置決め対象の文字及びサンプルの位置決め対象の文字のマーキングテキストボックスが含まれている。

Ｓ４０２において、サンプル画像をトレーニング対象の文字位置決めモデルに入力し、サンプルの位置決め対象の文字を位置決めし、サンプル画像の予測テキストボックスを出力する。

当該ステップＳ４０１～Ｓ４０２は、上記ステップＳ１０１～Ｓ１０２と一致し、ここでは詳しく説明しない。

前の実施例中のステップＳ１０３におけるサンプル画像に対応するサンプルの事前アンカーボックスを取得する具体的な手順は、以下のステップＳ４０３～Ｓ４０４を含む。

Ｓ４０３において、サンプル画像に対して特徴抽出を行い、サンプル画像に対応する特徴マップを取得する。

なお、本開示において、特徴マップにおける各特徴点に対して、サイズが異なるサンプルの事前アンカーボックスを設定することができる。したがって、サンプルの事前アンカーボックスを取得しようとする時に、先ずサンプル画像に対して特徴抽出を行い、サンプル画像に対応する特徴マップを取得することができる。

Ｓ４０４において、特徴マップに基づいて、マッチングされるサンプルの事前アンカーボックスを取得する。

可能な一実現形態として、図５に示すように、上記実施例に基づいて、具体的に以下のステップを含む。

Ｓ５０１において、特徴マップに基づいて、少なくとも１つのサンプルの位置決め対象の文字を取得する。

なお、特徴マップにおけるいずれかの特徴点に対して、一意のサイズであるサンプルの位置決め対象の文字に対応する場合もあれば、異なるサイズである複数のサンプルの位置決め対象の文字に対応する場合もある。この場合、特徴マップが取得された後、特徴マップに基づいて、少なくとも１つのサンプルの位置決め対象の文字を取得することができる。

Ｓ５０２において、各サンプルの位置決め対象の文字のサイズを取得する。

Ｓ５０３において、各サンプルの位置決め対象の文字に対して、サンプルの位置決め対象の文字のサイズに対応するサンプルの事前アンカーボックスを取得する。

本開示の実施例において、特徴マップにおける特徴点が異なるサイズの複数のサンプルの位置決め対象の文字に対応する場合に対して、異なるサンプルの事前アンカーボックスを割り当てることにより、文字の重なりの問題を緩和することができる。

前の実施例中のステップＳ１０４におけるサンプルの事前アンカーボックス、マーキングテキストボックス及び予測テキストボックスに基づいて、文字位置決めモデルのモデルパラメータを調整する具体的な手順は、以下のステップＳ４０５～Ｓ４０８を含む。

Ｓ４０５において、サンプルの事前アンカーボックス及び予測テキストボックスに基づいて、第１の損失関数を取得する。

本願の実施例において、マーキングテキストボックスの属性情報及びサンプルの事前アンカーボックスの属性情報に基づいて、第１の損失関数を取得することができる。

可能な一実現形態として、図６に示すように、上記実施例に基づいて、具体的に以下のステップを含む。

Ｓ６０１において、マーキングテキストボックスのＸ軸のコーナーポイントと中心点との間の第１の距離、及びマーキングテキストボックスのＹ軸のコーナーポイントと中心点との間の第２の距離を取得する。

なお、マーキングテキストボックスには、計４個のＸ軸のコーナーポイントがあり、いずれかのＸ軸のコーナーポイントと中心点との間の距離が等しいため、マーキングテキストボックスのＸ軸のコーナーポイントと中心点との間の第１の距離を取得しようとする時に、いずれかのＸ軸のコーナーポイントと中心点との間の距離を第１の距離とすることができる。

なお、マーキングテキストボックスには、計４個のＹ軸のコーナーポイントがあり、いずれかのＹ軸のコーナーポイントと中心点との間の距離が等しいため、マーキングテキストボックスのＹ軸のコーナーポイントと中心点との間の第２の距離を取得しようとする時に、いずれかのＹ軸のコーナーポイントと中心点との間の距離を第２の距離とすることができる。

Ｓ６０２において、サンプルの事前アンカーボックスの長さ及び幅を取得する。

ここで、マーキングテキストボックスの中心点は、サンプルの事前アンカーボックスの中心点と重なり合っている。

例えば、図７に示すように、マーキングテキストボックス７－１のＸ軸のコーナーポイントＧｘと中心点（Ｐｃｘ，Ｐｃｙ）との間の第１の距離ｄ１＝Ｇｘ－Ｐｃｘ、及びマーキングテキストボックス７－１のＹ軸のコーナーポイントＧｙと中心点（Ｐｃｘ，Ｐｃｙ）との間の第２の距離ｄ２＝Ｇｙ－Ｐｃｙを取得する。

さらに、サンプルの事前アンカーボックス７－２の長さＰｈ及び幅Ｐｗを取得する。

Ｓ６０３において、第１の距離と幅との間の第１の比率、及び第２の距離と長さとの間の第２の比率をそれぞれ取得する。

例えば、第１の距離ｄ１、長さＰｈ、第２の距離ｄ２、幅Ｐｗに対して、第１の比率ｋ１＝ｄ１／Ｐｗ、すなわち、ｋ１＝（Ｇｘ－Ｐｃｘ）／Ｐｗ、第２の比率ｋ２＝ｄ２／Ｐｈ、すなわち、ｋ２＝（Ｇｙ－Ｐｃｙ）／Ｐｈを取得することができる。

Ｓ６０４において、第１の比率及び第２の比率に基づいて、第１の損失関数を取得する。

なお、本開示において第１の比率及び第２の比率と第１の損失関数との間のマッピング関係が予め設定されており、第１の比率及び第２の比率が取得された後、マッピング関係を検索することにより、第１の損失関数を取得することができる。

Ｓ４０６において、マーキングテキストボックス及び予測テキストボックスに基づいて、第２の損失関数を取得する。

本開示の実施例において、予測テキストボックスが取得された後、マーキングテキストボックスと予測テキストボックスとの間の違いを取得することができる。さらに、予め設定された違いと第２の損失関数との間のマッピング関係に基づいて、第２の損失関数を取得することができる。

Ｓ４０７において、第１の損失関数及び第２の損失関数に基づいて、文字位置決めモデルの損失関数を取得する。

なお、本開示は、第１の損失関数及び第２の損失関数に基づいて、文字位置決めモデルの損失関数を取得する具体的な方式を限定しない。

例えば、第１の損失関数と第２の損失関数との和を文字位置決めモデルの損失関数とすることができ、さらに例えば、第１の損失関数と第２の損失関数との積を文字位置決めモデルの損失関数とすることができる。また、例えば、第１の損失関数と第２の損失関数との重み付けの結果を文字位置決めモデルの損失関数とすることができる。

Ｓ４０８において、損失関数に基づいて文字位置決めモデルのモデルパラメータを調整する。

Ｓ４０９において、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の文字位置決めモデルをトレーニングし続ける。

当該ステップＳ４０９は、上記ステップＳ１０４と一致し、ここでは詳しく説明しない。

本開示の実施例に係る文字位置決めモデルのトレーニング方法は、サンプルの事前アンカーボックス及びマーキングテキストボックスに基づいて、第１の損失関数を取得し、マーキングテキストボックス及び予測テキストボックスに基づいて、第２の損失関数を取得し、第１の損失関数及び第２の損失関数に基づいて文字位置決めモデルの損失関数を取得することができ、損失関数の決定の消費時間を減らすことにより、モデルトレーニングの消費時間及び難易度をさらに低減し、モデルトレーニング結果の信頼性を向上させることができる。

図８は、本開示の第５の実施例に係る概略図である。

図８に示すように、本実施例に係る文字位置決め方法は、以下のステップを含む。

Ｓ８０１において、画像を取得し、ここで、画像には位置決め対象の文字が含まれている。

ここで、画像は、位置決め対象の文字を含むいずれかの画像であってもよい。

Ｓ８０２において、画像を目標文字位置決めモデルに入力して位置決め対象の文字を位置決めし、画像の目標テキストボックスを出力し、ここで、目標文字位置決めモデルは、本開示の第１の実施例のトレーニング方法に基づいてトレーニングされたモデルである。

本開示の実施例において、画像が取得された後、画像をトレーニングされた目標文字位置決めモデルに入力して位置決め対象の文字を位置決めし、画像の目標テキストボックスを出力することができ、この場合、目標テキストボックスは、画像に対する文字位置決め結果である。

本開示の実施例に係る文字位置決め方法は、位置決め対象の文字が含まれている画像を取得することにより、画像を目標文字位置決めモデルに入力して位置決め対象の文字を位置決めし、画像の目標テキストボックスを出力し、文字の位置決めを実現することができる。これにより、本開示は、サンプルの事前アンカーボックスに基づいてトレーニングされた収束目標文字位置決めモデルによって画像中の文字を位置決めすることにより、文字位置決めの精度及び信頼性を向上させる。

なお、関連技術において、分割に基づく文字位置決め方式及びアンカーボックスに基づく文字位置決め方式を採用することにより文字モデルのトレーニング及び文字の位置決めを行う。

ここで、分割に基づく文字位置決め方式では、文字に対する画像における各画素点の応答を直接予測することができ、テキストが長いという問題により良く対応できる。しかしながら、文字の重なりが存在する場合、文字に対する画素点の応答は、どのフィールドに属するかを判別することができない。

ここで、アンカーボックスに基づく文字位置決め方式、例えば、ＥＡＳＴ（ＥｆｆｉｃｉｅｎｔａｎｄＡｃｃｕｒａｃｙＳｃｅｎｅＴｅｘｔ）では、画像中の格子点ごとに文字の応答がある場合、文字の四隅点を予測する。しかしながら、正負のサンプルを正確に区別することが困難であるなどの問題に基づいて、遮蔽問題の処理が困難になる可能性がある。

以上のように、本開示に係る文字位置決め方法及び文字位置決めモデルのトレーニング方法は、関連技術で採用されている分割に基づく文字位置決め方式及びアンカーボックスに基づく文字位置決め方式とは異なり、モデルトレーニングにおいてゼロからの回帰予測を必要とせず、モデルトレーニングの消費時間及び難易度を低減し、モデルトレーニング結果の信頼性を向上させるなどの利点がある。

本開示の技術案において、ユーザ個人情報の取得、記憶及び適用などについては、いずれも関連する法律法規の規定に適合しており、公序良俗に反するものではない。

上記いくつかの実施例に係るものに対応し、本開示の一実施例は、文字位置決めモデルのトレーニング装置をさらに提供し、本開示の実施例に係る文字位置決めモデルのトレーニング装置が上記いくつかの実施例に係る文字位置決めモデルのトレーニング方法に対応するため、文字位置決めモデルのトレーニング方法の実施形態は、本実施例に係る文字位置決めモデルのトレーニング装置にも適用し、本実施例では詳しく説明しない。

図９は、本開示の一実施例に係る文字位置決めモデルのトレーニング装置の概略ブロック図である。

図９に示すように、当該文字位置決めモデルのトレーニング装置９００は、第１の取得モジュール９０１、出力モジュール９０２、第２の取得モジュール９０３及び生成モジュール９０４を備える。第１の取得モジュール９０１は、サンプル画像を取得するように構成され、前記サンプル画像にはサンプルの位置決め対象の文字及び前記サンプルの位置決め対象の文字のマーキングテキストボックスが含まれており、出力モジュール９０２は、前記サンプル画像をトレーニング対象の文字位置決めモデルに入力し、前記サンプルの位置決め対象の文字を位置決めし、前記サンプル画像の予測テキストボックスを出力するように構成され、第２の取得モジュール９０３は、前記サンプル画像に対応するサンプルの事前アンカーボックスを取得するように構成され、生成モジュール９０４は、前記サンプルの事前アンカーボックス、前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、前記文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の前記文字位置決めモデルをトレーニングし続けるように構成される。

ここで、生成モジュール９０４は、さらに、前記サンプルの事前アンカーボックス及び前記マーキングテキストボックスに基づいて、第１の損失関数を取得し、前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、第２の損失関数を取得し、前記第１の損失関数及び前記第２の損失関数に基づいて、前記文字位置決めモデルの損失関数を取得し、前記損失関数に基づいて前記文字位置決めモデルのモデルパラメータを調整するように構成される。

ここで、生成モジュール９０４は、さらに、前記マーキングテキストボックスの属性情報及び前記サンプルの事前アンカーボックスの属性情報に基づいて、前記第１の損失関数を取得するように構成される。

ここで、生成モジュール９０４は、さらに、前記マーキングテキストボックスのＸ軸のコーナーポイントと中心点との間の第１の距離、及び前記マーキングテキストボックスのＹ軸のコーナーポイントと前記中心点との間の第２の距離を取得し、前記サンプルの事前アンカーボックスの長さ及び幅を取得し、前記第１の距離と前記幅との間の第１の比率、及び前記第２の距離と前記長さとの間の第２の比率をそれぞれ取得し、前記第１の比率及び前記第２の比率に基づいて、前記第１の損失関数を取得するように構成される。

ここで、前記マーキングテキストボックスの前記中心点は、前記サンプルの事前アンカーボックスの中心点と重なり合っている。

ここで、第２の取得モジュール９０３は、さらに、前記サンプル画像に対して特徴抽出を行い、前記サンプル画像に対応する特徴マップを取得し、前記特徴マップに基づいて、マッチングされる前記サンプルの事前アンカーボックスを取得するように構成される。

本開示の実施例に係る文字位置決めモデルのトレーニング装置は、サンプル画像を取得し、サンプル画像をトレーニング対象の文字位置決めモデルに入力してサンプルの位置決め対象の文字を位置決めすることにより、サンプル画像の予測テキストボックスを出力し、サンプル画像に対応するサンプルの事前アンカーボックスを取得し、サンプルの事前アンカーボックス、マーキングテキストボックス及び予測テキストボックスに基づいて、文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の文字位置決めモデルをトレーニングし続けることができる。これにより、本開示は、サンプルの事前アンカーボックスを導入し、モデルトレーニング中の予測テキストボックスの取得のために参照を提供し、モデルトレーニングにおいてゼロからの回帰予測を必要とせず、モデルトレーニングの消費時間及び難易度を低減し、モデルトレーニング結果の信頼性を向上させる。

図１０は、本開示の一実施例に係る文字位置決め装置の概略構成図である。

図１０に示すように、当該文字位置決め装置１０００は、取得モジュール１００１及び出力モジュール１００２を備える。取得モジュール１００１は、画像を取得するように構成され、前記画像には位置決め対象の文字が含まれており、出力モジュール１００２は、前記画像を目標文字位置決めモデルに入力して前記位置決め対象の文字を位置決めし、前記画像の目標テキストボックスを出力するように構成され、前記目標文字位置決めモデルは、上記実施態様に記載のトレーニング方法に基づいてトレーニングされたモデルである。

本開示の実施例に係る文字位置決め装置は、位置決め対象の文字が含まれている画像を取得することにより、画像を目標文字位置決めモデルに入力して位置決め対象の文字を位置決めし、画像の目標テキストボックスを出力し、文字の位置決めを実現することができる。これにより、本開示は、サンプルの事前アンカーボックスに基づいてトレーニングされた収束目標文字位置決めモデルによって画像中の文字を位置決めすることにより、文字位置決め中の精度及び信頼性を向上させる。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体及びコンピュータプログラムをさらに提供する。

図１１には、本開示の実施例を実現することに用いられる例示的な電子機器１１００の概略ブロック図が示される。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限するものではない。

図１１に示すように、デバイス１１００は、リードオンリーメモリ（ＲＯＭ）１１０２に記憶されているコンピュータプログラム、又は記憶ユニット１１０８からランダムアクセスメモリ（ＲＡＭ）１１０３にロッドされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる計算ユニット１１０１を備える。ＲＡＭ１１０３には、デバイス１１００の動作に必要な様々なプログラム及びデータが記憶されていてもよい。計算ユニット１１０１、ＲＯＭ１１０２及びＲＡＭ１１０３は、バス１１０４を介して互いに接続されている。入出力（Ｉ／Ｏ）インタフェース１１０５もバス１１０４に接続されている。

デバイス１１００における、キーボード、マウスなどの入力ユニット１１０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット１１０７と、磁気ディスク、光ディスクなどの記憶ユニット１１０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット１１０９と、を備える複数のコンポーネントは、入出力（Ｉ／Ｏ）インタフェース１１０５に接続されている。通信ユニット１１０９は、デバイス１１００がインターネットなどのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

計算ユニット１１０１は、各種の処理及び計算能力を有する汎用及び／又は専用処理コンポーネントであってもよい。計算ユニット１１０１のいくつかの例は、セントラルプロセッシングユニット（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、各種の専用人工知能（ＡＩ）計算チップ、各種の機械学習モデルアルゴリズムを運行する計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、及びいずれかの適宜なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット１１０１は、上述したそれぞれの方法及び処理、例えば、文字位置決めモデルのトレーニング方法又は文字位置決め方法を実行する。例えば、いくつかの実施例で、文字位置決めモデルのトレーニング方法又は文字位置決め方法は、記憶ユニット１１０８のような機械読み取り可能な媒体に具体的に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例で、コンピュータの一部又は全部は、ＲＯＭ１１０２及び／又は通信ユニット１１０９を介してデバイス１１００にロッド及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ１１０３にロッドされて計算ユニット１１０１によって実行された場合、上述した文字位置決めモデルのトレーニング方法又は文字位置決め方法の１つ又は複数のステップを実行することができる。あるいは、他の実施例で、計算ユニット１１０１は、他の任意の適切な形態で（例えば、ファーとウェアにより）文字位置決めモデルのトレーニング方法又は文字位置決め方法を実行するように構成されてもよい。

本明細書で上述したシステム及び技術の各種の実施方式は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックス・プログラマブル・ロジック・デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア及び／又はそれらの組合せにおいて実現してもよい。これらの各種の実施方式は、少なくとも１つのプログラマブルプロセッサを備えるプログラマブルシステムにおいて実行及び／又は解釈することができる１つ又は複数のコンピュータプログラムにおいて実現されてもよく、当該プログラマブルプロセッサは、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置にデータ及び命令を伝送することができる専用及び／又は汎用プログラマブルプロセッサであってもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャート及び／又はブロック図に規定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行され、部分的に機械上で実行され、スタンドアロンパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行され、又は完全にリモート機械又はサーバ上で実行されてもよい。

本開示の文脈では、機械読み取り可能な媒体は、命令実行システム、装置、又はデバイスによって使用されるために、又は命令実行システム、装置、又はデバイスと組み合わせて使用するためのプログラムを含むか、又は格納することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、又はこれらの任意の適切な組み合わせを備えることができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）又はフラッシュメモリ、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドユニットを備えるコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアユニットを備えるコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドユニットを備えるコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施方式とインタラクションする）、又はこのようなバックエンドユニットと、ミドルウェアユニットと、フロントエンドユニットの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークとを含む。

コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、分散システムのサーバであってもよく、又はブロックチェーンを組み合わせたサーバであってもよい。

本開示は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムがプロセッサによって実行される場合、上記のような文字位置決めモデルのトレーニング方法又は文字位置決め方法のステップが実現される。

なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。

上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

コンピュータにより実行される文字位置決めモデルのトレーニング方法であって、
サンプル画像を取得するステップであって、前記サンプル画像にはサンプルの位置決め対象の文字及び前記サンプルの位置決め対象の文字のマーキングテキストボックスが含まれているステップと、
前記サンプル画像をトレーニング対象の文字位置決めモデルに入力し、前記サンプルの位置決め対象の文字を位置決めし、前記サンプル画像の予測テキストボックスを出力するステップと、
前記サンプル画像に対応するサンプルの事前アンカーボックスを取得するステップと、
前記サンプルの事前アンカーボックス、前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、前記文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の前記文字位置決めモデルをトレーニングし続けるステップと、
を含み、
前記サンプル画像に対応するサンプルの事前アンカーボックスを取得するステップが、
前記サンプル画像に対して特徴抽出を行い、前記サンプル画像に対応する特徴マップを取得するステップと、
前記特徴マップに基づいて、マッチングされる前記サンプルの事前アンカーボックスを取得するステップと、
を含む、文字位置決めモデルのトレーニング方法。
前記サンプルの事前アンカーボックス、前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、前記文字位置決めモデルのモデルパラメータを調整するステップが、
前記サンプルの事前アンカーボックス及び前記マーキングテキストボックスに基づいて、第１の損失関数を取得するステップと、
前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、第２の損失関数を取得するステップと、
前記第１の損失関数及び前記第２の損失関数に基づいて、前記文字位置決めモデルの損失関数を取得するステップと、
前記損失関数に基づいて前記文字位置決めモデルのモデルパラメータを調整するステップと、
を含む請求項１に記載の文字位置決めモデルのトレーニング方法。
前記サンプルの事前アンカーボックス及び前記マーキングテキストボックスに基づいて、第１の損失関数を取得するステップが、
前記マーキングテキストボックスの属性情報及び前記サンプルの事前アンカーボックスの属性情報に基づいて、前記第１の損失関数を取得するステップを含む請求項２に記載の文字位置決めモデルのトレーニング方法。
前記マーキングテキストボックスの属性情報及び前記サンプルの事前アンカーボックスの属性情報に基づいて、前記第１の損失関数を取得するステップが、
前記マーキングテキストボックスのＸ軸のコーナーポイントと中心点との間の第１の距離、及び前記マーキングテキストボックスのＹ軸のコーナーポイントと前記中心点との間の第２の距離を取得するステップと、
前記サンプルの事前アンカーボックスの長さ及び幅を取得するステップと、
前記第１の距離と前記幅との間の第１の比率、及び前記第２の距離と前記長さとの間の第２の比率をそれぞれ取得するステップと、
前記第１の比率及び前記第２の比率に基づいて、前記第１の損失関数を取得するステップと、
を含む請求項３に記載の文字位置決めモデルのトレーニング方法。
前記マーキングテキストボックスの前記中心点は、前記サンプルの事前アンカーボックスの中心点と重なり合っている請求項４に記載の文字位置決めモデルのトレーニング方法。
前記特徴マップに基づいて、マッチングされる前記サンプルの事前アンカーボックスを取得するステップが、
前記特徴マップに基づいて、少なくとも１つの前記サンプルの位置決め対象の文字を取得するステップと、
各前記サンプルの位置決め対象の文字のサイズを取得するステップと、
各前記サンプルの位置決め対象の文字に対して、前記サンプルの位置決め対象の文字のサイズに対応する前記サンプルの事前アンカーボックスを取得するステップと、
を含む請求項１に記載の文字位置決めモデルのトレーニング方法。
画像を取得するステップであって、前記画像には位置決め対象の文字が含まれているステップと、
前記画像を目標文字位置決めモデルに入力して前記位置決め対象の文字を位置決めし、前記画像の目標テキストボックスを出力するステップであって、前記目標文字位置決めモデルが、請求項１に記載のトレーニング方法に基づいてトレーニングされたモデルであるステップと、
を含む文字位置決め方法。
サンプル画像を取得するように構成される第１の取得モジュールであって、前記サンプル画像にはサンプルの位置決め対象の文字及び前記サンプルの位置決め対象の文字のマーキングテキストボックスが含まれている第１の取得モジュールと、
前記サンプル画像をトレーニング対象の文字位置決めモデルに入力し、前記サンプルの位置決め対象の文字を位置決めし、前記サンプル画像の予測テキストボックスを出力するように構成される出力モジュールと、
前記サンプル画像に対応するサンプルの事前アンカーボックスを取得するように構成される第２の取得モジュールと、
前記サンプルの事前アンカーボックス、前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、前記文字位置決めモデルのモデルパラメータを調整し、モデルトレーニングが終了して目標文字位置決めモデルを生成するまで、次のサンプル画像を利用して調整後の前記文字位置決めモデルをトレーニングし続けるように構成される生成モジュールと、
を備え、
前記第２の取得モジュールが、
前記サンプル画像に対して特徴抽出を行い、前記サンプル画像に対応する特徴マップを取得し、
前記特徴マップに基づいて、マッチングされる前記サンプルの事前アンカーボックスを取得するように構成される、文字位置決めモデルのトレーニング装置。
前記生成モジュールが、
前記サンプルの事前アンカーボックス及び前記マーキングテキストボックスに基づいて、第１の損失関数を取得し、
前記マーキングテキストボックス及び前記予測テキストボックスに基づいて、第２の損失関数を取得し、
前記第１の損失関数及び前記第２の損失関数に基づいて、前記文字位置決めモデルの損失関数を取得し、
前記損失関数に基づいて前記文字位置決めモデルのモデルパラメータを調整するように構成される請求項８に記載の文字位置決めモデルのトレーニング装置。
前記生成モジュールが、
前記マーキングテキストボックスの属性情報及び前記サンプルの事前アンカーボックスの属性情報に基づいて、前記第１の損失関数を取得するように構成される請求項９に記載の文字位置決めモデルのトレーニング装置。
前記生成モジュールが、
前記マーキングテキストボックスのＸ軸のコーナーポイントと中心点との間の第１の距離、及び前記マーキングテキストボックスのＹ軸のコーナーポイントと前記中心点との間の第２の距離を取得し、
前記サンプルの事前アンカーボックスの長さ及び幅を取得し、
前記第１の距離と前記幅との間の第１の比率、及び前記第２の距離と前記長さとの間の第２の比率をそれぞれ取得し、
前記第１の比率及び前記第２の比率に基づいて、前記第１の損失関数を取得するように構成される請求項１０に記載の文字位置決めモデルのトレーニング装置。
前記マーキングテキストボックスの前記中心点は、前記サンプルの事前アンカーボックスの中心点と重なり合っている請求項１１に記載の文字位置決めモデルのトレーニング装置。
前記第２の取得モジュールが、
前記特徴マップに基づいて、少なくとも１つの前記サンプルの位置決め対象の文字を取得し、
各前記サンプルの位置決め対象の文字のサイズを取得し、
各前記サンプルの位置決め対象の文字に対して、前記サンプルの位置決め対象の文字のサイズに対応する前記サンプルの事前アンカーボックスを取得するように構成される請求項８に記載の文字位置決めモデルのトレーニング装置。
画像を取得するように構成される取得モジュールであって、前記画像には位置決め対象の文字が含まれている取得モジュールと、
前記画像を目標文字位置決めモデルに入力して前記位置決め対象の文字を位置決めし、前記画像の目標テキストボックスを出力するように構成される出力モジュールであって、前記目標文字位置決めモデルが、請求項１から６のいずれか一項に記載のトレーニング方法に基づいてトレーニングされたモデルである出力モジュールと、
を備える文字位置決め装置。
プロセッサとメモリとを備え、
前記プロセッサが、請求項１から７のいずれか一項に記載の方法を実現するために、前記メモリに記憶された実行可能なプログラムコードを読み取ることにより、前記実行可能なプログラムコードに対応するプログラムを実行する電子機器。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、
当該プログラムがプロセッサによって実行される場合、請求項１から７のいずれか一項に記載の方法が実現されるコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される場合、請求項１から７のいずれか一項に記載の方法のステップが実現されるコンピュータプログラム。