JP2023541351A

JP2023541351A - 文字消去モデルのトレーニング方法及び装置、訳文表示方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム

Info

Publication number: JP2023541351A
Application number: JP2023509866A
Authority: JP
Inventors: 亮呉; 珊珊劉; 成全章; ▲クン▼ 姚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-17
Filing date: 2022-04-22
Publication date: 2023-10-02
Also published as: CN113657396B; WO2023019995A1; CN113657396A

Abstract

本開示は、文字消去モデルのトレーニング方法、訳文表示方法、装置、電子機器及び記憶媒体を提供し、人工知能技術分野、具体的にはコンピュータ視覚及びディープラーニングの分野に関し、ＯＣＲ光学文字認識などのシーンに応用することができる。具体的な解決手段は、敵対的生成ネットワークモデルの生成器を利用して原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得し、ここで、敵対的生成ネットワークモデルが前記生成器及び判別器を含むことと、実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとを利用して、生成器と判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得することと、トレーニング済みの生成器を文字消去モデルとして特定することと、を含み、ここで、実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は、実文字ブロック消去画像における文字消去領域以外の他の領域の画素値に基づいて特定される。

Description

本願は、２０２１年８月１７日に提出され、出願番号が２０２１１０９４５８７１．０である中国特許出願の優先権を要求し、その全ての内容は引用により本願に組み込まれる。

本開示は、人工知能技術分野、具体的にはコンピュータ視覚及びディープラーニングの技術分野に関し、ＯＣＲ光学文字認識などのシーンに応用することができる。具体的には、トレーニング方法、訳文表示方法、装置、電子機器及び記憶媒体に関する。

グローバル化の推進に伴い、各国の間で学術、商業、生活などでの交流がますます頻繁になるが、各国の言語に差異が存在し、ユーザは翻訳アプリケーションによりある言語の文字を別の言語の文字に翻訳することができ、交流しやすくなる。

撮影翻訳は新たな翻訳製品形態であり、現在の撮影翻訳機能の入力は元言語文字付きの画像であり、出力は目標翻訳言語文字付きの画像である。

本開示はトレーニング方法、訳文表示方法、装置、電子機器及び記憶媒体を提供する。

本開示の一態様によれば、文字消去モデルのトレーニング方法を提供し、敵対的生成ネットワークモデルの生成器を利用して原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得し、ここで、前記敵対的生成ネットワークモデルが前記生成器及び判別器を含むことと、実文字ブロック消去画像セットと前記シミュレーション文字ブロック消去画像セットとを利用して、前記生成器と前記判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得することと、前記トレーニング済みの生成器を前記文字消去モデルとして特定することと、を含み、ここで、前記実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は、前記実文字ブロック消去画像における前記文字消去領域以外の他の領域の画素値に基づいて特定される。

本開示の別の態様によれば、訳文表示方法を提供し、文字消去モデルを利用して、目標原文文字ブロックを含む目標原文文字ブロック画像を処理し、目標文字ブロック消去画像を取得することと、訳文表示パラメータを特定することと、前記訳文表示パラメータに基づいて、前記目標原文文字ブロックに対応する訳文文字ブロックを前記目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を取得することと、前記目標訳文文字ブロック画像を表示することとを含み、ここで、前記文字消去モデルは上記の方法でトレーニングされたものである。

本開示の別の態様によれば、文字消去モデルのトレーニング装置を提供し、敵対的生成ネットワークモデルの生成器を利用して原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得するものであって、ここで、前記敵対的生成ネットワークモデルが前記生成器及び判別器を含む第一取得モジュールと、実文字ブロック消去画像セットと前記シミュレーション文字ブロック消去画像セットとを利用して、前記生成器と前記判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得する第二取得モジュールと、前記トレーニング済みの生成器を前記文字消去モデルとして特定する第一特定モジュールと、を含み、ここで、前記実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は前記実文字ブロック消去画像における前記文字消去領域以外の他の領域の画素値に基づいて特定される。

本開示の別の態様によれば、訳文表示装置を提供し、文字消去モデルを利用して、目標原文文字ブロックを含む目標原文文字ブロック画像を処理し、目標文字ブロック消去画像を取得する第三取得モジュールと、訳文表示パラメータを特定する第二特定モジュールと、前記訳文表示パラメータに基づいて、前記目標原文文字ブロックに対応する訳文文字ブロックを前記目標テキスト消去画像に重ね合わせ、目標訳文文字ブロック画像を取得する第四取得モジュールと、前記目標訳文文字ブロック画像を表示する表示モジュールと、を含み、ここで、前記文字消去モデルは上記の方法でトレーニングされたものである。

本開示の別の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記命令は前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが上記の方法を実行することができる。

本開示の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、ここで、前記コンピュータ命令は前記コンピュータに上記の方法を実行させる。

本開示の別の態様によれば、プロセッサにより実行される時に上記の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。

理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。

図面は本技術案をよりよく理解するために用いられ、本開示を限定するものではない。

図１は、本開示の実施例に係る文字消去モデルのトレーニング方法、訳文表示方法及び装置を適用可能な例示的なシステムアーキテクチャを概略的に示す。図２は、本開示の実施例に係る文字消去モデルのトレーニング方法のフローチャートを概略的に示す。図３は、本開示の実施例に係る第一実文字ブロック消去画像セット及び第一シミュレーション文字ブロック消去画像セットを利用して判別器をトレーニングするフローチャートを概略的に示す。図４は、本開示の実施例に係る文字消去モデルのトレーニングプロセスの概略図を概略的に示す。図５は、本開示の実施例に係る訳文表示方法のフローチャートを概略的に示す。図６は、本開示の実施例に係る訳文表示行数及び／又は訳文表示高さを特定するフローチャートを概略的に示す。図７は、本開示の実施例に係る訳文表示プロセスの概略図を概略的に示す。図８Ａは、本開示の実施例に係る文字消去プロセスの概略図を概略的に示す。図８Ｂは、本開示の実施例に係る訳文貼り合わせプロセスの概略図を概略的に示す。図９は、本開示の実施例に係る文字消去モデルのトレーニング装置のブロック図を概略的に示す。図１０は、本開示の実施例に係る訳文表示装置のブロック図を概略的に示す。図１１は、本開示の実施例に係る文字消去モデルのトレーニング方法又は訳文表示方法を実現することに適する電子機器のブロック図を概略的に示す。

以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが単に例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。

撮影翻訳技術は、文字を含むシーンを撮影して画像を取得し、次に取得された画像におけるテキスト行の文字内容を認識することと、さらに文字内容に対して機械翻訳を行い、翻訳後の文字内容を取得することと、翻訳後の文字内容をユーザに表示することと、を含むことができる。画像の元のテキスト行に翻訳結果を直接的に表示する必要がある場合、まず画像における元のテキスト行のテキストを消去し、次に訳文を元のテキスト行の位置に貼り付けて翻訳結果を表示する必要がある。

本開示の思想を実現する過程において、発見された１つの技術案として、元画像における文字を消去する時に、原画像における文字領域に対してぼかしフィルタリング処理を直接的に行うことができ、又は文字ブロック領域の色平均値によって領域全体を充填することにより、ユーザにとって元文字を視覚的に消去するという効果を達成する。しかし、これによって文字領域と画像の他の背景部分との区別が明らかになり、消去効果が低く、ユーザの視覚体験に影響を与える。

このために、本開示の実施例は、文字消去モデルのトレーニング方法、訳文表示方法、装置、電子機器、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。該文字消去モデルのトレーニング方法は、敵対的生成ネットワークモデルの生成器によってトレーニングセットを処理し、シミュレーション文字ブロック消去画像セットを取得することを含み、ここで、敵対的生成ネットワークモデルは生成器及び判別器を含む。実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとを用いて、生成器と判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得する。トレーニング済みの生成器を文字消去モデルとして特定する。実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は、実文字ブロック消去画像における文字消去領域以外の他の領域の画素値に基づいて特定される。

図１は、本開示の実施例に係る文字消去モデルのトレーニング方法、訳文表示方法及び装置を適用可能な例示的なシステムアーキテクチャを概略的に示す。

注意すべきこととして、当業者が本開示の技術内容を理解するように、図１に示すのは、本開示の実施例を適用可能なシステムアーキテクチャの例示に過ぎず、本開示の実施例が他の機器、システム、環境又はシーンに用いることができないことを意味するものではない。例えば、別の実施例において、内容処理方法及び装置を適用可能な例示的なシステムアーキテクチャは、端末機器を含むことができるが、端末機器はサーバと対話せずに、本開示の実施例が提供する内容処理方法及び装置を実現することができる。

図１に示すように、該実施例に係るシステムアーキテクチャ１００は、端末機器１０１、１０２、１０３、ネットワーク１０４、及びサーバ１０５を含むことができる。ネットワーク１０４は、端末機器１０１、１０２、１０３とサーバ１０５との間に通信リンクの媒体を提供するために用いられる。ネットワーク１０４は、例えば有線及び／又は無線通信リンク等の様々な接続タイプを含むことができる。

ユーザは、端末機器１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５と対話することにより、メッセージ等を受信するか又は送信することができる。端末機器１０１、１０２、１０３に、例えば知識閲読類アプリケーション、ウェブページブラウザアプリケーション、検索類アプリケーション、リアルタイム通信ツール、メールボックスクライアント及び／又はソーシャルプラットフォームソフトウェアなど（例に過ぎない）の様々な通信クライアントアプリケーションがインストールされてもよい。

端末機器１０１、１０２、１０３は、ディスプレイを有しかつウェブページの閲覧をサポートする様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップ型携帯コンピュータ、及びデスクトップコンピュータ等を含むが、それらに限定されない。

サーバ１０５は、例えばユーザが端末機器１０１、１０２、１０３を利用して閲覧する内容をサポートするバックグラウンド管理サーバ（例に過ぎない）などの様々なサービスを提供するサーバであってもよい。バックグラウンド管理サーバは、受信されたユーザ要求等のデータに対して分析等の処理を行い、処理結果（例えばユーザの要求に応じて取得又は生成されたウェブページ、情報又はデータ等）を端末機器にフィードバックすることができる。

説明すべきこととして、本開示の実施例が提供する文字消去モデルのトレーニング方法及び訳文の表示方法は、一般的に端末機器１０１、１０２、又は１０３により実行することができる。それに応じて、本開示の実施例が提供する文字消去モデルのトレーニング装置及び訳文表示装置は端末機器１０１、１０２、又は１０３に設置されてもよい。

又は、本開示の実施例が提供する文字消去モデルのトレーニング方法及び訳文表示方法は、一般的にサーバ１０５により実行されてもよい。それに応じて、本開示の実施例が提供する文字消去モデルのトレーニング装置及び訳文表示装置は、一般的にサーバ１０５に設置することができる。本開示の実施例が提供する文字消去モデルのトレーニング方法及び訳文表示方法は、サーバ１０５とは異なりかつ端末機器１０１、１０２、１０３及び／又はサーバ１０５と通信可能なサーバ又はサーバクラスタによって実行されてもよい。それに応じて、本開示の実施例が提供する方法は、サーバ１０５と異なりかつ端末機器１０１、１０２、１０３及び／又はサーバ１０５と通信可能なサーバ又はサーバクラスタに設置されてもよい。

例えば、サーバ１０５は、敵対的生成ネットワークモデルの生成器によってトレーニングセットを処理し、シミュレーション文字ブロック消去画像セットを取得し、ここで、敵対的生成ネットワークモデルは、生成器及び判別器を含む。実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとを用いて、生成器と判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得する。トレーニング済みの生成器を文字消去モデルとして特定する。又は、端末機器１０１、１０２、１０３及び／又はサーバ１０５と通信可能なサーバ又はサーバクラスタによって、実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットを用いて、生成器及び判別器を交互にトレーニングし、文字消去モデル、即ち、トレーニング済みの生成器を取得する。

理解すべきこととして、図１における端末機器、ネットワーク及びサーバの数は単に例示的なものである。必要に応じて、任意の数の端末機器、ネットワーク及びサーバを有してもよい。

図２は、本開示の実施例に係る文字消去モデルのトレーニング方法のフローチャートを概略的に示す。

図２に示すように、該方法２００は、操作Ｓ２１０～Ｓ２３０を含む。

操作Ｓ２１０において、敵対的生成ネットワークモデルの生成器を用いて、原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得し、ここで、敵対的生成ネットワークモデルは生成器及び判別器を含む。

操作Ｓ２２０において、実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットを用いて、生成器及び判別器を交互にトレーニングし、トレーニング済みの生成器及び判別器を取得する。

操作Ｓ２３０において、トレーニング済みの生成器を文字消去モデルとして特定する。

本開示の実施例によれば、実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は、実文字ブロック消去画像における文字消去領域以外の他の領域の画素値に基づいて特定される。

本開示の実施例によれば、文字ブロック画像は、文字消去領域及び文字消去領域以外の他の背景領域を含むことができる。文字ブロック消去は、文字ブロック画像における文字消去領域に入力された文字を消去し、消去すると同時に元の背景のテクスチャ色を保留することであってもよい。

本開示の実施例によれば、敵対的生成ネットワークモデルは、深層畳み込み敵対的生成ネットワークモデル、ブルドーザの距離に基づく敵対的生成ネットワークモデル、または条件性敵対的生成ネットワークモデル等を含むことができる。敵対的生成ネットワークモデルは、生成器及び判別器とを含むことができる。生成器及び判別器は、ニューラルネットワークモデルを含むことができる。生成器は、シミュレーション文字ブロック消去画像セットを生成するために用いられ、生成器を継続的にトレーニングすることにより実文字ブロック消去画像セットを学習させ、それにより実文字ブロック消去画像セットのデータ分布と一致するサンプルをゼロから生成し、かつ可能な限り判別器を混同させることができる。判別器は、実文字ブロック消去画像セットおよびシミュレーション文字ブロック消去画像セットに用いることができる。

本開示の実施例によれば、ブルドーザの距離に基づく敵対的生成ネットワークモデルは、生成器と判別器とのトレーニングが同期せず、トレーニングが収束せず、モードが崩壊するという問題を解決し、データ生成モデルのモデル品質を向上させることができる。

本開示の実施例によれば、ブルドーザの距離に基づく敵対的生成ネットワークモデルのトレーニングプロセスは、学習率、バッチ処理数（すなわち実文字ブロック消去画像セットに含まれる実文字ブロック消去画像の数）、ニューラルネットワークモデルのモデルパラメータ範囲、最大反復回数、及び毎回の反復のトレーニング回数を予め設定することである。

本開示の実施例によれば、実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとにより、生成器と判別器とを反復交互にトレーニングし、これにより生成器と判別器とはそれらの間のゲームにより、それぞれの最適化を実現し、最終的に判別器は実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとを正確に区別できず、即ち、ナッシュ均衡に達する。この場合、生成器が実文字ブロック消去画像セットのデータ分布を学習したと考えられ、トレーニング済みの生成器を文字消去モデルとして特定する。

本開示の実施例によれば、実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットにより、生成器及び判別器を反復交互にトレーニングすることは、毎回の反復過程において、生成器のモデルパラメータを変化せずに、実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットを利用して判別器をトレーニングすることにより、今回の反復で判別器に対して設定されたトレーニング回数を完了することを含むことができる。当該反復で判別器に対して設定されたトレーニング回数を完了した後、判別器のモデルパラメータを変化せずに、シミュレーション文字ブロック消去画像セットによって生成器をトレーニングすることにより、今回の反復で生成器に対して設定されたトレーニング回数を完了する。説明すべきこととして、毎回のトレーニングを実行する過程において、生成器を利用して今回に対応するシミュレーション文字ブロック消去画像セットを生成することができる。上記生成器及び判別器のトレーニング方式は、例示的な実施例だけであり、これに限定されるものではなく、本分野の既知のトレーニング方式を含むことができ、生成器及び判別器のトレーニングを実現することができればよい。

本開示の実施例によれば、実際需要に応じて適切なトレーニングポリシーを選択することができ、ここで限定しない。例えば、トレーニングポリシーは、毎回の反復において、生成器のトレーニング回数及び判別器のトレーニング回数が一回であること、生成器のトレーニング回数が一回でありかつ判別器のトレーニング回数が複数回でであること、生成器のトレーニング回数が複数回でありかつ判別器のトレーニング回数が一回であること、生成器のトレーニング回数が複数回でありかつ判別器のトレーニング回数が複数回であることのいずれか１つを含んでもよい。

本開示の実施例によれば、敵対的生成ネットワークモデルの生成器によって原文文字ブロック画像セットを処理することにより、シミュレーション文字ブロック消去画像セットを取得し、実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとを利用して、生成器と判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得し、トレーニング済みの生成器を文字消去モデルとして特定し、実文字ブロック消去画像における文字消去領域の画素値が他の領域の画素値に基づいて特定されるため、文字消去モデルは、文字消去領域の色を他の領域（即ち背景領域）とできるだけ一致させることを実現することができ、これにより、消去効果を向上させ、さらにユーザの視覚体験を向上させる。

本開示の実施例によれば、原文文字ブロック画像トレーニングセットは、第一原文文字ブロック画像セットと第二原文文字ブロック画像セットとを含み、シミュレーション文字ブロック消去画像セットは、第一シミュレーション文字ブロック消去画像セットと第二シミュレーション文字ブロック消去画像セットとを含む。敵対的生成ネットワークモデルの生成器によって原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得することは、以下の操作を含むことができる。生成器を利用して第一原文文字ブロック画像セットを処理し、第一シミュレーション文字ブロック消去画像セットを生成する。生成器を利用して第二原文文字ブロック画像セットを処理し、第二シミュレーション文字ブロック消去画像セットを生成する。

本開示の実施例によれば、生成器を利用してシミュレーション文字ブロック消去画像セットを生成することは、第一原文文字ブロック画像セットと第一ランダムノイズデータとを生成器に入力し、第一シミュレーション文字ブロック消去画像セットを取得することと、第一原文文字ブロック画像セットと第二ランダムノイズデータとを生成器に入力し、第二シミュレーション文字ブロック消去画像セットを取得することと、を含むことができる。第一ランダムノイズデータおよび第二ランダムノイズデータの形態は、ガウスノイズを含んでいてもよい。

本開示の実施例によれば、実文字ブロック消去画像セットは、第一実文字ブロック消去画像セットと第二実文字ブロック消去画像セットとを含む。実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットを利用して、生成器及び判別器を交互にトレーニングし、トレーニング済みの生成器及び判別器を取得することは、以下の操作を含むことができる。

第一実文字ブロック消去画像セット及び第一シミュレーション文字ブロック消去画像セットによって判別器をトレーニングする。第二シミュレーション文字ブロック消去画像セットによって生成器をトレーニングする。敵対的生成ネットワークモデルの収束条件を満たすまで、判別器をトレーニングする操作と生成器をトレーニングする操作とを交互に実行する。敵対的生成ネットワークモデルの収束条件を満たす場合に得られた生成器及び判別器を、トレーニング済みの生成器及び判別器として特定する。

本開示の実施例によれば、敵対的生成ネットワークモデルの収束条件は、生成器が収束すること、生成器及び判別器がいずれも収束すること、又は反復が終了条件に達することを含むことができ、反復が終了条件に達することは、反復回数が所定の反復回数に等しくなることを含むことができる。

本開示の実施例によれば、判別器をトレーニングする操作と生成器をトレーニングする操作とを交互に実行することは、以下のように理解することができる。ｔ回目の反復過程において、生成器のモデルパラメータを変化せずに、実文字ブロック消去画像セットと第一シミュレーション文字ブロック消去画像セットとを利用して判別器をトレーニングし、上記プロセスを繰り返し、今回の反復で判別器に対して設定したトレーニング回数を完了し、ｔが２以上の整数である。毎回のトレーニングプロセスにおいて、生成器を利用して今回に対応する第一シミュレーション文字ブロック画像セットを生成することができる。

本開示の実施例によれば、今回の反復で判別器に対して設定されたトレーニング回数を完了した後、判別器のモデルパラメータを変化せずに、第二シミュレーション文字ブロック消去画像セットによって生成器をトレーニングし、上記プロセスを繰り返し、今回の反復で生成器に対して設定されたトレーニング回数を完了する。毎回のトレーニングプロセスにおいて、生成器を利用して今回に対応する第二シミュレーション文字ブロック画像セットを生成することができる。２≦ｔ≦Ｔであり、Ｔは所定の反復回数を表し、ｔ及びＴは整数である。

本開示の実施例によれば、ｔ回目の反復に対して、「生成器のモデルパラメータを変化せずに」における生成器のモデルパラメータとは、ｔ－１回目の反復において生成器に対する最終回のトレーニングを完了した後に得られた生成器のモデルパラメータである。「判別器のモデルパラメータを変化せずに」における判別器のモデルパラメータとは、ｔ回目の反復において判別器に対する最終回のトレーニングを完了した後に得られた判別器のモデルパラメータである。

以下に図３～図４を参照し、具体的な実施例と組み合わせて、本開示の実施例に記載の文字消去モデルのトレーニング方法をさらに説明する。

図３は、本開示の実施例に係る第一実文字ブロック消去画像セット及び第一シミュレーション文字ブロック消去画像セットを利用して判別器をトレーニングするフローチャートを概略的に示す。

本開示の実施例によれば、第一実文字ブロック消去画像セットは、複数の第一実文字ブロック消去画像を含み、第一シミュレーション文字ブロック消去画像セットは、複数の第一シミュレーション文字ブロック消去画像を含む。

図３に示すように、該方法３００は、操作Ｓ３１０～Ｓ３３０を含む。

操作Ｓ３１０において、第一実文字ブロック消去画像セットにおける各第一実文字ブロック消去画像を判別器に入力し、第一実文字ブロック消去画像に対応する第一判別結果を取得する。

操作Ｓ３２０において、第一シミュレーション文字ブロック消去画像セットにおける各第一シミュレーション文字ブロック消去画像を判別器に入力し、第一シミュレーション文字ブロック消去画像に対応する第二判別結果を取得する。

操作Ｓ３３０において、第一判別結果と第二判別結果とに基づいて判別器をトレーニングする。

本開示の実施例によれば、判別器は、実際に分類器に属し、第一実文字ブロック消去画像と第一シミュレーション文字ブロック消去画像とをそれぞれ判別器に入力した後に、第一実文字ブロック消去画像に対応する第一判別結果と第一シミュレーション文字ブロック消去画像に対応する第二判別結果とに基づいて判別器をトレーニングすることにより、判別器が、入力されるものが第一実文字ブロック消去画像であるか、第一シミュレーション文字ブロック消去画像であるかを正確に判定できないようにし、すなわち、第一実文字ブロック消去画像に対応する第一判別結果と第一シミュレーション文字ブロック消去画像に対応する第二判別結果とを可能な限り同じにする。

本開示の実施例によれば、第一判別結果と第二判別結果とに基づいて判別器をトレーニングすることは、以下の操作を含むことができる。

生成器のモデルパラメータを変化せずに、第一損失関数に基づいて、第一判別結果と第二判別結果とを利用して、第一出力値を取得する。第一出力値に基づいて判別器のモデルパラメータを調整し、調整された判別器のモデルパラメータを取得する。

本開示の実施例によれば、第二シミュレーション文字ブロック消去画像セットによって生成器をトレーニングすることは、以下の操作を含むことができる。

調整後の判別器のモデルパラメータを変化せずに、第二損失関数に基づいて、第二シミュレーション文字ブロック消去画像セットを利用して、第二出力値を取得する。第二出力値に基づいて生成器のモデルパラメータを調整する。

本開示の実施例によれば、ｔ回目の反復過程において、生成器のモデルパラメータを変化せずに、第一実文字ブロック消去画像に対応する第一判別結果と第一シミュレーション文字ブロック消去画像に対応する第二判別結果とを第一損失関数に入力し、第一出力値を取得する。第一出力値に基づいて判別器のモデルパラメータを調整し、上記プロセスを繰り返し、今回の反復で判別器に対して設定したトレーニング回数を完了する。

本開示の実施例によれば、今回の反復が判別器に対して設定したトレーニング回数を完了した後、調整後の判別器のモデルパラメータを変化せずに、第二シミュレーション文字ブロック消去画像セットに含まれる各第二シミュレーション文字ブロック消去画像を第二損失関数に入力し、第二出力値を取得する。第二出力値に基づいて生成器のモデルパラメータを調整する。上記プロセスを繰り返し、今回の反復で生成器に対して設定したトレーニング回数を完了する。

本開示の実施例によれば、第一損失関数は、判別器損失関数と最小平均二乗値誤差損失関数とを含み、第二損失関数は、生成器損失関数と最小平均二乗値誤差損失関数とを含み、判別器損失関数、最小平均二乗値誤差損失関数、及び生成器損失関数はいずれも正則化項を含む損失関数である。

本開示の実施例によれば、第一損失関数に含まれる判別器損失関数、最小平均二乗値誤差損失関数、及び生成器損失関数は、いずれも正則化項を含む損失関数であり、上記損失関数の結合によりトレーニングプロセスにおいてノイズ除去を容易にし、文字消去結果をよりリアルで確実にする。

図４は、本開示の実施例に係る文字消去モデルのトレーニングプロセスの概略図を概略的に示す。

図４に示すように、文字消去モデルのトレーニングプロセス４００は、毎回の反復過程において、生成器４０２のモデルパラメータを変化せずに、第一原文文字ブロック画像セット４０１を生成器４０２に入力し、第一シミュレーション文字ブロック消去画像セット４０３を取得することを含む。

第一実文字ブロック消去画像セット４０４における各第一実文字ブロック消去画像を判別器４０５に入力し、第一実文字ブロック消去画像に対応する第一判別結果４０６を得る。第一シミュレーション文字ブロック消去画像セット４０３における各第一シミュレーション文字ブロック消去画像を判別器４０５に入力し、第一シミュレーション文字ブロック消去画像に対応する第二判別結果４０７を得る。

第一実文字ブロック消去画像に対応する第一判別結果４０６と第一シミュレーション文字ブロック消去画像に対応する第二判別結果４０７とを第一損失関数４０８に入力し、第一出力値４０９を得る。第一出力値４０９に基づいて、判別器４０５のモデルパラメータを調整する。今回の反復の判別器４０５に対するトレーニング回数を完了するまで、上記プロセスを繰り返す。

今回の反復の判別器４０５に対するトレーニング回数を完了した後、判別器４０５のモデルパラメータを変化せずに、第二原文文字ブロック画像セット４１０を生成器４０２に入力し、第二シミュレーション文字ブロック消去画像セット４１１を取得する。第二シミュレーション文字ブロック消去画像セット４１１における各第二シミュレーション文字ブロック消去画像を第二損失関数４１２に入力し、第二出力値４１３を取得する。第二出力値４１３に基づいて、生成器４０２のモデルパラメータを調整する。今回の反復の生成器４０２に対するトレーニング回数を完了するまで、上記プロセスを繰り返す。

敵対的生成ネットワークモデルの収束条件を満たすまで、上述した判別器４０５及び生成器４０２に対するトレーニングプロセスを交互に実行し、トレーニングが完了する。

図５は、本開示の実施例に係る訳文表示方法のフローチャートを概略的に示す。

図５に示すように、該方法５００は操作Ｓ５１０～Ｓ５４０を含む。

操作Ｓ５１０において、文字消去モデルを利用して目標原文文字ブロック画像を処理し、目標文字ブロック消去画像を取得し、目標原文文字ブロック画像は、目標原文文字ブロックを含む。

操作Ｓ５２０において、訳文表示パラメータを特定する。

操作Ｓ５３０において、訳文表示パラメータに基づいて、目標原文文字ブロックに対応する訳文文字ブロックを目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を取得する。

操作Ｓ５４０において、目標訳文文字ブロック画像を表示する。

文字消去モデルは、上述した操作Ｓ２１０～Ｓ２４０の方法でトレーニングされたものである。

本開示の実施例によれば、目標原文文字ブロック画像は、文字消去領域及び文字消去領域以外の他の背景領域を含むことができ、目標文字ブロック消去画像は、目標原文文字ブロック画像の文字消去領域の文字を消去した後の画像を含むことができ、目標原文文字ブロックは、目標原文文字ブロック画像における文字消去領域を含むことができる。

本開示の実施例によれば、目標原文文字ブロック画像を文字消去モデルに入力することにより、目標文字ブロック消去画像を取得する。文字消去モデルは、敵対的生成ネットワークモデルの生成器によってシミュレーション文字ブロック画像セットを生成し、実文字ブロック消去画像セットとシミュレーション文字ブロック画像セットとを利用して敵対的生成ネットワークモデルの生成器及び判別器を交互にトレーニングし、トレーニング済みの生成器及び判別器を得て、かつトレーニング済みの生成器を文字消去モデルとして特定する。

本開示の実施例によれば、訳文表示パラメータは、目標原文文字ブロック画像の文字消去領域の文字が翻訳された後の訳文の文字配列パラメータ値、文字色、文字位置等を含むことができる。

本開示の実施例によれば、訳文の文字配列パラメータ値は、訳文表示行数及び／又は訳文表示高さ、訳文表示方向を含むことができる。訳文の文字色は、目標原文文字ブロック画像の文字消去領域の文字色により特定することができる。訳文の文字位置は、目標原文文字ブロック図形の文字消去領域の位置する文字位置と一致することができる。

本開示の実施例によれば、訳文を目標原文文字ブロック画像における文字消去領域位置に対応する目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を取得する。

本開示の実施例によれば、文字消去モデルを利用して目標原文文字ブロック画像を処理することにより、目標文字ブロック消去画像を得て、訳文表示パラメータを特定し、訳文表示パラメータに基づいて、目標原文文字ブロックに対応する訳文文字ブロックを目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を得て、かつ目標訳文文字ブロック画像を表示し、文字ブロック画像の文字の翻訳機能を効果的に実現し、それにより表示された訳文画像が完全でありかつ見た目がよく、それによりユーザの視覚体験を向上させる。

本開示の実施例によれば、目標原文文字ブロックに対応する文字枠が方形文字枠ではないと判定した場合、アフィン変換を利用してテキスト枠を方形文字枠に変換する。

本開示の実施例によれば、文字消去モデルを利用して目標原文文字ブロック画像を処理する前に、段落検出モデルに基づいて、目標原文文字ブロック画像の文字消去領域の文字枠が形状が不規則な四角形文字枠であることを検出し、アフィン変換を利用して該形状が不規則な四角形文字枠を方形文字枠に変換する。該四角形文字枠は、目標原文文字ブロック画像の文字消去領域に対応する文字枠であってもよく、方形文字枠は矩形形状であってもよい。

本開示の実施例によれば、方形に変換された文字枠内の文字を翻訳した訳文を、目標原文文字ブロック画像の文字消去領域に対応する目標文字ブロック消去画像に貼り付けた後、再びアフィン変換を利用して方形文字枠を逆変換し、目標原文文字ブロック画像の文字消去領域に対応する文字枠と形状及び大きさがいずれも同じである四角形文字枠に変換し戻す。

本開示の実施例によれば、アフィン変換は、二次元座標から二次元座標までの間の線形変換であり、二次元図形の「直線性」及び「平行性」を保持する。直線性とは、変換後の直線が依然として直線であり、湾曲することがなく、円弧が依然として円弧であることである。平行性とは、二次元図形の間の相対的な位置関係が変化しないように保持し、平行線が依然として平行線であり、交差直線の交差角が変化しないことである。

本開示の実施例によれば、アフィン変換は、平行移動、スケーリング、反転、回転、せん断などにより実現される。

本開示の実施例によれば、例えば、目標原文文字ブロック画像の文字消去領域に対応する文字枠は形状が不規則な四角形枠であり、該形状が不規則な四角形枠は、傾斜した文字消去領域の文字内容に対応する場合、該形状が不規則な四角形枠の各角の位置情報は異なる二次元座標を示し、アフィン変換により目標原文文字ブロック画像の文字消去領域に対応する文字枠を矩形形状の四角形枠の二次元座標に補正する。

本開示の実施例によれば、目標原文文字ブロック画像は、複数の目標サブ原文文字ブロック画像を含むことができる。

本開示の実施例によれば、該目標原文文字ブロック画像は、複数の目標サブ原文文字ブロック画像をスティッチングして得られるものを含み、スティッチングされた目標原文文字ブロック画像を文字消去モデルに入力して消去する。

本開示の実施例によれば、例えば、複数の目標サブ原文文字ブロック画像を一定の高さに正規化し、該複数の目標サブ原文文字ブロック画像を一枚又は複数枚の規則的に配列したビッグピクチャーに組み合わせてスティッチングし、目標原文文字ブロック画像とすることができる。

本開示の実施例によれば、複数の目標サブ原文文字ブロック画像をスティッチングすることにより、目標原文文字ブロック画像を取得し、目標原文文字ブロック画像を文字消去モデルに入力して消去し、文字消去モデルを通過する必要がある画像数を大幅に低減し、文字消去の効率を向上させる。

本開示の実施例によれば、訳文表示パラメータは、訳文画素値を含むことができる。

本開示の実施例によれば、訳文表示パラメータを特定することは、以下の操作を含むことができる。

目標原文文字ブロック画像の文字領域を特定する。目標原文文字ブロック画像の文字領域の画素平均値を特定する。目標原文文字ブロック画像の文字領域の画素平均値を、訳文の画素値として特定される。

本開示の実施例によれば、目標原文文字ブロック画像の文字領域を特定することは、以下の操作を含むことができる。

画像二値化により目標原文文字ブロック画像を処理し、第一画像領域及び第二画像領域を取得する。第一画像領域に対応する目標原文文字ブロック画像の第一画素平均値を特定する。第二画像領域に対応する目標原文文字ブロック画像の第二画素平均値を特定する。目標文字ブロック消去画像に対応する第三画素平均値を特定する。第一画素平均値、第二画素平均値、及び第三画素平均値に基づいて、目標原文文字ブロック画像の文字領域を特定する。

本開示の実施例によれば、画像二値化処理は、一つの閾値Ｔを設定し、閾値Ｔを用いて画像のデータを画素値がＴより大きい画素群と画素値がＴより小さい画素群という二つの部分に分け、画像全体が明らかな黒と白のみがある視覚効果を呈することである。

本開示の実施例によれば、第一画像領域は、目標原文文字ブロック画像の文字消去領域であってもよく、目標原文文字ブロック画像の文字消去領域以外の他の領域であってもよく、第二画像領域は、目標原文文字ブロック画像の文字消去領域であってもよく、目標原文文字ブロック画像の文字消去領域以外の他の領域であってもよい。

本開示の実施例によれば、例えば、第一画像領域に対応する目標原文文字ブロック画像の第一画素平均値をＡ１で表すことができ、第二画像領域に対応する目標原文文字ブロック画像の第二画素平均値をＡ２で表すことができ、目標文字ブロック消去画像に対応する第三画素平均値をＡ３で表すことができる。

本開示の実施例によれば、目標文字ブロック消去画像に対応する第三画素値は、目標文字ブロック消去画像における文字消去領域以外の他の領域の画素値に基づいて特定することができる。

本開示の実施例によれば、第一画素平均値、第二画素平均値、及び第三画素平均値に基づいて、目標原文文字ブロック画像の文字領域を特定することは、以下の操作を含むことができる。

第一画素平均値と第三画素平均値との間の差分値の絶対値が第二画素平均値と第三画素平均値との間の差分値の絶対値より小さいと判定した場合、第一画素平均値に対応する第一画像領域を目標原文文字ブロック画像の文字領域として特定する。第一画素平均値と第三画素平均値との間の差分値の絶対値が第二画素平均値と第三画素平均値との間の差分値の絶対値以上であると判定した場合、第二画素平均値に対応する第二画像領域を目標原文文字ブロック画像の文字領域として特定する。

本開示の実施例によれば、目標文字ブロック消去画像に対応する第三画素平均値Ａ３に基づいて、第一画像領域に対応する目標原文文字ブロック画像の第一画素平均値Ａ１と第二画像領域に対応する目標原文文字ブロック画像の第二画素平均値Ａ２を判定し、目標原文文字ブロック画像の文字領域を特定する。

本開示の実施例によれば、例えば、

であれば、Ａ１に対応する第一画像領域を目標原文文字ブロック画像の文字領域として特定し、Ａ２に対応する第二画像領域を目標原文文字ブロック画像の文字領域以外の他の領域として特定する。

本開示の実施例によれば、

であれば、Ａ２に対応する第二画像領域を目標原文文字ブロック画像の文字領域として特定し、Ａ１に対応する第一画像領域を目標原文文字ブロック画像の文字領域以外の他の領域として特定する。

本開示の実施例によれば、訳文表示パラメータは、訳文配列パラメータ値を含むことができ、訳文配列パラメータ値は、訳文表示行数、訳文表示高さ、訳文表示行数、及び訳文表示高さを含むことができる。

本開示の実施例によれば、表示パラメータを特定することは、以下の操作を含むことができる。目標文字ブロック消去画像に対応する文字領域の高さ及び幅と、目標訳文文字ブロックに対応する高さ及び幅とに基づいて、訳文表示行数及び／又は訳文表示高さを特定する。

本開示の実施例によれば、訳文表示高さは、目標文字ブロック消去画像に対応する文字領域の高さにより特定することができる。

本開示の実施例によれば、訳文文字幅は、訳文を一行で配列する時の文字幅であってもよい。訳文の字体幅と高さの比率に基づいて、訳文を一行で配列する場合の訳文文字幅を得ることができる。

図６は、本開示の実施例に係る訳文表示行数及び／又は訳文表示高さを特定するフローチャートを概略的に示す。

図６に示すように、目標文字ブロック消去画像に対応する文字領域の高さ及び幅と、目標訳文文字ブロックに対応する高さ及び幅とに基づいて、訳文表示行数及び／又は訳文表示高さを特定することは、操作Ｓ６１０～Ｓ６５０を含むことができる。

操作Ｓ６１０において、目標訳文文字ブロックに対応する幅の和を特定する。

操作Ｓ６２０において、目標訳文文字ブロックに対応する訳文表示行数をｉ行に設定し、ここで、ｉ行のうちの各行の高さは目標文字ブロック消去画像に対応する文字領域の高さの１／ｉであり、ｉは１以上の整数である。

操作Ｓ６３０において、幅の和がｉ行に対応する所定幅閾値より大きいと判定した場合、目標訳文文字ブロックに対応する訳文表示行数をｉ＝ｉ+１行に設定し、ここで、所定幅閾値は、目標文字ブロック消去画像に対応する文字領域の幅のｉ倍に基づいて特定される。

操作Ｓ６４０において、幅の和がｉ行に対応する所定幅閾値以下であると判定するまで、幅の和がｉ行に対応する所定幅閾値以下であるか否かを判定する操作を繰り返す。

操作Ｓ６５０において、幅の和がｉ行に対応する所定幅閾値以下であると判定した場合、ｉ行を訳文表示行数として特定し、及び／又は目標文字ブロック消去画像に対応する文字領域の高さの１／ｉを訳文表示高さとして特定する。

本開示の実施例によれば、訳文の字体幅と高さの比率に基づいて訳文を一行で配列する時の訳文文字幅、すなわち、目標訳文文字ブロックに対応する文字幅の和Ｗ_１を得ることができる。

本開示の実施例によれば、訳文表示行数をｉ行に設定され、ｉ行に対応する所定幅閾値Ｗは、目標文字ブロック消去画像に対応する文字領域幅のｉ倍に基づいて特定される。

本開示の実施例によれば、目標訳文文字ブロックに対応する幅の和Ｗ_１とｉ行に対応する所定幅閾値Ｗとを比較し、訳文表示行数及び／又は表示高さを特定する。

本開示の実施例によれば、例えば、目標原文文字ブロック画像の文字領域の文字は「It’s cloudy and rainy」であり、「It’s cloudy and rainy」を翻訳した後、目標訳文は「曇りで雨です」ということである。これにより、目標訳文文字ブロックに対応する文字幅は、目標訳文ブロック「曇りで雨です」を一行で配列する時の文字幅の和であり、Ｗ_１として表すことができる。

本開示の実施例によれば、目標文字ブロック消去画像に対応する文字領域幅がＷ_２であり、訳文表示行数ｉ行に対応する所定幅閾値はＷであり、Ｗ＝ｉ×Ｗ_２である。

本開示の実施例によれば、「曇りで雨です」の訳文文字に対応する訳文表示行数が１行（ｉ＝１）であり、訳文文字幅の和Ｗ_１が、訳文表示行数が１行であることに対応する所定幅閾値Ｗ＝１×Ｗ_２よりも大きい場合、１行で目標訳文文字ブロックに対応する訳文を配列することが適切ではないことが分り、訳文の表示行数を２行に設定する必要がある。この時、訳文表示行は２行である。

本開示の実施例によれば、上記操作を実行し続け、訳文文字幅の和Ｗ_１が、訳文表示行数が２行であることに対応する所定幅閾値Ｗ＝２×Ｗ_２よりも大きい場合、２行で目標訳文文字ブロックに対応する訳文を配列することが適切ではないことが分り、訳文表示行数を３行に設定する必要がある。この時、訳文表示行は３行である。

本開示の実施例によれば、上記操作を繰り返して実行し、訳文の文字幅の和Ｗ_１がｉ行に対応する所定幅閾値Ｗ＝ｉ×Ｗ_２以下であると判定した場合、ｉ行を訳文表示行数として特定し、目標文字ブロック消去画像に対応する文字領域の高さの１／ｉを訳文表示高さとして特定する。

本開示の実施例によれば、例えば、訳文文字幅の和Ｗ_１が、訳文表示行数が３行であることに対応する所定幅閾値Ｗ＝３×Ｗ_２以下である場合、３行で目標訳文文字ブロックに対応する訳文を配列することが適切であることが分り、訳文表示行数は３行であり、訳文の表示高さは目標文字ブロック消去画像に対応する文字領域の高さの１／３である。

本開示の実施例によれば、訳文配列パラメータ値は、訳文表示方向を含むことができる。訳文表示方向は、目標原文文字ブロックの文字方向に基づいて特定されてもよい。

本開示の実施例によれば、目標原文文字ブロックの文字領域の文字枠は形状が不規則な四角形文字枠であり、アフィン変換を利用して形状が不規則な四角形文字枠を矩形文字枠に変換し、文字消去及び訳文の貼り合わせを容易にし、訳文貼り合わせ後の文字枠は再びアフィン変換を利用してそれを目標原文文字ブロックの文字領域の形状が不規則な四角形文字枠と同じ文字領域の文字枠形状に変換し戻して、訳文表示方向を形成する。

図７は、本開示の実施例に係る訳文表示プロセスの概略図を概略的に示す。

図７に示すように、目標原文文字ブロック画像７０１を文字消去モデル７０２に入力して文字消去処理を行い、目標文字ブロック消去画像７０３を取得し、訳文表示パラメータ７０４を特定し、訳文表示パラメータ７０４に基づいて、目標原文文字ブロック画像７０１における目標原文文字ブロックの文字領域に対応する訳文文字ブロック７０５を目標文字ブロック消去画像７０３に重ね合わせ、目標訳文文字ブロック画像７０６を得て、かつ目標訳文文字ブロック画像７０６を表示する。

図８Ａは、本開示の実施例に係る文字消去プロセス８００の概略図を概略的に示す。

図８Ｂは、本開示の実施例に係る訳文貼り合わせプロセス８００’の概略図を概略的に示す。

図８Ａに示すように、元画像８０１から検出された原文文字ブロック画像セット８０２における原文文字ブロック画像８０３、８０４、８０５、８０６を文字消去モデル８０７に入力し、原文文字ブロック画像セット８０２における原文文字ブロック画像８０３、８０４、８０５、８０６の文字領域を消去し、文字消去後の文字ブロック消去画像セット８０８における文字ブロック消去画像８０９、８１０、８１１、８１２を出力する。

文字消去プロセス８００の後に、訳文貼り合わせプロセス８００’が行われる。図８Ｂに示すように、原文文字ブロック画像セットにおける各原文文字ブロック図形を翻訳し、例えば、原文文字ブロック画像８０５の文字領域を翻訳し、原文文字ブロック画像８０５の文字領域に対応する訳文文字ブロック８１３を取得する。

訳文文字ブロック８１３の訳文表示パラメータ８１４を特定し、訳文表示パラメータ８１４は訳文文字位置、訳文文字配列パラメータ値、訳文画素値を含む。

訳文表示パラメータ８１４に基づいて、訳文文字ブロック８１３を文字ブロック消去画像セット８０８における文字ブロック消去画像８１１に重ね合わせ、訳文文字ブロック画像８１５を得る。

上記操作を繰り返し、原文文字ブロック画像セット８０２における各原文文字ブロック画像を文字消去しかつ文字貼り合わせを行った後、最終的に一枚の訳文表示付きの訳文画像８１６を取得する。

図９は、本開示の実施例に係る文字消去モデルのトレーニング装置のブロック図を概略的に示す。

図９に示すように、文字消去モデルのトレーニング装置９００は、第一取得モジュール９１０、第二取得モジュール９２０、第一特定モジュール９３０を含む。

第一取得モジュール９１０は、敵対的生成ネットワークモデルの生成器によって原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得するために用いられ、ここで、敵対的生成ネットワークモデルは生成器及び判別器を含む。

第二取得モジュール９２０は、実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットによって、生成器及び判別器を交互にトレーニングし、トレーニング済みの生成器及び判別器を取得するために用いられる。

第一特定モジュール９３０は、トレーニング済みの生成器を文字消去モデルとして特定するために用いられる。

本開示の実施例によれば、原文文字ブロック画像セットは、第一原文文字ブロック画像セットと第二原文文字ブロック画像セットとを含み、シミュレーション文字ブロック消去画像セットは、第一シミュレーション文字ブロック消去画像セットと第二シミュレーション文字ブロック消去画像セットとを含む。

第一取得モジュール９１０は、第一生成サブモジュール、第二生成サブモジュールを含む。

第一生成サブモジュールは、生成器を利用して第一原文文字ブロック画像セットを処理し、第一シミュレーション文字ブロック消去画像セットを生成するために用いられる。

第二生成サブモジュールは、生成器を利用して第二原文文字ブロック画像セットを処理し、第二シミュレーション文字ブロック消去画像セットを生成するために用いられる。

本開示の実施例によれば、実文字ブロック消去画像セットは、第一実文字ブロック消去画像及び第二実文字ブロック消去画像を含む。第二取得モジュール９２０は、第一トレーニングサブモジュール、第二トレーニングサブモジュール、実行サブモジュール、取得サブモジュールを含むことができる。

第一トレーニングサブモジュールは、第一実文字ブロック消去画像セット及び第一シミュレーション文字ブロック消去画像セットを利用して判別器をトレーニングするために用いられる。

第二トレーニングサブモジュールは、第二シミュレーション文字ブロック消去画像セットを利用して生成器をトレーニングするために用いられる。

実行サブモジュールは、敵対的生成ネットワークモデルの収束条件を満たすまで、判別器をトレーニングする操作と生成器をトレーニングする操作を交互に実行するために用いられる。

取得サブモジュールは、敵対的生成ネットワークモデルの収束条件を満たす場合に得られた生成器及び判別器を、トレーニング済みの生成器及び判別器として特定するために用いられる。

第一トレーニングサブモジュールは、第一取得ユニット、第二取得ユニット、トレーニングユニットを含む。

第一取得ユニットは、第一実文字ブロック消去画像セットにおける各第一実文字ブロック消去画像を判別器に入力し、第一実文字ブロック消去画像に対応する第一判別結果を取得するために用いられる。

第二取得ユニットは、第一シミュレーション文字ブロック消去画像セットにおける各第一シミュレーション文字ブロック消去画像を判別器に入力し、第一シミュレーション文字ブロック消去画像に対応する第二判別結果を取得するために用いられる。

トレーニングユニットは、第一判別結果及び第二判別結果に基づいて判別器をトレーニングするために用いられる。

本開示の実施例によれば、第一トレーニングサブモジュールは、さらに、第三取得ユニット、第一調整ユニットを含む。

第三取得ユニットは、生成器のモデルパラメータを変化せずに、第一損失関数に基づいて、第一判別結果及び第二判別結果を用いて、第一出力値を取得するために用いられる。

第一調整ユニットは、第一出力値に基づいて判別器のモデルパラメータを調整し、調整後の判別器のモデルパラメータを取得するために用いられる。

ここで、第二トレーニングサブモジュールは、第四取得ユニット、第二調整ユニットを含む。

第四取得ユニットは、調整後の判別器のモデルパラメータを変化せずに、第二損失関数に基づいて、第二シミュレーション文字ブロック消去画像集セットを用いて、第二出力値を取得するために用いられる。

第二調整ユニットは、第二出力値に基づいて生成器のモデルパラメータを調整する。

本開示の実施例によれば、第一損失関数は、判別器損失関数と最小平均二乗値誤差損失関数とを含み、第二損失関数は、生成器損失関数と最小平均二乗値誤差損失関数とを含み、判別器損失関数、最小平均二乗値誤差損失関数、及び生成器損失関数は、いずれも正則化項を含む損失関数である。

図１０は、本開示の実施例に係る訳文表示装置のブロック図を概略的に示す。

図１０に示すように、訳文表示装置１０００は、第三取得モジュール１０１０、第二特定モジュール１０２０、第四取得モジュール１０３０、表示モジュール１０４０を含む。

第三取得モジュール１０１０は、文字消去モデルを利用して目標原文文字ブロック画像を処理し、目標文字ブロック消去画像を取得するために用いられ、目標原文文字ブロック画像は目標原文文字ブロックを含む。

第二特定モジュール１０２０は、訳文表示パラメータを特定するために用いられる。

第四取得モジュール１０３０は、訳文表示パラメータに基づいて、目標原文文字ブロックに対応する訳文文字ブロックを目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を取得するために用いられる。

表示モジュール１０４０は、目標訳文文字ブロック画像を表示するために用いられる。

ここで、文字消去モデルは上記文字消去モデルトレーニング方法を利用してトレーニングされたものである。

本開示の実施例によれば、上記訳文表示装置１０００は、さらに、変換モジュールを含む。

変換モジュールは、目標原文文字ブロックに対応する文字枠が方形文字枠ではないと判定した場合、アフィン変換を利用してテキスト枠を方形文字枠に変換するために用いられる。

本開示の実施例によれば、目標原文文字ブロック画像は複数の目標サブ原文文字ブロック画像を含む。

上記訳文表示装置１０００は、さらに、スティッチングモジュールを含む。

スティッチングモジュールは、複数の目標サブ原文文字ブロック画像をスティッチングし、目標原文文字ブロック画像を取得するために用いられる。

本開示の実施例によれば、訳文表示パラメータは訳文画素値を含む。

第二特定モジュール１０２０は、第一特定サブモジュール、第二特定サブモジュール、第三特定サブモジュールを含む。

第一特定サブモジュールは、目標原文文字ブロック画像の文字領域を特定するために用いられる。

第二特定サブモジュールは、目標原文文字ブロック画像の文字領域の画素平均値を特定するために用いられる。

第三特定サブモジュールは、目標原文文字ブロック画像の文字領域の画素平均値を訳文画素値として特定するために用いられる。

本開示の実施例によれば、第一特定サブモジュールは、第五取得ユニット、第一特定ユニット、第二特定ユニット、第三特定ユニット、第四特定ユニットを含む。

第五取得ユニットは、画像二値化によって目標原文文字ブロック画像を処理して、第一画像領域及び第二画像領域を取得するために用いられる。

第一特定ユニットは、第一画像領域に対応する目標原文文字ブロック画像の第一画素平均値を特定するために用いられる。

第二特定ユニットは、第二画像領域に対応する目標原文文字ブロック画像の第二画素平均値を特定するために用いられる。

第三特定ユニットは、目標文字ブロック消去画像に対応する第三画素平均値を特定するために用いられる。

第四特定ユニットは、第一画素平均値、第二画素平均値、及び第三画素平均値に基づいて、目標原文文字ブロック画像の文字領域を特定するために用いられる。

本開示の実施例によれば、第四特定ユニットは、第一特定サブユニット、第二特定サブユニットを含む。

第一特定サブユニットは、第一画素平均値と第三画素平均値との間の差分値の絶対値が第二画素平均値と第三画素平均値との間の差分値の絶対値より小さいと判定した場合、第一画素平均値に対応する第一画像領域を目標原文文字ブロック画像の文字領域として特定するために用いられる。

第二特定サブユニットは、第一画素平均値と第三画素平均値との間の差分値の絶対値が第二画素平均値と第三画素平均値との間の差分値の絶対値以上であると判定した場合、第二画素平均値に対応する第二画像領域を目標原文文字ブロック画像の文字領域として特定するために用いられる。

本開示の実施例によれば、訳文表示パラメータは、訳文配列パラメータ値を含み、訳文配列パラメータ値は、訳文表示行数及び／又は訳文表示高さを含む。

第二特定モジュール１０２０は、さらに、第四特定サブモジュールを含む。

第四特定サブモジュールは、目標文字ブロック消去画像に対応する文字領域の高さ及び幅と、目標訳文文字ブロックに対応する高さ及び幅とに基づいて、訳文表示行数及び／又は訳文表示高さを特定するために用いられる。

本開示の実施例によれば、第四特定サブモジュールは、第五特定ユニット、第六特定ユニット、設定ユニット、繰り返しユニット、第七特定ユニットを含む。

第五特定ユニットは、目標訳文文字ブロックに対応する幅の和を特定するために用いられる。

第六特定ユニットは、目標訳文文字ブロックに対応する訳文表示行数をｉ行に設定するために用いられ、ここで、ｉ行のうちの各行の高さが目標文字ブロック消去画像に対応する文字領域の高さの１／ｉであり、ｉは１以上の整数である。

設定ユニットは、幅の和がｉ行に対応する所定幅閾値より大きいと判定した場合、目標訳文文字ブロックに対応する訳文表示行数をｉ＝ｉ+１行に設定するために用いられ、ここで、所定幅閾値は、目標文字ブロック消去画像に対応する文字領域の幅のｉ倍に基づいて特定される。

繰り返しユニットは、幅の和がｉ行に対応する所定幅閾値以下であると判定するまで、幅の和がｉ行に対応する所定幅閾値以下であるか否かを判定する操作を繰り返し実行するために用いられる。

第七特定ユニットは、幅の和がｉ行に対応する所定幅閾値以下であると判定した場合、ｉ行を訳文表示行数及び／又は目標文字ブロック消去画像に対応する文字領域の高さの１／ｉを訳文表示高さとして特定するために用いられる。

本開示の実施例によれば、訳文配列パラメータ値は訳文表示方向を含み、訳文表示方向は目標原文文字ブロックの文字方向に基づいて特定される。

本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラム製品を提供する。

本開示の実施例によれば、電子機器であって、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されるメモリとを含み、ここで、メモリに少なくとも一つのプロセッサにより実行可能な命令が記憶され、命令が少なくとも一つのプロセッサにより実行されることにより、少なくとも一つのプロセッサが前記のような方法を実行することができる。

本開示の実施例によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、ここで、コンピュータ命令はコンピュータに前記のような方法を実行させる。

本開示の実施例によれば、コンピュータプログラム製品であって、コンピュータプログラムを含み、コンピュータプログラムはプロセッサにより実行される時に前記のような方法を実現する。

本開示の技術案において、係られたユーザ個人情報の収集、記憶、使用、加工、伝送、提供、開示及び応用等の処理は、いずれも関連法規や法規の規定に合致しており、必要なセキュリティ対策を取っており、かつ公序良俗に反するものではない。

本開示の技術案において、ユーザの個人情報を取得するか又は収集する前に、いずれもユーザの許可又は同意を取得した。図１１は、本開示の実施例に係る文字消去モデルのトレーニング方法又は訳文表示方法を実現することに適す電子機器のブロック図を概略的に示す。電子機器は、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータという様々な形式のデジタルコンピュータを表すことを意図する。電子機器は、さらに、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置という様々な形式の移動装置を表してもよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定するものではない。

図１１に示すように、電子機器１１００は、計算ユニット１１０１を含み、それはリードオンリーメモリ（ＲＯＭ）１１０２に記憶されたコンピュータプログラム又は記憶ユニット１１０８からランダムアクセスメモリ（ＲＡＭ）１１０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。ＲＡＭ１１０３には、さらに機器１１００の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット１１０１、ＲＯＭ１１０２、およびＲＡＭ１１０３は、バス１１０４を介して相互に接続されている。バス１１０４には、入出力（Ｉ／Ｏ）インターフェース１１０５も接続されている。

電子機器１１００における複数の部品は、Ｉ／Ｏインターフェース１１０５に接続され、例えばキーボード、マウス等の入力ユニット１１０６と、例えば様々なタイプのディスプレイ、スピーカ等の出力ユニット１１０７と、例えば磁気ディスク、光ディスク等の記憶ユニット１１０８と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット１１０９とを含む。通信ユニット１１０９は、電子機器１１００がインターネット等のコンピュータネットワーク及び／又は各種の電気通信網を介して他の機器と情報／データをやり取りすることを可能にする。

計算ユニット１１０１は、処理及び計算能力を有する各種の汎用及び／又は専用の処理モジュールであってもよい。計算ユニット１１０１の幾つかの例としては、中央処理装置（ＣＰＵ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、各種専用の人工知能（ＡＩ）演算チップ、各種機械学習モデルアルゴリズムをランニングする計算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット１１０１は、例えば文字消去モデルのトレーニング方法又は訳文表示方法のような前記記載された各方法と処理を実行する。例えば、いくつかの実施例において、文字消去モデルのトレーニング方法又は訳文表示方法は、例えば記憶ユニット１１０８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ１００２及び／又は通信ユニット１１０９を介して機器１１００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ１００３にロードされて計算ユニット１１０１により実行される場合、前記記載された文字消去モデルのトレーニング方法又は訳文表示方法の１つ又は複数のステップを実行することができる。代替的に、別の実施例において、計算ユニット１１０１は、他の任意の適切な方式により（例えば、ファームウェアを介して）文字消去モデルのトレーニング方法又は訳文表示方法を実行するように構成されてもよい。

本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムにおいて実施され、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行され及び／又は解釈されることが可能であり、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、かつデータ及び命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができることを含んでもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び／又はブロック図に規定された機能／操作が実施される。プログラムコードは、完全に機器で実行されてもよく、部分的に機器で実行されててもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。

本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は機器、又は前記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、１つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は前記内容の任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを備え、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種別の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、かついかなる形式（音声入力、語音入力又は触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが当該グラフィカルユーザインターフェース又は当該ウェブブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを例示的に含む。

コンピュータシステムは、クライアント及びサーバを含んでよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント－サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、分散システムのサーバ、またはブロックチェーンと組み合わせたサーバであってよい。

理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順に実行されたり、又は異なる順序で実行されてもよく、本開示に開示された技術案の所望の結果を実現することができれば、本明細書はここで限定されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

本開示は、人工知能技術分野、具体的にはコンピュータ視覚及びディープラーニングの技術分野に関し、ＯＣＲ光学文字認識などのシーンに応用することができる。具体的には、文字消去モデルのトレーニング方法及び装置、訳文表示方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラムに関する。

本開示は文字消去モデルのトレーニング方法及び装置、訳文表示方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラムを提供する。

本開示の別の態様によれば、プロセッサにより実行される時に上記の方法を実現するコンピュータプログラムを提供する。

このために、本開示の実施例は、文字消去モデルのトレーニング方法、訳文表示方法、装置、電子機器、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体及びコンピュータプログラムを提供する。該文字消去モデルのトレーニング方法は、敵対的生成ネットワークモデルの生成器によってトレーニングセットを処理し、シミュレーション文字ブロック消去画像セットを取得することを含み、ここで、敵対的生成ネットワークモデルは生成器及び判別器を含む。実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとを用いて、生成器と判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得する。トレーニング済みの生成器を文字消去モデルとして特定する。実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は、実文字ブロック消去画像における文字消去領域以外の他の領域の画素値に基づいて特定される。

本開示の実施例によれば、実際需要に応じて適切なトレーニングポリシーを選択することができ、ここで限定しない。例えば、トレーニングポリシーは、毎回の反復において、生成器のトレーニング回数及び判別器のトレーニング回数が一回であること、生成器のトレーニング回数が一回でありかつ判別器のトレーニング回数が複数回であること、生成器のトレーニング回数が複数回でありかつ判別器のトレーニング回数が一回であること、生成器のトレーニング回数が複数回でありかつ判別器のトレーニング回数が複数回であることのいずれか１つを含んでもよい。

操作Ｓ５２０において、訳文表示パラメータを特定する。

本開示の実施例によれば、例えば、

本開示の実施例によれば、

本開示の実施例によれば、コンピュータプログラムであって、コンピュータプログラムはプロセッサにより実行される時に前記のような方法を実現する。

Claims

文字消去モデルのトレーニング方法であって、
敵対的生成ネットワークモデルの生成器を利用して原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得し、ここで、前記敵対的生成ネットワークモデルが前記生成器及び判別器を含むことと、
実文字ブロック消去画像セットと前記シミュレーション文字ブロック消去画像セットとを利用して、前記生成器と前記判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得することと、
前記トレーニング済みの生成器を前記文字消去モデルとして特定することと、を含み、
ここで、前記実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は、前記実文字ブロック消去画像における前記文字消去領域以外の他の領域の画素値に基づいて特定される
文字消去モデルのトレーニング方法。
前記原文文字ブロック画像セットは、第一原文文字ブロック画像セットと第二原文文字ブロック画像セットとを含み、前記シミュレーション文字ブロック消去画像セットは、第一シミュレーション文字ブロック消去画像セットと第二シミュレーション文字ブロック消去画像セットとを含み、
敵対的生成ネットワークモデルの生成器を利用して原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得することは、
前記生成器を利用して前記第一原文文字ブロック画像セットを処理し、前記第一シミュレーション文字ブロック消去画像セットを生成することと、
前記生成器を利用して前記第二原文文字ブロック画像セットを処理し、前記第二シミュレーション文字ブロック消去画像セットを生成することと、を含む
請求項１に記載の方法。
前記実文字ブロック消去画像セットは、第一実文字ブロック消去画像セットと第二実文字ブロック消去画像セットとを含み、
前記実文字ブロック消去画像セットと前記シミュレーション文字ブロック消去画像セットとを利用して、前記生成器と前記判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得することは、
前記第一実文字ブロック消去画像セットと前記第一シミュレーション文字ブロック消去画像セットとを利用して前記判別器をトレーニングすることと、
前記第二シミュレーション文字ブロック消去画像セットを利用して前記生成器をトレーニングすることと、
前記敵対的生成ネットワークモデルの収束条件を満たすまで、前記判別器をトレーニングする操作と前記生成器をトレーニングする操作とを交互に実行することと、
前記敵対的生成ネットワークモデルの収束条件を満たす場合に得られた生成器及び判別器を、前記トレーニング済みの生成器及び判別器として特定することと、を含む
請求項２に記載の方法。
前記第一実文字ブロック消去画像セットは、複数の第一実文字ブロック消去画像を含み、前記第一シミュレーション文字ブロック消去画像セットは、複数の第一シミュレーション文字ブロック消去画像を含み、
前記第一実文字ブロック消去画像セットと前記第一シミュレーション文字ブロック消去画像セットとを利用して前記判別器をトレーニングすることは、
前記第一実文字ブロック消去画像セットにおける各前記第一実文字ブロック消去画像を前記判別器に入力し、前記第一実文字ブロック消去画像に対応する第一判別結果を取得することと、
前記第一シミュレーション文字ブロック消去画像セットにおける各前記第一シミュレーション文字ブロック消去画像を前記判別器に入力し、前記第一シミュレーション文字ブロック消去画像に対応する第二判別結果を取得することと、
前記第一判別結果と前記第二判別結果とに基づいて前記判別器をトレーニングすることと、を含む
請求項３に記載の方法。
前記第一判別結果と第二判別結果とに基づいて前記判別器をトレーニングすることは、
前記生成器のモデルパラメータを変化せずに、第一損失関数に基づいて、第一判別結果と第二判別結果とを利用して、第一出力値を取得することと、
前記第一出力値に基づいて前記判別器のモデルパラメータを調整し、調整後の判別器のモデルパラメータを取得することと、を含み、
ここで、前記第二シミュレーション文字ブロック消去画像セットを利用して前記生成器をトレーニングすることは、
前記調整後の判別器のモデルパラメータを変化せずに、第二損失関数に基づいて、前記第二シミュレーション文字ブロック消去画像セットを利用して、第二出力値を取得することと、
前記第二出力値に基づいて前記生成器のモデルパラメータを調整することと、を含む
請求項４に記載の方法。
前記第一損失関数は、判別器損失関数及び最小平均二乗値誤差損失関数を含み、前記第二損失関数は、生成器損失関数及び前記最小平均二乗値誤差損失関数を含み、前記判別器損失関数、前記最小平均二乗値誤差損失関数、及び前記生成器損失関数はいずれも正則化項を含む損失関数である
請求項５に記載の方法。
訳文表示方法であって、
文字消去モデルを利用して、目標原文文字ブロックを含む目標原文文字ブロック画像を処理し、目標文字ブロック消去画像を取得することと、
訳文表示パラメータを特定することと、
前記訳文表示パラメータに基づいて、前記目標原文文字ブロックに対応する訳文文字ブロックを前記目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を取得することと、
前記目標訳文文字ブロック画像を表示することとを含み、
ここで、前記文字消去モデルは請求項１～６のいずれか一項に記載の方法でトレーニングされたものである
訳文表示方法。
前記目標原文文字ブロックに対応する文字枠が方形文字枠ではないと判定した場合、アフィン変換を利用して前記テキスト枠を前記方形文字枠に変換することをさらに含む
請求項７に記載の方法。
前記目標原文文字ブロック画像は、複数の目標サブ原文文字ブロック画像を含み、
前記方法は、
前記複数の目標サブ原文文字ブロック画像をスティッチングし、前記目標原文文字ブロック画像を取得することをさらに含む
請求項７又は８に記載の方法。
前記訳文表示パラメータは訳文画素値を含み、
前記訳文表示パラメータを特定することは、
前記目標原文文字ブロック画像の文字領域を特定することと、
前記目標原文文字ブロック画像の文字領域の画素平均値を特定することと、
前記目標原文文字ブロック画像の文字領域の画素平均値を前記訳文画素値として特定することとを含む
請求項７～９のいずれか一項に記載の方法。
前記目標原文文字ブロック画像の文字領域を特定することは、
画像二値化を利用して前記目標原文文字ブロック画像を処理し、第一画像領域及び第二画像領域を取得することと、
前記第一画像領域に対応する目標原文文字ブロック画像の第一画素平均値を特定することと、
前記第二画像領域に対応する目標原文文字ブロック画像の第二画素平均値を特定することと、
前記目標文字ブロック消去画像に対応する第三画素平均値を特定することと、
前記第一画素平均値、前記第二画素平均値、及び前記第三画素平均値に基づいて、前記目標原文文字ブロック画像の文字領域を特定することと、を含む
請求項１０に記載の方法。
前記第一画素平均値、前記第二画素平均値、及び前記第三画素平均値に基づいて、前記目標原文文字ブロック画像の文字領域を特定することは、
前記第一画素平均値と前記第三画素平均値との間の差分値の絶対値が前記第二画素平均値と前記第三画素平均値との間の差分値の絶対値より小さいと判定した場合、前記第一画素平均値に対応する第一画像領域を前記目標原文文字ブロック画像の文字領域として特定することと、
前記第一画素平均値と前記第三画素平均値との間の差分値の絶対値が前記第二画素平均値と前記第三画素平均値との間の差分値の絶対値以上であると判定した場合、前記第二画素平均値に対応する第二画像領域を前記目標原文文字ブロック画像の文字領域として特定することと、を含む
請求項１１に記載の方法。
前記訳文表示パラメータは、訳文配列パラメータ値を含み、前記訳文配列パラメータ値は、訳文表示行数及び／又は訳文展示高さを含み、
前記訳文表示パラメータを特定することは、
前記目標文字ブロック消去画像に対応する文字領域の高さ及び幅と、前記目標訳文文字ブロックに対応する高さ及び幅とに基づいて、前記訳文表示行数及び／又は前記訳文表示高さを特定することを含む
請求項７～１２のいずれか一項に記載の方法。
前記目標文字ブロック消去画像に対応する文字領域の高さ及び幅と、前記目標訳文文字ブロックに対応する高さ及び幅とに基づいて、前記訳文表示行数及び／又は前記訳文表示高さを特定することは、
前記目標訳文文字ブロックに対応する幅の和を特定することと、
前記目標訳文文字ブロックに対応する訳文表示行数をｉ行に設定し、ここで、前記ｉ行の各行の高さは前記目標文字ブロック消去画像に対応する文字領域の高さの１／ｉであり、ｉが１以上の整数であることと、
前記幅の和が前記ｉ行に対応する所定幅閾値より大きいと判定した場合、前記目標訳文文字ブロックに対応する訳文表示行数をｉ＝ｉ+１行に設定し、ここで、前記所定幅閾値が前記目標文字ブロック消去画像に対応する文字領域の幅のｉ倍に基づいて特定されることと、
前記幅の和が前記ｉ行に対応する所定幅閾値以下であると判定するまで、前記幅の和が前記ｉ行に対応する所定幅閾値以下であるか否かを判定する操作を繰り返し実行することと、
前記幅の和が前記ｉ行に対応する所定幅閾値以下であると判定した場合、前記ｉ行を前記訳文表示行数として特定し、及び／又は前記目標文字ブロック消去画像に対応する文字領域の高さの１／ｉを前記訳文表示高さとして特定することと、を含む
請求項１３に記載の方法。
前記訳文配列パラメータ値は訳文表示方向を含み、前記訳文表示方向は、前記目標原文文字ブロックの文字方向に基づいて特定される
請求項７～１４のいずれか一項に記載の方法。
文字消去モデルのトレーニング装置であって、
敵対的生成ネットワークモデルの生成器を利用して原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得するものであって、ここで、前記敵対的生成ネットワークモデルが前記生成器及び判別器を含む第一取得モジュールと、
実文字ブロック消去画像セットと前記シミュレーション文字ブロック消去画像セットとを利用して、前記生成器と前記判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得する第二取得モジュールと、
前記トレーニング済みの生成器を前記文字消去モデルとして特定する第一特定モジュールと、を含み、
ここで、前記実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は前記実文字ブロック消去画像における前記文字消去領域以外の他の領域の画素値に基づいて特定される
文字消去モデルのトレーニング装置。
訳文表示装置であって、
文字消去モデルを利用して、目標原文文字ブロックを含む目標原文文字ブロック画像を処理し、目標文字ブロック消去画像を取得する第三取得モジュールと、
訳文表示パラメータを特定する第二特定モジュールと、
前記訳文表示パラメータに基づいて、前記目標原文文字ブロックに対応する訳文文字ブロックを前記目標テキスト消去画像に重ね合わせ、目標訳文文字ブロック画像を取得する第四取得モジュールと、
前記目標訳文文字ブロック画像を表示する表示モジュールと、を含み、
ここで、前記文字消去モデルは請求項１～６のいずれか一項に記載の方法でトレーニングされたものである
訳文表示装置。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含む電子機器であって、
前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記命令は前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが請求項１～６のいずれか一項又は請求項７～１５のいずれか一項に記載の方法を実行することができる
電子機器。
コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は前記コンピュータに請求項１～６のいずれか一項又は請求項７～１５のいずれか一項に記載の方法を実行させる、
非一時的なコンピュータ可読記憶媒体。
プロセッサにより実行される時に請求項１～６のいずれか一項又は請求項７～１５のいずれか一項に記載の方法を実現するコンピュータプログラムを含む
コンピュータプログラム製品。