JP2023541351A - 文字消去モデルのトレーニング方法及び装置、訳文表示方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム - Google Patents

文字消去モデルのトレーニング方法及び装置、訳文表示方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム Download PDF

Info

Publication number
JP2023541351A
JP2023541351A JP2023509866A JP2023509866A JP2023541351A JP 2023541351 A JP2023541351 A JP 2023541351A JP 2023509866 A JP2023509866 A JP 2023509866A JP 2023509866 A JP2023509866 A JP 2023509866A JP 2023541351 A JP2023541351 A JP 2023541351A
Authority
JP
Japan
Prior art keywords
character
character block
image
target
erased
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023509866A
Other languages
English (en)
Inventor
亮 呉
珊珊 劉
成全 章
▲クン▼ 姚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023541351A publication Critical patent/JP2023541351A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Image Processing (AREA)

Abstract

本開示は、文字消去モデルのトレーニング方法、訳文表示方法、装置、電子機器及び記憶媒体を提供し、人工知能技術分野、具体的にはコンピュータ視覚及びディープラーニングの分野に関し、OCR光学文字認識などのシーンに応用することができる。具体的な解決手段は、敵対的生成ネットワークモデルの生成器を利用して原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得し、ここで、敵対的生成ネットワークモデルが前記生成器及び判別器を含むことと、実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとを利用して、生成器と判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得することと、トレーニング済みの生成器を文字消去モデルとして特定することと、を含み、ここで、実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は、実文字ブロック消去画像における文字消去領域以外の他の領域の画素値に基づいて特定される。

Description

本願は、2021年8月17日に提出され、出願番号が202110945871.0である中国特許出願の優先権を要求し、その全ての内容は引用により本願に組み込まれる。
本開示は、人工知能技術分野、具体的にはコンピュータ視覚及びディープラーニングの技術分野に関し、OCR光学文字認識などのシーンに応用することができる。具体的には、トレーニング方法、訳文表示方法、装置、電子機器及び記憶媒体に関する。
グローバル化の推進に伴い、各国の間で学術、商業、生活などでの交流がますます頻繁になるが、各国の言語に差異が存在し、ユーザは翻訳アプリケーションによりある言語の文字を別の言語の文字に翻訳することができ、交流しやすくなる。
撮影翻訳は新たな翻訳製品形態であり、現在の撮影翻訳機能の入力は元言語文字付きの画像であり、出力は目標翻訳言語文字付きの画像である。
本開示はトレーニング方法、訳文表示方法、装置、電子機器及び記憶媒体を提供する。
本開示の一態様によれば、文字消去モデルのトレーニング方法を提供し、敵対的生成ネットワークモデルの生成器を利用して原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得し、ここで、前記敵対的生成ネットワークモデルが前記生成器及び判別器を含むことと、実文字ブロック消去画像セットと前記シミュレーション文字ブロック消去画像セットとを利用して、前記生成器と前記判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得することと、前記トレーニング済みの生成器を前記文字消去モデルとして特定することと、を含み、ここで、前記実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は、前記実文字ブロック消去画像における前記文字消去領域以外の他の領域の画素値に基づいて特定される。
本開示の別の態様によれば、訳文表示方法を提供し、文字消去モデルを利用して、目標原文文字ブロックを含む目標原文文字ブロック画像を処理し、目標文字ブロック消去画像を取得することと、訳文表示パラメータを特定することと、前記訳文表示パラメータに基づいて、前記目標原文文字ブロックに対応する訳文文字ブロックを前記目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を取得することと、前記目標訳文文字ブロック画像を表示することとを含み、ここで、前記文字消去モデルは上記の方法でトレーニングされたものである。
本開示の別の態様によれば、文字消去モデルのトレーニング装置を提供し、敵対的生成ネットワークモデルの生成器を利用して原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得するものであって、ここで、前記敵対的生成ネットワークモデルが前記生成器及び判別器を含む第一取得モジュールと、実文字ブロック消去画像セットと前記シミュレーション文字ブロック消去画像セットとを利用して、前記生成器と前記判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得する第二取得モジュールと、前記トレーニング済みの生成器を前記文字消去モデルとして特定する第一特定モジュールと、を含み、ここで、前記実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は前記実文字ブロック消去画像における前記文字消去領域以外の他の領域の画素値に基づいて特定される。
本開示の別の態様によれば、訳文表示装置を提供し、文字消去モデルを利用して、目標原文文字ブロックを含む目標原文文字ブロック画像を処理し、目標文字ブロック消去画像を取得する第三取得モジュールと、訳文表示パラメータを特定する第二特定モジュールと、前記訳文表示パラメータに基づいて、前記目標原文文字ブロックに対応する訳文文字ブロックを前記目標テキスト消去画像に重ね合わせ、目標訳文文字ブロック画像を取得する第四取得モジュールと、前記目標訳文文字ブロック画像を表示する表示モジュールと、を含み、ここで、前記文字消去モデルは上記の方法でトレーニングされたものである。
本開示の別の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記命令は前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが上記の方法を実行することができる。
本開示の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、ここで、前記コンピュータ命令は前記コンピュータに上記の方法を実行させる。
本開示の別の態様によれば、プロセッサにより実行される時に上記の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
図面は本技術案をよりよく理解するために用いられ、本開示を限定するものではない。
図1は、本開示の実施例に係る文字消去モデルのトレーニング方法、訳文表示方法及び装置を適用可能な例示的なシステムアーキテクチャを概略的に示す。 図2は、本開示の実施例に係る文字消去モデルのトレーニング方法のフローチャートを概略的に示す。 図3は、本開示の実施例に係る第一実文字ブロック消去画像セット及び第一シミュレーション文字ブロック消去画像セットを利用して判別器をトレーニングするフローチャートを概略的に示す。 図4は、本開示の実施例に係る文字消去モデルのトレーニングプロセスの概略図を概略的に示す。 図5は、本開示の実施例に係る訳文表示方法のフローチャートを概略的に示す。 図6は、本開示の実施例に係る訳文表示行数及び/又は訳文表示高さを特定するフローチャートを概略的に示す。 図7は、本開示の実施例に係る訳文表示プロセスの概略図を概略的に示す。 図8Aは、本開示の実施例に係る文字消去プロセスの概略図を概略的に示す。 図8Bは、本開示の実施例に係る訳文貼り合わせプロセスの概略図を概略的に示す。 図9は、本開示の実施例に係る文字消去モデルのトレーニング装置のブロック図を概略的に示す。 図10は、本開示の実施例に係る訳文表示装置のブロック図を概略的に示す。 図11は、本開示の実施例に係る文字消去モデルのトレーニング方法又は訳文表示方法を実現することに適する電子機器のブロック図を概略的に示す。
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが単に例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
撮影翻訳技術は、文字を含むシーンを撮影して画像を取得し、次に取得された画像におけるテキスト行の文字内容を認識することと、さらに文字内容に対して機械翻訳を行い、翻訳後の文字内容を取得することと、翻訳後の文字内容をユーザに表示することと、を含むことができる。画像の元のテキスト行に翻訳結果を直接的に表示する必要がある場合、まず画像における元のテキスト行のテキストを消去し、次に訳文を元のテキスト行の位置に貼り付けて翻訳結果を表示する必要がある。
本開示の思想を実現する過程において、発見された1つの技術案として、元画像における文字を消去する時に、原画像における文字領域に対してぼかしフィルタリング処理を直接的に行うことができ、又は文字ブロック領域の色平均値によって領域全体を充填することにより、ユーザにとって元文字を視覚的に消去するという効果を達成する。しかし、これによって文字領域と画像の他の背景部分との区別が明らかになり、消去効果が低く、ユーザの視覚体験に影響を与える。
このために、本開示の実施例は、文字消去モデルのトレーニング方法、訳文表示方法、装置、電子機器、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。該文字消去モデルのトレーニング方法は、敵対的生成ネットワークモデルの生成器によってトレーニングセットを処理し、シミュレーション文字ブロック消去画像セットを取得することを含み、ここで、敵対的生成ネットワークモデルは生成器及び判別器を含む。実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとを用いて、生成器と判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得する。トレーニング済みの生成器を文字消去モデルとして特定する。実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は、実文字ブロック消去画像における文字消去領域以外の他の領域の画素値に基づいて特定される。
図1は、本開示の実施例に係る文字消去モデルのトレーニング方法、訳文表示方法及び装置を適用可能な例示的なシステムアーキテクチャを概略的に示す。
注意すべきこととして、当業者が本開示の技術内容を理解するように、図1に示すのは、本開示の実施例を適用可能なシステムアーキテクチャの例示に過ぎず、本開示の実施例が他の機器、システム、環境又はシーンに用いることができないことを意味するものではない。例えば、別の実施例において、内容処理方法及び装置を適用可能な例示的なシステムアーキテクチャは、端末機器を含むことができるが、端末機器はサーバと対話せずに、本開示の実施例が提供する内容処理方法及び装置を実現することができる。
図1に示すように、該実施例に係るシステムアーキテクチャ100は、端末機器101、102、103、ネットワーク104、及びサーバ105を含むことができる。ネットワーク104は、端末機器101、102、103とサーバ105との間に通信リンクの媒体を提供するために用いられる。ネットワーク104は、例えば有線及び/又は無線通信リンク等の様々な接続タイプを含むことができる。
ユーザは、端末機器101、102、103を使用してネットワーク104を介してサーバ105と対話することにより、メッセージ等を受信するか又は送信することができる。端末機器101、102、103に、例えば知識閲読類アプリケーション、ウェブページブラウザアプリケーション、検索類アプリケーション、リアルタイム通信ツール、メールボックスクライアント及び/又はソーシャルプラットフォームソフトウェアなど(例に過ぎない)の様々な通信クライアントアプリケーションがインストールされてもよい。
端末機器101、102、103は、ディスプレイを有しかつウェブページの閲覧をサポートする様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップ型携帯コンピュータ、及びデスクトップコンピュータ等を含むが、それらに限定されない。
サーバ105は、例えばユーザが端末機器101、102、103を利用して閲覧する内容をサポートするバックグラウンド管理サーバ(例に過ぎない)などの様々なサービスを提供するサーバであってもよい。バックグラウンド管理サーバは、受信されたユーザ要求等のデータに対して分析等の処理を行い、処理結果(例えばユーザの要求に応じて取得又は生成されたウェブページ、情報又はデータ等)を端末機器にフィードバックすることができる。
説明すべきこととして、本開示の実施例が提供する文字消去モデルのトレーニング方法及び訳文の表示方法は、一般的に端末機器101、102、又は103により実行することができる。それに応じて、本開示の実施例が提供する文字消去モデルのトレーニング装置及び訳文表示装置は端末機器101、102、又は103に設置されてもよい。
又は、本開示の実施例が提供する文字消去モデルのトレーニング方法及び訳文表示方法は、一般的にサーバ105により実行されてもよい。それに応じて、本開示の実施例が提供する文字消去モデルのトレーニング装置及び訳文表示装置は、一般的にサーバ105に設置することができる。本開示の実施例が提供する文字消去モデルのトレーニング方法及び訳文表示方法は、サーバ105とは異なりかつ端末機器101、102、103及び/又はサーバ105と通信可能なサーバ又はサーバクラスタによって実行されてもよい。それに応じて、本開示の実施例が提供する方法は、サーバ105と異なりかつ端末機器101、102、103及び/又はサーバ105と通信可能なサーバ又はサーバクラスタに設置されてもよい。
例えば、サーバ105は、敵対的生成ネットワークモデルの生成器によってトレーニングセットを処理し、シミュレーション文字ブロック消去画像セットを取得し、ここで、敵対的生成ネットワークモデルは、生成器及び判別器を含む。実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとを用いて、生成器と判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得する。トレーニング済みの生成器を文字消去モデルとして特定する。又は、端末機器101、102、103及び/又はサーバ105と通信可能なサーバ又はサーバクラスタによって、実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットを用いて、生成器及び判別器を交互にトレーニングし、文字消去モデル、即ち、トレーニング済みの生成器を取得する。
理解すべきこととして、図1における端末機器、ネットワーク及びサーバの数は単に例示的なものである。必要に応じて、任意の数の端末機器、ネットワーク及びサーバを有してもよい。
図2は、本開示の実施例に係る文字消去モデルのトレーニング方法のフローチャートを概略的に示す。
図2に示すように、該方法200は、操作S210~S230を含む。
操作S210において、敵対的生成ネットワークモデルの生成器を用いて、原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得し、ここで、敵対的生成ネットワークモデルは生成器及び判別器を含む。
操作S220において、実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットを用いて、生成器及び判別器を交互にトレーニングし、トレーニング済みの生成器及び判別器を取得する。
操作S230において、トレーニング済みの生成器を文字消去モデルとして特定する。
本開示の実施例によれば、実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は、実文字ブロック消去画像における文字消去領域以外の他の領域の画素値に基づいて特定される。
本開示の実施例によれば、文字ブロック画像は、文字消去領域及び文字消去領域以外の他の背景領域を含むことができる。文字ブロック消去は、文字ブロック画像における文字消去領域に入力された文字を消去し、消去すると同時に元の背景のテクスチャ色を保留することであってもよい。
本開示の実施例によれば、敵対的生成ネットワークモデルは、深層畳み込み敵対的生成ネットワークモデル、ブルドーザの距離に基づく敵対的生成ネットワークモデル、または条件性敵対的生成ネットワークモデル等を含むことができる。敵対的生成ネットワークモデルは、生成器及び判別器とを含むことができる。生成器及び判別器は、ニューラルネットワークモデルを含むことができる。生成器は、シミュレーション文字ブロック消去画像セットを生成するために用いられ、生成器を継続的にトレーニングすることにより実文字ブロック消去画像セットを学習させ、それにより実文字ブロック消去画像セットのデータ分布と一致するサンプルをゼロから生成し、かつ可能な限り判別器を混同させることができる。判別器は、実文字ブロック消去画像セットおよびシミュレーション文字ブロック消去画像セットに用いることができる。
本開示の実施例によれば、ブルドーザの距離に基づく敵対的生成ネットワークモデルは、生成器と判別器とのトレーニングが同期せず、トレーニングが収束せず、モードが崩壊するという問題を解決し、データ生成モデルのモデル品質を向上させることができる。
本開示の実施例によれば、ブルドーザの距離に基づく敵対的生成ネットワークモデルのトレーニングプロセスは、学習率、バッチ処理数(すなわち実文字ブロック消去画像セットに含まれる実文字ブロック消去画像の数)、ニューラルネットワークモデルのモデルパラメータ範囲、最大反復回数、及び毎回の反復のトレーニング回数を予め設定することである。
本開示の実施例によれば、実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとにより、生成器と判別器とを反復交互にトレーニングし、これにより生成器と判別器とはそれらの間のゲームにより、それぞれの最適化を実現し、最終的に判別器は実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとを正確に区別できず、即ち、ナッシュ均衡に達する。この場合、生成器が実文字ブロック消去画像セットのデータ分布を学習したと考えられ、トレーニング済みの生成器を文字消去モデルとして特定する。
本開示の実施例によれば、実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットにより、生成器及び判別器を反復交互にトレーニングすることは、毎回の反復過程において、生成器のモデルパラメータを変化せずに、実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットを利用して判別器をトレーニングすることにより、今回の反復で判別器に対して設定されたトレーニング回数を完了することを含むことができる。当該反復で判別器に対して設定されたトレーニング回数を完了した後、判別器のモデルパラメータを変化せずに、シミュレーション文字ブロック消去画像セットによって生成器をトレーニングすることにより、今回の反復で生成器に対して設定されたトレーニング回数を完了する。説明すべきこととして、毎回のトレーニングを実行する過程において、生成器を利用して今回に対応するシミュレーション文字ブロック消去画像セットを生成することができる。上記生成器及び判別器のトレーニング方式は、例示的な実施例だけであり、これに限定されるものではなく、本分野の既知のトレーニング方式を含むことができ、生成器及び判別器のトレーニングを実現することができればよい。
本開示の実施例によれば、実際需要に応じて適切なトレーニングポリシーを選択することができ、ここで限定しない。例えば、トレーニングポリシーは、毎回の反復において、生成器のトレーニング回数及び判別器のトレーニング回数が一回であること、生成器のトレーニング回数が一回でありかつ判別器のトレーニング回数が複数回でであること、生成器のトレーニング回数が複数回でありかつ判別器のトレーニング回数が一回であること、生成器のトレーニング回数が複数回でありかつ判別器のトレーニング回数が複数回であることのいずれか1つを含んでもよい。
本開示の実施例によれば、敵対的生成ネットワークモデルの生成器によって原文文字ブロック画像セットを処理することにより、シミュレーション文字ブロック消去画像セットを取得し、実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとを利用して、生成器と判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得し、トレーニング済みの生成器を文字消去モデルとして特定し、実文字ブロック消去画像における文字消去領域の画素値が他の領域の画素値に基づいて特定されるため、文字消去モデルは、文字消去領域の色を他の領域(即ち背景領域)とできるだけ一致させることを実現することができ、これにより、消去効果を向上させ、さらにユーザの視覚体験を向上させる。
本開示の実施例によれば、原文文字ブロック画像トレーニングセットは、第一原文文字ブロック画像セットと第二原文文字ブロック画像セットとを含み、シミュレーション文字ブロック消去画像セットは、第一シミュレーション文字ブロック消去画像セットと第二シミュレーション文字ブロック消去画像セットとを含む。敵対的生成ネットワークモデルの生成器によって原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得することは、以下の操作を含むことができる。生成器を利用して第一原文文字ブロック画像セットを処理し、第一シミュレーション文字ブロック消去画像セットを生成する。生成器を利用して第二原文文字ブロック画像セットを処理し、第二シミュレーション文字ブロック消去画像セットを生成する。
本開示の実施例によれば、生成器を利用してシミュレーション文字ブロック消去画像セットを生成することは、第一原文文字ブロック画像セットと第一ランダムノイズデータとを生成器に入力し、第一シミュレーション文字ブロック消去画像セットを取得することと、第一原文文字ブロック画像セットと第二ランダムノイズデータとを生成器に入力し、第二シミュレーション文字ブロック消去画像セットを取得することと、を含むことができる。第一ランダムノイズデータおよび第二ランダムノイズデータの形態は、ガウスノイズを含んでいてもよい。
本開示の実施例によれば、実文字ブロック消去画像セットは、第一実文字ブロック消去画像セットと第二実文字ブロック消去画像セットとを含む。実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットを利用して、生成器及び判別器を交互にトレーニングし、トレーニング済みの生成器及び判別器を取得することは、以下の操作を含むことができる。
第一実文字ブロック消去画像セット及び第一シミュレーション文字ブロック消去画像セットによって判別器をトレーニングする。第二シミュレーション文字ブロック消去画像セットによって生成器をトレーニングする。敵対的生成ネットワークモデルの収束条件を満たすまで、判別器をトレーニングする操作と生成器をトレーニングする操作とを交互に実行する。敵対的生成ネットワークモデルの収束条件を満たす場合に得られた生成器及び判別器を、トレーニング済みの生成器及び判別器として特定する。
本開示の実施例によれば、敵対的生成ネットワークモデルの収束条件は、生成器が収束すること、生成器及び判別器がいずれも収束すること、又は反復が終了条件に達することを含むことができ、反復が終了条件に達することは、反復回数が所定の反復回数に等しくなることを含むことができる。
本開示の実施例によれば、判別器をトレーニングする操作と生成器をトレーニングする操作とを交互に実行することは、以下のように理解することができる。t回目の反復過程において、生成器のモデルパラメータを変化せずに、実文字ブロック消去画像セットと第一シミュレーション文字ブロック消去画像セットとを利用して判別器をトレーニングし、上記プロセスを繰り返し、今回の反復で判別器に対して設定したトレーニング回数を完了し、tが2以上の整数である。毎回のトレーニングプロセスにおいて、生成器を利用して今回に対応する第一シミュレーション文字ブロック画像セットを生成することができる。
本開示の実施例によれば、今回の反復で判別器に対して設定されたトレーニング回数を完了した後、判別器のモデルパラメータを変化せずに、第二シミュレーション文字ブロック消去画像セットによって生成器をトレーニングし、上記プロセスを繰り返し、今回の反復で生成器に対して設定されたトレーニング回数を完了する。毎回のトレーニングプロセスにおいて、生成器を利用して今回に対応する第二シミュレーション文字ブロック画像セットを生成することができる。2≦t≦Tであり、Tは所定の反復回数を表し、t及びTは整数である。
本開示の実施例によれば、t回目の反復に対して、「生成器のモデルパラメータを変化せずに」における生成器のモデルパラメータとは、t-1回目の反復において生成器に対する最終回のトレーニングを完了した後に得られた生成器のモデルパラメータである。「判別器のモデルパラメータを変化せずに」における判別器のモデルパラメータとは、t回目の反復において判別器に対する最終回のトレーニングを完了した後に得られた判別器のモデルパラメータである。
以下に図3~図4を参照し、具体的な実施例と組み合わせて、本開示の実施例に記載の文字消去モデルのトレーニング方法をさらに説明する。
図3は、本開示の実施例に係る第一実文字ブロック消去画像セット及び第一シミュレーション文字ブロック消去画像セットを利用して判別器をトレーニングするフローチャートを概略的に示す。
本開示の実施例によれば、第一実文字ブロック消去画像セットは、複数の第一実文字ブロック消去画像を含み、第一シミュレーション文字ブロック消去画像セットは、複数の第一シミュレーション文字ブロック消去画像を含む。
図3に示すように、該方法300は、操作S310~S330を含む。
操作S310において、第一実文字ブロック消去画像セットにおける各第一実文字ブロック消去画像を判別器に入力し、第一実文字ブロック消去画像に対応する第一判別結果を取得する。
操作S320において、第一シミュレーション文字ブロック消去画像セットにおける各第一シミュレーション文字ブロック消去画像を判別器に入力し、第一シミュレーション文字ブロック消去画像に対応する第二判別結果を取得する。
操作S330において、第一判別結果と第二判別結果とに基づいて判別器をトレーニングする。
本開示の実施例によれば、判別器は、実際に分類器に属し、第一実文字ブロック消去画像と第一シミュレーション文字ブロック消去画像とをそれぞれ判別器に入力した後に、第一実文字ブロック消去画像に対応する第一判別結果と第一シミュレーション文字ブロック消去画像に対応する第二判別結果とに基づいて判別器をトレーニングすることにより、判別器が、入力されるものが第一実文字ブロック消去画像であるか、第一シミュレーション文字ブロック消去画像であるかを正確に判定できないようにし、すなわち、第一実文字ブロック消去画像に対応する第一判別結果と第一シミュレーション文字ブロック消去画像に対応する第二判別結果とを可能な限り同じにする。
本開示の実施例によれば、第一判別結果と第二判別結果とに基づいて判別器をトレーニングすることは、以下の操作を含むことができる。
生成器のモデルパラメータを変化せずに、第一損失関数に基づいて、第一判別結果と第二判別結果とを利用して、第一出力値を取得する。第一出力値に基づいて判別器のモデルパラメータを調整し、調整された判別器のモデルパラメータを取得する。
本開示の実施例によれば、第二シミュレーション文字ブロック消去画像セットによって生成器をトレーニングすることは、以下の操作を含むことができる。
調整後の判別器のモデルパラメータを変化せずに、第二損失関数に基づいて、第二シミュレーション文字ブロック消去画像セットを利用して、第二出力値を取得する。第二出力値に基づいて生成器のモデルパラメータを調整する。
本開示の実施例によれば、t回目の反復過程において、生成器のモデルパラメータを変化せずに、第一実文字ブロック消去画像に対応する第一判別結果と第一シミュレーション文字ブロック消去画像に対応する第二判別結果とを第一損失関数に入力し、第一出力値を取得する。第一出力値に基づいて判別器のモデルパラメータを調整し、上記プロセスを繰り返し、今回の反復で判別器に対して設定したトレーニング回数を完了する。
本開示の実施例によれば、今回の反復が判別器に対して設定したトレーニング回数を完了した後、調整後の判別器のモデルパラメータを変化せずに、第二シミュレーション文字ブロック消去画像セットに含まれる各第二シミュレーション文字ブロック消去画像を第二損失関数に入力し、第二出力値を取得する。第二出力値に基づいて生成器のモデルパラメータを調整する。上記プロセスを繰り返し、今回の反復で生成器に対して設定したトレーニング回数を完了する。
本開示の実施例によれば、第一損失関数は、判別器損失関数と最小平均二乗値誤差損失関数とを含み、第二損失関数は、生成器損失関数と最小平均二乗値誤差損失関数とを含み、判別器損失関数、最小平均二乗値誤差損失関数、及び生成器損失関数はいずれも正則化項を含む損失関数である。
本開示の実施例によれば、第一損失関数に含まれる判別器損失関数、最小平均二乗値誤差損失関数、及び生成器損失関数は、いずれも正則化項を含む損失関数であり、上記損失関数の結合によりトレーニングプロセスにおいてノイズ除去を容易にし、文字消去結果をよりリアルで確実にする。
図4は、本開示の実施例に係る文字消去モデルのトレーニングプロセスの概略図を概略的に示す。
図4に示すように、文字消去モデルのトレーニングプロセス400は、毎回の反復過程において、生成器402のモデルパラメータを変化せずに、第一原文文字ブロック画像セット401を生成器402に入力し、第一シミュレーション文字ブロック消去画像セット403を取得することを含む。
第一実文字ブロック消去画像セット404における各第一実文字ブロック消去画像を判別器405に入力し、第一実文字ブロック消去画像に対応する第一判別結果406を得る。第一シミュレーション文字ブロック消去画像セット403における各第一シミュレーション文字ブロック消去画像を判別器405に入力し、第一シミュレーション文字ブロック消去画像に対応する第二判別結果407を得る。
第一実文字ブロック消去画像に対応する第一判別結果406と第一シミュレーション文字ブロック消去画像に対応する第二判別結果407とを第一損失関数408に入力し、第一出力値409を得る。第一出力値409に基づいて、判別器405のモデルパラメータを調整する。今回の反復の判別器405に対するトレーニング回数を完了するまで、上記プロセスを繰り返す。
今回の反復の判別器405に対するトレーニング回数を完了した後、判別器405のモデルパラメータを変化せずに、第二原文文字ブロック画像セット410を生成器402に入力し、第二シミュレーション文字ブロック消去画像セット411を取得する。第二シミュレーション文字ブロック消去画像セット411における各第二シミュレーション文字ブロック消去画像を第二損失関数412に入力し、第二出力値413を取得する。第二出力値413に基づいて、生成器402のモデルパラメータを調整する。今回の反復の生成器402に対するトレーニング回数を完了するまで、上記プロセスを繰り返す。
敵対的生成ネットワークモデルの収束条件を満たすまで、上述した判別器405及び生成器402に対するトレーニングプロセスを交互に実行し、トレーニングが完了する。
図5は、本開示の実施例に係る訳文表示方法のフローチャートを概略的に示す。
図5に示すように、該方法500は操作S510~S540を含む。
操作S510において、文字消去モデルを利用して目標原文文字ブロック画像を処理し、目標文字ブロック消去画像を取得し、目標原文文字ブロック画像は、目標原文文字ブロックを含む。
操作S520において、訳文表示パラメータを特定する。
操作S530において、訳文表示パラメータに基づいて、目標原文文字ブロックに対応する訳文文字ブロックを目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を取得する。
操作S540において、目標訳文文字ブロック画像を表示する。
文字消去モデルは、上述した操作S210~S240の方法でトレーニングされたものである。
本開示の実施例によれば、目標原文文字ブロック画像は、文字消去領域及び文字消去領域以外の他の背景領域を含むことができ、目標文字ブロック消去画像は、目標原文文字ブロック画像の文字消去領域の文字を消去した後の画像を含むことができ、目標原文文字ブロックは、目標原文文字ブロック画像における文字消去領域を含むことができる。
本開示の実施例によれば、目標原文文字ブロック画像を文字消去モデルに入力することにより、目標文字ブロック消去画像を取得する。文字消去モデルは、敵対的生成ネットワークモデルの生成器によってシミュレーション文字ブロック画像セットを生成し、実文字ブロック消去画像セットとシミュレーション文字ブロック画像セットとを利用して敵対的生成ネットワークモデルの生成器及び判別器を交互にトレーニングし、トレーニング済みの生成器及び判別器を得て、かつトレーニング済みの生成器を文字消去モデルとして特定する。
本開示の実施例によれば、訳文表示パラメータは、目標原文文字ブロック画像の文字消去領域の文字が翻訳された後の訳文の文字配列パラメータ値、文字色、文字位置等を含むことができる。
本開示の実施例によれば、訳文の文字配列パラメータ値は、訳文表示行数及び/又は訳文表示高さ、訳文表示方向を含むことができる。訳文の文字色は、目標原文文字ブロック画像の文字消去領域の文字色により特定することができる。訳文の文字位置は、目標原文文字ブロック図形の文字消去領域の位置する文字位置と一致することができる。
本開示の実施例によれば、訳文を目標原文文字ブロック画像における文字消去領域位置に対応する目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を取得する。
本開示の実施例によれば、文字消去モデルを利用して目標原文文字ブロック画像を処理することにより、目標文字ブロック消去画像を得て、訳文表示パラメータを特定し、訳文表示パラメータに基づいて、目標原文文字ブロックに対応する訳文文字ブロックを目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を得て、かつ目標訳文文字ブロック画像を表示し、文字ブロック画像の文字の翻訳機能を効果的に実現し、それにより表示された訳文画像が完全でありかつ見た目がよく、それによりユーザの視覚体験を向上させる。
本開示の実施例によれば、目標原文文字ブロックに対応する文字枠が方形文字枠ではないと判定した場合、アフィン変換を利用してテキスト枠を方形文字枠に変換する。
本開示の実施例によれば、文字消去モデルを利用して目標原文文字ブロック画像を処理する前に、段落検出モデルに基づいて、目標原文文字ブロック画像の文字消去領域の文字枠が形状が不規則な四角形文字枠であることを検出し、アフィン変換を利用して該形状が不規則な四角形文字枠を方形文字枠に変換する。該四角形文字枠は、目標原文文字ブロック画像の文字消去領域に対応する文字枠であってもよく、方形文字枠は矩形形状であってもよい。
本開示の実施例によれば、方形に変換された文字枠内の文字を翻訳した訳文を、目標原文文字ブロック画像の文字消去領域に対応する目標文字ブロック消去画像に貼り付けた後、再びアフィン変換を利用して方形文字枠を逆変換し、目標原文文字ブロック画像の文字消去領域に対応する文字枠と形状及び大きさがいずれも同じである四角形文字枠に変換し戻す。
本開示の実施例によれば、アフィン変換は、二次元座標から二次元座標までの間の線形変換であり、二次元図形の「直線性」及び「平行性」を保持する。直線性とは、変換後の直線が依然として直線であり、湾曲することがなく、円弧が依然として円弧であることである。平行性とは、二次元図形の間の相対的な位置関係が変化しないように保持し、平行線が依然として平行線であり、交差直線の交差角が変化しないことである。
本開示の実施例によれば、アフィン変換は、平行移動、スケーリング、反転、回転、せん断などにより実現される。
本開示の実施例によれば、例えば、目標原文文字ブロック画像の文字消去領域に対応する文字枠は形状が不規則な四角形枠であり、該形状が不規則な四角形枠は、傾斜した文字消去領域の文字内容に対応する場合、該形状が不規則な四角形枠の各角の位置情報は異なる二次元座標を示し、アフィン変換により目標原文文字ブロック画像の文字消去領域に対応する文字枠を矩形形状の四角形枠の二次元座標に補正する。
本開示の実施例によれば、目標原文文字ブロック画像は、複数の目標サブ原文文字ブロック画像を含むことができる。
本開示の実施例によれば、該目標原文文字ブロック画像は、複数の目標サブ原文文字ブロック画像をスティッチングして得られるものを含み、スティッチングされた目標原文文字ブロック画像を文字消去モデルに入力して消去する。
本開示の実施例によれば、例えば、複数の目標サブ原文文字ブロック画像を一定の高さに正規化し、該複数の目標サブ原文文字ブロック画像を一枚又は複数枚の規則的に配列したビッグピクチャーに組み合わせてスティッチングし、目標原文文字ブロック画像とすることができる。
本開示の実施例によれば、複数の目標サブ原文文字ブロック画像をスティッチングすることにより、目標原文文字ブロック画像を取得し、目標原文文字ブロック画像を文字消去モデルに入力して消去し、文字消去モデルを通過する必要がある画像数を大幅に低減し、文字消去の効率を向上させる。
本開示の実施例によれば、訳文表示パラメータは、訳文画素値を含むことができる。
本開示の実施例によれば、訳文表示パラメータを特定することは、以下の操作を含むことができる。
目標原文文字ブロック画像の文字領域を特定する。目標原文文字ブロック画像の文字領域の画素平均値を特定する。目標原文文字ブロック画像の文字領域の画素平均値を、訳文の画素値として特定される。
本開示の実施例によれば、目標原文文字ブロック画像の文字領域を特定することは、以下の操作を含むことができる。
画像二値化により目標原文文字ブロック画像を処理し、第一画像領域及び第二画像領域を取得する。第一画像領域に対応する目標原文文字ブロック画像の第一画素平均値を特定する。第二画像領域に対応する目標原文文字ブロック画像の第二画素平均値を特定する。目標文字ブロック消去画像に対応する第三画素平均値を特定する。第一画素平均値、第二画素平均値、及び第三画素平均値に基づいて、目標原文文字ブロック画像の文字領域を特定する。
本開示の実施例によれば、画像二値化処理は、一つの閾値Tを設定し、閾値Tを用いて画像のデータを画素値がTより大きい画素群と画素値がTより小さい画素群という二つの部分に分け、画像全体が明らかな黒と白のみがある視覚効果を呈することである。
本開示の実施例によれば、第一画像領域は、目標原文文字ブロック画像の文字消去領域であってもよく、目標原文文字ブロック画像の文字消去領域以外の他の領域であってもよく、第二画像領域は、目標原文文字ブロック画像の文字消去領域であってもよく、目標原文文字ブロック画像の文字消去領域以外の他の領域であってもよい。
本開示の実施例によれば、例えば、第一画像領域に対応する目標原文文字ブロック画像の第一画素平均値をA1で表すことができ、第二画像領域に対応する目標原文文字ブロック画像の第二画素平均値をA2で表すことができ、目標文字ブロック消去画像に対応する第三画素平均値をA3で表すことができる。
本開示の実施例によれば、目標文字ブロック消去画像に対応する第三画素値は、目標文字ブロック消去画像における文字消去領域以外の他の領域の画素値に基づいて特定することができる。
本開示の実施例によれば、第一画素平均値、第二画素平均値、及び第三画素平均値に基づいて、目標原文文字ブロック画像の文字領域を特定することは、以下の操作を含むことができる。
第一画素平均値と第三画素平均値との間の差分値の絶対値が第二画素平均値と第三画素平均値との間の差分値の絶対値より小さいと判定した場合、第一画素平均値に対応する第一画像領域を目標原文文字ブロック画像の文字領域として特定する。第一画素平均値と第三画素平均値との間の差分値の絶対値が第二画素平均値と第三画素平均値との間の差分値の絶対値以上であると判定した場合、第二画素平均値に対応する第二画像領域を目標原文文字ブロック画像の文字領域として特定する。
本開示の実施例によれば、目標文字ブロック消去画像に対応する第三画素平均値A3に基づいて、第一画像領域に対応する目標原文文字ブロック画像の第一画素平均値A1と第二画像領域に対応する目標原文文字ブロック画像の第二画素平均値A2を判定し、目標原文文字ブロック画像の文字領域を特定する。
本開示の実施例によれば、例えば、
Figure 2023541351000002
であれば、A1に対応する第一画像領域を目標原文文字ブロック画像の文字領域として特定し、A2に対応する第二画像領域を目標原文文字ブロック画像の文字領域以外の他の領域として特定する。
本開示の実施例によれば、
Figure 2023541351000003
であれば、A2に対応する第二画像領域を目標原文文字ブロック画像の文字領域として特定し、A1に対応する第一画像領域を目標原文文字ブロック画像の文字領域以外の他の領域として特定する。
本開示の実施例によれば、訳文表示パラメータは、訳文配列パラメータ値を含むことができ、訳文配列パラメータ値は、訳文表示行数、訳文表示高さ、訳文表示行数、及び訳文表示高さを含むことができる。
本開示の実施例によれば、表示パラメータを特定することは、以下の操作を含むことができる。目標文字ブロック消去画像に対応する文字領域の高さ及び幅と、目標訳文文字ブロックに対応する高さ及び幅とに基づいて、訳文表示行数及び/又は訳文表示高さを特定する。
本開示の実施例によれば、訳文表示高さは、目標文字ブロック消去画像に対応する文字領域の高さにより特定することができる。
本開示の実施例によれば、訳文文字幅は、訳文を一行で配列する時の文字幅であってもよい。訳文の字体幅と高さの比率に基づいて、訳文を一行で配列する場合の訳文文字幅を得ることができる。
図6は、本開示の実施例に係る訳文表示行数及び/又は訳文表示高さを特定するフローチャートを概略的に示す。
図6に示すように、目標文字ブロック消去画像に対応する文字領域の高さ及び幅と、目標訳文文字ブロックに対応する高さ及び幅とに基づいて、訳文表示行数及び/又は訳文表示高さを特定することは、操作S610~S650を含むことができる。
操作S610において、目標訳文文字ブロックに対応する幅の和を特定する。
操作S620において、目標訳文文字ブロックに対応する訳文表示行数をi行に設定し、ここで、i行のうちの各行の高さは目標文字ブロック消去画像に対応する文字領域の高さの1/iであり、iは1以上の整数である。
操作S630において、幅の和がi行に対応する所定幅閾値より大きいと判定した場合、目標訳文文字ブロックに対応する訳文表示行数をi=i+1行に設定し、ここで、所定幅閾値は、目標文字ブロック消去画像に対応する文字領域の幅のi倍に基づいて特定される。
操作S640において、幅の和がi行に対応する所定幅閾値以下であると判定するまで、幅の和がi行に対応する所定幅閾値以下であるか否かを判定する操作を繰り返す。
操作S650において、幅の和がi行に対応する所定幅閾値以下であると判定した場合、i行を訳文表示行数として特定し、及び/又は目標文字ブロック消去画像に対応する文字領域の高さの1/iを訳文表示高さとして特定する。
本開示の実施例によれば、訳文の字体幅と高さの比率に基づいて訳文を一行で配列する時の訳文文字幅、すなわち、目標訳文文字ブロックに対応する文字幅の和Wを得ることができる。
本開示の実施例によれば、訳文表示行数をi行に設定され、i行に対応する所定幅閾値Wは、目標文字ブロック消去画像に対応する文字領域幅のi倍に基づいて特定される。
本開示の実施例によれば、目標訳文文字ブロックに対応する幅の和Wとi行に対応する所定幅閾値Wとを比較し、訳文表示行数及び/又は表示高さを特定する。
本開示の実施例によれば、例えば、目標原文文字ブロック画像の文字領域の文字は「It’s cloudy and rainy」であり、「It’s cloudy and rainy」を翻訳した後、目標訳文は「曇りで雨です」ということである。これにより、目標訳文文字ブロックに対応する文字幅は、目標訳文ブロック「曇りで雨です」を一行で配列する時の文字幅の和であり、Wとして表すことができる。
本開示の実施例によれば、目標文字ブロック消去画像に対応する文字領域幅がWであり、訳文表示行数i行に対応する所定幅閾値はWであり、W=i×Wである。
本開示の実施例によれば、「曇りで雨です」の訳文文字に対応する訳文表示行数が1行(i=1)であり、訳文文字幅の和Wが、訳文表示行数が1行であることに対応する所定幅閾値W=1×Wよりも大きい場合、1行で目標訳文文字ブロックに対応する訳文を配列することが適切ではないことが分り、訳文の表示行数を2行に設定する必要がある。この時、訳文表示行は2行である。
本開示の実施例によれば、上記操作を実行し続け、訳文文字幅の和Wが、訳文表示行数が2行であることに対応する所定幅閾値W=2×Wよりも大きい場合、2行で目標訳文文字ブロックに対応する訳文を配列することが適切ではないことが分り、訳文表示行数を3行に設定する必要がある。この時、訳文表示行は3行である。
本開示の実施例によれば、上記操作を繰り返して実行し、訳文の文字幅の和Wがi行に対応する所定幅閾値W=i×W以下であると判定した場合、i行を訳文表示行数として特定し、目標文字ブロック消去画像に対応する文字領域の高さの1/iを訳文表示高さとして特定する。
本開示の実施例によれば、例えば、訳文文字幅の和Wが、訳文表示行数が3行であることに対応する所定幅閾値W=3×W以下である場合、3行で目標訳文文字ブロックに対応する訳文を配列することが適切であることが分り、訳文表示行数は3行であり、訳文の表示高さは目標文字ブロック消去画像に対応する文字領域の高さの1/3である。
本開示の実施例によれば、訳文配列パラメータ値は、訳文表示方向を含むことができる。訳文表示方向は、目標原文文字ブロックの文字方向に基づいて特定されてもよい。
本開示の実施例によれば、目標原文文字ブロックの文字領域の文字枠は形状が不規則な四角形文字枠であり、アフィン変換を利用して形状が不規則な四角形文字枠を矩形文字枠に変換し、文字消去及び訳文の貼り合わせを容易にし、訳文貼り合わせ後の文字枠は再びアフィン変換を利用してそれを目標原文文字ブロックの文字領域の形状が不規則な四角形文字枠と同じ文字領域の文字枠形状に変換し戻して、訳文表示方向を形成する。
図7は、本開示の実施例に係る訳文表示プロセスの概略図を概略的に示す。
図7に示すように、目標原文文字ブロック画像701を文字消去モデル702に入力して文字消去処理を行い、目標文字ブロック消去画像703を取得し、訳文表示パラメータ704を特定し、訳文表示パラメータ704に基づいて、目標原文文字ブロック画像701における目標原文文字ブロックの文字領域に対応する訳文文字ブロック705を目標文字ブロック消去画像703に重ね合わせ、目標訳文文字ブロック画像706を得て、かつ目標訳文文字ブロック画像706を表示する。
図8Aは、本開示の実施例に係る文字消去プロセス800の概略図を概略的に示す。
図8Bは、本開示の実施例に係る訳文貼り合わせプロセス800’の概略図を概略的に示す。
図8Aに示すように、元画像801から検出された原文文字ブロック画像セット802における原文文字ブロック画像803、804、805、806を文字消去モデル807に入力し、原文文字ブロック画像セット802における原文文字ブロック画像803、804、805、806の文字領域を消去し、文字消去後の文字ブロック消去画像セット808における文字ブロック消去画像809、810、811、812を出力する。
文字消去プロセス800の後に、訳文貼り合わせプロセス800’が行われる。図8Bに示すように、原文文字ブロック画像セットにおける各原文文字ブロック図形を翻訳し、例えば、原文文字ブロック画像805の文字領域を翻訳し、原文文字ブロック画像805の文字領域に対応する訳文文字ブロック813を取得する。
訳文文字ブロック813の訳文表示パラメータ814を特定し、訳文表示パラメータ814は訳文文字位置、訳文文字配列パラメータ値、訳文画素値を含む。
訳文表示パラメータ814に基づいて、訳文文字ブロック813を文字ブロック消去画像セット808における文字ブロック消去画像811に重ね合わせ、訳文文字ブロック画像815を得る。
上記操作を繰り返し、原文文字ブロック画像セット802における各原文文字ブロック画像を文字消去しかつ文字貼り合わせを行った後、最終的に一枚の訳文表示付きの訳文画像816を取得する。
図9は、本開示の実施例に係る文字消去モデルのトレーニング装置のブロック図を概略的に示す。
図9に示すように、文字消去モデルのトレーニング装置900は、第一取得モジュール910、第二取得モジュール920、第一特定モジュール930を含む。
第一取得モジュール910は、敵対的生成ネットワークモデルの生成器によって原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得するために用いられ、ここで、敵対的生成ネットワークモデルは生成器及び判別器を含む。
第二取得モジュール920は、実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットによって、生成器及び判別器を交互にトレーニングし、トレーニング済みの生成器及び判別器を取得するために用いられる。
第一特定モジュール930は、トレーニング済みの生成器を文字消去モデルとして特定するために用いられる。
本開示の実施例によれば、実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は、実文字ブロック消去画像における文字消去領域以外の他の領域の画素値に基づいて特定される。
本開示の実施例によれば、原文文字ブロック画像セットは、第一原文文字ブロック画像セットと第二原文文字ブロック画像セットとを含み、シミュレーション文字ブロック消去画像セットは、第一シミュレーション文字ブロック消去画像セットと第二シミュレーション文字ブロック消去画像セットとを含む。
第一取得モジュール910は、第一生成サブモジュール、第二生成サブモジュールを含む。
第一生成サブモジュールは、生成器を利用して第一原文文字ブロック画像セットを処理し、第一シミュレーション文字ブロック消去画像セットを生成するために用いられる。
第二生成サブモジュールは、生成器を利用して第二原文文字ブロック画像セットを処理し、第二シミュレーション文字ブロック消去画像セットを生成するために用いられる。
本開示の実施例によれば、実文字ブロック消去画像セットは、第一実文字ブロック消去画像及び第二実文字ブロック消去画像を含む。第二取得モジュール920は、第一トレーニングサブモジュール、第二トレーニングサブモジュール、実行サブモジュール、取得サブモジュールを含むことができる。
第一トレーニングサブモジュールは、第一実文字ブロック消去画像セット及び第一シミュレーション文字ブロック消去画像セットを利用して判別器をトレーニングするために用いられる。
第二トレーニングサブモジュールは、第二シミュレーション文字ブロック消去画像セットを利用して生成器をトレーニングするために用いられる。
実行サブモジュールは、敵対的生成ネットワークモデルの収束条件を満たすまで、判別器をトレーニングする操作と生成器をトレーニングする操作を交互に実行するために用いられる。
取得サブモジュールは、敵対的生成ネットワークモデルの収束条件を満たす場合に得られた生成器及び判別器を、トレーニング済みの生成器及び判別器として特定するために用いられる。
本開示の実施例によれば、第一実文字ブロック消去画像セットは、複数の第一実文字ブロック消去画像を含み、第一シミュレーション文字ブロック消去画像セットは、複数の第一シミュレーション文字ブロック消去画像を含む。
第一トレーニングサブモジュールは、第一取得ユニット、第二取得ユニット、トレーニングユニットを含む。
第一取得ユニットは、第一実文字ブロック消去画像セットにおける各第一実文字ブロック消去画像を判別器に入力し、第一実文字ブロック消去画像に対応する第一判別結果を取得するために用いられる。
第二取得ユニットは、第一シミュレーション文字ブロック消去画像セットにおける各第一シミュレーション文字ブロック消去画像を判別器に入力し、第一シミュレーション文字ブロック消去画像に対応する第二判別結果を取得するために用いられる。
トレーニングユニットは、第一判別結果及び第二判別結果に基づいて判別器をトレーニングするために用いられる。
本開示の実施例によれば、第一トレーニングサブモジュールは、さらに、第三取得ユニット、第一調整ユニットを含む。
第三取得ユニットは、生成器のモデルパラメータを変化せずに、第一損失関数に基づいて、第一判別結果及び第二判別結果を用いて、第一出力値を取得するために用いられる。
第一調整ユニットは、第一出力値に基づいて判別器のモデルパラメータを調整し、調整後の判別器のモデルパラメータを取得するために用いられる。
ここで、第二トレーニングサブモジュールは、第四取得ユニット、第二調整ユニットを含む。
第四取得ユニットは、調整後の判別器のモデルパラメータを変化せずに、第二損失関数に基づいて、第二シミュレーション文字ブロック消去画像集セットを用いて、第二出力値を取得するために用いられる。
第二調整ユニットは、第二出力値に基づいて生成器のモデルパラメータを調整する。
本開示の実施例によれば、第一損失関数は、判別器損失関数と最小平均二乗値誤差損失関数とを含み、第二損失関数は、生成器損失関数と最小平均二乗値誤差損失関数とを含み、判別器損失関数、最小平均二乗値誤差損失関数、及び生成器損失関数は、いずれも正則化項を含む損失関数である。
図10は、本開示の実施例に係る訳文表示装置のブロック図を概略的に示す。
図10に示すように、訳文表示装置1000は、第三取得モジュール1010、第二特定モジュール1020、第四取得モジュール1030、表示モジュール1040を含む。
第三取得モジュール1010は、文字消去モデルを利用して目標原文文字ブロック画像を処理し、目標文字ブロック消去画像を取得するために用いられ、目標原文文字ブロック画像は目標原文文字ブロックを含む。
第二特定モジュール1020は、訳文表示パラメータを特定するために用いられる。
第四取得モジュール1030は、訳文表示パラメータに基づいて、目標原文文字ブロックに対応する訳文文字ブロックを目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を取得するために用いられる。
表示モジュール1040は、目標訳文文字ブロック画像を表示するために用いられる。
ここで、文字消去モデルは上記文字消去モデルトレーニング方法を利用してトレーニングされたものである。
本開示の実施例によれば、上記訳文表示装置1000は、さらに、変換モジュールを含む。
変換モジュールは、目標原文文字ブロックに対応する文字枠が方形文字枠ではないと判定した場合、アフィン変換を利用してテキスト枠を方形文字枠に変換するために用いられる。
本開示の実施例によれば、目標原文文字ブロック画像は複数の目標サブ原文文字ブロック画像を含む。
上記訳文表示装置1000は、さらに、スティッチングモジュールを含む。
スティッチングモジュールは、複数の目標サブ原文文字ブロック画像をスティッチングし、目標原文文字ブロック画像を取得するために用いられる。
本開示の実施例によれば、訳文表示パラメータは訳文画素値を含む。
第二特定モジュール1020は、第一特定サブモジュール、第二特定サブモジュール、第三特定サブモジュールを含む。
第一特定サブモジュールは、目標原文文字ブロック画像の文字領域を特定するために用いられる。
第二特定サブモジュールは、目標原文文字ブロック画像の文字領域の画素平均値を特定するために用いられる。
第三特定サブモジュールは、目標原文文字ブロック画像の文字領域の画素平均値を訳文画素値として特定するために用いられる。
本開示の実施例によれば、第一特定サブモジュールは、第五取得ユニット、第一特定ユニット、第二特定ユニット、第三特定ユニット、第四特定ユニットを含む。
第五取得ユニットは、画像二値化によって目標原文文字ブロック画像を処理して、第一画像領域及び第二画像領域を取得するために用いられる。
第一特定ユニットは、第一画像領域に対応する目標原文文字ブロック画像の第一画素平均値を特定するために用いられる。
第二特定ユニットは、第二画像領域に対応する目標原文文字ブロック画像の第二画素平均値を特定するために用いられる。
第三特定ユニットは、目標文字ブロック消去画像に対応する第三画素平均値を特定するために用いられる。
第四特定ユニットは、第一画素平均値、第二画素平均値、及び第三画素平均値に基づいて、目標原文文字ブロック画像の文字領域を特定するために用いられる。
本開示の実施例によれば、第四特定ユニットは、第一特定サブユニット、第二特定サブユニットを含む。
第一特定サブユニットは、第一画素平均値と第三画素平均値との間の差分値の絶対値が第二画素平均値と第三画素平均値との間の差分値の絶対値より小さいと判定した場合、第一画素平均値に対応する第一画像領域を目標原文文字ブロック画像の文字領域として特定するために用いられる。
第二特定サブユニットは、第一画素平均値と第三画素平均値との間の差分値の絶対値が第二画素平均値と第三画素平均値との間の差分値の絶対値以上であると判定した場合、第二画素平均値に対応する第二画像領域を目標原文文字ブロック画像の文字領域として特定するために用いられる。
本開示の実施例によれば、訳文表示パラメータは、訳文配列パラメータ値を含み、訳文配列パラメータ値は、訳文表示行数及び/又は訳文表示高さを含む。
第二特定モジュール1020は、さらに、第四特定サブモジュールを含む。
第四特定サブモジュールは、目標文字ブロック消去画像に対応する文字領域の高さ及び幅と、目標訳文文字ブロックに対応する高さ及び幅とに基づいて、訳文表示行数及び/又は訳文表示高さを特定するために用いられる。
本開示の実施例によれば、第四特定サブモジュールは、第五特定ユニット、第六特定ユニット、設定ユニット、繰り返しユニット、第七特定ユニットを含む。
第五特定ユニットは、目標訳文文字ブロックに対応する幅の和を特定するために用いられる。
第六特定ユニットは、目標訳文文字ブロックに対応する訳文表示行数をi行に設定するために用いられ、ここで、i行のうちの各行の高さが目標文字ブロック消去画像に対応する文字領域の高さの1/iであり、iは1以上の整数である。
設定ユニットは、幅の和がi行に対応する所定幅閾値より大きいと判定した場合、目標訳文文字ブロックに対応する訳文表示行数をi=i+1行に設定するために用いられ、ここで、所定幅閾値は、目標文字ブロック消去画像に対応する文字領域の幅のi倍に基づいて特定される。
繰り返しユニットは、幅の和がi行に対応する所定幅閾値以下であると判定するまで、幅の和がi行に対応する所定幅閾値以下であるか否かを判定する操作を繰り返し実行するために用いられる。
第七特定ユニットは、幅の和がi行に対応する所定幅閾値以下であると判定した場合、i行を訳文表示行数及び/又は目標文字ブロック消去画像に対応する文字領域の高さの1/iを訳文表示高さとして特定するために用いられる。
本開示の実施例によれば、訳文配列パラメータ値は訳文表示方向を含み、訳文表示方向は目標原文文字ブロックの文字方向に基づいて特定される。
本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラム製品を提供する。
本開示の実施例によれば、電子機器であって、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されるメモリとを含み、ここで、メモリに少なくとも一つのプロセッサにより実行可能な命令が記憶され、命令が少なくとも一つのプロセッサにより実行されることにより、少なくとも一つのプロセッサが前記のような方法を実行することができる。
本開示の実施例によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、ここで、コンピュータ命令はコンピュータに前記のような方法を実行させる。
本開示の実施例によれば、コンピュータプログラム製品であって、コンピュータプログラムを含み、コンピュータプログラムはプロセッサにより実行される時に前記のような方法を実現する。
本開示の技術案において、係られたユーザ個人情報の収集、記憶、使用、加工、伝送、提供、開示及び応用等の処理は、いずれも関連法規や法規の規定に合致しており、必要なセキュリティ対策を取っており、かつ公序良俗に反するものではない。
本開示の技術案において、ユーザの個人情報を取得するか又は収集する前に、いずれもユーザの許可又は同意を取得した。図11は、本開示の実施例に係る文字消去モデルのトレーニング方法又は訳文表示方法を実現することに適す電子機器のブロック図を概略的に示す。電子機器は、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータという様々な形式のデジタルコンピュータを表すことを意図する。電子機器は、さらに、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置という様々な形式の移動装置を表してもよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
図11に示すように、電子機器1100は、計算ユニット1101を含み、それはリードオンリーメモリ(ROM)1102に記憶されたコンピュータプログラム又は記憶ユニット1108からランダムアクセスメモリ(RAM)1103にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM 1103には、さらに機器1100の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット1101、ROM 1102、およびRAM 1103は、バス1104を介して相互に接続されている。バス1104には、入出力(I/O)インターフェース1105も接続されている。
電子機器1100における複数の部品は、I/Oインターフェース1105に接続され、例えばキーボード、マウス等の入力ユニット1106と、例えば様々なタイプのディスプレイ、スピーカ等の出力ユニット1107と、例えば磁気ディスク、光ディスク等の記憶ユニット1108と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット1109とを含む。通信ユニット1109は、電子機器1100がインターネット等のコンピュータネットワーク及び/又は各種の電気通信網を介して他の機器と情報/データをやり取りすることを可能にする。
計算ユニット1101は、処理及び計算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算ユニット1101の幾つかの例としては、中央処理装置(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムをランニングする計算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット1101は、例えば文字消去モデルのトレーニング方法又は訳文表示方法のような前記記載された各方法と処理を実行する。例えば、いくつかの実施例において、文字消去モデルのトレーニング方法又は訳文表示方法は、例えば記憶ユニット1108のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM1002及び/又は通信ユニット1109を介して機器1100にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM1003にロードされて計算ユニット1101により実行される場合、前記記載された文字消去モデルのトレーニング方法又は訳文表示方法の1つ又は複数のステップを実行することができる。代替的に、別の実施例において、計算ユニット1101は、他の任意の適切な方式により(例えば、ファームウェアを介して)文字消去モデルのトレーニング方法又は訳文表示方法を実行するように構成されてもよい。
本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行され及び/又は解釈されることが可能であり、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができることを含んでもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、完全に機器で実行されてもよく、部分的に機器で実行されててもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は機器、又は前記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は前記内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種別の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが当該グラフィカルユーザインターフェース又は当該ウェブブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
コンピュータシステムは、クライアント及びサーバを含んでよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、分散システムのサーバ、またはブロックチェーンと組み合わせたサーバであってよい。
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順に実行されたり、又は異なる順序で実行されてもよく、本開示に開示された技術案の所望の結果を実現することができれば、本明細書はここで限定されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。
本願は、2021年8月17日に提出され、出願番号が202110945871.0である中国特許出願の優先権を要求し、その全ての内容は引用により本願に組み込まれる。
本開示は、人工知能技術分野、具体的にはコンピュータ視覚及びディープラーニングの技術分野に関し、OCR光学文字認識などのシーンに応用することができる。具体的には、文字消去モデルのトレーニング方法及び装置、訳文表示方法及び装置、電子機器記憶媒体、並びにコンピュータプログラムに関する。
グローバル化の推進に伴い、各国の間で学術、商業、生活などでの交流がますます頻繁になるが、各国の言語に差異が存在し、ユーザは翻訳アプリケーションによりある言語の文字を別の言語の文字に翻訳することができ、交流しやすくなる。
撮影翻訳は新たな翻訳製品形態であり、現在の撮影翻訳機能の入力は元言語文字付きの画像であり、出力は目標翻訳言語文字付きの画像である。
本開示は文字消去モデルのトレーニング方法及び装置、訳文表示方法及び装置、電子機器記憶媒体、並びにコンピュータプログラムを提供する。
本開示の一態様によれば、文字消去モデルのトレーニング方法を提供し、敵対的生成ネットワークモデルの生成器を利用して原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得し、ここで、前記敵対的生成ネットワークモデルが前記生成器及び判別器を含むことと、実文字ブロック消去画像セットと前記シミュレーション文字ブロック消去画像セットとを利用して、前記生成器と前記判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得することと、前記トレーニング済みの生成器を前記文字消去モデルとして特定することと、を含み、ここで、前記実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は、前記実文字ブロック消去画像における前記文字消去領域以外の他の領域の画素値に基づいて特定される。
本開示の別の態様によれば、訳文表示方法を提供し、文字消去モデルを利用して、目標原文文字ブロックを含む目標原文文字ブロック画像を処理し、目標文字ブロック消去画像を取得することと、訳文表示パラメータを特定することと、前記訳文表示パラメータに基づいて、前記目標原文文字ブロックに対応する訳文文字ブロックを前記目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を取得することと、前記目標訳文文字ブロック画像を表示することとを含み、ここで、前記文字消去モデルは上記の方法でトレーニングされたものである。
本開示の別の態様によれば、文字消去モデルのトレーニング装置を提供し、敵対的生成ネットワークモデルの生成器を利用して原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得するものであって、ここで、前記敵対的生成ネットワークモデルが前記生成器及び判別器を含む第一取得モジュールと、実文字ブロック消去画像セットと前記シミュレーション文字ブロック消去画像セットとを利用して、前記生成器と前記判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得する第二取得モジュールと、前記トレーニング済みの生成器を前記文字消去モデルとして特定する第一特定モジュールと、を含み、ここで、前記実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は前記実文字ブロック消去画像における前記文字消去領域以外の他の領域の画素値に基づいて特定される。
本開示の別の態様によれば、訳文表示装置を提供し、文字消去モデルを利用して、目標原文文字ブロックを含む目標原文文字ブロック画像を処理し、目標文字ブロック消去画像を取得する第三取得モジュールと、訳文表示パラメータを特定する第二特定モジュールと、前記訳文表示パラメータに基づいて、前記目標原文文字ブロックに対応する訳文文字ブロックを前記目標テキスト消去画像に重ね合わせ、目標訳文文字ブロック画像を取得する第四取得モジュールと、前記目標訳文文字ブロック画像を表示する表示モジュールと、を含み、ここで、前記文字消去モデルは上記の方法でトレーニングされたものである。
本開示の別の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記命令は前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが上記の方法を実行することができる。
本開示の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、ここで、前記コンピュータ命令は前記コンピュータに上記の方法を実行させる。
本開示の別の態様によれば、プロセッサにより実行される時に上記の方法を実現するコンピュータプログラムを提供する。
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
図面は本技術案をよりよく理解するために用いられ、本開示を限定するものではない。
図1は、本開示の実施例に係る文字消去モデルのトレーニング方法、訳文表示方法及び装置を適用可能な例示的なシステムアーキテクチャを概略的に示す。 図2は、本開示の実施例に係る文字消去モデルのトレーニング方法のフローチャートを概略的に示す。 図3は、本開示の実施例に係る第一実文字ブロック消去画像セット及び第一シミュレーション文字ブロック消去画像セットを利用して判別器をトレーニングするフローチャートを概略的に示す。 図4は、本開示の実施例に係る文字消去モデルのトレーニングプロセスの概略図を概略的に示す。 図5は、本開示の実施例に係る訳文表示方法のフローチャートを概略的に示す。 図6は、本開示の実施例に係る訳文表示行数及び/又は訳文表示高さを特定するフローチャートを概略的に示す。 図7は、本開示の実施例に係る訳文表示プロセスの概略図を概略的に示す。 図8Aは、本開示の実施例に係る文字消去プロセスの概略図を概略的に示す。 図8Bは、本開示の実施例に係る訳文貼り合わせプロセスの概略図を概略的に示す。 図9は、本開示の実施例に係る文字消去モデルのトレーニング装置のブロック図を概略的に示す。 図10は、本開示の実施例に係る訳文表示装置のブロック図を概略的に示す。 図11は、本開示の実施例に係る文字消去モデルのトレーニング方法又は訳文表示方法を実現することに適する電子機器のブロック図を概略的に示す。
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが単に例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
撮影翻訳技術は、文字を含むシーンを撮影して画像を取得し、次に取得された画像におけるテキスト行の文字内容を認識することと、さらに文字内容に対して機械翻訳を行い、翻訳後の文字内容を取得することと、翻訳後の文字内容をユーザに表示することと、を含むことができる。画像の元のテキスト行に翻訳結果を直接的に表示する必要がある場合、まず画像における元のテキスト行のテキストを消去し、次に訳文を元のテキスト行の位置に貼り付けて翻訳結果を表示する必要がある。
本開示の思想を実現する過程において、発見された1つの技術案として、元画像における文字を消去する時に、原画像における文字領域に対してぼかしフィルタリング処理を直接的に行うことができ、又は文字ブロック領域の色平均値によって領域全体を充填することにより、ユーザにとって元文字を視覚的に消去するという効果を達成する。しかし、これによって文字領域と画像の他の背景部分との区別が明らかになり、消去効果が低く、ユーザの視覚体験に影響を与える。
このために、本開示の実施例は、文字消去モデルのトレーニング方法、訳文表示方法、装置、電子機器、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体及びコンピュータプログラムを提供する。該文字消去モデルのトレーニング方法は、敵対的生成ネットワークモデルの生成器によってトレーニングセットを処理し、シミュレーション文字ブロック消去画像セットを取得することを含み、ここで、敵対的生成ネットワークモデルは生成器及び判別器を含む。実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとを用いて、生成器と判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得する。トレーニング済みの生成器を文字消去モデルとして特定する。実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は、実文字ブロック消去画像における文字消去領域以外の他の領域の画素値に基づいて特定される。
図1は、本開示の実施例に係る文字消去モデルのトレーニング方法、訳文表示方法及び装置を適用可能な例示的なシステムアーキテクチャを概略的に示す。
注意すべきこととして、当業者が本開示の技術内容を理解するように、図1に示すのは、本開示の実施例を適用可能なシステムアーキテクチャの例示に過ぎず、本開示の実施例が他の機器、システム、環境又はシーンに用いることができないことを意味するものではない。例えば、別の実施例において、内容処理方法及び装置を適用可能な例示的なシステムアーキテクチャは、端末機器を含むことができるが、端末機器はサーバと対話せずに、本開示の実施例が提供する内容処理方法及び装置を実現することができる。
図1に示すように、該実施例に係るシステムアーキテクチャ100は、端末機器101、102、103、ネットワーク104、及びサーバ105を含むことができる。ネットワーク104は、端末機器101、102、103とサーバ105との間に通信リンクの媒体を提供するために用いられる。ネットワーク104は、例えば有線及び/又は無線通信リンク等の様々な接続タイプを含むことができる。
ユーザは、端末機器101、102、103を使用してネットワーク104を介してサーバ105と対話することにより、メッセージ等を受信するか又は送信することができる。端末機器101、102、103に、例えば知識閲読類アプリケーション、ウェブページブラウザアプリケーション、検索類アプリケーション、リアルタイム通信ツール、メールボックスクライアント及び/又はソーシャルプラットフォームソフトウェアなど(例に過ぎない)の様々な通信クライアントアプリケーションがインストールされてもよい。
端末機器101、102、103は、ディスプレイを有しかつウェブページの閲覧をサポートする様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップ型携帯コンピュータ、及びデスクトップコンピュータ等を含むが、それらに限定されない。
サーバ105は、例えばユーザが端末機器101、102、103を利用して閲覧する内容をサポートするバックグラウンド管理サーバ(例に過ぎない)などの様々なサービスを提供するサーバであってもよい。バックグラウンド管理サーバは、受信されたユーザ要求等のデータに対して分析等の処理を行い、処理結果(例えばユーザの要求に応じて取得又は生成されたウェブページ、情報又はデータ等)を端末機器にフィードバックすることができる。
説明すべきこととして、本開示の実施例が提供する文字消去モデルのトレーニング方法及び訳文の表示方法は、一般的に端末機器101、102、又は103により実行することができる。それに応じて、本開示の実施例が提供する文字消去モデルのトレーニング装置及び訳文表示装置は端末機器101、102、又は103に設置されてもよい。
又は、本開示の実施例が提供する文字消去モデルのトレーニング方法及び訳文表示方法は、一般的にサーバ105により実行されてもよい。それに応じて、本開示の実施例が提供する文字消去モデルのトレーニング装置及び訳文表示装置は、一般的にサーバ105に設置することができる。本開示の実施例が提供する文字消去モデルのトレーニング方法及び訳文表示方法は、サーバ105とは異なりかつ端末機器101、102、103及び/又はサーバ105と通信可能なサーバ又はサーバクラスタによって実行されてもよい。それに応じて、本開示の実施例が提供する方法は、サーバ105と異なりかつ端末機器101、102、103及び/又はサーバ105と通信可能なサーバ又はサーバクラスタに設置されてもよい。
例えば、サーバ105は、敵対的生成ネットワークモデルの生成器によってトレーニングセットを処理し、シミュレーション文字ブロック消去画像セットを取得し、ここで、敵対的生成ネットワークモデルは、生成器及び判別器を含む。実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとを用いて、生成器と判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得する。トレーニング済みの生成器を文字消去モデルとして特定する。又は、端末機器101、102、103及び/又はサーバ105と通信可能なサーバ又はサーバクラスタによって、実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットを用いて、生成器及び判別器を交互にトレーニングし、文字消去モデル、即ち、トレーニング済みの生成器を取得する。
理解すべきこととして、図1における端末機器、ネットワーク及びサーバの数は単に例示的なものである。必要に応じて、任意の数の端末機器、ネットワーク及びサーバを有してもよい。
図2は、本開示の実施例に係る文字消去モデルのトレーニング方法のフローチャートを概略的に示す。
図2に示すように、該方法200は、操作S210~S230を含む。
操作S210において、敵対的生成ネットワークモデルの生成器を用いて、原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得し、ここで、敵対的生成ネットワークモデルは生成器及び判別器を含む。
操作S220において、実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットを用いて、生成器及び判別器を交互にトレーニングし、トレーニング済みの生成器及び判別器を取得する。
操作S230において、トレーニング済みの生成器を文字消去モデルとして特定する。
本開示の実施例によれば、実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は、実文字ブロック消去画像における文字消去領域以外の他の領域の画素値に基づいて特定される。
本開示の実施例によれば、文字ブロック画像は、文字消去領域及び文字消去領域以外の他の背景領域を含むことができる。文字ブロック消去は、文字ブロック画像における文字消去領域に入力された文字を消去し、消去すると同時に元の背景のテクスチャ色を保留することであってもよい。
本開示の実施例によれば、敵対的生成ネットワークモデルは、深層畳み込み敵対的生成ネットワークモデル、ブルドーザの距離に基づく敵対的生成ネットワークモデル、または条件性敵対的生成ネットワークモデル等を含むことができる。敵対的生成ネットワークモデルは、生成器及び判別器とを含むことができる。生成器及び判別器は、ニューラルネットワークモデルを含むことができる。生成器は、シミュレーション文字ブロック消去画像セットを生成するために用いられ、生成器を継続的にトレーニングすることにより実文字ブロック消去画像セットを学習させ、それにより実文字ブロック消去画像セットのデータ分布と一致するサンプルをゼロから生成し、かつ可能な限り判別器を混同させることができる。判別器は、実文字ブロック消去画像セットおよびシミュレーション文字ブロック消去画像セットに用いることができる。
本開示の実施例によれば、ブルドーザの距離に基づく敵対的生成ネットワークモデルは、生成器と判別器とのトレーニングが同期せず、トレーニングが収束せず、モードが崩壊するという問題を解決し、データ生成モデルのモデル品質を向上させることができる。
本開示の実施例によれば、ブルドーザの距離に基づく敵対的生成ネットワークモデルのトレーニングプロセスは、学習率、バッチ処理数(すなわち実文字ブロック消去画像セットに含まれる実文字ブロック消去画像の数)、ニューラルネットワークモデルのモデルパラメータ範囲、最大反復回数、及び毎回の反復のトレーニング回数を予め設定することである。
本開示の実施例によれば、実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとにより、生成器と判別器とを反復交互にトレーニングし、これにより生成器と判別器とはそれらの間のゲームにより、それぞれの最適化を実現し、最終的に判別器は実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとを正確に区別できず、即ち、ナッシュ均衡に達する。この場合、生成器が実文字ブロック消去画像セットのデータ分布を学習したと考えられ、トレーニング済みの生成器を文字消去モデルとして特定する。
本開示の実施例によれば、実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットにより、生成器及び判別器を反復交互にトレーニングすることは、毎回の反復過程において、生成器のモデルパラメータを変化せずに、実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットを利用して判別器をトレーニングすることにより、今回の反復で判別器に対して設定されたトレーニング回数を完了することを含むことができる。当該反復で判別器に対して設定されたトレーニング回数を完了した後、判別器のモデルパラメータを変化せずに、シミュレーション文字ブロック消去画像セットによって生成器をトレーニングすることにより、今回の反復で生成器に対して設定されたトレーニング回数を完了する。説明すべきこととして、毎回のトレーニングを実行する過程において、生成器を利用して今回に対応するシミュレーション文字ブロック消去画像セットを生成することができる。上記生成器及び判別器のトレーニング方式は、例示的な実施例だけであり、これに限定されるものではなく、本分野の既知のトレーニング方式を含むことができ、生成器及び判別器のトレーニングを実現することができればよい。
本開示の実施例によれば、実際需要に応じて適切なトレーニングポリシーを選択することができ、ここで限定しない。例えば、トレーニングポリシーは、毎回の反復において、生成器のトレーニング回数及び判別器のトレーニング回数が一回であること、生成器のトレーニング回数が一回でありかつ判別器のトレーニング回数が複数回であること、生成器のトレーニング回数が複数回でありかつ判別器のトレーニング回数が一回であること、生成器のトレーニング回数が複数回でありかつ判別器のトレーニング回数が複数回であることのいずれか1つを含んでもよい。
本開示の実施例によれば、敵対的生成ネットワークモデルの生成器によって原文文字ブロック画像セットを処理することにより、シミュレーション文字ブロック消去画像セットを取得し、実文字ブロック消去画像セットとシミュレーション文字ブロック消去画像セットとを利用して、生成器と判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得し、トレーニング済みの生成器を文字消去モデルとして特定し、実文字ブロック消去画像における文字消去領域の画素値が他の領域の画素値に基づいて特定されるため、文字消去モデルは、文字消去領域の色を他の領域(即ち背景領域)とできるだけ一致させることを実現することができ、これにより、消去効果を向上させ、さらにユーザの視覚体験を向上させる。
本開示の実施例によれば、原文文字ブロック画像トレーニングセットは、第一原文文字ブロック画像セットと第二原文文字ブロック画像セットとを含み、シミュレーション文字ブロック消去画像セットは、第一シミュレーション文字ブロック消去画像セットと第二シミュレーション文字ブロック消去画像セットとを含む。敵対的生成ネットワークモデルの生成器によって原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得することは、以下の操作を含むことができる。生成器を利用して第一原文文字ブロック画像セットを処理し、第一シミュレーション文字ブロック消去画像セットを生成する。生成器を利用して第二原文文字ブロック画像セットを処理し、第二シミュレーション文字ブロック消去画像セットを生成する。
本開示の実施例によれば、生成器を利用してシミュレーション文字ブロック消去画像セットを生成することは、第一原文文字ブロック画像セットと第一ランダムノイズデータとを生成器に入力し、第一シミュレーション文字ブロック消去画像セットを取得することと、第一原文文字ブロック画像セットと第二ランダムノイズデータとを生成器に入力し、第二シミュレーション文字ブロック消去画像セットを取得することと、を含むことができる。第一ランダムノイズデータおよび第二ランダムノイズデータの形態は、ガウスノイズを含んでいてもよい。
本開示の実施例によれば、実文字ブロック消去画像セットは、第一実文字ブロック消去画像セットと第二実文字ブロック消去画像セットとを含む。実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットを利用して、生成器及び判別器を交互にトレーニングし、トレーニング済みの生成器及び判別器を取得することは、以下の操作を含むことができる。
第一実文字ブロック消去画像セット及び第一シミュレーション文字ブロック消去画像セットによって判別器をトレーニングする。第二シミュレーション文字ブロック消去画像セットによって生成器をトレーニングする。敵対的生成ネットワークモデルの収束条件を満たすまで、判別器をトレーニングする操作と生成器をトレーニングする操作とを交互に実行する。敵対的生成ネットワークモデルの収束条件を満たす場合に得られた生成器及び判別器を、トレーニング済みの生成器及び判別器として特定する。
本開示の実施例によれば、敵対的生成ネットワークモデルの収束条件は、生成器が収束すること、生成器及び判別器がいずれも収束すること、又は反復が終了条件に達することを含むことができ、反復が終了条件に達することは、反復回数が所定の反復回数に等しくなることを含むことができる。
本開示の実施例によれば、判別器をトレーニングする操作と生成器をトレーニングする操作とを交互に実行することは、以下のように理解することができる。t回目の反復過程において、生成器のモデルパラメータを変化せずに、実文字ブロック消去画像セットと第一シミュレーション文字ブロック消去画像セットとを利用して判別器をトレーニングし、上記プロセスを繰り返し、今回の反復で判別器に対して設定したトレーニング回数を完了し、tが2以上の整数である。毎回のトレーニングプロセスにおいて、生成器を利用して今回に対応する第一シミュレーション文字ブロック画像セットを生成することができる。
本開示の実施例によれば、今回の反復で判別器に対して設定されたトレーニング回数を完了した後、判別器のモデルパラメータを変化せずに、第二シミュレーション文字ブロック消去画像セットによって生成器をトレーニングし、上記プロセスを繰り返し、今回の反復で生成器に対して設定されたトレーニング回数を完了する。毎回のトレーニングプロセスにおいて、生成器を利用して今回に対応する第二シミュレーション文字ブロック画像セットを生成することができる。2≦t≦Tであり、Tは所定の反復回数を表し、t及びTは整数である。
本開示の実施例によれば、t回目の反復に対して、「生成器のモデルパラメータを変化せずに」における生成器のモデルパラメータとは、t-1回目の反復において生成器に対する最終回のトレーニングを完了した後に得られた生成器のモデルパラメータである。「判別器のモデルパラメータを変化せずに」における判別器のモデルパラメータとは、t回目の反復において判別器に対する最終回のトレーニングを完了した後に得られた判別器のモデルパラメータである。
以下に図3~図4を参照し、具体的な実施例と組み合わせて、本開示の実施例に記載の文字消去モデルのトレーニング方法をさらに説明する。
図3は、本開示の実施例に係る第一実文字ブロック消去画像セット及び第一シミュレーション文字ブロック消去画像セットを利用して判別器をトレーニングするフローチャートを概略的に示す。
本開示の実施例によれば、第一実文字ブロック消去画像セットは、複数の第一実文字ブロック消去画像を含み、第一シミュレーション文字ブロック消去画像セットは、複数の第一シミュレーション文字ブロック消去画像を含む。
図3に示すように、該方法300は、操作S310~S330を含む。
操作S310において、第一実文字ブロック消去画像セットにおける各第一実文字ブロック消去画像を判別器に入力し、第一実文字ブロック消去画像に対応する第一判別結果を取得する。
操作S320において、第一シミュレーション文字ブロック消去画像セットにおける各第一シミュレーション文字ブロック消去画像を判別器に入力し、第一シミュレーション文字ブロック消去画像に対応する第二判別結果を取得する。
操作S330において、第一判別結果と第二判別結果とに基づいて判別器をトレーニングする。
本開示の実施例によれば、判別器は、実際に分類器に属し、第一実文字ブロック消去画像と第一シミュレーション文字ブロック消去画像とをそれぞれ判別器に入力した後に、第一実文字ブロック消去画像に対応する第一判別結果と第一シミュレーション文字ブロック消去画像に対応する第二判別結果とに基づいて判別器をトレーニングすることにより、判別器が、入力されるものが第一実文字ブロック消去画像であるか、第一シミュレーション文字ブロック消去画像であるかを正確に判定できないようにし、すなわち、第一実文字ブロック消去画像に対応する第一判別結果と第一シミュレーション文字ブロック消去画像に対応する第二判別結果とを可能な限り同じにする。
本開示の実施例によれば、第一判別結果と第二判別結果とに基づいて判別器をトレーニングすることは、以下の操作を含むことができる。
生成器のモデルパラメータを変化せずに、第一損失関数に基づいて、第一判別結果と第二判別結果とを利用して、第一出力値を取得する。第一出力値に基づいて判別器のモデルパラメータを調整し、調整された判別器のモデルパラメータを取得する。
本開示の実施例によれば、第二シミュレーション文字ブロック消去画像セットによって生成器をトレーニングすることは、以下の操作を含むことができる。
調整後の判別器のモデルパラメータを変化せずに、第二損失関数に基づいて、第二シミュレーション文字ブロック消去画像セットを利用して、第二出力値を取得する。第二出力値に基づいて生成器のモデルパラメータを調整する。
本開示の実施例によれば、t回目の反復過程において、生成器のモデルパラメータを変化せずに、第一実文字ブロック消去画像に対応する第一判別結果と第一シミュレーション文字ブロック消去画像に対応する第二判別結果とを第一損失関数に入力し、第一出力値を取得する。第一出力値に基づいて判別器のモデルパラメータを調整し、上記プロセスを繰り返し、今回の反復で判別器に対して設定したトレーニング回数を完了する。
本開示の実施例によれば、今回の反復が判別器に対して設定したトレーニング回数を完了した後、調整後の判別器のモデルパラメータを変化せずに、第二シミュレーション文字ブロック消去画像セットに含まれる各第二シミュレーション文字ブロック消去画像を第二損失関数に入力し、第二出力値を取得する。第二出力値に基づいて生成器のモデルパラメータを調整する。上記プロセスを繰り返し、今回の反復で生成器に対して設定したトレーニング回数を完了する。
本開示の実施例によれば、第一損失関数は、判別器損失関数と最小平均二乗値誤差損失関数とを含み、第二損失関数は、生成器損失関数と最小平均二乗値誤差損失関数とを含み、判別器損失関数、最小平均二乗値誤差損失関数、及び生成器損失関数はいずれも正則化項を含む損失関数である。
本開示の実施例によれば、第一損失関数に含まれる判別器損失関数、最小平均二乗値誤差損失関数、及び生成器損失関数は、いずれも正則化項を含む損失関数であり、上記損失関数の結合によりトレーニングプロセスにおいてノイズ除去を容易にし、文字消去結果をよりリアルで確実にする。
図4は、本開示の実施例に係る文字消去モデルのトレーニングプロセスの概略図を概略的に示す。
図4に示すように、文字消去モデルのトレーニングプロセス400は、毎回の反復過程において、生成器402のモデルパラメータを変化せずに、第一原文文字ブロック画像セット401を生成器402に入力し、第一シミュレーション文字ブロック消去画像セット403を取得することを含む。
第一実文字ブロック消去画像セット404における各第一実文字ブロック消去画像を判別器405に入力し、第一実文字ブロック消去画像に対応する第一判別結果406を得る。第一シミュレーション文字ブロック消去画像セット403における各第一シミュレーション文字ブロック消去画像を判別器405に入力し、第一シミュレーション文字ブロック消去画像に対応する第二判別結果407を得る。
第一実文字ブロック消去画像に対応する第一判別結果406と第一シミュレーション文字ブロック消去画像に対応する第二判別結果407とを第一損失関数408に入力し、第一出力値409を得る。第一出力値409に基づいて、判別器405のモデルパラメータを調整する。今回の反復の判別器405に対するトレーニング回数を完了するまで、上記プロセスを繰り返す。
今回の反復の判別器405に対するトレーニング回数を完了した後、判別器405のモデルパラメータを変化せずに、第二原文文字ブロック画像セット410を生成器402に入力し、第二シミュレーション文字ブロック消去画像セット411を取得する。第二シミュレーション文字ブロック消去画像セット411における各第二シミュレーション文字ブロック消去画像を第二損失関数412に入力し、第二出力値413を取得する。第二出力値413に基づいて、生成器402のモデルパラメータを調整する。今回の反復の生成器402に対するトレーニング回数を完了するまで、上記プロセスを繰り返す。
敵対的生成ネットワークモデルの収束条件を満たすまで、上述した判別器405及び生成器402に対するトレーニングプロセスを交互に実行し、トレーニングが完了する。
図5は、本開示の実施例に係る訳文表示方法のフローチャートを概略的に示す。
図5に示すように、該方法500は操作S510~S540を含む。
操作S510において、文字消去モデルを利用して目標原文文字ブロック画像を処理し、目標文字ブロック消去画像を取得し、目標原文文字ブロック画像は、目標原文文字ブロックを含む。
操作S520において、訳文表示パラメータを特定する。
操作S530において、訳文表示パラメータに基づいて、目標原文文字ブロックに対応する訳文文字ブロックを目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を取得する。
操作S540において、目標訳文文字ブロック画像を表示する。
文字消去モデルは、上述した操作S210~S240の方法でトレーニングされたものである。
本開示の実施例によれば、目標原文文字ブロック画像は、文字消去領域及び文字消去領域以外の他の背景領域を含むことができ、目標文字ブロック消去画像は、目標原文文字ブロック画像の文字消去領域の文字を消去した後の画像を含むことができ、目標原文文字ブロックは、目標原文文字ブロック画像における文字消去領域を含むことができる。
本開示の実施例によれば、目標原文文字ブロック画像を文字消去モデルに入力することにより、目標文字ブロック消去画像を取得する。文字消去モデルは、敵対的生成ネットワークモデルの生成器によってシミュレーション文字ブロック画像セットを生成し、実文字ブロック消去画像セットとシミュレーション文字ブロック画像セットとを利用して敵対的生成ネットワークモデルの生成器及び判別器を交互にトレーニングし、トレーニング済みの生成器及び判別器を得て、かつトレーニング済みの生成器を文字消去モデルとして特定する。
本開示の実施例によれば、訳文表示パラメータは、目標原文文字ブロック画像の文字消去領域の文字が翻訳された後の訳文の文字配列パラメータ値、文字色、文字位置等を含むことができる。
本開示の実施例によれば、訳文の文字配列パラメータ値は、訳文表示行数及び/又は訳文表示高さ、訳文表示方向を含むことができる。訳文の文字色は、目標原文文字ブロック画像の文字消去領域の文字色により特定することができる。訳文の文字位置は、目標原文文字ブロック図形の文字消去領域の位置する文字位置と一致することができる。
本開示の実施例によれば、訳文を目標原文文字ブロック画像における文字消去領域位置に対応する目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を取得する。
本開示の実施例によれば、文字消去モデルを利用して目標原文文字ブロック画像を処理することにより、目標文字ブロック消去画像を得て、訳文表示パラメータを特定し、訳文表示パラメータに基づいて、目標原文文字ブロックに対応する訳文文字ブロックを目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を得て、かつ目標訳文文字ブロック画像を表示し、文字ブロック画像の文字の翻訳機能を効果的に実現し、それにより表示された訳文画像が完全でありかつ見た目がよく、それによりユーザの視覚体験を向上させる。
本開示の実施例によれば、目標原文文字ブロックに対応する文字枠が方形文字枠ではないと判定した場合、アフィン変換を利用してテキスト枠を方形文字枠に変換する。
本開示の実施例によれば、文字消去モデルを利用して目標原文文字ブロック画像を処理する前に、段落検出モデルに基づいて、目標原文文字ブロック画像の文字消去領域の文字枠が形状が不規則な四角形文字枠であることを検出し、アフィン変換を利用して該形状が不規則な四角形文字枠を方形文字枠に変換する。該四角形文字枠は、目標原文文字ブロック画像の文字消去領域に対応する文字枠であってもよく、方形文字枠は矩形形状であってもよい。
本開示の実施例によれば、方形に変換された文字枠内の文字を翻訳した訳文を、目標原文文字ブロック画像の文字消去領域に対応する目標文字ブロック消去画像に貼り付けた後、再びアフィン変換を利用して方形文字枠を逆変換し、目標原文文字ブロック画像の文字消去領域に対応する文字枠と形状及び大きさがいずれも同じである四角形文字枠に変換し戻す。
本開示の実施例によれば、アフィン変換は、二次元座標から二次元座標までの間の線形変換であり、二次元図形の「直線性」及び「平行性」を保持する。直線性とは、変換後の直線が依然として直線であり、湾曲することがなく、円弧が依然として円弧であることである。平行性とは、二次元図形の間の相対的な位置関係が変化しないように保持し、平行線が依然として平行線であり、交差直線の交差角が変化しないことである。
本開示の実施例によれば、アフィン変換は、平行移動、スケーリング、反転、回転、せん断などにより実現される。
本開示の実施例によれば、例えば、目標原文文字ブロック画像の文字消去領域に対応する文字枠は形状が不規則な四角形枠であり、該形状が不規則な四角形枠は、傾斜した文字消去領域の文字内容に対応する場合、該形状が不規則な四角形枠の各角の位置情報は異なる二次元座標を示し、アフィン変換により目標原文文字ブロック画像の文字消去領域に対応する文字枠を矩形形状の四角形枠の二次元座標に補正する。
本開示の実施例によれば、目標原文文字ブロック画像は、複数の目標サブ原文文字ブロック画像を含むことができる。
本開示の実施例によれば、該目標原文文字ブロック画像は、複数の目標サブ原文文字ブロック画像をスティッチングして得られるものを含み、スティッチングされた目標原文文字ブロック画像を文字消去モデルに入力して消去する。
本開示の実施例によれば、例えば、複数の目標サブ原文文字ブロック画像を一定の高さに正規化し、該複数の目標サブ原文文字ブロック画像を一枚又は複数枚の規則的に配列したビッグピクチャーに組み合わせてスティッチングし、目標原文文字ブロック画像とすることができる。
本開示の実施例によれば、複数の目標サブ原文文字ブロック画像をスティッチングすることにより、目標原文文字ブロック画像を取得し、目標原文文字ブロック画像を文字消去モデルに入力して消去し、文字消去モデルを通過する必要がある画像数を大幅に低減し、文字消去の効率を向上させる。
本開示の実施例によれば、訳文表示パラメータは、訳文画素値を含むことができる。
本開示の実施例によれば、訳文表示パラメータを特定することは、以下の操作を含むことができる。
目標原文文字ブロック画像の文字領域を特定する。目標原文文字ブロック画像の文字領域の画素平均値を特定する。目標原文文字ブロック画像の文字領域の画素平均値を、訳文の画素値として特定される。
本開示の実施例によれば、目標原文文字ブロック画像の文字領域を特定することは、以下の操作を含むことができる。
画像二値化により目標原文文字ブロック画像を処理し、第一画像領域及び第二画像領域を取得する。第一画像領域に対応する目標原文文字ブロック画像の第一画素平均値を特定する。第二画像領域に対応する目標原文文字ブロック画像の第二画素平均値を特定する。目標文字ブロック消去画像に対応する第三画素平均値を特定する。第一画素平均値、第二画素平均値、及び第三画素平均値に基づいて、目標原文文字ブロック画像の文字領域を特定する。
本開示の実施例によれば、画像二値化処理は、一つの閾値Tを設定し、閾値Tを用いて画像のデータを画素値がTより大きい画素群と画素値がTより小さい画素群という二つの部分に分け、画像全体が明らかな黒と白のみがある視覚効果を呈することである。
本開示の実施例によれば、第一画像領域は、目標原文文字ブロック画像の文字消去領域であってもよく、目標原文文字ブロック画像の文字消去領域以外の他の領域であってもよく、第二画像領域は、目標原文文字ブロック画像の文字消去領域であってもよく、目標原文文字ブロック画像の文字消去領域以外の他の領域であってもよい。
本開示の実施例によれば、例えば、第一画像領域に対応する目標原文文字ブロック画像の第一画素平均値をA1で表すことができ、第二画像領域に対応する目標原文文字ブロック画像の第二画素平均値をA2で表すことができ、目標文字ブロック消去画像に対応する第三画素平均値をA3で表すことができる。
本開示の実施例によれば、目標文字ブロック消去画像に対応する第三画素値は、目標文字ブロック消去画像における文字消去領域以外の他の領域の画素値に基づいて特定することができる。
本開示の実施例によれば、第一画素平均値、第二画素平均値、及び第三画素平均値に基づいて、目標原文文字ブロック画像の文字領域を特定することは、以下の操作を含むことができる。
第一画素平均値と第三画素平均値との間の差分値の絶対値が第二画素平均値と第三画素平均値との間の差分値の絶対値より小さいと判定した場合、第一画素平均値に対応する第一画像領域を目標原文文字ブロック画像の文字領域として特定する。第一画素平均値と第三画素平均値との間の差分値の絶対値が第二画素平均値と第三画素平均値との間の差分値の絶対値以上であると判定した場合、第二画素平均値に対応する第二画像領域を目標原文文字ブロック画像の文字領域として特定する。
本開示の実施例によれば、目標文字ブロック消去画像に対応する第三画素平均値A3に基づいて、第一画像領域に対応する目標原文文字ブロック画像の第一画素平均値A1と第二画像領域に対応する目標原文文字ブロック画像の第二画素平均値A2を判定し、目標原文文字ブロック画像の文字領域を特定する。
本開示の実施例によれば、例えば、
Figure 2023541351000016
であれば、A1に対応する第一画像領域を目標原文文字ブロック画像の文字領域として特定し、A2に対応する第二画像領域を目標原文文字ブロック画像の文字領域以外の他の領域として特定する。
本開示の実施例によれば、
Figure 2023541351000017
であれば、A2に対応する第二画像領域を目標原文文字ブロック画像の文字領域として特定し、A1に対応する第一画像領域を目標原文文字ブロック画像の文字領域以外の他の領域として特定する。
本開示の実施例によれば、訳文表示パラメータは、訳文配列パラメータ値を含むことができ、訳文配列パラメータ値は、訳文表示行数、訳文表示高さ、訳文表示行数、及び訳文表示高さを含むことができる。
本開示の実施例によれば、表示パラメータを特定することは、以下の操作を含むことができる。目標文字ブロック消去画像に対応する文字領域の高さ及び幅と、目標訳文文字ブロックに対応する高さ及び幅とに基づいて、訳文表示行数及び/又は訳文表示高さを特定する。
本開示の実施例によれば、訳文表示高さは、目標文字ブロック消去画像に対応する文字領域の高さにより特定することができる。
本開示の実施例によれば、訳文文字幅は、訳文を一行で配列する時の文字幅であってもよい。訳文の字体幅と高さの比率に基づいて、訳文を一行で配列する場合の訳文文字幅を得ることができる。
図6は、本開示の実施例に係る訳文表示行数及び/又は訳文表示高さを特定するフローチャートを概略的に示す。
図6に示すように、目標文字ブロック消去画像に対応する文字領域の高さ及び幅と、目標訳文文字ブロックに対応する高さ及び幅とに基づいて、訳文表示行数及び/又は訳文表示高さを特定することは、操作S610~S650を含むことができる。
操作S610において、目標訳文文字ブロックに対応する幅の和を特定する。
操作S620において、目標訳文文字ブロックに対応する訳文表示行数をi行に設定し、ここで、i行のうちの各行の高さは目標文字ブロック消去画像に対応する文字領域の高さの1/iであり、iは1以上の整数である。
操作S630において、幅の和がi行に対応する所定幅閾値より大きいと判定した場合、目標訳文文字ブロックに対応する訳文表示行数をi=i+1行に設定し、ここで、所定幅閾値は、目標文字ブロック消去画像に対応する文字領域の幅のi倍に基づいて特定される。
操作S640において、幅の和がi行に対応する所定幅閾値以下であると判定するまで、幅の和がi行に対応する所定幅閾値以下であるか否かを判定する操作を繰り返す。
操作S650において、幅の和がi行に対応する所定幅閾値以下であると判定した場合、i行を訳文表示行数として特定し、及び/又は目標文字ブロック消去画像に対応する文字領域の高さの1/iを訳文表示高さとして特定する。
本開示の実施例によれば、訳文の字体幅と高さの比率に基づいて訳文を一行で配列する時の訳文文字幅、すなわち、目標訳文文字ブロックに対応する文字幅の和Wを得ることができる。
本開示の実施例によれば、訳文表示行数をi行に設定され、i行に対応する所定幅閾値Wは、目標文字ブロック消去画像に対応する文字領域幅のi倍に基づいて特定される。
本開示の実施例によれば、目標訳文文字ブロックに対応する幅の和Wとi行に対応する所定幅閾値Wとを比較し、訳文表示行数及び/又は表示高さを特定する。
本開示の実施例によれば、例えば、目標原文文字ブロック画像の文字領域の文字は「It’s cloudy and rainy」であり、「It’s cloudy and rainy」を翻訳した後、目標訳文は「曇りで雨です」ということである。これにより、目標訳文文字ブロックに対応する文字幅は、目標訳文ブロック「曇りで雨です」を一行で配列する時の文字幅の和であり、Wとして表すことができる。
本開示の実施例によれば、目標文字ブロック消去画像に対応する文字領域幅がWであり、訳文表示行数i行に対応する所定幅閾値はWであり、W=i×Wである。
本開示の実施例によれば、「曇りで雨です」の訳文文字に対応する訳文表示行数が1行(i=1)であり、訳文文字幅の和Wが、訳文表示行数が1行であることに対応する所定幅閾値W=1×Wよりも大きい場合、1行で目標訳文文字ブロックに対応する訳文を配列することが適切ではないことが分り、訳文の表示行数を2行に設定する必要がある。この時、訳文表示行は2行である。
本開示の実施例によれば、上記操作を実行し続け、訳文文字幅の和Wが、訳文表示行数が2行であることに対応する所定幅閾値W=2×Wよりも大きい場合、2行で目標訳文文字ブロックに対応する訳文を配列することが適切ではないことが分り、訳文表示行数を3行に設定する必要がある。この時、訳文表示行は3行である。
本開示の実施例によれば、上記操作を繰り返して実行し、訳文の文字幅の和Wがi行に対応する所定幅閾値W=i×W以下であると判定した場合、i行を訳文表示行数として特定し、目標文字ブロック消去画像に対応する文字領域の高さの1/iを訳文表示高さとして特定する。
本開示の実施例によれば、例えば、訳文文字幅の和Wが、訳文表示行数が3行であることに対応する所定幅閾値W=3×W以下である場合、3行で目標訳文文字ブロックに対応する訳文を配列することが適切であることが分り、訳文表示行数は3行であり、訳文の表示高さは目標文字ブロック消去画像に対応する文字領域の高さの1/3である。
本開示の実施例によれば、訳文配列パラメータ値は、訳文表示方向を含むことができる。訳文表示方向は、目標原文文字ブロックの文字方向に基づいて特定されてもよい。
本開示の実施例によれば、目標原文文字ブロックの文字領域の文字枠は形状が不規則な四角形文字枠であり、アフィン変換を利用して形状が不規則な四角形文字枠を矩形文字枠に変換し、文字消去及び訳文の貼り合わせを容易にし、訳文貼り合わせ後の文字枠は再びアフィン変換を利用してそれを目標原文文字ブロックの文字領域の形状が不規則な四角形文字枠と同じ文字領域の文字枠形状に変換し戻して、訳文表示方向を形成する。
図7は、本開示の実施例に係る訳文表示プロセスの概略図を概略的に示す。
図7に示すように、目標原文文字ブロック画像701を文字消去モデル702に入力して文字消去処理を行い、目標文字ブロック消去画像703を取得し、訳文表示パラメータ704を特定し、訳文表示パラメータ704に基づいて、目標原文文字ブロック画像701における目標原文文字ブロックの文字領域に対応する訳文文字ブロック705を目標文字ブロック消去画像703に重ね合わせ、目標訳文文字ブロック画像706を得て、かつ目標訳文文字ブロック画像706を表示する。
図8Aは、本開示の実施例に係る文字消去プロセス800の概略図を概略的に示す。
図8Bは、本開示の実施例に係る訳文貼り合わせプロセス800’の概略図を概略的に示す。
図8Aに示すように、元画像801から検出された原文文字ブロック画像セット802における原文文字ブロック画像803、804、805、806を文字消去モデル807に入力し、原文文字ブロック画像セット802における原文文字ブロック画像803、804、805、806の文字領域を消去し、文字消去後の文字ブロック消去画像セット808における文字ブロック消去画像809、810、811、812を出力する。
文字消去プロセス800の後に、訳文貼り合わせプロセス800’が行われる。図8Bに示すように、原文文字ブロック画像セットにおける各原文文字ブロック図形を翻訳し、例えば、原文文字ブロック画像805の文字領域を翻訳し、原文文字ブロック画像805の文字領域に対応する訳文文字ブロック813を取得する。
訳文文字ブロック813の訳文表示パラメータ814を特定し、訳文表示パラメータ814は訳文文字位置、訳文文字配列パラメータ値、訳文画素値を含む。
訳文表示パラメータ814に基づいて、訳文文字ブロック813を文字ブロック消去画像セット808における文字ブロック消去画像811に重ね合わせ、訳文文字ブロック画像815を得る。
上記操作を繰り返し、原文文字ブロック画像セット802における各原文文字ブロック画像を文字消去しかつ文字貼り合わせを行った後、最終的に一枚の訳文表示付きの訳文画像816を取得する。
図9は、本開示の実施例に係る文字消去モデルのトレーニング装置のブロック図を概略的に示す。
図9に示すように、文字消去モデルのトレーニング装置900は、第一取得モジュール910、第二取得モジュール920、第一特定モジュール930を含む。
第一取得モジュール910は、敵対的生成ネットワークモデルの生成器によって原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得するために用いられ、ここで、敵対的生成ネットワークモデルは生成器及び判別器を含む。
第二取得モジュール920は、実文字ブロック消去画像セット及びシミュレーション文字ブロック消去画像セットによって、生成器及び判別器を交互にトレーニングし、トレーニング済みの生成器及び判別器を取得するために用いられる。
第一特定モジュール930は、トレーニング済みの生成器を文字消去モデルとして特定するために用いられる。
本開示の実施例によれば、実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は、実文字ブロック消去画像における文字消去領域以外の他の領域の画素値に基づいて特定される。
本開示の実施例によれば、原文文字ブロック画像セットは、第一原文文字ブロック画像セットと第二原文文字ブロック画像セットとを含み、シミュレーション文字ブロック消去画像セットは、第一シミュレーション文字ブロック消去画像セットと第二シミュレーション文字ブロック消去画像セットとを含む。
第一取得モジュール910は、第一生成サブモジュール、第二生成サブモジュールを含む。
第一生成サブモジュールは、生成器を利用して第一原文文字ブロック画像セットを処理し、第一シミュレーション文字ブロック消去画像セットを生成するために用いられる。
第二生成サブモジュールは、生成器を利用して第二原文文字ブロック画像セットを処理し、第二シミュレーション文字ブロック消去画像セットを生成するために用いられる。
本開示の実施例によれば、実文字ブロック消去画像セットは、第一実文字ブロック消去画像及び第二実文字ブロック消去画像を含む。第二取得モジュール920は、第一トレーニングサブモジュール、第二トレーニングサブモジュール、実行サブモジュール、取得サブモジュールを含むことができる。
第一トレーニングサブモジュールは、第一実文字ブロック消去画像セット及び第一シミュレーション文字ブロック消去画像セットを利用して判別器をトレーニングするために用いられる。
第二トレーニングサブモジュールは、第二シミュレーション文字ブロック消去画像セットを利用して生成器をトレーニングするために用いられる。
実行サブモジュールは、敵対的生成ネットワークモデルの収束条件を満たすまで、判別器をトレーニングする操作と生成器をトレーニングする操作を交互に実行するために用いられる。
取得サブモジュールは、敵対的生成ネットワークモデルの収束条件を満たす場合に得られた生成器及び判別器を、トレーニング済みの生成器及び判別器として特定するために用いられる。
本開示の実施例によれば、第一実文字ブロック消去画像セットは、複数の第一実文字ブロック消去画像を含み、第一シミュレーション文字ブロック消去画像セットは、複数の第一シミュレーション文字ブロック消去画像を含む。
第一トレーニングサブモジュールは、第一取得ユニット、第二取得ユニット、トレーニングユニットを含む。
第一取得ユニットは、第一実文字ブロック消去画像セットにおける各第一実文字ブロック消去画像を判別器に入力し、第一実文字ブロック消去画像に対応する第一判別結果を取得するために用いられる。
第二取得ユニットは、第一シミュレーション文字ブロック消去画像セットにおける各第一シミュレーション文字ブロック消去画像を判別器に入力し、第一シミュレーション文字ブロック消去画像に対応する第二判別結果を取得するために用いられる。
トレーニングユニットは、第一判別結果及び第二判別結果に基づいて判別器をトレーニングするために用いられる。
本開示の実施例によれば、第一トレーニングサブモジュールは、さらに、第三取得ユニット、第一調整ユニットを含む。
第三取得ユニットは、生成器のモデルパラメータを変化せずに、第一損失関数に基づいて、第一判別結果及び第二判別結果を用いて、第一出力値を取得するために用いられる。
第一調整ユニットは、第一出力値に基づいて判別器のモデルパラメータを調整し、調整後の判別器のモデルパラメータを取得するために用いられる。
ここで、第二トレーニングサブモジュールは、第四取得ユニット、第二調整ユニットを含む。
第四取得ユニットは、調整後の判別器のモデルパラメータを変化せずに、第二損失関数に基づいて、第二シミュレーション文字ブロック消去画像集セットを用いて、第二出力値を取得するために用いられる。
第二調整ユニットは、第二出力値に基づいて生成器のモデルパラメータを調整する。
本開示の実施例によれば、第一損失関数は、判別器損失関数と最小平均二乗値誤差損失関数とを含み、第二損失関数は、生成器損失関数と最小平均二乗値誤差損失関数とを含み、判別器損失関数、最小平均二乗値誤差損失関数、及び生成器損失関数は、いずれも正則化項を含む損失関数である。
図10は、本開示の実施例に係る訳文表示装置のブロック図を概略的に示す。
図10に示すように、訳文表示装置1000は、第三取得モジュール1010、第二特定モジュール1020、第四取得モジュール1030、表示モジュール1040を含む。
第三取得モジュール1010は、文字消去モデルを利用して目標原文文字ブロック画像を処理し、目標文字ブロック消去画像を取得するために用いられ、目標原文文字ブロック画像は目標原文文字ブロックを含む。
第二特定モジュール1020は、訳文表示パラメータを特定するために用いられる。
第四取得モジュール1030は、訳文表示パラメータに基づいて、目標原文文字ブロックに対応する訳文文字ブロックを目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を取得するために用いられる。
表示モジュール1040は、目標訳文文字ブロック画像を表示するために用いられる。
ここで、文字消去モデルは上記文字消去モデルトレーニング方法を利用してトレーニングされたものである。
本開示の実施例によれば、上記訳文表示装置1000は、さらに、変換モジュールを含む。
変換モジュールは、目標原文文字ブロックに対応する文字枠が方形文字枠ではないと判定した場合、アフィン変換を利用してテキスト枠を方形文字枠に変換するために用いられる。
本開示の実施例によれば、目標原文文字ブロック画像は複数の目標サブ原文文字ブロック画像を含む。
上記訳文表示装置1000は、さらに、スティッチングモジュールを含む。
スティッチングモジュールは、複数の目標サブ原文文字ブロック画像をスティッチングし、目標原文文字ブロック画像を取得するために用いられる。
本開示の実施例によれば、訳文表示パラメータは訳文画素値を含む。
第二特定モジュール1020は、第一特定サブモジュール、第二特定サブモジュール、第三特定サブモジュールを含む。
第一特定サブモジュールは、目標原文文字ブロック画像の文字領域を特定するために用いられる。
第二特定サブモジュールは、目標原文文字ブロック画像の文字領域の画素平均値を特定するために用いられる。
第三特定サブモジュールは、目標原文文字ブロック画像の文字領域の画素平均値を訳文画素値として特定するために用いられる。
本開示の実施例によれば、第一特定サブモジュールは、第五取得ユニット、第一特定ユニット、第二特定ユニット、第三特定ユニット、第四特定ユニットを含む。
第五取得ユニットは、画像二値化によって目標原文文字ブロック画像を処理して、第一画像領域及び第二画像領域を取得するために用いられる。
第一特定ユニットは、第一画像領域に対応する目標原文文字ブロック画像の第一画素平均値を特定するために用いられる。
第二特定ユニットは、第二画像領域に対応する目標原文文字ブロック画像の第二画素平均値を特定するために用いられる。
第三特定ユニットは、目標文字ブロック消去画像に対応する第三画素平均値を特定するために用いられる。
第四特定ユニットは、第一画素平均値、第二画素平均値、及び第三画素平均値に基づいて、目標原文文字ブロック画像の文字領域を特定するために用いられる。
本開示の実施例によれば、第四特定ユニットは、第一特定サブユニット、第二特定サブユニットを含む。
第一特定サブユニットは、第一画素平均値と第三画素平均値との間の差分値の絶対値が第二画素平均値と第三画素平均値との間の差分値の絶対値より小さいと判定した場合、第一画素平均値に対応する第一画像領域を目標原文文字ブロック画像の文字領域として特定するために用いられる。
第二特定サブユニットは、第一画素平均値と第三画素平均値との間の差分値の絶対値が第二画素平均値と第三画素平均値との間の差分値の絶対値以上であると判定した場合、第二画素平均値に対応する第二画像領域を目標原文文字ブロック画像の文字領域として特定するために用いられる。
本開示の実施例によれば、訳文表示パラメータは、訳文配列パラメータ値を含み、訳文配列パラメータ値は、訳文表示行数及び/又は訳文表示高さを含む。
第二特定モジュール1020は、さらに、第四特定サブモジュールを含む。
第四特定サブモジュールは、目標文字ブロック消去画像に対応する文字領域の高さ及び幅と、目標訳文文字ブロックに対応する高さ及び幅とに基づいて、訳文表示行数及び/又は訳文表示高さを特定するために用いられる。
本開示の実施例によれば、第四特定サブモジュールは、第五特定ユニット、第六特定ユニット、設定ユニット、繰り返しユニット、第七特定ユニットを含む。
第五特定ユニットは、目標訳文文字ブロックに対応する幅の和を特定するために用いられる。
第六特定ユニットは、目標訳文文字ブロックに対応する訳文表示行数をi行に設定するために用いられ、ここで、i行のうちの各行の高さが目標文字ブロック消去画像に対応する文字領域の高さの1/iであり、iは1以上の整数である。
設定ユニットは、幅の和がi行に対応する所定幅閾値より大きいと判定した場合、目標訳文文字ブロックに対応する訳文表示行数をi=i+1行に設定するために用いられ、ここで、所定幅閾値は、目標文字ブロック消去画像に対応する文字領域の幅のi倍に基づいて特定される。
繰り返しユニットは、幅の和がi行に対応する所定幅閾値以下であると判定するまで、幅の和がi行に対応する所定幅閾値以下であるか否かを判定する操作を繰り返し実行するために用いられる。
第七特定ユニットは、幅の和がi行に対応する所定幅閾値以下であると判定した場合、i行を訳文表示行数及び/又は目標文字ブロック消去画像に対応する文字領域の高さの1/iを訳文表示高さとして特定するために用いられる。
本開示の実施例によれば、訳文配列パラメータ値は訳文表示方向を含み、訳文表示方向は目標原文文字ブロックの文字方向に基づいて特定される。
本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラム製品を提供する。
本開示の実施例によれば、電子機器であって、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されるメモリとを含み、ここで、メモリに少なくとも一つのプロセッサにより実行可能な命令が記憶され、命令が少なくとも一つのプロセッサにより実行されることにより、少なくとも一つのプロセッサが前記のような方法を実行することができる。
本開示の実施例によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、ここで、コンピュータ命令はコンピュータに前記のような方法を実行させる。
本開示の実施例によれば、コンピュータプログラムであって、コンピュータプログラムはプロセッサにより実行される時に前記のような方法を実現する。
本開示の技術案において、係られたユーザ個人情報の収集、記憶、使用、加工、伝送、提供、開示及び応用等の処理は、いずれも関連法規や法規の規定に合致しており、必要なセキュリティ対策を取っており、かつ公序良俗に反するものではない。
本開示の技術案において、ユーザの個人情報を取得するか又は収集する前に、いずれもユーザの許可又は同意を取得した。図11は、本開示の実施例に係る文字消去モデルのトレーニング方法又は訳文表示方法を実現することに適す電子機器のブロック図を概略的に示す。電子機器は、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータという様々な形式のデジタルコンピュータを表すことを意図する。電子機器は、さらに、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置という様々な形式の移動装置を表してもよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
図11に示すように、電子機器1100は、計算ユニット1101を含み、それはリードオンリーメモリ(ROM)1102に記憶されたコンピュータプログラム又は記憶ユニット1108からランダムアクセスメモリ(RAM)1103にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM 1103には、さらに機器1100の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット1101、ROM 1102、およびRAM 1103は、バス1104を介して相互に接続されている。バス1104には、入出力(I/O)インターフェース1105も接続されている。
電子機器1100における複数の部品は、I/Oインターフェース1105に接続され、例えばキーボード、マウス等の入力ユニット1106と、例えば様々なタイプのディスプレイ、スピーカ等の出力ユニット1107と、例えば磁気ディスク、光ディスク等の記憶ユニット1108と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット1109とを含む。通信ユニット1109は、電子機器1100がインターネット等のコンピュータネットワーク及び/又は各種の電気通信網を介して他の機器と情報/データをやり取りすることを可能にする。
計算ユニット1101は、処理及び計算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算ユニット1101の幾つかの例としては、中央処理装置(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムをランニングする計算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット1101は、例えば文字消去モデルのトレーニング方法又は訳文表示方法のような前記記載された各方法と処理を実行する。例えば、いくつかの実施例において、文字消去モデルのトレーニング方法又は訳文表示方法は、例えば記憶ユニット1108のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM1002及び/又は通信ユニット1109を介して機器1100にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM1003にロードされて計算ユニット1101により実行される場合、前記記載された文字消去モデルのトレーニング方法又は訳文表示方法の1つ又は複数のステップを実行することができる。代替的に、別の実施例において、計算ユニット1101は、他の任意の適切な方式により(例えば、ファームウェアを介して)文字消去モデルのトレーニング方法又は訳文表示方法を実行するように構成されてもよい。
本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行され及び/又は解釈されることが可能であり、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができることを含んでもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、完全に機器で実行されてもよく、部分的に機器で実行されててもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は機器、又は前記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は前記内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種別の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが当該グラフィカルユーザインターフェース又は当該ウェブブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
コンピュータシステムは、クライアント及びサーバを含んでよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、分散システムのサーバ、またはブロックチェーンと組み合わせたサーバであってよい。
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順に実行されたり、又は異なる順序で実行されてもよく、本開示に開示された技術案の所望の結果を実現することができれば、本明細書はここで限定されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (20)

  1. 文字消去モデルのトレーニング方法であって、
    敵対的生成ネットワークモデルの生成器を利用して原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得し、ここで、前記敵対的生成ネットワークモデルが前記生成器及び判別器を含むことと、
    実文字ブロック消去画像セットと前記シミュレーション文字ブロック消去画像セットとを利用して、前記生成器と前記判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得することと、
    前記トレーニング済みの生成器を前記文字消去モデルとして特定することと、を含み、
    ここで、前記実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は、前記実文字ブロック消去画像における前記文字消去領域以外の他の領域の画素値に基づいて特定される
    文字消去モデルのトレーニング方法。
  2. 前記原文文字ブロック画像セットは、第一原文文字ブロック画像セットと第二原文文字ブロック画像セットとを含み、前記シミュレーション文字ブロック消去画像セットは、第一シミュレーション文字ブロック消去画像セットと第二シミュレーション文字ブロック消去画像セットとを含み、
    敵対的生成ネットワークモデルの生成器を利用して原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得することは、
    前記生成器を利用して前記第一原文文字ブロック画像セットを処理し、前記第一シミュレーション文字ブロック消去画像セットを生成することと、
    前記生成器を利用して前記第二原文文字ブロック画像セットを処理し、前記第二シミュレーション文字ブロック消去画像セットを生成することと、を含む
    請求項1に記載の方法。
  3. 前記実文字ブロック消去画像セットは、第一実文字ブロック消去画像セットと第二実文字ブロック消去画像セットとを含み、
    前記実文字ブロック消去画像セットと前記シミュレーション文字ブロック消去画像セットとを利用して、前記生成器と前記判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得することは、
    前記第一実文字ブロック消去画像セットと前記第一シミュレーション文字ブロック消去画像セットとを利用して前記判別器をトレーニングすることと、
    前記第二シミュレーション文字ブロック消去画像セットを利用して前記生成器をトレーニングすることと、
    前記敵対的生成ネットワークモデルの収束条件を満たすまで、前記判別器をトレーニングする操作と前記生成器をトレーニングする操作とを交互に実行することと、
    前記敵対的生成ネットワークモデルの収束条件を満たす場合に得られた生成器及び判別器を、前記トレーニング済みの生成器及び判別器として特定することと、を含む
    請求項2に記載の方法。
  4. 前記第一実文字ブロック消去画像セットは、複数の第一実文字ブロック消去画像を含み、前記第一シミュレーション文字ブロック消去画像セットは、複数の第一シミュレーション文字ブロック消去画像を含み、
    前記第一実文字ブロック消去画像セットと前記第一シミュレーション文字ブロック消去画像セットとを利用して前記判別器をトレーニングすることは、
    前記第一実文字ブロック消去画像セットにおける各前記第一実文字ブロック消去画像を前記判別器に入力し、前記第一実文字ブロック消去画像に対応する第一判別結果を取得することと、
    前記第一シミュレーション文字ブロック消去画像セットにおける各前記第一シミュレーション文字ブロック消去画像を前記判別器に入力し、前記第一シミュレーション文字ブロック消去画像に対応する第二判別結果を取得することと、
    前記第一判別結果と前記第二判別結果とに基づいて前記判別器をトレーニングすることと、を含む
    請求項3に記載の方法。
  5. 前記第一判別結果と第二判別結果とに基づいて前記判別器をトレーニングすることは、
    前記生成器のモデルパラメータを変化せずに、第一損失関数に基づいて、第一判別結果と第二判別結果とを利用して、第一出力値を取得することと、
    前記第一出力値に基づいて前記判別器のモデルパラメータを調整し、調整後の判別器のモデルパラメータを取得することと、を含み、
    ここで、前記第二シミュレーション文字ブロック消去画像セットを利用して前記生成器をトレーニングすることは、
    前記調整後の判別器のモデルパラメータを変化せずに、第二損失関数に基づいて、前記第二シミュレーション文字ブロック消去画像セットを利用して、第二出力値を取得することと、
    前記第二出力値に基づいて前記生成器のモデルパラメータを調整することと、を含む
    請求項4に記載の方法。
  6. 前記第一損失関数は、判別器損失関数及び最小平均二乗値誤差損失関数を含み、前記第二損失関数は、生成器損失関数及び前記最小平均二乗値誤差損失関数を含み、前記判別器損失関数、前記最小平均二乗値誤差損失関数、及び前記生成器損失関数はいずれも正則化項を含む損失関数である
    請求項5に記載の方法。
  7. 訳文表示方法であって、
    文字消去モデルを利用して、目標原文文字ブロックを含む目標原文文字ブロック画像を処理し、目標文字ブロック消去画像を取得することと、
    訳文表示パラメータを特定することと、
    前記訳文表示パラメータに基づいて、前記目標原文文字ブロックに対応する訳文文字ブロックを前記目標文字消去画像に重ね合わせ、目標訳文文字ブロック画像を取得することと、
    前記目標訳文文字ブロック画像を表示することとを含み、
    ここで、前記文字消去モデルは請求項1~6のいずれか一項に記載の方法でトレーニングされたものである
    訳文表示方法。
  8. 前記目標原文文字ブロックに対応する文字枠が方形文字枠ではないと判定した場合、アフィン変換を利用して前記テキスト枠を前記方形文字枠に変換することをさらに含む
    請求項7に記載の方法。
  9. 前記目標原文文字ブロック画像は、複数の目標サブ原文文字ブロック画像を含み、
    前記方法は、
    前記複数の目標サブ原文文字ブロック画像をスティッチングし、前記目標原文文字ブロック画像を取得することをさらに含む
    請求項7又は8に記載の方法。
  10. 前記訳文表示パラメータは訳文画素値を含み、
    前記訳文表示パラメータを特定することは、
    前記目標原文文字ブロック画像の文字領域を特定することと、
    前記目標原文文字ブロック画像の文字領域の画素平均値を特定することと、
    前記目標原文文字ブロック画像の文字領域の画素平均値を前記訳文画素値として特定することとを含む
    請求項7~9のいずれか一項に記載の方法。
  11. 前記目標原文文字ブロック画像の文字領域を特定することは、
    画像二値化を利用して前記目標原文文字ブロック画像を処理し、第一画像領域及び第二画像領域を取得することと、
    前記第一画像領域に対応する目標原文文字ブロック画像の第一画素平均値を特定することと、
    前記第二画像領域に対応する目標原文文字ブロック画像の第二画素平均値を特定することと、
    前記目標文字ブロック消去画像に対応する第三画素平均値を特定することと、
    前記第一画素平均値、前記第二画素平均値、及び前記第三画素平均値に基づいて、前記目標原文文字ブロック画像の文字領域を特定することと、を含む
    請求項10に記載の方法。
  12. 前記第一画素平均値、前記第二画素平均値、及び前記第三画素平均値に基づいて、前記目標原文文字ブロック画像の文字領域を特定することは、
    前記第一画素平均値と前記第三画素平均値との間の差分値の絶対値が前記第二画素平均値と前記第三画素平均値との間の差分値の絶対値より小さいと判定した場合、前記第一画素平均値に対応する第一画像領域を前記目標原文文字ブロック画像の文字領域として特定することと、
    前記第一画素平均値と前記第三画素平均値との間の差分値の絶対値が前記第二画素平均値と前記第三画素平均値との間の差分値の絶対値以上であると判定した場合、前記第二画素平均値に対応する第二画像領域を前記目標原文文字ブロック画像の文字領域として特定することと、を含む
    請求項11に記載の方法。
  13. 前記訳文表示パラメータは、訳文配列パラメータ値を含み、前記訳文配列パラメータ値は、訳文表示行数及び/又は訳文展示高さを含み、
    前記訳文表示パラメータを特定することは、
    前記目標文字ブロック消去画像に対応する文字領域の高さ及び幅と、前記目標訳文文字ブロックに対応する高さ及び幅とに基づいて、前記訳文表示行数及び/又は前記訳文表示高さを特定することを含む
    請求項7~12のいずれか一項に記載の方法。
  14. 前記目標文字ブロック消去画像に対応する文字領域の高さ及び幅と、前記目標訳文文字ブロックに対応する高さ及び幅とに基づいて、前記訳文表示行数及び/又は前記訳文表示高さを特定することは、
    前記目標訳文文字ブロックに対応する幅の和を特定することと、
    前記目標訳文文字ブロックに対応する訳文表示行数をi行に設定し、ここで、前記i行の各行の高さは前記目標文字ブロック消去画像に対応する文字領域の高さの1/iであり、iが1以上の整数であることと、
    前記幅の和が前記i行に対応する所定幅閾値より大きいと判定した場合、前記目標訳文文字ブロックに対応する訳文表示行数をi=i+1行に設定し、ここで、前記所定幅閾値が前記目標文字ブロック消去画像に対応する文字領域の幅のi倍に基づいて特定されることと、
    前記幅の和が前記i行に対応する所定幅閾値以下であると判定するまで、前記幅の和が前記i行に対応する所定幅閾値以下であるか否かを判定する操作を繰り返し実行することと、
    前記幅の和が前記i行に対応する所定幅閾値以下であると判定した場合、前記i行を前記訳文表示行数として特定し、及び/又は前記目標文字ブロック消去画像に対応する文字領域の高さの1/iを前記訳文表示高さとして特定することと、を含む
    請求項13に記載の方法。
  15. 前記訳文配列パラメータ値は訳文表示方向を含み、前記訳文表示方向は、前記目標原文文字ブロックの文字方向に基づいて特定される
    請求項7~14のいずれか一項に記載の方法。
  16. 文字消去モデルのトレーニング装置であって、
    敵対的生成ネットワークモデルの生成器を利用して原文文字ブロック画像セットを処理し、シミュレーション文字ブロック消去画像セットを取得するものであって、ここで、前記敵対的生成ネットワークモデルが前記生成器及び判別器を含む第一取得モジュールと、
    実文字ブロック消去画像セットと前記シミュレーション文字ブロック消去画像セットとを利用して、前記生成器と前記判別器とを交互にトレーニングし、トレーニング済みの生成器及び判別器を取得する第二取得モジュールと、
    前記トレーニング済みの生成器を前記文字消去モデルとして特定する第一特定モジュールと、を含み、
    ここで、前記実文字ブロック消去画像セットに含まれる実文字ブロック消去画像における文字消去領域の画素値は前記実文字ブロック消去画像における前記文字消去領域以外の他の領域の画素値に基づいて特定される
    文字消去モデルのトレーニング装置。
  17. 訳文表示装置であって、
    文字消去モデルを利用して、目標原文文字ブロックを含む目標原文文字ブロック画像を処理し、目標文字ブロック消去画像を取得する第三取得モジュールと、
    訳文表示パラメータを特定する第二特定モジュールと、
    前記訳文表示パラメータに基づいて、前記目標原文文字ブロックに対応する訳文文字ブロックを前記目標テキスト消去画像に重ね合わせ、目標訳文文字ブロック画像を取得する第四取得モジュールと、
    前記目標訳文文字ブロック画像を表示する表示モジュールと、を含み、
    ここで、前記文字消去モデルは請求項1~6のいずれか一項に記載の方法でトレーニングされたものである
    訳文表示装置。
  18. 少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信接続されたメモリと、を含む電子機器であって、
    前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記命令は前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが請求項1~6のいずれか一項又は請求項7~15のいずれか一項に記載の方法を実行することができる
    電子機器。
  19. コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
    前記コンピュータ命令は前記コンピュータに請求項1~6のいずれか一項又は請求項7~15のいずれか一項に記載の方法を実行させる、
    非一時的なコンピュータ可読記憶媒体。
  20. プロセッサにより実行される時に請求項1~6のいずれか一項又は請求項7~15のいずれか一項に記載の方法を実現するコンピュータプログラムを含む
    コンピュータプログラム製品。
JP2023509866A 2021-08-17 2022-04-22 文字消去モデルのトレーニング方法及び装置、訳文表示方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム Pending JP2023541351A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110945871.0A CN113657396B (zh) 2021-08-17 2021-08-17 训练方法、译文展示方法、装置、电子设备以及存储介质
CN202110945871.0 2021-08-17
PCT/CN2022/088395 WO2023019995A1 (zh) 2021-08-17 2022-04-22 训练方法、译文展示方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
JP2023541351A true JP2023541351A (ja) 2023-10-02

Family

ID=78492142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023509866A Pending JP2023541351A (ja) 2021-08-17 2022-04-22 文字消去モデルのトレーニング方法及び装置、訳文表示方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム

Country Status (3)

Country Link
JP (1) JP2023541351A (ja)
CN (1) CN113657396B (ja)
WO (1) WO2023019995A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657396B (zh) * 2021-08-17 2024-02-09 北京百度网讯科技有限公司 训练方法、译文展示方法、装置、电子设备以及存储介质
CN117274438B (zh) * 2023-11-06 2024-02-20 杭州同花顺数据开发有限公司 一种图片翻译方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3829667B2 (ja) * 2001-08-21 2006-10-04 コニカミノルタホールディングス株式会社 画像処理装置、画像処理方法、画像処理方法実行のためのプログラム及びプログラムを記憶した記憶媒体
RU2015102523A (ru) * 2015-01-27 2016-08-20 Общество с ограниченной ответственностью "Аби Девелопмент" "умный" ластик
CN111127593B (zh) * 2018-10-30 2023-10-31 珠海金山办公软件有限公司 一种文档内容擦除方法、装置、电子设备及可读存储介质
CN109492627B (zh) * 2019-01-22 2022-11-08 华南理工大学 一种基于全卷积网络的深度模型的场景文本擦除方法
CN111429374B (zh) * 2020-03-27 2023-09-22 中国工商银行股份有限公司 图像中摩尔纹的消除方法及装置
CN111612081B (zh) * 2020-05-25 2024-04-02 深圳前海微众银行股份有限公司 识别模型的训练方法、装置、设备及存储介质
CN111723585B (zh) * 2020-06-08 2023-11-28 中国石油大学(华东) 一种风格可控的图像文本实时翻译与转换方法
CN112580623B (zh) * 2020-12-25 2023-07-25 北京百度网讯科技有限公司 图像生成方法、模型训练方法、相关装置及电子设备
CN113657396B (zh) * 2021-08-17 2024-02-09 北京百度网讯科技有限公司 训练方法、译文展示方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
WO2023019995A1 (zh) 2023-02-23
CN113657396A (zh) 2021-11-16
CN113657396B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
US11734851B2 (en) Face key point detection method and apparatus, storage medium, and electronic device
CN108446698B (zh) 在图像中检测文本的方法、装置、介质及电子设备
JP2024500555A (ja) 画像処理方法、画像処理装置及び非一時的な記憶媒体
JP2023541351A (ja) 文字消去モデルのトレーニング方法及び装置、訳文表示方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
CN109146991B (zh) 一种图片格式转换方法、装置、设备和存储介质
EP3998583A2 (en) Method and apparatus of training cycle generative networks model, and method and apparatus of building character library
US20210241498A1 (en) Method and device for processing image, related electronic device and storage medium
CN110490959B (zh) 三维图像处理方法及装置、虚拟形象生成方法以及电子设备
US20220358675A1 (en) Method for training model, method for processing video, device and storage medium
WO2023035531A1 (zh) 文本图像超分辨率重建方法及其相关设备
EP4207051A1 (en) Image super-resolution method and electronic device
JP7401606B2 (ja) 仮想オブジェクトリップ駆動方法、モデル訓練方法、関連装置及び電子機器
CN113313832B (zh) 三维模型的语义生成方法、装置、存储介质与电子设备
US20230047748A1 (en) Method of fusing image, and method of training image fusion model
CN114821734A (zh) 一种驱动虚拟人物表情的方法和装置
JP7418370B2 (ja) 髪型を変換するための方法、装置、デバイス及び記憶媒体
JP7384943B2 (ja) 文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体
CN115393872A (zh) 一种训练文本分类模型的方法、装置、设备及存储介质
CN108961268B (zh) 一种显著图计算方法及相关装置
CN116863017A (zh) 图像处理方法、网络模型训练方法、装置、设备、介质
CN115082298A (zh) 图像生成方法、装置、电子设备以及存储介质
CN116188894A (zh) 基于神经渲染的点云预训练方法、系统、设备及介质
CN115376137A (zh) 一种光学字符识别处理、文本识别模型训练方法及装置
CN112395834B (zh) 基于图片输入的脑图生成方法、装置、设备及存储介质
CN112836467B (zh) 一种图像处理方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230210

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231205