JP2023039891A

JP2023039891A - 文字生成モデルのトレーニング方法、文字生成方法、装置および機器

Info

Publication number: JP2023039891A
Application number: JP2022007357A
Authority: JP
Inventors: 唐礼承; li cheng Tang; 劉家銘; Chia-Min Liu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-09
Filing date: 2022-01-20
Publication date: 2023-03-22
Also published as: US20230154077A1; CN113792849B; KR20220034077A; EP4012668A3; CN113792849A; EP4012668A2

Abstract

【課題】生成されるフォントの正確率を向上させる文字生成モデルのトレーニング方法、文字生成方法、装置及び機器を提供する。【解決手段】トレーニング方法は、第１トレーニングサンプルをターゲットモデルに入力し、第１ロスを計算する。第１トレーニングサンプルは、第１ソースドメインサンプル字と、第１ターゲットドメインサンプル字と、を含む。第１ソースドメインサンプル字のコンテンツと、第１ターゲットドメインサンプル字のコンテンツと、は異なる。方法はまた、第２トレーニングサンプルをターゲットモデルに入力し、第２ロスを計算する。第２トレーニングサンプルは、第２ソースドメインサンプル字と第２ターゲットドメインサンプル字とを含む。第２ソースドメインサンプル字のコンテンツと、第２ターゲットドメインサンプル字のコンテンツと、は同じである。方法はさらに、第１ロス及び第２ロスに基づいて文字生成モデルのパラメータを調整する。【選択図】図１

Description

本開示は、人工知能の技術分野に関し、具体的には、コンピュータ視覚および深層学習の技術分野に関し、特に文字生成モデルのトレーニング方法、文字生成方法、装置および機器に関する。

画像処理は、巨大な社会的・経済的効果を持つ実用技術であり、様々な業界および人々の日常生活に広く適用されている。

画像のスタイル変換とは、スタイルを１つの画像から別の画像に遷移して新たなアート画像を合成することを意味する。

本開示は、文字生成モデルのトレーニング方法、文字生成方法、装置および機器を提供する。

本開示の一態様によれば、
第１ソースドメインサンプル字、およびコンテンツが前記第１ソースドメインサンプル字のコンテンツと異なる第１ターゲットドメインサンプル字を含む第１トレーニングサンプルを、文字生成モデルおよび予めトレーニングされた文字分類モデルを含むターゲットモデルに入力し、第１ロスを計算することと、
第２ソースドメインサンプル字、およびコンテンツが前記第２ソースドメインサンプル字のコンテンツと同じである第２ターゲットドメインサンプル字を含む第２トレーニングサンプルを、前記ターゲットモデルに入力し、第２ロスを計算することと、
前記第１ロスおよび前記第２ロスに基づいて前記文字生成モデルのパラメータを調整することとを含む、
文字生成モデルのトレーニング方法を提供する。

本開示の別の態様によれば、
ソースドメイン入力字を文字生成モデルのうちの第１生成モデルに入力し、ターゲットドメイン新字を取得することを含み、
前記文字生成モデルは、本開示のいずれかの実施例に記載の方法によるトレーニングで得られる、
文字生成方法を提供する。

本開示の別の態様によれば、
第１ソースドメインサンプル字、およびコンテンツが前記第１ソースドメインサンプル字のコンテンツと異なる第１ターゲットドメインサンプル字を含む第１トレーニングサンプルを、文字生成モデルおよび予めトレーニングされた文字分類モデルを含むターゲットモデルに入力し、第１ロスを計算するための第１ロス計算モジュールと、
第２ソースドメインサンプル字、およびコンテンツが前記第２ソースドメインサンプル字のコンテンツと同じである第２ターゲットドメインサンプル字を含む第２トレーニングサンプルを、前記ターゲットモデルに入力し、第２ロスを計算するための第２ロス計算モジュールと、
前記第１ロスおよび前記第２ロスに基づいて前記文字生成モデルのパラメータを調整するための第１パラメータ調整モジュールとを備える、
文字生成モデルのトレーニング装置を提供する。

本開示の別の態様によれば、
ソースドメイン入力字を文字生成モデルのうちの第１生成モデルに入力し、ターゲットドメイン新字を取得するための文字生成モジュールを備え、前記文字生成モデルが本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法に基づいて得られる、
文字生成装置を提供する。

本開示の別の態様によれば、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも１つのプロセッサが本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法または本開示のいずれかの実施例に記載の文字生成方法を実行可能であるように、前記少なくとも１つのプロセッサにより実行される、
電子機器を提供する。

本開示の別の態様によれば、
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法または本開示のいずれかの実施例に記載の文字生成方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体を提供する。

本開示の別の態様によれば、
プロセッサにより実行されると、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法を実現する、または本開示のいずれかの実施例に記載の文字生成方法を実行する、
コンピュータプログラムを提供する。

本開示の実施例は、文字生成モデルによって生成されるフォントの正確率を向上させることができる。

本開示に記載されたものは、本開示の実施例のキーとなるまたは重要な特徴を標識するためのものではなく、本開示の範囲を限定するものでもないことが理解されるべきである。本開示の他の特徴は、以下の明細書により容易に理解することができる。

図面は本形態をより良く理解するためのものであり、本開示を限定するものではない。

本開示の実施例に係る文字生成モデルのトレーニング方法の模式図である。本開示の実施例に係る文字生成モデルのトレーニング方法の模式図である。本開示の実施例に係る誤字ロスを用いて文字生成モデルにより生成された字を拘束する効果図である。本開示の実施例に係る特徴ロスを用いて文字生成モデルにより生成された字を拘束する効果図である。本開示の実施例に係る別の特徴ロスを用いて文字生成モデルにより生成された字を拘束する効果図である。本開示の実施例に係る異なる層の特徴ロスを用いて文字生成モデルにより生成された字を拘束する効果の比較図である。本開示の実施例に係る文字生成モデルのトレーニング方法の模式図である。本開示の実施例に係る第１トレーニングサンプルの文字生成モデルに基づくトレーニング方法の原理図である。本開示の実施例に係る第２トレーニングサンプルの文字生成モデルに基づくトレーニング方法の原理図である。本開示の実施例に係る文字生成モデルの構造原理図である。本開示の実施例に係る別の文字生成モデルの構造原理図である。本開示の実施例に係る生成ロスを用いて拘束される文字生成モデルのトレーニング方法の原理図である。本開示の実施例に係る第１生成モデルのトレーニング方法の模式図である。本開示の実施例に係る生成字の効果図である。本開示の実施例に係るサンプル字の効果図である。本開示の実施例に係る文字生成方法の模式図である。本開示の実施例に係る文字生成モデルのトレーニング装置の模式図である。本開示の実施例に係る文字生成装置の模式図である。本開示の実施例の文字生成モデルのトレーニング方法および／または文字生成方法を実現するための電子機器のブロック図である。

以下、図面を参照しながら本開示の例示的な実施例を詳細に説明し、ここで、理解の便宜上、本開示の実施例の様々な細かいコンテンツまで含まれているが、例示的なものに過ぎないと理解すべきである。従って、当業者であれば理解するであろうが、本開示の範囲および精神から逸脱しない限り、ここで説明する実施例に対して様々な変更や修正を行うことができる。同様に、以下の説明において、公知されている機能および構造の説明は、明確且つ簡潔にするために省略している。

図１は、本開示の実施例に係る文字生成モデルのトレーニング方法のフローチャートであり、本実施例は、文字生成モデルのトレーニングに適用でき、ここで、文字生成モデルは、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換する場合に使用される。本実施例の方法は、文字生成モデルのトレーニング装置により実行でき、該装置は、ソフトウェアおよび／またはハードウェアの方式で実現でき、具体的に、一定のデータ演算能力を持つ電子機器に構成され、該電子機器は、携帯電話、タブレットコンピュータ、車載端末およびデスクトップコンピュータ等のようなクライアント機器またはサーバ機器であってもよい。

Ｓ１０１において、第１トレーニングサンプルをターゲットモデルに入力し、第１ロスを計算する。前記ターゲットモデルは、文字生成モデルと予めトレーニングされた文字分類モデルとを備え、前記第１トレーニングサンプルは、第１ソースドメインサンプル字と第１ターゲットドメインサンプル字とを含み、前記第１ソースドメインサンプル字のコンテンツと前記第１ターゲットドメインサンプル字のコンテンツとは異なる。

文字生成モデルＣｙｃｌｅＧＡＮ（ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ、サイクル敵対的生成ネットワーク、サイクル生成ネットワークと略称される）は、ソースドメインとターゲットドメインとの間にスタイル変換を実現することに用いられる。文字分類モデルは、ロスを導入して文字生成モデルを拘束してトレーニングすることに用いられる。

本開示の実施例において、文字生成モデルは、２つの生成モデルおよび２つの判別モデルを含む。２つの生成モデルは、それぞれＧｅｎｅｒａｔｏｒＡ２ＢおよびＧｅｎｅｒａｔｏｒＢ２Ａであり、ＧｅｎｅｒａｔｏｒＡ２Ｂは、スタイルＡの画像をスタイルＢの画像に変換することに用いられ、ＧｅｎｅｒａｔｏｒＢ２Ａは、スタイルＢの画像をスタイルＡの画像に変換することに用いられる。２つの判別モデルは、それぞれＤｉｓｃｒｉｍｉｎａｔｏｒＡおよびＤｉｓｃｒｉｍｉｎａｔｏｒＢであり、ＤｉｓｃｒｉｍｉｎａｔｏｒＡは、変換後の画像がスタイルＡに属している画像であるか否かを判別することに用いられ、ＤｉｓｃｒｉｍｉｎａｔｏｒＢは、変換後の画像がスタイルＢに属している画像であるか否かを判別することに用いられる。

文字生成モデルのトレーニング過程において、２つの生成モデルのトレーニング目的は、ターゲットドメインスタイル（または、ソースドメインスタイル）を有する画像をできるだけ生成することであり、判別モデルのトレーニング目的は、生成モデルにより生成された画像と実のターゲットドメイン画像（またはソースドメイン画像）とをできるだけ区分することである。トレーニング過程において、生成モデルおよび判別モデルを更新して最適化し続けることにより、２つの生成モデルのスタイル変換を実現する能力はますます強くなり、且つ、２つの判別モデルの生成画像および実画像を判別する能力もますます強くなる。

本開示の実施例において、文字生成モデルは、ソースドメインとターゲットドメインとの間のスタイル変換を実現することに用いられる。ソースドメインサンプル字を文字生成モデルのＧｅｎｅｒａｔｏｒＡ２Ｂに入力し、ソースドメインサンプル字に対応するターゲットドメイン生成字を取得し、ターゲットドメインサンプル字を文字生成モデルのＧｅｎｅｒａｔｏｒＢ２Ａに入力し、ターゲットドメインサンプル字に対応するソースドメイン生成字を取得する。ここで、ソースドメインサンプル字およびソースドメイン生成字は、ソースドメインフォントスタイルを有する画像を意味してもよく、ソースドメインフォントスタイルは、文字の通常のフォントを意味してもよく、印刷フォントと呼ばれてもよく、例えば、中国語文字中の楷書体、宋朝体またはゴシック体等のフォント、また、アルファベット文字のタイムズニューローマン（ＴｉｍｅｓＮｅｗＲｏｍａｎ）またはＣａｌｉｂｒｉ等のフォントであり、更に、文字は、数字文字を含んでもよい。アルファベット文字は、英語、ドイツ語、ロシア語またはイタリア語等の文字を含んでもよく、ここでは具体的に限定しない。ターゲットドメイン生成字およびターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する画像を意味してもよい。ターゲットドメインフォントスタイルは、文字のユーザの手書きフォントスタイルまたは他のアート字フォントスタイルであってもよい。ソースドメインサンプル字と対応するターゲットドメイン生成字とは画像コンテンツが同じであり、スタイルタイプが異なる。ターゲットドメインサンプル字と対応するソースドメイン生成字とは画像コンテンツが同じであり、スタイルタイプが異なる。なお、本開示の実施例における字は、実際にいずれも文字を指す。

１つの具体的な例において、例えば、楷書体字「做」を含む画像を文字生成モデルに入力し、文字生成モデルは、手書き字「做」を含む画像を出力することができる。

文字分類モデルは、ターゲット生成字およびターゲットドメインサンプル字が誤字であるか否かを判別することに用いられる。例えば、予めトレーニングされた文字分類モデルは、ＶＧＧ１９（ＶｉｓｕａｌＧｅｏｍｅｔｒｙＧｒｏｕｐ１９）ネットワークを用いてトレーニングされるものであってもよい。文字分類モデルのトレーニングサンプルは、複数種のフォントを含む画像であってもよく、例えば、トレーニングサンプルは、８０種以上のフォントおよび６７００以上の字を含む約４５万枚の画像であってもよく、実験により、トレーニング済みの文字分類モデルは、該データセットで９８％の分類正確率を取得する。

第１サンプルグループは、コンテンツが異なる第１ソースドメインサンプル字および第１ターゲットドメインサンプル字を含み、コンテンツが異なる第１ソースドメインサンプル字および第１ターゲットドメインサンプル字のペアリングされていないデータをモデルの入力として用いてモデルをトレーニングし、モデルの未知フォント（トレーニングデータセットに属していない）に対するスタイル変換の能力を向上させ、未知フォントに対して正確なスタイル変換字を生成し、モデルの汎化能力を向上させ、且つ、トレーニングデータの数を増加し、モデルのスタイル変換の正確率を高め、トレーニングデータの生成コストを低減し、モデルのトレーニング効率を向上させることができる。

コンテンツが異なる第１ソースドメインサンプル字および第１ターゲットドメインサンプル字は、第１ソースドメインサンプル字に基づく必要がなく、第１ターゲットドメインサンプル字をランダムに取得することができるため、第１ソースドメインサンプル字および第１ターゲットドメインサンプル字は、ペアリングされていないサンプルペアとして理解でき、即ち、第１サンプルグループは、ペアリングされていないトレーニングサンプルである。

Ｓ１０２において、第２トレーニングサンプルを前記ターゲットモデルに入力し、第２ロスを計算する。前記第２トレーニングサンプルは、第２ソースドメインサンプル字と第２ターゲットドメインサンプル字とを含み、前記第２ソースドメインサンプル字のコンテンツと前記第２ターゲットドメインサンプル字のコンテンツとは同じである。

第２サンプルグループ内の第２ソースドメインサンプル字をターゲットモデルの文字生成モデルに入力し、第３ターゲットドメイン生成字を取得し、第３ターゲットドメイン生成字および第２ターゲットドメインサンプル字を文字分類モデルに入力し、第１ロスを計算する。第２トレーニングサンプルは、第２ソースドメインサンプル字および第２ターゲットドメインサンプル字を含み、第２ソースドメインサンプル字と第２ターゲットドメインサンプル字とはコンテンツおよびスタイルタイプがいずれも異なる。第２ソースドメインサンプル字と第２ターゲットドメインサンプル字と第３ターゲットドメイン生成字とはコンテンツが同じであり、第２ソースドメインサンプル字と第３ターゲットドメイン生成字とはスタイルタイプが異なり、第２ターゲットドメインサンプル字と第３ターゲットドメイン生成字とはスタイルタイプが同じである。

第２サンプルグループは、コンテンツが同じである第２ソースドメインサンプル字および第２ターゲットドメインサンプル字を含み、コンテンツが同じである第２ソースドメインサンプル字および第１ターゲットドメインサンプル字のペアリングされたデータをモデルの入力として用いてモデルをトレーニングし、モデルのスタイル変換を学習する能力を増加し、モデルのスタイル変換の正確率を高めることができる。

コンテンツが同じである第２ソースドメインサンプル字および第２ターゲットドメインサンプル字は、第２ソースドメインサンプル字に基づいて対応する第２ターゲットドメインサンプル字をクエリする必要があるため、第２ソースドメインサンプル字および第２ターゲットドメインサンプル字は、ペアリングされたサンプルペアとして理解でき、即ち、第２サンプルグループは、ペアリングされたトレーニングサンプルである。また、ターゲットドメインフォントスタイルはユーザの手書き字であり、それに対応し、対応する第２ターゲットドメインサンプル字をクエリする前に、ユーザが認可して提供したユーザの手書き字を取得する必要があり、トレーニングサンプルを生成する人件費を増加する。

Ｓ１０３において、前記第１ロスおよび前記第２ロスに基づいて前記文字生成モデルのパラメータを調整する。

第１ロスおよび第２ロスに基づいて文字生成モデルのパラメータを調整し、更新された文字生成モデルを取得する。次のグループのトレーニングサンプルに対し、更新された文字生成モデルを使用し、操作Ｓ１０１に戻ってトレーニングを繰り返し、予め設定されたトレーニング停止条件に達すると、文字生成モデルのパラメータの調整を停止し、トレーニング済みの文字生成モデルを取得する。トレーニング停止条件は、前述したロスの和が収束され、各ロスがいずれも収束され、または反復回数が設定回数閾値以上になる等を含んでもよい。

実世界の手書き字のスタイルが大きく異なるため、トレーニングで現実中の全ての状況を集中して含むことができない。トレーニングサンプルのカバー範囲が小さいため、これに基づいてトレーニングされたモデルの未知フォントに対するスタイル変換の能力が悪い。

本開示の技術案によれば、ペアリングされていない第１トレーニングサンプルおよびペアリングされた第２トレーニングサンプルに基づいてターゲットモデルのうちの文字生成モデルをトレーニングし、ペアリングされていない第１トレーニングサンプルを増加し、トレーニングサンプルの数および範囲を増加することにより、文字生成モデルの未知フォントに対するスタイル変換の能力を向上させ、モデルの汎化能力を向上させることができ、且つ、ペアリングされたトレーニングサンプルと組み合わせて文字生成モデルをトレーニングし、モデルのスタイル変換を正確に実現する能力の向上と、モデルのスタイル変換の正確率の高めとを両立させることができる。

図２は、本開示の実施例に係る別の文字生成モデルのトレーニング方法のフローチャートであり、上記技術案に基づいて更に最適化して拡張し、且つ、上記各好ましい実施形態と組み合わせることができる。前記文字生成モデルのトレーニング方法の最適化として、同じ数の第１トレーニングサンプルおよび第２トレーニングサンプルを含むトレーニング集合を取得し、前記トレーニング集合から第１トレーニングサンプルおよび第２トレーニングサンプルを抽出する。それに対応し、方法は、以下のステップを含む。

Ｓ２０１において、同じ数の第１トレーニングサンプルおよび第２トレーニングサンプルを含むトレーニング集合を取得する。

トレーニング集合は、ターゲットモデルをトレーニングするサンプルの集合であってもよく、具体的には、現在の反復ラウンドでターゲットモデルをトレーニングするサンプルの集合であってもよい。トレーニング過程において、ターゲットモデルに対して複数ラウンドのトレーニングを行う。反復ラウンド毎にいずれも対応するトレーニング集合が設定され、該反復ラウンドでターゲットモデルをトレーニングする。現在の反復ラウンドで、該現在の反復ラウンドに対応するトレーニング集合を取得してターゲットモデルをトレーニングすることができ、即ち、実際には、各反復ラウンドで同じ数の第１トレーニングサンプルおよび第２トレーニングサンプルを採用してターゲットモデルをトレーニングする。ここで、ターゲットモデルをトレーニングすることは、ターゲットモデルのうちの文字生成モデルをトレーニングすることであってもよい。

第１トレーニングサンプルはペアリングされていないデータであり、第２トレーニングサンプルはペアリングされたデータである。第２トレーニングサンプルに対し、文字生成モデルは、第２ソースドメインサンプル字とペアリングされた第２ターゲットドメインサンプル字との間の同じフォントのコンテンツ特徴を学習することができる。一方、第１トレーニングサンプルに対し、第１ソースドメインサンプル字と第１ターゲットドメインサンプル字との間のフォントのコンテンツ特徴が異なり、文字生成モデルはフォントのコンテンツ特徴を学習することができない。つまり、ペアリングされていない第１トレーニングサンプルの数が、ペアリングされた第２トレーニングサンプルの数よりも多く、トレーニングにおけるフォントのコンテンツ特徴の学習の占有率が小さく、モデルはフォントのコンテンツ特徴をトレーニングすることができない。第１トレーニングサンプルの数と第２トレーニングサンプルの数とを同じにすることにより、ペアリングされたデータとペアリングされていないデータとのバランスを取ることができ、汎化能力を向上させる上で、スタイルが変換するがコンテンツが変わらない正確率を向上させることを両立させる。

例示的には、トレーニング集合に含まれるグループ数が１０個であり、第１トレーニングサンプルのグループ数が５つであり、第２トレーニングサンプルのグループ数が５つである。

また、トレーニング集合に設定してもよく、前記トレーニング集合に含まれる第１トレーニングサンプルのグループ数が第２トレーニングサンプルのグループ数よりやや小さく、即ち、グループ数の差が予め設定されたグループ数の閾値以下であり、例えば、グループ数の閾値が２である。例示的には、トレーニング集合に含まれるグループ数が１０個であり、第１トレーニングサンプルの数が４つであり、第２トレーニングサンプルの数量が６つである。また、トレーニング集合に含まれるグループ数が１１個であり、第１トレーニングサンプルの数が５つであり、第２トレーニングサンプルの数が６つである。

Ｓ２０２において、前記トレーニング集合から第１トレーニングサンプルおよび第２トレーニングサンプルを抽出する。

トレーニング集合に含まれる第１トレーニングサンプルおよび第２トレーニングサンプルを取得し、並列または直列にターゲットモデルに入力し、文字生成モデルをトレーニングすることができる。

Ｓ２０３において、第１トレーニングサンプルをターゲットモデルに入力し、第１ロスを計算する。前記ターゲットモデルは、文字生成モデルと予めトレーニングされた文字分類モデルとを備え、前記第１トレーニングサンプルは、第１ソースドメインサンプル字と第１ターゲットドメインサンプル字とを含み、前記第１ソースドメインサンプル字のコンテンツと前記第１ターゲットドメインサンプル字のコンテンツとは異なる。

Ｓ２０４において、第２トレーニングサンプルを前記ターゲットモデルに入力し、第２ロスを計算する。前記第２トレーニングサンプルは、第２ソースドメインサンプル字と第２ターゲットドメインサンプル字とを含み、前記第２ソースドメインサンプル字のコンテンツと前記第２ターゲットドメインサンプル字のコンテンツとは同じである。

Ｓ２０５において、前記第１ロスおよび前記第２ロスに基づいて前記文字生成モデルのパラメータを調整する。

好ましくは、前記第１ロスは第１誤字ロスを含み、前記第２ロスは第２誤字ロスおよび特徴ロスを含む。

ここで、第１トレーニングサンプルをターゲットモデルに入力し、特徴ロスを計算しない。トレーニング集合において、第１トレーニングサンプルの占有率が第２トレーニングサンプルの占有率よりも大きい場合、総ロスにおける特徴ロスの占有率が小さく、文字生成モデルのトレーニングへの影響程度が小さく、文字生成モデルはターゲットドメインのフォント特徴の学習能力をトレーニングできない。これにより、トレーニング集合に同じ数の第１トレーニングサンプルおよび第２トレーニングサンプルを設定することにより、トレーニングデータ内のペアリングされたデータとペアリングされていないデータとのバランスを取ることができ、文字生成モデルは、ターゲットドメインのフォント特徴を良く学習し、スタイル変換の正確率を向上させることができる。誤字ロスは、文字生成モデルにより出力されたターゲットドメイン生成字の誤字率を拘束することに用いられ、具体的には、字と正確な字との間の差分を意味する。特徴ロスとは、サンプル字と生成字との間の差分を意味し、具体的には、実に手で書いた字とモデルの生成字との間の差分を意味する。

第１ソースドメインサンプル字を文字生成モデルに入力し、第１ターゲットドメイン生成字を取得し、第２ソースドメインサンプル字を文字生成モデルに入力し、第２ターゲットドメイン生成字を取得する。文字分類モデルは、ターゲットドメインサンプル字が誤字であるか否かを検出することに用いられる。第１トレーニングサンプルおよび第２トレーニングサンプルはいずれも誤字ロスを計算することができ、第１誤字ロスと第２誤字ロスとをまとめて誤字ロスと呼び、第１ターゲットドメイン生成字と第２ターゲットドメイン生成字とをまとめてターゲットドメイン生成字と呼んでもよい。ターゲットドメイン生成字を文字分類モデルに入力し、誤字ロスを計算する。

（ただし、Ｌ_Ｃは誤字ロスを表し、ｘ_ｉは、生成文字ベクトルにおける添え字がｉの要素を表し、ｙ_ｉは、標準文字ベクトルにおける添え字がｉの要素を表し、ｉは、０以上ｎ以下の整数であり、ｎは、生成文字ベクトルおよび標準文字ベクトルにおける要素数を表す。）

本開示の実施例によれば、誤字ロスは、文字生成モデルにより出力されたターゲットドメイン生成字の誤字率を拘束し、文字生成モデルの誤字を生成する確率を減少することができる。

第２トレーニングサンプルに対し、第２ターゲットドメインサンプル字および第２ターゲットドメイン生成字を文字分類モデルに入力し、特徴ロスを計算することができる。第２ターゲットドメイン生成字を文字分類モデルに入力し、文字分類モデルの特徴層により出力された生成特徴図を取得する。第２ターゲットドメインサンプル字を文字分類モデルに入力し、文字分類モデルの特徴層により出力されたサンプル特徴図を取得する。少なくとも１つの特徴層の生成特徴図とサンプル特徴図との間の差分に基づき、前記文字生成モデルの特徴ロスを計算する。

文字分類モデルは少なくとも１つの特徴層を備え、その中から少なくとも１つの特徴層を選択することができ、且つ、選択した任意の特徴層に対し、該特徴層の生成特徴図と該特徴層のサンプル特徴図との間の差分を計算することができる。該差分は、モデルの生成字と実に手で書いたサンプル字との類似程度を評価するために生成特徴図とサンプル特徴図との間の差分の程度を記述することに用いられる。該差分に基づいて特徴ロスを計算し、特徴の次元から、モデルの生成字と実に手で書いたサンプル字との間の異なる程度をより詳細に記述することができる。

ここで、選択した特徴層は、必要に応じて設定することができ、例えば、複数の特徴層のメジアン特徴層の生成特徴図とサンプル特徴図との間の差分を選択して前記文字生成モデルの特徴ロスを計算することができ、例えば、総数が９０個の特徴層の場合、メジアンは第４５の特徴層および第４６の特徴層である。選択した特徴層の数が１つである場合、特徴層の生成特徴図とサンプル特徴図との間の差分を直接特徴ロスとしてもよい。選択した特徴層の数が少なくとも２つである場合、複数の特徴層の差分を数値計算して特徴ロスを取得してもよく、ここで、数値計算は、加算、乗算または加重平均計算等であってもよい。

本開示の実施例によれば、特徴ロスは、文字生成モデルにより出力されたターゲットドメイン生成字とターゲットドメインサンプル字との類似程度を拘束し、文字生成モデルのスタイル変換の正確率を向上させることに使用できる。

好ましくは、前記特徴ロスを計算することは、前記文字分類モデルに含まれる少なくとも１つの特徴層内の各特徴層に対し、前記特徴層の生成特徴図とサンプル特徴図との間の画素差分を計算し、前記特徴層の画素ロスを取得することと、前記少なくとも１つの特徴層の画素ロスに基づき、特徴ロスを計算することとを含む。

同じ特徴層により出力された特徴図のサイズが同じであり、特徴図を構成する画素に基づいて画素差を計算し、画素次元から画像間の差分を計算して特徴層の画素ロスとすることができる。特徴層の画素ロスに基づいて特徴ロスを計算することは、具体的に、特徴層の数が１つである場合、画素ロスを特徴ロスとし、特徴層の数が少なくとも２つである場合、画素ロスの和を計算して特徴ロスとすることであってもよい。

例示的には、各特徴層の画素ロスは、Ｌ１ノルムロス関数により計算することができ、即ち、実の字と生成字における同じ位置の画素間の差分絶対値の総和を計算する。

生成特徴図とサンプル特徴図との間の画素差を、生成特徴図とサンプル特徴図との間の差分として画素ロスを計算し、特徴ロスを確定することにより、画素次元から特徴ロスを計算し、特徴ロスの計算精細粒度を制御し、画素詳細からモデルの生成字と実に手で書いたサンプル字との間の異なる程度を記述し、特徴ロスを計算して文字生成モデルのパラメータを調整することができ、文字生成モデル学習は更に細分化されたサンプル字のフォントスタイル詳細を学習し、文字生成モデルの生成字の正確率を向上させる。

好ましくは、前記計算該特徴層の生成特徴図とサンプル特徴図との間の画素差は、前記特徴層の生成特徴図における各位置の画素点毎に、前記画素点の画素値と前記サンプル特徴図における対応する位置の画素点の画素値との間の差分値の絶対値を計算し、各位置の画素点の違いを取得し、複数の位置の画素点の違いに基づき、前記特徴層の生成特徴図とサンプル特徴図との間の画素差を確定する。

該特徴層に対し、同じ位置の生成特徴図における画素点の画素値とサンプル特徴図における画素点の画素値との差分値の絶対値を計算し、該位置の画素点の違いとして確定する。生成特徴図とサンプル特徴図とのサイズが同じであり、特徴図に含まれる画素数も同じであり、即ち、特徴図に含まれる位置の数が同じであり、複数の位置の画素点の差分の和を該特徴層の生成特徴図とサンプル特徴図との間の画素差として確定する。複数の位置は、該特徴図から出力された特徴図に含まれる全ての位置であってもよいし、選別された一部の位置であってもよい。

１つの具体的な例において、生成特徴図およびサンプル特徴図のサイズはいずれも６４＊６４であり、４０９６個の位置を含み、位置毎に生成特徴図の画素点とサンプル特徴図の画素点との間の画素値の差分値の絶対値を計算して４０９６個の差分値の絶対値を取得することができ、４０９６個の差分値の絶対値の和を統計し、該特徴層の生成特徴図とサンプル特徴図との間の画素差を取得する。なお、画素差は、実際にＬ１ノルムロス関数で計算され、Ｌ１ノルムロス関数の要素は、特徴図におけるｉ個目の位置の画素点の画素値である。

２つの特徴図の各位置の対応する画素点間の画素値の差分値の絶対値を計算することにより、複数の位置の絶対値に基づき、該特徴層の画素差を確定し、同じ位置の画素点の画素値をＬ１ノルムロス関数の要素としてＬ１ノルムロスを計算し、文字生成モデルのロバスト性を向上させることができる。

本開示の技術案によれば、文字分類モデルにおける少なくとも１つの特徴図の生成特徴図とサンプル特徴図との間の差分を計算することにより、特徴ロスを確定し、特徴の次元からモデルの生成字と実に手で書いたサンプル字との間の異なる程度をより詳細に記述することができ、該異なる程度により計算される特徴ロスに基づいて文字生成モデルのパラメータを調整し、文字生成モデルに、実に手で書いたサンプル字のより多くのフォント詳細を学習させ、最終的に文字生成モデルの生成字を実に手で書いたサンプル字により類似させ、文字生成モデルの生成字の正確率を向上させることができる。

本開示の技術案によれば、各反復ラウンドのトレーニングで同じ数の第１トレーニングサンプルおよび第２トレーニングサンプルを使用してターゲットモデルにおける文字生成モデルをトレーニングするように設定することにより、ペアリングされたデータとペアリングされていないデータとのバランスを保持することができ、文字生成モデルの汎化能力を向上させるとともに、ペアリングされたデータにおける同じフォントのコンテンツ特徴を学習することを両立させ、スタイルが変換するがコンテンツが変わらない正確率を高める。

図３は、本開示の一実施例による誤字ロスを使用する効果の比較図である。図３に示すように、画像３０１は、誤字ロスを用いて文字生成モデルを拘束することがない場合に生成された手書き字「伶」、「暗」、「博」および「撼」を含む画像である。画像３０２は、誤字ロスを用いて文字生成モデルを拘束する場合に生成された手書き字「伶」、「暗」、「博」および「撼」を含む画像。画像３０１における「伶」、「暗」、「博」および「撼」字は、それぞれ正確な「伶」、「暗」、「博」および「撼」字と比べて１つの点が少ないが、画像３０２における「伶」、「暗」、「博」および「撼」字は正確な「伶」、「暗」、「博」および「撼」字である。従い、誤字ロスを用いて文字生成モデルを拘束することにより、正確な字を学習し、誤字率を低減することができる。

図４は、本開示の実施例に係る一実施例の特徴ロスを用いて文字生成モデルを拘束する可視化効果図である。図４に示すように、第２ターゲットドメインサンプル字４０１は、実の手書き字「神」を含む画像であり、即ち、第２ターゲットドメインサンプル字４０１内の「神」字は、ユーザが実に手で書いた字である。第２ターゲットドメイン生成字４０２は、文字生成モデルにより生成された手書き字「神」を含む画像であり、第２ターゲットドメインサンプル字４０１および第２ターゲットドメイン生成字４０２のサイズはいずれも２５６＊２５６である。第２ターゲットドメインサンプル字４０４は、実の手書き字「褂」を含む画像であり、即ち、第２ターゲットドメインサンプル字４０４内の「褂」字は、ユーザが実に手で書いた字である。第２ターゲットドメイン生成字４０５は、文字生成モデルにより生成された手書き字「褂」を含む画像であり、第２ターゲットドメインサンプル字４０１、ターゲットドメイン生成字４０２、第２ターゲットドメインサンプル字４０４および第２ターゲットドメイン生成字４０５のサイズはいずれも２５６＊２５６である。第２ターゲットドメインサンプル字４０１、第２ターゲットドメイン生成字４０２、第２ターゲットドメインサンプル字４０４および第２ターゲットドメイン生成字４０５を文字分類モデルに入力し、文字分類モデルの第１プリセット層（例えば、第３０特徴層）でサンプル特徴図およびサンプル特徴図をそれぞれ出力し、サンプル特徴図およびサンプル特徴図のサイズはいずれも６４＊６４であり、この２枚の６４＊６４の画像の画素差を計算した後、該２枚の画像間の差分を表すヒートマップ４０３および４０６を取得する。ヒートマップ４０３および４０６も６４＊６４の画像であり、ヒートマップ４０３における色が濃いところほど、第２ターゲットドメインサンプル字４０１と第２ターゲットドメイン生成字４０２との間の差が大きいことを表し、ヒートマップ４０６における色が濃いところほど、第２ターゲットドメインサンプル字４０４と第２ターゲットドメイン生成字４０５との間の差が大きいことを表し、文字生成モデルは、ヒートマップ４０３および４０６における色が濃い部位の特徴を学習することに更に集中し、文字生成モデルの特徴を学習する能力を向上させることができる。

図５は、本開示の実施例に係る別の実施例の特徴ロスを用いて文字生成モデルを拘束する可視化効果図である。図５に示すように、ターゲットドメインサンプル字５０１、ターゲットドメイン生成字５０２、ターゲットドメインサンプル字５０４およびターゲットドメイン生成字５０５を文字分類モデルに入力し、文字分類モデルの第２プリセット層（例えば、第３１特徴層）でサンプル特徴図およびサンプル特徴図をそれぞれ出力し、サンプル特徴図およびサンプル特徴図のサイズはいずれも３２＊３２であり、この２枚の３２＊３２の画像の画素差を計算した後、該２枚の画像の間の差分を表すヒートマップ５０３および５０６を取得する。ヒートマップ５０３および５０６も３２＊３２の画像であり、ヒートマップ５０３における色が濃いところほど、ターゲットドメインサンプル字５０１とターゲットドメイン生成字５０２との間の差が大きいことを表し、ヒートマップ５０６における色が濃いところほど、ターゲットドメインサンプル字５０４とターゲットドメイン生成字５０５との間の差が大きいことを表し、文字生成モデルは、ヒートマップ５０３および５０６における色が濃い部位の特徴を学習することに更に集中し、文字生成モデルの特徴を学習する能力を向上させることができる。

文字生成モデルは、ヒートマップ４０３および５０３と合わせ、ターゲットドメインサンプル字４０１とターゲットドメイン生成字４０２との間の差が大きい特徴を学習し、且つ、ターゲットドメインサンプル字５０１とターゲットドメイン生成字５０２との間の差が大きい特徴を学習することができ、ヒートマップ４０６および５０６と合わせ、ターゲットドメインサンプル字４０４とターゲットドメイン生成字４０５との間の差が大きい特徴を学習し、ターゲットドメインサンプル字５０４とターゲットドメイン生成字５０５との間の差が大きい特徴を学習することができ、文字生成モデルの特徴を学習する能力を向上させることが理解できる。

図７は、本開示の実施例に係る別の文字生成モデルのトレーニング方法のフローチャートであり、上記技術案に基づいて更に最適化して拡張し、且つ、上記各好ましい実施形態と組み合わせることができる。前記第１ロスを計算することは、具体的に、第１トレーニングサンプルを前記文字生成モデルに入力し、第１ターゲットドメイン生成字を取得し、前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字生成モデルの第１誤字ロスを計算することである。それに対応し、方法は、以下のステップを含む。

Ｓ７０１において、第１トレーニングサンプルをターゲットモデルのうちの文字生成モデルに入力し、第１ターゲットドメイン生成字を取得する。前記ターゲットモデルは、文字生成モデルと予めトレーニングされた文字分類モデルとを備え、前記第１トレーニングサンプルは、第１ソースドメインサンプル字と第１ターゲットドメインサンプル字とを含み、前記第１ソースドメインサンプル字のコンテンツと前記第１ターゲットドメインサンプル字のコンテンツとは異なる。

Ｓ７０２において、前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字生成モデルの第１誤字ロスを計算する。

第１トレーニングサンプルに対し、文字分類モデルは特徴ロスを計算しない。トレーニング集合に第１トレーニングサンプルおよび第２トレーニングサンプルを予めマークし、第１トレーニングサンプルと第２トレーニングサンプルとの区分を実現することができ、第１トレーニングサンプル内の第１ターゲットドメインサンプル字を文字分類モデルに入力せず、文字分類モデルは、第１ターゲットドメインサンプル字に対して特徴ロスを計算せず、第１ターゲットドメイン生成字だけに基づいて特徴ロスを計算しない。

Ｓ７０３において、第２トレーニングサンプルを前記ターゲットモデルに入力し、第２ロスを計算する。前記第２トレーニングサンプルは、第２ソースドメインサンプル字と第２ターゲットドメインサンプル字とを含み、前記第２ソースドメインサンプル字のコンテンツと前記第２ターゲットドメインサンプル字のコンテンツとは同じである。

それに対応し、第２トレーニングサンプルを文字生成モデルに入力し、第２ターゲットドメイン生成字を取得し、第２ターゲットドメイン生成字を文字分類モデルに入力し、文字生成モデルの第２誤字ロスを計算する。第２ターゲットドメインサンプル字および第２ターゲットドメイン生成字を文字分類モデルに入力し、特徴ロスを計算する。

Ｓ７０４において、前記第１ロスおよび前記第２ロスに基づいて前記文字生成モデルのパラメータを調整する。

好ましくは、前記文字生成モデルは第１生成モデルおよび第２生成モデルを含み、前記第１トレーニングサンプルを文字生成モデルに入力し、第１ターゲットドメイン生成字を取得することは、第１ソースドメインサンプル字を前記第１生成モデルに入力し、前記第１ターゲットドメイン生成字を取得することを含む。前記方法は、前記第１ターゲットドメイン生成字を前記第２生成モデルに入力し、第１ソースドメイン生成字を取得することと、前記第１ターゲットドメインサンプル字を前記第２生成モデルに入力し、第２ソースドメイン生成字を取得し、前記第２ソースドメイン生成字を前記第１生成モデルに入力し、第２ターゲットドメイン生成字を取得することと、前記第１トレーニングサンプル、前記第１ターゲットドメイン生成字、前記第１ソースドメイン生成字、前記第２ターゲットドメイン生成字、および前記第２ソースドメイン生成字に基づき、前記文字生成モデルの第１生成ロスを計算することと、前記第１生成ロスに基づいて前記第１生成モデルのパラメータを調整することとを更に含む。

文字生成モデルは、第１生成モデル、第２生成モデル、第１判別モデルおよび第２判別モデルを含む。第１生成モデルは、ソースドメインフォントスタイルの画像をターゲットドメインフォントスタイルの画像に変換することに用いられ、第２生成モデルは、ターゲットドメインフォントスタイルの画像をソースドメインフォントスタイルの画像に変換することに用いられる。第１判別モデルは、変換後の画像がソースドメインフォントスタイルの画像に属しているか否かを判別することに用いられ、第２判別モデルは、変換後の画像がターゲットドメインフォントスタイルの画像に属しているか否かを判別することに用いられる。

上記文字生成モデルの構造に基づき、文字生成モデルは２つのサイクル作業過程を含んでもよい。文字生成モデルの１つ目のサイクル作業過程として、第１ソースドメインサンプル字を第１生成モデルに入力し、第１ターゲットドメイン生成字を取得し、第１ターゲットドメイン生成字を第２生成モデルに入力し、第１ソースドメイン生成字を取得する。文字生成モデルの２つ目のサイクル作業過程として、第１ターゲットドメインサンプル字を第２生成モデルに入力し、第２ソースドメイン生成字を取得し、第２ソースドメイン生成字を第１生成モデルに入力し、第２ターゲットドメイン生成字を取得する。

実際には、文字生成モデルは生成モデルおよび判別モデルを含み、それに対応し、文字生成モデルのロスは生成ロスおよび判別ロスを含む。ここで、判別ロスは、判別モデルをトレーニングすることに用いられ、生成ロスは、生成モデルをトレーニングすることに用いられ、文字生成モデルのうちの最終的に画像のスタイル変換に使用されるモデルが生成モデルであり、即ち、生成モデルのトレーニングを行うために生成ロスを計算する必要がある。実際には、第１ロスは第１生成ロスを更に含み、第２ロスは第２生成ロスを更に含むと理解されてもよい。第２トレーニングサンプルを例として、文字生成モデルは、更に生成ロスを計算することに用いられ、実際には、第１トレーニングサンプルを文字生成モデルに入力して同様に生成ロスを計算し、ここでは説明を省略する。ここで、生成ロスとは、判別モデルが字を生成字とサンプル字とに分類する分類結果と真値分類結果との間の差分、およびサンプル字と生成字との間の差分を意味してもよい。

以下、第１トレーニングサンプルに対し、文字生成モデルの生成ロスおよび判別ロスについて説明する。実際には、第２トレーニングサンプルも同様の原理であり、ここでは説明を省略する。

文字生成モデルの１つ目のサイクル作業過程は以下のとおりである。第１ソースドメインサンプル字（例えば、楷書体字を含む画像であり、楷書体字の画像と略称される）を第１生成モデルに入力し、第１ターゲットドメイン生成字（例えば、手書き字を含む画像であり、手書き字の画像と略称される）を取得する。第１ターゲットドメイン生成字（手書き字の画像）を第２生成モデルに入力し、第１ソースドメイン生成字（楷書体字の画像）を取得する。

１つ目のサイクル作業過程において、第１ソースドメインサンプル字は実の楷書体字の画像である一方、第１ソースドメイン生成字はモデルにより生成された楷書体字の画像であり、偽の楷書体字の画像と呼ばれてもよい。第１ターゲットドメイン生成字は、モデルにより生成された手書き字の画像であり、偽の手書き字の画像と呼ばれてもよい。トレーニング過程において、第１ソースドメインサンプル字を真Ｒｅａｌ（例えば、値が１）とマークし、第１ターゲットドメイン生成字を偽Ｆａｋｅ（例えば、値が０）とマークしてもよい。

第１ソースドメインサンプル字を第１判別モデルに入力し、第１判別モデルの所望の出力が１であるはずである。第１判別モデルの実際の出力がＸであり、平均二乗誤差を用いて第１判別モデルのロスを計算すると、第１判別モデルの一部のロスは、（Ｘ－１）^２と表すことができる。

第１ターゲットドメイン生成字を第２判別モデルに入力し、第２判別モデルの所望の出力が０であるはずである。第２判別モデルの実際の出力がＹ^＊（区分しやすいために、＊が付いているパラメータで該パラメータがモデルにより生成された画像に関連することを表し、＊が付いていないパラメータで該パラメータが実の画像に関連することを表す）であり、平均二乗誤差を用いて第２判別モデルのロスを計算すると、第２判別モデルの一部のロスは、（Ｙ^＊－１）^２と表すことができる。

第１ターゲットドメイン生成字を第２判別モデルに入力し、第１生成モデルの所望の第２判別モデルの出力が１である。第２判別モデルの実際の出力がＹ^＊であり、平均二乗誤差を用いて第１生成モデルのロスを計算すると、第１生成モデルの一部のロスは、（Ｙ^＊－１）^２と表すことができる。

第１ソースドメインサンプル字を第１生成モデルに入力して得られた第１ソースドメイン生成字は、スタイルだけが変換し、コンテンツが変わらないことを確保するために、第１生成モデルに対して１つのサイクル一致性ロス（ｃｙｃｌｅ－ｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓ）を追加することができる。該ロスは、第１ソースドメインサンプル字と第１ソースドメイン生成字との間の差分により計算され得る。例えば、第１ソースドメインサンプル字と第１ソースドメイン生成字という２枚の画像の対応する各画素点の画素値を差分し、絶対値を求め、各画素点の差分を取得し、全ての画素点の差分を加算して第１生成モデルのサイクル一致性ロスを取得し、Ｌ１_Ａ２Ｂと記すことができる。

従い、第１生成モデルの一部のロスは（Ｙ^＊－１）^２であり、別の一部のロスはＬ１_Ａ２Ｂであり、この２つの部分のロスの和を第１生成モデルのロス全体Ｌ_Ａ２Ｂとし、第１生成モデルのロス全体Ｌ_Ａ２Ｂは、以下のような式（２）で表すことができる。

文字生成モデルの２つ目のサイクル作業過程は以下のとおりである。第１ターゲットドメインサンプル字（例えば、手書き字を含む画像であり、手書き字の画像と略称される）を第２生成モデルに入力し、第２ソースドメイン生成字（例えば、楷書体字を含む画像であり、楷書体字の画像と略称される）を取得する。第２ソースドメイン生成字（楷書体字の画像）を第１生成モデルに入力し、第２ターゲットドメイン生成字（手書き字の画像）を取得する。

２つ目のサイクル作業過程において、第１ターゲットドメインサンプル字は実に手で書いた字の画像であり、第２ターゲットドメイン生成字はモデルにより生成された手書き字の画像であり、偽の手書き字の画像と呼ばれてもよい。第２ソースドメイン生成字は、モデルにより生成された楷書体字の画像であり、偽の楷書体字の画像と呼ばれてもよい。トレーニング過程において、第１ターゲットドメインサンプル字を真Ｒｅａｌ（例えば、値が１）とマークし、第２ソースドメイン生成字を偽Ｆａｋｅ（例えば、値が０）とマークしてもよい。

第１ターゲットドメインサンプル字を第２判別モデルに入力し、第２判別モデルの所望の出力が１であるはずであり、第２判別モデルの実際の出力がＹであり、平均二乗誤差を用いて第２判別モデルのロスを計算すると、第２判別モデルの一部のロスは、（Ｙ－１）^２と表すことができる。

第２ソースドメイン生成字を第１判別モデルに入力し、第１判別モデルの所望の出力が０であるはずである。第１判別モデルの実際の出力がＸ^＊であり、平均二乗誤差を用いて第１判別モデルのロスを計算すると、第１判別モデルの一部のロスは（Ｘ^＊－０）^２と表すことができる。

第２ソースドメイン生成字を第１判別モデルに入力し、第２生成モデルの所望の第１判別モデルの出力が１である。第１判別モデルの実際の出力がＸ^＊であり、平均二乗誤差を用いて第２生成モデルのロスを計算すると、第２生成モデルの一部のロスは（Ｘ^＊－１）^２と表すことができる。

第１ターゲットドメインサンプル字を第２生成モデルに入力して得られた第２ターゲットドメイン生成字は、スタイルだけが変換し、コンテンツが変わらないことを確保するために、第２生成モデルに対して１つのｃｙｃｌｅ－ｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓを追加することができる。該ロスは、第１ターゲットドメインサンプル字と第２ターゲットドメイン生成字との間の差分により計算され得る。例えば、第１ターゲットドメインサンプル字と第２ターゲットドメイン生成字という２枚の画像の対応する各画素点の画素値を差分し、絶対値を求め、各画素点の差分を取得し、全ての画素点の差分を加算して第２生成モデルのサイクル一致性ロスを取得し、Ｌ１_Ｂ２Ａと記すことができる。

従い、第２生成モデルの一部のロスは（Ｘ^＊－１）^２であり、別の一部のロスはＬ１_Ｂ２Ａであり、この２つの部分のロスの和を第２生成モデルのロス全体Ｌ_Ｂ２Ａとし、第２生成モデルのロス全体Ｌ_Ｂ２Ａは、以下のような式（３）で表すことができる。

第１生成モデルのロス全体Ｌ_Ａ２Ｂと第２生成モデルのロス全体Ｌ_Ｂ２Ａとの和は、文字生成モデルの生成ロスとすることができ、生成ロスは、以下のような式（４）で表すことができる。

（ただし、Ｌ_Ｇは、文字生成モデルの生成ロスを表すことができ、第１生成モデルおよび第２生成モデルのパラメータを調整することに使用できる。）

文字生成モデルの判別ロスは、第１判別モデルの判別ロスおよび第２判別モデルの判別ロスを含む。

第１判別モデルの一部のロスが（Ｘ－１）^２であると計算し、第１判別モデルの別の一部のロスが（Ｘ^＊－０）^２であると計算すると、２つの部分のロスの和は、第１判別モデルの判別ロスとすることができ、第１判別モデルの判別ロスＬ_Ａは、以下のような式（５）で表すことができる。

第１判別モデルの判別ロスＬ_Ａは、第１判別モデルのパラメータを調整することに使用できる。

同様に、第２判別モデルの一部のロスが（Ｙ^＊－０）^２と計算し、第２判別モデルの別の一部のロスが（Ｙ^＊－１）^２と計算すると、２つの部分のロスの和を第２判別モデルの判別ロスとすることができ、第２判別モデルの判別ロスＬ_Ｂは、以下のような式（６）で表すことができる。

第２判別モデルの判別ロスＬ_Ｂは、第２判別モデルのパラメータを調整することに使用できる。

生成ロスを用いて第１生成モデルを拘束することにより、第１生成モデルにより出力された画像のフォントスタイルがターゲットドメインフォントスタイルによりフィットし、ターゲットドメインフォントスタイルが手書き字である場合、生成字のフォントスタイルが実に手で書いた字のフォントスタイルとほぼ一致することができ、出力された手書き字のリアリティを向上させ、スタイル変換の正確率を高める。

好ましくは、前記第１ロスおよび前記第２ロスに基づいて前記文字生成モデルのパラメータを調整することは、前記第１ロスおよび前記第２ロスに基づいて前記第１生成モデルのパラメータを調整することを含む。

実際には、トレーニング済みの文字生成モデルのうちの第１生成モデルは、スタイルが変換する文字生成に適用される。第１生成モデルは、画像のソースドメインスタイルからターゲットドメインスタイルへの変換を実現することに用いられる。第１ロスおよび第２ロスにより第１生成モデルを調整し、画像のソースドメインスタイルからターゲットドメインスタイルへの変換の正確率を正確に実現することができる。

好ましくは、前記ソースドメインサンプル字は、ソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する画像である。

ソースドメインサンプル字は、ソースドメインフォントスタイルを有する字により生成された画像である。ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する字により生成された画像である。ソースドメインフォントスタイルとターゲットドメインフォントスタイルとは異なる。例示的には、ソースドメインフォントスタイルは印刷フォントであり、例えば、中国語文字のフォントの場合、ソースドメインフォントスタイルは宋朝体、楷書体、ゴシック体または隷書体等であり、ターゲットドメインフォントスタイルは、ユーザが実に手で書いたフォントスタイル等のアートフォントスタイルである。

ソースドメインサンプル字がソースドメインフォントスタイルを有する画像で、ターゲットドメインサンプル字がターゲットドメインフォントスタイルを有する画像であるように設定することにより、異なるフォントスタイルの変換を実現し、新たなスタイルのフォント数を増加することができる。

第１生成モデルを用いてソースドメインサンプル字に基づいてターゲットドメイン生成字を生成することにより、複数種のスタイルのフォント生成を実現することができ、サイクル一致性ロスを導入し、第１生成モデルがモデルにより生成された字とターゲット字との間の画素レベルの差分を低減することを向上させるとともに、判別モデルを用いて生成ロスを導入し、モデルにより生成された字のフォントスタイルをターゲットドメインのフォントスタイルにより合わせ、且つ、文字分類モデルを用いて誤字ロスおよび特徴ロスを導入することにより、第１生成モデルのフォント特徴を学習する能力を向上させ、誤字を生成する確率を低減することができる。

図８は、本開示の実施例に係る第１トレーニングサンプルの文字生成モデルに基づくトレーニング方法の原理図であり、図８に示すように、第１トレーニングサンプルにおける第１ソースドメインサンプル字８０１を文字生成モデル８１０に入力し、第１ターゲットドメイン生成字８０２を取得し、第１ターゲットドメイン生成字８０２および第１トレーニングサンプルにおける第１ターゲットドメインサンプル字８０３を文字分類モデル８２０に入力し、第１誤字ロス８２０１を計算する。

図９は、本開示の実施例に係る第２トレーニングサンプルの文字生成モデルに基づくトレーニング方法の原理図であり、図９に示すように、第２トレーニングサンプルにおける第２ソースドメインサンプル字９０１を文字生成モデル９１０に入力し、第２ターゲットドメイン生成字９０２を取得し、第２ターゲットドメイン生成字９０２および第２トレーニングサンプルにおける第２ターゲットドメインサンプル字９０３を文字分類モデル９２０に入力し、第２誤字ロス９２０１および特徴ロス９２０２を計算する。

図１０は、本開示の実施例に係る文字生成モデルの構造原理図である。図１１は、本開示の実施例に係る別の文字生成モデルの構造原理図である。図１０および図１１は、実際に文字生成モデルの２つのサイクル作業過程の原理図である。

図１０に示すように、文字生成モデル１０１０は、第１生成モデル１０１１、第２生成モデル１０１２、第１判別モデル１０１３および第２判別モデル１０１４を含む。図１０は、文字生成モデル１０１０の１つ目のサイクル作業過程を示す。第１ソースドメインサンプル字１００１を第１生成モデル１０１１に入力し、第１ターゲットドメイン生成字１００２を取得し、第１ターゲットドメイン生成字を第２生成モデル１０１２に入力し、第１ソースドメイン生成字１００３を取得する。第１ソースドメインサンプル字１００１を第１判別モデル１０１３に入力し、第１判別モデル１０１３の所望の出力が１であるはずである。第１判別モデル１０１３の実際の出力がＸであり、平均二乗誤差を用いて第１判別モデルのロスを計算すると、第１判別モデル１０１３の一部のロスは、（Ｘ－１）^２と表すことができる。第１ターゲットドメイン生成字１００２を第２判別モデル１０１４に入力し、第２判別モデル１０１４の所望の出力が０であるはずである。第２判別モデル１０１４の実際の出力がＹ^＊であり、平均二乗誤差を用いて第２判別モデル１０１４のロスを計算すると、第２判別モデルの一部のロスは、（Ｙ^＊－０）^２と表すことができる。第１ターゲットドメイン生成字１００３を第２判別モデル１０１４に入力し、第１生成モデル１０１１の所望の第２判別モデル１０１４の出力が１である。第２判別モデル１０１４の実際の出力がＹ^＊であり、平均二乗誤差を用いて第１生成モデル１０１１のロスを計算すると、第１生成モデル１０１１の一部のロスは、（Ｙ^＊－１）^２と表すことができる。

図１１に示すように、文字生成モデル１１１１は、第１生成モデル１１１１、第２生成モデル１１１２、第１判別モデル１１１３および第２判別モデル１１１４を含む。図１１は、文字生成モデル１１１０の２つ目のサイクル作業過程を示す。第１ターゲットドメインサンプル字１１０１を第２生成モデル１１１２に入力し、第２ソースドメイン生成字１１０２を取得し、第２ソースドメイン生成字１１０１を第１生成モデル１１１１に入力し、第２ターゲットドメイン生成字１１０３を取得する。第１ターゲットドメインサンプル字１１０１を第２判別モデル１１１４に入力し、第２判別モデル１１１４の所望の出力が１であるはずであり、第２判別モデル１１１４の実際の出力がＹであり、平均二乗誤差を用いて第２判別モデル１１１４のロスを計算すると、第２判別モデル１１１４の一部のロスは、（Ｙ－１）^２と表すことができる。第２ソースドメイン生成字１１０２を第１判別モデル１１１３に入力し、第１判別モデル１１１３の所望の出力が０であるはずである。第１判別モデル１１１３の実際の出力がＸ^＊であり、平均二乗誤差を用いて第１判別モデル１１１３のロスを計算すると、第１判別モデル１１１３の一部のロスは、（Ｘ^＊－０）^２と表すことができる。第２ソースドメイン生成字１１０３を第１判別モデル１１１３に入力し、第２生成モデル１１１２の所望の第１判別モデル１１１３の出力が１である。第１判別モデル１１１３の実際の出力がＸ^＊であり、平均二乗誤差を用いて第２生成モデル１１１２のロスを計算すると、第２生成モデル１１１２の一部のロスは、（Ｘ^＊－１）^２と表すことができる。

図１２は、本開示の実施例に係る生成ロスを用いて拘束される文字生成モデルのトレーニング方法の原理図であり、図１２に示すように、第２トレーニングサンプル１２０１を例とし、文字生成モデル１２１０は、更に生成ロス１２１０１を計算することに用いられ、実際には、第１トレーニングサンプルを文字生成モデル１２１０に入力して同様に生成ロスを計算するが、特徴ロスを計算しないため、ここでは説明を省略する。

図１３は、本開示の実施例に係る第１生成モデルのトレーニング方法の模式図であり、図１３に示すように、１つの反復ラウンドにおいて、第１トレーニングサンプルの漢字を第１生成モデルに入力し、第１ロスを取得し、第１生成モデルを調整し、第２トレーニングサンプルの漢字を第１生成モデルに入力し、第２ロスを取得し、第１生成モデルを調整する。それと同時に、第１トレーニングサンプルと第２トレーニングサンプルとの数の比を１：１に調整することができ、それに対応し、図１３に示すように、漢字１、漢字３、漢字５、漢字７および漢字９は第１トレーニングサンプルであり、漢字２、漢字４、漢字６、漢字８および漢字１０は第２トレーニングサンプルであり、それぞれ第１生成モデルに入力し、計算して得た第１ロスの数と第２ロスの数が１：１である。第１ロスは第１生成ロスおよび第１誤字ロスを含んでもよく、第２ロスは第２生成ロス、第２誤字ロスおよび特徴ロスを含んでもよい。第１ロスおよび第２ロスに基づいて第１生成モデルを調整し、第１生成モデルの汎化能力を向上させ、スタイル変換の正確率を両立させることができる。

図１４は、本開示の実施例に係る生成字の効果図であり、図１５は、本開示の実施例に係るサンプル字の効果図である。図１４～図１５に示すように、図１４に示す字は、第１生成モデルにより生成された字であり、図１５に示す字は、ユーザが実に手で書いた字であり、図１４における字は、ユーザが実に手で書いた字のフォントスタイルを有する。図１４における生成字のフォントスタイルと図１５における実に手で書いた字のフォントスタイルとがほぼ一致し、且つ、崩した手書き字に対し、スタイル遷移モデルも正確な字を生成することができる。

図１６は、本開示の実施例に係る文字生成方法のフローチャートであり、本実施例は、文字生成モデルをトレーニングすることにより、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換し、新字を生成する場合に適用される。本実施例の方法は、文字生成装置で実行することができ、該装置は、ソフトウェアおよび／またはハードウェアの方式で実現でき、具体的に、一定のデータ演算能力を持つ電子機器に構成され、該電子機器は、携帯電話、タブレットコンピュータ、車載端末和デスクトップコンピュータ等のようなクライアント機器、またはサーバ機器であってもよい。

Ｓ１６０１において、ソースドメイン入力字を文字生成モデルのうちの第１生成モデルに入力し、ターゲットドメイン新字を取得する。ここで、前記文字生成モデルは、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる。

ソースドメイン入力字は、ターゲットドメインフォントスタイルに変換する必要がある字で形成された画像を意味してもよい。

文字生成モデルは、文字生成モデルのトレーニング方法によるトレーニングで得られるものである。ターゲットドメイン新字とは、ソースドメイン入力字に対応するコンテンツのターゲットドメインフォントスタイルの字を意味してもよい。例えば、ソースドメイン入力字が楷書体字の画像であり、ターゲットドメイン新字が手書き字の画像であり、楷書体字の画像を文字生成モデルに入力し、ターゲットドメイン新字である手書き字の画像を取得することができる。

ターゲットドメイン新字を取得した場合、ターゲットドメイン新字に基づいて字ライブラリを確立することができる。例えば、文字生成モデルにより生成された新字を記憶し、手書きフォントスタイルを有する字ライブラリを確立し、該字ライブラリは入力法に適用でき、ユーザは、該字ライブラリに基づく入力法を使用し、手書きフォントスタイルを有する字を直接取得することができ、ユーザの多様化のニーズを満たすことができ、ユーザーエクスペリエンスを向上させる。

本開示の技術案によれば、ソースドメイン入力字を取得し、文字生成モデルのうちの第１生成モデルに入力してターゲットドメイン新字を取得することにより、ソースドメイン入力字をターゲットドメイン新字に正確に変換することを実現し、ターゲットドメイン新字の生成正確率を高め、ターゲットドメイン新字の生成効率を高め、ターゲットドメイン新字の生成を向上させる人件費を低減することができる。

本開示の実施例によれば、図１７は、本開示の実施例における文字生成モデルのトレーニング装置の構造図であり、本開示の実施例は、文字生成モデルのトレーニングに適用され、ここで、文字生成モデルは、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換する場合に用いられる。該装置は、ソフトウェアおよび／またはハードウェアで実現され、具体的に、一定のデータ演算能力を持つ電子機器に構成される。

図１７に示す文字生成モデルのトレーニング装置１７００は、第１ロス計算モジュール１７０１と、第２ロス計算モジュール１７０２と、第１パラメータ調整モジュール１７０３とを備える。

第１ロス計算モジュール１７０１は、第１トレーニングサンプルをターゲットモデルに入力し、第１ロスを計算することに用いられ、前記ターゲットモデルは、文字生成モデルと予めトレーニングされた文字分類モデルとを備え、前記第１トレーニングサンプルは、第１ソースドメインサンプル字と第１ターゲットドメインサンプル字とを含み、前記第１ソースドメインサンプル字のコンテンツと前記第１ターゲットドメインサンプル字のコンテンツとは異なる。

第２ロス計算モジュール１７０２は、第２トレーニングサンプルを前記ターゲットモデルに入力し、第２ロスを計算することに用いられ、前記第２トレーニングサンプルは、第２ソースドメインサンプル字と第２ターゲットドメインサンプル字とを含み、前記第２ソースドメインサンプル字のコンテンツと前記第２ターゲットドメインサンプル字のコンテンツとは同じである。

第１パラメータ調整モジュール１７０３は、前記第１ロスおよび前記第２ロスに基づいて前記文字生成モデルのパラメータを調整することに用いられる。

本開示の技術案によれば、ペアリングされていない第１トレーニングサンプルおよびペアリングされた第２トレーニングサンプルに基づいてターゲットモデルのうちの文字生成モデルをトレーニングし、ペアリングされていない第１トレーニングサンプルを増加し、トレーニングサンプルの数および範囲を増加することにより、文字生成モデルの未知フォントに対するスタイル変換の能力を向上させ、モデルの汎化能力を向上させることができ、且つ、ペアリングされたトレーニングサンプルと組み合わせて文字生成モデルをトレーニングし、モデルのスタイル変換を正確に実現する能力の向上と、モデルのスタイル変換の正確率の高めとを両立することができる。

更に、前記文字生成モデルのトレーニング装置は、同じ数の第１トレーニングサンプルおよび第２トレーニングサンプルを含むトレーニング集合を取得するためのトレーニング集合取得モジュールと、前記トレーニング集合から第１トレーニングサンプルおよび第２トレーニングサンプルを抽出するためのトレーニングサンプル取得モジュールとを更に備える。

更に、前記第１ロスは第１誤字ロスを含み、前記第２ロスは第２誤字ロスおよび特徴ロスを含む。

更に、前記第１ロス計算モジュール１７０１は、第１トレーニングサンプルを前記文字生成モデルに入力し、第１ターゲットドメイン生成字を取得するための第１ターゲットドメイン生成字出力ユニットと、前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字生成モデルの第１誤字ロスを計算するための第１誤字ロス計算ユニットとを更に備える。

更に、前記文字生成モデルは第１生成モデルおよび第２生成モデルを含む。

前記第１誤字ロス計算ユニットは、第１ソースドメインサンプル字を前記第１生成モデルに入力し、前記第１ターゲットドメイン生成字を取得するための第１ソースドメイン生成字出力サブユニットを備える。

前記文字生成モデルのトレーニング装置は、前記第１ターゲットドメイン生成字を前記第２生成モデルに入力し、第１ソースドメイン生成字を取得するための第１ソースドメイン生成字生成モジュールと、前記第１ターゲットドメインサンプル字を前記第２生成モデルに入力し、第２ソースドメイン生成字を取得し、前記第２ソースドメイン生成字を前記第１生成モデルに入力し、第２ターゲットドメイン生成字を取得するための第２ターゲットドメイン生成字出力モジュールと、前記第１トレーニングサンプル、前記第１ターゲットドメイン生成字、前記第１ソースドメイン生成字、前記第２ターゲットドメイン生成字、および前記第２ソースドメイン生成字に基づき、前記文字生成モデルの第１生成ロスを計算するための第１生成ロス計算モジュールと、前記第１生成ロスに基づいて前記第１生成モデルのパラメータを調整するための第２パラメータ調整モジュールとを更に備える。

更に、前記第１パラメータ調整モジュール１７０３は、前記第１ロスおよび前記第２ロスに基づいて前記第１生成モデルのパラメータを調整するための第１生成モデルパラメータ調整ユニットを備える。

更に、前記ソースドメインサンプル字は、ソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する画像である。

上記文字生成モデルのトレーニング装置は、本開示のいずれかの実施例に係る文字生成モデルのトレーニング方法を実行することができ、文字生成モデルのトレーニング方法の実行に対応する機能モジュールおよび有益な効果を備える。

本開示の実施例によれば、図１８は、本開示の実施例における文字生成装置の構造図であり、本開示の実施例は、トレーニング文字生成モデルに基づき、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換して新字を生成する場合に適用される。該装置は、ソフトウェアおよび／またはハードウェアで実現され、具体的に、一定のデータ演算能力を持つ電子機器に構成される。

図１８に示す文字生成装置１８００は、文字生成モジュール１８０１を備える。

文字生成モジュール１８０１は、ソースドメイン入力字を文字生成モデルのうちの第１生成モデルに入力し、ターゲットドメイン新字を取得することに用いられ、ここで、前記文字生成モデルは、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる。

本開示の技術案によれば、ソースドメイン入力字を取得し、文字生成モデルのうちの第１生成モデルに入力し、ターゲットドメイン新字を取得することにより、ソースドメイン入力字をターゲットドメイン新字に正確に変換することを実現し、ターゲットドメイン新字の生成正確率を高め、ターゲットドメイン新字の生成効率を高め、ターゲットドメイン新字の生成を向上させる人件費を低減することができる。

上記文字生成装置は、本開示のいずれかの実施例に係る文字生成方法を実行することができ、文字生成方法の実行に対応する機能モジュールおよび有益な効果を備える。

本開示の技術案に係るユーザの個人情報の収集、記憶、使用、加工、伝達、提供、および公開等の処理は、いずれも関連法律法規の規定に該当し、公序良俗に反していない。

本開示の実施例によれば、本開示は、電子機器、可読記憶媒体、およびコンピュータプログラム製品を更に提供する。

図１９は、本開示の実施例を実施するための電子機器１９００の例示的なブロック図を示す。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータのような様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯端末、携帯電話、スマートフォン、ウェララブル機器および他の類似する計算装置のような様々な形式の移動装置を表すこともできる。本発明に示されたコンポーネント、それらの接続、関係、およびそれらの機能は例示的なものに過ぎず、本発明に記載および／または要求される本開示の実現を限定するものではない。

図１９に示すように、機器１９００は、計算ユニット１９０１を備え、読み出し専用メモリ（ＲＯＭ）１９０２に記憶されたコンピュータプログラム、または記憶ユニット１９０８からランダムアクセスメモリ（ＲＡＭ）１９０３にロードされたコンピュータプログラムに基づき、様々な適当な動作および処理を実行することができる。ＲＡＭ１９０３には、機器１９００の操作に必要な様々なプログラムおよびデータが記憶されてもよい。計算ユニット１９０１、ＲＯＭ１９０２およびＲＡＭ１９０３は、バス１９０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インタフェース１９０５もバス１９０４に接続されている。

機器１９００における複数のコンポーネントはＩ／Ｏインタフェース１９０５に接続され、キーボード、マウス等のような入力ユニット１９０６と、各種のディスプレイ、スピーカ等のような出力ユニット１９０７と、磁気ディスク、光ディスク等のような記憶ユニット１９０８と、ネットワークカード、モデム、無線通信送受信機等のような通信ユニット１９０９とを備える。通信ユニット１９０９は、機器１９００がインターネットのようなコンピュータネットワークおよび／または様々な電気通信ネットワークを介して他の機器と情報／データを交換することを許容する。

計算ユニット１９０１は、処理および計算能力を有する汎用および／または専用の処理アセンブリであってもよい。計算ユニット１９０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、各種の専用の人工知能（ＡＩ）コンピューティングチップ、各種の機械学習モデルアルゴリズムを実行する計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、および任意の適当なプロセッサ、コントローラ、マイクロコントローラ等を含んでもよいが、これらに限定されない。計算ユニット１９０１は、上記各方法および処理、例えば、文字生成モデルのトレーニング方法または文字生成方法を実行する。例えば、いくつかの実施例において、文字生成モデルのトレーニング方法または文字生成方法は、コンピュータソフトウェアプログラムとして実現でき、有形的に記憶ユニット１９０８のような機器可読媒体に含まれている。いくつかの実施例において、コンピュータプログラムの一部または全ては、ＲＯＭ１９０２および／または通信ユニット１９０９を介して機器１９００にロードおよび／またはインストールされ得る。コンピュータプログラムがＲＡＭ１９０３にロードされて計算ユニット１９０１により実行されると、上記文字生成モデルのトレーニング方法または文字生成方法の１つまたは複数のステップを実行することができる。あるいは、他の実施例において、計算ユニット１９０１は、他の任意の適当な方式（例えば、ファームウェアを介して）により、文字生成モデルのトレーニング方法または文字生成方法を実行するように構成され得る。

本発明に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準パーツ（ＡＳＳＰ）、システムオンチップのシステム（ＳＯＣ）、複合プログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現できる。これらの様々な実施形態は以下を含んでもよい。１つまたは複数のコンピュータプログラムに実施され、該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行および／または解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、且つデータおよび命令を、該ストレージシステム、該少なくとも１つの入力装置、および該少なくとも１つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせでコードできる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供でき、これにより、プログラムコードがプロセッサまたはコントローラにより実行されると、フローチャートおよび／またはブロック図で規定された機能／操作が実施される。プログラムコードは、完全に機器で実行されてもよいし、一部が機器で実行されてもよいし、独立したソフトウェアパッケージとして一部が機器で実行されて一部がリモート機器で実行されてもよいし、完全にリモート機器またはサーバで実行されてもよい。

本開示の明細書において、機器可読媒体は、命令実行システム、装置または機器に使用される、または命令実行システム、装置またはデバイスと合わせて使用されるプログラムを含有または記憶できる有形的な媒体であってもよい。機器可読媒体は、機器可読信号媒体または機器可読記憶媒体であってもよい。機器可読媒体は、電子の、磁気の、光の、電磁気の、赤外線の、または半導体のシステム、装置またはデバイス、または上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。機器可読記憶媒体の更なる具体的な例は、１つまたは複数の線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用ディスク（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、または上記内容の任意の適当な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがそれにより入力をコンピュータに提供することができるキーボードおよび指向装置（例えば、マウスまたはトラックボール）とを有する。他の種類の装置は、更にユーザとのインタラクションを提供するために使用できる。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、且つ、任意の形式（音入力、音声入力または、触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明するシステムおよび技術を、バックグラウンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、または中間コンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、ユーザがそれによりここで説明するシステムおよび技術の実施形態とインタラクションできるグラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータ）、またはこのようなバックグラウンドコンポーネント、中間コンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）により、システムのコンポーネントを互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、ブロックチェーンネットワーク、およびインターネットを含む。

コンピューティングシステムはクライアントおよびサーバを含んでもよい。クライアントとサーバとは、一般的に互いに離れ、且つ、通常、通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行されて互いにクライアント－サーバ関係を持つコンピュータプログラムにより、クライアントとサーバとの関係を生成する。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、ブロックチェーンと組み合わせたサーバであってもよい。

上記に示す様々な形式のフローを用い、ステップを並べ替え、追加または削除することができることを理解すべきである。例えば、本開示に記載された各ステップは、並列に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本開示に開示された技術案の所望する結果を達成できる限り、本開示はここで限定しない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要求および他の要因に基づき、様々な修正、組み合わせ、サブ組み合わせおよび代替が可能であることを理解すべできる。本開示の精神および原則内で行われる任意の修正、均等置換および改良等は、いずれも本開示の保護範囲内に含まれているべきである。

Claims

第１ソースドメインサンプル字、およびコンテンツが前記第１ソースドメインサンプル字のコンテンツと異なる第１ターゲットドメインサンプル字を含む第１トレーニングサンプルを、文字生成モデルおよび予めトレーニングされた文字分類モデルを含むターゲットモデルに入力し、第１ロスを計算することと、
第２ソースドメインサンプル字、およびコンテンツが前記第２ソースドメインサンプル字のコンテンツと同じである第２ターゲットドメインサンプル字を含む第２トレーニングサンプルを、前記ターゲットモデルに入力し、第２ロスを計算することと、
前記第１ロスおよび前記第２ロスに基づいて前記文字生成モデルのパラメータを調整することとを含む、
文字生成モデルのトレーニング方法。
同じ数の第１トレーニングサンプルおよび第２トレーニングサンプルを含むトレーニング集合を取得することと、
前記トレーニング集合から第１トレーニングサンプルおよび第２トレーニングサンプルを抽出することとを更に含む、
請求項１に記載の方法。
前記第１ロスは第１誤字ロスを含み、
前記第２ロスは第２誤字ロスおよび特徴ロスを含む、
請求項１に記載の方法。
第１ロスを計算することは、
第１トレーニングサンプルを前記文字生成モデルに入力し、第１ターゲットドメイン生成字を取得することと、
前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字生成モデルの第１誤字ロスを計算することとを含む、
請求項１に記載の方法。
前記文字生成モデルは第１生成モデルおよび第２生成モデルを含み、
第１トレーニングサンプルを文字生成モデルに入力し、第１ターゲットドメイン生成字を取得することは、第１ソースドメインサンプル字を前記第１生成モデルに入力し、前記第１ターゲットドメイン生成字を取得することを含み、
前記第１ターゲットドメイン生成字を前記第２生成モデルに入力し、第１ソースドメイン生成字を取得することと、
前記第１ターゲットドメインサンプル字を前記第２生成モデルに入力し、第２ソースドメイン生成字を取得して、前記第２ソースドメイン生成字を前記第１生成モデルに入力し、第２ターゲットドメイン生成字を取得することと、
前記第１トレーニングサンプル、前記第１ターゲットドメイン生成字、前記第１ソースドメイン生成字、前記第２ターゲットドメイン生成字、および前記第２ソースドメイン生成字に基づき、前記文字生成モデルの第１生成ロスを計算することと、
前記第１生成ロスに基づいて前記第１生成モデルのパラメータを調整することとを更に含む、
請求項４に記載の方法。
前記第１ロスおよび前記第２ロスに基づいて前記文字生成モデルのパラメータを調整することは、
前記第１ロスおよび前記第２ロスに基づいて前記第１生成モデルのパラメータを調整することを含む、
請求項５に記載の方法。
前記ソースドメインサンプル字がソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字がターゲットドメインフォントスタイルを有する画像である、
請求項１から６のいずれか１項に記載の方法。
ソースドメイン入力字を文字生成モデルのうちの第１生成モデルに入力し、ターゲットドメイン新字を取得することを含み、
前記文字生成モデルは、請求項１から７のいずれか１項に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる、
文字生成方法。
第１ソースドメインサンプル字、およびコンテンツが前記第１ソースドメインサンプル字のコンテンツと異なる第１ターゲットドメインサンプル字を含む第１トレーニングサンプルを、文字生成モデルおよび予めトレーニングされた文字分類モデルを含むターゲットモデルに入力し、第１ロスを計算するための第１ロス計算モジュールと、
第２ソースドメインサンプル字、およびコンテンツが前記第２ソースドメインサンプル字のコンテンツと同じである第２ターゲットドメインサンプル字を含む第２トレーニングサンプルを、前記ターゲットモデルに入力し、第２ロスを計算するための第２ロス計算モジュールと、
前記第１ロスおよび前記第２ロスに基づいて前記文字生成モデルのパラメータを調整するための第１パラメータ調整モジュールとを備える、
文字生成モデルのトレーニング装置。
同じ数の第１トレーニングサンプルおよび第２トレーニングサンプルを含むトレーニング集合を取得するためのトレーニング集合取得モジュールと、
前記トレーニング集合から第１トレーニングサンプルおよび第２トレーニングサンプルを抽出するためのトレーニングサンプル取得モジュールとを更に備える、
請求項９に記載の装置。
前記第１ロスは第１誤字ロスを含み、
前記第２ロスは第２誤字ロスおよび特徴ロスを含む、
請求項９に記載の装置。
前記第１ロス計算モジュールは、
第１トレーニングサンプルを前記文字生成モデルに入力し、第１ターゲットドメイン生成字を取得するための第１ターゲットドメイン生成字出力ユニットと、
前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字生成モデルの第１誤字ロスを計算するための第１誤字ロス計算ユニットとを備える、
請求項９に記載の装置。
前記文字生成モデルは第１生成モデルおよび第２生成モデルを含み、
前記第１誤字ロス計算ユニットは、第１ソースドメインサンプル字を前記第１生成モデルに入力し、前記第１ターゲットドメイン生成字を取得するための第１ソースドメイン生成字出力サブユニットを備え、
前記第１ターゲットドメイン生成字を前記第２生成モデルに入力し、第１ソースドメイン生成字を取得するための第１ソースドメイン生成字生成モジュールと、
前記第１ターゲットドメインサンプル字を前記第２生成モデルに入力し、第２ソースドメイン生成字を取得し、前記第２ソースドメイン生成字を前記第１生成モデルに入力し、第２ターゲットドメイン生成字を取得するための第２ターゲットドメイン生成字出力モジュールと、
前記第１トレーニングサンプル、前記第１ターゲットドメイン生成字、前記第１ソースドメイン生成字、前記第２ターゲットドメイン生成字、および前記第２ソースドメイン生成字に基づき、前記文字生成モデルの第１生成ロスを計算するための第１生成ロス計算モジュールと、
前記第１生成ロスに基づいて前記第１生成モデルのパラメータを調整するための第２パラメータ調整モジュールとを更に備える、
請求項１２に記載の装置。
前記第１パラメータ調整モジュールは、
前記第１ロスおよび前記第２ロスに基づいて前記第１生成モデルのパラメータを調整するための第１生成モデルパラメータ調整ユニットを備える、
請求項１３に記載の装置。
前記ソースドメインサンプル字がソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字がターゲットドメインフォントスタイルを有する画像である、
請求項９から１４のいずれか１項に記載の装置。
ソースドメイン入力字を文字生成モデルのうちの第１生成モデルに入力し、ターゲットドメイン新字を取得するための文字生成モジュールを備え、
前記文字生成モデルは、請求項１から７のいずれか１項に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる、
文字生成装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも１つのプロセッサが請求項１から７のいずれか１項に記載の文字生成モデルのトレーニング方法または請求項８に記載の文字生成方法を実行可能であるように、前記少なくとも１つのプロセッサにより実行される、
電子機器。
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに、請求項１から７のいずれか１項に記載の文字生成モデルのトレーニング方法または請求項８に記載の文字生成方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体。
プロセッサにより実行されると、請求項１から７のいずれか１項に記載の文字生成モデルのトレーニング方法を実現するか、または請求項８に記載の文字生成方法を実行する、
コンピュータプログラム。