JP7282932B2

JP7282932B2 - フォント生成モデルトレーニング方法、字庫作成方法、装置及び機器

Info

Publication number: JP7282932B2
Application number: JP2022007170A
Authority: JP
Inventors: 家▲銘▼ ▲劉▼; 礼承唐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-09
Filing date: 2022-01-20
Publication date: 2023-05-29
Anticipated expiration: 2042-01-20
Also published as: CN113792851A; EP4047560A1; KR20220034075A; US20220237935A1; CN113792851B; JP2023039887A

Description

本開示は人工知能の技術分野に関し、具体的には、コンピュータ視覚及び深層学習の技術分野に関し、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、光学的文字認識）などのシーンに適用されることができる。

フォント生成はいつも国内外の多くの研究者が重点的に研究している課題であり、フォント設計業界において広い応用価値がある。従って、如何にスタイルが多様性のフォント生成のニーズを満足するかは、フォント生成の分野に重点的に注目された問題となっている。

本開示の実施例は、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができるフォント生成モデルトレーニング方法、字庫（ｗｏｒｄｓｔｏｃｋ）作成方法、装置及び機器を提供する。

第１態様では、本開示の実施例は、
ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることと、
前記第１ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第１特徴ロスを得ることと、
前記第１ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第２特徴ロスを得ることと、
前記第１特徴ロス及び／又は前記第２特徴ロスによりターゲット特徴ロスを確定することと、
前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することと、
を含む、フォント生成モデルトレーニング方法を提供する。

第２態様では、本開示の実施例は、
ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることと、
前記ターゲットドメイン新字に基づいて、字庫を作成することと、を含み、
前記フォント生成モデルは第１態様に記載のフォント生成モデルトレーニング方法によりトレーニングして得られる、
字庫作成方法を提供する。

第３態様では、本開示の実施例は、
ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることに用いられる第１ターゲットドメイン生成字取得モジュールと、
前記第１ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第１特徴ロスを得ることに用いられる第１特徴ロス取得モジュールと、
前記第１ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第２特徴ロスを得ることに用いられる第２特徴ロス取得モジュールと、
前記第１特徴ロス及び／又は前記第２特徴ロスによりターゲット特徴ロスを確定することに用いられるターゲット特徴ロス取得モジュールと、
前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することに用いられる第１モデルパラメータ更新モジュールと、
を含む、フォント生成モデルトレーニング装置を提供する。

第４態様では、本開示の実施例は、
ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることに用いられるターゲットドメイン新字取得モジュールと、
前記ターゲットドメイン新字に基づいて、字庫を作成することに用いられる字庫作成モジュールと、を含み
前記フォント生成モデルは、第１態様に記載のフォント生成モデルトレーニング装置によりトレーニングして得られる、
字庫作成装置を提供する。

第５態様では、本開示の実施例は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されたメモリと、を含み、
前記メモリには前記少なくとも１つのプロセッサに実行可能である指令が記憶され、前記指令が前記少なくとも１つのプロセッサに実行されることにより、前記少なくとも１つのプロセッサに第１態様の実施例によるフォント生成モデルトレーニング方法又は第２態様の実施例による字庫作成方法を実行可能である、
電子機器を提供する。

第６態様では、本開示の実施例は、
コンピュータ指令が記憶される非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ指令は、前記コンピュータに第１態様の実施例によるフォント生成モデルトレーニング方法又は第２方面の実施例による字庫作成方法を実行させることに用いられる、
コンピュータ可読記憶媒体をさらに提供する。

第７態様では、本開示の実施例は、
プロセッサに実行されると、第１態様の実施例によるフォント生成モデルトレーニング方法又は第２方面の実施例による字庫作成方法を実現する、
コンピュータプログラムをさらに提供する。

本開示の実施例は、ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることにより、第１ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字をそれぞれ文字分類モデル及びフォント分類モデルに入力し、フォント生成モデルの第１特徴ロス及び第２特徴ロスを得ることで、第１特徴ロス及び／又は第２特徴ロスに確定されたターゲット特徴ロスにより、フォント生成モデルのモデルパラメータを更新し、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルのトレーニングが完了した後に、ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることで、ターゲットドメイン新字に基づいて字庫を作成し、従来のフォント生成モデルがフォントレベルのフォントを生成しにくいという問題を解決し、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。

本部分に説明された内容は本開示の実施例のキー又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定することに用いられないと理解すべきである。本開示の他の特徴は、以下の明細書に基づいて容易に理解されることになる。

図面は本方案をよりよく理解するためのものであり、本開示を限定するものではない。そのうち、

本開示の実施例に係るフォント生成モデルトレーニング方法のフロー図である。本開示の実施例に係るフォント生成モデルトレーニング方法のフロー図である。本開示の実施例に係るフォント生成モデルのネットワーク構造原理図である。本開示の実施例に係るフォント生成モデルのネットワーク構造原理図である。本開示の実施例に係る第１特徴ロスの可視化効果模式図である。本開示の実施例に係る第２特徴ロスの可視化効果模式図である。本開示の実施例に係る第２特徴ロスの可視化効果模式図である。本開示の実施例に係るフォント生成モデルトレーニング方法の原理図である。本開示の実施例に係る文字ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。本開示の実施例に係る第１特徴ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。本開示の実施例に係る第２特徴ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。本開示の実施例に係る字庫作成方法のフロー図である。本開示の実施例に係るフォント生成モデルトレーニング装置の構造図である。本開示の実施例に係る字庫作成装置の構造図である。本開示の実施例のフォント生成モデルトレーニング方法又は字庫作成方法を実現することに用いられる電子機器の構造模式図である。

以下、図面を参照しながら、本開示の例示的な実施例について説明する。そのうち、理解を容易にするために本開示の実施例の様々な詳細が含まれているが、それらをただの例示的なものと見なすべきである。したがって、当業者は、本開示の範囲及び精神から逸脱せず、ここで説明された実施例に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、明確且つ簡潔にするために、以下の説明では公知の機能及び構造に対する説明を省略する。

フォント生成は、画像スタイルの遷移の分野のうちの一つの新興タスクであり、画像スタイルの遷移は、１枚の画像の内容が変化しないままの場合でそれを他のスタイルに変換することであり、深層学習の適用の人気研究方向である。

現在、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ、敵対的生成ネットワーク）モデルを採用して、フォントの生成を実現することができる。しかし、ＧＡＮモデルによるフォント生成態様において、小さいデータ量でトレーニングされたネットワークを利用すると、傾斜、大きさ、一部の筆画の特徴などのいくつかの比較的に弱い特徴をしか学習できず、最もユーザのスタイルらしい特徴を学習することができない。大きいデータ量でトレーニングされたネットワークを使用してもよく、スタイルのほうが強いが、トレーニングセット以外の漢字である場合に、誤字が生じやすい。これらの主流の研究成果は、いずれもフォントレベルの効果に達しにくい。

一例において、図１は本開示の実施例に係るフォント生成モデルトレーニング方法のフロー図である。本実施例は、複数タイプの特徴ロスによりトレーニングしてフォント生成モデルを最適化させる場合に適用されることができ、該方法はフォント生成モデルトレーニング装置に実行されることができ、該装置はソフトウェア及び／又はハードウェアの形態で実現されることができ、そして、一般には電子機器に集積されることができる。該電子機器は端末機器又はサーバ機器などであってもよく、本開示の実施例はフォント生成モデルトレーニング方法を実行する電子機器のタイプを限定しない。相応的に、図１に示すように、該方法は以下のような操作を含む。

Ｓ１１０において、ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得る。

本開示の１つの好ましい実施例において、ソースドメインサンプル字はターゲットソースドメインフォントスタイルを有する画像であってもよい。ターゲットソースドメインはある１つのソースドメインフォントスタイルであってもよく、ソースドメインフォントスタイルは、例えば、楷書体、宋朝体又は黒体などの通常のリアルなフォントであってもよい。即ち、ターゲットソースドメインは楷書体、宋朝体又は黒体などの通常のリアルなフォントなどのいずれか１つのリアルなフォントスタイルであってもよい。第１ターゲットドメイン生成字はターゲットドメインフォントスタイルを有する画像であってもよく、ターゲットドメインフォントスタイルは、ユーザの手書きフォント、或いは、他のアートワードフォントなどが生成する必要とするスタイルタイプであってもよい。フォント生成モデルはターゲットドメインフォントスタイルを有するフォントを生成することができる。

本開示の実施例において、フォント生成モデルをトレーニングする時に、まず、１種のソースドメインサンプル字をフォント生成モデルに入力することができる。フォント生成モデルは入力されたソースドメインサンプル字により該ソースドメインサンプル字に対応する第１ターゲットドメイン生成字を出力することができる。

例示的に、楷書体の字の「做」を含む画像をソースドメインサンプル字としてフォント生成モデルに入力し、フォント生成モデルはユーザの手書き字の「做」を含む画像を出力することができる。

Ｓ１２０において、前記第１ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第１特徴ロスを得る。

本開示の１つの好ましい実施例において、前記ターゲットドメインサンプル字はターゲットドメインフォントスタイルを有する画像であってもよい。例示的に、第１ターゲットドメイン生成字はフォント生成モデルが生成した手書き字の「做」を含む画像であり、ターゲットドメインサンプル字はリアルな手書き字の「做」という字を含む画像であり、該リアルな手書き字の「做」を含む画像は、ユーザがリアルに手書き字に生成された画像であってもよい。該ユーザがリアルに手書き字に生成された画像の取得は、公開されたデータセットから由来してもよく、又はユーザの認可を得たものであってもよい。

そのうち、文字分類モデルは文字方面から第１ターゲットドメイン生成字の確度を精練したモデルであってもよい。好ましくは、文字分類モデルはＶＧＧ１９ネットワークによってトレーニングして得られたものであってもよい。文字分類モデルのトレーニングサンプルは、複数種類のフォントを含む画像であってもよく、例えば、トレーニングサンプルは、８０種類以上のフォント及び６７００個以上の字を含む約４５万枚の画像であってもよい。第１特徴ロスは文字分類モデルが第１ターゲットドメイン生成字及びターゲットドメインサンプル字により算出した差異特徴であってもよく、フォント生成モデルがフォントの詳細をより多く学習することを監督することができる。

フォント生成モデルの第１ターゲットドメイン生成字のフォント特徴に対する学習能力をさらに向上させるために、フォント生成モデルをトレーニングする過程において、フォント生成モデルが第１ターゲットドメイン生成字を生成した後に、第１ターゲットドメイン生成字を文字分類モデルに入力することで、文字分類モデルで第１ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字によりフォント生成モデルの第１特徴ロスを算出できる。

Ｓ１３０において、前記第１ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第２特徴ロスを得る。

そのうち、フォント分類モデルはフォント方面から第１ターゲットドメイン生成字の確度を精練したモデルであってもよい。好ましくは、フォント分類モデルもＶＧＧ１９ネットワークでトレーニングして得られたものであってもよい。フォント分類モデルのトレーニングサンプルは、複数種類のフォントを含む画像であってもよく、例えば、トレーニングサンプルは８０種以上のフォント及び６７００個以上の字を含む約４５万枚の画像であってもよい。第２特徴ロスは、フォント分類モデルが第１ターゲットドメイン生成字及びターゲットドメインサンプル字により算出した差異特徴であってもよく、フォント生成モデルがフォントの詳細をより多く学習することを監督することができる。

なお、文字分類モデルとフォント分類モデルとのモデル構造は同様であるが、モデルパラメータ及びモデル機能は異なる。文字分類モデル及びフォント分類モデルをトレーニングするためのサンプルデータが異なるからである。具体的には、文字分類モデルをトレーニングするサンプルデータにおいて、サンプル字の文字タイプをマークする必要があるが、フォント分類モデルをトレーニングするサンプルデータにおいて、サンプル字のフォントタイプをマークする必要がある。即ち、文字分類モデルは文字を区分することに用いられるが、フォント分類モデルはフォントを区分することに用いられる。従って、文字分類モデルが算出した第１特徴ロスはフォント生成モデルの文字方面におけるフォントの詳細を学習する能力を計量することができ、例えば、第１ターゲットドメイン生成字の文字特徴がユーザの手書き字の文字特徴にマッチングするか否かを判断することができる。フォント分類モデルが算出した第２特徴ロスはフォント生成モデルのフォント方面におけるフォントの詳細を学習する能力を計量することができ、例えば、第１ターゲットドメイン生成字のフォントタイプがユーザの手書き字のフォントタイプに該当するか否かを判断する。これから分かるように、第１特徴ロス及び第２特徴ロスは、文字及びフォントという２つの方面からフォント生成モデルのフォントの詳細を学習する能力を計量することができる。

なお、図１は１つの実現形態の効果模式図のみであり、本開示の実施例はステップＳ１２０とステップＳ１３０との間の実行される順序を限定しない。即ち、ステップＳ１２０を実行してから、ステップＳ１３０を実行してもよい。或いは、ステップＳ１３０を実行してから、ステップＳ１２０を実行してもよい。或いは、ステップＳ１２０及びステップＳ１３０を同時に実行してもよい。

Ｓ１４０において、前記第１特徴ロス及び／又は前記第２特徴ロスによりターゲット特徴ロスを確定する。

そのうち、ターゲット特徴ロスはフォント生成モデルを簡単にトレーニングすることに用いられる特徴ロスであってもよい。

本開示の実施例において、第１特徴ロス及び第２特徴ロスを得た後に、さらに、第１特徴ロス及び／又は第２特徴ロスによりターゲット特徴ロスを確定することができる。

例示的に、第１特徴ロスをターゲット特徴ロスとして確定してもよいし、第２特徴ロスをターゲット特徴ロスとして確定してもよいし、或いは、同時に第１特徴ロス及び第２特徴ロスをターゲット特徴ロスとして確定してもよく、本開示の実施例はターゲット特徴ロスの確定形態を限定しない。

Ｓ１５０において、前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新する。

そのうち、モデルパラメータは、例えば、重み又は偏りなどのフォント生成モデルに関連するパラメータであってもよく、本開示の実施例はモデルパラメータのタイプを制限しない。

相応的に、ターゲット特徴ロスを確定した後に、ターゲット特徴ロスによりフォント生成モデルのモデルパラメータを更新し、フォント生成モデルに対するトレーニングの過程を監督することを実現することができる。ターゲット特徴ロスは異なる複数のタイプの特徴ロスを考慮することができるため、ターゲット特徴ロスによりフォント生成モデルのモデルパラメータを更新することで、フォント生成モデルにフォントの詳細を学習する能力を絶えずに最適化させることができ、フォント生成モデルのフォントレベルフォントを生成する能力を向上させることができる。

本開示の実施例はソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることにより、第１ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字をそれぞれ文字分類モデル及びフォント分類モデルに入力し、フォント生成モデルの第１特徴ロス及び第２特徴ロスを得て、これにより、第１特徴ロス及び／又は第２特徴ロスに確定されたターゲット特徴ロスによりフォント生成モデルのモデルパラメータを更新し、フォント生成モデルに対するトレーニングを実現することができる。フォント生成モデルのトレーニングが完了した後に、ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることで、ターゲットドメイン新字に基づいて、字庫を作成し、これにより、従来のフォント生成モデルがフォントレベルのフォントを生成しにくいという問題を解決し、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。

一例において、図２は本開示の実施例に係るフォント生成モデルトレーニング方法のフロー図である。本開示の実施例は上記した各実施例の技術態様の上で、最適化及び改善を行い、ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得て、第１特徴ロス及び第２特徴ロスを取得し、及びフォント生成モデルのモデルパラメータを更新するという複数種類の具体的に選択可能な実現形態を与えている。

図２に示すようなフォント生成モデルトレーニング方法は、以下の操作を含む。

Ｓ２１０において、前記ソースドメインサンプル字を第１生成モデルに入力し、前記第１ターゲットドメイン生成字及び第１ソースドメイン生成字を得る。

そのうち、フォント生成モデルは循環ネットワーク生成モデルであり、第１生成モデル及び第２生成モデルを含む。第１ソースドメイン生成字は、フォント生成モデルがソースドメインサンプル字により生成したソースドメインフォントスタイルを有する画像であってもよい。

Ｓ２２０において、ターゲットドメインサンプル字を前記第２生成モデルに入力し、第２ターゲットドメイン生成字及び第２ソースドメイン生成字を得る。

そのうち、第２ターゲットドメイン生成字は、フォント生成モデルが生成したターゲットドメインフォントスタイルを有する画像であってもよい。第２ソースドメイン生成字は、フォント生成モデルがターゲットドメインサンプル字により生成したソースドメインフォントスタイルを有する画像であってもよい。

Ｓ２３０において、前記ソースドメインサンプル字、前記第１ターゲットドメイン生成字、前記第１ソースドメイン生成字、前記ターゲットドメインサンプル字、前記第２ターゲットドメイン生成字及び前記第２ソースドメイン生成字により、前記フォント生成モデルの生成ロスを算出する。

そのうち、生成ロスは、フォント生成モデルにおいて生成モデルのロスであってもよい。

Ｓ２４０において、前記生成ロスにより前記第１生成モデルのモデルパラメータを更新する。

本開示の実施例において、好ましくは、フォント生成モデルは第１生成モデル、第２生成モデル、第１判別モデル及び第２判別モデルを含んでもよい。

Ｓ２５０において、前記第１ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、前記フォント生成モデルの文字ロスを得る。

そのうち、文字ロスは、文字分類モデルが第１ターゲットドメイン生成字に対して算出した誤字ロスであってもよく、循環生成ネットワークモデルが出力した第１ターゲットドメイン生成字の誤字率を拘束することができる。

フォント生成モデルの誤字率を低下させるために、フォント生成モデルの生成ロスによってフォント生成モデルをトレーニングする以外に、フォント生成モデルが自己トレーニングを完了した後に、予めトレーニングされた文字分類モデルによってフォント生成モデルのトレーニング過程を監督してもよい。具体的には、フォント生成モデルが生成した第１ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、フォント生成モデルの文字ロスを得ることができる。

本開示の１つの好ましい実施例において、前記第１ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力して、前記フォント生成モデルの文字ロスを得ることは、前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記第１ターゲットドメイン生成字の生成文字ベクトルを得ることと、前記生成文字ベクトルと予め設定された標準文字ベクトルとの間の差異により、前記文字ロスを算出することと、を含んでもよい。

第１ターゲットドメイン生成字を上記文字分類モデルに入力し、上記文字分類モデルは該第１ターゲットドメイン生成字に対する生成文字ベクトル

を出力でき、上記第１ターゲットドメイン生成字に対して、標準文字ベクトル

が予め設けられる。ｘ_ｉは生成文字ベクトルにおける添え字がｉの要素を表し、ｙ_ｉは標準文字ベクトルにおける添え字がｉの要素を表し、ｉは０以上ｎ以下の整数であり、ｎは生成文字ベクトル

及び標準文字ベクトル

における要素数を表す。

第１ターゲットドメイン生成字の生成文字ベクトル

と標準文字ベクトル

との間の差異により、フォント生成モデルの文字ロスを確定することができる。

具体的には、第１ターゲットドメイン生成字を文字分類モデルに入力し、該第１ターゲットドメイン生成字の生成文字ベクトル

を得ることができ、そのうち、ベクトル

における各要素はトレーニングサンプルにおける１つの文字を表すことができ、ｎはトレーニングサンプルにおける文字数を表し、例えば、トレーニングサンプルは６７６１個のワードを有すると、ｎは６７６０に等しくてもよい。

上記第１ターゲットドメイン生成字に対して、標準文字ベクトル

が予め設けられ、そのうち、ベクトル

標準文字ベクトル

は、第１ターゲットドメイン生成字を上記文字分類モデルに入力して、上記文字分類モデルが出力すべきベクトルを表す。例えば、第１ターゲットドメイン生成字は「做」というワードであり、「做」という字はトレーニングサンプルにおけるｎ個のワードにおいて一番目に位置すると、「做」という字の標準文字ベクトルは

として表されてもよい。

本開示の１つの好ましい実施例において、前記文字ロスを算出することは、以下の式により前記文字ロスを算出することを含んでもよい。

そのうち、ＬＣは文字ロスを表し、ｘ_ｉは生成文字ベクトルにおける添え字がｉの要素を表し、ｙ_ｉは標準文字ベクトルにおける添え字がｉの要素を表し、ｉは０以上ｎ以下の整数であり、ｎは前記生成文字ベクトル及び前記標準文字ベクトルにおける要素数を表す。

上記技術態様は、フォント生成モデルの文字ロスを算出することにより、フォント生成モデルが出力した第１ターゲットドメイン生成字の誤字率を拘束することができて、フォント生成モデルの誤字を生成する確率を低下させ、フォント生成モデルの確度を向上させる。

Ｓ２６０において、前記第１ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第１特徴ロスを得る。

本開示の１つの好ましい実施例において、前記文字分類モデルは複数の特徴層を含み、前記第１ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第１特徴ロスを得ることは、前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第１生成字特徴マップを得ることと、前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第１サンプル字特徴マップを得ることと、ターゲット特徴層の第１生成字特徴マップと第１サンプル字特徴マップとの間の差異を算出し、前記第１特徴ロスを得ることと、を含んでもよい。

本開示の１つの好ましい実施例において、ターゲット特徴層の第１生成字特徴マップと第１サンプル字特徴マップとの間の差異を算出することは、前記ターゲット特徴層の第１生成字特徴マップと第１サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第１画素ロスを得ることと、前記ターゲット特徴層の第１画素ロスにより前記第１特徴ロスを算出することと、を含んでもよい。

そのうち、第１生成字特徴マップは文字分類モデルの各特徴層が出力した生成字の特徴マップであってもよい。第１サンプル字特徴マップは文字分類モデルの各特徴層が出力したサンプル字の特徴マップであってもよい。

本開示の実施例において、文字分類モデルは複数の特徴層（例えば、９０層の特徴層）を含んでもよく、第１ターゲットドメイン生成字を文字分類モデルに入力し、各層が出力した第１生成字特徴マップを得ることができる。ターゲットドメインサンプル字を文字分類モデルに入力し、各層が出力した第１サンプル字特徴マップを得ることができる。

各層の特徴層が出力した第１生成字特徴マップと第１サンプル字特徴マップとの間の差異に対して、該層の第１特徴ロスを確定することができる。例えば、各特徴層において、該特徴層が出力した第１生成字特徴マップ及び第１サンプル字特徴マップという２枚の画像の各対応する画素点の画素値を差異し、絶対値を求めて、各画素点の差異を得て、すべての画素点の差異を加算して、該特徴層の画素ロスを得る。

好ましくは、ターゲット特徴層として複数層の特徴層における少なくとも１つ（例えば、第４５層及び第４６層）を選択し、各ターゲット特徴層の特徴ロスの和を全体の第１特徴ロスとする。

上記全体の特徴ロスは、フォント生成モデルが第１ターゲットドメイン生成字とターゲットドメインサンプル字との間に差異が比較的に大きい特徴を学習することを表すことに用いられることができ、フォント生成モデルに文字方面においてフォントの詳細をより多く学習させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。

本開示の１つの好ましい実施例において、前記ターゲット特徴層の第１生成字特徴マップと第１サンプル字特徴マップとの間の画素差異を算出することは、前記第１生成字特徴マップにおける各位置の画素点の画素値と前記第１サンプル字特徴マップに対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、複数の位置の画素点の差異により、前記第１生成字特徴マップと第１サンプル字特徴マップとの間の画素差異を確定することと、を含んでもよい。

Ｓ２７０において、前記第１ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第２特徴ロスを得る。

本開示の１つの好ましい実施例において、前記フォント分類モデルは複数の特徴層を含み、前記第１ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第２特徴ロスを得ることは、前記第１ターゲットドメイン生成字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第２生成字特徴マップを得ることと、前記ターゲットドメインサンプル字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第２サンプル字特徴マップを得ることと、ターゲット特徴層の第２生成字特徴マップと第２サンプル字特徴マップとの間の差異を算出し、前記第２特徴ロスを得ることと、を含んでもよい。

本開示の１つの好ましい実施例において、ターゲット特徴層の第２生成字特徴マップと第２サンプル字特徴マップとの間の差異を算出することは、前記ターゲット特徴層の第２生成字特徴マップと第２サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第２画素ロスを得ることと、前記ターゲット特徴層の第２画素ロスにより前記第２特徴ロスを算出することと、を含んでもよい。

そのうち、第２生成字特徴マップはフォント分類モデルの各特徴層が出力した生成字の特徴マップであってもよい。第２サンプル字特徴マップはフォント分類モデルの各特徴層が出力したサンプル字の特徴マップであってもよい。

本開示の実施例において、フォント分類モデルは一括に複数の特徴層（例えば、９０層の特徴層）を含んでもよく、第１ターゲットドメイン生成字をフォント分類モデルに入力し、各層が出力した第２生成字特徴マップを得ることができる。ターゲットドメインサンプル字をフォント分類モデルに入力し、各層が出力した第２サンプル字特徴マップを得ることができる。

各層の特徴層が出力した第２生成字特徴マップと第２サンプル字特徴マップとの間の差異に対して、該層の第２特徴ロスを確定することができる。例えば、各特徴層において、該特徴層が出力した第２生成字特徴マップ及び第２サンプル字特徴マップという２枚の画像の各対応する画素点の画素値を差異し、絶対値を求めて、各画素点の差異を得て、すべての画素点の差異を加算し、該特徴層の画素ロスを得る。

好ましくは、ターゲット特徴層として複数層の特徴層における少なくとも１つ（例えば、第４５層及び第４６層）を選択し、各ターゲット特徴層の特徴ロスの和を全体の第２特徴ロスとする。

上記全体の特徴ロスは、フォント生成モデルが第１ターゲットドメイン生成字とターゲットドメインサンプル字との間に差異が比較的に大きい特徴を学習することを表すことに用いられることができ、フォント生成モデルにフォント方面においてフォントの詳細をより多く学習させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。

本開示の１つの好ましい実施例において、前記ターゲット特徴層の第２生成字特徴マップと第２サンプル字特徴マップとの間の画素差異を算出することは、前記第２生成字特徴マップにおける各位置の画素点の画素値と前記第２サンプル字特徴マップに対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、複数の位置の画素点の差異により、前記第２生成字特徴マップと第２サンプル字特徴マップとの間の画素差異を確定することと、を含んでもよい。

Ｓ２８０において、前記第１特徴ロス及び／又は前記第２特徴ロスによりターゲット特徴ロスを確定する。

Ｓ２９０において、前記文字ロス及び前記ターゲット特徴ロスにより前記第１生成モデルのモデルパラメータを更新する。

本開示の実施例において、フォント生成モデルが生成ロスを利用して自己トレーニングを完了した後に、さらに、文字分類モデルによってフォント生成モデルの文字ロス及び第１特徴ロスをそれぞれ算出し、且つフォント分類モデルによってフォント生成モデルの第２特徴ロスを算出し、これにより、第１特徴ロス及び／又は第２特徴ロスによりターゲット特徴ロスを確定する。最終的に、文字ロス及びターゲット特徴ロスによりフォント生成モデルにおける第１生成モデルのモデルパラメータを更新し、フォント生成モデルをトレーニングすることを監督し続ける。好ましくは、文字ロス及びターゲット特徴ロスによりフォント生成モデルにおける第１生成モデルのモデルパラメータを更新することは、文字ロスとターゲット特徴ロスとの総和によりフォント生成モデルにおける第１生成モデルのモデルパラメータを更新することであってもよい。

なお、図２は１つの実現形態の示意図のみであり、ステップＳ２５０とステップＳ２６０～Ｓ２８０との間は、実行される早い順がなく、ステップＳ２５０を実行してから、ステップＳ２６０～Ｓ２８０を実行してもよい。ステップＳ２６０～Ｓ２８０を実行してから、ステップＳ２５０を実行してもよい。或いは、同時に上記操作を実行してもよい。そのうち、Ｓ２６０とＳ２７０との間も実行される早い順がない。

図３及び図４は本開示の実施例に係るフォント生成モデルのネットワーク構造原理図である。１つの具体的な例において、図３及び図４に示すように、本開示の実施例において、フォント生成モデルは第１生成モデル、第２生成モデル、第１判別モデル及び第２判別モデルを含んでもよい。第１生成モデルはソースドメインフォントスタイルの画像をターゲットドメインフォントスタイルの画像に変換することに用いられ、第２生成モデルはターゲットドメインフォントスタイルの画像をソースドメインフォントスタイルの画像に変換することに用いられる。第１判別モデルは変換後の画像がソースドメインフォントスタイルの画像に属するか否かを判別することに用いられ、第２判別モデルは変換後の画像がターゲットドメインフォントスタイルの画像に属するか否かを判別することに用いられる。

上記フォント生成モデルの構造に基づいて、フォント生成モデルは２つの循環動作過程を含んでもよい。図３に示されたフォント生成モデルの第１の循環動作過程は、ソースドメインサンプル字を第１生成モデルに入力し、第１ターゲットドメイン生成字を得て、第１ターゲットドメイン生成字を第２生成モデルに入力し、第１ソースドメイン生成字を得ることである。図４に示されたフォント生成モデルの第２の循環動作過程は、ターゲットドメインサンプル字を第２生成モデルに入力し、第２ソースドメイン生成字を得て、第２ソースドメイン生成字を第１生成モデルに入力し、第２ターゲットドメイン生成字を得ることである。それで、フォント生成モデルのサンプルはペアリングされない画像であってもよく、トレーニングデータ間の１対１のマッピングを作成する必要がない。

本開示の実施例において、フォント生成モデルのロスは生成ロス及び判別ロスを含む。以下、ユーザの手書き字をターゲットドメインフォントスタイルとすることを例とし、フォント生成モデルの生成ロス及び判別ロスの計算方式を具体的に説明する。

図３に示すように、フォント生成モデルの第１の循環動作過程は、ソースドメインサンプル字（例えば、楷書体の字を含む画像、単に楷書体の字の画像という）を第１生成モデルに入力し、第１ターゲットドメイン生成字を得る（例えば、手書き字を含む画像、単に手書き字の画像という）ことである。第１ターゲットドメイン生成字（手書き字の画像）を第２生成モデルに入力し、第１ソースドメイン生成字（楷書体のワードの画像）を得る。

第１の循環動作過程において、ソースドメインサンプル字はリアルな楷書体のワードの画像であるが、第１ソースドメイン生成字はモデルが生成した楷書体の字の画像であり、偽の楷書体のワードの画像といってもよい。第１ターゲットドメイン生成字はモデルが生成した手書き字の画像であり、偽の手書き字の画像といってもよい。トレーニング過程において、ソースドメインサンプル字を真Ｒｅａｌ（例えば、値が１である）とマークし、第１ターゲットドメイン生成字を偽Ｆａｋｅ（例えば、値が０である）とマークすることができる。

ソースドメインサンプル字を第１判別モデルに入力し、第１判別モデルにとって、期待出力は１とすべきである。第１判別モデルの実際の出力はＸであり、平均二乗誤差によって第１判別モデルのロスを算出すると、第１判別モデルの一部のロスは（Ｘ－１）^２として表されてもよい。

第１ターゲットドメイン生成字を第２判別モデルに入力し、第２判別モデルにとって、期待出力は０とすべきである。第２判別モデルの実際の出力はＹ*（区別しやすいために、*付きパラメータによって該パラメータがモデルが生成した画像に関連することを表し、*付かないパラメータによって該パラメータがリアルな画像に関連することを表す）であり、平均二乗誤差によって第２判別モデルのロスを算出すると、第２判別モデルの一部のロスは（Ｙ^＊－０）^２として表されてもよい。

第１ターゲットドメイン生成字を第２判別モデルに入力し、第１生成モデルにとって、第２判別モデルの出力は１であることを期待する。第２判別モデルの実際の出力はＹ*であり、平均二乗誤差によって第１生成モデルのロスを算出すると、第１生成モデルの一部のロスは（Ｙ^＊－１）^２として表されてもよく、該ロスは第１生成モデルの敵対的ロスであってもよい。

ソースドメインサンプル字を第１生成モデルに入力して得られた第１ソースドメイン生成字は単にスタイルが変換され、内容が変更されないことを保証するために、第１生成モデルに対して１つのｃｙｃｌｅ－ｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓ（循環一致性ロス）を増えることができる。該ロスはソースドメインサンプル字と第１ソースドメイン生成字との間の差異により算出して得られることができる。例えば、ソースドメインサンプル字と第１ソースドメイン生成字という２枚の画像の各対応する画素点の画素値を差異し、絶対値を求めて、各画素点の差異を得て、全ての画素点の差異を加算して、第１生成モデルの循環一致性ロスを得て、Ｌ１Ａ２Ｂと表記することができる。

それで、第１生成モデルの一部のロスは（Ｙ^＊－１）^２であり、もう一部のロスはＬ１Ａ２Ｂであり、この２つの部分のロスの和を第１生成モデルの全体のロスＬ_Ａ２Ｂとし、第１生成モデルの全体のロスＬ_Ａ２Ｂは、以下のような式（１）で表されることができる。
Ｌ_Ａ２Ｂ＝（Ｙ^＊－１）^２＋Ｌ１_Ａ２Ｂ（１）

図４に示すように、フォント生成モデルの第２の循環動作過程は、ターゲットドメインサンプル字（例えば、手書き字を含む画像、単に手書き字の画像という）を第２生成モデルに入力し、第２ソースドメイン生成字（例えば、楷書体のワードを含む画像、単に楷書体の字の画像という）を得ることである。第２ソースドメイン生成字（楷書体の字の画像）を第１生成モデルに入力し、第２ターゲットドメイン生成字（手書き字の画像）を得る。

第２の循環動作過程において、ターゲットドメインサンプル字はリアルな手書き字の画像であり、第２ターゲットドメイン生成字はモデルが生成した手書き字の画像であり、偽の手書き字の画像といってもよい。第２ソースドメイン生成字はモデルが生成した楷書体のワードの画像であり、偽の楷書体のワードの画像といってもよい。トレーニング過程において、ターゲットドメインサンプル字を真Ｒｅａｌ（例えば、値は１である）とマークし、第２ソースドメイン生成字を偽Ｆａｋｅ（例えば、値は０である）とマークすることができる。

ターゲットドメインサンプル字を第２判別モデルに入力し、第２判別モデルにとって、期待出力は１とすべきである。第２判別モデルの実際の出力はＹであり、平均二乗誤差によって第２判別モデルのロスを算出すると、第２判別モデルの一部のロスは（Ｙ－１）^２として表されてもよい。

第２ソースドメイン生成字を第１判別モデルに入力し、第１判別モデルにとって、期待出力は０とすべきである。第１判別モデルの実際の出力はＸ*であり、平均二乗誤差によって第１判別モデルのロスを算出すると、第１判別モデルの一部のロスは（Ｘ^＊－０）^２として表されてもよい。

第２ソースドメイン生成字を第１判別モデルに入力し、第２生成モデルにとって、第１判別モデルの出力は１であることを期待する。第１判別モデルの実際の出力はＸ*であり、平均二乗誤差によって第２生成モデルのロスを算出すると、第２生成モデルの一部のロスは（Ｘ^＊－１）^２として表されてもよい。

ターゲットドメインサンプル字を第２生成モデルに入力して得られた第２ターゲットドメイン生成字は単にスタイルが変換され、内容が変更されないことを保証するために、第２生成モデルに対して１つのｃｙｃｌｅ－ｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓ（循環一致性ロス）を増えることができる。該ロスはターゲットドメインサンプル字と第２ターゲットドメイン生成字との間の差異により算出して得られることができる。例えば、ターゲットドメインサンプル字と第２ターゲットドメイン生成字という２枚の画像の各対応する画素点の画素値を差異し、絶対値を求めて、各画素点の差異を得て、全ての画素点の差異を加算して、第２生成モデルの循環一致性ロスを得て、Ｌ１Ｂ２Ａと表記することができる。

それで、第２生成モデルの一部のロスは（Ｘ^＊－１）^２であり、もう一部のロスはＬ１Ｂ２Ａであり、この２つの部分のロスの和を第２生成モデルの全体のロスＬ_Ｂ２Ａとし、第２生成モデルの全体のロスＬ_Ｂ２Ａは、以下のような式（２）で表されることができる。
Ｌ_Ｂ２Ａ＝（Ｘ^＊－１）^２＋Ｌ１_Ｂ２Ａ（２）

第１生成モデルの全体のロスＬ_Ａ２Ｂと第２生成モデルの全体のロスＬ_Ｂ２Ａとの和をフォント生成モデルの生成ロスとし、生成ロスは、以下のような式（３）で表されることができる。
Ｌ_Ｇ＝（Ｙ^＊－１）^２＋Ｌ１_Ａ２Ｂ＋（Ｘ^＊－１）^２＋Ｌ１_Ｂ２Ａ（３）

そのうち、Ｌ_Ｇはフォント生成モデルの生成ロスを表し、第１生成モデル及び第２生成モデルのモデルパラメータを調整することに用いられることができる。

フォント生成モデルの判別ロスは第１判別モデルの判別ロス及び第２判別モデルの判別ロスを含む。

図３から第１判別モデルの一部のロスが（Ｘ－１）^２であると算出し、図４から第１判別モデルのもう一部のロスが（Ｘ^＊－０）^２であると算出し、この２つの部分のロスの和を第１判別モデルの判別ロスとし、第１判別モデルの判別ロスＬ_Ａは、以下のような式（４）で表されることができる。
Ｌ_Ａ＝（Ｘ－１）^２＋（Ｘ^＊－０）^２（４）

第１判別モデルの判別ロスＬ_Ａは第１判別モデルのモデルパラメータを調整することに用いられることができる。

類似的に、図３から第２判別モデルの一部のロスが（Ｙ^＊－０）^２であると算出し、図４から第２判別モデルのもう一部のロスが（Ｙ－１）^２あると算出し、この２つの部分のロスの和を第２判別モデルの判別ロスとし、第２判別モデルの判別ロスＬ_Ｂは、以下のような式（５）で表されることができる。
Ｌ_Ｂ＝（Ｙ－１）^２＋（Ｙ^＊－０）^２（５）

第２判別モデルの判別ロスＬ_Ｂは第２判別モデルのモデルパラメータを調整することに用いられることができる。

上記技術態様は、フォント生成モデルの生成ロスを利用して第１生成モデルのモデルパラメータを更新することにより、フォント生成モデルの自身構造に応じてフォント生成モデルが最適化されることを実現でき、フォント生成モデルのフォント特徴を学習する能力を向上させる。

図５は本開示の実施例に係る第１特徴ロスの可視化効果模式図である。１つの具体的な例において、図５の（１）であるサブ図に示すように、ターゲットドメインサンプル字５０１はリアルな手書き字の「神」を含む画像であり、即ち、ターゲットドメインサンプル字５０１における「神」というワードはユーザのリアルな手書き字である。第１ターゲットドメイン生成字５０２はフォント生成モデルが生成した手書き字の「神」を含む画像であり、ターゲットドメインサンプル字５０１及び第１ターゲットドメイン生成字５０２の大きさはいずれも２５６×２５６である。ターゲットドメインサンプル字５０１及び第１ターゲットドメイン生成字５０２が文字分類モデルに入力され、文字分類モデルの第１ターゲット特徴層においてそれぞれ第１サンプル字特徴マップ及び第１生成字特徴マップを出力し、第１サンプル字特徴マップ及び第１生成字特徴マップの大きさはいずれも６４×６４であり、この２枚の６４×６４の画像に対して画素差異計算を行った後に、該２枚の画像の間の差異を表す熱力効果図５０３を得る。熱力効果図５０３も６４×６４の画像であり、熱力効果図５０３における色が濃いところほどターゲットドメインサンプル字５０１と第１ターゲットドメイン生成字５０２との間の差異が大きいことを表し、フォント生成モデルに熱力効果図５０３における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。

類似的に、図５の（２）であるサブ図に示すように、ターゲットドメインサンプル字５０１及び第１ターゲットドメイン生成字５０２が文字分類モデルに入力され、文字分類モデルの第２ターゲット特徴層においてそれぞれ第１サンプル字特徴マップ及び第１生成字特徴マップを出力し、第１サンプル字特徴マップ及び第１生成字特徴マップの大きさはいずれも３２×３２であり、この２枚の３２×３２の画像に対して画素差異計算を行った後に、該２枚の画像の間の差異を表す熱力効果図５０４を得る。熱力効果図５０４も３２×３２の画像であり、熱力効果図５０４における色が濃いところほどターゲットドメインサンプル字５０１と第１ターゲットドメイン生成字５０２との間の差異が大きいことを表し、フォント生成モデルに熱力効果図５０４における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。

熱力効果図５０３及び熱力効果図５０４を結び付けて、共同でフォント生成モデルにターゲットドメインサンプル字５０１と第１ターゲットドメイン生成字５０２との間の差異が大きい特徴を学習させることで、フォント生成モデルのフォント特徴を学習する能力を向上させるということを理解することができる。

図６は本開示の実施例に係る第２特徴ロスの可視化効果模式図である。１つの具体的な例において、図６の（１）であるサブ図に示すように、ターゲットドメインサンプル字６０１はリアルな手書き字の「留」を含む画像であり、即ち、ターゲットドメインサンプル字６０１における「留」という字はユーザのリアルな手書き字である。第１ターゲットドメイン生成字６０２はフォント生成モデルが生成した手書き字の「留」を含む画像であり、ターゲットドメインサンプル字６０１及び第１ターゲットドメイン生成字６０２の大きさはいずれも２５６×２５６である。ターゲットドメインサンプル字６０１及び第１ターゲットドメイン生成字６０２がフォント分類モデルに入力され、フォント分類モデルの第１ターゲット特徴層においてそれぞれ第２サンプル字特徴マップ及び第２生成字特徴マップを出力し、第２サンプル字特徴マップ及び第２生成字特徴マップの大きさはいずれも６４×６４であり、この２枚の６４×６４の画像に対して画素差異計算を行った後に、該２枚の画像の間の差異を表す熱力効果図６０３を得る。熱力効果図６０３も６４×６４の画像であり、熱力効果図６０３における色が濃いところほどターゲットドメインサンプル字６０１と第１ターゲットドメイン生成字６０２との間の差異が大きいことを表し、フォント生成モデルに熱力効果図６０３における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。

類似的に、図６の（２）であるサブ図に示すように、ターゲットドメインサンプル字６０１及び第１ターゲットドメイン生成字６０２がフォント分類モデルに入力され、フォント分類モデルの第２ターゲット特徴層においてそれぞれ第２サンプル字特徴マップ及び第２生成字特徴マップを出力し、第２サンプル字特徴マップ及び第２生成字特徴マップの大きさはいずれも３２×３２であり、この２枚の３２×３２の画像に対して画素差異計算を行った後に、該２枚の画像の間の差異を表す熱力効果図６０４を得る。熱力効果図６０４も３２×３２の画像であり、熱力効果図６０４における色が濃いところほどターゲットドメインサンプル字６０１と第１ターゲットドメイン生成字６０２との間の差異が大きいことを表し、フォント生成モデルに熱力効果図６０４における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。

図７は本開示の実施例に係る第２特徴ロスの可視化効果模式図である。もう１つの具体的な例において、図７の（１）であるサブ図に示すように、ターゲットドメインサンプル字７０１はリアルな手書き字の「視」を含む画像であり、即ち、ターゲットドメインサンプル字７０１における「視」という字はユーザのリアルな手書き字である。第１ターゲットドメイン生成字７０２はフォント生成モデルが生成した手書き字の「視」を含む画像であり、ターゲットドメインサンプル字７０１及び第１ターゲットドメイン生成字７０２の大きさはいずれも２５６×２５６である。ターゲットドメインサンプル字７０１及び第１ターゲットドメイン生成字７０２がフォント分類モデルに入力され、フォント分類モデルの第１ターゲット特徴層においてそれぞれ第２サンプル字特徴マップ及び第２生成字特徴マップを出力し、第２サンプル字特徴マップ及び第２生成字特徴マップの大きさはいずれも６４×６４であり、この２枚の６４×６４の画像に対して画素差異計算を行った後に、該２枚の画像の間の差異を表す熱力効果図７０３を得る。熱力効果図７０３も６４×６４の画像であり、熱力効果図７０３における色が濃いところほどターゲットドメインサンプル字７０１と第１ターゲットドメイン生成字７０２との間の差異が大きいことを表し、フォント生成モデルに熱力効果図７０３における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。

類似的に、図７の（２）であるサブ図に示すように、ターゲットドメインサンプル字７０１及び第１ターゲットドメイン生成字７０２がフォント分類モデルに入力され、フォント分類モデルの第２ターゲット特徴層においてそれぞれ第２サンプル字特徴マップ及び第２生成字特徴マップを出力し、第２サンプル字特徴マップ及び第２生成字特徴マップの大きさはいずれも３２×３２であり、この２枚の３２×３２の画像に対して画素差異計算を行った後に、該２枚の画像の間の差異を表す熱力効果図７０４を得る。熱力効果図７０４も３２×３２の画像であり、熱力効果図７０４における色が濃いところほどターゲットドメインサンプル字７０１和と第１ターゲットドメイン生成字７０２との間の差異が大きいことを表し、フォント生成モデルに熱力効果図７０４における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。

熱力効果図６０３及び熱力効果図６０４を結び付けて、共同でフォント生成モデルにターゲットドメインサンプル字６０１と第１ターゲットドメイン生成字６０２との間の差異が大きい特徴を学習させることで、フォント生成モデルのフォント特徴を学習する能力を向上させる。同様に、熱力効果図７０３及び熱力効果図７０４を結び付けて、共同でフォント生成モデルにターゲットドメインサンプル字７０１と第１ターゲットドメイン生成字７０２との間の差異が大きい特徴を学習させることで、フォント生成モデルのフォント特徴を学習する能力を向上させるということを理解することができる。

図８に示すように、フォント生成モデルに対する完全なトレーニング過程は下記操作を含むことができる。まず、ソースドメインサンプル字をフォント生成モデルの第１生成モデルに入力し、第１ターゲットドメイン生成字及び第１ソースドメイン生成字を得て、ターゲットドメインサンプル字をフォント生成モデルの第２生成モデルに入力し、第２ターゲットドメイン生成字及び第２ソースドメイン生成字を得る。さらに、ソースドメインサンプル字、第１ターゲットドメイン生成字、第１ソースドメイン生成字、ターゲットドメインサンプル字、第２ターゲットドメイン生成字及び第２ソースドメイン生成字により、フォント生成モデルの生成ロスを算出し、生成ロスにより第１生成モデルのモデルパラメータを更新し、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルの第１回のトレーニングが完了した後に、第１ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、フォント生成モデルの文字ロスを得て、第１ターゲットドメイン生成字及びターゲットドメインサンプル字を文字分類モデルに入力し、フォント生成モデルの第１特徴ロスを得る。同様に、第１ターゲットドメイン生成字及びターゲットドメインサンプル字をフォント分類モデルに入力し、フォント生成モデルの第２特徴ロスを得る。さらに、第１特徴ロス及び／又は第２特徴ロスによりターゲット特徴ロスを確定でき、上記算出して得られた文字ロス及びターゲット特徴ロスにより第１生成モデルのモデルパラメータを更新し、再びフォント生成モデルに対するトレーニングを実現する。なお、文字ロス及びターゲット特徴ロスによりフォント生成モデルに対してトレーニングする過程は同期に行われてもよいし、早い順で実行されてもよく、本開示の実施例はこれに対して制限することはない。

上記技術態様は、文字ロス及びターゲット特徴ロスで第１生成モデルのモデルパラメータを更新することにより、フォント生成モデルに対するトレーニングを監督することを実現し、フォント生成モデルの誤字を生成する確率を低下させ、フォント生成モデルのフォントを生成する確度及びフォント特徴を学習する能力を向上させることができる。

図９は本開示の実施例に係る文字ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。１つの具体的な例において、図９に示すように、（１）である画像は文字ロスによりフォント生成モデルを拘束せずに生成された手書き字の「伶」を含む画像である。（２）である画像は文字ロスによりフォント生成モデルを拘束して生成された手書き字の「伶」を含む画像である。（１）である画像における「伶」という字は正確な「伶」という字に比べて１つの点を少なく、（２）である画像における「伶」という字は正確な「伶」という字である。従って、文字ロスによりフォント生成モデルを拘束すれば、正確な字を学習することができ、誤字率を低下させ、モデルの確度を向上させることができる。

図１０は本開示の実施例に係る第１特徴ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。１つの具体的な例において、図１０に示すように、（１）である画像はリアルな手書き字の
（外１）

を含む画像であり、即ち、（１）である画像の
（外２）

という字はユーザのリアルな手書き字である。（２）である画像は第１特徴ロスによりフォント生成モデルを拘束せずに生成された手書き字の
（外３）

を含む画像である。（３）である画像は第１特徴ロスによりフォント生成モデルを拘束して生成された手書き字の
（外４）

を含む画像である。（２）である画像における
（外５）

という字に比べて、（３）であり画像にける
（外６）

という字はリアルなユーザが手書いた
（外７）

という字（即ち、（１）である画像における
（外８）

という字）のより多い特徴を学習し、リアルなユーザが手書いた
（外９）

という字により類似する。

図１１は本開示の実施例に係る第２特徴ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。１つの具体的な例において、図１１に示すように、（１）である画像はリアルな手書き字の「做」を含む画像であり、即ち、（１）である画像の「做」というワードはユーザのリアルな手書き字である。（２）である画像は第２特徴ロスによりフォント生成モデルを拘束せずに生成された手書き字の「做」を含む画像である。（３）である画像は第２特徴ロスによりフォント生成モデルを拘束して生成された手書き字の「做」を含む画像である。（２）である画像における「做」という字に比べて、（３）である画像における「做」という字はリアルなユーザが手書いた「做」という字（即ち、（１）である画像における「做」という字）のより多い特徴を学習し、リアルなユーザが手書いた「做」という字により類似する。

上記技術態様は、生成ロス、文字ロス及びターゲット特徴ロスなどの複数種類のロスタイプを利用してフォント生成モデルをトレーニングし、フォント生成モデルのフォント特徴を学習する能力を向上させ、誤字生成率を低下させ、フォント生成モデルのフォントを生成する見栄え及び確度を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。

本開示の技術態様において、ユーザの個人情報（例えばユーザのフォント情報など）の収集、記憶、使用、加工、伝送、提供及び公開などに関する処理は、いずれも関連する法律や法律的規則の規定に適合し、且つ公序良俗に反するものではない。

なお、以上の各実施例における各技術的特徴の間の任意の組み合わせも本開示の保護範囲に属する。

一例において、図１２は本開示の実施例に係る字庫作成方法のフロー図である。本開示の実施例は、複数タイプの特徴によりトレーニングして最適化されたフォント生成モデルを利用して字庫を作成する場合に適用されることができ、該方法は字庫作成装置により実行されてもよいし、該装置はソフトウェア及び／又はハードウェアの形態で実現されてもよく、一般的な電子機器に集積されることができる。該電子機器は端末機器又はサーバ機器などであってもよく、本開示の実施例は字庫作成方法を実行する電子機器のタイプを限定しない。相応的に、図１２に示すように、該方法は以下のような操作を含む。

Ｓ１２１０において、ソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得る。

そのうち、ソースドメイン入力字はある１つのソースドメインフォントのある字であってもよく、ターゲットドメイン新字は生成する必要があるターゲットドメインフォントスタイルを有する新字であってもよい。例示的に、ソースドメイン入力字は楷書体の字の画像であってもよく、新字は手書き字の画像であってもよく、楷書体の字の画像をフォント生成モデルに入力し、手書き字の画像を得ることができる。フォント生成モデルは上記のいずれか１つの実施例に記載のフォント生成モデルトレーニング方法によりトレーニングして得られる。

Ｓ１２２０において、前記ターゲットドメイン新字に基づいて、字庫を作成する。

例示的に、フォント生成モデルが生成した新字を記憶し、手書きのフォントスタイルを有する字庫を作成し、該字庫が入力法に適用されることができ、ユーザは該字庫に基づく入力法を使用して直接に手書きのフォントスタイルを有する字を取得し、ユーザの多様化のニーズを満足し、ユーザの体験を向上させることができる。

一例において、図１３は本開示の実施例に係るフォント生成モデルトレーニング装置の構造図である。本開示の実施例は、複数タイプの特徴ロスによりトレーニングしてフォント生成モデルを最適化させる場合に適用されることができ、該装置はソフトウェア及び／又はハードウェアにより実現され、具体的には、電子機器に配置される。該電子機器は端末機器又はサーバ機器などであってもよく、本開示の実施例はフォント生成モデルトレーニング方法を実行する電子機器のタイプを限定しない。

図１３に示すようなフォント生成モデルトレーニング装置１３００は、第１ターゲットドメイン生成字取得モジュール１３１０、第１特徴ロス取得モジュール１３２０、第２特徴ロス取得モジュール１３３０、ターゲット特徴ロス取得モジュール１３４０及び第１モデルパラメータ更新モジュール１３５０を含む。そのうち、
第１ターゲットドメイン生成字取得モジュール１３１０は、ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることに用いられ、
第１特徴ロス取得モジュール１３２０は、前記第１ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第１特徴ロスを得ることに用いられ、
第２特徴ロス取得モジュール１３３０は、前記第１ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第２特徴ロスを得ることに用いられ、
ターゲット特徴ロス取得モジュール１３４０は、前記第１特徴ロス及び／又は前記第２特徴ロスによりターゲット特徴ロスを確定することに用いられ、
第１モデルパラメータ更新モジュール１３５０は、前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することに用いられる。

本開示の実施例はソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることにより、第１ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字をそれぞれ文字分類モデル及びフォント分類モデルに入力し、フォント生成モデルの第１特徴ロス及び第２特徴ロスを得て、第１特徴ロス及び／又は第２特徴ロスに確定されたターゲット特徴ロスによりフォント生成モデルのモデルパラメータを更新することで、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルのトレーニングが完了した後に、ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得て、ターゲットドメイン新字に基づいて字庫を作成、これにより、従来のフォント生成モデルがフォントレベルのフォントを生成しにくいという問題を解決し、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。

好ましくは、そのうち、前記文字分類モデルは複数の特徴層を含み、第１特徴ロス取得モジュール１３２０は、具体的には、前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第１生成字特徴マップを得ることと、前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第１サンプル字特徴マップを得ることと、ターゲット特徴層の第１生成字特徴マップと第１サンプル字特徴マップとの間の差異を算出し、前記第１特徴ロスを得ることと、に用いられる。

好ましくは、第１特徴ロス取得モジュール１３２０は、具体的には、前記ターゲット特徴層の第１生成字特徴マップと第１サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第１画素ロスを得ることと、前記ターゲット特徴層の第１画素ロスにより前記第１特徴ロスを算出することと、に用いられる。

好ましくは、第１特徴ロス取得モジュール１３２０は、具体的には、前記第１生成字特徴マップにおける各位置の画素点の画素値と前記第１サンプル字特徴マップの対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、複数の位置の画素点の差異により、前記第１生成字特徴マップと第１サンプル字特徴マップとの間の画素差異を確定することと、に用いられる。

好ましくは、そのうち、前記フォント分類モデルは複数の特徴層を含み、第２特徴ロス取得モジュール１３３０は、具体的には、前記第１ターゲットドメイン生成字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第２生成字特徴マップを得ることと、前記ターゲットドメインサンプル字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第２サンプル字特徴マップを得ることと、ターゲット特徴層の第２生成字特徴マップと第２サンプル字特徴マップとの間の差異を算出し、前記第２特徴ロスを得ることと、に用いられる。

好ましくは、第２特徴ロス取得モジュール１３３０は、具体的には、前記ターゲット特徴層の第２生成字特徴マップと第２サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第２画素ロスを得ることと、前記ターゲット特徴層の第２画素ロスにより前記第２特徴ロスを算出することと、に用いられる。

好ましくは、第２特徴ロス取得モジュール１３３０は、具体的には、前記第２生成字特徴マップにおける各位置の画素点の画素値と前記第２サンプル字特徴マップの対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、複数の位置の画素点の差異により、前記第２生成字特徴マップと第２サンプル字特徴マップとの間の画素差異を確定することと、に用いられる。

好ましくは、前記フォント生成モデルは循環ネットワーク生成モデルであり、第１生成モデル及び第２生成モデルを含み、第１ターゲットドメイン生成字取得モジュール１３１０は、具体的には、前記ソースドメインサンプル字を前記第１生成モデルに入力し、前記第１ターゲットドメイン生成字及び第１ソースドメイン生成字を得ることに用いられ、フォント生成モデルトレーニング装置は、前記ターゲットドメインサンプル字を前記第２生成モデルに入力し、第２ターゲットドメイン生成字及び第２ソースドメイン生成字を得ることに用いられる第２ターゲットドメイン生成字取得モジュールと、前記ソースドメインサンプル字、前記第１ターゲットドメイン生成字、前記第１ソースドメイン生成字、前記ターゲットドメインサンプル字、前記第２ターゲットドメイン生成字及び前記第２ソースドメイン生成字により、前記フォント生成モデルの生成ロスを算出することに用いられる生成ロス計算モジュールと、前記生成ロスにより前記第１生成モデルのモデルパラメータを更新することに用いられる第２モデルパラメータ更新モジュールと、をさらに含む。

好ましくは、フォント生成モデルトレーニング装置は、前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記フォント生成モデルの文字ロスを算出することに用いられる文字ロス取得モジュールと、具体的に前記文字ロス及び前記ターゲット特徴ロスにより前記第１生成モデルのモデルパラメータを更新することに用いられる第１モデルパラメータ更新モジュール１３５０と、をさらに含む。

好ましくは、前記文字ロス取得モジュールは、具体的には、前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記第１ターゲットドメイン生成字の生成文字ベクトルを得ることと、前記生成文字ベクトルと予め設定された標準文字ベクトルとの間の差異により前記文字ロスを算出することと、に用いられる。

好ましくは、前記文字ロス取得モジュールは、具体的には、以下の式により前記文字ロスを算出することに用いられる。

そのうち、ＬＣは文字ロスを表し、

は生成文字ベクトルにおける添え字がｉの要素を表し、

は標準文字ベクトルにおける添え字がｉの要素を表し、ｉは０以上ｎ以下の整数であり、ｎは前記生成文字ベクトル及び前記標準文字ベクトルにおける要素数を表す。

好ましくは、前記ソースドメインサンプル字はターゲットソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字はターゲットドメインフォントスタイルを有する画像である。

上記フォント生成モデルトレーニング装置は本開示の任意の実施例によるフォント生成モデルトレーニング方法を実行でき、実行方法に対応する機能モジュールと有益な効果を備える。本実施例において詳細に説明されない技術的詳細は、本開示の任意の実施例によるフォント生成モデルトレーニング方法を参照することができる。

一例において、図１４は本開示の実施例に係る字庫作成装置の構造図である。本開示の実施例は複数タイプの特徴ロスによりトレーニングして最適化されたフォント生成モデルを利用して字庫を作成する場合に適用されることができ、該装置はソフトウェア及び／又はハードウェアにより実現され、具体的には、電子機器に配置される。該電子機器は端末機器又はサーバ機器などであってもよい。

図１４に示すような字庫作成装置１４００は、ターゲットドメイン新字取得モジュール１４１０及び字庫作成モジュール１４２０を含む。そのうち、
ターゲットドメイン新字取得モジュール１４１０は、ソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることに用いられ、
字庫作成モジュール１４２０は、前記ターゲットドメイン新字に基づいて、字庫を作成することに用いられ、
前記フォント生成モデルは本開示のいずれか１つの実施例に記載のフォント生成モデルトレーニング装置によりトレーニングして得られる。

本開示の実施例はフォント生成モデルが生成した新字を記憶し、手書きのフォントスタイルを有する字庫を作成し、該字庫が入力法に適用されることができ、ユーザは該字庫に基づく入力法を使用して直接に手書きのフォントスタイルを有するワードを取得し、ユーザの多様化のニーズを満足し、ユーザの体験を向上させることができる。

上記字庫作成装置は、本開示の任意の実施例による字庫作成方法を実行でき、実行方法に対応する機能モジュールと有益な効果を備える。本実施例において詳細に説明されない技術的詳細は、本開示の任意の実施例による字庫作成方法を参照することができる。

一例において、本開示は、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。

図１５は、本開示の実施例を実施することができる例示的な電子機器１５００の概略ブロック図を示した。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、作業台、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを意図する。電子機器も、パーソナルディジタル処理、携帯電話、スマートフォン、ウェアラブル機器及び他の類似する計算装置などの様々な形式の移動装置を表すことができる。本明細書に示された構成要素、それらの接続及び関係、及びそれらの機能は、例示とすることに過ぎず、本明細書に説明された及び／又は要求された本開示の実現を限定するものではない。

図１５に示すように、機器１５００は、読み取り専用メモリ（ＲＯＭ）１５０２に記憶されたコンピュータプログラム又は記憶ユニット１５０８からランダムアクセスメモリ（ＲＡＭ）１５０３にロードされたコンピュータプログラムにより、様々な適切な動作及び処理を実行することができる計算ユニットを含む。ＲＡＭ１５０３において、機器１５００の操作に必要な各種プログラム及びデータも記憶することができる。計算ユニット、ＲＯＭ１５０２及びＲＡＭ１５０３は、バス１５０４を介して相互に接続されている。入力／出力（Ｉ／Ｏ）インターフェース１５０５もバス１５０４に接続されている。

キーボード、マウスなどの入力ユニット１５０６と、各種のディスプレイ、スピーカなどの出力ユニット１５０７と、磁気ディスク、光学ディスクなどの記憶ユニット１５０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット１５０９とを含む機器１５００内の複数の構成要素は、Ｉ／Ｏインターフェース１５０５に接続されている。通信ユニット１５０９は、機器１５００がインターネットなどのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他の機器と情報／データを交換することを許可する。

計算ユニットは、処理及び計算能力を有する様々な汎用及び／又は特定用途向け処理コンポーネントであってもよい。計算ユニットのいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、様々な特定用途向け人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニットは、フォント生成モデルトレーニング方法又は字庫作成方法などの上述した様々な方法及び処理を実行する。例えば、いくつかの実施例では、フォント生成モデルトレーニング方法又は字庫作成方法は、記憶ユニット１５０８などの機械可読媒体に有形に含まれているコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ１５０２及び／又は通信ユニット１５０９を介して機器１５００にロード及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ１５０３にロードされ、計算ユニットによって実行されると、上述したフォント生成モデルトレーニング方法又は字庫作成方法の１つ又は複数のステップを実行することができる。代替的に、他の実施例において、計算ユニットは、他の任意の適切な形態によって（例えば、ファームウェアによって）フォント生成モデルトレーニング方法又は字庫作成方法を実行するように構成することができる。

本明細書において、上記したシステム及び技術の各種実施形態は、デジタル電子回路システム、集積回路システム、ドメインプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ロードプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせによって実現されることができる。これらの各種実施形態は次のような方法を含んでもよい。少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈されることができる１つ又は複数のコンピュータプログラムで実施され、該プログラマブルプロセッサは、特定用途向け又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び指令を受信し、データ及び指令を該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、特定用途向けコンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、これにより、プログラムコードがプロセッサ又はコントローラにより実行される時に、フロー図及び／又はブロック図に規定された機能／操作が実施される。プログラムコードは、全部でマシン上で、部分的にマシン上で、スタンドアロンソフトウェアパッケージとして部分的にマシン上で、且つ部分的にリモートマシン上、又は全部でリモートマシン又はサーバ上で実行することができる。

本開示のコンテキストにおいて、機械可読媒体は、指令実行システム、装置又は機器によって使用される又は指令実行システム、装置、又は機器と合わせて使用されるプログラムを含む又は記憶することができる有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体のシステム、装置、又は機器、或いはこれらの任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気的に接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶機器、磁気記憶機器、又はこれらの任意の適切な組み合わせを含んでもよい。

ユーザとの対話を提供するために、コンピュータ上にここで説明されたシステム及び技術を実施でき、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニター）と、キーボード及びポインティングデバイス（例えば、マウスやトラックボールなど）とを有し、ユーザは該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置も、ユーザとの対話を提供することに用いられることができ、例えば、ユーザに提供されたフィードバックは、いかなる形式の感覚フィードバック（例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、いかなる形式（音響入力、音声入力又は触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステム及び技術を、バックグラウンド部材を含むコンピューティングシステム（例えば、データサーバとして）、又はミドルウェア部材を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部材を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェイス又はウェブブラウザーを有するユーザコンピュータ、ユーザは該グラフィカルユーザインターフェイス又は該ウェブブラウザーを介してここで説明されたシステム及び技術の実施形態と対話できる）、又はこのようなバックグラウンド部材、ミドルウェア部材、又はフロントエンド部材を含む任意の組み合わせのコンピューティングシステムで実施されることができる。システムの部材は、いかなる形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介して互いに接続できる。通信ネットワークの例として、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、ブロックチェーンネットワーク及びインターネットを含む。

コンピューティングシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは、一般に、互いに離れていて、且つ通常には通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータ上で実行されるとともに互いにクライアント-サーバ関係を有するコンピュータプログラムによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのうちの一つのホスト製品であり、これにより、従来の物理ホストとＶＰＳサービスに存在している管理の難度が大きく、サービスの拡張性が弱いという欠陥を解決する。サーバも分散システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。

本開示の実施例はソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることにより、第１ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字をそれぞれ文字分類モデル及びフォント分類モデルに入力し、フォント生成モデルの第１特徴ロス及び第２特徴ロスを得て、第１特徴ロス及び／又は第２特徴ロスに確定されたターゲット特徴ロスによりフォント生成モデルのモデルパラメータを更新し、これにより、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルのトレーニングが完了した後に、ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得て、ターゲットドメイン新字に基づいて字庫を作成することにより、従来のフォント生成モデルがフォントレベルのフォントを生成しにくいという問題を解決し、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。

上記に示した様々な形式のフローを使用して、ステップを並び替え、増加又は削除してもよい。例えば、本開示に公開された技術態様の望ましい結果が実現される限り、本開示に記載の各ステップを同時に実行しても、順序に実行しても、異なる順序で実行してもよく、本明細書においてこれを制限しないことを理解すべきである。

上記の具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要件及び他の要因に従って、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができることを理解すべきである。本開示の精神及び原理の範囲内で行われるあらゆる修正、同価置換、改良などは、いずれも本開示の保護範囲に含まれるべきである。

Claims

ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることと、
前記第１ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第１特徴ロスを得ることと、
前記第１ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第２特徴ロスを得ることと、
前記第１特徴ロス及び／又は前記第２特徴ロスによりターゲット特徴ロスを確定することと、
前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することと、
を含む、フォント生成モデルトレーニング方法。
前記文字分類モデルは複数の特徴層を含み、
前記第１ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第１特徴ロスを得ることは、
前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第１生成字特徴マップを得ることと、
前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第１サンプル字特徴マップを得ることと、
ターゲット特徴層の第１生成字特徴マップと第１サンプル字特徴マップとの間の差異を算出し、前記第１特徴ロスを得ることと、
を含む、請求項１に記載のフォント生成モデルトレーニング方法。
ターゲット特徴層の第１生成字特徴マップと第１サンプル字特徴マップとの間の差異を算出することは、
前記ターゲット特徴層の第１生成字特徴マップと第１サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第１画素ロスを得ることと、
前記ターゲット特徴層の第１画素ロスにより前記第１特徴ロスを算出することと、
を含む、請求項２に記載のフォント生成モデルトレーニング方法。
前記ターゲット特徴層の第１生成字特徴マップと第１サンプル字特徴マップとの間の画素差異を算出することは、
前記第１生成字特徴マップにおける各位置の画素点の画素値と前記第１サンプル字特徴マップの対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、
複数の位置の画素点の差異により、前記第１生成字特徴マップと第１サンプル字特徴マップとの間の画素差異を確定することと、
を含む、請求項３に記載のフォント生成モデルトレーニング方法。
前記フォント分類モデルは複数の特徴層を含み、
前記第１ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第２特徴ロスを得ることは、
前記第１ターゲットドメイン生成字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第２生成字特徴マップを得ることと、
前記ターゲットドメインサンプル字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第２サンプル字特徴マップを得ることと、
ターゲット特徴層の第２生成字特徴マップと第２サンプル字特徴マップとの間の差異を算出し、前記第２特徴ロスを得ることと、
を含む、請求項１に記載のフォント生成モデルトレーニング方法。
ターゲット特徴層の第２生成字特徴マップと第２サンプル字特徴マップとの間の差異を算出することは、
前記ターゲット特徴層の第２生成字特徴マップと第２サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第２画素ロスを得ることと、
前記ターゲット特徴層の第２画素ロスにより前記第２特徴ロスを算出することと、
を含む、請求項５に記載のフォント生成モデルトレーニング方法。
前記ターゲット特徴層の第２生成字特徴マップと第２サンプル字特徴マップとの間の画素差異を算出することは、
前記第２生成字特徴マップにおける各位置の画素点の画素値と前記第２サンプル字特徴マップの対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、
複数の位置の画素点の差異により、前記第２生成字特徴マップと第２サンプル字特徴マップとの間の画素差異を確定することと、
を含む、請求項６に記載のフォント生成モデルトレーニング方法。
前記フォント生成モデルは循環ネットワーク生成モデルであり、第１生成モデル及び第２生成モデルを含み、
ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることは、
前記ソースドメインサンプル字を前記第１生成モデルに入力し、前記第１ターゲットドメイン生成字及び第１ソースドメイン生成字を得ることを含み、
前記フォント生成モデルトレーニング方法は、
前記ターゲットドメインサンプル字を前記第２生成モデルに入力し、第２ターゲットドメイン生成字及び第２ソースドメイン生成字を得ることと、
前記ソースドメインサンプル字、前記第１ターゲットドメイン生成字、前記第１ソースドメイン生成字、前記ターゲットドメインサンプル字、前記第２ターゲットドメイン生成字及び前記第２ソースドメイン生成字により、前記フォント生成モデルの生成ロスを算出することと、
前記生成ロスにより前記第１生成モデルのモデルパラメータを更新することと、
をさらに含む、請求項１に記載のフォント生成モデルトレーニング方法。
前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記フォント生成モデルの文字ロスを算出することをさらに含み、
前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することは、
前記文字ロス及び前記ターゲット特徴ロスにより前記第１生成モデルのモデルパラメータを更新することを含む、
請求項８に記載のフォント生成モデルトレーニング方法。
前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記フォント生成モデルの文字ロスを算出することは、
前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記第１ターゲットドメイン生成字の生成文字ベクトルを得ることと、
前記生成文字ベクトルと予め設定された標準文字ベクトルとの間の差異により、前記文字ロスを算出することと、
を含む、請求項９に記載のフォント生成モデルトレーニング方法。
前記ソースドメインサンプル字はターゲットソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字はターゲットドメインフォントスタイルを有する画像である、
請求項１～１０のいずれか一項に記載のフォント生成モデルトレーニング方法。
ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることと、
前記ターゲットドメイン新字に基づいて、フォントを作成することと、を含み、
前記フォント生成モデルは請求項１～１０のいずれか一項に記載のフォント生成モデルトレーニング方法によりトレーニングして得られている、
フォント作成方法。
請求項１～１１のいずれか一項に記載のフォント生成モデルトレーニング方法を実行することに用いられるフォント生成モデルトレーニング装置であって、
ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることに用いられる第１ターゲットドメイン生成字取得モジュールと、
前記第１ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第１特徴ロスを得ることに用いられる第１特徴ロス取得モジュールと、
前記第１ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第２特徴ロスを得ることに用いられる第２特徴ロス取得モジュールと、
前記第１特徴ロス及び／又は前記第２特徴ロスによりターゲット特徴ロスを確定することに用いられるターゲット特徴ロス取得モジュールと、
前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することに用いられる第１モデルパラメータ更新モジュールと、
を含む、フォント生成モデルトレーニング装置。
ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることに用いられるターゲットドメイン新字取得モジュールと、
前記ターゲットドメイン新字に基づいて、フォントを作成することに用いられるフォント作成モジュールと、を含み、
前記フォント生成モデルは、請求項１３に記載のフォント生成モデルトレーニング装置によりトレーニングして得られる、
フォント作成装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されたメモリと、を含み、
前記メモリには前記少なくとも１つのプロセッサに実行可能である指令が記憶され、前記指令は前記少なくとも１つのプロセッサに実行されることにより、前記少なくとも１つのプロセッサが請求項１～１１のいずれか一項に記載のフォント生成モデルトレーニング方法又は請求項１２に記載のフォント作成方法を実行可能である、
電子機器。
コンピュータ指令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ指令は、コンピュータに、請求項１～１１のいずれか一項に記載のフォント生成モデルトレーニング方法又は請求項１２に記載のフォント作成方法を実行させることに用いられている、
非一時的なコンピュータ可読記憶媒体。
プロセッサに実行されると、請求項１～１１のいずれか一項に記載のフォント生成モデルトレーニング方法又は請求項１２に記載のフォント作成方法を実現する、
コンピュータプログラム。