JP2023039886A

JP2023039886A - フォント生成モデルトレーニング方法、字庫作成方法、装置及び機器

Info

Publication number: JP2023039886A
Application number: JP2022007116A
Authority: JP
Inventors: 劉家銘; Chia-Min Liu; 唐礼承; li cheng Tang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-09
Filing date: 2022-01-20
Publication date: 2023-03-22
Anticipated expiration: 2042-01-20
Also published as: JP7289942B2; KR20220032537A; US11875584B2; CN113792850B; US20230114293A1; CN113792850A; EP4047562A1

Abstract

【課題】フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントを生成する見栄えを向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させるフォント生成モデルトレーニング方法、字庫作成方法、装置及び機器を提供する。【解決手段】フォント生成モデルトレーニング方法は、ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることと、第１ターゲットドメイン生成字をフォント識別モデルに入力し、フォント生成モデルのターゲット敵対的ロスを得ることと、ターゲット敵対的ロスに応じてフォント生成モデルのモデルパラメータを更新することと、を含む。【選択図】図１

Description

本開示は人工知能の技術分野に関し、具体的には、コンピュータ視覚及び深層学習の技術分野に関し、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、光学的文字認識）などのシーンに適用されることができる。

フォント生成はいつも国内外の多くの研究者が重点的に研究している課題であり、フォント設計業界において広い応用価値がある。従って、如何にスタイルが多様性のフォント生成のニーズを満足するかは、フォント生成の分野に重点的に注目された問題となっている。

本開示の実施例は、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントを生成する見栄えを向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができるフォント生成モデルトレーニング方法、字庫作成方法、装置及び機器を提供する。

第１態様では、本開示の実施例は、
ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることと、
前記第１ターゲットドメイン生成字をフォント識別モデルに入力し、前記フォント生成モデルのターゲット敵対的ロスを得ることと、
前記ターゲット敵対的ロスに応じて前記フォント生成モデルのモデルパラメータを更新することと、を含む、
フォント生成モデルトレーニング方法を提供する。

第２態様では、本開示の実施例は、
ソースドメイン入力字を、第１態様に記載のフォント生成モデルトレーニング方法によるトレーニングで得られたフォント生成モデルに入力し、ターゲットドメイン新字を得ることと、
前記ターゲットドメイン新字に基づいて字庫を作成することと、を含む、
字庫作成方法を提供する。

第３態様では、本開示の実施例は、
ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることに用いられる第１ターゲットドメイン生成字取得モジュールと、
前記第１ターゲットドメイン生成字をフォント識別モデルに入力し、前記フォント生成モデルのターゲット敵対的ロスを得ることに用いられるターゲット敵対的ロス取得モジュールと、
前記ターゲット敵対的ロスに応じて前記フォント生成モデルのモデルパラメータを更新することに用いられるモデルパラメータ更新モジュールと、を備える
フォント生成モデルトレーニング装置を提供する。

第４態様では、本開示の実施例は、
ソースドメイン入力字を、第１態様に記載のフォント生成モデルトレーニング装置によるトレーニングで得られたフォント生成モデルに入力し、ターゲットドメイン新字を得ることに用いられるターゲットドメイン新字取得モジュールと、
前記ターゲットドメイン新字に基づいて字庫を作成することに用いられる字庫作成モジュールと、を備える、
字庫作成装置を提供する。

第５態様では、本開示の実施例は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されたメモリと、を含み、
前記メモリには前記少なくとも１つのプロセッサにより実行可能である指令が記憶され、
前記指令は、前記少なくとも１つのプロセッサにより実行されることにより、前記少なくとも１つのプロセッサに、第１態様の実施例によるフォント生成モデルトレーニング方法又は第２態様の実施例による字庫作成方法を実行可能である、
電子機器を提供する。

第６態様では、本開示の実施例は、
コンピュータ指令が記憶される非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ指令は、前記コンピュータに第１態様の実施例によるフォント生成モデルトレーニング方法又は第２態様の実施例による字庫作成方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体をさらに提供する。

第７態様では、本開示の実施例は、
プロセッサにより実行されると、第１態様の実施例によるフォント生成モデルトレーニング方法又は第２態様の実施例による字庫作成方法を実現する、
コンピュータプログラムをさらに提供する。

本開示の実施例はソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることにより、第１ターゲットドメイン生成字をフォント識別モデルに入力し、フォント生成モデルのターゲット敵対的ロスを得て、ターゲット敵対的ロスに応じてフォント生成モデルのモデルパラメータを更新し、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルのトレーニングが完了した後に、ソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得て、これにより、ターゲットドメイン新字に基づいて字庫を作成し、従来のフォント生成モデルがフォントレベルのフォントを生成しにくいという問題を解決し、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントを生成する見栄えを向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができ、ユーザの多様化のニーズを満足し、ユーザの体験を向上させる。

本部分に説明された内容は本開示の実施例のキー又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定するためのものではないということを理解すべきである。本開示の他の特徴は、以下の明細書に基づいて容易に理解されることになる。

図面は本態様をよりよく理解するためのものであり、本開示を限定するものではない。そのうち、

本開示の実施例に係るフォント生成モデルトレーニング方法のフロー図である。本開示の実施例に係るフォント生成モデルトレーニング方法のフロー図である。本開示の実施例に係るフォント生成モデルのネットワーク構造原理図である。本開示の実施例に係るフォント生成モデルのネットワーク構造原理図である。本開示の実施例に係る特徴ロスの可視化効果模式図である。本開示の実施例に係るフォント生成モデルトレーニング方法の原理図である。本開示の実施例に係る文字ロスによるトレーニングで得られたフォント生成モデルの効果の対比模式図である。本開示の実施例に係る特徴ロスによるトレーニングで得られたフォント生成モデルの効果の対比模式図である。本開示の実施例に係るターゲット敵対的ロスによるトレーニングで得られたフォント生成モデルの効果の対比模式図である。本開示の実施例に係る字庫作成方法のフロー図である。本開示の実施例に係るフォント生成モデルトレーニング装置の構造図である。本開示の実施例に係る字庫作成装置の構造図である。本開示の実施例のフォント生成モデルトレーニング方法又は字庫作成方法を実現することに用いられる電子機器の構造模式図である。

以下、図面を参照しながら、本開示の例示的な実施例について説明する。そのうち、理解を容易にするために本開示の実施例の様々な詳細が含まれているが、それらをただの例示的なものと見なすべきである。したがって、当業者は、本開示の範囲及び精神から逸脱せず、ここで説明された実施例に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、明確且つ簡潔にするために、以下の説明では公知の機能及び構造に対する説明を省略する。

フォント生成は、画像スタイルの遷移の分野のうちの１つの新興タスクであり、画像スタイルの遷移は、１枚の画像の内容が変化しないままの場合でそれを他のスタイルに変換することであり、深層学習の適用の人気研究方向である。

現在、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ、敵対的生成ネットワーク）モデルを採用して、フォントの生成を実現することができる。しかし、ＧＡＮモデルに基づくフォント生成態様において、小さいデータ量でトレーニングされたネットワークを利用すると、傾斜、大きさ、一部の筆画の特徴などのいくつかの比較的に弱い特徴をしか学習できず、最もユーザのスタイルらしい特徴を学習することができない。大きいデータ量でトレーニングされたネットワークを使用してもよく、スタイルのほうが強いが、トレーニングセット以外の漢字である場合に、誤字が生じやすい。一部のＧＡＮモデルは、形状が正しいフォントを生成することができるが、形状が正しいだけでは専門レベルのフォントの要求を満たすことができない。これから分かるように、これらの主流のフォント生成の研究成果は、いずれもフォントレベルの効果に達しにくいものである。

一例において、図１は本開示の実施例に係るフォント生成モデルトレーニング方法のフロー図である。本実施例は敵対的ロスに応じてトレーニングしてフォント生成モデルを最適化させる場合に適用されることができ、該方法はフォント生成モデルトレーニング装置により実行されてもよいし、該装置はソフトウェア及び／又はハードウェアの形態により実現されてもよく、一般的に電子機器に集積されることができる。該電子機器は端末機器又はサーバ機器などであってもよく、本開示の実施例はフォント生成モデルトレーニング方法を実行する電子機器のタイプを限定しない。相応的に、図１に示すように、該方法は以下のような操作を含む。

Ｓ１１０において、ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得る。

本開示の１つの好ましい実施例において、ソースドメインサンプル字はターゲットソースドメインフォントスタイルを有する画像であってもよい。ターゲットソースドメインはある１つのソースドメインフォントスタイルであってもよく、ソースドメインフォントスタイルは、例えば、楷書体、宋朝体又は黒体などの通常のリアルなフォントであってもよい。即ち、ターゲットソースドメインは楷書体、宋朝体又は黒体などの通常のリアルなフォントなどのうちの何れか１つのリアルなフォントスタイルであってもよい。第１ターゲットドメイン生成字はターゲットドメインフォントスタイルを有する画像であってもよく、ターゲットドメインフォントスタイルは、ユーザの手書きフォント、又は、他のアート字フォントなどが生成する必要があるスタイルタイプであってもよい。フォント生成モデルはターゲットドメインフォントスタイルを有するフォントを生成することができる。

本開示の実施例において、フォント生成モデルをトレーニングする時に、まず、１種のソースドメインサンプル字をフォント生成モデルに入力することができる。フォント生成モデルは入力されたソースドメインサンプル字により該ソースドメインサンプル字に対応する第１ターゲットドメイン生成字を出力することができる。

例示的に、楷書体字の「做」を含む画像をソースドメインサンプル字としてフォント生成モデルに入力し、フォント生成モデルはユーザの手書き字の「做」を含む画像を出力することができる。

Ｓ１２０において、前記第１ターゲットドメイン生成字をフォント識別モデルに入力し、前記フォント生成モデルのターゲット敵対的ロスを得る。

そのうち、フォント識別モデルは第１ターゲットドメイン生成字のフォントの見栄えを仕上げるモデルであってもよい。ターゲット敵対的ロスはフォント識別モデルが第１ターゲットドメイン生成字に対して算出して得られた敵対的ロスであってもよく、第１ターゲットドメイン生成字とリアルなフォントとの類似度を計量することに用いられることができる。好ましくは、フォント識別モデルは判別器モデルであってもよい。

現在、既存のいくつかの深層学習に基づくフォント生成態様、特にＧＡＮネットワークに基づくフォント生成態様は、形状が正しい漢字を生成することができる。しかし、形状が正しいだけでは専門レベルのフォントの要求を満たすことができない。専門フォントは、字形スタイルが要求を満たすと保持するとともに、字画のジッタが小さい範囲内に安定するように制御される必要があることにより、生成されたフォントにフォントの要求をより合致させる。

本開示の実施例はフォント識別モデルを引き込むことによりフォント生成モデルを監督し、フォント生成モデルがソースドメインサンプル字により対応する第１ターゲットドメイン生成字を生成した後に、フォント識別モデルによって第１ターゲットドメイン生成字に対してターゲット敵対的ロスを算出して、第１ターゲットドメイン生成字とリアルなフォントとの間の類似度を計量することに用いられることで、フォント生成モデルのトレーニング過程に協力を与え、フォント生成モデルにフォントレベルのフォントを生成させることができる。

例示的に、フォント識別モデルがフォント生成モデルのトレーニング過程を監督することにより、フォント生成モデルが生成したフォントは、字画の接続ルールの誤り及び字画のジッタを最大限に回避し、生成されたフォントの見栄えを保持することができる。

Ｓ１３０において、前記ターゲット敵対的ロスに応じて前記フォント生成モデルのモデルパラメータを更新する。

そのうち、モデルパラメータは、例えば、重み又は偏りなどのフォント生成モデルに関連するパラメータであってもよく、本開示の実施例はモデルパラメータのタイプを制限しない。

好ましくは、フォント生成モデルをトレーニングする前に、すべてのフォント生成モデルをトレーニングするためのソースドメインサンプル字を一括に文字テーブルに記憶することができる。文字テーブルにおけるすべてのソースドメインサンプル字は１種のリアルなタイプのフォントであってもよいということを理解できる。即ち、各種のフォント生成モデルは１種のリアルなフォントをターゲットドメインフォントスタイルを有するフォントとして生成することができる。相応的に、フォント生成モデルをトレーニングする過程において、フォント生成モデルは文字テーブルにおける１つのソースドメインサンプル字により第１ターゲットドメイン生成字を生成する度に、いずれもフォント識別モデルにより第１ターゲットドメイン生成字のターゲット敵対的ロスを算出することができ、算出して得られたターゲット敵対的ロスにより生成された第１ターゲットドメイン生成字を最適化し、具体的には、フォント生成モデルのパラメータを調整して更新し、更新された循環生成ネットワークモデルを得る。次のソースドメインサンプル字に対して、更新されたフォント生成によってソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得るという操作を実行することに戻り、これにより、フォント識別モデルの監督作用下でフォント生成モデルを繰り返しトレーニングする。

本開示の実施例において、フォント識別モデルが文字テーブルにおけるすべてのソースドメインサンプル字の最適化を完了したことをフォント生成モデルに対する１回の最適化とすることができる。フォント識別モデルで複数回の最適化によりフォント生成モデルのモデルパラメータを更新し、フォント生成モデルを絶えずに更新し、フォント生成モデルのトレーニングに対する監督作用を実現することにより、フォント生成モデルにフォントレベルのフォントを生成させ、フォント生成モデルのフォントを生成する見栄えを向上させる。

本開示の実施例はソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることにより、第１ターゲットドメイン生成字をフォント識別モデルに入力し、フォント生成モデルのターゲット敵対的ロスを得て、ターゲット敵対的ロスに応じてフォント生成モデルのモデルパラメータを複数回更新し、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルのトレーニングが完了した後に、ソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得て、ターゲットドメイン新字に基づいて字庫を作成することにより、従来のフォント生成モデルがフォントレベルのフォントを生成しにくいという問題を解決し、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントを生成する見栄えを向上させ、フォント生成モデルのフォントレベルフォントを生成する能力を向上させることができる。

一例において、図２は本開示の実施例に係るフォント生成モデルトレーニング方法のフロー図である。本開示の実施例は上記各実施例の技術態様の上で、最適化及び改善を行い、ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得て、フォント識別モデル及びフォント生成モデルをトレーニングし、及びフォント生成モデルのモデルパラメータを更新するという複数種の具体的に選択可能な実現形態を与えている。

図２に示すようなフォント生成モデルトレーニング方法は、以下の操作を含む。

Ｓ２１０において、前記ソースドメインサンプル字を前記第１生成モデルに入力し、前記第１ターゲットドメイン生成字及び第１ソースドメイン生成字を得る。

そのうち、フォント生成モデルは循環ネットワーク生成モデルであり、第１生成モデル及び第２生成モデルを含んでもよい。第１ソースドメイン生成字はフォント生成モデルがソースドメインサンプル字により生成されたソースドメインフォントスタイルを有する画像であってもよい。

Ｓ２２０において、ターゲットドメインサンプル字を前記第２生成モデルに入力し、第２ターゲットドメイン生成字及び第２ソースドメイン生成字を得る。

そのうち、ターゲットドメインサンプル字はターゲットドメインフォントスタイルを有する画像であってもよい。例示的に、第１ターゲットドメイン生成字はフォント生成モデルが生成した手書き字の「做」を含む画像であり、ターゲットドメインサンプル字はリアルな手書き字の「做」という字を含む画像であり、該リアルな手書き字の「做」を含む画像はユーザがリアルに手書いた字に生成された画像であってもよい。該ユーザのリアルに手書いた字に生成された画像の取得は、公開されたデータセットから由来してもよく、又はユーザの認可を得たものであってもよい。第２ターゲットドメイン生成字はフォント生成モデルが生成したターゲットドメインフォントスタイルを有する画像であってもよい。第２ソースドメイン生成字はフォント生成モデルがターゲットドメインサンプル字により生成したソースドメインフォントスタイルを有する画像であってもよい。

Ｓ２３０において、前記ソースドメインサンプル字、前記第１ターゲットドメイン生成字、前記第１ソースドメイン生成字、前記ターゲットドメインサンプル字、前記第２ターゲットドメイン生成字及び前記第２ソースドメイン生成字により、前記フォント生成モデルの生成ロスを算出する。

そのうち、生成ロスはフォント生成モデルにおける生成モデルのロスであってもよい。

Ｓ２４０において、前記生成ロスに応じて前記第１生成モデルのモデルパラメータを更新する。本開示の実施例において、好ましくは、フォント生成モデルは第１生成モデル、第２生成モデル、第１判別モデル及び第２判別モデルを含んでもよい。

Ｓ２５０において、前記第１ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、前記フォント生成モデルの文字ロスを得る。

そのうち、文字分類モデルは第１ターゲットドメイン生成字の確度を仕上げたモデルであってもよい。文字ロスは文字分類モデルが第１ターゲットドメイン生成字に対して算出して得られた誤字のロスであってもよく、循環生成ネットワークモデルが出力した第１ターゲットドメイン生成字の誤字率を拘束することができる。好ましくは、文字分類モデルはＶＧＧ１９ネットワークによってトレーニングして得られたものであってもよい。文字分類モデルのトレーニングサンプルは、複数種のフォントを含む画像であってもよく、例えば、トレーニングサンプルは８０種以上のフォント及び６７００個以上の字を含む約４５万枚の画像であってもよい。

フォント生成モデルの誤字率を低下させるために、フォント生成モデルの生成ロスによってフォント生成モデルをトレーニングする以外に、フォント生成モデルが自己トレーニングを完了した後に、予めトレーニングされた文字分類モデルによってフォント生成モデルのトレーニング過程を監督することができる。具体的には、フォント生成モデルが生成した第１ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、フォント生成モデルの文字ロスを得る。

本開示の１つの好ましい実施例において、前記第１ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、前記フォント生成モデルの文字ロスを得ることは、前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記第１ターゲットドメイン生成字の生成文字ベクトルを得ることと、前記生成文字ベクトルと予め設定された標準文字ベクトルとの間の差異に基づいて、前記文字ロスを算出することと、を含んでもよい。

そのうち、ＬＣは文字ロスを表し、ｘ_ｉは生成文字ベクトルにおける添え字がｉの要素を表し、ｙ_ｉは標準文字ベクトルにおける添え字がｉの要素を表し、ｉは０以上ｎ以下の整数であり、ｎは前記生成文字ベクトル及び前記標準文字ベクトルにおける要素数を表す。

上記技術態様は、フォント生成モデルの文字ロスを算出することによりフォント生成モデルが出力した第１ターゲットドメイン生成字の誤字率を拘束することができて、フォント生成モデルの誤字を生成する確率を低下させ、フォント生成モデルの確度を向上させる。

Ｓ２６０において、前記第１ターゲットドメイン生成字及びターゲットドメインサンプル字を前記文字分類モデルに入力し、前記フォント生成モデルの特徴ロスを得る。

そのうち、特徴ロスは文字分類モデルが第１ターゲットドメイン生成字及びターゲットドメインサンプル字により算出して得られた差異特徴であってもよく、フォント生成モデルがフォントの詳細をより多く学習することを監督することができる。

フォント生成モデルのフォント特徴を学習する能力をさらに向上させるために、フォント生成モデルの生成ロス及び文字ロスによってフォント生成モデルをトレーニングすること以外に、フォント生成モデルが自己トレーニングを完了した後に、予めトレーニングされた文字分類モデルによってフォント生成モデルのトレーニング過程を監督することができる。具体的には、フォント生成モデルが生成した第１ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、フォント生成モデルの特徴ロスを得る。

本開示の１つの好ましい実施例において、前記文字分類モデルは複数の特徴層を含み、前記第１ターゲットドメイン生成字及びターゲットドメインサンプル字を前記文字分類モデルに入力し、前記フォント生成モデルの特徴ロスを得ることは、前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した生成字特徴マップを得ることと、前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力したサンプル字特徴マップを得ることと、ターゲット特徴層の生成字特徴マップとサンプル字特徴マップとの間の差異を算出し、前記特徴ロスを得ることと、を含んでもよい。

そのうち、生成字特徴マップは文字分類モデルの各特徴層が出力した生成字の特徴マップであってもよい。サンプル字特徴マップは文字分類モデルの各特徴層が出力したサンプル字の特徴マップであってもよい。ターゲット特徴層は文字分類モデルのある１つ又は複数の特徴層であってもよい。

文字分類モデルは複数の特徴層（例えば、９０層の特徴層）を含んでもよく、第１ターゲットドメイン生成字を文字分類モデルに入力し、各層が出力した生成字特徴マップを得ることができる。ターゲットドメインサンプル字を文字分類モデルに入力し、各層が出力したサンプル字特徴マップを得ることができる。

各層の特徴層が出力した生成字特徴マップとサンプル字特徴マップとの間の差異に対して、該層の特徴ロスを確定することができる。例えば、各特徴層において、該特徴層が出力した生成字特徴マップ及びサンプル字特徴マップという２枚の画像の各対応する画素点の画素値を差異し、絶対値を求めて、各画素点の差異を得て、すべての画素点の差異を加算して、該特徴層の画素ロスを得る。

好ましくは、ターゲット特徴層として複数層の特徴層における少なくとも１つ（例えば、第４５層及び第４６層）を選択し、各ターゲット特徴層の特徴ロスの和を全体の特徴ロスとする。

上記全体の特徴ロスはフォント生成モデルが第１ターゲットドメイン生成字とターゲットドメインサンプル字との間に差異が比較的に大きい特徴を学習することを表すことに用いられることで、フォント生成モデルにフォントの詳細をより多く学習させ、フォント生成モデルのフォント特徴を学習する能力を向上させることができる。

本開示の１つの好ましい実施例において、前記のターゲット特徴層の生成字特徴マップとサンプル字特徴マップとの間の差異を算出することは、前記生成字特徴マップにおける各位置の画素点の画素値と前記サンプル字特徴マップの対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、複数の位置の画素点の差異に基づいて、前記生成字特徴マップとサンプル字特徴マップとの間の画素差異を確定することと、を含んでもよい。

Ｓ２７０において、前記文字ロス及び前記特徴ロスに応じて前記第１生成モデルのモデルパラメータを更新する。

本開示の実施例において、フォント生成モデルが生成ロスにより自己トレーニングを完了した後に、さらに、文字分類モデルによってそれぞれフォント生成モデルの文字ロス及び特徴ロスを算出して、文字ロス及び特徴ロスに応じてフォント生成モデルにおける第１生成モデルのモデルパラメータを更新することで、フォント生成モデルをトレーニングすることを監督し続けている。

上記技術態様は、文字ロス及び特徴ロスにより第１生成モデルのモデルパラメータを更新することにより、フォント生成モデルのトレーニングを監督することを実現し、フォント生成モデルの誤字を生成する確率を低下させ、フォント生成モデルのフォントを生成する確度及びフォント特徴を学習する能力を向上させることができる。

Ｓ２８０において、前記第１ターゲットドメイン生成字をフォント識別モデルに入力し、前記フォント生成モデルのターゲット敵対的ロスを得る。

本開示の１つの好ましい実施例において、前記第１ターゲットドメイン生成字をフォント識別モデルに入力する前に、複数タイプのソースドメインサンプル字を真のサンプル字として取得することと、前記第１ターゲットドメイン生成字を偽のサンプル字とすることと、前記真のサンプル字及び前記偽のサンプル字により二項分類（Ｂｉｎａｒｙｃｌａｓｓｉｆｉｃａｔｉｏｎ）モデルをトレーニングし、前記フォント識別モデルを得ることと、をさらに含んでもよい。

そのうち、二項分類モデルは入力されたサンプルの真偽種別を判別することができる。

フォント識別モデルによりフォント生成モデルのターゲット敵対的ロスを算出する前に、まず、フォント識別モデルを予めトレーニングする必要がある。まず、一連のソースドメインサンプル字のリアルなフォントを真のサンプル字として収集し、フォント生成モデルが生成した第１ターゲットドメイン生成字を偽のサンプル字とすることができる。異なるフォント生成モデルが生成した第１ターゲットドメイン生成字を各シリーズのソースドメインサンプル字に対応する偽のサンプル字として収集できるということを理解できる。真のサンプル字及び偽のサンプル字を得た後に、真のサンプル字及び偽のサンプル字をトレーニングサンプルとして二項分類モデルをトレーニングし、トレーニングに成功した二項分類モデルをフォント識別モデルとすることができる。

好ましくは、フォント識別モデルはトレーニングの過程においてモデル自身の判別ロスをロス関数とする。相応的に、フォント識別モデルが生成したターゲット敵対的ロスの表現式は（Ｙ_０ ^*－１）^２として表されてもよい。そのうち、Ｙ_０は第１ターゲットドメイン生成字がフォント識別モデルを経た後に得られた出力を表すことができる。

真のサンプル字及び偽のサンプル字をトレーニングサンプルとして二項分類モデルをトレーニングすることにより、二項分類モデルにフォント生成モデルが生成した第１ターゲットドメイン生成字のフォントがリアルなフォントに近いか否かを判別する能力を備えらせることができる。

Ｓ２９０において、前記ターゲット敵対的ロスに応じて前記フォント生成モデルのモデルパラメータを更新する。

なお、図２は１つの実現形態の示意図のみであり、ステップＳ２５０～Ｓ２６０とステップＳ２８０との間は、実行される早い順がなく、ステップＳ２５０～Ｓ２６０を実行してから、ステップＳ２８０を実行してもよい。ステップＳ２８０を実行してから、ステップＳ２５０～Ｓ２６０を実行してもよい。或いは、同時に上記操作を実行してもよい。そのうち、Ｓ２５０とＳ２６０との間も実行される早い順がない。同様に、Ｓ２７０とＳ２９０との間も実行される早い順がなく、ステップＳ２７０を実行してから、ステップＳ２９０を実行してもよい。ステップＳ２９０を実行してから、ステップＳ２７０を実行してもよい。或いは、同時に上記操作を実行してもよい。

本開示の１つの好ましい実施例において、前記ターゲット敵対的ロスに応じて前記フォント生成モデルのモデルパラメータを更新することは、前記第１生成モデルがモデル安定条件を満足すると確認するまで、前記ターゲット敵対的ロスに応じて前記第１生成モデルのモデルパラメータを複数回更新することを含んでもよく、前記モデル安定条件は、前記第１生成モデルの現在更新回数が所定回数に達したことを含む。

そのうち、所定回数はモデルのトレーニングのニーズに応じて設定されてもよく、例えば、５回又は８回などに設定されてもよく、本開示の実施例は所定回数の具体的な数値を限定しない。

好ましくは、設定された更新回数に達すると確認するまで、ターゲット敵対的ロスに応じてフォント生成モデルにおける第１生成モデルのモデルパラメータを複数回更新することができる。

図３及び図４は本開示の実施例に係るフォント生成モデルのネットワーク構造原理図である。１つの具体的な例において、図３及び図４に示すように、本開示の実施例において、フォント生成モデルは第１生成モデル、第２生成モデル、第１判別モデル及び第２判別モデルを含んでもよい。第１生成モデルは、ソースドメインフォントスタイルの画像をターゲットドメインフォントスタイルの画像に変換することに用いられ、第２生成モデルはターゲットドメインフォントスタイルの画像をソースドメインフォントスタイルの画像に変換することに用いられる。第１判別モデルは変換後の画像がソースドメインフォントスタイルの画像に属するか否かを判別することに用いられ、第２判別モデルは変換後の画像がターゲットドメインフォントスタイルの画像に属するか否かを判別することに用いられる。

上記フォント生成モデルの構造に基づいて、フォント生成モデルは２つの循環動作過程を含んでもよい。図３に示されたフォント生成モデルの第１の循環動作過程は、ソースドメインサンプル字を第１生成モデルに入力し、第１ターゲットドメイン生成字を得て、第１ターゲットドメイン生成字を第２生成モデルに入力し、第１ソースドメイン生成字を得る。図４に示されたフォント生成モデルの第２の循環動作過程は、ターゲットドメインサンプル字を第２生成モデルに入力し、第２ソースドメイン生成字を得て、第２ソースドメイン生成字を第１生成モデルに入力し、第２ターゲットドメイン生成字を得る。それで、フォント生成モデルのサンプルはペアリングされない画像であってもよく、トレーニングデータの間の１対１のマッピングを作成する必要がない。

本開示の実施例において、フォント生成モデルのロスは生成ロス及び判別ロスを含む。以下、ユーザの手書き字をターゲットドメインフォントスタイルとすることを例とし、フォント生成モデルの生成ロス及び判別ロスの計算方式を具体的に説明する。

図３に示すように、フォント生成モデルの第１の循環動作過程は、ソースドメインサンプル字（例えば、楷書体の字を含む画像、単に楷書体の字の画像という）を第１生成モデルに入力し、第１ターゲットドメイン生成字（例えば、手書き字を含む画像、単に手書き字の画像という）を得る。第１ターゲットドメイン生成字（手書き字の画像）を第２生成モデルに入力し、第１ソースドメイン生成字（楷書体の字の画像）を得る。

第１の循環動作過程において、ソースドメインサンプル字はリアルな楷書体の字の画像であるが、第１ソースドメイン生成字はモデルが生成した楷書体の字の画像であり、偽の楷書体の字の画像と言ってもよい。第１ターゲットドメイン生成字はモデルが生成した手書き字の画像であり、偽の手書き字の画像と言ってもよい。トレーニング過程において、ソースドメインサンプル字をリアルＲｅａｌ（例えば、値が１である）とマークし、第１ターゲットドメイン生成字を偽Ｆａｋｅ（例えば、値が０である）とマークすることができる。

ソースドメインサンプル字を第１判別モデルに入力し、第１判別モデルにとって、期待出力は１である。第１判別モデルは実際にＸを出力し、平均二乗誤差によって第１判別モデルのロスを算出すると、第１判別モデルの一部のロスは（Ｘ－１）^２として表されてもよい。

第１ターゲットドメイン生成字を第２判別モデルに入力し、第２判別モデルにとって、期待出力は０である。第２判別モデルは実際にＹ*（区別しやすいために、*付きパラメータによって該パラメータがモデルが生成した画像に関連することを表し、*付かないパラメータによって該パラメータがリアルな画像に関連することを表すことができる）を出力し、平均二乗誤差によって第２判別モデルのロスを算出すると、第２判別モデルの一部のロスは（Ｙ_０ ^*－０）^２として表されてもよい。

第１ターゲットドメイン生成字を第２判別モデルに入力し、第１生成モデルにとって、第２判別モデルは１を出力すると望ましい。第２判別モデルは実際にＹ*を出力し、平均二乗誤差によって第１生成モデルのロスを算出すると、第１生成モデルの一部のロスは（Ｙ^*－１）^２として表されてもよく、該ロスは第１生成モデルの敵対的ロスであってもよい。

ソースドメインサンプル字を第１生成モデルに入力して得られた第１ソースドメイン生成字は単にスタイルが変換され、内容が変更されないことを保証するために、第１生成モデルに対して１つのｃｙｃｌｅ－ｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓ（循環一致性ロス）を増えることができる。該ロスはソースドメインサンプル字と第１ソースドメイン生成字との間の差異に基づいて算出して得られることができる。例えば、ソースドメインサンプル字及び第１ソースドメイン生成字という２枚の画像の各対応する画素点の画素値を差異し、絶対値を求めて、各画素点の差異を得て、すべての画素点の差異を加算して、第１生成モデルの循環一致性ロスを得て、Ｌ１_Ａ２Ｂと表記することができる。

それで、第１生成モデルの一部のロスは（Ｙ^*－１）^２であり、もう一部のロスはＬ１_Ａ２Ｂであり、この２つの部分のロスの和を第１生成モデルの全体のロスＬ_Ａ２Ｂとし、第１生成モデルの全体のロスＬ_Ａ２Ｂは、以下のような式（１）で表されることができる。
Ｌ_Ａ２Ｂ＝（Ｙ^*－１）^２＋Ｌ１_Ａ２Ｂ（１）

図４に示すように、フォント生成モデルの第２の循環動作過程は、ターゲットドメインサンプル字（例えば、手書き字を含む画像、単に手書き字の画像という）を第２生成モデルに入力し、第２ソースドメイン生成字（例えば、楷書体の字を含む画像、単に楷書体の字の画像という）を得る。第２ソースドメイン生成字（楷書体の字の画像）を第１生成モデルに入力し、第２ターゲットドメイン生成字（手書き字の画像）を得る。

第２の循環動作過程において、ターゲットドメインサンプル字はリアルな手書き字の画像であり、第２ターゲットドメイン生成字はモデルが生成した手書き字の画像であり、偽の手書き字の画像と言ってもよい。第２ソースドメイン生成字はモデルが生成した楷書体の字の画像であり、偽の楷書体の字の画像と言ってもよい。トレーニング過程において、ターゲットドメインサンプル字をリアルＲｅａｌ（例えば、値が１である）とマークし、第２ソースドメイン生成字を偽Ｆａｋｅ（例えば、値が０である）とマークすることができる。

ターゲットドメインサンプル字を第２判別モデルに入力し、第２判別モデルにとって、期待出力は１である。第２判別モデルは実際にＹを出力し、平均二乗誤差によって第２判別モデルのロスを算出すると、第２判別モデルの一部のロスは（Ｙ－１）^２として表されてもよい。

第２ソースドメイン生成字を第１判別モデルに入力し、第１判別モデルにとって、期待出力は０である。第１判別モデルは実際にＸ*を出力し、平均二乗誤差によって第１判別モデルのロスを算出すると、第１判別モデルの一部のロスは（Ｘ^*－０）^２として表されてもよい。

第２ソースドメイン生成字を第１判別モデルに入力し、第２生成モデルにとって、第１判別モデルは１を出力すると望ましい。第１判別モデルは実際にＸ*を出力し、平均二乗誤差によって第２生成モデルのロスを算出すると、第２生成モデルの一部のロスは（Ｘ^*－１）^２として表されてもよい。

ターゲットドメインサンプル字を第２生成モデルに入力して得られた第２ターゲットドメイン生成字は単にスタイルが変換され、内容が変更されないことを保証するために、第２生成モデルに対して１つのｃｙｃｌｅ－ｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓ（循環一致性ロス）を増えることができる。該ロスはターゲットドメインサンプル字と第２ターゲットドメイン生成字との間の差異に基づいて算出して得られることができる。例えば、ターゲットドメインサンプル字及び第２ターゲットドメイン生成字という２枚の画像の各対応する画素点の画素値を差異し、絶対値を求めて、各画素点の差異を得て、すべての画素点の差異を加算して、第２生成モデルの循環一致性ロスを得て、Ｌ１_Ｂ２Ａと表記することができる。

それで、第２生成モデルの一部のロスは（Ｘ^*－１）^２であり、もう一部のロスはＬ１_Ｂ２Ａであり、この２つの部分のロスの和を第２生成モデルの全体のロスＬ_Ｂ２Ａとし、第２生成モデルの全体のロスＬ_Ｂ２Ａは、以下のような式（２）で表されることができる。
Ｌ_Ｂ２Ａ＝（Ｘ^*－１）^２＋Ｌ１_Ｂ２Ａ（２）

第１生成モデルの全体のロスＬ_Ａ２Ｂと第２生成モデルの全体のロスＬ_Ｂ２Ａとの和をフォント生成モデルの生成ロスとし、生成ロスは、以下のような式（３）で表されることができる。
Ｌ_Ｇ＝（Ｙ^*－１）^２＋Ｌ１_Ａ２Ｂ＋（Ｘ^*－１）^２＋Ｌ１_Ｂ２Ａ（３）

そのうち、Ｌ_Ｇはフォント生成モデルの生成ロスを表し、第１生成モデル及び第２生成モデルのモデルパラメータを調整することに用いられることができる。

フォント生成モデルの判別ロスは、第１判別モデルの判別ロス及び第２判別モデルの判別ロスを含む。

図３から第１判別モデルの一部のロスが（Ｘ－１）^２であると算出し、図４から第１判別モデルのもう一部のロスが（Ｘ^＊－０）^２であると算出し、この２つの部分のロスの和を第１判別モデルの判別ロスとし、第１判別モデルの判別ロスＬ_Ａは、以下のような式（４）で表されることができる。
Ｌ_Ａ＝（Ｘ－１）^２＋（Ｘ^＊－０）^２（４）

第１判別モデルの判別ロスＬ_Ａは、第１判別モデルのモデルパラメータを調整することに用いられることができる。

類似的に、図３から第２判別モデルの一部のロスが（Ｙ^＊－０）^２であると算出し、図４から第２判別モデルのもう一部のロスが（Ｙ－１）^２であると算出し、この２つの部分のロスの和を第２判別モデルの判別ロスとし、第２判別モデルの判別ロスＬ_Ｂは、以下のような式（５）で表されることができる。
Ｌ_Ｂ＝（Ｙ－１）^２＋（Ｙ^＊－０）^２（５）

第２判別モデルの判別ロスＬ_Ｂは、第２判別モデルのモデルパラメータを調整することに用いられることができる。

上記技術態様は、フォント生成モデルの生成ロスによって第１生成モデルのモデルパラメータを更新することにより、フォント生成モデルの自身構造に応じてフォント生成モデルを最適化し、フォント生成モデルのフォント特徴を学習する能力を向上させることを実現できる。

図５は本開示の実施例に係る特徴ロスの可視化効果模式図である。１つの具体的な例において、図５の（１）であるサブ図に示すように、ターゲットドメインサンプル字５０１はリアルな手書き字の「神」を含む画像であり、即ち、ターゲットドメインサンプル字５０１における「神」という字はユーザのリアルな手書き字である。第１ターゲットドメイン生成字５０２はフォント生成モデルが生成した手書き字の「神」を含む画像であり、ターゲットドメインサンプル字５０１及び第１ターゲットドメイン生成字５０２の大きさはいずれも２５６×２５６である。ターゲットドメインサンプル字５０１及び第１ターゲットドメイン生成字５０２が文字分類モデルに入力され、文字分類モデルの第１ターゲット特徴層においてそれぞれサンプル字特徴マップ及び生成字特徴マップを出力し、サンプル字特徴マップ及び生成字特徴マップの大きさはいずれも６４×６４であり、この２枚の６４×６４の画像に対して画素差異計算を行った後に、該２枚の画像の間の差異を表す熱力効果図５０３を得る。熱力効果図５０３も６４×６４の画像であり、熱力効果図５０３において色が濃いところほどターゲットドメインサンプル字５０１と第１ターゲットドメイン生成字５０２との間の差異が大きいことを表し、フォント生成モデルを熱力効果図５０３における色が濃い箇所の特徴を学習することにより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させることができる。

類似的に、図５の（２）であるサブ図に示すように、ターゲットドメインサンプル字５０１及び第１ターゲットドメイン生成字５０２が文字分類モデルに入力され、文字分類モデルの第２ターゲット特徴層においてそれぞれサンプル字特徴マップ及び生成字特徴マップを出力し、サンプル字特徴マップ及び生成字特徴マップの大きさはいずれも３２×３２であり、この２枚の３２×３２の画像に対して画素差異計算を行った後に、該２枚の画像の間の差異を表す熱力効果図５０４を得る。熱力効果図５０４も３２×３２の画像であり、熱力効果図５０４における色が濃いところほどターゲットドメインサンプル字５０１と第１ターゲットドメイン生成字５０２との間の差異が大きいことを表し、フォント生成モデルを熱力効果図５０４における色が濃い箇所の特徴を学習することにより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させることができる。

熱力効果図５０３及び熱力効果図５０４を結び付けて、共同でフォント生成モデルにターゲットドメインサンプル字５０１と第１ターゲットドメイン生成字５０２との間の差異が比較的に大きい特徴を学習させることにより、フォント生成モデルのフォント特徴を学習する能力を向上させるということを理解することができる。

図６は本開示の実施例に係るフォント生成モデルトレーニング方法の原理図である。図６に示すように、フォント生成モデルに対する完全なトレーニング過程は下記操作を含むことができる。まず、ソースドメインサンプル字をフォント生成モデルの第１生成モデルに入力し、第１ターゲットドメイン生成字及び第１ソースドメイン生成字を得て、ターゲットドメインサンプル字をフォント生成モデルの第２生成モデルに入力し、第２ターゲットドメイン生成字及び第２ソースドメイン生成字を得る。さらに、ソースドメインサンプル字、第１ターゲットドメイン生成字、第１ソースドメイン生成字、ターゲットドメインサンプル字、第２ターゲットドメイン生成字及び第２ソースドメイン生成字により、フォント生成モデルの生成ロスを算出し、これにより、生成ロスに応じて第１生成モデルのモデルパラメータを更新し、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルの第１回のトレーニングが完了した後に、第１ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、フォント生成モデルの文字ロスを得て、第１ターゲットドメイン生成字及びターゲットドメインサンプル字を文字分類モデルに入力し、フォント生成モデルの特徴ロスを得ることにより、文字分類モデルにより算出して得られた文字ロス及び特徴ロスに応じて第１生成モデルのモデルパラメータを更新し、再びフォント生成モデルに対するトレーニングを実現する。第１ターゲットドメイン生成字をフォント識別モデルに入力することにより、フォント生成モデルのターゲット敵対的ロスを算出し、ターゲット敵対的ロスに応じてフォント生成モデルのモデルパラメータを複数回更新することもできる。なお、文字ロス、特徴ロス及びターゲット敵対的ロスに応じてフォント生成モデルをトレーニングする過程は同期に行われてもよいし、早い順で実行されてもよく、本開示の実施例はこれに対して制限することはない。

図７は本開示の実施例に係る文字ロスによりトレーニングして得られたフォント生成モデルの効果の対比模式図である。１つの具体的な例において、図７に示すように、（１）である画像は文字ロスでフォント生成モデルを拘束せずに生成した手書き字の「伶」を含む画像である。（２）である画像は文字ロスでフォント生成モデルを拘束して生成した手書き字の「伶」を含む画像である。（１）である画像における「伶」という字は正確な「伶」という字に比べて１つの点を少ないが、（２）である画像における「伶」という字は正確な「伶」という字である。それで、文字ロスでフォント生成モデルを拘束することにより、正確な字を学習し、誤字率を低下させ、モデルの確度を向上させることができる。

図９は本開示の実施例に係るターゲット敵対的ロスによりトレーニングして得られたフォント生成モデルの効果の対比模式図である。１つの具体的な例において、図９に示すように、（１）である画像はリアルな手書き字の「久」を含む画像であり、即ち、（１）である画像の「久」という字はユーザのリアルな手書き字である。（２）である画像はターゲット敵対的ロスに応じてフォント生成モデルを拘束せずに生成した手書き字の「久」を含む画像である。（３）である画像はターゲット敵対的ロスによってフォント生成モデルを拘束して生成した手書き字の「久」を含む画像である。（２）である画像における「久」という字に比べて、（３）である画像における「久」という字の字画がより安定し、字画の接続がより規則的である。

上記技術態様は、生成ロス、文字ロス、特徴ロス及びターゲット敵対的ロスなどの複数種のロスのタイプによってフォント生成モデルをトレーニングすることにより、フォント生成モデルのフォント特徴を学習する能力を向上させ、誤字の生成率を低下させ、フォント生成モデルのフォントを生成する見栄え及び確度を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。

本開示の技術態様において、ユーザの個人情報（例えばユーザのフォント情報など）の収集、記憶、使用、加工、伝送、提供及び公開などに関する処理は、いずれも関連する法律や法律的規則の規定に適合し、且つ公序良俗に反するものではない。

なお、以上の各実施例における各技術的特徴の間の任意の組み合わせも本開示の保護範囲に属する。

一例において、図１０は本開示の実施例に係る字庫作成方法のフロー図である。本開示の実施例は敵対的ロスに応じてトレーニングして最適化されたフォント生成モデルを利用して字庫を作成する場合に適用されることができ、該方法は字庫作成装置により実行されてもよく、該装置はソフトウェア及び／又はハードウェアの形態により実現されてもよく、一般的に電子機器に集積されることができる。該電子機器は端末機器又はサーバ機器などであってもよく、本開示の実施例は字庫作成方法を実行する電子機器のタイプを限定しない。相応的に、図１０に示すように、該方法は以下のような操作を含む。

Ｓ１０１０において、ソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得る。

そのうち、ソースドメイン入力字はある１つのソースドメインフォントのある字であってもよく、ターゲットドメイン新字は生成する必要があるターゲットドメインフォントスタイルを有する新字であってもよい。例示的に、ソースドメイン入力字は楷書体の字の画像であってもよく、新字は手書き字の画像であってもよく、楷書体の字の画像をフォント生成モデルに入力し、手書き字の画像を得ることができる。フォント生成モデルは上記いずれか１つの実施例に記載のフォント生成モデルトレーニング方法によるトレーニングで得られる。

Ｓ１０２０において、前記ターゲットドメイン新字に基づいて字庫を作成する。

例示的に、フォント生成モデルが生成した新字を記憶し、手書きフォントスタイルを有する字庫を作成し、該字庫は入力法に適用されることができ、ユーザは該字庫に基づく入力法を使用して直接に手書きフォントスタイルを有する字を取得し、ユーザの多様化のニーズを満足し、ユーザの体験を向上させることができる。

一例において、図１１は本開示の実施例に係るフォント生成モデルトレーニング装置の構造図である。本開示の実施例は敵対的ロスに応じてトレーニングしてフォント生成モデルを最適化させる場合に適用されることができ、該装置はソフトウェア及び／又はハードウェアにより実現され、具体的には、電子機器に配置される。該電子機器は端末機器又はサーバ機器などであってもよい。

図１１に示すようなフォント生成モデルトレーニング装置１１００は、第１ターゲットドメイン生成字取得モジュール１１１０、ターゲット敵対的ロス取得モジュール１１２０及びモデルパラメータ更新モジュール１１３０を含む。そのうち、
第１ターゲットドメイン生成字取得モジュール１１１０は、ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることに用いられ、
ターゲット敵対的ロス取得モジュール１１２０は、前記第１ターゲットドメイン生成字をフォント識別モデルに入力し、前記フォント生成モデルのターゲット敵対的ロスを得ることに用いられ、
第１モデルパラメータ更新モジュール１１３０は、前記ターゲット敵対的ロスに応じて前記フォント生成モデルのモデルパラメータを更新することに用いられる。

本開示の実施例はソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることにより、第１ターゲットドメイン生成字をフォント識別モデルに入力し、フォント生成モデルのターゲット敵対的ロスを得て、ターゲット敵対的ロスに応じてフォント生成モデルのモデルパラメータを複数回更新し、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルのトレーニングが完了した後に、ソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得て、ターゲットドメイン新字に基づいて字庫を作成することができることにより、従来のフォント生成モデルがフォントレベルのフォントを生成しにくいという問題を解決し、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントを生成する見栄えを向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。

好ましくは、フォント生成モデルトレーニング装置は、複数タイプのソースドメインサンプル字を真のサンプル字として取得することに用いられる真のサンプル字取得モジュールと、前記第１ターゲットドメイン生成字を偽のサンプル字とすることに用いられる偽のサンプル字取得モジュールと、前記真のサンプル字及び前記偽のサンプル字により二項分類モデルをトレーニングし、前記フォント識別モデルを得ることに用いられるフォント識別モデルトレーニングモジュールと、をさらに含む。

好ましくは、前記フォント生成モデルは循環ネットワーク生成モデルであり、第１生成モデル及び第２生成モデルを含み、第１モデルパラメータ更新モジュール１１３０は、具体的には、前記第１生成モデルがモデル安定条件を満足すると確認するまで前記ターゲット敵対的ロスに応じて前記第１生成モデルのモデルパラメータを複数回更新することに用いられ、前記モデル安定条件は、前記第１生成モデルの現在更新回数が所定回数に達したことを含む。

好ましくは、第１ターゲットドメイン生成字取得モジュール１１１０は、具体的には、前記ソースドメインサンプル字を前記第１生成モデルに入力し、前記第１ターゲットドメイン生成字及び第１ソースドメイン生成字を得ることに用いられ、フォント生成モデルトレーニング装置は、ターゲットドメインサンプル字を前記第２生成モデルに入力し、第２ターゲットドメイン生成字及び第２ソースドメイン生成字を得ることに用いられる第２ターゲットドメイン生成字取得モジュールと、前記ソースドメインサンプル字、前記第１ターゲットドメイン生成字、前記第１ソースドメイン生成字、前記ターゲットドメインサンプル字、前記第２ターゲットドメイン生成字及び前記第２ソースドメイン生成字により、前記フォント生成モデルの生成ロスを算出することに用いられる生成ロス計算モジュールと、前記生成ロスに応じて前記第１生成モデルのモデルパラメータを更新することに用いられる第２モデルパラメータ更新モジュールと、をさらに含む。

好ましくは、フォント生成モデルトレーニング装置は、前記第１ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、前記フォント生成モデルの文字ロスを得ることに用いられる文字ロス取得モジュールと、前記第１ターゲットドメイン生成字及びターゲットドメインサンプル字を前記文字分類モデルに入力し、前記フォント生成モデルの特徴ロスを得ることに用いられる特徴ロス取得モジュールと、前記文字ロス及び前記特徴ロスに応じて前記第１生成モデルのモデルパラメータを更新することに用いられる第３モデルパラメータ更新モジュールと、をさらに含む。

好ましくは、前記文字ロス取得モジュールは、具体的には、前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記第１ターゲットドメイン生成字の生成文字ベクトルを得ることと、前記生成文字ベクトルと予め設定された標準文字ベクトルとの間の差異に基づいて、前記文字ロスを算出することと、に用いられる。

好ましくは、前記文字分類モデルは複数の特徴層を含み、前記特徴ロス取得モジュールは、具体的には、前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した生成字特徴マップを得ることと、前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力したサンプル字特徴マップを得ることと、ターゲット特徴層の生成字特徴マップとサンプル字特徴マップとの間の差異を算出し、前記特徴ロスを得ることと、に用いられる。

好ましくは、前記特徴ロス取得モジュールは、具体的には、前記生成字特徴マップにおける各位置の画素点の画素値と前記サンプル字特徴マップの対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、複数の位置の画素点の差異に基づいて、前記生成字特徴マップとサンプル字特徴マップとの間の画素差異を確定することと、に用いられる。

好ましくは、前記ソースドメインサンプル字はターゲットソースドメインフォントスタイルを有する画像である。

上記フォント生成モデルトレーニング装置は、本開示の任意の実施例によるフォント生成モデルトレーニング方法を実行でき、実行方法に対応する機能モジュールと有益な効果を備える。本実施例において詳細に説明されない技術的詳細は、本開示の任意の実施例によるフォント生成モデルトレーニング方法を参照することができる。

一例において、図１２は本開示の実施例に係る字庫作成装置の構造図である。本開示の実施例は敵対的ロスに応じてトレーニングして最適化されたフォント生成モデルを利用して字庫を作成する場合に適用されることができ、該装置はソフトウェア及び／又はハードウェアにより実現され、具体的には、電子機器に配置される。該電子機器は端末機器又はサーバ機器などであってもよい。

図１２に示すような字庫作成装置１２００は、ターゲットドメイン新字取得モジュール１２１０及び字庫作成モジュール１２２０を含む。そのうち、
ターゲットドメイン新字取得モジュール１２１０は、ソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることに用いられ、
字庫作成モジュール１２２０は、前記ターゲットドメイン新字に基づいて字庫を作成することに用いられ、
前記フォント生成モデルは本開示のいずれか１つの実施例に記載のフォント生成モデルトレーニング装置によるトレーニングで得られる。

上記字庫作成装置は、本開示の任意の実施例による字庫作成方法を実行でき、実行方法に対応する機能モジュールと有益な効果を備える。本実施例において詳細に説明されない技術的詳細は、本開示の任意の実施例による字庫作成方法を参照することができる。

一例において、本開示は、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。

図１３は、本開示の実施例を実施することに用いられることができる例示的な電子機器１３００の概略ブロック図を示した。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、作業台、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを意図する。電子機器も、パーソナルディジタル処理、携帯電話、スマートフォン、ウェアラブル機器及び他の類似する計算装置などの様々な形式の移動装置を表すことができる。本明細書に示された構成要素、それらの接続及び関係、及びそれらの機能は、例示のみとされ、本明細書に説明された及び／又は要求された本開示の実現を限定するものではない。

図１３に示すように、機器１３００は、読み取り専用メモリ（ＲＯＭ）１３０２に記憶されたコンピュータプログラム又は記憶ユニット１３０８からランダムアクセスメモリ（ＲＡＭ）１３０３にロードされたコンピュータプログラムにより、様々な適切な動作及び処理を実行することができる計算ユニット１３０１を含む。ＲＡＭ１３０３において、機器１３００の操作に必要な各種プログラム及びデータも記憶することができる。計算ユニット１３０１、ＲＯＭ１３０２及びＲＡＭ１３０３は、バス１３０４を介して相互に接続されている。入力／出力（Ｉ／Ｏ）インターフェース１３０５もバス１３０４に接続されている。

キーボード、マウスなどの入力ユニット１３０６と、各種のディスプレイ、スピーカなどの出力ユニット１３０７と、磁気ディスク、光学ディスクなどの記憶ユニット１３０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット１３０９とを含む機器１３００内の複数の構成要素は、Ｉ／Ｏインターフェース１３０５に接続されている。通信ユニット１３０９は、機器１３００がインターネットなどのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他の機器と情報／データを交換することを許可する。

計算ユニット１３０１は、処理及び計算能力を有する様々な汎用及び／又は特定用途向け処理コンポーネントであってもよい。計算ユニット１３０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、様々な特定用途向け人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット１３０１は、フォント生成モデルトレーニング方法又は字庫作成方法などの上述した様々な方法及び処理を実行する。例えば、いくつかの実施例では、フォント生成モデルトレーニング方法又は字庫作成方法は、記憶ユニット１３０８などの機械可読媒体に有形に含まれているコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ１３０２及び／又は通信ユニット１３０９を介して機器１３００にロード及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ１３０３にロードされ、計算ユニット１３０１によって実行される時に、上述したフォント生成モデルトレーニング方法又は字庫作成方法の１つ又は複数のステップを実行することができる。代替的に、他の実施例において、計算ユニット１３０１は、他の任意の適切な形態によって（例えば、ファームウェアによって）フォント生成モデルトレーニング方法又は字庫作成方法を実行するように構成することができる。

本明細書において、上記したシステム及び技術の各種実施形態は、デジタル電子回路システム、集積回路システム、ドメインプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップシステム（ＳＯＣ）、ロードプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせによって実現されることができる。これらの各種実施形態は次のことを含んでもよい。少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈されることができる１つ又は複数のコンピュータプログラムで実施され、該プログラマブルプロセッサは、特定用途向け又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び指令を受信し、データ及び指令を該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、特定用途向けコンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、これにより、プログラムコードがプロセッサ又はコントローラにより実行される時、フロー図及び／又はブロック図に規定された機能／操作が実施される。プログラムコードは、全部でマシン上で、部分的にマシン上で、スタンドアロンソフトウェアパッケージとして部分的にマシン上で、且つ部分的にリモートマシン上で、又は全部でリモートマシン又はサーバ上で実行することができる。

本開示のコンテキストにおいて、機械可読媒体は、指令実行システム、装置又は機器によって使用される又は指令実行システム、装置、又は機器と合わせて使用されるプログラムを含む又は記憶することができる有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体のシステム、装置、又は機器、或いはこれらの任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気的に接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、光記憶機器、磁気記憶機器、又はこれらの任意の適切な組み合わせを含んでもよい。

ユーザとの対話を提供するために、コンピュータ上にここで説明されたシステム及び技術を実施でき、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニター）と、キーボード及びポインティングデバイス（例えば、マウスやトラックボールなど）とを有し、ユーザは該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置も、ユーザとの対話を提供することに用いられることができ、例えば、ユーザに提供されたフィードバックは、いかなる形式の感覚フィードバック（例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、いかなる形式（音響入力、音声入力又は触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステム及び技術を、バックグラウンド部材を含むコンピューティングシステム（例えば、データサーバとして）、又はミドルウェア部材を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部材を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェイス又はウェブブラウザーを有するユーザコンピュータ、ユーザは該グラフィカルユーザインターフェイス又は該ウェブブラウザーを介してここで説明されたシステム及び技術の実施形態と対話できる）、又はこのようなバックグラウンド部材、ミドルウェア部材、又はフロントエンド部材を含む任意の組み合わせのコンピューティングシステムで実施されることができる。システムの部材は、いかなる形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介して互いに接続できる。通信ネットワークの例として、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、ブロックチェーンネットワーク及びインターネットを含む。

コンピューティングシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは、一般に、互いに離れていて、且つ通常には通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータ上で実行されるとともに互いにクライアント－サーバ関係を有するコンピュータプログラムによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのうちの一つのホスト製品であり、これにより、従来の物理ホストとＶＰＳサービスに存在している管理の難度が大きく、サービスの拡張性が弱いという欠陥を解決する。サーバも分散システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。

本開示の実施例はソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることにより、第１ターゲットドメイン生成字をフォント識別モデルに入力し、フォント生成モデルのターゲット敵対的ロスを得て、ターゲット敵対的ロスに応じてフォント生成モデルのモデルパラメータを複数回更新し、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルのトレーニングが完了した後に、ソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得て、ターゲットドメイン新字に基づいて字庫を作成することにより、従来のフォント生成モデルがフォントレベルのフォントを生成しにくいという問題を解決し、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントを生成する見栄えを向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させ、ユーザの多様化のニーズを満足し、ユーザの体験を向上させることができる。

上記に示した様々な形式のフローを使用して、ステップを並び替え、増加又は削除してもよい。例えば、本開示に開示された技術態様の望ましい結果が実現される限り、本開示に記載の各ステップを同時に実行しても、順序に実行しても、異なる順序で実行してもよく、本明細書はこれを制限しないことを理解すべきである。

上記の具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要件及び他の要因に従って、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができることを理解すべきである。本開示の精神及び原理の範囲内で行われるあらゆる修正、同価置換、改良などは、いずれも本開示の保護範囲に含まれるべきである。

Claims

ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることと、
前記第１ターゲットドメイン生成字をフォント識別モデルに入力し、前記フォント生成モデルのターゲット敵対的ロスを得ることと、
前記ターゲット敵対的ロスに応じて前記フォント生成モデルのモデルパラメータを更新することと、を含む、
フォント生成モデルトレーニング方法。
複数タイプのソースドメインサンプル字を真のサンプル字として取得することと、
前記第１ターゲットドメイン生成字を偽のサンプル字とすることと、
前記真のサンプル字及び前記偽のサンプル字により二項分類モデルをトレーニングし、前記フォント識別モデルを得ることと、をさらに含む、
請求項１に記載のフォント生成モデルトレーニング方法。
前記フォント生成モデルは、循環ネットワーク生成モデルであり、第１生成モデル及び第２生成モデルを含み、
前記ターゲット敵対的ロスに応じて前記フォント生成モデルのモデルパラメータを更新することは、
前記第１生成モデルがモデル安定条件を満足すると確認するまで、前記ターゲット敵対的ロスに応じて前記第１生成モデルのモデルパラメータを複数回更新することを含み、
前記モデル安定条件は、前記第１生成モデルの現在更新回数が所定回数に達したことを含む、
請求項１に記載のフォント生成モデルトレーニング方法。
ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることは、前記ソースドメインサンプル字を前記第１生成モデルに入力し、前記第１ターゲットドメイン生成字及び第１ソースドメイン生成字を得ることを含み、
ターゲットドメインサンプル字を前記第２生成モデルに入力し、第２ターゲットドメイン生成字及び第２ソースドメイン生成字を得ることと、
前記ソースドメインサンプル字、前記第１ターゲットドメイン生成字、前記第１ソースドメイン生成字、前記ターゲットドメインサンプル字、前記第２ターゲットドメイン生成字及び前記第２ソースドメイン生成字により、前記フォント生成モデルの生成ロスを算出することと、
前記生成ロスに応じて前記第１生成モデルのモデルパラメータを更新することと、をさらに含む、
請求項３に記載のフォント生成モデルトレーニング方法。
前記第１ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、前記フォント生成モデルの文字ロスを得ることと、
前記第１ターゲットドメイン生成字及びターゲットドメインサンプル字を前記文字分類モデルに入力し、前記フォント生成モデルの特徴ロスを得ることと、
前記文字ロス及び前記特徴ロスに応じて前記第１生成モデルのモデルパラメータを更新することと、をさらに含む、
請求項３又は４に記載のフォント生成モデルトレーニング方法。
前記第１ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、前記フォント生成モデルの文字ロスを得ることは、
前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記第１ターゲットドメイン生成字の生成文字ベクトルを得ることと、
前記生成文字ベクトルと予め設定された標準文字ベクトルとの間の差異に基づいて、前記文字ロスを算出することと、を含む、
請求項５に記載のフォント生成モデルトレーニング方法。
前記文字分類モデルは複数の特徴層を含み、
前記第１ターゲットドメイン生成字及びターゲットドメインサンプル字を前記文字分類モデルに入力し、前記フォント生成モデルの特徴ロスを得ることは、
前記第１ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した生成字特徴マップを得ることと、
前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力したサンプル字特徴マップを得ることと、
ターゲット特徴層の生成字特徴マップとサンプル字特徴マップとの間の差異を算出し、前記特徴ロスを得ることと、を含む、
請求項５に記載のフォント生成モデルトレーニング方法。
ターゲット特徴層の生成字特徴マップとサンプル字特徴マップとの間の差異を算出することは、
前記生成字特徴マップにおける各位置の画素点の画素値と前記サンプル字特徴マップの対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、
複数の位置の画素点の差異に基づいて、前記生成字特徴マップとサンプル字特徴マップとの間の画素差異を確定することと、を含む、
請求項７に記載のフォント生成モデルトレーニング方法。
前記ソースドメインサンプル字はターゲットソースドメインフォントスタイルを有する画像である、
請求項１～８のいずれか一項に記載のフォント生成モデルトレーニング方法。
ソースドメイン入力字を、請求項１～９のいずれか一項に記載のフォント生成モデルトレーニング方法によるトレーニングで得られたフォント生成モデルに入力し、ターゲットドメイン新字を得ることと、
前記ターゲットドメイン新字に基づいて字庫を作成することと、を含む、
字庫作成方法。
請求項１～９のいずれか一項に記載のフォント生成モデルトレーニング方法を実行することに用いられるフォント生成モデルトレーニング装置であって、
ソースドメインサンプル字をフォント生成モデルに入力し、第１ターゲットドメイン生成字を得ることに用いられる第１ターゲットドメイン生成字取得モジュールと、
前記第１ターゲットドメイン生成字をフォント識別モデルに入力し、前記フォント生成モデルのターゲット敵対的ロスを得ることに用いられるターゲット敵対的ロス取得モジュールと、
前記ターゲット敵対的ロスに応じて前記フォント生成モデルのモデルパラメータを更新することに用いられる第１モデルパラメータ更新モジュールと、を備える、
フォント生成モデルトレーニング装置。
ソースドメイン入力字を、請求項１１に記載のフォント生成モデルトレーニング装置によるトレーニングで得られたフォント生成モデルに入力し、ターゲットドメイン新字を得ることに用いられるターゲットドメイン新字取得モジュールと、
前記ターゲットドメイン新字に基づいて字庫を作成することに用いられる字庫作成モジュールと、を備える、
字庫作成装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されたメモリと、を含み、
前記メモリには前記少なくとも１つのプロセッサにより実行されることができる指令が記憶され、
前記指令は、前記少なくとも１つのプロセッサにより実行されることにより、前記少なくとも１つのプロセッサに請求項１～９のいずれか一項に記載のフォント生成モデルトレーニング方法又は請求項１０に記載の字庫作成方法を実行可能である、
電子機器。
コンピュータ指令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ指令は、コンピュータに、請求項１～９のいずれか一項に記載のフォント生成モデルトレーニング方法又は請求項１０に記載の字庫作成方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体。
プロセッサに実行されると、請求項１～９のいずれか一項に記載のフォント生成モデルトレーニング方法又は請求項１０に記載の字庫作成方法を実現する、
コンピュータプログラム。