JP7384943B2

JP7384943B2 - 文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体

Info

Publication number: JP7384943B2
Application number: JP2022007458A
Authority: JP
Inventors: 唐礼承; 劉家銘
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-09
Filing date: 2022-01-20
Publication date: 2023-11-21
Anticipated expiration: 2042-01-20
Also published as: JP2023039892A; CN113792526A; US20220189083A1; EP4148685A1; KR20220032538A; CN113792526B

Description

本開示は、人工知能の技術分野、具体的にコンピュータビジョン及びディープラーニングの技術分野に関し、特に文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体に関する。

画像処理は、巨大な社会的・経済的効果を持つ実用技術であり、様々な業種及び人々の日常生活に広く適用されている。

画像のスタイル遷移とは、１枚の画像の内容を不変のまま保持し、スタイルを当該画像から別の画像に遷移して１枚の新たなアート画像を形成するものである。

本開示は、文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体を提供している。

本開示の一態様によれば、
ソースドメインサンプル字及びターゲットドメインスタイル字を文字生成モデルに入力し、ターゲットドメイン生成字を取得することと、
前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出することと、
前記特徴ロスに基づいて前記文字生成モデルのパラメータを調整することと、を含む、
文字生成モデルのトレーニング方法を提供する。

本開示の他の態様によれば、
ソースドメイン入力字及び対応するターゲットドメイン入力字を取得することと、
前記ソースドメイン入力字及び前記ターゲットドメイン入力字を、本開示のいずれかの実施例に記載の方法によるトレーニングで得られた文字生成モデルに入力し、ターゲットドメイン新字を取得することと、を含む、
文字生成方法を提供する。

本開示の一態様によれば、
ソースドメインサンプル字及びターゲットドメインスタイル字を文字生成モデルに入力し、ターゲットドメイン生成字を取得するためのターゲットドメイン生成字取得モジュールと、
前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出するための特徴ロス計算モジュールと、
前記特徴ロスに基づいて前記文字生成モデルのパラメータを調整するための第１ロス調整モジュールと、を備える、
文字生成モデルのトレーニング装置を提供する。

本開示の他の態様によれば、
ソースドメイン入力字及び対応するターゲットドメイン入力字を取得するための入力字取得モジュールと、
前記ソースドメイン入力字及び前記ターゲットドメイン入力字を、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によって得られた文字生成モデルに入力し、ターゲットドメイン新字を取得するための文字生成モジュールと、を備える、
文字生成装置を提供する。

本開示の他の態様によれば、
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも１つのプロセッサが本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法、又は本開示のいずれかの実施例に記載の文字生成方法を実行可能であるように、前記少なくとも１つのプロセッサによって実行される、
電子機器を提供する。

本開示の他の態様によれば、
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法、又は本開示のいずれかの実施例に記載の文字生成方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体を提供する。

本開示の他の態様によれば、
プロセッサによって実行されると、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法を実現する、又は本開示のいずれかの実施例に記載の文字生成方法を実行させる、
コンピュータプログラムを提供する。

本開示の実施例は、文字生成モデルによって生成されるフォントの精確率を上げることができる。

この部分に説明された内容は、本開示の実施例の肝心又は重要な特徴を特定することを意図するものでもないし、本開示の範囲を限定することに用いられるものでもないことを理解すべきである。本開示の他の特徴は、以下の明細書によって理解しやすくなる。

図面は、本案をよく理解するために使用され、本開示を限定するものではない。

本開示の実施例に係る１つの文字生成モデルのトレーニング方法の模式図である。本開示の実施例に係る文字生成モデルの模式図である。本開示の実施例に係る他の文字生成モデルのトレーニング方法の模式図である。本開示の実施例に係る１つの実施例の特徴ロスを使用して文字生成モデルを拘束する可視化レンダリングである。本開示の実施例に係る他の実施例の特徴ロスを使用して文字生成モデルを拘束する可視化レンダリングである。本開示の実施例に係る特徴ロスを使用して文字生成モデルを拘束することによる生成結果の効果比較図である。本開示の実施例に係る文字生成モデルの生成字のレンダリングである。本開示の実施例に係る他の文字生成モデルのトレーニング方法の模式図である。本開示の実施例に係る１つの文字生成モデルのトレーニング方法のシーンの図である。本開示の実施例に係る文字生成方法の模式図である。本開示の実施例に係る文字生成モデルのトレーニング装置の模式図である。本開示の実施例に係る文字生成装置の模式図である。本開示の実施例の文字生成モデルのトレーニング方法又は文字生成方法を実現するための電子機器のブロック図である。

以下、図面を参照しながら、本開示の例示的な実施例について説明し、ここには理解するために、本開示の実施例の様々な詳細が含まれ、例示的なものに過ぎないとみなされるべきである。そのため、当業者であれば、本明細書に説明される実施例は、本開示の範囲及び精神から逸脱することなく、様々な変更及び修正が可能であることを認識すべきである。同様に、明確化及び簡明化のために、以下の説明で公知の機能及び構造に対する説明は省略する。

図１は、本開示の実施例により開示される１つの文字生成モデルのトレーニング方法のフローチャートであり、本実施例は文字生成モデルをトレーニングすることに適用可能であり、文字生成モデルが、ソースドメインスタイルの文字をターゲットドメインスタイルの文字に変換する場合に使用される。本実施例の方法は文字生成モデルのトレーニング装置によって実行可能であり、当該装置は、ソフトウェア及び／又はハードウェアの方式を採用して実現されて、具体的に一定のデータ演算能力を有する電子機器に配置されることができ、当該電子機器は、クライアントデバイス又はサーバデバイスであってもよく、クライアントデバイスは、例えば携帯電話、タブレット、車載端末及びデスクトップパソコン等である。

Ｓ１０１において、ソースドメインサンプル字及びターゲットドメインスタイル字を文字生成モデルに入力し、ターゲットドメイン生成字を取得する。

ソースドメインサンプル字に基づいて、ソースドメインサンプル字に含まれる少なくとも１つのコンポーネントを決定し、各コンポーネントに基づいて、予め取得したターゲットドメインフォントスタイルの字で形成された集合において、少なくとも１つのコンポーネントを含む字をクエリし、ターゲットドメインスタイル字として決定することができる。

Ｓ１０２において、前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出する。

ターゲットドメインサンプル字はソースドメインサンプル字に対応する真値である。例えば、ターゲットドメイン生成字は、文字生成モデルによって生成された手書き文字「做」を含む画像であり、ターゲットドメインサンプル字は、実の手書き文字「做」字を含む画像であり、当該実の手書き文字「做」を含む画像が、ユーザが実に手書きした字で生成された画像であってもよい。また、上記において、ターゲットドメインスタイル字も同様に、ユーザが実に手書きした字で生成された画像である。なお、ターゲットドメインスタイル字及びターゲットドメインサンプル字、即ち、ユーザの手書きフォントスタイルの画像は、公共データ集合に基づくもの、又は、ユーザの認可によって取得されたユーザが実に手書きした字で生成された画像である。

文字分類モデルは、ターゲット生成字及びターゲットドメインサンプル字が誤字であるか否かを判別することに用いられる。文字分類モデルは、ＲｅｓＮｅｔ－１８（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ、残差ネットワーク）構造を採用するものであってもよく、そのうち、ＲｅｓＮｅｔ１８構造のモデルが１７個の畳込層及び１つの全結合層を含む。例えば、トレーニングサンプルは５００個のフォントであり、１つのフォントごとに６７６３個の文字のデータ集合があり、実験によって、トレーニングが完了した文字分類モデルは、当該データ集合に対して９７％の分類の精確率が得られる。

文字分類モデルは、複数の特徴層（例えば、９０個の特徴層）を含んでもよく、ターゲットドメイン生成字を文字分類モデルに入力し、各層から出力される生成特徴図を取得することができる。ターゲットドメインサンプル字を文字分類モデルに入力し、各層から出力されるサンプル特徴図を取得することができる。

各特徴層から出力される生成特徴図とサンプル特徴図との間の差異に基づいて、当該層の特徴ロスを決定することができる。例示的に、複数の特徴層のうちの少なくとも１つのプリセット層（例えば、４１層目及び４２層目）の特徴ロスの和を全体の特徴ロスとして選出することができる。１つの具体的な例では、複数の特徴層の中間層（例えば、第４５層）の特徴ロスを全体の特徴ロスとして選出することができる。

Ｓ１０３において、前記特徴ロスに基づいて前記文字生成モデルのパラメータを調整する。

特徴ロスに基づいて文字生成モデルのパラメータを調整し、更新された文字生成モデルを取得する。次の１つのソースドメインサンプル字に対して、対応するターゲットドメインスタイル字を決定し、更新された文字生成モデルを使用して、操作Ｓ１０１に戻り、トレーニングを繰り返し行い、予め設定されたトレーニング停止条件に到達すると、文字生成モデルのパラメータを調整することを停止し、トレーニングが完了した文字生成モデルを取得する。トレーニング停止条件は、特徴ロスの収束又は反復の回数が設定回数閾値以上となること等のものを含んでもよい。

本開示の技術案により、文字生成モデルを使用してソースドメインサンプル字及びターゲットドメインスタイル字に基づいてターゲットドメイン生成字を生成することで、多様なスタイルのフォントの生成を実現することができ、且つ、文字分類モデルを使用して特徴ロスを導入し、文字生成モデルにターゲットドメイン生成字とターゲットドメインサンプル字との間の差が比較的大きい特徴を学習させて、文字生成モデルがより多いフォントの詳細を学習して得ることで、文字生成モデルのフォント特徴を学習する能力を向上させ、文字生成モデルによって生成されたターゲットドメインフォントスタイルの字の精確率を上げることができる。

図２は、本開示の実施例に係る文字生成モデルの模式図である。図２に示すように、文字生成モデル２０４はスタイルエンコーダ２０５、コンテンツエンコーダ２０６及びデコーダ２０７を備える。スタイルエンコーダ２０５は、ターゲットドメインスタイル字２０２に対して符号化を行うために使用され、コンテンツエンコーダ２０６は、ソースドメインサンプル字２０１に対して符号化を行うために使用され、符号化によって得られた２つの結果を融合して、融合した結果をデコーダ２０７に入力し、ターゲットドメイン生成字２０３を取得する。ここで、ソースドメインサンプル字２０１に基づいてターゲットドメインスタイル字２０２を決定する。

図３は、本開示の実施例により開示される他の文字生成モデルのトレーニング方法のフローチャートであり、上記の技術案に基づいてさらに最適化及び展開されたものであり、且つ、上記の各好ましい実施形態と組み合わせられることが可能である。前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出することは、具体的に、前記ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの少なくとも１つの特徴層から出力される生成特徴図を取得することと、前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの前記少なくとも１つの特徴層から出力されるサンプル特徴図を取得することと、前記少なくとも１つの特徴層の生成特徴図とサンプル特徴図との間の差異に基づいて、前記文字生成モデルの特徴ロスを算出することと、に分けられる。

Ｓ３０１において、ソースドメインサンプル字及びターゲットドメインスタイル字を文字生成モデルに入力し、ターゲットドメイン生成字を取得する。

Ｓ３０２において、前記ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの少なくとも１つの特徴層から出力される生成特徴図を取得する。

生成特徴図は、ターゲットドメイン生成字を文字分類モデルの入力特徴図として、文字分類モデルにおける任意の特徴層から出力される特徴図である。文字分類モデルの各特徴層はいずれも、１つの特徴図を対応して出力することができる。ターゲットドメイン生成字は、文字生成モデルによって生成されたターゲットドメインフォントスタイルの字の画像であり、入力特徴図として文字分類モデルに入力される。文字分類モデルにおいて、第１特徴層は、ターゲットドメイン生成字に対して処理を行い、第１特徴層に対応する出力特徴図を取得し、第ｉ特徴層（ｉが１よりも大きい）は、第ｉ－１特徴層から出力される出力特徴図に対して処理を行い、第ｉ特徴層に対応する出力特徴図を取得する。

Ｓ３０３において、前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの前記少なくとも１つの特徴層から出力されるサンプル特徴図を取得する。

サンプル特徴図は、ターゲットドメインサンプル字を文字分類モデルの入力特徴図として、文字分類モデルにおける任意の特徴層から出力される特徴図である。文字分類モデルの各特徴層はいずれも、１つの特徴図を対応して出力することができる。ターゲットドメインサンプル字は、実に手書きしたターゲットドメインフォントスタイルの字の画像であり、入力特徴図として文字分類モデルに入力される。文字分類モデルにおいて、第１特徴層は、ターゲットドメインサンプル字に対して処理を行い、第１特徴層に対応する出力特徴図を取得し、第ｉ特徴層（ｉが１よりも大きい）は、第ｉ－１特徴層から出力される出力特徴図に対して処理を行い、第ｉ特徴層に対応する出力特徴図を取得する。

好ましくは、前記ソースドメインサンプル字は、ソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する画像である。

ソースドメインサンプル字は、ソースドメインフォントスタイルを有する字で生成された画像である。ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する字で生成された画像である。ソースドメインフォントスタイルはターゲットドメインフォントスタイルと異なる。例示的に、ソースドメインフォントスタイルは、印刷フォントであり、例えば、中国語文字フォントに対して、ソースドメインフォントスタイルは宋朝体、楷書体、ゴシック体又は隷書体等であり、ターゲットドメインフォントスタイルは、ユーザが実に手書きしたフォントスタイル等のアートフォントスタイルである。

ソースドメインサンプル字を、ソースドメインフォントスタイルを有する画像として配置して、ターゲットドメインサンプル字を、ターゲットドメインフォントスタイルを有する画像として配置することで、異なるフォントスタイルの変換を実現し、新たなスタイルのフォント数量を増やすことができる。

Ｓ３０４において、前記少なくとも１つの特徴層の生成特徴図とサンプル特徴図との間の差異に基づいて、前記文字生成モデルの特徴ロスを算出する。

文字分類モデルは、少なくとも１つの特徴層を含み、その中から少なくとも１つの特徴層を選択することができ、選択された任意の特徴層について、当該特徴層の生成特徴図と当該特徴層のサンプル特徴図との間の差異を算出することができる。当該差異は、生成特徴図とサンプル特徴図との間の異なる程度を説明して、モデルの生成字と実に手書きしたサンプル字との類似度を評価することに用いられる。当該差異に基づいて特徴ロスを算出すると、特徴の次元から、モデルの生成字と実に手書きしたサンプル字との間の異なる程度をより詳細的に説明することができる。

本開示の実施例により、特徴ロスは、サイクル生成ネットワークモデルから出力されるターゲットドメイン生成字とターゲットドメインサンプル字との類似度を拘束して、サイクル生成ネットワークモデルのスタイル遷移の精確率を上げることに使用可能である。

選択された特徴層は、ニーズに応じて設定可能であり、例えば、複数の特徴層の中央値となる特徴層の生成特徴図とサンプル特徴図との間の差異を選択し、前記文字生成モデルの特徴ロスを算出することができ、例えば、総数が９０個である特徴層は、中央値のが第４５特徴層及び第４６特徴層である。選択された特徴層の数量は１つであると、特徴層の生成特徴図とサンプル特徴図との間の差異を直接に特徴ロスとしてもよく、選択された特徴層の数量が少なくとも２つであると、複数の特徴層の差異を数値演算し、特徴ロスを取得してもよく、そのうち、数値演算が和演算、積演算又は加重平均演算等であってもよい。

好ましくは、前記文字生成モデルの特徴ロスを算出することは、前記少なくとも１つの特徴層のうちの各特徴層について、前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を算出し、前記特徴層の画素ロスを取得して、前記少なくとも１つの特徴層の画素ロスに基づいて、前記文字生成モデルの特徴ロスを算出することを含む。

同一の特徴層から出力される特徴図のサイズは同じであり、特徴図を構成する画素に基づいて、画素差異を算出して、画素次元から画像の間の差異を、特徴層の画素ロスとして算出することができる。特徴層の画素ロスに基づいて、特徴ロスを算出することは、具体的に、特徴層の数量が１つであると、画素ロスを特徴ロスとして、特徴層の数量が少なくとも２つであると、画素ロスの和を、特徴ロスとして算出することであってもよい。

例示的に、各特徴層の画素ロスは、Ｌ１ノルムのロス関数に基づいて算出可能であり、即ち、実の字と生成字とにおける同じ位置の画素の間の絶対差の総和を算出する。

生成特徴図とサンプル特徴図との間の画素差異を生成特徴図とサンプル特徴図との間の差異として、画素ロスを算出して特徴ロスを決定することで、画素次元から特徴ロスを算出して特徴ロスの計算細粒度を制御し、画素詳細からモデルの生成字と実に手書きしたサンプル字との間の異なる程度を説明して、特徴ロスを算出して文字生成モデルのパラメータを調整して、文字生成モデルにより細かいサンプル字のフォントスタイルの詳細を学習させ、文字生成モデルの生成字の精確率を上げることができる。

好ましくは、当該特徴層の生成特徴図とサンプル特徴図との間の画素差異を算出することは、前記特徴層の生成特徴図における各位置の画素点について、前記画素点の画素値と前記サンプル特徴図における対応する位置の画素点の画素値との間の差の絶対値を算出し、各位置の画素点の差異を取得することと、複数の位置の画素点の差異に基づいて、前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を決定することと、を含む。

当該特徴層について、同じ位置の生成特徴図における画素点の画素値とサンプル特徴図における画素点の画素値との差の絶対値を、算出して当該位置の画素点の差異として決定する。生成特徴図及びサンプル特徴図は、サイズが同じであり、特徴図に含まれる画素数量が同じであり、つまり、特徴図に含まれる位置の数量が同じであり、複数の位置の画素点の差異の和を、当該特徴層の生成特徴図とサンプル特徴図との間の画素差異として決定する。複数の位置は、当該特徴層から出力される特徴図に含まれるすべての位置であってもよいし、選別された一部の位置であってもよい。

１つの具体的な例では、生成特徴図及びサンプル特徴図は、大きさがいずれも６４＊６４であり、４０９６個の位置を含み、各位置に対して生成特徴図の画素点とサンプル特徴図の画素点との間の画素値の差の絶対値を算出し、４０９６個の差の絶対値を取得し、４０９６個の差の絶対値の和を統計し、当該特徴層の生成特徴図とサンプル特徴図との間の画素差異を取得する。なお、画素差異は実際に、Ｌ１ノルムのロス関数を採用して算出されたものであり、Ｌ１ノルムのロス関数の要素は、特徴図におけるｉ番目の位置の画素点の画素値である。

２つの特徴図の各位置における対応する画素点の間の画素値の差の絶対値を算出して、複数の位置の絶対値に基づいて、当該特徴層の画素差異を決定し、同じ位置の画素点の画素値をＬ１ノルムのロス関数の要素として、Ｌ１ノルムのロスを算出することで、文字生成モデルのロバスト性を向上させることができる。

Ｓ３０５において、前記特徴ロスに基づいて前記文字生成モデルのパラメータを調整する。

差異計算による特徴ロスに基づいて文字生成モデルのパラメータを調整することは、実に手書きしたサンプル字のより多いフォントの詳細を学習して得ることができる。例示的に、特徴ロスに基づいてパラメータを調整することは、Ｌ１ノルムのロス関数がモデルのパラメータを調整する方式を参照し、パラメータを、実の字と生成字との絶対差の総和が最小化されるまで調整することができる。

本開示の技術案により、文字分類モデルにおける少なくとも１つの特徴図の生成特徴図とサンプル特徴図との間の差異を算出して、特徴ロスを決定することで、特徴の次元から、モデルの生成字と実に手書きしたサンプル字との間の異なる程度をより詳細的に説明して、当該異なる程度で算出された特徴ロスに基づいて文字生成モデルのパラメータを調整することができ、これにより、文字生成モデルが実に手書きしたサンプル字のより多いフォントの詳細を学習して得て、最終的に、文字生成モデルの生成字を実に手書きしたサンプル字に、より類似させ、文字生成モデルの生成字の精確率を上げることができる。

図４は、本開示の実施例に係る１つの実施例の特徴ロスを使用して文字生成モデルを拘束する可視化レンダリングである。図４に示すように、ターゲットドメインサンプル字４０１は、実の、手書き文字「神」を含む画像であり、即ち、ターゲットドメインサンプル字４０１における「神」字は、ユーザの実に手書きした文字である。ターゲットドメイン生成字４０２は、文字生成モデルによって生成された手書き文字「神」を含む画像であり、ターゲットドメインサンプル字４０１及びターゲットドメイン生成字４０２は、大きさがいずれも２５６＊２５６である。ターゲットドメインサンプル字４０４は、実の、手書き文字「褂」を含む画像であり、即ち、ターゲットドメインサンプル字４０４における「褂」字は、ユーザの実に手書きした文字である。ターゲットドメイン生成字４０５は文字生成モデルによって生成された手書き文字「褂」を含む画像であり、ターゲットドメインサンプル字４０１、ターゲットドメイン生成字４０２、ターゲットドメインサンプル字４０４及びターゲットドメイン生成字４０５は、大きさがいずれも２５６＊２５６である。ターゲットドメインサンプル字４０１、ターゲットドメイン生成字４０２、ターゲットドメインサンプル字４０４及びターゲットドメイン生成字４０５は文字分類モデルに入力され、文字分類モデルにおける第１プリセット層（例えば、第３０特徴層）でサンプル特徴図及びサンプル特徴図がそれぞれ出力され、サンプル特徴図及びサンプル特徴図は、大きさがいずれも６４＊６４であり、これらの２枚の６４＊６４である画像に対して画素差異計算を行った後に、当該２枚の画像の間の差異を表すヒートレンダリング４０３及び４０６を得る。ヒートレンダリング４０３及び４０６も６４＊６４である画像であり、ヒートレンダリング４０３においては、色が濃い箇所ほど、ターゲットドメインサンプル字４０１とターゲットドメイン生成字４０２との間の差が大きいことを表し、ヒートレンダリング４０６においては、色が濃い箇所ほど、ターゲットドメインサンプル字４０４とターゲットドメイン生成字４０５との間の差が大きいことを表し、これにより、文字生成モデルを、ヒートレンダリング４０３及び４０６における色が比較的濃い箇所の特徴を学習することにより集中させて、文字生成モデルの特徴を学習する能力を向上させることができる。

図５は、本開示の実施例に係る他の実施例の特徴ロスを使用して文字生成モデルを拘束する可視化レンダリングである。図５に示すように、ターゲットドメインサンプル字５０１、ターゲットドメイン生成字５０２、ターゲットドメインサンプル字５０４及びターゲットドメイン生成字５０５は文字分類モデルに入力され、文字分類モデルにおける第２プリセット層（例えば、第３１特徴層）でサンプル特徴図及びサンプル特徴図がそれぞれ出力され、サンプル特徴図及びサンプル特徴図は、大きさがいずれも３２＊３２であり、これらの２枚の３２＊３２である画像に対して画素差異計算を行った後に、当該２枚の画像の間の差異を表すヒートレンダリング５０３及び５０６を得る。ヒートレンダリング５０３及び５０６も３２＊３２である画像であり、ヒートレンダリング５０３においては、色が濃い箇所ほど、ターゲットドメインサンプル字５０１とターゲットドメイン生成字５０２との間の差が大きいことを表し、ヒートレンダリング５０６においては、色が濃い箇所ほど、ターゲットドメインサンプル字５０４とターゲットドメイン生成字５０５との間の差が大きいことを表し、これにより、文字生成モデルをヒートレンダリング５０３及び５０６における色が比較的濃い箇所の特徴を学習することにより集中させて、文字生成モデルの特徴を学習する能力を向上させることができる。

ヒートレンダリング４０３及び５０３を組み合わせ、共同で文字生成モデルに、ターゲットドメインサンプル字４０１とターゲットドメイン生成字４０２との間の差が比較的大きい特徴、及び学習ターゲットドメインサンプル字５０１とターゲットドメイン生成字５０２との間の差が比較的大きい特徴を学習させることができ、且つ、ヒートレンダリング４０６及び５０６を組み合わせ、ターゲットドメインサンプル字４０４とターゲットドメイン生成字４０５との間の差が比較的大きい特徴を学習させ、及び、ターゲットドメインサンプル字５０４とターゲットドメイン生成字５０５との間の差が比較的大きい特徴を学習させて、文字生成モデルの特徴を学習する能力を向上させることができることを理解すべきである。

図７は、本開示の１つの実施例による特徴ロスを使用して文字生成モデルを拘束する、トレーニングが完了した文字生成モデルの生成字のレンダリングである。ここで、枠内の字は実に手書きした文字であるが、枠内に位置していない字は、文字生成モデルの生成字である。これから分かるように、文字生成モデルの生成字のフォントスタイルは、実に手書きした文字のフォントスタイルと略一致している。

図８は、本開示の実施例により開示される他の文字生成モデルのトレーニング方法のフローチャートであり、上記の技術案に基づいてさらに最適化及び展開されたものであり、上記の各好ましい実施形態と組み合わせられることが可能である。文字生成モデルのトレーニング方法は、前記ターゲットドメインスタイル字を文字生成モデルに入力し、前記ターゲットドメインスタイル字の第１スタイル特徴ベクトルを取得し、前記ターゲットドメイン生成字を前記文字生成モデルに入力し、前記ターゲットドメイン生成字の第２スタイル特徴ベクトルを取得し、前記第２スタイル特徴ベクトル及び前記第１スタイル特徴ベクトルをコンポーネント分類モデルに入力し、コンポーネント分類ロスを算出し、前記ターゲットドメインサンプル字及び前記ターゲットドメイン生成字を識別モデルに入力し、文字敵対的ロス及びスタイル敵対的ロスを算出し、前記ターゲットドメイン生成字を前記文字分類モデルに入力し、誤字ロスを算出し、前記コンポーネント分類ロス、前記文字敵対的ロス、前記スタイル敵対的ロス及び前記誤字ロスに基づいて、前記文字生成モデルのパラメータを調整するように最適化される。

Ｓ８０１において、ソースドメインサンプル字及びターゲットドメインスタイル字を文字生成モデルに入力し、ターゲットドメイン生成字及び前記ターゲットドメインスタイル字の第１スタイル特徴ベクトルを取得する。

ターゲットドメインスタイル字の第１スタイル特徴ベクトルとは、スタイルエンコーダがターゲットドメインスタイル字に対して符号化を行って取得された特徴ベクトルである。

ソースドメインサンプル字及びターゲットドメインスタイル字を文字生成モデルに入力することは具体的に、ソースドメインサンプル字をコンテンツエンコーダに送信し、内容特徴ベクトルを取得し、ターゲットドメインスタイル字をスタイルエンコーダに送信し、第１スタイル特徴ベクトルを取得することである。ターゲットドメインスタイル字は、数量が複数あり、第１スタイル特徴ベクトルは、対応して数量が複数あり、複数の第１スタイル特徴ベクトルを融合し、融合スタイル特徴ベクトルを取得し、融合スタイル特徴ベクトルと内容特徴ベクトルを融合し、ターゲット特徴ベクトルを取得し、ターゲット特徴ベクトルをデコーダに送信して復号化を行い、ターゲットドメイン生成字を取得する。ここで、複数の第１スタイル特徴ベクトルを融合し、融合スタイル特徴ベクトルを取得することは、第１スタイル特徴ベクトルに対して、各位置のベクトル要素の数値を加算平均し、当該位置のベクトル要素数値を取得し、すべての位置のベクトル要素数値に基づいて、融合スタイル特徴ベクトルを決定することであってもよい。融合スタイル特徴ベクトルと内容特徴ベクトルを融合し、ターゲット融合特徴ベクトルを取得することは、融合スタイル特徴ベクトルに対して、各位置のベクトル要素の数値と相応する位置の内容特徴ベクトルのベクトル要素の数値とを加算し、当該位置のベクトル要素数値を取得し、すべての位置のベクトル要素数値に基づいて、ターゲット融合特徴ベクトルを決定することであってもよい。

Ｓ８０２において、前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出する。

Ｓ８０３において、前記ターゲットドメイン生成字を前記文字生成モデルに入力し、前記ターゲットドメイン生成字の第２スタイル特徴ベクトルを取得する。

ターゲットドメイン生成字の第２スタイル特徴ベクトルとは、スタイルエンコーダがターゲットドメイン生成字に対して符号化を行って取得された特徴ベクトルである。ターゲットドメイン生成字を文字生成モデルに入力することは、ターゲットドメイン生成字をスタイルエンコーダに入力し、ターゲットドメイン生成字の第２スタイル特徴ベクトルを取得する。

Ｓ８０４において、前記第２スタイル特徴ベクトル及び前記第１スタイル特徴ベクトルをコンポーネント分類モデルに入力し、コンポーネント分類ロスを算出する。

コンポーネント分類モデルは、スタイル特徴ベクトルに対応する字に含まれるコンポーネントに、ソースドメインサンプル字に含まれるコンポーネントと同じコンポーネントが存在しているか否かを検出するために使用され、即ち、コンポーネント分類モデルは、スタイル特徴ベクトルに対応する字に、ソースドメインサンプル字の偏旁部首と同じ偏旁部首が存在しているか否かを検出することに用いられる。第２スタイル特徴ベクトル及び第１スタイル特徴ベクトルをコンポーネント分類モデルに入力し、コンポーネント分類ロスを算出する。コンポーネント分類ロスは、文字生成モデルによって出力されるターゲットドメイン生成字に含まれるコンポーネントの精確率を拘束するために使用され、具体的に、字に含まれるコンポーネントが正しいか否かを判断することに用いられる。実際に、コンポーネント分類ロスとは、字の識別された、含むコンポーネントと、当該字に含まれる正しいコンポーネントとの間の差異である。

本開示の実施例により、コンポーネント分類ロスは、文字生成モデルによって出力されるターゲットドメイン生成字に含まれるコンポーネントの精確率を拘束して、文字生成モデルの誤ったコンポーネントからなる生成字を生成する確率を減らすことに用いられる。

Ｓ８０５において、前記ターゲットドメインサンプル字及び前記ターゲットドメイン生成字を識別モデルに入力し、文字敵対的ロス及びスタイル敵対的ロスを算出する。

ソースドメインサンプル字は実の手書き文字の画像であるが、ターゲットドメインサンプル字はモデルによって生成された文字画像であり、偽の文字画像と呼ばれてもよい。ターゲットドメイン生成字はモデルによって生成された手書き文字の画像であり、偽の手書き文字の画像と呼ばれてもよい。レーニング過程において、ターゲットドメインサンプル字を真Ｒｅａｌ（例えば、値が１である）としてラベル付け、ターゲットドメイン生成字を偽Ｆａｋｅ（例えば、値が０である）としてラベル付けることができる。ターゲットドメインサンプル字及びターゲットドメイン生成字が実に手書きした文字であるか否かを検出することは、実際に、モデルの生成字であるか否かを検出することであり、文字生成モデルによって生成された字を、識別モデルを通して出力された結果が真である場合に、文字生成モデルによって生成された字は、手書き文字と非常に類似し、本物と見分けられないものであることが判明した。

識別モデルは、ターゲットドメインサンプル字及びターゲットドメイン生成字が実に手書きした文字であるか否かを検出し、文字タイプに対して分類を行い、スタイルのタイプに対して分類を行い、及び、ターゲットドメイン生成字が所望の生成されるターゲットドメインサンプル字であるか否かを検出することに用いられる。ここで、文字敵対的ロスは、字に対して文字分類を行い、及び、字が実に手書きした文字であるか否かを検出するために使用され、スタイル敵対的ロスは、字に対してスタイル分類を行い、及び、字が実に手書きした文字であるか否かを検出することに用いられる。文字敵対的ロスとは、字の文字分類と当該字の正しい文字タイプとの間の差異、及び字と実に手書きした文字との間の差異であり、スタイル敵対的ロスとは、字のスタイルのタイプと当該字の正しいスタイルのタイプとの間の差異、及び字と実に手書きした文字との間の差異である。

識別モデルは、ターゲットドメインサンプル字及びターゲットドメイン生成字が実に手書きした文字であるか否かを検出し、及び文字タイプに対して分類を行うために使用されることに対して、ターゲットドメインサンプル字を識別モデルに入力し、ターゲットドメインサンプル字の第１文字敵対的ベクトルを取得し、ターゲットドメイン生成字を識別モデルに入力し、ターゲットドメイン生成字の第２文字敵対的ベクトルを取得する。

識別モデルは、ターゲットドメインサンプル字及びターゲットドメイン生成字が実に手書きした文字であるか否かを検出し、及びスタイルのタイプに対して分類を行うことに用いられる。ターゲットドメインサンプル字を識別モデルに入力し、ターゲットドメインサンプル字の第１スタイル敵対的ベクトルを取得し、ターゲットドメイン生成字を識別モデルに入力し、ターゲットドメイン生成字の第２スタイル敵対的ベクトルを取得する。

識別モデルは、ターゲットドメイン生成字が所望の生成されるターゲットドメインサンプル字であるか否かを検出することに用いられる。ターゲットドメインサンプル字及びターゲットドメイン生成字を識別モデルに入力し、一貫性ロスを取得する。

好ましくは、文字生成モデルのトレーニング方法は、前記ターゲットドメインサンプル字及び前記ターゲットドメイン生成字を識別モデルに入力し、一貫性ロスを算出することと、前記一貫性ロスに基づいて、前記文字生成モデルのパラメータを調整することと、をさらに含む。

Ｓ８０６において、前記ターゲットドメイン生成字を前記文字分類モデルに入力し、誤字ロスを算出する。

文字分類モデルは、ターゲットドメイン生成字が誤字であるか否かを検出することに用いられる。誤字ロスは、文字生成モデルによって出力されるターゲットドメイン生成字の誤字率、具体的に字と正しい字との間の差異というものを拘束することに用いられる。

本開示の実施例により、誤字ロスは、文字生成モデルによって出力されるターゲットドメイン生成字の誤字率を拘束して、文字生成モデルの誤字を生成する確率を減らすことに用いられる。

なお、識別モデル及びコンポーネント分類モデルは文字生成モデルと一緒にトレーニングされることができ、後期の応用時に、トレーニングが完了した文字生成モデルのみを使用して画像のスタイル遷移を実現することができる。

Ｓ８０７において、前記特徴ロス、前記コンポーネント分類ロス、前記文字敵対的ロス、前記スタイル敵対的ロス及び前記誤字ロスに基づいて、前記文字生成モデルのパラメータを調整する。

本開示の技術案により、文字生成モデルを使用してソースドメインサンプル字に基づいてターゲットドメイン生成字を生成することで、多様なスタイルのフォントの生成を実現することができ、且つ、コンポーネント分類モデルを使用してコンポーネント分類ロスを導入することで、フォントスタイルの学習範囲を大きくしてフォントスタイルの遷移の精確率を上げ、識別モデルを使用して文字敵対的ロス及びスタイル敵対的ロスを導入することで、文字生成モデルの正しいフォントを学習する能力及びフォントスタイルを学習する能力を向上させることができ、文字分類モデルを使用して誤字ロス及び特徴ロスを導入することで、文字生成モデルのフォント特徴を学習する能力を向上させて、誤字を生成する確率を減らすことができる。

図９は、本開示の実施例に係る１つの文字生成モデルのトレーニング方法のシーンの図である。図９に示すように、本開示の実施例により開示される１つの文字生成モデルのトレーニング方法のシーンの図により、文字生成モデルは、スタイルエンコーダ９１０、コンテンツエンコーダ９１１及びデコーダ９１２を備える。ソースドメインサンプル字９０１をコンテンツエンコーダ９１１に送信して、内容特徴ベクトルを取得し、ソースドメインサンプル字９０１に基づいてターゲットドメインスタイル字９０２を決定し、ターゲットドメインスタイル字９０２をスタイルエンコーダ９１０に送信して、第１スタイル特徴ベクトルを取得する。ターゲットドメインスタイル字９０２は、数量が複数あり、第１スタイル特徴ベクトルは、対応して数量が複数あり、複数の第１スタイル特徴ベクトルを融合し、融合スタイル特徴ベクトルを取得し、融合スタイル特徴ベクトルと内容特徴ベクトルを融合し、ターゲット特徴ベクトルを取得し、ターゲット特徴ベクトルをデコーダ９１２に送信して復号化を行い、ターゲットドメイン生成字９０３を取得する。ターゲットドメイン生成字９０３をスタイルエンコーダ９１０に入力し、ターゲットドメイン生成字９０３の第２スタイル特徴ベクトルを取得する。第２スタイル特徴ベクトル及び第１スタイル特徴ベクトルをコンポーネント分類モデル９１３に入力し、コンポーネント分類ロス９０５を算出する。ターゲットドメインサンプル字９０４及びターゲットドメイン生成字９０３を識別モデル９１４に入力し、文字敵対的ロス９０６及びスタイル敵対的ロス９０７を算出する。ターゲットドメイン生成字９０３及びターゲットドメインサンプル字９０４を予めトレーニングされた文字分類モデル９１５に入力し、文字生成モデルの特徴ロス９０９を算出する。ターゲットドメイン生成字９０３を文字分類モデル９１５に入力し、誤字ロス９０８を算出する。

図１０は、本開示の実施例により開示される文字生成方法のフローチャートであり、本実施例は、文字生成モデルをトレーニングすることによって、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換して、新たな文字を生成する場合に適用可能である。本実施例の方法は、文字生成装置によって実行可能であり、当該装置は、ソフトウェア及び／又はハードウェアの方式を採用して実現されて、具体的に一定のデータ演算能力を有する電子機器に配置されることができ、当該電子機器は、クライアントデバイス又はサーバデバイスであってもよく、クライアントデバイスは、例えば携帯電話、タブレット、車載端末及びデスクトップパソコン等である。

Ｓ１００１において、ソースドメイン入力字及び対応するターゲットドメイン入力字を取得する。

ソースドメイン入力字とは、ターゲットドメインフォントスタイルに変換する必要がある字で形成された画像であってもよい。ターゲットドメイン入力字とは、ターゲットドメインフォントスタイルの字で形成された画像であってもよい。ソースドメイン入力字に対してコンポーネント分割を行い、ソースドメイン入力字を構成する少なくとも１つのコンポーネントを決定して、各コンポーネントに基づいて、予め生成されたターゲットドメイン入力字の集合からソースドメイン入力字に対応するターゲットドメイン入力字を選出する。ターゲットドメイン入力字の数量は少なくとも１つである。

予めターゲットドメインフォントスタイルの字で形成された画像を取得して、ターゲットドメイン入力字の集合を形成することができる。当該集合は、予め取得したコンポーネント全体をカバーするターゲットドメインフォントスタイルの字で形成された画像である。例示的に、中国語文字に対して、ターゲットドメインフォントスタイルは、ユーザの手書きフォントスタイルであり、ユーザの認可によって提供された手書きフォントスタイルの字の画像を予め取得して、ターゲットドメイン入力字の集合を生成することができる。より具体的には、偏旁部首全体がカバーされた１００個の字を予め配置して、ユーザに、当該１００個の偏旁部首全体がカバーされた字に対して、手書きフォントスタイルの字を提供することを認可するように促し、ターゲットドメイン入力字の集合を生成することができる。

Ｓ１００２において、前記ソースドメイン入力字及び前記ターゲットドメイン入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得する。ここで、前記文字生成モデルは、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる。

文字生成モデル文字生成モデルのトレーニング方法によるトレーニングで得られたものである。ターゲットドメイン新字とは、ソースドメイン入力字に対応する内容のターゲットドメインフォントスタイルの字であってもよい。例えば、ソースドメイン入力字は楷書体字の画像であり、ターゲットドメイン新字は手書き文字の画像であり、楷書体字の画像を文字生成モデルに入力し、手書き文字の画像、即ち、ターゲットドメイン新字を取得することができる。

ターゲットドメイン新字が取得された場合に、ターゲットドメイン新字に基づいて字ライブラリを構築することができる。例えば、文字生成モデルによって生成された新字を記憶し、手書きフォントスタイルを有する字ライブラリを構築して得て、当該字ライブラリはインプットメソッドに適用可能であり、ユーザは当該字ライブラリに基づくインプットメソッドを使用して、手書きフォントスタイルを有する字を直接に取得することができ、ユーザの多様化のニーズを満たし、ユーザ体験を向上させることができる。

ソースドメイン入力字及び対応するターゲットドメイン入力字を取得して、文字生成モデルに入力し、ターゲットドメイン新字を取得することで、ソースドメイン入力字をターゲットドメイン新字に精確に変換することを実現し、ターゲットドメイン新字の生成の精確率を上げ、ターゲットドメイン新字の生成の効率を上げ、ターゲットドメイン新字の生成を上げる人工成本を下げることができる。

本開示の実施例により、図１１は、本開示の実施例における文字生成モデルのトレーニング装置の構造図であり、本開示の実施例は、文字生成モデルをトレーニングすることに適用される。ここで、文字生成モデルは、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換する場合に使用される。当該装置は、ソフトウェア及び／又はハードウェアを採用して実現されて、具体的に一定のデータ演算能力を有する電子機器に配置される。

図１１に示すような文字生成モデルのトレーニング装置１１００は、
ソースドメインサンプル字及びターゲットドメインスタイル字を文字生成モデルに入力し、ターゲットドメイン生成字を取得するためのターゲットドメイン生成字取得モジュール１１０１と、
前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出するための特徴ロス計算モジュール１１０２と、
前記特徴ロスに基づいて前記文字生成モデルのパラメータを調整するための第１ロス調整モジュール１１０３と、を備える。

さらに、前記特徴ロス計算モジュール１１０２は、前記ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの少なくとも１つの特徴層から出力される生成特徴図を取得するための第１特徴図生成ユニットと、前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの前記少なくとも１つの特徴層から出力されるサンプル特徴図を取得するための第２特徴図生成ユニットと、前記少なくとも１つの特徴層の生成特徴図とサンプル特徴図との間の差異に基づいて、前記文字生成モデルの特徴ロスを算出するための特徴ロス計算ユニットと、を備える。

さらに、前記特徴ロス計算ユニットは、前記少なくとも１つの特徴層のうちの各特徴層について、前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を算出し、前記特徴層の画素ロスを取得するための画素ロス計算サブユニットと、前記少なくとも１つの特徴層の画素ロスに基づいて、前記文字生成モデルの特徴ロスを算出するための特徴ロス計算サブユニットと、を備える。

さらに、前記画素ロス計算サブユニットは、前記特徴層の生成特徴図における各位置の画素点について、前記画素点の画素値と前記サンプル特徴図における対応する位置の画素点の画素値との間の差の絶対値を算出し、各位置の画素点の差異を取得して、複数の位置の画素点の差異に基づいて、前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を決定することに用いられる。

さらに、前記文字生成モデルのトレーニング装置は、前記ターゲットドメインスタイル字を文字生成モデルに入力し、前記ターゲットドメインスタイル字の第１スタイル特徴ベクトルを取得するための第１特徴ベクトル計算モジュールと、前記ターゲットドメイン生成字を前記文字生成モデルに入力し、前記ターゲットドメイン生成字の第２スタイル特徴ベクトルを取得するための第２特徴ベクトル計算モジュールと、前記第２スタイル特徴ベクトル及び前記第１スタイル特徴ベクトルをコンポーネント分類モデルに入力し、コンポーネント分類ロスを算出するためのコンポーネント分類ロス計算モジュールと、前記ターゲットドメインサンプル字及び前記ターゲットドメイン生成字を識別モデルに入力し、文字敵対的ロス及びスタイル敵対的ロスを算出するための敵対的ロス計算モジュールと、前記ターゲットドメイン生成字を前記文字分類モデルに入力し、誤字ロスを算出するための誤字ロス計算モジュールと、前記コンポーネント分類ロス、前記文字敵対的ロス、前記スタイル敵対的ロス及び前記誤字ロスに基づいて、前記文字生成モデルのパラメータを調整するための第２ロス調整モジュールと、をさらに含む。

さらに、前記ソースドメインサンプル字は、ソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する画像である。

上記の文字生成モデルのトレーニング装置は、本開示の任意の実施例に係る文字生成モデルのトレーニング方法を実行可能であり、文字生成モデルのトレーニング方法を実行することに相応する機能モジュール及び有益効果を備える。

本開示の実施例により、図１２は、本開示の実施例における文字生成装置の構造図であり、本開示の実施例は、文字生成モデルをトレーニングすることによって、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換して、新たな文字を生成する場合に適用される。当該装置はソフトウェア及び／又はハードウェアを採用して実現されて、具体的に一定のデータ演算能力を有する電子機器に配置される。

図１２に示すような文字生成装置１２００は、
ソースドメイン入力字及び対応するターゲットドメイン入力字を取得するための入力字取得モジュール１２０１と、
前記ソースドメイン入力字及び前記ターゲットドメイン入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得するための文字生成モジュール１２０２と、を備え、
前記文字生成モデルは、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる。

上記の文字生成装置は、本開示の任意の実施例に係る文字生成方法を実行可能であり、文字生成方法を実行することに相応する機能モジュール及び有益効果を備える。

本開示の技術案では、関するユーザ個人情報の収集、記憶、使用、加工、伝送、提供及び開示等の処理はいずれも、関連する法律及び法規の規定に合致し、且つ公序良俗に反しない。

本開示の実施例により、本開示は、電子機器、可読記憶媒体及びコンピュータプログラムをさらに提供している。

図１３には、本開示の実施例を実施するために使用可能な例示的な電子機器１３００の模式的なブロック図が示されている。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータを表すように意図される。電子機器は、様々な形式の移動装置、例えば、パーソナルデジタル処理、セルラーフォン、スマートフォン、ウェアラブルデバイス及び他の類似的なコンピューティング装置をさらに表すことができる。本明細書に示す部品、これらの接続と関係、及びこれらの機能は例示的なものに過ぎず、本明細書に説明及び／又は要求された本開示の実現を限定することは意図されない。

図１３に示すように、デバイス１３００は、リードオンリーメモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１３０２に記憶されたコンピュータプログラム又は記憶ユニット１３０８からランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３０３にロードされたコンピュータプログラムによって、様々な適切な動作及び処理を実行可能な計算ユニット１３０１を備える。ＲＡＭ１３０３には、デバイス１３００の操作に必要な様々なプログラム及びデータが記憶されることも可能である。計算ユニット１３０１、ＲＯＭ１３０２及びＲＡＭ１３０３はバス１３０４によって互いに接続される。入出力（Ｉ／Ｏ：ｉｎｐｕｔ／ｏｕｔｐｕｔ）インタフェース１３０５もバス１３０４に接続される。

Ｉ／Ｏインタフェース１３０５には、例えばキーボード、マウス等の入力ユニット１３０６と、例えば様々なタイプのディスプレイ、スピーカ等の出力ユニット１３０７と、例えば磁気ディスク、光ディスク等の記憶ユニット１３０８と、例えばネットワークカード、モデム、無線通信送受信機等の通信ユニット１３０９と、を備えるデバイス１３００における複数の部品が接続される。通信ユニット１３０９は、デバイス１３００が例えばインターネットのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して、他のデバイスと情報／データを交換することを可能にする。

計算ユニット１３０１は、様々な、処理能力及び計算能力を有する汎用及び／又は専用処理構成要素であってもよい。計算ユニット１３０１のいくつかの例には、中央処理ユニット（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、グラフィック処理ユニット（ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、様々な専用の人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）計算チップ、様々な、機器学習モデルのアルゴリズムを実行する計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が含まれるが、これらに限定されない。計算ユニット１３０１は、上記に説明された各方法及び処理、例えば文字生成モデルのトレーニング方法又は文字生成方法を実行する。例えば、いくつかの実施例において、文字生成モデルのトレーニング方法又は文字生成方法は、コンピュータソフトウェアプログラムとして実現可能であり、これは機械可読媒体、例えば記憶ユニット１３０８に有形構成として含まれる。いくつかの実施例において、コンピュータプログラムは、一部又は全部がＲＯＭ１３０２及び／又は通信ユニット１３０９を介してデバイス１３００にロード及び／又はインストールされることができる。コンピュータプログラムがＲＡＭ１３０３にロードされて計算ユニット１３０１によって実行されると、上記した文字生成モデルのトレーニング方法又は文字生成方法の１つ又は複数のステップが実行されることができる。或いは、他の実施例において、計算ユニット１３０１は、他の任意の適切な方式によって（例えば、ファームウェアによって）、文字生成モデルのトレーニング方法又は文字生成方法を実行するように構成される。

本明細書において、上記したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、特定用途向け集積回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、特殊用途向け汎用品（ＡＳＳＰ：ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｓｔａｎｄａｒｄｐｒｏｄｕｃｔ）、システムオンチップ（ＳＯＣ：Ｓｙｓｔｅｍｏｎａｃｈｉｐ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び／又はこれらの組合せで実現可能である。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムに実施されることを含んでもよく、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムに実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、メモリシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信して、データ及び命令を当該メモリシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる専用又は汎用プログラマブルプロセッサであってもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組合せを採用して書かれてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供され、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び／又はブロック図で規定された機能／操作が実施されることができる。プログラムコードは、完全に機器で実行されたり、部分的に機器で実行されたりしてもよく、独立ソフトウェアパッケージとして、部分的に機器で実行され且つ部分的にリモート機器で実行され、又は、完全にリモート機器又はサーバで実行されてもよい。

本開示のコンテキストにおいて、機械可読媒体は、命令実行システム、装置又は機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる有形的な媒体であってもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体には、電子的なもの、磁気的なもの、光学的なもの、電磁的なもの、赤外線的なもの、又は半導体システム、装置又は機器、又は上記の内容の任意の適切な組合せが含まれるが、これらに限定されない。機械可読記憶媒体のより具体的な例示は、１つ又は複数のラインによる電気的な接続、可搬型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ：ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ又はフラッシュメモリ）、光ファイバ、可搬型コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、光メモリデバイス、磁気メモリデバイス、又は上記の内容の任意の適切な組合せを含む。

ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術はコンピュータで実施されることができ、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニター）、及びキーボードやポインティング装置（例えば、マウス又はトラックボール）を有し、ユーザは、当該キーボードや当該指向装置によって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供することに使用可能であり、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、且つ、ユーザからの入力を任意の形式（音入力、音声入力又は触感入力を含む）で受信することができる。

ここで説明されるシステム及び技術は、バックグランドコンポーネントを含むコンピューティングシステム（例えば、データサーバとして）に、又は、ミドルウェアコンポーネントを含むコンピューティングシステム（アプリケーションサーバなど）に、または、フロントエンドコンポーネントを含むコンピューティングシステム（図形式のユーザインタフェースやネットワークブラウザを有するユーザコンピュータ、ユーザは、当該図形式のユーザインタフェースや当該ネットワークブラウザを通じてここで説明されるシステム及び技術の実施形態とイントラクションをすることができる）に、又はこのようなバックグランドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組合せを含むコンピューティングシステムに実施されてもよい。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって互いに接続されてもよい。通信ネットワークの例示は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを含む。

コンピュータシステムは、クライアント端末及びサーバを含んでもよい。クライアント端末及びサーバは一般的に、互いに離れており、且つ通常に、通信ネットワークを介してイントラクションをしている。相応するコンピュータでの実行、及び、互いにクライアント端末・サーバという関係を有するコンピュータプログラムにより、クライアント端末とサーバとの関係を築き上げる。サーバは、クラウドサーバであってもよいし、分散型システムのサーバ、又はブロックチェーンと組み合わせられたサーバであってもよい。

上記に示した様々な形式のフローを使用し、ステップを並べ替えたり、追加したり、削除したりすることができることを理解すべきである。例えば、本開示に記載の各ステップは、本開示に開示された技術案の所望の結果が実現できれば、並行して実行されてよいし、順次的に実行されてもよいし、異なる順序で実行されてもよく、本明細書において、ここで限定されない。

上記の具体的な実施形態は、本願の保護範囲を限定するものではない。当業者であれば、設計要求や他の要素に基づいて様々な修正、組み合わせ、サブ組み合わせや置換が可能であることを理解すべきである。本開示の精神及び原則内で行われる修正、均等置換及び改良は、いずれも本開示の保護範囲に含まれるべきである。

Claims

ソースドメインサンプル字に含まれる少なくとも１つのコンポーネントを決定し、予め取得したターゲットドメインスタイル字の集合において、前記少なくとも１つのコンポーネントを含むターゲットドメインスタイル字を決定することと、
前記ソースドメインサンプル字及び前記ターゲットドメインスタイル字を文字生成モデルに入力し、ターゲットドメイン生成字を取得することと、
前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出することと、
前記特徴ロスに基づいて前記文字生成モデルのパラメータを調整することと、を含む、
文字生成モデルのトレーニング方法。
前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出することは、
前記ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの少なくとも１つの特徴層から出力される生成特徴図を取得することと、
前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの前記少なくとも１つの特徴層から出力されるサンプル特徴図を取得することと、
前記少なくとも１つの特徴層の生成特徴図とサンプル特徴図との間の差異に基づいて、前記文字生成モデルの特徴ロスを算出することと、を含む、
請求項１に記載の文字生成モデルのトレーニング方法。
前記文字生成モデルの特徴ロスを算出することは、
前記少なくとも１つの特徴層のうちの各特徴層について、前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を算出し、前記特徴層の画素ロスを取得することと、
前記少なくとも１つの特徴層の画素ロスに基づいて、前記文字生成モデルの特徴ロスを算出することと、を含む、
請求項２に記載の文字生成モデルのトレーニング方法。
前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を算出することは、
前記特徴層の生成特徴図における各位置の画素点について、前記画素点の画素値と前記サンプル特徴図における対応する位置の画素点の画素値との間の差の絶対値を算出し、各位置の画素点の差異を取得することと、
複数の位置の画素点の差異に基づいて、前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を決定することと、を含む、
請求項３に記載の文字生成モデルのトレーニング方法。
前記ターゲットドメインスタイル字を文字生成モデルに入力し、前記ターゲットドメインスタイル字の第１スタイル特徴ベクトルを取得することと、
前記ターゲットドメイン生成字を前記文字生成モデルに入力し、前記ターゲットドメイン生成字の第２スタイル特徴ベクトルを取得することと、
前記第２スタイル特徴ベクトル及び前記第１スタイル特徴ベクトルをコンポーネント分類モデルに入力し、コンポーネント分類ロスを算出することと、
前記ターゲットドメインサンプル字及び前記ターゲットドメイン生成字を識別モデルに入力し、文字敵対的ロス及びスタイル敵対的ロスを算出ことと、
前記ターゲットドメイン生成字を前記文字分類モデルに入力し、誤字ロスを算出することと、
前記コンポーネント分類ロス、前記文字敵対的ロス、前記スタイル敵対的ロス及び前記誤字ロスに基づいて、前記文字生成モデルのパラメータを調整することと、をさらに含む、
請求項１に記載の文字生成モデルのトレーニング方法。
前記ソースドメインサンプル字は、ソースドメインフォントスタイルを有する画像であり、
前記ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する画像である、
請求項１から５のいずれか１項に記載の文字生成モデルのトレーニング方法。
ソースドメイン入力字及び対応するターゲットドメイン入力字を取得することと、
前記ソースドメイン入力字及び前記ターゲットドメイン入力字を、請求項１から６のいずれか１項に記載の文字生成モデルのトレーニング方法によるトレーニングで得られた文字生成モデルに入力し、ターゲットドメイン新字を取得することと、を含む、
文字生成方法。
ソースドメインサンプル字に含まれる少なくとも１つのコンポーネントを決定し、予め取得したターゲットドメインスタイル字の集合において、前記少なくとも１つのコンポーネントを含むターゲットドメインスタイル字を決定し、前記ソースドメインサンプル字及び前記ターゲットドメインスタイル字を文字生成モデルに入力し、ターゲットドメイン生成字を取得するためのターゲットドメイン生成字取得モジュールと、
前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出するための特徴ロス計算モジュールと、
前記特徴ロスに基づいて前記文字生成モデルのパラメータを調整するための第１ロス調整モジュールと、を備える、
文字生成モデルのトレーニング装置。
前記特徴ロス計算モジュールは、
前記ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの少なくとも１つの特徴層から出力される生成特徴図を取得するための第１特徴図生成ユニットと、
前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの前記少なくとも１つの特徴層から出力されるサンプル特徴図を取得するための第２特徴図生成ユニットと、
前記少なくとも１つの特徴層の生成特徴図とサンプル特徴図との間の差異に基づいて、前記文字生成モデルの特徴ロスを算出するための特徴ロス計算ユニットと、を備える、
請求項８に記載の文字生成モデルのトレーニング装置。
前記特徴ロス計算ユニットは、
前記少なくとも１つの特徴層のうちの各特徴層について、前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を算出し、前記特徴層の画素ロスを取得するための画素ロス計算サブユニットと、
前記少なくとも１つの特徴層の画素ロスに基づいて、前記文字生成モデルの特徴ロスを算出するための特徴ロス計算サブユニットと、を備える、
請求項９に記載の文字生成モデルのトレーニング装置。
前記画素ロス計算サブユニットは、
前記特徴層の生成特徴図における各位置の画素点について、前記画素点の画素値と前記サンプル特徴図における対応する位置の画素点の画素値との間の差の絶対値を算出し、各位置の画素点の差異を取得して、複数の位置の画素点の差異に基づいて、前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を決定することに用いられる、
請求項１０に記載の文字生成モデルのトレーニング装置。
前記ターゲットドメインスタイル字を文字生成モデルに入力し、前記ターゲットドメインスタイル字の第１スタイル特徴ベクトルを取得するための第１特徴ベクトル計算モジュールと、
前記ターゲットドメイン生成字を前記文字生成モデルに入力し、前記ターゲットドメイン生成字の第２スタイル特徴ベクトルを取得するための第２特徴ベクトル計算モジュールと、
前記第２スタイル特徴ベクトル及び前記第１スタイル特徴ベクトルをコンポーネント分類モデルに入力し、コンポーネント分類ロスを算出するためのコンポーネント分類ロス計算モジュールと、
前記ターゲットドメインサンプル字及び前記ターゲットドメイン生成字を識別モデルに入力し、文字敵対的ロス及びスタイル敵対的ロスを算出するための敵対的ロス計算モジュールと、
前記ターゲットドメイン生成字を前記文字分類モデルに入力し、誤字ロスを算出するための誤字ロス計算モジュールと、
前記コンポーネント分類ロス、前記文字敵対的ロス、前記スタイル敵対的ロス及び前記誤字ロスに基づいて、前記文字生成モデルのパラメータを調整するための第２ロス調整モジュールと、をさらに備える、
請求項８に記載の文字生成モデルのトレーニング装置。
前記ソースドメインサンプル字は、ソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する画像である、
請求項８から１２のいずれか１項に記載の文字生成モデルのトレーニング装置。
ソースドメイン入力字及び対応するターゲットドメイン入力字を取得するための入力字取得モジュールと、
前記ソースドメイン入力字及び前記ターゲットドメイン入力字を、請求項１から６のいずれか１項に記載の文字生成モデルのトレーニング方法によるトレーニングで得られた文字生成モデルに入力し、ターゲットドメイン新字を取得するための文字生成モジュールと、を備える、
文字生成装置。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリに、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも１つのプロセッサが請求項１から６のいずれか１項に記載の文字生成モデルのトレーニング方法、又は請求項７に記載の文字生成方法を実行可能であるように、前記少なくとも１つのプロセッサによって実行される、
電子機器。
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに、請求項１から６のいずれか１項に記載の文字生成モデルのトレーニング方法、又は請求項７に記載の文字生成方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１から６のいずれか１項に記載の文字生成モデルのトレーニング方法を実現する、又は請求項７に記載の文字生成方法を実行させる、
コンピュータプログラム。