JP7337203B2

JP7337203B2 - 文字生成モデルのトレーニング方法、文字生成方法、装置および機器

Info

Publication number: JP7337203B2
Application number: JP2022007211A
Authority: JP
Inventors: 礼承唐; 家▲銘▼ ▲劉▼
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-09-09
Filing date: 2022-01-20
Publication date: 2023-09-01
Anticipated expiration: 2042-01-20
Also published as: US20220180043A1; CN113792853B; EP4148678A1; KR20220034076A; JP2023039890A; CN113792853A

Description

本開示は、人工知能の技術分野に関し、具体的には、コンピュータ視覚および深層学習の技術分野に関し、特に文字生成モデルのトレーニング方法、文字生成方法、装置および機器に関する。

画像処理は、巨大な社会的・経済的効果を持つ実用技術であり、様々な業界および人々の日常生活に広く適用されている。

画像のスタイル遷移とは、スタイルを１つの画像から別の画像に遷移して新たなアート画像を合成することを意味する。

本開示は、文字生成モデルのトレーニング方法、文字生成方法、装置、機器および媒体を提供する。

本開示の一態様によれば、
第１ソースドメインサンプル字、第１ターゲットドメインサンプル字、およびスタイルタイプが前記第１ターゲットドメインサンプル字のスタイルタイプと同じであるスタイルノイズ字を含む第１トレーニングサンプルを取得し、前記第１トレーニングサンプルに基づき、文字生成モデル、コンポーネント分類モデル、および識別モデルを含むターゲットモデルをトレーニングし、第１文字敵対的ロスを取得することと、
第２ソースドメインサンプル字、第２ターゲットドメインサンプル字、およびスタイルタイプが前記第２ターゲットドメインサンプル字のスタイルタイプと同じであるスタイル標準字を含む第２トレーニングサンプルを取得し、前記第２トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得することと、
前記第１文字敵対的ロス、前記第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整することとを含む、
文字生成モデルのトレーニング方法を提供する。

本開示の別の態様によれば、
ソースドメイン入力字および対応するターゲットドメイン入力字を取得することと、
前記ソースドメイン入力字および前記ターゲット入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得することとを含み、
前記文字生成モデルは、本開示のいずれかの実施例に記載の方法によるトレーニングで得られる、
文字生成方法を提供する。

本開示の別の態様によれば、
第１ソースドメインサンプル字、第１ターゲットドメインサンプル字、およびスタイルタイプが前記第１ターゲットドメインサンプル字のスタイルタイプと同じであるスタイルノイズ字を含む第１トレーニングサンプルを取得し、前記第１トレーニングサンプルに基づき、文字生成モデル、コンポーネント分類モデル、および識別モデルを含むターゲットモデルをトレーニングし、第１文字敵対的ロスを取得するための第１トレーニングサンプルトレーニングモジュールと、
第２ソースドメインサンプル字、第２ターゲットドメインサンプル字、およびスタイルタイプが前記第２ターゲットドメインサンプル字のスタイルタイプと同じであるスタイル標準字を含む第２トレーニングサンプルを取得し、前記第２トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得するための第２トレーニングサンプルトレーニングモジュールと、
前記第１文字敵対的ロス、前記第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整するための第１ロス調整モジュールとを備える、
文字生成モデルのトレーニング装置を提供する。

本開示の別の態様によれば、
ソースドメイン入力字および対応するターゲットドメイン入力字を取得するための入力字取得モジュールと、
前記ソースドメイン入力字および前記ターゲット入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得するための文字生成モジュールとを備え、
前記文字生成モデルは、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によって得られる、
文字生成装置を提供する。

本開示の別の態様によれば、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも１つのプロセッサが本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法または本開示のいずれかの実施例に記載の文字生成方法を実行可能であるように、前記少なくとも１つのプロセッサにより実行される、
電子機器を提供する、

本開示の別の態様によれば、
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法または本開示のいずれかの実施例に記載の文字生成方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体を提供する。

本開示の別の態様によれば、
プロセッサにより実行されると、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法を実現する、または本開示のいずれかの実施例に記載の文字生成方法を実行する、
コンピュータプログラムを提供する。

本開示の実施例は、文字生成モデルによって生成されるフォントの正確率を向上させることができる。

本開示に記載されたものは、本開示の実施例のキーとなるまたは重要な特徴を標識するためのものではなく、本開示の範囲を限定するものでもないことが理解されるべきである。本開示の他の特徴は、以下の明細書により容易に理解することができる。

図面は本形態をより良く理解するためのものであり、本開示を限定するものではない。

本開示の実施例に係る文字生成モデルのトレーニング方法の模式図である。本開示の実施例に係る第１トレーニングサンプルのトレーニングシーンの図である。本開示の実施例に係る第２トレーニングサンプルのトレーニングシーンの図である。本開示の実施例に係る文字生成モデルのトレーニング方法の模式図である。本開示の実施例に係る一実施例の有効画素登場確率の計算方法の模式図である。本開示の実施例に係る文字生成モデルのトレーニング方法の模式図である。本開示の実施例に係る誤字ロスを用いて文字生成モデルを拘束するトレーニングシーンの図である。本開示の実施例に係る文字生成モデルが字を生成する効果図である。本開示の実施例に係る文字生成方法の模式図である。本開示の実施例に係る文字生成モデルのトレーニング装置の模式図である。本開示の実施例に係る文字生成装置の模式図である。本開示の実施例の文字生成モデルのトレーニング方法または文字生成方法を実現するための電子機器のブロック図である。

以下、図面を参照しながら本開示の例示的な実施例を詳細に説明する。ここで、理解の便宜上、本開示の実施例の様々な細かいコンテンツまで含まれているが、例示的なものに過ぎないと理解すべきである。従って、当業者であれば理解するであろうが、本開示の範囲および精神から逸脱しない限り、ここで説明する実施例に対して様々な変更や修正を行うことができる。同様に、以下の説明において、公知されている機能および構造の説明は、明確且つ簡潔にするために省略している。

図１は、本開示の実施例に係る文字生成モデルのトレーニング方法のフローチャートであり、本実施例は、文字生成モデルのトレーニングに適用できる。ここで、文字生成モデルは、ソースドメインスタイルの文字をターゲットドメインスタイルの文字に変換する場合に使用される。本実施例の方法は、文字生成モデルのトレーニング装置により実行でき、該装置は、ソフトウェアおよび／またはハードウェアの方式で実現でき、具体的に、一定のデータ演算能力を持つ電子機器に構成され、該電子機器は、携帯電話、タブレットコンピュータ、車載端末およびデスクトップコンピュータ等のようなクライアント機器またはサーバ機器であってもよい。

Ｓ１０１において、第１トレーニングサンプルを取得し、前記第１トレーニングサンプルに基づいてターゲットモデルをトレーニングし、第１文字敵対的ロスを取得する。前記第１トレーニングサンプルは、第１ソースドメインサンプル字、第１ターゲットドメインサンプル字、およびスタイルノイズ字を含み、前記スタイルノイズ字のスタイルタイプは前記第１ターゲットドメインサンプル字のスタイルタイプと同じであり、前記ターゲットモデルは、文字生成モデル、コンポーネント分類モデル、および識別モデルを含む。

ソースドメインサンプル字は、ソースドメインフォントスタイルを有する画像を意味してもよく、ソースドメインフォントスタイルは、文字の通常のフォントを意味してもよく、印刷フォントと呼ばれてもよく、例えば、中国語文字内の楷書体、宋朝体またはゴシック体等のフォント、また、アルファベット文字のタイムズニューローマン（ＴｉｍｅｓＮｅｗＲｏｍａｎ）またはＣａｌｉｂｒｉ等のフォントであり、更に、文字は、数字文字を含んでもよい。アルファベット文字は、英語、ドイツ語、ロシア語またはイタリア語等の文字を含んでもよく、ここでは具体的に限定しない。スタイルノイズ字は、ソースドメインサンプル字と同じ部分的な画像コンテンツを有する画像を意味してもよく、且つ、該画像にはノイズ情報が追加されている。ターゲットドメイン生成字は、ターゲットドメインフォントスタイルを有する画像を意味してもよい。ターゲットドメインフォントスタイルは、文字のユーザの手書きフォントスタイルまたは他のアート字フォントスタイルであってもよい。なお、本開示の実施例における字は、実際にいずれも文字を指す。ソースドメインサンプル字とターゲットドメイン生成字とは画像コンテンツが同じであり、スタイルタイプが異なる。スタイルノイズ字はソースドメインサンプル字と同じ部分的な画像コンテンツを有し、スタイルタイプが異なり、スタイルノイズ字はターゲットドメイン生成字と同じ部分的な画像コンテンツを有する。文字は、少なくとも１つのコンポーネントで構成でき、同じ部分的な画像コンテンツを有することは、同じコンポーネントを有することを意味してもよく、スタイルノイズ字、ソースドメインサンプル字およびターゲットドメイン生成字は、少なくとも１つの同じコンポーネントを有する。ここで、コンポーネントは、中国語文字の偏旁・部首であってもよいし、英語文字の語根等であってもよい。例えば、「イ尓」は、コンポーネント「イ」とコンポーネント「尓」とで構成されてもよく、「做」は、コンポーネント「イ」とコンポーネント「故」とで構成されてもよいし、またはコンポーネント「イ」とコンポーネント「古」とコンポーネント「攵」とで構成されてもよく、「衣」は、コンポーネント「衣」で構成されてもよい。（ただし本明細書中で、「イ尓」は人偏に尓の１個の漢字を表すものとする。）

ここで、ソースドメインサンプル字に基づき、ソースドメインサンプル字に含まれる少なくとも１つのコンポーネントを確定し、各コンポーネントに基づき、予め取得されたノイズ字で形成された集合において、少なくとも１つのコンポーネントを含む字をクエリし、スタイルノイズ字として確定することができる。

１つの具体的な例において、ソースドメインサンプル字は、楷書体「イ尓」により生成された画像であり、ターゲットドメイン生成字は、モデルが生成した手書き字「イ尓」により生成された画像である。「イ尓」は、コンポーネント「イ」とコンポーネント「尓」とに分けることができる。スタイルノイズ字は、実に手で書いた手書き字「称」にノイズを追加することで生成された画像、および実に手で書いた手書き字「佳」にノイズを追加することで生成された画像である。ここで、「称」はコンポーネント「尓」を含み、「イ尓」内のコンポーネント「尓」と同じであり、「佳」はコンポーネント「イ」を含み、「イ尓」内のコンポーネント「イ」と同じである。

第１トレーニングサンプルは、第１ソースドメインサンプル字、スタイルノイズ字、およびターゲットドメインサンプル字を含み、第１トレーニングサンプルは、ノイズ情報が追加された字をモデルの入力として含み、第１トレーニングサンプルはモデルをトレーニングすることに用いられ、モデルの未知フォント（トレーニングデータセットに属していない）に対するスタイル変換の能力を向上させ、未知フォントに対して正確なスタイル変換字を生成し、モデルの汎化能力を向上させることができる。

ターゲットモデルは、文字生成モデル、コンポーネント分類モデル、および識別モデルを含む。ターゲットモデルは、文字生成モデル、識別モデルおよびコンポーネント分類モデルをトレーニングすることに用いられる。なお、識別モデルおよびコンポーネント分類モデルは、文字生成モデルと共にトレーニングすることができ、後期の応用において、トレーニング済みの文字生成モデルだけを使用して画像のスタイル遷移を実現することができる。ここで、文字生成モデルは、ソースドメインサンプル字をターゲットドメイン生成字に変換することに用いられる。スタイル遷移モデルは、スタイルエンコーダ、コンテンツエンコーダ、およびデコーダを備える。スタイルエンコーダは、スタイルノイズ字を符号化することに用いられ、コンテンツエンコーダは、第１ソースドメインサンプル字を符号化し、符号化による２つの結果を融合し、融合した結果をデコーダに入力し、第１ターゲットドメイン生成字を取得することに用いられる。ここで、第１ソースドメインサンプル字に基づいてスタイルノイズ字を確定する。例えば、楷書体字「イ尓」を含む画像をスタイル遷移モデルに入力し、スタイル遷移モデルは、手書き字「イ尓」を含む画像を出力することができる。

ここで、複数のノイズスタイル特徴ベクトルを融合して第１融合スタイル特徴ベクトルを取得することは、第１ノイズ特徴ベクトルに対し、各位置のベクトル要素の数値を加算平均して該位置のベクトル要素の数値を取得し、全ての位置のベクトル要素の数値に基づいて第１融合スタイル特徴ベクトルを確定することであってもよい。第１融合スタイル特徴ベクトルと第１コンテンツ特徴ベクトルとを融合して第１ターゲット融合特徴ベクトルを取得することは、第１融合スタイル特徴ベクトルに対し、各位置のベクトル要素の数値と対応する位置の第１コンテンツ特徴ベクトルのベクトル要素の数値とを加算して該位置のベクトル要素の数値を取得し、全ての位置のベクトル要素の数値に基づいて第１ターゲット融合特徴ベクトルを確定することであってもよい。

また、ターゲットモデルは識別モデルを更に備える。識別モデルは、ターゲットドメインサンプル字およびターゲットドメイン生成字が実に手で書いた字であるか否かを検出すること、および文字タイプを分類することに用いられる。第１ターゲットドメインサンプル字および第１ターゲットドメイン生成字を識別モデルに入力し、第１文字敵対的ロスを計算する。文字敵対的ロスは、字を文字分類すること、および字が実に手で書いた字であるか否かを検出することに用いられ、文字敵対的ロスとは、字の文字分類と該字の正確な文字タイプとの間の違い、および字と実に手で書いた字との間の違いを意味する。なお、実際には、ターゲットモデルはコンポーネント分類モデルを更に含むが、第１トレーニングサンプルに対し、コンポーネント分類モデルでコンポーネント分類ロスを計算する必要がない。

Ｓ１０２において、第２トレーニングサンプルを取得し、前記第２トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得し、前記第２トレーニングサンプルは、第２ソースドメインサンプル字、第２ターゲットドメインサンプル字、およびスタイル標準字を含み、前記スタイル標準字のスタイルタイプは前記第２ターゲットドメインサンプル字のスタイルタイプと同じである。

スタイル標準字は、ターゲットドメインフォントスタイルを有する画像を指してもよく、且つ、該画像にノイズ情報が追加されていない。スタイル標準字はソースドメインサンプル字と同じ部分的な画像コンテンツを有し、スタイルタイプが異なり、スタイル標準字はターゲットドメイン生成字と同じ部分的な画像コンテンツを有し、スタイルタイプが同じである。スタイル標準字、ソースドメインサンプル字およびターゲットドメイン生成字は、少なくとも１つの同じコンポーネントを有する。スタイル標準字は、スタイルノイズ字と比べてノイズがない。または、スタイルノイズ字は、スタイル標準字の基にノイズを追加して形成した字であってもよい。

ここで、ソースドメインサンプル字に基づいてソースドメインサンプル字に含まれる少なくとも１つのコンポーネントを確定し、各コンポーネントに基づき、予め取得されたターゲットドメインフォントスタイルの標準字で形成された集合において、少なくとも１つのコンポーネントを含む字をクエリしてスタイル標準字として確定することができる。標準字に基づき、ノイズ情報を追加してノイズ字を生成することもできる。

第２トレーニングサンプルは、第２ソースドメインサンプル字、スタイル標準字およびターゲットドメインサンプル字を含み、第２トレーニングサンプルは、ノイズ情報が追加されていない字をモデルの入力として含み、第２トレーニングサンプルは、モデルをトレーニングすることに用いられ、モデルのスタイル変換を正確に実現する能力を向上させ、モデルのスタイル変換の正確率を高めることができる。

ターゲットモデルは、文字生成モデル、コンポーネント分類モデル、および識別モデルを含む。第２ソースドメインサンプル字をコンテンツエンコーダに送信し、第２コンテンツ特徴ベクトルを取得し、スタイル標準字をスタイルエンコーダに送信し、標準スタイル特徴ベクトルを取得する。ターゲットドメインスタイル字の数が複数であり、標準スタイル特徴ベクトルの数は対応して複数であり、複数の標準スタイル特徴ベクトルを融合して第２融合スタイル特徴ベクトルを取得し、第２融合スタイル特徴ベクトルと第２コンテンツ特徴ベクトルとを融合して第２ターゲット特徴ベクトルを取得し、第２ターゲット特徴ベクトルをデコーダに送信して復号化し、第２ターゲットドメイン生成字を取得する。

ここで、複数の標準スタイル特徴ベクトルを融合して第２融合スタイル特徴ベクトルを取得することは、標準スタイル特徴ベクトルに対し、各位置のベクトル要素の数値を加算平均して該位置のベクトル要素の数値を取得し、全ての位置のベクトル要素の数値に基づいて第２融合スタイル特徴ベクトルを確定することであってもよい。第２融合スタイル特徴ベクトルと第２コンテンツ特徴ベクトルとを融合して第２ターゲット融合特徴ベクトルを取得することは、第２融合スタイル特徴ベクトルに対し、各位置のベクトル要素の数値と対応する位置の第２コンテンツ特徴ベクトルのベクトル要素の数値とを加算して該位置のベクトル要素の数値を取得し、全ての位置のベクトル要素の数値に基づいて第２ターゲット融合特徴ベクトルを確定することであってもよい。

コンポーネント分類モデルは、スタイル特徴ベクトルに対応する字に含まれるコンポーネントに、ソースドメインサンプル字に含まれるコンポーネントと同じコンポーネントが存在するか否かを検出することに用いられ、即ち、コンポーネント分類モデルは、スタイル特徴ベクトルに対応する字に、ソースドメインサンプル字の偏旁・部首と同じ偏旁・部首が存在するか否かを検出することに用いられる。第２ターゲットドメイン生成字を文字生成モデルに入力し、具体的には、第２ターゲットドメイン生成字をスタイルエンコーダに入力し、第２ターゲットドメイン生成字の生成スタイル特徴ベクトルを取得する。生成スタイル特徴ベクトルおよび標準スタイル特徴ベクトルをコンポーネント分類モデルに入力し、コンポーネント分類ロスを計算する。コンポーネント分類ロスは、文字生成モデルにより出力されたターゲットドメイン生成字に含まれるコンポーネントの正確率を拘束することに用いられ、具体的には、字に含まれるコンポーネントが正確であるか否かを判断することに用いられる。実際には、コンポーネント分類ロスとは、字から識別された含まれているコンポーネントと該字に含まれる正確なコンポーネントとの間の違いを意味する。

また、識別モデルは、更に、ターゲットドメインサンプル字およびターゲットドメイン生成字が実に手で書いた字であるか否かを検出すること、およびスタイルタイプを分類することに用いられる。第２ターゲットドメインサンプル字および第２ターゲットドメイン生成字を識別モデルに入力し、スタイル敵対的ロスを計算する。ここで、スタイル敵対的ロスは、字をスタイル分類し、字が実に手で書いた字であるか否かを検出することに用いられる。スタイル敵対的ロスとは、字のスタイルタイプと該字の正確なスタイルタイプとの間の違い、および字と実に手で書いた字との間の違いを意味する。前述に基づき、第２ターゲットドメインサンプル字および第２ターゲットドメイン生成字を識別モデルに入力し、更に第２文字敵対的ロスを計算することができる。

Ｓ１０３において、前記第１文字敵対的ロス、前記第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整する。

第１文字敵対的ロス、第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて文字生成モデルのパラメータを調整し、更新された文字生成モデルを取得する。次のソースドメインサンプル字に対し、対応するスタイル標準字およびスタイルノイズ字を確定し、更新された文字生成モデルを使用し、操作Ｓ１０１に戻ってトレーニングを繰り返し、予め設定されたトレーニング停止条件に達すると、文字生成モデルのパラメータの調整を停止し、トレーニング済みの文字生成モデルを取得する。トレーニング停止条件は、前述したロスの和が収束され、各ロスがいずれも収束され、または反復回数が設定回数閾値以上になる等を含んでもよい。

実世界の手書き字のスタイルが大きく異なるため、トレーニングで現実中の全ての状況を集中して含むことができない。トレーニングサンプルのカバー範囲が小さいため、これに基づいてトレーニングされたモデルの未知フォントに対するスタイル変換の能力が悪い。

本開示の技術案によれば、スタイルノイズ字を含む第１トレーニングサンプルおよびスタイル標準字を含む第２トレーニングサンプルに基づき、ターゲットモデル内の文字生成モデルをトレーニングし、字の基にノイズを追加することにより、ノイズ情報を含むトレーニングサンプルを確定して文字生成モデルをトレーニングすることで、文字生成モデルの未知フォントに対するスタイル変換の能力を向上させ、モデルの汎化能力を向上させることができ、且つ、ノイズ情報を含まないトレーニングサンプルと組み合わせて文字生成モデルをトレーニングすることにより、モデルのスタイル変換を正確に実現する能力の向上と、モデルのスタイル変換の正確率の高めとを両立させることができる。

図２は、本開示の実施例に係る第１トレーニングサンプルのトレーニングシーンの図である。図２に示すように、文字生成モデル２２０は、スタイルエンコーダ２２０１、コンテンツエンコーダ２２０２、およびデコーダ２２０３を備える。ソースドメインサンプル字２０１をコンテンツエンコーダ２１０２に送信し、第１コンテンツ特徴ベクトルを取得し、スタイルノイズ字２０２をスタイルエンコーダ２１０１に送信し、ノイズスタイル特徴ベクトルを取得する。スタイルノイズ字２０２の数が複数であり、ノイズスタイル特徴ベクトルの数は対応して複数であり、複数のノイズスタイル特徴ベクトルを融合して第１融合スタイル特徴ベクトルを取得し、第１融合スタイル特徴ベクトルと第１コンテンツ特徴ベクトルとを融合して第１ターゲット特徴ベクトルを取得し、第１ターゲット特徴ベクトルをデコーダ２１０３に送信して復号化し、第１ターゲットドメイン生成字２０３を取得する。ターゲットモデル２１０は識別モデル２３０を更に備える。識別モデルは、ターゲットドメインサンプル字およびターゲットドメイン生成字が実に手で書いた字であるか否かを検出すること、および文字タイプを分類することに用いられる。第１ターゲットドメインサンプル字２０４および第１ターゲットドメイン生成字２０３を識別モデル２３０に入力し、第１文字敵対的ロス２０５を計算する。なお、実際には、ターゲットモデル２１０はコンポーネント分類モデルを更に含むが、第１トレーニングサンプルに対し、コンポーネント分類モデルでコンポーネント分類ロスを計算する必要がないため、図２に示していない。

図３は、本開示の実施例に係る第２トレーニングサンプルのトレーニングシーンの図であり、図３に示すように、ターゲットモデル３１０は、文字生成モデル３２０、コンポーネント分類モデル３４０、および識別モデル３３０を備える。第２ソースドメインサンプル字３０１をコンテンツエンコーダ３２０２に送信し、第２コンテンツ特徴ベクトルを取得し、スタイル標準字３０２をスタイルエンコーダ３２０１に送信し、標準スタイル特徴ベクトルを取得する。ターゲットドメインスタイル字の数が複数であり、標準スタイル特徴ベクトルの数は対応して複数であり、複数の標準スタイル特徴ベクトルを融合して第２融合スタイル特徴ベクトルを取得し、第２融合スタイル特徴ベクトルと第２コンテンツ特徴ベクトルとを融合して第２ターゲット特徴ベクトルを取得し、第２ターゲット特徴ベクトルをデコーダ３２０３に送信して復号化し、第２ターゲットドメイン生成字３０３を取得する。第２ターゲットドメイン生成字３０３を文字生成モデル３２０に入力し、具体的には、第２ターゲットドメイン生成字３０３をスタイルエンコーダ３２０１に入力し、第２ターゲットドメイン生成字３０３の生成スタイル特徴ベクトルを取得する。生成スタイル特徴ベクトルおよび標準スタイル特徴ベクトルをコンポーネント分類モデル３４０に入力し、コンポーネント分類ロス３０５を計算する。第２ターゲットドメインサンプル字３０４および第２ターゲットドメイン生成字３０３を識別モデル３３０に入力し、スタイル敵対的ロス３０７を計算する。前述に基づき、第２ターゲットドメインサンプル字３０４および第２ターゲットドメイン生成字３０３を識別モデル３３０に入力し、更に第２文字敵対的ロス３０６を計算することができる。

図４は、本開示の実施例に係る別の文字生成モデルのトレーニング方法のフローチャートであり、上記技術案に基づいて更に最適化して拡張し、且つ、上記各好ましい実施形態と組み合わせることができる。前記第１トレーニングサンプルを取得することは、具体的に、第１ソースドメインサンプル字および第１ターゲットドメインサンプル字を取得し、前記第１ターゲットドメインサンプル字のスタイルタイプに基づき、予め取得された標準字集合から前記スタイルタイプに対応する標準字を選択し、スタイル標準字として確定し、前記標準字集合に基づいてノイズ字集合を生成し、その中から前記スタイルタイプに対応するノイズ字を選択し、スタイルノイズ字として確定することである。

Ｓ４０１において、第１ソースドメインサンプル字および第１ターゲットドメインサンプル字を取得する。

好ましくは、前記ソースドメインサンプル字は、ソースドメインフォントスタイルを有する画像であり、前記第２ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する画像である。

ソースドメインサンプル字は、ソースドメインフォントスタイルを有する字により生成された画像である。ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する字により生成された画像である。ソースドメインフォントスタイルとターゲットドメインフォントスタイルとは異なる。例示的には、ソースドメインフォントスタイルは印刷フォントであり、例えば、中国語文字フォントの場合、ソースドメインフォントスタイルは宋朝体、楷書体、ゴシック体または隷書体等であり、ターゲットドメインフォントスタイルは、ユーザが実に手で書いたフォントスタイル等のアートフォントスタイルである。

ソースドメインサンプル字がソースドメインフォントスタイルを有する画像で、ターゲットドメインサンプル字がターゲットドメインフォントスタイルを有する画像であるように設定することにより、異なるフォントスタイルの変換を実現し、新たなスタイルのフォント数を増加することができる。

Ｓ４０２において、標準字集合を取得し、ノイズ字集合を生成する。

標準字集合に含まれる標準字のフォントスタイルはターゲットドメインフォントスタイルであり、標準字のターゲットドメインフォントスタイルは、第１ターゲットドメインサンプル字のフォントスタイルと、第２ターゲットドメインサンプル字のフォントスタイルとを含む。標準字集合は、全てのコンポーネントをカバーする予め取得されたターゲットドメインフォントスタイルの字で形成された画像からなる集合である。ターゲットドメインフォントスタイルの字で形成された画像を予め取得して標準字集合を形成することができる。例示的には、ターゲットドメインフォントスタイルは、ユーザが手で書いたフォントスタイルであり、ユーザが手で書いたフォントスタイルは、例えば、手書き楷書体、手書き隷書体、および手書き草書体等に更に細分化することができる。ユーザが認可して提供した手書きフォントスタイルの字の画像を予め取得して標準字集合を生成することができる。より具体的には、中国語文字および各フォントスタイルに対し、全ての偏旁・部首をカバーした１００個の字を予め設定し、且つ、該全ての偏旁・部首をカバーした１００個の字に対し、手書きフォントスタイルの字を認可して提供して標準字集合を生成することをユーザに提示することができる。例示的には、ターゲットドメインフォントスタイルは、手書き隷書体フォントスタイルおよび手書き草書体フォントスタイルを含み、それに対応し、標準字集合は、手書き隷書体フォントスタイルの１００個の標準字および手書き草書体フォントスタイルの１００個の標準字を含む。

ノイズ字は、標準字の基にノイズ情報を導入することにより形成された字であってもよい。１つの標準字は、導入された異なるノイズ情報に応じ、少なくとも１つのノイズ字を対応して生成することができる。標準字集合に含まれる各標準字にいずれもノイズを導入し、少なくとも１つのノイズ字を形成し、ノイズ字集合を形成することができる。

好ましくは、前記標準字集合に基づいてノイズ字集合を生成することは、前記標準字集合において、スタイルタイプが異なってコンテンツが同じである候補標準字を取得することと、取得した候補標準字に基づき、前記候補標準字の有効画素分布情報を確定することと、前記有効画素分布情報に基づき、前記候補標準字の候補ノイズ字を生成して前記ノイズ字集合に追加することとを含む。

標準字集合には、通常、重複した標準字が存在しない。任意の２つの標準字間のスタイルタイプは異なるか、またはコンテンツは異なる。コンテンツが異なることは、文字のコンテンツが異なることを意味し、例えば、標準字「做」と標準字「神」とはコンテンツが異なる。候補標準字とは、スタイルタイプが異なり、且つコンテンツが同じである標準字を意味する。

本開示の実施例において、字とは、実際に字により生成された画像を意味し、有効画素とは、字により生成された画像における文字を構成する画素を意味する。それに対応し、画像には無効画素が更に存在し、無効画素は、画像における文字を構成しない背景画素を意味してもよい。例えば、白地に黒文字の字の画像において、有効画素は黒色の画素であり、無効画素は白色の画素である。ここで、各標準字と各候補標準字とは画像サイズが同じである。有効画素分布情報は、ノイズ情報を導入することに用いられ、具体的には、有効画素のターゲット画素位置を確定することにより、ターゲット画素位置に基づいて候補標準字の基にどの位置に有効画素を追加するか、および／またはどの位置に有効画素を削除するかを確定し、または直接全てが無効画素で構成された画像において、ターゲット画素位置に有効画素を無いから追加し、候補ノイズ字を生成することに用いられる。ここで、有効画素を追加することは、無効画素を有効画素に変更すること意味してもよく、例えば、白地に黒文字の字の画像において、白色の画素を黒色の画素に変換する。有効画素を削除することは、有効画素を無効画素に変更することを意味してもよく、例えば、白地に黒文字の字の画像において、黒色の画素を白色画素に変換する。有効画素分布情報は、字により生成された画像における有効画素の統計分布データを意味してもよく、統計分布データは、有効画素の位置統計結果であってもよい。候補標準字の有効画素分布情報は、複数のスタイルタイプが異なってコンテンツが同じである候補標準字における有効画素の位置により確定できる。

有効画素分布情報に基づき、候補標準字の候補ノイズ字を生成することは、候補標準字の基に、有効画素分布情報に基づいて有効画素が存在すべきターゲット画素位置を確定し、有効画素を対応して追加および／または削除し、候補ノイズ字を生成することを意味してもよい。具体的には、有効画素分布情報に基づき、追加および／または削除する有効画素のターゲット画素位置を確定することは、字により生成された画像における有効画素の統計分布データに基づき、各位置における有効画素の登場回数を計算し、回数に基づき、有効画素が存在すべきターゲット画素位置を確定することであってもよい。

実際には、有効画素分布情報に基づき、候補標準字の候補ノイズ字を生成することは、フォントの姿勢を保留するためにフォントの姿勢に基づいてノイズを導入してもよく、これにより、スタイルノイズ字は、ソースドメインサンプル字の少なくとも１つのコンポーネントと同じのフォントコンテンツ特徴を有し、且つスタイルノイズ字に基づいてモデルトレーニングを行い、モデルは未知フォントを学習しながらフォントを学習することもできる。

スタイルタイプが異なってコンテンツが同じである候補標準字に基づき、有効画素分布情報を確定し、これに基づいてノイズ情報を導入し、候補ノイズ字を確定することにより、候補標準字のフォントコンテンツ特徴を保留し、トレーニングサンプルとして文字生成モデルをトレーニングすることができ、文字生成モデルは未知フォントを学習しながらフォントを学習することもでき、モデルの汎化能力の向上とスタイル遷移の正確率の高めとを両立する。

好ましくは、前記取得した候補標準字に基づき、前記候補標準字の有効画素分布情報を確定することは、取得した候補標準字の字数を統計することと、前記取得した候補標準字における有効画素が画素位置に登場した有効回数を計算することと、前記有効回数および前記字数に基づき、前記画素位置の有効画素登場確率を計算することと、前記取得した候補標準字における異なる画素位置の有効画素登場確率を、前記候補標準字の有効画素分布情報として確定することとを含む。

字数とは、標準字集合におけるスタイルタイプが異なってコンテンツが同じである候補標準字の数を意味する。画像は画素で構成され、画素の画像における位置は、該画素の画素位置である。画素位置の有効回数とは、各候補標準字における対応する画素位置に有効画素が登場した回数を統計したものである。有効画素登場確率は、該画素位置の画素が有効画素であるか否かの確率を確定することに用いられる。有効回数を字数で除算した商を、有効画素登場確率として確定することができる。画像における画素位置毎に、１つの有効画素登場確率を計算することができる。

有効画素登場確率に基づいて候補ノイズ字を生成することは、画像における各画素位置をトラバースし、該画素位置に対応する有効画素登場確率に基づき、該画素位置の画素が有効画素であるか否かを判断し、該画素位置の画素が有効画素であると確定した場合、該画素位置の画素を有効画素として確定し、全ての画素位置のトラバースが完了するまで次の画素位置を処理し続け、候補ノイズ字を取得することであってもよい。

スタイルタイプが異なってコンテンツが同じである候補標準字の字数を統計し、各候補標準字における有効画素の画素位置に登場した有効回数を統計し、有効画素登場確率を計算し、有効画素分布情報としてノイズを導入することにより、有効画素のフォントコンテンツ特徴を精確に保留し、文字生成モデルのスタイル遷移の正確率を向上させることができる。且つ、導入されたノイズ情報を柔軟に調整し、増スタイルノイズ字のカバー範囲を増加し、モデルの汎化能力を向上させることができる。

Ｓ４０３において、前記第１ソースドメインサンプル字に含まれるコンポーネントおよび前記第１ターゲットドメインサンプル字のフォントスタイルに基づき、前記ノイズ字集合からスタイルノイズ字を選択する。

第１ソースドメインサンプル字に対してコンポーネントを分割し、第１ソースドメインサンプル字を構成する少なくとも１つのコンポーネントを確定する。第１ターゲットドメインサンプル字のフォントスタイルを取得する。ノイズ字集合において、第１ソースドメインサンプル字を含む少なくとも１つのコンポーネントをクエリし、且つ、フォントスタイルが第１ターゲットドメインサンプル字のフォントスタイルと同じである字を、スタイルノイズ字として確定する。

Ｓ４０４において、前記スタイルノイズ字、第１ソースドメインサンプル字、および第１ターゲットドメインサンプル字に基づき、第１トレーニングサンプルを生成する。

Ｓ４０５において、前記第１トレーニングサンプルに基づいてターゲットモデルをトレーニングし、第１文字敵対的ロスを取得する。前記第１トレーニングサンプルは、第１ソースドメインサンプル字、第１ターゲットドメインサンプル字、およびスタイルノイズ字を含み、前記スタイルノイズ字のスタイルタイプは前記第１ターゲットドメインサンプル字のスタイルタイプと同じであり、前記ターゲットモデルは、文字生成モデル、コンポーネント分類モデル、および識別モデルを含む。

Ｓ４０６において、第２トレーニングサンプルを取得し、前記第２トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得し、前記第２トレーニングサンプルは、第２ソースドメインサンプル字、第２ターゲットドメインサンプル字、およびスタイル標準字を含み、前記スタイル標準字のスタイルタイプは前記第２ターゲットドメインサンプル字のスタイルタイプと同じである。

第２ソースドメインサンプル字に対してコンポーネントを分割し、第２ソースドメインサンプル字を構成する少なくとも１つのコンポーネントを確定する。第２ターゲットドメインサンプル字のフォントスタイルを取得する。前述した標準字集合において、第２ソースドメインサンプル字を含む少なくとも１つのコンポーネントをクエリし、且つ、フォントスタイルが第２ターゲットドメインサンプル字のフォントスタイルと同じである字を、スタイル標準字として確定し、且つ、第２ソースドメインサンプル字および第２ターゲットドメインサンプル字と組み合わせて第２トレーニングサンプルを形成する。

好ましくは、前記第１トレーニングサンプルは複数グループの第１トレーニングサンプルを含み、前記第２トレーニングサンプルは複数グループの第２トレーニングサンプルを含み、前記第１トレーニングサンプルに基づいてターゲットモデルをトレーニングすることは、前記複数グループの第１トレーニングサンプルに基づき、前記ターゲットモデルに対して第１ラウンドのトレーニングを行うことを含み、前記第２トレーニングサンプルに基づいてターゲットモデルをトレーニングすることは、前記複数グループの第２トレーニングサンプルに基づき、前記ターゲットモデルに対して第２ラウンドのトレーニングを行うことを含み、前記第１ラウンドのトレーニング回数は第２ラウンドのトレーニング回数よりも小さい。

トレーニングサンプルは、複数のトレーニングサンプルを表すことができる。第１トレーニングサンプルは複数グループの第１トレーニングサンプルを含み、第２トレーニングサンプルは複数グループの第２トレーニングサンプルを含む。トレーニング過程において、ターゲットモデルに対して複数ラウンドのトレーニングを行う。複数グループの第１トレーニングサンプルを採用してトレーニングするラウンドは、複数グループの第２トレーニングサンプルを採用してトレーニングするラウンドと異なり、即ち、同じラウンドのトレーニング過程において、第１トレーニングサンプルと第２トレーニングサンプルとを同時に採用してターゲットモデルをトレーニングすることはない。同じラウンドのトレーニング過程において、複数グループの第１トレーニングサンプルのみ、または複数グループの第２トレーニングサンプルのみを採用してターゲットモデルをトレーニングする。ここで、複数グループの第１トレーニングサンプルを採用する第１ラウンドのトレーニング回数は、複数グループの第２トレーニングサンプルを採用する第２ラウンドのトレーニング回数よりも小さい。

例示的には、第ｉラウンドのトレーニングの場合、複数グループの第１トレーニングサンプルを採用してターゲットモデルをトレーニングし、ｉ＋第１ラウンド～ｉ＋第ｋラウンドのトレーニングの場合、複数グループの第２トレーニングサンプルを採用してターゲットモデルをトレーニングする。ｉが１で、ｋが９である場合、第１ラウンドにおいて複数グループの第１トレーニングサンプルを採用してモデルをトレーニングし、第２～１０ラウンドにおいて複数グループの第２トレーニングサンプルを採用してモデルをトレーニングする。通常、ｋは１より遥かに大きい。または、第３ラウンドおよび第８ラウンドにおいて複数グループの第１トレーニングサンプルを採用してモデルをトレーニングし、１～第２ラウンド、第４～７ラウンド、および第９～１０ラウンドにおいて複数グループの第２トレーニングサンプルを採用してモデルをトレーニングしてもよい。これについて具体的に限定しない。

第１ラウンドのトレーニング回数が第２ラウンドのトレーニング回数以上、または第２ラウンドのトレーニング回数よりも小さいが近い場合、トレーニング過程において、コンポーネント分類ロスおよびスタイル敵対的ロスは文字生成モデルを良く拘束することができず、トレーニングにより得られた文字生成モデルのスタイルタイプの学習能力およびコンポーネントコンテンツの学習能力が弱くなり、文字生成モデルの正確率が低下し、スタイルタイプの学習能力とコンポーネントコンテンツの学習能力とを両立させるために、第２トレーニングサンプルのトレーニングラウンドの占有率を高める必要があり、これにより、第１ラウンドが第２ラウンドより遥かに大きいように設定することで、第２トレーニングサンプルのトレーニングラウンドの占有率を高め、スタイルタイプの学習能力とコンポーネントコンテンツの学習能力とを両立させて向上させ、文字生成モデルの正確率を向上させることができる。

異なるラウンドにおいて、第１トレーニングサンプルおよび第２トレーニングサンプルをそれぞれ採用してターゲットモデル内の文字生成モデルをトレーニングすることにより、文字生成モデルを個別に独立してトレーニングすることができ、第１トレーニングサンプルと第２トレーニングサンプルとの間の相互干渉を低減し、コンポーネント分類ロスおよびスタイル敵対的ロスの文字生成モデルに対する拘束を実現し、文字生成モデルのスタイル遷移の正確率を向上させるとともに、サンプルのカバー範囲およびサンプルの代表性を増加し、文字生成モデルの汎化能力を向上させ、且つ、第２トレーニングサンプルを採用する第２ラウンドが第１トレーニングサンプルを採用する第１ラウンドよりも大きいトレーニングモデルを設けることにより、スタイルタイプの学習能力およびコンポーネントコンテンツの学習能力を向上させ、更に文字生成モデルのスタイル遷移の正確率を向上させることができる。

Ｓ４０７において、前記第１文字敵対的ロス、前記第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整する。

ここで、第１トレーニングサンプルに対し、文字分類モデルは、コンポーネント分類ロスおよびスタイル敵対的ロスを計算しない。トレーニング集合に第１トレーニングサンプルおよび第２トレーニングサンプルを予めマークし、第１トレーニングサンプルと第２トレーニングサンプルとの区分を実現することができる。スタイルノイズ字のノイズスタイル特徴ベクトルおよび第１ターゲットドメイン生成字の生成スタイル特徴ベクトルをコンポーネント分類モデルに入力せず、コンポーネント分類モデルは、スタイルノイズ字および第１ターゲットドメイン生成字に対してコンポーネント分類ロスを計算しない。第１ターゲットドメイン生成字および第１ターゲットドメインサンプル字に対してスタイル敵対的ロスを計算しないように識別モデルを設定する。

本開示の技術案によれば、標準字集合を取得してノイズ情報を追加し、ノイズ字集合を生成し、第１ソースドメインサンプル字に含まれるコンポーネントおよび第１ターゲットドメインサンプル字のフォントスタイルに基づき、ノイズ字集合からスタイルノイズ字を選別して第１トレーニングサンプルを形成することにより、スタイルノイズ字の干渉の程度を柔軟に制御することができ、且つ、標準字の形成に基づき、他のノイズでない干渉要素を減少し、スタイルタイプおよび文字コンテンツを変更しないスタイルノイズ字を形成し、トレーニングサンプルの干渉を増加するが、文字生成モデルのスタイルタイプおよび文字コンテンツに対する学習に影響を及ぼさず、文字生成モデルの汎化能力を精確に向上させ、画像スタイル変換の正確率を向上させる。

図５は、本開示の実施例に係る一実施例の有効画素登場確率の計算方法の模式図である。図５に示すように、標準字集合において、スタイルタイプが異なっていずれも「称」字である候補標準字をＮ個クエリした。「称」のＮ個の候補標準字における有効画素（黒色の画素）が各画素位置（ｘ，ｙ）に登場した回数を統計する。例えば、Ｋ回登場すると、「称」の（ｘ，ｙ）位置における対応する有効画素登場確率Ｐ（ｘ，ｙ）＝Ｋ／Ｎである。

図６は、本開示の実施例に係る別の文字生成モデルのトレーニング方法のフローチャートであり、上記技術案に基づいて更に最適化して拡張し、且つ、上記各好ましい実施形態と組み合わせることができる。前記ターゲットモデルは、予めトレーニングされた文字分類モデルを更に含み、文字生成モデルのトレーニング方法の最適化として、前記第１トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第１誤字ロスを取得し、前記第２トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第２誤字ロスを取得し、前記第１誤字ロスおよび前記第２誤字ロスに基づいて前記文字生成モデルのパラメータを調整する。

Ｓ６０１において、第１トレーニングサンプルを取得し、前記第１トレーニングサンプルに基づいてターゲットモデルをトレーニングし、第１文字敵対的ロスおよび第１誤字ロスを取得する。前記第１トレーニングサンプルは、第１ソースドメインサンプル字、第１ターゲットドメインサンプル字、およびスタイルノイズ字を含み、前記スタイルノイズ字のスタイルタイプは前記第１ターゲットドメインサンプル字のスタイルタイプと同じであり、前記ターゲットモデルは、文字生成モデル、コンポーネント分類モデル、識別モデル、および予めトレーニングされた文字分類モデルを含む。

文字分類モデルは、ターゲット生成字が誤字であるか否かを判別することに用いられる。文字分類モデルは、ＲｅｓＮｅｔ－１８（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ、残差ネットワーク）構造を採用することができる。ここで、ＲｅｓＮｅｔ１８構造のモデルは、１７個の畳み込み層および１つの完全接続層を備える。例えば、トレーニングサンプルが、５００個のフォントで、フォント毎に６７６３個の文字があるデータセットであり、実験により、トレーニング済みの文字分類モデルは、該データセットで９７％の分類正確率を取得する。誤字ロスは、文字生成モデルにより出力されたターゲットドメイン生成字の誤字率を拘束することに用いられ、具体的には、字と正確な字との間の違いを意味する。

Ｓ６０２において、第２トレーニングサンプルを取得し、前記第２トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第２文字敵対的ロス、コンポーネント分類ロス、スタイル敵対的ロス、および第２誤字ロスを取得し、前記第２トレーニングサンプルは、第２ソースドメインサンプル字、第２ターゲットドメインサンプル字、およびスタイル標準字を含み、前記スタイル標準字のスタイルタイプは前記第２ターゲットドメインサンプル字のスタイルタイプと同じである。

第１トレーニングサンプルおよび第２トレーニングサンプルは、いずれも誤字ロスを計算することができ、第１誤字ロスと第２誤字ロスとをまとめて誤字ロスと呼び、第１ターゲットドメイン生成字と第２ターゲットドメイン生成字とをまとめてターゲットドメイン生成字と呼んでもよく、以下のような過程に基づいて誤字ロスを計算する。

ターゲットドメイン生成字を文字分類モデルに入力し、該ターゲットドメイン生成字の生成文字ベクトルＸ＝［ｘ_０，ｘ_１……ｘ_ｉ……ｘ_ｎ］を取得する。ここで、ベクトルＸにおける各要素がトレーニングサンプルにおける１つの文字を表すことができれば、ｎは、トレーニングサンプルにおける文字数を表し、例えば、トレーニングサンプルは６７６１個の字を有すると、ｎは６７６０であってもよい。上記ターゲットドメイン生成字に対し、標準文字ベクトルＹ＝［ｙ_０，ｙ_１……ｙ_ｉ……ｙ_ｎ］が予め設定される。ここで、Ｙにおける各要素がトレーニングサンプルにおける１つの文字を表すことができれば、ｎは、トレーニングサンプルにおける文字数を表し、例えば、トレーニングサンプルは６７６１個の字を有すると、ｎは６７６０であってもよい。（ただしＸは本明細書中でべクトルＸを表し、以下同様にＹ，Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆもそれぞれベクトルを表す。）

標準文字ベクトルＹは、ターゲットドメイン生成字を上記文字分類モデルに入力して上記文字分類モデルが出力すべきベクトルを表す。例えば、ターゲットドメイン生成字が「做」字であり、「做」字がトレーニングサンプルにおけるｎ個の字において１つ目にある場合、「做」字の標準文字ベクトルは、Ｙ＝［１，０，０……０］と表すことができる。ターゲットドメイン生成字の生成文字ベクトルＸと標準文字ベクトルＹとの間のクロスエントロピーに基づき、誤字ロスを確定することができる。誤字ロスは、以下のような式（１）で表すことができる。

（ただし、ＬＣは誤字ロスを表し、ｘ_ｉは、生成文字ベクトルにおける添え字がｉの要素を表し、ｙ_ｉは、標準文字ベクトルにおける添え字がｉの要素を表し、ｉは、０以上ｎ以下の整数であり、ｎは、生成文字ベクトルおよび標準文字ベクトルにおける要素数を表す。）

好ましくは、前記第１トレーニングサンプルに基づいてターゲットモデルをトレーニングし、第１文字敵対的ロスを取得することは、前記第１ソースドメインサンプル字および前記スタイルノイズ字を前記文字生成モデルに入力し、第１ターゲットドメイン生成字を取得することと、前記第１ターゲットドメイン生成字および前記第１ターゲットドメインサンプル字を前記識別モデルに入力し、第１文字敵対的ロスを取得することとを含む。

第１ターゲットドメインサンプル字および第１ターゲットドメイン生成字を識別モデルに入力し、第１文字敵対的ロスを計算する。

好ましくは、前記第２トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得することは、前記第２ソースドメインサンプル字および前記スタイル標準字を前記文字生成モデルに入力し、第２ターゲットドメイン生成字および前記スタイル標準字の標準スタイル特徴ベクトルを取得することと、前記第２ターゲットドメイン生成字を前記文字生成モデルに入力し、前記第２ターゲットドメイン生成字の生成スタイル特徴ベクトルを取得することと、前記生成スタイル特徴ベクトルおよび前記標準スタイル特徴ベクトルを前記コンポーネント分類モデルに入力し、コンポーネント分類ロスを計算することと、前記第２ターゲットドメインサンプル字および前記第２ターゲットドメイン生成字を前記識別モデルに入力し、第２文字敵対的ロスおよびスタイル敵対的ロスを計算することとを含む。

スタイル標準字をスタイルエンコーダに入力し、スタイル標準字の標準スタイル特徴ベクトルを取得する。第２ターゲットドメイン生成字をスタイルエンコーダに入力し、第２ターゲットドメイン生成字の生成スタイル特徴ベクトルを取得する。生成スタイル特徴ベクトルおよび標準スタイル特徴ベクトルをコンポーネント分類モデルに入力し、コンポーネント分類ロスを計算する。第２ターゲットドメインサンプル字および第２ターゲットドメイン生成字を識別モデルに入力し、スタイル敵対的ロスを計算する。前述に基づき、第２ターゲットドメインサンプル字および第２ターゲットドメイン生成字を識別モデルに入力し、更に第２文字敵対的ロスを計算することができる。

第２トレーニングサンプルに対し、ターゲットモデルは、更に、コンポーネントロスおよびスタイル敵対的ロスを計算することに用いられる。ここで、コンポーネント分類モデルは、コンポーネントロスを計算することに用いられる。

ここで、コンポーネントロスに対し、コンポーネント分類モデルは、標準スタイル特徴ベクトルに対応する標準字に含まれるコンポーネントに、第２ソースドメインサンプル字に含まれるコンポーネントと同じであるコンポーネントが存在するか否かを検出することに用いられ、即ち、コンポーネント分類モデルは、標準スタイル特徴ベクトルに対応する標準字に、第２ソースドメインサンプル字の偏旁・部首と同じ偏旁・部首が存在するか否かを検出することに用いられる。

例示的には、標準スタイル特徴ベクトルＡ＝［ａ_０，ａ_１……ａ_ｉ……ａ_ｍ］において、Ａにおける各要素は、コンポーネント表における１つのコンポーネントを表すことができ、生成スタイル特徴ベクトルＢ＝［ｂ_０，ｂ_１……ｂ_ｉ……ｂ_ｍ］において、Ｂにおける各要素は、コンポーネント表における１つのコンポーネントを表すことができ、ｍは、コンポーネント表におけるコンポーネント数を表す。例えば、コンポーネント表に１００個のコンポーネントがあり、中国語文字に対してコンポーネントが偏旁・部首であり、コンポーネント表に１００個の偏旁・部首がある場合、ｍは９９であってもよい。例えば、ターゲットドメインスタイル字が「佳」字であり、「佳」字は、コンポーネント「イ」とコンポーネント「圭」とで構成でき、それぞれコンポーネント表のｍ個の字内で２つ目および３つ目に位置する場合、「佳」字の標準スタイル特徴ベクトルは、Ａ＝［０，１，１，０，０……０］と表すことができる。更に、ターゲットドメイン生成字が「イ尓」字であり、「イ尓」字は、コンポーネント「イ」とコンポーネント「尓」とで構成でき、それぞれコンポーネント表のｍ個の字内で２つ目および５つ目に位置する場合、「イ尓」字の生成スタイル特徴ベクトルは、Ｂ＝［０，１，０，０，１……０］と表すことができる。

ターゲットドメインスタイル字に対し、ターゲット標準スタイル特徴ベクトルＡ＊＝［ａ＊_０，ａ＊_１……ａ＊_ｉ……ａ＊_ｍ］が予め設定される。ここで、Ａ＊における各要素は、コンポーネント表における１つのコンポーネントを表すことができる。ターゲットドメイン生成字に対し、ターゲット生成スタイル特徴ベクトルＢ＊＝［ｂ＊_０，ｂ＊_１……ｂ＊_ｉ……ｂ＊_ｍ］が予め設定される。ここで、Ｂ＊における各要素は、コンポーネント表における１つのコンポーネントを表すことができる。ターゲット標準スタイル特徴ベクトルＡ＊は、ターゲットドメインスタイル字を文字分類モデルに入力して文字分類モデルが出力すべきベクトルを表す。例えば、ターゲットドメインスタイル字が「佳」字であり、「佳」字は、コンポーネント「イ」とコンポーネント「圭」とで構成でき、それぞれコンポーネント表のｍ個の字内で２つ目および３つ目に位置する場合、「佳」字のターゲット標準スタイル特徴ベクトルは、Ａ＊＝［０，１，１，０，０……０］と表すことができる。それに対応し、ターゲット生成スタイル特徴ベクトルＢ＊は、ターゲットドメイン生成字を文字分類モデルに入力し、文字分類モデルが出力すべきベクトルを表す。例えば、ターゲット生成字が「イ尓」字であり、「イ尓」字は、コンポーネント「イ」とコンポーネント「尓」とで構成でき、それぞれコンポーネント表のｍ個の字内で２つ目および５つ目に位置する場合、ターゲット生成スタイル特徴ベクトルはＢ＊＝［０，１，０，０，１……０］と表すことができる。

ターゲットドメインスタイル字の標準スタイル特徴ベクトルＡとターゲット標準スタイル特徴ベクトルＡ＊との間のクロスエントロピーに基づき、第１コンポーネント分類ロスを確定することができる。第１コンポーネント分類ロスは、以下のような式（２）で表すことができる。

（ただし、Ｌ_ｃｌｓ１は、第１コンポーネント分類ロスを表し、ａ_ｉは、標準スタイル特徴ベクトルにおける添え字がｉの要素を表し、ａ＊_ｉは、ターゲット標準スタイル特徴ベクトルにおける添え字がｉの要素を表し、ｉは、０以上ｍ以下の整数であり、ｍは、標準スタイル特徴ベクトルおよびターゲット標準スタイル特徴ベクトルにおける要素数を表す。）

ターゲットドメイン生成字の生成スタイル特徴ベクトルＢとターゲット生成スタイル特徴ベクトルＢ＊との間のクロスエントロピーに基づき、第２コンポーネント分類ロスを確定することができる。第２コンポーネント分類ロスは、以下のような式（３）で表すことができる。

（ただし、Ｌ_ｃｌｓ２は、第２コンポーネント分類ロスを表し、ｂ_ｉは、生成スタイル特徴ベクトルにおける添え字がｉの要素を表し、ｂ＊_ｉは、ターゲット生成スタイル特徴ベクトルにおける添え字がｉの要素を表し、ｉは、０以上ｍ以下の整数であり、ｍは、生成スタイル特徴ベクトルおよびターゲット生成スタイル特徴ベクトルにおける要素数を表す。）

第１コンポーネント分類ロスおよび第２コンポーネント分類ロスに基づき、文字生成モデルのコンポーネント分類ロスを確定することができる。文字生成モデルのコンポーネント分類ロスは、以下のような式（４）で表すことができる。

（Ｌ_ｃｌｓは、文字生成モデルのコンポーネント分類ロスを表す。）

本開示の実施例によれば、コンポーネント分類ロスは、文字生成モデルにより出力されたターゲットドメイン生成字に含まれるコンポーネントの正確率を拘束し、文字生成モデルが誤ったコンポーネントで構成された生成字を生成する確率を減少することに使用できる。

識別モデルは、ターゲットドメインサンプル字およびターゲットドメイン生成字が実に手で書いた字であるか否かを検出すること、文字タイプを分類すること、およびスタイルタイプを分類することに用いられる。例示的には、ソースドメインサンプル字は実に手で書いた字画像である一方、ターゲットドメインサンプル字はモデルにより生成された字の画像であり、偽の字の画像と呼ばれてもよい。ターゲットドメイン生成字は、モデルにより生成された手書き字の画像であり、偽の手書き字の画像と呼ばれてもよい。トレーニング過程において、ターゲットドメインサンプル字を真Ｒｅａｌ（例えば、値が１）とマークし、マークターゲットドメイン生成字を偽Ｆａｋｅ（例えば、値が０）とマークしてもよい。ターゲットドメインサンプル字およびターゲットドメイン生成字が実に手で書いた字であるか否かを検出することは、実際に、モデルにより生成された字であるか否かを検出することであり、文字生成モデルにより生成された字の識別モデルにより出力された結果が真である場合、文字生成モデルにより生成された字は、手書き字と非常に似ていることを表す。

ここで、第１トレーニングサンプルおよび第２トレーニングサンプルはいずれも文字敵対的ロスを計算することができ、第１文字敵対的ロスと第２文字敵対的ロスとをまとめて文字敵対的ロスと呼び、第１ターゲットドメイン生成字と第２ターゲットドメイン生成字とをまとめてターゲットドメイン生成字と呼び、第１ターゲットドメインサンプル字と第２ターゲットドメインサンプル字とをまとめてターゲットドメインサンプル字と呼んでもよく、以下のような過程に基づいて文字敵対的ロスを計算する。

ターゲットドメインサンプル字を識別モデルに入力し、ターゲットドメインサンプル字の第１文字敵対的ベクトルを取得し、ターゲットドメイン生成字を識別モデルに入力し、ターゲットドメイン生成字の第２文字敵対的ベクトルを取得する。

例示的には、第１文字敵対的ベクトルＣ＝［ｃ_０，ｃ_１……ｃ_ｉ……ｃ_ｊ］において、Ｃにおける各要素は、文字表における１つの文字を表すことができ、第２文字敵対的ベクトルＤ＝［ｄ_０，ｄ_１……ｄ_ｉ……ｄ_ｊ］において、Ｄにおける各要素は、文字表における１つの文字を表すことができ、ｊは、文字表における文字数を表す。例えば、文字表に６０００個の文字があり、中国語文字に対して文字表が６０００個の中国語文字を含む場合、ｊは５９９９であってもよい。且つ、要素が１であると、対応する字が実に手で書いた字であることを表し、要素が－１であると、対応する字がモデルにより生成された字であることを表す。例えば、ターゲットドメインサンプル字が「イ尓」字であり、「イ尓」字は文字表で１つ目に位置し、且つ、ターゲットドメインサンプル字が実に手で書いた字であり、１つ目の要素の数値が対応して１である場合、「イ尓」字の第１文字敵対的ベクトルは、Ｃ＝［１，０，０，０，０……０］と表される。また、ターゲットドメイン生成字が「佳」字であり、「佳」字が文字表で２つ目に位置し、且つ、ターゲットドメイン生成字がモデルにより生成された字であり、２つ目の要素の数値が対応して－１である場合、「佳」字の第２文字敵対的ベクトルは、Ｄ＝［０，－１，０，０，０……０］と表すことができる。

ターゲットドメインサンプル字に対し、ターゲット第１文字敵対的ベクトルＣ＊＝［ｃ＊_０，ｃ＊_１……ｃ＊_ｉ……ｃ＊_ｊ］が予め設定される。ここで、Ｃ＊における各要素は、文字表における１つの文字を表すことができる。ターゲットドメイン生成字に対し、ターゲット第２文字敵対的ベクトルＤ＊＝［ｄ＊_０，ｄ＊_１……ｄ＊_ｉ……ｄ＊_ｊ］が予め設定される。ここで、Ｄ＊における各要素は、文字表における１つの文字を表すことができる。ターゲット第１文字敵対的ベクトルＣ＊は、ターゲットドメインサンプル字を識別モデルに入力し、識別モデルが出力すべきベクトルを表す。例えば、ターゲットドメインサンプル字が「イ尓」字であり、「イ尓」字は、文字表で１つ目に位置し、且つ、ターゲットドメインサンプル字が実に手で書いた字であり、１つ目の要素の数値が対応して１である場合、「イ尓」字の第１文字敵対的ベクトルは、Ｃ＊＝［１，０，０，０，０……０］と表される。それに対応し、ターゲット第２文字敵対的ベクトルＤ＊は、ターゲットドメイン生成字を識別モデルに入力して識別モデルが出力すべきベクトルを表す。例えば、ターゲット生成字が「佳」字であり、「佳」字は、文字表で２つ目に位置し、且つ、ターゲットドメイン生成字がモデルにより生成された字であり、２つ目の要素の数値が対応して－１である場合、「佳」字の第２文字敵対的ベクトルは、Ｄ＊＝［０，－１，０，０，０……０］と表すことができる。

ターゲットドメインサンプル字の第１文字敵対的ベクトルＣとターゲット第１文字敵対的ベクトルＣ＊との間のクロスエントロピーに基づき、第１文字敵対的ロスを確定することができる。第１文字敵対的ロスは、以下のような式（５）で表すことができる。

（ただし、

は、第１文字敵対的ロスを表し、ｃ_ｉは、第１文字敵対的ベクトルにおける添え字がｉの要素を表し、ｃ＊_ｉは、ターゲット第１文字敵対的ベクトルにおける添え字がｉの要素を表し、ｉは、０以上ｊ以下の整数であり、ｊは、第１文字敵対的ベクトルおよびターゲット第１文字敵対的ベクトルにおける要素数を表す。）

ターゲットドメイン生成字の第２文字敵対的ベクトルＤとターゲット第１文字敵対的ベクトルＤ＊との間のクロスエントロピーに基づき、第２文字敵対的ロスを確定することができる。第２文字敵対的ロスは、以下のような式（６）で表すことができる。

（ただし、

は、第２文字敵対的ロスを表し、ｄ_ｉは、第２文字敵対的ベクトルにおける添え字がｉの要素を表し、ｄ＊_ｉは、ターゲット第２文字敵対的ベクトルにおける添え字がｉの要素を表し、ｉは、０以上ｊ以下の整数であり、ｊは、第２文字敵対的ベクトルおよびターゲット第２文字敵対的ベクトルにおける要素数を表す。）

第１文字敵対的ロスおよび第２文字敵対的ロスに基づき、文字生成モデルの文字敵対的ロスを確定することができる。文字生成モデルの文字敵対的ロスは、以下のような式（７）で表すことができる。

（

は、文字生成モデルの文字敵対的ロスを表す。）

ここで、スタイル敵対的ロスに対し、識別モデルは、第２ターゲットドメインサンプル字および第２ターゲットドメイン生成字が実に手で書いた字であるか否かを検出すること、およびスタイルタイプを分類することに用いられる。第２ターゲットドメインサンプル字を識別モデルに入力し、第２ターゲットドメインサンプル字の第１スタイル敵対的ベクトルを取得し、第２ターゲットドメイン生成字を識別モデルに入力し、第２ターゲットドメイン生成字の第２スタイル敵対的ベクトルを取得する。

例示的には、第１スタイル敵対的ベクトルＥ＝［ｅ_０，ｅ_１……ｅ_ｉ……ｅ_ｋ］において、Ｅにおける各要素は、スタイル表における１つのスタイルタイプを表すことができ、第２スタイル敵対的ベクトルＦ＝［ｆ_０，ｆ_１……ｆ_ｉ……ｆ_ｋ］において、Ｆにおける各要素は、スタイル表における１つのスタイルタイプを表すことができ、ｋはスタイル表におけるスタイルタイプの数を表す。例えば、スタイル表に１０００個のスタイルタイプがあり、手書き字に対してスタイル表が１０００個の手書きフォントを含む場合、ｋは９９９であってもよい。且つ、要素が１であると、対応する字が実に手で書いた字であることを表し、要素が－１であると、対応する字がモデルにより生成された字であることを表す。例えば、ターゲットドメインサンプル字が「イ尓」字であり、「イ尓」字のスタイルタイプは、スタイル表で９９８個目に位置し、且つ、ターゲットドメインサンプル字が実に手で書いた字であり、９９８個目の要素の数値が対応して１である場合、「イ尓」字の第１スタイル敵対的ベクトルは、Ｅ＝［０，０，０……１，０］と表される。また、ターゲットドメイン生成字が「佳」字であり、「佳」字のスタイルタイプは、スタイル表で９９９個目に位置し、且つ、ターゲットドメイン生成字がモデルにより生成された字であり、第９９９個の要素の数値が対応して－１である場合、「佳」字の第２スタイル敵対的ベクトルは、Ｆ＝［０，０，０……０，－１］と表すことができる。

ターゲットドメインサンプル字に対し、ターゲット第１スタイル敵対的ベクトルＥ＊＝［ｅ＊_０，ｅ＊_１……ｅ＊_ｉ……ｅ＊_ｋ］が予め設定される。ここで、Ｅ＊における各要素は、スタイル表における１つのスタイルタイプを表すことができる。ターゲットドメイン生成字に対し、ターゲット第２スタイル敵対的ベクトルＦ＊＝［ｆ＊_０，ｆ＊_１……ｆ＊_ｉ……ｆ＊_ｋ］が予め設定される。ここで、Ｆ＊における各要素は、スタイル表における１つのスタイルタイプを表すことができる。ターゲット第１スタイル敵対的ベクトルＥ＊は、ターゲットドメインサンプル字を識別モデルに入力して識別モデルが出力すべきベクトルを表す。例えば、ターゲットドメインサンプル字が「イ尓」字であり、「イ尓」字のスタイルタイプは、スタイル表で９９８個目に位置し、且つ、ターゲットドメインサンプル字が実に手で書いた字であり、９９８個目の要素の数値が対応して１である場合、「イ尓」字の第１スタイル敵対的ベクトルは、Ｅ＊＝［０，０，０……１，０］と表される。それに対応し、ターゲット第２スタイル敵対的ベクトルＦ＊は、ターゲットドメイン生成字を識別モデルに入力して識別モデルが出力すべきベクトルを表す。例えば、ターゲット生成字が「佳」字であり、「佳」字のスタイルタイプは、スタイル表で９９９個目に位置し、且つ、ターゲットドメイン生成字がモデルにより生成された字であり、９９９個目の要素の数値が対応して－１である場合、「佳」字の第２スタイル敵対的ベクトルは、Ｆ＊＝［０，０，０……０，－１］と表すことができる。

ターゲットドメインサンプル字の第１スタイル敵対的ベクトルＥとターゲット第１スタイル敵対的ベクトルＥ＊との間のクロスエントロピーに基づき、第１スタイル敵対的ロスを確定することができる。第１スタイル敵対的ロスは、以下のような式（８）で表すことができる。

（ただし、

は、第１スタイル敵対的ロスを表し、ｅ_ｉは、第１スタイル敵対的ベクトルにおける添え字がｉの要素を表し、ｅ＊_ｉは、ターゲット第１スタイル敵対的ベクトルにおける添え字がｉの要素を表し、ｉは、０以上ｋ以下の整数であり、ｋは、第１スタイル敵対的ベクトルおよびターゲット第１スタイル敵対的ベクトルにおける要素数を表す。）

ターゲットドメイン生成字の第２スタイル敵対的ベクトルＤとターゲット第１スタイル敵対的ベクトルＤ＊との間のクロスエントロピーに基づき、第２スタイル敵対的ロスを確定することができる。第２スタイル敵対的ロスは、以下のような式（９）で表すことができる。

（ただし、

は、第２スタイル敵対的ロスを表し、ｆ_ｉは、第２スタイル敵対的ベクトルにおける添え字がｉの要素を表し、ｆ＊_ｉは、ターゲット第２スタイル敵対的ベクトルにおける添え字がｉの要素を表し、ｉは、０以上ｋ以下の整数であり、ｋは、第２スタイル敵対的ベクトルおよびターゲット第２スタイル敵対的ベクトルにおける要素数を表す。）

第１スタイル敵対的ロスおよび第２スタイル敵対的ロスに基づき、文字生成モデルのスタイル敵対的ロスを確定することができる。文字生成モデルのスタイル敵対的ロスは、以下のような式（１０）で表すことができる。

（

は、文字生成モデルのスタイル敵対的ロスを表す。）

コンポーネント分類モデルを用いてコンポーネント分類ロスを導入することにより、フォントスタイルの学習範囲を増加し、フォントスタイルの遷移の正確率を向上させ、識別モデルを用いて文字敵対的ロスおよびスタイル敵対的ロスを導入することにより、文字生成モデルの正確なフォントを学習する能力およびフォントスタイルを学習する能力を向上させることができ、文字分類モデルを用いて誤字ロスを導入することにより、文字生成モデルの誤字を生成する確率を減少する。

第２トレーニングサンプルをターゲットモデルに入力し、第２ターゲットドメイン生成字を取得して文字分類モデルに入力し、第２誤字ロスを計算する。それに対応し、第１トレーニングサンプルをターゲットモデルに入力し、第１ターゲットドメイン生成字を取得して文字分類モデルに入力し、第１誤字ロスを計算する。

識別モデルは、更に、ターゲットドメイン生成字が生成したいターゲットドメインサンプル字であるか否かを検出することに用いられる。ターゲットドメインサンプル字およびターゲットドメイン生成字を識別モデルに入力し、一致性ロスを取得する。

ソースドメインサンプル字を文字生成モデルに入力して得られたターゲットドメイン生成字はスタイルが変換しただけで、コンテンツが変わらないことを確保するために、文字生成モデルに１つの一致性ロス（ｃｙｃｌｅ－ｃｏｎｓｉｓｔｅｎｃｙｌｏｓｓ）を追加することができる。該ロスは、ターゲットドメインサンプル字とターゲットドメイン生成字との間の違いに基づいて計算できる。例えば、ターゲットドメインサンプル字とターゲットドメイン生成字との２枚の画像の対応する各画素点の画素値を差分し、絶対値を求め、各画素点の違いを取得し、全ての画素点の違いを加算して文字生成モデルのサイクル一致性ロスを取得し、Ｌ１_Ａ２Ｂと記すことができる。

好ましくは、文字生成モデルのトレーニング方法は、前記第２ターゲットドメインサンプル字および前記ターゲットドメイン生成字を識別モデルに入力し、一致性ロスを計算することと、前記一致性ロスに基づき、前記文字生成モデルのパラメータを調整することとを更に含む。

Ｓ６０３において、前記第１文字敵対的ロス、前記第２文字敵対的ロス、前記コンポーネント分類ロス、前記スタイル敵対的ロス、前記第１誤字ロス、および前記第２誤字ロスに基づいて前記文字生成モデルのパラメータを調整する。

本開示の技術案によれば、ターゲットモデルが予めトレーニングされた文字分類モデルを含むように設定し、文字分類モデルにより誤字ロスを計算し、文字生成モデルにより出力されたターゲットドメイン生成字の誤字率を拘束し、文字生成モデルの誤字を生成する確率を減少する。

図７は、本開示の実施例に係る誤字ロスを用いて文字生成モデルを拘束するトレーニングシーンの図である。図７に示すように、第２トレーニングサンプルをターゲットモデル７１０に入力し、第２ターゲットドメイン生成字７０３を取得して文字分類モデル７５０に入力し、第２誤字ロス７０８を計算する。それに対応し、第１トレーニングサンプルをターゲットモデル７１０に入力し、第１ターゲットドメイン生成字を取得して文字分類モデル７５０に入力し、第１誤字ロスを計算する。

図８は、本開示の一実施例に係る方法によりトレーニングされた文字生成モデルが字を生成する効果図である。ここで、ブロック内の字は実に手で書いた字であるが、ブロック内に位置しない字は文字生成モデルの生成字である。これにより分かるように、文字生成モデルの生成字のフォントスタイルは実に手で書いた字のフォントスタイルとほぼ一致し、且つ、崩した手書き字に対し、文字生成モデルは正確な字を生成することができる。

図９は、本開示の実施例に係る文字生成方法のフローチャートであり、本実施例は、文字生成モデルをトレーニングすることにより、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換し、新たな文字を生成する場合に適用できる。本実施例の方法は、文字生成装置で実行することができ、該装置は、ソフトウェアおよび／またはハードウェアの方式で実現でき、具体的に、一定のデータ演算能力を持つ電子機器に構成され、該電子機器は、携帯電話、タブレットコンピュータ、車載端末およびデスクトップコンピュータ等のようなクライアント機器またはサーバ機器であってもよい。

Ｓ９０１において、ソースドメイン入力字および対応するターゲットドメイン入力字を取得する。

ソースドメイン入力字は、ターゲットドメインフォントスタイルに変換する必要がある字で形成された画像を意味してもよい。ターゲットドメイン入力字は、ターゲットドメインフォントスタイルの字で形成された画像を意味してもよい。ソースドメイン入力字に対してコンポーネントを分割し、ソースドメイン入力字を構成する少なくとも１つのコンポーネントを確定し、各コンポーネントに基づき、予め生成されたターゲットドメイン入力字の集合においてソースドメイン入力字に対応するターゲットドメイン入力字を選別する。ターゲットドメイン入力字の数は少なくとも１つである。

ターゲットドメインフォントスタイルの字で形成された画像を予め取得し、ターゲットドメイン入力字の集合を形成することができる。該集合は、予め取得された全てのコンポーネントをカバーするターゲットドメインフォントスタイルの字で形成された画像である。例示的には、中国語文字に対し、ターゲットドメインフォントスタイルはユーザが手で書いたフォントスタイルであり、ユーザが認可して提供した手書きフォントスタイルの字の画像を予め取得してターゲットドメイン入力字の集合を生成することができる。より具体的には、全ての偏旁・部首をカバーした１００個の字を予め設定し、且つ、該全ての偏旁・部首をカバーした１００個の字に対し、手書きフォントスタイルの字を認可して提供してターゲットドメイン入力字の集合を生成することをユーザに提示することができる。

Ｓ９０２において、前記ソースドメイン入力字および前記ターゲット入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得し、前記文字生成モデルは、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる。

文字生成モデルは、文字生成モデルのトレーニング方法によるトレーニングで得られるものである。ターゲットドメイン新字とは、ソースドメイン入力字に対応するコンテンツのターゲットドメインフォントスタイルの字を意味してもよい。例えば、ソースドメイン入力字が楷書体字の画像であり、ターゲットドメイン新字が手書き字の画像であり、楷書体字の画像を文字生成モデルに入力し、ターゲットドメイン新字である手書き字の画像を取得することができる。

ターゲットドメイン新字を取得した場合、ターゲットドメイン新字に基づいて字ライブラリを確立することができる。例えば、文字生成モデルにより生成された新字を記憶し、手書きフォントスタイルを有する字ライブラリを確立し、該字ライブラリは入力法に適用でき、ユーザは、該字ライブラリに基づく入力法を使用し、手書きフォントスタイルを有する字を直接取得することができ、ユーザの多様化のニーズを満たすことができ、ユーザーエクスペリエンスを向上させる。

ソースドメイン入力字および対応するターゲットドメイン入力字を取得し、文字生成モデルに入力してターゲットドメイン新字を取得することにより、ソースドメイン入力字をターゲットドメイン新字に正確に変換することを実現し、ターゲットドメイン新字の生成正確率を高め、ターゲットドメイン新字の生成効率を高め、ターゲットドメイン新字の生成を向上させる人件費を低減することができる。

本開示の実施例によれば、図１０は、本開示の実施例における文字生成モデルのトレーニング装置の構造図であり、本開示の実施例は、文字生成モデルのトレーニングに適用される。ここで、文字生成モデルは、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換する場合に用いられる。該装置は、ソフトウェアおよび／またはハードウェアで実現され、具体的に、一定のデータ演算能力を持つ電子機器に構成される。

図１０に示す文字生成モデルのトレーニング装置１０００は、第１トレーニングサンプルトレーニングモジュール１００１と、第２トレーニングサンプルトレーニングモジュール１００２と、第１ロス調整モジュール１００３とを備える。

第１トレーニングサンプルトレーニングモジュール１００１は、第１トレーニングサンプルを取得し、前記第１トレーニングサンプルに基づいてターゲットモデルをトレーニングし、第１文字敵対的ロスを取得することに用いられ、前記第１トレーニングサンプルは、第１ソースドメインサンプル字、第１ターゲットドメインサンプル字、およびスタイルノイズ字を含み、前記スタイルノイズ字のスタイルタイプは前記第１ターゲットドメインサンプル字のスタイルタイプと同じであり、前記ターゲットモデルは、文字生成モデル、コンポーネント分類モデル、および識別モデルを含む。

第２トレーニングサンプルトレーニングモジュール１００２は、第２トレーニングサンプルを取得し、前記第２トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得することに用いられ、前記第２トレーニングサンプルは、第２ソースドメインサンプル字、第２ターゲットドメインサンプル字、およびスタイル標準字を含み、前記スタイル標準字のスタイルタイプは前記第２ターゲットドメインサンプル字のスタイルタイプと同じである。

第１ロス調整モジュール１００３は、前記第１文字敵対的ロス、前記第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整することに用いられる。

本開示の技術案によれば、スタイルノイズ字を含む第１トレーニングサンプルおよびスタイル標準字を含む第２トレーニングサンプルに基づき、ターゲットモデル内の文字生成モデルをトレーニングし、字の基にノイズを追加することにより、ノイズ情報を含むトレーニングサンプルを確定して文字生成モデルをトレーニングすることで、文字生成モデルの未知フォントに対するスタイル変換の能力を向上させ、モデルの汎化能力を向上させることができ、且つ、ノイズ情報を含まないトレーニングサンプルと組み合わせて文字生成モデルをトレーニングし、モデルのスタイル変換を正確に実現する能力の向上と、モデルのスタイル変換の正確率の高めとを両立させることができる。

更に、前記第１トレーニングサンプルトレーニングモジュール１００１は、第１ソースドメインサンプル字および第１ターゲットドメインサンプル字を取得するための第１サンプル字取得ユニットと、標準字集合を取得し、ノイズ字集合を生成するためのノイズ字集合生成ユニットと、前記第１ソースドメインサンプル字に含まれるコンポーネントに基づき、前記ノイズ字集合からスタイルノイズ字を選択するためのスタイルノイズ字取得ユニットと、前記スタイルノイズ字、第１ソースドメインサンプル字、および第１ターゲットドメインサンプル字に基づき、第１トレーニングサンプルを確定するためのスタイルノイズ字取得ユニットとを備える。

更に、前記ノイズ字集合生成ユニットは、前記標準字集合において、スタイルタイプが異なってコンテンツが同じである候補標準字を取得するための候補標準字取得サブユニットと、取得した候補標準字に基づき、前記候補標準字の有効画素分布情報を確定するための有効画素分布確定サブユニットと、前記有効画素分布情報に基づき、前記候補標準字の候補ノイズ字を生成して前記ノイズ字集合に追加するためのノイズ字集合生成サブユニットとを備える。

更に、前記第１トレーニングサンプルは複数グループの第１トレーニングサンプルを含み、前記第２トレーニングサンプルは複数グループの第２トレーニングサンプルを含み、前記第１トレーニングサンプルトレーニングモジュール１００１は、前記複数グループの第１トレーニングサンプルに基づき、前記ターゲットモデルに対して第１ラウンドのトレーニングを行うための第１ラウンドトレーニングユニットを備え、前記第２トレーニングサンプルトレーニングモジュールは、前記複数グループの第２トレーニングサンプルに基づき、前記ターゲットモデルに対して第２ラウンドのトレーニングを行うための第２ラウンドトレーニングユニットを備え、前記第１ラウンドのトレーニング回数は第２ラウンドのトレーニング回数よりも小さい。

更に、前記第１トレーニングサンプルトレーニングモジュール１００１は、前記第１ソースドメインサンプル字および前記スタイルノイズ字を前記文字生成モデルに入力し、第１ターゲットドメイン生成字を取得するための第１ターゲットドメイン生成字取得ユニットと、前記第１ターゲットドメイン生成字および前記第１ターゲットドメインサンプル字を前記識別モデルに入力し、第１文字敵対的ロスを取得するための第１文字敵対的ロス取得ユニットとを備える。

更に、前記第２トレーニングサンプルトレーニングモジュール１００２は、前記第２ソースドメインサンプル字および前記スタイル標準字を前記文字生成モデルに入力し、第２ターゲットドメイン生成字および前記スタイル標準字の標準スタイル特徴ベクトルを取得するための標準スタイル特徴ベクトル取得ユニットと、前記第２ターゲットドメイン生成字を前記文字生成モデルに入力し、前記第２ターゲットドメイン生成字の生成スタイル特徴ベクトルを取得するための生成スタイル特徴ベクトル取得ユニットと、前記生成スタイル特徴ベクトルおよび前記標準スタイル特徴ベクトルを前記コンポーネント分類モデルに入力し、コンポーネント分類ロスを計算するためのコンポーネント分類ロス計算ユニットと、前記第２ターゲットドメインサンプル字および前記第２ターゲットドメイン生成字を前記識別モデルに入力し、第２文字敵対的ロスおよびスタイル敵対的ロスを計算するための第２文字敵対的ロス計算ユニットとを備える。

更に、前記ターゲットモデルは、予めトレーニングされた文字分類モデルを更に含み、前記装置は、前記第１トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第１誤字ロスを取得するための第１誤字ロス計算モジュールと、前記第２トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第２誤字ロスを取得するための第２誤字ロス計算モジュールと、前記第１誤字ロスおよび前記第２誤字ロスに基づいて前記文字生成モデルのパラメータを調整するための第２ロス調整モジュールとを更に備える。

上記文字生成モデルのトレーニング装置は、本開示のいずれかの実施例に係る文字生成モデルのトレーニング方法を実行することができ、文字生成モデルのトレーニング方法の実行に対応する機能モジュールおよび有益な効果を備える。

本開示の実施例によれば、図１１は、本開示の実施例における文字生成装置の構造図であり、本開示の実施例は、文字生成モデルをトレーニングすることにより、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換し、新たな文字を生成する場合に適用される。該装置は、ソフトウェアおよび／またはハードウェアで実現され、具体的に、一定のデータ演算能力を持つ電子機器に構成される。

図１１に示す文字生成装置１１００は、入力字取得モジュール１１０１と、文字生成モジュール１１０２とを備える。

入力字取得モジュール１１０１は、ソースドメイン入力字および対応するターゲットドメイン入力字を取得することに用いられる。

文字生成モジュール１１０２は、前記ソースドメイン入力字および前記ターゲット入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得することに用いられ、前記文字生成モデルは、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる。

上記文字生成装置は、本開示のいずれかの実施例に係る文字生成方法を実行することができ、文字生成方法の実行に対応する機能モジュールおよび有益な効果を備える。

本開示の技術案に係るユーザの個人情報の収集、記憶、使用、加工、伝達、提供、および公開等の処理は、いずれも関連法律法規の規定に該当し、公序良俗に反していない。

本開示の実施例によれば、本開示は、電子機器、可読記憶媒体、およびコンピュータプログラム製品を更に提供する。

図１２は、本開示の実施例を実施するための電子機器１２００の例示的なブロック図を示す。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータのような様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯端末、携帯電話、スマートフォン、ウェララブル機器および他の類似する計算装置のような様々な形式の移動装置を表すこともできる。本発明に示されたコンポーネント、それらの接続、関係、およびそれらの機能は例示的なものに過ぎず、本発明に記載および／または要求される本開示の実現を限定するものではない。

図１２に示すように、機器１２００は、計算ユニット１２０１を備え、読み出し専用メモリ（ＲＯＭ）１２０２に記憶されたコンピュータプログラム、または記憶ユニット１２０８からランダムアクセスメモリ（ＲＡＭ）１２０３にロードされたコンピュータプログラムに基づき、様々な適当な動作および処理を実行することができる。ＲＡＭ１２０３には、機器１２００の操作に必要な様々なプログラムおよびデータが記憶されてもよい。計算ユニット１２０１、ＲＯＭ１２０２およびＲＡＭ１２０３は、バス１２０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インタフェース１２０５もバス１２０４に接続されている。

機器１２００における複数のコンポーネントはＩ／Ｏインタフェース１２０５に接続され、キーボード、マウス等のような入力ユニット１２０６と、各種のディスプレイ、スピーカ等のような出力ユニット１２０７と、磁気ディスク、光ディスク等のような記憶ユニット１２０８と、ネットワークカード、モデム、無線通信送受信機等のような通信ユニット１２０９とを備える。通信ユニット１２０９は、機器１２００がインターネットのようなコンピュータネットワークおよび／または様々な電気通信ネットワークを介して他の機器と情報／データを交換することを許容する。

計算ユニット１２０１は、処理および計算能力を有する汎用および／または専用の処理アセンブリであってもよい。計算ユニット１２０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、各種の専用の人工知能（ＡＩ）コンピューティングチップ、各種の機械学習モデルアルゴリズムを実行する計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、および任意の適当なプロセッサ、コントローラ、マイクロコントローラ等を含んでもよいが、これらに限定されない。計算ユニット１２０１は、上記各方法および処理、例えば、文字生成モデルのトレーニング方法または文字生成方法を実行する。例えば、いくつかの実施例において、文字生成モデルのトレーニング方法または文字生成方法は、コンピュータソフトウェアプログラムとして実現でき、有形的に記憶ユニット１２０８のような機器可読媒体に含まれている。いくつかの実施例において、コンピュータプログラムの一部または全ては、ＲＯＭ１２０２および／または通信ユニット１２０９を介して機器１２００にロードおよび／またはインストールされ得る。コンピュータプログラムがＲＡＭ１２０３にロードされて計算ユニット１２０１により実行されると、上記文字生成モデルのトレーニング方法または文字生成方法の１つまたは複数のステップを実行することができる。あるいは、他の実施例において、計算ユニット１２０１は、他の任意の適当な方式（例えば、ファームウェアを介して）により、文字生成モデルのトレーニング方法または文字生成方法を実行するように構成され得る。

本発明に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準パーツ（ＡＳＳＰ）、システムオンチップのシステム（ＳＯＣ）、複合プログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現できる。これらの様々な実施形態は以下を含んでもよい。１つまたは複数のコンピュータプログラムに実施され、該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行および／または解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、且つデータおよび命令を、該ストレージシステム、該少なくとも１つの入力装置、および該少なくとも１つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせでコードできる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供でき、これにより、プログラムコードがプロセッサまたはコントローラにより実行されると、フローチャートおよび／またはブロック図で規定された機能／操作が実施される。プログラムコードは、完全に機器で実行されてもよいし、一部が機器で実行されてもよいし、独立したソフトウェアパッケージとして一部が機器で実行されて一部がリモート機器で実行されてもよいし、完全にリモート機器またはサーバで実行されてもよい。

本発明の明細書において、機器可読媒体は、命令実行システム、装置または機器に使用される、または命令実行システム、装置またはデバイスと合わせて使用されるプログラムを含有または記憶できる有形的な媒体であってもよい。機器可読媒体は、機器可読信号媒体または機器可読記憶媒体であってもよい。機器可読媒体は、電子の、磁気の、光の、電磁気の、赤外線の、または半導体のシステム、装置またはデバイス、または上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。機器可読記憶媒体の更なる具体的な例は、１つまたは複数の線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用ディスク（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、または上記内容の任意の適当な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがそれにより入力をコンピュータに提供することができるキーボードおよび指向装置（例えば、マウスまたはトラックボール）とを有する。他の種類の装置は、更にユーザとのインタラクションを提供するために使用できる。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、且つ、任意の形式（音入力、音声入力または、触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明するシステムおよび技術を、バックグラウンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、または中間コンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、ユーザがそれによりここで説明するシステムおよび技術の実施形態とインタラクションできるグラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータ）、またはこのようなバックグラウンドコンポーネント、中間コンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）により、システムのコンポーネントを互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、ブロックチェーンネットワーク、およびインターネットを含む。

コンピューティングシステムはクライアントおよびサーバを含んでもよい。クライアントとサーバとは、一般的に互いに離れ、且つ、通常、通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行されて互いにクライアント－サーバ関係を持つコンピュータプログラムにより、クライアントとサーバとの関係を生成する。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、ブロックチェーンと組み合わせたサーバであってもよい。

上記に示す様々な形式のフローを用い、ステップを並べ替え、追加または削除することができることを理解すべきである。例えば、本開示に記載された各ステップは、並列に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本開示に開示された技術案の所望する結果を達成できる限り、本開示はここで限定しない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要求および他の要因に基づき、様々な修正、組み合わせ、サブ組み合わせおよび代替が可能であることを理解すべできる。本開示の精神および原則内で行われる任意の修正、均等置換および改良等は、いずれも本開示の保護範囲内に含まれているべきである。

Claims

文字生成モデルのトレーニング装置により実行される文字生成モデルのトレーニング方法であって、
第１ソースドメインサンプル字、第１ターゲットドメインサンプル字、およびスタイルタイプが前記第１ターゲットドメインサンプル字のスタイルタイプと同じであるスタイルノイズ字を含む第１トレーニングサンプルを取得し、前記第１トレーニングサンプルに基づき、文字生成モデル、コンポーネント分類モデル、および識別モデルを含むターゲットモデルをトレーニングし、第１文字敵対的ロスを取得することと、
第２ソースドメインサンプル字、第２ターゲットドメインサンプル字、およびスタイルタイプが前記第２ターゲットドメインサンプル字のスタイルタイプと同じであるスタイル標準字を含む第２トレーニングサンプルを取得し、前記第２トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得することと、
前記第１文字敵対的ロス、前記第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整することとを含み、
ここで、前記第１トレーニングサンプルに基づいてターゲットモデルをトレーニングし、第１文字敵対的ロスを取得することは、
前記第１ソースドメインサンプル字および前記スタイルノイズ字を前記文字生成モデルに入力し、第１ターゲットドメイン生成字を取得することと、
前記第１ターゲットドメイン生成字および前記第１ターゲットドメインサンプル字を前記識別モデルに入力し、第１文字敵対的ロスを取得することとを含み、
ここで、前記第２トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得することは、
前記第２ソースドメインサンプル字および前記スタイル標準字を前記文字生成モデルに入力し、第２ターゲットドメイン生成字および前記スタイル標準字の標準スタイル特徴ベクトルを取得することと、
前記第２ターゲットドメイン生成字を前記文字生成モデルに入力し、前記第２ターゲットドメイン生成字の生成スタイル特徴ベクトルを取得することと、
前記生成スタイル特徴ベクトルおよび前記標準スタイル特徴ベクトルを前記コンポーネント分類モデルに入力し、コンポーネント分類ロスを計算することと、
前記第２ターゲットドメインサンプル字および前記第２ターゲットドメイン生成字を前記識別モデルに入力し、第２文字敵対的ロスおよびスタイル敵対的ロスを計算することとを含む、
文字生成モデルのトレーニング方法。
第１トレーニングサンプルを取得することは、
第１ソースドメインサンプル字および第１ターゲットドメインサンプル字を取得することと、
標準字集合を取得し、前記標準字集合に基づいてノイズ字集合を生成することと、
前記第１ソースドメインサンプル字に対してコンポーネントを分割することにより、前記第１ソースドメインサンプル字に含まれる少なくとも１つのコンポーネントを確定することと、
前記第１ソースドメインサンプル字に含まれる少なくとも１つのコンポーネントに基づき、前記ノイズ字集合から前記スタイルノイズ字を選択することと、
前記スタイルノイズ字、第１ソースドメインサンプル字、および第１ターゲットドメインサンプル字に基づき、第１トレーニングサンプルを生成することと、を含み、
ここで、前記第１ソースドメインサンプル字に含まれる前記少なくとも１つのコンポーネントに基づき、前記ノイズ字集合から前記スタイルノイズ字を選択することは、
前記ノイズ字集合において、前記第１ソースドメインサンプル字を含む前記少なくとも１つのコンポーネントをクエリし、且つ、フォントスタイルが前記第１ターゲットドメインサンプル字のフォントスタイルと同じである字を、前記スタイルノイズ字として確定することを含む、
請求項１に記載の方法。
前記標準字集合に基づいてノイズ字集合を生成することは、
前記標準字集合において、スタイルタイプが異なってコンテンツが同じである候補標準字を取得することと、
取得した候補標準字に基づき、前記候補標準字の有効画素分布情報を確定することと、
前記有効画素分布情報に基づき、前記候補標準字の候補ノイズ字を生成して前記ノイズ字集合に追加することとを含む、
請求項２に記載の方法。
取得した候補標準字に基づき、前記候補標準字の有効画素分布情報を確定することは、
取得した候補標準字の字数を統計することと、
前記取得した候補標準字における有効画素が画素位置に登場した有効回数を計算することと、
前記有効回数および前記字数に基づき、前記画素位置の有効画素登場確率を計算することと、
前記取得した候補標準字における異なる画素位置の有効画素登場確率を、前記候補標準字の有効画素分布情報として確定することとを含む、
請求項３に記載の方法。
前記第１トレーニングサンプルは、複数グループの第１トレーニングサンプルを含み、
前記第２トレーニングサンプルは、複数グループの第２トレーニングサンプルを含み、
前記第１トレーニングサンプルに基づいてターゲットモデルをトレーニングすることは、
前記複数グループの第１トレーニングサンプルに基づき、前記ターゲットモデルに対して第１ラウンドのトレーニングを行うことを含み、
前記第２トレーニングサンプルに基づいてターゲットモデルをトレーニングすることは、
前記複数グループの第２トレーニングサンプルに基づき、前記ターゲットモデルに対して第２ラウンドのトレーニングを行うことを含み、
前記第１ラウンドのトレーニング回数は第２ラウンドのトレーニング回数よりも小さい、
請求項１に記載の方法。
前記ターゲットモデルは、予めトレーニングされた文字分類モデルを更に含み、
前記第１トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第１誤字ロスを取得することと、
前記第２トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第２誤字ロスを取得することと、
前記第１誤字ロスおよび前記第２誤字ロスに基づいて前記文字生成モデルのパラメータを調整することとを更に含み、
ここで、前記第１誤字ロスと第２誤字ロスとをまとめて誤字ロスと呼び、第１ターゲットドメイン生成字と第２ターゲットドメイン生成字とをまとめてターゲットドメイン生成字と呼び、
前記方法は、
前記ターゲットドメイン生成字を前記文字分類モデルに入力し、前記ターゲットドメイン生成字の生成文字ベクトルＸ＝［ｘ _０，ｘ _１ ……ｘ _ｉ ……ｘ _ｎ］を取得し、ここで、前記生成文字ベクトルＸにおける各要素がトレーニングサンプルにおける１つの文字を表し、ｎは、前記トレーニングサンプルにおける文字数を表し、前記ターゲットドメイン生成字に対し、標準文字ベクトルＹ＝［ｙ _０，ｙ _１ ……ｙ _ｉ ……ｙ _ｎ］が予め設定され、ここで、前記標準文字ベクトルＹにおける各要素が前記トレーニングサンプルにおける１つの文字を表し、ｎは、前記トレーニングサンプルにおける文字数を表し、前記標準文字ベクトルＹは、前記ターゲットドメイン生成字を前記文字分類モデルに入力する場合、所望の前記文字分類モデルが出力するベクトルを表すことと、
前記ターゲットドメイン生成字の生成文字ベクトルＸと前記ターゲットドメイン生成字の前記標準文字ベクトルＹとの間のクロスエントロピーに基づき、前記誤字ロスを確定することと、
に基づいて前記誤字ロスを計算することをさらに含む、
請求項１に記載の方法。
文字生成装置により実行される文字生成方法であって、
ソースドメイン入力字および対応するターゲットドメイン入力字を取得することと、
前記ソースドメイン入力字およびターゲット入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得することとを含み、
前記文字生成モデルは、請求項１から６のいずれか１項に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる、
文字生成方法。
第１ソースドメインサンプル字、第１ターゲットドメインサンプル字、およびスタイルタイプが前記第１ターゲットドメインサンプル字のスタイルタイプと同じであるスタイルノイズ字を含む第１トレーニングサンプルを取得し、前記第１トレーニングサンプルに基づき、文字生成モデル、コンポーネント分類モデル、および識別モデルを含むターゲットモデルをトレーニングし、第１文字敵対的ロスを取得するための第１トレーニングサンプルトレーニングモジュールと、
第２ソースドメインサンプル字、第２ターゲットドメインサンプル字、およびスタイルタイプが前記第２ターゲットドメインサンプル字のスタイルタイプと同じであるスタイル標準字を含む第２トレーニングサンプルを取得し、前記第２トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得するための第２トレーニングサンプルトレーニングモジュールと、
前記第１文字敵対的ロス、前記第２文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整するための第１ロス調整モジュールとを備え、
ここで、前記第１トレーニングサンプルトレーニングモジュールは、
前記第１ソースドメインサンプル字および前記スタイルノイズ字を前記文字生成モデルに入力し、第１ターゲットドメイン生成字を取得するための第１ターゲットドメイン生成字取得ユニットと、
前記第１ターゲットドメイン生成字および前記第１ターゲットドメインサンプル字を前記識別モデルに入力し、第１文字敵対的ロスを取得するための第１文字敵対的ロス取得ユニットとを備え、
前記第２トレーニングサンプルトレーニングモジュールは、
前記第２ソースドメインサンプル字および前記スタイル標準字を前記文字生成モデルに入力し、第２ターゲットドメイン生成字および前記スタイル標準字の標準スタイル特徴ベクトルを取得するための標準スタイル特徴ベクトル取得ユニットと、
前記第２ターゲットドメイン生成字を前記文字生成モデルに入力し、前記第２ターゲットドメイン生成字の生成スタイル特徴ベクトルを取得するための生成スタイル特徴ベクトル取得ユニットと、
前記生成スタイル特徴ベクトルおよび前記標準スタイル特徴ベクトルを前記コンポーネント分類モデルに入力し、コンポーネント分類ロスを計算するためのコンポーネント分類ロス計算ユニットと、
前記第２ターゲットドメインサンプル字および前記第２ターゲットドメイン生成字を前記識別モデルに入力し、第２文字敵対的ロスおよびスタイル敵対的ロスを計算するための第２文字敵対的ロス計算ユニットとを備える、
文字生成モデルのトレーニング装置。
前記第１トレーニングサンプルトレーニングモジュールは、
第１ソースドメインサンプル字および第１ターゲットドメインサンプル字を取得するための第１サンプル字取得ユニットと、
標準字集合を取得し、且つ前記標準字集合に基づいて、ノイズ字集合を生成するためのノイズ字集合生成ユニットと、を備え、
前記第１トレーニングサンプルトレーニングモジュールは、前記第１ソースドメインサンプル字に対してコンポーネントを分割し、前記第１ソースドメインサンプル字に含まれる少なくとも１つのコンポーネントを確定するように配置され、
前記第１トレーニングサンプルトレーニングモジュールは、
前記第１ソースドメインサンプル字に含まれる前記少なくとも１つのコンポーネントに基づき、前記ノイズ字集合から前記スタイルノイズ字を選択するためのスタイルノイズ字取得ユニットと、
前記スタイルノイズ字、第１ソースドメインサンプル字、および第１ターゲットドメインサンプル字に基づき、第１トレーニングサンプルを生成するための第１トレーニングサンプル生成ユニットとをさらに備え、
ここで、前記第１ソースドメインサンプル字に含まれる前記少なくとも１つのコンポーネントに基づき、前記ノイズ字集合から前記スタイルノイズ字を選択することは、
前記ノイズ字集合において、前記第１ソースドメインサンプル字を含む前記少なくとも１つのコンポーネントをクエリし、且つ、フォントスタイルが前記第１ターゲットドメインサンプル字のフォントスタイルと同じである字を、前記スタイルノイズ字として確定することを含む、
請求項８に記載の装置。
前記ノイズ字集合生成ユニットは、
前記標準字集合において、スタイルタイプが異なってコンテンツが同じである候補標準字を取得するための候補標準字取得サブユニットと、
取得した候補標準字に基づき、前記候補標準字の有効画素分布情報を確定するための有効画素分布確定サブユニットと、
前記有効画素分布情報に基づき、前記候補標準字の候補ノイズ字を生成して前記ノイズ字集合に追加するためのノイズ字集合生成サブユニットとを備える、
請求項９に記載の装置。
前記有効画素分布確定サブユニットは、
取得した候補標準字の字数を統計することと、
前記取得した候補標準字における有効画素が画素位置に登場した有効回数を計算することと、
前記有効回数および前記字数に基づき、前記画素位置の有効画素登場確率を計算することと、
前記取得した候補標準字における異なる画素位置の有効画素登場確率を、前記候補標準字の有効画素分布情報として確定することとに用いられる、
請求項１０に記載の装置。
前記第１トレーニングサンプルは、複数グループの第１トレーニングサンプルを含み、
前記第２トレーニングサンプルは、複数グループの第２トレーニングサンプルを含み、
前記第１トレーニングサンプルトレーニングモジュールは、
前記複数グループの第１トレーニングサンプルに基づき、前記ターゲットモデルに対して第１ラウンドのトレーニングを行うための第１ラウンドトレーニングユニットを備え、
前記第２トレーニングサンプルトレーニングモジュールは、
前記複数グループの第２トレーニングサンプルに基づき、前記ターゲットモデルに対して第２ラウンドのトレーニングを行うための第２ラウンドトレーニングユニットを備え、
前記第１ラウンドのトレーニング回数は第２ラウンドのトレーニング回数よりも小さい。
請求項８に記載の装置。
前記ターゲットモデルは、予めトレーニングされた文字分類モデルを更に含み、
前記第１トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第１誤字ロスを取得するための第１誤字ロス計算モジュールと、
前記第２トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第２誤字ロスを取得するための第２誤字ロス計算モジュールと、
前記第１誤字ロスおよび前記第２誤字ロスに基づいて前記文字生成モデルのパラメータを調整するための第２ロス調整モジュールとを更に備え、
ここで、前記第１誤字ロスと第２誤字ロスとをまとめて誤字ロスと呼び、第１ターゲットドメイン生成字と第２ターゲットドメイン生成字とをまとめてターゲットドメイン生成字と呼び、
前記装置は、
前記ターゲットドメイン生成字を前記文字分類モデルに入力し、前記ターゲットドメイン生成字の生成文字ベクトルＸ＝［ｘ _０，ｘ _１ ……ｘ _ｉ ……ｘ _ｎ］を取得し、ここで、前記生成文字ベクトルＸにおける各要素がトレーニングサンプルにおける１つの文字を表し、ｎは、前記トレーニングサンプルにおける文字数を表し、前記ターゲットドメイン生成字に対し、標準文字ベクトルＹ＝［ｙ _０，ｙ _１ ……ｙ _ｉ ……ｙ _ｎ］が予め設定され、ここで、前記標準文字ベクトルＹにおける各要素が前記トレーニングサンプルにおける１つの文字を表し、ｎは、前記トレーニングサンプルにおける文字数を表し、前記標準文字ベクトルＹは、前記ターゲットドメイン生成字を前記文字分類モデルに入力する場合、所望の前記文字分類モデルが出力するベクトルを表すことと、
前記ターゲットドメイン生成字の生成文字ベクトルＸと前記ターゲットドメイン生成字の前記標準文字ベクトルＹとの間のクロスエントロピーに基づき、前記誤字ロスを確定することと、
に基づいて前記誤字ロスを計算するように配置される、
請求項８に記載の装置。
ソースドメイン入力字および対応するターゲットドメイン入力字を取得するための入力字取得モジュールと、
前記ソースドメイン入力字およびターゲット入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得するための文字生成モジュールとを備え、
前記文字生成モデルは、請求項１から６のいずれか１項に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる、
文字生成装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも１つのプロセッサが請求項１から６のいずれか１項に記載の文字生成モデルのトレーニング方法を実行可能であるように、前記少なくとも１つのプロセッサにより実行される、
電子機器。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも１つのプロセッサが請求項７に記載の文字生成方法を実行可能であるように、前記少なくとも１つのプロセッサにより実行される、
電子機器。
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに、請求項１から６のいずれか１項に記載の文字生成モデルのトレーニング方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体。
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに、請求項７に記載の文字生成方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体。
プロセッサにより実行されると、請求項１から６のいずれか１項に記載の文字生成モデルのトレーニング方法を実現する、
コンピュータプログラム。
プロセッサにより実行されると、請求項７に記載の文字生成方法を実行する、
コンピュータプログラム。