JP2023039891A - 文字生成モデルのトレーニング方法、文字生成方法、装置および機器 - Google Patents

文字生成モデルのトレーニング方法、文字生成方法、装置および機器 Download PDF

Info

Publication number
JP2023039891A
JP2023039891A JP2022007357A JP2022007357A JP2023039891A JP 2023039891 A JP2023039891 A JP 2023039891A JP 2022007357 A JP2022007357 A JP 2022007357A JP 2022007357 A JP2022007357 A JP 2022007357A JP 2023039891 A JP2023039891 A JP 2023039891A
Authority
JP
Japan
Prior art keywords
character
model
loss
sample
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022007357A
Other languages
English (en)
Inventor
唐礼承
li cheng Tang
劉家銘
Chia-Min Liu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023039891A publication Critical patent/JP2023039891A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Image Processing (AREA)

Abstract

【課題】生成されるフォントの正確率を向上させる文字生成モデルのトレーニング方法、文字生成方法、装置及び機器を提供する。【解決手段】トレーニング方法は、第1トレーニングサンプルをターゲットモデルに入力し、第1ロスを計算する。第1トレーニングサンプルは、第1ソースドメインサンプル字と、第1ターゲットドメインサンプル字と、を含む。第1ソースドメインサンプル字のコンテンツと、第1ターゲットドメインサンプル字のコンテンツと、は異なる。方法はまた、第2トレーニングサンプルをターゲットモデルに入力し、第2ロスを計算する。第2トレーニングサンプルは、第2ソースドメインサンプル字と第2ターゲットドメインサンプル字とを含む。第2ソースドメインサンプル字のコンテンツと、第2ターゲットドメインサンプル字のコンテンツと、は同じである。方法はさらに、第1ロス及び第2ロスに基づいて文字生成モデルのパラメータを調整する。【選択図】図1

Description

本開示は、人工知能の技術分野に関し、具体的には、コンピュータ視覚および深層学習の技術分野に関し、特に文字生成モデルのトレーニング方法、文字生成方法、装置および機器に関する。
画像処理は、巨大な社会的・経済的効果を持つ実用技術であり、様々な業界および人々の日常生活に広く適用されている。
画像のスタイル変換とは、スタイルを1つの画像から別の画像に遷移して新たなアート画像を合成することを意味する。
本開示は、文字生成モデルのトレーニング方法、文字生成方法、装置および機器を提供する。
本開示の一態様によれば、
第1ソースドメインサンプル字、およびコンテンツが前記第1ソースドメインサンプル字のコンテンツと異なる第1ターゲットドメインサンプル字を含む第1トレーニングサンプルを、文字生成モデルおよび予めトレーニングされた文字分類モデルを含むターゲットモデルに入力し、第1ロスを計算することと、
第2ソースドメインサンプル字、およびコンテンツが前記第2ソースドメインサンプル字のコンテンツと同じである第2ターゲットドメインサンプル字を含む第2トレーニングサンプルを、前記ターゲットモデルに入力し、第2ロスを計算することと、
前記第1ロスおよび前記第2ロスに基づいて前記文字生成モデルのパラメータを調整することとを含む、
文字生成モデルのトレーニング方法を提供する。
本開示の別の態様によれば、
ソースドメイン入力字を文字生成モデルのうちの第1生成モデルに入力し、ターゲットドメイン新字を取得することを含み、
前記文字生成モデルは、本開示のいずれかの実施例に記載の方法によるトレーニングで得られる、
文字生成方法を提供する。
本開示の別の態様によれば、
第1ソースドメインサンプル字、およびコンテンツが前記第1ソースドメインサンプル字のコンテンツと異なる第1ターゲットドメインサンプル字を含む第1トレーニングサンプルを、文字生成モデルおよび予めトレーニングされた文字分類モデルを含むターゲットモデルに入力し、第1ロスを計算するための第1ロス計算モジュールと、
第2ソースドメインサンプル字、およびコンテンツが前記第2ソースドメインサンプル字のコンテンツと同じである第2ターゲットドメインサンプル字を含む第2トレーニングサンプルを、前記ターゲットモデルに入力し、第2ロスを計算するための第2ロス計算モジュールと、
前記第1ロスおよび前記第2ロスに基づいて前記文字生成モデルのパラメータを調整するための第1パラメータ調整モジュールとを備える、
文字生成モデルのトレーニング装置を提供する。
本開示の別の態様によれば、
ソースドメイン入力字を文字生成モデルのうちの第1生成モデルに入力し、ターゲットドメイン新字を取得するための文字生成モジュールを備え、前記文字生成モデルが本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法に基づいて得られる、
文字生成装置を提供する。
本開示の別の態様によれば、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも1つのプロセッサが本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法または本開示のいずれかの実施例に記載の文字生成方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
電子機器を提供する。
本開示の別の態様によれば、
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法または本開示のいずれかの実施例に記載の文字生成方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体を提供する。
本開示の別の態様によれば、
プロセッサにより実行されると、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法を実現する、または本開示のいずれかの実施例に記載の文字生成方法を実行する、
コンピュータプログラムを提供する。
本開示の実施例は、文字生成モデルによって生成されるフォントの正確率を向上させることができる。
本開示に記載されたものは、本開示の実施例のキーとなるまたは重要な特徴を標識するためのものではなく、本開示の範囲を限定するものでもないことが理解されるべきである。本開示の他の特徴は、以下の明細書により容易に理解することができる。
図面は本形態をより良く理解するためのものであり、本開示を限定するものではない。
本開示の実施例に係る文字生成モデルのトレーニング方法の模式図である。 本開示の実施例に係る文字生成モデルのトレーニング方法の模式図である。 本開示の実施例に係る誤字ロスを用いて文字生成モデルにより生成された字を拘束する効果図である。 本開示の実施例に係る特徴ロスを用いて文字生成モデルにより生成された字を拘束する効果図である。 本開示の実施例に係る別の特徴ロスを用いて文字生成モデルにより生成された字を拘束する効果図である。 本開示の実施例に係る異なる層の特徴ロスを用いて文字生成モデルにより生成された字を拘束する効果の比較図である。 本開示の実施例に係る文字生成モデルのトレーニング方法の模式図である。 本開示の実施例に係る第1トレーニングサンプルの文字生成モデルに基づくトレーニング方法の原理図である。 本開示の実施例に係る第2トレーニングサンプルの文字生成モデルに基づくトレーニング方法の原理図である。 本開示の実施例に係る文字生成モデルの構造原理図である。 本開示の実施例に係る別の文字生成モデルの構造原理図である。 本開示の実施例に係る生成ロスを用いて拘束される文字生成モデルのトレーニング方法の原理図である。 本開示の実施例に係る第1生成モデルのトレーニング方法の模式図である。 本開示の実施例に係る生成字の効果図である。 本開示の実施例に係るサンプル字の効果図である。 本開示の実施例に係る文字生成方法の模式図である。 本開示の実施例に係る文字生成モデルのトレーニング装置の模式図である。 本開示の実施例に係る文字生成装置の模式図である。 本開示の実施例の文字生成モデルのトレーニング方法および/または文字生成方法を実現するための電子機器のブロック図である。
以下、図面を参照しながら本開示の例示的な実施例を詳細に説明し、ここで、理解の便宜上、本開示の実施例の様々な細かいコンテンツまで含まれているが、例示的なものに過ぎないと理解すべきである。従って、当業者であれば理解するであろうが、本開示の範囲および精神から逸脱しない限り、ここで説明する実施例に対して様々な変更や修正を行うことができる。同様に、以下の説明において、公知されている機能および構造の説明は、明確且つ簡潔にするために省略している。
図1は、本開示の実施例に係る文字生成モデルのトレーニング方法のフローチャートであり、本実施例は、文字生成モデルのトレーニングに適用でき、ここで、文字生成モデルは、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換する場合に使用される。本実施例の方法は、文字生成モデルのトレーニング装置により実行でき、該装置は、ソフトウェアおよび/またはハードウェアの方式で実現でき、具体的に、一定のデータ演算能力を持つ電子機器に構成され、該電子機器は、携帯電話、タブレットコンピュータ、車載端末およびデスクトップコンピュータ等のようなクライアント機器またはサーバ機器であってもよい。
S101において、第1トレーニングサンプルをターゲットモデルに入力し、第1ロスを計算する。前記ターゲットモデルは、文字生成モデルと予めトレーニングされた文字分類モデルとを備え、前記第1トレーニングサンプルは、第1ソースドメインサンプル字と第1ターゲットドメインサンプル字とを含み、前記第1ソースドメインサンプル字のコンテンツと前記第1ターゲットドメインサンプル字のコンテンツとは異なる。
文字生成モデルCycleGAN(Cycle Generative Adversarial Networks、サイクル敵対的生成ネットワーク、サイクル生成ネットワークと略称される)は、ソースドメインとターゲットドメインとの間にスタイル変換を実現することに用いられる。文字分類モデルは、ロスを導入して文字生成モデルを拘束してトレーニングすることに用いられる。
本開示の実施例において、文字生成モデルは、2つの生成モデルおよび2つの判別モデルを含む。2つの生成モデルは、それぞれGeneratorA2BおよびGeneratorB2Aであり、GeneratorA2Bは、スタイルAの画像をスタイルBの画像に変換することに用いられ、GeneratorB2Aは、スタイルBの画像をスタイルAの画像に変換することに用いられる。2つの判別モデルは、それぞれDiscriminator AおよびDiscriminator Bであり、Discriminator Aは、変換後の画像がスタイルAに属している画像であるか否かを判別することに用いられ、Discriminator Bは、変換後の画像がスタイルBに属している画像であるか否かを判別することに用いられる。
文字生成モデルのトレーニング過程において、2つの生成モデルのトレーニング目的は、ターゲットドメインスタイル(または、ソースドメインスタイル)を有する画像をできるだけ生成することであり、判別モデルのトレーニング目的は、生成モデルにより生成された画像と実のターゲットドメイン画像(またはソースドメイン画像)とをできるだけ区分することである。トレーニング過程において、生成モデルおよび判別モデルを更新して最適化し続けることにより、2つの生成モデルのスタイル変換を実現する能力はますます強くなり、且つ、2つの判別モデルの生成画像および実画像を判別する能力もますます強くなる。
本開示の実施例において、文字生成モデルは、ソースドメインとターゲットドメインとの間のスタイル変換を実現することに用いられる。ソースドメインサンプル字を文字生成モデルのGeneratorA2Bに入力し、ソースドメインサンプル字に対応するターゲットドメイン生成字を取得し、ターゲットドメインサンプル字を文字生成モデルのGeneratorB2Aに入力し、ターゲットドメインサンプル字に対応するソースドメイン生成字を取得する。ここで、ソースドメインサンプル字およびソースドメイン生成字は、ソースドメインフォントスタイルを有する画像を意味してもよく、ソースドメインフォントスタイルは、文字の通常のフォントを意味してもよく、印刷フォントと呼ばれてもよく、例えば、中国語文字中の楷書体、宋朝体またはゴシック体等のフォント、また、アルファベット文字のタイムズニューローマン(Times New Roman)またはCalibri等のフォントであり、更に、文字は、数字文字を含んでもよい。アルファベット文字は、英語、ドイツ語、ロシア語またはイタリア語等の文字を含んでもよく、ここでは具体的に限定しない。ターゲットドメイン生成字およびターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する画像を意味してもよい。ターゲットドメインフォントスタイルは、文字のユーザの手書きフォントスタイルまたは他のアート字フォントスタイルであってもよい。ソースドメインサンプル字と対応するターゲットドメイン生成字とは画像コンテンツが同じであり、スタイルタイプが異なる。ターゲットドメインサンプル字と対応するソースドメイン生成字とは画像コンテンツが同じであり、スタイルタイプが異なる。なお、本開示の実施例における字は、実際にいずれも文字を指す。
1つの具体的な例において、例えば、楷書体字「做」を含む画像を文字生成モデルに入力し、文字生成モデルは、手書き字「做」を含む画像を出力することができる。
文字分類モデルは、ターゲット生成字およびターゲットドメインサンプル字が誤字であるか否かを判別することに用いられる。例えば、予めトレーニングされた文字分類モデルは、VGG19(Visual Geometry Group19)ネットワークを用いてトレーニングされるものであってもよい。文字分類モデルのトレーニングサンプルは、複数種のフォントを含む画像であってもよく、例えば、トレーニングサンプルは、80種以上のフォントおよび6700以上の字を含む約45万枚の画像であってもよく、実験により、トレーニング済みの文字分類モデルは、該データセットで98%の分類正確率を取得する。
Figure 2023039891000002
第1サンプルグループは、コンテンツが異なる第1ソースドメインサンプル字および第1ターゲットドメインサンプル字を含み、コンテンツが異なる第1ソースドメインサンプル字および第1ターゲットドメインサンプル字のペアリングされていないデータをモデルの入力として用いてモデルをトレーニングし、モデルの未知フォント(トレーニングデータセットに属していない)に対するスタイル変換の能力を向上させ、未知フォントに対して正確なスタイル変換字を生成し、モデルの汎化能力を向上させ、且つ、トレーニングデータの数を増加し、モデルのスタイル変換の正確率を高め、トレーニングデータの生成コストを低減し、モデルのトレーニング効率を向上させることができる。
コンテンツが異なる第1ソースドメインサンプル字および第1ターゲットドメインサンプル字は、第1ソースドメインサンプル字に基づく必要がなく、第1ターゲットドメインサンプル字をランダムに取得することができるため、第1ソースドメインサンプル字および第1ターゲットドメインサンプル字は、ペアリングされていないサンプルペアとして理解でき、即ち、第1サンプルグループは、ペアリングされていないトレーニングサンプルである。
S102において、第2トレーニングサンプルを前記ターゲットモデルに入力し、第2ロスを計算する。前記第2トレーニングサンプルは、第2ソースドメインサンプル字と第2ターゲットドメインサンプル字とを含み、前記第2ソースドメインサンプル字のコンテンツと前記第2ターゲットドメインサンプル字のコンテンツとは同じである。
第2サンプルグループ内の第2ソースドメインサンプル字をターゲットモデルの文字生成モデルに入力し、第3ターゲットドメイン生成字を取得し、第3ターゲットドメイン生成字および第2ターゲットドメインサンプル字を文字分類モデルに入力し、第1ロスを計算する。第2トレーニングサンプルは、第2ソースドメインサンプル字および第2ターゲットドメインサンプル字を含み、第2ソースドメインサンプル字と第2ターゲットドメインサンプル字とはコンテンツおよびスタイルタイプがいずれも異なる。第2ソースドメインサンプル字と第2ターゲットドメインサンプル字と第3ターゲットドメイン生成字とはコンテンツが同じであり、第2ソースドメインサンプル字と第3ターゲットドメイン生成字とはスタイルタイプが異なり、第2ターゲットドメインサンプル字と第3ターゲットドメイン生成字とはスタイルタイプが同じである。
第2サンプルグループは、コンテンツが同じである第2ソースドメインサンプル字および第2ターゲットドメインサンプル字を含み、コンテンツが同じである第2ソースドメインサンプル字および第1ターゲットドメインサンプル字のペアリングされたデータをモデルの入力として用いてモデルをトレーニングし、モデルのスタイル変換を学習する能力を増加し、モデルのスタイル変換の正確率を高めることができる。
コンテンツが同じである第2ソースドメインサンプル字および第2ターゲットドメインサンプル字は、第2ソースドメインサンプル字に基づいて対応する第2ターゲットドメインサンプル字をクエリする必要があるため、第2ソースドメインサンプル字および第2ターゲットドメインサンプル字は、ペアリングされたサンプルペアとして理解でき、即ち、第2サンプルグループは、ペアリングされたトレーニングサンプルである。また、ターゲットドメインフォントスタイルはユーザの手書き字であり、それに対応し、対応する第2ターゲットドメインサンプル字をクエリする前に、ユーザが認可して提供したユーザの手書き字を取得する必要があり、トレーニングサンプルを生成する人件費を増加する。
S103において、前記第1ロスおよび前記第2ロスに基づいて前記文字生成モデルのパラメータを調整する。
第1ロスおよび第2ロスに基づいて文字生成モデルのパラメータを調整し、更新された文字生成モデルを取得する。次のグループのトレーニングサンプルに対し、更新された文字生成モデルを使用し、操作S101に戻ってトレーニングを繰り返し、予め設定されたトレーニング停止条件に達すると、文字生成モデルのパラメータの調整を停止し、トレーニング済みの文字生成モデルを取得する。トレーニング停止条件は、前述したロスの和が収束され、各ロスがいずれも収束され、または反復回数が設定回数閾値以上になる等を含んでもよい。
実世界の手書き字のスタイルが大きく異なるため、トレーニングで現実中の全ての状況を集中して含むことができない。トレーニングサンプルのカバー範囲が小さいため、これに基づいてトレーニングされたモデルの未知フォントに対するスタイル変換の能力が悪い。
本開示の技術案によれば、ペアリングされていない第1トレーニングサンプルおよびペアリングされた第2トレーニングサンプルに基づいてターゲットモデルのうちの文字生成モデルをトレーニングし、ペアリングされていない第1トレーニングサンプルを増加し、トレーニングサンプルの数および範囲を増加することにより、文字生成モデルの未知フォントに対するスタイル変換の能力を向上させ、モデルの汎化能力を向上させることができ、且つ、ペアリングされたトレーニングサンプルと組み合わせて文字生成モデルをトレーニングし、モデルのスタイル変換を正確に実現する能力の向上と、モデルのスタイル変換の正確率の高めとを両立させることができる。
図2は、本開示の実施例に係る別の文字生成モデルのトレーニング方法のフローチャートであり、上記技術案に基づいて更に最適化して拡張し、且つ、上記各好ましい実施形態と組み合わせることができる。前記文字生成モデルのトレーニング方法の最適化として、同じ数の第1トレーニングサンプルおよび第2トレーニングサンプルを含むトレーニング集合を取得し、前記トレーニング集合から第1トレーニングサンプルおよび第2トレーニングサンプルを抽出する。それに対応し、方法は、以下のステップを含む。
S201において、同じ数の第1トレーニングサンプルおよび第2トレーニングサンプルを含むトレーニング集合を取得する。
トレーニング集合は、ターゲットモデルをトレーニングするサンプルの集合であってもよく、具体的には、現在の反復ラウンドでターゲットモデルをトレーニングするサンプルの集合であってもよい。トレーニング過程において、ターゲットモデルに対して複数ラウンドのトレーニングを行う。反復ラウンド毎にいずれも対応するトレーニング集合が設定され、該反復ラウンドでターゲットモデルをトレーニングする。現在の反復ラウンドで、該現在の反復ラウンドに対応するトレーニング集合を取得してターゲットモデルをトレーニングすることができ、即ち、実際には、各反復ラウンドで同じ数の第1トレーニングサンプルおよび第2トレーニングサンプルを採用してターゲットモデルをトレーニングする。ここで、ターゲットモデルをトレーニングすることは、ターゲットモデルのうちの文字生成モデルをトレーニングすることであってもよい。
第1トレーニングサンプルはペアリングされていないデータであり、第2トレーニングサンプルはペアリングされたデータである。第2トレーニングサンプルに対し、文字生成モデルは、第2ソースドメインサンプル字とペアリングされた第2ターゲットドメインサンプル字との間の同じフォントのコンテンツ特徴を学習することができる。一方、第1トレーニングサンプルに対し、第1ソースドメインサンプル字と第1ターゲットドメインサンプル字との間のフォントのコンテンツ特徴が異なり、文字生成モデルはフォントのコンテンツ特徴を学習することができない。つまり、ペアリングされていない第1トレーニングサンプルの数が、ペアリングされた第2トレーニングサンプルの数よりも多く、トレーニングにおけるフォントのコンテンツ特徴の学習の占有率が小さく、モデルはフォントのコンテンツ特徴をトレーニングすることができない。第1トレーニングサンプルの数と第2トレーニングサンプルの数とを同じにすることにより、ペアリングされたデータとペアリングされていないデータとのバランスを取ることができ、汎化能力を向上させる上で、スタイルが変換するがコンテンツが変わらない正確率を向上させることを両立させる。
例示的には、トレーニング集合に含まれるグループ数が10個であり、第1トレーニングサンプルのグループ数が5つであり、第2トレーニングサンプルのグループ数が5つである。
また、トレーニング集合に設定してもよく、前記トレーニング集合に含まれる第1トレーニングサンプルのグループ数が第2トレーニングサンプルのグループ数よりやや小さく、即ち、グループ数の差が予め設定されたグループ数の閾値以下であり、例えば、グループ数の閾値が2である。例示的には、トレーニング集合に含まれるグループ数が10個であり、第1トレーニングサンプルの数が4つであり、第2トレーニングサンプルの数量が6つである。また、トレーニング集合に含まれるグループ数が11個であり、第1トレーニングサンプルの数が5つであり、第2トレーニングサンプルの数が6つである。
S202において、前記トレーニング集合から第1トレーニングサンプルおよび第2トレーニングサンプルを抽出する。
トレーニング集合に含まれる第1トレーニングサンプルおよび第2トレーニングサンプルを取得し、並列または直列にターゲットモデルに入力し、文字生成モデルをトレーニングすることができる。
S203において、第1トレーニングサンプルをターゲットモデルに入力し、第1ロスを計算する。前記ターゲットモデルは、文字生成モデルと予めトレーニングされた文字分類モデルとを備え、前記第1トレーニングサンプルは、第1ソースドメインサンプル字と第1ターゲットドメインサンプル字とを含み、前記第1ソースドメインサンプル字のコンテンツと前記第1ターゲットドメインサンプル字のコンテンツとは異なる。
S204において、第2トレーニングサンプルを前記ターゲットモデルに入力し、第2ロスを計算する。前記第2トレーニングサンプルは、第2ソースドメインサンプル字と第2ターゲットドメインサンプル字とを含み、前記第2ソースドメインサンプル字のコンテンツと前記第2ターゲットドメインサンプル字のコンテンツとは同じである。
S205において、前記第1ロスおよび前記第2ロスに基づいて前記文字生成モデルのパラメータを調整する。
好ましくは、前記第1ロスは第1誤字ロスを含み、前記第2ロスは第2誤字ロスおよび特徴ロスを含む。
ここで、第1トレーニングサンプルをターゲットモデルに入力し、特徴ロスを計算しない。トレーニング集合において、第1トレーニングサンプルの占有率が第2トレーニングサンプルの占有率よりも大きい場合、総ロスにおける特徴ロスの占有率が小さく、文字生成モデルのトレーニングへの影響程度が小さく、文字生成モデルはターゲットドメインのフォント特徴の学習能力をトレーニングできない。これにより、トレーニング集合に同じ数の第1トレーニングサンプルおよび第2トレーニングサンプルを設定することにより、トレーニングデータ内のペアリングされたデータとペアリングされていないデータとのバランスを取ることができ、文字生成モデルは、ターゲットドメインのフォント特徴を良く学習し、スタイル変換の正確率を向上させることができる。誤字ロスは、文字生成モデルにより出力されたターゲットドメイン生成字の誤字率を拘束することに用いられ、具体的には、字と正確な字との間の差分を意味する。特徴ロスとは、サンプル字と生成字との間の差分を意味し、具体的には、実に手で書いた字とモデルの生成字との間の差分を意味する。
第1ソースドメインサンプル字を文字生成モデルに入力し、第1ターゲットドメイン生成字を取得し、第2ソースドメインサンプル字を文字生成モデルに入力し、第2ターゲットドメイン生成字を取得する。文字分類モデルは、ターゲットドメインサンプル字が誤字であるか否かを検出することに用いられる。第1トレーニングサンプルおよび第2トレーニングサンプルはいずれも誤字ロスを計算することができ、第1誤字ロスと第2誤字ロスとをまとめて誤字ロスと呼び、第1ターゲットドメイン生成字と第2ターゲットドメイン生成字とをまとめてターゲットドメイン生成字と呼んでもよい。ターゲットドメイン生成字を文字分類モデルに入力し、誤字ロスを計算する。
Figure 2023039891000003
Figure 2023039891000004
Figure 2023039891000005
(ただし、Lは誤字ロスを表し、xは、生成文字ベクトルにおける添え字がiの要素を表し、yは、標準文字ベクトルにおける添え字がiの要素を表し、iは、0以上n以下の整数であり、nは、生成文字ベクトルおよび標準文字ベクトルにおける要素数を表す。)
本開示の実施例によれば、誤字ロスは、文字生成モデルにより出力されたターゲットドメイン生成字の誤字率を拘束し、文字生成モデルの誤字を生成する確率を減少することができる。
第2トレーニングサンプルに対し、第2ターゲットドメインサンプル字および第2ターゲットドメイン生成字を文字分類モデルに入力し、特徴ロスを計算することができる。第2ターゲットドメイン生成字を文字分類モデルに入力し、文字分類モデルの特徴層により出力された生成特徴図を取得する。第2ターゲットドメインサンプル字を文字分類モデルに入力し、文字分類モデルの特徴層により出力されたサンプル特徴図を取得する。少なくとも1つの特徴層の生成特徴図とサンプル特徴図との間の差分に基づき、前記文字生成モデルの特徴ロスを計算する。
文字分類モデルは少なくとも1つの特徴層を備え、その中から少なくとも1つの特徴層を選択することができ、且つ、選択した任意の特徴層に対し、該特徴層の生成特徴図と該特徴層のサンプル特徴図との間の差分を計算することができる。該差分は、モデルの生成字と実に手で書いたサンプル字との類似程度を評価するために生成特徴図とサンプル特徴図との間の差分の程度を記述することに用いられる。該差分に基づいて特徴ロスを計算し、特徴の次元から、モデルの生成字と実に手で書いたサンプル字との間の異なる程度をより詳細に記述することができる。
ここで、選択した特徴層は、必要に応じて設定することができ、例えば、複数の特徴層のメジアン特徴層の生成特徴図とサンプル特徴図との間の差分を選択して前記文字生成モデルの特徴ロスを計算することができ、例えば、総数が90個の特徴層の場合、メジアンは第45の特徴層および第46の特徴層である。選択した特徴層の数が1つである場合、特徴層の生成特徴図とサンプル特徴図との間の差分を直接特徴ロスとしてもよい。選択した特徴層の数が少なくとも2つである場合、複数の特徴層の差分を数値計算して特徴ロスを取得してもよく、ここで、数値計算は、加算、乗算または加重平均計算等であってもよい。
本開示の実施例によれば、特徴ロスは、文字生成モデルにより出力されたターゲットドメイン生成字とターゲットドメインサンプル字との類似程度を拘束し、文字生成モデルのスタイル変換の正確率を向上させることに使用できる。
好ましくは、前記特徴ロスを計算することは、前記文字分類モデルに含まれる少なくとも1つの特徴層内の各特徴層に対し、前記特徴層の生成特徴図とサンプル特徴図との間の画素差分を計算し、前記特徴層の画素ロスを取得することと、前記少なくとも1つの特徴層の画素ロスに基づき、特徴ロスを計算することとを含む。
同じ特徴層により出力された特徴図のサイズが同じであり、特徴図を構成する画素に基づいて画素差を計算し、画素次元から画像間の差分を計算して特徴層の画素ロスとすることができる。特徴層の画素ロスに基づいて特徴ロスを計算することは、具体的に、特徴層の数が1つである場合、画素ロスを特徴ロスとし、特徴層の数が少なくとも2つである場合、画素ロスの和を計算して特徴ロスとすることであってもよい。
例示的には、各特徴層の画素ロスは、L1ノルムロス関数により計算することができ、即ち、実の字と生成字における同じ位置の画素間の差分絶対値の総和を計算する。
生成特徴図とサンプル特徴図との間の画素差を、生成特徴図とサンプル特徴図との間の差分として画素ロスを計算し、特徴ロスを確定することにより、画素次元から特徴ロスを計算し、特徴ロスの計算精細粒度を制御し、画素詳細からモデルの生成字と実に手で書いたサンプル字との間の異なる程度を記述し、特徴ロスを計算して文字生成モデルのパラメータを調整することができ、文字生成モデル学習は更に細分化されたサンプル字のフォントスタイル詳細を学習し、文字生成モデルの生成字の正確率を向上させる。
好ましくは、前記計算該特徴層の生成特徴図とサンプル特徴図との間の画素差は、前記特徴層の生成特徴図における各位置の画素点毎に、前記画素点の画素値と前記サンプル特徴図における対応する位置の画素点の画素値との間の差分値の絶対値を計算し、各位置の画素点の違いを取得し、複数の位置の画素点の違いに基づき、前記特徴層の生成特徴図とサンプル特徴図との間の画素差を確定する。
該特徴層に対し、同じ位置の生成特徴図における画素点の画素値とサンプル特徴図における画素点の画素値との差分値の絶対値を計算し、該位置の画素点の違いとして確定する。生成特徴図とサンプル特徴図とのサイズが同じであり、特徴図に含まれる画素数も同じであり、即ち、特徴図に含まれる位置の数が同じであり、複数の位置の画素点の差分の和を該特徴層の生成特徴図とサンプル特徴図との間の画素差として確定する。複数の位置は、該特徴図から出力された特徴図に含まれる全ての位置であってもよいし、選別された一部の位置であってもよい。
1つの具体的な例において、生成特徴図およびサンプル特徴図のサイズはいずれも64*64であり、4096個の位置を含み、位置毎に生成特徴図の画素点とサンプル特徴図の画素点との間の画素値の差分値の絶対値を計算して4096個の差分値の絶対値を取得することができ、4096個の差分値の絶対値の和を統計し、該特徴層の生成特徴図とサンプル特徴図との間の画素差を取得する。なお、画素差は、実際にL1ノルムロス関数で計算され、L1ノルムロス関数の要素は、特徴図におけるi個目の位置の画素点の画素値である。
2つの特徴図の各位置の対応する画素点間の画素値の差分値の絶対値を計算することにより、複数の位置の絶対値に基づき、該特徴層の画素差を確定し、同じ位置の画素点の画素値をL1ノルムロス関数の要素としてL1ノルムロスを計算し、文字生成モデルのロバスト性を向上させることができる。
本開示の技術案によれば、文字分類モデルにおける少なくとも1つの特徴図の生成特徴図とサンプル特徴図との間の差分を計算することにより、特徴ロスを確定し、特徴の次元からモデルの生成字と実に手で書いたサンプル字との間の異なる程度をより詳細に記述することができ、該異なる程度により計算される特徴ロスに基づいて文字生成モデルのパラメータを調整し、文字生成モデルに、実に手で書いたサンプル字のより多くのフォント詳細を学習させ、最終的に文字生成モデルの生成字を実に手で書いたサンプル字により類似させ、文字生成モデルの生成字の正確率を向上させることができる。
本開示の技術案によれば、各反復ラウンドのトレーニングで同じ数の第1トレーニングサンプルおよび第2トレーニングサンプルを使用してターゲットモデルにおける文字生成モデルをトレーニングするように設定することにより、ペアリングされたデータとペアリングされていないデータとのバランスを保持することができ、文字生成モデルの汎化能力を向上させるとともに、ペアリングされたデータにおける同じフォントのコンテンツ特徴を学習することを両立させ、スタイルが変換するがコンテンツが変わらない正確率を高める。
図3は、本開示の一実施例による誤字ロスを使用する効果の比較図である。図3に示すように、画像301は、誤字ロスを用いて文字生成モデルを拘束することがない場合に生成された手書き字「伶」、「暗」、「博」および「撼」を含む画像である。画像302は、誤字ロスを用いて文字生成モデルを拘束する場合に生成された手書き字「伶」、「暗」、「博」および「撼」を含む画像。画像301における「伶」、「暗」、「博」および「撼」字は、それぞれ正確な「伶」、「暗」、「博」および「撼」字と比べて1つの点が少ないが、画像302における「伶」、「暗」、「博」および「撼」字は正確な「伶」、「暗」、「博」および「撼」字である。従い、誤字ロスを用いて文字生成モデルを拘束することにより、正確な字を学習し、誤字率を低減することができる。
図4は、本開示の実施例に係る一実施例の特徴ロスを用いて文字生成モデルを拘束する可視化効果図である。図4に示すように、第2ターゲットドメインサンプル字401は、実の手書き字「神」を含む画像であり、即ち、第2ターゲットドメインサンプル字401内の「神」字は、ユーザが実に手で書いた字である。第2ターゲットドメイン生成字402は、文字生成モデルにより生成された手書き字「神」を含む画像であり、第2ターゲットドメインサンプル字401および第2ターゲットドメイン生成字402のサイズはいずれも256*256である。第2ターゲットドメインサンプル字404は、実の手書き字「褂」を含む画像であり、即ち、第2ターゲットドメインサンプル字404内の「褂」字は、ユーザが実に手で書いた字である。第2ターゲットドメイン生成字405は、文字生成モデルにより生成された手書き字「褂」を含む画像であり、第2ターゲットドメインサンプル字401、ターゲットドメイン生成字402、第2ターゲットドメインサンプル字404および第2ターゲットドメイン生成字405のサイズはいずれも256*256である。第2ターゲットドメインサンプル字401、第2ターゲットドメイン生成字402、第2ターゲットドメインサンプル字404および第2ターゲットドメイン生成字405を文字分類モデルに入力し、文字分類モデルの第1プリセット層(例えば、第30特徴層)でサンプル特徴図およびサンプル特徴図をそれぞれ出力し、サンプル特徴図およびサンプル特徴図のサイズはいずれも64*64であり、この2枚の64*64の画像の画素差を計算した後、該2枚の画像間の差分を表すヒートマップ403および406を取得する。ヒートマップ403および406も64*64の画像であり、ヒートマップ403における色が濃いところほど、第2ターゲットドメインサンプル字401と第2ターゲットドメイン生成字402との間の差が大きいことを表し、ヒートマップ406における色が濃いところほど、第2ターゲットドメインサンプル字404と第2ターゲットドメイン生成字405との間の差が大きいことを表し、文字生成モデルは、ヒートマップ403および406における色が濃い部位の特徴を学習することに更に集中し、文字生成モデルの特徴を学習する能力を向上させることができる。
図5は、本開示の実施例に係る別の実施例の特徴ロスを用いて文字生成モデルを拘束する可視化効果図である。図5に示すように、ターゲットドメインサンプル字501、ターゲットドメイン生成字502、ターゲットドメインサンプル字504およびターゲットドメイン生成字505を文字分類モデルに入力し、文字分類モデルの第2プリセット層(例えば、第31特徴層)でサンプル特徴図およびサンプル特徴図をそれぞれ出力し、サンプル特徴図およびサンプル特徴図のサイズはいずれも32*32であり、この2枚の32*32の画像の画素差を計算した後、該2枚の画像の間の差分を表すヒートマップ503および506を取得する。ヒートマップ503および506も32*32の画像であり、ヒートマップ503における色が濃いところほど、ターゲットドメインサンプル字501とターゲットドメイン生成字502との間の差が大きいことを表し、ヒートマップ506における色が濃いところほど、ターゲットドメインサンプル字504とターゲットドメイン生成字505との間の差が大きいことを表し、文字生成モデルは、ヒートマップ503および506における色が濃い部位の特徴を学習することに更に集中し、文字生成モデルの特徴を学習する能力を向上させることができる。
文字生成モデルは、ヒートマップ403および503と合わせ、ターゲットドメインサンプル字401とターゲットドメイン生成字402との間の差が大きい特徴を学習し、且つ、ターゲットドメインサンプル字501とターゲットドメイン生成字502との間の差が大きい特徴を学習することができ、ヒートマップ406および506と合わせ、ターゲットドメインサンプル字404とターゲットドメイン生成字405との間の差が大きい特徴を学習し、ターゲットドメインサンプル字504とターゲットドメイン生成字505との間の差が大きい特徴を学習することができ、文字生成モデルの特徴を学習する能力を向上させることが理解できる。
Figure 2023039891000006
図7は、本開示の実施例に係る別の文字生成モデルのトレーニング方法のフローチャートであり、上記技術案に基づいて更に最適化して拡張し、且つ、上記各好ましい実施形態と組み合わせることができる。前記第1ロスを計算することは、具体的に、第1トレーニングサンプルを前記文字生成モデルに入力し、第1ターゲットドメイン生成字を取得し、前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字生成モデルの第1誤字ロスを計算することである。それに対応し、方法は、以下のステップを含む。
S701において、第1トレーニングサンプルをターゲットモデルのうちの文字生成モデルに入力し、第1ターゲットドメイン生成字を取得する。前記ターゲットモデルは、文字生成モデルと予めトレーニングされた文字分類モデルとを備え、前記第1トレーニングサンプルは、第1ソースドメインサンプル字と第1ターゲットドメインサンプル字とを含み、前記第1ソースドメインサンプル字のコンテンツと前記第1ターゲットドメインサンプル字のコンテンツとは異なる。
S702において、前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字生成モデルの第1誤字ロスを計算する。
第1トレーニングサンプルに対し、文字分類モデルは特徴ロスを計算しない。トレーニング集合に第1トレーニングサンプルおよび第2トレーニングサンプルを予めマークし、第1トレーニングサンプルと第2トレーニングサンプルとの区分を実現することができ、第1トレーニングサンプル内の第1ターゲットドメインサンプル字を文字分類モデルに入力せず、文字分類モデルは、第1ターゲットドメインサンプル字に対して特徴ロスを計算せず、第1ターゲットドメイン生成字だけに基づいて特徴ロスを計算しない。
S703において、第2トレーニングサンプルを前記ターゲットモデルに入力し、第2ロスを計算する。前記第2トレーニングサンプルは、第2ソースドメインサンプル字と第2ターゲットドメインサンプル字とを含み、前記第2ソースドメインサンプル字のコンテンツと前記第2ターゲットドメインサンプル字のコンテンツとは同じである。
それに対応し、第2トレーニングサンプルを文字生成モデルに入力し、第2ターゲットドメイン生成字を取得し、第2ターゲットドメイン生成字を文字分類モデルに入力し、文字生成モデルの第2誤字ロスを計算する。第2ターゲットドメインサンプル字および第2ターゲットドメイン生成字を文字分類モデルに入力し、特徴ロスを計算する。
S704において、前記第1ロスおよび前記第2ロスに基づいて前記文字生成モデルのパラメータを調整する。
好ましくは、前記文字生成モデルは第1生成モデルおよび第2生成モデルを含み、前記第1トレーニングサンプルを文字生成モデルに入力し、第1ターゲットドメイン生成字を取得することは、第1ソースドメインサンプル字を前記第1生成モデルに入力し、前記第1ターゲットドメイン生成字を取得することを含む。前記方法は、前記第1ターゲットドメイン生成字を前記第2生成モデルに入力し、第1ソースドメイン生成字を取得することと、前記第1ターゲットドメインサンプル字を前記第2生成モデルに入力し、第2ソースドメイン生成字を取得し、前記第2ソースドメイン生成字を前記第1生成モデルに入力し、第2ターゲットドメイン生成字を取得することと、前記第1トレーニングサンプル、前記第1ターゲットドメイン生成字、前記第1ソースドメイン生成字、前記第2ターゲットドメイン生成字、および前記第2ソースドメイン生成字に基づき、前記文字生成モデルの第1生成ロスを計算することと、前記第1生成ロスに基づいて前記第1生成モデルのパラメータを調整することとを更に含む。
文字生成モデルは、第1生成モデル、第2生成モデル、第1判別モデルおよび第2判別モデルを含む。第1生成モデルは、ソースドメインフォントスタイルの画像をターゲットドメインフォントスタイルの画像に変換することに用いられ、第2生成モデルは、ターゲットドメインフォントスタイルの画像をソースドメインフォントスタイルの画像に変換することに用いられる。第1判別モデルは、変換後の画像がソースドメインフォントスタイルの画像に属しているか否かを判別することに用いられ、第2判別モデルは、変換後の画像がターゲットドメインフォントスタイルの画像に属しているか否かを判別することに用いられる。
上記文字生成モデルの構造に基づき、文字生成モデルは2つのサイクル作業過程を含んでもよい。文字生成モデルの1つ目のサイクル作業過程として、第1ソースドメインサンプル字を第1生成モデルに入力し、第1ターゲットドメイン生成字を取得し、第1ターゲットドメイン生成字を第2生成モデルに入力し、第1ソースドメイン生成字を取得する。文字生成モデルの2つ目のサイクル作業過程として、第1ターゲットドメインサンプル字を第2生成モデルに入力し、第2ソースドメイン生成字を取得し、第2ソースドメイン生成字を第1生成モデルに入力し、第2ターゲットドメイン生成字を取得する。
実際には、文字生成モデルは生成モデルおよび判別モデルを含み、それに対応し、文字生成モデルのロスは生成ロスおよび判別ロスを含む。ここで、判別ロスは、判別モデルをトレーニングすることに用いられ、生成ロスは、生成モデルをトレーニングすることに用いられ、文字生成モデルのうちの最終的に画像のスタイル変換に使用されるモデルが生成モデルであり、即ち、生成モデルのトレーニングを行うために生成ロスを計算する必要がある。実際には、第1ロスは第1生成ロスを更に含み、第2ロスは第2生成ロスを更に含むと理解されてもよい。第2トレーニングサンプルを例として、文字生成モデルは、更に生成ロスを計算することに用いられ、実際には、第1トレーニングサンプルを文字生成モデルに入力して同様に生成ロスを計算し、ここでは説明を省略する。ここで、生成ロスとは、判別モデルが字を生成字とサンプル字とに分類する分類結果と真値分類結果との間の差分、およびサンプル字と生成字との間の差分を意味してもよい。
以下、第1トレーニングサンプルに対し、文字生成モデルの生成ロスおよび判別ロスについて説明する。実際には、第2トレーニングサンプルも同様の原理であり、ここでは説明を省略する。
文字生成モデルの1つ目のサイクル作業過程は以下のとおりである。第1ソースドメインサンプル字(例えば、楷書体字を含む画像であり、楷書体字の画像と略称される)を第1生成モデルに入力し、第1ターゲットドメイン生成字(例えば、手書き字を含む画像であり、手書き字の画像と略称される)を取得する。第1ターゲットドメイン生成字(手書き字の画像)を第2生成モデルに入力し、第1ソースドメイン生成字(楷書体字の画像)を取得する。
1つ目のサイクル作業過程において、第1ソースドメインサンプル字は実の楷書体字の画像である一方、第1ソースドメイン生成字はモデルにより生成された楷書体字の画像であり、偽の楷書体字の画像と呼ばれてもよい。第1ターゲットドメイン生成字は、モデルにより生成された手書き字の画像であり、偽の手書き字の画像と呼ばれてもよい。トレーニング過程において、第1ソースドメインサンプル字を真Real(例えば、値が1)とマークし、第1ターゲットドメイン生成字を偽Fake(例えば、値が0)とマークしてもよい。
第1ソースドメインサンプル字を第1判別モデルに入力し、第1判別モデルの所望の出力が1であるはずである。第1判別モデルの実際の出力がXであり、平均二乗誤差を用いて第1判別モデルのロスを計算すると、第1判別モデルの一部のロスは、(X-1)と表すことができる。
第1ターゲットドメイン生成字を第2判別モデルに入力し、第2判別モデルの所望の出力が0であるはずである。第2判別モデルの実際の出力がY(区分しやすいために、*が付いているパラメータで該パラメータがモデルにより生成された画像に関連することを表し、*が付いていないパラメータで該パラメータが実の画像に関連することを表す)であり、平均二乗誤差を用いて第2判別モデルのロスを計算すると、第2判別モデルの一部のロスは、(Y-1)と表すことができる。
第1ターゲットドメイン生成字を第2判別モデルに入力し、第1生成モデルの所望の第2判別モデルの出力が1である。第2判別モデルの実際の出力がYであり、平均二乗誤差を用いて第1生成モデルのロスを計算すると、第1生成モデルの一部のロスは、(Y-1)と表すことができる。
第1ソースドメインサンプル字を第1生成モデルに入力して得られた第1ソースドメイン生成字は、スタイルだけが変換し、コンテンツが変わらないことを確保するために、第1生成モデルに対して1つのサイクル一致性ロス(cycle-consistency loss)を追加することができる。該ロスは、第1ソースドメインサンプル字と第1ソースドメイン生成字との間の差分により計算され得る。例えば、第1ソースドメインサンプル字と第1ソースドメイン生成字という2枚の画像の対応する各画素点の画素値を差分し、絶対値を求め、各画素点の差分を取得し、全ての画素点の差分を加算して第1生成モデルのサイクル一致性ロスを取得し、L1A2Bと記すことができる。
従い、第1生成モデルの一部のロスは(Y-1)であり、別の一部のロスはL1A2Bであり、この2つの部分のロスの和を第1生成モデルのロス全体LA2Bとし、第1生成モデルのロス全体LA2Bは、以下のような式(2)で表すことができる。
Figure 2023039891000007
文字生成モデルの2つ目のサイクル作業過程は以下のとおりである。第1ターゲットドメインサンプル字(例えば、手書き字を含む画像であり、手書き字の画像と略称される)を第2生成モデルに入力し、第2ソースドメイン生成字(例えば、楷書体字を含む画像であり、楷書体字の画像と略称される)を取得する。第2ソースドメイン生成字(楷書体字の画像)を第1生成モデルに入力し、第2ターゲットドメイン生成字(手書き字の画像)を取得する。
2つ目のサイクル作業過程において、第1ターゲットドメインサンプル字は実に手で書いた字の画像であり、第2ターゲットドメイン生成字はモデルにより生成された手書き字の画像であり、偽の手書き字の画像と呼ばれてもよい。第2ソースドメイン生成字は、モデルにより生成された楷書体字の画像であり、偽の楷書体字の画像と呼ばれてもよい。トレーニング過程において、第1ターゲットドメインサンプル字を真Real(例えば、値が1)とマークし、第2ソースドメイン生成字を偽Fake(例えば、値が0)とマークしてもよい。
第1ターゲットドメインサンプル字を第2判別モデルに入力し、第2判別モデルの所望の出力が1であるはずであり、第2判別モデルの実際の出力がYであり、平均二乗誤差を用いて第2判別モデルのロスを計算すると、第2判別モデルの一部のロスは、(Y-1)と表すことができる。
第2ソースドメイン生成字を第1判別モデルに入力し、第1判別モデルの所望の出力が0であるはずである。第1判別モデルの実際の出力がXであり、平均二乗誤差を用いて第1判別モデルのロスを計算すると、第1判別モデルの一部のロスは(X-0)と表すことができる。
第2ソースドメイン生成字を第1判別モデルに入力し、第2生成モデルの所望の第1判別モデルの出力が1である。第1判別モデルの実際の出力がXであり、平均二乗誤差を用いて第2生成モデルのロスを計算すると、第2生成モデルの一部のロスは(X-1)と表すことができる。
第1ターゲットドメインサンプル字を第2生成モデルに入力して得られた第2ターゲットドメイン生成字は、スタイルだけが変換し、コンテンツが変わらないことを確保するために、第2生成モデルに対して1つのcycle-consistency lossを追加することができる。該ロスは、第1ターゲットドメインサンプル字と第2ターゲットドメイン生成字との間の差分により計算され得る。例えば、第1ターゲットドメインサンプル字と第2ターゲットドメイン生成字という2枚の画像の対応する各画素点の画素値を差分し、絶対値を求め、各画素点の差分を取得し、全ての画素点の差分を加算して第2生成モデルのサイクル一致性ロスを取得し、L1B2Aと記すことができる。
従い、第2生成モデルの一部のロスは(X-1)であり、別の一部のロスはL1B2Aであり、この2つの部分のロスの和を第2生成モデルのロス全体LB2Aとし、第2生成モデルのロス全体LB2Aは、以下のような式(3)で表すことができる。
Figure 2023039891000008
第1生成モデルのロス全体LA2Bと第2生成モデルのロス全体LB2Aとの和は、文字生成モデルの生成ロスとすることができ、生成ロスは、以下のような式(4)で表すことができる。
Figure 2023039891000009
(ただし、Lは、文字生成モデルの生成ロスを表すことができ、第1生成モデルおよび第2生成モデルのパラメータを調整することに使用できる。)
文字生成モデルの判別ロスは、第1判別モデルの判別ロスおよび第2判別モデルの判別ロスを含む。
第1判別モデルの一部のロスが(X-1)であると計算し、第1判別モデルの別の一部のロスが(X-0)であると計算すると、2つの部分のロスの和は、第1判別モデルの判別ロスとすることができ、第1判別モデルの判別ロスLは、以下のような式(5)で表すことができる。
Figure 2023039891000010
第1判別モデルの判別ロスLは、第1判別モデルのパラメータを調整することに使用できる。
同様に、第2判別モデルの一部のロスが(Y-0)と計算し、第2判別モデルの別の一部のロスが(Y-1)と計算すると、2つの部分のロスの和を第2判別モデルの判別ロスとすることができ、第2判別モデルの判別ロスLは、以下のような式(6)で表すことができる。
Figure 2023039891000011
第2判別モデルの判別ロスLは、第2判別モデルのパラメータを調整することに使用できる。
生成ロスを用いて第1生成モデルを拘束することにより、第1生成モデルにより出力された画像のフォントスタイルがターゲットドメインフォントスタイルによりフィットし、ターゲットドメインフォントスタイルが手書き字である場合、生成字のフォントスタイルが実に手で書いた字のフォントスタイルとほぼ一致することができ、出力された手書き字のリアリティを向上させ、スタイル変換の正確率を高める。
好ましくは、前記第1ロスおよび前記第2ロスに基づいて前記文字生成モデルのパラメータを調整することは、前記第1ロスおよび前記第2ロスに基づいて前記第1生成モデルのパラメータを調整することを含む。
実際には、トレーニング済みの文字生成モデルのうちの第1生成モデルは、スタイルが変換する文字生成に適用される。第1生成モデルは、画像のソースドメインスタイルからターゲットドメインスタイルへの変換を実現することに用いられる。第1ロスおよび第2ロスにより第1生成モデルを調整し、画像のソースドメインスタイルからターゲットドメインスタイルへの変換の正確率を正確に実現することができる。
好ましくは、前記ソースドメインサンプル字は、ソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する画像である。
ソースドメインサンプル字は、ソースドメインフォントスタイルを有する字により生成された画像である。ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する字により生成された画像である。ソースドメインフォントスタイルとターゲットドメインフォントスタイルとは異なる。例示的には、ソースドメインフォントスタイルは印刷フォントであり、例えば、中国語文字のフォントの場合、ソースドメインフォントスタイルは宋朝体、楷書体、ゴシック体または隷書体等であり、ターゲットドメインフォントスタイルは、ユーザが実に手で書いたフォントスタイル等のアートフォントスタイルである。
ソースドメインサンプル字がソースドメインフォントスタイルを有する画像で、ターゲットドメインサンプル字がターゲットドメインフォントスタイルを有する画像であるように設定することにより、異なるフォントスタイルの変換を実現し、新たなスタイルのフォント数を増加することができる。
第1生成モデルを用いてソースドメインサンプル字に基づいてターゲットドメイン生成字を生成することにより、複数種のスタイルのフォント生成を実現することができ、サイクル一致性ロスを導入し、第1生成モデルがモデルにより生成された字とターゲット字との間の画素レベルの差分を低減することを向上させるとともに、判別モデルを用いて生成ロスを導入し、モデルにより生成された字のフォントスタイルをターゲットドメインのフォントスタイルにより合わせ、且つ、文字分類モデルを用いて誤字ロスおよび特徴ロスを導入することにより、第1生成モデルのフォント特徴を学習する能力を向上させ、誤字を生成する確率を低減することができる。
本開示の技術案によれば、各反復ラウンドのトレーニングで同じ数の第1トレーニングサンプルおよび第2トレーニングサンプルを使用してターゲットモデルにおける文字生成モデルをトレーニングするように設定することにより、ペアリングされたデータとペアリングされていないデータとのバランスを保持することができ、文字生成モデルの汎化能力を向上させるとともに、ペアリングされたデータにおける同じフォントのコンテンツ特徴を学習することを両立させ、スタイルが変換するがコンテンツが変わらない正確率を高める。
図8は、本開示の実施例に係る第1トレーニングサンプルの文字生成モデルに基づくトレーニング方法の原理図であり、図8に示すように、第1トレーニングサンプルにおける第1ソースドメインサンプル字801を文字生成モデル810に入力し、第1ターゲットドメイン生成字802を取得し、第1ターゲットドメイン生成字802および第1トレーニングサンプルにおける第1ターゲットドメインサンプル字803を文字分類モデル820に入力し、第1誤字ロス8201を計算する。
図9は、本開示の実施例に係る第2トレーニングサンプルの文字生成モデルに基づくトレーニング方法の原理図であり、図9に示すように、第2トレーニングサンプルにおける第2ソースドメインサンプル字901を文字生成モデル910に入力し、第2ターゲットドメイン生成字902を取得し、第2ターゲットドメイン生成字902および第2トレーニングサンプルにおける第2ターゲットドメインサンプル字903を文字分類モデル920に入力し、第2誤字ロス9201および特徴ロス9202を計算する。
図10は、本開示の実施例に係る文字生成モデルの構造原理図である。図11は、本開示の実施例に係る別の文字生成モデルの構造原理図である。図10および図11は、実際に文字生成モデルの2つのサイクル作業過程の原理図である。
図10に示すように、文字生成モデル1010は、第1生成モデル1011、第2生成モデル1012、第1判別モデル1013および第2判別モデル1014を含む。図10は、文字生成モデル1010の1つ目のサイクル作業過程を示す。第1ソースドメインサンプル字1001を第1生成モデル1011に入力し、第1ターゲットドメイン生成字1002を取得し、第1ターゲットドメイン生成字を第2生成モデル1012に入力し、第1ソースドメイン生成字1003を取得する。第1ソースドメインサンプル字1001を第1判別モデル1013に入力し、第1判別モデル1013の所望の出力が1であるはずである。第1判別モデル1013の実際の出力がXであり、平均二乗誤差を用いて第1判別モデルのロスを計算すると、第1判別モデル1013の一部のロスは、(X-1)と表すことができる。第1ターゲットドメイン生成字1002を第2判別モデル1014に入力し、第2判別モデル1014の所望の出力が0であるはずである。第2判別モデル1014の実際の出力がYであり、平均二乗誤差を用いて第2判別モデル1014のロスを計算すると、第2判別モデルの一部のロスは、(Y-0)と表すことができる。第1ターゲットドメイン生成字1003を第2判別モデル1014に入力し、第1生成モデル1011の所望の第2判別モデル1014の出力が1である。第2判別モデル1014の実際の出力がYであり、平均二乗誤差を用いて第1生成モデル1011のロスを計算すると、第1生成モデル1011の一部のロスは、(Y-1)と表すことができる。
図11に示すように、文字生成モデル1111は、第1生成モデル1111、第2生成モデル1112、第1判別モデル1113および第2判別モデル1114を含む。図11は、文字生成モデル1110の2つ目のサイクル作業過程を示す。第1ターゲットドメインサンプル字1101を第2生成モデル1112に入力し、第2ソースドメイン生成字1102を取得し、第2ソースドメイン生成字1101を第1生成モデル1111に入力し、第2ターゲットドメイン生成字1103を取得する。第1ターゲットドメインサンプル字1101を第2判別モデル1114に入力し、第2判別モデル1114の所望の出力が1であるはずであり、第2判別モデル1114の実際の出力がYであり、平均二乗誤差を用いて第2判別モデル1114のロスを計算すると、第2判別モデル1114の一部のロスは、(Y-1)と表すことができる。第2ソースドメイン生成字1102を第1判別モデル1113に入力し、第1判別モデル1113の所望の出力が0であるはずである。第1判別モデル1113の実際の出力がXであり、平均二乗誤差を用いて第1判別モデル1113のロスを計算すると、第1判別モデル1113の一部のロスは、(X-0)と表すことができる。第2ソースドメイン生成字1103を第1判別モデル1113に入力し、第2生成モデル1112の所望の第1判別モデル1113の出力が1である。第1判別モデル1113の実際の出力がXであり、平均二乗誤差を用いて第2生成モデル1112のロスを計算すると、第2生成モデル1112の一部のロスは、(X-1)と表すことができる。
図12は、本開示の実施例に係る生成ロスを用いて拘束される文字生成モデルのトレーニング方法の原理図であり、図12に示すように、第2トレーニングサンプル1201を例とし、文字生成モデル1210は、更に生成ロス12101を計算することに用いられ、実際には、第1トレーニングサンプルを文字生成モデル1210に入力して同様に生成ロスを計算するが、特徴ロスを計算しないため、ここでは説明を省略する。
図13は、本開示の実施例に係る第1生成モデルのトレーニング方法の模式図であり、図13に示すように、1つの反復ラウンドにおいて、第1トレーニングサンプルの漢字を第1生成モデルに入力し、第1ロスを取得し、第1生成モデルを調整し、第2トレーニングサンプルの漢字を第1生成モデルに入力し、第2ロスを取得し、第1生成モデルを調整する。それと同時に、第1トレーニングサンプルと第2トレーニングサンプルとの数の比を1:1に調整することができ、それに対応し、図13に示すように、漢字1、漢字3、漢字5、漢字7および漢字9は第1トレーニングサンプルであり、漢字2、漢字4、漢字6、漢字8および漢字10は第2トレーニングサンプルであり、それぞれ第1生成モデルに入力し、計算して得た第1ロスの数と第2ロスの数が1:1である。第1ロスは第1生成ロスおよび第1誤字ロスを含んでもよく、第2ロスは第2生成ロス、第2誤字ロスおよび特徴ロスを含んでもよい。第1ロスおよび第2ロスに基づいて第1生成モデルを調整し、第1生成モデルの汎化能力を向上させ、スタイル変換の正確率を両立させることができる。
図14は、本開示の実施例に係る生成字の効果図であり、図15は、本開示の実施例に係るサンプル字の効果図である。図14~図15に示すように、図14に示す字は、第1生成モデルにより生成された字であり、図15に示す字は、ユーザが実に手で書いた字であり、図14における字は、ユーザが実に手で書いた字のフォントスタイルを有する。図14における生成字のフォントスタイルと図15における実に手で書いた字のフォントスタイルとがほぼ一致し、且つ、崩した手書き字に対し、スタイル遷移モデルも正確な字を生成することができる。
図16は、本開示の実施例に係る文字生成方法のフローチャートであり、本実施例は、文字生成モデルをトレーニングすることにより、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換し、新字を生成する場合に適用される。本実施例の方法は、文字生成装置で実行することができ、該装置は、ソフトウェアおよび/またはハードウェアの方式で実現でき、具体的に、一定のデータ演算能力を持つ電子機器に構成され、該電子機器は、携帯電話、タブレットコンピュータ、車載端末和デスクトップコンピュータ等のようなクライアント機器、またはサーバ機器であってもよい。
S1601において、ソースドメイン入力字を文字生成モデルのうちの第1生成モデルに入力し、ターゲットドメイン新字を取得する。ここで、前記文字生成モデルは、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる。
ソースドメイン入力字は、ターゲットドメインフォントスタイルに変換する必要がある字で形成された画像を意味してもよい。
文字生成モデルは、文字生成モデルのトレーニング方法によるトレーニングで得られるものである。ターゲットドメイン新字とは、ソースドメイン入力字に対応するコンテンツのターゲットドメインフォントスタイルの字を意味してもよい。例えば、ソースドメイン入力字が楷書体字の画像であり、ターゲットドメイン新字が手書き字の画像であり、楷書体字の画像を文字生成モデルに入力し、ターゲットドメイン新字である手書き字の画像を取得することができる。
ターゲットドメイン新字を取得した場合、ターゲットドメイン新字に基づいて字ライブラリを確立することができる。例えば、文字生成モデルにより生成された新字を記憶し、手書きフォントスタイルを有する字ライブラリを確立し、該字ライブラリは入力法に適用でき、ユーザは、該字ライブラリに基づく入力法を使用し、手書きフォントスタイルを有する字を直接取得することができ、ユーザの多様化のニーズを満たすことができ、ユーザーエクスペリエンスを向上させる。
本開示の技術案によれば、ソースドメイン入力字を取得し、文字生成モデルのうちの第1生成モデルに入力してターゲットドメイン新字を取得することにより、ソースドメイン入力字をターゲットドメイン新字に正確に変換することを実現し、ターゲットドメイン新字の生成正確率を高め、ターゲットドメイン新字の生成効率を高め、ターゲットドメイン新字の生成を向上させる人件費を低減することができる。
本開示の実施例によれば、図17は、本開示の実施例における文字生成モデルのトレーニング装置の構造図であり、本開示の実施例は、文字生成モデルのトレーニングに適用され、ここで、文字生成モデルは、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換する場合に用いられる。該装置は、ソフトウェアおよび/またはハードウェアで実現され、具体的に、一定のデータ演算能力を持つ電子機器に構成される。
図17に示す文字生成モデルのトレーニング装置1700は、第1ロス計算モジュール1701と、第2ロス計算モジュール1702と、第1パラメータ調整モジュール1703とを備える。
第1ロス計算モジュール1701は、第1トレーニングサンプルをターゲットモデルに入力し、第1ロスを計算することに用いられ、前記ターゲットモデルは、文字生成モデルと予めトレーニングされた文字分類モデルとを備え、前記第1トレーニングサンプルは、第1ソースドメインサンプル字と第1ターゲットドメインサンプル字とを含み、前記第1ソースドメインサンプル字のコンテンツと前記第1ターゲットドメインサンプル字のコンテンツとは異なる。
第2ロス計算モジュール1702は、第2トレーニングサンプルを前記ターゲットモデルに入力し、第2ロスを計算することに用いられ、前記第2トレーニングサンプルは、第2ソースドメインサンプル字と第2ターゲットドメインサンプル字とを含み、前記第2ソースドメインサンプル字のコンテンツと前記第2ターゲットドメインサンプル字のコンテンツとは同じである。
第1パラメータ調整モジュール1703は、前記第1ロスおよび前記第2ロスに基づいて前記文字生成モデルのパラメータを調整することに用いられる。
本開示の技術案によれば、ペアリングされていない第1トレーニングサンプルおよびペアリングされた第2トレーニングサンプルに基づいてターゲットモデルのうちの文字生成モデルをトレーニングし、ペアリングされていない第1トレーニングサンプルを増加し、トレーニングサンプルの数および範囲を増加することにより、文字生成モデルの未知フォントに対するスタイル変換の能力を向上させ、モデルの汎化能力を向上させることができ、且つ、ペアリングされたトレーニングサンプルと組み合わせて文字生成モデルをトレーニングし、モデルのスタイル変換を正確に実現する能力の向上と、モデルのスタイル変換の正確率の高めとを両立することができる。
更に、前記文字生成モデルのトレーニング装置は、同じ数の第1トレーニングサンプルおよび第2トレーニングサンプルを含むトレーニング集合を取得するためのトレーニング集合取得モジュールと、前記トレーニング集合から第1トレーニングサンプルおよび第2トレーニングサンプルを抽出するためのトレーニングサンプル取得モジュールとを更に備える。
更に、前記第1ロスは第1誤字ロスを含み、前記第2ロスは第2誤字ロスおよび特徴ロスを含む。
更に、前記第1ロス計算モジュール1701は、第1トレーニングサンプルを前記文字生成モデルに入力し、第1ターゲットドメイン生成字を取得するための第1ターゲットドメイン生成字出力ユニットと、前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字生成モデルの第1誤字ロスを計算するための第1誤字ロス計算ユニットとを更に備える。
更に、前記文字生成モデルは第1生成モデルおよび第2生成モデルを含む。
前記第1誤字ロス計算ユニットは、第1ソースドメインサンプル字を前記第1生成モデルに入力し、前記第1ターゲットドメイン生成字を取得するための第1ソースドメイン生成字出力サブユニットを備える。
前記文字生成モデルのトレーニング装置は、前記第1ターゲットドメイン生成字を前記第2生成モデルに入力し、第1ソースドメイン生成字を取得するための第1ソースドメイン生成字生成モジュールと、前記第1ターゲットドメインサンプル字を前記第2生成モデルに入力し、第2ソースドメイン生成字を取得し、前記第2ソースドメイン生成字を前記第1生成モデルに入力し、第2ターゲットドメイン生成字を取得するための第2ターゲットドメイン生成字出力モジュールと、前記第1トレーニングサンプル、前記第1ターゲットドメイン生成字、前記第1ソースドメイン生成字、前記第2ターゲットドメイン生成字、および前記第2ソースドメイン生成字に基づき、前記文字生成モデルの第1生成ロスを計算するための第1生成ロス計算モジュールと、前記第1生成ロスに基づいて前記第1生成モデルのパラメータを調整するための第2パラメータ調整モジュールとを更に備える。
更に、前記第1パラメータ調整モジュール1703は、前記第1ロスおよび前記第2ロスに基づいて前記第1生成モデルのパラメータを調整するための第1生成モデルパラメータ調整ユニットを備える。
更に、前記ソースドメインサンプル字は、ソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する画像である。
上記文字生成モデルのトレーニング装置は、本開示のいずれかの実施例に係る文字生成モデルのトレーニング方法を実行することができ、文字生成モデルのトレーニング方法の実行に対応する機能モジュールおよび有益な効果を備える。
本開示の実施例によれば、図18は、本開示の実施例における文字生成装置の構造図であり、本開示の実施例は、トレーニング文字生成モデルに基づき、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換して新字を生成する場合に適用される。該装置は、ソフトウェアおよび/またはハードウェアで実現され、具体的に、一定のデータ演算能力を持つ電子機器に構成される。
図18に示す文字生成装置1800は、文字生成モジュール1801を備える。
文字生成モジュール1801は、ソースドメイン入力字を文字生成モデルのうちの第1生成モデルに入力し、ターゲットドメイン新字を取得することに用いられ、ここで、前記文字生成モデルは、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる。
本開示の技術案によれば、ソースドメイン入力字を取得し、文字生成モデルのうちの第1生成モデルに入力し、ターゲットドメイン新字を取得することにより、ソースドメイン入力字をターゲットドメイン新字に正確に変換することを実現し、ターゲットドメイン新字の生成正確率を高め、ターゲットドメイン新字の生成効率を高め、ターゲットドメイン新字の生成を向上させる人件費を低減することができる。
上記文字生成装置は、本開示のいずれかの実施例に係る文字生成方法を実行することができ、文字生成方法の実行に対応する機能モジュールおよび有益な効果を備える。
本開示の技術案に係るユーザの個人情報の収集、記憶、使用、加工、伝達、提供、および公開等の処理は、いずれも関連法律法規の規定に該当し、公序良俗に反していない。
本開示の実施例によれば、本開示は、電子機器、可読記憶媒体、およびコンピュータプログラム製品を更に提供する。
図19は、本開示の実施例を実施するための電子機器1900の例示的なブロック図を示す。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータのような様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯端末、携帯電話、スマートフォン、ウェララブル機器および他の類似する計算装置のような様々な形式の移動装置を表すこともできる。本発明に示されたコンポーネント、それらの接続、関係、およびそれらの機能は例示的なものに過ぎず、本発明に記載および/または要求される本開示の実現を限定するものではない。
図19に示すように、機器1900は、計算ユニット1901を備え、読み出し専用メモリ(ROM)1902に記憶されたコンピュータプログラム、または記憶ユニット1908からランダムアクセスメモリ(RAM)1903にロードされたコンピュータプログラムに基づき、様々な適当な動作および処理を実行することができる。RAM 1903には、機器1900の操作に必要な様々なプログラムおよびデータが記憶されてもよい。計算ユニット1901、ROM 1902およびRAM 1903は、バス1904を介して互いに接続されている。入力/出力(I/O)インタフェース1905もバス1904に接続されている。
機器1900における複数のコンポーネントはI/Oインタフェース1905に接続され、キーボード、マウス等のような入力ユニット1906と、各種のディスプレイ、スピーカ等のような出力ユニット1907と、磁気ディスク、光ディスク等のような記憶ユニット1908と、ネットワークカード、モデム、無線通信送受信機等のような通信ユニット1909とを備える。通信ユニット1909は、機器1900がインターネットのようなコンピュータネットワークおよび/または様々な電気通信ネットワークを介して他の機器と情報/データを交換することを許容する。
計算ユニット1901は、処理および計算能力を有する汎用および/または専用の処理アセンブリであってもよい。計算ユニット1901のいくつかの例は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、各種の専用の人工知能(AI)コンピューティングチップ、各種の機械学習モデルアルゴリズムを実行する計算ユニット、デジタルシグナルプロセッサ(DSP)、および任意の適当なプロセッサ、コントローラ、マイクロコントローラ等を含んでもよいが、これらに限定されない。計算ユニット1901は、上記各方法および処理、例えば、文字生成モデルのトレーニング方法または文字生成方法を実行する。例えば、いくつかの実施例において、文字生成モデルのトレーニング方法または文字生成方法は、コンピュータソフトウェアプログラムとして実現でき、有形的に記憶ユニット1908のような機器可読媒体に含まれている。いくつかの実施例において、コンピュータプログラムの一部または全ては、ROM 1902および/または通信ユニット1909を介して機器1900にロードおよび/またはインストールされ得る。コンピュータプログラムがRAM 1903にロードされて計算ユニット1901により実行されると、上記文字生成モデルのトレーニング方法または文字生成方法の1つまたは複数のステップを実行することができる。あるいは、他の実施例において、計算ユニット1901は、他の任意の適当な方式(例えば、ファームウェアを介して)により、文字生成モデルのトレーニング方法または文字生成方法を実行するように構成され得る。
本発明に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準パーツ(ASSP)、システムオンチップのシステム(SOC)、複合プログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現できる。これらの様々な実施形態は以下を含んでもよい。1つまたは複数のコンピュータプログラムに実施され、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、且つデータおよび命令を、該ストレージシステム、該少なくとも1つの入力装置、および該少なくとも1つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせでコードできる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供でき、これにより、プログラムコードがプロセッサまたはコントローラにより実行されると、フローチャートおよび/またはブロック図で規定された機能/操作が実施される。プログラムコードは、完全に機器で実行されてもよいし、一部が機器で実行されてもよいし、独立したソフトウェアパッケージとして一部が機器で実行されて一部がリモート機器で実行されてもよいし、完全にリモート機器またはサーバで実行されてもよい。
本開示の明細書において、機器可読媒体は、命令実行システム、装置または機器に使用される、または命令実行システム、装置またはデバイスと合わせて使用されるプログラムを含有または記憶できる有形的な媒体であってもよい。機器可読媒体は、機器可読信号媒体または機器可読記憶媒体であってもよい。機器可読媒体は、電子の、磁気の、光の、電磁気の、赤外線の、または半導体のシステム、装置またはデバイス、または上記内容の任意の適当な組み合わせを含んでもよいが、これらに限定されない。機器可読記憶媒体の更なる具体的な例は、1つまたは複数の線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用ディスク(CD-ROM)、光記憶デバイス、磁気記憶デバイス、または上記内容の任意の適当な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザがそれにより入力をコンピュータに提供することができるキーボードおよび指向装置(例えば、マウスまたはトラックボール)とを有する。他の種類の装置は、更にユーザとのインタラクションを提供するために使用できる。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、且つ、任意の形式(音入力、音声入力または、触覚入力を含む)でユーザからの入力を受信することができる。
ここで説明するシステムおよび技術を、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、または中間コンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、ユーザがそれによりここで説明するシステムおよび技術の実施形態とインタラクションできるグラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータ)、またはこのようなバックグラウンドコンポーネント、中間コンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)により、システムのコンポーネントを互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ブロックチェーンネットワーク、およびインターネットを含む。
コンピューティングシステムはクライアントおよびサーバを含んでもよい。クライアントとサーバとは、一般的に互いに離れ、且つ、通常、通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行されて互いにクライアント-サーバ関係を持つコンピュータプログラムにより、クライアントとサーバとの関係を生成する。サーバはクラウドサーバであってもよく、分散システムのサーバであってもよく、ブロックチェーンと組み合わせたサーバであってもよい。
上記に示す様々な形式のフローを用い、ステップを並べ替え、追加または削除することができることを理解すべきである。例えば、本開示に記載された各ステップは、並列に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本開示に開示された技術案の所望する結果を達成できる限り、本開示はここで限定しない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要求および他の要因に基づき、様々な修正、組み合わせ、サブ組み合わせおよび代替が可能であることを理解すべできる。本開示の精神および原則内で行われる任意の修正、均等置換および改良等は、いずれも本開示の保護範囲内に含まれているべきである。

Claims (19)

  1. 第1ソースドメインサンプル字、およびコンテンツが前記第1ソースドメインサンプル字のコンテンツと異なる第1ターゲットドメインサンプル字を含む第1トレーニングサンプルを、文字生成モデルおよび予めトレーニングされた文字分類モデルを含むターゲットモデルに入力し、第1ロスを計算することと、
    第2ソースドメインサンプル字、およびコンテンツが前記第2ソースドメインサンプル字のコンテンツと同じである第2ターゲットドメインサンプル字を含む第2トレーニングサンプルを、前記ターゲットモデルに入力し、第2ロスを計算することと、
    前記第1ロスおよび前記第2ロスに基づいて前記文字生成モデルのパラメータを調整することとを含む、
    文字生成モデルのトレーニング方法。
  2. 同じ数の第1トレーニングサンプルおよび第2トレーニングサンプルを含むトレーニング集合を取得することと、
    前記トレーニング集合から第1トレーニングサンプルおよび第2トレーニングサンプルを抽出することとを更に含む、
    請求項1に記載の方法。
  3. 前記第1ロスは第1誤字ロスを含み、
    前記第2ロスは第2誤字ロスおよび特徴ロスを含む、
    請求項1に記載の方法。
  4. 第1ロスを計算することは、
    第1トレーニングサンプルを前記文字生成モデルに入力し、第1ターゲットドメイン生成字を取得することと、
    前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字生成モデルの第1誤字ロスを計算することとを含む、
    請求項1に記載の方法。
  5. 前記文字生成モデルは第1生成モデルおよび第2生成モデルを含み、
    第1トレーニングサンプルを文字生成モデルに入力し、第1ターゲットドメイン生成字を取得することは、第1ソースドメインサンプル字を前記第1生成モデルに入力し、前記第1ターゲットドメイン生成字を取得することを含み、
    前記第1ターゲットドメイン生成字を前記第2生成モデルに入力し、第1ソースドメイン生成字を取得することと、
    前記第1ターゲットドメインサンプル字を前記第2生成モデルに入力し、第2ソースドメイン生成字を取得して、前記第2ソースドメイン生成字を前記第1生成モデルに入力し、第2ターゲットドメイン生成字を取得することと、
    前記第1トレーニングサンプル、前記第1ターゲットドメイン生成字、前記第1ソースドメイン生成字、前記第2ターゲットドメイン生成字、および前記第2ソースドメイン生成字に基づき、前記文字生成モデルの第1生成ロスを計算することと、
    前記第1生成ロスに基づいて前記第1生成モデルのパラメータを調整することとを更に含む、
    請求項4に記載の方法。
  6. 前記第1ロスおよび前記第2ロスに基づいて前記文字生成モデルのパラメータを調整することは、
    前記第1ロスおよび前記第2ロスに基づいて前記第1生成モデルのパラメータを調整することを含む、
    請求項5に記載の方法。
  7. 前記ソースドメインサンプル字がソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字がターゲットドメインフォントスタイルを有する画像である、
    請求項1から6のいずれか1項に記載の方法。
  8. ソースドメイン入力字を文字生成モデルのうちの第1生成モデルに入力し、ターゲットドメイン新字を取得することを含み、
    前記文字生成モデルは、請求項1から7のいずれか1項に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる、
    文字生成方法。
  9. 第1ソースドメインサンプル字、およびコンテンツが前記第1ソースドメインサンプル字のコンテンツと異なる第1ターゲットドメインサンプル字を含む第1トレーニングサンプルを、文字生成モデルおよび予めトレーニングされた文字分類モデルを含むターゲットモデルに入力し、第1ロスを計算するための第1ロス計算モジュールと、
    第2ソースドメインサンプル字、およびコンテンツが前記第2ソースドメインサンプル字のコンテンツと同じである第2ターゲットドメインサンプル字を含む第2トレーニングサンプルを、前記ターゲットモデルに入力し、第2ロスを計算するための第2ロス計算モジュールと、
    前記第1ロスおよび前記第2ロスに基づいて前記文字生成モデルのパラメータを調整するための第1パラメータ調整モジュールとを備える、
    文字生成モデルのトレーニング装置。
  10. 同じ数の第1トレーニングサンプルおよび第2トレーニングサンプルを含むトレーニング集合を取得するためのトレーニング集合取得モジュールと、
    前記トレーニング集合から第1トレーニングサンプルおよび第2トレーニングサンプルを抽出するためのトレーニングサンプル取得モジュールとを更に備える、
    請求項9に記載の装置。
  11. 前記第1ロスは第1誤字ロスを含み、
    前記第2ロスは第2誤字ロスおよび特徴ロスを含む、
    請求項9に記載の装置。
  12. 前記第1ロス計算モジュールは、
    第1トレーニングサンプルを前記文字生成モデルに入力し、第1ターゲットドメイン生成字を取得するための第1ターゲットドメイン生成字出力ユニットと、
    前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字生成モデルの第1誤字ロスを計算するための第1誤字ロス計算ユニットとを備える、
    請求項9に記載の装置。
  13. 前記文字生成モデルは第1生成モデルおよび第2生成モデルを含み、
    前記第1誤字ロス計算ユニットは、第1ソースドメインサンプル字を前記第1生成モデルに入力し、前記第1ターゲットドメイン生成字を取得するための第1ソースドメイン生成字出力サブユニットを備え、
    前記第1ターゲットドメイン生成字を前記第2生成モデルに入力し、第1ソースドメイン生成字を取得するための第1ソースドメイン生成字生成モジュールと、
    前記第1ターゲットドメインサンプル字を前記第2生成モデルに入力し、第2ソースドメイン生成字を取得し、前記第2ソースドメイン生成字を前記第1生成モデルに入力し、第2ターゲットドメイン生成字を取得するための第2ターゲットドメイン生成字出力モジュールと、
    前記第1トレーニングサンプル、前記第1ターゲットドメイン生成字、前記第1ソースドメイン生成字、前記第2ターゲットドメイン生成字、および前記第2ソースドメイン生成字に基づき、前記文字生成モデルの第1生成ロスを計算するための第1生成ロス計算モジュールと、
    前記第1生成ロスに基づいて前記第1生成モデルのパラメータを調整するための第2パラメータ調整モジュールとを更に備える、
    請求項12に記載の装置。
  14. 前記第1パラメータ調整モジュールは、
    前記第1ロスおよび前記第2ロスに基づいて前記第1生成モデルのパラメータを調整するための第1生成モデルパラメータ調整ユニットを備える、
    請求項13に記載の装置。
  15. 前記ソースドメインサンプル字がソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字がターゲットドメインフォントスタイルを有する画像である、
    請求項9から14のいずれか1項に記載の装置。
  16. ソースドメイン入力字を文字生成モデルのうちの第1生成モデルに入力し、ターゲットドメイン新字を取得するための文字生成モジュールを備え、
    前記文字生成モデルは、請求項1から7のいずれか1項に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる、
    文字生成装置。
  17. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されたメモリとを備える電子機器であって、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
    前記命令は、前記少なくとも1つのプロセッサが請求項1から7のいずれか1項に記載の文字生成モデルのトレーニング方法または請求項8に記載の文字生成方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
    電子機器。
  18. コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
    前記コンピュータ命令は、コンピュータに、請求項1から7のいずれか1項に記載の文字生成モデルのトレーニング方法または請求項8に記載の文字生成方法を実行させることに用いられる、
    非一時的なコンピュータ可読記憶媒体。
  19. プロセッサにより実行されると、請求項1から7のいずれか1項に記載の文字生成モデルのトレーニング方法を実現するか、または請求項8に記載の文字生成方法を実行する、
    コンピュータプログラム。
JP2022007357A 2021-09-09 2022-01-20 文字生成モデルのトレーニング方法、文字生成方法、装置および機器 Pending JP2023039891A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111056555.4A CN113792849B (zh) 2021-09-09 2021-09-09 字符生成模型的训练方法、字符生成方法、装置和设备
CN202111056555.4 2021-09-09

Publications (1)

Publication Number Publication Date
JP2023039891A true JP2023039891A (ja) 2023-03-22

Family

ID=78879816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022007357A Pending JP2023039891A (ja) 2021-09-09 2022-01-20 文字生成モデルのトレーニング方法、文字生成方法、装置および機器

Country Status (5)

Country Link
US (1) US20230154077A1 (ja)
EP (1) EP4012668A3 (ja)
JP (1) JP2023039891A (ja)
KR (1) KR20220034077A (ja)
CN (1) CN113792849B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909354B (zh) * 2022-11-11 2023-11-10 北京百度网讯科技有限公司 文本生成模型的训练方法、文本获取方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3160265B2 (ja) * 1998-06-10 2001-04-25 日本電信電話株式会社 半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記録媒体
CN110503598B (zh) * 2019-07-30 2022-09-16 西安理工大学 基于条件循环一致性生成对抗网络的字体风格迁移方法
CN111476216A (zh) * 2020-05-26 2020-07-31 上海眼控科技股份有限公司 人脸识别方法、装置、计算机设备和可读存储介质
CN112861806B (zh) * 2021-03-17 2023-08-22 网易(杭州)网络有限公司 基于生成对抗网络的字体数据处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QI WEN ET AL.: ""ZiGAN: Fine-grained Chinese Calligraphy Font Generation via a Few-shot Style Transfer Approach"", [ONLINE], vol. arXiv:2108.03596v1, JPN7023001361, 8 August 2021 (2021-08-08), ISSN: 0005034550 *

Also Published As

Publication number Publication date
CN113792849B (zh) 2023-09-01
EP4012668A3 (en) 2022-08-31
CN113792849A (zh) 2021-12-14
KR20220034077A (ko) 2022-03-17
EP4012668A2 (en) 2022-06-15
US20230154077A1 (en) 2023-05-18

Similar Documents

Publication Publication Date Title
JP2023541532A (ja) テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US20220189189A1 (en) Method of training cycle generative networks model, and method of building character library
JP7282932B2 (ja) フォント生成モデルトレーニング方法、字庫作成方法、装置及び機器
JP7384943B2 (ja) 文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体
JP7289942B2 (ja) フォント生成モデルトレーニング方法、フォントライブラリ作成方法、フォント生成モデルトレーニング装置、フォントライブラリ作成装置、電子機器、コンピュータ可読記憶媒体、及び、コンピュータプログラム
US20220270384A1 (en) Method for training adversarial network model, method for building character library, electronic device, and storage medium
JP7337203B2 (ja) 文字生成モデルのトレーニング方法、文字生成方法、装置および機器
CN114677565B (zh) 特征提取网络的训练方法和图像处理方法、装置
CN113627439A (zh) 文本结构化处理方法、处理装置、电子设备以及存储介质
CN112580666A (zh) 图像特征的提取方法、训练方法、装置、电子设备及介质
JP2023039891A (ja) 文字生成モデルのトレーニング方法、文字生成方法、装置および機器
US20220327803A1 (en) Method of recognizing object, electronic device and storage medium
CN113903071A (zh) 人脸识别方法、装置、电子设备和存储介质
CN115359502A (zh) 一种图像处理方法、装置、设备以及存储介质
CN114863434B (zh) 文字分割模型的获取方法、文字分割方法及其装置
CN117094870A (zh) 数据处理方法、装置、设备、计算机可读存储介质及产品
CN116386062A (zh) 公式识别方法、装置、电子设备以及存储介质
CN114863207A (zh) 目标检测模型的预训练方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230411

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231107