JP7282932B2 - フォント生成モデルトレーニング方法、字庫作成方法、装置及び機器 - Google Patents

フォント生成モデルトレーニング方法、字庫作成方法、装置及び機器 Download PDF

Info

Publication number
JP7282932B2
JP7282932B2 JP2022007170A JP2022007170A JP7282932B2 JP 7282932 B2 JP7282932 B2 JP 7282932B2 JP 2022007170 A JP2022007170 A JP 2022007170A JP 2022007170 A JP2022007170 A JP 2022007170A JP 7282932 B2 JP7282932 B2 JP 7282932B2
Authority
JP
Japan
Prior art keywords
character
font
feature
loss
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022007170A
Other languages
English (en)
Other versions
JP2023039887A (ja
Inventor
家▲銘▼ ▲劉▼
礼承 唐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023039887A publication Critical patent/JP2023039887A/ja
Application granted granted Critical
Publication of JP7282932B2 publication Critical patent/JP7282932B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/245Font recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)
  • Image Analysis (AREA)

Description

本開示は人工知能の技術分野に関し、具体的には、コンピュータ視覚及び深層学習の技術分野に関し、OCR(Optical Character Recognition、光学的文字認識)などのシーンに適用されることができる。
フォント生成はいつも国内外の多くの研究者が重点的に研究している課題であり、フォント設計業界において広い応用価値がある。従って、如何にスタイルが多様性のフォント生成のニーズを満足するかは、フォント生成の分野に重点的に注目された問題となっている。
本開示の実施例は、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができるフォント生成モデルトレーニング方法、字庫(word stock)作成方法、装置及び機器を提供する。
第1態様では、本開示の実施例は、
ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることと、
前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得ることと、
前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得ることと、
前記第1特徴ロス及び/又は前記第2特徴ロスによりターゲット特徴ロスを確定することと、
前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することと、
を含む、フォント生成モデルトレーニング方法を提供する。
第2態様では、本開示の実施例は、
ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることと、
前記ターゲットドメイン新字に基づいて、字庫を作成することと、を含み、
前記フォント生成モデルは第1態様に記載のフォント生成モデルトレーニング方法によりトレーニングして得られる、
字庫作成方法を提供する。
第3態様では、本開示の実施例は、
ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることに用いられる第1ターゲットドメイン生成字取得モジュールと、
前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得ることに用いられる第1特徴ロス取得モジュールと、
前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得ることに用いられる第2特徴ロス取得モジュールと、
前記第1特徴ロス及び/又は前記第2特徴ロスによりターゲット特徴ロスを確定することに用いられるターゲット特徴ロス取得モジュールと、
前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することに用いられる第1モデルパラメータ更新モジュールと、
を含む、フォント生成モデルトレーニング装置を提供する。
第4態様では、本開示の実施例は、
ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることに用いられるターゲットドメイン新字取得モジュールと、
前記ターゲットドメイン新字に基づいて、字庫を作成することに用いられる字庫作成モジュールと、を含み
前記フォント生成モデルは、第1態様に記載のフォント生成モデルトレーニング装置によりトレーニングして得られる、
字庫作成装置を提供する。
第5態様では、本開示の実施例は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を含み、
前記メモリには前記少なくとも1つのプロセッサに実行可能である指令が記憶され、前記指令が前記少なくとも1つのプロセッサに実行されることにより、前記少なくとも1つのプロセッサに第1態様の実施例によるフォント生成モデルトレーニング方法又は第2態様の実施例による字庫作成方法を実行可能である、
電子機器を提供する。
第6態様では、本開示の実施例は、
コンピュータ指令が記憶される非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ指令は、前記コンピュータに第1態様の実施例によるフォント生成モデルトレーニング方法又は第2方面の実施例による字庫作成方法を実行させることに用いられる、
コンピュータ可読記憶媒体をさらに提供する。
第7態様では、本開示の実施例は、
プロセッサに実行されると、第1態様の実施例によるフォント生成モデルトレーニング方法又は第2方面の実施例による字庫作成方法を実現する、
コンピュータプログラムをさらに提供する。
本開示の実施例は、ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることにより、第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字をそれぞれ文字分類モデル及びフォント分類モデルに入力し、フォント生成モデルの第1特徴ロス及び第2特徴ロスを得ることで、第1特徴ロス及び/又は第2特徴ロスに確定されたターゲット特徴ロスにより、フォント生成モデルのモデルパラメータを更新し、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルのトレーニングが完了した後に、ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることで、ターゲットドメイン新字に基づいて字庫を作成し、従来のフォント生成モデルがフォントレベルのフォントを生成しにくいという問題を解決し、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。
本部分に説明された内容は本開示の実施例のキー又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定することに用いられないと理解すべきである。本開示の他の特徴は、以下の明細書に基づいて容易に理解されることになる。
図面は本方案をよりよく理解するためのものであり、本開示を限定するものではない。そのうち、
本開示の実施例に係るフォント生成モデルトレーニング方法のフロー図である。 本開示の実施例に係るフォント生成モデルトレーニング方法のフロー図である。 本開示の実施例に係るフォント生成モデルのネットワーク構造原理図である。 本開示の実施例に係るフォント生成モデルのネットワーク構造原理図である。 本開示の実施例に係る第1特徴ロスの可視化効果模式図である。 本開示の実施例に係る第2特徴ロスの可視化効果模式図である。 本開示の実施例に係る第2特徴ロスの可視化効果模式図である。 本開示の実施例に係るフォント生成モデルトレーニング方法の原理図である。 本開示の実施例に係る文字ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。 本開示の実施例に係る第1特徴ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。 本開示の実施例に係る第2特徴ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。 本開示の実施例に係る字庫作成方法のフロー図である。 本開示の実施例に係るフォント生成モデルトレーニング装置の構造図である。 本開示の実施例に係る字庫作成装置の構造図である。 本開示の実施例のフォント生成モデルトレーニング方法又は字庫作成方法を実現することに用いられる電子機器の構造模式図である。
以下、図面を参照しながら、本開示の例示的な実施例について説明する。そのうち、理解を容易にするために本開示の実施例の様々な詳細が含まれているが、それらをただの例示的なものと見なすべきである。したがって、当業者は、本開示の範囲及び精神から逸脱せず、ここで説明された実施例に対して様々な変更及び修正を行うことができることを理解すべきである。同様に、明確且つ簡潔にするために、以下の説明では公知の機能及び構造に対する説明を省略する。
フォント生成は、画像スタイルの遷移の分野のうちの一つの新興タスクであり、画像スタイルの遷移は、1枚の画像の内容が変化しないままの場合でそれを他のスタイルに変換することであり、深層学習の適用の人気研究方向である。
現在、GAN(Generative Adversarial Networks、敵対的生成ネットワーク)モデルを採用して、フォントの生成を実現することができる。しかし、GANモデルによるフォント生成態様において、小さいデータ量でトレーニングされたネットワークを利用すると、傾斜、大きさ、一部の筆画の特徴などのいくつかの比較的に弱い特徴をしか学習できず、最もユーザのスタイルらしい特徴を学習することができない。大きいデータ量でトレーニングされたネットワークを使用してもよく、スタイルのほうが強いが、トレーニングセット以外の漢字である場合に、誤字が生じやすい。これらの主流の研究成果は、いずれもフォントレベルの効果に達しにくい。
一例において、図1は本開示の実施例に係るフォント生成モデルトレーニング方法のフロー図である。本実施例は、複数タイプの特徴ロスによりトレーニングしてフォント生成モデルを最適化させる場合に適用されることができ、該方法はフォント生成モデルトレーニング装置に実行されることができ、該装置はソフトウェア及び/又はハードウェアの形態で実現されることができ、そして、一般には電子機器に集積されることができる。該電子機器は端末機器又はサーバ機器などであってもよく、本開示の実施例はフォント生成モデルトレーニング方法を実行する電子機器のタイプを限定しない。相応的に、図1に示すように、該方法は以下のような操作を含む。
S110において、ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得る。
本開示の1つの好ましい実施例において、ソースドメインサンプル字はターゲットソースドメインフォントスタイルを有する画像であってもよい。ターゲットソースドメインはある1つのソースドメインフォントスタイルであってもよく、ソースドメインフォントスタイルは、例えば、楷書体、宋朝体又は黒体などの通常のリアルなフォントであってもよい。即ち、ターゲットソースドメインは楷書体、宋朝体又は黒体などの通常のリアルなフォントなどのいずれか1つのリアルなフォントスタイルであってもよい。第1ターゲットドメイン生成字はターゲットドメインフォントスタイルを有する画像であってもよく、ターゲットドメインフォントスタイルは、ユーザの手書きフォント、或いは、他のアートワードフォントなどが生成する必要とするスタイルタイプであってもよい。フォント生成モデルはターゲットドメインフォントスタイルを有するフォントを生成することができる。
本開示の実施例において、フォント生成モデルをトレーニングする時に、まず、1種のソースドメインサンプル字をフォント生成モデルに入力することができる。フォント生成モデルは入力されたソースドメインサンプル字により該ソースドメインサンプル字に対応する第1ターゲットドメイン生成字を出力することができる。
例示的に、楷書体の字の「做」を含む画像をソースドメインサンプル字としてフォント生成モデルに入力し、フォント生成モデルはユーザの手書き字の「做」を含む画像を出力することができる。
S120において、前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得る。
本開示の1つの好ましい実施例において、前記ターゲットドメインサンプル字はターゲットドメインフォントスタイルを有する画像であってもよい。例示的に、第1ターゲットドメイン生成字はフォント生成モデルが生成した手書き字の「做」を含む画像であり、ターゲットドメインサンプル字はリアルな手書き字の「做」という字を含む画像であり、該リアルな手書き字の「做」を含む画像は、ユーザがリアルに手書き字に生成された画像であってもよい。該ユーザがリアルに手書き字に生成された画像の取得は、公開されたデータセットから由来してもよく、又はユーザの認可を得たものであってもよい。
そのうち、文字分類モデルは文字方面から第1ターゲットドメイン生成字の確度を精練したモデルであってもよい。好ましくは、文字分類モデルはVGG19ネットワークによってトレーニングして得られたものであってもよい。文字分類モデルのトレーニングサンプルは、複数種類のフォントを含む画像であってもよく、例えば、トレーニングサンプルは、80種類以上のフォント及び6700個以上の字を含む約45万枚の画像であってもよい。第1特徴ロスは文字分類モデルが第1ターゲットドメイン生成字及びターゲットドメインサンプル字により算出した差異特徴であってもよく、フォント生成モデルがフォントの詳細をより多く学習することを監督することができる。
フォント生成モデルの第1ターゲットドメイン生成字のフォント特徴に対する学習能力をさらに向上させるために、フォント生成モデルをトレーニングする過程において、フォント生成モデルが第1ターゲットドメイン生成字を生成した後に、第1ターゲットドメイン生成字を文字分類モデルに入力することで、文字分類モデルで第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字によりフォント生成モデルの第1特徴ロスを算出できる。
S130において、前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得る。
そのうち、フォント分類モデルはフォント方面から第1ターゲットドメイン生成字の確度を精練したモデルであってもよい。好ましくは、フォント分類モデルもVGG19ネットワークでトレーニングして得られたものであってもよい。フォント分類モデルのトレーニングサンプルは、複数種類のフォントを含む画像であってもよく、例えば、トレーニングサンプルは80種以上のフォント及び6700個以上の字を含む約45万枚の画像であってもよい。第2特徴ロスは、フォント分類モデルが第1ターゲットドメイン生成字及びターゲットドメインサンプル字により算出した差異特徴であってもよく、フォント生成モデルがフォントの詳細をより多く学習することを監督することができる。
なお、文字分類モデルとフォント分類モデルとのモデル構造は同様であるが、モデルパラメータ及びモデル機能は異なる。文字分類モデル及びフォント分類モデルをトレーニングするためのサンプルデータが異なるからである。具体的には、文字分類モデルをトレーニングするサンプルデータにおいて、サンプル字の文字タイプをマークする必要があるが、フォント分類モデルをトレーニングするサンプルデータにおいて、サンプル字のフォントタイプをマークする必要がある。即ち、文字分類モデルは文字を区分することに用いられるが、フォント分類モデルはフォントを区分することに用いられる。従って、文字分類モデルが算出した第1特徴ロスはフォント生成モデルの文字方面におけるフォントの詳細を学習する能力を計量することができ、例えば、第1ターゲットドメイン生成字の文字特徴がユーザの手書き字の文字特徴にマッチングするか否かを判断することができる。フォント分類モデルが算出した第2特徴ロスはフォント生成モデルのフォント方面におけるフォントの詳細を学習する能力を計量することができ、例えば、第1ターゲットドメイン生成字のフォントタイプがユーザの手書き字のフォントタイプに該当するか否かを判断する。これから分かるように、第1特徴ロス及び第2特徴ロスは、文字及びフォントという2つの方面からフォント生成モデルのフォントの詳細を学習する能力を計量することができる。
なお、図1は1つの実現形態の効果模式図のみであり、本開示の実施例はステップS120とステップS130との間の実行される順序を限定しない。即ち、ステップS120を実行してから、ステップS130を実行してもよい。或いは、ステップS130を実行してから、ステップS120を実行してもよい。或いは、ステップS120及びステップS130を同時に実行してもよい。
S140において、前記第1特徴ロス及び/又は前記第2特徴ロスによりターゲット特徴ロスを確定する。
そのうち、ターゲット特徴ロスはフォント生成モデルを簡単にトレーニングすることに用いられる特徴ロスであってもよい。
本開示の実施例において、第1特徴ロス及び第2特徴ロスを得た後に、さらに、第1特徴ロス及び/又は第2特徴ロスによりターゲット特徴ロスを確定することができる。
例示的に、第1特徴ロスをターゲット特徴ロスとして確定してもよいし、第2特徴ロスをターゲット特徴ロスとして確定してもよいし、或いは、同時に第1特徴ロス及び第2特徴ロスをターゲット特徴ロスとして確定してもよく、本開示の実施例はターゲット特徴ロスの確定形態を限定しない。
S150において、前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新する。
そのうち、モデルパラメータは、例えば、重み又は偏りなどのフォント生成モデルに関連するパラメータであってもよく、本開示の実施例はモデルパラメータのタイプを制限しない。
相応的に、ターゲット特徴ロスを確定した後に、ターゲット特徴ロスによりフォント生成モデルのモデルパラメータを更新し、フォント生成モデルに対するトレーニングの過程を監督することを実現することができる。ターゲット特徴ロスは異なる複数のタイプの特徴ロスを考慮することができるため、ターゲット特徴ロスによりフォント生成モデルのモデルパラメータを更新することで、フォント生成モデルにフォントの詳細を学習する能力を絶えずに最適化させることができ、フォント生成モデルのフォントレベルフォントを生成する能力を向上させることができる。
本開示の実施例はソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることにより、第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字をそれぞれ文字分類モデル及びフォント分類モデルに入力し、フォント生成モデルの第1特徴ロス及び第2特徴ロスを得て、これにより、第1特徴ロス及び/又は第2特徴ロスに確定されたターゲット特徴ロスによりフォント生成モデルのモデルパラメータを更新し、フォント生成モデルに対するトレーニングを実現することができる。フォント生成モデルのトレーニングが完了した後に、ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることで、ターゲットドメイン新字に基づいて、字庫を作成し、これにより、従来のフォント生成モデルがフォントレベルのフォントを生成しにくいという問題を解決し、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。
一例において、図2は本開示の実施例に係るフォント生成モデルトレーニング方法のフロー図である。本開示の実施例は上記した各実施例の技術態様の上で、最適化及び改善を行い、ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得て、第1特徴ロス及び第2特徴ロスを取得し、及びフォント生成モデルのモデルパラメータを更新するという複数種類の具体的に選択可能な実現形態を与えている。
図2に示すようなフォント生成モデルトレーニング方法は、以下の操作を含む。
S210において、前記ソースドメインサンプル字を第1生成モデルに入力し、前記第1ターゲットドメイン生成字及び第1ソースドメイン生成字を得る。
そのうち、フォント生成モデルは循環ネットワーク生成モデルであり、第1生成モデル及び第2生成モデルを含む。第1ソースドメイン生成字は、フォント生成モデルがソースドメインサンプル字により生成したソースドメインフォントスタイルを有する画像であってもよい。
S220において、ターゲットドメインサンプル字を前記第2生成モデルに入力し、第2ターゲットドメイン生成字及び第2ソースドメイン生成字を得る。
そのうち、第2ターゲットドメイン生成字は、フォント生成モデルが生成したターゲットドメインフォントスタイルを有する画像であってもよい。第2ソースドメイン生成字は、フォント生成モデルがターゲットドメインサンプル字により生成したソースドメインフォントスタイルを有する画像であってもよい。
S230において、前記ソースドメインサンプル字、前記第1ターゲットドメイン生成字、前記第1ソースドメイン生成字、前記ターゲットドメインサンプル字、前記第2ターゲットドメイン生成字及び前記第2ソースドメイン生成字により、前記フォント生成モデルの生成ロスを算出する。
そのうち、生成ロスは、フォント生成モデルにおいて生成モデルのロスであってもよい。
S240において、前記生成ロスにより前記第1生成モデルのモデルパラメータを更新する。
本開示の実施例において、好ましくは、フォント生成モデルは第1生成モデル、第2生成モデル、第1判別モデル及び第2判別モデルを含んでもよい。
S250において、前記第1ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、前記フォント生成モデルの文字ロスを得る。
そのうち、文字ロスは、文字分類モデルが第1ターゲットドメイン生成字に対して算出した誤字ロスであってもよく、循環生成ネットワークモデルが出力した第1ターゲットドメイン生成字の誤字率を拘束することができる。
フォント生成モデルの誤字率を低下させるために、フォント生成モデルの生成ロスによってフォント生成モデルをトレーニングする以外に、フォント生成モデルが自己トレーニングを完了した後に、予めトレーニングされた文字分類モデルによってフォント生成モデルのトレーニング過程を監督してもよい。具体的には、フォント生成モデルが生成した第1ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、フォント生成モデルの文字ロスを得ることができる。
本開示の1つの好ましい実施例において、前記第1ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力して、前記フォント生成モデルの文字ロスを得ることは、前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記第1ターゲットドメイン生成字の生成文字ベクトルを得ることと、前記生成文字ベクトルと予め設定された標準文字ベクトルとの間の差異により、前記文字ロスを算出することと、を含んでもよい。
第1ターゲットドメイン生成字を上記文字分類モデルに入力し、上記文字分類モデルは該第1ターゲットドメイン生成字に対する生成文字ベクトル
Figure 0007282932000001
を出力でき、上記第1ターゲットドメイン生成字に対して、標準文字ベクトル
Figure 0007282932000002
が予め設けられる。xは生成文字ベクトルにおける添え字がiの要素を表し、yは標準文字ベクトルにおける添え字がiの要素を表し、iは0以上n以下の整数であり、nは生成文字ベクトル
Figure 0007282932000003
及び標準文字ベクトル
Figure 0007282932000004
における要素数を表す。
第1ターゲットドメイン生成字の生成文字ベクトル
Figure 0007282932000005
と標準文字ベクトル
Figure 0007282932000006
との間の差異により、フォント生成モデルの文字ロスを確定することができる。
具体的には、第1ターゲットドメイン生成字を文字分類モデルに入力し、該第1ターゲットドメイン生成字の生成文字ベクトル
Figure 0007282932000007
を得ることができ、そのうち、ベクトル
Figure 0007282932000008
における各要素はトレーニングサンプルにおける1つの文字を表すことができ、nはトレーニングサンプルにおける文字数を表し、例えば、トレーニングサンプルは6761個のワードを有すると、nは6760に等しくてもよい。
上記第1ターゲットドメイン生成字に対して、標準文字ベクトル
Figure 0007282932000009
が予め設けられ、そのうち、ベクトル
Figure 0007282932000010
における各要素はトレーニングサンプルにおける1つの文字を表すことができ、nはトレーニングサンプルにおける文字数を表し、例えば、トレーニングサンプルは6761個のワードを有すると、nは6760に等しくてもよい。
標準文字ベクトル
Figure 0007282932000011
は、第1ターゲットドメイン生成字を上記文字分類モデルに入力して、上記文字分類モデルが出力すべきベクトルを表す。例えば、第1ターゲットドメイン生成字は「做」というワードであり、「做」という字はトレーニングサンプルにおけるn個のワードにおいて一番目に位置すると、「做」という字の標準文字ベクトルは
Figure 0007282932000012
として表されてもよい。
本開示の1つの好ましい実施例において、前記文字ロスを算出することは、以下の式により前記文字ロスを算出することを含んでもよい。
Figure 0007282932000013
そのうち、LCは文字ロスを表し、xは生成文字ベクトルにおける添え字がiの要素を表し、yは標準文字ベクトルにおける添え字がiの要素を表し、iは0以上n以下の整数であり、nは前記生成文字ベクトル及び前記標準文字ベクトルにおける要素数を表す。
上記技術態様は、フォント生成モデルの文字ロスを算出することにより、フォント生成モデルが出力した第1ターゲットドメイン生成字の誤字率を拘束することができて、フォント生成モデルの誤字を生成する確率を低下させ、フォント生成モデルの確度を向上させる。
S260において、前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得る。
本開示の1つの好ましい実施例において、前記文字分類モデルは複数の特徴層を含み、前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得ることは、前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第1生成字特徴マップを得ることと、前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第1サンプル字特徴マップを得ることと、ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の差異を算出し、前記第1特徴ロスを得ることと、を含んでもよい。
本開示の1つの好ましい実施例において、ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の差異を算出することは、前記ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第1画素ロスを得ることと、前記ターゲット特徴層の第1画素ロスにより前記第1特徴ロスを算出することと、を含んでもよい。
そのうち、第1生成字特徴マップは文字分類モデルの各特徴層が出力した生成字の特徴マップであってもよい。第1サンプル字特徴マップは文字分類モデルの各特徴層が出力したサンプル字の特徴マップであってもよい。
本開示の実施例において、文字分類モデルは複数の特徴層(例えば、90層の特徴層)を含んでもよく、第1ターゲットドメイン生成字を文字分類モデルに入力し、各層が出力した第1生成字特徴マップを得ることができる。ターゲットドメインサンプル字を文字分類モデルに入力し、各層が出力した第1サンプル字特徴マップを得ることができる。
各層の特徴層が出力した第1生成字特徴マップと第1サンプル字特徴マップとの間の差異に対して、該層の第1特徴ロスを確定することができる。例えば、各特徴層において、該特徴層が出力した第1生成字特徴マップ及び第1サンプル字特徴マップという2枚の画像の各対応する画素点の画素値を差異し、絶対値を求めて、各画素点の差異を得て、すべての画素点の差異を加算して、該特徴層の画素ロスを得る。
好ましくは、ターゲット特徴層として複数層の特徴層における少なくとも1つ(例えば、第45層及び第46層)を選択し、各ターゲット特徴層の特徴ロスの和を全体の第1特徴ロスとする。
上記全体の特徴ロスは、フォント生成モデルが第1ターゲットドメイン生成字とターゲットドメインサンプル字との間に差異が比較的に大きい特徴を学習することを表すことに用いられることができ、フォント生成モデルに文字方面においてフォントの詳細をより多く学習させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。
本開示の1つの好ましい実施例において、前記ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の画素差異を算出することは、前記第1生成字特徴マップにおける各位置の画素点の画素値と前記第1サンプル字特徴マップに対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、複数の位置の画素点の差異により、前記第1生成字特徴マップと第1サンプル字特徴マップとの間の画素差異を確定することと、を含んでもよい。
S270において、前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得る。
本開示の1つの好ましい実施例において、前記フォント分類モデルは複数の特徴層を含み、前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得ることは、前記第1ターゲットドメイン生成字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第2生成字特徴マップを得ることと、前記ターゲットドメインサンプル字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第2サンプル字特徴マップを得ることと、ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の差異を算出し、前記第2特徴ロスを得ることと、を含んでもよい。
本開示の1つの好ましい実施例において、ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の差異を算出することは、前記ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第2画素ロスを得ることと、前記ターゲット特徴層の第2画素ロスにより前記第2特徴ロスを算出することと、を含んでもよい。
そのうち、第2生成字特徴マップはフォント分類モデルの各特徴層が出力した生成字の特徴マップであってもよい。第2サンプル字特徴マップはフォント分類モデルの各特徴層が出力したサンプル字の特徴マップであってもよい。
本開示の実施例において、フォント分類モデルは一括に複数の特徴層(例えば、90層の特徴層)を含んでもよく、第1ターゲットドメイン生成字をフォント分類モデルに入力し、各層が出力した第2生成字特徴マップを得ることができる。ターゲットドメインサンプル字をフォント分類モデルに入力し、各層が出力した第2サンプル字特徴マップを得ることができる。
各層の特徴層が出力した第2生成字特徴マップと第2サンプル字特徴マップとの間の差異に対して、該層の第2特徴ロスを確定することができる。例えば、各特徴層において、該特徴層が出力した第2生成字特徴マップ及び第2サンプル字特徴マップという2枚の画像の各対応する画素点の画素値を差異し、絶対値を求めて、各画素点の差異を得て、すべての画素点の差異を加算し、該特徴層の画素ロスを得る。
好ましくは、ターゲット特徴層として複数層の特徴層における少なくとも1つ(例えば、第45層及び第46層)を選択し、各ターゲット特徴層の特徴ロスの和を全体の第2特徴ロスとする。
上記全体の特徴ロスは、フォント生成モデルが第1ターゲットドメイン生成字とターゲットドメインサンプル字との間に差異が比較的に大きい特徴を学習することを表すことに用いられることができ、フォント生成モデルにフォント方面においてフォントの詳細をより多く学習させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。
本開示の1つの好ましい実施例において、前記ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の画素差異を算出することは、前記第2生成字特徴マップにおける各位置の画素点の画素値と前記第2サンプル字特徴マップに対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、複数の位置の画素点の差異により、前記第2生成字特徴マップと第2サンプル字特徴マップとの間の画素差異を確定することと、を含んでもよい。
S280において、前記第1特徴ロス及び/又は前記第2特徴ロスによりターゲット特徴ロスを確定する。
S290において、前記文字ロス及び前記ターゲット特徴ロスにより前記第1生成モデルのモデルパラメータを更新する。
本開示の実施例において、フォント生成モデルが生成ロスを利用して自己トレーニングを完了した後に、さらに、文字分類モデルによってフォント生成モデルの文字ロス及び第1特徴ロスをそれぞれ算出し、且つフォント分類モデルによってフォント生成モデルの第2特徴ロスを算出し、これにより、第1特徴ロス及び/又は第2特徴ロスによりターゲット特徴ロスを確定する。最終的に、文字ロス及びターゲット特徴ロスによりフォント生成モデルにおける第1生成モデルのモデルパラメータを更新し、フォント生成モデルをトレーニングすることを監督し続ける。好ましくは、文字ロス及びターゲット特徴ロスによりフォント生成モデルにおける第1生成モデルのモデルパラメータを更新することは、文字ロスとターゲット特徴ロスとの総和によりフォント生成モデルにおける第1生成モデルのモデルパラメータを更新することであってもよい。
なお、図2は1つの実現形態の示意図のみであり、ステップS250とステップS260~S280との間は、実行される早い順がなく、ステップS250を実行してから、ステップS260~S280を実行してもよい。ステップS260~S280を実行してから、ステップS250を実行してもよい。或いは、同時に上記操作を実行してもよい。そのうち、S260とS270との間も実行される早い順がない。
図3及び図4は本開示の実施例に係るフォント生成モデルのネットワーク構造原理図である。1つの具体的な例において、図3及び図4に示すように、本開示の実施例において、フォント生成モデルは第1生成モデル、第2生成モデル、第1判別モデル及び第2判別モデルを含んでもよい。第1生成モデルはソースドメインフォントスタイルの画像をターゲットドメインフォントスタイルの画像に変換することに用いられ、第2生成モデルはターゲットドメインフォントスタイルの画像をソースドメインフォントスタイルの画像に変換することに用いられる。第1判別モデルは変換後の画像がソースドメインフォントスタイルの画像に属するか否かを判別することに用いられ、第2判別モデルは変換後の画像がターゲットドメインフォントスタイルの画像に属するか否かを判別することに用いられる。
上記フォント生成モデルの構造に基づいて、フォント生成モデルは2つの循環動作過程を含んでもよい。図3に示されたフォント生成モデルの第1の循環動作過程は、ソースドメインサンプル字を第1生成モデルに入力し、第1ターゲットドメイン生成字を得て、第1ターゲットドメイン生成字を第2生成モデルに入力し、第1ソースドメイン生成字を得ることである。図4に示されたフォント生成モデルの第2の循環動作過程は、ターゲットドメインサンプル字を第2生成モデルに入力し、第2ソースドメイン生成字を得て、第2ソースドメイン生成字を第1生成モデルに入力し、第2ターゲットドメイン生成字を得ることである。それで、フォント生成モデルのサンプルはペアリングされない画像であってもよく、トレーニングデータ間の1対1のマッピングを作成する必要がない。
本開示の実施例において、フォント生成モデルのロスは生成ロス及び判別ロスを含む。以下、ユーザの手書き字をターゲットドメインフォントスタイルとすることを例とし、フォント生成モデルの生成ロス及び判別ロスの計算方式を具体的に説明する。
図3に示すように、フォント生成モデルの第1の循環動作過程は、ソースドメインサンプル字(例えば、楷書体の字を含む画像、単に楷書体の字の画像という)を第1生成モデルに入力し、第1ターゲットドメイン生成字を得る(例えば、手書き字を含む画像、単に手書き字の画像という)ことである。第1ターゲットドメイン生成字(手書き字の画像)を第2生成モデルに入力し、第1ソースドメイン生成字(楷書体のワードの画像)を得る。
第1の循環動作過程において、ソースドメインサンプル字はリアルな楷書体のワードの画像であるが、第1ソースドメイン生成字はモデルが生成した楷書体の字の画像であり、偽の楷書体のワードの画像といってもよい。第1ターゲットドメイン生成字はモデルが生成した手書き字の画像であり、偽の手書き字の画像といってもよい。トレーニング過程において、ソースドメインサンプル字を真Real(例えば、値が1である)とマークし、第1ターゲットドメイン生成字を偽Fake(例えば、値が0である)とマークすることができる。
ソースドメインサンプル字を第1判別モデルに入力し、第1判別モデルにとって、期待出力は1とすべきである。第1判別モデルの実際の出力はXであり、平均二乗誤差によって第1判別モデルのロスを算出すると、第1判別モデルの一部のロスは(X-1)として表されてもよい。
第1ターゲットドメイン生成字を第2判別モデルに入力し、第2判別モデルにとって、期待出力は0とすべきである。第2判別モデルの実際の出力はY*(区別しやすいために、*付きパラメータによって該パラメータがモデルが生成した画像に関連することを表し、*付かないパラメータによって該パラメータがリアルな画像に関連することを表す)であり、平均二乗誤差によって第2判別モデルのロスを算出すると、第2判別モデルの一部のロスは(Y-0)として表されてもよい。
第1ターゲットドメイン生成字を第2判別モデルに入力し、第1生成モデルにとって、第2判別モデルの出力は1であることを期待する。第2判別モデルの実際の出力はY*であり、平均二乗誤差によって第1生成モデルのロスを算出すると、第1生成モデルの一部のロスは(Y-1)として表されてもよく、該ロスは第1生成モデルの敵対的ロスであってもよい。
ソースドメインサンプル字を第1生成モデルに入力して得られた第1ソースドメイン生成字は単にスタイルが変換され、内容が変更されないことを保証するために、第1生成モデルに対して1つのcycle-consistency loss(循環一致性ロス)を増えることができる。該ロスはソースドメインサンプル字と第1ソースドメイン生成字との間の差異により算出して得られることができる。例えば、ソースドメインサンプル字と第1ソースドメイン生成字という2枚の画像の各対応する画素点の画素値を差異し、絶対値を求めて、各画素点の差異を得て、全ての画素点の差異を加算して、第1生成モデルの循環一致性ロスを得て、L1A2Bと表記することができる。
それで、第1生成モデルの一部のロスは(Y-1)であり、もう一部のロスはL1A2Bであり、この2つの部分のロスの和を第1生成モデルの全体のロスLA2Bとし、第1生成モデルの全体のロスLA2Bは、以下のような式(1)で表されることができる。
A2B=(Y-1)+L1A2B (1)
図4に示すように、フォント生成モデルの第2の循環動作過程は、ターゲットドメインサンプル字(例えば、手書き字を含む画像、単に手書き字の画像という)を第2生成モデルに入力し、第2ソースドメイン生成字(例えば、楷書体のワードを含む画像、単に楷書体の字の画像という)を得ることである。第2ソースドメイン生成字(楷書体の字の画像)を第1生成モデルに入力し、第2ターゲットドメイン生成字(手書き字の画像)を得る。
第2の循環動作過程において、ターゲットドメインサンプル字はリアルな手書き字の画像であり、第2ターゲットドメイン生成字はモデルが生成した手書き字の画像であり、偽の手書き字の画像といってもよい。第2ソースドメイン生成字はモデルが生成した楷書体のワードの画像であり、偽の楷書体のワードの画像といってもよい。トレーニング過程において、ターゲットドメインサンプル字を真Real(例えば、値は1である)とマークし、第2ソースドメイン生成字を偽Fake(例えば、値は0である)とマークすることができる。
ターゲットドメインサンプル字を第2判別モデルに入力し、第2判別モデルにとって、期待出力は1とすべきである。第2判別モデルの実際の出力はYであり、平均二乗誤差によって第2判別モデルのロスを算出すると、第2判別モデルの一部のロスは(Y-1)として表されてもよい。
第2ソースドメイン生成字を第1判別モデルに入力し、第1判別モデルにとって、期待出力は0とすべきである。第1判別モデルの実際の出力はX*であり、平均二乗誤差によって第1判別モデルのロスを算出すると、第1判別モデルの一部のロスは(X-0)として表されてもよい。
第2ソースドメイン生成字を第1判別モデルに入力し、第2生成モデルにとって、第1判別モデルの出力は1であることを期待する。第1判別モデルの実際の出力はX*であり、平均二乗誤差によって第2生成モデルのロスを算出すると、第2生成モデルの一部のロスは(X-1)として表されてもよい。
ターゲットドメインサンプル字を第2生成モデルに入力して得られた第2ターゲットドメイン生成字は単にスタイルが変換され、内容が変更されないことを保証するために、第2生成モデルに対して1つのcycle-consistency loss(循環一致性ロス)を増えることができる。該ロスはターゲットドメインサンプル字と第2ターゲットドメイン生成字との間の差異により算出して得られることができる。例えば、ターゲットドメインサンプル字と第2ターゲットドメイン生成字という2枚の画像の各対応する画素点の画素値を差異し、絶対値を求めて、各画素点の差異を得て、全ての画素点の差異を加算して、第2生成モデルの循環一致性ロスを得て、L1B2Aと表記することができる。
それで、第2生成モデルの一部のロスは(X-1)であり、もう一部のロスはL1B2Aであり、この2つの部分のロスの和を第2生成モデルの全体のロスLB2Aとし、第2生成モデルの全体のロスLB2Aは、以下のような式(2)で表されることができる。
B2A=(X-1)+L1B2A (2)
第1生成モデルの全体のロスLA2Bと第2生成モデルの全体のロスLB2Aとの和をフォント生成モデルの生成ロスとし、生成ロスは、以下のような式(3)で表されることができる。
=(Y-1)+L1A2B+(X-1)+L1B2A (3)
そのうち、Lはフォント生成モデルの生成ロスを表し、第1生成モデル及び第2生成モデルのモデルパラメータを調整することに用いられることができる。
フォント生成モデルの判別ロスは第1判別モデルの判別ロス及び第2判別モデルの判別ロスを含む。
図3から第1判別モデルの一部のロスが(X-1)であると算出し、図4から第1判別モデルのもう一部のロスが(X-0)であると算出し、この2つの部分のロスの和を第1判別モデルの判別ロスとし、第1判別モデルの判別ロスLは、以下のような式(4)で表されることができる。
=(X-1)+(X-0) (4)
第1判別モデルの判別ロスLは第1判別モデルのモデルパラメータを調整することに用いられることができる。
類似的に、図3から第2判別モデルの一部のロスが(Y-0)であると算出し、図4から第2判別モデルのもう一部のロスが(Y-1)あると算出し、この2つの部分のロスの和を第2判別モデルの判別ロスとし、第2判別モデルの判別ロスLは、以下のような式(5)で表されることができる。
=(Y-1)+(Y-0) (5)
第2判別モデルの判別ロスLは第2判別モデルのモデルパラメータを調整することに用いられることができる。
上記技術態様は、フォント生成モデルの生成ロスを利用して第1生成モデルのモデルパラメータを更新することにより、フォント生成モデルの自身構造に応じてフォント生成モデルが最適化されることを実現でき、フォント生成モデルのフォント特徴を学習する能力を向上させる。
図5は本開示の実施例に係る第1特徴ロスの可視化効果模式図である。1つの具体的な例において、図5の(1)であるサブ図に示すように、ターゲットドメインサンプル字501はリアルな手書き字の「神」を含む画像であり、即ち、ターゲットドメインサンプル字501における「神」というワードはユーザのリアルな手書き字である。第1ターゲットドメイン生成字502はフォント生成モデルが生成した手書き字の「神」を含む画像であり、ターゲットドメインサンプル字501及び第1ターゲットドメイン生成字502の大きさはいずれも256×256である。ターゲットドメインサンプル字501及び第1ターゲットドメイン生成字502が文字分類モデルに入力され、文字分類モデルの第1ターゲット特徴層においてそれぞれ第1サンプル字特徴マップ及び第1生成字特徴マップを出力し、第1サンプル字特徴マップ及び第1生成字特徴マップの大きさはいずれも64×64であり、この2枚の64×64の画像に対して画素差異計算を行った後に、該2枚の画像の間の差異を表す熱力効果図503を得る。熱力効果図503も64×64の画像であり、熱力効果図503における色が濃いところほどターゲットドメインサンプル字501と第1ターゲットドメイン生成字502との間の差異が大きいことを表し、フォント生成モデルに熱力効果図503における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。
類似的に、図5の(2)であるサブ図に示すように、ターゲットドメインサンプル字501及び第1ターゲットドメイン生成字502が文字分類モデルに入力され、文字分類モデルの第2ターゲット特徴層においてそれぞれ第1サンプル字特徴マップ及び第1生成字特徴マップを出力し、第1サンプル字特徴マップ及び第1生成字特徴マップの大きさはいずれも32×32であり、この2枚の32×32の画像に対して画素差異計算を行った後に、該2枚の画像の間の差異を表す熱力効果図504を得る。熱力効果図504も32×32の画像であり、熱力効果図504における色が濃いところほどターゲットドメインサンプル字501と第1ターゲットドメイン生成字502との間の差異が大きいことを表し、フォント生成モデルに熱力効果図504における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。
熱力効果図503及び熱力効果図504を結び付けて、共同でフォント生成モデルにターゲットドメインサンプル字501と第1ターゲットドメイン生成字502との間の差異が大きい特徴を学習させることで、フォント生成モデルのフォント特徴を学習する能力を向上させるということを理解することができる。
図6は本開示の実施例に係る第2特徴ロスの可視化効果模式図である。1つの具体的な例において、図6の(1)であるサブ図に示すように、ターゲットドメインサンプル字601はリアルな手書き字の「留」を含む画像であり、即ち、ターゲットドメインサンプル字601における「留」という字はユーザのリアルな手書き字である。第1ターゲットドメイン生成字602はフォント生成モデルが生成した手書き字の「留」を含む画像であり、ターゲットドメインサンプル字601及び第1ターゲットドメイン生成字602の大きさはいずれも256×256である。ターゲットドメインサンプル字601及び第1ターゲットドメイン生成字602がフォント分類モデルに入力され、フォント分類モデルの第1ターゲット特徴層においてそれぞれ第2サンプル字特徴マップ及び第2生成字特徴マップを出力し、第2サンプル字特徴マップ及び第2生成字特徴マップの大きさはいずれも64×64であり、この2枚の64×64の画像に対して画素差異計算を行った後に、該2枚の画像の間の差異を表す熱力効果図603を得る。熱力効果図603も64×64の画像であり、熱力効果図603における色が濃いところほどターゲットドメインサンプル字601と第1ターゲットドメイン生成字602との間の差異が大きいことを表し、フォント生成モデルに熱力効果図603における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。
類似的に、図6の(2)であるサブ図に示すように、ターゲットドメインサンプル字601及び第1ターゲットドメイン生成字602がフォント分類モデルに入力され、フォント分類モデルの第2ターゲット特徴層においてそれぞれ第2サンプル字特徴マップ及び第2生成字特徴マップを出力し、第2サンプル字特徴マップ及び第2生成字特徴マップの大きさはいずれも32×32であり、この2枚の32×32の画像に対して画素差異計算を行った後に、該2枚の画像の間の差異を表す熱力効果図604を得る。熱力効果図604も32×32の画像であり、熱力効果図604における色が濃いところほどターゲットドメインサンプル字601と第1ターゲットドメイン生成字602との間の差異が大きいことを表し、フォント生成モデルに熱力効果図604における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。
図7は本開示の実施例に係る第2特徴ロスの可視化効果模式図である。もう1つの具体的な例において、図7の(1)であるサブ図に示すように、ターゲットドメインサンプル字701はリアルな手書き字の「視」を含む画像であり、即ち、ターゲットドメインサンプル字701における「視」という字はユーザのリアルな手書き字である。第1ターゲットドメイン生成字702はフォント生成モデルが生成した手書き字の「視」を含む画像であり、ターゲットドメインサンプル字701及び第1ターゲットドメイン生成字702の大きさはいずれも256×256である。ターゲットドメインサンプル字701及び第1ターゲットドメイン生成字702がフォント分類モデルに入力され、フォント分類モデルの第1ターゲット特徴層においてそれぞれ第2サンプル字特徴マップ及び第2生成字特徴マップを出力し、第2サンプル字特徴マップ及び第2生成字特徴マップの大きさはいずれも64×64であり、この2枚の64×64の画像に対して画素差異計算を行った後に、該2枚の画像の間の差異を表す熱力効果図703を得る。熱力効果図703も64×64の画像であり、熱力効果図703における色が濃いところほどターゲットドメインサンプル字701と第1ターゲットドメイン生成字702との間の差異が大きいことを表し、フォント生成モデルに熱力効果図703における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。
類似的に、図7の(2)であるサブ図に示すように、ターゲットドメインサンプル字701及び第1ターゲットドメイン生成字702がフォント分類モデルに入力され、フォント分類モデルの第2ターゲット特徴層においてそれぞれ第2サンプル字特徴マップ及び第2生成字特徴マップを出力し、第2サンプル字特徴マップ及び第2生成字特徴マップの大きさはいずれも32×32であり、この2枚の32×32の画像に対して画素差異計算を行った後に、該2枚の画像の間の差異を表す熱力効果図704を得る。熱力効果図704も32×32の画像であり、熱力効果図704における色が濃いところほどターゲットドメインサンプル字701和と第1ターゲットドメイン生成字702との間の差異が大きいことを表し、フォント生成モデルに熱力効果図704における色が濃い箇所の特徴を学習することをより集中させ、フォント生成モデルのフォント特徴を学習する能力を向上させる。
熱力効果図603及び熱力効果図604を結び付けて、共同でフォント生成モデルにターゲットドメインサンプル字601と第1ターゲットドメイン生成字602との間の差異が大きい特徴を学習させることで、フォント生成モデルのフォント特徴を学習する能力を向上させる。同様に、熱力効果図703及び熱力効果図704を結び付けて、共同でフォント生成モデルにターゲットドメインサンプル字701と第1ターゲットドメイン生成字702との間の差異が大きい特徴を学習させることで、フォント生成モデルのフォント特徴を学習する能力を向上させるということを理解することができる。
図8に示すように、フォント生成モデルに対する完全なトレーニング過程は下記操作を含むことができる。まず、ソースドメインサンプル字をフォント生成モデルの第1生成モデルに入力し、第1ターゲットドメイン生成字及び第1ソースドメイン生成字を得て、ターゲットドメインサンプル字をフォント生成モデルの第2生成モデルに入力し、第2ターゲットドメイン生成字及び第2ソースドメイン生成字を得る。さらに、ソースドメインサンプル字、第1ターゲットドメイン生成字、第1ソースドメイン生成字、ターゲットドメインサンプル字、第2ターゲットドメイン生成字及び第2ソースドメイン生成字により、フォント生成モデルの生成ロスを算出し、生成ロスにより第1生成モデルのモデルパラメータを更新し、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルの第1回のトレーニングが完了した後に、第1ターゲットドメイン生成字を予めトレーニングされた文字分類モデルに入力し、フォント生成モデルの文字ロスを得て、第1ターゲットドメイン生成字及びターゲットドメインサンプル字を文字分類モデルに入力し、フォント生成モデルの第1特徴ロスを得る。同様に、第1ターゲットドメイン生成字及びターゲットドメインサンプル字をフォント分類モデルに入力し、フォント生成モデルの第2特徴ロスを得る。さらに、第1特徴ロス及び/又は第2特徴ロスによりターゲット特徴ロスを確定でき、上記算出して得られた文字ロス及びターゲット特徴ロスにより第1生成モデルのモデルパラメータを更新し、再びフォント生成モデルに対するトレーニングを実現する。なお、文字ロス及びターゲット特徴ロスによりフォント生成モデルに対してトレーニングする過程は同期に行われてもよいし、早い順で実行されてもよく、本開示の実施例はこれに対して制限することはない。
上記技術態様は、文字ロス及びターゲット特徴ロスで第1生成モデルのモデルパラメータを更新することにより、フォント生成モデルに対するトレーニングを監督することを実現し、フォント生成モデルの誤字を生成する確率を低下させ、フォント生成モデルのフォントを生成する確度及びフォント特徴を学習する能力を向上させることができる。
図9は本開示の実施例に係る文字ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。1つの具体的な例において、図9に示すように、(1)である画像は文字ロスによりフォント生成モデルを拘束せずに生成された手書き字の「伶」を含む画像である。(2)である画像は文字ロスによりフォント生成モデルを拘束して生成された手書き字の「伶」を含む画像である。(1)である画像における「伶」という字は正確な「伶」という字に比べて1つの点を少なく、(2)である画像における「伶」という字は正確な「伶」という字である。従って、文字ロスによりフォント生成モデルを拘束すれば、正確な字を学習することができ、誤字率を低下させ、モデルの確度を向上させることができる。
図10は本開示の実施例に係る第1特徴ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。1つの具体的な例において、図10に示すように、(1)である画像はリアルな手書き字の
(外1)
Figure 0007282932000014
を含む画像であり、即ち、(1)である画像の
(外2)
Figure 0007282932000015
という字はユーザのリアルな手書き字である。(2)である画像は第1特徴ロスによりフォント生成モデルを拘束せずに生成された手書き字の
(外3)
Figure 0007282932000016
を含む画像である。(3)である画像は第1特徴ロスによりフォント生成モデルを拘束して生成された手書き字の
(外4)
Figure 0007282932000017
を含む画像である。(2)である画像における
(外5)
Figure 0007282932000018
という字に比べて、(3)であり画像にける
(外6)
Figure 0007282932000019
という字はリアルなユーザが手書いた
(外7)
Figure 0007282932000020
という字(即ち、(1)である画像における
(外8)
Figure 0007282932000021
という字)のより多い特徴を学習し、リアルなユーザが手書いた
(外9)
Figure 0007282932000022
という字により類似する。
図11は本開示の実施例に係る第2特徴ロスでトレーニングして得られたフォント生成モデルの効果の対比模式図である。1つの具体的な例において、図11に示すように、(1)である画像はリアルな手書き字の「做」を含む画像であり、即ち、(1)である画像の「做」というワードはユーザのリアルな手書き字である。(2)である画像は第2特徴ロスによりフォント生成モデルを拘束せずに生成された手書き字の「做」を含む画像である。(3)である画像は第2特徴ロスによりフォント生成モデルを拘束して生成された手書き字の「做」を含む画像である。(2)である画像における「做」という字に比べて、(3)である画像における「做」という字はリアルなユーザが手書いた「做」という字(即ち、(1)である画像における「做」という字)のより多い特徴を学習し、リアルなユーザが手書いた「做」という字により類似する。
上記技術態様は、生成ロス、文字ロス及びターゲット特徴ロスなどの複数種類のロスタイプを利用してフォント生成モデルをトレーニングし、フォント生成モデルのフォント特徴を学習する能力を向上させ、誤字生成率を低下させ、フォント生成モデルのフォントを生成する見栄え及び確度を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。
本開示の技術態様において、ユーザの個人情報(例えばユーザのフォント情報など)の収集、記憶、使用、加工、伝送、提供及び公開などに関する処理は、いずれも関連する法律や法律的規則の規定に適合し、且つ公序良俗に反するものではない。
なお、以上の各実施例における各技術的特徴の間の任意の組み合わせも本開示の保護範囲に属する。
一例において、図12は本開示の実施例に係る字庫作成方法のフロー図である。本開示の実施例は、複数タイプの特徴によりトレーニングして最適化されたフォント生成モデルを利用して字庫を作成する場合に適用されることができ、該方法は字庫作成装置により実行されてもよいし、該装置はソフトウェア及び/又はハードウェアの形態で実現されてもよく、一般的な電子機器に集積されることができる。該電子機器は端末機器又はサーバ機器などであってもよく、本開示の実施例は字庫作成方法を実行する電子機器のタイプを限定しない。相応的に、図12に示すように、該方法は以下のような操作を含む。
S1210において、ソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得る。
そのうち、ソースドメイン入力字はある1つのソースドメインフォントのある字であってもよく、ターゲットドメイン新字は生成する必要があるターゲットドメインフォントスタイルを有する新字であってもよい。例示的に、ソースドメイン入力字は楷書体の字の画像であってもよく、新字は手書き字の画像であってもよく、楷書体の字の画像をフォント生成モデルに入力し、手書き字の画像を得ることができる。フォント生成モデルは上記のいずれか1つの実施例に記載のフォント生成モデルトレーニング方法によりトレーニングして得られる。
S1220において、前記ターゲットドメイン新字に基づいて、字庫を作成する。
例示的に、フォント生成モデルが生成した新字を記憶し、手書きのフォントスタイルを有する字庫を作成し、該字庫が入力法に適用されることができ、ユーザは該字庫に基づく入力法を使用して直接に手書きのフォントスタイルを有する字を取得し、ユーザの多様化のニーズを満足し、ユーザの体験を向上させることができる。
一例において、図13は本開示の実施例に係るフォント生成モデルトレーニング装置の構造図である。本開示の実施例は、複数タイプの特徴ロスによりトレーニングしてフォント生成モデルを最適化させる場合に適用されることができ、該装置はソフトウェア及び/又はハードウェアにより実現され、具体的には、電子機器に配置される。該電子機器は端末機器又はサーバ機器などであってもよく、本開示の実施例はフォント生成モデルトレーニング方法を実行する電子機器のタイプを限定しない。
図13に示すようなフォント生成モデルトレーニング装置1300は、第1ターゲットドメイン生成字取得モジュール1310、第1特徴ロス取得モジュール1320、第2特徴ロス取得モジュール1330、ターゲット特徴ロス取得モジュール1340及び第1モデルパラメータ更新モジュール1350を含む。そのうち、
第1ターゲットドメイン生成字取得モジュール1310は、ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることに用いられ、
第1特徴ロス取得モジュール1320は、前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得ることに用いられ、
第2特徴ロス取得モジュール1330は、前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得ることに用いられ、
ターゲット特徴ロス取得モジュール1340は、前記第1特徴ロス及び/又は前記第2特徴ロスによりターゲット特徴ロスを確定することに用いられ、
第1モデルパラメータ更新モジュール1350は、前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することに用いられる。
本開示の実施例はソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることにより、第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字をそれぞれ文字分類モデル及びフォント分類モデルに入力し、フォント生成モデルの第1特徴ロス及び第2特徴ロスを得て、第1特徴ロス及び/又は第2特徴ロスに確定されたターゲット特徴ロスによりフォント生成モデルのモデルパラメータを更新することで、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルのトレーニングが完了した後に、ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得て、ターゲットドメイン新字に基づいて字庫を作成、これにより、従来のフォント生成モデルがフォントレベルのフォントを生成しにくいという問題を解決し、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。
好ましくは、そのうち、前記文字分類モデルは複数の特徴層を含み、第1特徴ロス取得モジュール1320は、具体的には、前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第1生成字特徴マップを得ることと、前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第1サンプル字特徴マップを得ることと、ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の差異を算出し、前記第1特徴ロスを得ることと、に用いられる。
好ましくは、第1特徴ロス取得モジュール1320は、具体的には、前記ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第1画素ロスを得ることと、前記ターゲット特徴層の第1画素ロスにより前記第1特徴ロスを算出することと、に用いられる。
好ましくは、第1特徴ロス取得モジュール1320は、具体的には、前記第1生成字特徴マップにおける各位置の画素点の画素値と前記第1サンプル字特徴マップの対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、複数の位置の画素点の差異により、前記第1生成字特徴マップと第1サンプル字特徴マップとの間の画素差異を確定することと、に用いられる。
好ましくは、そのうち、前記フォント分類モデルは複数の特徴層を含み、第2特徴ロス取得モジュール1330は、具体的には、前記第1ターゲットドメイン生成字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第2生成字特徴マップを得ることと、前記ターゲットドメインサンプル字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第2サンプル字特徴マップを得ることと、ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の差異を算出し、前記第2特徴ロスを得ることと、に用いられる。
好ましくは、第2特徴ロス取得モジュール1330は、具体的には、前記ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第2画素ロスを得ることと、前記ターゲット特徴層の第2画素ロスにより前記第2特徴ロスを算出することと、に用いられる。
好ましくは、第2特徴ロス取得モジュール1330は、具体的には、前記第2生成字特徴マップにおける各位置の画素点の画素値と前記第2サンプル字特徴マップの対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、複数の位置の画素点の差異により、前記第2生成字特徴マップと第2サンプル字特徴マップとの間の画素差異を確定することと、に用いられる。
好ましくは、前記フォント生成モデルは循環ネットワーク生成モデルであり、第1生成モデル及び第2生成モデルを含み、第1ターゲットドメイン生成字取得モジュール1310は、具体的には、前記ソースドメインサンプル字を前記第1生成モデルに入力し、前記第1ターゲットドメイン生成字及び第1ソースドメイン生成字を得ることに用いられ、フォント生成モデルトレーニング装置は、前記ターゲットドメインサンプル字を前記第2生成モデルに入力し、第2ターゲットドメイン生成字及び第2ソースドメイン生成字を得ることに用いられる第2ターゲットドメイン生成字取得モジュールと、前記ソースドメインサンプル字、前記第1ターゲットドメイン生成字、前記第1ソースドメイン生成字、前記ターゲットドメインサンプル字、前記第2ターゲットドメイン生成字及び前記第2ソースドメイン生成字により、前記フォント生成モデルの生成ロスを算出することに用いられる生成ロス計算モジュールと、前記生成ロスにより前記第1生成モデルのモデルパラメータを更新することに用いられる第2モデルパラメータ更新モジュールと、をさらに含む。
好ましくは、フォント生成モデルトレーニング装置は、前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記フォント生成モデルの文字ロスを算出することに用いられる文字ロス取得モジュールと、具体的に前記文字ロス及び前記ターゲット特徴ロスにより前記第1生成モデルのモデルパラメータを更新することに用いられる第1モデルパラメータ更新モジュール1350と、をさらに含む。
好ましくは、前記文字ロス取得モジュールは、具体的には、前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記第1ターゲットドメイン生成字の生成文字ベクトルを得ることと、前記生成文字ベクトルと予め設定された標準文字ベクトルとの間の差異により前記文字ロスを算出することと、に用いられる。
好ましくは、前記文字ロス取得モジュールは、具体的には、以下の式により前記文字ロスを算出することに用いられる。
Figure 0007282932000023
そのうち、LCは文字ロスを表し、
Figure 0007282932000024
は生成文字ベクトルにおける添え字がiの要素を表し、
Figure 0007282932000025
は標準文字ベクトルにおける添え字がiの要素を表し、iは0以上n以下の整数であり、nは前記生成文字ベクトル及び前記標準文字ベクトルにおける要素数を表す。
好ましくは、前記ソースドメインサンプル字はターゲットソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字はターゲットドメインフォントスタイルを有する画像である。
上記フォント生成モデルトレーニング装置は本開示の任意の実施例によるフォント生成モデルトレーニング方法を実行でき、実行方法に対応する機能モジュールと有益な効果を備える。本実施例において詳細に説明されない技術的詳細は、本開示の任意の実施例によるフォント生成モデルトレーニング方法を参照することができる。
一例において、図14は本開示の実施例に係る字庫作成装置の構造図である。本開示の実施例は複数タイプの特徴ロスによりトレーニングして最適化されたフォント生成モデルを利用して字庫を作成する場合に適用されることができ、該装置はソフトウェア及び/又はハードウェアにより実現され、具体的には、電子機器に配置される。該電子機器は端末機器又はサーバ機器などであってもよい。
図14に示すような字庫作成装置1400は、ターゲットドメイン新字取得モジュール1410及び字庫作成モジュール1420を含む。そのうち、
ターゲットドメイン新字取得モジュール1410は、ソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることに用いられ、
字庫作成モジュール1420は、前記ターゲットドメイン新字に基づいて、字庫を作成することに用いられ、
前記フォント生成モデルは本開示のいずれか1つの実施例に記載のフォント生成モデルトレーニング装置によりトレーニングして得られる。
本開示の実施例はフォント生成モデルが生成した新字を記憶し、手書きのフォントスタイルを有する字庫を作成し、該字庫が入力法に適用されることができ、ユーザは該字庫に基づく入力法を使用して直接に手書きのフォントスタイルを有するワードを取得し、ユーザの多様化のニーズを満足し、ユーザの体験を向上させることができる。
上記字庫作成装置は、本開示の任意の実施例による字庫作成方法を実行でき、実行方法に対応する機能モジュールと有益な効果を備える。本実施例において詳細に説明されない技術的詳細は、本開示の任意の実施例による字庫作成方法を参照することができる。
一例において、本開示は、電子機器、可読記憶媒体及びコンピュータプログラム製品をさらに提供する。
図15は、本開示の実施例を実施することができる例示的な電子機器1500の概略ブロック図を示した。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、作業台、パーソナルデジタルアシスタント(Personal Digital Assistant)、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを意図する。電子機器も、パーソナルディジタル処理、携帯電話、スマートフォン、ウェアラブル機器及び他の類似する計算装置などの様々な形式の移動装置を表すことができる。本明細書に示された構成要素、それらの接続及び関係、及びそれらの機能は、例示とすることに過ぎず、本明細書に説明された及び/又は要求された本開示の実現を限定するものではない。
図15に示すように、機器1500は、読み取り専用メモリ(ROM)1502に記憶されたコンピュータプログラム又は記憶ユニット1508からランダムアクセスメモリ(RAM)1503にロードされたコンピュータプログラムにより、様々な適切な動作及び処理を実行することができる計算ユニットを含む。RAM1503において、機器1500の操作に必要な各種プログラム及びデータも記憶することができる。計算ユニット、ROM1502及びRAM1503は、バス1504を介して相互に接続されている。入力/出力(I/O)インターフェース1505もバス1504に接続されている。
キーボード、マウスなどの入力ユニット1506と、各種のディスプレイ、スピーカなどの出力ユニット1507と、磁気ディスク、光学ディスクなどの記憶ユニット1508と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1509とを含む機器1500内の複数の構成要素は、I/Oインターフェース1505に接続されている。通信ユニット1509は、機器1500がインターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の機器と情報/データを交換することを許可する。
計算ユニットは、処理及び計算能力を有する様々な汎用及び/又は特定用途向け処理コンポーネントであってもよい。計算ユニットのいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な特定用途向け人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニットは、フォント生成モデルトレーニング方法又は字庫作成方法などの上述した様々な方法及び処理を実行する。例えば、いくつかの実施例では、フォント生成モデルトレーニング方法又は字庫作成方法は、記憶ユニット1508などの機械可読媒体に有形に含まれているコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM1502及び/又は通信ユニット1509を介して機器1500にロード及び/又はインストールすることができる。コンピュータプログラムがRAM1503にロードされ、計算ユニットによって実行されると、上述したフォント生成モデルトレーニング方法又は字庫作成方法の1つ又は複数のステップを実行することができる。代替的に、他の実施例において、計算ユニットは、他の任意の適切な形態によって(例えば、ファームウェアによって)フォント生成モデルトレーニング方法又は字庫作成方法を実行するように構成することができる。
本明細書において、上記したシステム及び技術の各種実施形態は、デジタル電子回路システム、集積回路システム、ドメインプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせによって実現されることができる。これらの各種実施形態は次のような方法を含んでもよい。少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈されることができる1つ又は複数のコンピュータプログラムで実施され、該プログラマブルプロセッサは、特定用途向け又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び指令を受信し、データ及び指令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができる。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成することができる。これらのプログラムコードは、汎用コンピュータ、特定用途向けコンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、これにより、プログラムコードがプロセッサ又はコントローラにより実行される時に、フロー図及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、全部でマシン上で、部分的にマシン上で、スタンドアロンソフトウェアパッケージとして部分的にマシン上で、且つ部分的にリモートマシン上、又は全部でリモートマシン又はサーバ上で実行することができる。
本開示のコンテキストにおいて、機械可読媒体は、指令実行システム、装置又は機器によって使用される又は指令実行システム、装置、又は機器と合わせて使用されるプログラムを含む又は記憶することができる有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、又は半導体のシステム、装置、又は機器、或いはこれらの任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的に接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶機器、磁気記憶機器、又はこれらの任意の適切な組み合わせを含んでもよい。
ユーザとの対話を提供するために、コンピュータ上にここで説明されたシステム及び技術を実施でき、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニター)と、キーボード及びポインティングデバイス(例えば、マウスやトラックボールなど)とを有し、ユーザは該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置も、ユーザとの対話を提供することに用いられることができ、例えば、ユーザに提供されたフィードバックは、いかなる形式の感覚フィードバック(例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、いかなる形式(音響入力、音声入力又は触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術を、バックグラウンド部材を含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェア部材を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部材を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェイス又はウェブブラウザーを有するユーザコンピュータ、ユーザは該グラフィカルユーザインターフェイス又は該ウェブブラウザーを介してここで説明されたシステム及び技術の実施形態と対話できる)、又はこのようなバックグラウンド部材、ミドルウェア部材、又はフロントエンド部材を含む任意の組み合わせのコンピューティングシステムで実施されることができる。システムの部材は、いかなる形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して互いに接続できる。通信ネットワークの例として、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、ブロックチェーンネットワーク及びインターネットを含む。
コンピューティングシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは、一般に、互いに離れていて、且つ通常には通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータ上で実行されるとともに互いにクライアント-サーバ関係を有するコンピュータプログラムによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのうちの一つのホスト製品であり、これにより、従来の物理ホストとVPSサービスに存在している管理の難度が大きく、サービスの拡張性が弱いという欠陥を解決する。サーバも分散システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。
本開示の実施例はソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることにより、第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字をそれぞれ文字分類モデル及びフォント分類モデルに入力し、フォント生成モデルの第1特徴ロス及び第2特徴ロスを得て、第1特徴ロス及び/又は第2特徴ロスに確定されたターゲット特徴ロスによりフォント生成モデルのモデルパラメータを更新し、これにより、フォント生成モデルに対するトレーニングを実現する。フォント生成モデルのトレーニングが完了した後に、ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得て、ターゲットドメイン新字に基づいて字庫を作成することにより、従来のフォント生成モデルがフォントレベルのフォントを生成しにくいという問題を解決し、フォント生成モデルのフォント特徴を学習する能力を向上させ、フォント生成モデルのフォントレベルフォントを生成する能力をさらに向上させることができる。
上記に示した様々な形式のフローを使用して、ステップを並び替え、増加又は削除してもよい。例えば、本開示に公開された技術態様の望ましい結果が実現される限り、本開示に記載の各ステップを同時に実行しても、順序に実行しても、異なる順序で実行してもよく、本明細書においてこれを制限しないことを理解すべきである。
上記の具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者は、設計要件及び他の要因に従って、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができることを理解すべきである。本開示の精神及び原理の範囲内で行われるあらゆる修正、同価置換、改良などは、いずれも本開示の保護範囲に含まれるべきである。

Claims (17)

  1. ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることと、
    前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得ることと、
    前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得ることと、
    前記第1特徴ロス及び/又は前記第2特徴ロスによりターゲット特徴ロスを確定することと、
    前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することと、
    を含む、フォント生成モデルトレーニング方法。
  2. 前記文字分類モデルは複数の特徴層を含み、
    前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得ることは、
    前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第1生成字特徴マップを得ることと、
    前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの各特徴層が出力した第1サンプル字特徴マップを得ることと、
    ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の差異を算出し、前記第1特徴ロスを得ることと、
    を含む、請求項1に記載のフォント生成モデルトレーニング方法。
  3. ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の差異を算出することは、
    前記ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第1画素ロスを得ることと、
    前記ターゲット特徴層の第1画素ロスにより前記第1特徴ロスを算出することと、
    を含む、請求項2に記載のフォント生成モデルトレーニング方法。
  4. 前記ターゲット特徴層の第1生成字特徴マップと第1サンプル字特徴マップとの間の画素差異を算出することは、
    前記第1生成字特徴マップにおける各位置の画素点の画素値と前記第1サンプル字特徴マップの対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、
    複数の位置の画素点の差異により、前記第1生成字特徴マップと第1サンプル字特徴マップとの間の画素差異を確定することと、
    を含む、請求項3に記載のフォント生成モデルトレーニング方法。
  5. 前記フォント分類モデルは複数の特徴層を含み、
    前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得ることは、
    前記第1ターゲットドメイン生成字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第2生成字特徴マップを得ることと、
    前記ターゲットドメインサンプル字を前記フォント分類モデルに入力し、前記フォント分類モデルの各特徴層が出力した第2サンプル字特徴マップを得ることと、
    ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の差異を算出し、前記第2特徴ロスを得ることと、
    を含む、請求項1に記載のフォント生成モデルトレーニング方法。
  6. ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の差異を算出することは、
    前記ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の画素差異を算出し、前記ターゲット特徴層の第2画素ロスを得ることと、
    前記ターゲット特徴層の第2画素ロスにより前記第2特徴ロスを算出することと、
    を含む、請求項5に記載のフォント生成モデルトレーニング方法。
  7. 前記ターゲット特徴層の第2生成字特徴マップと第2サンプル字特徴マップとの間の画素差異を算出することは、
    前記第2生成字特徴マップにおける各位置の画素点の画素値と前記第2サンプル字特徴マップの対応する位置の画素点の画素値との間の差異値の絶対値を算出し、各位置の画素点の差異を得ることと、
    複数の位置の画素点の差異により、前記第2生成字特徴マップと第2サンプル字特徴マップとの間の画素差異を確定することと、
    を含む、請求項6に記載のフォント生成モデルトレーニング方法。
  8. 前記フォント生成モデルは循環ネットワーク生成モデルであり、第1生成モデル及び第2生成モデルを含み、
    ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることは、
    前記ソースドメインサンプル字を前記第1生成モデルに入力し、前記第1ターゲットドメイン生成字及び第1ソースドメイン生成字を得ることを含み、
    前記フォント生成モデルトレーニング方法は、
    前記ターゲットドメインサンプル字を前記第2生成モデルに入力し、第2ターゲットドメイン生成字及び第2ソースドメイン生成字を得ることと、
    前記ソースドメインサンプル字、前記第1ターゲットドメイン生成字、前記第1ソースドメイン生成字、前記ターゲットドメインサンプル字、前記第2ターゲットドメイン生成字及び前記第2ソースドメイン生成字により、前記フォント生成モデルの生成ロスを算出することと、
    前記生成ロスにより前記第1生成モデルのモデルパラメータを更新することと、
    をさらに含む、請求項1に記載のフォント生成モデルトレーニング方法。
  9. 前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記フォント生成モデルの文字ロスを算出することをさらに含み、
    前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することは、
    前記文字ロス及び前記ターゲット特徴ロスにより前記第1生成モデルのモデルパラメータを更新することを含む、
    請求項8に記載のフォント生成モデルトレーニング方法。
  10. 前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記フォント生成モデルの文字ロスを算出することは、
    前記第1ターゲットドメイン生成字を前記文字分類モデルに入力し、前記第1ターゲットドメイン生成字の生成文字ベクトルを得ることと、
    前記生成文字ベクトルと予め設定された標準文字ベクトルとの間の差異により、前記文字ロスを算出することと、
    を含む、請求項9に記載のフォント生成モデルトレーニング方法。
  11. 前記ソースドメインサンプル字はターゲットソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字はターゲットドメインフォントスタイルを有する画像である、
    請求項1~10のいずれか一項に記載のフォント生成モデルトレーニング方法。
  12. ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることと、
    前記ターゲットドメイン新字に基づいて、フォントを作成することと、を含み、
    前記フォント生成モデルは請求項1~10のいずれか一項に記載のフォント生成モデルトレーニング方法によりトレーニングして得られている、
    フォント作成方法。
  13. 請求項1~11のいずれか一項に記載のフォント生成モデルトレーニング方法を実行することに用いられるフォント生成モデルトレーニング装置であって、
    ソースドメインサンプル字をフォント生成モデルに入力し、第1ターゲットドメイン生成字を得ることに用いられる第1ターゲットドメイン生成字取得モジュールと、
    前記第1ターゲットドメイン生成字及び予め設定されたターゲットドメインサンプル字を文字分類モデルに入力し、前記フォント生成モデルの第1特徴ロスを得ることに用いられる第1特徴ロス取得モジュールと、
    前記第1ターゲットドメイン生成字及び前記ターゲットドメインサンプル字をフォント分類モデルに入力し、前記フォント生成モデルの第2特徴ロスを得ることに用いられる第2特徴ロス取得モジュールと、
    前記第1特徴ロス及び/又は前記第2特徴ロスによりターゲット特徴ロスを確定することに用いられるターゲット特徴ロス取得モジュールと、
    前記ターゲット特徴ロスにより前記フォント生成モデルのモデルパラメータを更新することに用いられる第1モデルパラメータ更新モジュールと、
    を含む、フォント生成モデルトレーニング装置。
  14. ターゲットソースドメイン入力字をフォント生成モデルに入力し、ターゲットドメイン新字を得ることに用いられるターゲットドメイン新字取得モジュールと、
    前記ターゲットドメイン新字に基づいて、フォントを作成することに用いられるフォント作成モジュールと、を含み、
    前記フォント生成モデルは、請求項13に記載のフォント生成モデルトレーニング装置によりトレーニングして得られる、
    フォント作成装置。
  15. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されたメモリと、を含み、
    前記メモリには前記少なくとも1つのプロセッサに実行可能である指令が記憶され、前記指令は前記少なくとも1つのプロセッサに実行されることにより、前記少なくとも1つのプロセッサが請求項1~11のいずれか一項に記載のフォント生成モデルトレーニング方法又は請求項12に記載のフォント作成方法を実行可能である、
    電子機器。
  16. コンピュータ指令が記憶された非一時的なコンピュータ可読記憶媒体であって、
    前記コンピュータ指令は、コンピュータに、請求項1~11のいずれか一項に記載のフォント生成モデルトレーニング方法又は請求項12に記載のフォント作成方法を実行させることに用いられている、
    非一時的なコンピュータ可読記憶媒体。
  17. プロセッサに実行されると、請求項1~11のいずれか一項に記載のフォント生成モデルトレーニング方法又は請求項12に記載のフォント作成方法を実現する、
    コンピュータプログラム。
JP2022007170A 2021-09-09 2022-01-20 フォント生成モデルトレーニング方法、字庫作成方法、装置及び機器 Active JP7282932B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111056559.2 2021-09-09
CN202111056559.2A CN113792851B (zh) 2021-09-09 2021-09-09 字体生成模型训练方法、字库建立方法、装置及设备

Publications (2)

Publication Number Publication Date
JP2023039887A JP2023039887A (ja) 2023-03-22
JP7282932B2 true JP7282932B2 (ja) 2023-05-29

Family

ID=78879800

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022007170A Active JP7282932B2 (ja) 2021-09-09 2022-01-20 フォント生成モデルトレーニング方法、字庫作成方法、装置及び機器

Country Status (5)

Country Link
US (1) US20220237935A1 (ja)
EP (1) EP4047560A1 (ja)
JP (1) JP7282932B2 (ja)
KR (1) KR20220034075A (ja)
CN (1) CN113792851B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11625932B2 (en) * 2020-08-31 2023-04-11 Adobe Inc. Organizing and representing a collection of fonts according to visual similarity utilizing machine learning
US11995906B2 (en) * 2022-03-02 2024-05-28 Capital One Services, Llc Techniques for generation of synthetic data with simulated handwriting
US11947896B2 (en) 2022-06-24 2024-04-02 Adobe Inc. Font recommendation
US11886809B1 (en) * 2022-10-31 2024-01-30 Adobe Inc. Identifying templates based on fonts
CN117472257B (zh) * 2023-12-28 2024-04-26 广东德远科技股份有限公司 一种基于ai算法的自动转正楷的方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021026191A (ja) 2019-08-08 2021-02-22 ブラザー工業株式会社 学習済みの機械学習モデル、画像データ生成装置、および、方法
CN113140018A (zh) 2021-04-30 2021-07-20 北京百度网讯科技有限公司 训练对抗网络模型的方法、建立字库的方法、装置和设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063720A (zh) * 2018-06-04 2018-12-21 平安科技(深圳)有限公司 手写字训练样本获取方法、装置、计算机设备及存储介质
CN108710866B (zh) * 2018-06-04 2024-02-20 平安科技(深圳)有限公司 汉字模型训练方法、汉字识别方法、装置、设备及介质
CN109165376B (zh) * 2018-06-28 2023-07-18 西交利物浦大学 基于少量样本的风格字符生成方法
CN109615671A (zh) * 2018-10-25 2019-04-12 北京中关村科金技术有限公司 一种字库样本自动生成方法、计算机装置及可读存储介质
CN111753493A (zh) * 2019-09-29 2020-10-09 西交利物浦大学 基于少量样本的内含多种归一化处理的风格字符生成方法
CN113095158A (zh) * 2021-03-23 2021-07-09 西安深信科创信息技术有限公司 一种基于对抗生成网络的笔迹生成方法及装置
CN113140017B (zh) * 2021-04-30 2023-09-15 北京百度网讯科技有限公司 训练对抗网络模型的方法、建立字库的方法、装置和设备
CN113313022B (zh) * 2021-05-27 2023-11-10 北京百度网讯科技有限公司 文字识别模型的训练方法和识别图像中文字的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021026191A (ja) 2019-08-08 2021-02-22 ブラザー工業株式会社 学習済みの機械学習モデル、画像データ生成装置、および、方法
CN113140018A (zh) 2021-04-30 2021-07-20 北京百度网讯科技有限公司 训练对抗网络模型的方法、建立字库的方法、装置和设备

Also Published As

Publication number Publication date
CN113792851A (zh) 2021-12-14
EP4047560A1 (en) 2022-08-24
KR20220034075A (ko) 2022-03-17
US20220237935A1 (en) 2022-07-28
CN113792851B (zh) 2023-07-25
JP2023039887A (ja) 2023-03-22

Similar Documents

Publication Publication Date Title
JP7282932B2 (ja) フォント生成モデルトレーニング方法、字庫作成方法、装置及び機器
JP7289942B2 (ja) フォント生成モデルトレーニング方法、フォントライブラリ作成方法、フォント生成モデルトレーニング装置、フォントライブラリ作成装置、電子機器、コンピュータ可読記憶媒体、及び、コンピュータプログラム
EP4050569A1 (en) Model training method and apparatus, font library establishment method and apparatus, device and storage medium
JP2022050666A (ja) サイクル生成ネットワークモデルのトレーニング方法、フォントライブラリの確立方法、装置、電子機器、記憶媒体およびコンピュータプログラム
US20220148239A1 (en) Model training method and apparatus, font library establishment method and apparatus, device and storage medium
JP7384943B2 (ja) 文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体
US20220270384A1 (en) Method for training adversarial network model, method for building character library, electronic device, and storage medium
CN113095421B (zh) 生成字体数据库的方法、神经网络模型的训练方法和装置
CN111539897A (zh) 用于生成图像转换模型的方法和装置
JP2023039890A (ja) 文字生成モデルのトレーニング方法、文字生成方法、装置および機器
JP2022166215A (ja) 文字位置決めモデルのトレーニング方法及び文字位置決め方法
CN117557708A (zh) 图像生成方法、装置、存储介质及计算机设备
US20230154077A1 (en) Training method for character generation model, character generation method, apparatus and storage medium
JP7419226B2 (ja) 画像変換方法及び装置、画像変換モデルのトレーニング方法及び装置
Sun et al. A mongolian handwritten word images generation approach based on generative adversarial networks
CN114973279B (zh) 手写文本图像生成模型的训练方法、装置和存储介质
CN117152282A (zh) 一种通过文本生成手部x光图像的方法及终端
Osorio et al. WiKA: A Vision Based Sign Language Recognition from Extracted Hand Joint Features using DeepLabCut

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230517

R150 Certificate of patent or registration of utility model

Ref document number: 7282932

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150