JP7384943B2 - 文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体 - Google Patents

文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体 Download PDF

Info

Publication number
JP7384943B2
JP7384943B2 JP2022007458A JP2022007458A JP7384943B2 JP 7384943 B2 JP7384943 B2 JP 7384943B2 JP 2022007458 A JP2022007458 A JP 2022007458A JP 2022007458 A JP2022007458 A JP 2022007458A JP 7384943 B2 JP7384943 B2 JP 7384943B2
Authority
JP
Japan
Prior art keywords
character
characters
target domain
feature
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022007458A
Other languages
English (en)
Other versions
JP2023039892A (ja
Inventor
唐礼承
劉家銘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023039892A publication Critical patent/JP2023039892A/ja
Application granted granted Critical
Publication of JP7384943B2 publication Critical patent/JP7384943B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19013Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1916Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/245Font recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Image Processing (AREA)
  • Controls And Circuits For Display Device (AREA)

Description

本開示は、人工知能の技術分野、具体的にコンピュータビジョン及びディープラーニングの技術分野に関し、特に文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体に関する。
画像処理は、巨大な社会的・経済的効果を持つ実用技術であり、様々な業種及び人々の日常生活に広く適用されている。
画像のスタイル遷移とは、1枚の画像の内容を不変のまま保持し、スタイルを当該画像から別の画像に遷移して1枚の新たなアート画像を形成するものである。
本開示は、文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体を提供している。
本開示の一態様によれば、
ソースドメインサンプル字及びターゲットドメインスタイル字を文字生成モデルに入力し、ターゲットドメイン生成字を取得することと、
前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出することと、
前記特徴ロスに基づいて前記文字生成モデルのパラメータを調整することと、を含む、
文字生成モデルのトレーニング方法を提供する。
本開示の他の態様によれば、
ソースドメイン入力字及び対応するターゲットドメイン入力字を取得することと、
前記ソースドメイン入力字及び前記ターゲットドメイン入力字を、本開示のいずれかの実施例に記載の方法によるトレーニングで得られた文字生成モデルに入力し、ターゲットドメイン新字を取得することと、を含む、
文字生成方法を提供する。
本開示の一態様によれば、
ソースドメインサンプル字及びターゲットドメインスタイル字を文字生成モデルに入力し、ターゲットドメイン生成字を取得するためのターゲットドメイン生成字取得モジュールと、
前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出するための特徴ロス計算モジュールと、
前記特徴ロスに基づいて前記文字生成モデルのパラメータを調整するための第1ロス調整モジュールと、を備える、
文字生成モデルのトレーニング装置を提供する。
本開示の他の態様によれば、
ソースドメイン入力字及び対応するターゲットドメイン入力字を取得するための入力字取得モジュールと、
前記ソースドメイン入力字及び前記ターゲットドメイン入力字を、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によって得られた文字生成モデルに入力し、ターゲットドメイン新字を取得するための文字生成モジュールと、を備える、
文字生成装置を提供する。
本開示の他の態様によれば、
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも1つのプロセッサが本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法、又は本開示のいずれかの実施例に記載の文字生成方法を実行可能であるように、前記少なくとも1つのプロセッサによって実行される、
電子機器を提供する。
本開示の他の態様によれば、
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法、又は本開示のいずれかの実施例に記載の文字生成方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体を提供する。
本開示の他の態様によれば、
プロセッサによって実行されると、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法を実現する、又は本開示のいずれかの実施例に記載の文字生成方法を実行させる、
コンピュータプログラムを提供する。
本開示の実施例は、文字生成モデルによって生成されるフォントの精確率を上げることができる。
この部分に説明された内容は、本開示の実施例の肝心又は重要な特徴を特定することを意図するものでもないし、本開示の範囲を限定することに用いられるものでもないことを理解すべきである。本開示の他の特徴は、以下の明細書によって理解しやすくなる。
図面は、本案をよく理解するために使用され、本開示を限定するものではない。
本開示の実施例に係る1つの文字生成モデルのトレーニング方法の模式図である。 本開示の実施例に係る文字生成モデルの模式図である。 本開示の実施例に係る他の文字生成モデルのトレーニング方法の模式図である。 本開示の実施例に係る1つの実施例の特徴ロスを使用して文字生成モデルを拘束する可視化レンダリングである。 本開示の実施例に係る他の実施例の特徴ロスを使用して文字生成モデルを拘束する可視化レンダリングである。 本開示の実施例に係る特徴ロスを使用して文字生成モデルを拘束することによる生成結果の効果比較図である。 本開示の実施例に係る文字生成モデルの生成字のレンダリングである。 本開示の実施例に係る他の文字生成モデルのトレーニング方法の模式図である。 本開示の実施例に係る1つの文字生成モデルのトレーニング方法のシーンの図である。 本開示の実施例に係る文字生成方法の模式図である。 本開示の実施例に係る文字生成モデルのトレーニング装置の模式図である。 本開示の実施例に係る文字生成装置の模式図である。 本開示の実施例の文字生成モデルのトレーニング方法又は文字生成方法を実現するための電子機器のブロック図である。
以下、図面を参照しながら、本開示の例示的な実施例について説明し、ここには理解するために、本開示の実施例の様々な詳細が含まれ、例示的なものに過ぎないとみなされるべきである。そのため、当業者であれば、本明細書に説明される実施例は、本開示の範囲及び精神から逸脱することなく、様々な変更及び修正が可能であることを認識すべきである。同様に、明確化及び簡明化のために、以下の説明で公知の機能及び構造に対する説明は省略する。
図1は、本開示の実施例により開示される1つの文字生成モデルのトレーニング方法のフローチャートであり、本実施例は文字生成モデルをトレーニングすることに適用可能であり、文字生成モデルが、ソースドメインスタイルの文字をターゲットドメインスタイルの文字に変換する場合に使用される。本実施例の方法は文字生成モデルのトレーニング装置によって実行可能であり、当該装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現されて、具体的に一定のデータ演算能力を有する電子機器に配置されることができ、当該電子機器は、クライアントデバイス又はサーバデバイスであってもよく、クライアントデバイスは、例えば携帯電話、タブレット、車載端末及びデスクトップパソコン等である。
S101において、ソースドメインサンプル字及びターゲットドメインスタイル字を文字生成モデルに入力し、ターゲットドメイン生成字を取得する。
ソースドメインサンプル字に基づいて、ソースドメインサンプル字に含まれる少なくとも1つのコンポーネントを決定し、各コンポーネントに基づいて、予め取得したターゲットドメインフォントスタイルの字で形成された集合において、少なくとも1つのコンポーネントを含む字をクエリし、ターゲットドメインスタイル字として決定することができる。
S102において、前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出する。
ターゲットドメインサンプル字はソースドメインサンプル字に対応する真値である。例えば、ターゲットドメイン生成字は、文字生成モデルによって生成された手書き文字「做」を含む画像であり、ターゲットドメインサンプル字は、実の手書き文字「做」字を含む画像であり、当該実の手書き文字「做」を含む画像が、ユーザが実に手書きした字で生成された画像であってもよい。また、上記において、ターゲットドメインスタイル字も同様に、ユーザが実に手書きした字で生成された画像である。なお、ターゲットドメインスタイル字及びターゲットドメインサンプル字、即ち、ユーザの手書きフォントスタイルの画像は、公共データ集合に基づくもの、又は、ユーザの認可によって取得されたユーザが実に手書きした字で生成された画像である。
文字分類モデルは、ターゲット生成字及びターゲットドメインサンプル字が誤字であるか否かを判別することに用いられる。文字分類モデルは、ResNet-18(Residual Network、残差ネットワーク)構造を採用するものであってもよく、そのうち、ResNet18構造のモデルが17個の畳込層及び1つの全結合層を含む。例えば、トレーニングサンプルは500個のフォントであり、1つのフォントごとに6763個の文字のデータ集合があり、実験によって、トレーニングが完了した文字分類モデルは、当該データ集合に対して97%の分類の精確率が得られる。
文字分類モデルは、複数の特徴層(例えば、90個の特徴層)を含んでもよく、ターゲットドメイン生成字を文字分類モデルに入力し、各層から出力される生成特徴図を取得することができる。ターゲットドメインサンプル字を文字分類モデルに入力し、各層から出力されるサンプル特徴図を取得することができる。
各特徴層から出力される生成特徴図とサンプル特徴図との間の差異に基づいて、当該層の特徴ロスを決定することができる。例示的に、複数の特徴層のうちの少なくとも1つのプリセット層(例えば、41層目及び42層目)の特徴ロスの和を全体の特徴ロスとして選出することができる。1つの具体的な例では、複数の特徴層の中間層(例えば、第45層)の特徴ロスを全体の特徴ロスとして選出することができる。
S103において、前記特徴ロスに基づいて前記文字生成モデルのパラメータを調整する。
特徴ロスに基づいて文字生成モデルのパラメータを調整し、更新された文字生成モデルを取得する。次の1つのソースドメインサンプル字に対して、対応するターゲットドメインスタイル字を決定し、更新された文字生成モデルを使用して、操作S101に戻り、トレーニングを繰り返し行い、予め設定されたトレーニング停止条件に到達すると、文字生成モデルのパラメータを調整することを停止し、トレーニングが完了した文字生成モデルを取得する。トレーニング停止条件は、特徴ロスの収束又は反復の回数が設定回数閾値以上となること等のものを含んでもよい。
本開示の技術案により、文字生成モデルを使用してソースドメインサンプル字及びターゲットドメインスタイル字に基づいてターゲットドメイン生成字を生成することで、多様なスタイルのフォントの生成を実現することができ、且つ、文字分類モデルを使用して特徴ロスを導入し、文字生成モデルにターゲットドメイン生成字とターゲットドメインサンプル字との間の差が比較的大きい特徴を学習させて、文字生成モデルがより多いフォントの詳細を学習して得ることで、文字生成モデルのフォント特徴を学習する能力を向上させ、文字生成モデルによって生成されたターゲットドメインフォントスタイルの字の精確率を上げることができる。
図2は、本開示の実施例に係る文字生成モデルの模式図である。図2に示すように、文字生成モデル204はスタイルエンコーダ205、コンテンツエンコーダ206及びデコーダ207を備える。スタイルエンコーダ205は、ターゲットドメインスタイル字202に対して符号化を行うために使用され、コンテンツエンコーダ206は、ソースドメインサンプル字201に対して符号化を行うために使用され、符号化によって得られた2つの結果を融合して、融合した結果をデコーダ207に入力し、ターゲットドメイン生成字203を取得する。ここで、ソースドメインサンプル字201に基づいてターゲットドメインスタイル字202を決定する。
図3は、本開示の実施例により開示される他の文字生成モデルのトレーニング方法のフローチャートであり、上記の技術案に基づいてさらに最適化及び展開されたものであり、且つ、上記の各好ましい実施形態と組み合わせられることが可能である。前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出することは、具体的に、前記ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの少なくとも1つの特徴層から出力される生成特徴図を取得することと、前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの前記少なくとも1つの特徴層から出力されるサンプル特徴図を取得することと、前記少なくとも1つの特徴層の生成特徴図とサンプル特徴図との間の差異に基づいて、前記文字生成モデルの特徴ロスを算出することと、に分けられる。
S301において、ソースドメインサンプル字及びターゲットドメインスタイル字を文字生成モデルに入力し、ターゲットドメイン生成字を取得する。
S302において、前記ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの少なくとも1つの特徴層から出力される生成特徴図を取得する。
生成特徴図は、ターゲットドメイン生成字を文字分類モデルの入力特徴図として、文字分類モデルにおける任意の特徴層から出力される特徴図である。文字分類モデルの各特徴層はいずれも、1つの特徴図を対応して出力することができる。ターゲットドメイン生成字は、文字生成モデルによって生成されたターゲットドメインフォントスタイルの字の画像であり、入力特徴図として文字分類モデルに入力される。文字分類モデルにおいて、第1特徴層は、ターゲットドメイン生成字に対して処理を行い、第1特徴層に対応する出力特徴図を取得し、第i特徴層(iが1よりも大きい)は、第i-1特徴層から出力される出力特徴図に対して処理を行い、第i特徴層に対応する出力特徴図を取得する。
S303において、前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの前記少なくとも1つの特徴層から出力されるサンプル特徴図を取得する。
サンプル特徴図は、ターゲットドメインサンプル字を文字分類モデルの入力特徴図として、文字分類モデルにおける任意の特徴層から出力される特徴図である。文字分類モデルの各特徴層はいずれも、1つの特徴図を対応して出力することができる。ターゲットドメインサンプル字は、実に手書きしたターゲットドメインフォントスタイルの字の画像であり、入力特徴図として文字分類モデルに入力される。文字分類モデルにおいて、第1特徴層は、ターゲットドメインサンプル字に対して処理を行い、第1特徴層に対応する出力特徴図を取得し、第i特徴層(iが1よりも大きい)は、第i-1特徴層から出力される出力特徴図に対して処理を行い、第i特徴層に対応する出力特徴図を取得する。
好ましくは、前記ソースドメインサンプル字は、ソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する画像である。
ソースドメインサンプル字は、ソースドメインフォントスタイルを有する字で生成された画像である。ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する字で生成された画像である。ソースドメインフォントスタイルはターゲットドメインフォントスタイルと異なる。例示的に、ソースドメインフォントスタイルは、印刷フォントであり、例えば、中国語文字フォントに対して、ソースドメインフォントスタイルは宋朝体、楷書体、ゴシック体又は隷書体等であり、ターゲットドメインフォントスタイルは、ユーザが実に手書きしたフォントスタイル等のアートフォントスタイルである。
ソースドメインサンプル字を、ソースドメインフォントスタイルを有する画像として配置して、ターゲットドメインサンプル字を、ターゲットドメインフォントスタイルを有する画像として配置することで、異なるフォントスタイルの変換を実現し、新たなスタイルのフォント数量を増やすことができる。
S304において、前記少なくとも1つの特徴層の生成特徴図とサンプル特徴図との間の差異に基づいて、前記文字生成モデルの特徴ロスを算出する。
文字分類モデルは、少なくとも1つの特徴層を含み、その中から少なくとも1つの特徴層を選択することができ、選択された任意の特徴層について、当該特徴層の生成特徴図と当該特徴層のサンプル特徴図との間の差異を算出することができる。当該差異は、生成特徴図とサンプル特徴図との間の異なる程度を説明して、モデルの生成字と実に手書きしたサンプル字との類似度を評価することに用いられる。当該差異に基づいて特徴ロスを算出すると、特徴の次元から、モデルの生成字と実に手書きしたサンプル字との間の異なる程度をより詳細的に説明することができる。
本開示の実施例により、特徴ロスは、サイクル生成ネットワークモデルから出力されるターゲットドメイン生成字とターゲットドメインサンプル字との類似度を拘束して、サイクル生成ネットワークモデルのスタイル遷移の精確率を上げることに使用可能である。
選択された特徴層は、ニーズに応じて設定可能であり、例えば、複数の特徴層の中央値となる特徴層の生成特徴図とサンプル特徴図との間の差異を選択し、前記文字生成モデルの特徴ロスを算出することができ、例えば、総数が90個である特徴層は、中央値のが第45特徴層及び第46特徴層である。選択された特徴層の数量は1つであると、特徴層の生成特徴図とサンプル特徴図との間の差異を直接に特徴ロスとしてもよく、選択された特徴層の数量が少なくとも2つであると、複数の特徴層の差異を数値演算し、特徴ロスを取得してもよく、そのうち、数値演算が和演算、積演算又は加重平均演算等であってもよい。
好ましくは、前記文字生成モデルの特徴ロスを算出することは、前記少なくとも1つの特徴層のうちの各特徴層について、前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を算出し、前記特徴層の画素ロスを取得して、前記少なくとも1つの特徴層の画素ロスに基づいて、前記文字生成モデルの特徴ロスを算出することを含む。
同一の特徴層から出力される特徴図のサイズは同じであり、特徴図を構成する画素に基づいて、画素差異を算出して、画素次元から画像の間の差異を、特徴層の画素ロスとして算出することができる。特徴層の画素ロスに基づいて、特徴ロスを算出することは、具体的に、特徴層の数量が1つであると、画素ロスを特徴ロスとして、特徴層の数量が少なくとも2つであると、画素ロスの和を、特徴ロスとして算出することであってもよい。
例示的に、各特徴層の画素ロスは、L1ノルムのロス関数に基づいて算出可能であり、即ち、実の字と生成字とにおける同じ位置の画素の間の絶対差の総和を算出する。
生成特徴図とサンプル特徴図との間の画素差異を生成特徴図とサンプル特徴図との間の差異として、画素ロスを算出して特徴ロスを決定することで、画素次元から特徴ロスを算出して特徴ロスの計算細粒度を制御し、画素詳細からモデルの生成字と実に手書きしたサンプル字との間の異なる程度を説明して、特徴ロスを算出して文字生成モデルのパラメータを調整して、文字生成モデルにより細かいサンプル字のフォントスタイルの詳細を学習させ、文字生成モデルの生成字の精確率を上げることができる。
好ましくは、当該特徴層の生成特徴図とサンプル特徴図との間の画素差異を算出することは、前記特徴層の生成特徴図における各位置の画素点について、前記画素点の画素値と前記サンプル特徴図における対応する位置の画素点の画素値との間の差の絶対値を算出し、各位置の画素点の差異を取得することと、複数の位置の画素点の差異に基づいて、前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を決定することと、を含む。
当該特徴層について、同じ位置の生成特徴図における画素点の画素値とサンプル特徴図における画素点の画素値との差の絶対値を、算出して当該位置の画素点の差異として決定する。生成特徴図及びサンプル特徴図は、サイズが同じであり、特徴図に含まれる画素数量が同じであり、つまり、特徴図に含まれる位置の数量が同じであり、複数の位置の画素点の差異の和を、当該特徴層の生成特徴図とサンプル特徴図との間の画素差異として決定する。複数の位置は、当該特徴層から出力される特徴図に含まれるすべての位置であってもよいし、選別された一部の位置であってもよい。
1つの具体的な例では、生成特徴図及びサンプル特徴図は、大きさがいずれも64*64であり、4096個の位置を含み、各位置に対して生成特徴図の画素点とサンプル特徴図の画素点との間の画素値の差の絶対値を算出し、4096個の差の絶対値を取得し、4096個の差の絶対値の和を統計し、当該特徴層の生成特徴図とサンプル特徴図との間の画素差異を取得する。なお、画素差異は実際に、L1ノルムのロス関数を採用して算出されたものであり、L1ノルムのロス関数の要素は、特徴図におけるi番目の位置の画素点の画素値である。
2つの特徴図の各位置における対応する画素点の間の画素値の差の絶対値を算出して、複数の位置の絶対値に基づいて、当該特徴層の画素差異を決定し、同じ位置の画素点の画素値をL1ノルムのロス関数の要素として、L1ノルムのロスを算出することで、文字生成モデルのロバスト性を向上させることができる。
S305において、前記特徴ロスに基づいて前記文字生成モデルのパラメータを調整する。
差異計算による特徴ロスに基づいて文字生成モデルのパラメータを調整することは、実に手書きしたサンプル字のより多いフォントの詳細を学習して得ることができる。例示的に、特徴ロスに基づいてパラメータを調整することは、L1ノルムのロス関数がモデルのパラメータを調整する方式を参照し、パラメータを、実の字と生成字との絶対差の総和が最小化されるまで調整することができる。
本開示の技術案により、文字分類モデルにおける少なくとも1つの特徴図の生成特徴図とサンプル特徴図との間の差異を算出して、特徴ロスを決定することで、特徴の次元から、モデルの生成字と実に手書きしたサンプル字との間の異なる程度をより詳細的に説明して、当該異なる程度で算出された特徴ロスに基づいて文字生成モデルのパラメータを調整することができ、これにより、文字生成モデルが実に手書きしたサンプル字のより多いフォントの詳細を学習して得て、最終的に、文字生成モデルの生成字を実に手書きしたサンプル字に、より類似させ、文字生成モデルの生成字の精確率を上げることができる。
図4は、本開示の実施例に係る1つの実施例の特徴ロスを使用して文字生成モデルを拘束する可視化レンダリングである。図4に示すように、ターゲットドメインサンプル字401は、実の、手書き文字「神」を含む画像であり、即ち、ターゲットドメインサンプル字401における「神」字は、ユーザの実に手書きした文字である。ターゲットドメイン生成字402は、文字生成モデルによって生成された手書き文字「神」を含む画像であり、ターゲットドメインサンプル字401及びターゲットドメイン生成字402は、大きさがいずれも256*256である。ターゲットドメインサンプル字404は、実の、手書き文字「褂」を含む画像であり、即ち、ターゲットドメインサンプル字404における「褂」字は、ユーザの実に手書きした文字である。ターゲットドメイン生成字405は文字生成モデルによって生成された手書き文字「褂」を含む画像であり、ターゲットドメインサンプル字401、ターゲットドメイン生成字402、ターゲットドメインサンプル字404及びターゲットドメイン生成字405は、大きさがいずれも256*256である。ターゲットドメインサンプル字401、ターゲットドメイン生成字402、ターゲットドメインサンプル字404及びターゲットドメイン生成字405は文字分類モデルに入力され、文字分類モデルにおける第1プリセット層(例えば、第30特徴層)でサンプル特徴図及びサンプル特徴図がそれぞれ出力され、サンプル特徴図及びサンプル特徴図は、大きさがいずれも64*64であり、これらの2枚の64*64である画像に対して画素差異計算を行った後に、当該2枚の画像の間の差異を表すヒートレンダリング403及び406を得る。ヒートレンダリング403及び406も64*64である画像であり、ヒートレンダリング403においては、色が濃い箇所ほど、ターゲットドメインサンプル字401とターゲットドメイン生成字402との間の差が大きいことを表し、ヒートレンダリング406においては、色が濃い箇所ほど、ターゲットドメインサンプル字404とターゲットドメイン生成字405との間の差が大きいことを表し、これにより、文字生成モデルを、ヒートレンダリング403及び406における色が比較的濃い箇所の特徴を学習することにより集中させて、文字生成モデルの特徴を学習する能力を向上させることができる。
図5は、本開示の実施例に係る他の実施例の特徴ロスを使用して文字生成モデルを拘束する可視化レンダリングである。図5に示すように、ターゲットドメインサンプル字501、ターゲットドメイン生成字502、ターゲットドメインサンプル字504及びターゲットドメイン生成字505は文字分類モデルに入力され、文字分類モデルにおける第2プリセット層(例えば、第31特徴層)でサンプル特徴図及びサンプル特徴図がそれぞれ出力され、サンプル特徴図及びサンプル特徴図は、大きさがいずれも32*32であり、これらの2枚の32*32である画像に対して画素差異計算を行った後に、当該2枚の画像の間の差異を表すヒートレンダリング503及び506を得る。ヒートレンダリング503及び506も32*32である画像であり、ヒートレンダリング503においては、色が濃い箇所ほど、ターゲットドメインサンプル字501とターゲットドメイン生成字502との間の差が大きいことを表し、ヒートレンダリング506においては、色が濃い箇所ほど、ターゲットドメインサンプル字504とターゲットドメイン生成字505との間の差が大きいことを表し、これにより、文字生成モデルをヒートレンダリング503及び506における色が比較的濃い箇所の特徴を学習することにより集中させて、文字生成モデルの特徴を学習する能力を向上させることができる。
ヒートレンダリング403及び503を組み合わせ、共同で文字生成モデルに、ターゲットドメインサンプル字401とターゲットドメイン生成字402との間の差が比較的大きい特徴、及び学習ターゲットドメインサンプル字501とターゲットドメイン生成字502との間の差が比較的大きい特徴を学習させることができ、且つ、ヒートレンダリング406及び506を組み合わせ、ターゲットドメインサンプル字404とターゲットドメイン生成字405との間の差が比較的大きい特徴を学習させ、及び、ターゲットドメインサンプル字504とターゲットドメイン生成字505との間の差が比較的大きい特徴を学習させて、文字生成モデルの特徴を学習する能力を向上させることができることを理解すべきである。
図7は、本開示の1つの実施例による特徴ロスを使用して文字生成モデルを拘束する、トレーニングが完了した文字生成モデルの生成字のレンダリングである。ここで、枠内の字は実に手書きした文字であるが、枠内に位置していない字は、文字生成モデルの生成字である。これから分かるように、文字生成モデルの生成字のフォントスタイルは、実に手書きした文字のフォントスタイルと略一致している。
図8は、本開示の実施例により開示される他の文字生成モデルのトレーニング方法のフローチャートであり、上記の技術案に基づいてさらに最適化及び展開されたものであり、上記の各好ましい実施形態と組み合わせられることが可能である。文字生成モデルのトレーニング方法は、前記ターゲットドメインスタイル字を文字生成モデルに入力し、前記ターゲットドメインスタイル字の第1スタイル特徴ベクトルを取得し、前記ターゲットドメイン生成字を前記文字生成モデルに入力し、前記ターゲットドメイン生成字の第2スタイル特徴ベクトルを取得し、前記第2スタイル特徴ベクトル及び前記第1スタイル特徴ベクトルをコンポーネント分類モデルに入力し、コンポーネント分類ロスを算出し、前記ターゲットドメインサンプル字及び前記ターゲットドメイン生成字を識別モデルに入力し、文字敵対的ロス及びスタイル敵対的ロスを算出し、前記ターゲットドメイン生成字を前記文字分類モデルに入力し、誤字ロスを算出し、前記コンポーネント分類ロス、前記文字敵対的ロス、前記スタイル敵対的ロス及び前記誤字ロスに基づいて、前記文字生成モデルのパラメータを調整するように最適化される。
S801において、ソースドメインサンプル字及びターゲットドメインスタイル字を文字生成モデルに入力し、ターゲットドメイン生成字及び前記ターゲットドメインスタイル字の第1スタイル特徴ベクトルを取得する。
ターゲットドメインスタイル字の第1スタイル特徴ベクトルとは、スタイルエンコーダがターゲットドメインスタイル字に対して符号化を行って取得された特徴ベクトルである。
ソースドメインサンプル字及びターゲットドメインスタイル字を文字生成モデルに入力することは具体的に、ソースドメインサンプル字をコンテンツエンコーダに送信し、内容特徴ベクトルを取得し、ターゲットドメインスタイル字をスタイルエンコーダに送信し、第1スタイル特徴ベクトルを取得することである。ターゲットドメインスタイル字は、数量が複数あり、第1スタイル特徴ベクトルは、対応して数量が複数あり、複数の第1スタイル特徴ベクトルを融合し、融合スタイル特徴ベクトルを取得し、融合スタイル特徴ベクトルと内容特徴ベクトルを融合し、ターゲット特徴ベクトルを取得し、ターゲット特徴ベクトルをデコーダに送信して復号化を行い、ターゲットドメイン生成字を取得する。ここで、複数の第1スタイル特徴ベクトルを融合し、融合スタイル特徴ベクトルを取得することは、第1スタイル特徴ベクトルに対して、各位置のベクトル要素の数値を加算平均し、当該位置のベクトル要素数値を取得し、すべての位置のベクトル要素数値に基づいて、融合スタイル特徴ベクトルを決定することであってもよい。融合スタイル特徴ベクトルと内容特徴ベクトルを融合し、ターゲット融合特徴ベクトルを取得することは、融合スタイル特徴ベクトルに対して、各位置のベクトル要素の数値と相応する位置の内容特徴ベクトルのベクトル要素の数値とを加算し、当該位置のベクトル要素数値を取得し、すべての位置のベクトル要素数値に基づいて、ターゲット融合特徴ベクトルを決定することであってもよい。
S802において、前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出する。
S803において、前記ターゲットドメイン生成字を前記文字生成モデルに入力し、前記ターゲットドメイン生成字の第2スタイル特徴ベクトルを取得する。
ターゲットドメイン生成字の第2スタイル特徴ベクトルとは、スタイルエンコーダがターゲットドメイン生成字に対して符号化を行って取得された特徴ベクトルである。ターゲットドメイン生成字を文字生成モデルに入力することは、ターゲットドメイン生成字をスタイルエンコーダに入力し、ターゲットドメイン生成字の第2スタイル特徴ベクトルを取得する。
S804において、前記第2スタイル特徴ベクトル及び前記第1スタイル特徴ベクトルをコンポーネント分類モデルに入力し、コンポーネント分類ロスを算出する。
コンポーネント分類モデルは、スタイル特徴ベクトルに対応する字に含まれるコンポーネントに、ソースドメインサンプル字に含まれるコンポーネントと同じコンポーネントが存在しているか否かを検出するために使用され、即ち、コンポーネント分類モデルは、スタイル特徴ベクトルに対応する字に、ソースドメインサンプル字の偏旁部首と同じ偏旁部首が存在しているか否かを検出することに用いられる。第2スタイル特徴ベクトル及び第1スタイル特徴ベクトルをコンポーネント分類モデルに入力し、コンポーネント分類ロスを算出する。コンポーネント分類ロスは、文字生成モデルによって出力されるターゲットドメイン生成字に含まれるコンポーネントの精確率を拘束するために使用され、具体的に、字に含まれるコンポーネントが正しいか否かを判断することに用いられる。実際に、コンポーネント分類ロスとは、字の識別された、含むコンポーネントと、当該字に含まれる正しいコンポーネントとの間の差異である。
本開示の実施例により、コンポーネント分類ロスは、文字生成モデルによって出力されるターゲットドメイン生成字に含まれるコンポーネントの精確率を拘束して、文字生成モデルの誤ったコンポーネントからなる生成字を生成する確率を減らすことに用いられる。
S805において、前記ターゲットドメインサンプル字及び前記ターゲットドメイン生成字を識別モデルに入力し、文字敵対的ロス及びスタイル敵対的ロスを算出する。
ソースドメインサンプル字は実の手書き文字の画像であるが、ターゲットドメインサンプル字はモデルによって生成された文字画像であり、偽の文字画像と呼ばれてもよい。ターゲットドメイン生成字はモデルによって生成された手書き文字の画像であり、偽の手書き文字の画像と呼ばれてもよい。レーニング過程において、ターゲットドメインサンプル字を真Real(例えば、値が1である)としてラベル付け、ターゲットドメイン生成字を偽Fake(例えば、値が0である)としてラベル付けることができる。ターゲットドメインサンプル字及びターゲットドメイン生成字が実に手書きした文字であるか否かを検出することは、実際に、モデルの生成字であるか否かを検出することであり、文字生成モデルによって生成された字を、識別モデルを通して出力された結果が真である場合に、文字生成モデルによって生成された字は、手書き文字と非常に類似し、本物と見分けられないものであることが判明した。
識別モデルは、ターゲットドメインサンプル字及びターゲットドメイン生成字が実に手書きした文字であるか否かを検出し、文字タイプに対して分類を行い、スタイルのタイプに対して分類を行い、及び、ターゲットドメイン生成字が所望の生成されるターゲットドメインサンプル字であるか否かを検出することに用いられる。ここで、文字敵対的ロスは、字に対して文字分類を行い、及び、字が実に手書きした文字であるか否かを検出するために使用され、スタイル敵対的ロスは、字に対してスタイル分類を行い、及び、字が実に手書きした文字であるか否かを検出することに用いられる。文字敵対的ロスとは、字の文字分類と当該字の正しい文字タイプとの間の差異、及び字と実に手書きした文字との間の差異であり、スタイル敵対的ロスとは、字のスタイルのタイプと当該字の正しいスタイルのタイプとの間の差異、及び字と実に手書きした文字との間の差異である。
識別モデルは、ターゲットドメインサンプル字及びターゲットドメイン生成字が実に手書きした文字であるか否かを検出し、及び文字タイプに対して分類を行うために使用されることに対して、ターゲットドメインサンプル字を識別モデルに入力し、ターゲットドメインサンプル字の第1文字敵対的ベクトルを取得し、ターゲットドメイン生成字を識別モデルに入力し、ターゲットドメイン生成字の第2文字敵対的ベクトルを取得する。
識別モデルは、ターゲットドメインサンプル字及びターゲットドメイン生成字が実に手書きした文字であるか否かを検出し、及びスタイルのタイプに対して分類を行うことに用いられる。ターゲットドメインサンプル字を識別モデルに入力し、ターゲットドメインサンプル字の第1スタイル敵対的ベクトルを取得し、ターゲットドメイン生成字を識別モデルに入力し、ターゲットドメイン生成字の第2スタイル敵対的ベクトルを取得する。
識別モデルは、ターゲットドメイン生成字が所望の生成されるターゲットドメインサンプル字であるか否かを検出することに用いられる。ターゲットドメインサンプル字及びターゲットドメイン生成字を識別モデルに入力し、一貫性ロスを取得する。
好ましくは、文字生成モデルのトレーニング方法は、前記ターゲットドメインサンプル字及び前記ターゲットドメイン生成字を識別モデルに入力し、一貫性ロスを算出することと、前記一貫性ロスに基づいて、前記文字生成モデルのパラメータを調整することと、をさらに含む。
S806において、前記ターゲットドメイン生成字を前記文字分類モデルに入力し、誤字ロスを算出する。
文字分類モデルは、ターゲットドメイン生成字が誤字であるか否かを検出することに用いられる。誤字ロスは、文字生成モデルによって出力されるターゲットドメイン生成字の誤字率、具体的に字と正しい字との間の差異というものを拘束することに用いられる。
本開示の実施例により、誤字ロスは、文字生成モデルによって出力されるターゲットドメイン生成字の誤字率を拘束して、文字生成モデルの誤字を生成する確率を減らすことに用いられる。
なお、識別モデル及びコンポーネント分類モデルは文字生成モデルと一緒にトレーニングされることができ、後期の応用時に、トレーニングが完了した文字生成モデルのみを使用して画像のスタイル遷移を実現することができる。
S807において、前記特徴ロス、前記コンポーネント分類ロス、前記文字敵対的ロス、前記スタイル敵対的ロス及び前記誤字ロスに基づいて、前記文字生成モデルのパラメータを調整する。
本開示の技術案により、文字生成モデルを使用してソースドメインサンプル字に基づいてターゲットドメイン生成字を生成することで、多様なスタイルのフォントの生成を実現することができ、且つ、コンポーネント分類モデルを使用してコンポーネント分類ロスを導入することで、フォントスタイルの学習範囲を大きくしてフォントスタイルの遷移の精確率を上げ、識別モデルを使用して文字敵対的ロス及びスタイル敵対的ロスを導入することで、文字生成モデルの正しいフォントを学習する能力及びフォントスタイルを学習する能力を向上させることができ、文字分類モデルを使用して誤字ロス及び特徴ロスを導入することで、文字生成モデルのフォント特徴を学習する能力を向上させて、誤字を生成する確率を減らすことができる。
図9は、本開示の実施例に係る1つの文字生成モデルのトレーニング方法のシーンの図である。図9に示すように、本開示の実施例により開示される1つの文字生成モデルのトレーニング方法のシーンの図により、文字生成モデルは、スタイルエンコーダ910、コンテンツエンコーダ911及びデコーダ912を備える。ソースドメインサンプル字901をコンテンツエンコーダ911に送信して、内容特徴ベクトルを取得し、ソースドメインサンプル字901に基づいてターゲットドメインスタイル字902を決定し、ターゲットドメインスタイル字902をスタイルエンコーダ910に送信して、第1スタイル特徴ベクトルを取得する。ターゲットドメインスタイル字902は、数量が複数あり、第1スタイル特徴ベクトルは、対応して数量が複数あり、複数の第1スタイル特徴ベクトルを融合し、融合スタイル特徴ベクトルを取得し、融合スタイル特徴ベクトルと内容特徴ベクトルを融合し、ターゲット特徴ベクトルを取得し、ターゲット特徴ベクトルをデコーダ912に送信して復号化を行い、ターゲットドメイン生成字903を取得する。ターゲットドメイン生成字903をスタイルエンコーダ910に入力し、ターゲットドメイン生成字903の第2スタイル特徴ベクトルを取得する。第2スタイル特徴ベクトル及び第1スタイル特徴ベクトルをコンポーネント分類モデル913に入力し、コンポーネント分類ロス905を算出する。ターゲットドメインサンプル字904及びターゲットドメイン生成字903を識別モデル914に入力し、文字敵対的ロス906及びスタイル敵対的ロス907を算出する。ターゲットドメイン生成字903及びターゲットドメインサンプル字904を予めトレーニングされた文字分類モデル915に入力し、文字生成モデルの特徴ロス909を算出する。ターゲットドメイン生成字903を文字分類モデル915に入力し、誤字ロス908を算出する。
図10は、本開示の実施例により開示される文字生成方法のフローチャートであり、本実施例は、文字生成モデルをトレーニングすることによって、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換して、新たな文字を生成する場合に適用可能である。本実施例の方法は、文字生成装置によって実行可能であり、当該装置は、ソフトウェア及び/又はハードウェアの方式を採用して実現されて、具体的に一定のデータ演算能力を有する電子機器に配置されることができ、当該電子機器は、クライアントデバイス又はサーバデバイスであってもよく、クライアントデバイスは、例えば携帯電話、タブレット、車載端末及びデスクトップパソコン等である。
S1001において、ソースドメイン入力字及び対応するターゲットドメイン入力字を取得する。
ソースドメイン入力字とは、ターゲットドメインフォントスタイルに変換する必要がある字で形成された画像であってもよい。ターゲットドメイン入力字とは、ターゲットドメインフォントスタイルの字で形成された画像であってもよい。ソースドメイン入力字に対してコンポーネント分割を行い、ソースドメイン入力字を構成する少なくとも1つのコンポーネントを決定して、各コンポーネントに基づいて、予め生成されたターゲットドメイン入力字の集合からソースドメイン入力字に対応するターゲットドメイン入力字を選出する。ターゲットドメイン入力字の数量は少なくとも1つである。
予めターゲットドメインフォントスタイルの字で形成された画像を取得して、ターゲットドメイン入力字の集合を形成することができる。当該集合は、予め取得したコンポーネント全体をカバーするターゲットドメインフォントスタイルの字で形成された画像である。例示的に、中国語文字に対して、ターゲットドメインフォントスタイルは、ユーザの手書きフォントスタイルであり、ユーザの認可によって提供された手書きフォントスタイルの字の画像を予め取得して、ターゲットドメイン入力字の集合を生成することができる。より具体的には、偏旁部首全体がカバーされた100個の字を予め配置して、ユーザに、当該100個の偏旁部首全体がカバーされた字に対して、手書きフォントスタイルの字を提供することを認可するように促し、ターゲットドメイン入力字の集合を生成することができる。
S1002において、前記ソースドメイン入力字及び前記ターゲットドメイン入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得する。ここで、前記文字生成モデルは、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる。
文字生成モデル文字生成モデルのトレーニング方法によるトレーニングで得られたものである。ターゲットドメイン新字とは、ソースドメイン入力字に対応する内容のターゲットドメインフォントスタイルの字であってもよい。例えば、ソースドメイン入力字は楷書体字の画像であり、ターゲットドメイン新字は手書き文字の画像であり、楷書体字の画像を文字生成モデルに入力し、手書き文字の画像、即ち、ターゲットドメイン新字を取得することができる。
ターゲットドメイン新字が取得された場合に、ターゲットドメイン新字に基づいて字ライブラリを構築することができる。例えば、文字生成モデルによって生成された新字を記憶し、手書きフォントスタイルを有する字ライブラリを構築して得て、当該字ライブラリはインプットメソッドに適用可能であり、ユーザは当該字ライブラリに基づくインプットメソッドを使用して、手書きフォントスタイルを有する字を直接に取得することができ、ユーザの多様化のニーズを満たし、ユーザ体験を向上させることができる。
ソースドメイン入力字及び対応するターゲットドメイン入力字を取得して、文字生成モデルに入力し、ターゲットドメイン新字を取得することで、ソースドメイン入力字をターゲットドメイン新字に精確に変換することを実現し、ターゲットドメイン新字の生成の精確率を上げ、ターゲットドメイン新字の生成の効率を上げ、ターゲットドメイン新字の生成を上げる人工成本を下げることができる。
本開示の実施例により、図11は、本開示の実施例における文字生成モデルのトレーニング装置の構造図であり、本開示の実施例は、文字生成モデルをトレーニングすることに適用される。ここで、文字生成モデルは、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換する場合に使用される。当該装置は、ソフトウェア及び/又はハードウェアを採用して実現されて、具体的に一定のデータ演算能力を有する電子機器に配置される。
図11に示すような文字生成モデルのトレーニング装置1100は、
ソースドメインサンプル字及びターゲットドメインスタイル字を文字生成モデルに入力し、ターゲットドメイン生成字を取得するためのターゲットドメイン生成字取得モジュール1101と、
前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出するための特徴ロス計算モジュール1102と、
前記特徴ロスに基づいて前記文字生成モデルのパラメータを調整するための第1ロス調整モジュール1103と、を備える。
本開示の技術案により、文字生成モデルを使用してソースドメインサンプル字及びターゲットドメインスタイル字に基づいてターゲットドメイン生成字を生成することで、多様なスタイルのフォントの生成を実現することができ、且つ、文字分類モデルを使用して特徴ロスを導入し、文字生成モデルにターゲットドメイン生成字とターゲットドメインサンプル字との間の差が比較的大きい特徴を学習させて、文字生成モデルがより多いフォントの詳細を学習して得ることで、文字生成モデルのフォント特徴を学習する能力を向上させ、文字生成モデルによって生成されたターゲットドメインフォントスタイルの字の精確率を上げることができる。
さらに、前記特徴ロス計算モジュール1102は、前記ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの少なくとも1つの特徴層から出力される生成特徴図を取得するための第1特徴図生成ユニットと、前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの前記少なくとも1つの特徴層から出力されるサンプル特徴図を取得するための第2特徴図生成ユニットと、前記少なくとも1つの特徴層の生成特徴図とサンプル特徴図との間の差異に基づいて、前記文字生成モデルの特徴ロスを算出するための特徴ロス計算ユニットと、を備える。
さらに、前記特徴ロス計算ユニットは、前記少なくとも1つの特徴層のうちの各特徴層について、前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を算出し、前記特徴層の画素ロスを取得するための画素ロス計算サブユニットと、前記少なくとも1つの特徴層の画素ロスに基づいて、前記文字生成モデルの特徴ロスを算出するための特徴ロス計算サブユニットと、を備える。
さらに、前記画素ロス計算サブユニットは、前記特徴層の生成特徴図における各位置の画素点について、前記画素点の画素値と前記サンプル特徴図における対応する位置の画素点の画素値との間の差の絶対値を算出し、各位置の画素点の差異を取得して、複数の位置の画素点の差異に基づいて、前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を決定することに用いられる。
さらに、前記文字生成モデルのトレーニング装置は、前記ターゲットドメインスタイル字を文字生成モデルに入力し、前記ターゲットドメインスタイル字の第1スタイル特徴ベクトルを取得するための第1特徴ベクトル計算モジュールと、前記ターゲットドメイン生成字を前記文字生成モデルに入力し、前記ターゲットドメイン生成字の第2スタイル特徴ベクトルを取得するための第2特徴ベクトル計算モジュールと、前記第2スタイル特徴ベクトル及び前記第1スタイル特徴ベクトルをコンポーネント分類モデルに入力し、コンポーネント分類ロスを算出するためのコンポーネント分類ロス計算モジュールと、前記ターゲットドメインサンプル字及び前記ターゲットドメイン生成字を識別モデルに入力し、文字敵対的ロス及びスタイル敵対的ロスを算出するための敵対的ロス計算モジュールと、前記ターゲットドメイン生成字を前記文字分類モデルに入力し、誤字ロスを算出するための誤字ロス計算モジュールと、前記コンポーネント分類ロス、前記文字敵対的ロス、前記スタイル敵対的ロス及び前記誤字ロスに基づいて、前記文字生成モデルのパラメータを調整するための第2ロス調整モジュールと、をさらに含む。
さらに、前記ソースドメインサンプル字は、ソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する画像である。
上記の文字生成モデルのトレーニング装置は、本開示の任意の実施例に係る文字生成モデルのトレーニング方法を実行可能であり、文字生成モデルのトレーニング方法を実行することに相応する機能モジュール及び有益効果を備える。
本開示の実施例により、図12は、本開示の実施例における文字生成装置の構造図であり、本開示の実施例は、文字生成モデルをトレーニングすることによって、ソースドメインスタイルの字をターゲットドメインスタイルの字に変換して、新たな文字を生成する場合に適用される。当該装置はソフトウェア及び/又はハードウェアを採用して実現されて、具体的に一定のデータ演算能力を有する電子機器に配置される。
図12に示すような文字生成装置1200は、
ソースドメイン入力字及び対応するターゲットドメイン入力字を取得するための入力字取得モジュール1201と、
前記ソースドメイン入力字及び前記ターゲットドメイン入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得するための文字生成モジュール1202と、を備え、
前記文字生成モデルは、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる。
ソースドメイン入力字及び対応するターゲットドメイン入力字を取得して、文字生成モデルに入力し、ターゲットドメイン新字を取得することで、ソースドメイン入力字をターゲットドメイン新字に精確に変換することを実現し、ターゲットドメイン新字の生成の精確率を上げ、ターゲットドメイン新字の生成の効率を上げ、ターゲットドメイン新字の生成を上げる人工成本を下げることができる。
上記の文字生成装置は、本開示の任意の実施例に係る文字生成方法を実行可能であり、文字生成方法を実行することに相応する機能モジュール及び有益効果を備える。
本開示の技術案では、関するユーザ個人情報の収集、記憶、使用、加工、伝送、提供及び開示等の処理はいずれも、関連する法律及び法規の規定に合致し、且つ公序良俗に反しない。
本開示の実施例により、本開示は、電子機器、可読記憶媒体及びコンピュータプログラムをさらに提供している。
図13には、本開示の実施例を実施するために使用可能な例示的な電子機器1300の模式的なブロック図が示されている。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータを表すように意図される。電子機器は、様々な形式の移動装置、例えば、パーソナルデジタル処理、セルラーフォン、スマートフォン、ウェアラブルデバイス及び他の類似的なコンピューティング装置をさらに表すことができる。本明細書に示す部品、これらの接続と関係、及びこれらの機能は例示的なものに過ぎず、本明細書に説明及び/又は要求された本開示の実現を限定することは意図されない。
図13に示すように、デバイス1300は、リードオンリーメモリ(ROM:Read Only Memory)1302に記憶されたコンピュータプログラム又は記憶ユニット1308からランダムアクセスメモリ(RAM:Random Access Memory)1303にロードされたコンピュータプログラムによって、様々な適切な動作及び処理を実行可能な計算ユニット1301を備える。RAM 1303には、デバイス1300の操作に必要な様々なプログラム及びデータが記憶されることも可能である。計算ユニット1301、ROM 1302及びRAM 1303はバス1304によって互いに接続される。入出力(I/O:input/output)インタフェース1305もバス1304に接続される。
I/Oインタフェース1305には、例えばキーボード、マウス等の入力ユニット1306と、例えば様々なタイプのディスプレイ、スピーカ等の出力ユニット1307と、例えば磁気ディスク、光ディスク等の記憶ユニット1308と、例えばネットワークカード、モデム、無線通信送受信機等の通信ユニット1309と、を備えるデバイス1300における複数の部品が接続される。通信ユニット1309は、デバイス1300が例えばインターネットのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して、他のデバイスと情報/データを交換することを可能にする。
計算ユニット1301は、様々な、処理能力及び計算能力を有する汎用及び/又は専用処理構成要素であってもよい。計算ユニット1301のいくつかの例には、中央処理ユニット(CPU:Central Processing Unit)、グラフィック処理ユニット(GPU:Graphics Processing Unit)、様々な専用の人工知能(AI:Artificial Intelligence)計算チップ、様々な、機器学習モデルのアルゴリズムを実行する計算ユニット、デジタルシグナルプロセッサ(DSP:Digital Signal Processor)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が含まれるが、これらに限定されない。計算ユニット1301は、上記に説明された各方法及び処理、例えば文字生成モデルのトレーニング方法又は文字生成方法を実行する。例えば、いくつかの実施例において、文字生成モデルのトレーニング方法又は文字生成方法は、コンピュータソフトウェアプログラムとして実現可能であり、これは機械可読媒体、例えば記憶ユニット1308に有形構成として含まれる。いくつかの実施例において、コンピュータプログラムは、一部又は全部がROM 1302及び/又は通信ユニット1309を介してデバイス1300にロード及び/又はインストールされることができる。コンピュータプログラムがRAM 1303にロードされて計算ユニット1301によって実行されると、上記した文字生成モデルのトレーニング方法又は文字生成方法の1つ又は複数のステップが実行されることができる。或いは、他の実施例において、計算ユニット1301は、他の任意の適切な方式によって(例えば、ファームウェアによって)、文字生成モデルのトレーニング方法又は文字生成方法を実行するように構成される。
本明細書において、上記したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA:field-programmable gate array)、特定用途向け集積回路(ASIC:application specific integrated circuit)、特殊用途向け汎用品(ASSP:application specific standard product)、システムオンチップ(SOC:System on a chip)、コンプレックスプログラマブルロジックデバイス(CPLD:Programmable Logic Device)、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組合せで実現可能である。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実施されることを含んでもよく、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムに実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、メモリシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信して、データ及び命令を当該メモリシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる専用又は汎用プログラマブルプロセッサであってもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組合せを採用して書かれてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供され、プログラムコードがプロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図で規定された機能/操作が実施されることができる。プログラムコードは、完全に機器で実行されたり、部分的に機器で実行されたりしてもよく、独立ソフトウェアパッケージとして、部分的に機器で実行され且つ部分的にリモート機器で実行され、又は、完全にリモート機器又はサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、命令実行システム、装置又は機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含むか又は記憶することができる有形的な媒体であってもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体には、電子的なもの、磁気的なもの、光学的なもの、電磁的なもの、赤外線的なもの、又は半導体システム、装置又は機器、又は上記の内容の任意の適切な組合せが含まれるが、これらに限定されない。機械可読記憶媒体のより具体的な例示は、1つ又は複数のラインによる電気的な接続、可搬型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM:Erasable Programmable Read Only Memory又はフラッシュメモリ)、光ファイバ、可搬型コンパクトディスクリードオンリーメモリ(CD-ROM:Compact Disc Read Only Memory)、光メモリデバイス、磁気メモリデバイス、又は上記の内容の任意の適切な組合せを含む。
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術はコンピュータで実施されることができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニター)、及びキーボードやポインティング装置(例えば、マウス又はトラックボール)を有し、ユーザは、当該キーボードや当該指向装置によって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供することに使用可能であり、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、且つ、ユーザからの入力を任意の形式(音入力、音声入力又は触感入力を含む)で受信することができる。
ここで説明されるシステム及び技術は、バックグランドコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)に、又は、ミドルウェアコンポーネントを含むコンピューティングシステム(アプリケーションサーバなど)に、または、フロントエンドコンポーネントを含むコンピューティングシステム(図形式のユーザインタフェースやネットワークブラウザを有するユーザコンピュータ、ユーザは、当該図形式のユーザインタフェースや当該ネットワークブラウザを通じてここで説明されるシステム及び技術の実施形態とイントラクションをすることができる)に、又はこのようなバックグランドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組合せを含むコンピューティングシステムに実施されてもよい。システムのコンポーネントは、任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって互いに接続されてもよい。通信ネットワークの例示は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムは、クライアント端末及びサーバを含んでもよい。クライアント端末及びサーバは一般的に、互いに離れており、且つ通常に、通信ネットワークを介してイントラクションをしている。相応するコンピュータでの実行、及び、互いにクライアント端末・サーバという関係を有するコンピュータプログラムにより、クライアント端末とサーバとの関係を築き上げる。サーバは、クラウドサーバであってもよいし、分散型システムのサーバ、又はブロックチェーンと組み合わせられたサーバであってもよい。
上記に示した様々な形式のフローを使用し、ステップを並べ替えたり、追加したり、削除したりすることができることを理解すべきである。例えば、本開示に記載の各ステップは、本開示に開示された技術案の所望の結果が実現できれば、並行して実行されてよいし、順次的に実行されてもよいし、異なる順序で実行されてもよく、本明細書において、ここで限定されない。
上記の具体的な実施形態は、本願の保護範囲を限定するものではない。当業者であれば、設計要求や他の要素に基づいて様々な修正、組み合わせ、サブ組み合わせや置換が可能であることを理解すべきである。本開示の精神及び原則内で行われる修正、均等置換及び改良は、いずれも本開示の保護範囲に含まれるべきである。

Claims (17)

  1. ソースドメインサンプル字に含まれる少なくとも1つのコンポーネントを決定し、予め取得したターゲットドメインスタイル字の集合において、前記少なくとも1つのコンポーネントを含むターゲットドメインスタイル字を決定することと、
    前記ソースドメインサンプル字及び前記ターゲットドメインスタイル字を文字生成モデルに入力し、ターゲットドメイン生成字を取得することと、
    前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出することと、
    前記特徴ロスに基づいて前記文字生成モデルのパラメータを調整することと、を含む、
    文字生成モデルのトレーニング方法。
  2. 前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出することは、
    前記ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの少なくとも1つの特徴層から出力される生成特徴図を取得することと、
    前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの前記少なくとも1つの特徴層から出力されるサンプル特徴図を取得することと、
    前記少なくとも1つの特徴層の生成特徴図とサンプル特徴図との間の差異に基づいて、前記文字生成モデルの特徴ロスを算出することと、を含む、
    請求項1に記載の文字生成モデルのトレーニング方法。
  3. 前記文字生成モデルの特徴ロスを算出することは、
    前記少なくとも1つの特徴層のうちの各特徴層について、前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を算出し、前記特徴層の画素ロスを取得することと、
    前記少なくとも1つの特徴層の画素ロスに基づいて、前記文字生成モデルの特徴ロスを算出することと、を含む、
    請求項2に記載の文字生成モデルのトレーニング方法。
  4. 前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を算出することは、
    前記特徴層の生成特徴図における各位置の画素点について、前記画素点の画素値と前記サンプル特徴図における対応する位置の画素点の画素値との間の差の絶対値を算出し、各位置の画素点の差異を取得することと、
    複数の位置の画素点の差異に基づいて、前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を決定することと、を含む、
    請求項3に記載の文字生成モデルのトレーニング方法。
  5. 前記ターゲットドメインスタイル字を文字生成モデルに入力し、前記ターゲットドメインスタイル字の第1スタイル特徴ベクトルを取得することと、
    前記ターゲットドメイン生成字を前記文字生成モデルに入力し、前記ターゲットドメイン生成字の第2スタイル特徴ベクトルを取得することと、
    前記第2スタイル特徴ベクトル及び前記第1スタイル特徴ベクトルをコンポーネント分類モデルに入力し、コンポーネント分類ロスを算出することと、
    前記ターゲットドメインサンプル字及び前記ターゲットドメイン生成字を識別モデルに入力し、文字敵対的ロス及びスタイル敵対的ロスを算出ことと、
    前記ターゲットドメイン生成字を前記文字分類モデルに入力し、誤字ロスを算出することと、
    前記コンポーネント分類ロス、前記文字敵対的ロス、前記スタイル敵対的ロス及び前記誤字ロスに基づいて、前記文字生成モデルのパラメータを調整することと、をさらに含む、
    請求項1に記載の文字生成モデルのトレーニング方法。
  6. 前記ソースドメインサンプル字は、ソースドメインフォントスタイルを有する画像であり、
    前記ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する画像である、
    請求項1から5のいずれか1項に記載の文字生成モデルのトレーニング方法。
  7. ソースドメイン入力字及び対応するターゲットドメイン入力字を取得することと、
    前記ソースドメイン入力字及び前記ターゲットドメイン入力字を、請求項1から6のいずれか1項に記載の文字生成モデルのトレーニング方法によるトレーニングで得られた文字生成モデルに入力し、ターゲットドメイン新字を取得することと、を含む、
    文字生成方法。
  8. ソースドメインサンプル字に含まれる少なくとも1つのコンポーネントを決定し、予め取得したターゲットドメインスタイル字の集合において、前記少なくとも1つのコンポーネントを含むターゲットドメインスタイル字を決定し、前記ソースドメインサンプル字及び前記ターゲットドメインスタイル字を文字生成モデルに入力し、ターゲットドメイン生成字を取得するためのターゲットドメイン生成字取得モジュールと、
    前記ターゲットドメイン生成字及びターゲットドメインサンプル字を予めトレーニングされた文字分類モデルに入力し、前記文字生成モデルの特徴ロスを算出するための特徴ロス計算モジュールと、
    前記特徴ロスに基づいて前記文字生成モデルのパラメータを調整するための第1ロス調整モジュールと、を備える、
    文字生成モデルのトレーニング装置。
  9. 前記特徴ロス計算モジュールは、
    前記ターゲットドメイン生成字を前記文字分類モデルに入力し、前記文字分類モデルの少なくとも1つの特徴層から出力される生成特徴図を取得するための第1特徴図生成ユニットと、
    前記ターゲットドメインサンプル字を前記文字分類モデルに入力し、前記文字分類モデルの前記少なくとも1つの特徴層から出力されるサンプル特徴図を取得するための第2特徴図生成ユニットと、
    前記少なくとも1つの特徴層の生成特徴図とサンプル特徴図との間の差異に基づいて、前記文字生成モデルの特徴ロスを算出するための特徴ロス計算ユニットと、を備える、
    請求項8に記載の文字生成モデルのトレーニング装置。
  10. 前記特徴ロス計算ユニットは、
    前記少なくとも1つの特徴層のうちの各特徴層について、前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を算出し、前記特徴層の画素ロスを取得するための画素ロス計算サブユニットと、
    前記少なくとも1つの特徴層の画素ロスに基づいて、前記文字生成モデルの特徴ロスを算出するための特徴ロス計算サブユニットと、を備える、
    請求項9に記載の文字生成モデルのトレーニング装置。
  11. 前記画素ロス計算サブユニットは、
    前記特徴層の生成特徴図における各位置の画素点について、前記画素点の画素値と前記サンプル特徴図における対応する位置の画素点の画素値との間の差の絶対値を算出し、各位置の画素点の差異を取得して、複数の位置の画素点の差異に基づいて、前記特徴層の生成特徴図とサンプル特徴図との間の画素差異を決定することに用いられる、
    請求項10に記載の文字生成モデルのトレーニング装置。
  12. 前記ターゲットドメインスタイル字を文字生成モデルに入力し、前記ターゲットドメインスタイル字の第1スタイル特徴ベクトルを取得するための第1特徴ベクトル計算モジュールと、
    前記ターゲットドメイン生成字を前記文字生成モデルに入力し、前記ターゲットドメイン生成字の第2スタイル特徴ベクトルを取得するための第2特徴ベクトル計算モジュールと、
    前記第2スタイル特徴ベクトル及び前記第1スタイル特徴ベクトルをコンポーネント分類モデルに入力し、コンポーネント分類ロスを算出するためのコンポーネント分類ロス計算モジュールと、
    前記ターゲットドメインサンプル字及び前記ターゲットドメイン生成字を識別モデルに入力し、文字敵対的ロス及びスタイル敵対的ロスを算出するための敵対的ロス計算モジュールと、
    前記ターゲットドメイン生成字を前記文字分類モデルに入力し、誤字ロスを算出するための誤字ロス計算モジュールと、
    前記コンポーネント分類ロス、前記文字敵対的ロス、前記スタイル敵対的ロス及び前記誤字ロスに基づいて、前記文字生成モデルのパラメータを調整するための第2ロス調整モジュールと、をさらに備える、
    請求項8に記載の文字生成モデルのトレーニング装置。
  13. 前記ソースドメインサンプル字は、ソースドメインフォントスタイルを有する画像であり、前記ターゲットドメインサンプル字は、ターゲットドメインフォントスタイルを有する画像である、
    請求項8から12のいずれか1項に記載の文字生成モデルのトレーニング装置。
  14. ソースドメイン入力字及び対応するターゲットドメイン入力字を取得するための入力字取得モジュールと、
    前記ソースドメイン入力字及び前記ターゲットドメイン入力字を、請求項1から6のいずれか1項に記載の文字生成モデルのトレーニング方法によるトレーニングで得られた文字生成モデルに入力し、ターゲットドメイン新字を取得するための文字生成モジュールと、を備る、
    文字生成装置。
  15. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信接続されたメモリとを備える電子機器であって、
    前記メモリに、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
    前記命令は、前記少なくとも1つのプロセッサが請求項1から6のいずれか1項に記載の文字生成モデルのトレーニング方法、又は請求項7に記載の文字生成方法を実行可能であるように、前記少なくとも1つのプロセッサによって実行される、
    電子機器。
  16. コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
    前記コンピュータ命令は、コンピュータに、請求項1から6のいずれか1項に記載の文字生成モデルのトレーニング方法、又は請求項7に記載の文字生成方法を実行させることに用いられる、
    非一時的なコンピュータ可読記憶媒体。
  17. プロセッサによって実行されると、請求項1から6のいずれか1項に記載の文字生成モデルのトレーニング方法を実現する、又は請求項7に記載の文字生成方法を実行させる、
    コンピュータプログラム。
JP2022007458A 2021-09-09 2022-01-20 文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体 Active JP7384943B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111057838.0 2021-09-09
CN202111057838.0A CN113792526B (zh) 2021-09-09 2021-09-09 字符生成模型的训练方法、字符生成方法、装置和设备和介质

Publications (2)

Publication Number Publication Date
JP2023039892A JP2023039892A (ja) 2023-03-22
JP7384943B2 true JP7384943B2 (ja) 2023-11-21

Family

ID=78879834

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022007458A Active JP7384943B2 (ja) 2021-09-09 2022-01-20 文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体

Country Status (5)

Country Link
US (1) US20220189083A1 (ja)
EP (1) EP4148685A1 (ja)
JP (1) JP7384943B2 (ja)
KR (1) KR20220032538A (ja)
CN (1) CN113792526B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114820867B (zh) * 2022-04-22 2022-12-13 北京百度网讯科技有限公司 字形生成方法、字形生成模型的训练方法及装置
CN114882372A (zh) * 2022-07-11 2022-08-09 浙江大华技术股份有限公司 一种目标检测的方法及设备
CN115661304B (zh) * 2022-10-11 2024-05-03 北京汉仪创新科技股份有限公司 基于帧插值的字库生成方法、电子设备、存储介质和系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6358471B2 (ja) * 2015-05-29 2018-07-18 京セラドキュメントソリューションズ株式会社 画像形成装置
CN107767328B (zh) * 2017-10-13 2021-12-17 上海媒智科技有限公司 基于少量样本生成的任意风格和内容的迁移方法和系统
CN109165376B (zh) * 2018-06-28 2023-07-18 西交利物浦大学 基于少量样本的风格字符生成方法
CN110443864B (zh) * 2019-07-24 2021-03-02 北京大学 一种基于单阶段少量样本学习的艺术字体自动生成方法
CN110503598B (zh) * 2019-07-30 2022-09-16 西安理工大学 基于条件循环一致性生成对抗网络的字体风格迁移方法
US11250252B2 (en) * 2019-12-03 2022-02-15 Adobe Inc. Simulated handwriting image generator
WO2021114130A1 (zh) * 2019-12-11 2021-06-17 中国科学院深圳先进技术研究院 一种无监督自适应乳腺病变分割方法
CN111325660B (zh) * 2020-02-20 2021-01-29 中国地质大学(武汉) 一种基于文本数据的遥感图像风格转换方法
US11157693B2 (en) * 2020-02-25 2021-10-26 Adobe Inc. Stylistic text rewriting for a target author
CN112364860A (zh) * 2020-11-05 2021-02-12 北京字跳网络技术有限公司 字符识别模型的训练方法、装置和电子设备
CN112861806B (zh) * 2021-03-17 2023-08-22 网易(杭州)网络有限公司 基于生成对抗网络的字体数据处理方法及装置
CN113140017B (zh) * 2021-04-30 2023-09-15 北京百度网讯科技有限公司 训练对抗网络模型的方法、建立字库的方法、装置和设备
CN113140018B (zh) * 2021-04-30 2023-06-20 北京百度网讯科技有限公司 训练对抗网络模型的方法、建立字库的方法、装置和设备
CN113343683B (zh) * 2021-06-18 2022-06-07 山东大学 一种融合自编码器和对抗训练的中文新词发现方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Song Park et al.,"Few-Shot Font Generation with Localized Style Representations and Factorization",[online],arXiv:2009.11042v2,2020年09月23日,インターネット<URL:https://arxiv.org/pdf/2009.11042.pdf>
Xiyan Liu et al.,"FontGAN: A Unified Generative Framework for Chinese Character Stylization and De-stylization",[online],arXiv:1910.12604v1,2019年10月28日,インターネット<URL:https://arxiv.org/pdf/1910.12604.pdf>
成沢 淳史、外2名 ,"深層学習による質感文字生成",人工知能学会第 32回全国大会論文集DVD [DVD-ROM],2018年06月,p.1-4

Also Published As

Publication number Publication date
US20220189083A1 (en) 2022-06-16
KR20220032538A (ko) 2022-03-15
EP4148685A1 (en) 2023-03-15
CN113792526B (zh) 2024-02-09
JP2023039892A (ja) 2023-03-22
CN113792526A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
JP7384943B2 (ja) 文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体
JP2023541532A (ja) テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
JP2023541119A (ja) 文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN112966742A (zh) 模型训练方法、目标检测方法、装置和电子设备
US20220189189A1 (en) Method of training cycle generative networks model, and method of building character library
CN113792854A (zh) 一种模型训练及字库建立方法、装置、设备及存储介质
CN113792851B (zh) 字体生成模型训练方法、字库建立方法、装置及设备
CN114820871B (zh) 字体生成方法、模型的训练方法、装置、设备和介质
CN114863437B (zh) 文本识别方法、装置、电子设备和存储介质
EP4120181A2 (en) Method and apparatus of fusing image, and method of training image fusion model
JP7337203B2 (ja) 文字生成モデルのトレーニング方法、文字生成方法、装置および機器
JP2023039886A (ja) フォント生成モデルトレーニング方法、字庫作成方法、装置及び機器
CN112785493A (zh) 模型的训练方法、风格迁移方法、装置、设备及存储介质
CN116152833A (zh) 基于图像的表格还原模型的训练方法及表格还原方法
CN116756564A (zh) 面向任务解决的生成式大语言模型的训练方法和使用方法
CN114792355A (zh) 虚拟形象生成方法、装置、电子设备和存储介质
US20230154077A1 (en) Training method for character generation model, character generation method, apparatus and storage medium
CN116402914A (zh) 用于确定风格化图像生成模型的方法、装置及产品
CN115565186A (zh) 文字识别模型的训练方法、装置、电子设备和存储介质
CN115376137A (zh) 一种光学字符识别处理、文本识别模型训练方法及装置
CN112558810A (zh) 检测指尖位置的方法、装置、设备和存储介质
CN114973279B (zh) 手写文本图像生成模型的训练方法、装置和存储介质
CN113553863B (zh) 文本生成方法、装置、电子设备和存储介质
CN115131709B (zh) 视频类别预测方法、视频类别预测模型的训练方法及装置
CN115471840B (zh) 生成、模型的训练、识别方法、装置、电子设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231109

R150 Certificate of patent or registration of utility model

Ref document number: 7384943

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150