JP7337203B2 - 文字生成モデルのトレーニング方法、文字生成方法、装置および機器 - Google Patents
文字生成モデルのトレーニング方法、文字生成方法、装置および機器 Download PDFInfo
- Publication number
- JP7337203B2 JP7337203B2 JP2022007211A JP2022007211A JP7337203B2 JP 7337203 B2 JP7337203 B2 JP 7337203B2 JP 2022007211 A JP2022007211 A JP 2022007211A JP 2022007211 A JP2022007211 A JP 2022007211A JP 7337203 B2 JP7337203 B2 JP 7337203B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- training
- style
- characters
- target domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 325
- 238000000034 method Methods 0.000 title claims description 81
- 239000013598 vector Substances 0.000 claims description 199
- 238000013145 classification model Methods 0.000 claims description 60
- 238000009826 distribution Methods 0.000 claims description 29
- 238000003860 storage Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 19
- 238000006243 chemical reaction Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 11
- 230000007704 transition Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 101150115304 cls-2 gene Proteins 0.000 description 1
- 101150053100 cls1 gene Proteins 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/109—Font handling; Temporal or kinetic typography
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19073—Comparing statistics of pixel or of feature values, e.g. histogram matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1916—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Document Processing Apparatus (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
- Controls And Circuits For Display Device (AREA)
Description
第1ソースドメインサンプル字、第1ターゲットドメインサンプル字、およびスタイルタイプが前記第1ターゲットドメインサンプル字のスタイルタイプと同じであるスタイルノイズ字を含む第1トレーニングサンプルを取得し、前記第1トレーニングサンプルに基づき、文字生成モデル、コンポーネント分類モデル、および識別モデルを含むターゲットモデルをトレーニングし、第1文字敵対的ロスを取得することと、
第2ソースドメインサンプル字、第2ターゲットドメインサンプル字、およびスタイルタイプが前記第2ターゲットドメインサンプル字のスタイルタイプと同じであるスタイル標準字を含む第2トレーニングサンプルを取得し、前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得することと、
前記第1文字敵対的ロス、前記第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整することとを含む、
文字生成モデルのトレーニング方法を提供する。
ソースドメイン入力字および対応するターゲットドメイン入力字を取得することと、
前記ソースドメイン入力字および前記ターゲット入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得することとを含み、
前記文字生成モデルは、本開示のいずれかの実施例に記載の方法によるトレーニングで得られる、
文字生成方法を提供する。
第1ソースドメインサンプル字、第1ターゲットドメインサンプル字、およびスタイルタイプが前記第1ターゲットドメインサンプル字のスタイルタイプと同じであるスタイルノイズ字を含む第1トレーニングサンプルを取得し、前記第1トレーニングサンプルに基づき、文字生成モデル、コンポーネント分類モデル、および識別モデルを含むターゲットモデルをトレーニングし、第1文字敵対的ロスを取得するための第1トレーニングサンプルトレーニングモジュールと、
第2ソースドメインサンプル字、第2ターゲットドメインサンプル字、およびスタイルタイプが前記第2ターゲットドメインサンプル字のスタイルタイプと同じであるスタイル標準字を含む第2トレーニングサンプルを取得し、前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得するための第2トレーニングサンプルトレーニングモジュールと、
前記第1文字敵対的ロス、前記第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整するための第1ロス調整モジュールとを備える、
文字生成モデルのトレーニング装置を提供する。
ソースドメイン入力字および対応するターゲットドメイン入力字を取得するための入力字取得モジュールと、
前記ソースドメイン入力字および前記ターゲット入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得するための文字生成モジュールとを備え、
前記文字生成モデルは、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法によって得られる、
文字生成装置を提供する。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも1つのプロセッサが本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法または本開示のいずれかの実施例に記載の文字生成方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
電子機器を提供する、
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法または本開示のいずれかの実施例に記載の文字生成方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体を提供する。
プロセッサにより実行されると、本開示のいずれかの実施例に記載の文字生成モデルのトレーニング方法を実現する、または本開示のいずれかの実施例に記載の文字生成方法を実行する、
コンピュータプログラムを提供する。
Claims (20)
- 文字生成モデルのトレーニング装置により実行される文字生成モデルのトレーニング方法であって、
第1ソースドメインサンプル字、第1ターゲットドメインサンプル字、およびスタイルタイプが前記第1ターゲットドメインサンプル字のスタイルタイプと同じであるスタイルノイズ字を含む第1トレーニングサンプルを取得し、前記第1トレーニングサンプルに基づき、文字生成モデル、コンポーネント分類モデル、および識別モデルを含むターゲットモデルをトレーニングし、第1文字敵対的ロスを取得することと、
第2ソースドメインサンプル字、第2ターゲットドメインサンプル字、およびスタイルタイプが前記第2ターゲットドメインサンプル字のスタイルタイプと同じであるスタイル標準字を含む第2トレーニングサンプルを取得し、前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得することと、
前記第1文字敵対的ロス、前記第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整することとを含み、
ここで、前記第1トレーニングサンプルに基づいてターゲットモデルをトレーニングし、第1文字敵対的ロスを取得することは、
前記第1ソースドメインサンプル字および前記スタイルノイズ字を前記文字生成モデルに入力し、第1ターゲットドメイン生成字を取得することと、
前記第1ターゲットドメイン生成字および前記第1ターゲットドメインサンプル字を前記識別モデルに入力し、第1文字敵対的ロスを取得することとを含み、
ここで、前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得することは、
前記第2ソースドメインサンプル字および前記スタイル標準字を前記文字生成モデルに入力し、第2ターゲットドメイン生成字および前記スタイル標準字の標準スタイル特徴ベクトルを取得することと、
前記第2ターゲットドメイン生成字を前記文字生成モデルに入力し、前記第2ターゲットドメイン生成字の生成スタイル特徴ベクトルを取得することと、
前記生成スタイル特徴ベクトルおよび前記標準スタイル特徴ベクトルを前記コンポーネント分類モデルに入力し、コンポーネント分類ロスを計算することと、
前記第2ターゲットドメインサンプル字および前記第2ターゲットドメイン生成字を前記識別モデルに入力し、第2文字敵対的ロスおよびスタイル敵対的ロスを計算することとを含む、
文字生成モデルのトレーニング方法。 - 第1トレーニングサンプルを取得することは、
第1ソースドメインサンプル字および第1ターゲットドメインサンプル字を取得することと、
標準字集合を取得し、前記標準字集合に基づいてノイズ字集合を生成することと、
前記第1ソースドメインサンプル字に対してコンポーネントを分割することにより、前記第1ソースドメインサンプル字に含まれる少なくとも1つのコンポーネントを確定することと、
前記第1ソースドメインサンプル字に含まれる少なくとも1つのコンポーネントに基づき、前記ノイズ字集合から前記スタイルノイズ字を選択することと、
前記スタイルノイズ字、第1ソースドメインサンプル字、および第1ターゲットドメインサンプル字に基づき、第1トレーニングサンプルを生成することと、を含み、
ここで、前記第1ソースドメインサンプル字に含まれる前記少なくとも1つのコンポーネントに基づき、前記ノイズ字集合から前記スタイルノイズ字を選択することは、
前記ノイズ字集合において、前記第1ソースドメインサンプル字を含む前記少なくとも1つのコンポーネントをクエリし、且つ、フォントスタイルが前記第1ターゲットドメインサンプル字のフォントスタイルと同じである字を、前記スタイルノイズ字として確定することを含む、
請求項1に記載の方法。 - 前記標準字集合に基づいてノイズ字集合を生成することは、
前記標準字集合において、スタイルタイプが異なってコンテンツが同じである候補標準字を取得することと、
取得した候補標準字に基づき、前記候補標準字の有効画素分布情報を確定することと、
前記有効画素分布情報に基づき、前記候補標準字の候補ノイズ字を生成して前記ノイズ字集合に追加することとを含む、
請求項2に記載の方法。 - 取得した候補標準字に基づき、前記候補標準字の有効画素分布情報を確定することは、
取得した候補標準字の字数を統計することと、
前記取得した候補標準字における有効画素が画素位置に登場した有効回数を計算することと、
前記有効回数および前記字数に基づき、前記画素位置の有効画素登場確率を計算することと、
前記取得した候補標準字における異なる画素位置の有効画素登場確率を、前記候補標準字の有効画素分布情報として確定することとを含む、
請求項3に記載の方法。 - 前記第1トレーニングサンプルは、複数グループの第1トレーニングサンプルを含み、
前記第2トレーニングサンプルは、複数グループの第2トレーニングサンプルを含み、
前記第1トレーニングサンプルに基づいてターゲットモデルをトレーニングすることは、
前記複数グループの第1トレーニングサンプルに基づき、前記ターゲットモデルに対して第1ラウンドのトレーニングを行うことを含み、
前記第2トレーニングサンプルに基づいてターゲットモデルをトレーニングすることは、
前記複数グループの第2トレーニングサンプルに基づき、前記ターゲットモデルに対して第2ラウンドのトレーニングを行うことを含み、
前記第1ラウンドのトレーニング回数は第2ラウンドのトレーニング回数よりも小さい、
請求項1に記載の方法。 - 前記ターゲットモデルは、予めトレーニングされた文字分類モデルを更に含み、
前記第1トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第1誤字ロスを取得することと、
前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2誤字ロスを取得することと、
前記第1誤字ロスおよび前記第2誤字ロスに基づいて前記文字生成モデルのパラメータを調整することとを更に含み、
ここで、前記第1誤字ロスと第2誤字ロスとをまとめて誤字ロスと呼び、第1ターゲットドメイン生成字と第2ターゲットドメイン生成字とをまとめてターゲットドメイン生成字と呼び、
前記方法は、
前記ターゲットドメイン生成字を前記文字分類モデルに入力し、前記ターゲットドメイン生成字の生成文字ベクトルX=[x 0 ,x 1 ……x i ……x n ]を取得し、ここで、前記生成文字ベクトルXにおける各要素がトレーニングサンプルにおける1つの文字を表し、nは、前記トレーニングサンプルにおける文字数を表し、前記ターゲットドメイン生成字に対し、標準文字ベクトルY=[y 0 ,y 1 ……y i ……y n ]が予め設定され、ここで、前記標準文字ベクトルYにおける各要素が前記トレーニングサンプルにおける1つの文字を表し、nは、前記トレーニングサンプルにおける文字数を表し、前記標準文字ベクトルYは、前記ターゲットドメイン生成字を前記文字分類モデルに入力する場合、所望の前記文字分類モデルが出力するベクトルを表すことと、
前記ターゲットドメイン生成字の生成文字ベクトルXと前記ターゲットドメイン生成字の前記標準文字ベクトルYとの間のクロスエントロピーに基づき、前記誤字ロスを確定することと、
に基づいて前記誤字ロスを計算することをさらに含む、
請求項1に記載の方法。 - 文字生成装置により実行される文字生成方法であって、
ソースドメイン入力字および対応するターゲットドメイン入力字を取得することと、
前記ソースドメイン入力字およびターゲット入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得することとを含み、
前記文字生成モデルは、請求項1から6のいずれか1項に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる、
文字生成方法。 - 第1ソースドメインサンプル字、第1ターゲットドメインサンプル字、およびスタイルタイプが前記第1ターゲットドメインサンプル字のスタイルタイプと同じであるスタイルノイズ字を含む第1トレーニングサンプルを取得し、前記第1トレーニングサンプルに基づき、文字生成モデル、コンポーネント分類モデル、および識別モデルを含むターゲットモデルをトレーニングし、第1文字敵対的ロスを取得するための第1トレーニングサンプルトレーニングモジュールと、
第2ソースドメインサンプル字、第2ターゲットドメインサンプル字、およびスタイルタイプが前記第2ターゲットドメインサンプル字のスタイルタイプと同じであるスタイル標準字を含む第2トレーニングサンプルを取得し、前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスを取得するための第2トレーニングサンプルトレーニングモジュールと、
前記第1文字敵対的ロス、前記第2文字敵対的ロス、コンポーネント分類ロス、およびスタイル敵対的ロスに基づいて前記文字生成モデルのパラメータを調整するための第1ロス調整モジュールとを備え、
ここで、前記第1トレーニングサンプルトレーニングモジュールは、
前記第1ソースドメインサンプル字および前記スタイルノイズ字を前記文字生成モデルに入力し、第1ターゲットドメイン生成字を取得するための第1ターゲットドメイン生成字取得ユニットと、
前記第1ターゲットドメイン生成字および前記第1ターゲットドメインサンプル字を前記識別モデルに入力し、第1文字敵対的ロスを取得するための第1文字敵対的ロス取得ユニットとを備え、
前記第2トレーニングサンプルトレーニングモジュールは、
前記第2ソースドメインサンプル字および前記スタイル標準字を前記文字生成モデルに入力し、第2ターゲットドメイン生成字および前記スタイル標準字の標準スタイル特徴ベクトルを取得するための標準スタイル特徴ベクトル取得ユニットと、
前記第2ターゲットドメイン生成字を前記文字生成モデルに入力し、前記第2ターゲットドメイン生成字の生成スタイル特徴ベクトルを取得するための生成スタイル特徴ベクトル取得ユニットと、
前記生成スタイル特徴ベクトルおよび前記標準スタイル特徴ベクトルを前記コンポーネント分類モデルに入力し、コンポーネント分類ロスを計算するためのコンポーネント分類ロス計算ユニットと、
前記第2ターゲットドメインサンプル字および前記第2ターゲットドメイン生成字を前記識別モデルに入力し、第2文字敵対的ロスおよびスタイル敵対的ロスを計算するための第2文字敵対的ロス計算ユニットとを備える、
文字生成モデルのトレーニング装置。 - 前記第1トレーニングサンプルトレーニングモジュールは、
第1ソースドメインサンプル字および第1ターゲットドメインサンプル字を取得するための第1サンプル字取得ユニットと、
標準字集合を取得し、且つ前記標準字集合に基づいて、ノイズ字集合を生成するためのノイズ字集合生成ユニットと、を備え、
前記第1トレーニングサンプルトレーニングモジュールは、前記第1ソースドメインサンプル字に対してコンポーネントを分割し、前記第1ソースドメインサンプル字に含まれる少なくとも1つのコンポーネントを確定するように配置され、
前記第1トレーニングサンプルトレーニングモジュールは、
前記第1ソースドメインサンプル字に含まれる前記少なくとも1つのコンポーネントに基づき、前記ノイズ字集合から前記スタイルノイズ字を選択するためのスタイルノイズ字取得ユニットと、
前記スタイルノイズ字、第1ソースドメインサンプル字、および第1ターゲットドメインサンプル字に基づき、第1トレーニングサンプルを生成するための第1トレーニングサンプル生成ユニットとをさらに備え、
ここで、前記第1ソースドメインサンプル字に含まれる前記少なくとも1つのコンポーネントに基づき、前記ノイズ字集合から前記スタイルノイズ字を選択することは、
前記ノイズ字集合において、前記第1ソースドメインサンプル字を含む前記少なくとも1つのコンポーネントをクエリし、且つ、フォントスタイルが前記第1ターゲットドメインサンプル字のフォントスタイルと同じである字を、前記スタイルノイズ字として確定することを含む、
請求項8に記載の装置。 - 前記ノイズ字集合生成ユニットは、
前記標準字集合において、スタイルタイプが異なってコンテンツが同じである候補標準字を取得するための候補標準字取得サブユニットと、
取得した候補標準字に基づき、前記候補標準字の有効画素分布情報を確定するための有効画素分布確定サブユニットと、
前記有効画素分布情報に基づき、前記候補標準字の候補ノイズ字を生成して前記ノイズ字集合に追加するためのノイズ字集合生成サブユニットとを備える、
請求項9に記載の装置。 - 前記有効画素分布確定サブユニットは、
取得した候補標準字の字数を統計することと、
前記取得した候補標準字における有効画素が画素位置に登場した有効回数を計算することと、
前記有効回数および前記字数に基づき、前記画素位置の有効画素登場確率を計算することと、
前記取得した候補標準字における異なる画素位置の有効画素登場確率を、前記候補標準字の有効画素分布情報として確定することとに用いられる、
請求項10に記載の装置。 - 前記第1トレーニングサンプルは、複数グループの第1トレーニングサンプルを含み、
前記第2トレーニングサンプルは、複数グループの第2トレーニングサンプルを含み、
前記第1トレーニングサンプルトレーニングモジュールは、
前記複数グループの第1トレーニングサンプルに基づき、前記ターゲットモデルに対して第1ラウンドのトレーニングを行うための第1ラウンドトレーニングユニットを備え、
前記第2トレーニングサンプルトレーニングモジュールは、
前記複数グループの第2トレーニングサンプルに基づき、前記ターゲットモデルに対して第2ラウンドのトレーニングを行うための第2ラウンドトレーニングユニットを備え、
前記第1ラウンドのトレーニング回数は第2ラウンドのトレーニング回数よりも小さい。
請求項8に記載の装置。 - 前記ターゲットモデルは、予めトレーニングされた文字分類モデルを更に含み、
前記第1トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第1誤字ロスを取得するための第1誤字ロス計算モジュールと、
前記第2トレーニングサンプルに基づいて前記ターゲットモデルをトレーニングし、第2誤字ロスを取得するための第2誤字ロス計算モジュールと、
前記第1誤字ロスおよび前記第2誤字ロスに基づいて前記文字生成モデルのパラメータを調整するための第2ロス調整モジュールとを更に備え、
ここで、前記第1誤字ロスと第2誤字ロスとをまとめて誤字ロスと呼び、第1ターゲットドメイン生成字と第2ターゲットドメイン生成字とをまとめてターゲットドメイン生成字と呼び、
前記装置は、
前記ターゲットドメイン生成字を前記文字分類モデルに入力し、前記ターゲットドメイン生成字の生成文字ベクトルX=[x 0 ,x 1 ……x i ……x n ]を取得し、ここで、前記生成文字ベクトルXにおける各要素がトレーニングサンプルにおける1つの文字を表し、nは、前記トレーニングサンプルにおける文字数を表し、前記ターゲットドメイン生成字に対し、標準文字ベクトルY=[y 0 ,y 1 ……y i ……y n ]が予め設定され、ここで、前記標準文字ベクトルYにおける各要素が前記トレーニングサンプルにおける1つの文字を表し、nは、前記トレーニングサンプルにおける文字数を表し、前記標準文字ベクトルYは、前記ターゲットドメイン生成字を前記文字分類モデルに入力する場合、所望の前記文字分類モデルが出力するベクトルを表すことと、
前記ターゲットドメイン生成字の生成文字ベクトルXと前記ターゲットドメイン生成字の前記標準文字ベクトルYとの間のクロスエントロピーに基づき、前記誤字ロスを確定することと、
に基づいて前記誤字ロスを計算するように配置される、
請求項8に記載の装置。 - ソースドメイン入力字および対応するターゲットドメイン入力字を取得するための入力字取得モジュールと、
前記ソースドメイン入力字およびターゲット入力字を文字生成モデルに入力し、ターゲットドメイン新字を取得するための文字生成モジュールとを備え、
前記文字生成モデルは、請求項1から6のいずれか1項に記載の文字生成モデルのトレーニング方法によるトレーニングで得られる、
文字生成装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも1つのプロセッサが請求項1から6のいずれか1項に記載の文字生成モデルのトレーニング方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
電子機器。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも1つのプロセッサが請求項7に記載の文字生成方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
電子機器。 - コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに、請求項1から6のいずれか1項に記載の文字生成モデルのトレーニング方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体。 - コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、コンピュータに、請求項7に記載の文字生成方法を実行させることに用いられる、
非一時的なコンピュータ可読記憶媒体。 - プロセッサにより実行されると、請求項1から6のいずれか1項に記載の文字生成モデルのトレーニング方法を実現する、
コンピュータプログラム。 - プロセッサにより実行されると、請求項7に記載の文字生成方法を実行する、
コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111057826.8 | 2021-09-09 | ||
CN202111057826.8A CN113792853B (zh) | 2021-09-09 | 2021-09-09 | 字符生成模型的训练方法、字符生成方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023039890A JP2023039890A (ja) | 2023-03-22 |
JP7337203B2 true JP7337203B2 (ja) | 2023-09-01 |
Family
ID=78879832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022007211A Active JP7337203B2 (ja) | 2021-09-09 | 2022-01-20 | 文字生成モデルのトレーニング方法、文字生成方法、装置および機器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220180043A1 (ja) |
EP (1) | EP4148678A1 (ja) |
JP (1) | JP7337203B2 (ja) |
KR (1) | KR20220034076A (ja) |
CN (1) | CN113792853B (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114386370A (zh) * | 2022-01-14 | 2022-04-22 | 北京有竹居网络技术有限公司 | 一种字体生成方法、装置及设备 |
US11995906B2 (en) * | 2022-03-02 | 2024-05-28 | Capital One Services, Llc | Techniques for generation of synthetic data with simulated handwriting |
US11928759B2 (en) * | 2022-04-19 | 2024-03-12 | Huawei Technologies Co., Ltd. | Methods and devices for vector line drawing |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019087237A (ja) | 2017-11-08 | 2019-06-06 | アドビ インコーポレイテッド | 敵対的ニューラル・ネットワーク・トレーニングを使用するフォント認識の改善 |
US20210150357A1 (en) | 2018-11-14 | 2021-05-20 | Nvidia Corporation | Smoothing regularization for a generative neural network |
JP2021096634A (ja) | 2019-12-17 | 2021-06-24 | 株式会社日本総合研究所 | 文字処理システム及びプログラム |
CN113140017A (zh) | 2021-04-30 | 2021-07-20 | 北京百度网讯科技有限公司 | 训练对抗网络模型的方法、建立字库的方法、装置和设备 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363293A (zh) * | 2018-03-26 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 神经网络模型的训练、延时摄影视频的生成方法及设备 |
CN109685116B (zh) * | 2018-11-30 | 2022-12-30 | 腾讯科技(深圳)有限公司 | 图像描述信息生成方法和装置及电子装置 |
CN109919251A (zh) * | 2019-03-21 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 一种基于图像的目标检测方法、模型训练的方法及装置 |
CN112562705A (zh) * | 2019-05-05 | 2021-03-26 | 广州虎牙信息科技有限公司 | 直播互动方法、装置、电子设备及可读存储介质 |
CN110503598B (zh) * | 2019-07-30 | 2022-09-16 | 西安理工大学 | 基于条件循环一致性生成对抗网络的字体风格迁移方法 |
CN110516201B (zh) * | 2019-08-20 | 2023-03-28 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN111832511A (zh) * | 2020-07-21 | 2020-10-27 | 中国石油大学(华东) | 一种增强样本数据的无监督行人重识别方法 |
CN112364860A (zh) * | 2020-11-05 | 2021-02-12 | 北京字跳网络技术有限公司 | 字符识别模型的训练方法、装置和电子设备 |
CN112633430B (zh) * | 2020-12-25 | 2022-10-14 | 同济大学 | 一种中文字体风格迁移方法 |
CN113159095B (zh) * | 2021-01-30 | 2024-04-30 | 华为技术有限公司 | 一种训练模型的方法、图像检索的方法以及装置 |
CN112861806B (zh) * | 2021-03-17 | 2023-08-22 | 网易(杭州)网络有限公司 | 基于生成对抗网络的字体数据处理方法及装置 |
CN113095038B (zh) * | 2021-05-08 | 2024-04-16 | 杭州王道控股有限公司 | 基于多任务辨别器生成对抗网络的字体生成方法及装置 |
CN113160042B (zh) * | 2021-05-21 | 2023-02-17 | 北京邮电大学 | 一种图像风格迁移模型训练方法、装置及电子设备 |
-
2021
- 2021-09-09 CN CN202111057826.8A patent/CN113792853B/zh active Active
-
2022
- 2022-01-20 JP JP2022007211A patent/JP7337203B2/ja active Active
- 2022-02-25 EP EP22158686.0A patent/EP4148678A1/en not_active Withdrawn
- 2022-02-28 KR KR1020220026091A patent/KR20220034076A/ko unknown
- 2022-02-28 US US17/682,422 patent/US20220180043A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019087237A (ja) | 2017-11-08 | 2019-06-06 | アドビ インコーポレイテッド | 敵対的ニューラル・ネットワーク・トレーニングを使用するフォント認識の改善 |
US20210150357A1 (en) | 2018-11-14 | 2021-05-20 | Nvidia Corporation | Smoothing regularization for a generative neural network |
JP2021096634A (ja) | 2019-12-17 | 2021-06-24 | 株式会社日本総合研究所 | 文字処理システム及びプログラム |
CN113140017A (zh) | 2021-04-30 | 2021-07-20 | 北京百度网讯科技有限公司 | 训练对抗网络模型的方法、建立字库的方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
KR20220034076A (ko) | 2022-03-17 |
JP2023039890A (ja) | 2023-03-22 |
EP4148678A1 (en) | 2023-03-15 |
US20220180043A1 (en) | 2022-06-09 |
CN113792853A (zh) | 2021-12-14 |
CN113792853B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7337203B2 (ja) | 文字生成モデルのトレーニング方法、文字生成方法、装置および機器 | |
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN113792526B (zh) | 字符生成模型的训练方法、字符生成方法、装置和设备和介质 | |
CN113222916A (zh) | 采用目标检测模型检测图像的方法、装置、设备和介质 | |
US20220189189A1 (en) | Method of training cycle generative networks model, and method of building character library | |
KR20220034069A (ko) | 모델 훈련 및 폰트 라이브러리 구축 방법, 장치, 설비 및 저장 매체 | |
CN113591566A (zh) | 图像识别模型的训练方法、装置、电子设备和存储介质 | |
KR20220034070A (ko) | 모델 훈련 및 폰트 라이브러리 구축 방법, 장치, 설비 및 저장 매체 | |
CN113792850B (zh) | 字体生成模型训练方法、字库建立方法、装置及设备 | |
CN112580666A (zh) | 图像特征的提取方法、训练方法、装置、电子设备及介质 | |
CN113177449A (zh) | 人脸识别的方法、装置、计算机设备及存储介质 | |
JP2023062150A (ja) | 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体 | |
US20230115765A1 (en) | Method and apparatus of transferring image, and method and apparatus of training image transfer model | |
US20230154077A1 (en) | Training method for character generation model, character generation method, apparatus and storage medium | |
CN113591969B (zh) | 面部相似度评测方法、装置、设备以及存储介质 | |
US11508044B2 (en) | Method for translating image, method for training image translation model | |
CN113903071A (zh) | 人脸识别方法、装置、电子设备和存储介质 | |
CN114973279B (zh) | 手写文本图像生成模型的训练方法、装置和存储介质 | |
CN115309888B (zh) | 图表摘要的生成方法和生成模型的训练方法、装置 | |
CN115376140A (zh) | 图像处理方法、装置、设备及介质 | |
CN115147850A (zh) | 文字生成模型的训练方法、文字生成方法及其装置 | |
CN117671685A (zh) | 一种文本中字符位置确定方法以及装置 | |
CN115984947A (zh) | 图像生成方法、训练方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230518 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230822 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7337203 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |