JP7513947B2

JP7513947B2 - 学習済みの機械学習モデル、画像データ生成装置、および、方法

Info

Publication number: JP7513947B2
Application number: JP2019146891A
Authority: JP
Inventors: 航平渡邉
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2024-07-10
Anticipated expiration: 2039-08-08
Also published as: JP2021026191A

Description

本明細書は、機械学習モデルを用いて文字を示す画像データを生成する技術に関する。

特許文献１に開示された文字フォントの作成処理方式では、標準フォントおよびユーザ筆記文字をそれぞれ複数個の部品に分割し、各部品の幅、高さ、オフセットなどの特徴を測定する。この技術では、標準フォントの特徴とユーザ筆記文字の特徴とを、ニューラルネットワークに学習させる。使用時には、使用したい標準フォントの文字の特徴をニューラルネットワークに入力すると、ユーザ筆記文字の特徴に応じた個性的フォントの特徴データが生成される。そして、出力された特徴データと標準フォントの文字とを用いて個性的フォントの文字が生成される。

特開平５－２６５４２９号公報

しかしながら、上記技術では、使用したい文字ごとに標準フォントの文字の特徴を測定する必要があり、個性的フォントの文字の生成が煩雑になる可能性があった。また、個性的フォントには、部品の幅、高さ、オフセットなどの特徴しか反映されないため、ユーザ筆記文字の特徴が十分に反映されない可能性があった。

本明細書は、第１の書体とは異なる第２の書体を有する文字を示す出力画像データを容易に生成できる技術を開示する。

本明細書に開示された技術は、上述の課題の少なくとも一部を解決するためになされたものであり、以下の適用例として実現することが可能である。

［適用例１］トレーニング処理によってトレーニングされた学習済みの機械学習モデルであって、前記機械学習モデルは、入力画像データに対して複数個の演算パラメータを用いる演算処理を実行することによって、前記入力画像データの特徴の抽出と、抽出された特徴に基づく出力画像データの生成と、を行うモデルであり、前記トレーニング処理は、第１の書体を有する文字を示す入力画像データと、前記入力画像データに対応付けられるラベルデータであって文字の種別を示す前記ラベルデータと、をそれぞれ含む複数個の入力データを前記機械学習モデルに入力することによって、前記複数個の入力データに対応する複数個の出力画像データを生成する処理と、前記複数個の出力画像データと、前記複数個の入力画像データに対応する複数個の教師画像データと、を用いて、前記出力画像データと前記教師画像データとの差が小さくなるように、前記複数個の演算パラメータを調整する処理と、を含み、前記複数個の教師画像データのそれぞれは、前記第１の書体とは異なる第２の書体を有する文字を示す、学習済みの機械学習モデル。

上記構成によれば、学習済みの機械学習モデルは、第１の書体を有する文字を示す入力画像データとラベルデータとが入力されるだけで、第２の書体を有する文字を示す出力画像データを容易に生成することができる。さらには、入力画像データとともに文字の種別を示すラベルデータが学習済みの機械学習モデルに入力されるので、機械学習モデルは、文字の種別に応じた特徴をトレーニング処理において適切に学習できる。この結果、学習済みの機械学習モデルは、文字の種別に応じた特徴を反映した出力画像データを生成することができる。
［適用例２]
適用例１に記載の学習済みの機械学習モデルであって、
前記第２の書体を有する文字は、手書き文字であり、
前記トレーニング処理は、
複数個の領域のそれぞれに前記手書き文字が記入された原稿を示す原稿画像データであってイメージセンサを用いて生成される前記原稿画像データを取得する処理と、
前記原稿画像データを用いて、前記複数個の領域に対応する複数個の手書き文字画像データを取得する処理と、
を含み、
前記複数個の教師画像データは、前記複数個の手書き文字画像データである、学習済みの機械学習モデル。
［適用例３]
適用例１または２に記載の学習済みの機械学習モデルであって、
前記ラベルデータは、複数個の文字が属するカテゴリを示す情報を含み、前記カテゴリに属する複数個の文字のそれぞれを識別する識別情報を含まない、学習済みの機械学習モデル。
［適用例４]
適用例３に記載の学習済みの機械学習モデルであって、
「漢字」を示す前記入力画像データに対応付けられる前記カテゴリを示す情報は、「漢字」を示す情報であり、
「かな」を示す前記入力画像データに対応付けられる前記カテゴリを示す情報は、「かな」を示す情報である、学習済みの機械学習モデル。
［適用例５]
適用例３または４に記載の学習済みの機械学習モデルであって、
前記複数個の入力画像データは、
第１のカテゴリを示す前記ラベルデータに対応付けられる第１の画像データであって、前記第１のカテゴリに属する第１の文字を示す前記第１の画像データと、
第２のカテゴリを示す前記ラベルデータに対応付けられる第２の画像データであって、前記第２のカテゴリに属し、かつ、前記第１の文字と形状が類似する第２の文字を示す前記第２の画像データと、
を含む、学習済みの機械学習モデル。

［適用例６］画像データ生成装置であって、第１の書体を有する文字を示す入力画像データを取得する画像取得部と、前記入力画像データに対応付けられるラベルデータであって前記第１の文字の種別を示す前記ラベルデータを取得するラベル取得部と、前記入力画像データと前記ラベルデータとを含む前記入力データを機械学習モデルに入力することによって前記第１の書体とは異なる第２の書体を有する文字を示す前記出力画像データを生成する画像生成部であって、前記機械学習モデルは、前記入力画像データの特徴を抽出し、抽出された特徴に基づいて前記出力画像データを生成するモデルである、前記画像生成部と、を備える画像データ生成装置。

上記構成によれば、画像データ生成装置は、第１の書体を有する文字を示す入力画像データとラベルデータとが入力されるだけで、第２の書体を有する文字を示す出力画像データを容易に生成することができる。さらには、入力画像データとともに文字の種別を示すラベルデータが入力されるので、文字の種別に応じた特徴を反映した出力画像データを生成することができる。
［適用例７]
適用例６に記載の画像データ生成装置であって、
前記出力画像データを用いて、前記第２の書体を有する文字を含む画像を示す印刷データを生成する、画像データ生成装置。

なお、本明細書に開示される技術は、種々の形態で実現することが可能であり、例えば、上記の機械学習モデルのトレーニング方法、上記装置、方法の機能を実現するためのコンピュータプログラム、そのコンピュータプログラムを記録した記録媒体、等の形態で実現することができる。

本実施例の手書文字生成システム１０００の構成を示すブロック図。入力画像ＩＩと出力画像ＯＩとの一例を示す図。生成ネットワークＧＮの構成を示すブロック図。トレーニング処理のうち、複合機２００が実行する処理のフローチャート。シートデータＳＤによって示される画像の一例を示す第１の図。シートデータＳＤによって示される画像の一例を示す第２の図。記入済みの記入シートＥＳと、属性データＡＤと、の一例を示す図。トレーニング処理のうち、サーバ１００が実行する処理のフローチャート。データ生成処理のフローチャート。宛名情報ＴＸと、印刷画像ＰＩと、の一例を示す図。

Ａ．実施例
Ａ－１．手書文字生成システム１０００の構成
次に、実施の形態を実施例に基づき説明する。図１は、本実施例の手書文字生成システム１０００の構成を示すブロック図である。手書文字生成システム１０００は、本実施例の画像データ生成装置としてのサーバ１００と、複合機２００と、を備えている。

サーバ１００は、インターネットＩＴに接続された計算機である。サーバ１００は、サーバ１００のコントローラとしてのＣＰＵ１１０と、ＲＡＭなどの揮発性記憶装置１２０と、ハードディスクドライブやフラッシュメモリなどの不揮発性記憶装置１３０と、通信インタフェース（ＩＦ）１４０と、を備えている。通信インタフェース１４０は、インターネットＩＴと接続するためのインタフェースである。

揮発性記憶装置１２０は、ＣＰＵ１１０が処理を行う際に生成される種々の中間データを一時的に格納するバッファ領域を提供する。不揮発性記憶装置１３０には、コンピュータプログラムＰＧと、フォントデータＦＤと、シートデータＳＤと、シートデータＳＤと対応づけられた属性データＡＤと、が格納されている。

コンピュータプログラムＰＧとフォントデータＦＤとシートデータＳＤと属性データＡＤとは、複合機２００の製造者によって提供され、サーバ１００にアップロードされる。ＣＰＵ１１０は、コンピュータプログラムＰＧを実行することにより、複合機２００と協働して、後述するトレーニング処理とデータ生成処理を実行する。フォントデータＦＤは、既存の公知のフォント（例えば、明朝体）の文字を示すデータである。シートデータＳＤと属性データＡＤとは、後述するトレーニング処理にて用いられる。シートデータＳＤと属性データＡＤとについては、後述する。

コンピュータプログラムＰＧは、後述する生成ネットワーク（generator）ＧＮの機能をＣＰＵ１１０に実現させるコンピュータプログラムをモジュールとして含んでいる。

複合機２００は、ＣＰＵやメモリを含む制御部２１０と、読取部２２０と、印刷部２３０と、を備えている。制御部２１０は、読取部２２０と印刷部２３０とを制御する。読取部２２０は、光電変換素子（例えば、ＣＣＤ、ＣＭＯＳ）を備える一次元イメージセンサを用いて光学的に原稿を読み取ることによって原稿を示すスキャンデータを生成する。印刷部２３０は、インクジェット方式や電子写真方式などの印刷方式に従って印刷材としてのインクやトナーを用いて用紙などの印刷媒体上に画像を印刷する。複合機２００は、インターネットＩＴを介してサーバ１００と通信可能に接続されている。

Ａ－２．生成ネットワークＧＮの構成
図１の下側には、生成ネットワークＧＮの概略図が示されている。生成ネットワークＧＮは、ＣＰＵ１１０がコンピュータプログラムＰＧを実行することによって実現される。図１に示すように、生成ネットワークＧＮには、入力データとして、入力画像データＩＤとラベルデータＬＤとからなるデータペアが入力される。

図２は、入力画像ＩＩと出力画像ＯＩとの一例を示す図である。入力画像データＩＤは、入力画像ＩＩを示す画像データである。本実施例の入力画像ＩＩは、既存のフォント（例えば、明朝体）で文字を示す画像データである。ＣＰＵ１１０は、フォントデータＦＤにて規定されている文字を示す入力画像データＩＤを、フォントデータＦＤに基づいて生成することができる。ラベルデータＬＤは、対応する入力画像データＩＤによって示される文字が属するカテゴリを示す情報である。図２（Ａ）には、一例として、入力画像ＩＩ１～ＩＩ６と、対応するラベルデータＬＤａ～ＬＤｃと、が図示されている。漢字の「花」、「力（ちから）」を示す入力画像ＩＩ１、ＩＩ２には、カテゴリが「漢字」であることを示すラベルデータＬＤａが対応付けられている。ひらがなの「か」を示す入力画像ＩＩ３には、カテゴリが「ひらがな」であることを示すラベルデータＬＤｂが対応付けられている。カタカナの「カ」を示す入力画像ＩＩ４には、カテゴリが「カタカナ」であることを示すラベルデータＬＤｃが対応付けられている。カテゴリは、想定される入力画像ＩＩによって示される文字が漏れなく、１個のカテゴリに属するように設定される。例えば、本実施例では、「漢字」、「ひらがな」、「カタカナ」の３種のカテゴリに加えて、例えば、アルファベットとアラビア数字が属するカテゴリ「英数字」と、これらの４種のカテゴリのいずれにも属さない文字（例えば、算術記号などの文字）が属するカテゴリ「その他」と、が設定されている（図示省略）。

なお、ラベルデータＬＤは、各カテゴリに属する複数個の文字のそれぞれを識別する識別情報を含まない。例えば、漢字の「花」、「力」を示す入力画像ＩＩ１、ＩＩ２に対応付けられるラベルデータＬＤａは、包括的なカテゴリである「漢字」を示す情報（例えば、「漢字」に割り当てられた特定のデータ）を含むが、「花」や「力」を識別する情報は含まない。

生成ネットワークＧＮは、オートエンコーダとも呼ばれるニューラルネットワークである。生成ネットワークＧＮは、入力画像データＩＤの特徴（入力画像ＩＩの特徴）を抽出し、抽出された特徴に基づいて出力画像ＯＩを示す出力画像データＯＤを生成する（図１）。出力画像データＯＤによって示される出力画像ＯＩは、対応する入力画像ＩＩに示される特定の文字を手書きの書体で示す。

図２（Ｂ）には、図２（Ａ）の入力画像ＩＩ１～ＩＩ４に対応する出力画像ＯＩ１～ＯＩ４が図示されている。図２（Ｂ）に示すように、「花」、「力（ちから）」、「か」、「カ（かたかな）」を示す入力画像ＩＩ１～ＩＩ４に対応する出力画像ＯＩ１～ＯＩ４は、それぞれ、「花」、「力（ちから）」、「か」、「カ（かたかな）」の手書き文字を示す。このように、生成ネットワークＧＮは、特定の文字の書体を、特定のフォントの書体から、手書きの書体に変換することができる。これは、後述するトレーニング処理によって、生成ネットワークＧＮがトレーニングされるためである。

本実施例では、入力画像データＩＤおよび出力画像データＯＤは、複数個の画素を含む画像を示すビットマップデータであり、具体的には、ＲＧＢ値によって画素ごとの色を表すＲＧＢ画像データである。ＲＧＢ値は、３個の色成分の階調値（以下、成分値とも呼ぶ）、すなわち、Ｒ値、Ｇ値、Ｂ値を含むＲＧＢ表色系の色値である。Ｒ値、Ｇ値、Ｂ値は、例えば、所定の階調数（例えば、２５６）の階調値である。入力画像データＩＤおよび出力画像データＯＤのデータの次元数、すなわち、入力画像ＩＩと出力画像ＯＩとの画素数は、互いに等しい。

図３は、生成ネットワークＧＮの構成を示すブロック図である。図１、図３に示すように、生成ネットワークＧＮは、エンコーダＥＣとデコーダＤＣとを含んでいる。

エンコーダＥＣは、入力画像データＩＤとラベルデータＬＤとからなる入力データに対して、複数個の演算パラメータＰｅを用いて、次元削減処理を実行して、入力画像データＩＤの特徴（すなわち、入力画像ＩＩの特徴）を示す特徴データＣＤを生成する。本実施例では、入力画像データＩＤは、（２５６×２５６）個の画素のそれぞれの３個の成分値（Ｒ値、Ｇ値、Ｂ値）を含むので、（２５６×２５６×３）個の値を含むデータ、すなわち、（２５６×２５６×３）次元のデータである。また、ラベルデータＬＤ（カテゴリを示す情報）は、（２５６×２５６×１）個の値を含むデータ、すなわち、（２５６×２５６×１）次元のデータである。である。したがって、本実施例の入力データは、（２５６×２５６×４）次元のデータである。特徴データＣＤは、本実施例では、（１６×１６×１２８）次元のデータである。このように、次元削減処理では、入力画像データＩＤの次元数が削減される。

図３の左側には、エンコーダＥＣの構成が示されている。エンコーダＥＣは、入力層ＥＬ＿０と、複数個の畳込層ＥＬ＿１～畳込層ＥＬ＿４を有するニューラルネットワークである。

入力層ＥＬ＿０は、入力データ（入力画像データＩＤとラベルデータＬＤ）が入力される層である。１番目の畳込層ＥＬ＿１には、入力層ＥＬ＿０に入力された入力データがそのまま入力される。畳込層ＥＬ＿１は、（２５６×２５６×４）次元の入力データに対して、後述する演算処理を実行して（Ａ_１×Ｂ_１×Ｃ_１）次元のデータを生成する（Ａ_１、Ｂ_１、Ｃ_１は正の整数）。

ｋ番目（ｋは、２～４の整数）の畳込層ＥＬ＿ｋには、（ｋ－１）番目の畳込層ＥＬ＿（ｋ－１）によって生成される（Ａ_ｋ－１×Ｂ_ｋ－１×Ｃ_ｋ－１）次元のデータに対して、所定の後処理（後述）を実行して得られる（Ａ_ｋ－１、Ｂ_ｋ－１、Ｃ_ｋ－１）次元の処理済データが入力される。畳込層ＥＬ＿ｋは、（Ａ_ｋ－１×Ｂ_ｋ－１×Ｃ_ｋ－１）次元の処理済データに対して、後述する演算処理を実行して（Ａ_ｋ×Ｂ_ｋ×Ｃ_ｋ）次元のデータを生成する（Ａ_ｋ、Ｂ_ｋ、Ｃ_ｋは正の整数）。

各畳込層ＥＬ＿１～ＥＬ＿４が実行する演算処理は、畳込処理(convolution)とバイアスの加算処理とを含む。畳込処理は、入力されたデータに対して、（ｐ×ｑ×ｒ）次元のｓ個のフィルタを順次に適用して入力されたデータとフィルタとの相関を示す相関値を算出する処理である。各フィルタを適用する処理では、フィルタをスライドさせながら複数個の相関値が順次に算出される。１個のフィルタは、（ｐ×ｑ×ｒ）個の重みを含んでいる。バイアスの加算処理は、算出された相関値に、１個のフィルタに対して１個ずつ準備されたバイアスを加算する処理である。ｓ個のフィルタに含まれる（ｐ×ｑ×ｒ×ｓ）個の重みと、ｓ個のフィルタに対応するｓ個のバイアスと、は、上述した複数個の演算パラメータＰｅであり、後述するトレーニング処理において調整される値である。

各畳込層ＥＬ＿１～ＥＬ＿４によって生成されるデータの各値は、上述した相関値にバイアスを加えた値である。各畳込層ＥＬ＿１～ＥＬ＿４によって生成されるデータに含まれるデータの個数（例えば、畳込層ＥＬ＿１の場合は（Ａ_１×Ｂ_１×Ｃ_１））は、畳込処理におけるストライド（フィルタをスライドさせる量）と、フィルタの個数ｓと、によって決定される。

畳込層ＥＬ＿１によって生成されるデータの各値は、上述した後処理として、活性化関数に入力されて変換される。本実施例では、活性化関数には、いわゆるLeakyReLU（Leaky Rectified Linear Unit）が用いられる。

畳込層ＥＬ＿２～畳込層ＥＬ＿４によって生成されるデータの各値は、上述した後処理として、バッチノーマライゼーション（Batch Normalization）によって変換された後に、さらに、活性化関数に入力されて変換される。バッチノーマライゼーションは、後述するトレーニング処理では、用いられる入力データの集合（バッチ）分について、各値の平均と分散を計算して、各値を正規化する処理である。使用時（後述するデータ生成処理時）には、トレーニング処理時にバッチごとに算出された平均と分散の移動平均値を用いて、各値が正規化される。

畳込層ＥＬ＿４によって生成されるデータに対して、上述した後処理を実行して得られる処理済データが、上述した特徴データＣＤである。

なお、本実施例にて、各畳込層ＥＬ＿１～ＥＬ＿４によって生成されるデータの次元数（Ａ_１×Ｂ_１×Ｃ_１）～（Ａ_４×Ｂ_４×Ｃ_４）は、以下の通りである。
（Ａ_１×Ｂ_１×Ｃ_１）＝（１２８×１２８×３２）
（Ａ_２×Ｂ_２×Ｃ_２）＝（６４×６４×６４）
（Ａ_３×Ｂ_３×Ｃ_３）＝（３２×３２×１２８）
（Ａ_４×Ｂ_４×Ｃ_４）＝（１６×１６×１２８）

デコーダＤＣは、エンコーダＥＣによって生成された特徴データＣＤに対して、複数個の演算パラメータＰｄを用いて、次元復元処理を実行して、上述した出力画像データＯＤを生成する。本実施例では、特徴データＣＤは、上述したように（１６×１６×１２８）次元のデータである。本実施例では、出力画像データＯＤは、入力画像データＩＤと同様に、（２５６×２５６×３）個の値を含むデータ、すなわち、（２５６×２５６×３）次元のデータである。本実施例では、このように、本実施例の次元復元処理では、特徴データＣＤの次元数が復元される。

図３の右側には、デコーダＤＣの構成が示されている。デコーダＤＣは、複数個の転置畳込層ＤＬ＿１～転置畳込層ＤＬ＿４を有するニューラルネットワークである。

１番目の転置畳込層ＤＬ＿１には、特徴データＣＤが入力される。転置畳込層ＤＬ＿１は、特徴データＣＤに対して、後述する演算処理を実行して（Ｄ_１×Ｅ_１×Ｆ_１）次元のデータを生成する（Ｄ_１、Ｅ_１、Ｆ_１は正の整数）。

ｍ番目（ｍは、２～４の整数）の転置畳込層ＤＬ＿ｍには、（ｍ－１）番目の転置畳込層ＤＬ＿（ｍ－１）によって生成される（Ｄ_ｍ－１、Ｅ_ｍ－１、Ｆ_ｍ－１）次元のデータに対して所定の後処理（後述）を実行して得られる（Ｄ_ｍ－１、Ｅ_ｍ－１、Ｆ_ｍ－１）次元の処理済データが入力される。転置畳込層ＤＬ＿ｍは、入力される処理済データに対して、後述する演算処理を実行して（Ｄ_ｍ×Ｅ_ｍ×Ｆ_ｍ）次元のデータを生成する（Ｄ_ｍ、Ｅ_ｍ、Ｆ_ｍは正の整数）。

各転置畳込層ＤＬ＿１～ＤＬ＿４が実行する演算処理は、転置畳込処理（transposed convolution）とバイアスの加算処理とを含む。転置畳込処理は、入力されたデータに対して、ストライドに応じて適宜に値（例えばゼロの値）を追加して次元数を増加させた後に、上述した畳込処理と同様に（ｐ×ｑ×ｒ）次元のフィルタを用いた畳み込み演算を行う処理である。バイアスの加算処理は、転置畳込演算で算出された相関値に、１個のフィルタに対して１個ずつ準備されたバイアスを加算する処理である。ｓ個のフィルタに含まれる（ｐ×ｑ×ｒ×ｓ）個の重みと、ｓ個のフィルタに対応するｓ個のバイアスと、は、上述した複数個の演算パラメータＰｄであり、後述するトレーニング処理において調整される値である。

各転置畳込層ＤＬ＿１～ＤＬ＿４によって生成されるデータの各値は、上述した相関値にバイアスを加えた値である。各転置畳込層ＤＬ＿１～ＤＬ＿４によって生成されるデータに含まれるデータの個数（例えば、転置畳込層ＤＬ＿１の場合は（Ｄ_１×Ｅ_１×Ｆ_１））は、転置畳込処理におけるストライド（ゼロ等の値を追加する量）と、フィルタの個数ｓと、によって決定される。

転置畳込層ＤＬ＿１によって生成されるデータの各値は、上述した後処理として、上述したバッチノーマライゼーションによって変換される。そして、バッチノーマライゼーションによって変換された各値は、さらに後処理として、活性化関数に入力されて変換される。活性化関数には、いわゆるReLU（Rectified Linear Unit）が用いられる。

転置畳込層ＤＬ＿２、ＤＬ＿３によって生成されるデータの各値は、上述した後処理として、上述したバッチノーマライゼーションによって変換される。そして、トレーニング処理では、バッチノーマライゼーションによって変換された各値は、さらに後処理として、ドロップアウトによって変換された後に、活性化関数に入力されて変換される。ドロップアウトは、過学習を抑制するために、ランダムに選択された一部の値を無効化（０にする）する処理である。活性化関数には、上述のReLUが用いられる。使用時（後述のデータ生成処理）では、ドロップアウトは行われず、バッチノーマライゼーションによって変換された各値は、活性化関数に入力されて変換される。

転置畳込層ＤＬ＿４によって生成されるデータの各値は、上述した後処理として活性化関数に入力されて変換される。活性化関数には、いわゆるシグモイドが用いられる。後処理後の（Ｄ_４×Ｅ_４×Ｆ_４）次元のデータは、上述した出力画像データＯＤである。したがって、転置畳込層ＤＬ＿４によって生成されるデータの次元数（Ｄ_４×Ｅ_４×Ｆ_４）は、出力画像データＯＤの次元数（２５６×２５６×３）と等しい。

なお、本実施例にて、各転置畳込層ＤＬ＿１～ＤＬ＿４によって生成されるデータの次元数（Ｄ_１×Ｅ_１×Ｆ_１）～（Ｄ_４×Ｅ_４×Ｆ_４）は、以下の通りである。
（Ｄ_１×Ｅ_１×Ｆ_１）＝（３２×３２×３２）
（Ｄ_２×Ｅ_２×Ｆ_２）＝（６４×６４×３２）
（Ｄ_３×Ｅ_３×Ｆ_３）＝（１２８×１２８×３２）
（Ｄ_４×Ｅ_４×Ｆ_４）＝（２５６×２５６×３）

Ａ－３．トレーニング処理
トレーニング処理によって、上述した生成ネットワークＧＮは、入力画像データＩＤとラベルデータＬＤとからなる入力データが入力された場合に、所望の出力画像データＯＤを生成できるように、トレーニングされる。複合機２００とサーバ１００とは、協働してトレーニング処理を実行する。
Ａ－３－１．複合機の処理
図４は、トレーニング処理のうち、複合機２００が実行する処理のフローチャートである。この処理は、例えば、複合機２００のユーザの開始指示に基づいて開始される。

Ｓ１０では、複合機２００の制御部２１０は、シートデータＳＤをサーバ１００から受信する。具体的には、制御部２１０は、サーバ１００にシートデータＳＤの要求を送信する。サーバ１００は、該要求に対する応答としてシートデータＳＤを複合機２００に送信する。これによって、制御部２１０は、シートデータＳＤを受信する。

図５、図６は、シートデータＳＤによって示される画像の一例を示す図である。シートデータＳＤは、複数個のサンプル画像ＳＰＩと、複数個の空欄画像ＥＰＩと、を示すデータである。複数個のサンプル画像ＳＰＩと、複数個の空欄画像ＥＰＩとは、一対一で対応している。例えば、図５（Ａ）の漢字用のサンプル画像ＳＰＩａと、図５（Ｂ）の漢字用の空欄画像ＥＰＩａと、は対応している。図６（Ａ）のかな用のサンプル画像ＳＰＩｂと、図６（Ｂ）のかな用の空欄画像ＥＰＩｂと、は対応している。

サンプル画像ＳＰＩ（例えば、ＳＰＩａ、ＳＰＩｂ）は、識別番号ＮＭと、既存のフォントの文字を含む複数個の文字領域ＣＡと、を含んでいる。空欄画像ＥＰＩ（例えば、ＥＰＩａ、ＥＰＩｂ）は、識別番号ＮＭと、空欄となっている複数個の記入領域ＥＡと、を含んでいる。識別番号ＮＭは、サンプル画像ＳＰＩと該サンプル画像ＳＰＩと対応する空欄画像ＥＰＩとのペアごとに付加された番号であり、ペアごとに異なる。サンプル画像ＳＰＩの各文字領域ＣＡの文字は、予め領域ごとに定められたカテゴリに属する文字である。サンプル画像ＳＰＩに示される文字は、カテゴリに属する全ての文字を含まず、カテゴリに属する一部の文字のみである。例えば、「漢字」のカテゴリに属する文字は、６０００字以上であるが、サンプル画像ＳＰＩに示される文字は、例えば、そのうちの数百字である。「ひらがな」、「カタカナ」のカテゴリに属する文字は、約５０字であるが、サンプル画像ＳＰＩに示される文字は、例えば、そのうちの１０～３０字である。

Ｓ２０では、制御部２１０は、シートデータＳＤを用いて、印刷部２３０に、シートデータＳＤによって示される複数個のサンプル画像ＳＰＩと複数個の空欄画像ＥＰＩとを用紙に印刷させる。これによって、複数個のサンプル画像ＳＰＩが印刷された複数枚のサンプルシートＳＳと、複数個の空欄画像ＥＰＩが印刷された複数枚の記入シートＥＳと、が作成される。図５、図６は、サンプルシートＳＳａ、ＳＳｂ、記入シートＥＳａ、ＥＳｂを示す図とも言うことができる。

ユーザは、複数枚のサンプルシートＳＳを参照しながら、複数枚の記入シートＥＳの複数個の記入領域ＥＡに、手書き文字を記入する。各記入領域ＥＡに記入領域ＥＡに記入すべき文字は、サンプルシートの対応する文字領域ＣＡに示された文字である。図７は、記入済みの記入シートＥＳと、属性データＡＤと、の一例を示す図である。図７（Ａ）に示すように、記入済みの記入シートＥＳａ、ＥＳｂには、複数個の記入領域ＥＡに手書きで文字が記入されている。

ここで、複数個のサンプル画像ＳＰＩ（複数枚のサンプルシートＳＳ）に示される文字、換言すれば、ユーザが複数枚の記入シートＥＳに記入すべき文字は、カテゴリに属する全ての文字を含まず、カテゴリに属する一部の文字のみである。例えば、「漢字」のカテゴリに属する文字は、５０００字以上であるが、サンプル画像ＳＰＩに示される文字は、例えば、そのうちの数百字である。「ひらがな」、「カタカナ」のカテゴリに属する文字は、約５０字であるが、サンプル画像ＳＰＩに示される文字は、例えば、そのうちの１０～３０字である。記入シートＥＳに記入すべき文字の個数が過度に少ないと、ユーザの手書きの書体の特徴が十分に反映された出力画像データＯＤを出力できるように生成ネットワークＧＮをトレーニングできない可能性がある。記入シートＥＳに記入すべき文字の個数が過度に多い場合には、ユーザの記入の負担が過度に大きくなる可能性がある。これらのバランスを考慮して、記入シートＥＳに記入すべき文字の個数が決定されている。また、記入シートＥＳに記入すべき文字の個数や種類は、漢字の部首などの特徴的な要素を網羅するように決定されることが好ましい。

図４のＳ３０では、制御部２１０は、読取部２２０に記入済みの複数枚の記入シートＥＳを読み取らせることによって、読取部２２０に複数枚の記入済みの記入シートＥＳを示すスキャンデータを生成させる。図７（Ａ）は、該スキャンデータによって示されるスキャン画像ＳＩａ、ＳＩｂを示す図とも言うことができる。スキャンデータは、例えば、ＲＧＢ画像データである。

Ｓ４０では、制御部２１０は、生成されたスキャンデータをサーバ１００に送信すると複合機２００の処理を終了する。

Ａ－３－２．サーバの処理
図８は、トレーニング処理のうち、サーバ１００が実行する処理のフローチャートである。Ｓ１００では、サーバ１００のＣＰＵ１１０は、図４のＳ４０にて複合機２００から送信されるスキャンデータを受信する。スキャンデータは、上述したように、複数個のスキャン画像ＳＩ（例えば、図７（Ａ）のＳＩａ、ＳＩｂ）を示す。

Ｓ１０５では、ＣＰＵ１１０は、スキャンデータを用いて、複数個のスキャン画像ＳＩに含まれる複数個の記入領域ＥＡを特定する。記入領域ＥＡの特定は、属性データＡＤ（図１）を用いて実行される。属性データＡＤは、各空欄画像ＥＰＩに対応する属性情報ＡＩを含んでいる。図７（Ｂ）には、空欄画像ＥＰＩａ、ＥＰＩｂに対応する属性情報ＡＩａ、ＡＩｂが示されている。

属性情報ＡＩは、対応する空欄画像ＥＰＩに含まれる識別番号ＮＭを含む。この識別番号ＮＭは、空欄画像ＥＰＩに対応するスキャン画像ＳＩにも含まれるので、ＣＰＵ１１０は、スキャンデータを解析して、スキャン画像ＳＩに含まれる識別番号ＮＭを特定する。これによって、ＣＰＵ１１０は、スキャン画像ＳＩごとに、参照すべき属性情報ＡＩを特定できる。例えば、ＣＰＵ１１０は、図７（Ａ）のスキャン画像ＳＩａに含まれる識別番号ＮＭとして、「０００１」を特定することで、該識別番号「０００１」を含む属性情報ＡＩａ（図７（Ｂ））を、参照すべき属性情報として特定する。

属性情報ＡＩは、空欄画像ＥＰＩａに含まれる複数個の記入領域ＥＡに関する領域情報、換言すれば、該空欄画像ＥＰＩａ対応するスキャン画像ＳＩに含まれる複数個の記入領域ＥＡに関する領域情報を含む（図７（Ｂ））。領域情報は、該複数個の記入領域ＥＡに記入されるべき文字のカテゴリ（例えば、「漢字」、「ひらがな」、「かたかな」）を示す情報を含む。領域情報は、該複数個の記入領域ＥＡを特定するための座標リストを含む。座標リストは、例えば、矩形の記入領域ＥＡの左上と右下の頂点の位置（座標）を、空欄画像ＥＰＩの特定位置（例えば、左上の頂点）を基準とする座標系で示す座標情報である。空欄画像ＥＰＩにおける記入領域ＥＡの位置は、スキャン画像ＳＩにおける記入領域ＥＡの位置と等しいので、ＣＰＵ１１０は、これらの領域情報に基づいてスキャン画像ＳＩ上における複数個の記入領域ＥＡを特定する。

Ｓ１１０では、ＣＰＵ１１０は、スキャンデータから、複数個の記入領域ＥＡのそれぞれに対応する部分画像データを、教師画像データＴＤとして取得する。教師画像データＴＤは、例えば、上述した入力画像データＩＤと同様に、（２５６×２５６×３）次元のデータである。教師画像データＴＤは、入力画像データＩＤによって示される入力画像ＩＩと同じ画素数の画像を示すＲＧＢ画像データである。なお、教師画像データＴＤは、取得された部分画像データに対して、所定の処理（例えば、ノイズの除去処理や二値化処理やスムージング処理）が実行された後の画像データであっても良い。

Ｓ１１５では、ＣＰＵ１１０は、属性データＡＤとフォントデータＦＤ（図１）を用いて、複数個の教師画像データＴＤに対応する複数個の入力画像データＩＤを生成する。図７（Ｂ）に示すように、属性データＡＤの各属性情報ＡＩの領域情報は、文字リストを含む。文字リストは、各記入領域ＥＡに記入されるべき文字を示す文字コードのリストである。この文字リストは、記入領域ＥＡに対応するサンプル画像ＳＰＩの文字領域ＣＡに含まれる文字のリストとも言うことができる。ＣＰＵ１１０は、文字リストを参照して、各教師画像データＴＤに対応する記入領域ＥＡに記入されるべき文字を、教師画像データＴＤによって示される文字として特定する。ＣＰＵ１１０は、フォントデータＦＤを用いて、特定された文字を既存のフォントで示す画像データを、該教師画像データＴＤに対応する入力画像データＩＤとして生成する。

Ｓ１２０では、ＣＰＵ１１０は、必要なラベルデータＬＤを生成する。例えば、ＣＰＵ１１０は、属性データＡＤの各属性情報ＡＩに含まれるカテゴリの情報を参照して、教師画像データＴＤおよび入力画像データＩＤによって示される文字が属するカテゴリを示すラベルデータＬＤを生成する。例えば、「漢字」、「ひらがな」、「カタカナ」、「英数字」、「その他」などのカテゴリを示すラベルデータＬＤが生成される。

Ｓ１００～Ｓ１２０の処理を終えた時点で、トレーニングに必要なデータ群、すなわち、複数個の入力画像データＩＤと、該複数個の入力画像データＩＤと一対一で対応する複数個の教師画像データＴＤと、該複数個の入力画像データＩＤによって示される文字のカテゴリを示すラベルデータＬＤと、の準備が完了する。

Ｓ１３０では、ＣＰＵ１１０は、生成ネットワークＧＮの複数個の演算パラメータＰｅ、Ｐｄを初期化する。例えば、これらの演算パラメータＰｅ、Ｐｄの初期値は、同一の分布（例えば、正規分布）から独立に取得された乱数に設定される。

Ｓ１３５では、ＣＰＵ１１０は、Ｓ１１５にて生成された複数個の入力画像データの中から、バッチサイズ分の入力画像データＩＤを選択する。複数個の入力画像データＩＤは、Ｖ個（Ｖは２以上の整数）ずつの入力画像データＩＤをそれぞれ含む複数個のグループ（バッチ）に分割される。ＣＰＵ１１０は、これらの複数個のグループから１個のグループを順次に選択することによって、Ｖ個の使用すべき入力画像データＩＤを選択する。これに代えて、Ｖ個ずつの入力画像データＩＤは、複数個の入力画像データＩＤから、毎回、ランダムに選択されても良い。

Ｓ１４０では、ＣＰＵ１１０は、選択されたＶ個の入力画像データＩＤを、それぞれ、対応するラベルデータＬＤとともに、生成ネットワークＧＮに入力して、Ｖ個の出力画像データＯＤを生成する。

Ｓ１４５では、ＣＰＵ１１０は、Ｖ個の出力画像データＯＤのそれぞれについて、出力画像データＯＤと、対応する教師画像データＴＤと、の間の誤差値ＥＶを算出する。出力画像データＯＤに対応する教師画像データＴＤは、該出力画像データＯＤを生成する際に生成ネットワークＧＮに入力された入力画像データＩＤと対応する教師画像データＴＤである。誤差値ＥＶは、所定の損失関数に基づいて算出される。例えば、誤差値ＥＶの算出には、平均二乗誤差（MSE（Mean Squared Error））が用いられる。誤差値ＥＶは、出力画像データＯＤと教師画像データＴＤの差分が小さくなるほど小さくなる。

Ｓ１５０では、ＣＰＵ１１０は、Ｖ個の誤差値ＥＶを用いて、生成ネットワークＧＮの複数個の演算パラメータＰｅ、Ｐｄを調整する。具体的には、ＣＰＵ１１０は、誤差値ＥＶが小さくなるように、すなわち、出力画像データＯＤと教師画像データＴＤとの差分が小さくなるように、所定のアルゴリズムに従って演算パラメータＰｅ、Ｐｄを調整する。所定のアルゴリズムには、例えば、誤差逆伝播法と勾配降下法とを用いたアルゴリズムが用いられる。

Ｓ１５５では、ＣＰＵ１１０は、トレーニングが完了したか否かを判断する。本実施例では、例えば、Ｓ１３５～Ｓ１５０の処理が所定回数だけ繰り返された場合に、トレーニングが完了されたと判断される。これに代えて、例えば、ＣＰＵ１１０は、複合機２００のユーザからの完了指示が複合機２００から取得された場合にトレーニングが完了したと判断しても良い。例えば、ＣＰＵ１１０はトレーニング用に用いられた入力画像データＩＤとは別の複数個のテスト用の入力画像データＩＤを、生成ネットワークＧＮに入力して、複数個の出力画像データＯＤを生成する。ＣＰＵ１１０は、出力画像データＯＤを複合機２００に送信して、出力画像データＯＤによって示される文字を複合機２００の表示部に表示させる。ユーザは、出力画像データＯＤによって示される文字が、十分に自分の手書きの書体で表現されているか否かを確認する。ユーザは、確認結果に応じて、複合機２００に、トレーニングの完了指示または継続指示を入力する。サーバ１００のＣＰＵ１１０は、これらの指示に基づいて、トレーニングが完了したか否かを判断しても良い。

トレーニングが完了していないと判断される場合には（Ｓ１５５：ＮＯ）、ＣＰＵ１１０は、Ｓ１３５に処理を戻す。トレーニングが完了したと判断される場合には（Ｓ１５５：ＹＥＳ）、ＣＰＵ１１０は、生成ネットワークＧＮのトレーニング処理を終了する。このトレーニング処理が終了した時点で、生成ネットワークＧＮは、演算パラメータＰｅ、Ｐｄが調整された学習済みモデルになっている。したがって、このトレーニング処理は、学習済みの生成ネットワークＧＮを生成（製造）する処理である、と言うことができる。

Ａ－４．データ生成処理
上述したトレーニング処理が完了して、サーバ１００に、複合機２００のユーザの手書きの書体で文字を示す出力画像データＯＤを生成できるネットワークＧＮが、サーバ１００に生成されると、複合機２００のユーザは、データ生成処理を利用することができる。本実施例のデータ生成処理は、ユーザの手書きの書体を有する文字を含む宛名画像を示す印刷データを生成し、該印刷データによって示される画像をハガキに印刷する処理である。図９は、データ生成処理のフローチャートである。

Ａ－４－１．複合機の処理
図９（Ａ）には、データ生成処理のうち、複合機２００が実行する処理のフローチャートが示されている。この処理は、例えば、複合機２００のユーザの開始指示に基づいて開始される。

Ｓ２１０では、複合機２００の制御部２１０は、ユーザから宛名情報ＴＸを取得する。図１０は、宛名情報ＴＸと、印刷画像ＰＩと、の一例を示す図である。図１０（Ａ）の宛名情報ＴＸは、郵便番号と住所と氏名とを示す文字情報（テキストデータ）である。宛名情報ＴＸは、例えば、複合機２００のボタンやタッチパネルなどの操作部（図示省略）を介して、ユーザによって入力される。

Ｓ２２０では、制御部２１０は、宛名情報ＴＸをサーバ１００に送信する。Ｓ２３０では、制御部２１０は、サーバ１００から印刷画像ＰＩを示す印刷データを受信する。例えば、制御部２１０は、Ｓ２２０にてサーバ１００に送信した宛名情報ＴＸに対する応答として、印刷データを受信する。印刷データは、後述するサーバの処理（図９（Ｂ））をサーバ１００のＣＰＵ１１０が実行することによって生成される。

図１０（Ｂ）の印刷画像ＰＩは、図９（Ａ）の宛名情報ＴＸに示される文字を手書きの書体で示す文字、具体的には、漢字ＴＸＩａ、ひらがなＴＸＩｂ、数字ＴＸＩｃを含んでいる。

Ｓ２４０では、制御部２１０は、印刷データを用いて、印刷部２３０に、印刷画像ＰＩを用紙（例えば、ハガキ）に印刷させる。これによって、宛名がユーザの手書きの書体で記載されたハガキが作成される。

Ａ－４－２．サーバの処理
図９（Ｂ）には、データ生成処理のうち、サーバ１００が実行する処理のフローチャートが示されている。Ｓ３１０では、サーバ１００のＣＰＵ１１０は、図９（Ａ）のＳ２２０にて複合機２００から送信される宛名情報ＴＸを受信する。

Ｓ３２０では、ＣＰＵ１１０は、宛名情報ＴＸとフォントデータＦＤ（図１）とを用いて、複数個の入力画像データＩＤを生成する。入力画像データＩＤは、宛名情報ＴＸに含まれる各文字について生成される。生成される１個の入力画像データＩＤは、宛名情報ＴＸに含まれる１つの文字を既存のフォントで示す。

Ｓ３３０では、生成された複数個の入力画像データＩＤに対応するラベルデータＬＤを生成する。具体的には、各入力画像データＩＤによって示される文字が属するカテゴリを示すラベルデータＬＤが生成される。例えば、図９（Ａ）の宛名情報ＴＸは、漢字（例えば、「山」「田」）、ひらがな（例えば、「か」）、英数字（例えば、「１」、「２」）を含むので、「漢字」、「ひらがな」、「英数字」を示すラベルデータＬＤが生成される。ここで、生成されるラベルデータＬＤは、トレーニング処理（図８）で用いられたラベルデータＬＤと同じデータである。

Ｓ３４０では、ＣＰＵ１１０は、Ｓ３２０にて生成された複数個の入力画像データＩＤを、それぞれ、対応するラベルデータＬＤとともに、生成ネットワークＧＮに入力して、複数個の出力画像データＯＤを生成する。生成される複数個の出力画像データＯＤは、それぞれ、宛名情報ＴＸに含まれる１つの文字をユーザの手書きの書体で示す画像である。

Ｓ３５０では、ＣＰＵ１１０は、Ｓ３４０にて生成された複数個の出力画像データＯＤを用いて、印刷データを生成する。例えば、ＣＰＵ１１０は、複数個の出力画像データＯＤのそれぞれに対して、所定の調整処理、例えば、拡大縮小処理やスムージング処理を実行して、図１０（Ｂ）の印刷画像ＰＩに配置すべき文字、すなわち、漢字ＴＸＩａ、ひらがなＴＸＩｂ、数字ＴＸＩｃを示す画像データを生成する。ＣＰＵ１１０は、これらの画像データと、予め準備されたテンプレートデータ（図示省略）と、を用いて、印刷データを生成する。生成される印刷データは、テンプレート画像に漢字ＴＸＩａ、ひらがなＴＸＩｂ、数字ＴＸＩｃが配置された印刷画像ＰＩ（図１０（Ｂ））を示す。

Ｓ３６０では、ＣＰＵ１１０は、生成された印刷データを複合機２００に送信して、処理を終了する。

以上説明した本実施例によれば、データ生成処理に用いられる学習済みの生成ネットワークＧＮは、図４、図８のトレーニング処理によってトレーニングされている。このトレーニング処理は、既存のフォントの書体を有する文字を示す入力画像データＩＤ（図２）と、文字の種別を示すラベルデータＬＤ（図２）と、をそれぞれ含む複数個の入力データを、生成ネットワークＧＮに入力することによって、複数個の出力画像データＯＤを生成する処理（図８のＳ１４０）と、複数個の出力画像データＯＤと複数個の教師画像データＴＤとを用いて、出力画像データＯＤと教師画像データＴＤとの差が小さくなるように、複数個の演算パラメータＰｅ、Ｐｄを調整する処理（図８のＳ１４５、Ｓ１５０）と、を含む。複数個の教師画像データＴＤのそれぞれは、既存のフォントの書体とは異なる手書きの書体を有する文字を示す（図７、図８のＳ１１０など）。この結果、学習済みのネットワークＧＮは、既存のフォントの書体を有する文字を示す入力画像データＩＤとラベルデータＬＤとが入力されるだけで、手書きの書体を有する文字を示す出力画像データＯＤを容易に生成することができる。さらには、入力画像データＩＤとともに文字の種別を示すラベルデータＬＤがトレーニング処理にて生成ネットワークＧＮに入力されるので、生成ネットワークＧＮは、文字の種別に応じた特徴を適切に学習できる。したがって、学習済みの生成ネットワークＧＮは、文字の種別に応じた特徴を反映した出力画像データＯＤを生成することができる。

また、本実施例では、例えば、６０００字以上ある文字のうちの数百字分の入力画像データＩＤを学習するだけで、学習済みの生成ネットワークＧＮは、あらゆる文字について、手書きの書体を有する文字を示す出力画像データＯＤを生成できる。例えば、従来では、新たな書体のデータ（例えば、フォントデータ）を作成するためには、６０００字以上の文字について、一字ずつ書体のデータを作成する必要があり、膨大な作業量と時間とを要していた。このために、例えば、多数のユーザの一人一人について、各ユーザの筆跡の特徴を反映するように手書きの書体のデータを生成することは、困難であった。本実施例によれば、新たな書体のデータを作成するための負荷を大幅に軽減できるので、例えば、サーバ１００を利用することで、多数のユーザのそれぞれが、自身の筆跡の特徴が反映された手書きの書体のデータを生成することができる。

さらに、図８のトレーニング処理は、複数個の記入領域ＥＡのそれぞれに手書き文字が記入された原稿である記入シートＥＳを示すスキャンデータを取得する処理（図８のＳ１００）と、スキャンデータを用いて、複数個の記入領域ＥＡに対応する複数個の手書き文字画像データを、複数個の教師画像データＴＤとして取得する処理（図８のＳ１０５、Ｓ１１０）と、を含む。これにより、ユーザの手書きの書体の文字を示す教師画像データＴＤを容易に取得できる。この結果、トレーニング処理において、ユーザの手書きの書体の文字を示す適切な教師画像データＴＤを用いて、生成ネットワークＧＮをトレーニングできる。したがって、上記構成によれば、学習済みの生成ネットワークＧＮは、手書き文字を示す出力画像データを容易に生成することができる。

さらに、本実施例では、ラベルデータＬＤは、複数個の文字が属するカテゴリ（例えば、「漢字」、「ひらがな」）を示す情報を含み、カテゴリに属する複数個の文字のそれぞれを識別する識別情報を含まない。この結果、生成ネットワークＧＮは、文字のカテゴリに応じた特徴をトレーニング処理において適切に学習できる。この結果、学習済みの生成ネットワークＧＮは、文字のカテゴリに応じた特徴が反映された出力画像データＯＤを生成することができる。例えば、手書き文字の書体は、カテゴリに応じて異なる特徴を有する場合がある。例えば、ユーザによっては、手書きの「漢字」は角張った書体になるが、「ひらがな」や「カタカナ」は柔らかな丸みを帯びた書体になる場合がある。本実施例では、トレーニング時に、入力画像データＩＤとともにカテゴリを示すラベルデータＬＤがネットワークＧＮに入力されるので、ネットワークＧＮは、カテゴリごとに適切に書体の特徴を学習できる。また、データ生成処理時には、入力画像データＩＤとともにカテゴリを示すラベルデータＬＤがネットワークＧＮに入力されるので、学習済みの生成ネットワークＧＮは、ラベルデータＬＤによって示されるカテゴリの書体の特徴が反映された文字を示す出力画像データＯＤを生成することができる。

さらに、上述したように、トレーニング処理で用いられる入力画像データＩＤの個数は、数百字程度であり、使用時（例えば、データ生成処理時）に入力され得る入力画像データＩＤの種類数（例えば、６０００字以上）よりも遙かに少ない。仮にネットワークＧＮに入力されるラベルデータＬＤに、文字のそれぞれを識別する識別情報（例えば、「花」、「力」などの個々の文字の識別情報）が含まれる場合には、学習済みの生成ネットワークＧＮを使用する際に、未知のラベルデータＬＤが学習済みの生成ネットワークＧＮに入力される可能性が高い。この場合には、ラベルデータＬＤは、生成ネットワークＧＮにとって有用な情報であるとは言えないので、生成ネットワークＧＮによる出力画像データＯＤの生成に悪影響を与え得る。例えば、生成される出力画像データＯＤにおいて手書きの書体を再現する精度が低下し得る。本実施例によれば、ラベルデータＬＤは文字のそれぞれを識別する識別情報を含まないので、出力画像データＯＤにおける手書きの書体の再現精度が低下することを抑制できる。

さらに、本実施例では、「漢字」を示す入力画像データＩＤに対応付けられるラベルデータＬＤ（カテゴリを示す情報）は、「漢字」を示す情報であり、「かな」（例えば、ひらがなやカタカナ）を示す入力画像データＩＤに対応付けられるラベルデータＬＤは、当該「かな」（例えば、ひらがなやカタカナ）を示す情報である。この結果、生成ネットワークＧＮは、「漢字」の特徴と、「かな」の特徴と、をトレーニング処理においてそれぞれ適切に学習できる。したがって、学習済みの生成ネットワークＧＮは、ユーザの「漢字」の書体の特徴が反映された「漢字」を示す出力画像データＯＤと、ユーザの「かな」の書体の特徴が反映された「かな」を示す出力画像データＯＤとを、それぞれ、生成することができる。例えば、上述したように、「漢字」の書体の特徴と、「かな」の書体の特徴と、が異なる場合であっても、「漢字」と「かな」の書体の特徴をそれぞれ反映するように、「漢字」と「かな」を示す出力画像データＯＤをそれぞれ生成することができる。

さらに、上記実施例によれば、複数個の入力画像データＩＤは、「漢字」のカテゴリを示すラベルデータＬＤに対応付けられる入力画像データＩＤであって、「漢字」のカテゴリに属する「カ（ちから）」の文字を示す入力画像データＩＤ（図２、図５）を含む。複数個の入力画像データＩＤは、「カタカナ」のカテゴリを示すラベルデータＬＤに対応付けられる入力画像データＩＤであって、「カタカナ」のカテゴリに属する「カ」の文字を示す入力画像データＩＤ（図２、図６）を含む。「漢字」のカテゴリに属する「カ（ちから）」の文字と、「カタカナ」のカテゴリに属する「カ」の文字とは、形状が類似している。本実施例によれば、ネットワークＧＮは、このような「漢字」のカテゴリに属する「カ（ちから）」の文字と、「カタカナ」のカテゴリに属する「カ」の文字と、のように、カテゴリが異なるが互いに形状が類似する文字の特徴を、それぞれ、適切に学習できる。この結果、学習済みの生成ネットワークＧＮは、「漢字」のカテゴリに属する「カ（ちから）」の文字と、「カタカナ」のカテゴリに属する「カ」の文字と、のように、カテゴリが異なるが互いに形状が類似する文字を示す出力画像データＯＤを、それぞれ、適切に生成することができる。例えば、漢字は角張った筆跡で書き、カタカナは丸みのある筆跡で書くユーザの手書き文字として、「漢字」の「カ（ちから）」を角張った書体で再現し、「カタカナ」の「カ」を丸みのある書体で再現するような生成ネットワークＧＮが実現できる。カテゴリが異なるが互いに形状が類似する文字としては、他に、「漢字」の「二」、「口」、「夕」と「カタカナ」の「二」、「ロ」、「タ」などがある。

さらに、上記実施例のサーバ１００が実行するデータ生成処理において、図９（Ｂ）のＳ３１０、Ｓ３２０にて既存のフォントの書体を有する文字を示す入力画像データＩＤを取得するＣＰＵ１１０は、画像取得部の例である。図９（Ｂ）のＳ３３０にて、入力画像データＩＤに対応付けられるラベルデータＬＤを取得するＣＰＵ１１０は、ラベル取得部の例である。図９（Ｂ）のＳ３４０にて、入力画像データＩＤとラベルデータＬＤとを含む入力データを学習済みの生成ネットワークＧＮに入力することによって、手書きの書体を有する文字を示す出力画像データＯＤを生成するＣＰＵ１１０は、画像生成部の例である。このように、画像データ生成装置としてのサーバ１００は、既存のフォントの書体を有する文字を示す入力画像データＩＤとラベルデータＬＤとが入力されるだけで、手書きの書体を有する文字を示す出力画像データＯＤを容易に生成することができる。さらには、入力画像データＩＤとともに文字の種別を示すラベルデータＬＤが入力されるので、文字の種別に応じた特徴を反映した出力画像データＯＤを生成することができる。

さらに、本実施例のサーバ１００は、図９（Ｂ）のＳ３５０にて、出力画像データＯＤを用いて、手書きの書体を有する文字を含む印刷画像ＰＩ（図１０（Ｂ））を示す印刷データを生成する。このように、サーバ１００は、手書き文字を含む画像を示す印刷データを容易に生成することができる。したがって、例えば、複合機２００は、サーバ１００によって生成される印刷データを用いて、印刷画像ＰＩを用紙に印刷することによって、ユーザの手書きの書体を有する文字を印刷して、ユーザに提供することができる。

以上の説明から解るように、本実施例の生成ネットワークＧＮは、機械学習モデルの例であり、スキャンデータは、原稿画像データの例である。既存のフォントの書体は、第１の書体の例であり、ユーザの手書きの書体は、第２の書体の例である。「漢字」のカテゴリに属する「カ（ちから）」の文字は、第１のカテゴリに属する第１の文字の例であり、「カタカナ」のカテゴリに属する「カ」の文字は、第２のカテゴリに属する第２の文字の例である。

Ｂ．変形例：
（１）上記実施例のトレーニング処理では、教師画像データＴＤは、スキャンデータから取得されている。これに代えて、教師画像データＴＤは、２次元イメージセンサを備えるデジタルカメラを用いて、記入済みのテストシートＴＳを撮影して得られる撮影画像データから取得されても良い。また、教師画像データＴＤは、例えば、タッチパネル上に指やタッチペンを用いて手書きされた文字を示す画像データから取得されて良い。

（２）上記実施例では、教師画像データＴＤは、複数個の記入領域ＥＡを含むスキャン画像ＳＩから取得されているが、これに限られない。例えば、教師画像データＴＤは、習字などの手書き文字をデジタルカメラで一文字ずつ撮影して得られる画像データであっても良い。

（３）上記実施例では、教師画像データＴＤによって示される文字は、手書きの書体を有する文字である。これに代えて、例えば、教師画像データＴＤによって示される文字は、手書きではない手法で作成された新規のフォントの書体を有する文字であっても良い。この場合には、新規のフォントの書体を有する数百字分の教師画像データＴＤを準備して生成ネットワークＧＮをトレーニングすることによって、他の数千字分の新規のフォントの書体を有する文字を生成できる学習済みの生成ネットワークＧＮが得られる。

（４）上記実施例では、ラベルデータＬＤは、複数個の文字が属するカテゴリを示す情報である。これに代えて、ラベルデータＬＤは、例えば、アルファベットなどの限られた個数の文字について、手書きの書体の文字を示す出力画像データＯＤを生成する場合には、個々の文字を識別する情報であっても良い。

（５）上記実施例のデータ生成処理では、出力画像データＯＤを用いて生成される画像（印刷画像ＰＩ）は、複合機２００によって印刷されることによって、ユーザに提供される。これに代えて、出力画像データＯＤを用いて生成される画像は、例えば、ユーザの複合機２００や端末装置（例えば、スマートフォン）の表示部に表示されることによって、ユーザに提供されても良い。

（６）上記実施例では、データ生成処理の対象となる文字は、漢字、ひらがな、カタカナを含む日本語の文字である。これに代えて、データ生成処理の対象となる文字は、他の言語の文字であっても良い。例えば、データ生成処理の対象となる文字は、中国語の文字であっても良い。この場合には、例えば、ラベルデータＬＤによって示されるカテゴリは、「簡体字」と「繁体字」とを含んでも良い。また、データ生成処理の対象となる文字は、英語の文字であっても良い。この場合には、例えば、ラベルデータＬＤによって示されるカテゴリは、「アルファベット」と「記号や数字」とを含んでも良い。

（７）上記実施例の生成ネットワークＧＮ（図２）の構成は一例であり、これに限られない。例えば、生成ネットワークＧＮにおいて、畳込層や転置畳込層の層数は、適宜に変更されて良い。また、生成ネットワークＧＮの各層で出力された値に対して実行される後処理も適宜に変更され得る。例えば、後処理に用いられる活性化関数は、任意の関数、例えば、ＲｅＬＵ、ＬｅａｋｙＲｅＬＵ、ＰＲｅＬＵ、ソフトマックス、シグモイドが用いられ得る。また、バッチノーマリゼイション、ドロップアウトなどの処理も後処理として適宜に追加や省略がされ得る。

（８）上記実施例の生成ネットワークＧＮのトレーニング処理（図４、図８）は、一例であり、これに限られない。例えば、上記実施例では、教師画像データＴＤと出力画像データＯＤとの誤差値ＥＶが小さくなるように、生成ネットワークＧＮがトレーニングされている。これに代えて、例えば、トレーニング処理では、生成ネットワークＧＮと識別ネットワークとから成るネットワークシステムであって、いわゆる敵対的生成ネットワーク（GANs(Generative adversarial networks)）を構成するネットワークシステムを用いて、生成ネットワークＧＮをトレーニングしても良い。この場合には、識別ネットワークは、出力画像データＯＤを偽データと判定し、教師画像データＴＤを真データと判定するようにトレーニングされる。生成ネットワークＧＮは、識別ネットワークが出力画像データＯＤを真データであると誤って判定するようにトレーニングされる。

また、上記実施例のトレーニング処理では誤差値ＥＶとして、平均絶対誤差が用いられているが、これに代えて、他の種類の誤差値が用いられても良い。例えば、クロスエントロピー誤差や平均絶対誤差が用いられても良い。

（９）図１のサーバ１００のハードウェア構成は、一例であり、これに限られない。例えば、サーバ１００のプロセッサは、ＣＰＵに限らず、ＧＰＵ（Graphics Processing Unit）やＡＳＩＣ（application specific integrated circuit）、あるいは、これらとＣＰＵとの組み合わせであっても良い。また、サーバ１００は、ネットワークを介して互いに通信可能な複数個の計算機（例えば、いわゆるクラウドサーバ）であっても良い。

（１０）図８や図９（Ｂ）のサーバ１００の全部を、複合機２００の制御部２１０が実行しても良い。この場合には、サーバ１００は不要である。この場合には、複合機２００が画像データ生成装置の例である。

また、図８のトレーニング処理の一部、例えば、スキャンデータから複数個の教師画像データＴＤを取得する処理（図８のＳ１００～Ｓ１１０）は、複合機２００の制御部２１０によって実行されても良い。この場合には、複合機２００は、複数個の教師画像データＴＤをサーバ１００に送信する。

また、図９（Ｂ）のデータ生成処理の一部、例えば、宛名情報を用いて入力画像データＩＤを生成する処理（図９（Ｂ）のＳ３２０）、入力画像データＩＤに対応するラベルデータＬＤを生成する処理（図９（Ｂ）のＳ３３０）は、複合機２００によって実行されても良い。この場合には、複合機２００は、入力画像データＩＤやラベルデータＬＤをサーバ１００に送信する。また、複合機２００は、図９（Ｂ）のＳ３４０にて生成される出力画像データＯＤをサーバ１００から受信しても良い。この場合には、複合機２００の制御部２１０が、図９（Ｂ）のＳ３５０にて、出力画像データＯＤを用いて印刷データを生成しても良い。これらの場合には、サーバ１００と複合機２００との全体が、画像データ生成装置の例である。

（１１）上記各実施例において、ハードウェアによって実現されていた構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されていた構成の一部あるいは全部をハードウェアに置き換えるようにしてもよい。例えば、生成ネットワークＧＮや識別ネットワークＤＮは、プログラムモジュールに代えて、ASIC（Application Specific Integrated Circuit）等のハードウェア回路によって実現されてよい。

以上、実施例、変形例に基づき本発明について説明してきたが、上記した発明の実施の形態は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明は、その趣旨並びに特許請求の範囲を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれる。

１０００…手書文字生成システム、１００…サーバ、１１０…ＣＰＵ、１２０…揮発性記憶装置、１３０…不揮発性記憶装置、１４０…通信インタフェース、２００…複合機、２１０…制御部、２２０…読取部、２３０…印刷部、ＦＤ…フォントデータ、ＳＤ…シートデータ、ＡＤ…属性データ、ＰＧ…コンピュータプログラム、ＧＮ…生成ネットワーク、ＬＤ…ラベルデータ、ＩＤ…入力画像データ、ＴＤ…教師画像データ、ＯＤ…出力画像データ、ＥＶ…誤差値、ＩＩ…入力画像、ＯＩ…出力画像、ＩＴ…インターネット、ＳＰＩ…サンプル画像、ＥＰＩ…空欄画像、ＥＡ…記入領域、ＣＡ…文字領域、ＳＩ…スキャン画像、ＴＸ…宛名情報、ＰＩ…印刷画像

Claims

トレーニング処理によってトレーニングされた学習済みの機械学習モデルであって、
前記機械学習モデルは、入力画像データとラベルデータとを含む入力データに対して、畳込層を含むニューラルネットワークによって特徴データ生成処理を実行して特徴データを生成するエンコーダと、前記特徴データに対して、次元数を復元する次元復元処理を実行して出力画像データを生成するデコーダと、を含むモデルであって、前記特徴データ生成処理は、前記ニューラルネットワークの演算処理によって前記入力画像データの画素に対応する次元数を削減し、成分に対応する次元数を増加させるように、前記入力画像データの次元数を変更する処理であり、複数個の演算パラメータを用いて前記特徴データ生成処理および前記次元復元処理を実行するモデルであり、
学習済みの前記機械学習モデルは、第１の書体を有する特定の文字を示す前記入力画像データが入力される場合に、前記第１の書体とは異なる第２の書体を有する前記特定の文字を示す前記出力画像データを生成するようにコンピュータを機能させ、
前記トレーニング処理は、
第１の書体を有する文字を示す入力画像データと、前記入力画像データに対応付けられる前記ラベルデータと、をそれぞれ含む複数個の前記入力データを前記機械学習モデルに入力することによって、前記複数個の入力データに対応する複数個の出力画像データを生成する処理と、
前記複数個の出力画像データと、前記複数個の入力画像データに対応する複数個の教師画像データと、の間の誤差値を、所定の損失関数を用いて算出する処理と、
前記誤差値が小さくなるように、前記複数個の演算パラメータを調整する処理と、
を含み、
前記複数個の教師画像データのそれぞれは、前記第２の書体を有する文字を示し、
前記ラベルデータは、前記入力画像データによって示される文字が属するカテゴリであって複数個の文字が属する前記カテゴリを示す情報を含み、前記カテゴリに属する複数個の文字を識別する識別情報を含まず、
前記カテゴリは、（１）ひらがな、（２）カタカナ、（３）ひらがなとカタカナとを含む「かな」、（４）アルファベット、（５）漢字、（６）簡体字、（７）繁体字のうちのいずれかである、学習済みの機械学習モデル。
請求項１に記載の学習済みの機械学習モデルであって、
前記第２の書体を有する文字は、手書き文字であり、
前記トレーニング処理は、
複数個の領域のそれぞれに前記手書き文字が記入された原稿を示す原稿画像データであってイメージセンサを用いて生成される前記原稿画像データを取得する処理と、
前記原稿画像データを用いて、前記複数個の領域に対応する複数個の手書き文字画像データを取得する処理と、
を含み、
前記複数個の教師画像データは、前記複数個の手書き文字画像データである、学習済みの機械学習モデル。
請求項１または２に記載の学習済みの機械学習モデルであって、
前記複数個の入力画像データは、
第１のカテゴリを示す前記ラベルデータに対応付けられる第１の画像データであって、前記第１のカテゴリに属する第１の文字を示す前記第１の画像データと、
第２のカテゴリを示す前記ラベルデータに対応付けられる第２の画像データであって、前記第２のカテゴリに属し、かつ、前記第１の文字と形状が類似する第２の文字を示す前記第２の画像データと、
を含む、学習済みの機械学習モデル。
画像データ生成装置であって、
第１の書体を有する文字を示す入力画像データを取得する画像取得部と、
前記入力画像データに対応付けられるラベルデータを取得するラベル取得部であって、前記ラベルデータは、前記入力画像データによって示される文字が属するカテゴリであって複数個の文字が属する前記カテゴリを示す情報を含み、前記カテゴリに属する複数個の文字を識別する識別情報を含まず、前記カテゴリは、（１）ひらがな、（２）カタカナ、（３）ひらがなとカタカナとを含む「かな」、（４）アルファベット、（５）漢字、（６）簡体字、（７）繁体字のうちのいずれかである、前記ラベル取得部と、
前記入力画像データと前記ラベルデータとを含む入力データを機械学習モデルに入力することによって前記第１の書体とは異なる第２の書体を有する文字を示す出力画像データを生成する画像生成部と、
を備え、
前記機械学習モデルは、前記入力画像データと前記ラベルデータとを含む前記入力データに対して、畳込層を含むニューラルネットワークによって特徴データ生成処理を実行して特徴データを生成するエンコーダと、前記特徴データに対して、次元数を復元する次元復元処理を実行して前記出力画像データを生成するデコーダと、を含むモデルであって、前記特徴データ生成処理は、前記ニューラルネットワークの演算処理によって前記入力画像データの画素に対応する次元数を削減し、成分に対応する次元数を増加させるように、前記入力画像データの次元数を変更する処理であり、複数個の演算パラメータを用いて前記特徴データ生成処理および前記次元復元処理を実行するモデルであり、
前記機械学習モデルは、前記第１の書体を有する特定の文字を示す前記入力画像データが入力される場合に、前記第２の書体を有する前記特定の文字を示す前記出力画像データを生成するように、トレーニング処理によってトレーニングされた学習済みのモデルであり、
前記トレーニング処理は、
前記第１の書体を有する文字を示す学習用の前記入力画像データと、学習用の前記入力画像データに対応付けられる前記ラベルデータと、をそれぞれ含む複数個の前記入力データを前記機械学習モデルに入力することによって、前記複数個の入力データに対応する複数個の出力画像データを生成する処理と、
前記複数個の出力画像データと、前記複数個の入力画像データに対応する複数個の教師画像データと、の間の誤差値を、所定の損失関数を用いて算出する処理と、
前記誤差値が小さくなるように、前記複数個の演算パラメータを調整する処理と、
を含み、
前記複数個の教師画像データのそれぞれは、前記第２の書体を有する文字を示す、画像データ生成装置。
請求項４に記載の画像データ生成装置であって、
前記出力画像データを用いて、前記第２の書体を有する文字を含む画像を示す印刷データを生成する、画像データ生成装置。
画像データを生成する方法であって、
第１の書体を有する文字を示す入力画像データを取得する画像取得工程と、
前記入力画像データに対応付けられるラベルデータを取得するラベル取得工程であって、前記ラベルデータは、前記入力画像データによって示される文字が属するカテゴリであって複数個の文字が属する前記カテゴリを示す情報を含み、前記カテゴリに属する複数個の文字を識別する識別情報を含まず、前記カテゴリは、（１）ひらがな、（２）カタカナ、（３）ひらがなとカタカナとを含む「かな」、（４）アルファベット、（５）漢字、（６）簡体字、（７）繁体字のうちのいずれかである、前記ラベル取得工程と、
前記入力画像データと前記ラベルデータとを含む入力データを機械学習モデルに入力することによって前記第１の書体とは異なる第２の書体を有する文字を示す出力画像データを生成する画像生成工程と、
を備え、
前記機械学習モデルは、前記入力画像データと前記ラベルデータとを含む前記入力データに対して、畳込層を含むニューラルネットワークによって特徴データ生成処理を実行して特徴データを生成するエンコーダと、前記特徴データに対して、次元数を復元する次元復元処理を実行して前記出力画像データを生成するデコーダと、を含むモデルであって、前記特徴データ生成処理は、前記ニューラルネットワークの演算処理によって前記入力画像データの画素に対応する次元数を削減し、成分に対応する次元数を増加させるように、前記入力画像データの次元数を変更する処理であり、複数個の演算パラメータを用いて前記特徴データ生成処理および前記次元復元処理を実行するモデルであり、
前記機械学習モデルは、前記第１の書体を有する特定の文字を示す前記入力画像データが入力される場合に、前記第２の書体を有する前記特定の文字を示す前記出力画像データを生成するように、トレーニング処理によってトレーニングされた学習済みのモデルであり、
前記トレーニング処理は、
前記第１の書体を有する文字を示す学習用の前記入力画像データと、学習用の前記入力画像データに対応付けられる前記ラベルデータと、をそれぞれ含む複数個の前記入力データを前記機械学習モデルに入力することによって、前記複数個の入力データに対応する複数個の出力画像データを生成する処理と、
前記複数個の出力画像データと、前記複数個の入力画像データに対応する複数個の教師画像データと、の間の誤差値を、所定の損失関数を用いて算出する処理と、
前記誤差値が小さくなるように、前記複数個の演算パラメータを調整する処理と、
を含み、
前記複数個の教師画像データのそれぞれは、前記第２の書体を有する文字を示す、方法。