JP7372591B2

JP7372591B2 - 画像処理装置、および、学習済みの機械学習モデル

Info

Publication number: JP7372591B2
Application number: JP2019146890A
Authority: JP
Inventors: 航平渡邉
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2023-11-01
Anticipated expiration: 2039-08-08
Also published as: JP2021026729A

Description

本明細書は、機械学習モデルを用いて手書き文字についての判断を行う技術に関する。

漢字の書き取りのテストを適切に採点するためには、とめ、はらいなどの字画の形状、字画の有無などを、文字を構成する字画についてそれぞれチェックすることが必要である。このために、採点者のチェック項目数が多くなりがちであり、採点者の負担が大きかった。特許文献１には、負担が大きな漢字の採点を自動的に実行する技術が開示されている。

特開２０１４－６７６０号公報

しかしながら、上記の自動採点の技術では、文字ごとに上述した多数のチェック項目をデータベースなどに記録する必要があった。このために、このような自動採点技術では、多種類の文字についてデータベースを整備することが困難であり、文字の採点を容易に実現できるとは言い難かった。

本明細書は、手書き文字が正しい文字であるか否かを容易に判断できる技術を開示する。

本明細書に開示された技術は、上述の課題の少なくとも一部を解決するためになされたものであり、以下の適用例として実現することが可能である。

［適用例１］画像処理装置であって、手書き文字を示す入力画像データを取得する画像取得部と、前記入力画像データに対応付けられるラベルデータであって文字ごとに割り当てられる識別情報である前記ラベルデータを取得するラベル取得部と、前記入力画像データと前記ラベルデータとを含む入力データを第１の機械学習モデルに入力することによって前記入力画像データに対応する出力画像データを生成する出力画像生成部であって、前記第１の機械学習モデルは、前記手書き文字の特徴を抽出し、抽出された特徴に基づいて前記手書き文字を再構成するモデルであり、前記出力画像データは、再構成された前記手書き文字を示す、前記出力画像生成部と、前記入力画像データと前記出力画像データとを用いて、前記入力画像データによって示される前記手書き文字が、前記ラベルデータによって識別される文字として正しい文字であるか否かを判断する判断部と、を備える画像処理装置。

上記構成によれば、手書き文字が正しい文字であるか否かを、第１の機械学習モデルを用いて容易に判断することができる。

なお、本明細書に開示される技術は、種々の形態で実現することが可能であり、例えば、上記の機械学習モデルのトレーニング方法、上記装置、方法の機能を実現するためのコンピュータプログラム、そのコンピュータプログラムを記録した記録媒体、等の形態で実現することができる。

本実施例の採点システム１０００の構成を示すブロック図。ネットワークシステムＮＳの構成を示すブロック図。入力画像ＩＩと出力画像ＯＩとの一例を示す図。生成ネットワークＧＮの構成を示すブロック図。識別ネットワークＤＮの構成を示すブロック図。採点処理のうち複合機２００が実行する処理のフローチャート。テスト画像ＴＩの一例を示す図。テストシートの一例を示す図。採点処理のうちサーバ１００が実行する処理のフローチャート。トレーニング装置３００の構成を示すブロック図。第１入力画像データ群ＩＧ１とラベルデータ群ＬＧとの一例を示す図。生成ネットワークＧＮのトレーニング処理のフローチャート。第２入力画像データ群ＩＧ２とラベルデータ群ＬＧと教師データ群ＴＧの一例を示す図。識別ネットワークＤＮのトレーニング処理のフローチャート。

Ａ．実施例
Ａ－１．採点システム１０００の構成
次に、実施の形態を実施例に基づき説明する。図１は、本実施例の採点システム１０００の構成を示すブロック図である。採点システム１０００は、本実施例の画像処理装置としてのサーバ１００と、複合機２００と、を備えている。

サーバ１００は、インターネットＩＴに接続された計算機である。サーバ１００は、サーバ１００のコントローラとしてのＣＰＵ１１０と、ＲＡＭなどの揮発性記憶装置１２０と、ハードディスクドライブやフラッシュメモリなどの不揮発性記憶装置１３０と、通信インタフェース（ＩＦ）１４０と、を備えている。通信インタフェース１４０は、インターネットＩＴと接続するためのインタフェースである。

揮発性記憶装置１２０は、ＣＰＵ１１０が処理を行う際に生成される種々の中間データを一時的に格納するバッファ領域を提供する。不揮発性記憶装置１３０には、コンピュータプログラムＰＧｇと、シートデータＳＤと、シートデータＳＤと対応づけられた属性データＡＤと、成績データベースＤＢと、が格納されている。

コンピュータプログラムＰＧｇとシートデータＳＤとシートデータＳＤと属性データＡＤと成績データベースＤＢとは、複合機２００の製造者によって提供され、サーバ１００にアップロードされる。ＣＰＵ１１０は、コンピュータプログラムＰＧｇを実行することにより、複合機２００と協働して、後述する採点処理を実行する。

コンピュータプログラムＰＧｇは、後述する生成ネットワーク（generator）ＧＮと識別ネットワーク(discriminator)ＤＮとの機能をＣＰＵ１１０に実現させるコンピュータプログラムをモジュールとして含んでいる。

複合機２００は、ＣＰＵやメモリを含む制御部２１０と、読取部２２０と、印刷部２３０と、を備えている。読取部２２０は、光電変換素子（例えば、ＣＣＤ、ＣＭＯＳ）を備える一次元イメージセンサを用いて光学的に原稿を読み取ることによってスキャンデータを生成する。印刷部２３０は、インクジェット方式や電子写真方式などの印刷方式に従って印刷材としてのインクやトナーを用いて用紙などの印刷媒体上に画像を印刷する。複合機２００は、ネットワークＮＷとインターネットＩＴとを介して、サーバ１００と通信可能に接続されている。

Ａ－２．ネットワークシステムの構成
図２は、ネットワークシステムＮＳの構成を示すブロック図である。ネットワークシステムＮＳは、ＣＰＵ１１０がコンピュータプログラムＰＧｇを実行することによって実現される。ネットワークシステムＮＳは、生成ネットワークＧＮと識別ネットワークＤＮとを含んでいる。生成ネットワークＧＮと識別ネットワークＤＮとは、後述するトレーニング処理によってトレーニングされた学習済みの機械学習モデルである。

Ａ－２－１．生成ネットワークＧＮ
生成ネットワークＧＮには、入力データとして、入力画像データＩＤとラベルデータＬＤとからなるデータペアが入力される。入力画像データＩＤは、入力画像ＩＩを示す画像データである。本実施例の入力画像ＩＩは、後述するように手書き文字を示す画像データである。ラベルデータＬＤは、対応する入力画像データＩＤによって示される手書き文字を識別する識別情報であり、文字ごとに割り当てられた情報である。例えば、対応する入力画像データＩＤによって示される手書き文字が「花」の文字であれば、該入力画像データＩＤに対応付けられるラベルデータＬＤは、「花」を示す識別情報である。

生成ネットワークＧＮは、オートエンコーダともよばれるニューラルネットワークである。生成ネットワークＧＮは、入力画像データＩＤの特徴（入力画像ＩＩの特徴）を抽出し、抽出された特徴に基づいて入力画像ＩＩを再構成することによって、出力画像ＯＩを示す出力画像データＯＤを生成する。このために、出力画像ＯＩは、入力画像ＩＩに類似した手書き文字を示す。

本実施例では、入力画像データＩＤおよび出力画像データＯＤは、複数個の画素を含む画像を示すビットマップデータであり、具体的には、ＲＧＢ値によって画素ごとの色を表すＲＧＢ画像データである。ＲＧＢ値は、３個の色成分の階調値（以下、成分値とも呼ぶ）、すなわち、Ｒ値、Ｇ値、Ｂ値を含むＲＧＢ表色系の色値である。Ｒ値、Ｇ値、Ｂ値は、例えば、所定の階調数（例えば、２５６）の階調値である。

図３は、入力画像ＩＩと出力画像ＯＩとの一例を示す図である。図３（Ａ）には、入力画像ＩＩ１～ＩＩ６が図示されている。入力画像ＩＩ１～ＩＩ６は、それぞれ、手書き文字を示している。入力画像ＩＩ１～ＩＩ６の手書き文字は、誤りを含む場合がある。これは、入力画像ＩＩに示される手書き文字が、後述するように、受験者（例えば、小学生）が記入した文字に基づくためである。例えば、入力画像ＩＩ２は、符号Ｅ２で示すように、文字を構成する一つの字画（ストロークとも呼ぶ）の終端が「はらい」になっていない誤りを含む。また、入力画像ＩＩ３は、符号Ｅ３で示すように、文字を構成する一つの字画の終端が「はね」になっていない誤りを含む。

図３（Ｂ）には、出力画像ＯＩ１～ＯＩ６が図示されている。出力画像ＯＩ１～ＯＩ６は、誤りを含んでいない。より詳しくは、各出力画像ＯＩの文字は、対応する入力画像ＩＩのうちの正しい部分をそのまま含むとともに、入力画像ＩＩに含まれる誤りが修正された部分を含む。例えば、入力画像ＩＩ１の文字（花）は、誤りを含んでいないので、出力画像ＯＩ１の文字は、入力画像ＩＩ１の文字とほぼ同じである。入力画像ＩＩ２の文字（火）は、字画の誤りＥ２を含んでいるので、出力画像ＯＩ２の文字は、入力画像ＩＩ１の文字の字画の誤りＥ２が修正された文字である。これは、後述するトレーニング処理において、生成ネットワークＧＮが入力画像ＩＩの文字を正しく再構成して出力するようにトレーニングされているためである。

図４は、生成ネットワークＧＮの構成を示すブロック図である。図２、図４に示すように、生成ネットワークＧＮは、エンコーダＥＣとデコーダＤＣとを含んでいる。

エンコーダＥＣは、入力画像データＩＤとラベルデータＬＤとからなる入力データに対して、複数個の演算パラメータＰｅを用いて、次元削減処理を実行して、入力画像データＩＤの特徴（すなわち、入力画像ＩＩの特徴）を示す特徴データＣＤを生成する。本実施例では、入力画像データＩＤは、（２５６×２５６）個の画素のそれぞれの３個の成分値（Ｒ値、Ｇ値、Ｂ値）を含むので、（２５６×２５６×３）個の値を含むデータ、すなわち、（２５６×２５６×３）次元のデータである。また、ラベルデータＬＤ（文字の識別情報）は、（２５６×２５６×１）個の値を含むデータ、すなわち、（２５６×２５６×１）次元のデータである。である。したがって、本実施例の入力データは、（２５６×２５６×４）次元のデータである。特徴データＣＤは、本実施例では、（１６×１６×１２８）次元のデータである。このように、次元削減処理では、入力画像データＩＤの次元数が削減される。

図４の左側には、エンコーダＥＣの構成が示されている。エンコーダＥＣは、入力層ＥＬ＿０と、複数個の畳込層ＥＬ＿１～畳込層ＥＬ＿４を有するニューラルネットワークである。

入力層ＥＬ＿０は、入力データ（入力画像データＩＤとラベルデータＬＤ）が入力される層である。１番目の畳込層ＥＬ＿１には、入力層ＥＬ＿０に入力された入力データがそのまま入力される。畳込層ＥＬ＿１は、（２５６×２５６×４）次元の入力データに対して、後述する演算処理を実行して（Ａ_１×Ｂ_１×Ｃ_１）次元のデータを生成する（Ａ_１、Ｂ_１、Ｃ_１は正の整数）。

ｋ番目（ｋは、２～４の整数）の畳込層ＥＬ＿ｋには、（ｋ－１）番目の畳込層ＥＬ＿（ｋ－１）によって生成される（Ａ_ｋ－１×Ｂ_ｋ－１×Ｃ_ｋ－１）次元のデータに対して、所定の後処理（後述）を実行して得られる（Ａ_ｋ－１、Ｂ_ｋ－１、Ｃ_ｋ－１）次元の処理済データが入力される。畳込層ＥＬ＿ｋは、（Ａ_ｋ－１×Ｂ_ｋ－１×Ｃ_ｋ－１）次元の処理済データに対して、後述する演算処理を実行して（Ａ_ｋ×Ｂ_ｋ×Ｃ_ｋ）次元のデータを生成する（Ａ_ｋ、Ｂ_ｋ、Ｃ_ｋは正の整数）。

各畳込層ＥＬ＿１～ＥＬ＿４が実行する演算処理は、畳込処理(convolution)とバイアスの加算処理とを含む。畳込処理は、入力されたデータに対して、（ｐ×ｑ×ｒ）次元のｓ個のフィルタを順次に適用して入力されたデータとフィルタとの相関を示す相関値を算出する処理である。各フィルタを適用する処理では、フィルタをスライドさせながら複数個の相関値が順次に算出される。１個のフィルタは、（ｐ×ｑ×ｒ）個の重みを含んでいる。バイアスの加算処理は、算出された相関値に、１個のフィルタに対して１個ずつ準備されたバイアスを加算する処理である。ｓ個のフィルタに含まれる（ｐ×ｑ×ｒ×ｓ）個の重みと、ｓ個のフィルタに対応するｓ個のバイアスと、は、上述した複数個の演算パラメータＰｅであり、後述するトレーニング処理において調整される値である。

各畳込層ＥＬ＿１～ＥＬ＿４によって生成されるデータの各値は、上述した相関値にバイアスを加えた値である。各畳込層ＥＬ＿１～ＥＬ＿４によって生成されるデータに含まれるデータの個数（例えば、畳込層ＥＬ＿１の場合は（Ａ_１×Ｂ_１×Ｃ_１））は、畳込処理におけるストライド（フィルタをスライドさせる量）と、フィルタの個数ｓと、によって決定される。

畳込層ＥＬ＿１によって生成されるデータの各値は、上述した後処理として、活性化関数に入力されて変換される。本実施例では、活性化関数には、いわゆるLeakyReLU（Leaky Rectified Linear Unit）が用いられる。

畳込層ＥＬ＿２～畳込層ＥＬ＿４によって生成されるデータの各値は、上述した後処理として、バッチノーマライゼーション（Batch Normalization）によって変換された後に、さらに、活性化関数に入力されて変換される。バッチノーマライゼーションは、後述するトレーニング処理では、用いられる入力データの集合（バッチ）分について、各値の平均と分散を計算して、各値を正規化する処理である。使用時（後述する採点処理時）には、トレーニング処理時にバッチごとに算出された平均と分散の移動平均値を用いて、各値が正規化される。

畳込層ＥＬ＿４によって生成されるデータに対して、上述した後処理を実行して得られる処理済データが、上述した特徴データＣＤである。

なお、本実施例にて、各畳込層ＥＬ＿１～ＥＬ＿４によって生成されるデータの次元数（Ａ_１×Ｂ_１×Ｃ_１）～（Ａ_４×Ｂ_４×Ｃ_４）は、以下の通りである。
（Ａ_１×Ｂ_１×Ｃ_１）＝（１２８×１２８×３２）
（Ａ_２×Ｂ_２×Ｃ_２）＝（６４×６４×６４）
（Ａ_３×Ｂ_３×Ｃ_３）＝（３２×３２×１２８）
（Ａ_４×Ｂ_４×Ｃ_４）＝（１６×１６×１２８）

Ａ－３－２．デコーダＤＣの構成
デコーダＤＣは、エンコーダＥＣによって生成された特徴データＣＤに対して、複数個の演算パラメータＰｄを用いて、次元復元処理を実行して、上述した出力画像データＯＤを生成する。本実施例では、特徴データＣＤは、上述したように（１６×１６×１２８）次元のデータである。本実施例では、出力画像データＯＤは、入力画像データＩＤと同様に、（２５６×２５６×３）個の値を含むデータ、すなわち、（２５６×２５６×３）次元のデータである。本実施例では、このように、本実施例の次元復元処理では、特徴データＣＤの次元数が復元される。

図４の右側には、デコーダＤＣの構成が示されている。デコーダＤＣは、複数個の転置畳込層ＤＬ＿１～転置畳込層ＤＬ＿４を有するニューラルネットワークである。

１番目の転置畳込層ＤＬ＿１には、特徴データＣＤが入力される。転置畳込層ＤＬ＿１は、特徴データＣＤに対して、後述する演算処理を実行して（Ｄ_１×Ｅ_１×Ｆ_１）次元のデータを生成する（Ｄ_１、Ｅ_１、Ｆ_１は正の整数）。

ｍ番目（ｍは、２～４の整数）の転置畳込層ＤＬ＿ｍには、（ｍ－１）番目の転置畳込層ＤＬ＿（ｍ－１）によって生成される（Ｄ_ｍ－１、Ｅ_ｍ－１、Ｆ_ｍ－１）次元のデータに対して所定の後処理（後述）を実行して得られる（Ｄ_ｍ－１、Ｅ_ｍ－１、Ｆ_ｍ－１）次元の処理済データが入力される。転置畳込層ＤＬ＿ｍは、入力される処理済データに対して、後述する演算処理を実行して（Ｄ_ｍ×Ｅ_ｍ×Ｆ_ｍ）次元のデータを生成する（Ｄ_ｍ、Ｅ_ｍ、Ｆ_ｍは正の整数）。

各転置畳込層ＤＬ＿１～ＤＬ＿４が実行する演算処理は、転置畳込処理（transposed convolution）とバイアスの加算処理とを含む。転置畳込処理は、入力されたデータに対して、ストライドに応じて適宜に値（例えばゼロの値）を追加して次元数を増加させた後に、上述した畳込処理と同様に（ｐ×ｑ×ｒ）次元のフィルタを用いた畳み込み演算を行う処理である。バイアスの加算処理は、転置畳込演算で算出された相関値に、１個のフィルタに対して１個ずつ準備されたバイアスを加算する処理である。ｓ個のフィルタに含まれる（ｐ×ｑ×ｒ×ｓ）個の重みと、ｓ個のフィルタに対応するｓ個のバイアスと、は、上述した複数個の演算パラメータＰｄであり、後述するトレーニング処理において調整される値である。

各転置畳込層ＤＬ＿１～ＤＬ＿４によって生成されるデータの各値は、上述した相関値にバイアスを加えた値である。各転置畳込層ＤＬ＿１～ＤＬ＿４によって生成されるデータに含まれるデータの個数（例えば、転置畳込層ＤＬ＿１の場合は（Ｄ_１×Ｅ_１×Ｆ_１））は、転置畳込処理におけるストライド（ゼロ等の値を追加する量）と、フィルタの個数ｓと、によって決定される。

転置畳込層ＤＬ＿１によって生成されるデータの各値は、上述した後処理として、上述したバッチノーマライゼーションによって変換される。そして、バッチノーマライゼーションによって変換された各値は、さらに後処理として、活性化関数に入力されて変換される。活性化関数には、いわゆるReLU（Rectified Linear Unit）が用いられる。

転置畳込層ＤＬ＿２、ＤＬ＿３によって生成されるデータの各値は、上述した後処理として、上述したバッチノーマライゼーションによって変換される。そして、トレーニング処理では、バッチノーマライゼーションによって変換された各値は、さらに後処理として、ドロップアウトによって変換された後に、活性化関数に入力されて変換される。ドロップアウトは、過学習を抑制するために、ランダムに選択された一部の値を無効化（０にする）する処理である。活性化関数には、上述のReLUが用いられる。使用時（後述の採点処理）では、ドロップアウトは行われず、バッチノーマライゼーションによって変換された各値は、活性化関数に入力されて変換される。

転置畳込層ＤＬ＿４によって生成されるデータの各値は、上述した後処理として活性化関数に入力されて変換される。活性化関数には、いわゆるシグモイドが用いられる。後処理後の（Ｄ_４×Ｅ_４×Ｆ_４）次元のデータは、上述した出力画像データＯＤである。したがって、転置畳込層ＤＬ＿４によって生成されるデータの次元数（Ｄ_４×Ｅ_４×Ｆ_４）は、出力画像データＯＤの次元数（２５６×２５６×３）と等しい。

なお、本実施例にて、各転置畳込層ＤＬ＿１～ＤＬ＿４によって生成されるデータの次元数（Ｄ_１×Ｅ_１×Ｆ_１）～（Ｄ_４×Ｅ_４×Ｆ_４）は、以下の通りである。
（Ｄ_１×Ｅ_１×Ｆ_１）＝（３２×３２×３２）
（Ｄ_２×Ｅ_２×Ｆ_２）＝（６４×６４×３２）
（Ｄ_３×Ｅ_３×Ｆ_３）＝（１２８×１２８×３２）
（Ｄ_４×Ｅ_４×Ｆ_４）＝（２５６×２５６×３）

Ａ－２－２．識別ネットワークＤＮ
識別ネットワークＤＮには、差分データＤＤが入力される。差分データＤＤによって示される差分画像ＤＩは、入力画像データＩＤによって示される入力画像ＩＩと、出力画像データＯＤによって示される出力画像データＯＤの差分を示す。具体的には、入力画像ＩＩの各画素の値をＩＶ（ｉ）とし、出力画像ＯＩの各画素の値をＯＶ（ｉ）とすると、差分画像ＤＩの各画素の値ＤＶ（ｉ）は、（ＩＶ（ｉ）－ＯＶ（ｉ））で表される。ｉは、入力画像ＩＩ、出力画像ＯＩ、差分画像ＤＩの各画素を識別する識別子である。差分画像ＤＩの画素の値ＤＶ（ｉ）が正の値をとる場合には、当該画素によって示される要素は、入力画像ＩＩに示される文字に含まれる構成要素であって、かつ、出力画像ＯＩに示される文字には含まれない構成要素（余分要素ＯＥとも呼ぶ）である。差分画像ＤＩの画素の値ＤＶ（ｉ）が負の値をとる場合には、当該画素によって示される要素は、出力画像ＯＩに示される文字に含まれる構成要素であって、かつ、入力画像ＩＩに示される文字には含まれない構成要素（不足要素ＭＥとも呼ぶ）である。余分要素ＯＥと不足要素ＭＥは、いずれも入力画像ＩＩに示される文字の誤りを示す。

図３（Ｃ）には、入力画像ＩＩ１～ＩＩ６と出力画像ＯＩ１～ＯＩ６との差分を示す差分画像ＤＩ１～ＤＩ６が図示されている。例えば、入力画像ＩＩ１は、「花」の文字として正しい文字であるので、差分画像ＤＩ１には、余分要素も不足要素も現れていない。また、入力画像ＩＩ２は、「火」の文字として、字画の終端が「はらい」になっていない誤りＥ２を含むので、差分画像ＤＩ２には、「はらい」が不足していることを示す不足要素ＭＥ２が現れている。余分要素も不足要素も現れていない。入力画像ＩＩ３は、「子」の文字として、字画の終端が「はね」になっていない誤りＥ３を含むので、差分画像ＤＩ３には、「はね」が不足していることを示す不足要素ＭＥ３が現れている。入力画像ＩＩ４は、「犬」の文字として、字画の一つが不足している誤りＥ４を含むので、差分画像ＤＩ４には、当該字画が不足していることを示す不足要素ＭＥ４が現れている。入力画像ＩＩ５は、「木」の文字として、字画の終端が「とめ」でなく「はね」になっている誤りＥ５を含むので、差分画像ＤＩ５には、「はね」が余分であること（「とめ」となっていないこと）を示す余分要素ＯＥ５が現れている。入力画像ＩＩ６は、「大」の文字として、字画が余分に存在する誤りＥ６を含むので、差分画像ＤＩ６には、字画が余分であることを示す余分要素ＯＥ６が現れている。このように、差分データＤＤは、対応する入力画像ＩＩに示される文字に誤りが含まれるか否かを示すとともに、誤りが含まれる場合には該誤りの種類を示していると言うことができる。

識別ネットワークＤＮは、差分データＤＤが入力されると、対応する入力画像ＩＩが正しい文字であるか否か、および、差分データＤＤによって示される誤りの種類（換言すれば、対応する入力画像ＩＩに示される文字の誤りの種類）を識別する。すなわち、識別ネットワークＤＮは、入力された差分データＤＤに対して、複数個の演算パラメータを用いた演算処理を実行して、差分データＤＤによって示される誤りの有無および誤りの種類を識別した結果を示す識別データＫＤを出力する。

図３（Ｄ）には、差分画像ＤＩ１～ＤＩ６に対応する識別結果（１）～（６）が示されている。本実施例では、識別データＫＤは、以下の６種類の識別結果（１）～（６）を示す。
（１）誤りが無い（「正解）とも呼ぶ）。
（２）「はらい」であるべき字画の終端が「はらい」でない（「はらいの誤り」とも呼ぶ）。
（３）「はね」であるべき字画の終端が「はね」でない（「はねの誤り」とも呼ぶ）。
（４）字画が不足している（「画数不足」とも呼ぶ）。
（５）「止め」であるべき字画の終端が「止め」でない（「止めの誤り」とも呼ぶ）。
（６）字画が余分である（「画数余分」とも呼ぶ）。

具体的には、識別データＫＤは、６種類の識別結果（１）～（６）と一対一で対応する６個の値を含む６次元のデータである。生成ネットワークＧＮは、後述するトレーニング処理によって、入力される差分データＤＤによって示される正解または誤りの種類に対応する一の値が１に近づき、対応しない残りの値が０に近づくようにトレーニングされている。このために、生成ネットワークＧＮは、差分データＤＤによって示される正解または誤りの種類を適切に示す識別データＫＤを出力することができる。

図５は、識別ネットワークＤＮの構成を示すブロック図である。識別ネットワークＤＮは、特徴抽出部ＣＥＸと、クラス分類部ＣＬＳと、を備えている。

特徴抽出部ＣＥＸは、入力される差分データＤＤの特徴を抽出する。特徴抽出部ＣＥＸは、複数個の層Ｌ＿０～Ｌ＿１８を有するコンボリューションニューラルネットワークである。入力層Ｌ＿０は、差分データＤＤが入力される層である。１番目の畳込層Ｌ＿１には、入力層Ｌ＿０に入力された差分データＤＤがそのまま入力される。

畳込層Ｌ＿１、Ｌ＿２、Ｌ＿４、Ｌ＿５、Ｌ＿７～Ｌ＿９、Ｌ＿１１～Ｌ＿１３、Ｌ＿１５～Ｌ＿１７は、上述したエンコーダＥＣの畳込層の演算処理と同様に、畳込処理(convolution)とバイアスの加算処理と、を実行する。畳込層によって生成されるデータは、後処理として、活性化関数に入力されて変換された後に、次の層（畳込層またはプーリング層）に入力される。本実施例では、活性化関数には、ReLUが用いられる。

プーリング層Ｌ＿３、Ｌ＿６、Ｌ＿１０、Ｌ＿１４、Ｌ＿１８は、マックスプーリング（MaxPooling）を行って、入力されたデータの次元数を削減する。マックスプーリングは、いわゆるダウンサンプリングによって次元数を削減する処理であり、所定サイズ（例えば、２×２）のウィンドウを所定のストライド（例えば、２）でスライドさせつつ、ウィンドウ内の最大値を選択することによって次元数を削減する。プーリング層によって生成されるデータは、そのまま、次の層（畳込層または後述する全体平均プーリング層Ｌ＿１９）に入力される。

特徴抽出部ＣＥＸのｎ番目の層（ｎは、１～１８の整数）は、上述した演算処理を実行して（Ｇ_ｎ×Ｈ_ｎ×Ｉ_ｎ）次元のデータを生成する（Ｇ_ｎ、Ｈ_ｎ、Ｉ_ｎは正の整数）。なお、本実施例にて、各層Ｌ＿１～Ｌ＿１８によって生成されるデータの次元数（Ｇ_１×Ｈ_１×Ｉ_１）～（Ｇ_１８×Ｈ_１８×Ｉ_１８）は、以下の通りである。
（Ｇ_１×Ｈ_１×Ｉ_１）＝（２５６×２５６×６４）
（Ｇ_２×Ｈ_２×Ｉ_２）＝（２５６×２５６×６４）
（Ｇ_３×Ｈ_３×Ｉ_３）＝（１２８×１２８×６４）
（Ｇ_４×Ｈ_４×Ｉ_４）＝（１２８×１２８×１２８）
（Ｇ_５×Ｈ_５×Ｉ_５）＝（１２８×１２８×１２８）
（Ｇ_６×Ｈ_６×Ｉ_６）＝（６４×６４×１２８）
（Ｇ_７×Ｈ_７×Ｉ_７）＝（６４×６４×２５６）
（Ｇ_８×Ｈ_８×Ｉ_８）＝（６４×６４×２５６）
（Ｇ_９×Ｈ_９×Ｉ_９）＝（６４×６４×２５６）
（Ｇ_１０×Ｈ_１０×Ｉ_１０）＝（３２×３２×２５６）
（Ｇ_１１×Ｈ_１１×Ｉ_１１）＝（３２×３２×５１２）
（Ｇ_１２×Ｈ_１２×Ｉ_１２）＝（３２×３２×５１２）
（Ｇ_１３×Ｈ_１３×Ｉ_１３）＝（３２×３２×５１２）
（Ｇ_１４×Ｈ_１４×Ｉ_１４）＝（１６×１６×５１２）
（Ｇ_１５×Ｈ_１５×Ｉ_１５）＝（１６×１６×５１２）
（Ｇ_１６×Ｈ_１６×Ｉ_１６）＝（１６×１６×５１２）
（Ｇ_１７×Ｈ_１７×Ｉ_１７）＝（１６×１６×５１２）
（Ｇ_１８×Ｈ_１８×Ｉ_１８）＝（８×８×５１２）

本実施例では、特徴抽出部ＣＥＸには、ＶＧＧ１６と呼ばれる１６層のニューラルネットワークのうちの全結合層を除いた部分がそのまま用いられる。ＶＧＧ１６は、ＩｍａｇｅＮｅｔと呼ばれる画像データベースに登録された画像データを用いてトレーニングされた学習済みのニューラルネットワークであり、その学習済みの演算パラメータは一般公開されている。本実施例では、特徴抽出部ＣＥＸの演算パラメータには、公開された学習済みの演算パラメータが用いられる。このために、本実施例では、特徴抽出部ＣＥＸに含まれる複数個の演算パラメータは、後述するトレーニング処理では調整されない。

クラス分類部ＣＬＳには、特徴抽出部ＣＥＸによって生成されるデータ、すなわち、特徴抽出部ＣＥＸのプーリング層Ｌ＿１８によって生成される（８×８×５１２）次元のデータが入力される。クラス分類部ＣＬＳは、該データに対して複数個の演算パラメータＰｄｎを用いた演算処理を実行して、識別データＫＤを生成する。

クラス分類部ＣＬＳは、全体平均プーリング層Ｌ＿１９と、全結合層Ｌ＿２０、Ｌ２１を有するニューラルネットワークである。

（８×８×５１２）次元のデータは、（８×８）個の値を有する５１２チャネル分のデータである。全体平均プーリング層Ｌ＿１９は、各チャネルの（８×８）個の値の平均値をとることで、各チャネルの次元数を１個にする。これによって、（８×８×５１２）次元のデータは、５１２次元のデータに変換される。

全体平均プーリング層Ｌ＿１９によって生成される５１２次元のデータは、全結合層Ｌ＿２０に入力される。全結合層Ｌ＿２０は、一般的なニューラルネットワークで用いられる全結合層と同様の層であり、２５６次元のデータ（２５６個の値）を生成する。入力された５１２個の値から成るベクトルと２５６個の重みから成るベクトルとの内積に、バイアスを加えた値（内積＋バイアス）が全結合層Ｌ＿２０によって生成される１個の値である。これらの（５１２×２５６）個の重みと２５６個のバイアスは、上述した演算パラメータＰｄｎであり、後述するトレーニング処理によって調整される値である。

全結合層Ｌ＿２０によって生成された各値は、後処理として、活性化関数に入力されて変換される。活性化関数には、ReLUが用いられる。なお、トレーニング処理では、さらに、後処理として、ドロップアウトが行われる。使用時（推論時とも呼ぶ。具体的には、後述する採点処理時）には、ドロップアウトは行われない。

全結合層Ｌ＿２０によって生成される２５６次元のデータは、全結合層Ｌ＿２１に入力される。全結合層Ｌ＿２１は、全結合層Ｌ＿２０と同様の処理によって、６次元のデータ（６個の値）を生成する。入力された２５６個の値から成るベクトルと６個の重みから成るベクトルとの内積に、バイアスを加えた値（内積＋バイアス）が全結合層Ｌ＿２１によって生成される１個の値である。これらの（２５６×６）個の重みと６個のバイアスは、上述した演算パラメータＰｄｎであり、後述するトレーニング処理によって調整される値である。

全結合層Ｌ＿２１によって生成された６個の値は、後処理として、活性化関数に入力されて変換される。活性化関数には、SoftMaxが用いられる。活性化関数によって変換済みの６個の値は、上述した識別データＫＤである。

Ａ－３．採点処理
Ａ－３－１．複合機の処理
図６は、採点処理のうち、複合機２００が実行する処理のフローチャートである。この処理は、例えば、複合機２００のユーザの開始指示に基づいて開始される。複合機２００のユーザは、例えば、小学校の教師である。

Ｓ１０では、複合機２００の制御部２１０は、シートデータＳＤをサーバ１００から受信する。具体的には、制御部２１０は、サーバ１００にシートデータＳＤの要求を送信する。サーバ１００は、該要求に対する応答としてシートデータＳＤを複合機２００に送信する。これによって、制御部２１０は、シートデータＳＤを受信する。

Ｓ２０では、制御部２１０は、シートデータＳＤを用いて、印刷部２３０に、シートデータＳＤによって示されるテスト画像ＴＩを用紙に印刷させる。これによって、テスト画像ＴＩが印刷されたテストシートＴＳが作成される。テストシートＴＳは、例えば、受験者の人数分だけ作成される。

図７は、テスト画像ＴＩの一例を示す図である。テスト画像ＴＩは、例えば、小学生向けの漢字の書き取りテスト用のテストシートＴＳを作成するための画像である。テスト画像ＴＩは、書き取りテストの受験者が漢字を記入するための複数個の記入領域ＥＮ１～ＥＮ６を含む。テスト画像ＴＩは、記入領域ＥＮ１～ＥＮ６に記入すべき漢字を示唆する情報、例えば、ふりがなＫＮを含む。

ユーザは、テスト画像ＴＩが印刷されたテストシートＴＳを用いて、漢字の書き取りテストを実施して、受験者によって漢字が記入されたテストシートＴＳを取得する。図８は、テストシートＴＳの一例を示す図である。

図８（Ａ）の記入済みのテストシートＴＳには、記入領域ＥＮ１～ＥＮ６に手書きで漢字が記入されている。これらの手書き文字は、誤り（例えば、上述した５種類の誤り）を含み得る。

Ｓ３０では、制御部２１０は、読取部２２０に記入済みのテストシートＴＳを読み取らせることによって、読取部２２０に記入済みのテストシートＴＳを示すスキャンデータを生成させる。図８（Ａ）は、該スキャンデータによって示されるスキャン画像ＳＩを示す図とも言うことができる。スキャンデータは、例えば、ＲＧＢ画像データである。例えば、受験者の人数分の記入済みのテストシートＴＳが読み取られて、受験者の人数分のスキャンデータが生成される。

Ｓ４０では、制御部２１０は、生成されたスキャンデータ、例えば、受験者の人数分のスキャンデータをサーバ１００に送信する。Ｓ５０では、制御部２１０は、採点済シートデータを、サーバ１００から受信する。例えば、制御部２１０は、Ｓ４０にてサーバ１００に送信した受験者の人数分のスキャンデータに対する応答として、受験者の人数分の採点済シートデータを受信する。採点済シートデータは、サーバ１００のＣＰＵ１１０が後述する処理（図９）を実行することによって、生成される。

図８（Ｂ）には、採点済シートデータによって示される採点済テスト画像ＲＩの一例が図示されている。図８（Ｂ）の採点済テスト画像ＲＩは、図８（Ａ）のスキャン画像ＳＩに、採点結果に関する付加画像Ａａ１～Ａａ６、Ａｂ２～Ａｂ６、Ａｃ２～Ａｃ６が付加された画像である。これらの付加画像については、後述する。

Ｓ６０では、制御部２１０は、採点済シートデータを用いて、印刷部２３０に、採点済みシートデータＳＤによって示される採点済テスト画像ＲＩを用紙に印刷させる。これによって、採点済テスト画像ＲＩが印刷された採点済みのテストシートが作成される。例えば、採点済みのテストシートは、例えば、受験者の人数分だけ作成される。採点済みのテストシートは、ユーザや受験者の利用に供される。

Ａ－３－２．サーバの処理
図９は、採点処理のうち、サーバ１００が実行する処理のフローチャートである。Ｓ１００では、サーバ１００のＣＰＵ１１０は、図６のＳ４０にて複合機２００から送信されるスキャンデータを受信する。例えば、受験者の人数分のスキャンデータが受信される。図９のＳ１０５～Ｓ１５５の処理は、Ｓ１００で受信されるスキャンデータのそれぞれについて実行される。以下では、一つのスキャンデータ、具体的には、図８（Ａ）に示すスキャン画像ＳＩを示すスキャンデータに対してＳ１０５～Ｓ１５５の処理を説明する。

Ｓ１０５では、ＣＰＵ１１０は、スキャンデータを用いて、スキャン画像ＳＩに含まれる複数個の記入領域ＥＮ１～ＥＮ６を特定する。記入領域ＥＮ１～ＥＮ６の特定は、シートデータＳＤに対応する属性データＡＤ（図１）を用いて実行される。属性データＡＤは、図７に示す属性情報ＡＤ１～ＡＤ６を含んでいる。属性情報ＡＤ１～ＡＤ６は、シートデータＳＤによって示されるテスト画像ＴＩに含まれる記入領域ＥＮ１～ＥＮ６に対応する情報である。各属性情報は、対応する記入領域を特定するための領域情報を含んでいる。領域情報は、例えば、矩形の記入領域の左上と右下の頂点の位置（座標）を、テスト画像ＴＩの特定位置（例えば、左上の頂点）を基準とする座標系で示す座標情報である。テスト画像ＴＩ上における記入領域ＥＮ１～ＥＮ６の位置は、スキャン画像ＳＩ上における記入領域ＥＮ１～ＥＮ６の位置と等しいので、ＣＰＵ１１０は、これらの領域情報に基づいてスキャン画像ＳＩ上における記入領域ＥＮ１～ＥＮ６を特定できる。

Ｓ１１０では、ＣＰＵ１１０は、スキャンデータから、複数個の記入領域ＥＮ１～ＥＮ６のそれぞれに対応する部分画像データを、入力画像データＩＤとして取得する。これによって、例えば、図３（Ａ）に示す６個の入力画像ＩＩ１～ＩＩ６を示す６個の入力画像データＩＤが取得される。なお、入力画像データＩＤは、取得された部分画像データに対して、所定の処理（例えば、ノイズの除去処理や二値化処理やスムージング処理）が実行された後の画像データであっても良い。

Ｓ１１２では、ＣＰＵ１１０は、取得された複数個の入力画像データＩＤの中から、１個の注目入力画像データを選択する。例えば、図３（Ａ）に示す６個の入力画像ＩＩ１～ＩＩ６を示す６個の入力画像データＩＤの中から、１個の注目入力画像データが選択される。

Ｓ１１５では、ＣＰＵ１１０は、注目入力画像データに対応するラベルデータＬＤを取得する。本実施例では、ラベルデータＬＤは、図７に示すように、属性データＡＤに含まれる属性情報ＡＤ１～ＡＤ６に含まれている。各属性情報のラベルデータＬＤは、その属性情報に対応する記入領域に記入されるべき文字に割り当てられたラベルデータＬＤである。例えば、記入領域ＥＮ２に対応する入力画像データＩＤが注目入力画像データである場合には、当該記入領域ＥＮ２に対応する属性情報ＡＤ２に含まれるラベルデータＬＤが取得される（図７）。図７の例では、属性情報ＡＤ２に含まれるラベルデータＬＤは、「火」の文字に割り当てられたラベルデータＬＤである。

Ｓ１２０では、ＣＰＵ１１０は、注目入力画像データと、対応するラベルデータＬＤと、のペアを、入力データとして、生成ネットワークＧＮに入力する。これによって、入力された入力画像データＩＤに対応する出力画像データＯＤが生成される。例えば、図３（Ａ）に示す入力画像ＩＩ２を示す入力画像データＩＤが注目入力画像データである場合には、図３（Ｂ）の出力画像ＯＩ２を示す出力画像データＯＤが生成される。

Ｓ１２５では、ＣＰＵ１１０は、注目入力画像データと、注目入力画像データに対応する出力画像データＯＤと、を用いて、差分データＤＤを生成する。例えば、図３（Ａ）に示す入力画像ＩＩ２を示す入力画像データＩＤが注目入力画像データである場合には、図３（Ｃ）の差分画像ＤＩ２を示す差分データＤＤが生成される。

Ｓ１３０では、ＣＰＵ１１０は、生成された差分データＤＤを、識別ネットワークＤＮに入力する。これによって、入力された差分データＤＤに対応する識別データＫＤが生成される。例えば、図３（Ａ）の入力画像ＩＩ２を示す入力画像データＩＤが注目入力画像データである場合には、図３（Ｄ）の「はらいの誤り」を識別結果として示す識別データＫＤが生成される。

Ｓ１３５では、ＣＰＵ１１０は、生成された識別データに基づいて、注目入力画像に示される手書き文字の採点結果を決定する。注目入力画像は、注目入力画像データによって示される入力画像ＩＩである。採点結果は、例えば、評価値を含む。本実施例では、評価値は、３段階であり、「０点」、「１点」、「２点」のいずれか中から選択される。例えば、差分データＤＤによって示される識別結果が「正解」である場合には、評価値は、「２点」に決定される。差分データＤＤによって示される識別結果が字画の終端に関する誤り、すなわち、「はらいの誤り」、「はねの誤り」、「止めの誤り」のうちのいずれかである場合には、評価値は、「１点」に決定される。差分データＤＤによって示される識別結果が字画の全体に関する誤り、すなわち、「字画不足」、「字画余分」のうちのいずれかである場合には、評価値は、「０点」に決定される。採点結果は、差分データＤＤが「誤り」を示す場合には、さらに、誤りの種類を含む。誤りの種類は、本実施例では、「はらいの誤り」、「はねの誤り」、「止めの誤り」、「字画不足」、「字画余分」のうちのいずれかである。

Ｓ１４０では、ＣＰＵ１１０は、Ｓ１１０にて取得された全ての入力画像データを、注目入力画像データとして処理したか否かを判断する。未処理の入力画像データがある場合には（Ｓ１４０：ＮＯ）、ＣＰＵ１１０は、Ｓ１１２に戻る。全ての入力画像データが処理された場合には（Ｓ１４０：ＹＥＳ）、ＣＰＵ１１０は、Ｓ１４５にて、採点結果を、成績データベースＤＢ（図１）に記録する。記録される採点結果は、各入力画像データに対応する評価値および誤りの種類を含む。記録される採点結果は、さらに、スキャンデータごと、すなわち、記入済みのテストシートＴＳごとの合計の評価値（テストの得点）を含んでも良い。

Ｓ１５０では、ＣＰＵ１１０は、採点結果に基づき、採点済テスト画像ＲＩ（図８（Ｂ））を示す採点済シートデータを生成する。例えば、ＣＰＵ１１０は、Ｓ１００にて取得されたスキャンデータを用いて、図８（Ａ）のスキャン画像ＳＩに、採点結果に関する付加画像Ａａ１～Ａａ６、Ａｂ２～Ａｂ６、Ａｃ２～Ａｃ６を付加する。

第１付加画像Ａａ１～Ａａ６は、それぞれ、記入領域ＥＮ１～ＥＮ６に対応している。第１付加画像Ａａ１～Ａａ６は、それぞれ、対応する記入領域を観察者が認識できるように、対応する記入領域と重なる位置や記入領域の近傍に配置される。

第１付加画像Ａａ１～Ａａ６は、それぞれ、対応する記入領域の手書き文字の採点結果のうち、上述した評価値を示す。丸印を示す付加画像Ａａ１は、記入領域ＥＮ１の手書き文字の評価値が「２点」であることを示す。また、丸印を示す付加画像Ａａ１は、記入領域ＥＮ１の手書き文字が「正解」であること、すなわち、対応するラベルデータＬＤによって識別される文字として正しい文字であることを示す。三角印を示す付加画像Ａａ２、Ａａ３、Ａａ６は、記入領域ＥＮ２、ＥＮ３、ＥＮ６の手書き文字の評価値が「１点」であることを示す。バツ印を示す付加画像Ａａ４、Ａａ５は、記入領域ＥＮ４、ＥＮ５の手書き文字の評価値が「０点」であることを示す。また、三角印やバツ印を示す付加画像は、記入領域の手書き文字が誤りを含むこと、すなわち、対応するラベルデータＬＤによって識別される文字として正しい文字でないことを示す。

第２付加画像Ａｂ２～Ａｂ６は、それぞれ、対応する記入領域の手書き文字が誤りを含む場合に、当該誤りを含む部位を示す画像（図８（Ｂ）の例では丸印の画像）である。ＣＰＵ１１０は、記入領域に対応する差分データＤＤに基づいて、記入領域において誤りを含む部位を特定し、特定された部位に第２付加画像を配置する。例えば、差分データＤＤによって示される差分画像ＤＩにおいて、誤りを示す要素（不足要素ＭＥまたは余分要素ＯＥ）が存在する位置が特定される。そして、差分画像ＤＩにおける誤りを示す要素の位置に対応する記入領域における位置に、第２付加画像が配置される。

第３付加画像Ａｃ２～Ａｃ６は、それぞれ、対応する記入領域の手書き文字が誤りを含む場合に、当該誤りの種類を示す画像である。図８（Ｂ）の例では、第３付加画像Ａｃ２～Ａｃ６は、それぞれ、上述した５種類の誤りを文字で示す画像である。具体的には、「はらいの誤り」、「はねの誤り」、「画数不足」、「画数余分」、「止めの誤り」を示す第３付加画像は、それぞれ、「はらう」、「はねる」、「ふそく」、「よぶん」、「とめる」を示す画像である。

Ｓ１５５では、ＣＰＵ１１０は、生成された採点済シートデータをスキャンデータの送信元である複合機２００に送信して、処理を終了する。

Ａ－４．生成ネットワークＧＮおよび識別ネットワークＤＮのトレーニング
上述した生成ネットワークＧＮは、入力画像データＩＤとラベルデータＬＤとからなる入力データが入力された場合に、所望の出力画像データＯＤを生成できるように、トレーニングされている。識別ネットワークＤＮは、差分データＤＤが入力された場合に、所望の差分データＤＤを生成できるように、トレーニングされている。以下では、これらのネットワークＧＮ、ＤＮのトレーニングについて説明する。これらのネットワークＧＮ、ＤＮのトレーニングは、例えば、複合機２００を製造する事業者によって実行される。

Ａ－４－１．トレーニング装置の構成
図１０は、本実施例の生成ネットワークＧＮと識別ネットワークＤＮとのトレーニングを実行するトレーニング装置３００の構成を示すブロック図である。

トレーニング装置３００は、パーソナルコンピュータやサーバなどの計算機である。トレーニング装置３００は、トレーニング装置３００のコントローラとしてのＣＰＵ３１０と、ＲＡＭなどの揮発性記憶装置３２０と、ハードディスクドライブやフラッシュメモリなどの不揮発性記憶装置３３０と、液晶ディスプレイなどの表示部３４０と、キーボードやマウスなどの操作部３５０と、外部機器と接続するための通信インタフェース（ＩＦ）３７０と、を備えている。

揮発性記憶装置３２０は、ＣＰＵ３１０が処理を行う際に生成される種々の中間データを一時的に格納するバッファ領域を提供する。不揮発性記憶装置３３０には、コンピュータプログラムＰＧｔと、トレーニング用の複数個の入力画像データＩＤを含む入力画像データ群ＩＧ１、ＩＧ２と、トレーニング用の複数個のラベルデータＬＤを含むラベルデータ群ＬＧと、教師データ群ＴＧと、が格納されている。揮発性記憶装置１２０や不揮発性記憶装置１３０は、トレーニング装置３００の内部メモリである。第１入力画像データ群ＩＧ１とラベルデータ群ＬＧとは、生成ネットワークＧＮのトレーニング処理の際に用いられる。第２入力画像データ群ＩＧ２と教師データ群ＴＧとラベルデータ群ＬＧとは、識別ネットワークＤＮのトレーニング処理の際に用いられる。

コンピュータプログラムＰＧｔは、例えば、複合機２００の製造者が運用するサーバからダウンロードされる形態で提供される。これに代えて、コンピュータプログラムＰＧｔは、ＤＶＤ－ＲＯＭなどに格納される形態で提供されてもよい。ＣＰＵ１１０は、コンピュータプログラムＰＧｔを実行することにより、後述するトレーニング処理を実行する。

コンピュータプログラムＰＧｔは、上述した生成ネットワークＧＮ（図４）と生成ネットワークＧＮ（図５）との機能をＣＰＵ３１０に実現させるコンピュータプログラムをモジュールとして含んでいる。

Ａ－４－２．生成ネットワークＧＮのトレーニング処理
先ず、生成ネットワークＧＮのトレーニング処理の際に用いられる第１入力画像データ群ＩＧ１とラベルデータ群ＬＧについて説明する。図１１は、第１入力画像データ群ＩＧ１とラベルデータ群ＬＧとの一例を示す図である。第１入力画像データ群ＩＧ１は、複数個の画像データ群を含んでいる。一つの画像データ群は、１種類の文字について複数個の入力画像データＩＤを含む。一つの画像データ群に含まれる複数個の入力画像データＩＤは、それぞれ、１種類の文字について、書体（筆跡）が互いに異なる手書き文字を示す。例えば、図１１の例では、画像データ群ＩＧ１ａ、ＩＧ１ｂ、ＩＧ１ｃは、それぞれ、「花」、「火」、「木」について、書体が互いに異なる手書き文字の示す複数個の入力画像データＩＤを含んでいる。画像データ群は、書き取りテストの対象となる全ての文字（例えば、漢字）について、それぞれ、準備される。１個の画像データ群に含まれる入力画像データＩＤの個数は、例えば、数個～数百個である。

ラベルデータ群ＬＧは、複数個のラベルデータＬＤを含んでいる。１個のラベルデータＬＤは、入力画像データ群ＩＧに含まれる１個の画像データ群に対応付けられている。ラベルデータＬＤは、対応する画像データ群に含まれる複数個の入力画像データＩＤによって示される文字に割り当てられた識別情報である。図１１の例では、画像データ群ＩＧ１ａ、ＩＧ１ｂ、ＩＧ１ｃに対応するラベルデータＬＤａ、ＬＤｂ、ＬＤｃは、それぞれ、「花」、「火」、「木」に割り当てられた識別情報である。

なお、第１入力画像データ群ＩＧ１に含まれる画像データ群ＩＧ１ａ、ＩＧ１ｂ、ＩＧ１ｃに含まれる各入力画像データＩＤは、誤りを含まない文字を示す。すなわち、これらの入力画像データＩＤは、対応するラベルデータＬＤによって識別される文字として正しい文字を示す。

生成ネットワークＧＮのトレーニング処理について説明する。トレーニング処理は、生成ネットワークＧＮの上述した複数個の演算パラメータＰｅ、Ｐｄを調整することで、生成ネットワークＧＮが適切な出力画像データＯＤを出力できるようにトレーニングする処理である。上述したサーバ１００の不揮発性記憶装置３３０に格納されたコンピュータプログラムＰＧｔに組み込まれた生成ネットワークＧＮは、本トレーニング処理によってトレーニングされた学習済みモデルである。

図１２は、生成ネットワークＧＮのトレーニング処理のフローチャートである。Ｓ２１０では、ＣＰＵ３１０は、生成ネットワークＧＮの複数個の演算パラメータＰｅ、Ｐｄを初期化する。例えば、これらの演算パラメータＰｅ、Ｐｄの初期値は、同一の分布（例えば、正規分布）から独立に取得された乱数に設定される。

Ｓ２２０では、ＣＰＵ３１０は、不揮発性記憶装置３３０に格納された第１入力画像データ群ＩＧ１の中から、バッチサイズ分の入力画像データＩＤを選択する。第１入力画像データ群ＩＧ１に含まれる複数個の入力画像データＩＤは、Ｖ個（Ｖは２以上の整数）ずつの入力画像データＩＤをそれぞれ含む複数個のグループ（バッチ）に予め分割されている。ＣＰＵ３１０は、これらの複数個のグループから１個のグループを順次に選択することによって、Ｖ個の使用すべき入力画像データＩＤを選択する。これに代えて、Ｖ個ずつの入力画像データＩＤは、第１入力画像データ群ＩＧ１に含まれる複数個の入力画像データＩＤから、毎回、ランダムに選択されても良い。

Ｓ２３０では、ＣＰＵ３１０は、選択されたＶ個の入力画像データＩＤを、それぞれ、対応するラベルデータＬＤとともに、生成ネットワークＧＮに入力して、Ｖ個の出力画像データＯＤを生成する。

Ｓ２４０では、ＣＰＵ３１０は、Ｖ個の入力画像データＩＤのそれぞれについて、入力画像データＩＤと、該入力画像データＩＤに対応する出力画像データＯＤと、の間の誤差値Ｅ１を算出する。誤差値Ｅ１は、所定の損失関数に基づいて算出される。例えば、誤差値Ｅ１の算出には、平均二乗誤差（MSE（Mean Squared Error））が用いられる。誤差値Ｅ１は、入力画像データＩＤと出力画像データＯＤとの差分が小さくなるほど小さくなる。

Ｓ２５０では、ＣＰＵ３１０は、Ｖ個の誤差値Ｅ１を用いて、生成ネットワークＧＮの複数個の演算パラメータＰｅ、Ｐｄを調整する。具体的には、ＣＰＵ３１０は、誤差値Ｅ１が小さくなるように、すなわち、入力画像データＩＤと出力画像データＯＤとの差分が小さくなるように、所定のアルゴリズムに従って演算パラメータＰｅ、Ｐｄを調整する。所定のアルゴリズムには、例えば、誤差逆伝播法と勾配降下法とを用いたアルゴリズムが用いられる。

Ｓ２６０では、ＣＰＵ３１０は、トレーニングが完了したか否かを判断する。本実施例では、作業者からの完了指示が入力された場合にはトレーニングが完了したと判断し、トレーニングの継続指示が入力された場合にはトレーニングが完了していないと判断する。例えば、ＣＰＵ３１０は、トレーニング用に用いられた入力画像データＩＤとは別の複数個のテスト用の入力画像データＩＤを、生成ネットワークＧＮに入力して、複数個の出力画像データＯＤを生成する。作業者は、出力画像データＯＤによって示される画像が、テスト用の対応する入力画像データＩＤによって示される画像を十分に再現できているか否かを確認する。作業者は、確認結果に応じて、操作部３５０を介して、トレーニングの完了指示または継続指示を入力する。変形例では、例えば、Ｓ２２０～Ｓ２５０の処理が所定回数だけ繰り返された場合に、トレーニングが完了されたと判断されても良い。

トレーニングが完了していないと判断される場合には（Ｓ２６０：ＮＯ）、ＣＰＵ３１０は、Ｓ２２０に処理を戻す。トレーニングが完了したと判断される場合には（Ｓ２６０：ＹＥＳ）、ＣＰＵ３１０は、生成ネットワークＧＮのトレーニング処理を終了する。このトレーニング処理が終了した時点で、生成ネットワークＧＮは、演算パラメータＰｅ、Ｐｄが調整された学習済みモデルになっている。したがって、このトレーニング処理は、学習済みの生成ネットワークＧＮを生成（製造）する処理である、と言うことができる。

Ａ－４－３．識別ネットワークＤＮのトレーニング処理
先ず、識別ネットワークＤＮのトレーニング処理の際に用いられる第２入力画像データ群ＩＧ２とラベルデータ群ＬＧと教師データ群ＴＧとについて説明する。図１３は、第２入力画像データ群ＩＧ２とラベルデータ群ＬＧと教師データ群ＴＧの一例を示す図である。第２入力画像データ群ＩＧ２は、第１入力画像データ群ＩＧ１と同様に、複数個の画像データ群を含んでいる。第２入力画像データ群ＩＧ２に含まれる画像データ群には、第１入力画像データ群ＩＧ１と同様に、画像データ群に含まれる複数個の入力画像データＩＤによって示される文字に割り当てられたラベルデータＬＤが対応付けられている。例えば、図１３の例では、画像データ群ＩＧ２ａ、ＩＧ２ｂ、ＩＧ２ｃには、それぞれ、「花」、「火」、「木」に割り当てられたラベルデータＬＤａ、ＬＤｂ、ＬＤｃが対応付けられている。

第２入力画像データ群ＩＧ２の各画像データ群は、それぞれ、複数個の入力画像データＩＤを含んでいる。第１入力画像データ群ＩＧ１とは異なり、第２入力画像データ群ＩＧ２は、対応するラベルデータＬＤによって識別される文字として正しい文字を示す入力画像データＩＤと、上述した５種類の誤りのいずれかを含む文字を示す入力画像データＩＤと、を含んでいる。具体的には、第２入力画像データ群ＩＧ２は、上述の６種類の識別結果（「正解」、「はらいの誤り」、「はねの誤り」、「画数不足」、「画数余分」、「止めの誤り」）に対応する文字を示す入力画像データＩＤを、所定数ずつ（例えば、１００個ずつ）含んでいる。

図１３に示すように、教師データ群ＴＧは、第２入力画像データ群ＩＧ２に含まれる全ての入力画像データＩＤのそれぞれに１個ずつ対応付けられた教師データＴＤを含む。各教師データＴＤは、対応する入力画像データＩＤが識別ネットワークＤＮに入力された場合に、識別ネットワークＤＮが生成すべき理想的な識別データＫＤである。具体的には、教師データＴＤは、識別データＫＤと同様に、６種類の識別結果と一対一で対応する６個の値を含む６次元のデータである。例えば、誤りを含まない正しい文字を示す入力画像データＩＤに対応する教師データＴＤでは、「正解」に対応する値が「１」であり、残りの５つの値が「０」である。また、「はねの誤り」を含む文字を示す入力画像データＩＤに対応する教師データＴＤでは、「はねの誤り」に対応する値が「１」であり、残りの５つの値が「０」である。第２入力画像データ群ＩＧ２に含まれる各入力画像データＩＤへの教師データＴＤの対応付けは、例えば、作業者によって行われる。

識別ネットワークＤＮのトレーニング処理について説明する。このトレーニング処理は、
このトレーニング処理は、生成ネットワークＧＮのトレーニング処理（図１２）が完了した後に実行される。このトレーニング処理は、識別ネットワークＤＮのクラス分類部ＣＬＳの上述した複数個の演算パラメータＰｄｎを調整することで、識別ネットワークＤＮが適切な識別データＫＤを出力できるようにトレーニングする処理である。なお、上述したように、特徴抽出部ＣＥＸの複数個の演算パラメータには、公開されているＶＧＧ１６の演算パラメータが用いられるので、このトレーニング処理では、調整されない。このように、このトレーニング処理は、いわゆるファインチューニング（fine tuning）を行う処理である。

サーバ１００の不揮発性記憶装置３３０に格納されたコンピュータプログラムＰＧｔに組み込まれた識別ネットワークＤＮは、本トレーニング処理によってトレーニングされた学習済みモデルである。

図１４は、識別ネットワークＤＮのトレーニング処理のフローチャートである。Ｓ３１０では、ＣＰＵ３１０は、第２入力画像データ群ＩＧ２を用いて、トレーニング用の複数個の差分データＤＤを生成する。具体的には、ＣＰＵ３１０は、第２入力画像データ群ＩＧ２に含まれる複数個の入力画像データＩＤのそれぞれを対応するラベルデータＬＤとともに学習済みの生成ネットワークＧＮに入力して、複数個の出力画像データＯＤを生成する。ＣＰＵ３１０は、第２入力画像データ群ＩＧ２に含まれる複数個の入力画像データＩＤと、生成された複数個の出力画像データＯＤと、を用いて、複数個の差分データＤＤを生成する。

Ｓ３２０では、ＣＰＵ３１０は、生成された複数個の差分データＤＤを教師データＴＤと対応付けて不揮発性記憶装置３３０に記憶する。各差分データＤＤには、教師データ群ＴＧに含まれる複数個の教師データＴＤのうち、該差分データＤＤの生成に用いられた入力画像データＩＤに対応する教師データＴＤが対応付けられる。

Ｓ３３０では、ＣＰＵ３１０は、識別ネットワークＤＮのクラス分類部ＣＬＳの複数個の演算パラメータＰｄｎを初期化する。例えば、これらの演算パラメータＰｄｎの初期値は、同一の分布（例えば、正規分布）から独立に取得された乱数に設定される。

Ｓ３４０では、ＣＰＵ３１０は、不揮発性記憶装置３３０に格納されたトレーニング用の複数個の差分データＤＤの中から、バッチサイズ分の差分データＤＤを選択する。トレーニング用の複数個の差分データＤＤは、例えば、Ｍ個（Ｍは２以上の整数）ずつの差分データＤＤをそれぞれ含む複数個のグループ（バッチ）に分割される。ＣＰＵ３１０は、これらの複数個のグループから１個のグループを順次に選択することによって、Ｍ個の使用すべき差分データＤＤを選択する。Ｍ個ずつの差分データＤＤは、毎回、ランダムに選択されても良い。

Ｓ３５０では、ＣＰＵ３１０は、選択されたＭ個の差分データＤＤを、それぞれ、識別ネットワークＤＮに入力して、Ｍ個の識別データＫＤを生成する。

Ｓ３６０では、ＣＰＵ３１０は、Ｍ個の識別データＫＤのそれぞれについて、識別データＫＤと、該差分データＤＤに対応する教師データＴＤと、の間の誤差値Ｅ２を算出する。誤差値Ｅ２は、所定の損失関数に基づいて算出される。例えば、誤差値Ｅ２の算出には、平均二乗誤差が用いられる。この場合に誤差値Ｅ２は、識別データＫＤと教師データＴＤとの差分が小さくなるほど小さくなる。

Ｓ３７０では、ＣＰＵ３１０は、Ｍ個の誤差値Ｅ２を用いて、識別ネットワークＤＮのクラス分類部ＣＬＳの複数個の演算パラメータＰｎを調整する。具体的には、ＣＰＵ３１０は、誤差値Ｅ２が小さくなるように、すなわち、識別データＫＤと教師データＴＤとの差分が小さくなるように、所定のアルゴリズムに従って演算パラメータＰｄｎを調整する。所定のアルゴリズムには、例えば、誤差逆伝播法と勾配降下法とを用いたアルゴリズムが用いられる。

Ｓ３８０では、ＣＰＵ３１０は、トレーニングが完了したか否かを判断する。本実施例では、作業者からの完了指示が入力された場合にはトレーニングが完了したと判断し、トレーニングの継続指示が入力された場合にはトレーニングが完了していないと判断する。例えば、ＣＰＵ３１０は、トレーニング用に用いられた入力画像データＩＤとは別の複数個のテスト用の入力画像データＩＤに基づいてテスト用の差分データＤＤを生成し、該差分データＤＤを識別ネットワークＤＮに入力して複数個の識別データＫＤを生成する。作業者は、識別データＫＤが、対応する入力画像データＩＤによって示される画像に対する識別結果を適切に示しているか否かを確認する。作業者は、確認結果に応じて、操作部２５０を介して、トレーニングの完了指示または継続指示を入力する。変形例では、例えば、Ｓ３４０～Ｓ３７０の処理が所定回数だけ繰り返された場合に、トレーニングが完了されたと判断されても良い。

トレーニングが完了していないと判断される場合には（Ｓ３８０：ＮＯ）、ＣＰＵ３１０は、Ｓ３４０に処理を戻す。トレーニングが完了したと判断される場合には（Ｓ３８０：ＹＥＳ）、ＣＰＵ３１０は、識別ネットワークＤＮのトレーニング処理を終了する。このトレーニング処理が終了した時点で、識別ネットワークＤＮは、演算パラメータＰｄｎが調整された学習済みモデルになっている。したがって、このトレーニング処理は、学習済みの識別ネットワークＤＮを生成（製造）する処理である、と言うことができる。

以上説明した本実施例のサーバ１００の処理（図９）において、図９のＳ１００～Ｓ１１０にて手書き文字を示す入力画像データＩＤを取得するＣＰＵ１１０は、画像取得部の例である。図９のＳ１１５にて入力画像データＩＤに対応付けられるラベルデータＬＤを取得するＣＰＵ１１０は、ラベル取得部の例である。図９のＳ１２０にて入力画像データＩＤとラベルデータＬＤとを含む入力データを生成ネットワークＧＮに入力することによって出力画像データＯＤを生成するＣＰＵ１１０は、出力画像生成部の例である。図９のＳ１２５～Ｓ１３５にて入力画像データＩＤと出力画像データＯＤとを用いて、入力画像データＩＤによって示される手書き文字がラベルデータＬＤによって識別される文字として正しい文字であるか否かを判断するＣＰＵ１１０は、判断部の例である。本実施例のサーバ１００によれば、手書き文字が正しい文字であるか否かを、生成ネットワークＧＮを用いて容易に判断することができる。

例えば、本実施例では、複合機２００のユーザは、手書き文字が正しい文字であるか否かの判断基準（判断対象とすべき部位や判断の手法など）を文字ごとに登録する作業を行う必要がない。ユーザは、例えば、複合機２００を利用して、スキャンデータなどの入力画像データＩＤを含むデータをサーバ１００に送信するだけで、サーバ１００に手書き文字が正しい文字であるか否か判断させることができる。したがって、例えば、書き取りテストの採点などにおいて、手書き文字が正しい文字であるか否かを判断するユーザの負担を軽減できる。

さらに、本実施例では、入力画像データＩＤは、手書き文字が記入された原稿である記入済みのテストシートＴＳを示すスキャンデータに基づく画像データである（図８（Ａ）、図９のＳ１０５、Ｓ１１０）。したがって、記入済みのテストシートＴＳに記入された手書き文字が正しい文字であるか否かを、生成ネットワークＧＮを用いて容易に判断することができる。例えば、複合機２００のユーザは、記入済みのテストシートＴＳを示すスキャンデータを、複合機２００を利用して生成し、該スキャンデータをサーバ１００に送信するだけで、サーバ１００に手書き文字が正しい文字であるか否か判断させることができる。

さらに、本実施例では、ＣＰＵ１１０は、スキャンデータによって示されるスキャン画像ＳＩ内の複数個の記入領域ＥＮ１～ＥＮ６を特定し（図９のＳ１０５）、これらの記入領域に対応する複数個の入力画像データＩＤを取得する（図９のＳ１１０）。ＣＰＵ１１０は、該複数個の入力画像データＩＤのそれぞれによって示される手書き文字が正しい文字であるか否かを判断する（図９のＳ１１２～Ｓ１４０）。この結果、サーバ１００は、テストシートＴＳに記入された複数個の手書き文字が正しい文字であるか否かを容易に判断することができる。

さらに、本実施例において、図９のＳ１５０にて、採点結果に基づき、採点済テスト画像ＲＩを示す採点済シートデータを生成するＣＰＵ１１０は、第１処理済画像生成部の例である。採点済テスト画像ＲＩは、スキャン画像ＳＩに第１付加画像Ａａ１～Ａａ６（図８（Ｂ））が付加された画像である。この結果、サーバ１００は、手書き文字が正しい文字であるか否かの判断結果を示す採点済シートデータをユーザに提供できる。ユーザは、採点済テスト画像ＲＩを見るだけで、容易に手書き文字が正しい文字であるか否かを把握できる。

さらに、本実施例において、図９のＳ１５０にて採点済シートデータを生成する際に、上述したように差分データＤＤを用いて手書き文字の誤りを含む部位を特定するＣＰＵ１１０は、特定部の例である。そして、その特定結果を用いて、採点済テスト画像ＲＩを示す採点済シートデータを生成するＣＰＵ１１０は、第２処理済画像生成部の例である。採点済テスト画像ＲＩは、スキャン画像ＳＩの手書き文字に、誤りを含む部位を示す第２付加画像Ａｂ２～Ａｂ６（図８（Ｂ））が付加された画像である。この結果、サーバ１００は、手書き文字の誤りを含む部位を示す採点済シートデータをユーザに提供できる。ユーザは、採点済テスト画像ＲＩを見るだけで、容易に手書き文字の誤りを含む部位を把握できる。

さらに、本実施例において、採点済テスト画像ＲＩは、スキャン画像ＳＩに、手書き文字の誤りの種類を示す第３付加画像Ａｃ２～Ａｃ６（図８（Ｂ））が付加された画像である。この結果、サーバ１００は、手書き文字の誤りの種類を示す採点済シートデータをユーザに提供できる。ユーザは、採点済テスト画像ＲＩを見るだけで、容易に手書き文字の誤りの種類を把握できる。

さらに、本実施例において、図９のＳ１５５にて、採点済シートデータを複合機２００に送信することによって、印刷実行部として複合機２００に採点済テスト画像ＲＩを印刷させるＣＰＵ１１０は、印刷制御部の例である。この結果、サーバ１００は、印刷された採点済テスト画像ＲＩを提供できる。ユーザは、例えば、印刷された採点済テスト画像ＲＩを見ることで、容易に採点結果を確認できる。ユーザは、例えば、印刷された採点済テスト画像ＲＩを受験者に配布することで、容易に採点結果を受験者に通知できる。

さらに、本実施例において、図９のＳ１２５にて差分データＤＤを生成するＣＰＵ１１０は、差分生成部の例である。図９のＳ１３０、Ｓ１３５にて、差分データＤＤに基づいて手書き文字に含まれる誤りの種類を判定するＣＰＵ１１０は、判定部の例である。この結果、サーバ１００は、差分データＤＤに基づいて手書き文字に含まれる誤りの種類を適切に判定できる。

より具体的には、ＣＰＵ１１０は、差分データＤＤを識別ネットワークＤＮに入力することによって、手書き文字の誤りの種類を示す識別データＫＤを生成し（図９のＳ１３０）、識別データＫＤに基づいて手書き文字に含まれる誤りの種類を判定する（図９のＳ１３５）。この結果、識別ネットワークＤＮを用いて、手書き文字に含まれる誤りの種類をより容易に判定できる。例えば、ユーザは、手書き文字に含まれる誤りの種類の判定基準などをサーバ１００に登録する必要がない。

さらに、本実施例の差分データＤＤは、余分要素ＯＥと、不足要素ＭＥと、を区別して示すデータである（図３（Ｃ））。この結果、入力画像ＩＩに示される手書き文字に不足している要素と余分な要素とを区別することで、手書き文字に含まれる誤りの種類をより適切に判定できる。例えば、仮に、差分データＤＤが「はね」を示していたとしても、該「はね」が余分要素ＯＥであるか不足要素ＭＥであるかが区別されていないとする。この場合には、識別ネットワークＤＮは、差分データＤＤに基づいて誤りを判定する際に、「はね」が不足している誤り（例えば、図３（Ｄ）の「はねの誤り」）と、「はね」が余分である誤り（例えば、図３（Ｄ）の「止めの誤り」）と、を区別できない可能性がある。本実施例では、このような不都合を抑制することができる。

さらに、本実施例では、判定される手書き文字の誤りは、字画の終端の形状に関する誤り（例えば、図３（Ｄ）の「はらいの誤り」、「はねの誤り」、「止めの誤り」）を含む。このような字画の終端の形状を判定する作業は、例えば、人が行うこと場合には手間と注意力を要する作業である。本実施例によれば、サーバ１００が字画の終端の形状に関する誤りの種類を適切に判定できる。したがって、ユーザの負担をより効果的に軽減できる。

さらに、本実施例において、図９のＳ１５０にて、３段階の値の中から選択される手書き文字の評価値を決定するＣＰＵ１１０は、評価部の例である。この結果、サーバ１００は、手書き文字が正しい文字であるか否かだけでなく、３段階の評価値を決定するので、より精細な採点を行うことができる。

さらに、本実施例の学習済みの生成ネットワークＧＮは、図１２のトレーニング処理によってトレーニングされる。このトレーニング処理は、入力画像データＩＤと、入力画像データＩＤに対応付けられるラベルデータＬＤと、をそれぞれ含む複数個の入力データを生成ネットワークＧＮに入力することによって、複数個の出力画像データＯＤを生成する処理（図１２のＳ２３０）と、複数個の入力画像データＩＤと複数個の出力画像データＯＤとを用いて、入力画像データＩＤと、対応する出力画像データＯＤと、の差が小さくなるように、複数個の演算パラメータＰｅ、Ｐｄを調整する処理（図１１のＳ２５０）と、を含む。そして、図１１に示すように、複数個の入力データは、１種類のラベルデータＬＤごとに複数種類の入力画像データＩＤを含む。複数種類の入力画像データＩＤは、互いに異なる書体を有する特定の文字をそれぞれ示す。この結果、生成ネットワークＧＮは、様々な書体の文字を再構成することができるようにトレーニングされる。したがって、学習済みの生成ネットワークＧＮを用いることで、様々な書体を有し得る手書き文字が正しい文字であるか否かを精度良く判断することができる。

さらに、図１２のトレーニング処理で用いられる複数種類の入力画像データＩＤは、手書き文字を示す画像データを含む。この結果、学習済みの生成ネットワークＧＮは、手書き文字を再構成することができるようにトレーニングされるので、手書き文字が正しい文字であるか否かを精度良く判断することができる。

以上の説明から解るように、本実施例の生成ネットワークＧＮは、第１の機械学習モデルの例であり、識別ネットワークＤＮは、第２の機械学習モデルの例である。スキャンデータは、原稿画像データの例であり、採点済テスト画像ＲＩは、第１処理済画像および第２処理済画像の例である。余分要素ＯＥは、第１要素の例であり、不足要素ＭＥは、第２要素の例である。

Ｂ．変形例：
（１）上記実施例では、入力画像データＩＤは、スキャンデータから取得されている。これに代えて、入力画像データＩＤは、２次元イメージセンサを備えるデジタルカメラを用いて、記入済みのテストシートＴＳを撮影して得られる撮影画像データから取得されても良い。また、入力画像データＩＤは、例えば、タッチパネル上に指やタッチペンを用いて手書きされた文字を示す画像データから取得されて良い。

（２）上記実施例では、入力画像データＩＤは、複数個の記入領域を含むスキャン画像ＳＩから取得されているが、これに限られない。例えば、入力画像データＩＤは、習字などの手書き文字をデジタルカメラで一文字ずつ撮影して得られる画像データであっても良い。

（３）上記実施例では、採点済テスト画像ＲＩ（図８（Ａ））は、３種類の付加画像、すなわち、第１～第３付加画像を全て含んでいる。これに代えて、採点済テスト画像ＲＩは、３種類の付加画像のうちの１または２種類の付加画像のみを含んでもよい。

また、採点済テスト画像ＲＩ（図８（Ａ））は、他の種類の付加画像を含んでも良い。例えば、ＣＰＵ１１０は、成績データベースＤＢに記録された採点結果の履歴と、注目入力画像データについての採点結果と、に基づいて、特別な付加画像が付加されても良い。例えば、過去に複数回に亘って誤りがあった文字についての採点結果が「正解」と判定された場合に、対応する記入領域に特別な付加画像（例えば、二重丸や花丸を示す画像）が付加されても良い。

（４）上記実施例では、採点済テスト画像ＲＩは、複合機２００によって印刷されることによって、ユーザに提供される。これに代えて、例えば、ユーザの複合機２００や端末装置（例えば、スマートフォン）の表示部に表示されることによって、ユーザに提供されても良い。

（５）上記実施例のネットワークシステムＮＳ（図２）は、識別ネットワークＤＮを含まなくても良い。この場合には、ＣＰＵ１１０は、例えば、差分データＤＤに基づいて、識別ネットワークＤＮを用いることなく、入力画像データＩＤによって示される手書き文字が正しい文字であるか否かを判断する。例えば、差分データＤＤに含まれる余分要素ＯＥまたは不足要素ＭＥを構成する画素数が閾値以上である場合に、入力画像データＩＤによって示される手書き文字は正しい文字ではないと判断され、該画素数が閾値未満である場合に、入力画像データＩＤによって示される手書き文字は正しい文字であると判断される。また、この場合において、手書き文字が正しい文字でないと判断された場合には、手書き文字に含まれる誤りの種類の判定は行われなくても良い。あるいは、手書き文字が正しい文字でないと判断された場合には、ＣＰＵ１１０は、識別ネットワークＤＮを用いない手法、例えば、パターンマッチングを用いて、差分データＤＤを解析することによって、手書き文字に含まれる誤りの種類を判定しても良い。

（６）上記実施例では、差分データＤＤは、余分要素ＯＥと不足要素ＭＥとを区別して示すデータである。これに代えて、差分データＤＤは、余分要素ＯＥと不足要素ＭＥとを区別することなく示すデータであっても良い。例えば、差分データＤＤは、入力画像データＩＤの各画素の値と出力画像データＯＤの対応する画素の値との差の絶対値を、画素ごとに含むデータであっても良い。

（７）上記実施例では、差分データＤＤに基づいて判定される手書き文字の誤りは、「はらい」や「はね」などの字画の終端の形状に関する誤りと、「字画不足」や「字画余分」などの字画の全体に関する誤りと、を含む。これに限らず、差分データＤＤに基づいて判定される手書き文字の誤りは、字画の終端の形状に関する誤りのみであっても良いし、字画の全体に関する誤りのみであっても良い。また、差分データＤＤに基づいて判定される手書き文字の誤りは、本実施例の５種類の誤りの全部または一部とともに、あるいは、全部または一部に代えて、他の種類の誤りを含んでも良い。例えば、差分データＤＤに基づいて判定される手書き文字の誤りは、字画の全体の形状の誤り、あるいは、一の字画と他の字画との関係（例えば、接続位置や接続の有無）の誤りを含んでも良い。

（８）上記実施例では、図９のＳ１３５にて決定される評価値は、３段階の評価値である、これに代えて、該評価値は、例えば、正解（例えば１点）と不正解（例えば０点）の２段階の評価値であっても良いし、４段階以上の評価値であっても良い。例えば、ＣＰＵ１１０は、差分データＤＤに基づいて、手書き文字に含まれる誤りの個数を特定し、誤りの個数に応じて、４段階以上の評価値を決定しても良い。

（９）上記実施例の生成ネットワークＧＮのトレーニングに用いられる第１入力画像データ群ＩＧ１（図１１）に含まれる入力画像データＩＤは、手書き文字を示す画像データである。これに代えて、トレーニング用の入力画像データＩＤの全部または一部は、既存のフォントの文字を示す画像データであっても良い。この場合には、トレーニング用の入力画像データＩＤの準備が容易である。

（１０）上記実施例では、採点処理の対象となる手書き文字、すなわち、テストシートＴＳに記入される文字は、漢字である。これに代えて、採点処理の対象となる手書き文字は、他の種類の文字、例えば、ひらがな、カタカナ、英字、アラビア文字であっても良い。

（１１）上記実施例の生成ネットワークＧＮ（図４）および識別ネットワークＤＮ（図５）の構成は一例であり、これに限られない。例えば、生成ネットワークＧＮや識別ネットワークＤＮにおいて、畳込層や転置畳込層の層数は、適宜に変更されて良い。また、生成ネットワークＧＮでは、畳込層や転置畳込層の全部または一部に代えて、全結合層を備えても良い。また、生成ネットワークＧＮや識別ネットワークＤＮの各層で出力された値に対して実行される後処理も適宜に変更され得る。例えば、後処理に用いられる活性化関数は、任意の関数、例えば、ＲｅＬＵ、ＬｅａｋｙＲｅＬＵ、ＰＲｅＬＵ、ソフトマックス、シグモイドが用いられ得る。また、バッチノーマリゼイション、ドロップアウトなどの処理も後処理として適宜に追加や省略がされ得る。また、識別ネットワークＤＮは、ニューラルネットワークとは異なる機械学習モデル、例えば、サポートベクターマシーン（ＳＶＭ）であっても良い。

（１１）上記実施例の生成ネットワークＧＮや識別ネットワークＤＮのトレーニング処理（図１２、図１４）は、一例であり、これに限られない。例えば、誤差値Ｅ１、Ｅ２には、平均絶対誤差が用いられているが、これに代えて、他の種類の誤差値が用いられても良い。例えば、誤差値Ｅ１、Ｅ２には、クロスエントロピー誤差や平均絶対誤差が用いられても良い。また、識別ネットワークＤＮのトレーニング処理（図１４）のＳ３７０では、クラス分類部ＣＬＳの演算パラメータＰｄｎのみが調整されているが、特徴抽出部ＣＥＸの演算パラメータの全部または一部も調整されても良い。

また、生成ネットワークＧＮのトレーニング処理では、生成ネットワークＧＮと識別ネットワーク（実施例の識別ネットワークＤＮとは別のネットワークである）とから成るネットワークシステムであって、いわゆる敵対的生成ネットワーク（GANs(Generative adversarial networks)）を構成するネットワークシステムを用いて、生成ネットワークＧＮをトレーニングしても良い。この場合には、識別ネットワークは、出力画像データＯＤを偽データと判定し、入力画像データＩＤを真データと判定するようにトレーニングされる。生成ネットワークＧＮは、識別ネットワークが出力画像データＯＤを真データであると誤って判定するようにトレーニングされる。

（１２）図１のサーバ１００や図１０のトレーニング装置３００のハードウェア構成は、一例であり、これに限られない。例えば、サーバ１００やトレーニング装置３００のプロセッサは、ＣＰＵに限らず、ＧＰＵ（Graphics Processing Unit）やＡＳＩＣ（application specific integrated circuit）、あるいは、これらとＣＰＵとの組み合わせであっても良い。また、トレーニング装置３００やサーバ１００は、ネットワークを介して互いに通信可能な複数個の計算機（例えば、いわゆるクラウドサーバ）であっても良い。

（１３）図９の採点処理の全部を、複合機２００の制御部２１０が実行しても良い。この場合には、サーバ１００は不要である。この場合には、複合機２００が画像処理装置の例である。

また、図９の採点処理の一部、例えば、スキャンデータから複数個の入力画像データＩＤを取得する処理（図９のＳ１０５、Ｓ１１０）は、複合機２００の制御部２１０によって実行されても良い。この場合には、複合機２００は、複数個の入力画像データＩＤをサーバ１００に送信する。また、複合機２００が採点結果をサーバ１００から取得し、複合機２００の制御部２１０が、採点結果の成績データベースＤＢへの記録（図９のＳ１４５）や、採点済シートデータの生成（図９のＳ１５０）を実行しても良い。これらの場合には、サーバ１００と複合機２００との全体が、画像処理装置の例である。

（１４）上記各実施例において、ハードウェアによって実現されていた構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されていた構成の一部あるいは全部をハードウェアに置き換えるようにしてもよい。例えば、生成ネットワークＧＮや識別ネットワークＤＮは、プログラムモジュールに代えて、ASIC（Application Specific Integrated Circuit）等のハードウェア回路によって実現されてよい。

以上、実施例、変形例に基づき本発明について説明してきたが、上記した発明の実施の形態は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明は、その趣旨並びに特許請求の範囲を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれる。

１００…サーバ、１１０…ＣＰＵ、１２０…揮発性記憶装置、１３０…不揮発性記憶装置、１４０…通信インタフェース、２００…複合機、２１０…制御部、２２０…読取部、２３０…印刷部、２５０…操作部、３００…トレーニング装置、３１０…ＣＰＵ、３２０…揮発性記憶装置、３３０…不揮発性記憶装置、３４０…表示部、３５０…操作部、１０００…採点システム、ＩＧ１ａ、ＩＧ２ａ…画像データ群、ＤＢ…成績データベース、ＥＣ…エンコーダ、ＤＣ…デコーダ、ＴＤ…教師データ、ＳＤ…シートデータ、ＡＤ…属性データ、ＩＤ…入力画像データ、ＬＤ…ラベルデータ、ＯＤ…出力画像データ、ＣＤ…特徴データ、ＤＤ…差分データ、ＫＤ…識別データ、ＯＥ…余分要素、ＭＥ…不足要素、ＴＧ…教師データ群、ＬＧ…ラベルデータ群、ＯＩ…出力画像、ＩＩ…入力画像、ＤＩ…差分画像、ＴＩ…テスト画像、ＳＩ…スキャン画像、ＲＩ…採点済テスト画像、ＧＮ…生成ネットワーク、ＤＮ…識別ネットワーク、ＮＳ…ネットワークシステム、ＴＳ…テストシート、ＩＴ…インターネット、ＣＥＸ…特徴抽出部、ＣＬＳ…クラス分類部、ＰＧｇ、ＰＧｔ…コンピュータプログラム

Claims

画像処理装置であって、
手書き文字を示す入力画像データを取得する画像取得部と、
前記入力画像データに対応付けられるラベルデータであって文字ごとに割り当てられる識別情報である前記ラベルデータを取得するラベル取得部と、
前記入力画像データと前記ラベルデータとを含む入力データを第１の機械学習モデルに入力することによって前記入力画像データに対応する出力画像データを生成する出力画像生成部であって、前記第１の機械学習モデルは、前記手書き文字の特徴を抽出し、抽出された特徴に基づいて前記手書き文字を再構成するモデルであり、前記出力画像データは、再構成された前記手書き文字を示す、前記出力画像生成部と、
前記入力画像データと前記出力画像データとを用いて、前記入力画像データによって示される前記手書き文字が、前記ラベルデータによって識別される文字として正しい文字であるか否かを判断する判断部と、
を備える画像処理装置。
請求項１に記載の画像処理装置であって、
前記入力画像データは、手書き文字が記入された原稿を示す原稿画像データであってイメージセンサを用いて生成された前記原稿画像データに基づく画像データである、画像処理装置。
請求項２に記載の画像処理装置であって、
前記画像取得部は、
前記原稿画像データを取得し、
前記原稿画像データによって示される原稿画像内の複数個の領域であって前記手書き文字がそれぞれ記入された前記複数個の領域を特定し、
前記複数個の領域に対応する複数個の前記入力画像データを取得し、
前記ラベル取得部は、前記複数個の領域のそれぞれに対応付けられた前記ラベルデータを、前記複数個の入力画像データに対応付けられる前記ラベルデータとして取得し、
前記出力画像生成部は、前記複数個の入力画像データに対応する複数個の前記出力画像データを生成し、
前記判断部は、前記複数個の入力画像データのそれぞれによって示される前記手書き文字が、対応する前記ラベルデータによって識別される文字として正しい文字であるか否かを判断する、画像処理装置。
請求項２または３に記載の画像処理装置であって、さらに、
前記原稿画像データと前記判断部による判断結果とを用いて、第１処理済画像を示す第１処理済画像データを生成する第１処理済画像生成部を備え、
前記第１処理済画像は、前記原稿画像データによって示される原稿画像に、前記手書き文字が正しい文字であるか否かを示す第１付加画像が付加された画像である、画像処理装置。
請求項４に記載の画像処理装置であって、さらに、
前記第１処理済画像データを用いて印刷実行部に前記第１処理済画像を印刷させる印刷制御部を備える、画像処理装置。
請求項１～５のいずれかに記載の画像処理装置であって、さらに、
前記入力画像データと前記出力画像データとに基づいて前記入力画像データによって示される前記手書き文字の誤りを含む部位を特定する特定部と、
前記入力画像データと前記特定部による特定結果とを用いて、第２処理済画像を示す第２処理済画像データを生成する第２処理済画像生成部を備え、
前記第２処理済画像は、前記入力画像データによって示される前記手書き文字に、前記誤りを含む部位を示す第２付加画像が付加された画像である、画像処理装置。
請求項１～６のいずれかに記載の画像処理装置であって、さらに、
前記入力画像データと前記出力画像データとの差分を示す差分データを生成する差分生成部と、
前記差分データに基づいて前記入力画像データによって示される前記手書き文字に含まれる誤りの種類を判定する判定部と、
を備える、画像処理装置。
請求項７に記載の画像処理装置であって、
前記判定部は、
差分データを第２の機械学習モデルに入力することによって、前記差分データに対応する識別データであって前記誤りの種類を示す前記識別データを生成し、
前記識別データに基づいて前記手書き文字に含まれる誤りの種類を判定する、画像処理装置。
請求項７または８に記載の画像処理装置であって、
前記差分データは、前記入力画像データによって示される前記手書き文字に含まれ、かつ、前記出力画像データによって示される前記手書き文字に含まれない第１要素と、前記入力画像データによって示される前記手書き文字に含まれず、かつ、前記出力画像データによって示される前記手書き文字に含まれる第２要素と、を区別して示すデータである、画像処理装置。
請求項７～９のいずれかに記載の画像処理装置であって、
前記判定部によって判定される前記手書き文字に含まれる前記誤りは、字画の終端の形状に関する誤りを含む、画像処理装置。
請求項１～１０のいずれかに記載の画像処理装置であって、さらに、
前記入力画像データと前記出力画像データとの差分に基づいて前記入力画像データによって示される前記手書き文字の評価値を決定する評価部であって、前記評価値は、３段階以上の値の中から選択される値である、画像処理装置。