JP2022156761A

JP2022156761A - データ処理装置、データ処理方法、コンピュータプログラム

Info

Publication number: JP2022156761A
Application number: JP2021060608A
Authority: JP
Inventors: 雅敏平野; Masatoshi Hirano
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2022-10-14

Abstract

【課題】文字認識に対するフォントの影響を緩和する。【解決手段】対象物の撮影画像のデータである撮影画像データを分析することによって、対象物に含まれる文字である対象文字の領域を検出する。文字認識用のフォントである認識フォントとは異なる他のフォントの文字の画像データを使用して認識フォントの同じ文字の画像データを生成するようにトレーニングされた生成モデルに、検出された対象文字の領域の撮影画像の入力画像データを入力することによって、対象文字に対応付けられた認識フォントの対象文字の出力画像データを生成する。出力画像データの文字認識処理を実行することによって、対象文字を認識する。【選択図】図９

Description

本明細書は、文字を認識する技術に関する。

従来から、いわゆるＯＣＲ（Optical Character Recognition）などの文字認識技術が、画像中の文字を認識するために利用されている。例えば、プリンタ、複合機、ミシンなどの種々の製品に、ラベルが設けられている。ラベルは、会社名、モデル名、製造番号、認証番号などを示す文字（通常は、文字列）を含んでいる。製造エラーにより、ラベルが誤った文字を含む場合がある。このような文字の誤りを検出するために、ラベルの撮影画像データに対する文字認識を利用可能である。特許文献１は、文字認識の精度のために画像にノイズ除去を行う技術を提案している。

特開２０２０－９５７１３号公報

ところで、文字は、種々のフォントで表され得る。文字認識の精度は、フォントに応じて異なり得る。文字認識の対象物（例えば、ラベル）に含まれる文字のフォントによっては、適切な文字認識が難しい場合があった。

本明細書は、文字認識に対するフォントの影響を緩和する技術を開示する。

本明細書に開示された技術は、以下の適用例として実現することが可能である。

［適用例１］データ処理装置であって、対象物の撮影画像のデータである撮影画像データを分析することによって、前記対象物に含まれる文字である対象文字の領域を検出する検出部と、文字認識用のフォントである認識フォントとは異なる他のフォントの文字の画像データを使用して前記認識フォントの同じ文字の画像データを生成するようにトレーニングされた生成モデルに、検出された対象文字の領域の撮影画像の入力画像データを入力することによって、前記対象文字に対応付けられた認識フォントの前記対象文字の出力画像データを生成する第１生成部と、前記出力画像データの文字認識処理を実行することによって、前記対象文字を認識する第１認識部と、を備えるデータ処理装置。

この構成によれば、検出された対象文字の領域の撮影画像の入力画像データを生成モデルに入力することによって対象文字に対応付けられた認識フォントの対象文字の出力画像データが生成され、出力画像データの文字認識処理を実行することによって対象文字が認識されるので、認識フォントとは異なるフォントの文字の文字認識処理の精度が、認識フォントの文字の文字認識処理の精度と比べて低い場合であっても、文字認識に対するフォントの影響を緩和できる。

［適用例２］文字認識用のフォントである認識フォントとは異なる他のフォントの文字の画像データを使用して前記認識フォントの同じ文字の画像データを生成するように生成モデルをトレーニングするための学習データの生成方法であって、文字を表す文書データを使用して、認識フォントと他のフォントとのいずれかである第１フォントの前記文字を表す第１文字画像データを生成する工程と、前記文書データを使用する文字画像データの生成に使用されるべき前記文字のフォントを、前記第１フォントから、前記認識フォントと前記他のフォントとのうちの前記第１フォントとは異なる第２フォントに変更する工程と、変更された第２フォントの前記文字を表す第２文字画像データを生成する工程と、前記第１文字画像データと、前記第２文字画像データと、のペアを含む学習データを記憶装置に格納する工程と、を備える、生成方法。

この構成によれば、適切な学習データを生成できる。

なお、本明細書に開示の技術は、種々の態様で実現することが可能であり、例えば、文字認識方法および文字認識装置、検査方法および検査装置、データ処理方法およびデータ処理装置、学習データの生成方法および生成装置、それらの方法または装置の機能を実現するためのコンピュータプログラム、そのコンピュータプログラムを記録した記録媒体（例えば、一時的ではない記録媒体）、等の形態で実現することができる。

一実施例としてのデータ処理装置を示す説明図である。機械学習モデル５００の例を示すブロック図である。学習データの生成処理の例を示すフローチャートである。データの例を示す説明図である。トレーニング処理の例を示すフローチャートである。トレーニング処理の例を示すフローチャートである。検査処理の例を示すフローチャートである。（Ａ）－（Ｇ）は、検査処理で処理される画像の例を示す説明図である。文字認識処理の例を示すフローチャートである。

Ａ．第１実施例：
Ａ１．装置構成：
図１は、一実施例としてのデータ処理装置を示す説明図である。本実施例では、データ処理装置２００は、例えば、パーソナルコンピュータである。データ処理装置２００は、対象物（本実施例では、プリンタに貼られたラベルシート）の撮影画像の画像データを処理する（詳細は、後述する）。データ処理装置２００は、プロセッサ２１０と、記憶装置２１５と、表示部２４０と、操作部２５０と、通信インタフェース２７０と、を備えている。これらの要素は、バスを介して互いに接続されている。記憶装置２１５は、揮発性記憶装置２２０と、不揮発性記憶装置２３０と、を含んでいる。

プロセッサ２１０は、データ処理を行うように構成された装置であり、例えば、ＣＰＵである。揮発性記憶装置２２０は、例えば、ＤＲＡＭであり、不揮発性記憶装置２３０は、例えば、フラッシュメモリである。不揮発性記憶装置２３０は、プログラム２３１、２３２、２３３と、学習データ２３７と、機械学習モデル５００と、を格納している。機械学習モデル５００は、人工ニューラルネットワークを有する予測モデルである。機械学習モデル５００は、生成モデル５１０と、識別モデル５２０と、を含んでいる。

機械学習モデル５００の生成モデル５１０は、文字の画像データを使用して、文字認識用のフォントである認識フォント（例えば、サンセリフ）の同じ文字の画像データを生成する。本実施例では、認識フォントは、全ての文字に共通である。すなわち、認識フォントは、全ての文字に対応付けられている。ただし、認識フォントは、複数の文字の間で異なってよい。識別モデル５２０は、生成モデル５１０のトレーニングのために使用される。本実施例では、機械学習モデル５００は、プログラムモジュールである。学習データ２３７は、機械学習モデル５００のトレーニングのための画像データである。第１プログラム２３１は、学習データ２３７を生成するためのプログラムである。第２プログラム２３２は、機械学習モデル５００のトレーニングのためのプログラムである。第３プログラム２３３は、対象物の撮影画像データを使用して、対象物の不具合に関するデータを取得するためのプログラムである。プロセッサ２１０は、プログラム２３１、２３２、２３３の実行に使用される種々の中間データを、記憶装置２１５（例えば、揮発性記憶装置２２０、不揮発性記憶装置２３０のいずれか）に、一時的に格納する。プログラム２３１、２３２、２３３と、学習データ２３７と、機械学習モデル５００と、の詳細については、後述する。

表示部２４０は、液晶ディスプレイ、有機ＥＬディスプレイなどの、画像を表示するように構成された装置である。操作部２５０は、ボタン、レバー、表示部２４０上に重ねて配置されたタッチパネルなどの、ユーザによる操作を受け取るように構成された装置である。ユーザは、操作部２５０を操作することによって、種々の指示をデータ処理装置２００に入力可能である。通信インタフェース２７０は、他の装置と通信するためのインタフェースである（例えば、ＵＳＢインタフェース、有線ＬＡＮインタフェース、IEEE802.11の無線インタフェース）。通信インタフェース２７０には、デジタルカメラ１００が接続されている。デジタルカメラ１００は、プリンタＤＶに貼られたラベルシートＬＢを撮影することによって、撮影画像の撮影画像データを生成する。

Ａ２．機械学習モデル５００の構成：
図２は、機械学習モデル５００の例を示すブロック図である。機械学習モデル５００は、いわゆる敵対的生成ネットワーク（GAN : Generative Adversarial Networks）を使用して構成されている。機械学習モデル５００は、文字のフォントを変換する処理を実行する。機械学習モデル５００は、文字の画像Ｉｐ１の画像データＩｐ１ｄを使用して、予め決められた認識フォントの同じ文字の画像Ｉｐ３の画像データＩｐ３ｄを生成するように、トレーニングされる。入力画像Ｉｐ１としては、認識フォントとは異なるフォントの画像を含む種々の画像が、使用され得る。以下、機械学習モデル５００に入力される画像データＩｐ１ｄを、入力画像データＩｐ１ｄとも呼び、入力画像データＩｐ１ｄの画像Ｉｐ１を、入力画像Ｉｐ１とも呼び、機械学習モデル５００から出力される画像データＩｐ３ｄを、出力画像データＩｐ３ｄとも呼び、出力画像データＩｐ３ｄの画像Ｉｐ３を、出力画像Ｉｐ３とも呼ぶ。なお、本実施例では、画像Ｉｐ１、Ｉｐ３は、それぞれ、矩形状の画像であり、１文字の画像を示している。また、画像データＩｐ１ｄ、Ｉｐ３ｄは、それぞれ、グレースケールのビットマップデータである。グレーの色値（輝度値とも呼ぶ）は、例えば、ゼロから２５５までの２５６階調で表される。

機械学習モデル５００は、積み重ねられた第１ステージＧＡＮ５０１と第２ステージＧＡＮ５０２とを含んでいる。積み重ねられた複数のＧＡＮを有するモデルは、StackGANとも呼ばれる。StackGANとしては、例えば、テキストの記述を使用してテキストの記述に適する画像データを生成するモデルが、使用されている。StackGANは、１個のＧＡＮではなく、２個のステージのＧＡＮを使用することにより、高解像度の画像データを生成することができる。本実施例の機械学習モデル５００は、文字の画像データを使用して、認識フォントの同じ文字の画像データを生成する。画像データを処理するために、機械学習モデル５００のＧＡＮ５０１、ＧＡＮ５０２は、それぞれ、エンコーダとデコーダを含む生成部を有している。

第１ステージＧＡＮ５０１（図２）は、第１生成部３１０と第１識別部４１０とを含んでいる。第１生成部３１０は、入力画像データＩｐ１ｄを使用して、ぼやけた同じ文字の画像である中間画像Ｉｐ２の中間画像データＩｐ２ｄを生成するように、トレーニングされる。入力画像Ｉｐ１の高さと幅は、予め決められている（例えば、２５６＊２５６（単位は、画素数））。中間画像Ｉｐ２の高さと幅は、入力画像Ｉｐ１の高さと幅とそれぞれ同じである。なお、中間画像データＩｐ２ｄは、入力画像データＩｐ１ｄと同様に、グレースケールのビットマップデータである。

第１生成部３１０は、第１エンコーダ３１２と、第１デコーダ３１８と、を含んでいる。第１エンコーダ３１２は、入力画像データＩｐ１ｄに対して次元削減処理を実行して、入力画像Ｉｐ１の特徴を示す第１特徴データ３１５を生成する。本実施例では、第１エンコーダ３１２は、複数の畳込層を有している。各畳込層は、２以上のストライド（例えば、２）を使用して、ダウンサンプリングも行う。第１エンコーダ３１２は、さらに、バッチノーマリゼーションを使用して構成されてよい。各層の活性化関数は、例えば、LeakyReLUである。

第１デコーダ３１８は、第１特徴データ３１５に対して次元復元処理を実行して、中間画像データＩｐ２ｄを生成する。本実施例では、第１デコーダ３１８は、複数の転置畳込層を有している。各転置畳込層は、２以上のストライド（例えば、２）を使用して、アップサンプリングも行う。第１デコーダ３１８は、さらに、バッチノーマリゼーションを使用して構成されてよい。各層の活性化関数は、例えば、ReLUである。なお、最後の畳込層に続く活性化関数としては、中間画像Ｉｐ２の画像データＩｐ２ｄの生成に適した関数（例えば、Tanh関数）が使用されてよい。

第１識別部４１０は、実画像データと偽画像データとを識別するように、トレーニングされる。具体的には、第１識別部４１０は、第１生成部３１０によって生成された中間画像データＩｐ２ｄを偽データと識別し、後述する実中間画像Ｉｑ２の実中間画像データＩｑ２ｄを実データと識別するように、トレーニングされる。一方、第１生成部３１０は、トレーニングされた第１識別部４１０が中間画像データＩｐ２ｄを実データと誤って識別するように、トレーニングされる。このようなトレーニングにより、第１生成部３１０は、実中間画像Ｉｑ２に類似する中間画像Ｉｐ２の中間画像データＩｐ２ｄを生成できる。

第１識別部４１０は、入力された画像データに対して次元削減処理を実行して、１次元の値を示す第１出力データ４１９を生成する。本実施例では、第１識別部４１０は、複数の畳込層を有している。各畳込層は、２以上のストライド（例えば、２）を使用して、ダウンサンプリングも行う。第１識別部４１０の最後の畳込層からの出力データは、１次元の値を示している。第１識別部４１０は、この値をシグモイド関数に入力することによって、第１出力データ４１９を生成する。第１識別部４１０は、出力データ４１９の値が第１閾値（例えば、０．５）以上である場合に、入力されたデータが実データであると識別し、出力データ４１９の値が第１閾値未満である場合に、入力されたデータが偽データであると識別する。第１出力データ４１９は、入力された画像データが実データである確率と相関を有する値を示している（「１」は、「実」を示し、「０」は、「偽」を示している）。第１識別部４１０は、さらに、バッチノーマリゼーションを使用して構成されてよい。各層の活性化関数は、例えば、LeakyReLUである（最後の畳込層を除く）。

第２ステージＧＡＮ５０２は、第２生成部３２０と第２識別部４２０とを含んでいる。第２生成部３２０は、中間画像データＩｐ２ｄを使用して、同じ文字の詳細な形状を示す出力画像データＩｐ３ｄを生成するように、トレーニングされる。出力画像Ｉｐ３の高さと幅とは、入力画像Ｉｐ１の高さと幅とそれぞれ同じである。

第２生成部３２０は、第２エンコーダ３２２と、第２デコーダ３２８と、を含んでいる。第２エンコーダ３２２は、中間画像データＩｐ２ｄに対して次元削減処理を実行して、中間画像Ｉｐ２の特徴を示す第２特徴データ３２５を生成する。本実施例では、第２エンコーダ３２２の構成は、第１エンコーダ３１２の構成と同様である（畳込フィルタのサイズ、ストライドなどのネットワーク構成のパラメータは、適宜に調整される）。

第２デコーダ３２８は、第２特徴データ３２５に対して次元復元処理を実行して、出力画像データＩｐ３ｄを生成する。本実施例では、第２デコーダ３２８の構成は、第１デコーダ３１８の構成と同様である（畳込フィルタのサイズ、ストライドなどのネットワーク構成のパラメータは、適宜に調整される）。

第２識別部４２０は、実画像データと偽画像データとを識別するように、トレーニングされる。具体的には、第２識別部４２０は、第２生成部３２０によって生成された出力画像データＩｐ３ｄを偽データと識別し、後述する実画像Ｉｑ３の実画像データＩｑ３ｄを実データと識別するように、トレーニングされる。一方、第２生成部３２０は、トレーニングされた第２識別部４２０が出力画像データＩｐ３ｄを実データと誤って識別するように、トレーニングされる。このようなトレーニングにより、第２生成部３２０は、実画像Ｉｑ３に類似する出力画像Ｉｐ３の出力画像データＩｐ３ｄを生成できる。

第２識別部４２０は、入力された画像データに対して次元削減処理を実行して、１次元の値を示す第２出力データ４２９を生成する。本実施例では、第２識別部４２０の構成は、第１識別部４１０の構成と同様である（畳込フィルタのサイズ、ストライドなどのネットワーク構成のパラメータは、適宜に調整される）。第２識別部４２０は、第２出力データ４２９の値が第２閾値（例えば、０．５）以上である場合に、入力されたデータが実データであると識別し、第２出力データ４２９の値が第２閾値未満である場合に、入力されたデータが偽データであると識別する。第２出力データ４２９は、入力された画像データが実データである確率と相関を有する値を示している（「１」は、「実」を示し、「０」は、「偽」を示している）。

第１生成部３１０と第２生成部３２０との全体は、生成モデル５１０を形成する。第１識別部４１０と第２識別部４２０との全体は、識別モデル５２０を形成する。識別モデル５２０は、機械学習モデル５００のトレーニングに使用される。

Ａ３．学習データ生成処理：
図３は、機械学習モデル５００のトレーニングのための学習データの生成処理の例を示すフローチャートである。プロセッサ２１０（図１）は、第１プログラム２３１に従って、図３の処理を実行する。図４は、図３の処理で生成される種々のデータの例を示す説明図である。

Ｓ１１０では、プロセッサ２１０は、ラベルシートＬＢ（図１）の画像を示す文書データのフォントを、認識フォントに設定する。図４の左上部の画像ＤＣａは、認識フォントの設定を有する文書データによって表される文書画像の例を示している（第１文書画像ＤＣａとも呼ぶ）。第１文書画像ＤＣａの文字列ＴＸは、認識フォントで表されている。なお、文書データは、ラベルシートＬＢの製造のために、予め準備されている。なお、製造時のエラーにより、誤った文字列を示すラベルシートが製造され得る。

第１文書画像ＤＣａは、文字列ＴＸ（具体的には、「ＥＸＡＭＰＬＥ１」）と、グラフィックＧと、を含んでいる。文書データは、画像中の文字を示す文字コードデータを含んでいる。文字コードは、文字に割り当てられた識別情報である（例えば、Unicodeに基づくコード）。本実施例では、文書データは、文字コードに加えて、文字のフォントとサイズと色とを示す属性データを含んでいる。さらに、文書データは、グラフィックＧを描画する描画コマンドを示すデータを含んでいる。このように文書画像を描画するための文字コードと描画コマンドとを含むデータは、ベクタデータとも呼ばれる。アプリケーションがベクタデータを使用して画像を出力する場合（例えば、印刷、表示、ビットマップデータの生成など）、アプリケーションは、ベクタデータのレンダリング（ラスタライズとも呼ばれる）を行う。レンダリングは、属性データに従って文字を描画し、描画コマンドに従ってグラフィックを描画する。

Ｓ１１０（図３）では、プロセッサ２１０は、文書データの文字列ＴＸの属性データのフォントを、認識フォントに設定する。後述する検査処理では、ラベルシートＬＢの撮影画像データの文字認識処理が行われる。文字認識処理による文字認識の精度は、文字のフォントによって、異なり得る。認識フォントは、良好な精度に対応付けられたフォントである。なお、本実施例では、認識フォントは、ラベルシートＬＢの文字列ＴＸの実際のフォント（ラベルフォントとも呼ぶ）とは異なっている。

Ｓ１２０では、プロセッサ２１０は、文書データのレンダリングを行うことによって、第１画像データを生成する。本実施例では、第１画像データは、グレースケールのビットマップデータである。ビットマップデータのデータ形式は、例えば、JPEG(Joint Photographic Experts Group)、 PNG(Portable Network Graphics)、 GIF(Graphic Interchange Format)、 TIFF(Tagged Image File Format)など、複数の画素のそれぞれの色値を表す、未圧縮、または、圧縮済の、種々の形式であってよい。図４の左上部の画像Ｉａは、第１画像データによって表される画像の例を示している（第１画像Ｉａとも呼ぶ）。第１画像Ｉａは、色がグレースケールで表されている点を除いて、第１文書画像ＤＣａと同じである。

Ｓ１３０では、プロセッサ２１０は、予め決められた１以上の学習用のフォントである学習フォント（ラベルフォントを含む）で構成されるフォントリストから注目フォントを選択する。そして、プロセッサ２１０は、文書データの文字列ＴＸの属性データのフォントを、注目フォントに設定する。図４の右上部の画像ＤＣｂは、注目フォントの設定を有する文書データによって表される文書画像の例を示している（第２文書画像ＤＣｂとも呼ぶ）。第２文書画像ＤＣｂの文字列ＴＸは、注目フォントであるラベルフォントで表されている。

Ｓ１４０では、プロセッサ２１０は、文書データのレンダリングを行うことによって、第２画像データを生成する。このレンダリング処理は、Ｓ１２０のレンダリング処理と同じである。図４の右上部の画像Ｉｂは、第２画像データによって表される画像の例を示している（第２画像Ｉｂとも呼ぶ）。第２画像Ｉｂは、色がグレースケールで表されている点を除いて、第２文書画像ＤＣｂと同じである。

Ｓ１５０では、プロセッサ２１０は、第２画像データの加工処理を実行する。加工処理は、第２画像Ｉｂを、デジタルカメラ１００によって生成される撮影画像に近づける画像処理である。加工処理は、例えば、ぼかし処理と、ノイズ付加処理と、微小回転処理と、のうちの１以上の処理を含んでいる。図４の右部の画像Ｉｂｘは、加工済の第２画像データによって表される画像の例を示している。加工済の第２画像Ｉｂｘは、未加工の第２画像Ｉｂよりも、自然な撮影画像のように見える。

ぼかし処理は、色値を平滑化する種々の処理であってよい。本実施例では、ぼかし処理は、平滑化フィルタ（例えば、平均値フィルタ、中央値フィルタ、ガウシアンフィルタなど）を使用する平滑化処理である。

ノイズ付加処理は、複数の画素の色値にノイズを付加する種々の処理であってよい。本実施例では、ノイズ付加処理は、複数の画素からランダムに複数の対象画素を選択し、複数の対象画素のそれぞれの色値に乱数値を加算する処理である。これに代えて、ノイズ付加処理は、予め準備されたノイズ画像を元の画像に重ねる処理であってよい。

微小回転処理は、本実施例では、ランダムに決定された角度（例えば、ゼロ度以上５度以下の角度）に従って、ランダムに決定された方向（右または左）に画像を回転させる処理である。

後述するように、Ｓ１１０－Ｓ１７０の処理は、複数回、実行される。プロセッサ２１０は、Ｓ１５０が実行される毎に異なる画像が生成されるように、加工処理に使用されるパラメータ（例えば、平滑化フィルタ、回転角度など）を、ランダムに決定する。

Ｓ１６０では、プロセッサ２１０は、第１画像データと加工済の第２画像データとから、複数の文字のそれぞれを表す画像データを抽出する（以下、抽出された画像データを、文字画像データとも呼ぶ）。本実施例では、画像Ｉａ、Ｉｂｘ（図４）内の複数の文字のそれぞれの位置と大きさとは、予め決められた位置と大きさとそれぞれおおよそ同じである。プロセッサ２１０は、複数の文字のそれぞれに関して、文字に予め対応付けられた矩形領域を示す文字画像データを抽出する。矩形領域の形状は、生成モデル５１０（図２）によって受け入れられる画像の形状と同じである（ただし、画素密度は異なり得る）。以下、文字画像データによって表される画像を、文字画像とも呼ぶ。

図４の左下部の文字画像Ｉａ１－Ｉａ６は、第１画像Ｉａから抽出される文字画像の例を示している。図４の右下部の文字画像Ｉｂ１－Ｉｂ６は、加工済の第２画像Ｉｂｘから抽出される文字画像の例を示している。Ｓ１６０では、プロセッサ２１０は、各文字画像の高さと幅とが、図２の生成モデル５１０によって受け入れられる画像の高さと幅とそれぞれ同じとなるように、各文字画像データの解像度変換処理を行う。

Ｓ１７０では、プロセッサ２１０は、第１画像Ｉａから抽出された文字画像のデータと、加工済の第２画像Ｉｂｘから抽出された文字画像のデータと、のペアであって、同じ文字に対応付けられた文字画像データのペアを、抽出する。例えば、図４の文字画像Ｉａ１と文字画像Ｉｂ１とのペアＰ１は、同じ文字「Ｅ」に対応付けられている。本実施例では、２個の画像Ｉａ、Ｉｂｘ上の同じ位置に、同じ文字が配置されている。プロセッサ２１０は、２個の画像Ｉａ、Ｉｂｘ上の同じ位置の領域を示す２個の文字画像データを、ペアとして抽出する。図４の文字画像Ｉａ２－Ｉａ６と文字画像Ｉｂ２－Ｉｂ６とで形成される他のペアＰ２－Ｐ６も、それぞれ、同じ文字に対応付けられている。

プロセッサ２１０は、抽出されたペアを構成する２個の文字画像データを、互いに関連付けて、記憶装置２１５（例えば、不揮発性記憶装置２３０）に格納する。プロセッサ２１０は、文字列ＴＸに含まれる複数の文字に対応する複数組の文字画像データのペアを、記憶装置２１５に格納する。１個のペアは、同じ文字の認識フォントの文字画像データと注目フォントの文字画像データとで構成されている。認識フォントの文字画像データは、実画像データとして使用される。注目フォントの文字画像データは、第１生成部３１０に入力されるべき入力画像データとして使用される。

Ｓ１８０では、プロセッサ２１０は、生成終了条件が満たされるか否かを判断する。生成終了条件は、機械学習モデル５００（図２）の適切なトレーニングのための文字画像データの複数組のペアが生成されたことを示す任意の条件であってよい。例えば、生成終了条件は、フォントリストのそれぞれのフォントに関して、生成された文字画像データのペアの総数が、予め決められた基準数以上であることであってよい。

生成終了条件が満たされない場合（Ｓ１８０：Ｎｏ）、プロセッサ２１０は、Ｓ１１０へ移行して、新たな文字画像データのペアを生成する。生成終了条件が満たされる場合（Ｓ１８０：Ｙｅｓ）、Ｓ１８５で、プロセッサ２１０は、予め決められた文字リストの全ての文字が処理されたか否かを判断する。文字リストは、正しい文字列の複数の文字に加えて、エラーに起因してラベルシートによって示され得る全ての文字を含んでいる。本実施例では、図４の文書画像ＤＣａなどによって示されるように、ラベルシートＬＢは、ラテンアルファベットとアラビア数字を示す。文字リストは、全ての大文字のラテンアルファベット（ＡからＺ）と、全ての小文字のラテンアルファベット（ａからｚ）と、全てのアラビア数字（０から９）と、を含んでいる。

未処理の文字が残っている場合（Ｓ１８５：Ｎｏ）、Ｓ１９０で、プロセッサ２１０は、文字リストから未処理の１以上の文字を選択し、文書データの文字列を、選択した１以上の文字の文字列に変更する（具体的には、文書データの文字コードデータが、変更される）。文書データによって表される画像中の文字の適切な表現のためには、選択される文字の数は、正しい文字列の文字の数以下であることが好ましい。そして、プロセッサ２１０は、Ｓ１１０へ移行し、変更済の文字列（すなわち、未処理の１以上の文字の文字列）を示す文書データを使用して、Ｓ１１０－Ｓ１８０の処理を実行する。

文字リストの全ての文字が処理された場合（Ｓ１８５：Ｙｅｓ）、プロセッサ２１０は、図３の処理を終了する。Ｓ１７０で格納された文字画像データの複数組のペアの全体が、学習データ２３７に相当する。

なお、フォントリストは、ラベルフォントに加えて、認識フォントを含んでよい。すなわち、学習データ２３７は、同じ認識フォントで同じ文字を表す文字画像データのペアを含んでよい。また、プロセッサ２１０は、複数種類のラベルシートの複数の文書データのそれぞれに関して、図３の処理を実行してよい。すなわち、学習データ２３７は、複数種類のラベルシートのそれぞれに関する文字画像データのペアを含んでよい。この場合、学習データ２３７を使用してトレーニングされる機械学習モデル５００は、複数種類のラベルシートに共通に使用されてよい。

Ａ４．トレーニング処理：
図５、図６は、機械学習モデル５００（図２）のトレーニング処理の例を示すフローチャートである。図６は、図５の続きの処理を示している。図５の処理は、第１ステージＧＡＮ５０１のトレーニング処理である。図６の処理は、第２ステージＧＡＮ５０２のトレーニング処理である。プロセッサ２１０（図１）は、第２プログラム２３２に従って、図５、図６の処理を実行する。

Ｓ２１０では、プロセッサ２１０は、機械学習モデル５００（図２）の複数の演算パラメータ、すなわち、生成部３１０、３２０と識別部４１０、４２０とのそれぞれの複数の演算パラメータ（例えば、畳込フィルタの複数の重みと複数のバイアスなど）を、初期化する。例えば、各演算パラメータは、乱数値に設定される。

Ｓ２１５では、プロセッサ２１０（図１）は、学習データ２３７を参照して、文字画像データの複数組のペアから、注目ペアを選択する。本実施例では、プロセッサ２１０は、未処理のペアを、注目ペアとして選択する。以下、図２の入力画像データＩｐ１ｄと実画像データＩｑ３ｄとが、注目ペアを示していることとする。入力画像Ｉｐ１は、フォントリスト中のいずれかの学習フォントの文字画像であり、実画像Ｉｑ３は、認識フォントの文字画像である。以下、入力画像Ｉｐ１を、学習フォント画像Ｉｐ１とも呼び、入力画像データＩｐ１ｄを、学習フォント画像データＩｐ１ｄとも呼ぶ。また、実画像Ｉｑ３を、認識フォント画像Ｉｑ３とも呼び、実画像データＩｑ３ｄを、認識フォント画像データＩｑ３ｄとも呼ぶ。

Ｓ２２０では、プロセッサ２１０は、認識フォント画像データＩｑ３ｄの画像処理を実行して、実中間画像データＩｑ２ｄを生成する。実中間画像Ｉｑ２は、認識フォントのぼやけた文字を表している。以下、実中間画像データＩｑ２ｄを、認識フォント中間画像データＩｑ２ｄとも呼ぶ。プロセッサ２１０は、認識フォント画像データＩｑ３ｄのぼかし処理を実行することによって、認識フォント中間画像データＩｑ２ｄを生成する。ぼかし処理は、例えば、平均値フィルタを使用する平滑化処理であってよい。

Ｓ２３０では、プロセッサ２１０は、認識フォント中間画像データＩｑ２ｄを第１識別部４１０に入力し、第１出力データ４１９を算出する。具体的には、プロセッサ２１０は、第１識別部４１０の演算パラメータを使用して、第１識別部４１０の各層の演算を行うことによって、第１出力データ４１９を算出する。以下、認識フォント中間画像データＩｑ２ｄ（すなわち、実データ）から得られる第１出力データ４１９を、第１実出力データ４１９ｒとも呼ぶ。

Ｓ２４０では、プロセッサ２１０は、学習フォント画像データＩｐ１ｄを第１生成部３１０に入力して、中間画像データＩｐ２ｄを生成する。具体的には、プロセッサ２１０は、第１生成部３１０の演算パラメータを使用して、第１生成部３１０の各層の演算を行うことによって、中間画像データＩｐ２ｄを算出する。以下、中間画像データＩｐ２ｄを、偽中間画像データＩｐ２ｄとも呼び、中間画像Ｉｐ２を、偽中間画像Ｉｐ２とも呼ぶ。

Ｓ２５０では、プロセッサ２１０は、偽中間画像データＩｐ２ｄを第１識別部４１０に入力し、第１出力データ４１９を算出する。Ｓ２５０の処理は、実中間画像データＩｑ２ｄに代えて偽中間画像データＩｐ２ｄが使用される点を除いて、Ｓ２３０の処理と同じである。以下、偽中間画像データＩｐ２ｄから得られる第１出力データ４１９を、第１偽出力データ４１９ｆとも呼ぶ。

Ｓ２６０では、プロセッサ２１０は、第１実出力データ４１９ｒと第１偽出力データ４１９ｆとを使用して、予め決められた第１損失関数に従って、第１損失を算出する。第１損失関数は、第１実出力データ４１９ｒが「実（１）」に近いほど小さい値を算出し、第１偽出力データ４１９ｆが「偽（ゼロ）」に近いほど小さい値を算出するような、種々の関数であってよい。例えば、第１実出力データ４１９ｒを、Ｄ１ｒとし、第１偽出力データ４１９ｆを、Ｄ１ｆとする場合に、第１損失関数は、以下の関数Ｆａ（Ｄ１ｒ、Ｄ１ｆ）であってよい。
Ｆａ（Ｄ１ｒ、Ｄ１ｆ）＝（１－Ｄ１ｒ）＋（Ｄ１ｆ）

Ｓ２６０では、プロセッサ２１０は、第１損失が小さくなるように、予め決められたアルゴリズムに従って、第１識別部４１０の複数の演算パラメータを調整する。アルゴリズムとしては、例えば、誤差逆伝播法と勾配降下法とを使用したアルゴリズムが採用されてよい。また、プロセッサ２１０は、いわゆるＡｄａｍの最適化を行ってよい。

なお、第１損失関数は、第１実出力データ４１９ｒが「実（１）」に近いほど大きい値を算出し、第１偽出力データ４１９ｆが「偽（ゼロ）」に近いほど大きい値を算出するような関数であってよい。例えば、第１損失関数は、以下の関数Ｆｂ（Ｄ１ｒ、Ｄ１ｆ）であってよい。
Ｆｂ（Ｄ１ｒ、Ｄ１ｆ）＝ｌｏｇ（Ｄ１ｒ）＋ｌｏｇ（１－Ｄ１ｆ）
この場合、第１損失が大きいほど、第１識別部４１０の性能は良好である。プロセッサ２１０は、第１損失が大きくなるように、第１識別部４１０の複数の演算パラメータを調整する。なお、この場合、第１識別部４１０にとっては、第１損失は、小さくすべき損失ではなく、大きくすべき評価値である。

Ｓ２７０では、プロセッサ２１０は、学習フォント画像データＩｐ１ｄを第１生成部３１０に入力して、偽中間画像データＩｐ２ｄを生成する。この処理は、Ｓ２４０の処理と同じである。

Ｓ２８０では、プロセッサ２１０は、偽中間画像データＩｐ２ｄを第１識別部４１０に入力し、第１偽出力データ４１９ｆを算出する。Ｓ２８０の処理は、Ｓ２５０の処理と同様である。ただし、Ｓ２６０で第１識別部４１０がトレーニングされているので、Ｓ２８０で算出される第１偽出力データ４１９ｆは、「偽（ゼロ）」により近い値になり得る。

Ｓ２９０では、プロセッサ２１０は、第１偽出力データ４１９ｆを使用して、予め決められた第２損失関数に従って、第２損失を算出する。第２損失関数は、第１偽出力データ４１９ｆが「実（１）」に近いほど、小さい値を算出する種々の関数であってよい。例えば、第１偽出力データ４１９ｆをＤ１ｆとする場合に、第２損失関数は、以下の関数Ｆｃ（Ｄ１ｆ）であってよい。
Ｆｃ（Ｄ１ｆ）＝（１－Ｄ１ｆ）

Ｓ２９０では、プロセッサ２１０は、第２損失が小さくなるように、予め決められたアルゴリズムに従って、第１生成部３１０の複数の演算パラメータを調整する。アルゴリズムとしては、例えば、誤差逆伝播法と勾配降下法とを使用したアルゴリズムが採用されてよい。また、プロセッサ２１０は、いわゆるＡｄａｍの最適化を行ってよい。また、本実施例では、プロセッサ２１０は、第１生成部３１０の複数の層のうちの予め決められた複数の層に、いわゆるドロップアウトを適用する。ドロップアウトは、第１生成部３１０の汎用性を向上できる。また、ＧＡＮの生成部は、一般的には、データを生成するために、ノイズの入力値を使用する。ドロップアウトは、ノイズ付加と同様の効果を第１生成部３１０に付与し得る。従って、本実施例では、第１生成部３１０へのノイズの入力は、省略される。

また、第２損失は、以下の関数Ｆｄ（Ｄ１ｆ）であってよい。
Ｆｄ（Ｄ１ｆ）＝ｌｏｇ（１－Ｄ１ｆ）
この場合、第２損失が小さいほど、第１生成部３１０の性能は良好である。プロセッサ２１０は、第２損失が小さくなるように、第１生成部３１０の複数の演算パラメータを調整する。

なお、第２損失関数は、偽中間画像データＩｐ２ｄと実中間画像データＩｑ２ｄとの間の差分を示す成分を含んでよい。差分は、例えば、いわゆるＬ１距離であってよい。Ｌ１距離は、例えば、２個の画像Ｉｑ２、Ｉｐ２の間の同じ画素位置での色値の差分の絶対値の和で表される。Ｌ１距離は、偽中間画像Ｉｐ２と実中間画像Ｉｑ２との間の文字の形状の差が大きいほど、大きくなる。Ｓ２９０では、プロセッサ２１０は、このような差分を示す成分を含む第２損失が小さくなるように、第１生成部３１０の複数の演算パラメータを調整してよい。

以上の図５の処理によって、プロセッサ２１０は、第１ステージＧＡＮ５０１（すなわち、第１生成部３１０と第１識別部４１０）をトレーニングする。続く図６の処理では、プロセッサ２１０は、第２ステージＧＡＮ５０２（すなわち、第２生成部３２０と第２識別部４２０）をトレーニングする。以下に説明するように、第２生成部３２０のトレーニング方法は、第１生成部３１０のトレーニング方法と同様である。第２識別部４２０のトレーニング方法は、第１識別部４１０のトレーニング方法と同様である。

Ｓ３１０（図６）では、プロセッサ２１０は、認識フォント画像データＩｑ３ｄを第２識別部４２０に入力し、第２出力データ４２９を算出する。プロセッサ２１０は、第２識別部４２０の演算パラメータを使用して、第２識別部４２０の各層の演算を行うことによって、第２出力データ４２９を算出する。以下、認識フォント画像データＩｑ３ｄ（すなわち、実データ）から得られる第２出力データ４２９を、第２実出力データ４２９ｒとも呼ぶ。

Ｓ３２０では、プロセッサ２１０は、学習フォント画像データＩｐ１ｄを第１生成部３１０に入力して、偽中間画像データＩｐ２ｄを生成する。Ｓ３２０の処理は、Ｓ２４０（図５）の処理と同様である。ただし、Ｓ２９０で第１生成部３１０がトレーニングされているので、Ｓ３２０で生成される偽中間画像データＩｐ２ｄは、実中間画像データＩｑ２ｄにより近い画像であり得る。

Ｓ３３０では、プロセッサ２１０は、Ｓ３２０で生成された偽中間画像データＩｐ２ｄを第２生成部３２０に入力して、出力画像データＩｐ３ｄを生成する。具体的には、プロセッサ２１０は、第２生成部３２０の演算パラメータを使用して、第２生成部３２０の各層の演算を行うことによって、出力画像データＩｐ３ｄを算出する。以下、出力画像データＩｐ３ｄを、偽出力画像データＩｐ３ｄとも呼び、出力画像Ｉｐ３を、偽出力画像Ｉｐ３とも呼ぶ。

Ｓ３４０では、プロセッサ２１０は、偽出力画像データＩｐ３ｄを第２識別部４２０に入力し、第２出力データ４２９を算出する。Ｓ３４０の処理は、認識フォント画像データＩｑ３ｄに代えてＳ３３０で生成された偽出力画像データＩｐ３ｄが使用される点を除いて、Ｓ３１０の処理と同じである。以下、偽出力画像データＩｐ３ｄから得られる第２出力データ４２９を、第２偽出力データ４２９ｆとも呼ぶ。

Ｓ３５０では、プロセッサ２１０は、第２実出力データ４２９ｒと第２偽出力データ４２９ｆとを使用して、予め決められた第３損失関数に従って、第３損失を算出する。第３損失関数は、第２実出力データ４２９ｒが「実（１）」に近いほど小さい値を算出し、第２偽出力データ４２９ｆが「偽（ゼロ）」に近いほど小さい値を算出するような、種々の関数であってよい。これに代えて、第３損失関数は、第２実出力データ４２９ｒが「実（１）」に近いほど大きい値を算出し、第２偽出力データ４２９ｆが「偽（ゼロ）」に近いほど大きい値を算出するような関数であってもよい。本実施例では、第３損失関数は、Ｓ２６０（図５）で使用される第１損失関数と同じである。

Ｓ３５０では、プロセッサ２１０は、第３損失を使用して、予め決められたアルゴリズムに従って、第２識別部４２０の複数の演算パラメータを調整する。本実施例では、Ｓ３５０で使用されるアルゴリズムは、Ｓ２６０（図５）で使用されるアルゴリズムと同じである。これにより、第２識別部４２０は、実画像データと偽画像データとを適切に識別するように、トレーニングされる。

Ｓ３６０では、プロセッサ２１０は、学習フォント画像データＩｐ１ｄを第１生成部３１０に入力して、偽中間画像データＩｐ２ｄを生成する。この処理は、Ｓ３２０の処理と同じである。

Ｓ３７０では、プロセッサ２１０は、Ｓ３６０で生成された偽中間画像データＩｐ２ｄを第２生成部３２０に入力して、偽出力画像データＩｐ３ｄを生成する。この処理は、Ｓ３３０の処理と同じである。

Ｓ３８０では、プロセッサ２１０は、Ｓ３７０で生成された偽出力画像データＩｐ３ｄを、第２識別部４２０に入力し、第２偽出力データ４２９ｆを算出する。Ｓ３８０の処理は、Ｓ３４０の処理と同様である。ただし、Ｓ３５０で第２識別部４２０がトレーニングされているので、Ｓ３８０で算出される第２偽出力データ４２９ｆは、「偽（ゼロ）」により近い値であり得る。

Ｓ３９０では、プロセッサ２１０は、第２偽出力データ４２９ｆを使用して、予め決められた第４損失関数に従って、第４損失を算出する。第４損失関数は、Ｓ２９０（図５）で使用された第２損失関数と同じである。すなわち、第２偽出力データ４２９ｆが「実（１）」に近いほど、第４損失は小さい。さらに、プロセッサ２１０は、第４損失が小さくなるように、予め決められたアルゴリズムに従って、第２生成部３２０の複数の演算パラメータを調整する。本実施例では、Ｓ３９０で使用されるアルゴリズムは、Ｓ２９０で使用されるアルゴリズムと同じである。

Ｓ３９３では、プロセッサ２１０は、トレーニング終了条件が満たされるか否かを判断する。トレーニング終了条件は、機械学習モデル５００が適切にトレーニングされたことを示す任意の条件であってよい。本実施例では、トレーニング終了条件は、作業者からの終了指示が入力されることである。プロセッサ２１０は、学習データ２３７（図１）中のトレーニングに使用されていない文字画像データの複数のペアから、フォントリストのフォントと文字リストの文字との全ての組み合わせに関して、文字画像データの複数のペアを取得する。プロセッサ２１０は、取得した複数のペアのそれぞれの学習フォントの文字画像データを生成モデル５１０に入力し、生成モデル５１０から複数の出力画像データを取得する。プロセッサ２１０は、入力された学習フォントの入力画像と出力された出力画像との複数のペアを、表示部２４０に表示する。作業者は、表示部２４０を観察して、出力画像が入力画像の文字と同じ文字を認識フォントで適切に表しているか否かを確認する。作業者は、確認結果に応じて、操作部２５０を操作して、トレーニングの終了指示、または、継続指示を入力する。

トレーニングが終了していないと判断される場合（Ｓ３９３：Ｎｏ）、プロセッサ２１０は、図５のＳ２１５へ移行し、新たな注目ペアの処理を実行する。トレーニングが終了したと判断される場合（Ｓ３９３：Ｙｅｓ）、Ｓ３９７で、プロセッサ２１０は、トレーニング済の生成モデル５１０を、記憶装置２１５（ここでは、不揮発性記憶装置２３０）に格納する。そして、プロセッサ２１０は、図５、図６の処理を終了する。トレーニングされた生成モデル５１０は、フォントリスト中のそれぞれのフォントを、認識フォントに変換できる。例えば、生成モデル５１０は、ラベルフォントの文字の画像データから、認識フォントの同じ文字の画像データを生成する。また、生成モデル５１０は、認識フォントの文字の画像データから、同じ認識フォントの同じ文字の画像データを生成する。なお、トレーニングが終了した場合、プロセッサ２１０は、識別モデル５２０を、不揮発性記憶装置２３０から削除してよい。

Ａ５．検査処理：
図７は、検査処理の例を示すフローチャートである。プロセッサ２１０（図１）は、第３プログラム２３３に従って、図７の処理を実行する。本実施例では、プロセッサ２１０は、検査処理を実行することによって、プリンタのラベルシートの文字列の適否を検査する。なお、検査処理の対象は、ラベルシートＬＢに加えて、他の種類のラベルシートも含んでいる。

Ｓ４１０では、作業者は、ラベルシート（例えば、ラベルシートＬＢ（図１））がデジタルカメラ１００の撮影範囲内に位置するように、プリンタ（例えば、プリンタＤＶ）を配置する。そして、作業者は、操作部２５０を操作して、検査処理の開始指示を入力する。プロセッサ２１０は、開始指示に応じて、デジタルカメラ１００に撮影指示を供給する。デジタルカメラ１００は、ラベルシートを撮影し、ラベルシートの撮影画像を表す撮影画像データを生成する。プロセッサ２１０は、デジタルカメラ１００から、撮影画像データを取得する。本実施例では、撮影画像データは、グレースケールのビットマップデータである。

図８（Ａ）－（Ｇ）は、検査処理で処理される画像の例を示す説明図である。図８（Ａ）は、ラベルシートの撮影画像の例を示している。撮影画像Ｉｘは、文字列ＴＸとグラフィックＧとを含むラベルシートＬＢを表している。

Ｓ４２０（図７）では、プロセッサ２１０は、文字認識処理を実行する。図９は、文字認識処理の例を示すフローチャートである。Ｓ５１０では、プロセッサ２１０は、撮影画像データを分析して、撮影画像中の文字の領域を検出する。図８（Ｂ）は、撮影画像Ｉｘから検出される文字の領域の例を示している。図示するように、文字列ＴＸを構成する８個の文字の８個の文字領域ＴＡ１－ＴＡ８が検出されている。文字領域ＴＡ１－ＴＡ８は、１個の文字を、それぞれ含んでいる。本実施例ではプロセッサ２１０は、文字毎に文字領域を検出する。抽出される文字領域の形状は、生成モデル５１０によって受け入れられる画像の形状と同じである（ただし、画素密度は異なり得る）。以下、検出された文字領域の数が、Ｎ個（Ｎは１以上の整数）であることとする（図８（Ｂ）の例では、Ｎ＝８）。文字領域が適切に検出される場合、Ｎは、ラベルシートに含まれる文字数と同じである。

文字領域の検出方法は、任意の方法であってよい。本実施例では、プロセッサ２１０は、予め準備された複数の文字のそれぞれの画像データを使用するパターンマッチングによって、文字領域を検出する。これに代えて、プロセッサ２１０は、機械学習モデルを使用して文字領域を検出してよい。例えば、プレプリント「Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, Hwalsuk Lee, "Character Region Awareness for Text Detection", arXiv:1904.01941, https://arxiv.org/abs/1904.01941」に開示されている方法が、採用されてよい。なお、Ｓ５１０では、プロセッサ２１０は、各文字領域の文字認識を、行わない。

Ｓ５２０（図９）では、プロセッサ２１０は、Ｎ個の文字領域から１個の注目文字領域を選択し、注目文字領域の撮影画像を表す入力画像データを生成する。そして、プロセッサ２１０は、トレーニング済の生成モデル５１０（図２）に入力画像データを入力することによって、出力画像データを生成する。プロセッサ２１０は、撮影画像データのうちの注目文字領域に対応する部分を使用して、入力画像データを生成する。入力画像データを生成する処理は、入力画像の高さと幅とを、生成モデル５１０によって受け入れられる画像の高さと幅とに変換するための解像度変換処理を含んでいる。

図８（Ｃ）は、入力画像と出力画像の例を示している。ここで、第１文字領域ＴＡ１（図８（Ｂ））が、注目文字領域であることとする。入力画像データＴ１ｄの入力画像Ｔ１は、注目文字領域の撮影画像を表している。注目文字領域は、注目文字領域に対応付けられた文字である注目文字（ここでは、第１文字領域ＴＡ１の「Ｅ」の文字）の領域である。入力画像Ｔ１のフォントは、ラベルフォントである。出力画像データＴ１ｘｄの出力画像Ｔ１ｘは、入力画像Ｔ１の文字と同じ注目文字を認識フォントで表している。

Ｓ５３０（図９）では、プロセッサ２１０は、入力画像データと出力画像データとを使用して、入力画像データのフォントが認識フォントであるか否かを判断する。この判断の方法は、種々の方法であってよい。本実施例では、プロセッサ２１０は、入力画像と出力画像との間の同じ画素位置での色値の差分の絶対値を算出する。そして、プロセッサ２１０は、複数の画素位置のそれぞれの差分の絶対値の和を算出する。この和が予め決められたフォント閾値以下である場合に、プロセッサ２１０は、入力画像データのフォントが認識フォントであると判断する。上記の和がフォント閾値よりも大きい場合、プロセッサ２１０は、入力画像データのフォントが認識フォントではないと判断する。図８（Ｃ）の例では、入力画像データＴ１ｄと出力画像データＴ１ｘｄが、判断に使用される。入力画像Ｔ１と出力画像Ｔ１ｘとの間でフォントが異なるので、入力画像データＴ１ｄのフォントが認識フォントではないと判断される。

入力画像データのフォントが認識フォントではないと判断される場合（Ｓ５４０：Ｎｏ）、Ｓ５５０で、プロセッサ２１０は、Ｎ個の文字から注目文字を除いた残りのＮ－１個の文字のそれぞれについて、生成モデル５１０を使用するフォント変換を行う。フォント変換の処理は、Ｓ５２０の処理と同じである。プロセッサ２１０は、Ｎ－１個の文字のそれぞれに関して、文字領域の撮影画像を表す入力画像データを生成し、トレーニング済の生成モデル５１０（図２）に入力画像データを入力することによって、出力画像データを生成する。

図８（Ｄ）は、Ｎ－１個の文字のそれぞれの入力画像と出力画像の例を示している。入力画像データＴ２ｄ－Ｔ８ｄの入力画像Ｔ２－Ｔ８は、それぞれ、文字領域ＴＡ２－ＴＡ８（図８（Ｂ））の撮影画像である。これらの画像Ｔ２―Ｔ８の文字のフォントは、ラベルフォントである。出力画像データＴ２ｘｄ－Ｔ８ｘｄの出力画像Ｔ２ｘ－Ｔ８ｘは、入力画像Ｔ２－Ｔ８の文字と同じ文字を認識フォントで表している。

Ｓ５６０（図９）では、プロセッサ２１０は、Ｎ個の文字のＮ個の出力画像データのそれぞれの文字認識処理を実行することによって、Ｎ個の文字を認識する。図８（Ａ）－図８（Ｄ）の例では、プロセッサ２１０は、出力画像データＴ１ｘｄ－Ｔ８ｘｄの文字認識処理により、８個の文字で構成される文字列「ＥＸＡＭＰＬＥ１」を認識する。文字認識処理は、ＯＣＲ（Optical Character Recognition）とも呼ばれる公知の種々の処理であってよい。文字認識処理は、例えば、認識フォントで表された複数の文字のそれぞれの画像データを使用するパターンマッチングを使用する処理であってよい。また、文字認識処理は、線分、閉じたループ、線の方向、線の交差などの特徴を検出し、検出された特徴を使用して文字を認識する処理であってよい。また、文字認識処理は、機械学習モデルによって文字を認識する処理であってよい。いずれの場合も、文字認識の精度は、フォントに応じて異なり得る。すなわち、認識フォントとは異なるフォントの文字の認識精度は、認識フォントの文字の認識精度と比べて、低くなり得る。本実施例では、Ｓ５２０、Ｓ５５０で、プロセッサ２１０は、元のフォントを認識フォントに変換する。従って、Ｓ５６０では、プロセッサ２１０は、高い精度で、文字を認識できる。

Ｓ５６０の終了に応じて、プロセッサ２１０は、図９の処理、すなわち、図７のＳ４２０の処理を、終了する。

本実施例では、ラベルシートＬＢ（図８（Ａ））とは異なる他の種類のラベルシートの検査も行われる。この場合、図９のＳ５４０の判断結果がＹｅｓであり得る。図８（Ｅ）は、他の種類のラベルシートの撮影画像の例を示している。撮影画像Ｉｘｂは、文字列ＴＸｂとグラフィックＧｂとを含むラベルシートＬＢｂを表している。文字列ＴＸｂは、８個の文字「ＡＢＣＤＥＦＧＨ」で構成されている。これらの文字は、認識フォントで表されている。以下、図８（Ａ）のラベルシートＬＢを、第１ラベルシートＬＢと呼び、図８（Ｅ）のラベルシートＬＢｂを、第２ラベルシートＬＢｂと呼ぶ。なお、文字の総数は、複数のラベルシートの間で、異なってよい。

図８（Ｆ）は、図９のＳ５１０で撮影画像Ｉｘｂから検出される文字の領域の例を示している。プロセッサ２１０は、文字列ＴＸｂを構成する８個の文字の８個の文字領域ＴＢ１－ＴＢ８を、検出する。Ｓ５２０では、プロセッサ２１０は、１個の文字領域（例えば、第１文字領域ＴＢ１）を、注目文字領域として選択し、注目文字領域の撮影画像を表す入力画像データを生成する。プロセッサ２１０は、生成モデル５１０（図２）に入力画像データを入力することによって、出力画像データを生成する。

図８（Ｇ）は、入力画像と出力画像の例を示している。入力画像データＴ１ｂｄの入力画像Ｔ１ｂは、注目文字領域の撮影画像を表している。注目文字領域は、注目文字領域に対応付けられた注目文字（ここでは、第１文字領域ＴＢ１の「Ａ」の文字）の領域である。入力画像Ｔ１ｂのフォントは、認識フォントである。出力画像データＴ１ｂｘｄの出力画像Ｔ１ｂｘは、入力画像Ｔ１ｂの文字と同じ文字を認識フォントで表している。このように、生成モデル５１０は、認識フォントの文字の画像Ｔ１ｂから、同じ認識フォントの同じ文字の画像Ｔ１ｂｘを生成する。入力画像Ｔ１ｂのフォントが出力画像Ｔ１ｂｘのフォントと同じ認識フォントであるので、図９のＳ５４０では、プロセッサ２１０は、入力画像データのフォントが認識フォントであると判断する。

通常は、ラベルシートの複数の文字は、同じフォントで表される。従って、１個の文字のフォントが認識フォントである場合、他の文字のフォントも認識フォントであると推定される。本実施例では、図９のＳ５４０の判断結果がＹｅｓである場合、Ｓ５７０で、プロセッサ２１０は、ラベルシートの撮影画像データの文字認識処理を実行することによって、ラベルシートに含まれる各文字を認識する。この文字認識の方法は、Ｓ５６０の文字認識の方法と同じである。図８（Ｅ）の例では、プロセッサ２１０は、「ＡＢＣＤＥＦＧＨ」の８個の文字で構成される文字列を認識する。Ｓ５７０の終了に応じて、プロセッサ２１０は、図９の処理、すなわち、図７のＳ４２０の処理を、終了する。

Ｓ４３０では、プロセッサ２１０は、Ｓ４２０で認識された文字が、ラベルシートに予め対応付けられた正しい文字と同じであるか否かを判断する。プロセッサ２１０は、認識された文字が正しい文字と一致する場合に、認識された文字が正しいと判断する（本実施例では、認識された文字列と正しい文字列との一致が判断される）。２個の文字列の間に違いがある場合、プロセッサ２１０は、認識された文字が正しくないと判断する。

認識された文字が正しいと判断される場合（Ｓ４３０：Ｙｅｓ）、プロセッサ２１０は、Ｓ４４０で検査結果を「合格（すなわち、良品）」に設定し、Ｓ４６０へ移行する。認識された文字が正しくないと判断される場合（Ｓ４３０：Ｎｏ）、プロセッサ２１０は、Ｓ４５０で検査結果を「不合格（すなわち、不良品）」に設定し、Ｓ４６０へ移行する。Ｓ４６０では、プロセッサ２１０は、検査結果を示す結果データを記憶装置２１５（例えば、不揮発性記憶装置２３０）に格納する。そして、プロセッサ２１０は、図７の処理を終了する。結果データは、種々の処理に利用され得る。例えば、プロセッサ２１０は、結果データによって示される検査結果を表示部２４０に表示してよい。作業者は、表示部２４０を観察して、検査結果を知ることができる。検査結果が不合格である場合、作業者は、ラベルシートを貼り直す作業を行ってよい。

以上のように、本実施例では、データ処理装置２００は、図９の文字認識処理を実行する。具体的には、Ｓ５１０で、プロセッサ２１０は、対象物の例であるラベルシートの撮影画像のデータである撮影画像データを分析することによって、ラベルシートに含まれる文字である対象文字の領域を検出する。Ｓ５２０では、図８（Ｃ）で説明したように、プロセッサ２１０は、生成モデル５１０（図２）に、検出された対象文字の領域ＴＡ１の撮影画像の入力画像データＴ１ｄを入力することによって、認識フォントの対象文字の出力画像データＴ１ｘｄを生成する。図５、図６で説明したように、生成モデル５１０は、認識フォントとは異なる他のフォントの文字の画像データを使用して認識フォントの同じ文字の画像データを生成するようにトレーニングされている。Ｓ５６０では、プロセッサ２１０は、出力画像データＴ１ｘｄの文字認識処理を実行することによって、対象文字を認識する。以上により、認識フォントとは異なるフォントの文字の文字認識処理の精度が、認識フォントの文字の文字認識処理の精度と比べて低い場合であっても、文字認識に対するフォントの影響を緩和できる。例えば、ラベルシートＬＢ（図８（Ａ））の文字列ＴＸのラベルフォントの文字認識精度が低い場合であっても、Ｓ５６０では、プロセッサ２１０は、認識フォントの文字画像Ｔ１ｘ（図８（Ｃ））の出力画像データＴ１ｘｄの文字認識処理を行うので、プロセッサ２１０は、適切に、文字を認識できる。

また、図８（Ａ）に示すように、第１ラベルシートＬＢは、Ｎ個（Ｎは２以上の整数）の対象文字を含んでいる。第１ラベルシートＬＢのための処理が行われる場合、Ｓ５１０（図９）では、プロセッサ２１０は、Ｎ個の対象文字の領域ＴＡ１－ＴＡ８を検出する（図８（Ｂ））。Ｓ５２０では、プロセッサ２１０は、検出されたＮ個の対象文字のうちの１個の対象文字である注目文字の領域ＴＡ１の撮影画像Ｔ１（図８（Ｃ））の入力画像データＴ１ｄを生成モデル５１０に入力する。これにより、プロセッサ２１０は、注目文字を認識フォントで表す出力画像データＴ１ｘｄを生成する。Ｓ５３０では、プロセッサ２１０は、注目文字の入力画像データＴ１ｄと注目文字の出力画像データＴ１ｘｄとを使用して、入力画像データＴ１ｄの注目文字のフォントが認識フォントであるか否かを判断する。

注目文字のフォントが認識フォントでないと判断される第１の場合（Ｓ５４０：Ｎｏ）、Ｓ５５０で、プロセッサ２１０は、注目文字以外のＮ－１個の対象文字のＮ－１個の領域ＴＡ２－ＴＡ８（図８（Ｂ））のＮ－１個の撮影画像Ｔ２－Ｔ８（図８（Ｄ））のＮ－１個の入力画像データＴ２ｄ－Ｔ８ｄを生成する。そして、プロセッサ２１０は、Ｎ－１個の入力画像データＴ２ｄ－Ｔ８ｄを生成モデル５１０に入力することによって、Ｎ－１個の対象文字をそれぞれ認識フォントで表すＮ－１個の出力画像データＴ２ｘｄ－Ｔ８ｘｄを生成する。第１の場合（Ｓ５４０：Ｎｏ）、Ｓ５６０では、プロセッサ２１０は、Ｎ個の対象文字のＮ個の出力画像データＴ１ｘｄ－Ｔ８ｘｄの文字認識処理を実行することによって、Ｎ個の対象文字を認識する。

図８（Ｅ）に示すように、第２ラベルシートＬＢｂ（図８（Ｅ））は、Ｎ個（Ｎは２以上の整数）の対象文字を含んでいる。第２ラベルシートＬＢｂのための処理が行われる場合、Ｓ５１０（図９）では、プロセッサ２１０は、Ｎ個の対象文字の領域ＴＢ１－ＴＢ８を検出する（図８（Ｆ））。Ｓ５２０では、プロセッサ２１０は、検出されたＮ個の対象文字のうちの１個の対象文字である注目文字の領域ＴＢ１の撮影画像Ｔ１ｂ（図８（Ｇ））の入力画像データＴ１ｂｄを生成モデル５１０に入力する。これにより、プロセッサ２１０は、注目文字を認識フォントで表す出力画像データＴ１ｂｘｄを生成する。Ｓ５３０では、プロセッサ２１０は、注目文字の入力画像データＴ１ｂｄと注目文字の出力画像データＴ１ｂｘｄとを使用して、入力画像データＴ１ｂｄの注目文字のフォントが認識フォントであるか否かを判断する。

注目文字のフォントが認識フォントであると判断される第２の場合（Ｓ５４０：Ｙｅｓ）、Ｓ５７０で、プロセッサ２１０は、Ｎ個の対象文字の撮影画像の画像データ（本実施例では、ラベルシートの撮影画像データ）の文字認識処理を実行することによって、Ｎ個の対象文字を認識する。

このように、注目文字のフォントが認識フォントであると判断される第２の場合に（Ｓ５４０：Ｙｅｓ）、プロセッサ２１０は、Ｎ個の対象文字の撮影画像の画像データの文字認識処理を実行することによって、Ｎ個の対象文字を認識する。従って、注目文字以外のＮ－１個の対象文字のＮ－１個の出力画像データのそれぞれの生成は、省略できる。この結果、処理のための時間が長くなることを、抑制できる。

また、本実施例では、データ処理装置２００は、図７の検査処理を実行する。Ｓ４３０では、プロセッサ２１０は、Ｓ４２０で認識されたＮ個の対象文字を使用して、ラベルシートの良否を判断する。上述したように、プロセッサ２１０は、Ｓ４２０で文字を適切に認識するので、プロセッサ２１０は、ラベルシートの良否を適切に判断できる。

また、本実施例では、データ処理装置２００は、図３の学習データ生成処理を実行する。生成される学習データ２３７は、認識フォントとは異なる他のフォントの文字の画像データを使用して認識フォントの同じ文字の画像データを生成するように生成モデル５１０をトレーニングするためのデータである。Ｓ１２０とＳ１６０との処理では、プロセッサ２１０は、文字を表す文書データを使用して、認識フォントと他のフォントとのいずれかである第１フォント（本実施例では、認識フォント）の文字を表す第１文字画像データを生成する（例えば、図４の文字画像Ｉａ１のデータ）。Ｓ１３０では、プロセッサ２１０は、文書データを使用する文字画像データの生成に使用されるべき文字のフォントを、第１フォント（ここでは、認識フォント）から、認識フォントと他のフォントとのうちの第１フォントとは異なる第２フォント（本実施例では、他のフォント。例えば、ラベルフォント）に変更する。Ｓ１４０、Ｓ１５０、Ｓ１６０の処理では、プロセッサ２１０は、変更された第２フォントの文字を表す第２文字画像データを生成する（例えば、図４の文字画像Ｉｂ１のデータ）。Ｓ１７０の処理では、プロセッサ２１０は、第１フォントの文字を表す第１文字画像データと、第２フォントの同じ文字を表す第２文字画像データと、のペア（例えば、図４のペアＰ１）を含む学習データ２３７を記憶装置２１５（本実施例では、不揮発性記憶装置２３０）に格納する。図５、図６で説明したように、このような学習データ２３７は、認識フォントとは異なる他のフォントの文字の画像データを使用して認識フォントの同じ文字の画像データを生成するように、生成モデル５１０を適切にトレーニングできる。

また、Ｓ１５０では、プロセッサ２１０は、第２画像データのぼかし処理を実行する。すなわち、ぼけた画像データを使用して、生成モデル５１０のトレーニングが行われる。従って、生成モデル５１０は、ぼけた撮影画像データが入力される場合であっても、適切な出力画像データを生成できる。また、Ｓ１５０では、ノイズ付加処理が行われる。従って、生成モデル５１０は、ノイズを有する撮影画像データが入力される場合であっても、適切な出力画像データを生成できる。また、Ｓ１５０では、微小回転処理が行われる。従って、生成モデル５１０は、入力される画像が回転したラベルを表す場合であっても、適切な出力画像データを生成できる。

なお、ラベルシートによって示され得る文字を含むキャラクタセットは、ラベルシートに応じて異なり得る。図４の文書画像ＤＣｂを示すラベルシートＬＢは、ラテンアルファベットとアラビア数字とを示し得る。図示を省略するが、他のラベルシートは、日本語の平仮名を示してよい。図３のＳ１８５、Ｓ１９０で使用される文字リストは、ラベルシートによって示され得る文字を含むキャラクタセットの複数の文字を含むことが好ましい。プロセッサ２１０は、ラベルシート毎に予め決められた文字リストを使用してよい。

また、文字認識処理に適する認識フォントは、文字に応じて異なり得る。例えば、ラテンアルファベットとアラビア数字とに関しては、サンセリフが好ましく、日本語の平仮名に関しては、明朝体が好ましい場合がある。図３のＳ１１０で使用される認識フォントは、文字毎に予め決められたフォントであってよい。プロセッサ２１０は、文書データによって示される文字列に含まれる文字に対応付けられた認識フォントを使用してよい。プロセッサ２１０は、このような生成処理によって、文字画像データの種々のペアを生成し得る。例えば、ラテンアルファベットとアラビア数字とに関しては、種々の学習フォントと、認識フォントであるサンセリフと、を対応付ける文字画像データのペアが生成され得る。日本語の平仮名に関しては、種々の学習フォントと、認識フォントである明朝体と、を対応付ける文字画像データのペアが生成され得る。このような複数のペアを含む学習データ２３７がトレーニング処理（図６、図７）で使用される場合、トレーニング済の生成モデル５１０は、文字に適するフォント変換を実行できる。例えば、生成モデル５１０は、ラテンアルファベットとアラビア数字とに関しては、種々のフォントを認識フォントであるサンセリフに変換し、日本語の平仮名に関しては、種々のフォントを認識フォントである明朝体に変換できる。

なお、１個のラベルシートが、第１認識フォントに対応付けられた第１文字と、第１認識フォントと異なる第２認識フォントに対応付けられた第２文字と、を示し得る。この場合、図３の学習データの生成処理で、プロセッサ２１０は、第１認識フォントに対応付けられた文字のみに関する処理Ｓ１１０－Ｓ１８０と、第２認識フォントに対応付けられた文字のみに関する処理Ｓ１１０－Ｓ１８０とを、別々に実行することが好ましい。また、プロセッサ２１０は、１個のラベルシートのための図９のＳ５２０、Ｓ５５０の処理において、第１文字を第１認識フォントで表す出力画像データと、第２文字を第２認識フォントで表す出力画像データと、を生成し得る。

Ｂ．変形例：
（１）文字認識処理は、図９の処理に代えて、他の種々の処理であってよい。Ｓ５６０で実行される出力画像データの文字認識処理は、出力画像データに種々の前処理（例えば、シャープネス強調処理、ノイズ除去処理など）を実行して処理済出力画像データを生成する処理と、処理済出力画像データから文字を認識する処理と、を含んでよい。同様に、Ｓ５７０で実行される撮影画像データの文字認識処理は、撮影画像データに種々の前処理を実行して処理済撮影画像データを生成する処理と、処理済撮影画像データから文字を認識する処理と、を含んでよい。

Ｓ５３０、Ｓ５４０、Ｓ５７０は、省略されてよい。すなわち、入力画像データのフォントが認識フォントであるか否かに拘らず、プロセッサ２１０は、Ｓ５２０、Ｓ５５０の処理を実行してＮ個の出力画像データを生成し、Ｓ５６０でＮ個の出力画像データのそれぞれの文字認識処理を実行してよい。

（２）図９のＳ５３０において、入力画像データのフォントが認識フォントであるか否かの判断の方法は、上記実施例の方法に代えて、入力画像データと出力画像データとを使用する種々の方法であってよい。例えば、プロセッサ２１０は、入力画像と出力画像との間の同じ画素位置での色値の差分の絶対値を算出する。そして、プロセッサ２１０は、所定の差分閾値よりも大きい差分の絶対値を有する画素位置の総数を算出する。このような画素位置の総数が所定の画素閾値以下である場合に、プロセッサ２１０は、入力画像データのフォントが認識フォントであると判断してよい。このように、プロセッサ２１０は、入力画像と出力画像との間の差の評価値が閾値以下である場合に、入力画像データのフォントが認識フォントであると判断し、差の評価値が閾値より大きい場合に、フォントが認識フォントではないと判断してよい。差の評価値は、上記実施例の「複数の画素位置のそれぞれの色値の差分の絶対値の和」と、上記変形例の「差分閾値よりも大きい差分の絶対値を有する画素位置の総数」と、に限らず、入力画像と出力画像との間の差を示す種々の値であってよい。

また、図９の実施例では、全ての文字のフォント変換を行うか否かの判断に使用される注目文字の総数は「１」である。これに限らず、プロセッサ２１０は、Ｎ個の文字のうちＭ個（Ｍは、１以上、Ｎ未満の整数）の注目文字を使用して、残りのＮ－Ｍ個の文字のフォント変換を行うか否かを判断してよい。この場合、図９の文字認識処理は、以下のように修正されてよい。Ｓ５２０では、プロセッサ２１０は、Ｓ５１０で検出された文字領域の数Ｎを使用して、１以上、Ｎ未満の数Ｍを決定する（Ｍの決定方法は、任意。例えば、Ｍは、Ｎから１以上の所定数を減算した残りと、１と、のうちの大きい方）。プロセッサ２１０は、Ｎ個の文字領域からＭ個の注目文字領域を選択し、Ｍ個の注目文字領域のＭ個の撮影画像を表すＭ個の入力画像データを生成する。そして、プロセッサ２１０は、トレーニング済の生成モデル５１０（図２）にＭ個の入力画像データを入力することによって、Ｍ個の注目文字をそれぞれ注目文字に対応付けられた認識フォントで表すＭ個の出力画像データを生成する。Ｓ５３０では、プロセッサ２１０は、Ｍ個の入力画像データとＭ個の出力画像データとを使用して、Ｍ個の入力画像データのＭ個の注目文字のフォントがそれぞれ注目文字に対応付けられた認識フォントであるか否かを判断する。ここで、プロセッサ２１０は、入力画像データと出力画像データとのＭ個のペアのそれぞれに関して、上述した判断を行う。すなわち、判断は、１文字ずつ行われる。そして、Ｍ個の注目文字のうち１以上の注目文字のそれぞれのフォントが注目文字に対応付けられた認識フォントでないと判断される第１の場合（Ｓ５４０：Ｎｏ）、Ｓ５５０で、プロセッサ２１０は、Ｍ個の注目文字以外のＮ－Ｍ個の対象文字のＮ－Ｍ個の領域のＮ－Ｍ個の撮影画像のＮ－Ｍ個の入力画像データを生成モデル５１０に入力することによって、Ｎ－Ｍ個の対象文字をそれぞれ対象文字に対応付けられた認識フォントで表すＮ－Ｍ個の出力画像データを生成する。そして、プロセッサ２１０は、Ｓ５６０で、Ｎ個の文字を認識する。Ｍ個の注目文字のフォントがそれぞれ注目文字に対応付けられた認識フォントであると判断される第２の場合（Ｓ５４０：Ｙｅｓ）、プロセッサ２１０は、Ｓ５７０で、Ｎ個の文字を認識する。この変形例では、ラベルシートに含まれるＮ個の文字が認識フォントとは異なるフォントの文字を含む場合に、Ｍが大きいほど、Ｓ５７０が実行される可能性（すなわち、Ｓ５７０の文字認識処理による文字の誤認識の可能性）が小さくなる。

（３）学習データ生成処理は、図３の処理に代えて、他の種々の処理であってよい。例えば、Ｓ１３０、Ｓ１４０は、Ｓ１１０、Ｓ１２０よりも先に実行されてよい。また、Ｓ１６０では、プロセッサ２１０は、第１画像データと加工済の第２画像データとを分析して、画像中の文字の領域を検出してよい。検出方法は、図９のＳ５１０の検出方法と同じであってよい

Ｓ１５０で、ぼかし処理と、ノイズ付加処理と、微小回転処理と、の３個の処理のうちの１以上の処理が、省略されてよい。プロセッサ２１０は、３個の処理のうちの実行すべき処理を、Ｓ１５０が実行される毎にランダムに決定してよい。また、Ｓ１５０は、省略されてよい。

学習データ２３７の生成に使用される「フォントリスト」は、認識フォントとは異なる１以上のフォントを含むことが好ましい。これにより、学習データ２３７は、認識フォントとは異なるフォントを認識フォントに変換するように、生成モデル５１０をトレーニングできる。また、「フォントリスト」は、対象物の文字の実際のフォント（例えば、ラベルフォント）を含むことが好ましい。これにより、学習データ２３７は、実際のフォントを適切に認識フォントに変換するように、生成モデル５１０をトレーニングできる。ただし、実際のフォントは、省略されてよい。また、「フォントリスト」は、対象物の文字のフォントとしては使用されないフォントを含んでよい。これにより、学習データ２３７は、生成モデル５１０の汎用性を向上できる。ただし、対象物の文字のフォントとしては使用されないフォントは、省略されてよい。

学習データの生成に使用される文書データのデータ形式は、ベクタデータの形式に代えて、文字コードを含む種々の形式であってよい。例えば、文書データは、属性データを含まずに文字コードを含むテキスト形式のデータであってよい。この場合、プロセッサ２１０は、Ｓ１１０、Ｓ１３０で、レンダリング用のフォントを設定すればよい。

学習データ２３７の生成に使用される「文字リスト」は、種々の文字で構成されてよい。例えば、文字リストは、ラベルシートによって示され得る文字を含むキャラクタセットの複数の文字のうちの一部の複数の文字で構成されてよい。いずれの場合も、文字リストは、正しい文字列の複数の文字を含むことが好ましい。また、文字リストは、エラーに起因してラベルシートによって示され得る全ての文字を含むことが好ましい。

（４）生成モデルのトレーニング処理は、図５、図６の処理に代えて、他の種々の処理であってよい。例えば、トレーニング終了条件は、Ｓ２１０－Ｓ３９０が、所定回数、実行されることであってよい。演算パラメータを調整する処理（Ｓ２６０、Ｓ２９０、Ｓ３５０、Ｓ３９０）は、ミニパッチ確率的勾配降下法を使用する処理であってよい。

（５）生成モデルの構成は、図２の生成モデル５１０の構成に代えて、他の種々の構成であってよい。例えば、中間画像Ｉｐ２の高さと幅は、入力画像Ｉｐ１の高さと幅よりもそれぞれ小さくてよい（例えば、６４＊６４）。生成モデルは、カラー（例えば、赤Ｒ、緑Ｇ、青Ｂ）のビットマップデータを処理してよい。第１生成部３１０には、入力画像データに加えて、乱数を使用して生成されたノイズが入力されてよい。エンコーダ３１２、３２２は、ダウンサンプリングを行う処理層（例えば、プーリング層）を有してよい。デコーダ３１８、３２８は、アップサンプリングを行う処理層（例えば、ニアレストネイバーによる処理層）を有してよい。生成部３１０、３２０は、U-Netを使用して構成されてよい。識別部４１０、４２０は、Patch GANを使用して構成されてよい。

また、生成モデルは、積み重ねられた３以上のＧＡＮを含んでよい。複数のＧＡＮが徐々に画像を変化させる場合、１個のＧＡＮが画像を生成する場合と比べて、生成された画像は文字の細かい形状を表現できる。ただし、生成モデルは、１個のＧＡＮで構成されてよい。

また、生成モデルは、ConditionalGANを含んでよい。条件を示すデータとして、文字領域の撮影画像のデータが使用されてよい。また、生成モデルは、オートエンコーダ、複数の全結合層で構成されたモデル、など、種々の予測モデルであってよい。いずれの場合も、生成モデルのトレーニング方法は、生成モデルに適した任意の方法であってよい。ここで、上述した学習データに含まれる文字画像データのペアを使用して、以下のように生成モデルをトレーニングすることが好ましい。すなわち、ペアに含まれる認識フォントとは異なるフォントの文字画像データが生成モデルに入力される場合に、生成モデルから出力される文字画像データが、同じペアに含まれる認識フォントの文字画像データに近づくように、生成モデルをトレーニングすることが好ましい。

（６）文字認識処理の対象である対象物は、プリンタなどの製品に貼られるラベルシートに限らず、製品に直接的に印刷されるラベルであってよい。対象物は、ラベルに限らず、製品に取り付けられる札でもよい。対象物は、製品を収容する容器、または、製品を包む包装紙であってよい。対象物に関連する製品は、プリンタに限らず、ミシン、カッティングマシンなどの任意の製品であってよい。一般的に、対象物は、文字を表す任意の対象物であってよい。対象物によって表される文字の数は、１以上の任意の整数であってよい。

（７）学習データ生成処理（例えば、図３）、トレーニング処理（例えば、図５、図６）、検査処理（例えば、図７）は、互いに異なるデータ処理装置によって実行されてよい。また、文字認識処理（例えば、図９）は、検査処理を実行するデータ処理装置とは異なる別のデータ処理装置によって実行されてよい。いずれのデータ処理装置も、パーソナルコンピュータとは異なる種類の装置（例えば、デジタルカメラ、スキャナ、スマートフォン）であってもよい。また、ネットワークを介して互いに通信可能な複数の装置（例えば、コンピュータ）が、文字認識処理の機能を一部ずつ分担して、全体として、文字認識処理の機能を提供してもよい（これらの装置を備えるシステムがデータ処理装置に対応する）。

上記各実施例において、ハードウェアによって実現されていた構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されていた構成の一部あるいは全部をハードウェアに置き換えるようにしてもよい。例えば、図９の文字領域検出（Ｓ５１０）の機能を、専用のハードウェア回路によって実現してもよい。

また、本発明の機能の一部または全部がコンピュータプログラムで実現される場合には、そのプログラムは、コンピュータ読み取り可能な記録媒体（例えば、一時的ではない記録媒体）に格納された形で提供することができる。プログラムは、提供時と同一または異なる記録媒体（コンピュータ読み取り可能な記録媒体）に格納された状態で、使用され得る。「コンピュータ読み取り可能な記録媒体」は、メモリーカードやＣＤ－ＲＯＭのような携帯型の記録媒体に限らず、各種ＲＯＭ等のコンピュータ内の内部記憶装置や、ハードディスクドライブ等のコンピュータに接続されている外部記憶装置も含み得る。

以上、実施例、変形例に基づき本発明について説明してきたが、上記した発明の実施の形態は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれる。

１００…デジタルカメラ、２００…データ処理装置、２１０…プロセッサ、２１５…記憶装置、２２０…揮発性記憶装置、２３０…不揮発性記憶装置、２３１…第１プログラム、２３２…第２プログラム、２３３…第３プログラム、２３７…学習データ、２４０…表示部、２５０…操作部、２７０…通信インタフェース、３１０…第１生成部、３１２…第１エンコーダ、３１５…第１特徴データ、３１８…第１デコーダ、３２０…第２生成部、３２２…第２エンコーダ、３２５…第２特徴データ、３２８…第２デコーダ、４１０…第１識別部、４１９…第１出力データ、４１９ｆ…第１偽出力データ、４１９ｒ…第１実出力データ、４２０…第２識別部、４２９…第２出力データ、４２９ｆ…第２偽出力データ、４２９ｒ…第２実出力データ、５００…機械学習モデル、５１０…生成モデル、５２０…識別モデル

Claims

データ処理装置であって、
対象物の撮影画像のデータである撮影画像データを分析することによって、前記対象物に含まれる文字である対象文字の領域を検出する検出部と、
文字認識用のフォントである認識フォントとは異なる他のフォントの文字の画像データを使用して前記認識フォントの同じ文字の画像データを生成するようにトレーニングされた生成モデルに、検出された対象文字の領域の撮影画像の入力画像データを入力することによって、前記対象文字に対応付けられた認識フォントの前記対象文字の出力画像データを生成する第１生成部と、
前記出力画像データの文字認識処理を実行することによって、前記対象文字を認識する第１認識部と、
を備えるデータ処理装置。
請求項１に記載のデータ処理装置であって、
前記対象物は、Ｎ個（Ｎは２以上の整数）の対象文字を含み、
前記検出部は、前記Ｎ個の対象文字の領域を検出し、
前記第１生成部は、検出されたＮ個の対象文字のうちのＭ個（Ｍは、１以上、Ｎ未満の整数）の対象文字であるＭ個の注目文字のＭ個の領域のＭ個の撮影画像のＭ個の入力画像データを前記生成モデルに入力することによって、前記Ｍ個の注目文字をそれぞれ注目文字に対応付けられた認識フォントで表すＭ個の出力画像データを生成し、
前記データ処理装置は、さらに、
前記Ｍ個の注目文字の前記Ｍ個の入力画像データと前記Ｍ個の注目文字の前記Ｍ個の出力画像データとを使用して、前記Ｍ個の入力画像データの前記Ｍ個の注目文字のフォントがそれぞれ前記注目文字に対応付けられた前記認識フォントであるか否かを判断するフォント判断部と、
前記Ｍ個の注目文字のうち１以上の注目文字のそれぞれの前記フォントが前記注目文字に対応付けられた前記認識フォントでないと判断される第１の場合に、前記Ｍ個の注目文字以外のＮ－Ｍ個の対象文字のＮ－Ｍ個の領域のＮ－Ｍ個の撮影画像のＮ－Ｍ個の入力画像データを前記生成モデルに入力することによって、前記Ｎ－Ｍ個の対象文字をそれぞれ対象文字に対応付けられた認識フォントで表すＮ－Ｍ個の出力画像データを生成する第２生成部と、
を備え、
前記第１認識部は、前記第１の場合に、Ｎ個の対象文字のＮ個の出力画像データの前記文字認識処理を実行することによって、前記Ｎ個の対象文字を認識し、
前記データ処理装置は、さらに、
前記Ｍ個の注目文字の前記フォントがそれぞれ前記注目文字に対応付けられた前記認識フォントであると判断される第２の場合に、前記Ｎ個の対象文字の撮影画像の画像データの文字認識処理を実行することによって、前記Ｎ個の対象文字を認識する第２認識部を備える、
データ処理装置。
請求項１または２に記載のデータ処理装置であって、さらに、
認識されたＮ個の対象文字を使用して、前記対象物の良否を判断する対象物判断部を備える、
データ処理装置。
データ処理方法であって、
対象物の撮影画像のデータである撮影画像データを分析することによって、前記対象物に含まれる文字である対象文字の領域を検出する検出工程と、
文字認識用のフォントである認識フォントとは異なる他のフォントの文字の画像データを使用して前記認識フォントの同じ文字の画像データを生成するようにトレーニングされた生成モデルに、検出された対象文字の領域の撮影画像の入力画像データを入力することによって、前記対象文字に対応付けられた認識フォントの前記対象文字の出力画像データを生成する第１生成工程と、
前記出力画像データの文字認識処理を実行することによって、前記対象文字を認識する第１認識工程と、
を備えるデータ処理方法。
請求項４に記載のデータ処理方法であって、

前記対象物は、Ｎ個（Ｎは２以上の整数）の対象文字を含み、
前記検出工程は、前記Ｎ個の対象文字の領域を検出し、
前記第１生成工程は、検出されたＮ個の対象文字のうちのＭ個（Ｍは、１以上、Ｎ未満の整数）の対象文字であるＭ個の注目文字のＭ個の領域のＭ個の撮影画像のＭ個の入力画像データを前記生成モデルに入力することによって、前記Ｍ個の注目文字をそれぞれ注目文字に対応付けられた認識フォントで表すＭ個の出力画像データを生成し、
前記データ処理方法は、さらに、
前記Ｍ個の注目文字の前記Ｍ個の入力画像データと前記Ｍ個の注目文字の前記Ｍ個の出力画像データとを使用して、前記Ｍ個の入力画像データの前記Ｍ個の注目文字のフォントがそれぞれ前記注目文字に対応付けられた前記認識フォントであるか否かを判断するフォント判断工程と、
前記Ｍ個の注目文字のうち１以上の注目文字のそれぞれの前記フォントが前記注目文字に対応付けられた前記認識フォントでないと判断される第１の場合に、前記Ｍ個の注目文字以外のＮ－Ｍ個の対象文字のＮ－Ｍ個の領域のＮ－Ｍ個の撮影画像のＮ－Ｍ個の入力画像データを前記生成モデルに入力することによって、前記Ｎ－Ｍ個の対象文字をそれぞれ対象文字に対応付けられた認識フォントで表すＮ－Ｍ個の出力画像データを生成する第２生成工程と、
を備え、
前記第１認識工程は、前記第１の場合に、Ｎ個の対象文字のＮ個の出力画像データの前記文字認識処理を実行することによって、前記Ｎ個の対象文字を認識し、
前記データ処理方法は、さらに、
前記Ｍ個の注目文字の前記フォントがそれぞれ前記注目文字に対応付けられた前記認識フォントであると判断される第２の場合に、前記Ｎ個の対象文字の撮影画像の画像データの文字認識処理を実行することによって、前記Ｎ個の対象文字を認識する第２認識工程を備える、
データ処理方法。
請求項４または５に記載のデータ処理方法であって、さらに、
認識されたＮ個の対象文字を使用して、前記対象物の良否を判断する対象物判断工程を備える、
データ処理方法。
データを処理するコンピュータのためのコンピュータプログラムであって、
対象物の撮影画像のデータである撮影画像データを分析することによって、前記対象物に含まれる文字である対象文字の領域を検出する検出機能と、
文字認識用のフォントである認識フォントとは異なる他のフォントの文字の画像データを使用して前記認識フォントの同じ文字の画像データを生成するようにトレーニングされた生成モデルに、検出された対象文字の領域の撮影画像の入力画像データを入力することによって、前記対象文字に対応付けられた認識フォントの前記対象文字の出力画像データを生成する第１生成機能と、
前記出力画像データの文字認識処理を実行することによって、前記対象文字を認識する第１認識機能と、
をコンピュータに実現させる、コンピュータプログラム。
請求項７に記載のコンピュータプログラムであって、
前記対象物は、Ｎ個（Ｎは２以上の整数）の対象文字を含み、
前記検出機能は、前記Ｎ個の対象文字の領域を検出し、
前記第１生成機能は、検出されたＮ個の対象文字のうちのＭ個（Ｍは、１以上、Ｎ未満の整数）の対象文字であるＭ個の注目文字のＭ個の領域のＭ個の撮影画像のＭ個の入力画像データを前記生成モデルに入力することによって、前記Ｍ個の注目文字をそれぞれ注目文字に対応付けられた認識フォントで表すＭ個の出力画像データを生成し、
前記コンピュータプログラムは、さらに、
前記Ｍ個の注目文字の前記Ｍ個の入力画像データと前記Ｍ個の注目文字の前記Ｍ個の出力画像データとを使用して、前記Ｍ個の入力画像データの前記Ｍ個の注目文字のフォントがそれぞれ前記注目文字に対応付けられた前記認識フォントであるか否かを判断するフォント判断機能と、
前記Ｍ個の注目文字のうち１以上の注目文字のそれぞれの前記フォントが前記注目文字に対応付けられた前記認識フォントでないと判断される第１の場合に、前記Ｍ個の注目文字以外のＮ－Ｍ個の対象文字のＮ－Ｍ個の領域のＮ－Ｍ個の撮影画像のＮ－Ｍ個の入力画像データを前記生成モデルに入力することによって、前記Ｎ－Ｍ個の対象文字をそれぞれ対象文字に対応付けられた認識フォントで表すＮ－Ｍ個の出力画像データを生成する第２生成機能と、
を前記コンピュータに実現させ、
前記第１認識機能は、前記第１の場合に、Ｎ個の対象文字のＮ個の出力画像データの前記文字認識処理を実行することによって、前記Ｎ個の対象文字を認識し、
前記コンピュータプログラムは、さらに、
前記Ｍ個の注目文字の前記フォントがそれぞれ前記注目文字に対応付けられた前記認識フォントであると判断される第２の場合に、前記Ｎ個の対象文字の撮影画像の画像データの文字認識処理を実行することによって、前記Ｎ個の対象文字を認識する第２認識機能を前記コンピュータに実現させる、
コンピュータプログラム。
請求項７または８に記載のコンピュータプログラムであって、さらに、
認識されたＮ個の対象文字を使用して、前記対象物の良否を判断する対象物判断機能を前記コンピュータに実現させる、
コンピュータプログラム。
文字認識用のフォントである認識フォントとは異なる他のフォントの文字の画像データを使用して前記認識フォントの同じ文字の画像データを生成するように生成モデルをトレーニングするための学習データの生成方法であって、
文字を表す文書データを使用して、認識フォントと他のフォントとのいずれかである第１フォントの前記文字を表す第１文字画像データを生成する工程と、
前記文書データを使用する文字画像データの生成に使用されるべき前記文字のフォントを、前記第１フォントから、前記認識フォントと前記他のフォントとのうちの前記第１フォントとは異なる第２フォントに変更する工程と、
変更された第２フォントの前記文字を表す第２文字画像データを生成する工程と、
前記第１文字画像データと、前記第２文字画像データと、のペアを含む学習データを記憶装置に格納する工程と、
を備える、生成方法。