JP2023030811A

JP2023030811A - 情報処理装置、抽出処理装置、画像処理システム、情報処理装置の制御方法、及びプログラム

Info

Publication number: JP2023030811A
Application number: JP2021136149A
Authority: JP
Inventors: 剛大石; Takeshi Oishi; 裕介村松; Yusuke Murakami
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-08-24
Filing date: 2021-08-24
Publication date: 2023-03-08
Also published as: US20230062113A1

Abstract

【課題】様々なノイズに対する学習データを作成してノイズに対してロバストな学習を可能とすることで、スキャンなどを要因としたノイズの影響を十分に学習してノイズの影響による手書き文字の抽出精度の低下を抑える情報処理装置、抽出処理装置、画像処理システム、情報処理装置の制御方法及びプログラムを提供する。【解決手段】学習装置では、手書き画像（Ｓ５０１～Ｓ５０５でランダムに切り出された前景画像）とノイズ画像（Ｓ５０７～Ｓ５０８でランダムに切り出されたノイズ画像）とを重ねて合成画像を生成し（Ｓ５０９）、手書き画像における手書きの画素を示す正解ラベルを生成し（Ｓ５０６）、合成画像と正解ラベルとを対にしたデータを、画像から手書きの画素を推定するモデルの学習のための学習データとして生成する（Ｓ５１０）。【選択図】図５

Description

本発明は、情報処理装置、抽出処理装置、画像処理システム、情報処理装置の制御方法、及びプログラムに関する。

近年、コンピュータの普及に伴う労働環境の変化により、業務資料の電子化が進んでいる。こうした電子化の対象は、手書き文字が記入された文書にも及んでおり、手書き文字を抽出して電子化する技術が検討されている。

特許文献１では、保険書類点検において手書き領域を抽出し、その内容の文字認識の可否により人手によるチェックの回数を変える技術が開示されている。この技術によれば、印刷文書の手書き領域に記入された、情報価値のある手書き文字を抽出することが可能となる。このように画像中から特定のオブジェクト（特許文献１では手書き文字）を抽出するようなタスクに置いて、抽出対象の形状や背景の種類を様々な条件で学習ができるように画像を加工し、学習データを増強する技術が提案されている（特許文献２）。

特許文献２では、認識したいオブジェクトを画像中から抽出し、回転や拡縮などの画像変換を行ったものを背景となる別の画像に張り付けることによって学習データを作成することによって効率の良い学習を実現している。

特開２０１０－１２２７９１号公報ＵＳ－Ｂ－０１０５４６２１７

Long, et al. "Fully Convolutional Networks for Semantic Segmentation",The IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2015,pp.3431-3440

ＭＦＰ（Multifunction Peripheral）などの画像処理装置で資料を電子化した場合、スキャン毎に画像中にノイズが発生する（原稿台の汚れ、スジやゴミ等）。このようなノイズは、スキャン機能を持つデバイス特有のノイズであり、以降「スキャンノイズ」と呼称する。このようなスキャンノイズは、スキャンごとにランダムな位置に発生するため、学習データを作成する際には、できるだけ様々な位置に発生するように画像を生成することが好ましい。

しかし、特許文献２のように、スキャン画像を用いて画像の増強を行う方法によって学習データを作成すると、スキャンノイズの出現位置が固定化され、ノイズの影響に対してロバストな学習を行うことが困難となる。このため、特許文献２のように作成された学習データを用いて学習した場合、スキャンなどを要因としたノイズの影響を十分に学習することができず、ノイズの影響で手書き文字の抽出精度が低下してしまう可能性があった。

本発明は、上記の課題を解決するためになされたものである。本発明は、様々なノイズに対する学習データを作成することができ、ノイズに対してロバストな学習を行うことが可能となる仕組みを提供することを目的とする。

本発明は、手書き画像を取得する第１取得手段と、ノイズ画像を取得する第２取得手段と、前記手書き画像と前記ノイズ画像とを重ねて合成画像を生成する合成手段と、手書き画像における手書きの画素を示す正解ラベルを生成する正解ラベル生成手段と、前記合成画像と前記正解ラベルとを対にしたデータを、画像から手書きの画素を推定するモデルの学習のための学習データとして生成するデータ生成手段と、を有することを特徴とする。

本発明によれば、様々なノイズに対する学習データを作成することができ、ノイズに対してロバストな学習を行うことが可能となる。この結果、スキャンなどを要因としたノイズの影響を十分に学習することができ、ノイズの影響による手書き文字の抽出精度の低下を抑えることが可能となる。

本実施形態を示す画像処理システムの構成の一例を示す図。画像処理装置、学習装置及び画像処理サーバのハードウェア構成図。学習装置の論理的な構成の概略を示すブロック図。第１実施形態における学習処理を説明するフローチャート。第１実施形態における学習データ生成処理を説明するフローチャート。第１実施形態における前景元画像の一例を示す図。第１実施形態におけるノイズ元画像の一例を示す図。第１実施形態における前景画像とノイズ画像の合成を説明する図。第１実施形態における前景画像とノイズ画像の合成を説明する図。第１実施形態における手書き抽出依頼処理および手書き抽出処理を説明するフローチャート。第１実施形態における処理対象画像および処理対象画像から手書き画素を推定した結果を例示する図。第１実施形態における手書き抽出画像および背景抽出画像を例示する図。第２実施形態における背景元画像および学習画像の合成を説明する図。

以下、本発明を実施するための形態について図面を用いて説明する。
以下、ノイズを含めて生成した学習データを用いて学習した手書き抽出を行うニューラルネットワークを用いて、手書き記入された帳票から手書き文字を抽出し、記入内容を文字認識してデータベース等に保存する方法について説明する。

〔第１実施形態〕
図１は、本発明の一実施形態を示す画像処理システムの構成の一例を示す図である。
本実施形態の画像処理システム１００は、画像処理装置１０１、学習装置１０２、画像処理サーバ１０３を含む。画像処理装置１０１、学習装置１０２、画像処理サーバ１０３は、ネットワーク１０４を介して接続されている。

画像処理装置１０１は、デジタル複合機などであり、スキャン機能や印刷機能を有する。
画像処理装置１０１は、白紙に手書きのみが記入された原稿をスキャン機能によりスキャンして画像データを生成する（以降、この画像を「前景元画像」と呼称する）。画像処理装置１０１は、このように複数枚の原稿をスキャンして前景元画像を複数生成する。
また、画像処理装置１０１は、白紙の原稿などをスキャンすることにより、スキャンによって発生するノイズを含んだ画像データを生成する（以降、この画像を「ノイズ元画像」と呼称する）。
そして、画像処理装置１０１は、ネットワーク１０４を介して、上述のように生成した前景元画像とノイズ元画像を学習装置１０２に送信する。

学習装置１０２は、画像処理装置１０１が生成した前景元画像とノイズ元画像とから、手書き抽出を行うニューラルネットワークを学習するための学習データを生成する。そして、学習装置１０２は、生成した学習データを用いてニューラルネットワークの学習を行って、学習結果（ニューラルネットワークのパラメータなど）を生成する。学習装置１０２は、学習結果を、ネットワーク１０４を介して、画像処理サーバ１０３に送信する。

また、画像処理装置１０１は、手書き抽出を行う際に、手書きが含まれる原稿をスキャンして処理対象とするスキャン画像データを得る（以降、このスキャン画像データを「処理対象画像」と呼称する）。そして、画像処理装置１０１は、処理対象画像を、ネットワーク１０４を介して、上述のように取得した画像処理サーバ１０３に送信する。

画像処理サーバ１０３は、画像処理装置１０１が生成した処理対象画像に対して手書き抽出を行う。画像処理装置１０１は、学習装置１０２が生成した学習結果を用いることで、ニューラルネットワークにより推論して処理対象画像中の手書きの画素を抽出し、手書き部分と活字部分（背景部分）を分離した画像（手書き部分の画像、活字部分の画像）を生成する。
なお、画像処理サーバ１０３は、上述のように生成した画像（手書き部分の画像、活字部分の画像）を、手書きＯＣＲサーバ（不図示）や活字ＯＣＲサーバ（不図示）にそれぞれ送信し、ＯＣＲ処理結果を受け取るように構成してもよい。なお、ＯＣＲは、Optical Character Recognitionの略である。

以下、図２を用いて、画像処理装置１０１、学習装置１０２及び画像処理サーバ１０３のハードウェア構成について説明する。
図２（ａ）は、画像処理装置１０１のハードウェア構成の一例を示すブロック図である。
画像処理装置１０１は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、プリンタデバイス２０５、スキャナデバイス２０６、原稿搬送デバイス２０７、ストレージ２０８、入力デバイス２０９、表示デバイス２１０、及び外部インターフェース２１１を備える。これら各デバイスは、データバス２０３によって相互通信可能に接続されている。

ＣＰＵ２０１は、画像処理装置１０１を統括的に制御するためのコントローラである。ＣＰＵ２０１は、ＲＯＭ２０２に格納されているブートプログラムによりストレージ２０８に記憶されているＯＳ（オペレーティングシステム）を起動する。このＯＳ上で、ストレージ２０８に記憶されているコントローラプログラムが実行される。コントローラプログラムは、画像処理装置１０１を制御するためのプログラムである。ＣＰＵ２０１は、データバス２０３によって接続されている各デバイスを統括的に制御する。ＲＡＭ２０４は、ＣＰＵ２０１の主メモリやワークエリア等の一時記憶領域として動作する。

プリンタデバイス２０５は、画像データを用紙（記録材）上に印刷するものである。これには感光体ドラムや感光体ベルトなどを用いた電子写真印刷方式や、微小ノズルアレイからインクを吐出して用紙上に直接画像を印字するインクジェット方式などがあるが、どの方式でもかまわない。

スキャナデバイス２０６は、ＣＣＤ（Charge Coupled Device）などの光学読取装置を用いて紙などの原稿上の走査を行い、電気信号データを得てこれを変換し、スキャン画像データを生成する。また、ＡＤＦ（オート・ドキュメント・フィーダ）などの原稿搬送デバイス２０７は、原稿搬送デバイス２０７上の原稿台に載置された原稿を１枚ずつスキャナデバイス２０６に搬送する。

ストレージ２０８は、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）などの、読み出しと書き込みが可能な不揮発メモリであり、ここには、前述のコントローラプログラムなど、様々なデータが記録される。
入力デバイス２０９は、タッチパネルやハードキーなどから構成さる入力装置である。入力デバイス２０９は、ユーザの操作指示を受け付け、指示位置を含む指示情報をＣＰＵ２０１に伝達する。

表示デバイス２１０は、ＬＣＤやＣＲＴなどの表示装置である。表示デバイス２１０は、ＣＰＵ２０１が生成した表示データを表示する。
ＣＰＵ２０１は、入力デバイス２０９より受信した指示情報と、表示デバイス２１０に表示させている表示データとから、いずれの操作が成されたかを判定する。この判定結果に応じて、ＣＰＵ２０１は、画像処理装置１０１を制御するとともに、新たな表示データを生成し表示デバイス２１０に表示させる。

外部インターフェース２１１は、ＬＡＮや電話回線、赤外線といった近接無線などのネットワークを介して、外部機器と、画像データをはじめとする各種データの送受信を行う。外部インターフェース２１１は、学習装置１０２やＰＣ（不図示）などの外部機器より、ＰＤＬデータを受信する。ＣＰＵ２０１は、外部インターフェース２１１が受信したＰＤＬデータを解釈し、画像を生成する。生成した画像は、プリンタデバイス２０５により印刷したり、ストレージ２０８に記憶したりする。また、外部インターフェース２１１は、画像処理サーバ１０３などの外部機器より画像データを受信する。ＣＰＵ２０１は、受信した画像データをプリンタデバイス２０５により印刷したり、ストレージ２０８に記憶したり、外部インターフェース２１１により、他の外部機器に送信したりする。
また、外部インターフェース２１１は、スキャナデバイス２０６により生成された画像データやストレージ２０８に記憶されている画像データ等を学習装置１０２や画像処理サーバ１０３などの外部機器に送信したりする。

図２（ｂ）は、学習装置１０２のハードウェア構成の一例を示すブロック図である。
学習装置１０２は、ＣＰＵ２３１、ＲＯＭ２３２、ＲＡＭ２３４、ストレージ２３５、入力デバイス２３６、表示デバイス２３７、外部インターフェース２３８、ＧＰＵ２３９を備える。これら各部は、データバス２３３を介して相互にデータを送受信することができる。

ＣＰＵ２３１は、学習装置１０２の全体を制御するためのコントローラである。ＣＰＵ２３１は、不揮発メモリであるＲＯＭ２３２に格納されているブートプログラムによりストレージ２３５に記憶されているＯＳを起動する。このＯＳの上で、ストレージ２３５に記憶されている学習データ生成プログラムおよび学習プログラムを実行する。ＣＰＵ２３１が学習データ生成プログラムを実行することより、学習データを生成する。また、ＣＰＵ２３１が学習プログラムを実行することにより、手書き抽出を行うニューラルネットワークを学習する。ＣＰＵ２３１は、データバス２３３などのバスを介して各部を制御する。

ＲＡＭ２３４は、ＣＰＵ２３１のメインメモリやワークエリア等の一時記憶領域として動作するものである。
ストレージ２３５は、ＨＤＤやＳＳＤなどの読み出しと書き込みが可能な不揮発メモリであり、前述の学習データ生成プログラムや学習プログラムなど、様々なデータが記録される。

入力デバイス２３６は、マウスやキーボードなどから構成さる入力装置である。表示デバイス２３７は、図２（ａ）を用いて説明した表示デバイス２１０と同様である。
外部インターフェース２３８は、図２（ａ）を用いて説明した外部インターフェース２１１と同様である。
ＧＰＵ２３９は、画像処理プロセッサであり、ＣＰＵ２３１と協調して画像データの生成やニューラルネットワークの学習を行う。

図２（ｃ）は、画像処理サーバ１０３のハードウェア構成の一例を示すブロック図である。
画像処理サーバ１０３は、ＣＰＵ２６１、ＲＯＭ２６２、ＲＡＭ２６４、ストレージ２６５、入力デバイス２６６、表示デバイス２６７、外部インターフェース２６８を備える。これらの各部は、データバス２６３を介して相互にデータを送受信することができる。

ＣＰＵ２６１は、画像処理サーバ１０３の全体を制御するためのコントローラである。ＣＰＵ２６１は、不揮発メモリであるＲＯＭ２６２に格納されているブートプログラムによりストレージ２６５に記憶されているＯＳを起動する。このＯＳの上で、ストレージ２６５に記憶されている画像処理サーバプログラムを実行する。ＣＰＵ２６１がこの画像処理サーバプログラムを実行することより、処理対象画像から手書きの画素を抽出して消去する。ＣＰＵ２６１は、データバス２６３などのバスを介して各部を制御する。

ＲＡＭ２６４は、ＣＰＵ２６１のメインメモリやワークエリア等の一時記憶領域として
動作するものである。
ストレージ２６５は、ＨＤＤやＳＳＤなどの読み出しと書き込みが可能な不揮発メモリであり、前述の画像処理プログラムなど、様々なデータが記録される。

入力デバイス２６６は、図２（ｂ）を用いて説明した入力デバイス２３６と同様である。表示デバイス２６７は、図２（ａ）を用いて説明した表示デバイス２１０と同様である。
外部インターフェース２６８は、図２（ａ）を用いて説明した外部インターフェース２１１と同様である。

なお、学習装置１０２や画像処理サーバ１０３は情報処理装置であり、１台のコンピュータにより実現されるものであっても、複数のコンピュータにより実現されるものであってもよい。例えば、学習装置１０２や画像処理サーバ１０３は、クラウドコンピューティングの技術を用いて実現される構成でもよい。学習装置１０２や画像処理サーバ１０３は、クラウドサービス等により実現される構成であってもよい。

図３は、学習装置１０２の論理的な構成の概略を示すブロック図である。
学習データ生成部３０１は、ニューラルネットワークを学習するための学習データを生成する。ＣＰＵ２３１が、学習データ生成プログラムをＲＡＭ２３４に展開して実行することによって、学習データ生成部３０１が実現される。

学習部３０２は、学習データ生成部３０１が生成した学習データを用いて、ニューラルネットワークを学習する。ＣＰＵ２３１が、学習プログラムをＲＡＭ２３４に展開して実行することによって、学習部３０２が実現される。
なお、ＣＰＵ２３１が、学習データ部３０１や学習部３０２が実行する計算処理の一部をＧＰＵ２３９と協調して実行する構成でもよい。

次に、学習装置１０２による学習処理について説明する。
図４は、第１実施形態における学習処理を説明するフローチャートである。この処理は、学習装置１０２の学習部３０２等により実現される。すなわち、ＣＰＵ２３１が学習プログラム等をＲＡＭ２３４に展開して実行することにより実現される。
この学習処理は、ユーザが、画像処理装置１０１の入力デバイス２０９を介して、所定の操作を行うことで開始される。なお、本実施形態において、ニューラルネットワークの学習には、ミニバッチ法を用いるものとするが、これに限定されない。なお、学習処理の開始は上記のような手段だけではなく、ネットワーク１０４を介してＰＣ（不図示）などから受け付けた入力をトリガーとして実行するようにしてもよい。

まずＳ４０１において、ＣＰＵ２３１は、ニューラルネットワークを初期化する。すなわち、ＣＰＵ２３１は、ニューラルネットワークを構築し、当該ニューラルネットワークに含まれる各パラメータの値を、ランダムに決定して初期化する。構築するニューラルネットワークの構造は、様々なものを用いることができるが、例えば、非特許文献１に示されるＦＣＮ（Fully Convolutional Networks）の形態を取り得る。

次にＳ４０２において、ＣＰＵ２３１は、学習データを取得する。ＣＰＵ２３１は、後述する学習データ生成処理を実行して、所定の数（ミニバッチサイズ、例えば「１０」）の学習データを取得する。なお、ここでは、学習データ生成部３０１で予め生成されてストレージ２３５等に記憶されている学習データを取得する構成でもよい。

次にＳ４０３～Ｓ４０４において、ＣＰＵ２３１は、ニューラルネットワークの学習を行う。
まずＳ４０３で、ＣＰＵ２３１は、ニューラルネットワークの誤差を算出する。まず、ＣＰＵ２３１は、各学習データに含まれる入力画像をニューラルネットワークに入力して出力を得る。当該出力は、入力画像と同じ画像サイズの画像であり、予測結果として、手書きであると判定された画素は、画素の値が手書きを示す値、そうではないと判定された画素は、画素の値が手書きではないことを示す値である画像である。そして、ＣＰＵ２３１は、当該出力と正解ラベル画像との差を評価して誤差を求める。当該評価には、指標として交差エントロピーを用いることができる。

次にＳ４０４で、ＣＰＵ２３１は、ニューラルネットワークのパラメータを調整する。すなわち、ＣＰＵ２３１は、上記Ｓ４０３において算出した誤差をもとに、バックプロパゲーション法によってニューラルネットワークのパラメータ値を変更する。

次にＳ４０５において、ＣＰＵ２３１は、学習を終了するか否かを判定する。詳細には、ＣＰＵ２３１は、上記Ｓ４０２～Ｓ４０４の処理を、所定回数（例えば「６００００回」）行ったか否かを判定する。当該所定回数は、本学習処理の開始時にユーザが操作入力するなどして決定することができる。まだ所定回数行っていない場合、ＣＰＵ２３１は終了しないと判断し（Ｓ４０５でＮＯと判断し）、Ｓ４０２に遷移し、ニューラルネットワークの学習を続ける。

一方、すでに所定回数行った場合、ＣＰＵ２３１は終了すると判断し（Ｓ４０５でＹＥＳの場合）、ＣＰＵ２３１は、Ｓ４０６に処理を遷移する。
Ｓ４０６で、ＣＰＵ２３１は、学習結果として、上記Ｓ４０４で調整したニューラルネットワークのパラメータを、画像処理サーバ１０３に送信し、本フローチャートの処理を終了する。

次に、学習装置１０２による学習データ生成処理について説明する。
図５は、第１実施形態における学習データ生成処理を説明するフローチャートである。この処理は、学習装置１０２の学習データ生成部３０１により実現される。すなわち、ＣＰＵ２３１が学習データ生成をＲＡＭ２３４に展開して実行することにより実現される。

まずＳ５０１において、ＣＰＵ２３１は、ストレージ２３５に記憶している前景元画像を選択して読み出す。この前景元画像について図６を用いて説明する。
図６は、前景元画像の一例を示す図である。
図６のように、前景元画像は、手書きのみにより文字等が書かれた画像である。前景元画像は、例えば、図６のように白紙６００に手書き文字６０１～６０３が記入された原稿を画像処理装置１０１でスキャンすることによって生成される。学習装置１０２は、あらかじめ、上述のように生成された複数の前景元画像を、画像処理装置１０１から受信し、ストレージ２３５に記憶しているものとする。上記Ｓ５０１では、その中からランダムに一つを選択する。

次にＳ５０２において、ＣＰＵ２３１は、上記Ｓ５０１で読み出した前景元画像を回転して加工する。回転角度は所定の範囲（例えば「－１０度～＋１０度の間」）からランダムに選択して決定する。
次にＳ５０３において、ＣＰＵ２３１は、上記Ｓ５０２で回転された前景元画像の一部（例えば「縦×横＝５１２×５１２」の大きさ）を切り出した画像データを生成する（以降この画像データを「前景画像」と呼称する）。なお、切り出す位置はランダムに決定する。

次にＳ５０４において、ＣＰＵ２３１は、上記Ｓ５０３で生成した前景画像を、変倍して加工する。変倍率は所定の範囲（例えば「５０％～１５０％の間」）からランダムに選択して決定する。さらに、変倍後の前景画像の一部（例えば「縦×横＝２５６×２５６」の大きさ）を中央等から切り出して前景画像を更新する。

次にＳ５０５において、ＣＰＵ２３１は、前景画像の各画素の輝度を変更して加工する。詳細には、ＣＰＵ２３１は、前景画像をグレースケール化し、そしてガンマ補正を用いて前景画像の輝度を変更する。ガンマ値は所定の範囲（例えば「０．１～１０．０」の間）からランダムに選択して決定する。

次にＳ５０６において、ＣＰＵ２３１は、前景画像に対して正解ラベル画像を生成する（正解ラベル生成処理）。まず、ＣＰＵ２３１は、前景画像に対して二値化処理を行う。ＣＰＵ２３１は予め定めた閾値より低い値である画素の値を、手書きを示す値（例えば「２５５」以降も同様）とし、他の画素の値を、手書きではないことを示す値（例えば「０」以降も同様）とした画像データを前景画像に対する正解ラベル画像として生成する。二値化の方法は、閾値を用いた方法に限ることはなく、公知の２値化手法を適用することが可能である。

次にＳ５０７において、ＣＰＵ２３１は、ストレージ２３５に記憶しているノイズ元画像を選択して読み出す。このノイズ元画像について図７を用いて説明する。
図７は、ノイズ元画像の一例を示す図である。
ノイズ元画像は、帳票などをスキャンした場合に画像中に現れるノイズを含む画像であり、例えば、白紙を画像処理装置１０１でスキャンすることによって生成される。学習装置１０２は、あらかじめ、上述のように生成されたノイズ元画像を、画像処理装置１０１から受信し、ストレージ２３５に記憶しているものとする。

図７では、白紙７０１を画像処理装置１０１のスキャン機能を介して得られたスキャン画像７０２中に、ノイズ７０４およびノイズ７０５が発生している例を示している。
ノイズ７０４は、例えばスキャンによってランダムに現れるスキャンノイズを表している。また、ノイズ７０５は、例えば画像処理装置１０１の汚れなどに起因するスジ状のノイズを表している。また、これら以外に、読取りデバイス（ＣＣＤ、ラインセンサ）に応じたノイズ、画像処理する過程で施した画像圧縮による圧縮ノイズなども含まれる。

次にＳ５０８において、ＣＰＵ２３１は、上記Ｓ５０７で取得したノイズ元画像の一部（例えば「縦×横＝５１２×５１２」の大きさ）を切り出した画像データを生成する（以降、この画像データを「ノイズ画像」と呼称する）。切り出す位置はランダムに決定する。なお、この時切り出したノイズ画像の画素値を評価し、一定のノイズを含まないようなノイズ画像は採用せず、別の位置から切り出すように構成してもよい。例えば、画素値の輝度値が閾値（例えば「２００」）を下回る場合に画素にノイズが発生しているとし、切り出した画像中の各画素に対して判定を行う。あらかじめ設定した割合（例えば画素数の「１０％」）を下回る場合には切り出したノイズ画像は採用せず、再度別のノイズ画像を切り出すといった形態が考えられる。なお、ノイズの判定処理はこの形態に限定したものではなく、ノイズの有無を評価する別形態を用いてもよい。

次にＳ５０９において、ＣＰＵ２３１は、上記Ｓ５０１～Ｓ５０５で取得した前景画像と上記Ｓ５０７～Ｓ５０８で取得したノイズ画像の合成を行うことにより、画像を生成する（以降、この画像を「合成画像」と呼称する）。例えばＣＰＵ２３１は、前景画像とノイズ画像のそれぞれ同じ座標を比較し、輝度の低い方の画素値を採用した新しい画像を作ることで画像の合成を行う。なお、合成の手段は上記に限らず、例えば、それぞれの画像中の同じ座標の画素を一定の割合でブレンドするようにして画素値を決めるようにしてもよい。

次にＳ５１０において、ＣＰＵ２３１は、上記Ｓ５０９で合成して生成した合成画像と、上記Ｓ５０６で生成した正解ラベル画像とを対応付け、学習データとしてストレージ２３５の所定の領域に保存する。

次にＳ５１１において、ＣＰＵ２３１は、学習データ生成処理を終了するか否かを判定する。まだ予め決定した学習データの数だけ学習データを生成していない場合、ＣＰＵ２３１は、まだ終了しないと判断し（Ｓ５１１でＮＯと判断し）、Ｓ５０１に処理を遷移する。
一方、すでに予め決定した学習データの数だけ学習データを生成している場合、ＣＰＵ２３１は、終了すると判断し（Ｓ５１１でＹＥＳと判断し）、本フローチャートの処理を終了する。

以下、上述のように生成された学習データについて図８Ａ、図８Ｂを用いて説明する。
図８Ａ、図８Ｂは、第１実施形態における前景画像とノイズ画像を合成した合成画像の一例を示す図である。以下、図８Ａ、図８Ｂをまとめて図８と記載する。

図８（ａ）は、第１実施形態における学習画像の合成イメージを示すものである。
前景画像８０１は、図５のＳ５０１～Ｓ５０５によって生成された前景画像の例である。これは、図６に例示した前景元画像６００中の手書き文字６０１が部分的に切り出されて回転などの処理が加えられた画像である。
ノイズ画像８０２は、図５のＳ５０７～Ｓ５０８によって生成されたノイズ画像の例である。これは、図７に例示したノイズ元画像７０２中のノイズ７０４が部分的に切り出されて生成された画像である。

合成画像８０３は、図５のＳ５０８によって生成された合成画像の例である。前景画像８０１およびノイズ画像８０２に対して同一座標の画素値を比較するなどして生成した画像である。
正解ラベル画像８０４は、図５のＳ５０６によって生成された正解ラベル画像の例である。画像８０１の手書き文字部分を表すように画素が構成されており、合成画像８０３と対になるように学習データとして取り扱われる。

図８（ｂ）～図８（ｄ）は、画素レベルでの合成イメージを示すものである。
図８（ｂ）、図８（ｃ）および図８（ｄ）は、それぞれ前景画像８０１、ノイズ画像８０２、合成画像８０３中の同一座標（幅：ｘ１～ｘ２、高さ：ｙ１～ｙ２）で切り出された部分画像である。矩形は、画像を構成する画素を表している。

合成画像８０７の各画素は、上述の通り合成対象となる前景画像８０５とノイズ画像８０６の同一座標の画素値に基づいて決定される。合成画像８０７中の画素８１０は、同一の座標である前景画像８０５の画素８０８と、ノイズ画像８０６の画素８０９が持つ輝度値を比較し、画素の輝度値が低い方の輝度値を採用する。画素８１０においては、前景画像８０５の画素８０８の輝度値のほうが低いと判断され、画素８１０の輝度値として採用されている。一方、画素８１３の場合、前景画像８０５の画素８１１とノイズ画像８０６の画素８１２を比較し、輝度値が低いと判定されたノイズ画像８０６の画素８１２が合成画像８０７の画素８１３に採用される。

以上のように、本実施形態では、手書き文字画像（前景画像）とノイズ画像を重ねて合成画像を生成し、合成結果と手書き文字のラベル情報（正解ラベル画像）を組み合わせて学習データを生成する。これにより、様々なノイズに対する学習データを作成することができ、ノイズに対してロバストな学習を行うことが可能となる。

次に、画像処理装置１０１のスキャン機能により原稿から画像データを読み取り、画像処理サーバ１０３で手書き文字抽出を行う事例について説明する。
まず画像処理装置１０１は、活字および手書き文字を含む原稿をスキャンして処理対象画像を得る。そして、処理対象画像を画像処理サーバ１０３に送信して手書き文字の抽出を依頼する。以下、図９（ａ）を用いて説明する。

図９（ａ）は、画像処理装置１０１による手書き抽出依頼処理の一例を示すフローチャートである。この処理は、画像処理装置１０１のＣＰＵ２０１が、ストレージ２０８に記録されているコントローラプログラムを読み出し、ＲＡＭ２０４に展開して実行することにより実現される。この処理は、ユーザが、画像処理装置１０１の入力デバイス２０９を介して所定の操作を行うことで開始される。

まずＳ９０１において、ＣＰＵ２０１は、スキャナデバイス２０６や原稿搬送デバイス２０７を制御して、原稿をスキャンして処理対象画像を生成する。処理対象画像は、フルカラー（ＲＧＢ３チャネル）の画像データとして生成される。ここでスキャンする原稿は、例えば図１０（ａ）に示すような注文票などの帳票であり、各項目の右に手書きで値が記入されている。
次にＳ９０２において、ＣＰＵ２０１は、上記Ｓ９０１で生成した手書き抽出処理対象を、外部インターフェース２１１を介して、画像処理サーバ１０３に送信する。

次に画像処理サーバ１０３による手書き抽出処理について説明する。
画像処理サーバ１０３は、画像処理装置１０１から処理対象画像を受信し、当該スキャン画像データに含まれる手書き文字を抽出した画像データを得る。以下、図９（ｂ）を用いて説明する。

図９（ｂ）は、画像処理サーバ１０３による手書き抽出処理の一例を示すフローチャートである。この処理は、ＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理サーバプログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。この処理は、例えば、ユーザが画像処理サーバ１０３の電源をＯＮ（オン）にすると開始される。

まずＳ９１１において、ＣＰＵ２６１は、手書き抽出を行うニューラルネットワークをロードする。まずＣＰＵ２６１は、図４のＳ４０１の場合と同一のニューラルネットワークを構築する。そして、図４のＳ４０６において学習装置１０２から送信された学習結果（ニューラルネットワークのパラメータ）を、構築したニューラルネットワークに反映する。これにより、画像から手書きの画素を推定するための学習済みモデルが生成される。
なお、画像処理サーバ１０３は、あらかじめ図４のＳ４０６において学習装置１０２から送信された学習結果を受信し、ストレージ２６５に記憶しているものとする。

次にＳ９１２において、ＣＰＵ２６１は、処理対象となる処理対象画像を、画像処理装置１０１より受信し、取得したかを判定する。外部インターフェース２６８を介して処理対象画像を取得している場合（Ｓ９１２でＹＥＳの場合）、ＣＰＵ２６１は、Ｓ９１３に遷移する。一方、そうでない場合（Ｓ９１２でＮＯの場合）、ＣＰＵ２６１は、Ｓ９１７に遷移する。

Ｓ９１３では、ＣＰＵ２６１は、画像処理装置１０１から受信した処理対象画像から手書きの画素を抽出する。まずＣＰＵ２６１は、処理対象画像をグレースケール化する。そして、このグレースケール化した処理対象画像を、上記Ｓ９１１で構築したニューラルネットワークに入力して、手書きの画素を推定させる。すなわち、上記Ｓ９１１で生成した学習済みモデルを用いて、手書き画素を推定する。この結果、処理対象画像と同じサイズであり、手書きであると判定された画素には、手書きであること示す値（例えば「１」）、手書きではないと判定された画素には、手書きではないことを示す値（例えば「０」）が、それぞれ記録された画像データが得られる。以下、図１０を用いて説明する。
図１０（ａ）の画像を「処理対象画像」として、手書き画素を推定した結果の画像を図１０（ｂ）に示す。図１０では、結果を見やすくするために、値が「０」の画素を黒、値が「１」の画素を白で表現している。以降この画像データを「推定結果」と呼称する。

次にＳ９１４において、ＣＰＵ２６１は、上記Ｓ９１３で作成した推定結果をマスクとして、処理対象画像から手書きに対応する部分を抽出し、手書きだけの画像を作成する。具体的には、処理対象画像と同じサイズの画像であり、推定結果が手書きの座標（画素）に処理対象画像の画素値を、推定結果が手書きではない座標（画素）に「２５５」をそれぞれ代入した画像を作る。以降この画像を「手書き抽出画像」と呼称する。ここで作成された手書き抽出画像を図１１（ａ）に例示する。

次にＳ９１５において、ＣＰＵ２６１は、上記Ｓ９１３で作成した推定結果をマスクとして、処理対象画像から背景に対応する部分を抽出し、背景だけの画像を作成する。具体的には、処理対象画像と同じサイズの画像であり、推定結果が手書きではない座標（画素）に処理対象画像の画素値を、推定結果が手書きの座標（画素）に「２５５」をそれぞれ代入した画像を作る。以降この画像を「背景抽出画像」と呼称する。ここで作成された背景抽出画像を図１１（ｂ）に例示する。

次にＳ９１６において、ＣＰＵ２６１は、手書き抽出画像および背景抽出画像を出力する。詳細には、ＣＰＵ２６１は、上記Ｓ９１４で得た手書き抽出画像および上記Ｓ９１５で得た背景抽出画像を、外部インターフェース２６８を介して、画像処理装置１０１に送信する。

次にＳ９１７において、ＣＰＵ２６１は、処理を終了するか否かを判定する。ユーザが、画像処理サーバ１０３の電源のＯＦＦなどの所定の操作を行った場合、ＣＰＵ２６１は、処理を終了すると判定し（Ｓ９１７でＹＥＳと判定し）、本フローチャートの処理を終了する。そうでない場合、ＣＰＵ２６１は、処理を終了しないと判定し（Ｓ９１７でＮＯと判定し）、Ｓ９１２に処理を遷移する。

なお、上記Ｓ９１６では、手書き抽出結果を画像処理装置１０１に送信したが、別の処理を行うように構成してもよい。例えば、外部インターフェース２６８を通して手書き抽出画像および背景抽出画像をそれぞれ手書きＯＣＲサーバ（不図示）および活字ＯＣＲサーバ（不図示）に送信して各ＯＣＲの入力としたり、ＤＢサーバ（不図示）に送信して保存してもよい。このように、手書き抽出結果の出力先は限定されない。

以上に示したように、手書き文字のみを含む画像データとノイズのみを含む画像データを用いて、手書き文字とノイズが重なるように合成して手書き抽出を行うニューラルネットワークを学習するための学習データを生成する。そして、生成した学習データを用いてニューラルネットワークを学習し、当該学習の結果を用いて、スキャン画像中から手書き文字の領域を抽出することが可能となる。この時、ノイズ画像を学習データに合成して学習したことによって、スキャン時に発生するノイズの影響によらず、精度の良い抽出結果を得ることが可能となる。

なお、本実施形態では、学習データ生成部３０１と学習部３０２は、学習装置１０２において実現されるものとしたが、それぞれ別体の装置において実現されるようにしてもよい。この場合、学習データ生成部３０１を実現する装置は、学習データ生成部３０１が生成した学習データを、学習部３０２を実現する装置に送信する。そして、学習部３０２は受信した学習データをもとにニューラルネットワークを学習する。
また、画像処理装置１０１、画像処理サーバ１０３、別体の装置として説明したが、この構成に限らず複数の機能を同じ装置で行うよう集約してもよい。

また、本実施形態では、学習処理において、学習データ生成処理を呼び出して学習データを生成した。しかし、事前に学習データ生成処理によって学習データを大量に生成しておいて、学習処理時にはそこから随時、ミニバッチサイズ分をサンプルするようにしてもよい。

また、押印のみが成された原稿（白紙に印影のみの原稿）をスキャンして前景元画像を生成したり、電子文書を印字した薄紙の裏面をスキャンして前景元画像を生成したりしてもよい。これらにより、押印や裏写りに対応する画素を検出するニューラルネットワークを学習するための学習データを合成して生成することができる。

また、図５のＳ５０５やＳ５０６で得た前景画像およびこれに対する正解ラベル画像を学習データに含めてもよい。図５のＳ５０８で得たノイズ画像と、これに対する正解ラベル画像として、ノイズ画像と同じ画像サイズであり、全ての画素が手書きではないことを示す値である画像を生成し、学習データに含めてもよい。

なお、本実施形態では、入力画像をグレースケール画像として生成したが、フルカラー画像など他の形式として生成してもよい。
なお、本実施形態では、ノイズ画像に対して回転などの画像加工を行っていないが、前景画像と同様に画像加工の処理（図５のＳ５０２、Ｓ５０４、Ｓ５０５など）を含めて画像を生成するような手段をとってもよい。

〔第２実施形態〕
第１実施形態では、手書き画像である前景画像に対してノイズ画像の合成を行った。しかし、活字や罫線など背景となる情報を含んだ画像（以下「背景元画像」と呼称する）と前景画像を合成し、その合成画像に対してノイズ画像を合成するように構成してもよい。以下、この実施形態について図１２を用いて説明する。

図１２（ａ）は、第２実施形態における背景元画像を例示する図である。
背景元画像１２０１は帳票のフォーマットを示したものである。第２実施形態では、図１２（ａ）のように、「フリガナ」など帳票の入力項目を表す活字１２０２や、罫線１２０３を含んだ画像を背景情報として合成の素材として用いる。

図１２（ｂ）は、第２実施形態における学習画像の合成イメージを示すものであり、前景画像とノイズ画像を用いた第１実施形態の例に背景画像を加えた場合の合成例を示す。
図１２（ｂ）の例では、まず前景画像１２１１と背景画像１２１２の合成を行い、合成画像１２１３を生成する。背景画像１２１２として、元となる背景元画像（例えば背景元画像１２０１）に対して、第１実施形態における図５のＳ５０１～Ｓ５０５と同様の処理を行い、部分的に切り出したものを使用する。そして、生成した合成画像１２１３に対して、さらにノイズ画像１２１４を合成することによって、最終的な学習データ画像１２１５を生成する。なお、上記の前景画像およびノイズ画像の生成方法は第１実施形態と同様である。

なお、上記各実施形態の学習データ生成処理において、ノイズ画像を前景画像または前景画像と背景画像を合成した合成画像に対して合成する場合に、一定の割合でノイズ画像を合成しない画像を設けてもよい。これにより、ノイズの影響が少ない場合の学習データを含めることが可能となる。

なお、上記各実施形態では、画像から手書きの画素を推定するモデルとして、ニューラルネットワークを用いたモデルを例示しているが、これに限定されるものでない。

以上、各実施形態では、手書き文字画像とノイズのみが存在する画像を用いて、合成画像を生成し、合成結果と手書き文字のラベル情報を組み合わせて学習を行う構成を説明した。これにより、様々なノイズに対する学習データを作成することができ、ノイズに対してロバストな学習を行うことが可能となる。この結果、スキャンなどを要因としたノイズの影響を十分に学習することができ、ノイズの影響による手書き文字の抽出精度の低下を抑えることが可能となる。

なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されることは言うまでもない。
以上、一実施形態について示したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
また、上記各実施形態を組み合わせた構成も全て本発明に含まれるものである。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。
本発明は上記実施形態に限定されるものではなく、本発明の趣旨に基づき種々の変形（各実施形態の有機的な組合せを含む）が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施形態及びその変形例を組み合わせた構成も全て本発明に含まれるものである。

１０１画像処理装置
１０２学習装置
１０３画像処理サーバ

Claims

手書き画像を取得する第１取得手段と、
ノイズ画像を取得する第２取得手段と、
前記手書き画像と前記ノイズ画像とを重ねて合成画像を生成する合成手段と、
手書き画像における手書きの画素を示す正解ラベルを生成する正解ラベル生成手段と、
前記合成画像と前記正解ラベルとを対にしたデータを、画像から手書きの画素を推定するモデルの学習のための学習データとして生成するデータ生成手段と、
を有することを特徴とする情報処理装置。
前記第２取得手段は、白紙の原稿を読み取ることで生成された画像からランダムに切り出された画像を前記ノイズ画像として取得することを特徴とする請求項１に記載の情報処理装置。
前記第１取得手段は、手書きで書かれた画像からランダムに切り出された画像を前記手書き画像として取得することを特徴とする請求項２に記載の情報処理装置。
前記合成手段は、前記手書き画像と前記ノイズ画像の対応する画素の画素値をそれぞれ比較し、該比較の結果に応じて前記合成画像の画素値を決定することを特徴とする請求項１～３のいずれか１項に記載の情報処理装置。
前記正解ラベル生成手段は、前記手書き画像を二値化することで前記正解ラベルを生成することを特徴とする請求項１～４のいずれか１項に記載の情報処理装置。
前記合成手段は、前記手書き画像、背景となる情報を含んだ画像、および、前記ノイズ画像を重ねて合成画像を生成する、ことを特徴とする請求項１～５のいずれか１項に記載の情報処理装置。
前記学習データを用いて、画像から手書きの画素を推定するモデルの学習を行う学習手段を有することを特徴とする請求項１～６のいずれか１項に記載の情報処理装置。
請求項１～６のいずれか１項に記載の情報処理装置で生成された学習データを用いて学習したモデルを用いて、処理対象の画像から手書きの画素を推定する推定手段を有することを特徴とする抽出処理装置。
前記推定手段による推定の結果に基づき、前記処理対象の画像から、手書きに対応する部分を抽出した画像と、背景に対応する分を抽出した画像を作成する作成手段を有することを特徴とする請求項８に記載の抽出処理装置。
請求項１～６のいずれか１項に記載の情報処理装置と、請求項８又は９に記載の抽出処理装置を有することを特徴とする画像処理システム。
手書き画像を取得する第１取得工程と、
ノイズ画像を取得する第２取得工程と、
前記手書き画像と前記ノイズ画像とを重ねて合成画像を生成する合成工程と、
前記手書き画像における手書きの画素を示す正解ラベルを生成する正解ラベル生成工程と、
前記合成画像と前記正解ラベルとを対にしたデータを、画像から手書きの画素を推定するモデルの学習のための学習データとして生成するデータ生成工程と、
を有することを特徴とする情報処理装置の制御方法。
コンピュータを、請求項１～７のいずれか１項に記載の各手段として機能させるためのプログラム。