JP2023015483A

JP2023015483A - 画像処理装置、画像処理システム、画像処理方法、及びプログラム

Info

Publication number: JP2023015483A
Application number: JP2021119282A
Authority: JP
Inventors: 元気池田; Motoki Ikeda; 裕介村松; Yusuke Murakami
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2023-02-01

Abstract

【課題】手書き部分のＯＣＲ処理の精度の低下を軽減する。【解決手段】手書き部分を含む原稿の読取画像を取得する取得手段と、前記読取画像をニューラルネットワークに入力することにより、前記読取画像における所定の単位の手書き部分を含む対象領域を、連続した画素の集合として推定する推定手段と、前記対象領域に基づいて、ＯＣＲ処理を行う対象画像を生成する生成手段と、を有することを特徴とする。【選択図】図１０

Description

本発明は、画像処理装置、画像処理システム、画像処理方法、及びプログラムに関する。

近年、ユーザにより文字が記入された帳票等の紙文書をスキャンし、当該スキャンした画像に対して手書き対応のＯＣＲ処理を行うことにより、記入された手書き文字を電子化（データ化）することが行われている。
手書き対応のＯＣＲ処理により手書き文字をテキスト化するために、手書き文字が記入された帳票をスキャンして得られるスキャン画像を手書きＯＣＲエンジンへ入力する。このとき、スキャン画像上の手書き文字を含む領域を読取位置として指示する必要がある。
特許文献１には、スキャン画像上の手書き文字を含む領域を、スキャン画像上の位置およびサイズ（幅、高さ）から成る矩形情報として推定するニューラルネットワークが開示されている。

特開２０１９－７９３４７号公報

特許文献１の技術によれば、帳票をスキャンして得られるスキャン画像から、手書き文字を含む領域が、矩形情報として得られる。しかしながら、手書き文字を含む矩形領域内には、手書き以外の、活字や罫線等の帳票に印刷されたオブジェクトに由来する画素（以降、このような画素を「印刷画素」と呼称する）が含まれてしまう場合がある。図２１（ａ）は、手書きで文字が記入された帳票の一例を示す。図２１（ａ）では、手書き文字を含む矩形領域を点線で示しているが、図２１（ａ）における下段の矩形領域には、活字が含まれている。手書きによる記入では、記入の仕方において自由度が高いため、このような事態が生じやすい。以上のように、手書き文字近傍の活字や罫線等の印刷画素が、手書き文字を含む矩形領域内に含まれてしまうケースでは、印刷画素がノイズとなり、ＯＣＲ処理の精度が低下してしまう場合があった。

そこで本発明は、手書き部分のＯＣＲ処理の精度の低下を軽減することを目的とする。

本発明の画像処理装置は、手書き部分を含む原稿の読取画像を取得する取得手段と、前記読取画像をニューラルネットワークに入力することにより、前記読取画像における所定の単位の手書き部分を含む対象領域を、連続した画素の集合として推定する推定手段と、前記対象領域に基づいて、ＯＣＲ処理を行う対象画像を生成する生成手段と、を有することを特徴とする。

本発明によれば、手書き部分のＯＣＲ処理の精度の低下を軽減することができる。

画像処理システムの全体構成例を示す図である。各装置のハードウェア構成例を示す図である。ニューラルネットワークの構成例を示す図である。学習フェーズのシーケンスを示す図である。利用フェーズのシーケンスを示す図である。読取画像及び正解画像の例を示す図である。操作画面の表示例を示す図である。学習フェーズで実行される処理を示すフローチャートである。学習フェーズで実行される処理を示すフローチャートである。学習データの一例を示す図である。利用フェーズで実行される処理を示すフローチャートである。利用フェーズで生成されるデータを説明するための図である。利用フェーズで生成されるデータを説明するための図である。学習フェーズのシーケンスを示す図である。操作画面の表示例を示す図である。合成領域定義情報の一例を示す図である。学習フェーズで実行される処理を示すフローチャートである。学習フェーズで実行される処理を示すフローチャートである。学習フェーズで実行される処理を示すフローチャートである。学習フェーズを生成されるデータを説明するための図である。学習フェーズで実行される処理を示すフローチャートである。学習フェーズで生成されるデータを説明するための図である。正解サンプル画像の一例を示す図である。帳票の例を示す図である。

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施の形態は特許請求の範囲に関る本発明を限定するものではなく、また、本実施の形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一な構成については、同じ符号を付して説明する。

［第１の実施形態］
本実施形態では、手書き領域を、ニューラルネットワークにより、矩形情報ではなく、記入項目ごとにグルーピングされた手書きストロークの集合を含む画素の集合として推定する例を示す。

＜画像処理システム＞
図１は、本実施形態に係る画像処理システムの全体構成例を示す図である。画像処理システム１００は、画像処理装置１０１、学習装置１０２、画像処理サーバ１０３、及びＯＣＲサーバ１０４により構成される。画像処理装置１０１、学習装置１０２、画像処理サーバ１０３、及びＯＣＲサーバ１０４は、ネットワーク１０５を介して相互に接続されている。
画像処理装置１０１は、スキャン機能とプリント機能を備えた複合機であり、例えばＭＦＰ（ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）である。画像処理装置１０１は、画像取得部１１１としての機能（スキャン機能）を備える。

画像処理システム１００における学習フェーズでは、画像処理装置１０１は、サンプルとなる帳票等の複数枚の原稿をスキャンして、複数の画像データを生成する。以降、この画像データを「サンプル画像」と呼称する。画像処理装置１０１は、画像生成装置の一例である。サンプルとなる原稿は、学習対象となる手書き文字が記入された原稿を含む。そして、画像処理装置１０１は、ネットワーク１０５を介して、サンプル画像を学習装置１０２に送信し、学習装置１０２に対して帳票の学習処理を実行させる。

また、画像処理システム１００における利用フェーズでは、画像処理装置１０１は、認識対象となる手書き文字が含まれる原稿をスキャンして、画像データを生成する。以降、この画像データを「処理対象画像」と呼称する。そして、画像処理装置１０１は、ネットワーク１０５を介して、処理対象画像を画像処理サーバ１０３に送信し、画像処理サーバ１０３に対して帳票の認識処理を実行させる。

学習装置１０２は、画像処理装置１０１が生成したサンプル画像を蓄積する画像蓄積部１１５としての機能と、蓄積したサンプル画像から学習データを生成する学習データ生成部１１２としての機能を備える。学習データは、手書き領域の推定を行うニューラルネットワークを学習するために用いられるデータである。学習装置１０２は、生成した学習データを用いて、ニューラルネットワークの学習を行う学習部１１３としての機能を備える。学習部１１３の学習処理により、学習結果（ニューラルネットワークのパラメータ等を含む学習モデル）が生成される。学習装置１０２は、ネットワーク１０５を介して、学習結果を画像処理サーバ１０３に送信する。ニューラルネットワークの詳細については、図３を用いて後述する。

画像処理サーバ１０３は、処理対象画像を変換する画像変換部１１４としての機能を備える。画像変換部１１４は、処理対象画像から手書きＯＣＲの対象とする画像を生成する。まず、画像変換部１１４は、画像処理装置１０１が生成した処理対象画像に対して手書き領域の推定を行う。本実施形態において、画像処理サーバ１０３は、学習装置１０２が生成した学習結果を用いることで、ニューラルネットワークにより推論して、処理対象画像中の手書き文字が記入された領域を推定（特定）する。これにより、手書き領域を得る。手書き領域は、ある記入項目に記入された手書き文字の領域であり、対象領域の一例である。画像処理サーバ１０３は、画像処理装置の一例である。

ここで、手書き領域は、処理対象画像中の連続した画素の集合として推定される。手書き領域は、ある記入項目の手書き記入を構成する手書きストロークを内包し、手書き画素以外の画素（印字画素）を含まない。また、手書き領域は、当該手書きストロークを内包する外接矩形よりも小さな面積となる。そしてこの面積の減少は、外接矩形の外周部からの画素の欠損により生じる。

すなわち、手書き領域は、手書きストロークを内包する外接矩形と比較した場合、より手書きストロークに沿うような画素集合である。また、手書き領域は、帳票の記入項目の数に応じて、一つの処理対象画像から複数得られる場合がある。なお、帳票の記入項目は、手書き部分の構成単位（所定の単位）の一例である。画像変換部１１４は、推定された手書き領域に対応する画素を、処理対象画像から取得し、矩形状となるよう欠損部を白画素で埋めるなどして成型することにより、手書きＯＣＲの対象とする対象画像を生成する。以降、この画像を「手書き抽出画像」と呼称する。そして、画像処理サーバ１０３は、ネットワーク１０５を介して、手書き抽出画像をＯＣＲサーバ１０４に送信し、ＯＣＲサーバ１０４に、手書き抽出画像に対して、手書きＯＣＲを実行させる指示を行う。

また、画像変換部１１４は、推定した手書き領域を参照して、処理対象画像から手書き文字を除去した画像（以降、「活字画像」と呼称する）を生成する。具体的には、処理対象画像上の手書き領域である画素を白画素に変換するなどして除去することにより活字画像を得る。なお、白画素に限らず、周辺画素に基づいて画素値を決定してもよい。そして、画像変換部１１４は、活字画像上の領域であって、活字ＯＣＲの対象とする活字を含む領域（以降、「活字領域」と呼称する）の情報を生成する。活字領域の生成については後述する。そして、画像処理サーバ１０３は、ネットワーク１０５を介して、活字画像と活字領域とをＯＣＲサーバ１０４に送信し、ＯＣＲサーバ１０４に、活字画像上の活字領域に対して、活字ＯＣＲを実行させる指示を行う。画像処理サーバ１０３は、ネットワーク１０５を介して、ＯＣＲサーバ１０４から手書きＯＣＲ結果及び活字ＯＣＲ結果を受信する。そして画像処理サーバ１０３は、これらを統合し、テキストデータとして、画像処理装置１０１に送信する。以降、このテキストデータを「帳票テキストデータ」と呼称する。

ＯＣＲサーバ１０４は、手書き文字を文字認識するのに適したＯＣＲ処理である手書きＯＣＲを実行する手書きＯＣＲ部１１６と、活字文字を文字認識するのに適したＯＣＲ処理である活字ＯＣＲを実行する活字ＯＣＲ部１１７としての機能を備える。ＯＣＲサーバ１０４は、画像処理サーバ１０３から手書き抽出画像を受信すると、手書きＯＣＲ部１１６において、当該手書き抽出画像に対して手書きＯＣＲを行ってテキストデータ（ＯＣＲ結果）を取得する。また、ＯＣＲサーバ１０４は、画像処理サーバ１０３から活字画像と活字領域を受信すると、活字ＯＣＲ部１１７において、活字画像中の活字領域に対して活字ＯＣＲを行ってテキストデータ（ＯＣＲ結果）を取得する。ＯＣＲサーバ１０４は、手書きＯＣＲ部１１６及び活字ＯＣＲ部１１７により取得されたテキストデータを、ネットワーク１０５を介して、画像処理サーバ１０３に送信する。

＜各装置のハードウェア構成＞
次に、上述した画像処理システム１００を構成する各装置のハードウェア構成について説明する。図２（ａ）は、画像処理装置１０１の構成例を示す。図２（ｂ）は、学習装置１０２の構成例を示す。図２（ｃ）は、画像処理サーバ１０３の構成例を示す。図２（ｄ）は、ＯＣＲサーバ１０４の構成例を示す。

図２（ａ）に示すように、画像処理装置１０１は、次を備える。ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、プリンタデバイス２０５、スキャナデバイス２０６、原稿搬送デバイス２０７、ストレージ２０８、入力デバイス２０９、表示デバイス２１０、及び外部インタフェース２１１を備える。各デバイスは、データバス２０３によって相互通信可能に接続されている。

ＣＰＵ２０１は、画像処理装置１０１を統括的に制御するためのコントローラである。ＣＰＵ２０１は、ＲＯＭ２０２に格納されているブートプログラムによりＯＳ（オペレーティングシステム）を起動する。このＯＳ上で、ストレージ２０８に記憶されているコントローラプログラムが実行される。コントローラプログラムは、画像処理装置１０１を制御するためのプログラムである。ＣＰＵ２０１は、データバス２０３によって接続されている各デバイスを統括的に制御する。ＲＡＭ２０４は、ＣＰＵ２０１の主メモリやワークエリア等の一時記憶領域として動作する。

プリンタデバイス２０５は、画像データを用紙（記録材、シート）上に印刷するものである。これには感光体ドラムや感光体ベルトなどを用いた電子写真印刷方式や、微小ノズルアレイからインクを吐出して用紙上に直接画像を印字するインクジェット方式などがあるが、どの方式でもかまわない。スキャナデバイス２０６は、ＣＣＤなどの光学読取装置を用いて紙などの原稿上の走査を行い、電気信号データを得てこれを変換し、画像データ（読取画像）を生成する。また、ＡＤＦ（オート・ドキュメント・フィーダ）などの原稿搬送デバイス２０７は、原稿搬送デバイス２０７上の原稿台に載置された原稿を１枚ずつスキャナデバイス２０６に搬送する。

ストレージ２０８は、ＨＤＤやＳＳＤなどの、読み出しと書き込みが可能な不揮発メモリであり、ここには、前述のコントローラプログラムなど、様々なデータを記録する。入力デバイス２０９は、タッチパネルやハードキーなどから構成される入力装置である。入力デバイス２０９は、ユーザの操作指示を受け付ける。そして、指示位置を含む指示情報をＣＰＵ２０１に伝達する。表示デバイス２１０は、ＬＣＤやＣＲＴなどの表示装置である。表示デバイス２１０は、ＣＰＵ２０１が生成した表示データを表示する。ＣＰＵ２０１は、入力デバイス２０９より受信した指示情報と、表示デバイス２１０に表示させている表示データとから、いずれの操作がなされたかを判定する。そしてこの判定結果に応じて、画像処理装置１０１を制御するとともに、新たな表示データを生成し表示デバイス２１０に表示させる。

外部インタフェース２１１は、ＬＡＮや電話回線、赤外線といった近接無線などのネットワークを介して、ＣＰＵ２０１の制御下で、外部機器と、画像データをはじめとする各種データの送受信を行う。外部インタフェース２１１は、学習装置１０２やＰＣ（不図示）などの外部機器より、ＰＤＬデータを受信する。ＣＰＵ２０１は、外部インタフェース２１１が受信したＰＤＬデータを解釈し、画像を生成する。生成した画像は、プリンタデバイス２０５により印刷したり、ストレージ２０８に記憶したりする。また、外部インタフェース２１１は、画像処理サーバ１０３などの外部機器より画像データを受信する。受信した画像データは、プリンタデバイス２０５により印刷したり、ストレージ２０８に記憶したり、外部インタフェース２１１により、他の外部機器に送信したりする。

図２（ｂ）の学習装置１０２は、ＣＰＵ２３１、ＲＯＭ２３２、ＲＡＭ２３４、ストレージ２３５、入力デバイス２３６、表示デバイス２３７、外部インタフェース２３８、及びＧＰＵ２３９を備える。各部は、データバス２３３を介して相互にデータを送受信することができる。

ＣＰＵ２３１は、学習装置１０２の全体を制御するためのコントローラである。ＣＰＵ２３１は、不揮発メモリであるＲＯＭ２３２に格納されているブートプログラムによりＯＳを起動する。このＯＳの上で、ストレージ２３５に記憶されている学習データ生成プログラムおよび学習プログラムを実行する。ＣＰＵ２３１が学習データ生成プログラムを実行することより、学習データ生成部１１２の機能が実現する。また、ＣＰＵ２３１が学習プログラムを実行することにより、手書き領域推定を行うためのニューラルネットワークを学習する学習部１１３としての機能が実現する。ＣＰＵ２３１は、データバス２３３などのバスを介して各部を制御する。ＲＡＭ２３４は、ＣＰＵ２３１のメインメモリやワークエリア等の一時記憶領域として動作するものである。ストレージ２３５は、読み出しと書き込みが可能な不揮発メモリであり、前述の学習データ生成プログラムや学習プログラム、および画像処理装置１０１が生成したサンプル画像を記録する。
入力デバイス２３６は、マウスやキーボードなどから構成さる入力装置である。表示デバイス２３７は、図２（ａ）を用いて説明した表示デバイス２１０と同様である。外部インタフェース２３８は、図２（ａ）を用いて説明した外部インタフェース２１１と同様である。ＧＰＵ２３９は、画像処理プロセッサであり、ＣＰＵ２３１と協調して画像データの生成やニューラルネットワークの学習を行う。

図２（ｃ）の画像処理サーバ１０３は、ＣＰＵ２６１、ＲＯＭ２６２、ＲＡＭ２６４、ストレージ２６５、入力デバイス２６６、表示デバイス２６７、及び外部インタフェース２６８を備える。各部は、データバス２６３を介して相互にデータを送受信することができる。

ＣＰＵ２６１は、画像処理サーバ１０３の全体を制御するためのコントローラである。ＣＰＵ２６１は、不揮発メモリであるＲＯＭ２６２に格納されているブートプログラムによりＯＳを起動する。このＯＳの上で、ストレージ２６５に記憶されている画像処理プログラムを実行する。ＣＰＵ２６１がこの画像処理プログラムを実行することより、処理対象画像に対する手書き領域推定の処理等を行う画像変換部１１４の機能が実現する。ＣＰＵ２６１は、データバス２６３などのバスを介して各部を制御する。ＲＡＭ２６４は、ＣＰＵ２６１のメインメモリやワークエリア等の一時記憶領域として動作するものである。ストレージ２６５は、読み出しと書き込みが可能な不揮発メモリであり、前述の画像処理プログラムを記録する。
入力デバイス２６６は、図２（ｂ）を用いて説明した入力デバイス２３６と同様である。表示デバイス２６７は、図２（ａ）を用いて説明した表示デバイス２１０と同様である。外部インタフェース２６８は、図２（ａ）を用いて説明した外部インタフェース２１１と同様である。

図２（ｄ）のＯＣＲサーバ１０４は、ＣＰＵ２９１、ＲＯＭ２９２、ＲＡＭ２９４、ストレージ２９５、入力デバイス２９６、表示デバイス２９７、外部インタフェース２９８を備える。各部は、データバス２９３を介して相互にデータを送受信することができる。

ＣＰＵ２９１は、ＯＣＲサーバ１０４の全体を制御するためのコントローラである。ＣＰＵ２９１は、不揮発メモリであるＲＯＭ２９２に格納されているブートプログラムによりＯＳを起動する。このＯＳの上で、ストレージ２９５に記憶されているＯＣＲサーバプログラムを実行する。ＣＰＵ２９１がこのＯＣＲサーバプログラムを実行することより、手書き抽出画像を認識してテキスト化する手書きＯＣＲ部１１６の機能や、活字画像から活字を認識してテキスト化する活字ＯＣＲ部１１７の機能が実現する。ＣＰＵ２９１は、データバス２９３などのバスを介して各部を制御する。ＲＡＭ２９４は、ＣＰＵ２９１のメインメモリやワークエリア等の一時記憶領域として動作するものである。ストレージ２９５は、読み出しと書き込みが可能な不揮発メモリであり、前述のＯＣＲサーバプログラムを記録する。
入力デバイス２９６は、図２（ｂ）を用いて説明した入力デバイス２３６と同様である。表示デバイス２９７は、図２（ａ）を用いて説明した表示デバイス２１０と同様である。外部インタフェース２９８は、図２（ａ）を用いて説明した外部インタフェース２１１と同様である。

＜ニューラルネットワークの構成＞
続いて、本システムにおけるニューラルネットワークの構成について説明する。図３は、ニューラルネットワークの構成を示す。本実施形態において、ニューラルネットワーク１１００は、入力された画像に対して、手書き領域推定を行うために用いられる。なお、本実施形態において、ニューラルネットワーク１１００への入力画像は、グレースケール（１ｃｈ）の画像とするが、例えば、カラー（３ｃｈ）の画像など、他の画像形式でもよい。

ニューラルネットワーク１１００は、図３に示すように、エンコーダ部１１０１とデコーダ部１１２２で構成される。ニューラルネットワーク１１００に画像が入力されると、エンコーダ部１１０１の計算が実行される。そして、その計算結果として得られる特徴マップがデコーダ部１１２２に入力される。そして、デコーダ部１１２２の計算を経て手書き領域推定結果が出力される。
エンコーダ部１１０１は、畳み込み層ＥＣ１，ＥＣ２，ＥＣ３，ＥＣ４と、プーリング層ＥＰ１，ＥＰ２，ＥＰ３で構成される。畳み込み層ＥＣ１，ＥＣ２，ＥＣ３，ＥＣ４は、それぞれ入力に対して所定のカーネルサイズのフィルタで畳み込み計算を行って特徴を抽出し、所定のチャネル数分の特徴マップを出力する。ここで、特徴マップとは、手書き記入の特徴情報の集合である。畳み込み層ＥＣ１，ＥＣ２，ＥＣ３，ＥＣ４とプーリング層ＥＰ１，ＥＰ２，ＥＰ３の出力は特徴マップである。なお、畳み込み層ＥＣ１には入力画像が、畳み込み層ＥＣ２，ＥＣ３，ＥＣ４には直前の層（後述のプーリング層）が出力する特徴マップが入力される。また、各畳み込み層の出力は、活性化関数を通して非線形変換する。活性化関数には、ＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）やＨｙｐｅｒｂｏｌｉｃＴａｎｇｅｎｔなど、既知の手法を用いることができる。プーリング層ＥＰ１，ＥＰ２，ＥＰ３は、それぞれ直前の畳み込み層ＥＣ１，ＥＣ２，ＥＣ３が出力した各特徴マップに対して、所定のカーネルサイズ領域毎の最大値を出力することで、入力された特徴マップからより重要な特徴情報を抽出する。このようにして入力画像を、手書き領域推定に必要な特徴情報に変換する。なお、本実施形態では、例えば、プーリング層ＥＰ１，ＥＰ２，ＥＰ３は、それぞれ入力された各特徴マップの解像度を半分にして出力する。

デコーダ部１１２２は、逆畳み込み層ＤＤｒ１，ＤＤｒ２，ＤＤｒ３，ＤＤｒ４と、アップサンプリング層ＤＵｒ１，ＤＵｒ２，ＤＵｒ３で構成される。逆畳み込み層ＤＤｒ１，ＤＤｒ２，ＤＤｒ３，ＤＤｒ４は、それぞれ入力された各特徴マップに対して指定のカーネルサイズのフィルタで逆畳み込み計算を行う。そして、特徴マップ内の特徴情報を変換して、入力画像上の各画素のクラス（手書き領域であるか否か）を推定していく。各逆畳み込み層の出力は、活性化関数を通して非線形変換する。アップサンプリング層ＤＵｒ１，ＤＵｒ２，ＤＵｒ３は、それぞれ直前の逆畳み込み層ＤＤｒ１，ＤＤｒ２，ＤＤｒ３が出力した各特徴マップについて解像度を上げ、プーリング層ＥＰ１，ＥＰ２，ＥＰ３で落とした解像度を復元する。なお、本実施形態では、例えば、アップサンプリング層ＤＵｒ１，ＤＵｒ２，ＤＵｒ３は、それぞれ入力された各特徴マップの解像度を２倍にして出力する。逆畳み込み層ＤＤｒ４は、入力画像の各画素のクラス確率値を推定したクラス毎の画像を出力する（出力枚数はチャネル数＝分類したいクラス数）。この逆畳み込み層ＤＤｒ４からの出力を正規化してデコーダ部１１２２の最終的な出力を得ることができる。正規化の手段として、例えば、ソフトマックス関数を用いることができる。この場合、逆畳み込み層ＤＤｒ４からの出力を確率分布に正規化し、画素毎に各クラスの確率を表したマップを出力する。このマップを参照し、手書き領域であることを示すクラスの確率値が最も高くなっている画素について、入力画像中の対応する画素を抽出することで手書き領域を示す画像を生成する。あるいは、逆畳み込み層ＤＤｒ４からの出力にａｒｇｍａｘ関数を適用してもよい。この場合、入力画像と同じサイズである１チャネルの画像が得られる。当該画像の各画素には、入力画像の該当する画素がどのクラスに属するかを示す値（クラスＩＤ）が格納される。当該画像の画素であって手書き領域クラスに属することを示す値の画素に対応する入力画像の画素を抽出することにより手書き領域を示す画像を生成する。このように、エンコーダ部１１０１とデコーダ部１１２２とから成るネットワークにより、手書き領域推定がなされる。

以上のデコーダ部１１２２の計算にあたり、プーリング層ＥＰ１，ＥＰ２，ＥＰ３を経て特徴マップの解像度を落としているため、デコーダ部１１２２が計算する特徴マップは局所的な特徴が失われている。そこで、エンコーダ部１１０１が処理過程で抽出した特徴マップをデコーダ部１１２２に渡して、クラス確率値の推定精度を向上させる。すなわち、アップサンプリング層ＤＵｒ１の出力に畳み込み層ＥＣ３の出力を、アップサンプリング層ＤＵｒ２の出力に畳み込み層ＥＣ２の出力を、アップサンプリング層ＤＵｒ３の出力に畳み込み層ＥＣ１の出力を結合する。この処理手法はスキップコネクションと呼ばれることがある。

なお、本実施形態では、エンコーダ部１１０１の各プーリング層の間には、一つの畳み込み層を配置する例を示したが、複数の畳み込み層を配置してもよい。また、デコーダ部１１２２の各アップサンプリング層の間には、一つの逆畳み込み層を配置する例を示したが、複数の逆畳み込み層を配置してもよい。また、畳み込み層とそれに続くプーリング層を一つの構成単位としてとらえた場合、本実施形態では、エンコーダ部１１０１に３つの当該構成単位を設けたが、これよりも多い、あるいは少ない数の当該構成単位を設けてもよい。また、アップサンプリング層とそれに続く逆畳み込み層を一つの構成単位としてとらえた場合、本実施形態では、デコーダ部１１２２には３つの当該構成単位を設けた。しかし、構成単位は３つに限らず、これよりも多い、あるいは少ない数の当該構成単位を設けてもよい。また、本実施形態では、プーリング層として最大値を出力する例を示したが、カーネルに該当する特徴マップ画素の平均値を出力するものなど、他の形態のものを用いてもよい。なお、本実施形態では、デコーダ部１１２２を、逆畳み込み層を用いて構成したが、畳み込み層を用いて構成してもよい。

なお、本実施形態では、手書き領域推定をいわゆるクラス分類として構成した例を示したが、例えば回帰推定として構成してもよい。すなわち、デコーダ部１１２２の出力を、各画素が、入力画像の対応する画素に対する、手書き領域であることを示す確率値となるよう構成する。この場合、デコーダ部１１２２の出力を１チャネルの特徴マップとする。また、当該特徴マップにシグモイド関数などを適用し、各画素の値が０．０から１．０の間の数値、すなわち、手書き領域である確率値となるようにする。

＜学習フェーズのシーケンス＞
続いて、画像処理システム１００により実行される学習フェーズのシーケンスについて説明する。図４Ａは、本実施形態に係る学習フェーズのシーケンス図である。以下、各工程（ステップ）について先頭にＳを付けて表記することで、工程（ステップ）の表記を省略する。
Ｓ４０１にて、ユーザが画像処理装置１０１に対して原稿の読取指示を行うと、Ｓ４０２にて、画像取得部１１１が、原稿を読み取ってサンプル画像を生成する。Ｓ４０３にて、画像取得部１１１が、生成されたサンプル画像を、学習データ生成部１１２に送信する。なお、サンプル画像にはＩＤ情報が付与されてもよい。このＩＤ情報は、例えば画像取得部１１１として機能する画像処理装置１０１を識別するための情報である。なお、ＩＤ情報として、画像処理装置１０１を操作するユーザを識別するためのユーザ識別情報や、ユーザが所属するグループを識別するためのグループ識別情報を用いてもよい。

次にＳ４０４にて、学習データ生成部１１２が、画像処理装置１０１から送信されたサンプル画像を受信すると、当該サンプル画像をＩＤ情報に紐づけて画像蓄積部１１５に蓄積する。Ｓ４０５にて、ユーザが学習装置１０２に対してサンプル画像に関する正解データの付与指示を行うと、Ｓ４０６にて、学習データ生成部１１２が、当該正解データを取得して、サンプル画像に紐づけて画像蓄積部１１５に蓄積する。正解データは、ニューラルネットワーク１１００の学習に用いるデータである。正解データの付与方法については後述する。

次にＳ４０７にて、学習データ生成部１１２は、このようにして蓄積したデータ（サンプル画像と正解データ）に基づいて学習データを生成する。このとき、学習データ生成部１１２は、特定のＩＤ情報に基づくサンプル画像のみを用いて学習データを生成してもよい。その後Ｓ４０８にて、学習データ生成部１１２は、学習部１１３に学習データを送信する。なお、特定のＩＤ情報に基づくデータのみを用いて学習データを生成した場合、当該ＩＤ情報も併せて送信する。
次にＳ４０９にて、学習部１１３は、受信した学習データに基づき、学習処理を行い、学習モデルを更新する。学習部１１３は、ＩＤ情報ごとに学習モデルを保持し、対応する学習データのみで学習を行ってもよい。このようにＩＤ情報と学習モデルを紐づけることで、特定の利用環境に特化した学習モデルを構築することができる。以上のようにして、学習フェーズにおける一連のシーケンスが終了する。これにより、ユーザにより付与された正解データに基づき生成された学習データを用いて学習された学習結果が学習装置１０２に保持される。

＜利用フェーズのシーケンス＞
続いて、画像処理システム１００における利用フェーズのシーケンスについて説明する。図４Ｂは、本実施形態に係る利用フェーズのシーケンス図である。
Ｓ３５１にて、ユーザが原稿（帳票）の読取指示を行うと、Ｓ３５２にて、画像取得部１１１は、原稿を読み取って処理対象画像を生成する。この処理対象画像としての読取画像は、例えば図５（ａ）に示す帳票４００、及び図５（ｂ）に示す帳票４５０である。これらの帳票は、氏名の記入欄（氏記入欄４０１と名記入欄４０２、及び氏名記入欄４５１）や、住所記入欄４０３，４５２、電話番号記入欄４０４，４５３を備え、各記入欄には氏名や住所、電話番号が手書きで記入されている。また、各記入欄に対応する項目名の見出し４１１，４１２，４１３，４１４，４６１，４６２，４６３には、原稿に予め印刷されていた活字の画像が含まれている。なお、これら記入欄の配置（帳票のレイアウト）は、帳票作成元により決定されるため、読み取り対象の帳票ごとに異なる画像となる。本実施形態において、読取画像は、いわゆる非定型帳票の画像である。

Ｓ３５３にて、画像取得部１１１は、上述のようにして読み取られた処理対象画像を、画像変換部１１４に送信する。なお、この処理対象画像には、ＩＤ情報が付与されてもよい。Ｓ３５４にて、画像変換部１１４は、処理対象画像を受信すると、処理対象画像のテキスト化指示を受け付ける。このとき、画像変換部１１４は、画像取得部１１１として機能する画像処理装置１０１を識別するための情報等をデータの返信先として記憶する。テキスト化指示を受け付けると、Ｓ３５５にて、画像変換部１１４は、最新の学習モデルを学習部１１３に要求する。これに応じて、Ｓ３５６にて、学習部１１３は、最新の学習モデルを画像変換部１１４に送信する。なお、画像変換部１１４からの要求時にＩＤ情報が指定されていた場合は、ＩＤ情報に対応する学習モデルを送信する。Ｓ３５７にて、画像変換部１１４は、取得した学習モデルに基づいて、処理対象画像に対して、手書き領域推定を行う。そしてＳ３５８にて、画像変換部１１４は、Ｓ３５７により推定された手書き領域毎に手書き抽出画像を生成して、当該手書き抽出画像を手書きＯＣＲ部１１６に送信する。Ｓ３５９にて、手書きＯＣＲ部１１６は、手書き抽出画像について手書きＯＣＲ処理を施し、テキストデータ（手書き）を取得する。そしてＳ３６０にて、手書きＯＣＲ部１１６は、取得したテキストデータ（手書き）を画像変換部１１４に送信する。

続けてＳ３６１にて、画像変換部１１４は、処理対象画像から活字画像と活字領域を生成する。そしてＳ３６２にて、画像変換部１１４は、活字ＯＣＲ部１１７に活字画像と活字領域を送信する。Ｓ３６３にて、活字ＯＣＲ部１１７は、活字画像の活字領域に活字ＯＣＲ処理を施し、テキストデータ（活字）を取得する。そしてＳ３６４にて、活字ＯＣＲ部１１７は、取得したテキストデータ（活字）を画像変換部１１４に送信する。その後Ｓ３６５にて、画像変換部１１４は、テキストデータ（手書き）、及びテキストデータ（活字）に少なくとも基づいて帳票テキストデータを生成する。Ｓ３６６にて、画像変換部１１４は、生成した帳票テキストデータを画像取得部１１１に送信する。Ｓ３６７にて、画像取得部１１１は、帳票テキストデータを取得すると、取得した帳票テキストデータを反映した利用画面を表示デバイス２１０に表示し、ユーザに提示する。その後、画像取得部１１１は、帳票テキストデータの利用用途に応じて、帳票テキストデータを出力する。例えば、画像取得部１１１は、別体外部の業務システム（不図示）に送信したり、印刷したりして出力する。

＜操作画面＞
図４Ａの学習シーケンスにおけるＳ４０１に示したユーザの指示は、次のような操作画面で行われる。図６（ａ）は、本実施形態に係る学習用スキャン画面を示す図である。学習用スキャン画面５００は、画像処理装置１０１の表示デバイス２１０に表示される画面の一例である。図６（ａ）に示すように、学習用スキャン画面５００は、プレビュー領域５０１、スキャンボタン５０２、及び送信開始ボタン５０３を備える。

スキャンボタン５０２は、スキャナデバイス２０６にセットされた原稿の読取開始を指示するためのボタンである。スキャンが完了すると、サンプル画像が生成され、プレビュー領域５０１に表示される。スキャナデバイス２０６に別の原稿をセットし、スキャンボタン５０２を再び押すことで、画像処理装置１０１は、複数のサンプル画像をまとめて保持しておくこともできる。原稿が読み取られると、送信開始ボタン５０３が指示可能となる。送信開始ボタン５０３が指示されると、サンプル画像が学習装置１０２に送信される。

また、図４Ａの学習シーケンスにおけるＳ４０５に示したユーザの指示は、次のような操作画面で行われる。図６（ｂ）は、正解データ作成画面を示す図である。ユーザが、正解データ作成画面の表示内容に基づいて操作することで、正解データが入力される。正解データ作成画面５２０は、学習装置１０２の表示デバイス２３７に表示される画面の一例である。なお、正解データ作成画面５２０は、学習装置１０２にネットワークを介して接続された他の装置（ＰＣ等）の表示デバイスに表示され、当該他の装置を介して学習装置１０２に対する指示を行うように構成してもよい。図６（ｂ）に示すように、正解データ作成画面５２０は、画像表示領域５２１、画像選択ボタン５２２、拡大ボタン５２３、縮小ボタン５２４、及び保存ボタン５２５を備える。

画像選択ボタン５２２は、画像処理装置１０１から受信し、画像蓄積部１１５に蓄積されているサンプル画像を選択するためのボタンである。画像選択ボタン５２２が指示されると、選択画面（不図示）が表示され、サンプル画像を選択可能になる。サンプル画像が選択されると、画像表示領域５２１に選択したサンプル画像が表示される。ユーザが画像表示領域５２１に表示されたサンプル画像に対して操作することで、正解データが入力される。

拡大ボタン５２３と縮小ボタン５２４は、画像表示領域５２１の表示を、拡大あるいは縮小するためのボタンである。拡大ボタン５２３や縮小ボタン５２４が指示されると、ユーザが正解データを作成しやすいよう、学習データ生成部１１２が、画像表示領域５２１に表示されているサンプル画像を拡大および縮小して表示する。
図６（ｃ）は、図６（ｂ）の画像表示領域５２１の表示内容の一部について正解データの入力を行う際の表示例を示す図である。ユーザは、図６（ｃ）に示すように、入力デバイス２３６を介してマウスカーソルを操作し、画像表示領域５２１に表示されているサンプル画像中の画素を選択する。これは次のように操作して行う。
まず、マウスカーソルで操作して画素をなぞるように選択する。当該画素群により成る閉領域内の画素が手書き領域の正解データとして選択される。このときユーザは、手書き領域の正解データを、連続した画素集合となるよう選択する。また、ひとつの記入項目の手書き記入を構成する手書きストロークをすべて内包するように選択する（文字間で手書き領域が分離しないよう、文字と文字は結ばれるよう選択する）。また、印字画素を含まないように選択する。さらに、上記手書きストロークを内包する外接矩形の面積よりも、選択した画素の面積が少なくなるように選択する。この面積の減少が、当該外接矩形の外周部の欠損により生じるよう選択する。

学習データ生成部１１２は、以上のような操作を受け付けると、上記操作により選択されたサンプル画像上の画素位置を記録する。すなわち、手書き領域推定の正解データは、サンプル画像上の、手書き領域に該当する画素の位置情報である。
保存ボタン５２５は、作成された正解データの保存するためのボタンである。手書き領域推定の正解データは、次のような画像として、画像蓄積部１１５に蓄積される。
処理対象のサンプル画像と同じサイズ（幅および高さ）を有する。ユーザにより選択された手書き領域に該当する画素の値は、手書き領域であることを示す値（例えば２５５、以降も同様）である。また、それ以外の画素の値は、手書き領域ではないことを示す値（例えば０、以降も同様）である。以降、このような手書き領域推定の正解データである画像を「正解画像」と呼称する。図５（ｃ）は、図５（ａ）に示す帳票４００に対して生成された正解画像の例を示す。

また、図４Ｂの利用シーケンスにおけるＳ３５１に示したユーザの指示は、次のような操作画面で行われる。図６（ｄ）は、帳票処理画面を示す図である。帳票処理画面５４０は、画像処理装置１０１の表示デバイス２１０に表示される画面の一例である。図５（ｄ）に示すように、帳票処理画面５４０は、プレビュー領域５４１、スキャンボタン５４２、及び送信開始ボタン５４３を備える。
スキャンボタン５４２は、スキャナデバイス２０６にセットされた原稿の読取開始を指示するためのボタンである。スキャンが完了すると、処理対象画像が生成され、プレビュー領域５４１に表示される。原稿が読み取られると、送信開始ボタン５４３が指示可能となる。送信開始ボタン５４３が指示されると、処理対象画像が画像処理サーバ１０３に送信される。

続いて、図７～図９を用いて、図４Ａに示す本実施形態に係る学習フェーズのシーケンスにおいて、各装置により実行される処理の詳細について説明する。
＜サンプル画像生成処理＞
まず、画像処理装置１０１によるサンプル画像生成処理について説明する。図７（ａ）は、本実施形態に係るサンプル画像生成処理を示すフローチャートである。サンプル画像生成処理は、画像処理装置１０１のＣＰＵ２０１が、ストレージ２０８に記録されているコントローラプログラムを読み出し、ＲＡＭ２０４に展開して実行することで実現される。これは、ユーザが、画像処理装置１０１の入力デバイス２０９を操作することにより開始される。

まずＳ６０１において、ＣＰＵ２０１は、原稿のスキャン指示がされたか否かを判定する。ＣＰＵ２０１が入力デバイス２０９を介して原稿をスキャンするための所定の操作（スキャンボタン５０２の指示）を検知した場合、ＹＥＳと判定し、処理はＳ６０２に遷移する。そうでない場合、ＣＰＵ２０１がＮＯと判定し、一連のフローチャートの処理が終了する。
Ｓ６０２において、ＣＰＵ２０１は、スキャナデバイス２０６や原稿搬送デバイス２０７を制御して、原稿をスキャンしてサンプル画像を生成する。サンプル画像は、グレースケールの画像データとして生成される。
Ｓ６０３において、ＣＰＵ２０１は、Ｓ６０２で生成したサンプル画像を、外部インタフェース２１１を介して、学習装置１０２に送信する。その後、一連のフローチャートの処理が終了する。
以上のようなサンプル画像生成処理によれば、画像処理装置１０１は、学習用として読み取った原稿のサンプル画像を生成して、学習装置１０２に送信することができる。

＜サンプル画像受信処理＞
次に、学習装置１０２によるサンプル画像受信処理について説明する。図７（ｂ）は、本実施形態に係るサンプル画像受信処理を示すフローチャートである。サンプル画像受信処理は、学習装置１０２のＣＰＵ２３１が、ストレージ２３５に記録されている学習データ生成プログラムを読み出し、ＲＡＭ２３４に展開して実行することで実現される。これは、ユーザが、学習装置１０２の電源をＯＮ（オン）にすると開始される。

Ｓ６２１において、ＣＰＵ２３１は、サンプル画像を受信したか否かを判定する。ＣＰＵ２３１が外部インタフェース２３８を介して画像データを受信していた場合、ＹＥＳと判定し、処理はＳ６２２に遷移する。そうでない場合、ＣＰＵ２３１がＮＯと判定し、一連のフローチャートの処理が終了する。
Ｓ６２２において、ＣＰＵ２３１は、受信したサンプル画像を、ストレージ２３５の所定の領域に記録する。その後、一連のフローチャートの処理が終了する。
以上のようなサンプル画像受信処理によれば、画像処理装置１０１で生成されたサンプル画像を、学習装置１０２に蓄積することができる。

＜正解データ生成処理＞
次に、学習装置１０２による正解データ生成処理について説明する。図７（ｃ）は、正解データ生成処理を示すフローチャートである。正解データ生成処理は、学習装置１０２の学習データ生成部１１２により実現される。これは、ユーザが、学習装置１０２の入力デバイス２３６を介して、所定の操作を行うことで開始される。
Ｓ６４１において、ＣＰＵ２３１は、サンプル画像の選択指示がされたか否かを判定する。ＣＰＵ２３１が入力デバイス２３６を介してサンプル画像を選択するための所定の操作（図６（ｂ）の画像選択ボタン５２２の指示）を検知した場合、ＹＥＳと判定し、処理はＳ６４２に遷移する。そうでない場合、ＣＰＵ２３１がＮＯと判定し、処理はＳ６４３に遷移する。
Ｓ６４２において、ＣＰＵ２３１は、Ｓ６４１でユーザが選択したサンプル画像を、ストレージ２３５から読み出して図６（ｂ）の画像表示領域５２１に表示することで、ユーザに対して提示する。
Ｓ６４３において、ＣＰＵ２３１は、ユーザが正解データの入力指示を行ったか否かを判定する。ＣＰＵ２３１が入力デバイス２３６を介して、前述したように、サンプル画像上の領域を手書き領域として選択する操作を検知した場合、ＹＥＳと判定し、処理はＳ６４４に遷移する。そうでない場合、ＣＰＵ２３１がＮＯと判定し、処理はＳ６４５に遷移する。
Ｓ６４４において、ＣＰＵ２３１は、ユーザの操作により入力された手書き領域推定の正解データをＲＡＭ２３４に一時的に記憶する。前述のとおり、手書き領域推定の正解データは、サンプル画像上の、手書き領域に該当する画素の位置情報である。

次にＳ６４５において、ＣＰＵ２３１は、正解データの保存指示がされたか否かを判定する。ＣＰＵ２３１が入力デバイス２３６を介して、正解データを保存するための所定の操作（図６（ｂ）の保存ボタン５２５の指示）を検知した場合、ＹＥＳと判定し、処理はＳ６４６に遷移する。そうでない場合、ＣＰＵ２３１がＮＯと判定し、ＲＡＭ２３４に記憶されたデータを破棄して、一連のフローチャートの処理が終了する。
Ｓ６４６において、ＣＰＵ２３１は、手書き領域推定の正解データを用いて、正解画像を生成して保存する。具体的には、ＣＰＵ２３１は、次のようにして正解画像を生成する。まず、ＣＰＵ２３１は、正解画像として、Ｓ６４２で読み出したサンプル画像と同じサイズの画像を生成する。当該画像のすべての画素を、手書き領域ではないことを示す値にする。次いで、ＣＰＵ２３１は、Ｓ６４４にてＲＡＭ２３４に一時的に記憶した画素の位置情報を参照し、正解画像上の該当する画素の値を、手書き領域であることを示す値に変更する。ＣＰＵ２３１は、このようにして生成した正解画像を、Ｓ６４２で読み出したサンプル画像と関連付けて、ストレージ２３５の所定の領域に保存する。その後、一連のフローチャートの処理が終了する。
ＣＰＵ２３１は、正解データ生成処理を終了するための所定の操作がユーザから入力されるまで、Ｓ６４１～Ｓ６４６の処理を繰り返し実行する。
以上のような正解データ生成処理によれば、学習装置１０２は、学習データの生成に必要な正解画像を生成することができる。

＜学習データ生成処理＞
次に、学習装置１０２による学習データ生成処理について説明する。図８（ａ）は、本実施形態に係る学習データ生成処理を示すフローチャートである。学習データ生成処理は、学習装置１０２の学習データ生成部１１２により実現される。これは、ユーザが、画像処理装置１０１の入力デバイス２０９を介して、所定の操作を行うことで開始される。
まずＳ７０１において、ＣＰＵ２３１は、ストレージ２３５に記憶しているサンプル画像を選択して読み出す。図７（ｂ）のＳ６２２の処理により、ストレージ２３５には複数のサンプル画像が記録されているので、その中からランダムにひとつを選択する。
Ｓ７０２において、ＣＰＵ２３１は、ストレージ２３５に記憶している正解画像を読み出す。図７（ｃ）のＳ６４６の処理により、Ｓ７０１で読み出したサンプル画像に関連付けられた正解画像がストレージ２３５に記憶されているので、これを読み出す。
Ｓ７０３において、ＣＰＵ２３１は、Ｓ７０１で読み出したサンプル画像中の一部（例えば、縦×横＝２５６×２５６の大きさ）を切り出して、学習データに用いる入力画像を生成する。なお、切り出し位置はランダムに決定する。

Ｓ７０４において、ＣＰＵ２３１は、Ｓ７０２で読み出した正解画像の一部を切り出して、手書き領域推定の学習データに用いる正解ラベル画像を生成する。なお、切り出す位置およびサイズは、Ｓ７０３でサンプル画像から入力画像を切り出した位置およびサイズと同様とする。
Ｓ７０５において、ＣＰＵ２３１は、Ｓ７０３で生成した入力画像と、Ｓ７０４で生成した正解ラベル画像とを対応付け、手書き領域推定の学習データとしてストレージ２３５の所定の領域に保存する。図９は、本実施形態における学習データの一例である。学習データは、図９（ａ）に示すような入力画像と、図９（ｂ）に示すような正解ラベル画像がセットにされたデータである。その後、一連のフローチャートの処理が終了する。
ＣＰＵ２３１は、予め決定された学習データの数が生成されるまで、Ｓ７０１～Ｓ７０５の処理を繰り返し実行する。

以上のような学習データ生成処理によれば、ニューラルネットワーク１１００の学習データを生成することができる。なお、ニューラルネットワーク１１００の汎用性を高めるために、学習データの加工を行ってもよい。例えば、入力画像を所定の範囲（例えば、５０％～１５０％の間）からランダムに選択して決定する変倍率で変倍する。正解ラベル画像も同様に変倍する。あるいは、入力画像を所定の範囲（例えば、－１０度～１０度の間）からランダムに選択して決定する回転角度で回転する。正解ラベル画像も同様に回転する。変倍や回転を考慮する場合には、Ｓ７０３やＳ７０４で入力画像や正解ラベル画像を切り出す際に、少し大きめのサイズ（例えば、縦横２倍の大きさとして、縦×横＝５１２×５１２の大きさ）で切り出す。そして、変倍および回転後に、最終的な入力画像や正解ラベル画像のサイズ（例えば、縦×横＝２５６×２５６）となるよう中心部分から切り出す。あるいは、入力画像の各画素の輝度を変更して加工してもよい。すなわち、ガンマ補正を用いて入力画像の輝度を変更する。ガンマ値は所定の範囲（例えば、０．１～１０．０の間）からランダムに選択して決定する。

＜学習処理＞
次に、学習装置１０２による学習処理について説明する。図８（ｂ）は、本実施形態に係る学習処理を示すフローチャートである。学習処理は、学習装置１０２の学習部１１３により実現される。これは、ユーザが、学習装置１０２の入力デバイス２３６を介して、所定の操作を行うことで開始される。なお、本実施形態において、ニューラルネットワーク１１００の学習には、ミニバッチ法を用いるものとする。
まずＳ７３１において、ＣＰＵ２３１は、ニューラルネットワーク１１００を初期化する。すなわち、ＣＰＵ２３１は、ニューラルネットワーク１１００を構築し、ニューラルネットワーク１１００に含まれるパラメータの値を、ランダムに決定して初期化する。
Ｓ７３２において、ＣＰＵ２３１は、学習データを取得する。ＣＰＵ２３１は、図８（ａ）のフローチャートに示した、学習データ生成処理を実行して、所定の数（ミニバッチサイズ、例えば１０）の学習データを取得する。なお、事前の学習データ生成処理によって生成した大量の学習データから、ミニバッチサイズ分の学習データを取得してもよい。
Ｓ７３３において、ＣＰＵ２３１は、ニューラルネットワーク１１００のエンコーダ部１１０１の出力を得る。具体的には、ＣＰＵ２３１は、手書き領域推定の各学習データに含まれる入力画像をニューラルネットワーク１１００に入力して、エンコーダ部１１１２の出力する特徴マップを得る。

Ｓ７３４において、ＣＰＵ２３１は、ニューラルネットワーク１１００の手書き領域推定結果の誤差を算出する。具体的には、ＣＰＵ２３１は、Ｓ７３３で取得した特徴マップを、デコーダ部１１２２に入力してデコーダ部１１２２の出力を得る。当該出力は、入力画像と同じ画像サイズであり、予測結果として、手書き領域であると判定された画素は、手書き領域を示す値を有し、手書き領域ではないと判定された画素は、手書き領域ではないことを示す値を有する画像である。そして、ＣＰＵ２３１は、当該出力と学習データに含まれる正解ラベル画像との差を評価して誤差を求める。当該評価には、指標として交差エントロピーを用いることができる。
Ｓ７３５において、ＣＰＵ２３１は、ニューラルネットワーク１１００のパラメータを調整する。具体的には、ＣＰＵ２３１は、Ｓ７３４において算出した誤差をもとに、バックプロパゲーション法によってニューラルネットワーク１１００のパラメータの値を変更する。
Ｓ７３６において、ＣＰＵ２３１は、学習を終了するか否かを判定する。これは次のようにして行う。ＣＰＵ２３１は、Ｓ７３２～Ｓ７３５の処理を、所定回数（例えば、６００００回）行ったか否かを判定する。当該所定回数は、本フローチャートの開始時にユーザの操作入力などにより、予め決定することができる。ＣＰＵ２３１が処理回数が所定回数に達したと判定した場合、処理はＳ７３７に遷移する。ＣＰＵ２３１が処理回数が所定回数に達していないと判定した場合、処理はＳ７３２に遷移し、ＣＰＵ２３１はニューラルネットワーク１１００の学習を続ける。
Ｓ７３７において、ＣＰＵ２３１は、学習結果として、Ｓ７３５において調整したニューラルネットワーク１１００のパラメータを、画像処理サーバ１０３に送信する。
以上のようにして、学習データを用いたニューラルネットワーク１１００の学習処理が行われる。

続いて、図１０を用いて、図４Ｂに示す利用フェーズのシーケンスにおいて、画像処理サーバ１０３により実行される処理の詳細について説明する。
まず、画像処理装置１０１が、手書き記入がされた帳票をスキャンして処理対象画像を生成し、画像処理サーバ１０３に送信して、帳票テキスト化を依頼する。処理対象画像は、グレースケールの画像データとして生成される。なお、学習に用いられた入力画像が、カラー画像など他の画像形式であれば、他の画像形式で生成されても構わない。

＜帳票テキスト化処理＞
次に、画像処理サーバ１０３による帳票テキスト化処理について説明する。図１０は、帳票テキスト化処理を示すフローチャートである。図１１Ａ及び図１１Ｂは、帳票テキスト化処理において生成されるデータについて説明するための図である。画像変換部１１４として機能する画像処理サーバ１０３は、画像処理装置１０１から処理対象画像（読取画像）を受信し、当該読取画像に含まれる活字や手書き文字に対してＯＣＲ処理を施してテキストデータを取得する。活字に対するＯＣＲは、ＯＣＲサーバ１０４の活字ＯＣＲ部１１７に実行させる。手書き文字に対するＯＣＲは、ＯＣＲサーバ１０４の手書きＯＣＲ部１１６に実行させる。帳票テキスト化処理は、画像処理サーバ１０３のＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理プログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。これは、ユーザが、画像処理サーバ１０３の電源をＯＮ（オン）にすると開始される。

まずＳ９５１において、ＣＰＵ２６１は、図３に示す手書き領域推定を行うニューラルネットワーク１１００をロードする。具体的にはまず、ＣＰＵ２６１は、図８（ｂ）のフローチャートにおける、Ｓ７３１の場合と同一のニューラルネットワーク１１００を構築する。そして、ＣＰＵ２６１は、Ｓ７３７にて学習装置１０２から送信された学習結果（ニューラルネットワーク１１００のパラメータ）を、構築したニューラルネットワーク１１００に反映する。
Ｓ９５２において、ＣＰＵ２６１は、外部インタフェース２６８を介して、画像処理装置１０１から処理対象画像を受信したか否かを判定する。ＣＰＵ２６１が処理対象画像を受信していた場合、ＹＥＳと判定し、処理はＳ９５３に遷移する。そうでない場合、ＣＰＵ２６１がＮＯと判定し、処理対象画像の受信待機状態を継続しつつ、一連のフローチャートの処理が終了する。例として、ここでは、処理対象画像として、図１１Ａの帳票４００（図５（ａ）に示した帳票４００と同様）を受信したものとする。
Ｓ９５３において、ＣＰＵ２６１は、画像処理装置１０１から受信した処理対象画像を、Ｓ９５１で構築したニューラルネットワーク１１００に入力し、エンコーダ部１１０２が出力する特徴マップを得る。

Ｓ９５４において、ＣＰＵ２６１は、画像処理装置１０１から受信した処理対象画像から手書き領域を推定する。具体的には、ＣＰＵ２６１は、Ｓ９５３で取得した特徴マップをデコーダ部１１２２に入力し、手書き領域を推定させる。ニューラルネットワーク１１００の出力として、次のような画像データが得られる。処理対象画像と同じ画像サイズであり、予測結果として手書き領域であると判定された画素に対して、手書き領域であること示す値が記録され、手書き領域ではないと判定された画素に対して、手書き領域ではないことを示す値が記録された画像データが得られる。なお、前述したように、図４ＡのＳ４０５にて、ユーザは手書き領域推定の正解データが、連続した画素集合となるよう選択した。また、ひとつの記入項目を構成する手書きストロークをすべて内包するように、且つ印字画素を含まないように選択した。さらに、上記手書きストロークを内包する外接矩形の面積よりも、選択した画素の面積が少なくなるように選択した。この面積の減少は当該外接矩形の外周部の欠損により生じるよう選択した。つまり、外接矩形の領域に比して、不要な画素をより含まないよう手書き領域の画素を選択した。したがって、ニューラルネットワーク１１００は、このような正解データを用いて学習しているため、上述のような画素集合を手書き領域の推定結果として出力する。図１１Ａの画像１００２に、処理対象画像（帳票４００）に対して推定された手書き領域を例示する。

Ｓ９５５において、ＣＰＵ２６１は、処理対象画像中におけるＳ９５４で推定した手書き領域内の画素を取得して、手書き抽出画像を生成する。ニューラルネットワーク１１００は、上述の学習データを用いて学習されているため、手書き部分の周囲の印字画素を含まないよう手書き領域の画素群が推定され、手書き画素から構成される部分画像を生成することができる。ＣＰＵ２６１は、取得した画素群に対する外接矩形を算出し、取得した画素群の当該外接矩形に対する欠損部分を白画素で埋めることで、矩形状の画像に成形する。これにより図１１Ａに示す手書き抽出画像１００１が得られる。手書き抽出画像は、推定された手書き領域の数だけ出力される。
Ｓ９５６において、ＣＰＵ２６１は、Ｓ９５５で生成したすべての手書き抽出画像を、外部インタフェース２６８を介して、手書きＯＣＲ部１１６に送信する。そして、すべての手書き抽出画像に対して手書きＯＣＲを実行させる。手書きＯＣＲには公知の技術を適用し実現することができる。手書き抽出画像を手書きＯＣＲすることにより、手書きＯＣＲ部１１６が手書き画素と共に不要な印刷画素を参照することを低減し、これにより手書きＯＣＲの精度を向上させることができる。また、推定した手書き領域毎に手書きＯＣＲすることにより、記入項目ごとの手書きＯＣＲ結果を得ることができる。

Ｓ９５７において、ＣＰＵ２６１は、手書きＯＣＲ部１１６から、すべての手書きＯＣＲ結果を受信したか否かを判定する。手書きＯＣＲ結果とは、手書きＯＣＲ部１１６が、手書き領域に含まれていた手書き文字を認識して得たテキストデータである。ＣＰＵ２６１が外部インタフェース２６８を介して手書きＯＣＲ部１１６から手書きＯＣＲ結果を受信していた場合、ＹＥＳと判定し、処理はＳ９５８に遷移する。そうでない場合、ＣＰＵ２６１がＳ９５７の処理を繰り返す。ここまでの処理によって、手書き領域（画素集合）と当該手書き領域に含まれていた手書き文字を認識して得たテキストデータが得られた。ここでＣＰＵ２６１は、画素集合である手書き領域について、当該手書き領域を内包する外接矩形を取得する。以降、これを「手書き領域矩形」と呼称する。ＣＰＵ２６１は、上記テキストデータと手書き領域矩形の座標情報とを対応付けて、図１１Ｂに示すような手書き情報テーブル１００３としてＲＡＭ２６４等に記憶しておく。

Ｓ９５８において、ＣＰＵ２６１は、Ｓ９５４で推定した手書き領域の画素集合に基づいて、処理対象画像から手書き部分を除去して活字画像を生成する。具体的には、ＣＰＵ２６１は、処理対象画像の画素であって、Ｓ９５４で推定した手書き領域の画素と同位置の画素の値を、白（ＲＧＢ＝（２５５，２５５，２５５））に変更する。これにより、図１１Ａに示すような活字画像１００４が得られる。
次にＳ９５９において、ＣＰＵ２６１は、Ｓ９５８で生成した活字画像から活字領域を抽出する。具体的には、ＣＰＵ２６１は、活字領域として、活字を内包する活字画像上の部分領域を抽出する。ここで部分領域とは、印刷内容のまとまり（オブジェクト）であり、例えば、複数の文字からなる文字行や、複数の文字行からなる文章、あるいは、図や写真、表、グラフ、といったオブジェクトである。この部分領域の抽出方法として、例えば以下のような手法を取り得る。

まず、ＣＰＵ２６１は、活字画像を白黒に二値化して二値画像を生成する。この二値画像において黒画素が連結する部分（連結黒画素）を抽出し、これに外接する矩形を作成していく。当該矩形の形状や大きさを評価することで、文字ないし文字の一部である矩形群を得ることができる。これら矩形群について、矩形間の距離を評価し、予め定めた閾値以下の距離である矩形の統合を行うことで、文字である矩形群を得ることができる。また、同様の大きさの文字の矩形が近くに並んでいる場合には、それらを統合して文字行の矩形群を得ることができる。短辺長が同様の文字行の矩形が等間隔に並んでいる場合は、それらを統合して文章の矩形群を得ることができる。また、図や写真、表、グラフなど、文字や行、文章以外のオブジェクトを内包する矩形も得ることができる。以上のように抽出した矩形から、単独の文字あるいは文字の一部である矩形を除外し、残った矩形を活字領域とする。図１１Ａの画像１００５に、活字画像１００４に対して抽出された活字領域を点線枠で例示する。本処理ステップでは、活字画像から複数の背景部分領域が活字領域として抽出され得る。

Ｓ９６０において、ＣＰＵ２６１は、Ｓ９５８で生成した活字画像と、Ｓ９５９で活字画像から抽出された活字領域とを、外部インタフェース２６８を介して、活字ＯＣＲ部１１７に送信し、活字ＯＣＲを実行させる。活字ＯＣＲには公知の技術を適用し実現することができる。
Ｓ９６１において、ＣＰＵ２６１は、活字ＯＣＲ部１１７から、活字ＯＣＲ結果を受信したか否かを判定する。活字ＯＣＲ結果とは、活字ＯＣＲ部１１７が、活字領域に含まれていた活字を認識して得たテキストデータである。ＣＰＵ２６１が外部インタフェース２６８を介して活字ＯＣＲ部１１７から活字ＯＣＲ結果を受信していた場合、ＹＥＳと判定し、処理はＳ９６２に遷移する。そうでない場合、ＣＰＵ２６１がＳ９６１の処理を繰り返す。ここまでの処理によって、活字領域（座標情報）とそこに含まれていた活字を認識して得たテキストデータが得られた。ここでＣＰＵ２６１は、上記テキストデータと活字領域（座標情報）とを対応付けて、図１１Ｂに示すような活字情報テーブル１００６としてＲＡＭ２６４等に記憶しておく。

Ｓ９６２において、ＣＰＵ２６１は、手書きＯＣＲ部１１６ないし活字ＯＣＲ部１１７から受信した手書きＯＣＲ結果および活字ＯＣＲ結果を統合し、帳票テキストデータを生成する。具体的には、ＣＰＵ２６１は、元となった手書き領域矩形と活字領域の位置関係や、手書きＯＣＲ結果ないし活字ＯＣＲ結果であるテキストデータの意味的な関係性を評価することで、手書きＯＣＲ結果および活字ＯＣＲ結果の関連性を推定する。この推定は、手書き情報テーブル１００３や活字情報テーブル１００６に基づき行われる。例えば、氏見出し４１１内の活字領域に対して、最も距離が近い手書き領域矩形として、氏記入欄４０１内の手書き領域矩形が特定される。なお、距離のみならず、上下・左右等の、手書き領域矩形と活字領域の位置関係も考慮してよい。且つ、当該手書き領域矩形の手書きＯＣＲ結果であるテキストデータが、氏名の氏を含む文字列であれば、これは氏名の氏であると特定できる。よって、これら活字ＯＣＲ結果と手書きＯＣＲ結果とを、氏名の氏に関する項目と値のペアの関係性と評価する。同様に氏名の名についても、活字領域と手書き領域矩形の距離、および手書きＯＣＲ結果に氏名の名を含む文字列であることから、両者の関係性が評価され、氏名の名に関する項目と値のペアの関係性と評価する。氏と名を統合し、氏名の項目と値のペアとすることができる。さらに同様に、住所についても、活字領域と手書き領域矩形の距離、および、手書きＯＣＲ結果に地名を含むことから、両者の関係性が評価される。電話番号についても、活字領域と手書き領域矩形の距離、および、手書きＯＣＲ結果が数字から構成されることから、両者の関係性が評価される。以上のようにして、手書きＯＣＲ結果と活字ＯＣＲ結果とが、ひとつ以上の項目と値のペアとして統合され、図１１Ｂに示すような帳票テキストデータ１００７が生成される。

Ｓ９６３において、ＣＰＵ２６１は、生成した帳票テキストデータを、画像取得部１１１に送信する。その後、一連のフローチャートの処理が終了する。
その後、画像取得部１１１が、画像処理サーバ１０３から帳票テキストデータを受信すると、当該帳票テキストデータを処理対象画像に対する処理結果として出力する。例えば、表示デバイス２１０に処理対象画像や帳票テキストデータを対比可能に表示したり、ユーザが入力デバイス２０９を操作して設定した送信宛先に、外部インタフェース２１１を介して、帳票テキストデータを送信したりすることができる。

以上のような本実施形態に係る画像処理システムによれば、以下の（ａ）～（ｃ）に示す特徴を持つ学習データを学習したニューラルネットワークを用いることで、記入項目ごとの連続した画素の集合として手書き領域を推定することができる。

（ａ）学習データの正解データは、連続した画素の集合である。この画素の集合は、ひとつの記入項目を構成する手書きストロークをすべて内包する。
（ｂ）上記画素の集合は、印字画素を含まない。
（ｃ）上記画素の集合の面積は、上記手書きストロークを内包する外接矩形の面積に対して、小さい。この面積の減少は、当該外接矩形の外周部の欠損により生じる。すなわち、外接矩形と比べたときに、手書き領域は、より手書きストロークに沿うような画素集合である。
このような学習データを学習したニューラルネットワークにより手書き領域を推定することで、手書きＯＣＲの入力となる画像に印刷画素が混入することを低減することができる。すなわち、手書きＯＣＲの精度低下を軽減することができる。

本実施形態では、手書き文字を対象として、その領域およびその画素を推定するニューラルネットワークの例を示した。なお、推定の対象とするオブジェクトは、これに限らない。例えば、活字文字や押印を対象としてもよい。

［第２の実施形態］
上述の第１の実施形態では、手作業で作成された正解データに基づき学習データを生成する例について説明した。本実施形態では、画像処理により学習データを生成する例について説明する。なお、本実施形態に係る画像処理システムの構成は、特徴部分を除いて第１の実施形態の構成と同様である。そのため、同様の構成については、同様の符号を付し、その詳細な説明を省略する。

＜画像処理システム＞
まず、本実施形態に係る画像処理システムについて説明する。本実施形態に係る画像処理システムの構成は、第１の実施形態の説明において図１に示したものと同様である。以下、第１の実施形態と相違する部分を中心に説明する。
画像処理装置１０１は、白紙に手書きのみが記入された原稿をスキャン機能によりスキャンして画像データを生成する。以降、この画像を「前景サンプル画像」と呼称する。前景サンプル画像は第２の読取画像の一例である。スキャンされた原稿には、手書き文字として、氏名や住所など、帳票に記入されるような内容が記入されている。一方、画像処理装置１０１は、電子文書（帳票）を印刷して印刷原稿を出力する。さらに、画像処理装置１０１は、この印刷原稿（手書き記入なし）をスキャンして画像データを生成する。以降、この画像を「背景サンプル画像」と呼称する。背景サンプル画像は第１の読取画像の一例である。スキャンされた原稿には、活字や、羅線などが含まれる。画像処理装置１０１は、ネットワーク１０５を介して、前景サンプル画像と背景サンプル画像を学習装置１０２に送信する。画像蓄積部１１５は、画像処理装置１０１が生成した前景サンプル画像と背景サンプル画像を蓄積する。

＜学習フェーズのシーケンス＞
続いて、図１２を参照して、画像処理システム１００により実行される学習フェーズのシーケンスについて説明する。図１２は、本実施形態に係る学習フェーズのシーケンス図である。
Ｓ１２０１にて、ユーザが手書きのみが記入された原稿の読取指示を行うと、Ｓ１２０２にて、画像取得部１１１は、原稿を読み取り、前景サンプル画像を生成する。そして、生成した画像に対して前景フラグを付与する。また、Ｓ１２０３にて、ユーザが帳票の印刷原稿（手書き記入なし）の読取指示を行うと、Ｓ１２０４にて、画像取得部１１１は、原稿を読み取り、背景サンプル画像を生成する。そして、生成した画像に対して背景フラグを付与する。
Ｓ１２０５にて、画像取得部１１１は、上述のように読み取られた前景サンプル画像、及び背景サンプル画像を、学習データ生成部１１２に送信する。なお、このとき、前景サンプル画像、及び背景サンプル画像には、ＩＤ情報が付与されてもよい。
Ｓ１２０６にて、学習データ生成部１１２が、画像処理装置１０１から送信された画像を受信すると、画像蓄積部１１５に画像を蓄積する。

Ｓ１２０７にて、ユーザが学習装置１０２に対して学習元データ（合成領域データ、項目領域データ）の付与指示を行うと、Ｓ１２０８にて、学習データ生成部１１２が、当該学習元データを取得して画像蓄積部１１５に蓄積する。後述するように、学習データ生成部１１２は、前景サンプル画像と背景サンプル画像を合成して学習データを生成する。
上述の合成領域データとは、当該合成処理において、背景サンプル画像上であって、手書きサンプルを合成する領域（合成領域）を示すデータである。Ｓ１２０８の処理により、学習データの生成に際し、合成領域データが予め作成される。合成領域データの付与方法については後述する。
また、上述の項目領域データとは、前景サンプル画像に含まれる手書きストロークについて、記入項目ごとにグルーピングされた領域（項目領域）を示すデータである。学習データ生成部１１２は、項目領域に基づいて、画素の集合である手書き領域推定の正解データを生成する。項目領域データの付与方法については後述する。

次にＳ１２０９にて、学習データ生成部１１２は、このようにして蓄積したデータ（前景サンプル画像、背景サンプル画像、及び学習元データ）に基づいて学習データを生成する。このとき、学習データ生成部１１２は、特定のＩＤ情報に基づく画像のみを用いて学習データを生成してもよい。その後Ｓ１２１０にて、学習データ生成部１１２は、学習部１１３に学習データを送信する。なお、特定のＩＤ情報に基づくデータのみを用いて学習データを生成した場合には、ＩＤ情報も併せて送信する。
次にＳ１２１１にて、学習部１１３は、受信した学習データに基づき、学習処理を行い、学習モデルを更新する。学習部１１３は、ＩＤ情報ごとに学習モデルを保持し、対応する学習データのみで学習を行ってもよい。このようにＩＤ情報と学習モデルを紐づけることで、特定の利用環境に特化した学習モデルを構築することができる。以上のようにして、学習フェーズにおける一連のシーケンスが終了する。これにより、ユーザにより付与された学習元データに基づき生成された学習データにより学習された学習結果が学習装置１０２に保持される。

＜操作画面＞
図１２のＳ１２０１、及びＳ１２０３に示したユーザの指示は、次のような操作画面で行われる。図１３（ａ）は、本実施形態に係る学習用スキャン画面を示す図である。学習用スキャン画面１３００は、画像処理装置１０１の表示デバイス２１０に表示される画面の一例である。図１３（ａ）に示すように、学習用スキャン画面１３００は、プレビュー領域１３０１、手書き原稿ボタン１３０２、帳票原稿ボタン１３０３、スキャンボタン１３０４、及び送信開始ボタン１３０５を備える。

プレビュー領域１３０１、スキャンボタン１３０４、及び送信開始ボタン１３０５は、図６（ａ）のプレビュー領域５０１、スキャンボタン５０２、及び送信開始ボタン５０３と同様である。
手書き原稿ボタン１３０２と帳票原稿ボタン１３０３は、読み取られた画像の属性を指定するためのボタンである。手書き原稿ボタン１３０２が選択されると、画像処理装置１０１は、読取画像に前景フラグを付与する。帳票原稿ボタン１３０３が選択されると、画像処理装置１０１は、読取画像に背景フラグを付与する。選択中のボタンは識別可能に強調表示される。また、手書き原稿ボタン１３０２と帳票原稿ボタン１３０３は、どちらか一方しか選択することはできない。原稿が読み取られ、画像の属性が選択されると、送信開始ボタン１３０５が選択可能となる。

図１２のＳ１２０７に示したユーザの指示は、次のような操作画面で行われる。図１３（ｂ）および（ｃ）は、学習元データ作成画面を示す図である。図１３（ｄ）、（ｅ）、（ｆ）および（ｇ）は、背景サンプル画像用の学習元データ作成画面（図１３（ｂ））における画像表示領域の表示例を示す図である。学習元データ作成画面１３５０は、学習装置１０２の表示デバイス２６７に表示される画面の一例である。図１３（ｂ）に示すように、学習元データ作成画面１３５０は、画像表示領域１３５１、画像選択ボタン１３５２、拡大ボタン１３５３、縮小ボタン１３５４、統合ボタン１３５５、及び保存ボタン１３５６を備える。

画像選択ボタン１３５２は、画像処理装置１０１から受信し、画像蓄積部１１５に蓄積されている画像（前景サンプル画像あるいは背景サンプル画像）を選択するためのボタンである。画像選択ボタン１３５２が指示されると、選択画面（不図示）が表示され、当該画像を選択可能になる。当該画像が選択されると、学習装置１０２は、画像表示領域１３５１に選択した画像を表示する。ユーザは画像表示領域１３５１に表示された当該画像に対して操作し、学習元データ（合成領域データ、項目領域データ）の入力を行う。
拡大ボタン１３５３と縮小ボタン１３５４は、図６（ｂ）の拡大ボタン５２３と縮小ボタン５２４と同様である。

上述の画像の選択において、背景サンプル画像を選択した場合には、図１３（ｂ）に示す背景サンプル画像用の学習元データ作成画面１３５０が表示され、背景サンプル画像に対して合成領域データを作成できる状態となる。ユーザは、合成領域データを次のように操作して入力する。ユーザは、まず図１３（ｂ）に点線枠で示すように、入力デバイス２３６を介してマウスカーソルを操作し、画像表示領域１３５１に表示されている背景サンプル画像中の罫線に囲まれた領域内（記入欄内）を選択する。この選択した矩形領域が合成領域であり、後述する学習データ生成部１１２による学習データの生成時に、背景サンプル画像上の、前景サンプル画像の一部を合成するよう指示するための領域である。学習データ生成部１１２は、ユーザの操作に応じて、画像表示領域１３５１の画像上に表示される合成領域を表す点線枠の表示位置・大きさを制御する。なお、図１３（ｄ）に示すように、単一の記入欄内（電話番号）であっても、複数の項目（自宅、携帯）を含む場合には、当該記入欄内に複数の合成領域を作成してよい。

統合ボタン１３５５は、作成済みの複数の合成領域をグルーピングするためのボタンである。図１３（ｅ）に点線で示すように、例えば桁線で区切られた複数の記入欄（数値記入欄）にそれぞれ合成領域を作成する。そしてこれらを、入力デバイス２３６を介してマウスカーソルを操作して選択し、その状態で統合ボタン１３５５を指示すると、学習データ生成部１１２は、選択中の複数の合成領域をグループとして記録する。後述するように、手書き領域推定の正解データを生成する際には、グルーピングされた合成領域は、統合してひとつの合成領域のように扱われる。
以上のようにして、ユーザは、個々の背景サンプル画像に対して、記入欄の存在に従って、複数の合成領域を指定することで、合成領域データを入力することができる。なお、図１３（ｆ）や図１３（ｇ）に示すように、帳票の中には、記入欄が罫線に囲まれないものも存在し得る。このような場合には、図１３（ｆ）や図１３（ｇ）の点線枠で示すように、記入者が記入するであろう領域を選択する。

一方、上述の画像の選択において、前景サンプル画像を選択した場合には、図１３（ｃ）に示す前景サンプル画像用の学習元データ作成画面１３５０が表示され、前景サンプル画像に対して項目領域データを作成できる状態となる。ユーザは、項目領域データを次のように操作して入力する。ユーザは、まず図１３（ｃ）に点線枠で示すように、入力デバイス２３６を介してマウスカーソルを操作し、画像表示領域１３５１に表示されている前景サンプル画像中の手書きストロークを、氏名や住所など、帳票に記入される項目ごととなるように選択する。この選択した矩形領域が項目領域であり、後述する学習データ生成部１１２による手書き領域推定の正解データの生成時に、前景サンプル画像中のグルーピングする手書きストロークを指定するための領域である。学習データ生成部１１２は、ユーザの操作に応じて、画像表示領域１３５１の画像上に表示される項目領域を表す点線枠の表示位置・大きさを制御する。なお、画像表示領域１３５１が項目領域データを作成する状態の場合には、統合ボタン１３５５は操作指示できない。
以上のようにして、ユーザは、個々の前景サンプル画像に対して、記入項目の存在に従って、複数の項目領域を指定することで、項目領域データを作成することができる。本実施形態では、ユーザが記入項目ごとの手書きストロークを点線枠で囲むように操作して入力された項目領域データに基づき、正解データが得られる。したがって、第１の実施形態よりも簡単な操作で正解データを得ることができる。

保存ボタン１３０６は、作成された学習元データ（合成領域データ、項目領域データ）を保存するためのボタンである。学習データ生成部１１２は、合成領域データを、作成対象であった背景サンプル画像に対して、ひとつのＸＭＬ形式のデータとして記録する。以降、このＸＭＬ形式で保存された合成領域データを「合成領域定義情報」と呼称する。図１４は、合成領域定義情報の一例を示す。合成領域定義情報の詳細については後述する。学習データ生成部１１２は、合成領域定義情報を、対応する背景サンプル画像と紐づけて画像蓄積部１１５に蓄積する。また、学習データ生成部１１２は、項目領域データをもとに、項目領域データの作成対象であった前景サンプル画像に対する、手書き領域推定の正解データとなる画像を生成する。以降、この画像を「正解サンプル画像」と呼称する。図２０は、正解サンプル画像の一例を示す。図２０（ａ）は、前景サンプル画像を示し、図２０（ｂ）は、図２０（ａ）の前景サンプル画像に対して生成された正解サンプル画像を示す。正解サンプル画像の生成方法については後述する。学習データ生成部１１２は、正解サンプル画像を、対応する前景サンプル画像と紐付けて画像蓄積部１１５に蓄積する。

続いて、図１５～図１９を用いて、図１２に示す本実施形態に係る学習フェーズのシーケンスにおいて、各装置により実行される処理の詳細について説明する。なお第１の実施形態と同様の部分については説明を割愛する。
＜サンプル画像生成処理＞
まず、画像処理装置１０１によるサンプル画像生成処理について説明する。図１５（ａ）は、本実施形態に係るサンプル画像生成処理を示すフローチャートである。

まずＳ１５０１において、ＣＰＵ２０１は、手書きのみの原稿のスキャン指示がされたか否かを判定する。ＣＰＵ２０１が入力デバイス２０９を介して手書きのみの原稿をスキャンするための所定の操作（スキャンボタン１３０４の指示および手書き原稿ボタン１３０２の選択）を検知した場合、ＹＥＳと判定し、処理はＳ１５０２に遷移する。そうでない場合、ＣＰＵ２０１がＮＯと判定し、処理はＳ１５０４に遷移する。
Ｓ１５０２において、ＣＰＵ２０１は、スキャナデバイス２０６や原稿搬送デバイス２０７を制御して、原稿をスキャンして前景サンプル画像を生成する。この原稿は、白紙に、人が手書きの文や図形（線分や矢印など）を記入したものであり、手書きのみが含まれる。特に、帳票に記入されるような文や図形が記入されたものである。前景サンプル画像は、グレースケールの画像データとして生成される。
Ｓ１５０３において、ＣＰＵ２０１は、Ｓ１５０２で生成した前景サンプル画像を、外部インタフェース２１１を介して、学習装置１０２に送信する。このとき、送信する画像データが、前景サンプル画像であることを示す情報（前景フラグ）を付与して送信する。その後、一連のフローチャートの処理が終了する。

続いてＳ１５０４において、ＣＰＵ２０１は、印刷内容のみの原稿をスキャンする指示がされたか否かを判定する。ＣＰＵ２０１が入力デバイス２０９を介して印刷内容のみの原稿をスキャンするための所定の操作（スキャンボタン１３０４の指示および帳票原稿ボタン１３０３の選択）を検知した場合、ＹＥＳと判定し、処理はＳ１５０５に遷移する。そうでない場合、ＣＰＵ２０１がＮＯと判定し、一連のフローチャートの処理が終了する。
Ｓ１５０５において、ＣＰＵ２０１は、スキャナデバイス２０６や原稿搬送デバイス２０７を制御して、原稿をスキャンして背景サンプル画像を生成する。この原稿は、用紙に帳票などが印刷されたものであり、印刷内容のみが含まれる。背景サンプル画像は、グレースケールの画像データとして生成される。
Ｓ１５０６において、ＣＰＵ２０１は、Ｓ１５０５で生成した背景サンプル画像を、外部インタフェース２１１を介して、学習装置１０２に送信する。このとき、送信する画像データが、背景サンプル画像であることを示す情報（背景フラグ）を付与して送信する。その後、一連のフローチャートの処理が終了する。
以上のようなサンプル画像生成処理によれば、画像処理装置１０１は、手書きのみが含まれる前景サンプル画像、および印刷内容のみが含まれる背景サンプル画像をそれぞれ生成して、学習装置１０２に送信することができる。

＜サンプル画像受信処理＞
次に、学習装置１０２によるサンプル画像受信処理について説明する。図１５（ｂ）は、本実施形態に係るサンプル画像受信処理を示すフローチャートである。

Ｓ１５３１において、ＣＰＵ２３１は、前景サンプル画像を受信したか否かを判定する。ＣＰＵ２３１が外部インタフェース２３８を介して画像データを受信し、且つ、当該画像データに前景フラグが付与されている場合、ＹＥＳと判定し、処理はＳ１５３２に遷移する。そうでない場合、ＣＰＵ２３１がＮＯと判定し、処理はＳ１５３３に遷移する。
Ｓ１５３２において、ＣＰＵ２３１は、受信した前景サンプル画像を、ストレージ２３５の所定の領域に記録する。その後、一連のフローチャートの処理が終了する。
Ｓ１５３３において、ＣＰＵ２３１は、背景サンプル画像を受信したか否かを判定する。ＣＰＵ２３１が外部インタフェース２３８を介して画像データを受信し、且つ、当該画像データに背景フラグが付与されていた場合、ＹＥＳと判定し、処理はＳ１５３４に遷移する。そうでない場合、ＣＰＵ２３１がＮＯと判定し、一連のフローチャートの処理が終了する。
Ｓ１５３４において、ＣＰＵ２３１は、受信した背景サンプル画像を、ストレージ２３５の所定の領域に記録する。その後、一連のフローチャートの処理が終了する。
以上のようなサンプル画像受信処理によれば、画像処理装置１０１で生成された前景サンプル画像および背景サンプル画像を、学習装置１０２に蓄積することができる。

＜学習元データ生成処理＞
次に、学習装置１０２による学習元データ生成処理について説明する。図１６Ａは、学習元データ生成処理を示すフローチャートである。学習元データ生成処理は、学習装置１０２の学習データ生成部１１２により実現される。これは、ユーザが、学習装置１０２の入力デバイス２３６を介して、所定の操作を行うことで開始される。
Ｓ１８０１において、ＣＰＵ２３１は、背景サンプル画像の選択指示がされたか否かを判定する。ＣＰＵ２３１が入力デバイス２３６を介して背景サンプル画像を選択するための所定の操作（学習元データ作成画面１３５０の画像選択ボタン１３５２の指示および背景サンプル画像の選択）を行った場合、ＹＥＳと判定し、処理はＳ１８０２に遷移する。そうでない場合、ＣＰＵ２３１がＮＯと判定し、処理はＳ１８０３に遷移する。
Ｓ１８０２において、ＣＰＵ２３１は、Ｓ１８０１でユーザが選択した背景サンプル画像を、ストレージ２３５から読み出して図１３（ｂ）の画像表示領域１３５１に表示する。

Ｓ１８０３において、ＣＰＵ２３１は、ユーザが合成領域データの入力指示を行ったか否かを判定する。ＣＰＵ２３１が入力デバイス２３６を介して、前述したように、背景サンプル画像上の記入欄内の領域を選択する操作を検知した場合、ＹＥＳと判定し、処理はＳ１８０４に遷移する。そうでない場合、ＣＰＵ２３１がＮＯと判定し、処理はＳ１８０５に遷移する。
Ｓ１８０４において、ＣＰＵ２３１は、ユーザの操作により入力された合成領域データを、ＲＡＭ２３４に一時的に記憶する。
Ｓ１８０５において、ＣＰＵ２３１は、ユーザが合成領域のグルーピング入力指示を行ったか否かを判定する。ＣＰＵ２３１が入力デバイス２３６を介して、所定の操作（入力済みの合成領域の選択、および統合ボタン１３５５の選択）を行っていた場合、ＹＥＳと判定し、処理はＳ１８０６に遷移する。そうでない場合、ＣＰＵ２３１がＮＯと判定し、処理はＳ１８０７に遷移する。
Ｓ１８０６において、ＣＰＵ２３１は、合成領域のグルーピングの情報（選択された複数の合成領域の紐付け情報）を、ＲＡＭ２３４に一時的に記憶する。

Ｓ１８０７において、ＣＰＵ２３１は、前景サンプル画像の選択指示がされたか否かを判定する。ＣＰＵ２３１が入力デバイス２３６を介して前景サンプル画像を選択するための所定の操作（学習元データ作成画面１３５０の画像選択ボタン１３５２の指示および前景サンプル画像の選択）を行った場合には、ＹＥＳと判定し、処理はＳ１８０８に遷移する。そうでない場合、ＣＰＵ２３１がＮＯと判定し、処理はＳ１８０９に遷移する。
Ｓ１８０８において、ＣＰＵ２３１は、Ｓ１８０７でユーザが選択した前景サンプル画像を、ストレージ２３５から読み出して図１３（ｃ）の画像表示領域１３５１に表示する。
Ｓ１８０９において、ＣＰＵ２３１は、ユーザが項目領域データの入力指示を行ったか否かを判定する。ＣＰＵ２３１が入力デバイス２３６を介して、前述したように、前景サンプル画像上の手書き記入に対する項目領域を選択する操作を検知した場合、ＹＥＳと判定し、処理はＳ１８１０に遷移する。そうでない場合、ＣＰＵ２３１がＮＯと判定し、処理はＳ１８１１に遷移する。
Ｓ１８１０において、ＣＰＵ２３１は、ユーザの操作により入力された項目領域データを、ＲＡＭ２３４に一時的に記憶する。

Ｓ１８１１において、ＣＰＵ２３１は、学習元データの保存指示がされたか否かを判定する。ＣＰＵ２３１が入力デバイス２３６を介して、学習元データを保存するための所定の操作（保存ボタン１３５６の指示）を検知した場合、ＹＥＳと判定し、処理はＳ１８１２に遷移する。そうでない場合、ＣＰＵ２３１がＮＯと判定し、処理はＳ１８１５に遷移する。
Ｓ１８１２において、ＣＰＵ２３１は、合成領域定義情報を生成して保存する。ＣＰＵ２３１は、次のようにして合成領域定義情報を生成する。まずＣＰＵ２３１は、合成領域定義情報を示すＸＭＬデータを生成する。そして、Ｓ１８０４でＲＡＭ２３４に一時的に記憶した合成領域データを参照し、合成領域の数に相当する数の＜ａｒｅａ＞タグを挿入する。各々の＜ａｒｅａ＞タグには、ｘ属性およびｙ属性を追加し、該当する合成領域の背景サンプル画像上の画素位置を示すｘ座標およびｙ座標の値を記録する。また、ｗｉｄｔｈ属性およびｈｅｉｇｈｔ属性を追加し、該当する合成領域の幅の画素数および高さの画素数を記録する。さらに、Ｓ１８０６でＲＡＭ２３４に一時的に記憶した合成領域のグルーピングの情報を参照し、該当する合成領域の＜ａｒｅａ＞タグにｇｒｏｕｐ属性を付与する。そして、同一グループに属する合成領域について、同一の値（グループのＩＤ）をｇｒｏｕｐ属性の値に記録する。このようにして、図１４に例示した合成領域定義情報が生成される。ＣＰＵ２３１は、Ｓ１８０１で選択され、現在処理対象としている背景サンプル画像と、生成した合成領域定義情報とを紐付けて、ストレージ２３５に記憶する。

Ｓ１８１３において、ＣＰＵ２３１は、Ｓ１８１０でＲＡＭ２３４に一時的に記憶した項目領域データを参照して、正解サンプル画像を生成する。Ｓ１８１３で実行される正解サンプル画像生成処理については、図１６Ｂを用いて後述する。
Ｓ１８１４において、ＣＰＵ２３１は、Ｓ１８０７で選択され、現在処理対象としている前景サンプル画像と、Ｓ１８１３で生成した正解サンプル画像とを紐付けて、ストレージ２３５に記憶する。
Ｓ１８１５において、ＣＰＵ２３１が学習元データ生成処理を終了するための所定の操作を検知するまで、処理はＳ１８０１に遷移し、所定の操作を検知した場合には、一連のフローチャートの処理を終了する。

＜正解サンプル画像生成処理＞
次に図１６ＡのＳ１８１３にて実行される正解サンプル画像生成処理の詳細について説明する。図１６Ｂは、正解サンプル画像生成処理を示すフローチャートである。
Ｓ１８５１において、ＣＰＵ２３１は、初期化された正解サンプル画像を生成する。具体的には、ＣＰＵ２３１は、現在処理対象としている前景サンプル画像と同サイズの画像を生成し、当該画像のすべての画素の値を、手書き領域ではないことを示す値とする、正解サンプル画像を生成する。
Ｓ１８５２において、ＣＰＵ２３１は、現在処理対象としている前景サンプル画像を二値化処理して二値画像を得る。前景サンプル画像中の手書き画素は、この二値画像においては手書き領域であること示す値となり、それ以外の画素は、この二値画像においては手書き領域ではないことを示す値となるようにする。

Ｓ１８５３において、ＣＰＵ２３１は、項目領域データの中から項目領域をひとつ選択する。
Ｓ１８５４において、ＣＰＵ２３１は、Ｓ１８５２で生成した二値画像の一部であって、且つ、Ｓ１８５３で選択した項目領域に該当する領域を、部分画像として取得する。項目領域は矩形領域であるから、部分画像は矩形画像である。図１７（ａ）は、この部分画像の一例を示す。図１７（ａ）に示す黒画素が、手書き領域であることを示す値を有する画素である。
Ｓ１８５５において、ＣＰＵ２３１は、Ｓ１８５４で取得した部分画像中の手書き領域であること示す値を有する画素（前景サンプル画像において、手書き画素であった画素）を膨張処理により膨張させる。以下、膨張処理の詳細について説明する。

まず、ＣＰＵ２３１は、部分画像に対して水平方向の膨張処理を行う。例えば、サイズ（Ｗ，１）のカーネルを複数回適用して膨張させる。水平方向のカーネルサイズＷおよび適用回数は、予め決定しておく。次に、ＣＰＵ２３１は、部分画像に対して垂直方向の膨張処理を行う。例えば、サイズ（１，Ｈ）のカーネルを複数回適用して膨張させる。垂直方向のカーネルサイズＨおよび適用回数は、予め決定しておく。ＣＰＵ２３１は、以上のようにして得た水平方向と垂直方向に膨張した２つの画像を合成して、最終的な膨張画像を得る。これにより、個々の文字を構成する手書きストロークであって、互いに接触していないものを結合させる。つまり、手書き文字を構成する手書きストロークをすべて含む画素集合を生成することができる。このとき、水平方向と垂直方向で個別に膨張させることで、手書き文字の上下左右端部に余計な膨張画素を生じさせないようにする。なるべく少ない画素で手書き文字を包含する画素集合を生成するためである。図１７（ｂ）は、図１７（ａ）の部分画像に対して生成された膨張画像の一例を示す。なお、本実施形態では、上述のように、水平方向に加えて垂直方向に膨張させる例を示したが、水平方向にのみ膨張させてもよい。例えば、改行を伴う文章などを含む帳票の場合には、手書き文字の行が上下に近接することで、得られた正解サンプル画像において上下の手書き文字の行が結合してしまう場合があり得る。このような事態を回避するために、垂直方向の膨張はせずに、あるいは程度を抑えて実行してもよい。

Ｓ１８５６において、ＣＰＵ２３１は、Ｓ１８５４で取得した部分画像と同サイズであり、すべての画素が手書き領域であることを示す値を有する画像を生成する。そして、この画像を垂直方向に収縮処理して収縮させることで収縮画像を得る。例えば、サイズ（１，Ｈ２）のカーネルを複数回適用して収縮させる。垂直方向のカーネルサイズＨ２は、予め決定しておく。適用回数は、生成する収縮画像の高さが、部分画像の高さに対して、予め定めた割合となるよう決定する。図１７（ｃ）は、図１７（ａ）の部分画像に対して生成された収縮画像の一例を示す。収縮画像は、水平方向の幅が部分画像と同じで、垂直方向の高さが部分画像よりも小さい矩形画像である。
Ｓ１８５７において、ＣＰＵ２３１は、Ｓ１８５５で生成した膨張画像と、Ｓ１８５６で生成した収縮画像とを合成して合成画像を得る。これにより、ひとつの記入項目を構成する文字であって、互いに接触していない文字同士を結合させることができる。図１７（ｄ）は、図１７（ｂ）の膨張画像と図１７（ｃ）の収縮画像とを合成した合成画像の一例を示す。

Ｓ１８５８において、ＣＰＵ２３１は、Ｓ１８５７で生成した合成画像を、Ｓ１８５４で取得された部分画像でクロップして、余計な端部を除去して、合成画像を更新する。除去される端部を構成する画素は、現在処理対象としている前景サンプル画像と対応させたときに、手書き画素を含まない余計な画素である。図１７（ｅ）は、図１７（ｄ）の合成画像から余計な端部を除去して得られた合成画像の一例を示す。
Ｓ１８５９において、ＣＰＵ２３１は、Ｓ１８５８で取得した合成画像を用いて、正解サンプル画像を更新する。すなわち、正解サンプル画像上の、現在処理対象としている項目領域に対応する位置に、合成画像を合成する。
Ｓ１８６０において、ＣＰＵ２３１は、すべての項目領域について処理したか否かを判定する。ＣＰＵ２３１がＳ１８１０にてＲＡＭ２３４に一時的に記憶した項目領域データに含まれるすべての項目領域について、Ｓ１８５４～Ｓ１８５９の処理を実行したと判定した場合、正解サンプル画像生成処理を終了する。ＣＰＵ２３１が未処理の項目領域が存在すると判定した場合、Ｓ１８５３に遷移して、次の項目領域を選択して処理を継続する。

以上のような正解サンプル画像生成処理によれば、図２０（ａ）に示すような前景サンプル画像に含まれる手書き文字に対する手書き領域推定の正解データとして、図２０（ｂ）に示すような正解サンプル画像を得ることができる。

＜学習データ生成処理＞
次に、学習装置１０２による学習データ生成処理について説明する。図１８は、本実施形態に係る学習データ生成処理を示すフローチャートである。図１９は、学習データ生成処理にて生成されるデータの一例を示す図である。

まずＳ１６０１において、ＣＰＵ２３１は、ストレージ２３５に記憶している前景サンプル画像を選択して読み出す。図１５（ｂ）のＳ１５３２の処理ステップにより、ストレージ２３５には複数の前景サンプル画像が記憶されているので、その中からランダムにひとつを選択する。
Ｓ１６０２において、ＣＰＵ２３１は、Ｓ１６０１で読み出した前景サンプル画像に対応する正解サンプル画像を読み出す。図１６ＡのＳ１８１４の処理ステップで、ストレージ２３５には、正解サンプル画像が前景サンプル画像と紐付けて記憶されているため、これを読み出す。

Ｓ１６０３において、ＣＰＵ２３１は、ストレージ２３５に記憶している背景サンプル画像を選択して読み出す。図１５（ｂ）のＳ１５３４の処理ステップにより、ストレージ２３５には複数の背景サンプル画像が記憶されているので、その中からランダムにひとつを選択する。

Ｓ１６０４において、ＣＰＵ２３１は、Ｓ１６０３で読み出した背景サンプル画像の一部（例えば縦×横＝２５６×２５６の大きさ）を切り出した画像データを生成する。以降、この画像データを「背景パッチ」と呼称する。なお、切り出し位置はランダムに決定する。図１９（ａ）は、背景パッチの例を示す。
Ｓ１６０５において、ＣＰＵ２３１は、手書き領域推定の学習データに用いる正解ラベル画像を生成する。具体的にはまず、ＣＰＵ２３１は、背景パッチと同サイズの画像を生成し、当該画像のすべての画素の値を、手書き領域ではないことを示す値とする正解ラベル画像を生成する。

Ｓ１６０６において、ＣＰＵ２３１は、背景パッチにおける合成領域を特定する。これは次のように処理する。まず、ＣＰＵ２３１は、ストレージ２３５から、Ｓ１６０３で選択した背景サンプル画像と紐付けて記憶されている合成領域定義情報を読み出す。続いてＣＰＵ２３１は、当該合成領域定義情報内に＜ａｒｅａ＞タグとして記憶されている各合成領域（矩形情報）と、背景サンプル画像上の背景パッチ切り出し領域（矩形情報）との交差部分（交差矩形）を求める。その中で、交差矩形のサイズが縦と横それぞれについて０以上のものを、背景パッチにおける合成領域として採用する。採用した合成領域は、背景サンプル画像上の左上端点を原点としているので、背景パッチ切り出し領域の左上端点が基準となるように座標情報を補正する。以上のようにして、背景パッチ上の合成領域が特定される。次にＣＰＵ２３１は、後段の処理のために、算出した背景パッチ上の合成領域を、ＲＡＭ２３４に一時的に記憶しておく。また、交差矩形算出時に、もととなった合成領域定義情報の＜ａｒｅａ＞タグにｇｒｏｕｐ属性が付与されていたならば、この値（グルーピング情報）も合成領域と関連付けて、ＲＡＭ２３４に一時的に記憶しておく。図１９（ａ）に示す斜線部分は、背景パッチ上の合成領域の例を示す。そしてＣＰＵ２３１は、背景パッチ上の合成領域のひとつを選択する。

Ｓ１６０７において、ＣＰＵ２３１は、Ｓ１６０１で読み出した前景サンプル画像の一部を切り出した画像データ（部分画像）を生成する。以降、この画像データを「前景パッチ」と呼称する。なお、切り出し位置はランダムに決定する。切り出すサイズは、現在処理対象として選択している背景パッチ上の合成領域のサイズと同一とする。なお、前景パッチに対して二値化処理を行い、黒画素が予め定めた所定数に満たない場合は、前景パッチを切り出し直す。
Ｓ１６０８において、ＣＰＵ２３１は、切り出した前景パッチの余白を除去する。これは次のように処理する。まずＣＰＵ２３１は、前景パッチに対して二値化処理を行い、二値画像を生成する。次にＣＰＵ２３１は、二値画像中の全ての黒画素を含む外接矩形を求める。当該外接矩形に該当する領域を前景パッチから切り出して、切り出した画像で前景パッチを更新する。

Ｓ１６０９において、ＣＰＵ２３１は、前景パッチを合成する合成位置を決定する。これは次のように処理する。まずＣＰＵ２３１は、合成領域の中心点を基準に、合成領域を拡大した領域を決定する。以降、この領域を「拡大合成領域」と呼称する。拡大率は、１００％から予め定めた閾値（例えば１０５％）までの間からランダムに決定する。そして、拡大合成領域内に収まることを条件に、前景パッチを合成する合成位置を、拡大合成領域内においてランダムに決定する。なお、合成領域が背景パッチの端部にある場合は、拡大合成領域は端辺方向へは拡大しない。図１９（ａ）の破線で囲まれた領域が、拡大合成領域の一例を示す。前述のとおり、合成領域は背景サンプル画像中の記入欄内の領域を選択するようにして作成した。故に、本処理ステップのように処理することで、後述する背景パッチに前景パッチを合成する処理の際に、記入欄周辺の罫線と手書き記入が交差する場合を生じさせる。これにより、記入欄をはみ出して記入した場合を再現する学習データを生成することができる。

Ｓ１６１０において、ＣＰＵ２３１は、背景パッチ上であって、Ｓ１６０９で決定した合成位置に該当する部分に、前景パッチを合成する。本処理ステップにより背景パッチに手書きが合成された画像が生成される。
Ｓ１６１１において、ＣＰＵ２３１は、Ｓ１６０５にて生成された正解ラベル画像を更新する。これは次のように処理する。まずＣＰＵ２３１は、Ｓ１６０２で読み出した正解サンプル画像から、Ｓ１６０７で切り出した前景パッチに対応する部分を切り出して正解パッチを得る。切り出し位置およびサイズは、Ｓ１６０７において前景サンプル画像から前景パッチを切り出した位置およびサイズと同一とする。続いてＣＰＵ２３１は、Ｓ１６０８で前景パッチを更新した領域と同一の領域を正解パッチから切り出して、切り出した画像で正解パッチを更新する。そしてＣＰＵ２３１は、Ｓ１６０５で生成した正解ラベル画像上であって、Ｓ１６１０で決定した合成位置に該当する部分に正解パッチを合成する。
Ｓ１６１２において、ＣＰＵ２３１は、現在処理対象としている背景パッチ上の合成領域について、すべて処理を行ったか否かを判定する。ＣＰＵ２３１が当該背景パッチ上のすべての合成領域について、Ｓ１６０７～Ｓ１６１１の処理を実行したと判定した場合、Ｓ１６１３に遷移する。ＣＰＵ２３１が未処理の合成領域が存在すると判定した場合、Ｓ１６０７に遷移して、背景パッチ上の次の合成領を選択して処理を継続する。

次にＳ１６１３において、ＣＰＵ２３１は、Ｓ１６０６で特定した背景パッチ上の合成領域について、グルーピング情報を参照して正解ラベル画像を更新する。これは次のように処理する。まずＣＰＵ２３１は、Ｓ１６０６においてＲＡＭ２３４に一時的に記憶した合成領域とグルーピングに関するデータを読み出す。ＣＰＵ２３１は、同一のｇｒｏｕｐ属性の合成領域を選択する。続いてＣＰＵ２３１は、これら合成領域の結合矩形を求める。合成領域の結合矩形は、選択された合成領域をすべて内包する最小矩形領域である。次にＣＰＵ２３１は、正解ラベル画像上であって、当該結合矩形に該当する領域内の画素について、手書き領域であることを示す値である画素をすべて内包する外接矩形を求める。この外接矩形と同サイズの画像を生成し、全ての画素の値を手書き領域であることを示す値とする。ＣＰＵ２３１は、当該画像を図１６ＢのＳ１８５６と同様にして、垂直方向に収縮させる。そして、正解ラベル画像上であって、上述の外接矩形の位置に当該画像を合成する。このように処理することで、グルーピングされた、桁線等で区切られた複数の数値記入が、単一の記入項目であるとする正解データが生成される。

Ｓ１６１４において、ＣＰＵ２３１は、手書き領域推定の学習データを保存する。まずＣＰＵ２３１は、Ｓ１６１０で前景パッチを合成した背景パッチを入力画像とする。そして、この入力画像と、Ｓ１６１１で正解パッチを合成して得られた正解ラベル画像とを対応付けて、手書き領域推定のニューラルネットワーク１１００を学習するための学習データとして、ストレージ２３５の所定の領域に保存する。図１９（ｂ）および（ｃ）は、本実施形態における学習データの例を示す。その後、一連のフローチャートの処理が終了する。
ＣＰＵ２３１は、予め決定された学習データの数が生成されるまで、Ｓ１６０１～Ｓ１６１４の処理を繰り返し実行する。

以上のような本実施形態に係る画像処理システムによれば、手書き領域推定を行うニューラルネットワーク１１００の学習データが、前景サンプル画像、背景サンプル画像、合成領域定義情報、及び正解サンプル画像から、画像処理により生成される。なお、ニューラルネットワーク１１００の汎用性を高めるために、学習データの加工を行ってもよい。例えば、前景パッチや背景パッチを所定の範囲（例えば、５０％～１５０％の間）からランダムに選択して決定する変倍率で変倍する。正解パッチも同様に変倍する。あるいは、前景パッチや背景パッチの各画素の輝度を変更して加工してもよい。すなわち、ガンマ補正を用いてこれら画像の輝度を変更する。ガンマ値は所定の範囲（例えば、０．１～１０．０の間）からランダムに選択して決定する。あるいは、前景パッチや、前景パッチを合成した背景パッチを所定の範囲（例えば、－１０度～１０度の間）からランダムに選択して決定する回転角度で回転する。正解パッチも同様に回転する。変倍や回転を考慮する場合には、前景パッチや背景パッチは少し大きめのサイズ（例えば、合成領域の縦横２倍の大きさとして、縦×横＝５１２×５１２の大きさ）で切り出す。そして、最終的な入力画像や正解ラベル画像のサイズ（例えば、縦×横＝２５６×２５６）となるよう、中心部分から切り出す。

以上のような第２の実施形態によれば、第１の実施形態と同様の特徴を持つ学習データを学習データしたニューラルネットワークを用いることで、記入項目ごとの連続した画素の集合として手書き領域を推定することができる。これにより、手書きＯＣＲの入力となる画像に印刷画素が混入することを低減することができる。すなわち、手書きＯＣＲの精度低下を軽減することができる。
第２の実施形態では、ニューラルネットワークを学習するための学習データを、前景サンプル画像、背景サンプル画像、合成領域データ、項目領域データから、画像処理により生成することができる。これら学習データの材料となるデータをユーザが手作業で作成する。しかし、第１の実施形態で示したように、手作業で正解データを作成する方法に比べれば、より簡易な作業であるため、手間が省かれる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。例えば、上述の各実施形態では、学習データ生成部１１２と学習部１１３は、学習装置１０２において実現されるものとしたが、それぞれ別体の装置において実現されるようにしてもよい。この場合、学習データ生成部１１２を実現する装置は、学習データ生成部１１２が生成した学習データを、学習部１１３を実現する装置に送信する。そして、学習部１１３は受信した学習データをもとにニューラルネットワーク１１００を学習する。また、画像処理装置１０１と画像処理サーバ１０３とを別体の装置として説明したが、画像処理装置１０１が画像処理サーバ１０３の機能を具備してもよい。また、画像処理サーバ１０３とＯＣＲサーバ１０４とを別体の装置として説明したが、画像処理サーバ１０３がＯＣＲサーバ１０４としての機能を具備してもよい。また、画像処理サーバ１０３と学習装置１０２とを別体の装置として説明したが、画像処理サーバ１０３が学習装置１０２としての機能を具備してもよい。

本発明は上述の各実施形態に限定されるものではなく、本発明の趣旨に基づき種々の変形（各実施形態の有機的な組合せを含む）が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施形態及びその変形例を組み合わせた構成も全て本発明に含まれるものである。

なお、各実施形態に登場する略称の定義は次の通りである。ＭＦＰとは、ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌのことである。ＡＳＩＣとは、ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔのことである。ＣＰＵとは、ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔのことである。ＲＡＭとは、Ｒａｎｄｏｍ‐ＡｃｃｅｓｓＭｅｍｏｒｙのことである。ＲＯＭとは、ＲｅａｄＯｎｌｙＭｅｍｏｒｙのことである。ＨＤＤとはＨａｒｄＤｉｓｋＤｒｉｖｅのことである。ＳＳＤとはＳｏｌｉｄＳｔａｔｅＤｒｉｖｅのことである。ＬＡＮとは、ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋのことである。ＰＤＬとは、ＰａｇｅＤｅｓｃｒｉｐｔｉｏｎＬａｎｇｕａｇｅのことである。ＯＳとは、ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍのことである。ＰＣとは、ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒのことである。ＯＣＲとは、ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ／Ｒｅａｄｅｒのことである。ＣＣＤとは、Ｃｈａｒｇｅ－ＣｏｕｐｌｅｄＤｅｖｉｃｅのことである。ＬＣＤとはＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙのことである。ＡＤＦとはＡｕｔｏＤｏｃｕｍｅｎｎｔＦｅｅｄｅｒのことである。ＣＲＴとはＣａｔｈｏｄｅＲａｙＴｕｂｅのことである。ＧＰＵとは、ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔのことである。ＩＤとは、Ｉｄｅｎｔｉｆｉｃａｔｉｏｎのことである。

なお、最後に、上述の第１の実施形態に示した方法により学習した手書き領域推定のニューラルネットワークの推論結果を例示する。図２１（ａ）は、処理対象画像の一例である。図２１（ｂ）は、図２１（ａ）の処理対象画像を第１の実施形態に係るニューラルネットワーク１１００に入力した場合の推論結果の一例である。図２１（ｂ）は、ニューラルネットワーク１１００により推定された手書き領域（白ハッチ部分）を示す。図２１（ｂ）に示すように、本実施形態では、手書き文字近傍の印刷画素を除外した領域が推定されるため、手書きＯＣＲ処理の精度低下を軽減することができる。

１００：画像処理システム、１０１：画像処理装置、１０２：画像処理サーバ、１０３：学習装置、１０４：ＯＣＲサーバ

Claims

手書き部分を含む原稿の読取画像を取得する取得手段と、
前記読取画像をニューラルネットワークに入力することにより、前記読取画像における所定の単位の手書き部分を含む対象領域を、連続した画素の集合として推定する推定手段と、
前記対象領域に基づいて、ＯＣＲ処理を行う対象画像を生成する生成手段と、
を有することを特徴とする画像処理装置。
前記原稿の読取画像を入力画像とし、前記入力画像における所定の単位の手書き部分を含む連続した画素の集合を正解データとする学習データを用いて、前記ニューラルネットワークの学習を行う学習手段をさらに有することを請求項１に記載の画像処理装置。
前記正解データは、前記所定の単位の手書き部分を内包することを特徴とする請求項２に記載の画像処理装置。
前記正解データは、手書き部分以外のオブジェクトの画素を含まないことを特徴とする請求項２又は３に記載の画像処理装置。
前記正解データの面積は、前記所定の単位の手書き部分を内包する外接矩形の面積よりも小さく、この面積の減少が、前記外接矩形の外周部の面積の欠損により生じることを特徴とする請求項２乃至４の何れか１項に記載の画像処理装置。
ユーザにより入力された前記読取画像における画素の位置情報に基づいて、前記正解データを生成することを特徴とする請求項２乃至５の何れか１項に記載の画像処理装置。
手書き部分以外のオブジェクトのみを含む原稿を読み取った第１の読取画像と、手書き部分のみを含む原稿を読み取った第２の読取画像とを合成して得られる画像を入力画像とし、前記入力画像における所定の単位の手書き部分を含む連続した画素の集合を正解データとする学習データを用いて、前記ニューラルネットワークの学習を行う学習手段をさらに有することを請求項１に記載の画像処理装置。
前記第１の読取画像における、前記第２の読取画像の一部を示す部分画像を合成する領域としてユーザに指定された合成領域に対して、前記部分画像を合成することにより前記入力画像を生成する学習データ生成手段をさらに有することを特徴とする請求項７に記載の画像処理装置。
前記学習データ生成手段は、前記合成領域を拡大した領域内に前記部分画像が収まるように、前記部分画像の合成位置を決定することを特徴とする請求項８に記載の画像処理装置。
前記学習データ生成手段は、前記第２の読取画像における、前記所定の単位の手書き部分の領域としてユーザに指定された矩形領域に基づいて、前記正解データを生成することを特徴とする請求項８に記載の画像処理装置。
前記学習データ生成手段は、前記矩形領域内の画像を垂直方向及び水平方向のうちの少なくとも何れか一方に膨張させることにより、前記正解データを生成することを特徴とする請求項１０に記載の画像処理装置。
前記学習データ生成手段は、前記膨張させた画像に対して、水平方向の幅が前記矩形領域と同じで垂直方向の高さが前記矩形領域よりも小さい収縮画像を合成することにより、前記正解データを生成することを特徴とする請求項１１に記載の画像処理装置。
前記生成手段は、前記対象領域を内包する外接矩形を生成し、生成した前記外接矩形に対する欠損部分の画素で埋めることで、前記対象画像を生成することを特徴とする請求項１乃至１２の何れか１項に記載の画像処理装置。
前記生成手段は、前記読取画像から前記対象領域に対応する画素を除去することで、活字文字に対応したＯＣＲ処理の対象にする画像を生成することを特徴とする請求項１乃至１３の何れか１項に記載の画像処理装置。
前記対象画像に対して、手書き文字に対応したＯＣＲ処理を行う処理手段をさらに有することを特徴とする請求項１乃至１４の何れか１項に記載の画像処理装置。
前記原稿が帳票であって、前記所定の単位が前記帳票における記入項目であることを特徴とする請求項１乃至１５の何れか１項に記載の画像処理装置。
手書き部分を含む原稿の読取画像を生成する画像生成装置と、画像処理装置と、ＯＣＲ装置とを含む画像処理システムであって、
前記画像処理装置は、
前記画像生成装置から、処理対象の前記読取画像を取得する第１の取得手段と、
前記第１の取得手段により取得した前記読取画像をニューラルネットワークに入力することにより、前記読取画像における所定の単位の手書き部分を含む対象領域を、連続した画素の集合として推定する推定手段と、
前記対象領域に基づいて、ＯＣＲ処理を行う対象画像を生成する生成手段と、
前記対象画像を前記ＯＣＲ装置に対して送信する送信手段と、
を有し、
前記ＯＣＲ装置は、
前記画像処理装置から前記対象画像を受信する受信手段と、
前記対象画像に対して、手書き文字に対応したＯＣＲ処理を行う処理手段と、
を有することを特徴とする画像処理システム。
前記画像生成装置から、学習対象の前記読取画像を取得する第２の取得手段と、
前記第２の取得手段により取得した前記読取画像を入力画像とし、前記入力画像における所定の単位の手書き部分を含む連続した画素の集合を正解データとする学習データを用いて、前記ニューラルネットワークの学習を行う学習手段と、
を有する学習装置をさらに含むことを特徴とする請求項１７に記載の画像処理システム。
手書き部分を含む原稿の読取画像を取得する取得ステップと、
前記読取画像をニューラルネットワークに入力することにより、前記読取画像における所定の単位の手書き部分を含む対象領域を、連続した画素の集合として推定する推定ステップと、
前記対象領域に基づいて、ＯＣＲ処理を行う対象画像を生成する生成ステップと、
を含むことを特徴とする画像処理方法。
コンピュータを、請求項１乃至１６の何れか１項に記載された画像処理装置の各手段として機能させるためのプログラム。