JP2023040886A

JP2023040886A - 画像処理装置、方法及びプログラム

Info

Publication number: JP2023040886A
Application number: JP2021148077A
Authority: JP
Inventors: 元気池田; Motoki Ikeda
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2023-03-23

Abstract

【課題】識別対象の抽出精度を向上させる画像処理装置、画像処理方法及びプログラムを提供する。【解決手段】画像処理システムにおいて、画像処理装置は、複数の識別対象が映る第１画像から特徴マップを取得し、特徴マップに基づいて第１画像内の複数の識別対象をそれぞれ包含する領域を推定し、特徴マップに基づいて、第１画像内に背景の画素が含まれるか否かを判定し、第１画像内に背景の画素が含まれると判定した場合、特徴マップに基づいて、領域から識別対象の画素を抽出する帳票テキスト化処理を実行する。【選択図】図９

Description

本発明は、画像処理装置、方法及びプログラムに関する。

近年、ユーザが文字を記入した帳票等をスキャンしたスキャン画像に対して、ＯＣＲ（Ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）処理を行うことにより、手書き文字を電子化（データ化）することが行われている。ＯＣＲエンジンは、手書き文字を認識するように最適化されているため、スキャン画像から分離した手書き文字の部分画像を受信する必要がある。部分画像が、特定の文字フォントの活字、罫線、地紋、テクスチャ等の背景及びアイコン等を含む場合、ＯＣＲエンジンによる部分画像内の手書き文字の認識精度は低下することがある。以下、部分画像上の印刷内容を表すオブジェクトを「印刷画素」と呼称する。

また、画像認識分野においてニューラルネットワーク（以下、ＮＮ）の活用が注目されている。ＮＮは、画像内の各画素を所定のカテゴリー（クラス）に分類することに用いられ、それはエンコーダとデコーダを含む構成を有する。ＮＮは、エンコーダで入力画像に対して畳み込み計算を行い、画像の各画素のクラスを識別するための特徴マップを出力する。そして、ＮＮは、デコーダでエンコーダが出力した特徴マップに対して逆畳み込み計算を行って、入力画像の各画素がいずれのカテゴリーに属するかを示す画像（確率マップ）を出力する。

画像内のカテゴリーを分類するＮＮを、スキャン画像において手書き文字の画像とそれ以外の画像とに分離するタスクに応用し、入力画像から手書き文字の画素を抽出することが開示されている（非特許文献１）。すなわち、ＮＮは、入力画像内の各画素を、手書き文字を構成する画素であるか否かのカテゴリー分類を行う。以下、手書き文字を構成する画素を分類して抽出する処理を「手書き抽出」、手書き抽出によって抽出された画素を「手書き抽出画素」と呼称する。また、手書き抽出により得た画像を「手書き抽出画像」と呼称する。

また、カテゴリーを分類するＮＮを、帳票画像内の文字の記入領域を分類するタスクに応用し、入力画像上の手書き記入を含む領域を推定して出力するＮＮの作成が開示されている（非特許文献２）。以下、手書き記入を含む領域を推定する処理を「手書き領域推定」と呼称する。また、手書き領域推定によって得られた領域を「手書き領域」と呼称する。

一般的に、ＮＮがタスクを処理する際の計算量は多いことが知られている。「手書き領域推定」及び「手書き抽出」の両方の処理を、各処理に適した複数のＮＮにより行う場合、２つのＮＮが必要となり、タスク処理に係る計算負荷が増加する。特許文献１は、複数のタスク間で共通するＮＮのエンコーダの処理の一部を統合することで、計算量を低減するＮＮを開示している。

特開２０１９－１７７０３２号公報

"ＲｅｃｏｇｎｉｚｉｎｇＣｈａｌｌｅｎｇｉｎｇＨａｎｄｗｒｉｔｔｅｎＡｎｎｏｔａｔｉｏｎｓｗｉｔｈＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ"，１６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＦｒｏｎｔｉｅｒｓｉｎＨａｎｄｗｒｉｔｉｎｇＲｅｃｏｇｎｉｔｉｏｎ２０１８ "ＨａｎｄｗｒｉｔｔｅｎｔｅｘｔｌｉｎｅｓｅｇｍｅｎｔａｔｉｏｎｕｓｉｎｇＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ"，２０１７１４ｔｈＩＡＰＲＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓａｎｄＲｅｃｏｇｎｉｔｉｏｎ

しかしながら、ＮＮによるタスク処理に係る計算量は多いという課題がある。手書き抽出は、手書き領域推定により推定された手書き領域内に印刷画素が存在する場合に実行されるとよい。手書き領域内に印刷画素が含まれない場合、手書き抽出は実行されなくてもよいが、印刷画素が含まれるか否かに関わらず常に手書き抽出が実行されている。これにより、ＮＮの一部である手書き抽出のエンコーダ部分では不要な計算が行われている。

また、ＮＮは、手書き領域でない領域において誤抽出（手書き画素の抽出漏れ）してしまう場合があり、ＯＣＲの精度が低下することがある。このように、ＮＮの一部を共有し、かつ、複数種類の推定結果を出力するＮＮでは、全ての手書き抽出が必要ではない場合でも、その抽出が実行されている。これにより、ＮＮによるタスク処理で不要な計算負荷と抽出精度の低下が起こることがある。

本発明は、識別対象の抽出精度を向上させることを目的とする。

本発明の目的を達成するために、本発明の一実施形態に係る画像処理装置は、以下の構成を備える。すなわち、画像処理装置は、複数の識別対象が映る第１画像から特徴マップを取得する取得手段と、前記特徴マップに基づいて、前記第１画像内の前記複数の識別対象をそれぞれ包含する領域を推定する推定手段と、前記特徴マップに基づいて、前記第１画像内に背景の画素が含まれるか否かを判定する判定手段と、前記第１画像内に前記背景の画素が含まれると前記判定手段が判定した場合、前記特徴マップに基づいて、前記領域から識別対象の画素を抽出する抽出手段と、を備える。

本発明によれば、識別対象の抽出精度を向上させることができる。

画像処理システムの構成を示す図。画像処理装置、学習装置、画像処理サーバ、ＯＣＲサーバの構成を示す図。画像処理システムの学習シーケンスと利用シーケンスを示す図。帳票の一例を示す図。学習原稿スキャン画面等を示す図。原稿サンプル画像生成処理等のフローを示す図。学習データ生成処理と学習処理のフローを示す図。手書き抽出の学習データと手書き領域推定の学習データの構成例を示す図。帳票テキスト化依頼処理のフローと帳票テキスト化処理のフローを示す図。帳票テキスト化処理におけるデータ生成処理の概要を示す図。ニューラルネットワークの構成を示す図。第２実施形態に係る、画像処理システムの学習シーケンスを示す図。第２実施形態に係る、学習原稿スキャン画面等を示す図。合成領域定義情報のデータ構成を示す図。原稿サンプル画像生成処理等のフローを示す図。第２実施形態に係る、学習データ生成処理と学習処理のフローを示す図。背景パッチ画像等の構成の一例を示す図。帳票テキスト化処理のフローと手書き領域特徴取得処理のフローを示す図。手書き領域と特徴マップの関係性を示す図。帳票の記入の一例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

（第１実施形態）
第１実施形態は、識別対象（手書き文字）が映る処理対象画像から、手書き文字を包含する領域を推定し、その領域で手書き抽出が必要であるか否かを判定し、手書き抽出が必要であると判定した場合に手書き抽出を行う。これにより、第１実施形態は、手書き抽出に係る不要な抽出処理を行わないことにより、手書き抽出に要する処理時間及び手書き抽出不要領域における誤抽出に伴う抽出精度の低下を低減することができる。以下、手書き抽出の要否に係る判定処理を「抽出要否判定」と呼び、画像に対して文字認識処理（ＯＣＲ）を実行することを「手書きＯＣＲ」と呼ぶ。これにより、識別結果として抽出した手書き文字を手書きＯＣＲでテキスト化（データ化）することができる。なお、本実施形態は、処理対象画像から手書き文字を抽出することとするが、抽出対象はこれに限定されることはなく、例えば、活字文字及び押印等であってもよい。

図１は、画像処理システムの構成を示す図である。画像処理システム１００は、画像処理装置１０１、学習装置１０２、画像処理サーバ１０３、ＯＣＲサーバ１０４及びネットワーク１０５を含む。画像処理装置１０１、学習装置１０２、画像処理サーバ１０３及びＯＣＲサーバ１０４は、ネットワーク１０５を介して接続される。なお、本発明の画像処理システムは、複数の機器から構成されるシステム又は１つの機器から構成される装置に適用できる。画像処理装置１０１と画像処理サーバ１０３は、それぞれ別体の装置である構成として説明したが、画像処理装置１０１が画像処理サーバ１０３の機能を有しても良い。画像処理サーバ１０３とＯＣＲサーバ１０４とを別体の装置として説明したが、画像処理サーバ１０３はＯＣＲサーバ１０４としての機能を有しても良い。

画像処理装置１０１は、画像を処理する装置であり、例えば、ＭＦＰ（ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）と呼ばれるデジタル複合機等を含む。画像処理装置１０１は画像取得部１１１を有し、画像取得部１１１は画像の印刷及びスキャン機能を有する。画像処理装置１０１は、学習装置１０２に帳票を学習させるために、サンプルとなる帳票等の複数枚の原稿をスキャンして、複数の画像データを生成する。以下、この画像データを「原稿サンプル画像」と呼称する。サンプルとなる原稿は、手書きで文字が記入された原稿を含む。そして、画像処理装置１０１は、ネットワーク１０５を介して、原稿サンプル画像を学習装置１０２に送信し、それに帳票の学習処理を実行させる。

また、画像処理装置１０１は、帳票の画像処理を行う場合、認識対象となるオブジェクトとして、例えば、手書き文字が含まれる原稿をスキャンすることで画像データを取得する。以下、この画像データを「処理対象画像」と呼称する。そして、画像処理装置１０１は、処理対象画像を、ネットワーク１０５を介して、画像処理サーバ１０３に送信して、それに帳票の認識処理を実行させる。

学習装置１０２は、ＮＮの学習を行う装置であり、例えば、ＰＣ等を含む。学習装置１０２は、学習データ生成部１１２、学習部１１３及び画像蓄積部１１５を含む。画像蓄積部１１５は、画像処理装置１０１が生成した原稿サンプル画像を蓄積する。学習データ生成部１１２は、画像蓄積部１１５内の蓄積データから学習データを生成する。ここで、学習データとは、原稿サンプル画像内の手書き領域推定、手書き抽出及び抽出要否判定を行うＮＮを学習させるためのデータである。学習部１１３は、学習データの処理を実行するＮＮを有し、学習データ生成部１１２が生成した学習データを用いて、ＮＮの学習を実行する。学習部１１３は、ＮＮに学習データを処理させることにより、学習結果（ＮＮのパラメータ等）を生成する。学習装置１０２は、学習結果を、ネットワーク１０５を介して、画像処理サーバ１０３に送信する。ＮＮの詳細は、図１１で後述する。なお、学習データ生成部１１２と学習部１１３は、学習装置１０２に含まれる構成としたが、それぞれの機能構成が別体の装置にそれぞれ含まれてもよい。例えば、学習データ生成部１１２を含む装置はそれが生成した学習データを、学習部１１３を含む他の装置に送信する。また、学習部１１３は、受信した学習データに基づいてＮＮを学習させてもよい。

画像処理サーバ１０３は、ＮＮにより処理対象画像の処理を行う装置であり、画像変換部１１４を含む。画像変換部１１４は、処理対象画像から手書きＯＣＲの対象とする画像に変換する。ここで、画像変換部１１４は、画像処理装置１０１が生成した処理対象画像に対して手書き領域の推定を行う。画像処理サーバ１０３は、学習装置１０２が生成した学習結果を用いることで、ＮＮの推論により処理対象画像中の手書き文字が記入された領域を推定する。これにより、画像処理サーバ１０３は、処理対象画像から「手書き領域」を取得する。手書き領域は、処理対象画像中の一部の領域を示す情報であり、例えば、処理対象画像上の特定の画素位置（座標）と、画素位置からの幅と高さを含む情報として表現される。

また、手書き領域は、帳票に記入された項目数に応じて、複数の領域として得られる。さらに、画像変換部１１４は、手書き領域推定により得た手書き領域において手書き抽出を行う。この際、画像処理装置１０１は、学習装置１０２が生成した学習結果を用いることで、ＮＮの推論により手書き領域中の手書き文字の画素を抽出し、手書き抽出画像を得る。ここで、手書き領域は、処理対象画像における各記入項目に基づき区分される領域である。一方、手書き抽出画像は、手書き領域中の手書き文字の画素を抽出した画像である。すなわち、手書き領域内に活字の一部が含まれていたとしても、手書き抽出画像では手書きの画素のみが抽出され、活字の画素は含まれない。したがって、手書き領域推定と手書き抽出の結果によれば、処理対象画像中の手書き文字のみを、帳票の記入欄毎に区別して扱うことができる。

また、処理対象画像の手書き領域内の背景に応じて、手書き抽出が必要である場合とそうでない場合とがある。例えば、画像処理システム１００が、領収証の処理対象画像を受信して、領収証内の金額及び発行日付等をテキスト化する場合について説明する。市場において数種類の領収証の市販品が存在し、領収証の発行者はまた、独自のフォーマット、デザイン及びレイアウトで領収証を作成することがある。つまり、画像処理システム１００は、様々なフォーマット等を有する領収証の処理対象画像を処理する必要がある。例えば、領収証のフォーマット及びデザインの一例として、無地（白地）、地紋及びグラフィクス等の背景がある。領収証が無地のデザインである場合、手書き領域は背景に由来する印刷画素を含まず、手書き文字の画素のみを含むため、画像処理サーバ１０３の画像変換部１１４による手書き抽出は不要である。

一方、領収証に背景が映っている場合、手書き領域は背景に由来する印刷画素を含むため、画像処理サーバ１０３の画像変換部１１４は、領収証の処理対象画像から手書き抽出により手書き文字の画素を抽出しなければならない。画像変換部１１４は、学習装置１０２が生成した学習結果に基づいて、処理対象画像からＮＮの推論により手書き抽出の要否判定を行う。そして、ＮＮは、手書き抽出が必要であると判定した場合、画像変換部１１４は領収証の処理対象画像から手書き抽出を行い、手書き文字の画素を抽出する。ＮＮは、手書き抽出が必要でないと判定した場合、画像変換部１１４は、手書き領域に手書き文字の画素のみを含むため、処理対象画像における手書き領域に対応する部分画像を手書き抽出画像とする。本実施形態において、画像変換部１１４は、手書き抽出の要否判定として、例えば、処理対象画像が地紋及びテクスチャ等の背景を有するか否かを判定する。

そして、画像変換部１１４は、手書き抽出画像をＯＣＲサーバ１０４に送信する。画像変換部１１４は、ＯＣＲサーバ１０４に、手書き領域内の手書き文字のみが抽出された手書き抽出画像を、手書きＯＣＲの対象領域とすることを指示する。また、画像変換部１１４は、手書き領域及び手書き抽出画像を参照して、処理対象画像上の特定の画素位置（座標）から手書き画素を除去した画像（以下、活字画像）を生成する。画像変換部１１４は、活字画像上の領域において、活字ＯＣＲの対象とする活字を含む領域（以下、活字領域）の情報を生成する。活字領域の生成については後述する。

画像変換部１１４は、活字画像と活字領域とをＯＣＲサーバ１０４に送信する。これにより、画像変換部１１４は、ＯＣＲサーバ１０４に、活字画像上の活字領域に対して、それぞれ活字ＯＣＲを行うことを指示する。画像変換部１１４は、ＯＣＲサーバ１０４から手書きＯＣＲ結果及び活字ＯＣＲ結果を受信する。画像変換部１１４は、受信した結果を統合したテキストデータを画像処理装置１０１に送信する。以下、このテキストデータを「帳票テキストデータ」と呼称する。

ＯＣＲサーバ１０４は、手書き文字の文字認識に適した手書きＯＣＲ部１１６と、活字文字の文字認識に適した活字ＯＣＲ部１１７としての機能を備える。ＯＣＲサーバ１０４は、手書き抽出画像を受信すると、手書きＯＣＲ部１１６において、当該手書き抽出画像に対して手書きＯＣＲ処理を行ってテキストデータ（ＯＣＲ結果）を取得する。手書きＯＣＲ部１１６は、テキストデータを画像処理サーバ１０３に送信する。また、ＯＣＲサーバ１０４は、活字画像と活字領域を受信すると、活字ＯＣＲ部１１７が、活字画像中の活字領域に対して活字ＯＣＲ処理を行ってテキストデータを取得する。活字ＯＣＲ部１１７は、テキストデータを画像処理サーバ１０３に送信する。

図２は、画像処理装置、学習装置、画像処理サーバ、ＯＣＲサーバの構成を示す図である。図２（ａ）は画像処理装置の構成を示す図である。図２（ｂ）は学習装置の構成を示す図である。図２（ｃ）は画像処理サーバの構成を示す図である。図２（ｄ）はＯＣＲサーバの構成を示す図である。

図２（ａ）で画像処理装置１０１は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、プリンタデバイス２０５、スキャナデバイス２０６及び原稿搬送デバイス２０７を含む。さらに、画像処理装置１０１は、ストレージ２０８、入力デバイス２０９、表示デバイス２１０及び外部インタフェース２１１を含む。画像処理装置１０１内の各デバイスは、データバス２０３によって相互通信可能なように接続される。

ＣＰＵ２０１は、画像処理装置１０１を全体的に制御する装置である。ＣＰＵ２０１は、ＲＯＭ２０２内のブートプログラムを実行することでＯＳ（オペレーティングシステム）を起動する。このＯＳ上で、ストレージ２０８に記憶されているコントローラプログラムが実行される。コントローラプログラムは、画像処理装置１０１を制御するためのプログラムのことである。ＣＰＵ２０１は、データバス２０３によって接続されている各デバイスを全体的に制御する。

ＲＯＭ２０２は、ＣＰＵ２０１が実行する各種プログラム及びデータを記憶する装置である。

データバス２０３は、画像処理装置１０１内の各デバイス間でデータを送受信するためのデータ伝送路である。

ＲＡＭ２０４は、ＣＰＵ２０１の主メモリやワークエリア等の一時記憶領域である。

プリンタデバイス２０５は、画像データを用紙（記録材及びシート等）上に印刷する装置である。プリンタデバイス２０５は、感光体ドラム及び感光体ベルト等を用いた電子写真印刷方式、及び、微小ノズルアレイからインクを吐出して用紙上に直接画像を印字するインクジェット方式のいずれかの方式を有する。

スキャナデバイス２０６は、画像データを生成する装置であり、ＣＣＤ等の光学読取装置を用いて、紙等の原稿上の走査から得られる電気信号データに変換する。スキャナデバイス２０６は、例えば、スマートフォン、タブレット及びハンディスキャナ等を含む。

原稿搬送デバイス２０７は、紙等の原稿を搬送する装置であり、例えば、ＡＤＦ（オート・ドキュメント・フィーダ）を含む。原稿搬送デバイス２０７は、それの原稿台に載置された原稿を１枚ずつスキャナデバイス２０６に搬送する。

ストレージ２０８は、画像処理装置１０１内の様々なデータを記憶する装置であり、例えば、ＨＤＤ及びＳＳＤ等の読み出しと書き込みが可能な不揮発メモリを含む。ストレージ２０８は、上記のコントローラプログラム等の様々なデータを記録する。

入力デバイス２０９は、画像処理装置１０１に対する各種入力を受け付ける入力装置であり、例えば、マウス、タッチパネル、ジョイスティック及びハードキーを含む。入力デバイス２０９は、ユーザからの各種操作指示を受け付ける。そして、入力デバイス２０９は、ユーザが入力した指示情報をＣＰＵ２０１に送信する。なお、入力デバイス２０９は、ユーザ指示を受け付ける受付手段とも呼ばれる。

表示デバイス２１０は、画像処理装置１０１が出力する各種情報を表示制御する装置であり、例えば、液晶（ＬＣＤ）、ＣＲＴ及び有機ＥＬを含む。表示デバイス２１０は、ＣＰＵ２０１が生成した表示データを表示する。ＣＰＵ２０１は、入力デバイス２０９から受信した指示情報と、表示デバイス２１０に表示している表示データとに基づいて、ユーザがいずれの操作を指示したかを判定する。ＣＰＵ２０１は、この判定結果に応じて、画像処理装置１０１を制御し、新たな表示データを生成し、それを表示デバイス２１０に表示させる。

外部インタフェース２１１は、外部機器との間で各種データの送受信を行う伝送装置であり、例えば、有線又は無線ＬＡＮ、電話回線及び近接無線（赤外線及びＢｌｕｅｔｏｏｔｈ等）のネットワークを含む。外部インタフェース２１１は、学習装置１０２及びＰＣ（不図示）等の外部機器より、ＰＤＬ（ＰａｇｅＤｅｓｃｒｉｐｔｉｏｎＬａｎｇｕａｇｅ）データを受信する。ＣＰＵ２０１は、外部インタフェース２１１が受信したＰＤＬデータを解析して、画像を生成する。

ＣＰＵ２０１は、画像をプリンタデバイス２０５に印刷させるか、ストレージ２０８に記憶する。また、外部インタフェース２１１は、画像処理サーバ１０３等の外部機器より画像データを受信する。ＣＰＵ２０１は、受信した画像データをプリンタデバイス２０５により印刷するか、ストレージ２０８に記憶する。あるいは、ＣＰＵ２０１は、画像データを外部インタフェース２１１経由で他の外部機器（不図示）に送信する。

図２（ｂ）で学習装置１０２は、ＣＰＵ２３１、ＲＯＭ２３２、ＲＡＭ２３４、ストレージ２３５、入力デバイス２３６、表示デバイス２３７、外部インタフェース２３８及びＧＰＵ２３９を含む。学習装置１０２内の各部は、データバス２３３を介して相互にデータを送受信することができる。

ＣＰＵ２３１は、学習装置１０２の全体を制御する装置である。ＣＰＵ２３１は、不揮発メモリであるＲＯＭ２３２に格納されているブートプログラムを実行することによりＯＳを起動する。ＣＰＵ２３１は、このＯＳ上で、ストレージ２３５に記憶されている学習データ生成プログラム及び学習プログラムを実行する。ＣＰＵ２３１は、学習データ生成プログラムを実行することより、学習データを生成する。また、ＣＰＵ２３１は、学習プログラムを実行することにより、手書き領域推定、手書き抽出及び抽出要否判定を行うニューラルネットワークを学習させる。ＣＰＵ２３１は、データバス２３３等のバスを介して、学習装置１０２内の各部を制御する。

ＲＯＭ２３２は、ＣＰＵ２０１が実行する各種プログラム及びデータを記憶する。

データバス２３３は、学習装置１０２内の各デバイス間でデータを送受信するためのデータ伝送路である。

ＲＡＭ２３４は、ＣＰＵ２３１のメインメモリ及びワークエリア等の一時記憶領域として動作する。

ストレージ２３５は、読み出しと書き込みが可能な不揮発メモリであり、上記の学習データ生成プログラム及び学習プログラムを記憶する。

入力デバイス２３６は、マウス及びキーボード等を含む入力装置である。

表示デバイス２３７は、図２（ａ）の表示デバイス２１０と同様の構成であるので、説明を省略する。外部インタフェース２３８は、図２（ａ）の外部インタフェース２１１と同様の構成であるので、説明を省略する。

ＧＰＵ２３９は、画像処理プロセッサであり、ＣＰＵ２３１と協調して画像データの生成及びニューラルネットワークの学習を行う。

図２（ｃ）で画像処理サーバ１０３は、ＣＰＵ２６１、ＲＯＭ２６２、ＲＡＭ２６４、ストレージ２６５、入力デバイス２６６、表示デバイス２６７及び外部インタフェース２６８を含む。画像処理サーバ１０３内の各部は、データバス２６３を介して、相互にデータを送受信することができる。

ＣＰＵ２６１は、画像処理サーバ１０３の全体を制御する装置である。ＣＰＵ２６１は、不揮発メモリであるＲＯＭ２６２に格納されているブートプログラムを実行することによりＯＳを起動する。ＣＰＵ２６１は、このＯＳ上で、ストレージ２６５に記憶されている画像処理サーバプログラムを実行する。ＣＰＵ２６１は、画像処理サーバプログラムを実行することより、処理対象画像に対して、手書き領域推定、手書き抽出及び抽出要否判定を行う。ＣＰＵ２６１は、データバス２６３等のバスを介して、画像処理サーバ１０３内の各部を制御する。

ＲＡＭ２６４は、ＣＰＵ２６１のメインメモリ及びワークエリア等の一時記憶領域である。

ストレージ２６５は、読み出しと書き込みが可能な不揮発メモリであり、画像処理サーバプログラムを記憶する。

入力デバイス２６６は、図２（ｂ）の入力デバイス２３６と同様の構成であるので、説明を省略する。表示デバイス２６７は、図２（ａ）の表示デバイス２１０と同様の構成であるので、説明を省略する。外部インタフェース２６８は、図２（ａ）の外部インタフェース２１１と同様の構成であるので、説明を省略する。

図２（ｄ）でＯＣＲサーバ１０４は、ＣＰＵ２９１、ＲＯＭ２９２、ＲＡＭ２９４、ストレージ２９５、入力デバイス２９６、表示デバイス２９７及び外部インタフェース２９８を含む。ＯＣＲサーバ１０４内の各部は、データバス２９３を介して、相互にデータを送受信することができる。

ＣＰＵ２９１は、ＯＣＲサーバ１０４の全体を制御する装置である。ＣＰＵ２９１は、不揮発メモリであるＲＯＭ２９２に格納されているブートプログラムを実行することによりＯＳを起動する。ＣＰＵ２９１は、このＯＳ上で、ストレージ２９５に記憶されているＯＣＲサーバプログラムを実行する。ＣＰＵ２９１は、ＯＣＲサーバプログラムを実行することより、手書き抽出画像及び活字画像の手書き文字及び活字を認識して、認識した手書き文字及び活字をテキスト化する。ＣＰＵ２９１は、データバス２９３等のバスを介して、ＯＣＲサーバ１０４内の各部を制御する。

ＲＯＭ２９２は、ＣＰＵ２９１が実行する各種プログラム及びデータを記憶する。

データバス２９３は、ＯＣＲサーバ１０４内の各デバイス間でデータを送受信するためのデータ伝送路である。

ＲＡＭ２９４は、ＣＰＵ２９１のメインメモリ及びワークエリア等の一時記憶領域である。

ストレージ２９５は、読み出しと書き込みが可能な不揮発メモリであり、ＯＣＲサーバプログラムを記憶する。

入力デバイス２９６は、図２（ｂ）の入力デバイス２３６と同様の構成であるので、説明を省略する。表示デバイス２９７は、図２（ａ）の表示デバイス２１０と同様の構成であるので、説明を省略する。外部インタフェース２９８は、図２（ａ）の外部インタフェース２１１と同様の構成であるので、説明を省略する。

図３は、画像処理システムの学習シーケンスと利用シーケンスを示す図である。図３（ａ）は、画像処理システムの学習シーケンスを示す図である。

Ｓ３０１で、ユーザが画像処理装置１０１に対して原稿の読取指示を行う。

Ｓ３０２で、画像取得部１１１は原稿を読み取り、原稿サンプル画像を生成する。

Ｓ３０３で、画像取得部１１１は、原稿サンプル画像とそのＩＤ情報を、学習データ生成部１１２に送信する。ＩＤ情報は、例えば、画像取得部１１１として機能する画像処理装置１０１を識別するための情報である。なお、ＩＤ情報は、画像処理装置１０１を操作するユーザを識別するためのユーザ識別情報、及び、ユーザが所属するグループを識別するためのグループ識別情報であってもよい。

Ｓ３０４で、学習データ生成部１１２は、画像蓄積部１１５に原稿サンプル画像とそのＩＤ情報を紐づけて蓄積する。

Ｓ３０５で、ユーザが、学習装置１０２に対して原稿サンプル画像に関する正解データの付与の指示を行う。

Ｓ３０６で、学習データ生成部１１２は、原稿サンプル画像に関する正解データを取得し、正解データを原稿サンプル画像に紐づけて、画像蓄積部１１５に蓄積する。正解データは、ＮＮの学習用データである。正解データの付与方法については後述する。

Ｓ３０７で、学習データ生成部１１２は、蓄積したデータに基づいて、学習データを生成する。この際、学習データ生成部１１２は、特定のＩＤ情報に紐づいている原稿サンプル画像のみを用いて学習データを生成してもよい。

Ｓ３０８で、学習データ生成部１１２は、学習部１１３に学習データを送信する。学習データ生成部１１２は、特定のＩＤ情報に紐づく画像のみで学習データを生成した場合、ＩＤ情報も一緒に学習部１１３に送信する。

Ｓ３０９で、学習部１１３は、受信した学習データを用いて、ＮＮの学習処理を行い、その学習モデルを更新する。学習部１１３は、ＩＤ情報ごとに学習モデルを保持し、対応する学習データのみでＮＮの学習を実行してもよい。このように、学習部１１３は、ＩＤ情報と学習モデルを紐づけることで、特定の利用環境に特化した学習モデルを構築することができる。

図３（ｂ）は、画像処理システムの利用シーケンスを示した図である。

Ｓ３５１で、ユーザが原稿（例えば、帳票）の読取指示を画像処理装置１０１に対して行う。

Ｓ３５２で、画像取得部１１１は、原稿を読み取り、処理対象画像を生成する。ここで、画像取得部１１１が読み取る画像は、例えば、図４（ａ）及び（ｂ）に示すような帳票４００及び帳票４５０である。帳票４００は、宛名記入欄４０１、金額記入欄４０２、発行年記入欄４０３、発行月記入欄４０４、発行日記入欄４０５及び但し書き記入欄４０６を備える。帳票４５０は、宛名記入欄４５１、金額記入欄４５２、発行年記入欄４５３、発行月記入欄４５４、発行日記入欄４５５及び但し書き記入欄４５６を備える。

図４（ａ）及び（ｂ）において点線で図示する箇所は、手書きで記入される記入欄を示す。各記入欄は、宛名、金額、発行年、発行月、発行日及び但し書きに関する情報を含む。なお、領収証の発行者は、記入欄の配置（すなわち、帳票のレイアウト）を、独自の配置として設定している。このため、画像取得部１１１は、それが読み取った帳票毎に異なる画像（いわゆる、非定型帳票の画像）を生成する。

Ｓ３５３で、画像取得部１１１は、読み取った処理対象画像にＩＤ情報を付与して、画像変換部１１４に送信する。

Ｓ３５４で、画像変換部１１４は、データを受信すると、処理対象画像のテキスト化指示を受信する。この際、画像変換部１１４は、画像取得部１１１をテキストデータの返信先として記憶する。

Ｓ３５５で、画像変換部１１４は、手書き文字の加工指示を受け付け、最新の学習モデルの送信を学習部１１３に要求する。

Ｓ３５６で、学習部１１３は、画像変換部１１４からの学習モデルの送信要求に応じて、最新の学習モデルを画像変換部１１４に送信する。学習部１１３は、画像変換部１１４からの学習モデルの送信要求中にＩＤ情報が指定されている場合、ＩＤ情報に対応する学習モデルを送信する。

Ｓ３５７で、画像変換部１１４は、受信した学習モデルに基づいて、処理対象画像に対して、手書き領域推定を行う。また、画像変換部１１４は、処理対象画像に対する抽出要否判定の結果に基づいて、処理対象画像から手書き抽出を行う。

Ｓ３５８で、画像変換部１１４は、手書き領域毎の手書き抽出画像を、手書きＯＣＲ部１１６に送信する。

Ｓ３５９で、手書きＯＣＲ部１１６は、手書き抽出画像に対して、手書きＯＣＲ処理を施し、テキストデータ（手書き）を取得する。

Ｓ３６０で、手書きＯＣＲ部１１６は、テキストデータ（手書き）を画像変換部１１４に送信する。

Ｓ３６１で、画像変換部１１４は、処理対象画像から活字画像と活字領域とを生成する。

Ｓ３６２で、画像変換部１１４は、活字ＯＣＲ部１１７に活字画像と活字領域を送信する。

Ｓ３６３で、活字ＯＣＲ部１１７は、活字画像に活字ＯＣＲ処理を施し、テキストデータ（活字）を取得する。

Ｓ３６４で、活字ＯＣＲ部１１７は、テキストデータ（活字）を画像変換部１１４に送信する。

Ｓ３６５で、画像変換部１１４は、テキストデータ（手書き）及びテキストデータ（活字）の少なくともいずれかに基づいて、帳票テキストデータを生成する。

Ｓ３６６で、画像変換部１１４は、帳票テキストデータを画像取得部１１１に送信する。

Ｓ３６７で、画像取得部１１１は、帳票テキストデータの利用画面をユーザに提示する。そして、画像取得部１１１は、帳票テキストデータの利用用途に応じて、帳票テキストデータを出力する。画像取得部１１１は、例えば、外部の業務システム（不図示）に帳票テキストデータを送信するか、プリンタデバイス２０５にそれを送信して印刷させる。

図５は、学習原稿スキャン画面等を示す図である。図５（ａ）は学習原稿スキャン画面を示す図である。

学習原稿スキャン画面５００は、画像処理装置１０１の表示デバイス２１０に表示される画面の一例である。図３（ａ）のＳ３０１におけるユーザ指示は、学習原稿スキャン画面５００をユーザ操作することにより行われる。学習原稿スキャン画面５００は、図５（ａ）に示すように、プレビュー領域５０１、スキャンボタン５０２及び送信開始ボタン５０３を備える。

プレビュー領域５０１は、原稿のスキャンが完了すると、生成される原稿サンプル画像を、画面上に表示する。

スキャンボタン５０２は、スキャナデバイス２０６にセットされた原稿の読取を開始するためのボタンである。画像処理装置１０１は、スキャナデバイス２０６に別の原稿をセットし、スキャンボタン５０２を再び押すことで、複数の原稿サンプル画像をまとめて保持することもできる。

スキャナデバイス２０６による原稿の読み取りが完了すると、送信開始ボタン５０３の操作が可能となる。送信開始ボタン５０３は、ユーザから送信の指示を受け付けると、原稿サンプル画像を学習装置１０２に送信する。

図５（ｂ）は、手書き抽出正解データ作成画面を示す図である。図５（ｃ）は、手書き領域推定正解データ作成画面を示す図である。ここで、図３（ａ）の学習シーケンスのＳ３０５に示したユーザ指示は、図５（ｂ）及び図５（ｃ）に示すような操作画面で行われる。ユーザは、手書き抽出正解データ作成画面及び手書き領域推定正解データ作成画面を操作して、正解データを作成する。

図５（ｂ）で手書き抽出正解データ作成画面５２０は、学習装置１０２の表示デバイス２３７に表示される画面の一例である。なお、手書き抽出正解データ作成画面５２０は、学習装置１０２とネットワークを介して接続された他の装置（ＰＣ等）の表示デバイスに表示されてもよい。ユーザは、他の装置を介して学習装置１０２に対する指示を行ってもよい。手書き抽出正解データ作成画面５２０は、画像表示領域５２１、画像選択ボタン５２２、拡大ボタン５２３、縮小ボタン５２４、抽出ボタン５２５、推定ボタン５２６、保存ボタン５２７及び抽出要否設定ボタン５２８を含む。

画像表示領域５２１は、ユーザが原稿サンプル画像を選択すると、ユーザ選択に応じた原稿サンプル画像を表示する。ユーザは、画像表示領域５２１に表示された原稿サンプル画像に対して操作し、正解データを作成する。

画像選択ボタン５２２は、画像処理装置１０１の画像蓄積部１１５に蓄積されている原稿サンプル画像を選択するためのボタンである。ユーザが画像選択ボタン５２２を選択すると、選択画面（不図示）が表示され、ユーザは選択画面から原稿サンプル画像を選択することができる。

拡大ボタン５２３及び縮小ボタン５２４はそれぞれ、画像表示領域５２１の表示を拡大及び縮小するためのボタンである。拡大ボタン５２３及び縮小ボタン５２４はそれぞれ、ユーザが正解データの作成を行いやすいように、画像表示領域５２１内の原稿サンプル画像を拡大及び縮小して表示する。

抽出ボタン５２５及び推定ボタン５２６はそれぞれ、手書き抽出及び手書き領域推定の正解データの作成を選択するためのボタンである。抽出ボタン５２５及び推定ボタン５２６のいずれかがユーザに選択されると、選択されたボタンは強調して表示される。抽出ボタン５２５がユーザによって選択されると、手書き抽出の正解データを作成する状態となる。ユーザが抽出ボタン５２５を選択した場合、ユーザは、手書き抽出の正解データを次のように操作して作成する。ユーザは、図５（ｂ）に示すように、入力デバイス２３６を介してマウスカーソルを操作し、画像表示領域５２１に表示されている原稿サンプル画像中の手書き文字をなぞって選択する。

学習データ生成部１１２は、マウスカーソルによる操作を受信すると、上記操作により選択された原稿サンプル画像上の画素位置を記録する。すなわち、手書き抽出の正解データは、原稿サンプル画像上の、手書きに該当する画素の位置となる。一方、ユーザが推定ボタン５２６を選択すると、学習データ生成部１１２は、手書き領域推定の正解データを作成する状態となる。次にユーザは、手書き領域推定の正解データを次のように操作して作成する。

ユーザは、図５（ｃ）の点線枠のサイズを変更するために、入力デバイス２３６を介してマウスカーソルを操作する。そして、ユーザは、画像表示領域５２１内の原稿サンプル画像中の手書き文字を点線枠内に内包させるように領域を選択する。この際、ユーザは、手書き文字を項目ごと（例えば、宛名及び金額ごと）の領域に含むように選択する。学習データ生成部１１２は、ユーザの領域選択に係る操作を受信すると、上記操作により選択された領域を記録する。このように、手書き領域推定の正解データは、原稿サンプル画像上の項目ごとの手書き記入を内包する領域となる。以下、手書きが記入された領域を「手書き領域」と呼称する。

抽出要否設定ボタン５２８は、画像表示領域５２１内の原稿サンプル画像に対して、手書き抽出が必要であるか否かを設定するためのボタンである。抽出要否設定ボタン５２８は、トグル状のボタンとなっており、このボタンが押下されるとＯＮとなり、手書き抽出が必要であることを設定する。一方、抽出要否設定ボタン５２８は、そのボタンが再度押下されるとＯＦＦとなり、手書き抽出が不要であることを設定する。抽出要否設定ボタン５２８は、初期状態ではＯＦＦの状態である。ユーザは、画像表示領域５２１内の原稿サンプル画像を確認して、地紋及びテクスチャ等の背景の有無に応じて、抽出要否設定ボタン５２８を選択する。

保存ボタン５２７は、作成された手書き抽出の正解データを保存するためのボタンである。手書き抽出の正解データは、次のような画像として、画像蓄積部１１５に蓄積される。手書き抽出の正解データは、原稿サンプル画像と同じサイズ（幅及び高さ）を有する。ユーザにより選択された手書き文字位置の画素値は、手書きを示す値（例えば、２５５）である。ユーザの非選択領域の画素値は、手書きではないことを示す値（例えば、０）である。以下、手書き抽出の正解データである画像を「手書き抽出正解画像」と呼称する。

ここで、図４（ｃ）は、手書き抽出正解画像の一例を示す。また、手書き領域推定の正解データは、次のような画像として、画像蓄積部１１５に蓄積される。手書き領域推定の正解データは、原稿サンプル画像と同じサイズ（幅及び高さ）を有する。ユーザにより選択された手書き領域に該当する画素値は、手書き領域であることを示す値（例えば、２５５）である。また、ユーザの非選択領域の画素値は、手書き領域ではないことを示す値（例えば、０）である。以下、手書き領域推定の正解データである画像を「手書き領域推定正解画像」と呼称する。

図４（ｄ）は、手書き領域推定正解画像の一例を示す。また、抽出要否判定の正解データは、次のような画像として、画像蓄積部１１５に蓄積される。ユーザが抽出要否設定ボタン５２８をＯＮに設定していた場合、抽出要否判定の正解データは、手書き抽出が必要であることを示す値（例えば、２５５）となる。ユーザが抽出要否設定ボタン５２８をＯＦＦに設定していた場合、抽出要否判定の正解データは、手書き抽出が不要であることを示す値（例えば、０）となる。

また、図３（ｂ）のＳ３５１におけるユーザ指示は、次のような操作画面で行われる。図５（ｄ）は、帳票処理画面を示す図である。図５（ｄ）で帳票処理画面５４０は、プレビュー領域５４１、スキャンボタン５４２及び送信開始ボタン５４３を備える。

プレビュー領域５４１は、スキャナデバイス２０６による原稿のスキャンが完了すると、生成された処理対象画像を表示する。

スキャンボタン５４２は、スキャナデバイス２０６にセットされた原稿の読取を開始するためのボタンである。

送信開始ボタン５４３は、原稿が読み取られると、それの操作が可能となる。送信開始ボタン５４３は、送信指示を受信すると、処理対象画像を画像処理サーバ１０３に送信する。

また、図３（ｂ）のＳ３６７に示した帳票データの出力は、次のような操作画面で行われる。図５（ｅ）は、帳票処理結果画面を示す図である。

帳票処理結果画面５６０は、プレビュー領域５６１、帳票テキストデータ表示領域５６２及びＯＫボタン５６３を備える。

プレビュー領域５６１は、処理対象画像として、例えば、領収証を表示する。

帳票テキストデータ表示領域５６２は、処理対象画像を処理して得られた帳票テキストデータとして、例えば、「宛名：キャノン、金額１２００、発行日：２０２００６０５、品目：お品代として」を表示する。帳票処理の結果に不備がある場合、ユーザは、入力デバイス２０９を介して、帳票テキストデータを編集することができる。

ＯＫボタン５６３は、帳票処理の確定を指示するためのボタンである。ＯＫボタン５６３は、それが選択されると、帳票テキストデータを出力として、例えば、それを保存するか又は別の外部機器へ送信する。

（原稿サンプル画像生成処理）
図６は、原稿サンプル画像生成処理等のフローを示す図である。図６（ａ）は原稿サンプル画像生成処理のフローを示す図である。原稿サンプル画像生成処理は、ＣＰＵ２０１が、ストレージ２０８内のコントローラプログラムを読み出し、ＲＡＭ２０４に展開して実行することで実現される。原稿サンプル画像生成処理は、ユーザが、画像処理装置１０１の入力デバイス２０９を操作することにより開始される。

Ｓ６０１で、ＣＰＵ２０１は、原稿のスキャン指示がされたか否かを判定する。ＣＰＵ２０１は、ユーザが入力デバイス２０９を介して、原稿をスキャンするための所定の操作（スキャンボタン５０２の指示）をしたと判定した場合（Ｓ６０１でＹｅｓ）、処理はＳ６０２に進む。一方、ＣＰＵ２０１は、ユーザが入力デバイス２０９を介して、原稿をスキャンするための所定の操作（スキャンボタン５０２の指示）をしていないと判定した場合（Ｓ６０１でＮｏ）、処理はＳ６０４に進む。

Ｓ６０２で、ＣＰＵ２０１は、スキャナデバイス２０６及び原稿搬送デバイス２０７を制御して、原稿をスキャンすることにより原稿サンプル画像を生成する。原稿サンプル画像は、グレースケールの画像データとして生成される。なお、原稿サンプル画像は、ユーザ操作及び原稿搬送デバイス２０７に載置した原稿枚数に応じて、複数枚取得されてよい。

Ｓ６０３で、ＣＰＵ２０１は、Ｓ６０２で生成した原稿サンプル画像を、外部インタフェース２１１を介して、学習装置１０２に送信する。

Ｓ６０４で、ＣＰＵ２０１は、原稿サンプル画像の生成処理を終了するか否かを判定する。ＣＰＵ２０１は、ユーザが、原稿サンプル画像生成処理を終了する所定の操作をしたと判定した場合（Ｓ６０４でＹｅｓ）、処理を終了する。一方、ＣＰＵ２０１は、ユーザが、原稿サンプル画像生成処理を終了する所定の操作をしていないと判定した場合（Ｓ６０４でＮｏ）、処理はＳ６０１に戻る。

図６（ｂ）は、原稿サンプル画像受信処理のフローを示す図である。原稿サンプル画像受信処理は、ＣＰＵ２３１が、ストレージ２３５内の学習データ生成プログラムを読み出し、ＲＡＭ２３４に展開して実行することで実現される。原稿サンプル画像受信処理は、ユーザが、学習装置１０２の電源をＯＮにすると開始される。

Ｓ６２１で、ＣＰＵ２３１は、原稿サンプル画像を外部インタフェース２３８経由で受信したか否かを判定する。ＣＰＵ２３１は、外部インタフェース２３８を介して原稿サンプル画像を受信したと判定した場合（Ｓ６２１でＹｅｓ）、処理はＳ６２２に進む。ＣＰＵ２３１は、外部インタフェース２３８を介して原稿サンプル画像を受信していないと判定した場合（Ｓ６２１でＮｏ）、処理はＳ６２３に進む。

Ｓ６２２で、ＣＰＵ２３１は、受信した原稿サンプル画像を、ストレージ２３５に記録する。

Ｓ６２３で、ＣＰＵ２３１は、原稿サンプル画像受信処理を終了するか否かを判定する。ＣＰＵ２３１は、ユーザが、学習装置１０２の電源をＯＦＦにする等の所定の操作をしたと判定した場合（Ｓ６２３でＹｅｓ）、処理を終了する。ＣＰＵ２３１は、ユーザが、学習装置１０２の電源をＯＦＦにする等の所定の操作をしていないと判定した場合（Ｓ６２３でＮｏ）、処理はＳ６２１に戻る。

図６（ｃ）は、正解データ生成処理のフローを示す図である。正解データ生成処理は、学習装置１０２の学習データ生成部１１２により実現される。正解データ生成処理は、ユーザが、学習装置１０２の入力デバイス２３６を介して、所定の操作をすることで開始される。

Ｓ６４１で、ＣＰＵ２３１は、原稿サンプル画像の選択指示がされたか否かを判定する。ＣＰＵ２３１は、ユーザが、入力デバイス２３６を介して、原稿サンプル画像を選択するための所定の操作（画像選択ボタン５２２の指示）をしたと判定した場合（Ｓ６４１でＹｅｓ）、処理はＳ６４２に進む。ＣＰＵ２３１は、ユーザが、入力デバイス２３６を介して、原稿サンプル画像を選択するための所定の操作（画像選択ボタン５２２の指示）をしていないと判定した場合（Ｓ６４１でＮｏ）、処理はＳ６４３に進む。

Ｓ６４２で、ＣＰＵ２３１は、Ｓ６４１でユーザが選択した原稿サンプル画像を、ストレージ２３５から読み出して、その画像を画像表示領域５２１に表示する。

Ｓ６４３で、ＣＰＵ２３１は、ユーザが正解データの入力指示を行ったか否かを判定する。ＣＰＵ２３１は、ユーザが、入力デバイス２３６を介して、原稿サンプル画像上の手書き文字をなぞるか、又は、手書き文字の記入領域を選択する操作をしたと判定した場合（Ｓ６４３でＹｅｓ）、処理はＳ６４４に進む。ＣＰＵ２３１は、ユーザが上記の操作をしていないと判定した場合（Ｓ６４３でＮｏ）、処理はＳ６４７に進む。

Ｓ６４４で、ＣＰＵ２３１は、ユーザが入力した正解データが、手書き抽出の正解データであるか否かを判定する。ＣＰＵ２３１は、ユーザが、手書き抽出の正解データ作成を指示する操作（抽出ボタン５２５の選択）をしたと判定した場合（Ｓ６４４でＹｅｓ）、処理はＳ６４５に進む。ＣＰＵ２３１は、ユーザが上記の操作をしていない、すなわち、ユーザが入力した正解データは手書き領域推定の正解データ作成を指示する操作（推定ボタン５２６の選択）であると判定した場合（Ｓ６４４でＮｏ）、処理はＳ６４６に進む。

Ｓ６４５で、ＣＰＵ２３１は、ユーザが入力した手書き抽出の正解データを、ＲＡＭ２３４に一時的に記憶する。手書き抽出の正解データとは、上記のとおり、原稿サンプル画像中の手書きに該当する画素の位置情報である。

Ｓ６４６で、ＣＰＵ２３１は、ユーザが入力した手書き領域推定の正解データを、ＲＡＭ２３４に一時的に記憶する。手書き領域推定の正解データは、上記の通り、原稿サンプル画像中の手書き領域に該当する領域情報である。

Ｓ６４７で、ＣＰＵ２３１は、ユーザが、抽出要否判定の正解データの入力を行ったか否かを判定する。ＣＰＵ２３１は、ユーザが、入力デバイス２３６を介して、手書き抽出の要否、すなわち、抽出要否判定の正解データを設定するための所定の操作（抽出要否設定ボタン５２８の選択）をしたと判定した場合（Ｓ６４７でＹｅｓ）、処理はＳ６５０に進む。ＣＰＵ２３１は、ユーザが、上記の操作をしていないと判定した場合（Ｓ６４７でＮｏ）、処理はＳ６４９に進む。

Ｓ６４８で、ＣＰＵ２３１は、ユーザが入力した手書き抽出の要否の結果を、ＲＡＭ２３４に一時的に記憶する。ＣＰＵ２３１は、抽出要否設定ボタン５２８がＯＮに設定されている場合に手書き抽出の要否を「要」として、そうでない場合に「否」として記憶する。

Ｓ６４９で、ＣＰＵ２３１は、正解データの保存指示がされたか否かを判定する。ＣＰＵ２３１は、ユーザが、入力デバイス２３６を介して、正解データを保存するための所定の操作（保存ボタン５２７の選択）を行ったと判定した場合（Ｓ６４９でＹｅｓ）、処理はＳ６５０に進む。ＣＰＵ２３１は、ユーザが上記の操作を行っていないと判定した場合（Ｓ６４９でＮｏ）、処理はＳ６５３に進む。

Ｓ６５０で、ＣＰＵ２３１は、手書き抽出正解画像を生成して、手書き抽出の正解データとして保存する。ＣＰＵ２３１は、手書き抽出正解画像として、Ｓ６４２で読み出した原稿サンプル画像と同じサイズの画像を生成する。ＣＰＵ２３１は、生成した画像の全ての画素を、手書きではないことを示す画素値に設定する。次に、ＣＰＵ２３１は、Ｓ６４５でＲＡＭ２３４に一時的に記憶した位置情報を参照し、手書き抽出正解画像上の該当する位置の画素値を、手書きであることを示す値に変更する。ＣＰＵ２３１は、生成した手書き抽出正解画像を、Ｓ６４２で読み出した原稿サンプル画像と関連付けて、ストレージ２３５に保存する。

Ｓ６５１で、ＣＰＵ２３１は、手書き領域推定正解画像を生成し、手書き領域推定の正解データとして保存する。ＣＰＵ２３１は、手書き領域推定正解画像として、Ｓ６４２で読み出した原稿サンプル画像と同じサイズの画像を生成する。ＣＰＵ２３１は、生成した画像の全ての画素を、手書き領域ではないことを示す画素値に設定する。次に、ＣＰＵ２３１は、Ｓ６４６でＲＡＭ２３４に一時的に記憶した領域情報を参照し、手書き領域推定正解画像上の該当する領域内の画素値を、手書き領域であることを示す画素値に変更する。ＣＰＵ２３１は、手書き領域推定正解画像を、Ｓ６４２で読み出した原稿サンプル画像、及び、Ｓ６５０で作成した手書き抽出正解画像と関連付けて、ストレージ２３５に保存する。

Ｓ６５２で、ＣＰＵ２３１は、抽出要否判定正解データを生成し、それを保存する。ＣＰＵ２３１は、Ｓ６４８でＲＡＭ２３４に記憶した手書き抽出の要否を参照する。ＣＰＵ２３１は、手書き抽出が「要」であると判定した場合、抽出要否判定正解データを、手書き抽出が必要であることを示す画素値に変更する。ＣＰＵ２３１は、手書き抽出が「否」であると判定した場合、手書き抽出が不要であることを示す画素値に変更する。ＣＰＵ２３１は、抽出要否判定正解データを、Ｓ６４２で読み出した原稿サンプル画像、及び、Ｓ６５０で作成した手書き抽出正解画像と関連付けて、ストレージ２３５に保存する。

Ｓ６５３で、ＣＰＵ２３１は、正解データ生成処理を終了するか否かを判定する。ＣＰＵ２３１は、ユーザが、正解データ生成処理を終了する所定の操作をしたと判定した場合（Ｓ６５３でＹｅｓ）、処理を終了する。ＣＰＵ２３１は、ユーザが上記の操作をしていないと判定した場合（Ｓ６５３でＮｏ）、処理はＳ６４１に戻る。

（学習データ生成処理）
図７は、学習データ生成処理と学習処理のフローを示す図である。図７（ａ）は学習データ生成処理のフローを示す図である。学習データ生成処理は、学習装置１０２の学習データ生成部１１２により実現される。学習データ生成処理は、ユーザが、画像処理装置１０１の入力デバイス２０９を介して、所定の操作をすることで開始される。

Ｓ７０１で、ＣＰＵ２３１は、ストレージ２３５内の複数の原稿サンプル画像の中からランダムに一つ選択して読み出す。なお、ストレージ２３５は、図６（ｂ）のＳ６２２の処理で記憶した、複数の原稿サンプル画像を記憶している。

Ｓ７０２で、ＣＰＵ２３１は、ストレージ２３５内の手書き抽出正解画像を読み出す。なお、ストレージ２３５は、読み出した原稿サンプル画像に関連付けられた、図６（ｃ）のＳ６５０で記憶した手書き抽出正解画像を記憶している。

Ｓ７０３で、ＣＰＵ２３１は、ストレージ２３５内の手書き領域推定正解画像を読み出す。なお、ストレージ２３５は、読み出した原稿サンプル画像に関連付けられた、図６（ｃ）のＳ６５１で記憶した手書き領域推定正解画像を記憶している。

Ｓ７０４で、ＣＰＵ２３１は、読み出した原稿サンプル画像中の一部（例えば、縦ｘ横＝２５６ｘ２５６）を切り出して、学習データ用の入力画像を生成する。原稿サンプル画像中の切り出し位置は、ランダムに決定されてよい。

Ｓ７０５で、ＣＰＵ２３１は、読み出した手書き抽出正解画像中の一部を切り出して、手書き抽出の学習データ用の正解ラベル画像（教師データ及び正解画像データ）を生成する。以下、この正解ラベル画像を「手書き抽出正解ラベル画像」と呼称する。手書き抽出正解画像中の切り出し位置及びサイズは、Ｓ７０４で原稿サンプル画像から入力画像を切り出した位置及びサイズと同様である。

Ｓ７０６で、ＣＰＵ２３１は、読み出した手書き領域推定正解画像中の一部を切り出して、手書き領域推定の学習データ用の正解ラベル画像を生成する。以下、この正解ラベル画像を「手書き領域推定正解ラベル画像」と呼称する。手書き領域推定正解画像中の切り出し位置及びサイズは、Ｓ７０４で原稿サンプル画像から入力画像を切り出した位置及びサイズと同様である。

Ｓ７０７で、ＣＰＵ２３１は、ストレージ２３５内の抽出要否判定正解データを読み出す。なお、ストレージ２３５は、読み出した原稿サンプル画像に関連付けられた、図６（ｃ）のＳ６５２で記憶した抽出要否判定正解データを記憶している。

Ｓ７０８で、ＣＰＵ２３１は、Ｓ７０４で生成した入力画像と、Ｓ７０６で生成した手書き抽出正解ラベル画像とを対応付けて、手書き抽出の学習データとしてストレージ２３５に保存する。手書き抽出の学習データは、図８（ａ）のような学習データである。

Ｓ７０９で、ＣＰＵ２３１は、Ｓ７０４で生成した入力画像と、Ｓ７０６で生成した手書き領域推定正解ラベル画像とを対応付けて、手書き領域推定の学習データとしてストレージ２３５の所定の領域に保存する。手書き領域推定の学習データは、図８（ｂ）のような学習データである。なお、手書き領域推定正解ラベル画像は、Ｓ７０４で生成した入力画像と対応付けられることで、Ｓ７０５で生成した手書き抽出正解ラベル画像とも対応付けられる。

Ｓ７１０で、ＣＰＵ２３１は、Ｓ７０４で生成した入力画像と、Ｓ７０７で読み出した抽出要否判定正解データとを対応付けて、抽出要否判定の学習データをストレージ２３５に保存する。手書き領域推定正解ラベル画像は、Ｓ７０４で生成した入力画像と対応付けられることで、Ｓ７０５で生成した手書き抽出正解ラベル画像及びＳ７０６で生成した手書き領域推定正解ラベル画像とも対応付けされる。

Ｓ７１１で、ＣＰＵ２３１は、学習データ生成処理を終了するか否かを判定する。ＣＰＵ２３１は、予めユーザが指定した学習データの数に対応する学習データを生成したと判定した場合（Ｓ７１１でＹｅｓ）、処理を終了する。ＣＰＵ２３１は、上記の判定条件を満たさないと判定した場合（Ｓ７１１でＮｏ）、処理はＳ７０１に戻る。

以上の学習データ生成処理により、後述のＮＮ１１００の学習データが生成される。ＮＮの汎用性を高めるために、学習データは加工されても良い。ＣＰＵ２３１は、例えば、入力画像を所定の範囲（例えば、５０％～１５０％の間）からランダムに選択する変倍率で変倍する。ＣＰＵ２３１は、手書き領域推定及び手書き抽出正解ラベル画像も上記と同様に変倍する。あるいは、ＣＰＵ２３１は、入力画像を所定の範囲（例えば、－１０度～１０度の間）からランダムに選択する回転角度で回転する。ＣＰＵ２３１は、手書き領域推定及び手書き抽出正解ラベル画像も同様に回転する。

ＣＰＵ２３１は、変倍率及び回転角度を考慮して、Ｓ７０４～Ｓ７０６で入力画像、手書き領域推定及び手書き抽出正解ラベル画像を切り出す際に、少し大きめのサイズ（例えば、縦ｘ横＝５１２ｘ５１２）で切り出す。ＣＰＵ２３１は、それらの画像の変倍及び回転後に、最終的な入力画像、手書き領域推定及び手書き抽出正解ラベル画像のサイズ（例えば、縦ｘ横＝２５６ｘ２５６）となるよう中心部分から切り出す。あるいは、ＣＰＵ２３１は、入力画像の各画素の輝度を変更して加工してもよい。すなわち、ＣＰＵ２３１は、ガンマ補正を用いて入力画像の輝度を変更する。ガンマ値は、所定の範囲（例えば、０．１～１０．０の間）からランダムに選択されてよい。

図７（ｂ）は、学習処理のフローを示す図である。学習処理は、学習装置１０２の学習部１１３により実現される。学習処理は、ユーザが、学習装置１０２の入力デバイス２３６を介して、所定の操作をすることで開始される。なお、ＮＮ１１００の学習では、ミニバッチ法が用いられるものとする。

Ｓ７３１で、ＣＰＵ２３１は、後述のＮＮ１１００を初期化する。すなわち、ＣＰＵ２３１は、ＮＮ１１００に含まれるパラメータの値を、ランダムに決定して初期化する。

Ｓ７３２で、ＣＰＵ２３１は、ストレージ２３５から学習データを取得する。ＣＰＵ２３１は、図７（ａ）に示す学習データ生成処理を実行して、所定の数（例えば、ミニバッチサイズに従う数、例えば１０個）の学習データを取得する。

Ｓ７３３で、ＣＰＵ２３１は、ＮＮ１１００のエンコーダ部１１０１の出力を得る。ＣＰＵ２３１は、手書き領域推定及び手書き抽出の各学習データに含まれる入力画像をＮＮ１１００に入力して、エンコーダ部１１０１が出力する特徴マップを得る。

Ｓ７３４で、ＣＰＵ２３１は、ＮＮ１１００の手書き領域推定結果の誤差を算出する。ＣＰＵ２３１は、取得した特徴マップを領域推定デコーダ部１１２２に入力して、領域推定デコーダ部１１２２から出力画像を得る。出力画像は、入力画像と同じ画像サイズである。出力画像中の推定結果として、手書き領域であると判定された画素は、画素値が手書き領域を示す値となる。一方、手書き領域ではないと判定された画素は、画素値が手書き領域ではないことを示す値となる。そして、ＣＰＵ２３１は、出力画像と、学習データに含まれる手書き領域推定正解ラベル画像との誤差を求める。ＣＰＵ２３１は、誤差の評価指標として交差エントロピーを用いる。

Ｓ７３５で、ＣＰＵ２３１は、ＮＮ１１００の手書き抽出結果の誤差を算出する。ＣＰＵ２３１は、取得した特徴マップを画素抽出デコーダ部１１１２に入力して、画素抽出デコーダ部１１１２から出力画像を得る。出力画像は、入力画像と同じ画像サイズである。出力画像中の推定結果として、手書きであると判定された画素は、画素値が手書きを示す値となる。一方、手書きではないと判定された画素は、画素値が手書きではないことを示す値となる。そして、ＣＰＵ２３１は、出力画像と、学習データに含まれる手書き抽出正解ラベル画像との誤差を求める。ＣＰＵ２３１は、誤差の評価指標として、手書き領域推定と同様に、交差エントロピーを用いる。

Ｓ７３６で、ＣＰＵ２３１は、ＮＮ１１００の抽出要否判定結果の誤差を算出する。ＣＰＵ２３１は、取得した特徴マップを抽出判定部１１３２に入力して、抽出判定部１１３２から出力画像を得る。出力画像は、手書き抽出が必要であることを示す確率と、手書き抽出が不要であることを示す確率とを含む２次元ベクトルで表現される。そして、ＣＰＵ２３１は、出力画像と学習データに含まれる抽出要否判定正解データとの誤差を求める。ＣＰＵ２３１は、誤差の評価指標として、交差エントロピーを用いる。なお、抽出判定部１１３２の構成は、様々な態様であってよく、それが回帰推定を行う構成である場合、評価指標は、正解データとの平均二乗誤差等であってよい。

Ｓ７３７で、ＣＰＵ２３１は、Ｓ７３４～Ｓ７３６で算出した誤差に基づいて、ＮＮ１１００のパラメータを調整する。この際、ＣＰＵ２３１は、誤差逆伝播法（バックプロパゲーション）によってＮＮ１１００のパラメータ値を変更する。

Ｓ７３８で、ＣＰＵ２３１は、ＮＮ１１００の学習を終了するか否かを判定する。学習の終了判定条件は、Ｓ７３２～Ｓ７３７の処理が所定回数（例えば、６００００回）行われたか否かであってよい。所定回数は、本処理開始時にユーザが入力する等により決定されてよい。ＣＰＵ２３１は、所定回数の処理をしたと判定した場合（Ｓ７３８でＹｅｓ）、処理はＳ７３９に進む。ＣＰＵ２３１は、所定回数の処理をしていないと判定した場合（Ｓ７３８でＮｏ）、処理はＳ７３２に戻り、ＮＮ１１００の学習処理を継続する。

Ｓ７３９で、ＣＰＵ２３１は、学習結果として、Ｓ７３７で調整したＮＮ１１００のパラメータを、画像処理サーバ１０３に送信する。

（帳票テキスト化依頼処理）
図９は、帳票テキスト化依頼処理のフローと帳票テキスト化処理のフローを示す図である。図９（ａ）は、帳票テキスト化依頼処理のフローを示す図である。画像処理装置１０１は、手書きを含む帳票をスキャンして処理対象画像を生成する。画像処理装置１０１は、処理対象画像データを画像処理サーバ１０３に送信して、帳票テキスト化を依頼する。帳票テキスト化依頼処理は、画像処理装置１０１のＣＰＵ２０１が、ストレージ２０８内のコントローラプログラムを読み出し、ＲＡＭ２０４に展開して実行することにより実現される。帳票テキスト化依頼処理は、ユーザが、画像処理装置１０１の入力デバイス２０９を介して、所定の操作をすることで開始される。

Ｓ９０１で、ＣＰＵ２０１は、スキャナデバイス２０６及び原稿搬送デバイス２０７を制御して、原稿をスキャンすることにより、処理対象画像を生成する。処理対象画像は、グレースケールの画像データとして生成される。

Ｓ９０２で、ＣＰＵ２０１は、処理対象画像を、外部インタフェース２１１を介して、画像処理サーバ１０３に送信する。

Ｓ９０３で、ＣＰＵ２０１は、画像処理サーバ１０３から、処理結果を受信したか否かを判定する。ＣＰＵ２０１は、画像処理サーバ１０３から、外部インタフェース２１１を介して、処理結果を受信したと判定した場合（Ｓ９０３でＹｅｓ）、処理はＳ９０４に進む。ＣＰＵ２０１は、上記の判定条件を満たさないと判定した場合（Ｓ９０３でＮｏ）、処理はＳ９０３の処理を繰り返す。

Ｓ９０４で、ＣＰＵ２０１は、画像処理サーバ１０３から受信した処理結果、すなわち、処理対象画像に含まれる手書き文字及び活字を認識して生成した帳票テキストデータを出力する。ＣＰＵ２０１は、例えば、表示デバイス２１０に処理対象画像及び帳票テキストデータを表示させるか、又は、ユーザが設定した送信先に帳票テキストデータを送信する。

図９（ｂ）は、帳票テキスト化処理のフローを示す図である。図１０は、帳票テキスト化処理における、データ生成処理の概要を示す図である。画像処理サーバ１０３の画像変換部１１４は、画像処理装置１０１から処理対象画像を受信して、スキャン画像データに含まれる活字及び手書き文字をＯＣＲ処理してテキストデータを得る。活字ＯＣＲ部１１７は、活字に対するＯＣＲを実行する。手書きＯＣＲ部１１６は、手書き文字に対するＯＣＲを実行する。帳票テキスト化処理は、ＣＰＵ２６１が、ストレージ２６５内の画像処理サーバプログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。帳票テキスト化処理は、ユーザが、画像処理サーバ１０３の電源をＯＮにすると開始される。

Ｓ９５１で、ＣＰＵ２６１は、図１１に示す手書き領域推定及び手書き抽出を行うＮＮ１１００をロードする。ＣＰＵ２６１は、図７（ｂ）のＳ７３１の場合と同一のＮＮ１１００を構築する。ＣＰＵ２６１は、図７（ｂ）のＳ７３９で学習装置１０２から送信された学習結果（ＮＮ１１００のパラメータ）を、ＮＮ１１００に反映する。

Ｓ９５２で、ＣＰＵ２６１は、処理対象画像を、画像処理装置１０１から受信したか否かを判定する。ＣＰＵ２６１は、外部インタフェース２６８を介して、処理対象画像を受信したと判定した場合（Ｓ９５２でＹｅｓ）、処理はＳ９５３に進む。ＣＰＵ２６１は、上記の判定条件を満たさないと判定した場合（Ｓ９５２でＮｏ）、処理はＳ９６７に進む。なお、処理対象画像は、図１０の帳票１０００（図４に示した帳票４００と同じ）を受信したものとする。

Ｓ９５３～Ｓ９６０で、ＣＰＵ２６１は、画像処理装置１０１から受信した処理対象画像をＮＮ１１００に入力し、手書き領域推定及び手書き抽出を行う。ＮＮ１１００は、エンコーダ部１１０１による計算結果（すなわち、抽出した特徴マップ）を、画素抽出デコーダ部１１１２、領域推定デコーダ部１１２２及び抽出判定部１１３２で共有する構成である。ここで、処理対象画像（ＮＮ１１００への入力画像）からの手書き画素抽出が不要である場合がある。

例えば、領収証の背景が無地である場合、手書き領域内に印刷画素は混入されないため、処理対象画像からの手書き画素抽出は不要である。一方、領収証が地紋やテクスチャ等の背景を有する場合、これらの背景に由来する印刷画素が手書き領域内に存在する可能性が高いため、手書き画素抽出が必要である。抽出判定部１１３２は、処理対象画像（例えば、領収証の画像）内の印刷画素の有無を判定する。すなわち、抽出判定部１１３２は、処理対象画像内に印刷画素が含まれる場合に手書き画素抽出を行い、処理対象画像内に印刷画素が含まれない場合に手書き画素抽出をしない又は抑制する。

Ｓ９５３で、ＣＰＵ２６１は、画像処理装置１０１から受信した処理対象画像をＮＮ１１００に入力し、エンコーダ部１１０１が出力する特徴マップを得る。

Ｓ９５４で、ＣＰＵ２６１は、画像処理装置１０１から受信した処理対象画像から手書き領域を推定する。ＣＰＵ２６１は、特徴マップを領域推定デコーダ部１１２２に入力し、手書き領域を推定させる。ＮＮ１１００の出力として、以下の画像データが得られる。出力画像は処理対象画像と同じ画像サイズである。推定結果として、手書き領域であると判定された画素に、手書き領域であること示す画素値が記録され、かつ、手書き領域ではないと判定された画素に、手書き領域ではないことを示す画素値が記録された画像データが得られる。

なお、図３（ａ）のＳ３０５で、ユーザは、記入項目ごとに手書き文字を内包する、手書き領域推定の正解データを作成した。したがって、ＮＮ１１００の領域推定デコーダ部１１２２は、この正解データを学習しているため、記入項目ごとに手書き領域であることを示す画素を出力する。なお、ＮＮ１１００の出力は、画素毎の予測結果であり、予測された領域は必ずしも正確な矩形ではないため、当該領域を内包する外接矩形が設定される。外接矩形の設定は、公知の技術を用いて実現される。各外接矩形は、処理対象画像上における左上端点と幅及び高さを含む領域座標情報として表現される。得られた矩形情報群を手書き領域とする。図１０の帳票１００２では、処理対象画像（帳票１０００）から推定した手書き領域は、点線枠で図示される。

Ｓ９５５で、ＣＰＵ２６１は、画像処理装置１０１から受信した処理対象画像が、手書き抽出を要するか否かを推定する。ＣＰＵ２６１は、特徴マップを抽出判定部１１３２に入力し、抽出要否判定を行う。ＣＰＵ２６１は、ＮＮ１１００の出力として、手書き抽出の要否を示すデータを得る。なお、図３（ａ）のＳ３０５で、ユーザは、抽出要否判定の正解データを、処理対象画像の地紋及びテクスチャ等の背景の有無に応じて作成した。したがって、ＮＮ１１００の抽出判定部１１３２は、処理対象画像の背景を学習しているため、ＣＰＵ２６１は、処理対象画像に地紋及びテクスチャ等の背景がある場合、手書き抽出を要することを示すデータを得る。ＣＰＵ２６１は、処理対象画像の背景が無地である場合、手書き抽出は不要であることを示すデータを得る。

Ｓ９５６で、ＣＰＵ２６１は、処理対象画像からの手書き抽出の要否を判定する。ＣＰＵ２６１は、手書き抽出を要することを示すデータに基づいて、処理対象画像からの手書き抽出を要すると判定した場合（Ｓ９５６でＹｅｓ）、処理はＳ９５８に進む。一方、ＣＰＵ２６１は、手書き抽出が不要であることを示すデータに基づいて、処理対象画像からの手書き抽出は不要であると判定した場合、処理はＳ９５７に進む。

Ｓ９５７で、ＣＰＵ２６１は、画像処理装置１０１から受信した処理対象画像から手書き画素を推定する。ＣＰＵ２６１は、Ｓ９５３で取得した特徴マップを画素抽出デコーダ部１１１２に入力し、手書き画素を推定させる。ＮＮ１１００の出力として、次のような出力画像が得られる。出力画像は、処理対象画像と同じ画像サイズであり、推定結果として手書きであると判定された画素に手書きであること示す画素値が記録され、手書きではないと判定された画素に手書きではないことを示す画素値が記録されている。

ＣＰＵ２６１は、出力画像データ中の手書きであることを示す値の画素と同じ位置の画素を、処理対象画像から抽出する。そして、ＣＰＵ２６１は、Ｓ９５４で推定した手書き領域ごとの部分画像、すなわち、手書き抽出画像を生成する。これにより、ＣＰＵ２６１は、図１０の手書き抽出画像１００１を得る。手書き抽出画像１００１は、手書き領域における手書きの画素のみが含まれた画像である。

Ｓ９５８で、ＣＰＵ２６１は、処理対象画像中におけるＳ９５４で推定した手書き領域内の画素を、手書き抽出結果として手書き抽出画像を生成する。Ｓ９５６で処理対象画像から手書き抽出は不要であると判定されたが、これは手書き領域内に手書きの画素を含まないことを意味する。よって、ＣＰＵ２６１は、推定した手書き領域ごとに、処理対象画像上の領域で手書き領域に相当する領域の画素を抽出して、手書き抽出画像を生成する。これにより、ＣＰＵ２６１は、図１０の手書き抽出画像１００１と同様の画像を得ることができる。

Ｓ９５９で、ＣＰＵ２６１は、Ｓ９５７又はＳ９５８で生成した全ての手書き抽出画像を、外部インタフェース２６８を介して、手書きＯＣＲ部１１６に送信する。ＣＰＵ２６１は、手書きＯＣＲ部１１６に全ての手書き抽出画像に対して手書きＯＣＲを実行させる。手書きＯＣＲは、公知の技術を用いて実行されてよい。手書きＯＣＲ部１１６が、手書き抽出画像を手書きＯＣＲすることにより、手書きＯＣＲ部１１６が手書き画素と一緒に不要な印刷画素を参照することを低減する。これにより、手書きＯＣＲ部１１６は、手書きＯＣＲの精度を向上させることができる。また、手書きＯＣＲ部１１６は、推定した手書き領域毎に手書きＯＣＲすることにより、記入項目ごとの手書きＯＣＲ結果を得ることができる。

Ｓ９６０で、ＣＰＵ２６１は、手書きＯＣＲ部１１６から、全ての手書きＯＣＲ結果を受信したか否かを判定する。手書きＯＣＲ結果とは、手書きＯＣＲ部１１６が、手書き領域に含まれていた手書き文字を認識して得たテキストデータのことである。ＣＰＵ２６１は、手書きＯＣＲ部１１６から、手書きＯＣＲ結果を受信したと判定した場合（Ｓ９６０でＹｅｓ）、処理はＳ９６１に進む。ＣＰＵ２６１は、上記の判定条件を満たさないと判定した場合（Ｓ９６０でＮｏ）、Ｓ９６０の処理を繰り返す。ＣＰＵ２６１は、これまでの処理によって、手書き領域（座標情報）とそれに含まれていた手書き文字を認識して得たテキストデータを得る。ＣＰＵ２６１は、テキストデータを手書き情報テーブル１００３としてＲＡＭ２６４に記憶する。

Ｓ９６１で、ＣＰＵ２６１は、Ｓ９５４で生成した手書き領域に関する座標情報と、Ｓ９５７又はＳ９５８で生成した全ての手書き抽出画像とに基づいて、処理対象画像から手書きを除去した活字画像１００４を生成する。ＣＰＵ２６１は、処理対象画像の画素について、Ｓ９５７又はＳ９５８で生成した全ての手書き抽出画像において画素値が手書きを示す値である画素と同位置の画素を、白（ＲＧＢ＝（２５５，２５５，２５５））に変更する。これにより、ＣＰＵ２６１は、図１０の活字画像１００４を得る。

Ｓ９６２で、ＣＰＵ２６１は、活字画像１００４から活字領域を抽出する。ＣＰＵ２６１は、活字領域として、活字画像上１００４の活字を内包する部分領域を抽出する。部分領域とは、印刷内容のまとまり（オブジェクト）であり、例えば、複数の文字を含む文字行、複数の文字行を含む文章、図、写真、表及びグラフ等である。部分領域の抽出方法を以下で説明する。まず、ＣＰＵ２６１は、活字画像１００４を白黒に二値化して二値画像を生成する。ＣＰＵ２６１は、この二値画像において黒い画素が連結する部分（連結黒画素）を抽出し、これに外接する矩形を作成する。ＣＰＵ２６１は、矩形の形状及び大きさを評価することで、文字又は文字の一部である矩形群を得る。

ＣＰＵ２６１は、矩形群について、矩形間の距離を評価して、予め定めた閾値以下の距離である矩形の統合を行うことで、文字である矩形群を得る。ＣＰＵ２６１は、同様の大きさの文字の矩形が近くに並んでいる場合、それらを統合して文字行の矩形群を得る。ＣＰＵ２６１は、短辺長が同様である文字行の矩形が等間隔に並んでいる場合、それらを統合して文章の矩形群を得る。また、ＣＰＵ２６１は、図、写真、表、グラフ、文字、行及び文章以外のオブジェクトを内包する矩形を得る。ＣＰＵ２６１は、上記で抽出した矩形から、単独の文字又は文字の一部である矩形を除外する。ＣＰＵ２６１は、抽出した矩形から残った矩形を部分領域とする。図１０の画像１００５では、活字画像１００４から抽出した活字領域が点線枠で示されている。本抽出方法では、活字画像１００４から複数の背景部分領域を抽出し得る。

Ｓ９６３で、ＣＰＵ２６１は、活字画像１００４と活字領域とを、外部インタフェース２６８を介して、活字ＯＣＲ部１１７に送信し、活字ＯＣＲを実行させる。活字ＯＣＲは、公知の技術を用いて実現される。

Ｓ９６４で、ＣＰＵ２６１は、活字ＯＣＲ部１１７から、活字ＯＣＲ結果を受信したか否かを判定する。活字ＯＣＲ結果とは、活字ＯＣＲ部１１７が、活字領域に含まれていた活字を認識して得たテキストデータのことである。ＣＰＵ２６１は、活字ＯＣＲ部１１７から、活字ＯＣＲ結果を受信したと判定した場合（Ｓ９６４でＹｅｓ）、処理はＳ９６５に進む。ＣＰＵ２６１は、上記の判定条件を満たさないと判定した場合（Ｓ９６４でＮｏ）、Ｓ９６４の処理を繰り返す。これにより、ＣＰＵ２６１は、活字領域（座標情報）と活字領域が含む活字を認識して得られるテキストデータを取得する。ＣＰＵ２６１は、活字領域（座標情報）と活字領域が含む活字を含む活字情報テーブル１００６としてＲＡＭ２６４に記憶する。

Ｓ９６５で、ＣＰＵ２６１は、手書きＯＣＲ部１１６及び活字ＯＣＲ部１１７からそれぞれ受信した手書きＯＣＲ結果及び活字ＯＣＲ結果を統合する。ここで、図２０（ａ）は帳票への氏名の記入例を示した処理対象画像である。図２０（ｂ）は、図２０（ａ）の処理対象画像から抽出した手書き抽出画像である。図２０（ａ）では処理対象画像の罫線内に氏名が記入されているため、ＣＰＵ２６１は、姓が「小木」であり、名が「才一郎」であると評価する。一方、図２０（ｂ）では、「木」と「才」の文字間の区切りが不明瞭であるため、ＣＰＵ２６１は、「木」と「才」とが組み合わされた「材」の一文字として評価する。すなわち、図２０（ｂ）でＣＰＵ２６１は、文字認識処理の結果に基づいて、「小材一郎」と評価してしまう場合がある。図２０（ｃ）～図２０（ｆ）は、図２０（ａ）～図２０（ｂ）と同様に、文字認識処理の結果としてテキストデータの意味を誤って評価してしまう例を示す。そこで、ＣＰＵ２６１は、元の手書き領域と活字領域の位置関係、及び、手書きＯＣＲ結果又は活字ＯＣＲ結果のテキストデータの意味的な内容及び関係性を評価することで、手書きＯＣＲ結果及び活字ＯＣＲ結果の関連性を推定する。ＣＰＵ２６１は、手書き情報テーブル１００３及び活字情報テーブル１００６に基づいて、双方の結果の関連性の推定を行う。以下、推定方法について説明する。

ＣＰＵ２６１は、宛名について、手書きＯＣＲ結果であるテキストデータを、社名及び人名を示すものであるか否かを評価することで、宛名である手書き領域とその手書きＯＣＲ結果であるテキストデータを得る。この評価は、例えば、予め定義した辞書とのマッチング等により行われる。さらに、ＣＰＵ２６１は、手書き領域の右側近傍に活字領域があり、かつ、その活字ＯＣＲ結果であるテキストデータが「様」である場合、宛名として評価した手書き領域及びそのテキストを、より確からしい評価結果として評価する。

ＣＰＵ２６１は、品目について、手書きＯＣＲ結果であるテキストデータを、品名や仕訳を示す内容であるか否かを評価することで、手書き領域とその手書きＯＣＲ結果であるテキストデータを得る。さらに、ＣＰＵ２６１は、手書き領域の左側近傍に活字領域があり、かつ、その活字ＯＣＲ結果であるテキストが「但」又は「但し」である場合、品目として評価した手書き領域及びそのテキストを、より確からしい評価結果として得る。

ＣＰＵ２６１は、発行日について、手書きＯＣＲ結果であるテキストデータを、その年を表す４桁の数値であるか否か評価することで、発行日の年を示す手書き領域とその手書きＯＣＲ結果であるテキストを得る。さらに、ＣＰＵ２６１は、手書き領域の右側近傍に活字領域があり、かつ、その活字ＯＣＲ結果であるテキストが「年」である場合、発行日の年として評価した手書き領域及びそのテキストを、より確からしい評価結果として得る。ＣＰＵ２６１は、発行日の月及び日について、上記と同様の方法により推定結果を得る。

ＣＰＵ２６１は、年、月及び日の推定結果を統合して発行日を得る。さらに、ＣＰＵ２６１は、日付としての妥当性を評価することで、発行日の確からしい結果を得る。また、ＣＰＵ２６１は、手書きＯＣＲ結果であるテキストデータを、通貨記号及び桁区切りのためのカンマが含まれる場合を考慮して、数値であることを評価することで、金額である手書き領域とその手書きＯＣＲ結果であるテキストを得ることができる。このように、ＣＰＵ２６１は、手書きＯＣＲ結果と活字ＯＣＲ結果とを評価して、帳票テキストデータ１００７を生成する。

ここで、ＣＰＵ２６１は、上述の評価により得られたテキストを正規化してもよい。例えば、金額表記について、通貨記号が含まれる場合と通貨記号が含まれない場合、及び、金額の桁区切り用のカンマが含まれる場合とカンマが含まれない場合がある。ＣＰＵ２６１は、上記のような場合においても妥当な数値であることを評価するために、通貨記号及びカンマを除外して数値列としての金額に正規化する。あるいは、ＣＰＵ２６１は、発行日の月及び日が一桁の数値である場合、ゼロを補完して発行日全体として８桁の数値列となるよう正規化してもよい。

Ｓ９６６で、ＣＰＵ２６１は、帳票テキストデータを、画像取得部１１１に送信する。

Ｓ９６７で、ＣＰＵ２６１は、処理を終了するか否かを判定する。ＣＰＵ２６１は、ユーザが、画像処理サーバ１０３の電源をＯＦＦにする等の所定の操作をしたと判定した場合（Ｓ９６７でＹｅｓ）、処理を終了する。ＣＰＵ２６１は、条件を満たさないと判定した場合（Ｓ９６７でＮｏ）、処理はＳ９５２に戻る。

なお、Ｓ９６６で、ＣＰＵ２６１は、画像取得部１１１に対して、帳票テキストデータに加えて、抽出要否判定の結果（すなわち、手書き抽出を行ったか否かを示す情報）を送信してもよい。この場合、Ｓ９０４で、画像処理装置１０１の画像取得部１１１は、表示デバイス２１０に処理結果である帳票データを表示する際に、抽出要否判定の結果に応じて表示態様を変える。例えば、画像取得部１１１は、抽出要否判定の結果が要であった場合（すなわち、手書き抽出を行った場合）、帳票テキストデータ表示領域５６２の表示枠を強調する等して表示する。このように、手書き抽出が行われたことをユーザに示すことにより、手書き抽出による誤推定の可能性を示唆し、より慎重な処理結果の確認を促すことができる。

また、帳票処理結果画面５６０は、再処理ボタン（不図示）を有していてもよい。抽出要否判定の結果が、ユーザが所望する結果ではなかった場合、ユーザが再処理ボタンを押下することにより、画像処理サーバ１０３は、抽出要否判定の結果を否定するように処理対象画像を再処理する。すなわち、帳票テキスト化依頼処理を実行することで、画像処理サーバ１０３は、処理対象画像を再度処理する。この際、Ｓ９０２で、ＣＰＵ２０１は、処理対象画像に加えて抽出要否判定の結果を画像処理サーバ１０３に送信する。Ｓ９５６で、画像処理サーバ１０３のＣＰＵ２６１は、画像処理装置１０１から抽出要否判定の結果が送信された場合、当該結果を参照して手書き抽出の要否を判定する。ＣＰＵ２６１は、抽出要否判定の結果が「要」であれば「否」であると判定し、「否」であれば「要」と判定する。このように、抽出要否判定の結果が、ユーザの所望の結果ではなかった場合、これを考慮して帳票を再度処理することができる。

なお、ＮＮ１１００の画素抽出デコーダ部１１１２は、複数の逆畳み込み層及びアップサンプリング層を含む。一方、抽出判定部１１３２は、画素抽出デコーダ部１１１２と同一の入力を受け付けて処理し、少数の層（全結合層又は畳み込み層）を含む。つまり、抽出判定部１１３２は、画素抽出デコーダ部１１１２に比べて、非常に少ない計算量で処理することができる。画像処理システム１００は、その運用において複数の処理対象画像を処理することが考えられる。手書き抽出処理が必要である領域とそれが不要である領域とが処理対象画像内に混在する場合、全ての処理対象画像に対して手書き抽出を行うよりも、抽出要否判定の結果に応じて、手書き抽出を行う方が、全体の計算量を小さく抑えることができる。

以上の通り、第１実施形態では、手書き領域推定ＮＮと手書き抽出ＮＮの間でエンコーダ部（同様の計算をする層）を共有する構造のＮＮを用いる。さらに、抽出要否判定ＮＮは、上記のＮＮと同様にエンコーダ部を共有する構造となるように設けられる。そして、抽出判定部１１３２により手書き抽出の要否を判定し、その判定結果に応じてエンコーダ部１１０１による処理を実行する。このように、複数種の推定結果を出力するＮＮは、それ自体に、一部の推定について必要か否かを判定する判定部を設けることで、不要な推定処理を低減し、これに伴う処理時間及び誤推定に伴う推定精度の低下を低減することができる。なお、本実施形態では、手書き文字を対象として、その領域及びその画素を推定するＮＮの一例を示したが、これに限らない。推定対象は、例えば、活字文字及び押印であってもよい。

（第２実施形態）
第２実施形態では、手書き領域を推定し、エンコーダ部が出力した特徴マップから、推定した手書き領域に対応する部分に絞った特徴マップに基づいて、抽出要否判定及び手書き抽出を行う。なお、第２実施形態は、学習データを画像合成により生成する。第２実施形態は、第１実施形態との差分について説明する。

（ＮＮの構成）
ＮＮ１１００は、第１実施形態の構成と同様であるが、処理プロセスの点で第１実施形態と異なる。

ＮＮ１１００は、上記の通り、エンコーダ部１１０１が出力する特徴マップを、画素抽出デコーダ部１１１２、領域推定デコーダ部１１２２及び抽出判定部１１３２に入力する。ここで、手書き画素は、手書き領域内に存在するものである。そのため、ＮＮ１１００は、領域推定デコーダ部１１２２が推定した手書き領域に対応する部分のみに絞った特徴マップを求めて、それを画素抽出デコーダ部１１１２に入力する。これにより、ＮＮ１１００は、手書き画素の存在しない領域である非手書き領域で手書き抽出を行う計算量を削減できる。

抽出判定部１１３２は、この手書き領域に対応する部分のみに絞った特徴マップを入力として受信し、それに対する抽出要否を判定する。抽出判定部１１３２は、手書き領域内に印刷画素が存在するか否かを判定する。例えば、無地の帳票において手書き文字が罫線に掛かってしまい、手書き領域内に罫線の印刷画素が混入する場合がある。抽出判定部１１３２は、上記の場合における誤抽出を防止するために、抽出要否判定を行い、手書き画素抽出を行う。

抽出判定部１１３２は、上記の通り、全結合層又は畳み込み層を含むが、いずれの層の場合でも出力は２チャネルとなる。抽出判定部１１３２は、畳み込み層を含む場合、チャネルごとの代表値を算出することで、２次元のベクトルを得る。抽出判定部１１３２は、シグモイド関数等を用いて、０．０～１．０の間の数値となるように出力する。出力は、印刷画素を含む確率を示す値と、手書き画素を含む確率を示す値とを含むデータである。抽出要否判定は、いわゆるマルチラベルクラス分類推定として構成される。

抽出判定部１１３２は、印刷画素を含む確率と手書き画素を含む確率が共に高い（例えば、０．５以上）場合（手書き領域内に印刷画素と手書き画素が混在する場合）、手書き抽出を「要」と判定する。ＮＮ１１００を学習させるために、学習データの入力画像とその正解データを用意する必要がある。ＮＮ１１００に正解データとして付与する情報量は、第１実施形態で用いた情報量よりも多い。ＮＮの学習では、大量のデータが必要となることから、手作業で学習データを作成すると大変な手間を要する。第２実施形態では、画像合成を用いて、学習データを生成することにより、学習データ作成に係る手間を要することなく、ＮＮ１１００の学習用データを得る。

（画像処理システム）
画像処理システム１００は、図１に示すように、第１実施形態の構成と同様である。画像処理装置１０１は、白紙に手書きのみが記入された原稿をスキャンして画像データを生成する。以下、この画像データを「前景サンプル画像」と呼称する。画像処理装置１０１は、複数枚の原稿をスキャンして複数の前景サンプル画像を得る。また、画像処理装置１０１は、電子文書（例えば、帳票）を印刷して印刷原稿を出力する。さらに、画像処理装置１０１は、この印刷原稿（手書き記入なし）をスキャンして画像データを生成する。以下、この画像を「背景サンプル画像」と呼称する。複数枚の印刷原稿をスキャンして、複数の背景サンプル画像を得る。画像処理装置１０１は、ネットワーク１０５を介して、前景サンプル画像と背景サンプル画像を学習装置１０２に送信する。

学習装置１０２は、画像処理装置１０１が生成した前景サンプル画像と背景サンプル画像を蓄積する画像蓄積部１１５として機能する。また、学習装置１０２は、蓄積した画像から学習データを生成する学習データ生成部１１２として機能する。学習データ生成部１１２は、手書き抽出、手書き領域推定及び抽出要否判定を行うＮＮの学習用データを生成する。学習装置１０２は、学習用データを用いてＮＮの学習を行う学習部１１３として機能する。学習部１１３は、ＮＮを学習させることにより、学習結果（例えば、ＮＮのパラメータ）を生成する。学習装置１０２は、学習結果（学習モデル）を、ネットワーク１０５を介して、画像処理サーバ１０３に送信する。

（学習シーケンス）
図１２は、第２実施形態における画像処理システムの学習シーケンスを示す図である。

Ｓ１２０１で、ユーザは、手書きのみが記入された原稿の読取指示を画像取得部１１１に送信する。

Ｓ１２０２で、画像取得部１１１は、手書きのみが記入された原稿を読みとり、前景サンプル画像を生成する。画像取得部１１１は、前景サンプル画像に前景フラグを付与する。

Ｓ１２０３で、ユーザが、帳票の原稿の読取指示を画像取得部１１１に送信する。

Ｓ１２０４で、画像取得部１１１は、帳票の原稿を読みとり、背景サンプル画像を生成する。画像取得部１１１は、背景サンプル画像に背景フラグを付与する。

Ｓ１２０５で、画像取得部１１１は、前景サンプル画像及び背景サンプル画像を、学習データ生成部１１２に送信する。この際、画像取得部１１１は、前景サンプル画像及び背景サンプル画像にＩＤ情報を付与する。ＩＤ情報は、例えば、画像取得部１１１として機能する画像処理装置１０１を識別するための情報である。なお、ＩＤ情報は、画像処理装置１０１を操作するユーザを識別するためのユーザ識別情報、及び、ユーザが所属するグループを識別するめためのグループ識別情報であってもよい。

Ｓ１２０６で、学習データ生成部１１２は、画像蓄積部１１５に前景サンプル画像及び背景サンプル画像を蓄積する。

Ｓ１２０７で、ユーザが、学習装置１０２に合成領域データの付与指示を学習データ生成部１１２に送信する。

Ｓ１２０８で、学習データ生成部１１２は、合成領域データを取得して画像蓄積部１１５に蓄積する。

Ｓ１２０９で、学習データ生成部１１２は、前景サンプル画像と背景サンプル画像を合成して学習データ（合成領域データ）を生成する。合成領域データとは、背景サンプル画像上に手書きサンプルを合成するデータのことである。学習データ生成部１１２は、学習データの生成の際、予め合成領域データを作成する。合成領域データの作成方法は後述する。そして、学習データ生成部１１２は、このようにして蓄積したデータに基づいて、学習データを生成する。この際、学習データ生成部１１２は、特定のＩＤ情報に紐づく画像のみを用いて学習データを生成してもよい。

Ｓ１２１０で、学習データ生成部１１２は、学習部１１３に学習データを送信する。学習データ生成部１１２は、特定のＩＤ情報に紐づく画像のみで学習データを生成した場合、ＩＤ情報を学習データと一緒に送信する。

Ｓ１２１１で、学習部１１３は、学習データに基づいて、ＮＮ１１００の学習モデルを更新する。学習部１１３は、ＩＤ情報ごとに学習モデルを保持し、ＩＤ情報に対応する学習データのみでＮＮ１１００の学習を行ってもよい。このように、学習部１１３は、ＩＤ情報と学習モデルとを紐づけることで、特定の利用環境に特化した学習モデルを構築することができる。

（操作画面）
図１３（ａ）は、第２実施形態に係る学習原稿スキャン画面を示す図である。Ｓ１２０１、Ｓ１２０３におけるユーザ指示は、以下の操作画面を介して行われる。

学習原稿スキャン画面１３００は、表示デバイス２１０に表示される画面の一例である。学習原稿スキャン画面１３００は、プレビュー領域１３０１、手書き原稿ボタン１３０２、帳票原稿ボタン１３０３、スキャンボタン１３０４及び送信開始ボタン１３０５を備える。

プレビュー領域１３０１は、スキャナデバイス２０６による原稿のスキャンが完了すると、読み取られた画像のプレビューを表示する。

手書き原稿ボタン１３０２と帳票原稿ボタン１３０３はそれぞれ、読み取られた画像の属性を指定するためのボタンである。手書き原稿ボタン１３０２を選択すると、読取画像に前景フラグが付与される。帳票原稿ボタン１３０３が選択されると、読取画像に背景フラグが付与される。書き原稿ボタン１３０２と帳票原稿ボタン１３０３のいずれかの選択中のボタンは、識別可能に強調表示される。また、手書き原稿ボタン１３０２と帳票原稿ボタン１３０３は、いずれか１つのみ選択され得る。

スキャンボタン１３０４は、スキャナデバイス２０６にセットされた原稿の読取を開始するためのボタンである。スキャナデバイス２０６に別の原稿をセットし、スキャンボタン１３０４を再び押すことで、複数の画像データをまとめて保持しておくこともできる。

送信開始ボタン１３０５は、画像が読み取られ、かつ、画像種別が選択されると、選択可能な状態となる。送信開始ボタン１３０５は、それが選択されると、選択された画像属性が付与された読取画像を学習装置１０２に送信する。

図１３（ｂ）～（ｆ）は、合成領域データ作成画面を示す図である。Ｓ１２０７のユーザ指示は、以下のような操作画面を介して行われる。

合成領域データ作成画面１３５０は、表示デバイス２６７に表示される画面の一例である。図１３（ｂ）で合成領域データ作成画面１３５０は、画像表示領域１３５１、画像選択ボタン１３５２、拡大ボタン１３５３、縮小ボタン１３５４、統合ボタン１３５５及び保存ボタン１３５６を備える。

画像選択ボタン１３５２は、画像蓄積部１１５に蓄積されている背景サンプル画像を選択し、画像処理装置１０１からそれを受信するためのボタンである。画像選択ボタン１３５２が選択されると、選択画面（不図示）が表示され、ユーザは、背景サンプル画像を選択することができる。ユーザが、背景サンプル画像を選択すると、画像表示領域１３５１は選択された画像を表示する。ユーザは、画像表示領域１３５１に表示された背景サンプル画像に対して操作して、合成領域データを作成する。

拡大ボタン１３５３と縮小ボタン１３５４はそれぞれ、合成領域データの作成を行いやすくするために、画像表示領域１３５１の表示を拡大及び縮小するためのボタンである。拡大ボタン１３５３及び縮小ボタン１３５４はそれぞれ、画像表示領域１３５１に表示されている背景サンプル画像を拡大及び縮小して表示する。

ユーザは、合成領域データを以下の操作により作成する。ユーザは、図１３（ｂ）の点線枠で示すように、入力デバイス２３６のマウスカーソルを操作し、画像表示領域１３５１内の背景サンプル画像中の罫線で囲まれた領域内（記入欄内）を選択する。この選択領域は、合成領域（合成領域データ）である。選択領域は、学習データ生成部１１２が学習データを生成する際、背景サンプル画像上の、合成領域内に前景サンプル画像の一部を合成するよう指示するものである。なお、図１３（ｃ）に示すように、単一の記入欄内であっても、複数の項目を含む場合には、記入欄内に複数の合成領域データが作成されてよい。

統合ボタン１３５５は、作成済みの複数の合成領域をグルーピングするためのボタンである。統合ボタン１３５５は、図１３（ｄ）の点線で示すように、例えば、枠で区切られた複数の記入欄（例えば、数値記入欄）にそれぞれ合成領域データを作成する。統合ボタン１３５５は、これらの合成領域データを、入力デバイス２３６を操作して選択した状態で、統合ボタン１３５５が選択されると、選択した複数の合成領域データをグループとして記録する。統合ボタン１３５５は、手書き領域推定の正解データを生成する際、グルーピングされた合成領域を統合して一つの正解データとする。

以上の通り、ユーザは、個々の背景サンプル画像に対して、記入欄の存在に従って、複数の合成領域を作成する。なお、図１３（ｅ）及び図１３（ｆ）に示すように、帳票内の記入欄が罫線に囲まれていない。この場合、ユーザは、図１３（ｅ）及び図１３（ｆ）内の点線で示すように、ユーザが記入する領域を選択する。

保存ボタン１３０６は、作成した合成領域データを保存するためのボタンである。合成領域データは、作成対象であった背景サンプル画像に対して、一つのＸＭＬ形式のデータとして記録される。以下、ＸＭＬ形式で保存された合成領域データを「合成領域定義情報」と呼称する。図１４は、合成領域定義情報の一例を示す。合成領域定義情報は、対応する背景サンプル画像と紐づけて画像蓄積部１１５に蓄積される。合成領域定義情報の詳細は後述する。

図１５は、原稿サンプル画像生成処理等のフローを示す図である。図１５（ａ）は、サンプル画像生成処理のフローを示す図である。原稿サンプル画像生成処理は、ＣＰＵ２０１が、ストレージ２０８内のコントローラプログラムを読み出し、ＲＡＭ２０４に展開して実行することで実現される。原稿サンプル画像生成処理は、ユーザが、画像処理装置１０１の入力デバイス２０９を操作することにより開始される。

Ｓ１５０１で、ＣＰＵ２０１は、手書きのみの原稿のスキャン指示がされたか否かを判定する。ＣＰＵ２０１は、ユーザが、入力デバイス２０９を介して、手書きのみの原稿をスキャンするための所定の操作（スキャンボタン１３０４の選択及び手書き原稿ボタン１３０２の選択）をしたと判定した場合（Ｓ１５０１でＹｅｓ）、処理はＳ１５０２に進む。ＣＰＵ２０１は、上記の判定条件を満たさないと判定した場合（Ｓ１５０１でＮｏ）、処理はＳ１５０４に進む。

Ｓ１５０２で、ＣＰＵ２０１は、スキャナデバイス２０６及び原稿搬送デバイス２０７を制御して、原稿をスキャンして前景サンプル画像を生成する。ここで、原稿は、ユーザが文章及び図形（例えば、線及び矢印）等を白紙に記入したものであり、手書きのみを含む。例えば、原稿は帳票であり、ユーザが帳票に文章及び図形を記入しものである。前景サンプル画像は、グレースケールの画像データとして生成される。

Ｓ１５０３で、ＣＰＵ２０１は、前景サンプル画像を、外部インタフェース２１１を介して、学習装置１０２に送信する。この際、ＣＰＵ２０１は、送信する画像データが、前景サンプル画像であることを示す情報（前景フラグ）を付与して送信する。

Ｓ１５０４で、ＣＰＵ２０１は、印刷内容のみの原稿をスキャンする指示がされたか否かを判定する。ＣＰＵ２０１は、ユーザが、入力デバイス２０９を介して、印刷内容のみの原稿をスキャンするための所定の操作（スキャンボタン１３０４の選択及び帳票原稿ボタン１３０３の選択）をしたと判定した場合（Ｓ１５０４でＹｅｓ）、処理はＳ１５０５に進む。ＣＰＵ２０１は、上記の判定条件を満たさないと判定した場合（Ｓ１５０４でＮｏ）、処理はＳ１５０７に進む。

Ｓ１５０５で、ＣＰＵ２０１は、スキャナデバイス２０６及び原稿搬送デバイス２０７を制御して、原稿をスキャンして背景サンプル画像を生成する。原稿は、用紙に帳票などを印刷したものであり、印刷内容のみが含まれる。背景サンプル画像は、グレースケールの画像データとして生成される。

Ｓ１５０６で、ＣＰＵ２０１は、背景サンプル画像を、外部インタフェース２１１を介して、学習装置１０２に送信する。この際、ＣＰＵ２０１は、送信する画像データが、背景サンプル画像であることを示す情報（背景フラグ）を付与して送信する。

Ｓ１５０７で、ＣＰＵ２０１は、原稿サンプル画像生成処理を終了するか否かを判定する。ＣＰＵ２０１は、ユーザが、原稿サンプル画像生成処理を終了する所定の操作をしたと判定した場合（Ｓ１５０７でＹｅｓ）、処理を終了する。ＣＰＵ２０１は、上記の判定条件を満たさないと判定した場合（Ｓ１５０８でＮｏ）、処理はＳ１５０１に戻る。

以上の処理によって、画像処理装置１０１は、前景サンプル画像及び背景サンプル画像を生成して、それを学習装置１０２に送信する。画像処理装置１０１は、ユーザの操作及び原稿搬送デバイス２０７に載置した原稿枚数に応じて、前景サンプル画像及び背景サンプル画像をそれぞれ、複数枚取得する。

（サンプル画像受信処理）
図１５（ｂ）は、サンプル画像受信処理のフローを示す図である。サンプル画像受信処理は、ＣＰＵ２３１が、ストレージ２３５内の学習データ生成プログラムを読み出し、ＲＡＭ２３４に展開して実行することで実現される。サンプル画像受信処理は、ユーザが、学習装置１０２の電源をＯＮにすると開始される。

Ｓ１５３１で、ＣＰＵ２３１は、前景サンプル画像を受信したか否かを判定する。ＣＰＵ２３１は、外部インタフェース２３８を介して画像データを受信し、かつ、画像データに前景フラグが付与されていると判定した場合（Ｓ１５３１でＹｅｓ）、処理はＳ１５３２に進む。ＣＰＵ２３１は、上記の判定条件を満たさないと判定した場合（Ｓ１５３１でＮｏ）、処理はＳ１５３３に進む。

Ｓ１５３２で、ＣＰＵ２３１は、前景サンプル画像を、ストレージ２３５の所定の領域に記録する。

Ｓ１５３３で、ＣＰＵ２３１は、背景サンプル画像を受信したか否かを判定する。ＣＰＵ２３１は、外部インタフェース２３８を介して画像データを受信し、かつ、画像データに背景フラグが付与されていると判定した場合（Ｓ１５３３でＹｅｓ）、処理はＳ１５３４に進む。ＣＰＵ２３１は、上記の判定条件を満たさないと判定した場合（Ｓ１５３３でＮｏ）、処理はＳ１５３５に進む。

Ｓ１５３４で、ＣＰＵ２３１は、背景サンプル画像を、ストレージ２３５に記録する。

Ｓ１５３５で、ＣＰＵ２３１は、サンプル画像受信処理を終了するか否かを判定する。ＣＰＵ２３１は、ユーザが、学習装置１０２の電源をＯＦＦにする等の所定の操作をしたと判定した場合（Ｓ１５３５でＹｅｓ）、処理は終了する。ＣＰＵ２３１は、上記の判定条件を満たさないと判定した場合（Ｓ１５３５でＮｏ）、処理はＳ１５３１に戻る。

（合成領域定義情報生成処理）
次に、学習装置１０２による合成領域定義情報生成処理について説明する。図１５（ｃ）は合成領域定義情報生成処理のフローを示す図である。合成領域定義情報生成処理は、学習装置１０２の学習データ生成部１１２により実現される。合成領域定義情報生成処理は、ユーザが、学習装置１０２の入力デバイス２３６を介して、所定の操作を行うことで開始される。

Ｓ１５６１で、ＣＰＵ２３１は、背景サンプル画像の選択指示がされたか否かを判定する。ＣＰＵ２３１は、ユーザが、入力デバイス２３６を介して、背景サンプル画像を選択するための所定の操作（画像選択ボタン１３５２の指示）をしたと判定した場合（Ｓ１５６１でＹｅｓ）、処理はＳ１５６２に進む。ＣＰＵ２３１は、上記の判定条件を満たさないと判定した場合（Ｓ１５６１でＮｏ）、処理はＳ１５６３に進む。

Ｓ１５６２で、ＣＰＵ２３１は、ユーザが選択した背景サンプル画像を、ストレージ２３５から読み出してプレビュー領域１３０１に出力する。

Ｓ１５６３で、ＣＰＵ２３１は、ユーザが合成領域データの入力指示を行ったか否かを判定する。ＣＰＵ２３１は、ユーザが、入力デバイス２３６を介して、記入欄内の領域を選択する操作をしたと判定した場合（Ｓ１５６３でＹｅｓ）、処理はＳ１５６４に進む。ＣＰＵ２３１は、上記の判定条件を満たさないと判定した場合（Ｓ１５６３でＮｏ）、処理はＳ１５６５に進む。

Ｓ１５６４で、ＣＰＵ２３１は、ユーザが入力した合成領域データを、ＲＡＭ２３４に記憶する。

Ｓ１５６５で、ＣＰＵ２３１は、ユーザが合成領域のグルーピング入力指示をしたか否かを判定する。ＣＰＵ２３１は、ユーザが、入力デバイス２３６を介して、所定の操作（入力済みの合成領域の選択及び統合ボタン１３５５の選択）をしたと判定した場合（Ｓ１５６５でＹｅｓ）、処理はＳ１５６６に進む。ＣＰＵ２３１は、上記の判定条件を満たさないと判定した場合（Ｓ１５６５でＮｏ）、Ｓ１５６７に進む。

Ｓ１５６６で、ＣＰＵ２３１は、合成領域のグルーピングの情報（選択された複数の合成領域の紐付け情報）を、ＲＡＭ２３４に一時的に記憶する。

Ｓ１５６７で、ＣＰＵ２３１は、合成領域データの保存指示がされたか否かを判定する。ＣＰＵ２３１は、ユーザが、入力デバイス２３６を介して、合成領域データを保存するための所定の操作（保存ボタン１３５６の選択）をしたと判定した場合（Ｓ１５６７でＹｅｓ）、処理はＳ１５６８に進む。ＣＰＵ２３１は、上記の判定条件を満たさないと判定した場合（Ｓ１５６７でＮｏ）、処理はＳ１５６９に進む。

Ｓ１５６８で、ＣＰＵ２３１は、合成領域定義情報を示すＸＭＬデータを生成して保存する。ＣＰＵ２３１は、Ｓ１５６４でＲＡＭ２３４に一時的に記憶した合成領域データを参照し、その数分だけ＜ａｒｅａ＞タグを挿入する。ＣＰＵ２３１は、各々の＜ａｒｅａ＞タグに、ｘ属性及びｙ属性を追加して、合成領域の背景サンプル画像上の画素位置を示すｘ座標及びｙ座標の値を記録する。また、ＣＰＵ２３１は、ｗｉｄｔｈ属性及びｈｅｉｇｈｔ属性を追加して、合成領域の幅の画素数及び高さの画素数を記録する。さらに、ＣＰＵ２３１は、Ｓ１５６６でＲＡＭ２３４に一時的に記憶した合成領域のグルーピングの情報を参照して、合成領域の＜ａｒｅａ＞タグにｇｒｏｕｐ属性を付与する。

そして、ＣＰＵ２３１は、同一グループに属する合成領域について、同一の値（グループのＩＤ）をｇｒｏｕｐ属性の値に記録する。これにより、図１４に示すような合成領域定義情報が生成される。ＣＰＵ２３１は、Ｓ１５６１で選択された処理対象としている背景サンプル画像と、合成領域定義情報とを紐付けて、ストレージ２３５に記憶する。

Ｓ１５６９で、ＣＰＵ２３１は、合成領域定義情報生成処理を終了するか否かを判定する。ＣＰＵ２３１は、ユーザが、合成領域定義情報生成処理を終了する所定の操作をしたと判定した場合（Ｓ１５６９でＹｅｓ）、処理を終了する。ＣＰＵ２３１は、上記の判定条件を満たさないと判定した場合（Ｓ１５６９でＮｏ）、処理はＳ１５６１に戻る。

（学習データ生成処理）
図１６（ａ）は、第２実施形態に係る学習データ生成処理のフローを示す図である。図１７（ａ）は、画像合成により生成する入力画像の構成の一例を示す図である。図１７（ｂ）は、手書き抽出の学習データの構成の一例を示す図である。図１７（ｃ）は、手書き領域推定の学習データの構成の一例を示す図である。学習データ生成処理は、学習装置１０２の学習データ生成部１１２により実現される。学習データ生成処理は、ユーザが、学習装置１０２の入力デバイス２３６を介して、所定の操作をすることで開始される。

Ｓ１６０１で、ＣＰＵ２３１は、ストレージ２３５に記憶している前景サンプル画像の中からランダムに一つを選択して読み出す。なお、ストレージ２３５は、図１５のＳ１５３２の処理により、複数の前景サンプル画像を記憶している。

Ｓ１６０２で、ＣＰＵ２３１は、ストレージ２３５に記憶している背景サンプル画像の中からランダムに一つを選択して読み出す。なお、ストレージ２３５は、図１５のＳ１５３４の処理により、複数の背景サンプル画像を記憶している。

Ｓ１６０３で、ＣＰＵ２３１は、背景サンプル画像の一部（例えば、縦ｘ横＝２５６ｘ２５６）を切り出した画像データを生成する。以下、この画像データを「背景パッチ」と呼称する。背景サンプル画像からの切り出し位置は、ランダムに決定される。図１７（ａ）は、背景パッチの一例を示す。

Ｓ１６０４で、ＣＰＵ２３１は、背景パッチと同じサイズの画像を生成して、画像の全ての画素値を、手書きではないことを示す値に変更する。これにより、ＣＰＵ２３１は、背景パッチと同じサイズの画像から手書き抽出正解ラベル画像を生成する。

Ｓ１６０５で、ＣＰＵ２３１は、背景パッチと同じサイズの画像を生成して、画像の全ての画素値を、手書き領域ではないことを示す値に変更する。これにより、ＣＰＵ２３１は、背景パッチと同じサイズの画像から手書き領域推定正解ラベル画像を生成する。

Ｓ１６０６で、ＣＰＵ２３１は、生成する学習データの種別を決定する。ここで、種別は、「背景のみ」、「前景のみ」及び「混在」の３種類である。「背景のみ」は、印刷画素のみを含む学習データである。「前景のみ」は、手書き画素のみを含む学習データである。「混在」は、印刷画素と手書き画素の両方を含む学習データである。帳票をスキャンして得られる処理対象画像内の部分領域は、上記３種類のいずれかに該当する場合があるので、３種類の学習データをＮＮに学習させる。学習データの決定方法は、ランダムにいずれかが選択されるようにする。あるいは、種別ごとに生成する学習データの数（例えば、ユーザ指定による数）を予め設定しておき、その設定に基づいて決定されてもよい。

Ｓ１６０７で、ＣＰＵ２３１は、生成する学習データの種別が「背景のみ」であるか否かを判定する。ＣＰＵ２３１は、生成する学習データの種別が「背景のみ」であると判定した場合（Ｓ１６０７でＹｅｓ）、処理はＳ１６２０に進む。ＣＰＵ２３１は、上記の判定条件を満たさないと判定した場合（Ｓ１６０７でＮｏ）、処理はＳ１６０８に進む。

Ｓ１６０８で、ＣＰＵ２３１は、生成する学習データの種別が「前景のみ」であるか否かを判定する。ＣＰＵ２３１は、生成する学習データの種別が「前景のみ」であると判定した場合（Ｓ１６０８でＹｅｓ）、処理はＳ１６０９に進む。ＣＰＵ２３１は、上記の判定条件を満たさないと判定した場合（Ｓ１６０８でＮｏ）、処理はＳ１６１０に進む。

Ｓ１６０９で、ＣＰＵ２３１は、「キャンパスパッチ」を生成する。キャンパスパッチとは、以降の処理における手書き文字の合成先となる画像のことである。ＣＰＵ２３１は、背景パッチと同じサイズの画像を生成して、画像の全ての画素値を白（ＲＧＢ＝（２５５，２５５，２５５））とする。あるいは、ＣＰＵ２３１は、無記入の白紙用紙をスキャンして得た画像を予め保持しておき、その画像の一部（背景パッチと同じサイズ）をランダムに決定した位置から切り出すことでキャンパスパッチとしてもよい。

Ｓ１６１０で、ＣＰＵ２３１は、Ｓ１６０３で切り出して得た背景パッチをキャンパスパッチとする。

Ｓ１６１１で、ＣＰＵ２３１は、背景パッチにおける合成領域を特定する。ＣＰＵ２３１は、ストレージ２３５から、Ｓ１６０２で選択した背景サンプル画像と紐付けて記憶されている合成領域定義情報を読み出す。ＣＰＵ２３１は、合成領域定義情報内に＜ａｒｅａ＞タグとして記憶されている各合成領域（矩形情報）と、背景サンプル画像上の背景パッチ切り出し領域（矩形情報）との交差部分（交差矩形）を求める。ＣＰＵ２３１は、交差矩形のサイズが縦と横それぞれについて０以上のものを背景パッチにおける合成領域として採用する。

合成領域は、背景サンプル画像上の左上端点を原点としているので、ＣＰＵ２３１は、背景パッチ切り出し領域の左上端点が基準となるように補正する。これにより、ＣＰＵ２３１は、背景パッチ上の合成領域を特定する。ＣＰＵ２３１は、後処理のために、算出した背景パッチ上の合成領域をＲＡＭ２３４に一時的に記憶しておく。また、ＣＰＵ２３１は、交差矩形算出時に、元の合成領域定義情報の＜ａｒｅａ＞タグにｇｒｏｕｐ属性が付与されていた場合、この値（グルーピング情報）も合成領域と関連付けてＲＡＭ２３４に一時的に記憶しておく。図１７（ａ）では、背景パッチ上の合成領域は斜線で示される。ＣＰＵ２３１は、背景パッチ上の合成領域の一つを選択する。

Ｓ１６１２で、ＣＰＵ２３１は、前景サンプル画像の一部を切り出した画像データを生成する。以下、この画像データを「前景パッチ」と呼称する。前景サンプル画像からの切り出し位置は、ランダムに決定されてよい。切り出す画像サイズは、現在処理対象として選択されている背景パッチ上の合成領域のサイズと同一とする。なお、ＣＰＵ２３１は、前景パッチに対して二値化処理を行い、黒画素が予め定めた所定数に満たない場合、前景パッチを切り出し直す。

Ｓ１６１３で、ＣＰＵ２３１は、切り出した前景パッチの余白を除去する。ＣＰＵ２３１は、前景パッチを二値化処理して、二値画像を生成する。ＣＰＵ２３１は、二値画像中の全ての黒画素を含む外接矩形を求める。ＣＰＵ２３１は、外接矩形に該当する領域を前景パッチから切り出して、切り出した画像で前景パッチを更新する。

Ｓ１６１４で、ＣＰＵ２３１は、前景パッチの合成位置を決定する。ＣＰＵ２３１は、合成領域の中心点を基準に、合成領域を拡大した領域を決定する。以下、この領域を「拡大合成領域」と呼称する。拡大率は、１００％～予め定めた閾値（例えば、１０５％）までの間であり、この区間からランダムに決定される。そして、ＣＰＵ２３１は、拡大合成領域内に前景パッチが収まるように、前景パッチの合成位置を、拡大合成領域内でランダムに決定する。なお、ＣＰＵ２３１は、合成領域が背景パッチの端部にある場合、拡大合成領域を端辺方向に拡大しない。図１７（ａ）は、拡大合成領域を破線で例示している。合成領域は、背景サンプル画像中の記入欄内の領域を選択するように作成される。後述するキャンパスパッチ（背景パッチ）に前景パッチを合成する処理の際、記入欄周辺の罫線と手書きとが交差する場合がある。これにより、記入欄をはみ出して記入した場合を再現する学習データが生成される。

Ｓ１６１５で、ＣＰＵ２３１は、キャンパスパッチである画像上の、Ｓ１６１４で決定した合成位置に該当する部分に、前景パッチを合成する。ＣＰＵ２３１は、Ｓ１６０６で生成する学習データの種別を「前景のみ」と決定した場合、キャンパスパッチは背景パッチと同じサイズである白画素で構成される画像である。よって、ＣＰＵ２３１は、手書き画素のみが含まれる画像を生成する。

Ｓ１６０６で、ＣＰＵ２３１は、生成する学習データの種別を「混在」と決定した場合、キャンパスパッチは背景パッチである。よって、ＣＰＵ２３１は、背景パッチに手書きが合成された画像を生成する。

Ｓ１６１６で、ＣＰＵ２３１は、手書き抽出正解ラベル画像を更新する。ＣＰＵ２３１は、前景パッチに対して二値化処理を行う。ＣＰＵ２３１は、予め定めた閾値よりも低い値である画素値を、手書きを示す値とする。ＣＰＵ２３１は、他の画素値を、手書きではないことを示す値とする。ＣＰＵ２３１は、手書き抽出正解ラベル画像上で、Ｓ１６１４で決定した合成位置に該当する部分に、上記のように処理して画素値を定めた画像データを合成する。

Ｓ１６１７で、ＣＰＵ２３１は、手書き領域推定正解ラベル画像を更新する。ＣＰＵ２３１は、手書きを示す値と手書きではないことを示す値を含む画像データを参照する。ＣＰＵ２３１は、画像内の全ての手書きを示す画素を内包する外接矩形を算出する。ＣＰＵ２３１は、画像データ中の外接矩形に内包される画素値を、手書き領域であることを示す値に更新する。また、ＣＰＵ２３１は、他の画素を、手書き領域ではないことを示す値に更新する。ＣＰＵ２３１は、手書き領域推定正解ラベル画像上で、Ｓ１６１４で決定した合成位置に該当する部分に、上記のように処理して画素値を定めた画像データを合成する。

Ｓ１６１８で、ＣＰＵ２３１は、現在処理対象としている背景パッチ上の合成領域について、全て処理を行ったか否かを判定する。ＣＰＵ２３１は、背景パッチ上の全ての合成領域について、Ｓ１６１２～Ｓ１６１７の処理を実行していると判定した場合（Ｓ１６１８でＹｅｓ）、処理はＳ１６１９に進む。ＣＰＵ２３１は、上記の判定条件を満たさないと判定した場合（Ｓ１６１８でＮｏ）、処理はＳ１６１２に戻り、背景パッチ上の次の合成領域について処理する。

Ｓ１６１９で、ＣＰＵ２３１は、Ｓ１６１１で特定した背景パッチ上の合成領域について、グルーピング情報を参照して手書き領域推定正解ラベル画像を更新する。ＣＰＵ２３１は、Ｓ１６１１でＲＡＭ２３４に一時的に記憶した合成領域とグルーピングに関するデータを読み出す。ＣＰＵ２３１は、同一のｇｒｏｕｐ属性の合成領域を選択する。ＣＰＵ２３１は、合成領域の矩形の結合矩形（合成矩形を全て内包する最小矩形）を求める。

ＣＰＵ２３１は、手書き領域推定正解ラベル画像上で、結合矩形に該当する領域内の画素について、手書き領域であることを示す値である画素を全て内包する外接矩形を求める。ＣＰＵ２３１は、手書き領域推定正解ラベル上で、外接矩形内の全ての画素の値を、手書き領域であることを示す値に変更する。このように、ＣＰＵ２３１は、グルーピングされ、かつ、枠等で区切られた複数の数値記入が、単一の記入領域内に記入された正解データを生成する。

Ｓ１６２０で、ＣＰＵ２３１は、手書き抽出の学習データを保存する。ＣＰＵ２３１は、Ｓ１６０６で生成する学習データの種別「背景のみ」を決定した場合、Ｓ１６０３で切り出して得た背景パッチが入力画像となる。ＣＰＵ２３１は、Ｓ１６０６で生成する学習データの種別「前景のみ」又は「混在」を決定した場合、Ｓ１６１５で前景パッチを合成したキャンパスパッチが入力画像となる。ＣＰＵ２３１は、入力画像と、Ｓ１６１６で作成した手書き抽出正解ラベル画像とを対応付けて、手書き抽出のＮＮを学習させる学習データとして、ストレージ２３５に保存する。ＣＰＵ２３１は、図１７（ｂ）のような、手書き抽出の学習データ（学習データの種別「混在」が決定された場合）を保存する。

Ｓ１６２１で、ＣＰＵ２３１は、手書き領域推定の学習データを保存する。ＣＰＵ２３１は、Ｓ１６０６で生成する学習データの種別「背景のみ」を決定した場合、Ｓ１６０３で切り出して得た背景パッチが入力画像となる。ＣＰＵ２３１は、Ｓ１６０６で生成する学習データの種別「前景のみ」又は「混在」を決定した場合、Ｓ１６１５で前景パッチを合成したキャンパスパッチが入力画像となる。ＣＰＵ２３１は、入力画像と、Ｓ１６１７で作成した手書き領域推定正解ラベル画像とを対応付け、手書き領域推定のＮＮを学習させるための学習データとして、ストレージ２３５に保存する。ＣＰＵ２３１は、図１７（ｃ）のような、手書き領域推定の学習データ（学習データの種別「混在」が決定された場合）を保存する。

Ｓ１６２２で、ＣＰＵ２３１は、抽出要否判定の学習データを保存する。ＣＰＵ２３１は、Ｓ１６０６で生成する学習データの種別「背景のみ」を決定した場合、抽出要否判定の正解データとして、「背景のみ」のデータを保存する。「背景のみ」のデータとは、印刷画素があり、かつ、手書き画素なしであることを示すデータ（例えば、［０，１］）である。ＣＰＵ２３１は、「前景のみ」が決定された場合、抽出要否判定の正解データとして、「前景のみ」のデータを保存する。「前景のみ」のデータとは、印刷画素がなしで、かつ、手書き画素ありであることを示すデータ（例えば、［１，０］）である。ＣＰＵ２３１は、「混在」が決定された場合、抽出要否判定の正解データとして、「混在」のデータを保存する。「混在」のデータとは、印刷画素ありで、かつ、手書き画素ありであることを示すデータ（例えば、［１，１］）である。

Ｓ１６２３で、ＣＰＵ２３１は、学習データ生成処理を終了するか否かを判定する。ＣＰＵ２３１は、予め決定した学習データの数（例えば、ユーザが指定した数）の学習データが生成されたと判定した場合（Ｓ１６２３でＹｅｓ）、処理を終了する。ＣＰＵ２３１は、上記の判定条件を満たさないと判定した場合（Ｓ１６２３でＮｏ）、処理はＳ１６０１に戻る。

以上の通り、手書き抽出を行うＮＮの学習データ、及び、手書き領域推定と抽出要否判定を行うＮＮの学習データは、前景サンプル画像、背景サンプル画像及び合成領域定義情報に基づいて、画像合成により生成される。学習データは、ＮＮの汎用性を高めるために、加工されてもよい。例えば、前景パッチ及び背景パッチは、所定の範囲（例えば、５０％～１５０％）からランダムに選択される変倍率で変倍されてもよい。あるいは、前景パッチ及び背景パッチの各画素の輝度は、変更してもよい。この際、画像の輝度は、ガンマ補正を用いて、変更されてもよい。ガンマ値は、所定の範囲（例えば、０．１～１０．０）からランダムに選択して決定される。

あるいは、前景パッチ及び前景パッチを合成したキャンパスパッチは、所定の範囲（例えば、－１０度～１０度）からランダムに選択された回転角度で回転されてもよい。変倍と回転を考慮して、前景パッチ及び背景パッチは、少し大きめのサイズ（例えば、合成領域の縦横２倍の大きさ／縦ｘ横＝５１２ｘ５１２の大きさ）で切り出されてもよい。前景パッチ及び背景パッチは、最終的な入力画像、手書き抽出及び手書き領域推定の正解ラベル画像のサイズ（例えば、縦ｘ横＝２５６ｘ２５６）となるよう、それらの中心部分から切り出される。このように、学習装置１０２は、生成した学習データを用いて、手書き抽出のＮＮ及び手書き領域推定のＮＮを学習させることができる。

（学習処理）
図１６（ｂ）は、第２実施形態に係る学習処理のフローを示す図である。学習処理は、学習装置１０２の学習部１１３により実現される。学習処理は、ユーザが、学習装置１０２の入力デバイス２３６を介して、所定の操作を行うことで開始される。なお、本実施形態のＮＮ１１００の学習では、ミニバッチ法を用いる。Ｓ７３１～Ｓ７３５及びＳ７３７～Ｓ７３９の処理は、図７（ｂ）と同様の処理であるので、説明を省略する。

Ｓ１６５１で、ＣＰＵ２３１は、ＮＮ１１００の抽出要否判定の誤差を算出する。ＣＰＵ２３１は、Ｓ７３３で取得した特徴マップを、抽出判定部１１３２に入力してその出力を得る。出力は、入力画像（例えば、特徴マップ）が印刷画素を含む確率及び手書き画素を含む確率を示す２次元のベクトルである。ＣＰＵ２３１は、出力と、学習データに含まれる抽出要否判定正解データとの誤差を求める。誤差の評価指標は、交差エントロピーが用いられる。

（帳票テキスト化処理）
図１８（ａ）は、第２実施形態に係る帳票テキスト化処理のフローを示す図である。帳票テキスト化処理は、ＣＰＵ２６１が、ストレージ２６５内の画像処理サーバプログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。帳票テキスト化処理は、ユーザが、画像処理サーバ１０３の電源をＯＮにすると開始される。Ｓ９５１～Ｓ９５４及びＳ９５９～Ｓ９６７の処理は、図９（ｂ）と同様の処理であるので、説明を省略する。

Ｓ１８０１で、ＣＰＵ２６１は、Ｓ９５４で推定した手書き領域の中から一つの手書き領域を選択する。

Ｓ１８０２で、ＣＰＵ２６１は、Ｓ９５３で取得した畳み込み層ＥＣ１、ＥＣ２、ＥＣ３、ＥＣ４が出力する特徴マップから、手書き領域に対応する部分の特徴マップを取得する。以下、各畳み込み層が出力する特徴マップ上の手書き領域に対応する領域の特徴マップ（部分特徴マップ）を「手書き領域特徴マップ」と呼称する。ここで、ＮＮ１１００に入力した画像に対する手書き領域の推定結果と、畳み込み層ＥＣ１～ＥＣ４が出力する特徴マップの関係を説明する。

図１９は、ＮＮ１１００に入力した画像に対する手書き領域の推定結果と、畳み込み層ＥＣ１～ＥＣ４が出力する特徴マップの関係を説明する図である。ＮＮ１１００は画像が入力されると、エンコーダ部１１０１はそれの各畳み込み層で特徴を抽出した特徴マップを出力する。領域推定デコーダ部１１２２は、特徴マップを処理して画像の各画素がいずれのクラスに属するかを推定する。エンコーダ部１１０１の各層が抽出した特徴マップ内の破線部分の特徴が、領域推定デコーダ部１１２２の各層で処理され、出力画像中の特徴マップ内の破線部分に対応する破線領域が、手書き領域として出力される。

また、畳み込み層ＥＣ１～ＥＣ３が出力する特徴マップは、プーリング層ＥＰ１、ＥＰ２及びＥＰ３を経て、一定の倍率で解像度が落とされている。一方、領域推定デコーダ部１１２２の出力画像は、アップサンプリング層ＤＵｒ１、ＤＵｒ２及びＤＵｒ３を経て、畳み込み層ＥＣ１の特徴マップと同じ解像度となっている。

以上の手書き領域の推定結果と畳み込み層ＥＣ１～ＥＣ４が出力する特徴マップとの関係を踏まえて、手書き領域特徴取得処理を説明する。図１８（ｂ）は、手書き特徴取得処理フローを説明する図である。

Ｓ１８５１で、ＣＰＵ２６１は、畳み込み層ＥＣ４が出力した特徴マップ上で、Ｓ１８０１で選択した手書き領域に対応する部分の特徴マップ（手書き領域特徴マップ）を取得する。具体的には、ＣＰＵ２６１は、Ｓ１８０１で選択した手書き領域の領域座標情報に、畳み込み層ＥＣ１の出力と畳み込み層ＥＣ４の出力のサイズ比を乗算することにより、畳み込み層ＥＣ４の手書き領域特徴マップを算出する。畳み込み層ＥＣ４の手書き領域特徴マップは、画素抽出デコーダ部１１１２に入力する特徴マップと同じである。

Ｓ１８５２で、ＣＰＵ２６１は、スキップコネクションのために、畳み込み層ＥＣ１、ＥＣ２、ＥＣ３の手書き領域特徴マップも導出する。ここで、図１９に示すように、各畳み込み層の出力は、各畳み込み層の間のプーリング層ＥＰ１、ＥＰ２、ＥＰ３により、前段の層の出力解像度を半分にした特徴マップとして出力される。ＣＰＵ２６１は、Ｓ１８５１で算出した畳み込み層ＥＣ４の手書き領域特徴マップの座標情報（縦位置と横位置及び幅と高さ）を２倍することで、畳み込み層ＥＣ３の手書き領域特徴マップを算出する。また、ＣＰＵ２６１は、畳み込み層ＥＣ４の手書き領域特徴マップの座標情報を４倍することで、畳み込み層ＥＣ２の出力上の手書き領域特徴マップを算出する。また、ＣＰＵ２６１は、畳み込み層ＥＣ４の手書き領域特徴マップの座標情報を８倍することで、畳み込み層ＥＣ１の手書き領域特徴マップを算出する。ここで、図１８（ａ）に示す帳票テキスト化処理に戻る。

Ｓ１８０３で、ＣＰＵ２６１は、Ｓ１８０２で導出した畳み込み層ＥＣ４が出力する手書き領域特徴マップを抽出判定部１１３２に入力し、Ｓ１８０１で選択した手書き領域について、手書き抽出を要するか否かを推定する。ＣＰＵ２６１は、ＮＮ１１００の出力として、手書き抽出の要否を示すデータを得る。なお、ＣＰＵ２６１は、図１６（ａ）の学習データ生成処理によって、記入欄をはみ出して罫線と交差する「手書き」を含む学習データを生成した。ＮＮ１１００の抽出判定部１１３２は、上記の学習データを学習しているため、手書きが罫線と交差することにより手書き領域内に印刷画素が含まれる場合、手書き抽出を要することを示すデータを得る。抽出判定部１１３２は、上記の判定条件を満たさないと判定した場合、手書き抽出が不要であることを示すデータを得る。

Ｓ１８０４で、ＣＰＵ２６１は、手書き抽出の要否を判定する。ＣＰＵ２６１は、Ｓ１８０３で手書き抽出を要することを示すデータを得ており手書き抽出を要すると判定した場合（Ｓ１８０４でＹｅｓ）、処理はＳ１８０５に進む。ＣＰＵ２６１は、Ｓ１８０３で手書き抽出は不要であることを示すデータを得ておらず手書き抽出を要すると判定した場合（Ｓ１８０４でＮｏ）、処理はＳ１８０６に進む。

Ｓ１８０５で、ＣＰＵ２６１は、Ｓ１８０２で導出したエンコーダ部１１０１の畳み込み層ＥＣ１、ＥＣ２、ＥＣ３、ＥＣ４が出力する手書き領域特徴マップを、画素抽出デコーダ部１１１２に入力する。そして、ＣＰＵ２６１は、畳み込み層ＥＣ１、ＥＣ２、ＥＣ３、ＥＣ４のそれぞれが出力する特徴マップ上の手書き領域の範囲内で手書き画素を画素抽出デコーダ部１１１２に推定させる。ＮＮ１１００は、以下の画像データを出力する。画像データは、手書き領域と同じ画像サイズであり、予測結果として手書きであると判定された画素に手書きであること示す値が記録され、手書きではないと判定された画素に手書きではないことを示す値が記録された、画像データである。そして、ＮＮ１１００は、画像データ中の手書きであることを示す値の画素と同じ位置の画素を、処理対象画像から抽出して手書き抽出画像を生成する。これにより、図１０の手書き抽出画像１００１の一部（Ｓ１８０１で選択した手書き領域に対応する部分）が得られる。手書き抽出画像１００１は、図示のように、手書き領域における手書きの画素のみが含まれた画像である。

Ｓ１８０６で、ＣＰＵ２６１は、処理対象画像中におけるＳ９５４で推定した手書き領域内の画素を、手書き抽出結果として手書き抽出画像を生成する。ＣＰＵ２６１は、Ｓ１８０４で手書き抽出は不要と判定したが、これは手書き領域内に手書きの画素しか含まれないことを意味する。よって、ＣＰＵ２６１は、処理対象画像上の領域で、Ｓ１８０１で選択した手書き領域に相当する領域内の画素を抽出して手書き抽出画像を生成する。これにより、ＣＰＵ２６１は、図１０の手書き抽出画像１００１と同様の画像を得る。

Ｓ１８０７で、ＣＰＵ２６１は、全ての手書き領域を処理したか否かを判定する。ＣＰＵ２６１は、Ｓ９５４で推定した手書き領域の全てについて、Ｓ１８０２からＳ１８０６の処理を実行したと判定した場合（Ｓ１８０７でＹｅｓ）、処理はＳ９５９に進む。ＣＰＵ２６１は、上記の判定条件を満たさないと判定した場合（Ｓ１８０７でＮｏ）、処理はＳ１８０１に戻り、次の手書き領域を処理する。

なお、Ｓ９６６でＣＰＵ２６１は、画像取得部１１１に、生成した帳票テキストデータに加えて、手書き領域ごとの抽出要否判定の結果を送信してもよい。この場合、画像取得部１１１は、Ｓ９０４において、表示デバイス２１０に処理結果である帳票データを表示する際に、抽出要否判定の結果に応じて表示態様を変更する。例えば、抽出要否判定の結果が「要」であった場合、すなわち、手書き抽出をした場合、表示デバイス２１０は、帳票テキストデータ表示領域５６２の表示枠を強調して表示する。このように、表示デバイス２１０は、手書き抽出が行われたことをユーザに示すことにより、手書き抽出による誤推定の可能性を示唆し、より慎重な処理結果の確認を促すことができる。

また、ＮＮ１１００の学習時に手書き領域特徴マップが導出されてもよい。すなわち、Ｓ１６５１で学習データの抽出可否判定正解データが「混在」であった場合、ＣＰＵ２６１は、Ｓ７３４で推定した手書き領域ごとに、Ｓ７３３で得た特徴マップから手書き領域特徴マップを導出する。そして、ＣＰＵ２６１は、手書き領域特徴マップごとに抽出判定部１１３２に入力して、それの出力を得る。

当該手書き特徴マップに対応する手書き領域について、入力画像と手書き抽出正解画像とから、それぞれ該当する部分画像を得る。さらに両部分画像の差分画像を得る。手書き抽出正解画像の部分画像を参照すれば、当該手書き領域内の手書き画素の有無を得ることができる。当該差分画像を参照すれば、当該手書き領域内の印刷画素の有無を得ることができる。以上により、手書き領域ごとに抽出可否判定結果と抽出可否判定正解データを作成することができ、ＣＰＵ２６１は、それらに基づいて誤差を求めることができる。

また、本実施形態ではＳ９６２で示したように、画素の連結性に基づいて活字領域の抽出を判定する方法を示したが、手書き領域推定と同様にＮＮを用いて活字領域を推定してもよい。手書き領域推定正解画像を作成した際と同じ要領で、活字領域をユーザが選択し、それに基づいて正解データの作成及び活字ＯＣＲ領域推定を行うＮＮを新たに構成する。このＮＮに正解データを参照させて学習させてもよい。

本実施形態では、学習処理時に学習データ生成処理により学習データを生成した。しかしながら、事前に学習データ生成処理によって学習データを大量に生成しておいて、学習処理時にそこから随時、ミニバッチサイズ分を抽出して学習データとして用いても良い。本実施形態では、入力画像をグレースケール画像（Ａ４縦、１２４８×１７６０×１）として生成したが、フルカラー画像等他の形式を有する入力画像を生成してもよい。

以上の通り、手書き領域推定と手書き画素抽出を行うＮＮは、手書き領域ごとに、それに対応する特徴マップの部分を得て、これをもとに抽出要否判定を行い、判定結果に応じて手書き抽出を行う。このように、認識対象のオブジェクトの領域の推定とオブジェクトの画素抽出を行うＮＮは、推定した領域ごとに画素抽出の要否を判定する判定部を設ける。第２実施形態によれば、不要な推定処理を低減し、これに伴う処理時間及び誤推定に伴う推定精度の低下を低減する。第２実施形態は、手書き領域ごとに手書き画素抽出の判定をするため、より必要に応じた画素抽出を実行することができる。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１００：画像処理システム、１０１：画像処理装置、１０２：学習装置、１０３：画像処理サーバ、１０４：ＯＣＲサーバ、１０５：ネットワーク

Claims

複数の識別対象が映る第１画像から特徴マップを取得する取得手段と、
前記特徴マップに基づいて、前記第１画像内の前記複数の識別対象をそれぞれ包含する領域を推定する推定手段と、
前記特徴マップに基づいて、前記第１画像内に背景の画素が含まれるか否かを判定する判定手段と、
前記第１画像内に前記背景の画素が含まれると前記判定手段が判定した場合、前記特徴マップに基づいて、前記領域から識別対象の画素を抽出する抽出手段と、
を備えることを特徴とする画像処理装置。
前記抽出手段は、前記第１画像内に前記背景の画素が含まれないと前記判定手段が判定した場合、それぞれの前記領域からの識別対象の画素の抽出を抑制する、
ことを特徴とする請求項１に記載の画像処理装置。
前記取得手段は、前記第１画像内に前記背景の画素が含まれると前記判定手段が判定した場合、それぞれの前記領域からの前記識別対象の画素の抽出結果に基づくＯＣＲ処理によって得られた、前記識別対象の第１テキストデータを取得し、
前記第１画像内に前記背景の画素が含まれないと前記判定手段が判定した場合、それぞれの前記領域内の画像に対するＯＣＲ処理によって得られた、前記識別対象の第１テキストデータを取得する、
ことを特徴とする請求項２に記載の画像処理装置。
前記判定手段は、それぞれの前記領域に対応する前記特徴マップの一部に基づいて、前記領域に背景の画素が含まれるか否かを判定し、
前記抽出手段は、前記領域内に前記背景の画素が含まれると前記判定手段が判定した場合、前記領域から識別対象の画素を抽出する、
ことを特徴とする請求項１に記載の画像処理装置。
前記抽出手段は、前記領域内に前記背景の画素が含まれないと前記判定手段が判定した場合、前記領域から識別対象の画素の抽出を抑制する、
ことを特徴とする請求項４に記載の画像処理装置。
前記取得手段は、前記領域内に前記背景の画素が含まれると前記判定手段が判定した場合、前記領域からの識別対象の画素の抽出結果に基づくＯＣＲ処理によって得られた、前記識別対象の第１テキストデータを取得し、
前記領域内に前記背景の画素が含まれないと前記判定手段が判定した場合、前記領域内の画像に対するＯＣＲ処理によって得られた、前記識別対象の第１テキストデータを取得する、
ことを特徴とする請求項５に記載の画像処理装置。
前記取得手段は、前記第１画像から、前記複数の識別対象を除去した第２画像を取得し、前記第２画像に対するＯＣＲ処理によって得られた第２テキストデータを取得し、
前記第２画像に対するＯＣＲ処理は、前記識別対象の画素の抽出結果に基づくＯＣＲ処理及び前記領域内の画像に対するＯＣＲ処理とは異なる処理である、
ことを特徴とする請求項１から６のいずれか一項に記載の画像処理装置。
前記判定手段による判定を否定するユーザ指示を受け付ける受付手段を更に備え、
前記抽出手段は、前記ユーザ指示が前記第１画像内に前記背景の画素が含まれることを示す場合、前記特徴マップに基づいて、前記領域から識別対象の画素を抽出し、及び、前記ユーザ指示が前記第１画像内に前記背景の画素が含まれないことを示す場合、前記特徴マップに基づいて、前記領域から識別対象の画素の抽出を抑制する、
ことを特徴とする請求項１から７のいずれか一項に記載の画像処理装置。
第１テキストデータと前記第２テキストデータとを統合する統合手段を備える、
ことを特徴とする請求項７に記載の画像処理装置。
前記領域の推定結果と、前記識別対象の識別結果と、の少なくとも一方を画面に表示させる表示制御手段を更に備え、
前記表示制御手段は、前記判定手段による判定結果に応じて、前記画面の表示を変更する、
ことを特徴とする請求項１から９のいずれか一項に記載の画像処理装置。
前記表示制御手段は、前記第１画像内又はそれぞれの前記領域内に前記背景の画素が含まれると前記判定手段が判定した場合、前記画面の前記領域の推定結果と、前記識別対象の識別結果と、の少なくとも一方の表示枠を強調して表示する、
ことを特徴とする請求項１０に記載の画像処理装置。
前記背景は、地紋、テクスチャ、活字及び罫線の少なくともいずれかを含む、
ことを特徴とする請求項１から１１のいずれか一項に記載の画像処理装置。
前記識別対象は、手書き文字、活字及び押印の少なくともいずれかを含む、
ことを特徴とする請求項１から１２のいずれか一項に記載の画像処理装置。
複数の識別対象が映る第１画像から特徴マップを取得する取得工程と、
前記特徴マップに基づいて、前記第１画像内の前記複数の識別対象をそれぞれ包含する領域を推定する推定工程と、
前記特徴マップに基づいて、前記第１画像内に背景の画素が含まれるか否かを判定する判定工程と、
前記第１画像内に前記背景の画素が含まれると前記判定工程で判定された場合、前記特徴マップに基づいて、前記領域から識別対象の画素を抽出する抽出工程と、
を備えることを特徴とする方法。
コンピュータを、請求項１から１３のいずれか一項に記載の画像処理装置の各手段として機能させるためのプログラム。