JP2021039424A

JP2021039424A - 画像処理システム、画像処理方法、及びプログラム

Info

Publication number: JP2021039424A
Application number: JP2019158665A
Authority: JP
Inventors: 裕介村松; Yusuke Murakami
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2021-03-11
Anticipated expiration: 2039-08-30
Also published as: JP7387339B2; US20210064859A1; US11574489B2

Abstract

【課題】図形情報があらかじめ登録されていない原稿については手書き文字の抽出を正確に行うことができない。
【解決手段】手書き画像を取得する第１の取得手段と、
背景画像を取得する第２の取得手段と、
前記第１の取得手段によって取得された手書き画像と前記第２の取得手段によって取得された背景画像とを合成して合成画像を生成する合成手段と、
前記第１の取得手段によって取得された手書き画像から作成した正解ラベルと前記合成手段によって生成された合成画像とを学習データとして学習を行う学習手段と、
前記学習データに基づいて手書き画素を抽出する抽出手段とを有することを特徴とする画像処理システム。
【選択図】図５

Description

本発明は、画像処理システム、画像処理方法、及びプログラムに関する。

近年、コンピュータの普及に伴う労働環境の変化により、業務資料の電子化が進んでいる。こうした電子化の対象は手書き文字が記入された文書にも及んでおり、手書き文字を抽出する技術が検討されている。

特許文献１では、保険書類点検において手書き領域を抽出し、その内容の文字認識の可否により人手によるチェックの回数を変える技術を開示している。この技術によれば、印刷文書の手書き領域に記入された、情報価値のある手書き文字を抽出することが可能となる。

特開２０１０−１２２７９１号公報

しかしながら、特許文献１の技術は、あらかじめ登録しておいた図形情報を用いて手書き文字の抽出をおこなうため、図形情報があらかじめ登録されていない原稿については手書き文字の抽出を正確に行うことができない。

本発明は、上述した課題に鑑みてなされたものであり、あらかじめ登録されていない図形が含まれる原稿の読取画像からでも、手書きされた個所に対して画像処理を行うことのできる仕組みを提供することを目的とする。

手書き画像を取得する第１の取得手段と、背景画像を取得する第２の取得手段と、前記第１の取得手段によって取得された手書き画像と前記第２の取得手段によって取得された背景画像とを合成して合成画像を生成する合成手段と、前記第１の取得手段によって取得された手書き画像から作成した正解ラベルと前記合成手段によって生成された合成画像とを学習データとして学習を行う学習手段と、前記学習データに基づいて手書き画素を抽出する抽出手段とを有することを特徴とする。

本発明によれば、あらかじめ登録されていない図形が含まれる原稿の読取画像からでも、手書きされた個所に対して画像処理を行うことができる。

画像処理システムの構成を示した図である。画像処理装置および学習装置、画像処理サーバのハードウェア構成例を示すブロック図である。学習装置の論理的な構成の概略を示したブロック図である。実施例１における学習処理のフローチャートである。実施例１における学習データ生成処理のフローチャートである。実施例１における前景元画像の一例を示す図である。実施例１における背景元画像の一例を示す図である。実施例１における学習データ生成処理で作成される学習データの一例を示す図である。実施例１におけるＯＣＲ依頼処理およびＯＣＲ処理および手書きＯＣＲ対象領域抽出処理のフローチャートである。実施例１における処理対象画像の一例、および処理対象画像から手書き画素を推定した結果を示す図である。実施例１における手書き抽出画像、および背景抽出画像を示す図である。実施例１における手書きＯＣＲ対象領域、および活字ＯＣＲ対象領域を示す図である。実施例２における学習データ生成処理のフローチャートである。実施例２における背景元画像と合成領域情報の一例を示す図である。実施例２における前景元画像の一例を示す図である。実施例２における学習データ生成処理で作成される学習データの一例を示す図である。実施例３における学習データ生成処理のフローチャートである。実施例３における背景元画像と合成領域情報の一例を示す図である。実施例３における前景元画像の一例を示す図である。実施例３における学習データ生成処理で作成される学習データの一例を示す図である。実施例３におけるＯＣＲ処理のフローチャートである。実施例３における処理対象画像の一例、および処理対象画像から手書き画素を推定した結果を示す図である。実施例３における背景抽出画像、手書き文字抽出画像、手書き丸抽出画像、および手書きチェック抽出画像を示す図である。実施例３における活字ＯＣＲ対象領域、手書きＯＣＲ対象領域、手書き丸の外接矩形、および手書きチェックの外接矩形を示す図である。本発明の有用性を検証する実験結果を示す表である。

以下、本発明を実施するための形態について図面を用いて説明する。

（実施例１）
以下、合成して生成した学習データを用いて学習した手書き抽出を行うニューラルネットワークを用いて、手書き記入された帳票から手書き文字を抽出し、記入内容に対して文字認識処理（ＯＣＲ処理）を実行してデータベースに保存する方法について説明する。なお、ＯＣＲは、ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ／Ｒｅａｄｅｒの略である。

図１は、本実施例にかかる画像処理システムの構成を示した図である。

画像処理システム１００は、画像処理装置１０１、学習装置１０２、画像処理サーバ１０３、活字ＯＣＲサーバ１０４、手書きＯＣＲサーバ１０５、ＤＢサーバ１０６を含む。画像処理装置１０１と学習装置１０２、画像処理サーバ１０３、活字ＯＣＲサーバ１０４、手書きＯＣＲサーバ１０５、ＤＢサーバ１０６は、ネットワーク１０７を介して接続されている。

画像処理装置１０１は、デジタル複合機などであり、印刷機能やスキャン機能を有する。画像処理装置１０１は、白紙に手書きのみが記入された原稿をスキャン機能によりスキャンして画像データを生成する（以降、この画像を「前景元画像」と呼称する）。複数枚の原稿をスキャンして前景元画像を複数得る。一方、画像処理装置１０１は、電子文書を印刷し印刷原稿を出力する。さらにこの印刷原稿をスキャンして画像データを生成する（以降この画像を「背景元画像」と呼称する）。複数の印刷原稿をスキャンして、背景元画像を複数得る。画像処理装置１０１は、ネットワーク１０７を介して、前景元画像と背景元画像を学習装置１０２に送信する。また、画像処理装置１０１は、手書き抽出を行う際に、手書きが含まれる原稿をスキャンして処理対象とするスキャン画像データ得る（以降このスキャン画像データを「処理対象画像」と呼称する）。そして、処理対象画像を、ネットワーク１０７を介して、画像処理サーバ１０３に送信する。

学習装置１０２は、画像処理装置１０１が生成した前景元画像と背景元画像とから、手書き抽出を行うニューラルネットワークを学習するための学習データを生成する。そして、生成した学習データを用いてニューラルネットワークの学習を行って、学習結果（ニューラルネットワークのパラメータなど）を生成する。学習装置１０２は、学習結果を、ネットワーク１０７を介して、画像処理サーバ１０３に送信する。

画像処理サーバ１０３は、画像処理装置１０１が生成した処理対象画像に対して手書き抽出を行う。この際、画像処理装置１０１は、学習装置１０２が生成した学習結果を用いることで、ニューラルネットワークにより推論して処理対象画像中の手書きの画素を抽出する。そして、画像処理サーバ１０３は、抽出結果を基に活字ＯＣＲの対象とする領域と手書きＯＣＲの対象とする領域を判定し、それらを処理対象画像と共に活字ＯＣＲサーバ１０４と手書きＯＣＲサーバ１０５に送信する。

活字ＯＣＲサーバ１０４は、処理対象画像含まれる活字に対してＯＣＲ（光学文字認識）を行うことができる。活字ＯＣＲサーバ１０４は、画像処理サーバ１０３より、処理対象画像と、処理対象画像上の領域であってＯＣＲの対象とする活字を含む領域（以降この領域を「活字ＯＣＲ対象領域」と呼称する）の情報を受信する。そして、処理対象画像中の活字ＯＣＲ対象領域に対してＯＣＲを行ってテキストデータを取得する。当該テキストデータを画像処理サーバ１０３に送信する。

手書きＯＣＲサーバ１０５は、処理対象画像に含まれる手書き文字に対してＯＣＲを行うことができる。手書きＯＣＲサーバ１０５は、画像処理サーバ１０３より、処理対象画像と、処理対象画像上の領域であってＯＣＲの対象とする手書き文字を含む領域（以降この領域を「手書きＯＣＲ対象領域」と呼称する）の情報を受信する。そして、スキャン画像中の手書きＯＣＲ対象領域に対してＯＣＲを行ってテキストデータを取得する。当該テキストデータを画像処理サーバ１０３に送信する。

ＤＢサーバ１０６は画像処理サーバ１０３より送信された帳票の記入内容を、データベースに保存する。こうして保存された情報は他のシステムから参照できるようになる。

図２は、画像処理装置１０１および学習装置１０２、画像処理サーバ１０３のハードウェア構成例を示すブロック図である。尚、活字ＯＣＲサーバ１０４、手書きＯＣＲサーバ１０５、ＤＢサーバ１０６のハードウェア構成は画像処理サーバ１０３と同様とし、説明を省略する。

図２（ａ）の画像処理装置１０１は、次を備える。ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、プリンタデバイス２０５、スキャナデバイス２０６、原稿搬送デバイス２０７、ストレージ２０８、入力デバイス２０９、表示デバイス２１０、及び外部インタフェース２１１を備える。各デバイスは、データバス２０３によって相互通信可能に接続されている。

ＣＰＵ２０１は、画像処理装置１０１を統括的に制御するためのコントローラである。ＣＰＵ２０１は、ＲＯＭ２０２に格納されているブートプログラムによりＯＳ（オペレーティングシステム）を起動する。このＯＳ上で、ストレージ２０８に記憶されているコントローラプログラムが実行される。コントローラプログラムは、画像処理装置１０１を制御するためのプログラムである。ＣＰＵ２０１は、データバス２０３によって接続されている各デバイスを統括的に制御する。ＲＡＭ２０４は、ＣＰＵ２０１の主メモリやワークエリア等の一時記憶領域として動作する。

プリンタデバイス２０５は、画像データを用紙（記録材）上に印刷するものである。これには感光体ドラムや感光体ベルトなどを用いた電子写真印刷方式や、微小ノズルアレイからインクを吐出して用紙上に直接画像を印字するインクジェット方式などがあるが、どの方式でもかまわない。スキャナデバイス２０６は、ＣＣＤなどの光学読取装置を用いて紙などの原稿上の走査を行い、電気信号データを得てこれを変換し、スキャン画像データを生成する。また、ＡＤＦ（オート・ドキュメント・フィーダ）などの原稿搬送デバイス２０７は、原稿搬送デバイス２０７上の原稿台に載置された原稿を１枚ずつスキャナデバイス２０６に搬送する。

ストレージ２０８は、ＨＤＤなどの、読み出しと書き込みが可能な不揮発メモリであり、ここには、前述のコントローラプログラムなど、様々なデータが記録される。入力デバイス２０９は、タッチパネルやハードキーなどから構成さる入力装置である。入力デバイス２０９は、ユーザの操作指示を受け付ける。そして、指示位置を含む指示情報をＣＰＵ２０１に伝達する。表示デバイス２１０は、ＬＣＤやＣＲＴなどの表示装置である。表示デバイス２１０は、ＣＰＵ２０１が生成した表示データを表示する。ＣＰＵ２０１は、入力デバイス２０９より受信した指示情報と、表示デバイス２１０に表示させている表示データとから、いずれの操作が成されたかを判定する。そしてこの判定結果に応じて、画像処理装置１０１を制御するとともに、新たな表示データを生成し表示デバイス２１０に表示させる。

外部インタフェース２１１は、ＬＡＮや電話回線、赤外線といった近接無線などのネットワークを介して、外部機器と、画像データをはじめとする各種データの送受信を行う。外部インタフェース２１１は、学習装置１０２やＰＣ（不図示）などの外部機器より、ＰＤＬデータを受信する。ＣＰＵ２０１は、外部インタフェース２１１が受信したＰＤＬデータを解釈し、画像を生成する。生成した画像は、プリンタデバイス２０５により印刷したり、ストレージ１０８に記憶したりする。また、外部インタフェース２１１は、画像処理サーバ１０３などの外部機器より画像データを受信する。受信した画像データをプリンタデバイス２０５により印刷したり、ストレージ１０８に記憶したり、外部インタフェース２１１により、他の外部機器に送信したりする。

図２（ｂ）の学習装置１０２は、ＣＰＵ２３１、ＲＯＭ２３２、ＲＡＭ２３４、ストレージ２３５、入力デバイス２３６、表示デバイス２３７、外部インタフェース２３８、ＧＰＵ２３９を備える。各部は、データバス２３３を介して相互にデータを送受信することができる。

ＣＰＵ２３１は、学習装置１０２の全体を制御するためのコントローラである。ＣＰＵ２３１は、不揮発メモリであるＲＯＭ２３２に格納されているブートプログラムによりＯＳを起動する。このＯＳの上で、ストレージ２３５に記憶されている学習データ生成プログラムおよび学習プログラムを実行する。ＣＰＵ２３１が学習データ生成プログラムを実行することより、学習データを生成する。また、ＣＰＵ２３１が学習プログラムを実行することにより、手書き抽出を行うニューラルネットワークを学習する。ＣＰＵ２３１は、データバス２３３などのバスを介して各部を制御する。

ＲＡＭ２３４は、ＣＰＵ２３１のメインメモリやワークエリア等の一時記憶領域として動作するものである。ストレージ２３５は、読み出しと書き込みが可能な不揮発メモリであり、前述の学習データ生成プログラムや学習プログラムを記録する。

入力デバイス２３６は、マウスやキーボードなどから構成さる入力装置である。表示デバイス２３７は、図２（ａ）を用いて説明した表示デバイス２１０と同様である。

外部インタフェース２３８は、図２（ａ）を用いて説明した外部インタフェース２１１と同様である。

ＧＰＵ２３９は、画像処理プロセッサであり、ＣＰＵ２３１と協調して画像データの生成やニューラルネットワークの学習を行う。

図２（ｃ）の画像処理サーバ１０３は、ＣＰＵ２６１、ＲＯＭ２６２、ＲＡＭ２６４、ストレージ２６５、入力デバイス２６６、表示デバイス２６７、外部インタフェース２６８を備える。各部は、データバス２６３を介して相互にデータを送受信することができる。

ＣＰＵ２６１は、画像処理サーバ１０３の全体を制御するためのコントローラである。ＣＰＵ２６１は、不揮発メモリであるＲＯＭ２６２に格納されているブートプログラムによりＯＳを起動する。このＯＳの上で、ストレージ２６５に記憶されている画像処理サーバプログラムを実行する。ＣＰＵ２６１がこの画像処理サーバプログラムを実行することより、処理対象画像から手書きの画素を抽出して消去する。ＣＰＵ２６１は、データバス２６３などのバスを介して各部を制御する。

ＲＡＭ２６４は、ＣＰＵ２６１のメインメモリやワークエリア等の一時記憶領域として動作するものである。ストレージ２６５は、読み出しと書き込みが可能な不揮発メモリであり、前述の画像処理プログラムを記録する。

入力デバイス２６６は、図２（ｂ）を用いて説明した入力デバイス２３６と同様である。表示デバイス２６７は、図２（ａ）を用いて説明した表示デバイス２１０と同様である。

外部インタフェース２６８は、図２（ａ）を用いて説明した外部インタフェース２１１と同様である。

図３は、学習装置１０２の論理的な構成の概略を示したブロック図である。

学習データ生成部３０１は、ニューラルネットワークを学習するための学習データを生成する。ＣＰＵ２３１が、学習データ生成プログラムをＲＡＭ２３４に展開して実行することによって、学習データ生成部３０１が実現される。

学習部３０２は、学習データ生成部３０１が生成した学習データを用いて、ニューラルネットワークを学習する。ＣＰＵ２３１が、学習プログラムをＲＡＭ２３４に展開して実行することによって、学習部３０２が実現される。

また、ＣＰＵ２３１は、学習データ部３０１や学習部３０２が実行する計算処理の一部を、ＧＰＵ２３９と協調して実行する。

次に、学習装置１０２による学習処理について説明する。図４は、学習処理のフローチャートである。この処理は、学習装置１０２の学習部３０２により実現される。これは、ユーザが、画像処理装置１０１の入力デバイス２０９を介して、所定の操作を行うことで開始される。なお、本実施例において、ニューラルネットワークの学習には、ミニバッチ法を用いるものとする。

まずＣＰＵ２３１は、ステップＳ４０１において、ニューラルネットワークを初期化する。すなわち、ＣＰＵ２３１は、ニューラルネットワークを構築し、当該ニューラルネットワークに含まれる各パラメータの値を、ランダムに決定して初期化する。構築するニューラルネットワークの構造は、様々なものを用いることができるが、例えば、非特許文献１に示されるＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ）の形態を取り得る。

ＣＰＵ２３１は、ステップＳ４０２において、学習データを取得する。ＣＰＵ２３１は、後述する学習データ生成処理を実行して、所定の数（ミニバッチサイズ、例えば１０）の学習データを取得する。

ＣＰＵ２３１は、ステップＳ４０３において、ニューラルネットワークの誤差を算出する。すなわち、各学習データに含まれる入力画像をニューラルネットワークに入力して出力を得る。当該出力は、入力画像と同じ画像サイズであり、予測結果として、手書きであると判定された画素は、画素の値が手書きを示す値、そうではないと判定された画素は、画素の値が手書きではないことを示す値である画像である。そして、当該出力と正解ラベル画像との差を評価して誤差を求める。当該評価には指標として交差エントロピーを用いることができる。

ＣＰＵ２３１は、ステップＳ４０４において、ニューラルネットワークのパラメータを調整する。すなわち、ステップＳ４０３において算出した誤差をもとに、バックプロパゲーション法によってニューラルネットワークのパラメータ値を変更するものである。

ＣＰＵ２３１は、ステップＳ４０５において、学習を終了するか否かを判定する。これは次のようにして行う。ＣＰＵ２３１は、ステップＳ４０２〜ステップＳ４０４の処理を、所定回数（例えば、６００００回）行ったか否かを判定する。当該所定回数は、本フローチャートの開始時にユーザが操作入力するなどして決定することができる。所定回数行った場合には、ＹＥＳと判定し、ステップＳ４０６に遷移する。そうでない場合は、ステップＳ４０２に遷移し、ニューラルネットワークの学習を続ける。

ＣＰＵ２３１は、ステップＳ４０６において、学習結果として、ステップＳ４０４において調整したニューラルネットワークのパラメータを、画像処理サーバ１０３に送信する。

次に、学習装置１０２による学習データ生成処理について説明する。図５は、学習データ生成処理のフローチャートである。この処理は、学習装置１０２の学習データ生成部３０１により実現される。

まずＣＰＵ２３１は、ステップＳ５０１において、ストレージ２３５に記憶している前景元画像を選択して読み出す。この前景元画像の例を図６に示す。前景元画像は手書きのみが書かれた画像であり、白紙に手書きのみが記入された原稿を画像処理装置１０１でスキャンすることで作成される。前景元画像はストレージ２３５に予め複数記録されているもととし、ここではその中からランダムにひとつを選択する。

ＣＰＵ２３１は、ステップＳ５０２において、ステップＳ５０１で読みだした前景元画像を回転して加工する。回転角度は所定の範囲（例えば−１０度〜１０度の間）からランダムに選択して決定する。

ＣＰＵ２３１は、ステップＳ５０３において、前景元画像の一部（例えば縦ｘ横＝５１２ｘ５１２の大きさ）を切り出した画像データを生成する（以降この画像データを「前景画像」と呼称する）。切り出す位置はランダムに決定する。

ＣＰＵ２３１は、ステップＳ５０４において、ステップＳ５０３で生成した前景画像を、変倍して加工する。変倍率は所定の範囲（例えば、５０％〜１５０％の間）からランダムに選択して決定する。さらに、変倍後の前景画像の一部（例えば縦ｘ横＝２５６ｘ２５６の大きさ）を中央から切り出して前景画像を更新する。

ＣＰＵ２３１は、ステップＳ５０５において、前景画像の各画素の輝度を変更して加工する。ＣＰＵ２３１は、前景画像をグレースケール化し、そしてガンマ補正を用いて前景画像の輝度を変更する。ガンマ値は所定の範囲（例えば、０．１〜１０．０の間）からランダムに選択して決定する。この時点での前景画像の例を図８（ａ）に示す。

ＣＰＵ２３１は、ステップＳ５０６において、ストレージ２３５に記憶している背景元画像を選択して読み出す。この背景元画像の例を図７に示す。背景元画像は画像処理装置１０１でプリントした電子文書をそのままスキャンしたものである。電子文書の内容は手書きを含まなければ何でも良いが、後述のＯＣＲ依頼処理でスキャンされる手書きを含む文書と似た特徴（活字の大きさ、罫線の有無など）のものが望ましい。本実施例では帳票に記入された手書き文字を対象とする為、帳票の手書き記入される領域を背景元画像とする。背景元画像はストレージ２３５に予め複数記録されているものとし、ここではその中からランダムにひとつを選択する。

ＣＰＵ２３１は、ステップＳ５０７において、ステップＳ５０６で読みだした背景元画像を回転して加工する。回転角度は所定の範囲（例えば−１０度〜１０度の間）からランダムに選択して決定する。

ＣＰＵ２３１は、ステップＳ５０８において、背景元画像の一部（ステップＳ５０３で前景画像を切り出したときと同じ大きさ）を切り出して画像データを生成する（以降この画像データを「背景画像」と呼称する）。切り出す位置はランダムに決定する。

ＣＰＵ２３１は、ステップＳ５０９において、ステップＳ５０８で生成した背景画像を、変倍して加工する。変倍率は所定の範囲（例えば、５０％〜１５０％の間）からランダムに選択して決定する。さらに、変倍後の背景画像の一部（ステップＳ５０４で前景画像を切り出したときと同じ大きさ）を中央から切り出して背景画像を更新する。

ＣＰＵ２３１は、ステップＳ５１０において、背景画像の各画素の輝度を変更して加工する。ＣＰＵ２３１は、背景画像をグレースケール化し、そしてガンマ補正を用いて背景画像の輝度を変更する。ガンマ値は所定の範囲（例えば、０．１〜１０．０の間）からランダムに選択して決定する。この時点での前景画像の例を図８（ｂ）に示す。

ここまでの処理ステップによって、前景画像と背景画像が得られた。前景画像と背景画像とで、それぞれ、回転や変倍、輝度の変更を行って加工したが、これは学習データに多様性を持たせることで、当該学習データを用いて学習するニューラルネットワークの汎化性能を向上させるためである。また、前景元画像も背景元画像も、学習処理でＲＡＭ２３４に展開したり、ＣＰＵ２３１やＧＰＵ２３９が参照したりする際の効率を考慮し、そのままの大きさで使うのではなくより小さな部分画像を切り出して用いるようにする。また、位置をランダムに決定して部分画像を切り出すため、一枚の前景元画像から複数かつ様々な学習データを生成することができる。

ＣＰＵ２３１は、ステップＳ５１１において、前景画像に対して正解ラベル画像を生成する。ＣＰＵ２３１は、前景画像に対して二値化処理を行う。そして、予め定めた閾値よりも低い値である画素の値を、手書きを示す値（例えば２５５、以降も同様）とし、他の画素の値を、手書きではないことを示す値（例えば０、以降も同様）とした画像データを、前景画像に対する正解ラベル画像として生成する。ここで作成された正解ラベル画像の例を図８（ｃ）に示す。

ＣＰＵ２３１は、ステップＳ５１２において、学習データの入力画像を合成して生成する。ＣＰＵ２３１は、前景画像と背景画像のそれぞれ同じ座標を比較し、輝度の低い方の画素値を採用した新しい画像を作る事で画像の合成を行う。ここで作成された入力画像の例を図８（ｄ）に示す。

ＣＰＵ２３１は、ステップＳ５１３において、ステップＳ５１２で合成して生成した入力画像と、ステップＳ５１１で生成した正解ラベル画像とを対応付け、学習データとしてストレージ２３５の所定の領域に保存する。

ＣＰＵ２３１は、ステップＳ５１４において、学習データ生成処理を終了するか否かを判定する。ＣＰＵ２３１は、予め決定した学習データの数だけ学習データを生成していたならば、ＹＥＳと判定し、処理を終了する。そうでなければ、ＮＯと判定し、ステップＳ５０１に遷移する。

次に、画像処理装置１０１による、ＯＣＲ依頼処理について説明する。画像処理装置１０１は、活字および手書き文字を含む原稿をスキャンして処理対象画像を得る。そして、処理対象画像を画像処理サーバ１０３に送信して、活字および手書き文字のＯＣＲを依頼する。図９（ａ）は、このＯＣＲ依頼処理のフローチャートである。この処理は、画像処理装置１０１のＣＰＵ２０１が、ストレージ２０８に記録されているコントローラプログラムを読み出し、ＲＡＭ２０４に展開して実行することにより実現される。これは、ユーザが、画像処理装置１０１の入力デバイス２０９を介して、所定の操作を行うことで開始される。

ＣＰＵ２０１は、ステップＳ９０１において、スキャナデバイス２０６や原稿搬送デバイス２０７を制御して、原稿をスキャンして処理対象画像を生成する。処理対象画像は、フルカラー（ＲＧＢ３チャネル）の画像データとして生成される。ここでスキャンする原稿は、例えば図１０（ａ）に示すような注文票などの帳票であり、各項目の右に手書きで値が記入されている。

ＣＰＵ２０１は、ステップＳ９０２において、ステップＳ９０１で生成した手書き処理対象を、外部インタフェース２１１を介して、画像処理サーバ１０３に送信する。

次に、画像処理サーバ１０３によるＯＣＲ処理について説明する。画像処理サーバ１０３は、画像処理装置１０１から処理対象画像を受信し、当該スキャン画像データに含まれる活字や手書き文字をＯＣＲしてテキストデータを得る。活字に対するＯＣＲは、活字ＯＣＲサーバ１０４に実行させる。手書き文字に対するＯＣＲは、手書きＯＣＲサーバ１０５に実行させる。図９（ｂ）は、このＯＣＲ処理のフローチャートである。この処理は、ＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理サーバプログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。これは、ユーザが、画像処理サーバ１０３の電源をＯＮ（オン）にすると開始される。

まずＣＰＵ２６１は、ステップＳ９３１において、手書き抽出を行うニューラルネットワークをロードする。ＣＰＵ２６１は、図４のフローチャートのステップＳ４０１の場合と同一のニューラルネットワークを構築する。そして、図４のフローチャートのステップＳ４０６において、学習装置１０２から送信された学習結果（ニューラルネットワークのパラメータ）を、構築したニューラルネットワークに反映する。

ＣＰＵ２６１は、ステップＳ９３２において、処理対象となる処理対象画像を、画像処理装置１０１より受信したかを判定する。外部インタフェース２６８を介して、処理対象画像を受信していたならば、ＹＥＳと判定し、ステップＳ９３３に遷移する。そうでなければ、ＮＯと判定し、ステップＳ９４４に遷移する。

ＣＰＵ２６１は、ステップＳ９３３において、画像処理装置１０１から受信した処理対象画像から手書きの画素を抽出する。ＣＰＵ２６１は、処理対象画像をグレースケール化する。そして、このグレースケール化した処理対象画像を、ステップＳ９３１で構築したニューラルネットワークに入力して、手書きの画素を推定させる。この結果として、処理対象画像と同じサイズであり、手書きであると判定された画素には、手書きであること示す値（例えば１）、手書きではないと判定された画素には、手書きではないことを示す値（例えば０）が、それぞれ記録された画像データが得られる。図１０（ａ）の画像を処理対象画像として手書き画素を推定した結果の画像を図１０（ｂ）に示す（結果を見やすくするために、この図では値が０の画素を黒、値が１の画素を白で表現している）。以降この画像データを「推定結果」と呼称する。

ＣＰＵ２６１は、ステップＳ９３４において、ステップＳ９３３で作成した推定結果をマスクとして、手書きだけの画像を作成する。具体的には、処理対象画像と同じサイズであり、推定結果が手書きの座標は処理対象画像の画素値を、推定結果が手書きではない座標は２５５をそれぞれ代入した画像を作る。以降この画像を「手書き抽出画像」と呼称する。ここで作成された手書き抽出画像を図１１（ａ）に示す。

ＣＰＵ２６１は、ステップＳ９３５において、手書きＯＣＲ対象領域抽出処理を行い、手書き抽出画像の中で手書きＯＣＲの対象とする領域を決める。この処理の詳細は後述する。この処理の結果得られた手書きＯＣＲ対象領域を図１１（ｂ）の領域１２０１〜１２０８に示す。

ＣＰＵ２６１は、ステップＳ９３６において、ステップＳ９３５で抽出した手書きＯＣＲ対象領域と手書き抽出画像とを、外部インタフェース２６８を介して、手書きＯＣＲサーバ１０５に送信し、手書きＯＣＲを実行させる。手書きＯＣＲには公知の技術を適用し実現することができる。

ＣＰＵ２６１は、ステップＳ９３７において、手書きＯＣＲサーバ１０５から、手書きＯＣＲ結果を受信したか否かを判定する。手書きＯＣＲ結果とは、手書きＯＣＲサーバ１０５が、手書きＯＣＲ対象領域に含まれていた手書き文字を認識して得たテキストデータである。外部インタフェース２６８を介して、手書きＯＣＲサーバ１０５から、手書きＯＣＲ結果を受信していたならば、ＹＥＳと判定し、ステップＳ９３９に遷移する。そうでなければ、ステップＳ９３７の処理を繰り返す。

ＣＰＵ２６１は、ステップＳ９３８において、ステップＳ９３３で作成した推定結果をマスクとして、背景だけの画像を作成する。具体的には、処理対象画像と同じサイズであり、推定結果が手書きではない座標は処理対象画像の画素値を、推定結果が手書きの座標は２５５をそれぞれ代入した画像を作る。以降この画像を「背景抽出画像」と呼称する。ここで作成された背景抽出画像を図１１（ｂ）に示す。

ＣＰＵ２６１は、ステップＳ９３９において、活字ＯＣＲ対象領域抽出処理を行い、背景抽出画像の中で活字ＯＣＲの対象とする領域を決める。この処理は、例えば特許第５９０８８２５号に記載の技術によって実現される。この処理の結果得られたＯＣＲ対象領域を図１２（ｂ）の領域１２１１〜１２１９に示す。

ＣＰＵ２６１は、ステップＳ９４０において、ステップＳ９３９で抽出した活字ＯＣＲ対象領域と背景抽出画像とを、外部インタフェース２６８を介して、活字ＯＣＲサーバ１０４に送信し、活字ＯＣＲを実行させる。活字ＯＣＲには公知の技術を適用し実現することができる。

ＣＰＵ２６１は、ステップＳ９４１において、活字ＯＣＲサーバ１０４から、活字ＯＣＲ結果を受信したか否かを判定する。活字ＯＣＲ結果とは、活字ＯＣＲサーバ１０４が、活字ＯＣＲ対象領域に含まれていた活字を認識して得たテキストデータである。外部インタフェース２６８を介して、活字ＯＣＲサーバ１０４から、活字ＯＣＲ結果を受信していたならば、ＹＥＳと判定し、ステップＳ９４２に遷移する。そうでなければ、ステップＳ９４１の処理を繰り返す。

ＣＰＵ２６１は、ステップＳ９４２において、手書きＯＣＲサーバ１０５ないし活字ＯＣＲサーバ１０４から受信した手書きＯＣＲ結果および活字ＯＣＲ結果を統合する。ＣＰＵ２６１は、元となった手書きＯＣＲ対象領域および活字ＯＣＲ対象領域の位置関係や、活字ＯＣＲ結果を項目名、手書きＯＣＲと結果を値とした時の意味的な妥当性を評価することで、項目と値のペアを推定する。例えば、手書き抽出画像の領域１２０１に対し、背景抽出画像で最も近い領域は領域１２１１であり、且つ領域１２１１のＯＣＲ結果「記入日」が項目名だとすると、領域１２０１のＯＣＲ結果「３／４」は日付を含むので値としての妥当性が高い。よって、領域１２０１のＯＣＲ結果と領域１２１１のＯＣＲ結果を、記入日に関する項目と値のペアであると推定する。同様の方法で、領域１２０２と領域１２１２、領域１２０３と領域１２１３、領域１２０４と領域１２１４、領域１２０５と領域１２１５もそれぞれ項目と値のペアであると推定する。また、同様の方法で、領域１２０６と領域１２１６、領域１２０７と領域１２１７、領域１２０８と領域１２１８のＯＣＲ結果もそれぞれ項目と値のペアであると推定する。

ＣＰＵ２６１は、ステップＳ９４３において、手書きＯＣＲ結果および活字ＯＣＲ結果を出力する。ＣＰＵ２６１は、ステップＳ９４２で得た項目と値のペアを、外部インタフェース２６８を介して、ＤＢサーバ１０６に送信して保存させる。

ＣＰＵ２６１は、ステップＳ９４４において、処理を終了するか否かを判定する。ユーザが、画像処理サーバ１０３の電源のＯＦＦなどの所定の操作を行った場合には、ＹＥＳと判定し、処理を終了する。そうでなければ、ＮＯと判定し、ステップＳ９３２に遷移する。

次に、画像処理サーバ１０３による手書きＯＣＲ対象領域抽出処理について説明する。図９（ｃ）は、この手書きＯＣＲ対象領域抽出処理のフローチャートである。この処理は、ＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理サーバプログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。これは、ＯＣＲ処理のステップＳ９３５又はステップＳ９３９で、それぞれ手書き抽出画像や背景抽出画像を入力として実行される。

まずＣＰＵ２６１は、ステップＳ９６１において、入力画像に収縮処理を掛ける。これは、文字を太らせる事で文字を構成する部首や点などの小さなパーツを周辺の文字と繋げ、後に行われる処理（ステップＳ９６３）でノイズとして扱われる事を抑止する為の処理である。

ＣＰＵ２６１は、ステップＳ９６２において、黒画素が連結している領域の外接矩形を取得する。ＣＰＵ２６１は、ステップＳ９６１で収縮処理した画像に対して、黒画素が連結している領域を探し、それら全ての領域について個別に外接矩形を作成する。

ＣＰＵ２６１は、ステップＳ９６３において、ステップＳ９６２で作成した外接矩形の中から、文字のものである可能性の低い矩形を除外する。例えば矩形の辺の長さや面積に一定の範囲を設け、その範囲から外れるものについては文字ではないと推定して取り除く。こうすることで、図表を囲っている矩形や、小さなノイズを囲っている矩形を除外する。

ＣＰＵ２６１は、ステップＳ９６４において、近接する外接矩形同士を連結する。ＣＰＵ２６１は、ステップＳ９６３の結果残った各矩形について、その左右の一定の距離内に別の矩形がある場合は、それらの矩形を全て結合した新しい矩形に置き換える。こうすることで、文字単体ではなく文章全体を囲う矩形を形成できる。この結果得られた各矩形を、ＯＣＲ対象領域とする。

以上、本実施例に示したとおり、手書きのみを含む画像データと印字内容のみを含む画像データとから、手書きと印刷内容が重なるように合成して手書き抽出を行うニューラルネットワークを学習するための学習データを生成することができる。そしてこの学習データを用いてニューラルネットワークを学習し、当該学習の結果を用いて、スキャン画像データから手書きＯＣＲと活字ＯＣＲの対象領域を抽出し、項目と値のペアとして記入内容を抽出、保存することができる。帳票ごとに、手書きＯＣＲ対象領域を、事前に登録するなどの作業を必要とせずに、手書きＯＣＲ対象領域を抽出し、手書きＯＣＲ処理に入力して処理することができる。また、事前登録ができない不定型の帳票においても、人が手書きＯＣＲ対象領域を指定するなどの作業を必要とせずに、手書きＯＣＲ対象領域を抽出し、手書きＯＣＲ処理に入力して処理することができる。

なお、本実施例では、学習データ生成部３０１と学習部３０２は、学習装置１０２において実現されるものとしたが、それぞれ別体の装置において実現されるようにしても良い。この場合、学習データ生成部３０１を実現する装置は、学習データ生成部３０１が生成した学習データを、学習部３０２を実現する装置に送信する。そして、学習部３０２は受信した学習データをもとにニューラルネットワークを学習する。

また、実施例では、学習処理において、学習データ生成処理を呼び出して学習データを生成したが、事前に学習データ生成処理によって学習データを大量に生成しておいて、学習処理時にはそこから随時、ミニバッチサイズ分をサンプルするようにしてもよい。

また、印のみが成された原稿をスキャンして前景元画像を生成したり、電子文書を印字した薄紙の裏面をスキャンして前景元画像を生成したりしてもよい。これにより、押印や裏写りである画素を検出するニューラルネットワークを学習するための学習データを合成して生成することができる。

また、図５のフローチャートのステップＳ５０５やステップＳ５１１で得た前景画像およびこれに対する正解ラベル画像を学習データに含めてもよい。ステップＳ５１０で得た背景画像と、これに対する正解ラベル画像として、背景画像と同じ画像サイズであり、全ての画素が手書きではないことを示す値である画像を生成し、学習データに含めてもよい。

また、なお、本実施例においては、入力画像をグレースケール画像として生成したが、フルカラー画像など他の形式として生成してもよい。

（実施例２）
本実施例では、学習データを合成して生成するための別の方法について説明する。学習データの入力画像を合成する際に、背景画像のうち手書き画像を重ねる領域を予め指定することで、より実際のスキャン画像データと近しい学習データを合成して生成する（以降背景画像中に指定された手書きを重ねる領域を「合成領域」と呼称する）。実施例１との差分のみ説明する。

本実施例における学習データ生成処理を説明する。図１３は、本実施例における学習データ生成処理のフローチャートである。この処理は、学習装置１０２の学習データ生成部３０１により実現される。具体的に、この処理は、ＣＰＵ２３１が、ＲＯＭ２３２に記憶されたプログラムをＲＡＭ２３４に読み出して実行することによって実現される。

まずＣＰＵ２３１は、ステップＳ１３０１において、ストレージ２３５に記憶している背景元画像を選択して読み出す。この背景元画像の例を図１４（ａ）に示す。背景元画像はストレージ２３５に予め複数記録されているものとし、ここではその中からランダムにひとつを選択する。

ＣＰＵ２３１は、ステップＳ１３０２において、ステップＳ１３０１で選択した背景元画像に対応する合成領域情報をストレージ２３５より読み出す。合成領域情報は、全ての背景元画像について、それぞれ対応するものが予め作成され、ストレージ２３５に記録されているものとする。ここで、合成領域情報について、図１４（ｂ）を用いて説明する。合成領域情報は、例えば、ＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）などの形式で構成することができる。図１４（ｂ）に示すように、合成領域情報には背景元画像中の合成領域が＜ａｒｅａ＞タグで記載されている。各＜ａｒｅａ＞タグには、合成領域の四隅の座標を示すｃｏｏｒｄｉｎａｔｅ属性と、合成領域に合成される前景の属性（種別）を示すｃａｔｅｇｏｒｙ属性が含まれる。具体的には、例えば図１４（ｂ）の行１４０３は、図１４（ａ）の領域１４０１を示す。この領域は文字列を記入する領域である為、ｃａｔｅｇｏｒｙ属性には文字列を示す「ｓｔｒｉｎｇ」が指定されている。また一方、図１４（ｂ）の行１４０４は、図１４（ａ）の領域１４０２を示す。この領域は数字を記入する領域である為、ｃａｔｅｇｏｒｙ属性には数字を示す「ｄｉｇｉｔ」が指定されている。

ＣＰＵ２３１は、ステップＳ１３０３において、背景ラベル画像を作成する。ここでの背景ラベル画像は、背景元画像と同じサイズであり、すべての画素の値を手書きではないことを示す値（例えば０、以降も同様）にした画像である。

ＣＰＵ２３１は、ステップＳ１３０４において、合成領域を選択する。ＣＰＵ２３１は、ステップＳ１３０２で取得した合成領域情報から、まだ前景画像を合成していない合成領域をひとつ選択する。

ＣＰＵ２３１は、ステップＳ１３０５において、合成領域に指定された属性の前景元画像をストレージ２３５より選択して読み出す。ＣＰＵ２３１は、ステップＳ１３０４で選択した合成領域のｃａｔｅｇｏｒｙ属性を参照し、対応する前景元画像の中からランダムに一つを選択する。前景元画像は属性別に分けて作成され、予めストレージ２３５に保存されているものとする。この前景元画像の例を図１５に示す。図１５（ａ）は属性が「ｓｔｒｉｎｇ」である前景元画像、図１５（ｂ）は属性が「ｄｉｇｉｔ」である前景元画像である。

ＣＰＵ２３１は、ステップＳ１３０６において、前景元画像を合成領域の大きさに合わせて変倍する。ＣＰＵ２３１は、ステップＳ１３０４で選択した合成領域のｃｏｏｒｄｉｎａｔｅ属性を参照して合成領域の縦横サイズを算出し、それに合わせてステップＳ１３０５で選択した前景元画像を変倍する。

ＣＰＵ２３１は、ステップＳ１３０７において、前景ラベル画像を作成する。ＣＰＵ２３１は、ステップＳ１３０６で変倍を行った前景画像に対して二値化処理を行う。そして、予め定めた閾値よりも低い値である画素の値を、手書きを示す値（例えば２５５、以降も同様）とし、他の画素の値を、手書きではないことを示す値とした画像データを、前景画像に対する正解ラベル画像として生成する。

ＣＰＵ２３１は、ステップＳ１３０８において、背景元画像の合成領域を前景画像と合成する。ＣＰＵ２３１は、背景元画像のうちステップＳ１３０４で選択した合成領域のｃｏｏｒｄｉｎａｔｅ属性で示される領域に、ステップＳ１３０６で変倍を行った前景画像を合成する。ここでの合成はそれぞれ同じ座標を比較し、輝度の低い方の画素値を採用することで行う。

ＣＰＵ２３１は、ステップＳ１３０９において、背景ラベル画像の合成領域を前景ラベル画像と合成する。ＣＰＵ２３１は、背景ラベル画像のうちステップＳ１３０４で選択した合成領域のｃｏｏｒｄｉｎａｔｅ属性で示される領域に、ステップＳ１３０７で作成した前景ラベル画像を合成する。ここでの合成は背景ラベル画像の合成領域に前景ラベル画像を上書きすることで行う。

ＣＰＵ２３１は、ステップＳ１３１０において、ステップＳ１３０２で取得した合成領域情報に含まれる、全ての合成領域について前景画像の合成が完了したかを判断する。まだ前景画像を合成していない領域がある場合はＮＯと判断し、ステップＳ１３０４に遷移する。全ての合成領域で前景画像の合成が完了した場合はＹＥＳと判断し、ステップＳ１３１１に遷移する。尚これ以降、この時点で全ての合成領域に前景画像が合成された背景元画像、背景ラベル画像をそれぞれ合成画像、合成ラベル画像と呼称する。合成画像と合成ラベル画像の例をそれぞれ図１６（ａ）、図１６（ｂ）に示す。

ＣＰＵ２３１は、ステップＳ１３１１において、合成画像と合成ラベル画像を回転して加工する。回転角度は所定の範囲（例えば−１０度〜１０度の間）からランダムに選択して決定する。合成画像と合成ラベル画像は同じ回転角度で回転する。

ＣＰＵ２３１は、ステップＳ１３１２において、Ｓ１３１１で回転した合成画像と合成ラベルの一部（例えば縦ｘ横＝５１２ｘ５１２の大きさ）を切り出した画像データを生成する。切り出す位置はランダムに決定する。合成画像と合成ラベル画像は同じ位置を切り抜く。

ＣＰＵ２３１は、ステップＳ１３１３において、ステップＳ１３１２で切り出した合成画像と合成ラベル画像を、変倍して加工する。変倍率は所定の範囲（例えば、５０％〜１５０％の間）からランダムに選択して決定する。さらに、変倍後の各画像の一部（例えば縦ｘ横＝２５６ｘ２５６の大きさ）を中央から切り出して、それぞれの画像を更新する。合成画像と合成ラベル画像は同じ変倍率で変倍する。

ＣＰＵ２３１は、ステップＳ１３１４において、合成画像の各画素の輝度を変更して加工する。ＣＰＵ２３１は、合成画像をグレースケール化し、そしてガンマ補正を用いて合成画像の輝度を変更する。ガンマ値は所定の範囲（例えば、０．１〜１０．０の間）からランダムに選択して決定する。この時点での合成画像と合成ラベル画像の例を図１６（ｃ）、図１６（ｄ）に示す。

ＣＰＵ２３１は、ステップＳ１３１５において、ステップＳ１３１４までで作成された合成画像と合成ラベル画像とを対応付け、学習データとしてストレージ２３５の所定の領域に保存する。

ＣＰＵ２３１は、ステップＳ１３１６において、学習データ生成処理を終了するか否かを判定する。ＣＰＵ２３１は、予め決定した学習データの数だけ学習データを生成していたならば、ＹＥＳと判定し、処理を終了する。そうでなければ、ＮＯと判定し、ステップＳ１３０１に遷移する。

以上に説明した学習データ生成処理によれば、より実際のスキャン画像データと近しい学習データを合成して生成する事が可能になる。

なお、本実施例の学習データ生成処理において、前景画像を合成領域より小さく変倍し、合成領域の中のランダムな位置に合成してもよい。これにより、学習データにおいて帳票の枠の中に記入される手書き文字の大きさや位置の多様さを増強させる事ができる。

なお、本実施例の学習データ生成処理において、前景画像を合成する領域を合成領域からずらして、或いは前景画像を合成領域より大きく変倍して、前景画像が背景元画像の罫線に重なるような合成画像を作成しても良い。これにより、帳票の枠からはみ出すような手書きの記入を再現した学習データを作成する事ができる。

なお、本実施例の学習データ生成処理において、背景元画像に含まれる全合成領域のうち一定の割合で前景画像を合成しない領域を設けても良い。これにより、帳票における空欄を再現した学習データを作成する事ができる。

（実施例３）
本実施例では、学習データ合成とＯＣＲ処理の別の方法について説明する。本実施例では、帳票において手書きの丸やチェックにより選択された項目の抽出もできるように学習、推論を行う。実施例１および２との差分のみ説明する。

まず、本実施例における学習データ生成処理を説明する。図１７は、本実施例における学習データ生成処理のフローチャートである。この処理は、学習装置１０２の学習データ生成部３０１により実現される。具体的に、この処理は、ＣＰＵ２３１が、ＲＯＭ２３２に記憶されたプログラムをＲＡＭ２３４に読み出して実行することによって実現される。

ステップＳ１３０１の処理は図１３のフローチャートにおける同符合の処理ステップと同様の処理ステップである。

ＣＰＵ２３１は、ステップＳ１７０１において、ステップＳ１３０１で選択した背景元画像に対応する合成領域情報をストレージ２３５より読み出す。本実施例における背景元画像と、それに対応する合成領域情報を、それぞれ図１８（ａ）と図１８（ｂ）に示す。本実施例における合成領域は、実施例２の合成領域（図１４に示したもの）に加えて、手書きの丸やチェックが合成される領域も含む。すなわち、例えば図１８（ｂ）の行１８０４は、図１８（ａ）の領域１８０１を示す。この領域は丸を記入する領域である為、ｃａｔｅｇｏｒｙ属性には、文字列を示す「ｃｉｒｃｌｅ」が指定されている。また一方、図１８（ｂ）の行１８０４は、図１８（ａ）の領域１８０２を示す。この領域はチェックを記入する領域である為、ｃａｔｅｇｏｒｙ属性には数字を示す「ｃｈｅｃｋ」が指定されている。

ステップＳ１３０３からステップＳ１３０４の処理は図１３のフローチャートにおける同符合の処理ステップと同様の処理ステップである。

ＣＰＵ２３１は、ステップＳ１７０２において、合成領域に指定された前景元画像を選択する。このとき、合成領域のｃａｔｅｇｏｒｙ属性で「ｃｉｒｃｌｅ」が指定されている場合は図１９（ａ）、「ｃｈｅｃｋ」が指定されている場合は図１９（ｂ）に例示するような画像をそれぞれ選択する。

ステップＳ１３０６の処理は図１３のフローチャートにおける同符合の処理ステップと同様の処理ステップである。

ＣＰＵ２３１は、ステップＳ１７０３において、前景ラベル画像を作成する。ＣＰＵ２３１は、ステップＳ１３０６で変倍を行った前景画像に対して二値化処理を行う。その後、合成領域のｃａｔｅｇｏｒｙ属性で指定された属性に応じたラベル画像を作る。具体的には、ｃａｔｅｇｏｒｙ属性が「ｓｔｒｉｎｇ」又は「ｄｉｇｉｔ」である場合は、予め定めた閾値よりも低い値の画素を、手書き文字を示す値（例えば２５５、以降も同様）としたラベル画像を作る。ｃａｔｅｇｏｒｙ属性が「ｃｉｒｃｌｅ」である場合は、予め定めた閾値よりも低い値の画素を、手書き丸を示す値（例えば１６５、以降も同様）としたラベル画像を作る。ｃａｔｅｇｏｒｙ属性が「ｃｈｅｃｋ」である場合は、予め定めた閾値よりも低い値の画素を、手書きチェックを示す値（例えば１２７、以降も同様）としたラベル画像を作る。いずれの場合も、予め定めた閾値よりも高い値の画素は手書きではないことを示す値（例えば０、以降も同様）とする。

ステップＳ１３０８からステップＳ１３０９の処理は図１３のフローチャートにおける同符合の処理ステップと同様の処理ステップである。

ＣＰＵ２３１は、ステップＳ１７０４において、ステップＳ１７０１で取得した合成領域情報に含まれる、全ての合成領域について前景画像の合成が完了したかを判断する。まだ前景画像を合成していない領域がある場合はＮＯと判断し、ステップＳ１３０４に遷移する。全ての合成領域で前景画像の合成が完了した場合はＹＥＳと判断し、ステップＳ１３１１に遷移する。尚これ以降、この時点で全ての合成領域に前景画像が合成された背景元画像、背景ラベル画像をそれぞれ合成画像、合成ラベル画像と呼称する。本実施例において作成される合成画像と合成ラベル画像の例をそれぞれ図２０（ａ）、図２０（ｂ）に示す。

ステップＳ１３１１からステップＳ１３１６の処理は図１３のフローチャートにおける同符合の処理ステップと同様の処理ステップである。

次に、本実施例におけるＯＣＲ処理について説明する。図２１は、本実施例におけるＯＣＲ処理のフローチャートである。この処理は、画像処理サーバ１０３において、ＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理サーバプログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。これは、ユーザが、画像処理サーバ１０３の電源をＯＮ（オン）にすると開始される。

ステップＳ９３１からステップＳ９３２の処理は図９（ｂ）のフローチャートにおける同符合の処理ステップと同様の処理ステップである。

ＣＰＵ２６１は、ステップＳ２１０１において、画像処理装置１０１から受信した処理対象画像から手書きの画素を抽出する。ＣＰＵ２６１は、処理対象画像をグレースケール化する。そして、このグレースケール化した処理対象画像を、ステップＳ９３１で構築したニューラルネットワークに入力して、手書きの画素を推定させる。この結果として、処理対象画像と同じサイズであり、手書き文字と判定された画素には、手書き文字を示す値（例えば１）が記録された画像データが得られる。手書き丸と判定された画素には、手書き丸を示す値（例えば２）が記録された画像データが得られる。手書きチェックと判定された画素には、手書きチェックを示す値（例えば３）が記録された画像データが得られる。手書きではないと判定された画素には、手書きではないことを示す値（例えば０）が記録された画像データが得られる。図２２（ａ）の画像を処理対象画像として手書き画素を推定した結果の画像を図２２（ｂ）に示す（結果を見やすくするために、この図では値が０の画素を黒、値が１の画素を白、値が２の画素を薄い灰色、値が３の画素を濃い灰色で表現している）。以降この画像データを「推定結果」と呼称する。

ＣＰＵ２６１は、ステップＳ２１０２において、ステップＳ２１０１で作成した推定結果をマスクとして、背景だけの画像を作成する。具体的には、処理対象画像と同じサイズであり、推定結果が手書きではない座標は処理対象画像の画素値を、それ以外の座標は２５５をそれぞれ代入した画像を作る。以降この画像を「背景抽出画像」と呼称する。ここで作成された背景抽出画像を図２３（ａ）に示す。

ＣＰＵ２６１は、ステップＳ２１０３において、活字ＯＣＲ対象領域抽出処理を行い、背景抽出画像の中で活字ＯＣＲの対象とする領域を決める。この処理は図９（ｂ）のステップＳ９３９と同様である。この処理の結果得られた活字ＯＣＲ対象領域を図２４（ａ）の領域２４０１〜２４１５に示す。

ステップＳ９４０からステップＳ９４１の処理は図９（ｂ）のフローチャートにおける同符合の処理ステップと同様の処理ステップである。

ＣＰＵ２６１は、ステップＳ２１０４において、ステップＳ２１０１で作成した推定結果をマスクとして、手書き文字だけの画像を作成する。具体的には、処理対象画像と同じサイズであり、推定結果が手書き文字である座標は処理対象画像の画素値を、それ以外の座標は２５５をそれぞれ代入した画像を作る。以降この画像を「手書き文字抽出画像」と呼称する。ここで作成された手書き文字抽出画像を図２３（ｂ）に示す。

ＣＰＵ２６１は、ステップＳ２１０５において、手書きＯＣＲ対象領域抽出処理を行い、手書き文字抽出画像の中で手書きＯＣＲの対象とする領域を決める。この処理は図９（ｃ）に示したものと同様である。この処理の結果得られた手書きＯＣＲ対象領域を図２４（ｂ）の領域２４２１〜２４２６に示す。

ステップＳ９３６からステップＳ９３７の処理は図９（ｂ）のフローチャートにおける同符合の処理ステップと同様の処理ステップである。

ＣＰＵ２６１は、ステップＳ２１０６において、ステップＳ２１０１で作成した推定結果をマスクとして、手書き丸だけの画像を作成する。具体的には、処理対象画像と同じサイズであり、推定結果が手書き丸である座標は処理対象画像の画素値を、それ以外の座標は２５５をそれぞれ代入した画像を作る。以降この画像を「手書き丸抽出画像」と呼称する。ここで作成された手書き丸抽出画像を図２３（ｃ）に示す。

ＣＰＵ２６１は、ステップＳ２１０７において、手書き丸抽出画像に収縮処理を掛ける。これは、抽出の過程で分断された手書き丸の領域を復元する為の処理である。

ＣＰＵ２６１は、ステップＳ２１０８において、手書き丸抽出画像の黒画素が連結している全ての領域について個別に外接矩形を作成する。ここで得られた外接矩形を図２４（ｃ）の領域２４３１に示す。

ＣＰＵ２６１は、ステップＳ２１０９において、手書き丸で囲うことで選択された内容を取得する。具体的には、先ずステップＳ２１０８で得られた各外接矩形について、それぞれの重心を算出する。その後、それぞれの重心について、ステップＳ１７５６で受信した活字ＯＣＲ結果を参照し、重心の座標を含む活字ＯＣＲ対象領域のＯＣＲ結果を取得する。このＯＣＲ結果を、この外接矩形に含まれる手書き丸が選択した内容とする。図２４（ｃ）の領域２４３１を例にして説明すると、この領域心の座標を含む活字ＯＣＲの対象領域は領域２４１２であるので、領域２４１２のＯＣＲ結果である「午前中」が領域２４３１の手書き丸によって選択された内容となる。

ＣＰＵ２６１は、ステップＳ２１１０において、ステップＳ２１０１で作成した推定結果をマスクとして、手書きチェックだけの画像を作成する。具体的には、処理対象画像と同じサイズであり、推定結果が手書きチェックである座標は処理対象画像の画素値を、それ以外の座標は２５５をそれぞれ代入した画像を作る。以降この画像を「手書きチェック抽出画像」と呼称する。ここで作成された手書きチェック抽出画像を図２３（ｄ）に示す。

ＣＰＵ２６１は、ステップＳ２１１１において、手書きチェック抽出画像に収縮処理を掛ける。これは、抽出の過程で分断された手書きチェックの領域を復元する為の処理である。

ＣＰＵ２６１は、ステップＳ２１１２において、手書きチェック抽出画像の黒画素が連結している全ての領域について個別に外接矩形を作成する。ここで得られた外接矩形を図２４（ｄ）の領域２４４１に示す。

ＣＰＵ２６１は、ステップＳ２１１３において、手書きチェックで選択された内容を取得する。具体的には、先ずステップＳ２１１２で得られた各外接矩形について、それぞれの重心を算出する。その後、それぞれの重心について、ステップＳ１７５６で受信した活字ＯＣＲ結果を参照し、重心の座標から最も近い活字ＯＣＲ対象領域のＯＣＲ結果を取得する。このＯＣＲ結果を、この外接矩形に含まれる手書きチェックが選択した内容とする。図２４（ｄ）の領域２４４１を例にして説明すると、この領域の重心の座標をから最も近い活字ＯＣＲの対象領域は領域２４０９であるので、領域２４０９のＯＣＲ結果である「ＦＪＴ９８」が領域２４４１の手書きチェックによって選択された内容となる。

ＣＰＵ２６１は、ステップＳ２１１４において、手書きＯＣＲ結果および活字ＯＣＲ結果を統合する。ＣＰＵ２６１は、元となった手書きＯＣＲ対象領域および活字ＯＣＲ対象領域の位置関係や、活字ＯＣＲ結果を項目名、手書きＯＣＲと結果を値とした時の意味的な妥当性を評価することで、項目と値のペアを推定する。このとき、ステップＳ２１０８で取得した手書き丸の外接矩形と、ステップＳ２１１２取得した手書きチェックの外接矩形も、手書きＯＣＲの対象領域として扱う。ステップＳ２１０９で取得した手書き丸で選択された内容と、ステップＳ２１１３で取得した手書きチェックで選択された内容も、手書きＯＣＲ結果として扱う。例えば手書き丸の外接矩形である領域２４３１に対し、背景抽出画像で最も近い領域は領域２４０７であり、且つその領域のＯＣＲ結果「お届け時間」を項目名とすると、領域２４３１の手書き丸の選択内容である「午前中」は時間を含むため値として妥当性が高い。よって、領域２４０７のＯＣＲ結果と領域２４３１の手書き丸の選択内容を、お届け時間に関する項目と値のペアであると推定する。

ステップＳ９４３からステップＳ９４４の処理は図９（ｂ）のフローチャートにおける同符合の処理ステップと同様の処理ステップである。

以上に説明した学習データ生成処理とＯＣＲ処理によれば、帳票において手書きの丸やチェックにより選択された項目の抽出もできるような学習、推論が可能になる。

なお、本実施例の学習データ生成処理におけるステップＳ１３０９において、背景ラベルの合成領域全体を前景ラベルで上書きするのではなく、背景元画像の合成領域と前景画像を比較して、前景画像の方が輝度が低い領域のみを前景ラベルで上書きしてもよい。このラベルで学習する事で、手書きと背景の罫線や活字が重なっている領域は背景と推論されるようになる。これにより、ＯＣＲ処理のステップＳ２１０２で背景だけの画像を作る際、手書き丸と重なった活字が分断されず、活字ＯＣＲの精度を上げることができる。

なお、本実施例では手書きを文字と丸とチェックの３つに分類し、ラベルにそれぞれ別の値を用いたが、分類はこれに限るものではなく、例えば手書き数字や記号に別のラベルを割り当てても良い。

最後に、本発明の学習データ生成方法が、帳票などに記入された手書きを抽出するにあたり有用である事を検証した実験結果を示す。

同一のニューラルネットワーク、前景元画像、背景元画像を用い、学習データ生成の処理だけを変えて学習を行った２つのモデルで検証を行った。片方は本発明により作成されるモデル、もう片方は学習データを生成する際に、前景元画像と背景元画像を重ねるように画像を合成するのではなく、上下または左右に並べるように画像を合成する方法を採用して学習を行ったモデルである。印刷した帳票に手書き文字、手書き丸、手書きチェックで値を記入し、スキャンした画像に対してそれぞれのモデルで手書き抽出を行い、どれだけ過不足なく手書きを抽出できたかを比較した。この比較には適合率（手書きではない画素を手書きと誤判定した割合の少なさを示す指標であり、１に近いほど誤判定が少ない）と再現率（手書きの画素を手書きではないと誤判定した割合の少なさを示す指標であり、１に近いほど誤判定が少ない）を用いる。

実験結果を図２５に示す。図２５は、内容の異なる１６枚の帳票を対象として手書き抽出を行った際の、適合率と再現率の平均である。図２５より、手書き文字、手書き丸、手書きチェックのそれぞれにおいて、本発明によるモデルがより高い適合率、再現率で抽出できた。以上より、本発明の学習データ生成方法によれば、帳票などに記入された手書きをより正確に抽出する事ができる。

＜その他の実施例＞
また、画像処理装置１０１、画像処理サーバ１０３、活字ＯＣＲサーバ１０４、手書きＯＣＲサーバ１０５、ＤＢサーバ１０６を全て別体の装置として説明したが、この構成に限らず、上述した一部または全部の機能を同じ装置で行うよう集約しても良い。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

２３１ＣＰＵ
２３２ＲＯＭ
２３４ＲＡＭ

Claims

手書き画像を取得する第１の取得手段と、
背景画像を取得する第２の取得手段と、
前記第１の取得手段によって取得された手書き画像と前記第２の取得手段によって取得された背景画像とを合成して合成画像を生成する合成手段と、
前記第１の取得手段によって取得された手書き画像から作成した正解ラベルと前記合成手段によって生成された合成画像とを学習データとして学習を行う学習手段と、
前記学習データに基づいて手書き画素を抽出する抽出手段とを有することを特徴とする画像処理システム。
前記合成手段は、前記手書き画像と前記背景画像とが重なるように合成することを特徴とする請求項１に記載の画像処理システム。
前記合成手段は、前記背景画像のうち、予め指定された領域に前記手書き画像が重なるように合成することを特徴とする請求項２に記載の画像処理システム。
前記抽出手段によって抽出された手書き画素を含む領域を対象に第１の文字認識処理を実行し、手書き画素を含まない領域を対象に第２の文字認識処理を実行する処理手段と、
前記第１の文字認識処理の結果と前記第２の文字認識処理の結果を統合する統合手段とをさらに有することを特徴とする請求項１乃至３のいずれか１項に記載の画像処理システム。
前記統合手段による統合によって得られる項目と値のペアを保存する保存手段をさらに有することを特徴とする請求項４に記載の画像処理システム。
手書きの種別に応じてラベルの値を作成する作成手段をさらに有し、
前記抽出処理は、前記作成手段によって作成されたラベルの値に基づいて前記手書き画素を抽出することを特徴とする請求項１乃至５のいずれか１項に記載の画像処理システム。
前記種別は、文字列、または数字を含むことを特徴とする請求項６に記載の画像処理システム。
原稿を読み取る読取手段をさらに有し、
前記抽出手段は、前記読取手段によって前記原稿を読み取って生成された画像データから、前記学習データに基づいて手書き画素を抽出することを特徴とする請求項１乃至７のいずれか１項に記載の画像処理システム。
原稿を読み取る読取手段をさらに有し、
前記第１の取得手段は、前記読取手段によって前記原稿を読み取って生成された画像データに基づいて、前記手書き画像を取得することを特徴とする請求項１乃至７のいずれか１項に記載の画像処理システム。
原稿を読み取る読取手段をさらに有し、
前記第２の取得手段は、前記読取手段によって前記原稿を読み取って生成された画像データに基づいて、前記背景画像を取得することを特徴とする請求項１乃至７のいずれか１項に記載の画像処理システム。
手書き画像を取得する第１の取得工程と、
背景画像を取得する第２の取得工程と、
前記第１の取得工程で取得された手書き画像と前記第２の取得工程で取得された背景画像とを合成して合成画像を生成する合成工程と、
前記第１の取得工程で取得された手書き画像から作成した正解ラベルと前記合成工程で生成された合成画像とを学習データとして学習を行う学習工程と、
前記学習データに基づいて手書き画素を抽出する抽出工程とを有することを特徴とする画像処理方法。
前記合成工程では、前記手書き画像と前記背景画像とが重なるように合成することを特徴とする請求項１１に記載の画像処理方法。
前記合成工程では、前記背景画像のうち、予め指定された領域に前記手書き画像が重なるように合成することを特徴とする請求項１２に記載の画像処理方法。
前記抽出工程で抽出された手書き画素を含む領域を対象に第１の文字認識処理を実行し、手書き画素を含まない領域を対象に第２の文字認識処理を実行する処理工程と、
前記第１の文字認識処理の結果と前記第２の文字認識処理の結果を統合する統合工程とをさらに有することを特徴とする請求項１１乃至１３のいずれか１項に記載の画像処理方法。
前記統合工程における統合によって得られる項目と値のペアを保存する保存工程をさらに有することを特徴とする請求項１４に記載の画像処理方法。
手書きの種別に応じてラベルの値を作成する作成工程をさらに有し、
前記抽出処理は、前記作成工程で作成されたラベルの値に基づいて前記手書き画素を抽出することを特徴とする請求項１１乃至１５のいずれか１項に記載の画像処理方法。
前記種別は、文字列、または数字を含むことを特徴とする請求項６に記載の画像処理システム。
原稿を読み取る読取工程をさらに有し、
前記抽出工程では、前記読取工程で前記原稿を読み取って生成された画像データから、前記学習データに基づいて手書き画素を抽出することを特徴とする請求項１１乃至１７のいずれか１項に記載の画像処理方法。
原稿を読み取る読取工程をさらに有し、
前記第１の取得工程では、前記読取手段によって前記原稿を読み取って生成された画像データに基づいて、前記手書き画像を取得することを特徴とする請求項１１乃至１７のいずれか１項に記載の画像処理方法。
原稿を読み取る読取工程をさらに有し、
前記第２の取得工程では、前記読取手段によって前記原稿を読み取って生成された画像データに基づいて、前記背景画像を取得することを特徴とする請求項１１乃至１７のいずれか１項に記載の画像処理方法。
請求項１１乃至２０のいずれか１項に記載の画像処理方法を、コンピュータに実行させるためのプログラム。