JP2023021595A

JP2023021595A - 画像処理装置、画像処理システム、画像処理方法、及びプログラム

Info

Publication number: JP2023021595A
Application number: JP2021126548A
Authority: JP
Inventors: 裕介村松; Yusuke Murakami
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2023-02-14

Abstract

【課題】手書き文字領域の推定精度を向上させる画像処理装置、画像処理システム及び画像処理方法を提供する。【解決手段】画像処理装置は、読取画像に対して、処理対象領域を抽出するための抽出処理を行うことにより、第１の領域を抽出する。さらに、読取画像における手書き部分を推定して、当該推定結果に基づき、手書き部分を抽出した手書き画像と、手書きではない部分を抽出した背景画像とを生成する。そして、手書き画像に対して、抽出処理を行うことにより、第２の領域を抽出し、背景画像に対して、抽出処理を行うことにより、第３の領域を抽出する。そして、抽出された第１の領域の座標位置と抽出された第２の領域の座標位置と抽出された第３の領域の座標位置とに基づいて、推定結果を補正するよう制御する。【選択図】図９Ｂ

Description

本発明は、画像処理装置、画像処理システム、画像処理方法、及びプログラムに関する。

近年、コンピュータの普及に伴う労働環境の変化により、業務資料の電子化が進んでいる。こうした電子化の対象は手書き文字が記入された文書にも及んでおり、手書き文字を抽出する技術が検討されている。特許文献１では、手書きと活字が混在した原稿から細線を抽出し、細線毎に輝度の分散に応じて手書きか否かを判定することで、手書き文字を抽出することが記載されている。

特開２０１０－２１８１０６号公報

しかしながら、特許文献１に記載の技術は、文字の色やスキャン環境によっては輝度分散の小さい手書き細線が現れ、手書きとして判定されないことがある。また逆に、輝度分散の大きい活字細線が現れ、活字であるにも関わらず手書きと誤判定されることもある。そうなると、手書き文字の一部が欠損、或いは余計な細線が現れた状態で手書き文字が抽出され、手書き文字を高精度に認識することができない。

そこで本発明は、手書き文字領域の推定精度を向上させることを目的とする。

本発明の画像処理装置は、手書きを含む原稿の読取画像を取得する取得手段と、前記読取画像に対して、処理対象領域を抽出するための抽出処理を行うことにより、第１の領域を抽出する第１の抽出手段と、前記読取画像における、手書き部分を推定する推定手段と、前記推定手段による推定結果に基づき、手書き部分を抽出した手書き画像と、手書きではない部分を抽出した背景画像とを生成する生成手段と、前記手書き画像に対して、前記抽出処理を行うことにより、第２の領域を抽出する第２の抽出手段と、前記背景画像に対して、前記抽出処理を行うことにより、第３の領域を抽出する第３の抽出手段と、前記抽出された第１の領域の座標位置と前記抽出された第２の領域の座標位置と前記抽出された第３の領域の座標位置とに基づいて、前記推定結果を補正するよう制御する制御手段と、を有することを特徴とする。

本発明によれば、手書き文字領域の推定精度を向上させることができる。

画像処理システムの全体構成例を示す図である。各装置のハードウェア構成例を示す図である。学習装置の機能構成例を示す図である。学習処理を示すフローチャートである。学習データ生成処理を示すフローチャートである。前景元画像の例を示す図である。背景元画像の例を示す図である。学習データ生成処理で生成されるデータを説明するための図である。利用フェーズで実行される処理を示すフローチャートである。図９Ａで実行される処理の詳細を示すフローチャートである。ＯＣＲ処理で生成されるデータを説明するための図である。ＯＣＲ処理で生成されるデータを説明するための図である。ＯＣＲ処理で生成されるデータを説明するための図である。ＯＣＲ処理で生成されるデータを説明するための図である。実施形態２に係る補正処理を示すフローチャートである。ＯＣＲ処理で生成されるデータを説明するための図である。

以下、本発明の実施形態について、図面を参照して説明する。

［実施形態１］
＜画像処理システム＞
本実施形態では、合成して生成した学習データを用いて学習した手書き画素の推定を行うニューラルネットワークを用いて、手書き記入された帳票から手書き文字の領域を抽出し、記入内容を文字認識してＤＢ（データベース）に保存する方法について説明する。
図１は、本実施形態に係る画像処理システムの全体構成例を示す図である。画像処理システム１００は、画像処理装置１０１、学習装置１０２、画像処理サーバ１０３、活字ＯＣＲサーバ１０４、手書きＯＣＲサーバ１０５、及びＤＢサーバ１０６により構成される。画像処理装置１０１、学習装置１０２、画像処理サーバ１０３、活字ＯＣＲサーバ１０４、手書きＯＣＲサーバ１０５、及びＤＢサーバ１０６は、ネットワーク１０７を介して相互に接続されている。
画像処理装置１０１は、スキャン機能と印刷機能を備えたデジタル複合機であり、例えばＭＦＰ（ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）である。

画像処理システム１００における学習フェーズでは、画像処理装置１０１は、白紙に手書きのみが記入された原稿をスキャンして画像データを生成する（以降、この画像データを「前景元画像」と呼称する）。画像処理装置１０１は、複数枚の原稿をスキャンして前景元画像を複数得る。前景元画像は、第１の読取画像の一例である。また、画像処理装置１０１は、電子文書を印刷し印刷原稿を出力する。さらに、この印刷原稿をスキャンして画像データを生成する（以降、この画像データを「背景元画像」と呼称する）。画像処理装置１０１は、複数枚の印刷原稿をスキャンして背景元画像を複数得る。背景元画像は、第２の読取画像の一例である。画像処理装置１０１は、ネットワーク１０７を介して、前景元画像と背景元画像を学習装置１０２に送信する。
学習装置１０２は、画像処理装置１０１から受信した前景元画像と背景元画像とを蓄積し、蓄積した画像を合成して手書き抽出を行うためのニューラルネットワークを学習する際に用いる学習データを生成する。そして、生成した学習データを用いてニューラルネットワークの学習を行って、学習結果（ニューラルネットワークのパラメータ等）を生成する。

画像処理システム１００における利用フェーズでは、画像処理装置１０１は、手書き抽出を行う際に、手書きが含まれる帳票をスキャンして処理対象とする読取画像を生成する（以降、このスキャン画像データを「処理対象画像」と呼称する）。画像処理装置１０１は、画像生成装置の一例である。画像処理装置１０１は、ネットワーク１０７を介して、処理対象画像を画像処理サーバ１０３に送信する。
画像処理サーバ１０３は、画像処理装置１０１から受信した処理対象画像に対して手書き抽出を行う。この際、学習装置１０２は、ネットワーク１０７を介して、学習結果を画像処理サーバ１０３に送信する。画像処理装置１０１は、学習装置１０２から受信した学習結果を用いることで、ニューラルネットワークにより推論して処理対象画像中の手書きの画素を推定する。そして、画像処理サーバ１０３は、推定結果に基づいて、活字ＯＣＲの対象とする領域と手書きＯＣＲの対象とする領域を抽出し、これらの領域の情報を処理対象画像と共に活字ＯＣＲサーバ１０４と手書きＯＣＲサーバ１０５に送信する。画像処理サーバ１０３は、画像処理装置の一例である。

活字ＯＣＲサーバ１０４は、処理対象画像に含まれる活字に対して活字を文字認識するのに適したＯＣＲ（光学文字認識：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ／Ｒｅａｄｅｒ）を行う。活字ＯＣＲサーバ１０４は、画像処理サーバ１０３から、処理対象画像、及び処理対象画像上の領域であってＯＣＲの対象とする活字を含む領域（以降、この領域を「活字対象領域」と呼称する）の情報を受信する。そして、処理対象画像中の活字対象領域に対してＯＣＲを行ってテキストデータを取得する。活字ＯＣＲサーバ１０４は、当該テキストデータを画像処理サーバ１０３に送信する。
手書きＯＣＲサーバ１０５は、処理対象画像に含まれる手書き文字に対して手書き文字を文字認識するのに適したＯＣＲを行う。手書きＯＣＲサーバ１０５は、画像処理サーバ１０３から、処理対象画像、及び処理対象画像上の領域であってＯＣＲの対象とする手書き文字を含む領域（以降、この領域を「手書き対象領域」と呼称する）の情報を受信する。そして、処理対象画像中の手書き対象領域に対してＯＣＲを行ってテキストデータを取得する。手書きＯＣＲサーバ１０５は、当該テキストデータを画像処理サーバ１０３に送信する。
画像処理サーバ１０３は、活字ＯＣＲサーバ１０４及び手書きＯＣＲサーバ１０５から受信したテキストデータを統合して、ＤＢサーバ１０６に送信する。
ＤＢサーバ１０６は、画像処理サーバ１０３から受信したテキストデータを帳票の記入内容を示す情報として、ＤＢに保存する。ＤＢに保存された情報は、他のシステムから参照することが可能である。

＜各装置のハードウェア構成＞
次に、図２を用いて、上述した画像処理システム１００を構成する各装置のハードウェア構成について説明する。図２（ａ）は、画像処理装置１０１のハードウェア構成例を示す。図２（ｂ）は、学習装置１０２のハードウェア構成例を示す。図２（ｃ）は、画像処理サーバ１０３のハードウェア構成例を示す。なお、活字ＯＣＲサーバ１０４、手書きＯＣＲサーバ１０５、及びＤＢサーバ１０６のハードウェア構成は、画像処理サーバ１０３と同様とし、説明を省略する。

図２（ａ）に示すように、画像処理装置１０１は、次を備える。ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、プリンタデバイス２０５、スキャナデバイス２０６、原稿搬送デバイス２０７、ストレージ２０８、入力デバイス２０９、表示デバイス２１０、及び外部インタフェース２１１を備える。各デバイスは、データバス２０３によって相互通信可能に接続されている。

ＣＰＵ２０１は、画像処理装置１０１を統括的に制御するためのコントローラである。ＣＰＵ２０１は、ＲＯＭ２０２に格納されているブートプログラムによりＯＳ（オペレーティングシステム）を起動する。このＯＳ上で、ストレージ２０８に記憶されているコントローラプログラムが実行される。コントローラプログラムは、画像処理装置１０１を制御するためのプログラムである。ＣＰＵ２０１は、データバス２０３によって接続されている各デバイスを統括的に制御する。ＲＡＭ２０４は、ＣＰＵ２０１の主メモリやワークエリア等の一時記憶領域として動作する。

プリンタデバイス２０５は、ＣＰＵ２０１の制御下で、画像データを用紙（記録材、シート）上に印刷する。これには感光体ドラムや感光体ベルトなどを用いた電子写真印刷方式や、微小ノズルアレイからインクを吐出して用紙上に直接画像を印字するインクジェット方式などがあるが、どの方式でもかまわない。スキャナデバイス２０６は、ＣＰＵ２０１の制御下で、ＣＣＤなどの光学読取装置を用いて紙などの原稿上の走査を行い、電気信号データを得てこれを変換し、画像データ（読取画像）を生成する。また、ＡＤＦ（オート・ドキュメント・フィーダ）などの原稿搬送デバイス２０７は、原稿搬送デバイス２０７上の原稿台に載置された原稿を１枚ずつスキャナデバイス２０６に搬送する。

ストレージ２０８は、ＨＤＤやＳＳＤなどの、読み出しと書き込みが可能な不揮発メモリであり、ここには、前述のコントローラプログラムなど、様々なデータが記録される。入力デバイス２０９は、タッチパネルやハードキーなどから構成さる入力装置である。入力デバイス２０９は、ユーザの操作指示を受け付ける。そして、指示位置を含む指示情報をＣＰＵ２０１に伝達する。表示デバイス２１０は、ＬＣＤやＣＲＴなどの表示装置である。表示デバイス２１０は、ＣＰＵ２０１が生成した表示データを表示する。ＣＰＵ２０１は、入力デバイス２０９より受信した指示情報と、表示デバイス２１０に表示させている表示データとから、いずれの操作が成されたかを判定する。そしてこの判定結果に応じて、画像処理装置１０１を制御するとともに、新たな表示データを生成し表示デバイス２１０に表示させる。

外部インタフェース２１１は、ＬＡＮや電話回線、赤外線といった近接無線などのネットワークを介して、ＣＰＵ２０１の制御下で、外部機器と、画像データをはじめとする各種データの送受信を行う。外部インタフェース２１１は、学習装置１０２やＰＣ（不図示）などの外部機器より、ＰＤＬデータを受信する。ＣＰＵ２０１は、外部インタフェース２１１が受信したＰＤＬデータを解釈し、画像を生成する。ＣＰＵ２０１は、生成した画像を、プリンタデバイス２０５により印刷したり、ストレージ２０８に記憶したりする。また、外部インタフェース２１１は、画像処理サーバ１０３などの外部機器より画像データを受信する。ＣＰＵ２０１は、受信した画像データを、プリンタデバイス２０５により印刷したり、ストレージ２０８に記憶したり、外部インタフェース２１１により、他の外部機器に送信したりする。

図２（ｂ）に示すように、学習装置１０２は、ＣＰＵ２３１、ＲＯＭ２３２、ＲＡＭ２３４、ストレージ２３５、入力デバイス２３６、表示デバイス２３７、外部インタフェース２３８、及びＧＰＵ２３９を備える。各部は、データバス２３３を介して相互にデータを送受信することができる。
ＣＰＵ２３１は、学習装置１０２の全体を制御するためのコントローラである。ＣＰＵ２３１は、不揮発メモリであるＲＯＭ２３２に格納されているブートプログラムによりＯＳを起動する。このＯＳの上で、ストレージ２３５に記憶されている学習データ生成プログラム及び学習プログラムを実行する。ＣＰＵ２３１が学習データ生成プログラムを実行することより、学習データ生成部３０１（図３）としての機能が実現する。また、ＣＰＵ２３１が学習プログラムを実行することにより、手書き画素の推定を行うニューラルネットワークを学習する学習部３０２（図３）としての機能が実現する。ＣＰＵ２３１は、データバス２３３などのバスを介して各部を制御する。ＲＡＭ２３４は、ＣＰＵ２３１のメインメモリやワークエリア等の一時記憶領域として動作する。

ストレージ２３５は、読み出しと書き込みが可能な不揮発メモリであり、前述の学習データ生成プログラムや学習プログラム、画像処理装置１０１が生成した前景元画像と背景元画像、後述する学習データ生成処理（図５）で生成した学習データを記憶する。
入力デバイス２３６は、マウスやキーボードなどから構成さる入力装置である。表示デバイス２３７は、図２（ａ）を用いて説明した表示デバイス２１０と同様である。
外部インタフェース２３８は、図２（ａ）を用いて説明した外部インタフェース２１１と同様である。
ＧＰＵ２３９は、画像処理プロセッサであり、ＣＰＵ２３１と協働して画像データの生成やニューラルネットワークの学習を行う。

図２（ｃ）に示すように、画像処理サーバ１０３は、ＣＰＵ２６１、ＲＯＭ２６２、ＲＡＭ２６４、ストレージ２６５、入力デバイス２６６、表示デバイス２６７、及び外部インタフェース２６８を備える。各部は、データバス２６３を介して相互にデータを送受信することができる。
ＣＰＵ２６１は、画像処理サーバ１０３の全体を制御するためのコントローラである。ＣＰＵ２６１は、不揮発メモリであるＲＯＭ２６２に格納されているブートプログラムによりＯＳを起動する。このＯＳの上で、ストレージ２６５に記憶されている画像処理プログラムを実行する。ＣＰＵ２６１がこの画像処理プログラムを実行することより、後述するフローチャートに示す処理が実現する。ＣＰＵ２６１は、データバス２６３などのバスを介して各部を制御する。
ＲＡＭ２６４は、ＣＰＵ２６１のメインメモリやワークエリア等の一時記憶領域として動作する。ストレージ２６５は、読み出しと書き込みが可能な不揮発メモリであり、前述の画像処理プログラムを記憶する。
入力デバイス２６６は、図２（ｂ）を用いて説明した入力デバイス２３６と同様である。表示デバイス２６７は、図２（ａ）を用いて説明した表示デバイス２１０と同様である。
外部インタフェース２６８は、図２（ａ）を用いて説明した外部インタフェース２１１と同様である。

図３は、学習装置１０２の機能構成例を示すブロック図である。学習装置１０２は、学習データ生成部３０１と学習部３０２の機能を有する。ＣＰＵ２３１がストレージ２３５に記憶されている学習データ生成プログラムをＲＡＭ２３４に展開して実行することより、学習データ生成部３０１としての機能が実現する。また、ＣＰＵ２３１がストレージ２３５に記憶されている学習プログラムをＲＡＭ２３４に展開して実行することにより、手書き画素の推定を行うニューラルネットワークを学習する学習部３０２としての機能が実現する。また、ＣＰＵ２３１が、学習データ生成部３０１や学習部３０２が実行する計算処理の一部を、ＧＰＵ２３９と協働して実行する。
学習データ生成部３０１は、ニューラルネットワークを学習するための学習データを生成する。
学習部３０２は、学習データ生成部３０１が生成した学習データを用いて、ニューラルネットワークを学習する。

続いて図４～図８を用いて、本実施形態に係る画像処理システム１００が学習フェーズで実行する処理について説明する。
＜学習処理＞
図４は、学習処理を示すフローチャートである。本フローチャートは、学習装置１０２の学習部３０２により実現される。本フローチャートは、ユーザが、画像処理装置１０１の入力デバイス２０９を介して、所定の操作を行うことで開始される。なお、本実施形態において、ニューラルネットワークの学習には、ミニバッチ法を用いるものとする。以下、各工程（ステップ）について先頭にＳを付けて表記することで、工程（ステップ）の表記を省略する。

まずＳ４０１において、ＣＰＵ２３１は、ニューラルネットワークを初期化する。具体的には、ＣＰＵ２３１は、ニューラルネットワークを構築し、当該ニューラルネットワークに含まれる各パラメータの値を、ランダムに決定して初期化する。構築するニューラルネットワークの構造は、様々なものを用いることができるが、例えばＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ）の形態を取り得る。
Ｓ４０２において、ＣＰＵ２３１は、学習データを取得する。ＣＰＵ２３１は、学習データ生成処理を実行して、所定の数（ミニバッチサイズ、例えば１０）の学習データを取得する。なお、事前の学習データ生成処理によって生成した大量の学習データから、ミニバッチサイズ分の学習データを取得してもよい。学習データ生成処理については、図５で後述する。
Ｓ４０３において、ＣＰＵ２３１は、ニューラルネットワークの誤差を算出する。具体的には、ＣＰＵ２３１は、各学習データに含まれる入力画像をニューラルネットワークに入力して出力を得る。当該出力は、入力画像と同じ画像サイズであり、予測結果として、手書きであると判定された画素は、手書きを示す値を有し、手書きではないと判定された画素は、手書きではないことを示す値を有する画像である。そして、ＣＰＵ２３１は、当該出力と正解ラベル画像との差を評価して誤差を求める。当該評価には指標として交差エントロピーを用いることができる。

Ｓ４０４において、ＣＰＵ２３１は、ニューラルネットワークのパラメータを調整する。具体的には、ＣＰＵ２３１は、Ｓ４０３において算出した誤差をもとに、バックプロパゲーション法によってニューラルネットワークのパラメータの値を変更する。
Ｓ４０５において、ＣＰＵ２３１は、学習を終了するか否かを判定する。これは次のようにして行う。ＣＰＵ２３１は、Ｓ４０２～Ｓ４０４の処理を、所定回数（例えば、６００００回）行ったか否かを判定する。当該所定回数は、本フローチャートの開始時にユーザの操作入力などにより、予め決定することができる。ＣＰＵ２３１が処理回数が所定回数に達したと判定した場合、処理はＳ４０６に遷移する。ＣＰＵ２３１が処理回数が所定回数に達していないと判定した場合、処理はＳ４０２に遷移し、ＣＰＵ２３１はニューラルネットワークの学習を継続する。
Ｓ４０６において、ＣＰＵ２３１は、学習結果として、Ｓ４０４において調整したニューラルネットワークのパラメータを、画像処理サーバ１０３に送信する。その後、本フローチャートの処理が終了する。
以上のような学習処理によれば、学習データを用いて手書き画素の推定を行うニューラルネットワークの学習を行うことができる。

＜学習データ生成処理＞
次に、図４のＳ４０２で実行される学習データ生成処理について説明する。図５は、学習データ生成処理を示すフローチャートである。本フローチャートは、学習装置１０２の学習データ生成部３０１により実現される。図６～図８は、学習データ生成処理で生成されるデータを説明するための図である。
まずＳ５０１において、ＣＰＵ２３１は、ストレージ２３５に記憶している前景元画像を選択して読み出す。図６は、前景元画像の例を示す。前景元画像は手書きのみが書かれた画像であり、白紙に手書きのみが記入された原稿を画像処理装置１０１でスキャンすることで生成される。前景元画像はストレージ２３５に予め複数記録されているとする。本ステップでは、複数の前景元画像の中からランダムにひとつを選択する。ここでは図６の前景元画像６０１～６０３のうち、前景元画像６０１が選択されたものとして説明する。
Ｓ５０２において、ＣＰＵ２３１は、Ｓ５０１で読み出した前景元画像を回転して加工する。回転角度は所定の範囲（例えば、－１０度～１０度の間）からランダムに選択して決定する。

Ｓ５０３において、ＣＰＵ２３１は、前景元画像の一部（例えば、縦×横＝５１２×５１２の大きさ）を切り出した画像データを生成する（以降、この画像データを「前景画像」と呼称する）。切り出す位置はランダムに決定する。
Ｓ５０４において、ＣＰＵ２３１は、Ｓ５０３で生成した前景画像を、変倍して加工する。変倍率は所定の範囲（例えば、５０％～１５０％の間）からランダムに選択して決定する。さらに、変倍後の前景画像の一部（例えば、縦×横＝２５６×２５６の大きさ）を中央から切り出して前景画像を更新する。
Ｓ５０５において、ＣＰＵ２３１は、前景画像の各画素の輝度を変更して加工する。ＣＰＵ２３１は、前景画像をグレースケール化し、そしてガンマ補正を用いて前景画像の輝度を変更する。ガンマ値は所定の範囲（例えば、０．１～１０．０の間）からランダムに選択して決定する。この時点での前景画像の例を図８（ａ）に示す。

Ｓ５０６において、ＣＰＵ２３１は、ストレージ２３５に記憶している背景元画像を選択して読み出す。図７は、背景元画像の例を示す。背景元画像は画像処理装置１０１で電子文書をプリントした原稿をそのままスキャンすることで生成される。この原稿は、手書きを含まず、活字や罫線等の帳票に印刷されるようなオブジェクトのみを含む。本実施形態では、利用フェーズでスキャンされる帳票と特徴（活字の大きさ、罫線の有無など）の似た電子文書を用いる。また、帳票に記入された手書き文字を対象とするため、帳票の手書き記入される領域を背景元画像として用いる。背景元画像はストレージ２３５に予め複数記録されているものとし、ここではその中からランダムにひとつを選択する。
Ｓ５０７において、ＣＰＵ２３１は、Ｓ５０６で読み出した背景元画像を回転して加工する。回転角度は所定の範囲（例えば、－１０度～１０度の間）からランダムに選択して決定する。
Ｓ５０８において、ＣＰＵ２３１は、背景元画像の一部（Ｓ５０３で前景画像を切り出したときと同じ大きさ）を切り出して画像データを生成する（以降、この画像データを「背景画像」と呼称する）。切り出す位置はランダムに決定する。
Ｓ５０９において、ＣＰＵ２３１は、Ｓ５０８で生成した背景画像を、変倍して加工する。変倍率は所定の範囲（例えば、５０％～１５０％の間）からランダムに選択して決定する。さらに、変倍後の背景画像の一部（Ｓ５０４で前景画像を切り出したときと同じ大きさ）を中央から切り出して背景画像を更新する。
Ｓ５１０において、ＣＰＵ２３１は、背景画像の各画素の輝度を変更して加工する。ＣＰＵ２３１は、背景画像をグレースケール化し、そしてガンマ補正を用いて背景画像の輝度を変更する。ガンマ値は所定の範囲（例えば、０．１～１０．０の間）からランダムに選択して決定する。この時点での背景画像の例を図８（ｂ）に示す。

以上のようなステップにより、以降のステップで学習データを生成する際に合成対象となる前景画像と背景画像が得られる。本実施形態において、学習装置１０２は、前景画像と背景画像のそれぞれに、回転、変倍、及び輝度の変更を行う。これにより、学習データの多様性が得られ、当該学習データを用いて学習するニューラルネットワークの汎化性能を向上できる。なお、前景画像と背景画像のそれぞれに対して行う画像処理は、回転、変倍、及び輝度の変更に限られない。また、回転、変倍、及び輝度の変更のうちの何れかを選択的に行ってもよい。また、学習装置１０２は、前景元画像及び背景元画像を、そのままの大きさで用いるのではなく、より小さな部分画像をランダムに切り出して用いる。これにより、学習処理でＲＡＭ２３４に展開したり、ＣＰＵ２３１やＧＰＵ２３９が参照したりする際の効率性が考慮されるとともに、各一枚の前景元画像と背景元画像から、複数且つ多様な学習データを生成することができる。

Ｓ５１１において、ＣＰＵ２３１は、前景画像に対して正解ラベル画像を生成する。まず、ＣＰＵ２３１は、前景画像に対して二値化処理を行う。そして、予め定めた閾値よりも低い値である画素の値を、手書きを示す値（例えば２５５、以降も同様）とし、他の画素の値を、手書きではないことを示す値（例えば０、以降も同様）とした画像データを、前景画像に対する正解ラベル画像として生成する。図８（ａ）の前景画像から生成された正解ラベル画像の例を図８（ｃ）に示す。図８（ｃ）における白画素が、手書きを示す値を有する画素である。
Ｓ５１２において、ＣＰＵ２３１は、学習データの入力画像を生成する。ＣＰＵ２３１は、前景画像と背景画像のそれぞれ同じ座標を比較し、輝度の低い方の画素値を採用した新しい画像を作ることで画像の合成を行う。図８（ａ）の前景画像と図８（ｂ）の背景画像を合成して生成された入力画像の例を図８（ｄ）に示す。
Ｓ５１３において、ＣＰＵ２３１は、Ｓ５１２で合成して生成した入力画像と、Ｓ５１１で生成した正解ラベル画像（正解データ）とを対応付け、学習データとしてストレージ２３５の所定の領域に保存する。ＣＰＵ２３１は、予め決定された学習データの数が生成されるまで、本フローチャートに示す一連の処理を繰り返し実行する。

以上のような学習データ生成処理によれば、手書き画素の推定を行うニューラルネットワークの学習を行うための学習データを生成することができる。

続いて図９Ａ～図１３を用いて、本実施形態に係る画像処理システム１００が利用フェーズで実行する処理について説明する。利用フェーズではまず、画像処理装置１０１が、活字及び手書き文字を含む原稿をスキャンして処理対象画像を生成する。そして、処理対象画像を画像処理サーバ１０３に送信して、活字及び手書き文字のＯＣＲを依頼する。

＜ＯＣＲ依頼処理＞
図９Ａ（ａ）は、ＯＣＲ依頼処理を示すフローチャートである。本フローチャートは、画像処理装置１０１のＣＰＵ２０１が、ストレージ２０８に記録されているコントローラプログラムを読み出し、ＲＡＭ２０４に展開して実行することにより実現される。本フローチャートは、ユーザが、画像処理装置１０１の入力デバイス２０９を介して、所定の操作を行うことで開始される。

Ｓ９０１において、ＣＰＵ２０１は、スキャナデバイス２０６や原稿搬送デバイス２０７を制御して、原稿をスキャンして処理対象画像（読取画像）を生成する。処理対象画像は、フルカラー（ＲＧＢ３チャネル）の画像データとして生成される。図１０（ａ）は、スキャンする原稿の例を示す。図１０（ａ）に示すように、原稿は登録票などの帳票であり、帳票における各項目の右側に手書き文字が記入されている。
Ｓ９０２において、ＣＰＵ２０１は、Ｓ９０１で生成した処理対象画像を、外部インタフェース２１１を介して、画像処理サーバ１０３に送信する。その後、本フローチャートの処理が終了する。

＜ＯＣＲ処理＞
次に、画像処理サーバ１０３によるＯＣＲ処理について説明する。画像処理サーバ１０３は、画像処理装置１０１から処理対象画像を受信し、当該処理対象画像に含まれる活字や手書き文字をＯＣＲしてテキストデータを得る。活字に対するＯＣＲは、活字ＯＣＲサーバ１０４に実行させる。手書き文字に対するＯＣＲは、手書きＯＣＲサーバ１０５に実行させる。図９Ａ（ｂ）は、このＯＣＲ処理を示すフローチャートである。本フローチャートは、ＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理プログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。本フローチャートは、ユーザが、画像処理サーバ１０３の電源をＯＮ（オン）にすると開始される。

まずＳ９２１において、ＣＰＵ２６１は、手書き画素の推定を行うニューラルネットワークをロードする。まず、ＣＰＵ２６１は、図４のフローチャートのＳ４０１の場合と同一のニューラルネットワークを構築する。そして、図４のフローチャートのＳ４０６において、学習装置１０２から送信された学習結果（ニューラルネットワークのパラメータ）を、構築したニューラルネットワークに反映する。
Ｓ９２２において、ＣＰＵ２６１は、外部インタフェース２６８を介して、画像処理装置１０１から処理対象画像を受信したか否かを判定する。処理対象画像を受信していた場合、処理はＳ９２３に遷移する。受信していない場合、処理はＳ９３７に遷移する。本フローチャートでは、処理対象画像として、図１０（ａ）に示す原稿をスキャンして得られた処理対象画像として受信したものとする。

Ｓ９２３において、ＣＰＵ２６１は、Ｓ９２２で受信した処理対象画像に対して処理対象領域抽出処理を行い、処理対象画像に含まれる手書き文字及び活字の領域を処理対象領域として抽出する。処理対象領域抽出処理の詳細は、図９Ｂ（ａ）で後述する。図１０（ａ）の処理対象画像について処理領域抽出処理を行った結果として得えられた処理対象領域を、図１２（ａ）の領域１２０１～１２０５に示す。
Ｓ９２４において、ＣＰＵ２６１は、Ｓ９２２で受信した処理対象画像から手書き部分を抽出する。まずＣＰＵ２６１は、処理対象画像をグレースケール化する。そして、このグレースケール化した処理対象画像を、Ｓ９２１で構築したニューラルネットワークに入力して、各画素について手書きであるかを判定し、手書きの画素を推定する。この結果として、処理対象画像と同じサイズであり、手書きであると判定された画素には、手書きであること示す値（例えば１）、手書きではないと判定された画素には、手書きではないことを示す値（例えば０）が、それぞれ記録された画像データが得られる。以降、この画像データを「推定結果」と呼称する。図１０（ａ）の処理対象画像について手書き画素を抽出した結果を表す画像を図１０（ｂ）に示す。図１０（ｂ）では、結果を見やすくするために、値が０の画素を黒画素で表現し、値が１の画素を白画素で表現している。この時点で、２箇所の誤判定がある。１箇所目として、活字である「登録票」の「票」の文字の一部が手書きとして誤判定されている。２箇所目として、手書き文字である「田中太郎」の「中」上部が背景として誤判定されている。
Ｓ９２５において、ＣＰＵ２６１は、Ｓ９２４の推定結果について手書き判定を補正する補正処理を行って、手書き判定の誤りを補正する。補正処理の詳細は、図９Ｂ（ｂ）で後述する。図１０（ｂ）の推定結果を補正した結果を表す画像を図１０（ｃ）に示す。補正処理によって、誤判定されていた箇所が補正されているのがわかる。

Ｓ９２６において、ＣＰＵ２６１は、Ｓ９２５で補正した推定結果をマスクとして、手書きだけを抽出した画像を生成する。具体的には、まずＣＰＵ２６１が処理対象画像と同じサイズの画像を生成し、推定結果が手書きの座標については、処理対象画像の画素値を代入し、推定結果が手書きではない座標については、２５５を代入する。以降、この画像を「手書き抽出画像」と呼称する。図１０（ｃ）の補正された推定結果をマスクとして生成した手書き抽出画像を図１１（ａ）に示す。
Ｓ９２７において、ＣＰＵ２６１は、手書き抽出画像を対象に処理対象領域抽出処理を行い、手書き抽出画像に含まれる手書きＯＣＲの対象とする領域（手書き対象領域）を決める。この処理の詳細はＳ９２３と同様であり、図９Ｂ（ａ）で後述する。図１１（ａ）の手書き抽出画像について処理対象領域抽出処理を行った結果として得られた手書き対象領域を図１２（ｂ）の領域１２２１～１２２４に示す。
Ｓ９２８において、ＣＰＵ２６１は、手書き対象領域と手書き抽出画像とを、外部インタフェース２６８を介して、手書きＯＣＲサーバ１０５に送信し、手書きＯＣＲを実行させる。手書きＯＣＲには公知の技術を適用し実現することができる。
Ｓ９２９において、ＣＰＵ２６１は、手書きＯＣＲサーバ１０５から、手書きＯＣＲ結果を受信したか否かを判定する。手書きＯＣＲ結果とは、手書きＯＣＲサーバ１０５が、手書き対象領域に含まれていた手書き文字を認識して得たテキストデータである。ＣＰＵ２６１が外部インタフェース２６８を介して手書きＯＣＲサーバ１０５から手書きＯＣＲ結果を受信したと判定するまでＳ９２９の処理を繰り返し、受信したと判定した場合、処理はＳ９３０に遷移する。

続いてＳ９３０において、ＣＰＵ２６１は、Ｓ９２５で補正した推定結果をマスクとして、背景だけを抽出した画像を生成する。具体的には、まずＣＰＵ２６１が処理対象画像と同じサイズの画像を生成し、推定結果が手書きではない座標については、処理対象画像の画素値を代入し、推定結果が手書きの座標については、２５５を代入する。以降、この画像を「背景抽出画像」と呼称する。図１０（ｃ）の補正された推定結果をマスクとして生成した背景抽出画像を図１１（ｂ）に示す。
Ｓ９３１において、ＣＰＵ２６１は、背景抽出画像を対象に処理対象領域抽出処理を行い、背景抽出画像に含まれる活字ＯＣＲの対象とする領域（活字対象領域）を決める。この処理の詳細はＳ９２３と同様であり、図９Ｂ（ａ）で後述する。図１１（ｂ）の背景抽出画像について処理対象領域抽出処理を行った結果として得られた活字対象領域を図１２（ｃ）の領域１２４１～１２４５に示す。
Ｓ９３２において、ＣＰＵ２６１は、Ｓ９３１で得た活字対象領域と背景抽出画像とを、外部インタフェース２６８を介して、活字ＯＣＲサーバ１０４に送信し、活字ＯＣＲを実行させる。活字ＯＣＲには公知の技術を適用し実現することができる。
Ｓ９３３において、ＣＰＵ２６１は、活字ＯＣＲサーバ１０４から、活字ＯＣＲ結果を受信したか否かを判定する。活字ＯＣＲ結果とは、活字ＯＣＲサーバ１０４が、活字対象領域に含まれていた活字を認識して得たテキストデータである。ＣＰＵ２６１が外部インタフェース２６８を介して活字ＯＣＲサーバ１０４からから活字ＯＣＲ結果を受信したと判定するまでＳ９３３の処理を繰り返し、受信したと判定した場合、処理はＳ９３４に遷移する。

続いてＳ９３４において、ＣＰＵ２６１は、各処理対象領域についてＯＣＲ結果を集計する。まずＣＰＵ２６１は、Ｓ９２３で得た処理対象領域のうち、Ｓ９２７で得た手書き対象領域と、Ｓ９３１で得た活字対象領域のどちらかのみを含むものについては、そのＯＣＲ結果をそのまま処理対象領域のＯＣＲ結果とする。また、処理対象領域内に、手書き対象領域と活字対象領域の両方を含むものについては、手書きＯＣＲ結果と活字ＯＣＲ結果を、処理対象領域での位置関係に応じて並べたものを処理対象領域のＯＣＲ結果とする。
図１２を用いて本ステップの処理について説明する。例えば、処理対象領域１２０３は手書き対象領域１２２１のみを含むため、そのＯＣＲ結果である「田中太郎」をＯＣＲ結果とする。一方、処理対象領域１２０５は手書き対象領域１２２２，１２２３，１２２４及び活字対象領域１２４４，１２４５を含むため、各ＯＣＲ結果を元の位置関係の順番に並べて「０２－（３２）－１２６８」をＯＣＲ結果とする。

Ｓ９３５において、ＣＰＵ２６１は、各処理対象領域のＯＣＲ結果を統合する。ここでは各処理対象領域について、その位置関係や、意味的な妥当性を評価することで、項目と値のペアを推定する。例えば、処理対象領域１２０２に対し、最も近い処理対象領域は領域１２０３であり、且つ領域１２０２のＯＣＲ結果「氏名」が項目名だとすると、領域１２０３のＯＣＲ結果「田中太郎」は氏名を含むので値としての妥当性が高い。よって、領域１２０２のＯＣＲ結果と領域１２０３のＯＣＲ結果を、氏名に関する項目と値のペアであると推定する。同様の方法で、領域１２０４と領域１２０５のＯＣＲ結果もそれぞれ項目と値のペアであると推定する。
Ｓ９３６において、ＣＰＵ２６１は、Ｓ９３５で得た項目と値のペアを、外部インタフェース２６８を介して、ＤＢサーバ１０６に送信して保存させる。
Ｓ９３７において、ＣＰＵ２６１は、一連の処理を終了するか否かを判定する。ＣＰＵ２６１が画像処理サーバ１０３の電源のＯＦＦなどの所定の操作を検知しない限り、処理はＳ９２２に遷移する。ＣＰＵ２６１が所定の操作を検知した場合には、本フローチャートの処理が終了する。
以上のようなＯＣＲ処理によれば、手書きと活字が混在する処理対象画像から、手書き文字のみの領域と活字のみの領域とを抽出し、各領域に対して行った文字認識の結果をＤＢサーバ１０６に保存することができる。

＜処理対象領域抽出処理＞
次に、図９Ａ（ｂ）のＳ９２３，Ｓ９２７，Ｓ９３１、及び後述する図９Ｂ（ｂ）のＳ９７２，Ｓ９７４で実行される処理対象領域抽出処理について説明する。図９Ｂ（ａ）は、処理対象領域抽出処理を示すフローチャートである。本フローチャートは、ＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理プログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。本フローチャートは、図９Ａ（ｂ）のＳ９２３，Ｓ９２７，Ｓ９３１で、それぞれ処理対象画像、手書き抽出画像、背景抽出画像を入力として実行される。また、本フローチャートは、図９Ｂ（ｂ）のＳ９７２，Ｓ９７４で、それぞれ処理対象画像、補正前手書き抽出画像、補正前背景抽出画像を入力として実行される。
まずＳ９５１において、ＣＰＵ２６１は、入力画像に収縮処理を掛ける。これにより、文字が太らされて、文字を構成する部首や点などの小さなパーツが周辺の文字と繋がり、後段の処理（Ｓ９５３）でこれらがノイズとして扱われることを抑制することができる。
Ｓ９５２において、ＣＰＵ２６１は、黒画素が連結している領域の外接矩形を取得する。ＣＰＵ２６１は、Ｓ９５１で収縮処理した画像に対して、黒画素が連結している領域を探索し、探索された全ての領域について個別に外接矩形を生成する。
Ｓ９５３において、ＣＰＵ２６１は、Ｓ９５２で生成した外接矩形の中から、文字のものである可能性の低い矩形を除外する。例えば、矩形の辺の長さや面積に所定範囲を設け、当該所定範囲から外れるものについては文字ではないと推定して取り除く。これにより、図表を囲っている大きな矩形や、小さなノイズを囲っている極小の矩形を除外することができる。
Ｓ９５４において、ＣＰＵ２６１は、近接する外接矩形同士を連結する。ＣＰＵ２６１は、Ｓ９５３の結果残った各矩形について、その左右の一定の距離内に別の矩形がある場合は、それらの矩形を全て結合した新しい矩形に置き換える。これにより、文字単体ではなく単語や文章全体などのまとまりを囲う矩形を形成できる。この結果得られた各矩形を、処理対象領域とする。その後、本フローチャートが終了する。

以上のような処理対象領域抽出処理によれば、記入項目を表す活字や、記入欄に記入された手書き文字などの領域をＯＣＲの処理対象領域として抽出することができる。Ｓ９２３では、ＣＰＵ２６１が、処理対象画像に含まれる手書き文字及び活字の領域を抽出する。Ｓ９２７では、ＣＰＵ２６１が、手書き抽出画像から処理対象領域を抽出して、抽出した領域を手書き対象領域として決定する。Ｓ９３１では、ＣＰＵ２６１が、背景抽出画像から処理対象領域を抽出して、抽出した領域を活字対象領域として決定する。

＜手書き判定の補正処理＞
次に、図９Ａ（ｂ）のＳ９２５で実行される手書き判定の誤りを補正する補正処理について説明する。図９Ｂ（ｂ）は、本実施形態に係る補正処理を示すフローチャートである。本フローチャートは、ＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理プログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。本フローチャートは、図９Ａ（ｂ）のＳ９２５で、Ｓ９２４で手書き画素を推定した結果として得られた画像を入力として実行される。

Ｓ９７１において、ＣＰＵ２６１は、図９Ａ（ｂ）のＳ９２４で得られた補正前の推定結果をマスクとして、Ｓ９２６と同様の手順で、手書きだけを抽出した画像を生成する。以降、この画像を「補正前手書き抽出画像」と呼称する。図１０（ｂ）に示す補正前の推定結果をマスクとして生成した補正前手書き抽出画像を図１３（ａ）に示す。
Ｓ９７２において、ＣＰＵ２６１は、補正前手書き抽出画像を対象に前述の処理対象領域抽出処理を行い、処理対象領域を抽出する。図１３（ａ）の補正前手書き抽出画像に処理対象領域抽出処理を行った結果として得られた処理対象領域を領域１３０１～１３０５に示す。

続いてＳ９７３において、ＣＰＵ２６１は、図９Ａ（ｂ）のＳ９２４で得られた補正前の推定結果をマスクとして、Ｓ９３０と同様の手順で、背景だけを抽出した画像を生成する。以降、この画像を「補正前背景抽出画像」と呼称する。図１０（ｂ）に示す補正前の推定結果をマスクとして生成した補正前背景抽出画像を図１３（ｂ）に示す。
Ｓ９７４において、ＣＰＵ２６１は、補正前背景抽出画像を対象に前述の処理対象領域抽出処理を行い、処理対象領域を抽出する。図１３（ｂ）の補正前背景抽出画像に処理対象領域抽出処理を行った結果として得られた処理対象領域を領域１３２１～１３２６に示す。
Ｓ９７５において、ＣＰＵ２６１は、図９Ａ（ｂ）のＳ９２３で得た全ての処理対象領域について、後続するＳ９７６からＳ９８１までの処理が終了したか否かを判定する。ＣＰＵ２６１が全ての処理対象領域について処理が終了したと判定した場合には、図９Ａ（ｂ）のフローに戻る。一方で、ＣＰＵ２６１が未処理の処理対象領域が存在すると判定した場合には、処理対象領域を一つ選択して、処理はＳ９７６に遷移する。

Ｓ９７６において、ＣＰＵ２６１は、Ｓ９７５で選択した処理対象領域が、Ｓ９７２で得た補正前手書き抽出画像から抽出された処理対象領域と、Ｓ９７４で得た補正前背景画像から抽出された処理対象領域に分裂しているか否かを判定する。具体的には、Ｓ９７５で選択した処理対象領域内に、補正前手書き抽出画像から抽出された処理対象領域と、補正前背景画像から抽出された処理対象領域との両方が存在する場合に、分裂したと判定する。この判定は、各処理対象領域の座標位置を比較することによって行えばよい。図１３を例にして説明する。図１３では、補正前手書き抽出画像（図１３（ａ））と補正前背景抽出画像（図１３（ｂ））のそれぞれで、Ｓ９２３で得た処理対象領域を太い点線枠（領域１２０１～１２０５）で重畳して表示している。領域１２０１，１２０３，１２０５では、補正前手書き抽出画像と補正前背景抽出画像の両方で処理対象領域が含まれるため、分裂していると判定する。一方、領域１２０２，１２０４では、補正前背景抽出画像のみに処理対象領域が含まれ、補正前手書き抽出画像では処理対象領域が存在しないため、分裂していないと判定する。ＣＰＵ２６１が分裂していると判定した場合、処理はＳ９７７に遷移する。ＣＰＵ２６１が分裂していないと判定した場合、Ｓ９７５で選択した処理対象領域は補正の対象外として、処理はＳ９７５に遷移する。

Ｓ９７７において、ＣＰＵ２６１は、補正前手書き抽出画像と補正前背景抽出画像のそれぞれで、Ｓ９７５で選択した処理対象領域内に存在する処理対象領域の面積を算出する。例えばＳ９７５で処理対象領域１２０１が選択された場合、補正前手書き抽出画像で領域１２０１内の処理対象領域１３０１の面積、及び補正前背景抽出画像で領域１２０１内の処理対象領域１３２１の面積をそれぞれ算出する。またこの時、補正前手書き抽出画像で、Ｓ９７５で選択した領域内に処理対象領域が複数存在する場合に、それらを合計した面積を算出する。同様にして、補正前背景抽出画像で、Ｓ９７５で選択した領域内に処理対象領域が複数存在する場合に、それらを合計した面積を算出する。例えばＳ９７５で処理対象領域１２０５が選択された場合、補正前手書き抽出画像で領域１２０５内の領域１３０３と１３０４と１３０５の面積の合計値、及び補正前背景抽出画像で領域１２０５内の領域１３２５と１３２６の面積の合計値を算出する。

Ｓ９７８において、ＣＰＵ２６１は、Ｓ９７７で算出した面積を比較し、比較の結果、面積のうち小さい方を参照し、面積が閾値を下回るか否かを判定する。ここでの閾値として、帳票で使用される標準的な大きさ（例えば１６ポイント）の活字文字一文字について処理対象領域を抽出した時の面積が予め定義されている。例えばＳ９７５で処理対象領域１２０１が選択された場合、小さい方の領域は補正前手書き抽出画像の領域１３０１であり、その面積は活字文字一文字の面積よりも小さいため、閾値を下回ると判定する。またＳ９７５で処理対象領域１２０３が選択された場合、小さい方の領域は補正前背景抽出画像の領域１３２２であり、その面積は活字文字一文字の面積よりも小さいため、閾値を下回ると判定する。一方、Ｓ９７５で処理対象領域１２０５が選択された場合、小さい方の領域は補正前背景抽出画像の領域１３２５と領域１３２６の面積の合計値であるが、その値は活字文字一文字の面積よりも大きいため、閾値を下回らないと判定する。ＣＰＵ２６１が面積が閾値を下回ると判定した場合、処理はＳ９７９に遷移する。ＣＰＵ２６１が面積が閾値以上と判定した場合、Ｓ９７５で選択した処理対象領域は補正の対象外として、処理はＳ９７５に遷移する。

Ｓ９７９において、ＣＰＵ２６１は、Ｓ９７７で算出した面積を比較した結果、面積の小さい方の処理対象領域が、補正前手書き抽出画像から抽出されているか否かを判定する。ＣＰＵ２６１が補正前手書き抽出画像から抽出されていると判定した場合、処理はＳ９８０に遷移する。一方、ＣＰＵ２６１が補正前背景抽出画像から抽出されていると判定した場合、処理はＳ９８１に遷移する。
Ｓ９８０において、ＣＰＵ２６１は、Ｓ９７９で比較対象とした補正前手書き抽出画像の処理対象領域内の部分が、背景になるよう推定結果を補正する。具体的には、Ｓ９２４の推定結果のうち、補正前手書き抽出画像の当該処理対象領域内で余白ではない箇所を、手書きではないことを示す値（例えば０）で上書きする。これにより、背景の一部が手書きの画素であると誤判定されて手書きとして抽出されても、背景に補正することができる。その後処理はＳ９７５に戻る。
Ｓ９８１において、ＣＰＵ２６１は、Ｓ９７９で比較対象とした補正前背景抽出画像の処理対象領域内の部分が、手書きになるよう推定結果を補正する。具体的には、Ｓ９２４で抽出した推定結果のうち、補正前背景抽出画像の当該処理対象領域内で余白ではない箇所を、手書きであることを示す値（例えば１）で上書きする。これにより、手書き文字の一部が手書きではない画素と誤判定されて背景として抽出されても、手書きに補正することができる。その後処理はＳ９７５に戻る。
以上のように、画像処理サーバ１０３は、読取画像から抽出された処理対象領域が、手書き抽出画像から抽出された処理対象領域と、背景抽出画像から抽出された処理対象領域に分裂した場合に、分裂した処理対象領域の面積を比較する。そして、面積の小さい方の処理対象領域が、面積の大きい方の処理対象領域に統合されるように、手書き画素の推定結果を補正する。そして、読取画像から抽出された複数の処理対象領域に対して、補正を行うかを順次判定していく。

以上のような実施形態１に係る画像処理システム１００によれば、読取画像内のＯＣＲの処理対象領域が、手書き抽出画像と背景抽出画像で分かれた場合であって、且つ分かれた領域の面積が閾値を下回る場合に、手書き抽出の誤りとして補正できる。具体的には、分かれた部分のうちの面積が小さい方の領域を、面積が大きい方の領域に統合する。これにより、文字列の一部が欠損された状態や余計な部分が現れた状態で文字領域が抽出されることが抑制される。即ち、手書き文字及び活字の認識精度を向上させることができる。

本実施形態の第１の変形例として、読取画像からＯＣＲの対象領域として抽出された領域と、手書き抽出画像と背景抽出画像からＯＣＲの対象領域として抽出された領域の比較に応じて手書きの推定結果を補正する形態であれば、補正内容は上記と異なってもよい。

本実施形態の第２の変形例として、図９Ｂ（ｂ）の補正処理のＳ９７６とＳ９７７の間に、次のようなステップを挿入してもよい。まずＣＰＵ２６１は、補正前手書き抽出画像と補正前背景抽出画像のそれぞれで、Ｓ９７５で選択した処理対象領域内に存在する処理対象領域の高さを算出する。そしてＣＰＵ２６１が、補正前手書き抽出画像から抽出された処理対象領域の高さが、補正前背景抽出画像から抽出された処理対象領域の高さよりも大きい場合には、Ｓ９７５で選択した処理対象領域を補正対象外とする。一方で、補正前手書き抽出画像から抽出された処理対象領域の高さが、補正前背景抽出画像から抽出された処理対象領域の高さ以下の場合には、Ｓ９７７に遷移する。

［実施形態２］
本実施形態では、手書き判定の補正処理において、背景抽出画像の記載内容に応じて処理を異ならせる点で、実施形態１とは異なる。なお、本実施形態に係る画像処理システム１００の構成は、特徴部分を除いて実施形態１の構成と同様である。そのため、同様の構成については、同様の符号を付し、その詳細な説明を省略する。以下、実施形態１との差分を中心に説明する。

＜手書き判定の補正処理＞
以下、図９Ａ（ｂ）のＳ９２５で実行される手書き判定の誤りを補正する補正処理について説明する。図１４は、本実施形態に係る補正処理を示すフローチャートである。本フローチャートは、ＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理プログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。本フローチャートは、図９Ａ（ｂ）のＳ９２５で、Ｓ９２４で手書き画素を推定した結果として得られた画像を入力として実行される。

図１４のＳ９７１からＳ９７６までは、実施形態１と同様である。なお、本実施形態の説明においては、図９Ａ（ｂ）のＳ９２２で処理対象画像として、図１５（ａ）に示す画像を受信し、更にＳ９２３の処理対象領域抽出処理で図１５（ａ）の領域１５０１から領域１５０５に示す処理対象領域が抽出されたものとする。図１５（ｂ）は、図１５（ａ）に示す画像から生成された補正前手書き抽出画像を示す。図１５（ｃ）は、図１５（ａ）に示す画像から生成された補正前背景抽出画像を示す。

次にＳ１４０１において、ＣＰＵ２６１は、Ｓ９７５で選択した処理対象領域の座標と、Ｓ９７３で得た補正前背景抽出画像とを、外部インタフェース２６８を介して、活字ＯＣＲサーバ１０４に送信し、活字ＯＣＲを実行させる。活字ＯＣＲには公知の技術を適用し実現することができる。
Ｓ１４０２において、ＣＰＵ２６１は、活字ＯＣＲサーバ１０４から、活字ＯＣＲ結果を受信したか否かを判定する。ＣＰＵ２６１が外部インタフェース２６８を介して活字ＯＣＲサーバ１０４からから活字ＯＣＲ結果を受信したと判定するまでＳ１４０２の処理を繰り返し、受信したと判定した場合、処理はＳ１４０３に遷移する。

Ｓ１４０３において、ＣＰＵ２６１は、活字ＯＣＲ結果に特定の文字列が含まれるか否かを判定する。ここでの特定の文字列とは、主に手書き記入の補助として帳票に予め印字され、手書きの近傍に現れることが多い文字列である。例えば「年月日」や「時分」といった文字列である。これら特定の文字列は、予め定義されているものとする。図１５の例では、処理対象領域１５０５に手書き記入の補助として小さな活字で「年月日」が印字されている。補正前背景抽出画像（図１５（ｃ））において、領域１５０５内の領域１５４３、１５４４、１５４５の面積の合計値は、標準的な大きさの活字一文字の面積を下回るが、特定の文字列である。そのため、Ｓ１４０３では、これらが手書きの一部を背景として誤抽出されたものではないと判定することができる。ＣＰＵ２６１が特定の文字列であると判定した場合、Ｓ９７５で選択した処理対象領域は補正の対象外として、処理はＳ９７５に遷移する。一方、ＣＰＵ２６１が特定の文字列ではないと判定した場合、処理はＳ９７７に遷移する。これにより、記入欄内に予め印字され、手書きの近傍に現れることが多い活字文字と、手書き文字とを精度よく分離させることができる。
後続するＳ９７７からＳ９８１までは実施形態１と同様である。

以上のような実施形態２に係る画像処理システム１００によれば、読取画像内のＯＣＲの処理対象領域が、手書き抽出画像と背景抽出画像で分かれた場合に、背景抽出画像の記載内容に応じて、手書き抽出の推定結果を補正するかを判定することができる。これにより、手書き記入の補助的に印字された小さな活字などが手書き文字の一部として統合されることが抑制され、手書き文字及び活字文字の認識精度を向上させることができる。

以上、本発明を実施形態と共に説明したが、上記実施形態は本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。例えば、画像処理装置１０１と画像処理サーバ１０３とを別体の装置として説明したが、画像処理サーバ１０３が画像処理装置１０１の機能を具備してもよい。また、画像処理サーバ１０３と活字ＯＣＲサーバ１０４と手書きＯＣＲサーバ１０５とをそれぞれ別体の装置として説明したが、画像処理サーバ１０３が活字ＯＣＲサーバ１０４と手書きＯＣＲサーバ１０５としての機能を具備してもよい。また、活字ＯＣＲサーバ１０４と手書きＯＣＲサーバ１０５とを別体の装置として説明したが、活字ＯＣＲサーバ１０４と手書きＯＣＲサーバ１０５とが一体的に構成されていてもよい。また、画像処理サーバ１０３と学習装置１０２とを別体の装置として説明したが、画像処理サーバ１０３が学習装置１０２としての機能を具備してもよい。

１００：画像処理システム、１０１：画像処理装置、１０２：学習装置、１０３：画像処理サーバ、１０４：活字ＯＣＲサーバ、１０５：手書きＯＣＲサーバ

Claims

手書きを含む原稿の読取画像を取得する取得手段と、
前記読取画像に対して、処理対象領域を抽出するための抽出処理を行うことにより、第１の領域を抽出する第１の抽出手段と、
前記読取画像における、手書き部分を推定する推定手段と、
前記推定手段による推定結果に基づき、手書き部分を抽出した手書き画像と、手書きではない部分を抽出した背景画像とを生成する生成手段と、
前記手書き画像に対して、前記抽出処理を行うことにより、第２の領域を抽出する第２の抽出手段と、
前記背景画像に対して、前記抽出処理を行うことにより、第３の領域を抽出する第３の抽出手段と、
前記抽出された第１の領域の座標位置と前記抽出された第２の領域の座標位置と前記抽出された第３の領域の座標位置とに基づいて、前記推定結果を補正するよう制御する制御手段と、
を有することを特徴とする画像処理装置。
前記制御手段は、前記第１の領域内に前記第２の領域と前記第３の領域とが含まれる場合、前記第２の領域の面積と、前記第３の領域の面積のうち、面積の小さい方の領域が、面積の大きい方の領域に統合されるように、前記推定結果を補正することを特徴とする請求項１に記載の画像処理装置。
前記制御手段は、前記第２の領域の面積の方が小さい場合、当該領域内の前記手書き画像の部分を、前記背景画像の部分に補正することを特徴とする請求項２に記載の画像処理装置。
前記制御手段は、前記第３の領域の面積の方が小さい場合、当該領域内の前記背景画像の部分を、前記手書き画像の部分に補正することを特徴とする請求項２又は３に記載の画像処理装置。
前記制御手段は、前記第１の領域内に前記第２の領域と前記第３の領域とが含まれる場合、当該第１の領域内に含まれる前記第２の領域の面積の合計と、当該第１の領域内に含まれる前記第３の領域の面積の合計とを比較して、面積の合計の小さい方の領域が、面積の合計の大きい方の領域に統合されるように、前記推定結果を補正することを特徴とする請求項２乃至４の何れか１項に記載の画像処理装置。
前記制御手段は、前記第１の領域内に前記第２の領域と前記第３の領域とが含まれる場合であっても、前記第２の領域の面積と、前記第３の領域の面積のうち、小さい方の面積が閾値以上である場合には、前記推定結果を補正しないよう制御することを特徴とする請求項２乃至５の何れか１項に記載の画像処理装置。
前記閾値が、帳票で使用される標準的な活字一文字の大きさであることを特徴とする請求項６に記載の画像処理装置。
前記制御手段は、前記第１の領域内に前記第２の領域と前記第３の領域とが含まれる場合であっても、前記第３の領域に対して行ったＯＣＲの結果に、所定の文字列が含まれる場合に、前記推定結果を補正しないよう制御することを特徴とする請求項１乃至７の何れか１項に記載の画像処理装置。
前記制御手段は、前記第１の領域内に前記第２の領域と前記第３の領域とが含まれる場合であっても、前記第２の領域が、前記第３の領域よりも高さが大きい場合、前記推定結果を補正しないよう制御することを特徴とする請求項１乃至８の何れか１項に記載の画像処理装置。
前記制御手段は、前記読取画像から複数の前記第１の領域が抽出された場合、当該抽出された複数の前記第１の領域に対して、前記推定結果の補正を行うかを順次判定することを特徴とする請求項１乃至９の何れか１項に記載の画像処理装置。
前記制御手段により補正された前記推定結果に基づき生成される手書き画像を、手書き文字に対応したＯＣＲの対象とすることを特徴とする請求項１乃至１０の何れか１項に記載の画像処理装置。
前記制御手段により補正された前記推定結果に基づき生成される背景画像を、活字に対応したＯＣＲの対象とすることを特徴とする請求項１乃至１１の何れか１項に記載の画像処理装置。
前記推定手段は、前記読取画像をニューラルネットワークに入力することにより、前記読取画像における前記手書き部分の画素を推定することを特徴とする請求項１乃至１２の何れか１項に記載の画像処理装置。
手書きのみを含む原稿を読み取った第１の読取画像と、手書き以外のオブジェクトのみを含む原稿を読み取った第２の読取画像とを合成して得られる画像を入力画像とし、前記入力画像における手書きの画素を正解データとする学習データを用いて、前記ニューラルネットワークの学習を行う学習手段をさらに有することを請求項１３に記載の画像処理装置。
前記第１の読取画像と、前記第２の読取画像のうちの少なくも何れか一方に対して、所定の画像処理を施した後で、各画像を合成することにより前記入力画像を生成することを特徴とする請求項１４に記載の画像処理装置。
前記所定の画像処理が、回転、変倍、輝度の変更、及び画像の切り出しのうちの少なくとも何れか１つの処理を含むことを特徴とする請求項１５に記載の画像処理装置。
前記原稿が帳票であることを特徴とする請求項１乃至１６の何れか１項に記載の画像処理装置。
手書きを含む原稿の読取画像を生成する画像生成装置と、画像処理装置と、ＯＣＲ装置とを含む画像処理システムであって、
前記画像処理装置は、
前記画像生成装置から、前記読取画像を取得する取得手段と、
前記読取画像に対して、処理対象領域を抽出するための抽出処理を行うことにより、第１の領域を抽出する抽出処理を行う第１の抽出手段と、
前記読取画像における、手書き部分を推定する推定手段と、
前記推定手段による推定結果に基づき、手書き部分を抽出した手書き画像と、手書きでではない部分を抽出した背景画像とを生成する生成手段と、
前記手書き画像に対して、前記抽出処理を行うことにより、第２の領域を抽出する第２の抽出手段と、
前記背景画像に対して、前記抽出処理を行うことにより、第３の領域を抽出する第３の抽出手段と、
前記抽出された第１の領域の座標位置と前記抽出された第２の領域の座標位置と前記抽出された第３の領域の座標位置とに基づいて、前記推定結果を補正するよう制御する制御手段と、
前記制御手段により補正された前記推定結果に基づき生成される手書き画像を手書きＯＣＲの対象とし、前記制御手段により補正された前記推定結果に基づき生成される背景画像を活字ＯＣＲの対象として、前記ＯＣＲ装置に対して送信する送信手段と、
を有し、
前記ＯＣＲ装置は、
前記手書きＯＣＲの対象に対して、手書き文字に対応したＯＣＲを実行し、前記活字ＯＣＲの対象に対して、活字に対応したＯＣＲを実行する処理手段と、
を有することを特徴とする画像処理システム。
手書きを含む原稿の読取画像を取得する取得ステップと、
前記読取画像に対して、処理対象領域を抽出するための抽出処理を行うことにより、第１の領域を抽出する第１の抽出ステップと、
前記読取画像における、手書き部分を推定する推定ステップと、
前記推定ステップの推定結果に基づき、手書き部分を抽出した手書き画像と、手書きではない部分を抽出した背景画像とを生成する生成ステップと、
前記手書き画像に対して、前記抽出処理を行うことにより、第２の領域を抽出する第２の抽出ステップと、
前記背景画像に対して、前記抽出処理を行うことにより、第３の領域を抽出する第３の抽出ステップと、
前記抽出された第１の領域の座標位置と前記抽出された第２の領域の座標位置と前記抽出された第３の領域の座標位置とに基づいて、前記推定結果を補正するよう制御する制御ステップと、
を含むことを特徴とする画像処理方法。
コンピュータを、請求項１乃至１７の何れか１項に記載された画像処理装置の各手段として機能させるためのプログラム。