JP2024035965A

JP2024035965A - 情報処理装置、情報処理装置の制御方法、およびプログラム

Info

Publication number: JP2024035965A
Application number: JP2022140624A
Authority: JP
Inventors: 拓也小川; Takuya Ogawa
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2024-03-15

Abstract

【課題】文書画像を活字画像および手書き文字画像に分離する場合に、活字を手書き文字だと誤判定し、本来は活字である文字が活字画像に含まれず、手書き文字画像に含まれてしまう場合あった。【解決手段】画像処理サーバ１０３が、画像処理装置１０１でスキャンされた文書画像上の手書き画素を手書き画像として抽出して手書き領域を取得し（Ｓ３２２、Ｓ３２３）、前記手書き画像に基づいて前記文書画像上の活字画素を活字画像として抽出して活字領域を取得し（Ｓ３２４、Ｓ３２５）、前記手書き領域と近接する前記活字領域、および、前記手書き領域と重なる前記活字領域を探索し（Ｓ３６４）、前記手書き領域と、前記探索した活字領域のそれぞれの高さに基づいて、前記手書き領域および該領域に属する前記手書き画像内の手書き画素を、前記活字領域および該領域に属する前記活字領域内の活字画素に補正する（Ｓ３６５～Ｓ３６６）。【選択図】図３Ｂ

Description

本発明は、情報処理装置、情報処理装置の制御方法、およびプログラムに関する。

近年、コンピュータの普及に伴う労働環境の変化により、業務帳票の電子化が進んでいる。帳票の電子化は、帳票をスキャンしてＯＣＲを実行することで行われる。ＯＣＲ（Optical Character Recognition）は、入力された文字画像を電子テキストデータに変換するシステムである。

電子化の対象には、活字と手書き文字とが混在する帳票が含まれる。活字は、文字毎に特定のフォント種類やサイズ下で、文字形状が一意である。手書き文字は、同じ文字であっても自由記入され形状が動的に変わる。このような文字形状の性質の違いのため、ＯＣＲは、活字画像用のＯＣＲ（以降「活字ＯＣＲ」と呼称する）と、手書き文字用のＯＣＲ（以降「手書きＯＣＲ」と呼称する）が実行される。

活字ＯＣＲと手書きＯＣＲには、それぞれのＯＣＲが対象とする文字画像のみを入力する必要がある。そうでなければ、各ＯＣＲの認識精度が低下してしまう。そのため、活字と手書き文字とが混在する帳票画像を、活字画像と手書き文字画像とに分離して処理を行う。そこで、活字と手書き文字とが混在する画像から、手書き文字を抽出する技術が検討されている。

特許文献１では、手書きと活字が混在した画像から細線を抽出し、細線毎に輝度の分散に応じて手書きか否かを判定することで、手書き文字を抽出する技術が提案されている。

特開２０１０－２１８１０６号公報

しかし、入力画像の文字の色、印刷出力時のインクむら、スキャン環境などによっては輝度分散の大きい活字細線が現れる場合がある。このような場合、特許文献１の技術では、活字であるにも関わらず、手書き文字と誤判定される可能性がある。そのため、本来、活字である文字および文字の一部が活字画像に含まれず、手書き文字画像に含まれてしまう。その結果、活字に対して手書きＯＣＲが実行され、ＯＣＲの認識精度が低下する場合があった。

本発明は、上記の課題を解決するためになされたものである。本発明は、文書画像から手書き文字と活字を抽出する場合に、活字を手書きと抽出する誤抽出を抑える仕組みを提供することを目的とする。

本発明は、文書画像上の手書き画素を手書き画像として抽出して手書き領域を取得する第１取得手段と、前記文書画像上の活字画素を活字画像として抽出して活字領域を取得する第２取得手段と、前記手書き領域と近接する前記活字領域、および、前記手書き領域と重なる前記活字領域を探索する探索手段と、前記手書き領域と、前記探索した活字領域のそれぞれの高さに基づいて、前記手書き領域および該領域に属する前記手書き画像内の手書き画素を、前記活字領域および該領域に属する前記活字領域内の活字画素に補正する補正手段と、を有することを特徴とする。

本発明によれば、文書画像中から手書き文字と活字を抽出する場合に、活字を手書きと抽出する誤抽出を抑えることができる。

本実施形態に係る画像処理システムの構成を示す図。画像処理装置および画像処理サーバのハードウェア構成を示す図。第１実施形態におけるＯＣＲ依頼処理およびＯＣＲ処理のフローチャート。第１実施形態における手書き誤抽出補正処理のフローチャート。第１実施形態のＯＣＲ処理におけるデータ生成処理の概要を示す図。第１実施形態のＯＣＲ処理におけるデータ生成処理の概要を示す図。第１実施形態のＯＣＲ処理におけるデータ生成処理の概要を示す図。第２実施形態におけるＯＣＲ処理のフローチャート。第２実施形態における手書き誤抽出削除処理のフローチャート。第２実施形態のＯＣＲ処理におけるデータ生成処理の概要を示す図。

以下、本発明を実施するための形態について図面を用いて説明する。なお、本発明を実現するための構成は実施形態に記載された構成のみに限定されるものではない。同様の効果を得られる範囲で実施形態に記載の構成の一部を省略または均等物に置き換えてもよい。

〔第１実施形態〕
図１は、本発明の一実施形態に係る画像処理システムの構成の一例を示す図である。
本実施形態の画像処理システム１００は、画像処理装置１０１、画像処理サーバ１０３、活字ＯＣＲサーバ１０４、手書きＯＣＲサーバ１０５、ＤＢサーバ１０６を有する。画像処理装置１０１、画像処理サーバ１０３、活字ＯＣＲサーバ１０４、手書きＯＣＲサーバ１０５、ＤＢサーバ１０６は、ネットワーク１０７を介して通信可能に接続されている。

画像処理装置１０１は、ＭＦＰ（Multi Function Peripheral）等と呼ばれるデジタル複合機などであり、印刷機能やスキャン機能を有する。画像処理装置１０１は、帳票のテキスト化を行う際に、原稿をスキャンして処理対象とする画像データを得る（以降「処理対象画像」と呼称する）。そして、画像処理装置１０１は、得られた処理対象画像を、ネットワーク１０７を介して画像処理サーバ１０３に送信する。

画像処理サーバ１０３は、処理対象画像から手書きＯＣＲの対象とする画像（以降「手書き画像」と呼称する）と、活字ＯＣＲの対象とする画像（以降「活字画像」と呼称する）を生成する。すなわち、画像処理サーバ１０３は、画像処理装置１０１が生成した処理対象画像に対して手書き抽出を行う。そして、画像処理サーバ１０３は、抽出結果を基に、処理対象を手書き画像と活字画像とに分離する。また、画像処理サーバ１０３は、手書き画像に基づいて手書きＯＣＲの対象とする領域を算出し、手書き画像と共に手書きＯＣＲサーバ１０５に送信する。さらに、画像処理サーバ１０３は、活字画像に基づいて活字ＯＣＲの対象とする領域を算出し、活字画像と共に活字ＯＣＲサーバ１０４に送信する。

活字ＯＣＲサーバ１０４は、活字画像に含まれる活字に対してＯＣＲ（光学文字認識）を行うことができる。活字ＯＣＲサーバ１０４は、画像処理サーバ１０３より、活字画像と、活字画像上の領域であってＯＣＲの対象とする活字を含む領域（以降この領域を「活字ＯＣＲ対象領域」と呼称する）の情報を受信する。そして、活字画像中の活字ＯＣＲ対象領域に対してＯＣＲ処理を行ってテキストデータを取得し、当該テキストデータを画像処理サーバ１０３に送信する。

手書きＯＣＲサーバ１０５は、手書き画像に含まれる手書き文字に対してＯＣＲを行うことができる。手書きＯＣＲサーバ１０５は、画像処理サーバ１０３より、手書き画像と、手書き画像上の領域であってＯＣＲの対象とする手書き文字を含む領域（以降この領域を「手書きＯＣＲ対象領域」と呼称する）の情報を受信する。そして、手書きＯＣＲサーバ１０５は、手書き画像中の手書きＯＣＲ対象領域に対してＯＣＲ処理を行ってテキストデータを取得し、当該テキストデータを画像処理サーバ１０３に送信する。

ＤＢサーバ１０６は、画像処理サーバ１０３より送信されたテキストデータを、データベースに保存する。ＤＢサーバ１０６に保存された情報は、他のシステムから参照できるようになる。

図２は、画像処理装置１０１および画像処理サーバ１０３のハードウェア構成の一例を示すブロック図である。なお、活字ＯＣＲサーバ１０４、手書きＯＣＲサーバ１０５、ＤＢサーバ１０６のハードウェア構成は、画像処理サーバ１０３と同様とし、説明を省略する。

図２（ａ）に画像処理装置１０１のハードウェア構成の一例を示す。
画像処理装置１０１は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、プリンタデバイス２０５、スキャナデバイス２０６、原稿搬送デバイス２０７、ストレージ２０８、入力デバイス２０９、表示デバイス２１０、および外部インタフェース２１１を備える。各デバイスは、データバス２０３によって相互通信可能に接続されている。

ＣＰＵ２０１は、画像処理装置１０１を統括的に制御するためのコントローラである。ＣＰＵ２０１は、ＲＯＭ２０２に格納されているブートプログラムによりＯＳ（オペレーティングシステム）を起動する。このＯＳ上で、ストレージ２０８に記憶されているコントローラプログラムが実行される。コントローラプログラムは、画像処理装置１０１を制御するためのプログラムである。ＣＰＵ２０１は、これらのプログラムを実行することにより、データバス２０３によって接続されている各デバイスを統括的に制御する。ＲＡＭ２０４は、ＣＰＵ２０１の主メモリやワークエリア等の一時記憶領域として動作する。

プリンタデバイス２０５は、画像データを用紙（記録材）上に印刷するものである。印刷方式には、感光体ドラムや感光体ベルトなどを用いた電子写真印刷方式や、微小ノズルアレイからインクを吐出して用紙上に直接画像を印字するインクジェット方式などがあるが、どの方式でもよい。
スキャナデバイス２０６は、ＣＣＤなどの光学読取装置を用いて紙などの原稿上の走査を行い、電気信号データを得てこれを変換し、スキャン画像データを生成する。
ＡＤＦ（オート・ドキュメント・フィーダ）などの原稿搬送デバイス２０７は、原稿搬送デバイス２０７上の原稿台に載置された原稿を１枚ずつスキャナデバイス２０６に搬送する。

ストレージ２０８は、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）などの、読み出しと書き込みが可能な不揮発メモリであり、ここには、前述のコントローラプログラムなど、様々なデータが記録される。
入力デバイス２０９は、タッチパネルやハードキーなどから構成さる入力装置である。入力デバイス２０９は、ユーザの操作指示を受け付け、指示位置を含む指示情報をＣＰＵ２０１に伝達する。

表示デバイス２１０は、ＬＣＤやＣＲＴなどの表示装置である。表示デバイス２１０は、ＣＰＵ２０１が生成した表示データを表示する。ＣＰＵ２０１は、入力デバイス２０９より受信した指示情報と、表示デバイス２１０に表示させている表示データとから、いずれの操作が成されたかを判定する。そして、ＣＰＵ２０１は、この判定結果に応じて、画像処理装置１０１を制御するとともに、新たな表示データを生成し表示デバイス２１０に表示させる。

外部インタフェース２１１は、ＬＡＮや電話回線、赤外線といった近接無線などのネットワークを介して、外部機器と、画像データをはじめとする各種データの送受信を行う。外部インタフェース２１１は、学習装置１０２やＰＣ（不図示）などの外部機器より、ＰＤＬデータを受信する。ＣＰＵ２０１は、外部インタフェース２１１が受信したＰＤＬデータを解釈し、画像を生成する。生成した画像は、プリンタデバイス２０５により印刷したり、ストレージ２０８に記憶したりする。また、外部インタフェース２１１は、画像処理サーバ１０３などの外部機器より画像データを受信する。受信した画像データをプリンタデバイス２０５により印刷したり、ストレージ２０８に記憶したり、外部インタフェース２１１により、他の外部機器に送信したりする。

図２（ｂ）に画像処理サーバ１０３を構成可能な情報処理装置のハードウェア構成の一例を示す。
画像処理サーバ１０３は、ＣＰＵ２６１、ＲＯＭ２６２、ＲＡＭ２６４、ストレージ２６５、入力デバイス２６６、表示デバイス２６７、外部インタフェース２６８を備える。各部は、データバス２６３を介して相互にデータを送受信することができる。

ＣＰＵ２６１は、画像処理サーバ１０３の全体を制御するためのコントローラである。ＣＰＵ２６１は、不揮発メモリであるＲＯＭ２６２に格納されているブートプログラムによりＯＳを起動する。ＣＰＵ２６１は、このＯＳの上で、ストレージ２６５に記憶されている画像処理サーバプログラムを実行する。ＣＰＵ２６１がこの画像処理サーバプログラムを実行することより、処理対象画像から手書きの画素を抽出して消去する。ＣＰＵ２６１は、これらのプログラムを実行することにより、データバス２６３などのバスを介して各部を制御する。

ＲＡＭ２６４は、ＣＰＵ２６１のメインメモリやワークエリア等の一時記憶領域として動作するものである。
ストレージ２６５は、読み出しと書き込みが可能な不揮発メモリであり、前述の画像処理プログラムを記録する。
入力デバイス２６６は、マウスやキーボードなどから構成さる入力装置である。
表示デバイス２６７は、図２（ａ）を用いて説明した表示デバイス２１０と同様であるので、詳細な説明は省略する。
外部インタフェース２６８は、図２（ａ）を用いて説明した外部インタフェース２１１と同様であるので、詳細な説明は省略する。

なお、画像処理サーバ１０３、活字ＯＣＲサーバ１０４、手書きＯＣＲサーバ１０５、ＤＢサーバ１０６のいずれか複数は、同一の装置上に構成されてもよい。
また、画像処理サーバ１０３、活字ＯＣＲサーバ１０４、手書きＯＣＲサーバ１０５、ＤＢサーバ１０６は、それぞれ１台のコンピュータにより実現されるものであっても、複数のコンピュータにより実現されるものであってもよい。例えば、これらのサーバは、クラウドコンピューティングの技術を利用して実現される構成であってもよい。

以下、図３Ａ、図３Ｂのフローチャートを用いて、第１実施形態に係る処理について説明する。なお、以下、図３Ａ、図３Ｂをまとめた「図３」と記載する。

まず、画像処理装置１０１によるＯＣＲ依頼処理について説明する。
画像処理装置１０１は、活字および手書き文字を含む原稿をスキャンして処理対象画像を得る。そして、処理対象画像を画像処理サーバ１０３に送信して、活字および手書き文字のＯＣＲを依頼する。
図３（ａ）は、本実施形態のＯＣＲ依頼処理の一例を示すフローチャートである。この処理は、画像処理装置１０１のＣＰＵ２０１が、ストレージ２０８に記録されているコントローラプログラムを読み出し、ＲＡＭ２０４に展開して実行することにより実現される。この処理は、ユーザが画像処理装置１０１の入力デバイス２０９を介して、所定の操作を行うことで開始される。なお、図中、「Ｓ」はステップを示す。

まずＣＰＵ２０１は、Ｓ３０１において、スキャナデバイス２０６や原稿搬送デバイス２０７を制御して、原稿をスキャンして処理対象画像を生成する。処理対象画像は、フルカラー（ＲＧＢ３チャネル）の画像データとして生成される。
次にＣＰＵ２０１は、Ｓ３０２において、上記Ｓ３０１で生成した手書き処理対象を、外部インタフェース２１１を介して、画像処理サーバ１０３に送信する。

次に、画像処理サーバ１０３によるＯＣＲ処理について説明する。
図３（ｂ）は、第１実施形態のＯＣＲ処理の一例を示すフローチャートである。
図４Ａ～図４Ｃは、第１実施形態のＯＣＲ処理におけるデータ生成処理の概要を説明するための図である。以下、図４Ａ～図４Ｃをまとめて「図４」と記載する。
画像処理サーバ１０３は、画像処理装置１０１から処理対象画像を受信し、当該画像データに含まれる活字や手書き文字をＯＣＲしてテキストデータを得る。活字に対するＯＣＲは、活字ＯＣＲサーバ１０４に実行させる。また、手書き文字に対するＯＣＲは、手書きＯＣＲサーバ１０５に実行させる。本実施形態におけるＯＣＲ処理（図３（ｂ）および後述する図３（ｃ）の処理）は、ＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理サーバプログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。図３（ｂ）の処理は、ユーザが、画像処理サーバ１０３の電源をＯＮ（オン）にすると開始される。なお、これらの図中の「Ｓ」はステップを示す。

まずＣＰＵ２６１は、Ｓ３２１において、処理対象画像を画像処理装置１０１より受信したか否かを判定する。処理対象画像を受信していた場合（Ｓ３２１でＮｏの場合）、ＣＰＵ２６１は、Ｓ３３４に処理を遷移させる。
Ｓ３３４において、処理を終了するか否かを判定する。ユーザが、画像処理サーバ１０３の電源のＯＦＦなどの所定の操作を行った場合には、ＣＰＵ２６１は、Ｓ３３４でＹｅｓと判定し、本フローチャートの処理を終了する。一方、そうでない場合は、ＣＰＵ２６１は、Ｓ３３４でＮｏと判定し、Ｓ３２１に処理を戻し、処理対象画像の受信の監視を継続する。

一方、外部インタフェース２６８を介して、処理対象画像を受信していた場合（Ｓ３２１でＹｅｓの場合）、ＣＰＵ２６１は、Ｓ３２２に処理を遷移させる。
なお、処理対象画像は、例えば、図４（ａ）に示すような画像である。図４（ａ）の画像において、「１２」「１０」「田中太郎」「０２」「３２」「１２６８」は手書き文字であり、それ以外の文字は活字である。

Ｓ３２２において、ＣＰＵ２６１は、手書き抽出処理を実行し、画像処理装置１０１から受信した処理対象画像上の手書き画素を抽出した画像（以降「手書き抽出画像」と呼称する）を生成する。この手書き抽出処理については、例えば、画像中の画素の輝度特徴を基に手書きか否かを判定し、画素単位で手書き文字を抽出する方法（例えば特許文献１に開示される方法）など、公知の技術を適用し実現することができる。なお、この方法に限定されるものではない。生成された手書き抽出画像は、処理対象画像と同じサイズであり、手書きであると判定された画素には手書きであることを示す値が、手書きではないと判定された画素には手書きではないことを示す値が、それぞれ記録された画像データである。
図４（ａ）の画像を処理対象画像とした手書き抽出画像の一例を図４（ｂ）に示す。ただし、図４（ｂ）では、画素値が手書きを示す値である画素のみを図示している。図４（ｂ）の例では、本来活字である「番号」が、手書き文字として誤抽出されている。

次にＣＰＵ２６１は、Ｓ３２３において、上記Ｓ３２２で生成した手書き抽出画像から手書き領域を算出する。手書き領域は、処理対象画像中の手書き記入項目毎の手書き文字を内包する領域であり、例えば、複数の文字からなる文字行である。手書き領域は、例えば、処理対象画像上の手書き画素位置（座標）と、当該画素位置からの幅や高さから成る情報として表現される。また、手書き領域は、記入項目数に応じて複数得られる場合がある。

手書き領域の算出方法は、例えば、手書き抽出画像上の黒画素の集合を検出し、検出した黒画素の集合を含む矩形状の範囲を文字列領域とする方法（例えば特許第６４９３５５９号広報が開示する方法）を取り得る。また、例えば、次のような方法を取り得る。まず、手書き抽出画像を白黒に二値化して二値画像を生成する。次に、この二値画像において黒画素が連結する部分（連結黒画素）を抽出し、これに外接する矩形を作成する。これら矩形群について、矩形間の距離を評価し、予め定めた閾値以下の距離である矩形の統合を行うことで、文字である矩形群を得ることができる。これの方法に限定されるものではなく、この他にも、公知の技術などを適用し実現することができる。

図４（ｂ）の手書き抽出画像から算出した手書き領域の一例を図４（ｃ）に示す。
図４（ｃ）では、抽出された手書き文字に対して手書き領域４３１、４３２、４３３、４３４、４３５、４３６を算出している。また、図４（ｃ）では、誤抽出された本来活字である「番号」に対しても、手書き領域４３７を算出している。

次にＣＰＵ２６１は、Ｓ３２４において、上記Ｓ３２２で抽出した手書き画素に基づいて、画像処理装置１０１から受信した処理対象画像上の手書き画素を除去し、活字画素を抽出した画像（以降「活字抽出画像」と呼称する）を生成する。
ＣＰＵ２６１は、処理対象画像の画素であって、上記Ｓ３２２で生成した手書き抽出画像において画素値が手書きを示す値である画素と同位置の画素を、白（ＲＧＢ＝（２５５，２５５，２５５））に変更する。図４（ａ）の画像を処理対象画像とした活字抽出画像の一例を図４（ｄ）に示す。

ＣＰＵ２６１は、Ｓ３２５において、上記Ｓ３２４で生成した活字抽出画像から活字領域を算出する。活字領域は、処理対象画像中の印刷内容の項目毎の活字を内包する領域であり、例えば、複数の文字からなる文字行である。活字領域は、例えば、処理対象画像上の活字画素位置（座標）と、当該画素位置からの幅や高さから成る情報として表現される。また、活字領域は、項目数に応じて複数得られる場合がある。活字領域の算出方法は、例えば、活字抽出画像に対してＳ３２３と同様の処理を行う方法を取り得る。
図４（ｄ）の活字抽出画像から算出した活字領域の一例を図４（ｅ）に示す。
図４（ｅ）に示す例では、抽出した活字に対して活字領域４５１、４５２、４５３、４５４、４５５、４５６を算出している。

上記Ｓ３２２～Ｓ３２５の処理で、処理対象画像から手書き抽出画像と活字抽出画像を生成した。また、各画像に基づいて、手書き領域と活字領域を算出した。その結果、本来活字である「番号」を、手書き文字として誤抽出してしまっている。このままでは、本来活字である「番号」が活字ＯＣＲに入力されず、手書きＯＣＲに入力されてしまう。
そこで、ＣＰＵ２６１は、Ｓ３２６において、上記Ｓ３２３で算出した手書き領域と、上記Ｓ３２５で算出した活字領域の高さに基づいて、手書き誤抽出補正処理を施す。
手書き誤抽出補正処理（Ｓ３２６）は、上記Ｓ３２３で算出した手書き領域において、本来活字領域として抽出されるべき領域を特定し、特定した手書き領域を活字領域に、当該領域内の手書き画素を活字画素に補正する処理である。ここで、手書き誤抽出補正処理（Ｓ３２６）を、図３（ｃ）を用いて詳細に説明する。

図３（ｃ）は、第１実施形態の手書き誤抽出補正処理の一例を示すフローチャートである。
まずＣＰＵ２６１は、Ｓ３６１において、上記Ｓ３２３で算出した手書き領域の内１つを選択する。
次にＣＰＵ２６１は、Ｓ３６２において、上記Ｓ３２５で取得した活字領域の中から、上記Ｓ３２３で選択した手書き領域と同一行の領域を探索し取得する。具体的には、上記Ｓ３６１で選択した手書き領域の水平方向の開始位置を０、幅を処理対象画像の横幅分とした場合に（すなわち選択した手書き領域を水平方向左右に広げた場合に）、この領域と重なる活字領域を取得する。

次にＣＰＵ２６１は、Ｓ３６３において、上記Ｓ３６２で取得した活字領域の内１つを選択する。
次にＣＰＵ２６１は、Ｓ３６４において、上記Ｓ３６１で選択した手書き領域と、上記Ｓ３６３で選択した活字領域とが、近接している、および／または重なっているか否かを判定する。

まず、近接しているか否かを判定する方法について示す。
近接しているか否かを判定する条件は以下に示す条件とする。
・Ｘｔｓ≦Ｘｈｓ、且つ、Ｘｈｓ－Ｘｔｅ＜Ｈｔ
・Ｘｔｓ＞Ｘｈｓ、且つ、Ｘｔｓ－Ｘｈｅ＜Ｈｔ
以上の条件のいずれかを満たせば近接していると判定する。
ここで、Ｘｈｓは手書き領域の水平方向の始点、Ｘｈｅは手書き領域の水平方向の終点である。また、Ｘｔｓは活字領域の水平方向の始点、Ｘｔｅは活字領域の水平方向の終点である。また、Ｈｔは、活字領域の高さである。なお、活字は正方形に収まるデザインであるため、Ｈｔは活字一文字分の幅を表す。
すなわち、以上の条件による判定は、活字領域と手書き領域の水平方向の間隔が、活字一文字分より小さければ近接していると判定する。

次に、重なっているか否かの判定方法について説明する。
重なっているか否かの判定は、活字領域と手書き領域の領域座標間で論理積を取り、その結果が真であれば重なっていると判定する。

以上の判定の結果、近接している、および／または重なっている場合（Ｓ３６４でＹｅｓの場合）、ＣＰＵ２６１は、Ｓ３６５に処理を遷移させる。一方、そうでない場合（Ｓ３６４でＮｏの場合）、ＣＰＵ２６１は、Ｓ３６７に処理を遷移させる。

図４（ｃ）の手書き領域について、図４（ｅ）の活字領域と近接している、および／または重なっているか否かを判定する処理の概念図を図４（ｆ）に示す。
図４（ｆ）において、Ｓ３６２と合わせて、各手書き領域と活字領域の判定の組み合わせは次になる。
手書き領域４３１は活字領域４５２と近接している。
手書き領域４３２は活字領域４５２と近接している、および／または重なっている。
手書き領域４３３はどの活字領域とも近接していない、および／または重なっていない。
手書き領域４３４は活字領域４５５と近接している。
手書き領域４３５は活字領域４５５、４５６と近接している。
手書き領域４３６は活字領域４５６と近接している。
手書き領域４３７は活字領域４５４と近接している。

ＣＰＵ２６１は、Ｓ３６５において、上記Ｓ３６１で選択した手書き領域と、上記Ｓ３６３で選択した活字領域の高さを比較し、当該手書き領域が活字領域の誤抽出であるか否かを判定する。
活字は基本的に大きさが斉一である（拗音では小さくなる）ため、高さが大きくなることはない。すなわち、活字領域と高さが揃っている手書き領域は、活字領域が誤抽出されていると言える。そのため、当該手書き領域の高さが、上記Ｓ３６３で選択した活字領域の高さ以下である場合（Ｓ３６５でＹｅｓの場合）、ＣＰＵ２６１は、誤抽出であると判定して、Ｓ３６６に処理を遷移させる。一方、そうでない場合（Ｓ３６５でＮｏの場合）、ＣＰＵ２６１は、誤抽出ではないと判定し、Ｓ３６７に処理を遷移させる。

図４（ｆ）に示す処理概念図、および先述した各手書き領域と活字領域の判定の組み合わせにおいて、手書き領域４３７の高さは活字領域４５４の高さ以下であるため、Ｓ３６５でＹｅｓと判断され、誤抽出であると判定される。それ以外の手書き領域は、近接する活字領域より高いため、Ｓ３６５でＮｏと判断され、誤抽出ではないと判定される。

ＣＰＵ２６１は、Ｓ３６６において、手書き抽出画像から上記Ｓ３６１で選択した手書き領域情報、および当該手書き領域内に属する手書き画素を削除する。また、活字抽出画像の当該手書き画素と同位置の画素を復元する。すなわち、手書き領域に属する手書き画像内の手書き画素を、活字領域内の活字画素に置換する補正を行う。
図４（ｇ）は、図４（ｂ）および（ｃ）の手書き抽出画像および手書き領域に対して、Ｓ３６６の処理を施された結果の一例を示すものである。この処理の結果、手書き抽出画像から領域４３７の画素が削除されている。
また、図４（ｈ）は、図４（ｄ）および（ｅ）の活字抽出画像および活字領域に対して、Ｓ３６６の処理を施された結果の一例を示すものである。この処理の結果、活字抽出画像に領域４３７の画素が復元されている。
Ｓ３６６の処理の後、ＣＰＵ２６１は、Ｓ３６７に処理を進める。

ＣＰＵ２６１は、Ｓ３６７において、上記Ｓ３６３～Ｓ３６６の処理を、上記Ｓ３６２で算出した全ての活字領域に対して行ったか否かを判定する。全ての活字領域に対して行った場合（Ｓ３６７でＹｅｓの場合）、ＣＰＵ２６１は、Ｓ３６８に処理を遷移させる。
一方、そうでない場合（Ｓ３６７でＮｏの場合）、ＣＰＵ２６１は、繰り返しＳ３６３～Ｓ３６６までの処理を行うように制御する。

ＣＰＵ２６１は、Ｓ３６８において、上記Ｓ３６１～Ｓ３６７までの処理をＳ３２２で算出した全ての手書き領域に対して行ったか否かを判定する。全ての手書き領域に対して行った場合（Ｓ３６８でＹｅｓの場合）、ＣＰＵ２６１は、Ｓ３６９に処理を遷移させる。
一方、そうでない場合（Ｓ３６８でＮｏの場合）、ＣＰＵ２６１は、繰り返しＳ３６２～Ｓ３６７の処理を行うように制御する。

ＣＰＵ２６１は、Ｓ３６９において、上記Ｓ３６６で誤抽出を補正した活字抽出画像の画素欠け修復を行う。活字抽出画像は、手書き画素が重なった箇所の活字画素が欠けている。そこで、上記Ｓ３６６で誤抽出を補正した活字抽出画像に対して、活字画素欠け修復を行う。活字画素欠け修復は、例えば、上記Ｓ３６４で重なっていると判定された活字領域に対して、文字の線分の方向成分を考慮して同一方向の文字線分を補間する処理を施すことによって修復する方法（特許２７４７４９１号公報が開示する方法）など、公知の技術を適用し実現することができる。

なお、上述の活字画素欠け修復を行わず、上記Ｓ３６４で重なっていると判定された活字領域および当該領域内に属する画素を削除してもよい。これは、元々他の文字が重なっている活字は可読性が極めて低く、そもそもＯＣＲ非対象とすべき文字であるためである。

次にＣＰＵ２６１は、Ｓ３７０において、手書き誤抽出の補正および活字画素の欠けを修復した活字抽出画像から活字領域の再算出を行う。活字領域の再算出方法は、例えば、上記Ｓ３６９で活字画素欠け修復を実施した後の活字抽出画像に対して上記Ｓ３２２と同様の処理を行う方法を取り得る。
Ｓ３７０の処理の後、ＣＰＵ２６１は、本フローチャートの処理を終了する。

以上の処理によって、手書き文字として誤抽出された活字を補正できた。
図４（ｉ）は、手書き誤抽出補正処理によって補正された手書き抽出画像と手書き領域の一例を示す図である。
図４（ｊ）は、手書き誤抽出補正処理によって補正された活字抽出画像と活字領域の一例を示す図である。上述のＳ３７０での活字領域の再算出により、活字「電話」の活字領域４５４と、手書き領域４３７として誤抽出されていた手書き「番号」とが合わさり、活字「電話番号」の活字領域４７１と補正された。
図４（ｉ）及び（ｊ）に示すように、手書き誤抽出補正処理によって、誤抽出していた箇所が補正されている。

以下、図３（ｂ）に示すＯＣＲ処理の説明に戻る。
ＣＰＵ２６１は、上記Ｓ３２６の手書き誤抽出補正処理（図３（ｃ））を終了すると、Ｓ３２７に処理を進める。

ＣＰＵ２６１は、Ｓ３２７において、上記Ｓ３２６の手書き誤抽出補正処理による補正後の手書き抽出画素画像と手書き領域を、それぞれ「手書き画像」と「手書きＯＣＲ対象領域」として取得する。また、ＣＰＵ２６１は、手書き誤抽出補正処理による補正後の活字抽出画像と活字領域を、それぞれ「活字画像」と「活字ＯＣＲ対象領域」として取得する。

ＣＰＵ２６１は、Ｓ３２８において、上記Ｓ３２７で取得した手書きＯＣＲ対象領域と手書き画像とを、外部インタフェース２６８を介して、手書きＯＣＲサーバ１０５に送信し、手書きＯＣＲ（手書き文字の認識処理）を実行させる。手書きＯＣＲには公知の技術を適用し実現することができる。
次にＣＰＵ２６１は、Ｓ３２９において、手書きＯＣＲサーバ１０５から、手書きＯＣＲ結果を受信したか否かを判定する。手書きＯＣＲ結果とは、手書きＯＣＲサーバ１０５が、手書きＯＣＲ対象領域に含まれていた手書き文字を認識して得たテキストデータである。外部インタフェース２６８を介して、手書きＯＣＲサーバ１０５から、手書きＯＣＲ結果を受信していたならば（Ｓ３２９でＹｅｓの場合）、ＣＰＵ２６１は、Ｓ３３０に処理を遷移させる。一方、まだ手書きＯＣＲ結果を受信していなければ（Ｓ３２９でＮｏの場合）、ＣＰＵ２６１は、Ｓ３２９の処理を繰り返すように制御する。

ＣＰＵ２６１は、Ｓ３３０において、上記Ｓ３２７で取得した活字ＯＣＲ対象領域と活字画像とを、外部インタフェース２６８を介して、活字ＯＣＲサーバ１０４に送信し、活字ＯＣＲ（活字の認識処理）を実行させる。活字ＯＣＲには公知の技術を適用し実現することができる。

次にＣＰＵ２６１は、Ｓ３３１において、活字ＯＣＲサーバ１０４から、活字ＯＣＲ結果を受信したか否かを判定する。活字ＯＣＲ結果とは、活字ＯＣＲサーバ１０４が、活字ＯＣＲ対象領域に含まれていた活字を認識して得たテキストデータである。外部インタフェース２６８を介して、活字ＯＣＲサーバ１０４から、活字ＯＣＲ結果を受信していたならば（Ｓ３３１でＹｅｓの場合）、ＣＰＵ２６１は、Ｓ３３２に処理を遷移させる。一方、まだ活字ＯＣＲ結果を受信していなければ（Ｓ３３１でＮｏの場合）、ＣＰＵ２６１は、Ｓ３３１の処理を繰り返すように制御する。

ＣＰＵ２６１は、Ｓ３３２において、上記Ｓ３２９で受信した手書きＯＣＲ結果と、上記Ｓ３３１で受信した活字ＯＣＲ結果を、上記Ｓ３２６で取得した各領域の座標順に並べる。この時、手書きＯＣＲ結果には手書きであることを示す属性を、活字ＯＣＲ結果には活字であることを示す属性を付与する。これにより、手書きＯＣＲ結果と活字ＯＣＲ結果が統合された入力帳票のＯＣＲ結果を取得する。ここで、ＯＣＲ結果は、入力された文字を認識して得たテキストデータと、入力された文字の属性と、入力された文字の領域から構成される。

ＣＰＵ２６１は、Ｓ３３３において、上記Ｓ３３２で取得したＯＣＲ結果を、外部インタフェース２６８を介して、ＤＢサーバ１０６に送信して保存させる。
図４（ｋ）は、図４（ａ）の入力画像のＯＣＲ結果の一例を示す図である。
図４（ｋ）において、テキスト列４０１は、テキストデータを格納する。属性列４０２は、テキストデータが手書きか活字かを示す値を格納する。領域座標列４０３は、テキストデータの領域の開始位置（左上座標）、および開始位置からの幅や高さから成る情報を格納する。

次にＣＰＵ２６１は、Ｓ３３４において、処理を終了するか否かを判定する。ユーザが、画像処理サーバ１０３の電源のＯＦＦなどの所定の操作を行った場合には、ＣＰＵ２６１はＳ３３４でＹｅｓと判定し、本フローチャートの処理を終了する。一方、そうでない場合には、ＣＰＵ２６１はＳ３３４でＮｏと判定し、Ｓ３２１に処理を遷移させるように制御する。

以上、本実施形態に示したとおり、文書画像上の手書き文字を抽出して手書き文字画像と活字画像に分離した後で、各画像に基づいて手書き領域と活字領域を算出し、領域間の高さを比較することで活字の手書き誤抽出を補正する。このような構成により、読取画像（文書画像）中の文字に対して所定の画像処理を施すことが可能な画像処理システムを提供できる。特に、読取画像中の手書き文字を抽出して手書き文字画像と活字画像に分離した上で、手書き抽出画像と活字画像との比較により、活字の手書き誤抽出を補正できる。また、文字の一部が欠けた活字を修復することができる。これらの構成により、読取画像に対する文字認識精度を向上させることができる。

〔第２実施形態〕
第２実施形態では、第１実施形態とは別の手書き誤抽出補正処理について説明する。第２実施形態では、手書き誤抽出の補正を、手書き抽出画像と活字画像との比較ではなく、手書きＯＣＲ結果と活字ＯＣＲ結果との比較により実現する。第２実施形態の画像処理システムの構成は、特徴部分を除いて第１実施形態の構成と同様である。そのため、同様の構成については、同様の符号を付し、その詳細な説明を省略する。

以下、本実施形態における画像処理サーバ１０３によるＯＣＲ処理について説明する。
図５Ａは、第２実施形態におけるＯＣＲ処理のフローチャートである。
図６は、第２実施形態のＯＣＲ処理におけるデータ生成処理の概要を説明するための図である。

本実施形態におけるＯＣＲ処理（図５Ａおよび後述する図５Ｂの処理）は、ＣＰＵ２６１が、ストレージ２６５に記憶されている画像処理サーバプログラムを読み出し、ＲＡＭ２６４に展開して実行することで実現される。図５Ａの処理は、ユーザが、画像処理サーバ１０３の電源をＯＮ（オン）にすると開始される。なお、これらの図中の「Ｓ」はステップを示す。また、図３と同一のステップには同一のステップ番号を付してある。

まずＣＰＵ２６１は、Ｓ３２１～Ｓ３２５の処理を行い、手書き抽出画像と活字抽出画を生成し、手書き領域と活字領域を算出する。Ｓ３２１～Ｓ３２５は、図３（ｂ）のフローチャートにおける同符合の処理と同様の処理である。
次にＣＰＵ２６１は、Ｓ３６９～Ｓ３７０の処理を行い、活字画素の欠け修復、および活字画素欠け修復後の活字抽出画像から活字領域の再算出を行う。Ｓ３６９～Ｓ３７０は、図３（ｃ）のフローチャートにおける同符合の処理と同様の処理である。
次にＣＰＵ２６１は、Ｓ３２７～Ｓ３３２の処理を行い、手書きＯＣＲ結果と活字ＯＣＲ結果の取得、および手書きＯＣＲ結果と活字ＯＣＲ結果が統合された入力帳票のＯＣＲ結果を取得する。Ｓ３２７～Ｓ３３２は、図３（ｂ）のフローチャートにおける同符合の処理と同様の処理である。

図６（ａ）は、図４（ａ）の入力画像に対する上記Ｓ３３２までのＯＣＲ結果の一例を示す図である。
図６（ａ）において、ＯＣＲ結果６０１は、本来活字であるが手書きとして誤抽出され、手書きＯＣＲに入力された「番号」のＯＣＲ結果である。「番号」は、手書きＯＣＲが対象とする文字画像ではないため、テキストが「８５」と誤認識された結果になっている。

そこで、ＣＰＵ２６１は、Ｓ５０１において、Ｓ３３２で取得したＯＣＲ結果に基づいて、手書き誤抽出削除処理を施す。手書き誤抽出削除処理は、Ｓ３３２で取得したＯＣＲ結果において手書き属性が付与されている領域について、本来は活字属性が付与されるべきＯＣＲ結果を特定し、特定したＯＣＲ結果を削除する処理に対応する。以下、図５Ｂを用いて詳細に説明する。

図５Ｂは、本実施形態における手書き誤抽出削除処理の一例を示すフローチャートである。
まずＣＰＵ２６１は、Ｓ５１１において、上記Ｓ３３２で取得したＯＣＲ結果の中から、手書き属性をもつＯＣＲ結果を１つ選択する。

次にＣＰＵ２６１は、Ｓ５１２において、上記Ｓ３３２で取得したＯＣＲ結果の中から、活字属性をもつＯＣＲ結果であって、上記Ｓ５１１で選択したＯＣＲ結果と同一行のＯＣＲ結果を取得する。具体的には、上記Ｓ５１１で選択したＯＣＲ結果の領域の水平方向の開始位置を０、幅を処理対象画像の横幅分とした場合に、当該領域と重なる領域をもち、かつ、活字属性をもつＯＣＲ結果を取得する。

次にＣＰＵ２６１は、Ｓ５１３において、上記Ｓ５１２で取得したＯＣＲ結果の内１つを選択する。
次にＣＰＵ２６１は、Ｓ５１４において、上記Ｓ５１１で選択したＯＣＲ結果と、上記Ｓ５１３で選択したＯＣＲ結果とが、近接している、および／または重なっているか否かを判定する。この処理は、上記Ｓ５１１で選択したＯＣＲ結果の領域を手書き領域、上記Ｓ５１３で選択したＯＣＲ結果の領域を活字領域とし、図３（ｂ）のフローチャートにおけるＳ３６４の処理と同様の処理を行う。以上の判定の結果、近接している、および／または重なっている場合（Ｓ５１４でＹｅｓの場合）、ＣＰＵ２６１は、Ｓ５１５に処理を遷移させる。
一方、そうでない場合（Ｓ５１４でＮｏの場合）、ＣＰＵ２６１は、Ｓ５１７に処理を遷移させる。

ＣＰＵ２６１は、Ｓ５１５において、手書き領域（上記Ｓ５１１で選択したＯＣＲ結果の領域）と活字領域（上記Ｓ５１３で選択したＯＣＲ結果の領域）の高さを比較し、当該手書き領域が活字領域の誤抽出であるか否かを判定する。この処理は、図３（ｂ）のフローチャートにおけるＳ３６５の処理と同様の処理を行う。当該手書き領域の高さが、活字領域の高さ以下である場合（Ｓ５１５でＹｅｓの場合）、ＣＰＵ２６１は、Ｓ５１６に処理を遷移させる。
一方、そうでない場合（Ｓ５１５でＮｏの場合）、ＣＰＵ２６１は、Ｓ５１７に処理を遷移させる。

ＣＰＵ２６１は、Ｓ５１６において、上記Ｓ３３２で取得したＯＣＲ結果の中から、Ｓ５１１で選択したＯＣＲ結果を削除する。ここで削除する理由は、手書きだと誤抽出され、手書きＯＣＲに入力された活字のＯＣＲ結果は、信頼できる結果ではないためである。
Ｓ５１６の処理の後、ＣＰＵ２６１は、Ｓ５１７に処理を遷移させる。

ＣＰＵ２６１は、Ｓ５１７において、上記Ｓ５１３～Ｓ５１６の処理をＳ３６２で算出した全ての活字領域に行ったか否かを判定する。全ての活字領域に行った場合（Ｓ５１７でＹｅｓの場合）、ＣＰＵ２６１は、Ｓ５１８に処理を遷移させる。
一方、そうでない場合（Ｓ５１７でＮｏの場合）、ＣＰＵ２６１は、繰り返しＳ５１３～Ｓ５１６までの処理を行うように制御する。

ＣＰＵ２６１は、Ｓ５１８において、上記Ｓ５１１～Ｓ５１７までの処理を、手書き属性をもつ全てのＯＣＲ結果に行ったか否かを判定する。手書き属性をもつ全てのＯＣＲ結果に行った場合（Ｓ５１８でＹｅｓの場合）、ＣＰＵ２６１は、本手書き誤抽出削除処理を終了する。
一方、そうでない場合（Ｓ５１８でＮｏの場合）、ＣＰＵ２６１は、繰り返しＳ５１２～Ｓ５１７までの処理を行うように制御する。

以上の処理によって、手書き文字として誤抽出された活字のＯＣＲ結果を削除できた。図６（ｂ）は、図６（ａ）のＯＣＲ結果に対して、Ｓ５０１の手書き誤抽出削除処理（図５Ｂ）を施した結果の一例を示す図である。

以下、図５Ａに示すＯＣＲ処理の説明に戻る。
ＣＰＵ２６１は、上記Ｓ５０１の手書き誤抽出削除処理（図５Ｂ）を終了すると、Ｓ３３３～Ｓ３３４の処理を実行する。Ｓ３３３～Ｓ３３４は、図３（ｂ）のフローチャートにおける同符合の処理と同様の処理である。

以上、本実施形態に示したとおり、読取画像中の文字に対して所定の画像処理を施すことが可能な画像処理システムを提供できる。特に、読取画像中の手書き文字と活字それぞれのＯＣＲ結果を取得した上で、手書き領域と活字領域との比較により、活字の手書き誤抽出を補正できる。また、文字の一部が欠けた活字を修復することができる。これらの構成により、読取画像に対する文字認識精度を向上させることができる。

以上、各実施形態によれば、文書画像中から手書き文字と活字を抽出する場合に、活字を手書きと抽出する誤抽出等を抑えることができる。これにより、活字ＯＣＲと手書きＯＣＲに、それぞれのＯＣＲが対象とする文字画像を適切に入力することが可能となり、各ＯＣＲの認識精度を向上することができる。

なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されることは言うまでもない。
以上、一実施形態について示したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
また、上記各実施形態を組み合わせた構成も全て本発明に含まれるものである。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。
本発明は上記実施形態に限定されるものではなく、本発明の趣旨に基づき種々の変形（各実施形態の有機的な組合せを含む）が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述した各実施形態及びその変形例を組み合わせた構成も全て本発明に含まれるものである。

１０１画像処理装置
１０３画像処理サーバ
１０４活字ＯＣＲサーバ
１０５手書きＯＣＲサーバ
１０６ＤＢサーバ

Claims

文書画像上の手書き画素を手書き画像として抽出して手書き領域を取得する第１取得手段と、
前記文書画像上の活字画素を活字画像として抽出して活字領域を取得する第２取得手段と、
前記手書き領域と近接する前記活字領域、および、前記手書き領域と重なる前記活字領域を探索する探索手段と、
前記手書き領域と、前記探索した活字領域のそれぞれの高さに基づいて、前記手書き領域および該領域に属する前記手書き画像内の手書き画素を、前記活字領域および該領域に属する前記活字領域内の活字画素に補正する補正手段と、
を有することを特徴とする情報処理装置。
前記補正手段は、前記手書き領域の高さが前記活字領域の高さ以下の場合に、前記補正を行うことを特徴とする請求項１に記載の情報処理装置。
前記補正後の前記手書き領域に対応する前記手書き画像は、手書き文字の認識処理により文字認識され、前記補正後の前記活字領域に対応する前記活字画像は、活字の認識処理が実行されることを特徴とする請求項１又は２に記載の情報処理装置。
前記補正後に前記活字領域を取得する第３取得手段を有し、
前記補正後の前記手書き領域に対応する前記手書き画像は、手書き文字の認識処理により文字認識され、前記第３取得手段により取得された前記活字領域に対応する前記活字画像は、活字の認識処理が実行されることを特徴とする請求項１又は２に記載の情報処理装置。
前記補正後に前記活字画素の欠けを修復する修復手段を有し、
前記第３取得手段は、前記修復後に前記活字領域を取得することを特徴とする請求項４に記載の情報処理装置。
文書画像上の手書き画素を手書き画像として抽出し、該抽出した手書き画像に基づいて手書き領域を取得する第１取得手段と、
前記文書画像上の活字画素を活字画像として抽出し、該抽出した活字画像に基づいて活字領域を取得する第２取得手段と、
前記手書き領域に対応する前記手書き画像に基づく手書き文字の認識処理の結果と、前記活字領域に対応する前記活字画像に基づく活字の認識処理の結果とを取得する第４取得手段と、
前記手書き領域と近接する前記活字領域、および、前記手書き領域と重なる前記活字領域を探索する探索手段と、
前記手書き領域と、前記探索した活字領域のそれぞれの高さに基づいて、前記手書き領域に対応する手書き文字の認識処理の結果を削除する削除手段と、
を有することを特徴とする情報処理装置。
前記削除手段は、前記手書き領域の高さが前記活字領域の高さ以下の場合に、前記削除を行うことを特徴とする請求項６に記載の情報処理装置。
前記活字画素の欠けを修復し、該修復後に前記活字領域を取得する修復手段を有することを特徴とする請求項６又は７に記載の情報処理装置。
情報処理装置の制御方法であって、
文書画像上の手書き画素を手書き画像として抽出して手書き領域を取得する第１取得工程と、
前記文書画像上の活字画素を活字画像として抽出して活字領域を取得する第２取得工程と、
前記手書き領域と近接する前記活字領域、および、前記手書き領域と重なる前記活字領域を探索する探索工程と、
前記手書き領域と、前記探索した活字領域のそれぞれの高さに基づいて、前記手書き領域および該領域に属する前記手書き画像内の手書き画素を、前記活字領域および該領域に属する前記活字領域内の活字画素に補正する補正工程と、
を有することを特徴とする情報処理装置の制御方法。
情報処理装置の制御方法であって、
文書画像上の手書き画素を手書き画像として抽出して手書き領域を取得する第１取得工程と、
前記文書画像上の活字画素を活字画像として抽出して活字領域を取得する第２取得工程と、
前記手書き領域に対応する前記手書き画像に基づく手書き文字の認識処理の結果と、前記活字領域に対応する前記活字画像に基づく活字の認識処理の結果とを取得する第４取得工程と、
前記手書き領域と近接する前記活字領域、および、前記手書き領域と重なる前記活字領域を探索する探索工程と、
前記手書き領域と、前記探索した活字領域のそれぞれの高さに基づいて、前記手書き領域に対応する手書き文字の認識処理の結果を削除する削除工程と、
を有することを特徴とする情報処理装置の制御方法。
コンピュータに、請求項９又は１０に記載の制御方法を実行させるためのプログラム。