JP7337612B2

JP7337612B2 - 画像処理装置、画像処理システム、画像処理方法、及びプログラム

Info

Publication number: JP7337612B2
Application number: JP2019164605A
Authority: JP
Inventors: 拓洋奥田; 克幸 ▲高▼橋
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2023-09-04
Anticipated expiration: 2039-09-10
Also published as: US20210075919A1; US11418658B2; JP2021043650A

Description

本開示は、原稿をスキャンして得られた画像データから文字情報を抽出する技術に関する。

原稿をスキャンすることによって得られた画像データに対して、ＯＣＲ（Optical Character Recognition）処理を行い、画像データが示す画像に含まれる文字列をデジタルデータとして抽出する技術がある。また印刷された帳票に手書きで記入された原稿をスキャンして得られた画像データに対してＯＣＲ処理することがある。この場合、原稿には印刷文字と手書き文字とが混在することから、印刷文字と手書き文字との両方の文字列を抽出しようとすると文字認識の精度が低下することがある。

特許文献１には、印刷文字と手書き文字との領域を分離し、印刷文字と手書き文字とのそれぞれに適したＯＣＲ処理を施すことにより、文字認識の精度を高める技術が記載されている。

特開２００６－９２３４６号公報

手書きで記入された帳票では、印刷文字と手書き文字との両方を合わせて１つの情報を表す場合がある。例えば、西暦年を記入する欄として、「２０」と「年」が印刷されており、その間に手書きで「０８」等の２桁の年数を記入して「２００８年」を示す場合がある。このような帳票に対して、特許文献１の技術のように印刷文字と手書き文字との領域を分離して別々にＯＣＲ処理を施すと、「２０」「０８」「年」をそれぞれ別の単語と認識され、「２００８年」という文字情報は得られない虞がある。

本開示は、ＯＣＲ処理の結果から適切な文字情報を得ること目的とする。

本開示の画像処理装置は、手書き文字と印刷文字とが含まれる原稿を読み取ることによって得られた画像データに対してＯＣＲ処理をすることによって得られた情報を取得する取得手段と、前記画像データが示す画像における文字情報を含む領域である文字情報領域のうち、前記手書き文字が含まれる文字情報領域を強調して表示する表示制御手段と、前記手書きの文字情報領域のうち、ユーザが指定した手書きの文字情報領域を受け付ける受付手段と、ユーザが指定した前記手書きの文字情報領域と結合する他の文字情報領域を選定する選定手段と、ユーザが指定した前記手書きの文字情報領域における文字情報と、前記選定手段が選定した文字情報領域における文字情報と、を結合する結合手段と、を有することを特徴とする。

本開示の技術によれば、ＯＣＲ処理の結果から適切な文字情報を得ることができる。

画像処理システムの構成例を示す図である。画像形成装置のハードウェア構成例を示す図である。画像形成装置の操作部の構成例を示す図である。画像処理サーバのハードウェア構成例を示す図である。画像形成装置の機能構成例を示す図である。画像処理サーバの機能構成例を示す図である。画像処理システムの全体処理手順を説明するシーケンス図である。画像処理サーバの入力画像および項目リストの一例を示す図である。画像処理サーバの処理手順を説明するフローチャートである。画像処理サーバの画像処理の一例を示す図である。文字情報抽出結果の一例を示す図である。画像形成装置の処理手順を説明するフローチャートである。画像形成装置の操作部に表示する画面の一例を示す図である。抽出された文字情報データの一例を示す図である。画像形成装置の操作部に表示する画面の一例を示す図である。

以下、実施形態について、図面を参照して詳細に説明する。なお、以下の実施形態は本開示を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが必須のものとは限らない。

＜実施形態１＞
［システム構成］
図１は、画像形成システムの構成の一例を表す図である。画像処理システム１００は、画像形成装置１０１、１０２と、ＰＣ１０３、１０４と、画像処理サーバ１０５とを有する。画像形成装置１０１、１０２と、ＰＣ１０３、１０４と、画像処理サーバ１０５とは、相互に通信可能になるようにネットワーク１０６に接続されている。

図１では、画像形成装置１０１、１０２が２つである場合を例に挙げて示すが、画像形成装置の数は１つまたは２以上の任意の数でよい。以下、特に断らない限り画像形成装置１０１、１０２の説明については画像形成装置１０１を代表して説明するが、画像形成装置１０２も画像形成装置１０１と同様の機能を備える。

画像形成装置１０１は、情報処理端末であるＰＣ１０３、１０４から画像データの印刷依頼（印刷データ）を受信して印刷することが可能である。また、画像形成装置１０１は、スキャナ２０３（図２参照）で原稿を画像データとして読み取ることができ、また読み取った画像データを印刷することが可能である。また、画像形成装置１０１は、ＰＣ１０３、１０４から受信した印刷データを保存することが可能であり、スキャナ２０３で読み取った画像データをＰＣ１０３、１０４に送信することも可能である。さらに画像形成装置１０１は、画像処理サーバ１０５に画像データを送信して、ＯＣＲ処理等の画像処理の依頼をすることもできる。画像形成装置１０１は、画像処理装置としても機能し、この他に、ＭＦＰ（ＭｕｌｔｉｆｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）等の公知の画像形成装置が有する機能を実現することが可能である。

画像処理サーバ１０５は、画像形成装置１０１から画像データを取得して、ＯＣＲ処理を行うことが可能な情報処理装置である。図１はサーバが１つである画像処理システム１００の例を示しているが、画像処理システム１００におけるサーバ数は１つまたは２以上の任意の数でよい。画像処理システム１００においてサーバが複数存在する場合、各サーバの用途はそれぞれ異なっていてもよい。なお、画像処理サーバ１０５はクラウド、すなわちＩｎｔｅｒｎｅｔ上に配置されていてもよい。

ネットワーク１０６は、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、Ｉｎｔｅｒｎｅｔ等であり、画像処理システム１００の各装置はネットワークを介して相互に通信することができる。

ここで、本実施形態の説明に先立ち、本実施形態の概要を説明する。画像形成装置１０１は、申込書のような手書き文字と印刷文字とを含む帳票をスキャンして入力画像８０１（図８（a）参照）の画像データを生成し、その画像データを画像処理サーバ１０５に送信する。画像処理サーバ１０５ではその画像データに対して、手書き文字と印刷文字とを分離してそれぞれの文字に対してＯＣＲ処理を行い、その結果認識された文字情報と、文字情報の領域（文字情報領域）とを示す情報等とを画像形成装置１０１に送信する。画像形成装置１０１では、ユーザが指定した手書き文字の文字情報領域と、その文字情報領域と関連する他の文字情報領域（結合候補領域）とをＵＩ画面に表示させ、ユーザに結合候補領域のいずれかを選択させる。そして、画像形成装置１０１は、ユーザが選択した結合候補領域の文字情報と、手書文字の文字情報とを結合する。このため、例えば、西暦年を記入する欄として、「２０」と「年」とが印刷されており、その間に手書きで「０８」の下２桁の年数が手書きで記入された帳票をＯＣＲ処理する場合がある。このような帳票に対してＯＣＲ処理された結果、手書き文字と印刷文字が分離して文字認識されて、「２０」、「０８」、「年」のようにそれぞれ別の文字情報（単語）と認識される。この場合であっても、「２００８年」という文字情報に容易に結合させることができる。

［ハードウェア構成］
図２は、画像形成装置１０１のハードウェア構成の一例を表す図である。画像形成装置１０１は、コントローラ２０１、プリンタ２０２、スキャナ２０３、および操作部２０４を有する。

コントローラ２０１は、ＣＰＵ２１１、ＲＡＭ２１２、ＨＤＤ２１３、ネットワークＩ／Ｆ２１４、プリンタＩ／Ｆ２１５、スキャナＩ／Ｆ２１６、操作部Ｉ／Ｆ２１７、および拡張Ｉ／Ｆ２１８を有する。

ＣＰＵ２１１は、ＲＡＭ２１２、ＨＤＤ２１３、ネットワークＩ／Ｆ２１４、プリンタＩ／Ｆ２１５、スキャナＩ／Ｆ２１６、操作部Ｉ／Ｆ２１７、および拡張Ｉ／Ｆ２１８とデータを授受することが可能である。また、ＣＰＵ２１１は、ＨＤＤ２１３から読み出した命令をＲＡＭ２１２に展開し、ＲＡＭ２１２に展開した命令を実行する。

ＨＤＤ２１３は、ＣＰＵ２１１で実行可能な命令、画像形成装置１０１で使用する設定値、およびユーザから依頼された処理に関するデータ等を記憶する。ＲＡＭ２１２は、ＣＰＵ２１１がＨＤＤ２１３から読み出した命令を一時的に記憶する。またＲＡＭ２１２は、命令の実行に必要な各種のデータを記憶することも可能である。例えば、画像処理するために取得された画像データをＲＡＭ２１２に展開することで、その画像データに対して画像処理を行うことが可能である。

ネットワークＩ／Ｆ２１４は、画像処理システム１００の他の装置とネットワーク通信を行うためのインターフェイスである。ネットワークＩ／Ｆ２１４は、データ受信を行ったことをＣＰＵ２１１に出力することが可能であり、ＲＡＭ２１２上のデータをネットワーク１０６に出力することが可能である。プリンタＩ／Ｆ２１５は、ＣＰＵ２１１から出力された画像データをプリンタ２０２に出力することが可能であり、プリンタ２０２から取得したプリンタの状態をＣＰＵ２１１に出力することが可能である。

スキャナＩ／Ｆ２１６は、ＣＰＵ２１１から出力された画像読み取り指示をスキャナ２０３に出力する。スキャナＩ／Ｆ２１６は、スキャナ２０３から取得した画像データをＣＰＵ２１１に出力し、スキャナ２０３から取得したスキャナの状態をＣＰＵ２１１に出力することが可能である。

操作部Ｉ／Ｆ２１７は、操作部２０４から入力されたユーザの指示をＣＰＵ２１１に出力することが可能である。本実施形態の操作部２０４は表示部としても機能するため、ユーザが操作するための画面情報を操作部２０４に出力することが可能である。拡張Ｉ／Ｆ２１８は、画像形成装置１０１に外部機器を接続することを可能とするインターフェイスである。拡張Ｉ／Ｆ２１８は、例えば、ＵＳＢ（Universal Serial Bus）形式のインターフェイスを具備する。画像形成装置１０１は、ＵＳＢメモリ等の外部記憶装置が拡張Ｉ／Ｆ２１８に接続されることにより、その外部記憶装置に記憶されているデータの読み取りおよびその外部記憶装置に対するデータの書き込みを行うことが可能である。

プリンタ２０２は、プリンタＩ／Ｆ２１５を介して取得した画像データを用紙等の記録媒体に印刷することが可能であり、プリンタ２０２の状態をプリンタＩ／Ｆ２１５に出力することが可能である。

スキャナ２０３は、スキャナＩ／Ｆ２１６を介して取得した画像読み取り指示に従い、スキャナ２０３の載置台に置かれた原稿を読み取り、読み取り結果をデジタル化してスキャナＩ／Ｆ２１６に出力することが可能である。また、スキャナ２０３は、スキャナの状態をスキャナＩ／Ｆ２１６に出力することが可能である。

操作部２０４は、画像形成装置１０１に対して各種の指示をユーザが行うためのインターフェイスである。操作部２０４は表示部も備えており、例えば、タッチパネルを有する液晶画面を具備し、ユーザに操作画面を提供すると共に、ユーザからの操作を受け付けることが可能である。

図３は画像形成装置１０１の操作部２０４の一例を表した図である。操作部２０４はタッチパネル画面３０１、設定キー３０２、キャンセルキー３０４、および開始キー３０３で構成されている。ユーザはタッチパネル画面３０１および設定キー３０２を用いて、各ジョブの設定を行い、開始キー３０３の押下によりジョブを開始する。なお一度開始したジョブについては、ユーザがキャンセルキー３０４を押下することでジョブを中止することが可能である。ここでジョブは、たとえばコピージョブ、およびネットワークＩ／Ｆ２１４を介してスキャンした画像データを画像処理サーバ１０５に送信するジョブなどが挙げられる。

図４は、画像処理サーバ１０５のハードウェア構成図である。画像処理サーバ１０５は、ＣＰＵ４０１、ＲＡＭ４０２、ＨＤＤ４０３、ネットワークＩ／Ｆ４０４を有する。

ＣＰＵ４０１は、画像処理サーバ１０５全体の制御を行い、ＲＡＭ４０２、ＨＤＤ４０３、及びネットワークＩ／Ｆ４０４とのデータの授受を制御可能である。また、ＣＰＵ４０１はＨＤＤ４０３から読み出した制御プログラム（命令）をＲＡＭ４０２に展開し、ＲＡＭ４０２に記憶されている命令を実行する。

画像処理サーバ１０５は、ネットワークＩ／Ｆ４０４を通じて画像形成装置１０１から受信した画像データに対する画像処理を実施することが可能である。画像処理サーバ１０５で実施可能な画像処理には、画像データに対するＯＣＲ（Optical Character Recognition）処理、画像データ内の文字列、背景などの要素ごとの領域ブロックに分割するブロック分割処理が含まれる。

［画像形成装置の機能構成］
図５は画像形成装置１０１の機能構成を説明するための図である。画像形成装置１０１は、画像読取部５０１、画像印刷部５０２、アプリケーション取得部５０３、アプリケーション実行部５０４、抽出情報送信部５０５、および情報抽出アプリケーション５１０を有する。

画像読取部５０１は、スキャナ２０３によって読み取られた原稿の記載内容を画像データに変換して、その画像データをＨＤＤ２１３へ記憶する。また、画像読取部５０１は、原稿の画像データをネットワークＩ／Ｆ２１４を介してネットワーク１０６上の画像処理サーバ１０５等の装置へ送信する。

画像印刷部５０２はＨＤＤ２１３に記憶されている画像データ、またはネットワーク１０６上の他の装置から送信された画像データをＲＡＭ２１２上へ展開し、展開した画像データを、プリンタ２０２を動作させて印刷させる。

アプリケーション取得部５０３は、後述するアプリケーションデータを取得し、ＨＤＤ４０３へ記憶させる。

アプリケーション実行部５０４は、Ｗｅｂアプリケーションを実行するためのＷｅｂブラウザを含み、アプリケーション取得部５０３が取得したアプリケーションデータを実行する。アプリケーション実行部５０４は実行したアプリケーションをタッチパネル画面３０１へ表示し、タッチパネル画面３０１へのタッチ操作および設定キー３０２の押下をアプリケーションに通知する。

抽出情報送信部５０５は、情報抽出アプリケーション５１０が抽出した情報を画像処理システム１００のＰＣ１０３等の他の機器へ送信する。

情報抽出アプリケーション５１０は、画像読取部５０１によって生成された画像データが示す画像に含まれる文字を抽出するアプリケーションである。本実施形態では、情報抽出アプリケーション５１０はＷｅｂアプリケーションの形式であるものとして説明する。Ｗｅｂアプリケーションは、Ｗｅｂページ記述言語により記述されたページ記述データと、スクリプト言語で記述されたスクリプトデータで構成されている。Ｗｅｂページ記述言語は例えば、ＨＴＭＬ（Hyper Text Markup Language）であり、スクリプト言語は例えばＪａｖａＳｃｒｉｐｔ（登録商標）である。

情報抽出アプリケーション５１０のページ記述データには、画像読取部５０１が生成した画像データと、その画像データを画像処理サーバ１０５でＯＣＲ処理した結果とが含まれている。情報抽出アプリケーション５１０のページ記述データとスクリプトデータを含むアプリケーションデータは、後述する画像処理サーバ１０５の情報抽出アプリケーション生成部６２３によって生成される。

情報抽出アプリケーション５１０は、ページ記述データとスクリプトデータとで実装されている、表示制御部、文字情報領域表示選定部５１７、文字情報結合部５１８、および入力受付部５１９を有する。ＵＩ表示部５１１、画像表示部５１２、項目表示部５１３、文字情報領域表示部５１４、部分画像表示部５１５、および文字情報表示部５１６はタッチパネル画面３０１にＵＩ画面を表示させる制御をする表示制御部である。

ＵＩ表示部５１１は、ユーザが操作するボタン等の操作部品、および処理進捗状況等の情報表示を行うＵＩ部品の表示をする。画像表示部５１２は画像データの表示をする。項目表示部５１３は、情報抽出アプリケーション５１０によって抽出する情報の項目を表示する。

文字情報領域表示部５１４は、入力画像に含まれる文字情報領域を強調させて表示する。例えば、文字情報領域表示部５１４は、ユーザが指定することができる文字情報領域を矩形の枠で示して入力画像に重畳してＵＩ画面として表示する。部分画像表示部５１５は、入力画像の文字情報領域内の画像を切り出した部分画像を表示する。文字情報表示部５１６は、文字情報領域から抽出された文字情報を表示し、さらに文字情報を修正するための入力を受け付ける。

文字情報領域表示選定部５１７は、文字情報領域表示部５１４が表示する文字情報領域の何れかを選択する。また、文字情報領域表示選定部５１７は、ユーザが選択した文字情報領域と結合する候補の文字情報領域を１つ又は複数選定する。

文字情報結合部５１８は、複数の文字情報領域から抽出された文字情報を結合して１つの文字情報とする。入力受付部５１９はＵＩ表示部５１１、画像表示部５１２、項目表示部５１３、文字情報領域表示部５１４が表示したＵＩ部品への入力を受け付け、入力に対応した処理を実行する。

画像形成装置１０１の各部の機能は、ＣＰＵ２１１がＨＤＤ２１３に記憶されているプログラムコードをＲＡＭ２１２に展開し実行することにより実現される。または、図５の各部の一部または全部の機能をＡＳＩＣや電子回路等のハードウェアで実現してもよい。

［画像処理サーバの機能構成］
図６は画像処理サーバ１０５の機能構成を説明するための図である。画像処理サーバは、画像データ取得部６２１、文字情報抽出部６２２、情報抽出アプリケーション生成部６２３、アプリケーション送信部６２４、およびフォーマット登録部６２５を有する。

画像データ取得部６２１は、画像処理サーバ１０５に送信された画像データを取得する。

文字情報抽出部６２２は、各部６３１～６３５を機能させて、取得した画像データに基づき、文字情報領域を抽出し、文字情報領域に対して文字認識処理（ＯＣＲ処理）を行うことにより画像に含まれる文字を抽出する。

文字情報領域抽出部６３１は、画像データが示す画像の、文字情報が含まれる文字情報領域を抽出する。文字情報領域分類部６３２は、抽出された文字情報領域を所定のカテゴリーに分類する。情報抽出アプリケーション５１０は帳票に手書きされた手書き文字と印刷文字とが存在する領域を文字情報領域として抽出するため、文字情報領域分類部６３２は、少なくとも手書き文字、印刷文字等のカテゴリーに文字情報領域を分類する。

文字情報認識部６３３は主にＯＣＲ処理を行い、文字情報領域それぞれについて、文字情報領域の分類に応じた適切な方法でＯＣＲ処理を行う。例えば、手書き文字は印刷文字と比べて濃度が低く、書いた人毎の字形の差が大きい。そこで、手書き文字をＯＣＲ処理する場合、文字情報認識部６３３は、二値化処理時にコントラストを上げノイズ除去を強力にして、手書き文字専用のＯＣＲ処理を行う。または、文字情報認識部６３３は、１文字ごとの画像特徴点で判断するのではなく前後の文字を含めてＤｅｅｐＬｅａｒｎｉｎｇ等により学習した認識エンジンを使用して、手書き文字専用のＯＣＲ処理を行う。手書き文字専用のＯＣＲ処理によって、手書き文字、印刷文字の両方の文字の認識精度を高めることができる。

画像差分導出部６３４は、画像データ同士の画素値の差分を導出して差分画像を生成する。抽出結果管理部６３５は抽出された文字情報を保存する。

情報抽出アプリケーション生成部６２３は、画像形成装置１０１が実行する情報抽出アプリケーション５１０のアプリケーションデータを生成する。情報抽出アプリケーション生成部６２３は、情報抽出アプリケーション５１０のページ記述データとスクリプトデータのテンプレートを持っている。このテンプレートには、項目表示部５１３が画像形成装置１０１にＵＩ画面に表示する項目を登録するための領域がある。情報抽出アプリケーション生成部６２３は、その領域に、予め登録されている項目リストを置換する。さらに、情報抽出アプリケーション生成部６２３は、テンプレート中のページ記述データに、文字情報抽出部６２２によるＯＣＲ処理結果を挿入する。

アプリケーション送信部６２４は、情報抽出アプリケーション生成部６２３が生成したアプリケーションデータを画像形成装置１０１へ送信する。フォーマット登録部６２５は、文字情報抽出部６２２および情報抽出アプリケーション生成部６２３が使用するフォーマットデータの登録を行う。

画像処理サーバ１０５の各部の機能は、ＣＰＵ４０１がＨＤＤ４０３に記憶されているプログラムコードをＲＡＭ４０２に展開し実行することにより実現される。または、図６の各部の一部または全部の機能をＡＳＩＣや電子回路等のハードウェアで実現してもよい。

［システム全体の処理フローについて］
図７は、本実施形態の画像処理システム１００全体の処理フローを説明するシーケンス図である。図７を用いて、スキャンした原稿の画像データから文字情報を抽出する一連の処理を説明する。

Ｓ７０１において画像読取部５０１は、ユーザによる開始キー３０３の押下に応じて原稿読取指示を受け付け、スキャナ２０３の載置台に載置された原稿を読み取る。

Ｓ７０２において画像形成装置１０１は、読み取った原稿の画像データを画像処理サーバ１０５へ送信する。載置された原稿が複数枚であれば複数ページ分の画像データが送信される。このときスキャナが読み取った原稿の種別を示す情報についても画像処理サーバ１０５に送信される。原稿の種別の送信は、例えば、フォーマット登録部６２５が登録したフォーマットデータの中からユーザが指定したものが送信される。

Ｓ７１１において画像データ取得部６２１は、画像形成装置１０１から送信された画像データを取得する。Ｓ７１２において文字情報抽出部６２２は、取得された画像データから１ページずつ文字情報抽出処理を行う。文字情報抽出処理の詳細は後述する。

Ｓ７１３において、全ページの文字情報抽出処理が終了したか判定される。未処理のページがあればＳ７１２に戻り、未処理のページについて文字情報抽出処理が行われる。全ページについて文字情報抽出処理が終了していれる場合、Ｓ７１４に進む。

Ｓ７１４において情報抽出アプリケーション生成部６２３は、アプリケーションデータ生成処理を行う。アプリケーションデータ生成処理の詳細については後述する。Ｓ７１５においてアプリケーション送信部６２４は、Ｓ７１４において生成されたアプリケーションデータを画像形成装置１０１へ送信する。

Ｓ７０３においてアプリケーション取得部５０３は、Ｓ７１４で生成されたアプリケーションデータを取得する。Ｓ７０４においてアプリケーション実行部５０４は、取得されたアプリケーションデータを使用して、情報抽出アプリケーション５１０を実行する。

情報抽出アプリケーション５１０を実行することで、画像形成装置１０１において、手書きの文字情報領域と印刷文字の文字情報領域のそれぞれから得られた文字情報を結合することができる。このため、手書き文字と印刷文字の両方が含まれる原稿をＯＣＲ処理した結果からでも、適切な文字情報を得ることができる。この処理については後述する。アプリケーション実行部５０４は、画像データのうち１ページずつ処理を行う。

Ｓ７０５では最終ページのアプリケーション実行処理が終了したかを判断する。最終ページに対する処理が終了していない場合、Ｓ７０４に戻り、未処理のページについてアプリケーション実行処理を行う。最終ページに対する処理が終了している場合、Ｓ７０６へ進む。

Ｓ７０６において抽出情報送信部５０５は、抽出情報をユーザが指定したＰＣ１０３、１０４等の装置に送信する。Ｓ７０６で送信する抽出情報については後述する。

［文字情報抽出処理について］
図８は、Ｓ７１２における文字情報抽出処理の処理対象となる画像等を説明するための図である。図８（ａ）は、画像読取部５０１が原稿を読み取り、画像処理サーバ１０５に送信される画像データを示す入力画像８０１の一例である。入力画像８０１は、項目等が予め印刷されており、その上に手書きで情報が書き込まれた帳票が画像形成装置１０１のスキャナ２０３によって読み取られることによって得られた画像である。

図８（ｂ）は、入力画像８０１のうち、手書き部分が書き込まれていない帳票（未記入画像８０２）の画像データである。つまり未記入画像８０２は、入力画像８０１の手書きで記入されている部分が未記入である画像である。

図８（ｃ）は、項目リスト８０３を示す図である。項目リスト８０３は、入力画像８０１に含まれる情報の項目のリストであり、項目リスト８０３の情報が情報抽出アプリケーション５１０によって抽出される。本実施形態では項目リスト８０３は項目名をカンマで区切ったＣＳＶ形式としているが、他の形式（ＸＭＬやＪＳＯＮ等）で表されてもよい。本実施形態では入力画像８０１に対応する手書きがされていない未記入画像８０２、および項目リスト８０３が予めフォーマット登録部６２５によって画像処理サーバ１０５のＨＤＤ４０３に記憶されている。

図９（ａ）は、画像処理サーバ１０５によって実行される文字情報抽出処理（Ｓ７１２）の詳細を説明するためのフローチャートである。図９（ａ）のフローチャートで示される一連の処理は、画像処理サーバ１０５のＣＰＵがＲＯＭに記憶されているプログラムコードをＲＡＭに展開し実行することにより行われる。また、図９（ａ）におけるステップの一部または全部の機能をＡＳＩＣや電子回路等のハードウェアで実現してもよい。なお、各処理の説明における記号「Ｓ」は、当該フローチャートにおけるステップであることを意味し、以後のフローチャートにおいても同様とする。

Ｓ９０１において画像差分導出部６３４は、入力画像８０１に画像データと、入力画像８０１に対応する未記入画像８０２の画像データとの差分を導出して、差分画像９０１の画像データを生成する。画像処理サーバ１０５は、スキャナが読み取った原稿の種別を示す情報を取得しているため、原稿の種別に応じて、入力画像８０１に対応する未記入画像８０２が、ＨＤＤ４０３から取得される。

図１０（ａ）は、画像差分導出部６３４によって生成された差分画像９０１の一例である。差分画像９０１は、入力画像８０１から手書き部分が抽出された画像となる。

Ｓ９０２において文字情報領域抽出部６３１は、未記入画像８０２の画像データと差分画像９０１の画像データとのそれぞれに対して、文字情報領域を抽出する処理を行う。文字情報領域の抽出の方法は限定されない。例えば、所定の長さより長い画像内の直線を除去し、近接する黒画素を包含する矩形を導出することによって行う。所定の長さとは例えば、予測される文字のサイズである。

図１０（ｂ）は、未記入画像８０２内において抽出された文字情報領域を示す図である。図１０（ｃ）は、差分画像９０１内において抽出された文字情報領域を示す図である。文字情報領域は、画像内において矩形で示した領域として抽出される。例えば、未記入画像では文字情報領域９１１～９１５が、手書画像では文字情報領域９２１～９２４が、抽出される。

Ｓ９０３において文字情報認識部６３３は、差分画像９０１、未記入画像８０２のそれぞれの文字情報領域に対してＯＣＲ処理を行い、文字情報領域の文字情報を認識する。未記入画像８０２は印刷文字のみが表示されており、差分画像９０１には手書文字のみが抽出されている。このため、文字情報領域が印刷文字か手書文字であるかに応じた適切な方法でＯＣＲ処理を行うことができる。このため入力画像８０１に対してＯＣＲ処理する場合に比べて文字認識の精度を上げることができる。

Ｓ９０４において文字情報領域分類部６３２は、文字情報領域を所定のカテゴリーに分類する。文字情報領域分類部６３２は少なくとも未記入画像データから抽出された領域を、手書き画像データから抽出された領域とは別のカテゴリーに分類する。

差分画像９０１における〇のような閉領域の文字情報領域９２３、９２４について、未記入画像８０２と差分画像９０１とを重ねた場合に、その閉領域と重なる未記入画像８０２内に文字情報領域９１４、９１５が存在する場合がある。この場合は、文字情報領域９２３、９２４を「手書きマーク」と分類する。

他にも、未記入画像８０２の画像データから抽出された文字情報領域のうち手書きマーク領域とは重ならない文字情報領域９１１～９１３は「印刷文字」と分類される。差分画像９０１の画像データから抽出された文字情報領域のうち手書きマーク領域ではない文字情報領域９２１、９２２は「手書き文字」と分類される。以下、手書き文字と分類された文字情報領域を「手書文字領域」とよぶことがある。

なお、図１０（ｂ）および図１０（ｃ）で符号を付した文字情報領域９１１～９１５および文字情報領域９２１～９２４は抽出された文字情報領域の一部であり、画像内の矩形で示した他の領域についても文字情報領域として抽出されたことを示している。

Ｓ９０５において抽出結果管理部６３５は、文字情報抽出結果１１０１が文字情報領域から認識した文字情報（ＯＣＲ結果）と、その文字情報領域の位置情報と、文字情報領域の分類と、を関連づけた文字情報抽出結果１１０１をＨＤＤ４０３へ記憶する。

図１１は、抽出結果管理部６３５が文字情報の抽出結果を管理するためのテーブルである文字情報抽出結果１１０１を示す図である。文字情報抽出結果１１０１は、番号１１０２、座標１１０３、サイズ１１０４、分類１１０５、ＯＣＲ結果１１０６の各列のデータがレコード単位（行単位）で関連付けて保持されている。またレコードは、文字情報領域ごとに生成されている。

座標１１０３は、文字情報領域の位置情報を示す座標の値が保持されている。入力画像内の座標は原点が左上で、縦が下方向、横が右方向に延びる座標系を用いており、座標１１０３の左側には横方向の座標が、右側には縦方向の座標が保持されている。

サイズ１１０４には、文字情報領域のサイズを示す値が保持されている、サイズ１１０４の左側には横サイズの値、右側には縦サイズの値がそれぞれ保持されている。

分類１１０５には、文字情報領域の分類が保持されている。ＯＣＲ結果１１０６には、レコードに関連付けられている文字情報領域でＯＣＲ処理された結果認識された文字情報が保持されている。なお、文字情報領域が「手書きマーク」と分類された場合、ＯＣＲ結果には、未記入画像８０２における手書きマークの領域で認識された文字情報が保持される。番号１１０２は識別のための番号が保持されている。

抽出結果管理部６３５は、文字情報抽出結果１１０１をＸＭＬ形式でファイル化して記憶させる。ファイル形式はＸＭＬに限らず、ＪＳＯＮ形式やＣＳＶ形式でもよい。文字情報抽出結果１１０１を保存すると、文字情報抽出処理を終了する。

おな、文字情報抽出結果１１０１における分類１１０５が印刷文字であるデータについては、文字情報抽出処理を行う毎に生成するのではなく、予め、ＨＤＤ４０３に記憶させておいてもよい。例えば、帳票の種別毎に、印刷文字に関する文字情報抽出結果のデータを記憶させておいて、新たに文字情報抽出処理を行う場合、その処理対象となる帳票の印刷文字に関する文字情報抽出結果を取得する。そして、抽出された手書文字および手書マークの文字情報抽出結果と印刷文字に関する文字情報抽出結果１１０１とを結合して、図１１のような文字情報抽出結果１１０１を生成してもよい。

このように、本実施形態の画像処理サーバ１０５は、手書文字と印刷文字が含まれる画像の画像データから、手書文字または印刷文字として分類して文字情報領域とその文字情報を抽出することが可能となる。

［アプリケーションデータ生成処理］
図９（ｂ）は、画像処理サーバ１０５によって実行されるアプリケーションデータ生成処理（Ｓ７１４）の詳細フローを説明する図である。

Ｓ９１１において情報抽出アプリケーション生成部６２３は、ＨＤＤ４０３に予め記憶されているアプリケーションデータのテンプレートを取得する。このテンプレートのページ記述データ部分には、項目リスト８０３を挿入する部分と、文字情報抽出結果１１０１を挿入する部分がある。

Ｓ９１２においてフォーマット登録部６２５は、ＨＤＤ４０３に記憶されている項目リスト８０３を取得する。Ｓ９１３において情報抽出アプリケーション生成部６２３は、アプリケーションデータのテンプレートに項目リスト８０３を挿入し、画像形成装置１０１のアプリケーションによって項目リスト８０３をタッチパネル画面３０１に表示できるようにする。

Ｓ９１４において情報抽出アプリケーション生成部６２３は、抽出結果管理部６３５が記憶した文字情報抽出結果１１０１を取得する。Ｓ９１５において情報抽出アプリケーション生成部６２３は、ＸＭＬ形式の文字情報抽出結果１１０１を解釈する。情報抽出アプリケーション生成部６２３は、アプリケーションデータのテンプレートに文字情報抽出結果１１０１を挿入して、画像形成装置１０１のアプリケーションが文字情報抽出結果１１０１を参照できるようにする。

Ｓ９１６において情報抽出アプリケーション生成部６２３は、生成したアプリケーションデータをＨＤＤ４０３へ記憶させ、アプリケーションデータ生成処理を終了する。

［アプリケーション実行処理］
図１２は、画像形成装置１０１が行うアプリケーション実行処理（Ｓ７０４）の詳細を説明するためのフローチャートである。アプリケーション実行処理では、ＯＣＲ処理された結果得られた文字情報を結合する。そして、結合された文字情報と項目リスト８０３の項目とを関連付けて、ＰＣ１０３、１０４等の画像処理システム１００の他の装置に送信するためのデータが生成される。

図１２のフローチャートで示される一連の処理は、画像形成装置１０１のＣＰＵがＲＯＭに記憶されているプログラムコードをＲＡＭに展開し実行することにより行われる。また、図１２におけるステップの一部または全部の機能をＡＳＩＣや電子回路等のハードウェアで実現してもよい。

アプリケーション実行処理は、画像読取部５０１が読み取った画像データが複数ページ分ある場合は、１ページずつ実行される。本フローチャートは、画像形成装置１０１が１ページ目の画像データについてアプリケーション実行処理を開始することに応じて開始される。

Ｓ１２０１においてＵＩ表示部５１１は、タッチパネル画面３０１にＵＩ画面を表示する。図１３（ａ）は、本ステップによる処理によって表示されるＵＩ画面１３０１を示す図である。ＵＩ画面１３０１の処理ページ番号１３０２は、現在処理している画像データが何ページ目であるかをユーザに通知するための領域であり、画像読取部５０１が読み取った画像のページ番号が表示されている。処理終了ボタン１３０３は、処理中のページの処理の終了をユーザが指示するためのボタンを示す領域である。画像表示領域１３０４は処理中のページの入力画像データの画像を表示するための領域である。

情報表示領域１３０５は、項目表示領域１３０６、部分画像表示領域１３０７、文字情報表示領域１３０８を表示する領域である。それぞれの領域の詳細は、フローチャートのステップの説明と合わせて後述する。

Ｓ１２０２において入力受付部５１９は、項目表示領域１３０６に表示されている項目のいずれかがユーザによって指定されたかを判定する。項目表示領域１３０６には、ページ記述データに挿入された項目リスト８０３の各項目が表示されている。本実施形態ではＵＩ画面１３０１は、タッチパネル画面３０１に表示させるため、ユーザはタッチパネル画面３０１上の何れかの項目を押下することによって項目リスト８０３の項目を指定することができる。

項目が押下されていないと判定された場合（Ｓ１２０２がＮＯ）、Ｓ１２０３へ進む。Ｓ１２０３において入力受付部５１９は、処理終了ボタン１３０３がユーザによって押下されて処理終了が指示されたかを判定する。Ｓ１２０３において処理終了ボタン１３０３が押下されていないと判定された場合、Ｓ１２０２へ戻りユーザ入力を待つ。Ｓ１２０３において処理終了ボタン１３０３が押下されたと判定された場合、現在処理中のページについてのアプリケーション実行処理は終了する。

項目表示領域１３０６に表示された項目のいずれかが押下されたと判定された場合（Ｓ１２０２がＹＥＳ）、Ｓ１２０４においてＵＩ表示部５１１は、ＵＩ画面１３０１の表示を更新する。図１３（ｂ）は、Ｓ１２０４の処理の結果、ＵＩ表示部５１１が表示するＵＩ画面の例である。図１３（ｂ）は、「会員番号」を示す項目１３１１が指定された場合のＵＩ画面の例であり、ＵＩ表示部５１１は、項目１３１１をハイライト表示して指定された「会員番号」の項目名が選択中であることを表示する。

さらに本ステップにおいて文字情報領域表示選定部５１７は文字情報抽出結果１１０１から、分類１１０５が「手書き文字」であるレコードの座標とサイズを取得する。つまり、文字情報領域表示選定部５１７は手書文字領域を示す位置とサイズの情報を取得する。文字情報領域表示部５１４は、文字情報領域表示選定部５１７が取得した位置と情報に基づき、画像表示領域１３０４の上に手書文字領域として矩形の枠を重畳させて表示する。図１３（ｂ）は、手書き文字として分類された文字情報領域である手書文字領域１３１２～１３１９を示す矩形の枠が画像表示領域１３０４に重畳表示されたＵＩ画面１３０１を示している。本実施形態では、文字情報領域を強調するために矩形の枠を重畳させているが、フォントの色を変える等の他の方法によって強調させてもよい。

さらに、ＵＩ表示部５１１は項目１３１１に対応する領域の選択終了を受け付ける選択終了ボタン１３２０を表示する。

なお、Ｓ１２０４の処理として、「手書き文字」以外の文字情報領域をユーザが指定することが可能なように、手書き文字以外の文字情報領域についても矩形の枠を重畳表示させてもよい。

Ｓ１２０５において入力受付部５１９は、Ｓ１２０４で重畳表示した手書文字領域１３１２～１３１９のいずれかがユーザによって指定されたかを判定する。例えば、入力受付部５１９は、タッチパネル上の手書文字領域１３１２～１３１９のいずれかがユーザに押下されて指定されたかを判定する。

何れの手書文字領域も指定されないと判定された場合（Ｓ１２０５がＮＯ）、Ｓ１２０９において入力受付部５１９は、選択終了ボタン１３２０が押下されたかを判定する。Ｓ１２０９において選択終了ボタン１３２０が押下されていないと判定された場合、Ｓ１２０５へ戻りユーザ入力を待つ。Ｓ１２０９において選択終了ボタンが押下されたと判定された場合、手書文字領域１３１２～１３１９が１つも選択されないまま終了することになる。このためＳ１２１０においてＵＩ表示部５１１は、選択中であることを示す項目１３１１のハイライト表示を通常表示に切り替え、画像表示領域１３０４上に表示した手書文字領域を示す矩形の枠を画面上から消去する。Ｓ１２１０における処理の結果、タッチパネル上のＵＩ画面１３０１は図１３（ａ）の画面に戻る。その後の処理は、Ｓ１２０２へ戻りユーザ入力を待つ。

手書文字領域の何れかが指定されたと判定された場合（Ｓ１２０５がＹＥＳ）、Ｓ１２０６において部分画像表示部５１５は、選択中の項目１３１１に対応する部分画像表示領域１３０７に、指定された手書文字領域の部分画像１３２１を表示する。図１３（ｃ）は手書文字領域１３１２がユーザによって押下されて指定された場合のＵＩ画面を示す図である。

Ｓ１２０６の処理を具体的に説明する。図１３（ｂ）の状態で、手書文字領域１３１２がユーザによって押下されて指定されたとする。文字情報抽出結果１１０１における手書文字領域１３１２を示すレコード（行）は番号１１０２が「１０」のレコードであるものとする。この場合、部分画像表示部５１５は、番号が「１０」のレコードにおける座標１１０３およびサイズ１１０４に保持されている値を取得する。部分画像表示部５１５は、取得した座標とサイズに基づき入力画像の画像データから該当する部分を部分画像として切り出し、ユーザによって指定された項目１３１１の部分画像表示領域１３０７に部分画像１３２１を表示する。

Ｓ１２０７においてＵＩ表示部５１１は、ユーザが指定した手書文字領域の文字情報を文字情報表示領域１３０８に表示させる。例えば、ユーザが手書文字領域１３１２を指定した場合、文字情報抽出結果１１０１における手書文字領域１３１２を示すレコード（行）は番号１１０２が「１０」のレコードである。このため、ＵＩ表示部５１１は、そのレコードのＯＣＲ結果１１０６に保持されている「８２５４」を取得して、文字情報表示領域１３２２に「８５２４」を表示させる。

Ｓ１２０８において文字情報領域表示選定部５１７は、文字情報抽出結果１１０１に基づき、ユーザが指定した手書文字領域が示す文字情報と結合する可能性のある文字情報の文字情報領域を選定する。この結合する可能性のある文字情報領域を結合候補領域とよぶ。本実施形態で処理対象とする帳票は横書きであるため、文字情報領域表示選定部５１７は、文字情報領域のうち、ユーザが指定した手書文字領域と縦方向の座標が所定の範囲内にある文字情報領域を選定する。

例えば、ユーザが指定した手書文字領域は、手書文字領域１３１２であるとする。手書文字領域１３１２は、文字情報抽出結果１１０１の番号１１０２が「１０」のレコードに対応し、その位置の縦方向の座標は「４６５」として保持されている。ここで所定の範囲内とは、例えば、１．１倍～０．９倍の値ものも含むものとする。

このため文字情報領域表示選定部５１７は、文字情報抽出結果１１０１の縦方向の座標１１０３が「４６５」の１．１倍～０．９倍の範囲内にある座標を保持するレコードを選定する。つまり、文字情報抽出結果１１０１から、縦方向の座標１１０３が「４９２」、「４２９」、「４３２」を保持するレコードが選定される。これらの座標が有するレコードの番号１１０２はそれぞれ「１」、「２」、「３」である。このため文字情報領域表示選定部５１７は、番号１１０２が「１」、「２」、「３」の各レコードの座標１１０３およびサイズ１１０４を選定する。そして、文字情報領域表示部５１４は、画像表示領域１３０４上に、選定された文字情報領域を結合候補領域１３２３～１３２５として矩形の枠を画像表示領域１３０４に重畳表示し、結合候補領域１３２３～１３２５をユーザが指定可能な状態にする。

さらに、文字情報領域表示部５１４は、ユーザが指定した手書文字領域１３１２以外の手書文字領域１３１３～１３１９の矩形の枠を消去し、ユーザが指定できないようにする。図１３（ｃ）は、結合候補領域１３２３～１３２５が矩形の枠として重畳表示されたＵＩ画面１３０１を示す図である。

Ｓ１２１１において入力受付部５１９は、Ｓ１２０８で選定された結合候補領域１３２３～１３２５の何れかがユーザによって指定されたかを判定する。即ち、タッチパネル画面３０１上に表示された何れかの結合候補領域がユーザの押下により指定されたかが判定される。指定されていればＳ１２１２へ進む。

Ｓ１２１２において文字情報結合部５１８は、ユーザによって指定された結合候補領域のＯＣＲ結果１１０６の文字情報を取得して、ユーザが指定した手書文字領域の文字情報と結合する。

図１３（ｄ）は結合候補領域１３２４がユーザによって指定されたときのＵＩ画面１３０１を示す図である。図１３（ｄ）では、ユーザが指定した手書文字領域１３１２の左にある結合候補領域１３２４が、ユーザによって指定されている。このため、手書文字領域１３１２のＯＣＲ結果１１０６である「８５２４」の左に結合候補領域１３２４のＯＣＲ結果１１０６である「Ａ」が結合されている。文字情報表示部５１６は、文字情報表示領域１３２２に結合結果を表示する。

Ｓ１２１３において部分画像表示部５１５は、結合候補領域１３２４と手書文字領域１３１２とを結合した場合の部分画像１３２１を表示する。Ｓ１２１３の処理が終了すると、Ｓ１２１１に戻って他の結合候補領域がユーザによって指定されるのを待つ。

図１３（ｅ）は、図１３（ｄ）の状態からさらに結合候補領域１３２５がユーザによって指定されたときのＵＩ画面１３０１を示す図である。このとき新たに指定された結合候補領域１３２５については、ユーザによって指定された手書文字領域１３１２の右にある。このため、文字情報結合部５１８は、手書文字領域１３１２のＯＣＲ結果１１０６である「８５２４」の右に結合候補領域１３２５のＯＣＲ結果１１０６である「０」を結合する。文字情報表示部５１６はこの結合した文字情報を文字情報表示領域１３２２へ表示し、部分画像表示部５１５は３つの領域を示す部分画像１３２１を表示する。

Ｓ１２１１において結合候補領域が押下されないと判定された場合、Ｓ１２１４へ進む。Ｓ１２１４において入力受付部５１９は、選択終了ボタン１３２０が押下されたかを判定する。選択終了ボタン１３２０が押下されないと判定された場合、Ｓ１２１１へ戻りユーザの入力を待つ。Ｓ１２１４で選択終了ボタン１３２０が押下されたと判定された場合、Ｓ１２１５へ進む。

Ｓ１２１５においてＵＩ表示部５１１は、画面表示を更新する。図１３（ｆ）はＳ１２１５の処理の結果表示されるＵＩ画面を示す図である。文字情報領域表示部５１４はこれまでのステップにおいてユーザによって指定された文字情報領域（手書文字領域および結合候補領域）を包含する領域１３５１を矩形の枠で表示し、指定されていない領域の枠の表示は消去する。また、項目表示部５１３は選択中であることを示す項目１３１１のハイライト表示を通常表示にする。Ｓ１２１５の画面表示更新が終了するとＳ１２０２へ戻り、項目表示領域１３０６に表示されている項目名がユーザによって押下されるのを待つ。

Ｓ１２０２～Ｓ１２１５の処理を、項目表示領域１３０６に表示した項目についてすべて繰り返す。全ての項目ついて処理されると、図１３（ｇ）に示すように、領域１３５１、領域１３５２、領域１３５３、領域１３５４が矩形の枠で表示され、それぞれの領域の文字情報が文字情報表示領域１３０８に表示された状態となる。このような状態において、Ｓ１２０３で処理終了ボタン１３０３が押下されたことを入力受付部５１９が検知すると、処理対象ページの処理を終了する。

画像読取部５０１が読み取った画像データの全ページについて図１２の処理を終了すると、Ｓ７０６において、結合して抽出された文字情報がデータ化される。このときのデータを図１４に示す。データ形式は、ＣＳＶ形式となっており、カンマでデータが区切られている。行１４０１は項目表示領域１３０６に表示した項目であり、行１４０２は文字情報表示領域１３０８に表示したデータである。図１４のデータを、ネットワーク１０６を介してＰＣ１０３等のユーザが指定した所定の機器に送信することにより、画像データからの文字情報を抽出する処理は完了する。

以上説明したように本実施形態によれば、手書きの文字情報領域と印刷文字の文字情報領域のそれぞれから得られた文字情報を結合することができる。このため、例えば、手書き文字と印刷文字の両方が含まれる原稿をＯＣＲ処理した結果から、項目と対応付けて文字情報を抽出する場合であっても、適切に項目に対応した文字情報を得ることができる。

また、本実施形態では、ユーザが選択した手書の文字情報領域と結合する可能性のある文字情報領域をユーザが指定可能になるようにして表示させることができる。帳票には項目名および説明文等の印刷文字が多いため、ユーザが容易には結合する文字情報領域を指定することができないことがあるが、本実施形態によれば、ユーザが、結合する文字情報領域を指定しやすくなり、操作性を向上させることが可能となる。

［変形例１］
上記の説明では、結合候補領域の選定方法については、ユーザが指定した手書文字領域１３１２と縦方向が近い位置にある他の文字情報領域を選定していた。他にも、文字情報領域表示選定部５１７は、ユーザが指定した手書文字領域１３１２と隣接する文字情報領域のみを結合候補領域として選定してもよい。

図１５（ａ）は、本例における結合候補領域が表示されたＵＩ画面１３０１を示す図である。図１５（ａ）に示すように、Ｓ１２０８において文字情報領域表示選定部５１７は、ユーザが指定した手書文字領域１３１２に隣接する、文字情報領域１３２４および文字情報領域１３２５のみを結合候補領域として選択する。そして、文字情報領域表示部５１４は、結合候補領域として選択された文字情報領域１３２４と文字情報領域１３２５とを示す矩形の枠を画像表示領域１３０４に重畳表示して、ユーザが選択可能な状態にする。

さらに、図１５（ａ）の状態で何れかの結合候補領域がユーザによって指定された場合、文字情報領域表示選定部５１７は、ユーザが指定した結合候補領域に隣接する文字情報領域を新たな結合候補領域としてさらに選定する。そして文字情報領域表示部５１４は、新たに選定された結合候補領域を示す矩形の枠を画像表示領域１３０４に重畳表示してユーザが指定可能な状態にする。

例えば、図１５（ａ）の状態で、結合候補領域１３２４がユーザによって指定されたとする。その場合、図１５（ｂ）に示すように、結合候補領域１３２４に隣接する文字情報領域１３２３が結合候補領域として新たに選定されて矩形の枠で表示される。

このように本例によれば、選定された結合候補領域に隣接する文字情報領域が順次、結合候補領域として選定されるため、複数の領域に分かれた文字情報を結合することができる。また本例によれば、隣接する文字情報領域のみが結合候補領域として表示されるため、ユーザは指定対象となる結合候補領域を認識しやすくなる。よって本例によればユーザの利便性を高めることができる。

［変形例２］
結合候補領域の選定方法については、処理対象の項目およびＯＣＲ結果１１０６に保持されている文字情報に基づき選定されてもよい。

例えば、予め項目リスト８０３の項目に関係する文字列を記憶させておく。そして図１３（ａ）のＵＩ画面１３０１の状態で、ユーザが項目表示領域１３０６の項目のうち「生年月日」を指定したとする。そして、Ｓ１２０８において文字情報領域表示選定部５１７は、項目「生年月日」に関係する文字列をＯＣＲ結果１１０６に保持されている文字情報から検索し、その文字情報が含まれる文字情報領域を結合候補領域として選定してもよい。

項目名に関係する文字列は、例えば、項目名が「生年月日」の場合、日付に関係する文字が含まれる文字情報領域を検索する。ここで、日付に関係する文字は、日本語の場合、数字、「年」「月」「日」のいずれかの漢字、「／」の記号、元号に含まれる漢字等である。他にも、項目名が「住所」の場合、住所に関係する文字、例えば都道府県、市町村区等が含まれる文字情報領域を検索する。

図１５（ｃ）は、処理対象の項目１５０１が「生年月日」であり、手書文字領域１３１４がユーザによって指定された場合において、結合候補領域が重畳表示されたＵＩ画面１３０１を示す図である。図１５（ｃ）に示すように、数字が含まれる文字情報領域１５０３、１５０４と、「年」「月」「日」の文字情報の文字情報領域１５０５、１５０６、１５０７とが結合候補領域として選定されている。そして文字情報領域表示部５１４がこれらの文字情報領域を矩形の枠で画像表示領域１３０４に重畳表示して、ユーザが指定できるようにされている。また、結合候補領域は、ユーザが指定した手書文字領域１３１４と縦方向が近い位置にある他の文字情報領域が選定されてもよい。この場合、例えば、図１５（ｃ）において住所の記載欄にも数字が記載されているが、結合候補領域として選定されないようにすることができる。

なお、項目に関係する文字情報領域を結合候補領域として表示するのではなく、文字情報結合部５１８がユーザ指定した手書文字領域と結合候補領域との文字情報を結合し、「１９８０年４月１０日」という文字情報を生成してもよい。そしてその結果を文字情報表示領域１３０８に表示させてもよい。

以上説明したように本例においても、結合する可能性の高いも文字情報領域を結合候補領域として選定されるため、ユーザは指定対象となる結合候補領域を認識しやすくなる。よって本例によればユーザの利便性を高めることができる。

［変形例３］
結合候補領域の選定方法については、入力画像８０１から認識される表構造に基づき、表構造の同じセル内（矩形枠内）にある文字情報領域を、結合候補領域として選定する方法でもよい。

文字情報領域表示選定部５１７は、入力画像８０１に含まれる直線を検出し、検出した直線の交点からから入力画像８０１に含まれる矩形を検出する。文字情報領域表示選定部５１７は検出した矩形の集合として表構造を認識する。そして、文字情報領域表示選定部５１７は、表構造を構成する矩形枠のうち、ユーザが指定した手書文字領域を含む矩形枠を検出して、その矩形枠に含まれる文字情報領域を結合候補領域として選定する。

図１５（ｄ）は、表構造が認識された後のＵＩ画面１３０１を示す図である。図１５（ｄ）では、「住所」を示す項目１５１１がユーザによって指定されており、手書文字領域１３１９がユーザによって指定されている。この場合、文字情報領域表示選定部５１７は、手書文字領域１３１９を含む矩形枠を検出する。図１５（ｄ）では矩形枠１５１７が手書文字領域１３１９を含む矩形枠として検出されている。このため矩形枠１５１７に含まれる文字情報領域１５１３～１５１６が結合候補領域として選定されている。

このため、文字情報領域表示部５１４は文字情報領域１５１３～１５１６を示す枠を画像表示領域１３０４に重畳表示して、ユーザが指定できるようにしている。

なお、矩形枠１５１７内にある文字情報領域を結合候補領域として表示するのではなく、文字情報結合部５１８がユーザ指定した手書文字領域と結合候補領域との文字情報を結合して、「茨木県水戸市文京４－１４」という文字情報を生成してもよい。そしてその結果を文字情報表示領域１３０８に表示させてもよい。

以上説明したように本例によっても、ユーザは指定する選択対象となる結合候補領域を認識しやすくなる。よって本例によればユーザの利便性を高めることができる。

＜その他の実施形態＞
上述の実施形態では、画像処理サーバ１０５が文字認識処理（ＯＣＲ処理）を行ったが、文字情報抽出部６２２の機能を有している画像形成装置１０１が文字認識処理を行ってもよい。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０１画像形成装置
５０３アプリケーション取得部
５１４文字情報領域表示部
５１９入力受付部
５１７文字情報領域表示選定部
５１８文字情報結合部

Claims

手書き文字と印刷文字とが含まれる原稿を読み取ることによって得られた画像データに対してＯＣＲ処理をすることによって得られた情報を取得する取得手段と、
前記画像データが示す画像における文字情報を含む領域である文字情報領域のうち、前記手書き文字が含まれる文字情報領域を強調して表示させる表示制御手段と、
前記手書きの文字情報領域のうち、ユーザが指定した手書きの文字情報領域を受け付ける受付手段と、
ユーザが指定した前記手書きの文字情報領域と結合する他の文字情報領域である結合候補領域を選定する選定手段と、
ユーザが指定した前記手書きの文字情報領域における文字情報と、前記結合候補領域における文字情報と、を結合する結合手段と、
を有することを特徴とする画像処理装置。
前記結合手段は、
ユーザが指定した前記手書きの文字情報領域における文字情報と、前記結合候補領域のうち、ユーザが指定した前記結合候補領域における文字情報とを結合する
ことを特徴とする請求項１に記載の画像処理装置。
前記選定手段は、
前記結合候補領域として、ユーザが指定した前記手書きの文字情報領域の前記画像データが示す画像における縦方向の位置が所定の範囲内にある前記文字情報領域を選定する
ことを特徴とする請求項１または２に記載の画像処理装置。
前記選定手段は、
前記結合候補領域として、ユーザが指定した前記手書きの文字情報領域の隣にある前記文字情報領域を選定する
ことを特徴とする請求項１または２に記載の画像処理装置。
前記選定手段は、
ユーザが前記結合候補領域の何れかを指定した場合、ユーザが指定した前記結合候補領域の隣にある前記文字情報領域を、さらに前記結合候補領域として選定する
ことを特徴とする請求項４に記載の画像処理装置。
前記選定手段は、
前記画像データが示す画像に含まれる、矩形の集合として表される表構造の検出を行い、
ユーザが指定した前記手書きの文字情報領域が、前記表構造を構成する何れかの矩形枠の中にある場合、前記矩形枠の中にある他の文字情報領域を前記結合候補領域として選定する
ことを特徴とする請求項１または２に記載の画像処理装置。
前記選定手段は、
ユーザが指定した項目における前記結合候補領域の選定をする場合、前記項目に関係する文字情報が含まれる前記文字情報領域を、前記結合候補領域として選定する
ことを特徴とする請求項１から６のいずれか１項に記載の画像処理装置。
前記結合手段は、前記結合をユーザが指定した項目ごとに行い、
前記結合手段が文字情報を前記結合することによって得られた文字情報は、前記項目と関連づけてユーザの指定した装置に送信される
ことを特徴とする請求項１から６のいずれか１項に記載の画像処理装置。
前記表示制御手段は、
表示手段に、ユーザが指定することができる領域が強調されるように前記画像データが示す画像を表示させる
ことを特徴とする請求項１から８のいずれか１項に記載の画像処理装置。
前記表示制御手段は、
表示手段に、前記結合候補領域が強調されるように前記画像データが示す画像を表示させる
ことを特徴とする請求項１から９のいずれか１項に記載の画像処理装置。
前記表示制御手段は、
前記結合手段が文字情報を結合した場合、結合された文字情報を表示させる
ことを特徴とする請求項１から１０のいずれか１項に記載の画像処理装置。
前記取得手段は、
前記文字情報領域の位置情報と、前記文字情報領域に含まれる文字情報と、前記文字情報領域が手書き文字の文字情報領域であるかを示す情報と、を含む情報を取得する
ことを特徴とする請求項１から１１のいずれか１項に記載の画像処理装置。
請求項１から１２のいずれか１項に記載の画像処理装置と画像処理サーバとを有する画像処理システムであって、
前記画像処理サーバは、
手書き文字を含まない第１の原稿の画像データである未記入画像データと、前記第１の原稿に手書きがされている第２の原稿を読み取ることによって得られた記入画像データと、を取得する画像データ取得手段と、
前記未記入画像データと前記記入画像データとの画素値の差分をとって差分画像の画像データを生成する生成手段と、
前記差分画像と、前記未記入画像データが示す画像とのそれぞれにおける文字情報が含まれる領域である文字情報領域を抽出する抽出手段と、
前記差分画像から抽出された文字情報領域については、前記手書き文字を示す分類に分類する分類手段と、
前記文字情報領域に含まれる文字情報を認識する文字認識手段と、
前記文字情報領域の位置情報と、前記文字情報領域から認識された文字情報と、前記文字情報領域が手書き文字の文字情報領域であるかを示す情報とをそれぞれ関連付けて管理する管理手段と、を有する
ことを特徴とする画像処理システム。
前記画像処理サーバは、
前記文字情報領域の位置情報と、前記文字情報領域から認識された文字情報と、前記文字情報領域が手書き文字の文字情報領域であるかを示す情報と、をそれぞれ関連付けて保持しているテーブルによって管理する
ことを特徴とする請求項１３に記載の画像処理システム。
前記画像処理装置の前記取得手段は、
前記画像処理サーバから、前記テーブルを取得する
ことを特徴とする請求項１４に記載の画像処理システム。
手書き文字と印刷文字とが含まれる原稿を読み取ることによって得られた画像データに対してＯＣＲ処理をすることによって得られた情報を取得する取得ステップと、
前記画像データが示す画像における文字情報を含む領域である文字情報領域のうち、前記手書き文字が含まれる文字情報領域を強調して表示する表示制御ステップと、
表示された前記手書きの文字情報領域のうち、ユーザが指定した手書きの文字情報領域を受け付ける受付ステップと、
ユーザが指定した前記手書きの文字情報領域と結合する他の文字情報領域を選定する選定ステップと、
ユーザが指定した前記手書きの文字情報領域における文字情報と、前記選定ステップにおいて選定された文字情報領域における文字情報と、を結合する結合ステップと、
を含むことを特徴とする画像処理方法。
コンピュータを、請求項１から１２のいずれか１項に記載の画像処理装置の各手段として機能させるためのプログラム。