JP2022045011A

JP2022045011A - 画像処理装置、画像処理装置の制御方法およびプログラム

Info

Publication number: JP2022045011A
Application number: JP2020150466A
Authority: JP
Inventors: 克幸 ▲高▼橋; Katsuyuki Takahashi
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2022-03-18

Abstract

【課題】手書き文字と印刷文字とが混在する紙文書のスキャン画像から文字情報を適切に取得する。【解決手段】紙文書のスキャン画像を取得し、スキャン画像を解析して抽出した文字領域に含まれる文字が手書き文字であるか、または印刷文字であるかを判定する。文書における文字の配置を示す配置情報と、当該文書をファイル化する際のプロパティとして使用するための文字の取得領域を示す取得領域情報とを文書フォーマットに紐づけて、文書の種類ごとに管理する。文書の種類ごとに管理されている配置情報を基に、スキャン画像の文書フォーマットと類似する文書フォーマットを特定し、当該特定された文書フォーマットに対応づけられている取得領域情報に基づいて、スキャン画像上の所定の文字領域を、手書き文字と印刷文字とで異なる手法で決定する。所定の文字領域に対し文字認識を行って文字情報を取得する。【選択図】図４

Description

本発明は、紙文書のスキャン画像から文字情報を取得する技術に関する。

紙文書のスキャン画像に対して光学文字認識（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）処理を行い、文字情報を取得する技術がある。このような技術は、例えば、アンケートの集計や、申込書類の項目の転記等、特定のフォーマットに基づいた複数の紙文書のスキャン画像から情報を収集するときに利用される。

ＯＣＲ処理領域の決定方法には、様々な手法があり、ユーザの作業負担を軽減する技術として、特許文献１は、学習データを用いる手法を開示している。学習データを用いる手法では、先ず、文書のスキャン画像について、どの領域に文字が配置されているかを示す配置情報と、どの領域の文字情報を取得するかを示す取得領域情報とを学習データとして蓄積する。そして、新たな文書のスキャン画像を取得し、蓄積された学習データの中から、各文書のスキャン画像に紐づく文字の配置情報を基に、新たな文書のスキャン画像と類似したものを探索する。新たな文書のスキャン画像と類似したものを見つけると、類似の文書のスキャン画像の取得領域情報が示す領域に対応する新たな文書のスキャン画像の所定領域を、ＯＣＲ処理領域として決定している。

特開２０１９－１２８７１５号公報

紙文書には印刷文字だけでなく印刷文字と手書き文字とが混在し、紙文書に記入された手書き文字の文字情報を取得したい場合がある。手書き文字の記入位置は、各記入者で異なり特定領域からずれたり、同じ記入者であっても記入の都度異なり特定領域からずれたりすることがある。特許文献１の手法では、類似の文書のスキャン画像の取得領域情報を基に決定した新たな文書のスキャン画像の所定領域に対してＯＣＲ処理を行うことから、手書き文字の記入位置が取得領域情報で示される領域からずれると、適切な文字認識結果を取得できない。そのため、学習データの中に新たな文書のスキャン画像と類似する文書のスキャン画像があってもユーザが改めて手書き文字領域を指示する必要があった。また、手書き文字の位置ずれを考慮し、手書き文字のＯＣＲ処理領域を手動で広げるなどの入力を行うこととすると、ユーザの作業が煩雑となり、様々なフォーマットの文書のスキャン画像から文字情報を取得する際の作業効率を低下させていた。

本開示は、手書き文字と印刷文字とが混在する紙文書のスキャン画像から文字情報を適切に取得する技術を提供する。

本開示の一態様に係る画像処理装置は、紙文書のスキャン画像を取得する取得手段と、前記スキャン画像を解析して文字が記載される文字領域を抽出する抽出手段と、前記文字領域に含まれる文字が手書き文字であるか、または印刷文字であるかを判定する判定手段と、文書における文字の配置を示す配置情報と、当該文書をファイル化する際のプロパティとして使用するための文字の取得領域を示す取得領域情報とを文書フォーマットに紐づけて、文書の種類ごとに管理する管理手段と、前記管理手段にて文書の種類ごとに管理されている前記配置情報を基に、前記スキャン画像の文書フォーマットと類似する文書フォーマットを特定し、当該特定された文書フォーマットに対応づけられている前記取得領域情報に基づいて、前記スキャン画像上の所定の文字領域を決定する決定手段と、前記所定の文字領域に対し文字認識を行って文字情報を取得する文字認識手段と、を有し、前記決定手段は、前記手書き文字と前記印刷文字とで異なる手法で前記所定の文字領域を決定することを特徴とする。

本開示によれば、手書き文字と印刷文字とが混在する紙文書のスキャン画像から文字情報を適切に取得することができる。

画像処理システムの全体構成を示す図である。ＭＦＰのハードウェア構成例を示す図である。クライアントＰＣ、ＭＦＰ連携サーバ及びストレージサーバのハードウェア構成例を示す図である。画像処理システムのソフトウェア構成例を示すブロック図である。画像処理システム全体の処理の流れを示すシーケンス図である。ＭＦＰが表示する画面例を示す図である。解析結果情報のデータ構造例を示す図である。画像処理部が実行する処理の流れを示すフローチャートである。文字列認識処理の詳細な流れを示すフローチャートである。文字分離例を示す図である。情報取得領域例を示す図である。手書き文字領域決定処理の詳細な流れを示すフローチャートである。画像処理を説明する図である。手書き文字領域決定処理の詳細な流れを示すフローチャートである。画像処理を説明する図である。手書き文字認識処理の詳細な流れを示すフローチャートである。

以下、本開示の技術を実施するための形態について図面を用いて説明する。なお、以下の実施形態は、特許請求の範囲に係る本開示の技術を限定するものでなく、また以下の実施形態で説明されている特徴の組み合わせの全てが本開示の技術の解決手段に必須のものとは限らない。

［第１実施形態］
＜画像処理システムの概要＞
図１は、本実施形態に係る画像処理システムの全体構成を示す図である。画像処理システム１００は、ＭＦＰ（ＭｕｌｔｉｆｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）１１０、クライアントＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）１１１、ＭＦＰ連携サーバ１２０およびストレージサーバ１３０を含む。ＭＦＰ１１０及びクライアントＰＣ１１１は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）経由でインターネット上の各種サービスを提供するサーバに対して通信可能に接続されている。

ＭＦＰ１１０は、スキャン機能を有する画像処理装置の一例である。ＭＦＰ１１０は、スキャン機能に加え印刷機能やＢＯＸ保存機能といった複数の機能を有する複合機である。クライアントＰＣ１１１はＭＦＰ連携サーバ１２０に対して依頼したサービスの提供を受けるアプリケーションがインストールされたコンピュータの一例である。サーバ装置１２０および１３０は、共にクラウドサービスを提供する画像処理装置の一例である。本実施形態のサーバ装置１２０は、ＭＦＰ１１０から受け取ったスキャン画像に対し画像解析を行い自サーバ上に保存したり、別のサービスを提供するサーバ装置１３０に対しＭＦＰ１１０からのリクエストを転送したりするサービスを提供する。以下、サーバ装置１２０が提供するクラウドサービスを「ＭＦＰ連携サービス」と呼ぶこととする。サーバ装置１３０は、インターネットを介して送られてきたファイルを保存したり、モバイル端末（不図示）などのウェブブラウザからの要求に応じて保存ファイルを提供したりするクラウドサービス（以下、「ストレージサービス」と呼ぶ）を提供する。本実施形態では、ＭＦＰ連携サービスを提供するサーバ装置１２０を「ＭＦＰ連携サーバ」と呼び、ストレージサービスを提供するサーバ装置１３０を「ストレージサーバ」と呼ぶこととする。

本実施形態の画像処理システム１００は、ＭＦＰ１１０、クライアントＰＣ１１１、ＭＦＰ連携サーバ１２０およびストレージサーバ１３０からなる構成としているがこれに限定されない。例えば、クライアントＰＣ１１１やＭＦＰ連携サーバ１２０の機能をＭＦＰ１１０が兼ね備えてもよい。また、ＭＦＰ連携サーバ１２０はインターネット上ではなくＬＡＮ経由でＭＦＰ１１０やクライアントＰＣ１１１と接続されていてもよい。また、ストレージサーバ１３０を、メール配信サービスを行うメールサーバに置き換えて、文書のスキャン画像をメールに添付し送信する場面に適用してもよい。

＜ＭＦＰのハードウェア構成＞
図２は、ＭＦＰ１１０のハードウェア構成例を示す図である。ＭＦＰ１１０は、制御部２１０、操作部２２０、プリンタ２２１、スキャナ２２２、モデム２２３を有する。制御部２１０は、以下の各部２１１～２１９を有し、ＭＦＰ１１０全体の動作を制御する。ＣＰＵ２１１は、中央処理装置であり、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２１２に記憶された制御プログラム（後述のソフトウェア構成図で示す各種機能に対応するプログラム）を読み出して実行する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２１３は、ＣＰＵ２１１の主メモリ、ワークエリア等の一時記憶領域として用いられる。なお、本実施形態では１つのＣＰＵ２１１が１つのメモリ（ＲＡＭ２１３またはＨＤＤ２１４）を用いて後述のフローチャートに示す各処理を実行するものとするが、これに限定されない。例えば、複数のＣＰＵや複数のＲＡＭまたはＨＤＤを協働させて各処理を実行してもよい。ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）２１４は、画像データや各種プログラムを記憶する大容量記憶部である。操作部Ｉ／Ｆ２１５は、操作部２２０と制御部２１０とを接続するインタフェースである。操作部２２０には、表示部として機能するタッチパネルやキーボードなどが備えられており、ユーザによる操作／入力／指示を受け付ける。なお、タッチパネルへのタッチ操作には、人の指による操作やタッチペンによる操作が含まれる。プリンタＩ／Ｆ２１６は、プリンタ２２１と制御部２１０とを接続するインタフェースである。印刷用の画像データはプリンタＩ／Ｆ２１６を介して制御部２１０からプリンタ２２１へ転送され、紙等の記録媒体上に印刷される。スキャナＩ／Ｆ２１７は、スキャナ２２２と制御部２１０とを接続するインタフェースである。スキャナ２２２は、不図示の原稿台やＡＤＦ（ＡｕｔｏＤｏｃｕｍｅｎｔＦｅｅｄｅｒ）にセットされた原稿（文書）を光学的に読み取って画像データ（すなわち、スキャン画像データ）を生成し、スキャナＩ／Ｆ２１７を介して制御部２１０に入力する。ＭＦＰ１１０は、スキャナ２２２で生成された画像データをプリンタ２２１から印刷出力（コピー）する他、ファイル送信またはメール送信することができる。モデムＩ／Ｆ２１８は、モデム２２３と制御部２１０とを接続するインタフェースである。モデム２２３は、ＰＳＴＮ（ＰｕｂｌｉｃＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋｓ）上のファクシミリ装置との間で画像データをファクシミリ通信する。ネットワークＩ／Ｆ２１９は、制御部２１０（ＭＦＰ１１０）をＬＡＮに接続するインタフェースである。ＭＦＰ１１０は、ネットワークＩ／Ｆ２１９を用いてインターネット上の各サービスに画像データや情報を送信したり、各種情報を受信したりする。

＜クライアントＰＣ、サーバ装置のハードウェア構成＞
図３は、クライアントＰＣ１１１、ＭＦＰ連携サーバ１２０及びストレージサーバ１３０のハードウェア構成例を示す図である。クライアントＰＣ１１１、ＭＦＰ連携サーバ１２０及びストレージサーバ１３０は共通のハードウェア構成を有し、ＣＰＵ３１１、ＲＯＭ３１２、ＲＡＭ３１３、ＨＤＤ３１４及びネットワークＩ／Ｆ３１５で構成される。ＣＰＵ３１１は、ＲＯＭ３１２に記憶された制御プログラムを読み出して各種処理を実行することで、全体の動作を制御する。ＲＡＭ３１３は、ＣＰＵ３１１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ＨＤＤ３１４は、画像データや各種プログラムを記憶する大容量記憶部である。ネットワークＩ／Ｆ３１５は、制御部３１０をインターネットに接続するインタフェースである。ＭＦＰ連携サーバ１２０及びストレージサーバ１３０は、ネットワークＩ／Ｆ３１５を介して他の装置（ＭＦＰ１１０等）から様々な処理のリスエストを受け、当該リクエストに応じた処理結果を返す。

＜画像処理システムのソフトウェア構成＞
図４は、本実施形態に係る画像処理システム１００のソフトウェア構成例を示すブロック図であり、図４（ａ）に画像処理システム１００の全体を示し、図４（ｂ）にＭＦＰ連携サーバ１２０の画像処理部４３２の詳細を示す。以下、画像処理システム１００を構成するＭＦＰ１１０、ＭＦＰ連携サーバ１２０及びストレージサーバ１３０それぞれの役割に対応したソフトウェア構成を順に説明する。なお、以下では各装置が有する諸機能のうち、文書をスキャンして電子化（ファイル化）し、ストレージサーバ１３０に保存を行うまでの処理に関わる機能に絞って説明を行うものとする。

＜ＭＦＰのソフトウェア構成＞
ＭＦＰ１１０の機能モジュールは、ネイティブ機能モジュール４１０とアディショナル機能モジュール４２０の２つに大別される。ネイティブ機能モジュール４１０はＭＦＰ１１０に標準的に備えられたアプリケーションであるのに対し、アディショナル機能モジュール４２０はＭＦＰ１１０に追加的にインストールされたアプリケーションである。アディショナル機能モジュール４２０は、Ｊａｖａ（登録商標）をベースとしたアプリケーションであり、ＭＦＰ１１０への機能追加を容易に実現できる。なお、ＭＦＰ１１０には図示しない他の追加アプリケーションがインストールされていてもよい。

ネイティブ機能モジュール４１０は、スキャン実行部４１１およびスキャン画像管理部４１２を有する。アディショナル機能モジュール４２０は、表示制御部４２１、スキャン指示部４２２、連携サービスリクエスト部４２３、画像処理部４２４を有する。

表示制御部４２１は、操作部２２０のタッチパネル機能を有する液晶表示部に、各種のユーザ操作を受け付けるユーザインターフェース画面（ＵＩ画面）を表示する。各種のユーザ操作には、例えば、ＭＦＰ連携サーバ１２０へのアクセスに用いられるログイン認証情報の入力、スキャン設定、スキャン開始指示、ファイル名設定、ファイル名の保存指示などがある。

スキャン指示部４２２は、ＵＩ画面でなされたユーザ操作（例えば「スキャン開始」ボタンの押下）に応じて、スキャン設定の情報と共にスキャン実行部４１１に対しスキャン処理の実行を指示する。スキャン実行部４１１は、スキャン指示部４２２からのスキャン処理の実行指示に従い、スキャナＩ／Ｆ２１７を介してスキャナ２２２に文書の読み取り動作を実行させ、原稿台ガラスに置かれた原稿（紙文書）を読み取ることでスキャン画像データを生成する。生成したスキャン画像データは、スキャン画像管理部４１２によってＨＤＤ２１４に保存される。この際、保存されたスキャン画像データを一意に示すスキャン画像識別子の情報が、スキャン指示部４２２へ通知される。スキャン画像識別子は、ＭＦＰ１１０においてスキャンした画像をユニークに識別する番号や記号、アルファベットなどである。スキャン指示部４２２は、例えばファイル化する対象のスキャン画像データを上記のスキャン画像識別子を使ってスキャン画像管理部４１２から取得する。そして、ファイル化のために必要な処理のリクエストをＭＦＰ連携サーバ１２０に対して行うよう、連携サービスリクエスト部４２３に対して指示する。

連携サービスリクエスト部４２３は、ＭＦＰ連携サーバ１２０に対して各種処理のリクエストを行ったり、そのレスポンスを受け取ったりする。各種処理には、例えば、ログイン認証、スキャン画像の解析、スキャン画像データの送信等が含まれる。ＭＦＰ連携サーバ１２０とのやり取りにはＲＥＳＴ（ＲｅｐｒｅｓｅｎｔａｔｉｏｎａｌＳｔａｔｅＴｒａｎｓｆｅｒ）やＳＯＡＰ（ＳｉｍｐｌｅＯｂｊｅｃｔＡｃｃｅｓｓＰｒｏｔｏｃｏｌ）等のプロトコルが使用される。ＭＦＰ連携サーバ１２０とのやり取りはこれに限定されず、その他の通信手段を用いてもよい。画像処理部４２４は、スキャン画像データに対して所定の処理を行って、表示制御部４２１が表示するＵＩ画面で用いられる画像を生成する。

＜サーバ装置のソフトウェア構成＞
まず、ＭＦＰ連携サーバ１２０のソフトウェア構成について説明する。ＭＦＰ連携サーバ１２０は、リクエスト制御部４３１、画像処理部４３２、ストレージサーバアクセス部４３３、データ管理部４３４、表示制御部４３５を有する。リクエスト制御部４３１は、外部装置からのリクエストを受信できる状態で待機しており、受信したリクエスト内容に応じて、画像処理部４３２、ストレージサーバアクセス部４３３、データ管理部４３４に対し所定の処理の実行を指示する。

画像処理部４３２は、ＭＦＰ１１０から送られてくるスキャン画像に対して、文字領域の検出処理、文字認識処理、類似文書の判定処理といった解析処理の他、回転や傾き補正といった画像加工処理を行う。画像処理部４３２は、図４（ｂ）に示すように、画像補正部４５１、抽出部４５２、文字認識部４５３、文字分離部４５４、位置合わせ部４５５、類似判定部４５６、種別判定部４５７、領域決定部４６１、解析結果生成部４７１及び領域管理部４７２を有する。領域決定部４６１は、印刷領域決定部４６２及び手書き領域決定部４６３を有する。画像処理部４３２が有する各機能部の処理の詳細については、全体の処理の説明の中で随時行う。

ストレージサーバアクセス部４３３は、ストレージサーバ１３０に対する処理のリクエストを行う。クラウドサービスでは、ＲＥＳＴやＳＯＡＰ等のプロトコルを用いてストレージサーバにファイルを保存したり、保存したファイルを取得したりする様々なインタフェースを公開している。ストレージサーバアクセス部４３３は、公開されたストレージサーバのインタフェースを使用して、ストレージサーバ１３０に対するリクエストを行う。データ管理部４３４は、ＭＦＰ連携サーバ１２０で管理するユーザ情報、画像解析結果、各種設定データ等を保持・管理する。

表示制御部４３５は、インターネット経由で接続されたＰＣやモバイル端末（いずれも不図示）上で動作しているウェブブラウザからのリクエストを受けて、画面表示に必要な画面情報（ＨＴＭＬ、ＣＳＳ等）を返す。ユーザは、ウェブブラウザで表示される画面経由で、ＭＦＰ連携サーバ１２０に登録されているユーザ情報を確認したり、スキャン設定を変更したりできる。

次に、ストレージサーバ１３０のソフトウェア構成について説明する。ストレージサーバ１３０は、リクエスト制御部４４１、ファイル管理部４４２、表示制御部４４３を有する。リクエスト制御部４４１は、外部装置からのリクエストを受信できる状態で待機しており、本実施形態においてはＭＦＰ連携サーバ１２０からのリクエストに応じて、受信したファイルの保存や保存ファイルの読み出しをファイル管理部４４２に指示する。そして、リクエストに応じたレスポンスをＭＦＰ連携サーバ１２０に返す。表示制御部４４３は、インターネット経由で接続されたＰＣやモバイル端末（不図示）上で動作しているウェブブラウザからのリクエストを受けて、画面表示に必要な画面構成情報（ＨＴＭＬ、ＣＳＳ等）を返す。ユーザは、ウェブブラウザで表示される画面経由で、ストレージサーバ１３０に登録されている保存ファイルを確認したり取得したりできる。

なお、図４（ａ）を用いてＭＦＰ１１０がアディショナル機能モジュール４２０を有する構成例について説明したが、本実施形態はこの構成に限定されない。例えば、クライアントＰＣ１１１がアディショナル機能モジュール４２０の機能を含んでいても構わない。すなわち、ＭＦＰ１１０にて得たスキャン画像の解析リクエストや解析結果に基づくファイル名の設定等を、クライアントＰＣ１１１で行うようなシステム構成でも構わない。

また、クライアントＰＣ１１１においてファイル名の設定等を行う場合、ファイル名等の設定を行うためのプログラム（モジュール）は、クライアントＰＣ１１１に予めインストールしておくように構成してもよいが、これに限るものではない。例えば、クライアントＰＣ１１１が備える汎用のウェブブラウザを利用して、ファイル名等の設定を行うためのウェブアプリケーションをＭＦＰ連携サーバ１２０から取得して実行するように構成してもよい。

＜画像処理システム全体の処理の流れ＞
図５は、ＭＦＰ１１０で帳票などの紙文書をスキャンし、得られたスキャン画像をファイル化してクラウドサーバ１３０に保存する際の、各装置間の処理の流れを示すシーケンス図である。ここでは、各装置間のやり取りを中心に説明する。なお、図５のシーケンス図はＭＦＰ１１０がＭＦＰ連携サーバ１２０とやり取りを行う場合の説明となっているが、後述する解析結果取得、画面の表示、学習の指示等はＭＦＰ１１０でなくクライアントＰＣ１１１が実行する構成でも構わない。

ＭＦＰ１１０は、通常の状態では提供する各機能を実施するためのボタンを並べたメイン画面をタッチパネル上に表示する。

ＭＦＰ１１０にスキャン画像をストレージサーバ１３０に送信するための追加アプリケーション（以降、スキャンアプリと呼ぶ）をインストールすることで、アプリケーションの機能を使用するボタンがＭＦＰ１１０のメイン画面に表示される。メイン画面に表示されたボタンがユーザ操作によって押下されると、スキャン画像をストレージサーバ１３０に送信するための画面が表示され、図５のシーケンス図で示される一連の処理が開始する。以下、図５のシーケンス図に沿って、装置間のやり取りを時系列に説明する。なお、以下の説明において記号「Ｓ」はステップを表す。図５のシーケンス図は、スキャン画像をファイル化する際に付与されるファイル名を設定する場合の説明となっているが、ファイル名の他、フォルダパスやメタデータといったプロパティ全般に適用可能である。

Ｓ５０１では、スキャンアプリが実行されることで、ＭＦＰ１１０は、ＭＦＰ連携サーバ１２０にアクセスするためのログイン認証の情報を入力するＵＩ画面（ログイン画面）を操作部２２０に表示する。

Ｓ５０２では、ユーザが、予め登録されているユーザＩＤとパスワードを、ログイン画面上の入力欄にそれぞれ入力しログインボタンを押下すると、ログイン認証のリクエストがＭＦＰ連携サーバ１２０に送信される。

Ｓ５０３では、ログイン認証のリクエストを受けたＭＦＰ連携サーバ１２０は、当該リクエストに含まれるユーザＩＤとパスワードを用いて認証処理を行う。認証処理の結果、正規のユーザであることが確認されれば、ＭＦＰ連携サーバ１２０は、アクセストークンをＭＦＰ１１０に返す。以降、ＭＦＰ１１０からＭＦＰ連携サーバ１２０に対して行う各種リクエストの際にこのアクセストークンを一緒に送ることで、ログイン中のユーザが特定される。本実施形態では、ＭＦＰ連携サーバ１２０へのログインの完了によって、ストレージサーバ１３０へのログインも同時に完了するものとする。このためにユーザは、インターネット上のＰＣ（不図示）のウェブブラウザ等を介して、ＭＦＰ連携サービスを利用するためのユーザＩＤとストレージサービスを利用するためのユーザＩＤとの紐づけを予め行っておく。これにより、ＭＦＰ連携サーバ１２０へのログイン認証に成功すれば同時にストレージサーバ１３０へのログイン認証も完了し、ストレージサーバ１３０にログインするための操作を省略できる。そして、ＭＦＰ連携サーバ１２０においては、自装置にログインしたユーザからのストレージサービスに関するリクエストにも対応可能となる。なお、ログイン認証の方法は一般的に公知な手法（Ｂａｓｉｃ認証、Ｄｉｇｅｓｔ認証、ＯＡｕｔｈを用いた認可等）を用いて行えばよい。

ログインが完了すると、ＭＦＰ１１０は、スキャン設定用のＵＩ画面（以下、「スキャン設定画面」と表記）を操作部２２０に表示する（Ｓ５０４）。ユーザが、スキャン設定画面を介して、スキャン処理についての詳細な条件設定を行い、原稿台ガラスまたはＡＤＦにスキャン対象の紙文書をセットし、「スキャン開始」ボタンを押下すると、スキャンが実行される（Ｓ５０５）。これにより、紙文書を電子化したスキャン画像データが生成される。スキャンの完了後、ＭＦＰ１１０は、スキャンによって得られた画像データを、その解析リクエストと共にＭＦＰ連携サーバ１２０に送信する（Ｓ５０６）。

スキャン画像の解析リクエストを受けたＭＦＰ連携サーバ１２０では、リクエスト制御部４３１が画像処理部４３２に対し、画像解析処理の実行を指示する（Ｓ５０７）。その際、リクエスト制御部４３１は、受信した解析リクエストを一意に特定可能な識別子であるリクエストＩＤをＭＦＰ１１０に返す。一方、解析処理の実行指示を受けた画像処理部４３２は、スキャン画像に対する解析処理を実行する（Ｓ５０８）。Ｓ５０８の解析処理の詳細については、図８を用いて後述する。

上記画像解析処理が行われている間、ＭＦＰ１１０は、上述のリクエストＩＤを使用して、ＭＦＰ連携サーバ１２０に対して定期的（例えば数百ミリ秒から数ミリ秒程度毎等）に処理状況の問い合わせを行う（Ｓ５０９～５０９’）。この問合わせは、ＭＦＰ連携サーバ１２０からの解析処理の完了レスポンス（Ｓ５１０）が取得できるまで繰り返し実行される。ＭＦＰ連携サーバ１２０は、処理状況の問い合わせを受けると、リクエストＩＤに対応する画像解析処理の進行状況を確認し、完了していない場合は処理中を表すレスポンスを返す。また、完了していた場合は完了を表すレスポンスを返す。このレスポンスの“status”には現在の処理状況を示す文字列、具体的には、ＭＦＰ連携サーバ１２０で処理が行われている最中である場合には“processing”が入り、処理が完了している場合には“completed”が入る。なお、処理が失敗した場合の“failed”など、他のステータスを文字列が入ることもある。また、処理完了時（statusがcompletedの場合）のレスポンスには、ステータス情報に加え、スキャン画像を解析した解析結果情報、スキャン設定情報等が含まれる。

処理完了レスポンスを受信した後、ＭＦＰ１１０は、当該レスポンスに含まれる、画像解析結果の格納先を示すＵＲＬを用いて、画像解析処理の結果を、ＭＦＰ連携サーバ１２０に対してリクエストする（Ｓ５１１）。リクエストを受けたＭＦＰ連携サーバ１２０では、リクエスト制御部４３１が解析処理の結果情報をＭＦＰ１１０に返す。

そして、スキャン設定画面の表示から画像解析結果の取得までの一連の処理（Ｓ５０４～Ｓ５１１）が、ファイル化対象の紙文書の数だけ繰り返されることになる。もしくは、Ｓ５０５にて複数の紙文書をまとめてスキャンし、その解析リクエスト（Ｓ５０６）に基づく解析指示（Ｓ５０７）と解析処理（Ｓ５０８）を文書単位で分割して行うようにしてもよい。

そして、ＭＦＰ１１０は、Ｓ５１１のリクエストで取得した解析処理の結果情報を使用して、ファイル名を設定するためのＵＩ画面（以下、「ファイル名設定画面」と表記）を表示する（Ｓ５１２）。ファイル名設定画面での処理の詳細については、図６を用いて後述する。解析処理の結果情報の詳細については図７を用いて後述する。

ファイル名設定画面６１０（図６（ｂ））にてスキャン画像に対してファイル名が設定され、スキャン済み文書一覧画面６００（図６（ａ））にて対象の文書が選択された状態で「送信」ボタン６０２が押下されると、次の処理が行われる。すなわち、Ｓ５１３でファイル名を設定する際にユーザが行った入力操作に関する情報（設定時入力情報）を含んだ学習リクエストは、ＭＦＰ連携サーバ１２０に送られる。

学習リクエストを受信したＭＦＰ連携サーバ１２０では、リクエスト制御部４３１が、画像処理部４３２に対し文書学習処理の実行を指示する（Ｓ５１４）。この指示を受けて画像処理部４３２は、スキャン画像に存在する各文字領域の配置情報と、Ｓ５１３で受け取った学習リクエストに含まれるファイル名設定時の入力情報（ファイル名の構成情報）を保存する（Ｓ５１５）。

その後、ＭＦＰ１１０は、スキャン画像のデータとそのファイル化の際に設定するファイル名等の情報と共に、当該スキャン画像の保存リクエストをＭＦＰ連携サーバ１２０に送信する（Ｓ５１６）。保存リクエストを受信したＭＦＰ連携サーバ１２０では、リクエスト制御部４３１が、ファイル生成処理を開始すると共に保存リクエストを正常に受けたことを示すレスポンスをＭＦＰ１１０に返す。そのレスポンスを受け取ったＭＦＰ１１０は、処理を終了し、スキャン設定画面の表示状態（Ｓ５０４）に戻る。一方、ＭＦＰ連携サーバ１２０では、事前に登録されたスキャン設定からファイルフォーマットの情報を取得し、当該ファイルフォーマットに従ってスキャン画像をファイル化する（Ｓ５１７）。この際、生成されたファイルには保存リクエストにて指定されたファイル名が付されることになる。こうして生成されたスキャン画像ファイルは、ストレージサーバ１３０に送信され、保存される（Ｓ５１８）。スキャン画像ファイルを受信したストレージサーバ１３０は、ＭＦＰ連携サーバ１２０のリクエスト制御部４３１にスキャン画像ファイルの送信完了のレスポンスを返す。

以上が、画像処理システム全体の処理の流れである。

Ｓ５１１のリクエストで取得した画像解析処理の結果情報について、図７を用いて説明する。図７は、Ｓ５１１のリクエストで取得した画像解析処理の結果情報のデータ構造例を示す図である。図７（ａ）に文字認識結果例を示す。図７（ｂ）にスキャン画像の文書フォーマットと類似する文書フォーマット（類似文書）があるときの判定結果例を示し、図７（ｃ）にスキャン画像の文書フォーマットと類似する文書フォーマット（類似文書）がないときの判定結果例を示す。

Ｓ５１１のリクエストで取得した画像解析結果は、図７（ａ）に示す文字認識結果７０１と、図７（ｂ）、（ｃ）に示す類似文書に関する判定結果（以下、「類似文書判定結果」という）７０２または７０３とを含む。なお、類似文書判定結果７０２は、類似判定部４５６が、領域管理部４７２に登録されている複数の登録文書（画像）の中に、処理対象の文書（画像）の文書フォーマットと類似する文書（画像）の文書フォーマットがあると判定したときに生成される。複数の登録文書は、例えば文書における文字の配置を示す配置情報と、当該文書をファイル化する際のプロパティとして使用するための文字の取得領域を示す取得領域情報とを紐づけた文書フォーマットが文書の種類毎に領域管理部４７２に登録されたものである。類似文書判定結果７０３は、類似判定部４５６が、複数の登録文書（画像）の中に、処理対象の文書（画像）の文書フォーマットと類似する文書（画像）の文書フォーマットがないと判定したときに”matched:false”のみのデータとして生成される。

文字認識結果７０１について、詳細に説明する。”imageWidth”は、解析した画像のＸ方向（横方向）のピクセル数を示している。”imageHeight”は、解析した画像のＹ方向（縦方向）のピクセル数を示している。” regions”には解析した画像から解析された文字領域の座標情報と文字情報の配列とが含まれる。”rect”には抽出した文字領域一つの座標が示される。”x”は領域の左上のＸ座標、”y”は領域の左上のＹ座標、”width”は領域のＸ方向のピクセル数、”height”は領域のＹ方向のピクセル数を示している。”type”は”rect”の文字領域から抽出される画像の種別を示してる。本実施形態では、印刷文字を示す”printed_text”と、手書き文字を示す”handwritten_text”の２種類の値がある。これらは後述する文字分離処理で印刷文字と手書き文字を分離し、分離したそれぞれについて文字領域解析処理を行うことで判別される。”text”は”rect”の文字領域に対して文字認識を行った結果、抽出された文字を示しており、後述する文字認識処理により文字列が認識された領域に対する文字列が順次書き込まれていく。これら”rect”と”type”と”text”の情報は、解析したスキャン画像内の全文字領域分含まれる。ただし、図７（ａ）に示す文字認識結果７０１では、”rect”と”type”と”text”の情報の一部を省略している。

類似文書判定結果７０２について、詳細に説明する。”matched”には、類似判定部４５６による判定結果であり、以前にスキャンで得た複数の紙文書の画像の中に、解析対象の紙文書の画像と類似した文書の画像を見つけたかどうかを示す値が格納される。本実施形態では、類似文書の画像（文書フォーマット）が見つかったことを示す”true”と、類似文書の画像（文書フォーマット）が見つからなかったことを示す”false”の２種類の値がある。”formId”には、類似文書の画像があった場合はその文書の画像を一意に示す値が格納され、類似文書の画像がなかった場合にはＳ５１２でスキャンした文書の画像に対して設定したファイル名を学習させるときに使用する値が格納される。”matchingScore”には、類似文書の画像（文書フォーマット）があった場合にどの程度類似していたかを示す値が格納される。”matchingScore”に格納される値は過去のスキャンで得た文書の画像での文字の配置情報と今回スキャンで得た文書の画像での文字の配置情報の一致度合を０～１までの実数値で表され、この値が大きいほど類似文書の画像であることを示している。”rectInfoArray”には、類似文書の画像に対して以前にユーザがファイル名設定時に使用した文字が記載された領域に対応する、今回の解析対象の文書の画像にてどの領域の文字情報を取得するかを示す取得領域情報が格納される。”key”には、自動入力に使用する文字領域を一意に示す値が格納される。”region”には文字領域の座標情報とその領域を文字認識した結果抽出した文字が格納される。”rect”には抽出した文字領域一つの座標が示される。”x”は領域の左上のＸ座標、”y”は領域の左上のＹ座標、”width”は領域のＸ方向のピクセル数、”height”は領域のＹ方向のピクセル数を示している。”text”は”rect”の文字領域に対して文字認識を行った結果、抽出された文字列を示しており、後述する文字認識処理により認識された今回のスキャン画像に対する各ブロックの文字列が格納される。”metadataArray”にはファイル名を自動入力するためのファイル名に使用する文字領域の順番と区切り文字がどこに入るかを示す情報が格納される。ファイル名以外にもメタデータなどのプロパティ情報が設定されている場合は”rectInfoArray”や”metadataArray”に必要な情報が追加される。”key”には、紙文書のスキャン画像に設定する設定値を一意に示す値が格納される。”keyType”には、”key”の設定値の種別を示す値が格納される。ファイル名に使用する場合は、”key”が”filename”で”keyType”が”filename”となる。”value”には、”key”の値に使用する文字領域と区切り文字の情報が格納される。図７（ｂ）に示す類似文書判定結果７０２では、”rectInfoArray”中の”fileRegion0”の”key”を持つ領域、区切り文字、”fileRegion1”の”key”を持つ領域の順番でファイル名を自動入力することを示している。

文字認識結果７０１と、類似文書判定結果７０２は、上述したＳ５１３からＳ５１５の文書学習処理においても用いられる。ＭＦＰ１１０は、ユーザのファイル名入力に応じて、類似文書判定結果７０２の”rectInfoArray”と”metadataArray”を更新し、更新後の類似文書判定結果をＭＦＰ連携サーバ１２０へ送信する。更新後の類似文書判定結果を受信したＭＦＰ連携サーバ１２０では、画像処理部４３２の領域管理部４７２が、該当画像の文字認識結果７０１と受信した更新後の類似文書判定結果を、情報取得領域データとしてデータ管理部４３４を介して保存する。これにより、画像処理部４３２の類似判定部４５６は、登録された文字認識結果７０１と類似文書判定結果７０２を参照することにより、登録した文書のファイル名付け情報を利用することができる。すなわち、領域管理部４７２にて文書の種類ごとに管理されている前記配置情報を基に、前記スキャン画像の文書フォーマットと類似する文書フォーマットを特定し、当該特定された文書フォーマットに対応づけられている取得領域情報を利用できるともいえる。

ファイル名設定画面での処理の詳細について、図６を用いて説明する。図６は、Ｓ５１２にてＭＦＰ１１０のタッチパネルに表示される画面例であり、図６（ａ）にスキャン済み文書一覧画面６００の一例を示し、図６（ｂ）にファイル名設定画面６１０の一例を示す。

スキャン済み文書一覧画面６００には、スキャン及び画像解析処理が完了し、ストレージサーバ１３０に送信する前のスキャン済み文書の画像の一覧６０１がユーザにとって閲覧可能に表示される。またスキャン済み文書一覧画面６００は、スキャン済み文書一覧６０１に加え、「送信」ボタン６０２、「編集」ボタン６０３、「削除」ボタン６０４が存在する。スキャン済み文書一覧６０１はスキャン及び画像解析（Ｓ５０５～Ｓ５１０）が完了した文書の画像の一覧を表示する画面である。スキャン済み文書一覧６０１には、各ファイルについて、文書名６０５、送信先６０６、ステータス６０７および種類６０８に関する情報がそれぞれ表示される。文書名６０５に対応する欄には、文書の画像の名前を一意に識別する識別子が表示される。送信先６０６に対応する欄には、文書の画像（ファイル）の送信先であるストレージサーバ１３０の名称が表示される。ステータス６０７に対応する欄には、文書の画像に対して類似文書判定を行った際の結果を示しており、「未学習」または「学習済」のいずれかが表示される。「未学習」は類似文書の画像が存在しないと判定された、「学習済」は類似文書の画像が存在したと判定されたことを意味している。種類６０８に対応する欄には、文書の種類が表示される。例えば「申込書」や「入会申込書」が表示される。またステータス６０７が学習済の文書に関しては、「入会申込書ＡＡＡ」や「入会申込書ＢＢＢ」のように、対応する申込書のフォーマットの詳細な種類が表示される。これは類似文書判定処理により決定した最も類似する文書の画像と関連付けられている。「送信」ボタン６０２は、ストレージサーバ１３０に対して文書の画像を送信するためのボタンである。スキャン済み文書一覧６０１から任意の文書の画像を選択した状態にて、送信ボタン６０２を押下することで、選択した文書の画像が、送信先６０６に表示されているストレージサーバ１３０に送信される。なお、選択された文書の画像の送信が正常に完了した場合、その文書の画像は、スキャン済み文書一覧６０１から削除される。「編集」ボタン６０３は、後述するファイル名設定画面６１０を用いた編集モードに移行するためのボタンである。スキャン済み文書一覧６０１から任意の文書の画像を選択した状態にて、編集ボタン６０３を押下することで、選択した文書の画像に対応するファイル名設定画面６１０が表示されて編集モードに移行される。「削除」ボタン６０４は、文書の画像の削除を行うためのボタンである。スキャン済み文書一覧６０１から任意の文書の画像を選択した状態にて、削除ボタン６０４を押下することで、選択した文書の画像はスキャン済み文書一覧６０１から削除される。

図６（ｂ）は、ファイル名設定画面６１０の一例を示す図である。ファイル名設定画面６１０は、「ファイル名領域」６１１、「プレビュー領域」６１２、「削除」ボタン６１３、「＋」（プラス）ボタン６１４、「－」（マイナス）ボタン６１５、「プレビュー初期表示」ボタン６１６を含む。

「ファイル名領域」６１１は、ユーザが設定したファイル名を表示する領域である。また、ユーザがファイル名領域６１１の空白部分をタッチ（タップ）すると、ソフトキーボードが表示され、任意の文字を入力することができる。ファイル名が設定され文字列が表示されていた場合は、その文字列をタッチするとタッチした部分の文字列を修正するためのソフトキーボードが表示され、入力した文字を修正することができる。「プレビュー領域」６１２は、スキャン画像を表示する。さらに画像の文字領域をタッチすると、タッチした位置に対応する文字領域をファイル名に追加することができる。選択した文字列は、選択したことがわかるように選択した文字領域などに線、枠線などの形状や色などを付与して表示してもよい。複数の文字領域を選択した場合、それぞれの文字領域の色を異なる色にしてもよい。また、選択した文字領域が中央になるようにプレビュー表示位置の変更や、拡大率の変更を行ってもよい。また、文字領域が複数存在する場合、予め設定された領域数分の文字領域が表示されるように、プレビュー表示位置を導出してもよい。例えば、ファイル名に使用した領域のうち、一番上部の領域と一番下部の領域の中央部分が、プレビュー領域の縦方向の中央になるように表示位置と拡大率の変更を行い、プレビュー表示を行う。一度選択した文字領域を再度タッチすると、選択が解除されて対応するファイル名の文字列を削除して、文字領域に付与した線や色なども表示しない状態に戻す。このように、文字列が非選択時の場合、文字領域がプレビュー上には表示されないようにしてもよい。あるいは、ユーザにタッチできる領域を示すために色や枠線を用いて選択可能な文字領域をわかりやすく表示してもよい。また、文字領域をわかりやすくする表示は、ボタンなどへのユーザ操作によって表示と非表示とを切り替えられるようにしてもよい。プレビュー領域に対してスワイプ操作を行うと、プレビュー領域に表示されるスキャン画像の位置を移動することができる。

「削除」ボタン６１３は、ファイル名のうち末尾に追加されている文字領域に対応する文字を削除するためのボタンである。「プレビュー拡大」（プラス）ボタン６１４は、プレビュー領域に表示されている画像（スキャン画像）の拡大倍率を大きくする指示を行うためのボタンである。「プレビュー縮小」（マイナス）ボタン６１５は、プレビュー領域に表示されている画像（スキャン画像）の拡大倍率を小さくする指示を行うためのボタンである。プレビュー領域では、スキャン画像の表示位置は、拡大および縮小時のスキャン画像の中央の座標が拡大および縮小前と同一となるように調整される。「プレビュー初期表示」ボタン６１６は、スワイプによるプレビュー画像の表示位置の移動、プレビュー拡大ボタン６１４やプレビュー縮小ボタン６１５を押して表示倍率の変更があった場合に、初期状態の倍率と表示位置に戻すためのボタンである。「ＯＫ」ボタン６１７は、ファイル名設定画面６１０で設定したファイル名と共にスキャン画像をＭＦＰ連携サーバ１２０へ送信し、学習処理（Ｓ５１３～Ｓ５１５）を実行するためのボタンである。送信が完了すると、編集モードが終了し、スキャン済み文書一覧画面６００が表示されて閲覧モードに戻る。

＜画像解析処理のフロー＞
図８は、画像処理部４３２が実行する画像解析処理の流れの詳細を示すフローチャートである。図８に示すフローは、図５に示すＳ５０８の処理に相当する。

Ｓ８０１では、画像補正部４５１は、リクエスト制御部４３１から画像解析を指示された文書のスキャン画像を基に文書のスキャン画像の傾きの角度を検出する。そして、画像補正部４５１は、検出した傾きの角度だけ傾いた方向に対し反対方向となる逆方向にスキャン画像を回転することで、傾きを補正したスキャン画像のデータを取得する。傾き補正の対象となる傾きとは、スキャナ２２２による読み取り時に、原稿フィーダ内のローラの摩耗などが原因でまっすぐに原稿が読み取られなかったり、原稿の印刷時にまっすぐ印字できなかったりするような傾きである。傾き検出では、まず、画像データ内に含まれるオブジェクトを検出し、水平方向あるいは鉛直方向に隣り合うオブジェクト群を連結する。そして、連結されたオブジェクトの中心位置を結んだ角度が、水平方向あるいは鉛直方向からどれだけ傾いているかを取得することで傾きを求める。なお、傾き検出は上記の方法に限定されない。例えば、画像データ内に含まれるオブジェクトの中心座標を取得し、０．１度単位で中心座標群を回転させながら、中心座標群が水平方向あるいは垂直方向に並ぶ割合がもっとも高い角度を傾きとして求めてもよい。この傾き補正によって、画像の傾きを補正することで、後述する回転補正およびブロックセレクション処理、文字認識処理（ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）処理）のそれぞれの処理精度を上げることが可能となる。また、画像補正部４５１は、傾き補正後の画像に対して、原稿内の文字が正立する向きになるように、９０度単位で画像を回転補正した画像を得る。傾き補正後の画像を基準画像として、基準画像と９０回転した画像、１８０度回転した画像、２７０度回転した画像の４枚の画像を用意する。そして、それぞれの画像に対し、高速処理可能な簡易的なＯＣＲ処理を実行して、一定値以上の確信度を持って認識された文字の数が最も多い画像を回転補正後画像である補正済み画像として取得する。なお、回転補正の方法は上記に限定されない。

Ｓ８０２では、抽出部４５２は、Ｓ８０１で取得した補正済み画像（回転補正後画像）を前景領域と背景領域とに分類した上で、前景領域をテキストブロックとそれ以外のブロックとに分割する、ブロックセレクション処理を行う。ここで行うブロックセレクション処理は、Ｓ８０３の類似文書判定処理を行えるようにするための前処理であり、Ｓ８０３では主に印刷文字を含むブロックが用いられる。そのため、Ｓ８０２のブロックセレクション処理では、印刷文字に適した方法が用いられる。

抽出部４５２が実行するブロックセレクション処理においては、まず白黒に二値化されたクエリ画像に対し輪郭線追跡を行って、黒画素輪郭で囲まれる画素の塊を抽出する。そして、面積が所定の面積よりも大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡を行い、白画素の塊を抽出し、さらに一定面積以の白画素の塊の内部から再帰的に黒画素の塊を抽出する。こうして得られた黒画素の塊を前景領域とし、大きさ及び形状で分類し、異なる属性を持つ領域へ分類していく。例えば、縦横比が１に近く、大きさが一定の範囲のものを文字相当の画素塊とし、さらに近接する文字が整列よくグループ化され得る部分を文字領域（ＴＥＸＴ）とする。扁平な画素塊を線領域（ＬＩＮＥ）とする。一定大きさ以上でかつ矩形の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域（ＴＡＢＬＥ）とする。不定形の画素塊が散在している領域を写真領域（ＰＨＯＴＯ）とする。そして、それ以外の任意形状の画素塊を図画領域（ＰＩＣＴＵＲＥ）とする。こうしてオブジェクトの属性毎に領域分割されたものの中から、文字属性を持つと判定されたブロックがテキストブロックとして特定される。

なお、印刷文字と手書き文字では、濃度や黒画素の連続性等の性質が異なる。抽出部４５２は、印刷文字の領域および手書き文字の領域それぞれの抽出精度を高めるため、二値化閾値や連続性判定閾位置等のパラメータを切り替え、印刷文字用のブロックセレクション処理、手書き文字用のブロックセレクション処理を行うことができる。

Ｓ８０３では、類似判定部４５６は、入力された文書のスキャン画像が、領域管理部４７２に登録されている文書（帳票）のスキャン画像と類似しているかどうかを判定する、文書マッチングを行う。文書マッチングとは、入力された文書と同じ種類の文書が、インデックス抽出ルールと共に登録文書が登録された登録文書群にあるかどうかを判別し、同じ種類の文書があるとの判別結果を得た場合にはその種類を特定する処理である。本実施形態では、類似判定部４５６は、まず、入力文書の画像と各登録済み文書の画像間で、１対１で、ＯＣＲ関連処理で得られるテキストブロックの形状や配置がどれだけ類似しているかを表す類似度の導出を行う。類似度の導出では、まず、Ｓ８０２で導出した入力文書のブロックセレクションの結果と、領域管理部４７２に登録されている文書の類似度判定結果７０２とが取得される。そして、入力文書のテキストブロック全体と、登録済み文書のテキストブロック全体とで位置合わせが行われる。次に、位置合わせの結果を基に、類似度の導出が行われる。すなわち、入力文書内の各テキストブロックと、登録済み文書のテキストブロックとが重なる面積の総和の二乗を、入力文書のテキストブロック面積の総和と登録済み文書のテキストブロック面積の総和の積で割った値が類似度として導出される。このような手法による類似度の導出は、入力文書の画像と、領域管理部４７２に含まれるすべての登録済み文書の画像との間で行われる。

そして、類似判定部４５６は、導出した複数の類似度のうち最も高い類似度を特定し、特定した最も高い類似度を基に、入力文書（入力済み文書）のが登録済み文書と同じ種類の文書であるか否かを判定する。すなわち、導出した類似度のうち最も高い類似度が予め設定した一定値以上であれば、類似判定部４５６は、入力文書が最も高い類似度に対応する登録済み文書と同じ種類の文書であると判定する。一方、導出した類似度のうち最も高い類似度が上述の一定値未満であれば、類似判定部４５６は、入力文書が登録済み文書内に無い種類であると判定する。係る処理では、領域管理部４７２にて文書の種類ごとに管理されている配置情報を基に、スキャン画像の文書フォーマットと類似する文書フォーマットを特定しているともいえる。

Ｓ８０４では、類似判定部４５６は、Ｓ８０３の類似文書の判定処理にて類似文書ありとの判定結果を得たかどうかに応じて次に行う処理を決定する。すなわち、Ｓ８０３にて類似文書なしとの判定結果を得た場合（Ｓ８０４のＮＯ）、類似判定部４５６は、新規文書に対応する文字列認識処理が行われるＳ８１１へ処理を移行する。一方、Ｓ８０３にて類似文書ありとの判定結果を得た場合（Ｓ８０４のＹＥＳ）、類似文書に対応する文字列認識処理が行われるＳ８２１へ処理を移行する。新規文書および類似文書に対応する文字列認識処理については後述する。Ｓ８１１またはＳ８２１の処理を実行すると、図８に示す画像解析処理を終了する。

各文書（画像）に対応する文字列認識処理について、図を用いて説明する。図９は、各文書に対応する文字列認識処理の詳細な流れを示すフローチャートであって、図９（ａ）にＳ８１１の新規文書に対応する文字列認識処理の詳細を示し、図９（ｂ）にＳ８２１の類似文書に対応する文字列認識処理の詳細を示す。

先ず、新規文書に対応する文字列認識処理の詳細な流れについて、図９（ａ）を用いて説明する。Ｓ９０１では、文字分離部４５４は、新規文書の入力画像に対して文字分離処理を実行する。文字分離処理が行われると、新規文書の入力画像は、手書き文字部分のみを含む手書き文字画像と、手書き文字部分以外であって、印刷文字とその他のオブジェクトを含む印刷文字画像とに分離されることになる。新規文書の入力画像に対する文字分離処理について図を用いて説明する。図１０は、文字分離処理例を示す図であり、図１０（ａ）に新規文書の入力画像例を示し、図１０（ｂ）に図１０（ａ）の入力画像の手書き文字画像例を示し、図１０（ｃ）に図１０（ａ）の入力画像の印刷文字画像例を示す。入力画像１００１に対する文字分離処理が行われると、入力画像１００１は、手書き文字部分のみを含む手書き文字画像１０２１と、手書き文字部分以外であって、印刷文字とその他のオブジェクトを含む印刷文字画像１０４１とに分離されることになる。本実施形態においては、文字分離部４５４はディープニューラルネットワークによる機械学習で実装されている。本実施形態においては、ニューラルネットワークの構造として様々なものを用いることができるが、例えば、公知技術であるＦＣＮ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ）の形態を取り得る。手書き領域推定のニューラルネットワークについては、他にも、例えば、公知技術であるＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）の形態を取り得る。ニューラルネットワークの学習には、ミニバッチ法を用いるものとする。

文字分離部４５４の機械学習においては、学習データとして図１０に示した分離画像データの逆のデータを用いる。すなわち、印刷文字と手書き文字が混在した入力画像データ１００１に対して、ユーザが手で手書き文字部分をなぞる等をして手書き文字部分の入力を行い、手書き文字画像１０２１を正解データとして生成する。生成した正解データと、正解データに対応する入力画像データとの組を多数作成して、多数作成した入力画像データと正解データとの組を学習データとして用いる。

機械学習の実施においては、先ず、ニューラルネットワークを構築し、これらニューラルネットワークに含まれる各パラメータの値を、ランダムに決定して初期化する。次に、作成した学習データから所定の数（ミニバッチサイズ、例えば１０）の学習データを取得する。これらの学習データについて、ニューラルネットワークの誤差を導出する。すなわち、各学習データに含まれる入力画像をニューラルネットワークに入力して出力を得る。当該出力は、入力画像と同じ画像サイズであり、予測結果として、手書きであると判定された画素は、画素の値が手書きを示す値、手書きではないと判定された画素は、画素の値が手書きではないことを示す値である画像である。そして、当該出力と学習データに含まれる手書き正解データとの差を評価して誤差を求める。当該評価には指標として交差エントロピーを用いることができる。そして、導出した誤差をもとに、バックプロパゲーション法によって手書き抽出のニューラルネットワークのパラメータ値を変更する。これを所定の回数（例えば６０００回）行うことで、ニューラルネットワークの機械学習を完了する。

文字分離処理の実行時には、文字分離部４５４は、このように学習したニューラルネットワークへ入力画像１００１を入力する。入力画像１００１が入力されると、ニューラルネットワークは入力画像１００１に対応する文字画像１０２１を出力する。文字画像１０２１が出力されると、文字分離部４５４は、文字画像１０２１の黒画素部分を入力画像１００１で白画素に置換することにより、印刷文字画像１０４１を生成する。

Ｓ９０２では、抽出部４５２は、文字分離部４５４が生成した印刷文字画像１０４１に対して前述したブロックセレクション処理を印刷文字に適した方法で行う。そして、「ＴＥＸＴ」と判定されたすべてのブロックについて、文字認識部４５３が文字認識処理を行い、各ブロックに対応した文字認識結果を得る。

Ｓ９０３では、抽出部４５２は、文字分離部４５４が生成した手書き文字画像１０２１に対して前述したブロックセレクション処理を手書き文字に適した方法で行う。そして、「ＴＥＸＴ」と判定されたすべてのブロックについて、文字認識部４５３が文字認識処理を行い、各ブロックに対応した文字列を得る。

Ｓ９０４では、種別判定部４５７が、Ｓ９０２およびＳ９０３で「ＴＥＸＴ」と判定したすべてのブロックに対して文字領域種別を判定し、判定結果である文字領域種別を示す属性を付加する。具体的には、Ｓ９０２で印刷文字画像を解析して得た文字領域に対して、文字種として「印刷文字（printed_text）」という属性を付加する。Ｓ９０３で手書き文字画像を解析して得た文字領域に対して、文字種として「手書き文字（handwritten_text）」という属性を付加する。

Ｓ９０５では、解析結果生成部４７１が画像解析結果を生成する。ここでは、画像解析結果として、文字認識結果７０１のみが生成される。解析結果生成部４７１は、Ｓ９０２とＳ９０３で得られた文字領域それぞれについて、領域矩形座標情報を”rect”フィールドに、文字認識結果を”text”フィールドに、文字領域種別を”type”フィールドに入れたデータを生成する。そして、すべての文字領域情報を”regions”フィールドとして結合することにより、文字認識結果７０１を生成する。このような文字認識結果を生成することにより、図９（ａ）に示す、新規文書の入力画像に対する文字列認識処理を終了する。

続いて、図９（ｂ）を用いて、Ｓ８２１の類似文書に対応する文字列認識処理の詳細な流れについて説明する。

Ｓ９２１では、領域管理部４７２は、Ｓ８０３の類似度判定処理で特定した類似度の最も高い文書の登録データを取得する。ここで、登録データは文書認識結果である類似文書判定結果７０２と、登録文書の文字認識結果７０１の形式をしている。

Ｓ９２２では、位置合わせ部４５５は、入力画像と、Ｓ９２１にて領域管理部４７２が取得した登録文書（画像）とで全体の位置合わせを行う。この位置合わせでは、Ｓ８０２の文字領域解析で得た入力画像の文字領域解析結果によるテキストブロックと、登録文書の文字認識結果７０１から得られるテキストブロックとを対応させる処理が行われる。全体の位置合わせを行う理由について説明する。入力画像と登録文書の画像とでは、同じフォーマットで本来同じ座標として印刷される項目であっても、印刷およびスキャンのタイミングや機器による違いで、画像データ上の座標にズレが生じる場合がある。そこで、全体の位置合わせを行いそのズレを補正することで、入力画像と登録文書の画像上の座標を同一に取り扱うことが可能となる。なお、本実施形態では、図８のＳ８０１の画像補正処理にて、入力画像の傾きの補正が行われているため、全体の位置合わせでは、画像全体のシフト（平行移動）に関する補正のみを行う例について説明する。

全体の位置合わせでは、登録文書の画像に対してどれだけ入力画像がシフトしているかを示すシフト量を導出し、導出したシフト量だけ入力画像の各テキストブロックの座標をシフトすることで位置合わせを行う。シフト量の導出の具体的な手順について説明する。まず、入力画像の各テキストブロックと対応関係の候補となる登録文書（画像）のペアブロック候補群を決定する。

ペアブロック候補群の決定においては、登録文書（画像）のテキストブロックのうち、印刷文字（printed_text）であるテキストブロックを１つ選択し、入力画像のそれぞれのテキストブロックとの共通部分の面積を導出する。そして共通部分の面積／（両テキストブロックのうち大きい方の面積）によって得られる値（以降、オーバーラップ率という）が一定条件以上の入力画像のテキストブロックとの組合せをペアブロック候補群に加える。この際の一定条件は、例えば、最大オーバーラップ率に係数αを乗算した値以上、かつ、所定の閾値以上のオーバーラップ率を持つものとすればよい。この場合において、係数αは最大オーバーラップ率と近いオーバーラップ率を持つ組合せを対象に加えるためのもので、例えば０．５～０．８といった１．０未満の値とする。また、所定の閾値は最低ラインを規定するもので、例えば０．３～０．７といった１．０未満の値とする。こうして得られたペアブロック候補群について、ペアとなった入力文書のテキストブロックと登録文書のテキストブロックの左上頂点のＸ方向およびＹ方向の差分量（シフト量）を導出する。そして、シフト量ヒストグラムに投票する。このときのヒストグラムのビンの範囲は任意である。このように、ペアブロック候補群を決定し、シフト量ヒストグラムに投票するまでの処理を、入力文書の各テキストブロックに対して行い、最終的に得られたシフト量ヒストグラムから最大のピーク点となる位置を導出し、画像全体のシフト量とする。なお、ノイズの影響が懸念される場合は、生成したシフト量ヒストグラムに対してスムージングを掛けてもよい。また、最大となるピーク点以外の局所的なピーク点についても、シフト量の候補として導出し、その中からシフト量を選んでもよい。

上記の手順で導出したシフト量だけ、入力文書の各テキストブロックの座標をシフトすることで、位置合わせされた入力文書のテキストブロック群を得ることができる。なお、テキストブロックの位置合わせの方法は上記に限定されない。画像全体のシフト（平行移動）に関する補正のみを行う例について説明したが、印刷およびスキャンのズレとして、倍率に関するズレが想定される場合には、シフト量だけでなく、倍率のズレも考慮した位置合わせを行ってもよい。

Ｓ９２３では、領域管理部４７２は、登録されていた文書認識結果である類似文書認識結果７０２から文字列領域情報、すなわち”rectInfoArray”の要素をすべて取得する。Ｓ９２４からＳ９２５の文字列領域ループでは、”rectInfoArray”の要素１つずつについてループ処理を行う。

文字列領域ループＳ９２４においては、Ｓ９３１にて、処理中の文字列領域が、印刷文字領域であるか、または手書き領域であるかが判断される。すなわち、”rectInfoArray”の”type”フィールドが”printed_text”であるか、または”handwritten_text”であるかが判断される。Ｓ９３１にて、処理中の文字列領域が印刷文字領域であるとの判定結果が得られると、処理がＳ９３２へ移行される。Ｓ９３２では、印刷領域決定部４６２が、文字列領域の”rect”フィールドが対応する入力画像上の領域を、Ｓ９２２の位置合わせ処理で導出したシフト量を用いて決定する。そして、Ｓ９３３では、文字認識部４５３が、Ｓ９３２で決定した文字領域である矩形領域内に対してＯＣＲ（文字認識処理）を実行する。このＯＣＲは、印刷文字に適した方法（二値化閾値や字形辞書を最適化）を用いて行われる。

他方、Ｓ９３１にて、処理中の文字列領域が手書き文字領域であるとの判定結果が得られると、処理がＳ９３４へ移行される。Ｓ９３４では、手書き領域決定部４６３が、文字列領域の”rect”フィールドが対応する入力画像上の領域であって、手書き文字認識処理を行う領域を決定する。この手書き文字領域の決定処理の詳細については、図を用いて後述する。そして、Ｓ９３５では、文字認識部４５３が、Ｓ９３４で決定した文字領域である矩形領域内に対してＯＣＲ処理（文字認識処理）を実行する。このＯＣＲ処理は、手書き文字に適した方法（二値化閾値や字形辞書を最適化）を用いて行われる。

Ｓ９２４からＳ９２５の文字列領域ループを登録文書の類似文書判定結果７０２に存在する”rectInfoArray”要素分繰り返し実行し、”rectInfoArray”要素分の繰り返し実行される処理が終わると、処理がＳ９２６へ移行される。Ｓ９２６では、解析結果生成部４７１が画像解析結果を生成する。ここでは、画像解析結果として、文字認識結果７０１と類似文書判定結果７０２とが生成される。文字認識結果７０１は、Ｓ８０２で入力画像１００１を抽出部４５２が処理して得られた結果を文字認識結果７０１の形式に変換されたものである。また、類似文書判定結果７０２は、登録文書から得られた類似文書判定結果７０２の”rectInfoArray”の要素それぞれにおいて、”text”フィールドをＳ９３３もしくはＳ９３５の文字認識結果で置き換えられたものである。このような文字認識結果を生成することにより、図９（ｂ）に示す、類似文書の入力画像に対する文字列認識処理を終了する。

続いて、上述したＳ９３４の手書き文字処理領域決定処理の詳細な流れについて、図を用いて説明する。図１１は、Ｓ９３４の手書き文字処理領域決定処理を説明する図であり、図１１（ａ）に登録文書画像例を示し、図１１（ｂ）に入力画像例を示す。ただし、図１１（ｂ）の入力画像と類似する画像は、図１１（ａ）の登録文書画像であり、図１１（ｂ）の入力画像では、手書き文字の記入領域とその認識領域とが一致しない場合を示している。

図１１（ａ）に示す登録文書画像１１０１においては、ファイル名設定画面６１０にて印刷文字領域１１０２と手書き文字領域１１０３とがファイル名に使用する領域として登録されている。ここで、図１１（ｂ）に示す入力画像１１１１は、登録文書画像１１０１に対応する文書と同じ文書（帳票）であって、登録文書の記入者と別の人が記入した文書がＳ５０５でスキャンされ、Ｓ５０８の画像解析の処理対象に設定された画像であるとする。Ｓ９２２で位置合わせ部４５５が登録文書画像１１０１と入力画像１１１１との位置合わせを行うため、印刷領域決定部４６２は、印刷文字領域１１０２に対応する位置として印刷文字領域１１１２を決定することができる。そして、文字認識部４５３が印刷文字領域１１１２に対してＯＣＲを実行することにより、ファイル名に使用する文字列を得ることができる。ただし、手書き文字は記入する際に位置がずれることがあり、位置合わせ部４５５の処理だけでは手書き文字領域を決定することはできない場合がある。

図１１（ａ）、（ｂ）の例では、登録文書画像１１０１の手書き文字領域１１０３の入力画像１１１１上の対応する領域は、領域１１１３であるが、領域１１１３には文字が書かれていない（記入されていない）。そのため、手書き領域決定部４６３は、領域１１１３を横方向に広げた領域１１１４を決定し、決定した領域１１４に対してＯＣＲ処理を実行できるよう、決定した領域１１１４に関する情報を文字認識部４５３へ入力する必要がある。

ここで、入力文書画像において手書き文字処理領域を決定する処理について、図を用いて説明する。図１２は、Ｓ９３４にて手書き領域決定部４６３が実行する、手書き文字領域決定処理の詳細な流れを示すフローチャートである。

Ｓ１２０１では、手書き領域決定部４６３は、登録文書の登録文字列領域（登録文書画像１１０１においては領域１１０３）の座標から、Ｓ９２２の画像位置合わせ結果を用いて、入力画像上の領域座標を導出する。例えば、入力画像１１１１においては、領域１１１３の座標を導出する。Ｓ１２０２では、手書き領域決定部４６３は、領域管理部４７２から、登録文書のすべての印刷文字領域の座標を取得し、Ｓ９２２の画像位置合わせ結果を用いて、入力画像上のすべての印刷文字領域の座標を導出する。このように入力画像上のすべての印刷文字領域の座標を導出するのは、類似文書の入力画像に対しては文字分離部４５４および種別判定部４５７の処理が行われず、処理対象の領域が印刷文字領域であるか否かを判別できないためである。

Ｓ１２０３では、Ｓ１２０１にて導出した手書き文字領域の対応領域を、Ｓ１２０２で導出した印刷文字領域に重ならない範囲で、横方向であるｘ方向に拡大する。Ｓ１２０４では、Ｓ１２０１で導出した手書き文字領域の対応領域を、予め決めておいた所定の割合で縦方向であるｙ方向に拡大する。ここで、所定の割合は、文書を記入する際の文字の大きさで想定される値でよく、例えば１．５倍や２．０倍といった値でよい。Ｓ１２０５では、手書き領域決定部４６３は、Ｓ１２０３およびＳ１２０４の処理で拡大した対応領域を、手書き文字処理領域として決定する。このように手書き領域決定部４６３が手書き文字処理領域を決定し終えると、図１２に示す手書き文字処理領域決定処理を終了する。

このように登録文書の手書き領域を基準に決定した手書き文字処理領域内を、Ｓ９３５にて、文字認識部４５３が手書き文字認識を行うことにより、ファイル名に使用する文字列を得ることができる。これにより、登録された文書と同じ文書に手書き文字を記入する際に記入位置がずれたとしても、適切に手書き文字を認識することが可能となり、所望の領域の認識結果をファイル名に使用することができる。また、印刷文字においては印刷文字処理領域を拡大しないことにより、手書きした文字やノイズ等を印刷文字処理領域に含む可能性を低下させることができ、印刷文字認識の精度を向上させることができる。さらに、新規文書の入力画像に対する文字列認識処理においてのみ文字分離部４５４及び種別判定部４５７による処理を実行し、類似文書の入力画像に対する文字列認識処理においては文字分離部４５４及び種別判定部４５７による処理を実行しない。これにより、類似文書の入力画像に対する文字列認識処理における処理負荷を低減することができ、登録した文書の画像を複数枚処理する際の処理速度を向上させることが可能となる。

［第２実施形態］
次に、手書き領域決定部４６３が、文書の罫線を利用して表構造を認識し、認識した表構造を基に手書き文字認識処理を行う領域を決定する態様について、第２実施形態として説明する。本実施形態では、第１実施形態と異なる、手書き文字処理領域決定処理を中心に説明する。

図１３は、本実施形態に係る手書き文字領域決定処理を説明する図である。図１３（ａ）は登録文書の画像例を示す図であり、図１３（ｂ）は図１３（ａ）の登録文書画像の類似文書画像例を示す図である。

図１３（ａ）に示す登録文書１３０１は、領域管理部４７２に登録した登録文書例である。登録文書１３０１では、印刷文字は、文書（帳票）の名称を示す「入会申込書」と、「申込日」と、表側にて１行目から３行目まで順番に「入会番号」、「氏名」、「住所」を有し、縦横３×２のセルの表とで構成されている。表においては、「入会番号」の右隣のセルの一部分であり、記入された「４３７３４５２９」を囲む矩形領域である手書き文字列領域１３０２が情報取得領域として登録されている。ただし、情報取得領域として登録されている手書き文字列領域が、ユーザの記入をガイドする表のセル（罫線領域）の一部分であることから、入会番号として記入された手書き文字列が登録されている手書き文字列領域以外の領域に存在する場合がある。例えば、図１３（ｂ）に示す入力画像１３０３では、入会番号として記入された手書き文字列の「２３４６７０９」が、登録文書画像１３０１の手書き文字列領域１３０２に対応する領域１３０４から領域１３０４以外の領域に亘って存在する。ただし、手書き文字列の「２３４６７０９」が、領域１３０４を囲む罫線領域１３０５に存在することから、罫線領域１３０５を手書き文字処理領域として決定すれば、手書き文字ＯＣＲによって手書き文字列の「２３４６７０９」を認識できる。

そこで、本実施形態では、入力画像にて認識した表構造を基に罫線領域を探索し、発見した罫線領域を手書き文字処理領域として決定する処理を実行する。本実施形態に係る手書き文字処理領域決定処理について、図を用いて説明する。図１４は、Ｓ９３４において、手書き領域決定部４６３が実行する手書き文字処理領域決定処理の詳細な流れを示すフローチャートである。

Ｓ１４０１では、第１実施形態のＳ１２０１と同様、手書き領域決定部４６３は、登録文書の登録文字列領域（登録文書画像１３０３においては領域１３０２）の座標から、Ｓ９２２の画像位置合わせ結果を用いて、入力画像上の領域座標を導出する。例えば、入力画像１３０３においては、領域１３０４の座標を導出する。

Ｓ１４０２では、手書き領域決定部４６３は、ハフ変換等の方法を用いて入力画像上の直線を検出する。Ｓ１４０３では、手書き領域決定部４６３は、Ｓ１４０２で検出した直線を基に、入力画像上で矩形を形成する直線の組を決定する。このような決定処理によって、手書き領域決定部４６３は、罫線に関する情報を用いて表構造を認識している。

Ｓ１４０４では、手書き領域決定部４６３は、Ｓ１４０１で導出した入力画像上の領域座標を囲む矩形を探索する。例えば、入力画像１３０３においては、領域１３０４を囲む矩形１３０５を探索する。Ｓ１４０５では、手書き領域決定部４６３は、Ｓ１４０４の探索処理で発見した矩形の領域を手書き文字処理領域として決定する。図１３（ｂ）の入力画像１３０３では、矩形領域１３０５を手書き文字処理領域として決定する。このように手書き領域決定部４６３が手書き文字処理領域を決定し終えると、図１４に示す手書き文字処理領域決定処理を終了する。

以上、説明したように、本実施形態によれば、罫線情報を用いて表構造を認識し、認識した表構造を基に、対応する罫線領域の全体を手書き文字処理領域として決定する。すなわち、所定の文字領域に含まれる文字が手書き文字であり、入力画像において特定された線で囲まれる矩形領域内に所定の文字領域が存在する場合、矩形領域の全体を所定の文字領域として決定する。これにより、文字認識部４５３の処理対象となる領域が、ユーザの記入をガイドする領域の全体と一致することになり、処理対象領域内の手書き文字列を基に文字認識結果を適切に生成することができる。

なお、本実施形態においては、罫線情報を用いて表構造を認識したが、表構造の認識方法はこれに限定されない。例えば、印刷文字の配置情報を用いて、印刷文字の右側の領域あるいは下側の領域を手書き文字処理領域として決定してもよい。また、表構造に限らず文書の構造を用いてもよい。文書構造の認識には罫線や印刷文字等の特定の特徴を使うのみでなく、例えばディープニューラルネットワークによる機械学習を用いてもよい。この場合、複数の文書画像とそれに対応する手書き文字の記入領域を教師データとして機械学習を行い、入力画像に対して手書き文字処理領域を出力するディープニューラルネットワークを構成することが可能である。

［第３実施形態］
続いて、入力画像で決定した手書き文字処理領域内に所望でない印刷文字・手書き文字の余分な要素が含まれる場合に、この余分な要素を消去し、余分な要素を消去した手書き文字処理領域に対して文字列認識を行う態様について、第３実施形態として説明する。本実施形態では、第１実施形態および第２実施形態と異なる、手書き文字領域認識処理を中心に説明する。

図１５は、本実施形態に係る手書き文字認識処理を説明する図である。図１５（ａ）は登録文書の画像例を示す図であり、図１５（ｂ）は入力画像例を示す図であり、図１５（ｃ）に罫線領域に対応する部分領域画像例を示す図であり、図１５（ｄ）は分離処理後の画像例を示し、図１５（ｅ）は白埋め処理後の画像例を示す図である。

図１５（ａ）に示す登録文書１５０１は、領域管理部４７２に登録した登録文書例である。登録文書１５０１では、表において住所の右隣でありユーザにとって記入可能な欄内に手書き文字列領域１５０２を決定し、決定した手書き文字列領域１５０２が情報取得領域として登録されているとする。ここで、図１５（ｂ）に示す入力画像１５０３が入力された場合、第２実施形態の手書き領域決定部４６３は、手書き文字列領域１５０２に対応する領域１５０４を囲む罫線領域１５０５を、手書き文字処理領域として決定する。情報取得領域として登録されている手書き文字領域にあっては、所望の情報は住所を示す情報のみであるとする。ただし、罫線領域１５０５には、「郵便番号」という印刷文字と、「７７９－４８０５」という手書き文字とを有する所望でない情報である余分な要素が含まれている。

そこで、本実施形態では、手書き文字処理領域内に存在する余分な要素を除去し、余分な要素を除去した手書き文字領域に対して文字認識処理を実行する。本実施形態に係る手書き文字認識処理について、図を用いて説明する。図１６は、Ｓ９３５において、文字認識部４５３が実行する手書き文字認識処理の詳細な流れを示すフローチャートである。

Ｓ１６２１では、文字認識部４５３は、手書き領域決定部４６３が決定した手書き処理領域（罫線領域１５０５）のみを切り出した部分領域画像（図１５（ｃ）では部分領域画像１５０６）を生成する。

Ｓ１６２２では、文字認識部４５３は、Ｓ１６２１で生成した部分領域画像に対して文字分離処理を実行するよう、文字分離部４５４に指示して、文字分離部４５４に文字分離処理を実行させる。この処理により、部分領域画像から、印刷文字のみで構成される印刷文字画像と、手書き文字のみで構成される手書き文字画像とが生成される。図１５（ｃ）の部分領域画像１５０６から、図１５（ｄ）の手書き文字画像１５０７が生成される。

Ｓ１６２３では、文字認識部４５３は、Ｓ１６２２で生成した手書き文字画像に対して文字列領域の抽出処理を実行するよう、抽出部４５２に指示して、抽出部４５２に文字列領域の抽出処理を実行させる。これにより、手書き文字画像１５０７から、住所を示す情報を含む手書き文字列領域１５０８と、郵便番号を示す情報を含む手書き文字列領域１５０９とを抽出して取得する。

Ｓ１６２４では、文字認識部４５４は、入力画像の文書フォーマットと類似すると特定された文書フォーマットに対応付けられている取得領域情報に基づいた登録文字列領域に最も近い手書き文字列領域を選択する。手書き文字画像１５０７では、文字認識部４５４は、基準情報に示される情報記載領域である登録領域１５０４に最も近い手書き文字列領域１５０８を選択する。

Ｓ１６２５では、文字認識部４５３は、余分な要素、すなわち、選択した文字領域以外の文字領域内の文字列を白埋めして、白埋め処理後の手書き文字画像を生成して得る。文字認識部４５４は、手書き文字画像１５０７からは、手書き文字列領域１５０９を白埋めし、情報取得領域に最も近い手書き文字列領域のみを含む白埋め処理後の手書き文字画像１５１０を生成して得る。

Ｓ１６２６では、文字認識部４５３は、Ｓ１６２５で生成した白埋め処理後の手書き文字画像に対して手書き文字ＯＣＲ処理を実行する。これにより、所望の情報を含む手書き文字画像を得ることができる。このように文字認識部４５３が所望の情報のみを含む白埋め処理後の手書き文字画像に対して手書きＯＣＲ処理を実行し終えると、図１６に示すフローを終了する。

以上、説明したように、文字分離部４５４、抽出部４５２の処理を、手書き領域決定部４６３が決定した手書き文字処理領域に対して実行することで、余分な要素である文字列の消去が可能となり、手書き文字認識の精度を向上させることができる。さらに、類似文書の画像では手書き領域決定部４６３が決定した手書き文字処理領域に対してのみ文字分離部４５４、抽出部４５２の処理を実行するため、新規文書の画像の登録時よりも処理負荷を低減し、処理速度の高速化を図ることができる。

［その他の実施形態］
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

４３２画像処理部
４３４データ管理部
４５２抽出部
４５３文字認識部
４５７種別判定部
４６１領域決定部
４７２領域管理部

Claims

紙文書のスキャン画像を取得する取得手段と、
前記スキャン画像を解析して文字が記載される文字領域を抽出する抽出手段と、
前記文字領域に含まれる文字が手書き文字であるか、または印刷文字であるかを判定する判定手段と、
文書における文字の配置を示す配置情報と、当該文書をファイル化する際のプロパティとして使用するための文字の取得領域を示す取得領域情報とを文書フォーマットに紐づけて、文書の種類ごとに管理する管理手段と、
前記管理手段にて文書の種類ごとに管理されている前記配置情報を基に、前記スキャン画像の文書フォーマットと類似する文書フォーマットを特定し、当該特定された文書フォーマットに対応づけられている前記取得領域情報に基づいて、前記スキャン画像上の所定の文字領域を決定する決定手段と、
前記所定の文字領域に対し文字認識を行って文字情報を取得する文字認識手段と、
を有し、
前記決定手段は、前記手書き文字と前記印刷文字とで異なる手法で前記所定の文字領域を決定することを特徴とする画像処理装置。
前記スキャン画像を、前記手書き文字のみを含む手書き文字画像と、前記印刷文字のみを含む印刷文字画像とに分離する、分離手段をさらに有し、
前記抽出手段は、前記手書き文字画像および前記印刷文字画像それぞれから手書き文字領域および印刷文字領域を抽出し、
前記判定手段は、前記手書き文字領域に含まれる前記手書き文字を前記手書き文字領域の文字として判定し、前記印刷文字領域に含まれる前記印刷文字を前記印刷文字領域の文字として判定する
ことを特徴とする請求項１に記載の画像処理装置。
前記所定の文字領域に含まれる文字が前記手書き文字である場合、
前記決定手段は、前記特定された文書フォーマットを基に、前記手書き文字の文字領域に対応する前記スキャン画像の文字領域を、前記印刷文字の文字領域に対応する前記スキャン画像の文字領域と重ならない範囲で拡大して前記所定の文字領域として決定する
ことを特徴とする請求項１に記載の画像処理装置。
前記所定の文字領域に含まれる文字が前記手書き文字であり、前記スキャン画像において特定された線で囲まれる矩形領域内に前記所定の文字領域が存在する場合、前記決定手段は、前記矩形領域を前記所定の文字領域として決定する
ことを特徴とする請求項１に記載の画像処理装置。
前記文字認識手段は、
前記決定手段によって決定された前記特定の文字領域に対して、分離手段による分離処理を実行させて、前記手書き文字のみを含む手書き文字画像を生成し、
前記生成された手書き文字画像に対して、前記抽出手段による抽出処理を実行させて文字領域を抽出し、
前記抽出した文字領域において、前記所定の領域に最も近い文字領域を選択し、
前記抽出した文字領域のうち、前記選択した文字領域以外の文字領域に対して白埋め処理を実行して白埋め処理後の手書き文字画像を生成し、
前記生成した白埋め処理後の手書き文字画像において前記決定手段によって決定された前記所定の文字領域に対して文字認識を行う
ことを特徴とする請求項４に記載の画像処理装置。
前記所定の文字領域に含まれる文字が前記印刷文字である場合、
前記決定手段は、前記特定の文字領域を、前記文字認識を行う領域として決定する
ことを特徴とする請求項１に記載の画像処理装置。
紙文書のスキャン画像を取得する取得ステップと、
前記スキャン画像を解析して文字が記載される文字領域を抽出する抽出ステップと、
前記文字領域に含まれる文字が手書き文字であるか、または印刷文字であるかを判定する判定ステップと、
文書における文字の配置を示す配置情報と、当該文書をファイル化する際のプロパティとして使用するための文字の取得領域を示す取得領域情報とを文書フォーマットに紐づけて、文書の種類ごとに管理する管理ステップと、
前記管理ステップにて文書の種類ごとに管理されている前記配置情報を基に、前記スキャン画像の文書フォーマットと類似する文書フォーマットを特定し、当該特定された文書フォーマットに対応づけられている前記取得領域情報に基づいて、前記スキャン画像上の所定の文字領域を決定する決定ステップと、
前記所定の文字領域に対し文字認識を行って文字情報を取得する文字認識ステップと、
を含み、
前記決定ステップにおいて、前記手書き文字と前記印刷文字とで異なる手法で前記所定の文字領域を決定することを特徴とする画像処理装置の制御方法。
コンピュータを、請求項１から６のいずれか一項に記載の画像処理装置の各手段として機能させるためのプログラム。