JP2008186256A

JP2008186256A - 文書処理装置、文書処理方法、コンピュータプログラム

Info

Publication number: JP2008186256A
Application number: JP2007019472A
Authority: JP
Inventors: Masami Hisagai; 正己久貝
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2007-01-30
Filing date: 2007-01-30
Publication date: 2008-08-14

Abstract

【課題】表枠の少ない文書でも、文書のフォーマットを認識することができるようにする。
【解決手段】ユーザの指示に基づいて、文書の識別に用いる複数の領域とその特徴とを、当該文書の特徴プロファイルとして登録しておく。文書識別時は、入力された文書について、登録文書の特徴プロファイルに対応する入力文書の領域から特徴を抽出して、登録文書との類似度を求める。また、登録されている情報同士を比較することにより、登録した特徴プロファイルが適切であるか判断できるようにする。
【選択図】図６

Description

本発明は、文書の種別（フォーマット／書式）を認識する技術に関する。

従来、フォーマットを有する文書（帳票など）を認識する技術としては、領域分割やレイアウト解析を施し、その結果を特徴として抽出する方法が採用されていた。

特許文献１では、図９に記載されてあるように、帳票画像を領域分割して特徴を抽出し、類似度を算出している。当該公報の図１０にあるように領域分割の結果抽出される表ブロックの個数、枠の個数、図の個数などを使って類似度を求めている。
特開２００１−２８３２２０

しかしながら、特許文献１の技術では、例えば図１のように表枠の数が少なく、表枠の面積も小さい帳票の場合、特徴となる部分が少ないので誤認識することが考えられる。また、図２は図１と同じフォーマットであるが、図の個数が異なる（図１では０個、図２では１個）ため、同一とみなすことができない場合が存在する。

本発明では、このように罫線が少ない帳票の認識、また書込み内容に影響されない文書認識を可能にする。

ここで、帳票認識（フォーマット識別）の利用方法の１つを説明する。例えば、病院では、医療カルテなどのように個人情報を記載した文書をコピーして、検査機関に当該文書のコピーを渡す場合がある。その場合、個人情報の部分は黒インクなどで塗りつぶすことが行われているが、作業能率が悪く不便である。そこで、医療カルテの個人情報の部分をマスクしてコピーする機械があれば作業を自動化できる。しかし、医療カルテは複数の文書フォーマットがあるので、個人情報の記載領域は、フォーマットに応じて異なる位置に存在する。そこで、帳票認識技術を用いて、当該文書のフォーマットを識別し、その識別されたフォーマットに対応付けられているマスキングテンプレートを用いて、個人情報が記載されている領域をマスクすることができる。

上記課題を解決する為に、本発明の文書処理装置は、登録対象の登録文書を表示する表示手段と、前記表示手段に表示された登録文書に対するユーザの指示に基づいて、当該登録文書の識別に用いる複数の領域と当該各領域の特徴種別と当該各領域の特徴データとを登録する登録手段と、を有する。

本発明によれば、認識できる文書の対象を罫線の少ない帳票などにも広げることができ、また、文書の特徴が表われている部分が明確に指定されるので、文書認識の応用範囲を拡大することが可能となる。

（実施例１）
図３は、実施例１の文書認識システムのシステム構成図である。デジタル複合機３０１は、文書を読み取る文書読取手段と、コンピュータ３０２と文書画像を送受信する文書送受信手段と、文書印刷手段とを含む。コンピュータ（文書認識装置）３０２は、デジタル複合機３０１で読み取った文書画像を受信する文書入力手段と、文書の指定された領域内の特徴を抽出する特徴抽出手段と、当該指定された領域と各領域の特徴を当該文書の特徴プロファイルとして設定して記憶手段に登録する文書登録手段とを有する。更に、コンピュータ３０２は、新たに入力された入力文書と登録されている複数の登録文書とを比較して、類似度が最大となった登録文書を求める文書比較手段とを含む。また、デジタル複合機３０１とコンピュータ３０２は、ＬＡＮ３０３で接続されているものとする。

図４は、デジタル複合機３０１のハードウェア構成図である。４０１はデータ／アドレスバス、４０２は制御を司るＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｏｒＵｎｉｔ）である。また、４０３は制御プログラムを記憶するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、４０４は制御プログラムが作業領域としてデータを一時記憶するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、４０５は文書画像を記憶するハードディスクＨＤＤである。また、４０６は、文書画像を圧縮したり、画質の改善や二値化処理を行うための画像処理部である。４０７は操作パネル、４０８は文書を読み取るための文書スキャナ部、４０９は文書をプリントするためのプリンタ部、４１０はネットワークと接続するためのＬＡＮインターフェース、４１１はＦＡＸ送受信部である。

図５は、コンピュータ３０２のハードウェア構成図である。５０１はデータ／アドレスバス、５０２は制御を司るＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｏｒＵｎｉｔ）である。５０３はコンピュータのＢＩＯＳを記憶するＲＯＭ、５０４はＣＰＵがプログラムを実行する際に一時的にデータを記憶するために利用するＲＡＭである。５０５は、コンピュータのＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や各種プログラム、データ類を記憶するところのハードディスクである。５０６はキーボードとマウス、５０７はディスプレイ、５０８はネットワークと接続するためのＬＡＮインターフェースである。

コンピュータ３０２のハードディスク５０５には、文書登録手段をコンピュータに実現させるための文書登録ユーティリティ・アプリケーションプログラムや、特徴抽出手段をコンピュータに実現させるための認識コンポーネントプログラムモジュール（以下、単に認識コンポーネントと呼ぶ）が格納されている。更に、登録文書を記憶する文書データベース（文書記憶手段）や、入力文書の特徴と登録文書の特徴とを比較して入力文書に最も類似する登録文書を決定させるための文書比較手段をコンピュータに実現させるための文書認識コンポーネントプログラムモジュール（以下単に文書認識コンポーネントと呼ぶ）などが記憶されている。

本実施例の認識コンポーネントには、文字列認識、表セル認識、色情報認識、直線認識、黒画素濃度認識、網点認識、文字領域認識、特定画像認識の８個の認識コンポーネントがある。文字列認識コンポーネントは、文字画像を文字認識するプログラムモジュールである。表セル認識コンポーネントは表枠を認識するプログラムモジュールである。色情報認識コンポーネントは色のＲＧＢデータを認識するプログラムモジュールである。直線認識コンポーネントは垂直・水平・斜め右上方向・斜め左上方向の直線を認識するプログラムモジュールである。黒画素濃度認識コンポーネントは黒画素の密度を認識するプログラムモジュールである。網点認識コンポーネントは網点画像を認識するプログラムモジュールである。文字領域認識コンポーネントは文字の領域を認識するプログラムモジュールである。特定画像認識コンポーネントは画像を認識するプログラムモジュールである。各認識コンポーネントは、それぞれの認識結果のデータを文書の特徴として抽出する機能、及び、特徴設定ダイアログ（抽出すべき特徴を指示したり、抽出した特徴データの重みなどを設定したりするためのユーザインターフェース画面）を表示する機能をもっている。

図７は、特徴プロファイルの作成を含む文書の登録のワークフローを説明したフローチャートである。デジタル複合機３０１で読み取られた登録対象の文書画像がコンピュータ３０２に送信されると、ステップ７０１で、該コンピュータ３０２は、受信した文書画像を文書ＤＢに登録する（文書入力）。
ステップ７０２では、当該登録した文書画像をディスプレイ５０７に表示する。

ステップ７０３では、該文書画像の特徴を表す領域をマウス５０６でユーザに指定させる。例えば、図６（ａ）のような文書画像がディスプレイに表示されているとき、ユーザに当該文書画像フォーマットの特徴部分を指定させる。ここでは、図６（ｂ）に示すように文書のタイトルである「外来診療録」の文字列を囲む領域Ａをユーザが指定したものとする。

次にステップ７０４に行き、当該指定された領域Ａの特徴をユーザが選択するために、領域Ａにマウスポインタを合わせ、マウスの右ボタンをクリックすると図８のように８個の特徴の名称リストがポップアップメニューとして表示される。図６の例では、領域Ａに対して、特徴「文字列」がユーザにより選択されると、文字列認識コンポーネントが呼び出され、図９の特徴設定ダイアログが表示される。

図９は、文字列認識コンポーネントによって表示される特徴設定ダイアログである。９０１はＯＣＲ（文字認識）結果が表示されるエリア、９０２は特徴の設定値を入力するエリアである。９０４はＯＣＲを実行させるためのボタン、９０５はＯＣＲ結果を設定値にコピーさせるためのボタン、９０３は設定された特徴に重みを指定させるためのプルダウンメニュー、９０６はＯＫボタン、９０７はキャンセルボタンである。図９のＯＣＲ実行ボタン９０４を押すと、ステップ７０４で指定した領域Ａ内の文字列画像の文字認識処理が実行される（ステップ７０５）。この文字認識処理は前記文字列認識コンポーネントによって実行される。

９０５のボタンを押すと９０１内に表示された文字認識結果が特徴の設定値として９０２にコピーされる。なお、誤認識していた場合などは、設定値入力エリア９０２にコピーされた文字認識結果をユーザが修正したり直接入力したりすることができる。また、９０３では、当該指定された領域から抽出される特徴の重みをユーザに設定させる（本実施例では１〜１０の範囲で設定させる）。

９０６のＯＫボタンを押すと、領域Ａの位置と大きさの情報（領域情報）と、抽出した特徴の種別を表す特徴ＩＤと、特徴データ（図６（ｂ）の領域Ａの場合は「外来診療録」の文字列データ）とが組になって、特徴コンテンツとしてＲＡＭ５０４に一時記憶される（ステップ７０６）。

なお、特徴ＩＤは、例えば、文字列が０１、表セルが０２、色情報が０３、直線が０４、黒画素濃度が０５、網点が０６、文字領域が０７、特定画像が０８のように予め割り当てられている。

特徴の種類（認識コンポーネントの種類）としては、図８のポップアップメニューに表示されているように、「文字列」の他に「表セル」、「色情報」、「直線」、「黒画素濃度」、「網点」、「文字領域」、「特定画像」が使用できる。それぞれの特徴の種類ごとに、表セル認識コンポーネント、色情報認識コンポーネント、直線認識コンポーネント、黒画素認識コンポーネント、網点認識コンポーネント、文字領域認識コンポーネント、特定画像認識コンポーネントが用意されている。これらは認識コンポーネントと総称される。認識コンポーネントは、プログラムモジュールであり、ＨＤＤ５０５に記憶されており、必要に応じてコンピュータが実行できるようになっている。

なお、「表セル」の特徴データは、当該指定された領域が表枠領域であるかどうかを示すフラグである。「色情報」の特徴データは、当該指定された領域の色を表すＲＧＢのデータである。また、「直線」の特徴データは直線の方向（垂直、水平、斜右上４５度、斜右下４５度のいずれか）を示すデータである。また、「黒画素濃度」の特徴データは当該指定された領域内を二値化した場合に当該領域内にある黒画素の割合を示すデータである。また、「網点」の特徴データは当該指定された領域内が網点であるかどうかを示すフラグである。また、「文字領域」の特徴データは当該指定された領域が文字領域であるかどうかを示すフラグである。また、特定画像の特徴データは当該指定された領域内の画像データである。

なお、ステップ７０４で「文字列」以外の特徴種別（認識コンポーネント）が選択された場合も同様に、それぞれの特徴設定ダイアログが表示され、各認識コンポーネントによって抽出されるべき特徴の設定を行い、その領域の重みを設定できる。

ステップ７０７で、特徴抽出が該文書画像を他の登録文書画像と識別するのに十分でなければＮＯが選択されステップ７０３に戻り、さらに他の領域を選択させて特徴抽出が継続される。

例えば、図６では、領域Ｂが「表セル」、領域Ｃが「色情報」、領域Ｄ、Ｅ，Ｆが「直線」が選択されたものとすると、領域情報（位置と大きさ）、特徴ＩＤ、特徴データが組になって特徴コンテンツとしてＲＡＭ５０４に一時記憶されることになる。

ステップ７０７で特徴抽出が十分であればＹＥＳが選択され、ステップ７０８へ行く。ステップ７０８では、ＲＡＭ５０４に一時記憶された１乃至複数の特徴コンテンツをまとめて１つの特徴プロファイルとしてアーカイブし、該文書画像と関連付けてＨＤＤ５０５の文書ＤＢに記憶保管される。

上記において、文書登録ユーティリティアプリケーションプログラムをコンピュータに実行させることにより、ステップ７０２での文書を表示する表示手段、７０３の領域指定手段、７０４の特徴選択手段、７０６の特徴コンテンツ作成手段として、コンピュータを機能させる。図７の処理は、文書登録ユーティリティ・アプリケーションプログラムを用いて実行される。

なお、文書登録ユーティリティによって、登録した文書の特徴の修正を行うことができる。例えば、文書ＤＢに登録されている登録文書と特徴プロファイルとを読み込み、図６（ｂ）に示すような文書画像と領域とをディスプレイに表示させ、そして修正対象領域をユーザに選択させ、図７のフローチャートによって、特徴の設定（修正）をすることができる。また、図６（ｂ）に示すような領域を指定して、キーボードの削除キーを押せば、対応する領域の特徴コンテンツは前記特徴プロファイルから除かれる。

図１０は特徴プロファイルのフォーマットを説明する図である。１００１は対応する登録文書の文書ＩＤ、１００２はこの特徴プロファイルに含まれる特徴コンテンツの個数、１００３、１００４は各特徴コンテンツである。「領域の位置」は、領域の左上点の座標であり、「領域の大きさ」は当該領域の幅と高さである。また、「特徴ＩＤ」は、当該領域から特徴抽出する際に利用する認識コンポーネント（「文字列」、「表セル」、「色情報」、「直線」、「黒画素濃度」、「網点」、「文字領域」、「特定画像」）を特定するためのＩＤである。

図１１は、文書ＤＢを説明する図である。図１１では、ｎ個の文書が登録されている。１１０１、１１０２、・・・１１０３は、それぞれ、登録文書０１、登録文書０２、・・・登録文書ｎである。登録文書０１、登録文書０２、・・・登録文書ｎは、登録されている文書のイメージもしくは、登録されている文書の記載内容を示すフォーマットに関するデータである。１１０４、１１０５、・・・１１０６は各登録文書に対応する特徴プロファイルである。この前記登録文書と当該文書の特徴プロファイルとが対応付けられて格納される。

次に、入力文書を文書認識（帳票認識／フォーマット識別）する処理を図１２、図１３を用いて説明する。以下これにそって、文書認識の処理を説明する。

ステップ１２０１で、デジタル複合機で読み込んだ認識対象（フォーマット識別対象）の文書画像をＬＡＮ経由でコンピュータ３０２が受信する（文書入力）。入力された文書画像は、ＨＤＤ５０５に記憶される。ここで、デジタル複合機はカラーの文書画像を送信してくるので、ＨＤＤ５０５に記憶された文書画像はＪＰＥＧファイルである。

ステップ１２０２で文書画像の傾斜が自動補正される。文書画像の傾斜補正に関しては、公知の技術を用いることができる。

ステップ１２０３で、ＨＤＤ５０５に記憶されているＪＰＥＧの文書画像を二値化してモノクロ文書画像を生成する。この二値画像は文字認識する場合に利用される。

次に、入力文書画像は、文書ＤＢに格納されている複数の登録文書それぞれと順番に比較される。ステップ１２０４で、比較する登録文書がないかを調べ、まだある場合はステップ１２０５へいく。

ステップ１２０５では「文書認識コンポーネント」プログラムモジュールに含まれるサブルーチン「登録文書との類似度算出」処理を呼び出し、入力文書と当該比較対象となっている登録文書との類似度を求める。求めた類似度と登録文書ＩＤとを対応付けて一時保存する。詳細については、図１３を用いて後述する。

その後、ステップ１２０４に戻り、他に比較対象となる登録文書があればステップ１２０５を繰り返す。一方、もう比較する登録文書がなければステップ１２０６へ進み、類似度と登録文書ＩＤの組を類似度をキーとしてソートして最大類似度の登録文書のＩＤを求める。

次に、サブルーチン「登録文書との類似度算出」処理を、図１３のフローチャートに沿って説明する。
変数Ｓは類似度が格納される変数で、特徴コンテンツとの一致度が加算される変数である。ステップ１３０１で、Ｓを０に初期化する。

ステップ１３０２では、比較対象にする登録文書の特徴プロファイルを文書ＤＢから読み込む。

ステップ１３０３〜１３０６の処理は、前記読み込んだ登録文書の特徴プロファイルに含まれる特徴コンテンツごとにループ処理される。ステップ１３０３でまだ類似度計算に未使用の特徴コンテンツがあるかを調べ、あれば、ステップ１３０４に進む。

ステップ１３０４では当該特徴コンテンツの領域情報（位置と大きさ）に基づいて、入力文書の対応する位置と大きさの領域データを抽出する。そして、当該特徴コンテンツの特徴ＩＤに対応する認識コンポーネントを呼び出して実行することにより、前記領域データの特徴データを作成する。例えば、特徴ＩＤが「文字列」ならば文字列認識コンポーネントが呼び出され、当該入力文書から抽出された領域データを文字認識処理し、当該文字認識結果の文字列コードを特徴データとして作成する。また、その他の特徴ＩＤであれば、それぞれの認識コンポーネントに対応する処理を実行して特徴データを作成する。

ステップ１３０５で、当該作成した特徴データを、登録文書の対応する特徴コンテンツの特徴データと照合し一致するかどうか調べる。一致すれば、ステップ１３０６で、当該特徴コンテンツに設定されている重みを使って、次の計算をする。
Ｓ←Ｓ＋１×（重み）
そして、ステップ１３０３に戻り、当該登録文書の特徴プロファイルに含まれるすべての特徴コンテンツが類似度計算に使用されるまで処理を繰り返す。１３０３でＮＯとなれば、ステップ１３０７へ進み、Ｓをすべての特徴コンテンツの重みの合計値で除して規格化したものを、当該入力文書に対する当該登録文書の類似度とする。

本実施形態によれば、図６（ａ）のように表示された入力文書において、図６（ｂ）のように文書の特徴をよく表す領域をユーザが指定して特徴データを特徴プロファイルに記憶させることができる。したがって、図１や図２のような表枠の少ない文書であっても、特徴を抽出することができ、文書を認識することが可能となる。また、図１と図２のように書込みの内容が大きく異なっていても、予めユーザが書込み以外の部分を特徴として選択して登録文書として登録しておけば、図１も図２も同一のフォーマットとして認識することが可能となる。

このように、特徴のある部分を特徴コンテンツとしてユーザに指定させて、特徴プロファイルを作成すれば、どのようなフォーマットの文書（どのような種別の文書）でも特徴を抽出して文書認識（帳票認識／フォーマット識別）が可能となる。

本実施例の文書認識システムでは、デジタル複合機３０１によって医療カルテのような文書を読取り、コンピュータ３０２に文書を送信すると、コンピュータ３０２では、受信した文書を認識してフォーマットを決定することが可能となる。

また、予めフォーマットに対応したマスキングテンプレートを用意して、ＨＤＤ５０５に記憶しておけば、医療カルテを文書識別（フォーマット識別）したときに前記マスキングテンプレートを自動適用させるように構成することもできる。そのように構成すれば、個人情報記載領域を適切にマスキングして、マスキング加工した文書画像を作成できる。このマスキング加工済み文書画像をデジタル複合機３０１に送信し、プリンタ４０９で印刷することにより、個人情報記載領域だけをマスキングしたコピー物を生成できる。

（実施例２）
前述の実施例１に加え、さらに文書処理装置が識別性検査手段を備えた実施例２を説明する。なお、本実施例では、識別性検査手段を文書処理装置（コンピュータ３０２）に実現させるためのプログラムが、文書登録ユーティリティプログラムに含まれるものとする。

例えば、文書ＤＢに、３つの文書（文書Ａ、文書Ｂ、文書Ｃ）が登録されているものとする。そして、各登録文書Ａ，Ｂ，Ｃに対して特徴プロファイルＦＡ、ＦＢ、ＦＣが文書登録ユーティリティを使って作成されているものとする。

このとき、文書Ａを入力文書とみたてると、Ａ−Ｂ、Ａ−Ｃとの比較ができ、類似度が計算される。この場合、Ａ−Ｂの比較では、Ｂの特徴プロファイルＦＢが利用され、Ａ−Ｃの比較では、Ｃの特徴プロファイルＦＣが利用される。同様に、Ｂを入力文書とみたてると、Ｂ−Ａ、Ｂ−Ｃの比較ができ、Ｃを入力文書とみたてると、Ｃ−Ａ、Ｃ−Ｂの比較ができ、全部で６通りの比較の結果、６個の類似度が求まる。なお、類似度の算出は図１３で説明した処理と同様の処理で算出される。ところで、Ａ，Ｂ、Ｃの登録文書は区別されるべく登録されているわけであるから、６個の類似度は一致を示す基準閾値以下でなければ、誤認識を起こす確率が高くなってしまう。もし、一致を示す基準閾値以上の類似度が１つでもあれば、特徴プロファイルが適切に作成されていないとみることができる。

識別性検査手段とは、ｎ個の登録文書について、ｎ（ｎ−１）通りの組み合わせについてすべての類似度を求め、その中の最大類似度があらかじめ定義されている基準閾値（例えば、０．８）以下であるかどうかを判定する手段である。もし、この判定の結果、最大類似度が、基準閾値以上であれば、基準閾値以上の類似度を生ぜしめる登録文書の特徴プロファイルを作成しなおすのが望ましい。つまり、登録されている特徴プロファイルが、文書識別を行うのに適切でない可能性がある。そこで、０．８以上となる登録文書の特徴プロファイルがあった場合は、適切でない可能性があると判断して、ユーザに対して警告を行い、特徴プロファイルの修正を促す。

一方、登録文書間の類似度が非常に低い場合、登録文書間の差異が大きいということなので、認識に用いている特徴コンテンツの一部を省いても十分識別できる可能性がある。このような余分な特徴コンテンツを省くことができれば識別処理時間を短縮することができる。そこで、以下では、識別性検査手段が余分な特徴コンテンツを検出する機能を有する実施の形態を図１４のフローチャートを用いて説明する。図１４は、余分な特徴コンテンツを検出し特徴プロファイルから該特徴コンテンツを取り除き、特徴プロファイルをスリム化する処理手続きを示すフローチャートである。前記識別性検査手段は、図１４のフローチャートの処理も実行できるものとする。この図１４のフローチャートの処理は、特徴プロファイルスリム化プログラムモジュールとして該識別性検査手段をコンピュータに実現させるためのプログラムに含まれるものとする。

まず、図１４の処理を実行する前に、上述したｎ（ｎ−１）通りの登録文書間の比較を実行し、類似度が予め決めておいた低閾値（例えば０．２）以下となった特徴プロファイルＦを特定する。その特定された特徴プロファイルＦに含まれる特徴コンテンツの個数をｍとし、第ｉ番目の特徴コンテンツをＦから取り除いた新たな特徴プロファイルを＜Ｆ｜ｉ＞という記号で表現することとする。＜Ｆ｜ｉ＞は、ｍ個存在する。

ステップ１４０１で、インデックスの変数ｉを１に初期化する。次にステップ１４０２では、ステップ１４０３〜１４０６を繰り返し処理するための終了条件を判定するため、ｉがｍ以下であるかどうかをチェックする。ｍ以下であれば、次のステップ１４０３に行き、そうでなければ終了する。

ステップ１４０３では、当該特定された特徴プロファイルＦを＜Ｆ｜ｉ＞で置き換え、登録文書全体の識別性検査（ｎ（ｎ−１）通りの登録文書間の比較処理）を行う。

ステップ１４０４で、識別性検査の結果の最大類似度が基準閾値（０．８）以下であるかどうかを検査する。その判定がＹＥＳならば、当該ｉ番目の特徴コンテンツを省いた特徴プロファイルを用いても十分識別可能であると判断し、ステップ１４０５に進んで、特徴プロファイルＦから当該ｉ番目の特徴コンテンツを削除する（無効にする）。

一方、ステップ１４０４の判定でＮＯならば、当該ｉ番目の特徴コンテンツを省くと登録文書識別が不十分になってしまう（誤認識が多くなってしまう）と判断し、当該特徴コンテンツは省かずにステップ１４０６へ進む。ステップ１４０６ではｉを１増分して、ステップ１４０２に進み、その他の特徴コンテンツについて取り除いても構わないかかどうかの調査を繰り返す。

図１４の処理は、特定された１つの特徴プロファイルについて説明したものであるが、登録文書同士の比較結果の類似度が低閾値（０．２）以下になる全ての特徴プロファイルについて、図１４の処理を繰り返してもよい。このように、登録文書すべての特徴プロファイルから余分な特徴コンテンツを取り除くことにより、文書比較処理の効率がよくなる。

（その他の実施例）
上述した実施例では、コンピュータにＨＤＤ５０５に格納されたプログラムを実行させることにより、該コンピュータを前述したフローチャートの処理を実行する各手段として機能させる例を説明した。しかしながら、このコンピュータプログラムは、該ＨＤＤに格納されているものに限るものではなく、その他の記憶媒体に記憶されているものであっても構わない。また、該コンピュータプログラムは、ネットワークを介して、外部装置から供給されるものであっても構わない。

また、本発明は、コンピュータプログラムをコンピュータに実行させることにより実現させるものに限るものではなく、その処理の一部または全部を、電気回路などの専用ハードウェアを用いて実現させるようにしても構わない。

文書のサンプル文書のサンプル文書認識システムの構成図デジタル複合機のハードウェア構成図文書認識装置のハードウェア構成図文書の特徴を設定する説明図特徴プロファイル作成のワークフロー説明図特徴選択の説明図特徴設定ダイアログの説明図特徴プロファイルのフォーマット説明図文書ＤＢの説明図文書認識のフローチャート文書認識コンポーネントのフローチャート実施形態２の特徴を説明する図

Claims

登録対象の登録文書を表示する表示手段と、
前記表示手段に表示された登録文書に対するユーザの指示に基づいて、当該登録文書の識別に用いる複数の領域と当該各領域の特徴種別と当該各領域の特徴データとを登録する登録手段と、
を有することを特徴とする文書処理装置。
前記登録手段は、ユーザの指示に基づいて、前記各領域に対して、前記文書の識別を行う際の重み付けを設定する請求項１に記載の文書処理装置。
識別対象の文書画像を入力する入力手段と、
前記登録手段により登録されている領域に対応する前記入力された文書画像の領域から、前記特徴種別にもとづいて特徴データを作成し、当該作成された特徴データを前記登録手段により登録されている特徴データと比較することによって、前記入力された文書画像に対応する登録文書を識別する比較手段と、
を有することを特徴とする請求項１に記載の文書処理装置。
前記登録手段により登録されている複数の登録文書間の比較を行うことによって、当該登録文書に対して登録されている領域と特徴種別と特徴データとが適切であるか否か判断する検査手段を、更に有することを特徴とする請求項１に記載の文書処理装置。
前記検査手段は、適切でないと判断した場合、前記登録手段により登録されている登録文書のデータ修正を行うように警告を行うことを特徴とする請求項４に記載の文書処理装置。
前記検査手段は、前記登録手段により登録されている登録文書について、当該登録文書の識別に余分な特徴データを検出することを特徴とする請求項４に記載の文書処理装置。
前記入力手段は、ネットワークを介して外部のスキャナ装置から送信されてきた文書画像を、前記識別対象の文書画像として入力することを特徴とする請求項３に記載の文書処理方法。
登録対象の登録文書を表示する表示工程と、
前記表示工程で表示された登録文書に対するユーザの指示に基づいて、当該登録文書の識別に用いる複数の領域と当該各領域の特徴種別と当該各領域の特徴データとを登録する登録工程と、
を文書処理装置が実行することを特徴とする文書処理方法。
コンピュータを、
登録対象の登録文書を表示する表示手段と、
前記表示手段に表示された登録文書に対するユーザの指示に基づいて、当該登録文書の識別に用いる複数の領域と当該各領域の特徴種別と当該各領域の特徴データとを登録する登録手段と、
して機能させるためのコンピュータプログラム。
請求項９に記載のコンピュータプログラムを格納した、コンピュータ読取可能な記憶媒体。