JP2008186256A - 文書処理装置、文書処理方法、コンピュータプログラム - Google Patents
文書処理装置、文書処理方法、コンピュータプログラム Download PDFInfo
- Publication number
- JP2008186256A JP2008186256A JP2007019472A JP2007019472A JP2008186256A JP 2008186256 A JP2008186256 A JP 2008186256A JP 2007019472 A JP2007019472 A JP 2007019472A JP 2007019472 A JP2007019472 A JP 2007019472A JP 2008186256 A JP2008186256 A JP 2008186256A
- Authority
- JP
- Japan
- Prior art keywords
- document
- registered
- feature
- area
- registration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
- Character Input (AREA)
Abstract
【課題】 表枠の少ない文書でも、文書のフォーマットを認識することができるようにする。
【解決手段】 ユーザの指示に基づいて、文書の識別に用いる複数の領域とその特徴とを、当該文書の特徴プロファイルとして登録しておく。文書識別時は、入力された文書について、登録文書の特徴プロファイルに対応する入力文書の領域から特徴を抽出して、登録文書との類似度を求める。また、登録されている情報同士を比較することにより、登録した特徴プロファイルが適切であるか判断できるようにする。
【選択図】 図6
【解決手段】 ユーザの指示に基づいて、文書の識別に用いる複数の領域とその特徴とを、当該文書の特徴プロファイルとして登録しておく。文書識別時は、入力された文書について、登録文書の特徴プロファイルに対応する入力文書の領域から特徴を抽出して、登録文書との類似度を求める。また、登録されている情報同士を比較することにより、登録した特徴プロファイルが適切であるか判断できるようにする。
【選択図】 図6
Description
本発明は、文書の種別(フォーマット/書式)を認識する技術に関する。
従来、フォーマットを有する文書(帳票など)を認識する技術としては、領域分割やレイアウト解析を施し、その結果を特徴として抽出する方法が採用されていた。
特許文献1では、図9に記載されてあるように、帳票画像を領域分割して特徴を抽出し、類似度を算出している。当該公報の図10にあるように領域分割の結果抽出される表ブロックの個数、枠の個数、図の個数などを使って類似度を求めている。
特開2001−283220
しかしながら、特許文献1の技術では、例えば図1のように表枠の数が少なく、表枠の面積も小さい帳票の場合、特徴となる部分が少ないので誤認識することが考えられる。また、図2は図1と同じフォーマットであるが、図の個数が異なる(図1では0個、図2では1個)ため、同一とみなすことができない場合が存在する。
本発明では、このように罫線が少ない帳票の認識、また書込み内容に影響されない文書認識を可能にする。
ここで、帳票認識(フォーマット識別)の利用方法の1つを説明する。例えば、病院では、医療カルテなどのように個人情報を記載した文書をコピーして、検査機関に当該文書のコピーを渡す場合がある。その場合、個人情報の部分は黒インクなどで塗りつぶすことが行われているが、作業能率が悪く不便である。そこで、医療カルテの個人情報の部分をマスクしてコピーする機械があれば作業を自動化できる。しかし、医療カルテは複数の文書フォーマットがあるので、個人情報の記載領域は、フォーマットに応じて異なる位置に存在する。そこで、帳票認識技術を用いて、当該文書のフォーマットを識別し、その識別されたフォーマットに対応付けられているマスキングテンプレートを用いて、個人情報が記載されている領域をマスクすることができる。
上記課題を解決する為に、本発明の文書処理装置は、登録対象の登録文書を表示する表示手段と、前記表示手段に表示された登録文書に対するユーザの指示に基づいて、当該登録文書の識別に用いる複数の領域と当該各領域の特徴種別と当該各領域の特徴データとを登録する登録手段と、を有する。
本発明によれば、認識できる文書の対象を罫線の少ない帳票などにも広げることができ、また、文書の特徴が表われている部分が明確に指定されるので、文書認識の応用範囲を拡大することが可能となる。
(実施例1)
図3は、実施例1の文書認識システムのシステム構成図である。デジタル複合機301は、文書を読み取る文書読取手段と、コンピュータ302と文書画像を送受信する文書送受信手段と、文書印刷手段とを含む。コンピュータ(文書認識装置)302は、デジタル複合機301で読み取った文書画像を受信する文書入力手段と、文書の指定された領域内の特徴を抽出する特徴抽出手段と、当該指定された領域と各領域の特徴を当該文書の特徴プロファイルとして設定して記憶手段に登録する文書登録手段とを有する。更に、コンピュータ302は、新たに入力された入力文書と登録されている複数の登録文書とを比較して、類似度が最大となった登録文書を求める文書比較手段とを含む。また、デジタル複合機301とコンピュータ302は、LAN303で接続されているものとする。
図3は、実施例1の文書認識システムのシステム構成図である。デジタル複合機301は、文書を読み取る文書読取手段と、コンピュータ302と文書画像を送受信する文書送受信手段と、文書印刷手段とを含む。コンピュータ(文書認識装置)302は、デジタル複合機301で読み取った文書画像を受信する文書入力手段と、文書の指定された領域内の特徴を抽出する特徴抽出手段と、当該指定された領域と各領域の特徴を当該文書の特徴プロファイルとして設定して記憶手段に登録する文書登録手段とを有する。更に、コンピュータ302は、新たに入力された入力文書と登録されている複数の登録文書とを比較して、類似度が最大となった登録文書を求める文書比較手段とを含む。また、デジタル複合機301とコンピュータ302は、LAN303で接続されているものとする。
図4は、デジタル複合機301のハードウェア構成図である。401はデータ/アドレスバス、402は制御を司るCPU(Central Processor Unit)である。また、403は制御プログラムを記憶するROM(Read Only Memory)、404は制御プログラムが作業領域としてデータを一時記憶するRAM(Random Access Memory)、405は文書画像を記憶するハードディスクHDDである。また、406は、文書画像を圧縮したり、画質の改善や二値化処理を行うための画像処理部である。407は操作パネル、408は文書を読み取るための文書スキャナ部、409は文書をプリントするためのプリンタ部、410はネットワークと接続するためのLANインターフェース、411はFAX送受信部である。
図5は、コンピュータ302のハードウェア構成図である。501はデータ/アドレスバス、502は制御を司るCPU(Central Processor Unit)である。503はコンピュータのBIOSを記憶するROM、504はCPUがプログラムを実行する際に一時的にデータを記憶するために利用するRAMである。505は、コンピュータのOS(Operating System)や各種プログラム、データ類を記憶するところのハードディスクである。506はキーボードとマウス、507はディスプレイ、508はネットワークと接続するためのLANインターフェースである。
コンピュータ302のハードディスク505には、文書登録手段をコンピュータに実現させるための文書登録ユーティリティ・アプリケーションプログラムや、特徴抽出手段をコンピュータに実現させるための認識コンポーネントプログラムモジュール(以下、単に認識コンポーネントと呼ぶ)が格納されている。更に、登録文書を記憶する文書データベース(文書記憶手段)や、入力文書の特徴と登録文書の特徴とを比較して入力文書に最も類似する登録文書を決定させるための文書比較手段をコンピュータに実現させるための文書認識コンポーネントプログラムモジュール(以下単に文書認識コンポーネントと呼ぶ)などが記憶されている。
本実施例の認識コンポーネントには、文字列認識、表セル認識、色情報認識、直線認識、黒画素濃度認識、網点認識、文字領域認識、特定画像認識の8個の認識コンポーネントがある。文字列認識コンポーネントは、文字画像を文字認識するプログラムモジュールである。表セル認識コンポーネントは表枠を認識するプログラムモジュールである。色情報認識コンポーネントは色のRGBデータを認識するプログラムモジュールである。直線認識コンポーネントは垂直・水平・斜め右上方向・斜め左上方向の直線を認識するプログラムモジュールである。黒画素濃度認識コンポーネントは黒画素の密度を認識するプログラムモジュールである。網点認識コンポーネントは網点画像を認識するプログラムモジュールである。文字領域認識コンポーネントは文字の領域を認識するプログラムモジュールである。特定画像認識コンポーネントは画像を認識するプログラムモジュールである。各認識コンポーネントは、それぞれの認識結果のデータを文書の特徴として抽出する機能、及び、特徴設定ダイアログ(抽出すべき特徴を指示したり、抽出した特徴データの重みなどを設定したりするためのユーザインターフェース画面)を表示する機能をもっている。
図7は、特徴プロファイルの作成を含む文書の登録のワークフローを説明したフローチャートである。デジタル複合機301で読み取られた登録対象の文書画像がコンピュータ302に送信されると、ステップ701で、該コンピュータ302は、受信した文書画像を文書DBに登録する(文書入力)。
ステップ702では、当該登録した文書画像をディスプレイ507に表示する。
ステップ702では、当該登録した文書画像をディスプレイ507に表示する。
ステップ703では、該文書画像の特徴を表す領域をマウス506でユーザに指定させる。例えば、図6(a)のような文書画像がディスプレイに表示されているとき、ユーザに当該文書画像フォーマットの特徴部分を指定させる。ここでは、図6(b)に示すように文書のタイトルである「外来診療録」の文字列を囲む領域Aをユーザが指定したものとする。
次にステップ704に行き、当該指定された領域Aの特徴をユーザが選択するために、領域Aにマウスポインタを合わせ、マウスの右ボタンをクリックすると図8のように8個の特徴の名称リストがポップアップメニューとして表示される。図6の例では、領域Aに対して、特徴「文字列」がユーザにより選択されると、文字列認識コンポーネントが呼び出され、図9の特徴設定ダイアログが表示される。
図9は、文字列認識コンポーネントによって表示される特徴設定ダイアログである。901はOCR(文字認識)結果が表示されるエリア、902は特徴の設定値を入力するエリアである。904はOCRを実行させるためのボタン、905はOCR結果を設定値にコピーさせるためのボタン、903は設定された特徴に重みを指定させるためのプルダウンメニュー、906はOKボタン、907はキャンセルボタンである。図9のOCR実行ボタン904を押すと、ステップ704で指定した領域A内の文字列画像の文字認識処理が実行される(ステップ705)。この文字認識処理は前記文字列認識コンポーネントによって実行される。
905のボタンを押すと901内に表示された文字認識結果が特徴の設定値として902にコピーされる。なお、誤認識していた場合などは、設定値入力エリア902にコピーされた文字認識結果をユーザが修正したり直接入力したりすることができる。また、903では、当該指定された領域から抽出される特徴の重みをユーザに設定させる(本実施例では1〜10の範囲で設定させる)。
906のOKボタンを押すと、領域Aの位置と大きさの情報(領域情報)と、抽出した特徴の種別を表す特徴IDと、特徴データ(図6(b)の領域Aの場合は「外来診療録」の文字列データ)とが組になって、特徴コンテンツとしてRAM504に一時記憶される(ステップ706)。
なお、特徴IDは、例えば、文字列が01、表セルが02、色情報が03、直線が04、黒画素濃度が05、網点が06、文字領域が07、特定画像が08のように予め割り当てられている。
特徴の種類(認識コンポーネントの種類)としては、図8のポップアップメニューに表示されているように、「文字列」の他に「表セル」、「色情報」、「直線」、「黒画素濃度」、「網点」、「文字領域」、「特定画像」が使用できる。それぞれの特徴の種類ごとに、表セル認識コンポーネント、色情報認識コンポーネント、直線認識コンポーネント、黒画素認識コンポーネント、網点認識コンポーネント、文字領域認識コンポーネント、特定画像認識コンポーネントが用意されている。これらは認識コンポーネントと総称される。認識コンポーネントは、プログラムモジュールであり、HDD505に記憶されており、必要に応じてコンピュータが実行できるようになっている。
なお、「表セル」の特徴データは、当該指定された領域が表枠領域であるかどうかを示すフラグである。「色情報」の特徴データは、当該指定された領域の色を表すRGBのデータである。また、「直線」の特徴データは直線の方向(垂直、水平、斜右上45度、斜右下45度のいずれか)を示すデータである。また、「黒画素濃度」の特徴データは当該指定された領域内を二値化した場合に当該領域内にある黒画素の割合を示すデータである。また、「網点」の特徴データは当該指定された領域内が網点であるかどうかを示すフラグである。また、「文字領域」の特徴データは当該指定された領域が文字領域であるかどうかを示すフラグである。また、特定画像の特徴データは当該指定された領域内の画像データである。
なお、ステップ704で「文字列」以外の特徴種別(認識コンポーネント)が選択された場合も同様に、それぞれの特徴設定ダイアログが表示され、各認識コンポーネントによって抽出されるべき特徴の設定を行い、その領域の重みを設定できる。
ステップ707で、特徴抽出が該文書画像を他の登録文書画像と識別するのに十分でなければNOが選択されステップ703に戻り、さらに他の領域を選択させて特徴抽出が継続される。
例えば、図6では、領域Bが「表セル」、領域Cが「色情報」、領域D、E,Fが「直線」が選択されたものとすると、領域情報(位置と大きさ)、特徴ID、特徴データが組になって特徴コンテンツとしてRAM504に一時記憶されることになる。
ステップ707で特徴抽出が十分であればYESが選択され、ステップ708へ行く。ステップ708では、RAM504に一時記憶された1乃至複数の特徴コンテンツをまとめて1つの特徴プロファイルとしてアーカイブし、該文書画像と関連付けてHDD505の文書DBに記憶保管される。
上記において、文書登録ユーティリティアプリケーションプログラムをコンピュータに実行させることにより、ステップ702での文書を表示する表示手段、703の領域指定手段、704の特徴選択手段、706の特徴コンテンツ作成手段として、コンピュータを機能させる。図7の処理は、文書登録ユーティリティ・アプリケーションプログラムを用いて実行される。
なお、文書登録ユーティリティによって、登録した文書の特徴の修正を行うことができる。例えば、文書DBに登録されている登録文書と特徴プロファイルとを読み込み、図6(b)に示すような文書画像と領域とをディスプレイに表示させ、そして修正対象領域をユーザに選択させ、図7のフローチャートによって、特徴の設定(修正)をすることができる。また、図6(b)に示すような領域を指定して、キーボードの削除キーを押せば、対応する領域の特徴コンテンツは前記特徴プロファイルから除かれる。
図10は特徴プロファイルのフォーマットを説明する図である。1001は対応する登録文書の文書ID、1002はこの特徴プロファイルに含まれる特徴コンテンツの個数、1003、1004は各特徴コンテンツである。「領域の位置」は、領域の左上点の座標であり、「領域の大きさ」は当該領域の幅と高さである。また、「特徴ID」は、当該領域から特徴抽出する際に利用する認識コンポーネント(「文字列」、「表セル」、「色情報」、「直線」、「黒画素濃度」、「網点」、「文字領域」、「特定画像」)を特定するためのIDである。
図11は、文書DBを説明する図である。図11では、n個の文書が登録されている。1101、1102、・・・1103は、それぞれ、登録文書01、登録文書02、・・・登録文書nである。登録文書01、登録文書02、・・・登録文書nは、登録されている文書のイメージもしくは、登録されている文書の記載内容を示すフォーマットに関するデータである。1104、1105、・・・1106は各登録文書に対応する特徴プロファイルである。この前記登録文書と当該文書の特徴プロファイルとが対応付けられて格納される。
次に、入力文書を文書認識(帳票認識/フォーマット識別)する処理を図12、図13を用いて説明する。以下これにそって、文書認識の処理を説明する。
ステップ1201で、デジタル複合機で読み込んだ認識対象(フォーマット識別対象)の文書画像をLAN経由でコンピュータ302が受信する(文書入力)。入力された文書画像は、HDD505に記憶される。ここで、デジタル複合機はカラーの文書画像を送信してくるので、HDD505に記憶された文書画像はJPEGファイルである。
ステップ1202で文書画像の傾斜が自動補正される。文書画像の傾斜補正に関しては、公知の技術を用いることができる。
ステップ1203で、HDD505に記憶されているJPEGの文書画像を二値化してモノクロ文書画像を生成する。この二値画像は文字認識する場合に利用される。
次に、入力文書画像は、文書DBに格納されている複数の登録文書それぞれと順番に比較される。ステップ1204で、比較する登録文書がないかを調べ、まだある場合はステップ1205へいく。
ステップ1205では「文書認識コンポーネント」プログラムモジュールに含まれるサブルーチン「登録文書との類似度算出」処理を呼び出し、入力文書と当該比較対象となっている登録文書との類似度を求める。求めた類似度と登録文書IDとを対応付けて一時保存する。詳細については、図13を用いて後述する。
その後、ステップ1204に戻り、他に比較対象となる登録文書があればステップ1205を繰り返す。一方、もう比較する登録文書がなければステップ1206へ進み、類似度と登録文書IDの組を類似度をキーとしてソートして最大類似度の登録文書のIDを求める。
次に、サブルーチン「登録文書との類似度算出」処理を、図13のフローチャートに沿って説明する。
変数Sは類似度が格納される変数で、特徴コンテンツとの一致度が加算される変数である。ステップ1301で、Sを0に初期化する。
変数Sは類似度が格納される変数で、特徴コンテンツとの一致度が加算される変数である。ステップ1301で、Sを0に初期化する。
ステップ1302では、比較対象にする登録文書の特徴プロファイルを文書DBから読み込む。
ステップ1303〜1306の処理は、前記読み込んだ登録文書の特徴プロファイルに含まれる特徴コンテンツごとにループ処理される。ステップ1303でまだ類似度計算に未使用の特徴コンテンツがあるかを調べ、あれば、ステップ1304に進む。
ステップ1304では当該特徴コンテンツの領域情報(位置と大きさ)に基づいて、入力文書の対応する位置と大きさの領域データを抽出する。そして、当該特徴コンテンツの特徴IDに対応する認識コンポーネントを呼び出して実行することにより、前記領域データの特徴データを作成する。例えば、特徴IDが「文字列」ならば文字列認識コンポーネントが呼び出され、当該入力文書から抽出された領域データを文字認識処理し、当該文字認識結果の文字列コードを特徴データとして作成する。また、その他の特徴IDであれば、それぞれの認識コンポーネントに対応する処理を実行して特徴データを作成する。
ステップ1305で、当該作成した特徴データを、登録文書の対応する特徴コンテンツの特徴データと照合し一致するかどうか調べる。一致すれば、ステップ1306で、当該特徴コンテンツに設定されている重みを使って、次の計算をする。
S←S+1×(重み)
そして、ステップ1303に戻り、当該登録文書の特徴プロファイルに含まれるすべての特徴コンテンツが類似度計算に使用されるまで処理を繰り返す。1303でNOとなれば、ステップ1307へ進み、Sをすべての特徴コンテンツの重みの合計値で除して規格化したものを、当該入力文書に対する当該登録文書の類似度とする。
S←S+1×(重み)
そして、ステップ1303に戻り、当該登録文書の特徴プロファイルに含まれるすべての特徴コンテンツが類似度計算に使用されるまで処理を繰り返す。1303でNOとなれば、ステップ1307へ進み、Sをすべての特徴コンテンツの重みの合計値で除して規格化したものを、当該入力文書に対する当該登録文書の類似度とする。
本実施形態によれば、図6(a)のように表示された入力文書において、図6(b)のように文書の特徴をよく表す領域をユーザが指定して特徴データを特徴プロファイルに記憶させることができる。したがって、図1や図2のような表枠の少ない文書であっても、特徴を抽出することができ、文書を認識することが可能となる。また、図1と図2のように書込みの内容が大きく異なっていても、予めユーザが書込み以外の部分を特徴として選択して登録文書として登録しておけば、図1も図2も同一のフォーマットとして認識することが可能となる。
このように、特徴のある部分を特徴コンテンツとしてユーザに指定させて、特徴プロファイルを作成すれば、どのようなフォーマットの文書(どのような種別の文書)でも特徴を抽出して文書認識(帳票認識/フォーマット識別)が可能となる。
本実施例の文書認識システムでは、デジタル複合機301によって医療カルテのような文書を読取り、コンピュータ302に文書を送信すると、コンピュータ302では、受信した文書を認識してフォーマットを決定することが可能となる。
また、予めフォーマットに対応したマスキングテンプレートを用意して、HDD505に記憶しておけば、医療カルテを文書識別(フォーマット識別)したときに前記マスキングテンプレートを自動適用させるように構成することもできる。そのように構成すれば、個人情報記載領域を適切にマスキングして、マスキング加工した文書画像を作成できる。このマスキング加工済み文書画像をデジタル複合機301に送信し、プリンタ409で印刷することにより、個人情報記載領域だけをマスキングしたコピー物を生成できる。
(実施例2)
前述の実施例1に加え、さらに文書処理装置が識別性検査手段を備えた実施例2を説明する。なお、本実施例では、識別性検査手段を文書処理装置(コンピュータ302)に実現させるためのプログラムが、文書登録ユーティリティプログラムに含まれるものとする。
前述の実施例1に加え、さらに文書処理装置が識別性検査手段を備えた実施例2を説明する。なお、本実施例では、識別性検査手段を文書処理装置(コンピュータ302)に実現させるためのプログラムが、文書登録ユーティリティプログラムに含まれるものとする。
例えば、文書DBに、3つの文書(文書A、文書B、文書C)が登録されているものとする。そして、各登録文書A,B,Cに対して特徴プロファイルFA、FB、FCが文書登録ユーティリティを使って作成されているものとする。
このとき、文書Aを入力文書とみたてると、A−B、A−Cとの比較ができ、類似度が計算される。この場合、A−Bの比較では、Bの特徴プロファイルFBが利用され、A−Cの比較では、Cの特徴プロファイルFCが利用される。同様に、Bを入力文書とみたてると、B−A、B−Cの比較ができ、Cを入力文書とみたてると、C−A、C−Bの比較ができ、全部で6通りの比較の結果、6個の類似度が求まる。なお、類似度の算出は図13で説明した処理と同様の処理で算出される。ところで、A,B、Cの登録文書は区別されるべく登録されているわけであるから、6個の類似度は一致を示す基準閾値以下でなければ、誤認識を起こす確率が高くなってしまう。もし、一致を示す基準閾値以上の類似度が1つでもあれば、特徴プロファイルが適切に作成されていないとみることができる。
識別性検査手段とは、n個の登録文書について、n(n−1)通りの組み合わせについてすべての類似度を求め、その中の最大類似度があらかじめ定義されている基準閾値(例えば、0.8)以下であるかどうかを判定する手段である。もし、この判定の結果、最大類似度が、基準閾値以上であれば、基準閾値以上の類似度を生ぜしめる登録文書の特徴プロファイルを作成しなおすのが望ましい。つまり、登録されている特徴プロファイルが、文書識別を行うのに適切でない可能性がある。そこで、0.8以上となる登録文書の特徴プロファイルがあった場合は、適切でない可能性があると判断して、ユーザに対して警告を行い、特徴プロファイルの修正を促す。
一方、登録文書間の類似度が非常に低い場合、登録文書間の差異が大きいということなので、認識に用いている特徴コンテンツの一部を省いても十分識別できる可能性がある。このような余分な特徴コンテンツを省くことができれば識別処理時間を短縮することができる。そこで、以下では、識別性検査手段が余分な特徴コンテンツを検出する機能を有する実施の形態を図14のフローチャートを用いて説明する。図14は、余分な特徴コンテンツを検出し特徴プロファイルから該特徴コンテンツを取り除き、特徴プロファイルをスリム化する処理手続きを示すフローチャートである。前記識別性検査手段は、図14のフローチャートの処理も実行できるものとする。この図14のフローチャートの処理は、特徴プロファイルスリム化プログラムモジュールとして該識別性検査手段をコンピュータに実現させるためのプログラムに含まれるものとする。
まず、図14の処理を実行する前に、上述したn(n−1)通りの登録文書間の比較を実行し、類似度が予め決めておいた低閾値(例えば0.2)以下となった特徴プロファイルFを特定する。その特定された特徴プロファイルFに含まれる特徴コンテンツの個数をmとし、第i番目の特徴コンテンツをFから取り除いた新たな特徴プロファイルを<F|i>という記号で表現することとする。<F|i>は、m個存在する。
ステップ1401で、インデックスの変数iを1に初期化する。次にステップ1402では、ステップ1403〜1406を繰り返し処理するための終了条件を判定するため、iがm以下であるかどうかをチェックする。m以下であれば、次のステップ1403に行き、そうでなければ終了する。
ステップ1403では、当該特定された特徴プロファイルFを<F|i>で置き換え、登録文書全体の識別性検査(n(n−1)通りの登録文書間の比較処理)を行う。
ステップ1404で、識別性検査の結果の最大類似度が基準閾値(0.8)以下であるかどうかを検査する。その判定がYESならば、当該i番目の特徴コンテンツを省いた特徴プロファイルを用いても十分識別可能であると判断し、ステップ1405に進んで、特徴プロファイルFから当該i番目の特徴コンテンツを削除する(無効にする)。
一方、ステップ1404の判定でNOならば、当該i番目の特徴コンテンツを省くと登録文書識別が不十分になってしまう(誤認識が多くなってしまう)と判断し、当該特徴コンテンツは省かずにステップ1406へ進む。ステップ1406ではiを1増分して、ステップ1402に進み、その他の特徴コンテンツについて取り除いても構わないかかどうかの調査を繰り返す。
図14の処理は、特定された1つの特徴プロファイルについて説明したものであるが、登録文書同士の比較結果の類似度が低閾値(0.2)以下になる全ての特徴プロファイルについて、図14の処理を繰り返してもよい。このように、登録文書すべての特徴プロファイルから余分な特徴コンテンツを取り除くことにより、文書比較処理の効率がよくなる。
(その他の実施例)
上述した実施例では、コンピュータにHDD505に格納されたプログラムを実行させることにより、該コンピュータを前述したフローチャートの処理を実行する各手段として機能させる例を説明した。しかしながら、このコンピュータプログラムは、該HDDに格納されているものに限るものではなく、その他の記憶媒体に記憶されているものであっても構わない。また、該コンピュータプログラムは、ネットワークを介して、外部装置から供給されるものであっても構わない。
上述した実施例では、コンピュータにHDD505に格納されたプログラムを実行させることにより、該コンピュータを前述したフローチャートの処理を実行する各手段として機能させる例を説明した。しかしながら、このコンピュータプログラムは、該HDDに格納されているものに限るものではなく、その他の記憶媒体に記憶されているものであっても構わない。また、該コンピュータプログラムは、ネットワークを介して、外部装置から供給されるものであっても構わない。
また、本発明は、コンピュータプログラムをコンピュータに実行させることにより実現させるものに限るものではなく、その処理の一部または全部を、電気回路などの専用ハードウェアを用いて実現させるようにしても構わない。
Claims (10)
- 登録対象の登録文書を表示する表示手段と、
前記表示手段に表示された登録文書に対するユーザの指示に基づいて、当該登録文書の識別に用いる複数の領域と当該各領域の特徴種別と当該各領域の特徴データとを登録する登録手段と、
を有することを特徴とする文書処理装置。 - 前記登録手段は、ユーザの指示に基づいて、前記各領域に対して、前記文書の識別を行う際の重み付けを設定する請求項1に記載の文書処理装置。
- 識別対象の文書画像を入力する入力手段と、
前記登録手段により登録されている領域に対応する前記入力された文書画像の領域から、前記特徴種別にもとづいて特徴データを作成し、当該作成された特徴データを前記登録手段により登録されている特徴データと比較することによって、前記入力された文書画像に対応する登録文書を識別する比較手段と、
を有することを特徴とする請求項1に記載の文書処理装置。 - 前記登録手段により登録されている複数の登録文書間の比較を行うことによって、当該登録文書に対して登録されている領域と特徴種別と特徴データとが適切であるか否か判断する検査手段を、更に有することを特徴とする請求項1に記載の文書処理装置。
- 前記検査手段は、適切でないと判断した場合、前記登録手段により登録されている登録文書のデータ修正を行うように警告を行うことを特徴とする請求項4に記載の文書処理装置。
- 前記検査手段は、前記登録手段により登録されている登録文書について、当該登録文書の識別に余分な特徴データを検出することを特徴とする請求項4に記載の文書処理装置。
- 前記入力手段は、ネットワークを介して外部のスキャナ装置から送信されてきた文書画像を、前記識別対象の文書画像として入力することを特徴とする請求項3に記載の文書処理方法。
- 登録対象の登録文書を表示する表示工程と、
前記表示工程で表示された登録文書に対するユーザの指示に基づいて、当該登録文書の識別に用いる複数の領域と当該各領域の特徴種別と当該各領域の特徴データとを登録する登録工程と、
を文書処理装置が実行することを特徴とする文書処理方法。 - コンピュータを、
登録対象の登録文書を表示する表示手段と、
前記表示手段に表示された登録文書に対するユーザの指示に基づいて、当該登録文書の識別に用いる複数の領域と当該各領域の特徴種別と当該各領域の特徴データとを登録する登録手段と、
して機能させるためのコンピュータプログラム。 - 請求項9に記載のコンピュータプログラムを格納した、コンピュータ読取可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007019472A JP2008186256A (ja) | 2007-01-30 | 2007-01-30 | 文書処理装置、文書処理方法、コンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007019472A JP2008186256A (ja) | 2007-01-30 | 2007-01-30 | 文書処理装置、文書処理方法、コンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008186256A true JP2008186256A (ja) | 2008-08-14 |
Family
ID=39729249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007019472A Pending JP2008186256A (ja) | 2007-01-30 | 2007-01-30 | 文書処理装置、文書処理方法、コンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008186256A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010102668A (ja) * | 2008-10-27 | 2010-05-06 | Hitachi Software Eng Co Ltd | メタデータ抽出装置およびその方法 |
JP6420513B1 (ja) * | 2018-03-19 | 2018-11-07 | 雅晴 古川 | 情報管理装置 |
-
2007
- 2007-01-30 JP JP2007019472A patent/JP2008186256A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010102668A (ja) * | 2008-10-27 | 2010-05-06 | Hitachi Software Eng Co Ltd | メタデータ抽出装置およびその方法 |
JP6420513B1 (ja) * | 2018-03-19 | 2018-11-07 | 雅晴 古川 | 情報管理装置 |
JP2019164507A (ja) * | 2018-03-19 | 2019-09-26 | 雅晴 古川 | 情報管理装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7925082B2 (en) | Information processing apparatus, information processing method, computer readable medium, and computer data signal | |
JP4742404B2 (ja) | 画像認識装置、画像形成装置、画像認識方法および画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体 | |
US7640269B2 (en) | Image processing system and image processing method | |
US8126270B2 (en) | Image processing apparatus and image processing method for performing region segmentation processing | |
US9710524B2 (en) | Image processing apparatus, image processing method, and computer-readable storage medium | |
US8391607B2 (en) | Image processor and computer readable medium | |
JP2008146605A (ja) | 画像処理装置及びその制御方法 | |
US11670067B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
US11418658B2 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
US8538154B2 (en) | Image processing method and image processing apparatus for extracting heading region from image of document | |
US7844080B2 (en) | Image processing system and image processing method, and computer program | |
EP2884425A1 (en) | Method and system of extracting structured data from a document | |
JP2008312139A (ja) | 印刷装置及び印刷方法 | |
JP2009004990A (ja) | 画像形成装置および画像形成方法 | |
JP2007041709A (ja) | 文書処理システム、文書処理システムの制御方法、文書処理装置、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体 | |
JP4811133B2 (ja) | 画像形成装置及び画像処理装置 | |
US8749854B2 (en) | Image processing apparatus, method for performing image processing and computer readable medium | |
JP2008186256A (ja) | 文書処理装置、文書処理方法、コンピュータプログラム | |
JP2009026075A (ja) | 画像処理装置 | |
CN114611475A (zh) | 信息处理装置、信息处理方法和计算机可读介质 | |
US8736912B2 (en) | Image processing apparatus, image processing method and computer readable medium | |
CN112396046A (zh) | 信息处理装置及记录媒体 | |
JP2017072941A (ja) | 文書振り分けシステム、情報処理方法及びプログラム | |
JP6012700B2 (ja) | 情報処理装置、情報処理方法、情報処理システム、コンピュータプログラム | |
WO2023062799A1 (ja) | 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100201 |