JP4788205B2 - 文書検索装置及び文書検索プログラム - Google Patents

文書検索装置及び文書検索プログラム Download PDF

Info

Publication number
JP4788205B2
JP4788205B2 JP2005182495A JP2005182495A JP4788205B2 JP 4788205 B2 JP4788205 B2 JP 4788205B2 JP 2005182495 A JP2005182495 A JP 2005182495A JP 2005182495 A JP2005182495 A JP 2005182495A JP 4788205 B2 JP4788205 B2 JP 4788205B2
Authority
JP
Japan
Prior art keywords
document
image data
search
information
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005182495A
Other languages
English (en)
Other versions
JP2007004393A5 (ja
JP2007004393A (ja
Inventor
一郎 山下
哲範 村上
嘉英 甲谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2005182495A priority Critical patent/JP4788205B2/ja
Publication of JP2007004393A publication Critical patent/JP2007004393A/ja
Publication of JP2007004393A5 publication Critical patent/JP2007004393A5/ja
Application granted granted Critical
Publication of JP4788205B2 publication Critical patent/JP4788205B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、文書に関する情報が蓄積されたデータベースの中から、入力された画像データに合致する文書を検索する装置及び方法に関する。
近年、企業における情報のセキュリティ強化、コンプライアンスあるいは個人情報の保護など情報の取扱いが重要視されてきている。例えば、企業側は、監査などに応じて業務がどのような情報に基づいて遂行されたかを公開する必要がある。そのためには、情報に対するアクセス状況をログ管理して、いつ誰がどのような情報をどこからどう処理したのかなどを特定できるようにしておく必要がある。
ところで、従来から紙媒体で取り扱われる機密情報のセキュリティ管理強化等のために、印刷用紙等の媒体にUUID(Universary Unique Identifier)に割り振って、そのUUIDをバーコードやICタグなどで媒体に印刷したり、埋め込んだりする技術がある。このUUIDを利用すれば、媒体に関する管理情報を検索することによって、手元にある機密文書がいつ誰がその機密文書を作成したかなどを特定することができる。従って、手元にある機密文書が不正若しくは無断で複製された文書であっても、その機密文書の作成元を探し出すことが可能になる。
このように、UUIDを利用することで文書の作成元を容易に特定することができるが、UUIDを利用する技術の他に文書を特定する際に用いるデータとして、文書の画像データから特徴量を算出し、その特徴量に基づいて原画像データを特定する技術がある(例えば特許文献1〜4)。
特開2004−139210号公報 特開平9−270902号公報 特開2003−281176号公報 特開平10−49659号公報
しかしながら、従来においては、消去されたり、紙が汚れたりしてUUIDが特定することができない場合があり、このような場合には、文書作成元を特定することができない。また、UUIDの入力も面倒である。また、特徴量を利用する技術だけでは、文書作成元を特定する精度に難点がある。
本発明は、読み取った文書をより確実に探し出すことを目的とする
以上のような目的を達成するために、本発明に係る文書検索装置は、文書に関する情報が蓄積されたデータベースの中から、入力された画像データに合致する文書を検索する文書検索装置において、文書の画像データを入力する画像データ入力手段と、入力された文書の画像データから当該文書を特定しうる複数種類の文書特徴情報を抽出する文書特徴抽出処理手段と、前記文書特徴抽出処理手段から抽出された各文書特徴情報に基づき前記データベースを検索することによって当該文書の選択候補を取得する取得手段と、前記取得手段により取得された選択候補を評価することによって当該文書を特定する評価手段と、前記評価手段による評価結果を出力する出力手段とを有し、前記文書特徴抽出処理手段は、文書特徴情報として、当該文書に固有に割り付けられた識別情報を、画像データから抽出する識別情報抽出部と、文書特徴情報として、当該画像データの文字認識結果の中から所定の基準で単語を抽出する検索語抽出部と、文書識別情報として、当該文書の特徴量を画像データから算出する特徴量抽出部とを有し、入力された文書の画像データに基づき文書特徴情報の抽出に適用する前記各抽出部の優先順位付けを行うことを特徴とする。
また、前記画像データ入力手段は、画像読取手段によって読み取られた画像データを入力し、前記文書特徴抽出処理手段は、前記画像読取手段による読取時に選択されたスキャンモードを参照して前記各抽出部の優先順位付けを行うことを特徴とする。
また、前記文書特徴抽出処理手段は、全ての前記抽出部を用いて文書特徴情報を抽出することを特徴とする。
本発明に係る文書検索プログラムは、文書に関する情報が蓄積されたデータベースの中から、入力された画像データに合致する文書を検索するコンピュータを、文書の画像データを入力する画像データ入力手段、入力された文書の画像データから当該文書を特定しうる複数種類の文書特徴情報を抽出する文書特徴抽出処理手段、前記文書特徴抽出処理手段から抽出された各文書特徴情報に基づき前記データベースを検索することによって当該文書の選択候補を取得する取得手段、前記取得手段により取得された選択候補を評価することによって当該文書を特定する評価手段、前記評価手段による評価結果を出力する出力手段、として機能させ、前記文書特徴抽出処理手段は、文書特徴情報として、当該文書に固有に割り付けられた識別情報を、画像データから抽出する識別情報抽出部と、文書特徴情報として、当該画像データの文字認識結果の中から所定の基準で単語を抽出する検索語抽出部と、文書識別情報として、当該文書の特徴量を画像データから算出する特徴量抽出部と、を有し、入力された文書の画像データに基づき文書特徴情報の抽出に適用する前記各抽出部の優先順位付けを行うことを特徴とする。
本発明によれば、複数種類の文書特徴情報を抽出し、検索するという手段を組み合わせることにより、より確実に探し出すことができる。
以下、図面に基づいて、本発明の好適な実施の形態について説明する。
実施の形態1.
図1は、本発明に係る文書検索装置の一実施の形態を示した機能ブロック構成図である。本実施の形態における文書検索装置は、画像読取部1、抽出処理制御部2、UUID抽出部4、特徴量抽出部6、検索語抽出部8、UUID検索部10、類似画像検索部12、文書検索部14、検索結果評価部16及び表示部18を有している。画像読取部1は、文書が記載された原稿を読み取る。UUID抽出部4は、OCR(光学的文字読取装置)を用いて読取画像からUUIDを抽出する。特徴量抽出部6は、読取画像から画像の特徴量を算出する。抽出処理制御部2は、各抽出部6における各抽出処理の実行順の決定などの処理制御を行う。検索語抽出部8は、OCRを用いて読取画像からテキスト文字を抽出し、その中から検索語を抽出する。本実施の形態では、読取画像から当該文書を特定しうる文書特徴情報を抽出する文書特徴抽出処理手段としてUUID抽出部4、特徴量抽出部6及び検索語抽出部8を設け、各抽出部4,6,8に文書特徴情報として、UUID、特徴量及び検索語という異なる種類の情報をそれぞれ抽出させるようにした。そして、データベース検索によって当該文書の選択候補を取得する取得手段として、UUID検索部10、類似画像検索部12及び文書検索部14をそれぞれ各抽出部4,6,8に対応させて設けた。つまり、UUIDデータベース20には、各文書に割り振られたUUIDが登録されているので、UUID検索部10は、読取画像から抽出されたUUIDをキーにUUIDデータベース20を検索することで該当する文書を特定する。また、類似画像データベース22には、読取画像から抽出された特徴量が登録されているので、類似画像検索部12は、読取画像から抽出された特徴量に基づき類似画像データベース22を検索することで該当する文書を特定する。また、文書データベース24には、文書自体が登録されているので、文書検索部14は、読取画像から抽出された検索語をキーに文書データベース24を検索することで該当する文書を特定する。なお、各検索部10〜14における検索処理の結果として、該当する文書が一つだけ必ず選択されるとは限らず、複数の文書が特定される場合もあるため、このような場合には、選択候補を取得するという表現の方が適切になる。検索結果評価部16は、各検索部12により得られた検索結果を評価して当該文書を特定する。表示部18は、検索結果評価部16による評価結果に従い特定された文書に関する情報を文書情報データベース26から取り出して画面表示する。
なお、図1では、1台の文書検索装置として図示したが、実際には、図2に示したネットワークシステムで実現を想定している。すなわち、図2には、画像形成装置30とデータベースサーバ32とをLAN(ローカルエリアネットワーク)34で接続した構成が示されているが、図1に示した各データベース20〜24はデータベースサーバ32に、それ以外の構成は画像形成装置30に、それぞれ搭載することを想定している。ただ、各データベース20〜24を1台のデータベースサーバで一括管理するという構成に限定されるものではない。また、図2では便宜的に1台の画像形成装置30のみ示したが、実際には図1を用いて説明した各機能を搭載した画像形成装置30が複数台接続されており、データベースサーバ32は、いずれかの画像形成装置30からの要求に応じてデータベース検索を行い、その検索結果を要求元の画像形成装置30へ返信する。
また、本実施の形態における文書検索装置は、各データベース20〜24を除き、複合機等の画像形成装置30の内部に形成されている。実際には、画像形成装置30に搭載されたコンピュータで実現される。そして、画像読取部1はスキャナと、UUID抽出部4及び検索語抽出部8はOCRと、表示部18は操作パネルと、それぞれ連携動作する。各構成要素2〜16の各処理機能は、画像形成装置30に搭載されたコンピュータ及びスキャナ等の機器と、そのコンピュータにより実行されるソフトウェアプログラムとの協調動作によって実現される。
次に、本実施の形態における文書検索処理について図3に示したフローチャートを用いて説明する。
例えば、何らかの原因で漏洩した文書が、いま入手でき、この文書に関する情報、例えばこの文書がいつ誰によって作成されたものであるかを追求したいとする。なお、ここでは、便宜的にその文書は1枚の用紙のみで構成されているものとし、用紙の所定位置(例えば、用紙の下端から20〜30mm)に文字列コードで表記されたUUIDが印刷されているものとする。ユーザは、画像形成装置のスキャン機能を利用してこの文書をスキャンする。画像読取部1は、このスキャンによって文書を読み取ることで読取画像を形成する(ステップ101)。なお、画像読取部1は、読取画像を自ら形成しなくても、他の装置でスキャンされ生成された読取画像をネットワーク経由で取得する場合もこの処理に含まれるものとする。
次に、UUID抽出部4は、読取画像からUUIDを抽出する(ステップ102)。UUIDは、画像の所定領域(画像の下端から20〜30mm)に付されているので、この所定領域内のコードを読み取ることで抽出できる。本実施の形態では、文字列(文字モード)で記載されたUUIDを想定したため、OCRで文字認識するようにしたが、例えばバーコードで表記されている場合はバーコードリーダによってUUIDを判読することになる。いずれにしてもUUIDの付加方法に合わせたUUIDの抽出手段を用いればよい。
ここで、読取画像からUUIDが正常に抽出できた場合、UUID検索部10は、読取画像から抽出されたUUIDをキーにUUIDデータベース20を検索する(ステップ103,104)。UUIDは、各文書にユニークに割り付けられているので、通常であれば、この検索によりただ一つの文書が抽出され特定されることになる。従って、この場合の検索結果評価部16は、特に検索結果を評価する必要はなく、表示部18は、UUID検索部10による検索により特定されたUUIDをキーに文書情報データベース26を検索して取り出した当該文書に関する情報を画面表示する(ステップ112)。
本実施の形態における文書情報データベース26には、各UUIDに対応させて、当該文書の画像データ、作成日時、作成者及び機器に関する情報で構成される。画像データは、画像読取部1などの画像読取手段によって読み取られた画像そのものもデータを想定しているが、データ量が膨大となるためサムネイルとしてもよい。作成日時は、当該文書が作成された日時を特定するための時間情報である。作成者は、当該文書を作成した者を識別する情報であり、ユーザID若しくはユーザ名であり、文書を作成する装置にログインしたときに指定されたユーザ情報から得る。機器は、当該文書が作成された機器を特定する情報であり、本実施の形態ではIPアドレスを用いる。なお、プリント機能のように画像形成装置に対してネットワーク経由で印刷データを送信して印刷処理を実施させるような場合には、その印刷データ送信元のIPアドレスも合わせて記録する。FAX送信機能の場合は、送信先のIPアドレスも合わせて記録する。
従って、表示部18は、UUID検索部10による検索により特定されたUUIDに対応した文書に関する上記情報を画面表示することになる。これにより、ユーザは、漏洩した文書が、いつ誰によってどの機器を用いて印刷されたかを特定することができる。
なお、読取画像からUUIDが正常に抽出できた場合、基本的には、以上のように処理されるが、例外的に、読取画像からUUIDが正常に抽出できたと判断してもOCRの解読ミス等で、読取画像から抽出されたUUIDと合致するUUIDがUUIDデータベース20に存在しない場合も想定できる。この場合は、いくつかの桁をワイルドカードとして検索をしたり、例えば8と9、0と6など解読ミスをしやすい数字を入れ替えながら検索をしたりして複数の選択候補を抽出するようにしてもよい。あるいは、自動抽出したUUIDを画面表示してユーザにより修正させるような手段を設けるようにしてもよい。なお、選択候補を複数抽出した場合、検索結果評価部16は、抽出したUUIDをキーに文書情報データベース26を検索して取り出した各文書に関する情報を画面表示する(ステップ112)。ユーザは、表示された情報を参照に、漏洩文書と合致する文書を探し出す。この場合、文書検索装置は、ただ1つの文書を特定することはできないが、選択候補を抽出できるので、漏洩文書の作成元の特定を支援することは可能である。
一方、故意若しくは用紙上の汚れなどにより読取画像からUUIDが正常に抽出できなかった場合、検索語抽出部8は、OCRを使って読取画像からテキストを抽出する(ステップ103,105)。そして、形態素解析を行ってテキストから単語を切り出し、有効語を抽出する(ステップ106)。ここでいう有効語というのは、予め定められた文字数以上の単語、予め定められた出現頻度以上の単語及び単語の存在確率が予め定められた値より大きい単語の総称である。また、単語の存在確率というのは、「N文字の単語認識率は文字認識率のN乗である。」及び「この単語が当該文書にM回出現している場合には、1−((1−(文字認識率のN乗))のM乗)が当該文書内にある確率である。」としたときの確率であると定義する。
ここで、抽出した有効語の数が予め決めたn個より多く抽出できた場合、文書検索部14は、読取画像から抽出された有効語を検索語(キーワード)として、あるいは有効語の組合せにより検索式を生成する(ステップ107,108)、検索式は、例えば有効語を出現頻度順に並べたときの上位i番目までの有効語のANDをとる、あるいは、有効語を構成する文字数の多い順に並べたときの上位j番目までの有効語のANDをとる、などの規則に従い生成する。このようにして得た生成した検索語若しくは検索式によって全ての文書が登録されている文書データベース24を検索することによって文書を抽出する(ステップ109)。なお、検索結果が0件の場合は、検索語を自動若しくはユーザ選択により減らして検索式を作成し直すようにしてもよい。
検索結果評価部16は、検索結果を参照し、検索語と一致度の高い文書ほど、漏洩文書に該当する確率が高いと判断してヒット率の高い上位k番目までの文書を選択候補として抽出する。表示部18は、抽出した文書に付加されているUUIDをキーに文書情報データベース26を検索して取り出した当該文書に関する情報を画面表示する(ステップ112)。ユーザは、表示された情報を参照し、漏洩文書と見比べることで、漏洩文書に合致する文書を複数候補の中から見つけ出すことができる。
一方、抽出した有効語の数が予め決めたn個より多く抽出できなかった場合(ステップ107)、続いて特徴量に基づく文書検索処理に移行する。これは、必要数以上の検索語が抽出できなかったために検索語による文書検索では的確な結果が得られないと判断できることである。このとき、特徴量抽出部6は、読取画像から色彩情報、テクスチャ情報、形状情報などの特徴を解析して特徴量を抽出する(ステップ110)。そして、類似画像検索部12は、抽出された特徴量に基づき類似画像データベース22を検索することによって抽出特徴量から推測される文書を特定する(ステップ112)。この場合も、予め決めている類似度の高い上位k番目までの文書を選択候補として抽出する。表示部18は、抽出した類似画像に付加されているUUIDをキーに文書情報データベース26を検索して取り出した当該文書に関する情報を画面表示する(ステップ112)。ユーザは、表示された情報を参照し、漏洩文書と見比べることで、漏洩文書に合致する文書を複数候補の中から見つけ出すことができる。
本実施の形態によれば、以上のように異なる3種類の検索方法を組み合わせることで、漏洩文書に関する情報をより確実に探し出すことができる。本実施の形態では、フローチャートに示した処理手順から明らかなようにUUIDが抽出できればUUIDによる検索を実行し、UUIDが抽出できないときには検索語として有効な語数を調べ、所定値以上の検索語が存在すれば検索語を抽出し、そして存在しなければ特徴量を抽出するようにした。すなわち、UUID、検索語、特徴量という順に優先順位付けをして検索方法を適用するようにした。
実施の形態2.
本実施の形態における文書検索処理について図4に示したフローチャートを用いて説明する。図4において、実施の形態1において図3を用いて説明した処理と同じ処理には、同じステップ番号を付け、説明を適宜省略する。なお、本実施の形態における装置構成は、実施の形態1と同じでよいため説明を省略する。
文書スキャンによって読取画像を形成すると(ステップ101)、読取画像からUUIDを抽出する(ステップ102)。読取画像からUUIDが正常に抽出できた場合、UUID検索部10は、そのUUIDをキーにUUIDデータベース20を検索し(ステップ103,104)、その検索結果を画面表示する(ステップ104,112)。
一方、読取画像からUUIDが正常に抽出できなかった場合、この場合の処理が実施の形態1と異なる処理手順であるが、このとき、抽出処理制御部2は、文書が読み取られたときのスキャンモードを確認し、そのスキャンモードが写真モードであれば、特徴量を抽出し、類似画像を検索、表示する(ステップ201,110〜112)。一方、スキャンモードが写真モードでなければ、検索語を抽出し、文書を検索、表示する(ステップ201,105〜109,112)。
すなわち、上記説明では、文字によって記述された「文書」を前提にしているが、読み取るべき用紙には、実際には写真の印刷領域が全部若しくは大半の場合もある。この場合、ユーザは、読取精度を考慮して、写真モードを選択してスキャンすると考えられる。この場合は、検索語を抽出するよりも特徴量を用いて検索した方が適切であると考えられる。そこで、本実施の形態では、スキャンモードとして写真モードが選択されているか否かを調べて検索方法を選択するようにした。すなわち、本実施の形態では、UUID、特徴量、検索語という順に優先順位付けをして検索方法を適用するようにした。
実施の形態3.
本実施の形態における文書検索処理について図5に示したフローチャートを用いて説明する。図5において、実施の形態2において図4を用いて説明した処理と同じ処理には、同じステップ番号を付け、説明を適宜省略する。なお、本実施の形態における装置構成は、実施の形態1と同じでよいため説明を省略する。
文書スキャンによって読取画像を形成すると(ステップ101)、抽出処理制御部2は、文書が読み取られたときのスキャンモードを確認し、そのスキャンモードが写真モードであれば、特徴量を抽出し、類似画像を検索、表示する(ステップ201,110〜112)。一方、スキャンモードが写真モードでなければ、読取画像からUUIDを抽出する(ステップ102)。読取画像からUUIDが正常に抽出できた場合、UUID検索部10は、そのUUIDをキーにUUIDデータベース20を検索し、その検索結果を画面表示する(ステップ103,104,112)。
すなわち、上記実施の形態2では、検索語より特徴量を優先することによって写真原稿の場合に適していると説明した。本実施の形態では、さらにその傾向を強めた。つまり、本実施の形態は、UUIDが印刷できない写真原稿の場合には、UUIDを確認するまでもなく特徴量を抽出しようとするものである。すなわち、本実施の形態では、特徴量、UUID、検索語という順に優先順位付けをして検索方法を適用するようにした。
上記各実施の形態によれば、各検索処理を選択的に実行し、その検索結果を表示するようにしたので、漏洩文書に合致する文書情報を確実に探し出すことができる。また、ユーザは、文書をスキャンするという操作だけを行えばよいので簡単である。
実施の形態4.
本実施の形態における文書検索処理について図6に示したフローチャートを用いて説明する。図6において、実施の形態1において図3を用いて説明した処理と同じ処理には、同じステップ番号を付け、説明を適宜省略する。なお、本実施の形態における装置構成は、実施の形態1と同じでよいため説明を省略する。
文書スキャンによって読取画像を形成すると(ステップ101)、抽出処理制御部2は、本実施の形態が抽出する全ての文書特徴情報、すなわちUUIDと検索語と特徴量との各抽出処理を同時並行して実施させる(ステップ102〜104,105〜109,110〜111)。そして、検索結果評価部16は、各検索部10,12,14による検索結果をマージする(ステップ401)。マージは、予め決められた評価基準、例えば抽出数を検索結果毎に設定し、例えばUUID、検索語、特徴量といった予め決めた順番に各検索結果を並べる。表示部18は、そのマージした結果を画面表示する(ステップ112)。
本実施の形態によれば、各検索処理を組み合わせて実行し、その検索結果をマージして表示できるようにしたので、漏洩文書に合致する文書情報を探し出せる可能性が高くなる。また、ユーザは、文書をスキャンするという操作だけを行えばよいので簡単である。
本発明に係る文書検索装置の一実施の形態を示した機能ブロック構成図である。 本実施の形態における文書検索装置を適用したネットワークシステムの全体構成図である。 実施の形態1における文書検索処理を示したフローチャートである。 実施の形態2における文書検索処理を示したフローチャートである。 実施の形態3における文書検索処理を示したフローチャートである。 実施の形態4における文書検索処理を示したフローチャートである。
符号の説明
1 画像読取部、2 抽出処理制御部、4 UUID抽出部、6 特徴量抽出部、8 検索語抽出部、10 UUID検索部、12 類似画像検索部、14 文書検索部、16 検索結果評価部、18 表示部、20 UUIDデータベース、22 類似画像データベース、24 文書データベース、26 文書情報データベース、30 画像形成装置、32 データベースサーバ、34 LAN。

Claims (4)

  1. 文書に関する情報が蓄積されたデータベースの中から、入力された画像データに合致する文書を検索する文書検索装置において、
    文書の画像データを入力する画像データ入力手段と、
    入力された文書の画像データから当該文書を特定しうる複数種類の文書特徴情報を抽出する文書特徴抽出処理手段と、
    前記文書特徴抽出処理手段から抽出された各文書特徴情報に基づき前記データベースを検索することによって当該文書の選択候補を取得する取得手段と、
    前記取得手段により取得された選択候補を評価することによって当該文書を特定する評価手段と、
    前記評価手段による評価結果を出力する出力手段と、
    を有し、
    前記文書特徴抽出処理手段は、
    文書特徴情報として、当該文書に固有に割り付けられた識別情報を、画像データから抽出する識別情報抽出部と、
    文書特徴情報として、当該画像データの文字認識結果の中から所定の基準で単語を抽出する検索語抽出部と、
    文書識別情報として、当該文書の特徴量を画像データから算出する特徴量抽出部と、
    を有し、入力された文書の画像データに基づき文書特徴情報の抽出に適用する前記各抽出部の優先順位付けを行うことを特徴とする文書検索装置。
  2. 請求項1記載の文書検索装置において、
    前記画像データ入力手段は、画像読取手段によって読み取られた画像データを入力し、
    前記文書特徴抽出処理手段は、前記画像読取手段による読取時に選択されたスキャンモードを参照して前記各抽出部の優先順位付けを行うことを特徴とする文書検索装置。
  3. 請求項1記載の文書検索装置において、
    前記文書特徴抽出処理手段は、全ての前記抽出部を用いて文書特徴情報を抽出することを特徴とする文書検索装置。
  4. 文書に関する情報が蓄積されたデータベースの中から、入力された画像データに合致する文書を検索するコンピュータを、
    文書の画像データを入力する画像データ入力手段、
    入力された文書の画像データから当該文書を特定しうる複数種類の文書特徴情報を抽出する文書特徴抽出処理手段、
    前記文書特徴抽出処理手段から抽出された各文書特徴情報に基づき前記データベースを検索することによって当該文書の選択候補を取得する取得手段、
    前記取得手段により取得された選択候補を評価することによって当該文書を特定する評価手段、
    前記評価手段による評価結果を出力する出力手段、
    として機能させ、
    前記文書特徴抽出処理手段は、
    文書特徴情報として、当該文書に固有に割り付けられた識別情報を、画像データから抽出する識別情報抽出部と、
    文書特徴情報として、当該画像データの文字認識結果の中から所定の基準で単語を抽出する検索語抽出部と、
    文書識別情報として、当該文書の特徴量を画像データから算出する特徴量抽出部と、
    を有し、入力された文書の画像データに基づき文書特徴情報の抽出に適用する前記各抽出部の優先順位付けを行うことを特徴とする文書検索プログラム。
JP2005182495A 2005-06-22 2005-06-22 文書検索装置及び文書検索プログラム Expired - Fee Related JP4788205B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005182495A JP4788205B2 (ja) 2005-06-22 2005-06-22 文書検索装置及び文書検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005182495A JP4788205B2 (ja) 2005-06-22 2005-06-22 文書検索装置及び文書検索プログラム

Publications (3)

Publication Number Publication Date
JP2007004393A JP2007004393A (ja) 2007-01-11
JP2007004393A5 JP2007004393A5 (ja) 2008-07-31
JP4788205B2 true JP4788205B2 (ja) 2011-10-05

Family

ID=37689976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005182495A Expired - Fee Related JP4788205B2 (ja) 2005-06-22 2005-06-22 文書検索装置及び文書検索プログラム

Country Status (1)

Country Link
JP (1) JP4788205B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114610A (ja) * 1993-08-26 1995-05-02 Fuji Xerox Co Ltd 情報処理システムの入力装置及び情報処理システムの入力方法
JP2004164413A (ja) * 2002-11-14 2004-06-10 Kyocera Mita Corp 付帯情報提供システム
JP4251629B2 (ja) * 2003-01-31 2009-04-08 キヤノン株式会社 画像処理システム及び情報処理装置、並びに制御方法及びコンピュータプログラム及びコンピュータ可読記憶媒体
JP4405831B2 (ja) * 2003-05-20 2010-01-27 キヤノン株式会社 画像処理装置及びその制御方法、プログラム
JP2004348591A (ja) * 2003-05-23 2004-12-09 Canon Inc 文書検索方法及び装置

Also Published As

Publication number Publication date
JP2007004393A (ja) 2007-01-11

Similar Documents

Publication Publication Date Title
JP5623079B2 (ja) ハード・コピーの書式からの書式定義の自動発生
JP4118349B2 (ja) 文書選択等の方法及び文書サーバ
JP4561474B2 (ja) 電子化文書保管システム
US8099384B2 (en) Operation procedure extrapolating system, operation procedure extrapolating method, computer-readable medium and computer data signal
US7734834B2 (en) Multi-function peripheral and information acquisition system including a plurality of the multi-function peripherals
JP2005018678A (ja) 帳票データ入力処理装置、帳票データ入力処理方法及びプログラム
US20090128862A1 (en) Automated method and system for transmitting documents from a scanned source based on textual destination information in the document
JP2011003116A (ja) 情報処理装置及びプログラム
JP2007172077A (ja) 画像検索システム及び方法及びプログラム
CN100430957C (zh) 图像处理装置、方法
JPH10320525A (ja) ファイリング・検索装置およびファイリング・検索方法
JP6786658B2 (ja) 書類読取システム
JPS5947641A (ja) 名刺デ−タベ−ス作成装置
JP2006243830A (ja) 画像機器を利用したワークフロー支援システム及びワークフロー検索システム
US8712155B2 (en) Device for identifying types of document files
JP5324831B2 (ja) 証憑管理装置および証憑管理方法
JP4788205B2 (ja) 文書検索装置及び文書検索プログラム
US20070140568A1 (en) History control apparatus
JPH09282328A (ja) 文書画像処理装置及びその方法
JP5445740B2 (ja) 画像処理装置、画像処理システムおよび処理プログラム
JP2007034924A (ja) ネットワークシステム
JP2009223390A (ja) 画像処理監視システム及びプログラム
JP4517822B2 (ja) 画像処理装置及びプログラム
JP2009182530A (ja) 業務処理遂行支援装置
JP2001101213A (ja) 情報処理装置、ドキュメント管理装置、情報処理システム、情報管理方法、及び記憶媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080612

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110621

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110704

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140729

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4788205

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees