JP2004334334A - 文書検索装置、文書検索方法及び記憶媒体 - Google Patents
文書検索装置、文書検索方法及び記憶媒体 Download PDFInfo
- Publication number
- JP2004334334A JP2004334334A JP2003125812A JP2003125812A JP2004334334A JP 2004334334 A JP2004334334 A JP 2004334334A JP 2003125812 A JP2003125812 A JP 2003125812A JP 2003125812 A JP2003125812 A JP 2003125812A JP 2004334334 A JP2004334334 A JP 2004334334A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- feature information
- text
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
【解決手段】複数の文書の各々について、文書に含まれるテキストに基づくテキスト特徴情報と文書イメージに基づくイメージ特徴情報がメモリに保持される。検索文書のイメージデータに対して文字認識処理を行ない、得られたテキストに基づいてテキスト特徴情報を取得するとともに、検索文書のイメージデータに基づいてイメージ特徴情報(レイアウト情報)を取得する(S92〜S94)。そして、上記検索文書に関して取得されたテキスト特徴情報とイメージ特徴情報を用いてメモリを検索し、複数の文書より検索文書に対応する文書を検索する(S98〜S101)。
【選択図】 図9
Description
【発明の属する技術分野】
本発明は、文書管理システムに関し、印刷された文書に基づいて、当該文書と同一の文書を保存文書の中から検索する技術に関する。
【0002】
【従来の技術】
従来から、文書を作成/編集する文書作成編集システム、及び、このように作成/編集された文書を保存し蓄積管理する文書管理システムは数多く提案されてきている。このような文書管理システムにおいては、保存されている文書を検索して読み出し、この読み出された文書をプリンタで印刷することができた。
【0003】
近年、コンピュータ及びネットワークの発達に伴って大量の電子化文書がコンピュータシステムに蓄積されるようになってきている。これに伴い、上記の文書管理システムにおいて管理されるデータ量も拡大の一途をたどっている。このような中、大量の文書データを保有する文書データベースの中から目的の文書を探し出す検索技術に対する要望が強まってきている。
【0004】
この検索技術においては、ファイル名や文書番号を指定して検索する単純な検索方式の他、各文書に予め付与されたキーワードを用いて検索するキーワード検索、文書の文章内容に含まれる任意の単語を検索する全文検索、文章内容に含まれる概念特徴に基づいて検索する概念検索など、多くの手法が提案されている。これらのほとんどはキーボードから入力されたテキストをクエリとして検索する検索手法である。
【0005】
他方、これらのテキストクエリによる検索手法のほかに、印刷された紙文書を検索のクエリとする手法も提案されている。これは紙文書をスキャンしてそこから文書の情報を読取り、その情報をもとに(その情報をクエリとして)その紙文書が印刷される元となったオリジナルの電子文書を検索するというものである。本明細書ではそのような検索手法を原本検索と呼ぶ。
例えば、特許文献1は、記録用紙に記録されている文書をスキャナで読み取ってデジタル化して文字認識し、更にユーザが文字認識された文字列から特徴的な文字列を検索範囲として指定し、内容および位置関係が一致する文書を検索するというものである。
【0006】
【特許文献1】
特開平3−263512号公報
【0007】
【発明が解決しようする課題】
しかしながら、特許文献1の技術は、紙に印刷された文書から電子文書を検索するという目的で提案されているが、スキャンされ文字認識された文書から、クエリとして利用する文字列をユーザが指定しなければならず、検索範囲の指定というわずらわしさが残るという課題がある。もちろん、検索範囲として文書全体を指定することもできるが、その場合は文書全体の文字列とのマッチングを行うことになってしまう。文字認識誤りがあることを考慮するとそのマッチングはあいまいマッチングとなり、相当な処理負担のかかるものとなり、現実的な応答性能は期待できない。
【0008】
本発明は上記の課題に鑑みてなされたものであり、使用者に特別な負担を強いることなく、また、実用的な応答性能をもって電子文書の原本検索を実行可能とすることを目的とする。
【0009】
【課題を解決するための手段】
上記の目的を達成するための本発明による文書検索方法は、
検索文書のイメージデータに基づいてテキストデータを取得し、得られたテキストデータに基づいてテキスト特徴情報を取得する第1取得工程と、
前記検索文書のイメージデータに基づいてイメージ特徴情報を取得する第2取得工程と、
前記第1及び第2取得工程で取得されたテキスト特徴情報とイメージ特徴情報を用いて、複数の文書の各々についてテキスト特徴情報とイメージ特徴情報を保持する保持手段を検索し、該複数の文書より前記検索文書に対応する文書を検索する検索工程とを備える。
【0010】
また、上記の目的を達成するための本発明による文書検索装置は以下の構成を備える。すなわち、
複数の文書の各々についてテキスト特徴情報とイメージ特徴情報を保持する保持手段と、
検索文書のイメージデータに基づいてテキストデータを取得し、得られたテキストデータに基づいてテキスト特徴情報を取得する第1取得手段と、
前記検索文書のイメージデータに基づいてイメージ特徴情報を取得する第2取得手段と、
前記第1及び第2取得工程で取得されたテキスト特徴情報とイメージ特徴情報を用いて、前記保持手段を検索し、該複数の文書より前記検索文書に対応する文書を検索する検索手段とを備える。
【0011】
【発明の実施の形態】
以下、添付の図面を参照しながら本発明の好適な実施形態について詳細に説明する。
【0012】
図1は本実施形態による文書検索装置の構成を示すブロック図である。図1の構成において、101はマイクロプロセッサ(CPU)であり、文書検索処理のための演算、論理判断等を行い、バス109を介してバスに接続された各構成要素を制御する。109はバス(BUS)であり、CPU101の制御対象である各構成要素を指示するアドレス信号、コントロール信号を転送する。また、各構成要素間のデータ転送を行う。
【0013】
103は書込み可能なランダムアクセスメモリ(RAM)であり、各構成要素からの各種データの一次記憶等に用いる。102は読出し専用の固定メモリ(ROM)であり、CPU101によって実行されるブートプログラム等を記憶する。なお、ブートプログラムはシステム起動時にハードディスク110に記憶された制御プログラム111をRAM103にロードし、CPU101に実行させる。この制御プログラム111については、後にフローチャートを参照して詳述する。
【0014】
104は入力装置であり、キーボードやポインティングデバイス(本例ではマウス等)を備える。105は表示装置であり、CRT、あるいは液晶ディスプレイ等が挙げられる。表示装置105にはCPU101による表示制御の下、各種表示がなされる。106はスキャナであり、紙文書を光学的に読み取ってデジタル化する等の処理を行う。
【0015】
110はハードディスク(HD)であり、CPU101により実行される制御プログラム111、検索等の処理が行われる対象となる文書を記憶した文書データベース112、レイアウト類似検索を行う際にインデックスとして使用されるレイアウト類似検索索引113、文章内容類似検索を行う際にインデックスとして使用される文章内容類似検索索引114、文章内容類似検索を行う際の各文字の重要度に関するデータを格納した文字重要度テーブル115等が格納される。
【0016】
107はリムーバブル外部記憶装置であり、フレキシブルディスクやCD、DVD等の外部記憶にアクセスするためのドライブである。リムーバブル外部記憶装置107はハードディスク110と同様に使用でき、それらの記録媒体を通じて他の文書処理装置とのデータ交換を行える。なお、ハードディスク110に記憶される制御プログラムは、これらの外部記憶装置から必要に応じてハードディスク110にコピーするように構成することもできる。108は通信装置であり、本実施形態ではネットワークコントローラである。通信装置108は通信回線を介して外部とのデータ交換を行う。
【0017】
以上のような構成を備えた本実施形態の文書検索装置においては、入力装置104からの各種の入力に応じて対応する処理が作動する。すなわち、入力装置からの入力が供給されると、まずインタラプト信号がCPU101に送られ、それに伴って、CPU101がROM102またはRAM103内に記憶される各種命令を読み出し、その実行によって各種の制御が行われる。
【0018】
図2は本実施形態において行われるブロック解析の例を説明した図である。スキャンイメージ201は紙文書がスキャナ106によって読み取られ、デジタル化された文書イメージである。ブロック解析は、この文書イメージを性質に応じた矩形ブロックに分割する技術である。図2の場合、ブロック解析がかけられると3つのブロックに分割される。1つは内部に文章(テキスト)が含まれるテキストブロック211となり、残りの2つはテキスト以外の情報(グラフ、写真など)が含まれるため画像ブロック212、213となる。テキストブロック211に対して文字認識がかけられテキストが抽出されるが、画像ブロック212、213からはテキスト情報は抽出されない。
【0019】
図3はテキストブロックから抽出されるOCRテキスト情報を説明したものである。スキャンイメージのテキストブロック301(例えば図2の211)に対して文字認識処理がかけられ、OCRテキスト情報302として抽出される。文字認識処理であるため正確な認識が行われるとは限らず、OCRテキスト情報302には誤認識データが含まれることになる。図3の例では、“BJシリーズ”となるべき文字列は“8○シリーズ”となり、“超写真画質”となるべき文字列は“超写真白質”となってしまっている。原本検索においてはこのような誤認識されている文字列と正しい文字列とのマッチングをとる必要があり、単純なマッチング手法ではマッチングをとるのが困難であり、或いは単純なマッチング手法でマッチングをとろうとすると処理負担が極端に増加してしまう。
【0020】
本実施形態では、上記のような原本検索において、イメージ特徴による検索とテキスト特徴による検索を巧妙に統合させて、正確で迅速な原本検索を実現する文書検索装置について説明する。
【0021】
図4はレイアウト類似検索索引の構成例を示した図である。レイアウト類似検索索引113は、レイアウトに基づく類似検索を行うためのインデックス情報である。文書データベースに登録されている各文書(ユニークな文書IDで識別される)に対応して、レイアウト特徴量が記憶される。レイアウト特徴量はレイアウトの類似性を判定するための情報である。例えば、文書を印刷した場合のビットマップイメージを縦n個、横m個の矩形に分割し、各矩形の平均の輝度情報と色情報を記憶した画像特徴量などが考えられる。類似検索を行うための画像特徴量の例については、例えば、特開平10−260983号公報において提案されたものを適用できる。なお、上記のブロック解析によって得られたテキストブロックや画像ブロックの位置/サイズをレイアウト特徴量として用いることも可能である。
【0022】
電子文書のレイアウト特徴量は、文書登録時に擬似的な印刷処理を行うことにより文書のビットマップイメージを作成し、該ビットマップイメージに基づいて作成される。また、スキャンされた文書のレイアウト特徴量は、スキャンされ、デジタル化されたスキャンイメージに基づいて作成される。レイアウト類似検索を行う際には、スキャンされた文書からレイアウト特徴量が作成され、このレイアウト類似検索索引113に記憶される各文書のレイアウト特徴量に対して1件ずつレイアウト類似度が計算されるのである。
【0023】
図5は文章内容類似検索索引の構成例を示した図である。文章内容類似検索索引114は、文章内容の類似性に基づく類似検索を行うためのインデックス情報である。文書データベースに登録されている各文書に対応して、文書ベクトルが記憶される。文書ベクトルは文章内容の類似性を判定するための情報である。ここでは、文書ベクトルの次元を文字とし、文書ベクトルの各次元の値をその文字の出現度数とする。ただし、1文字を正確に1次元とせず、OCRの誤認識の可能性を考慮し、似た文字群を1つの次元として文書ベクトルを構成する。例えば図5では、次元2に対して「B」「8」「及」の3つの文字が対応している。各文字に対してその文書に含まれる出現度数が記憶される。
【0024】
なお、1つの文書に複数のテキストブロックが存在する場合は、複数のテキストブロックから抽出されるOCRテキスト情報の全てがまとめられて集計され、1つの文書ベクトルが作成される。
【0025】
レイアウト類似検索を行う際には、検索クエリとなるスキャンされた文書からも、ここに格納される文書ベクトルと同じ形式のベクトルデータ(クエリベクトル)が作成され、各文書の文書ベクトルに対して1件ずつ文章内容類似度が計算されるのである。文章内容類似度の計算について以下に説明する。
【0026】
図6は文字重要度テーブルの構成例を示す図である。文字重要度テーブル115は、文章内容の類似性を判定する上での、各文字の重要度を示すテーブルである。このテーブルにおいては、文書データベース全体における、各文字(図5の各次元に対応する)の出現する度数を記憶する。
【0027】
各文字の重要度wkは、この文字重要度テーブルによって格納された度数の逆数によって算出される。すなわち、
wk=1/(文書データベース全体における文字kの出現度数) …(1)
によって表される。ただし、度数が0の場合は文字の重要度は0とする。これは文書データベースに出現しない文字は類似性判定には役に立たないことからである。重要度が度数の逆数をとる理由は、多くの文書に出現するようなありふれた文字は、文章内容の類似性を判定する上では相対的に重要性が低いという観点に従ったものである。
【0028】
次に、本実施形態による文書の類似性判定を行う際の、類似度算出について説明する。文書ベクトルをX(X=(x1,x2,x3,…,xn))、クリエベクトルをQ(Q=(q1,q2,q3,…,qn))、文字kの重要度をwkとした場合、文章内容類似度TS(X,Q)は以下の(2)式により求められる。
【0029】
【0030】
すなわち、文章内容類似度TS(X,Q)は、比較する2つの文書について、すべての文字(k=1からk=nまで)の出現度数の差の絶対値にその文字の重要度を乗じたものを積算し、そのマイナスの値で表現する。マイナスにするのは出現度数の差が大きいほど文章内容類似度が低いからである。この文章内容類似度の値が大きいほど類似性が高いと判定される。なお、レイアウト類似度についても、同様に類似度の値が大きいほど類似性が高いように設定される。
【0031】
次に、総合類似度Sは基本的には文章内容類似度TSとレイアウト類似度LSを加算したものであるが、それぞれの類似度算出の重要性に応じて、重みαとβが乗じて加算される。すなわち、
S=α×TS+β×LS …(3)
により算出される。
【0032】
(3)式において、 αは文章内容情報に対する重みであり、βはレイアウト情報に対する重みである。αとβの値は可変であり、文章内容情報の信頼性が低いときは文章内容の重みαの値が小さくなる。文章内容情報の場合、文書中のテキストブロックに十分なテキストが存在するかどうか、また、テキストがうまく文字認識されたかどうかに依存して、信頼性が大きく異なるためである。また、レイアウト情報の場合は、どのような文書でもレイアウト自体は必ず存在し、また、解析結果が大きく損なわれることもないので、情報自体の信頼性が大きく変動することはない。
【0033】
例えば、文章内容情報の信頼性が十分高い場合は、α=1、β=1とし、文章内容が信頼できないときは、α=0.1、β=1などと設定する。
【0034】
以上の動作をフローチャートに従って説明する。図7は本実施形態による文書検索装置の動作、より具体的にはCPU101の処理手順を示すフローチャートである。
【0035】
ステップS71はシステムの初期化処理であり、各種パラメータの初期化や初期画面の表示等を行う処理である。ステップS72はキーボード等の入力装置から何らかのキーが押下され、割り込みが発生するのをCPU101において待つ処理である。キーが打鍵されると、ステップS73においてマイクロプロセッサCPUがこのキーを判別し、キーの種類に応じて各種の処理に分岐する。各種キーに対応した分岐先の複数の処理をステップS74という形でまとめて表現している。図8、図9で詳述する文書登録処理、原本検索実行処理がこの分岐先の一部となる。他の処理としては、本明細書では詳細な記述を省略するが、キーボードからクエリ文字列を打ち込んで検索する処理や、バージョン管理などの文書管理のための処理などが挙げられる。ステップS75は上記の各処理の処理結果を表示する表示処理である。表示内容を表示パターンに展開しバッファに出力するといった通常広く行われている処理である。
【0036】
図9はステップS74の一部である文書登録処理の詳細を示すフローチャートである。ステップS81において、文書データベースに登録すべき文書をユーザに指定させる。ユーザはディスク上に存在する電子文書、あるいは紙文書を指定する。ステップS82において、登録が指定された文書を文書データベースに登録する。紙文書が指定された場合は登録すべき紙文書をスキャナから読み取ってデジタル化し、ビットマップイメージを生成し、それを登録する。
【0037】
ステップS83において、登録された文書からレイアウト情報を抽出する。ここでは、登録文書を擬似的に印刷してビットマップイメージを生成し、そこから特徴を抽出して画像特徴量の形で格納する。紙文書をスキャナで読み取った場合は、そのビットマップイメージを用いてレイアウト情報を抽出できる。
【0038】
ステップS84において、登録文書の内部構造を追跡するなどしてテキスト情報を抽出し、文章内容情報を得る。ビットマップイメージなどで内部構造からテキスト情報が抽出できない場合は、ビットマップイメージに対して文字認識をかけ、OCRテキスト化して抽出する。抽出されたテキストから、類似文字単位で文字の出現度数を算出して文章内容情報として抽出し、図5で説明した如き文書ベクトルを作成する。ステップS85では、ステップS83で抽出されたレイアウト情報をその文書IDと対応付ける形で図4に示したレイアウト類似検索索引113に登録し、索引を更新する。ステップS86では、ステップS84で抽出された文章内容情報をその文書IDと対応付ける形で図5に示した文章内容類似検索索引114に登録し、索引を更新する。ステップS87では、登録文書に含まれる文字の出現度数により図6に示した文字重要度テーブル115を更新する。
【0039】
以上の処理により、文書が登録された文書データベース112と、これに対応したレイアウト類似検索索引113、文章内容類似検索索引114及び文字重要度テーブル115が形成される。
【0040】
図10はステップS74の一部である原本検索実行処理の詳細を示すフローチャートである。
【0041】
まず、ステップS91において原本検索のクエリである紙文書(検索文書)をスキャナで読み取り、ビットマップイメージ化する。ステップS92において、スキャンされたビットマップイメージを図2で説明したようにブロック解析し、テキストブロック、画像ブロック等に分離する。ステップS93においては、ステップS91で得られたビットマップイメージに対して画像特徴量などのレイアウト情報の抽出を行なう。ステップS94では、ステップS92で分離されたテキストブロックから文字認識処理によりOCRテキスト情報を抽出する。そして、抽出されたテキストから、類似文字単位で文字の出現度数を算出して文章内容情報とし、クエリベクトルを作成する。
【0042】
ステップS95では、抽出されたOCRテキスト情報のテキストサイズが十分な量であるかどうかを判定する。十分な量であるかどうかは、例えばテキストの文字数(バイト数)が所定の文字数(例えば100文字)を超えているかどうかで判定する。あるいは別の実現例としては、テキストブロックの画像としての大きさが紙原稿に対して所定の割合(例えば、25%)を超えているかどうかで判定する。テキスト量が十分であればステップS96に進み、不足していればステップS98に進む。
【0043】
十分なテキスト量があればステップS96においてそのテキストに対して形態素解析などの言語解析を施す。このとき言語解析が正常に行われたかどうかが分かる情報、例えば、解析エラー率を求める。解析エラー率の1つの実施形態としては、解析により発生した未知語(辞書に登録されていない単語)の全単語数に占める割合に基づいて求めた値が挙げられる。あるいは別の実施形態では、未知語文字列が全文字数に占める割合で求める。なお、解析用の辞書に含まれる単語は予め標準単語として準備されているものを使用するという方法もあるが、文書管理システムなどに登録されている文書から予め抽出した単語あるいは文字列を使用するという方法もある。
【0044】
ステップS97において、ステップS96における言語解析が成功したかどうかを判定する。解析が成功したかどうかは、上述の解析エラー率が所定値(例えば15%)以下で解析できたかどうかで判定する。解析エラー率が所定値以上であれば解析失敗であると見なしステップS98に進む。一方、解析エラー率が所定値以下であれば解析成功と見なしステップS100に進む。
【0045】
ステップS100では、ステップS94で生成されたクエリベクトルと文章内容類似検索索引114に格納されている各文書ベクトルとの文章内容類似度を(2)式に従って計算する。そして、類似度の高い所定件数の文書を上位から抽出することで候補を絞り込む。続いて、ステップS101において、先のステップS100で絞り込まれた各候補に関して、ステップS93で得られたレイアウト情報とレイアウト類似検索索引113に格納されたレイアウト情報によりレイアウト類似度を求め、更に(3)式を用いて総合類似度を算出する。なお、このときの算出式において、α=1、β=1とする。そして、ステップS102において、ステップS101で算出された総合類似度に従って順位を確定し、第1候補を決定して出力する。
【0046】
一方、ステップS98はテキストブロックが信頼できない場合の処理である。ここでは、ステップS93で得られた検索クエリの文書のレイアウト特徴量と、レイアウト類似検索索引113に格納されている各文書のレイアウト特徴量から各文書毎にレイアウト類似度を算出し、類似度の高い所定件数の文書を上位から抽出して候補を絞り込む。そして、ステップS99において、絞り込まれた候補に対して更に文章内容類似度を同様に各文書に対して求め、(3)式を用いて総合類似度を算出する。このときの算出式においては、α=0.1、β=1とする。その後ステップS102に分岐する。
【0047】
(他の実施形態)
なお、本発明は上述の実施形態に限定されるのではなく、本発明の趣旨を逸脱しない限りにおいて適宜変更が可能である。
【0048】
例えば、上述の実施形態においては、文章内容類似検索の手法として文字単位で統計をとり、各文字の出現度数が近いものを類似していると見なしているが、これでは各文字間での相対的位置関係が全く無視されてしまうことになる。そこで各文字の相対的位置関係を加味した文章内容類似検索の仕組みを導入することもできる。これは、例えば、文字単位で度数をカウントしてインデックス化するだけでなく、任意の2文字の組み合わせの出現度数も同時にインデックス化し、類似度算出の際にはこの2文字組の出現度数の差分も考慮することで実現できる。このように構成することで、文字の度数が一致するだけでなく、文字の並びが一致する文書の類似度が高く判定されるので、より精度の高い文章内容類似検索が行われ、従って、より精度の高い原本検索が実現できることになる。
【0049】
また、上述の実施形態においては、テキストの信頼性を測るための言語解析(ステップS96)の手法として形態素解析を使用しているが、形態素解析の使用目的は、文字認識結果の信頼性の程度を判定することにある。よって、もっと簡便な方法を用いてもよい。例えば、標準的な日本語の文字単位の統計データを予め備え、スキャンされた文書に対しても同様の統計データを作成する。これが標準の日本語文章に比べて大きく乖離していれば、異常な文書であると見なし、文字認識結果の信頼性が低いと判定する。このように構成することで、コンピュータにとって負荷の高い言語解析処理を回避でき、より負荷の少ない統計処理で代用することができる。このため、より貧弱なコンピュータ環境においても文字認識の信頼性評価を行うことができ、より安価な原本検索が実現できる。
【0050】
また、上述の実施形態においては、紙原稿のうちテキスト部分の量と質が十分であるかを判定し(ステップS95〜S97)、十分である場合にテキストの類似度で大きく絞り込みを行うというものである。すなわちテキスト部分に基づいて検索方法を切り換えているが、レイアウト部分の量と質を判定してどのように絞り込みを行うかを決定するという実施形態も可能である。この場合にはレイアウトの量と質をまず判定することになり、レイアウト部分の量と質が十分であれば、レイアウトの類似度で絞込みを行い、十分でなければテキストの類似度で絞込みを行うことになる。このように構成することで、テキストの量と質を判定する必要がないので、言語依存性を排除することができて構成が容易となり、より安価な原本検索が実現できる。
【0051】
なお、レイアウトの量と質の判定に関して、例えばレイアウトの量は画像ブロックの面積の大小で行なうことが挙げられる。この場合、画像ブロックの占める面積の割合が大きければレイアウトの量が多いと判断できる。また、レイアウトの質については、例えば、画像ブロックにある画像の質で判断する。画像ブロック中の多値画像の割合が多ければレイアウトの質が高いと判断し、二値画像の割合が大きければレイアウトの質が低いと判断する。
【0052】
以上の説明から明らかなように、本実施形態によれば、記録用紙に印刷された文書をスキャンしてイメージ文書を抽出し、印刷前のオリジナルの文書を検索するといった原本検索を、ユーザが何かの検索クエリを指示することなく実現できる。このため、操作性の高い原本検索を提供でき、かつ、レイアウト情報と文章内容情報の両方を抽出し、両者の類似性を加味して検索するので精度の高い検索手段を実現することができる。
【0053】
また、スキャンされた文書の文章内容情報の信頼性が高い場合には、まず、文章内容情報に基づく類似検索により候補を絞り込んで検索するので、高精度を維持したまま高速度の原本検索手段を実現することができる。
【0054】
また、スキャンされた文書の文章内容情報の信頼性が低い場合には、レイアウト情報に基づく類似検索により候補を絞り込んで検索するので、文章のあまりない文書、文字認識が困難な文書に対しても高精度の原本検索を実現することができる。
【0055】
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0056】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0057】
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0058】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0059】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0060】
【発明の効果】
以上説明したように、本発明によれば、使用者に特別な負担を強いることなく、また、実用的な応答性能をもって電子文書の原本検索を実行することが可能となる。
【図面の簡単な説明】
【図1】本実施形態の文書検索装置の全体構成を示すブロック図である。
【図2】ブロック解析の例を示した図である。
【図3】OCRテキスト抽出の例を示した図である。
【図4】本実施形態の文書検索装置におけるレイアウト類似検索索引のデータ構成例を示した図である。
【図5】本実施形態の文書検索装置における文章内容類似検索索引のデータ構成例を示した図である。
【図6】本実施形態の文書検索装置における文字重要度テーブルの構成例を示した図である。
【図7】本実施形態の文書検索装置による処理手順の一例を示すフローチャートである
【図8】文書登録処理の処理手順の一例を示すフローチャートである。
【図9】原本検索実行処理の処理手順の一例を示すフローチャートである。
Claims (11)
- 検索文書のイメージデータに基づいてテキストデータを取得し、得られたテキストデータに基づいてテキスト特徴情報を取得する第1取得工程と、
前記検索文書のイメージデータに基づいてイメージ特徴情報を取得する第2取得工程と、
前記第1及び第2取得工程で取得されたテキスト特徴情報とイメージ特徴情報を用いて、複数の文書の各々についてテキスト特徴情報とイメージ特徴情報を保持する保持手段を検索し、該複数の文書より前記検索文書に対応する文書を検索する検索工程とを備えることを特徴とする文書検索方法。 - 前記検索工程は、前記検索文書のイメージデータ及び/又は該イメージデータから得られたテキストデータの解析結果に基づいて検索手順を切り換えることを特徴とする請求項1に記載の文書検索方法。
- 前記検索工程は、前記複数の文書の各々と前記検索文書との間の類似度をテキスト特徴情報とイメージ特徴情報の夫々について求め、求めた類似度に基づいて検索結果を決定し、テキスト特徴情報による類似度の算出結果とイメージ特徴情報による類似度の算出結果に対する重み付けを、前記解析結果に基づいて変更することを特徴とする請求項2に記載の文書検索装置。
- 前記検索工程は、
前記第1及び第2取得工程で取得されたテキスト特徴情報及びイメージ特徴情報のいずれかを用いて前記複数の文書より候補文書を得る第1の絞り込みを行ない、
前記第1の絞り込みで得られた候補文書に対して、前記テキスト特徴情報及びイメージ特徴情報を用いて第2の絞り込みを行ない、検索結果を得る
ことを特徴とする請求項1に記載の文書検索方法。 - 前記検索工程は、前記第1の絞り込みにおいてテキスト特徴情報及びイメージ特徴情報のいずれを用いるかを、前記検索文書のイメージデータ及び/又は該イメージデータから得られたテキストデータの解析結果に基づいて決定することを特徴とする請求項4に記載の文書検索方法。
- 前記検索工程では、前記検索文書のイメージに含まれるテキストイメージの量と、当該テキストイメージに対する文字認識結果の精度評価に基づいて、前記第1の絞り込みにおいてテキスト特徴情報及びイメージ特徴情報のいずれを用いるかを決定することを特徴とする請求項5に記載の文書検索方法。
- 前記第2の絞り込みは、前記複数の文書の各々と前記検索文書との間の類似度をテキスト特徴情報とイメージ特徴情報の夫々について求め、求めた類似度に基づいて検索結果を決定することを特徴とする請求項4に記載の文書検索方法。
- 前記第2の絞り込みにおいて、テキスト特徴情報による類似度の算出結果とイメージ特徴情報による類似度の算出結果に対する重み付けを、前記検索文書のイメージデータ及び/又は該イメージデータから得られたテキストデータの解析結果に基づいて変更することを特徴とする請求項7に記載の文書検索方法。
- 複数の文書の各々についてテキスト特徴情報とイメージ特徴情報を保持する保持手段と、
検索文書のイメージデータに基づいてテキストデータを取得し、得られたテキストデータに基づいてテキスト特徴情報を取得する第1取得手段と、
前記検索文書のイメージデータに基づいてイメージ特徴情報を取得する第2取得手段と、
前記第1及び第2取得工程で取得されたテキスト特徴情報とイメージ特徴情報を用いて、前記保持手段を検索し、該複数の文書より前記検索文書に対応する文書を検索する検索手段とを備えることを特徴とする文書検索装置。 - 請求項1乃至8のいずれかに記載の文書検索方法をコンピュータに実行させるための制御プログラムを格納する記憶媒体。
- 請求項1乃至8のいずれかに記載の文書検索方法をコンピュータに実行させるための制御プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003125812A JP4366108B2 (ja) | 2003-04-30 | 2003-04-30 | 文書検索装置、文書検索方法及びコンピュータプログラム |
US10/831,150 US7257567B2 (en) | 2003-04-30 | 2004-04-26 | Document retrieving method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003125812A JP4366108B2 (ja) | 2003-04-30 | 2003-04-30 | 文書検索装置、文書検索方法及びコンピュータプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2004334334A true JP2004334334A (ja) | 2004-11-25 |
JP2004334334A5 JP2004334334A5 (ja) | 2006-03-09 |
JP4366108B2 JP4366108B2 (ja) | 2009-11-18 |
Family
ID=33447099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003125812A Expired - Fee Related JP4366108B2 (ja) | 2003-04-30 | 2003-04-30 | 文書検索装置、文書検索方法及びコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7257567B2 (ja) |
JP (1) | JP4366108B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007164648A (ja) * | 2005-12-16 | 2007-06-28 | Ricoh Co Ltd | 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体 |
JP2007172077A (ja) * | 2005-12-19 | 2007-07-05 | Fuji Xerox Co Ltd | 画像検索システム及び方法及びプログラム |
WO2009048149A1 (ja) * | 2007-10-11 | 2009-04-16 | Nec Corporation | 電子文書の同等判定システムおよび同等判定方法 |
JP2009098952A (ja) * | 2007-10-17 | 2009-05-07 | Mitsubishi Electric Corp | 情報検索システム |
JP2010140162A (ja) * | 2008-12-10 | 2010-06-24 | Ntt Communications Kk | 類似度計算装置、方法及びプログラム、データ検索システム及び方法 |
JP2011002966A (ja) * | 2009-06-17 | 2011-01-06 | Canon Inc | 画像検索装置及びその制御方法並びにプログラム |
US8005300B2 (en) | 2005-07-21 | 2011-08-23 | Fuji Xerox Co., Ltd. | Image search system, image search method, and storage medium |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US7904187B2 (en) | 1999-02-01 | 2011-03-08 | Hoffberg Steven M | Internet appliance system and method |
EP1049030A1 (en) * | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
DE60005293T2 (de) * | 2000-02-23 | 2004-07-01 | Ser Solutions Inc. | Methode und Vorrichtung zur Verarbeitung elektronischer Dokumente |
US9177828B2 (en) | 2011-02-10 | 2015-11-03 | Micron Technology, Inc. | External gettering method and device |
EP1182577A1 (en) | 2000-08-18 | 2002-02-27 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Associative memory |
EP1288792B1 (en) | 2001-08-27 | 2011-12-14 | BDGB Enterprise Software Sàrl | A method for automatically indexing documents |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US20080313172A1 (en) | 2004-12-03 | 2008-12-18 | King Martin T | Determining actions involving captured information and electronic content associated with rendered documents |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US8874504B2 (en) | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
JP4817108B2 (ja) * | 2004-11-05 | 2011-11-16 | 富士ゼロックス株式会社 | 画像処理装置、画像処理方法及び画像処理プログラム |
US7630980B2 (en) * | 2005-01-21 | 2009-12-08 | Prashant Parikh | Automatic dynamic contextual data entry completion system |
US7545981B2 (en) * | 2005-11-04 | 2009-06-09 | Xerox Corporation | Document image re-ordering systems and methods |
JP4673200B2 (ja) * | 2005-12-01 | 2011-04-20 | キヤノン株式会社 | 印刷処理システムおよび印刷処理方法 |
US20070226321A1 (en) * | 2006-03-23 | 2007-09-27 | R R Donnelley & Sons Company | Image based document access and related systems, methods, and devices |
JP5042562B2 (ja) * | 2006-08-22 | 2012-10-03 | 株式会社リコー | 画像処理装置、手書き情報認識方法、手書き情報認識プログラム |
EP2067119A2 (en) | 2006-09-08 | 2009-06-10 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US8274678B2 (en) * | 2007-06-14 | 2012-09-25 | Sharp Laboratories Of America, Inc. | Method and system for remote access and customization of internally generated printing node status report |
JP2009271693A (ja) * | 2008-05-07 | 2009-11-19 | Canon Inc | 画像処理装置、画像処理方法、プログラム、記憶媒体 |
US20090303535A1 (en) * | 2008-06-05 | 2009-12-10 | Kabushiki Kaisha Toshiba | Document management system and document management method |
DE202010018601U1 (de) | 2009-02-18 | 2018-04-30 | Google LLC (n.d.Ges.d. Staates Delaware) | Automatisches Erfassen von Informationen, wie etwa Erfassen von Informationen unter Verwendung einer dokumentenerkennenden Vorrichtung |
US8447066B2 (en) | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
US8990235B2 (en) | 2009-03-12 | 2015-03-24 | Google Inc. | Automatically providing content associated with captured information, such as information captured in real-time |
US9152883B2 (en) * | 2009-11-02 | 2015-10-06 | Harry Urbschat | System and method for increasing the accuracy of optical character recognition (OCR) |
US8321357B2 (en) * | 2009-09-30 | 2012-11-27 | Lapir Gennady | Method and system for extraction |
US9158833B2 (en) * | 2009-11-02 | 2015-10-13 | Harry Urbschat | System and method for obtaining document information |
US9213756B2 (en) * | 2009-11-02 | 2015-12-15 | Harry Urbschat | System and method of using dynamic variance networks |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) * | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
US8930181B2 (en) | 2012-12-06 | 2015-01-06 | Prashant Parikh | Automatic dynamic contextual data entry completion |
US9183261B2 (en) | 2012-12-28 | 2015-11-10 | Shutterstock, Inc. | Lexicon based systems and methods for intelligent media search |
US9183215B2 (en) | 2012-12-29 | 2015-11-10 | Shutterstock, Inc. | Mosaic display systems and methods for intelligent media search |
US8837835B1 (en) | 2014-01-20 | 2014-09-16 | Array Technology, LLC | Document grouping system |
RU2643467C1 (ru) * | 2017-05-30 | 2018-02-01 | Общество с ограниченной ответственностью "Аби Девелопмент" | Сопоставление разметки для похожих документов |
WO2020166569A1 (ja) * | 2019-02-14 | 2020-08-20 | 昭和電工株式会社 | 文書検索装置、文書検索システム、文書検索プログラム及び文書検索方法 |
CN111339261A (zh) * | 2020-03-17 | 2020-06-26 | 北京香侬慧语科技有限责任公司 | 一种基于预训练模型的文档抽取方法及系统 |
CN112000834A (zh) * | 2020-08-26 | 2020-11-27 | 北京百度网讯科技有限公司 | 文档处理方法、装置、系统、电子设备及存储介质 |
CN114445818B (zh) * | 2022-01-29 | 2023-08-01 | 北京百度网讯科技有限公司 | 物品识别方法、装置、电子设备及计算机可读存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08263512A (ja) | 1995-03-24 | 1996-10-11 | Sumitomo Electric Ind Ltd | 文書検索装置 |
JPH09270902A (ja) * | 1996-01-31 | 1997-10-14 | Ricoh Co Ltd | 画像ファイリング方法および画像ファイリング装置 |
US6400853B1 (en) * | 1997-03-19 | 2002-06-04 | Canon Kabushiki Kaisha | Image retrieval apparatus and method |
JP3754791B2 (ja) | 1997-03-19 | 2006-03-15 | キヤノン株式会社 | 画像検索装置及び方法 |
US5999664A (en) * | 1997-11-14 | 1999-12-07 | Xerox Corporation | System for searching a corpus of document images by user specified document layout components |
US6562077B2 (en) * | 1997-11-14 | 2003-05-13 | Xerox Corporation | Sorting image segments into clusters based on a distance measurement |
US6895552B1 (en) * | 2000-05-31 | 2005-05-17 | Ricoh Co., Ltd. | Method and an apparatus for visual summarization of documents |
JP2002132547A (ja) * | 2000-10-27 | 2002-05-10 | Fuji Xerox Co Ltd | 電子情報管理サーバ、電子情報管理クライアントおよび電子情報管理方法ならびに電子情報管理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP3918531B2 (ja) * | 2001-11-29 | 2007-05-23 | 株式会社日立製作所 | 類似文書検索方法およびシステム |
-
2003
- 2003-04-30 JP JP2003125812A patent/JP4366108B2/ja not_active Expired - Fee Related
-
2004
- 2004-04-26 US US10/831,150 patent/US7257567B2/en not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8005300B2 (en) | 2005-07-21 | 2011-08-23 | Fuji Xerox Co., Ltd. | Image search system, image search method, and storage medium |
JP2007164648A (ja) * | 2005-12-16 | 2007-06-28 | Ricoh Co Ltd | 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体 |
JP2007172077A (ja) * | 2005-12-19 | 2007-07-05 | Fuji Xerox Co Ltd | 画像検索システム及び方法及びプログラム |
WO2009048149A1 (ja) * | 2007-10-11 | 2009-04-16 | Nec Corporation | 電子文書の同等判定システムおよび同等判定方法 |
US8977949B2 (en) | 2007-10-11 | 2015-03-10 | Nec Corporation | Electronic document equivalence determination system and equivalence determination method |
JP2009098952A (ja) * | 2007-10-17 | 2009-05-07 | Mitsubishi Electric Corp | 情報検索システム |
JP2010140162A (ja) * | 2008-12-10 | 2010-06-24 | Ntt Communications Kk | 類似度計算装置、方法及びプログラム、データ検索システム及び方法 |
JP2011002966A (ja) * | 2009-06-17 | 2011-01-06 | Canon Inc | 画像検索装置及びその制御方法並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4366108B2 (ja) | 2009-11-18 |
US20040243601A1 (en) | 2004-12-02 |
US7257567B2 (en) | 2007-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4366108B2 (ja) | 文書検索装置、文書検索方法及びコンピュータプログラム | |
JP2004348591A (ja) | 文書検索方法及び装置 | |
CN1332341C (zh) | 信息处理装置和信息处理方法 | |
US6671684B1 (en) | Method and apparatus for simultaneous highlighting of a physical version of a document and an electronic version of a document | |
CN102053991B (zh) | 用于多语言文档检索的方法及系统 | |
US7647303B2 (en) | Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program | |
US20090123071A1 (en) | Document processing apparatus, document processing method, and computer program product | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
US20060045340A1 (en) | Character recognition apparatus and character recognition method | |
JP2007172077A (ja) | 画像検索システム及び方法及びプログラム | |
JP2004227227A (ja) | 情報検索装置 | |
US7359896B2 (en) | Information retrieving system, information retrieving method, and information retrieving program | |
JP4054428B2 (ja) | 画像検索装置及びその方法、コンピュータ可読メモリ | |
JP2008129793A (ja) | 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体 | |
JP2004334341A (ja) | 文書検索装置、文書検索方法及び記録媒体 | |
JP2006343925A (ja) | 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム | |
JPH10289245A (ja) | 画像処理装置及びその制御方法 | |
JP2007034613A (ja) | 画像処理装置及びその方法 | |
JPH09282328A (ja) | 文書画像処理装置及びその方法 | |
JP2006227914A (ja) | 情報検索装置、情報検索方法、プログラム、記憶媒体 | |
JP7172343B2 (ja) | 文書検索用プログラム | |
JP4823049B2 (ja) | 文書画像検索装置及びプログラム | |
JP2001094711A (ja) | ドキュメント画像処理装置及びドキュメント画像処理方法 | |
JPH08153110A (ja) | 文書ファイリング装置及び方法 | |
JP2007018158A (ja) | 文字処理装置、文字処理方法及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060124 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090209 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090410 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090824 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120828 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4366108 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120828 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130828 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |