JPH10207909A - 文書検索システムおよび方法 - Google Patents

文書検索システムおよび方法

Info

Publication number
JPH10207909A
JPH10207909A JP9017770A JP1777097A JPH10207909A JP H10207909 A JPH10207909 A JP H10207909A JP 9017770 A JP9017770 A JP 9017770A JP 1777097 A JP1777097 A JP 1777097A JP H10207909 A JPH10207909 A JP H10207909A
Authority
JP
Japan
Prior art keywords
document
importance
synonym
synonyms
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9017770A
Other languages
English (en)
Other versions
JP3902825B2 (ja
Inventor
Hirotaka Shiiyama
弘隆 椎山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP01777097A priority Critical patent/JP3902825B2/ja
Publication of JPH10207909A publication Critical patent/JPH10207909A/ja
Application granted granted Critical
Publication of JP3902825B2 publication Critical patent/JP3902825B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 使用者が意識することなく、しかも負荷を大
きくすることなく使用者の要求に応じた検索処理を行う
ことができる文書検索システムを提供する。 【解決手段】 全文検索システムはコンピュータ1、イ
メージスキャナ3、表示装置5、キーボード7、外部記
憶装置9などから構成される。全文検索システムでは、
検索用ファイルを作成することが指示された場合、指定
された重要度に対応した重要単語を選択し、重要度に応
じた個数の同義語・類義語を反映した検索用ファイルの
作成処理を行う。「全文検索システムの開発…」という
文書から「全文」、「検索」、「システム」、「開発」
という単語を抽出する場合、抽出された単語以外に「フ
ルテキスト」、「サーチ」、「装置」、「創作」なども
合わせて検索用ファイルに登録される。キーボード7か
ら「フルテキストサーチ」という検索語が入力される
と、全文検索処理によりこの文書が検索される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書検索システム
および方法に関する。
【0002】
【従来の技術】従来、文書検索システムでは、文書イメ
ージデータや文書テキストデータの検査漏れを少なくす
るために、使用者は検索語とその同義語・類義語との論
理和演算を検索時に行うことにより索引を作成して検索
処理を行っていた。このような検索処理を行う文書検索
システムの中には、使用者の選択により同義語・類義語
を考慮するものや、使用者の選択に関わらず自動的に同
義語・類義語を考慮するものが知られている。
【0003】
【発明が解決しようとする課題】しかしながら、上記文
書検索システムでは、自動的に同義語・類義語を考量す
る場合、使用者が望んでいないものが多く検索された
り、検索処理の負荷が大きくなってしまうという問題が
あった。
【0004】また、使用者の選択により同義語・類義語
を考慮する場合、使用者は検索語とその同義語・類義語
との論理和演算を行う機能を常に意識しなければ活用で
きなかった。
【0005】そこで、本発明は使用者が意識することな
く、しかも負荷を大きくすることなく使用者の要求に応
じた検索処理を行うことができる文書検索システムおよ
び方法を提供することを目的とする。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、本発明の請求項1に記載の文書検索システムは、登
録時に文書から単語を抽出して索引を作成する文書検索
システムにおいて、登録される文書に重要度を付与する
重要度付与手段と、該付与された重要度の大きさを判別
する判別手段と、該重要度が大きいと判別された場合、
前記抽出された単語に対する同義語・類義語を取得する
取得手段と、該取得された同義語・類義語を前記索引に
追加する索引追加手段とを備えたことを特徴とする。
【0007】請求項2に記載の文書検索システムは、請
求項1に係る文書検索システムにおいて前記付与された
重要度の大きさに応じて前記取得される同義語・類義語
の数を決定することを特徴とする。
【0008】請求項3に記載の文書検索システムでは、
請求項1に係る文書検索システムにおいて前記重要度は
フラグをセットすることにより付与されることを特徴と
する。
【0009】請求項4に記載の文書検索システムは、登
録時に文書から単語を抽出して索引を作成する文書検索
システムにおいて、登録される文書に重要度を付与する
重要度付与手段と、前記抽出される単語の数を計数する
計数手段と、該計数された単語の数がしきい値以上であ
る場合、重要単語であると特定する特定手段と、前記付
与された重要度の大きさに応じて前記しきい値を変動さ
せるしきい値変動手段と、該重要単語であると特定され
た同義語・類義語の数を前記重要度の大きさに応じて決
定する決定手段と、該決定された数の同義語・類義語を
前記索引に追加する索引追加手段とを備えたことを特徴
とする。
【0010】請求項5に記載の文書検索システムでは、
請求項1または請求項4に係る文書検索システムにおい
て前記文書は文書イメージデータであり、該文書イメー
ジデータの文字を認識して前記単語を抽出することを特
徴とする。
【0011】請求項6に記載の文書検索システムでは、
請求項1または請求項4に係る文書検索システムにおい
て前記文書はテキストデータであり、該テキストデータ
から前記単語を抽出することを特徴とする。
【0012】請求項7に記載の文書検索方法は、登録時
に文書から単語を抽出して索引を作成する文書検索方法
において、登録される文書に重要度を付与し、該付与さ
れた重要度の大きさを判別し、該重要度が大きいと判別
された場合、前記抽出された単語に対する同義語および
類義語の少なくとも一方を取得し、該取得された同義語
および類義語の少なくとも一方を前記索引に追加するこ
とを特徴とする。
【0013】請求項8に記載の記憶媒体は、登録時に文
書から単語を抽出して索引を作成する際、登録される文
書に重要度を付与するステップと、該付与された重要度
の大きさを判別するステップと、該重要度が大きいと判
別された場合、前記抽出された単語に対する同義語・類
義語を取得するステップと、該取得された同義語・類義
語を前記索引に追加するステップとを有するCPUによ
り実行可能なプログラムが格納されたことを特徴とす
る。
【0014】
【発明の実施の形態】本発明の文書検索システムおよび
方法の実施の形態について説明する。本実施の形態にお
ける文書検索システムは全文検索システムに適用され
る。
【0015】[第1の実施の形態]図1は実施の形態に
おける全文検索システムの構成を示すブロック図であ
る。全文検索システムはコンピュータ1、イメージスキ
ャナ3、表示装置5、キーボード(あるいはマウス)
7、外部記憶装置9などから構成される。
【0016】イメージスキャナ3は認識対象となる文書
の原稿画像を光学的に読み取る。表示装置5はCRTあ
るいは液晶表示器(LCD)からなり、キーボード7か
ら入力された情報やイメージスキャナ3から入力された
画像情報、処理経過、処理結果を表示する。
【0017】キーボード7はオペレータによる各種コマ
ンドや重要度などの指示情報を入力するものであり、検
索処理の際には検索語や検索条件の入力に使用される。
外部記憶装置9はイメージスキャナ3から入力されたイ
メージデータ(画像情報)、テキスト情報、検索用ファ
イルを記憶するものである。また、外部記憶装置9には
単語辞書、同義語・類義語辞書が格納されている。
【0018】コンピュータ1は周知のCPU、ROM、
RAM(図示せず)などから構成される。ROMにはC
PUによって実行される後述する制御プログラムが格納
されている。コンピュータ1はROMに格納された制御
プログラムとしてのOCR処理ソフトウェア12、文書
検索ソフトウェア13をCPUが実行することによりO
CR処理部、文書検索部として機能する。この他、RO
Mには文字認識に用いられる辞書が格納されている。
【0019】CPUはイメージスキャナ3から入力され
たイメージデータを外部記憶装置9に一時的に格納して
おくと共に、OCR処理ソフトウェア12を実行するこ
とによりイメージデータをROMに格納された辞書を用
いてテキスト情報に変換して外部記憶装置9に格納す
る。また、CPUは文書検索ソフトウェア13により検
索用ファイルの作成や検索処理を実行する。
【0020】尚、上記制御プログラムを予めROMに格
納しておく代わりに外部記憶装置9から必要に応じてR
AMに読み込むようにしてもよい。
【0021】つぎに、全文検索で使用される検索用ファ
イルの作成について説明する。全文検索システムでは、
検索用ファイルを作成することが指示された場合、指定
された重要度に対応した重要単語を選択し、重要度に応
じた個数の同義語・類義語を追加して検索用ファイルを
作成する。図2は重要度に応じた個数の同義語・類義語
を追加して検索用ファイル作成をする処理手順を示すフ
ローチャートである。
【0022】検索用ファイルの作成に関し、使用者が登
録する文書および重要度を指定すると(ステップS
1)、指定されたテキスト情報をメモリ(RAM)ある
いは外部記憶装置9から文書検索部にロードする(ステ
ップS2)。
【0023】ロードされたテキスト情報の先頭から単語
辞書との比較を開始し、その内部に存在する単語文字列
を抽出し、抽出された単語文字列を抽出単語リスト情報
に格納する。また、指定された文書の重要度が高い場
合、出現度数の高いものの同義語・類義語を探して検索
用ファイルに反映させるために、この単語文字列を抽出
する際に単語文字列の出現度数を数えておく(ステップ
S3)。
【0024】重要度の指定があるか否かを判別し(ステ
ップS4)、重要度の指定がある場合、重要度に応じて
出現度数のしきい値を変動させ、しきい値を越える出現
頻度の高い単語文字列を重要単語として決定すると共
に、その重要度数に応じて同義語・類義語の個数を決定
する(ステップS5)。
【0025】重要単語としての単語文字列だけの同義語
・類義語を同義語・類義語辞書と照合し、照合された同
義語・類義語を抽出単語リスト情報に追加する(ステッ
プS6)。追加された抽出単語リスト情報と登録文書と
を対応付ける検索用ファイルを更新し(ステップS
7)、処理を終了する。
【0026】一方、ステップS4で重要度の指定がない
場合、そのままステップS7に移行する。上記処理を繰
り返すことによりロードしたテキスト情報の検索用ファ
イルの作成を完成させる。
【0027】つぎに、作成された検索用ファイルを用い
て検索処理を行う場合について説明する。図3は検索処
理手順を示すフローチャートである。使用者により検索
語が入力されると(ステップS11)、入力された検索
語を登録時と同様に単語辞書と比較し、検索語を単数あ
るいは複数の単語に分解して抽出する(ステップS1
2)。
【0028】出力メモリを初期化した後(ステップS1
3)、抽出された単語群のうち、始めの抽出単語を外部
記憶装置9に格納された検索用ファイルと照合して文書
アドレスを取得する(ステップS14、S15)。
【0029】1回目の抽出単語であるか否かを判別し
(ステップS16)、1回目の抽出単語である場合、照
合された文書アドレスを出力メモリにそのまま出力する
(ステップS18)。一方、1回目の抽出単語でない場
合、出力メモリに格納された文書アドレスと論理積演算
を行い(ステップS17)、ステップS14に移行す
る。
【0030】ステップS14で未処理の抽出単語がない
場合、出力メモリに格納された文書アドレスを検索結果
として出力する(ステップS19)。
【0031】このように抽出された単語群を共通に含む
文書アドレス情報をアプリケーション(文書検索ソフト
ウェア13)に返す。この文書アドレス情報により特定
される文書イメージデータを外部記憶装置9から読み出
して表示装置5に検索結果として表示する。
【0032】具体例を挙げて上記全文検索システムの動
作について説明する。「全文検索システムの開発…」と
いう文書がドキュメント上にあったとする。一方、文書
検索部ではこの文書と単語辞書との比較により「全
文」、「検索」、「システム」、「開発」という単語を
抽出する。ここで、高い重要度が与えられていた場合、
全単語に対して同義語・類義語に展開する処理が行われ
るので、上記抽出された単語以外に「フルテキスト」、
「サーチ」、「装置」、「創作」などの単語も合わせて
検索用ファイルに登録されることになる。したがって、
キーボード7から「フルテキストサーチ」という検索語
が入力されると、文書検索部は全文検索処理を行ってこ
の文書を検索する。
【0033】[第2の実施の形態]つぎに、抽出された
単語文字列の全ての同義語・類義語を検索用ファイルに
反映する場合について説明する。この場合、出現度数を
数える必要がなく、抽出された単語文字列の個々に対し
その重要度数に応じた個数の同義語・類義語を検索用フ
ァイル中の抽出単語リスト情報に付加する。図4は抽出
された単語文字列全ての同義語・類義語を追加して検索
用ファイルを作成する処理手順を示すフローチャートで
ある。
【0034】検索用ファイルの作成に関し、登録文書お
よび重要度が指定された場合(ステップS21)、指定
されたテキスト情報をメモリ(RAM)あるいは外部記
憶装置9から文書検索部にロードする(ステップS2
2)。
【0035】ロードされたテキスト情報の先頭から単語
辞書との比較を開始し、その内部に存在する単語文字列
を抽出し、抽出単語リスト情報に格納する(ステップS
23)。
【0036】重要度の指定があるか否かを判別し(ステ
ップS24)、重要度の指定がある場合、重要度数に応
じた同義語・類義語の個数を決定する(ステップS2
5)。ここで、重要度の指定はフラグをセットすること
により行い、フラグがセットされた場合、さらに重要度
数の設定を行うようにしてもよい。
【0037】抽出した全ての単語文字列に対して同義語
・類義語辞書と照合し、重要度数に応じて決定された個
数の同義語・類義語を抽出単語リスト情報に追加する
(ステップS26)。
【0038】追加された抽出単語リスト情報と登録文書
とを対応付ける検索用ファイルを更新する(ステップS
27)。一方、ステップS24で重要度の指定がない場
合、そのままステップS27に移行する。上記処理を繰
り返すことによりロードしたテキスト情報の検索用ファ
イルの作成を完成させる。
【0039】尚、上記ステップS5あるいはステップS
25で重要度数に応じた同義語・類義語の個数が決定さ
れ、決定された個数の同義語・類義語をステップS6あ
るいはステップS26で同義語・類義語辞書から抽出す
る際、同義語・類義語辞書に登録されている順に抽出し
てもよいし、次に述べるように単語間の概念距離に基づ
いて抽出してもよい。
【0040】即ち、同義語・類義語辞書に各単語間の概
念距離を予め登録しておき、重要単語からの概念距離の
総和が少ないものを優先して順に同義語・類義語を抽出
する。図5は同義語・類義語辞書に登録された各単語間
の概念距離を示す図である。例えば、「自動車」が重要
単語である場合、概念距離が値3である「カー」、概念
距離が値4である「モービル」、概念距離が値5である
「車」、「スポーツカー」、概念距離が値10である
「乗り物」、…… の順に同義語・類義語が抽出される
ことになる。この結果、概念的に近い同義語・類義語か
ら抽出されるので、より使用者の要求に応じた検索を行
うことができる。
【0041】さらに、上記実施の形態では、文書イメー
ジデータおよび文書テキストデータのどちらも取り扱え
る文書検索システムに適用する場合を示したが、文書テ
キストデータしか取り扱えない文書検索システムであっ
てもよい。
【0042】また、検索時に同義語・類義語を考慮する
機能を有する文書検索システムでも検索時に同義語・類
義語を考慮する機能を有しない文書検索システムでもど
ちらにも適用できる。
【0043】さらに、同義語・類義語のどちらか一方だ
けを考慮して登録するようにしてもよい。
【0044】また、本発明は複数の機器から構成される
システムに適用してもよいし、1つの機器からなる装置
に適用してもよい。また、本発明はシステムあるいは装
置にプログラムを供給することによって達成される場合
にも適用できることはいうまでもない。この場合、本発
明を達成するためのソフトウェアによって表されるプロ
グラムを格納した記憶媒体をシステムあるいは装置に読
み出すことによってそのシステムあるいは装置が本発明
の効果を享受することが可能となる。記憶媒体として
は、ROMの他に、例えばフロッピーディスク、ハード
ディスク、光ディスク、光磁気ディスク、CD−RO
M、CD−R、磁気テープ、不揮発性のメモリカードな
どを用いることができる。
【0045】
【発明の効果】本発明の請求項1に記載の文書検索シス
テムによれば、登録時に文書から単語を抽出して索引を
作成する際、重要度付与手段により登録される文書に重
要度を付与し、判別手段により該付与された重要度の大
きさを判別し、該重要度が大きいと判別された場合、取
得手段により前記抽出された単語に対する同義語・類義
語を取得し、索引追加手段により該取得された同義語・
類義語を前記索引に追加するので、使用者が意識するこ
となく、しかも負荷を大きくすることなく使用者の要求
に応じた検索処理を行うことができる。したがって、重
要な文書を検索し易くできる。
【0046】請求項2に記載の文書検索システムによれ
ば、前記付与された重要度の大きさに応じて前記取得さ
れる同義語・類義語の数を決定するので、重要な文書は
人の目に多く触れるようにすることができる。
【0047】請求項3に記載の文書検索システムによれ
ば、前記重要度はフラグをセットすることにより付与さ
れるので、重要度の指定の判断を簡単に行うことができ
る。
【0048】請求項4に記載の文書検索システムによれ
ば、登録時に文書から単語を抽出して索引を作成する
際、重要度付与手段により登録される文書に重要度を付
与し、計数手段により前記抽出される単語の数を計数
し、該計数された単語の数がしきい値以上である場合、
特定手段により重要単語であると特定し、しきい値変動
手段により前記付与された重要度の大きさに応じて前記
しきい値を変動させ、決定手段により該重要単語である
と特定された同義語・類義語の数を前記重要度の大きさ
に応じて決定し、索引追加手段により該決定された数の
同義語・類義語を前記索引に追加するので、単語の出現
頻度に応じて同義語・類義語の数および追加を設定する
ことができ、より使用者の要求に適した検索処理を行う
ことができる。
【0049】請求項5に記載の文書検索システムによれ
ば、前記文書は文書イメージデータであり、該文書イメ
ージデータの文字を認識して前記単語を抽出するので、
文書イメージデータの検索処理を効率よく行うことがで
きる。
【0050】請求項6に記載の文書検索システムによれ
ば、前記文書はテキストデータであり、該テキストデー
タから前記単語を抽出するので、テキストデータの検索
処理を効率よく行うことができる。
【0051】請求項7に記載の文書検索方法によれば、
登録時に文書から単語を抽出して索引を作成する文書検
索方法において、登録される文書に重要度を付与し、該
付与された重要度の大きさを判別し、該重要度が大きい
と判別された場合、前記抽出された単語に対する同義語
および類義語の少なくとも一方を取得し、該取得された
同義語および類義語の少なくとも一方を前記索引に追加
するので、使用者が意識することなく、しかも負荷を大
きくすることなく使用者の要求に応じた検索処理を行う
ことができる。
【0052】請求項8に記載の記憶媒体によれば、登録
時に文書から単語を抽出して索引を作成する際、登録さ
れる文書に重要度を付与するステップと、該付与された
重要度の大きさを判別するステップと、該重要度が大き
いと判別された場合、前記抽出された単語に対する同義
語・類義語を取得するステップと、該取得された同義語
・類義語を前記索引に追加するステップとを有するCP
Uにより実行可能なプログラムが格納されたので、情報
処理装置に搭載することで情報処理装置の汎用性を高め
ることができる。
【図面の簡単な説明】
【図1】実施の形態における全文検索システムの構成を
示すブロック図である。
【図2】重要度に応じた個数の同義語・類義語を追加し
て検索用ファイルを作成する処理手順を示すフローチャ
ートである。
【図3】検索処理手順を示すフローチャートである。
【図4】抽出された単語文字列全ての同義語・類義語を
追加して検索用ファイルを作成する処理手順を示すフロ
ーチャートである。
【図5】同義語・類義語辞書に登録された各単語間の概
念距離を示す図である。
【符号の説明】
1 コンピュータ 3 イメージスキャナ 5 表示装置 7 キーボード 9 外部記憶装置 12 OCR処理ソフトウェア 13 文書検索ソフトウェア

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 登録時に文書から単語を抽出して索引を
    作成する文書検索システムにおいて、 登録される文書に重要度を付与する重要度付与手段と、 該付与された重要度の大きさを判別する判別手段と、 該重要度が大きいと判別された場合、前記抽出された単
    語に対する同義語・類義語を取得する取得手段と、 該取得された同義語・類義語を前記索引に追加する索引
    追加手段とを備えたことを特徴とする文書検索システ
    ム。
  2. 【請求項2】 前記付与された重要度の大きさに応じて
    前記取得される同義語・類義語の数を決定することを特
    徴とする請求項1記載の文書検索システム。
  3. 【請求項3】 前記重要度はフラグをセットすることに
    より付与されることを特徴とする請求項1記載の文書検
    索システム。
  4. 【請求項4】 登録時に文書から単語を抽出して索引を
    作成する文書検索システムにおいて、 登録される文書に重要度を付与する重要度付与手段と、 前記抽出される単語の数を計数する計数手段と、 該計数された単語の数がしきい値以上である場合、重要
    単語であると特定する特定手段と、 前記付与された重要度の大きさに応じて前記しきい値を
    変動させるしきい値変動手段と、 該重要単語であると特定された同義語・類義語の数を前
    記重要度の大きさに応じて決定する決定手段と、 該決定された数の同義語・類義語を前記索引に追加する
    索引追加手段とを備えたことを特徴とする文書検索シス
    テム。
  5. 【請求項5】 前記文書は文書イメージデータであり、 該文書イメージデータの文字を認識して前記単語を抽出
    することを特徴とする請求項1または請求項4記載の文
    書検索システム。
  6. 【請求項6】 前記文書はテキストデータであり、 該テキストデータから前記単語を抽出することを特徴と
    する請求項1または請求項4記載の文書検索システム。
  7. 【請求項7】 登録時に文書から単語を抽出して索引を
    作成する文書検索方法において、 登録される文書に重要度を付与し、 該付与された重要度の大きさを判別し、 該重要度が大きいと判別された場合、前記抽出された単
    語に対する同義語および類義語の少なくとも一方を取得
    し、 該取得された同義語および類義語の少なくとも一方を前
    記索引に追加することを特徴とする文書検索方法。
  8. 【請求項8】 登録時に文書から単語を抽出して索引を
    作成する際、登録される文書に重要度を付与するステッ
    プと、 該付与された重要度の大きさを判別するステップと、 該重要度が大きいと判別された場合、前記抽出された単
    語に対する同義語・類義語を取得するステップと、 該取得された同義語・類義語を前記索引に追加するステ
    ップとを有するCPUにより実行可能なプログラムが格
    納された記憶媒体。
JP01777097A 1997-01-16 1997-01-16 文書検索システムおよび方法 Expired - Fee Related JP3902825B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01777097A JP3902825B2 (ja) 1997-01-16 1997-01-16 文書検索システムおよび方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01777097A JP3902825B2 (ja) 1997-01-16 1997-01-16 文書検索システムおよび方法

Publications (2)

Publication Number Publication Date
JPH10207909A true JPH10207909A (ja) 1998-08-07
JP3902825B2 JP3902825B2 (ja) 2007-04-11

Family

ID=11952960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01777097A Expired - Fee Related JP3902825B2 (ja) 1997-01-16 1997-01-16 文書検索システムおよび方法

Country Status (1)

Country Link
JP (1) JP3902825B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4881322B2 (ja) * 2005-01-25 2012-02-22 グーグル インコーポレイテッド 多重索引に基づく情報検索システム
US9037573B2 (en) 2004-07-26 2015-05-19 Google, Inc. Phase-based personalization of searches in an information retrieval system
US9384224B2 (en) 2004-07-26 2016-07-05 Google Inc. Information retrieval system for archiving multiple document versions

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9037573B2 (en) 2004-07-26 2015-05-19 Google, Inc. Phase-based personalization of searches in an information retrieval system
US9361331B2 (en) 2004-07-26 2016-06-07 Google Inc. Multiple index based information retrieval system
US9384224B2 (en) 2004-07-26 2016-07-05 Google Inc. Information retrieval system for archiving multiple document versions
US9817825B2 (en) 2004-07-26 2017-11-14 Google Llc Multiple index based information retrieval system
US9817886B2 (en) 2004-07-26 2017-11-14 Google Llc Information retrieval system for archiving multiple document versions
US10671676B2 (en) 2004-07-26 2020-06-02 Google Llc Multiple index based information retrieval system
JP4881322B2 (ja) * 2005-01-25 2012-02-22 グーグル インコーポレイテッド 多重索引に基づく情報検索システム

Also Published As

Publication number Publication date
JP3902825B2 (ja) 2007-04-11

Similar Documents

Publication Publication Date Title
RU2643467C1 (ru) Сопоставление разметки для похожих документов
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
US20020087531A1 (en) Database processing method and system
JP2004348591A (ja) 文書検索方法及び装置
JP2001075969A (ja) 画像管理検索装置、画像管理検索方法及び記憶媒体
JP4160548B2 (ja) 文書要約作成システム、方法、及びプログラム
JPH11224258A (ja) 画像検索装置及びその方法、コンピュータ可読メモリ
JPH10289240A (ja) 画像処理装置及びその制御方法
JP2009199302A (ja) ドキュメントを解析するためのプログラム,装置および方法
JP2005107931A (ja) 画像検索装置
JPH0773197A (ja) 異表記語辞書作成支援装置
JPH10207909A (ja) 文書検索システムおよび方法
JPH10289241A (ja) 画像処理装置及びその制御方法
JPH10289245A (ja) 画像処理装置及びその制御方法
US5153927A (en) Character reading system and method
CN112507108B (zh) 基于json规则文件的知识抽取方法、系统及规则解析引擎
CN115858797A (zh) 一种基于ocr技术生成中文近义词的方法及系统
JP2002024761A (ja) 画像処理装置及び画像処理方法並びに記憶媒体
JP2001005830A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
JP2001147923A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JP2000029901A (ja) 画像検索装置及び方法
JP3415214B2 (ja) 文書検索装置
JP4010589B2 (ja) 文書検索システムおよび同システムに適用される検索文書提示方法
JPH08272813A (ja) ファイリング装置
JPH07296005A (ja) 日本語テキスト登録・検索装置

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060606

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060912

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070105

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140112

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees