JP3902825B2 - 文書検索システムおよび方法 - Google Patents

文書検索システムおよび方法 Download PDF

Info

Publication number
JP3902825B2
JP3902825B2 JP01777097A JP1777097A JP3902825B2 JP 3902825 B2 JP3902825 B2 JP 3902825B2 JP 01777097 A JP01777097 A JP 01777097A JP 1777097 A JP1777097 A JP 1777097A JP 3902825 B2 JP3902825 B2 JP 3902825B2
Authority
JP
Japan
Prior art keywords
document
search
synonyms
words
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP01777097A
Other languages
English (en)
Other versions
JPH10207909A (ja
Inventor
弘隆 椎山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP01777097A priority Critical patent/JP3902825B2/ja
Publication of JPH10207909A publication Critical patent/JPH10207909A/ja
Application granted granted Critical
Publication of JP3902825B2 publication Critical patent/JP3902825B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書検索システムおよび方法に関する。
【0002】
【従来の技術】
従来、文書検索システムでは、文書イメージデータや文書テキストデータの検索漏れを少なくするために、使用者は検索語とその同義語・類義語との論理和演算を検索時に行うことにより索引を作成して検索処理を行っていた。このような検索処理を行う文書検索システムの中には、使用者の選択により同義語・類義語を考慮するものや、使用者の選択に関わらず自動的に同義語・類義語を考慮するものが知られている。
【0003】
【発明が解決しようとする課題】
しかしながら、上記文書検索システムでは、自動的に同義語・類義語を考慮する場合、使用者が望んでいないものが多く検索されたり、検索処理の負荷が大きくなってしまうという問題があった。
【0004】
また、使用者の選択により同義語・類義語を考慮する場合、使用者は検索語とその同義語・類義語との論理和演算を行う機能を常に意識しなければ活用できなかった。
【0005】
そこで、本発明は使用者が意識することなく、しかも負荷を大きくすることなく使用者の要求に応じた検索処理を行うことができる文書検索システムおよび方法を提供することを目的とする。
【0006】
【課題を解決するための手段】
上記目的を達成するために、本発明の文書検索システムは、文書から単語を抽出して索引を作成する文書検索システムにおいて、前記文書に重要度を付与する重要度付与手段と、前記抽出される単語のうち、同一とみなせる単語の数を計数する計数手段と、前記計数手段で計数した数が前記文書に付与した文書の重要度に応じて決定された閾値以上である単語それぞれに対して、該単語の同義語と類義語のうち少なくとも一方を前記重要度に応じた個数取得する取得手段と、前記取得手段で取得された同義語と類義語のうち少なくとも一方を前記索引に追加する追加手段とを備えたことを特徴とする。
【0007】
また、本発明の文書検索方法は、文書から単語を抽出して索引を作成する文書検索システムでの文書検索方法において、前記文書検索システムが備える重要度付与手段が、前記文書に重要度を付与する重要度付与ステップと、前記文書検索システムが備える計数手段が、前記抽出される単語のうち、同一とみなせる単語の数を計数する計数ステップと、前記文書検索システムが備える取得手段が、前記計数ステップで計数した数が前記文書に付与した文書の重要度に応じて決定された閾値以上である単語それぞれに対して、該単語の同義語と類義語のうち少なくとも一方を前記重要度に応じた個数取得する取得ステップと、前記文書検索システムが備える追加手段が、前記取得ステップで取得された同義語と類義語のうち少なくとも一方を前記索引に追加する追加ステップとを備えたことを特徴とする。
【0014】
【発明の実施の形態】
本発明の文書検索システムおよび方法の実施の形態について説明する。本実施の形態における文書検索システムは全文検索システムに適用される。
【0015】
[第1の実施の形態]
図1は実施の形態における全文検索システムの構成を示すブロック図である。全文検索システムはコンピュータ1、イメージスキャナ3、表示装置5、キーボード(あるいはマウス)7、外部記憶装置9などから構成される。
【0016】
イメージスキャナ3は認識対象となる文書の原稿画像を光学的に読み取る。表示装置5はCRTあるいは液晶表示器(LCD)からなり、キーボード7から入力された情報やイメージスキャナ3から入力された画像情報、処理経過、処理結果を表示する。
【0017】
キーボード7はオペレータによる各種コマンドや重要度などの指示情報を入力するものであり、検索処理の際には検索語や検索条件の入力に使用される。外部記憶装置9はイメージスキャナ3から入力されたイメージデータ(画像情報)、テキスト情報、検索用ファイルを記憶するものである。また、外部記憶装置9には単語辞書、同義語・類義語辞書が格納されている。
【0018】
コンピュータ1は周知のCPU、ROM、RAM(図示せず)などから構成される。ROMにはCPUによって実行される後述する制御プログラムが格納されている。コンピュータ1はROMに格納された制御プログラムとしてのOCR処理ソフトウェア12、文書検索ソフトウェア13をCPUが実行することによりOCR処理部、文書検索部として機能する。この他、ROMには文字認識に用いられる辞書が格納されている。
【0019】
CPUはイメージスキャナ3から入力されたイメージデータを外部記憶装置9に一時的に格納しておくと共に、OCR処理ソフトウェア12を実行することによりイメージデータをROMに格納された辞書を用いてテキスト情報に変換して外部記憶装置9に格納する。また、CPUは文書検索ソフトウェア13により検索用ファイルの作成や検索処理を実行する。
【0020】
尚、上記制御プログラムを予めROMに格納しておく代わりに外部記憶装置9から必要に応じてRAMに読み込むようにしてもよい。
【0021】
つぎに、全文検索で使用される検索用ファイルの作成について説明する。全文検索システムでは、検索用ファイルを作成することが指示された場合、指定された重要度に対応した重要単語を選択し、重要度に応じた個数の同義語・類義語を追加して検索用ファイルを作成する。図2は重要度に応じた個数の同義語・類義語を追加して検索用ファイル作成をする処理手順を示すフローチャートである。
【0022】
検索用ファイルの作成に関し、使用者が登録する文書および重要度を指定すると(ステップS1)、指定されたテキスト情報をメモリ(RAM)あるいは外部記憶装置9から文書検索部にロードする(ステップS2)。
【0023】
ロードされたテキスト情報の先頭から単語辞書との比較を開始し、その内部に存在する単語文字列を抽出し、抽出された単語文字列を抽出単語リスト情報に格納する。また、指定された文書の重要度が高い場合、出現度数の高いものの同義語・類義語を探して検索用ファイルに反映させるために、この単語文字列を抽出する際に単語文字列の出現度数を数えておく(ステップS3)。
【0024】
重要度の指定があるか否かを判別し(ステップS4)、重要度の指定がある場合、重要度に応じて出現度数のしきい値を変動させ、しきい値を越える出現頻度の高い単語文字列を重要単語として決定すると共に、その重要度数に応じて同義語・類義語の個数を決定する(ステップS5)。
【0025】
重要単語としての単語文字列だけの同義語・類義語を同義語・類義語辞書と照合し、照合された同義語・類義語を抽出単語リスト情報に追加する(ステップS6)。追加された抽出単語リスト情報と登録文書とを対応付ける検索用ファイルを更新し(ステップS7)、処理を終了する。
【0026】
一方、ステップS4で重要度の指定がない場合、そのままステップS7に移行する。上記処理を繰り返すことによりロードしたテキスト情報の検索用ファイルの作成を完成させる。
【0027】
つぎに、作成された検索用ファイルを用いて検索処理を行う場合について説明する。図3は検索処理手順を示すフローチャートである。使用者により検索語が入力されると(ステップS11)、入力された検索語を登録時と同様に単語辞書と比較し、検索語を単数あるいは複数の単語に分解して抽出する(ステップS12)。
【0028】
出力メモリを初期化した後(ステップS13)、抽出された単語群のうち、始めの抽出単語を外部記憶装置9に格納された検索用ファイルと照合して文書アドレスを取得する(ステップS14、S15)。
【0029】
1回目の抽出単語であるか否かを判別し(ステップS16)、1回目の抽出単語である場合、照合された文書アドレスを出力メモリにそのまま出力する(ステップS18)。一方、1回目の抽出単語でない場合、出力メモリに格納された文書アドレスと論理積演算を行い(ステップS17)、ステップS14に移行する。
【0030】
ステップS14で未処理の抽出単語がない場合、出力メモリに格納された文書アドレスを検索結果として出力する(ステップS19)。
【0031】
このように抽出された単語群を共通に含む文書アドレス情報をアプリケーション(文書検索ソフトウェア13)に返す。この文書アドレス情報により特定される文書イメージデータを外部記憶装置9から読み出して表示装置5に検索結果として表示する。
【0032】
具体例を挙げて上記全文検索システムの動作について説明する。「全文検索システムの開発…」という文書がドキュメント上にあったとする。一方、文書検索部ではこの文書と単語辞書との比較により「全文」、「検索」、「システム」、「開発」という単語を抽出する。ここで、高い重要度が与えられていた場合、全単語に対して同義語・類義語に展開する処理が行われるので、上記抽出された単語以外に「フルテキスト」、「サーチ」、「装置」、「創作」などの単語も合わせて検索用ファイルに登録されることになる。したがって、キーボード7から「フルテキストサーチ」という検索語が入力されると、文書検索部は全文検索処理を行ってこの文書を検索する。
【0033】
[第2の実施の形態]
つぎに、抽出された単語文字列の全ての同義語・類義語を検索用ファイルに反映する場合について説明する。この場合、出現度数を数える必要がなく、抽出された単語文字列の個々に対しその重要度数に応じた個数の同義語・類義語を検索用ファイル中の抽出単語リスト情報に付加する。図4は抽出された単語文字列全ての同義語・類義語を追加して検索用ファイルを作成する処理手順を示すフローチャートである。
【0034】
検索用ファイルの作成に関し、登録文書および重要度が指定された場合(ステップS21)、指定されたテキスト情報をメモリ(RAM)あるいは外部記憶装置9から文書検索部にロードする(ステップS22)。
【0035】
ロードされたテキスト情報の先頭から単語辞書との比較を開始し、その内部に存在する単語文字列を抽出し、抽出単語リスト情報に格納する(ステップS23)。
【0036】
重要度の指定があるか否かを判別し(ステップS24)、重要度の指定がある場合、重要度数に応じた同義語・類義語の個数を決定する(ステップS25)。ここで、重要度の指定はフラグをセットすることにより行い、フラグがセットされた場合、さらに重要度数の設定を行うようにしてもよい。
【0037】
抽出した全ての単語文字列に対して同義語・類義語辞書と照合し、重要度数に応じて決定された個数の同義語・類義語を抽出単語リスト情報に追加する(ステップS26)。
【0038】
追加された抽出単語リスト情報と登録文書とを対応付ける検索用ファイルを更新する(ステップS27)。一方、ステップS24で重要度の指定がない場合、そのままステップS27に移行する。上記処理を繰り返すことによりロードしたテキスト情報の検索用ファイルの作成を完成させる。
【0039】
尚、上記ステップS5あるいはステップS25で重要度数に応じた同義語・類義語の個数が決定され、決定された個数の同義語・類義語をステップS6あるいはステップS26で同義語・類義語辞書から抽出する際、同義語・類義語辞書に登録されている順に抽出してもよいし、次に述べるように単語間の概念距離に基づいて抽出してもよい。
【0040】
即ち、同義語・類義語辞書に各単語間の概念距離を予め登録しておき、重要単語からの概念距離の総和が少ないものを優先して順に同義語・類義語を抽出する。図5は同義語・類義語辞書に登録された各単語間の概念距離を示す図である。例えば、「自動車」が重要単語である場合、概念距離が値3である「カー」、概念距離が値4である「モービル」、概念距離が値5である「車」、「スポーツカー」、概念距離が値10である「乗り物」、…… の順に同義語・類義語が抽出されることになる。この結果、概念的に近い同義語・類義語から抽出されるので、より使用者の要求に応じた検索を行うことができる。
【0041】
さらに、上記実施の形態では、文書イメージデータおよび文書テキストデータのどちらも取り扱える文書検索システムに適用する場合を示したが、文書テキストデータしか取り扱えない文書検索システムであってもよい。
【0042】
また、検索時に同義語・類義語を考慮する機能を有する文書検索システムでも検索時に同義語・類義語を考慮する機能を有しない文書検索システムでもどちらにも適用できる。
【0043】
さらに、同義語・類義語のどちらか一方だけを考慮して登録するようにしてもよい。
【0044】
また、本発明は複数の機器から構成されるシステムに適用してもよいし、1つの機器からなる装置に適用してもよい。また、本発明はシステムあるいは装置にプログラムを供給することによって達成される場合にも適用できることはいうまでもない。この場合、本発明を達成するためのソフトウェアによって表されるプログラムを格納した記憶媒体をシステムあるいは装置に読み出すことによってそのシステムあるいは装置が本発明の効果を享受することが可能となる。記憶媒体としては、ROMの他に、例えばフロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカードなどを用いることができる。
【0045】
明によれば、文書に付与された重要度に基いて、単語に対する同義語・類義語を取得し、同義語・類義語を索引に追加するので、使用者が意識することなく、しかも負荷を大きくすることなく使用者の要求に応じた索引作成を行うことができる。したがって、重要な文書を検索し易くできる。
【0046】
また本発明によれば、重要度の大きさに応じて前記取得される同義語・類義語の数を決定するので、重要な文書は人の目に多く触れるようにすることができる。
【0048】
また本発明によれば、文書から抽出される単語の数を計数し、該計数された単語の数が閾値以上である場合にのみ、該単語に対する同義語・類義語を前記索引に追加するので、単語の出現頻度に応じて同義語・類義語の数を設定することができ、より使用者の要求に適した検索処理を行うことができる。
【0052】
【発明の効果】
本発明によれば、文書から単語を抽出して索引を作成する場合に、各単語の同義語と類義語のうち少なくとも一方を索引に追加する際の使用者の負荷を軽減することができる。
【図面の簡単な説明】
【図1】実施の形態における全文検索システムの構成を示すブロック図である。
【図2】重要度に応じた個数の同義語・類義語を追加して検索用ファイルを作成する処理手順を示すフローチャートである。
【図3】検索処理手順を示すフローチャートである。
【図4】抽出された単語文字列全ての同義語・類義語を追加して検索用ファイルを作成する処理手順を示すフローチャートである。
【図5】同義語・類義語辞書に登録された各単語間の概念距離を示す図である。
【符号の説明】
1 コンピュータ
3 イメージスキャナ
5 表示装置
7 キーボード
9 外部記憶装置
12 OCR処理ソフトウェア
13 文書検索ソフトウェア

Claims (6)

  1. 文書から単語を抽出して索引を作成する文書検索システムにおいて、
    前記文書に重要度を付与する重要度付与手段と、
    前記抽出される単語のうち、同一とみなせる単語の数を計数する計数手段と、
    前記計数手段で計数した数が前記文書に付与した文書の重要度に応じて決定された閾値以上である単語それぞれに対して、該単語の同義語と類義語のうち少なくとも一方を前記重要度に応じた個数取得する取得手段と、
    前記取得手段で取得された同義語と類義語のうち少なくとも一方を前記索引に追加する追加手段とを備えたことを特徴とする文書検索システム。
  2. 前記取得手段は、各単語間の概念距離を登録している同義語・類義語辞書を参照し、前記単語との概念距離の値が少ないものを優先して、同義語と類義語のうち少なくとも一方を取得することを特徴とする請求項1記載の文書検索システム。
  3. 検索語を入力する入力手段と、
    前記検索語、該検索語の同義語、該検索語の類義語のうち少なくとも1つを含む文書を検索する検索手段と、をさらに備えることを特徴とする請求項1記載の文書検索システム。
  4. 文書から単語を抽出して索引を作成する文書検索システムでの文書検索方法において、
    前記文書検索システムが備える重要度付与手段が、前記文書に重要度を付与する重要度付与ステップと、
    前記文書検索システムが備える計数手段が、前記抽出される単語のうち、同一とみなせる単語の数を計数する計数ステップと、
    前記文書検索システムが備える取得手段が、前記計数ステップで計数した数が前記文書に付与した文書の重要度に応じて決定された閾値以上である単語それぞれに対して、該単語の同義語と類義語のうち少なくとも一方を前記重要度に応じた個数取得する取得ステップと、
    前記文書検索システムが備える追加手段が、前記取得ステップで取得された同義語と類義語のうち少なくとも一方を前記索引に追加する追加ステップとを備えたことを特徴とする文書検索方法。
  5. 前記取得ステップは、各単語間の概念距離を登録している同義語・類義語辞書を参照し、前記単語との概念距離の値が少ないものを優先して、同義語と類義語のうち少なくとも一方を取得することを特徴とする請求項記載の文書検索方法。
  6. 前記文書検索システムが備える入力手段が、検索語を入力する入力ステップと、
    前記文書検索システムが備える検索手段が、前記検索語、該検索語の同義語、該検索語の類義語のうち少なくとも1つを含む文書を検索する検索ステップと、をさらに備えることを特徴とする請求項4記載の文書検索方法。
JP01777097A 1997-01-16 1997-01-16 文書検索システムおよび方法 Expired - Fee Related JP3902825B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01777097A JP3902825B2 (ja) 1997-01-16 1997-01-16 文書検索システムおよび方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01777097A JP3902825B2 (ja) 1997-01-16 1997-01-16 文書検索システムおよび方法

Publications (2)

Publication Number Publication Date
JPH10207909A JPH10207909A (ja) 1998-08-07
JP3902825B2 true JP3902825B2 (ja) 2007-04-11

Family

ID=11952960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01777097A Expired - Fee Related JP3902825B2 (ja) 1997-01-16 1997-01-16 文書検索システムおよび方法

Country Status (1)

Country Link
JP (1) JP3902825B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711679B2 (en) 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system

Also Published As

Publication number Publication date
JPH10207909A (ja) 1998-08-07

Similar Documents

Publication Publication Date Title
US7096218B2 (en) Search refinement graphical user interface
US7526423B2 (en) Apparatus and method for selecting a translation word of an original word by using a target language document database
US6728700B2 (en) Natural language help interface
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
JP2001515623A (ja) コンピュータによるテキストサマリ自動生成方法
JPH11224258A (ja) 画像検索装置及びその方法、コンピュータ可読メモリ
JP4754849B2 (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JPH10301943A (ja) 画像処理装置及びその制御方法
JPH10289240A (ja) 画像処理装置及びその制御方法
JP3902825B2 (ja) 文書検索システムおよび方法
JP2000231505A (ja) データオブジェクト群の自動命名方法およびその記憶媒体
JP2003196294A (ja) 知識分析システムおよび知識分析方法
JPH0773197A (ja) 異表記語辞書作成支援装置
JPH10289241A (ja) 画像処理装置及びその制御方法
JPH0785080A (ja) 全文書検索システム
JP3275813B2 (ja) 文書検索装置、方法及び記録媒体
JP2001005830A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
JP3415214B2 (ja) 文書検索装置
JP2000029901A (ja) 画像検索装置及び方法
JP3210842B2 (ja) 情報処理装置
JP4388142B2 (ja) 情報処理システム及びこのシステムでの処理をコンピュータに行なわせるためのプログラムを格納した記録媒体
US6625606B1 (en) System and method for filing/searching data having a full-text function and media for recording the method
JPH0793208A (ja) データベースシステムおよびその運用方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
JPH1173420A (ja) 文書処理装置及び文書処理プログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060606

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060912

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070105

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140112

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees