JPH0793376A

JPH0793376A - コンピュータを用いた検索方法および検索装置

Info

Publication number: JPH0793376A
Application number: JP6196845A
Authority: JP
Inventors: Teii Gaarando Harii; テイー．ガーランドハリー; Emu Hantaa Kenesu; エム．ハンターケネス; Jii Robaatsu Maikeru; ジー．ロバーツマイケル; Ai Abii Ikatsuku Hadaa; アイ．アビィ・イカックハダー
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1993-08-20
Filing date: 1994-08-22
Publication date: 1995-04-07
Anticipated expiration: 2020-01-12
Also published as: EP0639814B1; DE69424902T2; JP3610091B2; DE69424902D1; EP0639814A1; US5600835A

Abstract

(57)【要約】（修正有）【目的】適応的非逐語サーチ法あるいは「ファジー」
サーチ方法を用いて、格納された文書セットに含まれる
情報を選択的に検索する方法及びシステム。【構成】照会テキストストリングをコンピュータプロ
セッサへ送信し（ステップ２００）、格納された文書セ
ットに含まれる情報を表す複数のテキストストリングか
ら選択された、複数のテキストストリングに非類似度値
Diを割り当てる（ステップ２０８）。格納された情報を
表し、照会テキストストリングに関連する、検索された
テキストストリングのセットを形成する（ステップ２１
２）。検索された各テキストストリングは関連する非類
似度値Diを有し、非類似度Diはそのテキストストリング
を検索するのに用いられた少なくとも１つのルールRn
と、そのルールRnに関する重み値Wnの関数である。検索
された複数のテキストストリングは、非類似度値Diに基
づく順序で表示される。単数あるいは複数の検索された
テキストストリングを一度選択すると第１のルールのセ
ットの各ルールRnに関する重み値Wnを調整して格納す
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は一般に、複数の文書を操
作する時に使用される、文書格納及び検索システムの分
野に関する。特に、本発明は非逐語サーチ方法を用い
て、格納した文書から情報を選択的にサーチ・検索する
方法及びシステムに関するものである。

【０００２】

【従来の技術】文書を電子的に格納することにより、病
院や、大学、政府機関等で扱うような多量の文書処理が
可能となった。通常、テキストを電子データに変換する
スキャナシステムを使用して、文書を大規模な格納シス
テムへ格納している。このように、主としてテキストを
含む文書は、容易にスキャンし種々の電子データフォー
ムで格納が可能である。しかし、格納した文書から情報
を選択的に検索する際に、サーチする情報の量によっ
て、深刻な問題が発生する。

【０００３】現在の代表的なシステムでは、各文書にイ
ンデックスを割り当てて格納する。インデックスはシス
テムが持つものでもよいし、各文書に関しユーザが定義
コードでもよい。コードを文書と一緒に格納する。目的
の文書を検索するには、ユーザはその文書に関するコー
ドを入力しなければならない。他には、文書から抽出し
たキーワードを用いるシステムがあり、ユーザはそのキ
ーワードを用いて文書を検索する。そうしたシステムで
は、ユーザはその文書のみ通用する検索しか行なえず、
所望の文書に関するインデックス、コード、またはキー
ワードを知っていなければならない、という問題があ
る。

【０００４】又、ユーザがサーチしたい語句（term）を
入力して、文書の集合から選択した情報にアクセスする
ことのできるシステムもある。システムは文書集合の全
体を調べて入力されたサーチ語句に一致するものを読み
出す。しかし、そうした検索ではサーチ語句と文書内の
語句とが一致していない場合もある。例えば、ユーザが
キーボード入力ミスやその他のエラーによって、間違っ
た語句を入力したり意図したものと異なる語句を入力す
る事もある。または、オリジナルの文書自体にエラーが
あったり、OCRや、オペレータ入力されたキーワードに
エラーがある事もある。正確に一致するものだけをサー
チする現在のシステムでは、サーチ語句入力時のエラー
に対処することはできず、そうしたエラーがあった場合
は、所望の文書を検索することが不可能である。

【０００５】

【発明が解決しようとする課題】非逐語の、即ち「ファ
ジー（fuzzy）」サーチでは、コンピュータシステムに
テキストストリングを入力し、格納されたテキストファ
イル内で、そのテキストストリングに「近い」ものをサ
ーチする。例えば、ユーザが「recieve（スペルが間違
っている）」をサーチしようとした場合、このシステム
は正しいスペルの「receive」に対するサーチを行な
う。あるいは、格納されたテキストファイルが光学スキ
ャンされたドキュメントの光学文字認識処理（OCR）か
ら得られたものである場合、OCRシステムはしばしば印
刷上類似した文字を誤認識する。アルファベット文字
「O」は数字の「０」と混同されやすく、「rn」の綴り
は小文字の「m 」と混同されやすい。こうした場合に
は、入力テキストストリングに印刷上近いテキストを検
索することが望ましい。

【０００６】先行技術では、ユーザがサーチ語句をタイ
プする毎に、対象文書セット内の単数あるいは複数の
「該当語句」が読みだされ、選択のためにユーザに提示
される。「最適な（best）」該当語句は、究極的には該
当語句の中からユーザにより選択されるものであるが、
そのような語句は可能な該当語句のリスト中に埋もれて
いる事もあるし、あるいはリストのトップに位置してい
る事もある。通常は、検索された語句の表示順はある基
準に基づいているが、それはユーザに適合した（user-d
ependent）基準ではない。しかし、もし同一のユーザが
あるシステムを用いて文書の検索を行なっていて、その
ユーザがサーチ要求を入力する際に、常に同じキーボー
ド操作ミスやその他のエラーを犯したり、あるいは、OC
Rエラーの様な決まったエラーが格納されたテキストに
生じる場合には、例えば過去の選択に基づく適応的な
「最適な」該当語句の予測を行なって、予測した語句が
自動的に選択リストのトップあるいはその近辺に現われ
るようにすると好都合である。現在のシステムにはそう
した適応的要素は含まれていない。

【０００７】このように、文書セットから情報を選択的
に検索するための、非逐語サーチ方法に基づく方法及び
システムが未だに待ち望まれている。

【０００８】

【課題を解決するための手段】本発明の目的は、適応的
非逐語サーチ法あるいは「ファジー」サーチ方法を用い
て、格納された文書セットに含まれる情報を選択的に検
索する方法及び装置を提供することにある。上記課題を
達成するための本発明の、コンピュータによる情報の選
択的検索方法であって、データ格納媒体に格納され、コ
ンピュータプロセッサによりアクセスが可能な文書セッ
トに前記情報が含まれており、前記情報は複数の格納さ
れたテキストストリングを含んでおり、前記方法は、 A. ユーザ指定の照会テキストストリングをプロセッサ
へ送信し； B. 第１のルールのセットに従って、前記ユーザ指定の
照会テキストストリングと格納された文書セット内のテ
キストストリングから選択された１つのテキストストリ
ングとに関する非類似度値Diであって、第１のルールセ
ットの内の少なくとも１つのルールRnと、そのルールRn
に関する重み値wnの関数であるところの前記非類似度値
Diを生成し； C. 前記照会テキストストリングと第２のルールのセッ
トに従って、前記格納されたテキストストリングから検
索された少なくとも１つのテキストストリングを含むテ
キストストリングセットであって、各々が前記第１のル
ールの内の少なくとも１つの関連ルールRnを有する前記
テキストストリングセットを検索し； D. 前記関連する非類似度値Diに基づいて、前記検索さ
れたテキストストリングの表示を表示順序に従って形成
し； E. さらに処理を行なうために、テキストストリングセ
ットから検索されたテキストストリングの内の少なくと
も１つを選択し； F. 重み値wnを調整し、第１のルールのセットの各ルー
ルRnと関連して、この調整された重み値wn'をある調整
値だけ限定することを特徴とする。

【０００９】また、上記課題を達成するための本発明
の、情報を選択的に検索するコンピュータを用いた検索
装置であって、データ格納媒体に格納され、コンピュー
タプロセッサによりアクセスが可能な文書セットに前記
情報が含まれており、前記情報は複数の格納されたテキ
ストストリングを含んでおり、前記コンピュータ検索装
置は、 A. ユーザ指定の照会テキストストリングをプロセッサ
へ送信するデータ入力手段と； B. 各ルールRnが関連する重み値wnを有する第１のルー
ルのセットを格納する第１の格納媒体と、第２のルール
のセットを格納する第２の格納媒体と； C. 前記第１の格納媒体よりアクセスされた第１のルー
ルのセットに従って、前記データ格納媒体より検索され
たテキストストリングの内の選択された複数のテキスト
ストリングを、前記第１のルールセットの少なくとも１
つのルールRnとルールRnに関連付けられた重み値wnとの
関数である非類似度値Diに関連付ける手段と； D. 照会テキストストリングと第２の格納媒体よりアク
セスされた第２のルールのセットに従って、格納された
テキストストリングから少なくとも１つのテキスストリ
ングを含むテキストストリングセットであって、各々が
第１のルールのセットの内の少なくとも１つの関連する
ルールRnを有する前記テキストストリングセットを検索
する手段と； E. 関連する非類似度値Diに基づく表示順序に従って、
検索されたテキストストリングの表示を形成する表示装
置と； F. さらに処理を行なうために、テキストストリングセ
ットから検索されたテキストストリングの内の少なくと
も１つを選択する選択手段と； G. 重み値wnを調整し、第１のルールのセットの各ルー
ルRnと関連して、調整された重み値wn'をある調整値だ
け限定する手段とを備えることを特徴とする。

【００１０】具体的には、本システムはユーザ指定の照
会テキストストリング（text string query）をプロセ
ッサ（１０２）に伝送するデータ入力装置（１０４）を
備えている。第１の格納媒体（１０６）は第１のルール
のセットを格納しており、そのセットの各ルールRnは関
連する重み値wnを有し、第２の格納媒体（１０７）は第
２のルールのセットを格納している。システムは格納さ
れた文書セット内で第１のテキストストリング（TS）を
検討（consider）する（２０２）。第１のルールのセッ
トと、そのセットの各ルールに関連する重み値の関数と
して、非類似度値Diが計算される。照会テキストストリ
ングと、第２のルールのセットの少なくとも１つのルー
ルとに基づいて、複数の文書テキストストリングを含
む、検索されたテキストストリングのセットが生成され
る（２１２）。

【００１１】本システムは、非類似度値Diに基づいて検
索されたテキストストリングのセットに順序を与えて
（２１４）、表示装置（１１０）を用いて、順に並べた
セットを表示する（２１６）。表示された検索結果のテ
キストストリングはユーザに選択され、さらに処理また
は文書検索が行なわれる。その選択されたテキストスト
リングは、ある関連したルールあるいは複数のルールを
有するが、そのテキストストリングの各ルールをある値
により調整（２２０）して調整重み値wn'とする。その
値を、その後の検索で使用するために格納する。

【００１２】本発明はさらに上述のシステムの機能を実
現する方法を含んでいる。下記の詳細な説明及び図面を
参照して、さらに本発明を説明する。

【００１３】

【実施例】本発明はコンピュータに格納されたある文書
セットあるいはその他のデータセットから単語（word
s）またはその他の情報を検索することに関する。ユー
ザは文書、または文書の一部をサーチ語句に基づいて検
索する。しかし、様々な理由から、ユーザが入力したサ
ーチ語句と、文書セット内の対応する所望のテキストス
トリングとがミスマッチである場合がある。本システム
及び方法では、入力されたサーチ語句に基づいて、様々
な「近い」テキストストリングを文書セットから検索し
て、検索されたテキストストリングを、本システムの適
応的態様を反映する順序に並べて表示することができ
る。

【００１４】そうした非逐語即ち「ファジー」サーチシ
ステムにおける１つの問題は、文書セット内のある単語
について、それがサーチ語句と一致すると見做されるた
めにどの位サーチ語句に「近く」なければならないかを
限定することにある。本発明は、サーチ語句を入力する
時に生じる殆どのタイプのエラーを支配するルールのセ
ットを認識することにより、この問題に対処している。
例えば、ユーザが「monkey」という単語を検索しようと
しているが、「mankey」または「makney」とさえ入力し
てしまうかも知れない。こうしたエラーが有る場合は、
まず上記の最初の入力例においては１つのルールを適用
して検索し、２番目の例においては２つのルールを適用
して検索する。しかし、本発明は、「monkey」も同様に
検索して、検索された語句の表示リスト中にこの語を表
示する。

【００１５】図１を参照すると、本システム１００はコ
ンピュータプロセッサ１０２を備えている。プロセッサ
１０２はキーボード等の入力装置１０４、少なくとも１
つのメモリ装置１０６、出力装置１１０と通信を行な
う。また、プロセッサ１０２は、格納された文書セット
を含む格納媒体１０８とも通信を行なうものである。格
納媒体１０８はタイプされたり、スキャンされたり、光
学文字認識技術を用いて入力されたり、文書格納の分野
における当業者に公知であり利用可能ないずれかの技術
によって入力された文書セットに含まれる情報を格納す
るのに使用される。

【００１６】本システムの好適な実施例では、格納媒体
１０８とプロセッサ１０２は単一のハウジングに収容さ
れて、自己格納型（self-contained）のシステムを形成
している。他の実施例としては、格納媒体１０８がプロ
セッサから離れて位置しており、ネットワーク、ケーブ
ル、その他の情報転送媒体を介して、プロセッサ１０２
によりアクセス可能であってもよい。

【００１７】図２Ａ〜２Ｂは本システム１００の機能ブ
ロック図である。プロセッサ１０２は、入力装置１０４
より照会テキストストリング（TSQ）を受信する（２０
０）。照会テキストストリングとは、ユーザが格納媒体
１０８に格納された文書セットから検索したいと望んで
いる、サーチ語、句、その他の一連の文字列または単一
の文字を含むものである。システム１００は次に、格納
された文書セット内の１つの最初のテキストストリング
を検討する（ステップ２０２）。この検討された最初の
テキストストリングとは、格納された文書セット内の最
初のテキストストリングであるか、格納された文書セッ
ト内で本システムの目的のために「最初」のテキストス
トリングとして指定された、テキストストリングの内の
１つであるかのどちらかである。

【００１８】次に非類似度値Di を決定して（２０
６）、それをステップ２０２で検討された文書テキスト
ストリングに割り当てる（２０８）。非類似度値Diを決
定する様々な技術が当業者に知られており利用可能であ
る。こうして、非類似度値Diを決定するいずれの方法も
本システムに用いることができる。好適な実施例では、
非類似度値Diは次のように定義される。

【００１９】ここでrnは、照会テキストストリングにより特定された
パターンにマッチするテキストストリングを生成するた
めに、メモリ１０６に格納された第１のルールのセット
からのある特定のルールRnを文書テキストストリングに
適用しなければならない回数である。kはルールの数で
あり、wnは各ルールに割り当てられる重みである。

【００２０】メモリ１０６に格納された上記第１のルー
ルのセットは、文書テキストストリングが照会テキスト
ストリングによって特定されたパターンにマッチするよ
うに、文書テキストストリングを修正するために全体で
検討される操作のセットである。代表的な操作には、余
分文字（extra character）、欠落文字（missing chara
cter）、誤字（wrong character）、隣接置換文字（exc
hanged adjacent characters）、誤大小文字対応（wron
g case character/case sensitive）、誤大小文字非対
応（wrong case character/case insensitive）、余分
あるいは欠落の接頭辞（prefix）、接尾辞（suffix）、
語根文字（root characters）がある。この他にも多数
のルールが利用可能であり、上記のルールの変形ルール
も同様に利用可能である。これらの代表的な処理は以下
のように限定される。

【００２１】「余分文字」とは、文書テキストストリン
グが照会テキストストリングには無い余分な文字を含ん
でいることを意味する。例えば、照会テキストストリン
グが「misuse」であるのに対し、文書テキストストリン
グは「missuse」である場合である。この場合、照会テ
キストストリングには無い単一の余分文字「s」が文書
テキストストリングに含まれている。

【００２２】「欠落文字」とは、照会テキストストリン
グの一部の文字が文書テキストストリングから欠けてい
ることを意味する。例えば、照会テキストストリングが
「conscious」であるのに対し、文書テキストストリン
グは「consious」あるいは「concious」である場合であ
る。「誤字」とは、文書テキストストリングの一部の文
字が所望の文字と異なっていることを意味する。例え
ば、照会テキストストリングが「bounce」であるのに対
し、文書テキストストリングは「bounse」、「bownce」
等である場合である。これらの例の各々において、非一
致は一致する文字に推定置換されている。

【００２３】「隣接置換文字」とは、文書テキストスト
リングの隣接する文字の順序が入れ替わっていることを
意味する。例えば、照会テキストストリングが「receiv
e」であるのに対し、文書テキストストリングは「recie
ve」である場合である。「誤大小文字対応」とは、大文
字／小文字に関するサーチにおいて、文書テキストスト
リングの大文字／小文字が一致していないことを意味す
る。例えば、照会テキストストリングが「America」で
あるのに対し、文書テキストストリングは「america」
となっており、先頭の文字が大文字の「A」ではない場
合である。

【００２４】「誤大小文字非対応」とは、サーチにおい
て大文字／小文字が比較的問題にはならない場合、文書
テキストストリングには、照会テキストストリングの大
文字／小文字に一致していない文字が含まれることを意
味する。例えば、照会テキストストリングが大文字／小
文字非対応で、照会テキストストリングが大文字を含ん
でいても含んでいなくても、文書テキストストリングの
文字は全て大文字である場合である。

【００２５】大小文字対応処理の変形には、単語中の各
文字に対する大小文字対応／非対応、先頭の文字（上記
の例のように）に対する大小文字対応、先頭の文字のみ
非対応で他の文字全てに対する大小文字対応等がある。
また、大小文字対応処理は語幹、語根、接頭辞、接尾辞
に関する位置に基づいている。「余分あるいは欠落の接
頭辞、接尾辞、語根文字」とは、例えば、そうした余分
文字が文書テキストストリングの末尾あるいは他の部分
に生じることを意味する。例えば、照会テキストストリ
ングが「exist」であって、「preexist」が見つかった
場合、後者が接頭辞「pre」の余分文字を含んでいて
も、最も近い語となる場合である。

【００２６】上記の各ルールは単一のルールでも、同じ
問題に対応する１クラスのルールであってもよい。例え
ば、「誤字」ルールは、OCRテキストに対し、数字の
「1」に混同されるアルファベット「l」に関するペナル
ティを与える１つのルール、数字の「０」と混同される
アルファベット「o」に関するペナルティを与える１つ
のルール等の複数のルールのセットであってもよい。
「bounce」が「bounse」に余分文字ルールを適用するこ
とにより「bounse」を生成し、そして欠落文字ルールを
適用することにより、そのターゲットの「bounce」を生
成することにより得られることから、ルールのセットRn
は必ずしも排他的ではない。

【００２７】本システムのルールに入れてもよい他のタ
イプの処理やサーチ方法には、サーチで関係した単語を
見つける類語（thesaurus）ルールや、サーチで発音上
等しい単語を見つける音声（phonetic）ルール、言語翻
訳ルール、同一の語根を持つ全ての単語を見つける接頭
／接尾辞除去ルール等、発見的学習ルールがある。当業
者に知られている他のルールをルールセットに含めても
よい。それらのルールは本システムのルールセットに含
まれているものとする。

【００２８】次のステップ２１０では、検討される文書
セットにおいて追加のテキストストリングが有るかどう
かをチェックする。このステップ２０２〜２１０のルー
プは、図２Ａに示すように、文書中の各テキストストリ
ングに非類似度値Diが割り当てられるまで繰り返され
る。一実施例として、本システムに用語索引テーブル
（concordance table）あるいは他のインデックスを設
けてもよい。この例では、索引テーブルは、文書セット
の全テキストストリングに同じ非類似度値Diが与えられ
ないように、選択されたテキストストリングを指定して
いる。

【００２９】各ルールに関連した重み値wnは、初期値と
して所定の数字とする。一実施例として、全ルールに同
一の初期の重み値を与えてもよいし、他の実施例として
幾つかの予想重み値に基づいて各ルールにそれぞれ重み
値を与えてもよい。一実施例では、重み値wnは、ルール
Rnがユーザに選択される一致テキストを得るような類似
性の測定基準である。好ましくは、重み値wnは、各ルー
ルRnに関連したペナルティ値である。

【００３０】重み値wnはユーザ指定またはアプリケーシ
ョン指定でもよい。例えば、ある特定のユーザが照会テ
キストストリングを入力する際に同じタイプ置換ミスを
することが知られている場合、そのルールに関する第１
の重み値はその傾向を反映しているものになる。他の例
としては、OCR技術を用いて得てメモリに格納した文書
セットにおいて、文字「l」を数字の「１」に置き換え
たり、またはその逆の共通のミスマッチが生じることが
ある。そうした共通のエラーに対する重み値wnは、ま
ず、OCR入力の文字置換ルールの応用例に関する過去の
データに基づいて所定の値に設定する。本発明の他の実
施例としては、異なるルールに同一の重み値を持たせて
もよい。重み値をユーザにより調整または決定が可能と
してもよい。各ルールに関する重みは、下記に詳細に説
明するように、サーチ結果の表示において重要である。

【００３１】好適なシステムにおいては、重み値wnは各
ルールに起因するペナルティである。各ペナルティは、
初期値や、別のルールの重み値又は複数のルールの重み
値に基づく範囲に加え、さらに適応的変更の手法や割合
を支配する様々なパラメータを有するように生成する。
上述したように、ペナルティは各ルールに対し同一の値
に設定することもできるし、過去の処理や各ルールの相
対的な重要度を反映させて、異なる値に設定することも
できる。

【００３２】全ての文書テキストストリングに非類似度
値Diが割り当てられる毎に（ステップ２０８）、次のス
テップ２１２で、テキストストリングセットを検索す
る。システムは、図１に示す第２の格納媒体１０７等の
メモリ装置に格納された第２のルールのセットに従って
テキストストリングを検索する。これらのルールは、最
低の非類似度値Diを持つ最初のx個の文書テキストスト
リングを検索する；x未満の非類似度値を持つ文書テキ
ストストリングのみを表示する；ゼロ（即ち正確に一致
している）の非類似度値を持つ文書テキストストリング
のみを表示する；最低の非類似度値Diを持つ全ての文書
テキストストリングを表示する；j個の非類似度値Diを
持つ全ての文書テキストストリングを表示する；１文書
につき最低の非類似度値Diを持つ１つの文書テキストス
トリングを表示する、等である。１実施例としては、第
２のルールのセットがDi値に影響を与えてもよい。例え
ば、各文書に、当該文書から得られた全ての文書テキス
トストリングのDi値に影響するように使用される、１つ
の関連したペナルティ重み値を持たせてもよい。文書重
み値は固定でもよく、または検索したテキストストリン
グに対しユーザが行なう選択より決定されるものでもよ
い。

【００３３】好適な実施例では、検索されたテキストス
トリングは検索されたテキストストリングセットにおけ
る各テキストストリングに関する非類似度値Diに基づい
て順に並べられる（２１４）。好ましくは、検索された
テキストストリングのうち最低の非類似度値を持つもの
が、それより高い非類似度値を持つテキストストリング
より優先される。例えば、単一の検索されたテキストス
トリングは、もしそれが異なる複数の文書にあるなら
ば、そのテキストストリングを文書テキストストリング
より検索するのに使用される上記第２のルールのセット
に従って、何度も現われる。

【００３４】ステップ２１６では、表示装置１１０が順
に並べられた検索されたテキストストリングセットを表
示する。形成された表示の代表的な例は、検索されたテ
キストストリングを含む文書セットのあるページの全部
または一部を検索する前に、ユーザが検索されたテキス
トストリングを見るというものである。例えば、医療記
録コンテキストにおいて、ユーザがある患者「Smith」
氏の医療記録を検索して格納された記録を見ようとする
場合がある。「Smith」という名前の、そして「Smith」
に関する他のバリエーションの名前の各患者の全記録を
検索する前に、本システムは検索されたテキストストリ
ングのリストを表示する（２１６）。

【００３５】システムは、表示装置１１０から１つのテ
キストストリングが選択されるまで待つ（２１８）。こ
の選択はユーザがキーボード、マウス、タッチスクリー
ン等を有する入力装置１０４を用いて行なうことができ
る。この選択により、選択されたテキストストリングを
含む数ページ、１ページ、またはページの一部など文書
の一部を検索する他のシステムへ命令が送られる。本シ
ステムに関連して用いられるシステムの代表的なもの
は、共通の出願人による米国特許出願第０８／０６０、
４２９号に開示されており、ここでは番号を参照するこ
とによりその内容が本出願に含まれるものとする。

【００３６】他の例では、選択されたテキストストリン
グは、スペルチェックを行なうためのアプリケーション
プログラムとの相互作用のために、プロセッサに送られ
る。詳しくは、ユーザが本発明に含まれるスペルチェッ
クプログラムを一度起動すると、システムは文書中のス
ペルチェックされているテキストストリングを認識して
辞書即ち文書セットをサーチし、一致するものを識別す
る。「最適」な一致テキストストリングは、基本的に、
ここで説明しているような方法で表示される。本発明
は、外国語ルックアップ、練習（practice）、引用（ci
tation）、辞書システム等、他の様々なシステムでも用
いることができる。

【００３７】本発明の重要な点として、重み値wnは本質
的に適用的である。従って、次のステップ２２０では、
上記表示より選択された検索されたテキストストリング
TSKと関連して付けられた各ルール、あるいは複数のル
ールに関連するように重み値wnを調整する。例えば、１
実施例では、ユーザが表示された複数のテキストストリ
ングTSKから１つを選択した場合、ステップ２０４〜２
０６で用いた各ルールに関するペナルティ重み値を減少
させるか、もしくは調整する。このシステムを継続して
使用すると、システムがユーザ及びアプリケーション環
境に適合するように、選択されたテキストストリングの
各ルールRnに関する重み値が上下に調整される。これ
は、例えば、関連するペナルティ重み値を減らして行く
ことによって究極的にはユーザに選択される、近いテキ
ストを見つけるのに有効な、効果的に「価値のある」
（rewarding）ルールにより達成され、重み値の調整に
基づくルール間の識別のための基礎を成すことができ
る。

【００３８】好適な実施例では、ルールセットの各ルー
ルRnに関する重み値wnを調整する。他の実施例では、選
択されたテキストストリングTSKの検索に用いられたル
ールRnに関する重み値wnのみを調整する。さらに他の実
施例では、ルールRnから選択された数個のルールに関す
る数個の重み値wnを調整する。重み値wnを調整する特定
の方法は、本発明の特定の実施例に従っている。好まし
くは、各後続のサーチに関して、各ルールの使用に従っ
て調整された重み値が適用されるように、システムは調
整重み値をメモリ内に保存する。こうして、ステップ２
０８では非類似度値Diを文書セットの各テキストストリ
ングに割り当てるが、その値Diは先のサーチからの調整
重み値に基づいて決定される。

【００３９】重み値調整の目標は、調整値が、ユーザが
選択する一致テキストとユーザが選択しない一致テキス
トの間を識別するような新しい重み値wn になるような
基準値を取ることである。摂動法と称される好適な方法
は、類似点Cの基準を決定し、それを使用して、第１の
ルールのセットにおける全てのルールの重み値wnを調整
する。摂動法では、類似点C が増加するように、各ルー
ルRnに関する重み値をそれぞれ増やしたり減らしたりす
る。本発明を実施する際決定される、類似点Cの基準値
は次の式で表される。 C =[ Dm] - [Di] [ Dm]は非選択テキストストリングmに関する平均非類似
度値であり、[ Di]は選択テキストストリングの平均非
類似度値である。上述したように、通常、文書セットの
各テキストストリングは非類似度値に関連している。

【００４０】図３は摂動法を実行するための好適なシス
テムのフローチャートである。ステップ４００では、好
ましくは上述のアルゴリズムに従って、類似点Cの初期
の基準値が決定される。通常この最初のステップは、ユ
ーザが検索されたテキストストリングのセットから１つ
あるいは複数の選択を行なった後に実行される。次のス
テップ４０２では、単一のルールRnに関する重み値wnが
所定の値に基づいて決定される。所定の値は１のような
一定の値でも、選択されたいずれの数値でもよい。減数
の方法は当業者に使用可能な減算、除法、またはその他
の数学的方法のいずれでもよい。他の全ての重み値は、
この方法を実行する目的で変更されずに保持される。ス
テップ４０４で、重み値wn'を用いて調整された類似点
C'が決定される。好適な実施例では、この決定ステップ
４０４は上記のアルゴリズムに従って実行される。

【００４１】次のステップ４０６では、システムはステ
ップ４０４で決定された、調整された類似点C'が、減数
ステップ４０２に先行してステップ４００で決定された
類似点Cの最初の測定基準を上回って増加しているかど
うかをチェックする。C'がCを越えている場合、ステッ
プ４０８では、重み値wn'は減数された値のまま保持さ
れる。しかし、C'がCを越えていない場合、重み値wn'は
初期の値wnに戻され、値wnはステップ４１０である所定
値に増加される。ステップ４００〜４１０は、本システ
ムの各ルールに関する重み値に対して個別に実行され
る。増加方法は、当業者に使用可能な加法、乗法、また
はその他のいずれの数学的方法でもよい。別の方法とし
ては、類似点Cの向上を検証するために、ステップ４１
０の後で類似点Cの基準値を再計算してもよいし、Cに対
してチェックしてもよい。図３に図示するシステムは、
重み値wnを増加させることにより、そして／またはC に
おける増加よりもCにおける減少に対してチェックする
ことにより選択的に実行される。摂動法は類似点の基準
値を増加させるために実行される。重み値とルールに対
する摂動法を含んで本発明を実行するに際して、システ
ムは選択テキストストリングと非選択テキストストリン
グの非類似度値Di間の分離をできるだけ多く得ようとす
る。また、Cを決定する他の方法を使用してもよい。

【００４２】システムはさらに各テキストストリングに
関する選択傾向値（selection preference value）sqも
有している。選択傾向値は、特定のテキストストリング
TSが選択されたか否かを示す２値の数値である。好適な
実施例では、ユーザが一致テキストを選択した場合は選
択傾向値にゼロを割り当て、選択しなかった場合は１を
割り当てている。あるいは、ユーザは検索されたテキス
トストリングに数値を（ゼロか１かに限定されない数
字）を割り当てて、近似テキスト間の傾向を表すように
優先順位を付けてもよい。そうした実施例では、低い数
値は特定の近似テキストにおける多大な注目度を示す
（例えば、１が最初の選択を、２が２番目の選択を表
す）。

【００４３】他の実施例では、類似点C の適切な基準値
は、以下の方法のいずれかによって決定される。それら
は、非類似度値Diと選択傾向sqとの相関のピアソン積モ
ーメント係数（the Pearson product moment coefficie
nt of correlation）；非類似度値と選択傾向間にはい
ずれの相関もないとするゼロ仮定により計算された、相
関のピアソン積モーメント係数の確率の逆数；非類似度
値と選択傾向間にはいずれの相関もないとするゼロ仮定
により計算された、相関ピアソン積モーメント係数の確
率により乗じたネガティブな値；非類似度値Diと選択傾
向sq間の相関の係数のスピアマン・ロー順位（the Spea
rman rho rank-order）；非類似度値Diと選択傾向sq間
にはいずれの相関もないとするゼロ仮定により計算され
た、相関係数のスピアマン・ロー順位の確率の逆数であ
る。

【００４４】１実施例では、重み値wnはステップ４１０
で回復され、あるいはステップ４０８で減数された後に
基準化される。基準化は、正確な計算を行なうために、
重み値が大きくなりすぎたり小さくなりすぎるのを防止
し、個別の照会の後で決定された非類似度値Diが確実に
比較値を有するように実行される。基準化は重み値の全
てに適用してもよいし、関係ルールRnのカテゴリに対応
する重みのサブセットに適用してもよい。例えば、印刷
上類似した文字の置換に関する重み値は、他の重み値と
は別に基準化された重みのサブセットを形成してもよ
い。

【００４５】基準化は以下のステップのうちの１つまた
はそれ以上のステップを含む。それらは、あるセットの
各ルールに関する重み値wnにある量を付加して、固定平
均値または主傾向の他の基準値を得る；あるセットの各
ルールに関する重み値wnにある量を乗じて、固定平均値
または主傾向の他の基準値を得る、あるいは固定の基準
偏差または他の分散の基準値を得る；あるセットの各ル
ールに関する重み値wnにある量を付加して、セットの特
定の重みを固定値に保持する；あるセットの各ルールに
関する重み値wnにある量を乗じて、特定の重みを固定値
に保持する、というものである。

【００４６】上記の説明は好適な実施例の動作の説明を
含んでなされたがこれは発明の範囲を限定するものでは
ない。発明の範囲は以下の請求項によってのみ限定され
る。関係分野の当業者には、発明の精神と範囲を越えな
い程度で、上記の説明から多数の変形例が可能であるこ
とが明らかとなるであろう。

【００４７】

【発明の効果】以上説明した本発明によると、適応的非
逐語サーチ法あるいは「ファジー」サーチ方法を用い
て、格納された文書セットに含まれる情報を選択的に検
索する方法及び装置を提供できた。

【図面の簡単な説明】

【図１】本発明の１実施例を示すブロック図である。

【図２Ａ】実施例の制御手順を示すフローチャートであ
る。

【図２Ｂ】実施例の制御手順を示すフローチャートであ
る。

【図３】関連程度の決定に関する本発明の１実施例のフ
ローチャートである。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ケネスエム．ハンターアメリカ合衆国カリフォルニア州 94304 パロアルト，ミランダアベニュー 4009，キヤノンリサーチセンターアメリカ，インコーポレイテッド内 (72)発明者マイケルジー．ロバーツアメリカ合衆国カリフォルニア州 94304 パロアルト，ミランダアベニュー 4009，キヤノンリサーチセンターアメリカ，インコーポレイテッド内 (72)発明者ハダーアイ．アビィ・イカックアメリカ合衆国カリフォルニア州 94304 パロアルト，ミランダアベニュー 4009，キヤノンリサーチセンターアメリカ，インコーポレイテッド内

Claims

【特許請求の範囲】

【請求項１】コンピュータによる情報の選択的検索方
法であって、データ格納媒体に格納され、コンピュータ
プロセッサによりアクセスが可能な文書セットに前記情
報が含まれており、前記情報は複数の格納されたテキス
トストリングを含んでおり、前記方法は、 A. ユーザ指定の照会テキストストリングをプロセッサ
へ送信し； B. 第１のルールのセットに従って、前記ユーザ指定の
照会テキストストリングと格納された文書セット内のテ
キストストリングから選択された１つのテキストストリ
ングとに関する非類似度値Diであって、第１のルールセ
ットの内の少なくとも１つのルールRnと、そのルールRn
に関する重み値wnの関数であるところの前記非類似度値
Diを生成し； C. 前記照会テキストストリングと第２のルールのセッ
トに従って、前記格納されたテキストストリングから検
索された少なくとも１つのテキストストリングを含むテ
キストストリングセットであって、各々が前記第１のル
ールの内の少なくとも１つの関連ルールRnを有する前記
テキストストリングセットを検索し； D. 前記関連する非類似度値Diに基づいて、前記検索さ
れたテキストストリングの表示を表示順序に従って形成
し； E. さらに処理を行なうために、テキストストリングセ
ットから検索されたテキストストリングの内の少なくと
も１つを選択し； F. 重み値wnを調整し、第１のルールのセットの各ルー
ルRnと関連して、この調整された重み値wn'をある調整
値だけ限定することを特徴とする検索方法。
【請求項２】選択されたテキストストリングに割り当
てられた前記非類似度値Diは、調整された重み値wn'を
有することを特徴とする請求項１に記載の検索方法。
【請求項３】前記非類似度値生成ステップは、検索さ
れた各テキストストリングに関する非類似度値Diを、に従って決定するステップを含み、rnは、照会テキスト
ストリングに一致するテキストストリングを生成するた
めに、第１のルールのセットの内の１つのルールRnを格
納されたテキストストリングの内の１つに適用すべき回
数であり、kはルールの総数であることを特徴とする請
求項１に記載の検索方法。
【請求項４】前記表示を生成するステップは、各検索
されたテキストストリングに関する非類似度値Diに基づ
いて、増加数列順に検索されたテキストストリングの表
示を生成するステップを含むことを特徴とする請求項３
に記載の検索方法。
【請求項５】前記重み値調整ステップは、選択された
テキストストリングに関する非類似度値Diの平均値[Di]
と、非選択テキストストリングの非類似度値Diの平均値
[Dm]間の類似点Cの基準値を決定するステップを含むこ
とを特徴とする請求項３に記載の検索方法。
【請求項６】第１のセットのルールRnから選択された
複数のルールに関する前記重み値wnを選択的に調整する
ことにより、類似点Cの基準値を増加させるステップを
さらに備えることを特徴とする請求項５に記載の検索方
法。
【請求項７】各ルールRnに関する各重み値を基準化す
るステップをさらに備えることを特徴とする請求項６に
記載の検索方法。
【請求項８】前記重み値wn'調整ステップは、（a）検索されたテキストストリングの内の非選択テキ
ストストリングに関する非類似度値を、ある減数値だけ
減少させ；（b）選択されたテキストストリングに割り当てられた
非類似度値を、ある増数値だけ増加させるステップを備
えることを特徴とする請求項１に記載の検索方法。
【請求項９】情報を選択的に検索するコンピュータを
用いた検索装置であって、データ格納媒体に格納され、
コンピュータプロセッサによりアクセスが可能な文書セ
ットに前記情報が含まれており、前記情報は複数の格納
されたテキストストリングを含んでおり、前記コンピュ
ータ検索装置は、 A. ユーザ指定の照会テキストストリングをプロセッサ
へ送信するデータ入力手段と； B. 各ルールRnが関連する重み値wnを有する第１のルー
ルのセットを格納する第１の格納媒体と、第２のルール
のセットを格納する第２の格納媒体と； C. 前記第１の格納媒体よりアクセスされた第１のルー
ルのセットに従って、前記データ格納媒体より検索され
たテキストストリングの内の選択された複数のテキスト
ストリングを、前記第１のルールセットの少なくとも１
つのルールRnとルールRnに関連付けられた重み値wnとの
関数である非類似度値Diに関連付ける手段と； D. 照会テキストストリングと第２の格納媒体よりアク
セスされた第２のルールのセットに従って、格納された
テキストストリングから少なくとも１つのテキスストリ
ングを含むテキストストリングセットであって、各々が
第１のルールのセットの内の少なくとも１つの関連する
ルールRnを有する前記テキストストリングセットを検索
する手段と； E. 関連する非類似度値Diに基づく表示順序に従って、
検索されたテキストストリングの表示を形成する表示装
置と； F. さらに処理を行なうために、テキストストリングセ
ットから検索されたテキストストリングの内の少なくと
も１つを選択する選択手段と； G. 重み値wnを調整し、第１のルールのセットの各ルー
ルRnと関連して、調整された重み値wn'をある調整値だ
け限定する手段とを備えることを特徴とする検索装置。
【請求項１０】選択されたテキストストリングに関す
る前記非類似度値Diは、前記調整された重み値wn'を含
むことを特徴とする請求項９に記載の検索装置。
【請求項１１】前記非類似度値生成手段は、検索され
た各テキストストリングに関する非類似度値Diを、のアルゴリズムに従って決定する手段を含み、rnは、照
会テキストストリングに一致するテキストストリングを
生成するために、第１のルールのセットの内の１つのル
ールRnを格納されたテキストストリングの内の１つに適
用すべき回数であり、kはルールの総数であることを特
徴とする請求項９に記載の検索装置。
【請求項１２】前記表示装置は、各検索されたテキス
トストリングに関する非類似度値Diに基づく、増加数列
順に表示を生成する手段を備えることを特徴とする、請
求項１１に記載の検索装置。
【請求項１３】前記第１の格納媒体に関連し、選択さ
れたテキストストリングに関する非類似度値Diの平均値
p[Di]と、非選択テキストストリングに関する非類似度
値Diの平均値[Dm]間の類似点Cの基準値を生成して、第
１の格納媒体に格納する手段をさらに備えることを特徴
とする請求項１１に記載の検索装置。
【請求項１４】前記第１のセットのルールRnから選択
された複数のルールに関する重み値wnを選択テキストに
調整することにより、前記類似点Cの基準値を増加させ
る手段をさらに備えることを特徴とする請求項１３に記
載の検索装置。
【請求項１５】各ルールRnに関する各重み値wnを基準
化する手段をさらに備えることを特徴とする請求項１４
に記載の検索装置。
【請求項１６】前記調整手段は、（a）検索されたテキストストリングの内の複数の非選
択テキストストリングに関する非類似度値を、ある減数
値により減少させる手段；（b）選択された複数のテキストストリングに割り当て
られた非類似度値を、ある増数値により増加させる手段
とを備えることを特徴とする請求項９に記載の検索装
置。