JP2000242646A - 情報検索方法及び情報検索装置 - Google Patents

情報検索方法及び情報検索装置

Info

Publication number
JP2000242646A
JP2000242646A JP11040123A JP4012399A JP2000242646A JP 2000242646 A JP2000242646 A JP 2000242646A JP 11040123 A JP11040123 A JP 11040123A JP 4012399 A JP4012399 A JP 4012399A JP 2000242646 A JP2000242646 A JP 2000242646A
Authority
JP
Japan
Prior art keywords
dictionary
search
document
words
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11040123A
Other languages
English (en)
Other versions
JP3100955B2 (ja
Inventor
Tomoko Murakami
知子 村上
Ryohei Orihara
良平 折原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Real World Computing Partnership
Original Assignee
Toshiba Corp
Real World Computing Partnership
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Real World Computing Partnership filed Critical Toshiba Corp
Priority to JP11040123A priority Critical patent/JP3100955B2/ja
Publication of JP2000242646A publication Critical patent/JP2000242646A/ja
Application granted granted Critical
Publication of JP3100955B2 publication Critical patent/JP3100955B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】語間の関連性を考慮した適合性フィードバック
を実現して、検索時間の短縮と精度の高い検索を可能に
する情報検索方法およびそれを用いた情報検索装置を提
供する。 【解決手段】入力された検索文と検索対象の文書とを辞
書に登録された単語を用いて近傍共起する単語間の関連
度と該単語の出現する頻度に基づく特徴量とからベクト
ル化して、該検索文に類似する文書を検索する検索手段
と、前記検索文と前記検索手段で検索された複数の文書
との間の類似度が予め定められた条件を満たすように、
前記辞書に含まれる単語のうち前記検索文と関連の薄い
単語を省くことにより該辞書を更新する辞書更新手段と
を具備する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ユーザの観点を絞
り込むための、情報検索装置に関する。
【0002】
【従来の技術】近年、WWW(World Wide Web)を中
心としたインターネットの普及によって、膨大な情報に
誰でも簡単にアクセスできる環境が提供されつつある。
そうした中、ユーザの欲する情報を効率よく取り出すた
めの情報検索技術は広く研究されている。そのひとつの
方向性として、システム自身による検索結果の分析また
はユーザによる検索結果の評価を反映させて、検索結果
にフィードバックをかけながら検索を繰り返し、徐々に
検索結果をユーザの求めるものに近づけていく(適合性
フィードバック)システムが開発されている。その多く
は、ユーザによって検索結果に評価が与えられたなら
ば、それに従って語の重要度を示す重みを操作したり、
新たな語を検索語として追加し、ユーザにより入力され
た質問文を変更して再度、当該質問文に対応する文書の
検索を試みる手法を用いている。
【0003】一方、データベースとなる文書集合に手を
加える手法も報告されている。つまり、質問文に関連が
あると判断された文書は質問文に近づくように重み付け
がなされ、質問文に関連がないと判断された文書は質問
文から遠ざかるように重み付けがなされる。
【0004】このような、適合性フィードバックのため
の質問文や文書を拡張する手法には、例えば、文献1
(Chris Buckley, Gerald Salton, Optimization of re
levance feedback weights, Proceedings of the 18th
Annual International ACM SIGIR Conference on resea
rch and Development in Information Retrieval, pp.3
51-357, New York, July 1995, ACM.)、文献2(S. E.
Robertson, K. Spark Jones, Relevance Weighting of
Search Terms, Journal of the American Society for
Information Science, Vol.27, No.3, pp.129-146, 19
76.)、文献3(J. Bhuyan, J. Deogun, V. Raghavan,
V. Gudivada, Algorithms for the boundary selection
problem, algorithmica(USA) Vol.17, No.2, pp.133-1
61, Feburuary, 1997.)等数多く存在する。
【0005】
【発明が解決しようとする課題】以上の従来の情報検索
技術では、以下のような問題点がある。
【0006】・語間の関連を無視したモデル化、そのた
めの検索効率の低下。
【0007】・語間の関連を考慮したモデルでの適合性
フィードバックの困難性。
【0008】・後の検索への適合性フィードバック利用
の困難性。
【0009】すなわち、従来の方法では、各語に対応す
るベクトルは直交しているのでベクトルの要素ごとに操
作することが可能である、という仮定に基づいており、
各軸への重みを独立に操作している。しかしながら、実
際にはこの仮定はなりたたず、語と語の関連を考慮した
自然なモデル化が実現されていない。
【0010】具体的には、語の関連を考慮していないモ
デルでの適合性フィードバックは、問い合わせベクトル
Qを、システムから返されたドキュメント(のベクト
ル)のうち適切なもの{Ei }と不適切なもの{Fi
}によって調節する。典型的な方法の1つは、新たな
問い合わせベクトルQ′のj番目の語の重みW(Q′,
j)を以下のように変更する。
【0011】
【数1】
【0012】あるいは、文献4(Chris Buckley, Geral
d Salton, Opimization of relevance feedback weight
s, Proceedings of the 18th Annual International AC
M SIGIR Conference on research and Development in
Information Retrieval, pp.351-357, New York, July
1995, ACM.)に記載されているように、これに類する式
によって問い合わせベクトルを更新する。
【0013】これによりユーザは、インタラクティブに
自分の意図を明確にしていくことができるが、この従来
の適合性フィードバックでは、単語間の関連を無視した
モデル化に基づいているため、文献5(日経エレクトロ
ニクス,No.705, pp.63-70,1997.)に記載されているよ
うに、適切な要素値を得るまでに時間がかかり、かえっ
て検索効率を低下させてしまうといった結果が報告され
ている。
【0014】また、単語間の関連を考慮したモデルが実
現できた場合、上記の、質問文の要素を独立に操作する
適合性フィードバックが利用できないという問題点があ
る。
【0015】さらに、このような精密化は、現在の問い
合わせに関してローカルな変更である。すなわち、ユー
ザは各種の問い合わせに関してある程度似通った省略や
誇張をすることが予想されるにも関わらず、次の検索に
ここでの対話の結果を活かすことができないという問題
点がある。
【0016】そこで、本発明は、上記問題点に鑑み、適
合性フィードバックの利用と高速な情報検索を可能にす
る語間の関連性を考慮した文書のべクトル化方法を提供
することを目的とする。
【0017】また、本発明は、語間の関連性を考慮した
適合性フィードバックを実現して、検索時間の短縮と精
度の高い検索を可能にする情報検索方法およびそれを用
いた情報検索装置を提供することを目的とする。
【0018】
【課題を解決するための手段】本発明は、上記課題を解
決するために、以下のような特徴を有するものである。
【0019】・「近傍に共起する単語は互いに関連が深
い」という直観のもと、語間の関連を考慮した文書およ
び検索文のモデル化(ベクトル化)。
【0020】・関連度考慮型モデルでの適合性フィード
バック実現のために、辞書ベクトル自身を操作する辞書
ベクトル空間の探索による最適辞書の生成。
【0021】近傍に共起する語間の関連度を反映させた
文書および質問文のベクトル化を行う。このモデル化さ
れた文書に対して、新たに生成された辞書ベクトルに基
づいた類似度計算を行う。その結果得られる、与えられ
た質問文に近い文書に対してユーザがつけた順位とそれ
らの距離値の和を保存し、辞書ベクトル変更前後での距
離値の順位の一致とそれらの和を尺度として辞書ベクト
ルの性能を評価する。よい評価が得られたならばさらに
辞書ベクトル空間の探索を続ける。なお、この辞書ベク
トル空間の探索による最適化の手法はGA(Genet
ic Algorithm)でもSA(Simulat
ed Annealing)でもかまわない。最適な辞
書が決定したならば、再び全文書に対する類似検索を行
う。この一連の操作は、適合性フィードバックそのもの
に相当する。次回以降の検索時には、この最適化された
辞書ベクトルを使用できるよう、辞書ベクトルの選択肢
を用意する。
【0022】より具体的には、本発明の文書ベクトル化
方法は、文書中の近傍共起する単語間の関連度と該文書
中に該単語の出現する頻度に基づく特徴量とから該文書
をベクトル化することと、適合性フィードバックの両者
を実現することにより、高速な情報検索を可能にする。
【0023】また、本発明の情報検索方法は、入力され
た検索文と検索対象の文書とを辞書に登録された単語を
用いてベクトル化して、該検索文に類似する文書を検索
し、前記検索文と検索された複数の文書との間の類似度
が予め定められた条件を満たすように、前記辞書に含ま
れる単語のうち前記検索文と関連の薄い単語を省くこと
により該辞書を更新することにより、適合性フィードバ
ックを実現して、検索時間の短縮と精度の高い検索を可
能にする。
【0024】また、本発明の情報検索方法は、入力され
た検索文と検索対象の文書とを辞書に登録された単語を
用いて近傍共起する単語間の関連度と該単語の出現する
頻度に基づく特徴量とからベクトル化して該検索文に類
似する文書を検索し、前記検索文と検索された複数の文
書との間の類似度が予め定められた条件を満たすよう
に、前記辞書に含まれる単語のうち前記検索文と関連の
薄い単語を省くことにより該辞書を更新することによ
り、語間の関連性を考慮した適合性フィードバックを実
現して、検索時間の短縮と精度の高い検索を可能にす
る。
【0025】また、本発明の情報検索装置は、入力され
た検索文と検索対象の文書とを辞書に登録された単語を
用いてベクトル化して、該検索文に類似する文書を検索
する検索手段と、前記検索文と前記検索手段で検索され
た複数の文書との間の類似度が予め定められた条件を満
たすように、前記辞書に含まれる単語のうち前記検索文
と関連の薄い単語を省くことにより該辞書を更新する辞
書更新手段とを具備したことにより、適合性フィードバ
ックを実現して、検索時間の短縮と精度の高い検索を可
能にする。
【0026】また、本発明の情報検索装置は、入力され
た検索文と検索対象の文書とを辞書に登録された単語を
用いて近傍共起する単語間の関連度と該単語の出現する
頻度に基づく特徴量とからベクトル化して、該検索文に
類似する文書を検索する検索手段と、前記検索文と前記
検索手段で検索された複数の文書との間の類似度が予め
定められた条件を満たすように、前記辞書に含まれる単
語のうち前記検索文と関連の薄い単語を省くことにより
該辞書を更新する辞書更新手段とを具備したことによ
り、語間の関連性を考慮した適合性フィードバックを実
現して、検索時間の短縮と精度の高い検索を可能にす
る。
【0027】また、本発明は、コンピュータに実行させ
ることのできるプログラムとして、磁気ディスク(フロ
ッピーディスク、ハードディスクなど)、光ディスク
(CD−ROM、DVDなど)、半導体メモリなどの記
録媒体に格納して頒布することもできる。すなわち、本
発明の記録媒体は、入力された検索文と検索対象の文書
とを辞書に登録された単語を用いてベクトル化して、該
検索文に類似する文書を検索させる検索手段と、前記検
索文と前記検索手段で検索された複数の文書との間の類
似度が予め定められた条件を満たすように、前記辞書に
含まれる単語のうち前記検索文と関連の薄い単語を省く
ことにより該辞書を更新させる辞書更新手段とを実行す
るプログラムを記録している。また、本発明の記録媒体
は、入力された検索文と検索対象の文書とを辞書に登録
された単語を用いて近傍共起する単語間の関連度と該単
語の出現する頻度に基づく特徴量とからベクトル化し
て、該検索文に類似する文書を検索させる検索手段と、
前記検索文と前記検索手段で検索された複数の文書との
間の類似度が予め定められた条件を満たすように、前記
辞書に含まれる単語のうち前記検索文と関連の薄い単語
を省くことにより該辞書を更新させる辞書更新手段とを
実行するプログラムを記録している。
【0028】
【発明の実施の形態】以下、本発明の実施形態について
図面を参照して説明する。
【0029】本実施形態では、ユーザの視点を考慮した
辞書ベクトルに基づく検索によって、FAQ(Freq
uently Asked Questions)集か
ら、検索回数を重ねる毎に、ユーザに適切な文書を選択
するものである。なお、本実施形態においては対象とな
る文書をFAQ集に設定したが、これに限定するもので
はない。また、本発明の効果は、FAQ集のみならず、
広く情報検索装置一般においても発揮されるものであ
る。
【0030】図1は、本実施形態に係る情報検索装置の
構成例を示したもので、文書検索部1、検索結果表示部
2、評価入力部3、辞書ベクトル変更制御部4、辞書ベ
クトル作成部5、重み計算部6、類似度計算部7、辞書
ベクトル評価部8、文書記憶部9、辞書ベクトル記憶部
10、文書ベクトル記憶部11、距離値記憶部12、表
示装置15から構成されている。
【0031】本発明の特徴的な部分は、辞書ベクトル変
更制御部4、辞書ベクトル作成部5、重み計算部6、類
似度計算部7、辞書ベクトル評価部8における処理であ
る。
【0032】文書検索部1には、ユーザにより文書を検
索するための手掛かりとなる検索文としての質問文が入
力されると、当該質問文に類似する文書を検索するもの
である。ここでは、ユーザにより入力された質問文を検
索のために決定された辞書ベクトル記憶部10に記憶さ
れている辞書ベクトルを用いてベクトル化し、そのベク
トル化された質問文と、文書ベクトル記憶部11に記憶
された文書のベクトルとの間で類似度を求める(より具
体的には、質問文中の各語の重みと文書中の各語の重み
との比較計算を行うことで類似度を求める)ことで、当
該入力された質問文に対応する(類似する)文書を検索
するものである。なお、文書検索部1で質問文と文書と
の類似度を求める方法は、本発明の要旨ではなく、従来
からある手法を用いればよく、特に限定するものではな
い。
【0033】図5は、表示装置15に表示された、ユー
ザにより入力された質問文の画面表示例を示したもので
ある。ここでは、ユーザにより入力された質問文は質問
文表示ウインドウ101に表示され、検索時の条件設定
用のウインドウ102も同一画面上に表示されている。
【0034】検索結果表示部2には、文書検索部1で検
索された文書を文書記憶部9から読み出して表示するも
のである。
【0035】図6は、検索結果表示部2により表示装置
15に表示された、検索結果の表示画面の一例を示した
ものである。ここでは、ユーザにより入力された質問文
もウインドウ201に表示され、検索結果は、検索結果
表示ウインドウ202に表示されている。
【0036】評価入力部3は、例えば、図6に示したよ
うな表示装置15に表示された検索結果に対するユーザ
の評価値を入力するためのもので、図6の検索された各
文書に対する評価値としての順位を入力するための順位
入力領域203にユーザにより入力された数値を読み取
って、それを辞書ベクトル変更制御部4へ渡す。
【0037】辞書ベクトル変更制御部4は、評価入力部
3で順位の与えられた文書を用いて、ユーザの視点をよ
り反映した辞書ベクトルを作成すべく辞書ベクトル作成
部5、辞書ベクトル評価部8を制御する。そして、辞書
ベクトル評価部8での辞書ベクトルの評価結果に基づき
更新された辞書ベクトルを辞書ベクトル記憶部10に格
納する。
【0038】辞書ベクトル作成部5は、辞書ベクトル評
価部8での辞書ベクトルの評価結果に基づき、辞書ベク
トル記憶部10に既に記憶されているユーザ毎の辞書の
縮小化を行う。なお、後述する文書のベクトル化および
辞書更新処理手順を開始する際には、辞書ベクトル作成
部5は、そのとき辞書ベクトル記憶部10に記憶されて
いる当該ユーザの辞書ベクトルを読み出して、文書のベ
クトル化を行う。
【0039】重み計算部6は、辞書ベクトル作成部5で
作成された辞書ベクトルと文書中の近傍に共起する語間
の関連性とを考慮して、(ユーザにより順位の与えられ
た)文書を新たなベクトル空間で表現すべく、文書中の
各語の重み(ベクトル)を算出して、文書ベクトル記憶
部11に格納する。
【0040】類似度計算部7は、文書ベクトル記憶部1
1に格納された新たなベクトル空間で表現された文書と
ユーザにより入力された質問文との間の類似度(ここで
は距離値と呼ぶことがある)を算出し、距離値記憶部1
2に格納する。
【0041】辞書ベクトル評価部8は、ユーザにより順
位の与えられた文書のそれぞれに対し類似度計算部7で
算出された質問文との間の類似度(距離値)と、予め定
められた評価基準とに基づき、辞書作成部5で作成され
た辞書ベクトルを評価するものである。
【0042】次に、図2に示すフローチャートを参照し
て、図1の情報検索装置の文書検索処理動作の概略を説
明する。
【0043】ユーザが例えばキーボード、マウス等の入
力装置を用いて入力した質問文は、表示装置15に図5
に示したように表示される(ステップS1)。このとき
質問文の表示ウインドウ101と同一画面上に検索時の
条件設定ウインドウ102が表示されていてもよい。検
索時の条件として、例えば、選択する辞書空間(初期の
辞書、過去の検索を反映した辞書、他人の辞書のいずれ
か)、検索された文書の表示数、文書のベクトル化方法
(本発明にかかる文書ベクトル化方法、従来からあるi
f・idf法のいずれか)が選択可能なようになってい
てもよい。これらは、ユーザによるキーボード入力、所
定のネットワークを介してのオンライン入力、磁気テー
プ等の各種情報記録媒体から読み取るようになっていて
もよい。
【0044】文書検索部1は、これら入力された情報を
基に、検索に用いる辞書ベクトルを決定して(ステップ
S2)、この辞書ベクトルを用いて質問文をベクトル化
し、このベクトル化された質問文と、文書ベクトル記憶
部11に既に記憶されている当該決定された辞書ベクト
ルを用いてベクトル化された文書との間で類似度を求め
て、当該質問文に類似する文書を検索する(ステップS
3)。なお、ここで質問文をベクトル化する際には、後
述する式(2)を用いて、文書のベクトル化と同様にし
て行う。
【0045】そして、検索された当該質問文に類似する
文書を検索結果表示部2が文書記憶部9から読み出し
て、表示装置15に図6に示したように表示する(ステ
ップS4)。
【0046】この検索結果に対し、例えば、図7に示し
たように、検索結果表示ウインドウ202に表示された
検索された各文書に対応する順位入力領域203に、ユ
ーザが評価値としての順位を入力し、「search」
ボタン204を押下して同じ質問文による検索の繰り返
しが指示されたときは(ステップS5)、ステップS6
へ進み、文書のベクトル化及び辞書ベクトルの更新処理
を実行する。一方、例えば図7の「reset」ボタン
205が押下されたときは処理を終了する。
【0047】次に、図3〜図4に示すフローチャートを
参照して、図2のステップS6の文書のベクトル化及び
辞書ベクトルの更新処理動作について説明する。
【0048】ユーザがステップS4において、例えば、
図7に示したように、検索された文書のうちm個(ここ
では、例えば3個)の文書にユーザの視点から有用であ
ったことを指し示す評価値としての順位が入力されたと
する。この入力は、例えば、キーボード入力、所定のネ
ットワークを介してのオンライン入力、磁気テープ等の
各種情報記録媒体から読み取るようになっていてもよ
い。評価入力部3は、順位入力領域203に入力された
数値を読み取って、それを辞書ベクトル変更制御部4へ
渡す(ステップS11)。
【0049】次に、辞書ベクトル変更制御部4は、更新
対象の今回の検索に用いた辞書ベクトルを辞書ベクトル
記憶部10から読み取る。ここでは、図5に示したよう
に、ウインドウ102にて「初期の辞書」が選択されて
いるので、今回の検索では、更新処理の施されていない
初期の辞書ベクトルが指定されているので、それを読み
取り、それを辞書ベクトルDとする(ステップS1
2)。そして、辞書ベクトル変更制御部4の制御の下、
以下の手続きを辞書ベクトルDに対して繰り返す。
【0050】まず、辞書ベクトル作成部5が、現在の辞
書ベクトルDから1つの単語を除いて次元を落とした辞
書ベクトルD′を作成する(ステップS13)。取り除
く単語は、今回の検索で質問文と最も関係の薄いと思わ
れる単語をヒューリスティックに選択する。具体的に
は、文書検索部1で検索されて表示装置15に表示され
た、質問文と類似する上位Y個(Yは、ウインドウ10
2でユーザによって指定された個数で、ここでは、図6
に示したように5個)の文書と質問文との間で求めたY
個の類似度(距離値と呼ぶことがる)を基に、当該質問
文と最も類似しない(すなわち、例えば最大の距離値を
もつ)文書中の単語のうち、その重み(式(2)にて定
義される値で、これを以下U値と呼ぶことがある)と、
質問文中の単語の重み(式(2)にて定義される値で、
これを以下U値と呼ぶことがある)との差が最大の単語
とする。
【0051】ここで、作成された辞書ベクトルD´が、
当該ユーザの辞書を過去に更新する際に作成された辞書
ベクトルの履歴にないことをチェックし、すでに履歴に
あるならば、重みの差が次に最大の単語を1つ取り除い
て、辞書ベクトルD´を作成する。こうして生成された
辞書ベクトルD´に基き、当該m個(ここでは、例えば
3個)の順位付けされた文書中の単語の重みを次式
(2)を用いて算出する(ステップS14)。
【0052】ここで、算出される単語の重み(U値)と
は、従来のもの(U=tf・idf)とは異なり、「近
傍に共起する単語は互いに関連が深い」という直観のも
と新たに定義されたものでる。すなわち、文書qの中に
辞書ベクトル中のj番目の単語が出現する回数tf
(q,j)を用いて、例えば式(3)に示すような、辞
書ベクトル中のi番目とj番目の単語の全文書における
関連性(近傍共起性)を示す値M(i,j)を定義す
る。すると、このMと、検索での単語の有用性を決める
値tf(q,j)、idf(j)を利用して、文書qの
i番目の単語の重みU(q,i)は、次式(2)で求め
ることができる。これを用いて文書q中の各単語を単語
間の関連を考慮したベクトル空間にて表現できる。
【0053】
【数2】
【0054】ここで、M(i、j)にて表現されるもの
は、辞書ベクトルD´中のi番目の単語が全文書中に単
独で出現した回数と、辞書ベクトルD´中のj番目の単
語が全文書中に単独で出現した回数との相乗平均値に対
する、i番目の単語とj番目の単語とが全文書中で隣り
合って出現する回数の割合であり、これにより、i番目
の単語とj番目の単語との近傍共起性の度合いを表現し
ている。
【0055】なお、MやUの計算方法は上記した場合に
限らず、概念辞書によって意味的に構築する方法も考え
られる。たとえば、単語と単語との関連性を木構造で表
し、i番目の単語とj番目の単語とが何段階隔たってい
るかをそのままMの値としてもよいし、予めユーザによ
り単語と単語との関連度が指定されたら、それをi番目
の単語とj番目の単語とに対応する関連度としてテーブ
ルに登録しておき、文書中にi番目の単語とj番目の単
語が出現した際に、当該テーブルの該当する関連度をそ
のままMの値として用いてもよい。
【0056】ユーザにより順位付けされた各文書がベク
トル化されたら、次に、質問文についても上記同様にベ
クトル化を行う。この場合、上記説明のうち、「文書」
を「質問文」に置き換え、式(2)(3)において、文
書qとあるのを質問文qと置き換えればよい。
【0057】次に、類似度計算部7が、辞書ベクトルD
´と新たにベクトル空間表現された質問文とに基づい
て、この新たにベクトル空間表現されたm個の文書Q
1、…、Qm との類似度(ここでは距離)を計算する
(ステップS15)。
【0058】辞書ベクトルD´を用いたm個の文書のそ
れぞれの距離値をdistanceD′(Q1 ,
Q)、…、distance D′(Qm ,Q)と表
す。ここで、distance D′(Qh ,Q)
は、辞書ベクトルD′のもとで質問文Qとユーザによっ
てh(1≦h≦m)番目の順位が付けられた文書Qhと
の距離値である。
【0059】次に、辞書ベクトル評価部8が、ステップ
S12にて縮小化された辞書ベクトルD´がユーザの視
点をより反映したものになっているかどうか、判定を行
う(ステップS16)。
【0060】「辞書ベクトルがユーザの視点をより反映
していると判断」するには、例えば、以下のような2つ
の条件を共に満たしているときとする。
【0061】・質問文とm個の文書との間の距離値の大
きさが、ユーザにより入力された順位と合致しているこ
と。すなわち、distance D′(Q1 ,
Q)、…、distance D′(Qm ,Q)が次
式(4)に示すような関係を満たすこと。
【0062】
【数3】
【0063】・質問文とm個の文書との間の距離値の和
が辞書ベクトルD´の親である辞書ベクトルDを用いて
文書、質問文をベクトル化した際に算出された、当該質
問文と文書との距離値の和より小さくなっていること。
すなわち、次式(5)を満たすこと。
【0064】
【数4】
【0065】以上の2つの条件を満たしている場合に、
今回縮小化した辞書ベクトルD´の方が、その親である
辞書ベクトルDよりもユーザの視点をより反映したもの
である(改善された)と判断する(図4のステップS1
7)。
【0066】以下、図8をも参照して辞書ベクトルの変
遷の様子を説明する。図8において、ここまでの説明で
辞書ベクトルD、すなわち、親と設定されていたのが1
段目の辞書ベクトル(初期の辞書ベクトル)であり、こ
こからステップS13で単語w2を省いて新たに作成さ
れた辞書ベクトルD´が2段目の辞書ベクトルであると
する。
【0067】辞書ベクトル変更制御部4は、今回縮小化
した2段目の辞書ベクトルD´がその親である1段目の
辞書ベクトルDよりも改善されていると判断したとき
は、当該2段目の辞書ベクトルD´を新たな親として
(2段目の辞書ベクトルを辞書ベクトルDとする)、上
記ステップS13に戻る。
【0068】2段目の辞書ベクトルを辞書ベクトルDと
したとき、ステップS13にて辞書ベクトルDから単語
w3を省いて、3段目の辞書ベクトルを作成し、それを
辞書ベクトルD´とする。3段目の辞書ベクトルD´に
対し、上記ステップS14〜ステップS17を実行した
結果、この3段目の辞書ベクトルD´がその親である2
段目の辞書ベクトルDよりも改善されていると判断した
とすると、当該3段目の辞書ベクトルD´を新たな親と
して(3段目の辞書ベクトルを辞書ベクトルDとす
る)、上記ステップS13に戻る。
【0069】3段目の辞書ベクトルを辞書ベクトルDと
したとき、ステップS13にて辞書ベクトルDからある
1つの単語を省いて、4段目の辞書ベクトルを作成し、
それを辞書ベクトルD´とする。4段目の辞書ベクトル
D´に対し、上記ステップS14〜ステップS17を実
行した結果、この4段目の辞書ベクトルD´がその親で
ある3段目の辞書ベクトルDよりも改善されていない、
すなわち、上記条件の少なくとも1つが満たされていな
いときは、ステップS18へ進む。
【0070】ステップS18において、このとき親であ
る3段目の辞書ベクトルDに対し、予め定められたヒュ
ーリスティックの回数(ここでは、例えば、3回)を超
えていないとき、ステップS13に戻り、再度同じ3段
目の辞書ベクトルを親として、当該辞書ベクトルDか
ら、重みの差が次に大きい他の単語を省いて、上記同様
の処理(ステップS13〜ステップS17)を繰り返
す。
【0071】一方、ステップS18において、このとき
親である3段目の辞書ベクトルDに対し、予め定められ
たヒューリスティックの回数を超えているときは、ステ
ップS19へ進む。
【0072】この3段目の辞書ベクトルDの直前に、さ
らにその親である辞書ベクトル、すなわち、2段目の辞
書ベクトルが存在するので、次に、それをDに設定して
(ステップS19〜ステップS20)、ステップS13
へ戻る。
【0073】ステップS13にて、当該辞書ベクトルか
ら単語w3の次に重みの差が最大の単語を省き新たな辞
書ベクトルを作成する。以下、2段目の辞書ベクトルに
対し、予め定められたヒューリスティックの回数に至る
まで上記同様の処理を実行する。
【0074】以上のようにして、辞書ベクトルを更新し
てゆき、親となるべき辞書ベクトルが存在しなくなった
ら(ステップS20)、それまででもっとも良い評価が
得られた辞書ベクトル、すなわち、上記2つの条件を満
たすともに、最も多く単語の省かれている辞書を最終的
に更新された辞書ベクトルとして決定し、辞書ベクトル
記憶部10に格納する(ステップS21)。この更新さ
れた辞書は、次回の検索の際に、例えば、図6の「se
arch」ボタン204が押下されたときに、あるい
は、図5のウインドウ102で検索時の条件設定を行う
際に、検索に用いる辞書空間として「過去の検索を反映
した辞書」を選択したときに用いられる。
【0075】以上説明した方法による辞書の縮小化は、
辞書ベクトルの空間を探索することによる最適化になっ
ている。したがって、最適な辞書ベクトルを選択するに
は、・単語間の重みの差がそれ以前のものより小さくな
らない、つまり、どの単語も重要性が高いと考えられる
場合に停止する(深さ優先の探索:greedy al
gorithm)。・ある探索経路で終了条件が満たさ
れたら、辞書ベクトル探索の履歴を記憶しておき、直前
の選択肢(ステップS19)から次善の辞書ベクトルを
選ぶ(バックトラック)。など、様々な探索手法があ
る。
【0076】本実施形態では後者の方法を採用し、初期
辞書ベクトルにおいて、それ以上候補が選べなくなるま
で探索を続ける、という近似解法をとる。上記の「ある
検索経路における終了条件」とは、ステップS18に示
すように、ある段階においてヒューリスティックに次善
の辞書ベクトルを選ぶまでの回数(ここでは、例えば3
回)を制限する、というものである。なお、本発明にお
いて、探索の手法は他の手法でもかまわないことを明言
しておく。
【0077】さて、以上のようにして、図2のステップ
S6において、辞書が更新されると、次に、ステップS
2に戻り、文書検索部1は、当該更新された辞書を今回
の検索に用いる辞書と決定して、この辞書ベクトルを用
いて質問文を再びベクトル化し、このベクトル化された
質問文と、文書ベクトル記憶部11に既に記憶されてい
る(図3のステップS13において)当該決定された辞
書ベクトルを用いてベクトル化された文書との間で類似
度を求めて、当該質問文に類似する文書を再び検索する
(ステップS3)。最終的に、検索結果表示部2が検索
により質問文に類似している、すなわち距離値が上位Y
個(たとえば、ここでは5個)の文書を図6に示したよ
うに表示する(ステップS4)。以下、前述同様に処理
を行う。
【0078】以上説明したように、上記実施形態によれ
ば、適切なQ&Aを自動選択することで、適当な解答を
得るまでの手間と時間が削減される。また、検索結果を
後の検索に役立て、ユーザの検索時の観点を考慮した検
索ができるため、検索の回数を重ねる毎に精度の高い検
索を行うことができる。
【0079】また、情報検索において、ユーザの質問文
に適当な文書を選択し、検索結果を後の検索に役立てる
ようにすると同時に、ユーザの検索時の視点を明らかに
する。また、文書の語と語の関連を生かした文書の自然
なモデル化(ベクトル化)が可能になる。
【0080】
【発明の効果】以上説明したように、本発明によれば、
適合性フィードバックの利用と高速な情報検索を可能に
する語間の関連性を考慮した文書のべクトル化が行え
る。
【0081】また、語間の関連性を考慮した適合性フィ
ードバックを実現して、検索時間の短縮と精度の高い検
索を可能にする。
【図面の簡単な説明】
【図1】本発明の一実施形態にかかる情報検索装置の全
体構成図。
【図2】図1の情報検索装置の処理動作を概略的に示し
たフローチャート。
【図3】文書のベクトル化および辞書更新処理について
説明するためのフローチャート。
【図4】文書のベクトル化および辞書更新処理について
説明するためのフローチャート。
【図5】表示装置に表示されたユーザにより入力された
質問文の表示画面の一例を示した図。
【図6】検索結果表示部により表示装置に表示された検
索結果の表示画面の一例を示した図。
【図7】検索結果の表示画面に表示された検索された文
書に対する順位の入力例を示した図。
【図8】辞書更新処理に伴い、辞書ベクトルの変遷する
様子を説明するための図。
【符号の説明】
1…文書検索部 2…検索結果表示部 3…評価入力部 4…辞書ベクトル変更制御部 5…辞書ベクトル作成部 6…重み計算部 7…類似度計算部 8…辞書ベクトル評価部 9…文書記憶部 10…辞書ベクトル記憶部 11…文書ベクトル記憶部 12…距離値記憶部
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成11年3月10日(1999.3.1
0)
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】図5
【補正方法】変更
【補正内容】
【図5】 ─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成11年12月20日(1999.12.
20)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】発明の名称
【補正方法】変更
【補正内容】
【発明の名称】 情報検索方法及び情報検索装
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正内容】
【特許請求の範囲】
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0001
【補正方法】変更
【補正内容】
【0001】
【発明の属する技術分野】本発明は、ユーザの観点を絞
り込むための、情報検索方法及び情報検索装置に関す
る。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0016
【補正方法】削除
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0017
【補正方法】変更
【補正内容】
【0017】本発明は、上記事情を考慮してなされたも
ので、語間の関連性を考慮した適合性フィードバックを
実現して、検索時間の短縮と精度の高い検索を可能にす
る情報検索方法及び情報検索装置を提供することを目的
とする。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0022
【補正方法】変更
【補正内容】
【0022】本発明(請求項1)に係る情報検索方法
は、検索対象となる文書の各々について、少なくとも辞
書ベクトルに登録された各単語が該文書に出現する頻度
を示す情報、および該辞書ベクトルに登録された各単語
間の近傍共起性を示す情報に基づいて、該辞書ベクトル
に登録された各単語に対する重み値の列からなる文書ベ
クトルを求め、入力された検索文について、前記検索対
象となる文書の文書ベクトルを求める方法と同一の方法
により、前記辞書ベクトルに登録された各単語に対する
重み値の列からなる文書ベクトルを求め、前記検索対象
となる各々の文書について、該文書の文書ベクトルと前
記検索文の文書ベクトルとの間の類似度を求め、前記検
索対象となる各々の文書について求められた前記類似度
に基づいて、該検索対象となる文書のうちから選択され
た複数の文書を、前記検索文に対する検索結果として提
示し、提示された前記文書に対するユーザによる評価を
示す評価情報の入力を受け付け、前記辞書ベクトルから
所定の基準で選択された1以上の単語を省いたものを用
いて、前記文書ベクトルを求める方法と同一の方法で少
なくとも前記評価が与えられた文書および前記検索文に
ついて新たに文書ベクトルを求め、さらに該文書ベクト
ルにより新たに前記類似度を求めたときに、該新たな類
似度およびそれらに対応する元の類似度ならびに前記評
価情報に基づいて該辞書ベクトルが改善されるものと判
断された場合に、該辞書ベクトルから当該1以上の単語
を省いて前記辞書ベクトルを更新することを特徴とす
る。好ましくは、前記単語間の近傍共起性を示す情報
は、当該単語の対が前記検索対象となる全文書中で近傍
共起した回数と、該全文書中で当該単語の対の一方が出
現した回数と、当該全文書中で該単語の対の他方が出現
した回数とに基づいて求められた重み値であり、前記文
書の文書ベクトルを構成する単語に対する重み値は、当
該単語と前記辞書ベクトルに登録された他の単語との間
の近傍共起性を示す前記重み値と、該他の単語が当該文
書中で出現した回数との積に基づいて求められるもので
あるようにしてもよい。好ましくは、前記評価情報は、
前記提示された複数の文書の一部または全部のものに対
する優劣の順序を示す情報であり、前記辞書ベクトルが
改善されたか否かの判断にあたっては、前記優劣の順序
を与えられた前記文書について前記新たな類似度の優劣
の順序が前記評価情報により示される優劣の順序を満た
しており且つ前記新たな類似度が前記元の類似度に対し
て総合的に改善されている場合に該辞書ベクトルが改善
されるものと判断するようにしてもよい。好ましくは、
前記辞書ベクトルから省く単語の個数および組み合わせ
を所定の基準で変更しながら、前記新たな類似度および
前記対応する元の類似度ならびに前記評価情報に基づい
て該辞書ベクトルが改善されるか否かを評価していくこ
とによって、該辞書ベクトルを改善させるために省くべ
き評価値の最も高い単語の組み合わせを選択して、該辞
書ベクトルを更新するようにしてもよい。好ましくは、
前記評価情報に基づいて前記辞書ベクトルが更新された
ときに、該更新後の辞書ベクトルに基づいて、前記検索
文に該当する文書を再検索し再提示するようにしてもよ
い。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0023
【補正方法】変更
【補正内容】
【0023】また、本発明(請求項6)に係る情報検索
装置は、検索対象となる文書の各々について、少なくと
も辞書ベクトルに登録された各単語が該文書に出現する
頻度を示す情報、および該辞書ベクトルに登録された各
単語間の近傍共起性を示す情報に基づいて、該辞書ベク
トルに登録された各単語に対する重み値の列からなる文
書ベクトルを求める手段と、入力された検索文につい
て、前記検索対象となる文書の文書ベクトルを求める方
法と同一の方法により、前記辞書ベクトルに登録された
各単語に対する重み値の列からなる文書ベクトルを求め
る手段と、前記検索対象となる各々の文書について、該
文書の文書ベクトルと前記検索文の文書ベクトルとの間
の類似度を求める手段と、前記検索対象となる各々の文
書について求められた前記類似度に基づいて、該検索対
象となる文書のうちから選択された複数の文書を、前記
検索文に対する検索結果として提示する手段と、提示さ
れた前記文書に対するユーザによる評価を示す評価情報
の入力を受け付ける手段と、前記辞書ベクトルから所定
の基準で選択された1以上の単語を省いたものを用い
て、前記文書ベクトルを求める方法と同一の方法で少な
くとも前記評価が与えられた文書および前記検索文につ
いて新たに文書ベクトルを求め、さらに該文書ベクトル
により新たに前記類似度を求めたときに、該新たな類似
度およびそれらに対応する元の類似度ならびに前記評価
情報に基づいて該辞書ベクトルが改善されるものと判断
された場合に、該辞書ベクトルから当該1以上の単語を
省いて前記辞書ベクトルを更新する手段とを備えたこと
を特徴とする。
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0024
【補正方法】変更
【補正内容】
【0024】また、本発明は、コンピュータに情報検索
処理を実行させるのためのプログラムとして、磁気ディ
スク(フロッピーディスク、ハードディスクなど)、光
ディスク(CD−ROM、DVDなど)、半導体メモリ
などの記憶媒体に格納して頒布することもできる。すな
わち、本発明(請求項7)は、コンピュータに情報検索
処理を実行させるのためのプログラムであって、検索対
象となる文書の各々について、少なくとも辞書ベクトル
に登録された各単語が該文書に出現する頻度を示す情
報、および該辞書ベクトルに登録された各単語間の近傍
共起性を示す情報に基づいて、該辞書ベクトルに登録さ
れた各単語に対する重み値の列からなる文書ベクトルを
求めさせ、入力された検索文について、前記検索対象と
なる文書の文書ベクトルを求める方法と同一の方法によ
り、前記辞書ベクトルに登録された各単語に対する重み
値の列からなる文書ベクトルを求めさせ、前記検索対象
となる各々の文書について、該文書の文書ベクトルと前
記検索文の文書ベクトルとの間の類似度を求めさせ、前
記検索対象となる各々の文書について求められた前記類
似度に基づいて、該検索対象となる文書のうちから選択
された複数の文書を、前記検索文に対する検索結果とし
て提示させ、提示された前記文書に対するユーザによる
評価を示す評価情報の入力を受け付けさせ、前記辞書ベ
クトルから所定の基準で選択された1以上の単語を省い
たものを用いて、前記文書ベクトルを求める方法と同一
の方法で少なくとも前記評価が与えられた文書および前
記検索文について新たに文書ベクトルを求め、さらに該
文書ベクトルにより新たに前記類似度を求めたときに、
該新たな類似度およびそれらに対応する元の類似度なら
びに前記評価情報に基づいて該辞書ベクトルが改善され
るものと判断された場合に、該辞書ベクトルから当該1
以上の単語を省いて前記辞書ベクトルを更新させるため
のプログラムを記録したコンピュータ読取り可能な記録
媒体である。
【手続補正9】
【補正対象書類名】明細書
【補正対象項目名】0025
【補正方法】削除
【手続補正10】
【補正対象書類名】明細書
【補正対象項目名】0026
【補正方法】削除
【手続補正11】
【補正対象書類名】明細書
【補正対象項目名】0027
【補正方法】削除
【手続補正書】
【提出日】平成12年5月26日(2000.5.2
6)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正内容】
【特許請求の範囲】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0022
【補正方法】変更
【補正内容】
【0022】本発明(請求項1)に係る情報検索方法
は、検索対象となる文書の各々について、少なくとも辞
書ベクトルに登録された各単語が該文書に出現する頻度
を示す情報、および該辞書ベクトルに登録された各単語
間の近傍共起性を示す情報に基づいて、該辞書ベクトル
に登録された各単語に対する重み値の列からなる文書ベ
クトルを求め、入力された検索文について、前記検索対
象となる文書の文書ベクトルを求める方法と同一の方法
により、前記辞書ベクトルに登録された各単語に対する
重み値の列からなる文書ベクトルを求め、前記検索対象
となる各々の文書について、該文書の文書ベクトルと前
記検索文の文書ベクトルとの間の類似度を求め、前記検
索対象となる各々の文書について求められた前記類似度
に基づいて、該検索対象となる文書のうちから選択され
た複数の文書を、前記検索文に対する検索結果として提
示し、提示された前記文書に対するユーザによる評価を
示す評価情報の入力を受け付け、前記辞書ベクトルから
前記検索文と関連の薄い単語を省いたものを用いて、前
記文書ベクトルを求める方法と同一の方法で少なくとも
前記評価が与えられた文書および前記検索文について新
たに文書ベクトルを求め、さらに該文書ベクトルにより
新たに前記類似度を求めたときに、該新たな類似度およ
びそれらに対応する元の類似度ならびに前記評価情報に
基づいて該辞書ベクトルが改善されるものと判断された
場合に、該辞書ベクトルから当該検索文と関連の薄い単
語を省いて前記辞書ベクトルを更新することを特徴とす
る。好ましくは、前記単語間の近傍共起性を示す情報
は、当該単語の対が前記検索対象となる全文書中で近傍
共起した回数と、該全文書中で当該単語の対の一方が出
現した回数と、当該全文書中で該単語の対の他方が出現
した回数とに基づいて求められた重み値であり、前記文
書の文書ベクトルを構成する単語に対する重み値は、当
該単語と前記辞書ベクトルに登録された他の単語との間
の近傍共起性を示す前記重み値と、該他の単語が当該文
書中で出現した回数との積に基づいて求められるもので
あるようにしてもよい。好ましくは、前記評価情報は、
前記提示された複数の文書の一部または全部のものに対
する優劣の順序を示す情報であり、前記辞書ベクトルが
改善されたか否かの判断にあたっては、前記優劣の順序
を与えられた前記文書について前記新たな類似度の優劣
の順序が前記評価情報により示される優劣の順序を満た
しており且つ前記新たな類似度が前記元の類似度に対し
て総合的に改善されている場合に該辞書ベクトルが改善
されるものと判断するようにしてもよい。好ましくは、
前記評価情報に基づいて前記辞書ベクトルが更新された
ときに、該更新後の辞書ベクトルに基づいて、前記検索
文に該当する文書を再検索し再提示するようにしてもよ
い。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0023
【補正方法】変更
【補正内容】
【0023】また、本発明(請求項5)に係る情報検索
装置は、検索対象となる文書の各々について、少なくと
も辞書ベクトルに登録された各単語が該文書に出現する
頻度を示す情報、および該辞書ベクトルに登録された各
単語間の近傍共起性を示す情報に基づいて、該辞書ベク
トルに登録された各単語に対する重み値の列からなる文
書ベクトルを求める手段と、入力された検索文につい
て、前記検索対象となる文書の文書ベクトルを求める方
法と同一の方法により、前記辞書ベクトルに登録された
各単語に対する重み値の列からなる文書ベクトルを求め
る手段と、前記検索対象となる各々の文書について、該
文書の文書ベクトルと前記検索文の文書ベクトルとの間
の類似度を求める手段と、前記検索対象となる各々の文
書について求められた前記類似度に基づいて、該検索対
象となる文書のうちから選択された複数の文書を、前記
検索文に対する検索結果として提示する手段と、提示さ
れた前記文書に対するユーザによる評価を示す評価情報
の入力を受け付ける手段と、前記辞書ベクトルから前記
検索文と関連の薄い単語を省いたものを用いて、前記文
書ベクトルを求める方法と同一の方法で少なくとも前記
評価が与えられた文書および前記検索文について新たに
文書ベクトルを求め、さらに該文書ベクトルにより新た
に前記類似度を求めたときに、該新たな類似度およびそ
れらに対応する元の類似度ならびに前記評価情報に基づ
いて該辞書ベクトルが改善されるものと判断された場合
に、該辞書ベクトルから当該検索文と関連の薄い単語を
省いて前記辞書ベクトルを更新する手段とを備えたこと
を特徴とする。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0024
【補正方法】変更
【補正内容】
【0024】また、本発明は、コンピュータに情報検索
処理を実行させるのためのプログラムとして、磁気ディ
スク(フロッピーディスク、ハードディスクなど)、光
ディスク(CD−ROM、DVDなど)、半導体メモリ
などの記憶媒体に格納して頒布することもできる。すな
わち、本発明(請求項6)は、コンピュータに情報検索
処理を実行させるのためのプログラムであって、検索対
象となる文書の各々について、少なくとも辞書ベクトル
に登録された各単語が該文書に出現する頻度を示す情
報、および該辞書ベクトルに登録された各単語間の近傍
共起性を示す情報に基づいて、該辞書ベクトルに登録さ
れた各単語に対する重み値の列からなる文書ベクトルを
求めさせ、入力された検索文について、前記検索対象と
なる文書の文書ベクトルを求める方法と同一の方法によ
り、前記辞書ベクトルに登録された各単語に対する重み
値の列からなる文書ベクトルを求めさせ、前記検索対象
となる各々の文書について、該文書の文書ベクトルと前
記検索文の文書ベクトルとの間の類似度を求めさせ、前
記検索対象となる各々の文書について求められた前記類
似度に基づいて、該検索対象となる文書のうちから選択
された複数の文書を、前記検索文に対する検索結果とし
て提示させ、提示された前記文書に対するユーザによる
評価を示す評価情報の入力を受け付けさせ、前記辞書ベ
クトルから前記検索文と関連の薄い単語を省いたものを
用いて、前記文書ベクトルを求める方法と同一の方法で
少なくとも前記評価が与えられた文書および前記検索文
について新たに文書ベクトルを求め、さらに該文書ベク
トルにより新たに前記類似度を求めたときに、該新たな
類似度およびそれらに対応する元の類似度ならびに前記
評価情報に基づいて該辞書ベクトルが改善されるものと
判断された場合に、該辞書ベクトルから当該検索文と関
連の薄い単語を省いて前記辞書ベクトルを更新させるた
めのプログラムを記録したコンピュータ読取り可能な記
録媒体である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 折原 良平 神奈川県川崎市幸区柳町70番地 株式会社 東芝柳町工場内 Fターム(参考) 5B075 ND03 NK32 NK35 PP02 PP12 PP24 PQ02 PQ36 PQ46 PR10 QM08 QP03 UU06

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 文書中の近傍共起する単語間の関連度と
    該文書中に該単語の出現する頻度に基づく特徴量とから
    該文書をベクトル化することを特徴とする文書ベクトル
    化方法。
  2. 【請求項2】 入力された検索文と検索対象の文書とを
    辞書に登録された単語を用いてベクトル化して該検索文
    に類似する文書を検索し、 前記検索文と検索された複数の文書との間の類似度が予
    め定められた条件を満たすように、前記辞書に含まれる
    単語のうち前記検索文と関連の薄い単語を省くことによ
    り該辞書を更新することを特徴とする情報検索方法。
  3. 【請求項3】 入力された検索文と検索対象の文書とを
    辞書に登録された単語を用いて近傍共起する単語間の関
    連度と該単語の出現する頻度に基づく特徴量とからベク
    トル化して該検索文に類似する文書を検索し、 前記検索文と検索された複数の文書との間の類似度が予
    め定められた条件を満たすように、前記辞書に含まれる
    単語のうち前記検索文と関連の薄い単語を省くことによ
    り該辞書を更新することを特徴とする情報検索方法。
  4. 【請求項4】 入力された検索文と検索対象の文書とを
    辞書に登録された単語を用いてベクトル化して、該検索
    文に類似する文書を検索する検索手段と、 前記検索文と前記検索手段で検索された複数の文書との
    間の類似度が予め定められた条件を満たすように、前記
    辞書に含まれる単語のうち前記検索文と関連の薄い単語
    を省くことにより該辞書を更新する辞書更新手段と、 を具備したことを特徴とする情報検索装置。
  5. 【請求項5】 入力された検索文と検索対象の文書とを
    辞書に登録された単語を用いて近傍共起する単語間の関
    連度と該単語の出現する頻度に基づく特徴量とからベク
    トル化して、該検索文に類似する文書を検索する検索手
    段と、 前記検索文と前記検索手段で検索された複数の文書との
    間の類似度が予め定められた条件を満たすように、前記
    辞書に含まれる単語のうち前記検索文と関連の薄い単語
    を省くことにより該辞書を更新する辞書更新手段と、 を具備したことを特徴とする情報検索装置。
  6. 【請求項6】 入力された検索文と検索対象の文書とを
    辞書に登録された単語を用いてベクトル化して、該検索
    文に類似する文書を検索させる検索手段と、 前記検索文と前記検索手段で検索された複数の文書との
    間の類似度が予め定められた条件を満たすように、前記
    辞書に含まれる単語のうち前記検索文と関連の薄い単語
    を省くことにより該辞書を更新させる辞書更新手段と、 を実行するプログラムを記録した機械読み取り可能な記
    録媒体。
  7. 【請求項7】 入力された検索文と検索対象の文書とを
    辞書に登録された単語を用いて近傍共起する単語間の関
    連度と該単語の出現する頻度に基づく特徴量とからベク
    トル化して、該検索文に類似する文書を検索させる検索
    手段と、 前記検索文と前記検索手段で検索された複数の文書との
    間の類似度が予め定められた条件を満たすように、前記
    辞書に含まれる単語のうち前記検索文と関連の薄い単語
    を省くことにより該辞書を更新させる辞書更新手段と、 を実行するプログラムを記録した機械読み取り可能な記
    録媒体。
JP11040123A 1999-02-18 1999-02-18 情報検索方法及び情報検索装置 Expired - Lifetime JP3100955B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11040123A JP3100955B2 (ja) 1999-02-18 1999-02-18 情報検索方法及び情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11040123A JP3100955B2 (ja) 1999-02-18 1999-02-18 情報検索方法及び情報検索装置

Publications (2)

Publication Number Publication Date
JP2000242646A true JP2000242646A (ja) 2000-09-08
JP3100955B2 JP3100955B2 (ja) 2000-10-23

Family

ID=12572057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11040123A Expired - Lifetime JP3100955B2 (ja) 1999-02-18 1999-02-18 情報検索方法及び情報検索装置

Country Status (1)

Country Link
JP (1) JP3100955B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006133844A (ja) * 2004-11-02 2006-05-25 Fuji Xerox Co Ltd データ分析装置
JP2006243804A (ja) * 2005-02-28 2006-09-14 Fuji Xerox Co Ltd データ分析装置
WO2009066501A1 (ja) * 2007-11-19 2009-05-28 Nippon Telegraph And Telephone Corporation 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP2012194690A (ja) * 2011-03-15 2012-10-11 Ntt Comware Corp 特徴量算出装置、文書類似度算出装置、特徴量算出方法およびプログラム
JP2017156916A (ja) * 2016-03-01 2017-09-07 京セラコミュニケーションシステム株式会社 類似文書検索装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114572A (ja) * 1993-10-18 1995-05-02 Sharp Corp 文書分類装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07114572A (ja) * 1993-10-18 1995-05-02 Sharp Corp 文書分類装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006133844A (ja) * 2004-11-02 2006-05-25 Fuji Xerox Co Ltd データ分析装置
JP2006243804A (ja) * 2005-02-28 2006-09-14 Fuji Xerox Co Ltd データ分析装置
WO2009066501A1 (ja) * 2007-11-19 2009-05-28 Nippon Telegraph And Telephone Corporation 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP5116775B2 (ja) * 2007-11-19 2013-01-09 日本電信電話株式会社 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
US8909654B2 (en) 2007-11-19 2014-12-09 Nippon Telegraph And Telephone Corporation Information search method, apparatus, program and computer readable recording medium
JP2012194690A (ja) * 2011-03-15 2012-10-11 Ntt Comware Corp 特徴量算出装置、文書類似度算出装置、特徴量算出方法およびプログラム
JP2017156916A (ja) * 2016-03-01 2017-09-07 京セラコミュニケーションシステム株式会社 類似文書検索装置

Also Published As

Publication number Publication date
JP3100955B2 (ja) 2000-10-23

Similar Documents

Publication Publication Date Title
EP1225517B1 (en) System and methods for computer based searching for relevant texts
JP3719415B2 (ja) 情報検索方法、情報検索システム、およびプログラム
US8442972B2 (en) Negative associations for search results ranking and refinement
US7937397B2 (en) Apparatus and method for term context modeling for information retrieval
US6993517B2 (en) Information retrieval system for documents
US5761496A (en) Similar information retrieval system and its method
US20020073079A1 (en) Method and apparatus for searching a database and providing relevance feedback
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
US8429184B2 (en) Generation of refinement terms for search queries
US20140229476A1 (en) System for Information Discovery & Organization
JPH11102376A (ja) 検索照会に関係のあるデータベースから抽出されたテキストを自動表示する方法および装置
JP2002230021A (ja) 情報検索装置及び情報検索方法並びに記憶媒体
JPH11102374A (ja) データベースの文書表示方法およびその装置
JP2001216316A (ja) 電子マニュアル検索システム、方法、及び記録媒体
Lin et al. ACIRD: intelligent Internet document organization and retrieval
WO2020161505A1 (en) Improved method and system for text based searching
JP4179858B2 (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3100955B2 (ja) 情報検索方法及び情報検索装置
JP4227797B2 (ja) 類義語検索装置、それによる類義語検索方法、類義語検索プログラム及び記憶媒体
JP2006251935A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080818

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080818

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090818

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100818

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100818

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110818

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120818

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120818

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130818

Year of fee payment: 13

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term