JP3654850B2

JP3654850B2 - 情報検索システム

Info

Publication number: JP3654850B2
Application number: JP2001139609A
Authority: JP
Inventors: 栄一内藤; 昭一荒木; 洋九津見; 順小澤; 進丸野
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2000-05-17
Filing date: 2001-05-10
Publication date: 2005-06-02
Anticipated expiration: 2021-05-10
Also published as: JP2002041573A

Description

【０００１】
【発明の属する技術分野】
本発明は、大量の情報の中から利用者が求める情報を容易に見つけ出すことを可能とするための情報検索システムに関するものである。
【０００２】
【従来の技術】
近年、インターネットの普及に伴い、ＷＷＷ（World Wide Web）上にＨＴＭＬ（Hyper Text Markup Language）で記述された様々なホームページが掲載されるようになるなど、一般利用者が大量の情報にアクセスすることが可能となっている。また、ＦＡＱ（Frequently Asked Questions）集と称した、頻繁に問い合わせられる質問とその回答とを対にしたリストが公開されていて、利用者は質問に対する回答を得ることが可能である。これらの情報は、利用者にとって、求める情報の所在がわかれば即座に閲覧できるので便利であるが、逆に大量の情報の中から自分の求める情報を見つけ出すことが大変な作業となっている。
【０００３】
このため、文書からキーワードを切り出してその文書の特徴量とし、特徴量間の内積を算出して文書間の類似度を求め、質問文に対する類似文書を検索するという検索技術が知られている。
【０００４】
【発明が解決しようとする課題】
しかしながら、インターネット上の情報や、あるいは、事例ベースで蓄積されたＦＡＱ集は、多くの人が独立して情報を提供しているので、情報の重複は避けられず、同じような内容を持つ文書が大量に存在する。したがって、従来の技術では、質問文に類似した文書として、同じような内容の文書が大量に検索されてしまうことが多いので、利用者は結局大量の検索結果の中から欲しい情報を見つけ出す作業が必要であった。検索結果を一定の数に制限すると、自分の欲しい情報がなかったりするという課題があった。
【０００５】
また、利用者が検索結果から欲しい情報を見つけ出すのに成功しても、それがＦＡＱ集に反映されないので、別の利用者が同じ条件で検索した場合にも同様の見つけ出す手間が必要であった。情報の重複を避けながらＦＡＱ集をより充実させるためには、同様の情報が既に存在しているかどうかをチェックしなければならず、情報提供者の負担にもなっていた。
【０００６】
本発明の目的は、利用者の情報検索にかかる負担を軽減させる情報検索システムを提供することにある。
【０００７】
本発明の他の目的は、検索対象の情報を容易に更新できる情報検索システムを提供することにある。
【０００８】
【課題を解決するための手段】
上記目的を達成するため、本発明は、文書の特徴ベクトルを算出し、特徴ベクトルに基づいて文書をクラスタ分類し、文書の検索結果をクラスタごとにまとめて表示することとしたものである。これにより、利用者は、検索結果を類似した文書の固まりとして把握することが容易となる。しかも、複数の文書の各々のキーワードとその重みとの組を要素とする特徴ベクトルを特徴量として抽出したうえ、当該複数の文書を、互いの特徴量の同一キーワードの重みの小さい方の和と、大きい方の和との比率（後述する「類似比」）の大きい文書を要素とする複数のクラスタに分類することとした。
【０００９】
また、本発明は、利用者からの質問が入力された場合に類似質問を検索し、対応する回答を利用者に提示し、利用者が最も適切であると判断した回答を選択したとき、当該選択された回答をもとに文書データベースを自動的に更新することとしたものである。これにより、次回から同様の質問が入力された場合に適切な回答ができる。
【００１０】
【発明の実施の形態】
以下、本発明の２つの実施形態について、図面を参照しながら説明する。
【００１１】
《第１の実施形態》
図１は、本発明の第１の実施形態に係る情報検索システムの構成を示す。図１の情報検索システムは、文書記憶部１１と、クラスタ記憶部１２と、クラスタラベル記憶部１３と、文書ラベル記憶部１４と、特徴ベクトル抽出部１５と、クラスタ分類部１６と、クラスタラベル作成部１７と、文書ラベル作成部１８と、データベース検索部１９と、インタフェース部２０と、利用者入力部２１と、利用者表示部２２とで構成され、例えばインターネットを介して互いに接続された文書サーバと利用者端末とで実現される。文書記憶部１１は、複数の文書を記憶する。特徴ベクトル抽出部１５は、文書記憶部１１に記憶されている文書から特徴ベクトルを抽出する。クラスタ分類部１６は、特徴ベクトル抽出部１５が求めた特徴ベクトルに基づき、文書記憶部１１に記憶されている文書のクラスタ分類を行う。クラスタ記憶部１２は、クラスタ分類部１６がクラスタ分類した文書のクラスタを記憶する。クラスタラベル作成部１７は、クラスタ分類部１６が作成した各クラスタについて、当該クラスタの内容を表すクラスタラベルを作成する。クラスタラベルは、単語からなる単語ラベル、あるいは文からなる文ラベルである。クラスタラベル記憶部１３は、クラスタラベル作成部１７が作成したクラスタラベルを記憶する。文書ラベル作成部１８は、クラスタ分類部１６が作成したクラスタの要素である各文書について、当該文書の内容を表す文書ラベルを作成する。文書ラベル記憶部１４は、文書ラベル作成部１８が作成した文書ラベルを記憶する。利用者入力部２１は、利用者から与えられた検索条件を受け付ける。検索条件としては、文書のキーワード、文書ＩＤなど文書検索の条件となるものなら何でもよい。インタフェース部２０は、利用者との入出力を管理する。データベース検索部１９は、文書記憶部１１から検索条件を満たす文書を検索する。利用者表示部２２は、検索結果を利用者に提示する。
【００１２】
図２は、図１中の文書記憶部１１に記憶されている文書の例を示す。文書記憶部１１には、検索の対象となる所与のｎ（ｎ≧２）個の文書が記憶されている。各文書は、ユニークな文書ＩＤと、文章形式の本文とからなる。ｉ番目の文書をＤｉとする（１≦ｉ≦ｎ）。
【００１３】
図３は、図１中の利用者表示部２２における検索結果の表示例を示す。図３によれば、ある検索条件に対する文書の検索結果がクラスタごとにまとめて表示される。具体的には、クラスタＩＤと、そのクラスタに含まれる文書の文書ＩＤ及び本文とを、クラスタごとに表形式で表示し、マウスで「前のクラスタ」ボタンや「次のクラスタ」ボタンを押して別のクラスタを表示することにより、全ての検索結果を表示することができる。これにより、利用者は、検索結果を類似した文書の固まりとして把握することが容易となる。しかも、表示されたクラスタには、当該クラスタの内容を表すクラスタラベルが表示されるとともに、文書ラベルに指定された文が下線付きで表示されている。したがって、クラスタの内容を利用者が把握しやすくなる。なお、検索結果としてクラスタＩＤ、文書ＩＤをも表示したが、表示しなくてもよい。
【００１４】
以下、上記第１の実施形態の詳細を、文書登録時動作と文書検索時動作とに分けて説明する。文書登録時動作とは、初めて文書が文書記憶部１１に登録される場合、あるいは、それ以降に文書の追加／変更／削除があった場合の動作である。文書検索時動作とは、登録文書を検索して閲覧する場合の動作である。
【００１５】
〈文書登録時動作〉
図４は、図１中の特徴ベクトル抽出部１５の処理手順を示す。まず、特徴ベクトル抽出部１５は、文書記憶部１１に記憶されている全ての文書Ｄｉを順次取り出し、各文書Ｄｉの特徴ベクトルＶｉを抽出する。特徴ベクトルは、文書の特徴を表す単語Ｔｊとその重みＷｉｊとの組を要素とするベクトルであり、その要素の数は文書によって異なる。ここで、ｊは単語を識別するユニークな番号である。図４において、ステップＳ１０１では、文書のカウンタｉにｉ＝１を設定する。ステップＳ１０２では、文書記憶部１１から文書Ｄｉを取り出し、形態素解析、構文解析、不要語除去など、一般に知られている方法により、出現する単語Ｔｊを本文から抽出し、文書Ｄｉ内での単語Ｔｊの出現回数Ｆｉｊをカウントする。終了判定ステップＳ１０３では、全文書につきステップＳ１０２の処理が終了した場合、すなわちｉ＝ｎの場合にはＳ１０５に進む。そうでない場合にはＳ１０４に進む。ステップＳ１０４では、カウンタｉを１増加しステップＳ１０２に進む。ステップＳ１０５では、単語Ｔｊの全文書に対する重要度として、単語Ｔｊが出現する文書数の少なさを表す度合い、すなわちＩＤＦ（inverse document
ｆｒｅｑｕｅｎｃｙ）値を数式（１）により算出する。
【００１６】
【数１】

【００１７】
ここで、Ｍｊは単語Ｔｊが出現する文書の数を表す。ステップＳ１０６では、文書のカウンタｉにｉ＝１を設定する。ステップＳ１０７では、単語Ｔｊが文書Ｄｉを特徴付ける重みＷｉｊとして、文書Ｄｉ内での単語Ｔｊの出現割合を表すＴＦ（term frequency）値と、上記ＩＤＦ値とをかけ合わせたＴＦＩＤＦ値を数式（２）により算出する。
【００１８】
【数２】

【００１９】
終了判定ステップＳ１０８では、全文書につきステップＳ１０７の処理が終了した場合、すなわちｉ＝ｎの場合には終了する。そうでない場合にはＳ１０９に進む。ステップＳ１０９では、カウンタｉを１増加しステップＳ１０７に進む。
【００２０】
図５は、抽出された文書特徴ベクトルＶｉの例を示す。なお、上記特徴ベクトルの算出ではＴＦＩＤＦ値を用いていたが、単純に単語の出現回数とするなど、他の方法でもよい。
【００２１】
図６は、図１中のクラスタ分類部１６の処理手順を示す。クラスタ分類部１６は、特徴ベクトル抽出部１５が抽出した特徴ベクトルを用いて、全ての文書をｍ個のクラスタに分類する（１＜ｍ＜ｎ）。ここで、ｋ番目のクラスタをＣｋとする（１≦ｋ≦ｍ）。クラスタ分類の手順として、樹形図的に逐次クラスタに分類していく階層的クラスタリングを用いるものとする。図６において、ステップＳ１１１では、クラスタ間距離の初期計算を行う。ここでは、初期クラスタとして、各々１つの文書Ｄｉだけを要素として持つｎ個のクラスタＣｉを設定する。各クラスタＣｋ，Ｃｌ（１≦ｋ，ｌ≦ｎ）間の距離Ｌｋｌとして、各文書の特徴ベクトル間の距離を表す数式（３）の類似比を採用する。
【００２２】
【数３】

【００２３】
ステップＳ１１２では、クラスタリング回数のカウンタｉにｉ＝１を設定する。ステップＳ１１３では、全てのクラスタの組み合わせの中で、クラスタ間距離Ｌｋｌが最も小さいクラスタＣｋ，Ｃｌ（ｋ＜ｌ）の組を探索する。ステップＳ１１４では、クラスタＣｋ，Ｃｌを統合してクラスタＣｇとする。すなわち、Ｃｇ＝Ｃｋ∪Ｃｌ、Ｃｌ＝φとする（φは空集合を表す）。クラスタの統合に伴い、クラスタＣｇと他のクラスタＣｈ（１≦ｈ≦ｎ）とのクラスタ間距離をウォード法を用いて数式（４）により算出する。
【００２４】
【数４】

【００２５】
ここで、ＮｋはクラスタＣｋの要素の数である。終了判定ステップＳ１１５では、クラスタリング回数がｎ−１の場合、すなわち全ての初期クラスタが１つのクラスタに統合された場合にはステップＳ１１７に進む。そうでない場合にはＳ１１６に進む。ステップＳ１１６では、カウンタｉを１増加しステップＳ１１２に進む。ステップＳ１１７では、クラスタ数を決定する。ステップＳ１１１からステップＳ１１５までのクラスタ分類過程においては、クラスタリング回数ごとにクラスタの数は１つずつ減少する。ステップＳ１１７では、クラスタ分類過程を振り返り、適切なクラスタリング回数を決定する。ここでは、要素を２つ以上持つクラスタの数が最大になるクラスタリング回数を適切なクラスタリング回数であるとする。ステップＳ１１８では、ステップＳ１１７で決定したクラスタリング回数までクラスタ分類を行った時点での各クラスタに含まれる要素をクラスタ記憶部１２に書き出す。
【００２６】
図７は、クラスタ記憶部１２に書き出されたクラスタの例を示す。各クラスタは、クラスタＩＤと、そのクラスタに含まれる文書の文書ＩＤとからなる。例えば、クラスタ１には、１，１９０，４３２，６４４番の４つの文書が含まれている。これは、これら４つの文書の特徴ベクトル同士が、他の文書に比べて類似していることを表している。なお、上記の例ではクラスタ分類の方法として階層的クラスタリングを用いたが、非階層的クラスタリングでもよい。初期クラスタ間距離として数式（３）の類似比を用いたが、ユークリッド平方距離など他の距離を用いてもよい。クラスタ統合時のクラスタ間距離の算出手法として数式（４）のウォード法を用いたが、最長距離法など他の手法を用いてもよい。クラスタ数の決定手法として、要素を２つ以上持つクラスタの数が最大になるクラスタリング回数としたが、クラスタ数を文書数の一定の割合とするなど他の決定手法でもよい。
【００２７】
図８は、図１中のクラスタラベル作成部１７における単語ラベル作成手順を示す。ステップＳ２０１では、クラスタのカウンタｋにｋ＝１を設定する。ステップＳ２０２では、クラスタＣｋの要素である全ての文書Ｄｉの特徴ベクトルＶｉに含まれる単語Ｔｊごとに、クラスタＣｋの要素である文書Ｄｉのうち、単語Ｔｊが出現する出現文書数をカウントする。ステップＳ２０３では、クラスタＣｋの要素である全ての文書Ｄｉに含まれる単語Ｔｊごとに、単語ＴｊのＴＦＩＤＦ値（＝Ｗｉｊ）の、クラスタＣｋの要素である全ての文書Ｄｉについての合計を算出する。ステップＳ２０４では、クラスタＣｋの要素である全ての文書Ｄｉの特徴ベクトルＶｉに含まれる全ての単語Ｔｊを、ステップＳ２０２で求めた出現文書数の多い順にソートする。出現文書数が同じ場合はステップＳ２０３で求めたＴＦＩＤＦ値の合計の大きい順にソートする。ステップＳ２０５では、ステップＳ２０４でソートされた上位の３つの単語を選択し、クラスタの単語ラベルとしてクラスタラベル記憶部１３に書き出す。終了判定ステップＳ２０６では、全クラスタにつきステップＳ２０２からステップＳ２０５までの処理が終了した場合、すなわちｋ＝ｍの場合には終了する。そうでない場合にはＳ２０７に進む。ステップＳ２０７では、カウンタｋを１増加しステップＳ２０２に進む。
【００２８】
図９は、クラスタラベル記憶部１３に書き出された単語ラベルの例を示す。例えば、クラスタ１には、「お菓子」「間食」「チーズ」という単語ラベルが付いていることを表す。なお、単語ラベルの作成方法として単語の出現文書数でソートしたが、ＴＦＩＤＦ値のみでソートするなど他の方法でもよい。また、単語ラベルの単語数を３つにしたが、３つ以外でもよい。
【００２９】
図１０は、図１中のクラスタラベル作成部１７における文ラベル作成手順を示す。ステップＳ３０１では、クラスタのカウンタｋにｋ＝１を設定する。ステップＳ３０２では、クラスタＣｋの要素である全ての文書Ｄｉの特徴ベクトルＶｉに含まれる単語Ｔｊごとに、クラスタＣｋの要素である文書Ｄｉのうち、単語Ｔｊが出現する出現文書数をカウントする。ステップＳ３０３では、クラスタＣｋの要素である全ての文書Ｄｉを構成する文ごとに、その文に含まれる単語Ｔｊの、ステップＳ３０２でカウントした出現文書数の合計を算出する。ここで、文とは、文書を「。」などの句点で区切った１つ１つの文字列をいう。ステップＳ３０４では、クラスタＣｋの要素である全ての文書Ｄｉを構成する文を、ステップＳ３０３で求めた出現文書数の合計の大きい順にソートする。ステップＳ３０５では、ステップＳ３０４でソートされた最上位の文を選択し、クラスタの文ラベルとしてクラスタラベル記憶部１３に書き出す。最上位の文が複数ある場合は、その中から文字数が最少の文を選択する。終了判定ステップＳ３０６では、全クラスタにつきステップＳ３０２からステップＳ３０５までの処理が終了した場合、すなわちｋ＝ｍの場合には終了する。そうでない場合にはＳ３０７に進む。ステップＳ３０７では、カウンタｋを１増加しステップＳ３０２に進む。
【００３０】
図１１は、クラスタラベル記憶部１３に書き出された文ラベルの例を示す。例えば、クラスタ１には、「水分の多い物（ゼリー、プリン、ヨーグルト）を…」という文ラベルが付いていることを表す。なお、文ラベルの作成方法として単語の出現文書数の合計でソートしたが、ＴＦＩＤＦ値の合計でソートするなど他の方法でもよい。また、出現文書数の合計が最上位の文が複数ある場合に、文字数が最少の文を選択したが、文の開始位置が最も前方の文を選択するなど他の方法でもよい。
【００３１】
図１２は、図１中の文書ラベル作成部１８の処理手順を示す。ステップＳ４０１では、文書のカウンタｉにｉ＝１を設定する。ステップＳ４０２では、文書Ｄｉを構成する各文ごとに、その文に含まれる全単語ＴｊのＴＦＩＤＦ値（＝Ｗｉｊ）の合計を算出する。終了判定ステップＳ４０３では、全文書につきステップＳ４０２の処理が終了した場合、すなわちｉ＝ｎの場合にはＳ４０５へ進む。そうでない場合にはＳ４０４に進む。ステップＳ４０４では、カウンタｉを１増加しステップＳ４０２に進む。ステップＳ４０５では、クラスタのカウンタｋにｋ＝１を設定する。ステップＳ４０６では、クラスタＣｋの要素である全ての文書Ｄｉを構成する文を、ステップＳ４０２で求めた合計の多い順にソートする。ステップＳ４０７では、文書Ｄｉの文書ラベルとしてステップＳ４０６でソートされた最上位の文を選択する。ただし、選択された文が、クラスタラベル作成部１７が作成したクラスタの文ラベルと同一の場合には、文書Ｄｉの文書ラベルとしてステップＳ４０６でソートされた上位から２番目の文を選択する。ステップＳ４０８では、ステップＳ４０７で選択された文書Ｄｉの文書ラベルを文書ラベル記憶部１４に書き出す。終了判定ステップＳ４０９では、全クラスタにつきステップＳ４０６からステップＳ４０８までの処理が終了した場合、すなわちｋ＝ｍの場合には終了する。そうでない場合にはＳ４１０に進む。ステップＳ４１０では、カウンタｋを１増加しステップＳ４０６に進む。
【００３２】
図１３は、文書ラベル記憶部１４に書き出された文書ラベルの例を示す。例えば、クラスタ１に含まれる文書１には、「かみごたえがあり、後を引かないもので、…」という文書ラベルが付いていることを表す。
【００３３】
以上の動作により、文書登録時に、各文書について特徴ベクトルを抽出し、また、クラスタ、クラスタラベル及び文書ラベルを作成してそれぞれの記憶部に記憶しておく。
【００３４】
〈文書検索時動作〉
まず、インタフェース部２０は、利用者入力部２１を通じて文書の検索条件を受け付ける。データベース検索部１９は、検索条件を満たす文書を文書記憶部１１から検索し、当該検索された文書が含まれるクラスタをクラスタ記憶部１２から検索し、当該検索されたクラスタに含まれる文書を再び文書記憶部１１から検索し、その結果をクラスタラベル及び文書ラベルとともにインタフェース部２０へ送る。インタフェース部２０は、利用者表示部２２を通じて検索結果を利用者に提示する（図３）。
【００３５】
なお、本実施形態では、文書は所与のものが予め記憶されていたが、光ディスクなどの記憶媒体やインターネットなどのネットワーク媒体などにより、後から新たに導入、又は改訂されてもよい。また、文書の検索は、キーワードや文書ＩＤによるもの以外に、全文検索であってもあいまい検索であってもよい。
【００３６】
《第２の実施形態》
図１４は、本発明の第２の実施形態に係る情報検索システムの構成を示す。図１４の情報検索システムは、利用者の自由文による質問に対して、過去の事例検索に基づく適切な回答を返すシステムであって、例えばインターネットを介して互いに接続された文書サーバ、利用者端末及び専門家端末で実現される。図１４の構成は、図１の構成に特徴ベクトル記憶部３１と、類似度演算部３２と、専門家入力部４１と、専門家表示部４２とを追加し、かつ図１中のデータベース検索部１９をデータベース検索更新部３３に置き換えたものである。文書記憶部１１は、互いに対応付けられた複数の質問文書と複数の回答文書とを記憶する。専門家表示部４２は、専門家に検索結果を提示する。専門家入力部４１は、専門家からの選択入力及び自由文による回答入力を受け付ける。インタフェース部２０は、利用者及び専門家との入出力を管理する。特徴ベクトル抽出部１５は、文書記憶部１１の質問文書及び回答文書の各々から特徴ベクトルを抽出する機能と、利用者の自由文による質問入力から特徴ベクトルを抽出する機能と、専門家の自由文による回答入力から特徴ベクトルを抽出する機能とを有する。特徴ベクトル記憶部３１は、特徴ベクトル抽出部１５が文書記憶部１１の質問文書及び回答文書の各々から抽出した特徴ベクトルを記憶する。類似度演算部３２は、利用者質問入力から抽出された特徴ベクトルと、特徴ベクトル記憶部３１が記憶している質問文書の特徴ベクトルとの類似度を求める機能と、専門家回答入力から抽出された特徴ベクトルと、特徴ベクトル記憶部３１が記憶している回答文書の特徴ベクトルとの類似度を求める機能とを有する。データベース検索更新部３３は、文書記憶部１１の文書を検索する機能に加えて、利用者又は専門家の応答に基づいて文書記憶部１１を更新する機能を有する。
【００３７】
図１５及び図１６は、図１４中の文書記憶部１１に記憶されている文書の例を示す。図１５は、質問文書を集めた質問表の部分を示す。この質問表は、ユニークな質問ＩＤ、文章形式の質問、及び当該質問に対応する回答ＩＤからなる。図１６は、回答文書を集めた回答表の部分を示す。この回答表は、ユニークな回答ＩＤ、及び文章形式の回答からなる。ｉ番目の質問をＱｉとし、ｋ番目の回答をＡｋとする（１≦ｉ≦ｎかつ１≦ｋ≦ｍ）。ここで、ｎ≧ｍの関係が成り立っている。すなわち、複数の質問に対して１つの回答が対応する場合がある。
【００３８】
図１７は、図１４中の専門家表示部４２における検索結果の表示例を示す。図１７では、利用者からの質問に加えて、回答候補がクラスタに分類された状態で、かつクラスタの文ラベル及びクラスタ中の文書ラベルとともに表示されている。図１７では、マウスで「前のページ」ボタンや「次のページ」ボタンを押して別のページを表示することにより、全ての検索結果を表示することができる。これにより、専門家は、類似した文書の固まりとして表示された検索結果を参照して、最も適切な回答を容易に選択することができる。あるいは、自由文による専門家回答を入力することもできる。なお、図１７の例ではクラスタラベルとして文ラベルを表示したが、これとともに又はこれに代えて単語ラベルを表示してもよい。また、検索結果としてクラスタＩＤ、文書ＩＤをも表示したが、表示しなくてもよい。
【００３９】
図１８は、図１４中の利用者表示部２２における検索結果の表示例を示す。ここでは、番号１の文書が専門家回答として選択されたものとしている。
【００４０】
以下、上記第２の実施形態の詳細を、第１の実施形態と同様に、文書登録時動作と文書検索時動作とに分けて説明する。
【００４１】
〈文書登録時動作〉
まず、特徴ベクトル抽出部１５は、文書記憶部１１に記憶されている全ての文書から質問の特徴ベクトルＶＱｉと回答の特徴ベクトルＶＡｋとを抽出し、抽出された特徴ベクトルを特徴ベクトル記憶部３１に書き出す。特徴ベクトルの抽出手順は第１の実施形態と同様である。第１の実施形態との違いは、質問と回答の部分についてそれぞれ特徴ベクトルを算出する点と、特徴ベクトルを特徴ベクトル記憶部３１に書き出す点である。
【００４２】
次に、クラスタ分類部１６は、特徴ベクトル記憶部３１から回答の特徴ベクトルＶＡｋを読み出し、全ての回答文書をクラスタに分類し、クラスタ記憶部１２にクラスタを書き出す。クラスタ分類の手順は第１の実施形態と同様である。第１の実施形態との違いは、回答の特徴ベクトルＶＡｋを用いてクラスタ分類を行う点である。クラスタラベル作成部１７及び文書ラベル作成部１８の各々の動作は、第１の実施形態と同様である。
【００４３】
以上の動作により、文書登録時に、質問と回答についてそれぞれ特徴ベクトルを抽出し、また回答について、クラスタ、クラスタラベル、及び文書ラベルを作成してそれぞれの記憶部に記憶しておく。
【００４４】
〈文書検索時動作〉
まず、インタフェース部２０は、利用者入力部２１を通じて、自由文による利用者質問Ｑを受け付ける。特徴ベクトル抽出部１５は、利用者質問の特徴ベクトルＶＱを抽出する。
【００４５】
図１９は、図１４中の特徴ベクトル抽出部１５における利用者質問の特徴ベクトル抽出手順を示す。ステップＳ５０１では、出現する単語Ｔｊを利用者質問Ｑから抽出し、単語Ｔｊの文書内での出現回数Ｆｉｊをカウントする。単語の抽方法は、第１の実施形態と同様である。ステップＳ５０２では、単語ＴｊのＩＤＦ値を算出する。単語Ｔｊが文書記憶部１１のいずれかの文書中に存在する場合はそのＩＤＦ値が文書登録時に既に算出されているので、それをステップＳ５０２で用いる。単語Ｔｊが存在しない場合は数式（５）により単語ＴｊのＩＤＦ値（ＩＤＦｊ）を算出する。
【００４６】
【数５】

【００４７】
ステップＳ５０３では、利用者質問Ｑにおける単語Ｔｊの重みＷＱｊ（ＴＦＩＤＦ値）を算出する。ＴＦＩＤＦ値の算出方法は第１の実施形態と同様である。図２０は、利用者質問Ｑから抽出された特徴ベクトルＶＱの例を示す。
【００４８】
次に、類似度演算部３２は、特徴ベクトル記憶部３１から全ての質問の特徴ベクトルＶＱｉを取り出し、これらの特徴ベクトルＶＱｉと利用者質問の特徴ベクトルＶＱとの類似度を算出する。
【００４９】
図２１は、図１４中の類似度演算部３２の処理手順を示す。ステップＳ５１１では、文書のカウンタｉにｉ＝１を設定する。ステップＳ５１２では、特徴ベクトルＶＱｉと利用者からの質問の特徴ベクトルＶＱとの類似度Ｅｉを数式（６）によりベクトルの内積で算出する。
【００５０】
【数６】

【００５１】
終了判定ステップＳ５１３では、全質問につきステップＳ５１２の処理が終了した場合、すなわちｉ＝ｎの場合にはＳ５１５に進む。そうでない場合にはＳ５１４に進む。ステップＳ５１４では、カウンタｉを１増加しステップＳ５１２に進む。ステップＳ５１５では、全ての質問文書を、ステップＳ５１２で求めた類似度Ｅｉの高い順にソートする。
【００５２】
次に、データベース検索更新部３３は、類似度演算部３２が算出した類似度Ｅｉが上位の所定の数の質問文書とそれに対応する回答文書とを文書記憶部１１から検索し、当該検索された回答文書が含まれるクラスタをクラスタ記憶部１２から検索し、当該検索されたクラスタに含まれる回答文書を再び文書記憶部１１から検索し、その結果をクラスタラベル及び文書ラベルとともにインタフェース部２０へ送る。なお、特徴ベクトルの類似度演算方法としてベクトルの内積を用いたが、ベクトルの類似比を用いるなど他の方法でもよい。
【００５３】
次に、インタフェース部２０は、専門家表示部４２を通じて検索結果の回答部分を専門家に提示し（図１７）、専門家入力部４１を通じて、専門家表示部４２の表示を参照した専門家の回答選択又は自由文による回答の入力を受け付ける。更に、インタフェース部２０は、利用者表示部２２を通じて専門家回答を利用者に提示する（図１８）。したがって、利用者へは有用な情報のみが提示される。
【００５４】
図２２は、図１４中のデータベース検索更新部３３の処理手順をフローチャートの形式で示す。ステップＳ６０１では、回答事例検索表示を行う。具体的には、インタフェース部２０は、自由文による利用者質問Ｑを受け付け、専門家表示部４２を通じて検索結果を専門家に提示する（図１７）。ステップＳ６０２では、検索結果の判断を行う。専門家は、図１７の表示を見て、利用者質問Ｑに対して適切であると思われる回答があるかどうか判断する。適切であると思われる回答があった場合にはＳ６０３に進む。適切であると思われる回答がなかった場合にはＳ６０６に進む。ステップＳ６０３では、専門家は、利用者質問Ｑに対して最も適切であると思われる回答の文書ＩＤを選択する。インタフェース部２０は、専門家入力部４１を通じて、選択された文書ＩＤの入力を受け付ける。また、当該文書ＩＤを後述するステップＳ６０５のために、データベース検索更新部３３に受け渡す。ステップＳ６０４では、インタフェース部２０は、利用者表示部２２を通じて、専門家が選択した文書ＩＤの文書を回答として利用者に提示する（図１８）。
【００５５】
ステップＳ６０５では、質問追加処理を行う。データベース検索更新部３３は、受け渡された文書ＩＤの回答に対応する１以上の質問のうち、利用者質問Ｑとの類似度が最も高い質問の類似度が所定の値以下である場合には、適切な自動回答がなされなかったものとして、図１５の質問表に、新規のユニークな質問ＩＤ、利用者質問Ｑ及び選択された文書ＩＤからなる行を追加する。次にステップＳ６１２に進む。ステップＳ６１２では、特徴ベクトル抽出部１５は、文書登録時と同様に、文書記憶部１１に記憶されている全ての質問Ｑｉ及び回答Ａｋから、それぞれの特徴ベクトルＶＱｉ，ＶＡｋを抽出し、抽出された特徴ベクトルを特徴ベクトル記憶部３１に書き出す。
【００５６】
ステップＳ６０２で適切な回答がなかった場合、専門家は、ステップＳ６０６において利用者質問Ｑに対して適切な回答Ａを自由文で入力する。インタフェース部２０は、専門家入力部４１を通じて、自由文の回答を受け付ける。ステップＳ６０７では、インタフェース部２０は、専門家が入力した回答Ａを利用者に提示する。ステップＳ６０８では、特徴ベクトル抽出部１５は、専門家が入力した回答Ａの特徴ベクトルＶＡを抽出する。この特徴ベクトルの抽出手順は、図１９で説明した利用者質問Ｑの特徴ベクトルＶＱの抽出手順と同様である。ステップＳ６０９では、類似度演算部３２は、特徴ベクトル記憶部３１から全ての回答の特徴ベクトルＶＡｋを取り出し、専門家が入力した回答Ａの特徴ベクトルＶＡとの類似度Ｅｋを算出する。この類似度の算出手順は、図２１で説明した利用者質問Ｑの類似度の算出手順と同様である。ステップＳ６１０では、類似度演算部３２は、ステップＳ６０９で求めた類似度Ｅｋの中で最も大きいものが所定の値以上の場合は、文書記憶部１１の中に専門家が入力した回答Ａと類似する回答があるものと判断し、類似する回答Ａｋの文書ＩＤをデータベース検索更新部３３に受け渡し、ステップＳ６０５に進む。そうでない場合はステップＳ６１１に進む。ステップＳ６１１では、質問回答追加処理を行う。データベース検索更新部３３は、図１６の回答表に、新規のユニークな文書ＩＤ及び専門家が入力した回答Ａからなる行を追加する。また、図１５の質問表に、新規のユニークな質問ＩＤと、利用者質問Ｑと、追加した回答に付与した文書ＩＤとからなる行を追加する。そして、ステップＳ６１２に進む。ステップＳ６１２における処理は上述のとおりである。
【００５７】
一方、回答を選択又は入力できる専門家がいない場合には、インタフェース部２０は、利用者表示部２２を通じて、図１７と同様の検索結果を利用者に提示する。利用者は、図１７の表示を見て、自分の質問Ｑに対して最も適切であると思われる回答の文書ＩＤを選択し、インタフェース部２０は、利用者入力部２１を通じて、選択された文書ＩＤの入力を受け付ける。データベース検索更新部３３は、入力された文書ＩＤの回答に対応する１以上の質問のうち、利用者質問Ｑとの類似度が最も高い質問の類似度が所定の値以下である場合には、適切な自動回答がなされなかったものとして、図１５の質問表に、新規のユニークな質問ＩＤ、利用者質問Ｑ及び選択された文書ＩＤからなる行を追加する（ステップＳ６０５と同様）。そして、特徴ベクトル抽出部１５は、文書登録時と同様に、文書記憶部１１に記憶されている全ての質問Ｑｉ及び回答Ａｋから、それぞれの特徴ベクトルＶＱｉ，ＶＡｋを抽出し、抽出された特徴ベクトルを特徴ベクトル記憶部３１に書き出す（ステップＳ６１２と同様）。
【００５８】
以上のように、第２の実施形態によれば、利用者又は専門家の応答に応じて文書記憶部１１が自動的に更新されるようにしたので、次回から同様の質問が入力された場合に適切な回答ができる情報検索システムを提供することができる。
【００５９】
【発明の効果】
以上説明してきたとおり、本発明によれば、文書の特徴ベクトルを算出し、特徴ベクトルに基づいて文書をクラスタ分類し、文書の検索結果をクラスタごとにまとめて表示することとしたので、利用者は、検索結果を類似した文書の固まりとして把握することが容易となる。したがって、利用者の情報検索にかかる負担を軽減させる情報検索システムを提供することができる。
【００６０】
また、本発明によれば、利用者からの質問が入力された場合に類似質問を検索し、対応する回答を利用者に提示し、利用者が最も適切であると判断した回答を選択したときには当該選択された回答をもとに文書データベースを自動的に更新することとしたので、検索対象の情報を容易に更新できる情報検索システムを提供することができる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態に係る情報検索システムの構成を示すブロック図である。
【図２】図１中の文書記憶部に記憶されている文書の例を示す図である。
【図３】図１中の利用者表示部における検索結果の表示例を示す図である。
【図４】図１中の特徴ベクトル抽出部の処理手順を示すフローチャートである。
【図５】抽出された文書特徴ベクトルの例を示す図である。
【図６】図１中のクラスタ分類部の処理手順を示すフローチャートである。
【図７】クラスタ分類結果の例を示す図である。
【図８】図１中のクラスタラベル作成部における単語ラベル作成手順を示すフローチャートである。
【図９】作成された単語ラベルの例を示す図である。
【図１０】図１中のクラスタラベル作成部における文ラベル作成手順を示すフローチャートである。
【図１１】作成された文ラベルの例を示す図である。
【図１２】図１中の文書ラベル作成部の処理手順を示すフローチャートである。
【図１３】作成された文書ラベルの例を示す図である。
【図１４】本発明の第２の実施形態に係る情報検索システムの構成を示すブロック図である。
【図１５】図１４中の文書記憶部に記憶されている文書のうちの質問表の部分の例を示す図である。
【図１６】図１４中の文書記憶部に記憶されている文書のうちの回答表の部分の例を示す図である。
【図１７】図１４中の専門家表示部における検索結果の表示例を示す図である。
【図１８】図１４中の利用者表示部における検索結果の表示例を示す図である。
【図１９】図１４中の特徴ベクトル抽出部における利用者質問の特徴ベクトル抽出手順を示すフローチャートである。
【図２０】利用者質問から抽出された特徴ベクトルの例を示す図である。
【図２１】図１４中の類似度演算部の処理手順を示すフローチャートである。
【図２２】図１４中のデータベース検索更新部の処理手順を主として示すフローチャートである。
【符号の説明】
１１文書記憶部
１２クラスタ記憶部
１３クラスタラベル記憶部
１４文書ラベル記憶部
１５特徴ベクトル抽出部
１６クラスタ分類部
１７クラスタラベル作成部
１８文書ラベル作成部
１９データベース検索部
２０インタフェース部
２１利用者入力部
２２利用者表示部
３１特徴ベクトル記憶部
３２類似度演算部
３３データベース検索更新部
４１専門家入力部
４２専門家表示部

Claims

複数の文書の中から利用者が求める情報を検索するための情報検索システムであって、
文書記憶手段に記憶された複数の文書の各々の特徴量を抽出するための特徴量抽出手段と、
前記特徴量に基づき、前記複数の文書を、互いに近似した特徴量を持つ文書を要素とする複数のクラスタに分類するためのクラスタ分類手段と、
前記複数のクラスタ各々について、当該クラスタに属する文書に含まれる単語の各々について当該単語が出現する当該クラスタ中の文書数を計数して単語スコアとし、単語スコアの大きい順に並べた１つ以上の単語を当該クラスタのラベルとして選択するためのクラスタ単語ラベル作成手段と、
前記複数の文書の中から、前記利用者から与えられた検索条件を満たす文書を検索するための文書検索手段と、
前記検索された文書を、当該検索された文書が属するクラスタの前記ラベルと、当該クラスタに属する他の文書とともに、検索結果として提示するためのインタフェース手段とを備え、
前記特徴量抽出手段は、前記文書記憶手段に記憶された複数の文書の各々の、キーワードとその重みとの組を要素とする特徴ベクトルを特徴量として抽出し、
前記クラスタ分類手段は、前記複数の文書を、互いの特徴量の同一キーワードの重みの小さい方の和と、大きい方の和との比率の大きい文書を要素とする複数のクラスタに分類する情報検索システム。
複数の文書の中から利用者が求める情報を検索するための情報検索システムであって、
文書記憶手段に記憶された複数の文書の各々の特徴量を抽出するための特徴量抽出手段
と、
前記特徴量に基づき、前記複数の文書を、互いに近似した特徴量を持つ文書を要素とする複数のクラスタに分類するためのクラスタ分類手段と、
前記複数のクラスタ各々について、当該クラスタに属する文書に含まれる単語の各々について当該単語が出現する当該クラスタ中の文書数を計数して単語スコアとし、前記単語スコアに基づいて当該クラスタに属する文書に含まれる文の１つを当該クラスタのラベルとして選択するためのクラスタ文ラベル作成手段と、
前記複数の文書の中から、前記利用者から与えられた検索条件を満たす文書を検索するための文書検索手段と、
前記検索された文書を、当該検索された文書が属するクラスタの前記ラベルと、当該クラスタに属する他の文書とともに、検索結果として提示するためのインタフェース手段とを備え、
前記特徴量抽出手段は、前記文書記憶手段に記憶された複数の文書の各々の、キーワードとその重みとの組を要素とする特徴ベクトルを特徴量として抽出し、
前記クラスタ分類手段は、前記複数の文書を、互いの特徴量の同一キーワードの重みの小さい方の和と、大きい方の和との比率の大きい文書を要素とする複数のクラスタに分類する情報検索システム。
請求項２記載の情報検索システムにおいて、
前記クラスタ文ラベル作成手段は、当該クラスタに属する文書に含まれる文の各々について、当該文に含まれる全単語の単語スコアの和を求め、前記単語スコアの和が最大である文を当該クラスタのラベルとして選択し、前記単語スコアの和が最大である文が複数ある場合には、その中から文字数の最少の文を選択するように構成されたことを特徴とする情報検索システム。
請求項２記載の情報検索システムにおいて、
前記クラスタ文ラベル作成手段は、当該クラスタに属する文書に含まれる文の各々について、当該文に含まれる全単語の単語スコアの和を求め、前記単語スコアの和が最大である文を当該クラスタのラベルとして選択し、前記単語スコアの和が最大である文が複数ある場合には文の開始位置が最も前方の文を選択するように構成されたことを特徴とする情報検索システム。
複数の文書の中から利用者が求める情報を検索するための情報検索システムであって、
文書記憶手段に記憶された複数の文書の各々の特徴量を抽出するための特徴量抽出手段と、
前記特徴量に基づき、前記複数の文書を、互いに近似した特徴量を持つ文書を要素とする複数のクラスタに分類するためのクラスタ分類手段と、
前記複数のクラスタ各々について、当該クラスタの内容を表すクラスタラベルを作成するためのクラスタラベル作成手段と、
前記クラスタ分類された文書各々について、当該文書の内容を表す文書ラベルを作成するための文書ラベル作成手段と、
前記複数の文書の中から、前記利用者から与えられた検索条件を満たす文書を検索するための文書検索手段と、
前記検索された文書を、当該検索された文書が属するクラスタの前記クラスタラベルと、当該クラスタに属する他の文書と、当該検索された文書と当該他の文書との各々に対応させた前記文書ラベルとともに、検索結果として提示するためのインタフェース手段とを備え、
前記特徴量抽出手段は、前記文書記憶手段に記憶された複数の文書の各々の、キーワードとその重みとの組を要素とする特徴ベクトルを特徴量として抽出し、
前記クラスタ分類手段は、前記複数の文書を、互いの特徴量の同一キーワードの重みの小さい方の和と、大きい方の和との比率の大きい文書を要素とする複数のクラスタに分類する情報検索システム。
請求項５記載の情報検索システムにおいて、
前記文書ラベル作成手段は、当該文書中の全ての文の中から、当該文書に含まれる単語のＴＦＩＤＦ値の和が最大である文を前記文書ラベルとして選択するように構成されたことを特徴とする情報検索システム。
複数の回答文書の中から利用者が求める情報を検索するための情報検索システムであって、
前記複数の回答文書と前記回答文書各々に少なくとも１つ以上対応付けられた複数の質問文書とを記憶するための文書記憶手段と、
前記複数の回答文書各々の特徴量を抽出するための特徴量抽出手段と、
前記特徴量に基づき、前記複数の回答文書を、互いに近似した特徴量を持つ文書を要素とする複数のクラスタに分類するためのクラスタ分類手段と、
前記複数の質問文書の中から、前記利用者から与えられた利用者質問と合致する質問文書を検索するための質問文書検索手段と、
前記検索された質問文書と当該質問文書に対応付けられた回答文書とを、当該回答文書が属するクラスタ中の他の回答文書とともに、検索結果として提示するためのインタフェース手段とを備え、
前記特徴量抽出手段は、前記文書記憶手段に記憶された複数の文書の各々の、キーワードとその重みとの組を要素とする特徴ベクトルを特徴量として抽出し、
前記クラスタ分類手段は、前記複数の文書を、互いの特徴量の同一キーワードの重みの小さい方の和と、大きい方の和との比率の大きい文書を要素とする複数のクラスタに分類する情報検索システム。
請求項７記載の情報検索システムにおいて、
前記インタフェース手段は、前記提示された検索結果の回答文書の中から前記利用者による回答文書の選択を受け付けるように構成され、
前記利用者質問を前記選択された回答文書に対応付けて前記文書記憶手段に新たに記憶させるための文書更新手段を更に備えたことを特徴とする情報検索システム。
請求項８記載の情報検索システムにおいて、
前記文書更新手段は、前記利用者質問と前記合致する質問文書との類似度が所定の値より低い場合に、前記利用者質問を前記選択された回答文書に対応付けて前記文書記憶手段に新たに記憶させるように構成されたことを特徴とする情報検索システム。