JP6115487B2

JP6115487B2 - 情報収集方法、対話システム及び情報収集装置

Info

Publication number: JP6115487B2
Application number: JP2014014265A
Authority: JP
Inventors: 佐和樋口; 生聖渡部
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2014-01-29
Filing date: 2014-01-29
Publication date: 2017-04-19
Anticipated expiration: 2034-01-29
Also published as: JP2015141323A

Description

本発明は、情報収集方法、当該方法を用いた対話システム及び情報収集装置に関し、特に、ネットワーク上から特定の話題に関する情報を収集する情報収集方法、当該方法を用いた対話システム及び情報収集装置に関する。

特許文献１には、特定のジャンルに関する情報を蓄積したデータベースを参照して、入力された単語と関連性の高い情報を出力する技術が開示されている。ここで、特許文献１にかかるデータベースは、特定のジャンル（例えば、地域名）における要素のリスト（例えば、「銀座」、「新宿」等）と、当該リストに含まれる要素のいずれかと単語を含む複数の検索クエリとに基づいて、検索クエリ中の単語が出現するクエリ数（出現数）が算出され、要素ごとに単語と当該算出された出現数とが対応付けて格納されたものである。

特開２０１１−０８５９９３号公報

特許文献１にかかるデータベースは、多数の検索クエリのログと、要素名のリストを必要とする。そのため、これらを収集し、登録しておくことは労力がかかり、効率が悪い。また、これらの収集をインターネット上から収集することも考えられるが、一般の検索エンジン等を用いるだけでは、特定の話題とは無関係な情報が多く含まれ得るため、情報の質が低くなってしまう。よって、特定の話題に関する質の高い情報を効率的に収集することが困難であるという問題点がある。

尚、特許文献１にかかるデータベースは、ある話題（ジャンル等）についてのユーザの発話に対して、ロボットが当該話題に関する内容の応答を行う際に、参照するデータベースとして用いることができる。そのため、上記問題点は対話システムにおいても発生するといえる。

本発明は、このような問題を解決するためになされたものであり、ネットワーク上から特定の話題に関する質の高い情報を効率的に収集するための情報収集方法、当該方法を用いた対話システム及び情報収集装置を提供することを目的としている。

本発明の第１の態様にかかる情報収集方法は、
ネットワーク上から特定の話題に関する情報を収集する情報収集装置を用いた情報収集方法であって、
前記情報収集装置は、
前記特定の話題とは異なる他の話題に関する情報を示す複数の文章である第２の文章群を予め格納したデータベースを備え、
前記情報収集装置が、
前記特定の話題に関する情報の一部を示す入力文章を受け付け、
前記入力文章内の単語を含む複数の文章である第１の文章群を、前記ネットワーク上から収集し、
前記データベースに格納された第２の文章群内に前記第１の文章群に含まれる各単語が出現する頻度に基づいて、当該第１の文章群に含まれる各単語のうち一部を、前記特定の話題における重要語として選択し、
前記重要語を含む複数の文章である第３の文章群を、前記特定の話題に関する情報として前記ネットワーク上から収集する。

本発明の第２の態様にかかる情報収集装置は、
ネットワーク上から特定の話題に関する情報を収集する情報収集装置であって、
前記特定の話題とは異なる他の話題に関する情報を示す複数の文章である第２の文章群を予め格納したデータベースと、
前記特定の話題に関する情報の一部を示す入力文章を受け付ける受付部と、
前記入力文章内の単語を含む複数の文章である第１の文章群を、前記ネットワーク上から収集する第１の収集部と、
前記データベースに格納された第２の文章群内に前記第１の文章群に含まれる各単語が出現する頻度に基づいて、当該第１の文章群に含まれる各単語の一部を、前記特定の話題における重要語として選択する選択部と、
前記重要語を含む複数の文章である第３の文章群を、前記特定の話題に関する情報として前記ネットワーク上から収集する第２の収集部と、
を備える。

上述した各態様では、特定の話題に関する一部の文章を入力することで、入力文章に含まれる単語を含む情報をネットワーク上から収集し、収集した情報に含まれる単語のうち、他の話題に関する文章に含まれる頻度が少ない単語を当該特定の話題についての重要語として選択することで、特定の話題に関する質の高い情報を、ネットワーク上から効率的に収集することができる。

本発明により、ネットワーク上から特定の話題に関する質の高い情報を効率的に収集するための情報収集方法、当該方法を用いた対話システム及び情報収集装置を提供することができる。

本発明の実施の形態１にかかる情報収集装置の構成を示す図である。本発明の実施の形態１にかかる情報収集処理の流れを示すフローチャートである。本発明の実施の形態１にかかる対話システムの一例を示す図である。

以下では、上述した各態様を含む本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略する。

＜発明の実施の形態１＞
本発明の実施の形態１は、特定の話題に関する情報を集約した良質なデータベース（ＤＢ）を構築するために、ネットワーク上から質の高い情報を効率的に収集するための情報収集方法等に関するものである。ここで、本発明の実施の形態における「話題」とは、テーマ、トピック、ジャンル、分野等を含む概念とする。また、「特定の話題に関する情報」とは、ある話題領域における知識等であり、例えば、「地球と月」という話題について月が地球の衛星である点、月が地球の周りを公転している点、地球と月との距離等の複数の情報を意味する。

特定の話題に関する情報を集約した良質なＤＢを構築するためには、例えば、人手で良質な情報を選別し、都度、登録する方法も考えられる。しかし、この方法には、多大な労力を要するため効率が悪く、頻繁に更新して情報の質を維持することも困難である。また、ニュース記事を用いることも考えられるが、時間に不変な話題（例えば、ニュース記事にならないような話題、地理の話題等）に関しては適さない。つまり、ニュース記事だけでは情報源が限定されてしまい、話題領域が偏ってしまう。

特に、ロボットがユーザと音声対話する際における応答文のＤＢとして用いる場合、多様な情報源にしなければ、ロボットによる回答の幅が狭くなってしまう。例えば、同じ回答を何度もしてしまい、ユーザが自然な会話を楽しむことができなくなる。そのため、話しが膨らまず、話題が偏るおそれがある。さらに、ロボットに応答文のＤＢを搭載する場合、ハードウェア上の制約もあることから、ＤＢの規模、つまり、データ量に限界があり良質な情報に厳選する必要性が高い。そこで、以下では、本発明の実施の形態１にかかる情報収集装置、情報収集方法及び当該方法を用いた対話システムについて説明する。

図１は、本発明の実施の形態１にかかる情報収集装置１００の構成を示す図である。情報収集装置１００は、ネットワーク上から特定の話題に関する情報を収集するものである。情報収集装置１００は、例えば、インターネット等のネットワークと接続された１台又は複数台のコンピュータにより実現できる。また、情報収集装置１００は、後述する対話ロボットに搭載されたものであってもよい。

情報収集装置１００は、受付部１１０と、第１の収集部１２０と、選択部１３０と、第２の収集部１４０と、記憶部１５０と、を備える。受付部１１０は、外部からシード文２００を受け付ける。シード文２００は、特定の話題に関する情報の一部を示す入力文章であり、テキストデータである。シード文２００は、いわば話題の種となる文章データである。例えば、シード文２００は、特定の話題に関する問合せ文章であるか、事実の一側面であってもよい。尚、シード文２００は、複数の文章であってもよい。

第１の収集部１２０は、シード文２００内の単語を含む複数の文章である第１の文章群を、Ｗｅｂ３００から収集する。ここで、Ｗｅｂ３００は、ＷＷＷ（World Wide Web）であり、インターネット上に存在する複数のＷｅｂコンテンツを総称するものである。Ｗｅｂ３００は、ネットワークの一例ということもできる。尚、本実施の形態にかかるネットワークは、Ｗｅｂ３００に限定されない。そして、第１の収集部１２０は、シード文２００内の各単語を検索ワードとしてＷｅｂ３００に対して検索を行うものであり、その検索結果の複数のＷｅｂコンテンツを後述の関連文とするものである。尚、関連文は、Ｗｅｂコンテンツつまり、ＨＴＭＬ（HyperText Markup Language）ファイル全体であるか、少なくとも該当するＨＴＭＬファイル内で検索ワードを含む文章であるものとする。

記憶部１５０は、一般文１５１と、関連文１５２と、重要語１５３と、重要度１５４と、応答文１５５とを記憶する記憶装置である。一般文１５１は、特定の話題とは異なる他の話題に関する情報を示す複数の文章である第２の文章群である。尚、一般文１５１は、記憶部１５０に予め格納されているものとする。一般文１５１は、例えば、特定期間のニュース記事であり、特定の話題に偏ることなく記載されている文章群である。但し、一般文１５１は、少なくともシード文２００とは異なる話題を含むものであればよい。例えば、特定の話題が「野球」である場合、一般文１５１の話題は、野球以外の他の話題、例えば「経済」等であるものとする。関連文１５２は、第１の収集部１２０により収集された第１の文章群が格納されたものである。

重要語１５３は、特定の話題の特性を示す単語であり、特定の話題における重要性の高い単語である。尚、重要語１５３は、特定の話題に対して複数存在していてもよい。重要度１５４は、特定の話題における重要語１５３ごとの重要性を示す指標値である。そのため、同じ単語であっても話題が異なれば、重要度１５４の値は異なる場合がある。尚、重要度１５４の算出の仕方については、図２の説明の際に詳述する。

応答文１５５は、特定の話題におけるユーザからの発話に対する応答文章である。また、応答文１５５は、重要語を含む複数の文章である第３の文章群である。ここで、応答文１５５は、音声としての出力に適した文章であり、口語文である。

選択部１３０は、記憶部１５０に格納された一般文１５１内に、関連文１５２に含まれる各単語が出現する頻度に基づいて、関連文１５２に含まれる各単語の一部を、特定の話題における重要語１５３として選択する。特に、選択部１３０は、関連文１５２に含まれる各単語のうち、関連文１５２内の単語の出現頻度が高く、かつ、一般文１５１内で出現する文章数が少ない単語を重要語として選択することが望ましい。ここで、関連文１５２は、シード文２００に基づいてＷｅｂ３００から収集された文章群であり、特定の話題において特徴的な単語が含まれるが、特定の話題において特徴的でない単語、例えば一般的な単語も含まれている。一方、一般文１５１には、一般的な単語も含まれている。そして、一般文１５１には、前記特定の話題以外の他の話題において特徴的な単語も含まれるが、シード文２００が表現する特定の話題において特徴的な単語は比較的含まれていない。そのため、関連文１５２に含まれる単語のうち、出現頻度の高い単語は、特定の話題における重要語となる可能性が高い。そして、関連文１５２に含まれる単語のうち、一般文１５１にも多く出現する単語は特定の話題における重要語となる可能性が低い。逆に言うと、関連文１５２に含まれる単語のうち、一般文１５１に出現する頻度（又は文書数）が少ない単語は、特定の話題における重要語となる可能性が高い。よって、これらを総合的に勘案して重要語１５３を選択することで、特定の話題における重要語の質を高めることができる。

また、選択部１３０は、一般文１５１内に関連文１５２に含まれる各単語が出現する頻度に基づいて、特定の話題における重要度１５４を算出し、重要度１５４が所定の閾値以上である単語を、重要語１５３として選択しても構わない。これにより、閾値の設定の仕方次第で、重要語を調整することができる。

尚、重要語の選択の仕方は、他の方法でも構わない。例えば、選択部１３０は、関連文１５２と一般文１５１との全体で各単語の重要度１５４を算出し、一般文１５１のみに出現する単語を除外した上で、重要度１５４が所定の閾値以上の単語を重要語１５３として選択することもできる。または、選択部１３０は、関連文１５２に含まれる単語について出現頻度を算出し、関連文１５２と一般文１５１とを併せた上で出現文書数の逆数を算出してもよい。

第２の収集部１４０は、重要語１５３を検索ワードとしてＷｅｂ３００上から応答文１５５を収集する。そのため、応答文１５５は、特定の話題に関する情報といえる。

図２は、本発明の実施の形態１にかかる情報収集処理の流れを示すフローチャートである。尚、図２における関連文ＤＢ１６１、一般文ＤＢ１６２、重要語ＤＢ１６３及び応答文ＤＢ１６４のそれぞれは、図１の記憶部１５０内に関連文１５２、一般文１５１、重要語１５３及び重要度１５４がそれぞれ記憶されている状態に相当する。

まず、受付部１１０は、シード文２００の入力を受け付ける（Ｓ１１）。例えば、情報収集装置１００を操作するユーザがキーボード等を介してシード文２００を入力する。または、他の情報処理装置から通信回線を介してシード文２００の入力を受け付けても構わない。シード文２００としては、例えば、「月は地球の周りを公転していることがわかっている」といったものである。尚、ステップＳ１１では、例えば、２０文程度の入力を受け付けても良い。

次に、受付部１１０は、シード文２００から検索ワードを抽出する（Ｓ１２）。例えば、受付部１１０は、シード文２００に対して形態素解析を行い、動詞と名詞を検索ワードとする。入力文章から形態素解析を行うため、通常、検索ワードは複数の単語となり得る。シード文２００が上記の例の場合、検索ワードは、「月」、「地球」、「周り」、「公転」、「こと」及び「わかる」となる。

続いて、第１の収集部１２０は、ステップＳ１２で抽出された検索ワードによりＷｅｂ３００上で検索を行う（Ｓ１３）。例えば、第１の収集部１２０は、一般的なＷｅｂ検索エンジンに対して複数の検索ワードを入力し、各検索ワードのＯＲ検索、ＡＮＤ検索、一部のＡＮＤ検索等を実行する。そして、第１の収集部１２０は、検索の実行結果のうち上位から所定数のサイトのコンテンツにあたるテキストデータを取得する。尚、所定数は任意に設定可能であるものとする。そして、第１の収集部１２０は、取得したテキストデータを関連文１５２として関連文ＤＢ１６１に格納する。

選択部１３０は、関連文ＤＢ１６１及び一般文ＤＢ１６２を参照し、関連文ＤＢ１６１に含まれる各単語について、重要度を推定する（Ｓ１４）。具体的には、まず、選択部１３０は、関連文ＤＢ１６１に格納された各文章から形態素解析等により複数の単語を抽出する。そして、選択部１３０は、抽出した複数の単語のそれぞれについて、特定の話題における重要度を算出する。その後、選択部１３０は、算出した重要度を単語（重要語）と対応付けて重要語ＤＢ１６３に格納する。

ここで、選択部１３０は、例えば、ｔｆ−ｉｄｆ（tf : Term Frequency, idf : Inverse Document Frequency）の考え方を用いて重要度を算出する。ｔｆ−ｉｄｆとは、ｔｆ（単語出現頻度）とｉｄｆ（逆文書頻度）の二つの指標に基づいて算出される指標値である。ある単語のｔｆ−ｉｄｆ値は、ある文書集合内で当該単語が出現する回数をｔｆとし、文書集合内で当該単語が出現する文書数の逆数をｉｄｆとし、ｔｆとｉｄｆの積により算出される。尚、ｔｆ−ｉｄｆは公知の技術であるため、詳細な説明は省略する。

本実施形態にかかる重要度の算出では、まず、ｔｆの母集団として少なくとも関連文ＤＢ１６１の文書集合とし、関連文ＤＢ１６１に含まれる各単語が文書集合内で出現する回数をｔｆとする。また、ｉｄｆの母集団としては少なくとも一般文ＤＢ１６２の文書集合とし、関連文ＤＢ１６１に含まれる各単語が一般文ＤＢ１６２内で出現する文書数の逆数をｉｄｆとする。または、ｉｄｆの母集団としては関連文ＤＢ１６１及び一般文ＤＢ１６２の文書集合としてもよい。尚、ｉｄｆの代わりに単に関連文ＤＢ１６１に含まれる各単語が一般文ＤＢ１６２内で出現する回数としてもよい。シード文２００が上記の例の場合、「月」、「地球」及び「公転」は、シード文２００における特定の話題以外の分野では出現し難い単語であるため、一般文ＤＢ１６２には出現する頻度が低いといえる。よって、これらの単語の重要度は高く算出される。一方、「周り」、「こと」及び「わかる」は、特定の話題に限らず一般的に用いられる単語であるため、一般文ＤＢ１６２には出現する頻度も高いといえる。よって、これらの単語の重要度は低く算出される。

続いて、選択部１３０は、重要語ＤＢ１６３を参照し、重要語を選択する（Ｓ１５）。例えば、選択部１３０は、重要語ＤＢ１６３に格納された各単語のうち重要度が所定の閾値以上の単語を重要語として選択する。尚、選択部１３０は、シード文２００に含まれる単語のうち重要度が所定の閾値以上の単語を重要語として選択してもよい。シード文２００が上記の例の場合、重要語は、「月」、「地球」及び「公転」となる。尚、所定の閾値は任意に設定可能であるものとする。

その後、第２の収集部１４０は、ステップＳ１５で選択された重要語を検索ワードとしてＷｅｂ３００上で検索を行う（Ｓ１６）。そして、第２の収集部１４０は、検索の実行結果のうち上位から所定数のサイトのコンテンツにあたるテキストデータを取得する。尚、所定数は任意に設定可能であるものとする。さらに、第２の収集部１４０は、取得したテキストデータの中から重要語を含む文章を抽出してもよい。検索結果のサイト内には特定の話題とは無関係な文章も多く含まれ得るためである。

そして、第２の収集部１４０は、抽出した文章を適宜、整形して応答文１５５として応答文ＤＢ１６４に格納する（Ｓ１７）。例えば、口語文になるように語尾等を修正する。

このように、本実施の形態により、特定の話題に関する情報の一部である少数のシード文２００を入力することで、当該話題の分野に該当する多数の文章を効率的に収集することができる。いわば、あるテーマに関する情報を集約したＤＢを構築する際に、そのテーマに関する一部の情報を入力するだけで、残りの情報について補完することができる。
補完する情報としては、例えば、特定の話題についてシード文２００に不足している内容や、内容は同等だが観点や言い回しを変えた文章、表現のバリエーションが異なる文章、さらに、特定の話題に関連する情報や展開した文章等が挙げられる。

そのため、入力したシード文２００に限定されないため、対話システムの応答文ＤＢとして用いる際に、対話の話題領域を広げることができる。また、関連文に含まれる各単語のうち、一般文には比較的含まれない単語をより重要度が高いとすることで、特定の話題に特有の単語を選択することができる。それ故、再度Ｗｅｂ検索する際の検索ワードとする重要語の精度が高まり、結果として、特定の話題として良質な文章を収集することができる。

さらに、選択部１３０が重要語を選択する際の重要度の閾値と、第２の収集部１４０がＷｅｂの検索結果から取得するサイト数（所定数）を調整することで、シード文２００における特定の話題との関連度合いや、構築するデータベースの規模を調整することができる。そのため、ＤＢを搭載するハードウェアリソース（ＣＰＵ、メモリ等）に合わせた応答文数のＤＢが可能である。

また、シード文２００は、あくまで特定の話題に関する情報の一部であるため、重要語が含まれない場合がある。しかし、本実施の形態では、シード文２００に基づいてＷｅｂ検索を行うため、検索結果には、シード文２００には含まれないが特定の話題においては特徴的な単語が含まれる可能性もある。よって、このような場合であっても、重要語を適切に選択することができ、結果として応答文の質を高めることができる。

尚、一般のサーチエンジンのＤＢは、Ｗｅｂサイト単位であり、１つのＷｅｂサイトは通常、複数の文章で構成される。一方、本実施の形態にかかる応答文ＤＢ１６４は、重要語を含む文章単位のＤＢである。そのため、応答文ＤＢ１６４は、一般のサーチエンジンにおけるＤＢとは異なるものである。

図３は、本発明の実施の形態１にかかる対話システムの一例を示す図である。本実施の形態１にかかる対話システムは、ユーザ５００と対話を行う対話ロボット４００として実現可能である。対話ロボット４００は、音声認識部４１０と、対話エンジン４２０と、音声合成部４３０と、図２により構築した応答文ＤＢ１６４と、を備える。つまり、対話ロボット４００は、情報収集装置１００により構築された応答文ＤＢ１６４を、後に搭載したものである。但し、対話ロボット４００は、少なくとも対話エンジン４２０を備えていればよく、他の構成は、外部に存在していても構わない。または、情報収集装置１００が対話ロボット４００内の記憶領域に対して応答文ＤＢ１６４を構築するようにしてもよい。

音声認識部４１０は、ユーザ５００からの発話（音声）を認識し、音声データからテキストデータに変換する。ここでは、ユーザ５００が「月は地球からどのくらい離れているの？」と発話し、音声認識部４１０によりテキストデータに変換されたものとする。そのため、当該テキストデータは、外部から入力される特定の話題に関する問合せ文章といえる。

対話エンジン４２０は、応答文ＤＢ１６４に格納された応答文を用いて問合せに対応する応答文章を生成する。例えば、対話エンジン４２０は、問合せ文章を述語項構造解析し、構造が類似した文章を応答文ＤＢ１６４から選択する。ここでは、例えば、「地球から月までは約３８万ｋｍ離れてるんだなぁ。」という応答文が選択されたものとする。尚、述語項構造解析としては、例えば、“吉野幸一郎等、「述語項の類似度に基づく情報推薦を行う音声対話システム」、情報処理学会研究報告、Vol. 2011-SLP-87, No. 11”に開示された技術を適用してもよい。尚、対話エンジン４２０は、述語項構造解析以外の技術を適用してもよい。

音声合成部４３０は、対話エンジン４２０で選択された応答文章のテキストデータを音声データに変換し、ユーザ５００へ出力する。

このように、予め対話内容に合わせた少数のシード文２００を入力しておき、情報収集装置１００により応答文ＤＢ１６４を構築しておくことで、対話システムにおいて、適切な応答を行わせることができる。さらに、ユーザ５００が発話する話題により関連性の高い応答を要求する場合には、予め図２のステップＳ１５における重要語を選択する際の重要度の閾値を高めに設定するといった調整が可能となる。

尚、本実施の形態にかかる対話システムは、対話ロボットに限定されず、他の情報端末、情報システムによっても実現可能である。

尚、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述の実施の形態では、本発明をハードウェアの構成として説明したが、本発明は、これに限定されるものではない。本発明は、任意の処理を、ＣＰＵ（Central Processing Unit）にコンピュータプログラムを実行させることにより実現することも可能である。

上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、ＤＶＤ（Digital Versatile Disc）、ＢＤ(Blu-ray(登録商標) Disc)、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１００情報収集装置
１１０受付部
１２０第１の収集部
１３０選択部
１４０第２の収集部
１５０記憶部
１５１一般文
１５２関連文
１５３重要語
１５４重要度
１５５応答文
１６１関連文ＤＢ
１６２一般文ＤＢ
１６３重要語ＤＢ
１６４応答文ＤＢ
２００シード文
３００Ｗｅｂ
４００対話ロボット
４１０音声認識部
４２０対話エンジン
４３０音声合成部
５００ユーザ

Claims

ネットワーク上から特定の話題に関する情報を収集する情報収集装置を用いた情報収集方法であって、
前記情報収集装置は、
前記特定の話題とは異なる他の話題に関する情報を示す複数の文章である第２の文章群を予め格納したデータベースを備え、
前記情報収集装置が、
前記特定の話題に関する情報の一部を示す入力文章を受け付け、
前記入力文章内の単語を含む複数の文章である第１の文章群を、前記ネットワーク上から収集し、
前記データベースに格納された第２の文章群内に前記第１の文章群に含まれる各単語が出現する頻度に基づいて、当該第１の文章群に含まれる各単語のうち一部を、前記特定の話題における重要語として選択し、
前記重要語を含む複数の文章である第３の文章群を、前記特定の話題に関する情報として前記ネットワーク上から収集する
情報収集方法。
前記重要語は、
前記第１の文章群に含まれる各単語のうち、当該第１の文章群内の単語の出現頻度が高く、かつ、前記第２の文章群内で出現する文章数が少ない単語である
請求項１に記載の情報収集方法。
前記第２の文章群内に前記第１の文章群に含まれる各単語が出現する頻度に基づいて、前記特定の話題における重要度を算出し、
前記重要度が所定の閾値以上である単語を、前記重要語として選択する
請求項１又は２に記載の情報収集方法。
前記収集された第３の文章群を前記データベースに格納し、
外部から入力される前記特定の話題に関する問合せ文章に基づいて、前記データベースに格納された前記第３の文章群を用いて当該問合せに対応する応答文章を生成して、出力する
請求項１乃至３のいずれか１項に記載の情報収集方法を用いた対話システム。
前記問合せ文章は音声により入力され、
前記応答文章は音声により出力する
請求項４に記載の対話システム。
ネットワーク上から特定の話題に関する情報を収集する情報収集装置であって、
前記特定の話題とは異なる他の話題に関する情報を示す複数の文章である第２の文章群を予め格納したデータベースと、
前記特定の話題に関する情報の一部を示す入力文章を受け付ける受付部と、
前記入力文章内の単語を含む複数の文章である第１の文章群を、前記ネットワーク上から収集する第１の収集部と、
前記データベースに格納された第２の文章群内に前記第１の文章群に含まれる各単語が出現する頻度に基づいて、当該第１の文章群に含まれる各単語の一部を、前記特定の話題における重要語として選択する選択部と、
前記重要語を含む複数の文章である第３の文章群を、前記特定の話題に関する情報として前記ネットワーク上から収集する第２の収集部と、
を備える情報収集装置。