JP6115487B2 - 情報収集方法、対話システム及び情報収集装置 - Google Patents

情報収集方法、対話システム及び情報収集装置 Download PDF

Info

Publication number
JP6115487B2
JP6115487B2 JP2014014265A JP2014014265A JP6115487B2 JP 6115487 B2 JP6115487 B2 JP 6115487B2 JP 2014014265 A JP2014014265 A JP 2014014265A JP 2014014265 A JP2014014265 A JP 2014014265A JP 6115487 B2 JP6115487 B2 JP 6115487B2
Authority
JP
Japan
Prior art keywords
sentence
information
word
sentence group
specific topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014014265A
Other languages
English (en)
Other versions
JP2015141323A (ja
Inventor
佐和 樋口
佐和 樋口
生聖 渡部
生聖 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2014014265A priority Critical patent/JP6115487B2/ja
Publication of JP2015141323A publication Critical patent/JP2015141323A/ja
Application granted granted Critical
Publication of JP6115487B2 publication Critical patent/JP6115487B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、情報収集方法、当該方法を用いた対話システム及び情報収集装置に関し、特に、ネットワーク上から特定の話題に関する情報を収集する情報収集方法、当該方法を用いた対話システム及び情報収集装置に関する。
特許文献1には、特定のジャンルに関する情報を蓄積したデータベースを参照して、入力された単語と関連性の高い情報を出力する技術が開示されている。ここで、特許文献1にかかるデータベースは、特定のジャンル(例えば、地域名)における要素のリスト(例えば、「銀座」、「新宿」等)と、当該リストに含まれる要素のいずれかと単語を含む複数の検索クエリとに基づいて、検索クエリ中の単語が出現するクエリ数(出現数)が算出され、要素ごとに単語と当該算出された出現数とが対応付けて格納されたものである。
特開2011−085993号公報
特許文献1にかかるデータベースは、多数の検索クエリのログと、要素名のリストを必要とする。そのため、これらを収集し、登録しておくことは労力がかかり、効率が悪い。また、これらの収集をインターネット上から収集することも考えられるが、一般の検索エンジン等を用いるだけでは、特定の話題とは無関係な情報が多く含まれ得るため、情報の質が低くなってしまう。よって、特定の話題に関する質の高い情報を効率的に収集することが困難であるという問題点がある。
尚、特許文献1にかかるデータベースは、ある話題(ジャンル等)についてのユーザの発話に対して、ロボットが当該話題に関する内容の応答を行う際に、参照するデータベースとして用いることができる。そのため、上記問題点は対話システムにおいても発生するといえる。
本発明は、このような問題を解決するためになされたものであり、ネットワーク上から特定の話題に関する質の高い情報を効率的に収集するための情報収集方法、当該方法を用いた対話システム及び情報収集装置を提供することを目的としている。
本発明の第1の態様にかかる情報収集方法は、
ネットワーク上から特定の話題に関する情報を収集する情報収集装置を用いた情報収集方法であって、
前記情報収集装置は、
前記特定の話題とは異なる他の話題に関する情報を示す複数の文章である第2の文章群を予め格納したデータベースを備え、
前記情報収集装置が、
前記特定の話題に関する情報の一部を示す入力文章を受け付け、
前記入力文章内の単語を含む複数の文章である第1の文章群を、前記ネットワーク上から収集し、
前記データベースに格納された第2の文章群内に前記第1の文章群に含まれる各単語が出現する頻度に基づいて、当該第1の文章群に含まれる各単語のうち一部を、前記特定の話題における重要語として選択し、
前記重要語を含む複数の文章である第3の文章群を、前記特定の話題に関する情報として前記ネットワーク上から収集する。
本発明の第2の態様にかかる情報収集装置は、
ネットワーク上から特定の話題に関する情報を収集する情報収集装置であって、
前記特定の話題とは異なる他の話題に関する情報を示す複数の文章である第2の文章群を予め格納したデータベースと、
前記特定の話題に関する情報の一部を示す入力文章を受け付ける受付部と、
前記入力文章内の単語を含む複数の文章である第1の文章群を、前記ネットワーク上から収集する第1の収集部と、
前記データベースに格納された第2の文章群内に前記第1の文章群に含まれる各単語が出現する頻度に基づいて、当該第1の文章群に含まれる各単語の一部を、前記特定の話題における重要語として選択する選択部と、
前記重要語を含む複数の文章である第3の文章群を、前記特定の話題に関する情報として前記ネットワーク上から収集する第2の収集部と、
を備える。
上述した各態様では、特定の話題に関する一部の文章を入力することで、入力文章に含まれる単語を含む情報をネットワーク上から収集し、収集した情報に含まれる単語のうち、他の話題に関する文章に含まれる頻度が少ない単語を当該特定の話題についての重要語として選択することで、特定の話題に関する質の高い情報を、ネットワーク上から効率的に収集することができる。
本発明により、ネットワーク上から特定の話題に関する質の高い情報を効率的に収集するための情報収集方法、当該方法を用いた対話システム及び情報収集装置を提供することができる。
本発明の実施の形態1にかかる情報収集装置の構成を示す図である。 本発明の実施の形態1にかかる情報収集処理の流れを示すフローチャートである。 本発明の実施の形態1にかかる対話システムの一例を示す図である。
以下では、上述した各態様を含む本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。各図面において、同一要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略する。
<発明の実施の形態1>
本発明の実施の形態1は、特定の話題に関する情報を集約した良質なデータベース(DB)を構築するために、ネットワーク上から質の高い情報を効率的に収集するための情報収集方法等に関するものである。ここで、本発明の実施の形態における「話題」とは、テーマ、トピック、ジャンル、分野等を含む概念とする。また、「特定の話題に関する情報」とは、ある話題領域における知識等であり、例えば、「地球と月」という話題について月が地球の衛星である点、月が地球の周りを公転している点、地球と月との距離等の複数の情報を意味する。
特定の話題に関する情報を集約した良質なDBを構築するためには、例えば、人手で良質な情報を選別し、都度、登録する方法も考えられる。しかし、この方法には、多大な労力を要するため効率が悪く、頻繁に更新して情報の質を維持することも困難である。また、ニュース記事を用いることも考えられるが、時間に不変な話題(例えば、ニュース記事にならないような話題、地理の話題等)に関しては適さない。つまり、ニュース記事だけでは情報源が限定されてしまい、話題領域が偏ってしまう。
特に、ロボットがユーザと音声対話する際における応答文のDBとして用いる場合、多様な情報源にしなければ、ロボットによる回答の幅が狭くなってしまう。例えば、同じ回答を何度もしてしまい、ユーザが自然な会話を楽しむことができなくなる。そのため、話しが膨らまず、話題が偏るおそれがある。さらに、ロボットに応答文のDBを搭載する場合、ハードウェア上の制約もあることから、DBの規模、つまり、データ量に限界があり良質な情報に厳選する必要性が高い。そこで、以下では、本発明の実施の形態1にかかる情報収集装置、情報収集方法及び当該方法を用いた対話システムについて説明する。
図1は、本発明の実施の形態1にかかる情報収集装置100の構成を示す図である。情報収集装置100は、ネットワーク上から特定の話題に関する情報を収集するものである。情報収集装置100は、例えば、インターネット等のネットワークと接続された1台又は複数台のコンピュータにより実現できる。また、情報収集装置100は、後述する対話ロボットに搭載されたものであってもよい。
情報収集装置100は、受付部110と、第1の収集部120と、選択部130と、第2の収集部140と、記憶部150と、を備える。受付部110は、外部からシード文200を受け付ける。シード文200は、特定の話題に関する情報の一部を示す入力文章であり、テキストデータである。シード文200は、いわば話題の種となる文章データである。例えば、シード文200は、特定の話題に関する問合せ文章であるか、事実の一側面であってもよい。尚、シード文200は、複数の文章であってもよい。
第1の収集部120は、シード文200内の単語を含む複数の文章である第1の文章群を、Web300から収集する。ここで、Web300は、WWW(World Wide Web)であり、インターネット上に存在する複数のWebコンテンツを総称するものである。Web300は、ネットワークの一例ということもできる。尚、本実施の形態にかかるネットワークは、Web300に限定されない。そして、第1の収集部120は、シード文200内の各単語を検索ワードとしてWeb300に対して検索を行うものであり、その検索結果の複数のWebコンテンツを後述の関連文とするものである。尚、関連文は、Webコンテンツつまり、HTML(HyperText Markup Language)ファイル全体であるか、少なくとも該当するHTMLファイル内で検索ワードを含む文章であるものとする。
記憶部150は、一般文151と、関連文152と、重要語153と、重要度154と、応答文155とを記憶する記憶装置である。一般文151は、特定の話題とは異なる他の話題に関する情報を示す複数の文章である第2の文章群である。尚、一般文151は、記憶部150に予め格納されているものとする。一般文151は、例えば、特定期間のニュース記事であり、特定の話題に偏ることなく記載されている文章群である。但し、一般文151は、少なくともシード文200とは異なる話題を含むものであればよい。例えば、特定の話題が「野球」である場合、一般文151の話題は、野球以外の他の話題、例えば「経済」等であるものとする。関連文152は、第1の収集部120により収集された第1の文章群が格納されたものである。
重要語153は、特定の話題の特性を示す単語であり、特定の話題における重要性の高い単語である。尚、重要語153は、特定の話題に対して複数存在していてもよい。重要度154は、特定の話題における重要語153ごとの重要性を示す指標値である。そのため、同じ単語であっても話題が異なれば、重要度154の値は異なる場合がある。尚、重要度154の算出の仕方については、図2の説明の際に詳述する。
応答文155は、特定の話題におけるユーザからの発話に対する応答文章である。また、応答文155は、重要語を含む複数の文章である第3の文章群である。ここで、応答文155は、音声としての出力に適した文章であり、口語文である。
選択部130は、記憶部150に格納された一般文151内に、関連文152に含まれる各単語が出現する頻度に基づいて、関連文152に含まれる各単語の一部を、特定の話題における重要語153として選択する。特に、選択部130は、関連文152に含まれる各単語のうち、関連文152内の単語の出現頻度が高く、かつ、一般文151内で出現する文章数が少ない単語を重要語として選択することが望ましい。ここで、関連文152は、シード文200に基づいてWeb300から収集された文章群であり、特定の話題において特徴的な単語が含まれるが、特定の話題において特徴的でない単語、例えば一般的な単語も含まれている。一方、一般文151には、一般的な単語も含まれている。そして、一般文151には、前記特定の話題以外の他の話題において特徴的な単語も含まれるが、シード文200が表現する特定の話題において特徴的な単語は比較的含まれていない。そのため、関連文152に含まれる単語のうち、出現頻度の高い単語は、特定の話題における重要語となる可能性が高い。そして、関連文152に含まれる単語のうち、一般文151にも多く出現する単語は特定の話題における重要語となる可能性が低い。逆に言うと、関連文152に含まれる単語のうち、一般文151に出現する頻度(又は文書数)が少ない単語は、特定の話題における重要語となる可能性が高い。よって、これらを総合的に勘案して重要語153を選択することで、特定の話題における重要語の質を高めることができる。
また、選択部130は、一般文151内に関連文152に含まれる各単語が出現する頻度に基づいて、特定の話題における重要度154を算出し、重要度154が所定の閾値以上である単語を、重要語153として選択しても構わない。これにより、閾値の設定の仕方次第で、重要語を調整することができる。
尚、重要語の選択の仕方は、他の方法でも構わない。例えば、選択部130は、関連文152と一般文151との全体で各単語の重要度154を算出し、一般文151のみに出現する単語を除外した上で、重要度154が所定の閾値以上の単語を重要語153として選択することもできる。または、選択部130は、関連文152に含まれる単語について出現頻度を算出し、関連文152と一般文151とを併せた上で出現文書数の逆数を算出してもよい。
第2の収集部140は、重要語153を検索ワードとしてWeb300上から応答文155を収集する。そのため、応答文155は、特定の話題に関する情報といえる。
図2は、本発明の実施の形態1にかかる情報収集処理の流れを示すフローチャートである。尚、図2における関連文DB161、一般文DB162、重要語DB163及び応答文DB164のそれぞれは、図1の記憶部150内に関連文152、一般文151、重要語153及び重要度154がそれぞれ記憶されている状態に相当する。
まず、受付部110は、シード文200の入力を受け付ける(S11)。例えば、情報収集装置100を操作するユーザがキーボード等を介してシード文200を入力する。または、他の情報処理装置から通信回線を介してシード文200の入力を受け付けても構わない。シード文200としては、例えば、「月は地球の周りを公転していることがわかっている」といったものである。尚、ステップS11では、例えば、20文程度の入力を受け付けても良い。
次に、受付部110は、シード文200から検索ワードを抽出する(S12)。例えば、受付部110は、シード文200に対して形態素解析を行い、動詞と名詞を検索ワードとする。入力文章から形態素解析を行うため、通常、検索ワードは複数の単語となり得る。シード文200が上記の例の場合、検索ワードは、「月」、「地球」、「周り」、「公転」、「こと」及び「わかる」となる。
続いて、第1の収集部120は、ステップS12で抽出された検索ワードによりWeb300上で検索を行う(S13)。例えば、第1の収集部120は、一般的なWeb検索エンジンに対して複数の検索ワードを入力し、各検索ワードのOR検索、AND検索、一部のAND検索等を実行する。そして、第1の収集部120は、検索の実行結果のうち上位から所定数のサイトのコンテンツにあたるテキストデータを取得する。尚、所定数は任意に設定可能であるものとする。そして、第1の収集部120は、取得したテキストデータを関連文152として関連文DB161に格納する。
選択部130は、関連文DB161及び一般文DB162を参照し、関連文DB161に含まれる各単語について、重要度を推定する(S14)。具体的には、まず、選択部130は、関連文DB161に格納された各文章から形態素解析等により複数の単語を抽出する。そして、選択部130は、抽出した複数の単語のそれぞれについて、特定の話題における重要度を算出する。その後、選択部130は、算出した重要度を単語(重要語)と対応付けて重要語DB163に格納する。
ここで、選択部130は、例えば、tf−idf(tf : Term Frequency, idf : Inverse Document Frequency)の考え方を用いて重要度を算出する。tf−idfとは、tf(単語出現頻度)とidf(逆文書頻度)の二つの指標に基づいて算出される指標値である。ある単語のtf−idf値は、ある文書集合内で当該単語が出現する回数をtfとし、文書集合内で当該単語が出現する文書数の逆数をidfとし、tfとidfの積により算出される。尚、tf−idfは公知の技術であるため、詳細な説明は省略する。
本実施形態にかかる重要度の算出では、まず、tfの母集団として少なくとも関連文DB161の文書集合とし、関連文DB161に含まれる各単語が文書集合内で出現する回数をtfとする。また、idfの母集団としては少なくとも一般文DB162の文書集合とし、関連文DB161に含まれる各単語が一般文DB162内で出現する文書数の逆数をidfとする。または、idfの母集団としては関連文DB161及び一般文DB162の文書集合としてもよい。尚、idfの代わりに単に関連文DB161に含まれる各単語が一般文DB162内で出現する回数としてもよい。シード文200が上記の例の場合、「月」、「地球」及び「公転」は、シード文200における特定の話題以外の分野では出現し難い単語であるため、一般文DB162には出現する頻度が低いといえる。よって、これらの単語の重要度は高く算出される。一方、「周り」、「こと」及び「わかる」は、特定の話題に限らず一般的に用いられる単語であるため、一般文DB162には出現する頻度も高いといえる。よって、これらの単語の重要度は低く算出される。
続いて、選択部130は、重要語DB163を参照し、重要語を選択する(S15)。例えば、選択部130は、重要語DB163に格納された各単語のうち重要度が所定の閾値以上の単語を重要語として選択する。尚、選択部130は、シード文200に含まれる単語のうち重要度が所定の閾値以上の単語を重要語として選択してもよい。シード文200が上記の例の場合、重要語は、「月」、「地球」及び「公転」となる。尚、所定の閾値は任意に設定可能であるものとする。
その後、第2の収集部140は、ステップS15で選択された重要語を検索ワードとしてWeb300上で検索を行う(S16)。そして、第2の収集部140は、検索の実行結果のうち上位から所定数のサイトのコンテンツにあたるテキストデータを取得する。尚、所定数は任意に設定可能であるものとする。さらに、第2の収集部140は、取得したテキストデータの中から重要語を含む文章を抽出してもよい。検索結果のサイト内には特定の話題とは無関係な文章も多く含まれ得るためである。
そして、第2の収集部140は、抽出した文章を適宜、整形して応答文155として応答文DB164に格納する(S17)。例えば、口語文になるように語尾等を修正する。
このように、本実施の形態により、特定の話題に関する情報の一部である少数のシード文200を入力することで、当該話題の分野に該当する多数の文章を効率的に収集することができる。いわば、あるテーマに関する情報を集約したDBを構築する際に、そのテーマに関する一部の情報を入力するだけで、残りの情報について補完することができる。
補完する情報としては、例えば、特定の話題についてシード文200に不足している内容や、内容は同等だが観点や言い回しを変えた文章、表現のバリエーションが異なる文章、さらに、特定の話題に関連する情報や展開した文章等が挙げられる。
そのため、入力したシード文200に限定されないため、対話システムの応答文DBとして用いる際に、対話の話題領域を広げることができる。また、関連文に含まれる各単語のうち、一般文には比較的含まれない単語をより重要度が高いとすることで、特定の話題に特有の単語を選択することができる。それ故、再度Web検索する際の検索ワードとする重要語の精度が高まり、結果として、特定の話題として良質な文章を収集することができる。
さらに、選択部130が重要語を選択する際の重要度の閾値と、第2の収集部140がWebの検索結果から取得するサイト数(所定数)を調整することで、シード文200における特定の話題との関連度合いや、構築するデータベースの規模を調整することができる。そのため、DBを搭載するハードウェアリソース(CPU、メモリ等)に合わせた応答文数のDBが可能である。
また、シード文200は、あくまで特定の話題に関する情報の一部であるため、重要語が含まれない場合がある。しかし、本実施の形態では、シード文200に基づいてWeb検索を行うため、検索結果には、シード文200には含まれないが特定の話題においては特徴的な単語が含まれる可能性もある。よって、このような場合であっても、重要語を適切に選択することができ、結果として応答文の質を高めることができる。
尚、一般のサーチエンジンのDBは、Webサイト単位であり、1つのWebサイトは通常、複数の文章で構成される。一方、本実施の形態にかかる応答文DB164は、重要語を含む文章単位のDBである。そのため、応答文DB164は、一般のサーチエンジンにおけるDBとは異なるものである。
図3は、本発明の実施の形態1にかかる対話システムの一例を示す図である。本実施の形態1にかかる対話システムは、ユーザ500と対話を行う対話ロボット400として実現可能である。対話ロボット400は、音声認識部410と、対話エンジン420と、音声合成部430と、図2により構築した応答文DB164と、を備える。つまり、対話ロボット400は、情報収集装置100により構築された応答文DB164を、後に搭載したものである。但し、対話ロボット400は、少なくとも対話エンジン420を備えていればよく、他の構成は、外部に存在していても構わない。または、情報収集装置100が対話ロボット400内の記憶領域に対して応答文DB164を構築するようにしてもよい。
音声認識部410は、ユーザ500からの発話(音声)を認識し、音声データからテキストデータに変換する。ここでは、ユーザ500が「月は地球からどのくらい離れているの?」と発話し、音声認識部410によりテキストデータに変換されたものとする。そのため、当該テキストデータは、外部から入力される特定の話題に関する問合せ文章といえる。
対話エンジン420は、応答文DB164に格納された応答文を用いて問合せに対応する応答文章を生成する。例えば、対話エンジン420は、問合せ文章を述語項構造解析し、構造が類似した文章を応答文DB164から選択する。ここでは、例えば、「地球から月までは約38万km離れてるんだなぁ。」という応答文が選択されたものとする。尚、述語項構造解析としては、例えば、“吉野幸一郎等、「述語項の類似度に基づく情報推薦を行う音声対話システム」、情報処理学会研究報告、Vol. 2011-SLP-87, No. 11”に開示された技術を適用してもよい。尚、対話エンジン420は、述語項構造解析以外の技術を適用してもよい。
音声合成部430は、対話エンジン420で選択された応答文章のテキストデータを音声データに変換し、ユーザ500へ出力する。
このように、予め対話内容に合わせた少数のシード文200を入力しておき、情報収集装置100により応答文DB164を構築しておくことで、対話システムにおいて、適切な応答を行わせることができる。さらに、ユーザ500が発話する話題により関連性の高い応答を要求する場合には、予め図2のステップS15における重要語を選択する際の重要度の閾値を高めに設定するといった調整が可能となる。
尚、本実施の形態にかかる対話システムは、対話ロボットに限定されず、他の情報端末、情報システムによっても実現可能である。
尚、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述の実施の形態では、本発明をハードウェアの構成として説明したが、本発明は、これに限定されるものではない。本発明は、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、DVD(Digital Versatile Disc)、BD(Blu-ray(登録商標) Disc)、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
100 情報収集装置
110 受付部
120 第1の収集部
130 選択部
140 第2の収集部
150 記憶部
151 一般文
152 関連文
153 重要語
154 重要度
155 応答文
161 関連文DB
162 一般文DB
163 重要語DB
164 応答文DB
200 シード文
300 Web
400 対話ロボット
410 音声認識部
420 対話エンジン
430 音声合成部
500 ユーザ

Claims (6)

  1. ネットワーク上から特定の話題に関する情報を収集する情報収集装置を用いた情報収集方法であって、
    前記情報収集装置は、
    前記特定の話題とは異なる他の話題に関する情報を示す複数の文章である第2の文章群を予め格納したデータベースを備え、
    前記情報収集装置が、
    前記特定の話題に関する情報の一部を示す入力文章を受け付け、
    前記入力文章内の単語を含む複数の文章である第1の文章群を、前記ネットワーク上から収集し、
    前記データベースに格納された第2の文章群内に前記第1の文章群に含まれる各単語が出現する頻度に基づいて、当該第1の文章群に含まれる各単語のうち一部を、前記特定の話題における重要語として選択し、
    前記重要語を含む複数の文章である第3の文章群を、前記特定の話題に関する情報として前記ネットワーク上から収集する
    情報収集方法。
  2. 前記重要語は、
    前記第1の文章群に含まれる各単語のうち、当該第1の文章群内の単語の出現頻度が高く、かつ、前記第2の文章群内で出現する文章数が少ない単語である
    請求項1に記載の情報収集方法。
  3. 前記第2の文章群内に前記第1の文章群に含まれる各単語が出現する頻度に基づいて、前記特定の話題における重要度を算出し、
    前記重要度が所定の閾値以上である単語を、前記重要語として選択する
    請求項1又は2に記載の情報収集方法。
  4. 前記収集された第3の文章群を前記データベースに格納し、
    外部から入力される前記特定の話題に関する問合せ文章に基づいて、前記データベースに格納された前記第3の文章群を用いて当該問合せに対応する応答文章を生成して、出力する
    請求項1乃至3のいずれか1項に記載の情報収集方法を用いた対話システム。
  5. 前記問合せ文章は音声により入力され、
    前記応答文章は音声により出力する
    請求項4に記載の対話システム。
  6. ネットワーク上から特定の話題に関する情報を収集する情報収集装置であって、
    前記特定の話題とは異なる他の話題に関する情報を示す複数の文章である第2の文章群を予め格納したデータベースと、
    前記特定の話題に関する情報の一部を示す入力文章を受け付ける受付部と、
    前記入力文章内の単語を含む複数の文章である第1の文章群を、前記ネットワーク上から収集する第1の収集部と、
    前記データベースに格納された第2の文章群内に前記第1の文章群に含まれる各単語が出現する頻度に基づいて、当該第1の文章群に含まれる各単語の一部を、前記特定の話題における重要語として選択する選択部と、
    前記重要語を含む複数の文章である第3の文章群を、前記特定の話題に関する情報として前記ネットワーク上から収集する第2の収集部と、
    を備える情報収集装置。
JP2014014265A 2014-01-29 2014-01-29 情報収集方法、対話システム及び情報収集装置 Active JP6115487B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014014265A JP6115487B2 (ja) 2014-01-29 2014-01-29 情報収集方法、対話システム及び情報収集装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014014265A JP6115487B2 (ja) 2014-01-29 2014-01-29 情報収集方法、対話システム及び情報収集装置

Publications (2)

Publication Number Publication Date
JP2015141323A JP2015141323A (ja) 2015-08-03
JP6115487B2 true JP6115487B2 (ja) 2017-04-19

Family

ID=53771708

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014014265A Active JP6115487B2 (ja) 2014-01-29 2014-01-29 情報収集方法、対話システム及び情報収集装置

Country Status (1)

Country Link
JP (1) JP6115487B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6294279B2 (ja) * 2015-10-09 2018-03-14 Necパーソナルコンピュータ株式会社 コンテンツ推薦装置、コンテンツ推薦システム、コンテンツ推薦方法、及び、プログラム
JP6993575B2 (ja) * 2018-02-23 2022-01-13 富士通株式会社 情報処理プログラム、情報処理装置及び情報処理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4466334B2 (ja) * 2004-11-08 2010-05-26 日本電信電話株式会社 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP5046170B2 (ja) * 2010-05-13 2012-10-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索システム、検索方法、報告システム、報告方法、及びプログラム
JP5073024B2 (ja) * 2010-08-10 2012-11-14 株式会社東芝 音声対話装置
JP2013069246A (ja) * 2011-09-26 2013-04-18 Kddi Corp 話題語抽出装置、話題語抽出方法、およびプログラム

Also Published As

Publication number Publication date
JP2015141323A (ja) 2015-08-03

Similar Documents

Publication Publication Date Title
US9646606B2 (en) Speech recognition using domain knowledge
JP3923513B2 (ja) 音声認識装置および音声認識方法
KR101255405B1 (ko) 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체
EP2727103B1 (en) Speech recognition using variable-length context
Alberti et al. An audio indexing system for election video material
US8731930B2 (en) Contextual voice query dilation to improve spoken web searching
KR20080069990A (ko) 음성 세그먼트 색인 및 검색 방법과 컴퓨터 실행 가능명령어를 갖는 컴퓨터 판독 가능 매체
US9922650B1 (en) Intent-specific automatic speech recognition result generation
US11693900B2 (en) Method and system for providing resegmented audio content
WO2017161749A1 (zh) 一种信息匹配方法及装置
US20150371627A1 (en) Voice dialog system using humorous speech and method thereof
Eskevich et al. SAVA at MediaEval 2015: Search and anchoring in video archives
CN108345679B (zh) 一种音视频检索方法、装置、设备及可读存储介质
JP6363478B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP6115487B2 (ja) 情報収集方法、対話システム及び情報収集装置
JP6322125B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP6126965B2 (ja) 発話生成装置、方法、及びプログラム
JP2011248107A (ja) 音声認識結果検索方法とその装置とプログラム
Sen et al. Audio indexing
Tetariy et al. An efficient lattice-based phonetic search method for accelerating keyword spotting in large speech databases
WO2018190128A1 (ja) 情報処理装置および情報処理方法
JP2006209173A (ja) 係り受け構造解析装置及びコンピュータプログラム
JP5860439B2 (ja) 言語モデル作成装置とその方法、そのプログラムと記録媒体
JP2009271785A (ja) 情報提供方法及び装置及びコンピュータ読み取り可能な記録媒体
Pan et al. Type-II dialogue systems for information access from unstructured knowledge sources

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170306

R151 Written notification of patent or utility model registration

Ref document number: 6115487

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151