JP4150208B2 - 関連用語提示装置及び関連用語提示プログラム - Google Patents

関連用語提示装置及び関連用語提示プログラム Download PDF

Info

Publication number
JP4150208B2
JP4150208B2 JP2002130268A JP2002130268A JP4150208B2 JP 4150208 B2 JP4150208 B2 JP 4150208B2 JP 2002130268 A JP2002130268 A JP 2002130268A JP 2002130268 A JP2002130268 A JP 2002130268A JP 4150208 B2 JP4150208 B2 JP 4150208B2
Authority
JP
Japan
Prior art keywords
data
term
conversation
topic
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002130268A
Other languages
English (en)
Other versions
JP2003323445A (ja
Inventor
一郎 山田
英樹 住吉
香子 有安
正啓 柴田
伸行 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2002130268A priority Critical patent/JP4150208B2/ja
Publication of JP2003323445A publication Critical patent/JP2003323445A/ja
Application granted granted Critical
Publication of JP4150208B2 publication Critical patent/JP4150208B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、自然言語のテキストデータから情報を抽出する情報抽出技術及び自然言語処理技術に関し、より詳細には、自然言語のテキストデータからそのテキストデータの内容に関連する用語を提示する関連用語提示装置及び関連用語提示プログラムに関する。
【0002】
【従来の技術】
従来、入力された文字列からその文字列に関連する情報を提示する手法としては、予め文字列内の単語に類似した類似単語を類似辞書に登録しておき、文字列が入力されたときに、その文字列内の個々の単語に類似する類似単語を類似辞書から検索して提示していた。この手法は、例えば、情報検索システム等において、入力された単語から情報を検索する際の前処理として行われるものであり、入力された文字列内の単語だけではなく、その単語に類似する類似単語を検索対象とすることで、情報検索の検索幅を広げることを目的としている。
【0003】
【発明が解決しようとする課題】
しかし、前記従来の技術では、入力された文字列からその文字列に関連する情報を提示する場合、文字列内の全ての単語を対象として、その単語毎に類似する類似単語を関連情報として提示していた。そのため、例えば、入力された文字列が、人が話す会話データの場合、会話が対象としている話題とは関連性の薄い単語まで、その単語の類似単語を提示してしまい、会話が対象としている話題に関連する関連情報を提示することは困難であった。
【0004】
また、従来は、関連情報を提示する提示タイミングが考慮されていなかったため、例えば、人の会話の内容によってその会話内容の関連情報を提示させるアプリケーション(又は提示装置)で、人が会話を中断し考察しているタイミングで関連情報を提示させたい場合、その中断のタイミングを人がアプリケーション(又は提示装置)に対して通知しなければならないという煩わしさがあった。また、人が会話中であって関連情報を必要としない場合でも、関連情報を提示してしまうという無駄があった。
【0005】
本発明は、以上のような問題点に鑑みてなされたものであり、入力された文字列や会話内容から話題を特定し、その話題に関連が深い用語を、文字列や会話内容の入力が中断したタイミングで提示することができる関連用語提示装置及び関連用語提示プログラムを提供することを目的とする。
【0006】
【課題を解決するための手段】
本発明は、前記目的を達成するために創案されたものであり、まず、請求項1に記載の関連用語提示装置は、特定の話題毎に分類された原稿データに基づいて、入力された会話データから、会話内容に関連する用語データを提示する関連用語提示装置であって、会話データに含まれる会話単語を抽出する単語抽出手段と、この単語抽出手段で抽出した会話単語が原稿データに出現する出現頻度に基づいて、原稿データにおける会話単語毎の重要度を算出し、当該重要度の和が最も高い原稿データに対応する話題を、会話内容における話題として推定する話題推定手段と、この話題推定手段で推定した話題に対応する原稿データから、名詞又は名詞句となる文字列を用語データとして抽出するとともに、当該用語データに係る連体修飾節をその用語データを定義する定義データとして抽出する用語抽出手段と、この用語抽出手段で抽出した定義データにおける会話単語の重要度の和を、会話内容に関連する用語データへの関連度として算出する関連度算出手段と、この関連度算出手段で算出した関連度の高さに基づいて、用語抽出手段で抽出した用語データから、会話内容に関連する用語データを出力する用語出力手段と、を備える構成とした。
【0007】
かかる構成によれば、関連用語提示装置は、単語抽出手段によって、形態素解析を行うことで会話データに含まれる会話単語を抽出し、話題推定手段によって、会話単語が、予め話題毎に分類された原稿データに出現する出現頻度に基づいて、原稿データにおける会話単語毎の重要度を算出し、当該重要度の和が最も高い原稿データに対応する話題を会話内容の話題として推定する。そして、関連用語提示装置は、用語抽出手段によって、話題に対応する原稿データから、名詞又は名詞句となる文字列を用語データ(用語)として抽出するとともに、当該用語データに係る連体修飾節をその用語データを定義する定義データ(定義文)として抽出する。そして、関連用語提示装置は、関連度算出手段によって、用語抽出手段で抽出した定義データにおける会話単語の重要度の和を、会話内容に関連する用語データへの関連度として算出し、用語出力手段によって、その関連度の高い定義文を有する用語を、会話データに関連する関連用語として出力する。
【0008】
なお、この会話データは自然言語のテキストデータ(会話テキストデータ)である。さらに音声認識手段を備えることで、音声データ(会話音声データ)をテキストデータに変換し、そのテキストデータに基づいて、関連用語を提示することとしてもよい。また、関連用語を出力する際に、その関連用語を定義する定義文を出力することとしてもよい。
【0009】
また、請求項2に記載の関連用語提示装置は、請求項1に記載の関連用語提示装置において、さらに、会話データの入力を監視する入力監視手段を備え、会話データの入力が停止してから一定時間経過後に、会話データに関連する用語データを出力させることを特徴とする。
【0010】
かかる構成によれば、関連用語提示装置は、入力監視手段によって、会話データの入力が監視され、その会話データの入力が一定時間停止した後に、用語(用語データ)を出力させる。これによって、例えば、一連の会話データの入力中に頻繁に用語データを提示することを避けることができる。
なお、この一定時間は、予め設定された時間であってもよいし、外部の入力手段で設定することとしてもよい。
【0011】
さらに、請求項3に記載の関連用語提示装置は、請求項1又は請求項2に記載の関連用語提示装置において、原稿データは、電子化されたニュース原稿であることを特徴とする。
【0012】
かかる構成によれば、関連用語提示装置は、ニュース原稿の記事をテキスト原稿として使用することで、最新の話題を随時更新したニュース原稿から用語を提示することができる。これにより、例えば、最新の技術動向や、時事問題等の内容を含んだ会話データであっても、適切に用語を推定することが可能になる。なお、このニュース原稿は放送局等で放送されるニュース原稿を電子化して蓄積しているテキストデータである。
【0013】
また、請求項4に記載の関連用語提示装置は、電子化されたニュース原稿に基づいて、入力された会話データから、会話内容に関連する用語データを提示する関連用語提示装置であって、以下の構成にかかるものとした。
【0014】
すなわち、ニュース原稿から、単語の出現頻度に基づいて、ニュース原稿の内容を特定する話題を抽出し、当該ニュース原稿と対応付ける話題抽出手段と、会話データに含まれる会話単語を抽出する単語抽出手段と、この単語抽出手段で抽出した会話単語がニュース原稿に出現する出現頻度に基づいて、ニュース原稿における会話単語毎の重要度を算出し、当該重要度の和が最も高いニュース原稿に対応する話題を、会話内容における話題として推定する話題推定手段と、この話題推定手段で推定した話題に対応するニュース原稿から、名詞又は名詞句となる文字列を用語データとして抽出するとともに、当該用語データに係る連体修飾節をその用語データを定義する定義データとして抽出する用語抽出手段と、この用語抽出手段で抽出した定義データにおける会話単語の重要度の和を、会話内容に関連する用語データへの関連度として算出する関連度算出手段と、この関連度算出手段で算出した関連度の高さに基づいて、用語抽出手段で抽出した用語データから、会話内容に関連する用語データを出力する用語出力手段と、を備える構成とした。
【0015】
かかる構成によれば、関連用語提示装置は、話題抽出手段によって、ニュース原稿を形態素解析することで抽出した単語の出現頻度に基づいて、ニュース原稿の内容を特定する話題を抽出し、当該ニュース原稿と対応付ける。
【0016】
そして、関連用語提示装置は、話題推定手段によって、会話単語がニュース原稿に出現する出現頻度に基づいて、ニュース原稿における会話単語毎の重要度を算出し、当該重要度の和が最も高いニュース原稿に対応する話題を、会話内容の話題として推定する。そして、関連用語提示装置は、用語抽出手段によって、話題推定手段で推定した話題に対応するニュース原稿から、名詞又は名詞句となる文字列を用語データとして抽出するとともに、当該用語データに係る連体修飾節をその用語データを定義する定義データとして抽出する。そして、関連用語提示装置は、用語出力手段によって、その関連度の高い定義文を有する用語を、会話データに関連する関連用語として出力する。
【0021】
さらに、請求項に記載の関連用語提示プログラムは、特定の話題毎に分類された原稿データに基づいて、入力された会話データから、会話内容に関連する用語データを提示するために、コンピュータを、以下の手段によって機能させる構成とした。
【0022】
すなわち、会話データに含まれる会話単語を抽出する単語抽出手段、この単語抽出手段で抽出した会話単語が原稿データに出現する出現頻度に基づいて、原稿データにおける会話単語毎の重要度を算出し、当該重要度の和が最も高い原稿データに対応する話題を、会話内容における話題として推定する話題推定手段、この話題推定手段で推定した話題に対応する原稿データから、名詞又は名詞句となる文字列を用語データとして抽出するとともに、当該用語データに係る連体修飾節をその用語データを定義する定義データとして抽出する用語抽出手段、この用語抽出手段で抽出した定義データにおける会話単語の重要度の和を、会話内容に関連する用語データへの関連度として算出する関連度算出手段、この関連度算出手段で算出した関連度の高さに基づいて、用語抽出手段で抽出した用語データから、会話内容に関連する用語データを出力する用語出力手段、とした。
【0023】
かかる構成によれば、関連用語提示プログラムは、単語抽出手段によって、形態素解析を行うことで会話データに含まれる会話単語を抽出し、話題推定手段によって、会話単語が、予め話題毎に分類された原稿データに出現する出現頻度に基づいて、原稿データにおける会話単語毎の重要度を算出し、当該重要度の和が最も高い原稿データに対応する話題を会話内容の話題として推定する。そして、関連用語提示プログラムは、用語抽出手段によって、話題に対応する原稿データから、名詞又は名詞句となる文字列を用語データ(用語)として抽出するとともに、当該用語データに係る連体修飾節をその用語データを定義する定義データ(定義文)として抽出する。そして、関連用語提示プログラムは、関連度算出手段によって、用語抽出手段で抽出した定義データにおける会話単語の重要度の和を、会話内容に関連する用語データへの関連度として算出し、用語出力手段によって、その関連度の高い定義文を有する用語を、会話データに関連する関連用語として出力する。また、関連用語を出力する際に、その関連用語を定義する定義文を出力することとしてもよい。
【0024】
さらにまた、請求項に記載の関連用語提示プログラムは、請求項に記載の関連用語提示プログラムにおいて、コンピュータを、会話データの入力を監視し、会話データの入力が停止してから一定時間経過後に、会話データに関連する用語データを出力させる入力監視手段、としてさらに機能させることを特徴とする。
【0025】
かかる構成によれば、関連用語提示プログラムは、入力監視手段によって、会話データの入力が監視され、その会話データの入力が一定時間停止した後に、用語(用語データ)を出力させる。
【0026】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。
(関連用語提示装置の構成)
図1は、本発明における関連用語提示装置の構成を示したブロック図である。図1に示すように関連用語提示装置1は、過去のニュース番組等で使用されたニュース原稿に基づいて、会話データ(会話音声データ又は会話テキストデータ)の会話内容に関連する用語を推定し、その用語を関連用語として出力するものである。
【0027】
この関連用語提示装置1は、話題抽出手段10と、話題蓄積手段11と、用語抽出手段12と、用語蓄積手段13と、音声認識手段20と、入力監視手段21と、単語抽出手段22と、話題推定手段23と、関連度算出手段24と、用語出力手段25と、を備える構成とした。また、ニュース原稿は、外部のニュース原稿蓄積手段2からテキストデータとして入力されるものとする。
【0028】
話題抽出手段10は、ニュース原稿蓄積手段2に蓄積されている電子化された過去のニュース原稿から話題を抽出し、その話題とその話題に関連するニュース原稿とを対応付けて話題蓄積手段11に蓄積するものである。この話題抽出手段10は、本願出願人において「トピック抽出装置(特開2000−259666)」として開示されている技術を用いて実現することができる。
【0029】
この話題抽出手段10によって抽出された話題と、その話題に関するニュース記事を抽出した例を図5に示す。図5では、「米などがアフガニスタンを攻撃」という話題Tと、その話題に関する2001年10月のニュース記事Nを抽出した例を示している。なお、この話題抽出手段10は、ニュース原稿蓄積手段2に蓄積されている過去のニュース原稿を逐次入力することで、最新の話題及びその話題に関するニュース原稿を話題蓄積手段11に蓄積する。
【0030】
話題蓄積手段11は、話題抽出手段10によって抽出された話題とその話題に関連するニュース原稿とを、話題番号(話題に固有の番号)で対応付けて蓄積するものであり、ハードディスク等で構成されているものである。この話題蓄積手段11は、図5で示した話題Tとその話題Tに関連するニュース記事Nとをテキストデータとして蓄積するものである。
【0031】
用語抽出手段12は、話題推定手段23から通知される話題番号に該当する話題蓄積手段11に蓄積されているニュース原稿から、名詞又は名詞句となる文字列を用語(用語データ)として抽出し、その用語に係る連体修飾節を、前記用語定義する定義文(定義データ)として抽出するものである
【0032】
この用語抽出手段12によって抽出された用語と、その用語を定義する定義文の例を図7に示す。図7は、図5のニュース記事Nから名詞又は名詞句を抽出した用語Cと、その用語Cに係る連体修飾節から抽出・生成した定義文Dの例を示しており、例えば、「AF」という用語Cは、「大使館の車両など外交官ナンバーの車のプレートに付けられた「日本」を表す表記」という定義文Dに対応付けられている。
【0033】
用語蓄積手段13は、用語抽出手段12によって抽出された用語と定義文とを対応付けて蓄積するものであり、ハードディスク等で構成されているものである。この用語蓄積手段13は、図7で示した用語Cとその用語Cを定義する定義文Dとをテキストデータとして蓄積するものである。
【0034】
音声認識手段20は、マイク等の音声入力装置(図示せず)から入力される会話音声データを、音声認識によって、テキストデータである会話テキストデータに変換するものである。この音声認識結果である会話テキストデータは、単語抽出手段22へ出力される。なお、この音声認識手段20の音声認識は、公知の一般的な音声認識技術を用いて実現することができる。
【0035】
入力監視手段21は、会話テキストデータの入力を監視して、用語出力手段25が関連用語を出力する出力タイミングを通知するものである。この入力監視手段21は、一定時間(例えば30秒)会話テキストデータの入力がない(入力停止)場合に、用語出力手段25に関連用語の出力指示を通知する。これによって、関連用語提示装置1は、会話データ(会話音声データ又は会話テキストデータ)の入力者が、会話を停止して一定時間経過した段階で、会話データ入力者が思考状態に入ったと判断して、その思考を支援するために会話データに関連する用語を提示することができる。この一定時間は、予め設定された時間であってもよいし、外部の入力手段(図示せず)で設定することとしてもよい。
【0036】
なお、ここでは、入力監視手段21が会話テキストデータの入力を監視するものとしたが、音声認識手段20の前段に配置して、音声信号を監視する形態であってもよい。あるいは、会話テキストデータがネットワークを介して入力される場合、入力監視手段21はネットワークの通信ポートを監視する形態であっても構わない。例えば、インターネットやパソコン通信で、複数の人が書き込みによってリアルタイムで会話を行うチャットに関連用語提示装置1を適用する場合、そのチャットの発話の監視は、TCP/IPプロトコルのsocket等の通信ログを解析することで行う。また、ワードプロセッサのようなキー入力によるアプリケーションの場合は、随時入力データをハードディスク等の蓄積手段(図示せず)に蓄積し、その蓄積されたデータの差分を監視することで入力の停止を検出する。
【0037】
単語抽出手段22は、入力された会話テキストデータから、形態素解析により単語(会話単語:名詞)を抽出するものである。この単語抽出手段22で抽出した会話単語は、話題推定手段23及び関連度算出手段24へ出力される。
【0038】
話題推定手段23は、単語抽出手段22から入力される会話テキストデータの単語(会話単語:名詞)から、会話テキストデータの会話内容における話題を推定するものである。ここで推定された話題(各話題に固有に付された番号:話題番号)は、用語抽出手段12へ通知される。
【0039】
なお、話題推定手段23は、話題蓄積手段11に蓄積されているニュース原稿に出現する単語(ニュース単語)の出現頻度に基づいて、そのニュース単語がそのニュース原稿を示す話題に占める重要度を算出し、会話テキストデータの会話単語がどの話題に最も出現するかを判定して話題を推定する。
ここでは、ある話題のニュース原稿の中に含まれる単語の重要度を(1)式で定義する。
【0040】
【数1】
Figure 0004150208
【0041】
(1)式において、tf(w):単語wが話題中(話題を構成するニュース記事中)に出現した回数、DF(w):1ヶ月のニュース記事中で単語wが出現したニュース記事数、N(month):1ヶ月のニュース記事数、N(topic):対象としている話題を構成するニュース記事数を表わしている。
この(1)式によって算出される重要度weight(w)により、各話題は、話題に出現した単語によって同一のベクトル空間上に特徴付けられる。
【0042】
ここで、図5及び図6を参照して、入力された会話テキストデータの単語(会話単語:名詞)から話題を推定する方法について説明する。図6は、ある話題Tにおけるニュース原稿に出現する単語の重要度を示した例である。
【0043】
例えば、図5で示した「米などがアフガニスタンを攻撃」という話題Tは、その話題Tに関連するニュース記事Nの単語から、(1)式に基づいて、図6に示すようなベクトルの要素(話題T中の出現単語W)と、その値(重要度E)を持つこととなり、「アフガニスタン」という出現単語には「1.44」という重要度が与えられ、「軍事」という出現単語には「0.99」という重要度が与えられる。
【0044】
このように、話題T中の出現単語Wに重要度Eが与えられることで、入力された会話テキストデータの単語(会話単語:名詞)が、各話題中でどれだけの重要度を持つかを算出することができる。例えば、会話テキストデータに会話単語として「アフガニスタン」、「攻撃」、「政権」の3つが含まれていたとき、図6で示した話題Tの各単語の重要度Eから、会話テキストデータは、話題Tに対して1.44(アフガニスタン)+0.89(攻撃)+0.46(政権)の2.79の重要度を持つこととなる。このように、会話テキストデータの各話題における重要度を算出し最も大きい重要度となる話題を、会話テキストデータが対象としている話題であると判定する。図1に戻って説明を続ける。
【0046】
関連度算出手段24は、話題推定手段23から通知される話題番号及びその話題番号で示される話題に含まれる単語の重要度(図6参照)と、単語抽出手段22から通知される会話テキストデータの単語とに基づいて、会話内容に関連がある用語の関連度を算出するものである。ここで算出された関連度は用語出力手段25へ通知される。
ここでは、会話テキストデータの単語と用語との関連度rel(S,term)を(2)式で定義する。
【0047】
【数2】
Figure 0004150208
【0048】
(2)式において、Sは会話テキストデータ(単語w1〜wnから成る)を表し、termは用語を表している。なお、weightは(1)式で算出される、ある話題のニュース原稿の中に含まれる単語の重要度である。
【0049】
例えば、話題「米などがアフガニスタンを攻撃」で、会話テキストデータSが「アメリカの軍事行動はどうなっているんだろう。難民のための物資の支援や、日本政府の対応は...」が入力されたとき、その会話テキストデータSが用語term「テロ対策特別法案」(図7参照)に関連する関連度は、rel(S,テロ対策特別法案)=0.99(軍事)+0.68(行動)+0.29(支援)+0.16(物資)=2.12 となる。(個々の単語の重要度は図6参照)
【0050】
用語出力手段25は、関連度算出手段24から通知される関連度に基づいて、最も関連度の高い用語を会話テキストデータに関連する関連用語として出力するものである。なお、この用語出力手段25は、関連度の高い順番に関連用語を複数出力する形態であってもよい。また、関連用語に加えて、その関連用語を定義する定義文を出力することとしてもよい。
【0051】
また、用語出力手段25は、入力監視手段21から通知される出力指示のタイミングで、関連用語を出力するものである。この用語出力手段25は、出力指示が通知されるまでは、出力する関連用語を図示していない保持手段に保持する。ただし、出力すべき関連用語が予め定めた保持容量を越える場合は、古い関連情報から廃棄する形態であってもよい。
【0052】
以上、一実施形態に基づいて、関連用語提示装置1の構成について説明したが、本発明はこれに限定されるものではない。例えば、音声認識手段20と、入力監視手段21と、単語抽出手段22と、話題推定手段23と、関連度算出手段24と、用語出力手段25と、を備えた関連用語提示装置1Bとし、話題毎に分類されたニュース原稿を蓄積した話題蓄積手段11と、話題に対応した用語とその用語を定義した定義文を蓄積した用語蓄積手段13とに基づいて、会話内容に関連する用語を出力する形態であっても構わない。
【0053】
なお、関連用語提示装置1(1B)は、コンピュータにおいて、各手段を機能プログラムとして実現することも可能であり、各機能プログラムを結合して関連用語提示プログラムとして動作させることも可能である。
【0054】
(関連用語提示装置の動作)
次に、図1乃至図4を参照して、関連用語提示装置1の動作について説明する。図2及び図3は、関連用語提示装置1の関連用語を抽出する動作を示したフローチャートである。また、図4は、入力監視動作を示すフローチャートである。
【0055】
図2及び図3に示すように、まず、関連用語提示装置1は、音声認識手段20によって音声認識してテキストデータに変換された会話テキストデータや、直接テキストデータとして入力された会話テキストデータから、単語抽出手段22によって形態素解析を行い単語(名詞)を抽出する(ステップS1)。
【0056】
そして、話題推定手段23によって、話題蓄積手段11に蓄積されている話題毎に分類されたニュース原稿において、ステップS1で抽出した会話テキストデータの各単語(以下、会話単語)の出現頻度に基づいて、会話テキストデータの会話単語がニュース原稿に占める重要度を算出する(ステップS2)。
【0057】
この会話単語の重要度は、予め話題蓄積手段11に蓄積されている話題毎にニュース原稿の単語(以下、ニュース単語)の出現頻度から、各ニュース単語がその話題を指し示す個々のニュース単語の重要語を(1)式によって算出しておき、会話単語と同じニュース単語の重要度を、会話単語毎に加算することで算出する。
【0058】
このステップS2で算出された会話単語全体の重要度に基づいて、会話テキストデータの内容が、話題蓄積手段11に蓄積されている話題の中でどの話題に最も近いかを推定する(ステップS3)。
【0059】
そして、用語抽出手段12によって、ステップS3で推定された話題に該当するニュース原稿(話題蓄積手段11内に蓄積されている)から、用語及びその用語を定義する定義文を抽出・生成して、用語蓄積手段13に蓄積する(ステップS4)。
【0060】
そして、関連度算出手段24によって、会話単語と用語蓄積手段13に蓄積されている用語との関連度を以下のステップで算出する。
まず、ステップS4で抽出し用語蓄積手段13に蓄積されている用語の1つを選択し評価対象とする(ステップS5)。そして、ステップS1で抽出した会話テキストデータの会話単語が用語と同じであるかどうかを判定する(ステップS6)。ここで会話単語が用語と同じである場合(Yes)は、その用語がユーザにとっては既知であり、仮にこの用語を提示すると、この用語が冗長な情報となってしまうため、例えば最低の関連度を与え(ステップで図示せず)、ステップS8へ進む。一方、会話テキストデータの会話単語が用語と異なる場合(ステップS6でNo)は、会話テキストデータと用語との関連度を(2)式に基づいて算出する(ステップS7)。そして、全ての用語で関連度の評価を行ったかどうかを判定し(ステップS8)、まだ評価を行っていない用語がある場合(No)は、ステップS5へ戻って次の用語を抽出して評価対象とする。
【0061】
一方、全ての用語で関連度の評価を行った場合(ステップS8でYes)は、用語出力手段25によって、関連度の高い順番に複数(あるいは1つ)関連用語として出力する(ステップS9)。
以上のステップによって、関連用語提示装置1は、会話データ(会話音声データ又は会話テキストデータ)から、会話内容に関連する用語を出力することができる。
【0062】
また、関連用語提示装置1は図4に示すような会話テキストデータの入力を監視する機能を備えている。図4に示すように、会話テキストデータの入力があるかどうかを判定する(ステップS20)。この入力判定は、入力データが音声信号である場合は、音声信号を監視することとしてもよい。あるいは、会話テキストデータがネットワークや通信を介して入力される場合、通信ポートを監視することとしてもよい。そして、入力がある場合(Yes)は、ステップS20の入力監視動作を継続する。
【0063】
一方、入力が停止した場合(No)は、タイマによってその停止時間を測定し、停止時間が予め設定してある時間(一定時間:例えば30秒)との比較を行う(ステップS21)。この停止時間(タイマ時間)が一定時間に達しない場合(No)はステップS20へ戻って、入力監視動作を継続する。
【0064】
停止時間(タイマ時間)が一定時間に達した場合(Yes)は、用語出力手段25に対して用語の出力指示を通知し(ステップS22)、タイマを0にリセット(ステップS23)して、ステップS20へ戻って入力監視動作を継続する。
【0065】
以上の入力監視動作によって、例えば、人が話をしている状態から、話を中断し、思考状態に入ったことを検出して、その思考における発想を支援するための用語を提示することができる。
【0066】
【発明の効果】
以上説明したとおり、本発明に係る関連用語提示装置及び関連用語提示プログラムでは、以下に示す優れた効果を奏する。
【0067】
請求項1、請求項4又は請求項に記載の発明によれば、会話データ(会話音声データ又は会話テキストデータ)から、会話内容の話題を推定し、さらに、その推定した話題に限定して、会話内容に関連する用語を提示することができる。これにより、例えば、会話者が思考中の内容に関連する用語を提示することで、会話者の発想を支援することが可能になる。
【0068】
請求項2又は請求項に記載の発明によれば、会話データ(会話音声データ又は会話テキストデータ)の入力者が、会話を停止して一定時間経過した段階で、会話データ入力者が思考状態に入ったと判断して、その思考を支援するために会話データに関連する用語を提示することができる。これにより、用語の提示が必要なときにのみ、効率良く用語を提示することができる。
【0069】
請求項3に記載の発明によれば、ニュース原稿の記事に基づいて話題を推定するため、ニュース原稿を日々更新しておくことで、最新の技術動向や、時事問題等の内容を含んだ会話データであっても、適切に用語を推定することが可能になる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る関連用語提示装置の構成を示すブロック図である。
【図2】本発明の実施の形態に係る関連用語提示装置の関連用語を抽出する動作を示すフローチャート(1/2)である。
【図3】本発明の実施の形態に係る関連用語提示装置の関連用語を抽出する動作を示すフローチャート(2/2)である。
【図4】本発明の実施の形態に係る関連用語提示装置の入力監視動作を示すフローチャートである。
【図5】話題とその話題に対応するニュース原稿の一例を説明するための説明図である。
【図6】単語とその重要度を説明するための説明図である。
【図7】用語及びその用語を定義する定義文を説明するための説明図である。
【符号の説明】
1、1B……関連用語提示装置
2……ニュース原稿蓄積手段
10……話題抽出手段
11……話題蓄積手段
12……用語抽出手段
13……用語蓄積手段
20……音声認識手段
21……入力監視手段
22……単語抽出手段
23……話題推定手段
24……関連度算出手段
25……用語出力手段

Claims (6)

  1. 特定の話題毎に分類された原稿データに基づいて、入力された会話データから、会話内容に関連する用語データを提示する関連用語提示装置であって、
    前記会話データに含まれる会話単語を抽出する単語抽出手段と、
    の単語抽出手段で抽出した会話単語が前記原稿データに出現する出現頻度に基づいて、前記原稿データにおける前記会話単語毎の重要度を算出し、当該重要度の和が最も高い原稿データに対応する話題を、前記会話内容における話として推定する話題推定手段と、
    この話題推定手段で推定した話題に対応する原稿データから、名詞又は名詞句となる文字列を用語データとして抽出するとともに、当該用語データに係る連体修飾節をその用語データを定義する定義データとして抽出する用語抽出手段と、
    この用語抽出手段で抽出した定義データにおける前記会話単語の重要度の和を、前記会話内容に関連する用語データへの関連度として算出する関連度算出手段と、
    この関連度算出手段で算出した関連度の高さに基づいて、前記用語抽出手段で抽出した用語データから、前記会話内容に関連する用語データを出力する用語出力手段と、
    を備えていることを特徴とする関連用語提示装置。
  2. 前記会話データの入力を監視する入力監視手段を備え、前記会話データの入力が停止してから一定時間経過後に、前記会話データに関連する前記用語データを出力させることを特徴とする請求項1に記載の関連用語提示装置。
  3. 前記原稿データは、電子化されたニュース原稿であることを特徴とする請求項1又は請求項2に記載の関連用語提示装置。
  4. 電子化されたニュース原稿に基づいて、入力された会話データから、会話内容に関連する用語データを提示する関連用語提示装置であって、
    前記ニュース原稿から、単語の出現頻度に基づいて、前記ニュース原稿の内容を特定する話題を抽出し、当該ニュース原稿と対応付ける話題抽出手段と
    記会話データに含まれる会話単語を抽出する単語抽出手段と、
    の単語抽出手段で抽出した会話単語が前記ニュース原稿に出現する出現頻度に基づいて、前記ニュース原稿における前記会話単語毎の重要度を算出し、当該重要度の和が最も高いニュース原稿に対応する話題を、前記会話内容における話として推定する話題推定手段と、
    この話題推定手段で推定した話題に対応するニュース原稿から、名詞又は名詞句となる文字列を用語データとして抽出するとともに、当該用語データに係る連体修飾節をその用語データを定義する定義データとして抽出する用語抽出手段と、
    この用語抽出手段で抽出した定義データにおける前記会話単語の重要度の和を、前記会話内容に関連する用語データへの関連度として算出する関連度算出手段と、
    この関連度算出手段で算出した関連度の高さに基づいて、前記用語抽出手段で抽出した用語データから、前記会話内容に関連する用語データを出力する用語出力手段と、
    を備えていることを特徴とする関連用語提示装置。
  5. 特定の話題毎に分類された原稿データに基づいて、入力された会話データから、会話内容に関連する用語データを提示するために、コンピュータを、
    前記会話データに含まれる会話単語を抽出する単語抽出手段、
    の単語抽出手段で抽出した会話単語が前記原稿データに出現する出現頻度に基づいて、前記原稿データにおける前記会話単語毎の重要度を算出し、当該重要度の和が最も高い原稿データに対応する話題を、前記会話内容における話として推定する話題推定手段、
    この話題推定手段で推定した話題に対応する原稿データから、名詞又は名詞句となる文字列を用語データとして抽出するとともに、当該用語データに係る連体修飾節をその用語データを定義する定義データとして抽出する用語抽出手段、
    この用語抽出手段で抽出した定義データにおける前記会話単語の重要度の和を、前記会話内容に関連する用語データへの関連度として算出する関連度算出手段、
    この関連度算出手段で算出した関連度の高さに基づいて、前記用語抽出手段で抽出した 用語データから、前記会話内容に関連する用語データを出力する用語出力手段、
    として機能させることを特徴とする関連用語提示プログラム。
  6. 前記コンピュータを、前記会話データの入力を監視し、前記会話データの入力が停止してから一定時間経過後に、前記会話データに関連する前記用語データを出力させる入力監視手段、としてさらに機能させることを特徴とする請求項に記載の関連用語提示プログラム。
JP2002130268A 2002-05-02 2002-05-02 関連用語提示装置及び関連用語提示プログラム Expired - Fee Related JP4150208B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002130268A JP4150208B2 (ja) 2002-05-02 2002-05-02 関連用語提示装置及び関連用語提示プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002130268A JP4150208B2 (ja) 2002-05-02 2002-05-02 関連用語提示装置及び関連用語提示プログラム

Publications (2)

Publication Number Publication Date
JP2003323445A JP2003323445A (ja) 2003-11-14
JP4150208B2 true JP4150208B2 (ja) 2008-09-17

Family

ID=29543388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002130268A Expired - Fee Related JP4150208B2 (ja) 2002-05-02 2002-05-02 関連用語提示装置及び関連用語提示プログラム

Country Status (1)

Country Link
JP (1) JP4150208B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060059424A1 (en) * 2004-09-15 2006-03-16 Petri Jonah W Real-time data localization
US7653627B2 (en) * 2005-05-13 2010-01-26 Microsoft Corporation System and method for utilizing the content of an online conversation to select advertising content and/or other relevant information for display
JP5681868B2 (ja) * 2010-03-05 2015-03-11 レノボ・イノベーションズ・リミテッド(香港) 携帯端末装置および予測変換辞書作成方法
JP6529761B2 (ja) * 2012-12-28 2019-06-12 株式会社ユニバーサルエンターテインメント 話題提供システム、及び会話制御端末装置
US9106757B2 (en) * 2013-03-26 2015-08-11 Lg Uplus Corp. Terminal, server, and method for actively providing information based on communication contents
JP6355383B2 (ja) * 2014-03-28 2018-07-11 Kddi株式会社 電子機器、検索方法及びプログラム
JP7159576B2 (ja) * 2018-03-16 2022-10-25 株式会社リコー 情報提示装置、情報提示システム、情報提示方法及びプログラム

Also Published As

Publication number Publication date
JP2003323445A (ja) 2003-11-14

Similar Documents

Publication Publication Date Title
JP5602653B2 (ja) 情報処理装置、情報処理方法、情報処理システム、およびプログラム
JP3923513B2 (ja) 音声認識装置および音声認識方法
JP5496863B2 (ja) 感情推定装置、その方法、プログラム及びその記録媒体
KR20130125999A (ko) 키워드 추출 방법 및 시스템, 그리고 대화 보조 장치
JP4150208B2 (ja) 関連用語提示装置及び関連用語提示プログラム
JP2009042968A (ja) 情報選別システム、情報選別方法及び情報選別用プログラム
Trnka et al. Topic modeling in fringe word prediction for AAC
JP5084297B2 (ja) 会話解析装置および会話解析プログラム
KR20040032355A (ko) 문서에서 이벤트 문장을 추출하는 장치 및 그 방법
JP5466575B2 (ja) 重要語抽出装置とその方法とプログラム
JP5158022B2 (ja) 対話処理装置、対話処理方法、及び対話処理プログラム
JP6233867B2 (ja) 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
JP2010002973A (ja) 音声データ主題推定装置およびこれを用いたコールセンタ
JP2013109635A (ja) 単語重要度算出装置とその方法とプログラム
CN110099332B (zh) 一种音频环境展示方法及装置
JP5271863B2 (ja) 情報分析装置、情報分析方法および情報分析プログラム
JP6486760B2 (ja) 対話パターン自動生成装置、方法およびプログラム
JP2011248107A (ja) 音声認識結果検索方法とその装置とプログラム
JP3956354B2 (ja) 話題推定装置及び話題推定プログラム
Toews et al. Determining Domain-Specific Differences of Polysemous Words Using Context Information.
JP2849341B2 (ja) 対話処理装置
JP5225219B2 (ja) 述語項構造解析方法、その装置及びプログラム
JP4977004B2 (ja) 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP4424125B2 (ja) 予測型話題性評価装置及びプログラム
JP3956730B2 (ja) 言語処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080304

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080603

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080627

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110704

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120704

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120704

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130704

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140704

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees