JP2003323445A - 関連用語提示装置、関連用語提示方法及び関連用語提示プログラム - Google Patents

関連用語提示装置、関連用語提示方法及び関連用語提示プログラム

Info

Publication number
JP2003323445A
JP2003323445A JP2002130268A JP2002130268A JP2003323445A JP 2003323445 A JP2003323445 A JP 2003323445A JP 2002130268 A JP2002130268 A JP 2002130268A JP 2002130268 A JP2002130268 A JP 2002130268A JP 2003323445 A JP2003323445 A JP 2003323445A
Authority
JP
Japan
Prior art keywords
conversation
data
term
topic
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002130268A
Other languages
English (en)
Other versions
JP4150208B2 (ja
Inventor
Ichiro Yamada
一郎 山田
Hideki Sumiyoshi
英樹 住吉
Takako Ariyasu
香子 有安
Masahiro Shibata
正啓 柴田
Nobuyuki Yagi
伸行 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2002130268A priority Critical patent/JP4150208B2/ja
Publication of JP2003323445A publication Critical patent/JP2003323445A/ja
Application granted granted Critical
Publication of JP4150208B2 publication Critical patent/JP4150208B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 入力された文字列や会話内容から話題を特定
し、その話題に関連が深い用語を、文字列や会話内容の
入力が中断したタイミングで提示することができる関連
用語提示装置、関連用語提示方法及び関連用語提示プロ
グラムを提供する。 【解決手段】 関連用語提示装置1は、話題抽出手段1
0と、話題蓄積手段11と、用語抽出手段12と、用語
蓄積手段13と、音声認識手段20と、入力監視手段2
1と、単語抽出手段22と、話題推定手段23と、関連
度算出手段24と、用語出力手段25と、を備え、入力
された会話テキストデータに含まれる単語から話題を推
定し、その話題に関連するニュース原稿から用語を抽出
することで、会話内容に関連する用語を提示することを
特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自然言語のテキス
トデータから情報を抽出する情報抽出技術及び自然言語
処理技術に関し、より詳細には、自然言語のテキストデ
ータからそのテキストデータの内容に関連する用語を提
示する関連用語提示装置、関連用語提示方法及び関連用
語提示プログラムに関する。
【0002】
【従来の技術】従来、入力された文字列からその文字列
に関連する情報を提示する手法としては、予め文字列内
の単語に類似した類似単語を類似辞書に登録しておき、
文字列が入力されたときに、その文字列内の個々の単語
に類似する類似単語を類似辞書から検索して提示してい
た。この手法は、例えば、情報検索システム等におい
て、入力された単語から情報を検索する際の前処理とし
て行われるものであり、入力された文字列内の単語だけ
ではなく、その単語に類似する類似単語を検索対象とす
ることで、情報検索の検索幅を広げることを目的として
いる。
【0003】
【発明が解決しようとする課題】しかし、前記従来の技
術では、入力された文字列からその文字列に関連する情
報を提示する場合、文字列内の全ての単語を対象とし
て、その単語毎に類似する類似単語を関連情報として提
示していた。そのため、例えば、入力された文字列が、
人が話す会話データの場合、会話が対象としている話題
とは関連性の薄い単語まで、その単語の類似単語を提示
してしまい、会話が対象としている話題に関連する関連
情報を提示することは困難であった。
【0004】また、従来は、関連情報を提示する提示タ
イミングが考慮されていなかったため、例えば、人の会
話の内容によってその会話内容の関連情報を提示させる
アプリケーション(又は提示装置)で、人が会話を中断
し考察しているタイミングで関連情報を提示させたい場
合、その中断のタイミングを人がアプリケーション(又
は提示装置)に対して通知しなければならないという煩
わしさがあった。また、人が会話中であって関連情報を
必要としない場合でも、関連情報を提示してしまうとい
う無駄があった。
【0005】本発明は、以上のような問題点に鑑みてな
されたものであり、入力された文字列や会話内容から話
題を特定し、その話題に関連が深い用語を、文字列や会
話内容の入力が中断したタイミングで提示することがで
きる関連用語提示装置、関連用語提示方法及び関連用語
提示プログラムを提供することを目的とする。
【0006】
【課題を解決するための手段】本発明は、前記目的を達
成するために創案されたものであり、まず、請求項1に
記載の関連用語提示装置は、特定の話題毎に分類された
原稿データと、その原稿データに関連する用語データ及
びその用語データを定義する定義データとに基づいて、
入力された会話データから、会話内容に関連する用語デ
ータを提示する関連用語提示装置であって、会話データ
に含まれる会話単語を抽出する単語抽出手段と、この会
話単語抽出手段で抽出した会話単語が、原稿データに出
現する出現頻度に基づいて、会話内容における話題を推
定する話題推定手段と、この話題推定手段で推定した話
題に対応する定義データに、会話単語が含まれる度合い
を示す関連度を算出する関連度算出手段と、この関連度
算出手段で算出した関連度に基づいて、会話内容に関連
する用語データを判定し出力する用語出力手段と、を備
える構成とした。
【0007】かかる構成によれば、関連用語提示装置
は、単語抽出手段によって、形態素解析を行うことで会
話データに含まれる会話単語を抽出し、話題推定手段に
よって、会話単語が、予め話題毎に分類された原稿デー
タに出現する出現頻度に基づいて、会話内容の話題を推
定する。そして、関連度算出手段によって、予めこの原
稿データに関連する用語(用語データ)及びその用語を
定義する定義文(定義データ)に基づいて、この話題に
対応する定義文と会話単語とが関連する度合い(関連
度)を算出し、用語出力手段によって、その関連度の大
きい定義文を有する用語を、会話データに関連する関連
用語として出力する。
【0008】なお、この会話データは自然言語のテキス
トデータ(会話テキストデータ)である。さらに音声認
識手段を備えることで、音声データ(会話音声データ)
をテキストデータに変換し、そのテキストデータに基づ
いて、関連用語を提示することとしてもよい。また、関
連用語を出力する際に、その関連用語を定義する定義文
を出力することとしてもよい。
【0009】また、請求項2に記載の関連用語提示装置
は、請求項1に記載の関連用語提示装置において、さら
に、会話データの入力を監視する入力監視手段を備え、
会話データの入力が停止してから一定時間経過後に、会
話データに関連する用語データを出力させることを特徴
とする。
【0010】かかる構成によれば、関連用語提示装置
は、入力監視手段によって、会話データの入力が監視さ
れ、その会話データの入力が一定時間停止した後に、用
語(用語データ)を出力させる。これによって、例え
ば、一連の会話データの入力中に頻繁に用語データを提
示することを避けることができる。なお、この一定時間
は、予め設定された時間であってもよいし、外部の入力
手段で設定することとしてもよい。
【0011】さらに、請求項3に記載の関連用語提示装
置は、請求項1又は請求項2に記載の関連用語提示装置
において、原稿データは、電子化されたニュース原稿で
あることを特徴とする。
【0012】かかる構成によれば、関連用語提示装置
は、ニュース原稿の記事をテキスト原稿として使用する
ことで、最新の話題を随時更新したニュース原稿から用
語を提示することができる。これにより、例えば、最新
の技術動向や、時事問題等の内容を含んだ会話データで
あっても、適切に用語を推定することが可能になる。な
お、このニュース原稿は放送局等で放送されるニュース
原稿を電子化して蓄積しているテキストデータである。
【0013】また、請求項4に記載の関連用語提示装置
は、電子化されたニュース原稿に基づいて、入力された
会話データから、会話内容に関連する用語データを提示
する関連用語提示装置であって、以下の構成にかかるも
のとした。
【0014】すなわち、ニュース原稿から、単語の出現
頻度に基づいて、ニュース原稿の内容を特定する話題を
抽出する話題抽出手段と、ニュース原稿から、名詞又は
名詞句となる文字列を用語データとして抽出し、用語デ
ータに係る連体修飾節から、用語データを定義する定義
データを抽出する用語抽出手段と、会話データに含まれ
る会話単語を抽出する単語抽出手段と、この会話単語抽
出手段で抽出した会話単語が、ニュース原稿に出現する
出現頻度に基づいて、会話内容における話題を推定する
話題推定手段と、この話題推定手段で推定した話題に対
応するニュース原稿から抽出した定義データに、会話単
語が含まれる度合いを示す関連度を算出する関連度算出
手段と、この関連度算出手段で算出した関連度に基づい
て、会話内容に関連する用語データを判定し出力する用
語出力手段と、を備える構成とした。
【0015】かかる構成によれば、関連用語提示装置
は、話題抽出手段によって、ニュース原稿を形態素解析
することで抽出した単語の出現頻度に基づいて、ニュー
ス原稿の内容を特定する話題を抽出する。また、用語抽
出手段によって、ニュース原稿から、名詞又は名詞句と
なる文字列を用語(用語データ)とし、さらに、用語に
係る連体修飾節から、用語を定義する定義文(定義デー
タ)を抽出する。なお、この用語抽出手段は、話題抽出
手段に蓄積されている話題を指定することで、話題抽出
手段に蓄積されている話題に対応したニュース原稿か
ら、用語及び定義文を抽出することとしてもよい。
【0016】そして、関連用語提示装置は、単語抽出手
段によって、形態素解析を行うことで、会話データに含
まれる会話単語を抽出し、話題推定手段によって、会話
単語が、話題蓄積手段11に蓄積されているニュース原
稿に出現する出現頻度に基づいて、会話内容の話題を推
定する。そして、関連度算出手段によって、ニュース原
稿に関連する用語及び定義文に基づいて、この話題に対
応する定義文と会話単語とが関連する度合い(関連度)
を算出し、用語出力手段によって、その関連度の大きい
定義文を有する用語を、会話データに関連する関連用語
として出力する。
【0017】さらに、請求項5に記載の関連用語提示方
法は、特定の話題毎に分類された原稿データと、その原
稿データに関連する用語データ及びその用語データを定
義する定義データとに基づいて、入力された会話データ
から、会話内容に関連する用語データを提示する関連用
語提示方法であって、会話データに含まれる会話単語を
抽出する単語抽出ステップと、この会話単語抽出ステッ
プで抽出した会話単語が、原稿データに出現する出現頻
度に基づいて、会話内容における話題を推定する話題推
定ステップと、この話題推定ステップで推定した話題に
対応する定義データに、会話単語が含まれる度合いを示
す関連度を算出する関連度算出ステップと、この関連度
算出ステップで算出した関連度に基づいて、会話内容に
関連する用語データを判定し出力する用語出力ステップ
と、を含むことを特徴とする。
【0018】この方法によれば、関連用語提示方法は、
単語抽出ステップで形態素解析を行うことで会話データ
に含まれる会話単語を抽出し、話題推定ステップで、会
話単語が、予め話題毎に分類された原稿データに出現す
る出現頻度に基づいて、会話内容の話題を推定する。そ
して、関連度算出ステップで、予めこの原稿データに関
連する用語(用語データ)及びその用語を定義する定義
文(定義データ)に基づいて、この話題に対応する定義
文と会話単語とが関連する度合い(関連度)を算出し、
用語出力ステップで、その関連度の大きい定義文を有す
る用語を、会話データに関連する関連用語として出力す
る。また、関連用語を出力する際に、その関連用語を定
義する定義文を出力することとしてもよい。
【0019】また、請求項6に記載の関連用語提示方法
は、請求項5に記載の関連用語提示方法において、用語
出力ステップが、会話データの入力を監視する入力監視
手段から、会話データの入力が停止してから一定時間経
過後に通知される出力指示に基づいて、用語データを出
力することを特徴とする。
【0020】この方法によれば、関連用語提示方法は、
用語出力ステップにおいて、通常は用語の出力を行わ
ず、会話データの入力を監視する入力監視手段から、会
話データの入力が一定時間停止したときに通知される出
力指示に基づいて、用語を出力する。
【0021】さらに、請求項7に記載の関連用語提示プ
ログラムは、特定の話題毎に分類された原稿データと、
その原稿データに関連する用語データ及びその用語デー
タを定義する定義データとに基づいて、入力された会話
データから、会話内容に関連する用語データを提示する
ために、コンピュータを、以下の手段によって機能させ
る構成とした。
【0022】すなわち、会話データに含まれる会話単語
を抽出する単語抽出手段、この会話単語抽出手段で抽出
した会話単語が、原稿データに出現する出現頻度を算出
する出現頻度算出手段、この出現頻度算出手段で算出し
た出現頻度に基づいて、会話内容における話題を推定す
る話題推定手段、この話題推定手段で推定した話題に対
応する定義データに、会話単語が含まれる度合いを示す
関連度を算出する関連度算出手段、この関連度算出手段
で算出した関連度に基づいて、会話内容に関連する用語
データを判定し出力する用語出力手段、とした。
【0023】かかる構成によれば、関連用語提示プログ
ラムは、単語抽出手段によって、形態素解析を行うこと
で会話データに含まれる会話単語を抽出し、話題推定手
段によって、会話単語が、予め話題毎に分類された原稿
データに出現する出現頻度に基づいて、会話内容の話題
を推定する。そして、関連度算出手段によって、予めこ
の原稿データに関連する用語(用語データ)及びその用
語を定義する定義文(定義データ)に基づいて、この話
題に対応する定義文と会話単語とが関連する度合い(関
連度)を算出し、用語出力手段によって、その関連度の
大きい定義文を有する用語を、会話データに関連する関
連用語として出力する。また、関連用語を出力する際
に、その関連用語を定義する定義文を出力することとし
てもよい。
【0024】さらにまた、請求項8に記載の関連用語提
示プログラムは、請求項7に記載の関連用語提示プログ
ラムを、会話データの入力を監視し、会話データの入力
が停止してから一定時間経過後に、会話データに関連す
る用語データを出力させる入力監視手段、として機能さ
せることを特徴とする。
【0025】かかる構成によれば、関連用語提示プログ
ラムは、入力監視手段によって、会話データの入力が監
視され、その会話データの入力が一定時間停止した後
に、用語(用語データ)を出力させる。
【0026】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して説明する。 (関連用語提示装置の構成)図1は、本発明における関
連用語提示装置の構成を示したブロック図である。図1
に示すように関連用語提示装置1は、過去のニュース番
組等で使用されたニュース原稿に基づいて、会話データ
(会話音声データ又は会話テキストデータ)の会話内容
に関連する用語を推定し、その用語を関連用語として出
力するものである。
【0027】この関連用語提示装置1は、話題抽出手段
10と、話題蓄積手段11と、用語抽出手段12と、用
語蓄積手段13と、音声認識手段20と、入力監視手段
21と、単語抽出手段22と、話題推定手段23と、関
連度算出手段24と、用語出力手段25と、を備える構
成とした。また、ニュース原稿は、外部のニュース原稿
蓄積手段2からテキストデータとして入力されるものと
する。
【0028】話題抽出手段10は、ニュース原稿蓄積手
段2に蓄積されている電子化された過去のニュース原稿
から話題を抽出し、その話題とその話題に関連するニュ
ース原稿とを対応付けて話題蓄積手段11に蓄積するも
のである。この話題抽出手段10は、本願出願人におい
て「トピック抽出装置(特開2000−25966
6)」として開示されている技術を用いて実現すること
ができる。
【0029】この話題抽出手段10によって抽出された
話題と、その話題に関するニュース記事を抽出した例を
図5に示す。図5では、「米などがアフガニスタンを攻
撃」という話題Tと、その話題に関する2001年10
月のニュース記事Nを抽出した例を示している。なお、
この話題抽出手段10は、ニュース原稿蓄積手段2に蓄
積されている過去のニュース原稿を逐次入力すること
で、最新の話題及びその話題に関するニュース原稿を話
題蓄積手段11に蓄積する。
【0030】話題蓄積手段11は、話題抽出手段10に
よって抽出された話題とその話題に関連するニュース原
稿とを、話題番号(話題に固有の番号)で対応付けて蓄
積するものであり、ハードディスク等で構成されている
ものである。この話題蓄積手段11は、図5で示した話
題Tとその話題Tに関連するニュース記事Nとをテキス
トデータとして蓄積するものである。
【0031】用語抽出手段12は、話題推定手段23か
ら通知される話題番号に該当する話題蓄積手段11に蓄
積されているニュース原稿から、名詞又は名詞句となる
文字列を用語(用語データ)として抽出し、その用語に
係る連体修飾節を、前記用語定義する定義文(定義デー
タ)として抽出するものである。この用語抽出手段12
は、本願出願人において「用語集生成装置及び用語集生
成プログラム並びに用語集検索装置(特願2001−2
89477)」として開示されている技術を用いて実現
することができる。
【0032】この用語抽出手段12によって抽出された
用語と、その用語を定義する定義文の例を図7に示す。
図7は、図5のニュース記事Nから名詞又は名詞句を抽
出した用語Cと、その用語Cに係る連体修飾節から抽出
・生成した定義文Dの例を示しており、例えば、「A
F」という用語Cは、「大使館の車両など外交官ナンバ
ーの車のプレートに付けられた「日本」を表す表記」と
いう定義文Dに対応付けられている。
【0033】用語蓄積手段13は、用語抽出手段12に
よって抽出された用語と定義文とを対応付けて蓄積する
ものであり、ハードディスク等で構成されているもので
ある。この用語蓄積手段13は、図7で示した用語Cと
その用語Cを定義する定義文Dとをテキストデータとし
て蓄積するものである。
【0034】音声認識手段20は、マイク等の音声入力
装置(図示せず)から入力される会話音声データを、音
声認識によって、テキストデータである会話テキストデ
ータに変換するものである。この音声認識結果である会
話テキストデータは、単語抽出手段22へ出力される。
なお、この音声認識手段20の音声認識は、公知の一般
的な音声認識技術を用いて実現することができる。
【0035】入力監視手段21は、会話テキストデータ
の入力を監視して、用語出力手段25が関連用語を出力
する出力タイミングを通知するものである。この入力監
視手段21は、一定時間(例えば30秒)会話テキスト
データの入力がない(入力停止)場合に、用語出力手段
25に関連用語の出力指示を通知する。これによって、
関連用語提示装置1は、会話データ(会話音声データ又
は会話テキストデータ)の入力者が、会話を停止して一
定時間経過した段階で、会話データ入力者が思考状態に
入ったと判断して、その思考を支援するために会話デー
タに関連する用語を提示することができる。この一定時
間は、予め設定された時間であってもよいし、外部の入
力手段(図示せず)で設定することとしてもよい。
【0036】なお、ここでは、入力監視手段21が会話
テキストデータの入力を監視するものとしたが、音声認
識手段20の前段に配置して、音声信号を監視する形態
であってもよい。あるいは、会話テキストデータがネッ
トワークを介して入力される場合、入力監視手段21は
ネットワークの通信ポートを監視する形態であっても構
わない。例えば、インターネットやパソコン通信で、複
数の人が書き込みによってリアルタイムで会話を行うチ
ャットに関連用語提示装置1を適用する場合、そのチャ
ットの発話の監視は、TCP/IPプロトコルのsoc
ket等の通信ログを解析することで行う。また、ワー
ドプロセッサのようなキー入力によるアプリケーション
の場合は、随時入力データをハードディスク等の蓄積手
段(図示せず)に蓄積し、その蓄積されたデータの差分
を監視することで入力の停止を検出する。
【0037】単語抽出手段22は、入力された会話テキ
ストデータから、形態素解析により単語(会話単語:名
詞)を抽出するものである。この単語抽出手段22で抽
出した会話単語は、話題推定手段23及び関連度算出手
段24へ出力される。
【0038】話題推定手段23は、単語抽出手段22か
ら入力される会話テキストデータの単語(会話単語:名
詞)から、会話テキストデータの会話内容における話題
を推定するものである。ここで推定された話題(各話題
に固有に付された番号:話題番号)は、用語抽出手段1
2へ通知される。
【0039】なお、話題推定手段23は、話題蓄積手段
11に蓄積されているニュース原稿に出現する単語(ニ
ュース単語)の出現頻度に基づいて、そのニュース単語
がそのニュース原稿を示す話題に占める重要度を算出
し、会話テキストデータの会話単語がどの話題に最も出
現するかを判定して話題を推定する。ここでは、ある話
題のニュース原稿の中に含まれる単語の重要度を(1)
式で定義する。
【0040】
【数1】
【0041】(1)式において、tf(w):単語wが
話題中(話題を構成するニュース記事中)に出現した回
数、DF(w):1ヶ月のニュース記事中で単語wが出
現したニュース記事数、N(month):1ヶ月のニ
ュース記事数、N(topic):対象としている話題
を構成するニュース記事数を表わしている。この(1)
式によって算出される重要度weight(w)によ
り、各話題は、話題に出現した単語によって同一のベク
トル空間上に特徴付けられる。
【0042】ここで、図5及び図6を参照して、入力さ
れた会話テキストデータの単語(会話単語:名詞)から
話題を推定する方法について説明する。図6は、ある話
題Tにおけるニュース原稿に出現する単語の重要度を示
した例である。
【0043】例えば、図5で示した「米などがアフガニ
スタンを攻撃」という話題Tは、その話題Tに関連する
ニュース記事Nの単語から、(1)式に基づいて、図6
に示すようなベクトルの要素(話題T中の出現単語W)
と、その値(重要度E)を持つこととなり、「アフガニ
スタン」という出現単語には「1.44」という重要度
が与えられ、「軍事」という出現単語には「0.99」
という重要度が与えられる。
【0044】このように、話題T中の出現単語Wに重要
度Eが与えられることで、入力された会話テキストデー
タの単語(会話単語:名詞)が、各話題中でどれだけの
重要度を持つかを算出することができる。例えば、会話
テキストデータに会話単語として「アフガニスタン」、
「攻撃」、「政権」の3つが含まれていたとき、図6で
示した話題Tの各単語の重要度Eから、会話テキストデ
ータは、話題Tに対して1.44(アフガニスタン)+
0.89(攻撃)+0.46(政権)の2.79の重要
度を持つこととなる。このように、会話テキストデータ
の各話題における重要度を算出し最も大きい重要度とな
る話題を、会話テキストデータが対象としている話題で
あると判定する。
【0045】なお、この会話テキストデータから話題を
推定するには、本願出願人が出願した「話題推定装置、
話題推定方法及び話題推定プログラム(特願2002−
128080)」の技術を用いて実現することもでき
る。図1に戻って説明を続ける。
【0046】関連度算出手段24は、話題推定手段23
から通知される話題番号及びその話題番号で示される話
題に含まれる単語の重要度(図6参照)と、単語抽出手
段22から通知される会話テキストデータの単語とに基
づいて、会話内容に関連がある用語の関連度を算出する
ものである。ここで算出された関連度は用語出力手段2
5へ通知される。ここでは、会話テキストデータの単語
と用語との関連度rel(S,term)を(2)式で
定義する。
【0047】
【数2】
【0048】(2)式において、Sは会話テキストデー
タ(単語w1〜wnから成る)を表し、termは用語
を表している。なお、weightは(1)式で算出さ
れる、ある話題のニュース原稿の中に含まれる単語の重
要度である。
【0049】例えば、話題「米などがアフガニスタンを
攻撃」で、会話テキストデータSが「アメリカの軍事行
動はどうなっているんだろう。難民のための物資の支援
や、日本政府の対応は...」が入力されたとき、その
会話テキストデータSが用語term「テロ対策特別法
案」(図7参照)に関連する関連度は、rel(S,テ
ロ対策特別法案)=0.99(軍事)+0.68(行
動)+0.29(支援)+0.16(物資)=2.12
となる。(個々の単語の重要度は図6参照)
【0050】用語出力手段25は、関連度算出手段24
から通知される関連度に基づいて、最も関連度の高い用
語を会話テキストデータに関連する関連用語として出力
するものである。なお、この用語出力手段25は、関連
度の高い順番に関連用語を複数出力する形態であっても
よい。また、関連用語に加えて、その関連用語を定義す
る定義文を出力することとしてもよい。
【0051】また、用語出力手段25は、入力監視手段
21から通知される出力指示のタイミングで、関連用語
を出力するものである。この用語出力手段25は、出力
指示が通知されるまでは、出力する関連用語を図示して
いない保持手段に保持する。ただし、出力すべき関連用
語が予め定めた保持容量を越える場合は、古い関連情報
から廃棄する形態であってもよい。
【0052】以上、一実施形態に基づいて、関連用語提
示装置1の構成について説明したが、本発明はこれに限
定されるものではない。例えば、音声認識手段20と、
入力監視手段21と、単語抽出手段22と、話題推定手
段23と、関連度算出手段24と、用語出力手段25
と、を備えた関連用語提示装置1Bとし、話題毎に分類
されたニュース原稿を蓄積した話題蓄積手段11と、話
題に対応した用語とその用語を定義した定義文を蓄積し
た用語蓄積手段13とに基づいて、会話内容に関連する
用語を出力する形態であっても構わない。
【0053】なお、関連用語提示装置1(1B)は、コ
ンピュータにおいて、各手段を機能プログラムとして実
現することも可能であり、各機能プログラムを結合して
関連用語提示プログラムとして動作させることも可能で
ある。
【0054】(関連用語提示装置の動作)次に、図1乃
至図4を参照して、関連用語提示装置1の動作について
説明する。図2及び図3は、関連用語提示装置1の関連
用語を抽出する動作を示したフローチャートである。ま
た、図4は、入力監視動作を示すフローチャートであ
る。
【0055】図2及び図3に示すように、まず、関連用
語提示装置1は、音声認識手段20によって音声認識し
てテキストデータに変換された会話テキストデータや、
直接テキストデータとして入力された会話テキストデー
タから、単語抽出手段22によって形態素解析を行い単
語(名詞)を抽出する(ステップS1)。
【0056】そして、話題推定手段23によって、話題
蓄積手段11に蓄積されている話題毎に分類されたニュ
ース原稿において、ステップS1で抽出した会話テキス
トデータの各単語(以下、会話単語)の出現頻度に基づ
いて、会話テキストデータの会話単語がニュース原稿に
占める重要度を算出する(ステップS2)。
【0057】この会話単語の重要度は、予め話題蓄積手
段11に蓄積されている話題毎にニュース原稿の単語
(以下、ニュース単語)の出現頻度から、各ニュース単
語がその話題を指し示す個々のニュース単語の重要語を
(1)式によって算出しておき、会話単語と同じニュー
ス単語の重要度を、会話単語毎に加算することで算出す
る。
【0058】このステップS2で算出された会話単語全
体の重要度に基づいて、会話テキストデータの内容が、
話題蓄積手段11に蓄積されている話題の中でどの話題
に最も近いかを推定する(ステップS3)。
【0059】そして、用語抽出手段12によって、ステ
ップS3で推定された話題に該当するニュース原稿(話
題蓄積手段11内に蓄積されている)から、用語及びそ
の用語を定義する定義文を抽出・生成して、用語蓄積手
段13に蓄積する(ステップS4)。
【0060】そして、関連度算出手段24によって、会
話単語と用語蓄積手段13に蓄積されている用語との関
連度を以下のステップで算出する。まず、ステップS4
で抽出し用語蓄積手段13に蓄積されている用語の1つ
を選択し評価対象とする(ステップS5)。そして、ス
テップS1で抽出した会話テキストデータの会話単語が
用語と同じであるかどうかを判定する(ステップS
6)。ここで会話単語が用語と同じである場合(Ye
s)は、その用語がユーザにとっては既知であり、仮に
この用語を提示すると、この用語が冗長な情報となって
しまうため、例えば最低の関連度を与え(ステップで図
示せず)、ステップS8へ進む。一方、会話テキストデ
ータの会話単語が用語と異なる場合(ステップS6でN
o)は、会話テキストデータと用語との関連度を(2)
式に基づいて算出する(ステップS7)。そして、全て
の用語で関連度の評価を行ったかどうかを判定し(ステ
ップS8)、まだ評価を行っていない用語がある場合
(No)は、ステップS5へ戻って次の用語を抽出して
評価対象とする。
【0061】一方、全ての用語で関連度の評価を行った
場合(ステップS8でYes)は、用語出力手段25に
よって、関連度の高い順番に複数(あるいは1つ)関連
用語として出力する(ステップS9)。以上のステップ
によって、関連用語提示装置1は、会話データ(会話音
声データ又は会話テキストデータ)から、会話内容に関
連する用語を出力することができる。
【0062】また、関連用語提示装置1は図4に示すよ
うな会話テキストデータの入力を監視する機能を備えて
いる。図4に示すように、会話テキストデータの入力が
あるかどうかを判定する(ステップS20)。この入力
判定は、入力データが音声信号である場合は、音声信号
を監視することとしてもよい。あるいは、会話テキスト
データがネットワークや通信を介して入力される場合、
通信ポートを監視することとしてもよい。そして、入力
がある場合(Yes)は、ステップS20の入力監視動
作を継続する。
【0063】一方、入力が停止した場合(No)は、タ
イマによってその停止時間を測定し、停止時間が予め設
定してある時間(一定時間:例えば30秒)との比較を
行う(ステップS21)。この停止時間(タイマ時間)
が一定時間に達しない場合(No)はステップS20へ
戻って、入力監視動作を継続する。
【0064】停止時間(タイマ時間)が一定時間に達し
た場合(Yes)は、用語出力手段25に対して用語の
出力指示を通知し(ステップS22)、タイマを0にリ
セット(ステップS23)して、ステップS20へ戻っ
て入力監視動作を継続する。
【0065】以上の入力監視動作によって、例えば、人
が話をしている状態から、話を中断し、思考状態に入っ
たことを検出して、その思考における発想を支援するた
めの用語を提示することができる。
【0066】
【発明の効果】以上説明したとおり、本発明に係る関連
用語提示装置、関連用語提示方法及び関連用語提示プロ
グラムでは、以下に示す優れた効果を奏する。
【0067】請求項1、請求項4、請求項5又は請求項
7に記載の発明によれば、会話データ(会話音声データ
又は会話テキストデータ)から、会話内容の話題を推定
し、さらに、その推定した話題に限定して、会話内容に
関連する用語を提示することができる。これにより、例
えば、会話者が思考中の内容に関連する用語を提示する
ことで、会話者の発想を支援することが可能になる。
【0068】請求項2、請求項6又は請求項8に記載の
発明によれば、会話データ(会話音声データ又は会話テ
キストデータ)の入力者が、会話を停止して一定時間経
過した段階で、会話データ入力者が思考状態に入ったと
判断して、その思考を支援するために会話データに関連
する用語を提示することができる。これにより、用語の
提示が必要なときにのみ、効率良く用語を提示すること
ができる。
【0069】請求項3に記載の発明によれば、ニュース
原稿の記事に基づいて話題を推定するため、ニュース原
稿を日々更新しておくことで、最新の技術動向や、時事
問題等の内容を含んだ会話データであっても、適切に用
語を推定することが可能になる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る関連用語提示装置の
構成を示すブロック図である。
【図2】本発明の実施の形態に係る関連用語提示装置の
関連用語を抽出する動作を示すフローチャート(1/
2)である。
【図3】本発明の実施の形態に係る関連用語提示装置の
関連用語を抽出する動作を示すフローチャート(2/
2)である。
【図4】本発明の実施の形態に係る関連用語提示装置の
入力監視動作を示すフローチャートである。
【図5】話題とその話題に対応するニュース原稿の一例
を説明するための説明図である。
【図6】単語とその重要度を説明するための説明図であ
る。
【図7】用語及びその用語を定義する定義文を説明する
ための説明図である。
【符号の説明】
1、1B……関連用語提示装置 2……ニュース原稿蓄積手段 10……話題抽出手段 11……話題蓄積手段 12……用語抽出手段 13……用語蓄積手段 20……音声認識手段 21……入力監視手段 22……単語抽出手段 23……話題推定手段 24……関連度算出手段 25……用語出力手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 有安 香子 東京都世田谷区砧一丁目10番11号 日本放 送協会 放送技術研究所内 (72)発明者 柴田 正啓 東京都世田谷区砧一丁目10番11号 日本放 送協会 放送技術研究所内 (72)発明者 八木 伸行 東京都世田谷区砧一丁目10番11号 日本放 送協会 放送技術研究所内 Fターム(参考) 5B009 ME14 ME15 VA02 VA09 5B075 ND03 NK32 PR04 PR08

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 特定の話題毎に分類された原稿データ
    と、その原稿データに関連する用語データ及びその用語
    データを定義する定義データとに基づいて、入力された
    会話データから、会話内容に関連する前記用語データを
    提示する関連用語提示装置であって、 前記会話データに含まれる会話単語を抽出する単語抽出
    手段と、 この会話単語抽出手段で抽出した前記会話単語が、前記
    原稿データに出現する出現頻度に基づいて、前記会話内
    容における前記話題を推定する話題推定手段と、 この話題推定手段で推定した前記話題に対応する前記定
    義データに、前記会話単語が含まれる度合いを示す関連
    度を算出する関連度算出手段と、 この関連度算出手段で算出した前記関連度に基づいて、
    前記会話内容に関連する用語データを判定し出力する用
    語出力手段と、 を備えていることを特徴とする関連用語提示装置。
  2. 【請求項2】 前記会話データの入力を監視する入力監
    視手段を備え、前記会話データの入力が停止してから一
    定時間経過後に、前記会話データに関連する前記用語デ
    ータを出力させることを特徴とする請求項1に記載の関
    連用語提示装置。
  3. 【請求項3】 前記原稿データは、電子化されたニュー
    ス原稿であることを特徴とする請求項1又は請求項2に
    記載の関連用語提示装置。
  4. 【請求項4】 電子化されたニュース原稿に基づいて、
    入力された会話データから、会話内容に関連する用語デ
    ータを提示する関連用語提示装置であって、 前記ニュース原稿から、単語の出現頻度に基づいて、前
    記ニュース原稿の内容を特定する話題を抽出する話題抽
    出手段と、 前記ニュース原稿から、名詞又は名詞句となる文字列を
    用語データとして抽出し、前記用語データに係る連体修
    飾節から、前記用語データを定義する定義データを抽出
    する用語抽出手段と、 前記会話データに含まれる会話単語を抽出する単語抽出
    手段と、 この会話単語抽出手段で抽出した前記会話単語が、前記
    ニュース原稿に出現する出現頻度に基づいて、前記会話
    内容における前記話題を推定する話題推定手段と、 この話題推定手段で推定した前記話題に対応するニュー
    ス原稿から抽出した前記定義データに、前記会話単語が
    含まれる度合いを示す関連度を算出する関連度算出手段
    と、 この関連度算出手段で算出した前記関連度に基づいて、
    前記会話内容に関連する用語データを判定し出力する用
    語出力手段と、 を備えていることを特徴とする関連用語提示装置。
  5. 【請求項5】 特定の話題毎に分類された原稿データ
    と、その原稿データに関連する用語データ及びその用語
    データを定義する定義データとに基づいて、入力された
    会話データから、会話内容に関連する前記用語データを
    提示する関連用語提示方法であって、 前記会話データに含まれる会話単語を抽出する単語抽出
    ステップと、 この会話単語抽出ステップで抽出した前記会話単語が、
    前記原稿データに出現する出現頻度に基づいて、前記会
    話内容における前記話題を推定する話題推定ステップ
    と、 この話題推定ステップで推定した前記話題に対応する前
    記定義データに、前記会話単語が含まれる度合いを示す
    関連度を算出する関連度算出ステップと、 この関連度算出ステップで算出した前記関連度に基づい
    て、前記会話内容に関連する用語データを判定し出力す
    る用語出力ステップと、 を含んでいることを特徴とする関連用語提示方法。
  6. 【請求項6】 前記用語出力ステップは、前記会話デー
    タの入力を監視する入力監視手段から、前記会話データ
    の入力が停止してから一定時間経過後に通知される出力
    指示に基づいて、前記用語データを出力することを特徴
    とする請求項5に記載の関連用語提示方法。
  7. 【請求項7】 特定の話題毎に分類された原稿データ
    と、その原稿データに関連する用語データ及びその用語
    データを定義する定義データとに基づいて、入力された
    会話データから、会話内容に関連する前記用語データを
    提示するために、コンピュータを、 前記会話データに含まれる会話単語を抽出する単語抽出
    手段、 この会話単語抽出手段で抽出した前記会話単語が、前記
    原稿データに出現する出現頻度を算出する出現頻度算出
    手段、 この出現頻度算出手段で算出した前記出現頻度に基づい
    て、前記会話内容における前記話題を推定する話題推定
    手段、 この話題推定手段で推定した前記話題に対応する前記定
    義データに、前記会話単語が含まれる度合いを示す関連
    度を算出する関連度算出手段、 この関連度算出手段で算出した前記関連度に基づいて、
    前記会話内容に関連する用語データを判定し出力する用
    語出力手段、 として機能させることを特徴とする関連用語提示プログ
    ラム。
  8. 【請求項8】 前記会話データの入力を監視し、前記会
    話データの入力が停止してから一定時間経過後に、前記
    会話データに関連する前記用語データを出力させる入力
    監視手段、として機能させることを特徴とする請求項7
    に記載の関連用語提示プログラム。
JP2002130268A 2002-05-02 2002-05-02 関連用語提示装置及び関連用語提示プログラム Expired - Fee Related JP4150208B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002130268A JP4150208B2 (ja) 2002-05-02 2002-05-02 関連用語提示装置及び関連用語提示プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002130268A JP4150208B2 (ja) 2002-05-02 2002-05-02 関連用語提示装置及び関連用語提示プログラム

Publications (2)

Publication Number Publication Date
JP2003323445A true JP2003323445A (ja) 2003-11-14
JP4150208B2 JP4150208B2 (ja) 2008-09-17

Family

ID=29543388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002130268A Expired - Fee Related JP4150208B2 (ja) 2002-05-02 2002-05-02 関連用語提示装置及び関連用語提示プログラム

Country Status (1)

Country Link
JP (1) JP4150208B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008513856A (ja) * 2004-09-15 2008-05-01 アップル インコーポレイテッド リアルタイムデータローカライズ
JP2008541267A (ja) * 2005-05-13 2008-11-20 マイクロソフト コーポレーション オンライン会話コンテンツを用いて表示のために広告コンテンツ及び/又は他の関連情報を選択するシステム及び方法
JP2011186597A (ja) * 2010-03-05 2011-09-22 Nec Corp 携帯端末装置および予測変換辞書作成方法
JP2014192900A (ja) * 2013-03-26 2014-10-06 Lg Uplus Corp 通信内容基盤の能動的情報提供のための端末、サーバー、方法、及び記録媒体
JP2015191558A (ja) * 2014-03-28 2015-11-02 Kddi株式会社 電子機器、検索方法及びプログラム
JPWO2014103645A1 (ja) * 2012-12-28 2017-01-12 株式会社ユニバーサルエンターテインメント 話題提供システム、会話制御端末装置、及び保守装置
JP2019160259A (ja) * 2018-03-16 2019-09-19 株式会社リコー 情報提示装置、情報提示システム、情報提示方法及びプログラム

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008513856A (ja) * 2004-09-15 2008-05-01 アップル インコーポレイテッド リアルタイムデータローカライズ
JP4842953B2 (ja) * 2004-09-15 2011-12-21 アップル インコーポレイテッド リアルタイムデータローカライズ
JP2008541267A (ja) * 2005-05-13 2008-11-20 マイクロソフト コーポレーション オンライン会話コンテンツを用いて表示のために広告コンテンツ及び/又は他の関連情報を選択するシステム及び方法
JP2011186597A (ja) * 2010-03-05 2011-09-22 Nec Corp 携帯端末装置および予測変換辞書作成方法
JPWO2014103645A1 (ja) * 2012-12-28 2017-01-12 株式会社ユニバーサルエンターテインメント 話題提供システム、会話制御端末装置、及び保守装置
JP2019067433A (ja) * 2012-12-28 2019-04-25 株式会社ユニバーサルエンターテインメント 話題提供システム
JP2014192900A (ja) * 2013-03-26 2014-10-06 Lg Uplus Corp 通信内容基盤の能動的情報提供のための端末、サーバー、方法、及び記録媒体
US9106757B2 (en) 2013-03-26 2015-08-11 Lg Uplus Corp. Terminal, server, and method for actively providing information based on communication contents
JP2015191558A (ja) * 2014-03-28 2015-11-02 Kddi株式会社 電子機器、検索方法及びプログラム
JP2019160259A (ja) * 2018-03-16 2019-09-19 株式会社リコー 情報提示装置、情報提示システム、情報提示方法及びプログラム
JP7159576B2 (ja) 2018-03-16 2022-10-25 株式会社リコー 情報提示装置、情報提示システム、情報提示方法及びプログラム

Also Published As

Publication number Publication date
JP4150208B2 (ja) 2008-09-17

Similar Documents

Publication Publication Date Title
JP5602653B2 (ja) 情報処理装置、情報処理方法、情報処理システム、およびプログラム
CN109509470B (zh) 语音交互方法、装置、计算机可读存储介质及终端设备
JP5042799B2 (ja) 音声チャットシステム、情報処理装置およびプログラム
US9047868B1 (en) Language model data collection
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
KR20130082835A (ko) 대화 연관 컨텐츠 제공 방법 및 장치
EP3631793A1 (en) Dynamic and/or context-specific hot words to invoke automated assistant
JP5496863B2 (ja) 感情推定装置、その方法、プログラム及びその記録媒体
EP3724875B1 (en) Text independent speaker recognition
CN110033759A (zh) 在人机接口中解析前缀检测
JP5913394B2 (ja) 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム
JP2015219583A (ja) 話題決定装置、発話装置、方法、及びプログラム
JP2009139390A (ja) 情報処理システム、処理方法及びプログラム
JP6976155B2 (ja) 類似テキスト抽出装置、自動応答システム、類似テキスト抽出方法、およびプログラム
KR20060070605A (ko) 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법
JP2009042968A (ja) 情報選別システム、情報選別方法及び情報選別用プログラム
KR101677859B1 (ko) 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치
Suhm et al. Interactive recovery from speech recognition errors in speech user interfaces
JP2003323445A (ja) 関連用語提示装置、関連用語提示方法及び関連用語提示プログラム
CN109670073B (zh) 一种信息转换方法及装置、交互辅助系统
CN112309372B (zh) 基于语调的意图识别方法、装置、设备及存储介质
JP6233867B2 (ja) 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
JP2010282404A (ja) 対話処理装置、対話処理方法、及び対話処理プログラム
JP2003186896A (ja) 対話処理装置
JP2011027979A (ja) 音声翻訳装置及び音声翻訳方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080304

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080603

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080627

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110704

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120704

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120704

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130704

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140704

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees