JP3956354B2 - 話題推定装置及び話題推定プログラム - Google Patents

話題推定装置及び話題推定プログラム Download PDF

Info

Publication number
JP3956354B2
JP3956354B2 JP2002128080A JP2002128080A JP3956354B2 JP 3956354 B2 JP3956354 B2 JP 3956354B2 JP 2002128080 A JP2002128080 A JP 2002128080A JP 2002128080 A JP2002128080 A JP 2002128080A JP 3956354 B2 JP3956354 B2 JP 3956354B2
Authority
JP
Japan
Prior art keywords
topic
conversation
words
estimation
manuscript
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002128080A
Other languages
English (en)
Other versions
JP2003323424A (ja
Inventor
一郎 山田
英樹 住吉
香子 有安
正啓 柴田
伸行 八木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2002128080A priority Critical patent/JP3956354B2/ja
Publication of JP2003323424A publication Critical patent/JP2003323424A/ja
Application granted granted Critical
Publication of JP3956354B2 publication Critical patent/JP3956354B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、様々なアプリケーションで使用され、会話の内容を特定する情報分類、自然言語処理技術に関し、より詳細には、自然言語処理技術と、統計処理技術とを用いて、会話の内容を特定することができる話題特定装置及び話題特定プログラムに関する。
【0002】
【従来の技術】
従来、複数人による会話を行っている際に、その会話の内容がどのような話題を対象としているかを推定する手法としては、会話内容に含まれる一つの単語が、どの話題に属するかを予め単語と話題を関連付けたデータベース等に基づいて推定し、会話内容に含まれる全ての単語の推定結果を平均して、その会話内容の話題を推定していた。
【0003】
また、会話内容の複数の単語を考慮する手法としては、音声データを時系列信号としてモデル(確率モデル)化し、そのモデルのパラメータ(確率計算用の係数)を「学習」することで音声の認識を行う、音声認識技術の代表的アルゴリズムであるHMM(Hidden Markov Model)を利用して話題に関連する単語を複数呈示する手法(今井 他、「放送ニュースの話題抽出モデル」信学技報,SP97−28,pp.75−82,June 1997:以下、先行技術1という)が提案されている。このHMMによる手法は、話題を推定する目的ではなく、話題を直接意味するキーワードをより多く出力することを目的としたものである。
【0004】
【発明が解決しようとする課題】
しかし、前記従来の技術は、会話内容に含まれる複数の単語の組み合せから、その会話においてどのような話題を対象としているかを推定する場合、会話内容に含まれる一つの単語が、どの話題に属しているか判定することで推定を行っていたが、複数の単語の組み合せに対する考慮が行われないと、その推定の精度が低くなってしまうという問題があった。また、一つの単語から話題を推定するのではなく、複数の単語の組み合せを考慮することで、話題を推定しようとすると、その組み合せの数が膨大になり、複数の単語と話題を対応付けた学習データを構築することが困難であるという問題があった。
【0005】
また、会話内容がどのような話題を対象としているかを、ニュース記事に出現した話題を利用する先行技術1の手法では、話題に関連するキーワードを複数呈示するだけで、話題そのものの定義が不明確であり、その話題がどの出来事に含まれているかを明確に定義できないという問題があった。
【0006】
本発明は、以上のような問題点に鑑みてなされたものであり、会話内容に含まれる複数の単語から、その会話内容が対象としている話題を推定することができる話題推定装置及び話題推定プログラムを提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明は、前記目的を達成するために創案されたものであり、まず、請求項1に記載の話題推定装置は、言語データであるテキスト原稿と、そのテキスト原稿の内容を特定した話題とに基づいて、入力された会話内容である会話テキストからその会話内容を特定する話題を推定する話題推定装置であって、前記テキスト原稿に含まれる複数の原稿単語の組み合せ、及びその原稿単語の組み合せの出現頻度を前記話題の学習データとして生成する学習データ生成手段と、この学習データ生成手段によって生成された前記学習データにより、最大エントロピー法に基づいて、前記原稿単語の組み合せの出現確率値を求める最大エントロピー化手段と、この最大エントロピー化手段によって求められた前記出現確率値に基づいて、前記話題毎に前記会話テキストに含まれる会話単語の複数の組み合せが出現する出現確率値を前記話題の推定度として算出する推定度演算手段と、この推定度演算手段によって算出された推定度が最大となる話題を、前記会話内容の話題として判定し出力する話題判定出力手段と、を備える構成とした。
【0008】
かかる構成によれば、話題推定装置は、学習データ生成手段によって、テキスト原稿に含まれる複数の単語の組み合せ、及びその単語の組み合せの出現頻度を話題毎の学習データとして生成し、最大エントロピー化手段によって、この学習データを元に、学習されていない未知のデータにおいても確率値を一様に分布した確率的言語モデルを推定する。そして、話題推定装置は、推定度演算手段によって、最大エントロピー化手段で推定し出力される学習データの出現確率値(単語特徴量)から、各話題に会話テキストの複数の単語が出現する出現確率値を推定度として算出する。この推定度が高いほど、会話テキストの話題を的確に表わしている指標となる。なお、会話テキストの単語の中に、学習データに存在しない単語が含まれていても、その複数の単語の組み合せに対して、既知の単語から最大エントロピー化手段により確率値が0でない出現確率値が与えられるため、この出現確率値を推定度として使用することができる。
【0009】
なお、話題の単語特徴量は、テキスト原稿に含まれる個々の名詞の出現頻度に基づいて算出される、その話題にどの名詞がより多く使用されているかを示す尺度である。この話題毎の単語特徴量に基づいて、会話テキストの複数の単語(名詞)が出現する割合の高い話題を、会話テキストの話題であると推定する。
【0014】
また、請求項2に記載の話題推定装置は、請求項1に記載の話題推定装置において、テキスト原稿が、電子化されたニュース原稿の記事であることを特徴とする。
【0015】
かかる構成によれば、話題推定装置は、ニュース原稿の記事をテキスト原稿として使用することで、最新の話題を随時更新したニュース原稿から話題を推定する。これにより、会話テキストで最新の話題について会話が行われても、適切に話題を推定することが可能になる。なお、このニュース原稿は放送局等で放送されるニュース原稿を電子化して蓄積しているテキストデータである。
【0021】
また、請求項3に記載の話題推定プログラムは、言語データであるテキスト原稿と、そのテキスト原稿の内容を特定した話題とに基づいて、入力された会話内容である会話テキストからその会話内容を特定する話題を推定するために、コンピュータを、テキスト原稿に含まれる複数の原稿単語の組み合せ、及びその原稿単語の組み合せの出現頻度を話題の学習データとして生成する学習データ生成手段、この学習データ生成手段によって生成された学習データにより、最大エントロピー法に基づいて、原稿単語の組み合せの出現確率値を求める最大エントロピー化手段、この最大エントロピー化手段によって求められた出現確率値に基づいて、話題毎に会話テキストに含まれる会話単語の複数の組み合せが出現する出現確率値を話題の推定度として算出する推定度演算手段、この推定度演算手段によって算出された推定度が最大となる話題を、前記会話内容の話題として判定し出力する話題判定出力手段、として機能させることを特徴とする
【0022】
かかる構成によれば、話題推定プログラムは、学習データ生成手段によって、テキスト原稿に含まれる複数の単語の組み合せ、及びその単語の組み合せの出現頻度を話題毎の学習データとして生成し、最大エントロピー化手段によって、この学習データを元に、学習されていない未知のデータにおいても確率値を一様に分布した確率的言語モデルを推定する。そして、推定度演算手段によって、最大エントロピー化ステップで推定し出力される学習データの出現確率値(単語特徴量)から、各話題に会話テキストの複数の単語が出現する出現確率値を推定度として算出する。この推定度が高いほど、会話テキストの話題を的確に表わしている指標となる。
【0023】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。
(話題推定装置の構成)
図1は、本発明における話題推定装置の構成を示したブロック図である。図1に示すように話題推定装置1は、過去のニュース番組等で使用されたニュース原稿に基づいて、会話内容(会話音声データ又は会話テキストデータ)が対象としている話題を推定し、その話題を推定話題として出力するものである。
【0024】
この話題推定装置1は、話題抽出手段10と、話題蓄積手段20と、特徴量演算手段30と、特徴量蓄積手段40と、音声認識手段50と、推定度演算手段60と、話題判定出力手段70と、を備える構成とした。また、ニュース原稿は、外部のニュース原稿蓄積手段2からテキストデータとして入力されるものとする。
【0025】
話題抽出手段10は、ニュース原稿蓄積手段2に蓄積されている電子化された過去のニュース原稿から話題を抽出し、その話題とその話題に関連するニュース原稿とを対応付けて話題蓄積手段20に蓄積するものである。この話題抽出手段10は、本願出願人において「トピック抽出装置(特開2000−259666)」として開示されている技術を用いて実現することができる。
【0026】
この話題抽出手段10によって抽出された話題と、その話題に関するニュース記事を抽出した例を図4に示す。図4では、「米などがアフガニスタンを攻撃」という話題Tと、その話題に関する2001年10月のニュース記事Nを抽出した例を示している。なお、この話題抽出手段10は、ニュース原稿蓄積手段2に蓄積されている過去のニュース原稿を逐次入力することで、最新の話題及びその話題に関するニュース原稿を話題蓄積手段20に蓄積する。
【0027】
話題蓄積手段20は、話題抽出手段10によって抽出された話題とその話題に関連するニュース原稿とを対応付けて蓄積するものであり、ハードディスク等で構成されているものである。この話題蓄積手段20は、図4で示した話題Tとその話題Tに関連するニュース原稿Nとをテキストデータとして蓄積するものである。
【0028】
特徴量演算手段30は、話題蓄積手段20に蓄積されている話題とその話題に関連するニュース原稿とから、その話題の特徴量(単語特徴量)を抽出し、特徴量蓄積手段40に蓄積するものである。ここで特徴量とは、各話題における関連ニュース原稿に出現する単語(名詞)の出現頻度に基づいて算出される、そのニュース原稿に特定の複数の単語が出現する確率値である。なお、この特徴量演算手段30は、学習データ生成部(学習データ生成手段)31と、最大エントロピー化部(最大エントロピー化手段)32とを備えて構成されている。
【0029】
この学習データ生成部31は、話題蓄積手段20に蓄積されている話題とその話題に関連するニュース原稿とから、ニュース原稿に含まれる単語(名詞)の出現頻度を数値化し、その単語が話題を指し示す度合い(重要度)として生成するものである。なお、ここでニュース原稿に含まれる単語を抽出するには、図示していない形態素解析手段を用いるものとするが、形態素解析部61を共用して使用する形態であっても構わない。
ここで、このニュース原稿に含まれる単語(名詞)の重要度(出現頻度)を(1)式で定義する。
【0030】
【数1】
Figure 0003956354
【0031】
(1)式において、tf(w):単語wが話題中(話題を構成するニュース記事中)に出現した回数、DF(w):1ヶ月のニュース記事中で単語wが出現したニュース記事数、N(month):1ヶ月のニュース記事数、N(topic):対象としている話題を構成するニュース記事数を表わしている。
この(1)式によって算出される重要度weight(w)により、各話題は、話題に出現した単語によって同一のベクトル空間上に特徴付けられる。
【0032】
ここで、図4乃至図7を参照して、学習データ生成部31が生成する学習データの例について説明する。
例えば、図4で示した「米などがアフガニスタンを攻撃」という話題Tは、その話題Tに関連するニュース記事Nの単語から、(1)式に基づいて、図5に示すようなベクトルの要素(話題中の出現単語W1)と、その値(重要度E1)を持つこととなり、「アフガニスタン」という出現単語には「1.44」という重要度が与えられ、「軍事」という出現単語には「0.99」という重要度が与えられる。
【0033】
また、話題Tに関連するニュース記事Nにおける単語(出現単語W1)の複数の組み合せ、例えば3つの単語の組み合せを生成し、各単語が持つ重要度E1の和を、話題Tにおける複数単語の組み合せによる組み合せ重要度とする。これにより、話題Tは、図6に示すように、3単語の組み合せW2とその個々の単語の重要度E1を加算した組み合せ重要度E2が算出される。例えば、「アフガニスタン、アフガニスタン、アフガニスタン」の3単語の組み合せW2に与えられる組み合せ重要度E2は、単一の出現単語「アフガニスタン」の重要度E1である「1.44」を3個加算した値である「4.32」となる。
【0034】
なお、図7に示すように、3つの単語の順番を入れ替えた組み合せ(3単語の同一組み合せW3)には同一の組み合せ重要度E3を付与する。さらに、ここでは、単語がない状態(NULL)との組み合せも考慮し、例えば、「アフガニスタン、アフガニスタン、NULL」といった組み合せも3単語の組み合わせとみなす。
【0035】
このように学習データ生成部31(図1)は、複数単語の組み合せ(3単語の組み合せW2)と、その組み合せ重要度E2と、その組み合せ重要度E2を有する話題Tとを、学習データとする。
図1に戻って説明を続ける。
【0036】
最大エントロピー化部32は、学習データ生成部31で生成される学習データから、最大エントロピー法に基づいて、ある話題における3単語の組み合せが生起する確率値を特徴量として出力するものである。この特徴量は、特徴量蓄積手段40に蓄積される。
【0037】
なお、この最大エントロピー法は、既知のアルゴリズムであり、事象tとhが同時に出現する頻度O(t,h)から条件付き確率P(t|h)を推定するアルゴリズムである。この最大エントロピー法では、条件付き確率P(t|h)を推定するために、「素性(feature)」と、その素性に対する「出力」と、その出力の「出現期待値」とが学習データとして用いられる。
【0038】
そこで、この「素性」を、学習データ生成部31で生成される学習データである3単語の組み合せW2(図6)とし、「出力」を各話題に固有に付した識別子(ID)とする。また、「出現期待値」には、複数単語の組み合せ重要度E2(図6)を出現回数とみなして使用する。
【0039】
この最大エントロピー法を用いることで、例えば「アフガニスタン、軍事、“未学習語”」という3単語の組み合せの出現確率は、“未学習語”以外の単語「アフガニスタン」、「軍事」の出現確率が加味された確率値となるため、その確率値は0にはならない。
このように特徴量演算手段30は、話題蓄積手段20に蓄積されている話題とその話題に関連するニュース原稿とから、話題の特徴量である確率値を特徴量蓄積手段40に蓄積する。
【0040】
特徴量蓄積手段40は、最大エントロピー化部32で抽出される特徴量(確率値)を蓄積するもので、ハードディスク等で構成されるものである。この特徴量蓄積手段40に蓄積された特徴量は、推定度演算手段60の確率算出部62によって参照される。
【0041】
音声認識手段50は、マイク等の音声入力装置(図示せず)から入力される会話音声データを、音声認識によって、テキストデータである会話テキストデータに変換するものである。この音声認識結果である会話テキストデータは、推定度演算手段60の形態素解析部61へ出力される。なお、この音声認識手段50の音声認識は、公知の一般的な音声認識技術を用いて実現することができる。
【0042】
推定度演算手段60は、テキストデータである会話テキストデータを解析し、特徴量蓄積手段40に蓄積されている特徴量(確率値)に基づいて、各話題が会話内容の話題である推定度(確率値)を話題判定出力手段70へ出力するものである。なお、この推定度演算手段60は、形態素解析部61と、確率算出部62とを備えて構成されている。
【0043】
この形態素解析部61は、入力された会話テキストデータから、形態素解析により単語を抽出するものである。また、この形態素解析部61では、会話テキストデータから一定の単語数(例えば5単語)の単語を抽出し、確率算出部62へ出力する。なお、会話テキストデータに一定の単語数(例えば5単語)が含まれていない場合は、それ以前の会話テキストデータの単語を処理対象としてもよいし、単語がない状態(NULL)として処理を行ってもよい。
【0044】
確率算出部62は、形態素解析部61から一定の単語数の単語を入力し、その単語の組み合せが、ある話題に属する確率値(推定度)を算出するものである。そして、話題に付された固有の識別番号(ID)と、その確率値(推定度)とを話題判定出力手段70へ出力する。
【0045】
ここで、学習データ生成部31の学習データにおける組み合せ単語数が3で、形態素解析部61の会話テキストデータで処理する単語数を5とし、その会話テキストデータとして処理する単語を{w1,w2,w3,w4,w5}としたとき、その会話テキストデータが話題T1に属する確率値P(T1|w1,w2,w3,w4,w5)を(2)式で算出する。
【0046】
【数2】
Figure 0003956354
【0047】
(2)式において、P(T1|w1,w2,w3)は、単語{w1,w2,w3}が会話テキストデータの中に出現した際に、話題T1についての会話が行われている確率値を表わしている。なお、この確率値P(T1|w1,w2,w3)は、特徴量演算手段30で演算され特徴量蓄積手段40に蓄積されている、ニュース原稿の話題の特徴量(確率値)を使用することができる。
このように、学習データにおける組み合せ単語数と、会話内容として処理する組み合せ単語数とは、同じである必要はない。
【0048】
話題判定出力手段70は、推定度演算手段60の確率算出部62から入力される話題に付された固有の識別番号(ID)と、推定度((1)式の計算結果による確率値)とから、その推定度(確率値)が最大となる話題を判定し、その話題の識別番号(ID)に基づいて、話題蓄積手段20から話題を読み出し、推定話題として出力するものである。
【0049】
以上、一実施形態に基づいて、話題推定装置1の構成について説明したが、本発明はこれに限定されるものではない。例えば、話題抽出手段10と話題蓄積手段20とを構成から外し、外部から話題とその話題に関連するニュース原稿とを入力する形態であっても構わない。また、学習データ生成部31においてニュース原稿の単語の組み合せ数を3とし、形態素解析部61において、会話テキストデータの単語を抽出する個数を5としたが、これらの数値は限定されるものではなく、例えば、図示していない入力装置から、数値を設定する構成であっても構わない。さらに、推定度演算手段60への入力は、音声認識手段50の出力でなくても構わない。例えば、パーソナルコンピュータ(PC)のキーボードから入力された会話テキストデータを利用することもできる。
【0050】
なお、話題推定装置1は、コンピュータにおいて、特徴量演算手段30や推定度演算手段60を機能プログラムとして実現することも可能であり、各機能プログラムを結合して話題推定プログラムとして動作させることも可能である。
【0051】
(話題推定装置の動作)
次に、図1乃至図3を参照して、話題推定装置1の動作について説明する。図2は、話題推定装置1の特徴量演算手段30の動作を主に示すフローチャートである。また、図3は、話題推定装置1の推定度演算手段60の動作を主に示すフローチャートである。
【0052】
図2に示すように、この話題推定装置1は、まず、ニュース原稿蓄積手段2に蓄積されているニュース原稿を読み込み、話題抽出手段10によって、話題とその話題に関連するニュース原稿とを対応付けて話題蓄積手段20に蓄積する(フローチャートに図示せず)。
【0053】
そして、特徴量演算手段30の学習データ生成部31によって、話題蓄積手段20に蓄積されているニュース原稿に出現する単語を抽出し(ステップS10)、その単語がニュース原稿に対応する話題に対して、どの程度の重要度を持つか、(1)式に基づいて算出する(ステップS11)。
【0054】
このステップS11で算出した個々の単語の重要度を、複数の単語(例えば3単語)分加算することで、複数の単語(3単語)を組み合せた組み合せ重要度を算出する(ステップS12)。なお、この複数の単語の組み合せは、単語がない状態(NULL)との組み合せも含むものとする。
【0055】
そして、最大エントロピー化部32によって、ある話題における複数の単語(3単語)の組み合せが生起する確率値を最大エントロピー法に基づいて算出し(ステップS13)、特徴量蓄積手段40に蓄積する(ステップS14)。
【0056】
以上のステップによって、ニュース原稿から、話題とその話題に関連するニュース原稿とが対応付けられ、その話題を複数の単語の組み合せによって特定する確率値を、特徴量として抽出することができる。なお、ステップS13までの動作は、話題を推定する前段階として予め動作させておくことができる。また、ニュース原稿蓄積手段2のニュース原稿が更新される度に動作させることで、最新の話題を推定するための特徴量を抽出することができる。
【0057】
次に、図3を参照して、会話音声データ又は会話テキストデータから話題を推定する動作について説明する。
まず、マイク等の音声入力装置から入力される会話音声データを、音声認識手段50によって変換した会話テキストデータや、直接テキストデータとして入力される会話テキストデータを、推定度演算手段60の形態素解析部61によって、形態素解析を行い複数の単語(5単語:名詞)を抽出する(ステップS20)。
【0058】
そして、確率算出部62によって、ステップS20で抽出した会話テキストデータの複数の単語の組み合せ(5単語から3単語を選択した組み合せ)に基づいて、話題を特定する確率値を特徴量蓄積手段40から読み込み(ステップS21)、前記会話テキストデータの複数の単語(5単語)が各話題を特定する確率値を(2)式により算出する(ステップS22)。
【0059】
このステップS22で算出された各話題を特定する確率値の中で、最大確率値となる話題を、この会話テキストデータの話題であると推定して、話題蓄積手段20からその話題を読み込み、推定話題として出力する(ステップS23)。
以上のステップによって、話題推定装置1は、入力された会話音声データや、会話テキストデータから、自動的にその会話内容の話題を推定し出力することができる。
【0060】
(話題推定装置における話題推定例)
次に、図8を参照して、話題推定装置1(図1)における話題推定例を説明する。図8は、自然に関する会話から話題を推定する実験結果を示している。
図8(1)に示すように、例えば会話例として、生徒が「異常現象は、エルニーニョ現象が原因って聞いたことがあるよ。」と発生した会話音声データ、あるいは会話テキストデータから、単語(名詞)を抽出すると、「異常気象、エルニーニョ、現象、原因」の4つが抽出される。なお、形態素解析部61(図1)で例えば5つの単語を抽出する場合は、これら4つの単語以外に「NULL」を含めて5つの単語とする。この図8(1)の例では、「異常気象、エルニーニョ、現象、原因、NULL」の5つの単語(会話処理単語)によって、最も高い確率で「環境問題」が推定話題として出力されたことになる。
【0061】
また、図8(2)では、生徒が「僕は北海道に住んでいるけど、北海道では、今、桜は満開だよ。今年、東京では、いつ桜が開花したの?」と発生した会話音声データ、あるいは会話テキストデータから、5つの単語「桜、満開、東京、桜、開花」を会話処理単語として抽出している。このように、抽出する単語は、会話の途中(文の途中)であっても話題を推定することができる。
さらに、図8(3)のように、生徒と先生の会話から単語を抽出することで、二人の会話の話題を推定することも可能である。
【0062】
【発明の効果】
以上説明したとおり、本発明に係る話題推定装置及び話題特定プログラムでは、以下に示す優れた効果を奏する。
【0063】
請求項1又は請求項3に記載の発明によれば、会話内容から、その会話を特定する話題を自動的に推定することができる。また、会話内容の話題を推定することができるので、教育現場における学習支援システムとして利用することも可能である。例えば、複数の生徒がグループ学習を行っている際に、生徒の会話の内容から話題を推定し、その話題に関連する情報を自動で呈示することも可能である。
【0064】
さらに、音声認識の分野において利用することで、会話内容の分野を推定することができ、音声認識における単語等の候補をその会話内容の分野に絞ることができるので、音声認識率を向上させることができるという効果をも奏する。
【0065】
また、請求項1又は請求項3に記載の発明によれば、会話内容(会話テキスト)に学習データとして保持していない単語を含んでいても、他の学習データに保持されている単語から、話題を推定することができるので、会話内容に含まれる任意の複数の単語から話題を推定することができ、話題の推定率を高めることができる。
【0066】
請求項2に記載の発明によれば、ニュース原稿の記事に基づいて話題を推定するため、ニュース原稿を日々更新しておくことで、会話の内容が最新の話題であっても、適切に話題を推定することが可能になる。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る話題推定装置の構成を示すブロック図である。
【図2】本発明の実施の形態に係る話題推定装置の特徴量を抽出する動作を示すフローチャートである。
【図3】本発明の実施の形態に係る話題推定装置の会話内容から話題を推定する動作を示すフローチャートである。
【図4】話題とその話題に対応するニュース原稿の一例を説明するための説明図である。
【図5】単語とその重要度を説明するための説明図である。
【図6】3つの単語の組み合せとその組み合せ重要度を説明するための説明図である。
【図7】3つの単語の順番を入れ替えた組み合せを説明するための説明図である。
【図8】話題推定結果の例を説明するための説明図である。
【符号の説明】
1……話題推定装置
2……ニュース原稿蓄積手段
10……話題抽出手段
20……話題蓄積手段
30……特徴量演算手段
31……学習データ生成部(学習データ生成手段)
32……最大エントロピー化部(最大エントロピー化手段)
40……特徴量蓄積手段
50……音声認識手段
60……推定度演算手段
61……形態素解析部
62……確率算出部
70……話題判定出力手段

Claims (3)

  1. 言語データであるテキスト原稿と、そのテキスト原稿の内容を特定した話題とに基づいて、入力された会話内容である会話テキストからその会話内容を特定する前記話題を推定する話題推定装置であって、
    前記テキスト原稿に含まれる複数の原稿単語の組み合せ、及びその原稿単語の組み合せの出現頻度を前記話題の学習データとして生成する学習データ生成手段と、
    この学習データ生成手段によって生成された前記学習データにより、最大エントロピー法に基づいて、前記原稿単語の組み合せの出現確率値を求める最大エントロピー化手段と、
    この最大エントロピー化手段によって求められた前記出現確率値に基づいて、前記話題毎に前記会話テキストに含まれる会話単語の複数の組み合せが出現する出現確率値を前記話題の推定度として算出する推定度演算手段と、
    この推定度演算手段によって算出された推定度が最大となる話題を、前記会話内容の話題として判定し出力する話題判定出力手段と、
    を備えていることを特徴とする話題推定装置。
  2. 前記テキスト原稿は、電子化されたニュース原稿の記事であることを特徴とする請求項1に記載の話題推定装置。
  3. 言語データであるテキスト原稿と、そのテキスト原稿の内容を特定した話題とに基づいて、入力された会話内容である会話テキストからその会話内容を特定する前記話題を推定するために、コンピュータを、
    前記テキスト原稿に含まれる複数の原稿単語の組み合せ、及びその原稿単語の組み合せの出現頻度を前記話題の学習データとして生成する学習データ生成手段、
    この学習データ生成手段によって生成された前記学習データにより、最大エントロピー法に基づいて、前記原稿単語の組み合せの出現確率値を求める最大エントロピー化手段、
    この最大エントロピー化手段によって求められた前記出現確率値に基づいて、前記話題毎に前記会話テキストに含まれる会話単語の複数の組み合せが出現する出現確率値を前記話題の推定度として算出する推定度演算手段、
    この推定度演算手段によって算出された推定度が最大となる話題を、前記会話内容の話題として判定し出力する話題判定出力手段、
    として機能させることを特徴とする話題推定プログラム。
JP2002128080A 2002-04-30 2002-04-30 話題推定装置及び話題推定プログラム Expired - Fee Related JP3956354B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002128080A JP3956354B2 (ja) 2002-04-30 2002-04-30 話題推定装置及び話題推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002128080A JP3956354B2 (ja) 2002-04-30 2002-04-30 話題推定装置及び話題推定プログラム

Publications (2)

Publication Number Publication Date
JP2003323424A JP2003323424A (ja) 2003-11-14
JP3956354B2 true JP3956354B2 (ja) 2007-08-08

Family

ID=29541947

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002128080A Expired - Fee Related JP3956354B2 (ja) 2002-04-30 2002-04-30 話題推定装置及び話題推定プログラム

Country Status (1)

Country Link
JP (1) JP3956354B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4507996B2 (ja) * 2005-06-14 2010-07-21 トヨタ自動車株式会社 運転者負荷推定装置
JP2008305239A (ja) * 2007-06-08 2008-12-18 Denso Corp 通信装置及びプログラム
JP2010122823A (ja) * 2008-11-18 2010-06-03 Nec Corp テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム
JP5775466B2 (ja) 2012-01-13 2015-09-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム

Also Published As

Publication number Publication date
JP2003323424A (ja) 2003-11-14

Similar Documents

Publication Publication Date Title
JP3923513B2 (ja) 音声認識装置および音声認識方法
US8140530B2 (en) Similarity calculation device and information search device
US7269544B2 (en) System and method for identifying special word usage in a document
US9047868B1 (en) Language model data collection
EP3349125B1 (en) Language model generation device, language model generation method, and recording medium
US20040024585A1 (en) Linguistic segmentation of speech
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
US8356065B2 (en) Similar text search method, similar text search system, and similar text search program
JP5932869B2 (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
CN107885717B (zh) 一种关键词提取方法及装置
Trnka et al. Topic modeling in fringe word prediction for AAC
CN114242047A (zh) 一种语音处理方法、装置、电子设备及存储介质
CN110362656A (zh) 一种语义要素提取方法及装置
JP3956354B2 (ja) 話題推定装置及び話題推定プログラム
CN113158667A (zh) 基于实体关系级别注意力机制的事件检测方法
JP5291351B2 (ja) 評価表現抽出方法、評価表現抽出装置、および、評価表現抽出プログラム
CN109255066B (zh) 一种业务对象的标签标记方法、装置、服务器和存储介质
JP5271863B2 (ja) 情報分析装置、情報分析方法および情報分析プログラム
KR102422844B1 (ko) 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법
JP4150208B2 (ja) 関連用語提示装置及び関連用語提示プログラム
JP2011123565A (ja) Faq候補抽出システムおよびfaq候補抽出プログラム
US12019986B2 (en) Utterance pair acquisition apparatus, utterance pair acquisition method, and program
CN114218431A (zh) 视频搜索方法、装置、电子设备以及存储介质
JP6115487B2 (ja) 情報収集方法、対話システム及び情報収集装置
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070427

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110518

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120518

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120518

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130518

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees