JP3956354B2

JP3956354B2 - 話題推定装置及び話題推定プログラム

Info

Publication number: JP3956354B2
Application number: JP2002128080A
Authority: JP
Inventors: 一郎山田; 英樹住吉; 香子有安; 正啓柴田; 伸行八木
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2002-04-30
Filing date: 2002-04-30
Publication date: 2007-08-08
Anticipated expiration: 2022-04-30
Also published as: JP2003323424A

Description

【０００１】
【発明の属する技術分野】
本発明は、様々なアプリケーションで使用され、会話の内容を特定する情報分類、自然言語処理技術に関し、より詳細には、自然言語処理技術と、統計処理技術とを用いて、会話の内容を特定することができる話題特定装置及び話題特定プログラムに関する。
【０００２】
【従来の技術】
従来、複数人による会話を行っている際に、その会話の内容がどのような話題を対象としているかを推定する手法としては、会話内容に含まれる一つの単語が、どの話題に属するかを予め単語と話題を関連付けたデータベース等に基づいて推定し、会話内容に含まれる全ての単語の推定結果を平均して、その会話内容の話題を推定していた。
【０００３】
また、会話内容の複数の単語を考慮する手法としては、音声データを時系列信号としてモデル（確率モデル）化し、そのモデルのパラメータ（確率計算用の係数）を「学習」することで音声の認識を行う、音声認識技術の代表的アルゴリズムであるＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を利用して話題に関連する単語を複数呈示する手法（今井他、「放送ニュースの話題抽出モデル」信学技報，ＳＰ９７−２８，ｐｐ．７５−８２，Ｊｕｎｅ１９９７：以下、先行技術１という）が提案されている。このＨＭＭによる手法は、話題を推定する目的ではなく、話題を直接意味するキーワードをより多く出力することを目的としたものである。
【０００４】
【発明が解決しようとする課題】
しかし、前記従来の技術は、会話内容に含まれる複数の単語の組み合せから、その会話においてどのような話題を対象としているかを推定する場合、会話内容に含まれる一つの単語が、どの話題に属しているか判定することで推定を行っていたが、複数の単語の組み合せに対する考慮が行われないと、その推定の精度が低くなってしまうという問題があった。また、一つの単語から話題を推定するのではなく、複数の単語の組み合せを考慮することで、話題を推定しようとすると、その組み合せの数が膨大になり、複数の単語と話題を対応付けた学習データを構築することが困難であるという問題があった。
【０００５】
また、会話内容がどのような話題を対象としているかを、ニュース記事に出現した話題を利用する先行技術１の手法では、話題に関連するキーワードを複数呈示するだけで、話題そのものの定義が不明確であり、その話題がどの出来事に含まれているかを明確に定義できないという問題があった。
【０００６】
本発明は、以上のような問題点に鑑みてなされたものであり、会話内容に含まれる複数の単語から、その会話内容が対象としている話題を推定することができる話題推定装置及び話題推定プログラムを提供することを目的とする。
【０００７】
【課題を解決するための手段】
本発明は、前記目的を達成するために創案されたものであり、まず、請求項１に記載の話題推定装置は、言語データであるテキスト原稿と、そのテキスト原稿の内容を特定した話題とに基づいて、入力された会話内容である会話テキストからその会話内容を特定する話題を推定する話題推定装置であって、前記テキスト原稿に含まれる複数の原稿単語の組み合せ、及びその原稿単語の組み合せの出現頻度を前記話題の学習データとして生成する学習データ生成手段と、この学習データ生成手段によって生成された前記学習データにより、最大エントロピー法に基づいて、前記原稿単語の組み合せの出現確率値を求める最大エントロピー化手段と、この最大エントロピー化手段によって求められた前記出現確率値に基づいて、前記話題毎に前記会話テキストに含まれる会話単語の複数の組み合せが出現する出現確率値を前記話題の推定度として算出する推定度演算手段と、この推定度演算手段によって算出された推定度が最大となる話題を、前記会話内容の話題として判定し出力する話題判定出力手段と、を備える構成とした。
【０００８】
かかる構成によれば、話題推定装置は、学習データ生成手段によって、テキスト原稿に含まれる複数の単語の組み合せ、及びその単語の組み合せの出現頻度を話題毎の学習データとして生成し、最大エントロピー化手段によって、この学習データを元に、学習されていない未知のデータにおいても確率値を一様に分布した確率的言語モデルを推定する。そして、話題推定装置は、推定度演算手段によって、最大エントロピー化手段で推定し出力される学習データの出現確率値（単語特徴量）から、各話題に会話テキストの複数の単語が出現する出現確率値を推定度として算出する。この推定度が高いほど、会話テキストの話題を的確に表わしている指標となる。なお、会話テキストの単語の中に、学習データに存在しない単語が含まれていても、その複数の単語の組み合せに対して、既知の単語から最大エントロピー化手段により確率値が０でない出現確率値が与えられるため、この出現確率値を推定度として使用することができる。
【０００９】
なお、話題の単語特徴量は、テキスト原稿に含まれる個々の名詞の出現頻度に基づいて算出される、その話題にどの名詞がより多く使用されているかを示す尺度である。この話題毎の単語特徴量に基づいて、会話テキストの複数の単語（名詞）が出現する割合の高い話題を、会話テキストの話題であると推定する。
【００１４】
また、請求項２に記載の話題推定装置は、請求項１に記載の話題推定装置において、テキスト原稿が、電子化されたニュース原稿の記事であることを特徴とする。
【００１５】
かかる構成によれば、話題推定装置は、ニュース原稿の記事をテキスト原稿として使用することで、最新の話題を随時更新したニュース原稿から話題を推定する。これにより、会話テキストで最新の話題について会話が行われても、適切に話題を推定することが可能になる。なお、このニュース原稿は放送局等で放送されるニュース原稿を電子化して蓄積しているテキストデータである。
【００２１】
また、請求項３に記載の話題推定プログラムは、言語データであるテキスト原稿と、そのテキスト原稿の内容を特定した話題とに基づいて、入力された会話内容である会話テキストからその会話内容を特定する話題を推定するために、コンピュータを、テキスト原稿に含まれる複数の原稿単語の組み合せ、及びその原稿単語の組み合せの出現頻度を話題の学習データとして生成する学習データ生成手段、この学習データ生成手段によって生成された学習データにより、最大エントロピー法に基づいて、原稿単語の組み合せの出現確率値を求める最大エントロピー化手段、この最大エントロピー化手段によって求められた出現確率値に基づいて、話題毎に会話テキストに含まれる会話単語の複数の組み合せが出現する出現確率値を話題の推定度として算出する推定度演算手段、この推定度演算手段によって算出された推定度が最大となる話題を、前記会話内容の話題として判定し出力する話題判定出力手段、として機能させることを特徴とする。
【００２２】
かかる構成によれば、話題推定プログラムは、学習データ生成手段によって、テキスト原稿に含まれる複数の単語の組み合せ、及びその単語の組み合せの出現頻度を話題毎の学習データとして生成し、最大エントロピー化手段によって、この学習データを元に、学習されていない未知のデータにおいても確率値を一様に分布した確率的言語モデルを推定する。そして、推定度演算手段によって、最大エントロピー化ステップで推定し出力される学習データの出現確率値（単語特徴量）から、各話題に会話テキストの複数の単語が出現する出現確率値を推定度として算出する。この推定度が高いほど、会話テキストの話題を的確に表わしている指標となる。
【００２３】
【発明の実施の形態】
以下、本発明の実施の形態について図面を参照して説明する。
（話題推定装置の構成）
図１は、本発明における話題推定装置の構成を示したブロック図である。図１に示すように話題推定装置１は、過去のニュース番組等で使用されたニュース原稿に基づいて、会話内容（会話音声データ又は会話テキストデータ）が対象としている話題を推定し、その話題を推定話題として出力するものである。
【００２４】
この話題推定装置１は、話題抽出手段１０と、話題蓄積手段２０と、特徴量演算手段３０と、特徴量蓄積手段４０と、音声認識手段５０と、推定度演算手段６０と、話題判定出力手段７０と、を備える構成とした。また、ニュース原稿は、外部のニュース原稿蓄積手段２からテキストデータとして入力されるものとする。
【００２５】
話題抽出手段１０は、ニュース原稿蓄積手段２に蓄積されている電子化された過去のニュース原稿から話題を抽出し、その話題とその話題に関連するニュース原稿とを対応付けて話題蓄積手段２０に蓄積するものである。この話題抽出手段１０は、本願出願人において「トピック抽出装置（特開２０００−２５９６６６）」として開示されている技術を用いて実現することができる。
【００２６】
この話題抽出手段１０によって抽出された話題と、その話題に関するニュース記事を抽出した例を図４に示す。図４では、「米などがアフガニスタンを攻撃」という話題Ｔと、その話題に関する２００１年１０月のニュース記事Ｎを抽出した例を示している。なお、この話題抽出手段１０は、ニュース原稿蓄積手段２に蓄積されている過去のニュース原稿を逐次入力することで、最新の話題及びその話題に関するニュース原稿を話題蓄積手段２０に蓄積する。
【００２７】
話題蓄積手段２０は、話題抽出手段１０によって抽出された話題とその話題に関連するニュース原稿とを対応付けて蓄積するものであり、ハードディスク等で構成されているものである。この話題蓄積手段２０は、図４で示した話題Ｔとその話題Ｔに関連するニュース原稿Ｎとをテキストデータとして蓄積するものである。
【００２８】
特徴量演算手段３０は、話題蓄積手段２０に蓄積されている話題とその話題に関連するニュース原稿とから、その話題の特徴量（単語特徴量）を抽出し、特徴量蓄積手段４０に蓄積するものである。ここで特徴量とは、各話題における関連ニュース原稿に出現する単語（名詞）の出現頻度に基づいて算出される、そのニュース原稿に特定の複数の単語が出現する確率値である。なお、この特徴量演算手段３０は、学習データ生成部（学習データ生成手段）３１と、最大エントロピー化部（最大エントロピー化手段）３２とを備えて構成されている。
【００２９】
この学習データ生成部３１は、話題蓄積手段２０に蓄積されている話題とその話題に関連するニュース原稿とから、ニュース原稿に含まれる単語（名詞）の出現頻度を数値化し、その単語が話題を指し示す度合い（重要度）として生成するものである。なお、ここでニュース原稿に含まれる単語を抽出するには、図示していない形態素解析手段を用いるものとするが、形態素解析部６１を共用して使用する形態であっても構わない。
ここで、このニュース原稿に含まれる単語（名詞）の重要度（出現頻度）を（１）式で定義する。
【００３０】
【数１】

【００３１】
（１）式において、ｔｆ（ｗ）：単語ｗが話題中（話題を構成するニュース記事中）に出現した回数、ＤＦ（ｗ）：１ヶ月のニュース記事中で単語ｗが出現したニュース記事数、Ｎ（ｍｏｎｔｈ）：１ヶ月のニュース記事数、Ｎ（ｔｏｐｉｃ）：対象としている話題を構成するニュース記事数を表わしている。
この（１）式によって算出される重要度ｗｅｉｇｈｔ（ｗ）により、各話題は、話題に出現した単語によって同一のベクトル空間上に特徴付けられる。
【００３２】
ここで、図４乃至図７を参照して、学習データ生成部３１が生成する学習データの例について説明する。
例えば、図４で示した「米などがアフガニスタンを攻撃」という話題Ｔは、その話題Ｔに関連するニュース記事Ｎの単語から、（１）式に基づいて、図５に示すようなベクトルの要素（話題中の出現単語Ｗ１）と、その値（重要度Ｅ１）を持つこととなり、「アフガニスタン」という出現単語には「１．４４」という重要度が与えられ、「軍事」という出現単語には「０．９９」という重要度が与えられる。
【００３３】
また、話題Ｔに関連するニュース記事Ｎにおける単語（出現単語Ｗ１）の複数の組み合せ、例えば３つの単語の組み合せを生成し、各単語が持つ重要度Ｅ１の和を、話題Ｔにおける複数単語の組み合せによる組み合せ重要度とする。これにより、話題Ｔは、図６に示すように、３単語の組み合せＷ２とその個々の単語の重要度Ｅ１を加算した組み合せ重要度Ｅ２が算出される。例えば、「アフガニスタン、アフガニスタン、アフガニスタン」の３単語の組み合せＷ２に与えられる組み合せ重要度Ｅ２は、単一の出現単語「アフガニスタン」の重要度Ｅ１である「１．４４」を３個加算した値である「４．３２」となる。
【００３４】
なお、図７に示すように、３つの単語の順番を入れ替えた組み合せ（３単語の同一組み合せＷ３）には同一の組み合せ重要度Ｅ３を付与する。さらに、ここでは、単語がない状態（ＮＵＬＬ）との組み合せも考慮し、例えば、「アフガニスタン、アフガニスタン、ＮＵＬＬ」といった組み合せも３単語の組み合わせとみなす。
【００３５】
このように学習データ生成部３１（図１）は、複数単語の組み合せ（３単語の組み合せＷ２）と、その組み合せ重要度Ｅ２と、その組み合せ重要度Ｅ２を有する話題Ｔとを、学習データとする。
図１に戻って説明を続ける。
【００３６】
最大エントロピー化部３２は、学習データ生成部３１で生成される学習データから、最大エントロピー法に基づいて、ある話題における３単語の組み合せが生起する確率値を特徴量として出力するものである。この特徴量は、特徴量蓄積手段４０に蓄積される。
【００３７】
なお、この最大エントロピー法は、既知のアルゴリズムであり、事象ｔとｈが同時に出現する頻度Ｏ（ｔ，ｈ）から条件付き確率Ｐ（ｔ｜ｈ）を推定するアルゴリズムである。この最大エントロピー法では、条件付き確率Ｐ（ｔ｜ｈ）を推定するために、「素性（ｆｅａｔｕｒｅ）」と、その素性に対する「出力」と、その出力の「出現期待値」とが学習データとして用いられる。
【００３８】
そこで、この「素性」を、学習データ生成部３１で生成される学習データである３単語の組み合せＷ２（図６）とし、「出力」を各話題に固有に付した識別子（ＩＤ）とする。また、「出現期待値」には、複数単語の組み合せ重要度Ｅ２（図６）を出現回数とみなして使用する。
【００３９】
この最大エントロピー法を用いることで、例えば「アフガニスタン、軍事、“未学習語”」という３単語の組み合せの出現確率は、“未学習語”以外の単語「アフガニスタン」、「軍事」の出現確率が加味された確率値となるため、その確率値は０にはならない。
このように特徴量演算手段３０は、話題蓄積手段２０に蓄積されている話題とその話題に関連するニュース原稿とから、話題の特徴量である確率値を特徴量蓄積手段４０に蓄積する。
【００４０】
特徴量蓄積手段４０は、最大エントロピー化部３２で抽出される特徴量（確率値）を蓄積するもので、ハードディスク等で構成されるものである。この特徴量蓄積手段４０に蓄積された特徴量は、推定度演算手段６０の確率算出部６２によって参照される。
【００４１】
音声認識手段５０は、マイク等の音声入力装置（図示せず）から入力される会話音声データを、音声認識によって、テキストデータである会話テキストデータに変換するものである。この音声認識結果である会話テキストデータは、推定度演算手段６０の形態素解析部６１へ出力される。なお、この音声認識手段５０の音声認識は、公知の一般的な音声認識技術を用いて実現することができる。
【００４２】
推定度演算手段６０は、テキストデータである会話テキストデータを解析し、特徴量蓄積手段４０に蓄積されている特徴量（確率値）に基づいて、各話題が会話内容の話題である推定度（確率値）を話題判定出力手段７０へ出力するものである。なお、この推定度演算手段６０は、形態素解析部６１と、確率算出部６２とを備えて構成されている。
【００４３】
この形態素解析部６１は、入力された会話テキストデータから、形態素解析により単語を抽出するものである。また、この形態素解析部６１では、会話テキストデータから一定の単語数（例えば５単語）の単語を抽出し、確率算出部６２へ出力する。なお、会話テキストデータに一定の単語数（例えば５単語）が含まれていない場合は、それ以前の会話テキストデータの単語を処理対象としてもよいし、単語がない状態（ＮＵＬＬ）として処理を行ってもよい。
【００４４】
確率算出部６２は、形態素解析部６１から一定の単語数の単語を入力し、その単語の組み合せが、ある話題に属する確率値（推定度）を算出するものである。そして、話題に付された固有の識別番号（ＩＤ）と、その確率値（推定度）とを話題判定出力手段７０へ出力する。
【００４５】
ここで、学習データ生成部３１の学習データにおける組み合せ単語数が３で、形態素解析部６１の会話テキストデータで処理する単語数を５とし、その会話テキストデータとして処理する単語を｛ｗ１，ｗ２，ｗ３，ｗ４，ｗ５｝としたとき、その会話テキストデータが話題Ｔ１に属する確率値Ｐ（Ｔ１｜ｗ１，ｗ２，ｗ３，ｗ４，ｗ５）を（２）式で算出する。
【００４６】
【数２】

【００４７】
（２）式において、Ｐ（Ｔ１｜ｗ１，ｗ２，ｗ３）は、単語｛ｗ１，ｗ２，ｗ３｝が会話テキストデータの中に出現した際に、話題Ｔ１についての会話が行われている確率値を表わしている。なお、この確率値Ｐ（Ｔ１｜ｗ１，ｗ２，ｗ３）は、特徴量演算手段３０で演算され特徴量蓄積手段４０に蓄積されている、ニュース原稿の話題の特徴量（確率値）を使用することができる。
このように、学習データにおける組み合せ単語数と、会話内容として処理する組み合せ単語数とは、同じである必要はない。
【００４８】
話題判定出力手段７０は、推定度演算手段６０の確率算出部６２から入力される話題に付された固有の識別番号（ＩＤ）と、推定度（（１）式の計算結果による確率値）とから、その推定度（確率値）が最大となる話題を判定し、その話題の識別番号（ＩＤ）に基づいて、話題蓄積手段２０から話題を読み出し、推定話題として出力するものである。
【００４９】
以上、一実施形態に基づいて、話題推定装置１の構成について説明したが、本発明はこれに限定されるものではない。例えば、話題抽出手段１０と話題蓄積手段２０とを構成から外し、外部から話題とその話題に関連するニュース原稿とを入力する形態であっても構わない。また、学習データ生成部３１においてニュース原稿の単語の組み合せ数を３とし、形態素解析部６１において、会話テキストデータの単語を抽出する個数を５としたが、これらの数値は限定されるものではなく、例えば、図示していない入力装置から、数値を設定する構成であっても構わない。さらに、推定度演算手段６０への入力は、音声認識手段５０の出力でなくても構わない。例えば、パーソナルコンピュータ（ＰＣ）のキーボードから入力された会話テキストデータを利用することもできる。
【００５０】
なお、話題推定装置１は、コンピュータにおいて、特徴量演算手段３０や推定度演算手段６０を機能プログラムとして実現することも可能であり、各機能プログラムを結合して話題推定プログラムとして動作させることも可能である。
【００５１】
（話題推定装置の動作）
次に、図１乃至図３を参照して、話題推定装置１の動作について説明する。図２は、話題推定装置１の特徴量演算手段３０の動作を主に示すフローチャートである。また、図３は、話題推定装置１の推定度演算手段６０の動作を主に示すフローチャートである。
【００５２】
図２に示すように、この話題推定装置１は、まず、ニュース原稿蓄積手段２に蓄積されているニュース原稿を読み込み、話題抽出手段１０によって、話題とその話題に関連するニュース原稿とを対応付けて話題蓄積手段２０に蓄積する（フローチャートに図示せず）。
【００５３】
そして、特徴量演算手段３０の学習データ生成部３１によって、話題蓄積手段２０に蓄積されているニュース原稿に出現する単語を抽出し（ステップＳ１０）、その単語がニュース原稿に対応する話題に対して、どの程度の重要度を持つか、（１）式に基づいて算出する（ステップＳ１１）。
【００５４】
このステップＳ１１で算出した個々の単語の重要度を、複数の単語（例えば３単語）分加算することで、複数の単語（３単語）を組み合せた組み合せ重要度を算出する（ステップＳ１２）。なお、この複数の単語の組み合せは、単語がない状態（ＮＵＬＬ）との組み合せも含むものとする。
【００５５】
そして、最大エントロピー化部３２によって、ある話題における複数の単語（３単語）の組み合せが生起する確率値を最大エントロピー法に基づいて算出し（ステップＳ１３）、特徴量蓄積手段４０に蓄積する（ステップＳ１４）。
【００５６】
以上のステップによって、ニュース原稿から、話題とその話題に関連するニュース原稿とが対応付けられ、その話題を複数の単語の組み合せによって特定する確率値を、特徴量として抽出することができる。なお、ステップＳ１３までの動作は、話題を推定する前段階として予め動作させておくことができる。また、ニュース原稿蓄積手段２のニュース原稿が更新される度に動作させることで、最新の話題を推定するための特徴量を抽出することができる。
【００５７】
次に、図３を参照して、会話音声データ又は会話テキストデータから話題を推定する動作について説明する。
まず、マイク等の音声入力装置から入力される会話音声データを、音声認識手段５０によって変換した会話テキストデータや、直接テキストデータとして入力される会話テキストデータを、推定度演算手段６０の形態素解析部６１によって、形態素解析を行い複数の単語（５単語：名詞）を抽出する（ステップＳ２０）。
【００５８】
そして、確率算出部６２によって、ステップＳ２０で抽出した会話テキストデータの複数の単語の組み合せ（５単語から３単語を選択した組み合せ）に基づいて、話題を特定する確率値を特徴量蓄積手段４０から読み込み（ステップＳ２１）、前記会話テキストデータの複数の単語（５単語）が各話題を特定する確率値を（２）式により算出する（ステップＳ２２）。
【００５９】
このステップＳ２２で算出された各話題を特定する確率値の中で、最大確率値となる話題を、この会話テキストデータの話題であると推定して、話題蓄積手段２０からその話題を読み込み、推定話題として出力する（ステップＳ２３）。
以上のステップによって、話題推定装置１は、入力された会話音声データや、会話テキストデータから、自動的にその会話内容の話題を推定し出力することができる。
【００６０】
（話題推定装置における話題推定例）
次に、図８を参照して、話題推定装置１（図１）における話題推定例を説明する。図８は、自然に関する会話から話題を推定する実験結果を示している。
図８（１）に示すように、例えば会話例として、生徒が「異常現象は、エルニーニョ現象が原因って聞いたことがあるよ。」と発生した会話音声データ、あるいは会話テキストデータから、単語（名詞）を抽出すると、「異常気象、エルニーニョ、現象、原因」の４つが抽出される。なお、形態素解析部６１（図１）で例えば５つの単語を抽出する場合は、これら４つの単語以外に「ＮＵＬＬ」を含めて５つの単語とする。この図８（１）の例では、「異常気象、エルニーニョ、現象、原因、ＮＵＬＬ」の５つの単語（会話処理単語）によって、最も高い確率で「環境問題」が推定話題として出力されたことになる。
【００６１】
また、図８（２）では、生徒が「僕は北海道に住んでいるけど、北海道では、今、桜は満開だよ。今年、東京では、いつ桜が開花したの？」と発生した会話音声データ、あるいは会話テキストデータから、５つの単語「桜、満開、東京、桜、開花」を会話処理単語として抽出している。このように、抽出する単語は、会話の途中（文の途中）であっても話題を推定することができる。
さらに、図８（３）のように、生徒と先生の会話から単語を抽出することで、二人の会話の話題を推定することも可能である。
【００６２】
【発明の効果】
以上説明したとおり、本発明に係る話題推定装置及び話題特定プログラムでは、以下に示す優れた効果を奏する。
【００６３】
請求項１又は請求項３に記載の発明によれば、会話内容から、その会話を特定する話題を自動的に推定することができる。また、会話内容の話題を推定することができるので、教育現場における学習支援システムとして利用することも可能である。例えば、複数の生徒がグループ学習を行っている際に、生徒の会話の内容から話題を推定し、その話題に関連する情報を自動で呈示することも可能である。
【００６４】
さらに、音声認識の分野において利用することで、会話内容の分野を推定することができ、音声認識における単語等の候補をその会話内容の分野に絞ることができるので、音声認識率を向上させることができるという効果をも奏する。
【００６５】
また、請求項１又は請求項３に記載の発明によれば、会話内容（会話テキスト）に学習データとして保持していない単語を含んでいても、他の学習データに保持されている単語から、話題を推定することができるので、会話内容に含まれる任意の複数の単語から話題を推定することができ、話題の推定率を高めることができる。
【００６６】
請求項２に記載の発明によれば、ニュース原稿の記事に基づいて話題を推定するため、ニュース原稿を日々更新しておくことで、会話の内容が最新の話題であっても、適切に話題を推定することが可能になる。
【図面の簡単な説明】
【図１】本発明の実施の形態に係る話題推定装置の構成を示すブロック図である。
【図２】本発明の実施の形態に係る話題推定装置の特徴量を抽出する動作を示すフローチャートである。
【図３】本発明の実施の形態に係る話題推定装置の会話内容から話題を推定する動作を示すフローチャートである。
【図４】話題とその話題に対応するニュース原稿の一例を説明するための説明図である。
【図５】単語とその重要度を説明するための説明図である。
【図６】３つの単語の組み合せとその組み合せ重要度を説明するための説明図である。
【図７】３つの単語の順番を入れ替えた組み合せを説明するための説明図である。
【図８】話題推定結果の例を説明するための説明図である。
【符号の説明】
１……話題推定装置
２……ニュース原稿蓄積手段
１０……話題抽出手段
２０……話題蓄積手段
３０……特徴量演算手段
３１……学習データ生成部（学習データ生成手段）
３２……最大エントロピー化部（最大エントロピー化手段）
４０……特徴量蓄積手段
５０……音声認識手段
６０……推定度演算手段
６１……形態素解析部
６２……確率算出部
７０……話題判定出力手段

Claims

言語データであるテキスト原稿と、そのテキスト原稿の内容を特定した話題とに基づいて、入力された会話内容である会話テキストからその会話内容を特定する前記話題を推定する話題推定装置であって、
前記テキスト原稿に含まれる複数の原稿単語の組み合せ、及びその原稿単語の組み合せの出現頻度を前記話題の学習データとして生成する学習データ生成手段と、
この学習データ生成手段によって生成された前記学習データにより、最大エントロピー法に基づいて、前記原稿単語の組み合せの出現確率値を求める最大エントロピー化手段と、
この最大エントロピー化手段によって求められた前記出現確率値に基づいて、前記話題毎に前記会話テキストに含まれる会話単語の複数の組み合せが出現する出現確率値を前記話題の推定度として算出する推定度演算手段と、
この推定度演算手段によって算出された推定度が最大となる話題を、前記会話内容の話題として判定し出力する話題判定出力手段と、
を備えていることを特徴とする話題推定装置。
前記テキスト原稿は、電子化されたニュース原稿の記事であることを特徴とする請求項１に記載の話題推定装置。
言語データであるテキスト原稿と、そのテキスト原稿の内容を特定した話題とに基づいて、入力された会話内容である会話テキストからその会話内容を特定する前記話題を推定するために、コンピュータを、
前記テキスト原稿に含まれる複数の原稿単語の組み合せ、及びその原稿単語の組み合せの出現頻度を前記話題の学習データとして生成する学習データ生成手段、
この学習データ生成手段によって生成された前記学習データにより、最大エントロピー法に基づいて、前記原稿単語の組み合せの出現確率値を求める最大エントロピー化手段、
この最大エントロピー化手段によって求められた前記出現確率値に基づいて、前記話題毎に前記会話テキストに含まれる会話単語の複数の組み合せが出現する出現確率値を前記話題の推定度として算出する推定度演算手段、
この推定度演算手段によって算出された推定度が最大となる話題を、前記会話内容の話題として判定し出力する話題判定出力手段、
として機能させることを特徴とする話題推定プログラム。