JP2010257425A

JP2010257425A - 話題境界検出装置及びコンピュータプログラム

Info

Publication number: JP2010257425A
Application number: JP2009110003A
Authority: JP
Inventors: Akio Kobayashi; 彰夫小林
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2009-04-28
Filing date: 2009-04-28
Publication date: 2010-11-11
Anticipated expiration: 2029-04-28
Also published as: JP5265445B2

Abstract

【課題】音声認識結果における話題の境界を、単語の信頼度を用いながら逐次的に検出する。
【解決手段】文境界検出モデル記憶部４０は、単語列が文境界となる寄与率に応じた重みを記憶し、話題境界検出モデル記憶部５０は、共起する単語と、話題境界となる寄与率に応じた重みを記憶する。文境界検出部６１は、連続した２つの単語ネットワークから境界の単語列及び当該単語列の事後確率を取得すると、当該単語列の重みを読み出し、単語列の重みを事後確率に応じて変更した値を用いて文境界の確率を算出する。そして、確率が高ければ文境界と判断し、文境界毎に単語ネットワークを連結して連結ネットワークを生成する。話題境界検出部６３は、連続した２つの連結ネットワークから共起する単語とその事後確率を取得すると、当該共起する単語の重みを事後確率に応じて変更した値を用いて話題境界の確率を算出し、算出した確率が高ければ話題境界があると判断する。
【選択図】図１

Description

本発明は、音声認識結果から話題の境界を検出する話題境界検出装置及びコンピュータプログラムに関する。

従来技術には、音声認識による結果として得られた単語列や文章である音声文書を話題分割するものがあり、この話題分割では、ＨＭＭ（隠れマルコフモデル）のような統計的モデルが用いられてきた（例えば、非特許文献１参照）。非特許文献１に記載の従来技術では、音声文書内の各話題を１つの状態とするようなＨＭＭを定義し、対象音声文書中の話題を分割している。なお、ＨＭＭについては、非特許文献２に記載されている。

長野、森、西村，「ＨＭＭの変分ベイズ学習によるテキスト文書の話題分割方法」，情報処理学会研究報告、vol.2004,ｐｐ４９−５４、２００４年北研二，「確率的言語モデル」，東京大学出版会，１９９９年，ｐ．５７−６２

非特許文献１の技術では、音声認識結果に含まれる話題を状態とした確率モデルを用意し、これらを連結して音声文書を分割しているが、認識誤りの可能性が高い語に基づいて話題分割を行なってしまう可能性がある。また、予め音声文書に含まれる話題の数を知ることは一般には不可能であるため、予測される話題数に応じたモデルをいくつか用意し、事後確率が最大となるモデルに基づいて話題分割を行なっている。従って、放送音声など、大量の音声文書について話題分割を行なう場合、時間を要する上、逐次的な処理が不可能である。

本発明は、このような事情を考慮してなされたもので、その目的は、音声認識結果における話題の境界を、単語の信頼度を用いながら逐次的に検出することができる話題境界検出装置及びコンピュータプログラムを提供することにある。

［１］本発明の一態様は、単語列と、当該単語列の直前または直後が文境界となる寄与率を示す重みとを対応づけて記憶する文境界検出モデル記憶部と、共起する単語と、当該共起する単語がそれぞれ含まれる２つの連結ネットワークの間が話題境界となる寄与率を示す重みとを対応づけて記憶する話題境界検出モデル記憶部と、音声認識の出力結果のデータから得られた、ノード間の単語と当該単語の事後確率とを示す、連続した２つの単語ネットワークのうち、先に発生した単語ネットワークから終端ノードに至るパスの単語列及び当該単語列の事後確率を取得するとともに、当該単語列の直後を文境界とする重みを前記文境界検出モデル記憶部から読み出し、後に発生した単語ネットワークから先頭ノードより始まるパスの単語列及び当該単語列の事後確率を取得するとともに、当該単語列の直前を文境界とする重みを前記文境界検出モデル記憶部から読み出し、前記単語列の前記重みを当該単語列の前記事後確率に応じて変更した値に基づいて、前記連続した２つの単語ネットワーク間が文境界である確率を算出し、算出した確率が所定の値を越えた場合に、この検出した文境界と直前に検出した文境界との間に含まれる単語ネットワークを連結して連結ネットワークを生成する文境界検出部と、前記話題境界検出モデル記憶部から、前記文境界検出部により生成された連続した２つの連結ネットワークに共起する単語の重みを読み出すとともに、当該共起する単語の事後確率を前記連続する２つの連結ネットワークから読み出し、前記共起する単語の前記重みを、当該共起する単語の前記事後確率に応じて変更した値に基づいて、前記連続した２つの連結ネットワークの間が話題境界である確率を算出し、算出した確率が所定の値を超えた場合に、前記連結ネットワーク間に話題境界がある旨の情報を出力する話題境界検出部と、を備えることを特徴とする話題境界検出装置である。
この発明によれば、話題境界検出装置は、単語列と、直前または直後が文境界となる寄与率を示す重みとを対応づけた文境界検出モデル、及び、共起する単語と、話題境界となる寄与率を示す重みとを対応づけた話題境界検出モデルを記憶する。そして、音声認識結果として入力された単語ネットワークデータから、文境界の単語列及び当該単語列の事後確率を取得するとともに、文境界検出モデルから当該単語列の重みを読み出し、単語列の重みを事後確率に応じて変更した値を用いて文境界の確率を算出する。この確率が高ければ文境界と判断し、文境界毎に単語ネットワークを連結して連結ネットワークを生成する。続いて、連続した２つの連結ネットワークから共起する単語とその事後確率を取得するとともに、当該共起する単語の重みを話題境界検出モデルから読み出し、共起する単語の重みを事後確率に応じて変更した値を用いて話題境界の確率を算出する。算出した確率が高ければ話題境界があると判断し、連結ネットワーク間に話題境界がある旨の情報を出力する。
これにより、音声認識結果から、文章が終了する適切な位置において、正確に話題の境界を検出することが可能となる。また、話題境界検出の逐次処理が可能となるため、音声認識結果に併せて、リアルタイムに話題境界を出力することができる。

［２］本発明の一態様は、上述する話題境界検出装置であって、前記話題境界検出部は、前記音声認識の出力結果のデータに基づいて前記文境界検出部が生成した前記連結ネットワークの代わりに、テキストデータに含まれる文章を用いることを特徴とする。
この発明によれば、話題境界検出装置は、音声認識結果に代えてテキストデータを用い、話題境界検出処理を行なう。
これにより、テキスト文書を対象にして、話題の境界を検出することができる。

［３］本発明の一態様は、上述する話題境界検出装置であって、音声認識結果の単語ネットワークと、文境界の前記単語ネットワークと、連結ネットワークを構成する前記単語ネットワークと、話題境界の直前及び直後の前記連結ネットワークとからなる学習データを記憶する学習データ記憶部と、前記学習データ記憶部に記憶されている単語ネットワークデータから、先頭のノードより始まるパス、及び、終端のノードに至るパスの単語列及び当該単語列の事後確率を読み出し、読み出した当該単語列及び当該単語列の前記事後確率に基づいて、前記学習データにより示される文境界が存在する、連続した２つの前記単語ネットワークについて算出した前記文境界の確率が最大となるように、読み出した前記単語列に対応した前記重みを決定する文境界学習部と、前記学習データ記憶部に記憶されている連続した２つの連結ネットワークデータから共起する単語及び当該単語の事後確率を読み出し、読み出した当該共起する単語及び当該単語の前記事後確率に基づいて、前記学習データにより示される話題境界が存在する、連続した２つの前記連結ネットワークについて算出した前記話題境界の確率が最大となるように、読み出した前記共起する単語に対応した前記重みを決定する話題境界学習部と、をさらに備えることを特徴とする。
この発明によれば、音声認識結果に文境界、話題境界の情報を付加した学習データに基づいて、文境界検出モデルと話題境界検出モデルを生成する。
これにより、文境界の検出に用いる文境界検出モデルと、話題境界の検出に用いる話題境界検出モデルとを、実際の音声認識結果に基づいて生成することができるため、信頼性の高いモデルを作成することができる。

［４］本発明の一態様は、コンピュータを、単語列と、当該単語列の直前または直後が文境界となる寄与率を示す重みとを対応づけて記憶する文境界検出モデル記憶部、共起する単語と、当該共起する単語がそれぞれ含まれる２つの連結ネットワークの間が話題境界となる寄与率を示す重みとを対応づけて記憶する話題境界検出モデル記憶部、音声認識の出力結果のデータから得られた、ノード間の単語と当該単語の事後確率とを示す、連続した２つの単語ネットワークのうち、先に発生した単語ネットワークから終端ノードに至るパスの単語列及び当該単語列の事後確率を取得するとともに、当該単語列の直後を文境界とする重みを前記文境界検出モデル記憶部から読み出し、後に発生した単語ネットワークから先頭ノードより始まるパスの単語列及び当該単語列の事後確率を取得するとともに、当該単語列の直前を文境界とする重みを前記文境界検出モデル記憶部から読み出し、前記単語列の前記重みを当該単語列の前記事後確率に応じて変更した値に基づいて、前記連続した２つの単語ネットワーク間が文境界である確率を算出し、算出した確率が所定の値を越えた場合に、この検出した文境界と直前に検出した文境界との間に含まれる単語ネットワークを連結して連結ネットワークを生成する文境界検出部、前記話題境界検出モデル記憶部から、前記文境界検出部により生成された連続した２つの連結ネットワークに共起する単語の重みを読み出すとともに、当該共起する単語の事後確率を前記連続する２つの連結ネットワークから読み出し、前記共起する単語の前記重みを、当該共起する単語の前記事後確率に応じて変更した値に基づいて、前記連続した２つの連結ネットワークの間が話題境界である確率を算出し、算出した確率が所定の値を超えた場合に、前記連結ネットワーク間に話題境界がある旨の情報を出力する話題境界検出部、として機能させることを特徴とするコンピュータプログラムである。
この発明によれば、話題境界検出装置は、単語列と、直前または直後が文境界となる寄与率を示す重みとを対応づけた文境界検出モデル、及び、共起する単語と、話題境界となる寄与率を示す重みとを対応づけた話題境界検出モデルを記憶する。そして、音声認識結果として入力された単語ネットワークデータから、文境界の単語列及び当該単語列の事後確率を取得するとともに、文境界検出モデルから当該単語列の重みを読み出し、単語列の重みを事後確率に応じて変更した値を用いて文境界の確率を算出する。この確率が高ければ文境界と判断し、文境界毎に単語ネットワークを連結して連結ネットワークを生成する。続いて、連続した２つの連結ネットワークから共起する単語とその事後確率を取得するとともに、当該共起する単語の重みを話題境界検出モデルから読み出し、共起する単語の重みを事後確率に応じて変更した値を用いて話題境界の確率を算出する。算出した確率が高ければ話題境界があると判断し、連結ネットワーク間に話題境界がある旨の情報を出力する。
これにより、音声認識結果から、文章が終了する適切な位置において、正確に話題の境界を検出することが可能となる。また、話題境界検出の逐次処理が可能となるため、音声認識結果に併せて、リアルタイムに話題境界を出力することができる。

本発明によれば、音声認識の確からしさを示す事後確率を用いて、音声認識結果から文境界を検出し、この検出した文境界の中から話題境界を検出するため、音声認識結果における適切な位置で、話題境界を正確に検出することができる。これにより、動画像等の音声認識結果に話題境界を付与することができ、１つの動画像を話題毎に分割して検索可能することが可能となる。また、関連する複数のキーワードを含んだ話題を扱っている動画像を検索することも可能となる。
加えて、話題境界を逐次定められるため、音声認識システムから出力される音声認識結果に文境界及び話題境界をリアルタイムに付加することができる。よって、動画像に併せて出力される音声認識結果に、文境界や話題境界を表示させることができる。

本発明の一実施形態による話題境界検出装置の構成を示す機能ブロック図である。単語ネットワークと文境界の例を示す図である。連結ネットワークと話題境界の例を示す図である。同実施形態による単語ネットワークデータのデータ構成例を示す図である。同実施形態による文境界データのデータ構成例を示す図である。同実施形態による連結ネットワークデータのデータ構成例を示す図である。同実施形態による話題境界データのデータ構成例を示す図である。同実施形態による文境界学習の処理フローである。同実施形態による文境界検出モデルのデータ構成例を示す図である。同実施形態による文境界学習の処理フローである。同実施形態による話題境界検出モデルのデータ構成例を示す図である。同実施形態による文境界検出の処理フローである。同実施形態による話題界検出の処理フローである。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。
［１．構成］
図１は、本発明の一実施形態による話題境界検出装置１の構成を示す機能ブロック図であり、発明と関係する機能ブロックのみ抽出して示してある。話題境界検出装置１は、音声認識結果の単語列から話題の境界を検出する。
同図において、話題境界検出装置１は、音声認識部１０、学習データ記憶部２０、学習部３０、文境界検出モデル記憶部４０、話題境界検出モデル記憶部５０、及び、検出部６０を備える。学習データ記憶部２０、文境界検出モデル記憶部４０、及び、話題境界検出モデル記憶部５０は、ハードディスク装置や半導体メモリなどで実現される。また、学習部３０、及び、検出部６０は、サーバ等のコンピュータ装置により実現される。

音声認識部１０は、既存の音声認識システムを用いることができ、入力された音声から、音声認識結果を出力する。学習データ記憶部２０は、音声認識部１０による音声認識結果に、ユーザによって予め文境界及び話題境界の位置を付与した学習データを記憶する。

学習部３０は、文境界学習部３１、文境界学習情報記憶部３２、話題境界学習部３３、及び、話題境界学習情報記憶部３４を備える。文境界学習部３１は、学習データ記憶部２０に記憶されている学習データを用いて、文の境界となる単語列を検出するために用いる文境界検出モデルを作成し、文境界検出モデル記憶部４０に書き込む。文境界学習情報記憶部３２は、文境界検出モデル作成のためのデータを記憶する。話題境界学習部３３は、学習データ記憶部２０に記憶されている学習データを用いて、話題の境界となる文章を検出するために用いる話題境界検出モデルを作成し、話題境界検出モデル記憶部５０に書き込む。話題境界学習情報記憶部３４は、話題境界検出モデル作成のためのデータを記憶する。

検出部６０は、文境界検出部６１、単語ネットワークバッファ６２、話題境界検出部６３、及び、連結ネットワークバッファ６４を備える。文境界検出部６１は、文境界検出モデル記憶部４０に記憶されている文境界検出モデルを用いて、音声認識部１０から入力された音声認識結果の文境界を検出する。単語ネットワークバッファ６２は、音声認識部１０から出力された文境界検出対象の音声認識結果である単語列を記憶する。話題境界検出部６３は、話題境界検出モデル記憶部５０に記憶されている話題境界検出モデルを用いて、文境界検出部６１により検出された文境界から話題境界を検出する。連結ネットワークバッファ６４は、文境界検出部６１による文境界に基づいて単語列を連結した、話題境界の検出対象となる文章を記憶する。

［２．文境界及び話題境界検出の概要］
本実施形態による話題境界検出装置１は、話題境界の検出を以下の２段階の処理により行なう。
（第１段階）単語ネットワークから文境界を検出する文境界検出処理。
（第２段階）検出された文境界から話題境界を検出する話題境界検出処理。

検出部６０は、上記の第１段階の処理と第２段階の処理を逐次的に適用することにより、音声認識結果から話題境界を検出する。以下、第１段階の文境界検出処理、及び、第２段階の話題境界検出処理の概要を説明する。

［２．１第１段階：文境界検出処理］
本実施の形態による話題境界検出装置１の音声認識部１０は、音声認識結果として単語ネットワークを出力する。単語ネットワークは、音声認識における一連の単語仮説をグラフとして表現したものであり、ネットワークのノード（頂点）には、単語を発話した時刻、または、発話の終了時刻が与えられ、ノード間をつなぐエッジ（辺）には、単語の表記とその事後確率が与えられる。単語ネットワークは、主として小休止等によって区切られた入力音声に対し、音声認識結果をグラフ上に表現したものである。従って、単語ネットワークの始端及び終端は必ずしも意味的な文としての始端や終端とはならない。

なお、本実施の形態では、単語ネットワークとしてコンフュージョンネットワークを用いている。コンフュージョンネットワーク及び事後確率については、（参考文献１）L. Mangu, E. Brill, A. Stolcke, "Finding consensus in speech recognition: word error minimization and other applications of confusion networks," Computer Speech and Language, vol.14, no.4, pp373-400,2000、（参考文献２）D. Hakkani-Tur, F. Bechet, G. Riccardi, and G. Tur, "Beyond ASR 1-best: Using word confusion networks in spoken language understanding," Computer Speech and Language, vol.20, no.4, pp.495-514, 2006を参照のこと。

図２は、単語ネットワークと文境界について示す図である。図２において、単語ネットワークの各エッジの上には、音声認識結果の単語及びその事後確率が割当てられている。エッジ上の事後確率の値が大きいほど、当該単語は正解としてもっともらしい、つまり、単語仮説の信頼度が高いと考えられる。同図においては、時刻自体は省略しているが、単語ネットワークの並びは時刻順となっている。

簡便のため、単語ネットワークに対して、以下を仮定する。
（仮定１）単語ネットワークの終端ノードは、句点「。」もしくは読点「、」に該当する。
（仮定２）単語ネットワークの終端ノードを除く各ノードは句点に該当しない。

上記の仮定により、単語ネットワーク間の境界の中から、句点に該当する境界を見つければ、これが文境界となる。そして、話題の境界は、文境界のいずれかの点にあたるとすれば、第２段階の話題境界検出処理では、文境界として検出されたものの中から話題境界を検出すればよい。
文境界が正しく検出されない場合、話題の境界が１つの文をまたがってしまう可能性があり、話題境界を正しく検出できずに誤検出となる可能性がある。従来技術においては、音声認識結果を単独の文と仮定して処理するため、文境界ではない箇所を話題とみなしてしまうことがあった。また、従来技術では、正解としてのもっともらしさ、つまり、音声認識の信頼度を使用せずに話題境界を検出していたため、信頼性が低かった。

図２を例に、本実施の形態による第１段階の文境界検出処理の詳細を説明する。文境界を検出するために、文の先頭に出現しやすい単語列や、文末に出現しやすい単語列などを特徴として文境界検出モデル記憶部４０に蓄積しておき、文境界検出部６１はこれを用いて文境界を判断する。例えば、文の先頭に出現しやすい単語列の特徴として、文境界の直前にある単語ネットワーク内の終端ノードから、任意の長さのパスに含まれる単語列を用いる。また、文末に出現しやすい単語列として、文境界の直後にある単語ネットワーク内の始端ノードから、任意の長さのパスに含まれる単語列を用いる。これらの特徴は、学習部３０の文境界学習部３１が学習データ記憶部２０に記憶されている学習データに基づいて抽出し、文境界検出モデル記憶部４０に蓄積する。ここで、単語ネットワークのパスとは、ネットワーク中のあるノードから別のノードに至る経路を示す。

例えば、図２（ａ）の単語ネットワーク１と単語ネットワーク２の間に文境界があると仮定する。つまり、単語ネットワーク１と単語ネットワーク２の境界を文境界候補として考える。文境界候補の直前にある単語ネットワーク１において、終端ノードにつながるパスの１つは、「し／まし／た」である。各エッジ「し」、「まし」、「た」の事後確率はそれぞれ０．９９、０．８、０．９であるため、このパスの事後確率ｐ１は、各エッジの事後確率の積として以下の（式１）のように算出される。

ｐ１＝０．９９×０．８×０．９＝０．７１２８ …（式１）

また、文境界候補直後の単語ネットワーク２において、始端ノードからつながるパスの１つは、「次／の／ニュース」である。各エッジ「次」、「の」、「ニュース」の事後確率はそれぞれ０．６、０．８、０．９であるため、このパスの事後確率ｐ２は、各エッジの事後確率の積として以下の（式２）のように算出される。

ｐ２＝０．６×０．８×０．９＝０．４３２ …（式２）

「し／まし／た」のような単語列は文末に、「次／の／ニュース」のような単語列は文頭に出現しやすい。従って、単語ネットワークにおけるこれらの単語列（パス）の事後確率が大きければ、当該単語ネットワークの境界が文境界である可能性が高い。

一方、図２（ｂ）の単語ネットワーク３と単語ネットワーク４の間に文境界があると仮定する。つまり、単語ネットワーク３と単語ネットワーク４を文境界候補として考える。文境界候補の直前にある単語ネットワーク３において、終端ノードにつながるパスの１つは、「この／よう／に」である。各エッジ「この」、「よう」、「に」の事後確率はそれぞれ０．７、０．９、０．９９であるため、このパスの事後確率ｐ３は、各エッジの事後確率の積として以下の（式３）のように算出される。

ｐ３＝０．７×０．９×０．９９＝０．６２３７ …（式３）

また、文境界候補直後の単語ネットワーク４において、始端ノードからつながるパスの１つは、「述べ／まし／た」である。各エッジ「述べ」、「まし」、「た」の事後確率はそれぞれ０．６、０．９、０．８であるため、このパスの事後確率ｐ４は、各エッジの事後確率の積として以下の（式４）のように算出される。

ｐ４＝０．６×０．９×０．８＝０．４３２ …（式４）

「この／よう／に」のように助詞で終わる単語列は、単語列がその後ろに続くことが多く、「述べ／まし／た」のような単語列は、別の単語列がその前に続くことが多い。従って、単語ネットワークにおけるこれらの単語列の事後確率が大きければ、当該単語ネットワークの境界が文境界である可能性は低い。

文境界検出部６１は、単語ネットワークの境界が文境界かどうかを、文境界候補を挟む２つのネットワークのパス、及び、当該パスの事後確率等とから、文境界としての妥当性を確率や得点などの数値により表し、当該数値に基づいて判定する。文境界としての妥当性とは、ネットワークのパスが文頭／文末に出現しやすいか、他の単語列が前／後ろに続くことが多いかなどの特徴である。
一つの単語ネットワークにおいて、始端／終端ノードにつながるパスは一般に複数存在する（例えば、単語ネットワーク１では、「し／まし／た」、「し／ます／が」、…等）。従って、文境界かどうかの得点は、上述したように、単語ネットワーク上の各々のパスとその事後確率に基づく得点として表現される。つまり、文頭／文末に出現しやすい単語列の場合は文境界の確率を示す得点の数値を高く、他の単語列が前／後ろに続くことが多い場合は得点を低くするとともに、事後確率が低いほど得点の数値が低くなるようにする。文境界検出部６１は、２つの単語ネットワーク内の文境界候補についてこれらの得点を得、この得られた得点が事前に定めた閾値より大きければ、その２つの文境界候補を文境界として判断する。なお、得点の具体的な計算方法については後述する。

［２．２第２段階：話題境界検出処理］
第１段階の文境界検出処理において文境界検出部６１が文境界を検出した後、第２段階として、話題境界検出部６３は、この文境界の中から話題境界を検出する。このとき、第１段階で文境界が検出されなかった単語ネットワーク同士は、１つの文として全て連結されるものとする。この連結された単語ネットワークを連結ネットワークとよぶ。

話題境界検出部６３は、連結ネットワークから話題境界を検出するために、以下のような特徴を用いる。
（特徴１）連結ネットワーク間で共起する単語
（特徴２）連結ネットワーク間で共起する単語の意味的な類義牲
（特徴３）連結ネットワークに含まれる名詞（人名、地名、組織名など）などの共起関係

図３は、連結ネットワークと話題境界の例を示す図である。
図３（ａ）では、連結ネットワーク５には「雨」という語が、連結ネットワーク６には「曇り」という語が含まれており、それぞれ事後確率０．９、０．８と比較的高い値となっている。「雨」と「曇り」は、どちらも気象に関する類義語であり、これらが連続して生起するような話題は気象情報である。従って、これらの語が共起する、連結ネットワーク５と連結ネットワーク６との間で仮定した話題境界候補は、話題境界ではないと考えられる。これの例では、「雨」と「曇り」の共起を用いたが、これらの語を「気象に関する語」という意味的な類犠牲に置き換え、その共起をとらえてもよい。

一方、図３（ｂ）では、連結ネットワーク７には「省エネ」や「強化」という語が高い事後確率で含まれる一方、連結ネットワーク８には「米」や「ニンニク」が含まれている。どちらも特定の話題では共起しにくく、これらの語が共起する、連結ネットワーク７と連結ネットワーク８との間で仮定した話題境界候補は、話題境界であると考えられる。

文境界と同様、話題境界検出部６３は、連結ネットワークの境界が話題境界かどうかを、文境界をはさむ２つの連結ネットワークに含まれる単語が異なる話題で共起する確率が高いか低いかの特徴と、当該２つの連結ネットワークに含まれる単語やパスの事後確率とから、話題境界としての妥当性を確率や得点などの数値により表し、当該数値を評価することで検出する。

１つの連結ネットワークにおいても、単語やパスは一般に複数存在する（連結ネットワーク５の場合、「雨」、「飴」など）。従って、話題境界かどうかの得点は、上述したように、連結ネットワーク上の各々のパス、及び、当該パスの事後確率により定められる得点として表現される。つまり、隣あう連結ネットワークから得られる単語の組み合わせが異なる話題で共起する確率が高ければ得点を高く、同一の話題で共起する確率が高ければ得点を低くするとともに、事後確率が低いほど得点の数値が低くなるようにする。話題境界検出部６３は、２つの連結ネットワーク内の話題境界候補についてこれらの得点を得、この得られた得点が事前に定めた閾値より大きければ、その２つの話題境界候補を話題境界として判断する。なお、得点の具体的な計算方法については後述する。

［３．詳細処理手順］
次に、話題境界検出装置１の詳細な処理手順を説明する。ここでは、音声認識システム等に備えられた音声認識部１０の出力として単語ネットワークを得た後、話題境界を検出する場合について説明する。
本実施形態の話題境界検出装置１は、以下の処理手順によって動作する。

（手順１）音声認識部１０から、音声認識結果である単語ネットワークを収集する。
（手順２）学習部３０は、学習データ記憶部２０から、手順１により収集された単語ネットワークに文境界及び話題境界を付与した学習データを読み出して、文境界検出モデル、話題境界検出モデルを学習し、それぞれを文境界検出モデル４０、話題境界検出モデル記憶部５０に書き込む。
（手順３）検出部６０は、文境界検出モデル４０に記憶されている文境界検出モデルを使用して文境界を検出し、話題境界検出モデル記憶部５０に記憶されている話題境界検出モデルを使用して、検出された文境界の中から話題境界を検出する。

以下、各手順の詳細な処理を説明する。

［３．１手順１：単語ネットワーク収集］
まず、音声認識部１０において、入力音声に基づいて音声認識を行い、その音声認識結果を示す単語ネットワークを生成し、出力する。学習に用いる場合、この単語ネットワークデータは、学習データ記憶部２０に書き込まれる。

図４は、音声認識部１０から出力され、学習データ記憶部２０に記憶される単語ネットワークデータのデータ構成例を示す図である。同図において、単語ネットワークデータは、単語ネットワークを特定する単語ネットワーク番号、当該単語ネットワークの発話時刻、当該単語ネットワークに含まれるエッジを特定するエッジ番号、当該エッジの開始ノード及び終了ノードのノード番号、及び、当該エッジの単語及び当該単語の事後確率を対応づけて記述している。時刻は、ｈｈ（時間）：ｍｍ（分）：ｓｓ．ｓｓ（１／１００秒単位の秒）で示しており、相対的な時刻であってもよい。なお、単語ネットワーク番号は、時刻順に付与されるものとする。

例えば、単語ネットワーク番号１により特定される単語ネットワーク１（図２（ａ））の場合、ノード番号０を開始ノード、ノード番号１を終了ノードとするエッジには、エッジ番号１で特定され、単語「し」、事後確率「０．９９」であるエッジと、エッジ番号「２」で特定され、単語「ＮＵＬＬ」、事後確率「０．０１」であるエッジがあることが記述されている。

続いて、ユーザは、学習データ記憶部２０に記憶されている単語ネットワークデータに付加すべき文境界及び話題境界の情報をユーザ端末に入力する。これにより、ユーザの端末は、単語ネットワークに付加する文境界及び話題境界の情報を生成して、学習データ記憶部２０に書き込む。つまり、学習データとして、上述した単語ネットワークデータと、以下に示す文境界データ、連結ネットワークデータ、及び、連結ネットワークデータとが学習データ記憶部２０に記憶される。

図５は、文境界の指定によって生成され、学習データ記憶部２０に記憶される文境界データのデータ構成例を示す図である。同図において、文境界データは、文境界が存在する単語ネットワークを特定する単語ネットワーク番号と、文境界が単語ネットワークの直前か直後かのタイプとを対応づけたレコードからなる。

図６は、文境界の指定によって生成され、学習データ記憶部２０に記憶される連結ネットワークデータのデータ構成例を示す図である。同図において、連結ネットワークデータは、連結ネットワークを特定する連結ネットワーク番号と、当該連結ネットワークに含まれる単語ネットワークを特定する単語ネットワーク番号とを対応づけたレコードからなる。連結ネットワークは、時刻順の単語ネットワークを、直前が文境界である単語ネットワークから直後が文境界である単語ネットワークまでの範囲に区切って連結したものである。

図７は、話題境界の指定によって生成され、学習データ記憶部２０に記憶される話題境界データのデータ構成例を示す図である。同図において、話題境界データは、話題境界が存在する連結ネットワークを特定する連結ネットワーク番号と、話題境界が連結ネットワークの直前か直後かのタイプとを対応付けたレコードからなる。

［３．２手順２：文境界・話題境界学習］
次に、学習部３０による文境界検出モデル及び話題境界検出モデルの学習処理について説明する。学習部３０は、文境界、話題境界の検出のための学習をそれぞれ独立して並行に行なう。

［３．２．１文境界学習］
図８は、学習部３０の文境界学習部３１における文境界学習の処理フローである。

ステップＳ１００：同図において、文境界学習部３１は、学習データ記憶部２０から教師あり学習データとして、単語ネットワークデータ及び文境界データを読み出し、文境界学習情報記憶部３２に記憶する。

続いて、文境界学習部３１は、文境界学習情報記憶部３２から単語ネットワーク番号１及び２の単語ネットワーク、単語ネットワーク番号２及び３の単語ネットワーク、…のように、隣接する２つの単語ネットワークを順に読み出す。このとき、先の時刻の単語ネットワークをｇ_ｉ−１、後の時刻の単語ネットワークをｇ_ｉとする。そして、これらの読み出した単語ネットワークｇ_ｉ−１、ｇ_ｉから、文境界を検出するためのルールを取得する。
例えば、図２（ａ）に示す単語ネットワーク１及び単語ネットワーク２が読み出された場合、文境界学習部３１は、文境界を検出するような以下のルールを得る。

（ルール１）単語ネットワーク２（ｇ_ｉ）の始点ノードを含んだ所定ノード数のパスが、単語列「次／の／ニュース」であり、単語ネットワーク２（ｇ_ｉ）の直前が文境界である。このルールに対応した関数をｆ_１ ^ｒとする。
（ルール２）単語ネットワーク１（ｇ_ｉ−１）の終端ノードを含んだ所定ノード数のパスが、単語列「し／まし／た」であり、単語ネットワーク１（ｇ_ｉ−１）の直後が文境界である。これを、ルールに対応した関数をｆ_１ ^ｌとする。

関数ｆ_ｊ ^ｒ及びｆ_ｋ ^ｌ（ｊ，ｌはルールの番号）は、条件が成立する場合には実数値を返す関数であり、この実数値は、単語ネットワークのパスを構成する各エッジに記録されている事後確率の積である。例えば、単語ネットワーク２の場合、単語ネットワークデータに、単語「次」の事後確率「０．６」、単語「の」の事後確率「０．８」、単語「ニュース」の事後確率「０．９」が示されているため、ｆ_１ ^ｒが返す実数値は、０．６×０．８×０．９＝０．４３２である。また、単語ネットワーク１の場合、単語ネットワークデータに、単語「し」の事後確率「０．９９」、単語「まし」の事後確率「０．８」、単語「た」の事後確率「０．９」が示されているため、ｆ_１ ^ｌが返す実数値は、０．９９×０．８×０．９＝０．７１３である。以下、ルール番号を特定しない場合、関数ｆ_ｊ ^ｒ及びｆ_ｋ ^ｌのルールの番号ｊ，ｋは省略して記載する。

文境界学習部３１は、全ての隣接する単語ネットワークについて上記のようにルールを取得すると、文境界学習情報記憶部３２に、取得したルールと、当該ルールに対応づけて０に初期化した重みλと、条件が成立した場合に関数ｆ^ｒ及びｆ^ｌが返す実数値を記憶する。この重みλは、文境界に対する寄与度を表す。つまり、重みλは、文頭／文末に出現しやすいか、他の単語列が前／後ろに続くことが多いかなどの特徴の特徴を示し、文頭／文末に出現しやすいほど大きな値を、他の単語列が前／後ろに続くことが多いほど小さな値をとる。なお、単語ネットワークには通常複数のパスがあるため、１つの単語ネットワークから複数のルールが得られることになる。

ステップＳ１１０：単語ネットワークｇ_ｉ−１及びｇ_ｉの境界ｂ_ｉが文境界である（ｂ_ｉ＝ｔｒｕｅ）確率、すなわち、得点ｐ（ｂ_ｉ＝ｔｒｕｅ｜ｇ_ｉ−１，ｇ_ｉ）は以下の（式５）ように計算される。ここで、ｊ、ｋ、ｍ、ｎはルールの番号である。また、λ_ｊ、λ_ｋ、λ_ｍ、λ_ｎは、それぞれルール番号ｊ、ｋ、ｍ、ｎのルールに対する重みλである。

分子は、単語ネットワークｇ_ｉ−１から得られた全てのルールについて、直後が文境界である条件下でのλ×ｆ^ｒを加算した値と、単語ネットワークｇ_ｉから得られた全てのルールについて、直前が文境界である条件下でのλ×ｆ^ｌを加算した値との合計値のｅｘｐ（ｅのべき乗）である。分母は、単語ネットワークｇ_ｉ−１から得られた全てのルールについて、直後が文境界である条件下でのλ×ｆ^ｒ、及び、直後が文境界ではない条件下でのλ×ｆ^ｒを加算した値と、単語ネットワークｇ_ｉから得られた全てのルールについて、直前が文境界である条件下でのλ×ｆ^ｌ、及び、直後が文境界ではないときの条件下でのλ×ｆ^ｌを加算した値との合計値のｅｘｐである。各単語ネットワークの直前または直後が文境界であるか否かは、文境界データを参照して判断する。

文境界学習部３１は、ステップＳ１００において、文境界前後の単語ネットワークｇ_０、・・・、ｇ_ｉ、ｇ_Ｉを得たとすると、以下の（式６）の尤度を示す関数Ｌ_ｂが最小となるように各λを算出する。

ｌｏｇの真数である確率ｐは全体に占める割合のためその合計は１以下であり、ｌｏｇの値は負となるため、（式６）においては全体に負の符号をつけて正の値に戻している。割合が１に近くなるほど右辺の値は０に近くなるため、Ｌ_ｂが最も小さくなるようにすれば、全体において正解の占める割合が大きくなる。文境界学習部３１は、文境界学習情報記憶部３２に現在記憶している各ルールの重みλを、算出された重みλによって更新する。

なお、目的関数Ｌ_ｂを最小化する重みλを求めるには、多次元ベクトルを変数に持つ関数の最小値、または、最大値を求めるために一般的に用いられている準ニュートン法を適用する。準ニュートン法については、（参考文献３）W.H. Press et al,「Numerical Recipes in C（Ｃ言語による数値計算のレシピ）」,丹慶勝市他訳,技術評論社,ｐｐ．３１３−３１４,１９９３年を参照のこと。

ステップＳ１２０：文境界学習部３１は、所定の閾値よりも小さな値に止まっている重みλを持つルールを文境界学習情報記憶部３２から削除する。これは、自動で得られたルールの数が多い場合、繰り返し学習に時間を要するためである。

ステップＳ１３０：文境界学習部３１は、収束判定を行い、収束していないと判定した場合は、文境界学習情報記憶部３２に現在記憶されているルールについてステップＳ１１０からの処理を繰り返し、収束したと判定した場合、ステップＳ１４０にすすみ、重みの更新を終了する。収束判定では、文境界学習部３１は、λ算出の繰り返し回数の上限が達したか否か、あるいは、Ｌ_ｂの変化量が所定の値よりも小さくなったか否かを判定する。

ステップＳ１４０：文境界学習部３１は、文境界学習情報記憶部３２に記憶している各ルールと、当該ルールの重みλとを記述した文境界検出モデルを文境界検出モデル記憶部４０に書き込む。なお、文境界検出モデルには、ルールをハッシュ値で記述してもよい。

図９は、文境界学習部３１により生成され、文境界検出モデル記憶部４０に記憶される文境界検出モデルのデータ構成例を示す図である。同図において、文境界検出モデルは、文境界検出のルールを特定する文境界ルール番号と、文境界が直前であるか直後であるかのタイプと、単語列と、当該ルールの寄与度を示す重みλとを対応づけたレコードからなる。

［３．２．２文境界学習］
図１０は、学習部３０の話題境界学習部３３における文境界学習の処理フローである。

ステップＳ２００：同図において、話題境界学習部３３は、学習データ記憶部２０から教師あり学習データとして、単語ネットワークデータ、連結ネットワークデータ、及び、話題境界データを読み出し、話題境界学習情報記憶部３４に記憶する。

続いて、話題境界学習部３３は、連結ネットワークデータから各連結ネットワーク番号に対応した単語ネットワーク番号を読み出し、読み出した単語ネットワーク番号に対応した単語ネットワークを単語ネットワークデータから読み出す。これにより、各連結ネットワークに含まれる単語ネットワークを取得する。そして、連結ネットワーク番号１及び２の連結ネットワーク、連結ネットワーク番号２及び３の連結ネットワーク、…のように、隣接する２つの連結ネットワークを順に特定し、先の時刻の連結ネットワークをｓ_ｉ−１、後の時刻の連結ネットワークをｓ_ｉとする。話題境界学習部３３は、連結ネットワークｓ_ｔ−１に含まれる単語、連結ネットワークｓ_ｔに含まれる単語の組みを生成する。

このとき、話題境界学習部３３は、予め決められた単語の組みのいずれかと合致する、連結ネットワークｓ_ｔ−１内の単語と、連結ネットワークｓ_ｔ内の単語との組を読み出すようにしてもよい。この予め決められた単語の組みは、例えば、以下のように生成し、学習データ記憶部２０等に記憶しておく。

まず、天気の話題、政治の話題等、ある特定の話題について記述されたニュース記事、ウェブ記事等の文書から、どのような話題についても共通して使用される単語を除き、各話題に特有の単語を抽出する。その後、同じ話題に含まれる特有の単語同士、異なる話題に含まれる特有の単語同士を組み合わせる。各話題に特有の単語を選択するには、例えば、ＴＦ／ＩＤＦ（単語重要度の評価手法）を用いることができる。また、選択する単語を名詞や固有名詞などの特定の品詞としてもよい。

あるいは、話題境界学習部３３は、話題境界前後の連結ネットワークｓ_ｔ−１、ｓ_ｔそれぞれから読み出す単語の組を、連結ネットワークｓ_ｔ−１について選択したパス内の全ての単語と、連結ネットワークｓ_ｔについて選択したパス内の全ての単語との全組み合わせとしてもよい。また、パス内の名詞や固有名詞などの特定の品詞の単語のみを用いることでもよい。

話題境界学習部３３は、連結ネットワークｓ_ｔ−１、ｓ_ｔのそれぞれから読み出した単語の組から、話題境界を検出するためのルールを取得する。
例えば、図４（ａ）に示すように、連結ネットワーク５及び連結ネットワーク６が話題境界の前後の連結ネットワークとして読み出された場合、話題境界学習部３３は、話題境界を検出するような以下のルールを得る。

（ルール）連結ネットワーク５（ｓ_ｔ−１）に単語「曇り」が、連結ネットワーク６（ｓ_ｔ）に単語「雨」が含まれており、連結ネットワークｓ_ｔ−１、ｓ_ｔの間が話題境界である。このルールに対応した関数をｈ_１とする。

関数ｈ_ｊ（ｊはルールの番号）は、条件が成立する場合には実数値を返す関数であり、この実数値は、連結ネットワークの各エッジに記録されている事後確率に基づいて計算される。例えば、連結ネットワーク５を構成する単語ネットワークに、単語「曇り」の事後確率として「０．９」が設定されており、連結ネットワーク６を構成する単語ネットワークに、単語「雨」の事後確率として「０．８」が設定されている場合、条件が成立するときにｈ_１は実数値０．９×０．８＝０．７２を返す。

あるいは、話題境界学習部３３は、単語どうしの共起を記述するのではなく、以下のように、類似した意味を持つ単語どうしの共起をルールとしてもよい。

（ルール）連結ネットワーク５（ｓ_ｔ−１）及び連結ネットワーク６（ｓ_ｔ）に気象に関する単語「曇り」、「雨」が含まれており、連結ネットワークｓ_ｔ−１、ｓ_ｔが話題境界である。このルールに対応した関数をｈ_２とする。

この場合、各単語が属する話題の情報を予め話題境界検出モデル記憶部５０に記憶しておき、話題境界学習部３３は、各連結ネットワークに含まれる各単語の話題を取得する。
以下、ルール番号を特定しない場合、関数ｈ_ｊのルールの番号ｊは省略して記載する。

話題境界学習部３３は、全ての隣接する連結ネットワークについて上記のようにルールを取得し、話題境界学習情報記憶部３４に、取得したルールと、当該ルールに対応づけて０に初期化した重みμと、成立した場合の関数ｈの戻り値を記憶する。この重みμは、話題境界に対する寄与度を表す。つまり、重みμは、話題境界となりやすいほど大きな値をとる。なお、連結ネットワークには通常複数のパスがあるため、連結ネットワークｓ_ｔ−１、ｓ_ｔから複数のルールが得られることになる。

ステップＳ２１０：連結ネットワークｓ_ｔ−１及びｓ_ｔの境界ｃ_ｔが話題境界である（ｃ_ｔ＝ｔｒｕｅ）確率、すなわち、得点ｑ（ｃ_ｔ＝ｔｒｕｅ｜ｓ_ｔ−１，ｓ_ｔ）は以下の（式７）ように計算される。ここで、ｊ、ｍはルールの番号である。また、μ_ｊ、μ_ｍは、それぞれルール番号ｊ、ｍのルールに対する重みである。

分子は、連結ネットワークｓ_ｔ−１、ｓ_ｔから得られた全てのルールに対する、話題境界が存在する条件下でのμ×ｈの合計値のｅｘｐである。分母は、連結ネットワークｓ_ｔ−１、ｓ_ｔから得られた全てのルールに対する、話題境界が存在する条件下でのμ×ｈ、話題境界が存在しない条件下でのμ×ｈの合計値のｅｘｐである。

話題境界学習部３３は、ステップＳ２００において、連結ネットワークｓ_０、・・・、ｓ_ｉ、ｓ_Ｉを得たとすると、以下の（式８）の尤度を示す関数Ｌ_ｃが最小となるように各μを算出する。

ｌｏｇの真数である確率ｑは全体に占める割合のためその合計は１以下であり、ｌｏｇの値は負となるため、（式８）においては全体に負の符号をつけて正の値に戻している。割合が１に近くなるほど右辺の値は０に近くなるため、Ｌ_ｃが最も小さくなるようにすれば、全体において正解の占める割合が大きくなる。話題境界学習部３３は、話題境界学習情報記憶部３４に現在記憶している各ルールの重みμを、算出された重みμによって更新する。なお、目的関数Ｌ_ｃを最小化する重みμを求めるには、準ニュートン法を適用する。

ステップＳ２２０：話題境界学習部３３は、所定の閾値よりも小さな値に止まっている重みμを持つルールを話題境界学習情報記憶部３４から削除する。これは、自動で得られたルールの数が多い場合、繰り返し学習に時間を要するためである。

ステップＳ２３０：話題境界学習部３３は、収束判定を行い、収束していないと判定した場合は、話題境界学習情報記憶部３４に現在記憶されているルールについてステップＳ２１０からの処理を繰り返し、収束したと判定した場合、ステップＳ２４０にすすみ、重みの更新を終了する。収束判定では、話題境界学習部３３は、μ算出の繰り返し回数の上限が達したか否か、あるいは、Ｌ_ｃの変化量が所定の値よりも小さくなったか否かを判定する。

ステップＳ２４０：話題境界学習部３３は、話題境界学習情報記憶部３４に記憶している各ルールと、当該ルールの重みとを記述した話題境界検出モデルを話題境界検出モデル記憶部５０に書き込む。

図１１は、学習部３０の話題境界学習部３３により生成され、話題境界検出モデル記憶部５０に記憶される話題境界検出モデルのデータ構成例を示す図である。同図において、話題境界検出モデルは、話題境界検出のルールを特定する話題境界ルール番号と、話題境界が直前であるか直後であるかのタイプと、前後の連結ネットワークに含まれる単語のペア、または、単語のクラスと、当該ルールの寄与度を示す重みμとを対応づけたレコードからなる。

［３．３手順３：文境界・話題境界検出］
次に、検出部６０における文境界及び話題境界検出処理について説明する。

［３．３．１文境界検出］
図１２は、検出部６０の文境界検出部６１における文境界検出の処理フローである。

ステップＳ３００：音声認識部１０から音声認識結果を検出部６０に出力する。音声認識結果は、例えば、図４に示す単語ネットワークデータが用いられる。検出部６０の文境界検出部６１は、音声認識部１０から逐次入力される音声認識結果としての単語ネットワークデータを単語ネットワークバッファ６２に記憶する。

ステップＳ３１０：文境界検出部６１は、単語ネットワークバッファ６２にまだ読み出していない単語ネットワークが記憶されている場合（ＹＥＳ）、前回読み出した単語ネットワークｇ_ｉ−１の次の単語ネットワークｇ_ｉを読み出し、ステップＳ３２０以降の処理を行う。なお、最初に単語ネットワークを読み出す場合は、先頭から連続した２つの単語ネットワークを読み出す。従って、初期値はｉ＝２であるが、本ステップが実行される毎に、ｉは１ずつ加算されることになる。
なお、単語ネットワークバッファ６２に読み出していない連結ネットワークがなければ（ＮＯ）、処理を終了する。

ステップＳ３２０：文境界検出部６１は、文境界検出モデル記憶部４０に記憶されている文境界検出モデルを参照し、上述した（式５）により、単語ネットワークｇ_ｉ−１及び単語ネットワークｇ_ｉの間を文境界として仮定したときの得点ｐ（ｂ_ｉ＝ｔｒｕｅ｜ｇ_ｉ−１，ｇ_ｉ）を算出する。

具体的には、文境界検出部６１は、単語ネットワークｇ_ｉの始点ノード含んだ所定ノード数のパスを全て取得する。そして、文境界検出モデルから、この取得したパスで示される単語列と、直前が設定されているタイプとに対応した重みλを読み出す。さらに、重みが読み出されたパスについて、当該パスを構成する単語の事後確率を乗算し、当該パスについてのｆ^ｒの戻り値を算出する。

同様に、文境界検出部６１は、単語ネットワークｇ_ｉ−１の終点ノード含んだ所定ノード数のパスを全て取得する。そして、文境界検出モデルから、この取得したパスで示される単語列と、直後が設定されているタイプとに対応した重みλを読み出す。さらに、重みλが読み出されたパスについて、当該パスを構成する単語の事後確率を乗算し、当該パスについてのｆ^ｌの戻り値を算出する。

文境界検出部６１は、上記のように得られた値を用いて、（式５）により、ｐ（ｂ_ｉ＝ｔｒｕｅ｜ｇ_ｉ−１，ｇ_ｉ）を算出すると、以下の（式９）の条件を満たすか、つまり、算出した得点ｐ（ｂ_ｉ＝ｔｒｕｅ｜ｇ_ｉ−１，ｇ_ｉ）が予め決められた閾値ｐ_０より大きいかを判断する。

（式９）を満たさない場合、文境界検出部６１は、単語ネットワークｇ_ｉ−１，ｇ_ｉは文境界ではないと判断し、単語ネットワークｇ_ｉを保持したまま、再びステップＳ３１０からの処理を行ない、新たな単語ネットワークｇ_ｉ＋１を単語ネットワークバッファ６２から取得して、単語ネットワークｇ_ｉ，ｇ_ｉ＋１の文境界の検出を行なう。
一方、（式９）を満たす場合は、文境界と判断してステップＳ３３０の処理を行なう。

ステップＳ３３０：文境界検出部６１は、音声認識部１０から入力された音声認識結果に、文境界を示す情報を付加して外部の装置や、話題境界検出部６３に出力する。例えば、音声認識結果がＸＭＬ（extensible markup language）やＨＴＭＬ（Hypertext Markup Language）により記述される場合、直後が文境界である単語ネットワークのパスにおける最後の単語、直前が文境界である単語ネットワークのパスにおける最初の単語の間に、文境界を示す記号を付加したり、これらの単語にタグに文境界を示す属性値を付加したりすることができる。

ステップＳ３４０：文境界検出部６１は、最初の連結ネットワークの生成であれば、最初の単語ネットワークから現在読み出している文境界の直前の単語ネットワークｇ_ｉ−１までの単語ネットワークを連結して連結ネットワークを生成し、２回目以降の連結ネットワークの生成であれば、前回連結ネットワークを生成したときの文境界直後の単語ネットワークから、現在読み出している文境界の直前の単語ネットワークｇ_ｉ−１までの単語ネットワークを連結して連結ネットワークを生成する。

ステップＳ３５０：文境界検出部６１は、ステップＳ３４０において生成した連結ネットワークを話題境界検出部６３に出力し、ステップＳ３１０からの処理を行なう。連結ネットワークは、図４及び図６と同様のデータ構成のデータにより示される。

［３．３．２話題境界検出］
図１３は、検出部６０の単語ネットワークバッファ６２における文境界検出の処理フローである。

ステップＳ４００：話題境界検出部６３は、文境界検出部６１から逐次入力される連結ネットワークデータを連結ネットワークバッファ６４に記憶する。

ステップＳ４１０：話題境界検出部６３は、連結ネットワークバッファ６４にまだ読み出していない連結ネットワークが記憶されている場合（ＹＥＳ）、前回読み出した連結ネットワークｓ_ｔ−１の次の連結ネットワークｓ_ｔを読み出し、ステップＳ４２０以降の処理を行う。なお、最初に連結ネットワークを読み出す場合は、先頭から連続した２つの連結ネットワークを読み出す。従って、初期値はｔ＝２であるが、本ステップが実行される毎に、ｔは１ずつ加算されることになる。
なお、連結ネットワークバッファ６４に読み出していない連結ネットワークがなければ（ＮＯ）、処理を終了する。

ステップＳ４２０：話題境界検出部６３は、話題境界検出モデル記憶部５０に記憶されている話題境界検出モデルを参照し、上述した（式７）により、連結ネットワークｓ_ｔ−１及び連結ネットワークｓ_ｔの間が話題境界であると仮定したときの得点ｑ（ｃ_ｔ＝ｔｒｕｅ｜ｓ_ｔ−１，ｓ_ｔ）を算出する。

具体的には、話題境界検出部６３は、連結ネットワークｓ_ｔ−１に含まれている各単語と、連結ネットワークｓ_ｔに含まれている各単語との組の中で、話題境界検出モデルに記述されているルールと合致する単語の組みを抽出する。このとき、話題境界検出モデル記憶部５０に記憶されている各分野に属する単語の情報を参照して、連結ネットワークｓ_ｔ−１及びｓ_ｔに含まれる単語が属する分野を読み出し、合致するルールがあるかの判断に用いる。例えば、連結ネットワークｓ_ｔ−１に「曇り」、連結ネットワークｓ_ｔに「雨」が含まれていた場合、図９に示す話題境界ルール番号１のルールに合致する。また、連結ネットワークｓ_ｔ−１に含まれる「気温」と、連結ネットワークｓ_ｔに含まれる「雪」に対応して分野「気象」が読み出された場合、図９に示す話題境界ルール番号２のルール「気象に関する語」に合致する。

話題境界検出部６３は、話題境界検出モデルから当該ルールの重みμを読み出すと、連結ネットワークｓ_ｔ−１及び連結ネットワークｓ_ｔから、当該ルールを構成する単語の事後確率を読み出してｈの戻り値を算出する。話題境界検出部６３は、このようにして得られた値を用いて、（式７）により、ｑ（ｃ_ｔ＝ｔｒｕｅ｜ｓ_ｔ−１，ｓ_ｔ）を算出すると、以下の（式１０）の条件を満たすか、つまり、算出した得点ｑ（ｃ_ｔ＝ｔｒｕｅ｜ｓ_ｔ−１，ｓ_ｔ）が予め決められた閾値ｑ_０より大きいかを判断する。

（式１０）を満たさない場合、話題境界検出部６３は、連結ネットワークｓ_ｔ−１，ｓ_ｔは話題境界ではないと判断し、連結ネットワークｓ_ｔを保持したまま、再びステップＳ４１０からの処理を行ない、新たな連結ネットワークｓ_ｔ＋１を連結ネットワークバッファ６４から取得して、連結ネットワークｓ_ｔ，ｓ_ｔ＋１の話題境界の検出を行なう。
一方、（式１０）を満たす場合は、話題境界と判断してステップＳ４３０の処理を行なう。

ステップＳ４３０：話題境界検出部６３は、音声認識部１０から入力された音声認識結果に、または、ステップＳ３３０において文境界検出部６１によって文境界が付加された認識結果に、話題境界を示す情報を付加して外部の装置に出力する。例えば、音声認識結果がＸＭＬやＨＴＭＬにより記述される場合、直後が話題境界である連結ネットワークにおける最後の単語、直前が話題境界である連結ネットワークの最初の単語の間に、話題境界を示す記号を付加したり、これらの単語のタグに話題境界を示す属性値を付加したりすることができる。

なお、上記実施形態においては、音声認識結果を用いた話題境界の検出について説明したが、一般のテキスト文書を用いることもできる。一般のテキスト文書を用いた場合、上述した話題境界検出装置１における処理を簡易化して話題検出を行なうことができる。
つまり、テキスト文書の場合、形態素解析などによって単語に分割し、句点によって区切られた文章を連結ネットワークとする。また、事後確率を１．０として上記処理を行なう。

［４．効果］
本実施形態の話題境界検出装置によれば、音声認識の確からしさを示す事後確率を用いて、音声認識結果から文境界を検出し、この検出した文境界の中から話題境界を検出する。このため、音声認識結果における適切な位置で、話題境界を正確に検出することができる。これにより、文書検索、音声文書検索、動画像検索等で用いられる話題境界を検出することができる。一般に、テキスト文書や、音声認識した単語列を含む音声文書、動画像は、複数の話題から構成されていることが多い。テキスト文書や音声認識結果等の文書に含まれている単語列を入力とし、この文書を話題に分割することが可能となれば、特定の話題を検索する、文書に自動的に見出しをつける、などの用途に利用が可能である。
加えて、話題境界を逐次定められるため、リアルタイム音声認識システムから出力される音声認識結果に文境界及び話題境界をリアルタイムに付加することができる。よって、動画像に併せて出力される音声認識結果に、文境界や話題境界を付加して表示させることができる。
また、入力として、既存の統計的言語モデルを用いた音声認識結果を利用することが可能である。

［５．その他］
なお、上述の話題境界検出装置１の音声認識部１０、学習データ記憶部２０、学習部３０、文境界検出モデル記憶部４０、話題境界検出モデル記憶部５０、及び、検出部６０は、内部にコンピュータシステムを有している。そして、話題境界検出装置１の音声認識部１０、学習部３０、検出部６０の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

１…話題境界検出装置
１０…音声認識部
２０…学習データ記憶部
３０…学習部
３１…文境界学習部
３２…文境界学習情報記憶部
３３…話題境界学習部
３４…話題境界学習情報記憶部
４０…文境界検出モデル記憶部
５０…話題境界検出モデル記憶部
６０…検出部
６１…文境界検出部
６２…単語ネットワークバッファ
６３…話題境界検出部
６４…連結ネットワークバッファ

Claims

単語列と、当該単語列の直前または直後が文境界となる寄与率を示す重みとを対応づけて記憶する文境界検出モデル記憶部と、
共起する単語と、当該共起する単語がそれぞれ含まれる２つの連結ネットワークの間が話題境界となる寄与率を示す重みとを対応づけて記憶する話題境界検出モデル記憶部と、
音声認識の出力結果のデータから得られた、ノード間の単語と当該単語の事後確率とを示す、連続した２つの単語ネットワークのうち、先に発生した単語ネットワークから終端ノードに至るパスの単語列及び当該単語列の事後確率を取得するとともに、当該単語列の直後を文境界とする重みを前記文境界検出モデル記憶部から読み出し、後に発生した単語ネットワークから先頭ノードより始まるパスの単語列及び当該単語列の事後確率を取得するとともに、当該単語列の直前を文境界とする重みを前記文境界検出モデル記憶部から読み出し、前記単語列の前記重みを当該単語列の前記事後確率に応じて変更した値に基づいて、前記連続した２つの単語ネットワーク間が文境界である確率を算出し、算出した確率が所定の値を越えた場合に、この検出した文境界と直前に検出した文境界との間に含まれる単語ネットワークを連結して連結ネットワークを生成する文境界検出部と、
前記話題境界検出モデル記憶部から、前記文境界検出部により生成された連続した２つの連結ネットワークに共起する単語の重みを読み出すとともに、当該共起する単語の事後確率を前記連続する２つの連結ネットワークから読み出し、前記共起する単語の前記重みを、当該共起する単語の前記事後確率に応じて変更した値に基づいて、前記連続した２つの連結ネットワークの間が話題境界である確率を算出し、算出した確率が所定の値を超えた場合に、前記連結ネットワーク間に話題境界がある旨の情報を出力する話題境界検出部と、
を備えることを特徴とする話題境界検出装置。
前記話題境界検出部は、前記音声認識の出力結果のデータに基づいて前記文境界検出部が生成した前記連結ネットワークの代わりに、テキストデータに含まれる文章を用いることを特徴とする請求項１に記載の話題境界検出装置。
音声認識結果の単語ネットワークと、文境界の前記単語ネットワークと、連結ネットワークを構成する前記単語ネットワークと、話題境界の直前及び直後の前記連結ネットワークとからなる学習データを記憶する学習データ記憶部と、
前記学習データ記憶部に記憶されている単語ネットワークデータから、先頭のノードより始まるパス、及び、終端のノードに至るパスの単語列及び当該単語列の事後確率を読み出し、読み出した当該単語列及び当該単語列の前記事後確率に基づいて、前記学習データにより示される文境界が存在する、連続した２つの前記単語ネットワークについて算出した前記文境界の確率が最大となるように、読み出した前記単語列に対応した前記重みを決定する文境界学習部と、
前記学習データ記憶部に記憶されている連続した２つの連結ネットワークデータから共起する単語及び当該単語の事後確率を読み出し、読み出した当該共起する単語及び当該単語の前記事後確率に基づいて、前記学習データにより示される話題境界が存在する、連続した２つの前記連結ネットワークについて算出した前記話題境界の確率が最大となるように、読み出した前記共起する単語に対応した前記重みを決定する話題境界学習部と、
をさらに備えることを特徴とする請求項１または請求項２に記載の話題境界検出装置。
コンピュータを、
単語列と、当該単語列の直前または直後が文境界となる寄与率を示す重みとを対応づけて記憶する文境界検出モデル記憶部、
共起する単語と、当該共起する単語がそれぞれ含まれる２つの連結ネットワークの間が話題境界となる寄与率を示す重みとを対応づけて記憶する話題境界検出モデル記憶部、
音声認識の出力結果のデータから得られた、ノード間の単語と当該単語の事後確率とを示す、連続した２つの単語ネットワークのうち、先に発生した単語ネットワークから終端ノードに至るパスの単語列及び当該単語列の事後確率を取得するとともに、当該単語列の直後を文境界とする重みを前記文境界検出モデル記憶部から読み出し、後に発生した単語ネットワークから先頭ノードより始まるパスの単語列及び当該単語列の事後確率を取得するとともに、当該単語列の直前を文境界とする重みを前記文境界検出モデル記憶部から読み出し、前記単語列の前記重みを当該単語列の前記事後確率に応じて変更した値に基づいて、前記連続した２つの単語ネットワーク間が文境界である確率を算出し、算出した確率が所定の値を越えた場合に、この検出した文境界と直前に検出した文境界との間に含まれる単語ネットワークを連結して連結ネットワークを生成する文境界検出部、
前記話題境界検出モデル記憶部から、前記文境界検出部により生成された連続した２つの連結ネットワークに共起する単語の重みを読み出すとともに、当該共起する単語の事後確率を前記連続する２つの連結ネットワークから読み出し、前記共起する単語の前記重みを、当該共起する単語の前記事後確率に応じて変更した値に基づいて、前記連続した２つの連結ネットワークの間が話題境界である確率を算出し、算出した確率が所定の値を超えた場合に、前記連結ネットワーク間に話題境界がある旨の情報を出力する話題境界検出部、
として機能させることを特徴とするコンピュータプログラム。