JP5265445B2 - 話題境界検出装置及びコンピュータプログラム - Google Patents

話題境界検出装置及びコンピュータプログラム Download PDF

Info

Publication number
JP5265445B2
JP5265445B2 JP2009110003A JP2009110003A JP5265445B2 JP 5265445 B2 JP5265445 B2 JP 5265445B2 JP 2009110003 A JP2009110003 A JP 2009110003A JP 2009110003 A JP2009110003 A JP 2009110003A JP 5265445 B2 JP5265445 B2 JP 5265445B2
Authority
JP
Japan
Prior art keywords
word
boundary
sentence
topic
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009110003A
Other languages
English (en)
Other versions
JP2010257425A (ja
Inventor
彰夫 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2009110003A priority Critical patent/JP5265445B2/ja
Publication of JP2010257425A publication Critical patent/JP2010257425A/ja
Application granted granted Critical
Publication of JP5265445B2 publication Critical patent/JP5265445B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、音声認識結果から話題の境界を検出する話題境界検出装置及びコンピュータプログラムに関する。
従来技術には、音声認識による結果として得られた単語列や文章である音声文書を話題分割するものがあり、この話題分割では、HMM(隠れマルコフモデル)のような統計的モデルが用いられてきた(例えば、非特許文献1参照)。非特許文献1に記載の従来技術では、音声文書内の各話題を1つの状態とするようなHMMを定義し、対象音声文書中の話題を分割している。なお、HMMについては、非特許文献2に記載されている。
長野、森、西村,「HMMの変分ベイズ学習によるテキスト文書の話題分割方法」,情報処理学会研究報告、vol.2004,pp49−54、2004年 北研二,「確率的言語モデル」,東京大学出版会,1999年,p.57−62
非特許文献1の技術では、音声認識結果に含まれる話題を状態とした確率モデルを用意し、これらを連結して音声文書を分割しているが、認識誤りの可能性が高い語に基づいて話題分割を行なってしまう可能性がある。また、予め音声文書に含まれる話題の数を知ることは一般には不可能であるため、予測される話題数に応じたモデルをいくつか用意し、事後確率が最大となるモデルに基づいて話題分割を行なっている。従って、放送音声など、大量の音声文書について話題分割を行なう場合、時間を要する上、逐次的な処理が不可能である。
本発明は、このような事情を考慮してなされたもので、その目的は、音声認識結果における話題の境界を、単語の信頼度を用いながら逐次的に検出することができる話題境界検出装置及びコンピュータプログラムを提供することにある。
[1] 本発明の一態様は、単語列と、当該単語列の直前または直後が文境界となる寄与率を示す重みとを対応づけて記憶する文境界検出モデル記憶部と、共起する単語と、当該共起する単語がそれぞれ含まれる2つの連結ネットワークの間が話題境界となる寄与率を示す重みとを対応づけて記憶する話題境界検出モデル記憶部と、音声認識の出力結果のデータから得られた、ノード間の単語と当該単語の事後確率とを示す、連続した2つの単語ネットワークのうち、先に発生した単語ネットワークから終端ノードに至るパスの単語列及び当該単語列の事後確率を取得するとともに、当該単語列の直後を文境界とする重みを前記文境界検出モデル記憶部から読み出し、後に発生した単語ネットワークから先頭ノードより始まるパスの単語列及び当該単語列の事後確率を取得するとともに、当該単語列の直前を文境界とする重みを前記文境界検出モデル記憶部から読み出し、前記単語列の前記重みを当該単語列の前記事後確率に応じて変更した値に基づいて、前記連続した2つの単語ネットワーク間が文境界である確率を算出し、算出した確率が所定の値を越えた場合に、この検出した文境界と直前に検出した文境界との間に含まれる単語ネットワークを連結して連結ネットワークを生成する文境界検出部と、前記話題境界検出モデル記憶部から、前記文境界検出部により生成された連続した2つの連結ネットワークに共起する単語の重みを読み出すとともに、当該共起する単語の事後確率を前記連続する2つの連結ネットワークから読み出し、前記共起する単語の前記重みを、当該共起する単語の前記事後確率に応じて変更した値に基づいて、前記連続した2つの連結ネットワークの間が話題境界である確率を算出し、算出した確率が所定の値を超えた場合に、前記連結ネットワーク間に話題境界がある旨の情報を出力する話題境界検出部と、を備えることを特徴とする話題境界検出装置である。
この発明によれば、話題境界検出装置は、単語列と、直前または直後が文境界となる寄与率を示す重みとを対応づけた文境界検出モデル、及び、共起する単語と、話題境界となる寄与率を示す重みとを対応づけた話題境界検出モデルを記憶する。そして、音声認識結果として入力された単語ネットワークデータから、文境界の単語列及び当該単語列の事後確率を取得するとともに、文境界検出モデルから当該単語列の重みを読み出し、単語列の重みを事後確率に応じて変更した値を用いて文境界の確率を算出する。この確率が高ければ文境界と判断し、文境界毎に単語ネットワークを連結して連結ネットワークを生成する。続いて、連続した2つの連結ネットワークから共起する単語とその事後確率を取得するとともに、当該共起する単語の重みを話題境界検出モデルから読み出し、共起する単語の重みを事後確率に応じて変更した値を用いて話題境界の確率を算出する。算出した確率が高ければ話題境界があると判断し、連結ネットワーク間に話題境界がある旨の情報を出力する。
これにより、音声認識結果から、文章が終了する適切な位置において、正確に話題の境界を検出することが可能となる。また、話題境界検出の逐次処理が可能となるため、音声認識結果に併せて、リアルタイムに話題境界を出力することができる。
[2] 本発明の一態様は、上述する話題境界検出装置であって、前記話題境界検出部は、前記音声認識の出力結果のデータに基づいて前記文境界検出部が生成した前記連結ネットワークの代わりに、テキストデータに含まれる文章を用いることを特徴とする。
この発明によれば、話題境界検出装置は、音声認識結果に代えてテキストデータを用い、話題境界検出処理を行なう。
これにより、テキスト文書を対象にして、話題の境界を検出することができる。
[3] 本発明の一態様は、上述する話題境界検出装置であって、音声認識結果の単語ネットワークと、文境界の前記単語ネットワークと、連結ネットワークを構成する前記単語ネットワークと、話題境界の直前及び直後の前記連結ネットワークとからなる学習データを記憶する学習データ記憶部と、前記学習データ記憶部に記憶されている単語ネットワークデータから、先頭のノードより始まるパス、及び、終端のノードに至るパスの単語列及び当該単語列の事後確率を読み出し、読み出した当該単語列及び当該単語列の前記事後確率に基づいて、前記学習データにより示される文境界が存在する、連続した2つの前記単語ネットワークについて算出した前記文境界の確率が最大となるように、読み出した前記単語列に対応した前記重みを決定する文境界学習部と、前記学習データ記憶部に記憶されている連続した2つの連結ネットワークデータから共起する単語及び当該単語の事後確率を読み出し、読み出した当該共起する単語及び当該単語の前記事後確率に基づいて、前記学習データにより示される話題境界が存在する、連続した2つの前記連結ネットワークについて算出した前記話題境界の確率が最大となるように、読み出した前記共起する単語に対応した前記重みを決定する話題境界学習部と、をさらに備えることを特徴とする。
この発明によれば、音声認識結果に文境界、話題境界の情報を付加した学習データに基づいて、文境界検出モデルと話題境界検出モデルを生成する。
これにより、文境界の検出に用いる文境界検出モデルと、話題境界の検出に用いる話題境界検出モデルとを、実際の音声認識結果に基づいて生成することができるため、信頼性の高いモデルを作成することができる。
[4] 本発明の一態様は、コンピュータを、単語列と、当該単語列の直前または直後が文境界となる寄与率を示す重みとを対応づけて記憶する文境界検出モデル記憶部、共起する単語と、当該共起する単語がそれぞれ含まれる2つの連結ネットワークの間が話題境界となる寄与率を示す重みとを対応づけて記憶する話題境界検出モデル記憶部、音声認識の出力結果のデータから得られた、ノード間の単語と当該単語の事後確率とを示す、連続した2つの単語ネットワークのうち、先に発生した単語ネットワークから終端ノードに至るパスの単語列及び当該単語列の事後確率を取得するとともに、当該単語列の直後を文境界とする重みを前記文境界検出モデル記憶部から読み出し、後に発生した単語ネットワークから先頭ノードより始まるパスの単語列及び当該単語列の事後確率を取得するとともに、当該単語列の直前を文境界とする重みを前記文境界検出モデル記憶部から読み出し、前記単語列の前記重みを当該単語列の前記事後確率に応じて変更した値に基づいて、前記連続した2つの単語ネットワーク間が文境界である確率を算出し、算出した確率が所定の値を越えた場合に、この検出した文境界と直前に検出した文境界との間に含まれる単語ネットワークを連結して連結ネットワークを生成する文境界検出部、前記話題境界検出モデル記憶部から、前記文境界検出部により生成された連続した2つの連結ネットワークに共起する単語の重みを読み出すとともに、当該共起する単語の事後確率を前記連続する2つの連結ネットワークから読み出し、前記共起する単語の前記重みを、当該共起する単語の前記事後確率に応じて変更した値に基づいて、前記連続した2つの連結ネットワークの間が話題境界である確率を算出し、算出した確率が所定の値を超えた場合に、前記連結ネットワーク間に話題境界がある旨の情報を出力する話題境界検出部、として機能させることを特徴とするコンピュータプログラムである。
この発明によれば、話題境界検出装置は、単語列と、直前または直後が文境界となる寄与率を示す重みとを対応づけた文境界検出モデル、及び、共起する単語と、話題境界となる寄与率を示す重みとを対応づけた話題境界検出モデルを記憶する。そして、音声認識結果として入力された単語ネットワークデータから、文境界の単語列及び当該単語列の事後確率を取得するとともに、文境界検出モデルから当該単語列の重みを読み出し、単語列の重みを事後確率に応じて変更した値を用いて文境界の確率を算出する。この確率が高ければ文境界と判断し、文境界毎に単語ネットワークを連結して連結ネットワークを生成する。続いて、連続した2つの連結ネットワークから共起する単語とその事後確率を取得するとともに、当該共起する単語の重みを話題境界検出モデルから読み出し、共起する単語の重みを事後確率に応じて変更した値を用いて話題境界の確率を算出する。算出した確率が高ければ話題境界があると判断し、連結ネットワーク間に話題境界がある旨の情報を出力する。
これにより、音声認識結果から、文章が終了する適切な位置において、正確に話題の境界を検出することが可能となる。また、話題境界検出の逐次処理が可能となるため、音声認識結果に併せて、リアルタイムに話題境界を出力することができる。
本発明によれば、音声認識の確からしさを示す事後確率を用いて、音声認識結果から文境界を検出し、この検出した文境界の中から話題境界を検出するため、音声認識結果における適切な位置で、話題境界を正確に検出することができる。これにより、動画像等の音声認識結果に話題境界を付与することができ、1つの動画像を話題毎に分割して検索可能することが可能となる。また、関連する複数のキーワードを含んだ話題を扱っている動画像を検索することも可能となる。
加えて、話題境界を逐次定められるため、音声認識システムから出力される音声認識結果に文境界及び話題境界をリアルタイムに付加することができる。よって、動画像に併せて出力される音声認識結果に、文境界や話題境界を表示させることができる。
本発明の一実施形態による話題境界検出装置の構成を示す機能ブロック図である。 単語ネットワークと文境界の例を示す図である。 連結ネットワークと話題境界の例を示す図である。 同実施形態による単語ネットワークデータのデータ構成例を示す図である。 同実施形態による文境界データのデータ構成例を示す図である。 同実施形態による連結ネットワークデータのデータ構成例を示す図である。 同実施形態による話題境界データのデータ構成例を示す図である。 同実施形態による文境界学習の処理フローである。 同実施形態による文境界検出モデルのデータ構成例を示す図である。 同実施形態による文境界学習の処理フローである。 同実施形態による話題境界検出モデルのデータ構成例を示す図である。 同実施形態による文境界検出の処理フローである。 同実施形態による話題界検出の処理フローである。
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
[1.構成]
図1は、本発明の一実施形態による話題境界検出装置1の構成を示す機能ブロック図であり、発明と関係する機能ブロックのみ抽出して示してある。話題境界検出装置1は、音声認識結果の単語列から話題の境界を検出する。
同図において、話題境界検出装置1は、音声認識部10、学習データ記憶部20、学習部30、文境界検出モデル記憶部40、話題境界検出モデル記憶部50、及び、検出部60を備える。学習データ記憶部20、文境界検出モデル記憶部40、及び、話題境界検出モデル記憶部50は、ハードディスク装置や半導体メモリなどで実現される。また、学習部30、及び、検出部60は、サーバ等のコンピュータ装置により実現される。
音声認識部10は、既存の音声認識システムを用いることができ、入力された音声から、音声認識結果を出力する。学習データ記憶部20は、音声認識部10による音声認識結果に、ユーザによって予め文境界及び話題境界の位置を付与した学習データを記憶する。
学習部30は、文境界学習部31、文境界学習情報記憶部32、話題境界学習部33、及び、話題境界学習情報記憶部34を備える。文境界学習部31は、学習データ記憶部20に記憶されている学習データを用いて、文の境界となる単語列を検出するために用いる文境界検出モデルを作成し、文境界検出モデル記憶部40に書き込む。文境界学習情報記憶部32は、文境界検出モデル作成のためのデータを記憶する。話題境界学習部33は、学習データ記憶部20に記憶されている学習データを用いて、話題の境界となる文章を検出するために用いる話題境界検出モデルを作成し、話題境界検出モデル記憶部50に書き込む。話題境界学習情報記憶部34は、話題境界検出モデル作成のためのデータを記憶する。
検出部60は、文境界検出部61、単語ネットワークバッファ62、話題境界検出部63、及び、連結ネットワークバッファ64を備える。文境界検出部61は、文境界検出モデル記憶部40に記憶されている文境界検出モデルを用いて、音声認識部10から入力された音声認識結果の文境界を検出する。単語ネットワークバッファ62は、音声認識部10から出力された文境界検出対象の音声認識結果である単語列を記憶する。話題境界検出部63は、話題境界検出モデル記憶部50に記憶されている話題境界検出モデルを用いて、文境界検出部61により検出された文境界から話題境界を検出する。連結ネットワークバッファ64は、文境界検出部61による文境界に基づいて単語列を連結した、話題境界の検出対象となる文章を記憶する。
[2.文境界及び話題境界検出の概要]
本実施形態による話題境界検出装置1は、話題境界の検出を以下の2段階の処理により行なう。
(第1段階)単語ネットワークから文境界を検出する文境界検出処理。
(第2段階)検出された文境界から話題境界を検出する話題境界検出処理。
検出部60は、上記の第1段階の処理と第2段階の処理を逐次的に適用することにより、音声認識結果から話題境界を検出する。以下、第1段階の文境界検出処理、及び、第2段階の話題境界検出処理の概要を説明する。
[2.1 第1段階:文境界検出処理]
本実施の形態による話題境界検出装置1の音声認識部10は、音声認識結果として単語ネットワークを出力する。単語ネットワークは、音声認識における一連の単語仮説をグラフとして表現したものであり、ネットワークのノード(頂点)には、単語を発話した時刻、または、発話の終了時刻が与えられ、ノード間をつなぐエッジ(辺)には、単語の表記とその事後確率が与えられる。単語ネットワークは、主として小休止等によって区切られた入力音声に対し、音声認識結果をグラフ上に表現したものである。従って、単語ネットワークの始端及び終端は必ずしも意味的な文としての始端や終端とはならない。
なお、本実施の形態では、単語ネットワークとしてコンフュージョンネットワークを用いている。コンフュージョンネットワーク及び事後確率については、(参考文献1)L. Mangu, E. Brill, A. Stolcke, "Finding consensus in speech recognition: word error minimization and other applications of confusion networks," Computer Speech and Language, vol.14, no.4, pp373-400,2000、(参考文献2)D. Hakkani-Tur, F. Bechet, G. Riccardi, and G. Tur, "Beyond ASR 1-best: Using word confusion networks in spoken language understanding," Computer Speech and Language, vol.20, no.4, pp.495-514, 2006を参照のこと。
図2は、単語ネットワークと文境界について示す図である。図2において、単語ネットワークの各エッジの上には、音声認識結果の単語及びその事後確率が割当てられている。エッジ上の事後確率の値が大きいほど、当該単語は正解としてもっともらしい、つまり、単語仮説の信頼度が高いと考えられる。同図においては、時刻自体は省略しているが、単語ネットワークの並びは時刻順となっている。
簡便のため、単語ネットワークに対して、以下を仮定する。
(仮定1)単語ネットワークの終端ノードは、句点「。」もしくは読点「、」に該当する。
(仮定2)単語ネットワークの終端ノードを除く各ノードは句点に該当しない。
上記の仮定により、単語ネットワーク間の境界の中から、句点に該当する境界を見つければ、これが文境界となる。そして、話題の境界は、文境界のいずれかの点にあたるとすれば、第2段階の話題境界検出処理では、文境界として検出されたものの中から話題境界を検出すればよい。
文境界が正しく検出されない場合、話題の境界が1つの文をまたがってしまう可能性があり、話題境界を正しく検出できずに誤検出となる可能性がある。従来技術においては、音声認識結果を単独の文と仮定して処理するため、文境界ではない箇所を話題とみなしてしまうことがあった。また、従来技術では、正解としてのもっともらしさ、つまり、音声認識の信頼度を使用せずに話題境界を検出していたため、信頼性が低かった。
図2を例に、本実施の形態による第1段階の文境界検出処理の詳細を説明する。文境界を検出するために、文の先頭に出現しやすい単語列や、文末に出現しやすい単語列などを特徴として文境界検出モデル記憶部40に蓄積しておき、文境界検出部61はこれを用いて文境界を判断する。例えば、文の先頭に出現しやすい単語列の特徴として、文境界の直前にある単語ネットワーク内の終端ノードから、任意の長さのパスに含まれる単語列を用いる。また、文末に出現しやすい単語列として、文境界の直後にある単語ネットワーク内の始端ノードから、任意の長さのパスに含まれる単語列を用いる。これらの特徴は、学習部30の文境界学習部31が学習データ記憶部20に記憶されている学習データに基づいて抽出し、文境界検出モデル記憶部40に蓄積する。ここで、単語ネットワークのパスとは、ネットワーク中のあるノードから別のノードに至る経路を示す。
例えば、図2(a)の単語ネットワーク1と単語ネットワーク2の間に文境界があると仮定する。つまり、単語ネットワーク1と単語ネットワーク2の境界を文境界候補として考える。文境界候補の直前にある単語ネットワーク1において、終端ノードにつながるパスの1つは、「し/まし/た」である。各エッジ「し」、「まし」、「た」の事後確率はそれぞれ0.99、0.8、0.9であるため、このパスの事後確率p1は、各エッジの事後確率の積として以下の(式1)のように算出される。
p1=0.99×0.8×0.9=0.7128 …(式1)
また、文境界候補直後の単語ネットワーク2において、始端ノードからつながるパスの1つは、「次/の/ニュース」である。各エッジ「次」、「の」、「ニュース」の事後確率はそれぞれ0.6、0.8、0.9であるため、このパスの事後確率p2は、各エッジの事後確率の積として以下の(式2)のように算出される。
p2=0.6×0.8×0.9=0.432 …(式2)
「し/まし/た」のような単語列は文末に、「次/の/ニュース」のような単語列は文頭に出現しやすい。従って、単語ネットワークにおけるこれらの単語列(パス)の事後確率が大きければ、当該単語ネットワークの境界が文境界である可能性が高い。
一方、図2(b)の単語ネットワーク3と単語ネットワーク4の間に文境界があると仮定する。つまり、単語ネットワーク3と単語ネットワーク4を文境界候補として考える。文境界候補の直前にある単語ネットワーク3において、終端ノードにつながるパスの1つは、「この/よう/に」である。各エッジ「この」、「よう」、「に」の事後確率はそれぞれ0.7、0.9、0.99であるため、このパスの事後確率p3は、各エッジの事後確率の積として以下の(式3)のように算出される。
p3=0.7×0.9×0.99=0.6237 …(式3)
また、文境界候補直後の単語ネットワーク4において、始端ノードからつながるパスの1つは、「述べ/まし/た」である。各エッジ「述べ」、「まし」、「た」の事後確率はそれぞれ0.6、0.9、0.8であるため、このパスの事後確率p4は、各エッジの事後確率の積として以下の(式4)のように算出される。
p4=0.6×0.9×0.8=0.432 …(式4)
「この/よう/に」のように助詞で終わる単語列は、単語列がその後ろに続くことが多く、「述べ/まし/た」のような単語列は、別の単語列がその前に続くことが多い。従って、単語ネットワークにおけるこれらの単語列の事後確率が大きければ、当該単語ネットワークの境界が文境界である可能性は低い。
文境界検出部61は、単語ネットワークの境界が文境界かどうかを、文境界候補を挟む2つのネットワークのパス、及び、当該パスの事後確率等とから、文境界としての妥当性を確率や得点などの数値により表し、当該数値に基づいて判定する。文境界としての妥当性とは、ネットワークのパスが文頭/文末に出現しやすいか、他の単語列が前/後ろに続くことが多いかなどの特徴である。
一つの単語ネットワークにおいて、始端/終端ノードにつながるパスは一般に複数存在する(例えば、単語ネットワーク1では、「し/まし/た」、「し/ます/が」、…等)。従って、文境界かどうかの得点は、上述したように、単語ネットワーク上の各々のパスとその事後確率に基づく得点として表現される。つまり、文頭/文末に出現しやすい単語列の場合は文境界の確率を示す得点の数値を高く、他の単語列が前/後ろに続くことが多い場合は得点を低くするとともに、事後確率が低いほど得点の数値が低くなるようにする。文境界検出部61は、2つの単語ネットワーク内の文境界候補についてこれらの得点を得、この得られた得点が事前に定めた閾値より大きければ、その2つの文境界候補を文境界として判断する。なお、得点の具体的な計算方法については後述する。
[2.2 第2段階:話題境界検出処理]
第1段階の文境界検出処理において文境界検出部61が文境界を検出した後、第2段階として、話題境界検出部63は、この文境界の中から話題境界を検出する。このとき、第1段階で文境界が検出されなかった単語ネットワーク同士は、1つの文として全て連結されるものとする。この連結された単語ネットワークを連結ネットワークとよぶ。
話題境界検出部63は、連結ネットワークから話題境界を検出するために、以下のような特徴を用いる。
(特徴1)連結ネットワーク間で共起する単語
(特徴2)連結ネットワーク間で共起する単語の意味的な類義牲
(特徴3)連結ネットワークに含まれる名詞(人名、地名、組織名など)などの共起関係
図3は、連結ネットワークと話題境界の例を示す図である。
図3(a)では、連結ネットワーク5には「雨」という語が、連結ネットワーク6には「曇り」という語が含まれており、それぞれ事後確率0.9、0.8と比較的高い値となっている。「雨」と「曇り」は、どちらも気象に関する類義語であり、これらが連続して生起するような話題は気象情報である。従って、これらの語が共起する、連結ネットワーク5と連結ネットワーク6との間で仮定した話題境界候補は、話題境界ではないと考えられる。これの例では、「雨」と「曇り」の共起を用いたが、これらの語を「気象に関する語」という意味的な類犠牲に置き換え、その共起をとらえてもよい。
一方、図3(b)では、連結ネットワーク7には「省エネ」や「強化」という語が高い事後確率で含まれる一方、連結ネットワーク8には「米」や「ニンニク」が含まれている。どちらも特定の話題では共起しにくく、これらの語が共起する、連結ネットワーク7と連結ネットワーク8との間で仮定した話題境界候補は、話題境界であると考えられる。
文境界と同様、話題境界検出部63は、連結ネットワークの境界が話題境界かどうかを、文境界をはさむ2つの連結ネットワークに含まれる単語が異なる話題で共起する確率が高いか低いかの特徴と、当該2つの連結ネットワークに含まれる単語やパスの事後確率とから、話題境界としての妥当性を確率や得点などの数値により表し、当該数値を評価することで検出する。
1つの連結ネットワークにおいても、単語やパスは一般に複数存在する(連結ネットワーク5の場合、「雨」、「飴」など)。従って、話題境界かどうかの得点は、上述したように、連結ネットワーク上の各々のパス、及び、当該パスの事後確率により定められる得点として表現される。つまり、隣あう連結ネットワークから得られる単語の組み合わせが異なる話題で共起する確率が高ければ得点を高く、同一の話題で共起する確率が高ければ得点を低くするとともに、事後確率が低いほど得点の数値が低くなるようにする。話題境界検出部63は、2つの連結ネットワーク内の話題境界候補についてこれらの得点を得、この得られた得点が事前に定めた閾値より大きければ、その2つの話題境界候補を話題境界として判断する。なお、得点の具体的な計算方法については後述する。
[3.詳細処理手順]
次に、話題境界検出装置1の詳細な処理手順を説明する。ここでは、音声認識システム等に備えられた音声認識部10の出力として単語ネットワークを得た後、話題境界を検出する場合について説明する。
本実施形態の話題境界検出装置1は、以下の処理手順によって動作する。
(手順1)音声認識部10から、音声認識結果である単語ネットワークを収集する。
(手順2)学習部30は、学習データ記憶部20から、手順1により収集された単語ネットワークに文境界及び話題境界を付与した学習データを読み出して、文境界検出モデル、話題境界検出モデルを学習し、それぞれを文境界検出モデル40、話題境界検出モデル記憶部50に書き込む。
(手順3)検出部60は、文境界検出モデル40に記憶されている文境界検出モデルを使用して文境界を検出し、話題境界検出モデル記憶部50に記憶されている話題境界検出モデルを使用して、検出された文境界の中から話題境界を検出する。
以下、各手順の詳細な処理を説明する。
[3.1 手順1:単語ネットワーク収集]
まず、音声認識部10において、入力音声に基づいて音声認識を行い、その音声認識結果を示す単語ネットワークを生成し、出力する。学習に用いる場合、この単語ネットワークデータは、学習データ記憶部20に書き込まれる。
図4は、音声認識部10から出力され、学習データ記憶部20に記憶される単語ネットワークデータのデータ構成例を示す図である。同図において、単語ネットワークデータは、単語ネットワークを特定する単語ネットワーク番号、当該単語ネットワークの発話時刻、当該単語ネットワークに含まれるエッジを特定するエッジ番号、当該エッジの開始ノード及び終了ノードのノード番号、及び、当該エッジの単語及び当該単語の事後確率を対応づけて記述している。時刻は、hh(時間):mm(分):ss.ss(1/100秒単位の秒)で示しており、相対的な時刻であってもよい。なお、単語ネットワーク番号は、時刻順に付与されるものとする。
例えば、単語ネットワーク番号1により特定される単語ネットワーク1(図2(a))の場合、ノード番号0を開始ノード、ノード番号1を終了ノードとするエッジには、エッジ番号1で特定され、単語「し」、事後確率「0.99」であるエッジと、エッジ番号「2」で特定され、単語「NULL」、事後確率「0.01」であるエッジがあることが記述されている。
続いて、ユーザは、学習データ記憶部20に記憶されている単語ネットワークデータに付加すべき文境界及び話題境界の情報をユーザ端末に入力する。これにより、ユーザの端末は、単語ネットワークに付加する文境界及び話題境界の情報を生成して、学習データ記憶部20に書き込む。つまり、学習データとして、上述した単語ネットワークデータと、以下に示す文境界データ、連結ネットワークデータ、及び、連結ネットワークデータとが学習データ記憶部20に記憶される。
図5は、文境界の指定によって生成され、学習データ記憶部20に記憶される文境界データのデータ構成例を示す図である。同図において、文境界データは、文境界が存在する単語ネットワークを特定する単語ネットワーク番号と、文境界が単語ネットワークの直前か直後かのタイプとを対応づけたレコードからなる。
図6は、文境界の指定によって生成され、学習データ記憶部20に記憶される連結ネットワークデータのデータ構成例を示す図である。同図において、連結ネットワークデータは、連結ネットワークを特定する連結ネットワーク番号と、当該連結ネットワークに含まれる単語ネットワークを特定する単語ネットワーク番号とを対応づけたレコードからなる。連結ネットワークは、時刻順の単語ネットワークを、直前が文境界である単語ネットワークから直後が文境界である単語ネットワークまでの範囲に区切って連結したものである。
図7は、話題境界の指定によって生成され、学習データ記憶部20に記憶される話題境界データのデータ構成例を示す図である。同図において、話題境界データは、話題境界が存在する連結ネットワークを特定する連結ネットワーク番号と、話題境界が連結ネットワークの直前か直後かのタイプとを対応付けたレコードからなる。
[3.2 手順2:文境界・話題境界学習]
次に、学習部30による文境界検出モデル及び話題境界検出モデルの学習処理について説明する。学習部30は、文境界、話題境界の検出のための学習をそれぞれ独立して並行に行なう。
[3.2.1 文境界学習]
図8は、学習部30の文境界学習部31における文境界学習の処理フローである。
ステップS100:同図において、文境界学習部31は、学習データ記憶部20から教師あり学習データとして、単語ネットワークデータ及び文境界データを読み出し、文境界学習情報記憶部32に記憶する。
続いて、文境界学習部31は、文境界学習情報記憶部32から単語ネットワーク番号1及び2の単語ネットワーク、単語ネットワーク番号2及び3の単語ネットワーク、…のように、隣接する2つの単語ネットワークを順に読み出す。このとき、先の時刻の単語ネットワークをgi−1、後の時刻の単語ネットワークをgとする。そして、これらの読み出した単語ネットワークgi−1、gから、文境界を検出するためのルールを取得する。
例えば、図2(a)に示す単語ネットワーク1及び単語ネットワーク2が読み出された場合、文境界学習部31は、文境界を検出するような以下のルールを得る。
(ルール1)単語ネットワーク2(g)の始点ノードを含んだ所定ノード数のパスが、単語列「次/の/ニュース」であり、単語ネットワーク2(g)の直前が文境界である。このルールに対応した関数をf とする。
(ルール2)単語ネットワーク1(gi−1)の終端ノードを含んだ所定ノード数のパスが、単語列「し/まし/た」であり、単語ネットワーク1(gi−1)の直後が文境界である。これを、ルールに対応した関数をf とする。
関数f 及びf (j,lはルールの番号)は、条件が成立する場合には実数値を返す関数であり、この実数値は、単語ネットワークのパスを構成する各エッジに記録されている事後確率の積である。例えば、単語ネットワーク2の場合、単語ネットワークデータに、単語「次」の事後確率「0.6」、単語「の」の事後確率「0.8」、単語「ニュース」の事後確率「0.9」が示されているため、f が返す実数値は、0.6×0.8×0.9=0.432である。また、単語ネットワーク1の場合、単語ネットワークデータに、単語「し」の事後確率「0.99」、単語「まし」の事後確率「0.8」、単語「た」の事後確率「0.9」が示されているため、f が返す実数値は、0.99×0.8×0.9=0.713である。以下、ルール番号を特定しない場合、関数f 及びf のルールの番号j,kは省略して記載する。
文境界学習部31は、全ての隣接する単語ネットワークについて上記のようにルールを取得すると、文境界学習情報記憶部32に、取得したルールと、当該ルールに対応づけて0に初期化した重みλと、条件が成立した場合に関数f及びfが返す実数値を記憶する。この重みλは、文境界に対する寄与度を表す。つまり、重みλは、文頭/文末に出現しやすいか、他の単語列が前/後ろに続くことが多いかなどの特徴の特徴を示し、文頭/文末に出現しやすいほど大きな値を、他の単語列が前/後ろに続くことが多いほど小さな値をとる。なお、単語ネットワークには通常複数のパスがあるため、1つの単語ネットワークから複数のルールが得られることになる。
ステップS110:単語ネットワークgi−1及びgの境界bが文境界である(b=true)確率、すなわち、得点p(b=true|gi−1,g)は以下の(式5)ように計算される。ここで、j、k、m、nはルールの番号である。また、λ、λ、λ、λは、それぞれルール番号j、k、m、nのルールに対する重みλである。
Figure 0005265445
分子は、単語ネットワークgi−1から得られた全てのルールについて、直後が文境界である条件下でのλ×fを加算した値と、単語ネットワークgから得られた全てのルールについて、直前が文境界である条件下でのλ×fを加算した値との合計値のexp(eのべき乗)である。分母は、単語ネットワークgi−1から得られた全てのルールについて、直後が文境界である条件下でのλ×f、及び、直後が文境界ではない条件下でのλ×fを加算した値と、単語ネットワークgから得られた全てのルールについて、直前が文境界である条件下でのλ×f、及び、直後が文境界ではないときの条件下でのλ×fを加算した値との合計値のexpである。各単語ネットワークの直前または直後が文境界であるか否かは、文境界データを参照して判断する。
文境界学習部31は、ステップS100において、文境界前後の単語ネットワークg、・・・、g、gを得たとすると、以下の(式6)の尤度を示す関数Lが最小となるように各λを算出する。
Figure 0005265445
logの真数である確率pは全体に占める割合のためその合計は1以下であり、logの値は負となるため、(式6)においては全体に負の符号をつけて正の値に戻している。割合が1に近くなるほど右辺の値は0に近くなるため、Lが最も小さくなるようにすれば、全体において正解の占める割合が大きくなる。文境界学習部31は、文境界学習情報記憶部32に現在記憶している各ルールの重みλを、算出された重みλによって更新する。
なお、目的関数Lを最小化する重みλを求めるには、多次元ベクトルを変数に持つ関数の最小値、または、最大値を求めるために一般的に用いられている準ニュートン法を適用する。準ニュートン法については、(参考文献3)W.H. Press et al,「Numerical Recipes in C(C言語による数値計算のレシピ)」,丹慶 勝市他訳,技術評論社,pp.313−314,1993年を参照のこと。
ステップS120:文境界学習部31は、所定の閾値よりも小さな値に止まっている重みλを持つルールを文境界学習情報記憶部32から削除する。これは、自動で得られたルールの数が多い場合、繰り返し学習に時間を要するためである。
ステップS130:文境界学習部31は、収束判定を行い、収束していないと判定した場合は、文境界学習情報記憶部32に現在記憶されているルールについてステップS110からの処理を繰り返し、収束したと判定した場合、ステップS140にすすみ、重みの更新を終了する。収束判定では、文境界学習部31は、λ算出の繰り返し回数の上限が達したか否か、あるいは、Lの変化量が所定の値よりも小さくなったか否かを判定する。
ステップS140:文境界学習部31は、文境界学習情報記憶部32に記憶している各ルールと、当該ルールの重みλとを記述した文境界検出モデルを文境界検出モデル記憶部40に書き込む。なお、文境界検出モデルには、ルールをハッシュ値で記述してもよい。
図9は、文境界学習部31により生成され、文境界検出モデル記憶部40に記憶される文境界検出モデルのデータ構成例を示す図である。同図において、文境界検出モデルは、文境界検出のルールを特定する文境界ルール番号と、文境界が直前であるか直後であるかのタイプと、単語列と、当該ルールの寄与度を示す重みλとを対応づけたレコードからなる。
[3.2.2 文境界学習]
図10は、学習部30の話題境界学習部33における文境界学習の処理フローである。
ステップS200:同図において、話題境界学習部33は、学習データ記憶部20から教師あり学習データとして、単語ネットワークデータ、連結ネットワークデータ、及び、話題境界データを読み出し、話題境界学習情報記憶部34に記憶する。
続いて、話題境界学習部33は、連結ネットワークデータから各連結ネットワーク番号に対応した単語ネットワーク番号を読み出し、読み出した単語ネットワーク番号に対応した単語ネットワークを単語ネットワークデータから読み出す。これにより、各連結ネットワークに含まれる単語ネットワークを取得する。そして、連結ネットワーク番号1及び2の連結ネットワーク、連結ネットワーク番号2及び3の連結ネットワーク、…のように、隣接する2つの連結ネットワークを順に特定し、先の時刻の連結ネットワークをsi−1、後の時刻の連結ネットワークをsとする。話題境界学習部33は、連結ネットワークst−1に含まれる単語、連結ネットワークsに含まれる単語の組みを生成する。
このとき、話題境界学習部33は、予め決められた単語の組みのいずれかと合致する、連結ネットワークst−1内の単語と、連結ネットワークs内の単語との組を読み出すようにしてもよい。この予め決められた単語の組みは、例えば、以下のように生成し、学習データ記憶部20等に記憶しておく。
まず、天気の話題、政治の話題等、ある特定の話題について記述されたニュース記事、ウェブ記事等の文書から、どのような話題についても共通して使用される単語を除き、各話題に特有の単語を抽出する。その後、同じ話題に含まれる特有の単語同士、異なる話題に含まれる特有の単語同士を組み合わせる。各話題に特有の単語を選択するには、例えば、TF/IDF(単語重要度の評価手法)を用いることができる。また、選択する単語を名詞や固有名詞などの特定の品詞としてもよい。
あるいは、話題境界学習部33は、話題境界前後の連結ネットワークst−1、sそれぞれから読み出す単語の組を、連結ネットワークst−1について選択したパス内の全ての単語と、連結ネットワークsについて選択したパス内の全ての単語との全組み合わせとしてもよい。また、パス内の名詞や固有名詞などの特定の品詞の単語のみを用いることでもよい。
話題境界学習部33は、連結ネットワークst−1、sのそれぞれから読み出した単語の組から、話題境界を検出するためのルールを取得する。
例えば、図4(a)に示すように、連結ネットワーク5及び連結ネットワーク6が話題境界の前後の連結ネットワークとして読み出された場合、話題境界学習部33は、話題境界を検出するような以下のルールを得る。
(ルール)連結ネットワーク5(st−1)に単語「曇り」が、連結ネットワーク6(s)に単語「雨」が含まれており、連結ネットワークst−1、sの間が話題境界である。このルールに対応した関数をhとする。
関数h(jはルールの番号)は、条件が成立する場合には実数値を返す関数であり、この実数値は、連結ネットワークの各エッジに記録されている事後確率に基づいて計算される。例えば、連結ネットワーク5を構成する単語ネットワークに、単語「曇り」の事後確率として「0.9」が設定されており、連結ネットワーク6を構成する単語ネットワークに、単語「雨」の事後確率として「0.8」が設定されている場合、条件が成立するときにhは実数値0.9×0.8=0.72を返す。
あるいは、話題境界学習部33は、単語どうしの共起を記述するのではなく、以下のように、類似した意味を持つ単語どうしの共起をルールとしてもよい。
(ルール)連結ネットワーク5(st−1)及び連結ネットワーク6(s)に気象に関する単語「曇り」、「雨」が含まれており、連結ネットワークst−1、sが話題境界である。このルールに対応した関数をhとする。
この場合、各単語が属する話題の情報を予め話題境界検出モデル記憶部50に記憶しておき、話題境界学習部33は、各連結ネットワークに含まれる各単語の話題を取得する。
以下、ルール番号を特定しない場合、関数hのルールの番号jは省略して記載する。
話題境界学習部33は、全ての隣接する連結ネットワークについて上記のようにルールを取得し、話題境界学習情報記憶部34に、取得したルールと、当該ルールに対応づけて0に初期化した重みμと、成立した場合の関数hの戻り値を記憶する。この重みμは、話題境界に対する寄与度を表す。つまり、重みμは、話題境界となりやすいほど大きな値をとる。なお、連結ネットワークには通常複数のパスがあるため、連結ネットワークst−1、sから複数のルールが得られることになる。
ステップS210:連結ネットワークst−1及びsの境界cが話題境界である(c=true)確率、すなわち、得点q(c=true|st−1,s)は以下の(式7)ように計算される。ここで、j、mはルールの番号である。また、μ、μは、それぞれルール番号j、mのルールに対する重みである。
Figure 0005265445
分子は、連結ネットワークst−1、sから得られた全てのルールに対する、話題境界が存在する条件下でのμ×hの合計値のexpである。分母は、連結ネットワークst−1、sから得られた全てのルールに対する、話題境界が存在する条件下でのμ×h、話題境界が存在しない条件下でのμ×hの合計値のexpである。
話題境界学習部33は、ステップS200において、連結ネットワークs、・・・、s、sを得たとすると、以下の(式8)の尤度を示す関数Lが最小となるように各μを算出する。
Figure 0005265445
logの真数である確率qは全体に占める割合のためその合計は1以下であり、logの値は負となるため、(式8)においては全体に負の符号をつけて正の値に戻している。割合が1に近くなるほど右辺の値は0に近くなるため、Lが最も小さくなるようにすれば、全体において正解の占める割合が大きくなる。話題境界学習部33は、話題境界学習情報記憶部34に現在記憶している各ルールの重みμを、算出された重みμによって更新する。なお、目的関数Lを最小化する重みμを求めるには、準ニュートン法を適用する。
ステップS220:話題境界学習部33は、所定の閾値よりも小さな値に止まっている重みμを持つルールを話題境界学習情報記憶部34から削除する。これは、自動で得られたルールの数が多い場合、繰り返し学習に時間を要するためである。
ステップS230:話題境界学習部33は、収束判定を行い、収束していないと判定した場合は、話題境界学習情報記憶部34に現在記憶されているルールについてステップS210からの処理を繰り返し、収束したと判定した場合、ステップS240にすすみ、重みの更新を終了する。収束判定では、話題境界学習部33は、μ算出の繰り返し回数の上限が達したか否か、あるいは、Lの変化量が所定の値よりも小さくなったか否かを判定する。
ステップS240:話題境界学習部33は、話題境界学習情報記憶部34に記憶している各ルールと、当該ルールの重みとを記述した話題境界検出モデルを話題境界検出モデル記憶部50に書き込む。
図11は、学習部30の話題境界学習部33により生成され、話題境界検出モデル記憶部50に記憶される話題境界検出モデルのデータ構成例を示す図である。同図において、話題境界検出モデルは、話題境界検出のルールを特定する話題境界ルール番号と、話題境界が直前であるか直後であるかのタイプと、前後の連結ネットワークに含まれる単語のペア、または、単語のクラスと、当該ルールの寄与度を示す重みμとを対応づけたレコードからなる。
[3.3 手順3:文境界・話題境界検出]
次に、検出部60における文境界及び話題境界検出処理について説明する。
[3.3.1 文境界検出]
図12は、検出部60の文境界検出部61における文境界検出の処理フローである。
ステップS300:音声認識部10から音声認識結果を検出部60に出力する。音声認識結果は、例えば、図4に示す単語ネットワークデータが用いられる。検出部60の文境界検出部61は、音声認識部10から逐次入力される音声認識結果としての単語ネットワークデータを単語ネットワークバッファ62に記憶する。
ステップS310:文境界検出部61は、単語ネットワークバッファ62にまだ読み出していない単語ネットワークが記憶されている場合(YES)、前回読み出した単語ネットワークgi−1の次の単語ネットワークgを読み出し、ステップS320以降の処理を行う。なお、最初に単語ネットワークを読み出す場合は、先頭から連続した2つの単語ネットワークを読み出す。従って、初期値はi=2であるが、本ステップが実行される毎に、iは1ずつ加算されることになる。
なお、単語ネットワークバッファ62に読み出していない連結ネットワークがなければ(NO)、処理を終了する。
ステップS320:文境界検出部61は、文境界検出モデル記憶部40に記憶されている文境界検出モデルを参照し、上述した(式5)により、単語ネットワークgi−1及び単語ネットワークgの間を文境界として仮定したときの得点p(b=true|gi−1,g)を算出する。
具体的には、文境界検出部61は、単語ネットワークgの始点ノード含んだ所定ノード数のパスを全て取得する。そして、文境界検出モデルから、この取得したパスで示される単語列と、直前が設定されているタイプとに対応した重みλを読み出す。さらに、重みが読み出されたパスについて、当該パスを構成する単語の事後確率を乗算し、当該パスについてのfの戻り値を算出する。
同様に、文境界検出部61は、単語ネットワークgi−1の終点ノード含んだ所定ノード数のパスを全て取得する。そして、文境界検出モデルから、この取得したパスで示される単語列と、直後が設定されているタイプとに対応した重みλを読み出す。さらに、重みλが読み出されたパスについて、当該パスを構成する単語の事後確率を乗算し、当該パスについてのfの戻り値を算出する。
文境界検出部61は、上記のように得られた値を用いて、(式5)により、p(b=true|gi−1,g)を算出すると、以下の(式9)の条件を満たすか、つまり、算出した得点p(b=true|gi−1,g)が予め決められた閾値pより大きいかを判断する。
Figure 0005265445
(式9)を満たさない場合、文境界検出部61は、単語ネットワークgi−1,gは文境界ではないと判断し、単語ネットワークgを保持したまま、再びステップS310からの処理を行ない、新たな単語ネットワークgi+1を単語ネットワークバッファ62から取得して、単語ネットワークg,gi+1の文境界の検出を行なう。
一方、(式9)を満たす場合は、文境界と判断してステップS330の処理を行なう。
ステップS330:文境界検出部61は、音声認識部10から入力された音声認識結果に、文境界を示す情報を付加して外部の装置や、話題境界検出部63に出力する。例えば、音声認識結果がXML(extensible markup language)やHTML(Hypertext Markup Language)により記述される場合、直後が文境界である単語ネットワークのパスにおける最後の単語、直前が文境界である単語ネットワークのパスにおける最初の単語の間に、文境界を示す記号を付加したり、これらの単語にタグに文境界を示す属性値を付加したりすることができる。
ステップS340:文境界検出部61は、最初の連結ネットワークの生成であれば、最初の単語ネットワークから現在読み出している文境界の直前の単語ネットワークgi−1までの単語ネットワークを連結して連結ネットワークを生成し、2回目以降の連結ネットワークの生成であれば、前回連結ネットワークを生成したときの文境界直後の単語ネットワークから、現在読み出している文境界の直前の単語ネットワークgi−1までの単語ネットワークを連結して連結ネットワークを生成する。
ステップS350:文境界検出部61は、ステップS340において生成した連結ネットワークを話題境界検出部63に出力し、ステップS310からの処理を行なう。連結ネットワークは、図4及び図6と同様のデータ構成のデータにより示される。
[3.3.2 話題境界検出]
図13は、検出部60の単語ネットワークバッファ62における文境界検出の処理フローである。
ステップS400:話題境界検出部63は、文境界検出部61から逐次入力される連結ネットワークデータを連結ネットワークバッファ64に記憶する。
ステップS410:話題境界検出部63は、連結ネットワークバッファ64にまだ読み出していない連結ネットワークが記憶されている場合(YES)、前回読み出した連結ネットワークst−1の次の連結ネットワークsを読み出し、ステップS420以降の処理を行う。なお、最初に連結ネットワークを読み出す場合は、先頭から連続した2つの連結ネットワークを読み出す。従って、初期値はt=2であるが、本ステップが実行される毎に、tは1ずつ加算されることになる。
なお、連結ネットワークバッファ64に読み出していない連結ネットワークがなければ(NO)、処理を終了する。
ステップS420:話題境界検出部63は、話題境界検出モデル記憶部50に記憶されている話題境界検出モデルを参照し、上述した(式7)により、連結ネットワークst−1及び連結ネットワークsの間が話題境界であると仮定したときの得点q(c=true|st−1,s)を算出する。
具体的には、話題境界検出部63は、連結ネットワークst−1に含まれている各単語と、連結ネットワークsに含まれている各単語との組の中で、話題境界検出モデルに記述されているルールと合致する単語の組みを抽出する。このとき、話題境界検出モデル記憶部50に記憶されている各分野に属する単語の情報を参照して、連結ネットワークst−1及びsに含まれる単語が属する分野を読み出し、合致するルールがあるかの判断に用いる。例えば、連結ネットワークst−1に「曇り」、連結ネットワークsに「雨」が含まれていた場合、図9に示す話題境界ルール番号1のルールに合致する。また、連結ネットワークst−1に含まれる「気温」と、連結ネットワークsに含まれる「雪」に対応して分野「気象」が読み出された場合、図9に示す話題境界ルール番号2のルール「気象に関する語」に合致する。
話題境界検出部63は、話題境界検出モデルから当該ルールの重みμを読み出すと、連結ネットワークst−1及び連結ネットワークsから、当該ルールを構成する単語の事後確率を読み出してhの戻り値を算出する。話題境界検出部63は、このようにして得られた値を用いて、(式7)により、q(c=true|st−1,s)を算出すると、以下の(式10)の条件を満たすか、つまり、算出した得点q(c=true|st−1,s)が予め決められた閾値qより大きいかを判断する。
Figure 0005265445
(式10)を満たさない場合、話題境界検出部63は、連結ネットワークst−1,sは話題境界ではないと判断し、連結ネットワークsを保持したまま、再びステップS410からの処理を行ない、新たな連結ネットワークst+1を連結ネットワークバッファ64から取得して、連結ネットワークs,st+1の話題境界の検出を行なう。
一方、(式10)を満たす場合は、話題境界と判断してステップS430の処理を行なう。
ステップS430:話題境界検出部63は、音声認識部10から入力された音声認識結果に、または、ステップS330において文境界検出部61によって文境界が付加された認識結果に、話題境界を示す情報を付加して外部の装置に出力する。例えば、音声認識結果がXMLやHTMLにより記述される場合、直後が話題境界である連結ネットワークにおける最後の単語、直前が話題境界である連結ネットワークの最初の単語の間に、話題境界を示す記号を付加したり、これらの単語のタグに話題境界を示す属性値を付加したりすることができる。
なお、上記実施形態においては、音声認識結果を用いた話題境界の検出について説明したが、一般のテキスト文書を用いることもできる。一般のテキスト文書を用いた場合、上述した話題境界検出装置1における処理を簡易化して話題検出を行なうことができる。
つまり、テキスト文書の場合、形態素解析などによって単語に分割し、句点によって区切られた文章を連結ネットワークとする。また、事後確率を1.0として上記処理を行なう。
[4.効果]
本実施形態の話題境界検出装置によれば、音声認識の確からしさを示す事後確率を用いて、音声認識結果から文境界を検出し、この検出した文境界の中から話題境界を検出する。このため、音声認識結果における適切な位置で、話題境界を正確に検出することができる。これにより、文書検索、音声文書検索、動画像検索等で用いられる話題境界を検出することができる。一般に、テキスト文書や、音声認識した単語列を含む音声文書、動画像は、複数の話題から構成されていることが多い。テキスト文書や音声認識結果等の文書に含まれている単語列を入力とし、この文書を話題に分割することが可能となれば、特定の話題を検索する、文書に自動的に見出しをつける、などの用途に利用が可能である。
加えて、話題境界を逐次定められるため、リアルタイム音声認識システムから出力される音声認識結果に文境界及び話題境界をリアルタイムに付加することができる。よって、動画像に併せて出力される音声認識結果に、文境界や話題境界を付加して表示させることができる。
また、入力として、既存の統計的言語モデルを用いた音声認識結果を利用することが可能である。
[5.その他]
なお、上述の話題境界検出装置1の音声認識部10、学習データ記憶部20、学習部30、文境界検出モデル記憶部40、話題境界検出モデル記憶部50、及び、検出部60は、内部にコンピュータシステムを有している。そして、話題境界検出装置1の音声認識部10、学習部30、検出部60の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
1…話題境界検出装置
10…音声認識部
20…学習データ記憶部
30…学習部
31…文境界学習部
32…文境界学習情報記憶部
33…話題境界学習部
34…話題境界学習情報記憶部
40…文境界検出モデル記憶部
50…話題境界検出モデル記憶部
60…検出部
61…文境界検出部
62…単語ネットワークバッファ
63…話題境界検出部
64…連結ネットワークバッファ

Claims (4)

  1. 単語列と、当該単語列の直前または直後が文境界となる寄与率を示す重みとを対応づけて記憶する文境界検出モデル記憶部と、
    共起する単語と、当該共起する単語がそれぞれ含まれる2つの連結ネットワークの間が話題境界となる寄与率を示す重みとを対応づけて記憶する話題境界検出モデル記憶部と、
    音声認識の出力結果のデータから得られた、ノード間の単語と当該単語の事後確率とを示す、連続した2つの単語ネットワークのうち、先に発生した単語ネットワークから終端ノードに至るパスの単語列及び当該単語列の事後確率を取得するとともに、当該単語列の直後を文境界とする重みを前記文境界検出モデル記憶部から読み出し、後に発生した単語ネットワークから先頭ノードより始まるパスの単語列及び当該単語列の事後確率を取得するとともに、当該単語列の直前を文境界とする重みを前記文境界検出モデル記憶部から読み出し、前記単語列の前記重みを当該単語列の前記事後確率に応じて変更した値に基づいて、前記連続した2つの単語ネットワーク間が文境界である確率を算出し、算出した確率が所定の値を越えた場合に、この検出した文境界と直前に検出した文境界との間に含まれる単語ネットワークを連結して連結ネットワークを生成する文境界検出部と、
    前記話題境界検出モデル記憶部から、前記文境界検出部により生成された連続した2つの連結ネットワークに共起する単語の重みを読み出すとともに、当該共起する単語の事後確率を前記連続する2つの連結ネットワークから読み出し、前記共起する単語の前記重みを、当該共起する単語の前記事後確率に応じて変更した値に基づいて、前記連続した2つの連結ネットワークの間が話題境界である確率を算出し、算出した確率が所定の値を超えた場合に、前記連結ネットワーク間に話題境界がある旨の情報を出力する話題境界検出部と、
    を備えることを特徴とする話題境界検出装置。
  2. 前記話題境界検出部は、前記音声認識の出力結果のデータに基づいて前記文境界検出部が生成した前記連結ネットワークの代わりに、テキストデータに含まれる文章を用いることを特徴とする請求項1に記載の話題境界検出装置。
  3. 音声認識結果の単語ネットワークと、文境界の前記単語ネットワークと、連結ネットワークを構成する前記単語ネットワークと、話題境界の直前及び直後の前記連結ネットワークとからなる学習データを記憶する学習データ記憶部と、
    前記学習データ記憶部に記憶されている単語ネットワークデータから、先頭のノードより始まるパス、及び、終端のノードに至るパスの単語列及び当該単語列の事後確率を読み出し、読み出した当該単語列及び当該単語列の前記事後確率に基づいて、前記学習データにより示される文境界が存在する、連続した2つの前記単語ネットワークについて算出した前記文境界の確率が最大となるように、読み出した前記単語列に対応した前記重みを決定する文境界学習部と、
    前記学習データ記憶部に記憶されている連続した2つの連結ネットワークデータから共起する単語及び当該単語の事後確率を読み出し、読み出した当該共起する単語及び当該単語の前記事後確率に基づいて、前記学習データにより示される話題境界が存在する、連続した2つの前記連結ネットワークについて算出した前記話題境界の確率が最大となるように、読み出した前記共起する単語に対応した前記重みを決定する話題境界学習部と、
    をさらに備えることを特徴とする請求項1または請求項2に記載の話題境界検出装置。
  4. コンピュータを、
    単語列と、当該単語列の直前または直後が文境界となる寄与率を示す重みとを対応づけて記憶する文境界検出モデル記憶部、
    共起する単語と、当該共起する単語がそれぞれ含まれる2つの連結ネットワークの間が話題境界となる寄与率を示す重みとを対応づけて記憶する話題境界検出モデル記憶部、
    音声認識の出力結果のデータから得られた、ノード間の単語と当該単語の事後確率とを示す、連続した2つの単語ネットワークのうち、先に発生した単語ネットワークから終端ノードに至るパスの単語列及び当該単語列の事後確率を取得するとともに、当該単語列の直後を文境界とする重みを前記文境界検出モデル記憶部から読み出し、後に発生した単語ネットワークから先頭ノードより始まるパスの単語列及び当該単語列の事後確率を取得するとともに、当該単語列の直前を文境界とする重みを前記文境界検出モデル記憶部から読み出し、前記単語列の前記重みを当該単語列の前記事後確率に応じて変更した値に基づいて、前記連続した2つの単語ネットワーク間が文境界である確率を算出し、算出した確率が所定の値を越えた場合に、この検出した文境界と直前に検出した文境界との間に含まれる単語ネットワークを連結して連結ネットワークを生成する文境界検出部、
    前記話題境界検出モデル記憶部から、前記文境界検出部により生成された連続した2つの連結ネットワークに共起する単語の重みを読み出すとともに、当該共起する単語の事後確率を前記連続する2つの連結ネットワークから読み出し、前記共起する単語の前記重みを、当該共起する単語の前記事後確率に応じて変更した値に基づいて、前記連続した2つの連結ネットワークの間が話題境界である確率を算出し、算出した確率が所定の値を超えた場合に、前記連結ネットワーク間に話題境界がある旨の情報を出力する話題境界検出部、
    として機能させることを特徴とするコンピュータプログラム。
JP2009110003A 2009-04-28 2009-04-28 話題境界検出装置及びコンピュータプログラム Active JP5265445B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009110003A JP5265445B2 (ja) 2009-04-28 2009-04-28 話題境界検出装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009110003A JP5265445B2 (ja) 2009-04-28 2009-04-28 話題境界検出装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2010257425A JP2010257425A (ja) 2010-11-11
JP5265445B2 true JP5265445B2 (ja) 2013-08-14

Family

ID=43318221

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009110003A Active JP5265445B2 (ja) 2009-04-28 2009-04-28 話題境界検出装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5265445B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013025299A (ja) 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP2015069387A (ja) * 2013-09-27 2015-04-13 大日本印刷株式会社 サーバ装置、プログラム及び通信方法
JP6210934B2 (ja) * 2014-05-26 2017-10-11 日本電信電話株式会社 話題変換検出装置、方法、及びプログラム
JP6215137B2 (ja) * 2014-05-26 2017-10-18 日本電信電話株式会社 対話分割装置、方法、及びプログラム
JP6495792B2 (ja) * 2015-09-16 2019-04-03 日本電信電話株式会社 音声認識装置、音声認識方法、プログラム
JP6387044B2 (ja) * 2016-05-25 2018-09-05 株式会社東芝 テキスト処理装置、テキスト処理方法およびテキスト処理プログラム
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05342263A (ja) * 1992-06-08 1993-12-24 Nippon Telegr & Teleph Corp <Ntt> ビデオデータ検索支援方法
JP2001005821A (ja) * 1999-06-18 2001-01-12 Nippon Telegr & Teleph Corp <Ntt> 話題型要約生成装置及び話題型要約生成方法並びに当該方法を記録したコンピュータ読み取り可能な記録媒体
JP2002197083A (ja) * 2000-12-12 2002-07-12 Hewlett Packard Co <Hp> 文書分割方法
JP4109185B2 (ja) * 2003-12-01 2008-07-02 日本電信電話株式会社 映像シーン区間情報抽出方法,映像シーン区間情報抽出装置,映像シーン区間情報抽出プログラムおよびそのプログラムを記録した記録媒体
JP4976789B2 (ja) * 2006-09-05 2012-07-18 日本電信電話株式会社 トークン列中の境界検出方法、装置、プログラム、記録媒体
JP2008197952A (ja) * 2007-02-14 2008-08-28 Nippon Telegr & Teleph Corp <Ntt> テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
JP4646078B2 (ja) * 2007-03-08 2011-03-09 日本電信電話株式会社 相互に関係する固有表現の組抽出装置及びその方法

Also Published As

Publication number Publication date
JP2010257425A (ja) 2010-11-11

Similar Documents

Publication Publication Date Title
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
Gui et al. Part-of-speech tagging for twitter with adversarial neural networks
JP5265445B2 (ja) 話題境界検出装置及びコンピュータプログラム
JP6222821B2 (ja) 誤り修正モデル学習装置、及びプログラム
Liu et al. A study in machine learning from imbalanced data for sentence boundary detection in speech
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
CN108062954B (zh) 语音识别方法和装置
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
CN108538286A (zh) 一种语音识别的方法以及计算机
US8494847B2 (en) Weighting factor learning system and audio recognition system
WO2009084554A1 (ja) テキスト分割装置とテキスト分割方法およびプログラム
US20060020448A1 (en) Method and apparatus for capitalizing text using maximum entropy
JP5141687B2 (ja) 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法
CN105551485B (zh) 语音文件检索方法及系统
JP6047364B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
CN111353306A (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN111462751A (zh) 解码语音数据的方法、装置、计算机设备和存储介质
CN114428850B (zh) 一种文本检索匹配方法和系统
JP5437204B2 (ja) 言語モデル処理装置および音声認識装置、ならびにプログラム
Fusayasu et al. Word-error correction of continuous speech recognition based on normalized relevance distance
JP6300394B2 (ja) 誤り修正モデル学習装置、及びプログラム
JP6366166B2 (ja) 音声認識装置、及びプログラム
JP5523929B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
JPH117447A (ja) 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体
JP2004046775A (ja) 固有表現抽出装置及び方法並びに固有表現抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130501

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5265445

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250