JP5620474B2

JP5620474B2 - アンカーモデル適応装置、集積回路、ＡＶ（ＡｕｄｉｏＶｉｄｅｏ）デバイス、オンライン自己適応方法、およびそのプログラム

Info

Publication number: JP5620474B2
Application number: JP2012511549A
Authority: JP
Inventors: レイジャー; ビンチーザン; シェンハイフン; ハイフンシェン; ロンマー; 小沼　知浩; 知浩小沼
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2010-04-22
Filing date: 2011-04-19
Publication date: 2014-11-05
Anticipated expiration: 2031-04-19
Also published as: CN102473409A; CN102237084A; CN102473409B; JPWO2011132410A1; WO2011132410A1; US20120093327A1

Description

本発明は、音響空間のアンカーモデルのオンライン自己適応に関する。

近年、ＤＶＤプレイヤー、ＢＤプレイヤーなど各種の再生装置や、ムービーカメラなどの録画装置などにおいては、その記録容量の大容量化に伴い、多くの映像コンテンツが記録されるようになっている。映像コンテンツの大量化に伴い、そのような装置において、それらの映像コンテンツをユーザに負担をかけることなく容易に分類できることが望まれる。また、そのような装置が、それぞれの映像コンテンツの内容をユーザが簡単に認識できるようにダイジェスト映像を生成したりすることが考えられる。

このような分類やダイジェスト映像の生成のための指標として、映像コンテンツのオーディオ・ストリームが用いられることがある。映像コンテンツとそのオーディオ・ストリームとの間には、密接な関連性があるためである。例えば、子供に関連する映像コンテンツには、当然に子供の声が多く含まれるし、海水浴などを撮影した映像コンテンツであった場合には、波の音が多く含まれることになる。従って、映像コンテンツの音の特徴に応じて映像コンテンツを分類したりできることになる。

オーディオ・ストリームを利用して映像コンテンツを分類する手法には、主として、以下の三種類がある。

一つ目としては、予め何らかの特徴を有するサウンド素片に基づく音声モデルを記憶しておき、当該モデルと、映像コンテンツのオーディオ・ストリームに含まれる音声の特徴との関連性の度合い（尤度）に応じて、映像コンテンツを分類する手法である。ここで、確率モデルは、例えば、子供の笑い声、波の音、花火の音など各種の特徴的な音声を元にしたものであり、波の音が多く含まれるオーディオ・ストリームであると判定された場合には、映像コンテンツは、海水浴のものであるといった分類がなされる。

二つ目としては、音響空間においてアンカーモデル（各種の音声を表現するモデル）を確立する。そして、映像コンテンツのオーディオ・ストリームの音声情報を当該音響空間に投影したモデルを生成する。そして、投影して得られるモデルと、確立されている各アンカーモデルとの間の距離を算出することで、映像コンテンツの分類を行う手法である。

三つめとしては、二つ目の手法において、投影して得られるモデルと、確立されている各アンカーモデルとの間の距離ではなく、例えば、ＫＬの距離、あるいは、発散距離を用いる手法である。

上述したいずれの場合においても、分類を実行するためには音声モデル（アンカーモデル）が必要となるが、当該音声モデルの生成のためには、ある程度の数の、トレーニング用の映像コンテンツを収集しておく必要がある。収集した映像コンテンツのオーディオ・ストリームを用いて、トレーニングするためである。

音声モデルの確立には、ある程度似通った音声をユーザがいくつか収集しておき、その似通った音声のガウスモデル（ＧＭＭ：Gaussian Mixture Model）を生成する第１の手法と、無差別に収集された音声から、装置が適切にいくつかの音声を選別して、音響空間におけるアンカーモデルを生成する第２の手法とがある。

第１の手法は、既に言語識別や画像識別などに応用されており、その方法によって成功した事例が数多く挙げられる。第１の手法に従って、ガウスモデルを生成する場合には、モデルの確立を必要とする音声や映像の種類に対して、最尤法（ＭＬＥ：Maximum Likelihood Estimation）を用いて、モデルのパラメータを推定することによってなされる。トレーニング後の音声モデル（ガウスモデル）は、副次的な特徴が無視され、モデルの確立を必要とする音声や映像の種類の特徴が精確に描写されていることが要求される。

第２の手法では、生成されるアンカーモデルがより広い音響空間を表現できるように生成されることが望まれる。この場合のモデルのパラメータの推定には、Ｋ−ｍｅａｎｓ法によるクラスタリング、または、ＬＢＧ法（Linde-Buzo-Gray algorithm）、あるいは、ＥＭ法（Estimation Maximization algorithm）が用いられる。

特許文献１には、上記手法のうち１つ目の手法を利用した動画のハイライトを抽出方法が開示されている。特許文献１では、拍手音、喝采音、打球音、音楽等の音響モデルを利用して動画を分類し、ハイライトを抽出することを開示しています。

特開２００４−２５８６５９号公報

ところで、上述したような映像コンテンツの分類に当たっては、分類したい映像コンテンツのオーディオ・ストリームと、記憶してあるアンカーモデルとの整合が取れないことがある。つまり、元から記憶してあるアンカーモデルを用いて、分類したい対象の映像コンテンツのオーディオ・ストリームの種別を厳密に特定できない、あるいは、適切に分類できないことがある。このような非整合は、システム性能の低下、あるいは信頼性の低下を招くことにつながるため、好ましいものではない。

したがって、アンカーモデルを実際の入力されたオーディオ・ストリームに基づいて、調整する技術が必要となる。このアンカーモデルを調整する技術を本分野においては、オンライン自己適応法と呼称されることがしばしばある。

しかしながら、従来からあるオンライン自己適応法は、最尤法に基づくＭＡＰ（Maximum-A-Posteriory estimation method）とＭＬＬＲ（Maximum Likelihood Linear Regression）アルゴリズムを用いて、アンカーモデルで表現される音響空間モデルの自己適応を行うものの、当該音響空間外にある音声については、いつまでも適切に評価できない、あるいは、評価できるようになるまで時間を要するという問題がある。

この問題を具体的に説明する。ある程度の長さを有するオーディオ・ストリームがあったとして、その中に、ある特徴を有する音声が少しだけ含まれていたとする。そして、予め用意してある音声モデルの中には、そのある特徴を有する音声を評価できるものがなかったとする。そうすると、そのある特徴を有する音声を正しく評価できるようになるために、音声モデルの自己適応が必要になる。しかし、最尤法の場合、そのある特徴を有する音声が、そのある程度の長さを有するオーディオ・ストリームに対する割合が低い（長さが短い）場合、音声モデルへの反映率が極端に小さいものになるためである。具体的にいえば、１時間の長さを有する映像コンテンツの中に、３０秒程度の子供の泣き声があったとして、何らかの泣き声に対応するアンカーモデルがなかった場合に、その泣き声が映像コンテンツの長さに対して短いために、アンカーモデルの自己適応を行っても、アンカーモデルへの反映率が低いということになり、次に再び、泣き声を評価しようとしても適切に評価できないことになる。

本発明は、上記課題に鑑みて成されたものであり、従来よりも音響空間のアンカーモデルに対してより適切にオンライン自己適応を実行できるアンカーモデル適応装置、アンカーモデル適応方法、及び、そのプログラムを提供することを目的とする。

上記課題を解決するため、本発明に係るアンカーモデル適応装置は、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段と、オーディオ・ストリームの入力を受け付ける入力手段と、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段と、前記部分データ各々の確率モデルを推定する推定手段と、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段と、を備えることを特徴としている。

また、本発明に係るオンライン自己適応方法は、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段を備えたアンカーモデル適応装置におけるアンカーモデルのオンライン自己適応方法であって、オーディオ・ストリームの入力を受け付ける入力ステップと、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割ステップと、前記部分データ各々の確率モデルを推定する推定ステップと、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定ステップにおいて推定された確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリングステップと、を含むことを特徴としている。

ここで、オンライン自己適応とは、ある音響特徴を表現するアンカーモデルを、入力されたオーディオ・ストリームに応じて、より適切に音響空間を表現するためにアンカーモデルを適応（補正及び生成）させることをいい、本明細書においては、オンライン自己適応という用語は、この意味で用いている。

また、本発明に係る集積回路は、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段と、オーディオ・ストリームの入力を受け付ける入力手段と、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段と、前記部分データ各々の確率モデルを推定する推定手段と、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段と、を備えることを特徴としている。

また、本発明に係るＡＶデバイスは、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段と、オーディオ・ストリームの入力を受け付ける入力手段と、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段と、前記部分データ各々の確率モデルを推定する推定手段と、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段と、を備えることを特徴としている。

また、本発明に係るオンライン自己適応プログラムは、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶するメモリを備えたコンピュータにアンカーモデルのオンライン自己適応を実行させるための処理手順を示したオンライン自己適応プログラムであって、前記処理手順は、オーディオ・ストリームの入力を受け付ける入力ステップと、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割ステップと、前記部分データ各々の確率モデルを推定する推定ステップと、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定ステップにおいて推定された確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリングステップと、を含むことを特徴としている。

上述のような構成によって、アンカーモデル適応装置は、元からあるアンカーモデルと、入力されたオーディオ・ストリームに基づいて生成された確率モデルとから新たなアンカーモデルを生成できる。即ち、単に元からあるアンカーモデルを補正するのではなく、入力されたオーディオ・ストリームに応じたアンカーモデルが新たに生成されることになる。このため、アンカーモデル適応装置は、アンカーモデル適応装置が組み込まれる各種映像機器や音声機器等のユーザの好みに応じた音響空間をカバーできるアンカーモデルを生成できる。よって、アンカーモデル適応装置によって生成されたアンカーモデルを使用することで、例えば、ユーザそれぞれの好みに応じて入力される映像データを適切に分類することができる。

アンカーモデルによって表現される音響空間モデルのイメージ図である。アンカーモデル適応装置の機能構成例を示すブロック図である。アンカーモデルの自己適応の全体的な流れを示すフローチャートである。新規アンカーモデルの生成動作の具体例を示すフローチャートである。音響空間モデルに、新たなガウスモデルを加えた場合のイメージ図である。本発明に係るアンカーモデル適応手法を用いて生成されたアンカーモデルにより表現される音響空間モデルのイメージ図である。

＜実施の形態＞
以下、本発明の一実施形態であるアンカーモデル適応装置について図面を用いて説明する。

本発明の実施例では、音響空間のアンカーモデルを採用している。音響空間のアンカ−モデルは、その種類が様々あるが、あるモデルを利用して音響空間を全面的にカバーすることが核心的な思想であり、座標系に類似する空間座標系の組み合わせにより表現される。音響特徴が異なる任意の2セグメントのオーディオファイルは、この座標系における異なる二つのポイントにマッピングされる。

図１は、本発明の実施例にかかる音響空間のアンカーモデルの一例を示している。AV番組の音響空間に対して、例えば、並列する複数個のガウスモデルを用いて音響空間中の各ポイントの音響特徴を示している。

本発明の実施例によれば、AVストリームは、オーディオ・ストリームまたはやオーディオ・ストリームを含む映像ストリームである。

図１がそのイメージ図である。図１の四角の枠が音響空間であるとして、その中の一つの丸各々が同一の音響特徴を有するクラスタ（部分集合）である。各クラスタ内に示す点は、一つのガウスモデルを示している。

図１に示されるように、似たような特徴を有するガウスモデルは、音響空間上においても似たような位置で示されるものであり、それらの集合は一つのクラスタ、即ち、アンカーモデルを形成することになる。本実施例においては、ＵＢＭ（Universal Background Model）の音声アンカーモデルを使用しており、ＵＢＭは、多くの単ガウスモデルの集合として、以下に示す式（１）で表現することができる。

ここで、μ_ｉは、第i番目のガウスモデルの平均値を示す。また、σ_ｉは、第ｉ番目のガウスモデルの分散を示す。各ガウスモデルは、その平均値の付近にある音響空間における部分領域であるサブ領域を描写するものである。これらのサブ領域を表現するガウスモデルを組み合わせて一つのＵＢＭモデルを形成する。ＵＢＭモデルは、音響空間全体を具体的に描写するものである。

図２は、アンカーモデル適応装置１００の機能構成を示す機能ブロック図である。

図２に示すようにアンカーモデル適応装置１００は、入力手段１０と、特徴抽出手段１１と、マッピング手段１２と、ＡＶクラスタリング手段１３と、分割手段１４と、モデル推定手段１５と、モデルクラスタリング手段１８と、調節手段１９とを備える。

入力手段１０は、映像コンテンツのオーディオ・ストリームの入力を受け付けて、特徴抽出手段１１に伝達する機能を有する。

特徴抽出手段１１は、入力手段１０から伝達されたオーディオ・ストリームから、その特徴量を抽出する機能を有する。また、特徴抽出手段１１は、抽出した特徴量をマッピング手段１２に伝達する機能と、分割手段１４に伝達する機能も有する。特徴抽出手段１１は、入力されたオーディオ・ストリームに対して、所定時間（例えば、１０msecなど、ごく短い時間）毎にオーディオ・ストリームの特徴を特定する。

マッピング手段１２は、特徴抽出手段１１から伝達された特徴量に基づいて、オーディオ・ストリームの特徴量を音響空間モデル上にマッピングする機能を有する。ここでいうマッピングとは、現在のオーディオ・セグメント中の一フレーム毎の特徴の音響空間のアンカーモデルへの事後確率（posteriori probability）を算出し、算出した各フレームの事後確率各々を加算した結果を、算出に用いたフレームの総数で割ることをいう。

ＡＶクラスタリング手段１３は、マッピング手段１２によりマッピングされた特徴量と、予めアンカーモデル集合２０に記憶されているアンカーモデルとに従って、クラスタリングを実行し、入力されたオーディオ・ストリームの分類を特定し、特定した分類を出力する機能を有する。ＡＶクラスタリング手段１３は、当該クラスタリングを、任意のクラスタリングアルゴリズムを用いて、隣接しあうオーディオ・セグメント間の距離に基づいて行う。本発明の一つの実施例によれば、下から上へ逐次に合併する方法を用いてクラスタリングを行う。

ここで、二つのオーディオ・セグメント間の距離は、音響空間のアンカーモデルへのマッピングと、音響空間のアンカーモデルとによって、算出される。ここで、保持している全てのアンカーモデルに含まれるガウスモデルを用いて、各オーディオセグメントを表現する確率モデルであるがうすモデルグループを形成することができ、各オーディオ・セグメントは、音響空間におけるアンカーモデルにマッピングすることにより、当該ガウスモデルグループの重みを構成する。このように、オーディオ・セグメント間の距離が、重み付けられた二つのガウスモデルグループの距離によって、定義されることになる。最もよく採用される距離は、所謂ＫＬ（Kullback-Leibler）距離である。このKLの距離を用いて二つのオーディオ・セグメント間の距離を算出する。

なお、当該クラスタリング手法は、音響空間のアンカーモデルが、完全に音響空間全体をカバーできていれば、任意の二つのオーディオ・セグメントの相互間の距離を算出することで、アンカーモデル集合２０に保持されており音響空間を表現するアンカーモデルに対して、オーディオ・セグメントをマッピングすることができる。ただし、実際には、アンカーモデル集合２０に保持されているアンカーモデルが音響空間全体をカバーできるとは限られない。したがって、本実施の形態に示すアンカーモデル適応装置１００は、入力されるオーディオ・ストリームを適切に表現できるようアンカーモデルのオンライン自己適応調節を実行する。

分割手段１４は、特徴抽出手段１１に入力されたオーディオ・ストリームを、特徴抽出手段１１から伝達された特徴量に基づいて、時間軸方向で連続して同じ特徴を有すると推定されるオーディオ・セグメントに分割する機能を有する。分割手段１４は、分割したオーディオ・セグメントとその特徴量とを対応づけて、モデル推定手段１５に伝達する。なお、分割して得られる各オーディオ・セグメントの時間長は、互いに異なる長さであってよい。また、分割手段が分割して生成するオーディオ・セグメントそれぞれは、単一の音響特徴を備えるものであり、単一の音響特徴を有するオーディオ・セグメントは、一つの音声イベント（例えば、花火の音、人の話声、子供の泣き声、運動会の音など）であると理解されてもよい。

分割手段１４は、入力されたオーディオ・ストリームに対して、あらかじめ定められた所定長（例えば、１００msec）のスライディング窓を随時時間軸に沿ってスライドさせていき、音響特定が大きく変化する点を検出し、その点が音響特徴の変化点であるとして、連続的なオーディオ・ストリームを部分データに分割する。

分割手段１４は、時間軸方向に、一定のステップ長（時間幅）でスライドし、所定の窓長（例えば、１００msec）を有するスライディング窓を用いて音響特徴が大きく変化する点を測定して、連続的なオーディオ・ストリームに対して分割を行う。スライディングを行う度に、スライディング窓の中間点は、一つの分割点となる。ここで、分割点の分割発散を定義すると、Ｏ_ｉ＋１，Ｏ_ｉ＋２，…，Ｏ_ｉ＋Ｔは、窓長がＴであるスライディング窓内の言語音特徴データを代表し、ｉは現時点でのスライディング窓の始点である。データＯ_ｉ＋１，Ｏ_ｉ＋２，…，Ｏ_ｉ＋Ｔの分散は、Σであり、データＯ_ｉ＋１，Ｏ_ｉ＋２，…，Ｏ_{ｉ＋Ｔ／２}の分散は、Σ_１であり、データＯ_{ｉ＋Ｔ／２＋１}，Ｏ_{ｉ＋Ｔ／２＋２}，…，Ｏ_ｉ＋Ｔの分散は、Σ_２であることにすると、分割点（スライディング窓の中間点）の分割発散は、以下の式（２）で定義できる。

分割発散が大きければ大きいほど、このスライディング窓に含まれるデータのうち左右両端のデータの音響特徴の影響が大きいということになり、スライディング窓の左右にあるオーディオ・ストリームの音響特徴が互いに異なったものである可能性が高く、分割点の候補になる。分割手段１４は、最後に、分割発散が予め定められた所定値よりも大きい分割点を選択して、連続的なオーディオデータを、音響特徴が単一であるオーディオ・セグメントに分割する。

モデル推定手段１５は、分割手段１４から伝達されたオーディオ・セグメントとその特徴量に基づき、当該オーディオ・セグメントのガウスモデルを一つ推定する機能を有する。モデル推定手段１５は、各オーディオ・セグメントのガウスモデルを推定し、推定したガウスモデル各々を、テストデータに基づくモデル集合１７に含ませて、記憶手段２１に記憶させる機能を有する。

モデル推定手段１５によるガウスモデルの推定について、詳しく説明する。

分割手段１４によりオーディオ・セグメントが得られると、モデル推定手段15は、各オーディオ・セグメントに対して単ガウスモデルを推定する。ここで、音響特徴が単一であるオーディオ・セグメントのデータフレームを、Ｏ_ｔ，Ｏ_ｔ＋１，…，Ｏ_{ｔ＋ｌｅｎ}と定義する。すると、定義されたＯ_ｔ，Ｏ_ｔ＋１，…，Ｏ_{ｔ＋ｌｅｎ}に対応する単ガウスモデルの平均値パラメータと分散パラメータとは、それぞれ、下記の式（３）及び式（４）のように推定される。

式（３）及び式（４）に示される平均値パラメータと分散パラメータとにより単ガウスモデルが表現される。

モデルクラスタリング手段１８は、任意のクラスタリングアルゴリズムを用いて、記憶手段２１にあるトレーニングデータに基づくモデル集合１６とテストデータに基づくモデル集合１７とに対してクラスタリングを実行する機能を有する。

ここから、モデルクラスタリング手段１８が実行するクラスタリングについて具体的に説明する。

調節手段１９は、モデルクラスタリング手段１８がクラスタリングを実行して生成したアンカーモデルを調節する機能を有する。なお、ここでいう調節とは、予め定められたアンカーモデル数になるまで、アンカーモデルの分割を行うことをいう。調節手段１９は、調節後のアンカーモデルをアンカーモデル集合２０として記憶手段２１に記憶させる機能を有する。

記憶手段２１は、アンカーモデル適応装置１００が動作する上で必要とするデータを記憶する機能を有し、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）を含んで構成されてよく、例えば、ＨＤＤ（Hard Disc Drive）などにより、実現される。記憶手段２１は、トレーニングデータに基づくモデル集合１６と、テストデータに基づくモデル集合１７と、アンカーモデル集合２０とを記憶している。なお、トレーニングデータに基づくモデル集合１６は、アンカーモデル集合２０と同一のものであり、オンライン自己適応を行った場合には、アンカーモデル集合２０で更新されることになる。
＜動作＞
次に、本実施の形態の動作を図３及び図４に示すフローチャートを用いて説明する。

図３のフローチャートを用いて、アンカーモデル適応装置１００におけるオンライン自己適応調節の手法として、モデルクラスタリング手段１８が実行するオンライン自己適応調節手法を説明する。

モデルクラスタリング手段１８は、ツリー分裂である上から下への方法に基づいて単ガウスモデルの高速クラスタリングを実行する。

ステップＳ１１において、オンライン自己適応調節により生成されるべき、音響空間のアンカーモデルの大きさ（数）を、例えば５１２個に設定する。当該個数は、予め定められているものとする。音響空間のアンカーモデルの大きさを設定するということは、全ての単ガウスモデルを、いくつの分類に分けるのかを確定することを意味する。

ステップＳ１２において、各単ガウスモデル分類のモデル中心を確定する。なお、初期状態では、一つのモデル分類しかないため、すべての単ガウスモデルは、当該一つのモデル分類に属することになる。また、複数のモデル分類がある状態においては、各単ガウスモデルはいずれかのモデル分類に属することとなる。ここで、現時点でのモデル分類集合を以下の式（５）のように表現できる。

式（５）において、ω_ｉは、単ガウスモデル分類の重みを示している。なお、単ガウスモデル分類の重みω_ｉは各単ガウスモデルにより表現される音声イベントの重要度に応じて予め設定しておく。すると、上記式（５）により表現されるモデル分類の中心は、下記の式（６）及び式（７）のように算出される。単ガウスモデルは、平均値と分散のパラメータにより表現されるため、以下の２つの式が導出される。

上述の式を用いて、ステップＳ１３において、発散が最も大きいモデル分類を選択し、選択された当該モデル分類の中心を、二つの中心に分裂させる。ここで二つの中心に分裂させるとは、モデル分類の中心から、新たな二つのモデル分類を生成するための中心を二つ生成することをいう。

モデル分類の中心を二つの中心に分裂させるにあたり、先ず、二つのガウスモデルの距離を定義する。ここで、ＫＬの距離は、ガウスモデルｆとガウスモデルｇとの間の距離とみなされ、下記式（８）で表現される。

ここで、現在のモデル分類を下記式（９）のように表現するものとする。

上記、式（９）において、Ｎ_{ｃｕｒＣｌａｓｓ}は、現在のモデル分類の個数を意味する。すると、この現在のモデル分類の発散は、下記式（１０）のように定義されることになる。

現時点で存在する全てのモデル分類、つまり、モデル分類の分割過程において、当該処理段階において存在するモデル分類全てに対して、各モデル分類の発散を算出する。算出された発散の中で、発散値が最も大きいモデル分類を検出する。分散と重みとを不変に保持したうえで、当該モデル分類、つまり、一つのモデル分類の中心を、二つのモデル分類の中心に分裂させることになる。具体的にいうと、下記式（１１）に示されるように、新たな二つのモデル分類の中心を算出する。

ステップＳ１４において、騒動分裂を行ったモデル分類に対して、ガウスモデルに基づくＫｍｅａｎｓ法を用いたガウスモデルクラスタリングを行う。距離を算出するアルゴリズムとしては、上述したＫＬの距離を採用する。各分類のモデル更新には、ステップＳ１２におけるモデル中心更新計算式（式１１参照）が用いられる。Ｋｍｅａｎｓ法によるガウスモデルのクラスタリング過程が収束した後に、一つのモデル分類が、二つのモデル分類に分裂され、それと対応して二つのモデル中心が生成される。

ステップＳ１５において、現時点でのモデル分類の数が、予め設定された音響空間のアンカーモデルの大きさ（数）に達したかを判断する。ここで、予め設定された音響空間のアンカ−モデルの大きさ（数）に達してなかった場合、ステップＳ１３に戻る。達していた場合には、この過程を終了する。

ステップＳ１６において、全てのモデル分類のガウス中心を抽出してまとめることによって、平行な複数個のガウスモデルによって構成されるＵＢＭモデルが形成される。当該ＵＢＭモデルは、新たな音響空間のアンカーモデルと称される。

現時点の音響空間のアンカーモデルは、自己適応によって生成されるものであるため、以前に使用される音響空間のアンカーモデルとは異なるものになる。したがって、一定の平滑化調節及び処理を行うことによって、二つのアンカーモデル間の関係を確立すると共に、アンカーモデルのロバスト性（robustness）を増強できる。平滑化調節とは、例えば、発散が所定の閾値より小さい単ガウスモデルの合併を行うことをいう。また、合併とは、発散が所定の閾値より小さい単ガウスモデルを一つのモデルにマージする（組み込む）ことをいう。

図４は、本発明の実施例にかかる音響空間のアンカーモデルに対してオンライン自己適応調節の方法とオーディオのクラスタリングを行う方法とを示すフローチャートである。なお、ここでは、アンカーモデル適応装置１００の工場出荷時には、予め記憶されているべきトレーニングデータに基づくモデル集合１６の初期時の生成過程も併せて示している。

図４に示すように、左側に示すステップＳ３１−Ｓ３４は、トレーニング映像データ集を利用し、トレーニングデータに基づく単ガウスモデルを生成する過程を示している。

ステップＳ３１において、アンカーモデル装置１００の入力手段１０には、トレーニング用の映像データが入力される。ステップＳ３２において、特徴抽出手段１１は、入力されたオーディオ・ストリームの特徴、例えば、メルケプストラムなどの特徴を抽出する。

ステップＳ３３において、分割手段１４は、特徴抽出された連続的なオーディオ・ストリームの入力を受け付けて、上述の分割手法を用いて、当該オーディオ・ストリームを複数個のオーディオ・セグメント（部分データ）に分割する。

ステップＳ３４において、オーディオ・セグメントが得られると、モデル推定手段１５は、各オーディオ・セグメントに対して、上述した手法を用いて単ガウスモデルの推定を行う。トレーニングデータに基づくモデル集合１６において、予めトレーニングデータに基づいて生成されるガウスモデルが記憶されている。

図４に示すように、中央の部分に示すステップＳ４１−Ｓ４３は、ユーザから提出されるテスト映像データを利用し、アンカーモデルに対して自己適応調整を行う過程を示している。

ステップＳ４１において、ユーザから提出されたテスト映像データから、特徴抽出手段１１は、その特徴を抽出し、分割手段１４は、特徴抽出された後に単一の音響特徴を備えるオーディオ・セグメントへの分割処理を行う。

ステップＳ４２において、オーディオ・セグメントが得られた後に、モデル推定手段１５は、各オーディオ・セグメントに対して単ガウスモデルの推定を行う。記憶手段２１のトレーニングデータに基づくモデル集合１６には、予めトレーニングデータに基づいて生成されたガウスモデルが記憶されている。これにより、数多くの単ガウスモデルによって構成される単ガウスモデル集合が生成される。

ステップＳ４３において、モデルクラスタリング手段１８は、図３に示した方法で単ガウスモデルに対しての高速ガウスクラスタリングを行う。これにより、モデルクラスタリング手段１８は、音響空間のアンカーモデルの自己適応更新または調整を行って新たな音響空間のアンカーモデルを生成する。本発明の実施例によれば、モデルクラスタリング手段１８は、トップダウン・ツリー分割型のクラスタリング手法に基づいて単ガウスモデルの高速クラスタリングを実行する。

図４の右側に示すステップＳ５１−Ｓ５５は、自己適応調整後のアンカーモデルに基づいてオンラインクラスタリングを行う過程を示している。

ステップＳ５１において、ユーザから提出されたＡＶ映像データを、テスト用映像データ集とする。その後に、ステップＳ５２において、分割手段１４は、オーディオ・ストリームを複数個の単一の音響特徴を有するオーディオ・セグメントに分割させる。テスト用映像データ集に基づいて生成されたオーディオ・セグメントをテストオーディオ・セグメントという。

ステップＳ５３において、マッピング手段１２は、各テストオーディオ・セグメントの音響空間のアンカーモデルへのマッピングを算出する。上述の通り、通常に用いるマッピングは、現時点でのオーディオ・セグメント中の一フレーム毎の特徴が、音響空間のアンカーモデルへの事後確率（posteriori probability）を算出し、これらの事後確率を加算した結果を、特徴フレームの総数で割ることで算出することである。

ステップＳ５４において、ＡＶクラスタリング手段１３は、任意のクラスタリングアルゴリズムを用い、オーディオ・セグメント間の距離に基づいてオーディオ・セグメントのクラスタリングを行う。本発明の一つの実施例によれば、トップダウン・ツリー分割型のクラスタリング手法を用いてクラスタリングを行う。

ステップＳ５５において、ＡＶクラスタリング手段１３は、分類を出力して、オーディオ・ストリームあるいはその元となった映像データにラベルを加える、あるいはその他の操作を行うためにユーザに供する。

以上に示したオンライン自己適応調節を実行することにより、アンカーモデル適応装置１００は、入力されるオーディオ・ストリームを適切に分類できる音響空間のアンカーモデルを生成し、当該アンカーモデルを用いての分類が可能となる。

＜アンカーモデルの更新例＞
当該動作によって、本発明に係るアンカーモデル適応装置により適応されて更新されたアンカーモデルにより表現される音響空間モデルのイメージを説明する。

仮に、トレーニングデータのアンカーモデルで表現される音響空間モデルが図１に示すものであったとする。そして、これにテストデータに基づくガウスモデルを加えた音響空間モデルを図５に示すように表現したとする。

図５において、アンカーモデル適応装置に、動画から抽出されたオーディオ・ストリームを分割し、分割された部分データのガウスモデルがそれぞれ、×印で表現されたものとする。当該バツ印で表現されるガウスモデルがテストデータに基づくガウスモデル集合になる。

本実施の形態に係るアンカーモデル適応装置は、アンカーモデルの自己適応を行う際に、元からあるアンカーモデルに含まれるガウスモデル群（図５に示す○で示すアンカーモデルそれぞれに含まれるガウスモデル群）及び、テストデータから生成されたガウスモデル群（図５に×で示すガウスモデル）とから、新たなアンカーモデルを上記実施の形態に示した手法を用いて生成する。

結果、本実施の形態に係るアンカーモデル適応装置によるアンカーモデルの自己適応の場合、図６に示すイメージ図のように、新たなアンカーモデルを用いて、より広く音響空間モデルをカバーできるようになる。図１と図６とを比較すればわかるように、図１示すアンカーモデルでは表現できなかった部分をより適切に表現できるようになる。例えば、音響空間モデルにおいて図６のアンカーモデル６０１によりカバーできる範囲が広くなっていることが明らかである。なお、ここでは、トレーニングデータのアンカーモデルと、オンライン自己適応後のアンカーモデルの個数が同じである場合を示しているが、仮に、オンライン自己適応によって、生成されるべきアンカーモデルの個数が、トレーニングデータのアンカーモデルの個数よりも多い場合には、当然に最終的なアンカーモデルの個数が増加することになる。

したがって、本実施の形態に示したアンカーモデル適応装置１００によれば、従来よりも、入力されたオーディオ・ストリームに対する適応性を高めることができ、ユーザそれぞれに応じたアンカーモデルを提供できるアンカーモデル適応装置を提供できる。

＜まとめ＞
本発明に係るアンカーモデル適応装置は、入力されるオーディオ・ストリームを用いて、記憶しているアンカーモデルを、入力されたオーディオ・ストリームを表現するガウス確率モデルにより表わされる音響空間全てをカバーできるアンカーモデルに更新することができる。アンカーモデルは、入力されたオーディオ・ストリームの音響特徴に応じて、新たに生成しなおされるため、入力されたオーディオ・ストリームの種別によって異なったものが生成される。したがって、アンカーモデル適応装置を家庭用のＡＶ機器等に搭載することで、各ユーザに適した動画の分類が実行できるようになる。
＜補足１＞
上記実施の形態において、本発明を説明してきたが、本発明は上記実施の形態に限られないことは勿論である。以下、上記実施の形態以外に本発明の思想として含まれる各種の変形例について説明する。

（１）上記実施の形態においては、アンカーモデル適応装置は、予め記憶しているアンカーモデルと、入力されたオーディオ・ストリームから生成したガウスモデルとから、新たなアンカーモデルを生成することした。しかし、アンカーモデル適応装置は、初期状態において、アンカーモデルを予め記憶していなくともよい。

この場合、アンカーモデル適応装置には、ある程度の個数の動画を蓄積した記録媒体等に接続して転送させたりすることで、一定量の動画を取得し、その動画の音声を解析して、確率モデルを生成してクラスタリングを実行して、アンカーモデルを０から作成することになる。すると、各アンカーモデル適応装置は、アンカーモデルを生成するまでは、動画の分類を行えないものの、完全に、各ユーザに特化したアンカーモデルを生成しての分類ができるようになる。

（２）上記実施の形態において、確率モデルの一形態として、ガウスモデルを例に説明してきた。しかし、当該モデルは、事後確率モデルを表現できるものであれば、必ずしもガウスモデルである必要はなく、例えば、指数分布確率モデルであってもよい。

（３）上記実施の形態においては、特徴抽出手段１１が特定する音響特徴は、１０msec単位で特定することとした。しかし、特徴抽出手段１１が音響特徴を抽出する為の所定時間は、音響特徴がある程度似通ると推定される期間であれば、１０msecである必要はなく、１０msecよりも長い時間（例えば、１５msec）であってもよいし、逆に１０msecよりも短い時間（例えば、５msec）であってもよい。

また、同様に、分割手段１４が分割の際に用いるスライディング窓の所定長も１００msecに限定されるものではなく、分割点を検出するための十分な長さがあれば、これよりも、長くてもあるいは短くてもよい。

（４）上記実施の形態においては、音響特徴を表わすものとして、メルケプストラムを用いたが、これは、音響特徴を表現できるものであれば、メルケプストラムである必要はなく、ＬＰＣＭＣであってもよいし、あるいは、音響特徴を表現する手法としてメルを用いずともよい。

（５）上記実施の形態においては、ＡＶクラスタリング手段は、所定数として５１２個のアンカーモデルが生成されるまで、分裂を繰り返すこととしたが、これは、５１２個という個数に限定されるものではない。より広い音響空間を表現するためにその個数はより多い１０２４個などであってもよいし、逆に、アンカーモデルを記憶するための記録領域の容量制限により、１２８個などであってもよい。

（６）各種のＡＶ機器、特に動画を再生することが可能なＡＶ機器に上記実施の形態に示したアンカーモデル適応装置を搭載、あるいは、上記アンカーモデル適応装置と同等の機能を実現できる回路を搭載させることで、その有用性が増す。ＡＶ機器としては、例えば、動画を記録するためのハードディスク等を搭載したテレビや、ＤＶＤプレイヤー、ＢＤプレイヤー、デジタルビデオカメラなど各種の記録再生装置が挙げられる。これらの記録再生装置の場合、上記記憶手段は、機器に搭載されているハードディスク等の記録媒体が相当する。また、この場合に入力されるオーディオ・ストリームとしては、テレビ放送波を受信して得られる動画のものや、ＤＶＤなどの記録媒体に記録されている動画のもの、あるいは、機器にＵＳＢケーブル等の有線接続あるいは無線接続を介して取得した動画のものなどがある。

特に、ユーザがムービーカメラ等を用いて撮影した動画に含まれる音声は、それぞれのユーザの好みに応じて撮影された映像に依拠するために、ユーザごとで生成されるアンカーモデルは互いに異なったものとなる。なお、似通った好みを有する、つまり、似たような映像を撮影するユーザ同士のＡＶ機器に搭載されるアンカーモデル適応装置によって生成されたアンカーモデルは、似通ったアンカーモデルになる。

（７）ここで、上記実施の形態において、自己適応したアンカーモデルの利用形態について、簡単に説明する。

アンカーモデルの利用形態としては、上述の課題で説明したように、入力される動画の分類のために用いられる。

あるいは、ある動画中において、ユーザが興味をもったある時点に対して、当該時点を含み、かつ、当該時点のアンカーモデルとある閾値の範囲内で同じ音響特徴を有すると推定される区間をユーザの興味区間として特定するのに用いることもできる。

また、その他にも、動画においてユーザが興味を示すと推定される期間を抽出したりするのにも用いることができる。具体的に説明すると、ユーザが指定した、あるいは、ユーザが頻繁に視聴した動画等から特定したユーザの好みの動画に含まれる音声を特定し、その音響特徴を記憶してあるアンカーモデルから特定する。そして、動画中において、特定した音響特徴とある程度以上一致すると推定される期間を抽出して、ハイライト動画を作成するのに用いたりすることもできる。

（８）上記実施の形態においては、オンライン自己適応を開始するタイミングについては特に定めていないが、これは、新たな映像データに基づくオーディオ・ストリームが入力されるごとであってもよいし、テストデータに基づくモデル集合１７に含まれるガウスモデルが所定数（例えば、１０００個）集まったタイミングで実行することとしてもよい。あるいは、アンカーモデル適応装置がユーザからの入力を受け付けるインターフェースを備えている場合には、ユーザからの指示を受けて、実行することとしてもよい。

（９）上記実施の形態においては、調節手段１９がモデルクラスタリング手段１８によりクラスタリングされたアンカーモデルの調節を行って、アンカーモデル集合２０として記憶手段２１に記憶させることとした。

しかし、アンカーモデルの調節の必要がない場合には、調節手段１９を設ける必要はなく、その場合には、モデルクラスタリング手段１８が生成したアンカーモデルを直接記憶手段２１に記憶させることとしてもよい。

あるいは、調節手段１９が保持する調節機能をモデルクラスタリング手段１８が保持していてもよい。

（１０）上記実施の形態に示したアンカーモデル適応装置の各機能部（例えば、分割手段１４やＡＶクラスタリング手段１８など）は、専用回路により実現されてもよいし、それぞれの機能をコンピュータが果たせるようソフトウェアプログラムにより実現されることとしてもよい。

また、アンカーモデル適応装置の各機能部は、１または複数の集積回路により実現されることとしてもよい。当該集積回路は、半導体集積回路により実現されてよく、当該半導体集積回路は、集積度の違いによりＩＣ（Integrated Circuit）、ＬＳＩ（Large Scale Integration）、ＳＬＳＩ（Super Large Scale Integration）などと呼称される。

（１１）上述の実施形態で示したクラスタリングに係る動作、アンカーモデルの生成処理等（図４等参照）をＰＣやＡＶデバイス等のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるためのプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路等を介して流通させ頒布させることもできる。このような記録媒体には、ＩＣカード、ハードディスク、光ディスク、フレキシブルディスク、ＲＯＭ等がある。流通、頒布された制御プログラムはプロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより、実施形態で示したような各種機能が実現されるようになる。
＜補足２＞
以下に、本発明に係る一実施の形態と、その効果について説明する。

（ａ）本発明の一実施形態に係るアンカーモデル適応装置は、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデル（１６or２０）を複数記憶する記憶手段（２１）と、オーディオ・ストリームの入力を受け付ける入力手段（１０）と、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段（１４）と、前記部分データ各々の確率モデルを推定する推定手段（１５）と、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデル（１７）とをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段（１８）と、を備えることを特徴としている。

また、本発明の一実施形態に係るオンライン自己適応方法は、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段を備えたアンカーモデル適応装置におけるアンカーモデルのオンライン自己適応方法であって、オーディオ・ストリームの入力を受け付ける入力ステップと、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割ステップと、前記部分データ各々の確率モデルを推定する推定ステップと、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定ステップにおいて推定された確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリングステップと、を含むことを特徴としている。

また、本発明の一実施形態に係る集積回路は、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段と、オーディオ・ストリームの入力を受け付ける入力手段と、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段と、前記部分データ各々の確率モデルを推定する推定手段と、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段と、を備えることを特徴としている。

また、本発明の一実施形態に係るＡＶ（Audio Video）デバイスは、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段と、オーディオ・ストリームの入力を受け付ける入力手段と、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段と、前記部分データ各々の確率モデルを推定する推定手段と、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段と、を備えることを特徴としている。

また、本発明の一実施形態に係るオンライン自己適応プログラムは、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶するメモリを備えたコンピュータにアンカーモデルのオンライン自己適応を実行させるための処理手順を示したオンライン自己適応プログラムであって、前記処理手順は、オーディオ・ストリームの入力を受け付ける入力ステップと、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割ステップと、前記部分データ各々の確率モデルを推定する推定ステップと、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定ステップにおいて推定された確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリングステップと、を含むことを特徴としている。

これらの構成によれば、入力されたオーディオ・ストリームに応じて、新たなアンカーモデルを生成できることになるので、ユーザの視聴する映像に対する好みに応じたアンカーモデルが生成されることになる。したがって、それぞれのユーザにとって適切な音響空間をカバーし得るアンカーモデルを生成するオンライン自己適応調節を実現できる。これにより、入力されたオーディオ・ストリームに基づく映像データを分類するときなどに、分類できない、あるいは、保持しているアンカーモデルで適切に表現できないといった状態を回避できるようになる。

（ｂ）上記（ａ）に示されるアンカーモデル適応装置において、前記クラスタリング手段は、ツリー分裂手法を用いて、生成される複数のアンカーモデルが予め定められた所定数になるまで生成し、生成した所定数のアンカーモデルを新たなアンカーモデルとして前記記憶手段に記憶させることとしてもよい。

これにより、アンカーモデル適応装置は、予め定められた所定数のアンカーモデルを生成することができる。当該所定数を予め音響空間を表現できるに足ると推定される個数に設定しておくことにより、オンライン自己適応を実行することで、入力されるオーディオ・ストリームに応じて、当該オーディオ・ストリームを表現するために必要とされるアンカーモデルを用いて十分に音響空間をカバーできる。

（ｃ）上記（ａ）に示されるアンカーモデル適応装置において、前記ツリー分裂手法は、発散距離が最も大きいモデル分類の中心に基づき、新たな二つのモデル中心を生成し、前記発散距離が最も大きいモデル分類を、前記二つのモデル中心それぞれを中心とする新たなモデル分類を生成し、分裂して生成されるモデル分類が前記所定数になるまで繰り返して、アンカーモデルを生成することとしてもよい。

これにより、アンカーモデル適応装置は、元からあるアンカーモデルに含まれる確率モデルと、入力されたオーディオ・ストリームから生成された確率モデルとを適切に分類することができる。

（ｄ）上記（ａ）に示されるアンカーモデル適応装置において、前記クラスタリング手段は、前記クラスタリングを実行する際に、前記記憶手段に記憶されているアンカーモデルのいずれかに対して発散が所定の閾値よりも小さい確率モデルを、当該発散が最も小さくなるアンカーモデルに合併させることとしてもよい。

これにより、確率モデルの個数があまりにも多い場合に、その数を減少させた上でのクラスタリングを実行できる。したがって、オーディオ・ストリームから生成された確率モデルの個数を減らすことにより、クラスタリングのための演算量を減少させることができる。

（ｅ）上記（ａ）に示されるアンカーモデル適応装置において、前記確率モデルは、ガウス確率モデルまたは指数分布確率モデルであることとしてもよい。

これにより、本発明に係るアンカーモデル適応装置は、音響特徴を表現する手法として、一般的に使用されるガウス確率モデル、あるいは、指数分布確率モデルを使用することができ、その汎用性を高めることができる。

（ｆ）上記（ａ）に示されるＡＶデバイスにおいて、前記入力手段が受け付けるオーディオ・ストリームは、映像データから抽出されたオーディオ・ストリームであり、前記ＡＶデバイスは、更に、前記記憶手段に記憶されているアンカーモデルを用いて、前記オーディオ・ストリームの種別を分類する分類手段（ＡＶクラスタリング手段１３）を備えることとしてもよい。

これにより、ＡＶデバイスは、入力された映像データに基づくオーディオ・ストリームを分類できる。当該分類に用いるアンカーモデルは、入力されたオーディオ・ストリームに応じて更新されるため、適切にオーディオ・ストリーム、あるいは、その元となった映像データを分類でき、ＡＶデバイスは、映像データの仕分け等のユーザの利便性に貢献する。

本発明に係るアンカーモデル適応装置は、ＡＶコンテンツを記憶して再生する任意の電子機器に活用することができ、ＡＶコンテンツの分類や、動画中のユーザにとって興味があると推測される興味区間の抽出等の利用に供する。

１００アンカーモデル適応装置
１１特徴抽出手段
１２マッピング手段
１３ AVクラスタリング手段
１４分割手段
１５モデル推定手段
１６トレーニングデータに基づくモデル集合
１７テストデータに基づくモデル集合
１８モデルクラスタリング手段
１９調節手段
２０アンカーモデル集合
２１記憶手段

Claims

単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段と、
オーディオ・ストリームの入力を受け付ける入力手段と、
前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段と、
前記部分データ各々の確率モデルを推定する推定手段と、
前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段と、
を備えることを特徴とするアンカーモデル適応装置。
前記クラスタリング手段は、ツリー分裂手法を用いて、生成される複数のアンカーモデルが予め定められた所定数になるまで生成し、
生成した所定数のアンカーモデルを新たなアンカーモデルとして前記記憶手段に記憶させる
ことを特徴とする請求項１記載のアンカーモデル適応装置。
前記ツリー分裂手法は、
発散距離が最も大きいモデル分類の中心に基づき、新たな二つのモデル中心を生成し、
前記発散距離が最も大きいモデル分類を、前記二つのモデル中心それぞれを中心とする新たなモデル分類を生成し、
分裂して生成されるモデル分類が前記所定数になるまで繰り返して、アンカーモデルを生成する
ことを特徴とする請求項２記載のアンカーモデル適応装置。
前記クラスタリング手段は、
前記クラスタリングを実行する際に、前記記憶手段に記憶されているアンカーモデルのいずれかに対して発散が所定の閾値よりも小さい確率モデルを、当該発散が最も小さくなるアンカーモデルに合併させる
ことを特徴とする請求項１記載のアンカーモデル適応装置。
前記確率モデルは、ガウス確率モデルまたは指数分布確率モデルである
ことを特徴とする請求項１記載のアンカーモデル適応装置。
単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段を備えたアンカーモデル適応装置におけるアンカーモデルのオンライン自己適応方法であって、
オーディオ・ストリームの入力を受け付ける入力ステップと、
前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割ステップと、
前記部分データ各々の確率モデルを推定する推定ステップと、
前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定ステップにおいて推定された確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリングステップと、
を含むことを特徴とするオンライン自己適応方法。
単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段と、
オーディオ・ストリームの入力を受け付ける入力手段と、
前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段と、
前記部分データ各々の確率モデルを推定する推定手段と、
前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段と、
を備えることを特徴とする集積回路。
単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段と、
オーディオ・ストリームの入力を受け付ける入力手段と、
前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段と、
前記部分データ各々の確率モデルを推定する推定手段と、
前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段と、
を備えることを特徴とするＡＶ（Audio Video）デバイス。
前記入力手段が受け付けるオーディオ・ストリームは、映像データから抽出されたオーディオ・ストリームであり、
前記ＡＶデバイスは、更に、
前記記憶手段に記憶されているアンカーモデルを用いて、前記オーディオ・ストリームの種別を分類する分類手段を
備えることを特徴とする請求項８記載のＡＶデバイス。
単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶するメモリを備えたコンピュータにアンカーモデルのオンライン自己適応を実行させるための処理手順を示したオンライン自己適応プログラムであって、
前記処理手順は、
オーディオ・ストリームの入力を受け付ける入力ステップと、
前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割ステップと、
前記部分データ各々の確率モデルを推定する推定ステップと、
前記メモリに記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定ステップにおいて推定された確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリングステップと、
を含むことを特徴とするオンライン自己適応プログラム。