JP5620474B2 - アンカーモデル適応装置、集積回路、AV(AudioVideo)デバイス、オンライン自己適応方法、およびそのプログラム - Google Patents

アンカーモデル適応装置、集積回路、AV(AudioVideo)デバイス、オンライン自己適応方法、およびそのプログラム Download PDF

Info

Publication number
JP5620474B2
JP5620474B2 JP2012511549A JP2012511549A JP5620474B2 JP 5620474 B2 JP5620474 B2 JP 5620474B2 JP 2012511549 A JP2012511549 A JP 2012511549A JP 2012511549 A JP2012511549 A JP 2012511549A JP 5620474 B2 JP5620474 B2 JP 5620474B2
Authority
JP
Japan
Prior art keywords
model
anchor
models
probability
audio stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012511549A
Other languages
English (en)
Other versions
JPWO2011132410A1 (ja
Inventor
レイ ジャー
レイ ジャー
ビンチー ザン
ビンチー ザン
シェンハイフン
ハイフン シェン
ロン マー
ロン マー
小沼 知浩
知浩 小沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of JPWO2011132410A1 publication Critical patent/JPWO2011132410A1/ja
Application granted granted Critical
Publication of JP5620474B2 publication Critical patent/JP5620474B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)

Description

本発明は、音響空間のアンカーモデルのオンライン自己適応に関する。
近年、DVDプレイヤー、BDプレイヤーなど各種の再生装置や、ムービーカメラなどの録画装置などにおいては、その記録容量の大容量化に伴い、多くの映像コンテンツが記録されるようになっている。映像コンテンツの大量化に伴い、そのような装置において、それらの映像コンテンツをユーザに負担をかけることなく容易に分類できることが望まれる。また、そのような装置が、それぞれの映像コンテンツの内容をユーザが簡単に認識できるようにダイジェスト映像を生成したりすることが考えられる。
このような分類やダイジェスト映像の生成のための指標として、映像コンテンツのオーディオ・ストリームが用いられることがある。映像コンテンツとそのオーディオ・ストリームとの間には、密接な関連性があるためである。例えば、子供に関連する映像コンテンツには、当然に子供の声が多く含まれるし、海水浴などを撮影した映像コンテンツであった場合には、波の音が多く含まれることになる。従って、映像コンテンツの音の特徴に応じて映像コンテンツを分類したりできることになる。
オーディオ・ストリームを利用して映像コンテンツを分類する手法には、主として、以下の三種類がある。
一つ目としては、予め何らかの特徴を有するサウンド素片に基づく音声モデルを記憶しておき、当該モデルと、映像コンテンツのオーディオ・ストリームに含まれる音声の特徴との関連性の度合い(尤度)に応じて、映像コンテンツを分類する手法である。ここで、確率モデルは、例えば、子供の笑い声、波の音、花火の音など各種の特徴的な音声を元にしたものであり、波の音が多く含まれるオーディオ・ストリームであると判定された場合には、映像コンテンツは、海水浴のものであるといった分類がなされる。
二つ目としては、音響空間においてアンカーモデル(各種の音声を表現するモデル)を確立する。そして、映像コンテンツのオーディオ・ストリームの音声情報を当該音響空間に投影したモデルを生成する。そして、投影して得られるモデルと、確立されている各アンカーモデルとの間の距離を算出することで、映像コンテンツの分類を行う手法である。
三つめとしては、二つ目の手法において、投影して得られるモデルと、確立されている各アンカーモデルとの間の距離ではなく、例えば、KLの距離、あるいは、発散距離を用いる手法である。
上述したいずれの場合においても、分類を実行するためには音声モデル(アンカーモデル)が必要となるが、当該音声モデルの生成のためには、ある程度の数の、トレーニング用の映像コンテンツを収集しておく必要がある。収集した映像コンテンツのオーディオ・ストリームを用いて、トレーニングするためである。
音声モデルの確立には、ある程度似通った音声をユーザがいくつか収集しておき、その似通った音声のガウスモデル(GMM:Gaussian Mixture Model)を生成する第1の手法と、無差別に収集された音声から、装置が適切にいくつかの音声を選別して、音響空間におけるアンカーモデルを生成する第2の手法とがある。
第1の手法は、既に言語識別や画像識別などに応用されており、その方法によって成功した事例が数多く挙げられる。第1の手法に従って、ガウスモデルを生成する場合には、モデルの確立を必要とする音声や映像の種類に対して、最尤法(MLE:Maximum Likelihood Estimation)を用いて、モデルのパラメータを推定することによってなされる。トレーニング後の音声モデル(ガウスモデル)は、副次的な特徴が無視され、モデルの確立を必要とする音声や映像の種類の特徴が精確に描写されていることが要求される。
第2の手法では、生成されるアンカーモデルがより広い音響空間を表現できるように生成されることが望まれる。この場合のモデルのパラメータの推定には、K−means法によるクラスタリング、または、LBG法(Linde-Buzo-Gray algorithm)、あるいは、EM法(Estimation Maximization algorithm)が用いられる。
特許文献1には、上記手法のうち1つ目の手法を利用した動画のハイライトを抽出方法が開示されている。特許文献1では、拍手音、喝采音、打球音、音楽等の音響モデルを利用して動画を分類し、ハイライトを抽出することを開示しています。
特開2004−258659号公報
ところで、上述したような映像コンテンツの分類に当たっては、分類したい映像コンテンツのオーディオ・ストリームと、記憶してあるアンカーモデルとの整合が取れないことがある。つまり、元から記憶してあるアンカーモデルを用いて、分類したい対象の映像コンテンツのオーディオ・ストリームの種別を厳密に特定できない、あるいは、適切に分類できないことがある。このような非整合は、システム性能の低下、あるいは信頼性の低下を招くことにつながるため、好ましいものではない。
したがって、アンカーモデルを実際の入力されたオーディオ・ストリームに基づいて、調整する技術が必要となる。このアンカーモデルを調整する技術を本分野においては、オンライン自己適応法と呼称されることがしばしばある。
しかしながら、従来からあるオンライン自己適応法は、最尤法に基づくMAP(Maximum-A-Posteriory estimation method)とMLLR(Maximum Likelihood Linear Regression)アルゴリズムを用いて、アンカーモデルで表現される音響空間モデルの自己適応を行うものの、当該音響空間外にある音声については、いつまでも適切に評価できない、あるいは、評価できるようになるまで時間を要するという問題がある。
この問題を具体的に説明する。ある程度の長さを有するオーディオ・ストリームがあったとして、その中に、ある特徴を有する音声が少しだけ含まれていたとする。そして、予め用意してある音声モデルの中には、そのある特徴を有する音声を評価できるものがなかったとする。そうすると、そのある特徴を有する音声を正しく評価できるようになるために、音声モデルの自己適応が必要になる。しかし、最尤法の場合、そのある特徴を有する音声が、そのある程度の長さを有するオーディオ・ストリームに対する割合が低い(長さが短い)場合、音声モデルへの反映率が極端に小さいものになるためである。具体的にいえば、1時間の長さを有する映像コンテンツの中に、30秒程度の子供の泣き声があったとして、何らかの泣き声に対応するアンカーモデルがなかった場合に、その泣き声が映像コンテンツの長さに対して短いために、アンカーモデルの自己適応を行っても、アンカーモデルへの反映率が低いということになり、次に再び、泣き声を評価しようとしても適切に評価できないことになる。
本発明は、上記課題に鑑みて成されたものであり、従来よりも音響空間のアンカーモデルに対してより適切にオンライン自己適応を実行できるアンカーモデル適応装置、アンカーモデル適応方法、及び、そのプログラムを提供することを目的とする。
上記課題を解決するため、本発明に係るアンカーモデル適応装置は、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段と、オーディオ・ストリームの入力を受け付ける入力手段と、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段と、前記部分データ各々の確率モデルを推定する推定手段と、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段と、を備えることを特徴としている。
また、本発明に係るオンライン自己適応方法は、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段を備えたアンカーモデル適応装置におけるアンカーモデルのオンライン自己適応方法であって、オーディオ・ストリームの入力を受け付ける入力ステップと、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割ステップと、前記部分データ各々の確率モデルを推定する推定ステップと、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定ステップにおいて推定された確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリングステップと、を含むことを特徴としている。
ここで、オンライン自己適応とは、ある音響特徴を表現するアンカーモデルを、入力されたオーディオ・ストリームに応じて、より適切に音響空間を表現するためにアンカーモデルを適応(補正及び生成)させることをいい、本明細書においては、オンライン自己適応という用語は、この意味で用いている。
また、本発明に係る集積回路は、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段と、オーディオ・ストリームの入力を受け付ける入力手段と、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段と、前記部分データ各々の確率モデルを推定する推定手段と、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段と、を備えることを特徴としている。
また、本発明に係るAVデバイスは、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段と、オーディオ・ストリームの入力を受け付ける入力手段と、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段と、前記部分データ各々の確率モデルを推定する推定手段と、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段と、を備えることを特徴としている。
また、本発明に係るオンライン自己適応プログラムは、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶するメモリを備えたコンピュータにアンカーモデルのオンライン自己適応を実行させるための処理手順を示したオンライン自己適応プログラムであって、前記処理手順は、オーディオ・ストリームの入力を受け付ける入力ステップと、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割ステップと、前記部分データ各々の確率モデルを推定する推定ステップと、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定ステップにおいて推定された確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリングステップと、を含むことを特徴としている。
上述のような構成によって、アンカーモデル適応装置は、元からあるアンカーモデルと、入力されたオーディオ・ストリームに基づいて生成された確率モデルとから新たなアンカーモデルを生成できる。即ち、単に元からあるアンカーモデルを補正するのではなく、入力されたオーディオ・ストリームに応じたアンカーモデルが新たに生成されることになる。このため、アンカーモデル適応装置は、アンカーモデル適応装置が組み込まれる各種映像機器や音声機器等のユーザの好みに応じた音響空間をカバーできるアンカーモデルを生成できる。よって、アンカーモデル適応装置によって生成されたアンカーモデルを使用することで、例えば、ユーザそれぞれの好みに応じて入力される映像データを適切に分類することができる。
アンカーモデルによって表現される音響空間モデルのイメージ図である。 アンカーモデル適応装置の機能構成例を示すブロック図である。 アンカーモデルの自己適応の全体的な流れを示すフローチャートである。 新規アンカーモデルの生成動作の具体例を示すフローチャートである。 音響空間モデルに、新たなガウスモデルを加えた場合のイメージ図である。 本発明に係るアンカーモデル適応手法を用いて生成されたアンカーモデルにより表現される音響空間モデルのイメージ図である。
<実施の形態>
以下、本発明の一実施形態であるアンカーモデル適応装置について図面を用いて説明する。
本発明の実施例では、音響空間のアンカーモデルを採用している。音響空間のアンカ−モデルは、その種類が様々あるが、あるモデルを利用して音響空間を全面的にカバーすることが核心的な思想であり、座標系に類似する空間座標系の組み合わせにより表現される。音響特徴が異なる任意の2セグメントのオーディオファイルは、この座標系における異なる二つのポイントにマッピングされる。
図1は、本発明の実施例にかかる音響空間のアンカーモデルの一例を示している。AV番組の音響空間に対して、例えば、並列する複数個のガウスモデルを用いて音響空間中の各ポイントの音響特徴を示している。
本発明の実施例によれば、AVストリームは、オーディオ・ストリームまたはやオーディオ・ストリームを含む映像ストリームである。
図1がそのイメージ図である。図1の四角の枠が音響空間であるとして、その中の一つの丸各々が同一の音響特徴を有するクラスタ(部分集合)である。各クラスタ内に示す点は、一つのガウスモデルを示している。
図1に示されるように、似たような特徴を有するガウスモデルは、音響空間上においても似たような位置で示されるものであり、それらの集合は一つのクラスタ、即ち、アンカーモデルを形成することになる。本実施例においては、UBM(Universal Background Model)の音声アンカーモデルを使用しており、UBMは、多くの単ガウスモデルの集合として、以下に示す式(1)で表現することができる。
Figure 0005620474
ここで、μは、第i番目のガウスモデルの平均値を示す。また、σは、第i番目のガウスモデルの分散を示す。各ガウスモデルは、その平均値の付近にある音響空間における部分領域であるサブ領域を描写するものである。これらのサブ領域を表現するガウスモデルを組み合わせて一つのUBMモデルを形成する。UBMモデルは、音響空間全体を具体的に描写するものである。
図2は、アンカーモデル適応装置100の機能構成を示す機能ブロック図である。
図2に示すようにアンカーモデル適応装置100は、入力手段10と、特徴抽出手段11と、マッピング手段12と、AVクラスタリング手段13と、分割手段14と、モデル推定手段15と、モデルクラスタリング手段18と、調節手段19とを備える。
入力手段10は、映像コンテンツのオーディオ・ストリームの入力を受け付けて、特徴抽出手段11に伝達する機能を有する。
特徴抽出手段11は、入力手段10から伝達されたオーディオ・ストリームから、その特徴量を抽出する機能を有する。また、特徴抽出手段11は、抽出した特徴量をマッピング手段12に伝達する機能と、分割手段14に伝達する機能も有する。特徴抽出手段11は、入力されたオーディオ・ストリームに対して、所定時間(例えば、10msecなど、ごく短い時間)毎にオーディオ・ストリームの特徴を特定する。
マッピング手段12は、特徴抽出手段11から伝達された特徴量に基づいて、オーディオ・ストリームの特徴量を音響空間モデル上にマッピングする機能を有する。ここでいうマッピングとは、現在のオーディオ・セグメント中の一フレーム毎の特徴の音響空間のアンカーモデルへの事後確率(posteriori probability)を算出し、算出した各フレームの事後確率各々を加算した結果を、算出に用いたフレームの総数で割ることをいう。
AVクラスタリング手段13は、マッピング手段12によりマッピングされた特徴量と、予めアンカーモデル集合20に記憶されているアンカーモデルとに従って、クラスタリングを実行し、入力されたオーディオ・ストリームの分類を特定し、特定した分類を出力する機能を有する。AVクラスタリング手段13は、当該クラスタリングを、任意のクラスタリングアルゴリズムを用いて、隣接しあうオーディオ・セグメント間の距離に基づいて行う。本発明の一つの実施例によれば、下から上へ逐次に合併する方法を用いてクラスタリングを行う。
ここで、二つのオーディオ・セグメント間の距離は、音響空間のアンカーモデルへのマッピングと、音響空間のアンカーモデルとによって、算出される。ここで、保持している全てのアンカーモデルに含まれるガウスモデルを用いて、各オーディオセグメントを表現する確率モデルであるがうすモデルグループを形成することができ、各オーディオ・セグメントは、音響空間におけるアンカーモデルにマッピングすることにより、当該ガウスモデルグループの重みを構成する。このように、オーディオ・セグメント間の距離が、重み付けられた二つのガウスモデルグループの距離によって、定義されることになる。最もよく採用される距離は、所謂KL(Kullback-Leibler) 距離である。このKLの距離を用いて二つのオーディオ・セグメント間の距離を算出する。
なお、当該クラスタリング手法は、音響空間のアンカーモデルが、完全に音響空間全体をカバーできていれば、任意の二つのオーディオ・セグメントの相互間の距離を算出することで、アンカーモデル集合20に保持されており音響空間を表現するアンカーモデルに対して、オーディオ・セグメントをマッピングすることができる。ただし、実際には、アンカーモデル集合20に保持されているアンカーモデルが音響空間全体をカバーできるとは限られない。したがって、本実施の形態に示すアンカーモデル適応装置100は、入力されるオーディオ・ストリームを適切に表現できるようアンカーモデルのオンライン自己適応調節を実行する。
分割手段14は、特徴抽出手段11に入力されたオーディオ・ストリームを、特徴抽出手段11から伝達された特徴量に基づいて、時間軸方向で連続して同じ特徴を有すると推定されるオーディオ・セグメントに分割する機能を有する。分割手段14は、分割したオーディオ・セグメントとその特徴量とを対応づけて、モデル推定手段15に伝達する。なお、分割して得られる各オーディオ・セグメントの時間長は、互いに異なる長さであってよい。また、分割手段が分割して生成するオーディオ・セグメントそれぞれは、単一の音響特徴を備えるものであり、単一の音響特徴を有するオーディオ・セグメントは、一つの音声イベント(例えば、花火の音、人の話声、子供の泣き声、運動会の音など)であると理解されてもよい。
分割手段14は、入力されたオーディオ・ストリームに対して、あらかじめ定められた所定長(例えば、100msec)のスライディング窓を随時時間軸に沿ってスライドさせていき、音響特定が大きく変化する点を検出し、その点が音響特徴の変化点であるとして、連続的なオーディオ・ストリームを部分データに分割する。
分割手段14は、時間軸方向に、一定のステップ長(時間幅)でスライドし、所定の窓長(例えば、100msec)を有するスライディング窓を用いて音響特徴が大きく変化する点を測定して、連続的なオーディオ・ストリームに対して分割を行う。スライディングを行う度に、スライディング窓の中間点は、一つの分割点となる。ここで、分割点の分割発散を定義すると、Oi+1,Oi+2,…,Oi+Tは、窓長がTであるスライディング窓内の言語音特徴データを代表し、iは現時点でのスライディング窓の始点である。データOi+1,Oi+2,…,Oi+Tの分散は、Σであり、データOi+1,Oi+2,…,Oi+T/2の分散は、Σであり、データOi+T/2+1,Oi+T/2+2,…,Oi+Tの分散は、Σであることにすると、分割点(スライディング窓の中間点)の分割発散は、以下の式(2)で定義できる。
Figure 0005620474
分割発散が大きければ大きいほど、このスライディング窓に含まれるデータのうち左右両端のデータの音響特徴の影響が大きいということになり、スライディング窓の左右にあるオーディオ・ストリームの音響特徴が互いに異なったものである可能性が高く、分割点の候補になる。分割手段14は、最後に、分割発散が予め定められた所定値よりも大きい分割点を選択して、連続的なオーディオデータを、音響特徴が単一であるオーディオ・セグメントに分割する。
モデル推定手段15は、分割手段14から伝達されたオーディオ・セグメントとその特徴量に基づき、当該オーディオ・セグメントのガウスモデルを一つ推定する機能を有する。モデル推定手段15は、各オーディオ・セグメントのガウスモデルを推定し、推定したガウスモデル各々を、テストデータに基づくモデル集合17に含ませて、記憶手段21に記憶させる機能を有する。
モデル推定手段15によるガウスモデルの推定について、詳しく説明する。
分割手段14によりオーディオ・セグメントが得られると、モデル推定手段15は、各オーディオ・セグメントに対して単ガウスモデルを推定する。ここで、音響特徴が単一であるオーディオ・セグメントのデータフレームを、O,Ot+1,…,Ot+lenと定義する。すると、定義されたO,Ot+1,…,Ot+lenに対応する単ガウスモデルの平均値パラメータと分散パラメータとは、それぞれ、下記の式(3)及び式(4)のように推定される。
Figure 0005620474
Figure 0005620474
式(3)及び式(4)に示される平均値パラメータと分散パラメータとにより単ガウスモデルが表現される。
モデルクラスタリング手段18は、任意のクラスタリングアルゴリズムを用いて、記憶手段21にあるトレーニングデータに基づくモデル集合16とテストデータに基づくモデル集合17とに対してクラスタリングを実行する機能を有する。
ここから、モデルクラスタリング手段18が実行するクラスタリングについて具体的に説明する。
調節手段19は、モデルクラスタリング手段18がクラスタリングを実行して生成したアンカーモデルを調節する機能を有する。なお、ここでいう調節とは、予め定められたアンカーモデル数になるまで、アンカーモデルの分割を行うことをいう。調節手段19は、調節後のアンカーモデルをアンカーモデル集合20として記憶手段21に記憶させる機能を有する。
記憶手段21は、アンカーモデル適応装置100が動作する上で必要とするデータを記憶する機能を有し、ROM(Read Only Memory)やRAM(Random Access Memory)を含んで構成されてよく、例えば、HDD(Hard Disc Drive)などにより、実現される。記憶手段21は、トレーニングデータに基づくモデル集合16と、テストデータに基づくモデル集合17と、アンカーモデル集合20とを記憶している。なお、トレーニングデータに基づくモデル集合16は、アンカーモデル集合20と同一のものであり、オンライン自己適応を行った場合には、アンカーモデル集合20で更新されることになる。
<動作>
次に、本実施の形態の動作を図3及び図4に示すフローチャートを用いて説明する。
図3のフローチャートを用いて、アンカーモデル適応装置100におけるオンライン自己適応調節の手法として、モデルクラスタリング手段18が実行するオンライン自己適応調節手法を説明する。
モデルクラスタリング手段18は、ツリー分裂である上から下への方法に基づいて単ガウスモデルの高速クラスタリングを実行する。
ステップS11において、オンライン自己適応調節により生成されるべき、音響空間のアンカーモデルの大きさ(数)を、例えば512個に設定する。当該個数は、予め定められているものとする。音響空間のアンカーモデルの大きさを設定するということは、全ての単ガウスモデルを、いくつの分類に分けるのかを確定することを意味する。
ステップS12において、各単ガウスモデル分類のモデル中心を確定する。なお、初期状態では、一つのモデル分類しかないため、すべての単ガウスモデルは、当該一つのモデル分類に属することになる。また、複数のモデル分類がある状態においては、各単ガウスモデルはいずれかのモデル分類に属することとなる。ここで、現時点でのモデル分類集合を以下の式(5)のように表現できる。
Figure 0005620474
式(5)において、ωは、単ガウスモデル分類の重みを示している。なお、単ガウスモデル分類の重みωは各単ガウスモデルにより表現される音声イベントの重要度に応じて予め設定しておく。すると、上記式(5)により表現されるモデル分類の中心は、下記の式(6)及び式(7)のように算出される。単ガウスモデルは、平均値と分散のパラメータにより表現されるため、以下の2つの式が導出される。
Figure 0005620474
Figure 0005620474
上述の式を用いて、ステップS13において、発散が最も大きいモデル分類を選択し、選択された当該モデル分類の中心を、二つの中心に分裂させる。ここで二つの中心に分裂させるとは、モデル分類の中心から、新たな二つのモデル分類を生成するための中心を二つ生成することをいう。
モデル分類の中心を二つの中心に分裂させるにあたり、先ず、二つのガウスモデルの距離を定義する。ここで、KLの距離は、ガウスモデルfとガウスモデルgとの間の距離とみなされ、下記式(8)で表現される。
Figure 0005620474
ここで、現在のモデル分類を下記式(9)のように表現するものとする。
Figure 0005620474
上記、式(9)において、NcurClassは、現在のモデル分類の個数を意味する。すると、この現在のモデル分類の発散は、下記式(10)のように定義されることになる。
Figure 0005620474
現時点で存在する全てのモデル分類、つまり、モデル分類の分割過程において、当該処理段階において存在するモデル分類全てに対して、各モデル分類の発散を算出する。算出された発散の中で、発散値が最も大きいモデル分類を検出する。分散と重みとを不変に保持したうえで、当該モデル分類、つまり、一つのモデル分類の中心を、二つのモデル分類の中心に分裂させることになる。具体的にいうと、下記式(11)に示されるように、新たな二つのモデル分類の中心を算出する。
Figure 0005620474
ステップS14において、騒動分裂を行ったモデル分類に対して、ガウスモデルに基づくKmeans法を用いたガウスモデルクラスタリングを行う。距離を算出するアルゴリズムとしては、上述したKLの距離を採用する。各分類のモデル更新には、ステップS12におけるモデル中心更新計算式(式11参照)が用いられる。Kmeans法によるガウスモデルのクラスタリング過程が収束した後に、一つのモデル分類が、二つのモデル分類に分裂され、それと対応して二つのモデル中心が生成される。
ステップS15において、現時点でのモデル分類の数が、予め設定された音響空間のアンカーモデルの大きさ(数)に達したかを判断する。ここで、予め設定された音響空間のアンカ−モデルの大きさ(数)に達してなかった場合、ステップS13に戻る。達していた場合には、この過程を終了する。
ステップS16において、全てのモデル分類のガウス中心を抽出してまとめることによって、平行な複数個のガウスモデルによって構成されるUBMモデルが形成される。当該UBMモデルは、新たな音響空間のアンカーモデルと称される。
現時点の音響空間のアンカーモデルは、自己適応によって生成されるものであるため、以前に使用される音響空間のアンカーモデルとは異なるものになる。したがって、一定の平滑化調節及び処理を行うことによって、二つのアンカーモデル間の関係を確立すると共に、アンカーモデルのロバスト性(robustness)を増強できる。平滑化調節とは、例えば、発散が所定の閾値より小さい単ガウスモデルの合併を行うことをいう。また、合併とは、発散が所定の閾値より小さい単ガウスモデルを一つのモデルにマージする(組み込む)ことをいう。
図4は、本発明の実施例にかかる音響空間のアンカーモデルに対してオンライン自己適応調節の方法とオーディオのクラスタリングを行う方法とを示すフローチャートである。なお、ここでは、アンカーモデル適応装置100の工場出荷時には、予め記憶されているべきトレーニングデータに基づくモデル集合16の初期時の生成過程も併せて示している。
図4に示すように、左側に示すステップS31−S34は、トレーニング映像データ集を利用し、トレーニングデータに基づく単ガウスモデルを生成する過程を示している。
ステップS31において、アンカーモデル装置100の入力手段10には、トレーニング用の映像データが入力される。ステップS32において、特徴抽出手段11は、入力されたオーディオ・ストリームの特徴、例えば、メルケプストラムなどの特徴を抽出する。
ステップS33において、分割手段14は、特徴抽出された連続的なオーディオ・ストリームの入力を受け付けて、上述の分割手法を用いて、当該オーディオ・ストリームを複数個のオーディオ・セグメント(部分データ)に分割する。
ステップS34において、オーディオ・セグメントが得られると、モデル推定手段15は、各オーディオ・セグメントに対して、上述した手法を用いて単ガウスモデルの推定を行う。トレーニングデータに基づくモデル集合16において、予めトレーニングデータに基づいて生成されるガウスモデルが記憶されている。
図4に示すように、中央の部分に示すステップS41−S43は、ユーザから提出されるテスト映像データを利用し、アンカーモデルに対して自己適応調整を行う過程を示している。
ステップS41において、ユーザから提出されたテスト映像データから、特徴抽出手段11は、その特徴を抽出し、分割手段14は、特徴抽出された後に単一の音響特徴を備えるオーディオ・セグメントへの分割処理を行う。
ステップS42において、オーディオ・セグメントが得られた後に、モデル推定手段15は、各オーディオ・セグメントに対して単ガウスモデルの推定を行う。記憶手段21のトレーニングデータに基づくモデル集合16には、予めトレーニングデータに基づいて生成されたガウスモデルが記憶されている。これにより、数多くの単ガウスモデルによって構成される単ガウスモデル集合が生成される。
ステップS43において、モデルクラスタリング手段18は、図3に示した方法で単ガウスモデルに対しての高速ガウスクラスタリングを行う。これにより、モデルクラスタリング手段18は、音響空間のアンカーモデルの自己適応更新または調整を行って新たな音響空間のアンカーモデルを生成する。本発明の実施例によれば、モデルクラスタリング手段18は、トップダウン・ツリー分割型のクラスタリング手法に基づいて単ガウスモデルの高速クラスタリングを実行する。
図4の右側に示すステップS51−S55は、自己適応調整後のアンカーモデルに基づいてオンラインクラスタリングを行う過程を示している。
ステップS51において、ユーザから提出されたAV映像データを、テスト用映像データ集とする。その後に、ステップS52において、分割手段14は、オーディオ・ストリームを複数個の単一の音響特徴を有するオーディオ・セグメントに分割させる。テスト用映像データ集に基づいて生成されたオーディオ・セグメントをテストオーディオ・セグメントという。
ステップS53において、マッピング手段12は、各テストオーディオ・セグメントの音響空間のアンカーモデルへのマッピングを算出する。上述の通り、通常に用いるマッピングは、現時点でのオーディオ・セグメント中の一フレーム毎の特徴が、音響空間のアンカーモデルへの事後確率(posteriori probability)を算出し、これらの事後確率を加算した結果を、特徴フレームの総数で割ることで算出することである。
ステップS54において、AVクラスタリング手段13は、任意のクラスタリングアルゴリズムを用い、オーディオ・セグメント間の距離に基づいてオーディオ・セグメントのクラスタリングを行う。本発明の一つの実施例によれば、トップダウン・ツリー分割型のクラスタリング手法を用いてクラスタリングを行う。
ステップS55において、AVクラスタリング手段13は、分類を出力して、オーディオ・ストリームあるいはその元となった映像データにラベルを加える、あるいはその他の操作を行うためにユーザに供する。
以上に示したオンライン自己適応調節を実行することにより、アンカーモデル適応装置100は、入力されるオーディオ・ストリームを適切に分類できる音響空間のアンカーモデルを生成し、当該アンカーモデルを用いての分類が可能となる。

<アンカーモデルの更新例>
当該動作によって、本発明に係るアンカーモデル適応装置により適応されて更新されたアンカーモデルにより表現される音響空間モデルのイメージを説明する。
仮に、トレーニングデータのアンカーモデルで表現される音響空間モデルが図1に示すものであったとする。そして、これにテストデータに基づくガウスモデルを加えた音響空間モデルを図5に示すように表現したとする。
図5において、アンカーモデル適応装置に、動画から抽出されたオーディオ・ストリームを分割し、分割された部分データのガウスモデルがそれぞれ、×印で表現されたものとする。当該バツ印で表現されるガウスモデルがテストデータに基づくガウスモデル集合になる。
本実施の形態に係るアンカーモデル適応装置は、アンカーモデルの自己適応を行う際に、元からあるアンカーモデルに含まれるガウスモデル群(図5に示す○で示すアンカーモデルそれぞれに含まれるガウスモデル群)及び、テストデータから生成されたガウスモデル群(図5に×で示すガウスモデル)とから、新たなアンカーモデルを上記実施の形態に示した手法を用いて生成する。
結果、本実施の形態に係るアンカーモデル適応装置によるアンカーモデルの自己適応の場合、図6に示すイメージ図のように、新たなアンカーモデルを用いて、より広く音響空間モデルをカバーできるようになる。図1と図6とを比較すればわかるように、図1示すアンカーモデルでは表現できなかった部分をより適切に表現できるようになる。例えば、音響空間モデルにおいて図6のアンカーモデル601によりカバーできる範囲が広くなっていることが明らかである。なお、ここでは、トレーニングデータのアンカーモデルと、オンライン自己適応後のアンカーモデルの個数が同じである場合を示しているが、仮に、オンライン自己適応によって、生成されるべきアンカーモデルの個数が、トレーニングデータのアンカーモデルの個数よりも多い場合には、当然に最終的なアンカーモデルの個数が増加することになる。
したがって、本実施の形態に示したアンカーモデル適応装置100によれば、従来よりも、入力されたオーディオ・ストリームに対する適応性を高めることができ、ユーザそれぞれに応じたアンカーモデルを提供できるアンカーモデル適応装置を提供できる。

<まとめ>
本発明に係るアンカーモデル適応装置は、入力されるオーディオ・ストリームを用いて、記憶しているアンカーモデルを、入力されたオーディオ・ストリームを表現するガウス確率モデルにより表わされる音響空間全てをカバーできるアンカーモデルに更新することができる。アンカーモデルは、入力されたオーディオ・ストリームの音響特徴に応じて、新たに生成しなおされるため、入力されたオーディオ・ストリームの種別によって異なったものが生成される。したがって、アンカーモデル適応装置を家庭用のAV機器等に搭載することで、各ユーザに適した動画の分類が実行できるようになる。
<補足1>
上記実施の形態において、本発明を説明してきたが、本発明は上記実施の形態に限られないことは勿論である。以下、上記実施の形態以外に本発明の思想として含まれる各種の変形例について説明する。
(1)上記実施の形態においては、アンカーモデル適応装置は、予め記憶しているアンカーモデルと、入力されたオーディオ・ストリームから生成したガウスモデルとから、新たなアンカーモデルを生成することした。しかし、アンカーモデル適応装置は、初期状態において、アンカーモデルを予め記憶していなくともよい。
この場合、アンカーモデル適応装置には、ある程度の個数の動画を蓄積した記録媒体等に接続して転送させたりすることで、一定量の動画を取得し、その動画の音声を解析して、確率モデルを生成してクラスタリングを実行して、アンカーモデルを0から作成することになる。すると、各アンカーモデル適応装置は、アンカーモデルを生成するまでは、動画の分類を行えないものの、完全に、各ユーザに特化したアンカーモデルを生成しての分類ができるようになる。
(2)上記実施の形態において、確率モデルの一形態として、ガウスモデルを例に説明してきた。しかし、当該モデルは、事後確率モデルを表現できるものであれば、必ずしもガウスモデルである必要はなく、例えば、指数分布確率モデルであってもよい。
(3)上記実施の形態においては、特徴抽出手段11が特定する音響特徴は、10msec単位で特定することとした。しかし、特徴抽出手段11が音響特徴を抽出する為の所定時間は、音響特徴がある程度似通ると推定される期間であれば、10msecである必要はなく、10msecよりも長い時間(例えば、15msec)であってもよいし、逆に10msecよりも短い時間(例えば、5msec)であってもよい。
また、同様に、分割手段14が分割の際に用いるスライディング窓の所定長も100msecに限定されるものではなく、分割点を検出するための十分な長さがあれば、これよりも、長くてもあるいは短くてもよい。
(4)上記実施の形態においては、音響特徴を表わすものとして、メルケプストラムを用いたが、これは、音響特徴を表現できるものであれば、メルケプストラムである必要はなく、LPCMCであってもよいし、あるいは、音響特徴を表現する手法としてメルを用いずともよい。
(5)上記実施の形態においては、AVクラスタリング手段は、所定数として512個のアンカーモデルが生成されるまで、分裂を繰り返すこととしたが、これは、512個という個数に限定されるものではない。より広い音響空間を表現するためにその個数はより多い1024個などであってもよいし、逆に、アンカーモデルを記憶するための記録領域の容量制限により、128個などであってもよい。
(6)各種のAV機器、特に動画を再生することが可能なAV機器に上記実施の形態に示したアンカーモデル適応装置を搭載、あるいは、上記アンカーモデル適応装置と同等の機能を実現できる回路を搭載させることで、その有用性が増す。AV機器としては、例えば、動画を記録するためのハードディスク等を搭載したテレビや、DVDプレイヤー、BDプレイヤー、デジタルビデオカメラなど各種の記録再生装置が挙げられる。これらの記録再生装置の場合、上記記憶手段は、機器に搭載されているハードディスク等の記録媒体が相当する。また、この場合に入力されるオーディオ・ストリームとしては、テレビ放送波を受信して得られる動画のものや、DVDなどの記録媒体に記録されている動画のもの、あるいは、機器にUSBケーブル等の有線接続あるいは無線接続を介して取得した動画のものなどがある。
特に、ユーザがムービーカメラ等を用いて撮影した動画に含まれる音声は、それぞれのユーザの好みに応じて撮影された映像に依拠するために、ユーザごとで生成されるアンカーモデルは互いに異なったものとなる。なお、似通った好みを有する、つまり、似たような映像を撮影するユーザ同士のAV機器に搭載されるアンカーモデル適応装置によって生成されたアンカーモデルは、似通ったアンカーモデルになる。
(7)ここで、上記実施の形態において、自己適応したアンカーモデルの利用形態について、簡単に説明する。
アンカーモデルの利用形態としては、上述の課題で説明したように、入力される動画の分類のために用いられる。
あるいは、ある動画中において、ユーザが興味をもったある時点に対して、当該時点を含み、かつ、当該時点のアンカーモデルとある閾値の範囲内で同じ音響特徴を有すると推定される区間をユーザの興味区間として特定するのに用いることもできる。
また、その他にも、動画においてユーザが興味を示すと推定される期間を抽出したりするのにも用いることができる。具体的に説明すると、ユーザが指定した、あるいは、ユーザが頻繁に視聴した動画等から特定したユーザの好みの動画に含まれる音声を特定し、その音響特徴を記憶してあるアンカーモデルから特定する。そして、動画中において、特定した音響特徴とある程度以上一致すると推定される期間を抽出して、ハイライト動画を作成するのに用いたりすることもできる。
(8)上記実施の形態においては、オンライン自己適応を開始するタイミングについては特に定めていないが、これは、新たな映像データに基づくオーディオ・ストリームが入力されるごとであってもよいし、テストデータに基づくモデル集合17に含まれるガウスモデルが所定数(例えば、1000個)集まったタイミングで実行することとしてもよい。あるいは、アンカーモデル適応装置がユーザからの入力を受け付けるインターフェースを備えている場合には、ユーザからの指示を受けて、実行することとしてもよい。
(9)上記実施の形態においては、調節手段19がモデルクラスタリング手段18によりクラスタリングされたアンカーモデルの調節を行って、アンカーモデル集合20として記憶手段21に記憶させることとした。
しかし、アンカーモデルの調節の必要がない場合には、調節手段19を設ける必要はなく、その場合には、モデルクラスタリング手段18が生成したアンカーモデルを直接記憶手段21に記憶させることとしてもよい。
あるいは、調節手段19が保持する調節機能をモデルクラスタリング手段18が保持していてもよい。
(10)上記実施の形態に示したアンカーモデル適応装置の各機能部(例えば、分割手段14やAVクラスタリング手段18など)は、専用回路により実現されてもよいし、それぞれの機能をコンピュータが果たせるようソフトウェアプログラムにより実現されることとしてもよい。
また、アンカーモデル適応装置の各機能部は、1または複数の集積回路により実現されることとしてもよい。当該集積回路は、半導体集積回路により実現されてよく、当該半導体集積回路は、集積度の違いによりIC(Integrated Circuit)、LSI(Large Scale Integration)、SLSI(Super Large Scale Integration)などと呼称される。
(11)上述の実施形態で示したクラスタリングに係る動作、アンカーモデルの生成処理等(図4等参照)をPCやAVデバイス等のプロセッサ、及びそのプロセッサに接続された各種回路に実行させるためのプログラムコードからなる制御プログラムを、記録媒体に記録すること、又は各種通信路等を介して流通させ頒布させることもできる。このような記録媒体には、ICカード、ハードディスク、光ディスク、フレキシブルディスク、ROM等がある。流通、頒布された制御プログラムはプロセッサに読み出され得るメモリ等に格納されることにより利用に供され、そのプロセッサがその制御プログラムを実行することにより、実施形態で示したような各種機能が実現されるようになる。
<補足2>
以下に、本発明に係る一実施の形態と、その効果について説明する。
(a)本発明の一実施形態に係るアンカーモデル適応装置は、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデル(16or20)を複数記憶する記憶手段(21)と、オーディオ・ストリームの入力を受け付ける入力手段(10)と、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段(14)と、前記部分データ各々の確率モデルを推定する推定手段(15)と、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデル(17)とをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段(18)と、を備えることを特徴としている。
また、本発明の一実施形態に係るオンライン自己適応方法は、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段を備えたアンカーモデル適応装置におけるアンカーモデルのオンライン自己適応方法であって、オーディオ・ストリームの入力を受け付ける入力ステップと、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割ステップと、前記部分データ各々の確率モデルを推定する推定ステップと、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定ステップにおいて推定された確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリングステップと、を含むことを特徴としている。
また、本発明の一実施形態に係る集積回路は、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段と、オーディオ・ストリームの入力を受け付ける入力手段と、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段と、前記部分データ各々の確率モデルを推定する推定手段と、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段と、を備えることを特徴としている。
また、本発明の一実施形態に係るAV(Audio Video)デバイスは、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段と、オーディオ・ストリームの入力を受け付ける入力手段と、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段と、前記部分データ各々の確率モデルを推定する推定手段と、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段と、を備えることを特徴としている。
また、本発明の一実施形態に係るオンライン自己適応プログラムは、単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶するメモリを備えたコンピュータにアンカーモデルのオンライン自己適応を実行させるための処理手順を示したオンライン自己適応プログラムであって、前記処理手順は、オーディオ・ストリームの入力を受け付ける入力ステップと、前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割ステップと、前記部分データ各々の確率モデルを推定する推定ステップと、前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定ステップにおいて推定された確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリングステップと、を含むことを特徴としている。
これらの構成によれば、入力されたオーディオ・ストリームに応じて、新たなアンカーモデルを生成できることになるので、ユーザの視聴する映像に対する好みに応じたアンカーモデルが生成されることになる。したがって、それぞれのユーザにとって適切な音響空間をカバーし得るアンカーモデルを生成するオンライン自己適応調節を実現できる。これにより、入力されたオーディオ・ストリームに基づく映像データを分類するときなどに、分類できない、あるいは、保持しているアンカーモデルで適切に表現できないといった状態を回避できるようになる。
(b)上記(a)に示されるアンカーモデル適応装置において、前記クラスタリング手段は、ツリー分裂手法を用いて、生成される複数のアンカーモデルが予め定められた所定数になるまで生成し、生成した所定数のアンカーモデルを新たなアンカーモデルとして前記記憶手段に記憶させることとしてもよい。
これにより、アンカーモデル適応装置は、予め定められた所定数のアンカーモデルを生成することができる。当該所定数を予め音響空間を表現できるに足ると推定される個数に設定しておくことにより、オンライン自己適応を実行することで、入力されるオーディオ・ストリームに応じて、当該オーディオ・ストリームを表現するために必要とされるアンカーモデルを用いて十分に音響空間をカバーできる。
(c)上記(a)に示されるアンカーモデル適応装置において、前記ツリー分裂手法は、発散距離が最も大きいモデル分類の中心に基づき、新たな二つのモデル中心を生成し、前記発散距離が最も大きいモデル分類を、前記二つのモデル中心それぞれを中心とする新たなモデル分類を生成し、分裂して生成されるモデル分類が前記所定数になるまで繰り返して、アンカーモデルを生成することとしてもよい。
これにより、アンカーモデル適応装置は、元からあるアンカーモデルに含まれる確率モデルと、入力されたオーディオ・ストリームから生成された確率モデルとを適切に分類することができる。
(d)上記(a)に示されるアンカーモデル適応装置において、前記クラスタリング手段は、前記クラスタリングを実行する際に、前記記憶手段に記憶されているアンカーモデルのいずれかに対して発散が所定の閾値よりも小さい確率モデルを、当該発散が最も小さくなるアンカーモデルに合併させることとしてもよい。
これにより、確率モデルの個数があまりにも多い場合に、その数を減少させた上でのクラスタリングを実行できる。したがって、オーディオ・ストリームから生成された確率モデルの個数を減らすことにより、クラスタリングのための演算量を減少させることができる。
(e)上記(a)に示されるアンカーモデル適応装置において、前記確率モデルは、ガウス確率モデルまたは指数分布確率モデルであることとしてもよい。
これにより、本発明に係るアンカーモデル適応装置は、音響特徴を表現する手法として、一般的に使用されるガウス確率モデル、あるいは、指数分布確率モデルを使用することができ、その汎用性を高めることができる。
(f)上記(a)に示されるAVデバイスにおいて、前記入力手段が受け付けるオーディオ・ストリームは、映像データから抽出されたオーディオ・ストリームであり、前記AVデバイスは、更に、前記記憶手段に記憶されているアンカーモデルを用いて、前記オーディオ・ストリームの種別を分類する分類手段(AVクラスタリング手段13)を備えることとしてもよい。
これにより、AVデバイスは、入力された映像データに基づくオーディオ・ストリームを分類できる。当該分類に用いるアンカーモデルは、入力されたオーディオ・ストリームに応じて更新されるため、適切にオーディオ・ストリーム、あるいは、その元となった映像データを分類でき、AVデバイスは、映像データの仕分け等のユーザの利便性に貢献する。
本発明に係るアンカーモデル適応装置は、AVコンテンツを記憶して再生する任意の電子機器に活用することができ、AVコンテンツの分類や、動画中のユーザにとって興味があると推測される興味区間の抽出等の利用に供する。
100 アンカーモデル適応装置
11 特徴抽出手段
12 マッピング手段
13 AVクラスタリング手段
14 分割手段
15 モデル推定手段
16 トレーニングデータに基づくモデル集合
17 テストデータに基づくモデル集合
18 モデルクラスタリング手段
19 調節手段
20 アンカーモデル集合
21 記憶手段

Claims (10)

  1. 単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段と、
    オーディオ・ストリームの入力を受け付ける入力手段と、
    前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段と、
    前記部分データ各々の確率モデルを推定する推定手段と、
    前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段と、
    を備えることを特徴とするアンカーモデル適応装置。
  2. 前記クラスタリング手段は、ツリー分裂手法を用いて、生成される複数のアンカーモデルが予め定められた所定数になるまで生成し、
    生成した所定数のアンカーモデルを新たなアンカーモデルとして前記記憶手段に記憶させる
    ことを特徴とする請求項1記載のアンカーモデル適応装置。
  3. 前記ツリー分裂手法は、
    発散距離が最も大きいモデル分類の中心に基づき、新たな二つのモデル中心を生成し、
    前記発散距離が最も大きいモデル分類を、前記二つのモデル中心それぞれを中心とする新たなモデル分類を生成し、
    分裂して生成されるモデル分類が前記所定数になるまで繰り返して、アンカーモデルを生成する
    ことを特徴とする請求項2記載のアンカーモデル適応装置。
  4. 前記クラスタリング手段は、
    前記クラスタリングを実行する際に、前記記憶手段に記憶されているアンカーモデルのいずれかに対して発散が所定の閾値よりも小さい確率モデルを、当該発散が最も小さくなるアンカーモデルに合併させる
    ことを特徴とする請求項1記載のアンカーモデル適応装置。
  5. 前記確率モデルは、ガウス確率モデルまたは指数分布確率モデルである
    ことを特徴とする請求項1記載のアンカーモデル適応装置。
  6. 単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段を備えたアンカーモデル適応装置におけるアンカーモデルのオンライン自己適応方法であって、
    オーディオ・ストリームの入力を受け付ける入力ステップと、
    前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割ステップと、
    前記部分データ各々の確率モデルを推定する推定ステップと、
    前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定ステップにおいて推定された確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリングステップと、
    を含むことを特徴とするオンライン自己適応方法。
  7. 単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段と、
    オーディオ・ストリームの入力を受け付ける入力手段と、
    前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段と、
    前記部分データ各々の確率モデルを推定する推定手段と、
    前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段と、
    を備えることを特徴とする集積回路。
  8. 単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶する記憶手段と、
    オーディオ・ストリームの入力を受け付ける入力手段と、
    前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割手段と、
    前記部分データ各々の確率モデルを推定する推定手段と、
    前記記憶手段に記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定手段が推定した確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリング手段と、
    を備えることを特徴とするAV(Audio Video)デバイス。
  9. 前記入力手段が受け付けるオーディオ・ストリームは、映像データから抽出されたオーディオ・ストリームであり、
    前記AVデバイスは、更に、
    前記記憶手段に記憶されているアンカーモデルを用いて、前記オーディオ・ストリームの種別を分類する分類手段を
    備えることを特徴とする請求項8記載のAVデバイス。
  10. 単一の音響特徴を有する音声に基づいて生成された複数の確率モデルの集合であるアンカーモデルを複数記憶するメモリを備えたコンピュータにアンカーモデルのオンライン自己適応を実行させるための処理手順を示したオンライン自己適応プログラムであって、
    前記処理手順は、
    オーディオ・ストリームの入力を受け付ける入力ステップと、
    前記オーディオ・ストリームを単一の音響特徴を有すると推定される部分データに分割する分割ステップと、
    前記部分データ各々の確率モデルを推定する推定ステップと、
    前記メモリに記憶されている複数のアンカーモデル各々を表す複数の確率モデルと前記推定ステップにおいて推定された確率モデルとをクラスタリングして、新たなアンカーモデルを生成するクラスタリングステップと、
    を含むことを特徴とするオンライン自己適応プログラム。
JP2012511549A 2010-04-22 2011-04-19 アンカーモデル適応装置、集積回路、AV(AudioVideo)デバイス、オンライン自己適応方法、およびそのプログラム Active JP5620474B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201010155674.0 2010-04-22
CN201010155674.0A CN102237084A (zh) 2010-04-22 2010-04-22 声音空间基准模型的在线自适应调节方法及装置和设备
PCT/JP2011/002298 WO2011132410A1 (ja) 2010-04-22 2011-04-19 アンカーモデル適応装置、集積回路、AV(Audio Video)デバイス、オンライン自己適応方法、およびそのプログラム

Publications (2)

Publication Number Publication Date
JPWO2011132410A1 JPWO2011132410A1 (ja) 2013-07-18
JP5620474B2 true JP5620474B2 (ja) 2014-11-05

Family

ID=44833952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012511549A Active JP5620474B2 (ja) 2010-04-22 2011-04-19 アンカーモデル適応装置、集積回路、AV(AudioVideo)デバイス、オンライン自己適応方法、およびそのプログラム

Country Status (4)

Country Link
US (1) US20120093327A1 (ja)
JP (1) JP5620474B2 (ja)
CN (2) CN102237084A (ja)
WO (1) WO2011132410A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012164818A1 (ja) * 2011-06-02 2012-12-06 パナソニック株式会社 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路
CN103021440B (zh) * 2012-11-22 2015-04-22 腾讯科技(深圳)有限公司 一种音频流媒体的跟踪方法及系统
JP6085538B2 (ja) 2013-09-02 2017-02-22 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
CN106971734B (zh) * 2016-01-14 2020-10-23 芋头科技(杭州)有限公司 一种可根据模型的提取频率训练识别模型的方法及系统
CN106970971B (zh) * 2017-03-23 2020-07-03 中国人民解放军装备学院 改进型中心锚链模型的描述方法
CN108615532B (zh) * 2018-05-03 2021-12-07 张晓雷 一种应用于声场景的分类方法及装置
CN115661499B (zh) * 2022-12-08 2023-03-17 常州星宇车灯股份有限公司 智能驾驶预设锚框的确定装置、方法及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007514959A (ja) * 2003-07-01 2007-06-07 フランス テレコム 話者の圧縮表現用の音声信号の分析のための方法およびシステム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5806030A (en) * 1996-05-06 1998-09-08 Matsushita Electric Ind Co Ltd Low complexity, high accuracy clustering method for speech recognizer
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
JP2008216672A (ja) * 2007-03-05 2008-09-18 Mitsubishi Electric Corp 話者適応化装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007514959A (ja) * 2003-07-01 2007-06-07 フランス テレコム 話者の圧縮表現用の音声信号の分析のための方法およびシステム

Also Published As

Publication number Publication date
CN102473409A (zh) 2012-05-23
WO2011132410A1 (ja) 2011-10-27
JPWO2011132410A1 (ja) 2013-07-18
CN102473409B (zh) 2014-04-23
CN102237084A (zh) 2011-11-09
US20120093327A1 (en) 2012-04-19

Similar Documents

Publication Publication Date Title
JP5620474B2 (ja) アンカーモデル適応装置、集積回路、AV(AudioVideo)デバイス、オンライン自己適応方法、およびそのプログラム
KR100785076B1 (ko) 스포츠 동영상에서의 실시간 이벤트 검출 방법 및 그 장치
JP4870087B2 (ja) ビデオの分類方法およびビデオの分類システム
US9818032B2 (en) Automatic video summarization
US7620552B2 (en) Annotating programs for automatic summary generation
US7263485B2 (en) Robust detection and classification of objects in audio using limited training data
JP4640407B2 (ja) 信号処理装置、信号処理方法及びプログラム
JP7126613B2 (ja) ドメイン分類器を使用したニューラルネットワークにおけるドメイン適応のためのシステム及び方法
US8804973B2 (en) Signal clustering apparatus
US20100114572A1 (en) Speaker selecting device, speaker adaptive model creating device, speaker selecting method, speaker selecting program, and speaker adaptive model making program
JP7086521B2 (ja) 情報処理方法および情報処理装置
JP2005331940A (ja) マルチメディア中の事象を検出する方法
Koepke et al. Sight to sound: An end-to-end approach for visual piano transcription
Huang et al. Hierarchical language modeling for audio events detection in a sports game
US20220130395A1 (en) Voice-Controlled Management of User Profiles
JP2008199583A (ja) コンピュータにより実施される映像のシーン境界の検出方法
US10390130B2 (en) Sound processing apparatus and sound processing method
WO2013157190A1 (ja) 音声処理装置、音声処理方法、プログラムおよび集積回路
JP7212718B2 (ja) 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム
KR101564087B1 (ko) 화자 검증 장치 및 방법
Cricri et al. Sport type classification of mobile videos
JP2008252667A (ja) 動画イベント検出装置
JP5723446B2 (ja) 興味区間特定装置、興味区間特定方法、興味区間特定プログラム、及び、興味区間特定集積回路
US20130218570A1 (en) Apparatus and method for correcting speech, and non-transitory computer readable medium thereof
WO2021257316A1 (en) Systems and methods for phoneme and viseme recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131018

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140826

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140918

R150 Certificate of patent or registration of utility model

Ref document number: 5620474

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150