JP2010038943A

JP2010038943A - 音響信号処理装置及び方法

Info

Publication number: JP2010038943A
Application number: JP2008198145A
Authority: JP
Inventors: Makoto Hirohata; 誠広畑; Kazunori Imoto; 和範井本; Hisashi Aoki; 恒青木; Tatsuya Uehara; 龍也上原
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-07-31
Filing date: 2008-07-31
Publication date: 2010-02-18

Abstract

【課題】音響信号のクラスタリングを行うと共に、当該クラスタリングにおける分類基準を提示可能な音響信号処理装置を提供する。
【解決手段】音響信号を時分割した区間毎に特徴量を抽出する抽出部１０２と、特徴量が互いに類似する区間同士を纏めて複数のクラスに分類するクラスタリング処理を行うクラスタリング部１０５と、特徴量に基づき、区間の音声らしさ及び音楽らしさの少なくとも一方を示す尤度を計算する計算部１０３と、尤度に基づき、クラスタリング処理によって区間が音声及び音楽のいずれとして分類されるかを示す第１の分類基準を推定する推定部１０４と、クラス毎に第１の分類基準を統合し、第２の分類基準を得る統合部１０６と、クラス及び第２の分類基準を示すラベルを作成し、一定時刻毎にラベルを付与した結果を出力する出力部１０７とを具備する。
【選択図】図１

Description

本発明は、コンテンツの構造化を行う音響信号処理装置及び方法に関する。

近年、映像コンテンツ及び音声(audio)コンテンツの視聴支援のために、コンテンツの構造把握を容易にする情報の作成手法が研究開発されている。具体的には、テレビジョン放送やラジオ放送などの番組コンテンツを主な対象として、話題や場面が切り替わる時刻（コーナー境界時刻）を示すタイムバーや、番組出演者の発話状況を示すタイムチャートの作成手法が提案されている。上記タイムバーやタイムチャートなどのコンテンツの構造把握を容易にする情報を作成する際に、コンテンツを構成する映像信号及び音響信号を構造化するインデクシング技術が用いられる。

特許文献１記載の情報検出装置は、（ａ）音声(audio)信号を所定の時間単位に分割し、（ｂ）分割された音声信号の各々が音声(speech)及び音楽のいずれであるかを識別し、（ｃ）当該音声または音楽の連続区間を検出している。特許文献１記載の情報検出装置によれば、コンテンツ内における音声の連続区間及び音楽の連続区間を示す情報を作成できるので、当該コンテンツの視聴支援に役立つ。

特許文献２記載のインデクシング装置は、（ａ）音響(audio)信号を所定の時間単位に分割し、（ｂ）分割された音響信号の音響モデルを作成し、（ｃ）当該音響モデルの信頼度に基づき、分割された音響信号のクラスタリングを行っている。特許文献２記載のインデクシング装置によれば、コンテンツ内の音声（speech）主体で構成される音響信号に対して話者インデクシングを精度良く行うことができるので、当該コンテンツの視聴支援に役立つ。
特開２００４−２７１７３６号公報特開２００６−８４８７５号公報

特許文献１記載の情報検出装置は、コンテンツ内の音声連続区間及び音楽連続区間の把握には役立つものの、当該音声連続区間や音楽連続区間の実体の把握には役立たない。即ち、特許文献１記載の情報検出装置は、コンテンツ内で特定の話者の発話を示す音声連続区間や、特定の楽曲または歌唱を示す音楽連続区間までをも検出するわけではない。例えば、特許文献１記載の情報検出装置は、複数の楽曲が時間的に連続していれば、当該複数の楽曲を１つの音楽連続区間として検出する。

特許文献２記載のインデクシング装置は、例えば話者インデクシングを行う場合であれば音声主体の音響信号区間のみを用い、音声及び音楽が混在する（即ち、混合音主体の）音響信号区間や音楽主体の音響信号区間を排除することを推奨している（例えば、特許文献２の段落［００８７］に記載）。従って、混合音を含む音響信号に対して特許文献２記載のインデクシング装置を適用した場合には、話者インデクシングの精度は劣化すると考えられる。

しかしながら、番組コンテンツは、音声区間または音楽区間のみで構成されるものは稀であり、例えばＢＧＭなどの音楽と発話などの音声とが混在する混合音区間を含むものが多い。故に、混合音区間を含む音響信号に対するインデクシングは、コンテンツの視聴支援に有用である。

尚、既存技術によって、混合音区間を含む音響信号に対してクラスタリングを行うこと自体は可能であるが、各クラスが音楽及び音声のいずれとして分類されたのか（即ち、分類基準）を提示できない。従って、ユーザは各クラスを実際に視聴するまで、当該クラスが特定話者の発言として分類されたのか、或いは特定の楽曲または歌唱として分類されたのか把握できない。例えばユーザが特定話者の発言を期待して、あるクラスを視聴した場合に、当該クラスが実際には特定の楽曲または歌唱として分類されていたなどの事態が生じ得る。

従って、本発明は、音響信号のクラスタリングを行うと共に、当該クラスタリングにおける分類基準を提示可能な音響信号処理装置を提供することを目的とする。

本発明の一態様に係る音響信号処理装置は、音響信号を時分割した区間毎に特徴量を抽出する抽出部と、前記特徴量が互いに類似する区間同士を纏めて複数のクラスに分類するクラスタリング処理を行うクラスタリング部と、前記特徴量に基づき、前記区間の音声らしさ及び音楽らしさの少なくとも一方を示す尤度を計算する計算部と、前記尤度に基づき、前記クラスタリング処理によって前記区間が音声及び音楽のいずれとして分類されるかを示す第１の分類基準を推定する推定部と、前記クラス毎に前記第１の分類基準を統合し、第２の分類基準を得る統合部と、前記クラス及び前記第２の分類基準を示すラベルを作成し、一定時刻毎に前記ラベルを付与した結果を出力する出力部とを具備する。

本発明の他の態様に係る音響信号処理装置は、音声及び音楽のいずれであるかを示す第１のラベルが予め付与された第１の音響信号を時分割した第１の区間毎に第１の特徴量を抽出する第１の抽出部と、前記第１の特徴量が互いに類似する第１の区間同士を纏めて複数の第１のクラスに分類する第１のクラスタリング処理を行う第１のクラスタリング部と、前記第１の特徴量に基づき、前記第１の区間の音声らしさ及び音楽らしさの少なくとも一方を示す第１の尤度を計算する第１の計算部と、前記第１の尤度及び前記第１のラベルに基づき、前記第１のクラスタリング処理の傾向を示す傾向データを統計的に作成する作成部と、第２の音響信号を時分割した第２の区間毎に第２の特徴量を抽出する第２の抽出部と、前記第２の特徴量が互いに類似する第２の区間同士を纏めて複数の第２のクラスに分類する第２のクラスタリング処理を行う第２のクラスタリング部と、前記第２の特徴量に基づき、前記第２の区間の音声らしさ及び音楽らしさの少なくとも一方を示す第２の尤度を計算する第２の計算部と、前記第２の尤度及び前記傾向データに基づき、前記クラスタリング処理によって前記第２の区間が音声及び音楽のいずれとして分類されるかを示す第１の分類基準を推定する推定部と、前記第２のクラス毎に前記第１の分類基準を統合し、第２の分類基準を得る統合部と、前記第２のクラス及び前記第２の分類基準を示す第２のラベルを作成し、一定時刻毎に前記第２のラベルを付与した結果を出力する出力部とを具備する。

本発明によれば、音響信号のクラスタリングを行うと共に、当該クラスタリングにおける分類基準を提示可能な音響信号処理装置を提供できる。

以下、図面を参照して、本発明の実施形態について説明する。
（第１の実施形態）
図１に示すように、本発明の第１の実施形態に係る音響信号処理装置は、音響信号入力部１０１、特徴量抽出部１０２、尤度計算部１０３、分類基準推定部１０４、クラスタリング部１０５、分類基準統合部１０６及び出力部１０７を有する。

また、図２に示すように、図１の音響信号処理装置は、ＣＰＵ（Central Processing Unit）４０１、操作入力部４０２、表示部４０３、ＲＯＭ（Read Only Memory）４０４、ＲＡＭ（Random Access Memory）４０５、信号入力部４０６、記憶部４０７及びバス４０８を含むハードウエア構成によって実現される。

ＣＰＵ４０１は、ＲＡＭ４０５の所定領域を作業領域として、ＲＯＭ４０４に記憶されたプログラムを実行することにより、図１の音響信号処理装置の構成要素である音響信号入力部１０１、特徴量抽出部１０２、尤度計算部１０３、分類基準推定部１０４、クラスタリング部１０５、分類基準統合部１０６及び出力部１０７の機能を実現する。

操作入力部４０２は、例えばキーボードやポインティングデバイスなどのユーザインタフェースを備え、ユーザから入力された操作を示す入力信号をＣＰＵ４０１に転送する。表示部４０３は、例えばＬＣＤ（Liquid Crystal Display）等の表示手段によって構成され、ＣＰＵ４０１によって表示内容及び表示タイミング等が制御される。尚、操作入力部４０２及び表示部４０３は、タッチスクリーン（タッチパネル）のように一体的に構成されてもよい。

ＲＯＭ４０４は、ＣＰＵ４０１が実行するプログラムや、当該プログラムの実行に必要とされる各種設定情報を書き換え不可能に記憶する。ＲＡＭ４０５は、例えばＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）であって、ＣＰＵ４０１がＲＯＭ４０４に記憶されたプログラムを実行する際に作業領域として機能し、映像信号及び音響信号のバッファリングなどに用いられる。

信号入力部４０６は、映像コンテンツや音声コンテンツを構成する動画像や音声を電気信号（映像信号や音響信号）に変換し、ＣＰＵ４０１に入力する。また、信号入力部４０６は、映像コンテンツ及び音声コンテンツの番組ジャンルを示す情報を取得し、ＣＰＵ４０１に入力してもよい。番組ジャンルは、例えば「ドラマ」、「アニメ」、「スポーツ」または「映画」などであってコンテンツの様式（種別）を示す。信号入力部４０６は、電子番組表（ＥＰＧ）に基づき番組ジャンル情報を取得してもよいし、操作入力部４０２を介してユーザから取得してもよいし、図示しない通信部を介して他のコンピュータ装置などから取得してもよい。信号入力部４０６は、例えば放送受信機（チューナ）を用いる。

記憶部４０７には、データを磁気的または光学的に記録可能な記憶媒体を有し、信号入力部４０６や図示しない通信部などによって取得された映像信号、音響信号及び番組ジャンル情報が記憶される。また、記憶部４０７には、上記映像信号及び音響信号に対してＣＰＵ４０１が図１の音響信号処理装置に相当する処理を行って得られるラベル付与後の映像信号及び音響信号（ラベル付与結果）も記憶される。
バス４０８は、ＣＰＵ４０１、操作入力部４０２、表示部４０３、ＲＯＭ４０４、ＲＡＭ４０５、信号入力部４０６及び記憶部４０７間のデータの伝送に用いられる。

音響信号入力部１０１は、図１の音響信号処理装置の処理対象となる音響信号を特徴量抽出部１０２に入力する。例えば、ＣＰＵ４０１が、記憶部４０７からバス４０８を介して音響信号を取得することにより、音響信号入力部１０１が実現される。

特徴量抽出部１０２は、音響信号入力部１０１からの音響信号を時分割した区間毎に特徴量を抽出する。特徴量抽出部１０２は、区間毎に抽出した特徴量を尤度計算部１０３及びクラスタリング部１０５に入力する。特徴量抽出部１０２が抽出する特徴量は、いわゆる音声認識や話者認識などの分野で利用されるものが望ましく、音響信号の話者性（話者らしさ、音声らしさ）や音楽性（音楽らしさ）の評価に利用可能なものを用いるのがよい。

特徴量抽出部１０２は、例えばシフト幅（フレーム周期）c1、フレーム長c2として、ＭＦＣＣまたはＬＰＣケプストラム等のケプストラム系特徴量をフレーム毎に導出する。具体的には、特徴量抽出部１０２は、音響信号を一定時間c3毎に分割し、当該分割された音響信号（区間）内においてフレーム毎に導出した特徴量の平均値を当該区間の特徴量として抽出する。

特徴量抽出部１０２は、Y. Akitaらによる“Unsupervised Speaker Indexing using Anchor Models and Automatic Transcription of Discussions”, ISCA 8th European Conf. Speech Communication and Technology (Euro Speech), September 2003（参考文献１）に記載された手法を用いてもよい。具体的には、特徴量抽出部１０２は、前述したようにシフト幅c1、フレーム長c2としてＭＦＣＣまたはＬＰＣケプストラム等のケプストラム系特徴量をフレーム毎に導出する。次に、特徴量抽出部１０２は、導出した特徴量を用いて、予め用意しておいた複数の音響モデルの各々に対する尤度を上記フレーム毎に算出する。特徴量抽出部１０２は、上記複数の音響モデルの各々に対する尤度を成分として含む尤度ベクトルを上記フレーム毎に算出し、区間内における平均を当該区間の特徴量として抽出する。

特徴量抽出部１０２は、E. Scheirer らによる“Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator”, IEEE International Conference on Acoustic Speech, and Signal Processing, April 1997（参考文献２）に記載された手法を用いてもよい。具体的には、特徴量抽出部１０２は、前述したようにシフト幅c1、フレーム長c2としてスペクトル変動または零交差数を導出し、当該スペクトル変動または零交差数に基づき特徴量を抽出してもよい。また、上記フレーム毎に導出したスペクトル変動または零交差数の区間内における分散を当該区間の特徴量として抽出してもよい。

尚、シフト幅c1、フレーム長c2及び区間長c3には、c1≦c2≦c3の大小関係を満たすものとする。例えば、シフト幅c1として10msec、フレーム長c2として25msec、区間長c3として1sec等の時間長が夫々割り当てられる。

また、上記例では区間長c3を固定として特徴量を抽出しているが、区間長は可変であってもよい。例えば、特徴量抽出部１０２は、中川らによる“発話間のVQ歪みを用いた話者交替識別と話者クラスタリング”, 電子情報通信学会論文誌, November 2002（参考文献３）記載の手法によって、話者交代時刻のような特徴の変化が大きい時刻を識別し、当該時刻で区切って区間を形成してもよい。また、特徴量抽出部１０２は、音響信号から無音区間を検出し、当該無音区間によって区切られた有音区間を区間として利用してもよい。

特徴量抽出部１０２は、前述した特徴量またはその他の特徴量のうち、複数の特徴量を選択的に抽出してもよい。更に、特徴量抽出部１０２は、抽出した全ての特徴量を尤度計算部１０３及びクラスタリング部１０５に入力する必要は無く、一方に入力する特徴量と他方に入力する特徴量とが異なっていてもよい。具体的には、後述する尤度計算部１０３による尤度計算処理とクラスタリング部１０５によるクラスタリング処理に必要とされる特徴量は必ずしも完全一致しないので、特徴量抽出部１０２は各処理に必要な特徴量のみを入力すればよい。また、特徴量の入力タイミングも一致させなくてよい。例えば、特徴量抽出部１０２は、尤度計算部１０３には逐次（即ち、区間長毎に）特徴量を入力し、クラスタリング部１０５にはまとめて（例えば、発話者の交代時刻毎に）特徴量を入力してもよい。

尤度計算部１０３は、特徴量抽出部１０２からの特徴量に基づき、区間内の音響信号の音声らしさを示す音声尤度及び音楽らしさを示す音楽尤度の少なくとも一方を計算する。尤度計算部１０３は、計算した尤度を分類基準推定部１０４に入力する。

尤度計算部１０３は、例えば参考文献２記載の手法に基づき音楽尤度を計算する。具体的には、尤度計算部１０３は、様々な音楽ジャンル（「クラシック」、「ポップス」、「ロック」または「ジャズ」など）において予め収録した音楽信号のデータから複数の音楽モデル（音響モデル）を作成しておき、区間内の音響信号の当該複数の音楽モデルに対する尤度を特徴量に基づき計算する。音楽モデルは、例えばＧＭＭ（ガウス混合モデル）で表現できる。音声尤度も同様の手法により計算できるが、音楽尤度の反転値（即ち、音楽尤度を１から減じた値）を音声尤度として利用してもよい。反対に、音声尤度のみを計算して、当該音声尤度の反転値を音楽尤度として利用してもよい。尤度計算部１０３は、ＣＰＵ４０１の演算処理量の軽減の観点からすると音楽尤度及び音声尤度のいずれか一方のみを計算したほうがよいが、後述する分類基準推定部１０４による分類基準推定処理の精度向上の観点からすると両者を計算したほうがよい。従って、尤度計算部１０３がいずれの尤度を計算すべきかは、いずれの利点を重視するかによって設計的に定めてよい。尚、音楽尤度及び音声尤度の計算手法は上記例に限られない。

分類基準推定部１０４は、尤度計算部１０３からの尤度に基づき、区間内の音響信号が音楽及び音声のいずれとしてクラスタリング部１０５によって分類されるか（分類基準）を推定する。分類基準推定部１０４は、区間毎に推定した分類基準を分類基準統合部１０６に入力する。

分類基準推定部１０４は、例えばある区間における音楽尤度が閾値th1よりも大きければ、当該区間は音楽として分類されると推定する。即ち、分類基準推定部１０４は、上記区間の分類基準を「音楽」と推定する。一方、分類基準推定部１０４は、ある区間における音楽尤度が上記閾値th1以下であれば、当該区間は音声として分類されると推定する。即ち、分類基準推定部１０４は、上記区間の分類基準を「音声」と推定する。閾値th1は経験的に定めてよく、例えばth1=0.5と定める。

尤度計算部１０３が実際に計算した尤度が音声尤度である場合には、音声尤度が閾値th2よりも大きければ区間の分類基準を「音声」と推定し、閾値th2以下であれば区間の分類基準を「音楽」と推定してもよい。尚、閾値th2は、閾値th1と同様、経験的に定めてよく、例えばth2=0.5と定める。

分類基準推定部１０４が前述した閾値処理のみで分類基準の推定を実現すると、分類基準統合部１０６は、区間内の音響信号が「ほぼ間違いなく音楽（または音声）」と推定されたのか、或いは「音声（または音楽）にかなり近い音楽（または音声）」と推定されたのかを判別できない。従って、分類基準推定部１０４は、分類基準の推定結果だけでなく、当該分類基準の妥当性を示す指標として分類基準の信頼度を計算し、分類基準統合部１０６に入力してもよい。推定結果の信頼度は、例えば以下の数式（１）によって導出できる。

尚、尤度計算部１０３が実際に計算した尤度が音声尤度である場合には、数式（１）において音楽尤度を音声尤度、th1をth2と夫々読み替えればよい。また、分類基準推定部１０４は、数式（１）以外の計算式によって分類基準の信頼度を計算してもよい。具体的には、音楽尤度（音声尤度）が閾値th1（閾値th2）から乖離するほど信頼度が高くなるような計算式が利用可能である。

前述したように、尤度計算部１０３が音楽尤度及び音声尤度の両方を計算したほうが、分類基準推定部１０４による分類基準推定処理の精度は向上する。音楽尤度及び音声尤度は必ずしも反転関係にあるとはいえず、実際に計算すると両者が共に高い場合や両者が共に低い場合が起こり得る。即ち、一方のみを利用する場合、他方の真の値が不明であるために推定の誤りが起こり得る。

分類基準推定部１０４は、尤度計算部１０３が音楽尤度及び音声尤度の両方を計算している場合には、例えば以下の数式（２）に従って推定に利用する値を計算する。

数式（２）は、音楽尤度と音声尤度の重み付き減算を表し、w1は重み（＞０）を表す。数式（２）において音楽尤度と音声尤度を入れ替えてもよい。分類基準推定部１０４は、数式（２）によって導出された値と、閾値th3との比較により区間に対する推定を行う。即ち、分類基準推定部１０４は、推定に利用する値が閾値th3よりも大きければ区間の分類基準を「音楽」と推定し、閾値th3以下であれば区間の分類基準を「音声」と推定する。尚、重みw1及び閾値th3は、閾値th1及びth2と同様、経験的に定めてよく、例えばw1=1、th3=0と定める。また、分類基準の信頼度も数式（１）において音楽尤度を推定に利用する値、th1をth3に夫々読み替えれば計算可能である。

尚、尤度計算部１０３の計算手法や計算に用いる特徴量のデータ量等の違いにより、音楽尤度及び音声尤度の一方が他方に比べて高く計算されやすい、或いは低く計算されやすいなどの不均衡が生じるおそれがある。従って、数式（２）において音楽尤度及び音声尤度を対等に評価するために必要であれば尤度の調整を行ってもよい。具体的には、高く計算されやすい尤度に対して一定値offsetを減じたり、低く計算されやすい尤度に対して一定値offsetを加算したりしてもよい。

分類基準推定部１０４は、音楽尤度及び音声尤度の大小関係から分類基準を推定してもよい。即ち、分類基準推定部１０４は、音楽尤度が音声尤度より大きければ区間の分類基準を「音楽」と推定し、音楽尤度が音声尤度以下であれば区間の分類基準を「音声」と推定してもよい。

分類基準推定部１０４は、音響信号の属する番組ジャンルに応じて音楽尤度及び音声尤度に一定値offsetを加減算してもよいし、閾値th1、th2及びth3を変更してもよいし、重みw1を変更してもよい。

クラスタリング部１０５は、特徴量抽出部１０２からの特徴量に基づくクラスタリングを行う。即ち、クラスタリング部１０５は、特徴量が互いに類似する区間同士をクラス（集合）として纏め、音響信号を構成する各区間をいずれか１つのクラスに分類する。尚、同じクラスに属する全ての区間が時間的に連続しているとは限らない。特徴量同士の類似性は、例えば特徴量がベクトル表現される場合であれば、当該ベクトル同士のユークリッド距離によって評価できる。クラスタリング部１０５は、例えばk-means法などの既存のクラスタリングアルゴリズムを利用してよい。尚、クラスタリング部１０５が音響信号に適用するクラスタリング手法またはパラメータは、一定でなくてもよく、例えば音響信号の番組ジャンルに応じて異ならせてもよい。

クラスタリング部１０５は、クラスタリングによって得られたクラスに属する区間の各々に対し、区間情報を付与する。区間情報には、当該区間の開始時刻、終了時刻及びいずれのクラスに属するかを示す識別子が含まれる。上記識別子は、例えばクラス番号であって、同一クラスに属する全ての区間の間で共通のものが付与される。尚、区間情報には、属するクラスに含まれる区間数や累積区間長が含まれてもよい。

クラスタリング部１０５は、クラスの纏まりとしての妥当性を示す指標として各クラスの信頼度を導出してもよい。上記クラスの信頼度は、クラスに属する各区間の特徴量同士が類似しているほど高い値となり、例えばクラスに属する各区間の特徴量の対角共分散行列のノルムの逆数を用いることができる。

分類基準統合部１０６は、分類基準推定部１０４によって推定された各区間の分類基準を統合することにより、クラスタリング部１０５によって分類された各クラスの分類基準を推定する。前述したように、クラスは区間の集合であって、当該区間の各々の分類基準は分類基準推定部１０４によって推定されている。

具体的には、分類基準統合部１０６は、クラスに属する区間の分類基準の累積区間数の多少に応じて当該クラスの分類基準を推定できる。例えばあるクラスにおいて１区間の分類基準が「音声」、９区間の分類基準が「音楽」であれば、分類基準統合部１０６は、当該クラスの分類基準を「音楽」と推定できる。

区間長が一定でなければ、累積区間長の長短に応じてクラスの分類基準を推定することも有効である。例えばあるクラスにおいて分類基準が「音声」の区間の累積区間長が１sec、分類基準が「音楽」の区間の累積区間長が９secであれば、分類基準統合部１０６は当該クラスの分類基準を「音楽」と推定できる。

各区間の分類基準の信頼度も導出されている場合には、当該信頼度を利用してもよい。例えば、分類基準統合部１０６は、前述した累積区間数や累積区間長に基づく分類基準の統合において、上記信頼度を重みとして利用し、累積重み付き区間数や累積重み付き区間長に基づいて分類基準を統合してよい。

分類基準統合部１０６は、クラスの分類基準の信頼度を算出してもよい。具体的には、前述した累積区間数、累積区間長、累積重み付き区間数及び累積重み付き区間長（以上を便宜的に累積区間数等と称する）に基づく分類基準の統合を行った場合であれば、全体（即ち、「音楽」及び「音声」）の累積区間数等に対する統合結果（即ち、「音楽」及び「音声」のいずれか一方）の累積区間数等の割合を上記信頼度として利用できる。例えばあるクラスにおいて１区間の分類基準が「音声」、９区間の分類基準が「音楽」であれば、分類基準統合部１０６は、当該クラスの分類基準を「音楽」と推定できると共に、当該分類基準の信頼度を９／（９＋１）＝９／１０と算出できる。

分類基準統合部１０６は、音響信号全体の分類基準の推定及び当該分類基準の信頼度の算出を行ってもよい。即ち、分類基準統合部１０６は、全区間を同一クラスに属するとみなし、前述した各区間の分類基準の統合及び信頼度の算出を行うことにより、音響信号全体の分類基準の推定及び信頼度の算出を実現できる。

分類基準統合部１０６は、前述した分類基準の統合を行った後に、クラスタリング部１０５に音響信号の再クラスタリングを実行させてもよい。音響信号の再クラスタリングにおいて、クラスタリング部１０５は、分類基準が「音声」のクラスと、分類基準が「音楽」のクラスとに区分し、両クラスに対して個別に再クラスタリングを行う。尚、両クラスに対する再クラスタリングにおいて、適用するクラスタリング手法またはパラメータは同一でなくてもよい。例えば、クラスタリング部１０５は、分類基準が「音楽」と推定されたクラスは、分類基準が「音声」と推定されたクラスよりも特徴量の散らばり（分散）が大きい場合には、各クラスの特徴量の分散が大きくなるようなパラメータ（例えば、k-means法におけるクラスタ中心）を設定してもよい。

出力部１０７は、分類基準統合部１０６による分類基準の統合結果に基づき、前述したクラスの識別子と、当該クラスの分類基準の統合結果とを少なくとも含む情報を提示するためのラベルを作成し、一定時刻毎に付与する。出力部１０７は、ラベルと当該ラベルが付与された時刻とを視覚的に把握しやすいように、例えばラベル毎に色分けしたタイムバーなどをラベル付与結果として出力する。ここで、一定時刻とは例えば１secまたは区間長などである。尚、出力部１０７は、クラスの分類基準の統合結果を音響信号全体の分類基準の推定結果に置き換えてラベルを作成してもよい。また、出力部１０７は、分類基準の信頼度も提示するようにラベルを作成してもよい。

出力部１０７は、全てのクラスに関してラベルを付与する必要は無く、ラベルを選択的に付与することができる。即ち、出力部１０７は、一部のクラスに関してのみ優先的にラベルを付与し、他のクラスに関するラベルの付与を省略してよい。

具体的には、出力部１０７は、総時間長の長いクラスに関するラベルを優先的に付与させる。例えば、出力部１０７は総時間長の上位３クラスに関するラベルのみを付与し、他のクラスに関するラベルの付与を省略する。

また、出力部１０７は、信頼度の高いクラスに関するラベルを優先的に付与させてもよい。例えば、出力部１０７はクラスの信頼度の上位３クラスに関するラベルのみを付与し、他のクラスに関するラベルの付与を省略してもよい。

また、出力部１０７は、一方の分類基準に関するラベルを優先的に付与させてもよい。例えば、出力部１０７は、分類基準が「音楽」のクラスに関するラベルのみを付与し、分類基準が「音声」のクラスに関するラベルの付与を省略してもよい。

また、出力部１０７は、分類基準の信頼度の高いクラスに関するラベルを優先的に付与させてもよい。例えば、出力部１０７は分類基準の信頼度が閾値（例えば０．５）以上のクラスに関するラベルのみを付与し、他のクラスに関するラベルの付与を省略してもよい。また、出力部１０７は分類基準の信頼度の上位３クラスに関するラベルのみを付与し、他のクラスに関するラベルの付与を省略してもよい。

また、出力部１０７は、前述した総時間長、信頼度、分類基準及び分類基準の信頼度などの諸条件を組み合わせてラベルを付与するクラスを決定してもよい。また、出力部１０７は、ラベルの優先的付与から除外したクラスに関して、ラベルの付与を省略する代わりに、共通のラベルを付与してもよい。

以下、図３乃至図６を用いて図１の音響信号処理装置が行う処理の流れを説明する。
まず、音響信号入力部１０１が、処理対象となる音響信号を特徴量抽出部１０２に入力する（ステップＳ５０１）。次に、特徴量抽出部１０２が、ステップＳ５０１において入力された音響信号を時分割した区間毎に特徴量を抽出する（ステップＳ５０２）。
次に、ステップＳ５０３及びステップＳ５０４の処理と、ステップＳ５０５の処理とが行われる。両者は並列的に行われてよいし、任意の順序で行われてもよい。

ステップＳ５０３において、尤度計算部１０３は、ステップＳ５０２において抽出された特徴量毎に尤度を計算する。例えば、図４に示すように、尤度計算部１０３は音楽尤度を計算する。次に、分類基準推定部１０４は、ステップＳ５０３において計算された尤度に基づき、区間の分類基準を推定する（ステップＳ５０４）。例えば、図４に示すように、分類基準推定部１０４は音楽尤度が０．５より大であれば区間の分類基準を「音楽（＝Ｍ）」、０．５以下であれば区間の分類基準を「音声（＝Ｓ）」と推定する。また、図４において、分類基準推定部１０４は、数式（１）に基づき分類基準の信頼度も計算している。

ステップＳ５０５において、クラスタリング部１０５は、ステップＳ５０２において抽出された特徴量同士の類似度に基づき、クラスタリングを行う。例えば、図５に示すように、クラスタリング部１０５は特徴量ｆ1〜ｆ14同士の類似度に基づき、各区間をクラスＡ、Ｂ、Ｃ及びＤに分類する。また、図５において、クラスタリング部１０５は同一クラスに属する各区間の特徴量の対角共分散行列のノルムの逆数を当該クラスの信頼度として計算している。

ステップＳ５０３及びステップＳ５０４の処理と、ステップＳ５０５の処理とが終了すると、処理はステップＳ５０６に進む。ステップＳ５０６において、分類基準統合部１０６は、ステップＳ５０４において推定された各区間の分類基準と、ステップＳ５０５におけるクラスタリング結果とに基づき、各クラスの分類基準を統合する。例えば、図４に示すように、分類基準統合部１０６はクラスＡ、Ｂ、Ｃ及びＤの各々に関し、区間の分類基準を統合する。また、図４において、分類基準統合部１０６はクラスＡ、Ｂ、Ｃ及びＤの分類基準の信頼度も算出している。

次に、出力部１０７は、ステップＳ５０６において統合された各クラスの分類基準に基づき、各クラスに関するラベルを一定時刻毎に付与し、当該ラベル付与結果を出力し（ステップＳ５０７）、処理は終了する。

ここで、前述したように、出力部１０７はラベルを選択的に付与することが可能であり、図６に示すように様々なバリエーションをつけることができる。即ち、出力部１０７は、全てのクラスに関してラベルを付与してもよい（ステップＳ５０７−１）し、信頼度の上位３クラスに関してのみラベルを付与してもよい（ステップＳ５０７−２）し、総時間長の上位３クラスに関してのみラベルを付与してもよい（ステップＳ５０７−３）し、分類基準が「音楽」のクラスに関してのみラベルを付与してもよい（ステップＳ５０７−４）し、分類基準の信頼度が０．５以上のクラスに関してのみラベルを付与してもよい（ステップＳ５０７−５）。尚、図６に示す各ラベル付与結果において、「Ｓ−１」及び「Ｍ−２」等はクラスの識別子を夫々表し、例えば「Ｓ−１」は分類基準が「音声」の第１のクラス、「Ｍ−２」は分類基準が「音楽」の第２のクラスを表す。また、「その他」はラベル付与を除外したクラス全体に関して共通に付与されたラベルを表す。

以上説明したように、本実施形態に係る音響信号処理装置は、音響信号を時分割した区間毎に分類基準を推定し、上記音響信号のクラスタリング結果におけるクラス単位で上記分類基準を統合している。従って、本実施形態に係る音響信号処理装置によれば、クラス単位での分類基準を提示することが可能となる。即ち、ユーザは、各クラスが特定の話者の発言を示すのか、或いは特定の楽曲または歌唱を示すのかを容易に把握することが可能となる。

また、本実施形態に係る音響信号処理装置は、混合音区間を含んだ音響信号であっても前述した効果を奏することが可能である。例えば、音声Ａ及び音楽Ｘの混合音区間と、音声Ａ及び音楽Ｙの混合音区間とを含む音響信号であって、上記音声Ａ及び音楽Ｘの混合音区間には、音声Ａが優位な区間と音楽Ｘが優位な区間とを含むものとする。上記例において、上記音声Ａ及び音楽Ｘの混合音区間の分類基準の推定結果は、「音声」及び「音楽」のいずれも含むものと考えられる。本実施形態に係る音響信号処理装置は、クラスタリング後に各クラスにおいて分類基準を統合するため、上記音声Ａ及び音楽Ｘの混合音区間と、音声Ａ及び音楽Ｙの混合音区間とが同じクラスに分類されれば当該クラスの分類基準を「音声」として統合することが可能である。ユーザは、ラベルに付与された分類基準「音声」を確認することにより、上記クラスが特定話者の発言（音声Ａ）の纏まりとして分類されたことを把握できる。

また、本実施形態に係る音響信号処理装置は、ラベル付与を選択的に行うことができるので、ユーザにとって優先度の高い情報のみを選択的に提示することが可能である。例えば、ユーザが特定話者の発言の視聴を希望する場合には、分類基準が「音声」のクラスに関してのみラベルを付与すれば、ユーザは所望の視聴時刻を容易に把握できる。

（第２の実施形態）
図７に示すように、本発明の第２の実施形態に係る音声信号処理装置は、上記図１に示す音響信号処理装置において、分類基準推定部１０４を分類基準推定部２０４に置き換え、更に学習用音響信号入力部２１１、学習用特徴量抽出部２１２、学習用尤度計算部２１３、学習用クラスタリング部２１５、正解入力部２２１、傾向データ作成部２２２及び傾向データ格納部２２３を有している。以下の説明では、図７において図１と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

学習用音響信号入力部２１１は、後述する傾向データを作成するための学習処理に用いられる学習用音響信号を学習用特徴量抽出部２１２に入力する。学習用音響信号は、音声区間のみで構成される音響信号、音楽区間のみで構成される音響信号または両者を任意の混合比で混合した音響信号などである。

学習用特徴量抽出部２１２は、特徴量抽出部１０２と同様に、学習用音響信号入力部２１１からの学習用音響信号を時分割した区間毎に特徴量（学習用特徴量）を抽出する。学習用特徴量抽出部２１２は、区間毎に抽出した特徴量を学習用尤度計算部２１３及び学習用クラスタリング部２１５に入力する。

学習用尤度計算部２１３は、尤度計算部１０３と同様に、学習用特徴量抽出部２１２からの特徴量に基づき、区間内の音響信号の尤度（学習用尤度）を計算する。学習用尤度計算部２１３は、計算した尤度を傾向データ作成部２２２に入力する。

学習用クラスタリング部２１５は、クラスタリング部１０５と同様に、学習用特徴量抽出部２１２からの特徴量に基づくクラスタリング（学習用クラスタリング）を行う。即ち、学習用クラスタリング部２１５は、特徴量が互いに類似する区間同士をクラスとして纏め、学習用音響信号を構成する各区間をいずれか１つのクラスに分類する。

正解入力部２２１は、学習用音響信号に対する正解ラベルを傾向データ作成部２２２に入力する。ここで、正解ラベルとは、例えば学習用音響信号に対して予め人為的に付与されたラベルである。尚、学習用音響信号が、音声区間のみで構成される信号と音楽区間のみで構成される信号とを任意の混合比で混合した音響信号であれば、正解入力部２２１は、当該混合比も傾向データ作成部２２２に入力することが望ましい。上記混合比は、音声に対する音楽の強度の比または音楽に対する音声の強度の比を例えばｄＢ値で表す。

傾向データ作成部２２２は、学習用尤度計算部２１３からの尤度と、学習用クラスタリング部２１５からのクラスタリング結果と、正解入力部２２１からの正解ラベルとに基づき、傾向データを作成する。ここで、傾向データは、学習用尤度計算部２１３によって計算された尤度に対する、学習用クラスタリング部２１５によるクラスタリングの傾向を表す統計データである。傾向データ作成部２２２は、作成した傾向データを傾向データ格納部２２３に格納させる。

具体的には、まず、傾向データ作成部２２２は学習用クラスタリング部２１５によるクラスタリング結果における各クラスの尤度平均を求める。ここで、尤度平均は各クラスに属する全ての区間の尤度の算術平均でよいし、区間長で重み付けを行った加重平均でもよい。傾向データ作成部２２２は、上記尤度平均を一定範囲（例えば０．１刻み）で区分し、当該区分毎に正解ラベルが示す分類基準が「音楽」及び「音声」である数を夫々カウントする処理を全ての学習用音響信号に対する当該処理が完了するまで繰り返す。全ての学習用音響信号に対する処理の完了後、傾向データ作成部２２２は、各区分において、上記分類基準毎のカウント数から算出した確率値を当該分類基準の信頼度として傾向データを作成する。即ち、上記傾向データにおいて、一定範囲で区分された尤度平均と、当該区分における各分類基準の信頼度とが対応付けられている。

また、傾向データ作成部２２２は、一定範囲で区分された尤度平均と、当該区分に対し推定される分類基準とを単に対応付けて傾向データを作成してもよい。区分に対し推定される分類基準は、例えば当該区分における上記カウント数の大小により定めることができる。

また、傾向データ作成部２２２は、一定範囲で区分された尤度平均と、当該区分に対し推定される分類基準とに基づき、当該分類基準の信頼度を最大化する閾値th1、th2またはth3を傾向データとして作成してもよい。閾値th1、th2またはth3を傾向データとした場合は、分類基準推定部２０４は分類基準推定部１０４と同様の推定処理を行う。更に、傾向データ作成部２２２は、分類基準の信頼度を最大化する重みw1や、一定値offsetを傾向データとして作成してもよい。

また、傾向データ作成部２２２は、一定範囲で区分された尤度及び一定範囲で区分されたクラスの累積時間長の組み合わせと、当該組み合わせにおける各分類基準の信頼度とを対応付けて傾向データを作成してもよい。或いは、傾向データ作成部２２２は、上記組み合わせと、当該組み合わせに対し推定される分類基準とを単に対応付けて傾向データを作成してもよい。或いは、傾向データ作成部２２２は、上記組み合わせと、当該組み合わせに対し推定される分類基準とに基づき、当該分類基準の信頼度を最大化させる閾値th1、th2またはth3、重みw1または一定値offsetを傾向データとして作成してもよい。

また、傾向データ作成部２２２は、正解入力部２２１から学習用音響信号の混合比を取得し、傾向データの作成に利用してもよい。即ち、傾向データ作成部２２２は、尤度と混合比との相関を回帰分析した回帰式を用いれば混合比から尤度平均の推定値を得ることが可能であり、当該推定値から大きく乖離した尤度平均が得られたクラスを上記カウント処理から除外できる。一方、傾向データ作成部２２２は、上記回帰式を用いて尤度平均から得られた混合比の推定値と、実際に正解入力部２２１から取得した混合比との間の差を分類基準の信頼度に反映させてもよい。例えば、傾向データ作成部２２２は上記差が小さくなるほど大きくなるような値を分類基準の信頼度に加えてもよい。

また、傾向データ作成部２２２は、番組ジャンル毎に異なる傾向データを作成してもよい。即ち、番組ジャンルの異なる学習用音響信号を複数用意しておき、傾向データ作成部２２２は、番組ジャンル毎に独立して傾向データを作成すればよい。

傾向データ格納部２２３には、傾向データ作成部２２２によって作成された傾向データが格納される。傾向データ格納部２２３に格納された傾向データは、分類基準推定部２０４によって適宜読み出される。

分類基準推定部２０４は、尤度計算部１０３からの尤度と、傾向データ格納部２２３からの傾向データとに基づき、区間毎の分類基準を推定する。例えば傾向データが、一定範囲に区分された尤度平均と当該区分における各分類基準の信頼度とが対応付けられたデータであれば、分類基準推定部２０４は区間の尤度が属する区分において信頼度が高い分類基準を、当該区間の分類基準として推定できる。また、分類基準推定部２０４は、上記分類基準の信頼度をそのまま分類基準統合部１０６に入力してもよい。

以下、図８及び図９を用いて図７の音響信号処理装置が行う処理の流れを説明する。
まず、音響信号入力部１０１が、処理対象となる音響信号を特徴量抽出部１０２に入力する（ステップＳ６０１）。次に、特徴量抽出部１０２が、ステップＳ６０１において入力された音響信号を時分割した区間毎に特徴量を抽出する（ステップＳ６０２）。

次に、ステップＳ６０３及びステップＳ６０４の処理と、ステップＳ６０５の処理とが行われる。両者は並列的に行われてよいし、任意の順序で行われてもよい。

ステップＳ６０３において、尤度計算部１０３は、ステップＳ６０２において抽出された特徴量毎に尤度を計算する。例えば、図９に示すように、尤度計算部１０３は音楽尤度を計算する。

次に、分類基準推定部２０４は、ステップＳ６０３において計算された尤度と、傾向データ格納部２２３に格納されている傾向データとに基づき区間の分類基準を推定する（ステップＳ６０４）。例えば、図９に示すように、分類基準推定部２０４は、一定範囲で区分された尤度平均と、当該区分における各分類基準の信頼度とが対応付けられた傾向データを参照して各音楽尤度に対応する推定結果を得ている。図９に示す傾向データにおいて、「［Ｘ，Ｙ）」はＸ以上Ｙ未満を表し、「［Ｘ，Ｙ］」はＸ以上Ｙ以下を表す。ステップＳ６０５において、クラスタリング部１０５は、ステップＳ６０２において抽出された特徴量同士の類似度に基づき、クラスタリングを行う。

ステップＳ６０３及びステップＳ６０４の処理と、ステップＳ６０５の処理とが終了すると、処理はステップＳ６０６に進む。ステップＳ６０６において、分類基準統合部１０６は、ステップＳ６０４において推定された各区間の分類基準と、ステップＳ６０５におけるクラスタリング結果とに基づき、各クラスの分類基準を統合する。例えば、図９に示すように、分類基準統合部１０６はクラスＡ、Ｂ、Ｃ及びＤの各々に関し、区間の分類基準を統合する。また、図９において、分類基準統合部１０６はクラスＡ、Ｂ、Ｃ及びＤの分類基準の信頼度も算出している。

次に、出力部１０７は、ステップＳ６０６において統合された各クラスの分類基準に基づき、各クラスに関するラベルを一定時刻毎に付与し、当該ラベル付与結果を出力し（ステップＳ６０７）、処理は終了する。

以下、図１０を用いて図７の音響信号処理装置による傾向データの作成処理の流れを説明する。
まず、未処理の学習用音響信号があれば（ステップＳ７０１）、学習用音響信号入力部２１１は、当該学習用音響信号を学習用特徴量抽出部２１２に入力する（ステップＳ７０２）。次に、学習用特徴量抽出部２１２が、ステップＳ７０２において入力された学習用音響信号を時分割した区間毎に特徴量を抽出する（ステップＳ７０３）。
次に、ステップＳ７０４の処理と、ステップＳ７０５の処理とが行われる。両者は並列的に行われてもよいし、任意の順序で行われてもよい。

ステップＳ７０４において、学習用尤度計算部２１３は、ステップＳ７０３において抽出された特徴量毎に尤度を計算する。ステップＳ７０５において、学習用クラスタリング部２１５は、ステップＳ７０３において抽出された特徴量同士の類似度に基づき、クラスタリングを行う。

ステップＳ７０４の処理と、ステップＳ７０５の処理とが終了すると、処理はステップＳ７０６に進む。ステップＳ７０６において、傾向データ作成部２２２は、ステップＳ７０４において計算された尤度と、ステップＳ７０５におけるクラスタリング結果と、正解入力部２２１から入力される正解ラベルとに基づき傾向データを作成する。具体的には、傾向データ作成部２２２は、既に処理済みの学習用音響信号に基づき作成途中の傾向データを更新する。

全ての学習用音響信号の処理が完了すると（ステップＳ７０１）、傾向データ作成部２２２はステップＳ７０６において作成した傾向データを傾向データ格納部２２３に格納し（ステップＳ７０７）、処理は終了する。

以上説明したように、本実施形態に係る音響信号処理装置は、学習用音響信号を利用してクラスタリング傾向の統計的データを作成し、当該統計的データを参照して区間の分類基準を推定している。従って、本実施形態に係る音響信号処理装置によれば、経験的に定めた閾値を用いて区間の分類基準を推定する場合に比べて、安定的に精度の高い推定が実現できる。

（第３の実施形態）
図１１に示すように、本発明の第３の実施形態に係る音声信号処理装置は、上記図１に示す音響信号処理装置において、クラスタリング部１０５をクラスタリング部３０５、分類基準統合部１０６を分類基準統合部３０６、出力部１０７を出力部３０７に夫々置き換え、更に音種識別部３３１を有している。以下の説明では、図１１において図１と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

音種識別部３３１は、特徴量抽出部１０２によって抽出された特徴量に基づき、各区間が音楽、音声及び混合音のいずれの音種に属するかを識別する。音種識別部３３１は、区間毎に識別した音種をクラスタリング部３０５に通知する。

具体的には、音種識別部３３１は、尤度計算部１０３と同様に尤度を計算し、当該尤度に応じて音種を識別できる。例えば、音種識別部３３１は、音楽尤度を計算し、当該音楽尤度が閾値th4（>th1)以上であれば音楽、閾値th5（<th1）以下であれば音声、それ以外であれば混合音を当該区間の音種として識別する。閾値th4及びth5は、経験的または統計的に設定できる。例えば前述した第２の実施形態を参考に、様々な音種の学習用音響信号を用いて学習を行うことにより、尤度と音種とを対応付ける対応表データを統計的に作成すればよい。尚、上記尤度は音楽尤度に限らず、音声尤度或いは音楽尤度及び音声尤度の組であってもよい。

また、音種識別部３３１は、Lieらによる“Content Analysis for Audio Classification and Segmentation”, IEEE Trans. Speech and Audio Processing, October 2002（参考文献４）のようにＳＶＭ(Support Vector Machine）の結果に基づき音種を識別してもよい。

クラスタリング部３０５は、音種識別部３３１から通知された音種に基づき、区間を区別したうえで、クラスタリング部１０５と同様のクラスタリングを行う。尚、クラスタリング部３０５は、音種に応じて異なるクラスタリング処理を適用してもよい。例えば、参考文献１に記載された手法において特徴量成分は予め用意した複数の（即ち、様々な音種の）音響モデルの各々に対する尤度となるが、音種が同一の音響モデルに対する尤度のみに基づきクラスタリングを行うことにより、必要な特徴量成分を制限することができる。クラスタリングに使用する特徴量成分を制限すれば、クラスタリング処理に必要な演算量を削減できると共に、クラスタリングの精度も向上すると考えられる。

分類基準統合部３０６は、分類基準統合部１０６と同様に、分類基準推定部１０４によって推定された各区間の分類基準を統合することにより、クラスタリング部３０５によって分類された各クラスの分類基準を推定する。ここで、分類基準統合部３０６は、混合音区間のクラスタリング結果に対してのみ分類基準の統合を行ってもよい。即ち、分類基準統合部３０６は、音楽区間及び音声区間のクラスタリング結果に対する分類基準の統合を省略することにより、演算量を削減してよい。

出力部３０７は、出力部１０７と同様に、分類基準統合部１０６による分類基準の統合結果に基づきラベルを作成し、一定時刻毎に付与する。ここで、出力部３０７は、優先的にラベルを付与させるための条件を音種毎に異ならせてもよい。また、出力部３０７は、優先的にラベルを付与させるための条件を番組ジャンル毎に異ならせてもよい。

以下、図１２を用いて図１１の音響信号処理装置の行う処理の流れを説明する。
まず、音響信号入力部１０１が、処理対象となる音響信号を特徴量抽出部１０２に入力する（ステップＳ８０１）。次に、特徴量抽出部１０２が、ステップＳ８０１において入力された音響信号を時分割した区間毎に特徴量を抽出する（ステップＳ８０２）。

次に、ステップＳ８０３及びステップＳ８０４の処理と、ステップＳ８０５及びステップＳ８０６の処理とが行われる。両者は並列的に行われてよいし、任意の順序で行われてもよい。

ステップＳ８０３において、尤度計算部１０３は、ステップＳ８０２において抽出された特徴量毎に尤度を計算する。次に、分類基準推定部１０４は、ステップＳ８０３において計算された尤度に基づき、区間の分類基準を推定する（ステップＳ８０４）。

ステップＳ８０５において、音種識別部３３１はステップＳ８０２において抽出された特徴量に基づき各区間が属する音種を識別する。次に、クラスタリング部３０５は、ステップＳ８０５において識別された音種で区間を区分したうえで、ステップＳ８０２において抽出された特徴量同士の類似度に基づき、個別にクラスタリングを行う（ステップＳ８０６）。

ステップＳ８０３及びステップＳ８０４の処理と、ステップＳ８０５及びステップＳ８０６の処理とが終了すると、処理はステップＳ８０７に進む。ステップＳ８０７において、分類基準統合部３０６は、ステップＳ８０４において推定された各区間の分類基準と、ステップＳ８０６におけるクラスタリング結果とに基づき、混合音区間で構成されるクラスの分類基準のみを統合する。

次に、出力部３０７は、ステップＳ８０７において統合された各クラスの分類基準に基づき、各クラスに関するラベルを付与し、当該ラベル付与結果を出力し（ステップＳ８０８）、処理は終了する。

以上説明したように、本実施形態に係る音響信号処理装置は、音種を識別したうえでクラスタリングを行い、混合音区間で構成されるクラスの分類基準のみを統合するようにしている。従って、本実施形態に係る音響信号処理装置によれば、クラスタリング処理及び分類基準の統合処理の演算量を削減すると共に、クラスタリング結果の精度を向上させることができる。

なお、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。

第１の実施形態に係る音響信号処理装置を示すブロック図。図１の音響信号処理装置を実現するハードウエア構成を示すブロック図。図１の音響信号処理装置が行う処理の流れを示すフローチャート。図３のステップＳ５０１乃至Ｓ５０６における具体的処理の説明図。図３のステップＳ５０２及びＳ５０５における具体的処理の説明図。図３のステップＳ５０６及びＳ５０７における具体的処理の説明図。第２の実施形態に係る音響信号処理装置を示すブロック図。図７の音響信号処理装置が行う処理の流れを示すフローチャート。図８におけるステップＳ６０１乃至Ｓ６０７における具体的処理の説明図。図７の音響信号処理装置による傾向データの作成処理の流れを示すフローチャート。第３の実施形態に係る音響信号処理装置を示すブロック図。図１１の音響信号処理装置が行う処理の流れを示すフローチャート。

符号の説明

１０１・・・音響信号入力部
１０２・・・特徴量抽出部
１０３・・・尤度計算部
１０４・・・分類基準推定部
１０５・・・クラスタリング部
１０６・・・分類基準統合部
１０７・・・出力部
２０４・・・分類基準推定部
２１１・・・学習用音響信号入力部
２１２・・・学習用特徴量抽出部
２１３・・・学習用尤度計算部
２１５・・・学習用クラスタリング部
２２１・・・正解入力部
２２２・・・傾向データ作成部
２２３・・・傾向データ格納部
３０５・・・クラスタリング部
３０６・・・分類基準統合部
３０７・・・出力部
３３１・・・音種識別部
４０１・・・ＣＰＵ
４０２・・・操作入力部
４０３・・・表示部
４０４・・・ＲＯＭ
４０５・・・ＲＡＭ
４０６・・・信号入力部
４０７・・・記憶部
４０８・・・バス

Claims

音響信号を時分割した区間毎に特徴量を抽出する抽出部と、
前記特徴量が互いに類似する区間同士を纏めて複数のクラスに分類するクラスタリング処理を行うクラスタリング部と、
前記特徴量に基づき、前記区間の音声らしさ及び音楽らしさの少なくとも一方を示す尤度を計算する計算部と、
前記尤度に基づき、前記クラスタリング処理によって前記区間が音声及び音楽のいずれとして分類されるかを示す第１の分類基準を推定する推定部と、
前記クラス毎に前記第１の分類基準を統合し、第２の分類基準を得る統合部と、
前記クラス及び前記第２の分類基準を示すラベルを作成し、一定時刻毎に前記ラベルを付与した結果を出力する出力部と
を具備することを特徴とする音響信号処理装置。
音声及び音楽のいずれであるかを示す第１のラベルが予め付与された第１の音響信号を時分割した第１の区間毎に第１の特徴量を抽出する第１の抽出部と、
前記第１の特徴量が互いに類似する第１の区間同士を纏めて複数の第１のクラスに分類する第１のクラスタリング処理を行う第１のクラスタリング部と、
前記第１の特徴量に基づき、前記第１の区間の音声らしさ及び音楽らしさの少なくとも一方を示す第１の尤度を計算する第１の計算部と、
前記第１の尤度及び前記第１のラベルに基づき、前記第１のクラスタリング処理の傾向を示す傾向データを統計的に作成する作成部と、
第２の音響信号を時分割した第２の区間毎に第２の特徴量を抽出する第２の抽出部と、
前記第２の特徴量が互いに類似する第２の区間同士を纏めて複数の第２のクラスに分類する第２のクラスタリング処理を行う第２のクラスタリング部と、
前記第２の特徴量に基づき、前記第２の区間の音声らしさ及び音楽らしさの少なくとも一方を示す第２の尤度を計算する第２の計算部と、
前記第２の尤度及び前記傾向データに基づき、前記クラスタリング処理によって前記第２の区間が音声及び音楽のいずれとして分類されるかを示す第１の分類基準を推定する推定部と、
前記第２のクラス毎に前記第１の分類基準を統合し、第２の分類基準を得る統合部と、
前記第２のクラス及び前記第２の分類基準を示す第２のラベルを作成し、一定時刻毎に前記第２のラベルを付与した結果を出力する出力部と
を具備することを特徴とする音響信号処理装置。
前記第１の音響信号は音声と音楽とを任意の混合比で混合した信号であり、
前記作成部は、前記第１の尤度と前記混合比との相関、前記第１の尤度及び前記第１のラベルに基づき、前記傾向データを作成することを特徴とする請求項２記載の音響信号処理装置。
前記尤度は、前記区間の音声らしさを示す値及び音楽らしさを示す値の組であることを特徴とする請求項１記載の音響信号処理装置。
前記第１の尤度は前記第１の区間の音声らしさを示す値及び音楽らしさを示す値の組であり、前記第２の尤度は前記第２の区間の音声らしさを示す値及び音楽らしさを示す値の組であることを特徴とする請求項２または３記載の音響信号処理装置。
前記音響信号は、複数の番組ジャンルのいずれかに属し、
前記クラスタリング部は、前記番組ジャンル毎に異なるクラスタリング処理を行うことを特徴とする請求項１記載の音響信号処理装置。
前記音響信号は、複数の番組ジャンルのいずれかに属し、
前記推定部は、前記尤度及び前記番組ジャンルに基づき前記第１の分類基準を推定することを特徴とする請求項１記載の音響信号処理装置。
前記音響信号は、複数の番組ジャンルのいずれかに属し、
前記推定部は、前記尤度に対し前記番組ジャンルに応じた一定値を加算または減算した値に基づき前記第１の分類基準を推定することを特徴とする請求項１記載の音響信号処理装置。
前記推定部は、前記尤度に対し一定値を加算または減算した値に基づき前記第１の分類基準を推定することを特徴とする請求項１記載の音響信号処理装置。
前記クラスタリング部は、前記第２の分類基準の異同に応じて前記複数のクラスを第１のクラス群及び第２のクラス群に区分し、個別に再クラスタリング処理を行うことを特徴とする請求項１記載の音響信号処理装置。
前記特徴量に基づき、前記区間の音種が音声、音楽及び混合音のいずれであるかを識別する識別部を更に具備し、
前記クラスタリング部は、前記音種毎に前記区間を音声区間、音楽区間及び混合音区間に区分し、個別に前記クラスタリング処理を行い、
前記推定部は、混合音区間の第１の分類基準のみを推定することを特徴とする請求項１記載の音響信号処理装置。
前記出力部は、（ａ）前記クラスの総時間長、（ｂ）前記第２の分類基準、（ｃ）前記第２の分類基準の信頼度及び（ｄ）前記クラスの信頼度の少なくとも１つに応じて前記ラベルを選択的に付与することを特徴とする請求項１記載の音響信号処理装置。
音響信号を時分割した区間毎に特徴量を抽出すること、
前記特徴量が互いに類似する区間同士を纏めて複数のクラスに分類するクラスタリング処理を行うこと、
前記特徴量に基づき、前記区間の音声らしさ及び音楽らしさの少なくとも一方を示す尤度を計算すること、
前記尤度に基づき、前記クラスタリング処理によって前記区間が音声及び音楽のいずれとして分類されるかを示す第１の分類基準を推定すること、
前記クラス毎に前記第１の分類基準を統合し、第２の分類基準を得ること、
前記クラス及び前記第２の分類基準を示すラベルを作成し、一定時刻毎に前記ラベルを付与した結果を出力すること
を具備することを特徴とする音響信号処理方法。
コンピュータを
音響信号を時分割した区間毎に特徴量を抽出する抽出手段、
前記特徴量が互いに類似する区間同士を纏めて複数のクラスに分類するクラスタリング処理を行うクラスタリング手段、
前記特徴量に基づき、前記区間の音声らしさ及び音楽らしさの少なくとも一方を示す尤度を計算する計算手段、
前記尤度に基づき、前記クラスタリング処理によって前記区間が音声及び音楽のいずれとして分類されるかを示す第１の分類基準を推定する推定手段、
前記クラス毎に前記第１の分類基準を統合し、第２の分類基準を得る統合手段、
前記クラス及び前記第２の分類基準を示すラベルを作成し、一定時刻毎に前記ラベルを付与した結果を出力する出力手段
として機能させるための音響信号処理プログラム。