JP2010038943A - 音響信号処理装置及び方法 - Google Patents

音響信号処理装置及び方法 Download PDF

Info

Publication number
JP2010038943A
JP2010038943A JP2008198145A JP2008198145A JP2010038943A JP 2010038943 A JP2010038943 A JP 2010038943A JP 2008198145 A JP2008198145 A JP 2008198145A JP 2008198145 A JP2008198145 A JP 2008198145A JP 2010038943 A JP2010038943 A JP 2010038943A
Authority
JP
Japan
Prior art keywords
unit
likelihood
acoustic signal
section
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008198145A
Other languages
English (en)
Inventor
Makoto Hirohata
誠 広畑
Kazunori Imoto
和範 井本
Hisashi Aoki
恒 青木
Tatsuya Uehara
龍也 上原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008198145A priority Critical patent/JP2010038943A/ja
Publication of JP2010038943A publication Critical patent/JP2010038943A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】音響信号のクラスタリングを行うと共に、当該クラスタリングにおける分類基準を提示可能な音響信号処理装置を提供する。
【解決手段】音響信号を時分割した区間毎に特徴量を抽出する抽出部102と、特徴量が互いに類似する区間同士を纏めて複数のクラスに分類するクラスタリング処理を行うクラスタリング部105と、特徴量に基づき、区間の音声らしさ及び音楽らしさの少なくとも一方を示す尤度を計算する計算部103と、尤度に基づき、クラスタリング処理によって区間が音声及び音楽のいずれとして分類されるかを示す第1の分類基準を推定する推定部104と、クラス毎に第1の分類基準を統合し、第2の分類基準を得る統合部106と、クラス及び第2の分類基準を示すラベルを作成し、一定時刻毎にラベルを付与した結果を出力する出力部107とを具備する。
【選択図】 図1

Description

本発明は、コンテンツの構造化を行う音響信号処理装置及び方法に関する。
近年、映像コンテンツ及び音声(audio)コンテンツの視聴支援のために、コンテンツの構造把握を容易にする情報の作成手法が研究開発されている。具体的には、テレビジョン放送やラジオ放送などの番組コンテンツを主な対象として、話題や場面が切り替わる時刻(コーナー境界時刻)を示すタイムバーや、番組出演者の発話状況を示すタイムチャートの作成手法が提案されている。上記タイムバーやタイムチャートなどのコンテンツの構造把握を容易にする情報を作成する際に、コンテンツを構成する映像信号及び音響信号を構造化するインデクシング技術が用いられる。
特許文献1記載の情報検出装置は、(a)音声(audio)信号を所定の時間単位に分割し、(b)分割された音声信号の各々が音声(speech)及び音楽のいずれであるかを識別し、(c)当該音声または音楽の連続区間を検出している。特許文献1記載の情報検出装置によれば、コンテンツ内における音声の連続区間及び音楽の連続区間を示す情報を作成できるので、当該コンテンツの視聴支援に役立つ。
特許文献2記載のインデクシング装置は、(a)音響(audio)信号を所定の時間単位に分割し、(b)分割された音響信号の音響モデルを作成し、(c)当該音響モデルの信頼度に基づき、分割された音響信号のクラスタリングを行っている。特許文献2記載のインデクシング装置によれば、コンテンツ内の音声(speech)主体で構成される音響信号に対して話者インデクシングを精度良く行うことができるので、当該コンテンツの視聴支援に役立つ。
特開2004−271736号公報 特開2006−84875号公報
特許文献1記載の情報検出装置は、コンテンツ内の音声連続区間及び音楽連続区間の把握には役立つものの、当該音声連続区間や音楽連続区間の実体の把握には役立たない。即ち、特許文献1記載の情報検出装置は、コンテンツ内で特定の話者の発話を示す音声連続区間や、特定の楽曲または歌唱を示す音楽連続区間までをも検出するわけではない。例えば、特許文献1記載の情報検出装置は、複数の楽曲が時間的に連続していれば、当該複数の楽曲を1つの音楽連続区間として検出する。
特許文献2記載のインデクシング装置は、例えば話者インデクシングを行う場合であれば音声主体の音響信号区間のみを用い、音声及び音楽が混在する(即ち、混合音主体の)音響信号区間や音楽主体の音響信号区間を排除することを推奨している(例えば、特許文献2の段落[0087]に記載)。従って、混合音を含む音響信号に対して特許文献2記載のインデクシング装置を適用した場合には、話者インデクシングの精度は劣化すると考えられる。
しかしながら、番組コンテンツは、音声区間または音楽区間のみで構成されるものは稀であり、例えばBGMなどの音楽と発話などの音声とが混在する混合音区間を含むものが多い。故に、混合音区間を含む音響信号に対するインデクシングは、コンテンツの視聴支援に有用である。
尚、既存技術によって、混合音区間を含む音響信号に対してクラスタリングを行うこと自体は可能であるが、各クラスが音楽及び音声のいずれとして分類されたのか(即ち、分類基準)を提示できない。従って、ユーザは各クラスを実際に視聴するまで、当該クラスが特定話者の発言として分類されたのか、或いは特定の楽曲または歌唱として分類されたのか把握できない。例えばユーザが特定話者の発言を期待して、あるクラスを視聴した場合に、当該クラスが実際には特定の楽曲または歌唱として分類されていたなどの事態が生じ得る。
従って、本発明は、音響信号のクラスタリングを行うと共に、当該クラスタリングにおける分類基準を提示可能な音響信号処理装置を提供することを目的とする。
本発明の一態様に係る音響信号処理装置は、音響信号を時分割した区間毎に特徴量を抽出する抽出部と、前記特徴量が互いに類似する区間同士を纏めて複数のクラスに分類するクラスタリング処理を行うクラスタリング部と、前記特徴量に基づき、前記区間の音声らしさ及び音楽らしさの少なくとも一方を示す尤度を計算する計算部と、前記尤度に基づき、前記クラスタリング処理によって前記区間が音声及び音楽のいずれとして分類されるかを示す第1の分類基準を推定する推定部と、前記クラス毎に前記第1の分類基準を統合し、第2の分類基準を得る統合部と、前記クラス及び前記第2の分類基準を示すラベルを作成し、一定時刻毎に前記ラベルを付与した結果を出力する出力部とを具備する。
本発明の他の態様に係る音響信号処理装置は、音声及び音楽のいずれであるかを示す第1のラベルが予め付与された第1の音響信号を時分割した第1の区間毎に第1の特徴量を抽出する第1の抽出部と、前記第1の特徴量が互いに類似する第1の区間同士を纏めて複数の第1のクラスに分類する第1のクラスタリング処理を行う第1のクラスタリング部と、前記第1の特徴量に基づき、前記第1の区間の音声らしさ及び音楽らしさの少なくとも一方を示す第1の尤度を計算する第1の計算部と、前記第1の尤度及び前記第1のラベルに基づき、前記第1のクラスタリング処理の傾向を示す傾向データを統計的に作成する作成部と、第2の音響信号を時分割した第2の区間毎に第2の特徴量を抽出する第2の抽出部と、前記第2の特徴量が互いに類似する第2の区間同士を纏めて複数の第2のクラスに分類する第2のクラスタリング処理を行う第2のクラスタリング部と、前記第2の特徴量に基づき、前記第2の区間の音声らしさ及び音楽らしさの少なくとも一方を示す第2の尤度を計算する第2の計算部と、前記第2の尤度及び前記傾向データに基づき、前記クラスタリング処理によって前記第2の区間が音声及び音楽のいずれとして分類されるかを示す第1の分類基準を推定する推定部と、前記第2のクラス毎に前記第1の分類基準を統合し、第2の分類基準を得る統合部と、前記第2のクラス及び前記第2の分類基準を示す第2のラベルを作成し、一定時刻毎に前記第2のラベルを付与した結果を出力する出力部とを具備する。
本発明によれば、音響信号のクラスタリングを行うと共に、当該クラスタリングにおける分類基準を提示可能な音響信号処理装置を提供できる。
以下、図面を参照して、本発明の実施形態について説明する。
(第1の実施形態)
図1に示すように、本発明の第1の実施形態に係る音響信号処理装置は、音響信号入力部101、特徴量抽出部102、尤度計算部103、分類基準推定部104、クラスタリング部105、分類基準統合部106及び出力部107を有する。
また、図2に示すように、図1の音響信号処理装置は、CPU(Central Processing Unit)401、操作入力部402、表示部403、ROM(Read Only Memory)404、RAM(Random Access Memory)405、信号入力部406、記憶部407及びバス408を含むハードウエア構成によって実現される。
CPU401は、RAM405の所定領域を作業領域として、ROM404に記憶されたプログラムを実行することにより、図1の音響信号処理装置の構成要素である音響信号入力部101、特徴量抽出部102、尤度計算部103、分類基準推定部104、クラスタリング部105、分類基準統合部106及び出力部107の機能を実現する。
操作入力部402は、例えばキーボードやポインティングデバイスなどのユーザインタフェースを備え、ユーザから入力された操作を示す入力信号をCPU401に転送する。表示部403は、例えばLCD(Liquid Crystal Display)等の表示手段によって構成され、CPU401によって表示内容及び表示タイミング等が制御される。尚、操作入力部402及び表示部403は、タッチスクリーン(タッチパネル)のように一体的に構成されてもよい。
ROM404は、CPU401が実行するプログラムや、当該プログラムの実行に必要とされる各種設定情報を書き換え不可能に記憶する。RAM405は、例えばSDRAM(Synchronous Dynamic Random Access Memory)であって、CPU401がROM404に記憶されたプログラムを実行する際に作業領域として機能し、映像信号及び音響信号のバッファリングなどに用いられる。
信号入力部406は、映像コンテンツや音声コンテンツを構成する動画像や音声を電気信号(映像信号や音響信号)に変換し、CPU401に入力する。また、信号入力部406は、映像コンテンツ及び音声コンテンツの番組ジャンルを示す情報を取得し、CPU401に入力してもよい。番組ジャンルは、例えば「ドラマ」、「アニメ」、「スポーツ」または「映画」などであってコンテンツの様式(種別)を示す。信号入力部406は、電子番組表(EPG)に基づき番組ジャンル情報を取得してもよいし、操作入力部402を介してユーザから取得してもよいし、図示しない通信部を介して他のコンピュータ装置などから取得してもよい。信号入力部406は、例えば放送受信機(チューナ)を用いる。
記憶部407には、データを磁気的または光学的に記録可能な記憶媒体を有し、信号入力部406や図示しない通信部などによって取得された映像信号、音響信号及び番組ジャンル情報が記憶される。また、記憶部407には、上記映像信号及び音響信号に対してCPU401が図1の音響信号処理装置に相当する処理を行って得られるラベル付与後の映像信号及び音響信号(ラベル付与結果)も記憶される。
バス408は、CPU401、操作入力部402、表示部403、ROM404、RAM405、信号入力部406及び記憶部407間のデータの伝送に用いられる。
音響信号入力部101は、図1の音響信号処理装置の処理対象となる音響信号を特徴量抽出部102に入力する。例えば、CPU401が、記憶部407からバス408を介して音響信号を取得することにより、音響信号入力部101が実現される。
特徴量抽出部102は、音響信号入力部101からの音響信号を時分割した区間毎に特徴量を抽出する。特徴量抽出部102は、区間毎に抽出した特徴量を尤度計算部103及びクラスタリング部105に入力する。特徴量抽出部102が抽出する特徴量は、いわゆる音声認識や話者認識などの分野で利用されるものが望ましく、音響信号の話者性(話者らしさ、音声らしさ)や音楽性(音楽らしさ)の評価に利用可能なものを用いるのがよい。
特徴量抽出部102は、例えばシフト幅(フレーム周期)c1、フレーム長c2として、MFCCまたはLPCケプストラム等のケプストラム系特徴量をフレーム毎に導出する。具体的には、特徴量抽出部102は、音響信号を一定時間c3毎に分割し、当該分割された音響信号(区間)内においてフレーム毎に導出した特徴量の平均値を当該区間の特徴量として抽出する。
特徴量抽出部102は、Y. Akitaらによる“Unsupervised Speaker Indexing using Anchor Models and Automatic Transcription of Discussions”, ISCA 8th European Conf. Speech Communication and Technology (Euro Speech), September 2003(参考文献1)に記載された手法を用いてもよい。具体的には、特徴量抽出部102は、前述したようにシフト幅c1、フレーム長c2としてMFCCまたはLPCケプストラム等のケプストラム系特徴量をフレーム毎に導出する。次に、特徴量抽出部102は、導出した特徴量を用いて、予め用意しておいた複数の音響モデルの各々に対する尤度を上記フレーム毎に算出する。特徴量抽出部102は、上記複数の音響モデルの各々に対する尤度を成分として含む尤度ベクトルを上記フレーム毎に算出し、区間内における平均を当該区間の特徴量として抽出する。
特徴量抽出部102は、E. Scheirer らによる“Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator”, IEEE International Conference on Acoustic Speech, and Signal Processing, April 1997(参考文献2)に記載された手法を用いてもよい。具体的には、特徴量抽出部102は、前述したようにシフト幅c1、フレーム長c2としてスペクトル変動または零交差数を導出し、当該スペクトル変動または零交差数に基づき特徴量を抽出してもよい。また、上記フレーム毎に導出したスペクトル変動または零交差数の区間内における分散を当該区間の特徴量として抽出してもよい。
尚、シフト幅c1、フレーム長c2及び区間長c3には、c1≦c2≦c3の大小関係を満たすものとする。例えば、シフト幅c1として10msec、フレーム長c2として25msec、区間長c3として1sec等の時間長が夫々割り当てられる。
また、上記例では区間長c3を固定として特徴量を抽出しているが、区間長は可変であってもよい。例えば、特徴量抽出部102は、中川らによる“発話間のVQ歪みを用いた話者交替識別と話者クラスタリング”, 電子情報通信学会論文誌, November 2002(参考文献3)記載の手法によって、話者交代時刻のような特徴の変化が大きい時刻を識別し、当該時刻で区切って区間を形成してもよい。また、特徴量抽出部102は、音響信号から無音区間を検出し、当該無音区間によって区切られた有音区間を区間として利用してもよい。
特徴量抽出部102は、前述した特徴量またはその他の特徴量のうち、複数の特徴量を選択的に抽出してもよい。更に、特徴量抽出部102は、抽出した全ての特徴量を尤度計算部103及びクラスタリング部105に入力する必要は無く、一方に入力する特徴量と他方に入力する特徴量とが異なっていてもよい。具体的には、後述する尤度計算部103による尤度計算処理とクラスタリング部105によるクラスタリング処理に必要とされる特徴量は必ずしも完全一致しないので、特徴量抽出部102は各処理に必要な特徴量のみを入力すればよい。また、特徴量の入力タイミングも一致させなくてよい。例えば、特徴量抽出部102は、尤度計算部103には逐次(即ち、区間長毎に)特徴量を入力し、クラスタリング部105にはまとめて(例えば、発話者の交代時刻毎に)特徴量を入力してもよい。
尤度計算部103は、特徴量抽出部102からの特徴量に基づき、区間内の音響信号の音声らしさを示す音声尤度及び音楽らしさを示す音楽尤度の少なくとも一方を計算する。尤度計算部103は、計算した尤度を分類基準推定部104に入力する。
尤度計算部103は、例えば参考文献2記載の手法に基づき音楽尤度を計算する。具体的には、尤度計算部103は、様々な音楽ジャンル(「クラシック」、「ポップス」、「ロック」または「ジャズ」など)において予め収録した音楽信号のデータから複数の音楽モデル(音響モデル)を作成しておき、区間内の音響信号の当該複数の音楽モデルに対する尤度を特徴量に基づき計算する。音楽モデルは、例えばGMM(ガウス混合モデル)で表現できる。音声尤度も同様の手法により計算できるが、音楽尤度の反転値(即ち、音楽尤度を1から減じた値)を音声尤度として利用してもよい。反対に、音声尤度のみを計算して、当該音声尤度の反転値を音楽尤度として利用してもよい。尤度計算部103は、CPU401の演算処理量の軽減の観点からすると音楽尤度及び音声尤度のいずれか一方のみを計算したほうがよいが、後述する分類基準推定部104による分類基準推定処理の精度向上の観点からすると両者を計算したほうがよい。従って、尤度計算部103がいずれの尤度を計算すべきかは、いずれの利点を重視するかによって設計的に定めてよい。尚、音楽尤度及び音声尤度の計算手法は上記例に限られない。
分類基準推定部104は、尤度計算部103からの尤度に基づき、区間内の音響信号が音楽及び音声のいずれとしてクラスタリング部105によって分類されるか(分類基準)を推定する。分類基準推定部104は、区間毎に推定した分類基準を分類基準統合部106に入力する。
分類基準推定部104は、例えばある区間における音楽尤度が閾値th1よりも大きければ、当該区間は音楽として分類されると推定する。即ち、分類基準推定部104は、上記区間の分類基準を「音楽」と推定する。一方、分類基準推定部104は、ある区間における音楽尤度が上記閾値th1以下であれば、当該区間は音声として分類されると推定する。即ち、分類基準推定部104は、上記区間の分類基準を「音声」と推定する。閾値th1は経験的に定めてよく、例えばth1=0.5と定める。
尤度計算部103が実際に計算した尤度が音声尤度である場合には、音声尤度が閾値th2よりも大きければ区間の分類基準を「音声」と推定し、閾値th2以下であれば区間の分類基準を「音楽」と推定してもよい。尚、閾値th2は、閾値th1と同様、経験的に定めてよく、例えばth2=0.5と定める。
分類基準推定部104が前述した閾値処理のみで分類基準の推定を実現すると、分類基準統合部106は、区間内の音響信号が「ほぼ間違いなく音楽(または音声)」と推定されたのか、或いは「音声(または音楽)にかなり近い音楽(または音声)」と推定されたのかを判別できない。従って、分類基準推定部104は、分類基準の推定結果だけでなく、当該分類基準の妥当性を示す指標として分類基準の信頼度を計算し、分類基準統合部106に入力してもよい。推定結果の信頼度は、例えば以下の数式(1)によって導出できる。
Figure 2010038943
尚、尤度計算部103が実際に計算した尤度が音声尤度である場合には、数式(1)において音楽尤度を音声尤度、th1をth2と夫々読み替えればよい。また、分類基準推定部104は、数式(1)以外の計算式によって分類基準の信頼度を計算してもよい。具体的には、音楽尤度(音声尤度)が閾値th1(閾値th2)から乖離するほど信頼度が高くなるような計算式が利用可能である。
前述したように、尤度計算部103が音楽尤度及び音声尤度の両方を計算したほうが、分類基準推定部104による分類基準推定処理の精度は向上する。音楽尤度及び音声尤度は必ずしも反転関係にあるとはいえず、実際に計算すると両者が共に高い場合や両者が共に低い場合が起こり得る。即ち、一方のみを利用する場合、他方の真の値が不明であるために推定の誤りが起こり得る。
分類基準推定部104は、尤度計算部103が音楽尤度及び音声尤度の両方を計算している場合には、例えば以下の数式(2)に従って推定に利用する値を計算する。
Figure 2010038943
数式(2)は、音楽尤度と音声尤度の重み付き減算を表し、w1は重み(>0)を表す。数式(2)において音楽尤度と音声尤度を入れ替えてもよい。分類基準推定部104は、数式(2)によって導出された値と、閾値th3との比較により区間に対する推定を行う。即ち、分類基準推定部104は、推定に利用する値が閾値th3よりも大きければ区間の分類基準を「音楽」と推定し、閾値th3以下であれば区間の分類基準を「音声」と推定する。尚、重みw1及び閾値th3は、閾値th1及びth2と同様、経験的に定めてよく、例えばw1=1、th3=0と定める。また、分類基準の信頼度も数式(1)において音楽尤度を推定に利用する値、th1をth3に夫々読み替えれば計算可能である。
尚、尤度計算部103の計算手法や計算に用いる特徴量のデータ量等の違いにより、音楽尤度及び音声尤度の一方が他方に比べて高く計算されやすい、或いは低く計算されやすいなどの不均衡が生じるおそれがある。従って、数式(2)において音楽尤度及び音声尤度を対等に評価するために必要であれば尤度の調整を行ってもよい。具体的には、高く計算されやすい尤度に対して一定値offsetを減じたり、低く計算されやすい尤度に対して一定値offsetを加算したりしてもよい。
分類基準推定部104は、音楽尤度及び音声尤度の大小関係から分類基準を推定してもよい。即ち、分類基準推定部104は、音楽尤度が音声尤度より大きければ区間の分類基準を「音楽」と推定し、音楽尤度が音声尤度以下であれば区間の分類基準を「音声」と推定してもよい。
分類基準推定部104は、音響信号の属する番組ジャンルに応じて音楽尤度及び音声尤度に一定値offsetを加減算してもよいし、閾値th1、th2及びth3を変更してもよいし、重みw1を変更してもよい。
クラスタリング部105は、特徴量抽出部102からの特徴量に基づくクラスタリングを行う。即ち、クラスタリング部105は、特徴量が互いに類似する区間同士をクラス(集合)として纏め、音響信号を構成する各区間をいずれか1つのクラスに分類する。尚、同じクラスに属する全ての区間が時間的に連続しているとは限らない。特徴量同士の類似性は、例えば特徴量がベクトル表現される場合であれば、当該ベクトル同士のユークリッド距離によって評価できる。クラスタリング部105は、例えばk-means法などの既存のクラスタリングアルゴリズムを利用してよい。尚、クラスタリング部105が音響信号に適用するクラスタリング手法またはパラメータは、一定でなくてもよく、例えば音響信号の番組ジャンルに応じて異ならせてもよい。
クラスタリング部105は、クラスタリングによって得られたクラスに属する区間の各々に対し、区間情報を付与する。区間情報には、当該区間の開始時刻、終了時刻及びいずれのクラスに属するかを示す識別子が含まれる。上記識別子は、例えばクラス番号であって、同一クラスに属する全ての区間の間で共通のものが付与される。尚、区間情報には、属するクラスに含まれる区間数や累積区間長が含まれてもよい。
クラスタリング部105は、クラスの纏まりとしての妥当性を示す指標として各クラスの信頼度を導出してもよい。上記クラスの信頼度は、クラスに属する各区間の特徴量同士が類似しているほど高い値となり、例えばクラスに属する各区間の特徴量の対角共分散行列のノルムの逆数を用いることができる。
分類基準統合部106は、分類基準推定部104によって推定された各区間の分類基準を統合することにより、クラスタリング部105によって分類された各クラスの分類基準を推定する。前述したように、クラスは区間の集合であって、当該区間の各々の分類基準は分類基準推定部104によって推定されている。
具体的には、分類基準統合部106は、クラスに属する区間の分類基準の累積区間数の多少に応じて当該クラスの分類基準を推定できる。例えばあるクラスにおいて1区間の分類基準が「音声」、9区間の分類基準が「音楽」であれば、分類基準統合部106は、当該クラスの分類基準を「音楽」と推定できる。
区間長が一定でなければ、累積区間長の長短に応じてクラスの分類基準を推定することも有効である。例えばあるクラスにおいて分類基準が「音声」の区間の累積区間長が1sec、分類基準が「音楽」の区間の累積区間長が9secであれば、分類基準統合部106は当該クラスの分類基準を「音楽」と推定できる。
各区間の分類基準の信頼度も導出されている場合には、当該信頼度を利用してもよい。例えば、分類基準統合部106は、前述した累積区間数や累積区間長に基づく分類基準の統合において、上記信頼度を重みとして利用し、累積重み付き区間数や累積重み付き区間長に基づいて分類基準を統合してよい。
分類基準統合部106は、クラスの分類基準の信頼度を算出してもよい。具体的には、前述した累積区間数、累積区間長、累積重み付き区間数及び累積重み付き区間長(以上を便宜的に累積区間数等と称する)に基づく分類基準の統合を行った場合であれば、全体(即ち、「音楽」及び「音声」)の累積区間数等に対する統合結果(即ち、「音楽」及び「音声」のいずれか一方)の累積区間数等の割合を上記信頼度として利用できる。例えばあるクラスにおいて1区間の分類基準が「音声」、9区間の分類基準が「音楽」であれば、分類基準統合部106は、当該クラスの分類基準を「音楽」と推定できると共に、当該分類基準の信頼度を9/(9+1)=9/10と算出できる。
分類基準統合部106は、音響信号全体の分類基準の推定及び当該分類基準の信頼度の算出を行ってもよい。即ち、分類基準統合部106は、全区間を同一クラスに属するとみなし、前述した各区間の分類基準の統合及び信頼度の算出を行うことにより、音響信号全体の分類基準の推定及び信頼度の算出を実現できる。
分類基準統合部106は、前述した分類基準の統合を行った後に、クラスタリング部105に音響信号の再クラスタリングを実行させてもよい。音響信号の再クラスタリングにおいて、クラスタリング部105は、分類基準が「音声」のクラスと、分類基準が「音楽」のクラスとに区分し、両クラスに対して個別に再クラスタリングを行う。尚、両クラスに対する再クラスタリングにおいて、適用するクラスタリング手法またはパラメータは同一でなくてもよい。例えば、クラスタリング部105は、分類基準が「音楽」と推定されたクラスは、分類基準が「音声」と推定されたクラスよりも特徴量の散らばり(分散)が大きい場合には、各クラスの特徴量の分散が大きくなるようなパラメータ(例えば、k-means法におけるクラスタ中心)を設定してもよい。
出力部107は、分類基準統合部106による分類基準の統合結果に基づき、前述したクラスの識別子と、当該クラスの分類基準の統合結果とを少なくとも含む情報を提示するためのラベルを作成し、一定時刻毎に付与する。出力部107は、ラベルと当該ラベルが付与された時刻とを視覚的に把握しやすいように、例えばラベル毎に色分けしたタイムバーなどをラベル付与結果として出力する。ここで、一定時刻とは例えば1secまたは区間長などである。尚、出力部107は、クラスの分類基準の統合結果を音響信号全体の分類基準の推定結果に置き換えてラベルを作成してもよい。また、出力部107は、分類基準の信頼度も提示するようにラベルを作成してもよい。
出力部107は、全てのクラスに関してラベルを付与する必要は無く、ラベルを選択的に付与することができる。即ち、出力部107は、一部のクラスに関してのみ優先的にラベルを付与し、他のクラスに関するラベルの付与を省略してよい。
具体的には、出力部107は、総時間長の長いクラスに関するラベルを優先的に付与させる。例えば、出力部107は総時間長の上位3クラスに関するラベルのみを付与し、他のクラスに関するラベルの付与を省略する。
また、出力部107は、信頼度の高いクラスに関するラベルを優先的に付与させてもよい。例えば、出力部107はクラスの信頼度の上位3クラスに関するラベルのみを付与し、他のクラスに関するラベルの付与を省略してもよい。
また、出力部107は、一方の分類基準に関するラベルを優先的に付与させてもよい。例えば、出力部107は、分類基準が「音楽」のクラスに関するラベルのみを付与し、分類基準が「音声」のクラスに関するラベルの付与を省略してもよい。
また、出力部107は、分類基準の信頼度の高いクラスに関するラベルを優先的に付与させてもよい。例えば、出力部107は分類基準の信頼度が閾値(例えば0.5)以上のクラスに関するラベルのみを付与し、他のクラスに関するラベルの付与を省略してもよい。また、出力部107は分類基準の信頼度の上位3クラスに関するラベルのみを付与し、他のクラスに関するラベルの付与を省略してもよい。
また、出力部107は、前述した総時間長、信頼度、分類基準及び分類基準の信頼度などの諸条件を組み合わせてラベルを付与するクラスを決定してもよい。また、出力部107は、ラベルの優先的付与から除外したクラスに関して、ラベルの付与を省略する代わりに、共通のラベルを付与してもよい。
以下、図3乃至図6を用いて図1の音響信号処理装置が行う処理の流れを説明する。
まず、音響信号入力部101が、処理対象となる音響信号を特徴量抽出部102に入力する(ステップS501)。次に、特徴量抽出部102が、ステップS501において入力された音響信号を時分割した区間毎に特徴量を抽出する(ステップS502)。
次に、ステップS503及びステップS504の処理と、ステップS505の処理とが行われる。両者は並列的に行われてよいし、任意の順序で行われてもよい。
ステップS503において、尤度計算部103は、ステップS502において抽出された特徴量毎に尤度を計算する。例えば、図4に示すように、尤度計算部103は音楽尤度を計算する。次に、分類基準推定部104は、ステップS503において計算された尤度に基づき、区間の分類基準を推定する(ステップS504)。例えば、図4に示すように、分類基準推定部104は音楽尤度が0.5より大であれば区間の分類基準を「音楽(=M)」、0.5以下であれば区間の分類基準を「音声(=S)」と推定する。また、図4において、分類基準推定部104は、数式(1)に基づき分類基準の信頼度も計算している。
ステップS505において、クラスタリング部105は、ステップS502において抽出された特徴量同士の類似度に基づき、クラスタリングを行う。例えば、図5に示すように、クラスタリング部105は特徴量f1〜f14同士の類似度に基づき、各区間をクラスA、B、C及びDに分類する。また、図5において、クラスタリング部105は同一クラスに属する各区間の特徴量の対角共分散行列のノルムの逆数を当該クラスの信頼度として計算している。
ステップS503及びステップS504の処理と、ステップS505の処理とが終了すると、処理はステップS506に進む。ステップS506において、分類基準統合部106は、ステップS504において推定された各区間の分類基準と、ステップS505におけるクラスタリング結果とに基づき、各クラスの分類基準を統合する。例えば、図4に示すように、分類基準統合部106はクラスA、B、C及びDの各々に関し、区間の分類基準を統合する。また、図4において、分類基準統合部106はクラスA、B、C及びDの分類基準の信頼度も算出している。
次に、出力部107は、ステップS506において統合された各クラスの分類基準に基づき、各クラスに関するラベルを一定時刻毎に付与し、当該ラベル付与結果を出力し(ステップS507)、処理は終了する。
ここで、前述したように、出力部107はラベルを選択的に付与することが可能であり、図6に示すように様々なバリエーションをつけることができる。即ち、出力部107は、全てのクラスに関してラベルを付与してもよい(ステップS507−1)し、信頼度の上位3クラスに関してのみラベルを付与してもよい(ステップS507−2)し、総時間長の上位3クラスに関してのみラベルを付与してもよい(ステップS507−3)し、分類基準が「音楽」のクラスに関してのみラベルを付与してもよい(ステップS507−4)し、分類基準の信頼度が0.5以上のクラスに関してのみラベルを付与してもよい(ステップS507−5)。尚、図6に示す各ラベル付与結果において、「S−1」及び「M−2」等はクラスの識別子を夫々表し、例えば「S−1」は分類基準が「音声」の第1のクラス、「M−2」は分類基準が「音楽」の第2のクラスを表す。また、「その他」はラベル付与を除外したクラス全体に関して共通に付与されたラベルを表す。
以上説明したように、本実施形態に係る音響信号処理装置は、音響信号を時分割した区間毎に分類基準を推定し、上記音響信号のクラスタリング結果におけるクラス単位で上記分類基準を統合している。従って、本実施形態に係る音響信号処理装置によれば、クラス単位での分類基準を提示することが可能となる。即ち、ユーザは、各クラスが特定の話者の発言を示すのか、或いは特定の楽曲または歌唱を示すのかを容易に把握することが可能となる。
また、本実施形態に係る音響信号処理装置は、混合音区間を含んだ音響信号であっても前述した効果を奏することが可能である。例えば、音声A及び音楽Xの混合音区間と、音声A及び音楽Yの混合音区間とを含む音響信号であって、上記音声A及び音楽Xの混合音区間には、音声Aが優位な区間と音楽Xが優位な区間とを含むものとする。上記例において、上記音声A及び音楽Xの混合音区間の分類基準の推定結果は、「音声」及び「音楽」のいずれも含むものと考えられる。本実施形態に係る音響信号処理装置は、クラスタリング後に各クラスにおいて分類基準を統合するため、上記音声A及び音楽Xの混合音区間と、音声A及び音楽Yの混合音区間とが同じクラスに分類されれば当該クラスの分類基準を「音声」として統合することが可能である。ユーザは、ラベルに付与された分類基準「音声」を確認することにより、上記クラスが特定話者の発言(音声A)の纏まりとして分類されたことを把握できる。
また、本実施形態に係る音響信号処理装置は、ラベル付与を選択的に行うことができるので、ユーザにとって優先度の高い情報のみを選択的に提示することが可能である。例えば、ユーザが特定話者の発言の視聴を希望する場合には、分類基準が「音声」のクラスに関してのみラベルを付与すれば、ユーザは所望の視聴時刻を容易に把握できる。
(第2の実施形態)
図7に示すように、本発明の第2の実施形態に係る音声信号処理装置は、上記図1に示す音響信号処理装置において、分類基準推定部104を分類基準推定部204に置き換え、更に学習用音響信号入力部211、学習用特徴量抽出部212、学習用尤度計算部213、学習用クラスタリング部215、正解入力部221、傾向データ作成部222及び傾向データ格納部223を有している。以下の説明では、図7において図1と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
学習用音響信号入力部211は、後述する傾向データを作成するための学習処理に用いられる学習用音響信号を学習用特徴量抽出部212に入力する。学習用音響信号は、音声区間のみで構成される音響信号、音楽区間のみで構成される音響信号または両者を任意の混合比で混合した音響信号などである。
学習用特徴量抽出部212は、特徴量抽出部102と同様に、学習用音響信号入力部211からの学習用音響信号を時分割した区間毎に特徴量(学習用特徴量)を抽出する。学習用特徴量抽出部212は、区間毎に抽出した特徴量を学習用尤度計算部213及び学習用クラスタリング部215に入力する。
学習用尤度計算部213は、尤度計算部103と同様に、学習用特徴量抽出部212からの特徴量に基づき、区間内の音響信号の尤度(学習用尤度)を計算する。学習用尤度計算部213は、計算した尤度を傾向データ作成部222に入力する。
学習用クラスタリング部215は、クラスタリング部105と同様に、学習用特徴量抽出部212からの特徴量に基づくクラスタリング(学習用クラスタリング)を行う。即ち、学習用クラスタリング部215は、特徴量が互いに類似する区間同士をクラスとして纏め、学習用音響信号を構成する各区間をいずれか1つのクラスに分類する。
正解入力部221は、学習用音響信号に対する正解ラベルを傾向データ作成部222に入力する。ここで、正解ラベルとは、例えば学習用音響信号に対して予め人為的に付与されたラベルである。尚、学習用音響信号が、音声区間のみで構成される信号と音楽区間のみで構成される信号とを任意の混合比で混合した音響信号であれば、正解入力部221は、当該混合比も傾向データ作成部222に入力することが望ましい。上記混合比は、音声に対する音楽の強度の比または音楽に対する音声の強度の比を例えばdB値で表す。
傾向データ作成部222は、学習用尤度計算部213からの尤度と、学習用クラスタリング部215からのクラスタリング結果と、正解入力部221からの正解ラベルとに基づき、傾向データを作成する。ここで、傾向データは、学習用尤度計算部213によって計算された尤度に対する、学習用クラスタリング部215によるクラスタリングの傾向を表す統計データである。傾向データ作成部222は、作成した傾向データを傾向データ格納部223に格納させる。
具体的には、まず、傾向データ作成部222は学習用クラスタリング部215によるクラスタリング結果における各クラスの尤度平均を求める。ここで、尤度平均は各クラスに属する全ての区間の尤度の算術平均でよいし、区間長で重み付けを行った加重平均でもよい。傾向データ作成部222は、上記尤度平均を一定範囲(例えば0.1刻み)で区分し、当該区分毎に正解ラベルが示す分類基準が「音楽」及び「音声」である数を夫々カウントする処理を全ての学習用音響信号に対する当該処理が完了するまで繰り返す。全ての学習用音響信号に対する処理の完了後、傾向データ作成部222は、各区分において、上記分類基準毎のカウント数から算出した確率値を当該分類基準の信頼度として傾向データを作成する。即ち、上記傾向データにおいて、一定範囲で区分された尤度平均と、当該区分における各分類基準の信頼度とが対応付けられている。
また、傾向データ作成部222は、一定範囲で区分された尤度平均と、当該区分に対し推定される分類基準とを単に対応付けて傾向データを作成してもよい。区分に対し推定される分類基準は、例えば当該区分における上記カウント数の大小により定めることができる。
また、傾向データ作成部222は、一定範囲で区分された尤度平均と、当該区分に対し推定される分類基準とに基づき、当該分類基準の信頼度を最大化する閾値th1、th2またはth3を傾向データとして作成してもよい。閾値th1、th2またはth3を傾向データとした場合は、分類基準推定部204は分類基準推定部104と同様の推定処理を行う。更に、傾向データ作成部222は、分類基準の信頼度を最大化する重みw1や、一定値offsetを傾向データとして作成してもよい。
また、傾向データ作成部222は、一定範囲で区分された尤度及び一定範囲で区分されたクラスの累積時間長の組み合わせと、当該組み合わせにおける各分類基準の信頼度とを対応付けて傾向データを作成してもよい。或いは、傾向データ作成部222は、上記組み合わせと、当該組み合わせに対し推定される分類基準とを単に対応付けて傾向データを作成してもよい。或いは、傾向データ作成部222は、上記組み合わせと、当該組み合わせに対し推定される分類基準とに基づき、当該分類基準の信頼度を最大化させる閾値th1、th2またはth3、重みw1または一定値offsetを傾向データとして作成してもよい。
また、傾向データ作成部222は、正解入力部221から学習用音響信号の混合比を取得し、傾向データの作成に利用してもよい。即ち、傾向データ作成部222は、尤度と混合比との相関を回帰分析した回帰式を用いれば混合比から尤度平均の推定値を得ることが可能であり、当該推定値から大きく乖離した尤度平均が得られたクラスを上記カウント処理から除外できる。一方、傾向データ作成部222は、上記回帰式を用いて尤度平均から得られた混合比の推定値と、実際に正解入力部221から取得した混合比との間の差を分類基準の信頼度に反映させてもよい。例えば、傾向データ作成部222は上記差が小さくなるほど大きくなるような値を分類基準の信頼度に加えてもよい。
また、傾向データ作成部222は、番組ジャンル毎に異なる傾向データを作成してもよい。即ち、番組ジャンルの異なる学習用音響信号を複数用意しておき、傾向データ作成部222は、番組ジャンル毎に独立して傾向データを作成すればよい。
傾向データ格納部223には、傾向データ作成部222によって作成された傾向データが格納される。傾向データ格納部223に格納された傾向データは、分類基準推定部204によって適宜読み出される。
分類基準推定部204は、尤度計算部103からの尤度と、傾向データ格納部223からの傾向データとに基づき、区間毎の分類基準を推定する。例えば傾向データが、一定範囲に区分された尤度平均と当該区分における各分類基準の信頼度とが対応付けられたデータであれば、分類基準推定部204は区間の尤度が属する区分において信頼度が高い分類基準を、当該区間の分類基準として推定できる。また、分類基準推定部204は、上記分類基準の信頼度をそのまま分類基準統合部106に入力してもよい。
以下、図8及び図9を用いて図7の音響信号処理装置が行う処理の流れを説明する。
まず、音響信号入力部101が、処理対象となる音響信号を特徴量抽出部102に入力する(ステップS601)。次に、特徴量抽出部102が、ステップS601において入力された音響信号を時分割した区間毎に特徴量を抽出する(ステップS602)。
次に、ステップS603及びステップS604の処理と、ステップS605の処理とが行われる。両者は並列的に行われてよいし、任意の順序で行われてもよい。
ステップS603において、尤度計算部103は、ステップS602において抽出された特徴量毎に尤度を計算する。例えば、図9に示すように、尤度計算部103は音楽尤度を計算する。
次に、分類基準推定部204は、ステップS603において計算された尤度と、傾向データ格納部223に格納されている傾向データとに基づき区間の分類基準を推定する(ステップS604)。例えば、図9に示すように、分類基準推定部204は、一定範囲で区分された尤度平均と、当該区分における各分類基準の信頼度とが対応付けられた傾向データを参照して各音楽尤度に対応する推定結果を得ている。図9に示す傾向データにおいて、「[X,Y)」はX以上Y未満を表し、「[X,Y]」はX以上Y以下を表す。ステップS605において、クラスタリング部105は、ステップS602において抽出された特徴量同士の類似度に基づき、クラスタリングを行う。
ステップS603及びステップS604の処理と、ステップS605の処理とが終了すると、処理はステップS606に進む。ステップS606において、分類基準統合部106は、ステップS604において推定された各区間の分類基準と、ステップS605におけるクラスタリング結果とに基づき、各クラスの分類基準を統合する。例えば、図9に示すように、分類基準統合部106はクラスA、B、C及びDの各々に関し、区間の分類基準を統合する。また、図9において、分類基準統合部106はクラスA、B、C及びDの分類基準の信頼度も算出している。
次に、出力部107は、ステップS606において統合された各クラスの分類基準に基づき、各クラスに関するラベルを一定時刻毎に付与し、当該ラベル付与結果を出力し(ステップS607)、処理は終了する。
以下、図10を用いて図7の音響信号処理装置による傾向データの作成処理の流れを説明する。
まず、未処理の学習用音響信号があれば(ステップS701)、学習用音響信号入力部211は、当該学習用音響信号を学習用特徴量抽出部212に入力する(ステップS702)。次に、学習用特徴量抽出部212が、ステップS702において入力された学習用音響信号を時分割した区間毎に特徴量を抽出する(ステップS703)。
次に、ステップS704の処理と、ステップS705の処理とが行われる。両者は並列的に行われてもよいし、任意の順序で行われてもよい。
ステップS704において、学習用尤度計算部213は、ステップS703において抽出された特徴量毎に尤度を計算する。ステップS705において、学習用クラスタリング部215は、ステップS703において抽出された特徴量同士の類似度に基づき、クラスタリングを行う。
ステップS704の処理と、ステップS705の処理とが終了すると、処理はステップS706に進む。ステップS706において、傾向データ作成部222は、ステップS704において計算された尤度と、ステップS705におけるクラスタリング結果と、正解入力部221から入力される正解ラベルとに基づき傾向データを作成する。具体的には、傾向データ作成部222は、既に処理済みの学習用音響信号に基づき作成途中の傾向データを更新する。
全ての学習用音響信号の処理が完了すると(ステップS701)、傾向データ作成部222はステップS706において作成した傾向データを傾向データ格納部223に格納し(ステップS707)、処理は終了する。
以上説明したように、本実施形態に係る音響信号処理装置は、学習用音響信号を利用してクラスタリング傾向の統計的データを作成し、当該統計的データを参照して区間の分類基準を推定している。従って、本実施形態に係る音響信号処理装置によれば、経験的に定めた閾値を用いて区間の分類基準を推定する場合に比べて、安定的に精度の高い推定が実現できる。
(第3の実施形態)
図11に示すように、本発明の第3の実施形態に係る音声信号処理装置は、上記図1に示す音響信号処理装置において、クラスタリング部105をクラスタリング部305、分類基準統合部106を分類基準統合部306、出力部107を出力部307に夫々置き換え、更に音種識別部331を有している。以下の説明では、図11において図1と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
音種識別部331は、特徴量抽出部102によって抽出された特徴量に基づき、各区間が音楽、音声及び混合音のいずれの音種に属するかを識別する。音種識別部331は、区間毎に識別した音種をクラスタリング部305に通知する。
具体的には、音種識別部331は、尤度計算部103と同様に尤度を計算し、当該尤度に応じて音種を識別できる。例えば、音種識別部331は、音楽尤度を計算し、当該音楽尤度が閾値th4(>th1)以上であれば音楽、閾値th5(<th1)以下であれば音声、それ以外であれば混合音を当該区間の音種として識別する。閾値th4及びth5は、経験的または統計的に設定できる。例えば前述した第2の実施形態を参考に、様々な音種の学習用音響信号を用いて学習を行うことにより、尤度と音種とを対応付ける対応表データを統計的に作成すればよい。尚、上記尤度は音楽尤度に限らず、音声尤度或いは音楽尤度及び音声尤度の組であってもよい。
また、音種識別部331は、Lieらによる“Content Analysis for Audio Classification and Segmentation”, IEEE Trans. Speech and Audio Processing, October 2002(参考文献4)のようにSVM(Support Vector Machine)の結果に基づき音種を識別してもよい。
クラスタリング部305は、音種識別部331から通知された音種に基づき、区間を区別したうえで、クラスタリング部105と同様のクラスタリングを行う。尚、クラスタリング部305は、音種に応じて異なるクラスタリング処理を適用してもよい。例えば、参考文献1に記載された手法において特徴量成分は予め用意した複数の(即ち、様々な音種の)音響モデルの各々に対する尤度となるが、音種が同一の音響モデルに対する尤度のみに基づきクラスタリングを行うことにより、必要な特徴量成分を制限することができる。クラスタリングに使用する特徴量成分を制限すれば、クラスタリング処理に必要な演算量を削減できると共に、クラスタリングの精度も向上すると考えられる。
分類基準統合部306は、分類基準統合部106と同様に、分類基準推定部104によって推定された各区間の分類基準を統合することにより、クラスタリング部305によって分類された各クラスの分類基準を推定する。ここで、分類基準統合部306は、混合音区間のクラスタリング結果に対してのみ分類基準の統合を行ってもよい。即ち、分類基準統合部306は、音楽区間及び音声区間のクラスタリング結果に対する分類基準の統合を省略することにより、演算量を削減してよい。
出力部307は、出力部107と同様に、分類基準統合部106による分類基準の統合結果に基づきラベルを作成し、一定時刻毎に付与する。ここで、出力部307は、優先的にラベルを付与させるための条件を音種毎に異ならせてもよい。また、出力部307は、優先的にラベルを付与させるための条件を番組ジャンル毎に異ならせてもよい。
以下、図12を用いて図11の音響信号処理装置の行う処理の流れを説明する。
まず、音響信号入力部101が、処理対象となる音響信号を特徴量抽出部102に入力する(ステップS801)。次に、特徴量抽出部102が、ステップS801において入力された音響信号を時分割した区間毎に特徴量を抽出する(ステップS802)。
次に、ステップS803及びステップS804の処理と、ステップS805及びステップS806の処理とが行われる。両者は並列的に行われてよいし、任意の順序で行われてもよい。
ステップS803において、尤度計算部103は、ステップS802において抽出された特徴量毎に尤度を計算する。次に、分類基準推定部104は、ステップS803において計算された尤度に基づき、区間の分類基準を推定する(ステップS804)。
ステップS805において、音種識別部331はステップS802において抽出された特徴量に基づき各区間が属する音種を識別する。次に、クラスタリング部305は、ステップS805において識別された音種で区間を区分したうえで、ステップS802において抽出された特徴量同士の類似度に基づき、個別にクラスタリングを行う(ステップS806)。
ステップS803及びステップS804の処理と、ステップS805及びステップS806の処理とが終了すると、処理はステップS807に進む。ステップS807において、分類基準統合部306は、ステップS804において推定された各区間の分類基準と、ステップS806におけるクラスタリング結果とに基づき、混合音区間で構成されるクラスの分類基準のみを統合する。
次に、出力部307は、ステップS807において統合された各クラスの分類基準に基づき、各クラスに関するラベルを付与し、当該ラベル付与結果を出力し(ステップS808)、処理は終了する。
以上説明したように、本実施形態に係る音響信号処理装置は、音種を識別したうえでクラスタリングを行い、混合音区間で構成されるクラスの分類基準のみを統合するようにしている。従って、本実施形態に係る音響信号処理装置によれば、クラスタリング処理及び分類基準の統合処理の演算量を削減すると共に、クラスタリング結果の精度を向上させることができる。
なお、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。
第1の実施形態に係る音響信号処理装置を示すブロック図。 図1の音響信号処理装置を実現するハードウエア構成を示すブロック図。 図1の音響信号処理装置が行う処理の流れを示すフローチャート。 図3のステップS501乃至S506における具体的処理の説明図。 図3のステップS502及びS505における具体的処理の説明図。 図3のステップS506及びS507における具体的処理の説明図。 第2の実施形態に係る音響信号処理装置を示すブロック図。 図7の音響信号処理装置が行う処理の流れを示すフローチャート。 図8におけるステップS601乃至S607における具体的処理の説明図。 図7の音響信号処理装置による傾向データの作成処理の流れを示すフローチャート。 第3の実施形態に係る音響信号処理装置を示すブロック図。 図11の音響信号処理装置が行う処理の流れを示すフローチャート。
符号の説明
101・・・音響信号入力部
102・・・特徴量抽出部
103・・・尤度計算部
104・・・分類基準推定部
105・・・クラスタリング部
106・・・分類基準統合部
107・・・出力部
204・・・分類基準推定部
211・・・学習用音響信号入力部
212・・・学習用特徴量抽出部
213・・・学習用尤度計算部
215・・・学習用クラスタリング部
221・・・正解入力部
222・・・傾向データ作成部
223・・・傾向データ格納部
305・・・クラスタリング部
306・・・分類基準統合部
307・・・出力部
331・・・音種識別部
401・・・CPU
402・・・操作入力部
403・・・表示部
404・・・ROM
405・・・RAM
406・・・信号入力部
407・・・記憶部
408・・・バス

Claims (14)

  1. 音響信号を時分割した区間毎に特徴量を抽出する抽出部と、
    前記特徴量が互いに類似する区間同士を纏めて複数のクラスに分類するクラスタリング処理を行うクラスタリング部と、
    前記特徴量に基づき、前記区間の音声らしさ及び音楽らしさの少なくとも一方を示す尤度を計算する計算部と、
    前記尤度に基づき、前記クラスタリング処理によって前記区間が音声及び音楽のいずれとして分類されるかを示す第1の分類基準を推定する推定部と、
    前記クラス毎に前記第1の分類基準を統合し、第2の分類基準を得る統合部と、
    前記クラス及び前記第2の分類基準を示すラベルを作成し、一定時刻毎に前記ラベルを付与した結果を出力する出力部と
    を具備することを特徴とする音響信号処理装置。
  2. 音声及び音楽のいずれであるかを示す第1のラベルが予め付与された第1の音響信号を時分割した第1の区間毎に第1の特徴量を抽出する第1の抽出部と、
    前記第1の特徴量が互いに類似する第1の区間同士を纏めて複数の第1のクラスに分類する第1のクラスタリング処理を行う第1のクラスタリング部と、
    前記第1の特徴量に基づき、前記第1の区間の音声らしさ及び音楽らしさの少なくとも一方を示す第1の尤度を計算する第1の計算部と、
    前記第1の尤度及び前記第1のラベルに基づき、前記第1のクラスタリング処理の傾向を示す傾向データを統計的に作成する作成部と、
    第2の音響信号を時分割した第2の区間毎に第2の特徴量を抽出する第2の抽出部と、
    前記第2の特徴量が互いに類似する第2の区間同士を纏めて複数の第2のクラスに分類する第2のクラスタリング処理を行う第2のクラスタリング部と、
    前記第2の特徴量に基づき、前記第2の区間の音声らしさ及び音楽らしさの少なくとも一方を示す第2の尤度を計算する第2の計算部と、
    前記第2の尤度及び前記傾向データに基づき、前記クラスタリング処理によって前記第2の区間が音声及び音楽のいずれとして分類されるかを示す第1の分類基準を推定する推定部と、
    前記第2のクラス毎に前記第1の分類基準を統合し、第2の分類基準を得る統合部と、
    前記第2のクラス及び前記第2の分類基準を示す第2のラベルを作成し、一定時刻毎に前記第2のラベルを付与した結果を出力する出力部と
    を具備することを特徴とする音響信号処理装置。
  3. 前記第1の音響信号は音声と音楽とを任意の混合比で混合した信号であり、
    前記作成部は、前記第1の尤度と前記混合比との相関、前記第1の尤度及び前記第1のラベルに基づき、前記傾向データを作成することを特徴とする請求項2記載の音響信号処理装置。
  4. 前記尤度は、前記区間の音声らしさを示す値及び音楽らしさを示す値の組であることを特徴とする請求項1記載の音響信号処理装置。
  5. 前記第1の尤度は前記第1の区間の音声らしさを示す値及び音楽らしさを示す値の組であり、前記第2の尤度は前記第2の区間の音声らしさを示す値及び音楽らしさを示す値の組であることを特徴とする請求項2または3記載の音響信号処理装置。
  6. 前記音響信号は、複数の番組ジャンルのいずれかに属し、
    前記クラスタリング部は、前記番組ジャンル毎に異なるクラスタリング処理を行うことを特徴とする請求項1記載の音響信号処理装置。
  7. 前記音響信号は、複数の番組ジャンルのいずれかに属し、
    前記推定部は、前記尤度及び前記番組ジャンルに基づき前記第1の分類基準を推定することを特徴とする請求項1記載の音響信号処理装置。
  8. 前記音響信号は、複数の番組ジャンルのいずれかに属し、
    前記推定部は、前記尤度に対し前記番組ジャンルに応じた一定値を加算または減算した値に基づき前記第1の分類基準を推定することを特徴とする請求項1記載の音響信号処理装置。
  9. 前記推定部は、前記尤度に対し一定値を加算または減算した値に基づき前記第1の分類基準を推定することを特徴とする請求項1記載の音響信号処理装置。
  10. 前記クラスタリング部は、前記第2の分類基準の異同に応じて前記複数のクラスを第1のクラス群及び第2のクラス群に区分し、個別に再クラスタリング処理を行うことを特徴とする請求項1記載の音響信号処理装置。
  11. 前記特徴量に基づき、前記区間の音種が音声、音楽及び混合音のいずれであるかを識別する識別部を更に具備し、
    前記クラスタリング部は、前記音種毎に前記区間を音声区間、音楽区間及び混合音区間に区分し、個別に前記クラスタリング処理を行い、
    前記推定部は、混合音区間の第1の分類基準のみを推定することを特徴とする請求項1記載の音響信号処理装置。
  12. 前記出力部は、(a)前記クラスの総時間長、(b)前記第2の分類基準、(c)前記第2の分類基準の信頼度及び(d)前記クラスの信頼度の少なくとも1つに応じて前記ラベルを選択的に付与することを特徴とする請求項1記載の音響信号処理装置。
  13. 音響信号を時分割した区間毎に特徴量を抽出すること、
    前記特徴量が互いに類似する区間同士を纏めて複数のクラスに分類するクラスタリング処理を行うこと、
    前記特徴量に基づき、前記区間の音声らしさ及び音楽らしさの少なくとも一方を示す尤度を計算すること、
    前記尤度に基づき、前記クラスタリング処理によって前記区間が音声及び音楽のいずれとして分類されるかを示す第1の分類基準を推定すること、
    前記クラス毎に前記第1の分類基準を統合し、第2の分類基準を得ること、
    前記クラス及び前記第2の分類基準を示すラベルを作成し、一定時刻毎に前記ラベルを付与した結果を出力すること
    を具備することを特徴とする音響信号処理方法。
  14. コンピュータを
    音響信号を時分割した区間毎に特徴量を抽出する抽出手段、
    前記特徴量が互いに類似する区間同士を纏めて複数のクラスに分類するクラスタリング処理を行うクラスタリング手段、
    前記特徴量に基づき、前記区間の音声らしさ及び音楽らしさの少なくとも一方を示す尤度を計算する計算手段、
    前記尤度に基づき、前記クラスタリング処理によって前記区間が音声及び音楽のいずれとして分類されるかを示す第1の分類基準を推定する推定手段、
    前記クラス毎に前記第1の分類基準を統合し、第2の分類基準を得る統合手段、
    前記クラス及び前記第2の分類基準を示すラベルを作成し、一定時刻毎に前記ラベルを付与した結果を出力する出力手段
    として機能させるための音響信号処理プログラム。
JP2008198145A 2008-07-31 2008-07-31 音響信号処理装置及び方法 Withdrawn JP2010038943A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008198145A JP2010038943A (ja) 2008-07-31 2008-07-31 音響信号処理装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008198145A JP2010038943A (ja) 2008-07-31 2008-07-31 音響信号処理装置及び方法

Publications (1)

Publication Number Publication Date
JP2010038943A true JP2010038943A (ja) 2010-02-18

Family

ID=42011614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008198145A Withdrawn JP2010038943A (ja) 2008-07-31 2008-07-31 音響信号処理装置及び方法

Country Status (1)

Country Link
JP (1) JP2010038943A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012042465A (ja) * 2010-08-17 2012-03-01 Honda Motor Co Ltd 音源方向推定装置及び音源方向推定方法
WO2018155481A1 (ja) * 2017-02-27 2018-08-30 ヤマハ株式会社 情報処理方法および情報処理装置
CN108549675A (zh) * 2018-03-31 2018-09-18 陈振奎 一种基于大数据及神经网络的钢琴教学方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012042465A (ja) * 2010-08-17 2012-03-01 Honda Motor Co Ltd 音源方向推定装置及び音源方向推定方法
WO2018155481A1 (ja) * 2017-02-27 2018-08-30 ヤマハ株式会社 情報処理方法および情報処理装置
JP2018141854A (ja) * 2017-02-27 2018-09-13 ヤマハ株式会社 情報処理方法および情報処理装置
CN108549675A (zh) * 2018-03-31 2018-09-18 陈振奎 一种基于大数据及神经网络的钢琴教学方法
CN108549675B (zh) * 2018-03-31 2021-09-24 河南理工大学 一种基于大数据及神经网络的钢琴教学方法

Similar Documents

Publication Publication Date Title
CN105405439B (zh) 语音播放方法及装置
EP2560167B1 (en) Method and apparatus for performing song detection in audio signal
Li et al. Classification of general audio data for content-based retrieval
US7263485B2 (en) Robust detection and classification of objects in audio using limited training data
JP4728972B2 (ja) インデキシング装置、方法及びプログラム
KR100745976B1 (ko) 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
CN101470897B (zh) 基于音视频融合策略的敏感影片检测方法
Roma et al. Recurrence quantification analysis features for environmental sound recognition
US6784354B1 (en) Generating a music snippet
CN103530432A (zh) 一种具有语音提取功能的会议记录器及语音提取方法
JP2005532582A (ja) 音響信号に音響クラスを割り当てる方法及び装置
CN109766929A (zh) 一种基于svm的音频分类方法及系统
JP4759745B2 (ja) 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体
WO2023088448A1 (zh) 语音处理方法、设备及存储介质
Hasan et al. Multi-modal highlight generation for sports videos using an information-theoretic excitability measure
Jena et al. Gender recognition of speech signal using knn and svm
US7680654B2 (en) Apparatus and method for segmentation of audio data into meta patterns
JP2001147697A (ja) 音響データ分析方法及びその装置
JP2010038943A (ja) 音響信号処理装置及び方法
CN113891177A (zh) 一种音视频数据的摘要生成方法、装置、设备和存储介质
Boril et al. Automatic excitement-level detection for sports highlights generation.
KR101551879B1 (ko) 비교데이터 프루닝과 가우시안 혼합 모델의 유사도 추정을 이용한 유해 동영상 필터링 시스템 및 방법
KR100863122B1 (ko) 오디오 신호 특성을 이용한 멀티미디어 동영상 색인 방법
Mohammed et al. Overlapped music segmentation using a new effective feature and random forests
JP2011191542A (ja) 音声分類装置、音声分類方法、及び音声分類用プログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20111004