JP2014164126A - 音響信号分析方法、装置、及びプログラム - Google Patents

音響信号分析方法、装置、及びプログラム Download PDF

Info

Publication number
JP2014164126A
JP2014164126A JP2013035051A JP2013035051A JP2014164126A JP 2014164126 A JP2014164126 A JP 2014164126A JP 2013035051 A JP2013035051 A JP 2013035051A JP 2013035051 A JP2013035051 A JP 2013035051A JP 2014164126 A JP2014164126 A JP 2014164126A
Authority
JP
Japan
Prior art keywords
dimensional array
acoustic
parameter
elements
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013035051A
Other languages
English (en)
Inventor
Yasutomo Oishi
康智 大石
Masahiro Nakano
允裕 中野
Hirokazu Kameoka
弘和 亀岡
Tomonori Izumitani
知範 泉谷
Kunio Kashino
邦夫 柏野
Daichi Mochihashi
大地 持橋
Tomoko Matsui
知子 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013035051A priority Critical patent/JP2014164126A/ja
Publication of JP2014164126A publication Critical patent/JP2014164126A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

【課題】音響信号の時系列データから、そこに含まれる音響イベントが、どのような音響要素で構成されているのかを精度よく推定することができるようにする。
【解決手段】音響特徴量成分C^を決定し、各時刻tに基底の状態が何れであるか、または新規の状態であることを表わすZ^を決定し、基底の各状態kの基底スペクトルを表わすH^を決定し、予め与えられたL個の音響イベントlの各々に対する一部の時刻tnの各々の音響イベントの有無をXlN^に基づいて、各時刻tの発音の有無を表すU^を決定し、遷移確率a(d)を決定すると共に遷移確率b(d)を決定し、L個の音響イベントlの各々に対するD個の音響要素dの各々の重みw^を求め、L個の音響イベントlの各々に対する精度パラメータαを算出し、予め定められた収束条件を満たすまで、各処理を繰り返し行い、C^、Z^、H^、U^及びw^を出力する。
【選択図】図4

Description

本発明は、音響信号分析方法、装置、及びプログラムに係り、特に、音響信号の時系列から、信号パラメータを分析する音響信号分析方法、装置、及びプログラムに関する。
膨大な音や映像のメディアデータが身の回りにあふれる中、これらのデータを自在に検索して活用するためには、付随するテキストデータに頼るだけではなく、それぞれの中身を表す情報を、音や映像自体から自動的に引き出す技術が必要不可欠である。
従来は、教師あり学習の下で、音響信号に含まれる音響イベントを自動的にラベリングする技術が一般的であった。すなわち、学習データとして、ラベル付けされた音響イベントの音源信号を事前に用意し、それを周波数分析して得られる音響的特徴と統計モデルを用いて、未知の音響信号の時系列データにラベル付けを行った(例えば、非特許文献1、非特許文献2、非特許文献3)。統計モデルでは、例えば、ガウス混合モデル(GMM) を用いる場合、各音響イベントを表現しうる音響的特徴の頻度分布が学習される。隠れマルコフモデル(HMM)を用いる場合、音響的特徴の統計的な時間遷移が学習され、これを用いて未知の音響信号の時系列データにラベル付けを行う。これらのラベル付けの多段処理技術(音響信号が無音なのかそうでないか、音楽か話声かを段階的に識別する)も提案されている(例えば、非特許文献4)。また、音の重ね合わせを考慮して、音響信号をあらかじめ、非負値行列分解(NMF)によって音源分離し、分離信号を学習データに用いる技術も提案されている(例えば、非特許文献5)。
J. Saunders、" Real-time discrimination of broadcast speech/music, "、in Proc. ICASSP、1996. T. Butko and C. Nadeu、" Audio segmentation of broadcast news in the Albayzin-2010 evaluation: overview, results, and discussion, "、EURASIP Journal on Audio, Speech, and Music Processing、2011. A. Mesaros, T. Heittola, A. Eronen and T. Virtanen、" Acoustic event detection in real life recordings,"、in Proc. EUSIPCO、2010. T. Butko and C. Nadeu、" Audio segmentation of broadcast news: A hierarchical system with feature selection for the Albayzin-2010 evaluation, "、in Proc.2 ICASSP、2011. T. Heittola, A. Mesaros, T. Virtanen and A. Eronen、" Sound Event Detection in Multisource Environments Using Source Separation, "、in Proc. CHiME、2011.
しかし従来の技術では、以下の2つの課題があった。1つ目の課題は音響イベントの重なりがこれまで十分に考慮されなかった点である。多くの研究では、イベントの重ね合わせは無視し、多重音の音響信号から特徴を抽出して音響モデルを学習して、各フレームで最も顕著なイベントだけを出力した。音響イベントがスパースに現れる音環境では十分な性能が得られるものの、音響イベントが豊富に含まれる環境を対象とすると検出が難しい。また、あらかじめ音源分離を行い分離信号を用いれば、音響イベントの重なりを考慮できるが、音環境に合わせて分離信号のトラック数を手動で調整する必要があった。
2つ目の課題は、数千時間の書き起こしデータを用いる音声認識に比べ、音響イベントの音響的特徴を学習するためのラベル付データベースが少ない点である。人手でラベル付された音響信号データを構築するためにはコストがかかる。また、そもそも観測される音響信号に、どのような音響イベントが含まれているか事前知識がないことも多く、音響イベントの総数や音響イベントを表現するための音響的特徴はモデルが大量の音響信号データから自動的に決定してくれることが理想的である。
本発明は、上記の事情を考慮してなされたもので、音響信号の時系列データから、そこに含まれる音響イベントが、どのような音響要素で構成されているのかを精度よく推定することができる音響信号分析方法、装置、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る音響信号分析方法は、音響特徴量抽出手段、パラメータ初期値設定手段、音源分離手段、状態系列推論手段、基底スペクトル推論手段、アクティベーション推論手段、遷移確率推論手段、重みベクトル推論手段、精度パラメータ推論手段、及び収束判定手段を含む音響信号分析装置における音響信号分析方法であって、前記音響特徴量抽出手段によって、複数の音響要素が混在する音響信号の時系列データを入力として、音響特徴量Yω,t(ωは周波数、tは時刻のインデックスである。)を要素にもつ二次元配列Y^を出力するステップと、前記パラメータ初期値設定手段によって、予め定められたD個の音響要素dの各々における所定の基底の状態kの基底スペクトルを表わすパラメータHω,d (k)を要素にもつ三次元配列H^、前記D個の音響要素の各々に対する各時刻tの発音の有無を表すパラメータUd,t(={0、1})を要素にもつ二次元配列U^、及び前記D個の音響要素dの各々に対して各時刻tに前記基底の状態が何れであるかを表わすパラメータZd,tを要素にもつ二次元配列Z^、予め定められたL個の音響イベントlの各々に対する前記D個の音響要素dの各々の重みwl,dを要素にもつ一次元配列w^、前記L個の音響イベントlの各々に対する精度パラメータαの各々の初期値を設定すると共に、前記D個の音響要素dの各々について、前記パラメータUd,tが0から1へ遷移する遷移確率ad(a1>a2>・・・>aD-1>aD)、及び前記パラメータUd,tが1から1へ遷移する遷移確率bdの各々の初期値を設定するステップと、前記音源分離手段によって、(ω、t、d)の全ての組み合わせについて、前記二次元配列Z^、前記三次元配列H^、及び前記二次元配列U^に基づいてパラメータpω,t,dを算出し、算出した各パラメータpω,t,dと、前記二次元配列Y^とをパラメータとする多項分布に従って、D個の音響要素dの各々に対する音響特徴量成分Cω,t,dを要素にもつ三次元配列C^をサンプリングにより決定するステップと、前記状態系列推論手段によって、前記D個の音響要素dの各々について、前記二次元配列Z^、前記三次元配列C^,及び前記二次元配列U^に基づいて、各時刻tに前記基底の状態が各状態kである事後確率、及び各時刻tに前記基底の状態が新規の状態である事後確率を算出し、算出した事後確率に従って、前記二次元配列Z^をサンプリングにより決定するステップと、前記基底スペクトル推論手段によって、(k、ω、d)の全ての組み合わせについて、前記二次元配列Z^及び前記三次元配列C^に基づいて、パラメータφω,d (k)、ψω,d (k)を算出し、算出したパラメータφω,d (k)、ψω,d (k)をパラメータとする確率分布に従って、前記三次元配列H^をサンプリングにより決定するステップと、前記アクティベーション推論手段によって、(d、t)の全ての組み合わせについて、予め与えられた前記L個の音響イベントlの各々に対する一部の時刻tnの各々の音響イベントの有無を表すパラメータXl,tn(={0、1})を要素にもつ一次元配列XlN^、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、及び前記遷移行列ad,bd、及び前記一次元配列w^に基づいて、パラメータUd,tの事後分布を算出し、算出したパラメータUd,Tの事後分布に従って、Ud,Tをサンプリングにより決定し、t=T−1,・・・,1について、算出したパラメータUd,tの事後分布と、前記遷移行列ad,bdに基づく事後分布p(Ud,t+1|Ud,t)との積に従って、Ud,tをサンプリングにより決定することにより、前記二次元配列U^を求めるステップと、前記遷移確率推論手段によって、前記D個の音響要素dの各々について、前記遷移確率ad-1、ad+1及び前記二次元配列U^に基づく遷移確率adの確率分布に従って、遷移確率adをサンプリングにより決定し、前記遷移確率aDに基づく遷移確率adの確率分布に従って、遷移確率aDをサンプリングにより決定すると共に、前記D個の音響要素dの各々について、前記二次元配列U^に基づく遷移確率bdの確率分布に従って、遷移確率bdをサンプリングにより決定するステップと、前記重みベクトル推論手段によって、前記L個の音響イベントlの各々について、前記一次元配列XlN^、前記二次元配列U^、前記一次元配列w^、及び前記パラメータαに基づいて、事後確率が最大となるように前記一次元配列w^を求めるステップと、前記精度パラメータ推論手段によって、前記L個の音響イベントlの各々について、前記一次元配列w^に基づく前記パラメータαlの確率分布に従って、前記パラメータαをサンプリングにより決定するステップと、前記収束判定手段によって、予め定められた収束条件を満たすまで、前記音源分離手段、前記状態系列推論手段、前記基底スペクトル推論手段、前記アクティベーション推論手段、前記遷移確率推論手段、前記重みベクトル推論手段、及び前記精度パラメータ推論手段による各処理を繰り返し行い、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、前記二次元配列U^、及び前記L個の音響イベントlの各々の前記一次元配列w^を出力するステップと、を含む。
本発明に係る音響信号分析装置は、 複数の音響要素が混在する音響信号の時系列データを入力として、音響特徴量Yω,t(ωは周波数、tは時刻のインデックスである。)を要素にもつ二次元配列Y^を出力する音響特徴量抽出手段と、予め定められたD個の音響要素dの各々における所定の基底の状態kの基底スペクトルを表わすパラメータHω,d (k)を要素にもつ三次元配列H^、前記D個の音響要素の各々に対する各時刻tの発音の有無を表すパラメータUd,t(={0、1})を要素にもつ二次元配列U^、及び前記D個の音響要素dの各々に対して各時刻tに前記基底の状態が何れであるかを表わすパラメータZd,tを要素にもつ二次元配列Z^、予め定められたL個の音響イベントlの各々に対する前記D個の音響要素dの各々の重みwl,dを要素にもつ一次元配列w^、前記L個の音響イベントlの各々に対する精度パラメータαの各々の初期値を設定すると共に、前記D個の音響要素dの各々について、前記パラメータUd,tが0から1へ遷移する遷移確率ad(a1>a2>・・・>aD-1>aD)、及び前記パラメータUd,tが1から1へ遷移する遷移確率bdの各々の初期値を設定するパラメータ初期値設定手段と、(ω、t、d)の全ての組み合わせについて、前記二次元配列Z^、前記三次元配列H^、及び前記二次元配列U^に基づいてパラメータpω,t,dを算出し、算出した各パラメータpω,t,dと、前記二次元配列Y^とをパラメータとする多項分布に従って、D個の音響要素dの各々に対する音響特徴量成分Cω,t,dを要素にもつ三次元配列C^をサンプリングにより決定する音源分離手段と、前記D個の音響要素dの各々について、前記二次元配列Z^、前記三次元配列C^,及び前記二次元配列U^に基づいて、各時刻tに前記基底の状態が各状態kである事後確率、及び各時刻tに前記基底の状態が新規の状態である事後確率を算出し、算出した事後確率に従って、前記二次元配列Z^をサンプリングにより決定する状態系列推論手段と、(k、ω、d)の全ての組み合わせについて、前記二次元配列Z^及び前記三次元配列C^に基づいて、パラメータφω,d (k)、ψω,d (k)を算出し、算出したパラメータφω,d (k)、ψω,d (k)をパラメータとする確率分布に従って、前記三次元配列H^をサンプリングにより決定する基底スペクトル推論手段と、(d、t)の全ての組み合わせについて、予め与えられた前記L個の音響イベントlの各々に対する一部の時刻tnの各々の音響イベントの有無を表すパラメータXl,tn(={0、1})を要素にもつ一次元配列XlN^、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、及び前記遷移行列ad,bd、及び前記一次元配列w^に基づいて、パラメータUd,tの事後分布を算出し、算出したパラメータUd,Tの事後分布に従って、Ud,Tをサンプリングにより決定し、t=T−1,・・・,1について、算出したパラメータUd,tの事後分布と、前記遷移行列ad,bdに基づく事後分布p(Ud,t+1|Ud,t)との積に従って、Ud,tをサンプリングにより決定することにより、前記二次元配列U^を求めるアクティベーション推論手段と、前記D個の音響要素dの各々について、前記遷移確率ad-1、ad+1及び前記二次元配列U^に基づく遷移確率adの確率分布に従って、遷移確率adをサンプリングにより決定し、前記遷移確率aDに基づく遷移確率adの確率分布に従って、遷移確率aDをサンプリングにより決定すると共に、前記D個の音響要素dの各々について、前記二次元配列U^に基づく遷移確率bdの確率分布に従って、遷移確率bdをサンプリングにより決定する遷移確率推論手段と、前記L個の音響イベントlの各々について、前記一次元配列XlN^、前記二次元配列U^、前記一次元配列w^、及び前記パラメータαに基づいて、事後確率が最大となるように前記一次元配列w^を求める重みベクトル推論手段と、前記L個の音響イベントlの各々について、前記一次元配列w^に基づく前記パラメータαlの確率分布に従って、前記パラメータαをサンプリングにより決定する精度パラメータ推論手段と、予め定められた収束条件を満たすまで、前記音源分離手段、前記状態系列推論手段、前記基底スペクトル推論手段、前記アクティベーション推論手段、前記遷移確率推論手段、前記重みベクトル推論手段、及び前記精度パラメータ推論手段による各処理を繰り返し行い、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、前記二次元配列U^、及び前記L個の音響イベントlの各々の前記一次元配列w^を出力する収束判定手段と、を含んで構成されている。
本発明に係るプログラムは、上記の音響信号分析方法を構成する各ステップをコンピュータに実行させるためのプログラムである。
以上説明したように、本発明の音響信号分析方法、装置、及びプログラムによれば、音響要素dの各々に対する音響特徴量成分Cω,t,dを要素にもつC^をサンプリングにより決定し、音響要素dの各々に対して各時刻tに基底の状態が何れであるか、または新規の状態であることを表わすパラメータZd,tを要素にもつZ^をサンプリングにより決定し、音響要素dの各々における基底の各状態kの基底スペクトルを表わすパラメータHω,d (k)を要素にもつH^をサンプリングにより決定し、予め与えられたL個の音響イベントlの各々に対する一部の時刻tnの各々の音響イベントの有無を表すパラメータXl,tn(={0、1})を要素にもつXlN^を用いて、音響要素dの各々に対する各時刻tの発音の有無を表すパラメータUd,tを要素にもつU^をサンプリングにより決定し、音響要素dの各々について、パラメータUd,tが0から1へ遷移する遷移確率a(d)をサンプリングにより決定すると共にパラメータUd,tが1から1へ遷移する遷移確率b(d)をサンプリングにより決定し、予め与えられたXlN^を用いて、音響イベントlの各々に対するD個の音響要素dの各々の重みwl,dを要素にもつw^を求め、音響イベントlの各々に対する精度パラメータαを算出することを、予め定められた収束条件を満たすまで繰り返し行い、C^、Z^、H^、U^及びw^を出力することにより、音響信号の時系列データから、そこに含まれる音響イベントが、どのような音響要素で構成されているのかを精度よく推定することができる、という効果が得られる。
音響信号への音響イベントのマルチラベリングを示すイメージ図である。 音響イベントの音響要素を構成する基底スペクトル集合、状態系列集合、及びアクティベーション集合を示すイメージ図である。 本発明の実施の形態に係る提案モデルのグラフィカル表現図である。 本発明の実施の形態に係る音響信号分析装置の構成を示す概略図である。 本発明の実施の形態に係る音響信号分析装置における音響信号分析処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態の実験結果を示す図である。 本発明の実施の形態における学習データの長さに対する実験結果を示す図である。 本発明の実施の形態と従来技術との性能を比較した実験結果を示す図である。 アクティベーション行列に推定される未知の音響イベントを示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。以下では、まず本発明の実施の形態の概要及び原理について説明する。
<発明の概要>
本発明の実施の形態は、テレビやラジオ放送、ポッドキャスト、動画投稿サイトにおける音響信号の時系列データに対して、そこに含まれる、人に認識されうる音の事象“音響イベント”(話声や歌声、笑い声やあいづちをはじめ、動物の鳴き声、楽器音、環境音、効果音などの音のカテゴリを指す)を書き起こすアルゴリズムに関する。具体的には、音響信号を周波数分析して得られるスペクトログラムをフィルタバンク処理し、その出力値行列に含まれる、様々な音響要素(音声における音素、音楽における楽器音など)の音響的特徴を表現するための基底スペクトル集合、各音響要素の基底スペクトルの状態遷移を表現する状態系列集合、そして各音響要素の発音区間(鳴っているか否か、ON/OFFの状態からなる)を表現するアクティベーション集合を抽出し、抽出されたアクティベーションのベイズロジスティック回帰に基づいて、フレームごとに音響イベントをラベル付けする信号解析装置、信号解析方法及び信号解析プログラムに関する。図1は、音響信号から音響イベントを書き起こすための概略図を示す。また、図2は、フィルタバンク出力値を分解して得られる音響要素の基底スペクトル集合、状態系列集合、アクティベーション集合の概略図を示す。
非特許文献6(大石康智、持橋大地、松井知子、中野允裕、亀岡弘和、泉谷知範、柏野邦夫、「ノンパラメトリックベイズアプローチに基づく音響イベント検出」、電子情報通信学会技術研究報告 Vol.112,No.111、2012年6月22日、p.37-42)では、機械学習分野で注目されるノンパラメトリックベイズ法を利用して、大規模な音響信号の時系列データから、そこに含まれる全ての音響要素の音響的特徴とその発音区間を自律的に学習させるフレームワークを提供した(音響イベントはこの音響要素を組み合わせることによって構成されると想定する)。具体的には、音響信号に含まれる音響要素の数(上記図2に示すDに相当する)が無限個の可能性を持つと仮定し、各音響要素の継続時間を表現するためにマルコフ性を導入したMarkov Indian Buffet Process を用いて、各音響要素の音響的特徴およびそれらのアクティベーションを確率的に推論する。本実施の形態では、推定された音響要素のアクティベーションを利用して、ベイズロジスティック回帰によって、各フレームに音響イベントをラベル付けすることを提供する。
<原理>
[1. 音響イベント転写モデル]
音響イベントの重ねあわせをモデル化するために、可変基底型NMF(例えば、参考文献1(A. Ozerov, C. F´evotte, and M. Charbit,“ Factorial scaled hidden Markov model for polyphonic audio representation and source separation, ”in Proc. WASPAA 2009. )や、参考文献2(M. Nakano, J. Le Roux, H. Kameoka, N. Ono and S. Sagayama,“ Infinite-state spectrum model for music signal analysis, ”in Proc. ICASSP 2011.)を参照)を利用する。これは各音響要素の基底スペクトルが時間にともなって変化するように拡張したNMFである。各音響要素の音色を特徴付けるため、振幅スペクトログラムをメルフィルタバンク処理して得られた出力値行列である音響特徴量行列Y^=(Yω,tΩ×T∈R≧0,Ω×Tに、このNMFを適用する。なお、記号に付された「^」は、当該記号が行列または多次元配列またはベクトルである。ここで、ω=1,...,Ωはメルフィルタバンクの中心周波数のインデックス、t=1,...,Tは時間のインデックス、d=1,...,Dは音響要素のインデックスを表す。このとき、各音響要素の基底スペクトルは時刻t に、ある一つの状態Zd,t∈Nを取ると見なし、
と表現する。これは図2に示すような要素からなる生成モデルである。まず、H^=(H(k) ω,dΩ×Kdは音響要素dのK個の基底スペクトルを意味する。U^=(Ud,tD×Tは、音響要素のon/offを表現する2値系列からなるアクティベーション集合を意味する。このとき、音響信号の音量に関する情報はすべて、基底スペクトルに含まれて表現されると想定する。そして、C^=(Cω,t,dΩ×Tは、音響要素dのメルフィルタバンク出力値成分である音響特徴量成分に相当し、Cω,t,dはH(k) ω,d,Ud,t,Zd,tをパラメータとするポアソン分布から生成される。最終的に音響信号はこれらの音響要素の和で表現される。先に述べたように、音響イベントはこれらの音響要素の組み合わせで表現されることを想定している。
さらに、U^とZ^の事前分布としてmIBPとCRPを導入し、無限個の音響要素、無限個の基底スペクトルを仮定するモデルへと拡張する。また、半教師あり学習の下で、ベイズロジスティック回帰を利用して、音響要素の組み合わせに音響イベントをラベル付けるアルゴリズムを導入する。以下にその導入方法を説明する。
[1.1 mIBPによって生成されるアクティベーション行列]
Markov Indian buffet process(mIBP)と呼ばれるノンパラメトリックベイジアン因子モデル(参考文献3(J. V. Gael et al., “ The infinite factorial hidden Markov model, ”in Proc. NIPS 2008)を参照)は、時間的な依存性を考慮するようにIndian buffet process (IBP)(参考文献4(T. L. Griffiths et al.,“ Infinite latent feature models and the Indian buffet process, ”in Proc. NIPS 2006.)を参照)を拡張したものである。これは各フレームにおける音響要素がonかoffかどうかをモデル化するためにアクティベーション行列U^に対する事前分布を定義する。次の2つの特性を満たす。
1.行数(音響要素の数に相当する)は任意に大きいサイズを想定する
2.各列(フレームに相当する)のon/offは、音響要素の継続時間(発音時間)を表現するよう、マルコフ過程に従って生起されるこの構成方法が時系列データに対する因子表現を学習することを可能にする。このmIBPをアクティベーション行列U^の事前分布に導入する。具体的には、音響要素の発音時間を表現するために、各音響要素ごとに遷移行列
を用意する。つまり、0→0の遷移確率は1−a,0→1の遷移確率はa,1→0の遷移確率は1−b,1→1の遷移確率はbとし、これらの状態遷移によって、0と1からなる音響要素dのアクティベーション系列を生成する。Ud,0=0とすると、
のようなベルヌーイ分布から生成される確率変数として記述できる。このとき、すべての音響要素のアクティベーションからなるアクティベーション行列U^は
に従う。ここで、a^={a,...,a}、b^={b,...,b}とし、c 00、c 01、c 10、c 11はそれぞれ0→0、0→1、1→0、1→1に遷移する回数とする。さらに、aとbの事前分布をそれらの共役性から、
とする。式(4)における有限モデルをD→∞として無限モデルに拡張するために、stick breaking construction(参考文献5(Y. W. Teh et al.,“ Stick-breaking construction for the Indian buffet process, ” in Proc. NIPS 2007)参照)を適用する。ここで、a^をa(1)>a(2)>...>a(D)のように順序付けると、D→∞におけるa(d)の生成過程は以下の法則に従う。
一方、bはベータ分布Beta(θ (0),θ (1))から独立にサンプルされる。したがって、d番目に大きいaに対応する変数をb(d)とすると、b(d)〜Beta(θ (0),θ (1))となる。mIBPでは、頻繁にアクティベートされる音響要素ほど、小さいインデックスdに割り当てられる。
[1.2 CRPによって生成される時変なスペクトル特性]
音響イベントを表現するために必要な、基底スペクトルの状態数は音響イベントごとに異なる。例えば、ピアノの単音であれば、“attack”、“decay”、“sustain”、“release”と呼ばれる状態があるため、4つの基底スペクトルを用いて表現されるだろう。同様のことが音声を構成する音素にも言える。ドアの開閉音や食器音は、楽器の単音に比べて突発音であるため、基底スペクトルの状態数は少ないかもしれない。交通騒音(ノイズ)は常に1 つの基底スペクトルで表現されるかもしれない。このように、基底スペクトルの状態数は固定するのではなく、音響信号から自動的に決定されることが望ましい。本発明者らは可変基底型NMFにディリクレ過程を導入した無限状態スペクトルモデルを提案し、音楽音響信号を楽器の単音ごとに分解できることを示した(参考文献2(M. Nakano et al.,“ Infinite-state spectrum model for music signal analysis, ” in Proc. ICASSP 2011)参照)。同様の枠組みを音響イベント検出のために導入する。
音響要素dの基底スペクトルの状態系列{Zd,1,...,Zd,T}はそれぞれ離散的な値1,...,K(すなわち状態のインデックス)をとる。これらの状態系列の同時分布は
を用いて、
となる。
であり、δ(・)はクロネッカーのデルタ関数である。ここで、π^の事前分布として、多項分布の共役事前分布である対称なディリクレ分布
を考える。ただし、θβ (d)は正のパラメータとする。このように事前分布を定めると、θβ (d)に対する状態系列の同時分布は
と書ける。このとき、{Zd,1,...,Zd,t−1,Zd,t+1,...,Zd,T} (以降ではZ^d,\tと表現する) が与えられたときのZd,tの条件付き確率は次のように与えられる。
ただし、nd,\t (k)はZd,t’=k(Zd,t’∈Z^d,\t)を満たすt′の個数を表す。さらに、音響要素を表現するスペクトルの状態数をデータから学習する枠組みを導入する。CRP(参考文献6(D. J. Aldous,“ Representations for partially exchangeable arrays of random variables, ”Journal of Multivariate Analysis, vol. 11, pp. 581−598, 1981.)や参考文献7(Y.W.Teh et al., “ Hierarchical Bayesian nonparametric models with applications, ”Cambridge University Press, 2010.)を参照)では、有限として考えた状態数をK→∞とすることで、Zd,tの条件付き確率を次のように表す。
ここで、Kt,\+はnd,\t (k)>0となるクラスの個数である。上式から分かるように、無限状態スペクトルモデルにおいて、各時刻に用いられる状態に着目すると、他の時刻に多く用いられている状態ほど使われやすくなる性質がある.また、新しい状態が用いられやすくなるか否かはパラメータθβ (d)に影響する。
[1.3 ベイズロジスティック回帰に基づくマルチラベリング]
アクティベーション行列から、各フレームで発音する音響イベントを推定する(マルチラベリングする)ために、ベイズロジスティック回帰(参考文献8(D. J. C. MacKay,“ The evidence framework applied to classification networks, ”Neural Computation, vol. 4,pp. 448−472, 1992.)を参照)を利用する。これはトピックモデルを教師あり学習できるよう拡張したsLDA(参考文献9(D. M. Blei and J. D. McAuliffe,“ Supervised topic models, ”in Proc. NIPS 2007.)を参照)と類似した適用方法である。まず、フレームt における音響要素のアクティベーションをまとめてU^=[U1,t,U2,t,...,UD,tと表現する。また、音響イベントl に対するラベルをXlN^={Xl,t1,Xl,t2,...,Xl,tN}(Xl,tn∈{0,1}) と表現すると、その尤度関数は、
と書ける。ここで、w^=[wl,1,wl,2,...,wl,Dは重みベクトルであり、σ(・) はロジスティックシグモイド関数
である。さらに、次の形の単純な等方ガウス事前分布
とαに対する共役超事前分布をガンマ分布
を導入する。これは超パラメータθα (0)とθα (1)で定まる。I^はD×Dの単位行列を表す。このとき、アクティベーションベクトルU^が与えられた下で、音響イベントラベルXl,tの予測分布は、
となる。上式では、ロジスティックシグモイド関数とガウス分布のたたみ込み積分を近似するために、プロビット関数に基づく近似予測分布を利用する。wlMAP^はw^のMAP(最大事後確率)解を表し、実際はラベル付けされた少量の学習データを利用して推定される。
音響イベント書き起こしモデルのグラフィカル表現を図3 に示す。これは音響特徴行列Y^とラベル行列X^を共に生成するモデルある。ここで、計算の都合上、基底スペクトル集合H^の事前分布として、ガンマ分布Hω,d (k)〜Gamma(θφ (ω,d),θψ (ω,d))を仮定する。また、θ,θ (0),θ (1),θα (0),θα (1),θβ (d),θφ (ω,d),θψ (ω,d)はすべて固定の超パラメータである。
また、音響特徴量行列Y^と、ある特定のフレームだけにラベルが付与された音響イベントラベル行列X^=[X1N^,X2N^,...,XLN^]との対数尤度関数は、
となる。
[2 パラメータの推論]
mIBPのstick breaking constructionは、スライスサンプリングと動的計画法を組み合わせることで、モデルパラメータを推論できる(参考文献3(J. V. Gael et al.,“The infinite factorial hidden Markov model, ”in Proc. NIPS 2008)を参照)。スライスサンプラーが適応的に、無限次元モデルの打ち切りを行い、その後、動的計画法によって各パラメータが推論される。しかしながら、本実施の形態はロジスティック回帰に基づくマルチラベリング処理を含むため(計算コストを軽くするため)、打ち切りされたstick breaking construction の下で(Dを大きな値に固定して)、ギブスサンプリングによってパラメータを推論する。以下に各パラメータの推論方法を示す。
[2.1 Cω,t,1,...,Cω,t,Dの推論]
ω,t,1,...,Cω,t,Dの条件付き確率は、
となる。ここで、rd,t (k)=δ(Zd,t−k) とし、pω,t,d
とする。この多項分布からCω,t,1,...,Cω,t,Dをサンプリングする。
[2.2 Zd,tの推論]
d,tの条件付き確率は、Y^の尤度関数を考慮して、
と書ける。ここで、
とする。これらの確率を用いて、Zd,tの状態割り当てを行う。
[2.3 Hω,d (k)の推論]
ω,d (k)の条件付き確率は、
となる。このガンマ分布からHω,d (k)をサンプリングする。
[2.4 Ud,1,,...,Ud,Tの推論]
Forward-filtering backward-sampling アルゴリズム(参考文献10(S. L. Scott, “Bayesian methods for hidden Markov models: Recursive computing in the 21st century, ”JASA, vol. 97, pp. 337−351, 2002.)を参照)を利用して、Ud,1,,...,Ud,Tを推論する。このとき、U^のd行以外の値はすべて固定する。まず、t=1,...,Tに対して、
を再帰的に計算する。ここで、Xl,tの尤度関数は、ラベルが付与されているフレームtだけ計算される。次に、
からUd,Tをサンプリングする。そして、t=T−1,...,1に対して、Ud,t+1が与えられた下で、
に従って、Ud,tを後方から順番にサンプリングすれば、Ud,1,,...,Ud,Tが求まる。
[2.5 a(d)の推論]
d=1,...,D に対して、a(d) の条件付き確率は、
となり、このベータ分布からa(d)をサンプリングする。
[2.6 b(d)の推論]
d=1,...,Dに対して、b(d)の条件付き確率は、
となり、このベータ分布からb(d)をサンプリングする。
[2.7 w^の推論]
音響信号の一部のNフレームには音響イベントのon/offに関するラベルが付いているとする。ラベルが付けられたフレームのインデックスをt,t,...,tとし、これらのフレームの音響要素のアクティベーション{Ut1^,Ut2^,...,UtN^} と音響イベントlに対するラベルXlN^=[Xl,t1,Xl,t2,...,Xl,tNを用いて、wを推論する。ロジスティックシグモイド関数の積である尤度関数と事前確率分布が共役な関係ではないため、ここでは、ニュートン-ラフソン法を利用してMAP(最大事後確率)推定値wlMAP^を求める。更新式は、
と導出される。ここで、
とする。w (new)^とw (old)^の差が10−8 以下になったとき、wlMAP^=w (new)^とする。
[2.8 αの推論]
l=1,...,Lに対して、αの条件付き確率は、
と近似され、このガンマ分布からαをサンプリングする。
<音響信号分析装置のシステム構成>
次に、音響信号の信号パラメータを分析して出力する音響信号分析装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
図4に示すように、本実施の形態に係る音響信号分析装置は、CPUと、RAMと、後述する音響信号分析処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
本実施の形態に係る音響信号分析装置は、入力部1と、記憶部2と、演算部3と、出力部4とを備えている。本実施の形態は、分析対象である音響信号の時系列の一部分に対してL個の音響イベントの値をラベル付けしたデータを学習データとして入力する。そして、前述したパラメータ推定アルゴリズムを用いて信号解析を行い、分析対象である音響信号の時系列の全ての部分に対して、推定したパラメータを適用する構成である。
入力部1には、分析対象である音響信号の時系列と、当該音響信号の時系列について、ある特定のフレームだけにラベルが付与された音響イベントラベル行列X^=[X1N^,X2N^,...,XLN^]とが入力される。ここで、X^は、音響信号の時系列の一部分(ある特定のフレーム)について予め付与された教師ラベル行列である。
記憶部2は、入力部1に入力された音響信号の時系列と、X^とを記憶する。また、記憶部2には、予め定められた超パラメータθ=1,θ (0)=10,θ (1)=1,θβ (d)=1,θφ (ω,d)=1,θψ (ω,d)=1 (d =1,...,D,ω=1,...,Ω),θα (0)=1,θα (1)=1000が記憶されている。これらの超パラメータの各値は予備実験によって決定した。また、記憶部2は、後述する各処理での結果等を記憶する。
演算部3は、音響特徴抽出部30と、パラメータ初期値生成部32と、モデルパラメータ更新部34と、音響イベントラベル推論部36とから構成されている。
音響特徴抽出部30は、記憶部2に記憶された音響信号の時系列を読み出し、当該音響信号に基づいて、音響特徴量行列Y^(以下、Y^と称する。Y^は二次元配列である。)を作成する。本実施の形態では、音響イベントの音色に着目し、フレーム長100ms、フレームシフト長100msとして、フレームごとに短時間フーリエ変換を行い、その振幅スペクトルをメルフィルタバンク処理して得られる出力値であるYω,tを各要素にもつ二次元配列Y^(ω=1,...,Ω、t=1,...,T)を生成し、記憶部2へ格納する。このとき、例えば、メルフィルタの数を24個とすれば、Ω=24であり、Tはフレームの総数に相当する。また、上記(1)式に示すように、本実施の形態では、ポアソン分布に従う確率変数として、音響特徴量行列をモデル化するため、Y^の全ての要素の値を整数値に丸め込む。
パラメータ初期値生成部32は、基底スペクトル集合H^(以下、H^と称する。)、アクティベーション集合U^(以下、U^と称する。)、状態系列Z^(以下、Z^と称する。)、重みベクトルw^(以下、w^と称する。)、精度パラメータα、及び遷移確率a^並びにb^の各パラメータの初期値を生成し、記憶部2へ格納する。
なお、H^は三次元配列、U^とZ^とは二次元配列、w^とa^とb^とは一次元配列である。
パラメータ初期値生成部32は、音響特徴抽出部30により作成されたY^に基づいて、上記(1)式に従って、通常のNMFを適用し、推定されたH^とU^を初期値とし、記憶部2に格納する。ここで、推定されたH1:Ω,dはd番目の音響要素の初期基底スペクトルとする(初期状態数はK=1とする)。
具体的には、パラメータ初期値生成部32は、H^について、各音響要素dの基底の状態kを1のみとする。そして、H^の要素である全てのパラメータHω,d (1)が非負値であり、U^の要素である全てのパラメータUd,tが非負値である、という条件の下で、パラメータHω,d (1)とパラメータUd,tとの積を、全てのdについて足し合わせたモデルについて、Y^とモデルとの距離を表わした目的関数の値が小さくなるように、パラメータHω,d (1)及びパラメータUd,tの各々を推定して、H^及びU^の初期値を設定する。
NMFは、周知技術により実現できる(例えば、参考文献11(A.T.Cemgil,“Bayesian inference in non-negative matrix factorisation models, ”in University of Cambridge, 2008.) や、参考文献12(M. Hoffman, D. Blei, and P. Cook,“ Bayesian nonparametric matrix factorization for recorded music, ”in Proc. ICML,2010.)を参照)ため、詳細な説明を省略する。
また、U^については、その中央値よりも大きい要素は1に、中央値よりも小さい要素は0に二値化して初期値とする。
Z^については、全ての要素の初期値として1が設定され、記憶部2に格納される。
音響要素数Dについては、適切な初期値が設定され、記憶部2に格納される。本実施の形態では、打ち切りstick breaking construcitonをU^に適用するため、音響要素数Dの値はできる限り大きい値が望ましい。後述する評価実験では、D=100とした。
遷移確率a^については、上記(6)式に従って、a^={a,...,a}についての初期値が生成され、そして遷移確率b^については、上記(5)式に従って、初期値が生成され、各々の初期値が記憶部2に格納される。
^、精度パラメータαについては、音響イベントl=1,...,Lに対して、初期値として適切な値が設定され、各々の初期値が記憶部2に格納される。
モデルパラメータ更新部34は、前述したパラメータ推定アルゴリズムを用いて、各パラメータを更新して各パラメータを推定する。モデルパラメータ更新部34は、音源分離推論部340と、状態系列推論部341と、基底スペクトル推論部342と、アクティベーション推論部343と、遷移確率推論部344と、重みベクトル推論部345と、精度パラメータ推論部346と、収束判定部347とから構成されている。
音源分離推論部340は、上記(18)式及び(19)式に従って、数値的サンプリングによって、各音響要素dについての音響特徴量成分を表す行列C^(以下、C^と称する。C^は三次元配列である。)のすべての要素を推論する。具体的には、記憶部2に記憶されたY^、Z^、H^、及びU^に基づいて、上記(18)式及び(19)式に従って、C^のすべての要素をサンプリングして推論し、記憶部2に格納する。
状態系列推論部341は、上記(20)式及び(c)式から、ギブスサンプリングによってZ^のすべての要素の推論を行う。具体的には、記憶部2に記憶されたY^、超パラメータθφ (ω,d),θψ (ω,d)(d =1,...,D,ω=1,...,Ω)、C^、Z^、及びU^に基づいて、上記(20)式及び(c)式に従って、p(Zd,1,...,Zd,T|C・,1,d,...,C・,T,d)の値の大きなZd,1,...,Zd,Tを確率的に求め、記憶部2に格納する。なお、Zd,tを求める際のZ^については、Zd,t以外の{Zd,1,...,Zd,t−1,Zd,t+1,...,Zd,t}(=Zd,\t)の値を既知として、Zd,tをサンプリングして推論し、記憶部2に格納する。
基底スペクトル推論部342は、上記(21)式から、数値的サンプリングによってH^のすべての要素を推論する。具体的には、記憶部2に記憶された超パラメータθφ (ω,d),θψ (ω,d)(d =1,...,D,ω=1,...,Ω)、C^、Z^、及びU^に基づいて、上記(21)式に従って、数値的サンプリングによってH^のすべての要素をサンプリングして推論し、記憶部2に格納する。
アクティベーション推論部343は、上記(22)式及び(23)式からなるForward filtering backward sampling アルゴリズムに基づいて、U^のすべての要素を推論する。具体的には、記憶部2に記憶されたY^、C^、Z^、H^、X^及びU^に基づいて、まずForward filteringによって、上記(22)式に従って、各tに対するUd,tの事後分布を再帰的に計算した後、Backward samplingによって、上記(23)式に従って、各tに対するUd,tを数値的にサンプリングして求め、記憶部2に格納する。なお、Forward filteringでは、Ud,tの事後分布を求める際に、Ud,t-1の事後分布を用い、Backward samplingでは、Ud,tを求める際に、Ud,t+1を用いる。
遷移確率推論部344は、記憶部2に記憶された超パラメータθ (0)、θ (1)及びU^に基づいて、上記(24)式及び(25)式に従って、遷移確率a(d)及びb(d)を推論する。具体的には、記憶部2に記憶された遷移確率a^、及びU^に基づいて、上記(24)式に従って、d=1,...,Dに対するa(d)をサンプリングして推論し、記憶部2に格納する。また、b(d)については、記憶部2に記憶された超パラメータθ (0)、θ (1)、及びU^に基づいて、上記(25)式に従って、d=1,...,Dに対するb(d)をサンプリングにより推論し、記憶部2に格納する。
重みベクトル推論部345は、音響イベントl=1,...,Lに対して、ニュートン-ラフソン法を利用して、最大事後確率推定値wlMAP^を求める。具体的には、音響イベントl=1,...,Lに対して、記憶部2に記憶されたU^、XlN^、精度パラメータα、及びw (old)^に基づいて、上記(26)式に従って、重みベクトルw (new)^を更新することを繰り返し、更新したw (new)^とw (old)^の差が10ー8以下になったとき、wlMAP^=w (new)^として最大事後確率推定値wlMAP^を更新し、記憶部2に格納する。
精度パラメータ推論部346は、音響イベントl=1,...,Lに対して、記憶部2に記憶された超パラメータθα (0)、θα、及びwlMAP^に基づいて、上記(28)に従って、数値的サンプリングによって、αを推論し、記憶部2に格納する。
収束判定部347は、記憶部2に記憶されたY^及びX^と、推論されたZ^、H^、U^、w^とを用いて、上記(17)式の対数尤度関数を計算する。更新前のモデルパラメータを用いて計算した対数尤度関数の値と更新後の値との誤差が、所定の閾値以下であれば、モデルパラメータの更新が収束したと判定する。一方、誤差が所定の閾値を超えるようであれば、モデルパラメータの更新は収束していないと判定し、音源分離推論部340の処理に戻る。本実施の形態ではこの誤差の閾値を実験的にε=1.0×10−5とした。
音響イベントラベル推論部36は、L個の音響イベントlの各々について、記憶部2に記憶されたU^、XlN^、精度パラメータα及びwlMAP^に基づいて、上記(16)式に従って、各時刻tのパラメータXl,tの予測確率を算出し、時刻t毎に、時刻tの予測確率が、0.5より大きい場合には、パラメータXl,tの値を1とし、時刻tの予測確率が、0.5以下である場合には、パラメータXl,tの値を0とする。
出力部4は、記憶部2に記憶されているモデルパラメータC^、Z^、H^、U^、a^、b^、wlMAP^をすべて出力すると共に、音響イベントラベル推論部36により求められた各音響イベントlに対する時刻t毎のパラメータXl,tを出力する。
なお、収束したか否かを判定する方法としては、対数尤度関数を用いる方法以外に、モデルパラメータ各々の値を更新前と更新後とで比較しても良いし、予め定めた繰り返し回数に到達したか否かで判定を行っても良い。本実施の形態ではモデルパラメータ各々の値を更新前と更新後とで比較する場合、この誤差の閾値がε=1.0×10−5であれば良好な結果であることを実験的に確認した。また、予め定めた繰り返し回数に到達したか否かで判定をする場合、1000回の繰り返し回数が必要であることも実験的に確認している。
<音響信号分析装置の作用>
次に、本実施の形態に係る音響信号分析装置の作用について説明する。まず、分析対象の時系列信号として音響信号が音響信号分析装置に入力され、記憶部2に格納される。また、音響イベントラベル行列X^が音響信号分析装置に入力され、記憶部2に格納される。そして、音響信号分析装置において、図5に示す音響信号分析処理ルーチンが実行される。
まず、ステップS100において、記憶部2から、各フレーム内の音響信号の時系列を読み込む。そして、音響信号の時系列に対して、短時間フーリエ変換を用いた時間周波数分析を行い、振幅スペクトルを結果として得る。そして、その振幅スペクトルに対し、メルフィルタバンク処理して得られる音響特徴量Yω,tを各(ω,t)の要素にもつ二次元配列Y^を生成し、記憶部2へ格納する。
そして、ステップS102において、記憶部2に記憶されている超パラメータθ、θ (0)、θ (1)、θβ (d)、θφ (ω,d)、θψ (ω,d)(d =1,...,D,ω=1,...,Ω)、θα (0)、θα (1)の値を読み込む。
次にステップS106において、パラメータ初期値生成部32によって、H^、U^、Z^、音響要素数D、遷移確率a^、b^、w^、及び精度パラメータαの各パラメータの初期値を生成する。
具体的には、上記(1)式に従って、上記ステップS100において生成されたY^に基づいて、H^とU^を推定し、初期値として記憶部2へ記憶する。Z^については、全ての要素の初期値として1を設定し、音響要素数Dについては、初期値として例えばD=100を設定する。また遷移確率a^については、上記(6)式に従って、a^={a,...,a}についての初期値が生成され、遷移確率b^については、上記(5)式に従って初期値が生成される。w^、精度パラメータαについては、音響イベントl=1,...,Lに対して、初期値として適切な値が設定される。そして、生成された各々の初期値を記憶部2へ記憶する。
ステップS108では、音源分離推論部340によって、C^の全ての要素を推論する。具体的には、上記ステップS100において生成されたY^、並びに上記ステップS106で設定されたZ^、H^及びU^、又は、後述するステップS110〜ステップS114で前回推論されたZ^、H^及びU^に基づいて、上記(18)式及び(19)式に従って、C^のすべての要素をサンプリングして推論し、記憶部2へ記憶する。
ステップS110では、状態系列推論部341によって、ギブスサンプリングによって、Z^のすべての要素の推論を行う。具体的には、上記ステップS100で生成されたY^、上記ステップS102で読み込まれた超パラメータθφ (ω,d),θψ (ω,d)(d =1,...,D,ω=1,...,Ω)、上記ステップS106で設定されたZ^及びU^、又は本ステップS110及び後述するステップS114で前回推論されたZ^及びU^、並びに上記ステップS108で推論されたC^に基づいて、上記(20)式及び(c)式に従って、Zd,1,...,Zd,Tをサンプリングして推論する。
なお、Zd,tを求める際の状態系列Z^については、Zd,t以外の{Zd,1,...,Zd,t−1,Zd,t+1,...,Zd,t}(=Zd,\t)の値を既知として、Zd,tをサンプリングして推論する。ここで、Zd,1,...,Zd,t−1までは、本ステップS110で推論された直前の値を用い、Zd,t+1,...,Zd,tについては、上記ステップS106で生成されたZ^又は本ステップS110で前回推論されたZ^を用いて、Zd,tをサンプリングして推論し、記憶部2へ記憶する。
ステップS112では、基底スペクトル推論部342によって、H^の全ての要素の推論を行う。具体的には、上記ステップS102で読み込まれた超パラメータθφ (ω,d),θψ (ω,d)(d =1,...,D,ω=1,...,Ω)、上記ステップS106で設定されたU^、又は後述するステップS114で前回推論されたU^、上記ステップS108で推論されたC^、及び上記ステップS110で推論されたZ^に基づいて、上記(21)式に従って、H^のすべての要素をサンプリングして推論し、記憶部2へ記憶する。
ステップS114では、アクティベーション推論部343によって、U^の全ての要素の推論を行う。具体的には、上記ステップS100において生成されたY^、記憶部2に記憶されたXlN^、上記ステップS108で推論されたC^、上記ステップS110で推論されたZ^、上記ステップS112で推論されたH^、及び上記ステップS106で設定されたU^又は本ステップS114で前回推論されたU^に基づいて、上記(22)式及び(23)式に従って、U^の全ての要素の推論を行う。詳細には、まずForward filteringによって、上記(22)式に従って、各tに対するUd,tの事後分布を再帰的に計算した後、Backward samplingによって、上記(23)式に従ってUd,tを数値的にサンプリングして求めることにより、U^の全ての要素を推論し、記憶部2へ記憶する。
ステップS116では、遷移確率推論部344によって、遷移確率a(d)、b(d)の推論を行う。具体的には、本ステップS116で今回または前回生成された遷移確率a、上記ステップS102で読み込まれた超パラメータθ (0)、θ (1)、及び上記ステップS114で推論されたUd,1,..., Ud,Tに基づいて、上記(24)式、及び(25)式に従って、遷移確率a(d)、b(d)の推論を行う。まず、上記(24)式に基づいて、d=1,...,Dに対するa(d)を推論する。b(d)については、上記(25)式に基づいて、d=1,...,Dに対するb(d)を推論する。そして、推論された遷移確率a(d)、b(d)を記憶部2へ記憶する。
ステップS118において、重みベクトル推論部345によって、wlMAP^の推論を行う。具体的には、音響イベントl=1,...,Lに対して、上記ステップS114で推論されたU^、記憶部2に記憶されたXlN^、上記ステップS106で設定されたか、又は後述するステップS120で前回推論された精度パラメータα、及び上記ステップS106で設定されたか、又は本ステップS118で前回推論されたw (old)^に基づいて、上記(26)式に従って、重みベクトルw (new)^を更新することを繰り返し、更新したw (new)^とw (old)^の差が10ー8以下になったとき、wlMAP^=w (new)^として最大事後確率推定値wlMAP^を更新し、記憶部2に格納する。
ステップS120において、精度パラメータ推論部346によって、αを推論する。
具体的には、音響イベントl=1,...,Lに対して、上記ステップS102で読み込まれた超パラメータθα (0)、θα (1)、及び上記ステップS118で推論されたwlMAP^に基づいて、上記(28)に従って、数値的サンプリングによって、αを推論する。そして、推論されたαを記憶部2へ記憶する。
ステップS122では、収束判定部347によって、上記ステップS100で得られたY^及び記憶部2に記憶されたX^と、上記ステップS110〜S118で推論されたZ^、H^、U^、及びw^とを用いて、上記(17)式の対数尤度関数を計算する。そして、更新前のモデルパラメータを用いて計算した対数尤度関数の値と更新後の値との誤差が、所定の閾値以下であれば、収束したと判定する。収束していないと判定された場合には、ステップS108へ移行し、上記ステップS108〜ステップS120で推論したパラメータを用いて、上記ステップS108〜ステップS120の処理を繰り返す。収束したと判定された場合には、ステップS124へ移行する。
ステップS124において、音響イベントラベル推論部36によって、L個の音響イベントlの各々について、記憶部2に記憶されたU^、XlN^、精度パラメータα及びwlMAP^に基づいて、上記(16)式に従って、各時刻tのパラメータXl,tの予測確率を算出する。そして、L個の音響イベントlの各々について、時刻t毎に、時刻tの予測確率が、0.5より大きい場合には、パラメータXl,tの値を1とし、時刻tの予測確率が、0.5以下である場合には、パラメータXl,tの値を0とする。
ステップS126では、出力部4によって、推論された各パラメータ(C^、Z^、H^、U^、a^、b^、wlMAP^)を結果として出力すると共に、音響イベントラベル推論部36により求められた各音響イベントlの時刻t毎のパラメータXl,tを出力し、音響信号分析処理ルーチンが終了する。
<実験結果>
英語学習用ポッドキャストの音響信号(計35分のうち、はじめの5分)を用いて、本技術の性能を評価する。音響信号は16kHzサンプリングで16ビット量子化されたものである。
図6の上段の図は、100msごとに手動でラベル付けされた音響イベントラベルを示す。黒色が音響イベントのonを、白色がoffを表す。この音響信号は“音楽”、“効果音”、“電話のベル音”、5名の“音声”からなる8種類の音響イベントを含む。音響信号は、フレームシフト長100ms、フレーム長100ms、ハニング窓を用いてフレームに分割され、短時間フーリエ変換によって振幅スペクトログラムに変換される。そして、各フレームの振幅スペクトルをフィルタバンク処理して得られる出力値(24個の値)を、音響特徴量行列とする(すなわち、Y^は24×3000の行列である)。
図6の上段の図に示されるように、学習データ(あらかじめラベル付けされたデータ)として3 種類((1)50秒、(2)100秒、(3)150秒)を用意した。そして、後半の150秒に対する推定結果に基づいて、本技術の性能を評価する。評価尺度として、各イベントのラベル予測確率{p(X{l,1501}|U^,X^lN), p(X{l,1502}|U^,X^lN),…p(X{l,3000}|U^,X^lN)}と正解ラベルとを比較することで計算されるROC曲線の下側面積AUCの値を利用する。
図6の中段及び下段の図は、アクティベーション行列U^と学習データ(3)を利用して推定されたラベル付け結果を示す。
l,t=I(p(X{l,t}|U^,X^lN)>0.5)
の基準に基づいて、各フレームに付与する音響イベントlのラベルの値が0であるか1であるかを判定した。ここで、p(X{l,t}|U^,X^lN)は予測確率である。また、I(A)はインジケータ関数であり、条件Aが真であれば1を、偽であれば0を返す関数である。アクティベーション行列のロジスティック回帰によって推定されるラベル付結果が、正解ラベルと全体的に近い結果が得られたことがわかる。また、女性の話者を識別することが難しいこともわかる。
図7は、学習データの長さに対するラベル付性能を評価した図である。ここで、“電話のベル音” と“男性Aの音声” は評価データに含まれていないため、これらについては評価しない。学習データの長さが増えるにつれて、各イベントのラベル付性能を表すAUCの値が向上することがわかる。
図8は、ベースライン手法と本実施の形態の性能を比較する図である。どちらも学習データ(3)を使用した結果である。ベースライン手法では、音響イベントのラベルが付与されるフレームの音響特徴量(24個のメルフィルタバンク出力値)の分布をガウス混合モデル(GMM)を利用して学習し、評価データに対して、各音響イベントラベルの事後確率を計算する。そして、5点移動平均フィルタを利用して、事後確率を平滑化し、平均AUCの値を計算した。本技術はベースライン手法と同等以上の性能が得られていることがわかった。ただし注目すべきは、(1)や(2)のように学習データが少ない場合、ベースライン手法はGMMを効果的に学習できない。しかしながら、本技術は、たとえ少量の学習データであったとしても、ラベル付けされていないデータをうまく活用することによって、全体のイベントラベルを推定できることが分かった。
また、識別モデルにとって、学習データに含まれていない未知の音響イベントを検出することは難しい。しかし、生成的なアプローチである本技術が未知の音響イベントを検出できる可能性があることを示す。ここでは、“効果音”に着目する。実際、この効果音は様々な種類の音に対してラベル付けされているため、性能は低い(上記図7参照)。しかし、推定されたアクティベーション行列を見てみると興味深い(図9参照)。“効果音” のラベルが付与される区間において、特定の音響要素がアクティブとなっていることがわかる。これらの音響要素が新しい音響イベントとして検出されていることを意味する。
以上説明したように、本発明の実施の形態に係る音響信号分析装置によれば、音響要素dの各々に対する音響特徴量成分Cω,t,dを要素にもつC^をサンプリングにより決定し、音響要素dの各々に対して各時刻tに基底の状態が何れであるか、または新規の状態であることを表わすパラメータZd,tを要素にもつZ^をサンプリングにより決定し、音響要素dの各々における基底の各状態kの基底スペクトルを表わすパラメータHω,d (k)を要素にもつH^をサンプリングにより決定し、予め与えられたL個の音響イベントlの各々に対する一部の時刻tnの各々の音響イベントの有無を表すパラメータXl,tn(={0、1})を要素にもつXlN^を用いて、音響要素dの各々に対する各時刻tの発音の有無を表すパラメータUd,tを要素にもつU^をサンプリングにより決定し、音響要素dの各々について、パラメータUd,tが0から1へ遷移する遷移確率a(d)をサンプリングにより決定すると共にパラメータUd,tが1から1へ遷移する遷移確率b(d)をサンプリングにより決定し、予め与えられたXlN^を用いて、音響イベントlの各々に対するD個の音響要素dの各々の重みwl,dを要素にもつw^を求め、音響イベントlの各々に対する精度パラメータαを算出することを、予め定められた収束条件を満たすまで繰り返し行い、C^、Z^、H^、U^及びw^を出力することにより、音響信号の時系列データから、そこに含まれる音響イベントが、どのような音響要素で構成されているのかを精度よく推定することができる。
また、本発明の実施の形態に係る音響信号分析装置によれば、音響信号の時系列データ及び一部のフレームに対する音響イベントのラベル行列から、全ての音響イベントの音響的特徴とその発音区間を自律的に推定することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、本実施の形態における音響特徴抽出部30では、音響信号の時系列に対し、フレームごとに短時間フーリエ変換を行い、その振幅スペクトルをメルフィルタバンク処理してY^を生成する場合を例に説明したが、これに限定されるものではなく、振幅スペクトログラムそのものを音響特徴量行列Y^としてもよい。
また、上述の音響信号分析装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 入力部
2 記憶部
3 演算部
4 出力部
30 音響特徴抽出部
32 パラメータ初期値生成部
34 モデルパラメータ更新部
36 音響イベントラベル推論部
340 音源分離推論部
341 状態系列推論部
342 基底スペクトル推論部
343 アクティベーション推論部
344 遷移確率推論部
345 重みベクトル推論部
346 精度パラメータ推論部
347 収束判定部

Claims (5)

  1. 音響特徴量抽出手段、パラメータ初期値設定手段、音源分離手段、状態系列推論手段、基底スペクトル推論手段、アクティベーション推論手段、遷移確率推論手段、重みベクトル推論手段、精度パラメータ推論手段、及び収束判定手段を含む音響信号分析装置における音響信号分析方法であって、
    前記音響特徴量抽出手段によって、複数の音響要素が混在する音響信号の時系列データを入力として、音響特徴量Yω,t(ωは周波数、tは時刻のインデックスである。)を要素にもつ二次元配列Y^を出力するステップと、
    前記パラメータ初期値設定手段によって、予め定められたD個の音響要素dの各々における所定の基底の状態kの基底スペクトルを表わすパラメータHω,d (k)を要素にもつ三次元配列H^、前記D個の音響要素の各々に対する各時刻tの発音の有無を表すパラメータUd,t(={0、1})を要素にもつ二次元配列U^、及び前記D個の音響要素dの各々に対して各時刻tに前記基底の状態が何れであるかを表わすパラメータZd,tを要素にもつ二次元配列Z^、予め定められたL個の音響イベントlの各々に対する前記D個の音響要素dの各々の重みwl,dを要素にもつ一次元配列w^、前記L個の音響イベントlの各々に対する精度パラメータαの各々の初期値を設定すると共に、前記D個の音響要素dの各々について、前記パラメータUd,tが0から1へ遷移する遷移確率ad(a1>a2>・・・>aD-1>aD)、及び前記パラメータUd,tが1から1へ遷移する遷移確率bdの各々の初期値を設定するステップと、
    前記音源分離手段によって、(ω、t、d)の全ての組み合わせについて、前記二次元配列Z^、前記三次元配列H^、及び前記二次元配列U^に基づいてパラメータpω,t,dを算出し、算出した各パラメータpω,t,dと、前記二次元配列Y^とをパラメータとする多項分布に従って、D個の音響要素dの各々に対する音響特徴量成分Cω,t,dを要素にもつ三次元配列C^をサンプリングにより決定するステップと、
    前記状態系列推論手段によって、前記D個の音響要素dの各々について、前記二次元配列Z^、前記三次元配列C^,及び前記二次元配列U^に基づいて、各時刻tに前記基底の状態が各状態kである事後確率、及び各時刻tに前記基底の状態が新規の状態である事後確率を算出し、算出した事後確率に従って、前記二次元配列Z^をサンプリングにより決定するステップと、
    前記基底スペクトル推論手段によって、(k、ω、d)の全ての組み合わせについて、前記二次元配列Z^及び前記三次元配列C^に基づいて、パラメータφω,d (k)、ψω,d (k)を算出し、算出したパラメータφω,d (k)、ψω,d (k)をパラメータとする確率分布に従って、前記三次元配列H^をサンプリングにより決定するステップと、
    前記アクティベーション推論手段によって、(d、t)の全ての組み合わせについて、予め与えられた前記L個の音響イベントlの各々に対する一部の時刻tnの各々の音響イベントの有無を表すパラメータXl,tn(={0、1})を要素にもつ一次元配列XlN^、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、及び前記遷移行列ad,bd、及び前記一次元配列w^に基づいて、パラメータUd,tの事後分布を算出し、算出したパラメータUd,Tの事後分布に従って、Ud,Tをサンプリングにより決定し、t=T−1,・・・,1について、算出したパラメータUd,tの事後分布と、前記遷移行列ad,bdに基づく事後分布p(Ud,t+1|Ud,t)との積に従って、Ud,tをサンプリングにより決定することにより、前記二次元配列U^を求めるステップと、
    前記遷移確率推論手段によって、前記D個の音響要素dの各々について、前記遷移確率ad-1、ad+1及び前記二次元配列U^に基づく遷移確率adの確率分布に従って、遷移確率adをサンプリングにより決定し、前記遷移確率aDに基づく遷移確率adの確率分布に従って、遷移確率aDをサンプリングにより決定すると共に、前記D個の音響要素dの各々について、前記二次元配列U^に基づく遷移確率bdの確率分布に従って、遷移確率bdをサンプリングにより決定するステップと、
    前記重みベクトル推論手段によって、前記L個の音響イベントlの各々について、前記一次元配列XlN^、前記二次元配列U^、前記一次元配列w^、及び前記パラメータαに基づいて、事後確率が最大となるように前記一次元配列w^を求めるステップと、
    前記精度パラメータ推論手段によって、前記L個の音響イベントlの各々について、前記一次元配列w^に基づく前記パラメータαlの確率分布に従って、前記パラメータαをサンプリングにより決定するステップと、
    前記収束判定手段によって、予め定められた収束条件を満たすまで、前記音源分離手段、前記状態系列推論手段、前記基底スペクトル推論手段、前記アクティベーション推論手段、前記遷移確率推論手段、前記重みベクトル推論手段、及び前記精度パラメータ推論手段による各処理を繰り返し行い、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、前記二次元配列U^、及び前記L個の音響イベントlの各々の前記一次元配列w^を出力するステップと、
    を含む音響信号分析方法。
  2. 音響イベントラベル推論手段によって、前記L個の音響イベントlの各々について、前記二次元配列U^、前記一次元配列XlN^、前記精度パラメータα、及び前記一次元配列w^に基づいて、各時刻tのパラメータXl,tの予測確率を算出し、前記予測確率に基づいて、各時刻tのパラメータXl,tの値を求めるステップを更に含む請求項1記載の音響信号分析方法。
  3. 前記初期値設定手段によって、初期値を設定するステップは、
    前記予め定められたD個の音響要素dの各々における基底の状態数を1とし、全てのパラメータHω,d (1)が非負値であり、全てのパラメータUd,tが非負値である、という条件の下で、前記パラメータHω,d (1)と前記パラメータUd,tとの積を、全てのdについて足し合わせたモデルについて、前記音響特徴量抽出手段によって出力された音響特徴量Yω,tと前記モデルとの距離を表わした目的関数の値が小さくなるように、前記パラメータHω,d (1)及び前記パラメータUd,tの各々を推定し、前記推定された前記パラメータUd,tの各々を二値化することにより、前記三次元配列H^及び前記二次元配列U^の初期値を設定すると共に、前記パラメータZd,tの各々を1とした二次元配列Z^の初期値を設定する請求項1又は2記載の音響信号分析方法。
  4. 複数の音響要素が混在する音響信号の時系列データを入力として、音響特徴量Yω,t(ωは周波数、tは時刻のインデックスである。)を要素にもつ二次元配列Y^を出力する音響特徴量抽出手段と、
    予め定められたD個の音響要素dの各々における所定の基底の状態kの基底スペクトルを表わすパラメータHω,d (k)を要素にもつ三次元配列H^、前記D個の音響要素の各々に対する各時刻tの発音の有無を表すパラメータUd,t(={0、1})を要素にもつ二次元配列U^、及び前記D個の音響要素dの各々に対して各時刻tに前記基底の状態が何れであるかを表わすパラメータZd,tを要素にもつ二次元配列Z^、予め定められたL個の音響イベントlの各々に対する前記D個の音響要素dの各々の重みwl,dを要素にもつ一次元配列w^、前記L個の音響イベントlの各々に対する精度パラメータαの各々の初期値を設定すると共に、前記D個の音響要素dの各々について、前記パラメータUd,tが0から1へ遷移する遷移確率ad(a1>a2>・・・>aD-1>aD)、及び前記パラメータUd,tが1から1へ遷移する遷移確率bdの各々の初期値を設定するパラメータ初期値設定手段と、
    (ω、t、d)の全ての組み合わせについて、前記二次元配列Z^、前記三次元配列H^、及び前記二次元配列U^に基づいてパラメータpω,t,dを算出し、算出した各パラメータpω,t,dと、前記二次元配列Y^とをパラメータとする多項分布に従って、D個の音響要素dの各々に対する音響特徴量成分Cω,t,dを要素にもつ三次元配列C^をサンプリングにより決定する音源分離手段と、
    前記D個の音響要素dの各々について、前記二次元配列Z^、前記三次元配列C^,及び前記二次元配列U^に基づいて、各時刻tに前記基底の状態が各状態kである事後確率、及び各時刻tに前記基底の状態が新規の状態である事後確率を算出し、算出した事後確率に従って、前記二次元配列Z^をサンプリングにより決定する状態系列推論手段と、
    (k、ω、d)の全ての組み合わせについて、前記二次元配列Z^及び前記三次元配列C^に基づいて、パラメータφω,d (k)、ψω,d (k)を算出し、算出したパラメータφω,d (k)、ψω,d (k)をパラメータとする確率分布に従って、前記三次元配列H^をサンプリングにより決定する基底スペクトル推論手段と、
    (d、t)の全ての組み合わせについて、予め与えられた前記L個の音響イベントlの各々に対する一部の時刻tnの各々の音響イベントの有無を表すパラメータXl,tn(={0、1})を要素にもつ一次元配列XlN^、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、及び前記遷移行列ad,bd、及び前記一次元配列w^に基づいて、パラメータUd,tの事後分布を算出し、算出したパラメータUd,Tの事後分布に従って、Ud,Tをサンプリングにより決定し、t=T−1,・・・,1について、算出したパラメータUd,tの事後分布と、前記遷移行列ad,bdに基づく事後分布p(Ud,t+1|Ud,t)との積に従って、Ud,tをサンプリングにより決定することにより、前記二次元配列U^を求めるアクティベーション推論手段と、
    前記D個の音響要素dの各々について、前記遷移確率ad-1、ad+1及び前記二次元配列U^に基づく遷移確率adの確率分布に従って、遷移確率adをサンプリングにより決定し、前記遷移確率aDに基づく遷移確率adの確率分布に従って、遷移確率aDをサンプリングにより決定すると共に、前記D個の音響要素dの各々について、前記二次元配列U^に基づく遷移確率bdの確率分布に従って、遷移確率bdをサンプリングにより決定する遷移確率推論手段と、
    前記L個の音響イベントlの各々について、前記一次元配列XlN^、前記二次元配列U^、前記一次元配列w^、及び前記パラメータαに基づいて、事後確率が最大となるように前記一次元配列w^を求める重みベクトル推論手段と、
    前記L個の音響イベントlの各々について、前記一次元配列w^に基づく前記パラメータαlの確率分布に従って、前記パラメータαをサンプリングにより決定する精度パラメータ推論手段と、
    予め定められた収束条件を満たすまで、前記音源分離手段、前記状態系列推論手段、前記基底スペクトル推論手段、前記アクティベーション推論手段、前記遷移確率推論手段、前記重みベクトル推論手段、及び前記精度パラメータ推論手段による各処理を繰り返し行い、前記三次元配列C^、前記二次元配列Z^、前記三次元配列H^、前記二次元配列U^、及び前記L個の音響イベントlの各々の前記一次元配列w^を出力する収束判定手段と、
    を含む音響信号分析装置。
  5. 請求項1〜請求項3の何れか1項記載の音響信号分析方法を構成する各ステップをコンピュータに実行させるためのプログラム。
JP2013035051A 2013-02-25 2013-02-25 音響信号分析方法、装置、及びプログラム Pending JP2014164126A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013035051A JP2014164126A (ja) 2013-02-25 2013-02-25 音響信号分析方法、装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013035051A JP2014164126A (ja) 2013-02-25 2013-02-25 音響信号分析方法、装置、及びプログラム

Publications (1)

Publication Number Publication Date
JP2014164126A true JP2014164126A (ja) 2014-09-08

Family

ID=51614771

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013035051A Pending JP2014164126A (ja) 2013-02-25 2013-02-25 音響信号分析方法、装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP2014164126A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018097791A (ja) * 2016-12-16 2018-06-21 富士電機株式会社 プロセス監視装置、プロセス監視システム及びプログラム
JP2019178889A (ja) * 2018-03-30 2019-10-17 日本電気株式会社 ソーナー装置、音響信号判別法、及びプログラム
WO2020054822A1 (ja) * 2018-09-13 2020-03-19 LiLz株式会社 音解析装置及びその処理方法、プログラム
JP2020071866A (ja) * 2018-11-01 2020-05-07 楽天株式会社 情報処理装置、情報処理方法及びプログラム
CN111199749A (zh) * 2018-11-20 2020-05-26 松下电器(美国)知识产权公司 行为识别方法、装置,机器学习方法、装置以及记录介质
US10679646B2 (en) 2016-06-16 2020-06-09 Nec Corporation Signal processing device, signal processing method, and computer-readable recording medium
JP2020525814A (ja) * 2019-01-11 2020-08-27 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 秘密分散を使用したロジスティック回帰モデリング方式
US10817719B2 (en) 2016-06-16 2020-10-27 Nec Corporation Signal processing device, signal processing method, and computer-readable recording medium
US11232169B2 (en) 2016-06-06 2022-01-25 Advanced New Technologies Co., Ltd. Processing image data of a webpage
US12020715B2 (en) 2021-03-17 2024-06-25 Electronics And Telecommunications Research Institute Method and apparatus for label encoding in polyphonic sound event intervals

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11250095B2 (en) 2016-06-06 2022-02-15 Advanced New Technologies Co., Ltd. Processing image data of a webpage
US11232169B2 (en) 2016-06-06 2022-01-25 Advanced New Technologies Co., Ltd. Processing image data of a webpage
US10817719B2 (en) 2016-06-16 2020-10-27 Nec Corporation Signal processing device, signal processing method, and computer-readable recording medium
US10679646B2 (en) 2016-06-16 2020-06-09 Nec Corporation Signal processing device, signal processing method, and computer-readable recording medium
JP2018097791A (ja) * 2016-12-16 2018-06-21 富士電機株式会社 プロセス監視装置、プロセス監視システム及びプログラム
JP2019178889A (ja) * 2018-03-30 2019-10-17 日本電気株式会社 ソーナー装置、音響信号判別法、及びプログラム
JP7000963B2 (ja) 2018-03-30 2022-01-19 日本電気株式会社 ソーナー装置、音響信号判別法、及びプログラム
JPWO2020054822A1 (ja) * 2018-09-13 2021-04-01 LiLz株式会社 音解析装置及びその処理方法、プログラム
JP2021119401A (ja) * 2018-09-13 2021-08-12 LiLz株式会社 音解析装置及びその処理方法、プログラム
WO2020054822A1 (ja) * 2018-09-13 2020-03-19 LiLz株式会社 音解析装置及びその処理方法、プログラム
JP2020071866A (ja) * 2018-11-01 2020-05-07 楽天株式会社 情報処理装置、情報処理方法及びプログラム
JP7178331B2 (ja) 2018-11-01 2022-11-25 楽天グループ株式会社 情報処理装置、情報処理方法及びプログラム
CN111199749A (zh) * 2018-11-20 2020-05-26 松下电器(美国)知识产权公司 行为识别方法、装置,机器学习方法、装置以及记录介质
CN111199749B (zh) * 2018-11-20 2024-05-24 松下电器(美国)知识产权公司 行为识别方法、装置,机器学习方法、装置以及记录介质
JP2020525814A (ja) * 2019-01-11 2020-08-27 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 秘密分散を使用したロジスティック回帰モデリング方式
US12020715B2 (en) 2021-03-17 2024-06-25 Electronics And Telecommunications Research Institute Method and apparatus for label encoding in polyphonic sound event intervals

Similar Documents

Publication Publication Date Title
JP2014164126A (ja) 音響信号分析方法、装置、及びプログラム
Alnuaim et al. Speaker gender recognition based on deep neural networks and ResNet50
Ycart et al. A study on LSTM networks for polyphonic music sequence modelling
Alkhawaldeh DGR: Gender Recognition of Human Speech Using One‐Dimensional Conventional Neural Network
Huang et al. Joint optimization of masks and deep recurrent neural networks for monaural source separation
Chung et al. A recurrent latent variable model for sequential data
Ntalampiras Bird species identification via transfer learning from music genres
Herremans et al. Modeling musical context with word2vec
Sigtia et al. A hybrid recurrent neural network for music transcription
Guha et al. Hybrid feature selection method based on harmony search and naked mole-rat algorithms for spoken language identification from audio signals
Ohishi et al. Bayesian semi-supervised audio event transcription based on Markov Indian buffet process
Huang et al. Large-scale weakly-supervised content embeddings for music recommendation and tagging
Raghuram et al. Bird classification based on their sound patterns
CN115662435B (zh) 一种虚拟教师拟真化语音的生成方法及终端
Ycart et al. Polyphonic music sequence transduction with meter-constrained LSTM networks
Shah et al. Raga recognition in indian classical music using deep learning
Ntalampiras Generalized sound recognition in reverberant environments
Boulanger-Lewandowski et al. Exploiting long-term temporal dependencies in NMF using recurrent neural networks with application to source separation
Liu et al. Birdsong classification based on multi feature channel fusion
Deshmukh et al. Improving weakly supervised sound event detection with self-supervised auxiliary tasks
Wang et al. Automated call detection for acoustic surveys with structured calls of varying length
Parekh et al. Tackling interpretability in audio classification networks with non-negative matrix factorization
Roger et al. Unsupervised bioacoustic segmentation by hierarchical Dirichlet process hidden Markov model
JP5771582B2 (ja) 音響信号分析装置、方法、及びプログラム
Zubair et al. Audio classification based on sparse coefficients