JP6448567B2 - 音響信号解析装置、音響信号解析方法、及びプログラム - Google Patents

音響信号解析装置、音響信号解析方法、及びプログラム Download PDF

Info

Publication number
JP6448567B2
JP6448567B2 JP2016031801A JP2016031801A JP6448567B2 JP 6448567 B2 JP6448567 B2 JP 6448567B2 JP 2016031801 A JP2016031801 A JP 2016031801A JP 2016031801 A JP2016031801 A JP 2016031801A JP 6448567 B2 JP6448567 B2 JP 6448567B2
Authority
JP
Japan
Prior art keywords
time
base
frequency
spectrum
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016031801A
Other languages
English (en)
Other versions
JP2017152825A (ja
Inventor
弘和 亀岡
弘和 亀岡
直毅 村田
直毅 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
University of Tokyo NUC
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, University of Tokyo NUC, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016031801A priority Critical patent/JP6448567B2/ja
Publication of JP2017152825A publication Critical patent/JP2017152825A/ja
Application granted granted Critical
Publication of JP6448567B2 publication Critical patent/JP6448567B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音響信号解析装置、音響信号解析方法、及びプログラムに係り、特に、複数のマイクロホンで取得した音響信号を用いて、残響除去と音源分離を行うための音響信号解析装置、方法、及びプログラムに関する。
複数のマイクロホンで取得した多チャネル信号を処理し、音源の空間情報を手がかりにして音源分離などを行う枠組をマイクロホンアレー信号処理という。
近年、マイクロホンアレー信号処理に関して、ボイスレコーダ、ノートパソコン、スマートフォン、及びビデオカメラ等の身の回りにある様々な録音機器による多チャンネル録音を用いた、アドホックマイクロホンアレーの研究が盛んに行われている。アドホックマイクロホンアレーを用いた場合、特殊な装置や配線を要する従来のマイクロホンアレーを用いた場合に比べて手軽かつ安価にマイクロホンアレーシステムを構築できるため、注目を集めている。
従来のマイクロホンアレーで商用化されているものの多くは、各マイクロホンが小規模に集中配置されているため、録音チャンネル間の音声信号の時間差が音源分離のための手がかりとなるのに対し、アドホックマイクロホンアレーを用いた場合、従来のマイクロホンアレーに比べてマイクロホンを広範囲に分散して配置することが容易となるため、録音チャンネル間の時間差に加えて、更に音声信号の強度比も音源分離のための手がかりとなる。
一般に、音声信号に残響及び雑音が重畳され、観測信号が得られるプロセスを順問題と捉えると、アドホックマイクロホンアレーで集音した観測信号から目的音声のみを分離抽出する問題は逆問題とみなすことができる。雑音、或いは室内伝達系の情報が未知の場合で、且つ、マイクロホン数より音源数が多いという劣決定条件の場合、この逆問題には解が無数に存在しうるため、解を絞り込むための何らかの仮定が必要となる。
一方、近年、劣決定条件における音源分離手法の一例として、非負値行列因子分解(Non-negative Matrix Factorization: NMF) の多チャンネル拡張を用いたアプローチが注目されている(非特許文献1、2)。
NMF とは、非負値行列を二つの非負値行列(基底行列と係数行列)の積に分解することをいい、スペクトログラムを非負値行列と見なしてNMF を適用することはスペクトログラムを低ランクの非負値行列で近似することに相当し、各時刻のスペクトルを基底行列の列数分のスペクトルテンプレートの非負結合で説明しようとしていることを意味する。そして、NMF の多チャンネル拡張は、各音源のパワースペクトログラムにこの構造を仮定した多チャンネル音源分離手法の一例である。なお、音源数よりマイクロホン数が多いという過剰決定条件でのNMF の多チャンネル拡張の例も提案されている(非特許文献3)。
A. Ozerov and C. F_evotte, "Multichannel nonnegative matrix factorization in convolutive mixtures for audio source separation," IEEE Transactions on Audio, Speech and Language Processing, vol.18, no. 3, pp. 550-563, 2010. A. Ozerov, C. F_evotte, R. Blouet and J.L. Durrieu, "Multichannel nonnegative tensor factorization with structured constraints for user-guided audio source separation," in Proc. 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP2011), pp. 257-260, 2011. Hirokazu Kameoka, Takuya Yoshioka, Mariko Hamamura, Jonathan Le Roux, Kunio Kashino,"Statistical model of speech signals based on composite autoregressive system with application to blind source separation," in Proc. 9th International Conference on Latent Variable Analysis and Signal Separation (LVA/ICA 2010), LNCS 6365, pp. 245-253, Sep. 2010. T. Yoshioka, Tomohiro Nakatani, Masato Miyoshi, and Hiroshi G. Okuno, "Blind separation and dereverberation of speech mixtures by joint optimization," IEEE Transactions on Audio, Speech and Language Processing, vol. 19, no. 1, pp. 69-84, 2011.
上述した従来のアプローチでは、室内伝達系に時不変性などの制約が置かれ、その条件の下で逆問題が定式化されるが、アドホックマイクロホンアレーの枠組では手軽にアレーシステムが構築できる利点がある一方で、各マイクロホンの位置は固定されないため音源及びマイクロホンの相対位置関係が録音中に変化しやすいという脆弱性を有している。このように録音中に音源及びマイクロホンの相対位置関係が変化する場合、室内伝達系に対する上述の仮定が成立しなくなり、当該仮定の下で設計されたアルゴリズムは、音源分離に関して高い性能を発揮できなくなるという問題があった。
本発明は、上記の事情を鑑みてなされたものであり、音源及びマイクロホンの相対位置関係が変化する時変残響環境下であっても、複数の音源の音声が重畳した観測信号から、各音源信号を精度よく分離することができる音響信号解析装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る音響信号解析装置は、J本の各マイクロホンjで集音した音響信号の時系列データを入力として、各時刻lにおける各周波数kの観測信号時間周波数成分yj,k,lを出力する時間周波数解析部と、音源iから前記マイクロホンjまでの時刻nだけ遅延して集音される伝達特性を表す時変ステアリングベクトルの振幅成分Aj,i,k,n、複数フレームのスペクトルを連結したスペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底スペクトルWi,k,m,τ、前記スペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底オンセットHi,m,τの各々に初期値を設定する初期値設定部と、(j,k,l)の全ての組み合わせにおける、前記観測信号時間周波数成分yj,k,lと、前記スペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底スペクトルWi,k,m,τ、前記スペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底オンセットHi,m,τ、各音源i及び各時刻nの前記振幅成分Aj,i,k,nに基づいて算出される前記マイクロホンjのパワースペクトログラムモデルXj,k,lとの距離が小さくなるように、前記基底スペクトルWi,k,m,τと、前記基底オンセットHi,m,τと、前記振幅成分Aj,i,k,nとを更新するパラメータ更新部と、予め定められた終了条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う終了判定部と、を含んで構成されている。
本発明に係る音響信号解析方法は、時間周波数解析部と、初期値設定部と、パラメータ更新部と、終了判定部とを含む音響信号解析装置における音響信号解析方法であって、前記時間周波数解析部が、J本の各マイクロホンjで集音した音響信号の時系列データを入力として、各時刻lにおける各周波数kの観測信号時間周波数成分yj,k,lを出力し、前記初期値設定部が、音源iから前記マイクロホンjまでの時刻nだけ遅延して集音される伝達特性を表す時変ステアリングベクトルの振幅成分Aj,i,k,n、複数フレームのスペクトルを連結したスペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底スペクトルWi,k,m,τ、前記スペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底オンセットHi,m,τの各々に初期値を設定し、前記パラメータ更新部が、(j,k,l)の全ての組み合わせにおける、前記観測信号時間周波数成分yj,k,lと、前記スペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底スペクトルWi,k,m,τ、前記スペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底オンセットHi,m,τ、各音源i及び各時刻nの前記振幅成分Aj,i,k,nに基づいて算出される前記マイクロホンjのパワースペクトログラムモデルXj,k,lとの距離が小さくなるように、前記基底スペクトルWi,k,m,τと、前記基底オンセットHi,m,τと、前記振幅成分Aj,i,k,nとを更新し、前記終了判定部が、予め定められた終了条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う。
本発明に係るプログラムは、上記の音響信号解析装置の各部としてコンピュータを機能させるためのプログラムである。
以上説明したように、本発明の音響信号解析装置、方法、及びプログラムによれば、観測信号時間周波数成分yj,k,lと、スペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底スペクトルWi,k,m,τ、スペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底オンセットHi,m,τ、各音源i及び各時刻nにおける時変ステアリングベクトルの振幅成分Aj,i,k,nに基づいて算出されるマイクロホンjのパワースペクトログラムモデルXj,k,lとの距離が小さくなるように、基底スペクトルWi,k,m,τと、基底オンセットHi,m,τと、振幅成分Aj,i,k,nとを更新することを繰り返すことにより、複数の音源の音声が重畳した観測信号から、各音源信号を精度よく分離することができる、という効果が得られる。
本発明の実施の形態に係る音響信号解析装置の構成を示す概略図である。 本発明の実施の形態に係る音響信号解析装置における音響信号解析処理ルーチンの内容を示すフローチャートである。 音響信号解析装置の評価実験を実施する部屋の環境を示す図である。 音響信号解析装置の評価実験における、壁の反射係数に対するSource to Distortion Ratio(SDR)の変化の一例を示すグラフである。 音響信号解析装置の評価実験における、伝達系への外乱に対するSDRの変化の一例を示すグラフである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
(発明の原理)
まず、本発明の提案モデルについて説明する。
(時間周波数領域における畳み込み混合モデル)
音源からマイクロホンアレーへの伝達系が線形時不変であり、また、残響成分が時間周波数解析の窓長内に収まっていると仮定できる場合、マイクロホンアレーで得られる信号は音源の瞬時混合で記述することができる。
一方、窓長を超える残響成分が無視できない状況下では、マイクロホンで観測される観測信号は、例えば、非特許文献4に示されているように、時間周波数領域の畳み込み混合モデルを用いて(1)式のように表される。
ここで、変数i、kは、それぞれ音源と周波数のインデックスを表し、l、nは時間フレームのインデックスを表す。y^k,l∈Cは、マイクロホンアレーで観測される観測信号ベクトルであり、jはマイクロホンのインデックスを表し、Jはマイクロホン数を表す。a^i,k,nは、各音源からマイクロホンへのステアリングベクトルであり、時間がnフレーム遅れて到来する反響成分に対応するものとする。また、si,k,lは、各音源の時間周波数領域における複素スペクトログラムである。以降、ベクトル、行列又は確率変数を表す変数には“^”を付すものとする。
今、音源或いはマイクロホンの位置が時間変化すると仮定した場合、ステアリングベクトルa^i,k,nは時刻lに依存し、(1)式の混合過程は、(2)式のような時変ステアリングベクトルa^i,k,n,lを用いて表される。
ここで、各音源iの複素スペクトログラムが複素ガウス分布に従う、すなわち、si,k,l〜N(0,Pi,k,l)と仮定すれば、マイクロホンでの観測信号ベクトルy^k,lは、(3)式に示す分布に従う。なお、Pi,k,lは、音源iの時刻lにおけるパワースペクトログラムを表し、a^H i,k,n,lは、時変ステアリングベクトルa^i,k,n,lのエルミート転置を表す。
ここで、時変ステアリングベクトルa^ i,k,n,lを絶対値と偏角の要素に分解して表した式を(4)式に示す。
今、音源或いはマイクロホンの微小移動等、音響信号解析環境の軽微な変化については、時変ステアリングベクトルa^ i,k,n,lの振幅成分を時不変、位相成分を時変と仮定する特殊な時変系を設定し、このような混合過程を「半時変形」と呼ぶことにする。すなわち、|a^j,i,k,n,l|は時刻lに依存しないことになる。したがって、|a^j,i,k,n,l|=Aj,i,k,nとすれば、(4)式は(5)式のように表すことができる。
(5)式を(3)式に代入すれば、(6)式が得られる。
(非負値テンソル二重畳み込みモデル)
アドホックマイクロホンアレーでは、アレー素子が非同期であることによる音声信号のサンプリング周波数の僅かなずれ、並びに音源或いはマイクロホンの僅かな位置の変化が、通常のマイクロホンアレーに比べて起こりやすいため、半時変系の混合過程として取り扱う必要がある。
半時変系の混合過程を取り扱う際の一つの解決策は、時変ステアリングベクトルa^i,k,n,lの時間変化量をオンラインで推定して補償した後に、公知のアレー信号処理を適用することである。
一方、時変ステアリングベクトルa^i,k,n,lの位相成分を確率的に変動する確率変数として扱う方法も考えられるが、ここでは、後者の考え方にしたがって、時変ステアリングベクトルa^i,k,n,lの位相成分に、次の2つの条件を設定する。
(条件1)φj,i,k,n,lとφj',i,k,n,l'(j≠j'またはl≠l')は互いに独立である
(条件2)φj,i,k,n,lは区間[0,2π)で一様分布に従う。
(条件1)及び(条件2)の下で位相成分φj,i,k,n,lに関して周辺化を行うと、E[ψ^i,k,n,l ψ^H i,k,n,l]は単位行列となるため、(6)式は(7)式のように表される。
次に、音源iのパワースペクトログラムPi,k,lについて検討する。
周波数のインデックスkの最大値をK、及び時間フレームのインデックスlの最大値をLとすれば、NMFの多チャンネル拡張では、K行L列で表されるパワースペクトログラムベクトルP^i=(Pi,k,l)K×Lを2つの非負値行列の積で表される。これは、音源iの時刻lにおけるパワースペクトログラムPi,k,lが、限られた数のスペクトルテンプレートの非負結合で表されるという仮定に基づくものである。
しかし、音声には単一の時間フレームlにおけるスペクトルのみならず、そのダイナミクス、すなわち、局所的な時間変化パターンに大きな特徴があるものと考えられる。したがって、各時間フレームlにおけるスペクトルを音声を構成する要素と考えるよりも、複数の時間フレームlに亘るスペクトルを連結したものを、音声を構成する要素単位とみなした方が、音声をより特徴付けた好ましい表現と考えることができる。
そこで、本実施の形態では、複数の時間フレームlに亘るスペクトルを連結したスペクトログラム素片のテンプレートとアクティベーション系列とを畳み込む混合モデルによって、パワースペクトログラムPi,k,lのモデル化を行う。具体的には、公知の非負値行列因子逆畳み込み(Nonnegative Matrix Factor Deconvolution:NMFD)の考え方を、パワースペクトログラムPi,k,lのモデル化に適用する。この場合、音源iの時刻lにおけるパワースペクトログラムPi,k,lは(8)式で表される。
ここで、Wi,k,m,τは音源iのパワースペクトログラムPi,k,lの基底スペクトルを表し、Hi,m,lは基底オンセットを表す。また、変数mは基底のインデックスを表し、変数τは時間フレームのインデックスを表す。なお、τ={0}({x}は、“x”が集合の要素に含まれていることを示す)の場合は、NMFを用いた混合モデルに一致する。
(パラメータ推定)
次に、最尤推定を用いたパラメータ推定について説明する。まず、(7)式の対数尤度関数の負値をCMLとして(9)式のように定義する。なお、Y^は、観測信号yj,k,lに対応する確率変数、P^は、パワースペクトログラムPi,k,lに対応する確率変数、及びA^は、時変ステアリングベクトルa^i,k,n,lの絶対値に対応する確率変数である。また、観測信号yj,k,lは、観測信号時間周波数成分の一例である。
(9)式を用いてCMLを具体的に計算すれば(10)式が得られる。
ここで、記号=cは、定数項以外の他の項は等しいことを表す。
すなわち、最尤推定を用いたパラメータ推定は、マイクロホンjの観測パワースペクトログラムYj,k,lと、音源iのパワースペクトログラムPi,k,lとして(8)式を適用した場合における、マイクロホンjのパワースペクトログラムモデルXj,k,lとの板倉斎藤距離の最小化問題に帰着し、目的関数である(11)式をAi,j,k,n≧0、Wi,k,m,τ≧0、及びHi,m,τ≧0の制約の下で最適化する問題になる。
そこで、(11)式を公知の補助関数法の原理に基づいて最適化する。なお、ここでは、板倉斎藤距離を内包した、より一般的な乖離度規準であるβダイバージェンスを規準として最適化アルゴリズムを導出する。
最適化アルゴリズムの詳細な導出過程の説明は省略するが、(11)式で表される目的関数に対して、Jensenの不等式と接線不等式とを用いて補助関数を設計することで、(13)〜(15)式に示す乗法更新式を得ることができる。
ただし、ρ(β)は、βの値に応じて設定される値であり、(16)式で定義される。
(システム構成)
次に、アドホックマイクロホンアレーで取得した、伝達系への外乱及び残響成分が重畳された複数の音源の観測信号を解析して、複数の音源の各々の音源信号に分離する音響信号解析装置に本発明を適用した場合を例にして、本発明の実施の形態を説明する。
図1に示すように、本発明の実施の形態に係る音響信号解析装置は、CPUと、RAMと、後述する音響信号解析処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
音響信号解析装置100は、入力部10と、演算部20と、記憶部30と、出力部40とを備えている。
入力部10により、伝達系への外乱及び残響成分が重畳された複数の音源iを含む観測信号yj[l]の時系列データが入力される。記憶部30は、入力部10により入力された観測信号yj[l]の時系列データを記憶する。また、記憶部30は、後述する各処理での結果を記憶すると共に、本処理ルーチンで用いる各パラメータの初期値を記憶している。
演算部20は、時間周波数解析部21と、初期設定部22と、パラメータ更新部23と、終了判定部24と、信号変換部25とを備えている。
時間周波数解析部21は、例えばマイクロホンjの時系列信号としての観測された観測信号yj[l]を入力として、マイクロホンjの観測パワースペクトログラムYj,k,lを計算する。また、計算したマイクロホンjの観測パワースペクトログラムYj,k,lを、記憶部30に記憶しておく。より詳細には、時間周波数解析部21は、例えばマイクロホンjで観測された観測信号の時系列データを入力として、短時間フーリエ変換(Short-Time Fourier Transform:STFT)を用いて時間周波数解析を行うことにより、マイクロホンjの観測パワースペクトログラムYj,k,lを計算する。
初期設定部22は、後述する処理で用いる各パラメータAj,i,k,n、Wi,k,m,τ、及びHi,m,τの各初期値を設定する。なお、各パラメータの初期値は、例えば乱数を用いて適当な値に設定すればよい。この場合、Aj,i,k,n、Wi,k,m,τ、及びHi,m,τの各パラメータの初期値は非負値となるように設定する。
パラメータ更新部23は、(i、k、l)の全ての組み合わせの各々について、記憶部30に記憶されているWi,k,m,τ及びHi,m,τに基づいて、上記(8)式に従って、音源iのパワースペクトログラムPi,k,lを計算し、記憶部30に格納する。
また、パラメータ更新部23は、(j、k、l)の全ての組み合わせの各々について、記憶部30に記憶されているPi,k,l及びAj,i,k,nに基づいて、上記(12)式に従って、マイクロホンjのパワースペクトログラムモデルXj,k,lを計算し、記憶部30に格納する。
また、パラメータ更新部23は、(j,i,k,n)の全ての組み合わせの各々について、記憶部30に記憶されているYj,k,l、Xj,k,l、Aj,i,k,n、及びPi,k,lに基づいて、上記(11)式の目的関数を小さくするように、(13)式に従って、時変ステアリングベクトルの振幅成分Aj,i,k,nを更新し、記憶部30に格納する。この際、パラメータ更新部23は、更新したAj,i,k,nを用いて、上記(12)式に従って、マイクロホンjのパワースペクトログラムモデルXj,k,lを更新し、記憶部30に格納する。
また、パラメータ更新部23は、(i,k,m,τ)の全ての組み合わせの各々について、記憶部30に記憶されているYj,k,l、Xj,k,l、Aj,i,k,n、Wi,k,m,τ、及びHi,m,τに基づいて、上記(11)の目的関数を小さくするように、(14)式に従って、音源iのパワースペクトログラムPi,k,lの基底スペクトルWi,k,m,τを更新し、記憶部30に格納する。この際、パラメータ更新部23は、更新したWi,k,m,τを用いて、上記(8)式及び(12)式に従って、音源iのパワースペクトログラムPi,k,l及びマイクロホンjのパワースペクトログラムモデルXj,k,lを更新し、記憶部30に格納する。
更に、パラメータ更新部23は、(i,m,τ)の全ての組み合わせの各々について、記憶部30に記憶されているYj,k,l、Xj,k,l、Aj,i,k,n、Hi,m,τ、及びWi,k,m,τに基づいて、上記(11)の目的関数を小さくするように、(15)式に従って、音源iのパワースペクトログラムPi,k,lの基底オンセットHi,m,τを更新し、記憶部30に格納する。この際、パラメータ更新部23は、更新したHi,m,τを用いて、上記(8)式及び(12)式に従って、音源iのパワースペクトログラムPi,k,l及びマイクロホンjのパワースペクトログラムモデルXj,k,lを更新し、記憶部30に格納する。
終了判定部24は、予め定められた終了条件を満足するか否かを判定し、終了条件を満足していない場合には、パラメータ更新部23の各処理を繰り返す。終了判定部24は、終了条件を満足したと判定した場合には、信号変換部25による処理に移行する。
信号変換部25は、記憶部30に記憶されている音源iのパワースペクトログラムPi,k,lの基底スペクトルWi,k,m,τ、及び音源iのパワースペクトログラムPi,k,lの基底オンセットHi,m,τに基づいて、複数の音源iの各々について、当該音源iの音源信号を生成して出力部40に出力する。出力部40は、複数の音源iの各々の音源信号を出力する。
なお、終了条件としては、繰り返し回数がL-1回目の目的関数(11)式の値と、繰り返し回数がL回目の目的関数(11)式の値との差が、予め定めた閾値よりも小さくなったことを用いればよい。あるいは、終了条件として、繰り返し回数が、予め定められた上限回数に到達したことを用いてもよい。
(音響信号解析装置の作用)
次に、本実施の形態に係る音響信号解析装置100の作用について説明する。J本のマイクロホンjからなるアドホックマイクロホンアレーで取得された、伝達系への外乱及び残響成分が重畳された複数の音源iを含む観測信号yj[l]の時系列データが、音響信号解析装置100に入力され、記憶部30に格納される。そして、音響信号解析装置100において、図2に示す音響信号解析処理ルーチンが実行される。
まず、ステップS100において、記憶部30から、観測信号yj[l]を読み込み、当該観測信号yj[l]に対して、短時間フーリエ変換を用いた時間周波数分析を行い、マイクロホンjの観測パワースペクトログラムYj,k,lを算出すると共に、得られたマイクロホンjの観測パワースペクトログラムYj,k,lを記憶部30に記憶する。
そして、ステップS102において、乱数を用いて、Aj,i,k,n、Wi,k,m,τ、及びHi,m,τの各初期値を設定して、記憶部30に記憶する。
次に、ステップS104では、ステップS102で設定されたWi,k,m,τ及びHi,m,τに基づいて、上記(8)式に従って、音源iのパワースペクトログラムPi,k,lを各(i、k、l)の組み合わせについて算出して、記憶部30に格納する。更に、ステップS104では、ステップS102で設定されたAj,i,k,nと、本ステップで算出されたPi,k,lに基づいて、上記(12)式に従って、マイクロホンjのパワースペクトログラムモデルXj,k,lを各(j、k、l)の組み合わせについて算出して、記憶部30に格納する。
ステップS106では、ステップS100で算出されたYj,k,lと、ステップS102で設定されたAj,i,k,nと、ステップS104で算出されたPi,k,l及びXj,k,lに基づいて、上記(12)式に従って、時変ステアリングベクトルの振幅成分Aj,i,k,nを各(j、i、k、n)の組み合わせについて更新して、記憶部30に格納する。
ステップS108では、ステップS106で更新されたAj,i,k,nと、ステップS104で算出したPi,k,lに基づいて、(12)式に従って、マイクロホンjのパワースペクトログラムモデルXj,k,lを各(j、k、l)の組み合わせについて更新して、記憶部30に格納する。
ステップS110では、ステップS100で算出されたYj,k,lと、ステップS108で更新されたXj,k,lと、ステップS106で更新されたAj,i,k,nと、ステップS102で設定されたHi,m,τ及びWi,k,m,τに基づいて、(14)式に従って、音源iのパワースペクトログラムPi,k,lの基底スペクトルWi,k,m,τを各(i、k、m、τ)の組み合わせについて更新して、記憶部30に格納する。
ステップS112では、ステップS110で更新されたWi,k,m,τと、ステップS102で設定されたHi,m,τに基づいて、(8)式に従って、音源iのパワースペクトログラムPi,k,lを各(i、k、l)の組み合わせについて更新して、記憶部30に格納する。また、本ステップで更新されたPi,k,lと、ステップS106で更新されたAj,i,k,nに基づいて、(12)式に従って、マイクロホンjのパワースペクトログラムモデルXj,k,lを各(j、k、l)の組み合わせについて更新して、記憶部30に格納する。
ステップS114では、ステップS100で算出されたYj,k,lと、ステップS102で設定されたHi,m,τと、ステップS112で更新されたXj,k,lと、ステップS106で更新されたAj,i,k,nと、ステップS110で更新されたWi,k,m,τに基づいて、(15)式に従って、音源iのパワースペクトログラムPi,k,lの基底オンセットHi,m,τを各(i、m、τ)の組み合わせについて更新して、記憶部30に格納する。
ステップS116では、ステップS110で更新されたWi,k,m,τと、ステップS114で更新されたHi,m,τに基づいて、(8)式に従って、音源iのパワースペクトログラムPi,k,lを各(i、k、l)の組み合わせについて更新して、記憶部30に格納する。また、本ステップで更新されたPi,k,lと、ステップS106で更新されたAj,i,k,nに基づいて、(12)式に従って、マイクロホンjのパワースペクトログラムモデルXj,k,lを各(j、k、l)の組み合わせについて更新して、記憶部30に格納する。
次のステップS118では、ステップS100で算出したYj,k,lと、ステップS116で更新されたXj,k,lに基づいて、(11)式に従って、目的関数の値を算出して、記憶部30に記憶する。そして、前回のステップS118で算出した目的関数の値を記憶部30から読み込み、今回のステップS118で算出した目的関数の値と、前回のステップS108で算出した目的関数の値との差分が、予め記憶部30に記憶されている予め定められた閾値よりも小さいか否かを判定し、差分が予め定められた閾値以上の場合には、終了条件を満足していないと判断して、上記ステップS106へ戻り、上記ステップS106〜ステップS118の処理を繰り返す。
一方、差分が予め定められた閾値未満の場合には、終了条件を満足したと判断して、ステップS120で、記憶部30に記憶されている音源iのパワースペクトログラムPi,k,lの基底スペクトルWi,k,m,τ、及び音源iのパワースペクトログラムPi,k,lの基底オンセットHi,m,τに基づいて、複数の音源iの各々について、当該音源iの音源信号を生成して出力部40から出力して、音響信号解析処理ルーチンを終了する。
(実施結果)
次に、本実施の形態に係る手法の有効性を示す目的で、2つの残響環境下での劣決定条件における音源分離実験を行った。
まず、残響環境下での頑健さの度合いを確認するため、異なる残響の強さを持つ環境での音源分離実験を行った。次に、伝達系への外乱に対する頑健さの度合いを確認するため、マイクロホンの位置が観測信号取得中に変化した場合における音源分離実験を行った。
なお、劣決定条件として、部屋の中に音源数を3つ、マイクロホン数を2つ設置し、部屋の形状と、音源の位置と、マイクロホンの位置から鏡像法を用いてインパルス応答を生成した。
図3に、音源分離実験を行う部屋(以降、単に「部屋」と称す)の形状と、各音源の位置及び各マイクロホンの位置を示す。なお、図3に示すように、部屋は、5m×10mの長方形状の大きさを有し、S1〜S3で示される“×”は音源の位置を、M1及びM2で示される“●”はマイクロホンの位置をそれぞれ示している。
音源分離実験で使用する音源としては、ATR音声対話データベースの3話者15発話を用いた。3話者の音源1〜3のうち、音源1、2の話者は女性であり、音源3の話者は男性である。
また、残響の強さは、部屋の壁の反射係数を調整することで変化させた。具体的には、部屋の壁の反射係数を0.5にした場合、残響時間は60msとなり、部屋の壁の反射係数を0.8にした場合、残響時間は210msとなる。
音源分離実験では、公知の多チャンネルNMF(Multichannel extensions of Non-negative Matrix Factorization:MNMF)を用いた手法と、本実施の形態に係る提案手法を用いた場合とについて比較した。MNMFの場合、瞬時混合モデルが仮定されているため、STFTのフレーム外に残響成分が存在する場合は、性能が低下することが予想される。
また、用意した各話者の15発話のうち、1つの発話を分離用の信号とし、残りの14個の発話を教師データとして事前の学習に用いた。なお、本実施の形態に係る提案手法の事前学習にはNMFD、MNMFにはNMFを用いて、基底スペクトルの学習を行い、各音源1〜3に対して、それぞれ40個と20個の基底を学習した。また、距離尺度としては、一般化KLダイバージェンスを用い、評価指標としては、Source-to-distortion ratio(SDR)を用いた。この際、STFTのフレーム長を32msとし、シフト長は16msとした。
図4に、部屋の壁の反射係数の変化に対する各比較手法の性能の変化の一例を示すグラフを示す。図4に示すグラフの横軸は部屋の壁の反射係数を表すと共に、縦軸はSDRを表し、グラフ50がMNMFを用いた場合、グラフ51が本実施の形態に係る提案手法を用いた場合のグラフを示す。なお、各マイクロホンにおける各音源のSDRを平均した値を、対応する部屋の壁の反射係数に対するSDRとして表している。
図4に示すように、反射係数の低い、瞬時混合モデルが成立しているとみなせる範囲においては、MNMFは本実施の形態に係る提案手法に比べて良い性能を示している。しかし、反射係数が高くなるにしたがって、本実施の形態に係る提案手法では、スペクトログラム素片のテンプレートとアクティベーション系列とを畳み込む混合モデルを採用していることから、残響成分を精度よく推定し、MNMFより良い性能を示す傾向が見られる。
次に、伝達系への外乱に対する頑健さの度合いを確認するため、マイクロホンの位置が観測信号取得中に変化した場合における音源分離実験について説明する。
本実験では、図3に示すマイクロホンM1、M2で取得した観測信号と、マイクロホンM1、M2の位置からそれぞれΔxmずらした位置で取得した観測信号とを繋げることにより、本音源分離実験で用いる観測信号を生成した。この場合、伝達系の振幅成分に比べて、位相成分には大きな外乱が生じることになる。なお、本音源分離実験における部屋の壁の反射係数は0.8に設定した。
図5に、観測信号取得位置のずれ量Δxに対する各比較手法の性能の変化の一例を示すグラフを示す。図5に示すグラフの横軸は観測信号取得位置のずれ量Δxを表すと共に、縦軸はSDRを表し、グラフ52がMNMFを用いた場合、グラフ53が本実施の形態に係る提案手法を用いた場合のグラフを示す。
図5に示すように、MNMFにおける性能を示すグラフ52は、Δxが大きくなるにしたがって、すなわち、外乱が大きくなるにしたがって、SDRの値が大きく落ち込んでいることがわかる。具体的には、Δx=0の場合のSDRに対して、Δx=0.2の場合のSDRは約86%の値まで減少している。
一方、提案手法の場合、Δx=0の場合のSDRに対して、Δx=0.2の場合のSDRは約93%の値までしか減少していない。したがって、本実施の形態に係る提案手法は、MNMFを用いる場合に比べて、伝達系への外乱に対しての音源分離性能の低下が少なく、伝達系への外乱に対する頑健さの度合いが高いということができる。
このように、本発明に係る提案手法では、音源或いはマイクロホンの微小移動等、音響信号解析環境の軽微な変化に対して半時変形モデルを設定し、複数の時間フレームに亘るスペクトルを連結したスペクトログラム素片のテンプレートとアクティベーション系列とを畳み込む混合モデルを適用することで、音源及びマイクロホンの相対位置関係が変化する時変残響環境下であっても、複数の音源の音声が重畳した観測信号から、各音源の音源信号を精度よく分離することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述の音響信号解析装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20 演算部
21 時間周波数解析部
22 初期設定部
23 パラメータ更新部
24 終了判定部
25 信号変換部
30 記憶部
40 出力部
100 音響信号解析装置

Claims (5)

  1. J本の各マイクロホンjで集音した音響信号の時系列データを入力として、各時刻lにおける各周波数kの観測信号時間周波数成分yj,k,lを出力する時間周波数解析部と、
    音源iから前記マイクロホンjまでの時刻nだけ遅延して集音される伝達特性を表す時変ステアリングベクトルの振幅成分Aj,i,k,n、複数フレームのスペクトルを連結したスペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底スペクトルWi,k,m,τ、前記スペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底オンセットHi,m,τの各々に初期値を設定する初期値設定部と、
    (j,k,l)の全ての組み合わせにおける、前記観測信号時間周波数成分yj,k,lと、前記スペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底スペクトルWi,k,m,τ、前記スペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底オンセットHi,m,τ、各音源i及び各時刻nの前記振幅成分Aj,i,k,nに基づいて算出される前記マイクロホンjのパワースペクトログラムモデルXj,k,lとの距離が小さくなるように、前記基底スペクトルWi,k,m,τと、前記基底オンセットHi,m,τと、前記振幅成分Aj,i,k,nとを更新するパラメータ更新部と、
    予め定められた終了条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う終了判定部と、
    を含む音響信号解析装置。
  2. 前記観測信号時間周波数成分yj,k,lと、前記マイクロホンjのパワースペクトログラムモデルXj,k,lとの距離の尺度として板倉斎藤距離を用いた
    請求項1記載の音響信号解析装置。
  3. 時間周波数解析部と、初期値設定部と、パラメータ更新部と、終了判定部とを含む音響信号解析装置における音響信号解析方法であって、
    前記時間周波数解析部が、J本の各マイクロホンjで集音した音響信号の時系列データを入力として、各時刻lにおける各周波数kの観測信号時間周波数成分yj,k,lを出力し、
    前記初期値設定部が、音源iから前記マイクロホンjまでの時刻nだけ遅延して集音される伝達特性を表す時変ステアリングベクトルの振幅成分Aj,i,k,n、複数フレームのスペクトルを連結したスペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底スペクトルWi,k,m,τ、前記スペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底オンセットHi,m,τの各々に初期値を設定し、
    前記パラメータ更新部が、(j,k,l)の全ての組み合わせにおける、前記観測信号時間周波数成分yj,k,lと、前記スペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底スペクトルWi,k,m,τ、前記スペクトル素片に対応する各時刻τにおける、各基底m及び各周波数kの非負値の基底オンセットHi,m,τ、各音源i及び各時刻nの前記振幅成分Aj,i,k,nに基づいて算出される前記マイクロホンjのパワースペクトログラムモデルXj,k,lとの距離が小さくなるように、前記基底スペクトルWi,k,m,τと、前記基底オンセットHi,m,τと、前記振幅成分Aj,i,k,nとを更新し、
    前記終了判定部が、予め定められた終了条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う
    音響信号解析方法。
  4. 前記観測信号時間周波数成分yj,k,lと、前記マイクロホンjのパワースペクトログラムモデルXj,k,lとの距離の尺度として板倉斎藤距離を用いた
    請求項3記載の音響信号解析方法。
  5. コンピュータを、請求項1又は請求項2記載の音響信号解析装置の各部として機能させるためのプログラム。
JP2016031801A 2016-02-23 2016-02-23 音響信号解析装置、音響信号解析方法、及びプログラム Active JP6448567B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016031801A JP6448567B2 (ja) 2016-02-23 2016-02-23 音響信号解析装置、音響信号解析方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016031801A JP6448567B2 (ja) 2016-02-23 2016-02-23 音響信号解析装置、音響信号解析方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017152825A JP2017152825A (ja) 2017-08-31
JP6448567B2 true JP6448567B2 (ja) 2019-01-09

Family

ID=59739209

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016031801A Active JP6448567B2 (ja) 2016-02-23 2016-02-23 音響信号解析装置、音響信号解析方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6448567B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110491412B (zh) * 2019-08-23 2022-02-25 北京市商汤科技开发有限公司 声音分离方法和装置、电子设备
JP7450911B2 (ja) * 2019-12-05 2024-03-18 国立大学法人 東京大学 音響解析装置、音響解析方法及び音響解析プログラム
JP7552742B2 (ja) * 2021-02-15 2024-09-18 日本電信電話株式会社 音源分離装置、音源分離方法、およびプログラム
CN114220453B (zh) * 2022-01-12 2022-08-16 中国科学院声学研究所 基于频域卷积传递函数的多通道非负矩阵分解方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5580585B2 (ja) * 2009-12-25 2014-08-27 日本電信電話株式会社 信号分析装置、信号分析方法及び信号分析プログラム
JP2012027196A (ja) * 2010-07-22 2012-02-09 Nippon Telegr & Teleph Corp <Ntt> 信号分析装置、方法、及びプログラム
JP5807914B2 (ja) * 2012-08-30 2015-11-10 日本電信電話株式会社 音響信号解析装置、方法、及びプログラム
JP6142402B2 (ja) * 2013-09-02 2017-06-07 日本電信電話株式会社 音響信号解析装置、方法、及びプログラム
JP6106611B2 (ja) * 2014-01-17 2017-04-05 日本電信電話株式会社 モデル推定装置、雑音抑圧装置、音声強調装置、これらの方法及びプログラム

Also Published As

Publication number Publication date
JP2017152825A (ja) 2017-08-31

Similar Documents

Publication Publication Date Title
US9668066B1 (en) Blind source separation systems
KR101197407B1 (ko) 음성 신호 분리 장치 및 방법
CN112447191A (zh) 信号处理装置以及信号处理方法
JP6195548B2 (ja) 信号解析装置、方法、及びプログラム
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
JP6910609B2 (ja) 信号解析装置、方法、及びプログラム
JP6448567B2 (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
CN104737229A (zh) 用于变换输入信号的方法
EP2912660A1 (en) Method for determining a dictionary of base components from an audio signal
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
CN110998723A (zh) 使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序
JP6099032B2 (ja) 信号処理装置、信号処理方法及びコンピュータプログラム
JP7046636B2 (ja) 信号解析装置、方法、及びプログラム
CN105580074A (zh) 音频信号的时频定向处理
JP5807914B2 (ja) 音響信号解析装置、方法、及びプログラム
JP6142402B2 (ja) 音響信号解析装置、方法、及びプログラム
Giacobello et al. Speech dereverberation based on convex optimization algorithms for group sparse linear prediction
Kitamura Nonnegative matrix factorization based on complex generative model
JP6290803B2 (ja) モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム
Nesta et al. Robust Automatic Speech Recognition through On-line Semi Blind Signal Extraction
JP2020038315A (ja) 音声情報処理装置および方法
US20240127841A1 (en) Acoustic signal enhancement apparatus, method and program
Adiloğlu et al. A general variational Bayesian framework for robust feature extraction in multisource recordings
Kuriki et al. Direct Update of Back-Projected Demixing Matrices in Blind Source Separation
Oh et al. Blind source separation based on independent vector analysis using feed-forward network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181204

R150 Certificate of patent or registration of utility model

Ref document number: 6448567

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250