JP6463904B2 - 信号処理装置及び音源分離方法及びプログラム - Google Patents

信号処理装置及び音源分離方法及びプログラム Download PDF

Info

Publication number
JP6463904B2
JP6463904B2 JP2014108442A JP2014108442A JP6463904B2 JP 6463904 B2 JP6463904 B2 JP 6463904B2 JP 2014108442 A JP2014108442 A JP 2014108442A JP 2014108442 A JP2014108442 A JP 2014108442A JP 6463904 B2 JP6463904 B2 JP 6463904B2
Authority
JP
Japan
Prior art keywords
sound source
unit
phase
signal
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014108442A
Other languages
English (en)
Other versions
JP2015226104A5 (ja
JP2015226104A (ja
Inventor
恭平 北澤
恭平 北澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2014108442A priority Critical patent/JP6463904B2/ja
Priority to US14/716,260 priority patent/US9712937B2/en
Publication of JP2015226104A publication Critical patent/JP2015226104A/ja
Publication of JP2015226104A5 publication Critical patent/JP2015226104A5/ja
Application granted granted Critical
Publication of JP6463904B2 publication Critical patent/JP6463904B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/05Application of the precedence or Haas effect, i.e. the effect of first wavefront, in order to improve sound-source localisation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本発明は、音源分離技術に関するものである。
ビデオカメラや最近ではデジタルカメラにおいても動画撮影ができるようになり、同時に音声が収音(録音)される機会が増えてきている。音声収音時に撮影対象以外の音声が混入してしまうという問題がある。そこで複数の音源からの音声が混合した音響信号から所望の信号だけを抽出する研究、例えばビームフォーマや独立成分分析(ICA)などの複数のマイクロフォン信号を使ったアレイ信号処理による音源分離技術の研究が広く行われている。
しかし、従来のアレイ信号処理による音源分離技術にはマイクロフォンの数よりも多くの音源を同時に分離できないという問題(劣決定問題)がある。その問題を解決した手法として多チャネルウィーナーフィルタ(Multi-Channel Wiener Filter)を用いた音源分離方法が知られている(非特許文献1)。
この非特許文献1について簡単に説明する。J個の音源から発せられる音源信号sj(j=1,2,…,J)をM(≧2)個のマイクロフォンで収音する状況を考える。ここでは説明の簡単のためマイクロフォンの数を2とする。2個のマイクロフォンで観測された観測信号Xは、次のように書ける。
Figure 0006463904
ここで、[]Tは行列の転置を表し、tは時間を表す。
観測信号を時間周波数変換すると、
Figure 0006463904
となる(fは周波数ビンを表し、nはフレーム数を表す(n=1,2,…,N))。
音源からマイクロフォンまでの伝達特性をhj(f)、マイクロフォンで観測される音源ごとの信号(以下、ソースイメージと呼ぶ)をcj(n,f)とすると、観測信号は以下のように各音源の信号の重ね合わせとして書ける。
Figure 0006463904
ここで音源位置は収音時間中は移動せず、音源からマイクロフォンまでの伝達特性hj(f)は時間で変化しないことを仮定している。
さらにソースイメージの相関行列をRcj(n,f)、音源信号の時間周波数ビンごとの分散をvj(n,f)、また音源ごとの時間によらない空間相関行列をRj(f)として、以下の関係が成り立つものと仮定する。
Figure 0006463904
ただし、
Figure 0006463904
ここで()Hはエルミート転置を表す。
以上の関係を用いて、観測信号が全ての音像の重ね合わせとして観測される確率が与えられ、そこからEMアルゴリズムを用いてパラメータ推定が行われる。
Figure 0006463904
上記計算を反復して行う事により、音源分離を行うための多チャネルウィーナーフィルタを生成するためのパラメータRcj(n,f)(=vj(n,f)*Rj(f))、Rx(n,f)を求めることができる。算出されたパラメータを用いて音源ごとの観測信号であるソースイメージcj(n,f)の推定値は以下のように出力される。
Figure 0006463904
N.Q.K.Duong, E.Vincent, R.Gribonval, "Under-Determied Reverberant Audio Source Separation Using a Full-rank Spatial Covariance Model", IEEE transactions on Audio, Speech and Language Processing, vol.18, No.7, pp.1830-1840, September 2010.
上記従来の手法は空間相関行列を安定して求めるために収音時間中は音源位置が移動しないと仮定している。そのため例えば音源と収音装置の相対的な位置が変化する場合(例えば音源自体が移動している場合、あるいはマイクロフォンアレイなどの収音装置が回転や移動する場合)には安定した音源分離ができないという問題がある。
本発明は上述した問題を解決するためになされたものであり、音源と収音装置の相対的な位置が変化する場合においても安定して音源分離を可能ならしめる技術を提供しようとするものである。
この課題を解決するため、例えば本発明の信号処理装置は以下の構成を備える。すなわち、
収音手段により収音を行うことで得られる複数チャネルの音響信号を取得する取得手段と、
特定の音源と前記収音手段との位置関係検出する検出手段と、
前記検出手段により検出される前記特定の音源と前記収音手段との位置関係に応じた調整量で、前記取得手段により取得される音響信号に対する位相調を実行する第1位相調整手段と、
第1位相調整手段により前記位相調整が実行された音響信号から前記特定の音源に対応する音響信号を分離する音源分離手段と、
前記音源分離手段により分離された前記特定の音源に対応する音響信号に対して、前記第1位相調整手段によって実行された前記位相調整とは逆の位相調整を実行する第2位相調整手段とを有する。
本発明によれば、音源と収音装置の相対的な位置関係が変わった場合でも安定して音源分離ができる。
第1の実施形態における音源分離装置のブロック構成図。 位相調整の説明するための図。 第1の実施形態における処理手順を示すフローチャート。 第2の実施形態における音源分離装置のブロック構成図。 収音部の回転の説明するための図。 第2の実施形態における処理手順を示すフローチャート。 第3の実施形態における音源分離装置のブロック構成図。 第3の実施形態における処理手順を示すフローチャート。
以下、添付の図面を参照して、本発明に係る実施形態を詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。
[第1の実施形態]
図1は第1の実施形態に係る音源分離装置1000のブロック構成図である。この音源分離装置1000は、収音部1010と撮像部1020、フレーム分割部1030、FFT部1040、相対位置変化検出部1050、位相調整部1060を有する。また、この装置1000は、パラメータ推定部1070、分離フィルタ生成部1080、音源分離部1090、逆位相調整部1100、逆FFT部1110、フレーム結合部1120、出力部1130を備える。
収音部1010は、複数のマイクロフォンで構成されるマイクロフォンアレイであり、複数の音源から発される音源信号を収音する。収音した複数チャネルの音響信号をA/D変換してフレーム分割部1030へ出力する。
撮像部1020は、動画像あるいは静止画像を撮影するカメラであって、撮像した画像信号を相対位置変化検出部1050へ出力する。ここでは、撮像部1020は例えば360度旋回可能なカメラであり、常に音源位置を監視できるものとする。また撮像部1020と収音部1010は位置関係が固定されているものとする。すなわち、撮像部1020の撮像方向の変更(パンチルト値の変更)にともなって収音部1010の方向も変更する。
フレーム分割部1030は、入力された信号に対して、少しずつ時間区間をずらしながら窓関数をかけ、所定の時間区間ごとに信号を切り出し、フレーム信号としてFFT部1040へ出力する。FFT部1040は、入力されたフレーム信号ごとにFFT(Fast Fourier Transform)を行う。つまり入力信号をチャネルごとに時間周波数変換したスペクトログラムが位相調整部1060へ出力される。
相対位置変化検出部1050は、入力された画像信号から例えば画像認識技術を用いて時間ごとに変化する音源と収音部1010との相対的な位置関係を検出する。例えば、撮像部1020によって撮像された画像のフレーム内における、顔認識技術により音源となる被写体の顔の位置を検出する。また、例えば、時間ごとに変化する撮像部1020の撮像方向の変化量(パン・チルト値の変化量)を取得することにより、音源と収音部1010との変化量を検出してもよい。ここで音源位置を検出する頻度はフレーム分割部1030における切り出し区間のずらし量と同じであることが望ましい。しかし、音源位置を検出する頻度と切り出し区間のずらし量が異なる場合、例えば音源位置の検出信号を切り出し区間のずらし量と合うように相対的な位置関係を補間あるいはリサンプリングすればよい。検出された収音部1010と音源の相対的な位置関係は位相調整部1060へ出力される。ここで相対的な位置関係とは例えば収音部1010に対する音源の方向(角度)を指す。
位相調整部1060は、入力された周波数スペクトルに対して、位相調整を行う。位相調整の一例を図2を用いて説明する。マイクロフォンはL0とR0の2チャネルとし、図2(a)に示すように音源Aと収音部1010の相対位置がθ(t)で時間ともに変化するものとする。音源位置がマイクロフォンL0およびR0の間隔に比べて十分に離れているとすると、マイクロフォンL0とマイクロフォンR0に届く信号の位相差Pdiff(n)は、下記のように表すことができる。
Figure 0006463904
ここでfは周波数を表し、dはマイクロフォン間の距離、cは音速、tnはn番目のフレームに相当する時刻をそれぞれ表す。
位相調整部1060ではマイクロフォンR0の信号に対し、L0とR0の位相差がなくなるようにPdiffをキャンセルする補正を行う。
Figure 0006463904
ここでXRはマイクロフォンR0での観測信号を表し、XRcompは位相を調整された信号を表す。つまりフレームごとに位相調整を施すことで、時間ごとのチャネル間位相差は変化しなくなるため、図2(b)に示すように移動する音源をあたかも正面方向に固定された音源AFIXとして扱う事ができる。
音源が複数の場合には音源ごとに位相調整が行われる。つまり音源Aと音源Bがあった場合、音源Aの相対位置変化を補正した信号と音源Bの相対位置変化を補正した信号がそれぞれ生成される。位相調整された信号はパラメータ推定部1070および音源分離部1090へ出力し、また補正した位相調整量を逆位相調整部1100へ出力する。
パラメータ推定部1070は、入力された位相調整された信号に対してEMアルゴリズムを用いて、音源ごとに空間相関行列Rj(f)および分散vj(n,f)、相関行列Rxj(n,f)を推定する。
ここでパラメータ推定について簡単に説明する。収音部1010は自由空間におかれた2つのマイクロフォンL0とR0とし、2音源(AとB)の場合を考える。音源Aは収音部1010に対して時刻tnにおいてθ(tn)の位置関係にあるとし、音源BはΦ(tn)の位置関係にあるものとする。位相調整部1060から入力された音源ごとに位相調整された信号をそれぞれXA、XBとする。音源Aおよび音源Bはそれぞれ位相調整により正面方向(0度)に音源が固定化されたものとする。
まず、位相調整された信号XAを用いてパラメータ推定を行う。音源Aは0度方向に固定化されているため空間相関行列RAは以下のように初期化される。
Figure 0006463904
ここで、hAは正面方向へのアレイ・マニホールドベクトルを表す。アレイ・マニホールドベクトルは1番目のマイクロフォンを基準点とし、音源方向をΘとすると、
Figure 0006463904
となる。ここで音源Aは0度方向であるため、hA=[1 1]T となる。一方、音源Bは以下のように初期化される。
Figure 0006463904
h'Bは、音源Aは0度方向に固定化した状態における音源Bのアレイ・マニホールドベクトルであり、次のように書ける。
Figure 0006463904
δ(f)は例えば以下のような値を用いる。
Figure 0006463904
また音源Aの分散vAおよび音源Bの分散vBは例えばvA>0、vB>0となるようなランダムな値で初期化する。
音源Aに関するパラメータを以下のように推定する。EMアルゴリズムを用いた推定が行われる。
Figure 0006463904
ここでtr()行列の対角成分の和を表す。
続いて算出した空間相関行列RA(f)を固有値分解する。ここで固有値を大きい順にDA1、DA2とする。
続いて位相調整された信号XBを用いてパラメータ推定を行う。音源Bは0度方向に固定化されているため以下のように初期化される。
Figure 0006463904
Bは正面方向へのアレイ・マニホールドベクトルを表し、hB=[1 1]T となる。音源Aは以下のように初期化される。
Figure 0006463904
ここで、音源Aのアレイ・マニホールドベクトルh'Aは、次のように書ける。
Figure 0006463904
またh'A⊥はh'Aと直交するベクトルを表す。
後は、音源Aの時と同様にEMアルゴリズムを用いてvB(n,f),RB(f)を算出する。
このように音源ごとに異なる位相調整を施した信号(XA、XB)を用いて反復計算することによりパラメータを推定する。ここで反復回数は所定の回数または尤度の変化が十分に小さくなるまで行う。
推定した分散vj(n,f)および空間相関行列Rj(f)、相関行列Rxj(n,f)は分離フィルタ生成部1080へ出力される。jは音源番号を表し、本実施形態においてはj=A、Bとなる。
分離フィルタ生成部1080は、入力されたパラメータを用いて入力信号を分離すための分離フィルタを生成する。例えば音源ごとの空間相関行列Rj(f)および分散vj(n,f)、相関行列Rxj(n,f)から下記の多チャネルウィーナーフィルタWFjを生成する。
Figure 0006463904
音源分離部1090は、分離フィルタ生成部1080で生成された分離フィルタをFFT部1040から出力された信号に適応する。
Figure 0006463904
フィルタリングによって得られた信号Yj(n,f)は逆位相調整部1100へ出力される。
逆位相調整部1100は、入力された分離音信号にたいして、位相調整部1060で調整した位相をキャンセルするように位相調整を行う。つまり固定化された音源を再度移動しているように信号の位相を調整する。例えば位相調整部1060においてR0側の信号の位相がγだけ調整されたとすると、逆位相調整部1100ではR0側の信号の位相が-γ調整される。位相調整を行った信号は逆FFT部1110へ出力される。
逆FFT部1110は、入力された位相調整された周波数スペクトルをIFFT(Inverse Fast Fourier Transform)を行い時間波形信号に変換する。変換した時間波形信号はフレーム結合部1120へ出力される。フレーム結合部1120は、入力されたフレームごとの時間波形信号を重複させながら結合し、出力部1130へ出力する。出力部1130は、入力された分離音信号を例えば記録装置などに出力する。
次に信号処理のフローを図3を用いて説明する。はじめに収音部1010および撮像部1020は収音および撮像処理を行う(S1010)。収音部1010は収音した音響信号をフレーム分割部1030へ出力し、撮像部1020は撮像した、収音部1010周辺の画像信号を相対位置変化検出部1050へ出力する。
続いて、フレーム分割部1030は音響信号のフレーム分割処理を行い、フレーム分割された音響信号をFFT部1040へ出力する(S1020)。FFT部1040は、フレーム分割された信号に対してFFT処理を行う、FFT処理の施された信号を位相調整部1060へ出力する(S1030)。
相対位置変化検出部1050は、収音部1010と音源の時間ごとの相対的な位置関係を検出し、検出された収音部1010と音源の時間ごとの相対的な位置関係を示す譲歩yを、位相調整部1060へ出力する(S1040)。位相調整部1060は、信号の位相調整を行う(S1050)。音源ごとに位相調整された信号はパラメータ推定部1070および音源分離部1090へ出力され、位相調整量は逆位相調整部1100へ出力される。
パラメータ推定部1070は、音源分離フィルタを生成するためのパラメータを推定する(S1060)。S1060のパラメータ推定は、S1070の反復終了判定で反復が終了するまで繰り返し行われ、反復が終了すると、パラメータ推定部1070は推定したパラメータを分離フィルタ生成部1080へ出力する。分離フィルタ生成部1080は、入力したパラメータに従い、分離フィルタを生成し、生成した多チャネルウィーナーフィルタを音源分離部1090へ出力する(S1080)。
続いて、音源分離部1090は音源分離処理を行う(S1090)。すなわち、音源分離部1090は、入力された位相調整された信号に多チャネルウィーナーフィルタをかけ、信号を分離する。分離された信号は逆位相調整部1100へ出力される。
続いて、逆位相調整部1100は、入力された分離音信号に対し、位相調整部1060において調整した位相を元に戻す逆位相調整処理を行い、逆位相調整された信号を逆FFT部1110へ出力する(S1100)。逆FFT部1110は、逆FFT処理(IFFT処理)を行う、その処理結果をフレーム結合部1120へ出力する(S1110)。
フレーム結合部1120は、逆FFT部1110から入力されたフレームごとの時間波形信号を結合するフレーム結合処理を行い、結合された分離音の時間波形信号を出力部1130へ出力する(S1120)。出力部1130は入力した、分離音の時間波形信号を出力する(S1130)。
以上のようにして、音源と収音部の相対的な位置が変化する場合においても音源と収音部の相対位置を検出し、入力信号の位相を音源ごとに調整することで安定して音源分離することが可能となる。
本実施形態において収音部1010は2チャネルとしたが、これは説明を簡便にするためであり、マイクロフォン数は2チャネル以上であればよい。また、本実施形態において撮像部1020は全方位を撮影できる全方位カメラとしたが、音源である被写体を常に監視できる状況であればよく、通常のカメラであってもよい。撮影場所が例えば屋内のように壁面などで区切られた空間である場合、撮像部が部屋の隅に設置されればカメラは室内全体を撮影できる画角があればよく、全方位カメラである必要はない。
また本実施形態において収音部と撮像部は固定されているものとしたが、独立に動くようになっていてもよい。その場合はさらに収音部および撮像部の位置関係を検出する手段を備え、検出された位置関係によってその位置関係を補正するようにする。例えば撮像部が回転雲台に設置され収音部は回転雲台の台座部分(回転しない)に固定されているような場合、音源位置を回転雲台の回転量を用いて補正するようにすればよい。
本実施形態において相対位置変化検出部1050では人物の発話を音源と仮定し、顔認識技術によって音源と収音部との位置関係を検出した。しかし、音源は例えばスピーカや自動車など人物以外のものでもよく、そのような場合、相対位置変化検出部1050は入力された画像に対してオブジェクト認識を行い、音源と収音部との位置関係を検出するようにすればよい。
本実施形態において音響信号は収音部から入力され、撮像部から入力された画像から相対位置変化を検出した。しかし音響信号と信号を収音した収音装置と音源との相対的な位置関係が両方ともハードディスクなどの記録媒体に記録されている場合、記録媒体からデータを読みこむようにしてもよい。つまり本実施形態の収音部の代わりに音響信号入力部を備え、撮像部の代わりに相対位置関係入力部を備え、音響信号と相対位置関係を記憶装置から読み込むような構成であってもよい。
本実施形態において相対位置変化検出部1050は撮像部1020を備え、撮像部1020から取得した画像から収音部1010と音源の位置関係を検出した。しかし収音部1010と音源の相対的な位置関係を検出できるような手段であれば手段は問わない。例えば音源と収音部それぞれにGPS(Global positioning system)を装備し、相対位置変化検出をしてもよい。
本実施形態において位相調整部はFFT部の後で処理を行ったが、位相調整部はFFT部の前であってもよく、その場合、位相調整部は信号の遅延を調整するようにすればよい。また逆位相調整部および逆FFT部にも同様に順番は逆であってもよい。
本実施形態において位相調整部ではR0側の信号に対してのみ位相調整を施したが、L0側の信号に対して位相調整を施してもよいし、両方の信号に対して位相調整を施してもよい。また位相調整部では音源の位置固定化において音源位置を0度方向に固定したが、他の角度に音源位置が固定するように位相調整してもよい。
本実施形態において収音部は自由空間におかれたマイクロフォンを仮定したが、筐体の影響を含む環境におかれていてもよい。その場合、方向ごとの筐体の影響を含む伝達特性をあらかじめ測定し、その伝達特性をアレイ・マニホールドベクトルとして用いて計算をするとよい。その場合、位相調整部や逆位相調整部では位相だけでなく振幅も調整される。
本実施形態においてアレイ・マニホールドベクトルは1番目のマイクロフォンを基準点として作成したが、基準点はどこでもよく、例えば1番目と2番目のマイクロフォンの中間点を基準点としてもよい。
[第2の実施形態]
図4は第2の実施形態に係る音源分離装置2000のブロック構成図である。本装置2000は、収音部1010、フレーム分割部1030、FFT部1040、位相調整部1060、パラメータ推定部1070、分離フィルタ生成部1080、音源分離部1090、逆FFT部1110、フレーム結合部1120、出力部1130をゆする。また、この装置2000は、回転検出部2050、パラメータ調整部2140を有する。
収音部1010、フレーム分割部1030、FFT部1040、音源分離部1090、逆FFT部1110、フレーム結合部1120、出力部1130は、先に説明した第1の実施形態とほぼ同様のため、それらの説明は省略する。
本第2の実施形態においては、収音時間中に音源は移動しないものとし、収音部1010がユーザのハンドリングなどにより回転し、収音部1010と音源の相対位置が時間変化する状況を考える。ここで収音部1010の回転とは収音部1010のパンやチルト、ロール動作によるマイクロフォンアレイの回転を指す。例えば図5(a)に示すように収音部であるマイクロフォンアレイが位置固定の音源C1に対して(L0、R0)の状態から(L1、R1)の状態に回転すると、図5(b)のように、マイクロフォンアレイからは音源がC2からC3へ移動したように見える。
回転検出部2050は、例えば加速度センサからなり、収音時間中の収音部1010の回転を検出する。回転検出部2050は、検出した回転量を例えば角度情報として位相調整部1060へ出力する。
位相調整部1060は入力された収音部1010の回転量とパラメータ推定部1070から入力された音源方向から位相調整を行う。音源方向は一番初めのみ音源ごとに任意の方向を初期値として与えるようにする。例えば音源方向がαで収音部1010の回転量がβ(n)とすると、チャネル間の位相差は以下のようになる。
Figure 0006463904
位相調整部1060は、上記のチャネル間位相差の位相調整を行い、位相調整した信号をパラメータ推定部1070に出力し、位相調整量をパラメータ調整部2140へ出力する。パラメータ推定部1070は位相調整された信号に対してパラメータ推定を行う。
パラメータ推定方法は第1の実施形態とほぼ同様である。ただし、本第2の実施形態ではさらに推定された空間相関行列Rj(f)の主成分分析を行い、音源方向γ’を推定する。ここで位相調整部1060において音源を固定化した方向をγとすると、α+γ’−γを音源方向として位相調整部1060へ出力する。推定した分散vj(f,n)および空間相関行列Rj(f)はパラメータ調整部2140へ出力される。
パラメータ調整部2140は、入力した空間相関行列Rj(f)および位相調整量を用いて、時間変化する空間相関行列Rjnew(n,f)を算出する。例えばRチャネルの位相調整量をη(n,f)とすると、
Figure 0006463904
とすることでフィルタ生成に使用するパラメータを調整する。
パラメータ調整部2140は調整した空間相関行列Rjnew(n,f)および分散vj(n,f)を分離フィルタ生成部1080へ出力する。分離フィルタ生成部1080は、これを受けて、以下のように分離フィルタを生成する。
Figure 0006463904
そして、分離フィルタ生成部1080は、生成したフィルタを音源分離部1090へ出力することになる。
続いて本第2の実施形態における信号処理フローを図6を用いて説明する。はじめに、収音部1010が収音処理、回転検出部2050が収音部1010の回転量の検出処理を行う(S2010)。収音部1010は、収音された音響信号をフレーム分割部1030へ出力する。回転検出部2050は、検出した収音部1010の回転量を示す情報を位相調整部1060へ出力する。続くフレーム分割(S2020)およびFFT処理(S2030)は第1の実施形態とほぼ同様のため説明を省略する。
位相調整部1060は、位相調整処理を行う(S2040)。すなわち、位相調整部1060は、入力された信号に対する、パラメータ推定部1070から入力された音源位置および収音部1010の回転量から位相調整量を算出し、FFT部1040から入力された信号に対して位相調整処理を行う。そして、位相調整部1060は、位相調整後の信号をパラメータ推定部1070へ出力する。
続いてパラメータ推定部1070は、音源分離パラメータの推定を行う(S2050)。そいて、パラメータ推定部1070は、続く反復終了か否かの判断する(S2060)。反復終了しない場合は、パラメータ推定部1070は、推定された音源位置は位相調整部1060に出力し、位相調整(S2040)とパラメータ推定(S2050)を再度行う。反復終了と判断した場合、位相調整部1060は位相調整量をパラメータ調整部2140へ出力する。またパラメータ推定部1070は推定したパラメータをパラメータ調整部2140へ出力する。
続いてパラメータ調整部2140はパラメータの調整を行う(S2070)。すなわち、パラメータ調整部2140は、入力した位相調整量を用いて推定した音源分離パラメータである空間相関行列Rj(f)の調整を行う。調整された空間相関行列Rjnew(n,f)および分散vj(n,f)は分離フィルタ生成部1080へ出力される。
後続する音源分離フィルタ生成(S2080)および音源分離処理(S2090)、逆FFT処理(S2100)、フレーム結合処理(S2110)、出力(S2120)については第1の実施形態とほぼ同様のため説明を省略する。
以上のようにして、音源と収音部の相対的な位置が変化する場合においても音源と収音部の相対位置を検出することで安定して音源分離することが可能となる。つまり、位相を調整した信号からパラメータを推定し、推定したパラメータをさらに調整した位相の量を鑑みて補正することで安定して音源分離フィルタを生成することができる。
本第2の実施形態では回転検出部2050を加速度センサとしたが、回転量を検出できる装置であればよく、ジャイロセンサや角速度センサあるいは方位を検出する磁気センサであってもよい。また第1の実施形態と同様に撮像部を備え、画像から回転角を検出するようにしてもよい。また収音部が回転雲台等に固定されている場合、回転雲台の回転角を検出するようになっていてもよい。
[第3の実施形態]
図7は第3の実施形態における音源分離装置3000のブロック構成図である。この装置3000は収音部1010とフレーム分割部1030、FFT部1040、回転検出部2050、パラメータ推定部3070、分離フィルタ生成部1080、音源分離部1090、逆FFT部1110、フレーム結合部1120、出力部1130を備える。
パラメータ推定部3070以外のブロックは先に説明した第1の実施形態とほぼ同じため説明を省略する。本第3の実施形態においても第2の実施形態と同様に収音時間中に音源は移動しないものとする。
パラメータ推定部3070は、回転検出部2050からの収音部1010の回転量を示す情報、および、FFT部1040から入力された信号を用いて、パラメータ推定を行う。推定のEMアルゴリズムにおいてEステップおよびMステップの(3)〜(6)については従来通り算出する。
空間相関行列算出の方法を以下に示す。時間変化する空間相関行列Rj(n,f)を次式に従って算出する。
Figure 0006463904
算出されたRj(n,f)を固有値分解(主成分分析)することにより、時間ごとの音源方向θj(n,f)が算出可能である。音源方向算出の方法は、固有値分解により算出された固有値のうち最も大きい固有値に対応する固有ベクトルの要素間の位相差から音源方向を算出する。続いて算出された音源方向θj(n,f)について回転検出部2050から入力された収音部1010の回転の影響を取り除く。例えば収音部1010の回転量をω(n)とすると、相対的な音源位置の変化量は−ω(n)となる。つまり音源位置θjcomp(n,f)=θj(n,f)+ω(n)が回転がなかった場合の音源方向となる。続いて算出したθjcomp(n,f)について以下のように時間方向に重み付き平均をとる。
Figure 0006463904
ここでは算出される音源方向θjcomp(n,f)は分散vj(n,f)が小さくなると(信号振幅が小さくなると)誤った方向を算出する可能性が大きくなるため、vj(n,f)の重み付き平均をとっている。
算出した方向θjave(f)に対して回転による音源の見かけ上の移動を再度加味し、音源方向:
Figure 0006463904
を以下のように算出する。
Figure 0006463904
続いてRj(n,f)の固有値分解で算出した固有値を大きい順にそれぞれD1(n,f)、D2(n,f)とし、その比率gj(f)を以下のように算出する。
Figure 0006463904
そして、
Figure 0006463904
及び、gj(f)から空間相関行列Rj(n,f)を以下のように更新する。
Figure 0006463904
ここで
Figure 0006463904
は更新された空間相関行列を表し、
Figure 0006463904
は、
Figure 0006463904
方向に対するアレイ・マニホールドベクトルを表す。
また空間相関行列はエルミート行列であるため固有ベクトル同士は直交する。そのため、
Figure 0006463904
は、
Figure 0006463904
と直交するベクトルであり、以下のような関係にある。
Figure 0006463904
以上のようにパラメータ推定部3070は空間相関行列を時間変化するパラメータとして算出する。そして、パラメータ推定部3070は、算出された空間相関行列:
Figure 0006463904
および分散vj(n,f)を分離フィルタ生成部1080へ出力する。
続いて本第3の実施形態における信号処理フローを図8に従って説明する。収音および回転量の検出(S3010)からFFT処理(S3030)および分離フィルタ生成(S3060)から出力(S3100)は前記した第2の実施形態とほぼ同様のため説明を省略する。
パラメータ推定部3070は、パラメータ推定処理を行い(S3040)、続く反復終了の判定(S3050)において反復が終了したと判定するまで、パラメータ推定処理を反復処理する。反復が終了したと判定された場合、パラメータ推定部3070は、その段階で推定されたパラメータを分離フィルタ生成部1080へ出力する。
続いて分離フィルタ生成部1080は、分離フィルタの生成処理を行い、生成された分離フィルタを音源分離部1090へ出力する(S3060)。
以上のようにして、音源と収音部の相対的な位置が変化する場合においても音源と収音部の相対位置を検出し、音源位置まで考慮したパラメータ推定方法を用いることで安定して音源分離することが可能となる。
本第3の実施形態においてパラメータ推定部では空間相関行列:
Figure 0006463904
の推定のために音源方向θj(n)を算出した。しかし、音源方向を算出せず、第1主成分について収音部1010の回転をキャンセルするように位相調整を施し、その平均値を求めるようにしてもよい。
また収音開始時における音源の位置の算出時に分散vj(n,f)の重み付き平均を行ったが、単純に平均値をとるようにしてもよい。本実施形態において音源方向:
Figure 0006463904
は周波数について独立に算出した。しかし同じ音源で方向が異なることは考えにくいため、周波数方向について平均などをとることによって周波数依存性のないパラメータ:
Figure 0006463904
としてもよい。
[その他の実施形態]
以上、実施形態例を詳述したが、本発明は例えば、複数チャネルの音響信号を収音する収音手段を有するものであれば、システム、装置、方法、制御プログラム若しくは記録媒体(記憶媒体)等としての実施態様をとることが可能である。具体的には、複数の機器(例えば、ホストコンピュータ、インタフェース機器、撮像装置、webアプリケーション等)から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
また、本発明の目的は、以下のようにすることによって達成されることはいうまでもない。即ち、前述した実施形態の機能を実現するソフトウェアのプログラムコード(コンピュータプログラム)を記録した記録媒体(または記憶媒体)を、システムあるいは装置に供給する。係る記憶媒体は言うまでもなく、コンピュータ読み取り可能な記憶媒体である。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行する。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
1000…音源分離装置、1010…収音部、1020…撮像部、1030…フレーム分割部、1040…FFT部、1050…相対位置変化検出部、1060…位相調整部、1070…パラメータ推定部、1080…分離フィルタ生成部、1090…音源分離部、1100…逆位相調整部、1110…逆FFT部、1120…フレーム結合部、1130…出力部

Claims (19)

  1. 収音手段により収音を行うことで得られる複数チャネルの音響信号を取得する取得手段と、
    特定の音源と前記収音手段との位置関係検出する検出手段と、
    前記検出手段により検出される前記特定の音源と前記収音手段との位置関係に応じた調整量で、前記取得手段により取得される音響信号に対する位相調を実行する第1位相調整手段と、
    第1位相調整手段により前記位相調整が実行された音響信号から前記特定の音源に対応する音響信号を分離する音源分離手段と、
    前記音源分離手段により分離された前記特定の音源に対応する音響信号に対して、前記第1位相調整手段によって実行された前記位相調整とは逆の位相調整を実行する第2位相調整手段とを有することを特徴とする信号処理装置
  2. 前記第1位相調整手段は、前記検出手段により検出される前記特定の音源と前記収音手段との位置関係の変化量であって前記収音手段により収音が行われている収音期間における変化量に対応する前記調整量で、前記取得手段により取得される音響信号に対する前記位相調整を実行することを特徴とする請求項1に記載の信号処理装置。
  3. 前記第1位相調整手段は、前記複数チャネルの音響信号に含まれる第1チャネルの音響信号と第2チャネルの音響信号との位相の差が定となるように、前記取得手段により取得される音響信号の位相を調整することを特徴とする請求項1又は2に記載の信号処理装置
  4. 前記取得手段により取得される音響信号を、それぞれ異なる期間に対応する複数のフレームに分割する分割手段を有し、
    前記第1位相調整手段は、前記分割手段により分割される複数のフレームそれぞれについて、各フレームに対応する調整量で位相を調整し、
    前記音源分離手段は、前記分割手段により分割される複数のフレームそれぞれについて、前記特定の音源に対応する音響信号を分離することを特徴とする請求項1乃至3の何れか1項に記載の信号処理装置
  5. 前記第1位相調整手段は、前記取得手段により取得される音響信号の位相を前記特定の音源に対応する第1調整量で調整することで第1の調整済み音響信号を生成し、且つ、当該音響信号の位相を前記特定の音源とは別の音源に対応する第2調整量で調整することで第2の調整済み音響信号を生成し、
    前記音源分離手段は、前記第1位相調整手段により生成される前記第1の調整済み音響信号と前記第2の調整済み音響信号とに基づいて、前記特定の音源に対応する音響信号を分離することを特徴とする請求項1乃至のいずれか1項に記載の信号処理装置
  6. 前記第1位相調整手段により調整された音響信号を用いて音源分離パラメータを決定する決定手段を有し、
    前記音源分離手段は、前記決定手段により決定される音源分離パラメータに基づく分離フィルタを用いて前記特定の音源に対応する音響信号を分離することを特徴とする請求項1乃至のいずれか1項に記載の信号処理装置
  7. 前記音源分離手段は、前記決定手段により決定された音源分離パラメータである空間相関行列を、前記第1位相調整手段によって調整された位相の調整量に応じて補正することで、前記分離フィルタを生成することを特徴とする請求項に記載の信号処理装置
  8. 前記第1位相調整手段および前記第2位相調整手段は音響信号の遅延を調整することを特徴とする請求項乃至7のいずれか1項に記載の信号処理装置
  9. 前記第1位相調整手段は時間周波数変換された音響信号の位相を調整することを特徴とする請求項乃至7のいずれか1項に記載の信号処理装置
  10. 前記決定手段は、
    前記第1位相調整手段により調整された音響信号を用いて時間周波数ごとの空間相関行列を算出する手段と、
    当該算出した時間周波数ごとの空間相関行列を固有値分解する手段と、
    当該固有値分解により算出した固有値のうち最も大きな固有値に対応する固有ベクトルから音源方向を算出する手段と、
    当該算出した音源方向と前記検出手段により検出した前記位置関係の変化量と前記空間相関行列の固有値とから前記空間相関行列を更新することで、前記音源分離パラメータを決定する手段とを有することを特徴とする請求項に記載の信号処理装置
  11. 前記分離フィルタは多チャネルウィーナーフィルタであることを特徴とする請求項6又は10に記載の信号処理装置
  12. 前記決定手段は、分散と空間相関行列とを含む前記音源分離パラメータを、EMアルゴリズムを用いて決定することを特徴とする請求項6又は10に記載の信号処理装置
  13. 前記検出手段は、前記収音手段の回転、前記収音手段の移動、及び前記特定の音源の移動のうち少なくとも1つの検出結果に基づいて、前記位置関係検出することを特徴とする請求項1乃至12のいずれか1項に記載の信号処理装置
  14. 前記検出手段は、前記特定の音源の画像が含まれる撮影画像に基づいて前記位置関係検出することを特徴とする請求項1乃至13の何れか1項に記載の信号処理装置
  15. 前記第1位相調整手段は、前記複数チャネルの音響信号に含まれる第1チャネルの音響信号と第2チャネルの音響信号との位相の差が0となるように、前記取得手段により取得される音響信号の位相を調整することを特徴とする請求項1乃至14のいずれか1項に記載の信号処理装置
  16. 収音手段により収音を行うことで得られる複数チャネルの音響信号を取得する取得工程と、
    特定の音源と前記収音手段との位置関係検出する検出工程と、
    前記検出工程において検出される前記特定の音源と前記収音手段との位置関係に応じた調整量で、前記取得工程において取得される音響信号に対する位相調整を実行する第1位相調整工程と、
    第1位相調整工程において前記位相調整が実行された音響信号から前記特定の音源に対応する音響信号を分離する音源分離工程と、
    前記音源分離工程において分離された前記特定の音源に対応する音響信号に対して、前記第1位相調整工程によって実行された前記位相調整とは逆の位相調整を実行する第2位相調整工程とを有することを特徴とする音源分離方法。
  17. 前記第1位相調整工程においては、前記複数チャネルの音響信号に含まれる第1チャネルの音響信号と第2チャネルの音響信号との位相の差が定となるように、前記取得工程において取得される音響信号の位相が調整されることを特徴とする請求項16に記載の音源分離方法。
  18. 前記取得工程において取得される音響信号を、それぞれ異なる期間に対応する複数のフレームに分割する分割工程を有し、
    前記第1位相調整工程においては、前記分割工程において分割される複数のフレームそれぞれについて、各フレームに対応する調整量で位相が調整され、
    前記音源分離工程においては、前記分割工程において分割される複数のフレームそれぞれについて、前記特定の音源に対応する音響信号が分離されることを特徴とする請求項16又は17に記載の音源分離方法。
  19. コンピュータを、請求項1乃至15の何れか1項に記載の信号処理装置の各手段として動作させるためのプログラム。
JP2014108442A 2014-05-26 2014-05-26 信号処理装置及び音源分離方法及びプログラム Active JP6463904B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014108442A JP6463904B2 (ja) 2014-05-26 2014-05-26 信号処理装置及び音源分離方法及びプログラム
US14/716,260 US9712937B2 (en) 2014-05-26 2015-05-19 Sound source separation apparatus and sound source separation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014108442A JP6463904B2 (ja) 2014-05-26 2014-05-26 信号処理装置及び音源分離方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2015226104A JP2015226104A (ja) 2015-12-14
JP2015226104A5 JP2015226104A5 (ja) 2017-07-06
JP6463904B2 true JP6463904B2 (ja) 2019-02-06

Family

ID=54557025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014108442A Active JP6463904B2 (ja) 2014-05-26 2014-05-26 信号処理装置及び音源分離方法及びプログラム

Country Status (2)

Country Link
US (1) US9712937B2 (ja)
JP (1) JP6463904B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160071526A1 (en) * 2014-09-09 2016-03-10 Analog Devices, Inc. Acoustic source tracking and selection
JP6642989B2 (ja) 2015-07-06 2020-02-12 キヤノン株式会社 制御装置、制御方法及びプログラム
JP6646967B2 (ja) 2015-07-31 2020-02-14 キヤノン株式会社 制御装置、再生システム、補正方法、及び、コンピュータプログラム
CN105632511A (zh) * 2015-12-29 2016-06-01 太仓美宅姬娱乐传媒有限公司 一种声音处理方法
RU2743732C2 (ru) 2016-05-30 2021-02-25 Сони Корпорейшн Способ и устройство для обработки видео- и аудиосигналов и программа
JP6591477B2 (ja) * 2017-03-21 2019-10-16 株式会社東芝 信号処理システム、信号処理方法及び信号処理プログラム
CN107863106B (zh) * 2017-12-12 2021-07-13 长沙联远电子科技有限公司 语音识别控制方法及装置
CN111352075B (zh) * 2018-12-20 2022-01-25 中国科学院声学研究所 一种基于深度学习的水下多声源定位方法及系统
WO2020194717A1 (ja) * 2019-03-28 2020-10-01 日本電気株式会社 音響認識装置、音響認識方法、及び、プログラムが格納された非一時的なコンピュータ可読媒体
JP2020201370A (ja) * 2019-06-10 2020-12-17 富士通株式会社 話者方向判定プログラム、話者方向判定方法、及び話者方向判定装置
US11270712B2 (en) 2019-08-28 2022-03-08 Insoundz Ltd. System and method for separation of audio sources that interfere with each other using a microphone array

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3344647B2 (ja) * 1998-02-18 2002-11-11 富士通株式会社 マイクロホンアレイ装置
JP4517606B2 (ja) * 2003-08-27 2010-08-04 ソニー株式会社 監視システム、信号処理装置および方法、並びにプログラム
US20110014981A1 (en) * 2006-05-08 2011-01-20 Sony Computer Entertainment Inc. Tracking device with sound emitter for use in obtaining information for controlling game program execution
JP2010152107A (ja) * 2008-12-25 2010-07-08 Kobe Steel Ltd 目的音抽出装置及び目的音抽出プログラム
JP5706782B2 (ja) * 2010-08-17 2015-04-22 本田技研工業株式会社 音源分離装置及び音源分離方法
JP5406866B2 (ja) * 2011-02-23 2014-02-05 日本電信電話株式会社 音源分離装置、その方法及びプログラム

Also Published As

Publication number Publication date
US20150341735A1 (en) 2015-11-26
US9712937B2 (en) 2017-07-18
JP2015226104A (ja) 2015-12-14

Similar Documents

Publication Publication Date Title
JP6463904B2 (ja) 信号処理装置及び音源分離方法及びプログラム
US9749738B1 (en) Synthesizing audio corresponding to a virtual microphone location
CN111133511B (zh) 声源分离系统
JP6389259B2 (ja) マイクロホンアレイを使用した残響音の抽出
CN104012074B (zh) 用于数据处理系统的智能音频和视频捕捉系统
US8229129B2 (en) Method, medium, and apparatus for extracting target sound from mixed sound
US20240048932A1 (en) Personalized hrtfs via optical capture
JP6789690B2 (ja) 信号処理装置、信号処理方法、及びプログラム
US9500739B2 (en) Estimating and tracking multiple attributes of multiple objects from multi-sensor data
CN108370471A (zh) 分布式音频捕获和混合
CN109804559A (zh) 空间音频系统中的增益控制
JP6591477B2 (ja) 信号処理システム、信号処理方法及び信号処理プログラム
JP2018510369A5 (ja)
WO2016100460A1 (en) Systems and methods for source localization and separation
CN107690110B (zh) 用于操作可穿戴式扬声器设备的系统和方法
JP6642989B2 (ja) 制御装置、制御方法及びプログラム
JP2016039410A (ja) 信号処理装置および信号処理方法
KR101678305B1 (ko) 텔레프레즌스를 위한 하이브리드형 3d 마이크로폰 어레이 시스템 및 동작 방법
JP5406866B2 (ja) 音源分離装置、その方法及びプログラム
WO2019227353A1 (en) Method and device for estimating a direction of arrival
JP4529611B2 (ja) 音声入力装置
US11317200B2 (en) Sound source separation system, sound source position estimation system, sound source separation method, and sound source separation program
JP7362320B2 (ja) オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
JP2018064215A (ja) 信号処理装置、信号処理方法、およびプログラム
CN112235679A (zh) 适用于耳机的信号均衡方法、处理器及耳机

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170522

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170522

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190107

R151 Written notification of patent or utility model registration

Ref document number: 6463904

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151