JP7351401B2 - 信号処理装置、信号処理方法、およびプログラム - Google Patents
信号処理装置、信号処理方法、およびプログラム Download PDFInfo
- Publication number
- JP7351401B2 JP7351401B2 JP2022502647A JP2022502647A JP7351401B2 JP 7351401 B2 JP7351401 B2 JP 7351401B2 JP 2022502647 A JP2022502647 A JP 2022502647A JP 2022502647 A JP2022502647 A JP 2022502647A JP 7351401 B2 JP7351401 B2 JP 7351401B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- separation filter
- convolution
- mixed acoustic
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 68
- 238000003672 processing method Methods 0.000 title description 2
- 238000000926 separation method Methods 0.000 claims description 102
- 238000001228 spectrum Methods 0.000 claims description 44
- 239000011159 matrix material Substances 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 12
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 10
- 230000003111 delayed effect Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 description 32
- 238000004364 calculation method Methods 0.000 description 19
- 238000000605 extraction Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000015654 memory Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、音源抽出技術に関する。
観測された混合音響信号を入力として、雑音や残響も抑圧した各音源の源信号を推定する音源抽出技術は、音声認識の前処理等に広く利用される技術である。複数のマイクロホンを用いて観測された混合音響信号を用いて音源抽出を行う手法として、独立成分分析の多変量拡張にあたる独立ベクトル分析(IVA)が知られている。
実環境でIVAを用いる場合、背景雑音や残響の影響で性能が劣化することが知られている。このうち背景雑音については、目的音源数Kよりもマイク数Mを大きくすることで、IVAの頑健性を高めることができるが、処理時間が増大するという問題がある。音源数Kよりもマイク数Mが大きい場合であっても処理速度の増大を抑え、高速に音源抽出を行う手法として、優決定IVA(OverIVA、例えば、非特許文献1等参照)が知られている。
Robin Scheibler and Nobutaka Ono, "Independent vector analysis with more microphones than sources," in Proc. WASPAA, 2019.
OverIVAによれば背景雑音に頑健な音源抽出を行うことができる。しかし、OverIVAでは残響が考慮されていないため、残響に伴う性能劣化の問題は依然として存在する。
本発明はこのような点に鑑みてなされたものであり、雑音に加えて残響にも頑健な音源抽出を高速で行うための信号処理技術を提供することを目的とする。
源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号から後部残響成分を抑圧する後部残響除去フィルタと、混合音響信号から各源信号に対応する成分を強調する音源分離フィルタと、を統合したフィルタである畳み込み分離フィルタを、混合音響信号および混合音響信号の遅延信号を含む混合音響信号列に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する。
畳み込み分離フィルタは後部残響除去フィルタと音源分離フィルタとを統合したフィルタであるため、本発明では、雑音に加えて残響にも頑健な音源抽出を高速で行うことが可能である。
以下、本発明の実施形態を説明する。
[原理]
まず、原理を説明する。
<ブラインド音源抽出問題>
まず、ブラインド音源抽出問題を定義する。K個の目的音源から発せられた目的信号(例えば、音声信号など)とM-K個の雑音源から発せられた雑音信号が空気中を伝搬して混合された状態で、M個のマイクロホンで観測されるとする。このM個の音源(目的音源および雑音源)から発せられた源信号をM個のマイクロホンで観測して得られる信号を観測混合音響信号と呼ぶことにする。これらの源信号はK個の目的音源から発せられた目的信号と、M-K個の雑音源から発せられた雑音信号を含む。ただし、Mが2以上の整数であり、Kが1以上の整数であり、1≦K≦M-1とする。また目的信号は非定常であり、雑音信号は定常なガウス性雑音と仮定する。M個のマイクロホンで観測された観測混合音響信号を時間周波数(TF)領域に変換(例えば、短時間フーリエ変換など)して得られるM次元の混合音響信号のうち、k番目(k∈{1,…,K})の目的信号に対応する成分をxk(f,t)∈CMと表現する。ただし、Cは複素数全体の集合を表し、Cαは複素数要素からなるα次元ベクトルの集合全体を表し、α∈βはαがβに属することを表す。すなわち、M次元の混合音響信号のうち目的信号に対応する成分は、x1(f,t),…,xK(f,t)∈CMである。また、M次元の混合音響信号のうち、z番目(z∈{K+1,…,M})の目的信号に対応する混合音響信号成分をxz(f,t)∈CMと表現する。すると、M次元の混合音響信号は以下の式(1)のように表される。
ここでf∈{1,…,F}とt∈{1,…,T}は、それぞれ周波数ビンと時間フレームのインデックス(離散周波数と離散時間のインデックス)である。FおよびTは正整数である。また、α:=βはαをβと定義することを意味する。
[原理]
まず、原理を説明する。
<ブラインド音源抽出問題>
まず、ブラインド音源抽出問題を定義する。K個の目的音源から発せられた目的信号(例えば、音声信号など)とM-K個の雑音源から発せられた雑音信号が空気中を伝搬して混合された状態で、M個のマイクロホンで観測されるとする。このM個の音源(目的音源および雑音源)から発せられた源信号をM個のマイクロホンで観測して得られる信号を観測混合音響信号と呼ぶことにする。これらの源信号はK個の目的音源から発せられた目的信号と、M-K個の雑音源から発せられた雑音信号を含む。ただし、Mが2以上の整数であり、Kが1以上の整数であり、1≦K≦M-1とする。また目的信号は非定常であり、雑音信号は定常なガウス性雑音と仮定する。M個のマイクロホンで観測された観測混合音響信号を時間周波数(TF)領域に変換(例えば、短時間フーリエ変換など)して得られるM次元の混合音響信号のうち、k番目(k∈{1,…,K})の目的信号に対応する成分をxk(f,t)∈CMと表現する。ただし、Cは複素数全体の集合を表し、Cαは複素数要素からなるα次元ベクトルの集合全体を表し、α∈βはαがβに属することを表す。すなわち、M次元の混合音響信号のうち目的信号に対応する成分は、x1(f,t),…,xK(f,t)∈CMである。また、M次元の混合音響信号のうち、z番目(z∈{K+1,…,M})の目的信号に対応する混合音響信号成分をxz(f,t)∈CMと表現する。すると、M次元の混合音響信号は以下の式(1)のように表される。
ここでf∈{1,…,F}とt∈{1,…,T}は、それぞれ周波数ビンと時間フレームのインデックス(離散周波数と離散時間のインデックス)である。FおよびTは正整数である。また、α:=βはαをβと定義することを意味する。
以下では、残響の影響を考慮に入れて、各音源i∈{1,…,K,z}の混合音響信号成分xi(f,t)は、直接音成分と初期反射成分の和di(f,t)∈CMと、後部残響成分ri(f,t)∈CMとに分解できるとする。ここで、各di(f,t)は以下の空間モデルに従うと仮定する。
xi(f,t)=di(f,t)+ri(f,t), i∈{1,…,K,z} (2)
dk(f,t)=ak(f)sk(f,t)∈CM, k∈{1,…,K} (3)
dz(f,t)=Az(f)z(f,t)∈CM (4)
ak(f)∈CM, sk(f,t)∈C, k∈{1,…,K} (5)
Az(f)∈CM×(M-K), z(f,t)∈CM-K. (6)
ここで、ak(f)とsk(f,t)は、それぞれ目的音源kの伝達関数と源信号(目的信号)であり、Az(f)とz(f,t)は、それぞれM-K個の雑音源の伝達関数と源信号を行列表示したものである。音源が互いに独立であるという仮定のもとで、観測信号のみからx1(f,t),…,xK(f,t)を推定する問題はブラインド音源分離問題として知られている。これに対し、本実施形態で扱うブラインド音源抽出問題は、音源分離に加えて残響除去も施したd1(f,t),…,dK(f,t)を推定する問題として定義される。ただし、目的音源数Kは既知とする。
xi(f,t)=di(f,t)+ri(f,t), i∈{1,…,K,z} (2)
dk(f,t)=ak(f)sk(f,t)∈CM, k∈{1,…,K} (3)
dz(f,t)=Az(f)z(f,t)∈CM (4)
ak(f)∈CM, sk(f,t)∈C, k∈{1,…,K} (5)
Az(f)∈CM×(M-K), z(f,t)∈CM-K. (6)
ここで、ak(f)とsk(f,t)は、それぞれ目的音源kの伝達関数と源信号(目的信号)であり、Az(f)とz(f,t)は、それぞれM-K個の雑音源の伝達関数と源信号を行列表示したものである。音源が互いに独立であるという仮定のもとで、観測信号のみからx1(f,t),…,xK(f,t)を推定する問題はブラインド音源分離問題として知られている。これに対し、本実施形態で扱うブラインド音源抽出問題は、音源分離に加えて残響除去も施したd1(f,t),…,dK(f,t)を推定する問題として定義される。ただし、目的音源数Kは既知とする。
<IVEconvの確率モデル>
混合音響信号x(f,t)から後部残響成分を除去した後の音源信号の和を式(7)のようにおく。
IVEconvの確率モデルは、ハイパーパラメータΔ⊂Nを用いて,以下で定義される。ただし、Nは自然数全体の集合を表し、α⊂βはαがβの部分集合であることを表す。
sk(f,t)=wk(f)Hd(f,t)∈C, k∈{1,..,K} (9)
z(f,t)=Wz(f)Hd(f,t)∈CM-K (10)
sk(t):=[sk(1,t),...,sk(F,t)]T∈CF (11)
sk(t)~CN(0F,λk(t)IF), k∈{1,..,K} (12)
z(f,t)~CN(0M-K,IM-K) (13)
ここで、αTはαの転置であり、αHはαのエルミート転置であり、λk(t)はsk(t)のパワースペクトルであり、CN(μ,Σ)は平均ベクトルμで分散共分散行列Σの複素正規分布であり、Iαはα×αの単位行列であり、0αがすべての要素が0のα次元ベクトルであり、β~CN(μ,Σ)が、βが複素正規分布CN(μ,Σ)に従っていることを表し、p(α)はαの確率である。wk(f)がk番目の目的音源から発せられた目的信号に対応する成分を強調する音源分離フィルタであり、Wz(f)がz番目の雑音源から発せられた雑音信号に対応する成分を強調する音源分離フィルタである。
このIVEconvの確率モデルのモデルパラメータは次の4つである。
後部残響除去フィルタ:Qδ(f)∈CM×M,δ∈Δ
目的信号の音源分離フィルタ:wk(f)∈CM
目的信号のパワースペクトル:λk(t)∈R≧0
雑音信号の音源分離フィルタ:Wz(f)∈CM×(M-K)
ここでR≧0は0以上の実数全体の集合を意味する。
混合音響信号x(f,t)から後部残響成分を除去した後の音源信号の和を式(7)のようにおく。
IVEconvの確率モデルは、ハイパーパラメータΔ⊂Nを用いて,以下で定義される。ただし、Nは自然数全体の集合を表し、α⊂βはαがβの部分集合であることを表す。
sk(f,t)=wk(f)Hd(f,t)∈C, k∈{1,..,K} (9)
z(f,t)=Wz(f)Hd(f,t)∈CM-K (10)
sk(t):=[sk(1,t),...,sk(F,t)]T∈CF (11)
sk(t)~CN(0F,λk(t)IF), k∈{1,..,K} (12)
z(f,t)~CN(0M-K,IM-K) (13)
ここで、αTはαの転置であり、αHはαのエルミート転置であり、λk(t)はsk(t)のパワースペクトルであり、CN(μ,Σ)は平均ベクトルμで分散共分散行列Σの複素正規分布であり、Iαはα×αの単位行列であり、0αがすべての要素が0のα次元ベクトルであり、β~CN(μ,Σ)が、βが複素正規分布CN(μ,Σ)に従っていることを表し、p(α)はαの確率である。wk(f)がk番目の目的音源から発せられた目的信号に対応する成分を強調する音源分離フィルタであり、Wz(f)がz番目の雑音源から発せられた雑音信号に対応する成分を強調する音源分離フィルタである。
このIVEconvの確率モデルのモデルパラメータは次の4つである。
後部残響除去フィルタ:Qδ(f)∈CM×M,δ∈Δ
目的信号の音源分離フィルタ:wk(f)∈CM
目的信号のパワースペクトル:λk(t)∈R≧0
雑音信号の音源分離フィルタ:Wz(f)∈CM×(M-K)
ここでR≧0は0以上の実数全体の集合を意味する。
<IVEconvの確率モデルの単純化>
上記のモデルにおいて、残響除去フィルタと音源分離フィルタは一般に交互に最適化することになるため、最適化の結果が局所解に陥りやすい恐れがある。そのため、本実施形態では、IVEconvの確率モデルのモデルパラメータである残響除去フィルタと音源分離フィルタを、両フィルタを結合したひとつのフィルタに変換することでIVEconvの確率モデルを単純なモデルに書き換える。いま、ハイパーパラメータΔの要素をΔ={τ1,…,τ|Δ|}で表す。ただし、Δ∈{τ1,…,τ|Δ|}であり、|Δ|がハイパーパラメータΔの要素数を表す正整数である。また、以下のように定義する。
ただし、Qδ(f)が後部残響除去フィルタであり、x^(f,t)を混合音響信号列と呼ぶことにする。なお、x^(f,t)の上付き添え字「^」は、本来「x」の真上に記載すべきであるが、記載表記の制約上、x^(f,t)のように「x」の右上に記載する場合がある。このとき,以下の式(15)および(16)によって,Q(f)とW(f)=[w1(f),...,wK(f),Wz(f)]との組を、以下の式(17)に一対一変換する。
pk(f)=Q(f)wk(f)∈CM(|Δ|+1) (15)
Pz(f)=Q(f)Wz(f)∈CM(|Δ|+1)×(M-K) (16)
P(f)=[p1(f),...,pK(f),Pz(f)] (17)
ただし、Cα×βは複素数要素からなるα×β行列の集合全体を表す。pk(f)=Q(f)wk(f)はk番目の目的音源から発せられた目的信号に対応する畳み込み分離フィルタ成分である。またPz(f)=Q(f)Wz(f)はz番目の雑音源から発せられた雑音信号に対応する畳み込み分離フィルタ成分である。
上記のモデルにおいて、残響除去フィルタと音源分離フィルタは一般に交互に最適化することになるため、最適化の結果が局所解に陥りやすい恐れがある。そのため、本実施形態では、IVEconvの確率モデルのモデルパラメータである残響除去フィルタと音源分離フィルタを、両フィルタを結合したひとつのフィルタに変換することでIVEconvの確率モデルを単純なモデルに書き換える。いま、ハイパーパラメータΔの要素をΔ={τ1,…,τ|Δ|}で表す。ただし、Δ∈{τ1,…,τ|Δ|}であり、|Δ|がハイパーパラメータΔの要素数を表す正整数である。また、以下のように定義する。
ただし、Qδ(f)が後部残響除去フィルタであり、x^(f,t)を混合音響信号列と呼ぶことにする。なお、x^(f,t)の上付き添え字「^」は、本来「x」の真上に記載すべきであるが、記載表記の制約上、x^(f,t)のように「x」の右上に記載する場合がある。このとき,以下の式(15)および(16)によって,Q(f)とW(f)=[w1(f),...,wK(f),Wz(f)]との組を、以下の式(17)に一対一変換する。
pk(f)=Q(f)wk(f)∈CM(|Δ|+1) (15)
Pz(f)=Q(f)Wz(f)∈CM(|Δ|+1)×(M-K) (16)
P(f)=[p1(f),...,pK(f),Pz(f)] (17)
ただし、Cα×βは複素数要素からなるα×β行列の集合全体を表す。pk(f)=Q(f)wk(f)はk番目の目的音源から発せられた目的信号に対応する畳み込み分離フィルタ成分である。またPz(f)=Q(f)Wz(f)はz番目の雑音源から発せられた雑音信号に対応する畳み込み分離フィルタ成分である。
本実施形態では、後部残響除去と音源分離を同時に達成するフィルタP(f)のことを、畳み込み分離フィルタと呼ぶことにする。すなわち、畳み込み分離フィルタは、混合音響信号x(f,t)から後部残響成分を抑圧する後部残響除去フィルタQ(f)と、混合音響信号x(f,t)から各源信号に対応する成分を強調する音源分離フィルタW(f)と、を統合したフィルタである。この変換に伴い、式(8)-(10)は以下の式(18)および(19)のように変換される。
以上より、IVEconvの確率モデルは、式(11)-(14), (18)-(19)としてまとめられる。この確率モデルは、源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号x(f,t)から後部残響成分を抑圧する後部残響除去フィルタQδ(f)と、混合音響信号x(f,t)から各源信号に対応する成分を強調する音源分離フィルタW(f)と、を統合したフィルタである畳み込み分離フィルタP(f)を、混合音響信号x(f,t)および混合音響信号の遅延信号x(f,t-τ1),…,x(f,t-τ|Δ|)を含む混合音響信号列x^(f,t)に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号sk(f,t)が強調された各信号に対応する情報を得るモデルである。また、このモデルのモデルパラメータは、式(17)の畳み込み分離フィルタP(f)と、式(12)の目的信号のパワースペクトルλk(t)である。
<単純化されたIVEconvの確率モデルの最適化>
単純化されたIVEconvの確率モデルのモデルパラメータは、最尤法により推定できる。これは、次の式(20)で表される負の対数尤度である目的関数Jを最小化することで達成される。
ここで、|α|はαの絶対値であり、||α||はαのノルムであり、det(α)はαの行列式であり、「const.」はパラメータに依存しない定数である。畳み込み分離フィルタP(f)の最初のM行成分がW(f)=[w1(f),...,wK(f),Wz(f)]である。
単純化されたIVEconvの確率モデルのモデルパラメータは、最尤法により推定できる。これは、次の式(20)で表される負の対数尤度である目的関数Jを最小化することで達成される。
ここで、|α|はαの絶対値であり、||α||はαのノルムであり、det(α)はαの行列式であり、「const.」はパラメータに依存しない定数である。畳み込み分離フィルタP(f)の最初のM行成分がW(f)=[w1(f),...,wK(f),Wz(f)]である。
本実施形態では、畳み込み分離フィルタP(f)と目的信号sk(f,t)のパワースペクトルλk(t)とを交互に最適化する。畳込分離フィルタP(f)を固定すると、パワースペクトルλk(t)の大域最適解は以下のようになる。
よって、パワースペクトル推定では、畳み込み分離フィルタP(f)を固定したもとで、式(21)に従って各目的信号sk(f,t)のパワースペクトルλk(t)を推定する。
よって、パワースペクトル推定では、畳み込み分離フィルタP(f)を固定したもとで、式(21)に従って各目的信号sk(f,t)のパワースペクトルλk(t)を推定する。
また目的信号sk(f,t)のパワースペクトルλk(t)を固定した場合に、上記の負の目的関数Jを最適化(最小化)するように畳み込み分離フィルタP(f)を最適化する問題は、各周波数ビンの畳み込み分離フィルタP(1),…,P(F)について目的関数Jを最小化するF個の問題に分割できる。畳み込み分離フィルタP(f)について目的関数Jを最小化する問題は次のように表される。
ただし、以下を満たす。
ここでtr(α)はαの対角和である。
Gzは混合音響信号列x^(f,t)の共分散行列であり、Gkは目的信号sk(f,t)以外の信号を雑音信号とみなしたときの雑音共分散行列と捉えることができる。以上のように、畳み込み分離フィルタ推定では、各目的信号sk(f,t)のパワースペクトルλk(t)を固定したもとで、各周波数で混合音響信号に対する目的関数JP(f)を最適化する畳み込み分離フィルタP(f)を周波数ごとに推定する。
ただし、以下を満たす。
ここでtr(α)はαの対角和である。
Gzは混合音響信号列x^(f,t)の共分散行列であり、Gkは目的信号sk(f,t)以外の信号を雑音信号とみなしたときの雑音共分散行列と捉えることができる。以上のように、畳み込み分離フィルタ推定では、各目的信号sk(f,t)のパワースペクトルλk(t)を固定したもとで、各周波数で混合音響信号に対する目的関数JP(f)を最適化する畳み込み分離フィルタP(f)を周波数ごとに推定する。
所定の条件を満たすまで、上記のパワースペクトル推定の処理と畳み込み分離フィルタ推定の処理とが交互に実行させる。
[第1実施形態]
次に、図面を用いて第1実施形態を説明する。
[構成]
図1に例示するように、第1実施形態の信号処理装置1は、初期設定部11、パワースペクトル推定部12、畳み込み分離フィルタ推定部13、および制御部14を有する。信号処理装置1は制御部14の制御の下で各処理を実行する。図2に例示するように、第1実施形態の畳み込み分離フィルタ推定部13は、qk(f)演算部131、pk(f)演算部132、Pz(f)演算部134、および制御部133を有する。畳み込み分離フィルタ推定部13は、制御部133の制御の下で各処理を実行する。
次に、図面を用いて第1実施形態を説明する。
[構成]
図1に例示するように、第1実施形態の信号処理装置1は、初期設定部11、パワースペクトル推定部12、畳み込み分離フィルタ推定部13、および制御部14を有する。信号処理装置1は制御部14の制御の下で各処理を実行する。図2に例示するように、第1実施形態の畳み込み分離フィルタ推定部13は、qk(f)演算部131、pk(f)演算部132、Pz(f)演算部134、および制御部133を有する。畳み込み分離フィルタ推定部13は、制御部133の制御の下で各処理を実行する。
<処理>
前述のように、信号処理装置1は、源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号x(f,t)から後部残響成分を抑圧する後部残響除去フィルタQδ(f)と、混合音響信号x(f,t)から各源信号に対応する成分を強調する音源分離フィルタW(f)と、を統合したフィルタである畳み込み分離フィルタP(f)を、混合音響信号x(f,t)および混合音響信号の遅延信号x(f,t-τ1),…,x(f,t-τ|Δ|)を含む混合音響信号列x^(f,t)に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号sk(f,t)が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する。以下、詳細に説明する。
前述のように、信号処理装置1は、源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号x(f,t)から後部残響成分を抑圧する後部残響除去フィルタQδ(f)と、混合音響信号x(f,t)から各源信号に対応する成分を強調する音源分離フィルタW(f)と、を統合したフィルタである畳み込み分離フィルタP(f)を、混合音響信号x(f,t)および混合音響信号の遅延信号x(f,t-τ1),…,x(f,t-τ|Δ|)を含む混合音響信号列x^(f,t)に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号sk(f,t)が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する。以下、詳細に説明する。
≪初期設定部11の処理(ステップS11)≫
図3に例示するように、信号処理装置1の初期設定部11には、混合音響信号x(f,t)(f∈{1,…,F},t∈{1,…,T})が入力される。初期設定部11は、すべてのfについて、分離フィルタP(f)に任意の初期値を設定する。例えば、初期設定部11は、P(f)=[IM|OM×L]Tに設定する。ただしL:=|Δ|Mである。また初期設定部11は、式(14b)に従ってx^(f,t)を計算する。さらに初期設定部11は、すべてのfについて式(24)に従ってGz(f)を計算する。さらに初期設定部11は、式(24)に従ってすべてのfについてGz(f)-1∈C(M+L)×(M+L)を計算する。初期設定部11は、x^(f,t),P(f)をパワースペクトル推定部12に出力し、x^(f,t),P(f),Gz(f)-1を畳み込み分離フィルタ推定部13に出力する(ステップS11)。
図3に例示するように、信号処理装置1の初期設定部11には、混合音響信号x(f,t)(f∈{1,…,F},t∈{1,…,T})が入力される。初期設定部11は、すべてのfについて、分離フィルタP(f)に任意の初期値を設定する。例えば、初期設定部11は、P(f)=[IM|OM×L]Tに設定する。ただしL:=|Δ|Mである。また初期設定部11は、式(14b)に従ってx^(f,t)を計算する。さらに初期設定部11は、すべてのfについて式(24)に従ってGz(f)を計算する。さらに初期設定部11は、式(24)に従ってすべてのfについてGz(f)-1∈C(M+L)×(M+L)を計算する。初期設定部11は、x^(f,t),P(f)をパワースペクトル推定部12に出力し、x^(f,t),P(f),Gz(f)-1を畳み込み分離フィルタ推定部13に出力する(ステップS11)。
≪パワースペクトル推定部12の処理(ステップS12)≫
パワースペクトル推定部12は、x^(f,t)およびP(f)=[p1(f),...,pK(f),Pz(f)]を用い、すべてのf,tについて、式(18)に従って目的信号sk(f,t)を得、さらに式(11)(21)に従って目的信号sk(f,t)のパワースペクトルλk(t)を得る。すなわち、パワースペクトル推定部12は、畳み込み分離フィルタP(f)を固定したもとで、各目的信号sk(f,t)のパワースペクトルλk(t)を推定する。パワースペクトル推定部12は、パワースペクトルλk(t)を畳み込み分離フィルタ推定部13に出力する(ステップS12)。
パワースペクトル推定部12は、x^(f,t)およびP(f)=[p1(f),...,pK(f),Pz(f)]を用い、すべてのf,tについて、式(18)に従って目的信号sk(f,t)を得、さらに式(11)(21)に従って目的信号sk(f,t)のパワースペクトルλk(t)を得る。すなわち、パワースペクトル推定部12は、畳み込み分離フィルタP(f)を固定したもとで、各目的信号sk(f,t)のパワースペクトルλk(t)を推定する。パワースペクトル推定部12は、パワースペクトルλk(t)を畳み込み分離フィルタ推定部13に出力する(ステップS12)。
≪畳み込み分離フィルタ推定部13の処理(ステップS13)≫
畳み込み分離フィルタ推定部13は、各目的信号sk(f,t)のパワースペクトルλk(t)を固定したもとで、各周波数(f∈{1,…,F})で混合音響信号xk(f,t)に対する目的関数JP(f)(式(22))を最適化(最小化)する畳み込み分離フィルタP(f)を周波数ごとに推定する。これは目的関数Jを各周波数ビンf=1,…,Fにおける畳み込み分離フィルタP(f)について最小化する問題を解くことに相当する。例えば、畳み込み分離フィルタ推定部13は、図4に例示するように、すべてのfについてP(f)を更新する。更新されたP(f)はパワースペクトル推定部12に出力される。
畳み込み分離フィルタ推定部13は、各目的信号sk(f,t)のパワースペクトルλk(t)を固定したもとで、各周波数(f∈{1,…,F})で混合音響信号xk(f,t)に対する目的関数JP(f)(式(22))を最適化(最小化)する畳み込み分離フィルタP(f)を周波数ごとに推定する。これは目的関数Jを各周波数ビンf=1,…,Fにおける畳み込み分離フィルタP(f)について最小化する問題を解くことに相当する。例えば、畳み込み分離フィルタ推定部13は、図4に例示するように、すべてのfについてP(f)を更新する。更新されたP(f)はパワースペクトル推定部12に出力される。
P(f)の更新処理(図4):
まず、制御部133はk=1に設定する(ステップS133a)。
次にqk(f)演算部は、P(f),Gz(f)-1を入力とし、すべてのfについて、式(25)に従ってqk(f)を得て出力する。
ここで、前述のようにP(f)の最初のM行成分がW(f)=[w1(f),...,wK(f),Wz(f)]である。ekはk番目の成分が1のM次元単位ベクトルであり、α-Hはαの逆行列のエルミート転置である(ステップS131)。
まず、制御部133はk=1に設定する(ステップS133a)。
次にqk(f)演算部は、P(f),Gz(f)-1を入力とし、すべてのfについて、式(25)に従ってqk(f)を得て出力する。
ここで、前述のようにP(f)の最初のM行成分がW(f)=[w1(f),...,wK(f),Wz(f)]である。ekはk番目の成分が1のM次元単位ベクトルであり、α-Hはαの逆行列のエルミート転置である(ステップS131)。
制御部133はk=Kであるか否かを判定する(ステップS133)。ここでk=Kでない場合、制御部133はk+1を新たなkに設定し(ステップS133c)、ステップS131に戻す。一方、k=Kである場合、Pz(f)演算部134は、Gz(f)-1,pk(f)を入力とし、すべてのfについて、式(27)に従ってPz(f)を得て出力する。
ここで、ekがk番目の成分が1のM次元単位ベクトルであり、Ez:=[eK+1,...,eM]∈CM×(M-K)であり、Es:=[e1,...,eK]∈CM×Kであり、Ws(f):=[w1(f),...,wK(f)]∈CM×Kであり、0α×βがすべての要素が0のα×β行列である。前述のようにP(f)の最初のM行成分がW(f)=[w1(f),...,wK(f),Wz(f)]である(ステップS134)。
ここで、ekがk番目の成分が1のM次元単位ベクトルであり、Ez:=[eK+1,...,eM]∈CM×(M-K)であり、Es:=[e1,...,eK]∈CM×Kであり、Ws(f):=[w1(f),...,wK(f)]∈CM×Kであり、0α×βがすべての要素が0のα×β行列である。前述のようにP(f)の最初のM行成分がW(f)=[w1(f),...,wK(f),Wz(f)]である(ステップS134)。
pk(f)演算部132は、すべてのk,fについてpk(f)を出力し、Pz(f)演算部134は、すべてのz,fについてPz(f)を出力する。すなわち、畳み込み分離フィルタ推定部13は最適化された畳み込み分離フィルタP(f)=[p1(f),...,pK(f),Pz(f)]を出力する。さらに畳み込み分離フィルタ推定部13は、更新後のP(f)を以下のように正規化し、正規化後のP(f)を出力してもよい。
これにより、数値的安定性を向上させることができる。ただし、この正規化は必須ではなく、これらの正規化が行われなくてもよい(ステップS135)。
これにより、数値的安定性を向上させることができる。ただし、この正規化は必須ではなく、これらの正規化が行われなくてもよい(ステップS135)。
以上のように、畳み込み分離フィルタ推定部13は、式(22)の問題を図4のように解き、最適化された畳み込み分離フィルタP(f)を出力する。このとき、雑音信号は分離・抽出する必要がないため、図4では、雑音信号に対する畳み込み分離フィルタPzを厳密に最適化する代わりに、Pzが張る線形空間Im(Pz)までを最適化する方法を採用することで高速な音源抽出手法を実現している。
≪制御部14の処理(ステップS14)≫
制御部14は、所定の条件が充足されたかを判定する。所定の条件の例は、パワースペクトル推定(ステップS12)と畳み込み分離フィルタ推定(ステップS13)との処理の繰り返し回数が予め定めた繰り返し回数に到達したこと、あるいは、各モデルパラメータの更新量が所定の閾値以下となったこと等である。ここで所定の条件が充足されていない場合、制御部14は処理をステップS12に戻す。一方、所定の条件が充足された場合、制御部14は処理をステップS15に進める。すなわち制御部14は、所定の条件を満たすまで、パワースペクトル推定部12の処理と畳み込み分離フィルタ推定部13の処理とを交互に実行させる(ステップS14)。
制御部14は、所定の条件が充足されたかを判定する。所定の条件の例は、パワースペクトル推定(ステップS12)と畳み込み分離フィルタ推定(ステップS13)との処理の繰り返し回数が予め定めた繰り返し回数に到達したこと、あるいは、各モデルパラメータの更新量が所定の閾値以下となったこと等である。ここで所定の条件が充足されていない場合、制御部14は処理をステップS12に戻す。一方、所定の条件が充足された場合、制御部14は処理をステップS15に進める。すなわち制御部14は、所定の条件を満たすまで、パワースペクトル推定部12の処理と畳み込み分離フィルタ推定部13の処理とを交互に実行させる(ステップS14)。
ステップS15では、すべてのf,kについて、パワースペクトル推定部12が上述のように最適化した目的信号sk(f,t)(ステップS12)を出力し、畳み込み分離フィルタ推定部13が上述のように最適化された畳み込み分離フィルタP(f)を出力する(ステップS15)。
<本実施形態の特徴>
本実施形態では、後部残響除去フィルタと音源分離フィルタとを統合した畳み込み分離フィルタを用いたモデルを用いるため、雑音に加えて残響にも頑健な音源抽出を高速で行うことが可能である。また、上述の処理はリアルタイム処理によって実行可能である。
本実施形態では、後部残響除去フィルタと音源分離フィルタとを統合した畳み込み分離フィルタを用いたモデルを用いるため、雑音に加えて残響にも頑健な音源抽出を高速で行うことが可能である。また、上述の処理はリアルタイム処理によって実行可能である。
[第2実施形態]
次に、第2実施形態を説明する。目的音源数Kが1の場合、畳み込み分離フィルタをより高速に最適化することができる。第2実施形態ではこの方式について説明する。第2実施形態の第1実施形態からの相違点は、K=1に限定される点および畳み込み分離フィルタの最適化手順である。以下では、これまで説明した事項との相違点を中心に説明し、既に説明した事項については同じ参照番号を引用して処理を簡略化する。
次に、第2実施形態を説明する。目的音源数Kが1の場合、畳み込み分離フィルタをより高速に最適化することができる。第2実施形態ではこの方式について説明する。第2実施形態の第1実施形態からの相違点は、K=1に限定される点および畳み込み分離フィルタの最適化手順である。以下では、これまで説明した事項との相違点を中心に説明し、既に説明した事項については同じ参照番号を引用して処理を簡略化する。
[構成]
図1に例示するように、第2実施形態の信号処理装置2は、初期設定部21、パワースペクトル推定部12、畳み込み分離フィルタ推定部23、および制御部14を有する。信号処理装置2は制御部14の制御の下で各処理を実行する。図5に例示するように、第2実施形態の畳み込み分離フィルタ推定部23は、畳み込み分離フィルタ推定部13、方程式求解部231、固有値問題求解部232、p1(f)演算部234、および制御部233を有する。畳み込み分離フィルタ推定部23は、制御部233の制御の下で各処理を実行する。
図1に例示するように、第2実施形態の信号処理装置2は、初期設定部21、パワースペクトル推定部12、畳み込み分離フィルタ推定部23、および制御部14を有する。信号処理装置2は制御部14の制御の下で各処理を実行する。図5に例示するように、第2実施形態の畳み込み分離フィルタ推定部23は、畳み込み分離フィルタ推定部13、方程式求解部231、固有値問題求解部232、p1(f)演算部234、および制御部233を有する。畳み込み分離フィルタ推定部23は、制御部233の制御の下で各処理を実行する。
<処理>
本実施形態でも、畳み込み分離フィルタP(f)を、混合音響信号x(f,t)および混合音響信号の遅延信号x(f,t-τ1),…,x(f,t-τ|Δ|)を含む混合音響信号列x^(f,t)に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号sk(f,t)が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する。以下、詳細に説明する。
本実施形態でも、畳み込み分離フィルタP(f)を、混合音響信号x(f,t)および混合音響信号の遅延信号x(f,t-τ1),…,x(f,t-τ|Δ|)を含む混合音響信号列x^(f,t)に適用して、後部残響成分が抑圧され、かつ、源信号のうち各目的音源から発せられた各目的信号sk(f,t)が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する。以下、詳細に説明する。
≪初期設定部21の処理(ステップS21)≫
図3に例示するように、信号処理装置2の初期設定部21には、混合音響信号x(f,t)(f∈{1,…,F},t∈{1,…,T})が入力される。初期設定部21は、すべてのfについて、分離フィルタP(f)に任意の初期値を設定する。また初期設定部21は、式(14b)に従ってx^(f,t)を計算する。さらに初期設定部21は、すべてのfについて式(24)に従ってGz(f)を計算する。さらに初期設定部21は、式(24)に従ってすべてのfについてGz(f)-1∈C(M+L)×(M+L)を計算する。また初期設定部21は、Gz(f)-1の先頭のM×Mの小行列Vz(f)を抽出する。初期設定部21は、x^(f,t),P(f)をパワースペクトル推定部12に出力し、x^(f,t),P(f),Gz(f)-1,Vz(f)を畳み込み分離フィルタ推定部13に出力する(ステップS21)。
図3に例示するように、信号処理装置2の初期設定部21には、混合音響信号x(f,t)(f∈{1,…,F},t∈{1,…,T})が入力される。初期設定部21は、すべてのfについて、分離フィルタP(f)に任意の初期値を設定する。また初期設定部21は、式(14b)に従ってx^(f,t)を計算する。さらに初期設定部21は、すべてのfについて式(24)に従ってGz(f)を計算する。さらに初期設定部21は、式(24)に従ってすべてのfについてGz(f)-1∈C(M+L)×(M+L)を計算する。また初期設定部21は、Gz(f)-1の先頭のM×Mの小行列Vz(f)を抽出する。初期設定部21は、x^(f,t),P(f)をパワースペクトル推定部12に出力し、x^(f,t),P(f),Gz(f)-1,Vz(f)を畳み込み分離フィルタ推定部13に出力する(ステップS21)。
≪パワースペクトル推定部12の処理(ステップS12)≫
パワースペクトル推定部12は、第1実施形態で説明した通りに、畳み込み分離フィルタP(f)を固定したもとで、各目的信号sk(f,t)のパワースペクトルλk(t)を推定する。パワースペクトル推定部12は、パワースペクトルλk(t)を畳み込み分離フィルタ推定部23に出力する(ステップS12)。
パワースペクトル推定部12は、第1実施形態で説明した通りに、畳み込み分離フィルタP(f)を固定したもとで、各目的信号sk(f,t)のパワースペクトルλk(t)を推定する。パワースペクトル推定部12は、パワースペクトルλk(t)を畳み込み分離フィルタ推定部23に出力する(ステップS12)。
≪畳み込み分離フィルタ推定部23の処理(ステップS23)≫
畳み込み分離フィルタ推定部23は、各目的信号sk(f,t)のパワースペクトルλk(t)を固定したもとで、各周波数(f∈{1,…,F})で混合音響信号xk(f,t)に対する目的関数JP(f)(式(22))を最適化(最小化)する畳み込み分離フィルタP(f)を周波数ごとに推定する。例えば、畳み込み分離フィルタ推定部23は、図6に例示するように、すべてのfについてP(f)を更新する。更新されたP(f)はパワースペクトル推定部12に出力される。
畳み込み分離フィルタ推定部23は、各目的信号sk(f,t)のパワースペクトルλk(t)を固定したもとで、各周波数(f∈{1,…,F})で混合音響信号xk(f,t)に対する目的関数JP(f)(式(22))を最適化(最小化)する畳み込み分離フィルタP(f)を周波数ごとに推定する。例えば、畳み込み分離フィルタ推定部23は、図6に例示するように、すべてのfについてP(f)を更新する。更新されたP(f)はパワースペクトル推定部12に出力される。
P(f)の更新処理(図6):
方程式求解部231は、x^(f,t)およびλ1(t)を用い、すべてのfについて、式(23)に従ってG1(f)を得、さらに方程式求解部231は、すべてのfについて、式(28)の方程式を満たすM×M行列V1(f)∈CM×MおよびL×M行列C(f)∈CL×Mを算出して出力する。
M×M行列V1(f)は固有値問題求解部232およびp1(t)演算部234に出力され、L×M行列C(f)はp1(t)演算部234に出力される(ステップS231)。
方程式求解部231は、x^(f,t)およびλ1(t)を用い、すべてのfについて、式(23)に従ってG1(f)を得、さらに方程式求解部231は、すべてのfについて、式(28)の方程式を満たすM×M行列V1(f)∈CM×MおよびL×M行列C(f)∈CL×Mを算出して出力する。
M×M行列V1(f)は固有値問題求解部232およびp1(t)演算部234に出力され、L×M行列C(f)はp1(t)演算部234に出力される(ステップS231)。
固有値問題求解部232は、V1(f),Vz(f)を入力とし、すべてのfについて一般化固有値問題V1(f)q=λVz(f)qを解いて最大固有値λに対応する固有ベクトルq=a1(f)を得て出力する。固有ベクトルq=a1(f)はp1(t)演算部234に出力される(ステップS232)。
≪制御部14の処理(ステップS14)≫
制御部14は、所定の条件が充足されたかを判定する。ここで所定の条件が充足されていない場合、制御部14は処理をステップS12に戻す。一方、所定の条件が充足された場合、制御部14は処理をステップS25に進める。
制御部14は、所定の条件が充足されたかを判定する。ここで所定の条件が充足されていない場合、制御部14は処理をステップS12に戻す。一方、所定の条件が充足された場合、制御部14は処理をステップS25に進める。
ステップS25では、まず、畳み込み分離フィルタ推定部23の畳み込み分離フィルタ推定部13が、すべてのfについて第1実施形態で説明したようにPz(f)を得て出力する。さらに、すべてのf,kについて、パワースペクトル推定部12が上述のように最適化した目的信号sk(f,t)(ステップS12)を出力し、畳み込み分離フィルタ推定部23が上述のように最適化された畳み込み分離フィルタP(f)=[p1(f),Pz(f)]を出力する(ステップS25)。
[第2実施形態の変形例]
固有値問題求解部232は、以下の式(30)によって、ステップS232の最大固有値λに対応する固有ベクトルq=a1(f)を得てもよい。
ここでVzとV1の逆行列Vz -1とV1 -1は、それぞれ、残響の影響を取り除いた後の混合音響信号列と雑音信号列の共分散行列と考えることができるので、式(32)による処理はMaxSNRに基づくステアリングベクトル推定と捉えることができる。また、ステップS234は、畳み込みビームフォーマの計算に相当する。このことから畳み込み分離フィルタ推定部23によるIVEconvは、MaxSNRに基づくステアリングベクトル推定と畳み込みビームフォーマによる音源抽出との繰り返しに相当すると言える。
固有値問題求解部232は、以下の式(30)によって、ステップS232の最大固有値λに対応する固有ベクトルq=a1(f)を得てもよい。
ここでVzとV1の逆行列Vz -1とV1 -1は、それぞれ、残響の影響を取り除いた後の混合音響信号列と雑音信号列の共分散行列と考えることができるので、式(32)による処理はMaxSNRに基づくステアリングベクトル推定と捉えることができる。また、ステップS234は、畳み込みビームフォーマの計算に相当する。このことから畳み込み分離フィルタ推定部23によるIVEconvは、MaxSNRに基づくステアリングベクトル推定と畳み込みビームフォーマによる音源抽出との繰り返しに相当すると言える。
[第3実施形態]
第3実施形態では、第1,2実施形態または第2実施形態の変形例で最適化された目的信号sk(f,t)および畳み込み分離フィルタP(f)から、目的信号sk(f,t)の直接音成分と初期反射成分の和dk(f,t)を得て出力する。
第3実施形態では、第1,2実施形態または第2実施形態の変形例で最適化された目的信号sk(f,t)および畳み込み分離フィルタP(f)から、目的信号sk(f,t)の直接音成分と初期反射成分の和dk(f,t)を得て出力する。
図7に例示するように、第3実施形態のシステムは、第1,2実施形態または第2実施形態の変形例の信号処理装置1(2)および信号抽出装置3を有する。前述のように、信号処理装置1(2)は、混合音響信号x(f,t)を入力とし、前述のように最適化された目的信号sk(f,t)および畳み込み分離フィルタP(f)を出力する。
信号抽出装置3は、最適化された目的信号sk(f,t)および畳み込み分離フィルタP(f)を入力とし、すべてのk,f,tについて、以下の式(31)に従ってdk(f,t)を得て出力する。
その後、得られたdk(f,t)は時間周波数領域で他の処理に用いられてもよいし、時間領域に変換されてもよい。
その後、得られたdk(f,t)は時間周波数領域で他の処理に用いられてもよいし、時間領域に変換されてもよい。
[実験]
実験では表1に書かれた4手法の性能評価を行った。ここで(a)は「N. Ono, Proc. WASPAA, pp. 189-192, 2011.」(参考文献1)に記載された従来法であり、(b)は「R. Scheibler and N. Ono, arXiv preprint arXiv:1910.10654, 2019.」(参考文献2)に記載された従来法であり、(c)は「T. Yoshioka and T. Nakatani, IEEE Trans. ASLP, vol. 20, no. 10, pp. 2707-2720, 2012.」(参考文献3)に基づく従来法である。ただし、(c)はWPEとIVAの交互最適化であり、参考文献3で提案されたWPEとICA(IVA)の交互最適化を高速化した手法である。実験条件は表2のとおりである。なお、RTFは処理速度を表す。(a)と(c)ではM(>K)個の出力のうち、パワーの大きいK個を音源抽出結果として選びSDR/SIRを計測した。表1より本実施形態の手法の有効性が確認できた。
実験では表1に書かれた4手法の性能評価を行った。ここで(a)は「N. Ono, Proc. WASPAA, pp. 189-192, 2011.」(参考文献1)に記載された従来法であり、(b)は「R. Scheibler and N. Ono, arXiv preprint arXiv:1910.10654, 2019.」(参考文献2)に記載された従来法であり、(c)は「T. Yoshioka and T. Nakatani, IEEE Trans. ASLP, vol. 20, no. 10, pp. 2707-2720, 2012.」(参考文献3)に基づく従来法である。ただし、(c)はWPEとIVAの交互最適化であり、参考文献3で提案されたWPEとICA(IVA)の交互最適化を高速化した手法である。実験条件は表2のとおりである。なお、RTFは処理速度を表す。(a)と(c)ではM(>K)個の出力のうち、パワーの大きいK個を音源抽出結果として選びSDR/SIRを計測した。表1より本実施形態の手法の有効性が確認できた。
[ハードウェア構成]
各実施形態における信号処理装置1,2および信号抽出装置3は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
各実施形態における信号処理装置1,2および信号抽出装置3は、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
図8は、各実施形態における信号処理装置1,2および信号抽出装置3のハードウェア構成を例示したブロック図である。図8に例示するように、この例の信号処理装置1,2は、CPU(Central Processing Unit)10a、入力部10b、出力部10c、RAM(Random Access Memory)10d、ROM(Read Only Memory)10e、補助記憶装置10f及びバス10gを有している。この例のCPU10aは、制御部10aa、演算部10ab及びレジスタ10acを有し、レジスタ10acに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部10bは、データが入力される入力端子、キーボード、マウス、タッチパネル等である。また、出力部10cは、データが出力される出力端子、ディスプレイ、所定のプログラムを読み込んだCPU10aによって制御されるLANカード等である。また、RAM10dは、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、所定のプログラムが格納されるプログラム領域10da及び各種データが格納されるデータ領域10dbを有している。また、補助記憶装置10fは、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、所定のプログラムが格納されるプログラム領域10fa及び各種データが格納されるデータ領域10fbを有している。また、バス10gは、CPU10a、入力部10b、出力部10c、RAM10d、ROM10e及び補助記憶装置10fを、情報のやり取りが可能なように接続する。CPU10aは、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置10fのプログラム領域10faに格納されているプログラムをRAM10dのプログラム領域10daに書き込む。同様にCPU10aは、補助記憶装置10fのデータ領域10fbに格納されている各種データを、RAM10dのデータ領域10dbに書き込む。そして、このプログラムやデータが書き込まれたRAM10d上のアドレスがCPU10aのレジスタ10acに格納される。CPU10aの制御部10aaは、レジスタ10acに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM10d上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部10abに順次実行させ、その演算結果をレジスタ10acに格納していく。このような構成により、信号処理装置1,2および信号抽出装置3の機能構成が実現される。
上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
なお、本発明は上述の実施形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
1,2 信号処理装置
Claims (10)
- 源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号から後部残響成分を抑圧する後部残響除去フィルタと、前記混合音響信号から各前記源信号に対応する成分を強調する音源分離フィルタと、を統合したフィルタである畳み込み分離フィルタを、前記混合音響信号および前記混合音響信号の遅延信号を含む混合音響信号列に適用して、前記後部残響成分が抑圧され、かつ、前記源信号のうち各目的音源から発せられた各目的信号が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する、信号処理装置。
- 請求項1の信号処理装置であって、
前記観測混合音響信号はM個の音源から発せられた前記源信号をM個のマイクロホンで観測して得られ、
前記源信号はK個の目的音源から発せられた目的信号を含み、
Mが2以上の整数であり、Kが1以上の整数であり、1≦K≦M-1であり、
前記混合音響信号がx(f,t)であり、
fが離散周波数のインデックスであり、f∈{1,…,F}であり、Fが正整数であり、
tが離散時間のインデックスであり、t∈{1,…,T}であり、Tが正整数であり、
前記畳み込み分離フィルタがp1(f),...,pK(f)を含み、
pk(f)=Q(f)wk(f)がk番目の目的音源から発せられた目的信号に対応する畳み込み分離フィルタ成分であり、k∈{1,…,K}であり、wk(f)がk番目の目的音源から発せられた目的信号に対応する成分を強調する前記音源分離フィルタであり、
であり、Iαがα×αの単位行列であり、Qδ(f)が前記後部残響除去フィルタであり、δ∈Δであり、Δ∈{τ1,…,τ|Δ|}であり、|Δ|が正整数であり、
前記混合音響信号列が
であり、
各前記目的信号が
を含み、αHがαのエルミート転置である、信号処理装置。 - 請求項2の信号処理装置であって、
前記源信号はさらにM-K個の雑音源から発せられた雑音信号を含み、
前記畳み込み分離フィルタがさらにPz(f)を含み、
Pz(f)=Q(f)Wz(f)が雑音源から発せられた雑音信号に対応する畳み込み分離フィルタ成分であり、Wz(f)が雑音源から発せられた雑音信号に対応する成分を強調する前記音源分離フィルタであり、
各前記雑音信号に対応する情報が
であり、
sk(t)~CN(0F,λk(t)IF)
z(f,t)~CN(0M-K,IM-K)
であり、
sk(t):=[sk(1,t),…,sk(F,t)]Tであり、λk(t)がsk(t)のパワースペクトルであり、αTがαの転置であり、CN(μ,Σ)が平均ベクトルμで分散共分散行列Σの複素正規分布であり、0αがすべての要素が0のα次元ベクトルであり、β~CN(μ,Σ)が、βが前記複素正規分布CN(μ,Σ)に従っていることを表し、
であり、p(α)がαの生じる確率である、信号処理装置。 - 請求項3の信号処理装置であって、
前記畳み込み分離フィルタP(f)=[p1(f),...,pK(f),Pz(f)]を固定したもとで、sk(t)のパワースペクトル
を得るパワースペクトル推定部と、
各前記目的信号のパワースペクトルλk(t)を固定したもとで、fに対応する各周波数で前記混合音響信号x(f,t)に対する目的関数
を最小化する前記畳み込み分離フィルタP(f)を前記周波数ごとに得る畳み込み分離フィルタ推定部と、
所定の条件を満たすまで、前記パワースペクトル推定部の処理と前記畳み込み分離フィルタ推定部の処理とを交互に実行させる制御部と、
を有し、
であり、
であり、
前記畳み込み分離フィルタP(f)の最初のM行成分がW(f):=[w1(f),...,wK(f),Wz(f)]であり、
tr(α)がαの対角和であり、det(α)がαの行列式である、信号処理装置。 - 請求項1の信号処理装置であって、
前記モデルパラメータは、各前記目的信号のパワースペクトル、および、前記畳み込み分離フィルタを含み、
前記畳み込み分離フィルタを固定したもとで、各前記目的信号の前記パワースペクトルを推定するパワースペクトル推定部と、
各前記目的信号の前記パワースペクトルを固定したもとで、各周波数で前記混合音響信号に対する目的関数を最適化する前記畳み込み分離フィルタを周波数ごとに推定する畳み込み分離フィルタ推定部と、
所定の条件を満たすまで、前記パワースペクトル推定部の処理と前記畳み込み分離フィルタ推定部の処理とを交互に実行させる制御部と、
を有する信号処理装置。 - 源信号を観測して得られる観測混合音響信号を時間周波数領域に変換して得られる混合音響信号から後部残響成分を抑圧する後部残響除去フィルタと、前記混合音響信号から各前記源信号に対応する成分を強調する音源分離フィルタと、を統合したフィルタである畳み込み分離フィルタを、前記混合音響信号および前記混合音響信号の遅延信号を含む混合音響信号列に適用して、前記後部残響成分が抑圧され、かつ、前記源信号のうち各目的音源から発せられた各目的信号が強調された各信号に対応する情報を得るモデル、のモデルパラメータを推定する、信号処理方法。
- 請求項1から8の何れかの信号処理装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/007643 WO2021171406A1 (ja) | 2020-02-26 | 2020-02-26 | 信号処理装置、信号処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021171406A1 JPWO2021171406A1 (ja) | 2021-09-02 |
JP7351401B2 true JP7351401B2 (ja) | 2023-09-27 |
Family
ID=77490797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022502647A Active JP7351401B2 (ja) | 2020-02-26 | 2020-02-26 | 信号処理装置、信号処理方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230087982A1 (ja) |
JP (1) | JP7351401B2 (ja) |
WO (1) | WO2021171406A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688515B (zh) * | 2024-02-04 | 2024-05-17 | 潍柴动力股份有限公司 | 空压机的声品质评价方法、装置、存储介质与电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015070321A (ja) | 2013-09-26 | 2015-04-13 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009110578A1 (ja) * | 2008-03-03 | 2009-09-11 | 日本電信電話株式会社 | 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体 |
JP5231139B2 (ja) * | 2008-08-27 | 2013-07-10 | 株式会社日立製作所 | 音源抽出装置 |
JP2018028620A (ja) * | 2016-08-18 | 2018-02-22 | 株式会社日立製作所 | 音源分離方法、装置およびプログラム |
JP7046636B2 (ja) * | 2018-02-16 | 2022-04-04 | 日本電信電話株式会社 | 信号解析装置、方法、及びプログラム |
-
2020
- 2020-02-26 US US17/802,090 patent/US20230087982A1/en active Pending
- 2020-02-26 WO PCT/JP2020/007643 patent/WO2021171406A1/ja active Application Filing
- 2020-02-26 JP JP2022502647A patent/JP7351401B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015070321A (ja) | 2013-09-26 | 2015-04-13 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20230087982A1 (en) | 2023-03-23 |
WO2021171406A1 (ja) | 2021-09-02 |
JPWO2021171406A1 (ja) | 2021-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7351401B2 (ja) | 信号処理装置、信号処理方法、およびプログラム | |
JP7167746B2 (ja) | 非負値行列分解最適化装置、非負値行列分解最適化方法、プログラム | |
JP6815956B2 (ja) | フィルタ係数算出装置、その方法、及びプログラム | |
JP7444243B2 (ja) | 信号処理装置、信号処理方法、およびプログラム | |
CN110992977B (zh) | 一种目标声源的提取方法及装置 | |
JP7156064B2 (ja) | 潜在変数最適化装置、フィルタ係数最適化装置、潜在変数最適化方法、フィルタ係数最適化方法、プログラム | |
JP4630203B2 (ja) | 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体、並びに、信号到来方向推定装置、信号到来方向推定方法、信号到来方向推定プログラム及び記録媒体 | |
JP7428251B2 (ja) | 目的音信号生成装置、目的音信号生成方法、プログラム | |
JP7222277B2 (ja) | 雑音抑圧装置、その方法、およびプログラム | |
WO2022172441A1 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
WO2021157062A1 (ja) | 量子化ビット数拡張のための学習装置、信号推定装置、学習方法、信号推定方法、およびプログラム | |
JP7159928B2 (ja) | 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム | |
JP7173355B2 (ja) | Psd最適化装置、psd最適化方法、プログラム | |
Wang et al. | Low-latency real-time independent vector analysis using convolutive transfer function | |
Schwartz et al. | A recursive expectation-maximization algorithm for speaker tracking and separation | |
JP7173356B2 (ja) | Psd最適化装置、psd最適化方法、プログラム | |
JP7487795B2 (ja) | 音源信号生成装置、音源信号生成方法、プログラム | |
JP2007249050A (ja) | 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体 | |
WO2023276068A1 (ja) | 音響信号強調装置、音響信号強調方法、プログラム | |
JP7375905B2 (ja) | フィルタ係数最適化装置、フィルタ係数最適化方法、プログラム | |
JP2020030373A (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
JP7375904B2 (ja) | フィルタ係数最適化装置、潜在変数最適化装置、フィルタ係数最適化方法、潜在変数最適化方法、プログラム | |
WO2024038522A1 (ja) | 信号処理装置、信号処理方法、プログラム | |
JP2023089431A (ja) | 信号処理装置、信号処理方法、およびプログラム | |
Chen et al. | Investigation of sampling techniques for maximum entropy language modeling training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230815 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230828 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7351401 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |