JP7115562B2 - 信号処理装置、信号処理方法、およびプログラム - Google Patents
信号処理装置、信号処理方法、およびプログラム Download PDFInfo
- Publication number
- JP7115562B2 JP7115562B2 JP2020559702A JP2020559702A JP7115562B2 JP 7115562 B2 JP7115562 B2 JP 7115562B2 JP 2020559702 A JP2020559702 A JP 2020559702A JP 2020559702 A JP2020559702 A JP 2020559702A JP 7115562 B2 JP7115562 B2 JP 7115562B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- frequency
- time interval
- beamformer
- steering vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 125
- 238000003672 processing method Methods 0.000 title claims description 7
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 239000013598 vector Substances 0.000 claims description 245
- 239000011159 matrix material Substances 0.000 claims description 222
- 230000001629 suppression Effects 0.000 claims description 49
- 230000006870 function Effects 0.000 claims description 29
- 230000003044 adaptive effect Effects 0.000 claims description 25
- 238000012546 transfer Methods 0.000 claims description 8
- 230000001419 dependent effect Effects 0.000 claims description 7
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 description 52
- 238000007796 conventional method Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 13
- 238000012986 modification Methods 0.000 description 13
- 230000004048 modification Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 230000015654 memory Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 4
- 230000001174 ascending effect Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
[記号の定義]
まず、実施形態で使用する記号を定義する。
M:Mはマイクロホン数を表す正整数である。例えば、M≧2である。
m:mはマイクロホン番号を表す正整数であり、1≦m≦Mを満たす。マイクロホン番号は丸括弧付きの右上添え字で表す。すなわち、マイクロホン番号mのマイクロホンで収音された信号に基づく値やベクトルは、右上添え字「(m)」を持つ記号で表現される(例えば、xf,t (m))。
N:Nは信号の時間フレームの総数を表す正整数である。例えば、N≧2である。
t,τ:t,τは時間フレーム番号を表す正整数であり、tは1≦t≦Nを満たす。時間フレーム番号は右下添え字で表す。すなわち、時間フレーム番号tの時間フレームに対応する値やベクトルは、右下添え字「t」を持つ記号で表現される(例えば、xf,t (m))。同様に、時間フレーム番号τの時間フレームに対応する値やベクトルは、右下添え字「τ」を持つ記号で表現される。
P:Pは周波数帯域(離散周波数)の総数を表す正整数である。例えば、P≧2である。
f:fは周波数帯域番号を表す正整数であり、1≦f≦Pを満たす。周波数帯域番号は右下添え字で表す。すなわち、周波数帯域番号fの周波数帯域に対応する値やベクトルは、右下添え字「f」を持つ記号で表現される(例えば、xf,t (m))。
T:Tは行列やベクトルの非共役転置を表す。α0 Tはα0を非共役転置して得られる行列やベクトルを表す。
H:Hは行列やベクトルの共役転置を表す。α0 Hはα0を共役転置して得られる行列やベクトルを表す。
|α0|:|α0|はα0の絶対値を表す。
||α0||:||α0||はα0のノルムを表す。
|α0|γ:|α0|γはα0の重み付き絶対値γ|α0|を表す。
||α0||γ:||α0||γはα0の重み付きノルムγ||α0||を表す。
次に原理を説明する。
<前提となる手法1>
実施形態の手法の前提となる手法1を説明する。手法1では周波数領域のM次元観測信号(周波数別観測信号)
から雑音と残響とを抑圧する。周波数別観測信号xf,tは、例えば、単数または複数の音源から発せられた音響信号をM個のマイクロホンで収音して得られたM個の観測信号を周波数領域に変換して得られたものである。観測信号は、雑音および残響が存在する環境下で音源から発せられた音響信号を集音して得られたものである。xf,t (m)はマイクロホン番号mのマイクロホンで収音して得られた観測信号を周波数領域に変換して得られるものである。xf,t (m)は、周波数帯域番号fの周波数帯域および時間フレーム番号tの時間フレームに対応する。すなわち、周波数別観測信号xf,tは時系列信号である。
なお、wf,0の右下添え字「0」は時間フレーム番号を表すものではなく、wf,0は時間フレームに依存しない。拘束条件は、例えば、wf,0 Hνf,0が定数(例えば1)となる条件である。ここで
は音源から各マイクロホン(音響信号の集音位置)までの直接音および初期反射音に関する伝達関数νf,0 (m)を要素とするステアリングベクトルまたはその推定ベクトル(推定ステアリングベクトル)である。すなわち、νf,0は、音源位置から各マイクロホンまでのインパルス応答の内、直接音と初期反射音(直接音から数十ミリ秒以内(例えば、30ミリ秒以内)に遅れて到達する残響)の部分に対応する伝達関数νf,0 (m)を要素とするM次元(マイクロホン数の次元)のベクトルで表される。ステアリングベクトルのゲインの推定が困難な場合には、いずれか一つのマイクロホン番号m0∈{1,…,M}のマイクロホンのゲインが定数g(g≠0)となるように各要素の伝達関数を正規化した正規化ベクトルをνf,0としてもよい。すなわち、以下のように正規化されたものをνf,0としてもよい。
実施形態の手法の前提となる手法2を説明する。手法2では周波数別観測信号xf,tから残響を抑圧する。手法2では、各周波数帯域で、以下のコスト関数C2(Ff)を最小化する残響抑圧フィルタFf,τをτ=d,d+1,…,d+L-1に対して求める。
ただし、残響抑圧フィルタFf,τは周波数別観測信号xf,tから残響を抑圧するM×M次行列フィルタである。dは予測遅延を表す正整数であり、Lはフィルタ長を表す正整数である。σf,t 2は目的信号のパワーであり、
である。周波数別観測信号xに対する||x||γは、周波数別観測信号xの重み付きノルム||x||γ=γ(xHx)である。
ただし、目的信号zf,tは以下のようなM次元縦ベクトルである。
実施形態の手法を説明する。手法1,2を統合した手法によって周波数別観測信号xf,tから雑音と残響とを抑圧して得られる目的信号yf,tは、以下のようにモデル化することができる。
ただし、τ≠0に対してwf,τ=-Ff,τwf,0であり、wf,τは雑音抑圧と残響抑圧とを同時に行うフィルタに相当する。w- fは畳み込みビームフォーマであり、各時刻において現在の信号と所定の遅延を持つ過去の信号列との重み付き和を計算するものである。なお、「w- f」の「-」は本来以下のように「w」の真上に表記すべきであるが、記載表記の制約上「w」の右上に表記する場合がある。
畳み込みビームフォーマw- fは、各時刻において現在の信号と所定の遅延を持つ過去の信号列との重み付き和を計算するものである。畳み込みビームフォーマw- fは、例えば以下のように表される。
ただし、以下を満たす。
また、x- f,tは以下のように表される。
なお、式(9A)の畳み込みビームフォーマw- fは、各時刻において現在の信号と所定の遅延を持つ長さ0の信号列との重み付き和を計算するものであり、各時刻において現在の信号の重み付け値を計算するビームフォーマである。さらに、以下に述べるように、L=0の場合であっても、本発明による信号処理装置は、音声らしさを表す確率に基づき畳み込みビームフォーマを求め、周波数別観測信号に適用して、目的信号を得ることができる。
ただし、「const.」は定数を表す。
ただし、Rは、以下のように求められる重み付き時空間共分散行列である。
信号処理装置は、例えば、上述の拘束条件(例えば、wf,0 Hνf,0が定数)のもと、式(13)のコスト関数C3(w- f)を最小化するw- fを求めてもよい。
ただし、ν- fはステアリングベクトルνf,0の要素νf,0 (m)を以下のように配置したベクトルである。
ただし、ν― f (m)はνf,0 (m)とL個の0とを要素とするL+1次元縦ベクトルである。
次に、第1実施形態を説明する。
図1Aに例示するように、本実施形態の信号処理装置1は推定部11と抑圧部12とを有する。
図1Bに例示するように、推定部11には、周波数別観測信号xf,tが入力される(式(1))。推定部11は、各周波数帯域において、周波数別観測信号xf,tに、各時刻において現在の信号と所定の遅延を持つ過去の信号列との重み付き和を計算する畳み込みビームフォーマw- fを適用して得られる推定信号が、所定の確率モデルに基づく推定信号の音声らしさを表す確率を大きくするように、畳み込みビームフォーマw- fを得て出力する。例えば、推定部11は、確率密度関数p({yf,t}t=1:N;w- f)に基づくyf,tの音声らしさを表す確率が大きくなるように(例えば、log p({yf,t}t=1:N;w- f)を大きくするように)畳み込みビームフォーマw- fを求める。好ましくは、推定部11は、この確率を最大化する(例えば、log p({yf,t}t=1:N;w- f)を最大化する)畳み込みビームフォーマw- fを求める。
抑圧部12には、周波数別観測信号xf,tとステップS11で得られた畳み込みビームフォーマw- fとが入力される。抑圧部12は、各周波数帯域において、畳み込みビームフォーマw- fを周波数別観測信号xf,tに適用して目的信号yf,t(推定信号)を得て出力する。例えば、抑圧部12は、式(16)に例示したように、w- fをx- f,tに適用して目的信号yf,tを得て出力する。
本実施形態では、周波数別観測信号xf,tに、各時刻において現在の信号と所定の遅延を持つ過去の信号列との重み付き和を計算する畳み込みビームフォーマw- fを適用して得られる推定信号が、所定の確率モデルに基づく推定信号の音声らしさを表す確率を大きくするように、畳み込みビームフォーマw- fを求めた。これは雑音抑圧と残響抑圧とを1つの系として最適化することに相当する。そのため、本実施形態では、従来よりも雑音と残響とを十分に抑圧することができる。
次に、第2実施形態を説明する。以下、これまで説明した処理部およびステップについては同じ参照番号を引用して説明を簡略化する。
図2Aに例示するように、本実施形態の信号処理装置2は推定部21と抑圧部12とを有する。推定部21は行列推定部211と畳み込みビームフォーマ推定部212とを有する。
図2Bに例示するように、行列推定部211には、周波数別観測信号xf,tおよび目的信号のパワーまたは推定パワーσf,t 2が入力される。行列推定部211は、各周波数帯域について、周波数別観測信号xf,tと目的信号のパワーまたは推定パワーσf,t 2とに基づき、重み付き時空間共分散行列Rfを得て出力する。例えば、行列推定部211は、式(14)に従って重み付き時空間共分散行列Rfを得て出力する。
畳み込みビームフォーマ推定部212には、ステアリングベクトルまたは推定ステアリングベクトルνf,0(式(4)または(5))とステップS211で得られた重み付き時空間共分散行列Rfとが入力される。畳み込みビームフォーマ推定部212は、重み付き時空間共分散行列Rfとステアリングベクトルまたは推定ステアリングベクトルνf,0とに基づき、畳み込みビームフォーマw- fを得て出力する。例えば、畳み込みビームフォーマ推定部212は、式(15)に従って畳み込みビームフォーマw- fを得て出力する。
第1実施形態と同一であるため説明を省略する。
本実施形態では、重み付き時空間共分散行列Rfを得、重み付き時空間共分散行列Rfとステアリングベクトルまたは推定ステアリングベクトルνf,0とに基づき、畳み込みビームフォーマw- fを得た。これは雑音抑圧と残響抑圧とを1つの系として最適化することに相当する。そのため、本実施形態では、従来よりも雑音と残響とを十分に抑圧することができる。
次に、第3実施形態を説明する。本実施形態では、σf,t 2およびνf,0の生成方法を例示する。
図3に例示するように、本実施形態の信号処理装置3は推定部21と抑圧部12とパラメータ推定部33とを有する。推定部21は行列推定部211と畳み込みビームフォーマ推定部212とを有する。また図4に例示するように、パラメータ推定部33は、初期設定部330と、パワー推定部331と、残響抑圧フィルタ推定部332と、残響抑圧フィルタ適用部333と、ステアリングベクトル推定部334と、瞬時ビームフォーマ推定部335と、瞬時ビームフォーマ適用部336と、制御部337とを有する。
<ステップS330>
初期設定部330には周波数別観測信号xf,tが入力される。初期設定部330は、周波数別観測信号xf,tを用い、目的信号の推定パワーσf,t 2の暫定値である暫定パワーσf,t 2を生成して出力する。例えば、初期設定部330は、以下に従って暫定パワーσf,t 2を生成して出力する。
なお、M=1の場合にはσf,t 2=|xf,t|2=xf,t Hxf,tである。
残響抑圧フィルタ推定部332には、周波数別観測信号xf,tと最新の暫定パワーσf,t 2とが入力される。残響抑圧フィルタ推定部332は、各周波数帯域において、式(7)のコスト関数C2(Ff)を最小化する残響抑圧フィルタFf,tをt=d,d+1,…,d+L-1に対して求めて出力する。
残響抑圧フィルタ適用部333には、周波数別観測信号xf,tとステップS332で得られた最新の残響抑圧フィルタFf,tとが入力される。残響抑圧フィルタ適用部333は、各周波数帯域において、周波数別観測信号xf,tに残響抑圧フィルタFf,tを適用して推定信号y’f,tを得て出力する。例えば、残響抑圧フィルタ適用部333は、式(8)に従って得たzf,tをy’f,tとして出力する。
ステアリングベクトル推定部334には、ステップS333で得られた最新の推定信号y’f,tが入力される。ステアリングベクトル推定部334は、各周波数帯域において、推定信号y’f,tを用い、推定ステアリングベクトルの暫定ベクトルである暫定ステアリングベクトルνf,0を得て出力する。例えば、ステアリングベクトル推定部334は、非特許文献1,2に記載されたステアリングベクトルの推定方法に従って、推定信号y’f,tに対する暫定ステアリングベクトルνf,0を得て出力する。例えば、ステアリングベクトル推定部334は、非特許文献2のyf,tとしてy’f,tを用いて推定されたステアリングベクトルを暫定ステアリングベクトルνf,0として出力する。また前述のように、いずれか一つのマイクロホン番号m0∈{1,…,M}のマイクロホンのゲインが定数gとなるように各要素の伝達関数を正規化した正規化ベクトルをνf,0としてもよい(式(5))。
瞬時ビームフォーマ推定部335には、ステップS333で得られた最新の推定信号y’f,tと、ステップS334で得られた最新の暫定ステアリングベクトルνf,0とが入力される。瞬時ビームフォーマ推定部335は、各周波数帯域において、「wf,0 Hνf,0が定数となる」との拘束条件のもとで、式(2)においてxf,t=y’f,tした以下の式(18)のC1(wf,0)を最小化する瞬時ビームフォーマwf,0を得て出力する。
瞬時ビームフォーマ適用部336には、ステップS333で得られた最新の推定信号y’f,tと、ステップS335で得られた最新の瞬時ビームフォーマwf,0とが入力される。瞬時ビームフォーマ適用部336は、各周波数帯域において、瞬時ビームフォーマwf,0を推定信号y’f,tに適用して推定信号y”f,tを得て出力する。例えば、瞬時ビームフォーマ適用部336は、以下のように推定信号y”f,tを得て出力する。
パワー推定部331には、ステップS336で得られた最新の推定信号y”f,tが入力される。パワー推定部331は、各周波数帯域において、推定信号y”f,tのパワーを暫定パワーσf,t 2として出力する。例えば、パワー推定部331は、以下に従って暫定パワーσf,t 2を生成して出力する。
σf,t 2=|y”f,t|2=y”f,t Hy”f,t (20)
制御部337は終了条件を満たした否かを判定する。終了条件に限定はないが、例えば、ステップS331-S336の処理の繰り返し回数が所定値を超えたこと、ステップS331-S336の処理を1回行った前後でのσf,t 2またはνf,0の変化量が所定値以下であることなどである。終了条件を満たしていない場合には、ステップS332の処理に戻る。一方、終了条件を満たした場合にはステップS337bに進む。
ステップS337bでは、パワー推定部331がステップS331で得た最新のσf,t 2を目的信号の推定パワーとして出力し、ステアリングベクトル推定部334がステップS334で得た最新のνf,0を推定ステアリングベクトルとして出力する。図3に例示するように、推定パワーσf,t 2は行列推定部211に入力され、推定ステアリングベクトルνf,0が畳み込みビームフォーマ推定部212に入力される。
上述のようにステアリングベクトルは周波数別観測信号xf,tに基づいて推定されるが、周波数別観測信号xf,tの残響を抑圧してから(好ましくは、残響を除去してから)ステアリングベクトルの推定を行うとその推定精度が向上する。すなわち、周波数別観測信号xf,tから残響成分を抑圧した周波数別残響抑圧信号を得、当該周波数別残響抑圧信号から推定ステアリングベクトルを得ることで推定ステアリングベクトルの精度を向上させることができる。
パラメータ推定部43(図7)の残響抑圧部431には周波数別観測信号xf,tが入力される。残響抑圧部431は、周波数別観測信号xf,tから残響成分を抑圧した(好ましくは、周波数別観測信号xf,tから残響成分を除去した)周波数別残響抑圧信号uf,tを得て出力する。周波数別観測信号xf,tから残響成分を抑圧(除去)する方法に限定はない。公知の残響抑圧(除去)方法を利用することができる。例えば、残響抑圧部431は、参考文献1に記載された方法を用い、周波数別観測信号xf,tから残響成分を抑圧した周波数別残響抑圧信号uf,tを得て出力する。
参考文献1:Takuya Yoshioka and Tomohiro Nakatani, "Generalization of Multi-Channel Linear Prediction Methods for Blind MIMO Impulse Response Shortening," IEEE Transactions on Audio, Speech, and Language Processing (Volume: 20, Issue: 10 , Dec. 2012)
残響抑圧部431で得られた周波数別残響抑圧信号uf,tはステアリングベクトル推定部432に入力される。ステアリングベクトル推定部432は、周波数別残響抑圧信号uf,tを入力としてステアリングベクトルの推定ベクトルである推定ステアリングベクトルを生成して出力する。周波数別の時系列信号を入力として推定ステアリングベクトルを得るためのステアリングベクトル推定処理方法は周知である。ステアリングベクトル推定部432は、任意のステアリングベクトル推定処理の入力として周波数別残響抑圧信号uf,tを用い、推定ステアリングベクトルνf,0を得て出力する。ステアリングベクトル推定処理方法に限定はなく、例えば、上述した非特許文献1,2に記載された方法を用いてもよいし、参考文献2,3等を用いてもよい。
参考文献2:N. Ito, S. Araki, M. Delcroix, and T. Nakatani, “Probabilistic spatial dictionary based online adaptive beamforming for meeting recognition in noisy and reverberant environments,” Proc IEEE ICASSP, pp. 681-685, 2017.
参考文献3:S. Markovich-Golan and S. Gannot, “Performance analysis of the covarience subtraction method for relative transfer function estimation and comparison to the covariance whitening method,” Proc. IEEE ICASSP, pp. 544-548, 2015.
第5実施形態ではステアリングベクトルの推定を逐次処理で実行する方法を説明する。これによって、例えば、オンラインで逐次的に入力された周波数別観測信号xf,tから各時間フレーム番号tの推定ステアリングベクトルを計算することができる。
ステアリングベクトル推定部532(図7,図8)には、周波数別の時系列信号である周波数別観測信号xf,tが入力される。
観測信号共分散行列更新部532a(図8)は、周波数別観測信号xf,tを入力とし、周波数別観測信号xf,t(第1時間区間に属する周波数別観測信号)、および周波数別観測信号xf,t-1の空間共分散行列Ψx,f,t-1(第1時間区間よりも過去の第2時間区間に属する周波数別観測信号の空間共分散行列)に基づく、周波数別観測信号xf,tの空間共分散行列Ψx,f,t(第1時間区間に属する周波数別観測信号の空間共分散行列)を得て出力する。例えば、観測信号共分散行列更新部532aは、周波数別観測信号xf,t(第1時間区間に属する周波数別観測信号)の共分散行列xf,txf,t Hと空間共分散行列Ψx,f,t-1(第1時間区間よりも過去の第2時間区間に属する周波数別観測信号の空間共分散行列)との線形和を、周波数別観測信号xf,tの空間共分散行列Ψx,f,t(第1時間区間に属する周波数別観測信号の空間共分散行列)として得て出力する。例えば、観測信号共分散行列更新部532aは、以下の式(21)に従って空間共分散行列Ψx,f,tを得て出力する。
ここで、βは忘却係数であり、例えば0<β<1の範囲に属する実数である。空間共分散行列Ψx,f,t-1の初期行列Ψx,f,0はどのようなものでもよい。例えば、M×M次元の単位行列を空間共分散行列Ψx,f,t-1の初期行列Ψx,f,0とすることができる。
雑音共分散逆行列更新部532dには、周波数別観測信号xf,tおよびマスク情報γf,t (n)が入力される。マスク情報γf,t (n)は、時間フレーム番号tおよび周波数帯域番号fに対応する時間周波数点において、周波数別観測信号xf,tに含まれる雑音成分の割合を表す情報である。言い換えると、マスク情報γf,t (n)は、時間フレーム番号tおよび周波数帯域番号fに対応する時間周波数点で、周波数別観測信号xf,tに含まれる雑音成分の占有確率を表す。マスク情報γf,t (n)の推定方法に限定はない。マスク情報γf,t (n)の推定方法は周知であり、例えば、complex Gaussian mixture model (CGMM)を用いる推定方法(例えば、参考文献4)、ニューラルネットワークを用いる推定方法(例えば、参考文献5)、およびそれらを結合した推定方法(例えば、参考文献6、参考文献7)などが知られている。
参考文献4:T. Higuchi, N. Ito, T. Yoshioka, and T. Nakatani, "Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise," Proc. IEEE ICASSP-2016, pp. 5210-5214, 2016.
参考文献5:J. Heymann, L. Drude, and R. Haeb-Umbach, "Neural network based spectral mask estimation for acoustic beamforming," Proc. IEEE ICASSP-2016, pp. 196-200, 2016.
参考文献6:T. Nakatani, N. Ito, T. Higuchi, S. Araki, and K. Kinoshita, "Integrating DNN-based and spatial clustering-based mask estimation for robust MVDR beamforming," Proc. IEEE ICASSP-2017, pp. 286-290, 2017.
参考文献7:Y. Matsui, T. Nakatani, M. Delcroix, K. Kinoshita, S. Araki, and S. Makino, "Online integration of DNN-based and spatial clustering-based mask estimation for robust MVDR beamforming," Proc. IWAENC, pp. 71-75, 2018.
マスク情報γf,t (n)は、事前に推定されて図示していない記憶装置に格納されたものであってもよいし、逐次的に推定されるものであってもよい。なお、「γf,t (n)」の右上添字の「(n)」は本来右下添字の「f,t」の真上に記載すべきであるが、記載表記の制約上、「f,t」の右上に記載してある。
ここで、αは忘却係数であり、例えば0<α<1の範囲に属する実数である。雑音共分散逆行列Ψ-1 n,f,t-1の初期行列Ψ-1 n,f,0はどのようなものでもよい。例えば、M×M次元の単位行列を雑音共分散逆行列Ψ-1 n,f,t-1の初期行列Ψ-1 n,f,0とすることができる。なお、「Ψ-1 n,f,t」の右上添字の「-1」は本来右下添字の「n,f,t」の真上に記載すべきであるが、記載表記の制約上、「n,f,t」の左上に記載してある。
主成分ベクトル更新部532bには、観測信号共分散行列更新部532aで得られた空間共分散行列Ψx,f,t、および雑音共分散逆行列更新部532dで得られた雑音共分散逆行列Ψ-1 n,f,tが入力される。主成分ベクトル更新部532bは、雑音共分散逆行列Ψ-1 n,f,t(周波数別観測信号の雑音共分散行列の逆行列)、空間共分散行列Ψx,f,t(第1時間区間に属する周波数別観測信号の空間共分散行列)、および主成分ベクトルv~ f,t-1(第2時間区間の主成分ベクトル)に基づき、パワー法によってΨ-1 n,f,tΨx,f,t(周波数別観測信号の雑音共分散行列の逆行列と、第1時間区間に属する周波数別観測信号の空間共分散行列と、の積)に対する主成分ベクトルv~ f,t(第1時間区間の主成分ベクトル)を得て出力する。例えば、主成分ベクトル更新部532bは、Ψ-1 n,f,tΨx,f,tv~ f,t-1に基づく主成分ベクトルv~ f,tを得て出力する。例えば、主成分ベクトル更新部532bは、以下の式(23)(24)に従って主成分ベクトルv~ f,tを得て出力する。なお、「v~ f,t」の右上添字の「~」は本来右下添字の「v」の真上に記載すべきであるが、記載表記の制約上、「v」の右上に記載している。
ここでv~ f,t refは、式(23)で得られるベクトルv~’f,tのM個の要素のうち、基準とする所定のマイクロホン(参照マイクロホンref)に対応する要素を表す。すなわち、式(23)(24)の例では、主成分ベクトル更新部532bは、v~’f,t=Ψ-1 n,f,tΨx,f,tv~ f,t-1の各要素をv~ f,t refで正規化したものを主成分ベクトルv~ f,tとしている。なお、「v~’f,t」の右上添字の「~」は本来右下添字の「v」の真上に記載すべきであるが、記載表記の制約上、「v」の右上に記載している。
雑音共分散行列更新部532eは、周波数別観測信号xf,t(第1時間区間に属する周波数別観測信号)、およびマスク情報γf,t (n)(第1時間区間に属するマスク情報)を入力とし、周波数別観測信号xf,t、マスク情報γf,t (n)、および雑音共分散行列Ψn,f,t-1(第1時間区間よりも過去の第2時間区間に属する周波数別観測信号の雑音共分散行列)に基づく、周波数別観測信号xf,tの雑音共分散行列Ψn,f,t(第1時間区間に属する周波数別観測信号の雑音共分散行列)を得て出力する。例えば、雑音共分散行列更新部532eは、周波数別観測信号xf,tの共分散行列xf,txf,t Hとマスク情報γf,t (n)との積γf,t (n)xf,txf,t Hと雑音共分散行列Ψn,f,t-1(第1時間区間よりも過去の第2時間区間に属する周波数別観測信号の雑音共分散行列)との線形和を、周波数別観測信号xf,tの雑音共分散行列Ψn,f,tとして得て出力する。例えば、雑音共分散行列更新部532eは、以下の式(25)に従って雑音共分散行列Ψn,f,tを得て出力する。
ここでαは忘却係数であり、例えば0<α<1の範囲に属する実数である。
ステアリングベクトル更新部532cは、主成分ベクトル更新部532bで得られた主成分ベクトルv~ f,t(第1時間区間の主成分ベクトル)、および雑音共分散行列更新部532eで得られた雑音共分散行列Ψn,f,t(周波数別観測信号の雑音共分散行列)を入力とし、これらに基づき、推定ステアリングベクトルνf,t(第1時間区間の推定ステアリングベクトル)を得て出力する。例えば、ステアリングベクトル更新部532cは、Ψn,f,tv~ f,tに基づく推定ステアリングベクトルνf,tを得て出力する。例えば、ステアリングベクトル更新部532cは、以下の式(26)(27)に従って推定ステアリングベクトルνf,tを得て出力する。
ここでvf,t refは、式(26)で得られるベクトルv’f,tのM個の要素のうち、参照マイクロホンrefに対応する要素を表す。すなわち、式(26)(27)の例では、ステアリングベクトル更新部532cは、v’f,t=Ψn,f,tv~ f,tの各要素をvf,t refで正規化したものを推定ステアリングベクトルνf,tとしている。
第5実施形態のステップS532dでは、雑音共分散逆行列更新部532dが周波数別観測信号xf,tおよびマスク情報γf,t (n)を用いて、時間フレーム番号tに対応する各時点において雑音共分散逆行列Ψ-1 n,f,tを適応更新した。しかしながら、雑音共分散逆行列更新部532dが、マスク情報γf,t (n)を用いることなく、雑音成分のみ存在するか雑音成分が支配的な時間区間の周波数別観測信号xf,tを用いて雑音共分散逆行列Ψ-1 n,f,tを得て出力してもよい。例えば、雑音共分散逆行列更新部532dが、雑音成分のみ存在するか雑音成分が支配的な時間区間の周波数別観測信号xf,tに対するxf,txf,t Hの時間平均の逆行列を雑音共分散逆行列Ψ-1 n,f,tとして出力してもよい。このように得られた雑音共分散逆行列Ψ-1 n,f,tは、各時間フレーム番号tのフレームにおいて継続的に使用される。
第5実施形態およびその変形例では、第1時間区間が時間フレーム番号tのフレームであり、第2時間区間が時間フレーム番号t-1のフレームである場合を例にとったが、これは本発明を限定するものではない。時間フレーム番号t以外の時間フレーム番号のフレームを第1時間区間としてもよい。時間フレーム番号t-1以外の第1時間区間よりも過去の時間フレームを第2時間区間としてもよい。
第5実施形態では、ステアリングベクトル推定部532が周波数別観測信号xf,tを入力とし、逐次処理で推定ステアリングベクトルνf,tを得て出力する。しかしながら、第4実施形態で説明したように、周波数別観測信号xf,tの残響を抑圧してからステアリングベクトルの推定を行うとその推定精度が向上する。第6実施形態では、周波数別観測信号xf,tの残響を抑圧してから、ステアリングベクトル推定部が第5実施形態で説明したように逐次処理で推定ステアリングベクトルνf,tを得て出力する例を説明する。
残響抑圧部431(図7)は、第4実施形態で説明したように、周波数別観測信号xf,tから残響成分を抑圧した(好ましくは、周波数別観測信号xf,tから残響成分を除去した)周波数別残響抑圧信号uf,tを得て出力する。
周波数別残響抑圧信号uf,tはステアリングベクトル推定部632に入力される。ステアリングベクトル推定部632の処理は、周波数別観測信号xf,tに代えて周波数別残響抑圧信号uf,tがステアリングベクトル推定部632に入力され、ステアリングベクトル推定部632が周波数別観測信号xf,tに代えて周波数別残響抑圧信号uf,tを使用することを除き、第5実施形態のステアリングベクトル推定部532の処理と同じである。すなわち、ステアリングベクトル推定部632の処理は、ステアリングベクトル推定部532の処理における周波数別観測信号xf,tを周波数別残響抑圧信号uf,tに置換したものである。その他は第5実施形態およびその変形例と同じである。つまり、ステアリングベクトル推定部632には、周波数別の時系列信号である周波数別残響抑圧信号uf,tが入力される。観測信号共分散行列更新部532aは、第1時間区間に属する周波数別残響抑圧信号uf,t、および第1時間区間よりも過去の第2時間区間に属する周波数別残響抑圧信号uf,t-1の空間共分散行列Ψx,f,t-1に基づく、第1時間区間に属する周波数別残響抑圧信号uf,tの空間共分散行列Ψx,f,tを得て出力する。主成分ベクトル更新部532bは、周波数別残響抑圧信号uf,tの雑音共分散行列の逆行列Ψ-1 n,f,t、第1時間区間に属する周波数別残響抑圧信号の空間共分散行列Ψx,f,t、および第2時間区間の主成分ベクトルv~ f,t-1に基づき、周波数別残響抑圧信号の雑音共分散行列の逆行列Ψ-1 n,f,tと、第1時間区間に属する周波数別残響抑圧信号の空間共分散行列Ψx,f,tと、の積Ψ-1 n,f,tΨx,f,tに対する第1時間区間の主成分ベクトルv~ f,tを得て出力する。ステアリングベクトル更新部532cは、周波数別残響抑圧信号uf,tの雑音共分散行列と第1時間区間の主成分ベクトルv~ f,tとに基づき、第1時間区間の推定ステアリングベクトルνf,tを得て出力する。
第7実施形態では、畳み込みビームフォーマの推定を逐次処理で実行する方法を説明する。これによって、例えば、オンラインで逐次的に入力された周波数別観測信号xf,tから各時間フレーム番号tの畳み込みビームフォーマを推定し、目的信号yf,tを得ることができる。
パラメータ推定部53(図6,図7)には周波数別観測信号xf,tが入力される。パラメータ推定部53のステアリングベクトル推定部532(図8)は、第5実施形態で説明したように、周波数別観測信号xf,tを入力として逐次処理で推定ステアリングベクトルνf,tを得て出力する(ステップS532)。推定ステアリングベクトルνf,tを以下のM次元ベクトルで表記する。
ただし、νf,t (m)は推定ステアリングベクトルνf,tのM個の要素のうち、マイクロホン番号mのマイクロホンに対応する要素を表す。ステアリングベクトル推定部532で得られた推定ステアリングベクトルνf,tは、畳み込みビームフォーマ推定部712に入力される。
行列推定部711(図6)には、周波数別観測信号xf,tおよび目的信号のパワーまたは推定パワーσf,t 2が入力される。行列推定部711に入力されるσf,t 2としては、例えば式(17)のように生成された暫定パワーが用いられてもよいし、第3実施形態で説明したように生成された推定パワーσf,t 2が用いられてもよい。行列推定部711は、周波数別観測信号xf,t(第1時間区間に属する周波数別観測信号)、および目的信号のパワーまたは推定パワーσf,t 2(第1時間区間に属する周波数別観測信号のパワーまたは推定パワー)、ならびに時空間共分散行列の逆行列
(第1時間区間よりも過去の第2時間区間の時空間共分散行列の逆行列)に基づき、時空間共分散行列の逆行列
(第1時間区間の時空間共分散行列の逆行列)を推定して出力する。時空間共分散行列の例は
である。この場合、行列推定部711は、例えば、以下の式(28)(29)に従って時空間共分散行列の逆行列
を生成して出力する。
ここで、式(28)のkf,tは(L+1)M次元ベクトルであり、式(29)の逆行列は(L+1)M×(L+1)Mの行列である。αは忘却係数であり、例えば0<α<1の範囲に属する実数である。また時空間共分散行列の逆行列
の初期行列はどのようなものでもよく、この初期行列の例は(L+1)M次元の単位行列
である。
行列推定部711で得られた
(第1時間区間の時空間共分散行列の逆行列)、およびパラメータ推定部53で得られた推定ステアリングベクトルνf,tは、ビームフォーマ推定部712に入力される。畳み込みビームフォーマ推定部712は、これらに基づき、畳み込みビームフォーマw- f,t(第1時間区間の畳み込みビームフォーマ)を得て出力する。例えば、畳み込みビームフォーマ推定部712は、以下の式(30)に従って畳み込みビームフォーマw- f,tを得て出力する。
ただし、
である。
はL+1次元ベクトルである。gfは0以外のスカラー定数である。
抑圧部72には、周波数別観測信号xf,t、およびビームフォーマ推定部712で得られた畳み込みビームフォーマw- f,tが入力される。抑圧部72は、各時間フレーム番号tおよび周波数帯域番号fにおいて、畳み込みビームフォーマw- f,tを周波数別観測信号xf,tに適用して目的信号yf,tを得て出力する。例えば、抑圧部72は、以下の式(31)に従って目的信号yf,tを得て出力する。
第7実施形態の信号処理装置7のパラメータ推定部53がパラメータ推定部63に置換されてもよい。すなわち、第7実施形態において、パラメータ推定部53に代えてパラメータ推定部63が周波数別観測信号xf,tを入力とし、第6実施形態で説明したように逐次処理で推定ステアリングベクトルνf,tを得て出力してもよい。
第7実施形態およびその変形例では、第1時間区間が時間フレーム番号tのフレームであり、第2時間区間が時間フレーム番号t-1のフレームである場合を例にとったが、これは本発明を限定するものではない。時間フレーム番号t以外の時間フレーム番号のフレームを第1時間区間としてもよい。時間フレーム番号t-1以外の第1時間区間よりも過去の時間フレームを第2時間区間としてもよい。
第2実施形態では、wf,0 Hνf,0が定数となるとの拘束条件のもと、コスト関数C3(w- f)を最小化するw- fの解析解を式(15)とみなし、式(15)に従って畳み込みビームフォーマw- fを得る例を説明した。第8実施形態では別の最適解を用い、畳み込みビームフォーマを得る例を示す。
ここでν- f,0は、ステアリングベクトルνf,0または推定ステアリングベクトルνf,0の参照マイクロホンref以外のマイクロホンに対応する要素からなるM-1次元列ベクトル、vf,0 refはνf,0の参照マイクロホンrefに対応する要素、IM-1は(M-1)×(M-1)次元の単位行列である。
wf,0=gfνf,0+Bfaf,0 (33)
と表記する。すると、Bf Hνf,0=0であるため、「wf,0 Hνf,0が定数となる」との拘束条件は、以下のように表記される。
wf,0 Hνf,0=(gfνf,0+Bfaf,0)Hνf,0=gf H|νf,0|2=定数
このように、式(33)のように定義しても、任意の変形瞬時ビームフォーマaf,0に対して「wf,0 Hνf,0が定数となる」という拘束条件を満たしている。そのため、瞬時ビームフォーマwf,0を式(33)のように定義してもよいことが分かる。本実施形態では瞬時ビームフォーマwf,0を式(33)のように定義した際の畳み込みビームフォーマの最適解を採用し、畳み込みビームフォーマの推定を行う。以下に詳細に説明する。
パラメータ推定部83(図9)は、周波数別観測信号xf,tを入力とし、前述したパラメータ推定部33,43,53,63の何れかと同じ方法で推定ステアリングベクトルを得、得られた推定ステアリングベクトルをνf,0として出力する。出力された推定ステアリングベクトルνf,0は、初期ビームフォーマ適用部813およびブロック部814に送られる。
初期ビームフォーマ適用部813には、推定ステアリングベクトルνf,0および周波数別観測信号xf,tが入力される。初期ビームフォーマ適用部813は、推定ステアリングベクトルνf,0および周波数別観測信号xf,t(第1時間区間に属する周波数別観測信号)に基づく、初期ビームフォーマ出力zf,t(第1時間区間の初期ビームフォーマ出力)を得て出力する。例えば、初期ビームフォーマ適用部813は、推定ステアリングベクトルνf,0の定数倍と周波数別観測信号xf,tとに基づく、初期ビームフォーマ出力zf,tを得て出力する。例えば、初期ビームフォーマ適用部813は、以下の式(34)に従って初期ビームフォーマ出力zf,tを得て出力する。
zf,t=(gfνf,0)Hxf,t (34)
出力された初期ビームフォーマ出力zf,tは、畳み込みビームフォーマ推定部812および抑圧部82に送られる。
ブロック部814には、推定ステアリングベクトルνf,0および周波数別観測信号xf,tが入力される。ブロック部814は、周波数別観測信号xf,tと推定ステアリングベクトルνf,0の直交補空間に対応するブロック行列Bfとに基づく、ベクトルx= f,tを得て出力する。前述のようにBf Hνf,0=0を満たす。ブロック行列Bfの一例は前述の式(32)に示した通りであるがこれは本発明を限定するものではなく、Bf Hνf,0=0を満たすブロック行列Bfであればどのようなものであってもよい。例えば、ブロック部814は、以下の式(35)(36)に従ってベクトルx= f,tを得て出力する。
なお、式(36)に例示するように、「x= f,t」の右上添字の「=」は本来右下添字の「x」の真上に記載すべきであるが、記載表記の制約上、「x」の右上に記載する場合がある。出力されたベクトルx= f,tは、行列推定部811、畳み込みビームフォーマ推定部812、および抑圧部82に送られる。また、L=0の場合、式(35)の右辺は要素数が0のベクトル(空ベクトル)であり、式(36)は以下の式(36A)のようになる。
行列推定部811には、ブロック部814で得られたベクトルx= f,t、および目的信号のパワーまたは推定パワーσf,t 2が入力される。σf,t 2は、例えば、式(17)のように生成された暫定パワーであってもよいし、第3実施形態で説明したように生成された推定パワーσf,t 2であってもよい。行列推定部811は、ベクトルx= f,tおよび目的信号のパワーまたは推定パワーσf,t 2を用い、式(33)のように瞬時ビームフォーマwf,0を表記したときに、推定信号の音声らしさを表す確率を大きくする、推定ステアリングベクトルνf,0、周波数別観測信号xf,t、および目的信号のパワーまたは推定パワーσf,t 2に基づく、重み付き変形時空間共分散行列R= fを得て出力する。例えば、行列推定部811は、ベクトルx= f,t、および目的信号のパワーまたは推定パワーσf,t 2に基づく、重み付き変形時空間共分散行列R= fを得て出力する。例えば、行列推定部811は、以下の式(37)に従って重み付き変形時空間共分散行列R= fを得て出力する。
出力された重み付き変形時空間共分散行列R= fは畳み込みビームフォーマ推定部812に送られる。
畳み込みビームフォーマ推定部812には、初期ビームフォーマ適用部813で得られた初期ビームフォーマ出力zf,t、ブロック部814で得られたベクトルx= f,t、および行列推定部811で得られた重み付き変形時空間共分散行列R= fが入力される。畳み込みビームフォーマ推定部812は、これらを用い、推定ステアリングベクトルνf,0、重み付き変形時空間共分散行列R= f、および周波数別観測信号xf,tに基づく、畳み込みビームフォーマw= fを得て出力する。例えば、畳み込みビームフォーマ推定部812は、以下の式(38)に従って畳み込みビームフォーマw= fを得て出力する。
なお、L=0の場合、式(38B)の右辺は要素数が0のベクトル(空ベクトル)となり、式(38A)は、以下のようになる。
抑圧部82には、ブロック部814から出力されたベクトルx= f,t、初期ビームフォーマ適用部813から出力された初期ビームフォーマ出力zf,t、および畳み込みビームフォーマ推定部812から出力された畳み込みビームフォーマw= fが入力される。抑圧部82は、初期ビームフォーマ出力zf,tおよび畳み込みビームフォーマw= fをベクトルx= f,tに適用して目的信号yf,tを得て出力する。この処理は、畳み込みビームフォーマw- fを周波数別観測信号xf,tに適用して目的信号yf,tを得て出力する処理と等価である。例えば、抑圧部82は、以下の式(39)に従って目的信号yf,tを得て出力する。
パラメータ推定部83で得られた推定ステアリングベクトルνf,0に代え、実測等に基づいて得られた既知のステアリングベクトルνf,0が初期ビームフォーマ適用部813およびブロック部814に入力されてもよい。この場合、初期ビームフォーマ適用部813およびブロック部814は推定ステアリングベクトルνf,0に代えてステアリングベクトルνf,0を用いて上述のステップS813およびS814を行う。
第9実施形態では、第8実施形態に基づく畳み込みビームフォーマの推定を逐次処理で実行する方法を説明する。以下の処理は、t=1から昇順で各時間フレーム番号tについて実行される。
パラメータ推定部93(図10)は、周波数別観測信号xf,tを入力とし、前述したパラメータ推定部53,63の何れかと同じ方法で推定ステアリングベクトルνf,tを得て出力する。出力された推定ステアリングベクトルνf,tは、初期ビームフォーマ適用部813およびブロック部814に送られる。
初期ビームフォーマ適用部813は、推定ステアリングベクトルνf,t(第1時間区間の推定ステアリングベクトル)および周波数別観測信号xf,t(第1時間区間に属する周波数別観測信号)を入力とし、νf,0に代えてνf,tを用い、第8実施形態で説明したように初期ビームフォーマ出力zf,t(第1時間区間の初期ビームフォーマ出力)を得て出力する。出力された初期ビームフォーマ出力zf,tは抑圧部92に送られる。
ブロック部814は、推定ステアリングベクトルνf,tおよび周波数別観測信号xf,tを入力とし、νf,0に代えてνf,tを用い、第8実施形態で説明したようにベクトルx= f,tを得て出力する。出力されたベクトルx= f,tは、適応ゲイン推定部911、行列推定部915、および抑圧部92に送られる。
抑圧部92には、初期ビームフォーマ適用部813から出力された初期ビームフォーマ出力zf,t、およびブロック部814から出力されたベクトルx= f,tが入力される。抑圧部92は、これらを用い、初期ビームフォーマ出力zf,t(第1時間区間の初期ビームフォーマ出力)、推定ステアリングベクトルνf,t(第1時間区間の推定ステアリングベクトル)、および周波数別観測信号xf,t、ならびに畳み込みビームフォーマw= f,t-1(第1時間区間よりも過去の第2時間区間の畳み込みビームフォーマ)に基づく、目的信号yf,tを得て出力する。例えば、抑圧部92は、以下の式(40)に従って目的信号yf,tを得て出力する。
ここで畳み込みビームフォーマw= f,t-1の初期ベクトルw= f,0はどのような(LM+M-1)次元ベクトルであってもよい。初期ベクトルw= f,0の一例は、全ての要素が0の(LM+M-1)次元ベクトルである。
適応ゲイン推定部911には、ブロック部814から出力されたベクトルx= f,t、行列推定部915から出力された重み付き変形時空間共分散行列の逆行列R~-1 f,t-1、および目的信号のパワーまたは推定パワーσf,t 2が入力される。行列推定部711に入力されるσf,t 2としては、例えば式(17)のように生成された暫定パワーが用いられてもよいし、第3実施形態で説明したように生成された推定パワーσf,t 2が用いられてもよい。なお、「R~-1 f,t-1」の「~」は本来以下のように「R」の真上に表記すべきであるが、記載表記の制約上「R」の右上に表記する場合がある。適応ゲイン推定部911は、これらを用い、重み付き変形時空間共分散行列の逆行列R~-1 f,t-1(第2時間区間の重み付き変形時空間共分散行列の逆行列)、ならびに推定ステアリングベクトルνf,t(第1時間区間の推定ステアリングベクトル)、および周波数別観測信号xf,t、および目的信号のパワーまたは推定パワーσf,t 2に基づく、適応ゲインkf,t(第1時間区間の適応ゲイン)を得て出力する。例えば、適応ゲイン推定部911は、以下の式(41)に従って(LM+M-1)次元ベクトルである適応ゲインkf,tを得て出力する。
ここでαは忘却係数であり、例えば0<α<1の範囲に属する実数である。また、重み付き変形時空間共分散行列の逆行列R~-1 f,t-1の初期行列はどのような(LM+M-1)×(LM+M-1)次元行列であってもよい。重み付き変形時空間共分散行列の逆行列R~-1 f,t-1の初期行列の例は、(LM+M-1)次元の単位行列である。ただし
である。なお、R~ f,t自体は算出されない。出力された適応ゲインkf,tは、行列推定部915および畳み込みビームフォーマ推定部912に送られる。
行列推定部915には、ブロック部814から出力されたベクトルx= f,t、および適応ゲイン推定部911から出力された適応ゲインkf,tが入力される。行列推定部915は、これらを用い、適応ゲインkf,t(第1時間区間の適応ゲイン)、推定ステアリングベクトルνf,t(第1時間区間の推定ステアリングベクトル)、および周波数別観測信号xf,t、ならびに重み付き変形時空間共分散行列の逆行列R~-1 f,t-1(第2時間区間の重み付き変形時空間共分散行列の逆行列)に基づく、重み付き変形時空間共分散行列の逆行列R~-1 f,t(第1時間区間の重み付き変形時空間共分散行列の逆行列)を得て出力する。例えば、行列推定部915は、以下の式(42)に従って重み付き変形時空間共分散行列の逆行列R~-1 f,tを得て出力する。
出力された重み付き変形時空間共分散行列の逆行列R~-1 f,tは適応ゲイン推定部911に送られる。
畳み込みビームフォーマ推定部912には、抑圧部92から出力された目的信号yf,t、および適応ゲイン推定部911から出力された適応ゲインkf,tが入力される。畳み込みビームフォーマ推定部912は、これらを用い、適応ゲインkf,t(第1時間区間の適応ゲイン)、目的信号yf,t(第1時間区間の目的信号)、および畳み込みビームフォーマw= f,t-1(第2時間区間の畳み込みビームフォーマ)に基づく、畳み込みビームフォーマw= f,t(第1時間区間の畳み込みビームフォーマ)を得て出力する。例えば、畳み込みビームフォーマ推定部912は、以下の式(43)に従って畳み込みビームフォーマw= f,tを得て出力する。
出力された畳み込みビームフォーマw= f,tは抑圧部92に送られる。
第9実施形態およびその変形例では、第1時間区間が時間フレーム番号tのフレームであり、第2時間区間が時間フレーム番号t-1のフレームである場合を例にとったが、これは本発明を限定するものではない。時間フレーム番号t以外の時間フレーム番号のフレームを第1時間区間としてもよい。時間フレーム番号t-1以外の第1時間区間よりも過去の時間フレームを第2時間区間としてもよい。
パラメータ推定部93で得られた推定ステアリングベクトルνf,tに代え、既知のステアリングベクトルνf,tが初期ビームフォーマ適用部813およびブロック部814に入力されてもよい。この場合、初期ビームフォーマ適用部813およびブロック部814は推定ステアリングベクトルνf,tに代えてステアリングベクトルνf,tを用いて上述のステップS813およびS814を行う。
上述した信号処理装置1-9に入力される周波数別観測信号xf,tは、音源から発せられた音響信号を集音して得られた観測信号の複数の周波数帯域のそれぞれに対応する信号であればどのようなものであってもよい。例えば、図11Aおよび図11Cに例示するように、音源から発せられた音響信号をM個のマイクロホンで集音して得られた時間領域の観測信号x(i)=[x(i)(1),x(i)(2),…,x(i)(M)]T(ただしiは離散時間を表すインデックス)が分離部1051に入力され、分離部1051が観測信号x(i)を周波数領域の周波数別観測信号xf,tに変換し、周波数別観測信号xf,tを信号処理装置1-9に入力してもよい。時間領域から周波数領域への変換方法にも限定はなく、例えば離散フーリエ変換などを用いればよい。あるいは、図11Bに例示するように、図示していない他の処理部によって得られた周波数別観測信号xf,tが信号処理装置1-9に入力されてもよい。例えば、上述の時間領域の観測信号x(i)が時間フレームごとに周波数領域の信号に変換され、これらの周波数領域の信号が他の処理部で処理され、それによって得られた周波数別観測信号xf,tが信号処理装置1-9に入力されてもよい。
[実験結果1(第1実施形態)]
次に、第1実施形態および従来法1~3による雑音残響抑圧結果を例示する。
この実験では観測信号として「REVERB Challenge」のデータセットを利用した。このデータセットは、定常雑音と残響のある部屋で読み上げられた英語音声を、その話者から離れた位置(0.5~2.5m)に配置されたマイクロホンで収音して得られた音響データ(Real Data)と、その環境を模擬して得られた音響データ(Sim Data)とを収録している。マイクロホン数M=8とした。周波数別観測信号は、短時間フーリエ変換により求めた。フレーム長は32ミリ秒、フレームシフトは4とし、予測遅延はd=4とした。これらのデータを用い、本発明および従来法1~3によって雑音残響抑圧した信号の音声品質および音声認識精度を評価した。
図14に、周波数別観測信号xf,tの残響を抑圧することなくステアリングベクトルを推定した場合(残響抑圧なしの場合)と、第4実施形態で説明したように周波数別観測信号xf,tの残響を抑圧してからステアリングベクトルを推定した場合(残響抑圧ありの場合)とでの雑音残響抑圧結果を例示する。なお「WER」は、雑音残響抑圧を行って得られた目的信号で音声認識を行った場合の文字誤り率を表す。WERの値が小さいほど高性能である。図14に例示するように、残響抑圧ありの場合の方が残響抑圧なしの場合よりも目的信号の音声品質がよいことが分かる。
図15A,図15B,図15Cに、第7実施形態および第9実施形態で説明したように畳み込みビームフォーマの推定を逐次処理で実行した場合の雑音残響抑圧結果を例示する。図15A,図15B,図15CではL=64[msec」、α=0.9999、β=0.66とした。また「Adaptive NCM」は第5実施形態の方法で生成された推定ステアリングベクトルνf,tを用いた場合の結果を表す。また「PreFixed NCM」は第5実施形態の変形例1の方法で生成された推定ステアリングベクトルνf,tを用いた場合の結果を表す。また「観測信号」とは何ら雑音残響抑圧を行っていない場合の結果を表す。これらより、第7,9実施形態の雑音残響抑圧によって目的信号の音声品質が向上していることが分かる。
なお、本発明は上述の実施形態に限定されるものではない。例えば、上述の実施形態ではすべての周波数帯域に対してdを同一値としたが、周波数帯域ごとにdが設定されてもよい。すなわちdに変えて正整数dfが用いられてもよい。同様に、上述の実施形態ではすべての周波数帯域に対してLを同一値としたが、周波数帯域ごとにLが設定されてもよい。すなわちLに変えて正整数Lfが用いられてもよい。
11,21,71,81,91 推定部
12,22 抑圧部
Claims (15)
- 目的の音源から発せられた音響信号を集音して得られた観測信号の複数の周波数帯域のそれぞれに対応する周波数別観測信号に、各時刻において現在の信号と所定の遅延を持つ長さ0以上の過去の信号列との重み付き和を計算する畳み込みビームフォーマを適用して得られる推定信号が、所定の確率モデルに基づく前記推定信号の音声らしさを表す確率を大きくするように、前記畳み込みビームフォーマを得る推定部と、
前記推定部で得られた前記畳み込みビームフォーマを前記周波数別観測信号に適用して目的信号を得る抑圧部と、
を有する信号処理装置。 - 請求項1の信号処理装置であって、
前記推定部は、前記確率モデルに基づく前記推定信号の音声らしさを表す確率を最大化する前記畳み込みビームフォーマを得る、信号処理装置。 - 請求項1または2の信号処理装置であって、
前記推定部は、前記目的信号を、前記目的の音源から発せられてマイクロホンで集音される音に対応する信号のうち直接音と初期反射音に対応する信号として、前記周波数別観測信号に前記畳み込みビームフォーマを適用した結果前記目的信号が歪まないという拘束条件のもとで、所定の時間区間に属する各時刻での前記推定信号のパワーを、前記目的信号のパワーの逆数または前記目的信号の推定パワーの逆数で重み付けして得られる値の総和を最小化する前記畳み込みビームフォーマを得る、信号処理装置。 - 請求項3の信号処理装置であって、
前記畳み込みビームフォーマは、前記周波数別観測信号から残響を抑圧する残響抑圧フィルタと、前記周波数別観測信号に前記残響抑圧フィルタを適用して得られる信号から雑音を抑圧する瞬時ビームフォーマとを合成して得られるビームフォーマと等価であり、
前記瞬時ビームフォーマは、各時刻において、現在の時刻の信号の重み付き和を計算するものであり、
前記拘束条件は、前記音源から前記音響信号の集音位置までの直接音および初期反射音に関する伝達関数を要素とするステアリングベクトルまたは前記ステアリングベクトルの推定ベクトルである推定ステアリングベクトルに前記瞬時ビームフォーマを適用して得られる値が定数であるという条件である、信号処理装置。 - 請求項4の信号処理装置であって、
前記推定部は、
前記周波数別観測信号と前記目的信号のパワーまたは推定パワーとに基づき、重み付き時空間共分散行列を得る行列推定部と、
前記重み付き時空間共分散行列と前記ステアリングベクトルまたは前記推定ステアリングベクトルとに基づき、前記畳み込みビームフォーマを得る畳み込みビームフォーマ推定部と、を含む、信号処理装置。 - 請求項4または請求項5の信号処理装置であって、
前記周波数別観測信号から残響成分を抑圧した周波数別残響抑圧信号を得る残響抑圧部と、
前記周波数別残響抑圧信号から前記推定ステアリングベクトルを得て出力するステアリングベクトル推定部と、
をさらに有する信号処理装置。 - 請求項6の信号処理装置であって、
前記周波数別残響抑圧信号は時系列信号であり、
第1時間区間に属する前記周波数別残響抑圧信号、および前記第1時間区間よりも過去の第2時間区間に属する前記周波数別残響抑圧信号の空間共分散行列に基づく、前記第1時間区間に属する前記周波数別残響抑圧信号の空間共分散行列を得る観測信号共分散行列更新部と、
前記周波数別残響抑圧信号の雑音共分散行列の逆行列、前記第1時間区間に属する前記周波数別残響抑圧信号の空間共分散行列、および前記第2時間区間の主成分ベクトルに基づき、前記周波数別残響抑圧信号の雑音共分散行列の逆行列と、前記第1時間区間に属する前記周波数別残響抑圧信号の空間共分散行列と、の積に対する前記第1時間区間の主成分ベクトルを得る主成分ベクトル更新部と、
をさらに有し、
前記ステアリングベクトル推定部は、前記周波数別残響抑圧信号の雑音共分散行列と前記第1時間区間の主成分ベクトルとに基づき、前記第1時間区間の前記推定ステアリングベクトルを得て出力する、信号処理装置。 - 請求項4の信号処理装置であって、
前記周波数別観測信号は時系列信号であり、
第1時間区間に属する前記周波数別観測信号、および前記第1時間区間よりも過去の第2時間区間に属する前記周波数別観測信号の空間共分散行列に基づく、前記第1時間区間に属する前記周波数別観測信号の空間共分散行列を得る観測信号共分散行列更新部と、
前記周波数別観測信号の雑音共分散行列の逆行列、前記第1時間区間に属する前記周波数別観測信号の空間共分散行列、および前記第2時間区間の主成分ベクトルに基づき、前記周波数別観測信号の雑音共分散行列の逆行列と、前記第1時間区間に属する前記周波数別観測信号の空間共分散行列と、の積に対する前記第1時間区間の主成分ベクトルを得る主成分ベクトル更新部と、
前記第1時間区間の主成分ベクトルと前記周波数別観測信号の雑音共分散行列とに基づき、前記第1時間区間の前記推定ステアリングベクトルを得て出力するステアリングベクトル推定部と、
を有する信号処理装置。 - 請求項7または8の信号処理装置であって、
前記推定部は、
前記周波数別観測信号、および前記目的信号のパワーまたは推定パワー、ならびに前記第1時間区間よりも過去の第2時間区間の時空間共分散行列の逆行列に基づき、前記第1時間区間の時空間共分散行列の逆行列を推定する行列推定部と、
前記第1時間区間の前記時空間共分散行列の逆行列および前記推定ステアリングベクトルに基づき、前記第1時間区間の前記畳み込みビームフォーマを得る畳み込みビームフォーマ推定部と、を含む、信号処理装置。 - 請求項4、6から8の何れかの信号処理装置であって、
前記推定部は、
前記瞬時ビームフォーマを、前記ステアリングベクトルの定数倍または前記推定ステアリングベクトルの定数倍と、前記ステアリングベクトルまたは前記推定ステアリングベクトルの直交補空間に対応するブロック行列と変形瞬時ビームフォーマとの積と、の和で表記したときに、前記第1時間区間の周波数別観測信号に前記ブロック行列を乗じた結果得られる信号を要素に持つことを特徴とする、前記ステアリングベクトルまたは前記推定ステアリングベクトル、前記周波数別観測信号、および前記目的信号のパワーまたは推定パワー基づく、重み付き変形時空間共分散行列を得る行列推定部と、
前記ステアリングベクトルまたは前記推定ステアリングベクトル、前記重み付き変形時空間共分散行列、および前記周波数別観測信号に基づく、前記畳み込みビームフォーマを得る畳み込みビームフォーマ推定部と、を含む、
信号処理装置。 - 請求項7または8の信号処理装置であって、
前記瞬時ビームフォーマは、前記推定ステアリングベクトルの定数倍と、前記推定ステアリングベクトルの直交補空間に対応するブロック行列と変形瞬時ビームフォーマとの積と、の和と等価であり、
前記推定部は、
前記第1時間区間の前記推定ステアリングベクトル、および前記第1時間区間に属する前記周波数別観測信号に基づく、前記第1時間区間の初期ビームフォーマ出力を得る初期ビームフォーマ適用部と、
前記第1時間区間の初期ビームフォーマ出力、前記第1時間区間の前記推定ステアリングベクトル、および前記周波数別観測信号、ならびに前記第1時間区間よりも過去の第2時間区間の前記畳み込みビームフォーマに基づく、前記第1時間区間の前記目的信号を得る前記抑圧部と、
前記第2時間区間の重み付き変形時空間共分散行列の逆行列、ならびに前記第1時間区間の前記推定ステアリングベクトル、前記周波数別観測信号、および前記目的信号のパワーまたは推定パワーに基づく、前記第1時間区間の適応ゲインを得る適応ゲイン推定部と、
前記第1時間区間の適応ゲイン、前記第1時間区間の前記推定ステアリングベクトル、および前記周波数別観測信号、ならびに前記第2時間区間の重み付き変形時空間共分散行列の逆行列に基づく、前記第1時間区間の重み付き変形時空間共分散行列の逆行列を得る行列推定部と、
前記第1時間区間の適応ゲイン、前記第1時間区間の前記目的信号、および前記第2時間区間の前記畳み込みビームフォーマに基づく、前記第1時間区間の畳み込みビームフォーマを得る前記畳み込みビームフォーマ推定部と、
を含む、信号処理装置。 - 請求項1から11の何れかの信号処理装置であって、
前記観測信号は、雑音および残響が存在する環境下で前記音源から発せられた前記音響信号を集音して得られた信号である、信号処理装置。 - 請求項1から12の何れかの信号処理装置であって、
前記畳み込みビームフォーマは、各時刻において現在の信号の重み付け値を計算するビームフォーマである、信号処理装置。 - 目的の音源から発せられた音響信号を集音して得られた観測信号の複数の周波数帯域のそれぞれに対応する周波数別観測信号に、各時刻において現在の信号と所定の遅延を持つ長さ0以上の過去の信号列との重み付き和を計算する畳み込みビームフォーマを適用して得られる推定信号が、所定の確率モデルに基づく前記推定信号の音声らしさを表す確率を大きくするように、前記畳み込みビームフォーマを得る推定ステップと、
前記推定部で得られた前記畳み込みビームフォーマを前記周波数別観測信号に適用して目的信号を得る抑圧ステップと、
を有する信号処理方法。 - 請求項1から13の何れかの信号処理装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018234075 | 2018-12-14 | ||
JP2018234075 | 2018-12-14 | ||
JPPCT/JP2019/016587 | 2019-04-18 | ||
PCT/JP2019/016587 WO2020121545A1 (ja) | 2018-12-14 | 2019-04-18 | 信号処理装置、信号処理方法、およびプログラム |
PCT/JP2019/029921 WO2020121590A1 (ja) | 2018-12-14 | 2019-07-31 | 信号処理装置、信号処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020121590A1 JPWO2020121590A1 (ja) | 2021-10-14 |
JP7115562B2 true JP7115562B2 (ja) | 2022-08-09 |
Family
ID=71076328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020559702A Active JP7115562B2 (ja) | 2018-12-14 | 2019-07-31 | 信号処理装置、信号処理方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11894010B2 (ja) |
JP (1) | JP7115562B2 (ja) |
WO (2) | WO2020121545A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933170B (zh) * | 2020-07-20 | 2024-03-29 | 歌尔科技有限公司 | 语音信号的处理方法、装置、设备及存储介质 |
JP7430127B2 (ja) * | 2020-09-02 | 2024-02-09 | 三菱重工業株式会社 | 予測装置、予測方法、及びプログラム |
WO2022079854A1 (ja) | 2020-10-15 | 2022-04-21 | 日本電信電話株式会社 | 音響信号強調装置、方法及びプログラム |
CN112802490B (zh) * | 2021-03-11 | 2023-08-18 | 北京声加科技有限公司 | 一种基于传声器阵列的波束形成方法和装置 |
US11798533B2 (en) * | 2021-04-02 | 2023-10-24 | Google Llc | Context aware beamforming of audio data |
WO2023276068A1 (ja) * | 2021-06-30 | 2023-01-05 | 日本電信電話株式会社 | 音響信号強調装置、音響信号強調方法、プログラム |
CN113707136B (zh) * | 2021-10-28 | 2021-12-31 | 南京南大电子智慧型服务机器人研究院有限公司 | 服务型机器人语音交互的音视频混合语音前端处理方法 |
CN115086836B (zh) * | 2022-06-14 | 2023-04-18 | 西北工业大学 | 一种波束形成方法、系统及波束形成器 |
CN117292700A (zh) * | 2022-06-20 | 2023-12-26 | 青岛海尔科技有限公司 | 分布式唤醒的语音增强方法和装置、存储介质 |
WO2024038522A1 (ja) * | 2022-08-17 | 2024-02-22 | 日本電信電話株式会社 | 信号処理装置、信号処理方法、プログラム |
CN118197341A (zh) * | 2024-04-15 | 2024-06-14 | 武汉理工大学 | 一种基于房间环境自适应校准的波束形成方法及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001100800A (ja) | 1999-09-27 | 2001-04-13 | Toshiba Corp | 雑音成分抑圧処理装置および雑音成分抑圧処理方法 |
JP5227393B2 (ja) | 2008-03-03 | 2013-07-03 | 日本電信電話株式会社 | 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3685380A (en) * | 1971-02-19 | 1972-08-22 | Amada Ltd Us | Multi-track turret and overload protection |
JP2007093630A (ja) * | 2005-09-05 | 2007-04-12 | Advanced Telecommunication Research Institute International | 音声強調装置 |
EP2013869B1 (en) * | 2006-05-01 | 2017-12-13 | Nippon Telegraph And Telephone Corporation | Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics |
JP5139111B2 (ja) * | 2007-03-02 | 2013-02-06 | 本田技研工業株式会社 | 移動音源からの音の抽出方法および装置 |
JP5075042B2 (ja) * | 2008-07-23 | 2012-11-14 | 日本電信電話株式会社 | エコー消去装置、エコー消去方法、そのプログラム、記録媒体 |
EP2222091B1 (en) * | 2009-02-23 | 2013-04-24 | Nuance Communications, Inc. | Method for determining a set of filter coefficients for an acoustic echo compensation means |
US8666090B1 (en) * | 2013-02-26 | 2014-03-04 | Full Code Audio LLC | Microphone modeling system and method |
US10090000B1 (en) * | 2017-11-01 | 2018-10-02 | GM Global Technology Operations LLC | Efficient echo cancellation using transfer function estimation |
-
2019
- 2019-04-18 WO PCT/JP2019/016587 patent/WO2020121545A1/ja active Application Filing
- 2019-07-31 US US17/312,912 patent/US11894010B2/en active Active
- 2019-07-31 JP JP2020559702A patent/JP7115562B2/ja active Active
- 2019-07-31 WO PCT/JP2019/029921 patent/WO2020121590A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001100800A (ja) | 1999-09-27 | 2001-04-13 | Toshiba Corp | 雑音成分抑圧処理装置および雑音成分抑圧処理方法 |
JP5227393B2 (ja) | 2008-03-03 | 2013-07-03 | 日本電信電話株式会社 | 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
WO2020121590A1 (ja) | 2020-06-18 |
US20220068288A1 (en) | 2022-03-03 |
US11894010B2 (en) | 2024-02-06 |
JPWO2020121590A1 (ja) | 2021-10-14 |
WO2020121545A1 (ja) | 2020-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7115562B2 (ja) | 信号処理装置、信号処理方法、およびプログラム | |
CN110100457B (zh) | 基于噪声时变环境的加权预测误差的在线去混响算法 | |
US8848933B2 (en) | Signal enhancement device, method thereof, program, and recording medium | |
CN111418012B (zh) | 用于处理音频信号的方法和音频处理设备 | |
Jukić et al. | Multi-channel linear prediction-based speech dereverberation with sparse priors | |
US10123113B2 (en) | Selective audio source enhancement | |
Doclo et al. | GSVD-based optimal filtering for single and multimicrophone speech enhancement | |
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
JP4195267B2 (ja) | 音声認識装置、その音声認識方法及びプログラム | |
Schwartz et al. | An expectation-maximization algorithm for multimicrophone speech dereverberation and noise reduction with coherence matrix estimation | |
JP2005249816A (ja) | 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム | |
Nakatani et al. | Maximum likelihood convolutional beamformer for simultaneous denoising and dereverberation | |
Ikeshita et al. | Independent vector extraction for fast joint blind source separation and dereverberation | |
JP6225245B2 (ja) | 信号処理装置、方法及びプログラム | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
Neo et al. | Enhancement of noisy reverberant speech using polynomial matrix eigenvalue decomposition | |
KR102410850B1 (ko) | 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치 | |
Doclo et al. | Multimicrophone noise reduction using recursive GSVD-based optimal filtering with ANC postprocessing stage | |
Ikeshita et al. | Blind signal dereverberation based on mixture of weighted prediction error models | |
JP6106611B2 (ja) | モデル推定装置、雑音抑圧装置、音声強調装置、これらの方法及びプログラム | |
Song et al. | An integrated multi-channel approach for joint noise reduction and dereverberation | |
CN114242104A (zh) | 语音降噪的方法、装置、设备及存储介质 | |
Taniguchi et al. | Generalized weighted-prediction-error dereverberation with varying source priors for reverberant speech recognition | |
Nakatani et al. | Simultaneous denoising, dereverberation, and source separation using a unified convolutional beamformer | |
WO2021205494A1 (ja) | 信号処理装置、信号処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210601 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210601 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20210601 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20210601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220711 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7115562 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |