JP7428251B2 - 目的音信号生成装置、目的音信号生成方法、プログラム - Google Patents

目的音信号生成装置、目的音信号生成方法、プログラム Download PDF

Info

Publication number
JP7428251B2
JP7428251B2 JP2022531225A JP2022531225A JP7428251B2 JP 7428251 B2 JP7428251 B2 JP 7428251B2 JP 2022531225 A JP2022531225 A JP 2022531225A JP 2022531225 A JP2022531225 A JP 2022531225A JP 7428251 B2 JP7428251 B2 JP 7428251B2
Authority
JP
Japan
Prior art keywords
vector
target sound
mask
sound signal
generates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022531225A
Other languages
English (en)
Other versions
JPWO2021255925A1 (ja
Inventor
智広 中谷
慶介 木下
マーク デルクロア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021255925A1 publication Critical patent/JPWO2021255925A1/ja
Application granted granted Critical
Publication of JP7428251B2 publication Critical patent/JP7428251B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/18Methods or devices for transmitting, conducting or directing sound
    • G10K11/26Sound-focusing or directing, e.g. scanning
    • G10K11/34Sound-focusing or directing, e.g. scanning using electrical steering of transducer arrays, e.g. beam steering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、複数のマイクを用いて収音された観測音に含まれる目的音を抽出する技術に関する。
複数のマイクを用いて収音された観測音に含まれる目的音を抽出するための信号処理技術として、ビームフォーマ(Beamformer: BF)が知られている。ビームフォーマを推定する手法として、例えば、非特許文献1や非特許文献2に開示されている手法がある。
非特許文献1の手法では、ビームフォーマの推定のため、ステアリングベクトルを求める。そのため、非特許文献1の手法では、ニューラルネットワークにより得られたマスクを用いて生成される所定の行列の最大固有値に対応する固有ベクトルを求める必要がある。つまり、非特許文献1の手法では、固有値分解問題を解く必要がある。
一方、非特許文献2の手法では、ビームフォーマの推定のために、ステアリングベクトルを求める必要はない。非特許文献2の手法では、固有値分解問題を解く代わりに、行列の逆行列演算を行うだけでビームフォーマを推定することができる。
J. Haymann, L. Drude, R. Haeb-Umbach, "Neural network based spectral mask estimation for acoustic beamforming," 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016. T. Ochiai, S. Watanabe, T. Hori, J. R. Hershey, X. Xiao, "Unified Architecture for Multichannel End-to-End Speech Recognition with Neural Beamforming," IEEE Journal of Selected Topics in Signal Processing, vol.11, no.8, pp.1274-1288, 2017.
非特許文献1の手法では、ビームフォーマの推定誤差を小さくするために誤差逆伝播法を用いてニューラルネットワークを学習しようとしても、固有値分解問題に対応する部分での誤差逆伝播の計算は数値的に不安定になりやすく、その結果、ビームフォーマの推定誤差を小さくできないという問題があった。一方、非特許文献2の手法では、ビームフォーマ推定のための計算における近似誤差が大きく、雑音や残響のレベルが大きい環境では、ビームフォーマの推定精度が劣化するという問題があった。
そこで本発明では、ビームフォーマの推定誤差を小さくするために誤差逆伝播法を用いてニューラルネットワークを学習する場合でも計算が不安定になることを避けることができるステアリングベクトル生成方法に基づく目的音抽出技術を提供することを目的とする。
本発明の一態様は、tを時間フレームを表すインデックス、fを周波数ビンを表すインデックスとし、複数のマイクを用いて収音された観測音に対応する観測信号ベクトルxt,fからマスクγt,fを生成するマスク生成部と、前記観測信号ベクトルxt,fと前記マスクγt,fからステアリングベクトルhfを生成するステアリングベクトル生成部と、前記観測信号ベクトルxt,fと前記ステアリングベクトルhfからビームフォーマベクトルwfを生成するビームフォーマベクトル生成部と、前記観測信号ベクトルxt,fと前記ビームフォーマベクトルwfから前記観測音に含まれる目的音に対応する目的音信号yt,fを生成する目的音信号生成部と、を含む目的音信号生成装置であって、前記マスク生成部は、誤差逆伝搬法を用いて学習されたニューラルネットワークとして構成され、前記ステアリングベクトル生成部は、パワー法を用いて前記観測信号ベクトルxt,fと前記マスクγt,fから生成される所定の行列の最大固有値に対応する固有ベクトルを求めることにより、前記ステアリングベクトルhfを生成する。
本発明の一態様は、tを時間フレームを表すインデックス、fを周波数ビンを表すインデックスとし、複数のマイクを用いて収音された観測音に対応する観測信号ベクトルxt,fからマスクγt,fを生成するマスク生成部と、前記観測信号ベクトルxt,fを用いて得られる所定のベクトルである中間信号ベクトル^xt,fを生成する中間信号ベクトル生成部と、前記中間信号ベクトル^xt,fと前記マスクγt,fからステアリングベクトルhfを生成するステアリングベクトル生成部と、前記中間信号ベクトル^xt,fと前記ステアリングベクトルhfからビームフォーマベクトルwfを生成するビームフォーマベクトル生成部と、前記中間信号ベクトル^xt,fと前記ビームフォーマベクトルwfから前記観測音に含まれる目的音に対応する目的音信号yt,fを生成する目的音信号生成部と、を含む目的音信号生成装置であって、前記マスク生成部は、誤差逆伝搬法を用いて学習されたニューラルネットワークとして構成され、前記ステアリングベクトル生成部は、パワー法を用いて前記観測信号ベクトルxt,fと前記マスクγt,fから生成される所定の行列の最大固有値に対応する固有ベクトルを求めることにより、前記ステアリングベクトルhfを生成する。
本発明によれば、ビームフォーマの推定誤差を小さくするために誤差逆伝播法を用いてニューラルネットワークを学習する場合でも計算が不安定になることを避けることが可能となる。
目的音信号生成装置100の構成を示すブロック図である。 目的音信号生成装置100の動作を示すフローチャートである。 ステアリングベクトル生成部120の構成を示すブロック図である。 ステアリングベクトル生成部120の動作を示すフローチャートである。 目的音信号生成装置200の構成を示すブロック図である。 目的音信号生成装置200の動作を示すフローチャートである。 ステアリングベクトル生成部220の構成を示すブロック図である。 ステアリングベクトル生成部220の動作を示すフローチャートである。 本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
各実施形態の説明に先立って、この明細書における表記方法について説明する。
^(キャレット)は上付き添字を表す。例えば、xy^zはyzがxに対する上付き添字であり、xy^zはyzがxに対する下付き添字であることを表す。また、_(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。
ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。
また、ベクトルvや行列Mの複素共役転置を、vHやMHのように上付きのHで表す。行列Mの逆行列を、M-1のように上付きの-1で表す。スカラsの複素共役を、s*のように上付きの*で表す。
<技術的背景>
本発明の実施形態では、行列演算のみを用いて近似的に最大固有値に対応する固有ベクトルを求め、ステアリングベクトルを生成する。これにより、固有値分解問題そのものを解く必要がないため、ビームフォーマの推定誤差をさらに小さくするために誤差逆伝播法を用いてニューラルネットワークを学習する場合でも計算が不安定になるという問題を回避することができる。
なお、本方法には所定の繰り返し計算が含まれる。この繰り返し回数を増やすことで、最大固有値に対応する固有ベクトルを求めるための近似計算の誤差を抑制し、ビームフォーマの推定精度を高めることできる。
以下では、信号を短時間フーリエ変換(Short-Time Fourier Transform: STFT)を行った後の時間周波数領域の値として扱う。tを時間フレームを表すインデックス、fを周波数ビンを表すインデックスとする。
<第1実施形態>
目的音信号生成装置100は、複数のマイクを用いて収音された観測音に対応する観測信号ベクトルxt,fから観測音に含まれる目的音に対応する目的音信号yt,fを生成する。
以下、図1~図2を参照して目的音信号生成装置100を説明する。図1は、目的音信号生成装置100の構成を示すブロック図である。図2は、目的音信号生成装置100の動作を示すフローチャートである。図1に示すように目的音信号生成装置100は、マスク生成部110と、ステアリングベクトル生成部120と、ビームフォーマベクトル生成部130と、目的音信号生成部140と、記録部190を含む。記録部190は、目的音信号生成装置100の処理に必要な情報を適宜記録する構成部である。
図2に従い目的音信号生成装置100の動作について説明する。
S110において、マスク生成部110は、観測信号ベクトルxt,fを入力とし、観測信号ベクトルxt,fからマスクγt,fを生成し、出力する。ここで、マスクとは、後述する空間共分散行列の計算に用いるものである。具体的には、マスクとは、0以上1以下の値をとる指標である。例えば、マスクγt,fは、各時間フレームt、各周波数ビンfにおいて目的音信号が含まれている確率を示すものとすることができる。この場合、γt,f=1は目的音信号が含まれていることを示し、γt,f=0は目的音信号が含まれていないことを示す。また、γt,fが0と1の間の値である場合は、目的音信号が含まれていることと目的音信号が含まれていないことの両者の中間的な状態を示す。また、マスクγt,fは、各時間フレームtに目的音が含まれている確率を示すものとすることができる。この場合、マスクγt,fは周波数に依存せずに同じ値をとるものとなる。
また、マスク生成部110は、非特許文献1や非特許文献2に記載のニューラルネットワークを用いて構成することができる。つまり、マスク生成部110は、誤差逆伝搬法を用いて学習されたニューラルネットワークとして構成される。
S120において、ステアリングベクトル生成部120は、観測信号ベクトルxt,fとS110で生成したマスクγt,fを入力とし、観測信号ベクトルxt,fとマスクγt,fからステアリングベクトルhfを生成し、出力する。ここで、ステアリングベクトルとは、後述するビームフォーマベクトルの計算に用いるものである。
ステアリングベクトル生成部120は、パワー法を用いて観測信号ベクトルxt,fとマスクγt,fから生成される所定の行列の最大固有値に対応する固有ベクトルを求めることにより、ステアリングベクトルhfを生成するものとして構成することができる。以下、図3~図4を参照してステアリングベクトル生成部120を説明する。図3は、ステアリングベクトル生成部120の構成を示すブロック図である。図4は、ステアリングベクトル生成部120の動作を示すフローチャートである。図3に示すようにステアリングベクトル生成部120は、空間共分散行列生成部122と、ステアリングベクトル計算部124と、を含む。
図4に従いステアリングベクトル生成部120の動作について説明する。
S122において、空間共分散行列生成部122は、観測信号ベクトルxt,fとS110で生成したマスクγt,fを入力とし、観測信号ベクトルxt,fとマスクγt,fから目的音空間共分散行列Φs fと雑音空間共分散行列Φn fを生成し、出力する。空間共分散行列生成部122は、次式により、目的音空間共分散行列Φs fと雑音空間共分散行列Φn fを生成する。
Figure 0007428251000001
Figure 0007428251000002
S124において、ステアリングベクトル計算部124は、S122で生成した目的音空間共分散行列Φs f、雑音空間共分散行列Φn fを入力とし、目的音空間共分散行列Φs fと雑音空間共分散行列Φn fを用いて、初期ベクトルuからステアリングベクトルhfを計算し、出力する。ここで、初期ベクトルuは、任意のベクトルでよく、例えば、参照マイクrに対応する要素が1であり、その他のマイクに対応する要素は0であるベクトルとすることができる。ステアリングベクトル計算部124は、次式により、ステアリングベクトルhfを計算する。
Figure 0007428251000003
(ただし、mは繰り返し回数を表す1以上の整数である)
式(1)の((Φn f)-1Φs f)muは、パワー法を用いて行列(Φn f)-1Φs fの最大固有値に対応する固有ベクトルを近似的に計算することに相当する。繰り返し回数を表すmを十分に大きな正の整数とすることで、任意の初期ベクトルuに対して、最大固有値に対応する固有ベクトルが精度よく得られることが知られている。また、m=1などのようにmが比較的小さい値であっても、ある程度良好な上記固有ベクトルの近似が得られることも知られている。したがって、固有値分解問題そのものを解く代わりに、式(1)の計算をすることで、ステアリングベクトルを高精度に推定することが可能となる。
S130において、ビームフォーマベクトル生成部130は、観測信号ベクトルxt,fとS120で生成したステアリングベクトルhfを入力とし、観測信号ベクトルxt,fとステアリングベクトルhfからビームフォーマベクトルwfを生成し、出力する。ビームフォーマベクトル生成部130は、次式により、ビームフォーマベクトルwfを生成する。
Figure 0007428251000004
ここで、hfrは、参照マイクrに対応するステアリングベクトルhfの要素である。また、行列Rfは、次式により計算される。
Figure 0007428251000005
(ただし、上記和は雑音区間に含まれる時間フレームtに関する和である)
S140において、目的音信号生成部140は、観測信号ベクトルxt,fとS130で生成したビームフォーマベクトルwfを入力とし、観測信号ベクトルxt,fとビームフォーマベクトルwfから目的音信号yt,fを生成し、出力する。目的音信号生成部140は、次式により、目的音信号yt,fを生成する。
Figure 0007428251000006
以上、説明したように、本実施形態では、ニューラルネットワークを用いて推定したマスクに依存してビームフォーマの出力(つまり、目的音信号)が求められている。したがって、ニューラルネットワークによるマスク推定の精度を改善することができるならば、ビームフォーマの出力の精度もさらに改善できると期待される。これを実現するための方法として、誤差逆伝播法を用いることが、例えば、非特許文献2に開示されている。非特許文献2では、ビームフォーマのすべての出力{yt,f}の推定精度を測るコスト関数E({yt,f})が最小となるように、ニューラルネットワークを更新するための重みの勾配を求めている。ここで、{・}は添え字の値が異なる記号(例えば、y)をまとめた集合を表すものとする。一般に、入力から出力に向けての処理が、微分可能な入出力関係を持つ処理ブロックの接続として構成される場合、誤差逆伝播法を適用することができる。本実施形態のビームフォーマ処理の場合、ニューラルネットワークによるマスク推定、マスクに基づくビームフォーマ推定、ビームフォーマ適用の各処理ブロックは、それぞれ以下のように微分可能な関数として記述することができる。
ニューラルネットワークによるマスク推定は、観測信号ベクトル{xt,f}と重み係数{θi}(ただし、θiは、i番目のニューラルネットワークの重み係数を表す)を入力として、マスク{γt,f}を出力する微分可能な関数Mとして記述することができる。
Figure 0007428251000007
同様に、マスクに基づくビームフォーマ推定は、マスク{γt,f}と観測信号ベクトル{xt,f}を入力として、ビームフォーマベクトル{wf}を出力する微分可能な関数Wとして記述することができる。
Figure 0007428251000008
同様に、ビームフォーマ適用は、ビームフォーマベクトルwfと観測信号ベクトルxt,fを入力として、目的音信号yt,fを出力する微分可能な関数Gとして記述することができる。
Figure 0007428251000009
誤差逆伝播法では、ニューラルネットワークの重み係数の勾配∂E/∂θiを計算するために必要な情報を、ビームフォーマ推定の時の手順と逆順に、つまり、出力から入力に向けて、伝達することで、ニューラルネットワークの学習を実現する。近年、この誤差逆伝播法の計算は、ニューラルネットワークの学習用に提供されているソフトウェア(例えば、PyTorchやTensorFlow)を用いて簡単に計算できるようになっている。しかし、上記処理ブロックの中に固有値分解問題を解く部分を含むと、誤差逆伝播法の計算が不安定になり、ニューラルネットワークが適切に学習できなくなるという問題があった。そこで、本実施形態では、固有値分解問題そのものを解くことがないようにすることで、誤差逆伝播法を用いてニューラルネットワークを適切に学習することができるようにした。
本発明の実施形態によれば、ビームフォーマの推定誤差を小さくするために誤差逆伝播法を用いてニューラルネットワークを学習する場合でも計算が不安定になることを避けることが可能となる。また、固有値分解問題を解くことなく、パワー法により高精度で生成したステアリングベクトルを用いて、ビームフォーマを推定することが可能となる。
<第2実施形態>
ここでは、参考非特許文献1に記載のように、観測信号ベクトルxt,fの代わりに、観測信号ベクトルxt,fから得られる所定のベクトルである中間信号ベクトル^xt,fを用いて、目的音信号yt,fを生成する形態について説明する。
(参考非特許文献1:T. Nakatani, K. Kinoshita, “Maximum-likelihood convolutional beamformer for simultaneous denoising and dereverberation,” 2019 27th European Signal Processing Conference (EUSIPCO), 2019.)
目的音信号生成装置200は、複数のマイクを用いて収音された観測音に対応する観測信号ベクトルxt,fから観測音に含まれる目的音に対応する目的音信号yt,fを生成する。
以下、図5~図6を参照して目的音信号生成装置200を説明する。図5は、目的音信号生成装置200の構成を示すブロック図である。図6は、目的音信号生成装置200の動作を示すフローチャートである。図5に示すように目的音信号生成装置200は、マスク生成部110と、中間信号ベクトル生成部210と、ステアリングベクトル生成部220と、ビームフォーマベクトル生成部230と、目的音信号生成部240と、記録部290を含む。記録部290は、目的音信号生成装置200の処理に必要な情報を適宜記録する構成部である。
図6に従い目的音信号生成装置200の動作について説明する。
S110において、マスク生成部110は、観測信号ベクトルxt,fを入力とし、観測信号ベクトルxt,fからマスクγt,fを生成し、出力する。
S210において、中間信号ベクトル生成部210は、観測信号ベクトルxt,fを入力とし、観測信号ベクトルxt,fを用いて得られる所定のベクトルである中間信号ベクトル^xt,fを生成し、出力する。中間信号ベクトル^xt,fは、例えば、観測信号ベクトルxt,fを含み、観測信号ベクトルxt,fと周波数ビンが同一で、時間フレームが異なる観測信号ベクトルをいくつか含むベクトル(つまり、観測信号ベクトルxt,fを含む複数の観測信号ベクトルから得られるベクトル)とすることができる(参考非特許文献1参照)。また、中間信号ベクトル^xt,fは、例えば、WPE(Weighted Prediction Error)法を用いて得られる、観測音に含まれる残響を抑圧した音に対応するベクトル(つまり、WPE法による出力ベクトル)とすることができる。
S220において、ステアリングベクトル生成部220は、S210で生成した中間信号ベクトル^xt,fとS110で生成したマスクγt,fを入力とし、中間信号ベクトル^xt,fとマスクγt,fからステアリングベクトルhfを生成し、出力する。
ステアリングベクトル生成部220は、パワー法を用いて中間信号ベクトル^xt,fとマスクγt,fから生成される所定の行列の最大固有値に対応する固有ベクトルを求めることにより、ステアリングベクトルhfを生成するものとして構成することができる。以下、図7~図8を参照してステアリングベクトル生成部220を説明する。図7は、ステアリングベクトル生成部220の構成を示すブロック図である。図8は、ステアリングベクトル生成部220の動作を示すフローチャートである。図7に示すようにステアリングベクトル生成部220は、空間共分散行列生成部222と、ステアリングベクトル計算部224と、を含む。
図8に従いステアリングベクトル生成部220の動作について説明する。
S222において、空間共分散行列生成部222は、S210で生成した中間信号ベクトル^xt,fとS110で生成したマスクγt,fを入力とし、中間信号ベクトル^xt,fとマスクγt,fから目的音空間共分散行列Φs fと雑音空間共分散行列Φn fを生成し、出力する。空間共分散行列生成部222は、次式により、目的音空間共分散行列Φs fと雑音空間共分散行列Φn fを生成する。
Figure 0007428251000010
Figure 0007428251000011
S224において、ステアリングベクトル計算部224は、S222で生成した目的音空間共分散行列Φs f、雑音空間共分散行列Φn fを入力とし、目的音空間共分散行列Φs fと雑音空間共分散行列Φn fを用いて、初期ベクトルuからステアリングベクトルhfを計算し、出力する。ステアリングベクトル計算部224は、次式により、ステアリングベクトルhfを計算する。
Figure 0007428251000012
(ただし、mは繰り返し回数を表す1以上の整数である)
S230において、ビームフォーマベクトル生成部230は、S210で生成した中間信号ベクトル^xt,fとS220で生成したステアリングベクトルhfを入力とし、中間信号ベクトル^xt,fとステアリングベクトルhfからビームフォーマベクトルwfを生成し、出力する。ビームフォーマベクトル生成部230は、次式により、ビームフォーマベクトルwfを生成する。
Figure 0007428251000013
ここで、hfrは、参照マイクrに対応するステアリングベクトルhfの要素である。また、行列Rfは、次式により計算される。
Figure 0007428251000014
(ただし、上記和は雑音区間に含まれる時間フレームtに関する和である。また、λtは、観測信号ベクトルxt,fから計算されるパワーである)
S240において、目的音信号生成部240は、S210で生成した中間信号ベクトル^xt,fとS230で生成したビームフォーマベクトルwfを入力とし、中間信号ベクトル^xt,fとビームフォーマベクトルwfから目的音信号yt,fを生成し、出力する。目的音信号生成部240は、次式により、目的音信号yt,fを生成する。
Figure 0007428251000015
本発明の実施形態によれば、ビームフォーマの推定誤差を小さくするために誤差逆伝播法を用いてニューラルネットワークを学習する場合でも計算が不安定になることを避けることが可能となる。また、固有値分解問題を解くことなく、パワー法により高精度で生成したステアリングベクトルを用いて、ビームフォーマを推定することが可能となる。
<補記>
図9は、上述の各装置を実現するコンピュータの機能構成の一例を示す図である。上述の各装置における処理は、記録部2020に、コンピュータを上述の各装置として機能させるためのプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成部)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。

Claims (6)

  1. tを時間フレームを表すインデックス、fを周波数ビンを表すインデックスとし、
    複数のマイクを用いて収音された観測音に対応する観測信号ベクトルxt,fからマスクγt,fを生成するマスク生成部と、
    前記観測信号ベクトルxt,fと前記マスクγt,fからステアリングベクトルhfを生成するステアリングベクトル生成部と、
    前記観測信号ベクトルxt,fと前記ステアリングベクトルhfからビームフォーマベクトルwfを生成するビームフォーマベクトル生成部と、
    前記観測信号ベクトルxt,fと前記ビームフォーマベクトルwfから前記観測音に含まれる目的音に対応する目的音信号yt,fを生成する目的音信号生成部と、
    を含む目的音信号生成装置であって、
    前記マスク生成部は、誤差逆伝搬法を用いて学習されたニューラルネットワークとして構成され、
    前記ステアリングベクトル生成部は、パワー法を用いて前記観測信号ベクトルxt,fと前記マスクγt,fから生成される所定の行列の最大固有値に対応する固有ベクトルを求めることにより、前記ステアリングベクトルhfを生成する
    目的音信号生成装置。
  2. tを時間フレームを表すインデックス、fを周波数ビンを表すインデックスとし、
    複数のマイクを用いて収音された観測音に対応する観測信号ベクトルxt,fからマスクγt,fを生成するマスク生成部と、
    前記観測信号ベクトルxt,fを用いて得られる所定のベクトルである中間信号ベクトル^xt,fを生成する中間信号ベクトル生成部と、
    前記中間信号ベクトル^xt,fと前記マスクγt,fからステアリングベクトルhfを生成するステアリングベクトル生成部と、
    前記中間信号ベクトル^xt,fと前記ステアリングベクトルhfからビームフォーマベクトルwfを生成するビームフォーマベクトル生成部と、
    前記中間信号ベクトル^xt,fと前記ビームフォーマベクトルwfから前記観測音に含まれる目的音に対応する目的音信号yt,fを生成する目的音信号生成部と、
    を含む目的音信号生成装置であって、
    前記マスク生成部は、誤差逆伝搬法を用いて学習されたニューラルネットワークとして構成され、
    前記ステアリングベクトル生成部は、パワー法を用いて前記観測信号ベクトルxt,fと前記マスクγt,fから生成される所定の行列の最大固有値に対応する固有ベクトルを求めることにより、前記ステアリングベクトルhfを生成する
    目的音信号生成装置。
  3. 請求項1または2に記載の目的音信号生成装置であって、
    前記ステアリングベクトル生成部は、
    前記観測信号ベクトルxt,fと前記マスクγt,fから目的音空間共分散行列Φs fと雑音空間共分散行列Φn fを生成する空間共分散行列生成部と、
    前記目的音空間共分散行列Φs fと前記雑音空間共分散行列Φn fを用いて、初期ベクトルuから次式により前記ステアリングベクトルhfを計算するステアリングベクトル計算部と、
    Figure 0007428251000016

    (ただし、mは1以上の整数)
    を含むことを特徴とする目的音信号生成装置。
  4. tを時間フレームを表すインデックス、fを周波数ビンを表すインデックスとし、
    目的音信号生成装置が、複数のマイクを用いて収音された観測音に対応する観測信号ベクトルxt,fからマスクγt,fを生成するマスク生成ステップと、
    前記目的音信号生成装置が、前記観測信号ベクトルxt,fと前記マスクγt,fからステアリングベクトルhfを生成するステアリングベクトル生成ステップと、
    前記目的音信号生成装置が、前記観測信号ベクトルxt,fと前記ステアリングベクトルhfからビームフォーマベクトルwfを生成するビームフォーマベクトル生成ステップと、
    前記目的音信号生成装置が、前記観測信号ベクトルxt,fと前記ビームフォーマベクトルwfから前記観測音に含まれる目的音に対応する目的音信号yt,fを生成する目的音信号生成ステップと、
    を含む目的音信号生成方法であって、
    前記マスク生成ステップは、誤差逆伝搬法を用いて学習されたニューラルネットワークにより実行され、
    前記ステアリングベクトル生成ステップは、パワー法を用いて前記観測信号ベクトルxt,fと前記マスクγt,fから生成される所定の行列の最大固有値に対応する固有ベクトルを求めることにより、前記ステアリングベクトルhfを生成する
    目的音信号生成方法。
  5. tを時間フレームを表すインデックス、fを周波数ビンを表すインデックスとし、
    目的音信号生成装置が、複数のマイクを用いて収音された観測音に対応する観測信号ベクトルxt,fからマスクγt,fを生成するマスク生成ステップと、
    前記目的音信号生成装置が、前記観測信号ベクトルxt,fを用いて得られる所定のベクトルである中間信号ベクトル^xt,fを生成する中間信号ベクトル生成ステップと、
    前記目的音信号生成装置が、前記中間信号ベクトル^xt,fと前記マスクγt,fからステアリングベクトルhfを生成するステアリングベクトル生成ステップと、
    前記目的音信号生成装置が、前記中間信号ベクトル^xt,fと前記ステアリングベクトルhfからビームフォーマベクトルwfを生成するビームフォーマベクトル生成ステップと、
    前記目的音信号生成装置が、前記中間信号ベクトル^xt,fと前記ビームフォーマベクトルwfから前記観測音に含まれる目的音に対応する目的音信号yt,fを生成する目的音信号生成ステップと、
    を含む目的音信号生成方法であって、
    前記マスク生成ステップは、誤差逆伝搬法を用いて学習されたニューラルネットワークにより実行され、
    前記ステアリングベクトル生成ステップは、パワー法を用いて前記観測信号ベクトルxt,fと前記マスクγt,fから生成される所定の行列の最大固有値に対応する固有ベクトルを求めることにより、前記ステアリングベクトルhfを生成する
    目的音信号生成方法。
  6. 請求項1ないし3のいずれか1項に記載の目的音信号生成装置としてコンピュータを機能させるためのプログラム。
JP2022531225A 2020-06-19 2020-06-19 目的音信号生成装置、目的音信号生成方法、プログラム Active JP7428251B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/024175 WO2021255925A1 (ja) 2020-06-19 2020-06-19 目的音信号生成装置、目的音信号生成方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2021255925A1 JPWO2021255925A1 (ja) 2021-12-23
JP7428251B2 true JP7428251B2 (ja) 2024-02-06

Family

ID=79267713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022531225A Active JP7428251B2 (ja) 2020-06-19 2020-06-19 目的音信号生成装置、目的音信号生成方法、プログラム

Country Status (3)

Country Link
US (1) US20230239616A1 (ja)
JP (1) JP7428251B2 (ja)
WO (1) WO2021255925A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114242104A (zh) * 2021-12-31 2022-03-25 西安讯飞超脑信息科技有限公司 语音降噪的方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017107141A (ja) 2015-12-09 2017-06-15 日本電信電話株式会社 音源情報推定装置、音源情報推定方法、およびプログラム
JP2018128500A (ja) 2017-02-06 2018-08-16 日本電信電話株式会社 形成装置、形成方法および形成プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017107141A (ja) 2015-12-09 2017-06-15 日本電信電話株式会社 音源情報推定装置、音源情報推定方法、およびプログラム
JP2018128500A (ja) 2017-02-06 2018-08-16 日本電信電話株式会社 形成装置、形成方法および形成プログラム

Also Published As

Publication number Publication date
WO2021255925A1 (ja) 2021-12-23
JPWO2021255925A1 (ja) 2021-12-23
US20230239616A1 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
JP2019078864A (ja) 楽音強調装置、畳み込みオートエンコーダ学習装置、楽音強調方法、プログラム
JP7428251B2 (ja) 目的音信号生成装置、目的音信号生成方法、プログラム
JP5161157B2 (ja) 周波数領域エコー除去装置、周波数領域エコー除去方法、プログラム
JP6721165B2 (ja) 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
JP6567478B2 (ja) 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム、信号処理学習装置
JP5166460B2 (ja) 残響予測フィルタ算出装置、残響抑圧装置、残響予測フィルタ算出方法、残響抑圧方法、プログラム
US11676619B2 (en) Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program
JP7351401B2 (ja) 信号処理装置、信号処理方法、およびプログラム
JP7444243B2 (ja) 信号処理装置、信号処理方法、およびプログラム
JP7156064B2 (ja) 潜在変数最適化装置、フィルタ係数最適化装置、潜在変数最適化方法、フィルタ係数最適化方法、プログラム
JP7222277B2 (ja) 雑音抑圧装置、その方法、およびプログラム
JP7231027B2 (ja) 異常度推定装置、異常度推定方法、プログラム
JP7375904B2 (ja) フィルタ係数最適化装置、潜在変数最適化装置、フィルタ係数最適化方法、潜在変数最適化方法、プログラム
WO2024038522A1 (ja) 信号処理装置、信号処理方法、プログラム
JP2014042108A (ja) 縦続接続型伝達系パラメータ推定方法、縦続接続型伝達系パラメータ推定装置、プログラム
JP7375905B2 (ja) フィルタ係数最適化装置、フィルタ係数最適化方法、プログラム
WO2022269854A1 (ja) フィルタ生成装置、フィルタ生成方法、プログラム
JP7487795B2 (ja) 音源信号生成装置、音源信号生成方法、プログラム
JP7173355B2 (ja) Psd最適化装置、psd最適化方法、プログラム
WO2021100215A1 (ja) 音源信号推定装置、音源信号推定方法、プログラム
US11758324B2 (en) PSD optimization apparatus, PSD optimization method, and program
WO2022172348A1 (ja) シーン推定方法、シーン推定装置、プログラム
WO2022168230A1 (ja) 残響除去装置、パラメータ推定装置、残響除去方法、パラメータ推定方法、プログラム
JP2019090930A (ja) 音源強調装置、音源強調学習装置、音源強調方法、プログラム
JP7447993B2 (ja) 消去フィルタ係数生成方法、消去フィルタ係数生成装置、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240108

R150 Certificate of patent or registration of utility model

Ref document number: 7428251

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150