JP2022135451A - 音響処理装置、音響処理方法およびプログラム - Google Patents

音響処理装置、音響処理方法およびプログラム Download PDF

Info

Publication number
JP2022135451A
JP2022135451A JP2021035253A JP2021035253A JP2022135451A JP 2022135451 A JP2022135451 A JP 2022135451A JP 2021035253 A JP2021035253 A JP 2021035253A JP 2021035253 A JP2021035253 A JP 2021035253A JP 2022135451 A JP2022135451 A JP 2022135451A
Authority
JP
Japan
Prior art keywords
sound source
target
spectrum
sound
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021035253A
Other languages
English (en)
Inventor
一博 中臺
Kazuhiro Nakadai
龍 武田
Ryu Takeda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Osaka University NUC
Original Assignee
Honda Motor Co Ltd
Osaka University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, Osaka University NUC filed Critical Honda Motor Co Ltd
Priority to JP2021035253A priority Critical patent/JP2022135451A/ja
Priority to US17/677,359 priority patent/US11818557B2/en
Publication of JP2022135451A publication Critical patent/JP2022135451A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Abstract

【課題】音源分離のための空間的複雑性を低減することができる音響処理装置、音響処理方法およびプログラムを提供する。【解決手段】空間正規化部はマイクロホンアレイを形成する複数のマイクロホンのそれぞれから取得した音響信号のスペクトルに含まれる前記マイクロホンアレイの目標方向への指向成分を所定の標準方向への指向成分に正規化して正規化スペクトルを生成する。マスク関数推定部は機械学習モデルを用いて前記正規化スペクトルに基づいて前記目標方向から到来する目標音源の成分を抽出するためのマスク関数を定める。マスク処理部は前記音響信号に前記マスク関数を作用して前記目標方向に設置された目標音源の成分を推定する。【選択図】図1

Description

本発明は、音響処理装置、音響処理方法およびプログラムに関する。
音源分離は、複数の成分を含む音響信号から個々の音源に基づく成分を分離する技術である。音源分離は、周囲環境を音響面で分析するうえで有用であり、広範な分野や用途への応用が試みられている。代表的な応用例には、自動運転、機器操作、音声会議、ロボットの動作制御、などがある。音源分離には、それぞれ位置が異なるマイクロホンを用い、音源から個々のマイクロホンまでの空間的位置関係の違いによる、音の伝達特性の差異を利用する手法が提案されている。そのうち、選択的音源分離(selective sound separation)は、音源分離において重要な機能である。
選択的音源分離とは、特定の方向または位置に存在する音源から到来する音の成分を分離することである。選択的音源分離は、例えば、会話ロボットにおいて、特定の話者が発話した音声の取得に応用される。非特許文献1では、残響環境において、2個のマイクロホンからの音響入力から目的音源成分(target source component)を分離する手法が提案されている(バイノーラル音源分離(binaural sound source separation))。非特許文献1には、ニューラルネットワークを用い、音響入力から得られたスペクトル特徴量と空間特徴量から目標音を抽出するマスクを推定する手法が記載されている。推定されたマスクは、音響入力に作用して特定の方向からの目標音を相対的に強調し、その他の方向からのノイズ成分を低減するために用いられる。
X. Zhang and D. Wang: "Deep Learning Based Binaural Speech Separation in Reverberant Environments", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND, LANGUAGE PROCESSING, VOL. 25, NO.5, MAY 2017
しかしながら、現実の音響環境における音源の個数や位置との空間的関係のパターンは一般的に多様である。他方、あらゆるパターンを想定すると、これらのパターンを事前に設定したうえで、個々のパターンに適合するようにニューラルネットワークのモデルパラメータを事前に学習しておく必要がある。そのため、モデルパラメータの学習に係る処理量や労力が膨大となりうる。また、音源の個数や位置は動的に変動しうるため、予め設定されたパターンを用いて目標音源の成分が十分な品質で得られるとは限らない。
本実施形態は上記の点に鑑みてなされたものであり、音源分離のための空間的複雑性を低減することができる音響処理装置、音響処理方法およびプログラムを提供することを課題とする。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、マイクロホンアレイを形成する複数のマイクロホンのそれぞれから取得した音響信号のスペクトルに含まれる前記マイクロホンアレイの目標方向への指向成分を所定の標準方向への指向成分に正規化して正規化スペクトルを生成する空間正規化部と、機械学習モデルを用いて前記正規化スペクトルに基づいて前記目標方向から到来する目標音源の成分を抽出するためのマスク関数を定めるマスク関数推定部と、前記音響信号に前記マスク関数を作用して前記目標方向に設置された目標音源の成分を推定するマスク処理部と、を備える音響処理装置である。
(2)本発明の他の態様は、(1)の音響処理装置であって、前記空間正規化部は、前記正規化において前記標準方向への指向性を示す第1ステアリングベクトルと、前記目標方向への指向性を示す第2ステアリングベクトルを用いてもよい。
(3)本発明の他の態様は、(1)または(2)の音響処理装置であって、前記正規化スペクトルに対して前記目標方向への指向性を示す空間フィルタを作用して空間補正スペクトルを生成する空間フィルタリング部を備えてもよい。前記マスク関数推定部は、前記空間補正スペクトルを前記機械学習モデルに入力して前記マスク関数を定めてもよい。
(4)本発明の他の態様は、(1)から(3)のいずれかの音響処理装置であって、前記目標音源を含む複数の音源から到来した音を示す前記音響信号に前記マスク関数を作用して得られる前記目標音源の成分の推定値と、前記目標音源の成分の目標値との残差が小さくなるように、前記機械学習モデルのパラメータセットを定めるモデル学習部を備えてもよい。
(5)本発明の他の態様は、(1)から(4)のいずれかの音響処理装置であって、前記モデル学習部は、前記正規化スペクトルから空間補正スペクトルを生成するための空間フィルタを定めてもよい。前記目標音源の成分の推定値は、前記空間補正スペクトルに前記マスク関数を作用して得られる。
(6)本発明の他の態様は、(1)から(5)のいずれかの音響処理装置であって、複数の前記音響信号に基づいて音源方向を定める音源方向推定部を備えてもよい。前記空間正規化部は、前記音源方向を前記目標方向として用いてもよい。
(7)本発明の他の態様は、コンピュータに(1)から(6)のいずれかの音響処理装置として機能させるためのプログラムであってもよい。
(8)本発明の他の態様は、マイクロホンアレイを形成する複数のマイクロホンのそれぞれから取得した音響信号のスペクトルに含まれる前記マイクロホンアレイの目標方向への指向成分を所定の標準方向への指向成分に正規化して正規化スペクトルを生成する第1ステップと、機械学習モデルを用いて前記正規化スペクトルに基づいて前記目標方向から到来する目標音源の成分を抽出するためのマスク関数を定める第2ステップと、前記音響信号に前記マスク関数を作用して前記目標方向に設置された目標音源の成分を推定する第3ステップと、を有する音響処理方法である。
上述した(1)、(7)、(8)の構成によれば、マスク関数を推定するために用いられる正規化スペクトルは、標準方向への指向成分を含むように正規化されるため、あらゆる音源方向を想定した機械学習モデルを準備する必要がなくなる。そのため、音源分離により得られる目標音源の成分の品質を確保しながら、モデル学習における音響環境の空間的複雑性を低減することができる。
上述した(2)の構成によれば、音源方向推定をはじめとする他のマイクロホンアレイ処理にも利用されうる第1、第2ステアリングベクトルを用いることで、簡素な処理、構成により空間正規化を実現することができる。
上述した(3)の構成によれば、取得される音響信号に含まれる目標方向に設置された目標音源の成分が確実に捕捉されるため、推定される目標音源の成分の品質を確保することができる。
上述した(4)の構成によれば、音響信号に作用して目標音源の成分を推定するマスク関数を定めるための機械学習モデルを学習することができる。
上述した(5)の構成によれば、機械学習モデルのパラメータセットと、機械学習モデルに入力される空間補正スペクトルを生成するための空間フィルタを連立して定めることができる。
上述した(6)の構成によれば、目標方向が未知の目標音源であっても、目標音源の成分を推定することができる。
本実施形態に係る音響処理システムの構成例を示すブロック図である。 空間正規化について説明するための説明図である。 本実施形態に係る収音部の例を示す表面図である。 本実施形態に係る収音部の例を示す側面図である。 本実施形態に係る音響処理の例を示すフローチャートである。 本実施形態に係るモデル学習の例を示すフローチャートである。 マイクロホンアレイと音源との位置関係を示す平面図である。 マイクロホンアレイと音源との位置関係を示す側面図である。 抽出した目標音源成分の品質を示す表である。 空間フィルタの振幅応答の例を示す図である。
以下、図面を参照しながら本発明の実施形態について説明する。
図1は、本実施形態に係る音響処理システムS1の構成例を示すブロック図である。
音響処理システムS1は、音響処理装置10と、収音部20と、を備える。
音響処理装置10は、収音部20から取得した複数チャネルの音響信号のスペクトルを定める。音響処理装置10は、チャネルごとに定めたスペクトルに含まれる収音部20の目標方向への指向成分を所定の標準方向への指向成分に正規化して正規化スペクトルを定める。音響処理装置10は、機械学習モデルを用いて定めた正規化スペクトルに基づいて目標方向からの到来成分を抽出するためのマスク関数をチャネルごとに定める。音響処理装置10は、チャネルごとに定めたマスク関数を音響信号に作用して目標方向に設置された目標音源の成分を推定する。音響処理装置10は、推定した目標音源の成分を示す音響信号を出力先機器30に出力する。出力先機器30は、音響信号の出力先とする他の機器である。
収音部20は、複数のマイクロホンを有し、マイクロホンアレイとして形成される。個々のマイクロホンは、それぞれ異なる位置に所在し、それぞれ自部に到来する音波を収音する。図1に示す例では、個々のマイクロホンは、それぞれ20-1、20-2と子番号を用いて区別されている。個々のマイクロホンは、それぞれ収音した音波を音響信号に変換するアクチュエータを備え、変換した音響信号を音響処理装置10に出力する。本実施形態では、マイクロホンごとに収音される音響信号の単位をチャネルと呼ぶ。図3、図4に示す例では、収音部20は、2個のマイクロホンが回転楕円体の筐体に固定される。マイクロホン20-1、20-2は、筐体の中心軸Cを横断する横断面A-A’の外縁に設置される。中心軸Cと横断面A-A’との交点を代表点Oとする。この例では、代表点Oからマイクロホン20-1の方向と、マイクロホン20-2の方向とのなす角は135°である。
本願では、図1、図3に例示されるように、マイクロホンの数が2である場合を主として説明する。一方のマイクロホン20-1、他方のマイクロホン20-2を、それぞれマイクロホン20-1、20-2と呼ぶことがある。
マイクロホンの数は、3以上となってもよい。個々のマイクロホンの位置は、図示の例に限られない。複数のマイクロホン間の位置関係は固定されていてもよいし、可変であってもよい。
次に、本実施形態に係る音響処理装置10の機能構成例について説明する。
音響処理装置10は、入出力部110と、制御部120と、を含んで構成される。
入出力部110は、他の機器と各種のデータを入力および出力可能に無線または有線で接続する。入出力部110は、他の機器から入力される入力データを制御部120に出力する。入出力部110は、制御部120から入力される出力データを他の機器に出力する。入出力部110は、例えば、入出力インタフェース、通信インタフェースなどのいずれか、または組み合わせであってもよい。入出力部110は、アナログ・ディジタル(A/D:Analog-to Digital)変換器とディジタル・アナログ(A/D:Digital-to Analog)変換器の両方または一方を備えてもよい。A/D変換器は、収音部20から入力されるアナログの音響信号をディジタルの音響信号に変換し、変換した音響信号を制御部120に出力する。D/A変換器は、制御部120から入力されるディジタルの音響信号をアナログの音響信号に変換し、変換した音響信号を出力先機器30に出力する。
制御部120は、音響処理装置10の機能を実現するための処理、その機能を制御するための処理、などを実行する。制御部120は、専用の部材を用いて構成されてもよいが、CPU(Central Processing Unit)などのプロセッサと各種の記憶媒体を含んで構成されてもよい。プロセッサは、予め記憶媒体に記憶された所定のプログラムを読み出し、読み出したプログラムに記述された各種の命令で指示される処理を実行して制御部120の処理を実現する。
制御部120は、周波数分析部122、空間正規化部124、空間フィルタリング部126、マスク関数推定部128、マスク処理部130、および音源信号処理部132を含んで構成される。
周波数分析部122は、個々のマイクロホンから入力される音響信号に対して所定時間間隔(例えば、10~50msec)のフレームごとに周波数分析を行ってスペクトルを定める。周波数分析部122は、周波数分析において、例えば、離散フーリエ変換(DFT:Discrete Fourier Transform)を行う。チャネルkの音響信号のフレームtにおけるスペクトルは、周波数wにおける複素数xk,w,tを要素として含むベクトルxw,tを用いて表現される。このベクトルを、観測スペクトルベクトル(observed spectrum vector)と呼ぶ。観測スペクトルベクトルxw,tは、[xk1,w,t,xk2,w,tと表される。Tは、ベクトルまたは行列の転置を示す。観測スペクトルベクトルxw,tの要素、例えば、xk1,w,tを、「観測スペクトル」と呼ぶことがある。周波数分析部122は、各チャネルのスペクトルを空間正規化部124にフレームごとに出力する。また、周波数分析部122は、所定のチャネルの観測スペクトル(例えば、xk1,w,t)をマスク処理部130にフレームごとに出力する。
空間正規化部124は、周波数分析部122から入力される観測スペクトルに対して、当該スペクトルに含まれる目標方向(target direction)への収音部20の指向成分が所定の標準方向(standard direction)への指向成分に変換されるように正規化(空間正規化、spatial normalization)し、正規化スペクトルを生成する。目標方向は、収音部20の位置を基準位置とし、その基準位置からの音源の方向に相当する。標準方向は、基準位置からの予め定めた一定の基準となる方向(例えば、正面方向)に相当する。収音部20の指向成分は、ステアリングベクトル(steering vector)を用いて制御されうる。ステアリングベクトルは、チャネルごとの利得と位相を示す複素数を要素値として含むベクトルである。ステアリングベクトルは、指向方向ごとに定められ、その指向方向に対する指向しとして指向方向への利得が他の方向への利得よりも高くなる指向性を有する。目標方向に対するステアリングベクトルのチャネルごとの要素値は、当該要素値を重み係数とする音響信号の重み付け加算値は、マイクロホンアレイとしてのアレイ出力を算出するために用いられる。アレイ出力の目標方向に対する利得が他の方向に対する利得よりも大きくなる。ステアリングベクトルは、音源から個々のチャネルに対応するマイクロホンまでの伝達関数を正規化して得られる要素値を含んで構成される。伝達関数は、使用環境における実測値であってもよいし、物理モデルを仮定したシミュレーションにより算出された演算値であってもよい。物理モデルは、音源からマイクロホンが設置される受音点までの音響伝達特性を与える数理モデルであればよい。
空間正規化部124は、空間正規化において、例えば、式(1)を用いて正規化スペクトル(normalized spectrum vector)x’w,tを定めることができる。
Figure 2022135451000002
式(1)において、a(r’)、a(rc,t)は、それぞれ標準方向r’に対するステアリングベクトル、目標方向rc,tに対するステアリングベクトルを示す。○印に×印を組み合わせてなる記号は、その前後のベクトルの要素ごとの乗算を示す。○印に/印を組み合わせてなる記号は、その直前のベクトルの直後のベクトルでの要素ごとの除算を示す。
ステアリングベクトルa(rc,t)は、例えば、[ak1,w(rc,t),ak2,w(rc,t)]と表される。ak1,w(rc,t)、ak2,w(rc,t)は、それぞれ目標方向に設置された音源からマイクロホン20-1、20-2までの伝達関数を示す。但し、ステアリングベクトルa(rc,t)、a(r’)は、それぞれノルム||a(rc,t)||が1となるように正規化される。空間正規化部124は、定めた正規化スペクトルx’w,tを空間フィルタリング部126に出力する。
空間フィルタリング部126は、空間正規化部124から入力される正規化スペクトルx’w,tに対して目標方向rc,tへの指向性を示す空間フィルタを作用して補正スペクトルzw,tを定める。空間フィルタとして、目標方向rc,tに対する指向性をもたらすフィルタ係数を要素とするベクトル、または、行列が用いられてもよい。かかるフィルタとして、例えば、遅延和ビームフォーマ(DSビームフォーマ:Delay-and-Sum beamformer)が利用可能である。目標方向rc,tに対するステアリングベクトルa(rc,t)に基づく空間フィルタが用いられてもよい。空間フィルタリング部126は、式(2)に示すように、正規化スペクトルx’w,tに対してDSビームフォーマを用いて空間補正スペクトルzw,tを定めることができる。
Figure 2022135451000003
式(2)において、a(rc,t)は、目標方向rc,tに対するステアリングベクトルを示す。Hは、ベクトルまたは行列の共役を示す。空間フィルタリング部126は、定めた補正スペクトルzw,tをマスク関数推定部128に出力する。
マスク関数推定部128には、正規化スペクトルx’w,tに基づいて定めた補正スペクトルzw,tが入力される。マスク関数推定部128は、所定の機械学習モデルを用いて、周波数w、フレームtに対する補正スペクトルzw,tを入力値として、周波数w、フレームtに対するマスク関数mw,tを出力値として算出する。マスク関数mw,tは、その絶対値が0以上1以下の値域に正規化される実数または複素数で表される。機械学習モデルとして、例えば、各種のニューラルネットワーク(NN:Neural Network)を用いることができる。ニューラルネットワークは、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、順伝播型ニューラルネットワークなど、いずれの種類であってもよい。また、機械学習モデルは、ニューラルネットワークに限られず、決定木、ランダムフォレスト、相関ルール学習、などのいずれの手法であってもよい。マスク関数推定部128は、算出したマスク関数mw,tをマスク処理部130に出力する。
マスク処理部130は、周波数分析部122から入力される音響信号のスペクトル、即ち、観測スペクトルxk1,w,tに、マスク関数推定部128から入力されるマスク関数mw,tを作用して目標方向に設置される目標音源の成分(本願では、「目標成分」と呼ぶことがある)のスペクトル(本願では、「目標スペクトル」と呼ぶことがある)y’w,tを推定する。マスク処理部130は、例えば、式(3)に示すように、観測スペクトルxk1,w,tにマスク関数mw,tを乗算して目標スペクトルy’w,tを算出する。マスク処理部130は、算出した目標スペクトルy’w,tを音源信号処理部132に出力する。
Figure 2022135451000004
音源信号処理部132は、マスク処理部130から入力される目標スペクトルy’w,tに対して離散フーリエ逆変換(IDFT:Inverse Discrete Fourier Transform)を行い、時間領域の目標音源成分の音源信号を生成する。音源信号処理部132は、生成した音源信号を出力先機器30に入出力部110を経由して出力する。音源信号処理部132は、生成した音源信号を自装置の記憶部(図示せず)に記憶してもよい。出力先機器30は、スピーカなどの音響機器でもよいし、パーソナルコンピュータ、多機能携帯電話機などの情報機器でもよい。
(観測モデル)
次に、本実施形態の前提となる観測モデル(Observation Model)について説明する。観測モデルは、音響空間に設置された音源から収音部20に到来する音波の観測スペクトルを定式化するモデルである。音響空間にM(Mは、2以上の整数)個の音源が、それぞれ異なる位置rm,tに設置される場合、収音部20を構成する個々のマイクロホンに受音される音響信号の観測スペクトルxw,tは、式(4)を用いて定式化される。
Figure 2022135451000005
式(4)において、mは、個々の音源を示すインデックスを示す。sは、音源mが出力する音響信号のスペクトルを示す。h(rm,t)は、伝達関数ベクトルを示す。伝達関数ベクトルh(rm,t)は、音源位置rm,tに設置された音源から個々のマイクロホンまでの伝達関数を要素として含むベクトル[hk1,w(rm,t),hk2,w(rm,t)]である。nw,tは、雑音ベクトルを示す。雑音ベクトルnw,tは、個々のマイクロホンでの観測スペクトルに含まれる雑音成分を要素として含むベクトル[nk1,w,t,nk2,w,tである。式(4)は、個々の音源mが出力する音響信号のスペクトルsと伝達関数h(rm,t)の積の音源間の総和と雑音のスペクトルnw,tとの和が観測スペクトルxw,tに等しいことを示す。本願では、音源が生成する音源信号と、そのスペクトルを、それぞれ「音源信号」、「音源スペクトル」と呼ぶことがある。
本モデルによれば、目標方向rc,tに設置された目標音源cに基づく目標スペクトルyw,tは、式(5)に示すように、目標音源cから所定のマイクロホン(例えば、マイクロホン20-1)までの伝達関数hk1,w(rc,t)と目標音源cの音源スペクトルsc,w,tとの積で表される。本実施形態に係る音響処理装置は、上記のように観測スペクトルxw,tに含まれる目標音源cの成分を目標スペクトルyw,tとして推定するための構成を備える。
Figure 2022135451000006
(空間正規化)
次に、空間正規化について説明する。空間正規化は、観測スペクトルに含まれる目標方向への収音部20の指向成分を所定の標準方向への指向成分に変換することに相当する。
図2は、2個の音源のうち一方の音源を目標音源Tgとし、他方の音源を他音源Srとする場合において、目標音源Tgの目標方向θへの指向成分を標準方向0°への指向成分に変換する場合を示す。但し、収音部20の代表点を原点Oとし、各音源の音源方向が原点からの標準方向0°となす方位角で示されている。方位角は、標準方向を基準として左回りに定められている。
その場合、目標方向θ、標準方向0°にそれぞれ設置される音源からの到来成分のスペクトルは、それぞれの方向に係る伝達関数hk,w(θ)、hk,w(0°)に比例する。本実施形態では、空間正規化において指向成分としてステアリングベクトルak,w(θ)に対するステアリングベクトルak,w(0°)の比ak,w(0°)/ak,w(θ)を乗じる。ステアリングベクトルは、音源からマイクロホンまでの伝達関数に比例するため、伝達関数hk,w(θ)とステアリングベクトルak,w(θ)が相殺し、ステアリングベクトルak,w(0°)、即ち、伝達関数hk,w(0°)に比例する成分が残される。
上記のようにステアリングベクトルとして、予め測定された伝達関数、または、物理モデルを用いて合成された伝達関数が用いられる。これに対して、実音場では伝達関数は環境により変動するため、伝達関数hk,w(θ)とステアリングベクトルak,w(θ)は完全には相殺されない。しかしながら、ステアリングベクトルには、マイクロホンごとの位置の差異に基づく強度と位相の差異が反映され、かつ、音源位置による依存性が残される。空間正規化によれば、伝達関数hk,w(θ)とステアリングベクトルak,w(θ)が部分的に相殺されるため、伝達関数hk,w(θ)の音源方向依存性が緩和される。
(モデル学習)
次に、マスク関数推定部128が用いる機械学習モデルのパラメータセットの学習について説明する。前述のようにマスク関数推定部128は、機械学習モデルを用いて補正スペクトルzw,tを入力値として、マスク関数mw,tを出力値として算出する。そのため、マスク関数推定部128には、機械学習モデルのパラメータセットを予め設定させておく。音響処理装置10は、訓練データを用いてパラメータセットを定めるためのモデル学習部(図示せず)を備えてもよい。
モデル学習部は、目標音源を含む複数の音源のそれぞれから到来した成分が混合した音を示す音響信号にマスク関数を作用して得られる目標音源の成分の推定値と、目標音源の成分の目標値との残差が小さくなるように、機械学習モデルのパラメータセットを定める。目標値として、目標音源から到来し、他の音源からの成分を含まない音を示す音響信号が用いられる。
そこで、モデル学習部は、既知の入力値と、その入力値に対応する出力値との対であるデータセットを複数個(典型的には、100-1000以上)含む訓練データを構成する。モデル学習部は、個々のデータセットに含まれる入力値から機械学習モデルを用いて出力値の推定値を算出する。モデル学習部は、モデル学習において、個々のデータセットについて算出した推定値と、そのデータセットに含まれる出力値との差分(推定誤差)の大きさを示す損失関数(loss function)が、より小さくなるようにパラメータセットを更新する処理を繰り返す。パラメータセットΘは、1セットの訓練データごとに定められる。1セットの訓練データは、1セットの観測スペクトルベクトルxw,tと、1セットの音源方向rc,tの組に対して定まる。個々のデータセットは、各1フレームの音源信号を用いて得られる。個々のデータセットに用いられる音源信号のフレームは、時間的に連続していてもよいし、間欠的であってもよい。
機械学習モデルに対する入力値として、観測スペクトルベクトルxw,tから入力値とする補正スペクトルzw,tが上記の手法を用いて与えられる。観測スペクトルベクトルxw,tは、それぞれ位置の異なる複数の音源から音を発し、収音部20を構成する個々のマイクロホンが収音する音響信号を周波数分析して得られる。
機械学習モデルに対する出力値とする目標スぺクトルyw,tは、複数の音源のうちの1つである目標音源から発し、その他の音源から音を発しない場合において、収音部20の少なくとも1個のマイクロホンにより収音される音響信号を周波数分析して得られる。但し、目標音源には入力値を取得する際に用いた音源信号と共通の音源信号に基づく音を再生させる。
なお、入力値と出力値の取得に用いる音響信号は、必ずしもマイクロホンを用いて収音されたものでなくてもよく、シミュレーションにより合成されたものであってもよい。例えば、シミュレーションにおいて、音源信号に対して個々の音源の位置から個々のマイクロホンまでの伝達特性を示すインパルスレスポンスを用いて畳み込み演算を行い、その音源から到来する成分を示す音響信号を生成することができる。従って、複数の音源からの音を示す音響信号は、個々の音源の成分を加算して得られる。目標音源からの音を示す音響信号として、その目標音源の成分を示す音響信号を採用すればよい。
モデル学習部は、パラメータセットの更新前後の差分である更新量が所定の更新量の閾値以下になるか否かに基づいて、パラメータセットが収束したか否かを判定する。収束したと判定するまでモデル学習部は、パラメータセットを更新する処理を継続する。モデル学習部は、損失関数G(Θ)として、例えば、式(6)に示すL1ノルムを用いる。
Figure 2022135451000007
式(6)は、出力値とする既知の目標スぺクトルyw,tの振幅の対数値から推定値とする目標スぺクトルy’w,tの振幅の対数値の差分の周波数およびセット(フレーム)間の総和が損失関数G(Θ)として与えられることを示す。目標スぺクトルyw,t、y’w,tそれぞれの対数値をとることにより、周波数ごとに著しく異なりうる振幅の値域の差異を緩和することができる。このことは、周波数間で一括した処理するために好都合である。なお、モデル学習部は、パラメータセットの収束判定を省略し、パラメータセットの更新処理を予め定めた回数繰り返してもよい。
なお、上記の例では、マスク関数推定部128およびモデル学習部は、機械学習モデルへの入力値として、補正スペクトルzw,tを用いる場合を例にしたが、正規化スペクトルx’w,tをそのまま用いてもよい。その場合には、マスク関数推定部128は、入力値とする正規化スペクトルx’w,tに対して目標スぺクトルy’w,tを出力値として定めることができる。その場合には、空間フィルタリング部126が省略されてもよい。
空間フィルタリング部126は、DSビームフォーマに代え、式(7)に例示されるように、空間フィルタとして空間フィルタ行列W とバイアスベクトルbを用いて、補正スペクトルzw,tを定めてもよい。
Figure 2022135451000008
空間フィルタ行列Wは、J(Jは、予め定めた1以上の整数)個のフィルタ係数ベクトルwj,wを各列に配列して構成される。jは、1以上J以下の整数である。即ち、空間フィルタ行列Wは、[w1,w,…,wJ,w]と表わされる。個々のフィルタ係数ベクトルwj,wは、各1個のビームフォーマに対応し、所定の方向への指向性を示す。個々のフィルタ係数ベクトルwj,wのノルム||wj,w||を1に正規化しておく。よって、式(7)は、正規化スペクトルx’w,tに対して空間フィルタ行列W を乗じて得られる積にバイアスベクトルbを加算して補正スペクトルzw,tを算出することを示す。マスク関数推定部128は、空間フィルタリング部126が算出した補正スペクトルzw,tまたは、その絶対値|zw,t|を入力値とし、機械学習モデルを用いて出力値としてマスク関数mw,tを算出することができる。
モデル学習部は、機械学習モデルのパラメータセットの他、さらに空間フィルタを示す空間フィルタ行列Wとバイアスベクトルbを連立して、目標音源ごとに目標スぺクトルyw,tの推定誤差がより小さくなるように定めればよい。上記のように、正規化スペクトルx’w,tに空間フィルタ行列Wとバイアスベクトルbを用いて、補正スペクトルzw,tが算出される。算出された補正スペクトルzw,tに基づき、目標スぺクトルの推定値y’w,tは、さらに機械学習モデルのパラメータセットを用いて算出される。
なお、上記の実施形態では、目標方向が予め定められている場合を前提としたが、これには限られない。音響処理装置10は、各チャネルの音響信号を用いて音源方向を推定するための音源方向推定部(図示せず)を備えてもよい。音源方向推定部は、定めた音源方向を目標方向として示す目標方向情報を空間正規化部124と空間フィルタリング部126に出力する。空間正規化部124と空間フィルタリング部126は、それぞれ音源方向推定部から入力される目標方向情報を用いて目標方向を特定することができる。
音源方向推定部は、例えば、MUSIC(Multiple Signal Classification)法を用いて音源方向を推定することができる。MUSIC法は、伝達関数ベクトルから有意な固有ベクトルの成分を差し引いて得られる残差ベクトルに対する伝達関数ベクトルの絶対値の比を空間スペクトルとして算出し、方向ごとの空間スペクトルのパワーが所定の閾値よりも高く、かつ極大となる方向を音源方向として定める手法である。伝達関数ベクトルは、音源から個々のマイクロホンまでの伝達関数を要素として有するベクトルである。
音源方向推定部は、その他の手法、例えば、WDS-BF(Weighted Delay and Sum Beam Forming)法を用いて音源方向を推定してもよい。WDS-BF法は、各チャネルの全帯域の音響信号ξの遅延和の二乗値を空間スペクトルのパワーとして算出し、空間スペクトルのパワーが所定の閾値よりも高く、かつ、極大となる音源方向を探索する手法である。
音源方向推定部は、上記の手法を用いることで、同時に複数の音源それぞれの音源方向を定めることができる。その過程において、有意な音源の音源数が検出される。
そこで、空間フィルタリング部126には、フィルタ数Jごとに空間フィルタ行列Wとバイアスベクトルbを設定しておいてもよい。モデル学習部は、モデル学習において、フィルタ数Jを音源数以上となるように設定しておき、空間フィルタ行列Wとバイアスベクトルbを定めておいてもよい。空間フィルタリング部126は、音源方向推定部から入力される音源方向情報に示される音源ごとの音源方向に基づいて音源数を特定し、特定した音源数と等しいか、その音源数以上のフィルタ数Jに対応する空間フィルタ行列Wとバイアスベクトルbを選択してもよい。空間フィルタ全体として指向性が全ての音源の音源方向が網羅されるため、音源数が増加しても安定した補正スペクトルが得られる。
上記のように、マスク処理部130は、検出された複数の音源のそれぞれを目標音源とし、その方向を目標方向とするマスク関数mw,tを用いて目標スペクトルy’w,tを算出する。音源信号処理部132は、目標スペクトルy’w,tから目標音源成分の音源信号を生成する。そこで、音源信号処理部132は、音源方向推定部が推定した音源方向を示す音源方向情報を自装置または出力先機器30に備わる表示部に出力し、操作入力部から入力される操作信号に応じて、複数の音源のいずれかの音源を選択可能としてもよい。表示部は、例えば、ディスプレイである。操作入力部は、例えば、タッチセンサ、マウス、ボタンなどのポインティングデバイスである。音源信号処理部132は、選択した音源を目標音源とする目標音源成分の音源信号を出力し、他の音源信号の出力を停止してもよい。
また、上記の例では、マスク関数mw,tは、その要素数が1個であるスカラー値である場合を仮定したが、要素数を複数とするベクトルであってもよい。その場合、マスク処理部130は、複数チャネルの観測スペクトルxk,w,tに、それぞれ対応するチャネルkのマスク関数mk,w,tを乗じて得られる積の総和を目標スペクトルy’w,tとして算出すればよい。但し、マスク関数推定部128には、モデル学習において、同様の手法を用いて目標スぺクトルy’w,tを算出して生成された機械学習モデルを設定しておく。
(音響処理)
次に、本実施形態に係る音響処理の例について説明する。図5は、本実施形態に係る音響処理の例を示すフローチャートである。
(ステップS102)周波数分析部122は、個々のマイクロホンから入力される各チャネルの音響信号に対してフレームごとに周波数分析を行い、観測スペクトルを定める。
(ステップS104)空間正規化部124は、観測スペクトルに含まれる目標方向への収音部20の指向方向が所定の標準方向への指向方向に変換されるように空間正規化し、正規化スペクトルを定める。
(ステップS106)空間フィルタリング部126は、正規化スペクトルに対して目標方向に対する空間フィルタを作用して補正スペクトルを定める。
(ステップS108)マスク関数推定部128は、機械学習モデルを用いて、補正スペクトルを入力値として、マスク関数を定める。
(ステップS110)マスク処理部130は、所定のチャネルの観測スペクトルに対してマスク関数を作用して目標スペクトルを定める。
(ステップS112)音源信号処理部132は、目標スペクトルに基づいて時間領域の目標音源成分の音源信号を生成する。その後、図5に示す処理を終了する。
(モデル学習)
次に、本実施形態に係るモデル学習の例について説明する。図6は、本実施形態に係るモデル学習の例を示すフローチャートである。
(ステップS202)モデル学習部は、複数の音源によるフレームごとの正規化スペクトルに基づく補正スペクトルを入力値とし、目標音源による目標スペクトルを出力値として含むデータセットを複数セット含む訓練データを形成する。
(ステップS204)モデル学習部は、パラメータセットの初期値を設定する。過去にモデル学習が行われている場合には、モデル学習部は、過去のモデル学習により得られたパラメータセットを初期値として設定してもよい。
(ステップS206)モデル学習部は、所定のパラメータ推定法を用いて、より損失関数が小さくするためのパラメータセットの更新量を定める。パラメータ推定法として、例えば、逆伝播法(back propagation)、最急降下法(steepest descent)、確率的勾配降下法(stochastic gradient descent)などのいずれかの手法が利用可能である。
(ステップS208)モデル学習部は、もとのパラメータセットに定めた更新量を加算して、更新後のパラメータセットを算出する(パラメータ更新)。
(ステップS210)モデル学習部は、更新量が所定の更新量の閾値以下になった否かに基づいて、パラメータセットが収束したか否かを判定する。収束したと判定するとき(ステップS210 YES)、図6に示す処理を終了する。モデル学習部は、得られたパラメータセットをマスク関数推定部128に設定する。収束していないと判定するとき(ステップS210 NO)、ステップS206の処理に戻る。
以上の説明では、空間正規化、空間フィルタリング、マスク処理、音源信号処理などが周波数領域のスペクトルが用い、周波数領域における演算を伴う場合を主としたが、それには限られない。周波数領域のスペクトルに代え、時間領域の信号が用いられてもよい。その場合には、周波数領域における乗算、除算に代え、それぞれ時間領域における畳み込み演算、逆畳み込み演算が実行されればよい。例えば、マスク処理部130は、観測スペクトルxk1,w,tにマスク関数mw,tを乗算して目標スペクトルy’w,tを算出することに代え、収音部20からの音響信号に時間領域のマスク関数の変換係数を畳み込み目標成分を示す音響信号を生成してもよい。その場合には、音源信号処理部132におけるフーリエ逆変換、周波数分析部122が省略されてもよい。
(実験)
次に、音響処理装置10の有効性を評価するために実施した実験について説明する。実験において、2種類の音源を用いた。一方は人間の音声を示す音源信号であり、非音声を示す音源信号である。人間の音声として、日本語話し言葉コーパス(CSJ:Corpus of Spontaneous Japanese)に含まれる発話音声を用いた。CSJで定められた公式評価セットからテストセット用の音源信号を選択した。テストセットには、10名の男性、10名の女性による100分間の音声を示す音源信号がテスト信号として含まれる。個々の試行におけるテスト信号の期間は、3秒から10秒の範囲である。非音声として、RWCP実環境音声・音響データベース(Real World Computing Partnership Sound Scene Database in Real Acoustical Environments)から選択した音源信号をテストセットとして用いた。RWCP実環境音声・音響データベースは、約60種類の非音声信号を含むコーパスである。例えば、ガラスの破壊音、鈴の音、などが含まれる。訓練データとして、223時間の学術講演発表における音声を用いた。学術講演発表には、799件の男性音声、168件の女性音声を示す音源信号が含まれる。
本実験では、音源信号に2チャネルのインパルスレスポンスを畳み込んで2チャネルの音響信号(以下の説明では、バイノーラル信号と呼ぶことがある)を観測信号として合成した。観測信号は、それぞれ訓練データ、テストセットの生成に用いられる。2チャネルのインパルスレスポンスは、予め無響室において音源方向ごとにサンプリング周波数を16kHzとして測定した。測定には、図3および図4に示す2チャネルのマイクロホンアレイを用いた。インパルスレスポンスは、音源から個々のマイクロホンまでの音波の伝達特性を時間領域で表す。
図7は、マイクロホンアレイ(収音部20)と音源との位置関係を示す平面図である。原点Oとしてマイクロホンアレイの代表点が用いられ、音源方向は原点Oを中心とする半径1.0mの円周上に1°単位で設定可能とする。但し、本実験では個々の音源方向について高さが異なる2個の音源Sr-1、Sr-2を設定した。
図8は、マイクロホンアレイ(収音部20)と音源Sr-1、Sr-2の位置関係を示す側面図である。2個のマイクロホンが配置されている横断面の高さは床から0.6mであるのに対し、音源Sr-1、Sr-2の高さは、それぞれ1.35m、1.10mである。
音源Sr-1、Sr-2は、それぞれ異なるテストセット1、2を生成するために用いた。但し、訓練データの生成には、音源Sr-1を用い、音源Sr-2を用いなかった。従って、テストセット1は、訓練データと同じ音源Sr-1が用いられる整合テストセット(matched test set)となる。テストセット2は、訓練データと異なる音源Sr-2が用いられる非整合テストセット(unmatched test set)となる。
訓練データとして、3名の話者の音声信号をミキシングした音響信号を用いた。それらのうちの大部分は、同一の話者の音声信号である。1名の話者の目標方向θc,tを、時間経過に応じて不変(time-invariant)とし、0°から359°の間で一様に選択した。他の2名の話者の目標方向を、(θc,t+20+u)°と(θc,t+340-u)°からランダムに選択した。uは、0以上140以下の整数値からランダムに選択される整数値である。
テストセットとして4種類のデータセットを用いた。4種類のデータセットは、複数の音源からの成分を示す音響信号をミキシングした信号を各試行におけるテスト信号として含む。これらの信号には、いずれも訓練データには含まれない。4種類のデータセットを、それぞれ2音声(sp2)セット、3音声(sp3)セット、2音声+非音声(sp2+n1)セット、4音声(sp4)セットと呼ぶ。2音声セットは、2名の音声をミキシングしたテスト信号を含む。2音声セットに含まれる各試行における音源方向のパターンには、3種類のパターン[0°,30°]、[0°,45°]、および[0°,60°]のが含まれる。3音声セットは、3名の音声をミキシングしたテスト信号を含む。3音声セットに含まれる各試行における音源方向のパターンには、3種類のパターン[0°,30°,60°]、[0°,45°,90°]、および[0°,60°,120°]が含まれる。2音声+非音声(sp2+n1)セットには、2名の音声と1つの非音声をミキシングしたテスト信号を含む。2名の音声に対する音源方向のパターンとして、2音声セットと同様のパターンが用いられる。非音声を示す音響信号として、その音源信号をそのまま用いた。4音声セットは、4名の音声をミキシングしたテスト信号を含む。4名の音声に対する音源方向のパターンには、1種類のパターン[0°,45°,270°,315°]が含まれる。いずれも空間正規化における標準方向を0°とした。DSビームフォーマを用いる場合、その指向性を常に0°に向けた。テストセットにおいて、目標方向に±2°の誤差が含まれる。
本実施形態との比較のため、ベースラインとして空間正規化を伴わない次の2種類の手法に対しても評価を行った。2種類の手法を、処理A、処理Bと呼ぶ。処理Aは、空間正規化を省略し、空間フィルタリングにおいて生成されたDSビームフォーマに基づく空間補正スペクトルzw,tをマスク関数への入力する手法である。処理Bは、空間正規化を省略し、学習により得られた空間フィルタ(最適化ビーム、OptBeam)に基づく空間補正スペクトルzw,tをマスク関数への入力する手法である。いずれも、目標方向θc,tを可変とし、目標音源ごとに独立に目標音源成分を分離した。
本実施形態については、空間正規化を伴う処理A、空間正規化を伴う処理B(J=2)、空間正規化を伴う処理B(J=3)、および空間正規化を伴う処理B(J=4)の4種類について評価を行った。
本実験では、機械学習モデルとしてニューラルネットワークを用い、その設定をモデル学習、音源分離、ならびに、音源分離におけるテストセット間で共通とした。ニューラルネットワークは、特徴抽出ネットワーク(feature-extraction network)と全結合ネットワーク(fully connected network)を備える。特徴抽出ネットワークは、メルフィルタバンク特徴抽出(mel-filter bank feature extraction)を含み、逆伝播法(back-propagation)を用いてパラメータを学習した。
本実験では、フレームごとのシフト量(frame shift)を10msとした。特徴抽出ネットワークには、離散フーリエ変換(512点の窓関数)、絶対値算出、線形射影(フィルタバンク、64次元)、絶対値算出、パワー算出、フレーム結合(frame concatenation)、および線形射影(ボトルネック、256次元)の各機能が、その順序で含まれる。空間フィルタリングを個々の特徴抽出ストリームに適用した。訓練データをなす個々のデータセットに含まれる観測信号の期間を640msとした。全結合ネットワークは、7層であり、シグモイド関数を活性化関数として伴う。出力層は、256次元の出力ノードを有し、マスク関数mw,tを出力するためのシグモイド関数を伴う。
本実験では、有効性の指標として信号対歪比(SDR:Signal-to-Distortion Ratio)とケプストラム歪(CD:Cepstrum Distortion)を用いた。SDRは、既知の参照信号からの目標音源成分の歪の度合いの指標値となる。SDRは、その値が大きいほど品質が良好なことを示す指標値である。SDRは、式(8)を用いて定めることができる。
Figure 2022135451000009
式(8)は、目標音源成分y’w,tの振幅が参照信号yw,tの振幅とパラメータαの積と誤差ew,tの和で表されることを示す。パラメータαは、各スペクトルについて周波数w、フレームごとの誤差ew,tが最小化されるように定められる。つまり、パラメータαは、目標音源成分y’w,tにおける、参照信号の寄与度を示す。SDRは、誤差の振幅|ew,t|に対する参照信号成分の振幅α|yw,t|の比について周波数wおよびフレームtにわたるパワーの総和に対する対数値に相当する。
他方、CDは、対数振幅スペクトルに離散コサイン変換を行って得られるケプストラム係数を用いて計算される。CDは、その値が小さいほど品質が良好なことを示す。本実験では、ケプストラム係数の次元を1から24に設定し、平均L1ノルム(誤差絶対値)に基づいて距離値を算出した。
SDRとCDとして、個々のテストセットに対して分離された目標音源成分にわたり平均した値について考察した。入力データに複数の音源が含まれる場合には、目標方向を用いて、他の音源から、個々の音源に係る目標音源成分を抽出した。
次に、実験結果について説明する。図9は、抽出した目標音源成分の品質を示す表である。図9は、手法およびテストセットごとのSDRとCDを示す。各欄の上段、下段にそれぞれSDR、CDを示す。但し、処理なし(No processing)とは、何ら処理を行わずに得られた観測信号に対するSDR、CDを示す。下線は、個々のテストセットについて最も良好な性能を表す。ベースラインと本実施形態とを比較すると、全体的に本実施形態の方が良好な性能が得られる。
まず、ベースラインに係る処理Aにより得られたSDRとCDには、処理なしに係るSDRとCDよりも、テストセット1、2のいずれについても改善が認められる。しかしながら、音源数が増加するほど有意に性能が劣化し、非音声が混合されている場合に性能が最も劣る。このことは、処理Aでは非音声の分離が困難なことを示す。
処理Bに係るCDRとCDは、処理なしに係るCDRとCDと比較して、全く改善が認められなかった。一因として、空間フィルタの学習に失敗したことが推定される。
本実施形態に係る空間正規化+処理Aにより得られたSDRとCDは、テストセット1、2のいずれについても良好な性能を示す。テストセット1については、全項目について最も良好である。テストセット2についても、3音源におけるCD、2音源+非音声と3音源のそれぞれにおけるSDRとCDは、最も良好である。空間正規化+処理Aによれば、ベースラインに係る処理AよりもCDについて1-3dB程度改善が認められる。空間正規化+処理Bについては、フィルタ数Jが増加するほど、SDRとCDが良好となる傾向がある。空間正規化+処理B(J=4)について、2音声の場合におけるSDRとCDと、3音声についてSDRについて最も良好となる。このことは、フィルタ数Jが増加するほど性能の改善が見込まれることを示す。空間正規化+処理Bについてフィルタ数Jが少ない場合に性能が劣化するのは、訓練データに対する過学習と、学習において拘束条件(constraint)を用いなかったことが原因と推認される。過学習は、特定の音源方向への指向性を顕著にし、その方向を目標方向とする目標音源の成分の捕捉を妨げる原因となりうる。拘束条件として、例えば、独立成分分析(ICA:Independent Component Analysis)におけるスパース性(sparseness)を用いることで性能の改善が期待される。
学習された複数の空間フィルタの指向性は、相補的な(complementary)ビームパターンを有する。相補的なビームパターンは、利得が平坦なパターンとある方向において他の方向よりも利得が低くなるヌルパターンの組み合わせを有する。図10は、学習により得られた4個の空間フィルタのうち第1、第4チャネルの振幅応答を、それぞれ第1行、第2行に例示する。縦軸、横軸は、それぞれ周波数、音源方向の方位角を示す。濃淡は、利得を示す。濃い部分ほど利得が高く、明るい部分ほど利得が低いことを示す。
図10は、第4フィルタにおいて2つのヌル方向(ブラインドスポット)が認められるのに対し、第1フィルタの対応する方向にはヌル方向は認められない。このことは、ニューラルネットワークを用いて、相補的ビームパターンに基づいて一部フィルタのヌル方向を目標方向とする目標音源であっても、複数のフィルタを用いることで目標音源の成分を漏れなく捕捉できることを示す。
以上に説明したように、本実施形態に係る音響処理装置10は、マイクロホンアレイを形成する複数のマイクロホンのそれぞれから音響信号を取得し、取得した音響信号のスペクトルに含まれるマイクロホンアレイの目標方向への指向成分を所定の標準方向への指向成分に正規化して正規化スペクトルを生成する空間正規化部124を備える。音響処理装置10は、機械学習モデルを用いて正規化スペクトルに基づいて目標方向から到来する目標音源の成分を抽出するためのマスク関数を定めるマスク関数推定部128を備える。音響処理装置10は、取得した音響信号にマスク関数を作用して目標方向に設置された目標音源の成分を推定するマスク処理部130を備える。
この構成によれば、マスク関数を推定するために用いられる正規化スペクトルは、標準方向への指向成分を含むように正規化されるため、あらゆる音源方向を想定した機械学習モデルを準備する必要がなくなる。そのため、音源分離により得られる目標音源の成分の品質を確保しながら、モデル学習における音響環境の空間的複雑性を低減することができる。
空間正規化部124は、正規化において標準方向への指向性を示す第1ステアリングベクトルと、目標方向への指向性を示す第2ステアリングベクトルを用いてもよい。
この構成により、音源方向推定をはじめとする他のマイクロホンアレイ処理にも利用されうる第1、第2ステアリングベクトルを用いることで、簡素な処理、構成により空間正規化を実現することができる。
音響処理装置10は、正規化スペクトルに対して目標方向への指向性を示す空間フィルタを作用して空間補正スペクトルを生成する空間フィルタリング部を備えてもよい。マスク関数推定部128は、空間補正スペクトルを機械学習モデルに入力してマスク関数を定めてもよい。
この構成により、取得される音響信号に含まれる目標方向に設置された目標音源の成分が確実に捕捉されるため、推定される目標音源の成分の品質を確保することができる。
音響処理装置10は、目標音源を含む複数の音源から到来した音を示す音響信号にマスク関数を作用して得られる目標音源の成分の推定値と、目標音源の成分の目標値との残差が小さくなるように、機械学習モデルのパラメータセットを定めるモデル学習部を備えてもよい。
この構成により、音響信号に作用して目標音源の成分を推定するマスク関数を定めるための機械学習モデルを学習することができる。
モデル学習部は、正規化スペクトルから空間補正スペクトルを生成するための空間フィルタを定めてもよい。目標音源の成分の推定値は、空間補正スペクトルにマスク関数を作用して得られる。
この構成により、機械学習モデルのパラメータセットと、機械学習モデルに入力される空間補正スペクトルを生成するための空間フィルタを連立して定めることができる。
音響処理装置10は、複数の前記音響信号に基づいて音源方向を定める音源方向推定部を備えてもよい。空間正規化部は、音源方向推定部が定めた音源方向を目標方向として定めてもよい。
この構成により、目標方向が未知である目標音源であっても、目標音源の成分を推定することができる。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
上記のように、マスク処理部130は、検出された複数の音源のそれぞれを目標音源とし、その方向を目標方向とするマスク関数mw,tを用いて目標スペクトルy’w,tを算出する。音源信号処理部132は、目標スペクトルy’w,tから目標音源成分の音源信号を生成する。そこで、音源信号処理部132は、音源方向推定部が推定した音源方向を示す音源方向情報を自装置または出力先機器30に備わる表示部に出力し、操作入力部から入力される操作信号に応じて、複数の音源のいずれかの音源を選択可能としてもよい。表示部は、例えば、ディスプレイである。操作入力部は、例えば、タッチセンサ、マウス、ボタンなどのポインティングデバイスである。音源信号処理部132は、選択した音源を目標音源とする目標音源成分の音源信号を出力し、他の音源信号の出力を停止してもよい。
また、音響処理装置10は、収音部20と一体化された音響ユニットとして構成されてもよい。収音部20を構成する個々のマイクロホンの位置は可変であってもよい。個々のマイクロホンは、移動体に設置されてもよい。移動体は、台車、飛行体などのいずれであってもよい。個々のマイクロホンの位置は可変である場合には、音響処理装置10は、個々のマイクロホンの位置を検出するための位置検出器と接続されてもよい。制御部120は、個々のマイクロホンの位置に基づいてステアリングベクトルを定めてもよい。
なお、上述した実施形態における音響処理装置10の一部、例えば、周波数分析部122、空間正規化部124、空間フィルタリング部126、マスク関数推定部128、マスク処理部130、および音源信号処理部132の一部または全部をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムを、プロセッサを含むコンピュータシステムに読み込ませ、実行することによって実現してもよい。
また、上述した実施形態及び変形例における音響処理装置10の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音響処理装置10の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
S1…音響処理システム、10…音響処理装置、110…入出力部、120…制御部、122…周波数分析部、124…空間正規化部、126…空間フィルタリング部、128…マスク関数推定部、130…マスク処理部、132…音源信号処理部

Claims (8)

  1. マイクロホンアレイを形成する複数のマイクロホンのそれぞれから取得した音響信号のスペクトルに含まれる前記マイクロホンアレイの目標方向への指向成分を所定の標準方向への指向成分に正規化して正規化スペクトルを生成する空間正規化部と、
    機械学習モデルを用いて前記正規化スペクトルに基づいて前記目標方向から到来する目標音源の成分を抽出するためのマスク関数を定めるマスク関数推定部と、
    前記音響信号に前記マスク関数を作用して前記目標方向に設置された目標音源の成分を推定するマスク処理部と、を備える
    音響処理装置。
  2. 前記空間正規化部は、前記正規化において前記標準方向への指向性を示す第1ステアリングベクトルと、前記目標方向への指向性を示す第2ステアリングベクトルを用いる
    請求項1に記載の音響処理装置。
  3. 前記正規化スペクトルに対して前記目標方向への指向性を示す空間フィルタを作用して空間補正スペクトルを生成する空間フィルタリング部を備え、
    前記マスク関数推定部は、
    前記空間補正スペクトルを前記機械学習モデルに入力して前記マスク関数を定める
    請求項1または請求項2に記載の音響処理装置。
  4. 前記目標音源を含む複数の音源から到来した音を示す前記音響信号に前記マスク関数を作用して得られる前記目標音源の成分の推定値と、前記目標音源の成分の目標値との残差が小さくなるように、前記機械学習モデルのパラメータセットを定めるモデル学習部を備える
    請求項1から請求項3のいずれか一項に記載の音響処理装置。
  5. 前記モデル学習部は、
    前記正規化スペクトルから空間補正スペクトルを生成するための空間フィルタを定め、
    前記目標音源の成分の推定値は、前記空間補正スペクトルに前記マスク関数を作用して得られる
    請求項4に記載の音響処理装置。
  6. 複数の前記音響信号に基づいて音源方向を定める音源方向推定部を備え、
    前記空間正規化部は、前記音源方向を前記目標方向として用いる
    請求項1から請求項5のいずれか一項に記載の音響処理装置。
  7. コンピュータに
    請求項1から請求項6のいずれか一項に記載の音響処理装置として機能させるための
    プログラム。
  8. マイクロホンアレイを形成する複数のマイクロホンのそれぞれから取得した音響信号のスペクトルに含まれる前記マイクロホンアレイの目標方向への指向成分を所定の標準方向への指向成分に正規化して正規化スペクトルを生成する第1ステップと、
    機械学習モデルを用いて前記正規化スペクトルに基づいて前記目標方向から到来する目標音源の成分を抽出するためのマスク関数を定める第2ステップと、
    前記音響信号に前記マスク関数を作用して前記目標方向に設置された目標音源の成分を推定する第3ステップと、を有する
    音響処理方法。
JP2021035253A 2021-03-05 2021-03-05 音響処理装置、音響処理方法およびプログラム Pending JP2022135451A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021035253A JP2022135451A (ja) 2021-03-05 2021-03-05 音響処理装置、音響処理方法およびプログラム
US17/677,359 US11818557B2 (en) 2021-03-05 2022-02-22 Acoustic processing device including spatial normalization, mask function estimation, and mask processing, and associated acoustic processing method and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021035253A JP2022135451A (ja) 2021-03-05 2021-03-05 音響処理装置、音響処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2022135451A true JP2022135451A (ja) 2022-09-15

Family

ID=83117512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021035253A Pending JP2022135451A (ja) 2021-03-05 2021-03-05 音響処理装置、音響処理方法およびプログラム

Country Status (2)

Country Link
US (1) US11818557B2 (ja)
JP (1) JP2022135451A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024075978A1 (ko) * 2022-10-07 2024-04-11 삼성전자 주식회사 음원 편집 기능 제공 방법 및 이를 지원하는 전자 장치
CN117711417B (zh) * 2024-02-05 2024-04-30 武汉大学 一种基于频域自注意力网络的语音质量增强方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4906908B2 (ja) * 2009-11-30 2012-03-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 目的音声抽出方法、目的音声抽出装置、及び目的音声抽出プログラム
US20210098014A1 (en) * 2017-09-07 2021-04-01 Mitsubishi Electric Corporation Noise elimination device and noise elimination method
US10957337B2 (en) * 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation

Also Published As

Publication number Publication date
US20220286775A1 (en) 2022-09-08
US11818557B2 (en) 2023-11-14

Similar Documents

Publication Publication Date Title
Cobos et al. Frequency-sliding generalized cross-correlation: A sub-band time delay estimation approach
Gannot et al. A consolidated perspective on multimicrophone speech enhancement and source separation
Nikunen et al. Direction of arrival based spatial covariance model for blind sound source separation
CN106710601B (zh) 一种语音信号降噪拾音处理方法和装置及冰箱
Thiergart et al. An informed parametric spatial filter based on instantaneous direction-of-arrival estimates
EP1658751B1 (en) Audio input system
JP5587396B2 (ja) 信号分離のためのシステム、方法、および装置
US8848933B2 (en) Signal enhancement device, method thereof, program, and recording medium
KR100486736B1 (ko) 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
US20170251301A1 (en) Selective audio source enhancement
US20040190730A1 (en) System and process for time delay estimation in the presence of correlated noise and reverberation
CN110517701B (zh) 一种麦克风阵列语音增强方法及实现装置
Schwartz et al. An expectation-maximization algorithm for multimicrophone speech dereverberation and noise reduction with coherence matrix estimation
JP6987075B2 (ja) オーディオ源分離
US11818557B2 (en) Acoustic processing device including spatial normalization, mask function estimation, and mask processing, and associated acoustic processing method and storage medium
Jarrett et al. Noise reduction in the spherical harmonic domain using a tradeoff beamformer and narrowband DOA estimates
Benesty et al. Array beamforming with linear difference equations
Hosseini et al. Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function
Tong et al. Supplementations to the higher order subspace algorithm for suppression of spatially colored noise
Ayllón et al. An evolutionary algorithm to optimize the microphone array configuration for speech acquisition in vehicles
Fontaine et al. Scalable source localization with multichannel α-stable distributions
Bhat et al. A computationally efficient blind source separation for hearing aid applications and its real-time implementation on smartphone
Zhao et al. Frequency-domain beamformers using conjugate gradient techniques for speech enhancement
Ko et al. Datasets for Detection and Localization of Speech Buried in Drone Noise
Yermeche et al. Blind subband beamforming with time-delay constraints for moving source speech enhancement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230901