JP5706782B2 - 音源分離装置及び音源分離方法 - Google Patents
音源分離装置及び音源分離方法 Download PDFInfo
- Publication number
- JP5706782B2 JP5706782B2 JP2011175396A JP2011175396A JP5706782B2 JP 5706782 B2 JP5706782 B2 JP 5706782B2 JP 2011175396 A JP2011175396 A JP 2011175396A JP 2011175396 A JP2011175396 A JP 2011175396A JP 5706782 B2 JP5706782 B2 JP 5706782B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- matrix
- separation
- unit
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Description
BSS技術では、信号を分離するために各音源からの空間的な伝搬特性を利用することが提案されている。
分離行列の更新量はコスト関数の今回値が大きいほど多くなり、かつ、コスト関数の今回の勾配が急なほど少なくなるように調節される。
そして、複数のマイクロホンのそれぞれの入力信号と最適分離行列とに基づき音源信号が高精度で分離される。
前記パラメータ選択部は、前記伝達関数記憶部から伝達関数を読み出し、読み出した前記伝達関数を用いて初期の前記分離行列を算出することを特徴とする(1)の音源分離装置である。
本発明のその他の態様である(2)の音源分離装置によれば、音源からの伝達関数を用いて初期分離行列を算出するため、伝達関数の変動に応じて音響信号を分離することができる。
本発明のその他の態様である(3)の音源分離装置によれば、音源方向の切り替わりに伴い初期分離行列を設定することができる。
本発明のその他の態様である(4)の音源分離装置によれば、発話の開始に伴い初期分離行列を設定することができる。
本発明のその他の態様である(5)の音源分離装置によれば、1つの音源として他の音源による成分が混在する度合い、又は分離誤差を低減することができる。
本発明のその他の態様である(6)の音源分離装置によれば、1つの音源として他の音源による成分が混在する度合いを低減し、かつ分離誤差を低減することができる。
本発明のその他の態様である(7)の音源分離方法によれば、音源の変動に基づいて読み出した伝達関数を用いて初期分離行列を音源分離に用いるため、音源が変動しても音響信号を分離することができる。
図1は、本発明の実施形態に係る音源分離装置1の構成を示す概略図である。
音源分離装置1は、収音部11、パラメータ切替部12、音源分離部13、相関算出部14及び音源出力部15を含んで構成される。
収音部11は、変換した音響信号を並列して多チャネル(例えばMチャネル)音響信号としてパラメータ切替(parameter switching)部12の音源定位(sound source localization)部121並びに音源変動検出部(sound change detection)122、音源分離(sound source separation)部13の音源推定(sound estimation)部131及び相関(correlation)算出部14の入力相関(input correlation)算出部141に出力する。
パラメータ切替部12は、音源定位部121、音源変動検出部122、伝達関数記憶部123及びパラメータ選択部124を含んで構成される。
音源定位部121は、式(2)を満たすようにスペクトル相関行列Rspの固有値λiと固有ベクトルeiを算出する。
音源定位部121は、伝達関数記憶部123から選択した伝達関数ベクトルD(θ)と、算出した固有ベクトルeiに基づき、式(3)を用いて空間スペクトル(spatial spectrum)P(θ)を算出する。
ここで、音源定位部121は、入力された多チャネル音響信号に基づきS/N比(signal−to−noise ratio;信号雑音比)を算出し、算出したS/N比が予め設定した閾値よりも高い(即ち、ノイズが少ない)周波数帯域ωを選択する。
音源定位部121は、選択した周波数帯域ωにおいて式(2)を用いて算出した固有値λiのうち、最大となる最大固有値λmaxの平方根に、空間スペクトルP(θ)で式(4)を用いて重み付け加算して拡張空間スペクトルPext(θ)を算出する。
ピーク値とは、角度θの拡張空間スペクトルの値Pext(θ)が、角度θから微小量Δθだけ負方向にずれた角度θ−Δθにおける値Pext(θ−Δθ)、及び角度θから微小量Δθだけ正方向にずれた角度θ+Δθにおける値Pext(θ+Δθ)よりも大きな値である。Δθは、音源方向θの量子化幅(quantization width)、例えば1°(度)である。
なお、音源定位部121は、音源毎の方向情報を推定するために、上述のMUSIC法の代わりに、例えば、WDS−BF(weighted delay and sum beam forming)法を用いてもよい。
音源定位部121は、定めた音源方向情報を音源変動検出部122、パラメータ選択(parameter selecting)部124及び音源分離部13の音源推定部131に出力する。
音源変動検出部122は、音源の変動として、例えば、次の2種類の状態(1)、(2)をフレーム時刻毎に独立に検出する。(1)音源方向の切替わり(switching of sound source direction、以下、POSとも略記する)、(2)発話(utterance、以下、IDとも略記する)。音源変動検出部122は、音源方向の切替わりの状態と発話の状態を同時に検出し、両方の状態を表す変動状態情報を生成することもある。
音源変動検出部122は、例えば、音源方向情報が示す少なくとも1つの音源方向であって現在のフレーム時刻における音源方向と1フレーム時刻過去のその音源方向が、予め設定した方向変化の閾値θth(例えば、5°)を越えたとき、音源方向の切替わりの状態を検出する。このとき、音源変動検出部122は、音源方向の切替わりの状態を表す変動状態情報を生成する。
音源変動検出部122は、例えば、予め定めたフレーム数(例えば、1秒に相当するフレーム数)だけ過去の時刻から1フレーム時刻過去まで一貫して音響信号のパワーが予め設定したパワーの閾値pth(例えば、定常雑音のパワーの10倍)よりも小さく、現在の音響信号のパワーが閾値pthを超えたとき、発話の状態と検出する。このとき、音源変動検出部122は、発話の状態を表す変動状態情報を生成する。
パラメータ選択部124は、入力された変動状態情報が音源方向の切替わりの状態、又は発話の状態を表すとき、入力された音源方向情報が表す各音源方向に最も近似する音源方向を表す音源方向情報に対応する伝達関数ベクトルを伝達関数記憶部123から読み出す。伝達関数記憶部123に記憶されている伝達関数ベクトルに対応する音源方向情報は離散値であり、連続値ではないからである。
音源方向情報が複数の音源方向を表す場合には、パラメータ選択部124は、読み出した複数の伝達関数ベクトルを統合して伝達関数行列を構成する。即ち、伝達関数行列は、各音源から各受音手段までの伝達関数を要素として含み周波数毎に定められる行列である。音源方向情報が1個の音源方向を表す場合には、パラメータ選択部124は、読み出した伝達関数ベクトルを伝達関数行列とする。
パラメータ選択部124は、伝達関数行列を音源分離部13の音源推定部131及び幾何誤差(geometric error)算出部132に出力する。
パラメータ選択部124は、初期分離行列Winitとして、伝達関数行列Dに基づいて、例えば、式(5)を用いて算出する。
なお、本実施形態では、式(5)で算出される初期分離行列Winitの代わりに、伝達関数行列Dの擬似逆行列(D*D)−1D*を初期分離行列Winitとして算出してもよい。
従って、GSS法は、BSS法とBF法を統合した解法であり、音源間での分離精度のと音源スペクトルの推定精度の両者の向上を図る解法である。
音源分離部13が、GSS法を用いる場合、音源推定部131、幾何誤差算出部132、第1ステップサイズ算出部133、分離誤差算出部134、第2ステップサイズ算出部135及び更新行列算出部136を備える。
音源推定部131は、現フレーム時刻tにおける分離行列Wに、更新行列算出部136から入力された更新行列(update matrix)ΔWを減算して、次のフレーム時刻t+1における分離行列Wを算出する。これにより、音源推定部131は、分離行列Wをフレーム毎に更新する。
音源推定部131は、音源変動検出部122から入力された音源変動情報が発話の状態を表すとき、最適分離行列Woptを設定する。このとき、音源推定部131は、音源定位部121から入力された音源方向情報に対応する最適分離行列Woptを読み出し、読み出した最適分離行列Woptを分離行列Wとして設定する。
音源推定部131は、分離行列Wの変化が収束したと判断したとき、自部が備える記憶部に、音源定位部121から入力された音源方向情報と算出した分離行列Wを対応付けて最適分離行列Woptとして記憶する。
音源推定部131は、分離行列Wの変化が収束したと判断し、かつ音源変動検出部122から入力された音源変動情報が音源方向の切替わりを表すとき、最適分離行列Woptを設定する。このとき、音源推定部131は、音源定位部121から入力された音源方向情報に対応する最適分離行列Woptを記憶部から読み出し、読み出した最適分離行列Woptを分離行列Wとして設定する。
音源推定部131は、分離行列Wの変化が収束したと判断したとき、かつ音源変動検出部122から入力された音源変動情報が発話の状態を表すとき、最適分離行列Woptを設定する。このとき、音源推定部131は、音源定位部121から入力された音源方向情報に対応する最適分離行列Woptを読み出し、読み出した最適分離行列Woptを分離行列Wとして設定する。
音源推定部131は、算出した入力スペクトルx(ベクトル)に分離行列Wを乗算して出力スペクトルy(ベクトル)を周波数毎に算出する。音源推定部131は、出力スペクトルyを音源出力部15に出力する。
音源推定部131は、算出した分離行列Wを幾何誤差算出部132、分離誤差算出部134及び相関算出部14の出力相関算出部142に出力する。
幾何誤差算出部132は、算出した幾何誤差行列J’GCを第1ステップサイズ算出部133及び更新行列算出部136に出力し、算出した行列EGCを第1ステップサイズ算出部133に出力する。
第1ステップサイズ算出部133は、算出した第1ステップサイズμGCを更新行列算出部136に出力する。
分離誤差算出部134は、算出した分離誤差行列J’SSを第2ステップサイズ算出部135及び更新行列算出部136に出力し、算出した行列ESSを第2ステップサイズ算出部135に出力する。
第2ステップサイズ算出部135は、算出した第2ステップサイズμSSを更新行列算出部136に出力する。
更新行列算出部136は、幾何誤差行列J’GCと分離誤差行列J’SSを、第1ステップサイズμGCと第2ステップサイズμSSで重み付け加算してフレーム毎に更新行列ΔWを算出する。更新行列算出部136は、算出した更新行列ΔWを音源推定部131に出力する。
このようにして、音源分離部13は、GSS法に基づいて分離行列Wを逐次に算出する。
また、本実施形態では、音源分離部13は、GSS法の代わりに、BF法を用いてもよい。その場合、音源分離部13は、分離誤差算出部134及び第2ステップサイズ算出部135を省略し、更新行列算出部136は、更新行列ΔWを−μGCJ‘GCと定める。
相関算出部14は、入力相関算出部141、出力相関算出部142及び窓長算出部143を含んで構成される。
そこで、入力相関算出部141は、窓長算出部143から入力された窓長N(tS)に基づいて時間窓関数w(tS)を定め、式(14)を用いて瞬時値R(i) xx(tS)を算出する。
入力相関算出部141は、音源変動検出部122から音源の切替わりの状態を表す変動状態情報、又は発話の状態を表す変動状態情報を入力された場合、入力相関行列Rxxの初期値として単位行列に設定する。
入力相関算出部141は、算出又は設定した入力相関行列Rxxを分離誤差算出部134に出力し、時間領域の入力相関行列Rxx(tS)を出力相関算出部142に出力する。
出力相関算出部142は、音源推定部131から入力された分離行列Wを逆離散フーリエ変換(inverse discrete Fourier transform;IDFT)して時間領域の分離行列W(tS)を算出する
出力相関算出部142は、例えば式(17)に示すように、入力相関行列Rxx(tS)の左側に分離行列W(tS)を乗算し、右側に分離行列の複素共役転置行列W*(tS)を乗算して時間領域の出力相関行列Ryy(tS)を算出する。
出力相関算出部142は、音源変動検出部122から音源の切替わりの状態を表す変動状態情報、又は発話の状態を表す変動状態情報を入力された場合、周波数領域の出力相関行列Ryyの初期値として単位行列に設定する。
出力相関算出部142は、算出又は設定した周波数領域の相関行列Ryyを音源分離部13の分離誤差算出部134に出力し、時間領域の出力相関行列Ryy(tS)を窓長算出部143に出力する。
窓長算出部143は、例えば、式(18)に示されるように分離尖鋭度の最小値の逆数に基づいて定める。
窓長算出部143が算出した窓長N(tS)は長いほど分離行列Wの推定精度が向上するが、適応速度(adaptation speed)が遅くなる関係がある。上述のように、本実施形態によれば、分離行列Wの収束性が劣る場合に、窓長算出部143が短い窓長を算出して適応速度を速くし、分離行列Wの収束性が優れる場合に、長い窓長を算出して推定精度を向上させることができる。
図2は、本実施形態に係る音源分離処理を表すフローチャートである。
(ステップS101)音源定位部121は、収音部11から入力された多チャネル音響信号に基づき、例えばMUSIC法を用いて音源方向を推定する。
音源定位部121は、推定した音源方向を表す音源方向情報を音源変動検出部122、パラメータ選択部124及び音源推定部131に出力する。その後、ステップS102に進む。
ここで、音源変動検出部122は、現在のフレーム時刻における音源方向と1フレーム時刻過去のその音源方向が、予め設定した角度の閾値θthを越えたとき、音源方向の切替わりの状態を表す変動状態情報を生成する。
音源変動検出部122は、予め定めたフレーム数だけ過去の時刻から1フレーム時刻過去まで一貫して音響信号のパワーが予め設定した閾値よりも小さく、現在の音響信号のパワーがその閾値を超えたとき、発話の状態と検出する。このとき、音源変動検出部122は、発話の状態を表す変動状態情報を生成する。
音源変動検出部122は、生成した変動状態情報をパラメータ選択部124、音源推定部131及び入力相関算出部141並びに出力相関算出部142に出力する。その後、ステップS103に進む。
幾何誤差算出部132は、算出した幾何誤差行列J’GCを第1ステップサイズ算出部133及び更新行列算出部136に出力し、算出した行列EGCを第1ステップサイズ算出部133に出力する。その後、ステップS105に進む。
分離誤差算出部134は、算出した分離誤差行列J’SSを第2ステップサイズ算出部135及び更新行列算出部136に出力し、算出した行列ESSを第2ステップサイズ算出部135に出力する。その後、ステップS107に進む。
第2ステップサイズ算出部135は、算出した第2ステップサイズμSSを更新行列算出部136に出力する。その後、ステップS108に進む。
更新行列算出部136は、幾何誤差行列J’GCと分離誤差行列J’SSを、第1ステップサイズμGCと第2ステップサイズμSSで重み付け加算してフレーム毎に更新行列ΔWを算出する。更新行列算出部136は、算出した更新行列ΔWを音源推定部131に出力する。その後、ステップS109に進む。
入力相関算出部141は、窓長N(tS)に基づき、例えば式(16)を用いて減衰パラメータα(tS)を算出する。
入力相関算出部141は、算出した減衰パラメータα(tS)と入力相関行列の瞬時値R(i) xx(tS)に基づき、現在のサンプル時刻の入力相関行列Rxx(tS)を、例えば式(15)を用いて算出する。
入力相関算出部141は、サンプル時刻毎に算出した時間領域の入力相関行列Rxx(tS)を出力相関算出部142に出力し、フレーム毎に周波数領域の入力相関行列Rxxを分離誤差算出部134に出力する。その後、ステップS112に進む。
出力相関算出部142は、算出した時間領域の出力相関行列Ryy(tS)を窓長算出部143に出力し、周波数領域の出力相関行列Ryy(tS)を分離誤差算出部134に出力する。その後、ステップS113に進む。
音源推定部131は、算出した入力ベクトルxに分離行列Wを乗算して出力ベクトルyを周波数毎に算出する。音源推定部131は、出力ベクトルyを音源出力部15に出力する。
音源出力部15は、音源推定部131から入力された周波数毎の出力ベクトルが示すスペクトルをフレーム時刻毎に逆離散フーリエ変換して時間領域の出力信号を生成する。音源出力部15は生成した出力信号を音源分離装置1の外部に出力する。その後、処理を終了する。
図3は、本実施形態に係る初期化処理を表すフローチャートである。
(ステップS201)パラメータ選択部124は、音源方向の切替わりの状態、又は発話の状態を表す変動状態情報が入力されたとき、音源定位部121から入力された音源方向情報が表す各音源方向に最も近似する音源方向を表す音源方向情報に対応する伝達関数ベクトルを伝達関数記憶部123から読み出す。パラメータ選択部124は、読み出した伝達関数ベクトルを用いて伝達関数行列を構成し、構成した伝達関数行列を音源推定部131及び幾何誤差算出部132に出力する。その後、ステップS202に進む。
(ステップS202)パラメータ選択部124は、構成した伝達関数行列に基づき、例えば式(5)を用いて初期分離行列Winitを算出し、算出した初期分離行列Winitを音源推定部131に出力する。その後、ステップS203に進む。
音源推定部131は、音源変動検出部122から音源方向の切替わり又は発話の状態を表す変動状態情報を入力された場合のいずれかであると判断した場合(ステップS203 Y)、ステップS204に進む。音源推定部131は、音源変動検出部122から音源方向の切替わり及び発話の状態を表す変動状態情報を入力された場合と判断した場合(ステップS203 N)、ステップS205に進む。
(ステップS205)音源推定部131は、直前に算出した分離行列Wを最適分離行列Woptとして記憶部に記憶する。音源推定部131は、パラメータ選択部124から入力された初期分離行列Winitを分離行列Wとして設定する。その後、ステップS206に進む。
図4は、発話者の発話位置の一例を示す概念図である。
図4において、水平方向をx方向とし、垂直方向をy方向とする。
図4に示すように、第1の実験では、ロボット201をy座標の負方向を正面方向として向け、動作音を発生させずに静止させた。一方の発話者202は、ロボット201の正面前方から60°左前方に静止した状態で発話した。他方の発話者203は、ロボットの正面前方0°から右側方−90°にかけて移動しながら発話する。ここで、音源分離装置1は、空間音源分離(geometric sound separation;GSS)、ステップサイズ適応(adaptive step size;AS)、AS・OCRA(optima controlled recursive average;最適制御再帰平均)の3通りのうち何れかの動作モードで動作させた。
動作モードASでは、第1ステップサイズ算出部133及び第2ステップサイズ算出部135を動作させてステップサイズμGC、μSSを逐次に算出し、相関算出部14の窓長算出部143を動作させずに窓長N(t)を固定した。
動作モードAS・OCRAでは、第1ステップサイズ算出部133及び第2ステップサイズ算出部135を動作させてステップサイズμGC、μSSを逐次に算出し、相関算出部14の窓長算出部143を動作させ窓長N(t)を逐次に算出した。
図5は、本実施形態に係る単語正答率の一例を示す図である。
図5において、最左列から3番目の列から順に、動作モードがGSS、AS、AS・OCRAの場合の単語正答率を示し、最上列から順に、音源が1個の場合であって、静止している利用者、移動している利用者、音源が2個の場合であって、静止している利用者、移動している利用者を示す。
図5によれば、静止している利用者と移動している利用者の間で比較すると、各動作モード、各音源数について単語正答率は同様である。動作モードGSS、AS及びAS・OCRA間で比較すると、GSSについて最も単語正答率が低くなり、AS・OCRAについて最も単語正答率が高くなる。但し、AS及びAS・OCRA間の差異は、GSS及びAS間の差異よりも小さい。図5に示す結果によれば、とりわけ、動作モードASを導入することにより有効に音源が分離でき単語正答率を向上させることができることを示す。
図6は、発話者の発話位置のその他の例を示す概念図である。
図6において、水平方向をx方向とし、垂直方向をy方向とする。図6において、ロボット201を、y座標の負方向を正面として向きながら動作させた。このとき、ロボット201は、主として後方から動作に伴う自己騒音(ego−noise)を発生させる。
図6に示すように、第2の実験では、発話者204は、ロボット201の正面前方に静止しながら発話する。もしくは、発話者204は、ロボットの右前方−20°から左前方20°の間を移動しながら発話する。ここで、音源分離装置1は、上述のAS・OCRAの動作モードで動作させた。
図7は、本実施形態に係る単語正解精度の一例を示す図である。
図7において、最左列から3番目の列から順に、静止、移動各々における単語正解精度を表す。静止とは利用者が静止しながら発話する場合、移動とは移動しながら発話する場合を意味する。
最左列は、伝達関数の切替モード、即ち、パラメータ選択部124が入力された変動状態情報、即ち、音源方向の切り替わりの状態(POS)、発話の状態(ID)及び上述のように伝達関数を算出した場合(CALC)の何れかを示す。最左列から2番目の列は、分離行列Wの切替モード、即ち、音源推定部131が、入力された変動状態情報、即ち、音源方向の切り替わりの状態(POS)、発話の状態(ID)又は音源方向の切り替わりの状態と発話の状態両方(ID_POS)に従って、分離行列Wを初期化した場合の何れかを示す。
また、分離行列Wの切替モードがIDの場合、利用者が移動している場合に単語認識精度が他の切替モードより高い反面、利用者が静止している場合には単語認識精度が他の切替モードより低い。これにより、音源位置が顕著に移動しない場合には、音源推定部131は、初期分離行列Winitよりも、最適分離行列Woptを用いて分離行列Wを設定することが好ましいことを示す。また、音源位置が移動する場合には、音源推定部131は、初期分離行列Winitを用いて分離行列Wを設定することが好ましいことを示す。
これにより、音源の変動に基づいて読み出した伝達関数を用いて初期分離行列を音源分離に用いるため、音源が変動しても音響信号を分離することができる。
これにより、分離行列が収束した場合には、以前に収束した場合の分離行列を初期分離行列の代わりに用いるため、分離行列を設定した後でも分離行列が収束する状態が維持される。そのため、音響信号を高精度で分離することができる。
これにより、音源方向の切り替わりに伴い初期分離行列を設定することができる。
これにより、発話の開始に伴い初期分離行列を設定することができる。
これにより、1つの音源として他の音源による成分が混在する度合い、又は分離誤差を低減することができる。
これにより、1つの音源として他の音源による成分が混在する度合いを低減し、かつ分離誤差を低減することができる。
また、上述した実施形態における音源分離装置1の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。音源分離装置1の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
122…音源変動検出部、123…伝達関数記憶部、124…パラメータ選択部、
13…音源分離部、131…音源推定部、132…幾何誤差算出部、
133…第1ステップサイズ算出部、134…分離誤差算出部、
135…第2ステップサイズ算出部、136…更新行列算出部、
14…相関算出部、141…入力相関算出部、142…出力相関算出部、
143…窓長算出部、
15…音源出力部
Claims (6)
- 収音部から入力された複数チャネルの入力信号から時間窓で抽出した信号値のチャネル間における相関を要素とする入力相関行列を算出する入力相関算出部と、
前記入力信号に基づき音源の変動を表す変動状態情報を生成する音源変動検出部と、
前記音源変動検出部が生成した変動状態情報に基づいて初期の分離行列を算出するパラメータ選択部と、
出力相関行列から一の音源が他の音源として分離される度合いを表す分離尖鋭度に基づくコスト関数を用いて前記分離行列を更新する更新行列算出部と、
前記入力相関行列及び更新した前記分離行列に基づいて出力信号のチャネル間における相関を要素とする出力相関行列を算出する出力相関算出部と、
前記分離尖鋭度が大きいほど長くなるように前記時間窓の長さである窓長を算出する窓長算出部と、
を備えることを特徴とする音源分離装置。 - 音源からの伝達関数を記憶する伝達関数記憶部を備え、
前記パラメータ選択部は、前記伝達関数記憶部から伝達関数を読み出し、読み出した前記伝達関数を用いて初期の前記分離行列を算出することを特徴とする請求項1に記載の音源分離装置。 - 前記音源変動検出部は、前記変動状態情報として、音源方向が予め設定された閾値よりも大きく変化したことを検出して、音源方向の切り替わりを表す情報を生成することを特徴とする請求項1または2に記載の音源分離装置。
- 前記音源変動検出部は、前記変動状態情報として、前記入力信号の振幅が予め設定された閾値よりも大きくなったことを検出して、発話が開始したことを表す情報を生成することを特徴とする請求項1または2に記載の音源分離装置。
- 前記更新行列算出部は、前記コスト関数として、前記分離尖鋭度と、前記出力信号と音源信号との誤差の度合いを表す幾何制約関数と、を重み付け加算したコスト関数を用いることを特徴とする請求項1から4のいずれかに記載の音源分離装置。
- 音源からの伝達関数を記憶する伝達関数記憶部を備える音源分離装置における音源分離方法において、
前記音源分離装置が、収音部から入力された複数チャネルの入力信号から時間窓で抽出した信号値のチャネル間における相関を要素とする入力相関行列を算出する過程と、
前記入力信号に基づき音源の変動を表す変動状態情報を生成する過程と、
前記変動状態情報に基づいて初期の分離行列を算出する過程と、
出力相関行列から一の音源が他の音源として分離される度合いを表す分離尖鋭度に基づくコスト関数を用いて前記分離行列を更新する過程と、
前記入力相関行列及び更新した前記分離行列に基づいて出力信号のチャネル間における相関を要素とする出力相関行列を算出する過程と、
前記分離尖鋭度が大きいほど長くなるように前記時間窓の長さである窓長を算出する過程と、
を有することを特徴とする音源分離方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US37438210P | 2010-08-17 | 2010-08-17 | |
US61/374,382 | 2010-08-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012042953A JP2012042953A (ja) | 2012-03-01 |
JP5706782B2 true JP5706782B2 (ja) | 2015-04-22 |
Family
ID=45594095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011175396A Active JP5706782B2 (ja) | 2010-08-17 | 2011-08-10 | 音源分離装置及び音源分離方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8867755B2 (ja) |
JP (1) | JP5706782B2 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7472041B2 (en) * | 2005-08-26 | 2008-12-30 | Step Communications Corporation | Method and apparatus for accommodating device and/or signal mismatch in a sensor array |
JP2014145838A (ja) | 2013-01-28 | 2014-08-14 | Honda Motor Co Ltd | 音響処理装置及び音響処理方法 |
JP6030032B2 (ja) | 2013-08-30 | 2016-11-24 | 本田技研工業株式会社 | 音響処理装置、音響処理方法、及び音響処理プログラム |
JP6463904B2 (ja) * | 2014-05-26 | 2019-02-06 | キヤノン株式会社 | 信号処理装置及び音源分離方法及びプログラム |
CN105989852A (zh) | 2015-02-16 | 2016-10-05 | 杜比实验室特许公司 | 分离音频源 |
CN107924685B (zh) * | 2015-12-21 | 2021-06-29 | 华为技术有限公司 | 信号处理装置和方法 |
EP3239981B1 (en) * | 2016-04-26 | 2018-12-12 | Nokia Technologies Oy | Methods, apparatuses and computer programs relating to modification of a characteristic associated with a separated audio signal |
EP3324406A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
EP3324407A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
JP6454916B2 (ja) * | 2017-03-28 | 2019-01-23 | 本田技研工業株式会社 | 音声処理装置、音声処理方法及びプログラム |
JP6543848B2 (ja) | 2017-03-29 | 2019-07-17 | 本田技研工業株式会社 | 音声処理装置、音声処理方法及びプログラム |
CN107316651B (zh) * | 2017-07-04 | 2020-03-31 | 北京中瑞智科技有限公司 | 基于麦克风的音频处理方法和装置 |
EP3853628A4 (en) * | 2018-09-17 | 2022-03-16 | Aselsan Elektronik Sanayi ve Ticaret Anonim Sirketi | JOINT SOURCE LOCATION AND SEPARATION METHOD FOR ACOUSTIC SOURCES |
JP7245669B2 (ja) * | 2019-02-27 | 2023-03-24 | 本田技研工業株式会社 | 音源分離装置、音源分離方法、およびプログラム |
US20220139368A1 (en) * | 2019-02-28 | 2022-05-05 | Beijing Didi Infinity Technology And Development Co., Ltd. | Concurrent multi-path processing of audio signals for automatic speech recognition systems |
CN110111808B (zh) * | 2019-04-30 | 2021-06-15 | 华为技术有限公司 | 音频信号处理方法及相关产品 |
US11270712B2 (en) | 2019-08-28 | 2022-03-08 | Insoundz Ltd. | System and method for separation of audio sources that interfere with each other using a microphone array |
CN110675892B (zh) * | 2019-09-24 | 2022-04-05 | 北京地平线机器人技术研发有限公司 | 多位置语音分离方法和装置、存储介质、电子设备 |
CN110491411B (zh) * | 2019-09-25 | 2022-05-17 | 上海依图信息技术有限公司 | 结合麦克风声源角度和语音特征相似度分离说话人的方法 |
CN111128223B (zh) * | 2019-12-30 | 2022-08-05 | 科大讯飞股份有限公司 | 一种基于文本信息的辅助说话人分离方法及相关装置 |
CN113362831A (zh) * | 2021-07-12 | 2021-09-07 | 科大讯飞股份有限公司 | 一种说话人分离方法及其相关设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7706478B2 (en) * | 2005-05-19 | 2010-04-27 | Signalspace, Inc. | Method and apparatus of source separation |
JP2007156300A (ja) * | 2005-12-08 | 2007-06-21 | Kobe Steel Ltd | 音源分離装置、音源分離プログラム及び音源分離方法 |
JP2007215163A (ja) * | 2006-01-12 | 2007-08-23 | Kobe Steel Ltd | 音源分離装置,音源分離装置用のプログラム及び音源分離方法 |
JP2007295085A (ja) * | 2006-04-21 | 2007-11-08 | Kobe Steel Ltd | 音源分離装置及び音源分離方法 |
JP4444345B2 (ja) * | 2007-06-08 | 2010-03-31 | 本田技研工業株式会社 | 音源分離システム |
US8131542B2 (en) * | 2007-06-08 | 2012-03-06 | Honda Motor Co., Ltd. | Sound source separation system which converges a separation matrix using a dynamic update amount based on a cost function |
-
2011
- 2011-08-10 JP JP2011175396A patent/JP5706782B2/ja active Active
- 2011-08-16 US US13/211,002 patent/US8867755B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012042953A (ja) | 2012-03-01 |
US20120045066A1 (en) | 2012-02-23 |
US8867755B2 (en) | 2014-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5706782B2 (ja) | 音源分離装置及び音源分離方法 | |
CN112447191B (zh) | 信号处理装置以及信号处理方法 | |
JP6169910B2 (ja) | 音声処理装置 | |
US9972315B2 (en) | Speech processing device, speech processing method, and speech processing system | |
US20170140771A1 (en) | Information processing apparatus, information processing method, and computer program product | |
Wolf et al. | Channel selection measures for multi-microphone speech recognition | |
US7533015B2 (en) | Signal enhancement via noise reduction for speech recognition | |
JP4469882B2 (ja) | 音響信号処理方法及び装置 | |
US11894010B2 (en) | Signal processing apparatus, signal processing method, and program | |
JP6261043B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP6077957B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
WO2009110574A1 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
US10622008B2 (en) | Audio processing apparatus and audio processing method | |
EP2742435A1 (en) | System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain | |
JP2010282193A (ja) | 残響抑圧装置、及び残響抑圧方法 | |
JP6124949B2 (ja) | 音声処理装置、音声処理方法、及び音声処理システム | |
JP2014145838A (ja) | 音響処理装置及び音響処理方法 | |
JP2018031909A (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
JP2015070321A (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP2018169473A (ja) | 音声処理装置、音声処理方法及びプログラム | |
Chung | Speech enhancement using training-based non-negative matrix factorization techniques | |
JP2022133727A (ja) | 音声強調装置、音声強調方法、およびプログラム | |
Kouhi-Jelehkaran et al. | Phone-based filter parameter optimization of filter and sum robust speech recognition using likelihood maximization | |
Huemmer et al. | An improved uncertainty decoding scheme with weighted samples for DNN-HMM hybrid systems | |
Kang | Online parameter selection for source separation using non-negative matrix factorization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140902 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141008 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5706782 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |