JP2007235646A - 音源分離装置、方法及びプログラム - Google Patents
音源分離装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2007235646A JP2007235646A JP2006055696A JP2006055696A JP2007235646A JP 2007235646 A JP2007235646 A JP 2007235646A JP 2006055696 A JP2006055696 A JP 2006055696A JP 2006055696 A JP2006055696 A JP 2006055696A JP 2007235646 A JP2007235646 A JP 2007235646A
- Authority
- JP
- Japan
- Prior art keywords
- solution
- value
- signal
- sound source
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Landscapes
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】従来の独立成分分析では、音源数がマイク数を上回る場合、性能が劣化するという問題があった。従来のl1ノルム最小化法では、音源以外の雑音が一切存在しないことを仮定しており、反響や残響などの音声以外の雑音が存在する環境では、性能が劣化するという問題があった。
【解決手段】本発明では、l1ノルム最小化法が音を分離するときのコスト関数としていたl1ノルムのほかに、分離音に含まれる雑音成分のパワーをコスト値として考慮する。またl1ノルム最小化法では、音声が時間方向に関連性を持っていないという前提でコスト関数が定義されていたが、本発明では音声が時間方向に関連性を持っているという前提でコスト関数を定義しており、時間方向に関連性を持っている解が選択されやすくなる仕組みを備えている。
【選択図】図2
【解決手段】本発明では、l1ノルム最小化法が音を分離するときのコスト関数としていたl1ノルムのほかに、分離音に含まれる雑音成分のパワーをコスト値として考慮する。またl1ノルム最小化法では、音声が時間方向に関連性を持っていないという前提でコスト関数が定義されていたが、本発明では音声が時間方向に関連性を持っているという前提でコスト関数を定義しており、時間方向に関連性を持っている解が選択されやすくなる仕組みを備えている。
【選択図】図2
Description
本発明は、空間に複数の音源が異なる位置に配置されている場合に、2本以上のマイクロホンを用いて、音源毎に音を分離する音源分離装置、方法及びこの方法をコンピュータに実行させるプログラムに関する。
音源毎に音を分離する技術として、独立成分分析に基づく手法があった(例えば、非特許文献1参照)。独立成分分析とは、音源の原信号が音源間で独立であることを利用する音源分離技術である。独立成分分析ではマイク数と等しい次元の線形フィルタを音源数分だけ用いる。音源数がマイク数以下である場合、原信号を完全に復元することが可能である。独立成分分析に基づく音源分離技術は、音源数がマイク数以下である場合に有効な技術である。
また音源数がマイク数を上回る場合の音源分離技術として、音声のパワースペクトルの確率分布がガウス分布ではなく、ラプラス分布に近いことを利用したl1ノルム最小化法がある(例えば、非特許文献2参照)。
A.Hyvaerinen,J.Karhunen, and E.Oja, "Independent component analysis," John Wiley & Sons,2001.
P.Bofill and M.Zibulevsky, "Blind separation of more sources than mixtures using sparsity of their short-time fourier transform," Proc.ICA2000, pp.87-92,2000/06.
村田 昇, "入門独立成分分析," 東京電機大学出版局, pp. 215-216, 2004/07.
独立成分分析では、音源数がマイク数を上回る場合、性能が劣化するという問題があった。独立成分分析で用いるフィルタ係数の次元はマイク数と等しいため、フィルタにかける制約はマイク数以下でなければならない。音源数がマイク数を下回る場合、ある特定の音源のみを強調し、それ以外の全ての音源を抑圧するという制約をかけたとしても、制約の数は高々マイク数個であるため、制約を満たすフィルタを生成可能である。しかし、音源数がマイク数を上回る場合、制約の数もマイク数を上回るため、制約を満たすフィルタを生成することができず、出力されるフィルタを使っても十分に分離された信号を得ることはできない。l1ノルム最小化法では、音源以外の雑音が一切存在しないことを仮定しているため、反響や残響などの音声以外の雑音が存在する環境では、性能が劣化するという問題があった。
本願で開示する代表的な発明の概要は以下の通りである。
少なくとも2つ以上のマイクロホン素子を備えるマイクロホンアレイからのアナログ信号をデジタル信号に変換するA/D変換手段と、該デジタル信号を帯域分割する帯域分割手段と、上記帯域毎に、上記マイクロホン素子数以上の音源が値0を取るようなベクトルの中から、値0となる要素が等しいベクトル毎に、該ベクトルと予め登録するステアリングベクトルとから計算される推定信号と入力信号との誤差が最小となる解を出力する誤差最小解計算手段と、上記帯域毎に値0となる音源の数毎の誤差最小解のうちでlpノルム値と該誤差の重み付き和が最小となる解を選択する最適モデル計算部と、該選択解を時間領域信号に変換する信号合成手段とを備える音源分離装置又は、その実行のためのプログラム。
少なくとも2つ以上のマイクロホン素子を備えるマイクロホンアレイからのアナログ信号をデジタル信号に変換するA/D変換手段と、該デジタル信号を帯域分割する帯域分割手段と、上記帯域毎に、上記マイクロホン素子数以上の音源が値0を取るようなベクトルの中から、値0となる要素が等しいベクトル毎に、該ベクトルと予め登録するステアリングベクトルとから計算される推定信号と入力信号との誤差が最小となる解を出力する誤差最小解計算手段と、上記帯域毎に値0となる音源の数毎の誤差最小解のうちでlpノルム値と該誤差の重み付き和が最小となる解を選択する最適モデル計算部と、該選択解を時間領域信号に変換する信号合成手段とを備える音源分離装置又は、その実行のためのプログラム。
本発明では音源数がマイク数を上回り、かつ多少の背景雑音や反響・残響が生じる環境であっても、高いS/Nで音源毎に音を分離することが可能となる。その結果、ハンズフリー通話などで、聞きやすい音で通話可能となる。
本実施例のハードウェア構成を図1に示す。中央演算処理装置1内で本実施例に含まれる全ての計算を実施する。記録装置2は、例えばRAMで構成されるワークメモリであり、計算を行う際に使用する変数は全て記憶装置2上に確保される。計算時に使用するデータ及びプログラムは全て例えばROMで構成される記憶装置3に保存されているものとする。マイクロホンアレイ4は少なくとも2つ以上のマイクロホン素子から構成される。個々のマイクロホン素子は,アナログの音圧値を計測する。マイクロホン素子の数はMとする。A/D変換装置はアナログ信号をデジタル信号に変換(サンプリング)する装置であり、Mチャンネル以上の信号を同期サンプリングできる装置である。マイクロホンアレイ4で取り込んだマイクロホン素子毎のアナログの音圧値はA/D変換装置5に送られる。分離する音の数は予め設定し、記録装置2又は3に保存する。分離する音の数をNと表記する。Nが大きいほど、処理量が増加するため、中央演算処理装置1の処理能力で処理可能な程度の値を設定する。
本実施例のソフトウェアのブロック図を図2に示す。本発明では、l1ノルム最小化法が音を分離するときのコスト関数としていたl1ノルムのほかに、分離音に含まれる雑音成分のパワーをコスト値として考慮する。205の最適モデル選択部では、雑音信号のパワーとl1ノルム値の重み付き和の最小解を出力する。またl1ノルム最小化法では、音声が時間方向に関連性を持っていないという前提でコスト関数が定義されていたが、本発明では音声が時間方向に関連性を持っているという前提でコスト関数を定義しており、時間方向に関連性を持っている解が選択されやすくなる仕組みを備えている。
各手段は中央演算装置1において実行される。201のA/D変換手段では、アナログの音圧値を各チャンネル毎にデジタルデータに変換する。A/D変換装置5におけるデジタルデータへの変換は、予め設定するサンプリングレートのタイミングで行う。例えば、サンプリングレートが11025Hzの場合,1秒間に11025回、等間隔でデジタルデータに変換する。変換されたデジタルデータをx(t,j)とする。tは離散化された時間である。A/D変換装置5がA/D変換を始めた時点をt=0とし、1回サンプリングを行う毎に、tは1ずつ加算される。jはマイクロホン素子の番号である。例えば、0番目のマイクロホン素子の100回目のサンプリングデータはx(100,0)と表記される。 x(t,j)の内容は、サンプリング毎にRAM2の設定した領域に書き込まれる。あるいはサンプリングしたデータを、A/D変換装置5の中内のバッファに一時的に貯めておき、バッファ内に、ある一定量のデータが溜まるたびに、それらデータをRAM2の設定した領域に転送するという方法でも良い。x(t,j)の内容が書き込まれたRAM2内の領域をx(t,j)と定義することにする。
202の帯域分割手段では,t=τ*frame_shiftからt=τ*frame_shift+frame_sizeまでのデータに対して、フーリエ変換またはウェーブレット解析を行い、帯域分割信号に変換する。帯域分割信号はj=1...Mまでのマイク素子毎に行う。変換された帯域分割信号を各マイク素子毎の信号を要素に持つベクトルとして(数1)と表記する。
ここで、fは帯域分割番号を意味するインデックスである。
人間の音声や音楽のような音は、大きい振幅値をとることが稀であり、0の値を多く取るスパースな信号である。そのため、音声信号、ガウス分布よりむしろ、0の値を取る確率が高いラプラス分布で近似できることができる。音声信号をラプラス分布で近似すると、対数尤度は、l1ノルム値の符号を正負逆転したものと考えるこができる。また反響や残響、背景雑音が混合した雑音信号は、ガウス分布で近似することができる。そのため、入力信号中に含まれる雑音信号の対数尤度は、入力信号と音声信号との間の2乗誤差の符号を正負逆転したものと考えることができる。確率的に最も尤もらしい解(最尤解)を求めるMAP推定の観点では、雑音信号の対数尤度と音声信号の対数尤度の和が最大となる解が最尤解となるため、入力信号との2乗誤差とl1ノルム値の重み付き和が最小となる信号を最尤解であると考えることができる。しかし、そのような解を求めることは困難であるため、何かしらの近似を行って解を求める必要がある。例えば、l1ノルム最小法では入力信号との誤差が全くなく、l1ノルム値の重み付き和を最小とする信号を解として求める。しかし、反響や残響や背景雑音が存在する環境では、入力信号との誤差が全くないと仮定することはできないため、このような近似は粗い近似となり、分離性能の劣化につながる。そこで、本発明では、入力信号との誤差が存在することを仮定した上で、入力信号との誤差とl1ノルム値の重み付き和が最小となる信号を、近似的に求める。前述したように、人間の音声や音楽のような音は、大きい振幅値をとることが稀なスパースな信号である。つまり、値0となる要素が多い信号であると考えられる。そこで、時間・周波数毎に、マイク数以下の音源のみ値0以外の振幅値を取ると仮定する。また、l1ノルム値は、値0となる要素が増えるにしたがって、小さい値になり、値0となる要素が減るに従って、大きい値になるため、スパースさの尺度と考えることができる(非特許文献3参照)。そこで、値0となる音源の数が等しい場合、l1ノルム値は一定の値になると近似する。この近似を適用すると、音源数をNとした場合、値0を取るようなN次の複素ベクトルの中で解の候補となりうるのは、最も入力信号との誤差が小さい解ということになる。
そこで、まず203の誤差最小解計算手段で、
に従い、L次スパース集合毎に、誤差最小解を計算する。L次スパース集合とは、L個の要素が値0を取るような, N次の複素ベクトルである。計算された誤差最小解は、L次スパース集合の中での、各音源信号の最尤解となる。誤差最小解はN次の複素ベクトルである。各要素は、各音源の原信号の推定値となっている。A(f)はM行N列の複素行列で各音源位置からマイクロホン素子までの音の伝わり方(ステアリングベクトル)を列に持つ行列である。例えば、A(f)の1列目は1つ目の音源からマイクロホンアレイまでのステアリングベクトルである。A(f)は209の方向探索部で計算され出力される。203ではL=1〜Mの各Lについて、誤差最小解を計算する。L=Mの場合、誤差最小解が複数解算出されるが、その場合は、複数解全てをL=Mの誤差最小解として出力する。ここでは、値0となる音源の数が等しいN次複素ベクトル毎に、誤差最小解を求めたが、音源の数だけでなく、値0となる要素が等しいN次複素ベクトル毎に解を求めても良い。ただし値0となる要素が等しくなくても、音源の数が等しいだけで、l1ノルム値が一定の値になると近似できるため、値0となる音源の数毎に誤差最小解を求めるだけで十分と考えられる。
上記(数2)の代わりに(数3)を適用することも可能である。
ΩL,i は、L次スパース集合の中で、同じ要素の値が0となるN次複素ベクトルの集合である。音声のパワーは時間方向に正の相関を持っている。そのため、あるτで大きい値を取る音源はτ±kでも同様に大きい値を取る可能性が大きいと考えられる。これを発展させると誤差項のτ方向への移動平均が小さい解ほど真の解に近い解だと考えることができる。つまり、モデルΩL,i 毎に誤差項の移動平均を新しい誤差項とすることで、より真の解に近い解を求めることができる。γ(m)は移動平均の重みである。この構成により、時間方向に関連性を持っている解が選択されやすくなる。移動平均を使い誤差最小解を求める場合は、値0となる音源の数だけでなく要素も等しいN次複素ベクトル毎に、誤差最小解を計算する必要がある。なぜなら、音源の数が等しくても、要素が違えば、時間方向に正の相関を持ってると近似することはできないからである。
204のlpノルム計算手段では、L次スパース集合毎に計算された誤差最小解をもとに
でlpノルム値を計算する。
は、
のi番目の要素である。pは0〜1の間で予め設定するパラメータである。lpノルム値は、(数6)のスパース度合いの尺度であり(非特許文献3参照)、(数6)の中に0に近い要素が多く含まれているほど、小さい値となる。音声はスパースであるため、(数4)の値が小さいほど、(数6)が真の解に近いと考えることができる。つまり(数4)は、真の解を選択する際の選択基準として用いることができる。
(数4)のlpノルムの計算値は誤差最小解の計算と同様に移動平均
(数4)のlpノルムの計算値は誤差最小解の計算と同様に移動平均
でおきかえることも可能である。音声のパワーは時間方向に正の相関を持っているため、移動平均におきかえることでより真の解に近い解を求めることができる。音声のパワーは時間方向に緩やかにしか変化しない。そのため、あるフレームで大きい振幅値をとる音源はその前後のフレームにおいても大きい振幅値をとると考えることができる。205の最適モデル選択部では各L次スパース集合毎に求めた誤差最小解の中で最適な解を
に基づき求める。(数8)(数9)は、誤差項とlpノルム項の重み付き平均値が最小となる解を出力する。この解は事後確率最大解でもある。最適解を求める式(数8)(数9)は、誤差最小解およびl1ノルム最小解の場合と同様に、移動平均値
で置き換えることが可能である。
従来205に相当する処理で、L=2...Mまでの解を選択対象とせず、L=1の解を最適解とする方式が存在するが、この手法はミュージカルノイズが発生するという問題があった。L=1の解はf、τごとに、一つの音源以外は全て値0となる解である。時には、一つの音源以外は全て値が0に近くなる解がありうる。それが成り立つときは、L=1の解が最適解になるが、常にそれが成り立つとは限らない。L=1を常に仮定すると、2つ以上の音源が大きい値を取った場合に、解を算出することができず、ミュージカルノイズが発生してしまう。 205では、各L次スパース集合毎に求めた誤差最小解の中で最適な解を求めるため、いわばL=1 〜Mまでどのスパース集合が最適であるかを判定する仕組みをもっており2つ以上の音源の値が0より大きくなったときでも、解を算出することができ、ミュージカルノイズの発生を抑えることができる。
206の信号合成手段では、帯域毎に算出した最適解
を逆フーリエ変換または逆ウェーブレット変換にかけて、時間領域の信号
に戻す。こうすることで各音源の時間領域の推定信号を得ることができる。207の音源定位部では、
に基づき、音源方向を計算する。Ωは音源の探索範囲であり、予めROM3に設定されているものとする。
は、音源方向θからマイクロホンアレイまでのステアリングベクトルで、大きさは1に正規化されているとする。原信号をs(f,τ)とすると、音源方向θから到来した音はマイクロホンアレイで
のように観測される。(数13)に含まれる全ての音源のΩは予めROM3に記憶されているものとする。208の方向パワー計算部では、方向毎の音源パワーを
で計算する。δは引数の等式が成立する場合のみ1となり、成立しない場合は0となる関数である。209 方向探索部では、P(θ)をピークサーチして、音源方向を算出し、算出した音源方向のステアリングベクトルを列に持つM行N列のステアリングベクトル行列A(f)を出力する。ピークサーチは、P(θ)を降順にならべ、上位N個を音源方向として算出してもよいし、前後の方向よりP(θ)が上回る場合(極大値になるとき)の中で、上位N個を音源方向として算出しても良い。203では、この情報を(数2)におけるA(f)として利用し、誤差最小解を求める。209の方向探索部でA(f)を探索することで音源方向が予め未知であっても、音源方向を自動推定し、音源分離することが可能となる。
本実施例の処理フローを図3に示す。入力の音声は、各マイクロホン素子で音圧値として受音される。各マイクロホン素子の音圧値をデジタルデータに変換し、frame_shift毎にデータをシフトさせながら、frame_sizeの帯域分割処理を行う(S1)。得た帯域分割信号のうちτ=1...k分だけ用いて、音源方向を推定し、ステアリングベクトル行列A(f)を計算する(S2)。
A(f)を用いて、τ=1… の帯域分割信号の真の解を探索する。そして得た最適解を合成し、各音源毎の推定信号を得る(S3)。(S3)で合成した各音源毎の推定信号が出力信号である。この出力信号は各音源毎に音が分離された信号となり、各音源毎の発話内容が聞き取りやすい音になっている。
A(f)を用いて、τ=1… の帯域分割信号の真の解を探索する。そして得た最適解を合成し、各音源毎の推定信号を得る(S3)。(S3)で合成した各音源毎の推定信号が出力信号である。この出力信号は各音源毎に音が分離された信号となり、各音源毎の発話内容が聞き取りやすい音になっている。
1…中央演算処理装置、2…RAMなどで構成される記憶装置、3…ROMなどで構成される記憶装置、4…少なくとも2つ以上のマイクロホン素子からなるマイクロホンアレイ、5…アナログの音圧値をデジタルデータに変換するA/D変換装置、201…A/D変換手段、202…デジタルの音圧データを帯域分割信号に変換する帯域分割手段、203…誤差最小解計算手段、204…lpノルム計算手段、205…最適モデル計算部、206…信号合成手段、207…音源定位部、208…方向パワー計算部、209…方向探索部、S1…入力音声受音および帯域分割処理、S2…ステアリングベクトル行列の計算処理、S3…信号合成処理。
Claims (4)
- 少なくとも2つ以上のマイクロホン素子を備えるマイクロホンアレイからのアナログ信号をデジタル信号に変換するA/D変換手段と、
該デジタル信号を帯域分割する帯域分割手段と、
上記帯域毎に、上記マイクロホン素子数以上の音源が値0を取るようなベクトルの中から、値0となる要素の数が等しいベクトル毎に、該ベクトルと予め登録するステアリングベクトルとから計算される推定信号と入力信号との誤差が最小となる解を出力する誤差最小解計算手段と、
上記帯域毎に値0となる音源の数毎の誤差最小解のうちでlpノルム値と該誤差の重み付き和が最小となる解を選択する最適モデル計算部と、
該選択解を時間領域信号に変換する信号合成手段とを備えることを特徴とする音源分離装置。 - 前記ステアリングベクトルは予め音源定位を行うことで得られたものであることを特徴とする請求項1に記載の音源分離装置。
- 前記誤差最小解計算手段は、
上記値0となる音源の数及び値0となる要素等しいベクトル毎に誤差が最小となる解を計算し、
上記最適モデル計算部は、上記出力される誤差最小解から、該誤差の移動平均値とlpノルムの移動平均値との重み付き和が最小となるような解を選択することを特徴とする請求項1又は2に記載の音源分離装置。 - 少なくとも2つ以上のマイクロホン素子を備えるマイクロホンアレイからのアナログ信号をデジタル信号に変換し、
該デジタル信号を帯域分割し、
上記帯域毎に、上記マイクロホン素子数以上の音源が値0を取るようなベクトルの中から、値0となる要素の数が等しいベクトル毎に、該ベクトルと予め登録するステアリングベクトルとから計算される推定信号と入力信号との誤差が最小となる解を出力し、
上記帯域毎に値0となる音源の数毎の誤差最小解のうちでlpノルム値と該誤差の重み付き和が最小となる解を選択し、
該選択解を時間領域信号に変換して信号合成を行うことを特徴とする音源分離プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006055696A JP2007235646A (ja) | 2006-03-02 | 2006-03-02 | 音源分離装置、方法及びプログラム |
CNA2007100024006A CN101030383A (zh) | 2006-03-02 | 2007-01-15 | 声源分离装置、方法和程序 |
US11/700,157 US20070223731A1 (en) | 2006-03-02 | 2007-01-31 | Sound source separating device, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006055696A JP2007235646A (ja) | 2006-03-02 | 2006-03-02 | 音源分離装置、方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007235646A true JP2007235646A (ja) | 2007-09-13 |
Family
ID=38533465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006055696A Pending JP2007235646A (ja) | 2006-03-02 | 2006-03-02 | 音源分離装置、方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20070223731A1 (ja) |
JP (1) | JP2007235646A (ja) |
CN (1) | CN101030383A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011081293A (ja) * | 2009-10-09 | 2011-04-21 | Toyota Motor Corp | 信号分離装置、信号分離方法 |
WO2024116945A1 (ja) * | 2022-11-30 | 2024-06-06 | ソニーグループ株式会社 | 音声信号処理装置、音声装置及び音声信号処理方法 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009076523A1 (en) * | 2007-12-11 | 2009-06-18 | Andrea Electronics Corporation | Adaptive filtering in a sensor array system |
US9392360B2 (en) | 2007-12-11 | 2016-07-12 | Andrea Electronics Corporation | Steerable sensor array system with video input |
CN101965613B (zh) * | 2008-03-06 | 2013-01-02 | 日本电信电话株式会社 | 信号增强装置及方法 |
JP5195652B2 (ja) * | 2008-06-11 | 2013-05-08 | ソニー株式会社 | 信号処理装置、および信号処理方法、並びにプログラム |
JP5229053B2 (ja) * | 2009-03-30 | 2013-07-03 | ソニー株式会社 | 信号処理装置、および信号処理方法、並びにプログラム |
CN101662714B (zh) * | 2009-07-28 | 2012-08-15 | 南京大学 | 基于时间反转的复杂声场定位拾声传声器阵列设计方法 |
JP5452158B2 (ja) * | 2009-10-07 | 2014-03-26 | 株式会社日立製作所 | 音響監視システム、及び音声集音システム |
CN102081928B (zh) * | 2010-11-24 | 2013-03-06 | 南京邮电大学 | 基于压缩感知和k-svd的单通道混合语音分离方法 |
WO2015159731A1 (ja) * | 2014-04-16 | 2015-10-22 | ソニー株式会社 | 音場再現装置および方法、並びにプログラム |
CN104021797A (zh) * | 2014-06-19 | 2014-09-03 | 南昌大学 | 一种基于频域稀疏约束的语音信号增强方法 |
CN104065777A (zh) * | 2014-06-20 | 2014-09-24 | 深圳市中兴移动通信有限公司 | 移动通讯设备 |
US9344579B2 (en) * | 2014-07-02 | 2016-05-17 | Microsoft Technology Licensing, Llc | Variable step size echo cancellation with accounting for instantaneous interference |
WO2016073985A1 (en) * | 2014-11-07 | 2016-05-12 | The General Hospital Corporation | Deep brain source imaging with m/eeg and anatomical mri |
CN105848062B (zh) * | 2015-01-12 | 2018-01-05 | 芋头科技(杭州)有限公司 | 多声道的数字麦克风 |
CN105068048B (zh) * | 2015-08-14 | 2016-10-19 | 南京信息工程大学 | 基于空间稀疏性的分布式麦克风阵列声源定位方法 |
EP3963902A4 (en) | 2019-09-24 | 2022-07-13 | Samsung Electronics Co., Ltd. | METHODS AND SYSTEMS FOR MIXED AUDIO SIGNAL RECORDING AND DIRECTIONAL AUDIO CONTENT REPRODUCTION |
EP3915274B1 (en) * | 2019-10-21 | 2023-01-25 | ASK Industries GmbH | Apparatus for processing an audio signal |
CN110992977B (zh) * | 2019-12-03 | 2021-06-22 | 北京声智科技有限公司 | 一种目标声源的提取方法及装置 |
CN111257833B (zh) * | 2019-12-24 | 2023-08-01 | 重庆大学 | 一种基于拉普拉斯范数的快速迭代收缩阈值的声源识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6130949A (en) * | 1996-09-18 | 2000-10-10 | Nippon Telegraph And Telephone Corporation | Method and apparatus for separation of source, program recorded medium therefor, method and apparatus for detection of sound source zone, and program recorded medium therefor |
-
2006
- 2006-03-02 JP JP2006055696A patent/JP2007235646A/ja active Pending
-
2007
- 2007-01-15 CN CNA2007100024006A patent/CN101030383A/zh active Pending
- 2007-01-31 US US11/700,157 patent/US20070223731A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011081293A (ja) * | 2009-10-09 | 2011-04-21 | Toyota Motor Corp | 信号分離装置、信号分離方法 |
WO2024116945A1 (ja) * | 2022-11-30 | 2024-06-06 | ソニーグループ株式会社 | 音声信号処理装置、音声装置及び音声信号処理方法 |
Also Published As
Publication number | Publication date |
---|---|
US20070223731A1 (en) | 2007-09-27 |
CN101030383A (zh) | 2007-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007235646A (ja) | 音源分離装置、方法及びプログラム | |
US20210089967A1 (en) | Data training in multi-sensor setups | |
JP4689625B2 (ja) | 信号解析及び合成のための適応型混合変換 | |
US10650841B2 (en) | Sound source separation apparatus and method | |
Wolf et al. | Channel selection measures for multi-microphone speech recognition | |
JP5662276B2 (ja) | 音響信号処理装置および音響信号処理方法 | |
US20110125496A1 (en) | Speech recognition device, speech recognition method, and program | |
JP2003337594A (ja) | 音声認識装置、その音声認識方法及びプログラム | |
US9390723B1 (en) | Efficient dereverberation in networked audio systems | |
JP2012163918A (ja) | 音声信号処理装置、および音声信号処理方法、並びにプログラム | |
CN113077806B (zh) | 音频处理方法及装置、模型训练方法及装置、介质和设备 | |
JPWO2009131066A1 (ja) | 信号分析制御及び信号制御のシステム、装置、方法及びプログラム | |
EP3392883A1 (en) | Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium | |
US9569405B2 (en) | Generating correlation scores | |
Kumar et al. | Performance evaluation of a ACF-AMDF based pitch detection scheme in real-time | |
US6470314B1 (en) | Method and apparatus for rapid adapt via cumulative distribution function matching for continuous speech | |
Şimşekli et al. | Non-negative tensor factorization models for Bayesian audio processing | |
Nakajima et al. | Monaural source enhancement maximizing source-to-distortion ratio via automatic differentiation | |
CN107919136B (zh) | 一种基于高斯混合模型的数字语音采样频率估计方法 | |
JP4760179B2 (ja) | 音声特徴量算出装置およびプログラム | |
JP4612468B2 (ja) | 信号抽出装置 | |
JP2007178590A (ja) | 目的信号抽出装置、目的信号抽出方法、及び、プログラム | |
US8644346B2 (en) | Signal demultiplexing device, signal demultiplexing method and non-transitory computer readable medium storing a signal demultiplexing program | |
JP7270869B2 (ja) | 情報処理装置、出力方法、及び出力プログラム | |
JP2018191255A (ja) | 収音装置、その方法、及びプログラム |