JP6290803B2 - モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム - Google Patents
モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム Download PDFInfo
- Publication number
- JP6290803B2 JP6290803B2 JP2015034398A JP2015034398A JP6290803B2 JP 6290803 B2 JP6290803 B2 JP 6290803B2 JP 2015034398 A JP2015034398 A JP 2015034398A JP 2015034398 A JP2015034398 A JP 2015034398A JP 6290803 B2 JP6290803 B2 JP 6290803B2
- Authority
- JP
- Japan
- Prior art keywords
- reverberation
- parameter
- model
- mixed signal
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
以下、本願が開示するモデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラムの実施形態を説明する。なお、以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す各実施形態は、矛盾しない範囲で適宜組合せてもよい。
以下、実施形態1について、実施形態1の理論的背景を説明後、実施形態1の一態様を説明する。
実施形態1は、残響下で、N個(Nは、自然数)の音源からの信号をM個(Mは、自然数)のマイクロホンで観測するとする。m(1≦m≦M)番目のマイクロホンで観測された残響を含む混合信号をy(m) tfで表し、下記(10)式のように、M個のマイクロホンで観測される混合信号を混合信号ベクトルytfとしてまとめて表記する。
n(1≦n≦N)番目の音源のみが存在し、残響および他の音源が存在しないと仮定した場合に、M個のマイクロホンで観測される予定の信号を並べたベクトル(以下、「n番目の音源の残響を含まないマイクロホン像」と表記する)をベクトルs(n) tf∈集合CMで表す。ここで、ベクトルs(n) tfは、複素数を要素とするM次元のベクトルである。残響が存在しないと仮定した場合に、M個のマイクロホンで観測される予定の混合信号を並べたベクトル(以下、「残響を含まない混合信号ベクトル」と表記する)をxtf∈集合CMで表す。残響を含まない混合信号ベクトルxtfがスパースであると仮定すれば、混合信号ベクトルxtfは、下記(11)式によりモデル化できる。
残響を含む混合信号ベクトルytfの確率モデルを示す上記(16)式に基づくと、例えば、最尤法又はMAP(Maximum A Posteriori)推定法に従って、パラメータの集合Θを推定することができる。
以下、上述の実施形態1の理論的背景に基づく、実施形態1の一態様を説明する。なお、実施形態1の一態様において、音源数Nは既知と仮定する。
図1は、実施形態1に係るモデル推定装置の構成の一例を示す図である。実施形態1に係るモデル推定装置10Aは、残響除去処理部11A、クラスタリング部12Aを有する。残響除去処理部11Aは、初期化部11A−1、共分散行列更新部11A−2、回帰行列更新部11A−3、残響除去部11A−4を有する。共分散行列更新部11A−2及び回帰行列更新部11A−3及び混合重み更新部12A−2は、パラメータ推定部の一例である。残響除去部11A−4は、信号推定部の一例である。事後確率更新部12A−1は、事後確率計算部の一例である。
図2は、実施形態1に係るモデル推定装置の処理手順の一例を示すフローチャートである。以下に述べるモデル推定装置10Aの処理は、所定の収束判定条件が満たされるまで反復される。所定の収束条件は、例えば、「所定の反復回数に達している、又は、事後確率更新部12A−1、混合重み更新部12A−2の各更新部のうち1つ以上の更新部による更新前後のパラメータ値の差分が所定の閾値未満である」などとすればよい。
以下、実施形態2について、実施形態2の理論的背景を説明後、実施形態2の一態様を説明する。
実施形態1のように、上記(19)式に示す周波数依存の混合重みを用いる場合、評価関数である事後確率には、パーミュテーション(置換)の不定性がある。すなわち、{1,・・・,N}上の置換Πfにより、パラメータの集合Θのα(n) f、φ(n) tf、行列B(n) tfの順序を、下記(62)式のように入れ替えた場合を考える。
実施形態2では、アクティブな音源の番号dtfの確率モデルP(dtf|Θ)を、周波数依存の混合重みではなく、時間依存の混合重みα(n) tを用いて、下記(64)式でモデル化する。
EMアルゴリズムにより、事後確率を最大化する点は、実施形態2は、実施形態1と同様である。しかし、実施形態2は、EMアルゴリズムの各反復において、Eステップ、Mステップの処理に加えて、P(Permutation)ステップの処理を行う。Pステップでは、各周波数binの番号fにて、目的関数である事後確率が最大となるように、共分散行列φ(n) tfB(n) fを音源間で置換することにより、パーミュテーションを解決する。すなわち、Πfを{1,・・・,N}上の置換として、下記(67)式〜(69)式の処理を行う。
以下、上述の実施形態2の理論的背景に基づく、実施形態2の一態様を説明する。なお、実施形態2の一態様において、音源数Nは既知と仮定する。しかし、実施形態2は、真の音源数N0が既知でなくても、その上限は分かっていると仮定し、仮定する音源数Nを、真の音源数N0の上限より大きく設定することで、音源数が既知である場合と同様に実施可能である。
図3は、実施形態2に係るモデル推定装置の構成の一例を示す図である。実施形態2に係るモデル推定装置10Bは、残響除去処理部11B、クラスタリング部12Bを有する。残響除去処理部11Bは、初期化部11B−1、共分散行列更新部11B−2、回帰行列更新部11B−3、残響除去部11B−4を有する。共分散行列更新部11B−2及び回帰行列更新部11B−3及び混合重み更新部12B−2は、パラメータ推定部の一例である。残響除去部11B−4は、信号推定部の一例である。事後確率更新部12B−1は、事後確率計算部の一例である。
実施形態3は、実施形態2のモデル推定装置10Bを用いて、上記文献4に記載の音源数推定技術により、音源数も推定する構成にしたものである。実施形態3は、真の音源数N0は分からないがその上限は分かっていると仮定し、仮定する音源数Nを、真の音源数N0の上限より大きく設定する。
図4は、実施形態3に係るモデル推定装置の構成の一例を示す図である。実施形態3に係るモデル推定装置10Cは、実施形態2に係るモデル推定装置10Bと比較して、音源数推定部13をさらに有する。
図5は、実施形態3に係るモデル推定装置の処理手順の一例を示すフローチャートである。以下に述べるモデル推定装置10Cの処理は、実施形態1又は2と同様の所定の収束判定条件が満たされるまで反復される。
実施形態4に係る目的音強調装置は、実施形態1〜3に係るモデル推定装置10A〜10Cのいずれかを有する目的音強調装置100である。
図6は、実施形態4に係る目的音強調装置の構成の一例を示す図である。実施形態4に係る目的音強調装置100は、周波数領域変換部20、モデル推定装置10A(あるいは10B又は10C)、強調音計算部30、時間領域変換部40を有する。
図7は、実施形態4に係る目的音強調装置の処理手順の一例を示すフローチャートである。実施形態4に係る目的音強調装置100において、先ず、ステップS31では、周波数領域変換部20は、各マイクロホンで観測された信号をそれぞれ時間周波数領域の信号に変換する。次に、ステップS32では、モデル推定装置10A(あるいは10B又は10C)は、モデル推定を行う。次に、ステップS33では、強調音計算部30は、強調音を計算により推定する。次に、ステップS34では、時間領域変換部40は、強調音計算部30により推定された強調音を周波数領域から時間領域に変換する。
図1、図3、図4に示すモデル推定装置10A〜10C及び図6に示す目的音強調装置100の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要さない。すなわち、モデル推定装置10A〜10C及び目的音強調装置100の機能の分散及び統合の具体的形態は図示のものに限られず、全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。
図10は、プログラムが実行されることにより、モデル推定装置及び目的音強調装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。コンピュータ1000において、これらの各部はバス1080によって接続される。
11A、11B 残響除去処理部
11A−1、11B−1 初期化部
11A−2、11B−2 共分散行列更新部
11A−3、11B−3 回帰行列更新部
11A−4、11B−4 残響除去部
12A、12B クラスタリング部
12A−1、12B−1 事後確率更新部
12A−2、12B−2 混合重み更新部
12B−3 パーミュテーション解決部
13 音源数推定部
20 周波数領域変換部
30 強調音計算部
40 時間領域変換部
100 目的音強調装置
1000 コンピュータ
1010 メモリ
1020 CPU
Claims (8)
- 複数の音源が出力する音による残響の特性を示す回帰行列を含む、該残響を含む混合信号のモデルのパラメータを保存する記憶部と、
前記音を複数のマイクロホンで観測した観測信号と、前記記憶部に保存される回帰行列とを用いた線形予測により、前記残響を含まない混合信号を推定する信号推定部と、
前記信号推定部により推定された混合信号から、各時間周波数点が属する前記音源に対応するクラスタ毎の事後確率を計算する事後確率計算部と、
前記観測信号と、前記信号推定部により推定された混合信号と、前記事後確率計算部により計算された事後確率と、前記記憶部に保存されるパラメータとから、前記パラメータを推定し、推定したパラメータで前記記憶部に保存されるパラメータを更新するパラメータ推定部と
を備え、
前記信号推定部、前記事後確率計算部及び前記パラメータ推定部は、所定条件が満たされるまで各処理を繰り返す
ことを特徴とするモデル推定装置。 - 前記残響を含む混合信号のモデルは、前記残響を含む混合信号の分布を表す確率モデルであり、
前記確率モデルは、各前記クラスタに関する前記残響を含む混合信号の分布を表す確率モデルの重み付き和で表される混合モデルであり、
前記パラメータ推定部は、前記確率モデルを評価する所定の評価関数により前記パラメータを推定する
ことを特徴とする請求項1に記載のモデル推定装置。 - 前記所定の評価関数は、前記パラメータ推定部により推定されたパラメータに対する前記残響を含む混合信号の尤度、又は、前記パラメータ推定部により推定されたパラメータの事後確率である
ことを特徴とする請求項2に記載のモデル推定装置。 - 前記パラメータ推定部により推定されるパラメータは、各時間周波数点において前記残響を含む混合信号に含まれる前記複数の音源の分布を示す混合重み値を含み、
前記混合重み値は、前記残響を含む混合信号の周波数毎の混合重み値又は前記残響を含む混合信号の時刻毎の混合重み値である
ことを特徴とする請求項3に記載のモデル推定装置。 - 前記パラメータ推定部は、各時間周波数点において前記残響を含む混合信号に含まれる前記複数の音源それぞれと対応する前記事後確率から、該複数の音源のうち該残響を含む混合信号に含まれる音源を推定し、推定した音源に対応するパラメータを前記推定したパラメータとする
ことを特徴とする請求項4に記載のモデル推定装置。 - 請求項1〜5のいずれか1つに記載のモデル推定装置により推定された前記パラメータ及び前記事後確率と、時間周波数領域での各前記音源の残響を含む混合信号とから、時間周波数領域での各前記音源の残響を含まない音響信号の推定値を推定して出力する出力部
を備えることを特徴とする目的音強調装置。 - モデル推定装置が実行するモデル推定方法であって、
前記モデル推定装置は、複数の音源が出力する音による残響の特性を示す回帰行列を含む、該残響を含む混合信号のモデルのパラメータを保存する記憶部を備え、
前記音を複数のマイクロホンで観測した観測信号と、前記記憶部に保存される回帰行列とを用いた線形予測により、前記残響を含まない混合信号を推定する信号推定工程と、
前記信号推定工程により推定された混合信号から、各時間周波数点が属する前記音源に対応するクラスタ毎の事後確率を計算する事後確率計算工程と、
前記観測信号と、前記信号推定工程により推定された混合信号と、前記事後確率計算工程により計算された事後確率と、前記記憶部に保存されるパラメータとから、前記パラメータを推定し、推定したパラメータで前記記憶部に保存されるパラメータを更新するパラメータ推定工程と
を含み、
前記信号推定工程、前記事後確率計算工程及び前記パラメータ推定工程は、所定条件が満たされるまで繰り返される
ことを特徴とするモデル推定方法。 - 請求項1〜5のいずれか1つに記載のモデル推定装置としてコンピュータを機能させるモデル推定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015034398A JP6290803B2 (ja) | 2015-02-24 | 2015-02-24 | モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015034398A JP6290803B2 (ja) | 2015-02-24 | 2015-02-24 | モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016156944A JP2016156944A (ja) | 2016-09-01 |
JP6290803B2 true JP6290803B2 (ja) | 2018-03-07 |
Family
ID=56826018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015034398A Active JP6290803B2 (ja) | 2015-02-24 | 2015-02-24 | モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6290803B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108269581B (zh) * | 2017-01-04 | 2021-06-08 | 中国科学院声学研究所 | 一种基于频域相干函数的双麦克风时延差估计方法 |
CN111312276B (zh) * | 2020-02-14 | 2023-01-17 | 北京声智科技有限公司 | 一种音频信号处理的方法、装置、设备和介质 |
CN113257265A (zh) * | 2021-05-10 | 2021-08-13 | 北京有竹居网络技术有限公司 | 语音信号去混响方法、装置和电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4769238B2 (ja) * | 2007-08-24 | 2011-09-07 | 日本電信電話株式会社 | 信号分離装置、信号分離方法、プログラム及び記録媒体 |
JP4960933B2 (ja) * | 2008-08-22 | 2012-06-27 | 日本電信電話株式会社 | 音響信号強調装置とその方法と、プログラムと記録媒体 |
-
2015
- 2015-02-24 JP JP2015034398A patent/JP6290803B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016156944A (ja) | 2016-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6434657B2 (ja) | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム | |
JP6976804B2 (ja) | 音源分離方法および音源分離装置 | |
WO2017141542A1 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
JP6517760B2 (ja) | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム | |
JP6195548B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP6290803B2 (ja) | モデル推定装置、目的音強調装置、モデル推定方法及びモデル推定プログラム | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
JP6448567B2 (ja) | 音響信号解析装置、音響信号解析方法、及びプログラム | |
JP5881454B2 (ja) | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム | |
Giacobello et al. | Speech dereverberation based on convex optimization algorithms for group sparse linear prediction | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
JP6711765B2 (ja) | 形成装置、形成方法および形成プログラム | |
JP5807914B2 (ja) | 音響信号解析装置、方法、及びプログラム | |
JP6910609B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP6193823B2 (ja) | 音源数推定装置、音源数推定方法および音源数推定プログラム | |
JP6808597B2 (ja) | 信号分離装置、信号分離方法及びプログラム | |
JP6732944B2 (ja) | 目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラム | |
Mirzaei et al. | Under-determined reverberant audio source separation using Bayesian non-negative matrix factorization | |
JP6734237B2 (ja) | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム | |
JP6644356B2 (ja) | 音源分離システム、方法及びプログラム | |
JP2018028620A (ja) | 音源分離方法、装置およびプログラム | |
JP2018040880A (ja) | 音源分離装置、音源分離方法及び音源分離プログラム | |
WO2019208137A1 (ja) | 音源分離装置、その方法、およびプログラム | |
WO2023209993A1 (ja) | 信号処理装置、学習装置、信号処理方法、学習方法、信号処理プログラム及び学習プログラム | |
JP2023039288A (ja) | 音源分離モデル学習装置、音源分離装置、音源分離モデル学習方法、音源分離方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180208 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6290803 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |