JP6370751B2 - ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置、これらの方法及びプログラム - Google Patents
ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置、これらの方法及びプログラム Download PDFInfo
- Publication number
- JP6370751B2 JP6370751B2 JP2015162474A JP2015162474A JP6370751B2 JP 6370751 B2 JP6370751 B2 JP 6370751B2 JP 2015162474 A JP2015162474 A JP 2015162474A JP 2015162474 A JP2015162474 A JP 2015162474A JP 6370751 B2 JP6370751 B2 JP 6370751B2
- Authority
- JP
- Japan
- Prior art keywords
- gaussian mixture
- mixture model
- model parameter
- unit
- compression matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Complex Calculations (AREA)
Description
Fω,τ=Sω,τ+Nω,τ
と記述することができる。目的音を強調する時刻τのウィナーフィルタGω,τは、
つまり、適切なウィナーフィルタを設計するためには、観測信号Fω,τから事前SNRを精度よく推定する必要がある。
ガウス混合モデルパラメータ計算装置は、図1に示すように、初期化部11、負担率計算部12、ガウス混合モデルパラメータ更新部13、圧縮行列更新部14及び制御部15を例えば備えている。
初期化部11は、GMMパラメータΘ={wk,μk ν,Σk ν}k=1 Kと圧縮行列A∈RD×Qを初期化する(ステップS11)。以下、GMMパラメータのことを、ガウス混合モデルパラメータとも表記する。
初期化されたGMMパラメータΘは、負担率計算部12、ガウス混合モデルパラメータ更新部13及び必要に応じて制御部15に出力される。
負担率計算部12は、初期化されたGMMパラメータΘ、及び、初期化された圧縮行列Aを入力として、通常のEMアルゴリズムと同様に負担率γk,τを計算する(ステップS12)。計算された負担率γk,τは、ガウス混合モデルパラメータ更新部13及び圧縮行列更新部14に出力される。
ガウス混合モデルパラメータ更新部13は、初期化されたGMMパラメータΘ、初期化された圧縮行列A、及び、負担率γk,τを入力として、以下の式でGMMパラメータΘ={wk,μk ν,Σk ν}k=1 Kを更新する(ステップS13)。更新されたGMMパラメータΘは、圧縮行列更新部14及び制御部15に出力される。
圧縮行列更新部14は、初期化された圧縮行列A、負担率γk,τ、及び、更新されたガウス混合モデルパラメータΘを入力として、圧縮行列A∈RD×Qを勾配法で更新する(ステップS14)。勾配法の具体的な手段には、最急降下法や確率的最急降下法などを用いることができる。例えば最急降下法の場合は、圧縮行列Aの各行ベクトルa1,...,Dを例えば以下の式により更新する(ステップS141)。
制御部15は、GMMパラメータΘと圧縮行列Aの更新が収束するまで、ステップS12からステップS14の処理を繰り返す(ステップS15)。
情報推定装置は、図2に示すように、次元圧縮部51及び推定部52を例えば備えている。
次元圧縮部51は、収束後の圧縮行列Aを入力として、情報推定の対象となる入力変数xτを、ガウス混合モデルパラメータ計算装置1及び方法で推定された圧縮行列Aで圧縮する(ステップS51)。圧縮された入力変数xτであるATxτは、推定部52に出力される。
推定部52は、入力変数xτを圧縮したATxτを入力として、MMSE推定量を例えば以下のように求める(ステップS52)。
音強調装置は、図3に示すように、マイクロホン2、周波数領域変換部3、音響特徴量抽出部4、情報推定装置5、ウィナーフィルタ計算部6、フィルタリング部7、時間領域変換部8、周波数領域変換部91、重畳部92、音響特徴量抽出部93、事前信号雑音比計算部94及びガウス混合モデルパラメータ計算装置1を例えば備えている。
周波数領域変換部91は、目的音の学習データ及び雑音の学習データを短時間フーリエ変換(STFT)などを用いて周波数領域に変換し、それぞれ収音したい特定の音(目的音)の複素スペクトルSω,τと雑音の複素スペクトルNω,τを得る(ステップS91)。得られたSω,τとNω,τは、重畳部92及び事前信号雑音比計算部94に出力される。ここで、フーリエ変換長は1024 点(サンプリング周波数48kHz で約22ms)、シフト長は512 点(サンプリング周波数48kHz で約11ms)などに設定できる。
重畳部92は、目的音が含まれる音信号である観測信号を模擬的に設計するために、以下の式に基づきSω,τとNω,τを重畳し、Fω,τを得る(ステップS92)。得られたFω,τは、音響特徴量抽出部93に出力される。
Fω,τ=Sω,τ+Nω,τ
音響特徴量抽出部93は、入力されたFω,τから音響特徴量xτを抽出する(ステップS93)。この抽出された音響特徴量xτは、ガウス混合モデルパラメータ計算装置1に出力され、GEMアルゴリズムを実行するガウス混合モデルパラメータ計算装置1における入力変数xτになる。
事前信号雑音比計算部94は、以下の式に基づいて、学習データから得られたSω,τとNω,τを用いて事前SNRを計算する(ステップS94)。計算された事前SNRは、ガウス混合モデルパラメータ計算装置1に出力される。この計算結果がGEMアルゴリズムを実行するガウス混合モデルパラメータ計算装置1における出力変数yτとなる。
ガウス混合モデルパラメータ計算装置1は、音響特徴量抽出部93が計算した音響特徴量を入力変数xτとし、事前信号雑音比計算部94が計算した事前信号雑音比を出力変数yτとして、[ガウス混合モデルパラメータ計算装置及び方法]の欄で説明した手法により、ガウス混合モデルパラメータΘ及び圧縮行列Aを計算する(ステップS1)。計算されたガウス混合モデルパラメータΘ及び圧縮行列Aは、情報推定装置5に出力される。
M個のマイクロホン1を用いて、強調の対象となる目的音が含まれる、所望の音が収音される(ステップS2)。ここで、Mは1以上の任意の自然数である。収音された音信号は、周波数領域変換部3に出力される。
周波数領域変換部3は、音信号を周波数領域へ変換し、周波数領域信号Fω,τを得る(ステップS3)。すなわち、周波数領域変換部3は、強調の対象となる目的音が含まれる音信号を周波数領域信号に変換する。得られた周波数領域信号Fω,τは、音響特徴量抽出部4に出力される。
音響特徴量抽出部4は、入力された周波数領域信号Fω,τから音響特徴量xτを計算する(ステップS4)。すなわち、音響特徴量抽出部4は、周波数領域信号Fω,τに基づいて、強調の対象となる目的音が含まれる音信号の音響特徴量xτを抽出する。計算された音響特徴量xτは、情報推定装置5に出力される。
情報推定装置5は、ガウス混合モデルパラメータ計算装置1及び方法により計算されたガウス混合モデルパラメータΘ及び圧縮行列Aに基づいて、[情報推定装置及び方法]の欄で説明した手法により、事前信号雑音比yτの期待値である^yτを計算する(ステップS5)。
ウィナーフィルタ計算部6は、計算された^yτを用いてウィナーフィルタを求める(ステップS6)。求まったウィナーフィルタGω,τは、フィルタリング部7に出力される。
フィルタリング部7は、求まったウィナーフィルタを周波数領域信号Fω,τに適用してフィルタリング後周波数領域信号Hω,τを得る(ステップS7)。具体的には、フィルタリング部7は、以下の式 に基づき、フィルタリング後周波数領域信号Hω,τを得る。
得られたフィルタリング後周波数領域信号Hω,τは、時間領域変換部8に出力される。
時間領域変換部8は、入力されたフィルタリング後周波数領域信号Hω,τを時間領域信号に変換する(ステップS8)。
ガウス混合モデルパラメータ装置、情報推定装置及びこれらの方法の用途は、音源強調に限らない。ガウス混合モデルパラメータ装置、情報推定装置及びこれらの方法は、音響強調以外の用途に用いることができる。
ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置及びこれらの方法において説明した処理は、記載の順にしたがって時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
11 初期化部
12 負担率計算部
13 ガウス混合モデルパラメータ更新部
14 圧縮行列更新部
15 制御部
2 マイクロホン
3 周波数領域変換部
4 音響特徴量抽出部
5 情報推定装置
51 次元圧縮部
52 推定部
6 ウィナーフィルタ計算部
7 フィルタリング部
8 時間領域変換部
91 周波数領域変換部
92 重畳部
93 音響特徴量抽出部
94 事前信号雑音比計算部
95 特徴量抽出部
Claims (8)
- ・Tは行列又はベクトル・の転置を表すとして、入力変数xτ及び出力変数yτの学習データに基づいて、ガウス混合モデルで表現された結合分布p(ATxτ,yτ;Θ)のガウス混合モデルパラメータΘ及び圧縮行列Aを求めるガウス混合モデルパラメータ計算装置であって、
入力されたガウス混合モデルパラメータΘに基づいて、EMアルゴリズムにおける負担率を計算する負担率計算部と、
入力されたガウス混合モデルパラメータΘ及び上記負担率に基づいてガウス混合モデルパラメータΘを更新するガウス混合モデルパラメータ更新部と、
入力されたガウス混合モデルパラメータΘ、上記負担率及び入力された圧縮行列Aに基づいて、上記入力された圧縮行列Aを勾配法を用いた最適化により更新する圧縮行列更新部と、
上記更新されたガウス混合モデルパラメータΘ及び上記更新された圧縮行列Aを上記入力されたガウス混合モデルパラメータΘ及び上記入力された圧縮行列Aとして、上記負担率計算部、上記ガウス混合モデルパラメータ更新部及び上記圧縮行列更新部の処理を繰り返す制御を行う制御部と、
を含むガウス混合モデルパラメータ計算装置。 - 請求項1のガウス混合モデルパラメータ計算装置と、
上記繰り返し制御により最終的に生成された圧縮行列Aを用いて、情報推定の対象となる入力変数xτを圧縮したATxτを計算する次元圧縮部と、
上記繰り返し制御により最終的に生成されたガウス混合モデルパラメータΘを用いて、上記計算されたATxτが得られた下でのyτの期待値である^yτを計算する推定部と、
を含む情報推定装置。 - 請求項1のガウス混合モデルパラメータ計算装置であって、
上記入力変数xτは目的音が含まれる音信号の音響特徴量であり、上記出力変数yτは事前信号雑音比である、
ガウス混合モデルパラメータ計算装置。 - 強調の対象となる目的音が含まれる音信号を周波数領域信号に変換する周波数領域変換部と、
上記周波数領域信号に基づいて、強調の対象となる目的音が含まれる音信号の音響特徴量xτを抽出する音響特徴量抽出部と、
請求項3のガウス混合モデルパラメータ計算装置により最終的に生成された圧縮行列Aを用いて、上記抽出された音響特徴量xτを圧縮したATxτを計算する次元圧縮部と、
請求項3のガウス混合モデルパラメータ計算装置により最終的に生成されたガウス混合モデルパラメータΘを用いて、上記計算されたATxτが得られた下での事前信号雑音比yτの期待値である^yτを計算する推定部と、
上記計算された^yτを用いてウィナーフィルタを求めるウィナーフィルタ計算部と、
上記求まったウィナーフィルタを上記周波数領域信号に適用してフィルタリング後周波数領域信号を得るフィルタリング部と、
上記フィルタリング後周波数領域信号を時間領域信号に変換する時間領域変換部と、
を含む音強調装置。 - ・Tは行列又はベクトル・の転置を表すとして、入力変数xτ及び出力変数yτの学習データに基づいて、ガウス混合モデルで表現された結合分布p(ATxτ,yτ;Θ)のガウス混合モデルパラメータΘ及び圧縮行列Aを求めるガウス混合モデルパラメータ計算方法であって、
負担率計算部が、入力されたガウス混合モデルパラメータΘに基づいて、EMアルゴリズムにおける負担率を計算する負担率計算ステップと、
ガウス混合モデルパラメータ更新部が、入力されたガウス混合モデルパラメータΘ及び上記負担率に基づいてガウス混合モデルパラメータΘを更新するガウス混合モデルパラメータ更新ステップと、
圧縮行列更新部が、入力されたガウス混合モデルパラメータΘ、上記負担率及び入力された圧縮行列Aに基づいて、上記入力された圧縮行列Aを勾配法を用いた最適化により更新する圧縮行列更新ステップと、
制御部が、上記更新されたガウス混合モデルパラメータΘ及び上記更新された圧縮行列Aを上記入力されたガウス混合モデルパラメータΘ及び上記入力された圧縮行列Aとして、上記負担率計算部、上記ガウス混合モデルパラメータ更新部及び上記圧縮行列更新部の処理を繰り返す制御を行う制御ステップと、
を含むガウス混合モデルパラメータ計算方法。 - 請求項5のガウス混合モデルパラメータ計算方法の各ステップと、
次元圧縮部が、上記繰り返し制御により最終的に生成された圧縮行列Aを用いて、情報推定の対象となる入力変数xτを圧縮したATxτを計算する次元圧縮ステップと、
推定部が、上記繰り返し制御により最終的に生成されたガウス混合モデルパラメータΘを用いて、上記計算されたATxτが得られた下でのyτの期待値である^yτを計算する推定ステップと、
を含む情報推定方法。 - 周波数領域変換部が、強調の対象となる目的音が含まれる音信号を周波数領域信号に変換する周波数領域変換ステップと、
音響特徴量抽出部が、上記周波数領域信号に基づいて、強調の対象となる目的音が含まれる音信号の音響特徴量xτを抽出する音響特徴量抽出ステップと、
次元圧縮部が、請求項5のガウス混合モデルパラメータ計算方法により最終的に生成された圧縮行列Aを用いて、上記抽出された音響特徴量xτを圧縮したATxτを計算する次元圧縮ステップと、
推定部が、請求項5のガウス混合モデルパラメータ計算方法により最終的に生成されたガウス混合モデルパラメータΘを用いて、上記計算されたATxτが得られた下での事前信号雑音比yτの期待値である^yτを計算する推定ステップと、
ウィナーフィルタ計算部が、上記計算された^yτを用いてウィナーフィルタを求めるウィナーフィルタ計算ステップと、
フィルタリング部が、上記求まったウィナーフィルタを上記周波数領域信号に適用してフィルタリング後周波数領域信号を得るフィルタリングステップと、
時間領域変換部が、上記フィルタリング後周波数領域信号を時間領域信号に変換する時間領域変換ステップと、
を含む音強調方法。 - 請求項1又は3のガウス混合モデルパラメータ計算装置、請求項2の情報推定装置及び請求項4の音強調装置の何れかの装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015162474A JP6370751B2 (ja) | 2015-08-20 | 2015-08-20 | ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置、これらの方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015162474A JP6370751B2 (ja) | 2015-08-20 | 2015-08-20 | ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置、これらの方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017040781A JP2017040781A (ja) | 2017-02-23 |
JP6370751B2 true JP6370751B2 (ja) | 2018-08-08 |
Family
ID=58203299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015162474A Active JP6370751B2 (ja) | 2015-08-20 | 2015-08-20 | ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置、これらの方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6370751B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6703958B2 (ja) * | 2017-03-08 | 2020-06-03 | 株式会社ニューギン | 遊技機 |
CN108174055B (zh) * | 2017-12-29 | 2020-11-13 | 广东工业大学 | 一种智能监控方法、系统、设备及存储介质 |
CN110956593A (zh) * | 2019-11-20 | 2020-04-03 | 南京拓控信息科技股份有限公司 | 一种基于灰狼优化的高斯混合灰度列车车轮踏面图像增强方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5821590B2 (ja) * | 2011-12-06 | 2015-11-24 | 富士ゼロックス株式会社 | 画像識別情報付与プログラム及び画像識別情報付与装置 |
WO2015093025A1 (ja) * | 2013-12-17 | 2015-06-25 | 日本電気株式会社 | 音声処理装置、音声処理方法、及び、記録媒体 |
-
2015
- 2015-08-20 JP JP2015162474A patent/JP6370751B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017040781A (ja) | 2017-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107564513B (zh) | 语音识别方法及装置 | |
CN109584884B (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
JP5423670B2 (ja) | 音響モデル学習装置および音声認識装置 | |
US11854554B2 (en) | Method and apparatus for combined learning using feature enhancement based on deep neural network and modified loss function for speaker recognition robust to noisy environments | |
KR101807948B1 (ko) | 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법 | |
CN110164465B (zh) | 一种基于深层循环神经网络的语音增强方法及装置 | |
JP6535112B2 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
JP6927419B2 (ja) | 推定装置、学習装置、推定方法、学習方法及びプログラム | |
WO2019232846A1 (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
JP7124427B2 (ja) | マルチビューベクトルの処理方法及び装置 | |
CN108417224A (zh) | 双向神经网络模型的训练和识别方法及系统 | |
JP6370751B2 (ja) | ガウス混合モデルパラメータ計算装置、情報推定装置、音強調装置、これらの方法及びプログラム | |
JP7176627B2 (ja) | 信号抽出システム、信号抽出学習方法および信号抽出学習プログラム | |
US20170249957A1 (en) | Method and apparatus for identifying audio signal by removing noise | |
JP6499095B2 (ja) | 信号処理方法、信号処理装置及び信号処理プログラム | |
Yu et al. | Cam: Context-aware masking for robust speaker verification | |
JP2010049083A (ja) | 音響信号強調装置とその方法と、プログラムと記録媒体 | |
JP6404780B2 (ja) | ウィナーフィルタ設計装置、音強調装置、音響特徴量選択装置、これらの方法及びプログラム | |
García et al. | The Power Cepstrum Calculation with Convolutional Neural Networks | |
US20210256970A1 (en) | Speech feature extraction apparatus, speech feature extraction method, and computer-readable storage medium | |
EP3557576B1 (en) | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program | |
JP6114053B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
Singh et al. | Enhancing Blind Source Separation in the Cocktail Party Problem Using Independent Component Analysis | |
JP7024615B2 (ja) | 音響信号分離装置、学習装置、それらの方法、およびプログラム | |
CN108322858B (zh) | 基于张量分解的多麦克风语音增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180613 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180710 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180711 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6370751 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |