JP6827908B2 - 音源強調装置、音源強調学習装置、音源強調方法、プログラム - Google Patents
音源強調装置、音源強調学習装置、音源強調方法、プログラム Download PDFInfo
- Publication number
- JP6827908B2 JP6827908B2 JP2017219757A JP2017219757A JP6827908B2 JP 6827908 B2 JP6827908 B2 JP 6827908B2 JP 2017219757 A JP2017219757 A JP 2017219757A JP 2017219757 A JP2017219757 A JP 2017219757A JP 6827908 B2 JP6827908 B2 JP 6827908B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- frequency conversion
- frequency
- output sound
- observation signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
以下、本発明の実施の形態の技術的背景として、実数で定義された周波数変換の一つである修正離散コサイン変換(MDCT: Modified Discrete Cosine Transform)を用いた深層学習について説明する。その前に、従来技術である非特許文献5に記載の方法について説明する。
時間領域において、目的音をσt、雑音をνtとおき、観測信号χtを以下のように表現する。
DL音源強調では、時間フレームkの時間周波数マスクを縦に並べたベクトルGk:=(G1,k, …, GΩ,k)Tを以下のように推定する。
従来のDFT領域のDL音源強調では、DFTスペクトルが複素数であるため、目的音を完全に復元する時間周波数マスクを推定するには、非特許文献5のcIRMのように、複素数の実部と虚部を個別に推定するニューラルネットワークを利用する必要があった。
ここでは、MDCTを行列形式で説明する。まず、観測信号χt(1≦t≦T)を重なりのないK個(ただし、Kは1以上の整数)のブロックへ分割する。ここでk番目のブロックの観測信号xkは以下のように表現できる。
ここでは、パラメータΘの学習アルゴリズムについて説明する。まず、参考非特許文献1にならい、MDCT領域における時間周波数マスクによる音源強調を以下のように定義する。
(参考非特許文献1:F. Keuch and B. Elder, “Aliasing reduction for modified discrete cosine transform domain filtering and its application to speech enhancement”, In Proc WASPAA, 2007.)
ここでは、<技術的背景>で説明した学習アルゴリズムに基づいて構成した音源強調学習装置100について説明する。
以上の説明では、実数で定義された周波数変換としてMDCTを用いて説明したが、前述の通り、DCTやDSTなどの別の周波数変換を利用してもよい。MDCTのようなlapped transformを利用しない場合、行列Cは2L×2Lの行列となるため、回帰関数の出力となる時間周波数マスクの個数は増加してしまうものの、式(19)のようなend-to-end型の学習アルゴリズムとして構成することはできる。
以上の説明では、音響特徴量を入力する回帰関数を用いた音源強調処理について説明したが、音響特徴量の代わりに、周波数変換スペクトルを用いてもよい。
ここでは、第一実施形態の音源強調学習装置100が生成したパラメータを用いて音源強調を行う音源強調装置300について説明する。
入力された観測信号χt(1≦t≦T)をブロックに分割して処理するのでなく、そのまま処理することもできる。以下、そのような構成である音源強調装置400について説明する。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (9)
- Tを1以上の整数とし、
ニューラルネットワークのパラメータΘを用いて、観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)に含まれる目的音を強調した出力音^σt(1≦t≦T)を推定する音源強調装置であって、
実数で定義された周波数変換を用いて、前記観測信号χt(1≦t≦T)から、観測信号周波数変換スペクトルXt C(1≦t≦T)を生成する周波数変換部と、
前記観測信号周波数変換スペクトルXt C(1≦t≦T)から、音響特徴量ψt(1≦t≦T)を抽出する音響特徴量抽出部と、
前記パラメータΘを用いたニューラルネットワークにより、前記音響特徴量ψt(1≦t≦T)から、時間周波数マスク^Gt C(1≦t≦T)を推定する時間周波数マスク推定部と、
前記時間周波数マスク^Gt C(1≦t≦T)と前記観測信号周波数変換スペクトルXt C(1≦t≦T)から、出力音周波数変換スペクトル^St C(1≦t≦T)を生成する時間周波数マスク処理部と、
実数で定義された逆周波数変換を用いて、前記出力音周波数変換スペクトル^St C(1≦t≦T)から、歪み出力音^st C(1≦t≦T)を生成する逆周波数変換部と、
前記歪み出力音^st C(1≦t≦T)から、前記出力音^σt(1≦t≦T)を生成する重畳加算部と
を含む音源強調装置。 - 請求項1に記載の音源強調装置であって、
前記実数で定義された周波数変換は、修正離散コサイン変換であり、
前記実数で定義された逆周波数変換は、逆修正離散コサイン変換である
ことを特徴とする音源強調装置。 - Tを1以上の整数、Kを1以上の整数とし、
ニューラルネットワークのパラメータΘを用いて、観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)を重なりのないK個のブロックへ分割した分割観測信号xk(1≦k≦K)に含まれる目的音を強調した分割出力音^sk(1≦k≦K)を推定する音源強調処理部と、
前記分割出力音^sk(1≦k≦K)から、前記観測信号χt(1≦t≦T)に含まれる目的音を強調した出力音^σt(1≦t≦T)を生成する分割出力音統合部と
を含む音源強調装置であって、
前記音源強調処理部は、
前記観測信号χt(1≦t≦T)から、前記分割観測信号xk(1≦k≦K)を生成する観測信号分割部と、
実数で定義された周波数変換を用いて、前記分割観測信号xk(1≦k≦K)から、観測信号周波数変換スペクトルXk C(1≦k≦K)を生成する周波数変換部と、
前記観測信号周波数変換スペクトルXk C(1≦k≦K)から、音響特徴量ψk(1≦k≦K)を抽出する音響特徴量抽出部と、
前記パラメータΘを用いたニューラルネットワークにより、前記音響特徴量ψk(1≦k≦K)から、時間周波数マスク^Gk C(1≦k≦K)を推定する時間周波数マスク推定部と、
前記時間周波数マスク^Gk C(1≦k≦K)と前記観測信号周波数変換スペクトルXk C(1≦k≦K)から、出力音周波数変換スペクトル^Sk C(1≦k≦K)を生成する時間周波数マスク処理部と、
実数で定義された逆周波数変換を用いて、前記出力音周波数変換スペクトル^Sk C(1≦k≦K)から、歪み分割出力音^sk C(1≦k≦K)を生成する逆周波数変換部と、
前記歪み分割出力音^sk C(1≦k≦K)から、重畳加算により、前記分割出力音^sk(1≦k≦K)を生成する重畳加算部と
を含む音源強調装置。 - Tを1以上の整数、Kを1以上の整数とし、
目的音学習データσt(1≦t≦T)と雑音学習データνt(1≦t≦T)から観測信号χt(1≦t≦T)を生成する信号重畳部と、
前記観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)を重なりのないK個のブロックへ分割した分割観測信号xk(1≦k≦K)を生成し、
実数で定義された周波数変換を用いて、前記分割観測信号x k (1≦k≦K)から、観測信号周波数変換スペクトルX k C (1≦k≦K)を生成し、
前記観測信号周波数変換スペクトルX k C (1≦k≦K)から、パラメータΘを用いたニューラルネットワークにより、時間周波数マスク^G k C (1≦k≦K)を推定し、
前記時間周波数マスク^G k C (1≦k≦K)と前記観測信号周波数変換スペクトルX k C (1≦k≦K)から、出力音周波数変換スペクトル^S k C (1≦k≦K)を生成し、
実数で定義された逆周波数変換を用いて、前記出力音周波数変換スペクトル^S k C (1≦k≦K)から、歪み分割出力音^s k C (1≦k≦K)を生成し、
前記歪み分割出力音^s k C (1≦k≦K)から、前記分割観測信号x k (1≦k≦K)に含まれる目的音を強調した分割出力音^sk(1≦k≦K)を推定する音源強調処理部と、
前記分割出力音^sk(1≦k≦K)と前記目的音学習データσt(1≦t≦T)から、出力音の推定誤差を示す目的関数T(Θ)の値を計算する目的関数計算部と、
前記目的関数T(Θ)の値を最適化するように前記パラメータΘを更新するパラメータ更新部と、
所定の収束条件が満たされた場合に前記パラメータΘを出力する収束判定部と
を含む音源強調学習装置であって、
前記目的関数T(Θ)は、
と表される(ただし、sk(1≦k≦K)は前記目的音学習データσt(1≦t≦T)を重なりのないK個のブロックへ分割して得られる、k番目の分割目的音である)
音源強調学習装置。 - Tを1以上の整数とし、
音源強調装置が、ニューラルネットワークのパラメータΘを用いて、観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)に含まれる目的音を強調した出力音^σt(1≦t≦T)を推定する音源強調方法であって、
前記音源強調装置が、実数で定義された周波数変換を用いて、前記観測信号χt(1≦t≦T)から、観測信号周波数変換スペクトルXt C(1≦t≦T)を生成する周波数変換ステップと、
前記音源強調装置が、前記観測信号周波数変換スペクトルXt C(1≦t≦T)から、音響特徴量ψt(1≦t≦T)を抽出する音響特徴量抽出ステップと、
前記音源強調装置が、前記パラメータΘを用いたニューラルネットワークにより、前記音響特徴量ψt(1≦t≦T)から、時間周波数マスク^Gt C(1≦t≦T)を推定する時間周波数マスク推定ステップと、
前記音源強調装置が、前記時間周波数マスク^Gt C(1≦t≦T)と前記観測信号周波数変換スペクトルXt C(1≦t≦T)から、出力音周波数変換スペクトル^St C(1≦t≦T)を生成する時間周波数マスク処理ステップと、
前記音源強調装置が、実数で定義された逆周波数変換を用いて、前記出力音周波数変換スペクトル^St C(1≦t≦T)から、歪み出力音^st C(1≦t≦T)を生成する逆周波数変換部と、
前記音源強調装置が、前記歪み出力音^st C(1≦t≦T)から、前記出力音^σt(1≦t≦T)を生成する重畳加算ステップと
を含む音源強調方法。 - Tを1以上の整数、Kを1以上の整数とし、
音源強調装置が、ニューラルネットワークのパラメータΘを用いて、観測信号χt(1≦t≦T)から、当該観測信号χt(1≦t≦T)を重なりのないK個のブロックへ分割した分割観測信号xk(1≦k≦K)に含まれる目的音を強調した分割出力音^sk(1≦k≦K)を推定する音源強調処理ステップと、
前記音源強調装置が、前記分割出力音^sk(1≦k≦K)から、前記観測信号χt(1≦t≦T)に含まれる目的音を強調した出力音σt(1≦t≦T)を生成する分割出力音統合ステップと
を含む音源強調方法であって、
前記音源強調処理ステップは、
前記観測信号χt(1≦t≦T)から、前記分割観測信号xk(1≦k≦K)を生成する観測信号分割ステップと、
実数で定義された周波数変換を用いて、前記分割観測信号xk(1≦k≦K)から、観測信号周波数変換スペクトルXk C(1≦k≦K)を生成する周波数変換ステップと、
前記観測信号周波数変換スペクトルXk C(1≦k≦K)から、音響特徴量ψk(1≦k≦K)を抽出する音響特徴量抽出ステップと、
前記パラメータΘを用いたニューラルネットワークにより、前記音響特徴量ψk(1≦k≦K)から、時間周波数マスク^Gk C(1≦k≦K)を推定する時間周波数マスク推定ステップと、
前記時間周波数マスク^Gk C(1≦k≦K)と前記観測信号周波数変換スペクトルXk C(1≦k≦K)から、出力音周波数変換スペクトル^Sk C(1≦k≦K)を生成する時間周波数マスク処理ステップと、
実数で定義された逆周波数変換を用いて、前記出力音周波数変換スペクトル^Sk C(1≦k≦K)から、歪み分割出力音^sk C(1≦k≦K)を生成する逆周波数変換ステップと、
前記歪み分割出力音^sk C(1≦k≦K)から、重畳加算により、前記分割出力音^sk(1≦k≦K)を生成する重畳加算ステップと
を含む音源強調方法。 - 請求項1ないし4のいずれか1項に記載の音源強調装置としてコンピュータを機能させるためのプログラム。
- 請求項5に記載の音源強調学習装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017219757A JP6827908B2 (ja) | 2017-11-15 | 2017-11-15 | 音源強調装置、音源強調学習装置、音源強調方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017219757A JP6827908B2 (ja) | 2017-11-15 | 2017-11-15 | 音源強調装置、音源強調学習装置、音源強調方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019090930A JP2019090930A (ja) | 2019-06-13 |
JP6827908B2 true JP6827908B2 (ja) | 2021-02-10 |
Family
ID=66836303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017219757A Active JP6827908B2 (ja) | 2017-11-15 | 2017-11-15 | 音源強調装置、音源強調学習装置、音源強調方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6827908B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7264282B2 (ja) * | 2020-01-16 | 2023-04-25 | 日本電信電話株式会社 | 音声強調装置、学習装置、それらの方法、およびプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0566795A (ja) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 雑音抑圧装置とその調整装置 |
US9881631B2 (en) * | 2014-10-21 | 2018-01-30 | Mitsubishi Electric Research Laboratories, Inc. | Method for enhancing audio signal using phase information |
WO2017141317A1 (ja) * | 2016-02-15 | 2017-08-24 | 三菱電機株式会社 | 音響信号強調装置 |
-
2017
- 2017-11-15 JP JP2017219757A patent/JP6827908B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019090930A (ja) | 2019-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | An experimental study on speech enhancement based on deep neural networks | |
JP5666444B2 (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
JP5634959B2 (ja) | 雑音/残響除去装置とその方法とプログラム | |
Ganapathy | Multivariate autoregressive spectrogram modeling for noisy speech recognition | |
US20070055519A1 (en) | Robust bandwith extension of narrowband signals | |
JP6348427B2 (ja) | 雑音除去装置及び雑音除去プログラム | |
Islam et al. | Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask | |
Saleem et al. | Spectral phase estimation based on deep neural networks for single channel speech enhancement | |
JP4960933B2 (ja) | 音響信号強調装置とその方法と、プログラムと記録媒体 | |
Hepsiba et al. | Role of deep neural network in speech enhancement: A review | |
JP6721165B2 (ja) | 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム | |
Selva Nidhyananthan et al. | Noise robust speaker identification using RASTA–MFCC feature with quadrilateral filter bank structure | |
JP6827908B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
JPWO2007094463A1 (ja) | 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体 | |
Hammam et al. | Blind signal separation with noise reduction for efficient speaker identification | |
Tkachenko et al. | Speech enhancement for speaker recognition using deep recurrent neural networks | |
Hussain et al. | Bone-conducted speech enhancement using hierarchical extreme learning machine | |
JP5769670B2 (ja) | エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム | |
JP6912780B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
JP6849978B2 (ja) | 音声明瞭度計算方法、音声明瞭度計算装置及び音声明瞭度計算プログラム | |
JP5562451B1 (ja) | エコー抑圧ゲイン推定方法とそれを用いたエコー消去装置とプログラム | |
Ganapathy et al. | Auditory motivated front-end for noisy speech using spectro-temporal modulation filtering | |
WO2021100094A1 (ja) | 音源信号推定装置、音源信号推定方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191219 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200918 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200929 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210120 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6827908 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |