JP2018146610A - マスク推定装置、マスク推定方法およびマスク推定プログラム - Google Patents
マスク推定装置、マスク推定方法およびマスク推定プログラム Download PDFInfo
- Publication number
- JP2018146610A JP2018146610A JP2017038166A JP2017038166A JP2018146610A JP 2018146610 A JP2018146610 A JP 2018146610A JP 2017038166 A JP2017038166 A JP 2017038166A JP 2017038166 A JP2017038166 A JP 2017038166A JP 2018146610 A JP2018146610 A JP 2018146610A
- Authority
- JP
- Japan
- Prior art keywords
- mask
- estimation
- power
- spatial
- spatial parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
まず、第1の実施形態に係るマスク推定装置の構成、処理の流れおよび効果を説明する。なお、第1の実施形態においては、目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたM個(ただし、Mは2以上の整数)の観測信号に短時間周波数分析を適用して得られる時間周波数信号x(m)(t,f) がマスク推定装置に入力されるものとする。ただし、mは観測位置の番号、tとfは、時間周波数点の時間と周波数の番号を表す。
図1を用いて、第1の実施形態の構成について説明する。図1は、第1の実施形態に係るマスク推定装置の構成の一例を示す図である。図1に示すように、マスク推定装置10は、パワー特徴量抽出部11、空間特徴量抽出部12、パワーパラメータ保存部13、パワー占有度推定部14、統合占有度推定部15、空間パラメータ推定部16を有する。
ここで、第1の実施形態に基づき、マスクを推定する合理性について説明する。まず、Χを全観測位置、全時間周波数点におけるパワー特徴量X(m)(t,f)の集合、χを全時間周波数点の空間特徴量x(t,f)の集合とする。すると、空間パラメータΘ、パワーパラメータΞが与えられた下での全特徴量の尤度は、(5)式のように表せる。
第1の実施形態について、具体例を用いて説明する。ここでは、マスク推定装置10は、1人の人が話している音声と背景雑音が混在した観測信号をM=2以上のマイクで受け取り、音声を目的音響信号として、マスクを推定するものとする。
図2を用いて、第1の実施形態のマスク推定装置の処理について説明する。図2は、第1の実施形態に係るマスク推定装置の処理の一例を示す図である。まず、図2に示すように、パワー特徴量抽出部11は、短時間周波数分析した観測信号を取得し(ステップS101)、各観測位置、各時間周波数点におけるパワー特徴量を求める(ステップS102)。また、空間特徴量抽出部12は、短時間周波数分析した観測信号を取得し(ステップS101)、各時間周波数点における空間特徴量を求める(ステップS104)。
パワー占有度推定部14は、目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたM個(ただし、Mは2以上の整数)の観測信号に基づいて計算されるパワー特徴量に基づいて、時間周波数点ごとに、目的音響信号が観測信号のパワー特徴量に含まれる割合であるパワー占有度を推定する。空間パラメータ推定部16は、観測信号に基づいて計算される空間特徴量に基づいて、周波数ごとに、目的音響信号に関する空間特徴量の分布と雑音信号に関する空間特徴量の分布を表す空間パラメータを推定する。統合占有度推定部15は、パワー占有度の推定値および空間パラメータの推定値に基づき目的音源のマスクを推定する。これにより、事前学習したパワーパラメータと観測信号との間にミスマッチがある場合でも、空間パラメータの推定値に基づき目的音響信号と雑音信号の特徴量をより精度よく区別することで高精度なマスク推定を実現できる。また、信号対雑音比が特別に悪い周波数帯がある場合でも、パワー特徴量に基づき目的音響信号の周波数パターンを考慮することで、高精度なマスク推定が可能になる。
ここで、本発明の効果を確認するために、従来の方法および第1の実施形態を用いた確認実験について説明する。確認実験1では、バスの中、カフェ等の背景雑音の存在する環境下において、1人の話者がタブレットに向かって文章を読み上げている状況で、タブレットに装着されたM=6個のマイクで信号を収録した。このとき、収録した信号に対して、各方法を用いてマスク推定を行った後、非特許文献2に記載の方法で、雑音抑圧、音声認識を行った場合の音声認識精度は下記の通りであった。下記の結果より、第1の実施形態を適用することで、音声認識精度が向上することが確認できた。
(1)そのまま音声認識をした場合:87.11(%)
(2)従来のマスク推定装置20を用いた場合:93.52(%)
(3)従来のマスク推定装置30を用いた場合:93.16(%)
(4)第1の実施形態のマスク推定装置10を用いた場合:93.97(%)
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
一実施形態として、マスク推定装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記のマスクの推定を実行するマスク推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のマスク推定プログラムを情報処理装置に実行させることにより、情報処理装置をマスク推定装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
11 パワー特徴量抽出部
12 空間特徴量抽出部
13 パワーパラメータ保存部
14 パワー占有度推定部
15 統合占有度推定部
16 空間パラメータ推定部
Claims (5)
- 目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたM個(ただし、Mは2以上の整数)の観測信号に基づいて計算されるパワー特徴量に基づいて、時間周波数点ごとに、前記目的音響信号が前記観測信号のパワー特徴量に含まれる割合であるパワー占有度を推定するパワー占有度推定部と、
前記観測信号に基づいて計算される空間特徴量に基づいて、周波数ごとに、前記目的音響信号に関する空間特徴量の分布と雑音信号に関する空間特徴量の分布を表す空間パラメータを推定する空間パラメータ推定部と、
前記パワー占有度の推定値および前記空間パラメータの推定値に基づき前記目的音源のマスクを推定する統合占有度推定部と、
を有することを特徴とするマスク推定装置。 - 前記統合占有度推定部は、前記空間パラメータ推定部によって前記空間パラメータの推定が行われるたびに、前記目的音源のマスクを推定し、収束を判定するための所定の条件が満たされている場合、推定した前記目的音源のマスクを出力し、前記所定の条件が満たされていない場合、推定した前記目的音源のマスクをマスクの暫定推定値として前記空間パラメータ推定部に入力し、
前記空間パラメータ推定部は、前記統合占有度推定部から前記マスクの暫定推定値が入力されるたびに、前記マスクの暫定推定値を基に前記空間パラメータを推定することを特徴とする請求項1に記載のマスク推定装置。 - マスク推定装置で実行されるマスク推定方法であって、
目的音源に対応する目的音響信号と、背景雑音に対応する雑音信号とが混在する状況において、それぞれ異なる位置で収録されたM個(ただし、Mは2以上の整数)の観測信号に基づいて計算されるパワー特徴量に基づいて、時間周波数点ごとに、前記目的音響信号が前記観測信号のパワー特徴量に含まれる割合であるパワー占有度を推定するパワー占有度推定工程と、
前記観測信号に基づいて計算される空間特徴量に基づいて、周波数ごとに、前記目的音響信号に関する空間特徴量の分布と雑音信号に関する空間特徴量の分布を表す空間パラメータを推定する空間パラメータ推定工程と、
前記パワー占有度の推定値および前記空間パラメータの推定値に基づき前記目的音源のマスクを推定する統合占有度推定工程と、
を含んだことを特徴とするマスク推定方法。 - 前記統合占有度推定工程は、前記空間パラメータ推定工程によって前記空間パラメータの推定が行われるたびに、前記目的音源のマスクを推定し、収束を判定するための所定の条件が満たされている場合、推定した前記目的音源のマスクを出力し、前記所定の条件が満たされていない場合、推定した前記目的音源のマスクをマスクの暫定推定値として前記空間パラメータ推定工程に入力し、
前記空間パラメータ推定工程は、前記統合占有度推定工程から前記マスクの暫定推定値が入力されるたびに、前記マスクの暫定推定値を基に前記空間パラメータをさらに推定することを特徴とする請求項3に記載のマスク推定方法。 - コンピュータを、請求項1または2に記載のマスク推定装置として機能させるためのマスク推定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017038166A JP6636973B2 (ja) | 2017-03-01 | 2017-03-01 | マスク推定装置、マスク推定方法およびマスク推定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017038166A JP6636973B2 (ja) | 2017-03-01 | 2017-03-01 | マスク推定装置、マスク推定方法およびマスク推定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018146610A true JP2018146610A (ja) | 2018-09-20 |
JP6636973B2 JP6636973B2 (ja) | 2020-01-29 |
Family
ID=63591144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017038166A Active JP6636973B2 (ja) | 2017-03-01 | 2017-03-01 | マスク推定装置、マスク推定方法およびマスク推定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6636973B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11395061B2 (en) | 2019-08-30 | 2022-07-19 | Kabushiki Kaisha Toshiba | Signal processing apparatus and signal processing method |
CN116070796A (zh) * | 2023-03-29 | 2023-05-05 | 中国科学技术大学 | 柴油车排放等级评估方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010187066A (ja) * | 2009-02-10 | 2010-08-26 | Nippon Telegr & Teleph Corp <Ntt> | パラメタ推定装置、音源分離装置、方向推定装置、それらの方法、プログラム |
JP2013054258A (ja) * | 2011-09-06 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置とその方法とプログラム |
JP2017520803A (ja) * | 2014-10-21 | 2017-07-27 | 三菱電機株式会社 | ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 |
-
2017
- 2017-03-01 JP JP2017038166A patent/JP6636973B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010187066A (ja) * | 2009-02-10 | 2010-08-26 | Nippon Telegr & Teleph Corp <Ntt> | パラメタ推定装置、音源分離装置、方向推定装置、それらの方法、プログラム |
JP2013054258A (ja) * | 2011-09-06 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | 音源分離装置とその方法とプログラム |
JP2017520803A (ja) * | 2014-10-21 | 2017-07-27 | 三菱電機株式会社 | ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法 |
Non-Patent Citations (2)
Title |
---|
JAHN HEYMANN, ET AL.: "NEURAL NETWORK BASED SPECTRAL MASK ESTIMATION FOR ACOUSTIC BEAMFORMING", 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), JPN6019049179, March 2016 (2016-03-01), pages 196 - 200, XP032900590, ISSN: 0004175355, DOI: 10.1109/ICASSP.2016.7471664 * |
中谷 智広, 外6名: "NTT CHiME-3 音声認識システム:耐雑音フロントエンド", 日本音響学会 2016年春季研究発表会講演論文集CD−ROM, JPN6019049177, March 2016 (2016-03-01), pages 57 - 60, ISSN: 0004175354 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11395061B2 (en) | 2019-08-30 | 2022-07-19 | Kabushiki Kaisha Toshiba | Signal processing apparatus and signal processing method |
CN116070796A (zh) * | 2023-03-29 | 2023-05-05 | 中国科学技术大学 | 柴油车排放等级评估方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP6636973B2 (ja) | 2020-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11763834B2 (en) | Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method | |
JP6434657B2 (ja) | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム | |
JP6992709B2 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
JP6517760B2 (ja) | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム | |
CN108417224B (zh) | 双向神经网络模型的训练和识别方法及系统 | |
US11456003B2 (en) | Estimation device, learning device, estimation method, learning method, and recording medium | |
JP6535112B2 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
JP6987378B2 (ja) | ニューラルネットワークの学習方法及びコンピュータプログラム | |
JP6652519B2 (ja) | ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム | |
CN108417207A (zh) | 一种深度混合生成网络自适应方法及系统 | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
KR102026226B1 (ko) | 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 | |
JP6636973B2 (ja) | マスク推定装置、マスク推定方法およびマスク推定プログラム | |
JP6711765B2 (ja) | 形成装置、形成方法および形成プログラム | |
US8515096B2 (en) | Incorporating prior knowledge into independent component analysis | |
JP6973254B2 (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
JP6910609B2 (ja) | 信号解析装置、方法、及びプログラム | |
JP6734237B2 (ja) | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム | |
JP2019105681A (ja) | 推定装置、推定方法および推定プログラム | |
CN113808606B (zh) | 语音信号处理方法和装置 | |
WO2023013081A1 (ja) | 学習装置、推定装置、学習方法及び学習プログラム | |
JP6915579B2 (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
Bouziane et al. | Probabilistic Self-Organizing Maps for Text-Independent Speaker Identification | |
JP2023025457A (ja) | 信号解析装置、信号解析方法、及び信号解析プログラム | |
JP2023039288A (ja) | 音源分離モデル学習装置、音源分離装置、音源分離モデル学習方法、音源分離方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191219 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6636973 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |