JP6517760B2 - マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム - Google Patents
マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム Download PDFInfo
- Publication number
- JP6517760B2 JP6517760B2 JP2016160668A JP2016160668A JP6517760B2 JP 6517760 B2 JP6517760 B2 JP 6517760B2 JP 2016160668 A JP2016160668 A JP 2016160668A JP 2016160668 A JP2016160668 A JP 2016160668A JP 6517760 B2 JP6517760 B2 JP 6517760B2
- Authority
- JP
- Japan
- Prior art keywords
- mask
- estimation
- parameter
- unit
- mask estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
まず、図1を用いて、第1の実施形態に係るマスク推定用パラメータ推定装置の構成について説明する。図1は、第1の実施形態に係るマスク推定用パラメータ推定装置の構成の一例を示す図である。図1に示すように、マスク推定用パラメータ推定装置10は、時間周波数分析部11、マスク推定部12、音声強調部13、音声認識部14およびパラメータ推定部15を有する。
マスク推定用パラメータ推定装置10の処理を、実施例に基づいて説明する。実施例では、1個の目的音源から出た音響信号を、雑音下でM個のマイクロホンで収録していることとする。このとき、マイクロホンmで収録された観測信号をy(m)(τ)とすると、式(10)に示すように、y(m)(τ)は、目的音源に対応する音響信号s(m)(τ)と雑音に対応する音響信号v(m)(τ)の和で表される。
図3を用いて、マスク推定用パラメータ推定装置10の処理の流れについて説明する。図3は、第1の実施形態に係るマスク推定用パラメータ推定装置の処理の流れを示すフローチャートである。
時間周波数分析部11は、目的音源に対応する1個の第1の音響信号と、雑音に対応するN−1個の第2の音響信号と、を含んだN個の音響信号が混在する状況において、それぞれ異なる位置で収録されたM個の観測信号のそれぞれに短時間信号分析を適用して時間周波数点ごとの観測信号を抽出し、時間周波数点ごとの観測信号のM次元縦ベクトルである観測ベクトルを構成する。また、マスク推定部12は、観測ベクトルとマスク推定用のパラメータとに基づいて、N個の音響信号のそれぞれが、時間周波数点ごとに、観測ベクトルにどの程度の割合で含まれているかを表すマスクを推定する。また、音声強調部13は、観測ベクトルと第1の音響信号についてのマスクとを、時間周波数点のそれぞれにおいて掛け合わせることで強調音声を取得する。また、音声認識部14は、学習データを用いて事前に学習した音声認識用のパラメータを用いて、強調音声が各時刻においてどの音素状態であるらしいかを表す音素状態事後確率を推定する。また、パラメータ推定部15は、音素状態事後確率と外部から入力された音素状態の参照ラベルとの間の所定の距離基準が最小化されるようにマスク推定用のパラメータを推定する。
(1)音声強調を行わず音声認識を行った場合:24.66(%)
(2)非特許文献1に記載の尤度最大化規準で分布パラメータを推定した後、マスキングによって音声強調を行ったうえで音声認識を行った場合:19.88(%)
(3)音声認識部のパラメータの一部を、非特許文献2に記載の方法で再推定したうえで音声認識を行った場合:24.10(%)
(4)第1の実施形態の方法で分布パラメータを推定し、マスキングによって音声強調を行ったうえで音声認識を行った場合:18.35(%)
確認実験の結果、(4)の場合が最も単語誤り率が小さくなった。これより、第1の実施形態によれば、従来の方法と比べて音声認識精度を向上させることができるといえる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
一実施形態として、マスク推定用パラメータ推定装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記のマスク推定用パラメータ推定を実行するマスク推定用パラメータ推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のマスク推定用パラメータ推定プログラムを情報処理装置に実行させることにより、情報処理装置をマスク推定用パラメータ推定装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
11 時間周波数分析部
12 マスク推定部
13 音声強調部
14 音声認識部
15 パラメータ推定部
151 マスク推定用パラメータ初期化部
152 勾配計算部
153 パラメータ保持部
154 パラメータ更新部
155 収束判定部
Claims (7)
- 目的音源に対応する1個の第1の音響信号と、雑音に対応するN−1個の第2の音響信号(ただし、Nは2以上の整数)と、を含んだN個の音響信号が混在する状況において、それぞれ異なる位置で収録されたM個の観測信号(ただし、Mは2以上の整数)のそれぞれに短時間信号分析を適用して時間周波数点ごとの観測信号を抽出し、前記時間周波数点ごとの観測信号のM次元縦ベクトルである観測ベクトルを構成する時間周波数分析部と、
前記観測ベクトルとマスク推定用のパラメータとに基づいて、前記N個の音響信号のそれぞれが、前記時間周波数点ごとに、前記観測ベクトルにどの程度の割合で含まれているかを表すマスクを推定するマスク推定部と、
前記観測ベクトルと前記第1の音響信号についての前記マスクとを、前記時間周波数点のそれぞれにおいて掛け合わせることで強調音声を取得する音声強調部と、
学習データを用いて事前に学習した音声認識用のパラメータを用いて、前記強調音声が各時刻においてどの音素状態であるらしいかを表す音素状態事後確率を推定する音声認識部と、
前記音素状態事後確率と外部から入力された音素状態の参照ラベルとの間の所定の距離基準が最小化されるように前記マスク推定用のパラメータを推定するパラメータ推定部と、
を有することを特徴とするマスク推定用パラメータ推定装置。 - 前記マスク推定部は、周波数ごとに、前記観測ベクトルの確率分布を、前記N個の音響信号のそれぞれに対応するN個の要素分布からなる混合分布でモデル化し、前記要素分布の事後確率を、前記N個の音響信号のそれぞれに対応するマスクとして推定することを特徴とする請求項1に記載のマスク推定用パラメータ推定装置。
- 前記マスク推定部は、前記観測ベクトルの確率分布を、平均が0であるN個のM次元複素ガウス分布であって、共分散行列が、各時刻において異なる値を取るスカラーパラメータと時不変のパラメータとを要素にもつエルミート行列の積で表されるM次元複素ガウス分布からなる混合分布でモデル化することを特徴とする請求項2に記載のマスク推定用パラメータ推定装置。
- マスク推定用パラメータ推定装置で実行されるマスク推定用パラメータ推定方法であって、
目的音源に対応する1個の第1の音響信号と、雑音に対応するN−1個の第2の音響信号(ただし、Nは2以上の整数)と、を含んだN個の音響信号が混在する状況において、それぞれ異なる位置で収録されたM個の観測信号(ただし、Mは2以上の整数)のそれぞれに短時間信号分析を適用して時間周波数点ごとの観測信号を抽出し、前記時間周波数点ごとの観測信号のM次元縦ベクトルである観測ベクトルを構成する時間周波数分析工程と、
前記観測ベクトルとマスク推定用のパラメータとに基づいて、前記N個の音響信号のそれぞれが、前記時間周波数点ごとに、前記観測ベクトルにどの程度の割合で含まれているかを表すマスクを推定するマスク推定工程と、
前記観測ベクトルと前記第1の音響信号についての前記マスクとを、前記時間周波数点のそれぞれにおいて掛け合わせることで強調音声を取得する音声強調工程と、
学習データを用いて事前に学習した音声認識用のパラメータを用いて、前記強調音声が各時刻においてどの音素状態であるらしいかを表す音素状態事後確率を推定する音声認識工程と、
前記音素状態事後確率と外部から入力された音素状態の参照ラベルとの間の所定の距離基準が最小化されるように前記マスク推定用のパラメータを推定するパラメータ推定工程と、
を含んだことを特徴とするマスク推定用パラメータ推定方法。 - 前記マスク推定工程は、周波数ごとに、前記観測ベクトルの確率分布を、前記N個の音響信号のそれぞれに対応するN個の要素分布からなる混合分布でモデル化し、前記要素分布の事後確率を、前記N個の音響信号のそれぞれに対応するマスクとして推定することを特徴とする請求項4に記載のマスク推定用パラメータ推定方法。
- 前記マスク推定工程は、前記観測ベクトルの確率分布を、平均が0であるN個のM次元複素ガウス分布であって、共分散行列が、各時刻において異なる値を取るスカラーパラメータと時不変のパラメータとを要素にもつエルミート行列の積で表されるM次元複素ガウス分布からなる混合分布でモデル化することを特徴とする請求項5に記載のマスク推定用パラメータ推定方法。
- コンピュータを、請求項1から3のいずれか1項に記載のマスク推定用パラメータ推定装置として機能させるためのマスク推定用パラメータ推定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016160668A JP6517760B2 (ja) | 2016-08-18 | 2016-08-18 | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016160668A JP6517760B2 (ja) | 2016-08-18 | 2016-08-18 | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018028618A JP2018028618A (ja) | 2018-02-22 |
JP6517760B2 true JP6517760B2 (ja) | 2019-05-22 |
Family
ID=61248733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016160668A Active JP6517760B2 (ja) | 2016-08-18 | 2016-08-18 | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6517760B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111028861B (zh) * | 2019-12-10 | 2022-02-22 | 思必驰科技股份有限公司 | 频谱掩码模型训练方法、音频场景识别方法及系统 |
CN112420073B (zh) * | 2020-10-12 | 2024-04-16 | 北京百度网讯科技有限公司 | 语音信号处理方法、装置、电子设备和存储介质 |
CN112634874B (zh) * | 2020-12-24 | 2022-09-23 | 江西台德智慧科技有限公司 | 一种基于人工智能的自动调音终端设备 |
CN113178204B (zh) * | 2021-04-28 | 2023-05-30 | 云知声智能科技股份有限公司 | 一种单通道降噪的低功耗方法、装置及存储介质 |
CN113192528B (zh) * | 2021-04-28 | 2023-05-26 | 云知声智能科技股份有限公司 | 单通道增强语音的处理方法、装置及可读存储介质 |
CN113436633B (zh) * | 2021-06-30 | 2024-03-12 | 平安科技(深圳)有限公司 | 说话人识别方法、装置、计算机设备及存储介质 |
-
2016
- 2016-08-18 JP JP2016160668A patent/JP6517760B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018028618A (ja) | 2018-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6517760B2 (ja) | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム | |
CN110914899B (zh) | 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法 | |
JP6434657B2 (ja) | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム | |
JP6927419B2 (ja) | 推定装置、学習装置、推定方法、学習方法及びプログラム | |
JP6535112B2 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
JP6992709B2 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
JPWO2009133719A1 (ja) | 音響モデル学習装置および音声認識装置 | |
JP6652519B2 (ja) | ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム | |
JP6711789B2 (ja) | 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
CN110998723A (zh) | 使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序 | |
JP6711765B2 (ja) | 形成装置、形成方法および形成プログラム | |
JP7112348B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
JP6636973B2 (ja) | マスク推定装置、マスク推定方法およびマスク推定プログラム | |
JP6581054B2 (ja) | 音源分離装置、音源分離方法及び音源分離プログラム | |
JP6930408B2 (ja) | 推定装置、推定方法および推定プログラム | |
JP2018142278A (ja) | 符号化装置、符号化方法およびプログラム | |
JP6734237B2 (ja) | 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム | |
JP2018028620A (ja) | 音源分離方法、装置およびプログラム | |
JP7485050B2 (ja) | 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラム | |
JP5647159B2 (ja) | 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム | |
US20240062771A1 (en) | Extraction device, extraction method, training device, training method, and program | |
WO2023013081A1 (ja) | 学習装置、推定装置、学習方法及び学習プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180607 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190416 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6517760 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |