JP7112348B2 - 信号処理装置、信号処理方法及び信号処理プログラム - Google Patents
信号処理装置、信号処理方法及び信号処理プログラム Download PDFInfo
- Publication number
- JP7112348B2 JP7112348B2 JP2019023988A JP2019023988A JP7112348B2 JP 7112348 B2 JP7112348 B2 JP 7112348B2 JP 2019023988 A JP2019023988 A JP 2019023988A JP 2019023988 A JP2019023988 A JP 2019023988A JP 7112348 B2 JP7112348 B2 JP 7112348B2
- Authority
- JP
- Japan
- Prior art keywords
- signal processing
- signal
- speech signal
- neural network
- target speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
図1を用いて、第1の実施形態に係る信号処理装置の構成について説明する。図1は、第1の実施形態に係る信号処理装置の構成の一例を示す図である。図1に示すように、信号処理装置10は、第1変換部101及び第2変換部102を有する。また、第1変換部101は、第1計算部101aを有する。また、第2変換部102は、スケーリング部102a及び第2計算部102bを有する。
図3を用いて、信号処理装置10の処理の流れを説明する。図3は、第1の実施形態に係る信号処理装置の処理の流れを示すフローチャートである。図3に示すように、まず、信号処理装置10は、ニューラルネットワークを用いて、混合音声信号を中間状態に変換する(ステップS101)。
これまで説明したように、信号処理装置10は、複数の音源の音が混合された混合音声信号を基に、第1のニューラルネットワークの所定の層の中間状態を計算する。また、信号処理装置10は、目的話者の発話を基に生成される補助情報を用いて、中間状態をスケーリングする。また、信号処理装置10は、混合音声信号から目的話者の音声信号を抽出する情報を、スケーリングされた中間状態を基に計算する。このように、信号処理装置10は、ニューラルネットワークの所定の層をそのまま利用してスケーリングを行うことができる。このため、例えば、信号処理装置10は、所定の層が分割されたニューラルネットワークを用いることなく話者適応を行うことができる。その結果、ユニットの増加にともなうパラメータの数の増加が抑えられるので、第1の実施形態によれば、学習済みモデルを記憶するためのメモリ容量を小さくすることができる。
(Nu)2であるのに対し、第1の実施形態の信号処理装置10における適応層のパラメータ数は(Nu)2である。このように、第1の実施形態では、従来と比べ、大幅にパラメータが削減されることになる。
図4を用いて、第2の実施形態に係る学習装置の構成について説明する。図4は、第2の実施形態に係る学習装置の構成の一例を示す図である。学習装置は、ニューラルネットワークの学習を行い、パラメータを最適化する。
図5を用いて、学習装置20の処理の流れを説明する。図5は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。図5に示すように、まず、学習装置20は、ニューラルネットワークを用いて、学習用混合音声信号を中間状態に変換する(ステップS201)。
ここで、第1の実施形態と従来の手法とを比較する実験を行ったので、図6を用いて実験の結果を説明する。図6は、実験結果を示す図である。実験では、Permutation invariant traininig(PIT)、SpeakerBeam FA、SpeakerBeam SAという3つの手法の比較を行った。SpeakerBeam SAは、第1の実施形態の手法である。いずれの手法においてもニューラルネットワークが用いられる。
第1の実施形態では、第1変換部101及び第2変換部102による計算処理は、時間周波数ビンごとの信号に対して行われるのに対し、スケーリングのための補助情報は、各時間周波数ビンで共通していた。これに対し、第2変換部102は、時間周波数ビンごとに異なる補助情報を使ってスケーリングを行ってもよい。
また、第1の実施形態では、第2変換部がマスク特定情報を出力するモデル(関数)として説明したが、第2変換部の出力が目的音声信号(マスクを適用した後の音声信号)となるように構成してもよい。この場合は、第2変換部を構成するニューラルネットワーク内に目的信号推定部203に相当する変換部が含まれるため、信号処理装置10が目的信号推定部203を別途備える必要はない。また、この場合は、第2計算部102bの最終層の変換結果LWK(xK,ψK)がマスク適用後の音声信号、つまり、時間フレームtにおける入力混合音声信号に含まれる目的話者の音声信号の推定結果、つまり時間フレームtの目的話者音声信号の推定結果の周波数表現に対応するベクトルとなる。
第1の実施形態の変形例2のニューラルネットワークの学習には、第2実施形態の学習装置を次のように変更する。第2の実施形態の変形例1の学習装置は、図4から目的信号推定部203を削除した構成となる。そして、パラメータ更新部204は、第2変換部202の出力ベクトルと正解目的音声信号S0を直接比較した結果に基づき、パラメータを更新する。例えば、パラメータ更新部204は、第2変換部202の出力をσK(LK(xK,ψK))として、(3)式におけるMとYの要素ごとの積をσK(LK(xK,ψK))に置き換えて、(9)式に示す計算を実行すればよい。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
一実施形態として、信号処理装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記のマスクの計算を実行する信号処理プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の信号処理プログラムを情報処理装置に実行させることにより、情報処理装置を信号処理装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
20 学習装置
101、201 第1変換部
101a 第1計算部
102、202 第2変換部
102a スケーリング部
102b 第2計算部
203 目的信号推定部
204 パラメータ更新部
Claims (5)
- 複数の音源の音が混合された混合音声信号を基に、第1のニューラルネットワークの、複数のクラスタに分割されていない所定の層の中間状態を計算する第1計算部と、
目的話者の発話を基に生成される補助情報を用いて、前記中間状態をスケーリングするスケーリング部と、
前記混合音声信号から前記目的話者の音声信号を抽出する情報を、前記スケーリング部によってスケーリングされた中間状態を基に計算する第2計算部と、
を有することを特徴とする信号処理装置。 - 前記スケーリング部は、前記目的話者の音声信号を基に、第2のニューラルネットワークを用いて計算された補助情報を用いて前記中間状態をスケーリングすることを特徴とする請求項1に記載の信号処理装置。
- 前記スケーリング部は、前記第1のニューラルネットワークの前記所定の層のユニットの数と同じ数の要素を持つベクトルとして表される補助情報と、前記所定の層の各ユニットの出力値を要素とするベクトルとの要素ごとの積を計算することでスケーリングすることを特徴とする請求項1又は2に記載の信号処理装置。
- コンピュータによって実行される信号処理方法であって、
複数の音源の音が混合された混合音声信号を基に、第1のニューラルネットワークの、複数のクラスタに分割されていない所定の層の中間状態を計算する第1計算工程と、
目的話者の発話を基に生成される補助情報を用いて、前記中間状態をスケーリングするスケーリング工程と、
前記混合音声信号から前記目的話者の音声信号を抽出する情報を、前記スケーリング工程によってスケーリングされた中間状態を基に計算する第2計算工程と、
を含むことを特徴とする信号処理方法。 - コンピュータを、請求項1から3のいずれか1項に記載の信号処理装置として機能させるための信号処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019023988A JP7112348B2 (ja) | 2019-02-13 | 2019-02-13 | 信号処理装置、信号処理方法及び信号処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019023988A JP7112348B2 (ja) | 2019-02-13 | 2019-02-13 | 信号処理装置、信号処理方法及び信号処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020134567A JP2020134567A (ja) | 2020-08-31 |
JP7112348B2 true JP7112348B2 (ja) | 2022-08-03 |
Family
ID=72278602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019023988A Active JP7112348B2 (ja) | 2019-02-13 | 2019-02-13 | 信号処理装置、信号処理方法及び信号処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7112348B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200119377A (ko) * | 2019-03-25 | 2020-10-20 | 삼성전자주식회사 | 화자 식별 뉴럴 네트워크를 구현하는 방법 및 장치 |
JPWO2023127057A1 (ja) * | 2021-12-27 | 2023-07-06 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019017403A1 (ja) | 2017-07-19 | 2019-01-24 | 日本電信電話株式会社 | マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 |
JP2020013034A (ja) | 2018-07-19 | 2020-01-23 | 株式会社日立製作所 | 音声認識装置及び音声認識方法 |
-
2019
- 2019-02-13 JP JP2019023988A patent/JP7112348B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019017403A1 (ja) | 2017-07-19 | 2019-01-24 | 日本電信電話株式会社 | マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 |
JP2020013034A (ja) | 2018-07-19 | 2020-01-23 | 株式会社日立製作所 | 音声認識装置及び音声認識方法 |
Non-Patent Citations (1)
Title |
---|
デルクロア・マーク,外5名,目的話者抽出法SpeakerBeamの実雑音・残響環境下での評価,日本音響学会講演論文集,2019年03月,p.381-382 |
Also Published As
Publication number | Publication date |
---|---|
JP2020134567A (ja) | 2020-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110914899B (zh) | 掩模计算装置、簇权重学习装置、掩模计算神经网络学习装置、掩模计算方法、簇权重学习方法和掩模计算神经网络学习方法 | |
US11264044B2 (en) | Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program | |
JP6992709B2 (ja) | マスク推定装置、マスク推定方法及びマスク推定プログラム | |
JP6652519B2 (ja) | ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム | |
JP6517760B2 (ja) | マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム | |
WO2019198306A1 (ja) | 推定装置、学習装置、推定方法、学習方法及びプログラム | |
JP2019074625A (ja) | 音源分離方法および音源分離装置 | |
JP2018031967A (ja) | 音源強調装置、その方法、及びプログラム | |
JP7112348B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
JP6538624B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP5994639B2 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP2021039219A (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
JP7205635B2 (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
JP6711765B2 (ja) | 形成装置、形成方法および形成プログラム | |
Mirbeygi et al. | RPCA-based real-time speech and music separation method | |
WO2012105385A1 (ja) | 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム | |
WO2019194300A1 (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
JP6636973B2 (ja) | マスク推定装置、マスク推定方法およびマスク推定プログラム | |
JP2021167850A (ja) | 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム | |
JP6930408B2 (ja) | 推定装置、推定方法および推定プログラム | |
WO2022034675A1 (ja) | 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法、および、学習プログラム | |
JP2021189247A (ja) | 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム | |
JP2021039216A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US20240062771A1 (en) | Extraction device, extraction method, training device, training method, and program | |
WO2024023946A1 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20190508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190508 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210409 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220722 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7112348 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |