JP7131424B2 - 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム - Google Patents
信号処理装置、学習装置、信号処理方法、学習方法及びプログラム Download PDFInfo
- Publication number
- JP7131424B2 JP7131424B2 JP2019026853A JP2019026853A JP7131424B2 JP 7131424 B2 JP7131424 B2 JP 7131424B2 JP 2019026853 A JP2019026853 A JP 2019026853A JP 2019026853 A JP2019026853 A JP 2019026853A JP 7131424 B2 JP7131424 B2 JP 7131424B2
- Authority
- JP
- Japan
- Prior art keywords
- auxiliary information
- acoustic signal
- input
- learning
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
ニューラルネットワークを用いて、入力された混合音響信号を複数の第1内部状態に変換する変換部と、
目的音源の音響信号に関する補助情報が入力された場合、ニューラルネットワークを用いて、前記補助情報に基づいて前記複数の第1内部状態の重み付け和である第2内部状態を生成し、前記補助情報が入力されない場合、前記複数の第1内部状態のいずれかを選択することによって第2内部状態を生成する重み付け部と、
ニューラルネットワークを用いて、前記第2内部状態に基づいてマスクを推定するマスク推定部と、
を有することを特徴とする。
ニューラルネットワークを用いて、入力された学習用の混合音響信号を複数の第1内部状態に変換する変換部と、
目的音源の音響信号に関する補助情報が入力された場合、ニューラルネットワークを用いて、前記補助情報に基づいて前記複数の第1内部状態の重み付け和である第2内部状態を生成し、前記補助情報が入力されない場合、前記複数の第1内部状態のいずれかを選択することによって第2内部状態を生成する重み付け部と、
ニューラルネットワークを用いて、前記第2内部状態に基づいてマスクを推定するマスク推定部と、
前記学習用の混合音響信号に対して前記推定されたマスクを適用して得られる音響信号と、前記学習用の混合音響信号に含まれる正解の音源の音響信号との比較結果に基づいて、前記変換部、前記重み付け部及び前記マスク推定部のそれぞれにおいて用いられるニューラルネットワークのパラメータを更新するパラメータ更新部と、
を有することを特徴とする。
信号処理装置が実行する信号処理方法であって、
ニューラルネットワークを用いて、入力された混合音響信号を複数の第1内部状態に変換するステップと、
目的音源の音響信号に関する補助情報が入力された場合、ニューラルネットワークを用いて、前記補助情報に基づいて前記複数の第1内部状態の重み付け和である第2内部状態を生成し、前記補助情報が入力されない場合、前記複数の第1内部状態のいずれかを選択することによって第2内部状態を生成するステップと、
ニューラルネットワークを用いて、前記第2内部状態に基づいてマスクを推定するステップと、
を有することを特徴とする。
学習装置が実行する学習方法であって、
ニューラルネットワークを用いて、入力された学習用の混合音響信号を複数の第1内部状態に変換するステップと、
目的音源の音響信号に関する補助情報が入力された場合、ニューラルネットワークを用いて、前記補助情報に基づいて前記複数の第1内部状態の重み付け和である第2内部状態を生成し、前記補助情報が入力されない場合、前記複数の第1内部状態のいずれかを選択することによって第2内部状態を生成するステップと、
ニューラルネットワークを用いて、前記第2内部状態に基づいてマスクを推定するステップと、
前記学習用の混合音響信号に対して前記推定されたマスクを適用して得られる音響信号と、前記学習用の混合音響信号に含まれる正解の音源の音響信号との比較結果に基づいて、前記変換するステップ、前記生成するステップ及び前記推定するステップのそれぞれにおいて用いられるニューラルネットワークのパラメータを更新するステップと、
を有することを特徴とする。
実施例1では、話者の音声に関する補助情報の有無に応じて、ブラインド音源分離と目的話者抽出とを統合的に扱うための信号処理装置100について説明する。
変換部110は、混合音声信号を入力とし、I個の内部状態を表すベクトルZ1~ZIを出力するニューラルネットワークである。ここでIは入力混合音声に含まれる音源数以上とすることが好ましい。ニューラルネットワークの種類は特に限定されるものではないが、例えば、非特許文献1及び2に記載のBLSTMが用いられてもよい。以下の説明では、BLSTMを例に挙げて説明する。
補助情報入力部120は、目的話者抽出を行う場合に、目的話者の音声に関する補助情報Xs AUXを入力とし、重み付け部130に対して補助情報Xs AUXを出力する入力部である。
重み付け部130は、変換部110から出力された内部状態Z1~ZIを入力とするとともに、目的話者抽出を行う場合には補助情報入力部120から出力された補助情報Xs AUXを入力とし、マスク推定のための内部状態Zs ATT={zt ATT}t=1 Tを出力する処理部である。上記の通り、t(t=1,…,T)は処理対象の時間フレームのインデックスである。
〔マスク推定部〕
マスク推定部140は、重み付け部130から出力された内部状態ZATT(時刻毎の内部状態zt ATTを並べた時系列情報)を入力とし、マスクを出力するニューラルネットワークである。ニューラルネットワークの種類は特に限定されるものではないが、例えば、非特許文献1及び2に記載のBLSTMが用いられてもよい。
実施例2では、実施例1の信号処理装置100を構成するニューラルネットワークのパラメータを学習させる学習装置200について説明する。
パラメータ更新部250は、マスク推定部240から出力されたマスクと学習用データを入力として、ニューラルネットワークの各パラメータを出力する処理部である。
パラメータ更新部250は、誤差が閾値より小さくなるという収束条件等の所定の条件を満たすまで、マスクの推定とパラメータの更新を繰り返し、最終的に得られたパラメータを学習済みのニューラルネットワークパラメータとして用いる。
本発明の実施例における信号処理装置100は、先に入力混合音声信号を複数の内部状態に分離した後、補助情報の有無に応じて、複数の内部状態の何れかを選択するか、複数の内部状態の重み付け和である内部状態を生成するかの何れかを行った後、選択又は生成された内部状態を変換することでマスクの推定を行う。そのため、1つのニューラルネットワークのモデルを用いて、ブラインド音源分離と目的話者抽出を切り替えて行うことが可能となる。
図9に、本発明の実施例における各装置(信号処理装置100、学習装置200)のハードウェア構成例を示す。各装置は、CPU(Central Processing Unit)151等のプロセッサ、RAM(Random Access Memory)やROM(Read Only Memory)等のメモリ装置152、ハードディスク等の記憶装置153等から構成されたコンピュータでもよい。例えば、各装置の機能及び処理は、記憶装置153又はメモリ装置152に格納されているデータやプログラムをCPU151が実行することによって実現される。また、各装置に必要な情報は、入出力インタフェース装置154から入力され、各装置において求められた結果は、入出力インタフェース装置154から出力されてもよい。
説明の便宜上、本発明の実施例に係る信号処理装置及び学習装置は機能的なブロック図を用いて説明しているが、本発明の実施例に係る信号処理装置及び学習装置は、ハードウェア、ソフトウェア又はそれらの組み合わせで実現されてもよい。例えば、本発明の実施例は、コンピュータに対して本発明の実施例に係る信号処理装置及び学習装置の機能を実現させるプログラム、コンピュータに対して本発明の実施例に係る方法の各手順を実行させるプログラム等により、実現されてもよい。また、各機能部が必要に応じて組み合わせて使用されてもよい。また、本発明の実施例に係る方法は、実施例に示す順序と異なる順序で実施されてもよい。
110 変換部
120 補助情報入力部
130 重み付け部
140 マスク推定部
200 学習装置
210 変換部
220 補助情報入力部
230 重み付け部
240 マスク推定部
250 パラメータ更新部
Claims (8)
- ニューラルネットワークを用いて、入力された混合音響信号を複数の第1内部状態に変換する変換部と、
目的音源の音響信号に関する補助情報が入力された場合、ニューラルネットワークを用いて、前記補助情報に基づいて前記複数の第1内部状態の重み付け和である第2内部状態を生成し、前記補助情報が入力されない場合、前記複数の第1内部状態のいずれかを選択することによって第2内部状態を生成する重み付け部と、
ニューラルネットワークを用いて、前記第2内部状態に基づいてマスクを推定するマスク推定部と、
を有する信号処理装置。 - 前記ニューラルネットワークのそれぞれは、予め用意された学習用の混合音響信号に対して前記マスク推定部によって推定されたマスクを適用して得られる音響信号と、前記学習用の混合音響信号に含まれる正解の音源の音響信号との誤差が小さくなるように学習されたものである、請求項1に記載の信号処理装置。
- 前記変換部は、前記入力された混合音響信号を、I個の第1内部状態に変換し、
前記重み付け部は、前記補助情報が入力された場合、前記I個の第1内部状態に、前記I個の第1内部状態及び前記補助情報に基づいて推定されたI次元の重みベクトルを適用することによって第2内部状態を生成し、前記補助情報が入力されない場合、前記I個の第1内部状態に、i(i=1,…,I)番目の要素が1であり他の要素が0であるI次元の単位ベクトルを適用することによって第2内部状態を生成する、請求項1又は2に記載の信号処理装置。 - ニューラルネットワークを用いて、入力された学習用の混合音響信号を複数の第1内部状態に変換する変換部と、
目的音源の音響信号に関する補助情報が入力された場合、ニューラルネットワークを用いて、前記補助情報に基づいて前記複数の第1内部状態の重み付け和である第2内部状態を生成し、前記補助情報が入力されない場合、前記複数の第1内部状態のいずれかを選択することによって第2内部状態を生成する重み付け部と、
ニューラルネットワークを用いて、前記第2内部状態に基づいてマスクを推定するマスク推定部と、
前記学習用の混合音響信号に対して前記マスク推定部によって推定されたマスクを適用して得られる音響信号と、前記学習用の混合音響信号に含まれる正解の音源の音響信号との比較結果に基づいて、前記変換部、前記重み付け部及び前記マスク推定部のそれぞれにおいて用いられるニューラルネットワークのパラメータを更新するパラメータ更新部と、
を有する学習装置。 - 前記パラメータ更新部は、前記補助情報が入力された場合の損失と、前記補助情報が入力されない場合の損失との双方を考慮して、パラメータを更新する、請求項4に記載の学習装置。
- 信号処理装置が実行する信号処理方法であって、
ニューラルネットワークを用いて、入力された混合音響信号を複数の第1内部状態に変換するステップと、
目的音源の音響信号に関する補助情報が入力された場合、ニューラルネットワークを用いて、前記補助情報に基づいて前記複数の第1内部状態の重み付け和である第2内部状態を生成し、前記補助情報が入力されない場合、前記複数の第1内部状態のいずれかを選択することによって第2内部状態を生成するステップと、
ニューラルネットワークを用いて、前記第2内部状態に基づいてマスクを推定するステップと、
を有する信号処理方法。 - 学習装置が実行する学習方法であって、
ニューラルネットワークを用いて、入力された学習用の混合音響信号を複数の第1内部状態に変換するステップと、
目的音源の音響信号に関する補助情報が入力された場合、ニューラルネットワークを用いて、前記補助情報に基づいて前記複数の第1内部状態の重み付け和である第2内部状態を生成し、前記補助情報が入力されない場合、前記複数の第1内部状態のいずれかを選択することによって第2内部状態を生成するステップと、
ニューラルネットワークを用いて、前記第2内部状態に基づいてマスクを推定するステップと、
前記学習用の混合音響信号に対して前記推定されたマスクを適用して得られる音響信号と、前記学習用の混合音響信号に含まれる正解の音源の音響信号との比較結果に基づいて、前記変換するステップ、前記生成するステップ及び前記推定するステップのそれぞれにおいて用いられるニューラルネットワークのパラメータを更新するステップと、
を有する学習方法。 - 請求項1乃至5のうちいずれか1項に記載の装置としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019026853A JP7131424B2 (ja) | 2019-02-18 | 2019-02-18 | 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム |
PCT/JP2020/005332 WO2020170907A1 (ja) | 2019-02-18 | 2020-02-12 | 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム |
US17/431,347 US11978471B2 (en) | 2019-02-18 | 2020-02-12 | Signal processing apparatus, learning apparatus, signal processing method, learning method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019026853A JP7131424B2 (ja) | 2019-02-18 | 2019-02-18 | 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020134657A JP2020134657A (ja) | 2020-08-31 |
JP7131424B2 true JP7131424B2 (ja) | 2022-09-06 |
Family
ID=72144043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019026853A Active JP7131424B2 (ja) | 2019-02-18 | 2019-02-18 | 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11978471B2 (ja) |
JP (1) | JP7131424B2 (ja) |
WO (1) | WO2020170907A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2022145015A1 (ja) * | 2020-12-28 | 2022-07-07 | ||
EP4365897A1 (en) * | 2021-06-29 | 2024-05-08 | Sony Group Corporation | Program, information processing method, recording medium, and information processing device |
WO2023127057A1 (ja) * | 2021-12-27 | 2023-07-06 | 日本電信電話株式会社 | 信号フィルタリング装置、信号フィルタリング方法及びプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019017403A1 (ja) | 2017-07-19 | 2019-01-24 | 日本電信電話株式会社 | マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5328744B2 (ja) * | 2010-10-15 | 2013-10-30 | 本田技研工業株式会社 | 音声認識装置及び音声認識方法 |
US11373672B2 (en) * | 2016-06-14 | 2022-06-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
US10839822B2 (en) * | 2017-11-06 | 2020-11-17 | Microsoft Technology Licensing, Llc | Multi-channel speech separation |
US11475908B2 (en) * | 2020-09-29 | 2022-10-18 | Mitsubishi Electric Research Laboratories, Inc. | System and method for hierarchical audio source separation |
-
2019
- 2019-02-18 JP JP2019026853A patent/JP7131424B2/ja active Active
-
2020
- 2020-02-12 WO PCT/JP2020/005332 patent/WO2020170907A1/ja active Application Filing
- 2020-02-12 US US17/431,347 patent/US11978471B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019017403A1 (ja) | 2017-07-19 | 2019-01-24 | 日本電信電話株式会社 | マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法 |
Non-Patent Citations (4)
Title |
---|
CHEN, Xiuyi et al.,Distilled Binary Neural Network for Monaural Speech Separation,2018 International Joint Conference on Neural Networks (IJCNN),2018年07月,pp. 1-8,https://ieeexplore.ieee.org/document/8489456 |
DELCROIX, Marc et al.,SpeakerBeam: 聞きたい人の声に耳を傾けるコンピュータ―深層学習に基づく音声の選択的聴取,NTT技術ジャーナル,2018年09月,Vol. 30, No. 9,第12-15ページ,https://www.ntt.co.jp/journal/1809/files/JN20180912.pdf |
Jahn Heymann, et al.,Neural Network Based Spectral Mask Estimation for Acoustic Beamforming,2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),IEEE,2016年03月25日,196-200 |
Tsubasa Ochiai, et al.,Unified Architecture for Multichannel End-to-End Speech Recognition With Neural Beamforming,IEEE Journal of Selected Topics in Signal Processing,IEEE,2017年10月18日,Volume: 11, Issue: 8,1274-1288 |
Also Published As
Publication number | Publication date |
---|---|
JP2020134657A (ja) | 2020-08-31 |
US20220076690A1 (en) | 2022-03-10 |
WO2020170907A1 (ja) | 2020-08-27 |
US11978471B2 (en) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110459237B (zh) | 语音分离方法、语音识别方法及相关设备 | |
US9668066B1 (en) | Blind source separation systems | |
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
Zhang et al. | Deep learning based binaural speech separation in reverberant environments | |
WO2020170907A1 (ja) | 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム | |
JP6543844B2 (ja) | 音源同定装置および音源同定方法 | |
JP2776848B2 (ja) | 雑音除去方法、それに用いるニューラルネットワークの学習方法 | |
JP2007526511A (ja) | 周波数領域で多重経路多チャネル混合信号のブラインド分離のための方法及びその装置 | |
KR20200145219A (ko) | 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치 | |
Kinoshita et al. | Tackling real noisy reverberant meetings with all-neural source separation, counting, and diarization system | |
WO2022012206A1 (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN109410956A (zh) | 一种音频数据的对象识别方法、装置、设备及存储介质 | |
WO2019163736A1 (ja) | マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム | |
US20210076129A1 (en) | Low-latency speech separation | |
Nesta et al. | A flexible spatial blind source extraction framework for robust speech recognition in noisy environments | |
KR102401959B1 (ko) | 다채널 음향 신호를 이용한 심화 신경망 기반의 잔향 제거, 빔포밍 및 음향 인지 모델의 결합 학습 방법 및 장치 | |
CN113870893A (zh) | 一种多通道双说话人分离方法及系统 | |
Tamura et al. | Improvements to the noise reduction neural network | |
KR20180065761A (ko) | 디지털 목소리 유전 요소에 기반한 사용자 적응형 음성 인식 시스템 및 방법 | |
Baby et al. | Speech dereverberation using variational autoencoders | |
KR20190141350A (ko) | 로봇에서의 음성인식 장치 및 방법 | |
Keyrouz et al. | Robotic localization and separation of concurrent sound sources using self-splitting competitive learning | |
Zhang et al. | End-to-end overlapped speech detection and speaker counting with raw waveform | |
KR101022457B1 (ko) | Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법 | |
Huemmer et al. | Online environmental adaptation of CNN-based acoustic models using spatial diffuseness features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220524 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220726 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220808 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7131424 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |