JP7138824B2 - Sound source separation model learning device, sound source separation device, program, sound source separation model learning method, and sound source separation method - Google Patents
Sound source separation model learning device, sound source separation device, program, sound source separation model learning method, and sound source separation method Download PDFInfo
- Publication number
- JP7138824B2 JP7138824B2 JP2022532167A JP2022532167A JP7138824B2 JP 7138824 B2 JP7138824 B2 JP 7138824B2 JP 2022532167 A JP2022532167 A JP 2022532167A JP 2022532167 A JP2022532167 A JP 2022532167A JP 7138824 B2 JP7138824 B2 JP 7138824B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- target
- processed
- sounds
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims description 283
- 238000000034 method Methods 0.000 title claims description 45
- 238000012545 processing Methods 0.000 claims description 210
- 238000000605 extraction Methods 0.000 claims description 149
- 230000005236 sound signal Effects 0.000 claims description 76
- 238000012549 training Methods 0.000 claims description 32
- 230000001131 transforming effect Effects 0.000 claims description 30
- 238000013459 approach Methods 0.000 claims description 29
- 230000009466 transformation Effects 0.000 claims description 27
- 239000000284 extract Substances 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 26
- 239000000203 mixture Substances 0.000 claims description 23
- 230000021615 conjugation Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 22
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000015654 memory Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000005457 optimization Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本開示は、音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法に関する。 The present disclosure relates to a sound source separation model learning device, a sound source separation device, a program, a sound source separation model learning method, and a sound source separation method.
近年では、複数の音源からなる混合信号より、所望の音源信号のみを分離する手法として、ニューラルネットワーク(以下、NNという)に基づく手法が使用されている。非特許文献1では、複数の音が混ざっている混合信号から、NNを用いた音源分離装置を通過させることで、音源分離が達成される。
In recent years, a technique based on a neural network (hereinafter referred to as NN) has been used as a technique for separating only a desired sound source signal from a mixed signal composed of a plurality of sound sources. In
従来の技術のように、NNに基づく音源分離手法においては、取得された音源信号からNNへの入力特徴量を生成して、NNに適用している。 Like the conventional technique, in the NN-based sound source separation method, the input feature amount to the NN is generated from the acquired sound source signal and applied to the NN.
一方、所望の音源を分離したり、不要な音源から到来する信号を抑圧したりといった処理として、他の信号処理が存在する。例えば、マイクロホンアレイを用いたビームフォーミング処理、騒音を抑圧するスペクトルサブトラクション処理、又は、ノイズキャンセリング等を行う適応フィルタリング処理等の信号処理がある。 On the other hand, there are other signal processing processes such as separating a desired sound source and suppressing signals coming from unnecessary sound sources. For example, signal processing such as beam forming processing using a microphone array, spectral subtraction processing for suppressing noise, or adaptive filtering processing for noise canceling or the like.
非特許文献1の学習段階においては、音源信号の取得から入力特徴量の生成までの間に上記のような信号処理が行われることを想定していない。このため、音源分離時に、信号処理を経た後の混合信号をNNへと入力しても、信号処理に伴って生じる音響的特性の変動にNNが対応できず、十分な音源分離性能を得ることができない。ここで、音響的特性の変動は、例えば、信号のスケール、遅延、残響又は周波数特性等が変化すること等を想定している。
In the learning stage of
そこで、本開示の一又は複数の態様は、音響的特性が変動した場合であっても、機械学習による音源分離が有効に機能できるようにすることを目的とする。 Accordingly, it is an object of one or more aspects of the present disclosure to enable sound source separation by machine learning to function effectively even when acoustic characteristics fluctuate.
本開示の第1の態様に係る音源分離モデル学習装置は、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部と、前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部と、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えることを特徴とする。 A sound source separation model learning device according to a first aspect of the present disclosure performs predetermined processing on a mixed learning signal indicating at least a plurality of target sounds, thereby obtaining a plurality of target sounds derived from the target sounds. using a learning-side signal processing unit that generates a processed learning mixture signal representing at least a processed target sound, and a learning-side sound source separation model for extracting the plurality of processed target sounds, the processed learning mixture a learning-side model inference unit that extracts a sound from a signal to represent the extracted sound and generates a plurality of training extraction signals each corresponding to each of the plurality of processed target sounds; To bring said one target sound closer to one of said plurality of processed target sounds corresponding to said one target sound, in response to a signal indicating said one target sound among said target sounds. a signal transforming unit for generating a plurality of transformed target sound signals each representing a plurality of transformed target sounds each derived from each of the plurality of target sounds; and the plurality of learning extraction signals. and a model updating unit that updates the learning-side sound source separation model using the plurality of modified target sound signals so that the extracted sound approaches the plurality of modified target sounds. do.
本開示の第2の態様に係る音源分離モデル学習装置は、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部と、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部と、前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部と、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部と、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えることを特徴とする。 A sound source separation model learning device according to a second aspect of the present disclosure performs predetermined processing on a mixed learning signal indicating at least a plurality of target sounds, thereby obtaining a plurality of signals derived from the plurality of target sounds. a learning-side signal processing unit that generates a processed learning mixed signal indicating at least a processed target sound; a learning-side feature quantity extraction unit for generating learning feature data, which is time-series data of the extracted learning sound feature quantity, and the plurality of processed target sounds for extracting the plurality of A learning side model that generates a plurality of learning masks for extracting each of the plurality of processed target sounds from the learning feature data, using a learning side sound source separation model that indicates a weight for each of the components of A sound is extracted from the learning feature data using the inference unit and the plurality of learning masks, and a plurality of a learning-side signal extracting unit for generating a learning extraction signal of; a plurality of deformations each representing a plurality of deformed target sounds each derived from each of the plurality of target sounds by performing deformation processing for approximating one processed target sound corresponding to the one target sound; a signal transforming unit that generates a target sound signal; and a training method that uses the plurality of learning extraction signals and the plurality of transformed target sound signals so that the extracted sound approaches the plurality of transformed target sounds. and a model updating unit that updates the side sound source separation model.
本開示の第1の態様に係る音源分離装置は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部と、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部と、を備えることを特徴とする。 A sound source separation device according to a first aspect of the present disclosure performs predetermined processing on a target mixed signal indicating at least a plurality of target sounds, thereby obtaining a plurality of processed target sounds derived from the plurality of target sounds. a utilization-side signal processing unit that generates a processed target mixed signal that at least indicates a sound; a learning side for generating a processed mixed learning signal indicating at least a plurality of processed target sounds derived from a plurality of target sounds derived from a learning side, and extracting a plurality of processed target sounds indicated by the processed mixed learning signal; By extracting sounds from the processed mixed learning signal using a sound source separation model, the extracted sounds are represented, and each of the plurality of processed target sounds represented by the processed mixed learning signals generates a plurality of learning extraction signals corresponding to the one target sound for a signal indicating one of a plurality of target sounds represented by the learning mixed signal, the one target sound to the processed learning By performing deformation processing to approximate one of the processed target sounds indicated by the mixed signal for learning to one of the processed target sounds corresponding to the one target sound, the plurality of target sounds indicated by the mixed signal for learning generating a plurality of modified target sound signals each representing a plurality of modified target sounds each derived from each of the target sounds, and using the plurality of learning extraction signals and the plurality of modified target sound signals, for extracting a plurality of processed target sounds represented by the processed target mixed signal, generated by updating the learning-side sound source separation model so that the sounds approach the plurality of deformed target sounds ; extracting sounds from the processed target mixed signal using the utilization-side sound source separation model to represent the sounds extracted from the processed target mixed signal; and a utilization-side model inference unit that generates a plurality of utilization extraction signals each corresponding to each of the target sounds.
本開示の第2の態様に係る音源分離装置は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部と、前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部と、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部と、前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部と、を備えることを特徴とする。 A sound source separation device according to a second aspect of the present disclosure performs predetermined processing on a target mixed signal indicating at least a plurality of target sounds, thereby obtaining a plurality of processed target sounds derived from the plurality of target sounds. A utilization-side signal processing unit that generates a processed target mixed signal that indicates at least a sound; a utilization-side feature quantity extraction unit that generates utilization feature data that is time-series data of the extracted utilization acoustic feature quantity ; generating a processed learning mixed signal indicating at least a plurality of processed target sounds derived from the plurality of target sounds indicated by the learning mixed signal; and generating a predetermined sound from the processed learning mixed signal By extracting the acoustic feature amount for learning which is the feature amount in a plurality of components, learning feature data which is time-series data of the extracted acoustic feature amount for learning is generated, and the processed mixed signal for learning is used as using a learning source separation model that indicates weights for each of a plurality of components in the learning feature data to extract a plurality of processed target sounds indicated from the learning feature data to the processed training mixture signal generating a plurality of learning masks for extracting each of a plurality of processed target sounds represented by and extracting a sound from the learning feature data using the plurality of learning masks, generating a plurality of learning extraction signals each representing the extracted sound and corresponding to each of a plurality of processed target sounds represented by the processed mixed learning signals; corresponding to the one target sound among the plurality of processed target sounds indicated by the processed mixed signal for learning. a plurality of modified target sounds each representing a plurality of modified target sounds each derived from each of the plurality of target sounds represented by the learning mixed signal by performing a deformation process for approximating one processed target sound to the generating a sound signal, and using the plurality of learning extraction signals and the plurality of modified target sound signals, and adjusting the learning-side sound source separation model so that the extracted sound approaches the plurality of modified target sounds; using a utilization-side sound source separation model that indicates a weight for each of a plurality of components in the utilization feature data for extracting a plurality of processed target sounds indicated by the processed target mixed signal generated by updating , the activity a utilization-side model inference unit for generating a plurality of utilization masks for extracting each of the plurality of processed target sounds indicated by the processed target mixed signal from the target sound feature data, and using the plurality of utilization masks, a plurality of processed target sounds each corresponding to each of the plurality of processed target sounds indicated by the processed target mixed signal, which at least represent the sounds extracted from the utilized feature data by extracting sounds from the utilized feature data; and a utilization-side signal extraction unit that generates a utilization extraction signal.
本開示の第1の態様に係るプログラムは、コンピュータを、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させることを特徴とする。 A program according to a first aspect of the present disclosure causes a computer to perform predetermined processing on a mixed learning signal indicating at least a plurality of target sounds, thereby performing a plurality of processing derived from the plurality of target sounds. a learning-side signal processing unit that generates a processed learning mixed signal representing at least a processed target sound; and a learning-side sound source separation model for extracting the plurality of processed target sounds from the processed learning mixed signal. a learning-side model inference unit that extracts a sound to generate a plurality of learning extraction signals that indicate the extracted sound and that correspond to each of the plurality of processed target sounds; deformation processing for approximating said one target sound to one of said plurality of processed target sounds corresponding to said one target sound, with respect to a signal indicating one target sound in to generate a plurality of modified target sound signals each representing a plurality of modified target sounds each derived from each of the plurality of target sounds; and the plurality of learning extraction signals and the It functions as a model updating unit that updates the learning-side sound source separation model using a plurality of modified target sound signals so that the extracted sound approaches the plurality of modified target sounds.
本開示の第2の態様に係るプログラムは、コンピュータを、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部、前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部、
前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させることを特徴とする。A program according to a second aspect of the present disclosure causes a computer to perform predetermined processing on a mixed learning signal indicating at least a plurality of target sounds, thereby performing a plurality of processing derived from the plurality of target sounds. a learning-side signal processing unit that generates a processed learning mixed signal that at least indicates the target sound; By doing so, a learning-side feature quantity extraction unit that generates learning feature data that is time-series data of the extracted learning acoustic feature quantity, and extracts the plurality of components to extract the plurality of processed target sounds. a learning-side model inference unit that generates a plurality of learning masks for extracting each of the plurality of processed target sounds from the learning feature data, using a learning-side sound source separation model that indicates a weight for each;
a plurality of learning extractions each representing the extracted sound and corresponding to each of the plurality of processed target sounds by extracting sounds from the learning feature data using the plurality of learning masks; a learning-side signal extraction unit that generates a signal;
for a signal indicating one of the plurality of target sounds, one of the plurality of processed target sounds corresponding to the one target sound. a signal transforming unit that generates a plurality of transformed target sound signals each representing a plurality of transformed target sounds each derived from each of the plurality of target sounds by performing transformation processing to bring the plurality of transformed target sounds closer to A model updating unit that updates the learning-side sound source separation model using the learning extraction signal and the plurality of modified target sound signals so that the extracted sound approaches the plurality of modified target sounds. It is characterized by
本開示の第3の態様に係るプログラムは、コンピュータを、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、及び、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部、として機能させることを特徴とする。 A program according to a third aspect of the present disclosure causes a computer to perform predetermined processing on a target mixed signal indicating at least a plurality of target sounds, thereby generating a plurality of processed signals derived from the plurality of target sounds. a utilization-side signal processing unit that generates a processed target mixed signal that indicates at least a target sound; for generating a processed mixed learning signal indicating at least a plurality of processed target sounds derived from a plurality of target sounds indicated by and extracting a plurality of processed target sounds indicated by the processed mixed learning signal each of a plurality of processed target sounds represented by the processed mixed signal for learning by extracting sounds from the processed mixed signal for learning using the learning-side sound source separation model; and generating a plurality of learning extraction signals each corresponding to a signal indicating one target sound among a plurality of target sounds indicated by the learning mixed signal, the one target sound being subjected to the processing By performing deformation processing to approximate one of the processed target sounds indicated by the mixed learning signal to one of the processed target sounds corresponding to the one target sound, the target sound indicated by the mixed learning signal generating a plurality of modified target sound signals each representing a plurality of modified target sounds each derived from each of the plurality of target sounds; using the plurality of learning extraction signals and the plurality of modified target sound signals, Extracting a plurality of processed target sounds represented by the processed target mixed signal generated by updating the learning-side sound source separation model so that the extracted sounds approximate the plurality of deformed target sounds . By extracting sounds from the processed target mixed signal using the utilization-side sound source separation model for It is characterized by functioning as a utilization-side model inference section that generates a plurality of utilization extraction signals each corresponding to each of the processed target sounds.
本開示の第4の態様に係るプログラムは、コンピュータを、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部、及び、前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部、として機能させることを特徴とする。 A program according to a fourth aspect of the present disclosure causes a computer to perform predetermined processing on a target mixed signal indicating at least a plurality of target sounds, thereby generating a plurality of processed signals derived from the plurality of target sounds. A utilization-side signal processing unit that generates a processed target mixed signal that indicates at least a target sound, and extracts, from the processed target mixed signal, a utilization acoustic feature quantity, which is a predetermined acoustic feature quantity, in a plurality of components, By performing a predetermined process on a learning mixed signal indicating at least a plurality of target sounds, a utilization-side feature quantity extraction unit that generates utilization feature data that is time-series data of the extracted utilization acoustic feature quantity, generating a processed learning mixed signal indicating at least a plurality of processed target sounds derived from the plurality of target sounds indicated by the learning mixed signal; and obtaining a predetermined acoustic feature from the processed learning mixed signal. By extracting the learning acoustic feature amount, which is a quantity, in a plurality of components, learning feature data, which is time-series data of the extracted learning acoustic feature amount, is generated and represented by the processed learning mixed signal. using a learning-side sound source separation model that indicates a weight for each of a plurality of components in the learning feature data in order to extract a plurality of processed target sounds from the learning feature data with the processed learning mixture signal generating a plurality of learning masks each for extracting each of the plurality of processed target sounds shown, and using the plurality of learning masks to extract a sound from the learning feature data, generating a plurality of learning extraction signals each representing the extracted sound and corresponding to each of the plurality of processed target sounds represented by the processed learning mixed signals; For a signal indicating one target sound among the target sounds, the one target sound corresponds to the one target sound among the plurality of processed target sounds indicated by the processed mixed signal for learning. A plurality of modified target sounds each representing a plurality of modified target sounds each derived from each of the plurality of target sounds represented by the learning mixed signal by performing transformation processing to approximate one processed target sound. generating a signal, and using the plurality of learning extraction signals and the plurality of modified target sound signals, updating the learning-side sound source separation model so that the extracted sound approaches the plurality of modified target sounds. using a utilization-side sound source separation model that indicates a weight for each of the plurality of components in the utilization feature data in order to extract a plurality of processed target sounds indicated by the processed target mixed signal generated by a utilization-side model inference unit for generating a plurality of utilization masks, each of which extracts a plurality of processed target sounds indicated by the processed target mixed signal from the utilization feature data; Extracting sounds from the inflectional feature data using a mask to indicate at least the sounds extracted from the inflectional feature data , each of a plurality of processed target sounds indicated by the processed target mixed signal having It is characterized by functioning as a utilization-side signal extraction unit that generates a plurality of corresponding utilization extraction signals.
本開示の第1の態様に係る音源分離モデル学習方法は、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することを特徴とする。 A sound source separation model learning method according to a first aspect of the present disclosure performs predetermined processing on a mixed learning signal indicating at least a plurality of target sounds, thereby obtaining a plurality of signals derived from the plurality of target sounds. generating a processed training mixture signal indicative of at least a processed target sound, and extracting sounds from the processed training mixture signal using a learning-side source separation model for extracting the plurality of processed target sounds. to generate a plurality of learning extraction signals each representing the extracted sound and corresponding to each of the plurality of processed target sounds, and a signal representing one of the plurality of target sounds , the one target sound is deformed to bring it closer to one of the plurality of processed target sounds corresponding to the one target sound, thereby obtaining the plurality of purposes generating a plurality of modified target sound signals each indicating a plurality of modified target sounds each derived from each of the sounds, and using the plurality of learning extraction signals and the plurality of modified target sound signals, The learning-side sound source separation model is updated so that the sound approaches the plurality of modified target sounds.
本開示の第2の態様に係る音源分離モデル学習方法は、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することを特徴とする。 A sound source separation model learning method according to a second aspect of the present disclosure performs predetermined processing on a mixed learning signal indicating at least a plurality of target sounds, thereby obtaining a plurality of signals derived from the plurality of target sounds. generating a processed learning mixed signal indicating at least the processed target sound, and extracting, from the processed learning mixed signal, learning acoustic feature amounts, which are predetermined acoustic feature amounts, in a plurality of components, A learning-side sound source separation model that generates learning feature data, which is time-series data of the extracted learning acoustic feature amount, and indicates a weight for each of the plurality of components in order to extract the plurality of processed target sounds. to generate a plurality of learning masks for extracting each of the plurality of processed target sounds from the learning feature data, and using the plurality of learning masks to generate the learning feature data generating a plurality of training extraction signals each representing the extracted sound and corresponding to each of the plurality of processed target sounds; Transforming a signal indicating a target sound so as to bring the one target sound closer to one of the plurality of processed target sounds corresponding to the one target sound generating a plurality of modified target sound signals each indicating a plurality of modified target sounds each derived from each of the plurality of target sounds, and using the plurality of learning extraction signals and the plurality of modified target sound signals; and updating the learning-side sound source separation model so that the extracted sound approaches the plurality of modified target sounds.
本開示の第1の態様に係る音源分離方法は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成し、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成することを特徴とする。 A sound source separation method according to a first aspect of the present disclosure performs predetermined processing on a target mixed signal indicating at least a plurality of target sounds, thereby obtaining a plurality of processed target sounds derived from the plurality of target sounds. generating a processed target mixed signal representing at least a sound, and performing predetermined processing on a learning mixed signal representing at least a plurality of target sounds, thereby obtaining a plurality of target sounds represented by the learning mixed signal; using a learning-side sound source separation model for generating a processed learning mixture signal indicating at least a plurality of processed target sounds from which the learning-side sound source separation model is extracted, and extracting the plurality of processed target sounds indicated by the processed learning mixture signal; , extracting sounds from the processed mixed signal for learning, indicating the extracted sound, and a plurality of learning signals each corresponding to each of a plurality of processed target sounds indicated by the processed mixed signal for learning generating an extraction signal for learning, and for a signal indicating one target sound among a plurality of target sounds indicated by the mixed learning signal, the one target sound indicated by the processed mixed learning signal Each of the plurality of target sounds represented by the learning mixed signal is transformed by performing deformation processing to approximate one of the plurality of processed target sounds to one of the processed target sounds corresponding to the one target sound. generating a plurality of modified target sound signals each representing a plurality of modified target sounds derived from the A utilization-side sound source separation model for extracting a plurality of processed target sounds indicated by the processed target mixed signal generated by updating the learning-side sound source separation model so as to approach the modified target sound of to extract a sound from the processed target mixed signal using generates a plurality of corresponding leveraged extraction signals.
本開示の第2の態様に係る音源分離方法は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成し、前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成し、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成し、前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成することを特徴とする。 A sound source separation method according to a second aspect of the present disclosure performs predetermined processing on a target mixed signal indicating at least a plurality of target sounds, thereby obtaining a plurality of processed target sounds derived from the plurality of target sounds. generating a processed target mixed signal indicating at least a sound, and extracting a plurality of components from the processed target mixed signal, which is a predetermined acoustic feature quantity, to utilize the extracted utilized sound; By generating utilization feature data, which is time-series data of feature amounts, and performing predetermined processing on a learning mixed signal indicating at least a plurality of target sounds, a plurality of purposes indicated by the learning mixed signal are obtained. generating a processed learning mixed signal indicating at least a plurality of processed target sounds derived from sounds, and obtaining a learning acoustic feature amount, which is a predetermined acoustic feature amount, as a plurality of components from the processed learning mixed signal; to generate learning feature data, which is time-series data of the extracted learning acoustic feature amount, and to extract a plurality of processed target sounds indicated by the processed learning mixed signal Each of a plurality of processed target sounds represented by the processed mixed signal for learning is obtained from the feature data for learning using a learning side sound source separation model that indicates a weight for each of the plurality of components in the feature data for learning. generates a plurality of learning masks for extraction, and extracts sounds from the learning feature data using the plurality of learning masks, thereby indicating the extracted sounds and the processed learning generating a plurality of learning extraction signals each corresponding to each of the plurality of processed target sounds indicated by the mixed signal, and a signal indicating one of the plurality of target sounds indicated by the mixed learning signal; , transforming the one target sound closer to one processed target sound corresponding to the one target sound among the plurality of processed target sounds indicated by the processed mixed signal for learning. to generate a plurality of modified target sound signals each representing a plurality of modified target sounds each derived from each of the plurality of target sounds represented by the mixed learning signals, and the plurality of learning extracted signals and the processed target mixture generated by updating the learning-side sound source separation model using the plurality of modified target sound signals so that the extracted sound approaches the plurality of modified target sounds. with the processed target mixture signal from the utilized feature data using a utilized-side sound source separation model that indicates a weight for each of the plurality of components in the utilized feature data to extract a plurality of processed target sounds indicated by a signal Show generating a plurality of inflection masks for extracting each of a plurality of processed target sounds, and extracting sounds from the inflection feature data using the plurality of inflection masks, thereby obtaining the inflection feature data and generating a plurality of utilized extraction signals each corresponding to each of the plurality of processed target sounds indicated by the processed target mixed signal .
本開示の一又は複数の態様によれば、音響的特性が変動した場合であっても、機械学習による音源分離が有効に機能することができる。 According to one or more aspects of the present disclosure, sound source separation by machine learning can function effectively even when acoustic characteristics fluctuate.
実施の形態1.
図1は、実施の形態1に係る音源分離システム100の構成を概略的に示すブロック図である。
音源分離システム100は、学習用信号から音源分離モデルを生成する音源分離モデル学習装置110と、対象混合信号の中に含まれる、各音源から発せられた目的音を、音源分離モデルを用いて分離し、その目的音を出力する音源分離装置130とを備える。
FIG. 1 is a block diagram schematically showing the configuration of a sound source separation system 100 according to
A sound source separation system 100 separates a sound source separation model learning device 110 that generates a sound source separation model from a learning signal, and a target sound emitted from each sound source contained in a target mixed signal using the sound source separation model. and a sound
ここで、目的音は、音源分離装置130を用いて分離して、取り出したい音を指し、非目的音は、音源分離装置130を用いて取り出す必要のない音を指すものとする。言い換えると、目的音は、音源分離装置130で抽出すべき音を指し、非目的音は、音源分離装置130で抽出すべきではない音を指す。
Here, the target sound refers to a sound to be separated and extracted using the sound
音源分離モデル学習装置110と、音源分離装置130とは、データを受け渡すことができるようになっている。例えば、図示してはいないが、音源分離モデル学習装置110と、音源分離装置130とは、ネットワークに接続されている。
The sound source separation model learning device 110 and the sound
音源分離モデル学習装置110は、学習用信号に基づいて、音源分離モデルを生成する。生成された音源分離モデルは、音源分離装置130に与えられる。
音源分離装置130は、その音源分離モデルを用いて、複数の音源から発せられた複数の目的音を含む混合信号から、複数の目的音を抽出する。The sound source separation model learning device 110 generates a sound source separation model based on the learning signal. The generated sound source separation model is provided to the sound
The sound
音源分離モデルは、音源分離装置130にて音源の分離を実施する際に用いられる、NNにおける学習モデルである。音源分離モデルは、例えば、NNの配線構造を定義するための情報及びNNの各配線における重みを格納したパラメタを含む。音源分離モデルの配線構造は、例えば、全結合型NN、畳み込みNN(Convolutional NN:CNN)、回帰型NN(Recurrent NN:RNN)、長短期記憶(Long short-term memory:LSTM)、ゲート付き回帰型ユニット(Gated recurrent unit:GRU)、又は、これらの組み合わせであってもよい。
A sound source separation model is a learning model in the NN that is used when the sound
図2は、音源分離モデル学習装置110の構成を概略的に示すブロック図である。
音源分離モデル学習装置110は、学習側入力部111と、混合信号生成部112と、学習側信号処理部113と、学習側特徴量抽出部114と、学習側音源分離モデル記憶部115と、学習側モデル推論部116と、学習側信号抽出部117と、信号変形部118と、モデル更新部119と、学習側通信部120とを備える。FIG. 2 is a block diagram schematically showing the configuration of the sound source separation model learning device 110. As shown in FIG.
The sound source separation model learning device 110 includes a learning
学習側入力部111は、学習用信号の入力を受け付ける。入力された学習用信号は、混合信号生成部112及び信号変形部118に与えられる。
学習用信号は、例えば、複数の話者からそれぞれ個別に発せられた音声、複数の楽器からそれぞれ個別に演奏された楽曲、又は、複数の騒音原からそれぞれ個別に発せられた騒音等の目的音及び非目的音を録音したデータの信号を含む。Learning-
The learning signal is, for example, a target sound such as a voice individually emitted from a plurality of speakers, a piece of music individually played by a plurality of musical instruments, or a noise individually emitted from a plurality of noise sources. and non-target sound recording data signals.
混合信号生成部112は、学習用信号として目的音及び非目的音の信号を取得し、例えば、これらを加算することによって、複数の目的音と、非目的音とが混ざっている混合信号である学習用混合信号を生成する。学習用混合信号は、学習側信号処理部113に与えられる。
ここで、学習用混合信号には、2つ以上の目的音が含まれる。また、学習用混合信号には、1つ以上の非目的音が含まれてもよいし、含まれなくてもよい。学習用混合信号は、例えば、学習用信号として取得された2つ以上の信号を単純に加算して得られる信号であってもよい。言い換えると、学習用混合信号は複数の目的音を少なくとも示す信号である。The mixed
Here, the learning mixed signal includes two or more target sounds. Also, the learning mixed signal may or may not include one or more non-target sounds. The learning mixed signal may be, for example, a signal obtained by simply adding two or more signals acquired as learning signals. In other words, the training mixed signal is a signal that at least represents a plurality of target sounds.
混合信号生成部112は、例えば、音源分離装置130に入力される混合信号である対象混合信号を模擬する処理を含んでもよい。例えば、対象混合信号がマイクロホンアレイにより収録されたマルチチャネル信号である場合、混合信号生成部112は、マイクロホンアレイのインパルス応答を畳み込むことで、マイクロホンアレイによる観測を模擬する処理を含んでもよい。
The
学習側信号処理部113は、学習用混合信号に対して予め定められた処理を行うことで、複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する。処理済学習用混合信号は、学習側特徴量抽出部114及び信号変形部118に与えられる。
例えば、学習側信号処理部113は、混合信号生成部112から与えられる学習用混合信号に対して、目的音を取り出しやすくするため、種々の信号処理を適用した結果得られる処理済学習用混合信号を生成する。
具体的には、予め定められた処理は、機械学習以外の処理であってもよいし、機械学習を用いた処理であってもよい。
また、予め定められた処理は、複数の目的音を抽出しやすくする処理であることが望ましい。
さらに、予め定められた処理は、複数の目的音を強調する処理であることが望ましい。The learning-side
For example, the learning-side
Specifically, the predetermined process may be a process other than machine learning, or may be a process using machine learning.
Moreover, it is desirable that the predetermined process be a process that makes it easier to extract a plurality of target sounds.
Furthermore, it is desirable that the predetermined processing be processing for emphasizing a plurality of target sounds.
学習側信号処理部113は、音源分離装置130において行われる処理と同じ処理を行う。例えば、古典的な信号処理、機械学習を用いた処理又は未知の信号処理等が行われる。未知の信号処理には、古典的な信号処理又は機械学習を用いた処理が含まれてもよい。
The learning-side
具体的には、学習側信号処理部113が行う処理には、入力された学習用混合信号の中から、雑音信号又は目的音ではない音を示す信号等を抑圧するビームフォーミング処理が含まれてもよい。また、学習側信号処理部113が行う処理には、残響を抑圧するための処理が含まれていてもよい。さらに、学習側信号処理部113が行う処理には、学習用混合信号の中に存在する非目的音の参照信号が与えられている場合において、エコーキャンセラ等に代表される、非目的音の参照信号を学習用混合信号に含まれる形へと適応変形し、それを学習用混合信号から差し引くことで、学習用混合信号から非目的音に由来する成分を取り除く処理が含まれてもよい。
Specifically, the processing performed by the learning-side
なお、学習側信号処理部113が行う処理の内容は、時間の経過に伴って変化してもよい。学習側信号処理部113に入力される学習用混合信号は、例えば、マイクロホンアレイで収録された複数チャネルの信号であり、出力される処理済学習用混合信号は、例えば、単一チャネルの信号であるが、チャネル数に対する要件はこれに限定されるものではない。
Note that the details of the processing performed by the learning-side
学習側特徴量抽出部114は、学習側信号処理部113から与えられる処理済学習用混合信号から、音響特徴量を抽出して、抽出された音響特徴量の時系列データである学習用特徴データを生成する。
例えば、学習側特徴量抽出部114は、処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する。
ここで、音響特徴量は、例えば、処理済学習用混合信号に高速フーリエ変換(Fast Fourier Transform:FFT)の処理を施すことによって得られる複素スペクトルである。学習用特徴データは、学習側モデル推論部116及び学習側信号抽出部117に与えられる。The learning-side feature
For example, the learning-side feature
Here, the acoustic feature amount is, for example, a complex spectrum obtained by performing Fast Fourier Transform (FFT) processing on the processed mixed signal for learning. The feature data for learning is given to the learning side
学習側音源分離モデル記憶部115は、音源分離モデル学習装置110で使用される音源分離モデルである学習側音源分離モデルを記憶する。学習側音源分離モデルは、例えば、学習用特徴データにおける各成分に対する重みパラメタを示す。
The learning-side sound source separation
学習側モデル推論部116は、学習側特徴量抽出部114から与えられる学習用特徴データから、音源分離を行うために必要となる分離用特徴量である学習分離用特徴量を、学習側音源分離モデルを用いて抽出する。学習側モデル推論部116で抽出される学習分離用特徴量の時系列データは、例えば、「マスク」と呼ばれる時系列データである。マスクとは、学習側特徴量抽出部114で抽出された音響特徴量から、各音源の成分のみを取り出すためのフィルタである。マスクは、例えば、学習側特徴量抽出部114で抽出された音響特徴量の各成分において、分離し取り出したい音源からの成分が含まれている割合を求めることにより与えられる。ここで生成されたマスクは、学習用マスクとして学習側信号抽出部117に与えられる。
即ち、学習側モデル推論部116は、複数の処理済目的音を抽出するために、学習用特徴データを構成する複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、学習用特徴データから一つの処理済目的音を抽出するための学習用マスクを、目的音毎に生成する。ここでは、学習用混合信号に、複数の目的音が含まれているため、複数の学習用マスクが生成される。The learning-side
That is, in order to extract a plurality of processed target sounds, the learning-side
学習側信号抽出部117は、学習側特徴量抽出部114で抽出された音響特徴量の時系列データである学習用特徴データと、学習側モデル推論部116で推定された学習分離用特徴量の時系列データである学習用マスクとを用いて、取り出したい音響信号を抽出する。
例えば、学習側信号抽出部117は、学習側モデル推論部116から与えられる複数の学習用マスクの各々を用いて、学習用特徴データから音を抽出することで、抽出された音を少なくとも示す学習用抽出信号を生成する。The learning-side
For example, the learning-side
具体的には、学習側信号抽出部117は、学習分離用特徴量と、学習用音響特徴量とを成分毎に積演算した後に、逆フーリエ変換(Inverse Fast Fourier Transform:IFFT)の処理を施すことによって、取り出したい目的音を抽出した信号である学習用抽出信号を復元する。ここでは、複数の学習用マスクが使用されるため、複数の学習用マスクの各々に各々が対応する複数の学習用抽出信号が復元される。
Specifically, the learning-side
信号変形部118は、学習側入力部111から与えられる学習用信号と、学習側信号処理部113から与えられる処理済学習用混合信号とにより、学習用信号に含まれる複数の目的音のそれぞれを、処理済学習用混合信号に含まれるそれぞれの目的音に対応する音に近づけるための変形処理を行うことで変形目的音信号を生成する。生成された変形目的音信号は、モデル更新部119に与えられる。
例えば、信号変形部118は、複数の目的音の内、一つの目的音を示す信号に対して、その一つの目的音を、対応する一つの処理済目的音に近づけるための変形処理を行うことで、その一つの目的音に由来する一つの変形目的音を示す変形目的音信号を、目的音毎に生成する。ここでは、複数の目的音が存在するため、複数の目的音の各々に各々が対応する複数の変形目的音信号が生成される。The
For example, the
具体的には、学習用信号に、第1の目的音、第2の目的音及び非目的音という3つの成分が含まれる場合、信号変形部118は、第1の目的音を示す信号を変形するための変換f1と、第2の目的音を示す信号を変形するための変換f2を設定する。そして、信号変形部118は、学習側信号処理部113から与えられる処理済学習用混合信号と、第1の目的音を示す信号及び第2の目的音を示す信号を加算した信号との差分が最も小さくなるように変換f1及び変換f2を決定することで、第1の目的音及び第2の目的音のそれぞれを、処理済学習用混合信号に含まれるそれぞれの目的音に由来する音に近づけることができる。これにより、第1の目的音を示す信号に変換f1を適用することで、第1の目的音に対応する変形目的音信号を生成することができ、第2の目的音を示す信号に変換f2を適用することで、第2の目的音に対応する変形目的音信号を生成することができる。
Specifically, when the learning signal includes three components of a first target sound, a second target sound, and a non-target sound, the
ここでは、第1の目的音、第2の目的音及び非目的音が、それぞれ統計的に異なる性質を持っている、言い換えると、相関がないものとしている。このため、例えば、学習側信号処理部113から与えられる処理済学習用混合信号と、第1の目的音を示す信号と第2の目的音を示す信号を加算した信号との差分として、二乗誤差を算出することで、第1の目的音及び第2の目的音のそれぞれを、処理済学習用混合信号に含まれるそれぞれの目的音に由来する音に近づけることができる。なお、信号変形部118の具体的な構造については、後述する。
Here, it is assumed that the first target sound, the second target sound, and the non-target sound have statistically different properties, in other words, have no correlation. For this reason, for example, the difference between the processed mixed signal for learning given from the learning-side
モデル更新部119は、学習側信号抽出部117から与えられる複数の学習用抽出信号と、信号変形部118から与えられる複数の変形目的音信号とを用いて、学習側音源分離モデル記憶部115に記憶されている学習用音源分離モデルに含まれている重みパラメタを更新する。
例えば、モデル更新部119は、複数の学習用抽出信号及び複数の変形目的音信号を用いて、学習側信号抽出部117で抽出された音が、抽出すべき一つの目的音に対応する一つの変形目的音に近づくように、学習側音源分離モデルを更新する。
具体的には、モデル更新部119は、複数の学習用抽出信号と、複数の変形目的音信号との差分が小さくなるように、学習側音源分離モデルを更新する。The
For example, the
Specifically, the
重みパラメタの更新には、例えば、信号変形部118の出力と、学習側信号抽出部117の出力との差分を計算した結果と、例えば、確率的勾配降下法(Stochastic Gradient Descent:SGD)又はAdam法等の公知の最適化手法が使用される。
For updating the weight parameter, for example, the result of calculating the difference between the output of the
学習側通信部120は、学習側音源分離モデル記憶部115に記憶されている学習用音源分離モデルを、音源分離装置130で使用する音源分離モデルである活用側音源分離モデルとして、音源分離装置130に送る。
The learning
なお、学習側特徴量抽出部114と、学習側信号抽出部117とについては、その両方を備えない構成とすることができる。
この場合、学習側モデル推論部116は、学習側信号処理部113から与えられた処理済学習用混合信号に含まれている複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、処理済学習用混合信号から音を抽出することで、その抽出された音を示す学習用抽出信号を生成する。
また、信号変形部118は、学習用信号で示される複数の目的音の内、一つの処理済目的音に対応する一つの目的音を示す信号に対して、その一つの目的音をその一つの処理済目的音に近づけるための変形処理を行うことで、その一つの目的音に由来する一つの変形目的音を示す変形目的音信号を、目的音毎に生成する。
そして、モデル更新部119は、複数の学習用抽出信号及び複数の変形目的音信号を用いて、学習側モデル推論部116で抽出された複数の音の各々が、複数の変形目的音の内の対応する変形目的音に近づくように、学習側音源分離モデルを更新する。Note that the learning-side feature
In this case, the learning-side
In addition, the
Then, the
図3は、実施の形態1における信号変形部118の構成を概略的に示すブロック図である。
信号変形部118は、混合信号ブロック分割部118aと、学習用信号ブロック分割部118bと、フィルタ推定部118cと、フィルタ適用部118dと、ブロック結合部118eとを備える。FIG. 3 is a block diagram schematically showing the configuration of
The
混合信号ブロック分割部118aは、学習側信号処理部113から与えられた処理済学習用混合信号を適当な区間であるブロック毎に分割して得られる信号である混合ブロック信号を生成する第1のブロック分割部である。
例えば、混合信号ブロック分割部118aは、処理済学習用混合信号を複数のブロックに分割することで、複数の混合ブロック信号を生成する。
混合ブロック信号は、フィルタ推定部118cに与えられる。The mixed signal
For example, the mixed signal
The mixed block signal is provided to filter
ブロックへの分割は、例えば、一定の時間間隔毎に実施されればよい。
また、複数のブロック間で重複する区間が生じるようにブロックに分割されてもよい。
但し、サンプル数に対応する各ブロックの長さは、フィルタ推定部118cにおけるフィルタの導出に必要な長さを上回るよう設定する必要がある。The division into blocks may be performed, for example, at regular time intervals.
Alternatively, the blocks may be divided such that overlapping sections are generated between the blocks.
However, the length of each block corresponding to the number of samples must be set to exceed the length required for deriving the filter in the
学習用信号ブロック分割部118bは、学習側入力部111より与えられた学習用信号から目的音の信号を取り出し、その目的音の信号を適当な区間毎に分割することで得られる信号である目的音ブロック信号を生成する第2のブロック分割部である。
例えば、学習用信号ブロック分割部118bは、一つの目的音を示す信号を複数のブロックに分割することで、複数の目的音ブロック信号を生成する。
目的音ブロック信号は、フィルタ推定部118c及びフィルタ適用部118dに与えられる。ブロックへの分割方法は、混合信号ブロック分割部118aにおける分割方法と同一である。The learning signal
For example, the learning signal
The target sound block signal is provided to the
フィルタ推定部118cは、複数の目的音ブロック信号の各々で示される音を、複数の混合ブロック信号で示される音の内、抽出すべき一つの目的音に対応する音に近づけるためのフィルタを推定することで、複数のフィルタを推定する。
例えば、フィルタ推定部118cは、混合信号ブロック分割部118aによってブロック単位に分割された混合ブロック信号と、学習用信号ブロック分割部118bによってブロック単位に分割された目的音ブロック信号とを、ブロック毎に、かつ、目的音毎に、目的音ブロック信号で示される音の、混合ブロック信号で示される音への変換を近似するフィルタのパラメタである変形パラメタを生成する。フィルタは、例えば、FIR(Finite Impulse Response)フィルタ、IIR(Infinitie Inpulse Response)フィルタ、又は、FFTを用いた周波数領域上におけるフィルタ等が使用されればよい。
なお、変形パラメタは、例えば、ブロック毎に異なっていてもよい。The
For example, the
Note that the deformation parameters may differ, for example, for each block.
フィルタ適用部118dは、複数の目的音ブロック信号の各々に、フィルタ推定部118cで推定された複数のフィルタの各々を適用することで、複数の変形ブロック信号を生成する。
例えば、フィルタ適用部118dは、学習用信号ブロック分割部118bから与えられる目的音ブロック信号に、フィルタ推定部118cで推定された、その目的音ブロック信号に対応する変形パラメタを適用した信号を変形ブロック信号として生成する。変形ブロック信号は、ブロック結合部118eに与えられる。The
For example, the
ブロック結合部118eは、フィルタ適用部118dから与えられる変形ブロック信号を結合して得られる信号である変形目的音信号を生成する。変形目的音信号は、図2に示されているモデル更新部119に与えられる。
なお、混合信号ブロック分割部118aと、学習用信号ブロック分割部118bとにおいて、複数のブロック間で重複する区間が生じるように分割が行われた場合には、ブロック結合部118eは、例えば、重み付け和を計算することで重複を解消してもよい。The
Note that when the mixed signal
混合信号ブロック分割部118a及び学習用信号ブロック分割部118bと、ブロック結合部118eとについては、これらを備えない構成としてもよい。すなわち、信号全体が単一のブロックとして扱われてもよい。
このような場合には、フィルタ推定部118cは、学習用信号で示される一つの目的音を、処理済学習用混合信号で示される複数の処理済目的音の内、その一つの目的音に対応する一つの処理済目的音に近づけるためのフィルタを推定する。
そして、フィルタ適用部は、学習用信号の内のその一つの目的音を示す信号に、フィルタ推定部118cで推定されたフィルタを適用することで、変形目的音信号を生成する。The mixed signal
In such a case, the
Then, the filter application unit generates a modified target sound signal by applying the filter estimated by the
図4は、音源分離モデル学習装置110のハードウェア構成を概略的に示すブロック図である。
音源分離モデル学習装置110は、記憶装置151と、メモリ152と、プロセッサ153と、通信インタフェース(以下、通信I/Fという)154とを備えるコンピュータ150により構成することができる。FIG. 4 is a block diagram schematically showing the hardware configuration of the sound source separation model learning device 110. As shown in FIG.
The sound source separation model learning device 110 can be configured by a
記憶装置151は、音源分離モデル学習装置110で行う処理に必要なプログラム及びデータを記憶する。
メモリ152は、プロセッサ153が作業を行う作業領域を提供する。
プロセッサ153は、記憶装置151に記憶されたプログラム及びデータを、メモリ152に展開して、処理を実行する。
通信I/F154は、音源分離装置130と通信を行う。The
The
Communication I/
例えば、混合信号生成部112、学習側信号処理部113、学習側特徴量抽出部114、学習側モデル推論部116、学習側信号抽出部117、信号変形部118及びモデル更新部119は、プロセッサ153が記憶装置151に記憶されたプログラム及びデータをメモリ152に展開して、そのプログラムを実行することで、実現することができる。
学習側音源分離モデル記憶部115は、記憶装置151により実現することができる。
学習側入力部111及び学習側通信部120は、通信I/F154により実現することができる。For example, the mixed
The learning-side sound source separation
The learning
以上のようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
なお、音源分離モデル学習装置110は、上記のようにプログラムで実現されてもよいし、音源分離モデル学習装置110で実行される機能毎に回路を構成して、それら回路を結合して実現されてもよい。
言い換えると、音源分離モデル学習装置110は、処理回路網により実現することもできる。The program as described above may be provided through a network, or may be provided by being recorded on a recording medium. That is, such programs may be provided as program products, for example.
Sound source separation model learning device 110 may be realized by a program as described above, or may be realized by forming a circuit for each function executed by sound source separation model learning device 110 and connecting the circuits. may
In other words, the sound source separation model learning device 110 can also be realized by a processing circuit network.
図5は、音源分離装置130の構成を概略的に示すブロック図である。
音源分離装置130は、活用側通信部131と、活用側音源分離モデル記憶部132と、活用側入力部133と、活用側信号処理部134と、活用側特徴量抽出部135と、活用側モデル推論部136と、活用側信号抽出部137と、活用側出力部138とを備える。FIG. 5 is a block diagram schematically showing the configuration of the sound
The sound
活用側通信部131は、音源分離モデル学習装置110と通信を行う。例えば、活用側通信部131は、音源分離モデル学習装置110から活用側音源分離モデルを受け取り、その活用側音源分離モデルを活用側音源分離モデル記憶部132に記憶させる。
The utilization
活用側音源分離モデル記憶部132は、活用側音源分離モデルを記憶する。
活用側入力部133は、対象混合信号の入力を受け付ける。入力された対象混合信号は、活用側信号処理部134に与えられる。
対象混合信号は、音源分離装置130に予め記憶されていてもよく、後述するマイク等の音響装置で取得されてもよいし、通信I/Fを介して電話回線等から取得されてもよい。このような場合には、活用側入力部133を省略することもできる。The utilization-side sound source separation
Utilization
The target mixed signal may be stored in advance in the sound
活用側信号処理部134は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する。
例えば、活用側信号処理部134は、活用側入力部133から与えられる対象混合信号に対して、目的音を取り出しやすくするため、種々の信号処理を適用した結果得られる処理済対象混合信号を生成する。ここで行われる処理は、音源分離モデル学習装置110の学習側信号処理部113で行われる処理と同じである。処理済対象混合信号は、活用側特徴量抽出部135に与えられる。The utilization-side
For example, the utilization-side
活用側特徴量抽出部135は、活用側信号処理部134から与えられる処理済対象混合信号から、音響特徴量を抽出して、抽出された音響特徴量の時系列データである活用特徴データを生成する。
例えば、活用側特徴量抽出部135は、処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、その抽出された活用音響特徴量の時系列データである活用特徴データを生成する。
ここで行われる処理は、音源分離モデル学習装置110の学習側特徴量抽出部114で行われる処理と同じである。活用特徴データは、活用側モデル推論部136に与えられる。The utilization-side feature
For example, the utilizing-side feature
The processing performed here is the same as the processing performed by the learning-side feature
活用側モデル推論部136は、活用側特徴量抽出部135から与えられる活用特徴データから、音源分離を行うために必要となる分離用特徴量である活用分離用特徴量を、活用側音源分離モデルを用いて抽出する。ここで行われる処理は、音源分離モデル学習装置110の学習側モデル推論部116で行われる処理と同じである。
そして、活用側モデル推論部136は、抽出された活用分離用特徴量の時系列データであるマスクを、活用マスクとして活用側信号抽出部137に与える。
言い換えると、活用側モデル推論部136は、複数の処理済目的音を抽出するために、活用特徴データの複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、活用特徴データから一つの処理済目的音を抽出するための活用マスクを、目的音毎に生成する。このため、複数の目的音の各々に各々が対応する複数の活用マスクが生成される。The utilizing-side
Then, the utilizing-side
In other words, in order to extract a plurality of processed target sounds, the utilizing-side
活用側信号抽出部137は、活用側特徴量抽出部135で抽出された音響特徴量の時系列データである活用特徴データと、活用側モデル推論部136で推定された活用分離用特徴量の時系列データである活用マスクとを用いて、取り出したい音響信号を抽出する。
例えば、活用側信号抽出部137は、活用マスクを用いて、活用特徴データから音を抽出することで、抽出された音を少なくとも示す活用抽出信号を生成する。
ここで行われる処理は、音源分離モデル学習装置110の学習側信号抽出部117で行われる処理と同じである。そして、活用側信号抽出部137は、抽出された音響信号である活用抽出信号を出力信号として活用側出力部138に与える。The utilizing-side
For example, the utilization-side
The processing performed here is the same as the processing performed by the learning-side
活用側出力部138は、活用側信号抽出部137から与えられた出力信号を出力する。
なお、活用側特徴量抽出部135と、活用側信号抽出部137とについては、例えば、その一方又は両方を備えない構成としてもよい。例えば、活用側特徴量抽出部135及び活用側信号抽出部137の両方を含まない場合、活用側モデル推論部136は、活用側信号処理部134から出力された処理済対象混合信号を処理して、分離音の信号を直接出力するように機能する。言い換えると、活用側モデル推論部136は、活用側信号処理部134から与えられる処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、処理済対象混合信号から音を抽出することで、抽出された音を示す活用抽出信号を生成する。The utilization-
For example, one or both of the utilization-side feature
図6は、音源分離装置130のハードウェア構成を概略的に示すブロック図である。
音源分離装置130は、記憶装置161と、メモリ162と、プロセッサ163と、通信I/F164と、音響インタフェース(以下、音響I/Fという)165とを備えるコンピュータ160により構成することができる。FIG. 6 is a block diagram schematically showing the hardware configuration of the sound
The sound
記憶装置161は、音源分離装置130で行う処理に必要なプログラム及びデータを記憶する。
メモリ162は、プロセッサ163が作業を行う作業領域を提供する。
プロセッサ163は、記憶装置161に記憶されたプログラム及びデータを、メモリ162に展開して、処理を実行する。
通信I/F164は、音源分離モデル学習装置110と通信を行う。
音響I/F165は、対象混合信号の入力を受け付ける。対象混合信号は、目的音を含む音を集音して対象音号信号を生成する音響装置で生成されればよい。The
The
Communication I/
Acoustic I/
例えば、活用側信号処理部134、活用側特徴量抽出部135、活用側モデル推論部136、活用側信号抽出部137及び活用側出力部138は、プロセッサ163が記憶装置161に記憶されたプログラム及びデータをメモリ162に展開して、そのプログラムを実行することで、実現することができる。
活用側音源分離モデル記憶部132は、記憶装置161により実現することができる。
活用側入力部133は、音響I/F165により実現することができる。
活用側通信部131は、通信I/F154により実現することができる。For example, the utilizing-side
The utilization-side sound source separation
The utilization
The utilization
以上のようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
なお、音源分離装置130は、上記のようにプログラムで実現してもよいし、音源分離装置130で実行される機能毎に回路を構成して、それら回路を結合して実現されてもよい。
言い換えると、音源分離装置130は、処理回路網により実現することもできる。The program as described above may be provided through a network, or may be provided by being recorded on a recording medium. That is, such programs may be provided as program products, for example.
Note that the sound
In other words, the sound
次に、動作について説明する。最初に、音源分離モデル学習装置110の動作について説明する。
図7は、音源分離モデル学習装置110の動作を示すフローチャートである。Next, operation will be described. First, the operation of the sound source separation model learning device 110 will be described.
FIG. 7 is a flowchart showing the operation of the sound source separation model learning device 110. As shown in FIG.
まず、混合信号生成部112が、学習用信号から学習に用いる混合信号である学習用混合信号を作成する(S10)。学習用混合信号は、音源分離装置130の活用側信号処理部134へ入力される活用混合信号を模擬して作成される。学習用混合信号は、例えば、学習用信号としての複数の目的音の信号及び非目的音の信号を単純に加算することで生成されてもよい。また、学習用混合信号は、マイクロホンアレイによる収録を模擬するため、学習用信号から取得された信号のそれぞれに対して、マイクロホンアレイのインパルス応答を畳み込む処理を実施した後、出力された信号を加算することで生成されてもよい。
First, the
次に、学習側信号処理部113は、混合信号生成部112から与えられた学習用混合信号に対して、各種の信号処理を適用する(S11)。ここでの処理内容は、音源分離装置130の活用側信号処理部134での処理内容と同一である。
Next, the learning-side
次に、信号変形部118は、学習用信号から得られた目的音を、学習側信号処理部113から与えられる処理済学習用混合信号に含まれている目的音を模した形へと変換することで、目的音毎に変形目的音信号を生成する(S12)。ステップS12での処理の詳細は、後述する。
Next, the
次に、学習側特徴量抽出部114は、学習側信号処理部113より与えられる処理済学習用混合信号から音響特徴量である学習用音響特徴量を抽出して、時系列データとすることで学習用特徴データを生成する(S13)。音響特徴量として、例えば、活用側信号処理部134からの処理済学習用混合信号に対してFFTを適用することによって得られる複素スペクトルが用いられる。ここでの処理内容は、音源分離装置130の活用側特徴量抽出部135での処理内容と同一である。
Next, the learning-side feature
次に、学習側モデル推論部116は、学習用音源分離モデルを用いて、学習側特徴量抽出部114にて抽出された音響特徴量から、各音源信号を分離合成するために必要となる分離用特徴量である学習分離用特徴量を抽出し、その学習分離用特徴量の時系列データであるマスクを生成する(S15)。マスクは、音源信号毎、言い換えると、目的音毎に生成される。ここでの処理内容は、音源分離装置130の活用側モデル推論部136での処理内容と同一である。
Next, the learning-side
次に、学習側信号抽出部117は、学習側特徴量抽出部114にて抽出された音響特徴量と、学習側モデル推論部116にて抽出された学習用分離用特徴量とを用いて、学習用混合信号の中に含まれる目的音を処理した音の信号である学習用抽出信号を抽出する(S15)。例えば、学習側信号抽出部117は、学習分離用特徴量と、学習用音響特徴量とを成分毎に積演算した後に、逆フーリエ変換の処理を施すことによって、取り出したい目的音に由来する音を抽出した信号である学習用抽出信号を、目的音毎に復元する。ここでの処理内容は、音源分離装置130の学習側信号抽出部117での処理内容と同一である。
Next, the learning-side
次に、モデル更新部119は、信号変形部118より与えられる複数の変形目的音信号と、学習側信号抽出部117より与えられる複数の学習用抽出信号との誤差を計算した後、その誤差を修正するように、学習用音源分離モデルの備える重みパラメタを更新する(S16)。
Next, the
続けて、信号変形部118の動作について説明する。
図8は、実施の形態1における信号変形部118の動作を示すフローチャートである。
まず、混合信号ブロック分割部118aが、学習側信号処理部113から与えられた処理済学習用混合信号を、時間軸上で1つ以上のブロックに分割することで混合ブロック信号を生成する(S20)。Next, the operation of the
FIG. 8 is a flow chart showing the operation of
First, the mixed signal
次に、学習用信号ブロック分割部118bは、学習側入力部111から与えられた学習用信号を、時間軸上で1つ以上のブロックに分割することで、目的音ブロック信号を生成する(S21)。学習用信号ブロック分割部118bにおける信号の分割方法は、ステップS20において混合信号ブロック分割部118aが行う分割方法と同一である。
Next, the learning signal
次に、フィルタ推定部118cは、フィルタを推定する(S22)。
ここでは、処理済学習用混合信号及び学習用信号が全て単一チャネルの音響信号であり、混合信号生成部112が学習用信号としてn個の目的音を示す信号を取得して混合信号を作成した場合を例に説明する。ここで、nは、1以上の整数である。Next, the
Here, the processed mixed signal for learning and the signal for learning are all single-channel acoustic signals, and the mixed
混合信号ブロック分割部118aから取得した混合ブロック信号をy(t)とする。ここで、tは、t=0,・・・,T-1(Tは2以上の整数)を満たす整数とする。
また、学習用信号ブロック分割部118bから取得したi番目の目的音の目的音ブロック信号をsi(t)とする。ここで、iは、1≦i≦nを満たす整数である。
さらに、フィルタ推定部118cで計算されるフィルタが長さLのFIRフィルタである場合において、i番目の目的音におけるFIRフィルタの係数を、hi(τ)とする。ここで、τは、τ=0,・・・,L-1を満たす整数とする。
このとき、混合ブロック信号y(t)は、以下の(1)式で近似される。
Let s i (t) be the target sound block signal of the i-th target sound obtained from the learning signal
Furthermore, when the filter calculated by the
At this time, the mixed block signal y(t) is approximated by the following equation (1).
ここで、(1)式の近似が二乗誤差規範でもっともよく成り立つ場合について考える。
すなわち、hi(τ)が、下記の(2)式の誤差関数を最小にする場合について考える。
That is, consider the case where h i (τ) minimizes the error function of the following equation (2).
このようなhi(τ)を求めるための手段として、まず、下記の(3)式に示されている行列Si∈R((T-L+1)×L)を定義する。
このとき、(2)式は、下記の(4)式で示す行列形式で表現することができる。
ここで、yは下記の(5)式、hiは下記の(6)式、Sは下記の(7)式、hは、下記の(8)式で表せる。
このとき、yを最小二乗誤差規範で最も良く近似するフィルタhiは、下記の(9)式で示される最適化問題の解となる。
そして、(9)式の最適化問題の解は、下記の(10)式で示される。
このような手順により、y(t)をよく近似するFIRフィルタの係数hi(t)が求められる。By such a procedure, the FIR filter coefficients h i (t) that closely approximate y(t) are obtained.
なお、行列STSは、しばしば条件数が大きく、数値安定的に最適化問題の解を得られない可能性がある。このため、下記の(11)式に示されているように、修正した最適化問題が解かれてもよい。
(11)式で示される最適化問題の解は、下記の(12)式で示される。
ここで、λは、任意に定めるハイパーパラメタであり、INLは、サイズNLの単位行列である。
行列STSと、STS+λINLとを比較すると、後者の方はより条件数が小さく、安定的に逆行列を計算することができる。where λ is an arbitrary hyperparameter and INL is an identity matrix of size NL .
Comparing the matrix STS with the matrix STS + λINL , the latter has a smaller condition number and can stably calculate the inverse matrix.
なお、上記ではy(t)及びsi(τ)は、学習用信号及び処理済学習用混合信号が、例えば、1つのマイクロホンのような単一の音響装置から取得された信号のように単一チャネルの信号であることを仮定していたが、実施の形態1はこのような例に限定されない。
例えば、学習用信号及び処理済学習用混合信号が、複数のマイクロホンを備えたマイクロホンアレイを用いて取得された多チャネルの信号であってもよい。この場合、フィルタ推定部118cが、多チャネルの目的音ブロック信号を受け取った場合には、代表的なチャネルの目的音ブロック信号を選択して、上記のフィルタ係数の計算を行えばよい。また、フィルタ推定部118cが、多チャンネルの混合ブロック信号を受け取った場合でも、代表的な混合ブロック信号を選択して、上記のフィルタ係数の計算を行えば良い。Note that y(t) and s i (τ) in the above are the training signal and the processed mixed training signal, for example, a signal acquired from a single sound device such as one microphone. Although it was assumed to be a single-channel signal,
For example, the training signal and the processed mixed training signal may be multi-channel signals acquired using a microphone array comprising a plurality of microphones. In this case, when the
次に、フィルタ適用部118dは、ステップS22でブロック毎に推定されたフィルタを、ステップS20で生成された目的音ブロック信号に適用することで、変形ブロック信号を生成する(S23)。
Next, the
最後に、ブロック結合部118eは、ブロック毎に分割された状態の変形ブロック信号を接合して、変形目的音信号を生成する(S24)。
Finally, the
図9は、音源分離装置130の動作を示すフローチャートである。
まず、活用側信号処理部134が、入力された対象混合信号に対し、各種の信号処理を適用して処理済対象混合信号を生成する(S30)。FIG. 9 is a flowchart showing the operation of the sound
First, the utilization-side
次に、活用側特徴量抽出部135は、活用側信号処理部134から与えられる処理済対象混合信号から音響特徴量を抽出し、抽出された音響特徴量の時系列データである活用特徴データを生成する(S31)。
Next, the utilization-side feature
次に、活用側モデル推論部136は、活用音源分離モデルを用いて、活用側特徴量抽出部135にて抽出された音響特徴量から、各音源信号を分離合成するために必要となる分離用特徴量の時系列データである活用マスクを、目的音毎に生成する(S32)。
Next, the utilization-side
次に、活用側信号抽出部137が、活用側特徴量抽出部135にて抽出された活用音響特徴量と、活用側モデル推論部136にて抽出された分離用特徴量とを用いて、対象混合信号の中に含まれる目的音の信号である出力信号を、目的音毎に生成する(S33)。
Next, the utilizing-side
次に、音源分離モデル学習装置110の動作例について述べる。
図10は、音源分離モデル学習装置110の動作を示す概念図である。
第1の信号170は、学習用信号から取得された第1の目的音を示す信号、第2の信号171は、学習用信号から取得された第2の目的音を示す信号であり、第3の信号172は、学習用信号から取得された非目的音を示す信号である。Next, an operation example of the sound source separation model learning device 110 will be described.
FIG. 10 is a conceptual diagram showing the operation of the sound source separation model learning device 110. As shown in FIG.
A
混合信号生成部112は、例えば、第1の信号170、第2の信号171及び第3の信号172を単純加算することで、疑似的な学習用混合信号173を作成する。
学習用混合信号173には、第1の信号170に由来する第1の成分170#1、第2の信号171に由来する第2の成分171#1、及び、第3の信号172に由来する第3の成分172#1が含まれる。The
The learning
学習用混合信号173が学習側信号処理部113を通過することで、処理済学習用混合信号173#が得られる。この際、第1の目的音に由来する第1の成分170#1は、第4の成分170#2のように、第2の目的音に由来する第2の成分171#1は、第5の成分171#2のように、非目的音に由来する第3の成分172#1は、第6の成分172#2のように、処理済学習用混合信号173#の中で現れる。
By passing learning
処理済学習用混合信号173#に対して、第1の目的音及び第2の目的音に対応する音を抽出するために、学習側特徴量抽出部114、学習側モデル推論部116及び学習側信号抽出部117での処理を適用することで、第1の目的音に対応する第1の学習用抽出信号174及び第2の目的音に対応する第2の学習用抽出信号175が得られる。
In order to extract sounds corresponding to the first target sound and the second target sound from the processed learning
さらに、信号変形部118は、第1の信号170及び第2の信号171と、処理済学習用混合信号173#とにより、第1の信号170を第4の成分170#2へ変化させるフィルタ及び第2の信号171を第5の成分171#2へ変化させるフィルタを推定する。そして、信号変形部118は、第1の信号170及び第2の信号171にそれぞれのフィルタを適用して、第1の変形目的音信号176及び第2の変形目的音信号177を生成する。
Further, the
モデル更新部119は、第1の学習用抽出信号174及び第2の学習用抽出信号175の組が、第1の変形目的音信号176及び第2の変形目的音信号177の組に近づくよう、学習用音源分離モデルのパラメタを更新する。
The
次に、音源分離モデル学習装置110により学習された音源分離モデルを用いる際の、音源分離装置130の動作例について述べる。
図11(A)及び(B)は、音源分離装置130の動作例を説明するための概略図である。Next, an operation example of the sound
11A and 11B are schematic diagrams for explaining an operation example of the sound
図11(A)は、音源分離装置130により、入力された対象混合信号の波形がどのように変化するかを示す概念図である。
図11(A)に示されている対象混合信号180には、第1の目的音に由来する第1の成分181、第2の目的音に由来する第2の成分182、及び、非目的音に由来する第3の成分183が含まれる。FIG. 11A is a conceptual diagram showing how the waveform of the input target mixed signal is changed by the sound
The target
対象混合信号180が活用側信号処理部134を通過すると、処理済対象混合信号180#が得られる。処理済対象混合信号180#には、第1の成分181に由来する第4の成分181#、第2の成分に由来する第5の成分182#、及び、第3の成分183に由来する第6の成分183#が含まれる。
When target
活用側信号処理部134では、非目的音を抑圧する処理が行われることから、非目的音に由来する第3の成分183と比較して、第6の成分183#の音量が下がっている。また、第1の目的音に由来する第1の成分181及び第2の目的音に由来する第2の成分182と比較して、第4の成分181#及び第5の成分182#は、強調されている。さらに、第4の成分181#及び第5の成分182#は、信号処理に伴って、音量及び波形の形状(周波数特性)等が変化しているほか、活用側信号処理部134にて生じる遅延に伴い、対象混合信号180と、処理済対象混合信号180#との間で時刻の同期がずれた状態となる。
Since processing for suppressing the non-target sound is performed in the utilization-side
処理済対象混合信号180#に対して、活用側特徴量抽出部135、活用側モデル推論部136及び活用側信号抽出部137での処理を適用することにより、第1の出力信号184及び第2の出力信号185が得られる。第1の出力信号184は、第1の目的音に対応する成分を、第2の出力信号185は、第2の目的音に対応する成分を、それぞれ抽出したものである。
A
図11(B)は、対象混合信号180とは異なる対象混合信号186に対し、同様の信号処理を適用した場合について示した概念図である。
処理済対象混合信号180#と、処理済対象混合信号186#とを比較すると、波形の変化及び音量の変化が異なっている。このため、第1の出力信号187及び第2の出力信号188の波形及び音量も、第1の出力信号184及び第2の出力信号185とは異なっている。FIG. 11B is a conceptual diagram showing a case where similar signal processing is applied to a target
Comparing the processed target
このように、活用側信号処理部134へ入力される対象混合信号の特徴、活用側信号処理部134の処理内容の変化等によって、処理済対象混合信号の特徴にも変動があり、信号処理後の状態を考慮して生成された学習モデルを用いることで、音源を精度よく分離できる。
In this way, due to changes in the characteristics of the target mixed signal input to the utilization-side
なお、音源分離モデル学習装置110において、学習側信号処理部113を省略し、信号変形部118において学習用信号の変形を行わない構成とする場合を考えることができる。このような音源分離モデル学習装置及び学習方法は、従来から知られている。
In addition, in the sound source separation model learning device 110, a configuration can be considered in which the learning-side
この場合、学習側モデル推論部116は、図10に示されている学習用混合信号173より抽出された特徴量から、第1の目的音の第1の信号170及び第2の目的音の第2の信号171を分離するための分離用特徴量が得られるように学習を行う。
しかしながら、音源分離装置130を動作させる場合、図11(A)に示されているように、活用側モデル推論部136には処理済対象混合信号180#より抽出された特徴量が入力される。
学習用混合信号173から抽出される特徴量と、処理済対象混合信号180#から抽出される特徴量では、種々の特性が異なっている。音源分離モデルは、処理済対象混合信号180#から抽出される特徴量が入力されることを前提に学習されていないため、分離性能の悪化が生じる。In this case, the learning-side
However, when operating the sound
Various characteristics are different between the feature amount extracted from the learning
また、音源分離モデル学習装置110において、学習側信号処理部113を省略しないものの、信号変形部118において学習用信号の変形を行わない構成をとることも考えられる。
この場合、学習側モデル推論部116は、処理済学習用混合信号173#より抽出された特徴量から、第1の目的音の第1の信号170及び第2の目的音の第2の信号171を分離するための分離用特徴量が得られるように学習される。そして、学習側モデル推論部116は、処理済学習用混合信号173#から抽出される特徴量が入力されることを前提として音源分離モデルを学習させるため、上記で述べたような問題を解決できる。Further, in the sound source separation model learning apparatus 110, it is conceivable to adopt a configuration in which the learning
In this case, the learning-side
しかしながら、図11(A)に示されている、理済対象混合信号180#に含まれる第4の成分181#及び第5の成分182#と、図10に示されている象混合信号180に含まれている第1の成分181及び第2の成分182とでは、音量、周波数特性及び遅延等の特性が異なっている。
このため、音源分離モデルは、このような多様な特性の変化を打ち消して元の信号を出力するように学習される。しかし、上述のように、このような特性の変化は、どのような信号が活用側信号処理部134に入力されるかによって、又は、時間が経過するにつれて、変化するものである。そのような多様な特性変化を吸収できるように音源分離モデルを学習させることは難しい。However, the
For this reason, the sound source separation model is learned so as to cancel such changes in various characteristics and output the original signal. However, as described above, such changes in characteristics change depending on what kind of signal is input to the utilization-side
音源分離モデル学習装置110において、学習側信号処理部113と、信号変形部118とを共に機能させ、音源分離モデルが第1の変形目的音信号176及び第2の変形目的音信号177を分離するための特徴量を出力するように学習させることで、音源分離モデルは特性変化を加味した結果を出力するように学習すればよくなる。
信号変形部118において学習用信号の変形を行わない構成の場合には、特性変化を打ち消して元に戻した結果を出力するように音源分離モデルを学習させる必要があったところ、このような条件とすることで、特性変化を打ち消した結果を出力するように学習させる必要がなくなるため、学習が簡単になり、結果として音源分離出力の品質が向上する。In the sound source separation model learning device 110, the learning-side
In the case of a configuration in which the
図12は、音源分離装置130の利用例を示す概略図である。
図12は、車両190に設置されたマイクロホン191A、191B、191Cにおいて、運転席話者192が発する音声、助手席話者193が発する音声、及び、車両走行音又はカーステレオ等から発せられる騒音194が同時に観測される状況を表している。このとき、音源分離装置130を用いて、運転席話者192の発した音声と、助手席話者193の発した音声とを、それぞれ取り出す場合について説明する。FIG. 12 is a schematic diagram showing a usage example of the sound
FIG. 12 shows a sound uttered by a
運転席話者192の発した音声が、図11(A)に示されている第1の目的音の第1の成分181に、助手席話者193の発した音声が、第2の目的音の第2の成分182に、各種騒音194が、非目的音の第3の成分183に相当する。また、マイクロホン191A、191B、191Cで収録された信号が、対象混合信号180に相当する。
音源分離装置130において、活用側信号処理部134の出力する処理済対象混合信号180#では、騒音194に相当する第6の成分183#が抑圧されている。The voice uttered by the driver's
In the sound
活用側音源分離モデルを適用後、活用側信号抽出部137において抽出された結果が、第1の出力信号184及び第2の出力信号185に対応する。これらの信号では、運転席及び助手席の各音声が強調されている。
After applying the utilization-side sound source separation model, the results extracted by the utilization-side
活用側音源分離モデルは、音源分離モデル学習装置110によって、運転席側と助手席側の話者のそれぞれの音声について、騒音194を抑制するような信号処理を行った際の変形された第1の変形目的音信号176及び第2の変形目的音信号177を考慮して生成されているため、実際に運転席の音声、助手席の音声及び騒音194が混合した状態から、運転席と助手席とに座った2人の話者の音声を適切に分離することができる。
The utilization-side sound source separation model is a modified first sound source obtained when the sound source separation model learning device 110 performs signal processing for suppressing the
また、車両内に限らず、会議中の録音記憶から出席者の発言を取り出す場合であっても、音源分離モデル学習装置で出席者の音声について学習して音源分離モデルを生成すれば、会議と関係ない周辺の雑音を除去する信号処理を行った上で当該音源分離モデルを用いれば、各出席者の音声を分離することができる。 In addition, not only in a vehicle but also in the case of retrieving attendees' utterances from recording memory during a meeting, if the sound source separation model learning device learns the attendee's voice and generates a sound source separation model, If the sound source separation model is used after performing signal processing to remove irrelevant surrounding noise, the voice of each attendee can be separated.
以上のように、実施の形態1によれば、音源分離装置130が音源分離モデルを用いて音源分離を実施する際に、活用側信号処理部134に伴って生じる音響的特性の変化に音源分離モデルが対応し、この結果として音源分離装置130から出力される分離音の品質が向上する。
As described above, according to
また、混合信号ブロック分割部118a、学習用信号ブロック分割部118b及びブロック結合部118eを設けることによる効果として、ブロック毎に異なるフィルタのパラメタを出力することにより、時系列的な変化に対応できるようになる。
Further, as an effect of providing the mixed signal
実施の形態2.
実施の形態1では、混合信号ブロック分割部118a及び学習用信号ブロック分割部118bで分割したブロック毎に、フィルタ推定部118cがフィルタを推定している。実施の形態2では、ブロック毎ではなく、1つのブロック内の時刻毎に異なるフィルタを推定する、言い換えると、フィルタを逐次的に更新することによって、ブロック内の時系列的な変化に対応できるようにする。
In
図1に示されているように、実施の形態2に係る音源分離システム200は、音源分離モデル学習装置210と、音源分離装置130とを備える。
実施の形態2における音源分離装置130は、実施の形態1における音源分離装置130と同様である。As shown in FIG. 1 , a sound
The sound
図2に示されているように、実施の形態2における音源分離モデル学習装置210は、学習側入力部111と、混合信号生成部112と、学習側信号処理部113と、学習側特徴量抽出部114と、学習側音源分離モデル記憶部115と、学習側モデル推論部116と、学習側信号抽出部117と、信号変形部218と、モデル更新部119と、学習側通信部120とを備える。
実施の形態2における学習側入力部111、混合信号生成部112、学習側信号処理部113、学習側特徴量抽出部114、学習側音源分離モデル記憶部115、学習側モデル推論部116、学習側信号抽出部117、モデル更新部119及び学習側通信部120は、実施の形態1における学習側入力部111、混合信号生成部112、学習側信号処理部113、学習側特徴量抽出部114、学習側音源分離モデル記憶部115、学習側モデル推論部116、学習側信号抽出部117、モデル更新部119及び学習側通信部120と同様である。As shown in FIG. 2, the sound source separation model learning apparatus 210 according to
Learning-
図13は、実施の形態2における信号変形部218の構成を概略的に示すブロック図である。
信号変形部218は、混合信号ブロック分割部118aと、学習用信号ブロック分割部118bと、フィルタ適用部218dと、ブロック結合部118eと、フィルタパラメタ記憶部218fと、フィルタ更新部218gとを備える。FIG. 13 is a block diagram schematically showing the configuration of
The
実施の形態2における混合信号ブロック分割部118a、学習用信号ブロック分割部118b及びブロック結合部118eは、実施の形態1における混合信号ブロック分割部118a、学習用信号ブロック分割部118b及びブロック結合部118eと同様である。
The mixed signal
フィルタパラメタ記憶部218fは、フィルタ適用部218dで使用するフィルタパラメタを記憶する。
例えば、フィルタパラメタ記憶部218fは、予め定められた期間に対応するサンプル毎にフィルタパラメタを記憶する。The filter
For example, the filter
フィルタ適用部218dは、複数の目的音ブロック信号に対して、フィルタパラメタ記憶部218fに記憶されているフィルタパラメタを適用することで、フィルタパラメタの対応する時刻における処理済サンプル信号を生成する。処理済サンプル信号は、フィルタ更新部218gに与えられる。言い換えると、フィルタ適用部218dは、サンプル毎に、複数の目的音ブロック信号から選択された部分にフィルタパラメタを適用することで処理済みサンプル信号を生成する。
The
また、フィルタ適用部218dは、生成された処理済サンプル信号を、複数の目的音ブロック信号の各々で結合することで、複数の変形ブロック信号を生成する。複数の変形ブロック信号は、ブロック結合部118eに与えられる。
Further, the
フィルタ更新部218gは、フィルタ適用部218dから与えられる処理済サンプル信号を、処理済学習用混合信号の対応する部分に近づけるように、フィルタパラメタ記憶部218fに記憶されているフィルタパラメタを更新する。
The
図14は、実施の形態2における信号変形部218の動作を示すフローチャートである。
なお、図14に示されているフローチャートに含まれているステップの内、図8に示されているフローチャートに含まれているステップの処理と同様の処理を行うステップには、図8に示されているフローチャートに含まれているステップと同じ符号を付している。FIG. 14 is a flow chart showing the operation of
Among the steps included in the flowchart shown in FIG. 14, the steps that perform the same processing as the steps included in the flowchart shown in FIG. The same reference numerals as the steps included in the flow chart are attached.
図14に示されているフローチャートに含まれているステップS20及びS21での処理は、図8に示されているフローチャートに含まれているステップS20及びS21での処理と同様である。但し、図14においては、ステップS21の処理の後は、処理はステップS40に進む。 The processes in steps S20 and S21 included in the flowchart shown in FIG. 14 are the same as the processes in steps S20 and S21 included in the flowchart shown in FIG. However, in FIG. 14, after the process of step S21, the process proceeds to step S40.
ステップS40では、フィルタ適用部218dは、学習用信号ブロック分割部118bから受け取った複数の目的音ブロック信号から、未選択の1つの目的音ブロック信号を選択する。
In step S40, the
次に、フィルタ更新部218gは、フィルタパラメタの初期値を決定して、その初期値をフィルタパラメタ記憶部218fに記憶する(S41)。フィルタ適用部218dで使用されるフィルタがFIRフィルタである場合、フィルタ更新部218gは、例えば、図8に示されているフローチャートのステップS22での処理と同様の処理を行うことで、フィルタパラメタの初期値を推定すればよい。
Next, the
次に、フィルタ適用部218dは、ステップS40で選択された目的音ブロック信号の内、処理済サンプル信号が未だ生成されていないサンプルの中で先頭に位置するサンプルを選択する(S42)。
Next, the
次に、フィルタ適用部218dは、フィルタパラメタ記憶部218fに記憶されているフィルタパラメタを読み出して、読み出されたフィルタパラメタを、目的音ブロック信号の内の選択されたサンプルに対応する部分に適用することで、処理済サンプル信号を生成する(S43)。生成された処理済サンプル信号は、フィルタ更新部218gに与えられる。
Next, the
次に、フィルタ更新部218gは、フィルタ適用部218dからの処理済サンプル信号、混合信号ブロック分割部118aからの混合ブロック信号、及び、学習用信号ブロック分割部118bからの目的音ブロック信号を用いて、フィルタパラメタ記憶部218fに記憶されているフィルタパラメタを更新する(S44)。例えば、フィルタがFIRフィルタである場合、フィルタパラメタの更新方法として、公知のNLMS(Normalized Least Mean Square)アルゴリズム、又は、RLS(Recursive Least Square)アルゴリズム等が使用できる。なお、フィルタ更新部218gが更新を行なう際に、フィルタ適用部218dでの処理が必要となる場合がある。
Next, the
次に、フィルタ適用部218dは、選択された目的音ブロック信号に含まれている全てのサンプルから処理済サンプル信号を生成したか否かを判断する(S45)。全てのサンプルから処理済サンプル信号が生成されている場合(S45でYes)には、処理はステップS46に進み、処理済サンプル信号が生成されていないサンプルが残っている場合(S45でNo)には、処理はステップS42に戻る。
Next, the
ステップS46では、フィルタ適用部218dは、サンプル毎に生成された処理済みサンプル信号を連結することで変形ブロック信号を生成する。変形ブロック信号は、ブロック結合部118eに与えられる。
In step S46, the
次に、フィルタ適用部218dは、学習用信号ブロック分割部118bから与えられた全ての目的音ブロック信号を選択したか否かを判断する(S47)。全ての目的音ブロック信号を選択した場合(S47でYes)には、処理はステップS24に進み、未だ選択していない目的音ブロック信号が残っている場合(S47でNo)には、処理はステップS40に戻る。
Next, the
そして、ブロック結合部118eは、図8のステップS24での処理と同様に、ブロック毎に分割された状態の変形ブロック信号を接合して、変形目的音信号を生成する(S24)。
Then, the
以上のように、実施の形態2によれは、フィルタが逐次的に更新されるため、学習側信号処理部113及び活用側信号処理部134が適応的な処理を行う場合でも、学習側信号処理部113及び活用側信号処理部134の時系列的な変化に対応することができる。
As described above, according to
なお、実施の形態2では、フィルタ更新部218g及びフィルタ適用部218dが1サンプル毎にフィルタを更新し、変形ブロック信号を生成しているため、混合信号ブロック分割部118a、学習用信号ブロック分割部118b及びブロック結合部118eは、設けられていなくてもよい。
このような場合には、フィルタ適用部218dは、抽出すべき目的音を示す信号に対し、フィルタパラメタ記憶部218fに記憶されているフィルタパラメタを適用することで、各々のフィルタパラメタが対応する時刻における処理済サンプル信号を生成する。
フィルタ更新部218gは、処理済サンプル信号を、処理済学習用混合信号の対応する部分に近づけるように、フィルタパラメタを更新する。
そして、フィルタ適用部218dは、生成された処理済みサンプル信号を結合することで、変形目的音信号を生成する。In
In such a case, the
The
Then, the
一方で、混合信号ブロック分割部118a、学習用信号ブロック分割部118b及びブロック結合部118eを設けることで、ブロック単位でフィルタ適用処理を並列に行って処理速度を向上させたり、ブロック単位でフィルタパラメタの候補グループを作成して、1サンプル毎のパラメタ抽出時にそのグループからパラメタを探索することで、パラメタ抽出速度を向上させたりすることができる。
On the other hand, by providing the mixed signal
例えば、FIRフィルタが使用される場合、フィルタを推定するためには,ブロック分割時に各ブロックの長さをフィルタの長さよりも長く設定する必要がある。このため、実施の形態1のように、ブロック毎にフィルタを推定する場合は、学習側信号処理部113及び活用側信号処理部134の時系列的な変化に、少なくともFIRフィルタの長さの時間単位でなければ追従できない。一方で、実施の形態2のように、サンプル毎にフィルタを推定することで、学習側信号処理部113及び活用側信号処理部134の時系列的な変化に、サンプル毎の時間単位で、より細かく追従することができる。
For example, if an FIR filter is used, the length of each block should be set longer than the length of the filter during block division in order to estimate the filter. Therefore, when estimating a filter for each block as in
また、実施の形態2のように、フィルタパラメタ記憶部218fを備えることで、フィルタ更新部218gは、直前のフィルタ推定結果をフィルタパラメタ記憶部218fに保持しておいた上で、新たにサンプルが得られた際に、フィルタパラメタ記憶部218fに記録されているフィルタパラメタを、選択されたサンプルに応じ少しだけ変形させてから適用することができる。
Further, by providing the filter
以上に記載された音源分離モデル学習装置110、210は、NNに基づく音源分離手法と、古典的な信号処理、機械学習を用いた処理又は未知の信号処理等に基づく信号処理手法を組み合わせた音源分離装置130を構成する際において、音源分離モデルの学習を促進し、音源分離性能を向上させる効果を有する。このため、例えば、騒音環境下で音声を認識させる装置において、古典的信号処理と、NNに基づく音源分離とを組み合わせて目的話者の発話音声を取り出すために使用することができる。なお、未知の信号処理には、古典的な信号処理又は機械学習を用いた処理が含まれてもよい。
The sound source separation model learning devices 110 and 210 described above combine a sound source separation method based on NN and a signal processing method based on classical signal processing, processing using machine learning, or unknown signal processing. This has the effect of promoting the learning of the sound source separation model and improving the sound source separation performance when configuring the
以上に記載された実施の形態1及び2は、音源分離モデル学習装置110、210及び音源分離装置130の二つの装置で構成されているが、実施の形態1及び2は、このような例に限定されない。例えば、音源分離モデル学習装置110、210及び音源分離装置130が一つの装置、例えば、一つの音源分離学習装置で構成されていてもよい。このような場合には、学習側通信部120及び活用側通信部131は、不要であり、学習側音源分離モデル記憶部115及び活用側音源分離モデル記憶部132は、音源分離モデルを記憶する音源分離モデル記憶部として統合することができる。
Embodiments 1 and 2 described above are composed of two devices, the sound source separation model learning devices 110 and 210 and the sound
100,200 音源分離システム、 110,210 音源分離モデル学習装置、 111 学習側入力部、 112 混合信号生成部、 113 学習側信号処理部、 114 学習側特徴量抽出部、 115 学習側音源分離モデル記憶部、 116 学習側モデル推論部、 117 学習側信号抽出部、 118,218 信号変形部、 118a 混合信号ブロック分割部、 118b 学習用信号ブロック分割部、 118c フィルタ推定部、 118d,218d フィルタ適用部、 118e ブロック結合部、 218f フィルタパラメタ記憶部、 218g フィルタ更新部、 119 モデル更新部、 120 学習側通信部、 130 音源分離装置、 131 活用側通信部、 132 活用側音源分離モデル記憶部、 133 活用側入力部、 134 活用側信号処理部、 135 活用側特徴量抽出部、 136 活用側モデル推論部、 137 活用側信号抽出部、 138 活用側出力部。
100, 200 sound source separation system 110, 210 sound source separation
Claims (19)
前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部と、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えること
を特徴とする音源分離モデル学習装置。 performing predetermined processing on a mixed learning signal representing at least a plurality of target sounds to generate a processed mixed learning signal representing at least a plurality of processed target sounds derived from the plurality of target sounds; a learning-side signal processing unit;
extracting sounds from the processed learning mixed signal using a training-side sound source separation model for extracting the plurality of processed target sounds, thereby representing the extracted sounds and the plurality of processed target sounds; a learning-side model inference unit that generates a plurality of training extraction signals each corresponding to each sound;
for a signal indicating one of the plurality of target sounds, one of the plurality of processed target sounds corresponding to the one target sound. a signal transformation unit that generates a plurality of transformed target sound signals each representing a plurality of transformed target sounds each derived from each of the plurality of target sounds by performing transformation processing to approximate to
a model updating unit that updates the learning-side sound source separation model using the plurality of learning extraction signals and the plurality of modified target sound signals so that the extracted sound approaches the plurality of modified target sounds; A sound source separation model learning device comprising:
前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部と、
前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部と、
前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部と、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えること
を特徴とする音源分離モデル学習装置。 performing predetermined processing on a mixed learning signal representing at least a plurality of target sounds to generate a processed mixed learning signal representing at least a plurality of processed target sounds derived from the plurality of target sounds; a learning-side signal processing unit;
for learning, which is time-series data of the extracted learning acoustic feature quantity, by extracting a learning acoustic feature quantity, which is a predetermined acoustic feature quantity, in a plurality of components from the processed mixed signal for learning; a learning-side feature quantity extraction unit that generates feature data;
Each of the plurality of processed target sounds is extracted from the learning feature data using a learning-side sound source separation model that indicates a weight for each of the plurality of components for extracting the plurality of processed target sounds. a learning-side model inference unit that generates a plurality of learning masks for
a plurality of learning extractions each representing the extracted sound and corresponding to each of the plurality of processed target sounds by extracting sounds from the learning feature data using the plurality of learning masks; a learning-side signal extraction unit that generates a signal;
for a signal indicating one of the plurality of target sounds, one of the plurality of processed target sounds corresponding to the one target sound. a signal transformation unit that generates a plurality of transformed target sound signals each representing a plurality of transformed target sounds each derived from each of the plurality of target sounds by performing transformation processing to approximate to
a model updating unit that updates the learning-side sound source separation model using the plurality of learning extraction signals and the plurality of modified target sound signals so that the extracted sound approaches the plurality of modified target sounds; A sound source separation model learning device comprising:
を特徴とする請求項1又は2に記載の音源分離モデル学習装置。 3. The sound source separation model learning device according to claim 1, wherein the predetermined process is a process for facilitating extraction of the plurality of target sounds.
を特徴とする請求項1から3の何れか一項に記載の音源分離モデル学習装置。 The sound source separation model learning device according to any one of claims 1 to 3, wherein the predetermined process is a process of emphasizing the plurality of target sounds.
前記一つの目的音を前記一つの処理済目的音に近づけるためのフィルタを推定するフィルタ推定部と、
前記一つの目的音を示す信号に前記フィルタを適用することで、前記変形目的音信号を生成するフィルタ適用部と、を備えること
を特徴とする請求項1から4の何れか一項に記載の音源分離モデル学習装置。 The signal transforming unit
a filter estimation unit for estimating a filter for approximating the one target sound to the one processed target sound;
5. The method according to any one of claims 1 to 4, further comprising a filter applying unit that generates the modified target sound signal by applying the filter to the signal indicating the one target sound. Sound source separation model learning device.
前記処理済学習用混合信号を複数のブロックに分割することで、複数の混合ブロック信号を生成する第1のブロック分割部と、
前記一つの目的音を示す信号を複数のブロックに分割することで、複数の目的音ブロック信号を生成する第2のブロック分割部と、
前記複数の目的音ブロック信号の各々で示される音を、前記複数の混合ブロック信号で示される音の内、前記一つの目的音に対応する音に近づけるためのフィルタを推定することで、複数のフィルタを推定するフィルタ推定部と、
前記複数の目的音ブロック信号の各々に、前記複数のフィルタの各々を適用することで、複数の変形ブロック信号を生成するフィルタ適用部と、
前記複数の変形ブロック信号を結合することで、前記変形目的音信号を生成するブロック結合部と、を備えること
を特徴とする請求項1から4の何れか一項に記載の音源分離モデル学習装置。 The signal transforming unit
a first block dividing unit that generates a plurality of mixed block signals by dividing the processed learning mixed signal into a plurality of blocks;
a second block dividing unit that generates a plurality of target sound block signals by dividing the signal indicating the one target sound into a plurality of blocks;
estimating a filter for approximating the sound indicated by each of the plurality of target sound block signals to the sound corresponding to the one target sound among the sounds indicated by the plurality of mixed block signals; a filter estimation unit that estimates a filter;
a filter application unit that generates a plurality of modified block signals by applying each of the plurality of filters to each of the plurality of target sound block signals;
The sound source separation model learning device according to any one of claims 1 to 4, further comprising a block combiner configured to generate the deformed target sound signal by combining the plurality of deformed block signals. .
予め定められた期間に対応するサンプル毎にフィルタパラメタを記憶するフィルタパラメタ記憶部と、
前記サンプル毎に、前記一つの目的音を示す信号から選択された部分に前記フィルタパラメタを適用することで、処理済サンプル信号を生成するとともに、前記処理済みサンプル信号を結合することで前記変形目的音信号を生成するフィルタ適用部と、
前記処理済サンプル信号を、前記処理済学習用混合信号の対応する部分に近づけるように、前記フィルタパラメタを更新するフィルタ更新部と、を備えること
を特徴とする請求項1から4の何れか一項に記載の音源分離モデル学習装置。 The signal transforming unit
a filter parameter storage unit that stores filter parameters for each sample corresponding to a predetermined period;
applying the filter parameters to selected portions of the signal representing the one target sound for each of the samples to generate a processed sample signal; a filter application unit that generates a sound signal;
5. The filter updating unit that updates the filter parameter so that the processed sample signal approaches the corresponding part of the processed mixed signal for learning. The sound source separation model learning device according to the item.
前記処理済学習用混合信号を複数のブロックに分割することで、複数の混合ブロック信号を生成する第1のブロック分割部と、
前記一つの目的音を示す信号を複数のブロックに分割することで、複数の目的音ブロック信号を生成する第2のブロック分割部と、
予め定められた期間に対応するサンプル毎にフィルタパラメタを記憶するフィルタパラメタ記憶部と、
前記サンプル毎に、前記一つの目的音を示す信号から選択された部分に前記フィルタパラメタを適用することで、処理済サンプル信号を生成するとともに、前記処理済みサンプル信号を、前記複数の目的音ブロック信号の各々で結合することで、複数の変形ブロック信号を生成するフィルタ適用部と、
前記処理済サンプル信号を、前記処理済学習用混合信号の対応する部分に近づけるように、前記フィルタパラメタを更新するフィルタ更新部と、
前記複数の変形ブロック信号を結合することで、前記変形目的音信号を生成するブロック結合部と、を備えること
を特徴とする請求項1から4の何れか一項に記載の音源分離モデル学習装置。 The signal transforming unit
a first block dividing unit that generates a plurality of mixed block signals by dividing the processed learning mixed signal into a plurality of blocks;
a second block dividing unit that generates a plurality of target sound block signals by dividing the signal indicating the one target sound into a plurality of blocks;
a filter parameter storage unit that stores filter parameters for each sample corresponding to a predetermined period;
generating a processed sample signal by applying the filter parameter to a selected portion of the signal representing the one target sound for each of the samples, and applying the processed sample signal to the plurality of target sound blocks; a filter applicator configured to combine on each of the signals to generate a plurality of deformed block signals;
a filter updating unit that updates the filter parameter so that the processed sample signal approaches the corresponding portion of the processed mixed signal for learning;
The sound source separation model learning device according to any one of claims 1 to 4, further comprising a block combiner configured to generate the deformed target sound signal by combining the plurality of deformed block signals. .
を特徴とする請求項1から8の何れか一項に記載の音源分離モデル学習装置。 9. The model updating unit updates the learning-side sound source separation model so that a difference between the plurality of learning extraction signals and the plurality of deformation target sound signals becomes smaller. The sound source separation model learning device according to any one of 1.
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部と、を備えること
を特徴とする音源分離装置。 A utilization side that generates a processed target mixed signal representing at least a plurality of processed target sounds derived from the plurality of target sounds by performing predetermined processing on a target mixed signal representing at least a plurality of target sounds. a signal processing unit;
A processed mixed signal indicating at least a plurality of target sounds is subjected to predetermined processing, thereby indicating at least a plurality of processed target sounds derived from the plurality of target sounds indicated by the mixed learning signal. generating a training mixture signal and extracting sounds from the processed training mixture signal using a training-side source separation model for extracting a plurality of processed target sounds indicated by the processed training mixture signal; a plurality of learning extraction signals each representing the extracted sound and corresponding to each of a plurality of processed target sounds indicated by the processed learning mixed signal; for a signal indicating one target sound out of the plurality of target sounds indicated, the one target sound is converted to the one target sound out of the plurality of processed target sounds indicated by the processed mixed signal for learning A plurality of deformed target sounds each representing a plurality of deformed target sounds each derived from each of the plurality of target sounds represented by the learning mixed signal by performing deformation processing for approximating one processed target sound corresponding to the sound. and using the plurality of learning extraction signals and the plurality of deformation target sound signals, the learning-side sound source is adjusted so that the extracted sound approaches the plurality of deformation target sounds Extracting sounds from the processed target mixed signal using a utilization-side source separation model for extracting a plurality of processed target sounds indicated by the processed target mixed signal generated by updating the separation model. By doing so, the utilization side generates a plurality of utilization extraction signals each representing a sound extracted from the processed target mixed signal and corresponding to each of the plurality of processed target sounds indicated by the processed target mixed signal. A sound source separation device comprising: a model inference unit;
前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部と、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部と、
前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部と、を備えること
を特徴とする音源分離装置。 A utilization side that generates a processed target mixed signal representing at least a plurality of processed target sounds derived from the plurality of target sounds by performing predetermined processing on a target mixed signal representing at least a plurality of target sounds. a signal processing unit;
Generating utilized feature data, which is time-series data of the extracted utilized acoustic features, by extracting utilized acoustic features, which are predetermined acoustic features, from the processed target mixed signal in a plurality of components. a utilization-side feature quantity extraction unit that
A processed mixed signal indicating at least a plurality of target sounds is subjected to predetermined processing, thereby indicating at least a plurality of processed target sounds derived from the plurality of target sounds indicated by the mixed learning signal. generating a learning mixed signal, and extracting a learning acoustic feature that is a predetermined acoustic feature from the processed learning mixed signal in a plurality of components, thereby obtaining the extracted learning acoustic feature to generate learning feature data that is time-series data of and indicate weights for each of a plurality of components in the learning feature data for extracting a plurality of processed target sounds indicated by the processed learning mixed signal generating a plurality of learning masks for extracting each of a plurality of processed target sounds indicated by the processed mixed learning signal from the learning feature data using the learning-side sound source separation model; By extracting sounds from the learning feature data using a plurality of learning masks, the extracted sounds are indicated, and each of the plurality of processed target sounds indicated by the processed learning mixed signal generates a plurality of learning extraction signals corresponding to the one target sound for a signal indicating one of a plurality of target sounds represented by the learning mixed signal, the one target sound to the processed learning By performing deformation processing to approximate one of the processed target sounds indicated by the mixed signal for learning to one of the processed target sounds corresponding to the one target sound, the plurality of target sounds indicated by the mixed signal for learning generating a plurality of modified target sound signals each representing a plurality of modified target sounds each derived from each of the target sounds, and using the plurality of learning extraction signals and the plurality of modified target sound signals, for extracting a plurality of processed target sounds represented by the processed target mixed signal generated by updating the learning-side sound source separation model so that the sounds approach the plurality of deformed target sounds Each of the plurality of processed target sounds represented by the processed target mixed signal is extracted from the utilized feature data using a utilized sound source separation model indicating a weight for each of the plurality of components in the utilized feature data. an exploiting-side model inference unit that generates a plurality of exploitation masks for
By extracting sounds from the utilization feature data using the plurality of utilization masks, at least the sounds extracted from the utilization feature data are represented, and a plurality of processed target sounds indicated by the processed target mixed signal are obtained. and a utilization-side signal extraction unit that generates a plurality of utilization extraction signals corresponding to each of the utilization-side signal extraction units.
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、
前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させること
を特徴とするプログラム。 the computer,
performing predetermined processing on a mixed learning signal representing at least a plurality of target sounds to generate a processed mixed learning signal representing at least a plurality of processed target sounds derived from the plurality of target sounds; learning side signal processing unit,
extracting sounds from the processed learning mixed signal using a training-side sound source separation model for extracting the plurality of processed target sounds, thereby representing the extracted sounds and the plurality of processed target sounds; a learning-side model inference unit that generates a plurality of learning extraction signals each corresponding to each sound;
for a signal indicating one of the plurality of target sounds, one of the plurality of processed target sounds corresponding to the one target sound. a signal transformation unit that generates a plurality of transformed target sound signals each representing a plurality of transformed target sounds each derived from each of the plurality of target sounds by performing transformation processing to approximate to
a model updating unit that updates the learning-side sound source separation model using the plurality of learning extraction signals and the plurality of modified target sound signals so that the extracted sound approaches the plurality of modified target sounds; A program characterized by functioning as
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、
前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部、
前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部、
前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させること
を特徴とするプログラム。 the computer,
performing predetermined processing on a mixed learning signal representing at least a plurality of target sounds to generate a processed mixed learning signal representing at least a plurality of processed target sounds derived from the plurality of target sounds; learning side signal processing unit,
for learning, which is time-series data of the extracted learning acoustic feature quantity, by extracting a learning acoustic feature quantity, which is a predetermined acoustic feature quantity, in a plurality of components from the processed mixed signal for learning; a learning-side feature quantity extraction unit that generates feature data;
Each of the plurality of processed target sounds is extracted from the learning feature data using a learning-side sound source separation model that indicates a weight for each of the plurality of components for extracting the plurality of processed target sounds. a learning-side model inference unit that generates a plurality of learning masks for
a plurality of learning extractions each representing the extracted sound and corresponding to each of the plurality of processed target sounds by extracting sounds from the learning feature data using the plurality of learning masks; a learning-side signal extraction unit that generates a signal;
for a signal indicating one of the plurality of target sounds, one of the plurality of processed target sounds corresponding to the one target sound. a signal transformation unit that generates a plurality of transformed target sound signals each representing a plurality of transformed target sounds each derived from each of the plurality of target sounds by performing transformation processing to approximate to
a model updating unit that updates the learning-side sound source separation model using the plurality of learning extraction signals and the plurality of modified target sound signals so that the extracted sound approaches the plurality of modified target sounds; A program characterized by functioning as
複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、及び、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部、として機能させること
を特徴とするプログラム。 the computer,
A utilization side that generates a processed target mixed signal representing at least a plurality of processed target sounds derived from the plurality of target sounds by performing predetermined processing on a target mixed signal representing at least a plurality of target sounds. a signal processing unit, and
A processed mixed signal indicating at least a plurality of target sounds is subjected to predetermined processing, thereby indicating at least a plurality of processed target sounds derived from the plurality of target sounds indicated by the mixed learning signal. generating a training mixture signal and extracting sounds from the processed training mixture signal using a training-side source separation model for extracting a plurality of processed target sounds indicated by the processed training mixture signal; a plurality of learning extraction signals each representing the extracted sound and corresponding to each of a plurality of processed target sounds indicated by the processed learning mixed signal; for a signal indicating one target sound out of the plurality of target sounds indicated, the one target sound is converted to the one target sound out of the plurality of processed target sounds indicated by the processed mixed signal for learning A plurality of deformed target sounds each representing a plurality of deformed target sounds each derived from each of the plurality of target sounds represented by the learning mixed signal by performing deformation processing for approximating one processed target sound corresponding to the sound. and using the plurality of learning extraction signals and the plurality of deformation target sound signals, the learning-side sound source is adjusted so that the extracted sound approaches the plurality of deformation target sounds Extracting sounds from the processed target mixed signal using a utilization-side source separation model for extracting a plurality of processed target sounds indicated by the processed target mixed signal generated by updating the separation model. By doing so, the utilization side generates a plurality of utilization extraction signals each representing a sound extracted from the processed target mixed signal and corresponding to each of the plurality of processed target sounds indicated by the processed target mixed signal. A program characterized by functioning as a model inference part.
複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、
前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部、及び、
前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部、として機能させること
を特徴とするプログラム。 the computer,
A utilization side that generates a processed target mixed signal representing at least a plurality of processed target sounds derived from the plurality of target sounds by performing predetermined processing on a target mixed signal representing at least a plurality of target sounds. signal processor,
Generating utilized feature data, which is time-series data of the extracted utilized acoustic features, by extracting utilized acoustic features, which are predetermined acoustic features, from the processed target mixed signal in a plurality of components. Utilization side feature value extraction unit,
A processed mixed signal indicating at least a plurality of target sounds is subjected to predetermined processing, thereby indicating at least a plurality of processed target sounds derived from the plurality of target sounds indicated by the mixed learning signal. generating a learning mixed signal, and extracting a learning acoustic feature that is a predetermined acoustic feature from the processed learning mixed signal in a plurality of components, thereby obtaining the extracted learning acoustic feature to generate learning feature data that is time-series data of and indicate weights for each of a plurality of components in the learning feature data for extracting a plurality of processed target sounds indicated by the processed learning mixed signal generating a plurality of learning masks for extracting each of a plurality of processed target sounds indicated by the processed mixed learning signal from the learning feature data using the learning-side sound source separation model; By extracting sounds from the learning feature data using a plurality of learning masks, the extracted sounds are indicated, and each of the plurality of processed target sounds indicated by the processed learning mixed signal generates a plurality of learning extraction signals corresponding to the one target sound for a signal indicating one of a plurality of target sounds represented by the learning mixed signal, the one target sound to the processed learning By performing deformation processing to approximate one of the processed target sounds indicated by the mixed signal for learning to one of the processed target sounds corresponding to the one target sound, the plurality of target sounds indicated by the mixed signal for learning generating a plurality of modified target sound signals each representing a plurality of modified target sounds each derived from each of the target sounds, and using the plurality of learning extraction signals and the plurality of modified target sound signals, for extracting a plurality of processed target sounds represented by the processed target mixed signal generated by updating the learning-side sound source separation model so that the sounds approach the plurality of deformed target sounds Each of the plurality of processed target sounds represented by the processed target mixed signal is extracted from the utilized feature data using a utilized sound source separation model indicating a weight for each of the plurality of components in the utilized feature data. a exploiting-side model inference unit that generates a plurality of exploitation masks for
By extracting sounds from the utilization feature data using the plurality of utilization masks, at least the sounds extracted from the utilization feature data are represented, and a plurality of processed target sounds indicated by the processed target mixed signal are obtained. A program characterized by functioning as a utilization-side signal extraction unit that generates a plurality of utilization extraction signals corresponding to each.
前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新すること
を特徴とする音源分離モデル学習方法。 performing predetermined processing on a mixed learning signal indicating at least a plurality of target sounds to generate a processed mixed learning signal indicating at least a plurality of processed target sounds derived from the plurality of target sounds; ,
extracting sounds from the processed learning mixed signal using a training-side sound source separation model for extracting the plurality of processed target sounds, thereby representing the extracted sounds and the plurality of processed target sounds; generating a plurality of training extracts, each corresponding to each of the sounds;
for a signal indicating one of the plurality of target sounds, one of the plurality of processed target sounds corresponding to the one target sound. generating a plurality of deformed target sound signals each representing a plurality of deformed target sounds each derived from each of the plurality of target sounds by performing deformation processing to approximate to
using the plurality of learning extraction signals and the plurality of modified target sound signals to update the learning-side sound source separation model so that the extracted sound approaches the plurality of modified target sounds. sound source separation model learning method.
前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、
前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、
前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新すること
を特徴とする音源分離モデル学習方法。 performing predetermined processing on a mixed learning signal indicating at least a plurality of target sounds to generate a processed mixed learning signal indicating at least a plurality of processed target sounds derived from the plurality of target sounds; ,
for learning, which is time-series data of the extracted learning acoustic feature quantity, by extracting a learning acoustic feature quantity, which is a predetermined acoustic feature quantity, in a plurality of components from the processed mixed signal for learning; Generate feature data,
Each of the plurality of processed target sounds is extracted from the learning feature data using a learning-side sound source separation model that indicates a weight for each of the plurality of components for extracting the plurality of processed target sounds. Generate multiple training masks for
a plurality of learning extractions each representing the extracted sound and corresponding to each of the plurality of processed target sounds by extracting sounds from the learning feature data using the plurality of learning masks; generate a signal,
for a signal indicating one of the plurality of target sounds, one of the plurality of processed target sounds corresponding to the one target sound. generating a plurality of deformed target sound signals each representing a plurality of deformed target sounds each derived from each of the plurality of target sounds by performing deformation processing to approximate to
using the plurality of learning extraction signals and the plurality of modified target sound signals to update the learning-side sound source separation model so that the extracted sound approaches the plurality of modified target sounds. sound source separation model learning method.
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成すること
を特徴とする音源分離方法。 performing predetermined processing on a target mixed signal indicating at least a plurality of target sounds to generate a processed target mixed signal indicating at least a plurality of processed target sounds derived from the plurality of target sounds;
A processed mixed signal indicating at least a plurality of target sounds is subjected to predetermined processing, thereby indicating at least a plurality of processed target sounds derived from the plurality of target sounds indicated by the mixed learning signal. generating a training mixture signal and extracting sounds from the processed training mixture signal using a training-side source separation model for extracting a plurality of processed target sounds indicated by the processed training mixture signal; a plurality of learning extraction signals each representing the extracted sound and corresponding to each of a plurality of processed target sounds indicated by the processed learning mixed signal; for a signal indicating one target sound out of the plurality of target sounds indicated, the one target sound is converted to the one target sound out of the plurality of processed target sounds indicated by the processed mixed signal for learning A plurality of deformed target sounds each representing a plurality of deformed target sounds each derived from each of the plurality of target sounds represented by the learning mixed signal by performing deformation processing for approximating one processed target sound corresponding to the sound. and using the plurality of learning extraction signals and the plurality of deformation target sound signals, the learning-side sound source is adjusted so that the extracted sound approaches the plurality of deformation target sounds Extracting sounds from the processed target mixed signal using a utilization-side source separation model for extracting a plurality of processed target sounds indicated by the processed target mixed signal generated by updating the separation model. generating a plurality of exploited extraction signals each representing a sound extracted from the processed target mixed signal and corresponding to each of a plurality of processed target sounds indicated by the processed target mixed signal ; A sound source separation method characterized by:
前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成し、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成し、
前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成すること
を特徴とする音源分離方法。 performing predetermined processing on a target mixed signal indicating at least a plurality of target sounds to generate a processed target mixed signal indicating at least a plurality of processed target sounds derived from the plurality of target sounds;
Generating utilized feature data, which is time-series data of the extracted utilized acoustic features, by extracting utilized acoustic features, which are predetermined acoustic features, from the processed target mixed signal in a plurality of components. death,
A processed mixed signal indicating at least a plurality of target sounds is subjected to predetermined processing, thereby indicating at least a plurality of processed target sounds derived from the plurality of target sounds indicated by the mixed learning signal. generating a learning mixed signal, and extracting a learning acoustic feature that is a predetermined acoustic feature from the processed learning mixed signal in a plurality of components, thereby obtaining the extracted learning acoustic feature to generate learning feature data that is time-series data of and indicate weights for each of a plurality of components in the learning feature data for extracting a plurality of processed target sounds indicated by the processed learning mixed signal generating a plurality of learning masks for extracting each of a plurality of processed target sounds indicated by the processed mixed learning signal from the learning feature data using the learning-side sound source separation model; By extracting sounds from the learning feature data using a plurality of learning masks, the extracted sounds are indicated, and each of the plurality of processed target sounds indicated by the processed learning mixed signal generates a plurality of learning extraction signals corresponding to the one target sound for a signal indicating one of a plurality of target sounds represented by the learning mixed signal, the one target sound to the processed learning By performing deformation processing to approximate one of the processed target sounds indicated by the mixed signal for learning to one of the processed target sounds corresponding to the one target sound, the plurality of target sounds indicated by the mixed signal for learning generating a plurality of modified target sound signals each representing a plurality of modified target sounds each derived from each of the target sounds, and using the plurality of learning extraction signals and the plurality of modified target sound signals, for extracting a plurality of processed target sounds represented by the processed target mixed signal generated by updating the learning-side sound source separation model so that the sounds approach the plurality of deformed target sounds Each of the plurality of processed target sounds represented by the processed target mixed signal is extracted from the utilized feature data using a utilized sound source separation model indicating a weight for each of the plurality of components in the utilized feature data. generate multiple conjugation masks for
By extracting sounds from the utilization feature data using the plurality of utilization masks, at least the sounds extracted from the utilization feature data are represented, and a plurality of processed target sounds indicated by the processed target mixed signal are obtained. A method of sound source separation, characterized by generating a plurality of exploited extracted signals, one for each.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/024930 WO2021260868A1 (en) | 2020-06-25 | 2020-06-25 | Sound source separation model learning device, sound source separation device, program, sound source separation model learning method, and sound source separation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021260868A1 JPWO2021260868A1 (en) | 2021-12-30 |
JP7138824B2 true JP7138824B2 (en) | 2022-09-16 |
Family
ID=79282089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022532167A Active JP7138824B2 (en) | 2020-06-25 | 2020-06-25 | Sound source separation model learning device, sound source separation device, program, sound source separation model learning method, and sound source separation method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7138824B2 (en) |
WO (1) | WO2021260868A1 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200051580A1 (en) | 2019-07-30 | 2020-02-13 | Lg Electronics Inc. | Method and apparatus for sound processing |
-
2020
- 2020-06-25 JP JP2022532167A patent/JP7138824B2/en active Active
- 2020-06-25 WO PCT/JP2020/024930 patent/WO2021260868A1/en active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200051580A1 (en) | 2019-07-30 | 2020-02-13 | Lg Electronics Inc. | Method and apparatus for sound processing |
Non-Patent Citations (2)
Title |
---|
ITO, Nobutaka et al.,"RELAXED DISJOINTNESS BASED CLUSTERING FOR JOINT BLIND SOURCE SEPARATION AND DEREVERBERATION",Proc. of the 2014 14th IWAENC,2014年09月08日,pp.268-272 |
塩澤光一朗 他,"差分型マイクロホンアレイと2次元スペクトルの機械学習による雑音抑制に関する考察",電子情報通信学会技術研究報告,2019年08月01日,Vol.119, No.163,pp.53-58 |
Also Published As
Publication number | Publication date |
---|---|
WO2021260868A1 (en) | 2021-12-30 |
JPWO2021260868A1 (en) | 2021-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5124014B2 (en) | Signal enhancement apparatus, method, program and recording medium | |
EP1993320B1 (en) | Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium | |
CN110867181B (en) | Multi-target speech enhancement method based on SCNN and TCNN joint estimation | |
CN108172231B (en) | Dereverberation method and system based on Kalman filtering | |
JP4496186B2 (en) | Sound source separation device, sound source separation program, and sound source separation method | |
JP5127754B2 (en) | Signal processing device | |
JP6789455B2 (en) | Voice separation device, voice separation method, voice separation program, and voice separation system | |
KR101807961B1 (en) | Method and apparatus for processing speech signal based on lstm and dnn | |
JP2005249816A (en) | Device, method and program for signal enhancement, and device, method and program for speech recognition | |
JP6748304B2 (en) | Signal processing device using neural network, signal processing method using neural network, and signal processing program | |
Doclo et al. | Multimicrophone noise reduction using recursive GSVD-based optimal filtering with ANC postprocessing stage | |
JP5443547B2 (en) | Signal processing device | |
KR100647826B1 (en) | The blind dereverberation models considering measured noises and the deriving method thereof | |
US20230060081A1 (en) | Signal processing device, signal processing method, and program | |
JP7138824B2 (en) | Sound source separation model learning device, sound source separation device, program, sound source separation model learning method, and sound source separation method | |
CN116935879A (en) | Two-stage network noise reduction and dereverberation method based on deep learning | |
Ai et al. | Reverberation modeling for source-filter-based neural vocoder | |
JP6961545B2 (en) | Sound signal processor, sound signal processing method, and program | |
JP2012044609A (en) | Stereo echo erasing method, stereo echo erasing device, and stereo echo erasing program | |
JP6790659B2 (en) | Sound processing equipment and sound processing method | |
JP2020148880A (en) | Noise space covariance matrix estimation device, noise space covariance matrix estimation method and program | |
US20240196145A1 (en) | Acoustic interference suppression through speaker-aware processing | |
KR102505653B1 (en) | Method and apparatus for integrated echo and noise removal using deep neural network | |
Dufera et al. | Reverberated speech enhancement using neural networks | |
TN et al. | An Improved Method for Speech Enhancement Using Convolutional Neural Network Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220530 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220621 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220809 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220906 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7138824 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |