JP6930408B2 - Estimator, estimation method and estimation program - Google Patents

Estimator, estimation method and estimation program Download PDF

Info

Publication number
JP6930408B2
JP6930408B2 JP2017236811A JP2017236811A JP6930408B2 JP 6930408 B2 JP6930408 B2 JP 6930408B2 JP 2017236811 A JP2017236811 A JP 2017236811A JP 2017236811 A JP2017236811 A JP 2017236811A JP 6930408 B2 JP6930408 B2 JP 6930408B2
Authority
JP
Japan
Prior art keywords
sound source
target sound
signal
acoustic signal
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017236811A
Other languages
Japanese (ja)
Other versions
JP2019105681A (en
Inventor
卓哉 樋口
卓哉 樋口
慶介 木下
慶介 木下
マーク デルクロア
マーク デルクロア
中谷 智広
智広 中谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017236811A priority Critical patent/JP6930408B2/en
Publication of JP2019105681A publication Critical patent/JP2019105681A/en
Application granted granted Critical
Publication of JP6930408B2 publication Critical patent/JP6930408B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、推定装置、推定方法および推定プログラムに関する。 The present invention relates to an estimation device, an estimation method and an estimation program.

従来、音声認識を行ったり観測した音を人間の聞き取り易い音に変換したりするため、目的音源の音響信号を背景雑音と分離する音源分離の技術が開示されている。このような従来の技術において、混合音と正解値としての目的音源の音響信号とが対になったトレーニングデータを用いた学習により、目的音源の音響信号の推定値が求められ音源分離が行われていた(非特許文献1,2参照)。なお、非特許文献3には、雑音を抑制して音声を強調するビームフォーミングの技術が開示されている。 Conventionally, a sound source separation technique for separating an acoustic signal of a target sound source from background noise has been disclosed in order to perform voice recognition or convert the observed sound into a sound that is easy for humans to hear. In such a conventional technique, the estimated value of the acoustic signal of the target sound source is obtained by learning using the training data in which the mixed sound and the acoustic signal of the target sound source as the correct answer value are paired, and the sound source is separated. (See Non-Patent Documents 1 and 2). Non-Patent Document 3 discloses a beamforming technique that suppresses noise and emphasizes sound.

Felix Weninger, Hakan Erdogan, Shinji Watanabe, Emmanuel Vincent, Jonathan Le Roux, John R.Hershey, Bjorn Schuller,“Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR”, International Conference on Latent Variable Analysis and Signal Separation, Springer, 2015年, pp.91-99Felix Weninger, Hakan Erdogan, Shinji Watanabe, Emmanuel Vincent, Jonathan Le Roux, John R. Hershey, Bjorn Schuller, “Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR”, International Conference on Latent Variable Analysis and Signal Separation, Springer, 2015, pp.91-99 Santiago Pascual, Antonio Bonafonte, Joan Serra, “SEGAN:Speech Enhancement Generative Adversarial Network”, arXiv preprint arXiv:1703.09452v3, 2017年Santiago Pascual, Antonio Bonafonte, Joan Serra, “SEGAN: Speech Enhancement Generative Adversarial Network”, arXiv preprint arXiv: 1703.09452v3, 2017 T.Higuchi, N.Ito, S.Araki, T.Yoshioka, M.Delcroix, T.Nakatani, “Online MVDR Beamformer Based on Complex Gaussian Mixture Model With Spatial Prior for Noise Robust ASR”, IEEE/ACM Transactions on Audio, Speech, and Language Processing, val.25, No.4, 2017年, pp.780-793T.Higuchi, N.Ito, S.Araki, T.Yoshioka, M.Delcroix, T.Nakatani, “Online MVDR Beamformer Based on Complex Gaussian Mixture Model With Spatial Prior for Noise Robust ASR”, IEEE / ACM Transactions on Audio, Speech, and Language Processing, val.25, No.4, 2017, pp.780-793

しかしながら、実際に録音されたデータには、対になる正解値としての目的音源のデータが得られない場合が多く、シミュレーションを用いて人工的に作成されたデータをトレーニングデータとして用いて学習せざるを得なかった。 However, in many cases, the data of the target sound source as a pair of correct answer values cannot be obtained from the actually recorded data, and the data artificially created by simulation must be used as training data for learning. Did not get.

本発明は、上記に鑑みてなされたものであって、混合音と目的音源とが対になったトレーニングデータを用いずに学習して音源分離を行うことを目的とする。 The present invention has been made in view of the above, and an object of the present invention is to learn and separate sound sources without using training data in which a mixed sound and a target sound source are paired.

上述した課題を解決し、目的を達成するために、本発明に係る推定装置は、マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析部と、生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出部と、前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する手段であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習部と、を備えることを特徴とする。 In order to solve the above-mentioned problems and achieve the object, the estimation device according to the present invention accepts the input of the observation signal of the mixed sound including the acoustic signal of the target sound source recorded by the microphone, and time from the observation signal. An observation signal for each frequency point is extracted, and a time-frequency analysis unit that generates an observation vector composed of the observation signal for each extracted time frequency point and a predetermined acoustic feature amount are extracted from the generated observation vector. When the feature amount extraction unit and the separator that outputs the estimated value of the acoustic signal of the target sound source are created by learning using the acoustic feature amount, the estimated value of the acoustic signal of the target sound source output by the separator is created. Is a means for learning, and receives an input of an acoustic signal of a true target sound source or an estimated acoustic signal of the target sound source, and whether the acoustic signal of the target sound source is the acoustic signal of the true target sound source or the estimated purpose. It is characterized by including an estimation learning unit that learns the estimated value so that the classifier distinguishes it from the sound signal of the true target sound source when it is input to the classifier that identifies the sound signal of the sound source. do.

本発明によれば、混合音と目的音源とが対になったトレーニングデータを用いずに学習して音源分離を行うことが可能となる。 According to the present invention, it is possible to perform learning and sound source separation without using training data in which a mixed sound and a target sound source are paired.

図1は、従来の推定装置の概略構成を示す模式図である。FIG. 1 is a schematic diagram showing a schematic configuration of a conventional estimation device. 図2は、本実施形態に係る推定システムの概略構成を示す模式図である。FIG. 2 is a schematic diagram showing a schematic configuration of an estimation system according to the present embodiment. 図3は、本実施形態に係る推定装置の概略構成を示す模式図である。FIG. 3 is a schematic diagram showing a schematic configuration of an estimation device according to the present embodiment. 図4は、本実施形態の推定処理手順を示すフローチャートである。FIG. 4 is a flowchart showing the estimation processing procedure of the present embodiment. 図5は、他の実施形態に係る推定装置の概略構成を示す模式図である。FIG. 5 is a schematic diagram showing a schematic configuration of an estimation device according to another embodiment. 図6は、推定プログラムを実行するコンピュータの一例を示す図である。FIG. 6 is a diagram showing an example of a computer that executes an estimation program.

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。 Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings. The present invention is not limited to this embodiment. Further, in the description of the drawings, the same parts are indicated by the same reference numerals.

[従来の推定処理]
まず、図1を参照して、従来の音源分離を行う推定処理について説明する。図1は、従来の推定装置の概略構成を示す模式図である。従来、音源分離を行う推定装置200は、図1に示すように、時間周波数分析部201、特徴量抽出部202、目的音源推定部203を備える。まず、時間周波数分析部201が、N個の目的音源に対応する音響信号が混在する状況において、1つのマイクで収録された観測信号に短時間信号分析を適用し、時間周波数点ごとの観測音響信号を抽出する。
[Conventional estimation processing]
First, with reference to FIG. 1, a conventional estimation process for sound source separation will be described. FIG. 1 is a schematic diagram showing a schematic configuration of a conventional estimation device. Conventionally, as shown in FIG. 1, the estimation device 200 that separates sound sources includes a time-frequency analysis unit 201, a feature amount extraction unit 202, and a target sound source estimation unit 203. First, the time-frequency analysis unit 201 applies short-time signal analysis to the observation signals recorded by one microphone in a situation where acoustic signals corresponding to N target sound sources are mixed, and observes sound for each time-frequency point. Extract the signal.

次に、特徴量抽出部202が、観測音響信号から音響特徴量を抽出する。また、目的音源推定部203は、音響特徴量を入力として、あらかじめ学習され保持されている分離器204を用いて非線形変換を繰り返すことにより、時間周波数点ごとにN個の目的音源を推定する。この分離器204はニューラルネットワークで実現され、あらかじめ混合音とそれに含まれる目的音源とが対になったトレーニングデータを用いて学習されたものであり、後述するように、この点が本実施形態の推定装置と異なる。 Next, the feature amount extraction unit 202 extracts the acoustic feature amount from the observed acoustic signal. Further, the target sound source estimation unit 203 estimates N target sound sources for each time frequency point by repeating the non-linear conversion using the separator 204 that has been learned and held in advance with the acoustic feature amount as an input. This separator 204 is realized by a neural network and is learned in advance using training data in which a mixed sound and a target sound source included in the mixed sound are paired. As will be described later, this point is the present embodiment. Different from the estimation device.

ここで、短時間フーリエ変換等の短時間信号分析を用いて得られる観測音響信号をyf,tと表す。ただし、tは1〜Tの整数で表される時間の番号であり、fは0〜Fの整数で表される周波数の番号である。n個の音源信号が混合されて観測された場合に、各時間周波数点における観測音響信号yf,tは、次式(1)のようにモデル化できる。 Here, the observed acoustic signals obtained by using a short-time signal analysis such as a short-time Fourier transform are represented by yf and t. However, t is a time number represented by an integer of 1 to T, and f is a frequency number represented by an integer of 0 to F. When n sound source signals are mixed and observed, the observed acoustic signals yf and t at each time frequency point can be modeled as in the following equation (1).

Figure 0006930408
Figure 0006930408

上記式(1)に示すように、n個の目的音源の音響信号が混合された観測信号から、ニューラルネットワークを用いて、それぞれの目的音源の音響信号が推定される。まず、特徴量抽出処理により、観測音響信号から次式(2)に示す音響特徴量の集合が得られる。 As shown in the above equation (1), the acoustic signals of the respective target sound sources are estimated from the observation signals obtained by mixing the acoustic signals of the n target sound sources using a neural network. First, by the feature amount extraction process, a set of acoustic feature amounts represented by the following equation (2) can be obtained from the observed acoustic signal.

Figure 0006930408
Figure 0006930408

次に、ニューラルネットワークによる変換f(・)を用いて、次式(3)に示す目的音源の音響信号の推定値の集合が、次式(4)に示すように得られる。 Next, using the transformation f (.) By the neural network, a set of estimated values of the acoustic signal of the target sound source shown in the following equation (3) is obtained as shown in the following equation (4).

Figure 0006930408
Figure 0006930408

Figure 0006930408
Figure 0006930408

ニューラルネットワークのパラメータは、混合音とそれぞれの目的音源とが対になったトレーニングデータを用いて、次式(5)に示す目的関数を最小化することにより、事前に得られる。 The parameters of the neural network are obtained in advance by minimizing the objective function shown in the following equation (5) by using the training data in which the mixed sound and each objective sound source are paired.

Figure 0006930408
Figure 0006930408

このように、目的音源推定部203が、混合音から推定された目的音源の音響信号の推定値と、混合音を構成する目的音源の正解値との間の距離を最小化することにより、ニューラルネットワークのパラメータを学習して、分離器204を作成する。 In this way, the target sound source estimation unit 203 minimizes the distance between the estimated value of the acoustic signal of the target sound source estimated from the mixed sound and the correct answer value of the target sound source constituting the mixed sound, thereby causing the neural network. Learn network parameters to create separator 204.

なお、目的音源の音響信号の推定値は、直接ニューラルネットワークの出力として得ることが可能である。あるいは、ニューラルネットワークで混合音に対する目的音源の割合を表す0〜1の間の値をとるマスクが得られる場合には、マスクを観測音響信号に掛け合わせることにより、目的音源の音響信号の推定値が得られる(非特許文献1参照)。 The estimated value of the acoustic signal of the target sound source can be directly obtained as the output of the neural network. Alternatively, when a neural network obtains a mask having a value between 0 and 1 representing the ratio of the target sound source to the mixed sound, the mask is multiplied by the observed acoustic signal to estimate the acoustic signal of the target sound source. (See Non-Patent Document 1).

[推定システムの構成]
次に、図2を参照して、本実施形態に係る推定システム1について説明する。図2は、本実施形態に係る推定システム1の概略構成を示す模式図である。図2に示すように、推定システム1は、識別装置10と推定装置20とを含む。
[Estimation system configuration]
Next, the estimation system 1 according to the present embodiment will be described with reference to FIG. FIG. 2 is a schematic diagram showing a schematic configuration of the estimation system 1 according to the present embodiment. As shown in FIG. 2, the estimation system 1 includes an identification device 10 and an estimation device 20.

この推定システム1において、識別装置10は、識別器11を備え、識別器11の学習を行う。識別器11は、入力された目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する。また、推定装置20は、分離器24を用いて、入力された観測信号から目的音源の音響信号を分離し、その推定値を出力する。また、推定装置20は、識別器11が、分離器24によって推定された目的音源の音響信号が入力された場合に真の目的音源の音響信号と誤って識別するように、分離器24の学習を行う。 In this estimation system 1, the discriminator 10 includes a discriminator 11 and learns the discriminator 11. The classifier 11 discriminates whether the input acoustic signal of the target sound source is the acoustic signal of the true target sound source or the acoustic signal of the estimated target sound source. Further, the estimation device 20 uses the separator 24 to separate the acoustic signal of the target sound source from the input observation signal, and outputs the estimated value. Further, the estimation device 20 learns the separator 24 so that the classifier 11 mistakenly identifies the acoustic signal of the target sound source estimated by the separator 24 as the acoustic signal of the true target sound source. I do.

[識別装置の構成]
本実施形態に係る識別装置10は、ワークステーションやパソコン等の汎用コンピュータで実現され、CPU(Central Processing Unit)等を用いて実現される制御部が、メモリに記憶された処理プログラムを実行することにより、図2に示すように、識別学習部12および識別部13として機能する。また、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される記憶部に、識別器11が保持される。
[Identification device configuration]
The identification device 10 according to the present embodiment is realized by a general-purpose computer such as a workstation or a personal computer, and a control unit realized by using a CPU (Central Processing Unit) or the like executes a processing program stored in a memory. As a result, as shown in FIG. 2, it functions as the identification learning unit 12 and the identification unit 13. Further, the classifier 11 is held in a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage unit realized by a storage device such as a hard disk or an optical disk.

識別器11は、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する。 The classifier 11 receives the input of the acoustic signal of the true target sound source or the acoustic signal of the estimated target sound source, and the acoustic signal of the target sound source is the acoustic signal of the true target sound source or the sound of the estimated target sound source. Identify whether it is a signal.

識別学習部12は、識別器11を学習により作成する。具体的には、識別学習部12は、後述するように、推定装置20が出力した目的音源の音響信号の推定値を識別器11に入力した場合に、識別器11が推定された目的音源の音響信号と識別するように学習する。 The discrimination learning unit 12 creates the classifier 11 by learning. Specifically, as will be described later, when the identification learning unit 12 inputs the estimated value of the acoustic signal of the target sound source output by the estimation device 20 to the classifier 11, the discriminator 11 determines the estimated target sound source. Learn to distinguish from acoustic signals.

本実施形態において、識別器11は、ニューラルネットワークの1種であるBLSTM(Bi-directional Long Short-Term Memory)で実現される。また、識別器11は、目的音源用と背景雑音用とが別々に用意される。各識別器11は、入力された音響信号が目的音源または背景雑音のみの場合、すなわち、真の目的音源または背景雑音の音響信号の場合に1を出力するように学習される。また、各識別器11は、後述する推定装置20の分離器24によって推定された目的音源または背景雑音の音響信号の場合に0を出力するように学習される。 In the present embodiment, the classifier 11 is realized by BLSTM (Bi-directional Long Short-Term Memory), which is a kind of neural network. Further, the classifier 11 is prepared separately for the target sound source and for the background noise. Each classifier 11 is learned to output 1 when the input acoustic signal is only the target sound source or background noise, that is, when the input acoustic signal is a true target sound source or background noise acoustic signal. Further, each classifier 11 is learned to output 0 in the case of an acoustic signal of a target sound source or background noise estimated by the separator 24 of the estimation device 20 described later.

すなわち、識別学習部12は、推定装置20から出力された目的音源または背景雑音の音響信号の推定値が入力された場合に識別器11が出力する識別値が0に近くなるように、識別器11のパラメータを最適化する。また、識別学習部12は、目的音源のデータセットに含まれる真の目的音源の音響データが入力された場合に識別器11が出力する識別値が1に近くなるように、識別器11のパラメータを最適化する。識別学習部12は、学習の際には、RMSpropと呼ばれる最適化アルゴリズムを用いてパラメータを求め、記憶部に保持する。 That is, the discrimination learning unit 12 discriminates the discriminator 11 so that the discriminant value output by the discriminator 11 becomes close to 0 when the estimated value of the sound signal of the target sound source or the background noise output from the estimation device 20 is input. Optimize 11 parameters. Further, the discrimination learning unit 12 determines the parameters of the discriminator 11 so that the discrimination value output by the discriminator 11 becomes close to 1 when the acoustic data of the true target sound source included in the data set of the target sound source is input. Optimize. At the time of learning, the discrimination learning unit 12 obtains parameters using an optimization algorithm called RMSprop and stores them in the storage unit.

また、識別部13は、識別器11を用いて、入力された音響信号が真の目的音源の音響信号か推定された目的音源の音響信号かを識別する。すなわち、識別部13は、出力される識別値が1に近い場合に、真の目的音源の音響信号であることを示すラベル1を付与する。また、識別部13は、出力される識別値が0に近い場合に、推定された偽の目的音源の音響信号であることを示すラベル0を付与する。 Further, the identification unit 13 uses the classifier 11 to discriminate whether the input acoustic signal is the acoustic signal of the true target sound source or the estimated acoustic signal of the target sound source. That is, when the output identification value is close to 1, the identification unit 13 assigns a label 1 indicating that it is an acoustic signal of a true target sound source. Further, the identification unit 13 assigns a label 0 indicating that it is an estimated false target sound source acoustic signal when the output identification value is close to 0.

[推定装置の構成]
次に、図3を参照して、推定装置20について説明する。図3は、本実施形態に係る推定装置20の概略構成を示す模式図である。図3に示すように、推定装置20は、ワークステーションやパソコン等の汎用コンピュータで実現され、CPU等を用いて実現される制御部が、メモリに記憶された処理プログラムを実行することにより、図3に示すように、時間周波数分析部21、特徴量抽出部22、目的音源推定部23として機能する。また、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される記憶部に、分離器24が保持される。なお、記憶部に予め学習された上記の識別器11が保持されてもよい。
[Configuration of estimation device]
Next, the estimation device 20 will be described with reference to FIG. FIG. 3 is a schematic diagram showing a schematic configuration of the estimation device 20 according to the present embodiment. As shown in FIG. 3, the estimation device 20 is realized by a general-purpose computer such as a workstation or a personal computer, and a control unit realized by using a CPU or the like executes a processing program stored in a memory. As shown in 3, it functions as a time-frequency analysis unit 21, a feature amount extraction unit 22, and a target sound source estimation unit 23. Further, the separator 24 is held in a storage unit realized by a semiconductor memory element such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk. The above-mentioned classifier 11 learned in advance may be held in the storage unit.

時間周波数分析部21は、マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの観測信号で構成される観測ベクトルを生成する。 The time-frequency analysis unit 21 receives the input of the observation signal of the mixed sound including the acoustic signal of the target sound source recorded by the microphone, extracts the observation signal for each time-frequency point from the observation signal, and extracts the time-frequency point. Generates an observation vector composed of each observation signal.

以下の説明において、1個の目的音源の音響信号を、背景雑音下でM個(M≧1)のマイクロホンで収録するものとする。ここで、マイクロホンmで収録された観測信号をym,τとする。この場合に、次式(6)に示すように、観測信号をym,τは、N個(N>0)の各目的音源に由来する音響信号xm,τ (n)(n=1,…,N)の和で表される。 In the following description, it is assumed that the acoustic signals of one target sound source are recorded by M microphones (M ≧ 1) under background noise. Here, let ym and τ be the observation signals recorded by the microphone m. In this case, as shown in the following equation (6), the observed signals ym , τ are acoustic signals x m, τ (n) (n = 1) derived from each target sound source of N (N> 0). , ..., N).

Figure 0006930408
Figure 0006930408

具体的には、まず、時間周波数分析部21は、すべてのマイクロホンで収録された上記式(6)で表される観測信号の入力を受け付けて、各観測信号ym,τごとに短時間信号分析を適用して時間周波数ごとの信号特徴量Ym,f,tを算出する。その際、短時間信号分析は特に限定されず、例えば、短時間離散フーリエ変換、短時間離散コサイン変換等が適用される。 Specifically, first, the time-frequency analysis unit 21 receives the input of the observation signal represented by the above equation (6) recorded by all the microphones, and receives a short-time signal for each observation signal ym, τ. Apply the analysis to calculate the signal features Y m, f, t for each time frequency. At that time, the short-time signal analysis is not particularly limited, and for example, a short-time discrete Fourier transform, a short-time discrete cosine transform, and the like are applied.

次に、時間周波数分析部21は、各時間周波数点で得られた信号Y(m)(f,t)を全てのマイクロホンに関してまとめ、次式(7)に示すM次元縦ベクトルである観測ベクトルyf,tを構成する。 Next, the time-frequency analysis unit 21 summarizes the signals Y (m) (f, t) obtained at each time-frequency point for all microphones, and observes the M-dimensional vertical vector shown in the following equation (7). It constitutes y f and t.

Figure 0006930408
Figure 0006930408

特徴量抽出部22は、生成された観測ベクトルから所定の音響特徴量を抽出する。具体的には、特徴量抽出部22は、観測ベクトルのうち、あらかじめ決められた1つのマイクロホンで録音された成分である1つの要素の絶対値の対数をとり、音響特徴量とする。 The feature amount extraction unit 22 extracts a predetermined acoustic feature amount from the generated observation vector. Specifically, the feature amount extraction unit 22 takes the logarithm of the absolute value of one element, which is a component recorded by one predetermined microphone, in the observation vector, and uses it as an acoustic feature amount.

目的音源推定部23は、推定学習部として、音響特徴量を用いて目的音源の音響信号の推定値を出力する分離器24を学習により作成する。その際に、目的音源推定部23は、推定学習部として、分離器24が出力した目的音源の音響信号の推定値を学習する手段であって、上記の識別器11に入力した場合に、この識別器11が真の目的音源の音響信号と識別するように、推定値を学習する。 The target sound source estimation unit 23 creates, as an estimation learning unit, a separator 24 that outputs an estimated value of the acoustic signal of the target sound source by learning using the acoustic features. At that time, the target sound source estimation unit 23 is a means for learning the estimated value of the acoustic signal of the target sound source output by the separator 24 as an estimation learning unit, and when input to the above-mentioned classifier 11, the target sound source estimation unit 23 is used. The classifier 11 learns the estimated value so that it distinguishes it from the acoustic signal of the true target sound source.

具体的には、推定学習部としての目的音源推定部23は、音響特徴量を分離器24に入力することで、時間周波数点ごとに目的音源と背景雑音とのそれぞれに対して、混合音に対する割合を表す0から1の間の値で表されるマスクを得る。この分離器24は、識別器11と同様に、BLSTMで実現される。 Specifically, the target sound source estimation unit 23 as the estimation learning unit inputs the acoustic feature amount to the separator 24, so that the target sound source and the background noise are generated for each time frequency point, and the mixed sound is generated. Obtain a mask represented by a value between 0 and 1 representing the proportion. The separator 24 is realized by BLSTM like the classifier 11.

目的音源推定部23は、推定学習部として、以下に説明するように、学習により分離器24を作成する。なお、目的音源推定部23は、分離器24によって推定されたマスクを時間周波数ごとの信号特徴量に掛け合わせることで、目的音源と背景雑音との音響信号の推定値を得る。 The target sound source estimation unit 23 creates a separator 24 by learning as an estimation learning unit, as described below. The target sound source estimation unit 23 obtains an estimated value of the acoustic signal between the target sound source and the background noise by multiplying the signal feature amount for each time frequency by the mask estimated by the separator 24.

また、推定学習部としての目的音源推定部23は、得られた目的音源または背景雑音の音響信号の推定値を識別器11に入力した場合に、識別器11が真の目的音源または背景雑音の音響信号と誤って識別して1を出力するように、分離器24の学習を行う。すなわち、目的音源推定部23は、得られた推定値を識別器11に入力した場合に、識別器11の出力が1に近くなるように、分離器24のパラメータを最適化する。目的音源推定部23は、学習の際に、RMSpropを用いて分離器24のパラメータを求め、記憶部に保持する。 Further, when the target sound source estimation unit 23 as the estimation learning unit inputs the estimated value of the obtained target sound source or background noise acoustic signal to the classifier 11, the classifier 11 determines the true target sound source or background noise. The separator 24 is trained so that it is erroneously identified as an acoustic signal and 1 is output. That is, the target sound source estimation unit 23 optimizes the parameters of the separator 24 so that the output of the classifier 11 is close to 1 when the obtained estimated value is input to the classifier 11. At the time of learning, the target sound source estimation unit 23 obtains the parameters of the separator 24 using RMSprop and holds them in the storage unit.

このように、推定システム1において、識別器11と分離器24との学習を交互に競わせるように行うことにより、分離器24は、目的音源または背景雑音の音響信号と区別がつかないほどに近い音響信号を推定することが可能となる。 In this way, in the estimation system 1, the discriminator 11 and the separator 24 are alternately trained so that the separator 24 is indistinguishable from the acoustic signal of the target sound source or the background noise. It is possible to estimate a close acoustic signal.

また、推定システム1において、混合音のデータセットと目的音源のデータセットとが対になっている必要はなく、混合音のデータセットとして実録音データを用いることも可能である。 Further, in the estimation system 1, it is not necessary that the data set of the mixed sound and the data set of the target sound source are paired, and it is possible to use the actual recorded data as the data set of the mixed sound.

また、目的音源推定部23は、分離器24を用いて、入力された観測信号に含まれる目的音源の音響信号の推定値を出力する。目的音源の音響信号の推定値は、例えば、分離器24で得られたマスクを観測ベクトルに掛け合わせることにより得られる。また、目的音源の音響信号の推定値は、直接、分離器24の出力として得ることも可能である。 Further, the target sound source estimation unit 23 uses the separator 24 to output an estimated value of the acoustic signal of the target sound source included in the input observation signal. The estimated value of the acoustic signal of the target sound source can be obtained, for example, by multiplying the observation vector by the mask obtained by the separator 24. Further, the estimated value of the acoustic signal of the target sound source can be directly obtained as the output of the separator 24.

あるいは、目的音源の音響信号の推定値は、分離器24から得られたマスクと観測ベクトルから推定した空間相関行列を用いたビームフォーミングにより得ることも可能である(非特許文献3参照)。すなわち、目的音源推定部23は、分離器24から得られたマスクを観測ベクトルの外積に掛けた後に重み付き和をとることにより、n番目の目的音源の空間相関行列と、n番目の目的音源の干渉音の空間相関行列とを算出し、ビームフォーマを設計する。各目的音源の音響信号の推定値は、各周波数において、観測ベクトルにビームフォーマを掛け合わせることにより得られる。 Alternatively, the estimated value of the acoustic signal of the target sound source can be obtained by beamforming using the mask obtained from the separator 24 and the spatial correlation matrix estimated from the observation vector (see Non-Patent Document 3). That is, the target sound source estimation unit 23 multiplies the mask obtained from the separator 24 by the outer product of the observation vectors and then takes a weighted sum to obtain the spatial correlation matrix of the nth target sound source and the nth target sound source. The beam former is designed by calculating the spatial correlation matrix of the interference sound of. The estimated value of the acoustic signal of each target sound source is obtained by multiplying the observation vector by the beamformer at each frequency.

[推定処理]
次に、図4を参照して、推定システム1の推定処理について説明する。図4は、本実施形態の推定処理手順を示すフローチャートである。図4のフローチャートは、例えば、処理の開始を指示する操作入力があったタイミングで開始される。
[Estimation processing]
Next, the estimation process of the estimation system 1 will be described with reference to FIG. FIG. 4 is a flowchart showing the estimation processing procedure of the present embodiment. The flowchart of FIG. 4 is started, for example, at the timing when there is an operation input instructing the start of processing.

まず、時間周波数分析部21が、マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付ける(ステップS1)。また、時間周波数分析部21が短時間信号分析を行って、観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの観測信号で構成される観測ベクトルを生成する(ステップS2)。また、特徴量抽出部22が、生成された観測ベクトルから所定の音響特徴量を抽出する(ステップS3)。 First, the time-frequency analysis unit 21 receives the input of the observation signal of the mixed sound including the acoustic signal of the target sound source recorded by the microphone (step S1). Further, the time-frequency analysis unit 21 performs short-time signal analysis, extracts the observation signal for each time-frequency point from the observation signal, and generates an observation vector composed of the extracted observation signal for each time-frequency point (step). S2). Further, the feature amount extraction unit 22 extracts a predetermined acoustic feature amount from the generated observation vector (step S3).

次に、目的音源推定部23が、音響特徴量を用いて、目的音源の音響信号の推定値を出力する分離器24を学習により作成する。その際に、目的音源推定部23は、推定学習部として、分離器24が出力した目的音源の音響信号の推定値を識別器11に入力した場合に、識別器11が真の目的音源の音響信号と識別するように、推定値を学習する(ステップS4)。 Next, the target sound source estimation unit 23 creates a separator 24 that outputs an estimated value of the acoustic signal of the target sound source by learning using the acoustic features. At that time, when the target sound source estimation unit 23 inputs the estimated value of the acoustic signal of the target sound source output by the separator 24 to the discriminator 11 as the estimation learning unit, the discriminator 11 inputs the sound of the true target sound source. The estimated value is learned so as to distinguish it from the signal (step S4).

また、目的音源推定部23は、分離器24を用いて、入力された観測信号に含まれる目的音源の音響信号の推定値を出力する。これにより、一連の推定処理が終了する。 Further, the target sound source estimation unit 23 uses the separator 24 to output an estimated value of the acoustic signal of the target sound source included in the input observation signal. As a result, a series of estimation processes are completed.

以上、説明したように、本実施形態の推定装置20では、時間周波数分析部21が、マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの観測信号で構成される観測ベクトルを生成する。また、特徴量抽出部22が、生成された観測ベクトルから所定の音響特徴量を抽出する。また、目的音源推定部23は、音響特徴量を用いて目的音源の音響信号の推定値を出力する分離器24を学習により作成する。その際に、目的音源推定部23は、分離器24が出力した目的音源の音響信号の推定値を学習する手段であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器11に入力した場合に、この識別器11が真の目的音源の音響信号と識別するように、推定値を学習する。 As described above, in the estimation device 20 of the present embodiment, the time frequency analysis unit 21 receives the input of the observation signal of the mixed sound including the acoustic signal of the target sound source recorded by the microphone, and the time from the observation signal. The observation signal for each frequency point is extracted, and an observation vector composed of the extracted observation signal for each time frequency point is generated. In addition, the feature amount extraction unit 22 extracts a predetermined acoustic feature amount from the generated observation vector. Further, the target sound source estimation unit 23 creates a separator 24 by learning that outputs an estimated value of the acoustic signal of the target sound source using the acoustic features. At that time, the target sound source estimation unit 23 is a means for learning the estimated value of the sound signal of the target sound source output by the separator 24, and is a means for learning the sound signal of the true target sound source or the sound signal of the estimated target sound source. When the input is received and input to the classifier 11 that identifies whether the acoustic signal of the target sound source is the acoustic signal of the true target sound source or the acoustic signal of the estimated target sound source, the discriminator 11 is the true purpose. The estimated value is learned so as to distinguish it from the acoustic signal of the sound source.

これにより、推定装置20は、混合音と目的音源とが対になったデータセットを用いる代わりに、実録音データを用いて分離器24を学習することにより音源分離を行うことが可能となる。このように、本実施形態の推定装置20は、混合音と目的音源とが対になったトレーニングデータを用いずに学習して音源分離を行うことができる。 As a result, the estimation device 20 can perform sound source separation by learning the separator 24 using the actual recorded data instead of using the data set in which the mixed sound and the target sound source are paired. As described above, the estimation device 20 of the present embodiment can learn and separate the sound sources without using the training data in which the mixed sound and the target sound source are paired.

また、推定システム1は、識別器11を学習により作成する識別装置10を備える。識別装置10では、識別学習部12が、分離器24すなわち目的音源推定部23が出力した目的音源の音響信号の推定値を識別器11に入力した場合に、識別器11が推定された目的音源の音響信号と識別するように学習する。このように、識別器11と分離器24との学習を交互に競わせるように行うことにより、分離器24は、より高精度に音響信号を推定することが可能となる。 Further, the estimation system 1 includes an identification device 10 that creates an identification device 11 by learning. In the identification device 10, when the identification learning unit 12 inputs the estimated value of the acoustic signal of the target sound source output by the separator 24, that is, the target sound source estimation unit 23, to the classifier 11, the target sound source estimated by the discriminator 11 Learn to distinguish from the acoustic signal of. In this way, by alternately competing the learning of the classifier 11 and the separator 24, the separator 24 can estimate the acoustic signal with higher accuracy.

なお、図5は、他の実施形態に係る推定装置20の概略構成を示す模式図である。図5に示すように、上記実施形態の識別装置10は、推定装置20と同一のハードウェアに実装されてもよい。この場合に、図5に示すように、推定装置20は、上記実施形態の識別装置10に相当する識別機能部100を備える。識別機能部100に含まれる各機能部および推定装置20の他の機能部は、図2を参照して説明した上記実施形態と同一であるので、説明を省略する。 Note that FIG. 5 is a schematic diagram showing a schematic configuration of the estimation device 20 according to another embodiment. As shown in FIG. 5, the identification device 10 of the above embodiment may be mounted on the same hardware as the estimation device 20. In this case, as shown in FIG. 5, the estimation device 20 includes an identification function unit 100 corresponding to the identification device 10 of the above embodiment. Since each functional unit included in the identification function unit 100 and other functional units of the estimation device 20 are the same as the above-described embodiment described with reference to FIG. 2, the description thereof will be omitted.

[実施例]
上記実施形態に係る推定システム1を用いて、バスの中やカフェ等の背景雑音が存在する環境において、一人の話者がタブレットに向かって文章を読み上げる音声を、タブレットに装着されたM=6個のマイクで収録した場合に、音声認識性能を確認する実験を行った。ここで、RMSPropの学習率は1×10−3とした。また、学習時のバッチサイズは40とした。
[Example]
Using the estimation system 1 according to the above embodiment, in an environment where background noise is present, such as in a bus or in a cafe, a voice of one speaker reading a sentence toward the tablet is transmitted to the tablet with M = 6. An experiment was conducted to confirm the voice recognition performance when recording with individual microphones. Here, the learning rate of RMSProp was set to 1 × 10 -3 . The batch size at the time of learning was set to 40.

この場合に、推定システム1を用いずに音声認識を行った場合の単語認識誤差率は15.6%であった。これに対し、推定システム1を用いてビームフォーミングにより音声強調を行った場合の単語認識誤差率は7.58%であった。このように、本実施形態の推定システム1による推定処理の効果が確認できた。 In this case, the word recognition error rate when voice recognition was performed without using the estimation system 1 was 15.6%. On the other hand, the word recognition error rate was 7.58% when speech enhancement was performed by beamforming using the estimation system 1. In this way, the effect of the estimation process by the estimation system 1 of the present embodiment can be confirmed.

[プログラム]
上記実施形態に係る推定システム1の識別装置10および推定装置20が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、識別装置10および推定装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記の推定処理を実行する推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の推定プログラムを情報処理装置に実行させることにより、情報処理装置を識別装置10または推定装置20として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)などの移動体通信端末、さらには、PDA(Personal Digital Assistants)などのスレート端末などがその範疇に含まれる。また、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の推定処理に関するサービスを提供するサーバ装置として実装することもできる。例えば、推定装置20は、観測信号を入力とし、推定値を出力する推定処理サービスを提供するサーバ装置として実装される。この場合、推定装置20は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の推定処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。以下に、識別装置10または推定装置20と同様の機能を実現する推定プログラムを実行するコンピュータの一例を説明する。
[program]
It is also possible to create a program in which the processing executed by the identification device 10 and the estimation device 20 of the estimation system 1 according to the above embodiment is described in a language that can be executed by a computer. In one embodiment, the identification device 10 and the estimation device 20 can be implemented by installing an estimation program that executes the above estimation process as package software or online software on a desired computer. For example, by causing the information processing device to execute the above estimation program, the information processing device can function as the identification device 10 or the estimation device 20. The information processing device referred to here includes a desktop type or notebook type personal computer. In addition, the information processing device includes smartphones, mobile communication terminals such as mobile phones and PHS (Personal Handyphone System), and slate terminals such as PDAs (Personal Digital Assistants). Further, the terminal device used by the user may be used as a client, and the terminal device may be implemented as a server device that provides the service related to the above estimation process to the client. For example, the estimation device 20 is implemented as a server device that provides an estimation processing service that receives an observation signal as an input and outputs an estimated value. In this case, the estimation device 20 may be implemented as a Web server, or may be implemented as a cloud that provides services related to the above estimation processing by outsourcing. An example of a computer that executes an estimation program that realizes the same function as the identification device 10 or the estimation device 20 will be described below.

図6は、推定プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。 FIG. 6 is a diagram showing an example of a computer that executes an estimation program. The computer 1000 has, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.

メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。 The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012. The ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System). The hard disk drive interface 1030 is connected to the hard disk drive 1031. The disk drive interface 1040 is connected to the disk drive 1041. A removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041. For example, a mouse 1051 and a keyboard 1052 are connected to the serial port interface 1050. For example, a display 1061 is connected to the video adapter 1060.

ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。処理に使用される各テーブルは、例えばハードディスクドライブ1031やメモリ1010に記憶される。 Here, the hard disk drive 1031 stores, for example, the OS 1091, the application program 1092, the program module 1093, and the program data 1094. Each table used for processing is stored in, for example, a hard disk drive 1031 or a memory 1010.

また、推定プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した識別装置10または推定装置20が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。 Further, the estimation program is stored in the hard disk drive 1031 as, for example, a program module 1093 in which a command executed by the computer 1000 is described. Specifically, the program module 1093 in which each process executed by the identification device 10 or the estimation device 20 described in the above embodiment is described is stored in the hard disk drive 1031.

また、推定プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。 Further, the data used for information processing by the estimation program is stored as program data 1094 in, for example, the hard disk drive 1031. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the hard disk drive 1031 into the RAM 1012 as needed, and executes each of the above-described procedures.

なお、推定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、推定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。 The program module 1093 and program data 1094 related to the estimation program are not limited to the case where they are stored in the hard disk drive 1031. For example, they are stored in a removable storage medium and read by the CPU 1020 via the disk drive 1041 or the like. May be done. Alternatively, the program module 1093 and the program data 1094 related to the estimation program are stored in another computer connected via a network such as a LAN (Local Area Network) or WAN (Wide Area Network), and are stored via the network interface 1070. It may be read by the CPU 1020.

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。 Although the embodiment to which the invention made by the present inventor is applied has been described above, the present invention is not limited by the description and the drawings which form a part of the disclosure of the present invention according to the present embodiment. That is, all other embodiments, examples, operational techniques, and the like made by those skilled in the art based on the present embodiment are included in the scope of the present invention.

1 推定システム
10 識別装置
11 識別器
12 識別学習部
13 識別部
20,200 推定装置
21,201 時間周波数分析部
22,202 特徴量抽出部
23,203 目的音源推定部
24,204 分離器
100 識別機能部
1 Estimating system 10 Discriminator 11 Discriminator 12 Discriminating learning unit 13 Discriminating unit 20,200 Estimating device 21,201 Time frequency analysis unit 22,202 Feature extraction unit 23,203 Target sound source estimation unit 24,204 Separator 100 Identification function Department

Claims (8)

マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析部と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する手段であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習部と、
を備えることを特徴とする推定装置。
It accepts the input of the observation signal of the mixed sound including the acoustic signal of the target sound source recorded by the microphone, extracts the observation signal for each time frequency point from the observation signal, and composes the observation signal for each time frequency point extracted. The time-frequency analysis unit that generates the observation vector to be performed,
A feature amount extraction unit that extracts a predetermined acoustic feature amount from the generated observation vector, and a feature amount extraction unit.
It is a means for learning the estimated value of the acoustic signal of the target sound source output by the separator when creating a separator that outputs the estimated value of the acoustic signal of the target sound source by using the acoustic feature amount. Then, it accepts the input of the acoustic signal of the true target sound source or the acoustic signal of the estimated target sound source, and determines whether the acoustic signal of the target sound source is the acoustic signal of the true target sound source or the acoustic signal of the estimated target sound source. An estimation learning unit that learns the estimated value so that the classifier distinguishes it from the acoustic signal of the true target sound source when input to the discriminating device.
An estimation device comprising.
マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析部と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する手段であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習部と、
前記識別器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を前記識別器に入力した場合に、前記識別器が推定された目的音源の音響信号と識別するように学習する識別学習部と、
を備えることを特徴とする推定装置。
It accepts the input of the observation signal of the mixed sound including the acoustic signal of the target sound source recorded by the microphone, extracts the observation signal for each time frequency point from the observation signal, and composes the observation signal for each time frequency point extracted. The time-frequency analysis unit that generates the observation vector to be performed,
A feature amount extraction unit that extracts a predetermined acoustic feature amount from the generated observation vector, and a feature amount extraction unit.
It is a means for learning the estimated value of the acoustic signal of the target sound source output by the separator when creating a separator that outputs the estimated value of the acoustic signal of the target sound source by using the acoustic feature amount. Then, it accepts the input of the acoustic signal of the true target sound source or the acoustic signal of the estimated target sound source, and determines whether the acoustic signal of the target sound source is the acoustic signal of the true target sound source or the acoustic signal of the estimated target sound source. An estimation learning unit that learns the estimated value so that the classifier distinguishes it from the acoustic signal of the true target sound source when input to the discriminating device.
When the classifier is created by learning, when the estimated value of the acoustic signal of the target sound source output by the separator is input to the classifier, the classifier distinguishes it from the estimated acoustic signal of the target sound source. With the identification learning department that learns to do
An estimation device comprising.
マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析部と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を用いて前記目的音源の音響信号の前記混合音に対する割合を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の前記混合音に対する割合を学習する手段であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に、目的音源の音響信号の推定値を入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記割合を学習する推定学習部と、
前記分離器を用いて、入力された前記観測信号に含まれる前記目的音源の音響信号の推定値を出力する目的音源推定部と、
を備えることを特徴とする推定装置。
It accepts the input of the observation signal of the mixed sound including the acoustic signal of the target sound source recorded by the microphone, extracts the observation signal for each time frequency point from the observation signal, and composes the observation signal for each time frequency point extracted. The time-frequency analysis unit that generates the observation vector to be performed,
A feature amount extraction unit that extracts a predetermined acoustic feature amount from the generated observation vector, and a feature amount extraction unit.
When creating a separator that outputs the ratio of the acoustic signal of the target sound source to the mixed sound using the acoustic feature amount by learning, the ratio of the acoustic signal of the target sound source output by the separator to the mixed sound. Is a means for learning, and accepts the input of the sound signal of the true target sound source or the sound signal of the estimated target sound source, and whether the sound signal of the target sound source is the sound signal of the true target sound source or the estimated purpose. Estimated learning to learn the ratio so that when the estimated value of the acoustic signal of the target sound source is input to the classifier that identifies whether it is the acoustic signal of the sound source, the classifier distinguishes it from the sound signal of the true target sound source. Department and
Using the separator, a target sound source estimation unit that outputs an estimated value of an acoustic signal of the target sound source included in the input observation signal, and a target sound source estimation unit.
An estimation device comprising.
マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析部と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出部と、
前記音響特徴量を用いて前記目的音源の音響信号の前記混合音に対する割合を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の前記混合音に対する割合を学習する手段であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを示す識別値を出力する識別器に、目的音源の音響信号の推定値を入力した場合に、前記識別器が真の目的音源の音響信号を示す識別値を出力するように、前記割合を学習する推定学習部と、
前記分離器を用いて、入力された前記観測信号に含まれる前記目的音源の音響信号の推定値を出力する目的音源推定部と、
前記識別器を学習により作成する際に、前記目的音源推定部が出力した前記目的音源の音響信号の推定値を前記識別器に入力した場合に、前記識別器が推定された目的音源の音響信号を示す識別値を出力するように学習する識別学習部と、
前記識別器を用いて、入力された音響信号が真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別部と、
を備えることを特徴とする推定装置。
It accepts the input of the observation signal of the mixed sound including the acoustic signal of the target sound source recorded by the microphone, extracts the observation signal for each time frequency point from the observation signal, and composes the observation signal for each time frequency point extracted. The time-frequency analysis unit that generates the observation vector to be performed,
A feature amount extraction unit that extracts a predetermined acoustic feature amount from the generated observation vector, and a feature amount extraction unit.
When creating a separator that outputs the ratio of the acoustic signal of the target sound source to the mixed sound using the acoustic feature amount by learning, the ratio of the acoustic signal of the target sound source output by the separator to the mixed sound. Is a means for learning, and accepts the input of the sound signal of the true target sound source or the sound signal of the estimated target sound source, and whether the sound signal of the target sound source is the sound signal of the true target sound source or the estimated purpose. When an estimated value of the sound signal of the target sound source is input to the classifier that outputs the identification value indicating whether it is the sound signal of the sound source, the classifier outputs the discrimination value indicating the sound signal of the true target sound source. , The estimation learning unit that learns the above ratio,
Using the separator, a target sound source estimation unit that outputs an estimated value of an acoustic signal of the target sound source included in the input observation signal, and a target sound source estimation unit.
When the discriminator is created by learning, when the estimated value of the acoustic signal of the target sound source output by the target sound source estimation unit is input to the discriminator, the acoustic signal of the target sound source estimated by the discriminator is input. The identification learning unit that learns to output the identification value indicating
Using the classifier, an identification unit that discriminates whether the input acoustic signal is the acoustic signal of the true target sound source or the acoustic signal of the estimated target sound source, and
An estimation device comprising.
推定装置で実行される推定方法であって、
マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析工程と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出工程と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する工程であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習工程と、
を含んだことを特徴とする推定方法。
An estimation method performed by an estimation device
It accepts the input of the observation signal of the mixed sound including the acoustic signal of the target sound source recorded by the microphone, extracts the observation signal for each time frequency point from the observation signal, and composes the observation signal for each time frequency point extracted. The time-frequency analysis process to generate the observation vector to be performed,
A feature amount extraction step for extracting a predetermined acoustic feature amount from the generated observation vector, and
This is a step of learning the estimated value of the acoustic signal of the target sound source output by the separator when creating a separator that outputs the estimated value of the acoustic signal of the target sound source using the acoustic feature amount. Then, it accepts the input of the acoustic signal of the true target sound source or the acoustic signal of the estimated target sound source, and determines whether the acoustic signal of the target sound source is the acoustic signal of the true target sound source or the acoustic signal of the estimated target sound source. An estimation learning step of learning the estimated value so that the classifier distinguishes it from the acoustic signal of the true target sound source when input to the discriminating device.
An estimation method characterized by including.
推定装置で実行される推定方法であって、
マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析工程と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出工程と、
前記音響特徴量を用いて前記目的音源の音響信号の推定値を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を学習する工程であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記推定値を学習する推定学習工程と、
前記識別器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の推定値を前記識別器に入力した場合に、前記識別器が推定された目的音源の音響信号と識別するように学習する識別学習工程と、
を含んだことを特徴とする推定方法。
An estimation method performed by an estimation device
It accepts the input of the observation signal of the mixed sound including the acoustic signal of the target sound source recorded by the microphone, extracts the observation signal for each time frequency point from the observation signal, and composes the observation signal for each time frequency point extracted. The time-frequency analysis process to generate the observation vector to be performed,
A feature amount extraction step for extracting a predetermined acoustic feature amount from the generated observation vector, and
This is a step of learning the estimated value of the acoustic signal of the target sound source output by the separator when creating a separator that outputs the estimated value of the acoustic signal of the target sound source using the acoustic feature amount. Then, it accepts the input of the acoustic signal of the true target sound source or the acoustic signal of the estimated target sound source, and determines whether the acoustic signal of the target sound source is the acoustic signal of the true target sound source or the acoustic signal of the estimated target sound source. An estimation learning step of learning the estimated value so that the classifier distinguishes it from the acoustic signal of the true target sound source when input to the discriminating device.
When the classifier is created by learning, when the estimated value of the acoustic signal of the target sound source output by the separator is input to the classifier, the classifier distinguishes it from the estimated acoustic signal of the target sound source. The identification learning process that learns to do
An estimation method characterized by including.
推定装置で実行される推定方法であって、
マイクで収録された目的音源の音響信号を含む混合音の観測信号の入力を受け付けて、該観測信号から時間周波数点ごとの観測信号を抽出し、抽出した時間周波数点ごとの前記観測信号で構成される観測ベクトルを生成する時間周波数分析工程と、
生成された前記観測ベクトルから所定の音響特徴量を抽出する特徴量抽出工程と、
前記音響特徴量を用いて前記目的音源の音響信号の前記混合音に対する割合を出力する分離器を学習により作成する際に、前記分離器が出力した前記目的音源の音響信号の前記混合音に対する割合を学習する工程であって、真の目的音源の音響信号または推定された目的音源の音響信号の入力を受け付けて、該目的音源の音響信号が、真の目的音源の音響信号か推定された目的音源の音響信号かを識別する識別器に、目的音源の音響信号の推定値を入力した場合に、前記識別器が真の目的音源の音響信号と識別するように、前記割合を学習する推定学習工程と、
前記分離器を用いて、入力された前記観測信号に含まれる前記目的音源の音響信号の推定値を出力する目的音源推定工程と、
を含んだことを特徴とする推定方法。
An estimation method performed by an estimation device
It accepts the input of the observation signal of the mixed sound including the acoustic signal of the target sound source recorded by the microphone, extracts the observation signal for each time frequency point from the observation signal, and composes the observation signal for each time frequency point extracted. The time-frequency analysis process to generate the observation vector to be performed,
A feature amount extraction step for extracting a predetermined acoustic feature amount from the generated observation vector, and
When creating a separator that outputs the ratio of the acoustic signal of the target sound source to the mixed sound using the acoustic feature amount by learning, the ratio of the acoustic signal of the target sound source output by the separator to the mixed sound. In the process of learning, the sound signal of the true target sound source or the sound signal of the estimated target sound source is received, and the sound signal of the target sound source is the sound signal of the true target sound source or the estimated purpose. Estimated learning to learn the ratio so that when the estimated value of the acoustic signal of the target sound source is input to the classifier that identifies whether it is the acoustic signal of the sound source, the classifier distinguishes it from the sound signal of the true target sound source. Process and
A target sound source estimation step of outputting an estimated value of an acoustic signal of the target sound source included in the input observation signal using the separator, and a target sound source estimation step.
An estimation method characterized by including.
コンピュータを請求項1〜4のいずれか1項に記載の推定装置として機能させるための推定プログラム。 An estimation program for operating a computer as an estimation device according to any one of claims 1 to 4.
JP2017236811A 2017-12-11 2017-12-11 Estimator, estimation method and estimation program Active JP6930408B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017236811A JP6930408B2 (en) 2017-12-11 2017-12-11 Estimator, estimation method and estimation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017236811A JP6930408B2 (en) 2017-12-11 2017-12-11 Estimator, estimation method and estimation program

Publications (2)

Publication Number Publication Date
JP2019105681A JP2019105681A (en) 2019-06-27
JP6930408B2 true JP6930408B2 (en) 2021-09-01

Family

ID=67062408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017236811A Active JP6930408B2 (en) 2017-12-11 2017-12-11 Estimator, estimation method and estimation program

Country Status (1)

Country Link
JP (1) JP6930408B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580288B (en) * 2019-08-23 2022-09-09 腾讯科技(深圳)有限公司 Text classification method and device based on artificial intelligence

Also Published As

Publication number Publication date
JP2019105681A (en) 2019-06-27

Similar Documents

Publication Publication Date Title
CN110600017B (en) Training method of voice processing model, voice recognition method, system and device
Kameoka et al. Supervised determined source separation with multichannel variational autoencoder
JP6434657B2 (en) Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program
JPWO2019017403A1 (en) Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
US11355097B2 (en) Sample-efficient adaptive text-to-speech
JP6517760B2 (en) Mask estimation parameter estimation device, mask estimation parameter estimation method and mask estimation parameter estimation program
JPWO2017141542A1 (en) Mask estimation apparatus, mask estimation method, and mask estimation program
JP2020071482A (en) Word sound separation method, word sound separation model training method and computer readable medium
KR20180025634A (en) Voice recognition apparatus and method
WO2019163736A1 (en) Mask estimation device, model learning device, sound source separation device, mask estimation method, model learning method, sound source separation method, and program
JP6538624B2 (en) Signal processing apparatus, signal processing method and signal processing program
JP6711765B2 (en) Forming apparatus, forming method, and forming program
WO2019138897A1 (en) Learning device and method, and program
JP6930408B2 (en) Estimator, estimation method and estimation program
JP5726790B2 (en) Sound source separation device, sound source separation method, and program
JP7329393B2 (en) Audio signal processing device, audio signal processing method, audio signal processing program, learning device, learning method and learning program
JP7112348B2 (en) SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD AND SIGNAL PROCESSING PROGRAM
JP6636973B2 (en) Mask estimation apparatus, mask estimation method, and mask estimation program
US20170206898A1 (en) Systems and methods for assisting automatic speech recognition
JP2020135485A (en) Expansion apparatus, expansion method, and expansion program
JP6734237B2 (en) Target sound source estimation device, target sound source estimation method, and target sound source estimation program
JP7024615B2 (en) Blind separation devices, learning devices, their methods, and programs
WO2022034675A1 (en) Signal processing device, signal processing method, signal processing program, learning device, learning method, and learning program
JP7293162B2 (en) Signal processing device, signal processing method, signal processing program, learning device, learning method and learning program
WO2023152915A1 (en) Signal processing device, signal processing method, and signal processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201013

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210726

R150 Certificate of patent or registration of utility model

Ref document number: 6930408

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150