JP2019045576A - Target voice extraction method, target voice extraction device and target voice extraction program - Google Patents

Target voice extraction method, target voice extraction device and target voice extraction program Download PDF

Info

Publication number
JP2019045576A
JP2019045576A JP2017165974A JP2017165974A JP2019045576A JP 2019045576 A JP2019045576 A JP 2019045576A JP 2017165974 A JP2017165974 A JP 2017165974A JP 2017165974 A JP2017165974 A JP 2017165974A JP 2019045576 A JP2019045576 A JP 2019045576A
Authority
JP
Japan
Prior art keywords
keyword
space covariance
covariance matrix
noise
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017165974A
Other languages
Japanese (ja)
Other versions
JP6711789B2 (en
Inventor
卓哉 樋口
Takuya Higuchi
卓哉 樋口
信貴 伊藤
Nobutaka Ito
信貴 伊藤
慶介 木下
Keisuke Kinoshita
慶介 木下
荒木 章子
Akiko Araki
章子 荒木
中谷 智広
Tomohiro Nakatani
智広 中谷
翔一郎 齊藤
Shoichiro Saito
翔一郎 齊藤
弘章 伊藤
Hiroaki Ito
弘章 伊藤
小林 和則
Kazunori Kobayashi
和則 小林
登 原田
Noboru Harada
登 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017165974A priority Critical patent/JP6711789B2/en
Publication of JP2019045576A publication Critical patent/JP2019045576A/en
Application granted granted Critical
Publication of JP6711789B2 publication Critical patent/JP6711789B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

To precisely extract target voice in environment where various background noises are mixed.SOLUTION: A keyword detection section 11 detects that a keyword is spoken on the basis of an inputted sound signal, and calculates a keyword section being a time section when the keyword is spoken. A space covariance calculation section 12 calculates a target signal space covariance matrix under noise, which is a space covariance matrix on the basis of the sound signal of the keyword section, and calculates a noise space covariance matrix being the space covariance matrix on the basis of the sound signal of the prescribed time section except for the keyword section. A noise suppression section 13 calculates a noise suppression filter on the basis of the target signal space covariance matrix under noise and the noise space covariance matrix, and applies the noise suppression filter to the inputted sound signal to extract a target voice.SELECTED DRAWING: Figure 1

Description

本発明は、目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラムに関する。   The present invention relates to a target speech extraction method, a target speech extraction device, and a target speech extraction program.

目的話者が発した音声と背景雑音とが混在する状況において、複数のマイクロホンで収音された観測信号から、目的音声のみを抽出する方法は、従来から提案されている(例えば、非特許文献1を参照)。   A method of extracting only a target voice from observation signals collected by a plurality of microphones in the situation where the voice generated by the target speaker and the background noise are mixed has been proposed conventionally (for example, non-patent literature) See 1).

ここで、図10を用いて、従来の目的音声抽出装置について説明する。図10は、従来の目的音声抽出装置の構成を示す図である。図10に示すように、目的音声抽出装置10aは、空間共分散計算部11a、雑音抑圧部13a及び記憶部14aを有する。   Here, a conventional target speech extraction device will be described using FIG. FIG. 10 is a diagram showing the configuration of a conventional target speech extraction apparatus. As shown in FIG. 10, the target speech extraction device 10a has a space covariance calculation unit 11a, a noise suppression unit 13a, and a storage unit 14a.

まず、空間共分散計算部11aは、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを表す時間周波数マスクを計算する。次に、空間共分散計算部11aは、時間周波数マスクを用いて、目的音声が優勢な時間周波数点の音響信号の特徴量を計算し、当該特徴量に基づき、目的音声と雑音の両方を含む音響信号の空間共分散行列である雑音下目的信号空間共分散行列を計算する。また、空間共分散計算部11aは、時間周波数マスクを用いて、雑音が優勢な時間周波数点の音響信号の特徴量を計算し、当該特徴量に基づき、雑音のみを含む音響信号の空間共分散行列である雑音空間共分散行列を計算する。   First, the space covariance calculation unit 11a calculates, for each time frequency point, a time frequency mask representing which of the target voice and noise is dominant. Next, the space covariance calculation unit 11a uses the time frequency mask to calculate the feature of the acoustic signal at the time frequency point where the target voice is dominant, and includes both the target voice and noise based on the feature. Compute the noisy target signal space covariance matrix which is the space covariance matrix of the acoustic signal. In addition, the spatial covariance calculation unit 11a calculates a feature of an acoustic signal at a time frequency point where noise is dominant using a time frequency mask, and based on the feature, a spatial covariance of an acoustic signal containing only noise. Compute the noise space covariance matrix, which is a matrix.

そして、雑音抑圧部13aは、音響信号と雑音下目的信号空間共分散行列と雑音空間共分散行列とを基に雑音抑圧フィルタを計算し、計算した雑音抑圧フィルタを観測信号に適用することで、目的音声を抽出する。   Then, the noise suppression unit 13a calculates the noise suppression filter based on the acoustic signal, the target signal space covariance matrix under noise, and the noise space covariance matrix, and applies the calculated noise suppression filter to the observation signal, Extract the target voice.

マスク計算の方法としては、音響信号の空間特徴量クラスタリングに基づく方法(例えば、非特許文献1を参照)、ディープニューラルネットワーク(DNN)に基づく方法(例えば、非特許文献2を参照)等が知られている。   As a method of mask calculation, a method based on spatial feature clustering of acoustic signals (see, for example, Non-Patent Document 1), a method based on a deep neural network (DNN) (see, for example, Non-patent document 2), etc. are known. It is done.

Takuya Higuchi, Nobutaka Ito, Takuya Yoshioka, Tomohiro Nakatani, “Robust MVDR beamforming using time-frequency masks for online/offline ASR in noise,”ICASSP 2016, pp. 5210-5214, 2016.Takuya Higuchi, Nobutaka Ito, Takuya Yoshioka, Tomohiro Nakatani, “Robust MVDR beamforming using time-frequency masks for online / offline ASR in noise,” ICASSP 2016, pp. 5210-5214, 2016. Jahn Heymann, Lukas Drude, Reinhold Haeb-Umbach, “Neural network based spectral mask estimation for acoustic beamforming,” ICASSP 2016, pp. 196-200, 2016.Jahn Heymann, Lukas Drude, Reinhold Haeb-Umbach, “Neural network based spectral mask estimation for acoustic beamforming,” ICASSP 2016, pp. 196-200, 2016.

しかしながら、従来の目的音声抽出方法には、様々な背景雑音が混在する環境では、目的音声の抽出精度が低くなる場合があるという問題があった。例えば、音響信号の中に目的話者以外の話者が含まれていたり、TV等の音が含まれていたりする場合、従来の目的音声抽出方法では、どれが目的音声なのかを定めることができない場合がある。また、例えば、入力されてくる音響信号を逐次的に処理する場合、目的音声の開始時に、空間共分散行列の推定精度が低くなる場合がある。   However, the conventional target speech extraction method has a problem that the extraction accuracy of the target speech may be low in an environment where various background noises are mixed. For example, when a speaker other than the target speaker is included in the sound signal, or a sound such as a TV is included, in the conventional target speech extraction method, it is necessary to determine which is the target speech. It may not be possible. Also, for example, when processing an input acoustic signal sequentially, the estimation accuracy of the spatial covariance matrix may be low at the start of the target speech.

さらに、上記の課題を回避するために、事前学習した雑音下目的信号空間共分散行列や雑音空間共分散行列を空間共分散の初期値として用いる方法が提案されている。しかし、この方法では、話者が話す位置をある程度、事前に、固定する必要がある。そのため、話者が自由な位置で話す場合、目的音声を抽出することは困難である。   Furthermore, in order to avoid the above-mentioned problems, a method has been proposed in which a previously learned noisy target signal space covariance matrix or noise space covariance matrix is used as an initial value of space covariance. However, in this method, it is necessary to fix the position where the speaker speaks to some extent in advance. Therefore, when the speaker speaks freely, it is difficult to extract a target voice.

上述した課題を解決し、目的を達成するために、本発明の目的音声抽出方法は、入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出工程と、前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算工程と、前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧工程と、を含んだことを特徴とする。   In order to solve the problems described above and achieve the purpose, the target speech extraction method of the present invention detects that a keyword has been spoken based on the input acoustic signal, and a time interval in which the keyword is spoken. Calculating a keyword segment that is a keyword segment, and calculating a noisy target signal space covariance matrix that is a spatial covariance matrix based on the acoustic signal of the keyword segment, and an acoustic signal of a predetermined time segment other than the keyword segment Calculating a noise covariance calculation process for calculating a noise space covariance matrix which is a space covariance matrix based on the noise suppression filter based on the noise target signal space covariance matrix and the noise space covariance matrix, And applying a noise suppression filter to the acoustic signal to extract a target speech.

本発明によれば、様々な背景雑音が混在する環境で、目的音声を精度よく抽出することができる。   According to the present invention, it is possible to accurately extract the target voice in an environment where various background noises are mixed.

図1は、第1の実施形態に係る目的音声抽出装置の構成の一例を示す図である。FIG. 1 is a diagram showing an example of the configuration of a target speech extraction apparatus according to the first embodiment. 図2は、第1の実施形態に係る目的音声抽出装置の処理の流れを示すフローチャートである。FIG. 2 is a flowchart showing the process flow of the target speech extraction device according to the first embodiment. 図3は、第1の実施形態の変形例に係る目的音声抽出装置の処理の流れを示すフローチャートである。FIG. 3 is a flowchart showing a process flow of the target speech extraction device according to the modification of the first embodiment. 図4は、第2の実施形態に係る目的音声抽出装置の構成の一例を示す図である。FIG. 4 is a diagram showing an example of the configuration of the target speech extraction device according to the second embodiment. 図5は、第2の実施形態に係る目的音声抽出装置の処理の流れを示すフローチャートである。FIG. 5 is a flowchart showing a process flow of the target speech extraction device according to the second embodiment. 図6は、第3の実施形態に係る目的音声抽出装置の構成の一例を示す図である。FIG. 6 is a diagram showing an example of the configuration of the target speech extraction device according to the third embodiment. 図7は、第3の実施形態に係る目的音声抽出装置の処理の流れを示すフローチャートである。FIG. 7 is a flowchart showing the process flow of the target speech extraction device according to the third embodiment. 図8は、第3の実施形態の変形例に係る目的音声抽出装置の処理の流れを示すフローチャートである。FIG. 8 is a flowchart showing the process flow of the target speech extraction apparatus according to the modification of the third embodiment. 図9は、目的音声抽出プログラムを実行するコンピュータの一例を示す図である。FIG. 9 is a diagram illustrating an example of a computer that executes a target voice extraction program. 図10は、従来の目的音声抽出装置を示す図である。FIG. 10 shows a conventional target speech extraction apparatus.

以下に、本願に係る目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラムの実施形態を図面に基づいて詳細に説明する。また、実施形態において、目的音声抽出方法及び目的音声抽出プログラムは、目的音声抽出装置によって実行されるものとする。   Hereinafter, embodiments of a target speech extraction method, a target speech extraction device, and a target speech extraction program according to the present application will be described in detail based on the drawings. In the embodiment, the target speech extraction method and the target speech extraction program are executed by the target speech extraction device.

以下の説明では、目的音声と背景雑音とが混在する状況において、それぞれ異なる位置で収録されたM個(ただし、Mは2以上の整数)の音響信号が目的音声抽出装置に入力されるものとする。   In the following description, in a situation where target voice and background noise are mixed, M (where M is an integer of 2 or more) acoustic signals recorded at different positions are input to the target voice extraction device. Do.

以下、実施形態では、各音響信号は、短時間フーリエ変換された信号xt,f (m)(t:時間番号、f:周波数番号、m:マイク番号)として表現されているものとして説明する。目的音声抽出装置は、他の時間周波数表現された信号でも同様に扱うことができ、また、音響信号が波形で与えられている場合であっても、適宜、周波数分析を行うことで、時間周波数表現された信号に変換して用いることができる。なお、ここに記載する実施形態により、本発明が限定されるものではない。 Hereinafter, in the embodiment, each acoustic signal will be described as being expressed as a short-time Fourier transformed signal x t, f (m) (t: time number, f: frequency number, m: microphone number) . The target speech extraction device can handle other time-frequency expressed signals in the same manner, and even if an acoustic signal is given as a waveform, the time-frequency can be obtained by appropriately performing frequency analysis. It can be converted to a represented signal and used. The present invention is not limited by the embodiments described herein.

[第1の実施形態]
[第1の実施形態の構成]
第1の実施形態に係る目的音声抽出装置の構成、処理の流れ及び効果を説明する。まず、図1を用いて、第1の実施形態の構成について説明する。図1は、第1の実施形態に係る目的音声抽出装置の構成の一例を示す図である。図1に示すように、目的音声抽出装置10は、キーワード検出部11、空間共分散計算部12及び雑音抑圧部13を有する。
First Embodiment
Configuration of First Embodiment
The configuration of the target speech extraction device according to the first embodiment, the flow of processing, and effects will be described. First, the configuration of the first embodiment will be described using FIG. FIG. 1 is a diagram showing an example of the configuration of a target speech extraction apparatus according to the first embodiment. As shown in FIG. 1, the target speech extraction device 10 has a keyword detection unit 11, a space covariance calculation unit 12, and a noise suppression unit 13.

キーワード検出部11は、入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算する。キーワード検出部11は、入力されてくる音響信号中に、あらかじめ定められたキーワードが含まれているかどうかを監視し、キーワードを検出した場合に、キーワードが含まれる時間区間を求め、出力する。   The keyword detection unit 11 detects that a keyword has been spoken based on the input acoustic signal, and calculates a keyword section that is a time interval in which the keyword is spoken. The keyword detection unit 11 monitors whether or not a predetermined keyword is included in the input audio signal, and when a keyword is detected, determines a time interval in which the keyword is included and outputs it.

キーワード検出部11は、キーワードの開始時刻と終了時刻を求め、開始時刻から終了時刻までの時間区間をキーワード区間とすることができる。例えば、キーワード検出部11は、キーワードが話され終わった終了時刻を検出し、終了時刻と、キーワードを話す時間としてあらかじめ定められた時間と、に基づいてキーワード区間を計算することができる。具体的には、キーワード検出部11は、キーワード終了時刻を求め、終了時刻からあらかじめ定められたキーワードの期待される時間長だけ時間をさかのぼってキーワード開始時刻と定めることができる。   The keyword detection unit 11 can obtain the start time and the end time of the keyword, and can set the time section from the start time to the end time as the keyword section. For example, the keyword detection unit 11 can detect the end time at which the keyword has been spoken, and calculate the keyword section based on the end time and a predetermined time for talking the keyword. Specifically, the keyword detection unit 11 can obtain the keyword end time, and trace back the time that is expected from the end time by the predetermined time length of the keyword, and can determine it as the keyword start time.

また、キーワード検出部11は、キーワード区間の推定誤差を考慮して、求めたキーワード区間の前後の時間区間を含めてキーワード区間と定めてもよい。また、キーワード検出部11は、キーワードの検出方法としては、キーワード区間又はキーワード終了時刻を求めることができる方法であればどのような方法を用いてもよい。キーワードの検出方法として、従来より、様々な方法が提案されている。   In addition, the keyword detection unit 11 may define a keyword section including time sections before and after the obtained keyword section in consideration of an estimation error of the keyword section. Also, the keyword detection unit 11 may use any method as a keyword detection method as long as it can obtain a keyword section or a keyword end time. Conventionally, various methods have been proposed as keyword detection methods.

空間共分散計算部12は、音響信号とキーワード区間を受け取る。そして、空間共分散計算部12は、キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する。雑音下目的信号空間共分散行列は、音声と雑音の両方を含む音響信号の空間共分散行列である。また、雑音空間共分散行列は、雑音のみを含む音響信号の空間共分散行列である。   The spatial covariance calculation unit 12 receives an acoustic signal and a keyword section. Then, the space covariance calculation unit 12 calculates a noisy target signal space covariance matrix which is a space covariance matrix based on the sound signal of the keyword section, and generates space covariance based on the sound signal of a predetermined time section other than the keyword section. Compute the noise space covariance matrix, which is the variance matrix. A noisy target signal space covariance matrix is a space covariance matrix of an acoustic signal that contains both speech and noise. Also, the noise space covariance matrix is a space covariance matrix of an acoustic signal containing only noise.

いま、全マイクロホンからの音響信号を、各時間周波数点(t,f)ごとにまとめて、以下の(1)式のように、1つのベクトルで表現するものとする。   Now, it is assumed that the acoustic signals from all the microphones are summarized for each time frequency point (t, f) and represented by one vector as shown in the following equation (1).

Figure 2019045576
Figure 2019045576

ただし、'は、行列やベクトルの非共役転置を表すものとする。さらに、キーワード区間に含まれる時間番号の集合をTinと表記し、キーワード区間以外の時間区間に含まれる時間番号の集合をToutと表記することとする。また、Tin及びToutの要素の個数を、それぞれNin及びNoutと表記することとする。 Here, 'represents non-conjugate transposition of a matrix or a vector. In addition, a set of time number that is included in the keyword section is denoted by T in, and be referred to a set of time number that is included in the time interval of non-keyword section and T out. Further, the number of elements T in and T out, respectively, and be referred to as N in and N out.

ここで、Toutは、キーワード区間の前後の雑音のみが存在すると期待される時間区間を指す。例えば、Toutは、キーワード区間の直前の一定の時間区間(例えば、3秒)としてもよいし、キーワード区間の直後の一定の時間区間(例えば、1秒)としてもよい。また、Toutは、キーワード区間の直前の一定の時間区間とキーワード区間の直後の一定の時間区間とを合わせたものとしてもよい。すると、空間共分散計算部12は、雑音下目的信号空間共分散行列Φsと雑音空間共分散行列Φnを、それぞれ以下の(2−1)式及び(2−2)式のように求めることができる。 Here, T out refers to a time interval in which only noise before and after the keyword interval is expected to be present. For example, T out may be a predetermined time interval (eg, 3 seconds) immediately before the keyword interval, or may be a predetermined time interval (eg, 1 second) immediately after the keyword interval. Further, T out may be a combination of a predetermined time section immediately before the keyword section and a predetermined time section immediately after the keyword section. Then, the space covariance calculation unit 12 obtains the noise target signal space covariance matrix s s and the noise space covariance matrix n n respectively as the following equations (2-1) and (2-2) be able to.

Figure 2019045576
Figure 2019045576

ただし、Hは、行列やベクトルの共役転置を表す。また、t∈Tは、tが集合Tの要素であることを表す。   However, H represents conjugate transposition of a matrix or a vector. Further, t∈T represents that t is an element of the set T.

雑音抑圧部13は、入力された音響信号と雑音空間共分散行列と雑音下目的信号空間共分散行列とを受け取る。そして、雑音抑圧部13は、雑音下目的信号空間共分散行列及び雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に雑音抑圧フィルタを適用し、目的音声を抽出する。   The noise suppression unit 13 receives the input acoustic signal, the noise space covariance matrix, and the noisy target signal space covariance matrix. Then, the noise suppression unit 13 calculates a noise suppression filter based on the noisy target signal space covariance matrix and the noise space covariance matrix, applies a noise suppression filter to the input acoustic signal, and extracts the target voice. .

雑音抑圧部13は、例えば、参考文献1(Nobutaka Ito, Shoko Araki, Marc Delcroix, Tomohiro Nakata, “PROBABILISTIC SPATIAL DICTIONARY BASED ONLINE ADAPTIVE BEAMFORMING FOR MEETING RECOGNITION IN NOISY AND REVERBERANT ENVIRONMENTS,”ICASSP 2017, pp. 681-685, 2017.)に記載の方法を用いて雑音抑圧フィルタを計算することができる。   For example, the noise suppression unit 13 is described in Reference 1 (Nobutaka Ito, Shoko Araki, Marc Delcroix, Tomohiro Nakata, “PROBABILISTIC SPATIAL DICTIONARY BASED ONLINE ADAPTIVE BEAMFORMING FOR MEETING RECOGNITION IN NOISY AND REVERBERANT ENVIRONMENTS,” ICASSP 2017, pp. 681-685 , 2017.) can be used to calculate the noise suppression filter.

雑音抑圧部13は、参考文献1に記載の方法を用いる場合、E()を、行列の最大固有値に対応する固有ベクトルを抽出する関数とすると、以下の(3−1)式及び(3−2)式のように雑音抑圧フィルタを計算することができる。   When the noise suppression unit 13 uses the method described in reference 1, assuming that E () is a function for extracting an eigenvector corresponding to the maximum eigenvalue of the matrix, the following (3-1) formula and (3-2) The noise suppression filter can be calculated as in

Figure 2019045576
Figure 2019045576

ここで、hf=[hf (1),hf (2),…,hf (M)]は、話者からマイクロホンまでの音響伝達関数(目的音声のステアリングベクトル)に相当し、wf=[wf (1),wf (2),…,wf (M)]は、無歪応答最小分散フィルタに相当する。 Here, h f = [h f (1) , h f (2) ,..., H f (M) ] corresponds to the acoustic transfer function (steering vector of the target voice) from the speaker to the microphone, and w f = [w f (1) , w f (2) ,..., w f (M) ] corresponds to a distortionless minimum dispersion filter.

また、雑音抑圧部13は、例えば、参考文献2(Shoko Araki, Hiroshi Sawada, Shoji Makino, “Blind speech separation in a meeting situation with maximum SNR beamformers,” ICASSP 2007, vol. I, pp. 41-44, 2007.)に記載の方法を用いて、以下の(4−1)式及び(4−2)式のように雑音抑圧フィルタを計算することができる。   Also, for example, the noise suppression unit 13 is described in Reference 2 (Shoko Araki, Hiroshi Sawada, Shoji Makino, “Blind speech separation in a meeting situation with maximum SNR beamformers,” ICASSP 2007, vol. I, pp. 41-44, The noise suppression filter can be calculated as the following equations (4-1) and (4-2) using the method described in 2007.).

Figure 2019045576
Figure 2019045576

ここで、(5)式で表されるφxは、音響信号の空間共分散行列に相当し、例えば、(4−1)式及び(4−2)式より、(6)式のように求めることができる。また、ej=[0,…,0,1,0,…,0]’は、音声を抽出する対象となるマイクの番号に対応するj番目の要素だけが1で、それ以外の要素は0となるM次列ベクトルに相当する。 Here, φ x represented by the equation (5) corresponds to the space covariance matrix of the acoustic signal, and for example, according to the equations (4-1) and (4-2), It can be asked. Also, e j = [0, ..., 0, 1, 0, ..., 0] 'means that only the j-th element corresponding to the microphone number for which speech is to be extracted is 1 and the other elements are It corresponds to an M-order column vector that is zero.

Figure 2019045576
Figure 2019045576

Figure 2019045576
Figure 2019045576

雑音抑圧部13は、雑音抑圧フィルタの計算方法として、上記以外にも、非特許文献1又は非特許文献2に記載の方法等、様々な方法を利用することができる。続いて、雑音抑圧部13は、計算した雑音抑圧フィルタを、例えば、以下の(7)式のように音響信号に適用することで目的音声を抽出する。   In addition to the above, the noise suppression unit 13 can use various methods such as the method described in Non-Patent Document 1 or Non-Patent Document 2 as a calculation method of the noise suppression filter. Subsequently, the noise suppression unit 13 extracts the target voice by applying the calculated noise suppression filter to the acoustic signal, for example, as in the following equation (7).

Figure 2019045576
Figure 2019045576

なお、キーワード検出部11が受け取る音響信号、空間共分散計算部12が受け取る音響信号及び雑音抑圧部13が受け取る音響信号は、いずれも同じものであってもよいし、互いに異なるものであってもよい。   The sound signal received by the keyword detection unit 11, the sound signal received by the space covariance calculation unit 12, and the sound signal received by the noise suppression unit 13 may be the same or different from each other. Good.

例えば、キーワード検出部11が第1の音響信号を基にキーワード区間を計算することができる。また、空間共分散計算部12は、第1の音響信号及びキーワード区間を基に雑音下目的信号空間共分散行列及び雑音空間共分散行列を計算することができる。このとき、雑音抑圧部13は、雑音下目的信号空間共分散行列及び雑音空間共分散行列を基に計算した雑音抑圧フィルタを、第1の音響信号とは異なる第2の音響信号に適用し目的音声を抽出することができる。   For example, the keyword detection unit 11 can calculate a keyword section based on the first acoustic signal. Also, the space covariance calculation unit 12 can calculate the noise target signal space covariance matrix and the noise space covariance matrix based on the first acoustic signal and the keyword section. At this time, the noise suppression unit 13 applies the noise suppression filter calculated based on the noisy target signal space covariance matrix and the noise space covariance matrix to the second acoustic signal different from the first acoustic signal. Speech can be extracted.

(変形例)
第1の実施形態の変形例について説明する。第1の実施形態の変形例において、空間共分散計算部12は、キーワード区間の音響信号について、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを示す時間周波数マスクをさらに計算し、時間周波数マスクを用いて、雑音下目的信号空間共分散行列及び雑音空間共分散行列を計算することができる。
(Modification)
A modification of the first embodiment will be described. In the modification of the first embodiment, the space covariance calculation unit 12 further calculates, for each time frequency point, a time frequency mask indicating which of the target voice and noise is dominant for the sound signal in the keyword section, The time-frequency mask can be used to calculate the noisy target signal space covariance matrix and the noise space covariance matrix.

ここで、時間周波数点(t,f)の時間周波数マスクをMt,fと表し、0<=Mt,f<=1であることとする。また、Mt,f=1は、目的音声が優勢であることを表し、Mt,f=0は雑音が優勢であることを表すこととする。また、時間周波数マスクを計算する方法としては、非特許文献1又は2に記載された方法や、参考文献1に記載された方法が知られている。 Here, the time frequency mask of the time frequency point (t, f) is expressed as M t, f, and it is assumed that 0 <= M t, f <= 1. Further, M t, f = 1 represents that the target speech is dominant, and M t, f = 0 represents that noise is predominant. Further, as a method of calculating a time frequency mask, a method described in Non-Patent Document 1 or 2 and a method described in Reference 1 are known.

第1の実施形態の変形例では、空間共分散計算部12は、Toutで示されるキーワード区間以外の時間区間においては、常に、Mt,f=0であり、Tinで示されるキーワード区間では、何らかの時間周波数マスク計算方法により時間周波数マスクを計算するものとする。そして、空間共分散計算部12は、計算された時間周波数マスクに基づき、雑音下目的信号空間共分散行列、及び雑音空間共分散行列を、それぞれ以下の(8−1)式及び(8−2)式のように計算する。 In the modification of the first embodiment, the space covariance calculation unit 12 always sets M t, f = 0 in a time interval other than the keyword interval indicated by T out , and the keyword interval indicated by T in. Then, assume that the time frequency mask is calculated by some time frequency mask calculation method. Then, based on the calculated time-frequency mask, the space covariance calculation unit 12 determines the noise target signal space covariance matrix and the noise space covariance matrix as the following equations (8-1) and (8-2), respectively. ) Calculate as equation.

Figure 2019045576
Figure 2019045576

[第1の実施形態の処理]
ここで、図2を用いて、第1の実施形態に係る目的音声抽出装置の処理の流れを説明する。図2は、第1の実施形態に係る目的音声抽出装置の処理の流れを示すフローチャートである。
Processing of the First Embodiment
Here, the flow of processing of the target speech extraction device according to the first embodiment will be described with reference to FIG. FIG. 2 is a flowchart showing the process flow of the target speech extraction device according to the first embodiment.

まず、図2に示すように、キーワード検出部11は、キーワードを検出するまで(ステップS101、No)、音響信号を監視する。ここで、キーワード検出部11は、キーワードを検出すると(ステップS101、Yes)、キーワード区間を計算する(ステップS102)。   First, as shown in FIG. 2, the keyword detection unit 11 monitors an acoustic signal until a keyword is detected (No in step S101). Here, when the keyword detection unit 11 detects a keyword (Yes in step S101), the keyword detection unit 11 calculates a keyword section (step S102).

空間共分散計算部12は、キーワード区間の音響信号を基に雑音下目的信号空間共分散行列を計算する(ステップS103)。次に、空間共分散計算部12は、キーワード区間以外の区間の音響信号を基に雑音空間共分散行列を計算する(ステップS104)。   The space covariance calculation unit 12 calculates a noisy target signal space covariance matrix based on the acoustic signal in the keyword section (step S103). Next, the space covariance calculation unit 12 calculates a noise space covariance matrix on the basis of the acoustic signal of the section other than the keyword section (step S104).

そして、雑音抑圧部13は、雑音下目的信号空間共分散行列、及び雑音空間共分散行列を基に雑音抑圧フィルタを計算する(ステップS105)。ここで、雑音抑圧部13は、雑音抑圧フィルタを用いて音響信号から目的音声を抽出する(ステップS106)。   Then, the noise suppression unit 13 calculates a noise suppression filter based on the noisy target signal space covariance matrix and the noise space covariance matrix (step S105). Here, the noise suppression unit 13 extracts the target voice from the acoustic signal using the noise suppression filter (step S106).

図3を用いて、第1の実施形態の変形例に係る目的音声抽出装置の処理の流れを説明する。図3は、第1の実施形態の変形例に係る目的音声抽出装置の処理の流れを示すフローチャートである。   The process flow of the target speech extraction apparatus according to the modification of the first embodiment will be described with reference to FIG. FIG. 3 is a flowchart showing a process flow of the target speech extraction device according to the modification of the first embodiment.

まず、図3に示すように、キーワード検出部11は、キーワードを検出するまで(ステップS151、No)、音響信号を監視する。ここで、キーワード検出部11は、キーワードを検出すると(ステップS151、Yes)、キーワード区間を計算する(ステップS152)。   First, as shown in FIG. 3, the keyword detection unit 11 monitors an acoustic signal until a keyword is detected (No in step S151). Here, when the keyword detection unit 11 detects a keyword (Yes in step S151), the keyword detection unit 11 calculates a keyword section (step S152).

ここで、空間共分散計算部12は、キーワード区間の音響信号を基に時間周波数マスクを計算する(ステップS153)。そして、空間共分散計算部12は、時間周波数マスクを用いて、キーワード区間の音響信号を基に雑音下目的信号空間共分散行列を計算する(ステップS154)。さらに、空間共分散計算部12は、時間周波数マスクを用いて、キーワード区間及びキーワード区間以外の区間の音響信号を基に雑音空間共分散行列を計算する(ステップS155)。   Here, the space covariance calculation unit 12 calculates a time frequency mask based on the acoustic signal of the keyword section (step S153). Then, the space covariance calculation unit 12 calculates a noisy target signal space covariance matrix based on the acoustic signal of the keyword section using the time frequency mask (step S154). Further, the space covariance calculation unit 12 calculates the noise space covariance matrix based on the sound signal of the keyword section and the section other than the keyword section using the time frequency mask (step S155).

そして、雑音抑圧部13は、雑音下目的信号空間共分散行列、及び雑音空間共分散行列を基に雑音抑圧フィルタを計算する(ステップS156)。ここで、雑音抑圧部13は、雑音抑圧フィルタを用いて音響信号から目的音声を抽出する(ステップS157)。   Then, the noise suppression unit 13 calculates a noise suppression filter based on the noisy target signal space covariance matrix and the noise space covariance matrix (step S156). Here, the noise suppression unit 13 extracts the target voice from the acoustic signal using the noise suppression filter (step S157).

[第1の実施形態の効果]
ここで、キーワード検出部11によって計算されるキーワード区間、空間共分散計算部12によって計算される各空間共分散行列、雑音抑圧部13によって計算される雑音抑圧フィルタ及び時間周波数マスクは、いずれも推定値である。このため、本実施形態では、目的音声抽出装置10は、各空間共分散行列、雑音抑圧フィルタ及び雑音抑圧マスクの推定を行っていることになる。また、目的音声抽出装置10による各推定の推定精度が良くなるほど、目的音声抽出装置10による目的音声の抽出精度は良くなる。
[Effect of First Embodiment]
Here, the keyword section calculated by the keyword detection unit 11, each space covariance matrix calculated by the space covariance calculation unit 12, and the noise suppression filter and time frequency mask calculated by the noise suppression unit 13 are all estimated. It is a value. Therefore, in the present embodiment, the target speech extraction device 10 estimates each space covariance matrix, the noise suppression filter, and the noise suppression mask. Also, as the estimation accuracy of each estimation by the target speech extraction device 10 is improved, the extraction accuracy of the target speech by the target speech extraction device 10 is improved.

第1の実施形態において、キーワード検出部11は、入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算する。また、空間共分散計算部12は、キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する。また、雑音抑圧部13は、雑音下目的信号空間共分散行列及び雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に雑音抑圧フィルタを適用し、目的音声を抽出する。このように、第1の実施形態によれば、様々な背景雑音が混在する環境であっても、キーワードを検出することにより、目的音声を発する話者の位置に関する雑音下目的信号空間共分散行列と雑音空間共分散行列を精度良く推定することができるため、当該話者の発する目的音声を精度良く抽出することができる。   In the first embodiment, the keyword detection unit 11 detects that a keyword has been spoken based on the input acoustic signal, and calculates a keyword section which is a time interval in which the keyword is spoken. Also, the space covariance calculation unit 12 calculates a noisy target signal space covariance matrix which is a space covariance matrix based on an acoustic signal of a keyword section, and generates a spatial covariance based on an acoustic signal of a predetermined time section other than the keyword section. Compute the noise space covariance matrix, which is the variance matrix. Also, the noise suppression unit 13 calculates a noise suppression filter based on the noisy target signal space covariance matrix and the noise space covariance matrix, applies a noise suppression filter to the input acoustic signal, and extracts the target voice. . As described above, according to the first embodiment, even in an environment in which various background noises are mixed, a noisy target signal space covariance matrix relating to the position of a speaker who emits a target voice by detecting a keyword. Because the noise space covariance matrix can be accurately estimated, it is possible to accurately extract the target speech emitted by the speaker.

キーワード検出部11は、キーワードが話され終わった終了時刻を検出し、終了時刻と、キーワードを話す時間としてあらかじめ定められた時間と、に基づいてキーワード区間を計算することができる。これにより、第1の実施形態では、キーワードの開始時刻を検出できない場合であっても、キーワード区間の計算を行うことが可能となる。   The keyword detection unit 11 can detect the end time at which the keyword has been spoken, and calculate the keyword section based on the end time and a predetermined time for talking the keyword. Thus, in the first embodiment, it is possible to calculate the keyword section even when the start time of the keyword can not be detected.

空間共分散計算部12は、キーワード区間の音響信号について、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを示す時間周波数マスクをさらに計算し、時間周波数マスクを用いて、雑音下目的信号空間共分散行列及び雑音空間共分散行列を計算することができる。このように、第1の実施形態の変形例では、キーワード区間中の雑音が優勢な時間周波数点を雑音空間共分散行列の計算に含め、同時間周波数点を雑音下目的信号空間共分散行列の計算から除外することができるため、より高精度に、各空間共分散行列を推定できるようになる。   The spatial covariance calculation unit 12 further calculates a time frequency mask indicating which of the target voice and noise is dominant for each time frequency point for the sound signal in the keyword section, and using the time frequency mask, the noise down purpose Signal space covariance matrices and noise space covariance matrices can be calculated. As described above, in the modification of the first embodiment, the time-frequency point where noise is dominant in the keyword section is included in the calculation of the noise space covariance matrix, and the same time frequency point is the noise target signal space covariance matrix. Since it can be excluded from the calculation, each space covariance matrix can be estimated with higher accuracy.

[第2の実施形態]
[第2の実施形態の構成]
第2の実施形態に係る目的音声抽出装置の構成、処理の流れ及び効果を説明する。まず、図4を用いて、第2の実施形態の構成について説明する。図4は、第2の実施形態に係る目的音声抽出装置の構成の一例を示す図である。図4に示すように、目的音声抽出装置20は、キーワード検出部21、空間共分散計算部22、雑音抑圧部23及び記憶部24を有する。
Second Embodiment
Configuration of Second Embodiment
The configuration of the target speech extraction apparatus according to the second embodiment, the flow of processing, and effects will be described. First, the configuration of the second embodiment will be described using FIG. FIG. 4 is a diagram showing an example of the configuration of the target speech extraction device according to the second embodiment. As shown in FIG. 4, the target speech extraction device 20 includes a keyword detection unit 21, a space covariance calculation unit 22, a noise suppression unit 23, and a storage unit 24.

キーワード検出部21は、第1の実施形態のキーワード検出部11と同様の処理を行う。つまり、キーワード検出部21は、入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算する。   The keyword detection unit 21 performs the same process as the keyword detection unit 11 of the first embodiment. That is, the keyword detection unit 21 detects that the keyword has been spoken based on the input acoustic signal, and calculates a keyword section which is a time interval in which the keyword is spoken.

空間共分散計算部22は、音響信号を所定の時間区間ごとに区切って得られる短時間音響信号のそれぞれに基づく空間共分散行列である短時間空間共分散行列をさらに計算し、計算した短時間空間共分散行列を記憶部24に格納する。空間共分散計算部22は、キーワード区間が計算されたか否かにかかわらず、一定の短時間区間ごとに短時間空間共分散行列Ψdを(9)式のように計算し、記憶部24に格納する。 The space covariance calculation unit 22 further calculates a short time space covariance matrix which is a space covariance matrix based on each of short time sound signals obtained by dividing the sound signal into predetermined time intervals, and calculates the short time The space covariance matrix is stored in the storage unit 24. The space covariance calculation unit 22 calculates the short time space covariance matrix Ψ d for each fixed short time interval as in equation (9) regardless of whether or not the keyword interval is calculated, and stores it in the storage unit 24. Store.

Figure 2019045576
Figure 2019045576

ここで、dは、短時間区間の番号、Tdは、短時間区間dに含まれる時間番号の集合、Ndは、短時間区間dに含まれる時間番号の数を表す。また、短時間区間は、例えば、数十〜数千ミリ秒程度の長さに相当する。 Here, d represents the number of the short time section, T d represents a set of time numbers included in the short time section d, and N d represents the number of time numbers included in the short time section d. In addition, the short time section corresponds to, for example, a length of several tens to several thousands milliseconds.

そして、空間共分散計算部22は、キーワード検出部21によってキーワード区間が計算された場合、記憶部24に記憶された短時間空間共分散行列のうち、キーワード区間を含む時間区間の短時間空間共分散行列を基に雑音下目的信号空間共分散行列を計算し、記憶部24に記憶された短時間空間共分散行列のうち、キーワード区間を含まない時間区間の短時間空間共分散行列を基に雑音空間共分散行列を計算する。   Then, when the keyword detection unit 21 calculates the keyword interval, the space covariance calculation unit 22 determines, among the short time space covariance matrices stored in the storage unit 24, the short-time space covariance of the time interval including the keyword interval. A noisy target signal space covariance matrix is calculated based on the dispersion matrix, and among the short time space covariance matrices stored in the storage unit 24, based on the short time space covariance matrix of the time interval not including the keyword interval Calculate the noise space covariance matrix.

ここで、キーワード区間に対応する短時間区間番号の集合をDinと表記し、キーワード区間以外の短時間区間に対応する短時間区間番号の集合をDoutと表記することとする。また、Din及びDoutの要素の個数を、それぞれQin及びQoutと表記することとする。 Here, a set of short time section numbers corresponding to a keyword section is denoted as D in, and a set of short time section numbers corresponding to a short time section other than the keyword section is denoted as D out . Further, the number of elements of D in and D out will be denoted as Q in and Q out , respectively.

ここで、Doutは、キーワード区間の前後の雑音のみが存在すると期待される時間区間に含まれる短時間区間の集合を指す。例えば、Doutは、キーワード区間の直前の一定の時間区間(例えば、3秒)に対応する短時間区間の集合としてもよいし、キーワード区間の直後の一定の時間区間(例えば、1秒)に対応する短時間区間としてもよい。また、Doutは、キーワード区間の直前の一定の時間区間とキーワード区間の直後の一定の時間区間とを合わせたものとしてもよい。すると、空間共分散計算部22は、雑音下目的信号空間共分散行列Φsと雑音空間共分散行列Φnを、それぞれ以下の(10−1)式及び(10−2)式のように求めることができる。 Here, D out refers to a set of short time intervals included in a time interval in which only noise before and after the keyword interval is expected to be present. For example, D out may be a set of short time intervals corresponding to a predetermined time interval (for example, 3 seconds) immediately before the keyword interval, or D out may be a predetermined time interval (for example, 1 second) immediately after the keyword interval. It may be a corresponding short time interval. Further, D out may be a combination of a predetermined time section immediately before the keyword section and a predetermined time section immediately after the keyword section. Then, the space covariance calculation unit 22 obtains the noise target signal space covariance matrix s s and the noise space covariance matrix n n respectively as the following equations (10-1) and (10-2) be able to.

Figure 2019045576
Figure 2019045576

なお、空間共分散計算部22は、(9)式の計算を、各時間tにおいてxt,fxt,f Hを逐次的に加算し、Ndで1度除算することで実現できる。このため、xt,fは、時間tにおける計算に用いられるだけであるため、目的音声抽出装置20は、時間t以外の時間にxt,fを記憶しておく必要がない。 The space covariance calculation unit 22 can realize the calculation of the equation (9) by sequentially adding x t, f x t, f H at each time t and dividing by one N d . For this reason, since x t, f is only used for calculation at time t, the target voice extraction device 20 does not have to store x t, f at times other than time t.

また、(8−1)式及び(8−2)式の計算においては、キーワード区間及びその前後の数秒程度の時間区間に対応する短時間区間の短時間空間共分散Ψdのみがあれば必要十分であり、当該短時間区間より過去や未来の短時間空間共分散を記憶しておく必要がない。その結果、第2の実施形態では、雑音下目的信号空間共分散行列及び雑音空間共分散行列の計算に必要な記憶領域を削減することができる。 Also, in the calculation of the equations (8-1) and (8-2), it is necessary if there is only a short time space covariance Ψ d of a short time interval corresponding to a keyword interval and a time interval of several seconds before and after that It is sufficient, and there is no need to store the past and future short-time spatial covariances from the short-time section. As a result, in the second embodiment, it is possible to reduce the storage area required for calculating the noise target signal space covariance matrix and the noise space covariance matrix.

雑音抑圧部23は、第1の実施形態の雑音抑圧部13と同様の処理を行う。つまり、雑音抑圧部23は、入力された音響信号と雑音空間共分散行列と雑音下目的信号空間共分散行列とを受け取る。そして、雑音抑圧部13は、雑音下目的信号空間共分散行列及び雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に雑音抑圧フィルタを適用し、目的音声を抽出する。   The noise suppression unit 23 performs the same processing as the noise suppression unit 13 of the first embodiment. That is, the noise suppression unit 23 receives the input acoustic signal, the noise space covariance matrix, and the noisy target signal space covariance matrix. Then, the noise suppression unit 13 calculates a noise suppression filter based on the noisy target signal space covariance matrix and the noise space covariance matrix, applies a noise suppression filter to the input acoustic signal, and extracts the target voice. .

また、前述の通り、空間共分散計算部22は、逐次的に雑音空間共分散行列及び雑音下目的信号空間共分散行列を計算することができる。このため、雑音抑圧部23は、雑音空間共分散行列及び雑音下目的信号空間共分散行列を逐次的に受け取り、さらに、(3−1)式及び(3−2)式により逐次的に雑音抑圧フィルタを計算することができる。また、この時、時間tにおける計算に用いられる音響信号はxt,fだけである。その結果、第2の実施形態では、雑音抑圧フィルタの計算に必要な記憶領域を削減することができる。 Also, as described above, the space covariance calculation unit 22 can sequentially calculate the noise space covariance matrix and the noisy target signal space covariance matrix. For this reason, the noise suppression unit 23 sequentially receives the noise space covariance matrix and the noisy target signal space covariance matrix, and further performs noise suppression sequentially by the equations (3-1) and (3-2). Filters can be calculated. Also, at this time, the acoustic signal used for the calculation at time t is only x t, f . As a result, in the second embodiment, the storage area required for the calculation of the noise suppression filter can be reduced.

[第2の実施形態の処理]
ここで、図5を用いて、第2の実施形態に係る目的音声抽出装置の処理の流れを説明する。図5は、第2の実施形態に係る目的音声抽出装置の処理の流れを示すフローチャートである。
[Process of Second Embodiment]
Here, the process flow of the target speech extraction device according to the second embodiment will be described with reference to FIG. FIG. 5 is a flowchart showing a process flow of the target speech extraction device according to the second embodiment.

まず、図5に示すように、空間共分散計算部22は、音響信号を基に短時間空間共分散行列を計算し、記憶部24に格納する(ステップS201)。なお、空間共分散計算部22は、キーワード検出部21によってキーワードが検出されていない時間区間であっても、短時間空間共分散行列を計算し、記憶部24に格納する。   First, as shown in FIG. 5, the space covariance calculation unit 22 calculates a short time space covariance matrix based on the acoustic signal, and stores it in the storage unit 24 (step S201). The space covariance calculation unit 22 calculates a short time space covariance matrix even if it is a time interval in which the keyword is not detected by the keyword detection unit 21 and stores it in the storage unit 24.

また、キーワード検出部21は、キーワードを検出するまで(ステップS202、No)、音響信号を監視する。ここで、キーワード検出部21は、キーワードを検出すると(ステップS202、Yes)、キーワード区間を計算する(ステップS203)。   In addition, the keyword detection unit 21 monitors the sound signal until the keyword is detected (No in step S202). Here, when the keyword detection unit 21 detects a keyword (Yes at step S202), it calculates a keyword section (step S203).

空間共分散計算部22は、記憶部24から短時間空間共分散行列を読み込む(ステップS204)。そして、空間共分散計算部22は、キーワード区間の短時間空間共分散行列を基に雑音下目的信号空間共分散行列を計算する(ステップS205)。次に、空間共分散計算部22は、キーワード区間以外の区間の短時間空間共分散行列を基に雑音空間共分散行列を計算する(ステップS206)。   The space covariance calculation unit 22 reads the short time space covariance matrix from the storage unit 24 (step S204). Then, the space covariance calculation unit 22 calculates a noisy target signal space covariance matrix based on the short time space covariance matrix of the keyword section (step S205). Next, the space covariance calculation unit 22 calculates a noise space covariance matrix based on the short time space covariance matrix of the section other than the keyword section (step S206).

そして、雑音抑圧部23は、雑音下目的信号空間共分散行列、及び雑音空間共分散行列を基に雑音抑圧フィルタを計算する(ステップS207)。ここで、雑音抑圧部23は、雑音抑圧フィルタを用いて音響信号から目的音声を抽出する(ステップS208)。   Then, the noise suppression unit 23 calculates a noise suppression filter based on the noisy target signal space covariance matrix and the noise space covariance matrix (step S207). Here, the noise suppression unit 23 extracts the target voice from the acoustic signal using the noise suppression filter (step S208).

[第2の実施形態の効果]
第2の実施形態において、空間共分散計算部22は、音響信号を所定の時間区間ごとに区切って得られる短時間音響信号のそれぞれに基づく空間共分散行列である短時間空間共分散行列をさらに計算し、計算した短時間空間共分散行列を記憶部に格納し、キーワード検出部によってキーワード区間が計算された場合、記憶部に記憶された短時間空間共分散行列のうち、キーワード区間を含む時間区間の短時間空間共分散行列を基に雑音下目的信号空間共分散行列を計算し、記憶部に記憶された短時間空間共分散行列のうち、キーワード区間を含まない時間区間の短時間空間共分散行列を基に雑音空間共分散行列を計算する。このように、第2の実施形態では、空間共分散行列の計算のために、キーワード区間とそれ以前の時間区間の音響信号を記憶しておく必要がなく、短時間空間共分散行列のみを記憶しておくことで、計算に必要な記憶領域を削減することができる。
[Effect of Second Embodiment]
In the second embodiment, the space covariance calculation unit 22 further generates a short time space covariance matrix which is a space covariance matrix based on each of short time sound signals obtained by dividing the sound signal into predetermined time intervals. When the calculated short time space covariance matrix is stored in the storage unit and the keyword section is calculated by the keyword detection unit, a time including the keyword section in the short time space covariance matrix stored in the storage unit The noisy target signal space covariance matrix is calculated based on the short time space covariance matrix of the interval, and the short time spatial covariance of the time interval which does not include the keyword interval among the short time spatial covariance matrices stored in the storage unit. Calculate the noise space covariance matrix based on the variance matrix. Thus, in the second embodiment, it is not necessary to store the acoustic signal of the keyword section and the time section before that for the calculation of the space covariance matrix, and only the short-term space covariance matrix is stored. By doing so, it is possible to reduce the storage area required for the calculation.

[第3の実施形態]
[第3の実施形態の構成]
第3の実施形態に係る目的音声抽出装置の構成、処理の流れ及び効果を説明する。まず、図6を用いて、第3の実施形態の構成について説明する。図6は、第3の実施形態に係る目的音声抽出装置の構成の一例を示す図である。図6に示すように、目的音声抽出装置30は、キーワード検出部31、空間共分散計算部32、雑音抑圧部33及び音声区間検出部35を有する。
Third Embodiment
Configuration of Third Embodiment
The configuration of the target speech extraction apparatus according to the third embodiment, the flow of processing, and effects will be described. First, the configuration of the third embodiment will be described using FIG. FIG. 6 is a diagram showing an example of the configuration of the target speech extraction device according to the third embodiment. As shown in FIG. 6, the target speech extraction device 30 has a keyword detection unit 31, a space covariance calculation unit 32, a noise suppression unit 33 and a speech section detection unit 35.

キーワード検出部31は、第1の実施形態のキーワード検出部11又は第2の実施形態のキーワード検出部21と同様の処理を行う。つまり、キーワード検出部31は、入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算する。   The keyword detection unit 31 performs the same process as the keyword detection unit 11 of the first embodiment or the keyword detection unit 21 of the second embodiment. That is, the keyword detection unit 31 detects that the keyword has been spoken based on the input acoustic signal, and calculates a keyword section which is a time interval in which the keyword is spoken.

空間共分散計算部32は、第1の実施形態の空間共分散計算部12又は第2の実施形態の空間共分散計算部22と同様の処理に加え、雑音下目的信号空間共分散行列及び雑音空間共分散行列の更新処理を行う。   In addition to the processing similar to the space covariance calculation unit 12 of the first embodiment or the space covariance calculation unit 22 of the second embodiment, the space covariance calculation unit 32 performs a noisy target signal space covariance matrix and noise. Update the spatial covariance matrix.

まず、空間共分散計算部32は、音響信号とキーワード区間を受け取る。そして、空間共分散計算部32は、キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する。このとき、空間共分散計算部32は、(2−1)式及び(2−2)式、又は(8−1)式及び(8−2)式、又は(10−1)式及び(10−2)式、により各空間共分散行列を計算する。   First, the spatial covariance calculation unit 32 receives an acoustic signal and a keyword section. Then, the space covariance calculation unit 32 calculates a noisy target signal space covariance matrix which is a space covariance matrix based on the sound signal of the keyword section, and generates space covariance based on the sound signal of a predetermined time section other than the keyword section. Compute the noise space covariance matrix, which is the variance matrix. At this time, the space covariance calculation unit 32 calculates the equations (2-1) and (2-2), or the equations (8-1) and (8-2), or the equations (10-1) and (10). Each space covariance matrix is calculated according to equation (2).

次に、空間共分散計算部32は、キーワード区間より後の時間区間の音響信号について、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを示す時間周波数マスクをさらに計算し、時間周波数マスクを用いて、雑音下目的信号空間共分散行列及び雑音空間共分散行列を更新する。   Next, the space covariance calculation unit 32 further calculates, for each time frequency point, a time frequency mask indicating which of the target voice and noise is dominant for the sound signal of the time period after the keyword period, The mask is used to update the noisy target signal space covariance matrix and the noise space covariance matrix.

空間共分散計算部32は、第1の実施形態の変形例と同様の方法で時間周波数マスクを計算することができる。また、空間共分散計算部32は、時間周波数マスクと音響信号を基に、雑音下目的信号空間共分散行列Φsと雑音空間共分散行列Φnを更新する。 The space covariance calculation unit 32 can calculate the time frequency mask in the same manner as the modification of the first embodiment. In addition, the space covariance calculation unit 32 updates the noisy target signal space covariance matrix s s and the noise space covariance matrix 雑 音n based on the time frequency mask and the acoustic signal.

いま、キーワード区間終了後から、目的音声が終了するまでの時間区間に含まれる時間番号の集合をTafterと表す。すると、空間共分散計算部32は、(2−1)式及び(2−2)式で求めたΦsとΦnを、例えば、それぞれ以下の(11−1)式及び(11−2)式のように更新できる。 Now, a set of time numbers included in a time interval from the end of the keyword section to the end of the target voice is denoted as Tafter . Then, the space covariance calculation unit 32 calculates Φ s and Φ n determined by the equations (2-1) and (2-2), for example, the following equations (11-1) and (11-2), respectively. It can be updated as a formula.

Figure 2019045576
Figure 2019045576

また、空間共分散計算部32は、(8−1)式及び(8−2)式で求めたΦsとΦnを、例えば、それぞれ以下の(12−1)式及び(12−2)式のように更新できる。 In addition, the space covariance calculation unit 32 calculates Φ s and ( n determined by the equations (8-1) and (8-2), for example, the following equations (12-1) and (12-2), respectively. It can be updated as a formula.

Figure 2019045576
Figure 2019045576

ここで、{Tin, Tafter}は、TinとTafterの和集合を表す。 Here, {T in , T after } represents a union of T in and T after .

また、空間共分散計算部32は、(10−1)式及び(10−2)式で求めたΦsとΦnを、例えば、それぞれ以下の(13−1)式及び(13−2)式のように更新できる。 In addition, the space covariance calculation unit 32 calculates Φ s and Φ n obtained by the equations (10-1) and (10-2), for example, the following equations (13-1) and (13-2), respectively. It can be updated as a formula.

Figure 2019045576
Figure 2019045576

さらに、空間共分散計算部32は、非特許文献1に記載された方法に従って、逐次的に入力されてくる音響信号を受け取り、上記の(11−1)式及び(11−2)、(12−1)式及び(12−2)、又は(13−1)式及び(13−2)による雑音下目的信号空間共分散行列及び雑音空間共分散行列の更新を逐次的に行うことができる。   Furthermore, the spatial covariance calculation unit 32 receives the acoustic signal sequentially input according to the method described in Non-Patent Document 1, and the above-mentioned (11-1) formula and (11-2), (12 The target signal space covariance matrix and the noise space covariance matrix under noise according to the -1) and (12-2) or (13-1) and (13-2) can be updated sequentially.

雑音抑圧部33は、第1の実施形態の雑音抑圧部13と同様の処理を行う。つまり、雑音抑圧部33は、入力された音響信号と雑音空間共分散行列と雑音下目的信号空間共分散行列とを受け取る。そして、雑音抑圧部33は、雑音下目的信号空間共分散行列及び雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に雑音抑圧フィルタを適用し、目的音声を抽出する。   The noise suppression unit 33 performs the same processing as the noise suppression unit 13 of the first embodiment. That is, the noise suppression unit 33 receives the input acoustic signal, the noise space covariance matrix, and the noisy target signal space covariance matrix. Then, the noise suppression unit 33 calculates a noise suppression filter based on the noisy target signal space covariance matrix and the noise space covariance matrix, applies the noise suppression filter to the input acoustic signal, and extracts the target voice. .

ここで、空間共分散計算部32が雑音下目的信号空間共分散行列及び雑音空間共分散行列の更新を逐次的に行う場合、雑音抑圧部33は、(3−1)式及び(3−2)式により雑音抑圧フィルタを逐次的に更新することができ、さらに目的音声の抽出を逐次的に行うことができる。   Here, when the space covariance calculation unit 32 sequentially updates the noisy target signal space covariance matrix and the noise space covariance matrix, the noise suppression unit 33 changes the equations (3-1) and (3-2). The noise suppression filter can be sequentially updated by the equation (4), and extraction of the target speech can be performed sequentially.

(変形例)
第3の実施形態の変形例について説明する。第3の実施形態の変形例において、音声区間検出部35は、キーワード区間より後であって、目的音声が話されている時間区間である音声区間を検出する。このとき、空間共分散計算部32は、さらに、音声区間に関する情報を用いて、雑音下目的信号空間共分散行列及び雑音空間共分散行列を更新する。音声区間を検出する方法としては、従来より、様々な方法が知られており、音声区間検出部35は、そのいずれの方法を用いてもよい。
(Modification)
A modification of the third embodiment will be described. In the modification of the third embodiment, the voice section detection unit 35 detects a voice section which is a time section after the keyword section and in which the target voice is spoken. At this time, the space covariance calculation unit 32 further updates the noisy target signal space covariance matrix and the noise space covariance matrix using information on the speech segment. Conventionally, various methods have been known as methods for detecting a voice section, and the voice section detection unit 35 may use any of these methods.

いま、音声区間検出部35により、音声が含まれていると判断された時間番号の集合をTonと表記し、音声が含まれていないと判断された時間番号の集合をToffと表記することとする。また、Toffに含まれる時間番号の個数をNoffと表記することとする。 Now, the speech section detecting unit 35, a set of decision time number contains speech is denoted by T on, denoted the set of time numbers determined to not contain speech and T off To be. Further, it is assumed that denoted the number of time number included in the T off and N off.

また、空間共分散計算部32は、キーワード区間後の音響信号に対し、第3の実施形態と同様の方法で、各時間周波数点(t,f) における時間数周波数マスクMt,fを既に計算していることとする。すると、空間共分散計算部32は、(2−1)式及び(2−2)式で求めたΦsとΦnを、例えば、それぞれ以下の(14−1)式及び(14−2)式のように更新できる。 In addition, the space covariance calculation unit 32 has already applied the time frequency mask M t, f at each time frequency point (t, f) to the acoustic signal after the keyword section in the same manner as in the third embodiment. Assume that you are calculating. Then, the space covariance calculation unit 32 calculates Φ s and Φ n determined by the equations (2-1) and (2-2), for example, the following equations (14-1) and (14-2), respectively. It can be updated as a formula.

Figure 2019045576
Figure 2019045576

また、空間共分散計算部32は、(8−1)式及び(8−2)式で求めたΦsとΦnを、例えば、それぞれ以下の(15−1)式及び(15−2)式のように更新できる。 In addition, the space covariance calculation unit 32 calculates Φ s and Φ n obtained by the equations (8-1) and (8-2), for example, the following equations (15-1) and (15-2), respectively. It can be updated as a formula.

Figure 2019045576
Figure 2019045576

また、空間共分散計算部32は、(10−1)式及び(10−2)式で求めたΦsとΦnを、例えば、それぞれ以下の(16−1)式及び(16−2)式のように更新できる。 In addition, the space covariance calculation unit 32 calculates Φ s and ( n determined by the equations (10-1) and (10-2), for example, the following equations (16-1) and (16-2), respectively. It can be updated as a formula.

Figure 2019045576
Figure 2019045576

また、第3の実施形態の変形例では、時間周波数マスクを求めない処理の構成を取ることもできる。これは、例えば、音声区間内で、時間周波数マスクを求める代わりに、すべての時間周波数点において音声が存在すると仮定することで実現できる。   Further, in the modification of the third embodiment, it is possible to adopt a configuration of processing in which the time frequency mask is not obtained. This can be achieved, for example, by assuming that speech is present at all time frequency points instead of determining the time frequency mask within the speech segment.

具体的には、上記の更新式において、空間共分散計算部32は、常に、Mt,f=1とすることで、時間周波数マスクの推定を行わなくても、雑音下目的信号空間共分散行列と雑音空間共分散行列を更新することができる。 Specifically, in the above update equation, the space covariance calculation unit 32 always sets M t, f = 1 so that the target signal space covariance under noise does not need to be estimated even when the time frequency mask is not estimated. Matrix and noise space covariance matrix can be updated.

また、第3の実施形態と同様に、空間共分散計算部32が雑音下目的信号空間共分散行列及び雑音空間共分散行列の更新を逐次的に行う場合、雑音抑圧部33は、(3−1)式及び(3−2)式により雑音抑圧フィルタを逐次的に更新することができ、さらに目的音声の抽出を逐次的に行うことができる。   Also, as in the third embodiment, when the space covariance calculation unit 32 sequentially updates the noisy target signal space covariance matrix and the noise space covariance matrix, the noise suppression unit 33 The noise suppression filter can be sequentially updated by the equation 1) and the equation (3-2), and the target speech can be extracted sequentially.

[第3の実施形態の処理]
ここで、図7を用いて、第3の実施形態に係る目的音声抽出装置の処理の流れを説明する。図7は、第3の実施形態に係る目的音声抽出装置の処理の流れを示すフローチャートである。
[Process of Third Embodiment]
Here, the process flow of the target speech extraction apparatus according to the third embodiment will be described with reference to FIG. FIG. 7 is a flowchart showing the process flow of the target speech extraction device according to the third embodiment.

まず、図7に示すように、キーワード検出部31は、キーワードを検出するまで(ステップS301、No)、音響信号を監視する。ここで、キーワード検出部31は、キーワードを検出すると(ステップS301、Yes)、キーワード区間を計算する(ステップS302)。   First, as shown in FIG. 7, the keyword detection unit 31 monitors an acoustic signal until a keyword is detected (No in step S301). Here, when the keyword detection unit 31 detects a keyword (Yes in step S301), the keyword detection unit 31 calculates a keyword section (step S302).

空間共分散計算部32は、キーワード区間の音響信号を基に雑音下目的信号空間共分散行列を計算する(ステップS303)。次に、空間共分散計算部32は、キーワード区間以外の区間の音響信号を基に雑音空間共分散行列を計算する(ステップS304)。   The space covariance calculation unit 32 calculates a noisy target signal space covariance matrix based on the acoustic signal in the keyword section (step S303). Next, the space covariance calculation unit 32 calculates a noise space covariance matrix based on the acoustic signal of the section other than the keyword section (step S304).

そして、雑音抑圧部33は、雑音下目的信号空間共分散行列、及び雑音空間共分散行列を基に雑音抑圧フィルタを計算する(ステップS305)。ここで、雑音抑圧部33は、雑音抑圧フィルタを用いて音響信号から目的音声を抽出する(ステップS306)。   Then, the noise suppression unit 33 calculates a noise suppression filter based on the noisy target signal space covariance matrix and the noise space covariance matrix (step S305). Here, the noise suppression unit 33 extracts the target voice from the acoustic signal using the noise suppression filter (step S306).

ここで、目的音声の抽出が続行されない場合(ステップS307、No)、目的音声抽出装置30は処理を終了する。一方、目的音声の抽出が続行される場合(ステップS307、Yes)、空間共分散計算部32は、キーワード区間の後の区間の音響信号を基に時間周波数マスクを計算する(ステップS308)。   Here, when the extraction of the target voice is not continued (No in step S307), the target voice extraction device 30 ends the processing. On the other hand, when extraction of the target voice is continued (Yes at step S307), the space covariance calculation unit 32 calculates a time frequency mask based on the acoustic signal of the section after the keyword section (step S308).

ここで、目的音声抽出装置30は、目的音声の抽出を続行するか否かを、あらかじめ設定された条件によって判定することができる。例えば、目的音声抽出装置30は、目的音声の抽出が開始されて所定の長さの時間が経過したか否か、目的音声を抽出できない時間が所定の長さ以上継続したか否か、等によって目的音声の抽出を続行するか否かを判定することができる。   Here, the target voice extraction device 30 can determine whether or not to continue the extraction of the target voice based on the conditions set in advance. For example, whether or not the target voice extraction device 30 starts extraction of the target voice and a predetermined length of time has elapsed, and whether or not the time in which the target voice can not be extracted continues for a predetermined length or longer, etc. It can be determined whether to continue extracting the target voice.

そして、空間共分散計算部32は、時間周波数マスクを用いて雑音下目的信号空間共分散行列、及び雑音空間共分散行列を更新する(ステップS309)さらに、目的音声抽出装置30は、ステップS305に処理を戻し、雑音抑圧フィルタの計算及び目的音声の抽出を行う。   Then, the space covariance calculation unit 32 updates the noisy target signal space covariance matrix and the noise space covariance matrix using the time frequency mask (step S309). Furthermore, the target speech extraction device 30 proceeds to step S305. The processing is returned, and the noise suppression filter is calculated and the target speech is extracted.

ここで、図8を用いて、第3の実施形態の変形例に係る目的音声抽出装置の処理の流れを説明する。図8は、第3の実施形態の変形例に係る目的音声抽出装置の処理の流れを示すフローチャートである。   Here, the flow of processing of the target speech extraction device according to the modification of the third embodiment will be described using FIG. FIG. 8 is a flowchart showing the process flow of the target speech extraction apparatus according to the modification of the third embodiment.

まず、図8に示すように、キーワード検出部31は、キーワードを検出するまで(ステップS351、No)、音響信号を監視する。ここで、キーワード検出部31は、キーワードを検出すると(ステップS351、Yes)、キーワード区間を計算する(ステップS352)。   First, as shown in FIG. 8, the keyword detection unit 31 monitors an acoustic signal until a keyword is detected (No in step S 351). Here, when the keyword detection unit 31 detects a keyword (Yes in step S351), the keyword detection unit 31 calculates a keyword section (step S352).

空間共分散計算部32は、キーワード区間の音響信号を基に雑音下目的信号空間共分散行列を計算する(ステップS353)。次に、空間共分散計算部32は、キーワード区間以外の区間の音響信号を基に雑音空間共分散行列を計算する(ステップS354)。   The space covariance calculation unit 32 calculates a noisy target signal space covariance matrix based on the acoustic signal in the keyword section (step S353). Next, the space covariance calculation unit 32 calculates a noise space covariance matrix based on the acoustic signals of the sections other than the keyword section (step S354).

そして、雑音抑圧部33は、雑音下目的信号空間共分散行列、及び雑音空間共分散行列を基に雑音抑圧フィルタを計算する(ステップS355)。ここで、雑音抑圧部33は、雑音抑圧フィルタを用いて音響信号から目的音声を抽出する(ステップS356)。   Then, the noise suppression unit 33 calculates a noise suppression filter based on the noisy target signal space covariance matrix and the noise space covariance matrix (step S355). Here, the noise suppression unit 33 extracts the target voice from the acoustic signal using the noise suppression filter (step S356).

ここで、目的音声の抽出が続行されない場合(ステップS357、No)、目的音声抽出装置30は処理を終了する。一方、目的音声の抽出が続行される場合(ステップS357、Yes)、音声区間検出部35は、キーワード区間の後の音声区間を検出する(ステップS358)。そして、空間共分散計算部32は、音声区間の音響信号、及び音声区間以外の区間の音響信号を基に時間周波数マスクを計算する(ステップS359)。   Here, if the extraction of the target voice is not continued (No at Step S357), the target voice extraction device 30 ends the processing. On the other hand, when extraction of the target voice is continued (Yes at step S357), the speech segment detection unit 35 detects a speech segment after the keyword segment (step S358). Then, the space covariance calculation unit 32 calculates a time frequency mask based on the acoustic signal of the voice section and the acoustic signal of the section other than the voice section (step S359).

そして、空間共分散計算部32は、時間周波数マスクを用いて雑音下目的信号空間共分散行列、及び雑音空間共分散行列を更新する(ステップS360)さらに、目的音声抽出装置30は、ステップS355に処理を戻し、雑音抑圧フィルタの計算及び目的音声の抽出を行う。   Then, the space covariance calculation unit 32 updates the noisy target signal space covariance matrix and the noise space covariance matrix using the time frequency mask (step S360). Furthermore, the target speech extraction device 30 proceeds to step S355. The processing is returned, and the noise suppression filter is calculated and the target speech is extracted.

[第3の実施形態の効果]
第3の実施形態において、空間共分散計算部32は、キーワード区間より後の時間区間の音響信号について、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを示す時間周波数マスクをさらに計算し、時間周波数マスクを用いて、雑音下目的信号空間共分散行列及び雑音空間共分散行列を更新する。これにより、第3の実施形態では、キーワード区間後に、話者の位置が移動したり、背景雑音の性質が変化したりする場合でも、2つの空間共分散行列の変化を追跡することができるようになり、より精度良く目的音声の抽出が可能になる。
[Effect of the third embodiment]
In the third embodiment, the space covariance calculation unit 32 further calculates a time frequency mask indicating which of the target voice and noise dominates at each time frequency point for the sound signal of the time period after the keyword period. And update the noisy target signal space covariance matrix and the noise space covariance matrix using the time frequency mask. Thus, in the third embodiment, changes in two space covariance matrices can be tracked even if the speaker's position moves or the nature of background noise changes after the keyword period. As a result, the target speech can be extracted more accurately.

第3の実施形態の変形例において、音声区間検出部35は、キーワード区間より後であって、目的音声が話されている時間区間である音声区間を検出する。また、空間共分散計算部32は、さらに、音声区間に関する情報を用いて、雑音下目的信号空間共分散行列及び雑音空間共分散行列を更新する。これにより、第3の実施形態では、目的音声が含まれない時間区間に誤って目的音声が含まれると検出されるエラーを減少させることができ、2つの空間共分散行列の変化を、より精度良く追跡できるようになる。   In the modification of the third embodiment, the voice section detection unit 35 detects a voice section which is a time section after the keyword section and in which the target voice is spoken. Further, the space covariance calculation unit 32 further updates the noisy target signal space covariance matrix and the noise space covariance matrix using the information on the speech segment. Thereby, in the third embodiment, it is possible to reduce an error detected when the target speech is erroneously included in the time interval in which the target speech is not included, and the changes of the two space covariance matrices are made more accurate. You will be able to track well.

[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration etc.]
Further, each component of each device illustrated in the drawings is functionally conceptual, and does not necessarily have to be physically configured as illustrated. That is, the specific form of the dispersion and integration of each device is not limited to that shown in the drawings, and all or a part thereof is functionally or physically dispersed in any unit depending on various loads, usage conditions, etc. It can be integrated and configured. Furthermore, all or any part of each processing function performed by each device is realized by a central processing unit (CPU) and a program analyzed and executed by the CPU, or hardware by wired logic Can be realized as

また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。   Further, among the processes described in the embodiment, all or part of the processes described as being automatically performed can be manually performed, or all the processes described as being manually performed. Alternatively, some of them can be performed automatically by known methods. In addition to the above, the processing procedures, control procedures, specific names, and information including various data and parameters shown in the above documents and drawings can be arbitrarily changed unless otherwise specified.

[プログラム]
一実施形態として、目的音声抽出装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の目的音声の抽出を実行する目的音声抽出プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の目的音声抽出プログラムを情報処理装置に実行させることにより、情報処理装置を目的音声抽出装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
[program]
In one embodiment, the target voice extraction device 10 can be implemented by installing a target voice extraction program for executing extraction of the target voice as package software or online software on a desired computer. For example, the information processing apparatus can be functioned as the target voice extraction apparatus 10 by causing the information processing apparatus to execute the above-described target voice extraction program. The information processing apparatus referred to here includes a desktop or laptop personal computer. In addition, the information processing apparatus also includes mobile communication terminals such as smartphones, cellular phones and PHS (Personal Handyphone System), and slate terminals such as PDA (Personal Digital Assistant).

また、目的音声抽出装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の目的音声の抽出に関するサービスを提供する目的音声抽出サーバ装置として実装することもできる。例えば、目的音声抽出サーバ装置は、音響信号を入力とし、目的音声を出力とする目的音声抽出サービスを提供するサーバ装置として実装される。この場合、目的音声抽出サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の目的音声の抽出に関するサービスを提供するクラウドとして実装することとしてもかまわない。   The target voice extraction device 10 can also be implemented as a target voice extraction server device that uses a terminal device used by a user as a client and provides the client with a service related to the above-described target voice extraction. For example, the target voice extraction server device is implemented as a server device that provides a target voice extraction service in which an audio signal is input and a target voice is output. In this case, the target voice extraction server device may be implemented as a Web server, or may be implemented as a cloud that provides a service related to the extraction of the target voice by outsourcing.

図9は、目的音声抽出プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。   FIG. 9 is a diagram illustrating an example of a computer that executes a target voice extraction program. The computer 1000 includes, for example, a memory 1010 and a CPU 1020. The computer 1000 also includes a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These units are connected by a bus 1080.

メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。   The memory 1010 includes a read only memory (ROM) 1011 and a random access memory (RAM) 1012. The ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System). The hard disk drive interface 1030 is connected to the hard disk drive 1090. Disk drive interface 1040 is connected to disk drive 1100. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100. The serial port interface 1050 is connected to, for example, a mouse 1110 and a keyboard 1120. The video adapter 1060 is connected to, for example, the display 1130.

ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、目的音声抽出装置の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、目的音声抽出装置における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。   The hard disk drive 1090 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, a program defining each process of the target speech extraction device is implemented as a program module 1093 in which a computer-executable code is described. The program module 1093 is stored, for example, in the hard disk drive 1090. For example, the hard disk drive 1090 stores a program module 1093 for executing the same processing as the functional configuration of the target voice extraction device. The hard disk drive 1090 may be replaced by a solid state drive (SSD).

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。   The setting data used in the process of the above-described embodiment is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1090. Then, the CPU 1020 reads out the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as needed, and executes them.

なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。   The program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1090, and may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). The program module 1093 and the program data 1094 may be read by the CPU 1020 from another computer via the network interface 1070.

10、20、30 目的音声抽出装置
11、21、31 キーワード検出部
12、22、32 空間共分散計算部
13、23、33 雑音抑圧部
24 記憶部
35 音声区間検出部
10, 20, 30 Target voice extraction device 11, 21, 31 Keyword detection unit 12, 22, 32 Space covariance calculation unit 13, 23, 33 Noise suppression unit 24 Storage unit 35 Voice section detection unit

Claims (8)

入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出工程と、
前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算工程と、
前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧工程と、
を含んだことを特徴とする目的音声抽出方法。
A keyword detection step of detecting that a keyword has been spoken based on the input acoustic signal and calculating a keyword section which is a time section in which the keyword is spoken;
Noise target signal space covariance matrix which is a space covariance matrix based on acoustic signals of the keyword section is calculated, and noise space covariance which is a space covariance matrix based on acoustic signals of a predetermined time section other than the keyword section Space covariance calculation step of calculating a matrix;
A noise suppression step of calculating a noise suppression filter based on the noisy target signal space covariance matrix and the noise space covariance matrix, applying the noise suppression filter to the input acoustic signal, and extracting a target voice;
A target speech extraction method characterized in that
前記キーワード検出工程は、前記キーワードが話され終わった終了時刻を検出し、前記終了時刻と、前記キーワードを話す時間としてあらかじめ定められた時間と、に基づいて前記キーワード区間を計算することを特徴とする請求項1に記載の目的音声抽出方法。   The keyword detecting step detects an end time at which the keyword has been spoken, and calculates the keyword section based on the end time and a predetermined time for talking the keyword. The target speech extraction method according to claim 1. 前記空間共分散計算工程は、音響信号を所定の時間区間ごとに区切って得られる短時間音響信号のそれぞれに基づく空間共分散行列である短時間空間共分散行列をさらに計算し、計算した前記短時間空間共分散行列を記憶部に格納し、前記キーワード検出工程によって前記キーワード区間が計算された場合、前記記憶部に記憶された前記短時間空間共分散行列のうち、前記キーワード区間を含む時間区間の短時間空間共分散行列を基に前記雑音下目的信号空間共分散行列を計算し、前記記憶部に記憶された前記短時間空間共分散行列のうち、前記キーワード区間を含まない時間区間の短時間空間共分散行列を基に前記雑音空間共分散行列を計算することを特徴とする請求項1又は2に記載の目的音声抽出方法。   The space covariance calculation step further calculates the short time space covariance matrix, which is a space covariance matrix based on each of the short time sound signals obtained by dividing the sound signal into predetermined time intervals, When a space-time covariance matrix is stored in a storage unit, and the keyword section is calculated by the keyword detection process, a time interval including the keyword section among the short time space covariance matrix stored in the storage unit Calculating the noisy target signal space covariance matrix based on the short time space covariance matrix of the short time space of the time intervals not including the keyword interval among the short time spatial covariance matrices stored in the storage unit; 3. The target speech extraction method according to claim 1, wherein the noise space covariance matrix is calculated based on a time space covariance matrix. 前記空間共分散計算工程は、前記キーワード区間の音響信号について、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを示す時間周波数マスクをさらに計算し、前記時間周波数マスクを用いて、前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を計算することを特徴とする請求項1から3のいずれか1項に記載の目的音声抽出方法。   The space covariance calculation step further calculates, for each time frequency point, a time frequency mask indicating which one of the target voice and noise is dominant for the sound signal in the keyword section, using the time frequency mask. The target speech extraction method according to any one of claims 1 to 3, wherein a noisy target signal space covariance matrix and the noise space covariance matrix are calculated. 前記空間共分散計算工程は、前記キーワード区間より後の時間区間の音響信号について、時間周波数点ごとに目的音声と雑音のどちらが優勢であるかを示す時間周波数マスクをさらに計算し、前記時間周波数マスクを用いて、前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を更新することを特徴とする請求項1から4のいずれか1項に記載の目的音声抽出方法。   The space covariance calculation step further calculates, for each time frequency point, a time frequency mask indicating which one of the target voice and the noise is dominant for the sound signal of the time period after the keyword period, and the time frequency mask The target speech extraction method according to any one of claims 1 to 4, wherein the noisy target signal space covariance matrix and the noise space covariance matrix are updated using. 前記キーワード区間より後であって、目的音声が話されている時間区間である音声区間を検出する音声区間検出工程をさらに含み、
前記空間共分散計算工程は、さらに、前記音声区間に関する情報を用いて、前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を更新することを特徴とする請求項3から5のいずれか1項に記載の目的音声抽出方法。
The method further includes a voice period detection step of detecting a voice period which is a time period in which a target voice is being spoken after the keyword period,
The space covariance calculation step further updates the noisy target signal space covariance matrix and the noise space covariance matrix using information on the speech segment. The target voice extraction method according to item 1 or 2.
入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出部と、
前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算部と、
前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧部と、
を有することを特徴とする目的音声抽出装置。
A keyword detection unit that detects that a keyword has been spoken based on the input acoustic signal and calculates a keyword section that is a time section in which the keyword is spoken;
Noise target signal space covariance matrix which is a space covariance matrix based on acoustic signals of the keyword section is calculated, and noise space covariance which is a space covariance matrix based on acoustic signals of a predetermined time section other than the keyword section A spatial covariance calculator that calculates a matrix;
A noise suppression unit that calculates a noise suppression filter based on the noisy target signal space covariance matrix and the noise space covariance matrix, applies the noise suppression filter to the input acoustic signal, and extracts the target speech;
An object voice extraction device characterized by having.
コンピュータに、
入力された音響信号を基に、キーワードが話されたことを検出し、当該キーワードが話された時間区間であるキーワード区間を計算するキーワード検出ステップと、
前記キーワード区間の音響信号に基づく空間共分散行列である雑音下目的信号空間共分散行列を計算し、前記キーワード区間以外の所定の時間区間の音響信号に基づく空間共分散行列である雑音空間共分散行列を計算する空間共分散計算ステップと、
前記雑音下目的信号空間共分散行列及び前記雑音空間共分散行列を基に雑音抑圧フィルタを計算し、入力された音響信号に前記雑音抑圧フィルタを適用し、目的音声を抽出する雑音抑圧ステップと、
を実行させることを特徴とする目的音声抽出プログラム。
On the computer
A keyword detection step of detecting that a keyword has been spoken based on the input acoustic signal, and calculating a keyword section which is a time section in which the keyword is spoken;
Noise target signal space covariance matrix which is a space covariance matrix based on acoustic signals of the keyword section is calculated, and noise space covariance which is a space covariance matrix based on acoustic signals of a predetermined time section other than the keyword section A spatial covariance calculation step to calculate a matrix,
A noise suppression step of calculating a noise suppression filter based on the noisy target signal space covariance matrix and the noise space covariance matrix, applying the noise suppression filter to the input acoustic signal, and extracting a target voice;
A target speech extraction program characterized by performing.
JP2017165974A 2017-08-30 2017-08-30 Target voice extraction method, target voice extraction device, and target voice extraction program Active JP6711789B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017165974A JP6711789B2 (en) 2017-08-30 2017-08-30 Target voice extraction method, target voice extraction device, and target voice extraction program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017165974A JP6711789B2 (en) 2017-08-30 2017-08-30 Target voice extraction method, target voice extraction device, and target voice extraction program

Publications (2)

Publication Number Publication Date
JP2019045576A true JP2019045576A (en) 2019-03-22
JP6711789B2 JP6711789B2 (en) 2020-06-17

Family

ID=65814251

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017165974A Active JP6711789B2 (en) 2017-08-30 2017-08-30 Target voice extraction method, target voice extraction device, and target voice extraction program

Country Status (1)

Country Link
JP (1) JP6711789B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159305A (en) * 2018-03-14 2019-09-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド Method, equipment, system, and storage medium for implementing far-field speech function
JP2020148880A (en) * 2019-03-13 2020-09-17 日本電信電話株式会社 Noise space covariance matrix estimation device, noise space covariance matrix estimation method and program
JP2021036297A (en) * 2019-08-30 2021-03-04 株式会社東芝 Signal processing device, signal processing method, and program
WO2023228785A1 (en) * 2022-05-24 2023-11-30 株式会社東芝 Acoustic signal processing device, acoustic signal processing method, and program

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019166030A (en) * 2018-03-23 2019-10-03 株式会社三共 Game machine

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004109361A (en) * 2002-09-17 2004-04-08 Toshiba Corp Device, method, and program for setting directivity
JP2014145838A (en) * 2013-01-28 2014-08-14 Honda Motor Co Ltd Sound processing device and sound processing method
JP2017090853A (en) * 2015-11-17 2017-05-25 株式会社東芝 Information processing device, information processing method, and program
WO2017094862A1 (en) * 2015-12-02 2017-06-08 日本電信電話株式会社 Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004109361A (en) * 2002-09-17 2004-04-08 Toshiba Corp Device, method, and program for setting directivity
JP2014145838A (en) * 2013-01-28 2014-08-14 Honda Motor Co Ltd Sound processing device and sound processing method
JP2017090853A (en) * 2015-11-17 2017-05-25 株式会社東芝 Information processing device, information processing method, and program
WO2017094862A1 (en) * 2015-12-02 2017-06-08 日本電信電話株式会社 Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159305A (en) * 2018-03-14 2019-09-19 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド Method, equipment, system, and storage medium for implementing far-field speech function
US11295760B2 (en) 2018-03-14 2022-04-05 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus, system and storage medium for implementing a far-field speech function
JP2020148880A (en) * 2019-03-13 2020-09-17 日本電信電話株式会社 Noise space covariance matrix estimation device, noise space covariance matrix estimation method and program
WO2020184210A1 (en) * 2019-03-13 2020-09-17 日本電信電話株式会社 Noise-spatial-covariance-matrix estimation device, noise-spatial-covariance-matrix estimation method, and program
JP7159928B2 (en) 2019-03-13 2022-10-25 日本電信電話株式会社 Noise Spatial Covariance Matrix Estimator, Noise Spatial Covariance Matrix Estimation Method, and Program
JP2021036297A (en) * 2019-08-30 2021-03-04 株式会社東芝 Signal processing device, signal processing method, and program
CN112447191A (en) * 2019-08-30 2021-03-05 株式会社东芝 Signal processing device and signal processing method
US11395061B2 (en) 2019-08-30 2022-07-19 Kabushiki Kaisha Toshiba Signal processing apparatus and signal processing method
CN112447191B (en) * 2019-08-30 2024-03-12 株式会社东芝 Signal processing device and signal processing method
WO2023228785A1 (en) * 2022-05-24 2023-11-30 株式会社東芝 Acoustic signal processing device, acoustic signal processing method, and program

Also Published As

Publication number Publication date
JP6711789B2 (en) 2020-06-17

Similar Documents

Publication Publication Date Title
JP2019045576A (en) Target voice extraction method, target voice extraction device and target voice extraction program
US11763834B2 (en) Mask calculation device, cluster weight learning device, mask calculation neural network learning device, mask calculation method, cluster weight learning method, and mask calculation neural network learning method
JP6350148B2 (en) SPEAKER INDEXING DEVICE, SPEAKER INDEXING METHOD, AND SPEAKER INDEXING COMPUTER PROGRAM
CN106663446B (en) User environment aware acoustic noise reduction
JP6303971B2 (en) Speaker change detection device, speaker change detection method, and computer program for speaker change detection
JP6434657B2 (en) Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program
US7844456B2 (en) Grammar confusability metric for speech recognition
WO2014114048A1 (en) Voice recognition method and apparatus
JP2020034882A (en) Mask-estimating device, mask-estimating method, and mask-estimating program
JP2020013034A (en) Voice recognition device and voice recognition method
JP6538624B2 (en) Signal processing apparatus, signal processing method and signal processing program
JP5994639B2 (en) Sound section detection device, sound section detection method, and sound section detection program
JP5974901B2 (en) Sound segment classification device, sound segment classification method, and sound segment classification program
JP2009053349A (en) Signal separation device, signal separation method, program, and recording medium
JP6711765B2 (en) Forming apparatus, forming method, and forming program
JP2015082093A (en) Abnormal conversation detector, abnormal conversation detecting method, and computer program for detecting abnormal conversation
JP6724290B2 (en) Sound processing device, sound processing method, and program
JP7112348B2 (en) SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD AND SIGNAL PROCESSING PROGRAM
CN116830191A (en) Automatic speech recognition parameters based on hotword attribute deployment
JP2018019396A (en) Tone quality improvement method, computer program for executing the same, and electronic apparatus
CN113808606B (en) Voice signal processing method and device
CN110895929B (en) Voice recognition method and device
JP2019105681A (en) Estimation device, estimation method and estimation program
JP7333878B2 (en) SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD, AND SIGNAL PROCESSING PROGRAM
JP7424587B2 (en) Learning device, learning method, estimation device, estimation method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200528

R150 Certificate of patent or registration of utility model

Ref document number: 6711789

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150