JP2018136509A - Signal processing apparatus, program, and method - Google Patents
Signal processing apparatus, program, and method Download PDFInfo
- Publication number
- JP2018136509A JP2018136509A JP2017032567A JP2017032567A JP2018136509A JP 2018136509 A JP2018136509 A JP 2018136509A JP 2017032567 A JP2017032567 A JP 2017032567A JP 2017032567 A JP2017032567 A JP 2017032567A JP 2018136509 A JP2018136509 A JP 2018136509A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- input
- filter
- frequency
- frequency analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、信号処理装置、プログラム及び方法に関し、例えば、複数の音源が存在する環境下で、特定の方向の範囲に存在する音源を強調し収音することを欲する通信端末、オーディオ機器、音声認識装置などに適用し得る。 The present invention relates to a signal processing device, a program, and a method, for example, a communication terminal, an audio device, and a voice that want to emphasize and collect sound sources existing in a range in a specific direction in an environment where a plurality of sound sources exist. It can be applied to a recognition device or the like.
複数の音源が存在する環境下において、ある目的の音源を抽出する技術として、複数のマイクを用いた音源分離、マイクを直線上や平面上、球面上等に配置したマイクアレイを用いたビームフォーマやヌルフォーマ等がある。特に、目的の音源以外の音源が非定常である場合や、複数ある場合には、単一のマイクを用いたノイズサプレッサによる目的音源の抽出は難しく、2つ以上のマイクを用いることが必須となる。 As a technique for extracting a target sound source in an environment where there are a plurality of sound sources, a sound source separation using a plurality of microphones, and a beamformer using a microphone array in which the microphones are arranged on a straight line, a plane, a spherical surface, etc. And nullformers. In particular, when there are non-stationary sound sources other than the target sound source or when there are a plurality of sound sources, it is difficult to extract the target sound source with a noise suppressor using a single microphone, and it is essential to use two or more microphones. Become.
上述したマイクアレイを用いたビームフォーマとは、ある特定の方向の音のみ強調し収音する技術である。ビームフォーマとは、各マイクに到達する信号の時間差を利用して指向性を形成する技術である。 The beam former using the above-described microphone array is a technique that emphasizes and collects only sound in a specific direction. The beam former is a technique for forming directivity by using a time difference between signals reaching each microphone.
ビームフォーマには、加算型と減算型という2つの種類がある。加算型ビームフォーマに比べて、減算型ビームフォーマはより少ないマイク数で鋭い指向性を形成できるという利点がある。 There are two types of beamformers: an addition type and a subtraction type. Compared with the addition beamformer, the subtraction beamformer has an advantage that a sharp directivity can be formed with a smaller number of microphones.
図13は、マイク数が2個の場合の減算型ビームフォーマに係る構成を示すブロック図である。図13の減算型ビームフォーマは、第1のマイクM1、第2のマイクM2、第1の遅延手段3、第2の遅延手段4、減算手段5から構成される。第1のマイクM1で収音した第1の入力信号は第1の遅延手段3に与えられ、第2のマイクM2で収音した第2の入力信号は第2の遅延手段4に与えられる。妨害音が第1のマイクM1側から到来している場合、第1の遅延手段3は第1の入力信号を遅延させることで、第1の入力信号と第2の入力信号に含まれる妨害音の位相を合わせる。一方、妨害音が第2のマイクM2側から到来している場合、第2の遅延手段4は第2の入力信号を遅延させることで、妨害音の位相を合わせる。第1の遅延手段3から得られた第1の遅延信号と第2の遅延手段から得られた第2の遅延信号は減算手段5に与えられる。減算手段5は、第1の遅延信号から第2の遅延信号を減じることで、強調音声を得る。以上のように、減算型ビームフォーマは、第1の入力信号と第2の入力信号とに含まれる妨害音の位相を合わせ、減算し、妨害音を抑圧することで、目的音を強調する。減算型ビームフォーマは、事前に与えられる妨害音の到来方向情報を必要とする。
FIG. 13 is a block diagram showing a configuration related to a subtractive beamformer when the number of microphones is two. The subtractive beamformer shown in FIG. 13 includes a first microphone M1, a second microphone M2, a
ところで、減算型ビームフォーマには、妨害音源が少しでも移動してしまうと、妨害音の抑圧性能が大きく低下してしまう問題がある。 By the way, the subtractive beamformer has a problem that if the disturbing sound source is moved even a little, the suppression performance of the disturbing sound is greatly deteriorated.
図14は、従来の信号処理装置Zを用いて、自動車(車両)Aの中における運転手U1の音声を強調する例について示した説明図である。 FIG. 14 is an explanatory diagram showing an example in which the voice of the driver U1 in the automobile (vehicle) A is emphasized using the conventional signal processing device Z.
例えば、図14に示すように音声認識を用いて音声によって操作できるカーナビゲーションシステムなどでは、自動車内において運転手の音声だけを抽出する必要がある。 For example, as shown in FIG. 14, in a car navigation system that can be operated by voice using voice recognition, it is necessary to extract only the voice of the driver in the car.
したがって、運転席と助手席にそれぞれ人が乗車している場合には、助手席の助手U2の音声(妨害音)を抑圧する必要があるが、助手U2が前後左右に顔(妨害音源)を動かすと、減算型ビームフォーマでは妨害音を抑圧することができない。 Therefore, when a person is in the driver's seat and the passenger seat, it is necessary to suppress the voice (interference sound) of the assistant U2 in the passenger seat. When moved, the subtractive beamformer cannot suppress the interference sound.
適応ビームフォーマの代表の一つである最小分散ビームフォーマ(Minimum Variance Beamformer:MVB)は、目的音の到来方向を事前に与えることで、妨害音を効率的に抑圧できる方法である。MVBは、目的音の到来方向に対してはゲインが1となるような拘束条件の下で、強調音声の分散を最小化することにより、妨害音を抑圧する。 A minimum dispersion beamformer (MVB), which is one of representative adaptive beamformers, is a method that can efficiently suppress interference sound by giving the arrival direction of a target sound in advance. The MVB suppresses the interference sound by minimizing the dispersion of the emphasized speech under the constraint condition that the gain is 1 with respect to the arrival direction of the target sound.
また、スペクトル減算法を用いることで、目的音源の到来方向に強い指向性を形成することができる。非特許文献1では、目的音源は常に正面にあると仮定して、第1に減算型ビームフォーマで正面方向から到来する目的音を抑圧した目的音抑圧信号を得、第2に第1の入力信号の振幅スペクトルから目的音抑圧信号の振幅スペクトルを減算(スペクトル減算)することで目的音を強調した強調音声の振幅スペクトルを得、第3に強調音声の振幅スペクトルと第1の入力信号の位相スペクトルとを用いて強調音声を得る。
Further, by using the spectral subtraction method, strong directivity can be formed in the direction of arrival of the target sound source. In
しかしながら、従来の技術は以下に述べる問題を有する。 However, the conventional technology has the following problems.
図15は、自動車Aの中における目的音と妨害音のイメージについて示した説明図である。 FIG. 15 is an explanatory diagram showing an image of a target sound and an interference sound in the automobile A.
MVBは、マイクの数より1つ少ない数の妨害音しか抑圧することができない。したがって、図14のように2つのマイクで目的音を強調する場合、妨害音は図15(b)に示すように伝搬するため、MVBは妨害音の直接音を抑圧できるが反射音を抑圧できないので、目的音を十分に強調することができない。 MVB can suppress only one disturbance sound, which is one less than the number of microphones. Therefore, when the target sound is emphasized by two microphones as shown in FIG. 14, the interference sound propagates as shown in FIG. 15B, so that MVB can suppress the direct sound of the interference sound but cannot suppress the reflected sound. Therefore, the target sound cannot be emphasized sufficiently.
非特許文献1に記載の技術は、正面方向以外から到来した音声は、目的音に由来するものであってもすべて抑圧してしまう。したがって、図14のように2つのマイクで目的音を強調する場合、目的音は図15(a)に示すように伝搬するため、非特許文献1に記載の技術は目的音の反射音をも抑圧してしまうため、目的音の音質が劣化してしまう。
With the technique described in Non-Patent
そのため、より少ない演算コストで、且つ、より少ない歪みで目的音を強調する信号処理装置、プログラム及び方法を提供することができる。 Therefore, it is possible to provide a signal processing apparatus, program, and method that emphasizes a target sound with less calculation cost and less distortion.
第1の本発明の信号処理装置は、(1)第1の収音装置から入力された第1の入力信号を周波数解析して第1の入力スペクトルを得る第1の周波数解析手段と、(2)第2の収音装置から入力された第2の入力信号を周波数解析して第2の入力スペクトルを得る第2の周波数解析手段と、(3)前記第1の周波数解析手段で得られた第1の入力スペクトルと前記第2の周波数解析手段で得られた第2の入力スペクトルに基づき、前記第1の収音装置の位置と前記第2の収音装置の位置を結んだ直線と垂直をなす正面方向に対して、正面方向及び前記第1の収音装置側の方向の値を大きくとり、前記第2の収音装置側の方向の値を小さくとる第1の特徴量を算出する特徴量算出手段と、(4)前記特徴量算出手段で算出された前記第1の特徴量を、所定の広義単調増加関数で写像して強調フィルタを得るフィルタ決定手段と、(5)前記第1の周波数解析手段で得られた第1の入力スペクトルに前記フィルタ決定手段で得られた強調フィルタを乗じて強調スペクトルを得る乗算手段とを備えることを特徴とする。 The signal processing apparatus according to the first aspect of the present invention includes: (1) first frequency analysis means for obtaining a first input spectrum by performing frequency analysis on the first input signal input from the first sound collection device; 2) second frequency analysis means for obtaining a second input spectrum by frequency analysis of the second input signal inputted from the second sound collecting device; and (3) obtained by the first frequency analysis means. A straight line connecting the position of the first sound pickup device and the position of the second sound pickup device based on the first input spectrum and the second input spectrum obtained by the second frequency analysis means; A first feature value is calculated which takes a value in the front direction and the direction on the first sound collecting device side larger and a value in the direction on the second sound collecting device side smaller than the vertical front direction. And (4) the first feature amount calculated by the feature amount calculation unit. Filter determining means that obtains an enhancement filter by mapping with a predetermined monotonically increasing function in a broad sense; and (5) the enhancement filter obtained by the filter decision means on the first input spectrum obtained by the first frequency analysis means. And multiplication means for obtaining an enhanced spectrum by multiplying by.
第2の本発明の信号処理プログラムは、コンピュータを、(1)第1の収音装置から入力された第1の入力信号を周波数解析して第1の入力スペクトルを得る第1の周波数解析手段と、(2)第2の収音装置から入力された第2の入力信号を周波数解析して第2の入力スペクトルを得る第2の周波数解析手段と、(3)前記第1の周波数解析手段で得られた第1の入力スペクトルと前記第2の周波数解析手段で得られた第2の入力スペクトルに基づき、前記第1の収音装置の位置と前記第2の収音装置の位置を結んだ直線と垂直をなす正面方向に対して、正面方向及び前記第1の収音装置側の方向の値を大きくとり、前記第2の収音装置側の方向の値を小さくとる第1の特徴量を算出する特徴量算出手段と、(4)前記特徴量算出手段で算出された前記第1の特徴量を、所定の広義単調増加関数で写像して強調フィルタを得るフィルタ決定手段と、(5)前記第1の周波数解析手段で得られた第1の入力スペクトルに前記フィルタ決定手段で得られた強調フィルタを乗じて強調スペクトルを得る乗算手段と、(6)前記乗算手段で得られた強調スペクトルを入力して信号波形を復元して強調音声を得る波形復元手段として機能させることを特徴とする。
A signal processing program according to a second aspect of the present invention provides a computer, (1) first frequency analysis means for obtaining a first input spectrum by performing frequency analysis on a first input signal input from a first sound collection device. And (2) second frequency analysis means for obtaining a second input spectrum by performing frequency analysis on the second input signal input from the second sound collection device, and (3) the first frequency analysis means. Based on the first input spectrum obtained in
第3の本発明の信号処理方法は、信号処理方法において、(1)第1の周波数解析手段、第2の周波数解析手段、特徴量算出手段、フィルタ決定手段、及び乗算手段を有し、(2)前記第1の周波数解析手段は、第1の収音装置から入力された第1の入力信号を周波数解析して第1の入力スペクトルを得て、(3)前記第2の周波数解析手段は、第2の収音装置から入力された第2の入力信号を周波数解析して第2の入力スペクトルを得て、(4)前記特徴量算出手段は、前記第1の周波数解析手段で得られた第1の入力スペクトルと前記第2の周波数解析手段で得られた第2の入力スペクトルに基づき、前記第1の収音装置の位置と前記第2の収音装置の位置を結んだ直線と垂直をなす正面方向に対して、正面方向及び前記第1の収音装置側の方向の値を大きくとり、前記第2の収音装置側の方向の値を小さくとる第1の特徴量を算出し、(5)前記フィルタ決定手段は、前記特徴量算出手段で算出された前記第1の特徴量を、所定の広義単調増加関数で写像して強調フィルタを得て、(6)前記乗算手段は、前記第1の周波数解析手段で得られた第1の入力スペクトルに前記フィルタ決定手段で得られた強調フィルタを乗じて強調スペクトルを得ることを特徴とする。 A signal processing method according to a third aspect of the present invention is the signal processing method, comprising: (1) first frequency analysis means, second frequency analysis means, feature amount calculation means, filter determination means, and multiplication means ( 2) The first frequency analysis means obtains a first input spectrum by performing frequency analysis on the first input signal inputted from the first sound collecting device, and (3) the second frequency analysis means. Obtains a second input spectrum by performing frequency analysis on the second input signal inputted from the second sound collecting device, and (4) the feature amount calculating means is obtained by the first frequency analyzing means. A straight line connecting the position of the first sound collecting device and the position of the second sound collecting device based on the obtained first input spectrum and the second input spectrum obtained by the second frequency analyzing means. And the first sound collecting device with respect to the front direction perpendicular to the front direction. The first feature value is calculated by taking a larger value in the direction of the second sound and taking a smaller value in the direction on the second sound collecting device side. (5) The filter determining means is calculated by the feature value calculating means. The first feature value is mapped with a predetermined broad monotonically increasing function to obtain an enhancement filter. (6) The multiplying unit adds the first input spectrum obtained by the first frequency analyzing unit to the first input spectrum. The enhancement spectrum obtained by the filter determination means is multiplied to obtain an enhancement spectrum.
本発明によれば、より少ない演算コストで、且つ、より少ない歪みで目的音を強調する信号処理装置、プログラム及び方法を提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the signal processing apparatus, program, and method which emphasize a target sound with less calculation cost and less distortion can be provided.
(A)第1の実施形態
以下、本発明による信号処理装置、プログラム及び方法の第1の実施形態を、図面を参照しながら詳述する。
(A) First Embodiment A signal processing apparatus, program, and method according to a first embodiment of the present invention will be described in detail below with reference to the drawings.
(A−1)第1の実施形態の構成
図2は、第1の実施形態に係る信号処理装置100が利用される環境について示した説明図である。なお、図2において、括弧内の符号は、後述する第2〜第4の実施形態において用いられる符号である。
(A-1) Configuration of First Embodiment FIG. 2 is an explanatory diagram showing an environment in which the signal processing apparatus 100 according to the first embodiment is used. In FIG. 2, the reference numerals in parentheses are those used in the second to fourth embodiments described later.
第1の実施形態に係る信号処理装置100は、自動車Aの中における運転手U1の音声を強調する例について示した説明図である。自動車Aの中では、運転席に運転手U1が座り、助手席に助手U2が座った状態となっている。そして、自動車Aの中では運転手U1の正面(運転席の正面)に、マイクアレイを構成する第1のマイクM1及び第2のマイクM2が配置されている。運転手U1からみて、第1のマイクM1は左側(助手U2と反対の側)に配置されており、第2のマイクM2は右側(助手U2の側)に配置されている。 The signal processing apparatus 100 according to the first embodiment is an explanatory diagram illustrating an example in which the voice of the driver U1 in the automobile A is emphasized. In the car A, the driver U1 sits in the driver's seat and the assistant U2 sits in the passenger seat. In the automobile A, the first microphone M1 and the second microphone M2 constituting the microphone array are arranged in front of the driver U1 (front of the driver's seat). When viewed from the driver U1, the first microphone M1 is disposed on the left side (the side opposite to the assistant U2), and the second microphone M2 is disposed on the right side (the assistant U2 side).
図1は、第1の実施形態に係る信号処理装置100の機能的構成を示すブロック図である。 FIG. 1 is a block diagram illustrating a functional configuration of the signal processing apparatus 100 according to the first embodiment.
第1の実施形態の信号処理装置100は、第1の周波数解析手段101、第2の周波数解析手段102、特徴量算出手段103、フィルタ決定手段104、乗算手段105、及び波形復元手段106を有している。
The signal processing apparatus 100 according to the first embodiment includes a first
信号処理装置100は、一部または全部をソフトウェア的に構成するようにしてもよい。信号処理装置100は、例えば、メモリ及びプロセッサを有するコンピュータにプログラム(実施形態に係る信号処理プログラムを含む)をインストールすることにより構成してもよい。 A part or all of the signal processing apparatus 100 may be configured by software. For example, the signal processing apparatus 100 may be configured by installing a program (including the signal processing program according to the embodiment) in a computer having a memory and a processor.
第1の周波数解析手段101は、第1の入力信号x1を周波数解析して第1の入力スペクトルX1を得る。 The first frequency analysis means 101 obtains a first input spectrum X1 by performing frequency analysis on the first input signal x1.
第2の周波数解析手段102は、第2の入力信号x2を周波数解析して第2の入力スペクトルX2を得る。 The second frequency analysis means 102 analyzes the frequency of the second input signal x2 to obtain a second input spectrum X2.
特徴量算出手段103は、第1の入力スペクトルX1と第2の入力スペクトルX2とに基づいて所定の特徴量(以下、「DOA特徴量F」と呼ぶ)を得る。DOA特徴量Fは、目的音の到来方向に応じて変化する特徴量であり、詳細については後述する。 The feature amount calculation means 103 obtains a predetermined feature amount (hereinafter referred to as “DOA feature amount F”) based on the first input spectrum X1 and the second input spectrum X2. The DOA feature value F is a feature value that changes according to the direction of arrival of the target sound, and will be described in detail later.
特徴量算出手段103は、(1)式または(1)式を式変形した計算式によって前記DOA特徴量Fを得ることができる。 The feature quantity calculation means 103 can obtain the DOA feature quantity F by the formula (1) or a calculation formula obtained by transforming the formula (1).
(1)式では、ある時刻のある周波数において、前記第1の入力スペクトルをX1、前記第2の入力スペクトルをX2、前記第2の入力スペクトルの複素共役をX2 *としている。
フィルタ決定手段104は、DOA特徴量Fを所定の広義単調増加関数で写像して強調フィルタGを得る。
The
乗算手段105は、第1の入力スペクトルX1に強調フィルタGを乗じて強調スペクトルYを得る。 Multiplication means 105 multiplies first input spectrum X1 by enhancement filter G to obtain enhancement spectrum Y.
波形復元手段106は、強調スペクトルYに基づいて信号波形を復元して強調音声yを得る。 The waveform restoration means 106 restores the signal waveform based on the enhancement spectrum Y to obtain the enhanced speech y.
次に、特徴量算出手段103が得るDOA特徴量と、フィルタ決定手段104が得る強調フィルタの設計思想について述べる。
Next, the DOA feature quantity obtained by the feature
強調フィルタには、第2のマイクM2側(妨害音側)から到来する妨害音の直接音と反射音を抑圧し、第1のマイクM1側(目的音側、また、正面方向を含む)から到来する目的音の直接音と反射音を抑圧しない特徴を与える必要がある。そのため、DOA特徴量には、音が、第1のマイクM1側から到来した場合には大きな値を取り、第2のマイクM2側から到来した場合には小さな値を取るようにしたい。しかし、第1のマイクM1側が正面方向を含んでいるために、このような特徴は音の到来方向に対して対称とはならないため、当該特徴を有する公知の特徴量はない。 The enhancement filter suppresses the direct sound and reflected sound of the interference sound coming from the second microphone M2 side (interference sound side), and from the first microphone M1 side (including the target sound side and the front direction). It is necessary to give a characteristic that does not suppress the direct sound and reflected sound of the incoming target sound. Therefore, it is desired that the DOA feature value takes a large value when the sound comes from the first microphone M1 side and takes a small value when the sound comes from the second microphone M2 side. However, since the first microphone M1 side includes the front direction, such a feature is not symmetric with respect to the sound arrival direction, and there is no known feature amount having the feature.
そこで、正面方向に対して大きな値を取る特徴量と、第2のマイクM2側に対して大きな値を取る特徴量を考える。ある時刻のある周波数において、前記第1の入力スペクトルをX1、前記第2の入力スペクトルをX2、前記第2の入力スペクトルの複素共役をX2 *とおき、例えば、式(1−1)で表される特徴量Fcenterと、式(1−2)で表される特徴量Fsideを考える。
ここで、正面方向(2つのマイクの位置を結んだ直線と垂直をなす方向)を0度、第2のマイクM2側の(第1のマイクM1から見た第2のマイクM2の)方向を+90度とし、音源のスペクトルをS、角周波数をω、2つのマイク間隔をd、音の到来方向をθ(シータ)、音速をcとおくと、X1とX2はそれぞれ(2)式と(3)式のように書け、式(2)と式(3)を(1−1)式と(1−2)式に代入すると、それぞれ(3−1)式と(3−2)式が得られる。(3−1)式と(3−2)式で表される特徴量FcenterとFsideの、音の到来方向θに対する関係を、それぞれ図3と図4に示す。 Here, the front direction (the direction perpendicular to the straight line connecting the positions of the two microphones) is 0 degree, and the direction on the second microphone M2 side (the second microphone M2 viewed from the first microphone M1) is Assuming that +90 degrees, the spectrum of the sound source is S, the angular frequency is ω, the distance between two microphones is d, the direction of sound arrival is θ (theta), and the speed of sound is c, X 1 and X 2 are respectively expressed by Equation (2) And (3), and substituting Equations (2) and (3) into Equations (1-1) and (1-2), respectively, (3-1) and (3-2) The formula is obtained. FIGS. 3 and 4 show the relationship between the feature amounts F center and F side represented by the equations (3-1) and (3-2) with respect to the sound arrival direction θ, respectively.
図3は、特徴量Fcenterの例について示している。 FIG. 3 shows an example of the feature amount F center .
図3では、横軸を音源の到来方向θとし縦軸を特徴量Fcenterとしている。図3では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θと特徴量Fcenterの関係を示したグラフとなっている。 In FIG. 3, the horizontal axis is the sound source arrival direction θ, and the vertical axis is the feature amount F center . FIG. 3 is a graph showing the relationship between the arrival direction θ and the feature amount F center when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz.
図4は、特徴量Fsideの例について示している。 FIG. 4 shows an example of the feature amount F side .
図4では、横軸を音源の到来方向θとし縦軸を特徴量Fsideとしている。図4では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θと特徴量Fsideの関係を示したグラフとなっている。 In FIG. 4, the horizontal axis is the arrival direction θ of the sound source, and the vertical axis is the feature amount F side . FIG. 4 is a graph showing the relationship between the arrival direction θ and the feature amount F side when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz.
図3と図4から、Fcenterは到来方向0度に対して大きな値となっており、またFsideは0度に対して第2のマイクM2側に対して大きな値となり、第1のマイクM1側に対して小さな値となっている。 From FIG. 3 and FIG. 4, F center is a large value with respect to the arrival direction of 0 degrees, and F side is a large value with respect to the second microphone M2 side with respect to 0 degrees. It is a small value with respect to the M1 side.
以上のように、DOA特徴量Fは、目的音の方向(0度の方向;正面方向)に対して大きな値となる特性があるFcenterと、第2のマイクM2側(すなわち妨害音の音源である助手U2の側のマイク)に対して大きな値となる特性があるFsideを用いて得られる特徴量であることがわかる。 As described above, the DOA feature amount F includes the F center having characteristics that have a large value with respect to the direction of the target sound (the direction of 0 degrees; the front direction) and the second microphone M2 side (that is, the sound source of the interference sound). It can be seen that the feature amount is obtained using F side having a characteristic that is large with respect to the assistant U2 side microphone).
次に、音の到来方向とDOA特徴量との関係について述べる。 Next, the relationship between the sound arrival direction and the DOA feature value will be described.
DOA特徴量は(3−3)式で定義する。
(2)式と(3)式を(3−3)式に代入すると(4)式が得られ、式変形すると(5)式が得られる。(5)式で表される音の到来方向θとDOA特徴量Fとの関係を図5に示す。 Substituting Equations (2) and (3) into Equation (3-3) gives Equation (4), and transforming Equation gives Equation (5). FIG. 5 shows the relationship between the sound arrival direction θ expressed by the equation (5) and the DOA feature amount F.
図5は、音の到来方向θとDOA特徴量Fとの関係について示したグラフである。 FIG. 5 is a graph showing the relationship between the sound arrival direction θ and the DOA feature amount F.
図5では、横軸を音源の到来方向θとし縦軸をDOA特徴量Fとしている。図5では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θとDOA特徴量Fの関係を示したグラフとなっている。 In FIG. 5, the horizontal axis is the arrival direction θ of the sound source, and the vertical axis is the DOA feature amount F. FIG. 5 is a graph showing the relationship between the arrival direction θ and the DOA feature amount F when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz.
図5から、DOA特徴量Fは、正面方向に対しては必ずF=1となり、第2のマイクM2側(妨害音側)に対しては必ずF<1となる。一方、第1のマイクM1側に対しては、低い周波数と高い周波数の0度に近いθではF>1となり、高い周波数の90度に近い部分ではF<1となる。 From FIG. 5, the DOA feature amount F is always F = 1 for the front direction, and F <1 for the second microphone M2 side (interference sound side). On the other hand, for the first microphone M1 side, F> 1 at θ close to 0 degrees of the low frequency and high frequency, and F <1 at the portion close to 90 degrees of the high frequency.
以上のように、DOA特徴量Fは、音が、第1のマイクM1側から到来した場合には大きな値を取り、第2のマイクM2側から到来した場合には小さな値を取る特徴を備えていることがわかる。言い換えると、DOA特徴量Fは、正面方向から第1のマイクM1側の方向(助手U2からの妨害音と反対方向)にピークが存在し、当該ピークの存在する方向から第2のマイクM2側に方向が傾くほど値が小さくなる特徴があることがわかる。
強調フィルタは、DOA特徴量を所定の広義単調増加関数で写像することで得られる。 The enhancement filter can be obtained by mapping the DOA feature value with a predetermined broad monotone increasing function.
図6は、広義単調増加関数fmap(F)の例について示したグラフである。 FIG. 6 is a graph showing an example of the broad-sense monotone increasing function fmap (F).
図6では、横軸をDOA特徴量Fの値とし縦軸を強調フィルタGの値としている。 In FIG. 6, the horizontal axis represents the DOA feature value F and the vertical axis represents the enhancement filter G value.
図15からわかるように、強調フィルタは、第2のマイクM2側から到来する音を抑圧し、正面方向と第1のマイクM1側から到来する音は抑圧しないようにしたい。そこで、例えば広義単調増加関数fmap(F)を(6)式のように定義する。図6では、マイク間隔を3cm、音速を332m/s、F0=0.9としたfmap(F)の例を示している。 As can be seen from FIG. 15, it is desired that the enhancement filter suppresses the sound coming from the second microphone M2 side and does not suppress the sound coming from the front direction and the first microphone M1 side. Therefore, for example, the broad-sense monotone increasing function fmap (F) is defined as shown in Equation (6). FIG. 6 shows an example of fmap (F) in which the microphone interval is 3 cm, the sound speed is 332 m / s, and F 0 = 0.9.
強調フィルタをG=fmap(F)として得ると、音の到来方向θと強調フィルタGとの関係は図7のようになる。 When the enhancement filter is obtained as G = fmap (F), the relationship between the sound arrival direction θ and the enhancement filter G is as shown in FIG.
図7は、強調フィルタの例について示したグラフである。 FIG. 7 is a graph showing an example of the enhancement filter.
図7では、横軸を音の到来方向θの値とし縦軸を強調フィルタGの値としている。図7では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θと強調フィルタGの値の関係を示したグラフとなっている。 In FIG. 7, the horizontal axis is the value of the sound arrival direction θ, and the vertical axis is the value of the enhancement filter G. FIG. 7 is a graph showing the relationship between the direction of arrival θ and the value of the enhancement filter G when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz.
つまり、DOA特徴量Fが1より少し小さい値より大きい場合には強調フィルタGを1とし、そうでない場合には強調フィルタGは1より小さくすることで、強調フィルタに所望の特性、すなわち妨害音の直接音と反射音を抑圧するが目的音の直接音と妨害音は抑圧しない特性を与えられる。
なお、本発明と同様の強調フィルタは、例えば第1の入力スペクトルと第2の入力スペクトルとから周波数ごとに到来方向θを算出することで得ることもできるが、逆正接関数(atan、arctan、tan−1などと書かれる)を計算する演算コストがかかる。そのため、演算コストの観点で本発明の方が優位である。 The enhancement filter similar to the present invention can be obtained by calculating the arrival direction θ for each frequency from the first input spectrum and the second input spectrum, for example, but the inverse tangent function (atan, arctan, tan -1 written as such) it takes computational cost of calculating. Therefore, the present invention is superior from the viewpoint of calculation cost.
(A−2)第1の実施形態の動作
次に、上述した構成を有する第1の実施形態の信号処理装置100の動作(実施形態の信号処理方法)を、図1を参照しながら説明する。
(A-2) Operation of First Embodiment Next, the operation (signal processing method of the embodiment) of the signal processing apparatus 100 of the first embodiment having the above-described configuration will be described with reference to FIG. .
信号処理装置100は、目的音源を含む第1の入力信号x1と第2の入力信号x2(時間領域の入力信号)について、目的音強調を行って、強調音声y(時間領域の出力信号)を生成するものである。 Signal processing apparatus 100, first the input signal x 1 and the second input signal x 2 (input signal in the time domain), performs target sound is emphasized, the output signal of the enhanced speech y (time region including the target sound source ).
第1の周波数解析手段101及び第2の周波数解析手段は、フーリエ変換に代表される任意の周波数解析手法、またはフィルタバンクに代表される任意の帯域分割手段によって、第1の入力信号x1と第2の入力信号x2をそれぞれK個の帯域に分割し、第1の入力スペクトルX1と第2の入力スペクトルX2とを得る。以下、第1の入力スペクトルと第2の入力スペクトルは、帯域の番号(例えばk番目)を明示する必要がある場合はX1(k)、X2(k)と書き、帯域の番号を明示する必要がない場合は単にX1、X2と表記する。第1の周波数解析手段101は、得られた第1の入力スペクトルX1を特徴量算出手段103と乗算手段105に与え、第2の周波数解析手段102は、得られた第2の入力スペクトルX2を特徴量算出手段103に与える。なお、乗算手段105に与えられる入力スペクトルは第1の入力スペクトルX1としたが、これに限定されるものではなく、第2の入力スペクトルX2を乗算手段105に与えても良く、いずれも同様の効果を奏する。
The first frequency analysis means 101 and the second frequency analysis means are connected to the first input signal x 1 by an arbitrary frequency analysis method represented by Fourier transform or an arbitrary band dividing means represented by a filter bank. the second input signal x 2 is divided into K bands, respectively, to obtain the first input spectrum X 1 and a second input spectrum X 2. Hereinafter, the first input spectrum and the second input spectrum are written as X 1 (k) and X 2 (k) when the band number (for example, k-th) needs to be clearly indicated, and the band number is clearly indicated. When it is not necessary to do this, they are simply expressed as X 1 and X 2 . First frequency analysis means 101 gives the first of the input spectrum X 1
特徴量算出手段103は、第1の入力スペクトルX1と第2の入力スペクトルX2とに基づいて(7)式によってDOA特徴量Fを算出し、フィルタ決定手段104に与える。(7)式をそのまま使って計算しても良いが、冗長な演算を含むため、式変形しても良い。X1とX2は複素数なので、これを(8)式のように書き直して(7)式に代入して整理すると、(9)式を得る。(7)式の代わりに(9)式を用いることで、乗算回数を減らすことができる。
フィルタ決定手段104は、DOA特徴量Fに基づいて所定の広義単調増加関数によって強調フィルタGを算出し、乗算手段105に与える。第1の実施形態では、すべての周波数に対して同じ広義単調増加関数を用いる。所定の広義単調増加関数fmap(F)として、例えば(10)式で定義される1つの閾値F0を持つ関数や、(11)式で定義される2つの閾値F1、F2を持つ関数、(12)式で定義されるスケールF3、オフセットF0のシグモイド関数を用いることができる。
図8は、第1の実施形態に係るフィルタ決定手段104で得られる強調フィルタGの例について示したグラフである。
FIG. 8 is a graph showing an example of the enhancement filter G obtained by the
図8(a)、図8(b)、図8(c)は、それぞれ(10)式、(11)式、(12)式によって得られる強調フィルタGの例を示している。図8(a)、図8(b)、図8(c)では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θと強調フィルタGの関係を示したグラフとなっている。図8(a)、図8(b)、図8(c)では、横軸を音源の到来方向θとし縦軸を強調フィルタGの値(到来方向θに応じた値)としている。 FIG. 8A, FIG. 8B, and FIG. 8C show examples of the enhancement filter G obtained by the equations (10), (11), and (12), respectively. 8A, 8B, and 8C are graphs showing the relationship between the arrival direction θ and the enhancement filter G when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz. Yes. In FIG. 8A, FIG. 8B, and FIG. 8C, the horizontal axis represents the arrival direction θ of the sound source, and the vertical axis represents the value of the enhancement filter G (value corresponding to the arrival direction θ).
ここでは、F0=0.8、F1=0.7、F2=0.9、F3=12とした。妨害音の抑圧性能に関して、(10)式と(11)式との差はあまりない。一方、強調音声の歪みに関して、(10)式で得られる強調フィルタGは値を0か1しか持たないためにミュージカルノイズを発生しやすいが、(11)式は遷移帯域があることで抑圧/非抑圧の切り替わりが緩やかになるためにミュージカルノイズが発生しにくい。(12)式は(11)式をさらに滑らかにした特性となっており、更なるミュージカルノイズ低減効果や歪みを減らす効果が期待できる。多少の演算コストの増加が許容されるのであれば、(12)式を用いるのが好適である。 Here, F 0 = 0.8, F 1 = 0.7, F 2 = 0.9, and F 3 = 12. There is not much difference between the expression (10) and the expression (11) regarding the interference noise suppression performance. On the other hand, with respect to the distortion of the emphasized speech, the enhancement filter G obtained by the equation (10) has only a value of 0 or 1, and thus tends to generate musical noise. Since the switching of non-suppression is gentle, musical noise is unlikely to occur. The expression (12) is a characteristic obtained by further smoothing the expression (11), and further musical noise reduction effect and distortion reduction effect can be expected. If a slight increase in calculation cost is allowed, it is preferable to use the expression (12).
乗算手段105は、入力スペクトルX1に周波数ごとに強調フィルタG(強調ゲイン)を乗じ、得られた強調スペクトルYを波形復元手段106に与える。
The
波形復元手段106は、第1の周波数解析手段101と第2の周波数解析手段102で用いた周波数解析手法または帯域分割手法に対応する波形復元手法を用いて、乗算手段105から与えられた強調スペクトルYに基づいて信号波形を再構成し、得られた強調音声y(強調信号)を出力する。
The
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
(A-3) Effects of First Embodiment According to the first embodiment, the following effects can be achieved.
第1の実施形態の信号処理装置100では、第2のマイクM2側の方向から到来する音を抑圧し、正面方向と第1のマイクM1側の方向から到来する音は抑圧しないので、自動車内において運転手U1の声(目的音)を強調する場合などにおいて、少ない歪みで目的音を強調することができる。 In the signal processing apparatus 100 according to the first embodiment, sound arriving from the direction of the second microphone M2 is suppressed, and sound arriving from the front direction and the direction of the first microphone M1 is not suppressed. When emphasizing the voice (target sound) of the driver U1, the target sound can be emphasized with less distortion.
言い換えると、信号処理装置100では、少ない演算コストで、妨害音の直接音と反射音を抑圧するが、目的音の直接音と反射音は抑圧しない強調フィルタGを設計できるので、少ない歪みで目的音を強調できるという効果を奏する。 In other words, the signal processing apparatus 100 can design the enhancement filter G that suppresses the direct sound and the reflected sound of the interference sound with low calculation cost but does not suppress the direct sound and the reflected sound of the target sound. The effect is that the sound can be emphasized.
(B)第2の実施形態
以下、本発明による信号処理装置、プログラム及び方法の第2の実施形態を、図面を参照しながら詳述する。
(B) Second Embodiment Hereinafter, a second embodiment of the signal processing apparatus, program and method according to the present invention will be described in detail with reference to the drawings.
(B−1)第2の実施形態の構成
第2の実施形態の信号処理装置200も、第1の実施形態と同様に図2に示すような環境で利用されるものとして説明する。
(B-1) Configuration of Second Embodiment The signal processing apparatus 200 of the second embodiment will be described as being used in an environment as shown in FIG. 2 as in the first embodiment.
また、第2の実施形態の信号処理装置200の内部構成についても、上述の図1を用いて示すことができる。 Also, the internal configuration of the signal processing device 200 of the second embodiment can be shown using FIG. 1 described above.
以下では、第2の実施形態の信号処理装置200について、第1の実施形態との差異を説明する。 Below, the difference from 1st Embodiment is demonstrated about the signal processing apparatus 200 of 2nd Embodiment.
第1の実施形態では、フィルタ決定手段104において、すべての周波数に同じ広義単調増加関数fmap(F)を適用して強調フィルタGを得ていたため、図8に示した通り、強調フィルタGの特性が周波数ごとに異なっていた。特に低い周波数では抑圧されない到来方向の範囲が広くなる現象が起こる。そこで、第2の実施形態では、どの周波数でも同じような特性となるように、周波数ごとに異なる広義単調増加関数を適用する。
In the first embodiment, the
第2の実施形態の信号処理装置200の構成は、図1に示すように、フィルタ決定手段104がフィルタ決定手段204に替わること以外は、第1の実施形態の信号処理装置100の構成と同じである。
The configuration of the signal processing device 200 according to the second embodiment is the same as the configuration of the signal processing device 100 according to the first embodiment except that the
(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の信号処理装置200の動作(実施形態の信号処理方法)を説明する。
(B-2) Operation | movement of 2nd Embodiment Next, operation | movement (signal processing method of embodiment) of the signal processing apparatus 200 of 2nd Embodiment which has the above structures is demonstrated.
第2の実施形態の信号処理装置200の動作は、フィルタ決定手段204の動作がフィルタ決定手段104とは異なる点以外は、第1の実施形態の信号処理装置100の動作と同じである。
The operation of the signal processing device 200 of the second embodiment is the same as the operation of the signal processing device 100 of the first embodiment, except that the operation of the
第1の実施形態では、図7に示すように、正面方向から第2のマイクM2の側に到来方向を傾けた際に、周波数によって強調フィルタGのゲインが所定以下(例えば、0.5以下)となる到来角度(以下、「カットオフ到来角度」と呼ぶ)にばらつきがある。言い換えると、第1の実施形態では、周波数によって抑圧しない到来方向の範囲にばらつきがある。これに対して、第2の実施形態のフィルタ決定手段204は、周波数ごとの広義単調増加関数を設定することで、このばらつきを吸収し、複数の周波数でカットオフ到来角度(抑圧しない到来方向の範囲)が近づくようにしている。フィルタ決定手段204において、周波数ごとのカットオフ到来角度のばらつき(抑圧しない到来方向の範囲のばらつき)を抑制するような、周波数ごとの広義単調増加関数を求める方式については限定されないものであるが、例えば、いかのような処理を適用することができる。
In the first embodiment, as shown in FIG. 7, when the arrival direction is tilted from the front direction toward the second microphone M2, the gain of the enhancement filter G is predetermined or less (for example, 0.5 or less) depending on the frequency. ) (Hereinafter referred to as “cutoff arrival angle”). In other words, in the first embodiment, there is variation in the range of the arrival direction that is not suppressed depending on the frequency. On the other hand, the
フィルタ決定手段204は、DOA特徴量Fに基づいて所定の広義単調増加関数によって強調フィルタGを算出し、乗算手段105に与える。第2の実施形態では、周波数ごとに異なる広義単調増加関数を用いる。ここでは、k番目の周波数のDOA特徴量をF(k)、k番目の周波数の強調ゲインをG(k)と書く。k番目の周波数をfkとして、到来方向と周波数の番号をDOA特徴量に変換する関数を(13)式で定義する。そして、所定のk番目の周波数の広義単調増加関数fmapk(F(k))として、例えば(14)式で定義される1つの到来方向閾値θ0を関数や、(15)式で定義される2つの到来方向閾値θ1、θ2を持つ関数、(16)式で定義されるスケールFa、オフセット到来方向θ0のシグモイド関数を用いることができる。
図9は、第2の実施形態に係るフィルタ決定手段204で得られる強調フィルタGの例について示したグラフである。
FIG. 9 is a graph showing an example of the enhancement filter G obtained by the
図9(a)、図9(b)、図9(c)は、それぞれ(14)式、(15)式、(16)式によって得られる強調フィルタGの例を示している。図9(a)、図9(b)、図9(c)では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θと強調フィルタGの関係を示したグラフとなっている。図9(a)、図9(b)、図9(c)では、横軸を音源の到来方向θとし縦軸を強調フィルタGの値(到来方向θに応じた値)としている。 FIG. 9A, FIG. 9B, and FIG. 9C show examples of the enhancement filter G obtained by the equations (14), (15), and (16), respectively. 9A, 9B, and 9C are graphs showing the relationship between the arrival direction θ and the enhancement filter G when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz. Yes. 9A, 9B, and 9C, the horizontal axis represents the arrival direction θ of the sound source, and the vertical axis represents the value of the enhancement filter G (value corresponding to the arrival direction θ).
ここでは、θ0=15、θ1=20、θ2=10、Fa=12とした。第1の実施形態における強調フィルタG(図8)では、抑圧しない到来方向の範囲が周波数ごとに変化していたが、第2の実施形態における強調フィルタG(図9)では、高い周波数の第1のマイクM1側を除いて、抑圧しない到来方向の範囲は周波数が変わっても変化しない。なお、(16)式については周波数によって特性が変化しているが、強調フィルタGのゲインが0.5となるカットオフ到来角度は周波数に依らず一定である。つまり、(13)〜(16)式を用いて強調ゲインを算出すれば、第2のマイクM2側、すなわち妨害音側(助手席側)を何度まで抑圧するかを、すべての周波数共通かつ直接的に設定できる。 Here, θ 0 = 15, θ 1 = 20, θ 2 = 10, and F a = 12. In the enhancement filter G (FIG. 8) in the first embodiment, the range of arrival directions not to be suppressed changes for each frequency, but in the enhancement filter G (FIG. 9) in the second embodiment, the high-frequency Except for one microphone M1 side, the range of the arrival direction that is not suppressed does not change even if the frequency changes. Note that although the characteristic of the equation (16) changes depending on the frequency, the cutoff arrival angle at which the gain of the enhancement filter G becomes 0.5 is constant regardless of the frequency. That is, if the enhancement gain is calculated using the equations (13) to (16), the number of times to suppress the second microphone M2 side, that is, the disturbance sound side (passenger seat side), is the same for all frequencies. Can be set directly.
(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加えて、以下のような効果を奏することができる。
(B-3) Effects of Second Embodiment According to the second embodiment, the following effects can be obtained in addition to the effects of the first embodiment.
第2の実施形態の信号処理装置200では、強調ゲインが抑圧しない到来方向の範囲をすべての周波数で同じように与えることができ、かつその範囲を到来方向の角度そのもので設定できるので、より適切な調整が可能となり、より少ない歪みで目的音を強調できるという効果を奏する。 In the signal processing device 200 according to the second embodiment, the range of the arrival direction in which the enhancement gain is not suppressed can be given in the same way at all frequencies, and the range can be set by the angle of the arrival direction itself. Adjustment is possible, and the target sound can be emphasized with less distortion.
(C)第3の実施形態
以下、本発明による信号処理装置、プログラム及び方法の第3の実施形態を、図面を参照しながら詳述する。
(C) Third Embodiment Hereinafter, a third embodiment of the signal processing apparatus, program and method according to the present invention will be described in detail with reference to the drawings.
(C−1)第3の実施形態の構成
第3の実施形態の信号処理装置200も、第1、第2の実施形態と同様に図2に示すような環境で利用されるものとして説明する。
(C-1) Configuration of Third Embodiment The signal processing apparatus 200 of the third embodiment will be described as being used in an environment as shown in FIG. 2 as in the first and second embodiments. .
また、第3の実施形態の信号処理装置300の内部構成についても、上述の図1を用いて示すことができる。 Further, the internal configuration of the signal processing apparatus 300 of the third embodiment can also be shown using FIG. 1 described above.
以下では、第3の実施形態の信号処理装置200について、第2の実施形態との差異を説明する。 Hereinafter, differences from the second embodiment will be described for the signal processing device 200 of the third embodiment.
第2の実施形態では、妨害音側の到来方向を何度まで抑圧するかを、すべての周波数共通で設定した。しかし、低い周波数は信号の波長に対してマイク間隔を十分に広く取ることが困難なため(100Hzの波長は約3.3mだが、自動車内でのマイク間隔は数cmとするのが一般的)、低い周波数において数値計算によって得られる到来方向に関する情報(本発明ではDOA特徴量)は一般に曖昧になる(到来方向推定の意味で推定誤差が大きくなる)。そこで、第3の実施形態では、所定よりも低い周波数(例えば、250Hz以下の周波数帯)では強調ゲインが抑圧しない到来方向の範囲を広げる(第2のマイクM2の側に広げる;妨害音を発する助手U2の側に広げる)ように設計する。 In the second embodiment, how many times the direction of arrival on the disturbing sound side is suppressed is set for all frequencies. However, it is difficult to make the microphone interval sufficiently wide with respect to the signal wavelength at a low frequency (the wavelength of 100 Hz is about 3.3 m, but the microphone interval in an automobile is generally several centimeters). Information regarding the direction of arrival obtained by numerical calculation at a low frequency (DOA feature amount in the present invention) is generally ambiguous (estimation error increases in the sense of direction of arrival estimation). Therefore, in the third embodiment, the range of the arrival direction in which the enhancement gain is not suppressed is expanded at a frequency lower than a predetermined frequency (for example, a frequency band of 250 Hz or less) (expanded to the second microphone M2 side; a disturbing sound is emitted). It is designed to spread to the side of the assistant U2.
第3の実施形態の信号処理装置300の構成は、フィルタ決定手段104がフィルタ決定手段304に替わること以外は、第1の実施形態の信号処理装置100の構成と同じである。
The configuration of the signal processing device 300 according to the third embodiment is the same as the configuration of the signal processing device 100 according to the first embodiment except that the
(C−2)第3の実施形態の動作
次に、以上のような構成を有する第3の実施形態の信号処理装置300の動作(実施形態の信号処理方法)を説明する。
(C-2) Operation of Third Embodiment Next, the operation (signal processing method of the embodiment) of the signal processing device 300 of the third embodiment having the above-described configuration will be described.
第3の実施形態の信号処理装置300の動作は、フィルタ決定手段304の動作がフィルタ決定手段104とは異なる点以外は、第1の実施形態の信号処理装置100の動作と同じである。
The operation of the signal processing device 300 of the third embodiment is the same as the operation of the signal processing device 100 of the first embodiment, except that the operation of the
フィルタ決定手段304は、DOA特徴量Fに基づいて所定の広義単調増加関数によって強調フィルタGを算出し、乗算手段105に与える。第2の実施形態では、周波数ごとに異なる広義単調増加関数を用いる。ここでは、k番目の周波数のDOA特徴量をF(k)、k番目の周波数の強調ゲインをG(k)と書く。k番目の周波数をfkとして、到来方向と周波数の番号をDOA特徴量に変換する関数を(17)式で定義する。そして、所定のk番目の周波数の広義単調増加関数fmapk(F(k))として、例えば(18)式で定義される1つの到来方向閾値θ0を持つ関数を用いることができる。
図10は、第2の実施形態に係るフィルタ決定手段204で得られる強調フィルタGと、第3の実施形態に係るフィルタ決定手段304で得られる強調フィルタGとの比較について示したグラフである。
FIG. 10 is a graph showing a comparison between the enhancement filter G obtained by the
図10(a)は、第2の実施形態におけるフィルタ決定手段204で上述の(13)式及び(14)式を用いて得られる強調フィルタGについて示している。また、図10(b)は、第3の実施形態に係るフィルタ決定手段304で(17)式及び(18)式により得られる強調フィルタGの例を示している。図10(a)、図10(b)では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θと強調フィルタGの関係を示したグラフとなっている。図10(a)、図10(b)では、横軸を音源の到来方向θとし縦軸を強調フィルタGの値(到来方向θに応じた値)としている。
FIG. 10A shows an enhancement filter G obtained by using the above equations (13) and (14) by the filter determination means 204 in the second embodiment. FIG. 10B shows an example of the enhancement filter G obtained by the equations (17) and (18) by the
ここでは、θ0=5、F0=0.97とした。図10より、到来方向と周波数の番号をDOA特徴量に変換する関数Φ(ファイ)の上限値をF0としたことで、低い周波数の抑圧しない到来方向の範囲が広くなったことが確認できる。 Here, θ 0 = 5 and F 0 = 0.97. From FIG. 10, it can be confirmed that by setting the upper limit value of the function Φ (Phi) for converting the arrival direction and the frequency number to the DOA feature amount as F 0 , the range of the arrival direction in which low frequencies are not suppressed is widened. .
(C−3)第3の実施形態の効果
第3の実施形態によれば、第1、第2の実施形態の効果に加えてができる。
(C-3) Effects of the Third Embodiment According to the third embodiment, the effects of the first and second embodiments can be added.
第3の実施形態の信号処理装置300では、数値計算によって得られる到来方向に関する情報が曖昧となる低い周波数において、抑圧しない到来方向の範囲を広めに確保できるので、低い周波数の目的音の歪みが軽減され、より少ない歪みで目的音を強調できるという効果を奏する。 In the signal processing device 300 according to the third embodiment, since the range of the arrival direction that is not suppressed can be secured widely at a low frequency where the information about the arrival direction obtained by numerical calculation is ambiguous, distortion of the target sound at a low frequency is prevented. This reduces the effect of enhancing the target sound with less distortion.
(D)第4の実施形態
以下、本発明による信号処理装置、プログラム及び方法の第4の実施形態を、図面を参照しながら詳述する。
(D) Fourth Embodiment Hereinafter, a fourth embodiment of the signal processing apparatus, program and method according to the present invention will be described in detail with reference to the drawings.
(D−1)第4の実施形態の構成
第4の実施形態の信号処理装置400も、第1〜第3の実施形態と同様に図2に示すような環境で利用されるものとして説明する。
(D-1) Configuration of the Fourth Embodiment The signal processing apparatus 400 of the fourth embodiment will be described as being used in an environment as shown in FIG. 2 as in the first to third embodiments. .
また、第4の実施形態の信号処理装置400の内部構成についても、上述の図1を用いて示すことができる。 Further, the internal configuration of the signal processing apparatus 400 of the fourth embodiment can also be shown using FIG. 1 described above.
以下では、第4の実施形態の信号処理装置400について、第1〜第3の実施形態との差異を説明する。 Below, the difference with the 1st-3rd embodiment is demonstrated about the signal processing apparatus 400 of 4th Embodiment.
第1〜第3の実施形態では、自動車A内において運転手U1の正面に2つのマイクM1、M2をセットする場合を想定して、助手席側(助手U2側)だけを抑圧する強調フィルタGを設計した。これに対して、第4の実施形態では、本発明におけるDOA特徴量を用いて正面方向のみを強調する(抑圧しない)強調フィルタを適用するものとする。 In the first to third embodiments, assuming that two microphones M1 and M2 are set in front of the driver U1 in the automobile A, the enhancement filter G that suppresses only the passenger seat side (the assistant U2 side). Designed. On the other hand, in the fourth embodiment, an enhancement filter that enhances (does not suppress) only the front direction using the DOA feature value in the present invention is applied.
図1に示すように、第4の実施形態の信号処理装置400の構成は、特徴量算出手段103とフィルタ決定手段104がそれぞれ特徴量算出手段403とフィルタ決定手段404に替わること以外は、第1の実施形態の信号処理装置100の構成と同じである。
As shown in FIG. 1, the configuration of the signal processing apparatus 400 according to the fourth embodiment is the same as that of the fourth embodiment except that the feature
(D−2)第4の実施形態の動作
次に、以上のような構成を有する第4の実施形態の信号処理装置400の動作(実施形態の信号処理方法)を説明する。
(D-2) Operation of Fourth Embodiment Next, an operation (signal processing method of the embodiment) of the signal processing device 400 of the fourth embodiment having the above-described configuration will be described.
次に、上述した構成を有する第4の実施形態の信号処理装置400の動作を説明する。第4の実施形態の信号処理装置400の動作は、特徴量算出手段403とフィルタ決定手段304の動作が特徴量算出手段103とフィルタ決定手段104とは異なる点以外は、第1の実施形態の信号処理装置100の動作と同じである。
Next, the operation of the signal processing apparatus 400 according to the fourth embodiment having the above-described configuration will be described. The operation of the signal processing apparatus 400 of the fourth embodiment is the same as that of the first embodiment, except that the operation of the feature
特徴量算出手段403は、第1の入力スペクトルX1と第2の入力スペクトルX2とに基づいて(19)式によって2つのDOA特徴量FとF’を算出し、フィルタ決定手段404に与える。2つのDOA特徴量を音の到来方向θに関して整理すると、(20)式となる。 The feature quantity calculation means 403 calculates two DOA feature quantities F and F ′ by the equation (19) based on the first input spectrum X 1 and the second input spectrum X 2, and gives them to the filter determination means 404. . When the two DOA feature quantities are arranged with respect to the sound arrival direction θ, the equation (20) is obtained.
図11は、音の到来方向θと(20)式のDOA特徴量F’との関係について示したグラフである。 FIG. 11 is a graph showing the relationship between the sound arrival direction θ and the DOA feature value F ′ in the equation (20).
図11では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θとDOA特徴量F’の関係を示したグラフとなっている。図11では、横軸を音源の到来方向θとし縦軸をDOA特徴量F’としている。 FIG. 11 is a graph showing the relationship between the arrival direction θ and the DOA feature amount F ′ when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz. In FIG. 11, the horizontal axis represents the sound source arrival direction θ, and the vertical axis represents the DOA feature amount F ′.
図11を見ると、DOA特徴量F(図5)とはちょうど左右が反転していることが確認できる。
フィルタ決定手段404は、2つのDOA特徴量FとF’に基づいて所定の広義単調増加関数によって強調フィルタGを算出し、乗算手段105に与える。所定の広義単調増加関数には、第1の実施形態に係るfmap(F)、第2の実施形態に係るΦ(φ,k)とfmapk(F(k))、第3の実施形態に係るΦ(φ,F0,k)とfmapk(F(k))のいずれを用いても良いが、ここでは一例として、第2の実施形態の所定の広義単調増加関数を用いて説明する。第4の実施形態において、強調フィルタGは(21)式を用いて算出される。
The
図12は、第4の実施形態に係るフィルタ決定手段404で得られる強調フィルタGの例について示した説明図である。
FIG. 12 is an explanatory diagram illustrating an example of the enhancement filter G obtained by the
図12(a)、図12(b)、図12(c)は、それぞれfmapk(F(k))として(14)式、(15)式、(16)式を用いた場合に得られる強調フィルタGの例を示している。図12(a)、図12(b)、図12(c)では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θと強調フィルタGの関係を示したグラフとなっている。図12(a)、図12(b)、図12(c)では、横軸を音源の到来方向θとし縦軸を強調フィルタGの値(到来方向θに応じた値)としている。 12 (a), 12 (b), and 12 (c) are obtained when Equation (14), Equation (15), and Equation (16) are used as fmap k (F (k)), respectively. An example of the enhancement filter G is shown. 12A, 12B, and 12C are graphs showing the relationship between the arrival direction θ and the enhancement filter G when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz. Yes. 12 (a), 12 (b), and 12 (c), the horizontal axis represents the arrival direction θ of the sound source, and the vertical axis represents the value of the enhancement filter G (value corresponding to the arrival direction θ).
ここでは、θ0=20、θ1=15、θ2=25、Fa=12とした。図12より、正面方向のみを強調する(抑圧しない)強調フィルタが得られていることが分かる。 Here, θ 0 = 20, θ 1 = 15, θ 2 = 25, and F a = 12. From FIG. 12, it can be seen that an enhancement filter that enhances only the front direction (does not suppress) is obtained.
(D−3)第4の実施形態の効果
第4の実施形態によれば、第1〜第3の実施形態と比較して以下のような効果を奏することができる。
(D-3) Effects of the Fourth Embodiment According to the fourth embodiment, the following effects can be achieved as compared with the first to third embodiments.
第4の実施形態の信号処理装置400では、強調フィルタG(強調ゲイン)が抑圧しない到来方向の範囲を正面方向に限定した目的音を強調できるという特有の効果を奏することができる。 In the signal processing device 400 of the fourth embodiment, it is possible to achieve a specific effect that the target sound in which the range of the arrival direction that is not suppressed by the enhancement filter G (enhancement gain) is limited to the front direction can be enhanced.
(E)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(E) Other Embodiments The present invention is not limited to the above-described embodiments, and may include modified embodiments as exemplified below.
(E−1)上記の実施形態において、信号処理装置は、強調スペクトルYの波形を復元して強調音声yを出力するものとして記載したが、波形を復元せずに強調スペクトルYを出力しても良い。また、強調スペクトルYと強調音声yの両方を出力するようにしても良い。その場合、波形復元手段106は除外するようにしてもよい。 (E-1) In the above embodiment, the signal processing apparatus is described as restoring the waveform of the enhanced spectrum Y and outputting the enhanced speech y, but outputs the enhanced spectrum Y without restoring the waveform. Also good. Further, both the enhanced spectrum Y and the enhanced sound y may be output. In that case, the waveform restoration means 106 may be excluded.
100…信号処理装置、101…第1の周波数解析手段、102…第2の周波数解析手段、103…特徴量算出手段、104…フィルタ決定手段、105…乗算手段、106…波形復元手段、M1…第1のマイク(第1の収音装置)、M2…第2のマイク(第2の収音装置)。 DESCRIPTION OF SYMBOLS 100 ... Signal processing apparatus, 101 ... 1st frequency analysis means, 102 ... 2nd frequency analysis means, 103 ... Feature-value calculation means, 104 ... Filter determination means, 105 ... Multiplication means, 106 ... Waveform restoration means, M1 ... First microphone (first sound collecting device), M2... Second microphone (second sound collecting device).
Claims (10)
第2の収音装置から入力された第2の入力信号を周波数解析して第2の入力スペクトルを得る第2の周波数解析手段と、
前記第1の周波数解析手段で得られた第1の入力スペクトルと前記第2の周波数解析手段で得られた第2の入力スペクトルに基づき、前記第1の収音装置の位置と前記第2の収音装置の位置を結んだ直線と垂直をなす正面方向に対して、正面方向及び前記第1の収音装置側の方向の値を大きくとり、前記第2の収音装置側の方向の値を小さくとる第1の特徴量を算出する特徴量算出手段と、
前記特徴量算出手段で算出された前記第1の特徴量を、所定の広義単調増加関数で写像して強調フィルタを得るフィルタ決定手段と、
前記第1の周波数解析手段で得られた第1の入力スペクトルに前記フィルタ決定手段で得られた強調フィルタを乗じて強調スペクトルを得る乗算手段と
を備えることを特徴とする信号処理装置。 First frequency analysis means for obtaining a first input spectrum by performing frequency analysis on the first input signal input from the first sound collection device;
Second frequency analysis means for obtaining a second input spectrum by performing frequency analysis on the second input signal input from the second sound collecting device;
Based on the first input spectrum obtained by the first frequency analysis means and the second input spectrum obtained by the second frequency analysis means, the position of the first sound collecting device and the second input spectrum are obtained. The front direction and the direction on the first sound collection device side are set larger than the front direction perpendicular to the straight line connecting the positions of the sound collection devices, and the value on the direction on the second sound collection device side. A feature amount calculating means for calculating a first feature amount that takes a small value;
Filter determining means for mapping the first feature quantity calculated by the feature quantity calculating means with a predetermined broad-sense monotone increasing function to obtain an enhancement filter;
A signal processing apparatus comprising: multiplication means for obtaining an enhanced spectrum by multiplying the first input spectrum obtained by the first frequency analyzing means by the enhancement filter obtained by the filter determining means.
第1の収音装置から入力された第1の入力信号を周波数解析して第1の入力スペクトルを得る第1の周波数解析手段と、
第2の収音装置から入力された第2の入力信号を周波数解析して第2の入力スペクトルを得る第2の周波数解析手段と、
前記第1の周波数解析手段で得られた第1の入力スペクトルと前記第2の周波数解析手段で得られた第2の入力スペクトルに基づき、前記第1の収音装置の位置と前記第2の収音装置の位置を結んだ直線と垂直をなす正面方向に対して、正面方向及び前記第1の収音装置側の方向の値を大きくとり、前記第2の収音装置側の方向の値を小さくとる第1の特徴量を算出する特徴量算出手段と、
前記特徴量算出手段で算出された前記第1の特徴量を、所定の広義単調増加関数で写像して強調フィルタを得るフィルタ決定手段と、
前記第1の周波数解析手段で得られた第1の入力スペクトルに前記フィルタ決定手段で得られた強調フィルタを乗じて強調スペクトルを得る乗算手段と、
前記乗算手段で得られた強調スペクトルを入力して信号波形を復元して強調音声を得る波形復元手段と
して機能させることを特徴とする信号処理プログラム。 Computer
First frequency analysis means for obtaining a first input spectrum by performing frequency analysis on the first input signal input from the first sound collection device;
Second frequency analysis means for obtaining a second input spectrum by performing frequency analysis on the second input signal input from the second sound collecting device;
Based on the first input spectrum obtained by the first frequency analysis means and the second input spectrum obtained by the second frequency analysis means, the position of the first sound collecting device and the second input spectrum are obtained. The front direction and the direction on the first sound collection device side are set larger than the front direction perpendicular to the straight line connecting the positions of the sound collection devices, and the value on the direction on the second sound collection device side. A feature amount calculating means for calculating a first feature amount that takes a small value;
Filter determining means for mapping the first feature quantity calculated by the feature quantity calculating means with a predetermined broad-sense monotone increasing function to obtain an enhancement filter;
Multiplying means for multiplying the first input spectrum obtained by the first frequency analyzing means by the enhancement filter obtained by the filter determining means to obtain an enhanced spectrum;
A signal processing program that functions as a waveform restoration unit that receives an enhanced spectrum obtained by the multiplication unit and restores a signal waveform to obtain enhanced speech.
第1の周波数解析手段、第2の周波数解析手段、特徴量算出手段、フィルタ決定手段、及び乗算手段を有し、
前記第1の周波数解析手段は、第1の収音装置から入力された第1の入力信号を周波数解析して第1の入力スペクトルを得て、
前記第2の周波数解析手段は、第2の収音装置から入力された第2の入力信号を周波数解析して第2の入力スペクトルを得て、
前記特徴量算出手段は、前記第1の周波数解析手段で得られた第1の入力スペクトルと前記第2の周波数解析手段で得られた第2の入力スペクトルに基づき、前記第1の収音装置の位置と前記第2の収音装置の位置を結んだ直線と垂直をなす正面方向に対して、正面方向及び前記第1の収音装置側の方向の値を大きくとり、前記第2の収音装置側の方向の値を小さくとる第1の特徴量を算出し、
前記フィルタ決定手段は、前記特徴量算出手段で算出された前記第1の特徴量を、所定の広義単調増加関数で写像して強調フィルタを得て、
前記乗算手段は、前記第1の周波数解析手段で得られた第1の入力スペクトルに前記フィルタ決定手段で得られた強調フィルタを乗じて強調スペクトルを得る
ことを特徴とする信号処理方法。 In the signal processing method,
A first frequency analysis unit, a second frequency analysis unit, a feature amount calculation unit, a filter determination unit, and a multiplication unit;
The first frequency analysis means obtains a first input spectrum by performing frequency analysis on the first input signal input from the first sound collection device,
The second frequency analysis means obtains a second input spectrum by performing frequency analysis on the second input signal input from the second sound collection device,
The feature amount calculating means is based on the first input spectrum obtained by the first frequency analyzing means and the second input spectrum obtained by the second frequency analyzing means. With respect to the front direction perpendicular to the straight line connecting the position of the second sound collecting device and the position of the second sound collecting device, the values in the front direction and the direction on the first sound collecting device side are set larger. Calculating a first feature value that takes a smaller value in the direction of the sound device;
The filter determination unit maps the first feature amount calculated by the feature amount calculation unit with a predetermined broad monotone increasing function to obtain an enhancement filter,
The signal processing method, wherein the multiplication means obtains an enhanced spectrum by multiplying the first input spectrum obtained by the first frequency analysis means by the enhancement filter obtained by the filter determination means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017032567A JP6772890B2 (en) | 2017-02-23 | 2017-02-23 | Signal processing equipment, programs and methods |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017032567A JP6772890B2 (en) | 2017-02-23 | 2017-02-23 | Signal processing equipment, programs and methods |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018136509A true JP2018136509A (en) | 2018-08-30 |
JP6772890B2 JP6772890B2 (en) | 2020-10-21 |
Family
ID=63366854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017032567A Active JP6772890B2 (en) | 2017-02-23 | 2017-02-23 | Signal processing equipment, programs and methods |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6772890B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021124537A1 (en) * | 2019-12-20 | 2021-06-24 |
-
2017
- 2017-02-23 JP JP2017032567A patent/JP6772890B2/en active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021124537A1 (en) * | 2019-12-20 | 2021-06-24 | ||
WO2021124537A1 (en) * | 2019-12-20 | 2021-06-24 | 三菱電機株式会社 | Information processing device, calculation method, and calculation program |
JP7004875B2 (en) | 2019-12-20 | 2022-01-21 | 三菱電機株式会社 | Information processing equipment, calculation method, and calculation program |
Also Published As
Publication number | Publication date |
---|---|
JP6772890B2 (en) | 2020-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6780644B2 (en) | Signal processing equipment, signal processing methods, and signal processing programs | |
JP4195267B2 (en) | Speech recognition apparatus, speech recognition method and program thereof | |
JP4986248B2 (en) | Sound source separation apparatus, method and program | |
JP5493850B2 (en) | Signal processing apparatus, microphone array apparatus, signal processing method, and signal processing program | |
US7991166B2 (en) | Microphone apparatus | |
JP2008311866A (en) | Acoustic signal processing method and apparatus | |
JP6225245B2 (en) | Signal processing apparatus, method and program | |
JP5338259B2 (en) | Signal processing apparatus, signal processing method, and signal processing program | |
JP2014026115A (en) | Sound signal processing device, sound signal processing method and sound signal processing program | |
JP6226301B2 (en) | Directional microphone device, acoustic signal processing method and program | |
JP2007336232A (en) | Specific direction sound collection device, specific direction sound collection program, and recording medium | |
JP2010124370A (en) | Signal processing device, signal processing method, and signal processing program | |
JP2018170717A (en) | Sound pickup device, program, and method | |
JP6772890B2 (en) | Signal processing equipment, programs and methods | |
US11482239B2 (en) | Joint source localization and separation method for acoustic sources | |
Zhang et al. | Selective frequency invariant uniform circular broadband beamformer | |
JP5635024B2 (en) | Acoustic signal emphasizing device, perspective determination device, method and program thereof | |
JP6260666B1 (en) | Sound collecting apparatus, program and method | |
JP6241520B1 (en) | Sound collecting apparatus, program and method | |
JP2016163135A (en) | Sound collection device, program and method | |
JP2016131343A (en) | Sound collection device, method and program | |
JP6863004B2 (en) | Sound collectors, programs and methods | |
JP2017181761A (en) | Signal processing device and program, and gain processing device and program | |
JP5713933B2 (en) | Sound source distance measuring device, acoustic direct ratio estimating device, noise removing device, method and program thereof | |
JP7004875B2 (en) | Information processing equipment, calculation method, and calculation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200714 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200901 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200914 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6772890 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |