JP2018136509A - Signal processing apparatus, program, and method - Google Patents

Signal processing apparatus, program, and method Download PDF

Info

Publication number
JP2018136509A
JP2018136509A JP2017032567A JP2017032567A JP2018136509A JP 2018136509 A JP2018136509 A JP 2018136509A JP 2017032567 A JP2017032567 A JP 2017032567A JP 2017032567 A JP2017032567 A JP 2017032567A JP 2018136509 A JP2018136509 A JP 2018136509A
Authority
JP
Japan
Prior art keywords
sound
input
filter
frequency
frequency analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017032567A
Other languages
Japanese (ja)
Other versions
JP6772890B2 (en
Inventor
大 藤枝
Masaru Fujieda
大 藤枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2017032567A priority Critical patent/JP6772890B2/en
Publication of JP2018136509A publication Critical patent/JP2018136509A/en
Application granted granted Critical
Publication of JP6772890B2 publication Critical patent/JP6772890B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To enhance a target sound at lower computational cost and with lower distortion.SOLUTION: This invention relates to a signal processing apparatus. The signal processing apparatus of this invention includes: means for conducting frequency analysis of a first input signal input from a first sound collecting device to obtain a first input spectrum; means for conducting frequency analysis of a second input signal input from a second sound collecting device to obtain a second input spectrum; means for computing a first feature quantity based on the first and second input spectrums, the first feature quantity assuming a value in a direction of the first sound collecting device larger relative to a front direction and assuming a value in a direction of the second sound collecting device smaller relative to the front direction; means for mapping the first feature quantity with a predetermined broad-sense monotonically increasing function to obtain an enhancement filter; and multiplication means for multiplying the enhancement filter obtained by the first input spectrum to obtain an enhanced spectrum.SELECTED DRAWING: Figure 1

Description

本発明は、信号処理装置、プログラム及び方法に関し、例えば、複数の音源が存在する環境下で、特定の方向の範囲に存在する音源を強調し収音することを欲する通信端末、オーディオ機器、音声認識装置などに適用し得る。   The present invention relates to a signal processing device, a program, and a method, for example, a communication terminal, an audio device, and a voice that want to emphasize and collect sound sources existing in a range in a specific direction in an environment where a plurality of sound sources exist. It can be applied to a recognition device or the like.

複数の音源が存在する環境下において、ある目的の音源を抽出する技術として、複数のマイクを用いた音源分離、マイクを直線上や平面上、球面上等に配置したマイクアレイを用いたビームフォーマやヌルフォーマ等がある。特に、目的の音源以外の音源が非定常である場合や、複数ある場合には、単一のマイクを用いたノイズサプレッサによる目的音源の抽出は難しく、2つ以上のマイクを用いることが必須となる。   As a technique for extracting a target sound source in an environment where there are a plurality of sound sources, a sound source separation using a plurality of microphones, and a beamformer using a microphone array in which the microphones are arranged on a straight line, a plane, a spherical surface, etc. And nullformers. In particular, when there are non-stationary sound sources other than the target sound source or when there are a plurality of sound sources, it is difficult to extract the target sound source with a noise suppressor using a single microphone, and it is essential to use two or more microphones. Become.

上述したマイクアレイを用いたビームフォーマとは、ある特定の方向の音のみ強調し収音する技術である。ビームフォーマとは、各マイクに到達する信号の時間差を利用して指向性を形成する技術である。   The beam former using the above-described microphone array is a technique that emphasizes and collects only sound in a specific direction. The beam former is a technique for forming directivity by using a time difference between signals reaching each microphone.

ビームフォーマには、加算型と減算型という2つの種類がある。加算型ビームフォーマに比べて、減算型ビームフォーマはより少ないマイク数で鋭い指向性を形成できるという利点がある。   There are two types of beamformers: an addition type and a subtraction type. Compared with the addition beamformer, the subtraction beamformer has an advantage that a sharp directivity can be formed with a smaller number of microphones.

図13は、マイク数が2個の場合の減算型ビームフォーマに係る構成を示すブロック図である。図13の減算型ビームフォーマは、第1のマイクM1、第2のマイクM2、第1の遅延手段3、第2の遅延手段4、減算手段5から構成される。第1のマイクM1で収音した第1の入力信号は第1の遅延手段3に与えられ、第2のマイクM2で収音した第2の入力信号は第2の遅延手段4に与えられる。妨害音が第1のマイクM1側から到来している場合、第1の遅延手段3は第1の入力信号を遅延させることで、第1の入力信号と第2の入力信号に含まれる妨害音の位相を合わせる。一方、妨害音が第2のマイクM2側から到来している場合、第2の遅延手段4は第2の入力信号を遅延させることで、妨害音の位相を合わせる。第1の遅延手段3から得られた第1の遅延信号と第2の遅延手段から得られた第2の遅延信号は減算手段5に与えられる。減算手段5は、第1の遅延信号から第2の遅延信号を減じることで、強調音声を得る。以上のように、減算型ビームフォーマは、第1の入力信号と第2の入力信号とに含まれる妨害音の位相を合わせ、減算し、妨害音を抑圧することで、目的音を強調する。減算型ビームフォーマは、事前に与えられる妨害音の到来方向情報を必要とする。   FIG. 13 is a block diagram showing a configuration related to a subtractive beamformer when the number of microphones is two. The subtractive beamformer shown in FIG. 13 includes a first microphone M1, a second microphone M2, a first delay unit 3, a second delay unit 4, and a subtracting unit 5. The first input signal picked up by the first microphone M 1 is given to the first delay means 3, and the second input signal picked up by the second microphone M 2 is given to the second delay means 4. When the disturbing sound has arrived from the first microphone M1 side, the first delay means 3 delays the first input signal, thereby causing the disturbing sound included in the first input signal and the second input signal. Adjust the phase. On the other hand, when the disturbing sound has arrived from the second microphone M2 side, the second delay means 4 delays the second input signal, thereby matching the phase of the disturbing sound. The first delay signal obtained from the first delay means 3 and the second delay signal obtained from the second delay means are supplied to the subtraction means 5. The subtracting means 5 obtains emphasized speech by subtracting the second delayed signal from the first delayed signal. As described above, the subtractive beamformer emphasizes the target sound by matching and subtracting the phases of the interference sounds included in the first input signal and the second input signal and suppressing the interference sounds. The subtractive beamformer requires the direction-of-arrival information of disturbance sound given in advance.

ところで、減算型ビームフォーマには、妨害音源が少しでも移動してしまうと、妨害音の抑圧性能が大きく低下してしまう問題がある。   By the way, the subtractive beamformer has a problem that if the disturbing sound source is moved even a little, the suppression performance of the disturbing sound is greatly deteriorated.

図14は、従来の信号処理装置Zを用いて、自動車(車両)Aの中における運転手U1の音声を強調する例について示した説明図である。   FIG. 14 is an explanatory diagram showing an example in which the voice of the driver U1 in the automobile (vehicle) A is emphasized using the conventional signal processing device Z.

例えば、図14に示すように音声認識を用いて音声によって操作できるカーナビゲーションシステムなどでは、自動車内において運転手の音声だけを抽出する必要がある。   For example, as shown in FIG. 14, in a car navigation system that can be operated by voice using voice recognition, it is necessary to extract only the voice of the driver in the car.

したがって、運転席と助手席にそれぞれ人が乗車している場合には、助手席の助手U2の音声(妨害音)を抑圧する必要があるが、助手U2が前後左右に顔(妨害音源)を動かすと、減算型ビームフォーマでは妨害音を抑圧することができない。   Therefore, when a person is in the driver's seat and the passenger seat, it is necessary to suppress the voice (interference sound) of the assistant U2 in the passenger seat. When moved, the subtractive beamformer cannot suppress the interference sound.

適応ビームフォーマの代表の一つである最小分散ビームフォーマ(Minimum Variance Beamformer:MVB)は、目的音の到来方向を事前に与えることで、妨害音を効率的に抑圧できる方法である。MVBは、目的音の到来方向に対してはゲインが1となるような拘束条件の下で、強調音声の分散を最小化することにより、妨害音を抑圧する。   A minimum dispersion beamformer (MVB), which is one of representative adaptive beamformers, is a method that can efficiently suppress interference sound by giving the arrival direction of a target sound in advance. The MVB suppresses the interference sound by minimizing the dispersion of the emphasized speech under the constraint condition that the gain is 1 with respect to the arrival direction of the target sound.

また、スペクトル減算法を用いることで、目的音源の到来方向に強い指向性を形成することができる。非特許文献1では、目的音源は常に正面にあると仮定して、第1に減算型ビームフォーマで正面方向から到来する目的音を抑圧した目的音抑圧信号を得、第2に第1の入力信号の振幅スペクトルから目的音抑圧信号の振幅スペクトルを減算(スペクトル減算)することで目的音を強調した強調音声の振幅スペクトルを得、第3に強調音声の振幅スペクトルと第1の入力信号の位相スペクトルとを用いて強調音声を得る。   Further, by using the spectral subtraction method, strong directivity can be formed in the direction of arrival of the target sound source. In Non-Patent Document 1, assuming that the target sound source is always in front, first, a target sound suppression signal in which the target sound arriving from the front direction is suppressed by a subtractive beamformer is obtained, and secondly, the first input By subtracting the amplitude spectrum of the target sound suppression signal from the amplitude spectrum of the signal (spectral subtraction), an amplitude spectrum of the emphasized speech in which the target sound is emphasized is obtained. Third, the amplitude spectrum of the emphasized speech and the phase of the first input signal Emphasized speech is obtained using the spectrum.

矢頭 隆、森戸 誠、山田 圭、小川 哲司、“正方形マイクロホンアレイによる音源分離技術”、情報処理、Vol.51、No.11、2010Takashi Yagami, Makoto Morito, Satoshi Yamada, Tetsuji Ogawa, “Sound Source Separation Technology Using Square Microphone Array”, Information Processing, Vol. 51, no. 11, 2010

しかしながら、従来の技術は以下に述べる問題を有する。   However, the conventional technology has the following problems.

図15は、自動車Aの中における目的音と妨害音のイメージについて示した説明図である。   FIG. 15 is an explanatory diagram showing an image of a target sound and an interference sound in the automobile A.

MVBは、マイクの数より1つ少ない数の妨害音しか抑圧することができない。したがって、図14のように2つのマイクで目的音を強調する場合、妨害音は図15(b)に示すように伝搬するため、MVBは妨害音の直接音を抑圧できるが反射音を抑圧できないので、目的音を十分に強調することができない。   MVB can suppress only one disturbance sound, which is one less than the number of microphones. Therefore, when the target sound is emphasized by two microphones as shown in FIG. 14, the interference sound propagates as shown in FIG. 15B, so that MVB can suppress the direct sound of the interference sound but cannot suppress the reflected sound. Therefore, the target sound cannot be emphasized sufficiently.

非特許文献1に記載の技術は、正面方向以外から到来した音声は、目的音に由来するものであってもすべて抑圧してしまう。したがって、図14のように2つのマイクで目的音を強調する場合、目的音は図15(a)に示すように伝搬するため、非特許文献1に記載の技術は目的音の反射音をも抑圧してしまうため、目的音の音質が劣化してしまう。   With the technique described in Non-Patent Document 1, all voices coming from other than the front direction are suppressed even if they originate from the target sound. Therefore, when the target sound is emphasized by two microphones as shown in FIG. 14, the target sound propagates as shown in FIG. 15 (a). Therefore, the technique described in Non-Patent Document 1 provides a reflected sound of the target sound. Since the sound is suppressed, the sound quality of the target sound is deteriorated.

そのため、より少ない演算コストで、且つ、より少ない歪みで目的音を強調する信号処理装置、プログラム及び方法を提供することができる。   Therefore, it is possible to provide a signal processing apparatus, program, and method that emphasizes a target sound with less calculation cost and less distortion.

第1の本発明の信号処理装置は、(1)第1の収音装置から入力された第1の入力信号を周波数解析して第1の入力スペクトルを得る第1の周波数解析手段と、(2)第2の収音装置から入力された第2の入力信号を周波数解析して第2の入力スペクトルを得る第2の周波数解析手段と、(3)前記第1の周波数解析手段で得られた第1の入力スペクトルと前記第2の周波数解析手段で得られた第2の入力スペクトルに基づき、前記第1の収音装置の位置と前記第2の収音装置の位置を結んだ直線と垂直をなす正面方向に対して、正面方向及び前記第1の収音装置側の方向の値を大きくとり、前記第2の収音装置側の方向の値を小さくとる第1の特徴量を算出する特徴量算出手段と、(4)前記特徴量算出手段で算出された前記第1の特徴量を、所定の広義単調増加関数で写像して強調フィルタを得るフィルタ決定手段と、(5)前記第1の周波数解析手段で得られた第1の入力スペクトルに前記フィルタ決定手段で得られた強調フィルタを乗じて強調スペクトルを得る乗算手段とを備えることを特徴とする。   The signal processing apparatus according to the first aspect of the present invention includes: (1) first frequency analysis means for obtaining a first input spectrum by performing frequency analysis on the first input signal input from the first sound collection device; 2) second frequency analysis means for obtaining a second input spectrum by frequency analysis of the second input signal inputted from the second sound collecting device; and (3) obtained by the first frequency analysis means. A straight line connecting the position of the first sound pickup device and the position of the second sound pickup device based on the first input spectrum and the second input spectrum obtained by the second frequency analysis means; A first feature value is calculated which takes a value in the front direction and the direction on the first sound collecting device side larger and a value in the direction on the second sound collecting device side smaller than the vertical front direction. And (4) the first feature amount calculated by the feature amount calculation unit. Filter determining means that obtains an enhancement filter by mapping with a predetermined monotonically increasing function in a broad sense; and (5) the enhancement filter obtained by the filter decision means on the first input spectrum obtained by the first frequency analysis means. And multiplication means for obtaining an enhanced spectrum by multiplying by.

第2の本発明の信号処理プログラムは、コンピュータを、(1)第1の収音装置から入力された第1の入力信号を周波数解析して第1の入力スペクトルを得る第1の周波数解析手段と、(2)第2の収音装置から入力された第2の入力信号を周波数解析して第2の入力スペクトルを得る第2の周波数解析手段と、(3)前記第1の周波数解析手段で得られた第1の入力スペクトルと前記第2の周波数解析手段で得られた第2の入力スペクトルに基づき、前記第1の収音装置の位置と前記第2の収音装置の位置を結んだ直線と垂直をなす正面方向に対して、正面方向及び前記第1の収音装置側の方向の値を大きくとり、前記第2の収音装置側の方向の値を小さくとる第1の特徴量を算出する特徴量算出手段と、(4)前記特徴量算出手段で算出された前記第1の特徴量を、所定の広義単調増加関数で写像して強調フィルタを得るフィルタ決定手段と、(5)前記第1の周波数解析手段で得られた第1の入力スペクトルに前記フィルタ決定手段で得られた強調フィルタを乗じて強調スペクトルを得る乗算手段と、(6)前記乗算手段で得られた強調スペクトルを入力して信号波形を復元して強調音声を得る波形復元手段として機能させることを特徴とする。   A signal processing program according to a second aspect of the present invention provides a computer, (1) first frequency analysis means for obtaining a first input spectrum by performing frequency analysis on a first input signal input from a first sound collection device. And (2) second frequency analysis means for obtaining a second input spectrum by performing frequency analysis on the second input signal input from the second sound collection device, and (3) the first frequency analysis means. Based on the first input spectrum obtained in step 2 and the second input spectrum obtained by the second frequency analysis means, the position of the first sound collecting device and the position of the second sound collecting device are connected. A first feature is that the values of the front direction and the direction of the first sound collector are larger and the value of the direction of the second sound collector is smaller than the front direction perpendicular to the straight line. A feature amount calculating means for calculating the amount; and (4) calculated by the feature amount calculating means. Filter determining means for mapping the first feature value by a predetermined monotonically increasing function in a broad sense to obtain an enhancement filter; and (5) the first input spectrum obtained by the first frequency analyzing means in the first input spectrum Multiplication means for obtaining an enhancement spectrum by multiplying the enhancement filter obtained by the filter determination means; (6) Waveform restoration means for obtaining the enhancement speech by inputting the enhancement spectrum obtained by the multiplication means and restoring the signal waveform. It is made to function.

第3の本発明の信号処理方法は、信号処理方法において、(1)第1の周波数解析手段、第2の周波数解析手段、特徴量算出手段、フィルタ決定手段、及び乗算手段を有し、(2)前記第1の周波数解析手段は、第1の収音装置から入力された第1の入力信号を周波数解析して第1の入力スペクトルを得て、(3)前記第2の周波数解析手段は、第2の収音装置から入力された第2の入力信号を周波数解析して第2の入力スペクトルを得て、(4)前記特徴量算出手段は、前記第1の周波数解析手段で得られた第1の入力スペクトルと前記第2の周波数解析手段で得られた第2の入力スペクトルに基づき、前記第1の収音装置の位置と前記第2の収音装置の位置を結んだ直線と垂直をなす正面方向に対して、正面方向及び前記第1の収音装置側の方向の値を大きくとり、前記第2の収音装置側の方向の値を小さくとる第1の特徴量を算出し、(5)前記フィルタ決定手段は、前記特徴量算出手段で算出された前記第1の特徴量を、所定の広義単調増加関数で写像して強調フィルタを得て、(6)前記乗算手段は、前記第1の周波数解析手段で得られた第1の入力スペクトルに前記フィルタ決定手段で得られた強調フィルタを乗じて強調スペクトルを得ることを特徴とする。   A signal processing method according to a third aspect of the present invention is the signal processing method, comprising: (1) first frequency analysis means, second frequency analysis means, feature amount calculation means, filter determination means, and multiplication means ( 2) The first frequency analysis means obtains a first input spectrum by performing frequency analysis on the first input signal inputted from the first sound collecting device, and (3) the second frequency analysis means. Obtains a second input spectrum by performing frequency analysis on the second input signal inputted from the second sound collecting device, and (4) the feature amount calculating means is obtained by the first frequency analyzing means. A straight line connecting the position of the first sound collecting device and the position of the second sound collecting device based on the obtained first input spectrum and the second input spectrum obtained by the second frequency analyzing means. And the first sound collecting device with respect to the front direction perpendicular to the front direction. The first feature value is calculated by taking a larger value in the direction of the second sound and taking a smaller value in the direction on the second sound collecting device side. (5) The filter determining means is calculated by the feature value calculating means. The first feature value is mapped with a predetermined broad monotonically increasing function to obtain an enhancement filter. (6) The multiplying unit adds the first input spectrum obtained by the first frequency analyzing unit to the first input spectrum. The enhancement spectrum obtained by the filter determination means is multiplied to obtain an enhancement spectrum.

本発明によれば、より少ない演算コストで、且つ、より少ない歪みで目的音を強調する信号処理装置、プログラム及び方法を提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, the signal processing apparatus, program, and method which emphasize a target sound with less calculation cost and less distortion can be provided.

第1の実施形態に係る信号処理装置の機能的構成について示したブロック図である。It is the block diagram shown about the functional structure of the signal processing apparatus which concerns on 1st Embodiment. 第1の実施形態に係る信号処理装置の使用環境の例について示した説明図である。It is explanatory drawing shown about the example of the usage environment of the signal processing apparatus which concerns on 1st Embodiment. 第1の実施形態に係る信号処理装置で処理される特徴量Fcenterの例について示している。The example of the feature-value Fcenter processed with the signal processing apparatus which concerns on 1st Embodiment is shown. 第1の実施形態に係る信号処理装置で処理される特徴量Fsideの例について示している。An example of the feature value F side processed by the signal processing device according to the first embodiment is shown. 第1の実施形態に係る信号処理装置で処理される音の到来方向θとDOA特徴量Fとの関係について示したグラフである。It is the graph shown about the relationship between DOA feature-value F and the arrival direction (theta) of the sound processed with the signal processing apparatus which concerns on 1st Embodiment. 第1の実施形態に係る信号処理装置で処理される広義単調増加関数の例について示したグラフである。It is the graph shown about the example of the broad sense monotone increase function processed with the signal processing apparatus which concerns on 1st Embodiment. 第1の実施形態に係る信号処理装置で用いられる強調フィルタの例について示したグラフである。It is the graph shown about the example of the emphasis filter used with the signal processor concerning a 1st embodiment. 第1の実施形態に係るフィルタ決定手段で得られる強調フィルタGの例について示したグラフである。It is the graph shown about the example of the emphasis filter G obtained by the filter determination means which concerns on 1st Embodiment. 第2の実施形態に係るフィルタ決定手段で得られる強調フィルタGの例について示したグラフである。It is the graph shown about the example of the emphasis filter G obtained by the filter determination means which concerns on 2nd Embodiment. 第2の実施形態に係るフィルタ決定手段で得られる強調フィルタGと、第3の実施形態に係るフィルタ決定手段で得られる強調フィルタGとの比較について示したグラフである。It is the graph shown about the comparison with the emphasis filter G obtained by the filter determination means which concerns on 3rd Embodiment, and the emphasis filter G obtained by the filter determination means which concerns on 2nd Embodiment. 第4の実施形態に係る信号処理装置で処理される音の到来方向θとDOA特徴量F’との関係について示したグラフである。It is the graph shown about the relationship between DOA feature-value F 'and the arrival direction (theta) of the sound processed with the signal processing apparatus which concerns on 4th Embodiment. 第4の実施形態に係るフィルタ決定手段404で得られる強調フィルタGの例について示した説明図である。It is explanatory drawing shown about the example of the emphasis filter G obtained by the filter determination means 404 which concerns on 4th Embodiment. 従来のマイク数が2個の場合の減算型ビームフォーマに係る構成を示すブロック図である。It is a block diagram which shows the structure which concerns on the conventional subtraction type beam former in case the number of microphones is two. 従来の信号処理装置を用いて、自動車の中における運転手の音声を強調する例について示した説明図である。It is explanatory drawing shown about the example which emphasizes the audio | voice of the driver in a motor vehicle using the conventional signal processing apparatus. 自動車の中における目的音と妨害音のイメージについて示した説明図である。It is explanatory drawing shown about the image of the target sound and disturbance sound in a motor vehicle.

(A)第1の実施形態
以下、本発明による信号処理装置、プログラム及び方法の第1の実施形態を、図面を参照しながら詳述する。
(A) First Embodiment A signal processing apparatus, program, and method according to a first embodiment of the present invention will be described in detail below with reference to the drawings.

(A−1)第1の実施形態の構成
図2は、第1の実施形態に係る信号処理装置100が利用される環境について示した説明図である。なお、図2において、括弧内の符号は、後述する第2〜第4の実施形態において用いられる符号である。
(A-1) Configuration of First Embodiment FIG. 2 is an explanatory diagram showing an environment in which the signal processing apparatus 100 according to the first embodiment is used. In FIG. 2, the reference numerals in parentheses are those used in the second to fourth embodiments described later.

第1の実施形態に係る信号処理装置100は、自動車Aの中における運転手U1の音声を強調する例について示した説明図である。自動車Aの中では、運転席に運転手U1が座り、助手席に助手U2が座った状態となっている。そして、自動車Aの中では運転手U1の正面(運転席の正面)に、マイクアレイを構成する第1のマイクM1及び第2のマイクM2が配置されている。運転手U1からみて、第1のマイクM1は左側(助手U2と反対の側)に配置されており、第2のマイクM2は右側(助手U2の側)に配置されている。   The signal processing apparatus 100 according to the first embodiment is an explanatory diagram illustrating an example in which the voice of the driver U1 in the automobile A is emphasized. In the car A, the driver U1 sits in the driver's seat and the assistant U2 sits in the passenger seat. In the automobile A, the first microphone M1 and the second microphone M2 constituting the microphone array are arranged in front of the driver U1 (front of the driver's seat). When viewed from the driver U1, the first microphone M1 is disposed on the left side (the side opposite to the assistant U2), and the second microphone M2 is disposed on the right side (the assistant U2 side).

図1は、第1の実施形態に係る信号処理装置100の機能的構成を示すブロック図である。   FIG. 1 is a block diagram illustrating a functional configuration of the signal processing apparatus 100 according to the first embodiment.

第1の実施形態の信号処理装置100は、第1の周波数解析手段101、第2の周波数解析手段102、特徴量算出手段103、フィルタ決定手段104、乗算手段105、及び波形復元手段106を有している。   The signal processing apparatus 100 according to the first embodiment includes a first frequency analysis unit 101, a second frequency analysis unit 102, a feature amount calculation unit 103, a filter determination unit 104, a multiplication unit 105, and a waveform restoration unit 106. doing.

信号処理装置100は、一部または全部をソフトウェア的に構成するようにしてもよい。信号処理装置100は、例えば、メモリ及びプロセッサを有するコンピュータにプログラム(実施形態に係る信号処理プログラムを含む)をインストールすることにより構成してもよい。   A part or all of the signal processing apparatus 100 may be configured by software. For example, the signal processing apparatus 100 may be configured by installing a program (including the signal processing program according to the embodiment) in a computer having a memory and a processor.

第1の周波数解析手段101は、第1の入力信号x1を周波数解析して第1の入力スペクトルX1を得る。   The first frequency analysis means 101 obtains a first input spectrum X1 by performing frequency analysis on the first input signal x1.

第2の周波数解析手段102は、第2の入力信号x2を周波数解析して第2の入力スペクトルX2を得る。   The second frequency analysis means 102 analyzes the frequency of the second input signal x2 to obtain a second input spectrum X2.

特徴量算出手段103は、第1の入力スペクトルX1と第2の入力スペクトルX2とに基づいて所定の特徴量(以下、「DOA特徴量F」と呼ぶ)を得る。DOA特徴量Fは、目的音の到来方向に応じて変化する特徴量であり、詳細については後述する。   The feature amount calculation means 103 obtains a predetermined feature amount (hereinafter referred to as “DOA feature amount F”) based on the first input spectrum X1 and the second input spectrum X2. The DOA feature value F is a feature value that changes according to the direction of arrival of the target sound, and will be described in detail later.

特徴量算出手段103は、(1)式または(1)式を式変形した計算式によって前記DOA特徴量Fを得ることができる。   The feature quantity calculation means 103 can obtain the DOA feature quantity F by the formula (1) or a calculation formula obtained by transforming the formula (1).

(1)式では、ある時刻のある周波数において、前記第1の入力スペクトルをX、前記第2の入力スペクトルをX、前記第2の入力スペクトルの複素共役をX としている。

Figure 2018136509
In the formula (1), at a certain frequency at a certain time, the first input spectrum is X 1 , the second input spectrum is X 2 , and the complex conjugate of the second input spectrum is X 2 * .
Figure 2018136509

フィルタ決定手段104は、DOA特徴量Fを所定の広義単調増加関数で写像して強調フィルタGを得る。   The filter determination unit 104 obtains an enhancement filter G by mapping the DOA feature amount F with a predetermined broad-sense monotone increasing function.

乗算手段105は、第1の入力スペクトルX1に強調フィルタGを乗じて強調スペクトルYを得る。   Multiplication means 105 multiplies first input spectrum X1 by enhancement filter G to obtain enhancement spectrum Y.

波形復元手段106は、強調スペクトルYに基づいて信号波形を復元して強調音声yを得る。   The waveform restoration means 106 restores the signal waveform based on the enhancement spectrum Y to obtain the enhanced speech y.

次に、特徴量算出手段103が得るDOA特徴量と、フィルタ決定手段104が得る強調フィルタの設計思想について述べる。   Next, the DOA feature quantity obtained by the feature quantity calculation unit 103 and the design concept of the enhancement filter obtained by the filter determination unit 104 will be described.

強調フィルタには、第2のマイクM2側(妨害音側)から到来する妨害音の直接音と反射音を抑圧し、第1のマイクM1側(目的音側、また、正面方向を含む)から到来する目的音の直接音と反射音を抑圧しない特徴を与える必要がある。そのため、DOA特徴量には、音が、第1のマイクM1側から到来した場合には大きな値を取り、第2のマイクM2側から到来した場合には小さな値を取るようにしたい。しかし、第1のマイクM1側が正面方向を含んでいるために、このような特徴は音の到来方向に対して対称とはならないため、当該特徴を有する公知の特徴量はない。   The enhancement filter suppresses the direct sound and reflected sound of the interference sound coming from the second microphone M2 side (interference sound side), and from the first microphone M1 side (including the target sound side and the front direction). It is necessary to give a characteristic that does not suppress the direct sound and reflected sound of the incoming target sound. Therefore, it is desired that the DOA feature value takes a large value when the sound comes from the first microphone M1 side and takes a small value when the sound comes from the second microphone M2 side. However, since the first microphone M1 side includes the front direction, such a feature is not symmetric with respect to the sound arrival direction, and there is no known feature amount having the feature.

そこで、正面方向に対して大きな値を取る特徴量と、第2のマイクM2側に対して大きな値を取る特徴量を考える。ある時刻のある周波数において、前記第1の入力スペクトルをX、前記第2の入力スペクトルをX、前記第2の入力スペクトルの複素共役をX とおき、例えば、式(1−1)で表される特徴量Fcenterと、式(1−2)で表される特徴量Fsideを考える。

Figure 2018136509
Therefore, a feature value that takes a large value with respect to the front direction and a feature value that takes a large value with respect to the second microphone M2 side are considered. At a certain frequency at a certain time, the first input spectrum is set as X 1 , the second input spectrum is set as X 2 , and the complex conjugate of the second input spectrum is set as X 2 *. a feature amount F center represented by), consider a feature amount F side of the formula (1-2).
Figure 2018136509

ここで、正面方向(2つのマイクの位置を結んだ直線と垂直をなす方向)を0度、第2のマイクM2側の(第1のマイクM1から見た第2のマイクM2の)方向を+90度とし、音源のスペクトルをS、角周波数をω、2つのマイク間隔をd、音の到来方向をθ(シータ)、音速をcとおくと、XとXはそれぞれ(2)式と(3)式のように書け、式(2)と式(3)を(1−1)式と(1−2)式に代入すると、それぞれ(3−1)式と(3−2)式が得られる。(3−1)式と(3−2)式で表される特徴量FcenterとFsideの、音の到来方向θに対する関係を、それぞれ図3と図4に示す。 Here, the front direction (the direction perpendicular to the straight line connecting the positions of the two microphones) is 0 degree, and the direction on the second microphone M2 side (the second microphone M2 viewed from the first microphone M1) is Assuming that +90 degrees, the spectrum of the sound source is S, the angular frequency is ω, the distance between two microphones is d, the direction of sound arrival is θ (theta), and the speed of sound is c, X 1 and X 2 are respectively expressed by Equation (2) And (3), and substituting Equations (2) and (3) into Equations (1-1) and (1-2), respectively, (3-1) and (3-2) The formula is obtained. FIGS. 3 and 4 show the relationship between the feature amounts F center and F side represented by the equations (3-1) and (3-2) with respect to the sound arrival direction θ, respectively.

図3は、特徴量Fcenterの例について示している。 FIG. 3 shows an example of the feature amount F center .

図3では、横軸を音源の到来方向θとし縦軸を特徴量Fcenterとしている。図3では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θと特徴量Fcenterの関係を示したグラフとなっている。 In FIG. 3, the horizontal axis is the sound source arrival direction θ, and the vertical axis is the feature amount F center . FIG. 3 is a graph showing the relationship between the arrival direction θ and the feature amount F center when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz.

図4は、特徴量Fsideの例について示している。 FIG. 4 shows an example of the feature amount F side .

図4では、横軸を音源の到来方向θとし縦軸を特徴量Fsideとしている。図4では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θと特徴量Fsideの関係を示したグラフとなっている。 In FIG. 4, the horizontal axis is the arrival direction θ of the sound source, and the vertical axis is the feature amount F side . FIG. 4 is a graph showing the relationship between the arrival direction θ and the feature amount F side when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz.

図3と図4から、Fcenterは到来方向0度に対して大きな値となっており、またFsideは0度に対して第2のマイクM2側に対して大きな値となり、第1のマイクM1側に対して小さな値となっている。 From FIG. 3 and FIG. 4, F center is a large value with respect to the arrival direction of 0 degrees, and F side is a large value with respect to the second microphone M2 side with respect to 0 degrees. It is a small value with respect to the M1 side.

以上のように、DOA特徴量Fは、目的音の方向(0度の方向;正面方向)に対して大きな値となる特性があるFcenterと、第2のマイクM2側(すなわち妨害音の音源である助手U2の側のマイク)に対して大きな値となる特性があるFsideを用いて得られる特徴量であることがわかる。 As described above, the DOA feature amount F includes the F center having characteristics that have a large value with respect to the direction of the target sound (the direction of 0 degrees; the front direction) and the second microphone M2 side (that is, the sound source of the interference sound). It can be seen that the feature amount is obtained using F side having a characteristic that is large with respect to the assistant U2 side microphone).

次に、音の到来方向とDOA特徴量との関係について述べる。   Next, the relationship between the sound arrival direction and the DOA feature value will be described.

DOA特徴量は(3−3)式で定義する。

Figure 2018136509
The DOA feature value is defined by equation (3-3).
Figure 2018136509

(2)式と(3)式を(3−3)式に代入すると(4)式が得られ、式変形すると(5)式が得られる。(5)式で表される音の到来方向θとDOA特徴量Fとの関係を図5に示す。   Substituting Equations (2) and (3) into Equation (3-3) gives Equation (4), and transforming Equation gives Equation (5). FIG. 5 shows the relationship between the sound arrival direction θ expressed by the equation (5) and the DOA feature amount F.

図5は、音の到来方向θとDOA特徴量Fとの関係について示したグラフである。   FIG. 5 is a graph showing the relationship between the sound arrival direction θ and the DOA feature amount F.

図5では、横軸を音源の到来方向θとし縦軸をDOA特徴量Fとしている。図5では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θとDOA特徴量Fの関係を示したグラフとなっている。   In FIG. 5, the horizontal axis is the arrival direction θ of the sound source, and the vertical axis is the DOA feature amount F. FIG. 5 is a graph showing the relationship between the arrival direction θ and the DOA feature amount F when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz.

図5から、DOA特徴量Fは、正面方向に対しては必ずF=1となり、第2のマイクM2側(妨害音側)に対しては必ずF<1となる。一方、第1のマイクM1側に対しては、低い周波数と高い周波数の0度に近いθではF>1となり、高い周波数の90度に近い部分ではF<1となる。   From FIG. 5, the DOA feature amount F is always F = 1 for the front direction, and F <1 for the second microphone M2 side (interference sound side). On the other hand, for the first microphone M1 side, F> 1 at θ close to 0 degrees of the low frequency and high frequency, and F <1 at the portion close to 90 degrees of the high frequency.

以上のように、DOA特徴量Fは、音が、第1のマイクM1側から到来した場合には大きな値を取り、第2のマイクM2側から到来した場合には小さな値を取る特徴を備えていることがわかる。言い換えると、DOA特徴量Fは、正面方向から第1のマイクM1側の方向(助手U2からの妨害音と反対方向)にピークが存在し、当該ピークの存在する方向から第2のマイクM2側に方向が傾くほど値が小さくなる特徴があることがわかる。

Figure 2018136509
As described above, the DOA feature amount F has a feature that takes a large value when the sound comes from the first microphone M1 side and takes a small value when the sound comes from the second microphone M2 side. You can see that In other words, the DOA feature amount F has a peak in the direction from the front direction to the first microphone M1 side (the direction opposite to the interference sound from the assistant U2), and the second microphone M2 side from the direction in which the peak exists. It can be seen that there is a characteristic that the value becomes smaller as the direction is inclined.
Figure 2018136509

強調フィルタは、DOA特徴量を所定の広義単調増加関数で写像することで得られる。   The enhancement filter can be obtained by mapping the DOA feature value with a predetermined broad monotone increasing function.

図6は、広義単調増加関数fmap(F)の例について示したグラフである。   FIG. 6 is a graph showing an example of the broad-sense monotone increasing function fmap (F).

図6では、横軸をDOA特徴量Fの値とし縦軸を強調フィルタGの値としている。   In FIG. 6, the horizontal axis represents the DOA feature value F and the vertical axis represents the enhancement filter G value.

図15からわかるように、強調フィルタは、第2のマイクM2側から到来する音を抑圧し、正面方向と第1のマイクM1側から到来する音は抑圧しないようにしたい。そこで、例えば広義単調増加関数fmap(F)を(6)式のように定義する。図6では、マイク間隔を3cm、音速を332m/s、F=0.9としたfmap(F)の例を示している。 As can be seen from FIG. 15, it is desired that the enhancement filter suppresses the sound coming from the second microphone M2 side and does not suppress the sound coming from the front direction and the first microphone M1 side. Therefore, for example, the broad-sense monotone increasing function fmap (F) is defined as shown in Equation (6). FIG. 6 shows an example of fmap (F) in which the microphone interval is 3 cm, the sound speed is 332 m / s, and F 0 = 0.9.

強調フィルタをG=fmap(F)として得ると、音の到来方向θと強調フィルタGとの関係は図7のようになる。   When the enhancement filter is obtained as G = fmap (F), the relationship between the sound arrival direction θ and the enhancement filter G is as shown in FIG.

図7は、強調フィルタの例について示したグラフである。   FIG. 7 is a graph showing an example of the enhancement filter.

図7では、横軸を音の到来方向θの値とし縦軸を強調フィルタGの値としている。図7では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θと強調フィルタGの値の関係を示したグラフとなっている。   In FIG. 7, the horizontal axis is the value of the sound arrival direction θ, and the vertical axis is the value of the enhancement filter G. FIG. 7 is a graph showing the relationship between the direction of arrival θ and the value of the enhancement filter G when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz.

つまり、DOA特徴量Fが1より少し小さい値より大きい場合には強調フィルタGを1とし、そうでない場合には強調フィルタGは1より小さくすることで、強調フィルタに所望の特性、すなわち妨害音の直接音と反射音を抑圧するが目的音の直接音と妨害音は抑圧しない特性を与えられる。

Figure 2018136509
That is, when the DOA feature amount F is larger than a value slightly smaller than 1, the enhancement filter G is set to 1. Otherwise, the enhancement filter G is made smaller than 1, so that the enhancement filter has a desired characteristic, that is, an interference sound. The direct sound and reflected sound of the target sound are suppressed, but the direct sound and interference sound of the target sound are not suppressed.
Figure 2018136509

なお、本発明と同様の強調フィルタは、例えば第1の入力スペクトルと第2の入力スペクトルとから周波数ごとに到来方向θを算出することで得ることもできるが、逆正接関数(atan、arctan、tan−1などと書かれる)を計算する演算コストがかかる。そのため、演算コストの観点で本発明の方が優位である。 The enhancement filter similar to the present invention can be obtained by calculating the arrival direction θ for each frequency from the first input spectrum and the second input spectrum, for example, but the inverse tangent function (atan, arctan, tan -1 written as such) it takes computational cost of calculating. Therefore, the present invention is superior from the viewpoint of calculation cost.

(A−2)第1の実施形態の動作
次に、上述した構成を有する第1の実施形態の信号処理装置100の動作(実施形態の信号処理方法)を、図1を参照しながら説明する。
(A-2) Operation of First Embodiment Next, the operation (signal processing method of the embodiment) of the signal processing apparatus 100 of the first embodiment having the above-described configuration will be described with reference to FIG. .

信号処理装置100は、目的音源を含む第1の入力信号xと第2の入力信号x(時間領域の入力信号)について、目的音強調を行って、強調音声y(時間領域の出力信号)を生成するものである。 Signal processing apparatus 100, first the input signal x 1 and the second input signal x 2 (input signal in the time domain), performs target sound is emphasized, the output signal of the enhanced speech y (time region including the target sound source ).

第1の周波数解析手段101及び第2の周波数解析手段は、フーリエ変換に代表される任意の周波数解析手法、またはフィルタバンクに代表される任意の帯域分割手段によって、第1の入力信号xと第2の入力信号xをそれぞれK個の帯域に分割し、第1の入力スペクトルXと第2の入力スペクトルXとを得る。以下、第1の入力スペクトルと第2の入力スペクトルは、帯域の番号(例えばk番目)を明示する必要がある場合はX(k)、X(k)と書き、帯域の番号を明示する必要がない場合は単にX、Xと表記する。第1の周波数解析手段101は、得られた第1の入力スペクトルXを特徴量算出手段103と乗算手段105に与え、第2の周波数解析手段102は、得られた第2の入力スペクトルXを特徴量算出手段103に与える。なお、乗算手段105に与えられる入力スペクトルは第1の入力スペクトルXとしたが、これに限定されるものではなく、第2の入力スペクトルXを乗算手段105に与えても良く、いずれも同様の効果を奏する。 The first frequency analysis means 101 and the second frequency analysis means are connected to the first input signal x 1 by an arbitrary frequency analysis method represented by Fourier transform or an arbitrary band dividing means represented by a filter bank. the second input signal x 2 is divided into K bands, respectively, to obtain the first input spectrum X 1 and a second input spectrum X 2. Hereinafter, the first input spectrum and the second input spectrum are written as X 1 (k) and X 2 (k) when the band number (for example, k-th) needs to be clearly indicated, and the band number is clearly indicated. When it is not necessary to do this, they are simply expressed as X 1 and X 2 . First frequency analysis means 101 gives the first of the input spectrum X 1 feature calculating unit 103 and the multiplication means 105 a resulting second frequency analysis means 102, the resulting second input spectrum X 2 is given to the feature quantity calculation means 103. The input spectrum is provided to multiplier 105 is set to the first input spectrum X 1, is not limited thereto, be applied to a second input spectrum X 2 a multiplication means 105 may, both The same effect is produced.

特徴量算出手段103は、第1の入力スペクトルXと第2の入力スペクトルXとに基づいて(7)式によってDOA特徴量Fを算出し、フィルタ決定手段104に与える。(7)式をそのまま使って計算しても良いが、冗長な演算を含むため、式変形しても良い。XとXは複素数なので、これを(8)式のように書き直して(7)式に代入して整理すると、(9)式を得る。(7)式の代わりに(9)式を用いることで、乗算回数を減らすことができる。

Figure 2018136509
The feature amount calculation unit 103 calculates the DOA feature amount F by the expression (7) based on the first input spectrum X 1 and the second input spectrum X 2 and gives the calculated value to the filter determination unit 104. The calculation may be performed using the equation (7) as it is, but the equation may be modified because it includes a redundant operation. Since X 1 and X 2 are complex numbers, when this is rewritten as shown in equation (8) and substituted into equation (7) for rearrangement, equation (9) is obtained. By using equation (9) instead of equation (7), the number of multiplications can be reduced.
Figure 2018136509

フィルタ決定手段104は、DOA特徴量Fに基づいて所定の広義単調増加関数によって強調フィルタGを算出し、乗算手段105に与える。第1の実施形態では、すべての周波数に対して同じ広義単調増加関数を用いる。所定の広義単調増加関数fmap(F)として、例えば(10)式で定義される1つの閾値Fを持つ関数や、(11)式で定義される2つの閾値F、Fを持つ関数、(12)式で定義されるスケールF、オフセットFのシグモイド関数を用いることができる。

Figure 2018136509
The filter determination unit 104 calculates the enhancement filter G based on the DOA feature amount F using a predetermined broad-sense monotone increasing function, and supplies the enhancement filter G to the multiplication unit 105. In the first embodiment, the same broad-sense monotone increasing function is used for all frequencies. As a predetermined broad-sense monotone increasing function fmap (F), for example, a function having one threshold value F 0 defined by the equation (10) or a function having two threshold values F 1 and F 2 defined by the equation (11) , A sigmoid function having a scale F 3 and an offset F 0 defined by the equation (12) can be used.
Figure 2018136509

図8は、第1の実施形態に係るフィルタ決定手段104で得られる強調フィルタGの例について示したグラフである。   FIG. 8 is a graph showing an example of the enhancement filter G obtained by the filter determination unit 104 according to the first embodiment.

図8(a)、図8(b)、図8(c)は、それぞれ(10)式、(11)式、(12)式によって得られる強調フィルタGの例を示している。図8(a)、図8(b)、図8(c)では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θと強調フィルタGの関係を示したグラフとなっている。図8(a)、図8(b)、図8(c)では、横軸を音源の到来方向θとし縦軸を強調フィルタGの値(到来方向θに応じた値)としている。   FIG. 8A, FIG. 8B, and FIG. 8C show examples of the enhancement filter G obtained by the equations (10), (11), and (12), respectively. 8A, 8B, and 8C are graphs showing the relationship between the arrival direction θ and the enhancement filter G when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz. Yes. In FIG. 8A, FIG. 8B, and FIG. 8C, the horizontal axis represents the arrival direction θ of the sound source, and the vertical axis represents the value of the enhancement filter G (value corresponding to the arrival direction θ).

ここでは、F=0.8、F=0.7、F=0.9、F=12とした。妨害音の抑圧性能に関して、(10)式と(11)式との差はあまりない。一方、強調音声の歪みに関して、(10)式で得られる強調フィルタGは値を0か1しか持たないためにミュージカルノイズを発生しやすいが、(11)式は遷移帯域があることで抑圧/非抑圧の切り替わりが緩やかになるためにミュージカルノイズが発生しにくい。(12)式は(11)式をさらに滑らかにした特性となっており、更なるミュージカルノイズ低減効果や歪みを減らす効果が期待できる。多少の演算コストの増加が許容されるのであれば、(12)式を用いるのが好適である。 Here, F 0 = 0.8, F 1 = 0.7, F 2 = 0.9, and F 3 = 12. There is not much difference between the expression (10) and the expression (11) regarding the interference noise suppression performance. On the other hand, with respect to the distortion of the emphasized speech, the enhancement filter G obtained by the equation (10) has only a value of 0 or 1, and thus tends to generate musical noise. Since the switching of non-suppression is gentle, musical noise is unlikely to occur. The expression (12) is a characteristic obtained by further smoothing the expression (11), and further musical noise reduction effect and distortion reduction effect can be expected. If a slight increase in calculation cost is allowed, it is preferable to use the expression (12).

乗算手段105は、入力スペクトルXに周波数ごとに強調フィルタG(強調ゲイン)を乗じ、得られた強調スペクトルYを波形復元手段106に与える。 The multiplication unit 105 multiplies the input spectrum X 1 by an enhancement filter G (enhancement gain) for each frequency, and gives the obtained enhancement spectrum Y to the waveform restoration unit 106.

波形復元手段106は、第1の周波数解析手段101と第2の周波数解析手段102で用いた周波数解析手法または帯域分割手法に対応する波形復元手法を用いて、乗算手段105から与えられた強調スペクトルYに基づいて信号波形を再構成し、得られた強調音声y(強調信号)を出力する。   The waveform restoration unit 106 uses the waveform restoration method corresponding to the frequency analysis method or the band division method used in the first frequency analysis unit 101 and the second frequency analysis unit 102, and the enhanced spectrum given from the multiplication unit 105. The signal waveform is reconstructed based on Y, and the obtained enhanced speech y (enhanced signal) is output.

(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
(A-3) Effects of First Embodiment According to the first embodiment, the following effects can be achieved.

第1の実施形態の信号処理装置100では、第2のマイクM2側の方向から到来する音を抑圧し、正面方向と第1のマイクM1側の方向から到来する音は抑圧しないので、自動車内において運転手U1の声(目的音)を強調する場合などにおいて、少ない歪みで目的音を強調することができる。   In the signal processing apparatus 100 according to the first embodiment, sound arriving from the direction of the second microphone M2 is suppressed, and sound arriving from the front direction and the direction of the first microphone M1 is not suppressed. When emphasizing the voice (target sound) of the driver U1, the target sound can be emphasized with less distortion.

言い換えると、信号処理装置100では、少ない演算コストで、妨害音の直接音と反射音を抑圧するが、目的音の直接音と反射音は抑圧しない強調フィルタGを設計できるので、少ない歪みで目的音を強調できるという効果を奏する。   In other words, the signal processing apparatus 100 can design the enhancement filter G that suppresses the direct sound and the reflected sound of the interference sound with low calculation cost but does not suppress the direct sound and the reflected sound of the target sound. The effect is that the sound can be emphasized.

(B)第2の実施形態
以下、本発明による信号処理装置、プログラム及び方法の第2の実施形態を、図面を参照しながら詳述する。
(B) Second Embodiment Hereinafter, a second embodiment of the signal processing apparatus, program and method according to the present invention will be described in detail with reference to the drawings.

(B−1)第2の実施形態の構成
第2の実施形態の信号処理装置200も、第1の実施形態と同様に図2に示すような環境で利用されるものとして説明する。
(B-1) Configuration of Second Embodiment The signal processing apparatus 200 of the second embodiment will be described as being used in an environment as shown in FIG. 2 as in the first embodiment.

また、第2の実施形態の信号処理装置200の内部構成についても、上述の図1を用いて示すことができる。   Also, the internal configuration of the signal processing device 200 of the second embodiment can be shown using FIG. 1 described above.

以下では、第2の実施形態の信号処理装置200について、第1の実施形態との差異を説明する。   Below, the difference from 1st Embodiment is demonstrated about the signal processing apparatus 200 of 2nd Embodiment.

第1の実施形態では、フィルタ決定手段104において、すべての周波数に同じ広義単調増加関数fmap(F)を適用して強調フィルタGを得ていたため、図8に示した通り、強調フィルタGの特性が周波数ごとに異なっていた。特に低い周波数では抑圧されない到来方向の範囲が広くなる現象が起こる。そこで、第2の実施形態では、どの周波数でも同じような特性となるように、周波数ごとに異なる広義単調増加関数を適用する。   In the first embodiment, the filter determination unit 104 applies the same broad-sense monotone increasing function fmap (F) to all frequencies to obtain the enhancement filter G. Therefore, as shown in FIG. Was different for each frequency. In particular, a phenomenon occurs in which the range of arrival directions that are not suppressed is widened at low frequencies. Therefore, in the second embodiment, a broad monotone increasing function that differs for each frequency is applied so that the same characteristics are obtained at any frequency.

第2の実施形態の信号処理装置200の構成は、図1に示すように、フィルタ決定手段104がフィルタ決定手段204に替わること以外は、第1の実施形態の信号処理装置100の構成と同じである。   The configuration of the signal processing device 200 according to the second embodiment is the same as the configuration of the signal processing device 100 according to the first embodiment except that the filter determination unit 104 is replaced with a filter determination unit 204 as shown in FIG. It is.

(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の信号処理装置200の動作(実施形態の信号処理方法)を説明する。
(B-2) Operation | movement of 2nd Embodiment Next, operation | movement (signal processing method of embodiment) of the signal processing apparatus 200 of 2nd Embodiment which has the above structures is demonstrated.

第2の実施形態の信号処理装置200の動作は、フィルタ決定手段204の動作がフィルタ決定手段104とは異なる点以外は、第1の実施形態の信号処理装置100の動作と同じである。   The operation of the signal processing device 200 of the second embodiment is the same as the operation of the signal processing device 100 of the first embodiment, except that the operation of the filter determination unit 204 is different from the filter determination unit 104.

第1の実施形態では、図7に示すように、正面方向から第2のマイクM2の側に到来方向を傾けた際に、周波数によって強調フィルタGのゲインが所定以下(例えば、0.5以下)となる到来角度(以下、「カットオフ到来角度」と呼ぶ)にばらつきがある。言い換えると、第1の実施形態では、周波数によって抑圧しない到来方向の範囲にばらつきがある。これに対して、第2の実施形態のフィルタ決定手段204は、周波数ごとの広義単調増加関数を設定することで、このばらつきを吸収し、複数の周波数でカットオフ到来角度(抑圧しない到来方向の範囲)が近づくようにしている。フィルタ決定手段204において、周波数ごとのカットオフ到来角度のばらつき(抑圧しない到来方向の範囲のばらつき)を抑制するような、周波数ごとの広義単調増加関数を求める方式については限定されないものであるが、例えば、いかのような処理を適用することができる。   In the first embodiment, as shown in FIG. 7, when the arrival direction is tilted from the front direction toward the second microphone M2, the gain of the enhancement filter G is predetermined or less (for example, 0.5 or less) depending on the frequency. ) (Hereinafter referred to as “cutoff arrival angle”). In other words, in the first embodiment, there is variation in the range of the arrival direction that is not suppressed depending on the frequency. On the other hand, the filter determination unit 204 of the second embodiment absorbs this variation by setting a broad-sense monotonically increasing function for each frequency, and cut-off arrival angles (in the direction of arrival without suppression) at a plurality of frequencies. Range) is approaching. The filter determining means 204 is not limited to a method for obtaining a broad monotone increasing function for each frequency so as to suppress variation in cutoff arrival angle for each frequency (variation in the range of arrival directions that are not suppressed). For example, what kind of processing can be applied.

フィルタ決定手段204は、DOA特徴量Fに基づいて所定の広義単調増加関数によって強調フィルタGを算出し、乗算手段105に与える。第2の実施形態では、周波数ごとに異なる広義単調増加関数を用いる。ここでは、k番目の周波数のDOA特徴量をF(k)、k番目の周波数の強調ゲインをG(k)と書く。k番目の周波数をfとして、到来方向と周波数の番号をDOA特徴量に変換する関数を(13)式で定義する。そして、所定のk番目の周波数の広義単調増加関数fmap(F(k))として、例えば(14)式で定義される1つの到来方向閾値θを関数や、(15)式で定義される2つの到来方向閾値θ、θを持つ関数、(16)式で定義されるスケールF、オフセット到来方向θのシグモイド関数を用いることができる。

Figure 2018136509
The filter determination unit 204 calculates the enhancement filter G based on the DOA feature amount F using a predetermined broad-sense monotone increasing function, and supplies the enhancement filter G to the multiplication unit 105. In the second embodiment, a broad-sense monotone increasing function that differs for each frequency is used. Here, the DOA feature quantity of the kth frequency is written as F (k), and the enhancement gain of the kth frequency is written as G (k). A function for converting the direction of arrival and the frequency number into a DOA feature amount is defined by equation (13), where the k-th frequency is f k . Then, as a broad monotone increasing function fmap k (F (k)) of a predetermined k-th frequency, for example, one arrival direction threshold value θ 0 defined by equation (14) is defined by a function or equation (15). A function having two arrival direction threshold values θ 1 and θ 2 , a scale F a defined by the equation (16), and a sigmoid function having an offset arrival direction θ 0 can be used.
Figure 2018136509

図9は、第2の実施形態に係るフィルタ決定手段204で得られる強調フィルタGの例について示したグラフである。   FIG. 9 is a graph showing an example of the enhancement filter G obtained by the filter determination unit 204 according to the second embodiment.

図9(a)、図9(b)、図9(c)は、それぞれ(14)式、(15)式、(16)式によって得られる強調フィルタGの例を示している。図9(a)、図9(b)、図9(c)では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θと強調フィルタGの関係を示したグラフとなっている。図9(a)、図9(b)、図9(c)では、横軸を音源の到来方向θとし縦軸を強調フィルタGの値(到来方向θに応じた値)としている。   FIG. 9A, FIG. 9B, and FIG. 9C show examples of the enhancement filter G obtained by the equations (14), (15), and (16), respectively. 9A, 9B, and 9C are graphs showing the relationship between the arrival direction θ and the enhancement filter G when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz. Yes. 9A, 9B, and 9C, the horizontal axis represents the arrival direction θ of the sound source, and the vertical axis represents the value of the enhancement filter G (value corresponding to the arrival direction θ).

ここでは、θ=15、θ=20、θ=10、F=12とした。第1の実施形態における強調フィルタG(図8)では、抑圧しない到来方向の範囲が周波数ごとに変化していたが、第2の実施形態における強調フィルタG(図9)では、高い周波数の第1のマイクM1側を除いて、抑圧しない到来方向の範囲は周波数が変わっても変化しない。なお、(16)式については周波数によって特性が変化しているが、強調フィルタGのゲインが0.5となるカットオフ到来角度は周波数に依らず一定である。つまり、(13)〜(16)式を用いて強調ゲインを算出すれば、第2のマイクM2側、すなわち妨害音側(助手席側)を何度まで抑圧するかを、すべての周波数共通かつ直接的に設定できる。 Here, θ 0 = 15, θ 1 = 20, θ 2 = 10, and F a = 12. In the enhancement filter G (FIG. 8) in the first embodiment, the range of arrival directions not to be suppressed changes for each frequency, but in the enhancement filter G (FIG. 9) in the second embodiment, the high-frequency Except for one microphone M1 side, the range of the arrival direction that is not suppressed does not change even if the frequency changes. Note that although the characteristic of the equation (16) changes depending on the frequency, the cutoff arrival angle at which the gain of the enhancement filter G becomes 0.5 is constant regardless of the frequency. That is, if the enhancement gain is calculated using the equations (13) to (16), the number of times to suppress the second microphone M2 side, that is, the disturbance sound side (passenger seat side), is the same for all frequencies. Can be set directly.

(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加えて、以下のような効果を奏することができる。
(B-3) Effects of Second Embodiment According to the second embodiment, the following effects can be obtained in addition to the effects of the first embodiment.

第2の実施形態の信号処理装置200では、強調ゲインが抑圧しない到来方向の範囲をすべての周波数で同じように与えることができ、かつその範囲を到来方向の角度そのもので設定できるので、より適切な調整が可能となり、より少ない歪みで目的音を強調できるという効果を奏する。   In the signal processing device 200 according to the second embodiment, the range of the arrival direction in which the enhancement gain is not suppressed can be given in the same way at all frequencies, and the range can be set by the angle of the arrival direction itself. Adjustment is possible, and the target sound can be emphasized with less distortion.

(C)第3の実施形態
以下、本発明による信号処理装置、プログラム及び方法の第3の実施形態を、図面を参照しながら詳述する。
(C) Third Embodiment Hereinafter, a third embodiment of the signal processing apparatus, program and method according to the present invention will be described in detail with reference to the drawings.

(C−1)第3の実施形態の構成
第3の実施形態の信号処理装置200も、第1、第2の実施形態と同様に図2に示すような環境で利用されるものとして説明する。
(C-1) Configuration of Third Embodiment The signal processing apparatus 200 of the third embodiment will be described as being used in an environment as shown in FIG. 2 as in the first and second embodiments. .

また、第3の実施形態の信号処理装置300の内部構成についても、上述の図1を用いて示すことができる。   Further, the internal configuration of the signal processing apparatus 300 of the third embodiment can also be shown using FIG. 1 described above.

以下では、第3の実施形態の信号処理装置200について、第2の実施形態との差異を説明する。   Hereinafter, differences from the second embodiment will be described for the signal processing device 200 of the third embodiment.

第2の実施形態では、妨害音側の到来方向を何度まで抑圧するかを、すべての周波数共通で設定した。しかし、低い周波数は信号の波長に対してマイク間隔を十分に広く取ることが困難なため(100Hzの波長は約3.3mだが、自動車内でのマイク間隔は数cmとするのが一般的)、低い周波数において数値計算によって得られる到来方向に関する情報(本発明ではDOA特徴量)は一般に曖昧になる(到来方向推定の意味で推定誤差が大きくなる)。そこで、第3の実施形態では、所定よりも低い周波数(例えば、250Hz以下の周波数帯)では強調ゲインが抑圧しない到来方向の範囲を広げる(第2のマイクM2の側に広げる;妨害音を発する助手U2の側に広げる)ように設計する。   In the second embodiment, how many times the direction of arrival on the disturbing sound side is suppressed is set for all frequencies. However, it is difficult to make the microphone interval sufficiently wide with respect to the signal wavelength at a low frequency (the wavelength of 100 Hz is about 3.3 m, but the microphone interval in an automobile is generally several centimeters). Information regarding the direction of arrival obtained by numerical calculation at a low frequency (DOA feature amount in the present invention) is generally ambiguous (estimation error increases in the sense of direction of arrival estimation). Therefore, in the third embodiment, the range of the arrival direction in which the enhancement gain is not suppressed is expanded at a frequency lower than a predetermined frequency (for example, a frequency band of 250 Hz or less) (expanded to the second microphone M2 side; a disturbing sound is emitted). It is designed to spread to the side of the assistant U2.

第3の実施形態の信号処理装置300の構成は、フィルタ決定手段104がフィルタ決定手段304に替わること以外は、第1の実施形態の信号処理装置100の構成と同じである。   The configuration of the signal processing device 300 according to the third embodiment is the same as the configuration of the signal processing device 100 according to the first embodiment except that the filter determination unit 104 is replaced with the filter determination unit 304.

(C−2)第3の実施形態の動作
次に、以上のような構成を有する第3の実施形態の信号処理装置300の動作(実施形態の信号処理方法)を説明する。
(C-2) Operation of Third Embodiment Next, the operation (signal processing method of the embodiment) of the signal processing device 300 of the third embodiment having the above-described configuration will be described.

第3の実施形態の信号処理装置300の動作は、フィルタ決定手段304の動作がフィルタ決定手段104とは異なる点以外は、第1の実施形態の信号処理装置100の動作と同じである。   The operation of the signal processing device 300 of the third embodiment is the same as the operation of the signal processing device 100 of the first embodiment, except that the operation of the filter determination unit 304 is different from the filter determination unit 104.

フィルタ決定手段304は、DOA特徴量Fに基づいて所定の広義単調増加関数によって強調フィルタGを算出し、乗算手段105に与える。第2の実施形態では、周波数ごとに異なる広義単調増加関数を用いる。ここでは、k番目の周波数のDOA特徴量をF(k)、k番目の周波数の強調ゲインをG(k)と書く。k番目の周波数をfとして、到来方向と周波数の番号をDOA特徴量に変換する関数を(17)式で定義する。そして、所定のk番目の周波数の広義単調増加関数fmap(F(k))として、例えば(18)式で定義される1つの到来方向閾値θを持つ関数を用いることができる。

Figure 2018136509
The filter determining unit 304 calculates the enhancement filter G based on the DOA feature amount F using a predetermined broad-sense monotone increasing function, and supplies the enhancement filter G to the multiplication unit 105. In the second embodiment, a broad-sense monotone increasing function that differs for each frequency is used. Here, the DOA feature quantity of the kth frequency is written as F (k), and the enhancement gain of the kth frequency is written as G (k). A function for converting the direction of arrival and the frequency number into a DOA feature is defined by equation (17), where the k-th frequency is f k . A function having one arrival direction threshold value θ 0 defined by, for example, the equation (18) can be used as the broad-sense monotone increasing function fmap k (F (k)) of a predetermined k-th frequency.
Figure 2018136509

図10は、第2の実施形態に係るフィルタ決定手段204で得られる強調フィルタGと、第3の実施形態に係るフィルタ決定手段304で得られる強調フィルタGとの比較について示したグラフである。   FIG. 10 is a graph showing a comparison between the enhancement filter G obtained by the filter determination unit 204 according to the second embodiment and the enhancement filter G obtained by the filter determination unit 304 according to the third embodiment.

図10(a)は、第2の実施形態におけるフィルタ決定手段204で上述の(13)式及び(14)式を用いて得られる強調フィルタGについて示している。また、図10(b)は、第3の実施形態に係るフィルタ決定手段304で(17)式及び(18)式により得られる強調フィルタGの例を示している。図10(a)、図10(b)では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θと強調フィルタGの関係を示したグラフとなっている。図10(a)、図10(b)では、横軸を音源の到来方向θとし縦軸を強調フィルタGの値(到来方向θに応じた値)としている。   FIG. 10A shows an enhancement filter G obtained by using the above equations (13) and (14) by the filter determination means 204 in the second embodiment. FIG. 10B shows an example of the enhancement filter G obtained by the equations (17) and (18) by the filter determination unit 304 according to the third embodiment. 10A and 10B are graphs showing the relationship between the arrival direction θ and the enhancement filter G when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz. 10A and 10B, the horizontal axis is the arrival direction θ of the sound source, and the vertical axis is the value of the enhancement filter G (value corresponding to the arrival direction θ).

ここでは、θ=5、F=0.97とした。図10より、到来方向と周波数の番号をDOA特徴量に変換する関数Φ(ファイ)の上限値をFとしたことで、低い周波数の抑圧しない到来方向の範囲が広くなったことが確認できる。 Here, θ 0 = 5 and F 0 = 0.97. From FIG. 10, it can be confirmed that by setting the upper limit value of the function Φ (Phi) for converting the arrival direction and the frequency number to the DOA feature amount as F 0 , the range of the arrival direction in which low frequencies are not suppressed is widened. .

(C−3)第3の実施形態の効果
第3の実施形態によれば、第1、第2の実施形態の効果に加えてができる。
(C-3) Effects of the Third Embodiment According to the third embodiment, the effects of the first and second embodiments can be added.

第3の実施形態の信号処理装置300では、数値計算によって得られる到来方向に関する情報が曖昧となる低い周波数において、抑圧しない到来方向の範囲を広めに確保できるので、低い周波数の目的音の歪みが軽減され、より少ない歪みで目的音を強調できるという効果を奏する。   In the signal processing device 300 according to the third embodiment, since the range of the arrival direction that is not suppressed can be secured widely at a low frequency where the information about the arrival direction obtained by numerical calculation is ambiguous, distortion of the target sound at a low frequency is prevented. This reduces the effect of enhancing the target sound with less distortion.

(D)第4の実施形態
以下、本発明による信号処理装置、プログラム及び方法の第4の実施形態を、図面を参照しながら詳述する。
(D) Fourth Embodiment Hereinafter, a fourth embodiment of the signal processing apparatus, program and method according to the present invention will be described in detail with reference to the drawings.

(D−1)第4の実施形態の構成
第4の実施形態の信号処理装置400も、第1〜第3の実施形態と同様に図2に示すような環境で利用されるものとして説明する。
(D-1) Configuration of the Fourth Embodiment The signal processing apparatus 400 of the fourth embodiment will be described as being used in an environment as shown in FIG. 2 as in the first to third embodiments. .

また、第4の実施形態の信号処理装置400の内部構成についても、上述の図1を用いて示すことができる。   Further, the internal configuration of the signal processing apparatus 400 of the fourth embodiment can also be shown using FIG. 1 described above.

以下では、第4の実施形態の信号処理装置400について、第1〜第3の実施形態との差異を説明する。   Below, the difference with the 1st-3rd embodiment is demonstrated about the signal processing apparatus 400 of 4th Embodiment.

第1〜第3の実施形態では、自動車A内において運転手U1の正面に2つのマイクM1、M2をセットする場合を想定して、助手席側(助手U2側)だけを抑圧する強調フィルタGを設計した。これに対して、第4の実施形態では、本発明におけるDOA特徴量を用いて正面方向のみを強調する(抑圧しない)強調フィルタを適用するものとする。   In the first to third embodiments, assuming that two microphones M1 and M2 are set in front of the driver U1 in the automobile A, the enhancement filter G that suppresses only the passenger seat side (the assistant U2 side). Designed. On the other hand, in the fourth embodiment, an enhancement filter that enhances (does not suppress) only the front direction using the DOA feature value in the present invention is applied.

図1に示すように、第4の実施形態の信号処理装置400の構成は、特徴量算出手段103とフィルタ決定手段104がそれぞれ特徴量算出手段403とフィルタ決定手段404に替わること以外は、第1の実施形態の信号処理装置100の構成と同じである。   As shown in FIG. 1, the configuration of the signal processing apparatus 400 according to the fourth embodiment is the same as that of the fourth embodiment except that the feature amount calculation unit 103 and the filter determination unit 104 are replaced with the feature amount calculation unit 403 and the filter determination unit 404, respectively. The configuration is the same as that of the signal processing apparatus 100 of the first embodiment.

(D−2)第4の実施形態の動作
次に、以上のような構成を有する第4の実施形態の信号処理装置400の動作(実施形態の信号処理方法)を説明する。
(D-2) Operation of Fourth Embodiment Next, an operation (signal processing method of the embodiment) of the signal processing device 400 of the fourth embodiment having the above-described configuration will be described.

次に、上述した構成を有する第4の実施形態の信号処理装置400の動作を説明する。第4の実施形態の信号処理装置400の動作は、特徴量算出手段403とフィルタ決定手段304の動作が特徴量算出手段103とフィルタ決定手段104とは異なる点以外は、第1の実施形態の信号処理装置100の動作と同じである。   Next, the operation of the signal processing apparatus 400 according to the fourth embodiment having the above-described configuration will be described. The operation of the signal processing apparatus 400 of the fourth embodiment is the same as that of the first embodiment, except that the operation of the feature amount calculation unit 403 and the filter determination unit 304 is different from the feature amount calculation unit 103 and the filter determination unit 104. The operation is the same as that of the signal processing apparatus 100.

特徴量算出手段403は、第1の入力スペクトルXと第2の入力スペクトルXとに基づいて(19)式によって2つのDOA特徴量FとF’を算出し、フィルタ決定手段404に与える。2つのDOA特徴量を音の到来方向θに関して整理すると、(20)式となる。 The feature quantity calculation means 403 calculates two DOA feature quantities F and F ′ by the equation (19) based on the first input spectrum X 1 and the second input spectrum X 2, and gives them to the filter determination means 404. . When the two DOA feature quantities are arranged with respect to the sound arrival direction θ, the equation (20) is obtained.

図11は、音の到来方向θと(20)式のDOA特徴量F’との関係について示したグラフである。   FIG. 11 is a graph showing the relationship between the sound arrival direction θ and the DOA feature value F ′ in the equation (20).

図11では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θとDOA特徴量F’の関係を示したグラフとなっている。図11では、横軸を音源の到来方向θとし縦軸をDOA特徴量F’としている。   FIG. 11 is a graph showing the relationship between the arrival direction θ and the DOA feature amount F ′ when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz. In FIG. 11, the horizontal axis represents the sound source arrival direction θ, and the vertical axis represents the DOA feature amount F ′.

図11を見ると、DOA特徴量F(図5)とはちょうど左右が反転していることが確認できる。

Figure 2018136509
When FIG. 11 is seen, it can be confirmed that the left and right are just reversed from the DOA feature amount F (FIG. 5).
Figure 2018136509

フィルタ決定手段404は、2つのDOA特徴量FとF’に基づいて所定の広義単調増加関数によって強調フィルタGを算出し、乗算手段105に与える。所定の広義単調増加関数には、第1の実施形態に係るfmap(F)、第2の実施形態に係るΦ(φ,k)とfmap(F(k))、第3の実施形態に係るΦ(φ,F,k)とfmap(F(k))のいずれを用いても良いが、ここでは一例として、第2の実施形態の所定の広義単調増加関数を用いて説明する。第4の実施形態において、強調フィルタGは(21)式を用いて算出される。 The filter determination unit 404 calculates the enhancement filter G based on the two DOA feature amounts F and F ′ using a predetermined broad-sense monotone increasing function, and supplies the enhancement filter G to the multiplication unit 105. The predetermined broad monotone increasing function includes fmap (F) according to the first embodiment, Φ (φ, k) and fmap k (F (k)) according to the second embodiment, and the third embodiment. Any of Φ (φ, F 0 , k) and fmap k (F (k)) may be used, but here, as an example, a description will be given using the predetermined broad-sense monotonically increasing function of the second embodiment. . In the fourth embodiment, the enhancement filter G is calculated using equation (21).

図12は、第4の実施形態に係るフィルタ決定手段404で得られる強調フィルタGの例について示した説明図である。   FIG. 12 is an explanatory diagram illustrating an example of the enhancement filter G obtained by the filter determination unit 404 according to the fourth embodiment.

図12(a)、図12(b)、図12(c)は、それぞれfmap(F(k))として(14)式、(15)式、(16)式を用いた場合に得られる強調フィルタGの例を示している。図12(a)、図12(b)、図12(c)では、音源の周波数を1kHz、2kHz、4kHzと変化させた場合の到来方向θと強調フィルタGの関係を示したグラフとなっている。図12(a)、図12(b)、図12(c)では、横軸を音源の到来方向θとし縦軸を強調フィルタGの値(到来方向θに応じた値)としている。 12 (a), 12 (b), and 12 (c) are obtained when Equation (14), Equation (15), and Equation (16) are used as fmap k (F (k)), respectively. An example of the enhancement filter G is shown. 12A, 12B, and 12C are graphs showing the relationship between the arrival direction θ and the enhancement filter G when the frequency of the sound source is changed to 1 kHz, 2 kHz, and 4 kHz. Yes. 12 (a), 12 (b), and 12 (c), the horizontal axis represents the arrival direction θ of the sound source, and the vertical axis represents the value of the enhancement filter G (value corresponding to the arrival direction θ).

ここでは、θ=20、θ=15、θ=25、F=12とした。図12より、正面方向のみを強調する(抑圧しない)強調フィルタが得られていることが分かる。 Here, θ 0 = 20, θ 1 = 15, θ 2 = 25, and F a = 12. From FIG. 12, it can be seen that an enhancement filter that enhances only the front direction (does not suppress) is obtained.

(D−3)第4の実施形態の効果
第4の実施形態によれば、第1〜第3の実施形態と比較して以下のような効果を奏することができる。
(D-3) Effects of the Fourth Embodiment According to the fourth embodiment, the following effects can be achieved as compared with the first to third embodiments.

第4の実施形態の信号処理装置400では、強調フィルタG(強調ゲイン)が抑圧しない到来方向の範囲を正面方向に限定した目的音を強調できるという特有の効果を奏することができる。   In the signal processing device 400 of the fourth embodiment, it is possible to achieve a specific effect that the target sound in which the range of the arrival direction that is not suppressed by the enhancement filter G (enhancement gain) is limited to the front direction can be enhanced.

(E)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(E) Other Embodiments The present invention is not limited to the above-described embodiments, and may include modified embodiments as exemplified below.

(E−1)上記の実施形態において、信号処理装置は、強調スペクトルYの波形を復元して強調音声yを出力するものとして記載したが、波形を復元せずに強調スペクトルYを出力しても良い。また、強調スペクトルYと強調音声yの両方を出力するようにしても良い。その場合、波形復元手段106は除外するようにしてもよい。   (E-1) In the above embodiment, the signal processing apparatus is described as restoring the waveform of the enhanced spectrum Y and outputting the enhanced speech y, but outputs the enhanced spectrum Y without restoring the waveform. Also good. Further, both the enhanced spectrum Y and the enhanced sound y may be output. In that case, the waveform restoration means 106 may be excluded.

100…信号処理装置、101…第1の周波数解析手段、102…第2の周波数解析手段、103…特徴量算出手段、104…フィルタ決定手段、105…乗算手段、106…波形復元手段、M1…第1のマイク(第1の収音装置)、M2…第2のマイク(第2の収音装置)。   DESCRIPTION OF SYMBOLS 100 ... Signal processing apparatus, 101 ... 1st frequency analysis means, 102 ... 2nd frequency analysis means, 103 ... Feature-value calculation means, 104 ... Filter determination means, 105 ... Multiplication means, 106 ... Waveform restoration means, M1 ... First microphone (first sound collecting device), M2... Second microphone (second sound collecting device).

Claims (10)

第1の収音装置から入力された第1の入力信号を周波数解析して第1の入力スペクトルを得る第1の周波数解析手段と、
第2の収音装置から入力された第2の入力信号を周波数解析して第2の入力スペクトルを得る第2の周波数解析手段と、
前記第1の周波数解析手段で得られた第1の入力スペクトルと前記第2の周波数解析手段で得られた第2の入力スペクトルに基づき、前記第1の収音装置の位置と前記第2の収音装置の位置を結んだ直線と垂直をなす正面方向に対して、正面方向及び前記第1の収音装置側の方向の値を大きくとり、前記第2の収音装置側の方向の値を小さくとる第1の特徴量を算出する特徴量算出手段と、
前記特徴量算出手段で算出された前記第1の特徴量を、所定の広義単調増加関数で写像して強調フィルタを得るフィルタ決定手段と、
前記第1の周波数解析手段で得られた第1の入力スペクトルに前記フィルタ決定手段で得られた強調フィルタを乗じて強調スペクトルを得る乗算手段と
を備えることを特徴とする信号処理装置。
First frequency analysis means for obtaining a first input spectrum by performing frequency analysis on the first input signal input from the first sound collection device;
Second frequency analysis means for obtaining a second input spectrum by performing frequency analysis on the second input signal input from the second sound collecting device;
Based on the first input spectrum obtained by the first frequency analysis means and the second input spectrum obtained by the second frequency analysis means, the position of the first sound collecting device and the second input spectrum are obtained. The front direction and the direction on the first sound collection device side are set larger than the front direction perpendicular to the straight line connecting the positions of the sound collection devices, and the value on the direction on the second sound collection device side. A feature amount calculating means for calculating a first feature amount that takes a small value;
Filter determining means for mapping the first feature quantity calculated by the feature quantity calculating means with a predetermined broad-sense monotone increasing function to obtain an enhancement filter;
A signal processing apparatus comprising: multiplication means for obtaining an enhanced spectrum by multiplying the first input spectrum obtained by the first frequency analyzing means by the enhancement filter obtained by the filter determining means.
前記第1の特徴量は、前記第1の収音装置の位置と前記第2の収音装置の位置を結んだ直線と垂直をなす正面方向に対して前記第1の収音装置の側の方向にピークが存在し、前記ピークの方向から前記第2の収音装置側に方向が傾くほど値が小さくなることを特徴とする請求項1に記載の信号処理装置。   The first feature amount is located on a side of the first sound collecting device with respect to a front direction perpendicular to a straight line connecting the position of the first sound collecting device and the position of the second sound collecting device. The signal processing apparatus according to claim 1, wherein a peak is present in a direction, and the value decreases as the direction inclines from the peak direction toward the second sound collector. 前記特徴量算出手段は、正面方向に対して大きな値となる第2の特徴量と、正面方向よりも前記第2の収音装置の側の方向に対して大きな値となる第3の特徴量を用いて、前記第1の特徴量を算出することを特徴とする請求項1又は2に記載の信号処理装置。   The feature quantity calculation means includes a second feature quantity that has a large value with respect to the front direction, and a third feature quantity that has a greater value with respect to the direction of the second sound collecting device than the front direction. The signal processing apparatus according to claim 1, wherein the first feature amount is calculated using a signal. 前記フィルタ決定手段は、周波数ごとに異なる広義単調増加関数を用いて前記第1の特徴量を写像し、周波数ごとに前記強調フィルタを得ることを特徴とする請求項1〜3のいずれかに記載の信号処理装置。   The said filter determination means maps the said 1st feature-value using the broad-sense monotone increasing function which changes for every frequency, The said emphasis filter is obtained for every frequency, The Claim 1 characterized by the above-mentioned. Signal processing equipment. 前記フィルタ決定手段は、周波数ごとの前記強調フィルタにおいて、抑圧しない到来方向の範囲を一致させるように、各周波数の広義単調増加関数を設定することを特徴とする請求項4に記載の信号処理装置。   5. The signal processing apparatus according to claim 4, wherein the filter determination unit sets a broadly monotonically increasing function of each frequency so that the range of arrival directions not to be suppressed matches in the enhancement filter for each frequency. . 前記フィルタ決定手段は、所定の周波数以下の低周波数帯の前記強調フィルタにおいて、前記所定の周波数より高い高周波数帯と比較して抑圧しない到来方向の範囲を広くする広義単調増加関数を設定することを特徴とする請求項4に記載の信号処理装置。   The filter determination means sets a broadly monotonically increasing function that widens the range of arrival directions that are not suppressed in the enhancement filter in a low frequency band below a predetermined frequency compared to a high frequency band higher than the predetermined frequency. The signal processing device according to claim 4. 前記フィルタ決定手段は、前記低周波数帯の前記強調フィルタにおいて、前記高周波数帯よりも、抑圧しない到来方向の範囲を前記第2の収音装置側に広くする広義単調増加関数を設定することを特徴とする請求項6に記載の信号処理装置。   The filter determination means sets a broadly monotonically increasing function that widens the range of the arrival direction that is not suppressed in the enhancement filter in the low frequency band toward the second sound collecting device side than in the high frequency band. The signal processing apparatus according to claim 6, characterized in that: 前記フィルタ決定手段は、前記第1の特徴量を用いて、正面方向のみを強調する強調フィルタを得る広義単調増加関数を設定することを特徴とする請求項1〜3のいずれかに記載の信号処理装置。   4. The signal according to claim 1, wherein the filter determination unit sets a broadly monotonically increasing function that obtains an enhancement filter that emphasizes only the front direction using the first feature amount. 5. Processing equipment. コンピュータを、
第1の収音装置から入力された第1の入力信号を周波数解析して第1の入力スペクトルを得る第1の周波数解析手段と、
第2の収音装置から入力された第2の入力信号を周波数解析して第2の入力スペクトルを得る第2の周波数解析手段と、
前記第1の周波数解析手段で得られた第1の入力スペクトルと前記第2の周波数解析手段で得られた第2の入力スペクトルに基づき、前記第1の収音装置の位置と前記第2の収音装置の位置を結んだ直線と垂直をなす正面方向に対して、正面方向及び前記第1の収音装置側の方向の値を大きくとり、前記第2の収音装置側の方向の値を小さくとる第1の特徴量を算出する特徴量算出手段と、
前記特徴量算出手段で算出された前記第1の特徴量を、所定の広義単調増加関数で写像して強調フィルタを得るフィルタ決定手段と、
前記第1の周波数解析手段で得られた第1の入力スペクトルに前記フィルタ決定手段で得られた強調フィルタを乗じて強調スペクトルを得る乗算手段と、
前記乗算手段で得られた強調スペクトルを入力して信号波形を復元して強調音声を得る波形復元手段と
して機能させることを特徴とする信号処理プログラム。
Computer
First frequency analysis means for obtaining a first input spectrum by performing frequency analysis on the first input signal input from the first sound collection device;
Second frequency analysis means for obtaining a second input spectrum by performing frequency analysis on the second input signal input from the second sound collecting device;
Based on the first input spectrum obtained by the first frequency analysis means and the second input spectrum obtained by the second frequency analysis means, the position of the first sound collecting device and the second input spectrum are obtained. The front direction and the direction on the first sound collection device side are set larger than the front direction perpendicular to the straight line connecting the positions of the sound collection devices, and the value on the direction on the second sound collection device side. A feature amount calculating means for calculating a first feature amount that takes a small value;
Filter determining means for mapping the first feature quantity calculated by the feature quantity calculating means with a predetermined broad-sense monotone increasing function to obtain an enhancement filter;
Multiplying means for multiplying the first input spectrum obtained by the first frequency analyzing means by the enhancement filter obtained by the filter determining means to obtain an enhanced spectrum;
A signal processing program that functions as a waveform restoration unit that receives an enhanced spectrum obtained by the multiplication unit and restores a signal waveform to obtain enhanced speech.
信号処理方法において、
第1の周波数解析手段、第2の周波数解析手段、特徴量算出手段、フィルタ決定手段、及び乗算手段を有し、
前記第1の周波数解析手段は、第1の収音装置から入力された第1の入力信号を周波数解析して第1の入力スペクトルを得て、
前記第2の周波数解析手段は、第2の収音装置から入力された第2の入力信号を周波数解析して第2の入力スペクトルを得て、
前記特徴量算出手段は、前記第1の周波数解析手段で得られた第1の入力スペクトルと前記第2の周波数解析手段で得られた第2の入力スペクトルに基づき、前記第1の収音装置の位置と前記第2の収音装置の位置を結んだ直線と垂直をなす正面方向に対して、正面方向及び前記第1の収音装置側の方向の値を大きくとり、前記第2の収音装置側の方向の値を小さくとる第1の特徴量を算出し、
前記フィルタ決定手段は、前記特徴量算出手段で算出された前記第1の特徴量を、所定の広義単調増加関数で写像して強調フィルタを得て、
前記乗算手段は、前記第1の周波数解析手段で得られた第1の入力スペクトルに前記フィルタ決定手段で得られた強調フィルタを乗じて強調スペクトルを得る
ことを特徴とする信号処理方法。
In the signal processing method,
A first frequency analysis unit, a second frequency analysis unit, a feature amount calculation unit, a filter determination unit, and a multiplication unit;
The first frequency analysis means obtains a first input spectrum by performing frequency analysis on the first input signal input from the first sound collection device,
The second frequency analysis means obtains a second input spectrum by performing frequency analysis on the second input signal input from the second sound collection device,
The feature amount calculating means is based on the first input spectrum obtained by the first frequency analyzing means and the second input spectrum obtained by the second frequency analyzing means. With respect to the front direction perpendicular to the straight line connecting the position of the second sound collecting device and the position of the second sound collecting device, the values in the front direction and the direction on the first sound collecting device side are set larger. Calculating a first feature value that takes a smaller value in the direction of the sound device;
The filter determination unit maps the first feature amount calculated by the feature amount calculation unit with a predetermined broad monotone increasing function to obtain an enhancement filter,
The signal processing method, wherein the multiplication means obtains an enhanced spectrum by multiplying the first input spectrum obtained by the first frequency analysis means by the enhancement filter obtained by the filter determination means.
JP2017032567A 2017-02-23 2017-02-23 Signal processing equipment, programs and methods Active JP6772890B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017032567A JP6772890B2 (en) 2017-02-23 2017-02-23 Signal processing equipment, programs and methods

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017032567A JP6772890B2 (en) 2017-02-23 2017-02-23 Signal processing equipment, programs and methods

Publications (2)

Publication Number Publication Date
JP2018136509A true JP2018136509A (en) 2018-08-30
JP6772890B2 JP6772890B2 (en) 2020-10-21

Family

ID=63366854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017032567A Active JP6772890B2 (en) 2017-02-23 2017-02-23 Signal processing equipment, programs and methods

Country Status (1)

Country Link
JP (1) JP6772890B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021124537A1 (en) * 2019-12-20 2021-06-24

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021124537A1 (en) * 2019-12-20 2021-06-24
WO2021124537A1 (en) * 2019-12-20 2021-06-24 三菱電機株式会社 Information processing device, calculation method, and calculation program
JP7004875B2 (en) 2019-12-20 2022-01-21 三菱電機株式会社 Information processing equipment, calculation method, and calculation program

Also Published As

Publication number Publication date
JP6772890B2 (en) 2020-10-21

Similar Documents

Publication Publication Date Title
JP6780644B2 (en) Signal processing equipment, signal processing methods, and signal processing programs
JP4195267B2 (en) Speech recognition apparatus, speech recognition method and program thereof
JP4986248B2 (en) Sound source separation apparatus, method and program
JP5493850B2 (en) Signal processing apparatus, microphone array apparatus, signal processing method, and signal processing program
US7991166B2 (en) Microphone apparatus
JP2008311866A (en) Acoustic signal processing method and apparatus
JP6225245B2 (en) Signal processing apparatus, method and program
JP5338259B2 (en) Signal processing apparatus, signal processing method, and signal processing program
JP2014026115A (en) Sound signal processing device, sound signal processing method and sound signal processing program
JP6226301B2 (en) Directional microphone device, acoustic signal processing method and program
JP2007336232A (en) Specific direction sound collection device, specific direction sound collection program, and recording medium
JP2010124370A (en) Signal processing device, signal processing method, and signal processing program
JP2018170717A (en) Sound pickup device, program, and method
JP6772890B2 (en) Signal processing equipment, programs and methods
US11482239B2 (en) Joint source localization and separation method for acoustic sources
Zhang et al. Selective frequency invariant uniform circular broadband beamformer
JP5635024B2 (en) Acoustic signal emphasizing device, perspective determination device, method and program thereof
JP6260666B1 (en) Sound collecting apparatus, program and method
JP6241520B1 (en) Sound collecting apparatus, program and method
JP2016163135A (en) Sound collection device, program and method
JP2016131343A (en) Sound collection device, method and program
JP6863004B2 (en) Sound collectors, programs and methods
JP2017181761A (en) Signal processing device and program, and gain processing device and program
JP5713933B2 (en) Sound source distance measuring device, acoustic direct ratio estimating device, noise removing device, method and program thereof
JP7004875B2 (en) Information processing equipment, calculation method, and calculation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200914

R150 Certificate of patent or registration of utility model

Ref document number: 6772890

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150