JP6096437B2 - Audio processing device - Google Patents
Audio processing device Download PDFInfo
- Publication number
- JP6096437B2 JP6096437B2 JP2012186269A JP2012186269A JP6096437B2 JP 6096437 B2 JP6096437 B2 JP 6096437B2 JP 2012186269 A JP2012186269 A JP 2012186269A JP 2012186269 A JP2012186269 A JP 2012186269A JP 6096437 B2 JP6096437 B2 JP 6096437B2
- Authority
- JP
- Japan
- Prior art keywords
- audio
- phase difference
- audio signals
- threshold value
- phase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
この発明は、音声処理装置に関し、特に並列的に取得された複数の音声信号のゲインを調整する、音声処理装置に関する。 The present invention relates to an audio processing device, and more particularly to an audio processing device that adjusts gains of a plurality of audio signals acquired in parallel.
この種の装置の一例が、特許文献1に開示されている。この背景技術によれば、一方のマイクロフォンによって捉えられた音声信号は、アンプおよび第1LPFを介して第1検波器に入力される。また、他方のマイクロフォンによって捉えられた音声信号は、可変利得アンプおよび第2LPFを介して第2検波器に入力される。第1検波器の出力および第2検波器の出力は比較器によって互いに比較され、可変利得アンプの増幅率は比較結果に基づいて調整される。これによって、マイクロフォンの感度のばらつきを抑制することができる。
An example of this type of device is disclosed in
しかし、背景技術では、マイクロフォンへの音声信号の入射角によって可変利得アンプの増幅率が調整されることはなく、各マイクロフォンによって捉えられた音声信号間の位相のばらつきが抑制されることもない。このため、背景技術では、調整後の音声信号の品質に限界がある。 However, in the background art, the amplification factor of the variable gain amplifier is not adjusted by the incident angle of the audio signal to the microphone, and the phase variation between the audio signals captured by each microphone is not suppressed. For this reason, in the background art, the quality of the audio signal after adjustment is limited.
それゆえに、この発明の主たる目的は、音声信号の品質を高めることができる、音声処理装置を提供することである。 Therefore, a main object of the present invention is to provide an audio processing apparatus capable of improving the quality of an audio signal.
この発明に従う音声処理装置(10:実施例で相当する参照符号。以下同じ)は、並列的に取得されたM個(M:2以上の整数)の音声信号の各々をN個(N:2以上の整数)の周波数にそれぞれ対応するN個の信号成分に分類する分類手段(54, S1~S5, S13~S15)、分類手段の出力を参照してN個の周波数の各々に対応するM個の信号成分の間の位相差を検出する検出手段(S7~S11)、検出手段によって検出されたN個の位相差の中から第1閾値(TH1)を下回る位相差を特定する第1特定手段(S19)、および第1特定手段によって特定された位相差を定義するM個の信号成分の間のレベル差が抑制されるようにM個の音声信号の振幅を調整する第1調整手段(50, S23~S25, S33~S37)を備える。 The speech processing apparatus according to the present invention (10: reference numerals corresponding to the embodiments; the same applies hereinafter) receives N (N: 2 integers) of M speech signals (M: an integer of 2 or more) acquired in parallel. Classification means (54, S1 to S5, S13 to S15) for classifying into N signal components respectively corresponding to the frequencies of the above integers), and M corresponding to each of the N frequencies with reference to the output of the classification means Detecting means (S7 to S11) for detecting a phase difference between the signal components, and a first specifying for specifying a phase difference lower than the first threshold (TH1) among the N phase differences detected by the detecting means. Means (S19), and first adjustment means for adjusting the amplitudes of the M audio signals so that the level difference between the M signal components defining the phase difference specified by the first specifying means is suppressed ( 50, S23 to S25, S33 to S37).
好ましくは、第1閾値はM個の音声信号をそれぞれ取得するM個のマイクロフォン(34L, 34R)の間の距離とM個の音声信号の許容入射角の上限とに基づく値を示す。 Preferably, the first threshold value is a value based on a distance between M microphones (34L, 34R) that respectively acquire M sound signals and an upper limit of an allowable incident angle of the M sound signals.
好ましくは、検出手段によって検出されたN個の位相差の中から第2閾値(TH2)以上の値を示す位相差を特定する第2特定手段(S21, S27)、および第2特定手段によって特定された位相差が抑制されるようにM個の音声信号の遅延量を調整する第2調整手段(52, S39~S41)がさらに備えられる。 Preferably, the second specifying means (S21, S27) for specifying a phase difference indicating a value equal to or greater than the second threshold (TH2) from the N phase differences detected by the detecting means, and the second specifying means Second adjustment means (52, S39 to S41) for adjusting the delay amount of the M audio signals so as to suppress the phase difference is further provided.
さらに好ましくは、第2閾値はM個の音声信号をそれぞれ取得するM個のマイクロフォン(34L, 34R)の間の距離に基づく値を示す。 More preferably, the second threshold value indicates a value based on a distance between M microphones (34L, 34R) that respectively acquire M audio signals.
好ましくは、分類手段はM個(M:2以上の整数)の音声信号の各々をフーリエ変換する変換手段(54)を含む。 Preferably, the classification means includes conversion means (54) for Fourier transforming each of M (M: an integer of 2 or more) audio signals.
この発明に従う音声処理装置(10)は、並列的に取得されたM個(M:2以上の整数)の音声信号の各々をN個(N:2以上の整数)の周波数にそれぞれ対応するN個の信号成分に分類する分類手段(54, S1~S5, S13~S15)、分類手段の出力を参照してN個の周波数の各々に対応するM個の信号成分の間の位相差を検出する検出手段(S7~S11)、検出手段によって検出されたN個の位相差の中から閾値(TH2)以上の値を示す位相差を特定する特定手段(S21, S27)、および特定手段によって特定された位相差が抑制されるようにM個の音声信号の遅延量を調整する調整手段(52, S39~S41)を備える。 An audio processing apparatus (10) according to the present invention has N (M: integer greater than or equal to 2) audio signals acquired in parallel, each of which corresponds to N (N: integer greater than or equal to 2) frequencies. Classification means (54, S1 to S5, S13 to S15) for classifying into signal components, and detecting the phase difference between M signal components corresponding to each of N frequencies with reference to the output of the classification means Detecting means (S7 to S11), specifying means (S21, S27) for specifying a phase difference indicating a value equal to or greater than a threshold value (TH2) among N phase differences detected by the detecting means, and specifying by the specifying means Adjusting means (52, S39 to S41) for adjusting the delay amount of the M audio signals so as to suppress the phase difference.
この発明に従う音声処理装置(10)は、並列的に取得された複数の音声信号の相対位相差情報を検出する検出手段(S1~S15)、部品ばらつきによって生じる複数の音声信号の間の振幅・位相ずれを検出手段によって検出された相対位相差情報に基づいて判別する判別手段(S17~S21, S29~S31)、複数の音声信号の振幅および位相を補正する補正手段(50, 52)、および判別手段の判別結果に基づいて補正手段の補正量を調整する調整手段(S23~S27, S33~S41)を備える。 The sound processing device (10) according to the present invention is a detection means (S1 to S15) for detecting relative phase difference information of a plurality of sound signals acquired in parallel, the amplitude between the plurality of sound signals caused by component variations, Discriminating means (S17 to S21, S29 to S31) for discriminating the phase shift based on the relative phase difference information detected by the detecting means, correcting means (50, 52) for correcting the amplitude and phase of a plurality of audio signals, and Adjustment means (S23 to S27, S33 to S41) for adjusting the correction amount of the correction means based on the determination result of the determination means is provided.
この発明に従う音声処理プログラムは、音声処理装置(10)のプロセッサ(56)に、並列的に取得されたM個(M:2以上の整数)の音声信号の各々をN個(N:2以上の整数)の周波数にそれぞれ対応するN個の信号成分に分類する分類ステップ(S1~S5, S13~S15)、分類ステップの出力を参照してN個の周波数の各々に対応するM個の信号成分の間の位相差を検出する検出ステップ(S7~S11)、検出ステップによって検出されたN個の位相差の中から閾値(TH1)を下回る位相差を特定する特定ステップ(S19)、および特定ステップによって特定された位相差を定義するM個の信号成分の間のレベル差が抑制されるようにM個の音声信号の振幅を調整する調整ステップ(50, S23~S25, S33~S37)を実行させるための、音声処理プログラムである。 The audio processing program according to the present invention is configured such that the processor (56) of the audio processing device (10) receives N (N: 2 or more) each of M (M: integer of 2 or more) audio signals acquired in parallel. Classification step (S1 to S5, S13 to S15) for classifying into N signal components respectively corresponding to frequencies of M), and M signals corresponding to each of the N frequencies with reference to the output of the classification step A detection step (S7 to S11) for detecting a phase difference between components, a specification step (S19) for specifying a phase difference below a threshold (TH1) among N phase differences detected by the detection step, and a specification An adjustment step (50, S23 to S25, S33 to S37) for adjusting the amplitude of the M audio signals so that the level difference between the M signal components defining the phase difference identified by the step is suppressed. This is a voice processing program for execution.
この発明に従う音声処理方法は、音声処理装置(10)のプロセッサ(56)によって実行される音声処理方法であって、並列的に取得されたM個(M:2以上の整数)の音声信号の各々をN個(N:2以上の整数)の周波数にそれぞれ対応するN個の信号成分に分類する分類ステップ(S1~S5, S13~S15)、分類ステップの出力を参照してN個の周波数の各々に対応するM個の信号成分の間の位相差を検出する検出ステップ(S7~S11)、検出ステップによって検出されたN個の位相差の中から閾値(TH1)を下回る位相差を特定する特定ステップ(S19)、および特定ステップによって特定された位相差を定義するM個の信号成分の間のレベル差が抑制されるようにM個の音声信号の振幅を調整する調整ステップ(50, S23~S25, S33~S37)を備える。 The audio processing method according to the present invention is an audio processing method executed by the processor (56) of the audio processing device (10), and is an M (M: integer of 2 or more) audio signals acquired in parallel. Classification steps (S1 to S5, S13 to S15) for classifying each of the signals into N signal components corresponding to N (N: an integer of 2 or more) frequencies, and N frequencies with reference to the output of the classification step Detection step (S7 to S11) for detecting the phase difference between M signal components corresponding to each of the above, and the phase difference below the threshold (TH1) is identified from the N phase differences detected by the detection step A specific step (S19), and an adjusting step (50,) for adjusting the amplitude of the M audio signals so that a level difference between the M signal components defining the phase difference specified by the specific step is suppressed. S23 to S25, S33 to S37).
この発明に従う音声処理プログラムは、音声処理装置(10)のプロセッサ(56)に、並列的に取得されたM個(M:2以上の整数)の音声信号の各々をN個(N:2以上の整数)の周波数にそれぞれ対応するN個の信号成分に分類する分類ステップ(54, S1~S5, S13~S15)、分類ステップの出力を参照してN個の周波数の各々に対応するM個の信号成分の間の位相差を検出する検出ステップ(S7~S11)、検出ステップによって検出されたN個の位相差の中から閾値(TH2)以上の値を示す位相差を特定する特定ステップ(S21, S27)、および特定ステップによって特定された位相差が抑制されるようにM個の音声信号の遅延量を調整する調整ステップ(52, S39~S41)を実行させるための、音声処理プログラムである。 The audio processing program according to the present invention is configured such that the processor (56) of the audio processing device (10) receives N (N: 2 or more) each of M (M: integer of 2 or more) audio signals acquired in parallel. Classification step (54, S1 to S5, S13 to S15) for classifying into N signal components respectively corresponding to frequencies of M), and M corresponding to each of the N frequencies with reference to the output of the classification step Detection step (S7 to S11) for detecting a phase difference between the signal components of the signal, and a specifying step for specifying a phase difference indicating a value equal to or greater than a threshold value (TH2) among the N phase differences detected by the detection step ( S21, S27), and an audio processing program for executing an adjustment step (52, S39 to S41) for adjusting the delay amount of the M audio signals so that the phase difference specified by the specific step is suppressed is there.
この発明に従う音声処理方法は、音声処理装置(10)のプロセッサ(56)によって実行される音声処理方法であって、並列的に取得されたM個(M:2以上の整数)の音声信号の各々をN個(N:2以上の整数)の周波数にそれぞれ対応するN個の信号成分に分類する分類ステップ(54, S1~S5, S13~S15)、分類ステップの出力を参照してN個の周波数の各々に対応するM個の信号成分の間の位相差を検出する検出ステップ(S7~S11)、検出ステップによって検出されたN個の位相差の中から閾値(TH2)以上の値を示す位相差を特定する特定ステップ(S21, S27)、および特定ステップによって特定された位相差が抑制されるようにM個の音声信号の遅延量を調整する調整ステップ(52, S39~S41)を備える。 The audio processing method according to the present invention is an audio processing method executed by the processor (56) of the audio processing device (10), and is an M (M: integer of 2 or more) audio signals acquired in parallel. Classification step (54, S1 to S5, S13 to S15) for classifying each signal into N signal components corresponding to N (N: integer greater than or equal to 2) frequencies, N with reference to the output of the classification step A detection step (S7 to S11) for detecting a phase difference between M signal components corresponding to each of the frequencies, and a value equal to or greater than a threshold (TH2) among the N phase differences detected by the detection step. A specific step (S21, S27) for identifying the phase difference shown, and an adjustment step (52, S39 to S41) for adjusting the delay amount of the M audio signals so that the phase difference identified by the specific step is suppressed. Prepare.
M個の音声信号の振幅は、第1閾値を下回る位相差を定義するM個の信号成分の間のレベル差が抑制されるように調整される。つまり、第1閾値に相当する角度を下回る角度で入射された音声成分のレベル差が抑制される。これによって、音声信号の品質が向上する。 The amplitudes of the M audio signals are adjusted so that the level difference between the M signal components defining the phase difference below the first threshold is suppressed. That is, the level difference between the sound components incident at an angle lower than the angle corresponding to the first threshold is suppressed. This improves the quality of the audio signal.
M個の音声信号の位相は、閾値以上の位相差が抑制されるように調整される。つまり、閾値をマイク間隔から決まる理論上の最大閾値とすることで、品質バラツキの影響で生じた最大位相差を上回る位相差を抑制する。この抑制処理を繰り返すことにより、どの方向から到来した音に対しても位相差が最大閾値以内に収まるようになる。この結果、品質バラツキによる遅延が補正され、音声信号の品質が向上する。 The phases of the M audio signals are adjusted so that a phase difference equal to or greater than a threshold value is suppressed. That is, by setting the threshold value as the theoretical maximum threshold value determined from the microphone interval, a phase difference exceeding the maximum phase difference caused by quality variation is suppressed. By repeating this suppression processing, the phase difference falls within the maximum threshold value for sound coming from any direction. As a result, the delay due to the quality variation is corrected, and the quality of the audio signal is improved.
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。 The above object, other objects, features and advantages of the present invention will become more apparent from the following detailed description of embodiments with reference to the drawings.
以下、この発明の実施の形態を図面を参照しながら説明する。
[基本的構成1]
Embodiments of the present invention will be described below with reference to the drawings.
[Basic configuration 1]
図1(A)を参照して、この実施例の音声処理装置は、基本的に次のように構成される。分類手段1aは、並列的に取得されたM個(M:2以上の整数)の音声信号の各々をN個(N:2以上の整数)の周波数にそれぞれ対応するN個の信号成分に分類する。検出手段2aは、分類手段1aの出力を参照してN個の周波数の各々に対応するM個の信号成分の間の位相差を検出する。第1特定手段3aは、検出手段2aによって検出されたN個の位相差の中から第1閾値を下回る位相差を特定する。第1調整手段4aは、第1特定手段3aによって特定された位相差を定義するM個の信号成分の間のレベル差が抑制されるようにM個の音声信号の振幅を調整する。
Referring to FIG. 1A, the sound processing apparatus of this embodiment is basically configured as follows. The classifying means 1a classifies each of M (M: integer greater than or equal to 2) audio signals acquired in parallel into N signal components respectively corresponding to N (N: integer greater than or equal to 2) frequencies. To do. The detection means 2a refers to the output of the classification means 1a and detects the phase difference between the M signal components corresponding to each of the N frequencies. The first
M個の音声信号の振幅は、第1閾値を下回る位相差を定義するM個の信号成分の間のレベル差が抑制されるように調整される。つまり、第1閾値に相当する角度を下回る角度で入射された音声成分のレベル差が抑制されるように、M個の音声信号の全域の振幅が調整される。これによって、マイク感度のバラツキが補正され、音声信号の品質が向上する。
[基本的構成2]
The amplitudes of the M audio signals are adjusted so that the level difference between the M signal components defining the phase difference below the first threshold is suppressed. That is, the amplitude of the entire area of the M audio signals is adjusted so that the level difference between the audio components incident at an angle lower than the angle corresponding to the first threshold is suppressed. As a result, variations in microphone sensitivity are corrected, and the quality of the audio signal is improved.
[Basic configuration 2]
図1(B)を参照して、他の実施例の音声処理装置は、基本的に次のように構成される。分類手段1bは、並列的に取得されたM個(M:2以上の整数)の音声信号の各々をN個(N:2以上の整数)の周波数にそれぞれ対応するN個の信号成分に分類する。検出手段2bは、分類手段1bの出力を参照してN個の周波数の各々に対応するM個の信号成分の間の位相差を検出する。特定手段3bは、検出手段2bによって検出されたN個の位相差の中から閾値以上の値を示す位相差を特定する。調整手段4bは、特定手段3bによって特定された位相差が抑制されるようにM個の音声信号の遅延量を調整する。
With reference to FIG. 1 (B), the speech processing apparatus of another Example is fundamentally comprised as follows. The classifying means 1b classifies each of M (M: integer greater than or equal to 2) audio signals acquired in parallel into N signal components respectively corresponding to N (N: integer greater than or equal to 2) frequencies. To do. The detection means 2b refers to the output of the classification means 1b and detects the phase difference between the M signal components corresponding to each of the N frequencies. The specifying
M個の音声信号の位相は、閾値以上の位相差が抑制されるように調整される。つまり、閾値をマイク間隔から決まる理論上の最大閾値とすることで、品質バラツキの影響で生じた最大位相差を上回る位相差を抑制する。この抑制処理を繰り返すことにより、どの方向から到来した音に対しても位相差が最大閾値以内に収まるようになる。この結果、品質バラツキによる遅延が補正され、音声信号の品質が向上する。
[実施例]
The phases of the M audio signals are adjusted so that a phase difference equal to or greater than a threshold value is suppressed. That is, by setting the threshold value as the theoretical maximum threshold value determined from the microphone interval, a phase difference exceeding the maximum phase difference caused by quality variation is suppressed. By repeating this suppression processing, the phase difference falls within the maximum threshold value for sound coming from any direction. As a result, the delay due to the quality variation is corrected, and the quality of the audio signal is improved.
[Example]
図2を参照して、この実施例のディジタルカメラ10は、ドライバ18aおよび18bによってそれぞれ駆動されるフォーカスレンズ12および絞りユニット14を含む。これらの部材を経た光学像は、イメージャ16の撮像面に照射され、光電変換を施される。
Referring to FIG. 2, the
電源が投入されると、CPU30は、動画取り込み処理を実行するべく、ドライバ18cに露光動作および電荷読み出し動作の繰り返しを命令する。ドライバ18cは、周期的に発生する垂直同期信号Vsyncに応答して、イメージャ16の撮像面を露光し、かつ撮像面で生成された電荷をラスタ走査態様で読み出す。イメージャ16からは、読み出された電荷に基づく生画像データが周期的に出力される。
When the power is turned on, the
カメラ処理回路20は、イメージャ16から出力された生画像データに白バランス調整,色分離,YUV変換などの処理を施す。これによって生成されたYUV形式の画像データは、メモリ制御回路22を通してSDRAM24のYUV画像エリア24aに書き込まれる。LCDドライバ26は、YUV画像エリア24aに格納された画像データをメモリ制御回路22を通して繰り返し読み出し、読み出された画像データに基づいてLCDモニタ28を駆動する。この結果、撮像面で捉えられたシーンを表すリアルタイム動画像(スルー画像)がモニタ画面に表示される。
The
カメラ処理回路20はまた、YUV変換によって生成されたYデータをCPU30に与える。CPU30は、与えられたYデータにAE処理を施して適正EV値を算出し、算出された適正EV値を定義する絞り量および露光時間をドライバ18bおよび18cにそれぞれ設定する。これによって、スルー画像の明るさが確保される。CPU30はまた、前処理回路20から与えられたYデータの高周波成分を参照してAF処理を継続的に実行する。これによってフォーカスレンズ12が合焦点近傍に継続的に配置され、スルー画像の鮮鋭度が確保される。
The
キー入力装置32に設けられたムービボタン32mvが操作されると、CPU30は、音声処理回路36およびメモリI/F38を起動する。音声処理回路36は、マイクロフォン34Lおよび34Rからそれぞれ出力されたLチャネルの音声データおよびRチャネルの音声データに後述する音声処理を施す。処理を施されたLチャネルの音声データおよびRチャネルの音声データは、メモリ制御回路22を介してSRAM24の音声エリア24bに書き込まれる。
When the movie button 32mv provided on the
メモリI/F38は、新規の画像ファイルを着脱自在の記録媒体38に作成し(作成した画像ファイルはオープンされる)、YUV画像エリア24aに格納された画像データおよび音声エリア24bに格納された2チャネルの音声データをメモリ制御回路22を通して繰り返し読み出し、そして読み出された画像データおよび音声データをオープン状態の画像ファイルに収める。
The memory I /
ムービボタン34mvが再度操作されると、CPU30は、音声処理回路36およびメモリI/F38を停止する。メモリI/F38は、YUV画像エリア24aおよび音声エリア24bからのデータ読み出しを終了し、オープン状態の画像ファイルをクローズする。これによって、撮像シーンを継続的に表す動画像と撮像シーン周辺の音声とがファイル形式で記録媒体40に記録される。
When the movie button 34mv is operated again, the
音声処理回路36は、図3に示すように構成される。Lチャネルの音声データおよびRチャネルの音声データはそれぞれ、振幅補正系50を形成する振幅補正回路50Lおよび50Rに入力される。振幅補正回路50Lおよび50Rの各々は、入力された音声データの振幅を制御回路56の設定に従って補正し、補正後の音声データを遅延補正系52に与える。Lチャネルの音声データは遅延補正回路52Lに入力され、Rチャネルの音声データは遅延補正回路52Rに入力される。遅延補正回路52Lおよび52Rの各々は、入力された音声データを制御回路56の設定に従って遅延させ、遅延後の音声データをメモリ制御回路22に向けて出力する。
The
遅延補正を施されたLチャネルの音声データおよびRチャネルの音声データはまた、FFT(Fast Fourier Transform)解析系52を形成するFFT解析回路54Lおよび54Rにそれぞれ入力される。FFT解析回路54Lおよび54Rの各々は、入力された音声データにフーリエ変換を施し、これによって得られた解析結果つまりNmax個(Nmax:2以上の整数)の周波数成分を制御回路56に与える。
The delay-corrected L-channel sound data and R-channel sound data are also input to
Lチャネルの周波数成分とRチャネルの周波数成分との位相差が1/2周期(=π)以上ずれる周波数については、チャネル間の位相差を的確に判別することができない。このため、Nmax個の周波数成分の各々の周波数は、数1を満足する必要がある。
[数1]
D/V*2πf<π
D:マイクロフォン34Lおよび34Rの間隔
V:音速
f:周波数
For the frequency where the phase difference between the frequency component of the L channel and the frequency component of the R channel is shifted by ½ period (= π) or more, the phase difference between the channels cannot be accurately determined. For this reason, each frequency of the Nmax frequency components needs to satisfy
[Equation 1]
D / V * 2πf <π
D: Distance between
なお、間隔Dを20ミリメートルとし、音速を340m/秒とすると、Nmax個の周波数成分はいずれも8.5kHzを下回る周波数のデータ成分に相当する。 If the interval D is 20 millimeters and the sound speed is 340 m / sec, all Nmax frequency components correspond to data components having a frequency lower than 8.5 kHz.
制御回路56は、こうして与えられた周波数成分に基づいて振幅補正系50および遅延補正系52の設定を制御する。制御回路56は、具体的にはDSP(Digital Signal Processor)であり、図4〜図6に示すフロー図に従う処理を1024サンプル毎に実行する。なお、振幅補正系50および遅延補正系52の設定は、電源投入時に初期化される。また、Lチャネルの音声データおよびRチャネルの音声データはいずれも48kHzのクロック周波数でサンプルされたデータに相当する。
The
図4を参照して、ステップS1ではLチャネルの音声データのFFT解析結果をFFT解析回路54Lから取得し、ステップS3ではRチャネルの音声データのFFT解析結果をFFT解析回路54Rから取得する。取得が完了すると、ステップS5で変数Nを“1”に設定する。
Referring to FIG. 4, in step S1, the FFT analysis result of the L channel audio data is acquired from the
ステップS7ではLチャネルに属するN番目の周波数成分の位相を“Ph_L(N)”として算出し、ステップS9ではRチャネルに属するN番目の周波数成分の位相を“Ph_R(N)”として算出する。位相Ph_L(N)は数2に従って算出され、位相Ph_R(N)は数3に従って算出される。
[数2]
Ph_L(N)=atan(real(f_N_L)/imag(f_N_L))
atan:アークタンジェント
real(f_N_L):Lチャネルに属するN番目の周波数成分の実部
imag(f_N_L):Lチャネルに属するN番目の周波数成分の嘘部
[数3]
Ph_L(R)=atan(real(f_N_R)/imag(f_N_R))
real(f_N_R):Rチャネルに属するN番目の周波数成分の実部
imag(f_N_R):Rチャネルに属するN番目の周波数成分の嘘部
In step S7, the phase of the Nth frequency component belonging to the L channel is calculated as “Ph_L (N)”, and in step S9, the phase of the Nth frequency component belonging to the R channel is calculated as “Ph_R (N)”. The phase Ph_L (N) is calculated according to Equation 2, and the phase Ph_R (N) is calculated according to Equation 3.
[Equation 2]
Ph_L (N) = atan (real (f_N_L) / image (f_N_L))
atan: arctangent real (f_N_L): real part of the Nth frequency component belonging to the L channel imag (f_N_L): lie part of the Nth frequency component belonging to the L channel [Equation 3]
Ph_L (R) = atan (real (f_N_R) / image (f_N_R))
real (f_N_R): real part of the Nth frequency component belonging to the R channel imag (f_N_R): lie part of the Nth frequency component belonging to the R channel
ステップS11では、こうして算出された位相Ph_L(N)およびPh_R(N)の差分絶対値を“ΔPh(N)”として算出する。ステップS13では、変数Nが最大値Nmaxに達したか否かを判別する。判別結果がNOであればステップS15で変数NをインクリメントしてからステップS7に戻り、判別結果がYESであればステップS17に進む。 In step S11, the difference absolute value of the phases Ph_L (N) and Ph_R (N) calculated in this way is calculated as “ΔPh (N)”. In step S13, it is determined whether or not the variable N has reached the maximum value Nmax. If the determination result is NO, the variable N is incremented in step S15 and then the process returns to step S7. If the determination result is YES, the process proceeds to step S17.
ステップS17では、変数Nを再度“1”に設定する。ステップS19では差分絶対値ΔPh(N)が閾値TH1を下回るか否かを判別し、ステップS21では差分絶対値ΔPh(N)が閾値TH2以上であるか否かを判別する。ここで、閾値TH1は数4に従って算出され、閾値TH2は数5に従って算出される。なお、数4における“85°”は、同振幅で検出することが可能な正面方向からの音声信号とみなせる角度の限界に相当する。数5は、マイクを結ぶ直線の延長線上の方向から到来した場合の位相差を表し、理論上の最大位相差を示す。
[数4]
TH1=D*cos85°/V*2πf
[数5]
TH2=D*cos0°/V*2πf
In step S17, the variable N is set to “1” again. In step S19, it is determined whether or not the difference absolute value ΔPh (N) is less than the threshold value TH1, and in step S21, it is determined whether or not the difference absolute value ΔPh (N) is greater than or equal to the threshold value TH2. Here, the threshold value TH1 is calculated according to Equation 4, and the threshold value TH2 is calculated according to Equation 5. In addition, “85 °” in Equation 4 corresponds to a limit of an angle that can be regarded as an audio signal from the front direction that can be detected with the same amplitude. Equation 5 represents the phase difference when coming from the direction of the extended line of the straight line connecting the microphones, and shows the theoretical maximum phase difference.
[Equation 4]
TH1 = D * cos85 ° / V * 2πf
[Equation 5]
TH2 = D * cos0 ° / V * 2πf
ステップS19の判別結果がYESであれば、Lチャネルに属するN番目の周波数成分のレベルをステップS23で保存し、Rチャネルに属するN番目の周波数成分のレベルをステップS25で保存する。ステップS21の判別結果がYESであれば、ステップS27で差分絶対値ΔPh(N)を保存する。 If the decision result in the step S19 is YES, the level of the Nth frequency component belonging to the L channel is saved in a step S23, and the level of the Nth frequency component belonging to the R channel is saved in a step S25. If the determination result in the step S21 is YES, the difference absolute value ΔPh (N) is stored in a step S27.
ステップS25またはS27の処理が完了するか、或いはステップS19およびS21の判別結果がいずれもNOであれば、変数Nが最大値Nmaxに達したか否かをステップS29で判別する。判別結果がNOであればステップS31で変数NをインクリメントしてからステップS19に戻り、判別結果がYESであればステップS33に進む。 If the processing of step S25 or S27 is completed, or if the determination results of steps S19 and S21 are both NO, it is determined in step S29 whether the variable N has reached the maximum value Nmax. If the determination result is NO, the variable N is incremented in step S31 and then the process returns to step S19. If the determination result is YES, the process proceeds to step S33.
ステップS33では、ステップS23の処理によって保存されたレベルの平均値を“LVav_L”として算出する。ステップS35では、ステップS25の処理によって保存されたレベルの平均値を“LVav_R”として算出する。ステップS37では、算出された平均値LVav_LおよびLVav_Rの差分絶対値が抑制されるように振幅補正回路50Lおよび50Rの設定を調整する。
In step S33, the average value of the levels saved by the process of step S23 is calculated as “LVav_L”. In step S35, the average value of the levels saved by the process of step S25 is calculated as “LVav_R”. In step S37, the settings of the
ステップS39では、ステップS27の処理によって保存された差分絶対値の平均値を“ΔPhav”として算出する。ステップS41では、算出された平均値ΔPhavが抑制されるように、遅延補正回路52Lおよび52Rの設定を調整する。調整が完了すると、注目する1024サンプルに対する処理を終了する。
In step S39, the average value of the absolute differences stored by the process of step S27 is calculated as “ΔPhav”. In step S41, the settings of the
図7に示すように音声信号が前方から入射した場合、或る周波数に属するLチャネルのデータ成分およびRチャネルのデータ成分はそれぞれ図8(A)に示す波形および図8(B)に示す波形を描く。また、図9に示すように音声信号が斜め右前方から入射した場合、或る周波数に属するLチャネルのデータ成分およびRチャネルのデータ成分はそれぞれ図10(A)に示す波形および図10(B)に示す波形を描く。さらに、図11に示すように音声信号が右側から入射した場合、或る周波数に属するLチャネルのデータ成分およびRチャネルのデータ成分はそれぞれ図12(A)に示す波形および図12(B)に示す波形を描く。 When an audio signal is incident from the front as shown in FIG. 7, the L-channel data component and the R-channel data component belonging to a certain frequency are the waveform shown in FIG. 8A and the waveform shown in FIG. 8B, respectively. Draw. Also, as shown in FIG. 9, when the audio signal is incident obliquely from the right front, the L-channel data component and the R-channel data component belonging to a certain frequency have the waveforms shown in FIG. Draw the waveform shown in Further, when the audio signal is incident from the right side as shown in FIG. 11, the L-channel data component and the R-channel data component belonging to a certain frequency are respectively shown in the waveform shown in FIG. 12A and FIG. 12B. Draw the waveform shown.
ここで、図8(B),図10(B)または図12(B)に実線で示す波形は、振幅補正回路50Rの特性が振幅補正回路50Lの特性と一致し、かつ遅延補正回路52Rの特性が遅延補正回路52Lの特性と一致する場合のRチャネルのデータ成分の変化を表す。
Here, in the waveform shown by the solid line in FIG. 8B, FIG. 10B, or FIG. 12B, the characteristic of the
また、図8(B),図10(B)または図12(B)に一点鎖線で示す波形は、振幅補正回路50Rの特性が振幅補正回路50Lの特性と相違し、かつ遅延補正回路52Rの特性が遅延補正回路52Lの特性と一致する場合のRチャネルのデータ成分の変化を表す。
8B, 10B, or 12B, the waveform of the
さらに、図8(B),図10(B)または図12(B)に破線で示す波形は、振幅補正回路50Rの特性が振幅補正回路50Lの特性と一致し、かつ遅延補正回路52Rの特性が遅延補正回路52Lの特性と相違する場合のRチャネルのデータ成分の変化を表す。
8B, 10B, or 12B, the waveform of the
振幅補正回路50Lと振幅補正回路50Rとの間での特性の相違は、部品の性能のばらつきに起因して発生する。遅延補正回路52Lと遅延補正回路52Rとの間での特性の相違も、部品の性能のばらつきに起因して発生する。
Differences in characteristics between the
また、音声信号の入射角が図7,図9および図11の間で相違することから、図10(B)に波形の位相は図8(B)に示す波形の位相よりも進み、図12(B)に波形の位相は図10(B)に示す波形の位相よりも進む。 Further, since the incident angle of the audio signal is different between FIGS. 7, 9 and 11, the phase of the waveform in FIG. 10B is ahead of the phase of the waveform shown in FIG. The phase of the waveform in (B) is ahead of the phase of the waveform shown in FIG.
これを踏まえて、図5に示すステップS19の判別結果は、図7または図9に示す要領で入射された音声信号についてYESを示す一方、図11に示す要領で入射された音声信号についてはNOを示す。これに対して、図5に示すステップS21の判別結果は、図7または図9に示す要領で入射された音声信号についてNOを示す一方、図11に示す要領で入射された音声信号についてはYESを示す。 Based on this, the determination result in step S19 shown in FIG. 5 indicates YES for the sound signal incident as shown in FIG. 7 or FIG. 9, while NO for the sound signal incident as shown in FIG. Indicates. On the other hand, the determination result of step S21 shown in FIG. 5 shows NO for the audio signal incident as shown in FIG. 7 or FIG. 9, while YES for the audio signal entered as shown in FIG. Indicates.
したがって、振幅補正系50の設定は、図8(A)に示す波形のレベルと図8(B)に示す波形のレベルとの相違が抑制されるように調整され、或いは図10(A)に示す波形のレベルと図10(B)に示す波形のレベルとの相違が抑制されるように調整される。これに対して、遅延補正系52の設定は、図12(A)に示す波形の位相と図12(B)に示す波形の位相との相違が抑制されるように調整される。
Therefore, the setting of the
以上の説明から分かるように、制御回路56は、並列的に取得された2チャネルの音声データの各々をNmax(Nmax:2以上の整数)の周波数にそれぞれ対応するNmax個の周波数成分に分類し(S1~S5, S13~S15)、Nmax個の周波数の各々に対応する2つの周波数成分の間の位相差を差分絶対値ΔPh(1)〜ΔPh(Nmax)として検出する(S7~S11)。制御回路56はまた、検出された差分絶対値ΔPh(1)〜ΔPh(Nmax)の中から閾値TH1を下回る差分絶対値を特定し(S19)、特定された差分絶対値を定義する2つの周波数成分の間のレベル差が抑制されるように振幅補正系50の設定を調整する(S23~S25, S33~S37)。ここで、閾値TH1は、マイクロフォン34Lおよび34Rの間の距離と音声の許容入射角の上限とに基づく値を示す。
As can be seen from the above description, the
制御回路56はまた、Nmax個の差分絶対値ΔPh(1)〜ΔPh(Nmax)の中から閾値TH2以上の値を示す差分絶対値を特定し(S21, S27)、特定された差分絶対値に相当する位相差が抑制されるように遅延補正系52の設定を調整する(S39~S41)。ここで、閾値TH2もまた、マイクロフォン34Lおよび34Rの間の距離に基づく値を示す。
The
このように、音声データの振幅は、閾値TH1を下回る差分絶対値を定義する2つの周波数成分の間のレベル差が抑制されるように調整される。換言すれば、閾値TH1に相当する角度を下回る角度で入射された音声成分のレベル差が抑制されるように、M個の音声信号の全域の振幅が調整される。また、音声データの遅延量は、閾値TH2以上の差分絶対値に相当する位相差が抑制されるように調整される。換言すれば、閾値TH2をマイク間隔から決まる理論上の最大閾値とすることで、品質バラツキの影響で生じた最大位相差を上回る位相差を抑制する。この抑制処理を繰り返すことにより、どの方向から到来した音に対しても位相差が最大閾値以内に収まるようになる。この結果、品質バラツキによる遅延が補正され、音声信号の品質が向上する。 As described above, the amplitude of the audio data is adjusted so that the level difference between the two frequency components defining the absolute difference value below the threshold value TH1 is suppressed. In other words, the amplitudes of the entire area of the M audio signals are adjusted so that the level difference between the audio components incident at an angle lower than the angle corresponding to the threshold value TH1 is suppressed. Further, the delay amount of the audio data is adjusted so that the phase difference corresponding to the absolute difference value equal to or greater than the threshold value TH2 is suppressed. In other words, by setting the threshold value TH2 as the theoretical maximum threshold value determined from the microphone interval, a phase difference exceeding the maximum phase difference caused by the quality variation is suppressed. By repeating this suppression processing, the phase difference falls within the maximum threshold value for sound coming from any direction. As a result, the delay due to the quality variation is corrected, and the quality of the audio signal is improved.
なお、この実施例の音声処理回路36は図3に示すように構成されるが、音声処理回路36は図13または図14に示すように構成してもよい。
Although the
図13によれば、FFT解析系54は振幅補正系50の前段に設けられ、逆FFT系58が遅延補正系52の後段に設けられる。Lチャネルの音声データはFFT解析回路54Lを介して振幅補正回路50Lに与えられ、Rチャネルの音声データはFFT解析回路54Rを介して振幅補正回路50Rに与えられる。また、制御回路56は、遅延補正系52の出力に基づいて図4〜図6に示す処理を実行する。さらに、遅延補正回路52Lの出力は逆FFT回路58Lによって音声データに戻された後にメモリ制御回路22に向けて出力され、遅延補正回路52Rの出力は逆FFT回路58Rによって音声データに戻された後にメモリ制御回路22に向けて出力される。
According to FIG. 13, the
図14によれば、振幅補正回路50Lおよび遅延補正回路52Lの代わりに位相・振幅補正フィルタ60Lが設けられ、振幅補正回路50Rおよび遅延補正回路52Rの代わりに位相・振幅補正フィルタ60Rが設けられる。位相・振幅補正フィルタ60Lおよび60Rはいずれも、指向性を制御したり、ステレオ感を強調するための重み付けフィルタに相当する。このとき、図6に示すステップS37およびS41では、重み付けフィルタ60Lおよび60Rの設定が調整される。
According to FIG. 14, a phase /
また、この実施例では、図3に示す制御回路56としてDSPを採用しているが、DSPに代えてCPUを採用するようにしてもよい。この場合、図4〜図6に示す処理に相当する制御プログラムは、図示しないフラッシュメモリに記憶される。
In this embodiment, a DSP is adopted as the
10 …ディジタルカメラ
16 …イメージャ
24 …SDRAM
30 …CPU
36 …音声処理回路
50 …振幅補正系
52 …遅延補正系
54 …FFT解析系
56 …制御回路
10 ...
30 ... CPU
36 ...
Claims (3)
前記分類手段の出力を参照して前記N個の周波数の各々に対応するM個の信号成分の間の位相差を検出する検出手段、
前記検出手段によって検出されたN個の位相差の中から閾値以上の値を示す位相差を特定する特定手段、および
前記特定手段によって特定された位相差が抑制されるように前記M個の音声信号の遅延量を調整する調整手段を備え、
前記閾値は前記M個の音声信号をそれぞれ取得するM個のマイクロフォンの間の距離に基づく値を示す、
音声処理装置。 Classifying means for classifying each of M (M: integer greater than or equal to 2) audio signals acquired in parallel into N signal components respectively corresponding to N (N: integer greater than or equal to 2) frequencies;
Detecting means for detecting a phase difference between M signal components corresponding to each of the N frequencies with reference to an output of the classifying means;
A specifying means for specifying a phase difference indicating a value equal to or greater than a threshold value from among the N phase differences detected by the detecting means; and
Adjusting means for adjusting a delay amount of the M audio signals so that the phase difference specified by the specifying means is suppressed;
The threshold value indicates a value based on a distance between M microphones that respectively acquire the M audio signals.
Audio processing device.
前記特定手段によって特定されたL個の位相差の平均値を算出する算出手段を有し、 Calculating means for calculating an average value of the L phase differences specified by the specifying means;
前記調整手段は、前記算出手段によって算出された位相差の平均値が抑制されるように前記M個の音声信号の遅延量を調整する The adjusting unit adjusts the delay amount of the M audio signals so that the average value of the phase differences calculated by the calculating unit is suppressed.
請求項1記載の音声処理装置。The speech processing apparatus according to claim 1.
請求項1ないし2のいずれかに記載の音声処理装置。The speech processing apparatus according to claim 1.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012186269A JP6096437B2 (en) | 2012-08-27 | 2012-08-27 | Audio processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012186269A JP6096437B2 (en) | 2012-08-27 | 2012-08-27 | Audio processing device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014045317A JP2014045317A (en) | 2014-03-13 |
JP6096437B2 true JP6096437B2 (en) | 2017-03-15 |
Family
ID=50396302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012186269A Expired - Fee Related JP6096437B2 (en) | 2012-08-27 | 2012-08-27 | Audio processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6096437B2 (en) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5070993B2 (en) * | 2007-08-27 | 2012-11-14 | 富士通株式会社 | Sound processing apparatus, phase difference correction method, and computer program |
WO2009078105A1 (en) * | 2007-12-19 | 2009-06-25 | Fujitsu Limited | Noise suppressing device, noise suppression controller, noise suppressing method, and noise suppressing program |
JP5240026B2 (en) * | 2009-04-09 | 2013-07-17 | ヤマハ株式会社 | Device for correcting sensitivity of microphone in microphone array, microphone array system including the device, and program |
JP5493611B2 (en) * | 2009-09-09 | 2014-05-14 | ソニー株式会社 | Information processing apparatus, information processing method, and program |
US8897455B2 (en) * | 2010-02-18 | 2014-11-25 | Qualcomm Incorporated | Microphone array subset selection for robust noise reduction |
-
2012
- 2012-08-27 JP JP2012186269A patent/JP6096437B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014045317A (en) | 2014-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5748422B2 (en) | Electronics | |
US9622012B2 (en) | Audio signal processing apparatus, movie capturing apparatus, and control method for the same | |
US20100302401A1 (en) | Image Audio Processing Apparatus And Image Sensing Apparatus | |
JP5594133B2 (en) | Audio signal processing apparatus, audio signal processing method, and program | |
US9495950B2 (en) | Audio signal processing device, imaging device, audio signal processing method, program, and recording medium | |
US9826134B2 (en) | Imaging apparatus having a microphone and directivity control | |
US20150193191A1 (en) | Audio data synthesizing apparatus | |
JP2008263498A (en) | Wind noise reducing device, sound signal recorder and imaging apparatus | |
KR101760345B1 (en) | Moving image photographing method and moving image photographing apparatus | |
JP6610725B2 (en) | Sound processing apparatus and sound processing program | |
JP2009177782A5 (en) | ||
US9232146B2 (en) | Imaging device with processing to change sound data | |
JP5998483B2 (en) | Audio signal processing apparatus, audio signal processing method, program, and recording medium | |
JP6096437B2 (en) | Audio processing device | |
JP2009130767A (en) | Signal processing apparatus | |
US9160460B2 (en) | Noise cancelling device | |
JP5063489B2 (en) | Judgment device, electronic apparatus including the same, and judgment method | |
JP2014122978A (en) | Imaging device, voice recognition method, and program | |
JP2018006826A (en) | Audio signal processing device and audio signal processing method | |
JP2011205527A (en) | Imaging apparatus, method and program | |
US8600070B2 (en) | Signal processing apparatus and imaging apparatus | |
JP2016127419A (en) | Image correction device, image correction method, and program | |
JP3715722B2 (en) | Automatic focusing apparatus and method | |
JP2014026002A (en) | Sound recording device and program | |
JP2011097335A (en) | Signal processing apparatus and imaging apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150721 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160525 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160629 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160825 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6096437 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |