JP6278294B2 - Audio signal processing apparatus and method - Google Patents

Audio signal processing apparatus and method Download PDF

Info

Publication number
JP6278294B2
JP6278294B2 JP2013048084A JP2013048084A JP6278294B2 JP 6278294 B2 JP6278294 B2 JP 6278294B2 JP 2013048084 A JP2013048084 A JP 2013048084A JP 2013048084 A JP2013048084 A JP 2013048084A JP 6278294 B2 JP6278294 B2 JP 6278294B2
Authority
JP
Japan
Prior art keywords
channel signal
signal
sampling frequency
mismatch
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013048084A
Other languages
Japanese (ja)
Other versions
JP2014174393A (en
Inventor
小野 順貴
順貴 小野
滋樹 宮部
滋樹 宮部
牧野 昭二
昭二 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inter University Research Institute Corp Research Organization of Information and Systems
University of Tsukuba NUC
Original Assignee
Inter University Research Institute Corp Research Organization of Information and Systems
University of Tsukuba NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inter University Research Institute Corp Research Organization of Information and Systems, University of Tsukuba NUC filed Critical Inter University Research Institute Corp Research Organization of Information and Systems
Priority to JP2013048084A priority Critical patent/JP6278294B2/en
Publication of JP2014174393A publication Critical patent/JP2014174393A/en
Application granted granted Critical
Publication of JP6278294B2 publication Critical patent/JP6278294B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、例えば携帯電話やボイスレコーダーなどの複数の録音機器で録音された互いに非同期の複数の音声信号に対して同期補償などの音声信号処理を行う音声信号処理装置及び方法に関する。   The present invention relates to an audio signal processing apparatus and method for performing audio signal processing such as synchronization compensation on a plurality of asynchronous audio signals recorded by a plurality of recording devices such as mobile phones and voice recorders.

非同期マイクロホンアレー(例えば、特許文献1及び非特許文献1参照)は、会議録音の音声強調のために参加者が持ち寄った携帯電話やボイスレコーダーなどの複数の携帯型録音機器の同時録音をn個用いるというもので、専用の大規模な録音装置ではなく一般的な機器による安価で柔軟な構成を行えることが利点である。しかし、マイクロホン素子の配置が未知となることや(例えば、非特許文献2及び3参照)、各チャンネル毎の録音が同期していないために録音開始時刻やサンプリング周波数が一致しないことなど(例えば、非特許文献1、4及び5参照)、通常のマイクロホンアレー信号処理では扱われない問題を解決する必要がある。   Asynchronous microphone arrays (see, for example, Patent Document 1 and Non-Patent Document 1) record n simultaneous recordings of a plurality of portable recording devices such as mobile phones and voice recorders brought by participants for audio enhancement of conference recordings. It is an advantage that an inexpensive and flexible configuration can be achieved by a general device rather than a dedicated large-scale recording device. However, the arrangement of the microphone elements becomes unknown (for example, see Non-Patent Documents 2 and 3), the recording start time and the sampling frequency do not match because the recording for each channel is not synchronized (for example, Non-Patent Documents 1, 4 and 5), and it is necessary to solve a problem that is not handled by normal microphone array signal processing.

特開2007−028391号公報JP 2007-028391 A

Z. Liu, "Sound source separation with distributed microphone arrays in the presence of clock synchronization errors," Proceedings of IWAENC, 2008.Z. Liu, "Sound source separation with distributed microphone arrays in the presence of clock synchronization errors," Proceedings of IWAENC, 2008. N. Ono et al., "Blind alignment of asynchronously recorded signals for distributed microphone array," Proceedings of WASPAA}, pp. 161-164, 2009.N. Ono et al., "Blind alignment of asynchronously recorded signals for distributed microphone array," Proceedings of WASPAA}, pp. 161-164, 2009. K. Hasegawa et al., "Blind estimation of locations and time offsets for distributed recording devices," Proceedings of LVA/ICA, pp. 57-64, 2010.K. Hasegawa et al., "Blind estimation of locations and time offsets for distributed recording devices," Proceedings of LVA / ICA, pp. 57-64, 2010. S. Markovich-Golan et al., "Blind sampling rate offset estimation and compensation in wireless acoustic sensor networks with application to beamforming," Proceedings of IWAENC, 2012.S. Markovich-Golan et al., "Blind sampling rate offset estimation and compensation in wireless acoustic sensor networks with application to beamforming," Proceedings of IWAENC, 2012. E. Robledo-Arnuncio et al., "On dealing with sampling rate mismatches in blind source separation and acoustic echo cancellation," Proceedings of WASPAA, pp. 21-24, 2007.E. Robledo-Arnuncio et al., "On dealing with sampling rate mismatches in blind source separation and acoustic echo cancellation," Proceedings of WASPAA, pp. 21-24, 2007. Shoji Makino et al., "Speech Separation", Springer, 2007.Shoji Makino et al., "Speech Separation", Springer, 2007. N. Ono et al., "Stable and fast update rules for independent vector analysis based on auxiliary function technique," Proceedings of WASPAA}, pp. 189-192, 2011.N. Ono et al., "Stable and fast update rules for independent vector analysis based on auxiliary function technique," Proceedings of WASPAA}, pp. 189-192, 2011. E. Vincent et al., "First stereo audio source separation evaluation campaign: data, algorithms and results," Proceedings of ICA, pp. 552-559, 2007.E. Vincent et al., "First stereo audio source separation evaluation campaign: data, algorithms and results," Proceedings of ICA, pp. 552-559, 2007. O. L. Frost et al., "An algorithm for linearly constrained adaptive array processing," Proceedings of IEEE, Vol.60, No. 8, pp. 926-935, August 1972.O. L. Frost et al., "An algorithm for linearly constrained adaptive array processing," Proceedings of IEEE, Vol. 60, No. 8, pp. 926-935, August 1972. 澤田宏ほか, "音源分離技術の最新動向," 電子情報通信学会学会誌, Vol. 91, No. 4, pp. 292-296, 2008.snrbf1}Hiroshi Sawada et al., "Latest Trends in Sound Source Separation Technology," IEICE Journal, Vol. 91, No. 4, pp. 292-296, 2008.snrbf1} H. L. Van Trees, "Optimum Array Processing," Wiley, 2002.H. L. Van Trees, "Optimum Array Processing," Wiley, 2002. 荒木章子ほか, "話者分類とSN比最大化ビームフォーマに基づく会議音声強調," 日本音響学会講演論文集, pp. 571-572, March, 2007.Akiko Araki et al., “Conference Speech Enhancement Based on Speaker Classification and SNR Maximizing Beamformer,” Proc. Of the Acoustical Society of Japan, pp. 571-572, March, 2007.

最も重要な問題の一つに、各録音装置が別々のA/D変換器を使用しているためにチャンネル間のサンプリング周波数が違うものになることが挙げられ、適切な補正を施さなければアレー信号処理の性能は大幅に劣化してしまう。   One of the most important problems is that each recording device uses a separate A / D converter, so the sampling frequency between channels will be different. The signal processing performance is greatly degraded.

上述した数多くの非同期マイクロホンアレー固有の問題の中でも、サンプリング周波数のミスマッチ量(以下、ミスマッチという。)は非同期録音にアレー信号処理を応用する上で最も大きな問題であると言える。同時録音に用いる複数のA/D変換器が同期していない場合は、機器同士が同じ公称サンプリング周波数であったとしても、主に水晶振動子の個体差や温度特性のために、サンプリング周波数に10ppmオーダー(ppmは10−6)のごくわずかなミスマッチを生じてしまう。チャンネル間のサンプリング周波数のミスマッチは、時刻の単位のずれのために各チャンネル間の信号の時間差がドリフトしていくような効果を生じる。多くのアレー信号処理は音源の方位が各マイクロホンの観測信号間に固有の位相差を生じるという性質を利用しているが、わずか1サンプルの変化でも音源方位の分析には大きな影響を生じてしまうため、数10ppmの時間差の変化はアレー信号処理を破綻させるのに十分な大きさである。 Among the problems inherent to the many asynchronous microphone arrays described above, the amount of sampling frequency mismatch (hereinafter referred to as mismatch) can be said to be the biggest problem in applying array signal processing to asynchronous recording. When multiple A / D converters used for simultaneous recording are not synchronized, even if the devices have the same nominal sampling frequency, the sampling frequency is mainly adjusted due to individual differences and temperature characteristics of crystal units. Only a slight mismatch of the order of 10 ppm (ppm is 10 −6 ) occurs. A mismatch in sampling frequency between channels has an effect that a time difference of signals between channels drifts due to a time unit shift. Many array signal processing uses the property that the direction of the sound source produces a unique phase difference between the observation signals of each microphone, but even a change of just one sample has a significant effect on the analysis of the sound source direction. Therefore, the change in the time difference of several tens of ppm is large enough to break the array signal processing.

上述のサンプリング周波数のミスマッチの問題は、ディジタル領域において各機器間の位相差が変化し、音源位置が疑似的に変化してしまうため、各音源は移動せず固有の位相差を持つという大多数の音源分離手法を破綻させてしまう。そのため、非同期マイクロホンアレーを用いた従来研究としては、サンプリング周波数のミスマッチがないと仮定した上で、録音開始時刻・マイク位置・音源位置を同時推定するブラインドアライメント(例えば、非特許文献3参照)、サンプリング周波数のミスマッチが与えられた条件での補償のために、補間によるリサンプリングを行う手法(例えば、非特許文献5参照)、また未知のサンプリング周波数のミスマッチのブラインド補償を行うために、振幅スペクトルの相関を利用した手法(例えば、非特許文献1参照)などがこれまでに提案されている。   The problem with the sampling frequency mismatch described above is that the phase difference between devices changes in the digital domain and the sound source position changes in a pseudo manner, so that each sound source does not move and has a unique phase difference. Breaks down the sound source separation method. Therefore, as a conventional research using an asynchronous microphone array, a blind alignment that simultaneously estimates a recording start time, a microphone position, and a sound source position on the assumption that there is no mismatch in sampling frequency (see, for example, Non-Patent Document 3), A method of performing resampling by interpolation for compensation under a condition where a sampling frequency mismatch is given (see, for example, Non-Patent Document 5), and an amplitude spectrum to perform blind compensation for an unknown sampling frequency mismatch A method using the correlation (see, for example, Non-Patent Document 1) has been proposed so far.

しかしながら、非特許文献2及び3においては、音源位置、マイクロホン位置及び録音開始時刻を同時に推定できるが、サンプリング周波数のミスマッチを補償することはできないという問題点があった。また、非特許文献1においては、信号エネルギーの包絡線に基づいて非同期マイクロホンアレーの各信号の同期化を行っているが、厳密な時間同期をすることができないという問題点があった。   However, in Non-Patent Documents 2 and 3, the sound source position, the microphone position, and the recording start time can be estimated simultaneously, but there is a problem that the sampling frequency mismatch cannot be compensated. In Non-Patent Document 1, each signal of the asynchronous microphone array is synchronized based on the envelope of signal energy, but there is a problem that exact time synchronization cannot be performed.

さらに、非特許文献4において開示されたサンプリング周波数のミスマッチのブラインド補償方法では、位相領域での平均演算のために、エイリアシングが生じる高周波数領域の情報を使用することができず、処理結果の精度が大幅に低下し、また、長時間の録音の場合において、参照チャンネル信号と、参照チャンネル信号に基づいてミスマッチを補償する対象チャンネル信号との間において互いのフレーム関係がずれたときにサンプリング周波数のミスマッチを補償することができないという問題点があった。   Furthermore, in the blind compensation method for sampling frequency mismatch disclosed in Non-Patent Document 4, information in a high frequency region where aliasing occurs cannot be used for averaging in the phase region, and the accuracy of the processing result In the case of recording for a long time, the sampling frequency of the reference channel signal and the target channel signal for which the mismatch is compensated based on the reference channel signal are shifted when the frame relationship is shifted. There was a problem that mismatch could not be compensated.

本発明の目的は以上の問題点を解決し、非同期マイクロホンアレーからの複数の録音機器からの各音声信号に対して音声信号処理を行う装置及び方法において、従来技術に比較して高精度でかつ長時間録音においても、各音声信号におけるサンプリング周波数のミスマッチをブラインドでもしくは非ブラインドで推定して当該ミスマッチを補償することができる音声信号処理装置及び方法を提供することにある。   SUMMARY OF THE INVENTION An object of the present invention is to solve the above-mentioned problems, and in an apparatus and method for performing audio signal processing on each audio signal from a plurality of recording devices from an asynchronous microphone array, with higher accuracy than in the prior art and An object of the present invention is to provide an audio signal processing apparatus and method capable of compensating for a mismatch by estimating a sampling frequency mismatch in each audio signal blindly or non-blindly even in long-time recording.

第1の発明に係る音声信号処理装置は、対象チャンネル信号と参照チャンネル信号との間に録音開始時刻差があり、上記参照チャンネル信号のA/D変換器と上記対象チャンネル信号のA/D変換器との間のサンプリング周波数のミスマッチがあるときに、上記対象チャンネル信号を上記参照チャンネル信号に同期させる音声信号処理装置において、
上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める第1の信号処理手段を備えたことを特徴とする。
In the audio signal processing device according to the first invention, there is a recording start time difference between the target channel signal and the reference channel signal, and the A / D converter of the reference channel signal and the A / D conversion of the target channel signal In an audio signal processing device that synchronizes the target channel signal with the reference channel signal when there is a sampling frequency mismatch with a device,
By performing a certain frame shift on the reference channel signal, a reference channel signal in a short-time Fourier transform expression is obtained, and on the basis of the recording start time difference and the sampling frequency mismatch, Target channel of short-time Fourier transform expression by performing integer sample shift and fractional sample shift by phase compensation method in frequency domain for the target channel signal so that the frame centers of the target channel signal correspond to each other A first signal processing means for obtaining a signal is provided.

上記音声信号処理装置において、サンプリング周波数のミスマッチを0と仮定し、時間区間信号を用いた時間差推定法を用いて上記参照チャンネル信号全体を第1の区間とみなし、当該第1の区間において上記参照チャンネル信号に対する対象チャンネル信号の録音開始時刻差を求める第1の前処理手段をさらに備えたことを特徴とする。   In the audio signal processing apparatus, assuming that the sampling frequency mismatch is 0, the entire reference channel signal is regarded as a first interval using a time difference estimation method using a time interval signal, and the reference is referred to in the first interval. A first preprocessing unit for obtaining a recording start time difference of the target channel signal with respect to the channel signal is further provided.

また、上記音声信号処理装置において、上記参照チャンネル信号及び上記対象チャンネル信号から、それぞれ互いに対応する単一音源区間情報を有する第1区間及び第2の区間を選択し、当該2つの区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、サンプリング周波数のミスマッチ及び録音開始時刻差を求める第2の前処理手段をさらに備えたことを特徴とする。   In the audio signal processing device, a first section and a second section having single sound source section information corresponding to each other are selected from the reference channel signal and the target channel signal, respectively, and the two sections A second pre-processing unit for obtaining a sampling frequency mismatch and a recording start time difference by using a sampling frequency mismatch estimation method using sound source section information is further provided.

さらに、上記音声信号処理装置において、上記短時間フーリエ変換表現の対象チャンネル信号及び上記短時間フーリエ変換表現の参照チャンネル信号に基づいて、上記サンプリング周波数のミスマッチに対する、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となる最尤推定法を用いてサンプリング周波数のミスマッチを推定する第2の信号処理手段をさらに備えたことを特徴とする。   Further, in the audio signal processing device, the target channel of the short-time Fourier transform expression with respect to the sampling frequency mismatch based on the target channel signal of the short-time Fourier transform expression and the reference channel signal of the short-time Fourier transform expression. The method further comprises second signal processing means for estimating a sampling frequency mismatch using a maximum likelihood estimation method in which the logarithmic likelihood of the observed signal compensated for the signal is maximized.

またさらに、上記音声信号処理装置において、上記第2の信号処理手段は、離散値全探索法によりサンプリング周波数のミスマッチの範囲を絞り込んだ後、黄金比探索法により最適解であるサンプリング周波数のミスマッチを推定することを特徴とする。   Still further, in the audio signal processing device, the second signal processing means narrows down a sampling frequency mismatch range by a discrete value full search method and then determines a sampling frequency mismatch which is an optimal solution by a golden ratio search method. It is characterized by estimating.

また、上記音声信号処理装置において、上記推定されたサンプリング周波数のミスマッチに基づいて、フレーム内の変化を無視する階段近似を用いて上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号との間の時間差を最小にする線形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する第3の信号処理手段をさらに備えたことを特徴とする。   In the audio signal processing apparatus, the short-time Fourier transform expression target channel signal and the short-time Fourier transform expression using a staircase approximation that ignores a change in a frame based on the estimated sampling frequency mismatch. Using a linear phase compensation method that minimizes the time difference between the reference channel signal and the reference channel signal of the short-time Fourier transform expression so that the target channel signal of the short-time Fourier transform expression and the reference channel signal of the short-time Fourier transform expression are synchronized. A third signal processing means is further provided.

さらに、上記音声信号処理装置において、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とに対して逆フーリエ変換することにより上記対象チャンネル信号及び上記参照チャンネル信号を求める第4の信号処理手段をさらに備えたことを特徴とする。   Further, in the audio signal processing device, the target channel signal and the reference channel signal are converted by subjecting the target channel signal of the short-time Fourier transform expression and the reference channel signal of the short-time Fourier transform expression to inverse Fourier transform. A fourth signal processing means to be obtained is further provided.

第2の発明に係る音声信号処理方法は、対象チャンネル信号と参照チャンネル信号との間に録音開始時刻差があり、上記参照チャンネル信号のA/D変換器と上記対象チャンネル信号のA/D変換器との間のサンプリング周波数のミスマッチがあるときに、上記対象チャンネル信号を上記参照チャンネル信号に同期させる音声信号処理装置により実行される音声信号処理方法において、
上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める第1の信号処理ステップを備えたことを特徴とする。
In the audio signal processing method according to the second invention, there is a recording start time difference between the target channel signal and the reference channel signal, and the A / D converter of the reference channel signal and the A / D conversion of the target channel signal In an audio signal processing method executed by an audio signal processing device that synchronizes the target channel signal with the reference channel signal when there is a sampling frequency mismatch with a device,
By performing a certain frame shift on the reference channel signal, a reference channel signal in a short-time Fourier transform expression is obtained, and on the basis of the recording start time difference and the sampling frequency mismatch, Target channel of short-time Fourier transform expression by performing integer sample shift and fractional sample shift by phase compensation method in frequency domain for the target channel signal so that the frame centers of the target channel signal correspond to each other A first signal processing step for obtaining a signal is provided.

上記音声信号処理方法において、サンプリング周波数のミスマッチを0と仮定し、時間区間信号を用いた時間差推定法を用いて上記参照チャンネル信号全体を第1の区間とみなし、当該第1の区間において上記参照チャンネル信号に対する対象チャンネル信号の録音開始時刻差を求める第1の前処理ステップをさらに備えたことを特徴とする。   In the audio signal processing method, assuming that the sampling frequency mismatch is 0, the entire reference channel signal is regarded as a first interval using a time difference estimation method using a time interval signal, and the reference is referred to in the first interval. A first preprocessing step for obtaining a recording start time difference of the target channel signal with respect to the channel signal is further provided.

また、上記音声信号処理方法において、上記参照チャンネル信号及び上記対象チャンネル信号から、それぞれ互いに対応する単一音源区間情報を有する第1区間及び第2の区間を選択し、当該2つの区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、サンプリング周波数のミスマッチ及び録音開始時刻差を求める第2の前処理ステップをさらに備えたことを特徴とする。   Further, in the audio signal processing method, a first section and a second section having single sound source section information corresponding to each other are selected from the reference channel signal and the target channel signal, respectively, and a single of the two sections is selected. The method further includes a second pre-processing step of obtaining a sampling frequency mismatch and a recording start time difference using a sampling frequency mismatch estimation method using sound source section information.

さらに、上記音声信号処理方法において、上記短時間フーリエ変換表現の対象チャンネル信号及び上記短時間フーリエ変換表現の参照チャンネル信号に基づいて、上記サンプリング周波数のミスマッチに対する、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となる最尤推定法を用いてサンプリング周波数のミスマッチを推定する第2の信号処理ステップをさらに備えたことを特徴とする。   Further, in the audio signal processing method, the target channel of the short-time Fourier transform expression with respect to the sampling frequency mismatch based on the target channel signal of the short-time Fourier transform expression and the reference channel signal of the short-time Fourier transform expression. The method further comprises a second signal processing step of estimating a sampling frequency mismatch using a maximum likelihood estimation method that maximizes the log likelihood of the observed signal compensated for the signal.

またさらに、上記音声信号処理方法において、上記第2の信号処理ステップは、離散値全探索法によりサンプリング周波数のミスマッチの範囲を絞り込んだ後、黄金比探索法により最適解であるサンプリング周波数のミスマッチを推定することを特徴とする。   Still further, in the audio signal processing method, the second signal processing step narrows down a sampling frequency mismatch range by a discrete value full search method, and then determines a sampling frequency mismatch which is an optimal solution by a golden ratio search method. It is characterized by estimating.

また、上記音声信号処理方法において、上記推定されたサンプリング周波数のミスマッチに基づいて、フレーム内の変化を無視する階段近似を用いて上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号との間の時間差を最小にする線形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する第3の信号処理ステップをさらに備えたことを特徴とする。   Further, in the audio signal processing method, the target channel signal of the short-time Fourier transform expression and the short-time Fourier transform expression using a staircase approximation that ignores a change in a frame based on the estimated sampling frequency mismatch. Using a linear phase compensation method that minimizes the time difference between the reference channel signal and the reference channel signal of the short-time Fourier transform expression so that the target channel signal of the short-time Fourier transform expression and the reference channel signal of the short-time Fourier transform expression are synchronized. A third signal processing step is further provided.

さらに、上記音声信号処理方法において、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とに対して逆フーリエ変換することにより上記対象チャンネル信号及び上記参照チャンネル信号を求める第4の信号処理ステップをさらに備えたことを特徴とする。   Further, in the audio signal processing method, the target channel signal and the reference channel signal are converted by performing an inverse Fourier transform on the target channel signal of the short-time Fourier transform expression and the reference channel signal of the short-time Fourier transform expression. A fourth signal processing step to be obtained is further provided.

第3の発明に係るコンピュータにより読取可能な記録媒体は、上記音声信号処理方法の各ステップを含むことを特徴とする。   A computer-readable recording medium according to a third aspect of the present invention includes the steps of the audio signal processing method.

本発明に係る音声信号処理装置及び方法によれば、上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める。次いで、上記サンプリング周波数のミスマッチに対する、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となる最尤推定法を用いてサンプリング周波数のミスマッチを推定し、上記推定されたサンプリング周波数のミスマッチに基づいて、フレーム内の変化を無視する階段近似を用いて上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号との間の時間差を最小にする線形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する。従って、従来技術に比較して高精度でかつ長時間録音においても、各音声信号におけるサンプリング周波数のミスマッチをブラインドでもしくは非ブラインドで推定して当該ミスマッチを補償することができる。   According to the audio signal processing apparatus and method of the present invention, the reference channel signal of the short-time Fourier transform expression is obtained by performing a certain frame shift on the reference channel signal, while the difference between the recording start time and the above Based on the sampling frequency mismatch, the target channel signal is fractional by integer sample shift and frequency domain phase compensation so that the frame centers of the reference channel signal and the target channel signal correspond to each other. By performing sample shift, a target channel signal of short-time Fourier transform expression is obtained. Next, the sampling frequency mismatch is estimated using a maximum likelihood estimation method that maximizes the log likelihood of the observed signal compensated for the target channel signal of the short-time Fourier transform expression with respect to the sampling frequency mismatch, Based on the estimated sampling frequency mismatch, the time difference between the target channel signal of the short-time Fourier transform expression and the reference channel signal of the short-time Fourier transform expression is calculated using a staircase approximation that ignores changes in the frame. Using the linear phase compensation method that minimizes, the target channel signal of the short-time Fourier transform expression and the reference channel signal of the short-time Fourier transform expression are compensated so as to be synchronized. Therefore, even when recording for a long time with higher accuracy than in the prior art, the mismatch of the sampling frequency in each audio signal can be estimated blindly or non-blindly to compensate for the mismatch.

(a)は非同期マイクロホンアレーの各マイクロホンにより観測された観測信号の信号波形図であり、(b)は(a)の各観測信号のディジタル信号の信号波形図である。(A) is a signal waveform diagram of an observation signal observed by each microphone of the asynchronous microphone array, and (b) is a signal waveform diagram of a digital signal of each observation signal of (a). (a)は図1において録音開始時刻がずれたときの各マイクロホンにより観測された観測信号の信号波形図であり、(b)は(a)の各観測信号のディジタル信号の信号波形図である。(A) is a signal waveform diagram of an observation signal observed by each microphone when the recording start time is shifted in FIG. 1, and (b) is a signal waveform diagram of a digital signal of each observation signal of (a). . 本発明の第1の実施形態に係るブラインド補償の音声信号処理方法において用いる、2つの音声信号に対する線形位相モデルによる補償法を示す信号波形図である。It is a signal waveform diagram showing a compensation method using a linear phase model for two audio signals used in the audio signal processing method for blind compensation according to the first embodiment of the present invention. 本発明の第1の実施形態に係るブラインド補償の音声信号処理方法において計算されるサンプリング周波数のミスマッチεに対する対数尤度関数J(V,ε)の関数値の具体例を示すグラフである。It is a graph which shows the specific example of the function value of the log likelihood function J (V, (epsilon)) with respect to the mismatching (epsilon) of the sampling frequency calculated in the audio | voice signal processing method of the blind compensation which concerns on the 1st Embodiment of this invention. 第1の実施形態に係るブラインド補償の音声信号処理方法において用いる離散値全探索法による範囲絞り込み方法を示す、サンプリング周波数のミスマッチεに対する対数尤度関数J(V,ε)の関数値の具体例を示すグラフである。A specific example of a function value of the log-likelihood function J (V, ε) with respect to a sampling frequency mismatch ε, showing a range narrowing method based on the discrete value full search method used in the blind compensation speech signal processing method according to the first embodiment It is a graph which shows. 第1の実施形態に係るブラインド補償の音声信号処理方法において用いる黄金比探索法による最適解の探索方法を示す、サンプリング周波数のミスマッチεに対する対数尤度関数J(V,ε)の関数値を示すグラフである。The function value of the log-likelihood function J (V, ε) with respect to the sampling frequency mismatch ε, showing the optimal solution search method using the golden ratio search method used in the blind compensation speech signal processing method according to the first embodiment. It is a graph. 図6の黄金比探索法の計算効率を示す表であって、(a)はその計算条件を示す表であり、(b)はすべて離散値全探索法の場合の分割数と計算時間の関係を示す表であり、(c)は離散値全探索法と黄金比探索法との併用の場合の分割数と計算時間の関係を示す表である。7 is a table showing the calculation efficiency of the golden ratio search method of FIG. 6, where (a) is a table showing the calculation conditions, and (b) is the relationship between the number of divisions and calculation time in the case of all discrete value full search methods. (C) is a table showing the relationship between the number of divisions and the calculation time when the discrete value full search method and the golden ratio search method are used in combination. 本発明の第1の実施形態に係るブラインド補償の音声信号処理方法を示すフローチャートである。It is a flowchart which shows the audio | voice signal processing method of the blind compensation which concerns on the 1st Embodiment of this invention. 図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数のミスマッチの推定精度及びサンプリング周波数補償の音源分離精度への寄与の評価を行うときの観測信号作成の実験条件を示す表である。5 is a table showing experimental conditions for creating an observation signal when evaluating the estimation accuracy of sampling frequency mismatch and the contribution of sampling frequency compensation to sound source separation accuracy using the blind compensation speech signal processing method of FIG. 図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数のミスマッチの推定精度を測定した実験結果であって、データ長に対するサンプリング周波数のミスマッチεの推定の平均二乗誤差(RMSE)を示すグラフである。FIG. 5 is a graph showing experimental results of measuring the estimation accuracy of sampling frequency mismatch using the blind compensation speech signal processing method of FIG. 4 and showing the mean square error (RMSE) of estimation of sampling frequency mismatch ε with respect to data length; is there. 図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数補償の音源分離精度への寄与の評価を測定した実験結果であって、信号長に対する信号対歪比(SDR)を示すグラフである。5 is a graph showing a signal-to-distortion ratio (SDR) with respect to a signal length, which is an experimental result obtained by measuring an evaluation of the contribution of the sampling frequency compensation to the sound source separation accuracy using the blind compensation audio signal processing method of FIG. 4. 図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数補償の音源分離精度への寄与の評価を測定した実験結果であって、ブラインド音声分離の信号対干渉比(SIR)を示すグラフである。FIG. 5 is a graph showing an experimental result obtained by measuring the contribution of sampling frequency compensation to sound source separation accuracy using the blind compensation speech signal processing method of FIG. 4 and showing a signal-to-interference ratio (SIR) of blind speech separation; . 本発明の第2の実施形態に係る非同期マイクロホンアレーにおけるサンプリング周波数のミスマッチの非ブラインド補償方法で用いる時間的に離れた同じ音源による2つの単一音源区間情報を手がかりとした補正方法を示す参照チャンネル信号及び対象チャンネル信号の信号波形を示す信号波形図である。Reference channel showing a correction method using two single sound source section information by the same sound source separated in time as a clue used in the non-blind compensation method of sampling frequency mismatch in the asynchronous microphone array according to the second embodiment of the present invention It is a signal waveform diagram which shows the signal waveform of a signal and an object channel signal. 図13の非同期マイクロホンアレーにおけるサンプリング周波数のミスマッチの非ブラインド補償方法における参照チャンネル信号及び対象チャンネル信号の時間差τ及びτを示す信号波形図である。FIG. 14 is a signal waveform diagram illustrating time differences τ A and τ B between a reference channel signal and a target channel signal in a non-blind compensation method for sampling frequency mismatch in the asynchronous microphone array of FIG. 13. (a)は図14の参照チャンネル信号及び対象チャンネル信号に対する録音開始時刻のオフセット補償方法を示すオフセット補償方法の補償前の各信号の信号波形図であり、(b)はその補償後の各信号の信号波形図である。(A) is a signal waveform diagram of each signal before compensation of the offset compensation method showing the offset compensation method of the recording start time for the reference channel signal and the target channel signal in FIG. 14, and (b) is each signal after compensation. FIG. 図15の録音開始時刻のオフセット補償方法においてサンプリング周波数のミスマッチ補償方法において対象チャンネル信号に時刻ドリフトを考慮したフレームの切り出しを示す信号波形図である。FIG. 16 is a signal waveform diagram showing frame cutout in consideration of time drift in a target channel signal in the sampling frequency mismatch compensation method in the recording start time offset compensation method of FIG. 15. 図15の録音開始時刻のオフセット補償方法においてサンプリング周波数のミスマッチ補償方法において各フレームの切り出し位置のオフセット補償及びフレーム内での位相シフトを示す信号波形図である。FIG. 16 is a signal waveform diagram illustrating offset compensation of a cut-out position of each frame and phase shift within the frame in the sampling frequency mismatch compensation method in the recording start time offset compensation method of FIG. 15. 第2の実施形態に係るサンプリング周波数のミスマッチ補償の動作を、SN比最大比ビームフォーマを用いた音声強調の実験結果であって、区間A部における強調結果を示す各信号の信号波形図である。FIG. 10 is a signal waveform diagram of each signal showing an experimental result of speech enhancement using the S / N ratio maximum ratio beamformer and an enhancement result in the section A in the operation of sampling frequency mismatch compensation according to the second embodiment. . 第2の実施形態に係るサンプリング周波数のミスマッチ補償の動作を、SN比最大比ビームフォーマを用いた音声強調の実験結果であって、区間B部における強調結果を示す各信号の信号波形図である。FIG. 10 is a signal waveform diagram of each signal showing an experiment result of speech enhancement using a maximum S / N ratio beamformer, and an enhancement result in a section B, in the sampling frequency mismatch compensation operation according to the second embodiment. . 本発明の第3の実施形態に係る音声信号処理装置10の構成を示すブロック図である。It is a block diagram which shows the structure of the audio | voice signal processing apparatus 10 which concerns on the 3rd Embodiment of this invention. 図20の音声信号処理装置10によって実行されるブラインド同期音声信号処理を示すフローチャートである。It is a flowchart which shows the blind synchronous audio | voice signal process performed by the audio | voice signal processing apparatus 10 of FIG. 図20の音声信号処理装置10によって実行される非ブラインド同期音声信号処理を示すフローチャートである。It is a flowchart which shows the non-blind synchronous audio | voice signal process performed by the audio | voice signal processing apparatus 10 of FIG.

以下、本発明に係る実施形態について図面を参照して説明する。なお、以下の各実施形態において、同様の構成要素については同一の符号を付している。   Hereinafter, embodiments according to the present invention will be described with reference to the drawings. In addition, in each following embodiment, the same code | symbol is attached | subjected about the same component.

第1の実施形態.
本発明に係る第1の実施形態では、非同期マイクロホンアレーのためのチャンネル間のサンプリング周波数のミスマッチをブラインドに推定し補償する手法について述べる。サンプリング周波数のミスマッチによるチャンネル間の時間差の変化は短時間では一定となるため、フレーム毎に周波数領域で位相を操作することで補償する。また、音源が移動しないと仮定した最尤推定により、サンプリング周波数のミスマッチを推定する。後述するように、実験により提案手法はアレー信号処理の性能を大幅に回復できることが確認された。
First embodiment.
In the first embodiment of the present invention, a technique for blindly estimating and compensating for sampling frequency mismatch between channels for an asynchronous microphone array will be described. Since the change in the time difference between channels due to the sampling frequency mismatch is constant in a short time, it is compensated by manipulating the phase in the frequency domain for each frame. Also, sampling frequency mismatch is estimated by maximum likelihood estimation assuming that the sound source does not move. As will be described later, it has been confirmed by experiments that the proposed method can significantly recover the performance of the array signal processing.

第1の実施形態では、ブラインド音源分離(例えば、非特許文献6参照)の前処理のための、サンプリング周波数のチャンネル間のミスマッチを推定し補正する手法について述べる。まず、短い時間間ではチャンネル間の時間差の拡大が無視できるほど小さくなり、フレームの中央のサンプル番号に比例する一定の遅延と見なせることに性質に着目し、短時間フーリエ変換(Short Term Fourier Transformation:以下、STFTという)領域で線形の位相の補償とによりサンプリング周波数のミスマッチを補償することを提案する。ここで、短時間とは、サンプリング周波数にも依存するが、例えばサンプリング周波数が16kHzでは数ミリ秒〜数十ミリ秒程度のフレーム単位の短い時間をいう。   In the first embodiment, a technique for estimating and correcting mismatch between sampling frequency channels for preprocessing of blind sound source separation (for example, see Non-Patent Document 6) will be described. First, the short time Fourier transform (Short Term Fourier Transformation) is focused on the property that the expansion of the time difference between channels becomes negligibly small during a short time and can be regarded as a constant delay proportional to the sample number at the center of the frame. In the following, it is proposed that the sampling frequency mismatch be compensated by linear phase compensation in the region (STFT). Here, although the short time depends on the sampling frequency, for example, when the sampling frequency is 16 kHz, it means a short time in frame units of about several milliseconds to several tens of milliseconds.

さらに、第1の実施形態では、チャンネル間のサンプリング周波数のミスマッチは、位相差が等速に変化して音源位置が疑似的に変化するような効果を生じる。そこで、全ての音源は移動せずかつ定常であると仮定すると、定常な信号らしさをミスマッチの尺度として用いることができると考えられる。そこで定常性を仮定した観測信号の尤度関数を最大化するようにサンプリング周波数のミスマッチを推定する。尤度関数は解析的に解くことができないが、最適値付近では局所的に凸となることが経験的に分かっているため、荒い離散値全探索による探索範囲の絞り込みと、黄金比探索による詳細な探索を併用して最適化する。   Furthermore, in the first embodiment, the mismatch of sampling frequencies between channels produces an effect that the phase difference changes at a constant speed and the sound source position changes in a pseudo manner. Therefore, assuming that all sound sources do not move and are stationary, it is considered that stationary signal quality can be used as a measure of mismatch. Therefore, the sampling frequency mismatch is estimated so as to maximize the likelihood function of the observed signal assuming the stationarity. Although the likelihood function cannot be solved analytically, it has been empirically known to be locally convex in the vicinity of the optimum value, so the search range is narrowed down by the rough discrete value full search and the details by the golden ratio search Optimize by using simple search.

図1(a)は非同期マイクロホンアレーの各マイクロホン1,2により観測された観測信号の信号波形図であり、図1(b)は図1(a)の各観測信号のディジタル信号の信号波形図である。また、図2(a)は図1において録音開始時刻がずれたときの各マイクロホン1,2により観測された観測信号の信号波形図であり、図2(b)は図2(a)の各観測信号のディジタル信号の信号波形図である。図1(a)及び図2(a)に示すように、マイクロホン2のA/D変換器のサンプリング周波数がマイクロホン1のA/D変換器のサンプリング周波数よりもやや高い場合、図1(b)及び図2(b)に示すように、マイクロホン2のディジタル波形では、マイクロホン1のディジタル波形に比較して波形が伸びたようにドリフトする。これらの場合における問題点は以下の通りである。
(1)各A/D変換器のサンプリング周波数がずれているために、波形の伸縮が発生する。
(2)録音開始時刻がずれるために、波形のシフトが発生する。
FIG. 1A is a signal waveform diagram of observation signals observed by the microphones 1 and 2 of the asynchronous microphone array, and FIG. 1B is a signal waveform diagram of digital signals of the observation signals in FIG. It is. 2A is a signal waveform diagram of an observation signal observed by each of the microphones 1 and 2 when the recording start time is shifted in FIG. 1, and FIG. 2B is a waveform diagram of FIG. It is a signal waveform diagram of a digital signal of an observation signal. As shown in FIGS. 1A and 2A, when the sampling frequency of the A / D converter of the microphone 2 is slightly higher than the sampling frequency of the A / D converter of the microphone 1, FIG. As shown in FIG. 2B, the digital waveform of the microphone 2 drifts as if the waveform was extended as compared with the digital waveform of the microphone 1. The problems in these cases are as follows.
(1) Since the sampling frequency of each A / D converter is shifted, the waveform expands and contracts.
(2) Since the recording start time is shifted, a waveform shift occurs.

これらの問題点を解決するために、まず、サンプリング周波数のミスマッチと補償の定式化について以下に説明する。   In order to solve these problems, first, a sampling frequency mismatch and compensation formulation will be described below.

同時刻における2つのマイクロホンの連続信号xO1(t),xO2(t)(tは連続時間)が別々のA/D変換器でサンプリングされて離散信号x(n),x(n)(nはサンプル番号)が得られたとする。ここで、離散信号x(n)のサンプリング周波数はf、離散信号x(n)のサンプリング周波数は未知の無次元数ε(|ε|≪1)により表される(1+ε)fであるとする。このとき各チャンネルの離散信号と連続信号の関係は以下のように表される。 The continuous signals x O1 (t) and x O2 (t) (t is a continuous time) of two microphones at the same time are sampled by separate A / D converters, and discrete signals x 1 (n) and x 2 (n ) (N is a sample number). Here, the sampling frequency of the discrete signal x 1 (n) is represented by f s , and the sampling frequency of the discrete signal x 2 (n) is represented by an unknown dimensionless number ε (| ε | << 1) (1 + ε) f s. Suppose that At this time, the relationship between the discrete signal and the continuous signal of each channel is expressed as follows.

Figure 0006278294
Figure 0006278294
Figure 0006278294
Figure 0006278294

いま、同時刻における2つのマイクロホンの連続信号xO1(t),xO2(t)(tは連続時間)が別々のA/D変換器でサンプリングされて離散信号x(n),x(n)(n,nはサンプル番号)が得られたとする。ここで、離散信号x(n)のサンプリング周波数はf、離散信号x(n)のサンプリング周波数は未知のミスマッチεにより表される(1+ε)fであるとする。このとき離散信号と連続信号の関係は以下のように表される。 Now, continuous signals x O1 (t) and x O2 (t) (t is a continuous time) of two microphones at the same time are sampled by separate A / D converters, and discrete signals x 1 (n 1 ), x 2 (n 2 ) (n 1 and n 2 are sample numbers) is obtained. Here, the sampling frequency of the discrete signal x 1 (n 1 ) is f s , and the sampling frequency of the discrete signal x 2 (n 2 ) is (1 + ε) f s represented by an unknown mismatch ε. At this time, the relationship between the discrete signal and the continuous signal is expressed as follows.

Figure 0006278294
Figure 0006278294
Figure 0006278294
Figure 0006278294

ここで、tの時間原点を離散信号x(n)の録音開始時刻とし、ΔT21は離散信号x(n)に対する離散信号x(n)の録音開始時刻の遅れを表す。ここで、連続時刻tの原点は離散信号x(n)の録音開始時刻とし、T21は離散信号x(n)の録音開始時刻とする。従って、同じ時刻tを参照する第iチャンネル(i=1,2)のサンプル番号nは次式で表される。 Here, the time origin of t and recording start time of the discrete signals x 1 (n 1), ΔT 21 represents a delay of recording start time of the discrete signal x 2 (n 1) for discrete signals x 1 (n 1) . Here, the origin of the continuous time t is the recording start time of the discrete signal x 1 (n), and T 21 is the recording start time of the discrete signal x 2 (n). Thus, sample number n i of the i-th channel to refer to the same time t (i = 1, 2) is expressed by the following equation.

=ft (5)
=(1+ε)f(t−T) (6)
n 1 = f s t (5 )
n 2 = (1 + ε) f s (t-T 2) (6)

はnを用いて次式で表すことができる。 n 2 can be expressed by the following formula using n 1 .

=(1+ε)(n−f21) (7) n 2 = (1 + ε) (n 1 -f s T 21) (7)

以下では各チャンネルの離散時刻は同じ時刻を参照するペアである必要がある場合にはn,nと表記し、そうではなく単純に1つのチャネルのサンプル番号を示していて時刻の対応関係を議論する必要がない場合にはnなどと表記することとする。整数値のnに対しては、同じ時刻を参照するnは一般に非整数となるため、離散信号x(n)を離散信号x(n)と同期するよう補正した離散信号

Figure 0006278294
を正確に求めるためには、以下のような離散信号x(n)のsinc関数補間が必要になる。 In the following, when the discrete time of each channel needs to be a pair that refers to the same time, it is expressed as n 1 , n 2 , but instead, it simply indicates the sample number of one channel and the correspondence of the time When there is no need to discuss the above, it is expressed as n or the like. For the integer value n 1 , since n 2 referring to the same time is generally a non-integer, the discrete signal is corrected so that the discrete signal x 2 (n) is synchronized with the discrete signal x 1 (n).
Figure 0006278294
In order to accurately obtain the sinc function interpolation of the discrete signal x 2 (n) as follows.

Figure 0006278294
Figure 0006278294

しかし、sinc関数による正確な補間は長いsinc関数の畳込みが必要になるため現実的な計算法ではなく、サンプリング周波数のミスマッチを効率的に補償する手法を考えるためには何らかの近似が必要になる。   However, since accurate interpolation using a sinc function requires a long sinc function convolution, it is not a realistic calculation method, and some approximation is required to consider a method for efficiently compensating for sampling frequency mismatch. .

次いで、フレーム内のサンプリング周波数のミスマッチのモデル化について以下に説明する。   Next, modeling of mismatch in sampling frequency within a frame will be described below.

アレー信号処理の多くは時間周波数領域で行われるため、短時間フレーム変換(STFT)領域での信号表現がよく近似する方法があれば十分であると考える。そのために、まずSTFTのフレーム長をL、チャンネル1のあるフレームの中心サンプルをmとして、m−L/2≦n≦n+L/2−1という1フレーム内での時間の対応関係を考える。式(7)の関係から、サンプルmの近傍のnは次式で表される。 Since much of the array signal processing is performed in the time-frequency domain, it is considered sufficient to have a method that closely approximates the signal representation in the short-time frame conversion (STFT) domain. To that end, let us first consider the time correspondence within one frame, where m−L / 2 ≦ n 1 ≦ n + L / 2-1, where L is the STFT frame length and m is the center sample of a frame with channel 1. From the relationship of Expression (7), n 1 near the sample m is expressed by the following expression.

=(1+ε)(n−m)+(1+ε)m−f21
⇔(n−m)=(1+ε)(n−m)+εm−f21 (9)
n 2 = (1 + ε) (n 1 −m) + (1 + ε) m−f s T 21
⇔ (n 2 −m) = (1 + ε) (n 1 −m) + εm−f s T 21 (9)

(n−m)と(n−m)の対応関係は、mとともにεmだけ拡大していくことがわかる。フレーム中心mは録音時刻と共にいくらでも拡大していくので、このシフトは無視することができない。 It can be seen that the correspondence between (n 2 -m) and (n 1 -m) expands by εm with m. Since the frame center m increases with the recording time, this shift cannot be ignored.

一方、(n−m)はフレーム内ではmによらず常に|n−m|≧L/2であり、Lε≪1の条件では、ε(n−m)はフレーム内では1/2サンプルよりもはるかに小さくなるため、ここでは無視できると考えられる。例えばεとして、10−5〜10−6程度、フレーム長として10〜10程度を考えると、これは無視できる。よって、ε(n−m)を無視すると、次式を得る。 On the other hand, (n 1 −m) is always | n 1 −m | ≧ L / 2 regardless of m in the frame. Under the condition of Lε << 1 , ε (n 1 −m) is 1 / in the frame. Since it is much smaller than 2 samples, it is considered negligible here. For example, if ε is about 10 −5 to 10 −6 and the frame length is about 10 3 to 10 4 , this can be ignored. Therefore, if ε (n 1 −m) is ignored, the following equation is obtained.

(n−m)=(n−m)+εm−f21 (10) (N 2 -m) = (n 1 -m) + εm-f s T 21 (10)

従って、フレーム内で時間差がnに依存せず一定と仮定したモデルを得る。このように考えると、第2チャンネルの観測信号に
τ(m)=−ε(m−M) (11)
(Mは定数)で与えられる遅延量τ(m;ε)をx(n−τ(m;ε))として、チャンネル2に与えることにより次式を得る。
Therefore, a model is obtained on the assumption that the time difference does not depend on n 1 and is constant within the frame. Considering this, the observation signal of the second channel is τ (m) = − ε (m−M) (11)
By giving the delay amount τ (m; ε) given by (M is a constant) to channel 2 as x 2 (n−τ (m; ε)), the following equation is obtained.

←n+τ(m;ε) (12) n 2 ← n 2 + τ (m; ε) (12)

式(9)は次式のようにフレーム内での時間差のmへの依存をなくすことができる。   Equation (9) can eliminate the dependence of the time difference in the frame on m as in the following equation.

(n−τ(m)−m)=(n−m)+εm−f21 (13)
⇔(n−m)=(n−m)−f21+M (14)
(N 2 -τ (m) -m ) = (n 1 -m) + εm-f s T 21 (13)
⇔ (n 2 -m) = ( n 1 -m) -f s T 21 + M (14)

式(11)で与えられる遅延量はやはり非整数であるが、フレーム内での時間シフトはSTFT領域では線形位相に単純化されるため、以下ではSTFT領域における位相補償について議論する。   Although the delay amount given by equation (11) is still a non-integer, the time shift within the frame is simplified to a linear phase in the STFT region, and hence phase compensation in the STFT region will be discussed below.

図3は本発明の第1の実施形態に係るブラインド補償の音声信号処理方法において用いる、2つの音声信号に対する線形位相モデルによる補償法を示す信号波形図である。本実施形態では、図3に示すように、時刻に対して線形に時刻差がドリフトする場合を考え、以下では、フレーム内のドリフトを無視した階段状に上記時間差を近似することを考える。   FIG. 3 is a signal waveform diagram showing a compensation method using a linear phase model for two audio signals used in the audio signal processing method for blind compensation according to the first embodiment of the present invention. In the present embodiment, as shown in FIG. 3, a case where the time difference drifts linearly with respect to time is considered, and in the following, it is considered that the time difference is approximated in a staircase pattern ignoring drift in the frame.

まず、第mサンプルを中心とするフレーム波形の短時間フーリエ変換X1(k,m)は以下のように与えられる。   First, the short-time Fourier transform X1 (k, m) of the frame waveform centering on the mth sample is given as follows.

fr(l,m)=w(l)x(l+m−L/2) (15) x 1 fr (l, m) = w (l) x 1 (l + m-L / 2) (15)

Figure 0006278294
Figure 0006278294

ここで、x fr(l,m)はフレーム波形、w(l)は長さLの再合成可能な窓関数、−L/2<k≦L/2は離散周波数インデックス、F{}(k)はL点の離散フーリエ変換により離散周波数kの複素振幅を求める演算を表す。ただし、離散フーリエ変換は実際の計算では高速フーリエ変換で置き換える。 Here, x 1 fr (l, m) is a frame waveform, w (l) is a recombinable window function of length L, −L / 2 <k ≦ L / 2 is a discrete frequency index, and F L {} (K) represents an operation for obtaining the complex amplitude of the discrete frequency k by the discrete Fourier transform of the L point. However, discrete Fourier transform is replaced with fast Fourier transform in actual calculation.

まず、信号x(n)を信号x(n)と同じ第mサンプルを中心とするフレーム分析に施し、ドリフトによる各フレームの遅延量の変化のみを時間周波数領域で補償する。まず、フレーム分析は第1チャンネルと一律で第mサンプル目を中央とする窓関数を用いた長時間波形の切り出しにより行う。 First, the signal x 2 (n 2 ) is subjected to frame analysis centered on the same m-th sample as the signal x 1 (n 1 ), and only the change in the delay amount of each frame due to drift is compensated in the time-frequency domain. First, the frame analysis is performed by cutting out a long-time waveform using a window function with the m-th sample as the center in the same manner as the first channel.

fr(l,m)=w(l)x(l+m−L/2) (17) x 2 fr (l, m) = w (l) x 2 (l + m-L / 2) (17)

これに窓掛けをフーリエ変換してτ(m;ε)サンプルの遅延に相当する線形位相を与える。 This is subjected to a Fourier transform of the windowing to give a linear phase corresponding to the delay of τ 2 (m; ε) samples.

Figure 0006278294
Figure 0006278294

時間周波数領域の線形位相は時間領域ではフレーム内の円状時間シフトに相当するため、この処理は遅延量τ(m;ε)が大きい場合に誤差が大きくなる。従って、この処理は全フレームにわたって、遅延量τ(m;ε)が小さくなる場合に有効で、そのためには、ミスマッチ原点Nが信号の中央付近から大きく離れている場合や、信号長が長いためにL/m≫|ε|とならない場合には不向きである。ミスマッチ原点Nの位置は後述されるように信号の中央付近に移動することができるため、前者の問題は問題にならない。従ってこの計算法は信号帳が短い場合に有効である。 Since the linear phase in the time-frequency domain corresponds to a circular time shift in the frame in the time domain, this process has a large error when the delay amount τ 2 (m; ε) is large. Therefore, this process is effective when the delay amount τ 2 (m; ε) is small over the entire frame. For this purpose, when the mismatch origin N 0 is far away from the vicinity of the center of the signal or when the signal length is long. This is not suitable when L / m >> | ε | Since the position of the mismatch origin N 0 can be moved near the center of the signal as will be described later, the former problem does not matter. Therefore, this calculation method is effective when the signal book is short.

次いで、空間的定常性を仮定したミスマッチ推定について以下に説明する。   Next, mismatch estimation assuming spatial stationarity will be described below.

|ε|≪1とした場合のマイクロホンアレーの観測なので、ミスマッチが補正されていない場合でも信号x(n)と信号x(n)の相関は高いと仮定できる。そこで、以下のようにn=0,…,N−1と、n=0,…,N−1を同質のものと扱い、相関を最大にする信号x(n)の遅延量δ12を求める。 Since the microphone array is observed when | ε | << 1, even if the mismatch is not corrected, it can be assumed that the correlation between the signal x 1 (n 1 ) and the signal x 2 (n 2 ) is high. Therefore, n 1 = 0,..., N 1 −1 and n 2 = 0,..., N 2 −1 are treated as being the same, and the signal x 2 (n 2 ) that maximizes the correlation is as follows. A delay amount δ 12 is obtained.

Figure 0006278294
Figure 0006278294

そして、信号x(n)を遅延量δ12だけ遅延させて
(n)←x(n−δ12) (20)
とする。これにより、信号x(n)と信号x(n)のミスマッチの原点を信号のオーバーラップするサンプル区間の中央付近に移動する。そして、遅延量τ(m)のMに、このオーバーラップの中央付近のサンプル番号を与える。
Then, the signal x 2 (n 2 ) is delayed by the delay amount δ 12 and x 2 (n 2 ) ← x 2 (n 2 −δ 12 ) (20)
And As a result, the origin of mismatch between the signal x 1 (n 1 ) and the signal x 2 (n 2 ) is moved to the vicinity of the center of the sample interval where the signals overlap. Then, a sample number near the center of the overlap is given to M of the delay amount τ (m).

ここで、観測されるすべての音源は定常かつ位置の移動が無いと仮定すると、正確なミスマッチεの推定を用いてサンプリング周波数のミスマッチを補償した観測信号

Figure 0006278294
は離散周波数k毎に定常であると仮定できるため、この仮定に基づいた最尤推定によりミスマッチεを求める。上で議論した位相補償のいずれかを用いて計算した。 Here, assuming that all observed sound sources are stationary and have no movement of position, the observed signal compensates for the sampling frequency mismatch using accurate mismatch ε estimation.
Figure 0006278294
Can be assumed to be stationary for each discrete frequency k, and thus the mismatch ε is obtained by maximum likelihood estimation based on this assumption. Calculated using any of the phase compensation discussed above.

Figure 0006278294
より得られる
Figure 0006278294
の分布を零平均、共分散行列V(k)の多変量複素正規分布とおいた場合の対数尤度は次式で表される。
Figure 0006278294
More obtainable
Figure 0006278294
Logarithmic likelihood when the distribution of is a zero-mean and a multivariate complex normal distribution of covariance matrix V (k) is expressed by the following equation.

Figure 0006278294
Figure 0006278294

ここで、{・}は複素共役転置を表し、VはV(k)の集合{V(k)|k=−L/2+1,…,L/2}とする。共分散行列V(k)は未知であるため、

Figure 0006278294
を用いた次式の標本推定で置き換える。
Figure 0006278294
Here, {•} H represents a complex conjugate transpose, and V is a set {V (k) | k = −L / 2 + 1,..., L / 2} of V (k). Since the covariance matrix V (k) is unknown,
Figure 0006278294
Replace with the following sample estimation using.
Figure 0006278294

この尤度最大化は解析的に解くことができない。そのため、対数尤度J(V,ε)を最大化するεの離散値全探索法などの方法によるミスマッチεを推定が必要になる。   This likelihood maximization cannot be solved analytically. Therefore, it is necessary to estimate the mismatch ε by a method such as a discrete value full search method of ε that maximizes the log likelihood J (V, ε).

本実施形態では、離散値全探索法に黄金分割法を併用してなる最尤推定の効率的解法について考える。上記では、ミスマッチεを評価するための対数尤度関数

Figure 0006278294
を定式化したが、この対数尤度関数を最大化するミスマッチεは解析的に求めることができない。推定するパラメータはミスマッチεのみであり、その最適化には離散値全探索を行うことも考えられるが、一つのミスマッチεの評価のために全体域での共分散行列とその逆行列の計算が必要であるため、高い解像度の離散値全探索を行うためには計算量が膨大になる。以下では黄金分割探索法を用いた最尤推定の効率的解法について説明する。 In the present embodiment, an efficient solution for maximum likelihood estimation, which is a combination of the discrete value full search method and the golden section method, is considered. In the above, the log-likelihood function for evaluating the mismatch ε
Figure 0006278294
However, the mismatch ε that maximizes the log-likelihood function cannot be obtained analytically. The only parameter to be estimated is the mismatch ε, and it may be possible to perform a discrete value full search for the optimization. However, in order to evaluate one mismatch ε, the calculation of the covariance matrix and its inverse matrix in the whole region is required. Since it is necessary, the amount of calculation is enormous in order to perform a high-resolution discrete value full search. In the following, an efficient solution of maximum likelihood estimation using the golden section search method will be described.

この最尤推定問題で求めるべきパラメータはミスマッチεのみであるため、一次元の最適化問題の代表的な手法である黄金分割探索法を用いることが考えられる。黄金分割探索法は凸関数の最大または最小値を探索範囲を狭めながら繰り返し探索により求める手法で、関数が局所的に凸な範囲では最適解に一意に収束する。   Since the only parameter to be obtained in the maximum likelihood estimation problem is the mismatch ε, it is conceivable to use the golden section search method, which is a typical technique for the one-dimensional optimization problem. In the golden section search method, the maximum or minimum value of the convex function is obtained by iterative search while narrowing the search range. In the range where the function is locally convex, it converges uniquely to the optimal solution.

図4は第1の実施形態に係るブラインド補償の音声信号処理方法において用いる離散値全探索法による範囲絞り込み方法を示す、サンプリング周波数のミスマッチεに対する対数尤度関数J(V,ε)の関数値の具体例を示すグラフである。ここで、対数尤度関数J(V,ε)は、サンプリング周波数のミスマッチεに対する、対象チャンネル信号に対してサンプリング周波数のミスマッチを補償したときの観測信号の対数尤度関数である。図4に示す例のように、対数尤度関数

Figure 0006278294
は最大値周辺では凸関数となることが経験的にわかっているため、適切に探索範囲を絞り込むことで黄金比探索法が利用可能となる。 FIG. 4 shows a function of the log likelihood function J (V, ε) for the sampling frequency mismatch ε, showing a range narrowing method based on the discrete value full search method used in the blind compensation speech signal processing method according to the first embodiment. It is a graph which shows the specific example of. Here, the log-likelihood function J (V, ε) is a log-likelihood function of the observed signal when the sampling frequency mismatch is compensated for the target channel signal with respect to the sampling frequency mismatch ε. As in the example shown in FIG. 4, the log likelihood function
Figure 0006278294
Since it is empirically known that becomes a convex function around the maximum value, the golden ratio search method can be used by appropriately narrowing down the search range.

まず、刻みの荒い離散値全探索により探索範囲を絞り込む。ミスマッチεの探索範囲Eを等間隔にI点に分割した

Figure 0006278294
について、すべての対数尤度関数
Figure 0006278294
の関数値を比較して最大値を与える次式のミスマッチεi*を求める。 First, the search range is narrowed down by a discrete value full search with rough steps. Dividing search range E for mismatch ε into I points at equal intervals
Figure 0006278294
For all log-likelihood functions
Figure 0006278294
A mismatch ε i * of the following equation that gives the maximum value is obtained by comparing the function values of.

Figure 0006278294
Figure 0006278294

この離散値全探索の範囲Eは、録音機器間のサンプリング周波数のミスマッチとして妥当な範囲に設定すればよい。一般的な録音機器のサンプリング周波数のミスマッチは10−5オーダーであるといわれているため、Eは10−4またはその数倍に設定すればよい。探索範囲の分割数Iの適切な値は、探索範囲にも依存するが、10から100程度に設定すれば十分であると考えられる。 The range E of the discrete value full search may be set to a reasonable range as a sampling frequency mismatch between recording devices. Since it is said that the sampling frequency mismatch of a general recording device is on the order of 10 −5 , E may be set to 10 −4 or a multiple thereof. An appropriate value for the number of divisions I of the search range depends on the search range, but it is considered sufficient to set it to about 10 to 100.

図5は第1の実施形態に係るブラインド補償の音声信号処理方法において用いる黄金比探索法による最適解の探索方法を示す、サンプリング周波数のミスマッチεに対する対数尤度関数J(V,ε)の関数値を示すグラフである。すなわち、離散値全探索法による範囲絞り込みでは、図5に示すように、
(1)探索範囲を等間隔に刻んでサンプリング周波数のミスマッチεを離散化し、
(2)離散化したサンプリング周波数のミスマッチεについて対数尤度関数J(V,ε)が最大となるものを探す。
(3)最大値を与える両隣の範囲を最適値の存在範囲として推定する。
FIG. 5 shows a function of the log likelihood function J (V, ε) for the sampling frequency mismatch ε, showing a method of searching for an optimal solution by the golden ratio search method used in the blind compensation speech signal processing method according to the first embodiment. It is a graph which shows a value. That is, in the range narrowing by the discrete value full search method, as shown in FIG.
(1) Discretize sampling frequency mismatch ε by dividing the search range at equal intervals;
(2) A search is made for a logarithmic likelihood function J (V, ε) that maximizes the discretized sampling frequency mismatch ε.
(3) Estimate the adjacent range that gives the maximum value as the existence range of the optimum value.

次に、[εi*−1,εi*+1]を探索範囲とした尤度関数

Figure 0006278294
についてのミスマッチεの黄金比分割法を以下のアルゴリズムにより行う。 Next, a likelihood function having [ε i * −1 , ε i * + 1 ] as a search range
Figure 0006278294
The golden ratio division method of mismatch ε for is performed by the following algorithm.

(1)ステップSS1において、初期値を次式のように初期値を定める。
a=ε*−1
b=ε*+1
(1) In step SS1, the initial value is determined as in the following equation.
a = ε * −1
b = ε * + 1

(2)ステップSS2において、
p=b−φ(b−a)
q=a+φ(b−a)
として

Figure 0006278294
を求める。ここで
φ=((√5)−1)/2 (26)
である。 (2) In step SS2,
p = b−φ (ba)
q = a + φ (ba)
As
Figure 0006278294
Ask for. Where φ = ((√5) −1) / 2 (26)
It is.

(3)ステップSS3において、

Figure 0006278294
なら
a=p
p=q
q=a+φ(b−a) (27)
とし、そうでなければ、
b=q
q=p
p=b−φ(b−a) (28)
とする。 (3) In step SS3,
Figure 0006278294
Then a = p
p = q
q = a + φ (ba) (27)
And if not,
b = q
q = p
p = b−φ (ba) (28)
And

(4)ステップSS4において、(b−a)が十分に小さくなければステップSS2に戻り、十分に小さければ

Figure 0006278294
としてεの最尤推定値を求めて終了する。 (4) In step SS4, if (ba) is not sufficiently small, the process returns to step SS2, and if (ba) is sufficiently small.
Figure 0006278294
To obtain the maximum likelihood estimate of ε, and the process ends.

図6は第1の実施形態に係るブラインド補償の音声信号処理方法において用いる黄金比探索法による最適解の探索方法を示す、サンプリング周波数のミスマッチεに対する対数尤度関数J(V,ε)の関数値を示すグラフである。上記の黄金比探索法は、局所単峰型関数の1次元最大化問題の効率的解法であって、図6に示すように、1:ψ又はψ:1(ここで、ψ=(1+√(5))/2)である。)の黄金比分割による探索範囲の絞り込みを繰り返し(図6のS101、S102、…)、毎回の反復で範囲がψ−1(≒0.62)倍に狭まる探索法である。具体的には、探索範囲を黄金比分割し、大きな値を含む方の範囲に探索範囲を絞り込み、範囲が十分に小さくなければ、上記の黄金比分割の処理に戻る。一方、探索範囲が十分に小さければ、探索範囲の中点を解として終了する。   FIG. 6 shows a function of the log likelihood function J (V, ε) for the sampling frequency mismatch ε, showing a method for searching for an optimal solution by the golden ratio search method used in the blind compensation speech signal processing method according to the first embodiment. It is a graph which shows a value. The golden ratio search method is an efficient solution to the one-dimensional maximization problem of the local unimodal function, and as shown in FIG. 6, 1: ψ or ψ: 1 (where ψ = (1 + √ (5)) / 2). ) In which the search range is narrowed down by golden ratio division (S101, S102,... In FIG. 6), and the range is narrowed to ψ-1 (≈0.62) times each time. Specifically, the search range is divided into golden ratios, the search range is narrowed down to a range that includes a larger value, and if the range is not sufficiently small, the processing returns to the golden ratio division process. On the other hand, if the search range is sufficiently small, the midpoint of the search range is ended as a solution.

図7は図6の黄金比探索法の計算効率を示す表であって、図7(a)はその計算条件を示す表であり、図7(b)はすべて離散値全探索法の場合の分割数と計算時間の関係を示す表であり、図7(c)は離散値全探索法と黄金比探索法との併用の場合の分割数と計算時間の関係を示す表である。黄金比探索法の計算効率について考察すると、探索範囲をN点に等分割する精度の探索の演算量は以下のようになる。
(1)離散値全探索法では、N回の関数評価となる。
(2)黄金比探索法では、

Figure 0006278294
回の関数評価となる。 FIG. 7 is a table showing the calculation efficiency of the golden ratio search method of FIG. 6, FIG. 7 (a) is a table showing the calculation conditions, and FIG. 7 (b) is the case of all discrete value full search methods. FIG. 7C is a table showing the relationship between the number of divisions and the calculation time when the discrete value full search method and the golden ratio search method are used in combination. Considering the calculation efficiency of the golden ratio search method, the calculation amount of the search with the accuracy of equally dividing the search range into N points is as follows.
(1) In the discrete value full search method, N function evaluations are performed.
(2) In the golden ratio search method,
Figure 0006278294
Times function evaluation.

計算時間の実測値の例(10回計算の平均値)を以下に示す。図7(a)の条件で、20点の離散値全探索法による範囲絞り込みを行った後、さらに1/Nの精度での探索を行った。すべて離散値全探索法の場合は図7(b)のようになり、離散値全探索法に対して黄金比探索法を併用した場合は図7(c)のようになった。図7から明らかなように、黄金比探索法を併用した場合の方が演算量を大幅に減少させることがわかる。   An example of the actual measurement value (average value of 10 calculations) is shown below. After narrowing down the range by the 20-point discrete value full search method under the conditions of FIG. 7A, a search with an accuracy of 1 / N was further performed. In the case of all discrete value full search methods, the result is as shown in FIG. 7B, and when the golden ratio search method is used in combination with the discrete value full search method, the result is as shown in FIG. 7C. As is apparent from FIG. 7, it can be seen that the amount of calculation is greatly reduced when the golden ratio search method is used together.

第1の実施形態では、離散値全探索法と黄金分割探索法においては全てのミスマッチεの候補についての対数尤度関数J(V,ε)の評価のために、多数の位相補償信号

Figure 0006278294
を求める必要があるため、その計算は演算量の小さいものを用いるのが好ましい。フレーム中心mが小さいあるいは大きいフレームにおいても位相補償Δ(m;ε)がフレーム長Lに対して十分小さければ、上述のフレーム切り出しの最適化を伴う位相補償ではなく、単純位相補償を用いるのがよい。その場合には、εの最尤推定値が得られたのちには位相補償を正確に行うためにフレーム切り出しの最適化を行うことが好ましい。 In the first embodiment, in the discrete value full search method and the golden section search method, a large number of phase compensation signals are used to evaluate the log likelihood function J (V, ε) for all mismatch ε candidates.
Figure 0006278294
Therefore, it is preferable to use a calculation with a small calculation amount. If the phase compensation Δ (m; ε) is sufficiently small with respect to the frame length L even in a frame with a small or large frame center m, simple phase compensation is used instead of phase compensation with optimization of the frame cutout described above. Good. In that case, it is preferable to optimize the frame cutout after the maximum likelihood estimate of ε is obtained in order to accurately perform phase compensation.

図8は本発明の第1の実施形態に係るブラインド補償の音声信号処理方法を示すフローチャートである。図8において、ステップS1において、対象チャンネル信号に対して参照チャンネル信号と録音開始時刻を合わせるように時間差補償処理を行った後、ステップS2において、時間差補償処理後の対象チャンネル信号と、参照チャンネル信号に対してSTFT処理を行う。次いで、ステップS3においてサンプリング周波数のミスマッチεの初期値を設定した後、ステップS4において、ミスマッチεの初期値を用いてミスマッチを補償し、ミスマッチの度合いを評価し、ミスマッチが所定のしきい値以下となるまで補償処理を行う。これにより、参照チャンネル信号のSTFT表現と、ミスマッチ補償済みの対象チャンネル信号のSTFT表現とを得る。   FIG. 8 is a flowchart showing a speech signal processing method for blind compensation according to the first embodiment of the present invention. In FIG. 8, after performing the time difference compensation process so that the reference channel signal and the recording start time are matched with the target channel signal in step S1, the target channel signal and the reference channel signal after the time difference compensation process are processed in step S2. The STFT process is performed on. Next, after setting an initial value of the sampling frequency mismatch ε in step S3, in step S4, the mismatch is compensated using the initial value of the mismatch ε, the degree of mismatch is evaluated, and the mismatch is equal to or less than a predetermined threshold value. Compensation processing is performed until As a result, an STFT representation of the reference channel signal and an STFT representation of the target channel signal after mismatch compensation are obtained.

さらに、本発明者らは、提案手法の性能と非同期アレー信号処理への有効性を検証するため、複数話者の音声の混合のマイクロホンアレーによる観測信号に人工的にサンプリング周波数のミスマッチを与え、提案手法によりサンプリング周波数のミスマッチの補償精度とブラインド音源分離の性能への寄与を評価する。   Furthermore, in order to verify the performance of the proposed method and the effectiveness of the asynchronous array signal processing, the present inventors artificially gave a sampling frequency mismatch to the observation signal by the microphone array of the mixed voice of multiple speakers, The proposed method evaluates the sampling frequency mismatch compensation accuracy and the contribution to blind source separation performance.

まず、実験条件について以下に説明する。   First, experimental conditions will be described below.

使用した観測信号は、2人の話者による発話に実測したインパルス応答を畳み込んで混合したものである。音声はATRデータベースの男女2名ずつの単語発話を話者ごとに繋げたものを用い、2話者ずつの選択の全ての組み合わせを評価した。このようにして作成したマイクロホンアレー観測信号の片方のチャンネルのサンプリング周波数を人為的に変更してサンプリング周波数のミスマッチを模擬した。サンプリング周波数の変更はMATLABのresample関数に実装されているポリフェーズフィルタにより行い、ポリフェーズフィルタの長さは100タップのものを用いた。変更前のサンプリング周波数は16,000Hzで、サンプリング周波数の変更は16,000±0.5、16,000±1、16,000±1.5Hzの6種類とした。これらはそれぞれ±31.25、±62.5、±93.75ppmに相当し、別々のA/D変換器を用いた場合のサンプリング周波数のミスマッチとして現実的な大きさのものである。   The observation signal used is a convolution of the measured impulse response with the speech of two speakers. The speech used was a combination of word utterances of two men and women in the ATR database for each speaker, and all combinations of selections by two speakers were evaluated. A sampling frequency mismatch was simulated by artificially changing the sampling frequency of one channel of the microphone array observation signal thus created. The sampling frequency was changed by a polyphase filter implemented in the sample function of MATLAB, and a polyphase filter having a length of 100 taps was used. The sampling frequency before the change was 16,000 Hz, and the sampling frequency was changed to six types of 16,000 ± 0.5, 16,000 ± 1, and 16,000 ± 1.5 Hz. These correspond to ± 31.25, ± 62.5, and ± 93.75 ppm, respectively, and are practically large as sampling frequency mismatches when separate A / D converters are used.

図9は図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数のミスマッチの推定精度及びサンプリング周波数補償の音源分離精度への寄与の評価を行うときの観測信号作成の実験条件を示す表である。すなわち、音源分離評価のための分離手法には補助関数法独立ベクトル分析(例えば、非特許文献7参照)を用いた。その他の実験条件を図9に示す。   FIG. 9 is a table showing experimental conditions for creating an observed signal when evaluating the estimation accuracy of sampling frequency mismatch and the contribution of sampling frequency compensation to the sound source separation accuracy using the blind compensation speech signal processing method of FIG. is there. That is, an auxiliary function method independent vector analysis (see, for example, Non-Patent Document 7) is used as a separation method for sound source separation evaluation. Other experimental conditions are shown in FIG.

次いで、サンプリング周波数のミスマッチの推定精度について以下に説明する。   Next, estimation accuracy of sampling frequency mismatch will be described below.

図10は図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数のミスマッチの推定精度を測定した実験結果であって、データ長に対するサンプリング周波数のミスマッチεの推定の平均二乗誤差(RMSE)を示すグラフである。図10から明らかなように、最も短い3秒の観測信号でもRMSEは元のサンプリング周波数のミスマッチεの10分の1以下に収束し、データが増えるに従って急速に小さくなる。従って、観測信号の定常性を仮定した尤度がサンプリング周波数のミスマッチの評価尺度として有効であるということがわかる。また、本実験では黄金比探索の収束条件を探索区間長が10−9より小さくなることと定めているが、このために必要な探索の繰り返し回数は30回を超えることがなく、候補を絞り込むための10点の離散値全探索とあわせて40個以下の点で対数尤度関数を評価するだけでこのような高い精度が得られている。 FIG. 10 is an experimental result of measuring the accuracy of sampling frequency mismatch estimation using the blind compensation speech signal processing method of FIG. 4, and shows the mean square error (RMSE) of the estimation of the sampling frequency mismatch ε with respect to the data length. It is a graph to show. As is apparent from FIG. 10, the RMSE converges to 1/10 or less of the mismatch ε of the original sampling frequency even in the shortest observation signal of 3 seconds, and rapidly decreases as the data increases. Therefore, it can be seen that the likelihood assuming the stationarity of the observed signal is effective as an evaluation measure of the sampling frequency mismatch. Further, in this experiment, the convergence condition of the golden ratio search is determined to be that the search interval length is smaller than 10 −9, but the number of search iterations required for this purpose does not exceed 30 times, and the candidates are narrowed down. Such high accuracy is obtained only by evaluating the log-likelihood function at 40 points or less together with the 10-point discrete value full search.

さらに、音源分離への寄与について以下に説明する。サンプリング周波数のミスマッチを提案手法により補償することで、音源分離の性能が回復することを確かめるための評価実験を行った。   Further, the contribution to sound source separation will be described below. An evaluation experiment was conducted to confirm that the sound source separation performance recovered by compensating the sampling frequency mismatch by the proposed method.

図10は図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数のミスマッチの推定精度を測定した実験結果であって、データ長に対するサンプリング周波数のミスマッチεの推定の平均二乗誤差(RMSE)を示すグラフである。また、図11は図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数補償の音源分離精度への寄与の評価を測定した実験結果であって、信号長に対する信号対歪比(SDR)を示すグラフである。さらに、図12は図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数補償の音源分離精度への寄与の評価を測定した実験結果であって、ブラインド音声分離の信号対干渉比(SIR)を示すグラフである。ここで、分離フィルタの学習には与えられた観測信号全体を用いた。評価尺度には、非目的成分の抑圧の強さを表す信号対干渉比(Signal−to−Interference Ratio;SIR)と信号対歪比(Signal−to−Distortion Ratio;SDR)を用いた(例えば、非特許文献8参照)。また、これらの評価値を算出するための参照信号としては、サンプリング周波数の変更を施していないマイクロホンにおける各音源の音像を用いた。   FIG. 10 is an experimental result of measuring the accuracy of sampling frequency mismatch estimation using the blind compensation speech signal processing method of FIG. 4, and shows the mean square error (RMSE) of the estimation of the sampling frequency mismatch ε with respect to the data length. It is a graph to show. FIG. 11 shows experimental results obtained by measuring the contribution of the sampling frequency compensation to the sound source separation accuracy using the blind compensation audio signal processing method of FIG. 4, and shows the signal-to-distortion ratio (SDR) with respect to the signal length. It is a graph to show. Further, FIG. 12 shows experimental results obtained by measuring the evaluation of the contribution of the sampling frequency compensation to the sound source separation accuracy using the blind compensation speech signal processing method of FIG. 4, and the blind speech separation signal-to-interference ratio (SIR). It is a graph which shows. Here, the entire observed signal was used for learning of the separation filter. As the evaluation scale, a signal-to-interference ratio (SIR) and a signal-to-distortion ratio (SDR) representing the intensity of suppression of non-target components were used (for example, Non-patent document 8). In addition, as a reference signal for calculating these evaluation values, a sound image of each sound source in a microphone without changing the sampling frequency was used.

図11及び図12において、「ミスマッチなし」とはサンプリング周波数の変更を施さない場合の音源分離結果を示し、サンプリング周波数のミスマッチを補償した音源分離の性能限界を表す。「未処理」とはサンプリング周波数補償を施さないで音源分離を行った性能を示す。「手動処理」とは正しいサンプリング周波数のミスマッチεを与えて位相補償を施した場合の性能を示す。「本実施形態」とはサンプリング周波数のミスマッチを最尤推定で求めて線形位相で補償する提案手法を示す。   11 and 12, “no mismatch” indicates the sound source separation result when the sampling frequency is not changed, and represents the performance limit of the sound source separation in which the sampling frequency mismatch is compensated. “Unprocessed” indicates the performance of sound source separation without performing sampling frequency compensation. “Manual processing” indicates performance when phase compensation is performed with a correct sampling frequency mismatch ε. The “present embodiment” refers to a proposed method in which a sampling frequency mismatch is obtained by maximum likelihood estimation and compensated with a linear phase.

まず、図10から明らかなように、データ長が長くなるにつれてサンプリング周波数のミスマッチεの推定の平均二乗誤差(RMSE)が小さくなることがわかる。次いで、図11及び図12から明らかなように、未処理のSDRが非常に低い値を示していることから、この条件ではサンプリング周波数のミスマッチの補償をしなければ音源分離ができない厳しい条件であるということがわかる。手動処理で正解のパラメータを与えた位相補償はサンプリング周波数のミスマッチがない場合よりも、SIRとSDRの両方で2dB程度低いだけであり、ブラインド音声分離(BSS)のためのサンプリング周波数のミスマッチ補償にSTFT領域における位相補償が有効であるということがわかる。また、サンプリング周波数のミスマッチをブラインドに推定して補償する提案手法は線形位相補償の性能限界を表す手動処理とほとんど性能差がなく、提案手法の最尤推定の精度の高さを示している。以上より、提案手法はサンプリング周波数のミスマッチにより生じる性能劣化をかなり回復させることができているため、音源分離のためのサンプリング周波数のミスマッチ補償として提案手法が有効であるということが確認された。   First, as is apparent from FIG. 10, it can be seen that the mean square error (RMSE) in estimating the sampling frequency mismatch ε decreases as the data length increases. Next, as is clear from FIGS. 11 and 12, since the unprocessed SDR shows a very low value, this condition is a severe condition in which sound source separation cannot be performed unless the mismatch of the sampling frequency is compensated. I understand that. Phase compensation with correct parameters given by manual processing is only about 2 dB lower in both SIR and SDR than in the case where there is no sampling frequency mismatch, and is used to compensate for sampling frequency mismatch for blind speech separation (BSS). It can be seen that phase compensation in the STFT region is effective. In addition, the proposed method for blindly estimating and compensating for sampling frequency mismatch has almost no performance difference from manual processing that represents the performance limit of linear phase compensation, and shows the high accuracy of maximum likelihood estimation of the proposed method. From the above, it was confirmed that the proposed method is effective as a sampling frequency mismatch compensation for sound source separation because the proposed method can considerably recover performance degradation caused by sampling frequency mismatch.

以上説明したように、本実施形態によれば、非同期マイクロホンアレーで問題となる観測チャンネル間のサンプリング周波数のミスマッチをブラインドに推定する手法を提案した。まず、短い時間間ではチャンネル間の時間差の拡大が無視できるほど小さくなり、フレームの中央のサンプル番号に比例する一定の遅延と見なせることに性質に着目し、STFT領域で線形の位相の補償とによりサンプリング周波数のミスマッチを補償することを提案した。また、観測される音源が定常で移動がないと仮定した、サンプリング周波数のミスマッチの推定を評価する尤度関数を定式化した。さらに、解析的に解けないこの尤度関数の最大化問題の、荒い離散値全探索による範囲の絞り込みと黄金比探索による高速な推定を用いた効率的な解方法を提案した。人工的にサンプリング周波数のミスマッチを与えた音声のサンプリング周波数のミスマッチの推定・補償と音源分離を評価する実験の結果、提案手法はサンプリング周波数のミスマッチを高い精度で推定することができ、また線形位相補償により音源分離性能をサンプリング周波数のミスマッチが起こっていない場合と近いレベルにまで回復できるということがわかり、提案手法の有効性を確認した。   As described above, according to the present embodiment, a method for blindly estimating a sampling frequency mismatch between observation channels, which is a problem in an asynchronous microphone array, has been proposed. First, paying attention to the property that the expansion of the time difference between channels is negligibly small during a short time, and can be regarded as a constant delay proportional to the sample number at the center of the frame, and by linear phase compensation in the STFT region It was proposed to compensate the sampling frequency mismatch. We also formulated a likelihood function that evaluates the estimation of the sampling frequency mismatch assuming that the observed sound source is stationary and does not move. Furthermore, we proposed an efficient solution method of this likelihood function maximization problem that cannot be solved analytically, using a narrowing-down of the range by a rough discrete value full search and a fast estimation by a golden ratio search. As a result of experiments to estimate and compensate for sampling frequency mismatch and to evaluate sound source separation, the proposed method can estimate sampling frequency mismatch with high accuracy and linear phase. It was found that the sound source separation performance can be recovered to a level close to that when no sampling frequency mismatch occurred by compensation, and the effectiveness of the proposed method was confirmed.

第2の実施形態.
第2の実施形態では、議事録作成のための会議録音など、録音後に信号処理により音声強調を行う応用を想定している。ある特定の音源だけが音を生じている時間区間である単一音源区間情報を録音信号に含めることで、この単一音源区間情報から録音開始時刻オフセットとサンプリング周波数のミスマッチの値を推定する手法を提案する。
Second embodiment.
The second embodiment assumes an application in which voice enhancement is performed by signal processing after recording, such as conference recording for creating minutes. A method of estimating the recording start time offset and the sampling frequency mismatch value from this single sound source section information by including single sound source section information, which is the time section in which only a specific sound source produces sound, in the recording signal Propose.

図13は本発明の第2の実施形態に係る非同期マイクロホンアレーにおけるサンプリング周波数のミスマッチの非ブラインド補償方法で用いる時間的に離れた同じ音源による2つの単一音源区間情報を手がかりとした補正方法を示す参照チャンネル信号及び対象チャンネル信号の信号波形を示す信号波形図である。実用上では、例えば会議の開会、閉会の挨拶や、初めの自己紹介など、簡潔な特定話者の音声や、またはチャープ信号のような目印となる同期用の既知音源の音、もしくは演奏前のある楽器の1フレーム演奏音などの音を、録音の最初と最後に鳴らすなどして、ある特定の音源だけが生じている時間区間を、単一音源区間情報として録音を行う。図13に示すように、時間的に離れた同じ音源による2つの単一音源区間情報を手がかりとして、区間情報の録音信号を利用することにより、録音開始時刻オフセットや、サンプリング周波数のミスマッチの算出は容易になると考えられる。各録音デバイスのサンプリング周波数を絶対的に補正するためには、高精度で安定な発振器などが必要になるため、録音信号の1つを基準とし、その信号に対してサンプリング周波数を揃える相対的な補償を考える。全デバイスに録音された単一音源区間情報から、基準の信号との相対的な補正を行い、SN比最大化ビームフォーマを用いた音声強調が容易になるか検証を行う。   FIG. 13 shows a correction method using two single sound source section information by the same sound source separated in time as a clue used in the non-blind compensation method of sampling frequency mismatch in the asynchronous microphone array according to the second embodiment of the present invention. It is a signal waveform diagram which shows the signal waveform of the reference channel signal shown and the object channel signal. In practical use, for example, the opening of a conference, the closing greeting, the introduction of the first self, a brief voice of a specific speaker, or the sound of a known sound source for synchronization that becomes a landmark such as a chirp signal, or before the performance By recording sounds such as a one-frame performance sound of a certain instrument at the beginning and end of recording, recording is performed as single sound source section information in a time section in which only a specific sound source is generated. As shown in FIG. 13, the recording start time offset and the sampling frequency mismatch can be calculated by using the recording signal of the section information by using two single sound source section information by the same sound source separated in time as a clue. It will be easier. In order to absolutely correct the sampling frequency of each recording device, a highly accurate and stable oscillator is required. Therefore, relative to one of the recording signals and the sampling frequency aligned with that signal. Consider compensation. From the single sound source section information recorded in all the devices, the relative correction with the reference signal is performed, and it is verified whether the speech enhancement using the S / N ratio maximizing beamformer becomes easy.

まず、チャンネル間のサンプリング周波数のミスマッチについて以下に説明する。   First, sampling frequency mismatch between channels will be described below.

第2の実施形態では、公称サンプリング周波数が同じである録音機器間におけるクロックの個体差によるサンプリング周波数のミスマッチについて扱う。以下、チャンネル間のサンプリング周波数のミスマッチが生じた場合、どのような影響があるかをアナログ波形とディジタル波形の関係から議論する。   In the second embodiment, sampling frequency mismatch due to individual differences in clocks between recording devices having the same nominal sampling frequency is handled. In the following, the influence of the sampling frequency mismatch between channels will be discussed from the relationship between the analog waveform and the digital waveform.

図1に示すように、マイクロホン1とマイクロホン2には、マイクロホン間の距離による到達時間差が生じて音波(それぞれ参照チャンネル信号、対象チャンネル信号という。)が到達する。このアナログ波形のディジタル波形への変換を考える。マイクロホン2のサンプリング周波数がマイクロホン1よりもやや高い時、連続時間区間におけるマイクロホン2のディジタル波形のサンプル数は、マイクロホン1の同連続時間区間に対応するディジタル波形に比べ多くなってしまう。これによりマイクロホン1とマイクロホン2のディジタル波形を比較すると、図1(b)に示すように、マイクロホン2のディジタル波形はマイクロホン1よりやや伸びた形となってしまう。このことから、チャンネル間のサンプリング周波数のミスマッチは波形の伸縮を引き起こす。また、チャンネル間の録音開始時刻によるオフセットが生じた場合、図2に示すように、波形はシフトしてしまう。   As shown in FIG. 1, a difference in arrival time due to the distance between the microphones is generated in the microphone 1 and the microphone 2, and sound waves (referred to as a reference channel signal and a target channel signal, respectively) arrive. Consider the conversion of this analog waveform to a digital waveform. When the sampling frequency of the microphone 2 is slightly higher than that of the microphone 1, the number of samples of the digital waveform of the microphone 2 in the continuous time interval is larger than that of the digital waveform corresponding to the same continuous time interval of the microphone 1. As a result, when the digital waveforms of the microphone 1 and the microphone 2 are compared, the digital waveform of the microphone 2 becomes slightly longer than the microphone 1 as shown in FIG. From this, the sampling frequency mismatch between channels causes the waveform to expand and contract. Also, when an offset due to the recording start time between channels occurs, the waveform shifts as shown in FIG.

図14は図13の非同期マイクロホンアレーにおけるサンプリング周波数のミスマッチの非ブラインド補償方法における参照チャンネル信号及び対象チャンネル信号の時間差τ及びτを示す信号波形図である。図15(a)は図14の参照チャンネル信号及び対象チャンネル信号に対する録音開始時刻のオフセット補償方法を示すオフセット補償方法の補償前の各信号の信号波形図であり、図15(b)はその補償後の各信号の信号波形図である。図14において、観測信号の最初と最後の部分に同一の音源のみが含まれていることを仮定し、相互相関関数のピークより時間差τ,τを算出し、チャンネル間の時間差を推定して、次式によりサンプリング周波数のミスマッチεを求める。 FIG. 14 is a signal waveform diagram showing the time differences τ A and τ B between the reference channel signal and the target channel signal in the non-blind compensation method for sampling frequency mismatch in the asynchronous microphone array of FIG. FIG. 15A is a signal waveform diagram of each signal before compensation of the offset compensation method showing the offset compensation method of the recording start time for the reference channel signal and the target channel signal of FIG. 14, and FIG. It is a signal waveform diagram of each subsequent signal. In FIG. 14, assuming that only the same sound source is included in the first and last portions of the observation signal, the time differences τ A and τ B are calculated from the peaks of the cross correlation function, and the time difference between the channels is estimated. Thus, the sampling frequency mismatch ε is obtained by the following equation.

ε=(τ−τ)/D ε = (τ B −τ A ) / D 1

ここで、Dは各同一音源間の時間差(サンプル)である。図15(a)に示すように、録音開始時刻が存在すると、時間周波数領域においてチャンネル間の各フレーム同士で対応がとれず、当該領域で処理を行うために大きな時刻オフセットを補償する必要がある。次いで、図15(b)に示すように、対象チャンネル信号に対して時間差τだけ時刻オフセット補償を行うことで録音開始時刻付近の単一音源区間情報を用いて、参照チャンネル信号に対して対象チャンネル信号を録音開始時刻のオフセット補償を行うことができる。 Here, D 1 is a time difference (sample) between the same sound sources. As shown in FIG. 15A, when the recording start time exists, it is not possible to correspond to each frame between channels in the time-frequency domain, and it is necessary to compensate for a large time offset in order to perform processing in that area. . Next, as shown in FIG. 15B, the target channel signal is subject to the reference channel signal using the single sound source section information near the recording start time by performing time offset compensation by the time difference τ A. The offset compensation of the recording start time can be performed on the channel signal.

今回、音声強調手法として用いるSN比最大化ビームフォーマは、出力信号中の目的話者信号(信号成分)とノイズ及び話者成分(ノイズ成分)のパワー比を最大化するように、ノイズ成分方位に死角を向けた指向特性を形成することにより音声強調を行う手法である。この手法は、適応ビームフォーマの形成に必要なステアリングベクトルを必要とせず、残響下においても効果を期待される手法である。事前にステアリングベクトルを必要としないため、しばしばマイクロホンアレー処理で用いられるマイクロホン間距離による位相差を用いる必要がなく、録音開始時刻オフセットの補正を行ってもビームフォーマの適用が可能となり、非同期マイクロホンアレーによる音声強調に適している手法といえる。   This time, the signal-to-noise maximization beamformer used as a speech enhancement method maximizes the power ratio of the target speaker signal (signal component) to the noise and speaker component (noise component) in the output signal. This is a technique for performing speech enhancement by forming a directivity characteristic with a blind spot facing to the center. This method does not require a steering vector necessary for forming an adaptive beamformer, and is expected to be effective even under reverberation. Since a steering vector is not required in advance, it is not necessary to use a phase difference due to the distance between microphones, which is often used in microphone array processing, and a beamformer can be applied even if the recording start time offset is corrected. It can be said that this method is suitable for speech enhancement using

しかし、ノイズ成分方向に死角を形成するビームフォーマであるため、サンプリング周波数のミスマッチによる影響は受けることになる。SN比最大化ビームフォーマの設計に必要な、観測信号の共分散行列はサンプリング周波数のミスマッチの影響があると変化してしまうため、長い録音区間において録音開始時刻周辺で作成したビームフォーマは後ろの区間では適用できない。例えば、マイクロホン間距離2.5cm、サンプリング周波数48kHz、音速340m/sの条件下で、1秒当たり1サンプルチャンネル間でずれが生じる場合、約74°方位が変わること相当するため、ビームフォーマが形成する指向角から大きく外れてしまうことが考えられる。このことからチャンネル間におけるサンプリング周波数のミスマッチはSN比最大化ビームフォーマを用いた音声強調において大幅な性能劣化を引き起こすことになる。   However, since it is a beamformer that forms a blind spot in the noise component direction, it is affected by the sampling frequency mismatch. Since the covariance matrix of the observation signal necessary for the design of the S / N ratio maximizing beamformer changes if there is an influence of sampling frequency mismatch, the beamformer created around the recording start time in the long recording section Not applicable in the section. For example, when a deviation occurs between one sample channel per second under the conditions of a distance between microphones of 2.5 cm, a sampling frequency of 48 kHz, and a sound speed of 340 m / s, this corresponds to a change of about 74 ° azimuth, thus forming a beam former It is conceivable that the direction angle will deviate greatly. For this reason, a mismatch in sampling frequency between channels causes a significant performance degradation in speech enhancement using the S / N ratio maximizing beamformer.

次いで、録音開始時刻オフセットの補正とサンプリング周波数のミスマッチの線形位相補償について以下に説明する。   Next, the correction of the recording start time offset and the linear phase compensation of the sampling frequency mismatch will be described below.

まず、ミスマッチの時間領域モデルについて定義する。同時刻における2つのマイクロホン信号xO1(t),xO2(t)(tは連続時間)が別々のA/D変換器でサンプリングされ離散信号x(n),x(n)(n,nはサンプル番号)が得られたとする。ここで、信号x(n)のサンプリング周波数はf、信号x(n)のサンプリング周波数は未知のミスマッチεにより表される(1+ε)fであるとする。このとき離散信号と連続信号の関係は以下のように表される。 First, a mismatch time domain model is defined. Two microphone signals x O1 (t) and x O2 (t) (t is a continuous time) at the same time are sampled by separate A / D converters, and discrete signals x 1 (n 1 ) and x 2 (n 2 ) are sampled. It is assumed that (n 1 and n 2 are sample numbers) is obtained. Here, the sampling frequency of the signal x 1 (n 1 ) is f s , and the sampling frequency of the signal x 2 (n 2 ) is (1 + ε) f s represented by an unknown mismatch ε. At this time, the relationship between the discrete signal and the continuous signal is expressed as follows.

Figure 0006278294
Figure 0006278294
Figure 0006278294
Figure 0006278294

ここで、T(i=1,2)は信号x(n)の録音開始時刻を表す。ここで、第iチャンネル(i=1,2)の同時刻tを参照するサンプル番号nは次式で表される。 Here, T i (i = 1, 2) represents the recording start time of the signal x i (n i ). Here, sample number n i to refer to the same time t of the i-th channel (i = 1, 2) is expressed by the following equation.

=(t−T)f (32)
=(1+ε)(t−T)f (33)
n 1 = (t−T 1 ) f s (32)
n 2 = (1 + ε) (t−T 2 ) f s (33)

ここで、チャンネル1の録音開始時刻T=0とすると、式(30)と式(32)は次式で表される。 Here, assuming that the recording start time T 1 = 0 of channel 1, equations (30) and (32) are expressed by the following equations.

Figure 0006278294
Figure 0006278294
Figure 0006278294
Figure 0006278294

また、この時録音開始時刻差T−T=Tをτサンプルと置くと、次式を得る。 If the recording start time difference T 2 −T 1 = T 2 is set as τ 2 samples at this time, the following equation is obtained.

Figure 0006278294
Figure 0006278294

以上から、nはnを用いて、次式で表される。 From the above, n 2 is expressed by the following equation using n 1 .

Figure 0006278294
Figure 0006278294

サンプル番号nが参照する時刻に対応するサンプル番号nを参照する。 Reference is made to sample number n 2 corresponding to the time referred to by sample number n 1 .

次いで、ミスマッチの時間周波数領域モデリングについて以下に説明する。   Next, mismatch time-frequency domain modeling will be described below.

図16は図15の録音開始時刻のオフセット補償方法においてサンプリング周波数のミスマッチ補償方法において対象チャンネル信号に時刻ドリフトを考慮したフレームの切り出しを示す信号波形図である。また、図17は図15の録音開始時刻のオフセット補償方法においてサンプリング周波数のミスマッチ補償方法において各フレームの切り出し位置のオフセット補償及びフレーム内での位相シフトを示す信号波形図である。図16において、時間周波数領域におけるサンプリング周波数のミスマッチを補償するときに、補償チャンネルである対象チャンネル信号に対して時刻ドリフトを考慮したフレーム切り出しを行う。ここで、参照チャンネル信号のフレーム切り出しは単に等間隔Mで行い、rフレーム目の先頭サンプル番号はrMサンプル目となる。また、対象チャンネル信号の切り出しはミスマッチεを考慮したシフト幅(1+ε)Mで行い、参照チャンネル信号のrフレーム目に対応するフレーム先頭サンプル番号は(1+ε)rMサンプル目となる。図17において、各フレームの切り出し位置のオフセット補償を整数サンプル単位で補償を行う。従って、シフト幅が(1+ε)M倍の丸め込みであるround[(1+ε)r1M]になるSTFT分析を行う。次いで、フレーム内での位相シフトを詳細後述するように行う。 FIG. 16 is a signal waveform diagram showing frame cutout in consideration of time drift in the target channel signal in the sampling frequency mismatch compensation method in the recording start time offset compensation method of FIG. FIG. 17 is a signal waveform diagram showing offset compensation of the cut-out position of each frame and phase shift in the frame in the sampling frequency mismatch compensation method in the recording start time offset compensation method of FIG. In FIG. 16, when compensating for a sampling frequency mismatch in the time-frequency domain, frame segmentation considering time drift is performed on the target channel signal that is a compensation channel. Here, the frame extraction of the reference channel signal is simply performed at equal intervals M, and the leading sample number of the r 1st frame is the r 1 Mth sample. Also, it cuts out of the target channel signal carried by mismatch shift width in consideration of ε (1 + ε) M, the frame top Sample number corresponding to r 1 th frame of the reference channel signal is (1 + ε) r 1 M-th sample. In FIG. 17, the offset compensation of the cutout position of each frame is performed in integer sample units. Therefore, STFT analysis is performed in which the shift width is round [(1 + ε) r1M], which is rounded by (1 + ε) M times. Next, the phase shift within the frame is performed as described in detail later.

すなわち、第2の実施形態では、各フレームの開始サンプル数のオフセットをフレーム切り出しにより補正し、フレーム切り出し補正後の、フレーム内における位相ずれの補正を時間周波数領域内で行うことを特徴としている。   That is, the second embodiment is characterized in that the offset of the start sample number of each frame is corrected by frame cutout, and the phase shift correction in the frame after the frame cutout correction is performed in the time frequency domain.

まずフレーム切り出しによる時間オフセット補正について議論する。   First, we discuss time offset correction by frame segmentation.

参照チャンネル信号のチャンネル1のn(t)=Nサンプル目からN+N’サンプル目までを切り出し、それに対応する対象チャンネル信号のチャンネル2の録音信号を補正する時、フレームの時刻ドリフトを考慮したフレーム切り出しをチャンネル2に施す必要がある。チャンネル1の切り出しサンプル番号Nと補正区間における各フレームの開始位置に対応するサンプル番号n(r)は、フレーム番号をr(r=0,…,R−1)、フレームシフト長をMとすることにより、次式で表される。 A frame that takes into account the time drift of the frame when cutting n 1 (t) = N samples to N + N ′ samples of the reference channel signal channel 1 and correcting the corresponding recording signal of channel 2 of the target channel signal. It is necessary to cut out channel 2. The cut-out sample number N of channel 1 and the sample number n 1 (r) corresponding to the start position of each frame in the correction section have a frame number r (r = 0,..., R−1) and a frame shift length M. By doing so, it is expressed by the following equation.

(r)=N+rM (40) n 1 (r) = N + rM (40)

補正区間の開始時刻を0とすると、切り出し区間における各フレームに対応するサンプル番号n’(r)は次式で表される。 If the start time of the correction section is 0, the sample number n 1 ′ (r) corresponding to each frame in the cut-out section is expressed by the following equation.

’(r)=n(r)−N=rM (41) n 1 ′ (r) = n 1 (r) −N = rM (41)

また、チャンネル2の補正区間における各フレームに対応するサンプル番号n’(r)は次式で表される。 The sample number n 2 ′ (r) corresponding to each frame in the correction section of channel 2 is expressed by the following equation.

’(r)=(1+ε)n(r)−τ−N (42) n 2 ′ (r) = (1 + ε) n 1 (r) −τ 2 −N (42)

以上で求めたサンプル番号により各チャンネルのフレームを切り出すことにより、各フレーム切り出し地点での時間オフセットによる影響は補正される。   By cutting out the frame of each channel based on the sample number obtained above, the influence of the time offset at each frame cutout point is corrected.

次に、フレーム内における位相シフトを考える。   Next, consider the phase shift in the frame.

サンプル番号n’(r)における各フレーム内で、サンプル番号n’(r)の各フレームの位相と対応するように、εrMサンプルに相当する遅延を与える必要がある。サンプル番号nの時間周波数領域信号をX(k,r)(k=−L/2+1,…,L/2は周波数番号)とすると、サンプル番号n’(r)の位相シフトによりサンプリング周波数のミスマッチを補償した時間周波数領域信号

Figure 0006278294
を以下のように求める。 Sample number n 2 'in each frame in (r), the sample number n 1' so as to correspond to the phase of each frame (r), it is necessary to provide a delay corresponding to εrM sample. If the time frequency domain signal of sample number n 2 is X 2 (k, r) (k = −L / 2 + 1,..., L / 2 are frequency numbers), sampling is performed by the phase shift of sample number n 2 ′ (r). Time-frequency domain signal compensated for frequency mismatch
Figure 0006278294
Is obtained as follows.

Figure 0006278294
Figure 0006278294

ここで、jは虚数単位、Lはフレーム長である。   Here, j is an imaginary unit, and L is a frame length.

さらに、単一音源区間情報を用いた録音開始時刻オフセットとサンプリング周波数のミスマッチの補正について以下に説明する。   Further, correction of the mismatch between the recording start time offset and the sampling frequency using the single sound source section information will be described below.

以上で議論した補償を実現するため、以下では単一音源区間情報を利用する。初めと最後に単一音源区間情報が得られている録音信号を録音し、その区間を利用し録音開始時刻オフセットとサンプリング周波数のミスマッチを導出する。まず、各チャンネル、初めと最後(以下、録音前半部をA部、録音後半部をB部とする。)における区間情報部を切り出し、同区間においてチャンネル間でクロススペクトルの逆フーリエ変換を取ることにより相互相関を計算する。これにより、各チャンネル同区間においての時間オフセットを得ることができる。参照チャンネル信号との対象チャンネル信号におけるサンプリング周波数のミスマッチ(1+ε)は、各チャンネルのA部及びB部における単一音源区間情報間のサンプル数をそれぞれD、Dとすることにより次式で表される。 In order to realize the compensation discussed above, single sound source section information is used below. The recording signal from which the single sound source section information is obtained is recorded at the beginning and the end, and the mismatch between the recording start time offset and the sampling frequency is derived using the section. First, the section information part in each channel, the beginning and the end (hereinafter, the first half of recording is A part and the latter half of recording is B part) is cut out, and the inverse spectrum transform of the cross spectrum is performed between the channels in the same section. To calculate the cross-correlation. Thereby, the time offset in the same section of each channel can be obtained. The sampling frequency mismatch (1 + ε) in the target channel signal with the reference channel signal is expressed by the following equation by setting the number of samples between the single sound source section information in the A part and the B part of each channel as D 1 and D 2 , respectively. expressed.

Figure 0006278294
Figure 0006278294

D1、D2のサンプル数は、基準信号チャンネルにおけるA部及びB部の単一音源区間開始サンプル番号をそれぞれ、n(t),n(t)とし、チャンネル2の同時刻におけるサンプル番号をn(t),n(t)とし、
=n(t)−n(t) (17)
と置くと各チャンネル同区間においての相互相関のピーク差τ、τを用いて次式で表される。
The number of samples D1 and D2 is the number of samples A and B in the reference signal channel, where n 1 (t A ) and n 1 (t B ) are the single sound source section start sample numbers, respectively. The numbers are n 2 (t A ), n 2 (t B ),
D 1 = n 1 (t B ) -n 1 (t A) (17)
Is expressed by the following equation using the cross-correlation peak differences τ A and τ B in the same section of each channel.

Figure 0006278294
Figure 0006278294

以上で得られた値を用いて、上述のサンプリング周波数のミスマッチ補償を行う。   The above-described sampling frequency mismatch compensation is performed using the values obtained above.

本発明者らは、以上で示したサンプリング周波数のミスマッチ補償の動作をSN比最大化ビームフォーマを用いた音声強調により確認する。本実施形態ではステレオ録音可能な録音機器2台、計4チャンネルを用いて一時間程度の録音を行った。音源数は男性音声、女性音声それぞれ1音声を使用し、また区間情報としてA部、B部にそれぞれチャープ信号の録音を行った。チャープ信号は有限時間内に低周波から高周波までスイープする信号であり、相互相関を取るとピークがインパルスとして発生するため、ミスマッチ推定に最適であることから今回使用する。音声強調にはSN比最大化ビームフォーマを用い、出力結果の波形を録音開始時刻オフセットのみ揃えた場合とサンプリング周波数のミスマッチ補償を行った場合と比較することによりミスマッチ補償の有効性を確認する。サンプリング周波数は48000Hz、フレーム幅は8192サンプル、フレームシフト幅は4096サンプルとして実験を行った。   The present inventors confirm the above-described sampling frequency mismatch compensation operation by speech enhancement using a S / N ratio maximizing beamformer. In this embodiment, recording was performed for about one hour using two recording devices capable of stereo recording and a total of four channels. As the number of sound sources, one male voice and one female voice were used, and chirp signals were recorded in section A and section B as section information. The chirp signal is a signal that sweeps from a low frequency to a high frequency within a finite time. Since a peak is generated as an impulse when cross-correlation is taken, it is used this time because it is optimal for mismatch estimation. The S / N maximization beamformer is used for speech enhancement, and the effectiveness of mismatch compensation is confirmed by comparing the case where the waveform of the output result is aligned with only the recording start time offset and the case where the sampling frequency mismatch compensation is performed. The experiment was conducted with a sampling frequency of 48000 Hz, a frame width of 8192 samples, and a frame shift width of 4096 samples.

図18は第2の実施形態に係るサンプリング周波数のミスマッチ補償の動作を、SN比最大比ビームフォーマを用いた音声強調の実験結果であって、区間A部における強調結果を示す各信号の信号波形図である。また、図19は第2の実施形態に係るサンプリング周波数のミスマッチ補償の動作を、SN比最大比ビームフォーマを用いた音声強調の実験結果であって、区間B部における強調結果を示す各信号の信号波形図である。ここで、長時間の録音信号にも適用が可能であるか、A部及びB部の同音声部を比較する。A部での協調結果を図18、B部での協調結果を図19に示す。出力1は、録音開始時刻のみを揃え、サンプリング周波数のミスマッチ補償を行わずにビームフォーマを適用した結果であり、出力2は、録音開始時刻を揃え、サンプリング周波数のミスマッチの補償後、ビームフォーマを適用した結果である。なお、ビームフォーマはA部で学習し作成したものを図18及び図19に適用した。   FIG. 18 shows the result of speech enhancement experiment using the S / N ratio maximum ratio beamformer for the sampling frequency mismatch compensation operation according to the second embodiment, and shows the signal waveform of each signal indicating the enhancement result in the section A. FIG. FIG. 19 shows the results of the speech enhancement experiment using the S / N ratio maximum ratio beamformer for the sampling frequency mismatch compensation operation according to the second embodiment. It is a signal waveform diagram. Here, it is possible to apply to a long-time recording signal, or the same audio part of the A part and the B part are compared. FIG. 18 shows the result of cooperation in part A, and FIG. 19 shows the result of cooperation in part B. Output 1 is the result of applying only the recording start time and applying the beamformer without compensating the sampling frequency mismatch. Output 2 is the result of aligning the recording start time and compensating for the sampling frequency mismatch, It is the result of applying. The beamformer learned and created in part A was applied to FIGS.

図18及び図19において、波形を比較した結果、A部で作成したビームフォーマを録音開始時刻のみ揃えて適用した場合、A部では音声強調が可能であるが、B部においてはビームフォーマが適用できないことがわかる。今回の録音データでは、相対的なミスマッチが1サンプルあたり9.45×10−7サンプルであり、録音機器間のサンプリング周波数のミスマッチとしては比較的小さいため、A部の録音開始時刻に近い時刻においてはそこまでミスマッチによる影響が起きず、B部の録音開始時刻に離れた時刻ではミスマッチの影響が大きくなっているからだと考えられる。また、A部で作成したビームフォーマを録音開始時刻を揃え、サンプリング周波数のミスマッチ補償を行った上で適用した場合、A部もB部も概ね良好な音声強調結果を得ることができた。このことから、サンプリング周波数のミスマッチの補償は長い録音区間でも効果があると考えられる。 18 and 19, as a result of comparing the waveforms, when the beamformer created in part A is applied with only the recording start time aligned, speech enhancement is possible in part A, but the beamformer is applied in part B. I understand that I can't. In this recording data, the relative mismatch is 9.45 × 10 −7 samples per sample, and the sampling frequency mismatch between recording devices is relatively small, so at a time close to the recording start time of the A section. This is considered to be because the influence of the mismatch does not occur so far, and the influence of the mismatch becomes large at the time away from the recording start time of the B section. Further, when the beamformer created in the A part is applied after the recording start times are aligned and the sampling frequency mismatch compensation is performed, the A part and the B part can obtain a generally good speech enhancement result. From this, it is considered that the compensation of the sampling frequency mismatch is effective even in a long recording section.

以上説明したように、本実施形態によれば、議事録作成のための会議録音など、予め非同期マイクロホンアレーを用いた音声強調を行うことを目的として、録音信号の最初と最後に単一音源区間情報を録音し、この区間情報から録音開始時刻オフセットとサンプリング周波数のミスマッチの値を得る手法の提案を行った。区間情報からの録音開始時刻オフセットとサンプリング周波数のミスマッチの値を推定、補償後、前半部で作成したSN比最大化ビームフォーマを長い録音の後半部にも適用することにより、その動作を検証した。その結果、区間情報を録音信号の前後に録音すれば、比較的簡単に非同期デバイスによる録音信号のチャンネル間同期を行えることを確認した。   As described above, according to the present embodiment, for the purpose of performing speech enhancement using an asynchronous microphone array in advance, such as conference recording for creating minutes, a single sound source section is provided at the beginning and end of a recorded signal. We proposed a method of recording information and obtaining the value of mismatch between recording start time offset and sampling frequency from this section information. After estimating and compensating the recording start time offset from the section information and the sampling frequency mismatch, the operation was verified by applying the SN ratio maximizing beamformer created in the first half to the second half of the long recording. . As a result, it was confirmed that if the section information was recorded before and after the recording signal, it was relatively easy to synchronize the recording signal between channels using an asynchronous device.

第3の実施形態.
第3の実施形態では、x(n)を参照チャンネル信号、x(n)を対象チャンネル信号とよび、対象チャンネル信号x(n)に信号処理を行うことによって、参照チャンネル信号x(n)に同期させるものとする。ただし、nは離散時刻を表す。具体的には、マイクロホンアレー信号処理の適用を想定してSTFT領域上での同期を目的とし、時間領域上での同期が必要な場合には、最終段で逆STFTを行うことで行う。
Third embodiment.
In the third embodiment, x 1 (n) is referred to as a reference channel signal, x 2 (n) is referred to as a target channel signal, and signal processing is performed on the target channel signal x 2 (n), whereby the reference channel signal x 1 is processed. It shall be synchronized with (n). However, n represents a discrete time. Specifically, it is intended to synchronize on the STFT region assuming application of microphone array signal processing, and when synchronization on the time domain is required, the inverse STFT is performed at the final stage.

録音開始時刻の差とサンプリング周波数のミスマッチによって、参照チャンネルのnサンプル目と対象チャンネルのnサンプル目は次式のように対応するとモデル化できる。 Due to the difference in the recording start time and the sampling frequency mismatch, the n 1 sample of the reference channel and the n 2 sample of the target channel can be modeled as corresponding as follows:

=(1+ε)n+τ (49) n 2 = (1 + ε) n 1 + τ 0 (49)

ただし、εは、参照チャンネルに対する対象チャンネルのサンプリング周波数の相対的なずれ、τは、参照チャンネルにおけるn=0と同じ連続時刻に対応する対象チャンネルの離散時刻を表す。なお、第1の実施形態における式(2)を、次式として表記している。
τ=−f21
Here, ε represents a relative shift of the sampling frequency of the target channel with respect to the reference channel, and τ 0 represents a discrete time of the target channel corresponding to the same continuous time as n 1 = 0 in the reference channel. In addition, Formula (2) in 1st Embodiment is described as following Formula.
τ 0 = −f s T 21

第3の実施形態の目的は、第1の実施形態に係るブラインド同期手法と、第2の実施形態に係る非ブラインド同期手法と、また、それぞれに用いられている手法を整理し、統一的に位置づけ、説明不足な点を補足することにある。統一的な見やすさのため、元の実施形態と異なる表記を用い、また訂正している。   The purpose of the third embodiment is to unify the blind synchronization method according to the first embodiment, the non-blind synchronization method according to the second embodiment, and the methods used for each, and to unify them. Positioning and supplementing the lack of explanation. For the sake of uniform visibility, different notation from the original embodiment is used and corrected.

まず、基本アルゴリズムについて以下に説明する。   First, the basic algorithm will be described below.

時間区間信号を用いた時間差推定において、参照チャンネル信号x(n)の[nA1−(N/2),nA1+(N/2)−1]の時間区間(以下、区間Aという)を考える。ここで、nA1,Nは離散時間領域における区間中心と区間長をそれぞれ表す。区間Aの参照チャンネル信号に対し、同じ信号長で最も相関が高くなる対象チャンネルの時間区間の時間差を求めるためには、以下の相互相関関数(なお、第2の実施形態からインデックスを再修正した)

Figure 0006278294
を最大にする時間差τ、すなわち、
Figure 0006278294
を求めればよい。 In the time difference estimation using the time interval signal, the time interval (hereinafter referred to as interval A) of [n A1 − (N A / 2), n A1 + (N A / 2) −1] of the reference channel signal x 1 (n). Think). Here, n A1 and N A represent the section center and section length in the discrete time domain, respectively. In order to obtain the time difference of the time section of the target channel having the highest correlation with the same signal length with respect to the reference channel signal of the section A, the following cross-correlation function (note that the index was re-corrected from the second embodiment) )
Figure 0006278294
The time difference τ that maximizes
Figure 0006278294
You can ask for.

ただし、時間差τは、サンプリング周波数のミスマッチによって生じているチャンネル間時間差に加え、音源とマイクロホンの配置に依存した区間Aにおける平均的な到来時間差を含んでいることに注意する必要がある。なお、式(50)の代わりに、φ12(τ)を任意の線形時不変フィルタに通した一般化相互相関関数を用いることも可能であるし、また、式(50)の計算をFFTを利用して行うことも可能である。 However, it should be noted that the time difference τ A includes an average arrival time difference in the section A depending on the arrangement of the sound source and the microphone, in addition to the inter-channel time difference caused by the sampling frequency mismatch. Instead of the equation (50), it is also possible to use a generalized cross-correlation function obtained by passing φ 12 (τ) through an arbitrary linear time-invariant filter. It is also possible to use it.

次いで、2つの時間区間を用いたサンプリング周波数のミスマッチ推定について以下に説明する。   Next, sampling frequency mismatch estimation using two time intervals will be described below.

参照チャンネル信号x(n)の[nA1−N/2,nA1+N/2−1]の時間区間(以下、区間Aという。)、[nB1−N/2、nB1+N/2−1]の時間区間(以下、区間Bという。)から、前述のアルゴリズムにより、区間A、区間Bの信号波形に関する、参照チャンネルに対する対象チャンネルの時間遅れτ、τがそれぞれ求まったものとする。いま、音源に対する到来時間差の影響を無視すれば、式(49)及び式(50)より、次式を得る。 [N A1 −N A / 2, n A1 + N A / 2-1] time interval of the reference channel signal x 1 (n) (hereinafter referred to as interval A), [n B1 −N B / 2, n B1 + N B / 2-1] from the time interval (hereinafter referred to as interval B), the time delays τ A and τ B of the target channel with respect to the reference channel with respect to the signal waveforms in interval A and interval B are respectively determined by the algorithm described above. Suppose that it was found. If the influence of the arrival time difference on the sound source is ignored, the following equation is obtained from the equations (49) and (50).

A1+τ=(1+ε)nA1+τ (52)
B1+τ=(1+ε)nB1+τ (53)
n A1 + τ A = (1 + ε) n A1 + τ 0 (52)
n B1 + τ B = (1 + ε) n B1 + τ 0 (53)

式(52)及び式(53)より、次式で表される。   From the formula (52) and the formula (53), it is expressed by the following formula.

Figure 0006278294
Figure 0006278294
Figure 0006278294
Figure 0006278294

これにより、ミスマッチε及び時間差τを求めることができる。ここで、式(53)は第2の実施形態の式(48)に対応する。 Thereby, mismatch ε and time difference τ 0 can be obtained. Here, Expression (53) corresponds to Expression (48) of the second embodiment.

次いで、不等間隔フレームシフトと位相補償によるSTFT表現について以下に説明する。   Next, STFT expression by unequal interval frame shift and phase compensation will be described below.

いま、式(49)におけるミスマッチεと時間差τの大まかな推定値が得られているものとし、これを元に、参照チャンネル信号と対象チャンネル信号で、フレーム中心が互いに対応するようなSTFT表現を求めたい。フレームシフトはともにLの長さとする。いま、フレーム番号をrとし、対象チャンネル信号及び参照チャンネル信号のr番目のフレームの中心サンプルをそれぞれm(r),m(r)と表す。参照チャンネル信号に対しては、
(r)=Mr (56)
のように、一定のフレームシフト長Mを適用してSTFT表現を求める。
Now, it is assumed that a rough estimate of mismatch ε and time difference τ 0 in equation (49) has been obtained, and based on this, STFT representation in which the frame centers correspond to each other in the reference channel signal and the target channel signal. I want to ask. Both frame shifts have a length of L. Now, the frame number is r, and the center samples of the r-th frame of the target channel signal and the reference channel signal are represented as m 1 (r) and m 2 (r), respectively. For reference channel signals,
m 1 (r) = Mr (56)
As described above, the STFT expression is obtained by applying a certain frame shift length M.

Figure 0006278294
Figure 0006278294

ただし、
w(l)(0≦l≦L−1)
は窓関数である。一方、対象チャンネル信号に対しては、推定されたミスマッチεと時間差τを用い、
(r)=(1+ε)m(r)+τ
=(1+ε)Mr+τ (58)
のようにフレーム中心を定めたいが、一般にこれは非整数となってしまう。
However,
w (l) (0 ≦ l ≦ L-1)
Is a window function. On the other hand, for the target channel signal, the estimated mismatch ε and time difference τ 0 are used,
m 2 (r) = (1 + ε) m 1 (r) + τ 0
= (1 + ε) Mr + τ 0 (58)
However, this is generally a non-integer.

従って、
(r)=round[(1+ε)Mr+τ] (59)
δ(r)=((1+ε)Mr+τ)−round[(1+ε)Mr+τ
(60)
のように、m(r)は整数部分のみとして小数部分をΔ(r)に分離し、整数サンプルシフトと周波数領域での位相補償による小数サンプルシフトを組み合わせ、次式のように対象チャンネル信号のSTFT表現を求める。
Therefore,
m 2 (r) = round [(1 + ε) Mr + τ 0 ] (59)
δ (r) = ((1 + ε) Mr + τ 0 ) −round [(1 + ε) Mr + τ 0 ]
(60)
, M 2 (r) separates the fractional part into Δ (r) with only the integer part, combines the integer sample shift and the fractional sample shift by phase compensation in the frequency domain, and the target channel signal is expressed by the following equation: Find the STFT representation of

Figure 0006278294
Figure 0006278294

ここで、ε=0であれば、Δ(r)=0となり、フレームシフト一定の通常のSTFTに帰着することに注意する。   Note that if ε = 0, Δ (r) = 0, which results in a normal STFT with a constant frame shift.

次いで、STFT領域上でのサンプリング周波数のミスマッチのブラインド推定と線形位相補償について以下に説明する。   Next, blind estimation of sampling frequency mismatch and linear phase compensation on the STFT region will be described below.

基本的には、第1の実施形態に記載のとおりであるが、ここでは、対象チャンネルSTFT表現X(k,r)の、第rフレームを起点とした位相補償

Figure 0006278294
を最尤法により最適化し、
ε←ε+ε’ (63)
となるサンプリング周波数推定の修正を求める手法について述べる。起点となる第rフレームは、フレーム数をRとして
=R/2 (64)
のように中央のフレームを与えるのが適当であろう。適切な位相補償を施したSTFT領域の多チャンネル信号 Basically, as described in the first embodiment, here, the phase compensation of the target channel STFT expression X 2 (k, r) starting from the r 0th frame is used.
Figure 0006278294
Is optimized by the maximum likelihood method,
ε ← ε + ε '(63)
A method for obtaining correction of sampling frequency estimation is described. The starting r 0th frame is R 0 = R / 2 (64), where R is the number of frames.
It would be appropriate to give a central frame like Multi-channel signal in STFT area with proper phase compensation

Figure 0006278294
は、音源の移動がないと仮定すると定常であるとみなすことができ、確率密度関数が以下のように与えられる零平均多変量正規分布に従うと考えられる。
Figure 0006278294
Can be assumed to be stationary if there is no movement of the sound source, and it is considered that the probability density function follows a zero-mean multivariate normal distribution given as follows.

Figure 0006278294
Figure 0006278294

ここで、V(k)は共分散行列を示す。従って、定数項を除いた対数尤度関数は次式で表される。   Here, V (k) represents a covariance matrix. Therefore, the log likelihood function excluding the constant term is expressed by the following equation.

Figure 0006278294
Figure 0006278294

ここで、対数尤度関数を最大化するミスマッチε’を求めることにより、式(63)のようにサンプリング周波数のミスマッチを推定することができる。この対数尤度関数最大化問題は解析的に解くことができないが、対数尤度関数J(ε’)は大域最適解周辺では局所的に単峰性を示すことがわかっている。そこで、ミスマッチε’の取りうる値が十分0に近い場合は、黄金分割探索で効率的に最尤解を探索することができる。また、ミスマッチε’が0から離れた値を取りうる場合には、粗い離散値全探索で単峰的な大域最適解の候補範囲を絞り込むにより、局所単峰的な探索範囲で黄金分割探索を用いることができる。   Here, by obtaining a mismatch ε ′ that maximizes the log likelihood function, a sampling frequency mismatch can be estimated as shown in Equation (63). This log-likelihood function maximization problem cannot be solved analytically, but the log-likelihood function J (ε ′) is known to be locally unimodal around the global optimal solution. Therefore, when the possible value of the mismatch ε ′ is sufficiently close to 0, the maximum likelihood solution can be efficiently searched by the golden section search. If the mismatch ε ′ can take a value away from 0, the search for the golden section search is performed in the local unimodal search range by narrowing down the candidate range of the unimodal global optimal solution by the coarse discrete value full search. Can be used.

さらに、ブラインド同期音声信号処理及び非ブラインド同期音声信号処理について以下に説明する。   Further, blind synchronous audio signal processing and non-blind synchronous audio signal processing will be described below.

図20は本発明の第3の実施形態に係る音声信号処理装置10の構成を示すブロック図である。図20の音声信号処理装置10は例えば情報処理装置であるディジタル計算機にてなり、図21及び図22並びにそれらの変形例の処理プログラムを実行することにより、コンピュータを利用して、参照チャンネル信号に対して対象チャンネル信号を、ブラインド同期又は非ブラインド同期で、各録音機器72,73間で発生するサンプリング周波数のミスマッチεを推定し、ブラインド推定されたサンプリング周波数のミスマッチεに基づいてSTFT表現の参照チャンネル信号及び対象チャンネル信号に対して線形位相補償処理を行った後、各信号を逆フーリエ変換することにより線形位相補償後の参照チャンネル信号及び対象チャンネル信号を求めることを特徴としている。   FIG. 20 is a block diagram showing the configuration of the audio signal processing apparatus 10 according to the third embodiment of the present invention. The audio signal processing apparatus 10 of FIG. 20 is formed of, for example, a digital computer that is an information processing apparatus. By executing the processing programs of FIGS. 21 and 22 and their modified examples, a computer is used to generate a reference channel signal. On the other hand, the sampling channel mismatch ε generated between the recording devices 72 and 73 is estimated by blind synchronization or non-blind synchronization for the target channel signal, and the STFT expression reference is made based on the blind estimated sampling frequency mismatch ε. A linear phase compensation process is performed on the channel signal and the target channel signal, and then each signal is subjected to inverse Fourier transform to obtain a reference channel signal and a target channel signal after linear phase compensation.

以下、本実施形態に係る音声信号処理装置10の構成及び処理について詳述する。   Hereinafter, the configuration and processing of the audio signal processing apparatus 10 according to the present embodiment will be described in detail.

図20において、音声信号処理装置10のUSBインターフェース51,52を介してそれぞれ、A/D変換器71a,72aを有する録音機器71,72に接続される。ユーザは録音機器71,72を用いて録音するときは、音声信号処理装置10とは接続せずに録音した後、録音機器71,72を音声信号処理装置10のUSBインターフェース51,52に接続して、各録音機器71,72で録音された音声データをUSBインターフェース51,52を介してハードディスクメモリ23に取り込んで図21のブラインド同期音声信号処理、図22の非ブラインド同期音声信号処理、又はそれらの変形例の音声信号処理を音声信号処理装置10により実行する。また、音声信号処理装置10のドライブ装置インターフェース35bを介して、例えばハードディスクメモリであり音声信号処理のために必要なデータ(音声データを含む)を予め格納して提供する外部記憶装置60に接続され、音声信号処理装置10は、外部記憶装置60にアクセスすることにより、所用のデータを取得してハードディスクメモリ23に格納してもよい。   In FIG. 20, the audio signal processing apparatus 10 is connected to recording devices 71 and 72 having A / D converters 71a and 72a via USB interfaces 51 and 52, respectively. When recording using the recording devices 71 and 72, the user records without connecting to the audio signal processing device 10, and then connects the recording devices 71 and 72 to the USB interfaces 51 and 52 of the audio signal processing device 10. Then, the audio data recorded by the recording devices 71 and 72 is taken into the hard disk memory 23 via the USB interfaces 51 and 52, and the blind synchronous audio signal processing of FIG. 21, the non-blind synchronous audio signal processing of FIG. The audio signal processing of the modified example is executed by the audio signal processing device 10. Further, via the drive device interface 35b of the audio signal processing device 10, it is connected to an external storage device 60 which is a hard disk memory, for example, which stores and provides data necessary for audio signal processing (including audio data) in advance. The audio signal processing apparatus 10 may acquire necessary data by accessing the external storage device 60 and store it in the hard disk memory 23.

図1において、音声信号処理装置10は、
(a)当該音声信号処理装置10の動作及び処理を演算及び制御するコンピュータのCPU(中央演算処理装置)20と、
(b)オペレーションプログラムなどの基本プログラム及びそれを実行するために必要なデータを格納するROM(読み出し専用メモリ)21と、
(c)CPU20のワーキングメモリとして動作し、当該音声信号処理で必要なパラメータやデータを一時的に格納するRAM(ランダムアクセスメモリ)22と、
(d)当該音声信号処理において用いる各種データ(音声データ及びパラメータデータなど)を格納するためのハードディスクメモリ23と、
(e)例えばハードディスクメモリで構成され、CD−ROMドライブ装置45を用いて読み込んだ、図21〜図22の処理プログラム等(これらのプログラムはコンピュータにより実行可能なプログラムである。)を格納するプログラムメモリ24と、
(f)例えばボイスレコーダーなどの録音機器71,72とUSBインターフェース51,52を介して接続され、録音機器71,72とデータを送受信する通信インターフェース51と、
(g)所定のデータや指示コマンドを入力するためのキーボード41に接続され、キーボード41から入力されたデータや指示コマンドを受信して所定の信号変換などのインターフェース処理を行ってCPU20に伝送するキーボードインターフェース31と、
(h)CRTディスプレイ43上で指示コマンドを入力するためのマウス42に接続され、マウス42から入力されたデータや指示コマンドを受信して所定の信号変換などのインターフェース処理を行ってCPU20に伝送するマウスインターフェース32と、
(i)CPU20によって処理されたデータや設定指示画面、生成された信号波形及び信号データなどを表示するCRTディスプレイ43に接続され、表示すべき画像データをCRTディスプレイ43用の画像信号に変換してCRTディスプレイ43に出力して表示するディスプレイインターフェース33と、
(j)CPU20によって処理されたデータ及び所定の生成された信号波形及び信号データなどを印字するプリンタ44に接続され、印字すべき印字データの所定の信号変換などを行ってプリンタ44に出力して印字するプリンタインターフェース34と、
(k)図21〜図22の処理プログラムが記憶されたCD−ROM45aから当該プログラムのプログラムデータを読み出すCD−ROMドライブ装置45に接続され、読み出された画像処理プログラムのプログラムデータを所定の信号変換などを行ってプログラムメモリ24に転送するドライブ装置インターフェース35aと、
(l)所定のデータを記憶する、例えばハードディスクメモリなどの外部記憶装置60に接続され、読み出されたデータを所定の信号変換などを行ってCPU20又はハードディスクメモリ23に転送するドライブ装置インターフェース35bとを備え、
これらの回路20〜24、31〜34、35a、35b及び51、52はバス30を介して接続される。
In FIG. 1, an audio signal processing apparatus 10
(A) a CPU (central processing unit) 20 of a computer that calculates and controls the operation and processing of the audio signal processing device 10;
(B) a ROM (read only memory) 21 for storing a basic program such as an operation program and data necessary for executing the basic program;
(C) A RAM (random access memory) 22 that operates as a working memory of the CPU 20 and temporarily stores parameters and data necessary for the audio signal processing;
(D) a hard disk memory 23 for storing various data (audio data, parameter data, etc.) used in the audio signal processing;
(E) A program that is configured by, for example, a hard disk memory and that is read using the CD-ROM drive device 45 and stores the processing programs of FIGS. 21 to 22 and the like (these programs are programs executable by a computer). A memory 24;
(F) a communication interface 51 that is connected to recording devices 71 and 72 such as a voice recorder via USB interfaces 51 and 52, and that transmits and receives data to and from the recording devices 71 and 72;
(G) A keyboard connected to a keyboard 41 for inputting predetermined data and instruction commands, receiving data and instruction commands input from the keyboard 41, performing predetermined interface processing such as signal conversion, and transmitting the data to the CPU 20 Interface 31;
(H) Connected to a mouse 42 for inputting instruction commands on the CRT display 43, receives data and instruction commands input from the mouse 42, performs predetermined signal conversion and other interface processing, and transmits them to the CPU 20. A mouse interface 32;
(I) Connected to a CRT display 43 that displays data processed by the CPU 20, a setting instruction screen, a generated signal waveform, signal data, and the like, and converts image data to be displayed into an image signal for the CRT display 43. A display interface 33 for outputting and displaying on the CRT display 43;
(J) Connected to a printer 44 that prints data processed by the CPU 20 and predetermined generated signal waveforms and signal data, etc., performs predetermined signal conversion of print data to be printed, and outputs it to the printer 44 A printer interface 34 for printing;
(K) Connected to a CD-ROM drive device 45 that reads program data of the program from the CD-ROM 45a in which the processing programs of FIGS. 21 to 22 are stored, and the read program data of the image processing program is a predetermined signal. A drive device interface 35a for performing conversion and transferring to the program memory 24;
(L) a drive device interface 35b that is connected to an external storage device 60 such as a hard disk memory for storing predetermined data and that performs read signal conversion on the read data and transfers it to the CPU 20 or the hard disk memory 23; With
These circuits 20 to 24, 31 to 34, 35 a, 35 b and 51, 52 are connected via the bus 30.

以上の実施形態において、図21〜図22の処理プログラムが記憶されたコンピュータにより読取可能なCD−ROM45aを用いて実行してもよいし、CD−R,CD−RW,DVD,DVD−R,DVD−RW,DVD−RAMなどのコンピュータにより読取可能な種々の記録媒体を用いてもよい。   In the above embodiment, it may be executed by using a CD-ROM 45a readable by a computer in which the processing programs of FIGS. 21 to 22 are stored, CD-R, CD-RW, DVD, DVD-R, Various recording media readable by a computer such as DVD-RW and DVD-RAM may be used.

図21は図20の音声信号処理装置10によって実行されるブラインド同期音声信号処理を示すフローチャートである。   FIG. 21 is a flowchart showing blind synchronous audio signal processing executed by the audio signal processing apparatus 10 of FIG.

図21のステップS11において、前処理A又はBを用いて、ミスマッチε及び録音開始時刻差(以下、時間差という。)τの推定値を求める。前処理Aにおいては、ミスマッチε=0と仮定し、時間区間信号を時間差推定法を用いて、参照チャンネル信号全体を区間Tとみなし、区間Tにおいて時間差τを求める。もしくは、前処置Bにおいては、参照チャンネル信号及び対象チャンネル信号から、それぞれ互いに対応する単一音源区間情報を有する区間T及び区間Tを選択し、2つの時間区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、ミスマッチε及び時間差τの推定値を求める。 In step S11 in FIG. 21, pre-processing A or B is used to obtain an estimated value of mismatch ε and recording start time difference (hereinafter referred to as time difference) τ 0 . In the pretreatment A, assuming the mismatch epsilon = 0, with a time interval signal time difference estimation technique, the entire reference channel signal is regarded as a section T A, obtains the time difference tau 0 in the interval T A. Or, in the pre-treatment B, and the reference channel signal and the target channel signals, respectively select a section T A and interval T B have a single sound source section information corresponding to each other, a single sound source section information of the two time intervals The estimated values of the mismatch ε and the time difference τ 0 are obtained by using the sampling frequency mismatch estimation method used.

次いで、ステップS12において、参照チャンネル信号及び対象チャンネル信号に基づいて、フレーム中心が互いに対応するようなSTFT表現の参照チャンネル信号及び対象チャンネル信号を求める。そして、ステップS13において、STFT表現の参照チャンネル信号及び対象チャンネル信号に基づいて、STFT領域のおけるサンプリング周波数のミスマッチεについてブラインド推定を行う。さらに、ステップS14において、ブラインド推定されたサンプリング周波数のミスマッチεに基づいて、STFT表現の参照チャンネル信号及び対象チャンネル信号に対して線形位相補償処理を行う。そして、ステップS15において、線形位相補償処理を行ったSTFT表現の参照チャンネル信号及び対象チャンネル信号に対して逆フーリエ変換することにより、線形位相補償後の参照チャンネル信号及び対象チャンネル信号を求める。求められた信号の信号波形やデータはCRTディスプレイ43に表示し、もしくはプリンタ44に出力して印字して当該処理を終了する。   Next, in step S12, based on the reference channel signal and the target channel signal, the reference channel signal and the target channel signal in STFT representation in which the frame centers correspond to each other are obtained. Then, in step S13, blind estimation is performed on the sampling frequency mismatch ε in the STFT region based on the reference channel signal and target channel signal expressed in STFT. Further, in step S14, linear phase compensation processing is performed on the reference channel signal and target channel signal in STFT representation based on the blind estimated sampling frequency mismatch ε. In step S15, the reference channel signal and the target channel signal after linear phase compensation are obtained by performing inverse Fourier transform on the reference channel signal and the target channel signal in STFT representation subjected to the linear phase compensation processing. The signal waveform and data of the obtained signal are displayed on the CRT display 43, or output to the printer 44 and printed, and the process ends.

図22は図20の音声信号処理装置10によって実行される非ブラインド同期音声信号処理を示すフローチャートである。   FIG. 22 is a flowchart showing non-blind synchronous audio signal processing executed by the audio signal processing apparatus 10 of FIG.

ステップS11Aにおいて、前処理Bを用いて、ミスマッチε及び時間差τの推定値を求める。前処置Bにおいては、参照チャンネル信号から区間TA及び区間TBを選択し、2つの時間区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、ミスマッチε及び時間差τの推定値を求める。次いで、ステップS12において、参照チャンネル信号及び対象チャンネル信号に基づいて、フレーム中心が互いに対応するようなSTFT表現の参照チャンネル信号及び対象チャンネル信号を求める。さらに、ステップS15において、求められたSTFT表現の参照チャンネル信号及び対象チャンネル信号に対して逆フーリエ変換することにより参照チャンネル信号及び対象チャンネル信号を求める。求められた信号の信号波形やデータはCRTディスプレイ43に表示し、もしくはプリンタ44に出力して印字して当該処理を終了する。 In step S11A, an estimated value of mismatch ε and time difference τ 0 is obtained using preprocessing B. In the pre-treatment B, the section TA and the section TB are selected from the reference channel signal, and the mismatch ε and the time difference τ 0 are estimated using the sampling frequency mismatch estimation method using the single sound source section information of the two time sections. Find the value. Next, in step S12, based on the reference channel signal and the target channel signal, the reference channel signal and the target channel signal in STFT representation in which the frame centers correspond to each other are obtained. Further, in step S15, the reference channel signal and the target channel signal are obtained by performing inverse Fourier transform on the reference channel signal and the target channel signal of the obtained STFT expression. The signal waveform and data of the obtained signal are displayed on the CRT display 43, or output to the printer 44 and printed, and the process ends.

ただし、前処理Bにおいて、事前知識により、区間A、区間Bとして、同一音源のみがなっている2つの時間区間を選ぶことができることが前提である。なお、区間A、区間Bは、離れている方が望ましく、ブラインド同期では特に利用できる情報がないため、例えば参照チャンネル信号の最初と最後を含む区間を選ぶことができる。   However, in the preprocessing B, it is assumed that two time intervals in which only the same sound source is present can be selected as the interval A and the interval B by prior knowledge. It should be noted that the sections A and B are preferably separated from each other, and there is no information that can be particularly used in the blind synchronization. For example, a section including the beginning and the end of the reference channel signal can be selected.

次いで、ステップS11又はS11A、S12とステップS13、S14の処理の位置づけについて以下に説明する。ステップS11又はS11AとS12、ステップS13とS14はそれぞれ対の処理になっている。ステップS11又はS11Aの処理は特定の時間区間信号のみからサンプリング周波数のミスマッチεと時間差τを推定し、ステップS12の処理は、この推定値に基づき、STFT領域への変換時に同期をとっていることに相当する。非ブラインド同期において、区間A、区間Bとして同一音源のみがなっている時間区間を選ぶことができ、かつ区間A、区間Bが十分に時間的に離れていれば、ステップS11A、ステップS12のみの処理で同期をとることができる。 Next, the positioning of the processes of step S11 or S11A, S12 and steps S13, S14 will be described below. Steps S11 or S11A and S12, and steps S13 and S14 are a pair of processes. In the process of step S11 or S11A, the sampling frequency mismatch ε and time difference τ 0 are estimated from only a specific time interval signal, and the process of step S12 is synchronized upon conversion to the STFT region based on this estimated value. It corresponds to that. In non-blind synchronization, as long as the section A and the section B have only the same sound source, and the section A and the section B are sufficiently separated in time, only the steps S11A and S12 are performed. The process can be synchronized.

一方、ブラインド同期の場合には、前処理Aでは時間シフトのみを考慮しているし、前処理Bでは区間A、区間Bで同一音源のみがなっている時間区間を選べる保障がないので、推定に誤差が含まれる。よって、ステップS11、ステップS12のみの処理ではサンプリング周波数のミスマッチが補償されないため、ステップS13、ステップS14の処理が必要になる。   On the other hand, in the case of blind synchronization, only time shift is considered in the preprocessing A, and in the preprocessing B, there is no guarantee that it is possible to select a time section in which only the same sound source is selected in the sections A and B. Contains errors. Therefore, the processing of only steps S11 and S12 does not compensate for the sampling frequency mismatch, so the processing of steps S13 and S14 is necessary.

また、ステップS11の処理で前処理Bを適用し、かつステップS13、S14の処理を行う場合、ステップS11の処理で、あるミスマッチεが推定され、ステップS13では、ミスマッチεとは異なる別のミスマッチε’が推定されることに注意が必要である。前処理Bを適用してステップS12の処理を行った場合、ステップS11〜S12によって、対象チャンネル信号はSTFT領域上で、すでにある程度サンプリングミスマッチが補償された状態になる。ステップS13〜S14の処理は、元の対象チャンネル信号そのものではなく、この、すでにある程度補償ずみの信号に対して適用されるので、ステップS13ではステップS11で求まったミスマッチεにε’を加えて修正する形で、あらたなミスマッチεが推定されることになり、サンプリング周波数のミスマッチが補償されることになる。   Further, when the preprocessing B is applied in the process of step S11 and the processes of steps S13 and S14 are performed, a certain mismatch ε is estimated in the process of step S11. In step S13, another mismatch different from the mismatch ε is estimated. Note that ε ′ is estimated. When the processing of step S12 is performed by applying the preprocessing B, the sampling channel is already compensated for to some extent in the target channel signal on the STFT region by steps S11 to S12. Since the processing in steps S13 to S14 is applied to the already compensated signal, not to the original target channel signal itself, in step S13, correction is performed by adding ε 'to the mismatch ε obtained in step S11. In this way, a new mismatch ε is estimated and the sampling frequency mismatch is compensated.

さらに、第1の実施形態及び第2の実施形態との関係について以下に説明する。第1の実施形態では、ステップS11〜S14sの処理で、かつステップS11で前処理Aを行うブラインド同期法が述べられている。また、第2の実施形態では、ステップS11〜S12で、ステップS11で前処理Bを行う非ブラインド同期法が述べられている。   Furthermore, the relationship with 1st Embodiment and 2nd Embodiment is demonstrated below. In the first embodiment, a blind synchronization method is described in which the processing in steps S11 to S14s and the preprocessing A in step S11 are performed. In the second embodiment, a non-blind synchronization method is described in which preprocessing B is performed in step S11 in steps S11 to S12.

本発明と非特許文献4との相違点.
以下、本発明と非特許文献との相違点について以下に説明する。
Differences between the present invention and Non-Patent Document 4.
Hereinafter, differences between the present invention and non-patent documents will be described.

非特許文献4においてもサンプリング周波数のミスマッチを求めているが、本発明とは以下のように異なる。   Non-Patent Document 4 also seeks a sampling frequency mismatch, but differs from the present invention as follows.

(1)サンプリング周波数のミスマッチの求め方が違う。
サンプリング周波数のミスマッチのために、2つのチャネル間の時間差がドリフトするが、非特許文献4は、各フレームから求まる時間差を平均してドリフトの傾きを直接求めている(非特許文献4の式(14))のに対して、本発明では、STFT領域での位相補償に基づき、最尤法により求めている。非特許文献4の場合には、反復計算が不要な代わりに、位相領域での平均演算のために、エイリアシングが生じる高周波数領域の情報が使えない。これに対して、本発明では、反復が必要ですが、十分に高速で動作し、補償しながら尤度を求めるので、高周波数領域の情報も使えるため、高い精度を得ることができる。
(1) Sampling frequency mismatch is calculated differently.
Due to the sampling frequency mismatch, the time difference between the two channels drifts, but Non-Patent Document 4 directly obtains the drift slope by averaging the time differences obtained from each frame (formula (Non-Patent Document 4) 14)), the present invention obtains the maximum likelihood method based on the phase compensation in the STFT region. In the case of Non-Patent Document 4, it is not necessary to perform iterative calculation, but information in a high frequency region where aliasing occurs cannot be used for the average calculation in the phase region. On the other hand, in the present invention, although iterative is necessary, since the likelihood is obtained while operating at a sufficiently high speed and compensating, information in a high frequency region can be used, so that high accuracy can be obtained.

(2)サンプリング周波数の補償方法が異なる。
非特許文献4では、非特許文献5という従来法であるラグランジュ多項式補間により、リサンプリングを行っている。ただ、サンプリング周波数の補償方法は、選択肢があり、本発明でもミスマッチを推定した後に、こうした従来法を用いることはできる。
(2) The sampling frequency compensation method is different.
In Non-Patent Document 4, resampling is performed by Lagrange polynomial interpolation, which is the conventional method of Non-Patent Document 5. However, there are options for the sampling frequency compensation method, and in the present invention, such a conventional method can be used after estimating the mismatch.

(3)STFTのフレームシフト
非特許文献4では、参照チャンネル信号でも、ミスマッチを補償する対象チャンネル信号でも、フレームシフトが一定になっているが、この場合、長時間録音だとお互いのフレーム関係がずれてくる。本発明では、フレームシフトを変えることを考慮しており、長時間録音にも対応可能である。
(3) Frame shift of STFT In Non-Patent Document 4, the frame shift is constant for both the reference channel signal and the target channel signal that compensates for the mismatch. It will shift. In the present invention, it is considered that the frame shift is changed, and it is possible to cope with long-time recording.

以上詳述したように、本発明に係る音声信号処理装置及び方法によれば、上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める。次いで、上記サンプリング周波数のミスマッチに対する、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となる最尤推定法を用いてサンプリング周波数のミスマッチを推定し、上記推定されたサンプリング周波数のミスマッチに基づいて、フレーム内の変化を無視する階段近似を用いて上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号との間の時間差を最小にする線形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する。従って、従来技術に比較して高精度でかつ長時間録音においても、各音声信号におけるサンプリング周波数のミスマッチをブラインドでもしくは非ブラインドで推定して当該ミスマッチを補償することができる。   As described above in detail, according to the audio signal processing apparatus and method according to the present invention, while obtaining a reference channel signal of a short-time Fourier transform expression by performing a certain frame shift on the reference channel signal, Based on the recording start time difference and the sampling frequency mismatch, an integer sample shift and a frequency domain with respect to the target channel signal so that the frame centers of the reference channel signal and the target channel signal correspond to each other. The target channel signal of the short-time Fourier transform expression is obtained by performing the fractional sample shift by the phase compensation method in FIG. Next, the sampling frequency mismatch is estimated using a maximum likelihood estimation method that maximizes the log likelihood of the observed signal compensated for the target channel signal of the short-time Fourier transform expression with respect to the sampling frequency mismatch, Based on the estimated sampling frequency mismatch, the time difference between the target channel signal of the short-time Fourier transform expression and the reference channel signal of the short-time Fourier transform expression is calculated using a staircase approximation that ignores changes in the frame. Using the linear phase compensation method that minimizes, the target channel signal of the short-time Fourier transform expression and the reference channel signal of the short-time Fourier transform expression are compensated so as to be synchronized. Therefore, even when recording for a long time with higher accuracy than in the prior art, the mismatch of the sampling frequency in each audio signal can be estimated blindly or non-blindly to compensate for the mismatch.

10…音声信号処理装置、
20…CPU、
21…ROM、
22…RAM、
23…ハードディスクメモリ、
24…プログラムメモリ、
30…バス、
31…キーボードインターフェース、
32…マウスインターフェース、
33…ディスプレイインターフェース、
34…プリンタインターフェース、
35a,35b…ドライブ装置インターフェース、
41…キーボード、
42…マウス、
43…CRTディスプレイ、
44…プリンタ、
45…CD−ROMドライブ装置、
45a…CD−ROM、
51,52…USBインターフェース、
60…外部記憶装置、
71,72…録音機器、
71a,72a…A/D変換器(ADC)。
10: Audio signal processing device,
20 ... CPU,
21 ... ROM,
22 ... RAM,
23. Hard disk memory,
24 ... Program memory,
30 ... Bus
31 ... Keyboard interface,
32 ... Mouse interface,
33 ... Display interface,
34 ... Printer interface,
35a, 35b ... drive device interface,
41 ... Keyboard,
42 ... mouse,
43 ... CRT display
44 ... Printer,
45 ... CD-ROM drive device,
45a ... CD-ROM,
51,52 ... USB interface,
60 ... External storage device,
71, 72 ... recording equipment,
71a, 72a ... A / D converter (ADC).

Claims (15)

対象チャンネル信号と参照チャンネル信号との間に録音開始時刻差があり、上記参照チャンネル信号のA/D変換器と上記対象チャンネル信号のA/D変換器との間のサンプリング周波数のミスマッチがあるときに、上記対象チャンネル信号を上記参照チャンネル信号に同期させる音声信号処理装置において、
上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める第1の信号処理手段を備えたことを特徴とする音声信号処理装置。
When there is a recording start time difference between the target channel signal and the reference channel signal, and there is a sampling frequency mismatch between the A / D converter of the reference channel signal and the A / D converter of the target channel signal In the audio signal processing device for synchronizing the target channel signal with the reference channel signal,
By performing a certain frame shift on the reference channel signal, a reference channel signal in a short-time Fourier transform expression is obtained, and on the basis of the recording start time difference and the sampling frequency mismatch, Target channel of short-time Fourier transform expression by performing integer sample shift and fractional sample shift by phase compensation method in frequency domain for the target channel signal so that the frame centers of the target channel signal correspond to each other An audio signal processing apparatus comprising first signal processing means for obtaining a signal.
サンプリング周波数のミスマッチを0と仮定し、時間区間信号を用いた時間差推定法を用いて上記参照チャンネル信号全体を第1の区間とみなし、当該第1の区間において上記参照チャンネル信号に対する対象チャンネル信号の録音開始時刻差を求める第1の前処理手段をさらに備えたことを特徴とする請求項1記載の音声信号処理装置。   Assuming that the sampling frequency mismatch is 0, the time difference estimation method using the time interval signal is used to regard the entire reference channel signal as the first interval, and the target channel signal relative to the reference channel signal in the first interval is determined. 2. The audio signal processing apparatus according to claim 1, further comprising first preprocessing means for obtaining a recording start time difference. 上記参照チャンネル信号及び上記対象チャンネル信号から、それぞれ互いに対応する単一音源区間情報を有する第1区間及び第2の区間を選択し、当該2つの区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、サンプリング周波数のミスマッチ及び録音開始時刻差を求める第2の前処理手段をさらに備えたことを特徴とする請求項1記載の音声信号処理装置。   A first section and a second section having single sound source section information corresponding to each other are selected from the reference channel signal and the target channel signal, and the sampling frequency using the single sound source section information of the two sections is selected. 2. The audio signal processing apparatus according to claim 1, further comprising second pre-processing means for obtaining a sampling frequency mismatch and a recording start time difference using a mismatch estimation method. 最尤推定法を用いて、上記サンプリング周波数のミスマッチをさらに更新することで、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となサンプリング周波数のミスマッチを推定する第2の信号処理手段をさらに備えたことを特徴とする請求項1〜3のうちのいずれか1つに記載の音声信号処理装置。 Using the maximum likelihood estimation method, by further updating the mismatch of the sampling frequency, the mismatch of the sampling frequency log-likelihood of the observed signal compensated for the target channel signal of the short-time Fourier transform representation up and ing The audio signal processing apparatus according to claim 1, further comprising a second signal processing means for estimating 上記第2の信号処理手段は、離散値全探索法によりサンプリング周波数のミスマッチの範囲を絞り込んだ後、黄金比探索法により最適解であるサンプリング周波数のミスマッチを推定することを特徴とする請求項4記載の音声信号処理装置。   5. The second signal processing means, after narrowing a sampling frequency mismatch range by a discrete value full search method, estimates a sampling frequency mismatch which is an optimal solution by a golden ratio search method. The audio signal processing device described. 上記推定されたサンプリング周波数のミスマッチに基づいて、形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する第3の信号処理手段をさらに備えたことを特徴とする請求項4又は5記載の音声信号処理装置。 Based on mismatch of the estimated sampling frequency, using a linear phase compensation method, a reference channel signal of the target channel signal and the short-time Fourier transform representation of the short-time Fourier transform representation is compensated to synchronize 6. The audio signal processing apparatus according to claim 4, further comprising third signal processing means. 上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とに対して逆フーリエ変換することにより上記対象チャンネル信号及び上記参照チャンネル信号を求める第4の信号処理手段をさらに備えたことを特徴とする請求項1、3又は6記載の音声信号処理装置。   Fourth signal processing means for obtaining the target channel signal and the reference channel signal by performing inverse Fourier transform on the target channel signal of the short-time Fourier transform expression and the reference channel signal of the short-time Fourier transform expression. The audio signal processing apparatus according to claim 1, 3 or 6. 対象チャンネル信号と参照チャンネル信号との間に録音開始時刻差があり、上記参照チャンネル信号のA/D変換器と上記対象チャンネル信号のA/D変換器との間のサンプリング周波数のミスマッチがあるときに、上記対象チャンネル信号を上記参照チャンネル信号に同期させる音声信号処理装置により実行される音声信号処理方法において、
上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める第1の信号処理ステップを備えたことを特徴とする音声信号処理方法。
When there is a recording start time difference between the target channel signal and the reference channel signal, and there is a sampling frequency mismatch between the A / D converter of the reference channel signal and the A / D converter of the target channel signal In the audio signal processing method executed by the audio signal processing device for synchronizing the target channel signal with the reference channel signal,
By performing a certain frame shift on the reference channel signal, a reference channel signal in a short-time Fourier transform expression is obtained, and on the basis of the recording start time difference and the sampling frequency mismatch, Target channel of short-time Fourier transform expression by performing integer sample shift and fractional sample shift by phase compensation method in frequency domain for the target channel signal so that the frame centers of the target channel signal correspond to each other An audio signal processing method comprising a first signal processing step for obtaining a signal.
サンプリング周波数のミスマッチを0と仮定し、時間区間信号を用いた時間差推定法を用いて上記参照チャンネル信号全体を第1の区間とみなし、当該第1の区間において上記参照チャンネル信号に対する対象チャンネル信号の録音開始時刻差を求める第1の前処理ステップをさらに備えたことを特徴とする請求項8記載の音声信号処理方法。   Assuming that the sampling frequency mismatch is 0, the time difference estimation method using the time interval signal is used to regard the entire reference channel signal as the first interval, and the target channel signal relative to the reference channel signal in the first interval is determined. 9. The audio signal processing method according to claim 8, further comprising a first preprocessing step for obtaining a recording start time difference. 上記参照チャンネル信号及び上記対象チャンネル信号から、それぞれ互いに対応する単一音源区間情報を有する第1区間及び第2の区間を選択し、当該2つの区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、サンプリング周波数のミスマッチ及び録音開始時刻差を求める第2の前処理ステップをさらに備えたことを特徴とする請求項8記載の音声信号処理方法。   A first section and a second section having single sound source section information corresponding to each other are selected from the reference channel signal and the target channel signal, and the sampling frequency using the single sound source section information of the two sections is selected. 9. The audio signal processing method according to claim 8, further comprising a second pre-processing step of obtaining a sampling frequency mismatch and a recording start time difference using a mismatch estimation method. 最尤推定法を用いて、上記サンプリング周波数のミスマッチをさらに更新することで、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となサンプリング周波数のミスマッチを推定する第2の信号処理ステップをさらに備えたことを特徴とする請求項8〜10のうちのいずれか1つに記載の音声信号処理方法。 Using the maximum likelihood estimation method, by further updating the mismatch of the sampling frequency, the mismatch of the sampling frequency log-likelihood of the observed signal compensated for the target channel signal of the short-time Fourier transform representation up and ing The audio signal processing method according to any one of claims 8 to 10, further comprising a second signal processing step for estimating the signal. 上記第2の信号処理ステップは、離散値全探索法によりサンプリング周波数のミスマッチの範囲を絞り込んだ後、黄金比探索法により最適解であるサンプリング周波数のミスマッチを推定することを特徴とする請求項11記載の音声信号処理方法。   12. The second signal processing step is to estimate a sampling frequency mismatch which is an optimal solution by a golden ratio search method after narrowing down a sampling frequency mismatch range by a discrete value full search method. The audio signal processing method described. 上記推定されたサンプリング周波数のミスマッチに基づいて、形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する第3の信号処理ステップをさらに備えたことを特徴とする請求項11又は12記載の音声信号処理方法。 Based on mismatch of the estimated sampling frequency, using a linear phase compensation method, a reference channel signal of the target channel signal and the short-time Fourier transform representation of the short-time Fourier transform representation is compensated to synchronize The audio signal processing method according to claim 11, further comprising a third signal processing step. 上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とに対して逆フーリエ変換することにより上記対象チャンネル信号及び上記参照チャンネル信号を求める第4の信号処理ステップをさらに備えたことを特徴とする請求項8、11又は13記載の音声信号処理方法。   A fourth signal processing step of obtaining the target channel signal and the reference channel signal by performing an inverse Fourier transform on the target channel signal of the short-time Fourier transform expression and the reference channel signal of the short-time Fourier transform expression; The audio signal processing method according to claim 8, 11 or 13. 請求項8〜14のうちのいずれか1つに記載の音声信号処理方法の各ステップを含むことを特徴とする、コンピュータにより読取可能な記録媒体。   15. A computer-readable recording medium comprising the steps of the audio signal processing method according to claim 8.
JP2013048084A 2013-03-11 2013-03-11 Audio signal processing apparatus and method Active JP6278294B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013048084A JP6278294B2 (en) 2013-03-11 2013-03-11 Audio signal processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013048084A JP6278294B2 (en) 2013-03-11 2013-03-11 Audio signal processing apparatus and method

Publications (2)

Publication Number Publication Date
JP2014174393A JP2014174393A (en) 2014-09-22
JP6278294B2 true JP6278294B2 (en) 2018-02-14

Family

ID=51695653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013048084A Active JP6278294B2 (en) 2013-03-11 2013-03-11 Audio signal processing apparatus and method

Country Status (1)

Country Link
JP (1) JP6278294B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6395558B2 (en) * 2014-10-21 2018-09-26 オリンパス株式会社 First recording apparatus, second recording apparatus, recording system, first recording method, second recording method, first recording program, and second recording program
US9367899B1 (en) * 2015-05-29 2016-06-14 Konica Minolta Laboratory U.S.A., Inc. Document image binarization method
JP6646677B2 (en) 2015-10-09 2020-02-14 株式会社日立製作所 Audio signal processing method and apparatus
US10980942B2 (en) * 2018-09-28 2021-04-20 Medtronic Minimed, Inc. Infusion devices and related meal bolus adjustment methods
CN109584898B (en) * 2018-12-29 2022-05-31 上海瑾盛通信科技有限公司 Voice signal processing method and device, storage medium and electronic equipment
JP7126659B2 (en) * 2019-02-18 2022-08-29 日本電信電話株式会社 SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD AND SIGNAL PROCESSING PROGRAM
CN110085264B (en) * 2019-04-30 2021-10-15 北京如布科技有限公司 Voice signal detection method, device, equipment and storage medium
CN112735459B (en) * 2019-10-28 2024-03-26 清华大学 Voice signal enhancement method, server and system based on distributed microphone

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010212818A (en) * 2009-03-08 2010-09-24 Univ Of Tokyo Method of processing multi-channel signals received by a plurality of microphones
JP5452158B2 (en) * 2009-10-07 2014-03-26 株式会社日立製作所 Acoustic monitoring system and sound collection system

Also Published As

Publication number Publication date
JP2014174393A (en) 2014-09-22

Similar Documents

Publication Publication Date Title
JP6278294B2 (en) Audio signal processing apparatus and method
US7895038B2 (en) Signal enhancement via noise reduction for speech recognition
Miyabe et al. Blind compensation of interchannel sampling frequency mismatch for ad hoc microphone array based on maximum likelihood estimation
JP5124014B2 (en) Signal enhancement apparatus, method, program and recording medium
JP5931661B2 (en) Sound source direction estimating apparatus, sound source direction estimating method, and sound source direction estimating program
JP4774100B2 (en) Reverberation removal apparatus, dereverberation removal method, dereverberation removal program, and recording medium
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
JP4096104B2 (en) Noise reduction system and noise reduction method
Miyabe et al. Blind compensation of inter-channel sampling frequency mismatch with maximum likelihood estimation in STFT domain
US9190047B2 (en) Acoustic signal processing device and method
JP5702685B2 (en) Sound source direction estimating apparatus and sound source direction estimating method
JP2014219467A (en) Sound signal processing apparatus, sound signal processing method, and program
Schmalenstroeer et al. Multi-stage coherence drift based sampling rate synchronization for acoustic beamforming
CN111866665B (en) Microphone array beam forming method and device
JP2015084466A (en) Sampling point adjusting device, method thereof, and program thereof
Kheder et al. Fast i-vector denoising using MAP estimation and a noise distributions database for robust speaker recognition
Sakanashi et al. Speech enhancement with ad-hoc microphone array using single source activity
Chinaev et al. Double-cross-correlation processing for blind sampling-rate and time-offset estimation
Lv et al. A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation
KR20070085193A (en) Noise cancellation apparatus and method thereof
JP2019054344A (en) Filter coefficient calculation device, sound pickup device, method thereof, and program
KR101418023B1 (en) Apparatus and method for automatic gain control using phase information
JP2006330687A (en) Device and method for signal separation, and program and recording medium therefor
Ganapathy et al. Temporal resolution analysis in frequency domain linear prediction
JP2007178590A (en) Object signal extracting device and method therefor, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180105

R150 Certificate of patent or registration of utility model

Ref document number: 6278294

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250