JP2014174393A

JP2014174393A - 音声信号処理装置及び方法

Info

Publication number: JP2014174393A
Application number: JP2013048084A
Authority: JP
Inventors: Junki Ono; 順貴小野; Shigeki Miyabe; 滋樹宮部; Shoji Makino; 昭二牧野
Original assignee: Research Organization of Information and Systems; University of Tsukuba NUC
Current assignee: Research Organization of Information and Systems; University of Tsukuba NUC
Priority date: 2013-03-11
Filing date: 2013-03-11
Publication date: 2014-09-22
Anticipated expiration: 2033-03-11
Also published as: JP6278294B2

Abstract

【課題】高精度でかつ長時間録音においても、各音声信号におけるサンプリング周波数のミスマッチを推定してミスマッチを補償することができる音声信号処理装置及び方法を提供する。
【解決手段】対象チャンネル信号と参照チャンネル信号との間に録音開始時刻差があり、各録音機器のＡ／Ｄ変換器との間のサンプリング周波数のミスマッチがあるときに、対象チャンネル信号を参照チャンネル信号に同期させる音声信号処理装置において、参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、録音開始時刻差とサンプリング周波数のミスマッチとに基づいて互いのフレーム中心が互いに対応するように、対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める。
【選択図】図２１

Description

本発明は、例えば携帯電話やボイスレコーダーなどの複数の録音機器で録音された互いに非同期の複数の音声信号に対して同期補償などの音声信号処理を行う音声信号処理装置及び方法に関する。

非同期マイクロホンアレー（例えば、特許文献１及び非特許文献１参照）は、会議録音の音声強調のために参加者が持ち寄った携帯電話やボイスレコーダーなどの複数の携帯型録音機器の同時録音をｎ個用いるというもので、専用の大規模な録音装置ではなく一般的な機器による安価で柔軟な構成を行えることが利点である。しかし、マイクロホン素子の配置が未知となることや（例えば、非特許文献２及び３参照）、各チャンネル毎の録音が同期していないために録音開始時刻やサンプリング周波数が一致しないことなど（例えば、非特許文献１、４及び５参照）、通常のマイクロホンアレー信号処理では扱われない問題を解決する必要がある。

特開２００７−０２８３９１号公報

Z. Liu, "Sound source separation with distributed microphone arrays in the presence of clock synchronization errors," Proceedings of IWAENC, 2008. N. Ono et al., "Blind alignment of asynchronously recorded signals for distributed microphone array," Proceedings of WASPAA}, pp. 161-164, 2009. K. Hasegawa et al., "Blind estimation of locations and time offsets for distributed recording devices," Proceedings of LVA/ICA, pp. 57-64, 2010. S. Markovich-Golan et al., "Blind sampling rate offset estimation and compensation in wireless acoustic sensor networks with application to beamforming," Proceedings of IWAENC, 2012. E. Robledo-Arnuncio et al., "On dealing with sampling rate mismatches in blind source separation and acoustic echo cancellation," Proceedings of WASPAA, pp. 21-24, 2007. Shoji Makino et al., "Speech Separation", Springer, 2007. N. Ono et al., "Stable and fast update rules for independent vector analysis based on auxiliary function technique," Proceedings of WASPAA}, pp. 189-192, 2011. E. Vincent et al., "First stereo audio source separation evaluation campaign: data, algorithms and results," Proceedings of ICA, pp. 552-559, 2007. O. L. Frost et al., "An algorithm for linearly constrained adaptive array processing," Proceedings of IEEE, Vol.60, No. 8, pp. 926-935, August 1972. 澤田宏ほか, "音源分離技術の最新動向," 電子情報通信学会学会誌, Vol. 91, No. 4, pp. 292-296, 2008.snrbf1} H. L. Van Trees, "Optimum Array Processing," Wiley, 2002. 荒木章子ほか, "話者分類とＳＮ比最大化ビームフォーマに基づく会議音声強調，" 日本音響学会講演論文集, pp. 571-572, March, 2007.

最も重要な問題の一つに、各録音装置が別々のＡ／Ｄ変換器を使用しているためにチャンネル間のサンプリング周波数が違うものになることが挙げられ、適切な補正を施さなければアレー信号処理の性能は大幅に劣化してしまう。

上述した数多くの非同期マイクロホンアレー固有の問題の中でも、サンプリング周波数のミスマッチ量（以下、ミスマッチという。）は非同期録音にアレー信号処理を応用する上で最も大きな問題であると言える。同時録音に用いる複数のＡ／Ｄ変換器が同期していない場合は、機器同士が同じ公称サンプリング周波数であったとしても、主に水晶振動子の個体差や温度特性のために、サンプリング周波数に１０ｐｐｍオーダー（ｐｐｍは１０^−６）のごくわずかなミスマッチを生じてしまう。チャンネル間のサンプリング周波数のミスマッチは、時刻の単位のずれのために各チャンネル間の信号の時間差がドリフトしていくような効果を生じる。多くのアレー信号処理は音源の方位が各マイクロホンの観測信号間に固有の位相差を生じるという性質を利用しているが、わずか１サンプルの変化でも音源方位の分析には大きな影響を生じてしまうため、数１０ｐｐｍの時間差の変化はアレー信号処理を破綻させるのに十分な大きさである。

上述のサンプリング周波数のミスマッチの問題は、ディジタル領域において各機器間の位相差が変化し、音源位置が疑似的に変化してしまうため、各音源は移動せず固有の位相差を持つという大多数の音源分離手法を破綻させてしまう。そのため、非同期マイクロホンアレーを用いた従来研究としては、サンプリング周波数のミスマッチがないと仮定した上で、録音開始時刻・マイク位置・音源位置を同時推定するブラインドアライメント（例えば、非特許文献３参照）、サンプリング周波数のミスマッチが与えられた条件での補償のために、補間によるリサンプリングを行う手法（例えば、非特許文献５参照）、また未知のサンプリング周波数のミスマッチのブラインド補償を行うために、振幅スペクトルの相関を利用した手法（例えば、非特許文献１参照）などがこれまでに提案されている。

しかしながら、非特許文献２及び３においては、音源位置、マイクロホン位置及び録音開始時刻を同時に推定できるが、サンプリング周波数のミスマッチを補償することはできないという問題点があった。また、非特許文献１においては、信号エネルギーの包絡線に基づいて非同期マイクロホンアレーの各信号の同期化を行っているが、厳密な時間同期をすることができないという問題点があった。

さらに、非特許文献４において開示されたサンプリング周波数のミスマッチのブラインド補償方法では、位相領域での平均演算のために、エイリアシングが生じる高周波数領域の情報を使用することができず、処理結果の精度が大幅に低下し、また、長時間の録音の場合において、参照チャンネル信号と、参照チャンネル信号に基づいてミスマッチを補償する対象チャンネル信号との間において互いのフレーム関係がずれたときにサンプリング周波数のミスマッチを補償することができないという問題点があった。

本発明の目的は以上の問題点を解決し、非同期マイクロホンアレーからの複数の録音機器からの各音声信号に対して音声信号処理を行う装置及び方法において、従来技術に比較して高精度でかつ長時間録音においても、各音声信号におけるサンプリング周波数のミスマッチをブラインドでもしくは非ブラインドで推定して当該ミスマッチを補償することができる音声信号処理装置及び方法を提供することにある。

第１の発明に係る音声信号処理装置は、対象チャンネル信号と参照チャンネル信号との間に録音開始時刻差があり、上記参照チャンネル信号のＡ／Ｄ変換器と上記対象チャンネル信号のＡ／Ｄ変換器との間のサンプリング周波数のミスマッチがあるときに、上記対象チャンネル信号を上記参照チャンネル信号に同期させる音声信号処理装置において、
上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める第１の信号処理手段を備えたことを特徴とする。

上記音声信号処理装置において、サンプリング周波数のミスマッチを０と仮定し、時間区間信号を用いた時間差推定法を用いて上記参照チャンネル信号全体を第１の区間とみなし、当該第１の区間において上記参照チャンネル信号に対する対象チャンネル信号の録音開始時刻差を求める第１の前処理手段をさらに備えたことを特徴とする。

また、上記音声信号処理装置において、上記参照チャンネル信号及び上記対象チャンネル信号から、それぞれ互いに対応する単一音源区間情報を有する第１区間及び第２の区間を選択し、当該２つの区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、サンプリング周波数のミスマッチ及び録音開始時刻差を求める第２の前処理手段をさらに備えたことを特徴とする。

さらに、上記音声信号処理装置において、上記短時間フーリエ変換表現の対象チャンネル信号及び上記短時間フーリエ変換表現の参照チャンネル信号に基づいて、上記サンプリング周波数のミスマッチに対する、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となる最尤推定法を用いてサンプリング周波数のミスマッチを推定する第２の信号処理手段をさらに備えたことを特徴とする。

またさらに、上記音声信号処理装置において、上記第２の信号処理手段は、離散値全探索法によりサンプリング周波数のミスマッチの範囲を絞り込んだ後、黄金比探索法により最適解であるサンプリング周波数のミスマッチを推定することを特徴とする。

また、上記音声信号処理装置において、上記推定されたサンプリング周波数のミスマッチに基づいて、フレーム内の変化を無視する階段近似を用いて上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号との間の時間差を最小にする線形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する第３の信号処理手段をさらに備えたことを特徴とする。

さらに、上記音声信号処理装置において、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とに対して逆フーリエ変換することにより上記対象チャンネル信号及び上記参照チャンネル信号を求める第４の信号処理手段をさらに備えたことを特徴とする。

第２の発明に係る音声信号処理方法は、対象チャンネル信号と参照チャンネル信号との間に録音開始時刻差があり、上記参照チャンネル信号のＡ／Ｄ変換器と上記対象チャンネル信号のＡ／Ｄ変換器との間のサンプリング周波数のミスマッチがあるときに、上記対象チャンネル信号を上記参照チャンネル信号に同期させる音声信号処理装置により実行される音声信号処理方法において、
上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める第１の信号処理ステップを備えたことを特徴とする。

上記音声信号処理方法において、サンプリング周波数のミスマッチを０と仮定し、時間区間信号を用いた時間差推定法を用いて上記参照チャンネル信号全体を第１の区間とみなし、当該第１の区間において上記参照チャンネル信号に対する対象チャンネル信号の録音開始時刻差を求める第１の前処理ステップをさらに備えたことを特徴とする。

また、上記音声信号処理方法において、上記参照チャンネル信号及び上記対象チャンネル信号から、それぞれ互いに対応する単一音源区間情報を有する第１区間及び第２の区間を選択し、当該２つの区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、サンプリング周波数のミスマッチ及び録音開始時刻差を求める第２の前処理ステップをさらに備えたことを特徴とする。

さらに、上記音声信号処理方法において、上記短時間フーリエ変換表現の対象チャンネル信号及び上記短時間フーリエ変換表現の参照チャンネル信号に基づいて、上記サンプリング周波数のミスマッチに対する、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となる最尤推定法を用いてサンプリング周波数のミスマッチを推定する第２の信号処理ステップをさらに備えたことを特徴とする。

またさらに、上記音声信号処理方法において、上記第２の信号処理ステップは、離散値全探索法によりサンプリング周波数のミスマッチの範囲を絞り込んだ後、黄金比探索法により最適解であるサンプリング周波数のミスマッチを推定することを特徴とする。

また、上記音声信号処理方法において、上記推定されたサンプリング周波数のミスマッチに基づいて、フレーム内の変化を無視する階段近似を用いて上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号との間の時間差を最小にする線形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する第３の信号処理ステップをさらに備えたことを特徴とする。

さらに、上記音声信号処理方法において、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とに対して逆フーリエ変換することにより上記対象チャンネル信号及び上記参照チャンネル信号を求める第４の信号処理ステップをさらに備えたことを特徴とする。

第３の発明に係るコンピュータにより読取可能な記録媒体は、上記音声信号処理方法の各ステップを含むことを特徴とする。

本発明に係る音声信号処理装置及び方法によれば、上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める。次いで、上記サンプリング周波数のミスマッチに対する、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となる最尤推定法を用いてサンプリング周波数のミスマッチを推定し、上記推定されたサンプリング周波数のミスマッチに基づいて、フレーム内の変化を無視する階段近似を用いて上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号との間の時間差を最小にする線形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する。従って、従来技術に比較して高精度でかつ長時間録音においても、各音声信号におけるサンプリング周波数のミスマッチをブラインドでもしくは非ブラインドで推定して当該ミスマッチを補償することができる。

（ａ）は非同期マイクロホンアレーの各マイクロホンにより観測された観測信号の信号波形図であり、（ｂ）は（ａ）の各観測信号のディジタル信号の信号波形図である。（ａ）は図１において録音開始時刻がずれたときの各マイクロホンにより観測された観測信号の信号波形図であり、（ｂ）は（ａ）の各観測信号のディジタル信号の信号波形図である。本発明の第１の実施形態に係るブラインド補償の音声信号処理方法において用いる、２つの音声信号に対する線形位相モデルによる補償法を示す信号波形図である。本発明の第１の実施形態に係るブラインド補償の音声信号処理方法において計算されるサンプリング周波数のミスマッチεに対する対数尤度関数Ｊ（Ｖ，ε）の関数値の具体例を示すグラフである。第１の実施形態に係るブラインド補償の音声信号処理方法において用いる離散値全探索法による範囲絞り込み方法を示す、サンプリング周波数のミスマッチεに対する対数尤度関数Ｊ（Ｖ，ε）の関数値の具体例を示すグラフである。第１の実施形態に係るブラインド補償の音声信号処理方法において用いる黄金比探索法による最適解の探索方法を示す、サンプリング周波数のミスマッチεに対する対数尤度関数Ｊ（Ｖ，ε）の関数値を示すグラフである。図６の黄金比探索法の計算効率を示す表であって、（ａ）はその計算条件を示す表であり、（ｂ）はすべて離散値全探索法の場合の分割数と計算時間の関係を示す表であり、（ｃ）は離散値全探索法と黄金比探索法との併用の場合の分割数と計算時間の関係を示す表である。本発明の第１の実施形態に係るブラインド補償の音声信号処理方法を示すフローチャートである。図４のブラインド補償の音声信号処理方法を用いたサンプリング周波数のミスマッチの推定精度及びサンプリング周波数補償の音源分離精度への寄与の評価を行うときの観測信号作成の実験条件を示す表である。図４のブラインド補償の音声信号処理方法を用いたサンプリング周波数のミスマッチの推定精度を測定した実験結果であって、データ長に対するサンプリング周波数のミスマッチεの推定の平均二乗誤差（ＲＭＳＥ）を示すグラフである。図４のブラインド補償の音声信号処理方法を用いたサンプリング周波数補償の音源分離精度への寄与の評価を測定した実験結果であって、信号長に対する信号対歪比（ＳＤＲ）を示すグラフである。図４のブラインド補償の音声信号処理方法を用いたサンプリング周波数補償の音源分離精度への寄与の評価を測定した実験結果であって、ブラインド音声分離の信号対干渉比（ＳＩＲ）を示すグラフである。本発明の第２の実施形態に係る非同期マイクロホンアレーにおけるサンプリング周波数のミスマッチの非ブラインド補償方法で用いる時間的に離れた同じ音源による２つの単一音源区間情報を手がかりとした補正方法を示す参照チャンネル信号及び対象チャンネル信号の信号波形を示す信号波形図である。図１３の非同期マイクロホンアレーにおけるサンプリング周波数のミスマッチの非ブラインド補償方法における参照チャンネル信号及び対象チャンネル信号の時間差τ_Ａ及びτ_Ｂを示す信号波形図である。（ａ）は図１４の参照チャンネル信号及び対象チャンネル信号に対する録音開始時刻のオフセット補償方法を示すオフセット補償方法の補償前の各信号の信号波形図であり、（ｂ）はその補償後の各信号の信号波形図である。図１５の録音開始時刻のオフセット補償方法においてサンプリング周波数のミスマッチ補償方法において対象チャンネル信号に時刻ドリフトを考慮したフレームの切り出しを示す信号波形図である。図１５の録音開始時刻のオフセット補償方法においてサンプリング周波数のミスマッチ補償方法において各フレームの切り出し位置のオフセット補償及びフレーム内での位相シフトを示す信号波形図である。第２の実施形態に係るサンプリング周波数のミスマッチ補償の動作を、ＳＮ比最大比ビームフォーマを用いた音声強調の実験結果であって、区間Ａ部における強調結果を示す各信号の信号波形図である。第２の実施形態に係るサンプリング周波数のミスマッチ補償の動作を、ＳＮ比最大比ビームフォーマを用いた音声強調の実験結果であって、区間Ｂ部における強調結果を示す各信号の信号波形図である。本発明の第３の実施形態に係る音声信号処理装置１０の構成を示すブロック図である。図２０の音声信号処理装置１０によって実行されるブラインド同期音声信号処理を示すフローチャートである。図２０の音声信号処理装置１０によって実行される非ブラインド同期音声信号処理を示すフローチャートである。

以下、本発明に係る実施形態について図面を参照して説明する。なお、以下の各実施形態において、同様の構成要素については同一の符号を付している。

第１の実施形態．
本発明に係る第１の実施形態では、非同期マイクロホンアレーのためのチャンネル間のサンプリング周波数のミスマッチをブラインドに推定し補償する手法について述べる。サンプリング周波数のミスマッチによるチャンネル間の時間差の変化は短時間では一定となるため、フレーム毎に周波数領域で位相を操作することで補償する。また、音源が移動しないと仮定した最尤推定により、サンプリング周波数のミスマッチを推定する。後述するように、実験により提案手法はアレー信号処理の性能を大幅に回復できることが確認された。

第１の実施形態では、ブラインド音源分離（例えば、非特許文献６参照）の前処理のための、サンプリング周波数のチャンネル間のミスマッチを推定し補正する手法について述べる。まず、短い時間間ではチャンネル間の時間差の拡大が無視できるほど小さくなり、フレームの中央のサンプル番号に比例する一定の遅延と見なせることに性質に着目し、短時間フーリエ変換（Short Term Fourier Transformation：以下、ＳＴＦＴという）領域で線形の位相の補償とによりサンプリング周波数のミスマッチを補償することを提案する。ここで、短時間とは、サンプリング周波数にも依存するが、例えばサンプリング周波数が１６ｋＨｚでは数ミリ秒〜数十ミリ秒程度のフレーム単位の短い時間をいう。

さらに、第１の実施形態では、チャンネル間のサンプリング周波数のミスマッチは、位相差が等速に変化して音源位置が疑似的に変化するような効果を生じる。そこで、全ての音源は移動せずかつ定常であると仮定すると、定常な信号らしさをミスマッチの尺度として用いることができると考えられる。そこで定常性を仮定した観測信号の尤度関数を最大化するようにサンプリング周波数のミスマッチを推定する。尤度関数は解析的に解くことができないが、最適値付近では局所的に凸となることが経験的に分かっているため、荒い離散値全探索による探索範囲の絞り込みと、黄金比探索による詳細な探索を併用して最適化する。

図１（ａ）は非同期マイクロホンアレーの各マイクロホン１，２により観測された観測信号の信号波形図であり、図１（ｂ）は図１（ａ）の各観測信号のディジタル信号の信号波形図である。また、図２（ａ）は図１において録音開始時刻がずれたときの各マイクロホン１，２により観測された観測信号の信号波形図であり、図２（ｂ）は図２（ａ）の各観測信号のディジタル信号の信号波形図である。図１（ａ）及び図２（ａ）に示すように、マイクロホン２のＡ／Ｄ変換器のサンプリング周波数がマイクロホン１のＡ／Ｄ変換器のサンプリング周波数よりもやや高い場合、図１（ｂ）及び図２（ｂ）に示すように、マイクロホン２のディジタル波形では、マイクロホン１のディジタル波形に比較して波形が伸びたようにドリフトする。これらの場合における問題点は以下の通りである。
（１）各Ａ／Ｄ変換器のサンプリング周波数がずれているために、波形の伸縮が発生する。
（２）録音開始時刻がずれるために、波形のシフトが発生する。

これらの問題点を解決するために、まず、サンプリング周波数のミスマッチと補償の定式化について以下に説明する。

同時刻における２つのマイクロホンの連続信号ｘ_Ｏ１（ｔ），ｘ_Ｏ２（ｔ）（ｔは連続時間）が別々のＡ／Ｄ変換器でサンプリングされて離散信号ｘ_１（ｎ），ｘ_２（ｎ）（ｎはサンプル番号）が得られたとする。ここで、離散信号ｘ_１（ｎ）のサンプリング周波数はｆ_ｓ、離散信号ｘ_２（ｎ）のサンプリング周波数は未知の無次元数ε（｜ε｜≪１）により表される（１＋ε）ｆ_ｓであるとする。このとき各チャンネルの離散信号と連続信号の関係は以下のように表される。

いま、同時刻における２つのマイクロホンの連続信号ｘ_Ｏ１（ｔ），ｘ_Ｏ２（ｔ）（ｔは連続時間）が別々のＡ／Ｄ変換器でサンプリングされて離散信号ｘ_１（ｎ_１），ｘ_２（ｎ_２）（ｎ_１，ｎ_２はサンプル番号）が得られたとする。ここで、離散信号ｘ_１（ｎ_１）のサンプリング周波数はｆ_ｓ、離散信号ｘ_２（ｎ_２）のサンプリング周波数は未知のミスマッチεにより表される（１＋ε）ｆ_ｓであるとする。このとき離散信号と連続信号の関係は以下のように表される。

ここで、ｔの時間原点を離散信号ｘ_１（ｎ_１）の録音開始時刻とし、ΔＴ_２１は離散信号ｘ_１（ｎ_１）に対する離散信号ｘ_２（ｎ_１）の録音開始時刻の遅れを表す。ここで、連続時刻ｔの原点は離散信号ｘ_１（ｎ）の録音開始時刻とし、Ｔ_２１は離散信号ｘ_２（ｎ）の録音開始時刻とする。従って、同じ時刻ｔを参照する第ｉチャンネル（ｉ＝１，２）のサンプル番号ｎ_ｉは次式で表される。

ｎ_１＝ｆ_ｓｔ（５）
ｎ_２＝（１＋ε）ｆ_ｓ（ｔ−Ｔ_２）（６）

ｎ_２はｎ_１を用いて次式で表すことができる。

ｎ_２＝（１＋ε）（ｎ_１−ｆ_ｓＴ_２１）（７）

以下では各チャンネルの離散時刻は同じ時刻を参照するペアである必要がある場合にはｎ_１，ｎ_２と表記し、そうではなく単純に１つのチャネルのサンプル番号を示していて時刻の対応関係を議論する必要がない場合にはｎなどと表記することとする。整数値のｎ_１に対しては、同じ時刻を参照するｎ_２は一般に非整数となるため、離散信号ｘ_２（ｎ）を離散信号ｘ_１（ｎ）と同期するよう補正した離散信号

を正確に求めるためには、以下のような離散信号ｘ_２（ｎ）のｓｉｎｃ関数補間が必要になる。

しかし、ｓｉｎｃ関数による正確な補間は長いｓｉｎｃ関数の畳込みが必要になるため現実的な計算法ではなく、サンプリング周波数のミスマッチを効率的に補償する手法を考えるためには何らかの近似が必要になる。

次いで、フレーム内のサンプリング周波数のミスマッチのモデル化について以下に説明する。

アレー信号処理の多くは時間周波数領域で行われるため、短時間フレーム変換（ＳＴＦＴ）領域での信号表現がよく近似する方法があれば十分であると考える。そのために、まずＳＴＦＴのフレーム長をＬ、チャンネル１のあるフレームの中心サンプルをｍとして、ｍ−Ｌ／２≦ｎ_１≦ｎ＋Ｌ／２−１という１フレーム内での時間の対応関係を考える。式（７）の関係から、サンプルｍの近傍のｎ_１は次式で表される。

ｎ_２＝（１＋ε）（ｎ_１−ｍ）＋（１＋ε）ｍ−ｆ_ｓＴ_２１
⇔（ｎ_２−ｍ）＝（１＋ε）（ｎ_１−ｍ）＋εｍ−ｆ_ｓＴ_２１（９）

（ｎ_２−ｍ）と（ｎ_１−ｍ）の対応関係は、ｍとともにεｍだけ拡大していくことがわかる。フレーム中心ｍは録音時刻と共にいくらでも拡大していくので、このシフトは無視することができない。

一方、（ｎ_１−ｍ）はフレーム内ではｍによらず常に｜ｎ_１−ｍ｜≧Ｌ／２であり、Ｌε≪１の条件では、ε（ｎ_１−ｍ）はフレーム内では１／２サンプルよりもはるかに小さくなるため、ここでは無視できると考えられる。例えばεとして、１０^−５〜１０^−６程度、フレーム長として１０^３〜１０^４程度を考えると、これは無視できる。よって、ε（ｎ_１−ｍ）を無視すると、次式を得る。

（ｎ_２−ｍ）＝（ｎ_１−ｍ）＋εｍ−ｆ_ｓＴ_２１（１０）

従って、フレーム内で時間差がｎ_１に依存せず一定と仮定したモデルを得る。このように考えると、第２チャンネルの観測信号に
τ（ｍ）＝−ε（ｍ−Ｍ）（１１）
（Ｍは定数）で与えられる遅延量τ（ｍ；ε）をｘ_２（ｎ−τ（ｍ；ε））として、チャンネル２に与えることにより次式を得る。

ｎ_２←ｎ_２＋τ（ｍ；ε）（１２）

式（９）は次式のようにフレーム内での時間差のｍへの依存をなくすことができる。

（ｎ_２−τ（ｍ）−ｍ）＝（ｎ_１−ｍ）＋εｍ−ｆ_ｓＴ_２１（１３）
⇔（ｎ_２−ｍ）＝（ｎ_１−ｍ）−ｆ_ｓＴ_２１＋Ｍ（１４）

式（１１）で与えられる遅延量はやはり非整数であるが、フレーム内での時間シフトはＳＴＦＴ領域では線形位相に単純化されるため、以下ではＳＴＦＴ領域における位相補償について議論する。

図３は本発明の第１の実施形態に係るブラインド補償の音声信号処理方法において用いる、２つの音声信号に対する線形位相モデルによる補償法を示す信号波形図である。本実施形態では、図３に示すように、時刻に対して線形に時刻差がドリフトする場合を考え、以下では、フレーム内のドリフトを無視した階段状に上記時間差を近似することを考える。

まず、第ｍサンプルを中心とするフレーム波形の短時間フーリエ変換Ｘ１（ｋ，ｍ）は以下のように与えられる。

ｘ_１ ^ｆｒ（ｌ，ｍ）＝ｗ（ｌ）ｘ_１（ｌ＋ｍ−Ｌ／２）（１５）

ここで、ｘ_１ ^ｆｒ（ｌ，ｍ）はフレーム波形、ｗ（ｌ）は長さＬの再合成可能な窓関数、−Ｌ／２＜ｋ≦Ｌ／２は離散周波数インデックス、Ｆ_Ｌ｛｝（ｋ）はＬ点の離散フーリエ変換により離散周波数ｋの複素振幅を求める演算を表す。ただし、離散フーリエ変換は実際の計算では高速フーリエ変換で置き換える。

まず、信号ｘ_２（ｎ_２）を信号ｘ_１（ｎ_１）と同じ第ｍサンプルを中心とするフレーム分析に施し、ドリフトによる各フレームの遅延量の変化のみを時間周波数領域で補償する。まず、フレーム分析は第１チャンネルと一律で第ｍサンプル目を中央とする窓関数を用いた長時間波形の切り出しにより行う。

ｘ_２ ^ｆｒ（ｌ，ｍ）＝ｗ（ｌ）ｘ_２（ｌ＋ｍ−Ｌ／２）（１７）

これに窓掛けをフーリエ変換してτ_２（ｍ；ε）サンプルの遅延に相当する線形位相を与える。

時間周波数領域の線形位相は時間領域ではフレーム内の円状時間シフトに相当するため、この処理は遅延量τ_２（ｍ；ε）が大きい場合に誤差が大きくなる。従って、この処理は全フレームにわたって、遅延量τ_２（ｍ；ε）が小さくなる場合に有効で、そのためには、ミスマッチ原点Ｎ_０が信号の中央付近から大きく離れている場合や、信号長が長いためにＬ／ｍ≫｜ε｜とならない場合には不向きである。ミスマッチ原点Ｎ_０の位置は後述されるように信号の中央付近に移動することができるため、前者の問題は問題にならない。従ってこの計算法は信号帳が短い場合に有効である。

次いで、空間的定常性を仮定したミスマッチ推定について以下に説明する。

｜ε｜≪１とした場合のマイクロホンアレーの観測なので、ミスマッチが補正されていない場合でも信号ｘ_１（ｎ_１）と信号ｘ_２（ｎ_２）の相関は高いと仮定できる。そこで、以下のようにｎ_１＝０，…，Ｎ_１−１と、ｎ_２＝０，…，Ｎ_２−１を同質のものと扱い、相関を最大にする信号ｘ_２（ｎ_２）の遅延量δ_１２を求める。

そして、信号ｘ_２（ｎ_２）を遅延量δ_１２だけ遅延させて
ｘ_２（ｎ_２）←ｘ_２（ｎ_２−δ_１２）（２０）
とする。これにより、信号ｘ_１（ｎ_１）と信号ｘ_２（ｎ_２）のミスマッチの原点を信号のオーバーラップするサンプル区間の中央付近に移動する。そして、遅延量τ（ｍ）のＭに、このオーバーラップの中央付近のサンプル番号を与える。

ここで、観測されるすべての音源は定常かつ位置の移動が無いと仮定すると、正確なミスマッチεの推定を用いてサンプリング周波数のミスマッチを補償した観測信号

は離散周波数ｋ毎に定常であると仮定できるため、この仮定に基づいた最尤推定によりミスマッチεを求める。上で議論した位相補償のいずれかを用いて計算した。

より得られる

の分布を零平均、共分散行列Ｖ（ｋ）の多変量複素正規分布とおいた場合の対数尤度は次式で表される。

ここで、｛・｝^Ｈは複素共役転置を表し、ＶはＶ（ｋ）の集合｛Ｖ（ｋ）｜ｋ＝−Ｌ／２＋１，…，Ｌ／２｝とする。共分散行列Ｖ（ｋ）は未知であるため、

を用いた次式の標本推定で置き換える。

この尤度最大化は解析的に解くことができない。そのため、対数尤度Ｊ（Ｖ，ε）を最大化するεの離散値全探索法などの方法によるミスマッチεを推定が必要になる。

本実施形態では、離散値全探索法に黄金分割法を併用してなる最尤推定の効率的解法について考える。上記では、ミスマッチεを評価するための対数尤度関数

を定式化したが、この対数尤度関数を最大化するミスマッチεは解析的に求めることができない。推定するパラメータはミスマッチεのみであり、その最適化には離散値全探索を行うことも考えられるが、一つのミスマッチεの評価のために全体域での共分散行列とその逆行列の計算が必要であるため、高い解像度の離散値全探索を行うためには計算量が膨大になる。以下では黄金分割探索法を用いた最尤推定の効率的解法について説明する。

この最尤推定問題で求めるべきパラメータはミスマッチεのみであるため、一次元の最適化問題の代表的な手法である黄金分割探索法を用いることが考えられる。黄金分割探索法は凸関数の最大または最小値を探索範囲を狭めながら繰り返し探索により求める手法で、関数が局所的に凸な範囲では最適解に一意に収束する。

図４は第１の実施形態に係るブラインド補償の音声信号処理方法において用いる離散値全探索法による範囲絞り込み方法を示す、サンプリング周波数のミスマッチεに対する対数尤度関数Ｊ（Ｖ，ε）の関数値の具体例を示すグラフである。ここで、対数尤度関数Ｊ（Ｖ，ε）は、サンプリング周波数のミスマッチεに対する、対象チャンネル信号に対してサンプリング周波数のミスマッチを補償したときの観測信号の対数尤度関数である。図４に示す例のように、対数尤度関数

は最大値周辺では凸関数となることが経験的にわかっているため、適切に探索範囲を絞り込むことで黄金比探索法が利用可能となる。

まず、刻みの荒い離散値全探索により探索範囲を絞り込む。ミスマッチεの探索範囲Ｅを等間隔にＩ点に分割した

について、すべての対数尤度関数

の関数値を比較して最大値を与える次式のミスマッチε_ｉ＊を求める。

この離散値全探索の範囲Ｅは、録音機器間のサンプリング周波数のミスマッチとして妥当な範囲に設定すればよい。一般的な録音機器のサンプリング周波数のミスマッチは１０^−５オーダーであるといわれているため、Ｅは１０^−４またはその数倍に設定すればよい。探索範囲の分割数Ｉの適切な値は、探索範囲にも依存するが、１０から１００程度に設定すれば十分であると考えられる。

図５は第１の実施形態に係るブラインド補償の音声信号処理方法において用いる黄金比探索法による最適解の探索方法を示す、サンプリング周波数のミスマッチεに対する対数尤度関数Ｊ（Ｖ，ε）の関数値を示すグラフである。すなわち、離散値全探索法による範囲絞り込みでは、図５に示すように、
（１）探索範囲を等間隔に刻んでサンプリング周波数のミスマッチεを離散化し、
（２）離散化したサンプリング周波数のミスマッチεについて対数尤度関数Ｊ（Ｖ，ε）が最大となるものを探す。
（３）最大値を与える両隣の範囲を最適値の存在範囲として推定する。

次に、［ε_ｉ＊−１，ε_ｉ＊＋１］を探索範囲とした尤度関数

についてのミスマッチεの黄金比分割法を以下のアルゴリズムにより行う。

（１）ステップＳＳ１において、初期値を次式のように初期値を定める。
ａ＝ε_＊−１
ｂ＝ε_＊＋１

（２）ステップＳＳ２において、
ｐ＝ｂ−φ（ｂ−ａ）
ｑ＝ａ＋φ（ｂ−ａ）
として

を求める。ここで
φ＝（（√５）−１）／２（２６）
である。

（３）ステップＳＳ３において、

なら
ａ＝ｐ
ｐ＝ｑ
ｑ＝ａ＋φ（ｂ−ａ）（２７）
とし、そうでなければ、
ｂ＝ｑ
ｑ＝ｐ
ｐ＝ｂ−φ（ｂ−ａ）（２８）
とする。

（４）ステップＳＳ４において、（ｂ−ａ）が十分に小さくなければステップＳＳ２に戻り、十分に小さければ

としてεの最尤推定値を求めて終了する。

図６は第１の実施形態に係るブラインド補償の音声信号処理方法において用いる黄金比探索法による最適解の探索方法を示す、サンプリング周波数のミスマッチεに対する対数尤度関数Ｊ（Ｖ，ε）の関数値を示すグラフである。上記の黄金比探索法は、局所単峰型関数の１次元最大化問題の効率的解法であって、図６に示すように、１：ψ又はψ：１（ここで、ψ＝（１＋√（５））／２）である。）の黄金比分割による探索範囲の絞り込みを繰り返し（図６のＳ１０１、Ｓ１０２、…）、毎回の反復で範囲がψ−１（≒０．６２）倍に狭まる探索法である。具体的には、探索範囲を黄金比分割し、大きな値を含む方の範囲に探索範囲を絞り込み、範囲が十分に小さくなければ、上記の黄金比分割の処理に戻る。一方、探索範囲が十分に小さければ、探索範囲の中点を解として終了する。

図７は図６の黄金比探索法の計算効率を示す表であって、図７（ａ）はその計算条件を示す表であり、図７（ｂ）はすべて離散値全探索法の場合の分割数と計算時間の関係を示す表であり、図７（ｃ）は離散値全探索法と黄金比探索法との併用の場合の分割数と計算時間の関係を示す表である。黄金比探索法の計算効率について考察すると、探索範囲をＮ点に等分割する精度の探索の演算量は以下のようになる。
（１）離散値全探索法では、Ｎ回の関数評価となる。
（２）黄金比探索法では、

回の関数評価となる。

計算時間の実測値の例（１０回計算の平均値）を以下に示す。図７（ａ）の条件で、２０点の離散値全探索法による範囲絞り込みを行った後、さらに１／Ｎの精度での探索を行った。すべて離散値全探索法の場合は図７（ｂ）のようになり、離散値全探索法に対して黄金比探索法を併用した場合は図７（ｃ）のようになった。図７から明らかなように、黄金比探索法を併用した場合の方が演算量を大幅に減少させることがわかる。

第１の実施形態では、離散値全探索法と黄金分割探索法においては全てのミスマッチεの候補についての対数尤度関数Ｊ（Ｖ，ε）の評価のために、多数の位相補償信号

を求める必要があるため、その計算は演算量の小さいものを用いるのが好ましい。フレーム中心ｍが小さいあるいは大きいフレームにおいても位相補償Δ（ｍ；ε）がフレーム長Ｌに対して十分小さければ、上述のフレーム切り出しの最適化を伴う位相補償ではなく、単純位相補償を用いるのがよい。その場合には、εの最尤推定値が得られたのちには位相補償を正確に行うためにフレーム切り出しの最適化を行うことが好ましい。

図８は本発明の第１の実施形態に係るブラインド補償の音声信号処理方法を示すフローチャートである。図８において、ステップＳ１において、対象チャンネル信号に対して参照チャンネル信号と録音開始時刻を合わせるように時間差補償処理を行った後、ステップＳ２において、時間差補償処理後の対象チャンネル信号と、参照チャンネル信号に対してＳＴＦＴ処理を行う。次いで、ステップＳ３においてサンプリング周波数のミスマッチεの初期値を設定した後、ステップＳ４において、ミスマッチεの初期値を用いてミスマッチを補償し、ミスマッチの度合いを評価し、ミスマッチが所定のしきい値以下となるまで補償処理を行う。これにより、参照チャンネル信号のＳＴＦＴ表現と、ミスマッチ補償済みの対象チャンネル信号のＳＴＦＴ表現とを得る。

さらに、本発明者らは、提案手法の性能と非同期アレー信号処理への有効性を検証するため、複数話者の音声の混合のマイクロホンアレーによる観測信号に人工的にサンプリング周波数のミスマッチを与え、提案手法によりサンプリング周波数のミスマッチの補償精度とブラインド音源分離の性能への寄与を評価する。

まず、実験条件について以下に説明する。

使用した観測信号は、２人の話者による発話に実測したインパルス応答を畳み込んで混合したものである。音声はＡＴＲデータベースの男女２名ずつの単語発話を話者ごとに繋げたものを用い、２話者ずつの選択の全ての組み合わせを評価した。このようにして作成したマイクロホンアレー観測信号の片方のチャンネルのサンプリング周波数を人為的に変更してサンプリング周波数のミスマッチを模擬した。サンプリング周波数の変更はＭＡＴＬＡＢのｒｅｓａｍｐｌｅ関数に実装されているポリフェーズフィルタにより行い、ポリフェーズフィルタの長さは１００タップのものを用いた。変更前のサンプリング周波数は１６，０００Ｈｚで、サンプリング周波数の変更は１６，０００±０．５、１６，０００±１、１６，０００±１．５Ｈｚの６種類とした。これらはそれぞれ±３１．２５、±６２．５、±９３．７５ｐｐｍに相当し、別々のＡ／Ｄ変換器を用いた場合のサンプリング周波数のミスマッチとして現実的な大きさのものである。

図９は図４のブラインド補償の音声信号処理方法を用いたサンプリング周波数のミスマッチの推定精度及びサンプリング周波数補償の音源分離精度への寄与の評価を行うときの観測信号作成の実験条件を示す表である。すなわち、音源分離評価のための分離手法には補助関数法独立ベクトル分析（例えば、非特許文献７参照）を用いた。その他の実験条件を図９に示す。

次いで、サンプリング周波数のミスマッチの推定精度について以下に説明する。

図１０は図４のブラインド補償の音声信号処理方法を用いたサンプリング周波数のミスマッチの推定精度を測定した実験結果であって、データ長に対するサンプリング周波数のミスマッチεの推定の平均二乗誤差（ＲＭＳＥ）を示すグラフである。図１０から明らかなように、最も短い３秒の観測信号でもＲＭＳＥは元のサンプリング周波数のミスマッチεの１０分の１以下に収束し、データが増えるに従って急速に小さくなる。従って、観測信号の定常性を仮定した尤度がサンプリング周波数のミスマッチの評価尺度として有効であるということがわかる。また、本実験では黄金比探索の収束条件を探索区間長が１０^−９より小さくなることと定めているが、このために必要な探索の繰り返し回数は３０回を超えることがなく、候補を絞り込むための１０点の離散値全探索とあわせて４０個以下の点で対数尤度関数を評価するだけでこのような高い精度が得られている。

さらに、音源分離への寄与について以下に説明する。サンプリング周波数のミスマッチを提案手法により補償することで、音源分離の性能が回復することを確かめるための評価実験を行った。

図１０は図４のブラインド補償の音声信号処理方法を用いたサンプリング周波数のミスマッチの推定精度を測定した実験結果であって、データ長に対するサンプリング周波数のミスマッチεの推定の平均二乗誤差（ＲＭＳＥ）を示すグラフである。また、図１１は図４のブラインド補償の音声信号処理方法を用いたサンプリング周波数補償の音源分離精度への寄与の評価を測定した実験結果であって、信号長に対する信号対歪比（ＳＤＲ）を示すグラフである。さらに、図１２は図４のブラインド補償の音声信号処理方法を用いたサンプリング周波数補償の音源分離精度への寄与の評価を測定した実験結果であって、ブラインド音声分離の信号対干渉比（ＳＩＲ）を示すグラフである。ここで、分離フィルタの学習には与えられた観測信号全体を用いた。評価尺度には、非目的成分の抑圧の強さを表す信号対干渉比（Ｓｉｇｎａｌ−ｔｏ−ＩｎｔｅｒｆｅｒｅｎｃｅＲａｔｉｏ；ＳＩＲ）と信号対歪比（Ｓｉｇｎａｌ−ｔｏ−ＤｉｓｔｏｒｔｉｏｎＲａｔｉｏ；ＳＤＲ）を用いた（例えば、非特許文献８参照）。また、これらの評価値を算出するための参照信号としては、サンプリング周波数の変更を施していないマイクロホンにおける各音源の音像を用いた。

図１１及び図１２において、「ミスマッチなし」とはサンプリング周波数の変更を施さない場合の音源分離結果を示し、サンプリング周波数のミスマッチを補償した音源分離の性能限界を表す。「未処理」とはサンプリング周波数補償を施さないで音源分離を行った性能を示す。「手動処理」とは正しいサンプリング周波数のミスマッチεを与えて位相補償を施した場合の性能を示す。「本実施形態」とはサンプリング周波数のミスマッチを最尤推定で求めて線形位相で補償する提案手法を示す。

まず、図１０から明らかなように、データ長が長くなるにつれてサンプリング周波数のミスマッチεの推定の平均二乗誤差（ＲＭＳＥ）が小さくなることがわかる。次いで、図１１及び図１２から明らかなように、未処理のＳＤＲが非常に低い値を示していることから、この条件ではサンプリング周波数のミスマッチの補償をしなければ音源分離ができない厳しい条件であるということがわかる。手動処理で正解のパラメータを与えた位相補償はサンプリング周波数のミスマッチがない場合よりも、ＳＩＲとＳＤＲの両方で２ｄＢ程度低いだけであり、ブラインド音声分離（ＢＳＳ）のためのサンプリング周波数のミスマッチ補償にＳＴＦＴ領域における位相補償が有効であるということがわかる。また、サンプリング周波数のミスマッチをブラインドに推定して補償する提案手法は線形位相補償の性能限界を表す手動処理とほとんど性能差がなく、提案手法の最尤推定の精度の高さを示している。以上より、提案手法はサンプリング周波数のミスマッチにより生じる性能劣化をかなり回復させることができているため、音源分離のためのサンプリング周波数のミスマッチ補償として提案手法が有効であるということが確認された。

以上説明したように、本実施形態によれば、非同期マイクロホンアレーで問題となる観測チャンネル間のサンプリング周波数のミスマッチをブラインドに推定する手法を提案した。まず、短い時間間ではチャンネル間の時間差の拡大が無視できるほど小さくなり、フレームの中央のサンプル番号に比例する一定の遅延と見なせることに性質に着目し、ＳＴＦＴ領域で線形の位相の補償とによりサンプリング周波数のミスマッチを補償することを提案した。また、観測される音源が定常で移動がないと仮定した、サンプリング周波数のミスマッチの推定を評価する尤度関数を定式化した。さらに、解析的に解けないこの尤度関数の最大化問題の、荒い離散値全探索による範囲の絞り込みと黄金比探索による高速な推定を用いた効率的な解方法を提案した。人工的にサンプリング周波数のミスマッチを与えた音声のサンプリング周波数のミスマッチの推定・補償と音源分離を評価する実験の結果、提案手法はサンプリング周波数のミスマッチを高い精度で推定することができ、また線形位相補償により音源分離性能をサンプリング周波数のミスマッチが起こっていない場合と近いレベルにまで回復できるということがわかり、提案手法の有効性を確認した。

第２の実施形態．
第２の実施形態では、議事録作成のための会議録音など、録音後に信号処理により音声強調を行う応用を想定している。ある特定の音源だけが音を生じている時間区間である単一音源区間情報を録音信号に含めることで、この単一音源区間情報から録音開始時刻オフセットとサンプリング周波数のミスマッチの値を推定する手法を提案する。

図１３は本発明の第２の実施形態に係る非同期マイクロホンアレーにおけるサンプリング周波数のミスマッチの非ブラインド補償方法で用いる時間的に離れた同じ音源による２つの単一音源区間情報を手がかりとした補正方法を示す参照チャンネル信号及び対象チャンネル信号の信号波形を示す信号波形図である。実用上では、例えば会議の開会、閉会の挨拶や、初めの自己紹介など、簡潔な特定話者の音声や、またはチャープ信号のような目印となる同期用の既知音源の音、もしくは演奏前のある楽器の１フレーム演奏音などの音を、録音の最初と最後に鳴らすなどして、ある特定の音源だけが生じている時間区間を、単一音源区間情報として録音を行う。図１３に示すように、時間的に離れた同じ音源による２つの単一音源区間情報を手がかりとして、区間情報の録音信号を利用することにより、録音開始時刻オフセットや、サンプリング周波数のミスマッチの算出は容易になると考えられる。各録音デバイスのサンプリング周波数を絶対的に補正するためには、高精度で安定な発振器などが必要になるため、録音信号の１つを基準とし、その信号に対してサンプリング周波数を揃える相対的な補償を考える。全デバイスに録音された単一音源区間情報から、基準の信号との相対的な補正を行い、ＳＮ比最大化ビームフォーマを用いた音声強調が容易になるか検証を行う。

まず、チャンネル間のサンプリング周波数のミスマッチについて以下に説明する。

第２の実施形態では、公称サンプリング周波数が同じである録音機器間におけるクロックの個体差によるサンプリング周波数のミスマッチについて扱う。以下、チャンネル間のサンプリング周波数のミスマッチが生じた場合、どのような影響があるかをアナログ波形とディジタル波形の関係から議論する。

図１に示すように、マイクロホン１とマイクロホン２には、マイクロホン間の距離による到達時間差が生じて音波（それぞれ参照チャンネル信号、対象チャンネル信号という。）が到達する。このアナログ波形のディジタル波形への変換を考える。マイクロホン２のサンプリング周波数がマイクロホン１よりもやや高い時、連続時間区間におけるマイクロホン２のディジタル波形のサンプル数は、マイクロホン１の同連続時間区間に対応するディジタル波形に比べ多くなってしまう。これによりマイクロホン１とマイクロホン２のディジタル波形を比較すると、図１（ｂ）に示すように、マイクロホン２のディジタル波形はマイクロホン１よりやや伸びた形となってしまう。このことから、チャンネル間のサンプリング周波数のミスマッチは波形の伸縮を引き起こす。また、チャンネル間の録音開始時刻によるオフセットが生じた場合、図２に示すように、波形はシフトしてしまう。

図１４は図１３の非同期マイクロホンアレーにおけるサンプリング周波数のミスマッチの非ブラインド補償方法における参照チャンネル信号及び対象チャンネル信号の時間差τ_Ａ及びτ_Ｂを示す信号波形図である。図１５（ａ）は図１４の参照チャンネル信号及び対象チャンネル信号に対する録音開始時刻のオフセット補償方法を示すオフセット補償方法の補償前の各信号の信号波形図であり、図１５（ｂ）はその補償後の各信号の信号波形図である。図１４において、観測信号の最初と最後の部分に同一の音源のみが含まれていることを仮定し、相互相関関数のピークより時間差τ_Ａ，τ_Ｂを算出し、チャンネル間の時間差を推定して、次式によりサンプリング周波数のミスマッチεを求める。

ε＝（τ_Ｂ−τ_Ａ）／Ｄ_１

ここで、Ｄ_１は各同一音源間の時間差（サンプル）である。図１５（ａ）に示すように、録音開始時刻が存在すると、時間周波数領域においてチャンネル間の各フレーム同士で対応がとれず、当該領域で処理を行うために大きな時刻オフセットを補償する必要がある。次いで、図１５（ｂ）に示すように、対象チャンネル信号に対して時間差τ_Ａだけ時刻オフセット補償を行うことで録音開始時刻付近の単一音源区間情報を用いて、参照チャンネル信号に対して対象チャンネル信号を録音開始時刻のオフセット補償を行うことができる。

今回、音声強調手法として用いるＳＮ比最大化ビームフォーマは、出力信号中の目的話者信号（信号成分）とノイズ及び話者成分（ノイズ成分）のパワー比を最大化するように、ノイズ成分方位に死角を向けた指向特性を形成することにより音声強調を行う手法である。この手法は、適応ビームフォーマの形成に必要なステアリングベクトルを必要とせず、残響下においても効果を期待される手法である。事前にステアリングベクトルを必要としないため、しばしばマイクロホンアレー処理で用いられるマイクロホン間距離による位相差を用いる必要がなく、録音開始時刻オフセットの補正を行ってもビームフォーマの適用が可能となり、非同期マイクロホンアレーによる音声強調に適している手法といえる。

しかし、ノイズ成分方向に死角を形成するビームフォーマであるため、サンプリング周波数のミスマッチによる影響は受けることになる。ＳＮ比最大化ビームフォーマの設計に必要な、観測信号の共分散行列はサンプリング周波数のミスマッチの影響があると変化してしまうため、長い録音区間において録音開始時刻周辺で作成したビームフォーマは後ろの区間では適用できない。例えば、マイクロホン間距離２．５ｃｍ、サンプリング周波数４８ｋＨｚ、音速３４０ｍ／ｓの条件下で、１秒当たり１サンプルチャンネル間でずれが生じる場合、約７４°方位が変わること相当するため、ビームフォーマが形成する指向角から大きく外れてしまうことが考えられる。このことからチャンネル間におけるサンプリング周波数のミスマッチはＳＮ比最大化ビームフォーマを用いた音声強調において大幅な性能劣化を引き起こすことになる。

次いで、録音開始時刻オフセットの補正とサンプリング周波数のミスマッチの線形位相補償について以下に説明する。

まず、ミスマッチの時間領域モデルについて定義する。同時刻における２つのマイクロホン信号ｘ_Ｏ１（ｔ），ｘ_Ｏ２（ｔ）（ｔは連続時間）が別々のＡ／Ｄ変換器でサンプリングされ離散信号ｘ_１（ｎ_１），ｘ_２（ｎ_２）（ｎ_１，ｎ_２はサンプル番号）が得られたとする。ここで、信号ｘ_１（ｎ_１）のサンプリング周波数はｆ_ｓ、信号ｘ_２（ｎ_２）のサンプリング周波数は未知のミスマッチεにより表される（１＋ε）ｆ_ｓであるとする。このとき離散信号と連続信号の関係は以下のように表される。

ここで、Ｔ_ｉ（ｉ＝１，２）は信号ｘ_ｉ（ｎ_ｉ）の録音開始時刻を表す。ここで、第ｉチャンネル（ｉ＝１，２）の同時刻ｔを参照するサンプル番号ｎ_ｉは次式で表される。

ｎ_１＝（ｔ−Ｔ_１）ｆ_ｓ（３２）
ｎ_２＝（１＋ε）（ｔ−Ｔ_２）ｆ_ｓ（３３）

ここで、チャンネル１の録音開始時刻Ｔ_１＝０とすると、式（３０）と式（３２）は次式で表される。

また、この時録音開始時刻差Ｔ_２−Ｔ_１＝Ｔ_２をτ_２サンプルと置くと、次式を得る。

以上から、ｎ_２はｎ_１を用いて、次式で表される。

サンプル番号ｎ_１が参照する時刻に対応するサンプル番号ｎ_２を参照する。

次いで、ミスマッチの時間周波数領域モデリングについて以下に説明する。

図１６は図１５の録音開始時刻のオフセット補償方法においてサンプリング周波数のミスマッチ補償方法において対象チャンネル信号に時刻ドリフトを考慮したフレームの切り出しを示す信号波形図である。また、図１７は図１５の録音開始時刻のオフセット補償方法においてサンプリング周波数のミスマッチ補償方法において各フレームの切り出し位置のオフセット補償及びフレーム内での位相シフトを示す信号波形図である。図１６において、時間周波数領域におけるサンプリング周波数のミスマッチを補償するときに、補償チャンネルである対象チャンネル信号に対して時刻ドリフトを考慮したフレーム切り出しを行う。ここで、参照チャンネル信号のフレーム切り出しは単に等間隔Ｍで行い、ｒ_１フレーム目の先頭サンプル番号はｒ_１Ｍサンプル目となる。また、対象チャンネル信号の切り出しはミスマッチεを考慮したシフト幅（１＋ε）Ｍで行い、参照チャンネル信号のｒ_１フレーム目に対応するフレーム先頭サンプル番号は（１＋ε）ｒ_１Ｍサンプル目となる。図１７において、各フレームの切り出し位置のオフセット補償を整数サンプル単位で補償を行う。従って、シフト幅が（１＋ε）Ｍ倍の丸め込みであるｒｏｕｎｄ［（１＋ε）ｒ１Ｍ］になるＳＴＦＴ分析を行う。次いで、フレーム内での位相シフトを詳細後述するように行う。

すなわち、第２の実施形態では、各フレームの開始サンプル数のオフセットをフレーム切り出しにより補正し、フレーム切り出し補正後の、フレーム内における位相ずれの補正を時間周波数領域内で行うことを特徴としている。

まずフレーム切り出しによる時間オフセット補正について議論する。

参照チャンネル信号のチャンネル１のｎ_１（ｔ）＝Ｎサンプル目からＮ＋Ｎ’サンプル目までを切り出し、それに対応する対象チャンネル信号のチャンネル２の録音信号を補正する時、フレームの時刻ドリフトを考慮したフレーム切り出しをチャンネル２に施す必要がある。チャンネル１の切り出しサンプル番号Ｎと補正区間における各フレームの開始位置に対応するサンプル番号ｎ_１（ｒ）は、フレーム番号をｒ（ｒ＝０，…，Ｒ−１）、フレームシフト長をＭとすることにより、次式で表される。

ｎ_１（ｒ）＝Ｎ＋ｒＭ（４０）

補正区間の開始時刻を０とすると、切り出し区間における各フレームに対応するサンプル番号ｎ_１’（ｒ）は次式で表される。

ｎ_１’（ｒ）＝ｎ_１（ｒ）−Ｎ＝ｒＭ（４１）

また、チャンネル２の補正区間における各フレームに対応するサンプル番号ｎ_２’（ｒ）は次式で表される。

ｎ_２’（ｒ）＝（１＋ε）ｎ_１（ｒ）−τ_２−Ｎ（４２）

以上で求めたサンプル番号により各チャンネルのフレームを切り出すことにより、各フレーム切り出し地点での時間オフセットによる影響は補正される。

次に、フレーム内における位相シフトを考える。

サンプル番号ｎ_２’（ｒ）における各フレーム内で、サンプル番号ｎ_１’（ｒ）の各フレームの位相と対応するように、εｒＭサンプルに相当する遅延を与える必要がある。サンプル番号ｎ_２の時間周波数領域信号をＸ_２（ｋ，ｒ）（ｋ＝−Ｌ／２＋１，…，Ｌ／２は周波数番号）とすると、サンプル番号ｎ_２’（ｒ）の位相シフトによりサンプリング周波数のミスマッチを補償した時間周波数領域信号

を以下のように求める。

ここで、ｊは虚数単位、Ｌはフレーム長である。

さらに、単一音源区間情報を用いた録音開始時刻オフセットとサンプリング周波数のミスマッチの補正について以下に説明する。

以上で議論した補償を実現するため、以下では単一音源区間情報を利用する。初めと最後に単一音源区間情報が得られている録音信号を録音し、その区間を利用し録音開始時刻オフセットとサンプリング周波数のミスマッチを導出する。まず、各チャンネル、初めと最後（以下、録音前半部をＡ部、録音後半部をＢ部とする。）における区間情報部を切り出し、同区間においてチャンネル間でクロススペクトルの逆フーリエ変換を取ることにより相互相関を計算する。これにより、各チャンネル同区間においての時間オフセットを得ることができる。参照チャンネル信号との対象チャンネル信号におけるサンプリング周波数のミスマッチ（１＋ε）は、各チャンネルのＡ部及びＢ部における単一音源区間情報間のサンプル数をそれぞれＤ_１、Ｄ_２とすることにより次式で表される。

Ｄ１、Ｄ２のサンプル数は、基準信号チャンネルにおけるＡ部及びＢ部の単一音源区間開始サンプル番号をそれぞれ、ｎ_１（ｔ_Ａ），ｎ_１（ｔ_Ｂ）とし、チャンネル２の同時刻におけるサンプル番号をｎ_２（ｔ_Ａ），ｎ_２（ｔ_Ｂ）とし、
Ｄ_１＝ｎ_１（ｔ_Ｂ）−ｎ_１（ｔ_Ａ）（１７）
と置くと各チャンネル同区間においての相互相関のピーク差τ_Ａ、τ_Ｂを用いて次式で表される。

以上で得られた値を用いて、上述のサンプリング周波数のミスマッチ補償を行う。

本発明者らは、以上で示したサンプリング周波数のミスマッチ補償の動作をＳＮ比最大化ビームフォーマを用いた音声強調により確認する。本実施形態ではステレオ録音可能な録音機器２台、計４チャンネルを用いて一時間程度の録音を行った。音源数は男性音声、女性音声それぞれ１音声を使用し、また区間情報としてＡ部、Ｂ部にそれぞれチャープ信号の録音を行った。チャープ信号は有限時間内に低周波から高周波までスイープする信号であり、相互相関を取るとピークがインパルスとして発生するため、ミスマッチ推定に最適であることから今回使用する。音声強調にはＳＮ比最大化ビームフォーマを用い、出力結果の波形を録音開始時刻オフセットのみ揃えた場合とサンプリング周波数のミスマッチ補償を行った場合と比較することによりミスマッチ補償の有効性を確認する。サンプリング周波数は４８０００Ｈｚ、フレーム幅は８１９２サンプル、フレームシフト幅は４０９６サンプルとして実験を行った。

図１８は第２の実施形態に係るサンプリング周波数のミスマッチ補償の動作を、ＳＮ比最大比ビームフォーマを用いた音声強調の実験結果であって、区間Ａ部における強調結果を示す各信号の信号波形図である。また、図１９は第２の実施形態に係るサンプリング周波数のミスマッチ補償の動作を、ＳＮ比最大比ビームフォーマを用いた音声強調の実験結果であって、区間Ｂ部における強調結果を示す各信号の信号波形図である。ここで、長時間の録音信号にも適用が可能であるか、Ａ部及びＢ部の同音声部を比較する。Ａ部での協調結果を図１８、Ｂ部での協調結果を図１９に示す。出力１は、録音開始時刻のみを揃え、サンプリング周波数のミスマッチ補償を行わずにビームフォーマを適用した結果であり、出力２は、録音開始時刻を揃え、サンプリング周波数のミスマッチの補償後、ビームフォーマを適用した結果である。なお、ビームフォーマはＡ部で学習し作成したものを図１８及び図１９に適用した。

図１８及び図１９において、波形を比較した結果、Ａ部で作成したビームフォーマを録音開始時刻のみ揃えて適用した場合、Ａ部では音声強調が可能であるが、Ｂ部においてはビームフォーマが適用できないことがわかる。今回の録音データでは、相対的なミスマッチが１サンプルあたり９．４５×１０^−７サンプルであり、録音機器間のサンプリング周波数のミスマッチとしては比較的小さいため、Ａ部の録音開始時刻に近い時刻においてはそこまでミスマッチによる影響が起きず、Ｂ部の録音開始時刻に離れた時刻ではミスマッチの影響が大きくなっているからだと考えられる。また、Ａ部で作成したビームフォーマを録音開始時刻を揃え、サンプリング周波数のミスマッチ補償を行った上で適用した場合、Ａ部もＢ部も概ね良好な音声強調結果を得ることができた。このことから、サンプリング周波数のミスマッチの補償は長い録音区間でも効果があると考えられる。

以上説明したように、本実施形態によれば、議事録作成のための会議録音など、予め非同期マイクロホンアレーを用いた音声強調を行うことを目的として、録音信号の最初と最後に単一音源区間情報を録音し、この区間情報から録音開始時刻オフセットとサンプリング周波数のミスマッチの値を得る手法の提案を行った。区間情報からの録音開始時刻オフセットとサンプリング周波数のミスマッチの値を推定、補償後、前半部で作成したＳＮ比最大化ビームフォーマを長い録音の後半部にも適用することにより、その動作を検証した。その結果、区間情報を録音信号の前後に録音すれば、比較的簡単に非同期デバイスによる録音信号のチャンネル間同期を行えることを確認した。

第３の実施形態．
第３の実施形態では、ｘ_１（ｎ）を参照チャンネル信号、ｘ_２（ｎ）を対象チャンネル信号とよび、対象チャンネル信号ｘ_２（ｎ）に信号処理を行うことによって、参照チャンネル信号ｘ_１（ｎ）に同期させるものとする。ただし、ｎは離散時刻を表す。具体的には、マイクロホンアレー信号処理の適用を想定してＳＴＦＴ領域上での同期を目的とし、時間領域上での同期が必要な場合には、最終段で逆ＳＴＦＴを行うことで行う。

録音開始時刻の差とサンプリング周波数のミスマッチによって、参照チャンネルのｎ_１サンプル目と対象チャンネルのｎ_２サンプル目は次式のように対応するとモデル化できる。

ｎ_２＝（１＋ε）ｎ_１＋τ_０（４９）

ただし、εは、参照チャンネルに対する対象チャンネルのサンプリング周波数の相対的なずれ、τ_０は、参照チャンネルにおけるｎ_１＝０と同じ連続時刻に対応する対象チャンネルの離散時刻を表す。なお、第１の実施形態における式（２）を、次式として表記している。
τ_０＝−ｆ_ｓＴ_２１

第３の実施形態の目的は、第１の実施形態に係るブラインド同期手法と、第２の実施形態に係る非ブラインド同期手法と、また、それぞれに用いられている手法を整理し、統一的に位置づけ、説明不足な点を補足することにある。統一的な見やすさのため、元の実施形態と異なる表記を用い、また訂正している。

まず、基本アルゴリズムについて以下に説明する。

時間区間信号を用いた時間差推定において、参照チャンネル信号ｘ_１（ｎ）の［ｎ_Ａ１−（Ｎ_Ａ／２），ｎ_Ａ１＋（Ｎ_Ａ／２）−１］の時間区間（以下、区間Ａという）を考える。ここで、ｎ_Ａ１，Ｎ_Ａは離散時間領域における区間中心と区間長をそれぞれ表す。区間Ａの参照チャンネル信号に対し、同じ信号長で最も相関が高くなる対象チャンネルの時間区間の時間差を求めるためには、以下の相互相関関数（なお、第２の実施形態からインデックスを再修正した）

を最大にする時間差τ、すなわち、

を求めればよい。

ただし、時間差τ_Ａは、サンプリング周波数のミスマッチによって生じているチャンネル間時間差に加え、音源とマイクロホンの配置に依存した区間Ａにおける平均的な到来時間差を含んでいることに注意する必要がある。なお、式（５０）の代わりに、φ_１２（τ）を任意の線形時不変フィルタに通した一般化相互相関関数を用いることも可能であるし、また、式（５０）の計算をＦＦＴを利用して行うことも可能である。

次いで、２つの時間区間を用いたサンプリング周波数のミスマッチ推定について以下に説明する。

参照チャンネル信号ｘ_１（ｎ）の［ｎ_Ａ１−Ｎ_Ａ／２，ｎ_Ａ１＋Ｎ_Ａ／２−１］の時間区間（以下、区間Ａという。）、［ｎ_Ｂ１−Ｎ_Ｂ／２、ｎ_Ｂ１＋Ｎ_Ｂ／２−１］の時間区間（以下、区間Ｂという。）から、前述のアルゴリズムにより、区間Ａ、区間Ｂの信号波形に関する、参照チャンネルに対する対象チャンネルの時間遅れτ_Ａ、τ_Ｂがそれぞれ求まったものとする。いま、音源に対する到来時間差の影響を無視すれば、式（４９）及び式（５０）より、次式を得る。

ｎ_Ａ１＋τ_Ａ＝（１＋ε）ｎ_Ａ１＋τ_０（５２）
ｎ_Ｂ１＋τ_Ｂ＝（１＋ε）ｎ_Ｂ１＋τ_０（５３）

式（５２）及び式（５３）より、次式で表される。

これにより、ミスマッチε及び時間差τ_０を求めることができる。ここで、式（５３）は第２の実施形態の式（４８）に対応する。

次いで、不等間隔フレームシフトと位相補償によるＳＴＦＴ表現について以下に説明する。

いま、式（４９）におけるミスマッチεと時間差τ_０の大まかな推定値が得られているものとし、これを元に、参照チャンネル信号と対象チャンネル信号で、フレーム中心が互いに対応するようなＳＴＦＴ表現を求めたい。フレームシフトはともにＬの長さとする。いま、フレーム番号をｒとし、対象チャンネル信号及び参照チャンネル信号のｒ番目のフレームの中心サンプルをそれぞれｍ_１（ｒ），ｍ_２（ｒ）と表す。参照チャンネル信号に対しては、
ｍ_１（ｒ）＝Ｍｒ（５６）
のように、一定のフレームシフト長Ｍを適用してＳＴＦＴ表現を求める。

ただし、
ｗ（ｌ）（０≦ｌ≦Ｌ−１）
は窓関数である。一方、対象チャンネル信号に対しては、推定されたミスマッチεと時間差τ_０を用い、
ｍ_２（ｒ）＝（１＋ε）ｍ_１（ｒ）＋τ_０
＝（１＋ε）Ｍｒ＋τ_０（５８）
のようにフレーム中心を定めたいが、一般にこれは非整数となってしまう。

従って、
ｍ_２（ｒ）＝ｒｏｕｎｄ［（１＋ε）Ｍｒ＋τ_０］（５９）
δ（ｒ）＝（（１＋ε）Ｍｒ＋τ_０）−ｒｏｕｎｄ［（１＋ε）Ｍｒ＋τ_０］
（６０）
のように、ｍ_２（ｒ）は整数部分のみとして小数部分をΔ（ｒ）に分離し、整数サンプルシフトと周波数領域での位相補償による小数サンプルシフトを組み合わせ、次式のように対象チャンネル信号のＳＴＦＴ表現を求める。

ここで、ε＝０であれば、Δ（ｒ）＝０となり、フレームシフト一定の通常のＳＴＦＴに帰着することに注意する。

次いで、ＳＴＦＴ領域上でのサンプリング周波数のミスマッチのブラインド推定と線形位相補償について以下に説明する。

基本的には、第１の実施形態に記載のとおりであるが、ここでは、対象チャンネルＳＴＦＴ表現Ｘ_２（ｋ，ｒ）の、第ｒ_０フレームを起点とした位相補償

を最尤法により最適化し、
ε←ε＋ε’ （６３）
となるサンプリング周波数推定の修正を求める手法について述べる。起点となる第ｒ_０フレームは、フレーム数をＲとして
ｒ_０＝Ｒ／２（６４）
のように中央のフレームを与えるのが適当であろう。適切な位相補償を施したＳＴＦＴ領域の多チャンネル信号

は、音源の移動がないと仮定すると定常であるとみなすことができ、確率密度関数が以下のように与えられる零平均多変量正規分布に従うと考えられる。

ここで、Ｖ（ｋ）は共分散行列を示す。従って、定数項を除いた対数尤度関数は次式で表される。

ここで、対数尤度関数を最大化するミスマッチε’を求めることにより、式（６３）のようにサンプリング周波数のミスマッチを推定することができる。この対数尤度関数最大化問題は解析的に解くことができないが、対数尤度関数Ｊ（ε’）は大域最適解周辺では局所的に単峰性を示すことがわかっている。そこで、ミスマッチε’の取りうる値が十分０に近い場合は、黄金分割探索で効率的に最尤解を探索することができる。また、ミスマッチε’が０から離れた値を取りうる場合には、粗い離散値全探索で単峰的な大域最適解の候補範囲を絞り込むにより、局所単峰的な探索範囲で黄金分割探索を用いることができる。

さらに、ブラインド同期音声信号処理及び非ブラインド同期音声信号処理について以下に説明する。

図２０は本発明の第３の実施形態に係る音声信号処理装置１０の構成を示すブロック図である。図２０の音声信号処理装置１０は例えば情報処理装置であるディジタル計算機にてなり、図２１及び図２２並びにそれらの変形例の処理プログラムを実行することにより、コンピュータを利用して、参照チャンネル信号に対して対象チャンネル信号を、ブラインド同期又は非ブラインド同期で、各録音機器７２，７３間で発生するサンプリング周波数のミスマッチεを推定し、ブラインド推定されたサンプリング周波数のミスマッチεに基づいてＳＴＦＴ表現の参照チャンネル信号及び対象チャンネル信号に対して線形位相補償処理を行った後、各信号を逆フーリエ変換することにより線形位相補償後の参照チャンネル信号及び対象チャンネル信号を求めることを特徴としている。

以下、本実施形態に係る音声信号処理装置１０の構成及び処理について詳述する。

図２０において、音声信号処理装置１０のＵＳＢインターフェース５１，５２を介してそれぞれ、Ａ／Ｄ変換器７１ａ，７２ａを有する録音機器７１，７２に接続される。ユーザは録音機器７１，７２を用いて録音するときは、音声信号処理装置１０とは接続せずに録音した後、録音機器７１，７２を音声信号処理装置１０のＵＳＢインターフェース５１，５２に接続して、各録音機器７１，７２で録音された音声データをＵＳＢインターフェース５１，５２を介してハードディスクメモリ２３に取り込んで図２１のブラインド同期音声信号処理、図２２の非ブラインド同期音声信号処理、又はそれらの変形例の音声信号処理を音声信号処理装置１０により実行する。また、音声信号処理装置１０のドライブ装置インターフェース３５ｂを介して、例えばハードディスクメモリであり音声信号処理のために必要なデータ（音声データを含む）を予め格納して提供する外部記憶装置６０に接続され、音声信号処理装置１０は、外部記憶装置６０にアクセスすることにより、所用のデータを取得してハードディスクメモリ２３に格納してもよい。

図１において、音声信号処理装置１０は、
（ａ）当該音声信号処理装置１０の動作及び処理を演算及び制御するコンピュータのＣＰＵ（中央演算処理装置）２０と、
（ｂ）オペレーションプログラムなどの基本プログラム及びそれを実行するために必要なデータを格納するＲＯＭ（読み出し専用メモリ）２１と、
（ｃ）ＣＰＵ２０のワーキングメモリとして動作し、当該音声信号処理で必要なパラメータやデータを一時的に格納するＲＡＭ（ランダムアクセスメモリ）２２と、
（ｄ）当該音声信号処理において用いる各種データ（音声データ及びパラメータデータなど）を格納するためのハードディスクメモリ２３と、
（ｅ）例えばハードディスクメモリで構成され、ＣＤ−ＲＯＭドライブ装置４５を用いて読み込んだ、図２１〜図２２の処理プログラム等（これらのプログラムはコンピュータにより実行可能なプログラムである。）を格納するプログラムメモリ２４と、
（ｆ）例えばボイスレコーダーなどの録音機器７１，７２とＵＳＢインターフェース５１，５２を介して接続され、録音機器７１，７２とデータを送受信する通信インターフェース５１と、
（ｇ）所定のデータや指示コマンドを入力するためのキーボード４１に接続され、キーボード４１から入力されたデータや指示コマンドを受信して所定の信号変換などのインターフェース処理を行ってＣＰＵ２０に伝送するキーボードインターフェース３１と、
（ｈ）ＣＲＴディスプレイ４３上で指示コマンドを入力するためのマウス４２に接続され、マウス４２から入力されたデータや指示コマンドを受信して所定の信号変換などのインターフェース処理を行ってＣＰＵ２０に伝送するマウスインターフェース３２と、
（ｉ）ＣＰＵ２０によって処理されたデータや設定指示画面、生成された信号波形及び信号データなどを表示するＣＲＴディスプレイ４３に接続され、表示すべき画像データをＣＲＴディスプレイ４３用の画像信号に変換してＣＲＴディスプレイ４３に出力して表示するディスプレイインターフェース３３と、
（ｊ）ＣＰＵ２０によって処理されたデータ及び所定の生成された信号波形及び信号データなどを印字するプリンタ４４に接続され、印字すべき印字データの所定の信号変換などを行ってプリンタ４４に出力して印字するプリンタインターフェース３４と、
（ｋ）図２１〜図２２の処理プログラムが記憶されたＣＤ−ＲＯＭ４５ａから当該プログラムのプログラムデータを読み出すＣＤ−ＲＯＭドライブ装置４５に接続され、読み出された画像処理プログラムのプログラムデータを所定の信号変換などを行ってプログラムメモリ２４に転送するドライブ装置インターフェース３５ａと、
（ｌ）所定のデータを記憶する、例えばハードディスクメモリなどの外部記憶装置６０に接続され、読み出されたデータを所定の信号変換などを行ってＣＰＵ２０又はハードディスクメモリ２３に転送するドライブ装置インターフェース３５ｂとを備え、
これらの回路２０〜２４、３１〜３４、３５ａ、３５ｂ及び５１、５２はバス３０を介して接続される。

以上の実施形態において、図２１〜図２２の処理プログラムが記憶されたコンピュータにより読取可能なＣＤ−ＲＯＭ４５ａを用いて実行してもよいし、ＣＤ−Ｒ，ＣＤ−ＲＷ，ＤＶＤ，ＤＶＤ−Ｒ，ＤＶＤ−ＲＷ，ＤＶＤ−ＲＡＭなどのコンピュータにより読取可能な種々の記録媒体を用いてもよい。

図２１は図２０の音声信号処理装置１０によって実行されるブラインド同期音声信号処理を示すフローチャートである。

図２１のステップＳ１１において、前処理Ａ又はＢを用いて、ミスマッチε及び録音開始時刻差（以下、時間差という。）τ_０の推定値を求める。前処理Ａにおいては、ミスマッチε＝０と仮定し、時間区間信号を時間差推定法を用いて、参照チャンネル信号全体を区間Ｔ_Ａとみなし、区間Ｔ_Ａにおいて時間差τ_０を求める。もしくは、前処置Ｂにおいては、参照チャンネル信号及び対象チャンネル信号から、それぞれ互いに対応する単一音源区間情報を有する区間Ｔ_Ａ及び区間Ｔ_Ｂを選択し、２つの時間区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、ミスマッチε及び時間差τ_０の推定値を求める。

次いで、ステップＳ１２において、参照チャンネル信号及び対象チャンネル信号に基づいて、フレーム中心が互いに対応するようなＳＴＦＴ表現の参照チャンネル信号及び対象チャンネル信号を求める。そして、ステップＳ１３において、ＳＴＦＴ表現の参照チャンネル信号及び対象チャンネル信号に基づいて、ＳＴＦＴ領域のおけるサンプリング周波数のミスマッチεについてブラインド推定を行う。さらに、ステップＳ１４において、ブラインド推定されたサンプリング周波数のミスマッチεに基づいて、ＳＴＦＴ表現の参照チャンネル信号及び対象チャンネル信号に対して線形位相補償処理を行う。そして、ステップＳ１５において、線形位相補償処理を行ったＳＴＦＴ表現の参照チャンネル信号及び対象チャンネル信号に対して逆フーリエ変換することにより、線形位相補償後の参照チャンネル信号及び対象チャンネル信号を求める。求められた信号の信号波形やデータはＣＲＴディスプレイ４３に表示し、もしくはプリンタ４４に出力して印字して当該処理を終了する。

図２２は図２０の音声信号処理装置１０によって実行される非ブラインド同期音声信号処理を示すフローチャートである。

ステップＳ１１Ａにおいて、前処理Ｂを用いて、ミスマッチε及び時間差τ_０の推定値を求める。前処置Ｂにおいては、参照チャンネル信号から区間ＴＡ及び区間ＴＢを選択し、２つの時間区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、ミスマッチε及び時間差τ_０の推定値を求める。次いで、ステップＳ１２において、参照チャンネル信号及び対象チャンネル信号に基づいて、フレーム中心が互いに対応するようなＳＴＦＴ表現の参照チャンネル信号及び対象チャンネル信号を求める。さらに、ステップＳ１５において、求められたＳＴＦＴ表現の参照チャンネル信号及び対象チャンネル信号に対して逆フーリエ変換することにより参照チャンネル信号及び対象チャンネル信号を求める。求められた信号の信号波形やデータはＣＲＴディスプレイ４３に表示し、もしくはプリンタ４４に出力して印字して当該処理を終了する。

ただし、前処理Ｂにおいて、事前知識により、区間Ａ、区間Ｂとして、同一音源のみがなっている２つの時間区間を選ぶことができることが前提である。なお、区間Ａ、区間Ｂは、離れている方が望ましく、ブラインド同期では特に利用できる情報がないため、例えば参照チャンネル信号の最初と最後を含む区間を選ぶことができる。

次いで、ステップＳ１１又はＳ１１Ａ、Ｓ１２とステップＳ１３、Ｓ１４の処理の位置づけについて以下に説明する。ステップＳ１１又はＳ１１ＡとＳ１２、ステップＳ１３とＳ１４はそれぞれ対の処理になっている。ステップＳ１１又はＳ１１Ａの処理は特定の時間区間信号のみからサンプリング周波数のミスマッチεと時間差τ_０を推定し、ステップＳ１２の処理は、この推定値に基づき、ＳＴＦＴ領域への変換時に同期をとっていることに相当する。非ブラインド同期において、区間Ａ、区間Ｂとして同一音源のみがなっている時間区間を選ぶことができ、かつ区間Ａ、区間Ｂが十分に時間的に離れていれば、ステップＳ１１Ａ、ステップＳ１２のみの処理で同期をとることができる。

一方、ブラインド同期の場合には、前処理Ａでは時間シフトのみを考慮しているし、前処理Ｂでは区間Ａ、区間Ｂで同一音源のみがなっている時間区間を選べる保障がないので、推定に誤差が含まれる。よって、ステップＳ１１、ステップＳ１２のみの処理ではサンプリング周波数のミスマッチが補償されないため、ステップＳ１３、ステップＳ１４の処理が必要になる。

また、ステップＳ１１の処理で前処理Ｂを適用し、かつステップＳ１３、Ｓ１４の処理を行う場合、ステップＳ１１の処理で、あるミスマッチεが推定され、ステップＳ１３では、ミスマッチεとは異なる別のミスマッチε’が推定されることに注意が必要である。前処理Ｂを適用してステップＳ１２の処理を行った場合、ステップＳ１１〜Ｓ１２によって、対象チャンネル信号はＳＴＦＴ領域上で、すでにある程度サンプリングミスマッチが補償された状態になる。ステップＳ１３〜Ｓ１４の処理は、元の対象チャンネル信号そのものではなく、この、すでにある程度補償ずみの信号に対して適用されるので、ステップＳ１３ではステップＳ１１で求まったミスマッチεにε’を加えて修正する形で、あらたなミスマッチεが推定されることになり、サンプリング周波数のミスマッチが補償されることになる。

さらに、第１の実施形態及び第２の実施形態との関係について以下に説明する。第１の実施形態では、ステップＳ１１〜Ｓ１４ｓの処理で、かつステップＳ１１で前処理Ａを行うブラインド同期法が述べられている。また、第２の実施形態では、ステップＳ１１〜Ｓ１２で、ステップＳ１１で前処理Ｂを行う非ブラインド同期法が述べられている。

本発明と非特許文献４との相違点．
以下、本発明と非特許文献との相違点について以下に説明する。

非特許文献４においてもサンプリング周波数のミスマッチを求めているが、本発明とは以下のように異なる。

（１）サンプリング周波数のミスマッチの求め方が違う。
サンプリング周波数のミスマッチのために、２つのチャネル間の時間差がドリフトするが、非特許文献４は、各フレームから求まる時間差を平均してドリフトの傾きを直接求めている（非特許文献４の式（１４））のに対して、本発明では、ＳＴＦＴ領域での位相補償に基づき、最尤法により求めている。非特許文献４の場合には、反復計算が不要な代わりに、位相領域での平均演算のために、エイリアシングが生じる高周波数領域の情報が使えない。これに対して、本発明では、反復が必要ですが、十分に高速で動作し、補償しながら尤度を求めるので、高周波数領域の情報も使えるため、高い精度を得ることができる。

（２）サンプリング周波数の補償方法が異なる。
非特許文献４では、非特許文献５という従来法であるラグランジュ多項式補間により、リサンプリングを行っている。ただ、サンプリング周波数の補償方法は、選択肢があり、本発明でもミスマッチを推定した後に、こうした従来法を用いることはできる。

（３）ＳＴＦＴのフレームシフト
非特許文献４では、参照チャンネル信号でも、ミスマッチを補償する対象チャンネル信号でも、フレームシフトが一定になっているが、この場合、長時間録音だとお互いのフレーム関係がずれてくる。本発明では、フレームシフトを変えることを考慮しており、長時間録音にも対応可能である。

以上詳述したように、本発明に係る音声信号処理装置及び方法によれば、上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める。次いで、上記サンプリング周波数のミスマッチに対する、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となる最尤推定法を用いてサンプリング周波数のミスマッチを推定し、上記推定されたサンプリング周波数のミスマッチに基づいて、フレーム内の変化を無視する階段近似を用いて上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号との間の時間差を最小にする線形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する。従って、従来技術に比較して高精度でかつ長時間録音においても、各音声信号におけるサンプリング周波数のミスマッチをブラインドでもしくは非ブラインドで推定して当該ミスマッチを補償することができる。

１０…音声信号処理装置、
２０…ＣＰＵ、
２１…ＲＯＭ、
２２…ＲＡＭ、
２３…ハードディスクメモリ、
２４…プログラムメモリ、
３０…バス、
３１…キーボードインターフェース、
３２…マウスインターフェース、
３３…ディスプレイインターフェース、
３４…プリンタインターフェース、
３５ａ，３５ｂ…ドライブ装置インターフェース、
４１…キーボード、
４２…マウス、
４３…ＣＲＴディスプレイ、
４４…プリンタ、
４５…ＣＤ−ＲＯＭドライブ装置、
４５ａ…ＣＤ−ＲＯＭ、
５１，５２…ＵＳＢインターフェース、
６０…外部記憶装置、
７１，７２…録音機器、
７１ａ，７２ａ…Ａ／Ｄ変換器（ＡＤＣ）。

Claims

対象チャンネル信号と参照チャンネル信号との間に録音開始時刻差があり、上記参照チャンネル信号のＡ／Ｄ変換器と上記対象チャンネル信号のＡ／Ｄ変換器との間のサンプリング周波数のミスマッチがあるときに、上記対象チャンネル信号を上記参照チャンネル信号に同期させる音声信号処理装置において、
上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める第１の信号処理手段を備えたことを特徴とする音声信号処理装置。
サンプリング周波数のミスマッチを０と仮定し、時間区間信号を用いた時間差推定法を用いて上記参照チャンネル信号全体を第１の区間とみなし、当該第１の区間において上記参照チャンネル信号に対する対象チャンネル信号の録音開始時刻差を求める第１の前処理手段をさらに備えたことを特徴とする請求項１記載の音声信号処理装置。
上記参照チャンネル信号及び上記対象チャンネル信号から、それぞれ互いに対応する単一音源区間情報を有する第１区間及び第２の区間を選択し、当該２つの区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、サンプリング周波数のミスマッチ及び録音開始時刻差を求める第２の前処理手段をさらに備えたことを特徴とする請求項１記載の音声信号処理装置。
上記短時間フーリエ変換表現の対象チャンネル信号及び上記短時間フーリエ変換表現の参照チャンネル信号に基づいて、上記サンプリング周波数のミスマッチに対する、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となる最尤推定法を用いてサンプリング周波数のミスマッチを推定する第２の信号処理手段をさらに備えたことを特徴とする請求項１〜３のうちのいずれか１つに記載の音声信号処理装置。
上記第２の信号処理手段は、離散値全探索法によりサンプリング周波数のミスマッチの範囲を絞り込んだ後、黄金比探索法により最適解であるサンプリング周波数のミスマッチを推定することを特徴とする請求項４記載の音声信号処理装置。
上記推定されたサンプリング周波数のミスマッチに基づいて、フレーム内の変化を無視する階段近似を用いて上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号との間の時間差を最小にする線形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する第３の信号処理手段をさらに備えたことを特徴とする請求項４又は５記載の音声信号処理装置。
上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とに対して逆フーリエ変換することにより上記対象チャンネル信号及び上記参照チャンネル信号を求める第４の信号処理手段をさらに備えたことを特徴とする請求項１、３又は６記載の音声信号処理装置。
対象チャンネル信号と参照チャンネル信号との間に録音開始時刻差があり、上記参照チャンネル信号のＡ／Ｄ変換器と上記対象チャンネル信号のＡ／Ｄ変換器との間のサンプリング周波数のミスマッチがあるときに、上記対象チャンネル信号を上記参照チャンネル信号に同期させる音声信号処理装置により実行される音声信号処理方法において、
上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める第１の信号処理ステップを備えたことを特徴とする音声信号処理方法。
サンプリング周波数のミスマッチを０と仮定し、時間区間信号を用いた時間差推定法を用いて上記参照チャンネル信号全体を第１の区間とみなし、当該第１の区間において上記参照チャンネル信号に対する対象チャンネル信号の録音開始時刻差を求める第１の前処理ステップをさらに備えたことを特徴とする請求項８記載の音声信号処理方法。
上記参照チャンネル信号及び上記対象チャンネル信号から、それぞれ互いに対応する単一音源区間情報を有する第１区間及び第２の区間を選択し、当該２つの区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、サンプリング周波数のミスマッチ及び録音開始時刻差を求める第２の前処理ステップをさらに備えたことを特徴とする請求項８記載の音声信号処理方法。
上記短時間フーリエ変換表現の対象チャンネル信号及び上記短時間フーリエ変換表現の参照チャンネル信号に基づいて、上記サンプリング周波数のミスマッチに対する、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となる最尤推定法を用いてサンプリング周波数のミスマッチを推定する第２の信号処理ステップをさらに備えたことを特徴とする請求項８〜１０のうちのいずれか１つに記載の音声信号処理方法。
上記第２の信号処理ステップは、離散値全探索法によりサンプリング周波数のミスマッチの範囲を絞り込んだ後、黄金比探索法により最適解であるサンプリング周波数のミスマッチを推定することを特徴とする請求項１１記載の音声信号処理方法。
上記推定されたサンプリング周波数のミスマッチに基づいて、フレーム内の変化を無視する階段近似を用いて上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号との間の時間差を最小にする線形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する第３の信号処理ステップをさらに備えたことを特徴とする請求項１１又は１２記載の音声信号処理方法。
上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とに対して逆フーリエ変換することにより上記対象チャンネル信号及び上記参照チャンネル信号を求める第４の信号処理ステップをさらに備えたことを特徴とする請求項８、１１又は１３記載の音声信号処理方法。
請求項８〜１４のうちのいずれか１つに記載の音声信号処理方法の各ステップを含むことを特徴とする、コンピュータにより読取可能な記録媒体。