JP2014174393A - 音声信号処理装置及び方法 - Google Patents

音声信号処理装置及び方法 Download PDF

Info

Publication number
JP2014174393A
JP2014174393A JP2013048084A JP2013048084A JP2014174393A JP 2014174393 A JP2014174393 A JP 2014174393A JP 2013048084 A JP2013048084 A JP 2013048084A JP 2013048084 A JP2013048084 A JP 2013048084A JP 2014174393 A JP2014174393 A JP 2014174393A
Authority
JP
Japan
Prior art keywords
channel signal
signal
sampling frequency
signal processing
mismatch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013048084A
Other languages
English (en)
Other versions
JP6278294B2 (ja
Inventor
Junki Ono
順貴 小野
Shigeki Miyabe
滋樹 宮部
Shoji Makino
昭二 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Organization of Information and Systems
University of Tsukuba NUC
Original Assignee
Research Organization of Information and Systems
University of Tsukuba NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Organization of Information and Systems, University of Tsukuba NUC filed Critical Research Organization of Information and Systems
Priority to JP2013048084A priority Critical patent/JP6278294B2/ja
Publication of JP2014174393A publication Critical patent/JP2014174393A/ja
Application granted granted Critical
Publication of JP6278294B2 publication Critical patent/JP6278294B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】高精度でかつ長時間録音においても、各音声信号におけるサンプリング周波数のミスマッチを推定してミスマッチを補償することができる音声信号処理装置及び方法を提供する。
【解決手段】対象チャンネル信号と参照チャンネル信号との間に録音開始時刻差があり、各録音機器のA/D変換器との間のサンプリング周波数のミスマッチがあるときに、対象チャンネル信号を参照チャンネル信号に同期させる音声信号処理装置において、参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、録音開始時刻差とサンプリング周波数のミスマッチとに基づいて互いのフレーム中心が互いに対応するように、対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める。
【選択図】図21

Description

本発明は、例えば携帯電話やボイスレコーダーなどの複数の録音機器で録音された互いに非同期の複数の音声信号に対して同期補償などの音声信号処理を行う音声信号処理装置及び方法に関する。
非同期マイクロホンアレー(例えば、特許文献1及び非特許文献1参照)は、会議録音の音声強調のために参加者が持ち寄った携帯電話やボイスレコーダーなどの複数の携帯型録音機器の同時録音をn個用いるというもので、専用の大規模な録音装置ではなく一般的な機器による安価で柔軟な構成を行えることが利点である。しかし、マイクロホン素子の配置が未知となることや(例えば、非特許文献2及び3参照)、各チャンネル毎の録音が同期していないために録音開始時刻やサンプリング周波数が一致しないことなど(例えば、非特許文献1、4及び5参照)、通常のマイクロホンアレー信号処理では扱われない問題を解決する必要がある。
特開2007−028391号公報
Z. Liu, "Sound source separation with distributed microphone arrays in the presence of clock synchronization errors," Proceedings of IWAENC, 2008. N. Ono et al., "Blind alignment of asynchronously recorded signals for distributed microphone array," Proceedings of WASPAA}, pp. 161-164, 2009. K. Hasegawa et al., "Blind estimation of locations and time offsets for distributed recording devices," Proceedings of LVA/ICA, pp. 57-64, 2010. S. Markovich-Golan et al., "Blind sampling rate offset estimation and compensation in wireless acoustic sensor networks with application to beamforming," Proceedings of IWAENC, 2012. E. Robledo-Arnuncio et al., "On dealing with sampling rate mismatches in blind source separation and acoustic echo cancellation," Proceedings of WASPAA, pp. 21-24, 2007. Shoji Makino et al., "Speech Separation", Springer, 2007. N. Ono et al., "Stable and fast update rules for independent vector analysis based on auxiliary function technique," Proceedings of WASPAA}, pp. 189-192, 2011. E. Vincent et al., "First stereo audio source separation evaluation campaign: data, algorithms and results," Proceedings of ICA, pp. 552-559, 2007. O. L. Frost et al., "An algorithm for linearly constrained adaptive array processing," Proceedings of IEEE, Vol.60, No. 8, pp. 926-935, August 1972. 澤田宏ほか, "音源分離技術の最新動向," 電子情報通信学会学会誌, Vol. 91, No. 4, pp. 292-296, 2008.snrbf1} H. L. Van Trees, "Optimum Array Processing," Wiley, 2002. 荒木章子ほか, "話者分類とSN比最大化ビームフォーマに基づく会議音声強調," 日本音響学会講演論文集, pp. 571-572, March, 2007.
最も重要な問題の一つに、各録音装置が別々のA/D変換器を使用しているためにチャンネル間のサンプリング周波数が違うものになることが挙げられ、適切な補正を施さなければアレー信号処理の性能は大幅に劣化してしまう。
上述した数多くの非同期マイクロホンアレー固有の問題の中でも、サンプリング周波数のミスマッチ量(以下、ミスマッチという。)は非同期録音にアレー信号処理を応用する上で最も大きな問題であると言える。同時録音に用いる複数のA/D変換器が同期していない場合は、機器同士が同じ公称サンプリング周波数であったとしても、主に水晶振動子の個体差や温度特性のために、サンプリング周波数に10ppmオーダー(ppmは10−6)のごくわずかなミスマッチを生じてしまう。チャンネル間のサンプリング周波数のミスマッチは、時刻の単位のずれのために各チャンネル間の信号の時間差がドリフトしていくような効果を生じる。多くのアレー信号処理は音源の方位が各マイクロホンの観測信号間に固有の位相差を生じるという性質を利用しているが、わずか1サンプルの変化でも音源方位の分析には大きな影響を生じてしまうため、数10ppmの時間差の変化はアレー信号処理を破綻させるのに十分な大きさである。
上述のサンプリング周波数のミスマッチの問題は、ディジタル領域において各機器間の位相差が変化し、音源位置が疑似的に変化してしまうため、各音源は移動せず固有の位相差を持つという大多数の音源分離手法を破綻させてしまう。そのため、非同期マイクロホンアレーを用いた従来研究としては、サンプリング周波数のミスマッチがないと仮定した上で、録音開始時刻・マイク位置・音源位置を同時推定するブラインドアライメント(例えば、非特許文献3参照)、サンプリング周波数のミスマッチが与えられた条件での補償のために、補間によるリサンプリングを行う手法(例えば、非特許文献5参照)、また未知のサンプリング周波数のミスマッチのブラインド補償を行うために、振幅スペクトルの相関を利用した手法(例えば、非特許文献1参照)などがこれまでに提案されている。
しかしながら、非特許文献2及び3においては、音源位置、マイクロホン位置及び録音開始時刻を同時に推定できるが、サンプリング周波数のミスマッチを補償することはできないという問題点があった。また、非特許文献1においては、信号エネルギーの包絡線に基づいて非同期マイクロホンアレーの各信号の同期化を行っているが、厳密な時間同期をすることができないという問題点があった。
さらに、非特許文献4において開示されたサンプリング周波数のミスマッチのブラインド補償方法では、位相領域での平均演算のために、エイリアシングが生じる高周波数領域の情報を使用することができず、処理結果の精度が大幅に低下し、また、長時間の録音の場合において、参照チャンネル信号と、参照チャンネル信号に基づいてミスマッチを補償する対象チャンネル信号との間において互いのフレーム関係がずれたときにサンプリング周波数のミスマッチを補償することができないという問題点があった。
本発明の目的は以上の問題点を解決し、非同期マイクロホンアレーからの複数の録音機器からの各音声信号に対して音声信号処理を行う装置及び方法において、従来技術に比較して高精度でかつ長時間録音においても、各音声信号におけるサンプリング周波数のミスマッチをブラインドでもしくは非ブラインドで推定して当該ミスマッチを補償することができる音声信号処理装置及び方法を提供することにある。
第1の発明に係る音声信号処理装置は、対象チャンネル信号と参照チャンネル信号との間に録音開始時刻差があり、上記参照チャンネル信号のA/D変換器と上記対象チャンネル信号のA/D変換器との間のサンプリング周波数のミスマッチがあるときに、上記対象チャンネル信号を上記参照チャンネル信号に同期させる音声信号処理装置において、
上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める第1の信号処理手段を備えたことを特徴とする。
上記音声信号処理装置において、サンプリング周波数のミスマッチを0と仮定し、時間区間信号を用いた時間差推定法を用いて上記参照チャンネル信号全体を第1の区間とみなし、当該第1の区間において上記参照チャンネル信号に対する対象チャンネル信号の録音開始時刻差を求める第1の前処理手段をさらに備えたことを特徴とする。
また、上記音声信号処理装置において、上記参照チャンネル信号及び上記対象チャンネル信号から、それぞれ互いに対応する単一音源区間情報を有する第1区間及び第2の区間を選択し、当該2つの区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、サンプリング周波数のミスマッチ及び録音開始時刻差を求める第2の前処理手段をさらに備えたことを特徴とする。
さらに、上記音声信号処理装置において、上記短時間フーリエ変換表現の対象チャンネル信号及び上記短時間フーリエ変換表現の参照チャンネル信号に基づいて、上記サンプリング周波数のミスマッチに対する、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となる最尤推定法を用いてサンプリング周波数のミスマッチを推定する第2の信号処理手段をさらに備えたことを特徴とする。
またさらに、上記音声信号処理装置において、上記第2の信号処理手段は、離散値全探索法によりサンプリング周波数のミスマッチの範囲を絞り込んだ後、黄金比探索法により最適解であるサンプリング周波数のミスマッチを推定することを特徴とする。
また、上記音声信号処理装置において、上記推定されたサンプリング周波数のミスマッチに基づいて、フレーム内の変化を無視する階段近似を用いて上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号との間の時間差を最小にする線形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する第3の信号処理手段をさらに備えたことを特徴とする。
さらに、上記音声信号処理装置において、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とに対して逆フーリエ変換することにより上記対象チャンネル信号及び上記参照チャンネル信号を求める第4の信号処理手段をさらに備えたことを特徴とする。
第2の発明に係る音声信号処理方法は、対象チャンネル信号と参照チャンネル信号との間に録音開始時刻差があり、上記参照チャンネル信号のA/D変換器と上記対象チャンネル信号のA/D変換器との間のサンプリング周波数のミスマッチがあるときに、上記対象チャンネル信号を上記参照チャンネル信号に同期させる音声信号処理装置により実行される音声信号処理方法において、
上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める第1の信号処理ステップを備えたことを特徴とする。
上記音声信号処理方法において、サンプリング周波数のミスマッチを0と仮定し、時間区間信号を用いた時間差推定法を用いて上記参照チャンネル信号全体を第1の区間とみなし、当該第1の区間において上記参照チャンネル信号に対する対象チャンネル信号の録音開始時刻差を求める第1の前処理ステップをさらに備えたことを特徴とする。
また、上記音声信号処理方法において、上記参照チャンネル信号及び上記対象チャンネル信号から、それぞれ互いに対応する単一音源区間情報を有する第1区間及び第2の区間を選択し、当該2つの区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、サンプリング周波数のミスマッチ及び録音開始時刻差を求める第2の前処理ステップをさらに備えたことを特徴とする。
さらに、上記音声信号処理方法において、上記短時間フーリエ変換表現の対象チャンネル信号及び上記短時間フーリエ変換表現の参照チャンネル信号に基づいて、上記サンプリング周波数のミスマッチに対する、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となる最尤推定法を用いてサンプリング周波数のミスマッチを推定する第2の信号処理ステップをさらに備えたことを特徴とする。
またさらに、上記音声信号処理方法において、上記第2の信号処理ステップは、離散値全探索法によりサンプリング周波数のミスマッチの範囲を絞り込んだ後、黄金比探索法により最適解であるサンプリング周波数のミスマッチを推定することを特徴とする。
また、上記音声信号処理方法において、上記推定されたサンプリング周波数のミスマッチに基づいて、フレーム内の変化を無視する階段近似を用いて上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号との間の時間差を最小にする線形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する第3の信号処理ステップをさらに備えたことを特徴とする。
さらに、上記音声信号処理方法において、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とに対して逆フーリエ変換することにより上記対象チャンネル信号及び上記参照チャンネル信号を求める第4の信号処理ステップをさらに備えたことを特徴とする。
第3の発明に係るコンピュータにより読取可能な記録媒体は、上記音声信号処理方法の各ステップを含むことを特徴とする。
本発明に係る音声信号処理装置及び方法によれば、上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める。次いで、上記サンプリング周波数のミスマッチに対する、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となる最尤推定法を用いてサンプリング周波数のミスマッチを推定し、上記推定されたサンプリング周波数のミスマッチに基づいて、フレーム内の変化を無視する階段近似を用いて上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号との間の時間差を最小にする線形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する。従って、従来技術に比較して高精度でかつ長時間録音においても、各音声信号におけるサンプリング周波数のミスマッチをブラインドでもしくは非ブラインドで推定して当該ミスマッチを補償することができる。
(a)は非同期マイクロホンアレーの各マイクロホンにより観測された観測信号の信号波形図であり、(b)は(a)の各観測信号のディジタル信号の信号波形図である。 (a)は図1において録音開始時刻がずれたときの各マイクロホンにより観測された観測信号の信号波形図であり、(b)は(a)の各観測信号のディジタル信号の信号波形図である。 本発明の第1の実施形態に係るブラインド補償の音声信号処理方法において用いる、2つの音声信号に対する線形位相モデルによる補償法を示す信号波形図である。 本発明の第1の実施形態に係るブラインド補償の音声信号処理方法において計算されるサンプリング周波数のミスマッチεに対する対数尤度関数J(V,ε)の関数値の具体例を示すグラフである。 第1の実施形態に係るブラインド補償の音声信号処理方法において用いる離散値全探索法による範囲絞り込み方法を示す、サンプリング周波数のミスマッチεに対する対数尤度関数J(V,ε)の関数値の具体例を示すグラフである。 第1の実施形態に係るブラインド補償の音声信号処理方法において用いる黄金比探索法による最適解の探索方法を示す、サンプリング周波数のミスマッチεに対する対数尤度関数J(V,ε)の関数値を示すグラフである。 図6の黄金比探索法の計算効率を示す表であって、(a)はその計算条件を示す表であり、(b)はすべて離散値全探索法の場合の分割数と計算時間の関係を示す表であり、(c)は離散値全探索法と黄金比探索法との併用の場合の分割数と計算時間の関係を示す表である。 本発明の第1の実施形態に係るブラインド補償の音声信号処理方法を示すフローチャートである。 図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数のミスマッチの推定精度及びサンプリング周波数補償の音源分離精度への寄与の評価を行うときの観測信号作成の実験条件を示す表である。 図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数のミスマッチの推定精度を測定した実験結果であって、データ長に対するサンプリング周波数のミスマッチεの推定の平均二乗誤差(RMSE)を示すグラフである。 図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数補償の音源分離精度への寄与の評価を測定した実験結果であって、信号長に対する信号対歪比(SDR)を示すグラフである。 図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数補償の音源分離精度への寄与の評価を測定した実験結果であって、ブラインド音声分離の信号対干渉比(SIR)を示すグラフである。 本発明の第2の実施形態に係る非同期マイクロホンアレーにおけるサンプリング周波数のミスマッチの非ブラインド補償方法で用いる時間的に離れた同じ音源による2つの単一音源区間情報を手がかりとした補正方法を示す参照チャンネル信号及び対象チャンネル信号の信号波形を示す信号波形図である。 図13の非同期マイクロホンアレーにおけるサンプリング周波数のミスマッチの非ブラインド補償方法における参照チャンネル信号及び対象チャンネル信号の時間差τ及びτを示す信号波形図である。 (a)は図14の参照チャンネル信号及び対象チャンネル信号に対する録音開始時刻のオフセット補償方法を示すオフセット補償方法の補償前の各信号の信号波形図であり、(b)はその補償後の各信号の信号波形図である。 図15の録音開始時刻のオフセット補償方法においてサンプリング周波数のミスマッチ補償方法において対象チャンネル信号に時刻ドリフトを考慮したフレームの切り出しを示す信号波形図である。 図15の録音開始時刻のオフセット補償方法においてサンプリング周波数のミスマッチ補償方法において各フレームの切り出し位置のオフセット補償及びフレーム内での位相シフトを示す信号波形図である。 第2の実施形態に係るサンプリング周波数のミスマッチ補償の動作を、SN比最大比ビームフォーマを用いた音声強調の実験結果であって、区間A部における強調結果を示す各信号の信号波形図である。 第2の実施形態に係るサンプリング周波数のミスマッチ補償の動作を、SN比最大比ビームフォーマを用いた音声強調の実験結果であって、区間B部における強調結果を示す各信号の信号波形図である。 本発明の第3の実施形態に係る音声信号処理装置10の構成を示すブロック図である。 図20の音声信号処理装置10によって実行されるブラインド同期音声信号処理を示すフローチャートである。 図20の音声信号処理装置10によって実行される非ブラインド同期音声信号処理を示すフローチャートである。
以下、本発明に係る実施形態について図面を参照して説明する。なお、以下の各実施形態において、同様の構成要素については同一の符号を付している。
第1の実施形態.
本発明に係る第1の実施形態では、非同期マイクロホンアレーのためのチャンネル間のサンプリング周波数のミスマッチをブラインドに推定し補償する手法について述べる。サンプリング周波数のミスマッチによるチャンネル間の時間差の変化は短時間では一定となるため、フレーム毎に周波数領域で位相を操作することで補償する。また、音源が移動しないと仮定した最尤推定により、サンプリング周波数のミスマッチを推定する。後述するように、実験により提案手法はアレー信号処理の性能を大幅に回復できることが確認された。
第1の実施形態では、ブラインド音源分離(例えば、非特許文献6参照)の前処理のための、サンプリング周波数のチャンネル間のミスマッチを推定し補正する手法について述べる。まず、短い時間間ではチャンネル間の時間差の拡大が無視できるほど小さくなり、フレームの中央のサンプル番号に比例する一定の遅延と見なせることに性質に着目し、短時間フーリエ変換(Short Term Fourier Transformation:以下、STFTという)領域で線形の位相の補償とによりサンプリング周波数のミスマッチを補償することを提案する。ここで、短時間とは、サンプリング周波数にも依存するが、例えばサンプリング周波数が16kHzでは数ミリ秒〜数十ミリ秒程度のフレーム単位の短い時間をいう。
さらに、第1の実施形態では、チャンネル間のサンプリング周波数のミスマッチは、位相差が等速に変化して音源位置が疑似的に変化するような効果を生じる。そこで、全ての音源は移動せずかつ定常であると仮定すると、定常な信号らしさをミスマッチの尺度として用いることができると考えられる。そこで定常性を仮定した観測信号の尤度関数を最大化するようにサンプリング周波数のミスマッチを推定する。尤度関数は解析的に解くことができないが、最適値付近では局所的に凸となることが経験的に分かっているため、荒い離散値全探索による探索範囲の絞り込みと、黄金比探索による詳細な探索を併用して最適化する。
図1(a)は非同期マイクロホンアレーの各マイクロホン1,2により観測された観測信号の信号波形図であり、図1(b)は図1(a)の各観測信号のディジタル信号の信号波形図である。また、図2(a)は図1において録音開始時刻がずれたときの各マイクロホン1,2により観測された観測信号の信号波形図であり、図2(b)は図2(a)の各観測信号のディジタル信号の信号波形図である。図1(a)及び図2(a)に示すように、マイクロホン2のA/D変換器のサンプリング周波数がマイクロホン1のA/D変換器のサンプリング周波数よりもやや高い場合、図1(b)及び図2(b)に示すように、マイクロホン2のディジタル波形では、マイクロホン1のディジタル波形に比較して波形が伸びたようにドリフトする。これらの場合における問題点は以下の通りである。
(1)各A/D変換器のサンプリング周波数がずれているために、波形の伸縮が発生する。
(2)録音開始時刻がずれるために、波形のシフトが発生する。
これらの問題点を解決するために、まず、サンプリング周波数のミスマッチと補償の定式化について以下に説明する。
同時刻における2つのマイクロホンの連続信号xO1(t),xO2(t)(tは連続時間)が別々のA/D変換器でサンプリングされて離散信号x(n),x(n)(nはサンプル番号)が得られたとする。ここで、離散信号x(n)のサンプリング周波数はf、離散信号x(n)のサンプリング周波数は未知の無次元数ε(|ε|≪1)により表される(1+ε)fであるとする。このとき各チャンネルの離散信号と連続信号の関係は以下のように表される。
Figure 2014174393
Figure 2014174393
いま、同時刻における2つのマイクロホンの連続信号xO1(t),xO2(t)(tは連続時間)が別々のA/D変換器でサンプリングされて離散信号x(n),x(n)(n,nはサンプル番号)が得られたとする。ここで、離散信号x(n)のサンプリング周波数はf、離散信号x(n)のサンプリング周波数は未知のミスマッチεにより表される(1+ε)fであるとする。このとき離散信号と連続信号の関係は以下のように表される。
Figure 2014174393
Figure 2014174393
ここで、tの時間原点を離散信号x(n)の録音開始時刻とし、ΔT21は離散信号x(n)に対する離散信号x(n)の録音開始時刻の遅れを表す。ここで、連続時刻tの原点は離散信号x(n)の録音開始時刻とし、T21は離散信号x(n)の録音開始時刻とする。従って、同じ時刻tを参照する第iチャンネル(i=1,2)のサンプル番号nは次式で表される。
=ft (5)
=(1+ε)f(t−T) (6)
はnを用いて次式で表すことができる。
=(1+ε)(n−f21) (7)
以下では各チャンネルの離散時刻は同じ時刻を参照するペアである必要がある場合にはn,nと表記し、そうではなく単純に1つのチャネルのサンプル番号を示していて時刻の対応関係を議論する必要がない場合にはnなどと表記することとする。整数値のnに対しては、同じ時刻を参照するnは一般に非整数となるため、離散信号x(n)を離散信号x(n)と同期するよう補正した離散信号
Figure 2014174393
を正確に求めるためには、以下のような離散信号x(n)のsinc関数補間が必要になる。
Figure 2014174393
しかし、sinc関数による正確な補間は長いsinc関数の畳込みが必要になるため現実的な計算法ではなく、サンプリング周波数のミスマッチを効率的に補償する手法を考えるためには何らかの近似が必要になる。
次いで、フレーム内のサンプリング周波数のミスマッチのモデル化について以下に説明する。
アレー信号処理の多くは時間周波数領域で行われるため、短時間フレーム変換(STFT)領域での信号表現がよく近似する方法があれば十分であると考える。そのために、まずSTFTのフレーム長をL、チャンネル1のあるフレームの中心サンプルをmとして、m−L/2≦n≦n+L/2−1という1フレーム内での時間の対応関係を考える。式(7)の関係から、サンプルmの近傍のnは次式で表される。
=(1+ε)(n−m)+(1+ε)m−f21
⇔(n−m)=(1+ε)(n−m)+εm−f21 (9)
(n−m)と(n−m)の対応関係は、mとともにεmだけ拡大していくことがわかる。フレーム中心mは録音時刻と共にいくらでも拡大していくので、このシフトは無視することができない。
一方、(n−m)はフレーム内ではmによらず常に|n−m|≧L/2であり、Lε≪1の条件では、ε(n−m)はフレーム内では1/2サンプルよりもはるかに小さくなるため、ここでは無視できると考えられる。例えばεとして、10−5〜10−6程度、フレーム長として10〜10程度を考えると、これは無視できる。よって、ε(n−m)を無視すると、次式を得る。
(n−m)=(n−m)+εm−f21 (10)
従って、フレーム内で時間差がnに依存せず一定と仮定したモデルを得る。このように考えると、第2チャンネルの観測信号に
τ(m)=−ε(m−M) (11)
(Mは定数)で与えられる遅延量τ(m;ε)をx(n−τ(m;ε))として、チャンネル2に与えることにより次式を得る。
←n+τ(m;ε) (12)
式(9)は次式のようにフレーム内での時間差のmへの依存をなくすことができる。
(n−τ(m)−m)=(n−m)+εm−f21 (13)
⇔(n−m)=(n−m)−f21+M (14)
式(11)で与えられる遅延量はやはり非整数であるが、フレーム内での時間シフトはSTFT領域では線形位相に単純化されるため、以下ではSTFT領域における位相補償について議論する。
図3は本発明の第1の実施形態に係るブラインド補償の音声信号処理方法において用いる、2つの音声信号に対する線形位相モデルによる補償法を示す信号波形図である。本実施形態では、図3に示すように、時刻に対して線形に時刻差がドリフトする場合を考え、以下では、フレーム内のドリフトを無視した階段状に上記時間差を近似することを考える。
まず、第mサンプルを中心とするフレーム波形の短時間フーリエ変換X1(k,m)は以下のように与えられる。
fr(l,m)=w(l)x(l+m−L/2) (15)
Figure 2014174393
ここで、x fr(l,m)はフレーム波形、w(l)は長さLの再合成可能な窓関数、−L/2<k≦L/2は離散周波数インデックス、F{}(k)はL点の離散フーリエ変換により離散周波数kの複素振幅を求める演算を表す。ただし、離散フーリエ変換は実際の計算では高速フーリエ変換で置き換える。
まず、信号x(n)を信号x(n)と同じ第mサンプルを中心とするフレーム分析に施し、ドリフトによる各フレームの遅延量の変化のみを時間周波数領域で補償する。まず、フレーム分析は第1チャンネルと一律で第mサンプル目を中央とする窓関数を用いた長時間波形の切り出しにより行う。
fr(l,m)=w(l)x(l+m−L/2) (17)
これに窓掛けをフーリエ変換してτ(m;ε)サンプルの遅延に相当する線形位相を与える。
Figure 2014174393
時間周波数領域の線形位相は時間領域ではフレーム内の円状時間シフトに相当するため、この処理は遅延量τ(m;ε)が大きい場合に誤差が大きくなる。従って、この処理は全フレームにわたって、遅延量τ(m;ε)が小さくなる場合に有効で、そのためには、ミスマッチ原点Nが信号の中央付近から大きく離れている場合や、信号長が長いためにL/m≫|ε|とならない場合には不向きである。ミスマッチ原点Nの位置は後述されるように信号の中央付近に移動することができるため、前者の問題は問題にならない。従ってこの計算法は信号帳が短い場合に有効である。
次いで、空間的定常性を仮定したミスマッチ推定について以下に説明する。
|ε|≪1とした場合のマイクロホンアレーの観測なので、ミスマッチが補正されていない場合でも信号x(n)と信号x(n)の相関は高いと仮定できる。そこで、以下のようにn=0,…,N−1と、n=0,…,N−1を同質のものと扱い、相関を最大にする信号x(n)の遅延量δ12を求める。
Figure 2014174393
そして、信号x(n)を遅延量δ12だけ遅延させて
(n)←x(n−δ12) (20)
とする。これにより、信号x(n)と信号x(n)のミスマッチの原点を信号のオーバーラップするサンプル区間の中央付近に移動する。そして、遅延量τ(m)のMに、このオーバーラップの中央付近のサンプル番号を与える。
ここで、観測されるすべての音源は定常かつ位置の移動が無いと仮定すると、正確なミスマッチεの推定を用いてサンプリング周波数のミスマッチを補償した観測信号
Figure 2014174393
は離散周波数k毎に定常であると仮定できるため、この仮定に基づいた最尤推定によりミスマッチεを求める。上で議論した位相補償のいずれかを用いて計算した。
Figure 2014174393
より得られる
Figure 2014174393
の分布を零平均、共分散行列V(k)の多変量複素正規分布とおいた場合の対数尤度は次式で表される。
Figure 2014174393
ここで、{・}は複素共役転置を表し、VはV(k)の集合{V(k)|k=−L/2+1,…,L/2}とする。共分散行列V(k)は未知であるため、
Figure 2014174393
を用いた次式の標本推定で置き換える。
Figure 2014174393
この尤度最大化は解析的に解くことができない。そのため、対数尤度J(V,ε)を最大化するεの離散値全探索法などの方法によるミスマッチεを推定が必要になる。
本実施形態では、離散値全探索法に黄金分割法を併用してなる最尤推定の効率的解法について考える。上記では、ミスマッチεを評価するための対数尤度関数
Figure 2014174393
を定式化したが、この対数尤度関数を最大化するミスマッチεは解析的に求めることができない。推定するパラメータはミスマッチεのみであり、その最適化には離散値全探索を行うことも考えられるが、一つのミスマッチεの評価のために全体域での共分散行列とその逆行列の計算が必要であるため、高い解像度の離散値全探索を行うためには計算量が膨大になる。以下では黄金分割探索法を用いた最尤推定の効率的解法について説明する。
この最尤推定問題で求めるべきパラメータはミスマッチεのみであるため、一次元の最適化問題の代表的な手法である黄金分割探索法を用いることが考えられる。黄金分割探索法は凸関数の最大または最小値を探索範囲を狭めながら繰り返し探索により求める手法で、関数が局所的に凸な範囲では最適解に一意に収束する。
図4は第1の実施形態に係るブラインド補償の音声信号処理方法において用いる離散値全探索法による範囲絞り込み方法を示す、サンプリング周波数のミスマッチεに対する対数尤度関数J(V,ε)の関数値の具体例を示すグラフである。ここで、対数尤度関数J(V,ε)は、サンプリング周波数のミスマッチεに対する、対象チャンネル信号に対してサンプリング周波数のミスマッチを補償したときの観測信号の対数尤度関数である。図4に示す例のように、対数尤度関数
Figure 2014174393
は最大値周辺では凸関数となることが経験的にわかっているため、適切に探索範囲を絞り込むことで黄金比探索法が利用可能となる。
まず、刻みの荒い離散値全探索により探索範囲を絞り込む。ミスマッチεの探索範囲Eを等間隔にI点に分割した
Figure 2014174393
について、すべての対数尤度関数
Figure 2014174393
の関数値を比較して最大値を与える次式のミスマッチεi*を求める。
Figure 2014174393
この離散値全探索の範囲Eは、録音機器間のサンプリング周波数のミスマッチとして妥当な範囲に設定すればよい。一般的な録音機器のサンプリング周波数のミスマッチは10−5オーダーであるといわれているため、Eは10−4またはその数倍に設定すればよい。探索範囲の分割数Iの適切な値は、探索範囲にも依存するが、10から100程度に設定すれば十分であると考えられる。
図5は第1の実施形態に係るブラインド補償の音声信号処理方法において用いる黄金比探索法による最適解の探索方法を示す、サンプリング周波数のミスマッチεに対する対数尤度関数J(V,ε)の関数値を示すグラフである。すなわち、離散値全探索法による範囲絞り込みでは、図5に示すように、
(1)探索範囲を等間隔に刻んでサンプリング周波数のミスマッチεを離散化し、
(2)離散化したサンプリング周波数のミスマッチεについて対数尤度関数J(V,ε)が最大となるものを探す。
(3)最大値を与える両隣の範囲を最適値の存在範囲として推定する。
次に、[εi*−1,εi*+1]を探索範囲とした尤度関数
Figure 2014174393
についてのミスマッチεの黄金比分割法を以下のアルゴリズムにより行う。
(1)ステップSS1において、初期値を次式のように初期値を定める。
a=ε*−1
b=ε*+1
(2)ステップSS2において、
p=b−φ(b−a)
q=a+φ(b−a)
として
Figure 2014174393
を求める。ここで
φ=((√5)−1)/2 (26)
である。
(3)ステップSS3において、
Figure 2014174393
なら
a=p
p=q
q=a+φ(b−a) (27)
とし、そうでなければ、
b=q
q=p
p=b−φ(b−a) (28)
とする。
(4)ステップSS4において、(b−a)が十分に小さくなければステップSS2に戻り、十分に小さければ
Figure 2014174393
としてεの最尤推定値を求めて終了する。
図6は第1の実施形態に係るブラインド補償の音声信号処理方法において用いる黄金比探索法による最適解の探索方法を示す、サンプリング周波数のミスマッチεに対する対数尤度関数J(V,ε)の関数値を示すグラフである。上記の黄金比探索法は、局所単峰型関数の1次元最大化問題の効率的解法であって、図6に示すように、1:ψ又はψ:1(ここで、ψ=(1+√(5))/2)である。)の黄金比分割による探索範囲の絞り込みを繰り返し(図6のS101、S102、…)、毎回の反復で範囲がψ−1(≒0.62)倍に狭まる探索法である。具体的には、探索範囲を黄金比分割し、大きな値を含む方の範囲に探索範囲を絞り込み、範囲が十分に小さくなければ、上記の黄金比分割の処理に戻る。一方、探索範囲が十分に小さければ、探索範囲の中点を解として終了する。
図7は図6の黄金比探索法の計算効率を示す表であって、図7(a)はその計算条件を示す表であり、図7(b)はすべて離散値全探索法の場合の分割数と計算時間の関係を示す表であり、図7(c)は離散値全探索法と黄金比探索法との併用の場合の分割数と計算時間の関係を示す表である。黄金比探索法の計算効率について考察すると、探索範囲をN点に等分割する精度の探索の演算量は以下のようになる。
(1)離散値全探索法では、N回の関数評価となる。
(2)黄金比探索法では、
Figure 2014174393
回の関数評価となる。
計算時間の実測値の例(10回計算の平均値)を以下に示す。図7(a)の条件で、20点の離散値全探索法による範囲絞り込みを行った後、さらに1/Nの精度での探索を行った。すべて離散値全探索法の場合は図7(b)のようになり、離散値全探索法に対して黄金比探索法を併用した場合は図7(c)のようになった。図7から明らかなように、黄金比探索法を併用した場合の方が演算量を大幅に減少させることがわかる。
第1の実施形態では、離散値全探索法と黄金分割探索法においては全てのミスマッチεの候補についての対数尤度関数J(V,ε)の評価のために、多数の位相補償信号
Figure 2014174393
を求める必要があるため、その計算は演算量の小さいものを用いるのが好ましい。フレーム中心mが小さいあるいは大きいフレームにおいても位相補償Δ(m;ε)がフレーム長Lに対して十分小さければ、上述のフレーム切り出しの最適化を伴う位相補償ではなく、単純位相補償を用いるのがよい。その場合には、εの最尤推定値が得られたのちには位相補償を正確に行うためにフレーム切り出しの最適化を行うことが好ましい。
図8は本発明の第1の実施形態に係るブラインド補償の音声信号処理方法を示すフローチャートである。図8において、ステップS1において、対象チャンネル信号に対して参照チャンネル信号と録音開始時刻を合わせるように時間差補償処理を行った後、ステップS2において、時間差補償処理後の対象チャンネル信号と、参照チャンネル信号に対してSTFT処理を行う。次いで、ステップS3においてサンプリング周波数のミスマッチεの初期値を設定した後、ステップS4において、ミスマッチεの初期値を用いてミスマッチを補償し、ミスマッチの度合いを評価し、ミスマッチが所定のしきい値以下となるまで補償処理を行う。これにより、参照チャンネル信号のSTFT表現と、ミスマッチ補償済みの対象チャンネル信号のSTFT表現とを得る。
さらに、本発明者らは、提案手法の性能と非同期アレー信号処理への有効性を検証するため、複数話者の音声の混合のマイクロホンアレーによる観測信号に人工的にサンプリング周波数のミスマッチを与え、提案手法によりサンプリング周波数のミスマッチの補償精度とブラインド音源分離の性能への寄与を評価する。
まず、実験条件について以下に説明する。
使用した観測信号は、2人の話者による発話に実測したインパルス応答を畳み込んで混合したものである。音声はATRデータベースの男女2名ずつの単語発話を話者ごとに繋げたものを用い、2話者ずつの選択の全ての組み合わせを評価した。このようにして作成したマイクロホンアレー観測信号の片方のチャンネルのサンプリング周波数を人為的に変更してサンプリング周波数のミスマッチを模擬した。サンプリング周波数の変更はMATLABのresample関数に実装されているポリフェーズフィルタにより行い、ポリフェーズフィルタの長さは100タップのものを用いた。変更前のサンプリング周波数は16,000Hzで、サンプリング周波数の変更は16,000±0.5、16,000±1、16,000±1.5Hzの6種類とした。これらはそれぞれ±31.25、±62.5、±93.75ppmに相当し、別々のA/D変換器を用いた場合のサンプリング周波数のミスマッチとして現実的な大きさのものである。
図9は図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数のミスマッチの推定精度及びサンプリング周波数補償の音源分離精度への寄与の評価を行うときの観測信号作成の実験条件を示す表である。すなわち、音源分離評価のための分離手法には補助関数法独立ベクトル分析(例えば、非特許文献7参照)を用いた。その他の実験条件を図9に示す。
次いで、サンプリング周波数のミスマッチの推定精度について以下に説明する。
図10は図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数のミスマッチの推定精度を測定した実験結果であって、データ長に対するサンプリング周波数のミスマッチεの推定の平均二乗誤差(RMSE)を示すグラフである。図10から明らかなように、最も短い3秒の観測信号でもRMSEは元のサンプリング周波数のミスマッチεの10分の1以下に収束し、データが増えるに従って急速に小さくなる。従って、観測信号の定常性を仮定した尤度がサンプリング周波数のミスマッチの評価尺度として有効であるということがわかる。また、本実験では黄金比探索の収束条件を探索区間長が10−9より小さくなることと定めているが、このために必要な探索の繰り返し回数は30回を超えることがなく、候補を絞り込むための10点の離散値全探索とあわせて40個以下の点で対数尤度関数を評価するだけでこのような高い精度が得られている。
さらに、音源分離への寄与について以下に説明する。サンプリング周波数のミスマッチを提案手法により補償することで、音源分離の性能が回復することを確かめるための評価実験を行った。
図10は図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数のミスマッチの推定精度を測定した実験結果であって、データ長に対するサンプリング周波数のミスマッチεの推定の平均二乗誤差(RMSE)を示すグラフである。また、図11は図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数補償の音源分離精度への寄与の評価を測定した実験結果であって、信号長に対する信号対歪比(SDR)を示すグラフである。さらに、図12は図4のブラインド補償の音声信号処理方法を用いたサンプリング周波数補償の音源分離精度への寄与の評価を測定した実験結果であって、ブラインド音声分離の信号対干渉比(SIR)を示すグラフである。ここで、分離フィルタの学習には与えられた観測信号全体を用いた。評価尺度には、非目的成分の抑圧の強さを表す信号対干渉比(Signal−to−Interference Ratio;SIR)と信号対歪比(Signal−to−Distortion Ratio;SDR)を用いた(例えば、非特許文献8参照)。また、これらの評価値を算出するための参照信号としては、サンプリング周波数の変更を施していないマイクロホンにおける各音源の音像を用いた。
図11及び図12において、「ミスマッチなし」とはサンプリング周波数の変更を施さない場合の音源分離結果を示し、サンプリング周波数のミスマッチを補償した音源分離の性能限界を表す。「未処理」とはサンプリング周波数補償を施さないで音源分離を行った性能を示す。「手動処理」とは正しいサンプリング周波数のミスマッチεを与えて位相補償を施した場合の性能を示す。「本実施形態」とはサンプリング周波数のミスマッチを最尤推定で求めて線形位相で補償する提案手法を示す。
まず、図10から明らかなように、データ長が長くなるにつれてサンプリング周波数のミスマッチεの推定の平均二乗誤差(RMSE)が小さくなることがわかる。次いで、図11及び図12から明らかなように、未処理のSDRが非常に低い値を示していることから、この条件ではサンプリング周波数のミスマッチの補償をしなければ音源分離ができない厳しい条件であるということがわかる。手動処理で正解のパラメータを与えた位相補償はサンプリング周波数のミスマッチがない場合よりも、SIRとSDRの両方で2dB程度低いだけであり、ブラインド音声分離(BSS)のためのサンプリング周波数のミスマッチ補償にSTFT領域における位相補償が有効であるということがわかる。また、サンプリング周波数のミスマッチをブラインドに推定して補償する提案手法は線形位相補償の性能限界を表す手動処理とほとんど性能差がなく、提案手法の最尤推定の精度の高さを示している。以上より、提案手法はサンプリング周波数のミスマッチにより生じる性能劣化をかなり回復させることができているため、音源分離のためのサンプリング周波数のミスマッチ補償として提案手法が有効であるということが確認された。
以上説明したように、本実施形態によれば、非同期マイクロホンアレーで問題となる観測チャンネル間のサンプリング周波数のミスマッチをブラインドに推定する手法を提案した。まず、短い時間間ではチャンネル間の時間差の拡大が無視できるほど小さくなり、フレームの中央のサンプル番号に比例する一定の遅延と見なせることに性質に着目し、STFT領域で線形の位相の補償とによりサンプリング周波数のミスマッチを補償することを提案した。また、観測される音源が定常で移動がないと仮定した、サンプリング周波数のミスマッチの推定を評価する尤度関数を定式化した。さらに、解析的に解けないこの尤度関数の最大化問題の、荒い離散値全探索による範囲の絞り込みと黄金比探索による高速な推定を用いた効率的な解方法を提案した。人工的にサンプリング周波数のミスマッチを与えた音声のサンプリング周波数のミスマッチの推定・補償と音源分離を評価する実験の結果、提案手法はサンプリング周波数のミスマッチを高い精度で推定することができ、また線形位相補償により音源分離性能をサンプリング周波数のミスマッチが起こっていない場合と近いレベルにまで回復できるということがわかり、提案手法の有効性を確認した。
第2の実施形態.
第2の実施形態では、議事録作成のための会議録音など、録音後に信号処理により音声強調を行う応用を想定している。ある特定の音源だけが音を生じている時間区間である単一音源区間情報を録音信号に含めることで、この単一音源区間情報から録音開始時刻オフセットとサンプリング周波数のミスマッチの値を推定する手法を提案する。
図13は本発明の第2の実施形態に係る非同期マイクロホンアレーにおけるサンプリング周波数のミスマッチの非ブラインド補償方法で用いる時間的に離れた同じ音源による2つの単一音源区間情報を手がかりとした補正方法を示す参照チャンネル信号及び対象チャンネル信号の信号波形を示す信号波形図である。実用上では、例えば会議の開会、閉会の挨拶や、初めの自己紹介など、簡潔な特定話者の音声や、またはチャープ信号のような目印となる同期用の既知音源の音、もしくは演奏前のある楽器の1フレーム演奏音などの音を、録音の最初と最後に鳴らすなどして、ある特定の音源だけが生じている時間区間を、単一音源区間情報として録音を行う。図13に示すように、時間的に離れた同じ音源による2つの単一音源区間情報を手がかりとして、区間情報の録音信号を利用することにより、録音開始時刻オフセットや、サンプリング周波数のミスマッチの算出は容易になると考えられる。各録音デバイスのサンプリング周波数を絶対的に補正するためには、高精度で安定な発振器などが必要になるため、録音信号の1つを基準とし、その信号に対してサンプリング周波数を揃える相対的な補償を考える。全デバイスに録音された単一音源区間情報から、基準の信号との相対的な補正を行い、SN比最大化ビームフォーマを用いた音声強調が容易になるか検証を行う。
まず、チャンネル間のサンプリング周波数のミスマッチについて以下に説明する。
第2の実施形態では、公称サンプリング周波数が同じである録音機器間におけるクロックの個体差によるサンプリング周波数のミスマッチについて扱う。以下、チャンネル間のサンプリング周波数のミスマッチが生じた場合、どのような影響があるかをアナログ波形とディジタル波形の関係から議論する。
図1に示すように、マイクロホン1とマイクロホン2には、マイクロホン間の距離による到達時間差が生じて音波(それぞれ参照チャンネル信号、対象チャンネル信号という。)が到達する。このアナログ波形のディジタル波形への変換を考える。マイクロホン2のサンプリング周波数がマイクロホン1よりもやや高い時、連続時間区間におけるマイクロホン2のディジタル波形のサンプル数は、マイクロホン1の同連続時間区間に対応するディジタル波形に比べ多くなってしまう。これによりマイクロホン1とマイクロホン2のディジタル波形を比較すると、図1(b)に示すように、マイクロホン2のディジタル波形はマイクロホン1よりやや伸びた形となってしまう。このことから、チャンネル間のサンプリング周波数のミスマッチは波形の伸縮を引き起こす。また、チャンネル間の録音開始時刻によるオフセットが生じた場合、図2に示すように、波形はシフトしてしまう。
図14は図13の非同期マイクロホンアレーにおけるサンプリング周波数のミスマッチの非ブラインド補償方法における参照チャンネル信号及び対象チャンネル信号の時間差τ及びτを示す信号波形図である。図15(a)は図14の参照チャンネル信号及び対象チャンネル信号に対する録音開始時刻のオフセット補償方法を示すオフセット補償方法の補償前の各信号の信号波形図であり、図15(b)はその補償後の各信号の信号波形図である。図14において、観測信号の最初と最後の部分に同一の音源のみが含まれていることを仮定し、相互相関関数のピークより時間差τ,τを算出し、チャンネル間の時間差を推定して、次式によりサンプリング周波数のミスマッチεを求める。
ε=(τ−τ)/D
ここで、Dは各同一音源間の時間差(サンプル)である。図15(a)に示すように、録音開始時刻が存在すると、時間周波数領域においてチャンネル間の各フレーム同士で対応がとれず、当該領域で処理を行うために大きな時刻オフセットを補償する必要がある。次いで、図15(b)に示すように、対象チャンネル信号に対して時間差τだけ時刻オフセット補償を行うことで録音開始時刻付近の単一音源区間情報を用いて、参照チャンネル信号に対して対象チャンネル信号を録音開始時刻のオフセット補償を行うことができる。
今回、音声強調手法として用いるSN比最大化ビームフォーマは、出力信号中の目的話者信号(信号成分)とノイズ及び話者成分(ノイズ成分)のパワー比を最大化するように、ノイズ成分方位に死角を向けた指向特性を形成することにより音声強調を行う手法である。この手法は、適応ビームフォーマの形成に必要なステアリングベクトルを必要とせず、残響下においても効果を期待される手法である。事前にステアリングベクトルを必要としないため、しばしばマイクロホンアレー処理で用いられるマイクロホン間距離による位相差を用いる必要がなく、録音開始時刻オフセットの補正を行ってもビームフォーマの適用が可能となり、非同期マイクロホンアレーによる音声強調に適している手法といえる。
しかし、ノイズ成分方向に死角を形成するビームフォーマであるため、サンプリング周波数のミスマッチによる影響は受けることになる。SN比最大化ビームフォーマの設計に必要な、観測信号の共分散行列はサンプリング周波数のミスマッチの影響があると変化してしまうため、長い録音区間において録音開始時刻周辺で作成したビームフォーマは後ろの区間では適用できない。例えば、マイクロホン間距離2.5cm、サンプリング周波数48kHz、音速340m/sの条件下で、1秒当たり1サンプルチャンネル間でずれが生じる場合、約74°方位が変わること相当するため、ビームフォーマが形成する指向角から大きく外れてしまうことが考えられる。このことからチャンネル間におけるサンプリング周波数のミスマッチはSN比最大化ビームフォーマを用いた音声強調において大幅な性能劣化を引き起こすことになる。
次いで、録音開始時刻オフセットの補正とサンプリング周波数のミスマッチの線形位相補償について以下に説明する。
まず、ミスマッチの時間領域モデルについて定義する。同時刻における2つのマイクロホン信号xO1(t),xO2(t)(tは連続時間)が別々のA/D変換器でサンプリングされ離散信号x(n),x(n)(n,nはサンプル番号)が得られたとする。ここで、信号x(n)のサンプリング周波数はf、信号x(n)のサンプリング周波数は未知のミスマッチεにより表される(1+ε)fであるとする。このとき離散信号と連続信号の関係は以下のように表される。
Figure 2014174393
Figure 2014174393
ここで、T(i=1,2)は信号x(n)の録音開始時刻を表す。ここで、第iチャンネル(i=1,2)の同時刻tを参照するサンプル番号nは次式で表される。
=(t−T)f (32)
=(1+ε)(t−T)f (33)
ここで、チャンネル1の録音開始時刻T=0とすると、式(30)と式(32)は次式で表される。
Figure 2014174393
Figure 2014174393
また、この時録音開始時刻差T−T=Tをτサンプルと置くと、次式を得る。
Figure 2014174393
以上から、nはnを用いて、次式で表される。
Figure 2014174393
サンプル番号nが参照する時刻に対応するサンプル番号nを参照する。
次いで、ミスマッチの時間周波数領域モデリングについて以下に説明する。
図16は図15の録音開始時刻のオフセット補償方法においてサンプリング周波数のミスマッチ補償方法において対象チャンネル信号に時刻ドリフトを考慮したフレームの切り出しを示す信号波形図である。また、図17は図15の録音開始時刻のオフセット補償方法においてサンプリング周波数のミスマッチ補償方法において各フレームの切り出し位置のオフセット補償及びフレーム内での位相シフトを示す信号波形図である。図16において、時間周波数領域におけるサンプリング周波数のミスマッチを補償するときに、補償チャンネルである対象チャンネル信号に対して時刻ドリフトを考慮したフレーム切り出しを行う。ここで、参照チャンネル信号のフレーム切り出しは単に等間隔Mで行い、rフレーム目の先頭サンプル番号はrMサンプル目となる。また、対象チャンネル信号の切り出しはミスマッチεを考慮したシフト幅(1+ε)Mで行い、参照チャンネル信号のrフレーム目に対応するフレーム先頭サンプル番号は(1+ε)rMサンプル目となる。図17において、各フレームの切り出し位置のオフセット補償を整数サンプル単位で補償を行う。従って、シフト幅が(1+ε)M倍の丸め込みであるround[(1+ε)r1M]になるSTFT分析を行う。次いで、フレーム内での位相シフトを詳細後述するように行う。
すなわち、第2の実施形態では、各フレームの開始サンプル数のオフセットをフレーム切り出しにより補正し、フレーム切り出し補正後の、フレーム内における位相ずれの補正を時間周波数領域内で行うことを特徴としている。
まずフレーム切り出しによる時間オフセット補正について議論する。
参照チャンネル信号のチャンネル1のn(t)=Nサンプル目からN+N’サンプル目までを切り出し、それに対応する対象チャンネル信号のチャンネル2の録音信号を補正する時、フレームの時刻ドリフトを考慮したフレーム切り出しをチャンネル2に施す必要がある。チャンネル1の切り出しサンプル番号Nと補正区間における各フレームの開始位置に対応するサンプル番号n(r)は、フレーム番号をr(r=0,…,R−1)、フレームシフト長をMとすることにより、次式で表される。
(r)=N+rM (40)
補正区間の開始時刻を0とすると、切り出し区間における各フレームに対応するサンプル番号n’(r)は次式で表される。
’(r)=n(r)−N=rM (41)
また、チャンネル2の補正区間における各フレームに対応するサンプル番号n’(r)は次式で表される。
’(r)=(1+ε)n(r)−τ−N (42)
以上で求めたサンプル番号により各チャンネルのフレームを切り出すことにより、各フレーム切り出し地点での時間オフセットによる影響は補正される。
次に、フレーム内における位相シフトを考える。
サンプル番号n’(r)における各フレーム内で、サンプル番号n’(r)の各フレームの位相と対応するように、εrMサンプルに相当する遅延を与える必要がある。サンプル番号nの時間周波数領域信号をX(k,r)(k=−L/2+1,…,L/2は周波数番号)とすると、サンプル番号n’(r)の位相シフトによりサンプリング周波数のミスマッチを補償した時間周波数領域信号
Figure 2014174393
を以下のように求める。
Figure 2014174393
ここで、jは虚数単位、Lはフレーム長である。
さらに、単一音源区間情報を用いた録音開始時刻オフセットとサンプリング周波数のミスマッチの補正について以下に説明する。
以上で議論した補償を実現するため、以下では単一音源区間情報を利用する。初めと最後に単一音源区間情報が得られている録音信号を録音し、その区間を利用し録音開始時刻オフセットとサンプリング周波数のミスマッチを導出する。まず、各チャンネル、初めと最後(以下、録音前半部をA部、録音後半部をB部とする。)における区間情報部を切り出し、同区間においてチャンネル間でクロススペクトルの逆フーリエ変換を取ることにより相互相関を計算する。これにより、各チャンネル同区間においての時間オフセットを得ることができる。参照チャンネル信号との対象チャンネル信号におけるサンプリング周波数のミスマッチ(1+ε)は、各チャンネルのA部及びB部における単一音源区間情報間のサンプル数をそれぞれD、Dとすることにより次式で表される。
Figure 2014174393
D1、D2のサンプル数は、基準信号チャンネルにおけるA部及びB部の単一音源区間開始サンプル番号をそれぞれ、n(t),n(t)とし、チャンネル2の同時刻におけるサンプル番号をn(t),n(t)とし、
=n(t)−n(t) (17)
と置くと各チャンネル同区間においての相互相関のピーク差τ、τを用いて次式で表される。
Figure 2014174393
以上で得られた値を用いて、上述のサンプリング周波数のミスマッチ補償を行う。
本発明者らは、以上で示したサンプリング周波数のミスマッチ補償の動作をSN比最大化ビームフォーマを用いた音声強調により確認する。本実施形態ではステレオ録音可能な録音機器2台、計4チャンネルを用いて一時間程度の録音を行った。音源数は男性音声、女性音声それぞれ1音声を使用し、また区間情報としてA部、B部にそれぞれチャープ信号の録音を行った。チャープ信号は有限時間内に低周波から高周波までスイープする信号であり、相互相関を取るとピークがインパルスとして発生するため、ミスマッチ推定に最適であることから今回使用する。音声強調にはSN比最大化ビームフォーマを用い、出力結果の波形を録音開始時刻オフセットのみ揃えた場合とサンプリング周波数のミスマッチ補償を行った場合と比較することによりミスマッチ補償の有効性を確認する。サンプリング周波数は48000Hz、フレーム幅は8192サンプル、フレームシフト幅は4096サンプルとして実験を行った。
図18は第2の実施形態に係るサンプリング周波数のミスマッチ補償の動作を、SN比最大比ビームフォーマを用いた音声強調の実験結果であって、区間A部における強調結果を示す各信号の信号波形図である。また、図19は第2の実施形態に係るサンプリング周波数のミスマッチ補償の動作を、SN比最大比ビームフォーマを用いた音声強調の実験結果であって、区間B部における強調結果を示す各信号の信号波形図である。ここで、長時間の録音信号にも適用が可能であるか、A部及びB部の同音声部を比較する。A部での協調結果を図18、B部での協調結果を図19に示す。出力1は、録音開始時刻のみを揃え、サンプリング周波数のミスマッチ補償を行わずにビームフォーマを適用した結果であり、出力2は、録音開始時刻を揃え、サンプリング周波数のミスマッチの補償後、ビームフォーマを適用した結果である。なお、ビームフォーマはA部で学習し作成したものを図18及び図19に適用した。
図18及び図19において、波形を比較した結果、A部で作成したビームフォーマを録音開始時刻のみ揃えて適用した場合、A部では音声強調が可能であるが、B部においてはビームフォーマが適用できないことがわかる。今回の録音データでは、相対的なミスマッチが1サンプルあたり9.45×10−7サンプルであり、録音機器間のサンプリング周波数のミスマッチとしては比較的小さいため、A部の録音開始時刻に近い時刻においてはそこまでミスマッチによる影響が起きず、B部の録音開始時刻に離れた時刻ではミスマッチの影響が大きくなっているからだと考えられる。また、A部で作成したビームフォーマを録音開始時刻を揃え、サンプリング周波数のミスマッチ補償を行った上で適用した場合、A部もB部も概ね良好な音声強調結果を得ることができた。このことから、サンプリング周波数のミスマッチの補償は長い録音区間でも効果があると考えられる。
以上説明したように、本実施形態によれば、議事録作成のための会議録音など、予め非同期マイクロホンアレーを用いた音声強調を行うことを目的として、録音信号の最初と最後に単一音源区間情報を録音し、この区間情報から録音開始時刻オフセットとサンプリング周波数のミスマッチの値を得る手法の提案を行った。区間情報からの録音開始時刻オフセットとサンプリング周波数のミスマッチの値を推定、補償後、前半部で作成したSN比最大化ビームフォーマを長い録音の後半部にも適用することにより、その動作を検証した。その結果、区間情報を録音信号の前後に録音すれば、比較的簡単に非同期デバイスによる録音信号のチャンネル間同期を行えることを確認した。
第3の実施形態.
第3の実施形態では、x(n)を参照チャンネル信号、x(n)を対象チャンネル信号とよび、対象チャンネル信号x(n)に信号処理を行うことによって、参照チャンネル信号x(n)に同期させるものとする。ただし、nは離散時刻を表す。具体的には、マイクロホンアレー信号処理の適用を想定してSTFT領域上での同期を目的とし、時間領域上での同期が必要な場合には、最終段で逆STFTを行うことで行う。
録音開始時刻の差とサンプリング周波数のミスマッチによって、参照チャンネルのnサンプル目と対象チャンネルのnサンプル目は次式のように対応するとモデル化できる。
=(1+ε)n+τ (49)
ただし、εは、参照チャンネルに対する対象チャンネルのサンプリング周波数の相対的なずれ、τは、参照チャンネルにおけるn=0と同じ連続時刻に対応する対象チャンネルの離散時刻を表す。なお、第1の実施形態における式(2)を、次式として表記している。
τ=−f21
第3の実施形態の目的は、第1の実施形態に係るブラインド同期手法と、第2の実施形態に係る非ブラインド同期手法と、また、それぞれに用いられている手法を整理し、統一的に位置づけ、説明不足な点を補足することにある。統一的な見やすさのため、元の実施形態と異なる表記を用い、また訂正している。
まず、基本アルゴリズムについて以下に説明する。
時間区間信号を用いた時間差推定において、参照チャンネル信号x(n)の[nA1−(N/2),nA1+(N/2)−1]の時間区間(以下、区間Aという)を考える。ここで、nA1,Nは離散時間領域における区間中心と区間長をそれぞれ表す。区間Aの参照チャンネル信号に対し、同じ信号長で最も相関が高くなる対象チャンネルの時間区間の時間差を求めるためには、以下の相互相関関数(なお、第2の実施形態からインデックスを再修正した)
Figure 2014174393
を最大にする時間差τ、すなわち、
Figure 2014174393
を求めればよい。
ただし、時間差τは、サンプリング周波数のミスマッチによって生じているチャンネル間時間差に加え、音源とマイクロホンの配置に依存した区間Aにおける平均的な到来時間差を含んでいることに注意する必要がある。なお、式(50)の代わりに、φ12(τ)を任意の線形時不変フィルタに通した一般化相互相関関数を用いることも可能であるし、また、式(50)の計算をFFTを利用して行うことも可能である。
次いで、2つの時間区間を用いたサンプリング周波数のミスマッチ推定について以下に説明する。
参照チャンネル信号x(n)の[nA1−N/2,nA1+N/2−1]の時間区間(以下、区間Aという。)、[nB1−N/2、nB1+N/2−1]の時間区間(以下、区間Bという。)から、前述のアルゴリズムにより、区間A、区間Bの信号波形に関する、参照チャンネルに対する対象チャンネルの時間遅れτ、τがそれぞれ求まったものとする。いま、音源に対する到来時間差の影響を無視すれば、式(49)及び式(50)より、次式を得る。
A1+τ=(1+ε)nA1+τ (52)
B1+τ=(1+ε)nB1+τ (53)
式(52)及び式(53)より、次式で表される。
Figure 2014174393
Figure 2014174393
これにより、ミスマッチε及び時間差τを求めることができる。ここで、式(53)は第2の実施形態の式(48)に対応する。
次いで、不等間隔フレームシフトと位相補償によるSTFT表現について以下に説明する。
いま、式(49)におけるミスマッチεと時間差τの大まかな推定値が得られているものとし、これを元に、参照チャンネル信号と対象チャンネル信号で、フレーム中心が互いに対応するようなSTFT表現を求めたい。フレームシフトはともにLの長さとする。いま、フレーム番号をrとし、対象チャンネル信号及び参照チャンネル信号のr番目のフレームの中心サンプルをそれぞれm(r),m(r)と表す。参照チャンネル信号に対しては、
(r)=Mr (56)
のように、一定のフレームシフト長Mを適用してSTFT表現を求める。
Figure 2014174393
ただし、
w(l)(0≦l≦L−1)
は窓関数である。一方、対象チャンネル信号に対しては、推定されたミスマッチεと時間差τを用い、
(r)=(1+ε)m(r)+τ
=(1+ε)Mr+τ (58)
のようにフレーム中心を定めたいが、一般にこれは非整数となってしまう。
従って、
(r)=round[(1+ε)Mr+τ] (59)
δ(r)=((1+ε)Mr+τ)−round[(1+ε)Mr+τ
(60)
のように、m(r)は整数部分のみとして小数部分をΔ(r)に分離し、整数サンプルシフトと周波数領域での位相補償による小数サンプルシフトを組み合わせ、次式のように対象チャンネル信号のSTFT表現を求める。
Figure 2014174393
ここで、ε=0であれば、Δ(r)=0となり、フレームシフト一定の通常のSTFTに帰着することに注意する。
次いで、STFT領域上でのサンプリング周波数のミスマッチのブラインド推定と線形位相補償について以下に説明する。
基本的には、第1の実施形態に記載のとおりであるが、ここでは、対象チャンネルSTFT表現X(k,r)の、第rフレームを起点とした位相補償
Figure 2014174393
を最尤法により最適化し、
ε←ε+ε’ (63)
となるサンプリング周波数推定の修正を求める手法について述べる。起点となる第rフレームは、フレーム数をRとして
=R/2 (64)
のように中央のフレームを与えるのが適当であろう。適切な位相補償を施したSTFT領域の多チャンネル信号
Figure 2014174393
は、音源の移動がないと仮定すると定常であるとみなすことができ、確率密度関数が以下のように与えられる零平均多変量正規分布に従うと考えられる。
Figure 2014174393
ここで、V(k)は共分散行列を示す。従って、定数項を除いた対数尤度関数は次式で表される。
Figure 2014174393
ここで、対数尤度関数を最大化するミスマッチε’を求めることにより、式(63)のようにサンプリング周波数のミスマッチを推定することができる。この対数尤度関数最大化問題は解析的に解くことができないが、対数尤度関数J(ε’)は大域最適解周辺では局所的に単峰性を示すことがわかっている。そこで、ミスマッチε’の取りうる値が十分0に近い場合は、黄金分割探索で効率的に最尤解を探索することができる。また、ミスマッチε’が0から離れた値を取りうる場合には、粗い離散値全探索で単峰的な大域最適解の候補範囲を絞り込むにより、局所単峰的な探索範囲で黄金分割探索を用いることができる。
さらに、ブラインド同期音声信号処理及び非ブラインド同期音声信号処理について以下に説明する。
図20は本発明の第3の実施形態に係る音声信号処理装置10の構成を示すブロック図である。図20の音声信号処理装置10は例えば情報処理装置であるディジタル計算機にてなり、図21及び図22並びにそれらの変形例の処理プログラムを実行することにより、コンピュータを利用して、参照チャンネル信号に対して対象チャンネル信号を、ブラインド同期又は非ブラインド同期で、各録音機器72,73間で発生するサンプリング周波数のミスマッチεを推定し、ブラインド推定されたサンプリング周波数のミスマッチεに基づいてSTFT表現の参照チャンネル信号及び対象チャンネル信号に対して線形位相補償処理を行った後、各信号を逆フーリエ変換することにより線形位相補償後の参照チャンネル信号及び対象チャンネル信号を求めることを特徴としている。
以下、本実施形態に係る音声信号処理装置10の構成及び処理について詳述する。
図20において、音声信号処理装置10のUSBインターフェース51,52を介してそれぞれ、A/D変換器71a,72aを有する録音機器71,72に接続される。ユーザは録音機器71,72を用いて録音するときは、音声信号処理装置10とは接続せずに録音した後、録音機器71,72を音声信号処理装置10のUSBインターフェース51,52に接続して、各録音機器71,72で録音された音声データをUSBインターフェース51,52を介してハードディスクメモリ23に取り込んで図21のブラインド同期音声信号処理、図22の非ブラインド同期音声信号処理、又はそれらの変形例の音声信号処理を音声信号処理装置10により実行する。また、音声信号処理装置10のドライブ装置インターフェース35bを介して、例えばハードディスクメモリであり音声信号処理のために必要なデータ(音声データを含む)を予め格納して提供する外部記憶装置60に接続され、音声信号処理装置10は、外部記憶装置60にアクセスすることにより、所用のデータを取得してハードディスクメモリ23に格納してもよい。
図1において、音声信号処理装置10は、
(a)当該音声信号処理装置10の動作及び処理を演算及び制御するコンピュータのCPU(中央演算処理装置)20と、
(b)オペレーションプログラムなどの基本プログラム及びそれを実行するために必要なデータを格納するROM(読み出し専用メモリ)21と、
(c)CPU20のワーキングメモリとして動作し、当該音声信号処理で必要なパラメータやデータを一時的に格納するRAM(ランダムアクセスメモリ)22と、
(d)当該音声信号処理において用いる各種データ(音声データ及びパラメータデータなど)を格納するためのハードディスクメモリ23と、
(e)例えばハードディスクメモリで構成され、CD−ROMドライブ装置45を用いて読み込んだ、図21〜図22の処理プログラム等(これらのプログラムはコンピュータにより実行可能なプログラムである。)を格納するプログラムメモリ24と、
(f)例えばボイスレコーダーなどの録音機器71,72とUSBインターフェース51,52を介して接続され、録音機器71,72とデータを送受信する通信インターフェース51と、
(g)所定のデータや指示コマンドを入力するためのキーボード41に接続され、キーボード41から入力されたデータや指示コマンドを受信して所定の信号変換などのインターフェース処理を行ってCPU20に伝送するキーボードインターフェース31と、
(h)CRTディスプレイ43上で指示コマンドを入力するためのマウス42に接続され、マウス42から入力されたデータや指示コマンドを受信して所定の信号変換などのインターフェース処理を行ってCPU20に伝送するマウスインターフェース32と、
(i)CPU20によって処理されたデータや設定指示画面、生成された信号波形及び信号データなどを表示するCRTディスプレイ43に接続され、表示すべき画像データをCRTディスプレイ43用の画像信号に変換してCRTディスプレイ43に出力して表示するディスプレイインターフェース33と、
(j)CPU20によって処理されたデータ及び所定の生成された信号波形及び信号データなどを印字するプリンタ44に接続され、印字すべき印字データの所定の信号変換などを行ってプリンタ44に出力して印字するプリンタインターフェース34と、
(k)図21〜図22の処理プログラムが記憶されたCD−ROM45aから当該プログラムのプログラムデータを読み出すCD−ROMドライブ装置45に接続され、読み出された画像処理プログラムのプログラムデータを所定の信号変換などを行ってプログラムメモリ24に転送するドライブ装置インターフェース35aと、
(l)所定のデータを記憶する、例えばハードディスクメモリなどの外部記憶装置60に接続され、読み出されたデータを所定の信号変換などを行ってCPU20又はハードディスクメモリ23に転送するドライブ装置インターフェース35bとを備え、
これらの回路20〜24、31〜34、35a、35b及び51、52はバス30を介して接続される。
以上の実施形態において、図21〜図22の処理プログラムが記憶されたコンピュータにより読取可能なCD−ROM45aを用いて実行してもよいし、CD−R,CD−RW,DVD,DVD−R,DVD−RW,DVD−RAMなどのコンピュータにより読取可能な種々の記録媒体を用いてもよい。
図21は図20の音声信号処理装置10によって実行されるブラインド同期音声信号処理を示すフローチャートである。
図21のステップS11において、前処理A又はBを用いて、ミスマッチε及び録音開始時刻差(以下、時間差という。)τの推定値を求める。前処理Aにおいては、ミスマッチε=0と仮定し、時間区間信号を時間差推定法を用いて、参照チャンネル信号全体を区間Tとみなし、区間Tにおいて時間差τを求める。もしくは、前処置Bにおいては、参照チャンネル信号及び対象チャンネル信号から、それぞれ互いに対応する単一音源区間情報を有する区間T及び区間Tを選択し、2つの時間区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、ミスマッチε及び時間差τの推定値を求める。
次いで、ステップS12において、参照チャンネル信号及び対象チャンネル信号に基づいて、フレーム中心が互いに対応するようなSTFT表現の参照チャンネル信号及び対象チャンネル信号を求める。そして、ステップS13において、STFT表現の参照チャンネル信号及び対象チャンネル信号に基づいて、STFT領域のおけるサンプリング周波数のミスマッチεについてブラインド推定を行う。さらに、ステップS14において、ブラインド推定されたサンプリング周波数のミスマッチεに基づいて、STFT表現の参照チャンネル信号及び対象チャンネル信号に対して線形位相補償処理を行う。そして、ステップS15において、線形位相補償処理を行ったSTFT表現の参照チャンネル信号及び対象チャンネル信号に対して逆フーリエ変換することにより、線形位相補償後の参照チャンネル信号及び対象チャンネル信号を求める。求められた信号の信号波形やデータはCRTディスプレイ43に表示し、もしくはプリンタ44に出力して印字して当該処理を終了する。
図22は図20の音声信号処理装置10によって実行される非ブラインド同期音声信号処理を示すフローチャートである。
ステップS11Aにおいて、前処理Bを用いて、ミスマッチε及び時間差τの推定値を求める。前処置Bにおいては、参照チャンネル信号から区間TA及び区間TBを選択し、2つの時間区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、ミスマッチε及び時間差τの推定値を求める。次いで、ステップS12において、参照チャンネル信号及び対象チャンネル信号に基づいて、フレーム中心が互いに対応するようなSTFT表現の参照チャンネル信号及び対象チャンネル信号を求める。さらに、ステップS15において、求められたSTFT表現の参照チャンネル信号及び対象チャンネル信号に対して逆フーリエ変換することにより参照チャンネル信号及び対象チャンネル信号を求める。求められた信号の信号波形やデータはCRTディスプレイ43に表示し、もしくはプリンタ44に出力して印字して当該処理を終了する。
ただし、前処理Bにおいて、事前知識により、区間A、区間Bとして、同一音源のみがなっている2つの時間区間を選ぶことができることが前提である。なお、区間A、区間Bは、離れている方が望ましく、ブラインド同期では特に利用できる情報がないため、例えば参照チャンネル信号の最初と最後を含む区間を選ぶことができる。
次いで、ステップS11又はS11A、S12とステップS13、S14の処理の位置づけについて以下に説明する。ステップS11又はS11AとS12、ステップS13とS14はそれぞれ対の処理になっている。ステップS11又はS11Aの処理は特定の時間区間信号のみからサンプリング周波数のミスマッチεと時間差τを推定し、ステップS12の処理は、この推定値に基づき、STFT領域への変換時に同期をとっていることに相当する。非ブラインド同期において、区間A、区間Bとして同一音源のみがなっている時間区間を選ぶことができ、かつ区間A、区間Bが十分に時間的に離れていれば、ステップS11A、ステップS12のみの処理で同期をとることができる。
一方、ブラインド同期の場合には、前処理Aでは時間シフトのみを考慮しているし、前処理Bでは区間A、区間Bで同一音源のみがなっている時間区間を選べる保障がないので、推定に誤差が含まれる。よって、ステップS11、ステップS12のみの処理ではサンプリング周波数のミスマッチが補償されないため、ステップS13、ステップS14の処理が必要になる。
また、ステップS11の処理で前処理Bを適用し、かつステップS13、S14の処理を行う場合、ステップS11の処理で、あるミスマッチεが推定され、ステップS13では、ミスマッチεとは異なる別のミスマッチε’が推定されることに注意が必要である。前処理Bを適用してステップS12の処理を行った場合、ステップS11〜S12によって、対象チャンネル信号はSTFT領域上で、すでにある程度サンプリングミスマッチが補償された状態になる。ステップS13〜S14の処理は、元の対象チャンネル信号そのものではなく、この、すでにある程度補償ずみの信号に対して適用されるので、ステップS13ではステップS11で求まったミスマッチεにε’を加えて修正する形で、あらたなミスマッチεが推定されることになり、サンプリング周波数のミスマッチが補償されることになる。
さらに、第1の実施形態及び第2の実施形態との関係について以下に説明する。第1の実施形態では、ステップS11〜S14sの処理で、かつステップS11で前処理Aを行うブラインド同期法が述べられている。また、第2の実施形態では、ステップS11〜S12で、ステップS11で前処理Bを行う非ブラインド同期法が述べられている。
本発明と非特許文献4との相違点.
以下、本発明と非特許文献との相違点について以下に説明する。
非特許文献4においてもサンプリング周波数のミスマッチを求めているが、本発明とは以下のように異なる。
(1)サンプリング周波数のミスマッチの求め方が違う。
サンプリング周波数のミスマッチのために、2つのチャネル間の時間差がドリフトするが、非特許文献4は、各フレームから求まる時間差を平均してドリフトの傾きを直接求めている(非特許文献4の式(14))のに対して、本発明では、STFT領域での位相補償に基づき、最尤法により求めている。非特許文献4の場合には、反復計算が不要な代わりに、位相領域での平均演算のために、エイリアシングが生じる高周波数領域の情報が使えない。これに対して、本発明では、反復が必要ですが、十分に高速で動作し、補償しながら尤度を求めるので、高周波数領域の情報も使えるため、高い精度を得ることができる。
(2)サンプリング周波数の補償方法が異なる。
非特許文献4では、非特許文献5という従来法であるラグランジュ多項式補間により、リサンプリングを行っている。ただ、サンプリング周波数の補償方法は、選択肢があり、本発明でもミスマッチを推定した後に、こうした従来法を用いることはできる。
(3)STFTのフレームシフト
非特許文献4では、参照チャンネル信号でも、ミスマッチを補償する対象チャンネル信号でも、フレームシフトが一定になっているが、この場合、長時間録音だとお互いのフレーム関係がずれてくる。本発明では、フレームシフトを変えることを考慮しており、長時間録音にも対応可能である。
以上詳述したように、本発明に係る音声信号処理装置及び方法によれば、上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める。次いで、上記サンプリング周波数のミスマッチに対する、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となる最尤推定法を用いてサンプリング周波数のミスマッチを推定し、上記推定されたサンプリング周波数のミスマッチに基づいて、フレーム内の変化を無視する階段近似を用いて上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号との間の時間差を最小にする線形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する。従って、従来技術に比較して高精度でかつ長時間録音においても、各音声信号におけるサンプリング周波数のミスマッチをブラインドでもしくは非ブラインドで推定して当該ミスマッチを補償することができる。
10…音声信号処理装置、
20…CPU、
21…ROM、
22…RAM、
23…ハードディスクメモリ、
24…プログラムメモリ、
30…バス、
31…キーボードインターフェース、
32…マウスインターフェース、
33…ディスプレイインターフェース、
34…プリンタインターフェース、
35a,35b…ドライブ装置インターフェース、
41…キーボード、
42…マウス、
43…CRTディスプレイ、
44…プリンタ、
45…CD−ROMドライブ装置、
45a…CD−ROM、
51,52…USBインターフェース、
60…外部記憶装置、
71,72…録音機器、
71a,72a…A/D変換器(ADC)。

Claims (15)

  1. 対象チャンネル信号と参照チャンネル信号との間に録音開始時刻差があり、上記参照チャンネル信号のA/D変換器と上記対象チャンネル信号のA/D変換器との間のサンプリング周波数のミスマッチがあるときに、上記対象チャンネル信号を上記参照チャンネル信号に同期させる音声信号処理装置において、
    上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める第1の信号処理手段を備えたことを特徴とする音声信号処理装置。
  2. サンプリング周波数のミスマッチを0と仮定し、時間区間信号を用いた時間差推定法を用いて上記参照チャンネル信号全体を第1の区間とみなし、当該第1の区間において上記参照チャンネル信号に対する対象チャンネル信号の録音開始時刻差を求める第1の前処理手段をさらに備えたことを特徴とする請求項1記載の音声信号処理装置。
  3. 上記参照チャンネル信号及び上記対象チャンネル信号から、それぞれ互いに対応する単一音源区間情報を有する第1区間及び第2の区間を選択し、当該2つの区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、サンプリング周波数のミスマッチ及び録音開始時刻差を求める第2の前処理手段をさらに備えたことを特徴とする請求項1記載の音声信号処理装置。
  4. 上記短時間フーリエ変換表現の対象チャンネル信号及び上記短時間フーリエ変換表現の参照チャンネル信号に基づいて、上記サンプリング周波数のミスマッチに対する、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となる最尤推定法を用いてサンプリング周波数のミスマッチを推定する第2の信号処理手段をさらに備えたことを特徴とする請求項1〜3のうちのいずれか1つに記載の音声信号処理装置。
  5. 上記第2の信号処理手段は、離散値全探索法によりサンプリング周波数のミスマッチの範囲を絞り込んだ後、黄金比探索法により最適解であるサンプリング周波数のミスマッチを推定することを特徴とする請求項4記載の音声信号処理装置。
  6. 上記推定されたサンプリング周波数のミスマッチに基づいて、フレーム内の変化を無視する階段近似を用いて上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号との間の時間差を最小にする線形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する第3の信号処理手段をさらに備えたことを特徴とする請求項4又は5記載の音声信号処理装置。
  7. 上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とに対して逆フーリエ変換することにより上記対象チャンネル信号及び上記参照チャンネル信号を求める第4の信号処理手段をさらに備えたことを特徴とする請求項1、3又は6記載の音声信号処理装置。
  8. 対象チャンネル信号と参照チャンネル信号との間に録音開始時刻差があり、上記参照チャンネル信号のA/D変換器と上記対象チャンネル信号のA/D変換器との間のサンプリング周波数のミスマッチがあるときに、上記対象チャンネル信号を上記参照チャンネル信号に同期させる音声信号処理装置により実行される音声信号処理方法において、
    上記参照チャンネル信号に対して一定のフレームシフトを行うことにより、短時間フーリエ変換表現の参照チャンネル信号を求める一方、上記録音開始時刻差と上記サンプリング周波数のミスマッチとに基づいて、上記参照チャンネル信号と上記対象チャンネル信号の互いのフレーム中心が互いに対応するように、上記対象チャンネル信号に対して整数サンプルシフトと周波数領域での位相補償法による小数サンプルシフトを行うことにより短時間フーリエ変換表現の対象チャンネル信号を求める第1の信号処理ステップを備えたことを特徴とする音声信号処理方法。
  9. サンプリング周波数のミスマッチを0と仮定し、時間区間信号を用いた時間差推定法を用いて上記参照チャンネル信号全体を第1の区間とみなし、当該第1の区間において上記参照チャンネル信号に対する対象チャンネル信号の録音開始時刻差を求める第1の前処理ステップをさらに備えたことを特徴とする請求項8記載の音声信号処理方法。
  10. 上記参照チャンネル信号及び上記対象チャンネル信号から、それぞれ互いに対応する単一音源区間情報を有する第1区間及び第2の区間を選択し、当該2つの区間の単一音源区間情報を用いたサンプリング周波数のミスマッチ推定法を用いて、サンプリング周波数のミスマッチ及び録音開始時刻差を求める第2の前処理ステップをさらに備えたことを特徴とする請求項8記載の音声信号処理方法。
  11. 上記短時間フーリエ変換表現の対象チャンネル信号及び上記短時間フーリエ変換表現の参照チャンネル信号に基づいて、上記サンプリング周波数のミスマッチに対する、上記短時間フーリエ変換表現の対象チャンネル信号に対して補償した観測信号の対数尤度が最大となる最尤推定法を用いてサンプリング周波数のミスマッチを推定する第2の信号処理ステップをさらに備えたことを特徴とする請求項8〜10のうちのいずれか1つに記載の音声信号処理方法。
  12. 上記第2の信号処理ステップは、離散値全探索法によりサンプリング周波数のミスマッチの範囲を絞り込んだ後、黄金比探索法により最適解であるサンプリング周波数のミスマッチを推定することを特徴とする請求項11記載の音声信号処理方法。
  13. 上記推定されたサンプリング周波数のミスマッチに基づいて、フレーム内の変化を無視する階段近似を用いて上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号との間の時間差を最小にする線形位相補償法を用いて、上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とが同期するように補償する第3の信号処理ステップをさらに備えたことを特徴とする請求項11又は12記載の音声信号処理方法。
  14. 上記短時間フーリエ変換表現の対象チャンネル信号と上記短時間フーリエ変換表現の参照チャンネル信号とに対して逆フーリエ変換することにより上記対象チャンネル信号及び上記参照チャンネル信号を求める第4の信号処理ステップをさらに備えたことを特徴とする請求項8、11又は13記載の音声信号処理方法。
  15. 請求項8〜14のうちのいずれか1つに記載の音声信号処理方法の各ステップを含むことを特徴とする、コンピュータにより読取可能な記録媒体。
JP2013048084A 2013-03-11 2013-03-11 音声信号処理装置及び方法 Active JP6278294B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013048084A JP6278294B2 (ja) 2013-03-11 2013-03-11 音声信号処理装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013048084A JP6278294B2 (ja) 2013-03-11 2013-03-11 音声信号処理装置及び方法

Publications (2)

Publication Number Publication Date
JP2014174393A true JP2014174393A (ja) 2014-09-22
JP6278294B2 JP6278294B2 (ja) 2018-02-14

Family

ID=51695653

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013048084A Active JP6278294B2 (ja) 2013-03-11 2013-03-11 音声信号処理装置及び方法

Country Status (1)

Country Link
JP (1) JP6278294B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016063651A1 (ja) * 2014-10-21 2016-04-28 オリンパス株式会社 第1の録音装置、第2の録音装置、録音システム、第1の録音方法、第2の録音方法、第1の録音プログラム、および第2の録音プログラム
JP2016224914A (ja) * 2015-05-29 2016-12-28 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 文書画像の二値化方法
WO2017061023A1 (ja) * 2015-10-09 2017-04-13 株式会社日立製作所 音声信号処理方法および装置
CN109584898A (zh) * 2018-12-29 2019-04-05 上海瑾盛通信科技有限公司 一种语音信号的处理方法、装置、存储介质及电子设备
CN110085264A (zh) * 2019-04-30 2019-08-02 北京儒博科技有限公司 语音信号检测方法、装置、设备及存储介质
JP2020134659A (ja) * 2019-02-18 2020-08-31 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム
CN112735459A (zh) * 2019-10-28 2021-04-30 清华大学 基于分布式麦克风的语音信号增强方法、服务器及系统
JP2022502158A (ja) * 2018-09-28 2022-01-11 メドトロニック ミニメド インコーポレイテッド 注入デバイスおよび関連する食事ボーラス調整方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010212818A (ja) * 2009-03-08 2010-09-24 Univ Of Tokyo 複数のマイクロフォンにより受信された多チャンネル信号の処理方法
JP2011080868A (ja) * 2009-10-07 2011-04-21 Hitachi Ltd 音響監視システム、及び音声集音システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010212818A (ja) * 2009-03-08 2010-09-24 Univ Of Tokyo 複数のマイクロフォンにより受信された多チャンネル信号の処理方法
JP2011080868A (ja) * 2009-10-07 2011-04-21 Hitachi Ltd 音響監視システム、及び音声集音システム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016080968A (ja) * 2014-10-21 2016-05-16 オリンパス株式会社 第1の録音装置、第2の録音装置、録音システム、第1の録音方法、第2の録音方法、第1の録音プログラム、および第2の録音プログラム
US10356518B2 (en) 2014-10-21 2019-07-16 Olympus Corporation First recording device, second recording device, recording system, first recording method, second recording method, first computer program product, and second computer program product
WO2016063651A1 (ja) * 2014-10-21 2016-04-28 オリンパス株式会社 第1の録音装置、第2の録音装置、録音システム、第1の録音方法、第2の録音方法、第1の録音プログラム、および第2の録音プログラム
JP2016224914A (ja) * 2015-05-29 2016-12-28 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 文書画像の二値化方法
WO2017061023A1 (ja) * 2015-10-09 2017-04-13 株式会社日立製作所 音声信号処理方法および装置
US10629222B2 (en) 2015-10-09 2020-04-21 Hitachi, Ltd. Sound signal procession method and device
JP2022502158A (ja) * 2018-09-28 2022-01-11 メドトロニック ミニメド インコーポレイテッド 注入デバイスおよび関連する食事ボーラス調整方法
CN109584898A (zh) * 2018-12-29 2019-04-05 上海瑾盛通信科技有限公司 一种语音信号的处理方法、装置、存储介质及电子设备
JP2020134659A (ja) * 2019-02-18 2020-08-31 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム
JP7126659B2 (ja) 2019-02-18 2022-08-29 日本電信電話株式会社 信号処理装置、信号処理方法及び信号処理プログラム
CN110085264A (zh) * 2019-04-30 2019-08-02 北京儒博科技有限公司 语音信号检测方法、装置、设备及存储介质
CN110085264B (zh) * 2019-04-30 2021-10-15 北京如布科技有限公司 语音信号检测方法、装置、设备及存储介质
CN112735459A (zh) * 2019-10-28 2021-04-30 清华大学 基于分布式麦克风的语音信号增强方法、服务器及系统
CN112735459B (zh) * 2019-10-28 2024-03-26 清华大学 基于分布式麦克风的语音信号增强方法、服务器及系统

Also Published As

Publication number Publication date
JP6278294B2 (ja) 2018-02-14

Similar Documents

Publication Publication Date Title
JP6278294B2 (ja) 音声信号処理装置及び方法
Miyabe et al. Blind compensation of interchannel sampling frequency mismatch for ad hoc microphone array based on maximum likelihood estimation
US7895038B2 (en) Signal enhancement via noise reduction for speech recognition
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
JP4774100B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体
JP5931661B2 (ja) 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム
Miyabe et al. Blind compensation of inter-channel sampling frequency mismatch with maximum likelihood estimation in STFT domain
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
JP4096104B2 (ja) 雑音低減システム及び雑音低減方法
US9190047B2 (en) Acoustic signal processing device and method
JP5702685B2 (ja) 音源方向推定装置及び音源方向推定方法
JP2014219467A (ja) 音信号処理装置、および音信号処理方法、並びにプログラム
Schmalenstroeer et al. Multi-stage coherence drift based sampling rate synchronization for acoustic beamforming
CN111866665B (zh) 麦克风阵列波束形成方法及装置
JP2015084466A (ja) サンプリングポイント調整装置および方法、並びにプログラム
Sakanashi et al. Speech enhancement with ad-hoc microphone array using single source activity
Kheder et al. Fast i-vector denoising using MAP estimation and a noise distributions database for robust speaker recognition
Chinaev et al. Double-cross-correlation processing for blind sampling-rate and time-offset estimation
Lv et al. A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation
Miyabe et al. Optimizing frame analysis with non-integrer shift for sampling mismatch compensation of long recording
KR20070085193A (ko) 잡음제거 장치 및 방법
JP2019054344A (ja) フィルタ係数算出装置、収音装置、その方法、及びプログラム
KR101418023B1 (ko) 위상정보를 이용한 자동 이득 조절 장치 및 방법
JP2006330687A (ja) 信号分離装置、信号分離方法、そのプログラムおよび記録媒体
Ganapathy et al. Temporal resolution analysis in frequency domain linear prediction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180105

R150 Certificate of patent or registration of utility model

Ref document number: 6278294

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250