JP2015022112A

JP2015022112A - 音声区間検出装置および方法

Info

Publication number: JP2015022112A
Application number: JP2013149525A
Authority: JP
Inventors: 嘉星叶; Zhou Qi Yun; 小林　匠; Takumi Kobayashi; 匠小林; 村川　正宏; Masahiro Murakawa; 正宏村川; 樋口　哲也; Tetsuya Higuchi; 哲也樋口
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2013-07-18
Filing date: 2013-07-18
Publication date: 2015-02-02

Abstract

【課題】実時間処理が可能な程度の軽い計算量の、耐雑音性が高い、音声区間を検出するＶＡＤ手法を提供する。【解決手段】アナログデジタル変換された環境雑音と音声からなる所定長の音響信号から所定の窓の長さ分の音響信号を取り出すステップ(Ｓ１)と、該取り出した音響信号から音響特徴を抽出するステップ(Ｓ２)と、前記抽出した音響特徴から逐次主成分分析を行い音響特徴の固有ベクトルからなる環境雑音モデルを更新するステップ(Ｓ３)と、該更新した環境雑音モデルと、該音響信号の音響特徴ベクトルを比較してその偏差量を算出するステップ(Ｓ４)と、該偏差量と前記初期化された閾値とを比較して音声区間を判別するステップ(Ｓ５)との繰り返しからなる。【選択図】図１

Description

本発明は雑音環境下において人の音声活動の存在・不在を判定するための音声区間検出装置および方法に関する。

音声区間検出(ＶＡＤ)は音声をそれ以外の雑音と識別する技術である。ＶＡＤが正しい識別を行えば、後に続くさまざまな処理において、データ通信におけるバンド幅の使用を抑えるだけでなく、ＶＯＩＰ(ボイスオーバーインターネットプロトコル)や携帯電話通信のような種々の不連続通信アプリケーションの演算コストを低減する。またＶＡＤの精度は、話者認識の精度及び、非音声区間を効果的に除くことにより自動音声認識(ＡＳＲ)精度の向上に寄与する。

20年以上にわたり、様々なＶＡＤ特徴の研究開発がなされてきた。現在標準的なＶＡＤは２つの段階、すなわち音響特徴抽出フェーズと音声／非音声識別フェーズから構成される。前段の特徴抽出に関しては、例えば、ＬＦＥＲ(ローバンドツーフルバンドエネルギー)といったエネルギー量に基づく特徴、雑音量予測と雑音除去を行うスペクトル領域特徴、音声スペクトルの動的変化をとらえるデルタケプストラム特徴などがある。

さらに、音声信号は時間周波数領域での変動が大きく常に非定常であることから、雑音に頑健なＶＡＤにするために、スペクトルエントロピーを用いて非定常度を測定する手法が導入されている。音声調和は、音声信号に特有の調和構造を特徴づける最も識別度の高いＶＡＤ特徴として知られており、近年広く研究されている(非特許文献１)。

ＶＡＤ特徴は、個々のフレーム(10-20ms)からだけでなく、一連の連続的なフレーム(数百ms)からも抽出することができる。例えば、数百ミリセカンドの長時間フレームをカバーするサブバンドスペクトルエントロピーで動作する特徴抽出手法が提案されている(非特許文献２)。

ＶＡＤの２つの段階の後段に関しても、多くの判別規則が開発されてきた。統計モデルに基づいたＶＡＤ手法についてはとりわけ研究が行われている。この手法ではＶＡＤは、音声有無の統計モデルに基づき尤度比検定(ＬＲＴ)を行い仮説検証される(非特許文献３)。最近の研究は、単一フレームに基づくＬＲＴから一連のフレーム群に基づくＭＯ-ＬＲＴへと広がっている。非特許文献１で報告されている手法は、調和特徴とＭＯ-ＬＲＴ手法を併用することで効果が得られている。

L. Tan, B. Borgstrom and A. Alwan "Voice activity detection using harmonic frequency components in likelihood ratio test," in Proc. ICASSP, 2010, pp.4466-4469. P. K. Ghosh, A. Tsiartas, and S. S. Narayanan, "Robust voice activity detection using long-term signal variability," IEEE Trans. on Audio, Speech, and Language Processing, vol.19, no.3, Mar. 2011. J. Sohn, N. S.Kimand, W. Sung, "A statistical model-based voice activity detection," IEEE Signal Processing Letters, vol.6, no.1, pp.1-3, Jan. 1999. J. Ramirez, et al, "An Effective Subband OSF-based VAD with Noise Reduction for Robust Speech Recognition", IEEE Trans. on Audio, Speech and Language Processing, vol.13, no.6, pp.1119-1129, Nov. 2005.

従来のＶＡＤアプローチは、高い信号雑音比(ＳＮＲ)の環境(SNR>10dB)ではうまく動作するが、不利な環境下(SNR<10dB)では精度が著しく低下する。いろいろな応用への需要の高まりから、近年の音声処理研究分野において雑音に頑健なＶＡＤが必要とされている。

また、ＶＡＤの識別フェーズにおいて、従来の統計モデルに基づいたＶＡＤ手法はガウスモデルを基本としている。しかし、一般的に音声信号は非ガウス分布を示すため、ガウスモデルを用いて音声信号を特徴付けることは信頼性が低く、ＶＡＤの精度を低下させる。この問題を解決するため、サポートベクターマシンのように最新の機械学習技術を用いることもできるが、アルゴリズムの複雑さから処理量が増大し、実時間処理には障害がある。

以上のように、実用上の観点から、実時間処理が可能な程度の軽い計算量の手法であり、かつ、耐雑音性が高いＶＡＤが求められている。

本発明は、そのために次の手段を提供することができる。
（１）
音声区間を検出するＶＡＤ方法であって、
環境雑音モデルを構成する固有ベクトル、環境雑音モデルの更新間隔、偏差量に係る閾値は適宜初期化されていて、
アナログデジタル変換された環境雑音と音声からなる所定長の音響信号から所定の窓の長さ分の音響信号を取り出すステップ(Ｓ１)と、
該取り出した音響信号から音響特徴を抽出するステップ(Ｓ２)と、
前記抽出した音響特徴から逐次主成分分析を行い音響特徴の固有ベクトルからなる環境雑音モデルを更新するステップ(Ｓ３)と、
該更新した環境雑音モデルと、該音響信号の音響特徴ベクトルを比較してその偏差量を算出するステップ(Ｓ４)と、
該偏差量と前記初期化された閾値とを比較して音声区間を判別するステップ(Ｓ５)との繰り返しからなり、
該音響特徴を抽出するステップ(Ｓ２)は、
少なくとも該音響信号と短時間フーリエ変換によりスペクトログラムの音響特徴ベクトルに変換するステップ(Ｓ２１)と、
該スペクトログラムの音響特徴ベクトルの次元削減処理を行うステップ(Ｓ２３)とからなり、
逐次主成分分析を行うステップ(Ｓ３)は、
該変換された音響特徴ベクトルのうち所定の個数の最新の音響特徴ベクトルに基づいて再帰的にまたは非再帰的に固有ベクトルを一定間隔で更新するステップ、
からなることを特徴とする音声区間を検出するＶＡＤ方法。

（２）
上記短時間フーリエ変換によりスペクトログラムの音響特徴量に変換するステップ(Ｓ２１)に続いて、
さらに高所局所自己相関(ＨＬＡＣ)マスクパターンを用いて調和特徴量を抽出するステップ(Ｓ２２)を行ってから、
該調和特徴量の次元削減処理を行うステップ(Ｓ２３)を行う、
ことを特徴とする(１)に記載する音声区間を検出するＶＡＤ方法。

（３）
前記高次局所自己相関(ＨＬＡＣ)特徴マスクパターンは、図３の右表に定める次数３×３マスクにおいて９種類の共起性パターンからなることを特徴とする(２)に記載の音声区間を検出するＶＡＤ方法。
ただし、マスクの水平方向と垂直方向は、前記スペクトログラムの時間軸横方向と周波数軸縦方向と同一とする。

（４）
最初の所定時間間隔の非音声区間における最大偏差を初期閾値として音声区間を検出することを特徴とする(１)乃至(３)のいずれかに記載の音声区間を検出するＶＡＤ方法。
（５）
前記初期化された閾値は、さらに前記音声区間を判別された前記偏差量により適応的に更新されて、次の繰り返しでは前記初期化された閾値に代わって、該適応的に更新された閾値と前記算出された偏差量とを比較して音声区間を判別し、該閾値は、さらに次の繰り返しのために該音声区間を判別された該偏差量により適応的に更新されるステップ(Ｓ５)を特徴とする(１)乃至(４)のいずれかに記載の音声区間を検出するＶＡＤ方法。

（６）
前記偏差量の算出は、数式１２により行うことを特徴とする(１)乃至(５)のいずれかに記載の音声区間を検出するＶＡＤ方法。
ただし、λ_iは固有ベクトルのｉ番目の固有値とする。
（７）
前記偏差量の算出は、数式１３により行うことを特徴とする(１)乃至(５)のいずれかに記載の音声区間を検出するＶＡＤ方法。
ただし、λ_iは固有ベクトルのｉ番目の固有値とする。

（８）
ＶＡＤ方法を実行するＶＡＤ装置であって、
少なくともマイクロフォンと、音響信号演算処理部と、音声区間出力部を有し、
環境雑音に重畳した音声信号がマイクロフォンに入力されると、
音響信号演算処理部において(１)乃至(７)のいずれかに記載する方法を実行して音声区間出力部へ当該検出された音声区間を出力することを特徴とするＶＡＤ装置。

（９）
ＶＡＤ方法を実行するプログラムであって、
(１)乃至(７)のいずれかに記載する方法を実行することを特徴とするプログラム。

本発明では、ＶＡＤの識別フェーズにおいて、逐次主成分分析を用いて、入力音響特徴の統計的性質をモデル化する。逐次更新は短い時間間隔(おおむね１秒以下)とする。これには３つの利点がある。
第一の利点は、短い時間の間隔を用いることで、環境雑音は静的な特性がより明確になるので、統計的にうまく特徴付けることができる。逆に言えば、人の音声区間は短い時間間隔では特性に明らかなばらつきがあるために、環境雑音からの逸脱として正しく識別することができる。

第二の利点として、逐次主成分分析は、教師なしの逐次学習アルゴリズムとして、様々な環境雑音下で動作する自己適応的な性質を付与することである。環境雑音に対する特段の予備知識を必要とせずに、環境雑音に対する次元数の低いモデルが逐次得られ、音声区間検出の基準となる。さらに識別のための閾値も適応的に定めることで、環境雑音の時間変化に対しても頑健に対応することができる。

第三の利点として、逐次主成分分析は単純行列乗算と加算を基本として処理量が少ないため、実用上の問題もない。パーソナルコンピュータに搭載される一般的なＣＰＵや、携帯電話などに搭載されるモバイル端末向きＣＰＵなどに組み込まれている積和演算ユニットを用いて、効率よく短時間で計算することができる。

また、本発明では、ＶＡＤの音響特徴抽出フェーズにおいて、高次局所自己相関(ＨＬＡＣ)特徴マスクパターンを使用し、時間―周波数領域での共起パターンに基づく特徴量を考案した。これにより、局所的な時間―周波数パターン、特に調和構造における変動パターンを少ない計算量で特徴づけることができる。

本発明のＶＡＤ方法の基本フローチャートを表わす図である。本発明の実施例１の音響特徴抽出のフローチャートを表わす図である。スペクトログラムに対する共起性マスクパターンを表わす図である。抽出対象のスペクトログラムへのマスク適用例を表わす図である。左から共起性マスクパターン４、１、および３と同一のマスクパターンが音声調和の見られるスペクトログラムに重ね合わされている。本発明の実施例１の逐次主成分分析のフローチャートを表わす図である。工場雑音下(SNR=0dB)における本発明のＶＡＤ方法と従来法(非特許文献２)のＲＯＣによる性能比較図である。工場雑音下(SNR=0dB)における本発明のＶＡＤ方法と従来法(非特許文献３)のＲＯＣによる性能比較図である。工場雑音下(SNR=0dB)における本発明のＶＡＤ方法と従来法(非特許文献４)のＲＯＣによる性能比較図である。バブル雑音下(SNR=0dB)における本発明のＶＡＤ方法と従来法(非特許文献２)のＲＯＣによる性能比較図である。バブル雑音下(SNR=0dB)における本発明のＶＡＤ方法と従来法(非特許文献３)のＲＯＣによる性能比較図である。バブル雑音下(SNR=0dB)における本発明のＶＡＤ方法と従来法(非特許文献４)のＲＯＣによる性能比較図である。公共ロビー雑音下(SNR=0dB)における本発明のＶＡＤ方法と従来法(非特許文献２)のＲＯＣによる性能比較図である。公共ロビー雑音下(SNR=0dB)における本発明のＶＡＤ方法と従来法(非特許文献３)のＲＯＣによる性能比較図である。公共ロビー雑音下(SNR=0dB)における本発明のＶＡＤ方法と従来法(非特許文献４)のＲＯＣによる性能比較図である。ショッピングセンター雑音下(SNR=0dB)における本発明のＶＡＤ方法と従来法(非特許文献２)のＲＯＣによる性能比較図である。ショッピングセンター雑音下(SNR=0dB)における本発明のＶＡＤ方法と従来法(非特許文献３)のＲＯＣによる性能比較図である。ショッピングセンター雑音下(SNR=0dB)における本発明のＶＡＤ方法と従来法(非特許文献４)のＲＯＣによる性能比較図である。工場雑音下(SNR=0dB)における本発明の実施例１の方法と実施例２の方法のＲＯＣによる性能比較図である。バブル雑音下(SNR=0dB)における本発明の実施例１の方法と実施例２の方法のＲＯＣによる性能比較図である。公共ロビー雑音下(SNR=0dB)における本発明の実施例１の方法と実施例２の方法のＲＯＣによる性能比較図である。ショッピングセンター雑音下(SNR=0dB)における本発明の実施例１の方法と実施例２の方法のＲＯＣによる性能比較図である。本発明の実施例４の逐次主成分分析のフローチャートを表わす図である。

ＶＡＤは従来、仮説検証によって説明されてきた。Ｈ₀は非音声、Ｈ₁は音声を示す。

ここで、ｘ,ｓ,ｎは、それぞれ、観測音響信号、音声、非音声環境雑音を表す。一般的な統計モデルに基づいたＶＡＤ法では、音声／非音声を判別するためにｐ(ｘ|Ｈ₁)|/|ｐ(ｘ|Ｈ₀)の尤度比検定を行う。しかし、ガウスモデルは非ガウス性のデータ、特に音声信号を表現するには信頼性が低いとされており、誤ったＶＡＤ結果をもたらす。このような問題を軽減するために、本発明では逐次主成分分析を用いた新しい手法を考案した。

本手法では、逐次主成分分析により、主成分として固有ベクトルおよび固有値の組を求め、低い次元数の表現として式(１)の音響信号Ｈ₀をモデル化する。逐次学習法を用いることにより、細かい更新時間間隔(<1sec)を用いて、適応的にモデル化する。このような細かい時間間隔では環境雑音ｎはガウス性をもち定常的であると考えられる一方、音声信号ｓは常に広範な非定常変動を示す。
非音声環境雑音(Ｈ₀)は、定常的で支配的なパターンであるので、主成分分析により非常にうまくモデル化できる。一方で、ばらつきが大きく非定常な性質をもつ音声(Ｈ₁)はモデル化したＨ₀とは異なる性質を示すため、Ｈ₀と比較することでうまく識別できる。

ＶＡＤ手法の全体のフローチャートを図１に示す。
まず、ステップＳ０では、逐次学習(Ｓ３)および判定(Ｓ５)のための初期設定を行う。
固有値、固有ベクトル、更新間隔、閾値の初期値を適宜設定する。
続くステップＳ１では、マイクロフォン等から判定対象の音響信号を取得する。アナログデジタル変換を行い、デジタルデータとしてプロセッサ(演算処理装置または演算処理部)、例えばパーソナルコンピュータにとりこまれた時系列信号のうち、後述するステップＳ２で行う短時間フーリエ変換における窓の長さ分のデータを切り出す。

ステップＳ２では、ステップＳ１で切り出した音響信号に対して音響特徴を抽出する。
ステップＳ３では、この抽出した音響特徴を用いて逐次主成分分析を行い、音響信号のモデルを更新する。
続くステップＳ４では、更新したモデルと、ステップＳ２で求めた音響特徴を比較し、その偏差を算出する。

ステップＳ５では、この求めた偏差に対して閾値を超えたか否かで、音声区間であるか否かを判定するとともに、閾値を適応的に微修正する。
ここで、ステップＳ１に戻り、ステップＳ１〜Ｓ５までを繰り返し、音声区間判定を連続的に行う。以下ではこの基本的フローチャートを具体化する実施例を詳細に記載する。

実施例１における、ステップＳ２の音響特徴抽出のフローを図２に示す。ステップＳ２１において、ステップＳ１で切り出した音響信号を短時間フーリエ変換(ＳＴＦＴ)によりスペクトログラムに変換する。この変換には公知の一般的方法を用いることができる。ここで、スペクトログラムの時間方向と周波数方向をそれぞれｔとｖで示す。ｆ(ｒ)はスペクトログラムのｒ(ｔ,ｖ)地点におけるパワーを示す。

ステップＳ２２において、時間軸方向で隣り合う三つのフレーム(時刻ｔ-2のスペクトログラム、時刻ｔ-1のスペクトログラム, 時刻ｔのスペクトログラム)から、ＨＬＡＣマスクパターンを用いて調和特徴を抽出する。ステップＳ２３では、ステップＳ２２で抽出した調和特徴に対して、メルフィルタバンクを用いて特徴量の次元数を削減し、時刻ｔにおける最終的な音響特徴とする。
ステップＳ２２での調和特徴の計算方法については、

ここで、ａ₁とａ₂は、変位ベクトルｆ(ｒ+ａ₁)とｆ(ｒ+ａ₂)は基準点ｆ(ｒ)の隣接領域を示す。ここでは時間周波数平面(ｔ,ｖ)上にあるｒの３×３の局所的な隣接領域に限定する。これは、この局所的な隣接領域において、パワーｆの相関性が高いと想定されるためである。具体的には図３に示すように、ｒ地点においては９種類のマスクパターンを用いて、９種類の特徴量を算出する。ここでスペクトログラムのｖ方向の次元数が512であったとすると、ステップＳ２２で抽出される特徴量の数は、512×9＝4608となる。特徴量の数が増えれば増えるほど、後段の識別処理にかかる計算量が多くなるため、続くステップＳ２３で特徴量の削減を行う。

ステップＳ２３では、各マスクパターンで算出された特徴量に対して、メルフィルタバンクを適用する。メルフィルタバンクの計算方法は公知の方法を用いればよい。この結果、各マスクパターンに対して、15次元程度の特徴量にまで削減可能である。マスクパターンは９種類であるので、それらをすべて連結させると、時刻ｔのフレームにおいて15×9＝135次元の特徴量となる。

従来手法であるＭＦＣＣにみられるように、音響特徴の多くは各時刻ごとのフレームで独立に抽出されるのが一般的であった。その結果、時間―周波数領域の動的な特徴は見えなくなる。それに対して本発明では、高次局所自己相関特徴(ＨＬＡＣ)を適用することにより、時間及び周波数領域にわたる隣接範囲で音声信号の豊富な共起性特徴を導き出すことができる。たとえば、図４に示すように音声調和が見られる時に、はっきりとした(大きな)特徴値が算出される。

ステップＳ３では、逐次主成分分析により、環境雑音のモデル化を行う。環境雑音には、さまざまな音響信号が入っており、それが時間によって変動するという構造を持つ。そのため、以下に記述するような教師なしの逐次学習法により、このモデル化を行う。

ステップＳ２で抽出される特徴ベクトルをＭ次元ベクトルとする(上記例ではＭ＝135)。この特徴ベクトルをｘ_i(ｉ=1,…,Ｊ,…,Ｎ)∈Ｒ^Mで表す。まず予備準備としてステップＳ０において、固有ベクトルと固有値の初期値を事前に生成しておく。この際に、先頭からＪ番目までのフレームを初期値計算用に選ぶ。固有値Λ＝diag(λ₁,…,λ_M)と固有ベクトル、
Ｕ=[ｕ₁,…ｕ_M],ｕ∈Ｒ^Mは次式で計算できる。

ここで、ｘ_i ^T,ｉ∈(1,…,Ｊ)はｘ_iの転置行列である。Ｕに関する累積寄与率η_Kは以下で定義する。

固有ベクトルを固有値によって降順にソートした後、主要な音響パターンを表すために、第Ｋ主成分までに対応する固有ベクトルＵ_K=[ｕ₁,…,ｕ_K](累積寄与率η_K>0.99)を保持する。これを、ステップＳ０での固有値と固有ベクトルの初期値とする。なおここでは主成分を決定する累積寄与率を0.99としたが、この値は環境に応じて任意の値とすることができる。またこの例では、先頭からＪ番目までのフレームを用いて初期値を計算したが、別途あらかじめ求めて記憶しておいた固有値と固有ベクトルの組を初期値としてもよい。

ステップＳ３においては、ステップＳ２で求めた新しい特徴ベクトルに基づいて再帰的に固有値と固有ベクトルを一定間隔で更新する。まずステップＳ３１において、ステップＳ０において事前に定める一定の更新間隔Ｔ０に達したか否かを判断する。達しない場合は、ステップＳ３２において、新しく入力された特徴ベクトルをメモリに記憶し、ステップＳ１に戻る。更新間隔に達した場合は、ステップＳ３３において、以下のように固有ベクトルを更新する。

ｕ(ｔ)と、

はそれぞれ、時刻tにおける固有ベクトルとt+Δtにおいて更新された固有ベクトルを示す。Ｘ_t,Δt=[ｘ_t+1,…,ｘ_t+Δ]は、時刻ｔ+1からｔ+Δｔの間にステップＳ３２においてメモリに記憶された新しく入力された特徴ベクトルを示す。ここでｌは正の整数パラメータで、通常２に設定する。続くステップＳ３４では、更新された固有ベクトルに対応する固有値を以下のように更新する。

上記(５)式と(７)式は、固有値と固有ベクトルを近似的に更新する式であり、一般的な積和演算で計算することができる。そのため、Ｎ個の特徴ベクトルを用いて固有値問題を最初から精確に解きなおす場合と比較して、大幅に計算量を軽減することができる。また計算に必要な特徴ベクトルは、新しく入力された特徴ベクトルのみであり、過去の特徴ベクトルを保持する必要もないため、計算に必要なメモリ量も少なくてすむ。

次に、ステップＳ４においては、ステップＳ３で更新したＫ個の固有ベクトルを用いて、新たに入力された特徴ベクトルが、環境雑音のモデルからどれくらい偏差があるかを計算する。具体的には、Ｋ個の固有ベクトルが張る部分空間Ｖを考え、これを環境雑音のモデルとする。特徴ベクトルをその部分空間に射影したときの垂線の長さがモデルとの偏差となり、部分空間Ｖへの射影演算子Ｐは、次の式で求められる。

ここで、

は、時刻ｔ+Δｔにおいて更新された第K主成分までに対応する固有ベクトルを示す。これを用いて時刻ｔ+1からｔ+Δｔにおいて、新たに入力された特徴ベクトルと部分空間の偏差は次式で表される。

ここで、求めたｄΔｔは、Δｔ個の新たに入力された特徴ベクトルそれぞれに対する偏差を成分としてもつベクトルであり、この各成分ｄ_i,ｉ∈(1,…,Δｔ)が０に近い場合は、対応する新しく入力された特徴ベクトルｘ_t+iが、環境雑音のモデルである部分空間Ｖに含まれることを意味するので、対応する音響信号を環境雑音とみなしてよい。一方、ｄ_iが大きい場合は、入力された特徴ベクトルが環境雑音とは異なる非定常な性質を持っていることになり、入力信号に音声が含まれているとみなす。

続くステップＳ５では、ステップＳ４で求めた偏差ｄ_iに基づき、音声区間である否かの判定処理を行う。ｄ_iが閾値Thresholdを超えた場合は、時刻ｔ+ｉ-1からｔ+ｉの区間には、音声が含まれていたと判定する。また人の会話区間は統計的に、声にならない会話が300ms先行し、声のある会話のあとに、声にならない会話が500ms続く。そこで音声区間と判定された前方の一定時間(たとえば150ms)と後方の一定時間(たとえば300ms)は、閾値処理で音声区間と判定されなかった場合でも、音声区間であると判定してもよい。

また、より雑音に頑健な判定を出すために、閾値を適応的に更新してもよい。もっとも新しく判定した区間から数えてｋ番目までの音声区間に対する偏差ｄ_iの系列と、ｋ番目までの非音声区間に対する偏差ｄ_iの系列を、それぞれＳ(ｋ)とＮ(ｋ)で表した場合、閾値Thresholdを以下の式で更新する。

ここで、αは重み係数であり、0から1の間の値、たとえば0.5に設定する。また、ｋは以下で示す実験結果では50に設定した。

また、Thresholdの初期値は、ステップＳ０において算出する。ステップＳ０において、固有ベクトルの初期値計算用に選んだ先頭からＪ番目までのフレームにおいて、音声区間が含まれていないものとし、そのＪ番目までのフレームにおいて算出される偏差ｄ_iの最大値を、Thresholdの初期値とする。なお、この初期値計算用の区間は、１秒間程度でも十分である。

ステップＳ５で判定処理を行ったのち、ステップＳ１に戻り、ステップＳ１〜Ｓ５を繰り返し、部分空間を更新しながら、判定処理を一定間隔で行っていく。なお、この更新間隔については、おおむね数百ミリ秒程度〜１秒以下がのぞましい。更新間隔が短すぎると、環境雑音が正しくモデル化できない。逆に長すぎると、環境雑音の時間変動成分がみえるようになり、音声との区別がつきにくくなる。以下で示す実験結果では、更新間隔を500ミリ秒に設定した。

考案した手法の有効性を示すために、低信号対雑音比の様々な音響環境のもとでＶＡＤ実験を行った。最初に、ＴＩＭＩＴデータセットからランダムにいくつかのクリップを選び、無音声インターバルを加えて、音声率58.9％のテストコーパスを218組作成した。それぞれのコーパスに、10ms毎に人手でラベル(音声区間／非音声区間)を付与した。なお100msより短い単語間のポーズ領域は音声区間としてラベルづけした。環境雑音として、４種類の雑音(工場、バブル、公共ロビー、ショッピングセンター)を用意した。工場雑音とバブル雑音はNOISEX-92データベースから抽出した。さらに、実環境の音響で考案手法を評価するために、BBC Sound Effectデータベースから公共のロビーとショッピングセンターでの測定音を抽出した。信号雑音比が0dBとなるようにこれらの雑音をテストコーパスに付加する。

ステップＳ２における短時間フーリエ変換の窓の長さは10msに設定した。そのため、一回の更新時に扱う新しい特徴ベクトルの数Δｔは50となる。またメルフィルタバンクを作成するために15フィルタを用いた。したがって特徴量の次元数は135(９つの特徴パターン×15メルフィルタ)になる。提案するＶＡＤ手法の評価を行うために、真陽性(true positive rate：ＴＰＲ)と偽陽性(false positive rate：ＦＰＲ)を採用して、各々ｘ軸ｙ軸とすることでＲＯＣ(receiver operating characteristic)カーブを生成する。ＴＰＲは正しく検出された音声フレームの確率を示し、ＦＰＲは音声と誤って認定された非音声フレームの確率を示す。４種類の雑音(工場、バブル、公共ロビー、ショッピングセンター)について、本願と他のＶＡＤ法(非特許文献２(Ghosh)，３(Sohn)、４(Ramirez))と大規模な比較を行った。ＲＯＣカーブを得るために、考案した手法及び非特許文献２の手法では、適応的閾値更新を動作させないようにした。グラフに表したＲＯＣカーブでは、カーブが左上の方向に張り付けば張り付くほどよい性能といえる。

図６から図１７に示した比較結果に基づいて本発明と従来のＶＡＤ法と比較すると、本発明のＶＡＤ法は高い判定精度を実現し、４つの音響環境下いずれにおいても0dBという大きな雑音強度に対して従来法と比較してより頑健な判別結果を示した。

本発明において、計算量をさらに削減するためには、抽出する特徴量の次元数をより少なくすればよい。認識精度は実施例１と比較してさがるものの、より安価なプロセッサ(演算処理装置または演算処理部)を用いてＶＡＤ処理を実行できる。具体的には、実施例１の変形例として、ステップＳ２で特徴量として調和特徴を用いない場合を示す。

図２において、ステップＳ２１で短時間ＦＦＴをしたのちに、ステップＳ２２の調和特徴計算処理を行わずに、ステップＳ２３の特徴量の次元削減処理を直接行う。メルフィルタバンクを作成するために１５フィルタを用いる場合では、抽出される特徴量の次元数も１５となる。実施例１と比較すると特徴量の数は１５／１３５＝１／９に削減され、またステップＳ２２で必要であった演算もなくなる。さらにステップＳ３以降での処理において、この特徴量の次元削減により、必要な演算量を削減することができる。

図１８〜図２１に、実施例１と同じ比較条件において、実施例１(Proposed method)の方法と実施例２(Spectogram-PCA)の方法の性能を比較する。いずれの雑音環境においても、実施例１の方法が性能がよいことがわかり、性能と計算量の間にトレードオフが存在する。しかしながら、実施例２の方法と従来手法の性能を比較すると(例えば図８のＳｏｈｎ法と図１８の本願実施例２)、実施例２の方法がおおむね良好な性能を残しており、本実施例の有効性を示せた。

また、実施例１の偏差量抽出ステップＳ４において、式(１０)以外にも、下記のような偏差量ｄ_vを指標としてもちいることができる。

これは、ステップＳ３で更新した固有ベクトルに対応する固有値の和を示す。更新に用いた特徴ベクトルの分布のばらつきが小さければ小さいほど、式(１２)の値は小さくなる。これは更新区間の環境雑音がほぼ定常で、音声が含まれていなかったとみなすことができる。逆に、この値が大きかった場合は、更新区間に音声が含まれていたとみなせる。なお、式(１２)のかわりに、下記の偏差量ｄ_vを用いてもよい。

さらに、式(１０)と式(１２)(または式１３)の組み合わせとして、式(１４)を用いてもよい。

実施例１においては、ステップＳ３逐次主成分分析において、逐次主成分分析を数式５によって行い、固有ベクトルを更新した。しかし環境雑音の時間変動が大きい場合は、数式５のように再帰的な更新式で過去の特徴ベクトルの記憶をもつよりも、直近の特徴ベクトルのみを用いて、固有ベクトルを直接更新したほうが、環境雑音をより正確にモデル化できる場合もある。その場合の新しいＳ３のフローチャートを、図２２に示す。

ステップＳ３５では、新しく入力された特徴ベクトルをメモリに記憶し、続くステップＳ３６ではメモリに記憶された特徴ベクトルのうち、最も古いものを消去する。これによって、メモリに記憶する特徴ベクトルの数を常に一定数すなわち最新のＮ個とする。このＮ個の特徴ベクトルに対応する音響信号の時間間隔を数百ミリ秒〜１秒程度とすることで、環境雑音の時間変動が大きい場合でも正確にモデル化できる。具体的には、このＮ個の特徴ベクトルを用いて、ステップＳ３７、Ｓ３８で固有値問題を解く。固有値問題の解法は、公知の高速な方法を用いればよい。たとえば、ステップＳ２の短時間フーリエ変換の窓の長さを10ms、Ｎを30とした場合は、対応する音響信号の時間間隔は300ミリ秒となり、上記の条件を満たす。また固有値問題が解くべきベクトル数は30と小さい問題であるため、計算時間も増大しない。

なお、使用するプロセッサ(演算処理装置または演算処理部)の演算速度によっては、実時間処理が間に合わない場合も考えられるが、その場合は、実施例２の方法を併用し特徴量の次元数を削減し、計算時間を削減すればよい。

上述した実施例１〜実施例４の方法においては、ステップＳ２において、ステップＳ１できりだした音響信号をそのまま用いた。しかし雑音を除去するために、前処理としてなんらかのフィルタ処理を用いてもよい。たとえば、ステップＳ２１で短時間ＦＦＴ処理をしたのちに、音声帯域(たとえば0.3kHz〜3.4kHz)の周波数帯域を強調するような重みづけ処理を以下のように行う。

ここで、ｗ(ｖ)は周波数ごとに定めた重みづけ係数であり、たとえばなんらかの音声データベースにおける周波数ごとの音声の出現頻度(確率密度分布)から定めてもよい。このような強調処理により、音声以外のノイズの影響をうけにくくする効果が得られる。

Claims

音声区間を検出するＶＡＤ方法であって、
環境雑音モデルを構成する固有ベクトル、環境雑音モデルの更新間隔、偏差量に係る閾値は適宜初期化されていて、
アナログデジタル変換された環境雑音と音声からなる所定長の音響信号から所定の窓の長さ分の音響信号を取り出すステップ(Ｓ１)と、
該取り出した音響信号から音響特徴を抽出するステップ(Ｓ２)と、
前記抽出した音響特徴から逐次主成分分析を行い音響特徴の固有ベクトルからなる環境雑音モデルを更新するステップ(Ｓ３)と、
該更新した環境雑音モデルと、該音響信号の音響特徴ベクトルを比較してその偏差量を算出するステップ(Ｓ４)と、
該偏差量と前記初期化された閾値とを比較して音声区間を判別するステップ(Ｓ５)との繰り返しからなり、
該音響特徴を抽出するステップ(Ｓ２)は、
少なくとも該音響信号と短時間フーリエ変換によりスペクトログラムの音響特徴ベクトルに変換するステップ(Ｓ２１)と、
該スペクトログラムの音響特徴ベクトルの次元削減処理を行うステップ(Ｓ２３)とからなり、
逐次主成分分析を行うステップ(Ｓ３)は、
該変換された音響特徴ベクトルにのうち所定の個数の最新の音響特徴ベクトルに基づいて再帰的にまたは非再帰的に固有ベクトルを一定間隔で更新するステップ、
からなることを特徴とする音声区間を検出するＶＡＤ方法。
上記短時間フーリエ変換によりスペクトログラムの音響特徴量に変換するステップ(Ｓ２１)に続いて、
さらに高所局所自己相関(ＨＬＡＣ)マスクパターンを用いて調和特徴量を抽出するステップ(Ｓ２２)を行ってから、
該調和特徴量の次元削減処理を行うステップ(Ｓ２３)を行う、
ことを特徴とする請求項１に記載する音声区間を検出するＶＡＤ方法。
前記高次局所自己相関(ＨＬＡＣ)特徴マスクパターンは、次の表１に定める次数３×３マスクにおいて、９種類の共起性パターンからなることを特徴とする請求項２に記載の音声区間を検出するＶＡＤ方法。
ただし、表１の各マスクの水平方向と垂直方向は、前記スペクトログラムを表にした場合の時間軸横方向と周波数軸縦方向と同一とする。
最初の所定時間間隔の非音声区間における最大偏差を初期閾値として音声区間を検出することを特徴とする請求項１乃至請求項３のいずれか１項に記載の音声区間を検出するＶＡＤ方法。
前記初期化された閾値は、さらに前記音声区間を判別された前記偏差量により適応的に更新されて、次の繰り返しでは前記初期化された閾値に代わって、該適応的に更新された閾値と前記算出された偏差量とを比較して音声区間を判別し、該閾値は、さらに次の繰り返しのために該音声区間を判別された該偏差量により適応的に更新されるステップ(Ｓ５)を特徴とする請求項１乃至４のいずれか１項に記載の音声区間を検出するＶＡＤ方法。
前記偏差量の算出は、次の数式(１６)により行うことを特徴とする請求項１乃至５のいずれか１項に記載の音声区間を検出するＶＡＤ方法。
ただし、λ_iは固有ベクトルのｉ番目の固有値。
前記偏差量の算出は、次の数式(１７)により行うことを特徴とする請求項１乃至５のいずれか１項に記載の音声区間を検出するＶＡＤ方法。
ただし、λ_iは固有ベクトルのｉ番目の固有値。
ＶＡＤ方法を実行するＶＡＤ装置であって、
少なくともマイクロフォンと、音響信号演算処理部と、音声区間出力部を有し、
環境雑音に重畳した音声信号がマイクロフォンに入力されると、
音響信号演算処理部において請求項１乃至７のいずれか１項に記載する方法を実行して音声区間出力部へ当該検出された音声区間を出力することを特徴とするＶＡＤ装置。
ＶＡＤ方法を実行するプログラムであって、
請求項１乃至７のいずれか１項に記載する方法を実行することを特徴とするプログラム。