JP2015022112A - 音声区間検出装置および方法 - Google Patents

音声区間検出装置および方法 Download PDF

Info

Publication number
JP2015022112A
JP2015022112A JP2013149525A JP2013149525A JP2015022112A JP 2015022112 A JP2015022112 A JP 2015022112A JP 2013149525 A JP2013149525 A JP 2013149525A JP 2013149525 A JP2013149525 A JP 2013149525A JP 2015022112 A JP2015022112 A JP 2015022112A
Authority
JP
Japan
Prior art keywords
acoustic
vad
speech section
speech
environmental noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013149525A
Other languages
English (en)
Inventor
嘉星 叶
Zhou Qi Yun
嘉星 叶
小林 匠
Takumi Kobayashi
匠 小林
村川 正宏
Masahiro Murakawa
正宏 村川
樋口 哲也
Tetsuya Higuchi
哲也 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2013149525A priority Critical patent/JP2015022112A/ja
Publication of JP2015022112A publication Critical patent/JP2015022112A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

【課題】実時間処理が可能な程度の軽い計算量の、耐雑音性が高い、音声区間を検出するVAD手法を提供する。【解決手段】アナログデジタル変換された環境雑音と音声からなる所定長の音響信号から所定の窓の長さ分の音響信号を取り出すステップ(S1)と、該取り出した音響信号から音響特徴を抽出するステップ(S2)と、前記抽出した音響特徴から逐次主成分分析を行い音響特徴の固有ベクトルからなる環境雑音モデルを更新するステップ(S3)と、該更新した環境雑音モデルと、該音響信号の音響特徴ベクトルを比較してその偏差量を算出するステップ(S4)と、該偏差量と前記初期化された閾値とを比較して音声区間を判別するステップ(S5)との繰り返しからなる。【選択図】図1

Description

本発明は雑音環境下において人の音声活動の存在・不在を判定するための音声区間検出装置および方法に関する。
音声区間検出(VAD)は音声をそれ以外の雑音と識別する技術である。VADが正しい識別を行えば、後に続くさまざまな処理において、データ通信におけるバンド幅の使用を抑えるだけでなく、VOIP(ボイス オーバー インターネット プロトコル)や携帯電話通信のような種々の不連続通信アプリケーションの演算コストを低減する。またVADの精度は、話者認識の精度及び、非音声区間を効果的に除くことにより自動音声認識(ASR)精度の向上に寄与する。
20年以上にわたり、様々なVAD特徴の研究開発がなされてきた。現在標準的なVADは2つの段階、すなわち音響特徴抽出フェーズと音声/非音声識別フェーズから構成される。前段の特徴抽出に関しては、例えば、LFER(ローバンド ツー フルバンド エネルギー)といったエネルギー量に基づく特徴、雑音量予測と雑音除去を行うスペクトル領域特徴、音声スペクトルの動的変化をとらえるデルタケプストラム特徴などがある。
さらに、音声信号は時間周波数領域での変動が大きく常に非定常であることから、雑音に頑健なVADにするために、スペクトルエントロピーを用いて非定常度を測定する手法が導入されている。音声調和は、音声信号に特有の調和構造を特徴づける最も識別度の高いVAD特徴として知られており、近年広く研究されている(非特許文献1)。
VAD特徴は、個々のフレーム(10-20ms)からだけでなく、一連の連続的なフレーム(数百ms)からも抽出することができる。例えば、数百ミリセカンドの長時間フレームをカバーするサブバンドスペクトルエントロピーで動作する特徴抽出手法が提案されている(非特許文献2)。
VADの2つの段階の後段に関しても、多くの判別規則が開発されてきた。統計モデルに基づいたVAD手法についてはとりわけ研究が行われている。この手法ではVADは、音声有無の統計モデルに基づき尤度比検定(LRT)を行い仮説検証される(非特許文献3)。最近の研究は、単一フレームに基づくLRTから一連のフレーム群に基づくMO-LRTへと広がっている。非特許文献1で報告されている手法は、調和特徴とMO-LRT手法を併用することで効果が得られている。
L. Tan, B. Borgstrom and A. Alwan "Voice activity detection using harmonic frequency components in likelihood ratio test," in Proc. ICASSP, 2010, pp.4466-4469. P. K. Ghosh, A. Tsiartas, and S. S. Narayanan, "Robust voice activity detection using long-term signal variability," IEEE Trans. on Audio, Speech, and Language Processing, vol.19, no.3, Mar. 2011. J. Sohn, N. S.Kimand, W. Sung, "A statistical model-based voice activity detection," IEEE Signal Processing Letters, vol.6, no.1, pp.1-3, Jan. 1999. J. Ramirez, et al, "An Effective Subband OSF-based VAD with Noise Reduction for Robust Speech Recognition", IEEE Trans. on Audio, Speech and Language Processing, vol.13, no.6, pp.1119-1129, Nov. 2005.
従来のVADアプローチは、高い信号雑音比(SNR)の環境(SNR>10dB)ではうまく動作するが、不利な環境下(SNR<10dB)では精度が著しく低下する。いろいろな応用への需要の高まりから、近年の音声処理研究分野において雑音に頑健なVADが必要とされている。
また、VADの識別フェーズにおいて、従来の統計モデルに基づいたVAD手法はガウスモデルを基本としている。しかし、一般的に音声信号は非ガウス分布を示すため、ガウスモデルを用いて音声信号を特徴付けることは信頼性が低く、VADの精度を低下させる。この問題を解決するため、サポートベクターマシンのように最新の機械学習技術を用いることもできるが、アルゴリズムの複雑さから処理量が増大し、実時間処理には障害がある。
以上のように、実用上の観点から、実時間処理が可能な程度の軽い計算量の手法であり、かつ、耐雑音性が高いVADが求められている。
本発明は、そのために次の手段を提供することができる。
(1)
音声区間を検出するVAD方法であって、
環境雑音モデルを構成する固有ベクトル、環境雑音モデルの更新間隔、偏差量に係る閾値は適宜初期化されていて、
アナログデジタル変換された環境雑音と音声からなる所定長の音響信号から所定の窓の長さ分の音響信号を取り出すステップ(S1)と、
該取り出した音響信号から音響特徴を抽出するステップ(S2)と、
前記抽出した音響特徴から逐次主成分分析を行い音響特徴の固有ベクトルからなる環境雑音モデルを更新するステップ(S3)と、
該更新した環境雑音モデルと、該音響信号の音響特徴ベクトルを比較してその偏差量を算出するステップ(S4)と、
該偏差量と前記初期化された閾値とを比較して音声区間を判別するステップ(S5)との繰り返しからなり、
該音響特徴を抽出するステップ(S2)は、
少なくとも該音響信号と短時間フーリエ変換によりスペクトログラムの音響特徴ベクトルに変換するステップ(S21)と、
該スペクトログラムの音響特徴ベクトルの次元削減処理を行うステップ(S23)とからなり、
逐次主成分分析を行うステップ(S3)は、
該変換された音響特徴ベクトルのうち所定の個数の最新の音響特徴ベクトルに基づいて再帰的にまたは非再帰的に固有ベクトルを一定間隔で更新するステップ、
からなることを特徴とする音声区間を検出するVAD方法。
(2)
上記短時間フーリエ変換によりスペクトログラムの音響特徴量に変換するステップ(S21)に続いて、
さらに高所局所自己相関(HLAC)マスクパターンを用いて調和特徴量を抽出するステップ(S22)を行ってから、
該調和特徴量の次元削減処理を行うステップ(S23)を行う、
ことを特徴とする(1)に記載する音声区間を検出するVAD方法。
(3)
前記高次局所自己相関(HLAC)特徴マスクパターンは、図3の右表に定める次数3×3マスクにおいて9種類の共起性パターンからなることを特徴とする(2)に記載の音声区間を検出するVAD方法。
ただし、マスクの水平方向と垂直方向は、前記スペクトログラムの時間軸横方向と周波数軸縦方向と同一とする。
(4)
最初の所定時間間隔の非音声区間における最大偏差を初期閾値として音声区間を検出することを特徴とする(1)乃至(3)のいずれかに記載の音声区間を検出するVAD方法。
(5)
前記初期化された閾値は、さらに前記音声区間を判別された前記偏差量により適応的に更新されて、次の繰り返しでは前記初期化された閾値に代わって、該適応的に更新された閾値と前記算出された偏差量とを比較して音声区間を判別し、該閾値は、さらに次の繰り返しのために該音声区間を判別された該偏差量により適応的に更新されるステップ(S5)を特徴とする(1)乃至(4)のいずれかに記載の音声区間を検出するVAD方法。
(6)
前記偏差量の算出は、数式12により行うことを特徴とする(1)乃至(5)のいずれかに記載の音声区間を検出するVAD方法。
ただし、λiは固有ベクトルのi番目の固有値とする。
(7)
前記偏差量の算出は、数式13により行うことを特徴とする(1)乃至(5)のいずれかに記載の音声区間を検出するVAD方法。
ただし、λiは固有ベクトルのi番目の固有値とする。
(8)
VAD方法を実行するVAD装置であって、
少なくともマイクロフォンと、音響信号演算処理部と、音声区間出力部を有し、
環境雑音に重畳した音声信号がマイクロフォンに入力されると、
音響信号演算処理部において(1)乃至(7)のいずれかに記載する方法を実行して音声区間出力部へ当該検出された音声区間を出力することを特徴とするVAD装置。
(9)
VAD方法を実行するプログラムであって、
(1)乃至(7)のいずれかに記載する方法を実行することを特徴とするプログラム。
本発明では、VADの識別フェーズにおいて、逐次主成分分析を用いて、入力音響特徴の統計的性質をモデル化する。逐次更新は短い時間間隔(おおむね1秒以下)とする。これには3つの利点がある。
第一の利点は、短い時間の間隔を用いることで、環境雑音は静的な特性がより明確になるので、統計的にうまく特徴付けることができる。逆に言えば、人の音声区間は短い時間間隔では特性に明らかなばらつきがあるために、環境雑音からの逸脱として正しく識別することができる。
第二の利点として、逐次主成分分析は、教師なしの逐次学習アルゴリズムとして、様々な環境雑音下で動作する自己適応的な性質を付与することである。環境雑音に対する特段の予備知識を必要とせずに、環境雑音に対する次元数の低いモデルが逐次得られ、音声区間検出の基準となる。さらに識別のための閾値も適応的に定めることで、環境雑音の時間変化に対しても頑健に対応することができる。
第三の利点として、逐次主成分分析は単純行列乗算と加算を基本として処理量が少ないため、実用上の問題もない。パーソナルコンピュータに搭載される一般的なCPUや、携帯電話などに搭載されるモバイル端末向きCPUなどに組み込まれている積和演算ユニットを用いて、効率よく短時間で計算することができる。
また、本発明では、VADの音響特徴抽出フェーズにおいて、高次局所自己相関(HLAC)特徴マスクパターンを使用し、時間―周波数領域での共起パターンに基づく特徴量を考案した。これにより、局所的な時間―周波数パターン、特に調和構造における変動パターンを少ない計算量で特徴づけることができる。
本発明のVAD方法の基本フローチャートを表わす図である。 本発明の実施例1の音響特徴抽出のフローチャートを表わす図である。 スペクトログラムに対する共起性マスクパターンを表わす図である。 抽出対象のスペクトログラムへのマスク適用例を表わす図である。左から共起性マスクパターン4、1、および3と同一のマスクパターンが音声調和の見られるスペクトログラムに重ね合わされている。 本発明の実施例1の逐次主成分分析のフローチャートを表わす図である。 工場雑音下(SNR=0dB)における本発明のVAD方法と従来法(非特許文献2)のROCによる性能比較図である。 工場雑音下(SNR=0dB)における本発明のVAD方法と従来法(非特許文献3)のROCによる性能比較図である。 工場雑音下(SNR=0dB)における本発明のVAD方法と従来法(非特許文献4)のROCによる性能比較図である。 バブル雑音下(SNR=0dB)における本発明のVAD方法と従来法(非特許文献2)のROCによる性能比較図である。 バブル雑音下(SNR=0dB)における本発明のVAD方法と従来法(非特許文献3)のROCによる性能比較図である。 バブル雑音下(SNR=0dB)における本発明のVAD方法と従来法(非特許文献4)のROCによる性能比較図である。 公共ロビー雑音下(SNR=0dB)における本発明のVAD方法と従来法(非特許文献2)のROCによる性能比較図である。 公共ロビー雑音下(SNR=0dB)における本発明のVAD方法と従来法(非特許文献3)のROCによる性能比較図である。 公共ロビー雑音下(SNR=0dB)における本発明のVAD方法と従来法(非特許文献4)のROCによる性能比較図である。 ショッピングセンター雑音下(SNR=0dB)における本発明のVAD方法と従来法(非特許文献2)のROCによる性能比較図である。 ショッピングセンター雑音下(SNR=0dB)における本発明のVAD方法と従来法(非特許文献3)のROCによる性能比較図である。 ショッピングセンター雑音下(SNR=0dB)における本発明のVAD方法と従来法(非特許文献4)のROCによる性能比較図である。 工場雑音下(SNR=0dB)における本発明の実施例1の方法と実施例2の方法のROCによる性能比較図である。 バブル雑音下(SNR=0dB)における本発明の実施例1の方法と実施例2の方法のROCによる性能比較図である。 公共ロビー雑音下(SNR=0dB)における本発明の実施例1の方法と実施例2の方法のROCによる性能比較図である。 ショッピングセンター雑音下(SNR=0dB)における本発明の実施例1の方法と実施例2の方法のROCによる性能比較図である。 本発明の実施例4の逐次主成分分析のフローチャートを表わす図である。
VADは従来、仮説検証によって説明されてきた。H0は非音声、H1は音声を示す。
Figure 2015022112
ここで、x,s,nは、それぞれ、観測音響信号、音声、非音声環境雑音を表す。一般的な統計モデルに基づいたVAD法では、音声/非音声を判別するためにp(x|H1)|/|p(x|H0)の尤度比検定を行う。しかし、ガウスモデルは非ガウス性のデータ、特に音声信号を表現するには信頼性が低いとされており、誤ったVAD結果をもたらす。このような問題を軽減するために、本発明では逐次主成分分析を用いた新しい手法を考案した。
本手法では、逐次主成分分析により、主成分として固有ベクトルおよび固有値の組を求め、低い次元数の表現として式(1)の音響信号H0をモデル化する。逐次学習法を用いることにより、細かい更新時間間隔(<1sec)を用いて、適応的にモデル化する。このような細かい時間間隔では環境雑音nはガウス性をもち定常的であると考えられる一方、音声信号sは常に広範な非定常変動を示す。
非音声環境雑音(H0)は、定常的で支配的なパターンであるので、主成分分析により非常にうまくモデル化できる。一方で、ばらつきが大きく非定常な性質をもつ音声(H1)はモデル化したH0とは異なる性質を示すため、H0と比較することでうまく識別できる。
VAD手法の全体のフローチャートを図1に示す。
まず、ステップS0では、逐次学習(S3)および判定(S5)のための初期設定を行う。
固有値、固有ベクトル、更新間隔、閾値の初期値を適宜設定する。
続くステップS1では、マイクロフォン等から判定対象の音響信号を取得する。アナログデジタル変換を行い、デジタルデータとしてプロセッサ(演算処理装置または演算処理部)、例えばパーソナルコンピュータにとりこまれた時系列信号のうち、後述するステップS2で行う短時間フーリエ変換における窓の長さ分のデータを切り出す。
ステップS2では、ステップS1で切り出した音響信号に対して音響特徴を抽出する。
ステップS3では、この抽出した音響特徴を用いて逐次主成分分析を行い、音響信号のモデルを更新する。
続くステップS4では、更新したモデルと、ステップS2で求めた音響特徴を比較し、その偏差を算出する。
ステップS5では、この求めた偏差に対して閾値を超えたか否かで、音声区間であるか否かを判定するとともに、閾値を適応的に微修正する。
ここで、ステップS1に戻り、ステップS1〜S5までを繰り返し、音声区間判定を連続的に行う。以下ではこの基本的フローチャートを具体化する実施例を詳細に記載する。
実施例1における、ステップS2の音響特徴抽出のフローを図2に示す。ステップS21において、ステップS1で切り出した音響信号を短時間フーリエ変換(STFT)によりスペクトログラムに変換する。この変換には公知の一般的方法を用いることができる。ここで、スペクトログラムの時間方向と周波数方向をそれぞれtとvで示す。f(r)はスペクトログラムのr(t,v)地点におけるパワーを示す。
ステップS22において、時間軸方向で隣り合う三つのフレーム(時刻t-2のスペクトログラム、時刻t-1のスペクトログラム, 時刻tのスペクトログラム)から、HLACマスクパターンを用いて調和特徴を抽出する。ステップS23では、ステップS22で抽出した調和特徴に対して、メルフィルタバンクを用いて特徴量の次元数を削減し、時刻tにおける最終的な音響特徴とする。
ステップS22での調和特徴の計算方法については、
Figure 2015022112
ここで、a1とa2は、変位ベクトルf(r+a1)とf(r+a2)は基準点f(r)の隣接領域を示す。ここでは時間周波数平面(t,v)上にあるrの3×3の局所的な隣接領域に限定する。これは、この局所的な隣接領域において、パワーfの相関性が高いと想定されるためである。具体的には図3に示すように、r地点においては9種類のマスクパターンを用いて、9種類の特徴量を算出する。ここでスペクトログラムのv方向の次元数が512であったとすると、ステップS22で抽出される特徴量の数は、512×9=4608となる。特徴量の数が増えれば増えるほど、後段の識別処理にかかる計算量が多くなるため、続くステップS23で特徴量の削減を行う。
ステップS23では、各マスクパターンで算出された特徴量に対して、メルフィルタバンクを適用する。メルフィルタバンクの計算方法は公知の方法を用いればよい。この結果、各マスクパターンに対して、15次元程度の特徴量にまで削減可能である。マスクパターンは9種類であるので、それらをすべて連結させると、時刻tのフレームにおいて15×9=135次元の特徴量となる。
従来手法であるMFCCにみられるように、音響特徴の多くは各時刻ごとのフレームで独立に抽出されるのが一般的であった。その結果、時間―周波数領域の動的な特徴は見えなくなる。それに対して本発明では、高次局所自己相関特徴(HLAC)を適用することにより、時間及び周波数領域にわたる隣接範囲で音声信号の豊富な共起性特徴を導き出すことができる。たとえば、図4に示すように音声調和が見られる時に、はっきりとした(大きな)特徴値が算出される。
ステップS3では、逐次主成分分析により、環境雑音のモデル化を行う。環境雑音には、さまざまな音響信号が入っており、それが時間によって変動するという構造を持つ。そのため、以下に記述するような教師なしの逐次学習法により、このモデル化を行う。
ステップS2で抽出される特徴ベクトルをM次元ベクトルとする(上記例ではM=135)。この特徴ベクトルをxi(i=1,…,J,…,N)∈RMで表す。まず予備準備としてステップS0において、固有ベクトルと固有値の初期値を事前に生成しておく。この際に、先頭からJ番目までのフレームを初期値計算用に選ぶ。固有値Λ=diag(λ1,…,λM)と固有ベクトル、
U=[u1,…uM],u∈RMは次式で計算できる。
Figure 2015022112
ここで、xi T,i∈(1,…,J)はxiの転置行列である。Uに関する累積寄与率ηKは以下で定義する。
Figure 2015022112
固有ベクトルを固有値によって降順にソートした後、主要な音響パターンを表すために、第K主成分までに対応する固有ベクトルUK=[u1,…,uK](累積寄与率ηK>0.99)を保持する。これを、ステップS0での固有値と固有ベクトルの初期値とする。なおここでは主成分を決定する累積寄与率を0.99としたが、この値は環境に応じて任意の値とすることができる。またこの例では、先頭からJ番目までのフレームを用いて初期値を計算したが、別途あらかじめ求めて記憶しておいた固有値と固有ベクトルの組を初期値としてもよい。
ステップS3においては、ステップS2で求めた新しい特徴ベクトルに基づいて再帰的に固有値と固有ベクトルを一定間隔で更新する。まずステップS31において、ステップS0において事前に定める一定の更新間隔T0に達したか否かを判断する。達しない場合は、ステップS32において、新しく入力された特徴ベクトルをメモリに記憶し、ステップS1に戻る。更新間隔に達した場合は、ステップS33において、以下のように固有ベクトルを更新する。
Figure 2015022112
u(t)と、
Figure 2015022112
はそれぞれ、時刻tにおける固有ベクトルとt+Δtにおいて更新された固有ベクトルを示す。Xt,Δt=[xt+1,…,xt+Δ]は、時刻t+1からt+Δtの間にステップS32においてメモリに記憶された新しく入力された特徴ベクトルを示す。ここでlは正の整数パラメータで、通常2に設定する。続くステップS34では、更新された固有ベクトルに対応する固有値を以下のように更新する。
Figure 2015022112
上記(5)式と(7)式は、固有値と固有ベクトルを近似的に更新する式であり、一般的な積和演算で計算することができる。そのため、N個の特徴ベクトルを用いて固有値問題を最初から精確に解きなおす場合と比較して、大幅に計算量を軽減することができる。また計算に必要な特徴ベクトルは、新しく入力された特徴ベクトルのみであり、過去の特徴ベクトルを保持する必要もないため、計算に必要なメモリ量も少なくてすむ。
次に、ステップS4においては、ステップS3で更新したK個の固有ベクトルを用いて、新たに入力された特徴ベクトルが、環境雑音のモデルからどれくらい偏差があるかを計算する。具体的には、K個の固有ベクトルが張る部分空間Vを考え、これを環境雑音のモデルとする。特徴ベクトルをその部分空間に射影したときの垂線の長さがモデルとの偏差となり、部分空間Vへの射影演算子Pは、次の式で求められる。
Figure 2015022112
ここで、
Figure 2015022112
は、時刻t+Δtにおいて更新された第K主成分までに対応する固有ベクトルを示す。これを用いて時刻t+1からt+Δtにおいて、新たに入力された特徴ベクトルと部分空間の偏差は次式で表される。
Figure 2015022112
ここで、求めたdΔtは、Δt個の新たに入力された特徴ベクトルそれぞれに対する偏差を成分としてもつベクトルであり、この各成分di,i∈(1,…,Δt)が0に近い場合は、対応する新しく入力された特徴ベクトルxt+iが、環境雑音のモデルである部分空間Vに含まれることを意味するので、対応する音響信号を環境雑音とみなしてよい。一方、diが大きい場合は、入力された特徴ベクトルが環境雑音とは異なる非定常な性質を持っていることになり、入力信号に音声が含まれているとみなす。
続くステップS5では、ステップS4で求めた偏差diに基づき、音声区間である否かの判定処理を行う。diが閾値Thresholdを超えた場合は、時刻t+i-1からt+iの区間には、音声が含まれていたと判定する。また人の会話区間は統計的に、声にならない会話が300ms先行し、声のある会話のあとに、声にならない会話が500ms続く。そこで音声区間と判定された前方の一定時間(たとえば150ms)と後方の一定時間(たとえば300ms)は、閾値処理で音声区間と判定されなかった場合でも、音声区間であると判定してもよい。
また、より雑音に頑健な判定を出すために、閾値を適応的に更新してもよい。もっとも新しく判定した区間から数えてk番目までの音声区間に対する偏差diの系列と、k番目までの非音声区間に対する偏差diの系列を、それぞれS(k)とN(k)で表した場合、閾値Thresholdを以下の式で更新する。
Figure 2015022112
ここで、αは重み係数であり、0から1の間の値、たとえば0.5に設定する。また、kは以下で示す実験結果では50に設定した。
また、Thresholdの初期値は、ステップS0において算出する。ステップS0において、固有ベクトルの初期値計算用に選んだ先頭からJ番目までのフレームにおいて、音声区間が含まれていないものとし、そのJ番目までのフレームにおいて算出される偏差diの最大値を、Thresholdの初期値とする。なお、この初期値計算用の区間は、1秒間程度でも十分である。
ステップS5で判定処理を行ったのち、ステップS1に戻り、ステップS1〜S5を繰り返し、部分空間を更新しながら、判定処理を一定間隔で行っていく。なお、この更新間隔については、おおむね数百ミリ秒程度〜1秒以下がのぞましい。更新間隔が短すぎると、環境雑音が正しくモデル化できない。逆に長すぎると、環境雑音の時間変動成分がみえるようになり、音声との区別がつきにくくなる。以下で示す実験結果では、更新間隔を500ミリ秒に設定した。
考案した手法の有効性を示すために、低信号対雑音比の様々な音響環境のもとでVAD実験を行った。最初に、TIMITデータセットからランダムにいくつかのクリップを選び、無音声インターバルを加えて、音声率58.9%のテストコーパスを218組作成した。それぞれのコーパスに、10ms毎に人手でラベル(音声区間/非音声区間)を付与した。なお100msより短い単語間のポーズ領域は音声区間としてラベルづけした。環境雑音として、4種類の雑音(工場、バブル、公共ロビー、ショッピングセンター)を用意した。工場雑音とバブル雑音はNOISEX-92データベースから抽出した。さらに、実環境の音響で考案手法を評価するために、BBC Sound Effectデータベースから公共のロビーとショッピングセンターでの測定音を抽出した。信号雑音比が0dBとなるようにこれらの雑音をテストコーパスに付加する。
ステップS2における短時間フーリエ変換の窓の長さは10msに設定した。そのため、一回の更新時に扱う新しい特徴ベクトルの数Δtは50となる。またメルフィルタバンクを作成するために15フィルタを用いた。したがって特徴量の次元数は135(9つの特徴パターン×15メルフィルタ)になる。提案するVAD手法の評価を行うために、真陽性(true positive rate:TPR)と偽陽性(false positive rate:FPR)を採用して、各々x軸y軸とすることでROC(receiver operating characteristic)カーブを生成する。TPRは正しく検出された音声フレームの確率を示し、FPRは音声と誤って認定された非音声フレームの確率を示す。4種類の雑音(工場、バブル、公共ロビー、ショッピングセンター)について、本願と他のVAD法(非特許文献2(Ghosh),3(Sohn)、4(Ramirez))と大規模な比較を行った。ROCカーブを得るために、考案した手法及び非特許文献2の手法では、適応的閾値更新を動作させないようにした。グラフに表したROCカーブでは、カーブが左上の方向に張り付けば張り付くほどよい性能といえる。
図6から図17に示した比較結果に基づいて本発明と従来のVAD法と比較すると、本発明のVAD法は高い判定精度を実現し、4つの音響環境下いずれにおいても0dBという大きな雑音強度に対して従来法と比較してより頑健な判別結果を示した。
本発明において、計算量をさらに削減するためには、抽出する特徴量の次元数をより少なくすればよい。認識精度は実施例1と比較してさがるものの、より安価なプロセッサ(演算処理装置または演算処理部)を用いてVAD処理を実行できる。具体的には、実施例1の変形例として、ステップS2で特徴量として調和特徴を用いない場合を示す。
図2において、ステップS21で短時間FFTをしたのちに、ステップS22の調和特徴計算処理を行わずに、ステップS23の特徴量の次元削減処理を直接行う。メルフィルタバンクを作成するために15フィルタを用いる場合では、抽出される特徴量の次元数も15となる。実施例1と比較すると特徴量の数は15/135=1/9に削減され、またステップS22で必要であった演算もなくなる。さらにステップS3以降での処理において、この特徴量の次元削減により、必要な演算量を削減することができる。
図18〜図21に、実施例1と同じ比較条件において、実施例1(Proposed method)の方法と実施例2(Spectogram-PCA)の方法の性能を比較する。いずれの雑音環境においても、実施例1の方法が性能がよいことがわかり、性能と計算量の間にトレードオフが存在する。しかしながら、実施例2の方法と従来手法の性能を比較すると(例えば図8のSohn法と図18の本願実施例2)、実施例2の方法がおおむね良好な性能を残しており、本実施例の有効性を示せた。
また、実施例1の偏差量抽出ステップS4において、式(10)以外にも、下記のような偏差量dvを指標としてもちいることができる。
Figure 2015022112
これは、ステップS3で更新した固有ベクトルに対応する固有値の和を示す。更新に用いた特徴ベクトルの分布のばらつきが小さければ小さいほど、式(12)の値は小さくなる。これは更新区間の環境雑音がほぼ定常で、音声が含まれていなかったとみなすことができる。逆に、この値が大きかった場合は、更新区間に音声が含まれていたとみなせる。なお、式(12)のかわりに、下記の偏差量dvを用いてもよい。
Figure 2015022112
さらに、式(10)と式(12)(または式13)の組み合わせとして、式(14)を用いてもよい。
Figure 2015022112
実施例1においては、ステップS3逐次主成分分析において、逐次主成分分析を数式5によって行い、固有ベクトルを更新した。しかし環境雑音の時間変動が大きい場合は、数式5のように再帰的な更新式で過去の特徴ベクトルの記憶をもつよりも、直近の特徴ベクトルのみを用いて、固有ベクトルを直接更新したほうが、環境雑音をより正確にモデル化できる場合もある。その場合の新しいS3のフローチャートを、図22に示す。
ステップS35では、新しく入力された特徴ベクトルをメモリに記憶し、続くステップS36ではメモリに記憶された特徴ベクトルのうち、最も古いものを消去する。これによって、メモリに記憶する特徴ベクトルの数を常に一定数すなわち最新のN個とする。このN個の特徴ベクトルに対応する音響信号の時間間隔を数百ミリ秒〜1秒程度とすることで、環境雑音の時間変動が大きい場合でも正確にモデル化できる。具体的には、このN個の特徴ベクトルを用いて、ステップS37、S38で固有値問題を解く。固有値問題の解法は、公知の高速な方法を用いればよい。たとえば、ステップS2の短時間フーリエ変換の窓の長さを10ms、Nを30とした場合は、対応する音響信号の時間間隔は300ミリ秒となり、上記の条件を満たす。また固有値問題が解くべきベクトル数は30と小さい問題であるため、計算時間も増大しない。
なお、使用するプロセッサ(演算処理装置または演算処理部)の演算速度によっては、実時間処理が間に合わない場合も考えられるが、その場合は、実施例2の方法を併用し特徴量の次元数を削減し、計算時間を削減すればよい。
上述した実施例1〜実施例4の方法においては、ステップS2において、ステップS1できりだした音響信号をそのまま用いた。しかし雑音を除去するために、前処理としてなんらかのフィルタ処理を用いてもよい。たとえば、ステップS21で短時間FFT処理をしたのちに、音声帯域(たとえば0.3kHz〜3.4kHz)の周波数帯域を強調するような重みづけ処理を以下のように行う。
Figure 2015022112
ここで、w(v)は周波数ごとに定めた重みづけ係数であり、たとえばなんらかの音声データベースにおける周波数ごとの音声の出現頻度(確率密度分布)から定めてもよい。このような強調処理により、音声以外のノイズの影響をうけにくくする効果が得られる。

Claims (9)

  1. 音声区間を検出するVAD方法であって、
    環境雑音モデルを構成する固有ベクトル、環境雑音モデルの更新間隔、偏差量に係る閾値は適宜初期化されていて、
    アナログデジタル変換された環境雑音と音声からなる所定長の音響信号から所定の窓の長さ分の音響信号を取り出すステップ(S1)と、
    該取り出した音響信号から音響特徴を抽出するステップ(S2)と、
    前記抽出した音響特徴から逐次主成分分析を行い音響特徴の固有ベクトルからなる環境雑音モデルを更新するステップ(S3)と、
    該更新した環境雑音モデルと、該音響信号の音響特徴ベクトルを比較してその偏差量を算出するステップ(S4)と、
    該偏差量と前記初期化された閾値とを比較して音声区間を判別するステップ(S5)との繰り返しからなり、
    該音響特徴を抽出するステップ(S2)は、
    少なくとも該音響信号と短時間フーリエ変換によりスペクトログラムの音響特徴ベクトルに変換するステップ(S21)と、
    該スペクトログラムの音響特徴ベクトルの次元削減処理を行うステップ(S23)とからなり、
    逐次主成分分析を行うステップ(S3)は、
    該変換された音響特徴ベクトルにのうち所定の個数の最新の音響特徴ベクトルに基づいて再帰的にまたは非再帰的に固有ベクトルを一定間隔で更新するステップ、
    からなることを特徴とする音声区間を検出するVAD方法。
  2. 上記短時間フーリエ変換によりスペクトログラムの音響特徴量に変換するステップ(S21)に続いて、
    さらに高所局所自己相関(HLAC)マスクパターンを用いて調和特徴量を抽出するステップ(S22)を行ってから、
    該調和特徴量の次元削減処理を行うステップ(S23)を行う、
    ことを特徴とする請求項1に記載する音声区間を検出するVAD方法。
  3. 前記高次局所自己相関(HLAC)特徴マスクパターンは、次の表1に定める次数3×3マスクにおいて、9種類の共起性パターンからなることを特徴とする請求項2に記載の音声区間を検出するVAD方法。
    ただし、表1の各マスクの水平方向と垂直方向は、前記スペクトログラムを表にした場合の時間軸横方向と周波数軸縦方向と同一とする。
    Figure 2015022112
  4. 最初の所定時間間隔の非音声区間における最大偏差を初期閾値として音声区間を検出することを特徴とする請求項1乃至請求項3のいずれか1項に記載の音声区間を検出するVAD方法。
  5. 前記初期化された閾値は、さらに前記音声区間を判別された前記偏差量により適応的に更新されて、次の繰り返しでは前記初期化された閾値に代わって、該適応的に更新された閾値と前記算出された偏差量とを比較して音声区間を判別し、該閾値は、さらに次の繰り返しのために該音声区間を判別された該偏差量により適応的に更新されるステップ(S5)を特徴とする請求項1乃至4のいずれか1項に記載の音声区間を検出するVAD方法。
  6. 前記偏差量の算出は、次の数式(16)により行うことを特徴とする請求項1乃至5のいずれか1項に記載の音声区間を検出するVAD方法。
    ただし、λiは固有ベクトルのi番目の固有値。
    Figure 2015022112
  7. 前記偏差量の算出は、次の数式(17)により行うことを特徴とする請求項1乃至5のいずれか1項に記載の音声区間を検出するVAD方法。
    ただし、λiは固有ベクトルのi番目の固有値。
    Figure 2015022112
  8. VAD方法を実行するVAD装置であって、
    少なくともマイクロフォンと、音響信号演算処理部と、音声区間出力部を有し、
    環境雑音に重畳した音声信号がマイクロフォンに入力されると、
    音響信号演算処理部において請求項1乃至7のいずれか1項に記載する方法を実行して音声区間出力部へ当該検出された音声区間を出力することを特徴とするVAD装置。
  9. VAD方法を実行するプログラムであって、
    請求項1乃至7のいずれか1項に記載する方法を実行することを特徴とするプログラム。
JP2013149525A 2013-07-18 2013-07-18 音声区間検出装置および方法 Pending JP2015022112A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013149525A JP2015022112A (ja) 2013-07-18 2013-07-18 音声区間検出装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013149525A JP2015022112A (ja) 2013-07-18 2013-07-18 音声区間検出装置および方法

Publications (1)

Publication Number Publication Date
JP2015022112A true JP2015022112A (ja) 2015-02-02

Family

ID=52486625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013149525A Pending JP2015022112A (ja) 2013-07-18 2013-07-18 音声区間検出装置および方法

Country Status (1)

Country Link
JP (1) JP2015022112A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157959A (zh) * 2015-03-31 2016-11-23 讯飞智元信息科技有限公司 声纹模型更新方法及系统
JP2017041063A (ja) * 2015-08-19 2017-02-23 株式会社神戸製鋼所 データ解析方法
CN109346074A (zh) * 2018-10-15 2019-02-15 百度在线网络技术(北京)有限公司 一种语音处理方法及系统
CN109801646A (zh) * 2019-01-31 2019-05-24 北京嘉楠捷思信息技术有限公司 一种基于融合特征的语音端点检测方法和装置
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
CN110600010A (zh) * 2019-09-20 2019-12-20 上海优扬新媒信息技术有限公司 一种语料提取方法及装置
CN111366360A (zh) * 2020-01-07 2020-07-03 中国人民解放军国防科技大学 利用转速信号对行星齿轮箱进行早期故障检测的方法
CN111816217A (zh) * 2020-07-02 2020-10-23 南京奥拓电子科技有限公司 一种自适应端点检测的语音识别方法与系统、智能设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157959A (zh) * 2015-03-31 2016-11-23 讯飞智元信息科技有限公司 声纹模型更新方法及系统
CN106157959B (zh) * 2015-03-31 2019-10-18 讯飞智元信息科技有限公司 声纹模型更新方法及系统
JP2017041063A (ja) * 2015-08-19 2017-02-23 株式会社神戸製鋼所 データ解析方法
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
CN109346074A (zh) * 2018-10-15 2019-02-15 百度在线网络技术(北京)有限公司 一种语音处理方法及系统
CN109801646A (zh) * 2019-01-31 2019-05-24 北京嘉楠捷思信息技术有限公司 一种基于融合特征的语音端点检测方法和装置
CN109801646B (zh) * 2019-01-31 2021-11-16 嘉楠明芯(北京)科技有限公司 一种基于融合特征的语音端点检测方法和装置
CN110600010A (zh) * 2019-09-20 2019-12-20 上海优扬新媒信息技术有限公司 一种语料提取方法及装置
CN110600010B (zh) * 2019-09-20 2022-05-17 度小满科技(北京)有限公司 一种语料提取方法及装置
CN111366360A (zh) * 2020-01-07 2020-07-03 中国人民解放军国防科技大学 利用转速信号对行星齿轮箱进行早期故障检测的方法
CN111816217A (zh) * 2020-07-02 2020-10-23 南京奥拓电子科技有限公司 一种自适应端点检测的语音识别方法与系统、智能设备
CN111816217B (zh) * 2020-07-02 2024-02-09 南京奥拓电子科技有限公司 一种自适应端点检测的语音识别方法与系统、智能设备

Similar Documents

Publication Publication Date Title
CN106486131B (zh) 一种语音去噪的方法及装置
JP2015022112A (ja) 音声区間検出装置および方法
Wu et al. Robust endpoint detection algorithm based on the adaptive band-partitioning spectral entropy in adverse environments
Tan et al. Low-complexity variable frame rate analysis for speech recognition and voice activity detection
WO2014153800A1 (zh) 语音识别系统
Georgogiannis et al. Speech emotion recognition using non-linear teager energy based features in noisy environments
Venturini et al. On speech features fusion, α-integration Gaussian modeling and multi-style training for noise robust speaker classification
Lei et al. Speaker Recognition Using Wavelet Packet Entropy, I‐Vector, and Cosine Distance Scoring
Poorjam et al. A parametric approach for classification of distortions in pathological voices
Meduri et al. A survey and evaluation of voice activity detection algorithms
Huang et al. DNN-based speech enhancement using MBE model
Sadjadi et al. Robust front-end processing for speaker identification over extremely degraded communication channels
Gao et al. A unified speaker-dependent speech separation and enhancement system based on deep neural networks
Singh et al. Novel feature extraction algorithm using DWT and temporal statistical techniques for word dependent speaker’s recognition
Varela et al. Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector
Dov et al. Voice activity detection in presence of transients using the scattering transform
Shokri et al. A robust keyword spotting system for Persian conversational telephone speech using feature and score normalization and ARMA filter
Jadhav et al. Review of various approaches towards speech recognition
JP2015049406A (ja) 音響信号解析装置、方法、及びプログラム
Arslan et al. Noise robust voice activity detection based on multi-layer feed-forward neural network
Shi et al. Auditory mask estimation by RPCA for monaural speech enhancement
Li et al. Enhanced speech based jointly statistical probability distribution function for voice activity detection
Sriskandaraja et al. A model based voice activity detector for noisy environments.
Li et al. Robust speech endpoint detection based on improved adaptive band-partitioning spectral entropy
Patra et al. Dimension reduction of feature vectors using WPCA for robust speaker identification system