JPH034918B2 - - Google Patents

Info

Publication number
JPH034918B2
JPH034918B2 JP57095434A JP9543482A JPH034918B2 JP H034918 B2 JPH034918 B2 JP H034918B2 JP 57095434 A JP57095434 A JP 57095434A JP 9543482 A JP9543482 A JP 9543482A JP H034918 B2 JPH034918 B2 JP H034918B2
Authority
JP
Japan
Prior art keywords
energy
signal
section
environmental noise
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP57095434A
Other languages
English (en)
Other versions
JPS58211793A (ja
Inventor
Hideji Morii
Katsuyuki Futayada
Satoshi Fujii
Ikuo Inoe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP57095434A priority Critical patent/JPS58211793A/ja
Publication of JPS58211793A publication Critical patent/JPS58211793A/ja
Publication of JPH034918B2 publication Critical patent/JPH034918B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

【発明の詳細な説明】 本発明は、人間によつて発声された音声を含む
音響信号から、音声区間・非音声区間を自動的に
検出する音声区間検出装置に関するものである。
音声区間検出は音声認識システム,音声合成の
ための分析システムあるいは音声の情報圧縮等に
おいて不可欠なものである。
音声自動認識システムのブロツク図を第1図に
示す。1は音響処理部、2は音声区間検出部、3
は認識部である。音声認識システムでは音声区間
検出部3は第1図に示すように認識部3の前段に
位置し、後段の認識部3の性能が非常に良いもの
であつても正しく音声区間を検出することが出来
なければ正しく認識結果を得ることが困難となる
ため、この音声区間検出部の性能の良否はシステ
ム全体に大きく影響する重要なものとなる。
音声区間検出方法の従来例としては、音声信号
と非音声信号(すなわち環境雑音)の信号エネル
ギーの差に注目し信号エネルギーの値に適当な閾
値を設定し音声区間を検出するものが多い。ま
た、音声信号のなかでも無声子音のように信号エ
ネルギーが小さく環境雑音の差のあまりないもの
の検出精度を上げるため、信号のある適当な時間
長毎の零交差数の閾値処理を併用する方法もあ
る。この例は「音声認識」新美康永著に述べてあ
る。
従来例に見られるような閾値処理による方法で
は、設定する閾値が環境によつて左右されてしま
う。この閾値設定は実験的に定められる場合が多
いが、音声区間を検出する場合の閾値というもの
は、使用する環境の環境雑音信号と音声信号との
間を分離するための閾値であるため、使用する環
境が変化した場合は閾値を設定しなおさなければ
ならず、使用環境の変化に対する適応性に欠ける
という欠点がある。また、使用する環境の環境雑
音エネルギーが大きく、しかもその雑音が白色雑
音のような場合は、環境雑音と音声の無声音との
間のエネルギー及び零交差数の差がほとんどなく
なるため、従来例では音声区間を正しく検出する
ことが出来なくなる。このように従来例による音
声区間検出では、使用する環境に制限があるとい
うことと、環境の変化に対し適応しないという欠
点がある。
本発明は従来例に見られた欠点を改善した音声
区間検出装置を提供することを目的とするもの
で、環境学習と、エネルギーレベルの正規化と、
エネルギーレベルでの判定と、環境雑音のスペク
トル形状との類似度による判定とを有する音声区
間検出装置である。
環境学習により、環境雑音の平均エネルギーレ
ベルと、スペクトルの平均的な特徴を表わす
LPCケプストラム係数の平均値ベクトルを求め
ておく。また、このとき環境雑音のスペクトルの
変動をLPCケプストラム係数の平均値ベクトル
と環境騒音のLPCケプストラム係数のユークリ
ツド距離の平均値と分散により抽出し、類似度の
閾値を設定する。
次いで、実際に入力された環境を含む音声信号
を学習で求められた環境雑音平均エネルギーによ
つて、エネルギーレベルの閾値を設定した標準環
境の信号レベルに正規化する。また、入力信号の
LPCケプストラム係数と、環境雑音のLPCケプ
ストラム係数とのユークリツド距離も求めてお
く。
本発明はこのようにして求められた、正規化さ
れたエネルギーと、環境雑音のスペクトル形状と
の類似度を表すLPCケプストラム係数のユーク
リツド距離とをパラメータとして用い、エネルギ
ーの閾値との比較を行い、エネルギーでは見逃す
可能性が大きいと判定されるエネルギーレベル小
さい区間に対して、環境雑音とのスペクトルの類
似度の閾値との比較により音声区間検出を行うも
のである。
本装置により従来例に比較し、使用する環境の
変化に対し著しい改善を得ることが出来る。以下
本発明による音声区間検出装置の詳細な説明を行
う。
第2図は本装置による音声区間検出部の大まか
な機能ブロツク図である。第2図に示すように本
装置による音声区間検出は、使用する特徴パラメ
ータを算出するための音響分析部4と、使用する
環境の特性を学習する環境学習部5と実際に音声
区間を検出する音声区間検出部6より構成され
る。
本発明の音声区間検出装置においては、まず予
め標準環境の学習を行う。
この過程は従来例の閾値設定のための作業とほ
ぼ同様であり、標準環境の平均エネルギーES、及
び音声、非音声を分離する2つの信号エネルギー
の閾値TE1,TE2という定数を設定するものであ
る。この過程により求められた定数は、音声区間
検出部6に蓄えられる。従来例では使用する環境
が大きく変るたびにこの過程を行なわなければな
らないが、本方式は一度TE1,TE2,ESという定
数が求まれば行う必要はない。
環境雑音エネルギーが小さく信号雑音化の良好
な標準環境を設定し、その環境雑音信号を、ある
適当な時間長(フレーム長という)毎にエネルギ
ーE及び対数エネルギーELを(1)式及び(2)式によ
り求める。
E=Ij=1 {S2(i)} ……(1) 〔ただしS(i):入力データサンプル I:1フレーム長の入力データサ
ンプル数〕 EL=10×log10E ……(2) ある一定時間内に求められるEの平均値より、
標準環境平均エネルギーESを求める。また、EL
の平均値と分散よりELがこの値以下ならば非音
声フレームであるというエネルギー閾値TE1を設
定する。さらに、標準環境下において多数話者が
発声した音声信号のうちの無声子音の対数エネル
ギーELの平均値及び分散よりELがこの値以上な
らば音声フレームであるというエネルギー閾値
TE2を設定する。
次に音響分析部について述べる。
マイク等より入力され、第1図に示す音響処理
部1でA/D変換を施された音響信号は、第2図
の音響分析部4に送られる。音響分析部4では入
力される音響信号をある適当なフレーム長毎に分
析し、後段の環境学習部5及び音声検出部6で共
通に用いられるパラメータを算出する。算出する
パラメータは(1)式で表わされる信号エネルギーE
と信号のスペクトル上の特徴を表わすパラメータ
であるLPCケプストラム係数ベクトルCである。
LPCケプストラム係数Cの算出法の説明は省略
するが、詳しくはJ.D.Marker and A.H.Gray,
Jr.:Linear Prediction of Speech,Springer−
Ver Lag(1976)に述べてある。
音響分析部4で算出されたパラメータは、本発
明による音声区間検出装置が動作を開始した一番
最初あるいは使用される環境が大きく変化し、音
声区間検出の検出誤りが多くなつた場合、環境学
習部5に送られる。このときの入力音響信号には
音声信号が含まれず環境雑音信号のみである。
環境学習部5では音響分析部4より送られてく
るフレーム毎のパラメータを使つて、使用環境の
信号エネルギーを標準環境の信号エネルギーレベ
ルに正規化するための正規化係数NSと、使用環
境雑音の平均的なスペクトル特性を表わすLPC
ケプストラム係数の平均値ベクトルCS及び距離閾
値TDを算出する。距離閾値TDというのは、入力
信号のスペクトルの特徴を表すLPCケプストラ
ム係数ベクトルCと環境雑音の平均的なスペクト
ルの特徴を表す平均値ベクトルCSとの類似度をユ
ークリツド距離により比較し、そのフレームが音
声フレームであるか非音声フレームであるかを判
定するためのユークリツド距離に対する閾値であ
る。
正規化係数NSは次のようにして算出される。
フレーム毎に送られてくる環境雑音エネルギーの
平均値ENを求めさらに標準環境の学習により予
め音声区間検出部6に蓄えられている標準環境平
均エネルギーESにより(3)式により算出する。
NS=ES−EN ……(3) また、LPCケプストラム係数の平均値ベクト
ルCSはフレーム毎に送られてくるLPCケプスト
ラム係数ベクトルCの各要素毎の平均値を算出す
ることにより求められる。さらにこのCSと、CS
算出するために用いたLPCケプストラム係数ベ
クトルCとのユークリツド距離Dをフレーム毎に
求めDの平均値および分散よりユークリツド距離
の値がこの値以下であるならば非音声フレームで
あるという閾値TDを算出する。
音声区間検出部6では音響分析部4より送られ
てくる信号エネルギE、及びLPCケプストラム
係数ベクトルCと、環境学習部5で求められた正
規化係数NS、及びLPCケプストラム係数平均値
ベクトルCSから正規化信号対数エネルギーENL
CS,C間のユークリツド距離Dを求め、音声信号
であるか非音声信号であるかの判定を行う。
正規化信号対数エネルギーENLは(4)式により求
められる。また、ユークリツド距離Dは(5)式によ
り求められる。
ENL=10×log10(E−NS) ……(4) D={(C−CST・(C−CS)}1/2 ……(5) (T:転置行列を表す) 音声信号であるか非音声信号であるかは以下の
ようにして判定される。
ENLTE1 非音声 TE1<ENLT<E2 AND DTD 非音声 TE1<ENL<TE2 AND D>TD 音声 ENLTE2 音声 上記判定は正規化信号対数エネルギーENLが閾
値TE1とTE2との間にある場合は環境雑音との類
似度であるユークリツド距離Dで非音声であるか
音声であるかを判定するものである。この判定法
は、信号のエネルギーのみでは音声信号であるか
非音声であるかあいまいな場合、信号のスペクト
ルと環境雑音の平均的なスペクトルとの類似度を
利用することにより精度の向上を計るという方法
である。また、従来例の零交差数のように信号ス
ペクトルの一部の情報ではなく、LPCケプスト
ラムというスペクトル全体の特徴を用い環境雑音
との類似度を比較しているので環境雑音に対し性
能の低下が少い。
このようにしてフレーム毎に判定された結果は
平滑化処理が施され最終的な音声区間が決定され
る。
第3図は本発明の一実施例における音声区間検
出装置の機能ブロツク図である。マイク等より入
力される音響信号はA/D変換が施され、ある適
当なフレーム長毎に信号エネルギー演算部7、及
びLPCケプストラム係数演算部8に送られる。
信号エネルギー演算部7では信号エネルギーEを
算出し、LPCケプストラム係数演算部8では
LPCケプストラム係数ベクトルCを算出する。
算出されたパラメータの流れは、環境学習を行う
か、音声区間検出を行うかで異り、この制御はコ
ントロール部9により行われる。図で破線は制御
線を示す。
環境学習の場合、信号エネルギーEはマルチプ
レクサ10を通して平均値・分散演算部11に送
られ、平均エネルギーENが算出される。このEN
はさらに正規化係数決定部12に送られ正規化係
数NSが決定される。またLPCケプストラム係数
ベクトルCはマルチプレクサ10を通して平均値
分散演算部11に送られるとともに、FIFOバツ
フア13に蓄えられる。平均値分散演算部11で
は平均値ベクトルCSを算出し、LPCケプストラ
ム係数平均値ベクトルメモリー14に送る。この
LPCケプストラム係数平均値ベクトルメモリー
14にデータが格納されると、FIFOバツフア1
3はマルチプレクサ15を通してユークリツド距
離演算部16にLPCケプストラム係数Cを送り、
ユークリツド距離Dが算出される。算出されたユ
ークリツド距離Dはマルチプレクサ10を通して
平均値分散演算部11に送られ、平均値及び分散
が算出される。この平均値及び分散値は、閾値
TD決定部17に送られ、閾値TDが決定される。
一方音声区間検出を行う場合、信号エネルギー
Eは正規化対数エネルギー演算部8に送られて、
正規化対数エネルギーENLに変換され、三値比較
部19に送られる。また、LPCケプストラム係
数ベクトルCはマルチプレクサ15を通してユー
クリツド距離演算部16に送られてユークリツド
距離Dが算出され、その値は二値比較部20に送
られる。三値比較部19は正規化対数エネルギー
ENLと閾値TE1,TE2との比較を行う。その結果が
ENL≦TE1またはENL≧TE2である場合、三値比較
部19の判定結果がマルチプレクサ21を通して
平滑処理部22へ送られる。また上述以外の場合
は、二値比較部20によるユークリツド距離Dと
閾値TDの比較結果がマルチプレクサ21を通し
て平滑化処理部22に送られる。平滑化処理部2
2はフレーム毎に送られてくる判定結果の平滑化
を行い音声区間を決定し出力する。
第4図は学習によつて信号エネルギーを正規化
する本発明の効果を示したものである。第4図の
Aは標準環境の環境雑音対数エネルギー分布(上
段)と、その環境下で発声された音声の無声子音
の対数エネルギーの分布(下段)を示したもので
ある。今、環境が変化して音声の平均エネルギー
と環境雑音のエネルギーの信号雑音比が約20dB
になつた場合の、従来の信号エネルギー分布を第
4図Bに、本発明の信号エネルギー分布を第4図
Cに示す。第4図のBは環境が変化し音声の平均
エネルギーと環境雑音のエネルギーの信号雑音比
が約20dBとなつた場合の環境雑音対数エネルギ
ー分布(上段)と、その環境下で発声された音声
の無声子音の対数エネルギーの分布(下段)であ
る。さらに第4図のCは第4図Bと同じ環境下の
それぞれの正規化対数エネルギーの分布を示した
ものである。図中、破線は正規分布仮定を施した
ものである。これらの図より従来のように正規化
を行なわない対数エネルギーでは信号雑音化が劣
下すると環境雑音の対数エネルギーは無声子音の
エネルギーに近づくため、標準環境下で設定した
閾値では分離することが困難となり、閾値を設定
しなおさなければならなくなる。また、閾値を設
定しなおしても、両者の分布の重なりが大きいた
め精度が低下する。これに対し、本発明の場合に
は正規化対数エネルギーの分布は標準環境下の対
数エネルギーの分布と同じようになるため、閾値
の変更を行わなくてもよく、また両者の分布の重
なりは第4図Bより少ないため、環境雑音信号と
音声の無音子音との分離を確実に行うことがで
き、従来例でよく用いられている対数エネルギー
よりも良い結果が得られる。
第5図は男性話者が発声した「ふた」(|huta
|)という音声の正規化対数エネルギーAと環境
雑音のLPCケプストラム係数の平均値ベクトル
と入力信号のLPCケプストラム係数とのユーク
リツド距離Bを示したものである。正規化対数エ
ネルギーのみでは/h/の始端、/u/の終端が
はつきりしないが、LPCケプストラム係数のユ
ークリツド距離を用いることにより、これらあい
まいな部分がはつきりし、検出精度を高めること
が出来る。
第6図は本発明による音声区間検出装置と従来
例の信号エネルギーを固定の閾値で判定する音声
区間検出法とを比較したものである。
この図は男性話者1名が発声する200単語の音
声データから求められたもので、発声する環境の
信号雑音比が変化した場合の(6)式で定める識別率
を示したものである。一点鎖線は従来例を示し、
実線は本発明によるものである。
識別率(%)=非音声フレームを非音声と判定したフ
レーム数/非音声フレームの総数×50 +音声フレームを音声と判定したフレーム数/音
声フレームの総数×50 従来例による方法では信号雑音比が30dBより
劣化すると識別率は急激に低下し25dBより劣化
すると全てのフレームを音声フレームと判定して
しまうため識別率は50%となつてしまい音声区間
検出不可能となる。これに対し本装置では信号雑
音比20dB程度までは識別率はほとんど変化せず、
さらに10dB程度まで劣下しても識別率91%とい
う良い値を得ることが出来、従来例の環境変化に
対する適応性という欠点に対し著しい改善を得る
ことが出来る。
以上述べたように、本発明は、あらかじめ、使
用する環境の雑音のエネルギーレベルとスペクト
ルの学習を行うということと環境雑音のスペクト
ル形状と入力信号のスペクトル形状の類似度情報
も利用することを特徴とする音声区間検出装置で
ある。学習を行うことによつて、雑音を含む入力
信号のエネルギーレベルを、一定のレベルに正規
化することが可能となり環境の変化の影響を少な
くすることが出来るという特長と、さらに環境雑
音のスペクトル形状と入力信号のスペクトル形状
の類似度情報も利用するため精度が良い音声区間
の検出ができる。
【図面の簡単な説明】
第1図は音声自動認識システムの概略の構成を
示すブロツク図、第2図は本発明の一実施例にお
ける音声区間検出装置の機能ブロツク図、第3図
は本発明による音声区間検出装置の詳細機能ブロ
ツク図、第4図A〜Cは本発明と従来例の信号エ
ネルギーの分布の比較図、第5図A,Bは本発明
の実際の音声信号における正規化対数エネルギー
とユークリツド距離を示した図、第6図は環境の
信号雑音比の変化に対する本発明と従来例による
変化を示した図である。 1……音響処理部、2……音声区間検出部、3
……認識部、4……音響分析部、5……環境学習
部、6……音声区間検出部、7……信号エネルギ
ー演算部、8……LPCケプストラム係数演算部、
9……コントロール部、10,15,21……マ
ルチプレクサ、11…平均値分散演算部、12…
…正規化係数決定部、13……FIFOバツフア、
14……LPCケプストラム係数平均値ベクトル
メモリー、16……ユークリツド距離演算部、1
7……閾値決定部、18……正規化対数エネルギ
ー演算部、19……三値比較部、20……二値比
較部、22……平滑化処理部。

Claims (1)

    【特許請求の範囲】
  1. 1 環境雑音のエネルギーレベルの平均値と環境
    雑音の平均スペクトルを表すLPCケプストラム
    係数の平均値ベクトルとを抽出する環境雑音の特
    徴を抽出する手段と、前記環境雑音のLPCケプ
    ストラム係数の平均値ベクトルと前記環境雑音の
    LPCケプストラム係数とのユークリツド距離の
    平均値と分散から環境雑音との類似度に対する閾
    値を抽出する手段と、前記環境雑音のエネルギー
    レベルの平均値により正規化された入力信号のエ
    ネルギーとあらかじめ設定されている複数のエネ
    ルギー閾値とを比較し入力信号の短時間ごとの有
    音・無音を判定する手段と、前記環境雑音の
    LPCケプストラム係数の平均値ベクトルと入力
    信号のLPCケプストラム係数とのユークリツド
    距離で雑音との類似度を抽出し前記類似度に対す
    る閾値をもちいて入力信号の有音・無音を判定す
    る第2の判定手段とからなり、入力信号のエネル
    ギーレベルが複数の閾値の中間にあり信号のエネ
    ルギーによる判定では誤る可能性が大きい区間に
    対して前記第2の判定手段による判定で入力信号
    の有音・無音を判定することを特徴とする音声区
    間検出装置。
JP57095434A 1982-06-03 1982-06-03 音声区間検出装置 Granted JPS58211793A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57095434A JPS58211793A (ja) 1982-06-03 1982-06-03 音声区間検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57095434A JPS58211793A (ja) 1982-06-03 1982-06-03 音声区間検出装置

Publications (2)

Publication Number Publication Date
JPS58211793A JPS58211793A (ja) 1983-12-09
JPH034918B2 true JPH034918B2 (ja) 1991-01-24

Family

ID=14137584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57095434A Granted JPS58211793A (ja) 1982-06-03 1982-06-03 音声区間検出装置

Country Status (1)

Country Link
JP (1) JPS58211793A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60114900A (ja) * 1983-11-25 1985-06-21 松下電器産業株式会社 有音・無音判定法
JPS62211698A (ja) * 1986-03-12 1987-09-17 沖電気工業株式会社 音声区間検出方法
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
JP2002351490A (ja) * 2001-05-29 2002-12-06 Telecommunication Advancement Organization Of Japan 字幕へのタイミング情報付与方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56135898A (en) * 1980-03-26 1981-10-23 Sanyo Electric Co Voice recognition device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56135898A (en) * 1980-03-26 1981-10-23 Sanyo Electric Co Voice recognition device

Also Published As

Publication number Publication date
JPS58211793A (ja) 1983-12-09

Similar Documents

Publication Publication Date Title
EP2089877B1 (en) Voice activity detection system and method
US6615170B1 (en) Model-based voice activity detection system and method using a log-likelihood ratio and pitch
EP1083542B1 (en) A method and apparatus for speech detection
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US5950157A (en) Method for establishing handset-dependent normalizing models for speaker recognition
US5596680A (en) Method and apparatus for detecting speech activity using cepstrum vectors
EP2031582B1 (en) Discrimination of speaker gender of a voice input
JP4696418B2 (ja) 情報検出装置及び方法
JP3798530B2 (ja) 音声認識装置及び音声認識方法
JPH0222960B2 (ja)
JP2797861B2 (ja) 音声検出方法および音声検出装置
JPH034918B2 (ja)
JPH0449952B2 (ja)
Hahn et al. An improved speech detection algorithm for isolated Korean utterances
Sudhakar et al. Automatic speech segmentation to improve speech synthesis performance
Kyriakides et al. Isolated word endpoint detection using time-frequency variance kernels
GB2216320A (en) Selective addition of noise to templates employed in automatic speech recognition systems
Martin et al. Voicing parameter and energy based speech/non-speech detection for speech recognition in adverse conditions.
JPH05249987A (ja) 音声検出方法および音声検出装置
JPS6336678B2 (ja)
Cournapeau et al. Voice activity detection based on high order statistics and online EM algorithm
Ahmad et al. An isolated speech endpoint detector using multiple speech features
JPH0316040B2 (ja)
Chen et al. Robust speech recognition by properly utilizing reliable frames and segments in corrupted signals
JPH02192335A (ja) 語頭検出方式