JPS60114900A - 有音・無音判定法 - Google Patents

有音・無音判定法

Info

Publication number
JPS60114900A
JPS60114900A JP58222417A JP22241783A JPS60114900A JP S60114900 A JPS60114900 A JP S60114900A JP 58222417 A JP58222417 A JP 58222417A JP 22241783 A JP22241783 A JP 22241783A JP S60114900 A JPS60114900 A JP S60114900A
Authority
JP
Japan
Prior art keywords
sound
consonants
environmental noise
voice
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58222417A
Other languages
English (en)
Other versions
JPH0449952B2 (ja
Inventor
森井 秀司
二矢田 勝行
藤井 諭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58222417A priority Critical patent/JPS60114900A/ja
Publication of JPS60114900A publication Critical patent/JPS60114900A/ja
Publication of JPH0449952B2 publication Critical patent/JPH0449952B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識装置に用いる有音・無音判定法に関す
るものである。
従来例の構成とその問題点 有音・無音判定法の従来例としては、信号のエネルギー
と零交差回数を用めた方法が知られている。これは、新
美康永:音声認識、共立出版(1979)、あるいは、
L −1(、Rabiner and M、 R。
Sambur : An algorithm for
 determining theenclpoint
 of 1solated utterances 、
 Be1l 5yst、 Tech。
T、、(1975) に示されている。
以下−而を参照しながら従来例の有音・無音判定を含む
音声区間検出方法について説明する。
第1図は従来例の音声区間検出方法の構成を示したもの
である。図において、1は信号エネルギー算出部で10
7nSOC区間(以下フレームと記す)毎の信号エネル
ギーE(n)(nはフレーム番号)を算出する。2は零
交差回数算出部でフレーム毎の零交差回数N z (n
)を算出する。3は音声の始端、終端候補決定部で信号
エネルギーE (n)と2つの閾値E”1.E2を用い
て始端及び終端の候補点を見つける。4は音声区間決定
部で、零交差数N z (n)を用いて音声区間の始端
及び終端を4定する。
以上のように構成された音声区間検出方法について以下
その検出方法を説明する。
零交差回数というのは信号の符号のみを残し、振幅を1
ビツトに触子化した零交差波の一定区間における符号の
変化の回数である。この零交差回数は信号のスペクトル
中の優勢な周波数成分とよく対応する。第2図は防音室
で発声された音声信号の零交差回数の分布を示したもの
で上段体)は無音部分、中段0))は無声子音、下段(
C)は有声音の分布を表わしている。第2図から分るよ
うに高域の周波数成分が優勢な無声子音では零交差回数
は大きな値となり、無音・有声音では小さな値となる。
従来の有音・無音判定法はこれを第1」用し、信号エネ
ルギーの小さな無声子音の検出精度を上げている。
音声の始端・終端候補決定部3は信号のエネルギーレベ
ルにより、確実に音声区間であるという部分を検出する
ものである。信号エネルギー算出部1で計算されたフレ
ーム毎の信号エネルギーE(、)に対し2つの閾値゛E
11.E2(El〉E2)を適用し音声の始端候補n1
.終端候補n2をめる。これは第31図(、)の例に示
すように、エネルギーの値がE2を越え、かつその後E
2以下になることなしにEl を越えるとき、音声区間
に入ったとみなし、E2を越えた点を始端候補n1 と
する。終端候補n2は時間軸を逆にして、同様の方法で
決定する。
1:↑声区間決定部4では、零交差回数算出部2で計算
されたフレーム毎の零交差回数N z (n)と閾値N
を用いて、エネルギーは小さいが零交差回数が大きい無
声子詮か先の音声区間候補(nl、n2)の外側にない
か検査する。
第3図(b)に示すように始端候補n1 より前の数フ
レームの区間で零交差回数が閾値Noより犬となるフレ
ームの数を数え、その数が一定値(たとえば3)以上で
あれば始端候補n1 より前に無声子音区間があるとみ
なし最初にNOを越えたフレームn 11に始端を移す
。終端についても同様である。ただ第3図(b)では終
端n2はもとの1まである場合を示している。このよう
にして最終的な音声区間(n 1’ 、 n 2 )が
決定される。
しかし、上記のように零交差回数を用いた方法では、エ
ネルギーが小さく零交差回数も小さい有声子音(例えば
/b/、/d/、/γ/)などの脱落を減少することは
出来ない。また、零交差回数は環境騒音の形厚を受けや
すいため、適応出来る環境に制限があるなどの欠点を有
していた。例と17で、第4図に、信号雑音比20dB
程1f−て発ハ・さ凡た(、)無g−、(b)無声子音
、(C)有声音の零交差回数の分布を示す。第4図によ
ると、無音部6と無声子音昌I57での分布の差はほと
んどない。したかつて、上記のような騒音環境では従来
法は有効に動作し7ない。
発明の目的 本発明は従来技術のもつ以上のような欠点を解消するも
ので、検出精度が高く、しかも環境騒音による性能劣下
の少ない有音・無音判定法を提供するものである。
発明の構J戊 本発明は上記目的を達成するもので、音声を含む信号の
パワースペクトルから、環境騒音学習により得られた環
境騒音のスペクトル成分を除去したパワースペクトルを
パラメータとして用い、第1の方法として前記パラメー
タの和で表わされる信号のエネルギーレベルと1(、↓
、1値との比較による判定を行い、前記第1の方法によ
る判定が不定のものについて、r君2の方法として前記
)くラメータと無音・無声子す[f・有声子音の3つの
標準・々ターントノスベク!・ルの形状による判定を行
うことニヨり有j(?・無音の判定を行うことを特徴と
する有音・無詮判定法を提供するものである。
実帷例の説明 以下本発明の一実施例について図面を参照しながら説明
する。第5図は本発明の一実施例における音声認識装置
の音声区間検出部のブロック図を示したものである。第
6図においで、8はマイク、9は低域(250〜600
1し)、10は中域(600〜15001−1z) 、
 11は高域(1500〜4000 ))z )の帯域
フィルタである。12は整流平滑部で9゜10.11の
帯域通過フィルタ群の出力を各帯域毎のパワーに変換す
る。13はマルチプレクサで各帯域毎のパワーを環境騒
音学習部14あるいは環境騒音除去部15に時分割で入
力するだめのものである。16は信号エネルギーによる
判定部であり、17のエネルギー閾値メモリの1&1値
との比較で無声であるか有音であるかの判定を行なう。
18は統計的距離尺度による判定部で、19の標準パタ
ーンメモリにある無音・無声子音と無音・有声子音の2
つの線形判別関数の係数を用い、無音・無声子音・有声
子音のいずり、にスペクトルの形状が最も類似している
かの判定を行なう。なおハード溝成上では第5図におけ
る16〜19は汎用のマイクロプロセッサ1つで構成さ
れている。
以上のように構成された音声区間検出部についてその動
作を説明する。
まず、標準環境下(たとえば防音室)で発声された多数
話者の音声から帯域d過フィルタ群9゜10.11によ
り得られるパワースペクトルの無音、無声子音、有声子
音という3つのクラスの分布をめる。そして統計処理に
より無音のパワースペクトルの平均値St と、2つの
エネルギー閾値E1.E2をめ第5図のエネルギー閾値
メモリ17に入れておく。さらに無音と無声子音、無音
と有声子音を分離する2つの線形判別関数の係数である
重み係数Ai、平均値LPi (後に詳しく述べる)を
め第5図の標準パターンメモリ19に入れておく。
次に、使用する環境の騒音を学習する。
環境騒音学習は、音声認識装置の電源が入れられたとき
、あるいは音声認識装置tに環境騒音学習実行というコ
マンドが入力されたとき行なわれる。
この環境騒音・学習は、音声を含まない環境騒音のみの
信号の一定時間(たとえば10秒)における平均的なス
ペクトル形状をめるものである。第5図のマイク8より
入力される騒音のみの信号は、低域9.中域IQ、高域
11の帯域通過フィルタ群と整流平滑部12により低域
、中域、高域のパワースペクトルに変換されマルチプレ
クサ13を通して環境騒音学習部14に入力される。環
境騒音学習部14では低域、中域、高域のパワースペク
トルの各周波数成分毎の平均値Niをめる。
さらに、このNi とエネルギー閾値メモリ17に入れ
である標準環境の無音のパワースペクトルの平均値St
 とを用いて式(1)より帯域フィルタ毎の補−正係数
at(i=1〜3)をめる。このatは使用環境の騒音
のエネルギーレベルを標準環境の無音−のエネルギーレ
ベルに補正する係数であり、環境騒音学習により得られ
た騒音の帯域毎のパワーの平均Ni とあらかじめ得ら
れている標準環境の無音の帯域毎パワーの平均SL と
の差によりめら牙t、環境騒音除去部15に格納してお
く。
a i =Ni −3i ・・・・・・−・・・・・式
0)%式% ai:帯域フィルタiの出力パワーの補正係数Ni:環
境騒音の帯域フィルタiの出力パワーの平均 Si:標準環境の無音の帯域フィルタiの出力パワーの
平均 次に有音・無音判定法について第5図及び第6図のクロ
ーチャートを参照しながら説明する。
マイク8より入力される音声を含む信号は第5図の帯域
通過フィルタ群9,10.11及び整流平滑部12によ
り低域・中域・高域の3つの帯域のパワーPi(i=1
〜3)に変換される。この3つのパワーPi(i=1〜
3)はマルチプレクサ13を1mす、IQmSO[:毎
(フレーム毎)に環境騒音除去#A15に入力される。
環境騒音除去部15では入力されたパワーPi と環境
騒音学習で得られた補正係数aiを用いて、式(2)に
示すように環境騒音を除去した帯域毎の対数パワーLP
i に変換する。
LP i = l1oq1o(P i −a i ) 
・−=−=−・式(2)i=1〜3(帯域パワーの種数
を表わす)また、式(3)に示す3つの帯域パフ−Pi
の和の対数をとった対数全帯域パワーLPW もめる。
LP’W=log10(Z(pt−ai)l・・=−・
式(3)以上の処理は第6図の処理イ〜ハにあたる。
次にエネルギーによる判定部16では、式(3)により
1得られた対数全帯域パワーLPW と、閾値メモリ1
7にある2つのエネルギー1.;ム1flii81.E
2(El〉E2)との比較により無音・有音の判定を行
なう。
この2つの閾値E1.E2は標準環境下で発声された音
声データにより設定されたもので、LPW>Elならば
確実に有声でありLPW<E2ならば確実に無音である
という値に設定されている。したがって、エネルギによ
る判定部16では、式(4)のような判定が行なわれる
これは第6図に示す判定部、及びホである。式(4)に
おりて不定と判定さitだものは、エネルギーレベルで
は判定出来ないため次段の統計的距離による判定部18
で、スペクトル形犬により無音であるか有音であるかが
判定される。統計的距離にょる判定部18では、式(2
)により得られるスペクトルの大まかな形状を示す低域
・中域・高域の3つの帯域の対数パワーLPi(i=1
〜3)をパラメータとし、標準パターンメモリ19にあ
るそつの線形判別関数の係数を用い、判別関数の値を計
算する。この2つの線形判別関数は、標準環境下で発声
された音声データの無音・無声子音・有声子音により設
計されたもので1つは無音/無声子音の線形判別関数で
あり、もう1つは無音/有声子音の線形判別関数である
。線形判別関数FXは式(5)のように表わされ、 (ただしA1は重み係数、LPiは112−均値)重み
係数A1は2つのクラスの最適な判別を行うように設定
され、2つのクラスの繰向分散2級間分散の比であるF
 1sher 比の最大化条件からめられる。標準パタ
ーンメモリ19には式(向における重み係数Ai と平
均値LPi が格納されている。
また、この2つの線形判別関数は、入力が無音のときは
負の値をとり、無声子音あるいは有声子音の場合はIE
の値をとるように設計しである。したがって、この統計
的距離による判別部18では、無音/無声子音と無音/
有声子音の2つの線形判別関数式(5)を計算しく第6
図クローチャートの処理へ及びチにあたる。)第6図の
判定ト及びりに示すようにいずれか1方でも正の値(と
るならば有音と判定しく第6図灰理ヌ)2つとも負の値
ならば無音と判定する(第6図処理層)。
このようにして各クレームごとに有音と無音の判定を行
い、得られプこフレーム毎の有音/無音の判定結果は後
段の澤声認識部(図示せず)に送られ利用される。
本実施例によれば、環境騒音の学習を行ないその騒音の
スペクトル成分を除去することにより、標準環境下で設
定さJtた閾値や線形判別関数をそのit利用すること
が出来るようになる。そのため、無声子音や有声子音の
ようにエネルギーレベルの低い音素に対し、線形判別関
数を用いた無音とのスペクトル形状の相異というものが
利用出来るため精度の高込有音・無音判定が実現できる
第7図は、男性話者が/5oba/ (rそば」)と発
声した場合(、)対数全帯域パフ−LPW と(b)2
つの線形判別関数の一値FX1.FX2を示したもので
ある。
FXl(実IN )は無音/無声子音を判別する線形判
別関数であり、Fx2(破線)は無音/有声子音を判別
する線形判別関数である。第7図のLPWは語頭の/S
/及び語中の/b/の一部でE2より大きくEl より
小さい不定領域の値を示すが、線形判別関数Fx1.F
x2のいずれかがIEの値を示すため旧しく有音と判定
される。このように本実施例による方法で(は信号のエ
ネルギーレベルの小さな無声子音や有声子音も帯域フィ
ルタ出力というスペクトル情報を用いた線形判別関数に
より市しく判定することが出来る。
また、約1秒程度の単語200語の音声データを用い有
音/無音判定実験を行ったところ、96,8%という高
い正解率を得ることが出来た。さらに同じ音声データに
SN比が20dB程度になるようにホワイトノイズを付
加し同様の実験を行なった結果正解率はほとんど低下せ
ず、環境騒音学習の効果が有効であることを確認するこ
とが出来た。
なお、前記実悔例ではエネルギーレベルでは不定である
場合、パワースペクトルの統計的距離尺度を用いて判定
を行なう場合について述べたが、スペクトル形状の比較
で判定するものであってももちろん良い。
また統計的距離尺度として線形判別関数を用いた場合に
ついて説明したが統計的距離尺度としてマハラノビス距
離、べ習ズ判定に基ずく尺度を用いても良い。
さらに、パワースペクトルをめる方法として低域・中域
・高域の3つの帯域通過フィルタを用いた場合について
説明したが、帯域をより細くした・1°1シ域通過フィ
ルタ群を用いたり、FFTなとのスペクトル分析法を用
いても良い。
発明の効果 以上要するに本発明は音声を含む信号のパワースベクl
−/L/から、環境騒音学習により得られた環境騒音の
スペクトル成分を除去したパワースペクトルをパラメー
タとして用い、第1の方法として前記パラメータの和で
表わされる信号のエネルギーレベルと開直との比較によ
る判定を行い、前記第1の方法による判定が不定のもの
について、第2の方法として前記パラメータと無音・無
声子音・有声子音の3つの標準パターンとのスペクトル
の形状による判定を行うことにより有音・無音の判定を
行うことを特徴とする有音・無斤判定法を提供するもの
で、使用環境の変化や騒音による性能劣化の少ない、高
い精度の判定を行うことができる利点を有する。
【図面の簡単な説明】
第1図は従来の有音・無音判定を含む音声区間検出方法
を説明するブロック図、第2図は信号雑音比約4odB
の場合の零交差回数の頻度分布図、第3図は音声信号の
エネルギー変化と零交差回数の変化を示す図、第4図は
信号雑音比が約20dBとなるようにホワイトノイズが
付加され−た場合の零交差回数の頻度分布を無音・無声
子音・有声子音に分けて示した図、第5図は本発明の一
実倫例における有音・無圧判定法を説明するだめの音声
区間検出部のプロ1.り図、第6図は本発明の一実施例
における有音・無音判定法のフローチャート、第7図は
本発明の一実施例における判定法のノくワーレベルの変
化と2つの線形判別関数の値の変化を示す図である。 8・・・・マイク、9,10.11 ・・・帯域通過フ
ィルタ、12−・−・・整流平滑部、13− ・マルチ
プレクサ、14・・・・環境騒音学習部、15・・・・
環境騒音除去部、16・・・エネルギーによる判定部、
17−・・・・エネルギー閾値メモリ、18 ・統1;
1的距離尺度による判定部、19・・・標準・2ターン
メモ リ。 代理人の氏名 弁理士 中 尾 敏 男 ほか1名第 
41ヌ1 雫MEEI数(回/lomsec) 第6図 メーーーー\ 3ンく 轍畝[司iに0準 d 2

Claims (2)

    【特許請求の範囲】
  1. (1)音声を含む信号のパワースペクトルから、環境騒
    音学習により得られた環境騒音のスペクトル成分を除去
    したパワースペクトルをパラメータとして用い、第1の
    方法として前記パラメータの和で表わされる信号のエネ
    ルギーレベルと閾値との比較による判定を行い、前記第
    1の方法による判定が不定のものについて、第2の方法
    として前記パラメータと無音・無声子音・有声子音の3
    つの標準パターンとのスペクトルの形状による判定を行
    うことにより有音・無音の判定を行うことを特徴とする
    有音・無音判定法。
  2. (2)スペク岐ルの形状による判定として、線形判別関
    数、マハラノビス距離、ベイズ判定に基づく尺度のいず
    れかの統計的距離尺度による類似度を用いることを特徴
    とする特許請求の範囲第1項記載の有音・無音判定法。
JP58222417A 1983-11-25 1983-11-25 有音・無音判定法 Granted JPS60114900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58222417A JPS60114900A (ja) 1983-11-25 1983-11-25 有音・無音判定法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58222417A JPS60114900A (ja) 1983-11-25 1983-11-25 有音・無音判定法

Publications (2)

Publication Number Publication Date
JPS60114900A true JPS60114900A (ja) 1985-06-21
JPH0449952B2 JPH0449952B2 (ja) 1992-08-12

Family

ID=16782056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58222417A Granted JPS60114900A (ja) 1983-11-25 1983-11-25 有音・無音判定法

Country Status (1)

Country Link
JP (1) JPS60114900A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01502853A (ja) * 1987-04-03 1989-09-28 アメリカン テレフォン アンド テレグラフ カムパニー 有声判定装置および有声判定方法
JPH01502858A (ja) * 1987-04-03 1989-09-28 アメリカン テレフォン アンド テレグラフ カムパニー 音声フレーム中の基本周波数の存在を検出する装置および方法
JPH0285898A (ja) * 1988-09-22 1990-03-27 Sekisui Chem Co Ltd 音声検出方式
JPH0285897A (ja) * 1988-09-22 1990-03-27 Sekisui Chem Co Ltd 音声検出方式
JPH02179059A (ja) * 1988-12-28 1990-07-12 Sekisui Chem Co Ltd 電話機
JPH1183618A (ja) * 1997-09-04 1999-03-26 Toshiba Corp 音響監視装置
JP2008151840A (ja) * 2006-12-14 2008-07-03 Nippon Telegr & Teleph Corp <Ntt> 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置
US7567900B2 (en) 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56135898A (en) * 1980-03-26 1981-10-23 Sanyo Electric Co Voice recognition device
JPS56159400U (ja) * 1980-04-24 1981-11-27
JPS58211793A (ja) * 1982-06-03 1983-12-09 松下電器産業株式会社 音声区間検出装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56135898A (en) * 1980-03-26 1981-10-23 Sanyo Electric Co Voice recognition device
JPS56159400U (ja) * 1980-04-24 1981-11-27
JPS58211793A (ja) * 1982-06-03 1983-12-09 松下電器産業株式会社 音声区間検出装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01502853A (ja) * 1987-04-03 1989-09-28 アメリカン テレフォン アンド テレグラフ カムパニー 有声判定装置および有声判定方法
JPH01502858A (ja) * 1987-04-03 1989-09-28 アメリカン テレフォン アンド テレグラフ カムパニー 音声フレーム中の基本周波数の存在を検出する装置および方法
JPH0285898A (ja) * 1988-09-22 1990-03-27 Sekisui Chem Co Ltd 音声検出方式
JPH0285897A (ja) * 1988-09-22 1990-03-27 Sekisui Chem Co Ltd 音声検出方式
JPH02179059A (ja) * 1988-12-28 1990-07-12 Sekisui Chem Co Ltd 電話機
JPH1183618A (ja) * 1997-09-04 1999-03-26 Toshiba Corp 音響監視装置
US7567900B2 (en) 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
JP2008151840A (ja) * 2006-12-14 2008-07-03 Nippon Telegr & Teleph Corp <Ntt> 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置
JP4758879B2 (ja) * 2006-12-14 2011-08-31 日本電信電話株式会社 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法

Also Published As

Publication number Publication date
JPH0449952B2 (ja) 1992-08-12

Similar Documents

Publication Publication Date Title
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US4933973A (en) Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
Evangelopoulos et al. Multiband modulation energy tracking for noisy speech detection
Gu et al. Perceptual harmonic cepstral coefficients for speech recognition in noisy environment
US20100145697A1 (en) Similar speaker recognition method and system using nonlinear analysis
CN106898362A (zh) 基于核主成分分析改进Mel滤波器的语音特征提取方法
JPH01296299A (ja) 音声認識装置
Shah et al. Robust voiced/unvoiced classification using novel features and Gaussian mixture model
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
Ishizuka et al. Study of noise robust voice activity detection based on periodic component to aperiodic component ratio.
JPS60114900A (ja) 有音・無音判定法
Motlıcek Feature extraction in speech coding and recognition
JPH0222960B2 (ja)
JP2797861B2 (ja) 音声検出方法および音声検出装置
JP3046029B2 (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
Faycal et al. Comparative performance study of several features for voiced/non-voiced classification
Sudhakar et al. Automatic speech segmentation to improve speech synthesis performance
JP3493849B2 (ja) 音声認識装置
Kasap et al. A unified approach to speech enhancement and voice activity detection
Ishizuka et al. A feature for voice activity detection derived from speech analysis with the exponential autoregressive model
CN112489692A (zh) 语音端点检测方法和装置
JP2006010739A (ja) 音声認識装置
JP5157474B2 (ja) 音処理装置およびプログラム
Seyedin et al. A new subband-weighted MVDR-based front-end for robust speech recognition
Jing et al. Auditory-modeling inspired methods of feature extraction for robust automatic speech recognition

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees