JPH0449952B2 - - Google Patents

Info

Publication number
JPH0449952B2
JPH0449952B2 JP58222417A JP22241783A JPH0449952B2 JP H0449952 B2 JPH0449952 B2 JP H0449952B2 JP 58222417 A JP58222417 A JP 58222417A JP 22241783 A JP22241783 A JP 22241783A JP H0449952 B2 JPH0449952 B2 JP H0449952B2
Authority
JP
Japan
Prior art keywords
determination
sound
determined
environmental noise
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58222417A
Other languages
English (en)
Other versions
JPS60114900A (ja
Inventor
Hideji Morii
Katsuyuki Futayada
Satoshi Fujii
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58222417A priority Critical patent/JPS60114900A/ja
Publication of JPS60114900A publication Critical patent/JPS60114900A/ja
Publication of JPH0449952B2 publication Critical patent/JPH0449952B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識装置に用いる有音・無音判定
法に関するものである。
従来例の構成とその問題点 有音・無音判定法の従来例としては、信号のエ
ネルギーと零交差回数を用いた方法が知られてい
る。これは、新美康永:音声認識、共立出版
(1979)、あるいは、L.R.Rabiner and M.R.
Sambur:An algorithm for determining the
endpoint of isolated utterances,Bell Syst.
Tech.T.,(1975)に示されている。
以下図面を参照しながら従来例の有音・無音判
定を含む音声区間検出方法について説明する。
第1図は従来例の音声区間検出方法の構成を示
したものである。図において、1は信号エネルギ
ー算出部で10msec区間(以下フレームと記す)
毎の信号エネルギーE(n)(nはフレーム番号)
を算出する。2は零交差回数算出部でフレーム毎
の零交差回数Nz(n)を算出する。3は音声の始
端、終端候補決定部で信号エネルギーE(n)と
2つの閾値E1、E2を用いて始端及び終端の候補
点を見つける。4は音声区間決定部で、零交差数
Nz(n)を用いて音声区間の始端及び終端を決定
する。
以上のように構成された音声区間検出方法につ
いて以下その検出方法を説明する。
零交差回数というのは信号の符号のみを残し、
振幅を1ビツトに量子化した零交差波の一定区間
における符号の変化の回数である。この零交差回
数は信号のスペクトル中の優勢な周波数成分とよ
く対応する。第2図は防音室で発声された音声信
号の零交差回数の分布を示したもので上段aは無
音部分、中段bは無声子音、下段cは有声音の分
布を表わしている。第2図から分るように高域の
周波数成分が優勢な無声子音では零交差回数は大
きな値となり、無音・有声音では小さな値とな
る。従来の有音・無音判定法はこれを利用し、信
号エネルギーの小さな無声子音の検出精度を上げ
ている。
音声の始端・終端候補決定部3は信号のエネル
ギーレベルにより、確実に音声区間であるという
部分を検出するものである。信号エネルギー算出
部1で計算されたフレーム毎の信号エネルギーE
(n)に対し2つの閾値E1,E2(E1>E2)を適用
し音声の始端候補n1、終端候補n2を求める。これ
は第3図aの例に示すように、エネルギーの値が
E2を越え、かつその後E2以下になることなしに
E1を越えるとき、音声区間に入つたとみなし、
E2を越えた点を始端候補n1とする。終端候補n2
時間軸を逆にして、同様の方法で決定する。音声
区間決定部4では、零交差回数算出部2で計算さ
れたフレーム毎の零交差回数Nz(n)と閾値No
を用いて、エネルギーは小さいが零交差回数が大
きい無声子音が先の音声区間候補(n1、n2)の外
側にないか検査する。
第3図bに示すように始端候補n1より前の数フ
レームの区間で零交差回数が閾値Noより大とな
るフレームの数を数え、その数が一定値(たとえ
ば3)以上であれば始端候補n1より前に無声子音
区間があるとみなし最初にNoを越えたフレーム
n1′に始端を移す。終端についても同様である。
ただ第3図bでは終端n2はもとのままである場合
を示している。このようにして最終的な音声区間
(n1′、n2)が決定される。
しかし、上記のように零交差回数を用いた方法
では、エネルギーが小さく零交差回数も小さい有
声子音(例えば/b/,/d/,/r/)などの
脱落を減少することは出来ない。また、零交差回
数は環境騒音の影響を受けやすいため、適応出来
る環境に制限があるなどの欠点を有していた。例
として、第4図に、信号雑音比20dB程度で発声
された(a)無音、(b)無声子音、(c)有声音
の例交差回数の分布を示す。第4図によると、無
音部6と無声子音部7での分布の差はほどんどな
い。したがつて、上記のような騒音環境では従来
法は有効に動作しない。
発明の目的 本発明は従来技術のもつ以上のような欠点を解
消するもので、検出精度が高く、しかも環境騒音
による性能劣下の少ない有音・無音判定法を提供
するものである。
発明の構成 本発明は上記目的を達成するもので、音声を含
む信号のパワースペクトルから、環境騒音学習に
より得られた環境騒音のスペクトル成分があらか
じめ定めた標準環境の雑音のスペクトルと同じに
なるように補正する係数を差し引いたパワースペ
クトルを算出し、第1の方法として前記パラメー
タの和で表わされる信号のエネルギーレベルと閾
値との比較による判定を行い、前記第1の方法に
よる判定が不定のものについて、第2の方法とし
て前記パラメータとあらかじめ標準環境において
多数の話者が発声した音声のうち信号のエネルギ
ーレベルが前記第1の判定方法で不定と判定され
るレベルの区間の無音・無声子音・有声子音のス
ペクトルの統計的分布を表現するように作成され
ている3つの標準パターンとの類似度を統計的距
離尺度を用いて判定を行うことにより有音・無音
の判定を行うことを特徴とする有音・無音判定法
を提供するものである。
実施例の説明 以下本発明の一実施例について図面を参照しな
がら説明する。第5図は本発明の一実施例におけ
る音声認識装置の音声区間検出部のブロツク図を
示したものである。第5図において、8はマイ
ク、9は低域(250〜600Hz)、10は中域(600〜
1500Hz)、11は高域(1500〜4000Hz)の帯域フ
イルタである。12は整流平滑部で9,10,1
1の帯域通過フイルタ群の出力を各帯域毎のパワ
ーに変換する。13はマルチプレクサで各帯域毎
のパワーを環境騒音学習部14あるいは環境騒音
除去部15に時分割で入力するためのものであ
る。16は信号エネルギーによる判定部であり、
17のエネルギー閾値メモリの閾値との比較で無
声であるか有音であるかの判定を行なう。18は
統計的距離尺度による判定部で、19の標準パタ
ーンメモリにある無音・無声子音と無音・有声子
音の2つの線形判別関数の係数を用い、無音・無
声子音・有声子音のいずれにスペクトルの形状が
最も類似しているかの判定を行なう。なおハード
構成上では第5図における15〜19は汎用のマ
イクロプロセツサ1つで構成されている。
以上のように構成された音声区間検出部につい
てその動作を説明する。
まず、標準環境下(たとえば防音室)で発声さ
れた多数話者の音声から帯域通過フイルタ群9,
10,11により得られるパワースペクトルの無
音、無声子音、有声子音という3つのクラスの分
布を求める。そして統計処理により無音のパワー
スペクトルの平均値Siと、2つのエネルギー閾値
E1、E2を求め第5図のエネルギー閾値メモリ1
7に入れておく。さらに無音と無声子音、無音と
有声子音を分離する2つの線形判別関数の係数で
ある重み係数Ai、平均値LPi(後に詳しく述べる)
を求め第5図の標準パターンメモリ19に入れて
おく。
次に、使用する環境の騒音を学習する。
環境騒音学習は、音声認識装置の電源が入れら
れたとき、あるいは音声認識装置に環境騒音学習
実行というコマンドが入力されたとき行なわれ
る。
この環境騒音学習は、音声を含まない環境騒音
のみの信号の一定時間(たとえば10秒)における
平均的なスペクトル形状を求めるものである。第
5図のマイク8より入力される騒音のみの信号
は、低域9、中域10、高域11の帯域通過フイ
ルタ群と整流平滑部12により低域、中域、高域
のパワースペクトルに変換されマルチプレクサ1
3を通して環境騒音学習部14に入力される。環
境騒音学習部14では低域、中域、高域のパワー
スペクトルの各周波数成分毎の平均値Niを求め
る。さらに、このNiとエネルギー閾値メモリ1
7に入れてある標準環境の無音のパワースペクト
ルの平均値Siとを用いて式(1)より帯域フイルタ毎
の補正係数ai(i=1〜3)を求める。このaiは
使用環境の騒音のエネルギーレベルを標準環境の
無音のエネルギーレベルに補正する係数であり、
環境騒音学習により得られた騒音の帯域毎のパワ
ーの平均Niとあらかじめ得られている標準環境
の無音の帯域毎パワーの平均Siとの差により求め
られ、環境騒音除去部15に格納しておく。
ai=Ni−Si ……式(1) i=1〜3 ai:帯域フイルタiの出力パワーの補正係数 Ni:環境騒音の帯域フイルタiの出力パワー
の平均 Si:標準環境の無音の帯域フイルタiの出力パ
ワーの平均 次に有音・無音判定法について第5図及び第6
図のフローチヤートを参照しながら説明する。
マイク8より入力される音声を含む信号は第5
図の帯域通過フイルタ群9,10,11及び整流
平滑部12により低域・中域・高域の3つの帯域
のパワーPi(i=1〜3)に変換される。この3
つのパワーPi(i=1〜3)はマルチプレクサ1
3を通り、10msec毎(フレーム毎)に環境騒
音除去部15に入力される。環境騒音除去部15
では入力されたパワーPiと環境騒音学習で得られ
た補正係数aiを用いて、式(2)に示すように環境騒
音を除去した帯域毎の対数パワーLPiに変換す
る。
LPi=log10(Pi−ai) ……式(2) i=1〜3(帯域パワーの種数を表わす) また、式(3)に示す3つの帯域パワーPiの和の対
数をとつた対数全帯域パワーLPWも求める。
LPW=log103i=1 (Pi−ai)} ……式(3) 以上の処理は第6図の処理イ〜ハにあたる。
次にエネルギーによる判定部16では、式(3)に
より得られた対数全帯域パワーLPWと、閾値メ
モリ17にある2つのエネルギー閾値E1,E2(E1
>E2)との比較により無音・有音の判定を行な
う。
この2つの閾値E1,E2は標準環境下で発声さ
れた音声データにより設定されたもので、LPW
>E1ならば確実に有音でありLPW<E2ならば確
実に無音であるという値に設定されている。した
がつて、エネルギによる判定部16では、式(4)の
ような判定が行なわれる。
LPW>E1 LPW<E2 E2≦LPW≦E1ならば 有音 ならば 無音 ならば 不定 式(4) これは第6図に示す判定ニ、及びホである。式
(4)において不定と判定されたものは、エネルギー
レベルでは判定出来ないため次段の統計的距離に
よる判定部18で、スペクトル形状により無音で
あるか有音であるかが判定される。統計的距離に
よる判定部18では、式(2)により得られるスペク
トルの大まかな形状を示す低域・中域・高域の3
つの帯域の対数パワーLPi(i=1〜3)をパラ
メータとし、標準パターンメモリ19にある2つ
の線形判別関数の係数を用い、判別関数の値を計
算する。この2つの線形判別関数は、標準環境下
で発声された多数話者の音声データの無音・無声
子音・有声子音のスペクトルの統計的分布により
設計されたもので1つは無音/無声子音の線形判
別関数であり、もう1つは無音/有声子音の線形
判別関数である。線形判別関数FXは式(5)のよう
に表わされ、 FX=3i=1 Ai(LPi−LPi) ……式(5) (ただしAiは重み係数、LPiは平均値) 重み係数Aiは2つのクラスの最適な判別を行
うように設定され、2つのクラスの級内分散、級
間分散の比であるFisher比の最大化条件から求め
られる。標準パターンメモリ19には式(5)におけ
る重み係数Aiと平均値LPiが格納されている。ま
た、この2つの線形判別関数は、入力が無音のと
きは負の値をとり、無声子音あるいは有声子音の
場合は正の値をとるように設計してある。したが
つて、この統計的距離による判別部18では、無
音/無声子音と無音/有声子音の2つの線形判別
関数式(5)を計算し(第6図フローチヤートの処理
ヘ及びチにあたる。)第6図の判定ト及びリに示
すようにいずれか1方でも正の値をとるならば有
音と判定し(第6図処理ヌ)2つとも負の値なら
ば無音と判定する(第6図処理ル)。
このようにして各フレームごとに有音と無音の
判定を行い、得られたフレーム毎の有音/無音の
判定結果は後段の音声認識部(図示せず)に送ら
れ利用される。
本実施例によれば、環境騒音の学習を行ないそ
の騒音のスペクトル成分をあらかじめ定めた標準
環境の雑音のスペクトルと同じになるように補正
することにより、標準環境下で設定された閾値や
線形判別関数をそのまま利用することが出来るよ
うになる。そのため、無声子音や有声子音のよう
にエネルギーレベルの低い音素に対し、線形判別
関数を用いた無音とのスペクトル形状の相異とい
うものが利用出来るため精度の高い有音・無音判
定が実現できる。
第7図は、男性話者が/soba/(「そば」)と
発声した場合(a)対数全帯域パワーLPWと
(b)2つの線形判別関数の値FX1,FX2を示し
たものである。FX1(実線)は無音/無声子音を
判別する線形判別関数であり、FX2(破線)は無
音/有声子音を判別する線形判別関数である。第
7図のLPWは語頭の/s/及び語中の/b/の
一部でE2より大きくE1より小さい不定領域の値
を示すが、線形判別関数FX1,FX2のいずれかが
正の値を示すため正しく有音と判定される。この
ように本実施例による方法では信号のエネルギー
レベルの小さな無声子音や有声子音も帯域フイル
タ出力というスペクトル情報を用いた線形判別関
数により正しく判定することが出来る。
また、約1秒程度の単語200語の音声データを
用い有音/無音判定実験を行つたところ、96.8%
という高い正解率を得ることが出来た。さらに同
じ音声データにSN比が20dB程度になるようにホ
ワイトノイズを付加し同様の実験を行なつた結果
正解率はほとんど低下せず、環境騒音学習の効果
が有効であることを認識することが出来た。
なお、前記実施例ではエネルギーレベルでは不
定である場合、パワースペクトルの統計的距離尺
度を用いて判定を行なう場合について述べたが、
スペクトル形状の比較で判定するものであつても
もちろん良い。
また統計的距離尺度として線形判別関数を用い
た場合について説明したが統計的距離尺度として
マハラノビス距離、ベイズ判定に基ずく尺度を用
いても良い。
さらに、パワースペクトルを求める方法として
低域・中域・高域の3つの帯域通過フイルタを用
いた場合について説明したが、帯域をより細くし
た帯域通過フイルタ群を用いたり、FFTなどの
スペクトル分析法を用いても良い。
発明の効果 以上要するに本発明は音声を含む信号のパワー
スペクトルから、環境騒音学習により得られた環
境騒音のスペクトル成分を除去したパワースペク
トルをパラメータとして用い、第1の方法として
前記パラメータの和で表わされる信号のエネルギ
ーレベルと閾値との比較による判定を行い、前記
第1の方法による判定が不定のものについて、第
2の方法として前記パラメータとあらかじめ標準
環境において多数の話者が発声した音声のうち信
号のエネルギーレベルが前記第1の判定方法で不
定と判定されるレベルの区間の無音・無声子音・
有声子音のスペクトルの統計的分布を表現するよ
うに作成されている3つの標準パターンとの類似
度を統計的距離尺度を用いて判定を行うことによ
り有音・無音の判定を行うことを特徴とする有
音・無音判定法を提供するもので、使用環境の変
化や騒音による性能劣化の少ない、高い精度の判
定を行うことができる利点を有する。
【図面の簡単な説明】
第1図は従来の有音・無音判定を含む音声区間
検出方法を説明するブロツク図、第2図は信号雑
音比約40dBの場合の零交差回数の頻度分布図、
第3図は音声信号のエネルギー変化と零交差回数
の変化を示す図、第4図は信号雑音比が約20dB
となるようにホワイトノイズが付加された場合の
零交差回数の頻度分布を無音・無声子音・有声子
音に分けて示した図、第5図は本発明の一実施例
における有音・無音判定法を説明するための音声
区間検出部のブロツク図、第6図は本発明の一実
施例における有音・無音判定法のフローチヤー
ト、第7図は本発明の一実施例における判定法の
パワーレベルの変化と2つの線形判別関数の値の
変化を示す図である。 8……マイク、9,10,11……帯域通過フ
イルタ、12……整流平滑部、13……マルチプ
レクサ、14……環境騒音学習部、15……環境
騒音除去部、16……エネルギーによる判定部、
17……エネルギー閾値メモリ、18……統計的
距離尺度による判定部、19……標準パターンメ
モリ。

Claims (1)

  1. 【特許請求の範囲】 1 音声を含む信号のパワースペクトルから、環
    境騒音学習により得られた環境騒音のスペクトル
    成分があらかじめ定めた標準環境の雑音のスペク
    トルと同じになるように補正する係数を差し引い
    たパワースペクトルを算出し、第1の方法として
    前記パワースペクトルの和で表される信号のエネ
    ルギーレベルと閾値との比較による判定を行い、
    前記第1の方法による判定が無音であるか有音で
    あるか不定の区間について、第2の方法として前
    記パワースペクトルとあらかじめ標準環境におい
    て多数の話者が発声した音声のうち信号のエネル
    ギーレベルが前記第1の判定方法で不定と判定さ
    れるレベルの区間の無音・無声子音・有声子音の
    スペクトルの統計的分布を表現するように作成さ
    れている標準パターンとの類似度を統計的距離尺
    度を用いて判定を行うことにより有音・無音の判
    定を行うことを特徴とする有音・無音判定法。 2 統計的距離尺度が線形判別関数、マハラノビ
    ス距離、ベイス判定に基づく尺度のいずれかであ
    ることを特徴とする特許請求の範囲第1項記載の
    有音・無音判定法。
JP58222417A 1983-11-25 1983-11-25 有音・無音判定法 Granted JPS60114900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58222417A JPS60114900A (ja) 1983-11-25 1983-11-25 有音・無音判定法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58222417A JPS60114900A (ja) 1983-11-25 1983-11-25 有音・無音判定法

Publications (2)

Publication Number Publication Date
JPS60114900A JPS60114900A (ja) 1985-06-21
JPH0449952B2 true JPH0449952B2 (ja) 1992-08-12

Family

ID=16782056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58222417A Granted JPS60114900A (ja) 1983-11-25 1983-11-25 有音・無音判定法

Country Status (1)

Country Link
JP (1) JPS60114900A (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0795238B2 (ja) * 1987-04-03 1995-10-11 アメリカン テレフォン アンド テレグラフ カムパニー 有声判定装置および有声判定方法
EP0309561B1 (en) * 1987-04-03 1992-12-09 AT&T Corp. An adaptive threshold voiced detector
JPH0285897A (ja) * 1988-09-22 1990-03-27 Sekisui Chem Co Ltd 音声検出方式
JPH0285898A (ja) * 1988-09-22 1990-03-27 Sekisui Chem Co Ltd 音声検出方式
JPH02179059A (ja) * 1988-12-28 1990-07-12 Sekisui Chem Co Ltd 電話機
JP3518838B2 (ja) * 1997-09-04 2004-04-12 株式会社東芝 音響監視装置
JP3744934B2 (ja) 2003-06-11 2006-02-15 松下電器産業株式会社 音響区間検出方法および装置
JP4758879B2 (ja) * 2006-12-14 2011-08-31 日本電信電話株式会社 仮音声区間決定装置、方法、プログラム及びその記録媒体、音声区間決定装置、方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56135898A (en) * 1980-03-26 1981-10-23 Sanyo Electric Co Voice recognition device
JPS58211793A (ja) * 1982-06-03 1983-12-09 松下電器産業株式会社 音声区間検出装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56159400U (ja) * 1980-04-24 1981-11-27

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56135898A (en) * 1980-03-26 1981-10-23 Sanyo Electric Co Voice recognition device
JPS58211793A (ja) * 1982-06-03 1983-12-09 松下電器産業株式会社 音声区間検出装置

Also Published As

Publication number Publication date
JPS60114900A (ja) 1985-06-21

Similar Documents

Publication Publication Date Title
US7756700B2 (en) Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US4933973A (en) Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
EP0950239B1 (en) Method and recognizer for recognizing a sampled sound signal in noise
JP2745535B2 (ja) 音声認識装置
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
Ishizuka et al. Study of noise robust voice activity detection based on periodic component to aperiodic component ratio.
JPH0449952B2 (ja)
Motlıcek Feature extraction in speech coding and recognition
JPH0222960B2 (ja)
JPH0797279B2 (ja) 音声認識装置
Tüske et al. Robust voice activity detection based on the entropy of noise-suppressed spectrum
US5897614A (en) Method and apparatus for sibilant classification in a speech recognition system
KR19990001828A (ko) 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법
Hahn et al. An improved speech detection algorithm for isolated Korean utterances
JP3046029B2 (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
Kasap et al. A unified approach to speech enhancement and voice activity detection
Chougule et al. Channel robust MFCCs for continuous speech speaker recognition
Sudhakar et al. Automatic speech segmentation to improve speech synthesis performance
Ishizuka et al. A feature for voice activity detection derived from speech analysis with the exponential autoregressive model
Heese et al. Speech-codebook based soft voice activity detection
Kyriakides et al. Isolated word endpoint detection using time-frequency variance kernels
KR20040073145A (ko) 음성인식기의 성능 향상 방법
JPH034918B2 (ja)
Seyedin et al. A new subband-weighted MVDR-based front-end for robust speech recognition
JPH1097288A (ja) 背景雑音除去装置及び音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees