JPH0335297A

JPH0335297A - 有音・無音検出方式

Info

Publication number: JPH0335297A
Application number: JP1168310A
Authority: JP
Inventors: Masami Akamine; 政巳赤嶺
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1989-07-01
Filing date: 1989-07-01
Publication date: 1991-02-15

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の目的〕（産業上の利用分野）この発明は、音声信号の有音部分をセル化し伝送するＡ
ＴＭ通信や音声認識の基本技術である音声信号の有音・
無音検出方式に関する。

（従来の技術）音声信号の有音部分をセル化して伝送するＡＴＭ通信や
音声認識、有音部分のみを録音する録音装置において、
音声の有音区間、または、音声の始端・終端を検出する
有音・無音検出は最も基本的で重要な技術である。この
有音・無音検出が正しく行われないと、音声が途切れた
り、雑音が増加したり、音声認識で認識率が下がったり
する。

従来、有音・無音検出法として、特開昭６０−２００３
０号公報に開示されているｒ音声の始端・終端検出装置
」が知られている。以下にこの従来の方法を説明する。

第６図は、従来の始端・終端検出装置のブロック図であ
る。第６図において、　６００はエネルギー抽出部で、
整流平滑回路で構成され信号のパワーをフレーム毎に抽
出する。６１０はスペクトル形状抽出部で、低域（２５
０−６００Ｆ（ｚ）　、　　中域（６００−１５００Ｈ
ｚ）、　　高域（１５００〜４０００Ｈｚ）　（７３３
種類の帯域通貨フィルタ群とｌｌ流平滑回路で構成され
、各帯域におけるフレーム毎のパワーがスペクトル情報
として用いられている。エネルギー抽出部６００と−ス
ペクトル形状抽出部６１０とで特微量抽出部６２０を構
成する。６３０はマルチプレクサで、６００がらの信号
パワーと６１０からの帯域フィルタパワーを時分割で有
音・無音判定部６４０へ入力するためのものである６６
４０は有音・無音判定部で無音、無声音、有声音の判別
を行うためのものである。６５０゜６６０は閾値メモリ
と標準パターンメモリであり有音・無音判定部６４０で
用いられる定数値が格納されている。閾値メモリ６５０
にはパワーの２つの閾値Ｅ□、Ｅ２が格納されている。

また、標準パターンメモリ６６０には、無音・無声音を
判定するための線形判別関数と無音・無声音を判別する
ための線形判別関数の係数が格納されている。これら２
つの閾値Ｅ工、Ｅ２と２つの線形判別関数の係数は、予
め使用する環境下で発声された音声データの統計処理に
より求められ、格納されている。６７０は始端・終端候
補検出部であり、有音・無音判定部より送られてくるフ
レーム毎の有音・無音判定結果の持続時間により、音声
の始端・終端候補を検出する。６８０は始端・終端決定
部で、最終的な始端・終端を決定する。

以上のように構成された音声の始端・終端検出装置の動
作については上記公報に詳述されているので、ここでは
有音・無音判定法の概略について説明する。

マイク等により入力される音声を含む信号は、フレーム
毎に対数パワーＬＰＷと対数帯域パワーＬＰ１（ｉ＝１
〜３）に変換される。有音・無音判定部６４０は、　こ
れらの４つのパラメータと閾値メモリ６５０と標準パタ
ーンメモリ６６０に格納されている。閾値Ｅ工、Ｅ２と
２つの線形判別関数の係数を用いて入力されたフレーム
が有音であるか無音であるかを判定する。

この有音・無音判定は、まず最初に２つのエネルギー閾
値Ｅ、、Ｅ、と対数パワーＬＰＷとの比較により次のよ
うに行われる。

ＬＰＷ＞Ｅエ　　　　　ならば有音Ｌ　Ｐ　Ｗ　＜　Ｅ　ｚ　　　　　　ならば無音Ｅ２≦
ＬＰＷ≦Ｅエ　　ならば不定不定の場合には、　さらに対数帯域パワーＬＰ□（１＝
ｌ〜３）と６６０に格納されている２つの線形判別関数
の係数を用いて１式（１）の判別関数値ＦＸを計算し、
ＦＸにより有音・無音を判定する。

但し、Ａｔは６６０に格納されている判別関数の係数で
あり、ＬＰｉは、６６０に格納されている標準パターン
である。

式（１）のＡ１およびＬＰ、は予め、使用環境下で発声
された音声データの無音・無声音・有声音を統計処理し
て求められる。ＦＸの値は入力が無音のとき負で、入力
が無声音あるいは有声音のとき正の値をとるように設定
されている。スペクトル形状による有音・無音判定は、
無音／無声音と無音／有声音の２つの線形判別関数を計
算し、いずれか一方でも正の値をとるならば有音、２つ
兵員の値ならば無音と判定する。つまりこの方法は、入
力信号のパワーを用いて有音、無音、不定と判定し、次
に、不定の場合は、３つの帯域通過フィルタの出力信号
のパワーによるスペクトル形状のマツチングをとること
により有音・無音の判定を行っている。

このように、この従来法は、２段階に分けて有音・無音
の判定を行うと共に、不定の場合にはスペクトルの形状
の相異を利用して有音・無音の判定を行っているので、
エネルギーの小さな無声子音や有声子音の脱落を少なく
できる。

しかし、従来のスペクトル形状の相異を利用′した有音
・無音検出法では、スペクトル形状を表わすパラメータ
が少なく、また、パラメータの選び方に理論的根拠がな
いため、有音・無音判定を誤ってしまい音声の脱落や雑
音の付加が避けられない場合がある。つまり、従来法の
パラメータは、低域（２５０〜６００Ｉ（ｚ）、　　中
域（６００〜１５００Ｈｚ）、高域（１５００〜４００
０Ｈｚ）の３つの帯域フィルタ出力の対数パワーとなっ
ているが、例えば、第７図に示すように無音声のスペク
トルが（ａ）で雑音のスペクトルが（ｂ）である場合、
両者のスペクトルは大きく異なっているにも関らず、式
（１）で計算される線形判別関数の値と同一になってし
まい、有音・無音判定を誤ってしまう（但し、Ａ工＝１
）。

その結果、音声の脱落や雑音の付加が避けられない場合
がある。これは、パラメータ数が少なく、また、帯域フ
ィルタの選択がかならずしも適切ではないためである。

このように従来法では、パラメータの選択法に理論的根
拠がないため、パラメータの選択すなわち帯域フィルタ
の帯域の設定は試行錯誤し二頼らざるを得す設定のため
多大な労力を費すと共にパラメータが必ずしも適切では
ないという問題がある。帯域フィルタの数を増しパラメ
ータ数を増加させれば、有音・無音判定の誤りは改善さ
せることができる。しかし、有音・無音判定のための判
定関数の計算量は増大し、また、パラメータ設定のため
の労力も膨大なものになる。

上記公報では、式（１）の線形判別関数の代りにマハラ
ノビス距離を用いることができることが記述されている
が、マハラノビス距離を用いると演算２がさらに増大す
る。

（発明が解決しようとする課題）上述したように、従来の有音・無音検出方法は、演算量
を少なくするためにパラメータ数を少なくした場合、有
音・無音判定を誤ってしまい音声の脱落や雑音の付加が
避けられない場合があるという問題点がある。また、従
来の方法は、パラメータの選択に当って理論的な選択基
準がないため、多くの労力を要するという問題点がある
。

本発明は、このような問題点に鑑みて行われ、有音・無
音検出精度が高く音声の脱落・雑音の付加が少ない有音
・無音検出方式を提供することを目的とする。

〔発明の構成〕

（課題を解決するための手段）本発明は電話や認識装置が使用される環境下で予め集収
された音声を試聴や波形の視認などにより予め有音と無
音にラベル付けし、次に有音部と無音部の特徴パラメー
タをそれぞれ主成分分析し、有音部と無音部の主成分ベ
クトルを予め求めておくと共に、予め集収された音声を
用いて、あルフレームｎの複数の過去のフレーム（ｎ−
１）。

（ｎ　−２）‥が有音部は無音であったという条件のも
とで、ｎフレームが有音である条件付確率及び無音であ
る条件付確率を予め求、めでおき、検出対象フレームの
特徴パラメータを、有音部特徴パラメータの主成分ベク
トル空間又は無音部特徴パラメータの主成分ベクトル空
間上に射影し、その射影点の位置により、有音、無音、
不定と判定する有音・無音検出方式である。又さらに検
出において不定の場合は、過去の複数のフレームの有音
、無音の状態を条件とした場合の現フレームの有音及び
無音の条件付確率を予め求められているテーブルから参
照し、有音の条件付確率が高ければ有音、無音の条件付
確率が高ければ無音と判定するという有音・無音検出方
式である。

（作用）まず、音声信号等の音響信号の特徴パラメータを求める
０次のそのパラメータを別のパラメータに変換した後パ
ラメータ数を元の特徴パラメータより少なくすることを
考える。第５図にこの概念を示す、第５図において、Ｌ
個の元の特徴パラメータを工１（１＝１＋２＋　‥・、
Ｌ）　とし、：ｃｌを要素とするベクトルをＸとする。

変換は直交変換とし、変換行列をＡとする。変換後の特
徴パラメータをν１（１＝１＋２＋‥・ｔＬ）−ｙｉを
要素とするベクトルをＹ、　　Ｎ個のパラメータ数ｊ（
ｊ＝１．２．‥・、Ｎ）を残して残りの（Ｌ−Ｎ）個を
零とした特徴パラメータベクトルをＶとする（但し、Ｎ
＜Ｌ、ｔは行列の転置を表す）このとき、パラメータ数
削減によって生じる誤差ベクトルｅは、元の特徴パラメ
ータベクトルＸとマの逆変換との差として次式のように
記述される。

ｅ＝Ｘ　　ｋ”Ｙ＝Ａ−’　（Ｙ−Ｙ）この誤差の２乗平均値σｒ”＝Ｅ［ｅｔｅ］を最小にす
る変換を行えば、特徴パラメータ数を少なくすることに
よる誤差が最小になる。但し、Ｅは期待値であるσｒ′
を最小化する変換は、　χ、の自己相関行列の固有ベク
トルを行ベクトルとする行列Ａによる変換、すなわちＫ
Ｌ変換であることが知られている。　また固有ベクトル
は、工ｉの主成分分析によって得られる主成分ベクトル
と同じであり、固有値の大きい順に対応した固有ベクト
ルが第１゜第２．第３．‥・主成分ベクトルに対応する
。

Ｌ個の特徴パラメータＸをＫＬ変換した後、パラメータ
数を削減する操作は、第１〜第Ｎ主成分ベクトルを座標
軸とするＮ次元主成分ベクトル空間上に、Ｘを射影する
ことに対応する。従って。

特徴パラメータを主成分ベクトル９間上に射影すること
により１元の特徴パラメータをより少ないパラメータ次
元で表現する場合の誤差、言い換えれば元の特徴パラメ
ータのもつ情報のロスを最小にしながら特徴パラメータ
数を少なくできる。

有音部と無音部の特徴パラメータは、特性の違い、たと
えばスペクトル形状の違いによって主成分ベクトル空間
上の特定の領域に分布する。有音・無音判定はこの性質
を利用し、特徴パラメータを主成分ベクトル空間上に射
影した時の射影点と予め定められた有音／無音の領域の
比較により、有音、無音、不定と判定する。

不定の場合は、更に、予め求められた、過去のフレーム
の有音・無音状態を条件とした場合の現フレームの有音
・無音の条件付確率をもとに有音か無音かの最終判定を
行う。これにより有音・無音の検出精度が高く、しかも
音声の脱落・雑音の付加が少なくなるのである。

（実施例）以下、本発明に係る一実施例を図面を参照して説明する
。

第１図は本発明の一実施例に係る有音・無音検出器のブ
ロック図である。第１図において、１１０はＬＰＣケプ
ストラム抽出回路であり入力端子１００から入力した信
号のＬＰＧケプストラムＣ１（ｉ＝１．２．‥・、Ｐ）
を公知の方法によりフレーム（１６ｍｓ）ごとに計算す
る。但しＰは分析次数であり例えばＰ＝１６とする。Ｌ
ＰＣケプストラムの計算法については例えば古井貞煕「
ディジタル音声処理」（東海大学出版会１９８５）に記
述されている。

求められたＬＰＧケプストラムＣ１は特徴パラメータ射
影回路１４０に入力される。この回路１４０は内積演算
回路１２０及び有音主成分ベクトルメモリ１３０で構成
される。

有音主成分ベクトルメモリ１３０は第２図に示すフロー
チャート如く、予め電話使用環境下で集収された音声（
学習データ）を集収しくステップ）、有音であるラベル
付けを行い（ステップ２）、有音部のＬＰＧケプストラ
ムを計算しくステップ３）。

このＬＰＧケプストラムに対し主成分分析を行うことに
よって得られる。実際にはＬＰＣケプストラムの共分散
行列計算を行い（ステップ４）、固有値を求め（ステッ
プ５）、絶対値の大きい固有値に対応する固有ベクトル
から順に主成分ベクトルとする（ステップ６）。　ここ
では第１〜第３の３つの主成分ベクトルＶ工、　Ｖ、、
　Ｖ、がメモリ１３０に格納されている。内積演算回路
１２０は、ＬＰＣケプストラムＣ１を要素とするベクト
ルＣ＝（Ｃ１゜Ｃ２ｍ　”’　ｒ　Ｃｐ）と主成分ペク
ト／Ｌ／　Ｖ　ｓ　、ｖ　ｘ　、Ｖ　３　）ニーの内積
演算を次式に従って行い、　Ｖ□、Ｖ２　＃　Ｖ３を座
標軸とする３次元の主成分空間上のベクトルＣの射影点
Ｑを求める。

ここで、　？／ｉＪは主成分ベクトルｖ１の第ｊ要素、
Ｑｌは射影点Ｑの座標軸Ｖｉの成分である。

有音領域規定パラメータメモリ１６０は、主成分ベクト
ル空間上の有音領域を規定するパラメータが格納されて
おり、同様に無音領域規定パラメータメモリ１７０には
主成分ベクトル空間上の無音領域を規定するパラメータ
が格納されている。有音及び無音の領域をＶよ、■２軸
上で第３図に示すように長方形（図中斜線部）とした場
合、有音領域を規定するパラメータは、　Ｖ１□ｅ　Ｖ
　ｉｈ＋　ｕ　ｚｔ＋　Ｖ　ａｈとなり、無音領域を規
定するパラメータはξｘｊ＋ξｘ、　ｈ　＋　ξ２□　
ξ２ｈとなる。これらのパラメータは。

予め、電話使用環境下で収集された音声の有音区間のＬ
ＰＧＰプストラムと無音区間のＬＰＣＰプストラムを統
計処理して定められる。　判定回路１５０は、射影点Ｑ
２が主成分ベクトル空間上で、有音領域と無音領域のど
の領域に属するか又は、どの領域にも属さないかという
ことで（ａ）有音、（ｂ）無音、（Ｃ）不定の判定を行
う。すなわち、（Ｃ）その他　　不定と判定する。

有音／無音判定回路１１１０では、第４図のフローチャ
ートに示す如く判定回路１５０の出力ステップ１が、有
音と無音のときはその結果をそのまま出力（エンドへ）
する。

不定の場合（ステップ２）は、過去の３フレームの判定
結果を条件とした現フレームの有音、無音の条件付確率
を条件付確率テーブル２００からテーブルルックアップ
により求め（ステップ３）、有音の条件付確率が無音の
条件付確率より（ステップ４）大きい場合に有音、その
逆の場合に無音と判定する（ステップ５）。１９０は判
定結果を少なくとも３フレ一ム分蓄積する判定結果メモ
リである。

ｎフレームの判定結果をＴ。とおくと、　過去の３フレ
ームの判定結果Ｔ。−４ｔ　’ｒｎ−１＃　Ｔｎ−１を
条件とした条件付確率Ｐ（Ｔｎ／Ｔｎ−０，Ｔ、−、、
Ｔ、−、）は次式で表わされる。

ｐ（’ｒ、、’ｒｎ−、Ｔｏ−、、’ｒｎ−、）とＰ　
（Ｔ　ｎ−ｔ　、Ｔ　ｎ−１Ｔｎ−ｉ）は、予め電話使
用環境下で収集された音声（学習データ）にフレームご
とに波形やスペクトルの視認等によって有音、無音のラ
ベル付けを行い、連続する４フレーム及び３フレームの
有音。

無音ラベルを基に、確率計算を行い予め求められる。０
式の計算で得られた条件付確率は予め、条件付確率テー
ブル２００に格納しておく。

以上のように学習データから得られた条件付確率を基に
有音・無音判定を行うことは、有音→無音→有音→無音
というパターンは非常に少ないといった音声に関する知
識を利用して、判定していることになるので有音・無音
の誤判定が減るという効果がある。

尚信号の特徴パラメータとしてＬＰＣＰプストラムの他
に、信号パワー、零交差数１Ｍ形予測係数、自己相関係
数、ＤＦＴ係数及びそれらの組合せを用いることもでき
る。また１判定の際に用いる主成分ベクトルの数や条件
付確率を計算する際の過去のフレーム数は任意の数に設
定することもできる等、種々変形可能である。

〔発明の効果〕

本発明は、特徴パラメータを主成分ベクトル空間上に射
影した上で有音・無音判定を行うので。

有音・無音判定に用いるパラメータを少なくした場合で
も、元の特徴パラメータのもつ情報の損失が最も小さく
、有音／無音検出精度が高い。この結果、有音／無音判
定の誤リレこよる音声の脱落や雑音の付加を少なくでき
るという効果がある。

また１本発明では、主成分ベクトル空間上の射影点の領
域判定により有音・無音・不定と判定した後、不定の場
合は過去のフレームの判定結果を条件とした現フレーム
の有音・無音の条件付確率を基に有音・無音判定を行う
２段階の判定を用いていると共に条件付確率という音声
に関する知識を用いているので、パワーの小さい有声子
音や無声子音等の誤判定が減り語頭や語尾の脱落や雑音
の付加が減少するという効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例に係る有音・無音検出器のブ
ロック図、第２図は本発明の一実施例に係る主成分ベク
トルを求める手順を示すフローチャート、第３図は本発
明の一実施例に係る主成分ベクトル空間上の有音領域を
示す図、第４図は本発明の一実施例に係る有音・無音判
定の手順を示すフローチャート、第５図は本発明の詳細
な説明に用いた特徴パラメータ数削減の概念を示す図、
第６図は従来の有音・無音検出装置のブロック図、第７
図は従来の有音・無音検出装置で同一のスペクトル形状
と判定されるスペクトルの例を示す図である。１００‥・入力端子。１１０‥・ＬＰＣケプストラム抽出回路。１２０‥・内積演算回路、１３０‥・有音主成分ベクトルメモリ。１４０‥・特徴パラメータ射影回路、１５０‥・判定回路、１６０‥・有音領域規定パラメータメモリ、１７０‥・
無音領域規定パラメータメモリ、１８０‥・有音／無音
判定回路、１９０‥・判定結果メモリ、２００‥・条件付確率テーブル、６００‥・エネルギー抽出部。６１０‥スペクトル形状抽出部、６２０‥・特徴量抽出部、　６３０‥・マルチプレクサ
、６４０‥・有音・無音判定部、６５０‥・閾値メモリ
、６６０‥・標準パターンメモリ、６７０‥・始端・終端候補検出部、６８０‥・始端・終端決定部

Claims

【特許請求の範囲】

（１）所定の環境下で集収された音声データに対し有音
部と無音部の主成分ベクトルを予め求めておくと共に、
予め集収された音声データを用いて、あるフレームｎの
複数の過去のフレーム（ｎ−１）、（ｎ−２）‥が有音
又は無音であったという条件のもとで、ｎフレームが有
音である条件付確率及び無音である条件付確率を予め求
めておき、検出対象となるフレームの特徴パラメータを
、有音部の主成分ベクトル空間又は無音部の主成分ベク
トル空間上に射影し、その射影点の位置により、有音、
無音、あるいは不定と判定することを特徴とする有音・
無音検出方式。
（２）請求項１記載の有音・無音検出方式において不定
の場合、過去の複数のフレームの有音、無音の状態を条
件とした場合の現フレームの有音及び無音の条件付確率
を予め求められているテーブルから参照し、有音の条件
付確率が高ければ有音、無音の条件付確率が高ければ無
音と判定することを特徴とする有音・無音検出方式。