JP3297156B2

JP3297156B2 - 音声判別装置

Info

Publication number: JP3297156B2
Application number: JP20324893A
Authority: JP
Inventors: 正山浦; 裕久田崎; 勝志瀬座
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1993-08-17
Filing date: 1993-08-17
Publication date: 2002-07-02
Anticipated expiration: 2017-07-02
Also published as: JPH0756598A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、音声をディジタル伝
送あるいは蓄積する場合に用いられる音声符号化復号化
装置の有声音・無声音判別装置に関するものである。

【０００２】

【従来の技術】従来のこの種の有声音・無声音判別装置
として、例えば特開昭６１−２７８００に示されたもの
があり、上記装置では、有声音、無声音の判別パラメー
タとしてケプストラムの低次項の和を用い、判別結果は
有声音と無声音の２値である。

【０００３】図６は上記文献に示された従来の有声音・
無声音判別装置の構成ブロック図であり、図７は図６の
有声音・無声音判別装置の判別パラメータ２０の分布を
例示する図である。図中、１８はケプストラム、１９は
加算回路、２０は判別パラメータ、２１は閾値比較回
路、２２は判別結果である。

【０００４】以下、図６の有声音・無声音判別装置の動
作について図６，７を参照して説明する。先ず、加算回
路１９は入力されたケプストラム１８の低次項の和を求
め、これを判別パラメータ２０として出力する。閾値比
較回路２１は入力された判別パラメータ２０が所定の固
定閾値未満の場合は無声音、上記の固定閾値以上の場合
は有声音と判別し、判別結果２２を出力する。

【０００５】図７は背景雑音のパワーが音声信号のパワ
ーに比べて無視できない程大きい、即ち雑音レベルが高
い場合と、背景雑音のパワーが音声信号のパワーに比べ
て無視できる程小さい、即ち雑音レベルが低い場合の判
別パラメータ２０の分布のモデルを示したものである。
図中、曲線Ａは雑音レベルが低い場合の無声音、曲線Ｃ
は雑音レベルが高い場合の無声音、曲線Ｄは曲線Ａと曲
線Ｃとを合わせた分布で、曲線Ｂは有声音の分布であ
る。有声音における判別パラメータ２０の分布は雑音レ
ベルの高低によって大きく変化しない。いま、雑音レベ
ルが低い場合に無声音Ａと有声音Ｂを最適に分離する固
定閾値をＥ１とした場合、雑音レベルが高い場合に無声
音Ｃを有声音Ｂと判別する判別誤りが増加する。一方、
雑音レベルが高い場合に無声音Ｃと有声音Ｂを最適に分
離する固定閾値をＥ２とした場合、雑音レベルが低い場
合に有声音Ｂを無声音Ａと判別する判別誤りが増加す
る。また、Ｅ３を無声音Ｄと有声音Ｂを最適に分離する
固定閾値とすると、雑音レベルが小さい場合にＥ１を、
雑音レベルが大きい場合にＥ２を固定閾値に用いた場合
に比べて、判別誤りが増加するのは明かである。また、
以上のどの閾値を使う場合でも、判別パラメータ２０が
その閾値近辺の値のときは判別誤りが多く、信頼性が低
くなる。

【０００６】

【発明が解決しようとする課題】従来の有声音・無声音
判別装置は以上のように構成されており、ケプストラム
の低次項の和だけを判別パラメータとしているために、
判別パラメータが判別閾値近辺の値のときは判別誤りが
多く、また、有声音と無声音を判別する判別閾値を設定
するとき想定した背景雑音レベルと異なった雑音レベル
を持つ音声の場合に判別誤りが増加するという課題があ
る。また、音声信号には有声音的な特徴と無声音的な特
徴を合わせ持つ中間的な状態の音声フレームがしばしば
現れるが、従来の有声音・無声音判別装置では有声音と
無声音の中間的な状態を表現することができず、従って
判別できないという課題がある。

【０００７】本発明は上記のような課題を解決するため
になされたもので、入力音声のフレームを分析して得る
判別パラメータの判別閾値近辺においても判別誤りが少
なく、また、背景雑音レベルの高低に依存せず判別誤り
が少ない有声音・無声音判別装置を得ることを目的とし
ている。また、有声音的な特徴と無声音的な特徴を合わ
せ持つ中間的な状態の音声フレームも判別できる有声音
・無声音判別装置を得ることを目的とする。

【０００８】

【課題を解決するための手段】この発明に係る音声判別
装置は、音声信号の有声音、無声音、無音の判別をする
音声判別装置において、入力音声の背景雑音レベルを求
め、この背景雑音レベルを多値化し、雑音レベルとして
出力する雑音レベル判定手段と、有声音、無声音、無音
を判別するための複数の異なる判別条件を予め備えると
ともに、上記多値化された雑音レベルを用いて、上記複
数の異なる判別条件の中から有声音、無声音、無音を判
別する判別条件を選択し、この選択された判別条件を用
いて有声音、無声音、無音判別を行う照合手段とを備え
たこと特徴とする。

【０００９】この発明に係る音声判別装置は、音声信号
の有声音、無声音、無音の判別をする音声判別装置にお
いて、入力音声の背景雑音レベルを求め、この背景雑音
レベルを多値化し、雑音レベルとして出力する雑音レベ
ル判定手段と、有声音、無声音、無音を判別するための
判別パラメータを算出するために使用する複数の定数組
を予め備えるとともに、上記多値化された雑音レベルを
用いて、上記複数の定数組の中から判別パラメータを算
出するために使用する定数組を選択し、この選択された
定数組を用いて判別パラメータを算出し、さらに、算出
した判別パラメータを用いて、有声音、無声音、無音判
別を行う照合手段とを備えたことを特徴とする。

【００１０】上記雑音レベル判定手段は、多値化した雑
音レベルをフレーム毎に出力し、上記照合手段は、有声
音、無声音、無音判別をフレーム毎に行うこと特徴とす
る。

【００１１】この発明に係る音声判別装置は、音声信号
の有声音、無声音、無音を判別する音声判別装置におい
て、入力音声のフレームを分析して得る所定のパラメー
タの値に基づいて、入力音声のフレームを有声音、無声
音、無音のいずれかの判別結果に到達する確率の大小に
対応した複数の区分に分類し、各区分毎に予め用意した
判別条件に従って、有声音、無声音、無音の判別結果を
出力する照合手段を備えたことを特徴とする。

【００１２】上記照合手段は、入力音声のフレームを分
析して得る判別パラメータを有声音、無声音、無音判別
の判別条件と照合し、有声音、無声音、無音いずれかの
区分に入る場合は有声音、無声音、または、無音を判別
結果として出力し、いずれの区分にも確実に入らない場
合、有声音的特徴を有するときは準有声音として、無音
的特徴を有するときは準無音として、判別結果を出力
し、有声音、無声音、または、無音の他に、中間的な準
有声音、準無音を判別結果として出力することを特徴と
する。

【００１３】

【作用】この発明の以下に述べる実施例では、音声信号
の有声音、無声音の判別をする有声音・無声音判別装置
において、入力音声フレームを分析して得る判別パラメ
ータの値に基づいて、有声音、無声音、無音を判別する
判別条件を複数の異なる判別条件の中から選択し、さら
に、上記の選択した判別条件に従って、パワー、正規化
自己相関のピーク値、零交差数、第１次の線形予測係
数、過去の音声フレームの判別結果、ケプストラムの低
次項の中から少なくとも一つを判別パラメータとして用
い、所定の閾値と照合して、上記有声音、無声音、無音
の判別結果を出力する照合手段が動作することにより、
有声音、無声音、無音判別の判別誤りを少なくすること
ができる。

【００１４】この発明の以下に述べる実施例では、音声
信号の有声音、無声音の判別をする有声音・無声音判別
装置において、入力音声フレームを分析して得る判別パ
ラメータを有声音、無声音、無音判別の判別条件と照合
し、いずれかの区分に入る場合は有声音、無声音、また
は無音を判別結果として出力し、いずれの区分にも確実
に入らぬ場合、有声音的特徴を有するときは準有声音と
して、無音的特徴を有するときは準無音として判別結果
を出力するよう照合手段が動作することにより、有声
音、無声音、または無音の他に中間的な準有声音、準無
音を判別結果として出力することができる。

【００１５】この発明の以下に述べる実施例では、音声
信号の有声音、無声音の判別をする有声音・無声音判別
装置において、入力音声フレームの背景雑音レベルを求
め雑音レベルとして出力するよう雑音レベル判定手段が
動作することにより、上記の雑音レベルの値により、有
声音、無声音、無音を判別する判別条件を複数の異なる
判別条件の中から選択し、入力音声のフレームを分析し
て得られた判別パラメータと所定の閾値とを照合して有
声音、無声音、無音判別を行うよう照合手段が動作する
ことにより、雑音レベルの値により、有声音、無声音、
無音判別の閾値を変化させることができる。

【００１６】この発明の以下に述べる実施例では、雑音
レベル判定手段が、入力音声フレームと過去の音声フレ
ームの、判別結果、パワー、正規化自己相関のピーク値
の中から少なくとも一つを判別パラメータとして用い、
所定の閾値と照合することにより、入力音声フレームと
過去の音声フレームについて有声音区間と無音区間に該
当する区間を決定し、上記の有声音区間と無音区間のパ
ワーの平均を算出して、それぞれ有声音平均パワーと無
音平均パワーとし、上記の有声音平均パワーと上記無音
平均パワーとを比較することにより、雑音レベルの高低
を判定し出力することができる。

【００１７】この発明の以下に述べる実施例では、雑音
レベル判定手段が、過去の音声フレームの平均パワーよ
り入力音声のフレームのパワーが大きいフレームのパワ
ーの平均を入力音声のフレーム毎に更新しながら算出し
て有声音平均パワーとし、且つ、過去の音声フレームの
平均パワーより入力音声のフレームのパワーが小さいフ
レームのパワーの平均を入力音声のフレーム毎に更新し
ながら算出して無音平均パワーとして、上記有声音平均
パワーと上記無音平均パワーとを比較することにより、
雑音レベルの高低を判定し出力することができる。

【００１８】

【実施例】実施例１．図１は本発明に係わる有声音・無声音判別装置の実施例
１を示す構成ブロック図である。図１において、１は入
力音声のフレームを分析して得る判別パラメータとして
のパワー、２は正規化自己相関のピーク値、３は零交差
数、４は第１次の線形予測係数、５は雑音レベル判定手
段、６は雑音レベル、７は無音平均パワー、８は有声音
平均パワー、９は閾値算出手段、１０はパワー判別閾
値、１１は照合手段、１２は判別結果、１３はレジス
タ、１４は過去の音声フレームのパワー、１５は過去の
音声フレームの正規化自己相関ピーク値、１６は過去の
音声フレームの判別結果、１７はケプストラムの低次項
である。

【００１９】以下、図１の有声音・無声音判別装置の動
作について図を参照して説明する。先ず、雑音レベル判
定手段５では、入力音声のフレームの正規化自己相関ピ
ーク値２と、レジスタ１３に格納されている過去の正規
化自己相関ピーク値１５と、過去の音声フレームの判別
結果１６に対して予め設定している無音区間の判別条件
（例えば、１０フレーム連続で正規化自己相関ピーク値
２が所定の閾値P1を下回り、かつ無音と判別されてい
る）を満足する区間の平均パワーを、入力音声のフレー
ムのパワー１と過去の音声フレームのパワー１４とより
求め、無音平均パワー７として出力する。一方、有声音
区間の判別条件（例えば、５フレーム連続で正規化自己
相関のピーク値が所定の閾値Ｐ２以上である）を満足す
る区間の平均パワー有声音区間の判別条件を、入力音声
のフレームのパワー１と過去の音声フレームのパワー１
４とより求め、有声音平均パワー８として出力する。上
記の無音平均パワー７と上記の有声音平均パワー８との
差が、所定の閾値D1より小さい場合は、雑音レベルが高
いと判定し、雑音レベル判定手段５の出力である雑音レ
ベル６として“１”を出力し、一方、上記所定の閾値Ｄ
１より大きい場合は、雑音レベルが低いと判定し、雑音
レベル判定手段５の出力である雑音レベル６として
“０”を出力する。

【００２０】次に、閾値算出手段９では、入力された雑
音レベル６が“０”の場合は式（１）により、“１”の
場合を式（２）により、雑音レベル判定手段５から入力
された無音平均パワー７をＰＵＶ、有声音平均パワー８
をＰＶとして、上記入力音声のフレームのパワーの判別
閾値を決定し、式（１）および式（２）に示す閾値算出
手段９の出力であるパワー判別閾値１０を照合手段１１
に送出する。

【００２１】

【数１】

【００２２】但し、ＴＨ１，ＴＨ２，ＴＨ３はパワーの
判別閾値、ＰＵＶは無音平均パワー、ＰＶは有声音平均
パワーを表す。

【００２３】次に、照合手段１１では、入力音声フレー
ムのパワー１、正規化自己相関のピーク値２、零交差数
３、第１次の線形予測係数４、ケプストラムの低次項の
和１７、雑音レベル判定手段５からの雑音レベル６、閾
値算出手段９からのパワー判別閾値１０、レジスタ１３
からの過去の音声フレームの判別結果１６を、入力と
し、例えば、先ず、下記のａもしくは、ｂ〜ｅの区分の
いずれかを選択する。ａの場合、即ち判別条件の式
（３）のいずれかの論理積を満足する場合は無声音と判
別して判別結果１２を出力する。ｂ〜ｅの場合、ｂ〜ｅ
の区分のいずれの区分を選択するかは、閾値算出手段９
からのパワー判別閾値１０であるＴＨの値と、入力音声
フレームのパワー１であるＰＯＷの値の大小関係により
決める。以上において、ａは無声音と判別できる場合、
ｂは有声音の確率が高い場合、ｃは有声音の確率がやや
高い場合、ｄは無音の確率がやや高い場合、ｅは無音の
確率が高い場合に相当する。

【００２４】次に、上記のｂ〜ｅの区分のいずれの区分
を選択したかにより、それぞれ図２，図３，図４，図５
の判別フローに従い、有声音、準有声音、準無音、無音
のいずれかを判別し、判別結果１２を出力する。なお、
ａ〜ｅの区分において、有声音、無声音、無音と判別で
きる判別条件はそれぞれ異なっているため、判別条件は
それぞれの区分において個別的に設定する必要が有り、
この判別条件は実験的に決定している。ここで、準有声
音とは有声音と判別される条件のいくつかが欠けている
場合を指し、また準無音とは無音と判別される条件のい
くつかが欠けている場合を指すものと定義する。

【００２５】

【数２】

【００２６】ｂ：ＰＯＷ＞ＴＨ１の場合、図２により判別する。ｃ：ＴＨ１≧ＰＯＷ＞ＴＨ２の場合、図３により判別す
る。ｄ：ＴＨ２≧ＰＯＷ＞ＴＨ３の場合、図４により判別す
る。ｅ：ＰＯＷ≦ＴＨ３の場合、図５により判別する。但し、上記のａ区分の判別式、ｂ〜ｅ区分の図２，３，
４，５において、ＴＨ１，ＴＨ２，ＴＨ３はパワー判別
閾値１０（但し、ＴＨ１＞ＴＨ２＞ＴＨ３）、ＰＵＶは
無音平均パワー７、ＰＶは有声音平均パワー８、ＰＯＷ
はパワー１、ＡＣは正規化自己相関のピーク値２、Ｃは
ケプストラムの低次項の和１７、ＣＭＩＮはケプストラ
ムの低次項の和の判別閾値、Ｚは零交差数３、Ａ１は第
１次の線形予測係数４、ＮＬは雑音レベル６、ＶＯは過
去の音声フレームの判別結果１６、T1,T11,T12,T2,T21,
T22,T23,T24,T3,T31,T32,T33,T34,T4,T41,T42,T43,T44
は全て固定閾値を表す。

【００２７】次に、レジスタ１３では、入力音声のフレ
ームのパワー１、正規化自己相関のピーク値２、蓄積さ
れた過去の１０フレームのパワー、正規化自己相関ピー
ク値、照合手段の判別結果を更新する。

【００２８】実施例２．実施例１では、無音平均パワーと有声音平均パワーによ
りパワーの判別閾値を決定しているが、過去の音声フレ
ームのパワーの最大値よりパワー判別閾値を、例えば、
式（４）によって決定することも可能である。

【００２９】

【数３】

【００３０】但し、式（４）において、ＴＨ１，ＴＨ
２，ＴＨ３はパワーの判別閾値、Ｐmax は例えば、過去
３０フレームにおけるパワーの最大値を表す。また、過
去の音声フレームにおけるパワーの最大値を用い、無音
平均パワーと有声音平均パワーより求められたパワー判
別閾値を補正する、または有声音、無声音、無音の判別
結果を補正することも可能である。

【００３１】実施例３．実施例１では、図２に従い正規化自己相関関数のピーク
値、過去の音声フレームの判別結果、雑音レベルによっ
て無音判別をしているが、例えばケプストラム係数の低
次項を用いて過去に無音と判別されたフレームのスペク
トル概形を求め、このスペクトル概形と入力音声のフレ
ームのスペクトルの距離とにより無音判別を行うことも
可能である。

【００３２】実施例４．実施例１では、入力音声のフレーム毎に分析して得られ
る判別パラメータを用いて判別をしているが、入力音声
のフレームを複数個のサブフレームに分割し、サブフレ
ーム毎に分析して得られるパラメータを用いて判別を行
う、または判別結果を補正することも可能である。

【００３３】実施例５．実施例１では、判別条件の区分をするのに判別パラメー
タとして入力音声のフレームのパワーを用いているが、
ケプストラムの低次項の和を用いることも可能である。

【００３４】実施例６．実施例１では、雑音レベルを２値判別しているが、これ
を多値または連続的な数値とすることも可能である。

【００３５】実施例７．実施例１において、フレーム内最大振幅値を判別パラメ
ータに含めることも可能である。

【００３６】

【発明の効果】以上のようにこの発明によれば、入力音
声のフレームを分析して得る判別パラメータの判別閾値
近辺においても、判別誤りが少なく、また、背景雑音レ
ベルの高低に依存せず、判別誤りが少ない有声音・無声
音判別装置を得ることができる。また、有声音的な特徴
と無声音的な特徴を合わせ持つ中間的な状態の音声フレ
ームも判別できる有声音・無声音判別装置を得ることが
できる。

【図面の簡単な説明】

【図１】本発明の実施例１を示す有声音・無声音判別装
置の構成ブロック図である。

【図２】図１の有声音・無声音判別装置の判別条件を例
示する図である。

【図３】図１の有声音・無声音判別装置の判別条件を例
示する図である。

【図４】図１の有声音・無声音判別装置の判別条件を例
示する図である。

【図５】図１の有声音・無声音判別装置の判別条件を例
示する図である。

【図６】従来の有声音・無声音判別装置を示す構成図で
ある。

【図７】図６の有声音・無声音判別装置の判別パラメー
タの分布を示す図である。

【符号の説明】

１入力音声のフレームのパワー２正規化自己相関のピーク値３零交差数４第１次の線形予測係数５雑音レベル判定手段６雑音レベル７無音平均パワー８有声音平均パワー９閾値算出手段１０パワー判別閾値１１照合手段１２判別結果１３レジスタ１４過去の音声フレームのパワー１５過去の音声フレームの正規化自己相関ピーク値１６過去の音声フレームの判別結果１７ケプストラムの低次項１８ケプストラム１９加算回路２０判別パラメータ２１閾値比較回路２２判別結果

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭59−212898（ＪＰ，Ａ) 特開平４−100099（ＪＰ，Ａ) 特開平５−173592（ＪＰ，Ａ) 特開平６−118993（ＪＰ，Ａ) 特表平１−502779（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 11/00 - 11/06

Claims

(57)【特許請求の範囲】

【請求項１】音声信号の有声音、無声音、無音の判別
をする音声判別装置において、入力音声の背景雑音レベルを求め、この背景雑音レベル
を多値化し、雑音レベルとして出力する雑音レベル判定
手段と、有声音、無声音、無音を判別するための複数の異なる判
別条件を予め備えるとともに、上記多値化された雑音レ
ベルを用いて、上記複数の異なる判別条件の中から有声
音、無声音、無音を判別する判別条件を選択し、この選
択された判別条件を用いて有声音、無声音、無音判別を
行う照合手段とを備えたこと特徴とする音声判別装置。
【請求項２】音声信号の有声音、無声音、無音の判別
をする音声判別装置において、入力音声の背景雑音レベルを求め、この背景雑音レベル
を多値化し、雑音レベルとして出力する雑音レベル判定
手段と、有声音、無声音、無音を判別するための判別パラメータ
を算出するために使用する複数の定数組を予め備えると
ともに、上記多値化された雑音レベルを用いて、上記複
数の定数組の中から判別パラメータを算出するために使
用する定数組を選択し、この選択された定数組を用いて
判別パラメータを算出し、さらに、算出した判別パラメ
ータを用いて、有声音、無声音、無音判別を行う照合手
段とを備えたことを特徴とする音声判別装置。
【請求項３】上記雑音レベル判定手段は、多値化した
雑音レベルをフレーム毎に出力し、上記照合手段は、有声音、無声音、無音判別をフレーム
毎に行うこと特徴とする請求項１または２記載の音声判
別装置。
【請求項４】音声信号の有声音、無声音、無音を判別
する音声判別装置において、入力音声のフレームを分析
して得る所定のパラメータの値に基づいて、入力音声の
フレームを有声音、無声音、無音のいずれかの判別結果
に到達する確率の大小に対応した複数の区分に分類し、
各区分毎に予め用意した判別条件に従って、有声音、無
声音、無音の判別結果を出力する照合手段を備えたこと
を特徴とする音声判別装置。
【請求項５】上記照合手段は、入力音声のフレームを分析して得る判別パラメータを有
声音、無声音、無音判別の判別条件と照合し、有声音、
無声音、無音いずれかの区分に入る場合は有声音、無声
音、または、無音を判別結果として出力し、いずれの区
分にも確実に入らない場合、有声音的特徴を有するとき
は準有声音として、無音的特徴を有するときは準無音と
して、判別結果を出力し、有声音、無声音、または、無音の他に、中間的な準有声
音、準無音を判別結果として出力することを特徴とする
請求項１〜４いずれかに記載の音声判別装置。