JPH0114599B2

JPH0114599B2 -

Info

Publication number: JPH0114599B2
Application number: JP56029948A
Authority: JP
Inventors: Akihiro Kimura; Kyoshi Iwata; Yasuhiro Nara
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1981-03-04
Filing date: 1981-03-04
Publication date: 1989-03-13
Also published as: JPS57144597A

Description

【発明の詳細な説明】本発明は音声信号処理装置に係り、特に、音声
信号波の音声区間と無音声区間の識別を、雑音特
性、音声パラメータ変動情報等を用いて行う音声
信号処理装置に関する。

音声信号波には音声区間と無音声区間が繰返し
現われる。音声信号波を良好なSN比で再生する
ためには、音声区間と無音声区間を区別して音声
区間の信号波のみを再生することが要求される。
ところが種々な雑音環境では無音声区間に雑音が
含まれているので音声区間と無音声区間とを区別
するためには困難を伴う。

音声信号波の短区間エネルギが、前もつて設定
された閾値を越えた区間を音声区間、それ以外の
区間を無音声区間とする方式は従来から知られて
いる。この従来方式では、雑音の特性（雑音エネ
ルギの平均、分散等）が変化すると閾値を再設定
する必要があり、又、エネルギの時間変動の情報
を利用していないので、無音声区間の雑音エネル
ギより小さい音声エネルギの音声区間を検出でき
なかつた。

無音声区間の雑音エネルギより小さい音声エネ
ルギの音声区間を検出するために、２つの閾値を
用いる方式が知られているが、種々の雑音環境下
で２つの閾値を適切に再調整して決定することは
困難であつた。

本発明の目的は上述の従来技術における問題点
にかんがみ、音声信号波に含まれる無音声区間の
雑音特性を音声信号波の一部又は全体から適切に
推定することにより二種類の閾値を自動的に設定
し、閾値を二種類設定することにより音声パラメ
ータの時間変動の情報を利用して音声区間の検出
をすることによつて、音声信号処理装置におい
て、音声信号波の無音声区間と音声区間を閾値の
再調整なしに正確に分離することを可能にするこ
とにある。

以下、本発明の実施例を添附の図面に基づいて
説明する。

第１図Ａは本発明を説明するための音声信号波
の１例を示す波形図である。図において、横軸ｔ
は時間軸を表わし、縦軸Ｅは音声信号波のエネル
ギを対数表示したものである。図示されている音
声信号波形には音声区間と無音声区間とが繰返さ
れており、本発明によりこれらを識別する。この
ために、まず無音声区間の雑音の特性を音声信号
波形の一部又は全体から推定する。この推定は音
声信号波形の各エネルギレベルについて音声信号
波形の一部又は全ての時間における度数を累積し
たヒストグラムを作成することによつて行う。第
１図Ｂはこうして得られたヒストグラムを示して
いる。第１図Ｂのヒストグラムにおいて、横軸Ｓ
は累積度数を表わし、縦軸は第１図Ａと同様に音
声信号波のエネルギを対数表示したものである。
第１図Ｂにおいて、累積度数が最大を示す縦軸の
エネルギレベルは雑音の平均エネルギレベルと
みなすことができる。また、最低のエネルギレベ
ルはNMINで示されている。雑音平均エネルギ
レベルと最低エネルギレベルNMINとの差ND
は雑音変動レベルとみなすことができる。すなわ
ち、雑音エネルギは雑音平均エネルギレベルを
中心として雑音変動レベルNDの幅で変動するも
のと考えられる。真の音声区間を識別するため
に、まず音声区間候補の区間を第１図に示された
音声信号波形から抽出する。このために、第１閾
値TH１を次の式(1)で決定する。

TH1＝＋ND ……(1) 雑音エネルギは雑音平均エネルギレベルの上
下に均等に分布するので、第１閾値TH１を越え
る雑音エネルギが存在する可能性は極めて低く、
従つて音声信号波形が第１閾値より大の区間は真
の音声区間の部分集合と考えてよい。この部分集
合を音声区間候補とする。第１図Ａにおいては、
第１閾値と音声信号波形との交点x₁及びx₂で挾ま
れた区間ａと交点x₃及びx₄で挾まれた区間ｂの２
つの音声区間候補が示されている。実際には真の
音声区間は、第１閾値より低いエネルギレベルの
区間にも存在し得る。真の音声区間を抽出するた
めに、第２閾値TH２を次の式(2)で決定する。

TH2＝＋NA ……(2) ここで、NAは零に等しいか、零より大で雑音
変動レベルNDより小の適当な値でよいが、本実
施例においてはNAを零として、第２閾値TH２
を雑音平均レベルに等しく設定する。第１閾値
TH１によつて切り取られた音声区間候補ａ，ｂ
の前後で、音声信号波形のエネルギレベルが第２
閾値TH２と交わる点x₅及びx₆で挾まれた区間ｃ
は、真の音声区間として認識される。すなわち、
音声区間候補ａ及びｂの近傍で第１閾値より小の
エネルギレベルを有する音声波形も音声区間の波
形とみなされたことになる。

以上に述べた方式により、真の音声区間ｃの範
囲外にある無音声区間ｄの音声信号波形は、例え
ば点Ａで示されるように雑音変動レベルが比較的
高いものでも音声信号とはみなされない。また、
真の音声区間ｃの範囲内にある音声信号波形は、
例えば点Ｂで示されるようにエネルギレベルが比
較的低いものでも音声信号として識別される。

他の音声の多次元パラメータを用いる場合も、
多次元パラメータ空間中のあるベクトルＡ→と各音
声パラメータとの内積又はその非線形変換が上で
述べた対数表示のエネルギと同等の性質になるよ
うにベクトルＡ→を選べば、上述の方式と同様にし
て音声区間と無音声区間を分離できる。

第２図は本発明による音声信号処理装置を１実
施例を示すブロツク回路図である。第２図におい
て、概略的には、マイクロフオン１から入力され
た音声は、前処理装置１２によつて本発明により
音声区間と無音声区間を識別した後に、音声区間
の信号のみを音声認識装置１３に送出する。更に
詳細には、マイクロフオン１から入力された音声
の信号は音声入力部２を通つて短区間エネルギ計
算部３に入力される。短区間エネルギ計算部３で
は音声信号波形の数十ミリ秒の単位時間毎のエネ
ルギが計算され、その値が対数変換部４において
対数変換される。一定の個数の単位時間のエネル
ギは時間順にエネルギバツフア８に並べられる。
エネルギバツフア８の内容はヒストグラム計算部
９に送られ、そこで各対数エネルギの頻度が計算
されてピーク及び最低レベル抽出部１０に入力さ
れる。ピーク及び最低レベル抽出部１０ではヒス
トグラムのピーク及び最低レベルの抽出が行わ
れ、抽出結果は閾値計算部１１に入力される。閾
値計算部１１では、前述の式(1)及び式(2)に相当す
る演算が行われ、その演算結果は識別部７に送ら
れる。識別部７では閾値TH１及びTH２をエネ
ルギバツフアの出力と比較し、第１図Ａ，Ｂにつ
いて前述した方式により無音声区間を識別する。
一方、音声バツフア５には、エネルギバツフア８
にその時点で蓄積されているエネルギデータに対
応する音声波形が、音声入力部２から送られて蓄
積されている。無音声符号置換部６では識別部７
からの無音声区間情報によつて音声バツフアの各
無音声区間を無音声符号に置き換え、その結果を
音声認識装置に送出する。

以上の説明から明らかなように、本発明によれ
ば、音声信号波の音声区間と無音声区間を正確に
識別することができるので、音声信号波の無音声
区間に高度な信号処理を行なう必要がなくなり、
音声認識装置の負担の軽減、無音声区間の正確な
識別による破裂音検出率の向上という効果が得ら
れる。

なお、本発明は前述の実施例に限定されるもの
ではなく、例えば第２閾値を必要に応じて雑音変
動レベルの範囲内の任意の値に設定してもよい。

【図面の簡単な説明】

第１図Ａは本発明を説明するための音声信号波
の１例を示す波形図、第１図Ｂは第１図Ａから得
られたヒストグラム、第２図は本発明による音声
信号処理装置の１実施例を示すブロツク回路図で
ある。Ｅ……エネルギの対数表示、Ｓ……累積度数、
Ｎ……雑音の平均エネルギレベル、NMIN……
最低エネルギレベル、TH１……第１閾値、ND
……雑音変動レベル、ａ，ｂ……音声区間候補、
ｃ……音声区間、ｄ……無音声区間、TH２……
第２閾値、１……マイクロフオン、２……音声入
力部、３……短区間エネルギ計算部、４……対数
変換部、５……音声バツフア、６……無音声符号
置換部、７……識別部、８……エネルギバツフ
ア、９……ヒストグラム計算部、１０……ピーク
及び最低レベルの抽出部、１１……閾値計算部、
１２……前処理装置、１３……音声認識装置。

Claims

【特許請求の範囲】

１音声信号波から雑音を除去するための前処理
装置と、該前処理装置の出力に接続されており音
声を認識するための音声認識装置とからなる音声
信号処理装置において、該前処理装置は、該音声
信号波の一部又は全体の単位時間毎のエネルギを
計算する短区間パワー計算部、該エネルギの各レ
ベル毎の頻度をヒストグラムとして求めるヒスト
グラム計算部、該ヒストグラムにおける最大頻度
のエネルギレベルを雑音平均エネルギレベルとみ
なし、該雑音平均エネルギレベルと該ヒストグラ
ムにおける最小エネルギレベルとの差を該雑音平
均エネルギレベルに加えたレベルを閾値として求
める閾値計算部、及び該閾値よりエネルギが大の
音声信号波を音声区間候補とし該音声区間候補の
時間軸上の前後で該音声信号波のエネルギレベル
が該雑音平均エネルギレベルに実質的に一致した
点で挾まれた区間を音声区間とみなすようにした
音声区間識別部を具備することを特徴とする音声
信号処理装置。