JP3023135B2

JP3023135B2 - 音声認識装置

Info

Publication number: JP3023135B2
Application number: JP2072132A
Authority: JP
Inventors: 博史金澤; 洋一竹林; 宏之坪井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1990-03-23
Filing date: 1990-03-23
Publication date: 2000-03-21
Anticipated expiration: 2015-03-21
Also published as: JPH03273299A

Description

【発明の詳細な説明】〔発明の目的〕（産業上の利用分野）本発明は、単語音声等に対する認識性能を効果的に高
めることのできる音声認識装置に関する。

（従来の技術）従来より、単語や文節等を対象とした音声認識では、
その入力音声の終始端を求めるのに、入力された音声の
パワーに対して閾値を設ける等して入力音声のレベル変
動に対処している。

しかし乍ら、この手法は、入力音声の終始端を求める
ためになされるもので、認識辞書とのパターン照合に供
される音声特徴ベクトルに対してなされるものではなか
った。

一方、パターン照合において、認識辞書と音声特徴ベ
クトルとの類似度（または距離）を求める際に音声特徴
ベクトルに対して、前処理として正規化処理がなされる
のが一般的である。この例としてベクトルのノルムの大
きさをかえずに、平均値を０にするようベクトルの各要
素をシフトしたり（正準化）、ベクトルのノルムで各ベ
クトル要素を割算することにより、ベクトルの大きさを
１にする等の処理があげられる。しかし、これらの処理
は、得られる類似度値を例えば0.0から1.0までの範囲に
するために行なわれるもので、音声特徴ベクトルは、単
に線形変換が施されたにすぎない。実際には音声を入力
する場合、周辺の環境や個人差に伴う声の大小とA/D変
換器の有効ビット数との関係で入力音声に対して（非線
形の）打ち切りが生ずるため、入力音声のダイナミック
レンジに対する考慮が必要となる。

しかし、上記のパターン照合におけるレベル変動に対
する処理は、音声のダイナミックレンジについて考慮し
ておらず、このことが認識性能の劣化の原因となってい
た。

また、雑音の重畳した音声を認識する際の前処理法と
して、音声の始端が検出されるまでの背景雑音の周波数
スペクトルのうちの最小値を、入力音声の周波数スペク
トルの時系列より差し引き負の値となった場合は零とす
ることにより雑音を除去し、雑音の認識に及ぼす影響を
少なくする手法（ノイズサブトラクション法）が提案さ
れている。これは、雑音を除去するための非線形な処理
を導入しているが、上記の入力音声のレベル変動に対し
ては、何の対策も講じておらず、かつ上記のダイナミッ
クレンジの問題についても、考慮していないため、音声
のレベル変動に起因する認識性能の劣化は否めなかっ
た。

（発明が解決しようとする課題）このように従来の音声認識装置にあっては、音声の終
始端検出の際に音声のレベル変動に対処したり、あるい
は、パターン照合においては、類似度演算のために音声
特徴ベクトルに対して線形のパターン正規化を施した
り、音声のレベル変動及びダイナミックレンジを考慮し
ていないノイズトラクション法等により、音声特徴ベク
トルを求めているだけなので、実際の音声認識の場面で
は、音声のレベル変動の影響をうけて、認識性能が劣化
するという不具合があった。

本発明はこのような事情を考慮してなされたもので、
その目的とするところは、入力音声のレベル変動に対し
てロバストな音声認識装置を提供することにある。

〔発明の構成〕

（課題を解決するための手段）本発明は、入力された音声データを周波数分析して音
声特徴パラメータを求める音声分析手段と、この音声特
徴パラメータから音声特徴ベクトルを抽出する音声特徴
ベクトル抽出手段と、抽出された音程特徴ベクトルと音
声認識辞書とを照合して認識結果を出力する認識手段と
を備えた音声認識装置において、音声特徴ベクトルの大
きさを示す情報に従って所定の音声のダイナミックレン
ジを確保するよう定められた打ち切りレベルを用いて音
声特徴ベクトルのレベル変動に対する正規化処理を行な
う音声特徴ベクトルレベル正規化手段を備え、前記認識
手段は正規化された音声特徴ベクトルと音声認識辞書と
を照合して認識結果を出力することを特徴とする。

また、こうして求められる音声特徴ベクトルを用いる
ことで、入力音声のレベル変動に対してロバストな認識
が可能となるようにしたことを特徴とするものである。

（作用）本発明によれば、認識に供される音声特徴ベクトル
を、入力音声のレベルを基に求められた閾値で打ち切っ
た音声特徴パラメータの時系列から抽出することによ
り、入力音声のレベル変動を吸収した音声特徴ベクトル
を抽出することが可能となり、認識性能の向上を図るこ
とが可能となる。

（実施例）以下、図面を参照して本発明の一実施例に係る音声認
識装置について説明する。

第１図は実施例装置の基本的な概略構成を示すブロッ
ク図である。

音声入力部１は、例えばマイクロフォン等を介して入
力される音声データの5.4KHz以上の高周波成分を除去す
るローパスフィルタ（LPF）と、このLPFを介した入力音
声を標本化周波数12KHz,量子化ビット数16ビットでディ
ジタル信号に変換するA/D変換器を備えて構成される。
上述した入力音声のディジタル化処理については例えば
8KHzの標本化周波数にて、量子化ビット数が12ビットの
ディジタル信号を求めるようにしても良く、その仕様は
入力音声に対して要求される認識性能に応じて定められ
る。

この音声入力部１にてディジタル信号変換されて取り
込まれた入力音声データは、音声分析部２に入力され、
例えば256点のDFT（離散的フーリエ変換）分析により、
8msec毎に、128点の周波数スペクトルが求められ、その
スペクトルのパワーを周波数方向に平滑化し、周波数方
向を８個または16個に分割した８チャンネルまたは16チ
ャンネルのフィルタバンク出力Zi（ｉ＝1,…,8またはｉ
＝1,…,16）を求め、これらのフィルタバンク出力を対
数化することにより Gi＝10log₁₀Zi （ｉ＝1,…,8またはｉ＝1,…,16）８次元または16次元の音声特徴パラメータGiが求められ
る。

終始端検出部３では、例えば入力音声データのエネル
ギー変化等からその始端点と終端点が検出される。その
検出アルゴリズムは従来より種々提唱されている手法を
適宜採用可能であり、ここでは本発明の主旨とは直接的
な係わりがないことから、その具体的な説明については
省略する。

前記音声特徴パラメータの時系列と、終始端検出部に
おいて求められた終始端情報を入力する音声特徴ベクト
ル抽出部５は、終始端点間で示される音声区間の特徴パ
ラメータの時系列を時間方向に例えば12点にリサンプル
処理し、周波数方向16次元，時間方向12次元の計192次
元の音声特徴ベクトルを抽出する。

音声特徴ベクトルレベル正規化部６では、前記音声特
徴ベクトル抽出部５において抽出された音声特徴ベクト
ルのレベル変動に対する正規化処理を行なう。

第２図に音声特徴ベクトルのレベル正規化の一処理例
の手続きの流れを示す。

音声特徴ベクトルレベル正規化部６に入力された音声
特徴ベクトルSi（例えばｉ＝1,…,192）は、まず、192
のベクトルの要素の中から最大値Smaxが検出される。こ
れは、音声特徴ベクトルのレベルを示す情報を求めるた
めの処理であり、上記のとおり本処理例では、音声特徴
ベクトルのレベルを示す情報としてベクトルの要素中の
最大値を用いている。

次に求められた最大値Smaxと、所定の音声のダイナミ
ックレンジＤにより、音声特徴ベクトル対する打ち切り
レベルＴを以下のとおり設定する。

Ｔ＝Smax−Ｄ前記打ち切りレベルＴを用いて音声特徴ベクトル＄
（＝Si（ｉ＝1,…,192））に対して以下の処理を行う。

Si′＝Si−Ｔ（ｉ＝1,…,192）ここでSi′が負の値となった場合は、Si′の値を０と
する。

こうして新たに求められた音声特徴ベクトル＄′がパ
ターン照合部７へ送られる。上記の処理は、第３図に示
すように抽出された音声特徴ベクトルの最大値から定め
たダイナミックレンジを確保し、最大値からダイナミッ
クレンジ分をさしひいた値以下の部分を全ベクトル要素
から除去することで音声のレベルの正規化を計ってい
る。

この処理により、入力音声のレベル変動が低くおさえ
ることが可能となるとともに、ダイナミックレンジを考
慮することによりパターン照合の際に用いられる音声パ
ターン（音声特徴ベクトル）の音響的特徴を効果的に表
現できるので、大幅な認識性能の向上が可能となる。

また、上記音声特徴ベクトルのレベル正規化の際に、
レベルを示す情報として、音声特徴ベクトルの最大値を
用いたが、それに変って音声特徴ベクトルの平均エネル
ギーを用いることも可能である。

第４図に、音声特徴ベクトルのレベルを示す情報とし
て上記音声特徴ベクトルの平均エネルギーを用いた場合
の処理手続きの流れを示す。ここで音声特徴ベクトル＄
は、例えば周波数軸方向成分Giが16次元のフィルタバン
ク出力Ziを以下のように対数化したパラメータで Gi＝10log₁₀Zi（ｉ＝1,…,16）であり、時間軸方向は12点にリサンプル処理された192
次元のベクトルであるとする。

まず、前記音声特徴ベクトル＄の平均エネルギーを
求めるために、ベクトルの各要素のエネルギーEi（ｉ＝
1,…,192）を以下の式で求める。

これより平均エネルギーは以下のように求められる次に、特徴ベクトルの平均エネルギーがあらかじめ定
め平均エネルギー_０となるように打ち切りレベルＴを
設定する。それで、前記音声特徴ベクトル＄の平均エネ
ルギーとあらかじめ定めた平均エネルギーE₀の差をと
り、その差を対数化して打ち切りレベルＴとする。

＞_０の時Ｔ＝10log₁₀（−_０）＜_０の時Ｔ＝−10log₁₀（_０−）ここで、前記音声特徴ベクトルの平均エネルギーＥ
が、所定の平均エネルギー_０よりも小さい、すなわ
ち、音声のレベルが小さくて、所定のレベルに達してい
ない場合は、上式のように打ち切りレベルの負の値とす
ることで人工的にレベルの上昇を計る。（第５図参照）こうして求められた打ち切りレベルＴを用いて音声特
徴ベクトル＄のレベル正規化を以下のように行ない音声
特徴ベクトル＄を求める。

Si′＝Si−Ｔ（ｉ＝1,…,192）（但しSi′が負の場合には、Si′＝０とする）また認識処理においてはあらかじめ終始端検出を行う
ことなしに音声の終始端非固定のまま、連続的に認識辞
書との間でパターン照合を行うようにすることも可能で
ある。

第６図に連続パターン照合を行う音声認識装置の概略
構成図を示す。

ここで終始端点設定部15では入力音声の特徴パラメー
タ系列から、その特徴パラメータを求めた各分析フレー
ムを仮に設定される音声の終端点とし、その終端点を基
準として或る音声継続時間条件を満たす複数の始端点を
仮定する。（第７図参照）音声特徴ベクトル抽出部16は、上記の仮定された始終
端点間で示される仮の音声区間の特徴パラメータの時系
列を時間方向にリサンプル処理し、例えば周波数方向16
次元、時間方向12次元の192次元の音声特徴ベクトルを
抽出する。

このようにして終端点を基準として仮定された始端点
すべてについて音声特徴ベクトルを抽出し、後の処理に
供する。さらに、前記終端点は、時間軸方向にシフトさ
れ、それに伴い、前記音声特徴ベクトルが時間軸方向に
連続的に抽出される。

なお、この音声特徴ベクトルと認識辞書19との類似度
を求めるパターン照合部18と認識結果出力部14は従来よ
り種々提唱されている手法を適宜採用可能なものであ
り、ここでは本発明の主旨とは直接的な係わりがないこ
とから具体的な説明については省略する。

ちなみに、本発明者等の実験によれば次のような結果
が得られた。この実験は成人弾性87名、女性43名につい
て13都市名をそれぞれ１回発生した音声データを収集
し、その中の弾性67名、女性23名分を認識辞書の作成
（学習）に使用し、残りの評価用とした。

音声データについては、アナログ音声信号を標本化周
波数12KHzでサンプリングし、これをディジタル化した
後、フレーム周期8msec,フレーム長24msecでDFT分析
し、第６図に示す始終端非固定の連続パターン照合によ
り、〔16チャンネル×12フレーム:192次元〕の時間周波
数スペクトル音声特徴ベクトルとして、複合類似度を用
いて認識処理を行なった。

なお、前記音声データに駅構内で収集した雑音データ
を人工的に付加し、S/N（信号対雑音比）を変えて、実
験に使用した。学習用にはS/N∞20,15,10,5dBのすべて
の音声データを用い、評価用のS/Nをそれぞれ∞,20,15,
10,5dBとかえて認識率を調べた。

次に示す表がその認識率を示す実験結果である。

この実験結果に示されるように、音声のレベル正規化
を施し、複合類似度により音声認識処理を行う本装置に
よれば、その認識性能を高め得ることが確認された。

なお、本発明は上述した実施例に限定されるものでは
ない。例えば、音声特徴ベクトルの次元数を幾つに設定
するかについては、その仕様に応じて決定すれば良い。

また、実施例では、時間周波数スペクトルを音声特徴
ベクトルとして抽出しているが、時間軸方向を１フレー
ムとした周波数スペクトルを音声特徴ベクトルとしてあ
らわすことも可能である。

また、雑音の重畳した音声に対しては、前記ノイズサ
ブトラクション法により、雑音レベルを除いた後に、上
記音声レベル正規化処理を行うようにすることも可能で
ある。

更に分析手法についてもDFT分析により、音声特徴パ
ラメータの時系列を求めるものとして説明したが、バン
ドパスフィルタ出力を用いることも可能である。その他
本発明はその要旨を逸脱しない範囲で種々変形して実施
することができる。

〔発明の効果〕

以上説明したように本発明によれば、入力音声に対し
て所定のダイナミックレンジを確保して打ち切りを行う
ことにより得られた音声特徴ベクトルを認識処理に供す
るので、音声のレベル変動を低くおさえ、かつダイナミ
ックレンジを設定することで、音声の特徴を効果的に表
現し得る音声特徴ベクトルを抽出することが可能とな
り、認識性能の向上が可能となる。

【図面の簡単な説明】

第１図は本発明の一実施例の概略構成図、第２図は音声
特徴ベクトルのレベル正規化の処理図、第３図は第２図
に示す処理を具体的に表わした模式図、第４図は音声特
徴ベクトルのエネルギーを用いたレベル正規化の処理
図、第５図は第４図に示す処理を具体的に表わした模式
図、第６図は本発明の他の実施例として連続パターン照
合を行なう場合の概略構成図、第７図は第６図に示す実
施例で始終端点設定の様子を示す図である。１……音声入力部、２……音声分析部、３……始終端検
出部、４……認識処理部、５……音声特徴ベクトル抽出
部、６……音声特徴ベクトルレベル正規化部、７……パ
ターン照合部、８……認識辞書、９……認識結果出力
部。

フロントページの続き (56)参考文献特開平３−82079（ＪＰ，Ａ) 特開平３−198413（ＪＰ，Ａ) 特開昭61−170137（ＪＰ，Ａ) 特公平３−47773（ＪＰ，Ｂ２) 特公昭63−20049（ＪＰ，Ｂ２) 実公昭64−1803（ＪＰ，Ｙ２) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 21/02 G10L 15/20 H03H 17/02

Claims

(57)【特許請求の範囲】

【請求項１】入力された音声データを周波数分析して音
声特徴パラメータを求める音声分析手段と、この音声特
徴パラメータから音声特徴ベクトルを抽出する音声特徴
ベクトル抽出手段と、抽出された音程特徴ベクトルと音
声認識辞書とを照合して認識結果を出力する認識手段と
を備えた音声認識装置において、音声特徴ベクトルの大
きさを示す情報に従って所定の音声のダイナミックレン
ジを確保するよう定められた打ち切りレベルを用いて音
声特徴ベクトルのレベル変動に対する正規化処理を行な
う音声特徴ベクトルレベル正規化手段を備え、前記認識
手段は正規化された音声特徴ベクトルと音声認識辞書と
を照合して認識結果を出力することを特徴とする音声認
識装置。
【請求項２】前記音声分析手段は、所定時間毎に区切ら
れた入力音声データを周波数スペクトル情報に変換する
ことにより音声特徴パラメータを求めることを特徴とす
る請求項１記載の音声認識装置。
【請求項３】前記音声特徴ベクトル抽出手段は、抽出さ
れた音声特徴ベクトルの要素の最大値または平均エネル
ギーから求められた打ち切りレベルを用いて音声特徴ベ
クトルのレベル変動に対する正規化処理を行なうことを
特徴とする請求項１記載の音声認識装置。