JP2561850B2

JP2561850B2 - 音声処理装置

Info

Publication number: JP2561850B2
Application number: JP62503341A
Authority: JP
Inventors: ニコラス・ジョン・アーノルドフォーズ
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1986-06-02
Filing date: 1987-05-29
Publication date: 1996-12-11
Anticipated expiration: 2011-12-11
Also published as: EP0248609A1; DK282587A; JP2654503B2; US4912766A; WO1987007750A1; FI872450A0; DK282587D0; HK137096A; DE3752288T2; ATE109582T1; JPH09325790A; ATE183009T1; EP0750291B1; JPS63503487A; EP0750291A1; KR880701435A; EP0248609B1; FI872450L; DE3752288D1; KR950011963B1

Description

【発明の詳細な説明】〔技術分野〕本発明は自動利得制御機能を備えた音声処理装置に関
し、特に音声認識に関する。

〔従来の技術〕

自動音声認識装置は、可聴音声信号から抽出した特徴
を比較することにより動作する。認識しようとする音声
から抽出した特徴を既知の発話から抽出して蓄えた特徴
と比較する。

正確な認識のために、異なる時間に話された同じ語ま
たは音から抽出した特徴が、十分に類似していることが
重要である。しかし、音声のダイナミックレンジが広い
場合、特に、マイクロホンにより受信される音声レベル
が非常に広い範囲にわたって変化するハンドフリー電話
の場合には、特徴を類似させることが困難になる。この
音声レベルの変化を補償するため、多くの音声認識装置
では何らかの形態の自動利得制御（AGC）が用いられて
いる。

自動利得制御回路は、特徴抽出回路が使用する平均信
号レベルをある所定の時間にわたって可能なかぎりほぼ
一定に保つことができるように、利得を制御する。した
がって、静かな発話のときには、大声の発話に比較して
大きな利得が与えられる。この形態の自動利得制御回路
は、連続音声を入力信号とする場合には良好に動作す
る。これは、ある時間が経過すると自動利得制御回路が
信号レベルを最適化し、矛盾のない特徴抽出ができるよ
うになるからである。しかし、無音の場合には、自動制
御回路に利得が背景雑音により決定されるレベルまで増
加し、発話の開始時には、自動利得制御回路の利得が高
く設定されてしまう。発話中には回路の利得が自動的に
制限される。利得変化の速度は、自動利得制御回路の
「アタック」時間により決定される。したがって、発話
の開始時には利得が非常に大きくなり、そのときに抽出
される特徴は、その後に利得が制限されたときに抽出さ
れる同じ特徴に比較して、非常に大きなエネルギをもつ
ことになる。

〔発明が解決しようとする課題〕

この歪の効果は入力信号レベルに依存し、音声レベル
が高くなるほど歪が大きくなる。したがって、抽出され
た最初の幾つかの特徴は、論理的には同等な蓄えられた
特徴と対応せず、認識特性が不十分となることがある。

本発明はこの問題を解決するもので、自動利得制御が
行われたときにも音声認識を正確に行うことができる装
置を提供することを目的とする。

〔課題を解決するための手段〕

本発明の音声処理装置は、音声信号が供給される入力
手段と、この音声信号の周波数パラメータを抽出する信
号処理手段と、この信号処理手段の抽出した周波数パラ
メータをディジタル信号に変換するアナログ・ディジタ
ル変換器と、このアナログ・ディジタル変換器の出力デ
ータを周波数パラメータのデータとして少なくとも一時
的に蓄える蓄積手段とを備えた音声処理装置において、
信号処理手段により抽出されてアナログ・ディジタル変
換器に供給される周波数パラメータの信号レベルをその
信号レベルと前記アナログ・ディジタル変換器のダイナ
ミックレンジとに応じて自動的に制御する自動利得制御
手段と、この自動利得制御手段における信号レベルの制
御に用いられた利得係数を測定する手段と、測定された
利得係数をその利得係数のときに得られた周波数パラメ
ータのデータに対応して前記蓄積手段に蓄える手段と、
標本化周期の終了時に、音声信号の少なくとも最初の部
分について、蓄積手段に蓄えられた周波数パラメータの
データをそれぞれのデータに対応する利得係数に基づい
て補正する手段とを備えたことを特徴とする。

データを補正するには、標本化周期の間に蓄えられた
最も小さい利得係数を基準とし、それより大きい利得係
数で得られた周波数パラメータのデータをその利得係数
に応じて調整することがよい。

自動利得制御手段は、ディジタルに切り替え可能な減
衰器と、この減衰器による減衰率を制御する制御手段と
を含み、この制御手段は蓄積手段に蓄えられた周波数パ
ラメータのデータを処理するマイクロプロセッサにより
構成されることがよい。補正手段もまた同じマイクロプ
ロセッサにより実現することができる。本発明の音声処
理装置は音声認識装置の入力部として用いることがで
き、周波数パラメータのデータにより音声認識を行うマ
イクロプロセッサにより、制御手段および補正手段を実
現することができる。

自動利得制御手段は、長さｔのタイムスロットを動作
単位とし、その時間ｔを細分した時間毎にそれぞれの周
波数パラメータに対してアナログ・ディジタル変換器に
供給する信号レベルを決定し、その信号レベルがあらか
じめ定められたレベルより大きいときには利得を低減し
てその信号レベルを再び評価し、最終的なレベルが前記
あらかじめ定められたレベル以下となるまで信号強度の
評価および利得の低減を長さｔのタイムスロット内で繰
り返すことがよい。ここで、あらかじめ定められたレベ
ルは、アナログ・ディジタル変換器のダイナミックレン
ジの最大レベルに設定されることがよい。

信号処理手段は、入力手段の音声信号を複数の周波数
帯域毎のチャネルに分離してそれぞれのチャネルのエネ
ルギ・レベルを抽出するフィルタ手段と、このフィルタ
手段の各チャネルの出力信号を順次選択するマルチプレ
クサとを含み、自動利得制御手段は、それぞれの周波数
帯の最終的な利得係数を次の周波数帯の初期利得係数と
して使用する手段を含むことができる。

標本化周期には長さｔの複数のタイムスロットを含む
ことができる。

従来のアナログ自動利得制御と本発明装置との基本的
な差異は、本発明装置ではマイクロプロセッサが利得の
設定値を制御し、これにより、抽出されたそれぞれの特
徴に対して使用された利得を蓄えることができることで
ある。発話が終了した後に、マイクロプロセッサが完了
した発話に対して最適な利得設定値を決定する。蓄えら
れた特徴は、すべて最適利得設定値で規格化される。こ
のようにして、矛盾のない特徴の組を入力信号利得に独
立に抽出できる。

〔実施例〕

本発明の実施例について添付図面を参照して説明す
る。ここではテンプレート・マッチングを用いた音声認
識装置を参照して本発明を説明するが、従来から用いら
れているどのような音声認識装置、例えば確立モデル化
（stochastic modeling）、マルコフ・チェーン（Marco
v chaines）、ダイナミック・タイムワーピング（dynam
ic−timewarping）、音素認識（phoneme−recognatio
n）でも同様に本発明を実施できる。

音声認識は、複数（一般には８ないし16）のフィルタ
・チャネルからのエネルギ曲線を比較することを基本と
する。音声が存在するときには、各フィルタ・チャネル
からのエネルギ・スペクトラムをアナログ・ディジタル
変換器で二値化してテンプレートを作成し、これをメモ
リに蓄える。

認識の初期段階は「トレーニング」と呼ばれ、認識装
置に認識すべき語を話して参照テンプレートを生成す
る。認識すべき語に対する参照テンプレートが作成され
ると、音声認識を実行できる。認識装置に発話を入力す
ると、メモリ内の参照テンプレートと比較できる試験テ
ンプレートを作成し、最も似ているものを見つけ出す。

本発明の音声認識装置の基本的な構成要素を第１図に
示す。マイクロホン１から入力され増幅器２により増幅
された音声信号は、フィルタ・バンク3aを通過する。フ
ィルタ・バンク3aでは、音声信号が複数（この実施例で
は16）の周波数帯に濾波され、この信号が整流器４によ
り整流される。濾波され整流された信号は、低域通過フ
ィルタ3bにより平滑化され、この後に、マルチプレクサ
５により順番に標本化される。マルチプレクサ５は、得
られた単一チャネルの信号をディジタル自動利得制御回
路８に供給する。ディジタル自動利得制御回路８は出力
信号をアナログ・ディジタル変換器６に供給し、このア
ナログ・ディジタル変換器６から、二値化信号ストリー
ムが制御用のマイクロプロセッサ７に供給される。

マイクロプロセッサは、それぞれのフィルタ・チャネ
ルを20マイクロ秒間にわたり読み取り、それが終了する
と次のフィルタ・チャネルの読み取りを行う。10ミリ秒
のタイムスロットのそれぞれの終了時に、それぞれのチ
ャネルでその期間に標本化されたエネルギを蓄える。ト
レーニング時および認識動作時に生成されるテンプレー
トは、それぞれのフィルタ・チャネルに対して約100タ
イムスロットの標本を含む。

ディジタル自動利得制御回路は以下の方法で動作す
る。マルチプレクサがフィルタ・チャネルを読み取る毎
に、マイクロプロセッサは、そのチャネルのエネルギ・
レベルを読み取ってアナログ・ディジタル変換器が過負
荷となっているか否か、すなわち利得が大き過ぎないか
否かを判断する。利得が大き過ぎるとマイクロプロセッ
サが判断したときには、ディジタル自動利得制御回路の
利得を１段階ずつ減少させ、再びチャネルのエネルギ・
レベルを観測する。利得を１段階減少させることは、利
得を1.5dB引き下げることに対応する。利得が十分に引
き下げられてアナログ・ディジタル変換器の過負荷を防
止できるとマイクロプロセッサが判断するまで、マルチ
プレクサは次のチャネルの読み取りを開始しない。マル
チプレクサが次のフィルタの読み取りを開始するときに
は、新しいチャネルのエネルギ・レベルによってアナロ
グ・ディジタル変換器の過負荷が生じないかぎり、ディ
ジタル利得制御回路の利得を前のチャネルで得られた低
レベルに維持する。新しいチャネルのエネルギ・レベル
により過負荷が生じたときには、上述したと同様に利得
を１段階ずつ引き下げる。マルチプレクサが最後のフィ
ルタ・チャネルを読み取ったとき、マイクロプロセッサ
は、すべてのチャネルのエネルギ・レベルについて、そ
の利得係数をマイクロプロセッサにより確立した新しい
最小値で割って規格化する。この係数は、マイクロプロ
セッサに接続されたメモリに、エネルギ・レベル情報と
して一緒に蓄えられている。このようにして、初期入力
信号利得およびテンプレートを作成する間の利得変化と
独立に、矛盾のない特徴の組を抽出できる。

音声認識装置はまた、音声または語の開始および終了
を高精度に検出する必要がある。本発明の音声認識装置
は、以下の技術を使用する。

A.背景雑音のエネルギ・レベルを32タイムスロットにわ
たりに測定して蓄え（10ミリ秒に１標本）、これと同時
に、最大雑音エネルギについて、上述と同様に自動利得
制御回路の利得を調節（削減）する。

B.それぞれのタイムスロットにおけるフィルタの値を総
て加算し、これを16（フィルタ・チャネルの数）で徐算
し、ディジタル自動利得制御回路の利得を示す利得係数
を乗算し、それぞれのタイムスロットを比較して最大値
を見つけることより、最大エネルギの標本を見つける。

C.音声が存在すると判断するために必要なしきい値をス
テップＢで求めた最大雑音エネルギの1.5倍に設定す
る。

D.それぞれのフィルタ・チャネルに対する平均雑音エネ
ルギを見つけて蓄え（それぞれのチャネルについて、32
タイムスロット全体のエネルギの和を求め、これを32で
割る）、雑音テンプレートを確立する。

E.これらの後にフィルタ・バンクを10ミリ秒毎に走査
し、平均フィルタ・エネルギがステップＣで計算した雑
音／音声しきい値を越えるまで、100タイムスロットの
標本を蓄えることのできる一時循環メモリにデータを蓄
える。

F.32個の標本を得た後に雑音／音声しきい値を越えてい
ない場合には、ディジタル自動利得制御回路の利得が低
く設定されていないことを確認するための検査を行う。
この検査は、32タイムスロットの間に蓄えたフィルタ・
チャネル値の最大値を見つけることにより行う。最大レ
ベルがアナログ・ディジタル変換器の最大許容入力レベ
ルより1.5dB以上低ければ、自動利得制御の利得を１段
階増加させ、利得を1.5dB増加させる。32個の標本を得
た後でもしきい値を越えず、ディジタル自動利得制御回
路の設定が正しい場合には、最新の32個の標本について
最大エネルギを見つけ（ステップＢと同様）、1.5を乗
算する（ステップＣと同様）ことにより、雑音／音声し
きい値を再び計算する。

G.雑音／音声しきい値を越えたときには、100個の標本
が入力されるか、または20個の連続する標本に対してエ
ネルギ・レベルが雑音／音声しきい値以下になるまで、
フィルタ・バンクを10ミリ秒毎に走査し、フィルタのデ
ータをメモリに蓄え、音声テンプレートを生成する。上
述したように、データ入力中にアナログ・ディジタル変
換器が過負荷となったときには、自動利得制御の設定を
１段階減少させ、そのフィルタ・チャネルに対するデー
タを再処理する。16個のフィルタ・チャネルを走査する
うちにディジタル自動利得制御回路の利得が低下した場
合には、全16チャネルからのデータを再入力し、これに
より、すべてのフィルタ・データを同一の自動利得制御
設定値に対応させる。使用される自動利得制御の値に
は、フィルタ・データと一緒にメモリに記憶する。各タ
イムスロットの開始時に使用される自動利得制御の制定
値は前の時間フレームから得られ、音声処理中には利得
を減らすことができるだけである（増加させることはで
きない）。テンプレートを作成する期間の終了時にすべ
てのテンプレート・、データを一定の自動利得制御設定
値で規格化するので、利得を増加できなくても問題はな
い。

H.音声／雑音の検出しきい値により音声の開始を確実に
検出できるように、音声検出前の15タイムスロットの標
本を一時循環メモリから「音声」テンプレートの前部に
送り出す。

I.音声を検出するまでに100個以上の標本を処理した場
合には、一時循環メモリ内の最も古い32個の時間フレー
ムを解析して（ステップＤと同様）、雑音テンプレート
を再度計算する。音声検出前に100個未満の標本しか処
理していない場合には、ステップＤで確立した音声テン
プレートを以下のステップで使用する。

J.以上のステップにより、音声テンプレートを作成する
ための自動利得制御の最小利得設定値がわかり、この設
定値に対して音声テンプレートと雑音テンプレートとの
双方が規格化され、これにより、双方のテンプレートが
入力された値を含み、その利得が開始時から使用され
る。

K.規格化された雑音テンプレートを規格化された音声テ
ンプレートの各時間フレームから減算する。

L.規格化された音声テンプレートの最大エネルギを見つ
け、新しい雑音／音声しきい値、すなわち最大エネルギ
から18dBを引いた値を計算する。この新しいしきい値を
使用して、規格化された音声テンプレートを走査し、音
声の開始点および終了点を判定する。

M.次に、音声テンプレートから開始点と終了点とを除去
し、メモリに蓄えるか（トレーニングの場合）、または
認識のために使用する。表に、320ミリ秒（10ミリ秒の
タイムスロットを32個）にわたって背景雑音を測定した
ときの、メモリに蓄えられた値を例を次の表に示す。

ディジタル自動利得制御（DAGC）の値「４」は、アナ
ログ・ディジタル変換器に出力する信号を6dB減衰させ
ることに等価であり、「実際の」エネルギを計算するた
めに、すべてのフィルタ・バンクの値を二倍した。

最大実エネルギ（すべてのフィルタの平均）は−41
0、テンプレートの記録を開始または終了するしきい値
は−615であった。

〔発明の効果〕

以上説明したように、本発明によれば、自動利得制御
が行われたときにも、利得制御に伴う歪みを除去して音
声認識を正確に行うことができる。さらに本発明は、自
動利得制御の応動を観測してから制御パラメタを設定す
るものに比べると、発話入力の始めから音声スペクトラ
ムのパラメータが蓄積されているのであるから、発話入
力の始めの部分を失うことなくすみやかに応動して、音
声認識を行うことができる効果がある。

本発明は、ハンドフリーにより音声による制御命令に
したがって呼接続およびダイヤリングを行う自動車用の
電話装置に実施して有用である。

図面の簡単な説明第１図は本発明実施例音声認識装置の概略的な構成
図。

Claims

(57)【特許請求の範囲】

【請求項１】音声信号が供給される入力手段と、この音声信号の周波数パラメータを抽出する信号処理手
段と、この信号処理手段の抽出した周波数パラメータをディジ
タル信号に変換するアナログ・ディジタル変換器と、このアナログ・ディジタル変換器の出力データを周波数
パラメータのデータとして少なくとも一時的に蓄える蓄
積手段とを備えた音声処理装置において、前記信号処理手段により抽出されて前記アナログ・ディ
ジタル変換器に供給される周波数パラメータの信号レベ
ルをその信号レベルと前記アナログ・ディジタル変換器
のダイナミックレンジとに応じて自動的に制御する自動
利得制御手段と、この自動利得制御手段における信号レベルの制御に用い
られた利得係数を測定する手段と、測定された利得係数をその利得係数のときに得られた周
波数パラメータのデータに対応して前記蓄積手段に蓄え
る手段と、標本化周期の終了時に、前記音声信号の少なくとも最初
の部分について、前記蓄積手段に蓄えられた周波数パラ
メータのデータをそれぞれのデータに対応する利得係数
に基づいて補正する手段とを備えたことを特徴とする音声処理装置。
【請求項２】前記補正する手段は、その標本化周期の間
に蓄えられた最も小さい利得係数を基準とし、それより
大きい利得係数で得られた周波数パラメータのデータを
その利得係数の比に応じて調整する手段を含む特許請求
の範囲第１項に記載の音声処理装置。
【請求項３】前記自動利得制御手段は、ディジタルに切
り替え可能な減衰器と、この減衰器による減衰率を制御
する制御手段とを含み、この制御手段は前記蓄積手段に蓄えられた周波数パラメ
ータのデータを処理するマイクロプロセッサにより構成
された特許請求の範囲第１項に記載の音声処理装置。
【請求項４】前記補正手段が前記マイクロプロセッサに
より構成された特許請求の範囲第３項に記載の音声処理
装置。
【請求項５】前記マイクロプロセッサは周波数パラメー
タのデータにより音声認識を行う手段を含む特許請求の
範囲第３項または第４項に記載の音声処理装置。
【請求項６】前記自動利得制御手段は、長さｔのタイム
スロットを動作単位とし、その時間ｔを細分した時間毎
にそれぞれの周波数パラメータに対して前記アナログ・
ディジタル変換器に供給する信号レベルを決定し、その
信号レベルがあらかじめ定められたレベルより大きいと
きには利得を低減してその信号レベルを再び評価し、最
終的なレベルが前記あらかじめ定められたレベル以下と
なるまで信号強度の評価および利得の低減を長さｔのタ
イムスロット内で繰り返す手段を含む特許請求の範囲第
１項に記載の音声処理装置。
【請求項７】前記あらかじめ定められたレベルは、前記
アナログ・ディジタル変換器のダイナミックレンジの最
大レベルに設定された特許請求の範囲第６項に記載の音
声処理装置。
【請求項８】前記信号処理手段は、前記入力手段の音声
信号を複数の周波数帯域毎のチャネルに分離してそれぞ
れのチャネルのエネルギ・レベルを抽出するフィルタ手
段と、このフィルタ手段の各チャネルの出力信号を順次
選択するマルチプレクサとを含み、前記自動利得制御手段は、それぞれの周波数帯の最終的
な利得係数を次の周波数帯の初期利得係数として使用す
る手段を含む特許請求の範囲第６項に記載の音声処理装置。
【請求項９】標本化周期は長さｔの複数のタイムスロッ
トを含む特許請求の範囲第６項ないし第８項のいずれか
に記載の音声処理装置。