JP3346200B2

JP3346200B2 - 音声認識装置

Info

Publication number: JP3346200B2
Application number: JP33922196A
Authority: JP
Inventors: 滋樹青島
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 1996-12-19
Filing date: 1996-12-19
Publication date: 2002-11-18
Anticipated expiration: 2016-12-19
Also published as: JPH10177394A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識装置、特に
入力音声パターンから騒音パターンを差し引くことで音
声の特徴パターンを抽出する装置に関する。

【０００２】

【従来の技術】従来より、騒音下における音声認識率を
向上させるべく、発声直前の騒音スペクトルを求め、発
声中の音声スペクトルから一定の割合で差し引く技術が
知られている（スペクトルサブトラクション）。ここ
で、差し引く倍率は実験的に定めた値に固定するのが一
般的であるが、騒音のパワーに応じて倍率を変化させる
ことも提案されている。

【０００３】例えば、特開平７−１４６６９８号公報に
は、サブトラクションではないが、標準の音声パターン
（無騒音下）に騒音パターンを加算して入力音声パター
ンと比較する音声認識において、騒音パターンの結合量
を騒音パワーに応じて変化させる技術が提案されてい
る。

【０００４】

【発明が解決しようとする課題】しかしながら、騒音の
パワーに応じて倍率（結合量）を変化させる方法は騒音
の種類がある程度一定の場合に有効であり、騒音の種類
が変化し、そのスペクトルが変化する場合には十分に対
応できない問題があった。例えば、騒音パワーがほとん
ど同一である２つの騒音があり、一方はそのスペクトル
が低周波域に偏重しており、他方はそうでない場合を想
定する。この場合、両騒音を同一の倍率で差し引くと、
音声認識にとって特に重要な低周波域の情報が抽出でき
ないおそれがある（前者の騒音では倍率が大きすぎ、後
者の騒音では倍率が不足する）。

【０００５】本発明は、上記従来技術の有する課題に鑑
みなされたものであり、その目的は、騒音の種類が変化
しても、確実に入力音声の特徴パターンを抽出すること
ができ、もって騒音下における音声認識率を向上させる
ことができる装置を提供することにある。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に、第１の発明は、入力音声パターンから騒音パターン
を差し引いて得られる音声の特徴パターンを標準パター
ンと比較して認識する音声認識装置であって、騒音のス
ペクトルを算出するスペクトル算出手段と、騒音のパワ
ーを算出するパワー算出手段と、算出された前記騒音の
スペクトル及びパワーに基づいて前記入力パターンから
差し引く前記騒音パターンの倍率を変化させる倍率制御
手段とを有することを特徴とする。

【０００７】また、第２の発明は、第１の発明におい
て、前記倍率制御手段は、前記騒音のスペクトルが平滑
である程前記倍率を増大させることを特徴とする。

【０００８】

【発明の実施の形態】以下、図面に基づき本発明の実施
形態について説明する。

【０００９】図１には、本実施形態の構成ブロック図が
示されている。マイク１０からの入力音声信号は、Ａ／
Ｄコンバータ１２でデジタル信号に変換され、音響分析
部に供給される。音響分析部は、Ｌｏｇ｜ＦＦＴ｜回路
１４、騒音学習回路１６、騒音パターン記憶部１８、ス
ペクトルサブトラクション回路２０、特徴抽出部２２を
有しており、発声前の騒音区間を切り出して騒音スペク
トルを求め、数フレーム分のスペクトルの平均を求めて
騒音パターン記憶部１８に記憶する。そして、スペクト
ルサブトラクション回路２０で騒音パターン記憶部１８
に記憶された騒音スペクトルを入力音声スペクトルから
差し引いて騒音の影響を除去し音声の特徴を抽出する。
抽出された特徴量は、単語認識部２４に供給され、単語
辞書２６とのパターンマッチングにより入力された特徴
量に該当する単語を選択して出力する。以上の構成要素
が、スペクトルサブトラクションによる音声認識の基本
部分である。

【００１０】そして、本実施形態において特徴的な要素
は、音響分析部がさらにパワー計算回路２８、騒音パタ
ーン／倍率変換テーブル３０、騒音スペクトルベクトル
量子化（ＶＱ）回路３２、騒音コードブック３４及びサ
ブトラクト倍率制御回路３６である。パワー計算回路２
８は、入力された騒音のパワーを算出するものであり、
算出されたパワーはサブトラクト倍率制御回路３６に供
給される。騒音スペクトルベクトル量子化回路３２は、
予めスペクトルエンベロープ毎に対応するコードが用意
された騒音コードブック３４を用いて入力された騒音ス
ペクトルをコード化するものであり、コード化された騒
音スペクトル（騒音スペクトルコード）はサブトラクト
倍率制御回路３６に供給される。騒音パワーと騒音スペ
クトルコードが入力されたサブトラクト倍率制御回路３
６では、騒音パターン／倍率変換テーブル３０を参照し
て入力パワー／スペクトルコードに対応するサブトラク
ト倍率を読み出してスペクトルサブトラクション回路２
０に供給する。スペクトルサブトラクション回路２０で
は、供給された倍率で騒音パターンを調整し、上述した
ように入力音声スペクトルから差し引くことで騒音の影
響を除去する。なお、騒音パターン／倍率変換テーブル
３０は、音声認識を実行する前に予め複数の騒音サンプ
ルについて、そのパワー／スペクトルコードと最適サブ
トラクト倍率の関係を求め、２次元マトリクステーブル
としたものである。

【００１１】図２には、騒音パターン／倍率変換テーブ
ルの内容が示されている。行成分は騒音パワーで、列成
分は騒音スペクトルコードである。例えば、騒音パワー
が１５０、騒音スペクトルコードがＥ０６である場合に
は、サブトラクト倍率は０．４７となる。上述したよう
に、騒音スペクトルコードは、騒音スペクトルのエンベ
ロープパターンを複数通りに分類したものであり、低周
波域に急峻なピークがあるようなエンベロープパターン
のスペクトルコードに比べ、平滑なエンベロープパター
ンのスペクトルコードの倍率は大きく設定されている
（図２において、スペクトルコードＥ０３は低周波域に
ピークがある急峻なスペクトルを表しており、スペクト
ルコードＧ０３は全ての周波数域にわたってほぼ平滑な
スペクトルを表している）。逆に言えば、低周波域にピ
ークのある急峻な騒音の場合には、サブトラクト倍率が
小さく設定される。これは、特に音声認識にとって重要
な低周波域の音声信号がサブトラクトにより消えないよ
うにするためである。また、騒音パワーが増大するに従
いサブトラクト倍率も大きく設定されている。この図か
ら、本実施形態では騒音パワーが異なる場合はもちろ
ん、騒音パワーが同一であっても、スペクトルの形状が
異なればサブトラクト倍率も異なることが理解されよ
う。

【００１２】図３には、本実施形態における音響分析部
の処理フローチャートが示されている。まず、マイク１
０から入力された信号を所定時間幅で切り出し（Ｓ１０
１）、切り出した区間が騒音区間であるか否かを判定す
る（Ｓ１０２）。発声前の区間である、つまり騒音区間
である場合には、次に騒音のパワーを既に計算したか否
かを判定する（Ｓ１０３）。パワーが計算されていない
場合にはパワーを算出し、パワー算出後は切り出した区
間の騒音信号のＬｏｇ｜ＦＦＴ｜を算出し（Ｓ１０
４）、騒音学習、すなわち数区間の騒音スペクトルの平
均を算出して記憶部に記憶する（Ｓ１０５）。また、入
力された騒音スペクトルをベクトル量子化し、予め用意
されたコードブックでコード化する（Ｓ１０６）。騒音
のパワー及びスペクトルコードが得られた後、変換テー
ブルを参照することで現在の騒音に対応するスペクトル
サブトラクト倍率を読み出す（Ｓ１０７）。

【００１３】そして、切り出された分析区間が音声区間
である場合には（Ｓ１０２でＮＯ）、入力信号（音声と
騒音を含む）のＬｏｇ｜ＦＦＴ｜を算出し（Ｓ１０
９）、Ｓ１０７で読み出したサブトラクト倍率を用いて
スペクトルサブトラクションを行なう（Ｓ１１０）。す
なわち、入力信号のスペクトルからサブトラクト倍率で
調整された騒音スペクトル（Ｓ１０５で学習し記憶され
たスペクトル）を差し引いて騒音の影響を除去する。そ
して、騒音が除去された音声スペクトルから特徴量を抽
出し（Ｓ１１１）、後段の音声認識部に出力する。

【００１４】このように、本実施形態では、騒音パワー
のみならず、騒音スペクトルに基づいて倍率を変化させ
てスペクトルサブトラクションを行うので、騒音の種類
が変化しても対応することができ、多様な環境下におい
て音声認識率を向上させることができる。

【００１５】なお、本実施形態において、騒音パワーと
騒音スペクトルに加え、音声パワーに基づいてサブトラ
クト倍率を変化させることも好適である。これにより、
話者の声量も考慮したスペクトルサブトラクションが可
能となる。この場合、騒音パワー／騒音スペクトルコー
ド／音声パワーと最適倍率の関係を予め求めて変換テー
ブル３０として用意しておく必要がある。

【００１６】

【発明の効果】以上説明したように、本発明によれば、
スペクトルサブトラクションにおいて騒音のパワーのみ
ならず騒音の種類（スペクトル）が変化してもこれに適
応して差し引く騒音の倍率を変化させるため、環境の変
化によらず高い音声認識率を得ることができる。

【図面の簡単な説明】

【図１】本発明の実施形態の構成ブロック図である。

【図２】騒音パターン／倍率変換テーブルの内容説明
図である。

【図３】音響分析部の処理フローチャートである。

【符号の説明】

１０マイク、１２Ａ／Ｄコンバータ、１４Ｌｏｇ
｜ＦＦＴ｜回路、１６騒音学習回路、１８騒音パター
ン記憶部、２０スペクトルサブトラクション回路、２
２特徴抽出部、２４単語認識部、２６単語辞書、
２８パワ−計算部、３０騒音パターン／倍率変換テ
ーブル、３２騒音スペクトルベクトル量子化回路、３
４騒音コードブック、３６サブトラクト倍率制御回
路。

Claims

(57)【特許請求の範囲】

【請求項１】入力音声パターンから騒音パターンを差
し引いて得られる音声の特徴パターンを標準パターンと
比較して認識する音声認識装置であって、騒音のスペクトルを算出するスペクトル算出手段と、騒音のパワーを算出するパワー算出手段と、算出された前記騒音のスペクトル及びパワーに基づいて
前記入力パターンから差し引く前記騒音パターンの倍率
を変化させる倍率制御手段と、を有することを特徴とする音声認識装置。
【請求項２】前記倍率制御手段は、前記騒音のスペク
トルが平滑である程前記倍率を増大させることを特徴と
する請求項１記載の音声認識装置。