JPH02272499A

JPH02272499A - 音声認識装置

Info

Publication number: JPH02272499A
Application number: JP1094085A
Authority: JP
Inventors: Takashi Ariyoshi; 有吉　敬
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1989-04-13
Filing date: 1989-04-13
Publication date: 1990-11-07

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】五夏分互本発明は、音声認識装置、より詳細には、騒音下での音
声入力に対する音声認識技術に関し、例えば、オフィス
内、工場内、自動車内、家庭内での音声認識に応用にて
好適なものである。

従来挟遵周囲雑音の多い環境の中で発声される音声には、この周
囲雑音が重畳されてしまい、この事がそのような環境下
の音声認識において、音声認識率を低下させる原因の一
つとなっている。従って、雑音の重畳した音声情報から
できるだけ雑音成分を除去する必要がある。

従来、バンドパスフィルタバンクを用いた音声認識装置
などにおける雑音除去方式として、スペクトラルサブト
ラクション法がある。この方法は。

予め定められた期間、又は、音声が検出されていない期
間のスペクトルパターンを雑音のスペクトルパターンと
して保持し、音声が検出された期間のスペクトルパター
ンからこの雑音のスペクトルパターンを減じる事により
、入力信号に含まれる雑音成分を除去するものである。

しかしながら、音声認識装置において、入力音声信号の
レベルは、マイクの位置による変動の他にも、周囲雑音
の大きい環境では１発声する音声レベルも１０ｄＢ程度
大きくなるので、入力音声信号のレベルを適正な範囲に
保つためにＡＧＣ（Ａｕｔｏ　Ｇａ１ｎ　Ｃｏｎｔｒｏ
ｌｌｅｒ）が用いられることがあるが、ＡＧＣを使った
音声認識装置でこのスペクトラルサブトラクション法を
用いると、雑音のスペクトルを求めた時、即ち、音声区
間以外の時。

音声区間のゲインが異なるために雑音を含んだ音声のス
ペクトルから雑音のスペクトルを単純に減じても正しい
音声のスペクトルが出て来ないという問題点があった。

目　　　　　的。

本発明は、上記従来技術の問題点に鑑みて成されたもの
で、ＡＧＣを用いた音声認識装置において、スペクトラ
ルサブトラクション法によって周囲雑音の除去を行うた
めに、雑音のスペクトルの推定値を保持した時のＡＧＣ
のゲインと、音声区間中のＡＧＣのゲインとの違いによ
る雑音のスペクトルの変化に対応できるようにして、雑
音を含む音声のスペクトルから雑音のスペクトルを正確
に除去する事を目的としてなされたものである。

構　　　成本発明は、上記目的を達成するために、音声を入力する
ためのマイクから入力された信号の増幅を行うマイクア
ンプと、音声信号のレベルを適正な値に調整するＡＧＣ
と、音声信号のスペクトルを求めるための複数個の帯域
から成るバンドパスフィルタバンクと、音声区間を検出
する音声区間検出部と、該音声区間検出部で音声が検出
されていない時に、上記バンドパスフィルタバンクの出
力スペクトルから雑音スペクトルを推定し、該雑音スペ
クトル推定値を保持する雑音推定部と、該雑音推定部が
保持している雑音スペクトル推定値を推定した時の上記
ＡＧＣのゲインと、上記音声区間検出部で音声が検出さ
れている時の上記ＡＧＣのゲインとの比を求めるゲイン
比算出部と、上記音声区間検出部で音声が検出されてい
る時に、上記バンドパスフィルタバンクの出力スペクト
ルの値から、上記雑音推定部で推定された雑音スペクト
ル推定値に上記ゲイン比算出部で求められたゲイン比を
乗じた値を減じるスペクトル減算部と、上記音声区間検
出部で音声が検出されている時の、上記スペクトル減算
部の出力から入力された音声のパターンを生成する入力
パターン生成部と、予め登録された音声の標準パターン
を記憶する標準音声パターンメモリと、上記入力パター
ンと上記標準パターンとで認識処理を行う認識部とを具
備して成る音声認識装置を特徴とするものであり、更に
は、上記音声認識装置において、上記ゲイン比算出部が
、上記音声区間検出部で音声が検出されている時に、上
記バンドパスフィルタバンクの出力スペクトルと上記雑
音推定部で保持された雑音スペクトル推定値の各帯域毎
の比のうちで最も小さい値をゲイン比とする事を特徴と
するものである。以下、本発明の実施例に基づいて説明
する。

第１図は１本発明の一実施例を説明するための構成図で
１図中、１はマイクアンプ、２はＡＧＣ１３はバンドパ
スフィルター（Ｂ、Ｐ、Ｆ）群、４はＡ／Ｄ変換器、５
は音声区間検出部、６は雑音推宇部、７はゲイン比算出
部、８はスペクトル減算部、９は入力パターン生成部、
１０は認識部。

１１は標準音声パターンメモリで、マイクアンプ１は、
音声を入力するためのマイクから入力された音声入力信
号の増幅を行う、ＡＧＣ２は、マイクアンプ１から出力
された音声信号のレベルを適正な値に調整するが、この
ＡＧＣには、高域のスペクトルを強調するプリエンファ
シスを含めても良い。バンドパスフィルタバンク３は、
２５０土から６．３ＫＨｚ迄の１５の帯域（１５チヤン
ネル）から成るバンドパスフィルタ（ＢＰＦ）と、各チ
ャンネルに対する１５の検波器（ＤＥＴ）と、各チャン
ネルに対する１５のローパスフィルタ（ＬＰＦ）で構成
されていて、ＡＧＣの出力の音声信号のスペクトルを求
める。Ａ／Ｄ変換器４は、バンドパスフィルタバンク３
の各チャンネルの出力をフレーム周期１０ｍ５毎にデジ
タル値に変換する。

音声区間検出部５は、フレーム毎のスペクトル差分が予
め定められたしきい値を越えているかどうか、スペクト
ルの総和が予め定められたしきい値を越えているかどう
か、音声区間の候補のフレームが連続して予め定められ
た音声区間と見なす最小のフレーム数より多く現れたか
、などから音声区間を検出する。

雑音推定部６は、音声区間検出部５で音声が検出されて
いない時（非音声区間）に、２０フレ一ム程度のＡ／Ｄ
変換器の出力のスペクトルの平均を雑音スペクトルとし
、この雑音スペクトル推定値を再度この値が更新される
まで保持する。但し、非音声区間検出でも、平均すべき
２ｏフレームの間にスペクトル差分の大きい部分がある
場合は、非定常雑音であるとして、雑音スペクトルの更
新は行わない。

ゲイン比算出部７は、音声区間検出部５で音声が検出さ
れている時（音声区間）は、フレーム毎に、Ａ／Ｄ変換
器の出力のスペクトルの値と保持されている雑音スペク
トルの値を各チャンネル毎に比を計算して、１５個の比
のうち最小の比の値を、雑音スペクトル推定値を推定し
た時のＡＧＣのゲインと、音声区間のＡＧＣのゲインと
の比とする。

スペクトル減算部８は、音声区間で、Ａ／Ｄ変換器の出
力のスペクトルの値から、雑音スペクトル推定値にゲイ
ン比算出部で求められたゲイン比を乗じた値を減じて、
雑音を除去した音声のスペクトルとする。

この方式は、音声のスペクトルが全ての帯域に同時には
現れない性質から、雑音を除去した音声のスペクトルが
１５チヤンネルのうち少なくとも１つのチャンネルの値
がＯになるようなゲイン比。

即ち、１５チヤンネルの比のうちの最小の比を用いて雑
音を除去している。また、フレーム毎にゲイン比を計算
し直しているので、音声区間中の八〇〇の変化にも対応
できる。

入力パターン生成部９は、音声区間の、スペクトル減算
部で得られたスペクトルから、入力された音声のパター
ン（入力パターン）を生成する。

ここで生成されるパターンは、従来の音声認識技術で用
いられている公知のパターンであり、例えば、最小２乗
近似直線による補正を行う２値化パターン（ＢＴＳＰ）
である。標準音声パターンメモリは、予め登録された音
声のＢＴＳＰの標準パターンを記憶する。認識部は、公
知のＢＴＳＰ方式の認識アルゴリズムで、入力パターン
と標準パターンとで認識処理を行う。

効　　　果以上の説明から明らかなように、請求項第１項の発明に
より、ＡＧＣを用いた音声認識装置において、雑音のス
ペクトルの推定値を保持した時のＡＧＣのゲインと、音
声区間中のＡＧＣのゲインとの比を求めて、この比によ
り雑音のスペクトルの推定値を調整して、雑音を含む音
声のスペクトルから雑音のスペクトルを減じて雑音除去
を行い、雑音のスペクトルの推定値を保持した時のＡＧ
Ｃのゲインと、音声区間中のＡＧＣのゲインとの違いに
よる雑音スペクトルの変化に対応できるので、スペクト
ラルサブトラクション法によって周囲雑音の除去を行う
事が出来るようになった。その結果として雑音環境での
音声認識率が向上する。また、請求項第２項の発明によ
ると、音声のスペクトルが全ての帯域に同時には現れな
い性質から。

雑音を除去した音声のスペクトルが１５チヤンネルのう
ち少なくとも１つのチャンネルの値がＯになるようなゲ
イン比、即ち、１５チヤンネルの比のうちの最小の比を
用いているので、ゲイン比が正確で、雑音を含む音声の
雑音除去を正確に行うことができる。

【図面の簡単な説明】

第１図は１本発明の一実施例を説明するための構成図で
ある。１・・・マイクアンプ、２−　Ａ　Ｇ　Ｃ（Ａｕｔｏ　
Ｇａ１ｎ　Ｃｏｎｔｒｏｌｌｅｒ）　、　　３・・・バ
ンドパスフィルター群、４・・・Ａ／Ｄ変換器、５・・
・音声区間検出部、６・・・雑音推定部、７・・・ゲイ
ン比算出部、８・・・スペクトル減算部、９・・・入力
パターン生成部、１０・・・認識部、１１・・・標準音
声パターンメモリ・

Claims

【特許請求の範囲】１、音声を入力するためのマイクから入力された信号の
増幅を行うマイクアンプと、音声信号のレベルを適正な
値に調整するＡＧＣと、音声信号のスペクトルを求める
ための複数個の帯域から成るバンドパスフィルタバンク
と、音声区間を検出する音声区間検出部と、該音声区間
検出部で音声が検出されていない時に、上記バンドパス
フィルタバンクの出力スペクトルから雑音スペクトルを
推定し、該雑音スペクトル推定値を保持する雑音推定部
と、該雑音推定部が保持している雑音スペクトル推定値
を推定した時の上記ＡＧＣのゲインと、上記音声区間検
出部で音声が検出されている時の上記ＡＧＣのゲインと
の比を求めるゲイン比算出部と、上記音声区間検出部で
音声が検出されている時に、上記バンドパスフィルタバ
ンクの出力スペクトルの値から、上記雑音推定部で推定
された雑音スペクトル推定値に上記ゲイン比算出部で求
められたゲイン比を乗じた値を減じるスペクトル減算部
と、上記音声区間検出部で音声が検出されている時の、
上記スペクトル減算部の出力から入力された音声のパタ
ーンを生成する入力パターン生成部と、予め登録された
音声の標準パターンを記憶する標準音声パターンメモリ
と、上記入力パターンと上記標準パターンとで認識処理
を行う認識部とを具備して成る事を特徴とする音声認識
装置。２、請求項１記載の音声認識装置であって、更に、上記
ゲイン比算出部は、上記音声区間検出部で音声が検出さ
れている時に、上記バンドパスフィルタバンクの出力ス
ペクトルと上記雑音推定部で保持された雑音スペクトル
推定値の各帯域毎の比のうちで最も小さい値をゲイン比
とする事を特徴とする音声認識装置。