JP3451146B2

JP3451146B2 - スペクトルサブトラクションを用いた雑音除去システムおよび方法

Info

Publication number: JP3451146B2
Application number: JP02910095A
Authority: JP
Inventors: 浩明小窪; 明雄天野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-02-17
Filing date: 1995-02-17
Publication date: 2003-09-29
Anticipated expiration: 2018-09-29
Also published as: JPH08221092A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識等の音声信号処
理の前処理として用いる雑音除去システムに関する。

【０００２】

【従来の技術】音声認識装置を実用化するためには、騒
音下で発声した音声でも正しく認識するような耐騒音化
技術が必要不可欠である。音声認識の分野では、音声に
混入した騒音を除去する手段としてスペクトルサブトラ
クション法が非常に有効な手法として知られている。ス
ペクトルサブトラクション方式については、Boll、 "S
uppression of Acoustic Noise in Speech Using Spect
ral Subtruction" 、IEEE Trans. on Acoustics、 spee
ch and Signal processing、 Vol.Assp-27、 No.2、 Ap
ril 1979、 pp.113-120を初めとして多くの研究成果が
発表されている。この手法は入力音声の短時間スペクト
ルから推定騒音スペクトルを差し引くことで騒音成分の
除去をおこなう。

【０００３】

【発明が解決しようとする課題】スペクトルサブトラク
ション法は、入力音声のスペクトルに対して推定騒音ス
ペクトルにある倍率()をかけたスペクトルを引いてい
る。この倍率はサブトラクト係数と呼ばれ、音声認識シ
ステムにおいては、このサブトラクト係数を1以上に設
定することが多い。このようにサブトラクト係数を1以
上に設定する場合には、推定騒音スペクトルを差し引く
際に必要以上に差し引くことに相当する。

【０００４】音声の母音部分のように音声のパワがある
程度確保されている区間では、多少スペクトル引き過ぎ
た場合でも音声スペクトルの形状にはほとんど影響はな
い。しかし、音声中のポーズ区間や摩擦子音の部分のよ
うに音声のパワが小さいところでは、推定騒音スペクト
ルを必要以上に差し引くことにより、音声スペクトルが
大きく歪んでしまう。

【０００５】騒音が重畳した音声を認識する場合におい
ては、音声のパワが小さいところでは、重畳雑音の影響
で音声スペクトルがもともと歪んでいるためサブトラク
ションの引き過ぎによって生じるスペクトルの歪みはあ
まり問題とならないため、サブトラクト係数を1以上に
設定し、引き過ぎぎみにした方が認識性能は良くなる。
一方、あまり騒音のない静かな環境で発声した音声を認
識する場合には、音声のパワが小さいところの音声スペ
クトルがサブトラクションによって歪んでしまうため
に、認識性能が劣化する場合がある。

【０００６】本発明の目的は、認識すべき音声に重畳さ
れる雑音の影響を受けず、高い音声認識精度を有する音
声認識処理システムを提供する。

【０００７】他の目的の１つは、任意の環境における入
力音声から重畳雑音を取り除く雑音除去システムを提供
することである。

【０００８】

【課題を解決するための手段】上記目的を達成するため
に本発明では、入力信号をフレーム間隔毎にフレーム信
号として切り出すフレーム分割手段と、音声区間検出用
しきい値とフレームパワの大きさとを比較することで音
声区間の検出をおこなう音声区間検出手段と、フレーム
信号から短時間スペクトルを求めるスペクトル計算手段
と、短時間スペクトルのうち音声区間検出手段によって
音声が存在しないと判定された区間から計算された無音
声スペクトルのみを用いて雑音スペクトルを推定する雑
音スペクトル推定手段と、推定した雑音スペクトルにス
ペクトル減算係数をかけて短時間スペクトルから減算す
るスペクトル減算手段とを有し、音声区間検出手段から
得られたパラメータに基づきスペクトル減算係数の値を
フレーム毎に変えるように構成された雑音除去システム
を提供する。

【０００９】

【作用】本発明には、数々の変形が考えられるが、その
中で代表的な手段についてその作用を説明する。

【００１０】入力した音声は、フレーム分割手段によっ
て一定間隔(たとえば20msec)毎に短時間信号(フレーム
信号)として分割される。音声区間検出手段では、この
フレーム信号から短時間パワ(フレームパワ)を求め、こ
のフレームパワとあらかじめ設定した音声区間検出用し
きい値との大きさを比較し、この音声区間検出用しきい
値を越えるフレームパワが一定時間継続した場合にその
区間を音声区間として検出する。スペクトル計算手段
は、フレーム信号をフーリエ変換しスペクトルを求め
る。雑音スペクトル推定手段は音声区間以外から求めた
スペクトルを雑音スペクトルとして推定する。スペクト
ル減算手段では、この推定した雑音スペクトルにスペク
トル減算係数をかけて短時間スペクトルから減算するこ
とで雑音除去をおこなう。この時、音声区間検出手段で
用いたフレームパワと音声区間検出用しきい値とを用
い、相対的にフレームパワが小さいフレームではスペク
トル減算係数を小さな値に設定してスペクトル減算処理
をおこなう。

【００１１】したがって本発明によれば、母音部分のよ
うに音声のパワがある程度確保されている区間では、通
常のスペクトルサブトラクションと同じ処理をおこな
い、音声中のポーズ区間や摩擦子音の部分のように音声
のパワが小さいところではサブトラクション係数を小さ
くすることによって推定騒音スペクトルの引き過ぎによ
ってよって生じる入力音声スペクトルの歪みを押さえる
ことができる。

【００１２】

【実施例】以下、本発明の実施例を示す。

【００１３】図１は本発明の一実施例を説明するための
音声認識システムのブロック図である。図１において、
１０１は音声入力部、１０２はフレーム分割部、１０３
は音声区間検出部、１０４は雑音除去部、１０５は音声
分析部、１０６は照合部、１０７は標準パタン格納部、
１０８は判定部である。図１では本実施例の概要のみを
説明し、各部分の詳細な説明は図２以降で述べる。音声
入力部１０１に入力した音声はＡ／Ｄ変換によってディ
ジタル信号に変換される。フレーム分割部１０２は音声
の特徴量を分析するための区間を切り出すもので、通常
数十 ms 程度の区間を一定間隔で切り出していく。

【００１４】音声区間検出部１０３は入力信号から音声
区間の検出をおこなう。雑音除去部１０４は、入力フレ
ームより求めたスペクトルに対して、推定雑音スペクト
ルを差し引くことで雑音除去をおこなう。

【００１５】音声分析部１０５では、フレーム毎に分割
した入力音声から特徴ベクトルを計算する。

【００１６】標準パタン格納部１０７にはあらかじめ計
算しておいた認識対象語彙の標準パタン(特徴ベクトル
系列)が格納してある。もちろん、ここに格納されてい
る標準パタンは本システムの分析系と同一の分析系で特
徴ベクトルを計算している。

【００１７】照合部１０６は、標準パタン格納部１０７
に格納されている標準パタンと、音声分析部１０５で分
析された入力音声の特徴ベクトルとの間で類似度計算を
おこなう。

【００１８】判定部１０８は、各認識対象語彙のうち照
合部１０６で計算した類似度が一番高い語彙を認識結果
として出力する。

【００１９】次に、図１で簡単に述べた各処理について
詳細を説明する。

【００２０】はじめに、音声区間検出部１０３について
説明する。音声区間検出部１０３は入力信号から音声区
間の検出をおこなう。音声区間の検出については古井”
ディジタル音声処理”(東海大学出版会)などが詳しい。
音声区間検出方法は、ふるくから多くの手法が提案され
ており、例えば、入力信号の短時間パワを一定時間毎に
抽出していき、しきい値以上の短時間パワが一定以上継
続したか否かによって音声区間の検出をおこなう手法が
良く使用されている。ここでは、短時間パワとしきい値
とを用いた音声区間検出方式の一実施例について説明す
る。図２は音声区間検出部１０３の一実施例を説明する
ための図である。図２において、２０１はパワ計算部、
２０２はパワ比較部、２０３は内部状態遷移部である。
パワ計算部２０１は、フレーム分割部１０２において分
割された入力音声

【００２１】

【数１】

【００２２】から以下の式によりフレームパワpw(i)を
計算する。

【００２３】

【数２】

【００２４】ここで、Nは１フレームのサンプル数、iは
フレーム番号である。

【００２５】パワ比較部２０２は、パワ計算部２０１で
計算したフレームパワと、あらかじめ設定しておいた音
声検出用しきい値とを比較する。図３に音声検出用しき
い値を二つ用いた場合のフレームパワpwと二つの音声検
出用しきい値Pth、Nthとの一例を示す。この場合パワ比
較部２０２では以下の３つの比較結果を出力することに
なる。

【００２６】

【数３】

【００２７】内部状態遷移部２０３は、音声区間検出過
程に対応したいくつかの内部状態をもっており、パワ比
較部２０２によって得られた比較結果に基づいて、フレ
ーム同期で状態遷移をおこなう。図４は音声区間検出ア
ルゴリズムの処理フローを状態遷移図で表した図であ
る。以下、処理シーケンス一例を記述する。

【００２８】(1) 音声検出は初期状態Ｓ０から開始され
る。入力フレームパワpwがしきい値Nthを越えると音声
の始点らしいと判定し、状態Ｓ１に遷移すると共に、始
点候補として現在のフレームを記憶する。

【００２９】(2) 入力フレームパワpwがしきい値Pthを
越えると、音声区間であると判定し状態Ｓ２に遷移す
る。状態Ｓ０から遷移する場合には現在のフレームを始
点としてセットし、状態Ｓ１から遷移する場合には記憶
してある始点候補を始点とする。

【００３０】(3) 状態Ｓ１で再び、入力パワpwがしきい
値Nthを下回ると検出した音声候補はノイズ区間であっ
たと判定し、状態Ｓ０に戻る。

【００３１】(4) 状態Ｓ２では、入力パワpwがしきい値
Pthを下回らないかぎり音声区間が継続していると判定
する。pwがしきい値Pthを下回った時点で音声区間の終
了、あるいは単語中のポーズを検出したとして、終点候
補を記憶し状態Ｓ３に遷移する。

【００３２】(5) 状態Ｓ３において、もし、最大ポーズ
継続長以内に再び入力パワpwがしきい値Pthを上回る場
合には、単語中のポーズと判定し状態Ｓ２に遷移する。
逆に、最大ポーズ継続長を越えても入力パワpwがしきい
値Pthを上回らなかった場合には、音声区間が終了した
と判定し、終点候補を終点として確定する。

【００３３】(6) 終点を検出すると再び状態Ｓ０に戻
り、音声検出処理を終了する。

【００３４】以上の説明では、フレームパワと二つのし
きい値によって音声区間検出をおこなっているが、しき
い値を一つしか用いない場合、あるいは三つ以上のしき
い値を用いる場合においても音声区間検出は可能であ
る。また、しきい値の値を固定として説明していたが、
騒音レベルの変動に合わせてしきい値レベルを適応的に
変化させることも可能である。図５は音声区間検出部の
第二の実施例を説明するための図である。図５において
５０１はパワ計算部、５０２はパワ比較部、５０３は内
部状態遷移部、５０４はしきい値更新部である。この第
二の実施例は、しきい値更新部５０４を新たに追加した
ことを除くと図２で説明した第一の実施例と全く同じで
ある。ここでは、しきい値更新部５０４のみを説明し、
他の部分の説明は省略する。

【００３５】しきい値更新部５０４はパワ計算部５０１
で計算したフレームパワと内部状態遷移部５０３で得ら
れた現在の遷移状態に基づき、しきい値の更新をおこな
う。図６に示す表を用いて、しきい値更新部５０４でお
こなうしきい値の更新の一例を説明する。ここでは、し
きい値Nthの更新について説明するがしきい値Pthについ
ても同様におこなうことができる。図６の表において、
列６０１は内部状態遷移部５０３で得られた現在の遷移
状態であり、行６０２はパワ計算部５０１で計算したフ
レームパワpwとしきい値Nthの関係を示している。しき
い値Nthの次フレームの値はこの表に基づいて更新され
る。たとえば、現在の遷移状態がＳ０であり、pwとNth
関係がβ・pw>Nthの場合には、現在のしきい値の値Nthに
(1+γ)をかけてしきい値を大きくする(ただし、βとγ
はそれぞれ正の定数)。逆に現在のしきい値Nthが大きい
場合(β・pw<Nth)には、Nthに(1-γ)をかけてしきい値を
小さくする。また、現在の遷移状態がＳ０以外の場合に
は、現在のフレームが音声区間に含まれる可能性がある
ため、しきい値の更新はおこなわない。

【００３６】次に雑音除去部１０４について説明する。
図７は雑音除去部１０４の一実施例を説明するための図
である。図７において、７０１はフーリエ変換部、７０
２は雑音スペクトル計算部、７０３はサブトラクト係数
計算部、７０４はサブトラクト部、７０５はフーリエ逆
変換部である。フーリエ変換部７０１はフレーム分割部
１０２で切り出されたフレーム信号をフーリエ変換する
ことによって短時間スペクトルを計算する。雑音スペク
トル推定部７０２は、音声区間検出部１０３によって検
出された無音声区間において、フーリエ変換部７０１で
計算した短時間スペクトルから雑音スペクトルを推定す
る。具体的にはフレーム同期で処理を進め、音声区間検
出部１０２において、音声区間の始点が検出されるまで
は、現在のフレームから過去数フレームの短時間スペク
トルより求めたパワスペクトルを平均し、推定雑音のパ
ワスペクトルとし、音声の始点が検出された後は、推定
雑音スペクトルの更新を中止する(最後に推定した雑音
スペクトルをそのまま使う)。サブトラクト係数計算部
７０３については、後で詳細に説明する。サブトラクト
部７０４は、スペクトルサブトラクション方式のアルゴ
リズムに従って、フーリエ変換部７０１で求めた入力ス
ペクトルから雑音スペクトル推定部で推定した雑音スペ
クトルを差し引くことで、雑音除去をおこなう。スペク
トルサブトラクション方式については、Boll、 "Suppr
ession of Acoustic Noise in Speech Using Spectral
Subtruction" 、IEEE Trans. on Acoustics、 speech a
nd Signal processing、 Vol.Assp-27、 No.2、 April
1979、 pp.113-120を初めとして多くの研究成果が発表
されている。いま、入力パワスペクトルをS(n)、推定騒
音パワスペクトルをN(n)とすると、スペクトルサブトラ
クションは次式で表される。

【００３７】

【数４】

【００３８】ここで、αはサブトラクション係数と呼ば
れ通常１以上の値を設定することが多い。また、パワス
ペクトル上でのサブトラクションの代わりに、振幅スペ
クトル上でのサブトラクションをおこなってもよい。

【００３９】ここでサブトラクト係数計算部７０３につ
いて説明する。「発明が解決しようとする課題」でも説
明したように、スペクトルサブトラクションにおいて、
サブトラクト係数を１以上に設定する場合には、推定騒
音スペクトルを差し引く際に必要以上に差し引くことに
相当する。したがって、音声中のポーズ区間や摩擦子音
の部分のように音声のパワが小さいところでは、推定騒
音スペクトルを必要以上に差し引くことにより、音声ス
ペクトルが大きく歪んでしまう。このような課題を解決
するために、サブトラクト係数計算部７０３では、音声
区間検出部１０３で用いたフレームパワと音声区間検出
用しきい値を用いてフレーム毎にサブトラクト係数の更
新をおこなう。図８にサブトラクト係数の決定する関数
のグラフの一例を示す。図８において、縦軸８０１はサ
ブトラクト係数の値、横軸８０２はフレームパワの値を
示し、αmaxはサブトラクション係数の上限値、th1、th
2はそれぞれしきい値である。しきい値th1、th2につい
ては、音声検出用しきい値をそのまま使っても、音声検
出用しきい値を定数倍した値を用いてもよいし、事前実
験によって求めた新たな値を設定してもよい。このグラ
フが示すように、現フレームのフレームパワの値pwが十
分大きい場合(pw>th2)には、サブトラクト係数はαmax
となり、従来のサブトラクト係数固定のスペクトルサブ
トラクションと同じ処理となる。逆に現フレームのフレ
ームパワの値がかなり小さい場合には(pw<th1)、サブト
ラクト係数はゼロとなり、スペクトルサブトラクション
の処理をおこなわない。また、th2>pw>th1の場合には、
pwの大きさに応じてαmaxから０の間の値をとる。図８
に示した関数を式で表すと以下のようになる。

【００４０】

【数５】

【００４１】図９に実際の音声データより求めたフレー
ムパワと数５の関数に基づいて決定したサブトラクショ
ン係数を示す。図９のグラフにおいて、９０１はフレー
ムパワ、９０２はしきい値th2、９０３はしきい値th1、
９０４はサブトラクト係数を示す。この例では、しきい
値th2は音声検出用しきい値Nthを使い、しきい値th1に
は、予備実験の結果決定した固定の値を使っている。ま
た、αmaxは２とした。図９のグラフから、音声の母音
区間のフレームパワが大きいところでは、サブトラクト
係数は固定値２をとり、ポーズ区間等のパワの小さいフ
レームではサブトラクト係数は小さな値をとっているこ
とがわかる。

【００４２】つぎに、雑音除去部１０４の第二の実施例
について説明する。数５に示したサブトラクト係数決定
関数において、th1=th2とした場合のグラフを図１０に
示す。この場合には、フレームパワがしきい値th1(th2)
よりも大きいフレームでは、従来のサブトラクト係数固
定のスペクトルサブトラクションをおこない、フレーム
パワがしきい値th1(th2)よりも小さいフレームでは、ス
ペクトルサブトラクションの処理をおこなわないことに
相当する。したがって、サブトラクト係数を変更する手
段にかわって、スペクトルサブトラクションの処理その
ものをON/OFFする手段を用いても全く同じ処理をおこな
うことができる。図１１は、サブトラクト係数を変更す
る手段にかわって、スペクトルサブトラクションの処理
をON/OFFする手段を備えた、雑音除去部１０４の第二の
実施例のブロック図である。図１１において、１１０１
はサブトラクト判定部、１１０２はスイッチ、１１０３
はフーリエ変換部、１１０４は雑音スペクトル推定部、
１１０５はサブトラクト部、１１０６はフーリエ逆変換
部である。サブトラクト判定部１１０１は、音声区間検
出部１０３より得られたフレームパワと図１０で説明し
たしきい値th1との大きさを比較して、スペクトルサブ
トラクション処理をおこなうか、おこなわないかを判定
する。つまり、フレームパワがしきい値よりも大きい場
合にはスペクトルサブトラクションをおこなうと判定
し、逆にフレームパワがしきい値よりも小さい場合には
スペクトルサブトラクションをおこなわないと判定す
る。スイッチ１１０２は、スペクトルサブトラクション
判定部１１０１の判定に基づいて処理を切り替える。図
１１において、スペクトルサブトラクションをおこなう
場合には、上側にスイッチしフレーム分割部１０２より
出力したフレームデータをフーリエ変換部１１０３に入
力する。スペクトルサブトラクションをおこなわない場
合には、スイッチを下側に倒してフーリエ変換部１１０
３からフーリエ逆変換部１１０６までの処理をスキップ
する。フーリエ変換部１１０３、雑音スペクトル推定部
１１０４、サブトラクト部１１０５、フーリエ逆変換部
１１０６については、図７ですでに説明しているのでこ
こでの説明は省略する。

【００４３】すでに説明したように、音声区間検出部１
０３ではフレームパワの値と音声区間検出用しきい値の
比較結果に基づいて内部状態を遷移していくことで音声
区間検出をおこなっている。したがって、雑音除去部１
０４において、音声区間検出部１０３より得られるフレ
ームパワとしきい値からサブトラクト係数を求めるかわ
りに、音声区間検出部１０３の内部状態を用いてサブト
ラクト係数を求めても同様な処理がおこなえるはずであ
る。図１２は雑音除去部１０４の第三の実施例のブロッ
ク図である。この第三の実施例の構成は図７で説明した
雑音除去部１０４の第一の実施例と全く同じである。第
一の実施例と第三の実施例との違いは、音声区間検出部
１０３から得る情報とサブトラクション係数計算部１２
０３の処理が異なる点である。以下この点について説明
する。図１２の第三の実施例では、音声区間検出部１０
３より現在のフレームの音声検出状態をサブトラクショ
ン係数計算部１２０３に入力する。サブトラクション係
数計算部１２０３では、入力した音声検出状態に対応し
てサブトラクト係数を決定する。一例として、図１３に
音声検出状態１３０２とサブトラクト係数１３０１との
対応テーブルを示す。図１３の対応テーブルによれば、
音声中の母音区間の音声パワの大きなフレーム(状態Ｓ
２)に対しては、サブトラクト係数は２.０と大きな値を
とり、子音の開始区間(状態Ｓ１)や音声中のポーズ区間
(状態Ｓ３)では、サブトラクト係数はそれぞれ１.２、
０.８と小さな値をとる。従って、雑音除去部１０４の
第三の実施例においても、雑音除去部１０４の第一、第
二の実施例と同様な効果が期待できる。

【００４４】次に、音声分析部１０５について説明す
る。

【００４５】音声分析部１０５は入力音声から照合部１
０６で距離計算をおこなう際に使用する音声の特徴パラ
メータを計算する。音声認識で用いられる特徴パラメー
タには、LPCケプストラム、メルケプストラム、帯域フ
ィルタの出力、FFTスペクトルなど数多く存在する。本
実施例ではもっとも一般的に用いられているLPCケプス
トラムを用いる場合について説明する。図１４は音声分
析部１０５の一実施例を説明するためのプロック図であ
る。図１４において、１４０１は線形予測分析部、１４
０２はケプストラム計算部である。線形予測分析に関し
ては音声信号処理の分野では非常に一般的な分析手法で
あり、前出の古井；「ディジタル音声処理」など詳しく
解説されている良書は多い。線形予測係数の計算法には
いくつものアルゴリズムが提案されているが、一例とし
てLevinson-Durbinのアルゴリズムの処理フローを図１
５に示した(臼井、伊藤、三田；生体信号処理の基礎、
オーム社)。線形予測分析部１４０１に入力した音声デ
ータは図１５に示した分析処理フローに従い、線形予測
係数(ＬＰＣ係数)が求められる。ケプストラム計算部１
４０２はＬＰＣ係数(a1,...,an)から数６に示す再帰式
によって、ＬＰＣケプストラム(c1,...,cn)を計算す
る。

【００４６】

【数６】

【００４７】最後に、照合部１０６について説明する。
図１６は照合部１０６を説明するための図である。図１
６で、１６０１はＤＰマッチング部、１６０２は最小距
離判定部である。ＤＰマッチング部１６０１は、音声分
析部１０５で求めた入力音声フレーム毎の特徴パラメー
タ(本実施例ではｎ次ＬＰＣケプストラム)系列と標準パ
タン格納部１０７に格納されている標準パタンとの距離
計算をおこなう。標準パタンは登録音声の特徴ベクトル
系列である。ＤＰマッチングはDynamic Time Warpingと
も呼ばれ、音声パタンの発声時間長の変動に対する正規
化を動的計画法(Dynamic Programming)を用いておこな
う手法で、孤立単語の認識に古くから用いられている。
ＤＰマッチングの詳細については古井；「ディジタル音
声処理」(東海大学出版)の説明が詳しい。ＤＰマッチン
グ部１６０１において、C1からCmのすべての標準パタン
との距離計算が終了すると、最小距離判定部１６０２は
距離計算の値がもっとも小さかった標準パタンを見つけ
だす。音声認識システムでは最小距離判定部１６０２で
得られた距離最小の標準パタンの登録単語を認識結果と
する。

【００４８】以上で、本発明の雑音除去方式を採用した
音声認識システムの一実施例についての説明が終った。
つぎに、ここで説明した音声認識システムの性能評価結
果について述べる。図１７は、男性２名がそれぞれ道路
沿い、駅ホームの二環境で発声した音声を用いた100単
語認識実験の平均認識率をプロットした結果である。図
１７のグラフにおいて、縦軸に認識率、横軸にサブトラ
クト係数の上限値αmaxの値である。また、１７０１は
スペクトルサブトラクション処理をおこなわない場合の
認識結果、１７０２はサブトラクト係数を固定した従来
スペクトルサブトラクション(全フレームでサブトラク
ト係数はαmax)をおこなった場合の認識結果であり、１
７０３はサブトラクト係数をフレーム毎に０からαmax
の範囲で変化させた場合の認識結果である。

【００４９】図１７の実験結果より、実環境で発声した
音声の認識にはスペクトルサブトラクション方式が有効
であることがわかる。特に、本発明のサブトラクト係数
をフレーム毎に変更する方式を適用することで、サブト
ラクト係数を固定にした従来のスペクトルサブトラクシ
ョン方式よりも認識率の向上が見られる。また本実施例
の場合、サブトラクト係数の上限値αmaxは、２が最適
であり、２をこえると認識率が低下することがわかる。

【００５０】

【発明の効果】以上説明したように、本発明によれば、
スペクトルサブトラクション処理において、母音部分の
ように音声のパワがある程度確保されている区間では、
通常のスペクトルサブトラクションと同じ処理をおこな
い、音声中のポーズ区間や摩擦子音の部分のように音声
のパワが小さいところではサブトラクション係数を小さ
くすることによって推定騒音スペクトルの引き過ぎによ
ってよって生じる入力音声スペクトルの歪みを押さえる
ことができる。また、本発明を音声認識システムに適
応することにより、サブトラクト係数を固定した従来の
スペクトルサブトラクション方式を用いた場合よりも実
際の環境下での認識性能を向上させることが可能とな
る。

【００５１】以上の説明では、音声認識装置を例にとり
説明してきたが、音声符号システム等、同様な構造をも
つ音声処理システムに対しても適応可能であることは言
うまでもない。

【図面の簡単な説明】

【図１】音声認識システムの一実施例を説明するための
ブロック図である。

【図２】音声区間検出部の一実施例を説明するためのブ
ロック図である。

【図３】音声区間検出用しきい値を説明するための図で
ある。

【図４】音声区間検出部の内部状態遷移を説明するため
の図である。

【図５】音声区間検出部の第二の実施例を説明するため
のブロック図である。

【図６】音声検出用しきい値の更新を説明するための図
である。

【図７】雑音除去部の一実施例を説明するための図であ
る。

【図８】サブトラクト係数の決定関数の一例を説明する
ための図である。

【図９】フレームパワとサブトラクト係数の関係を説明
するための図である。

【図１０】サブトラクト係数の決定関数の一例を説明す
るための図である。

【図１１】雑音除去部の第二の実施例を説明するための
図である。

【図１２】雑音除去部の第三の実施例を説明するための
図である。

【図１３】音声区間検出状態からサブトラクト係数を求
めるためのテーブルの一例を説明するための図である。

【図１４】音声分析部の一実施例を説明するための図で
ある。

【図１５】線形予測分析部の処理フローの一実施例を説
明するための図である。

【図１６】照合部および標準パタン格納部の一例を説明
するための図である。

【図１７】本発明を適応した音声認識システムの認識性
能を説明するための図である。

【符号の説明】

１０１...音声入力部、...フレーム分割部、１０３...
音声区間検出部、１０４...雑音除去部、１０５...音声
分析部、１０６...照合部、１０７...標準パタン格納
部、１０８...判定部、７０１...フーリエ変換部、７０
２...雑音スペクトル推定部、７０３...サブトラクト係
数計算部、７０４...サブトラクト部、７０５...フーリ
エ逆変換部。

フロントページの続き (56)参考文献特開平８−22297（ＪＰ，Ａ) 特開平８−221094（ＪＰ，Ａ) 特開平７−239696（ＪＰ，Ａ) 特開平７−193548（ＪＰ，Ａ) 特開平７−177048（ＪＰ，Ａ) 特開平４−230798（ＪＰ，Ａ) 特開昭59−67732（ＪＰ，Ａ) 特開平３−266899（ＪＰ，Ａ) 特開平５−22788（ＪＰ，Ａ) 特開平３−247011（ＪＰ，Ａ) 実公平５−4355（ＪＰ，Ｙ２) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 21/02 G10L 11/02

Claims

(57)【特許請求の範囲】

【請求項１】入力信号を一定間隔毎に短時間信号（フレ
ーム信号）として切り出すフレーム分割手段と、前記フレーム信号のパワ（フレームパワ）と音声区間検
出用しきい値の大きさとを比較して音声区間の検出をお
こなう音声区間検出手段と、前記フレーム信号から短時間スペクトルを求めるスペク
トル計算手段と、前記短時間スペクトルのうち前記音声区間検出手段によ
って音声が存在しないと判定された区間から計算された
無音声スペクトルのみを用いて雑音スペクトルを推定す
る雑音スペクトル推定手段と、推定した前記雑音スペクトルに所定の倍率（スペクトル
減算係数）をかけて前記短時間スペクトルから減算する
スペクトル減算手段とを備え、前記音声区間検出手段は、複数の内部状態を有し、前記
音声区間検出用しきい値と前記フレームパワの比較結果
及び現在の内部状態とに基づきフレーム毎に順次状態を
遷移していき、前記スペクトル減算手段では、あらかじ
め前記内部状態毎に設定したスペクトル減算係数の値か
ら、現在遷移している内部状態に応じた値を選択して用
いることを特徴とする雑音除去システム。
【請求項２】前記スペクトル減算係数は、前記音声区間
検出用しきい値と前記フレームパワとの関係に基づいて
定まることを特徴とする請求項１記載の雑音除去システ
ム。
【請求項３】前記スペクトル減算係数は、前記フレーム
パワの大きさに基づいて定まることを特徴とする請求項
１記載の雑音除去システム。
【請求項４】前記フレームパワが小さいフレームではス
ペクトル減算係数の値を小さくすることを特徴とする請
求項１から３のいずれかに記載の雑音除去システム。
【請求項５】予め有するスペクトル減算用しきい値より
も前記フレームパワの大きさが大きいフレームに対して
のみ減算処理をおこなうことを特徴とする請求項１から
３の何れかに記載の雑音除去システム。
【請求項６】前記スペクトル減算用しきい値は前記音声
区間検出用しきい値に基づいて決定することを特徴とす
る請求項５記載の雑音除去システム。
【請求項７】前記スペクトル減算係数の値の上限を２と
することを特徴とする請求項１から６のいずれかに記載
の雑音除去システム。
【請求項８】請求項１から７のいずれかに記載の雑音除
去システムを用いた音声認識装置。
【請求項９】入力信号を一定間隔毎に短時間信号（フレ
ーム信号）として切り出すフレーム分割ステップと、前記フレーム信号のパワ（フレームパワ）をもとに音声
区間検出用しきい値を用いて音声区間を検出する音声区
間検出ステップと、前記フレーム信号から上記フレーム信号のスペクトル
（短時間スペクトル）を求めるスペクトル計算ステップ
と、前記短時間スペクトルから雑音スペクトルを推定する雑
音スペクトル推定ステップと、推定した前記雑音スペクトルに所定の倍率（スペクトル
減算係数）をかけて前記短時間スペクトルから減算する
スペクトル減算ステップを備え、前記音声区間検出ステップでは、複数の内部状態を用意
し、前記音声区間検出用しきい値と前記フレームパワの
比較結果及び現在の内部状態とに基づきフレーム毎に順
次状態を遷移していき、前記スペクトル減算ステップでは、あらかじめ前記内部
状態毎に設定したスペクトル減算係数の値から、現在遷
移している内部状態に応じた値を選択して用いることを
特徴とする雑音除去方法。