JPH08221092A - スペクトルサブトラクションを用いた雑音除去システム - Google Patents
スペクトルサブトラクションを用いた雑音除去システムInfo
- Publication number
- JPH08221092A JPH08221092A JP7029100A JP2910095A JPH08221092A JP H08221092 A JPH08221092 A JP H08221092A JP 7029100 A JP7029100 A JP 7029100A JP 2910095 A JP2910095 A JP 2910095A JP H08221092 A JPH08221092 A JP H08221092A
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- voice
- frame
- noise
- subtraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】
【構成】 入力信号を一定間隔毎に切り出すフレーム分
割手段(102)と、音声区間の検出をおこなう手段(1
03)と、フレーム信号の短時間スペクトルを求める手
段(701)と、雑音スペクトルを推定する手段(702)
と、雑音スペクトル推定手段で推定した雑音スペクトル
にスペクトル減算係数をかけて短時間スペクトルから減
算する手段(704)と、スペクトル減算係数の値をフレ
ーム毎に変更する手段(703)とにより構成される。 【効果】 スペクトルサブトラクション処理において、
音声中のポーズ区間や摩擦子音の部分のように音声のパ
ワが小さいところではサブトラクション係数を小さくす
ることによって推定騒音スペクトルの引き過ぎによって
よって生じる入力音声スペクトルの歪みを押さえる。
割手段(102)と、音声区間の検出をおこなう手段(1
03)と、フレーム信号の短時間スペクトルを求める手
段(701)と、雑音スペクトルを推定する手段(702)
と、雑音スペクトル推定手段で推定した雑音スペクトル
にスペクトル減算係数をかけて短時間スペクトルから減
算する手段(704)と、スペクトル減算係数の値をフレ
ーム毎に変更する手段(703)とにより構成される。 【効果】 スペクトルサブトラクション処理において、
音声中のポーズ区間や摩擦子音の部分のように音声のパ
ワが小さいところではサブトラクション係数を小さくす
ることによって推定騒音スペクトルの引き過ぎによって
よって生じる入力音声スペクトルの歪みを押さえる。
Description
【0001】
【産業上の利用分野】本発明は音声認識等の音声信号処
理の前処理として用いる雑音除去システムに関する。
理の前処理として用いる雑音除去システムに関する。
【0002】
【従来の技術】音声認識装置を実用化するためには、騒
音下で発声した音声でも正しく認識するような耐騒音化
技術が必要不可欠である。音声認識の分野では、音声に
混入した騒音を除去する手段としてスペクトルサブトラ
クション法が非常に有効な手法として知られている。ス
ペクトルサブトラクション方式については、Boll、 "S
uppression of Acoustic Noise in Speech Using Spect
ral Subtruction" 、IEEE Trans. on Acoustics、 spee
ch and Signal processing、 Vol.Assp-27、 No.2、 Ap
ril 1979、 pp.113-120を初めとして多くの研究成果が
発表されている。この手法は入力音声の短時間スペクト
ルから推定騒音スペクトルを差し引くことで騒音成分の
除去をおこなう。
音下で発声した音声でも正しく認識するような耐騒音化
技術が必要不可欠である。音声認識の分野では、音声に
混入した騒音を除去する手段としてスペクトルサブトラ
クション法が非常に有効な手法として知られている。ス
ペクトルサブトラクション方式については、Boll、 "S
uppression of Acoustic Noise in Speech Using Spect
ral Subtruction" 、IEEE Trans. on Acoustics、 spee
ch and Signal processing、 Vol.Assp-27、 No.2、 Ap
ril 1979、 pp.113-120を初めとして多くの研究成果が
発表されている。この手法は入力音声の短時間スペクト
ルから推定騒音スペクトルを差し引くことで騒音成分の
除去をおこなう。
【0003】
【発明が解決しようとする課題】スペクトルサブトラク
ション法は、入力音声のスペクトルに対して推定騒音ス
ペクトルにある倍率()をかけたスペクトルを引いてい
る。この倍率はサブトラクト係数と呼ばれ、音声認識シ
ステムにおいては、このサブトラクト係数を1以上に設
定することが多い。このようにサブトラクト係数を1以
上に設定する場合には、推定騒音スペクトルを差し引く
際に必要以上に差し引くことに相当する。
ション法は、入力音声のスペクトルに対して推定騒音ス
ペクトルにある倍率()をかけたスペクトルを引いてい
る。この倍率はサブトラクト係数と呼ばれ、音声認識シ
ステムにおいては、このサブトラクト係数を1以上に設
定することが多い。このようにサブトラクト係数を1以
上に設定する場合には、推定騒音スペクトルを差し引く
際に必要以上に差し引くことに相当する。
【0004】音声の母音部分のように音声のパワがある
程度確保されている区間では、多少スペクトル引き過ぎ
た場合でも音声スペクトルの形状にはほとんど影響はな
い。しかし、音声中のポーズ区間や摩擦子音の部分のよ
うに音声のパワが小さいところでは、推定騒音スペクト
ルを必要以上に差し引くことにより、音声スペクトルが
大きく歪んでしまう。
程度確保されている区間では、多少スペクトル引き過ぎ
た場合でも音声スペクトルの形状にはほとんど影響はな
い。しかし、音声中のポーズ区間や摩擦子音の部分のよ
うに音声のパワが小さいところでは、推定騒音スペクト
ルを必要以上に差し引くことにより、音声スペクトルが
大きく歪んでしまう。
【0005】騒音が重畳した音声を認識する場合におい
ては、音声のパワが小さいところでは、重畳雑音の影響
で音声スペクトルがもともと歪んでいるためサブトラク
ションの引き過ぎによって生じるスペクトルの歪みはあ
まり問題とならないため、サブトラクト係数を1以上に
設定し、引き過ぎぎみにした方が認識性能は良くなる。
一方、あまり騒音のない静かな環境で発声した音声を認
識する場合には、音声のパワが小さいところの音声スペ
クトルがサブトラクションによって歪んでしまうため
に、認識性能が劣化する場合がある。
ては、音声のパワが小さいところでは、重畳雑音の影響
で音声スペクトルがもともと歪んでいるためサブトラク
ションの引き過ぎによって生じるスペクトルの歪みはあ
まり問題とならないため、サブトラクト係数を1以上に
設定し、引き過ぎぎみにした方が認識性能は良くなる。
一方、あまり騒音のない静かな環境で発声した音声を認
識する場合には、音声のパワが小さいところの音声スペ
クトルがサブトラクションによって歪んでしまうため
に、認識性能が劣化する場合がある。
【0006】本発明の目的は、認識すべき音声に重畳さ
れる雑音の影響を受けず、高い音声認識精度を有する音
声認識処理システムを提供する。
れる雑音の影響を受けず、高い音声認識精度を有する音
声認識処理システムを提供する。
【0007】他の目的の1つは、任意の環境における入
力音声から重畳雑音を取り除く雑音除去システムを提供
することである。
力音声から重畳雑音を取り除く雑音除去システムを提供
することである。
【0008】
【課題を解決するための手段】上記目的を達成するため
に本発明では、入力信号をフレーム間隔毎にフレーム信
号として切り出すフレーム分割手段と、音声区間検出用
しきい値とフレームパワの大きさとを比較することで音
声区間の検出をおこなう音声区間検出手段と、フレーム
信号から短時間スペクトルを求めるスペクトル計算手段
と、短時間スペクトルのうち音声区間検出手段によって
音声が存在しないと判定された区間から計算された無音
声スペクトルのみを用いて雑音スペクトルを推定する雑
音スペクトル推定手段と、推定した雑音スペクトルにス
ペクトル減算係数をかけて短時間スペクトルから減算す
るスペクトル減算手段とを有し、音声区間検出手段から
得られたパラメータに基づきスペクトル減算係数の値を
フレーム毎に変えるように構成された雑音除去システム
を提供する。
に本発明では、入力信号をフレーム間隔毎にフレーム信
号として切り出すフレーム分割手段と、音声区間検出用
しきい値とフレームパワの大きさとを比較することで音
声区間の検出をおこなう音声区間検出手段と、フレーム
信号から短時間スペクトルを求めるスペクトル計算手段
と、短時間スペクトルのうち音声区間検出手段によって
音声が存在しないと判定された区間から計算された無音
声スペクトルのみを用いて雑音スペクトルを推定する雑
音スペクトル推定手段と、推定した雑音スペクトルにス
ペクトル減算係数をかけて短時間スペクトルから減算す
るスペクトル減算手段とを有し、音声区間検出手段から
得られたパラメータに基づきスペクトル減算係数の値を
フレーム毎に変えるように構成された雑音除去システム
を提供する。
【0009】
【作用】本発明には、数々の変形が考えられるが、その
中で代表的な手段についてその作用を説明する。
中で代表的な手段についてその作用を説明する。
【0010】入力した音声は、フレーム分割手段によっ
て一定間隔(たとえば20msec)毎に短時間信号(フレーム
信号)として分割される。音声区間検出手段では、この
フレーム信号から短時間パワ(フレームパワ)を求め、こ
のフレームパワとあらかじめ設定した音声区間検出用し
きい値との大きさを比較し、この音声区間検出用しきい
値を越えるフレームパワが一定時間継続した場合にその
区間を音声区間として検出する。スペクトル計算手段
は、フレーム信号をフーリエ変換しスペクトルを求め
る。雑音スペクトル推定手段は音声区間以外から求めた
スペクトルを雑音スペクトルとして推定する。スペクト
ル減算手段では、この推定した雑音スペクトルにスペク
トル減算係数をかけて短時間スペクトルから減算するこ
とで雑音除去をおこなう。この時、音声区間検出手段で
用いたフレームパワと音声区間検出用しきい値とを用
い、相対的にフレームパワが小さいフレームではスペク
トル減算係数を小さな値に設定してスペクトル減算処理
をおこなう。
て一定間隔(たとえば20msec)毎に短時間信号(フレーム
信号)として分割される。音声区間検出手段では、この
フレーム信号から短時間パワ(フレームパワ)を求め、こ
のフレームパワとあらかじめ設定した音声区間検出用し
きい値との大きさを比較し、この音声区間検出用しきい
値を越えるフレームパワが一定時間継続した場合にその
区間を音声区間として検出する。スペクトル計算手段
は、フレーム信号をフーリエ変換しスペクトルを求め
る。雑音スペクトル推定手段は音声区間以外から求めた
スペクトルを雑音スペクトルとして推定する。スペクト
ル減算手段では、この推定した雑音スペクトルにスペク
トル減算係数をかけて短時間スペクトルから減算するこ
とで雑音除去をおこなう。この時、音声区間検出手段で
用いたフレームパワと音声区間検出用しきい値とを用
い、相対的にフレームパワが小さいフレームではスペク
トル減算係数を小さな値に設定してスペクトル減算処理
をおこなう。
【0011】したがって本発明によれば、母音部分のよ
うに音声のパワがある程度確保されている区間では、通
常のスペクトルサブトラクションと同じ処理をおこな
い、音声中のポーズ区間や摩擦子音の部分のように音声
のパワが小さいところではサブトラクション係数を小さ
くすることによって推定騒音スペクトルの引き過ぎによ
ってよって生じる入力音声スペクトルの歪みを押さえる
ことができる。
うに音声のパワがある程度確保されている区間では、通
常のスペクトルサブトラクションと同じ処理をおこな
い、音声中のポーズ区間や摩擦子音の部分のように音声
のパワが小さいところではサブトラクション係数を小さ
くすることによって推定騒音スペクトルの引き過ぎによ
ってよって生じる入力音声スペクトルの歪みを押さえる
ことができる。
【0012】
【実施例】以下、本発明の実施例を示す。
【0013】図1は本発明の一実施例を説明するための
音声認識システムのブロック図である。図1において、
101は音声入力部、102はフレーム分割部、103
は音声区間検出部、104は雑音除去部、105は音声
分析部、106は照合部、107は標準パタン格納部、
108は判定部である。図1では本実施例の概要のみを
説明し、各部分の詳細な説明は図2以降で述べる。音声
入力部101に入力した音声はA/D変換によってディ
ジタル信号に変換される。フレーム分割部102は音声
の特徴量を分析するための区間を切り出すもので、通常
数十 ms 程度の区間を一定間隔で切り出していく。
音声認識システムのブロック図である。図1において、
101は音声入力部、102はフレーム分割部、103
は音声区間検出部、104は雑音除去部、105は音声
分析部、106は照合部、107は標準パタン格納部、
108は判定部である。図1では本実施例の概要のみを
説明し、各部分の詳細な説明は図2以降で述べる。音声
入力部101に入力した音声はA/D変換によってディ
ジタル信号に変換される。フレーム分割部102は音声
の特徴量を分析するための区間を切り出すもので、通常
数十 ms 程度の区間を一定間隔で切り出していく。
【0014】音声区間検出部103は入力信号から音声
区間の検出をおこなう。雑音除去部104は、入力フレ
ームより求めたスペクトルに対して、推定雑音スペクト
ルを差し引くことで雑音除去をおこなう。
区間の検出をおこなう。雑音除去部104は、入力フレ
ームより求めたスペクトルに対して、推定雑音スペクト
ルを差し引くことで雑音除去をおこなう。
【0015】音声分析部105では、フレーム毎に分割
した入力音声から特徴ベクトルを計算する。
した入力音声から特徴ベクトルを計算する。
【0016】標準パタン格納部107にはあらかじめ計
算しておいた認識対象語彙の標準パタン(特徴ベクトル
系列)が格納してある。もちろん、ここに格納されてい
る標準パタンは本システムの分析系と同一の分析系で特
徴ベクトルを計算している。
算しておいた認識対象語彙の標準パタン(特徴ベクトル
系列)が格納してある。もちろん、ここに格納されてい
る標準パタンは本システムの分析系と同一の分析系で特
徴ベクトルを計算している。
【0017】照合部106は、標準パタン格納部107
に格納されている標準パタンと、音声分析部105で分
析された入力音声の特徴ベクトルとの間で類似度計算を
おこなう。
に格納されている標準パタンと、音声分析部105で分
析された入力音声の特徴ベクトルとの間で類似度計算を
おこなう。
【0018】判定部108は、各認識対象語彙のうち照
合部106で計算した類似度が一番高い語彙を認識結果
として出力する。
合部106で計算した類似度が一番高い語彙を認識結果
として出力する。
【0019】次に、図1で簡単に述べた各処理について
詳細を説明する。
詳細を説明する。
【0020】はじめに、音声区間検出部103について
説明する。音声区間検出部103は入力信号から音声区
間の検出をおこなう。音声区間の検出については古井”
ディジタル音声処理”(東海大学出版会)などが詳しい。
音声区間検出方法は、ふるくから多くの手法が提案され
ており、例えば、入力信号の短時間パワを一定時間毎に
抽出していき、しきい値以上の短時間パワが一定以上継
続したか否かによって音声区間の検出をおこなう手法が
良く使用されている。ここでは、短時間パワとしきい値
とを用いた音声区間検出方式の一実施例について説明す
る。図2は音声区間検出部103の一実施例を説明する
ための図である。図2において、201はパワ計算部、
202はパワ比較部、203は内部状態遷移部である。
パワ計算部201は、フレーム分割部102において分
割された入力音声
説明する。音声区間検出部103は入力信号から音声区
間の検出をおこなう。音声区間の検出については古井”
ディジタル音声処理”(東海大学出版会)などが詳しい。
音声区間検出方法は、ふるくから多くの手法が提案され
ており、例えば、入力信号の短時間パワを一定時間毎に
抽出していき、しきい値以上の短時間パワが一定以上継
続したか否かによって音声区間の検出をおこなう手法が
良く使用されている。ここでは、短時間パワとしきい値
とを用いた音声区間検出方式の一実施例について説明す
る。図2は音声区間検出部103の一実施例を説明する
ための図である。図2において、201はパワ計算部、
202はパワ比較部、203は内部状態遷移部である。
パワ計算部201は、フレーム分割部102において分
割された入力音声
【0021】
【数1】
【0022】から以下の式によりフレームパワpw(i)を
計算する。
計算する。
【0023】
【数2】
【0024】ここで、Nは1フレームのサンプル数、iは
フレーム番号である。
フレーム番号である。
【0025】パワ比較部202は、パワ計算部201で
計算したフレームパワと、あらかじめ設定しておいた音
声検出用しきい値とを比較する。図3に音声検出用しき
い値を二つ用いた場合のフレームパワpwと二つの音声検
出用しきい値Pth、Nthとの一例を示す。この場合パワ比
較部202では以下の3つの比較結果を出力することに
なる。
計算したフレームパワと、あらかじめ設定しておいた音
声検出用しきい値とを比較する。図3に音声検出用しき
い値を二つ用いた場合のフレームパワpwと二つの音声検
出用しきい値Pth、Nthとの一例を示す。この場合パワ比
較部202では以下の3つの比較結果を出力することに
なる。
【0026】
【数3】
【0027】内部状態遷移部203は、音声区間検出過
程に対応したいくつかの内部状態をもっており、パワ比
較部202によって得られた比較結果に基づいて、フレ
ーム同期で状態遷移をおこなう。図4は音声区間検出ア
ルゴリズムの処理フローを状態遷移図で表した図であ
る。以下、処理シーケンス一例を記述する。
程に対応したいくつかの内部状態をもっており、パワ比
較部202によって得られた比較結果に基づいて、フレ
ーム同期で状態遷移をおこなう。図4は音声区間検出ア
ルゴリズムの処理フローを状態遷移図で表した図であ
る。以下、処理シーケンス一例を記述する。
【0028】(1) 音声検出は初期状態S0から開始され
る。入力フレームパワpwがしきい値Nthを越えると音声
の始点らしいと判定し、状態S1に遷移すると共に、始
点候補として現在のフレームを記憶する。
る。入力フレームパワpwがしきい値Nthを越えると音声
の始点らしいと判定し、状態S1に遷移すると共に、始
点候補として現在のフレームを記憶する。
【0029】(2) 入力フレームパワpwがしきい値Pthを
越えると、音声区間であると判定し状態S2に遷移す
る。状態S0から遷移する場合には現在のフレームを始
点としてセットし、状態S1から遷移する場合には記憶
してある始点候補を始点とする。
越えると、音声区間であると判定し状態S2に遷移す
る。状態S0から遷移する場合には現在のフレームを始
点としてセットし、状態S1から遷移する場合には記憶
してある始点候補を始点とする。
【0030】(3) 状態S1で再び、入力パワpwがしきい
値Nthを下回ると検出した音声候補はノイズ区間であっ
たと判定し、状態S0に戻る。
値Nthを下回ると検出した音声候補はノイズ区間であっ
たと判定し、状態S0に戻る。
【0031】(4) 状態S2では、入力パワpwがしきい値
Pthを下回らないかぎり音声区間が継続していると判定
する。pwがしきい値Pthを下回った時点で音声区間の終
了、あるいは単語中のポーズを検出したとして、終点候
補を記憶し状態S3に遷移する。
Pthを下回らないかぎり音声区間が継続していると判定
する。pwがしきい値Pthを下回った時点で音声区間の終
了、あるいは単語中のポーズを検出したとして、終点候
補を記憶し状態S3に遷移する。
【0032】(5) 状態S3において、もし、最大ポーズ
継続長以内に再び入力パワpwがしきい値Pthを上回る場
合には、単語中のポーズと判定し状態S2に遷移する。
逆に、最大ポーズ継続長を越えても入力パワpwがしきい
値Pthを上回らなかった場合には、音声区間が終了した
と判定し、終点候補を終点として確定する。
継続長以内に再び入力パワpwがしきい値Pthを上回る場
合には、単語中のポーズと判定し状態S2に遷移する。
逆に、最大ポーズ継続長を越えても入力パワpwがしきい
値Pthを上回らなかった場合には、音声区間が終了した
と判定し、終点候補を終点として確定する。
【0033】(6) 終点を検出すると再び状態S0に戻
り、音声検出処理を終了する。
り、音声検出処理を終了する。
【0034】以上の説明では、フレームパワと二つのし
きい値によって音声区間検出をおこなっているが、しき
い値を一つしか用いない場合、あるいは三つ以上のしき
い値を用いる場合においても音声区間検出は可能であ
る。また、しきい値の値を固定として説明していたが、
騒音レベルの変動に合わせてしきい値レベルを適応的に
変化させることも可能である。図5は音声区間検出部の
第二の実施例を説明するための図である。図5において
501はパワ計算部、502はパワ比較部、503は内
部状態遷移部、504はしきい値更新部である。この第
二の実施例は、しきい値更新部504を新たに追加した
ことを除くと図2で説明した第一の実施例と全く同じで
ある。ここでは、しきい値更新部504のみを説明し、
他の部分の説明は省略する。
きい値によって音声区間検出をおこなっているが、しき
い値を一つしか用いない場合、あるいは三つ以上のしき
い値を用いる場合においても音声区間検出は可能であ
る。また、しきい値の値を固定として説明していたが、
騒音レベルの変動に合わせてしきい値レベルを適応的に
変化させることも可能である。図5は音声区間検出部の
第二の実施例を説明するための図である。図5において
501はパワ計算部、502はパワ比較部、503は内
部状態遷移部、504はしきい値更新部である。この第
二の実施例は、しきい値更新部504を新たに追加した
ことを除くと図2で説明した第一の実施例と全く同じで
ある。ここでは、しきい値更新部504のみを説明し、
他の部分の説明は省略する。
【0035】しきい値更新部504はパワ計算部501
で計算したフレームパワと内部状態遷移部503で得ら
れた現在の遷移状態に基づき、しきい値の更新をおこな
う。図6に示す表を用いて、しきい値更新部504でお
こなうしきい値の更新の一例を説明する。ここでは、し
きい値Nthの更新について説明するがしきい値Pthについ
ても同様におこなうことができる。図6の表において、
列601は内部状態遷移部503で得られた現在の遷移
状態であり、行602はパワ計算部501で計算したフ
レームパワpwとしきい値Nthの関係を示している。しき
い値Nthの次フレームの値はこの表に基づいて更新され
る。たとえば、現在の遷移状態がS0であり、pwとNth
関係がβ・pw>Nthの場合には、現在のしきい値の値Nthに
(1+γ)をかけてしきい値を大きくする(ただし、βとγ
はそれぞれ正の定数)。逆に現在のしきい値Nthが大きい
場合(β・pw<Nth)には、Nthに(1-γ)をかけてしきい値を
小さくする。また、現在の遷移状態がS0以外の場合に
は、現在のフレームが音声区間に含まれる可能性がある
ため、しきい値の更新はおこなわない。
で計算したフレームパワと内部状態遷移部503で得ら
れた現在の遷移状態に基づき、しきい値の更新をおこな
う。図6に示す表を用いて、しきい値更新部504でお
こなうしきい値の更新の一例を説明する。ここでは、し
きい値Nthの更新について説明するがしきい値Pthについ
ても同様におこなうことができる。図6の表において、
列601は内部状態遷移部503で得られた現在の遷移
状態であり、行602はパワ計算部501で計算したフ
レームパワpwとしきい値Nthの関係を示している。しき
い値Nthの次フレームの値はこの表に基づいて更新され
る。たとえば、現在の遷移状態がS0であり、pwとNth
関係がβ・pw>Nthの場合には、現在のしきい値の値Nthに
(1+γ)をかけてしきい値を大きくする(ただし、βとγ
はそれぞれ正の定数)。逆に現在のしきい値Nthが大きい
場合(β・pw<Nth)には、Nthに(1-γ)をかけてしきい値を
小さくする。また、現在の遷移状態がS0以外の場合に
は、現在のフレームが音声区間に含まれる可能性がある
ため、しきい値の更新はおこなわない。
【0036】次に雑音除去部104について説明する。
図7は雑音除去部104の一実施例を説明するための図
である。図7において、701はフーリエ変換部、70
2は雑音スペクトル計算部、703はサブトラクト係数
計算部、704はサブトラクト部、705はフーリエ逆
変換部である。フーリエ変換部701はフレーム分割部
102で切り出されたフレーム信号をフーリエ変換する
ことによって短時間スペクトルを計算する。雑音スペク
トル推定部702は、音声区間検出部103によって検
出された無音声区間において、フーリエ変換部701で
計算した短時間スペクトルから雑音スペクトルを推定す
る。具体的にはフレーム同期で処理を進め、音声区間検
出部102において、音声区間の始点が検出されるまで
は、現在のフレームから過去数フレームの短時間スペク
トルより求めたパワスペクトルを平均し、推定雑音のパ
ワスペクトルとし、音声の始点が検出された後は、推定
雑音スペクトルの更新を中止する(最後に推定した雑音
スペクトルをそのまま使う)。サブトラクト係数計算部
703については、後で詳細に説明する。サブトラクト
部704は、スペクトルサブトラクション方式のアルゴ
リズムに従って、フーリエ変換部701で求めた入力ス
ペクトルから雑音スペクトル推定部で推定した雑音スペ
クトルを差し引くことで、雑音除去をおこなう。スペク
トルサブトラクション方式については、Boll、 "Suppr
ession of Acoustic Noise in Speech Using Spectral
Subtruction" 、IEEE Trans. on Acoustics、 speech a
nd Signal processing、 Vol.Assp-27、 No.2、 April
1979、 pp.113-120を初めとして多くの研究成果が発表
されている。いま、入力パワスペクトルをS(n)、推定騒
音パワスペクトルをN(n)とすると、スペクトルサブトラ
クションは次式で表される。
図7は雑音除去部104の一実施例を説明するための図
である。図7において、701はフーリエ変換部、70
2は雑音スペクトル計算部、703はサブトラクト係数
計算部、704はサブトラクト部、705はフーリエ逆
変換部である。フーリエ変換部701はフレーム分割部
102で切り出されたフレーム信号をフーリエ変換する
ことによって短時間スペクトルを計算する。雑音スペク
トル推定部702は、音声区間検出部103によって検
出された無音声区間において、フーリエ変換部701で
計算した短時間スペクトルから雑音スペクトルを推定す
る。具体的にはフレーム同期で処理を進め、音声区間検
出部102において、音声区間の始点が検出されるまで
は、現在のフレームから過去数フレームの短時間スペク
トルより求めたパワスペクトルを平均し、推定雑音のパ
ワスペクトルとし、音声の始点が検出された後は、推定
雑音スペクトルの更新を中止する(最後に推定した雑音
スペクトルをそのまま使う)。サブトラクト係数計算部
703については、後で詳細に説明する。サブトラクト
部704は、スペクトルサブトラクション方式のアルゴ
リズムに従って、フーリエ変換部701で求めた入力ス
ペクトルから雑音スペクトル推定部で推定した雑音スペ
クトルを差し引くことで、雑音除去をおこなう。スペク
トルサブトラクション方式については、Boll、 "Suppr
ession of Acoustic Noise in Speech Using Spectral
Subtruction" 、IEEE Trans. on Acoustics、 speech a
nd Signal processing、 Vol.Assp-27、 No.2、 April
1979、 pp.113-120を初めとして多くの研究成果が発表
されている。いま、入力パワスペクトルをS(n)、推定騒
音パワスペクトルをN(n)とすると、スペクトルサブトラ
クションは次式で表される。
【0037】
【数4】
【0038】ここで、αはサブトラクション係数と呼ば
れ通常1以上の値を設定することが多い。また、パワス
ペクトル上でのサブトラクションの代わりに、振幅スペ
クトル上でのサブトラクションをおこなってもよい。
れ通常1以上の値を設定することが多い。また、パワス
ペクトル上でのサブトラクションの代わりに、振幅スペ
クトル上でのサブトラクションをおこなってもよい。
【0039】ここでサブトラクト係数計算部703につ
いて説明する。「発明が解決しようとする課題」でも説
明したように、スペクトルサブトラクションにおいて、
サブトラクト係数を1以上に設定する場合には、推定騒
音スペクトルを差し引く際に必要以上に差し引くことに
相当する。したがって、音声中のポーズ区間や摩擦子音
の部分のように音声のパワが小さいところでは、推定騒
音スペクトルを必要以上に差し引くことにより、音声ス
ペクトルが大きく歪んでしまう。このような課題を解決
するために、サブトラクト係数計算部703では、音声
区間検出部103で用いたフレームパワと音声区間検出
用しきい値を用いてフレーム毎にサブトラクト係数の更
新をおこなう。図8にサブトラクト係数の決定する関数
のグラフの一例を示す。図8において、縦軸801はサ
ブトラクト係数の値、横軸802はフレームパワの値を
示し、αmaxはサブトラクション係数の上限値、th1、th
2はそれぞれしきい値である。しきい値th1、th2につい
ては、音声検出用しきい値をそのまま使っても、音声検
出用しきい値を定数倍した値を用いてもよいし、事前実
験によって求めた新たな値を設定してもよい。このグラ
フが示すように、現フレームのフレームパワの値pwが十
分大きい場合(pw>th2)には、サブトラクト係数はαmax
となり、従来のサブトラクト係数固定のスペクトルサブ
トラクションと同じ処理となる。逆に現フレームのフレ
ームパワの値がかなり小さい場合には(pw<th1)、サブト
ラクト係数はゼロとなり、スペクトルサブトラクション
の処理をおこなわない。また、th2>pw>th1の場合には、
pwの大きさに応じてαmaxから0の間の値をとる。図8
に示した関数を式で表すと以下のようになる。
いて説明する。「発明が解決しようとする課題」でも説
明したように、スペクトルサブトラクションにおいて、
サブトラクト係数を1以上に設定する場合には、推定騒
音スペクトルを差し引く際に必要以上に差し引くことに
相当する。したがって、音声中のポーズ区間や摩擦子音
の部分のように音声のパワが小さいところでは、推定騒
音スペクトルを必要以上に差し引くことにより、音声ス
ペクトルが大きく歪んでしまう。このような課題を解決
するために、サブトラクト係数計算部703では、音声
区間検出部103で用いたフレームパワと音声区間検出
用しきい値を用いてフレーム毎にサブトラクト係数の更
新をおこなう。図8にサブトラクト係数の決定する関数
のグラフの一例を示す。図8において、縦軸801はサ
ブトラクト係数の値、横軸802はフレームパワの値を
示し、αmaxはサブトラクション係数の上限値、th1、th
2はそれぞれしきい値である。しきい値th1、th2につい
ては、音声検出用しきい値をそのまま使っても、音声検
出用しきい値を定数倍した値を用いてもよいし、事前実
験によって求めた新たな値を設定してもよい。このグラ
フが示すように、現フレームのフレームパワの値pwが十
分大きい場合(pw>th2)には、サブトラクト係数はαmax
となり、従来のサブトラクト係数固定のスペクトルサブ
トラクションと同じ処理となる。逆に現フレームのフレ
ームパワの値がかなり小さい場合には(pw<th1)、サブト
ラクト係数はゼロとなり、スペクトルサブトラクション
の処理をおこなわない。また、th2>pw>th1の場合には、
pwの大きさに応じてαmaxから0の間の値をとる。図8
に示した関数を式で表すと以下のようになる。
【0040】
【数5】
【0041】図9に実際の音声データより求めたフレー
ムパワと数5の関数に基づいて決定したサブトラクショ
ン係数を示す。図9のグラフにおいて、901はフレー
ムパワ、902はしきい値th2、903はしきい値th1、
904はサブトラクト係数を示す。この例では、しきい
値th2は音声検出用しきい値Nthを使い、しきい値th1に
は、予備実験の結果決定した固定の値を使っている。ま
た、αmaxは2とした。図9のグラフから、音声の母音
区間のフレームパワが大きいところでは、サブトラクト
係数は固定値2をとり、ポーズ区間等のパワの小さいフ
レームではサブトラクト係数は小さな値をとっているこ
とがわかる。
ムパワと数5の関数に基づいて決定したサブトラクショ
ン係数を示す。図9のグラフにおいて、901はフレー
ムパワ、902はしきい値th2、903はしきい値th1、
904はサブトラクト係数を示す。この例では、しきい
値th2は音声検出用しきい値Nthを使い、しきい値th1に
は、予備実験の結果決定した固定の値を使っている。ま
た、αmaxは2とした。図9のグラフから、音声の母音
区間のフレームパワが大きいところでは、サブトラクト
係数は固定値2をとり、ポーズ区間等のパワの小さいフ
レームではサブトラクト係数は小さな値をとっているこ
とがわかる。
【0042】つぎに、雑音除去部104の第二の実施例
について説明する。数5に示したサブトラクト係数決定
関数において、th1=th2とした場合のグラフを図10に
示す。この場合には、フレームパワがしきい値th1(th2)
よりも大きいフレームでは、従来のサブトラクト係数固
定のスペクトルサブトラクションをおこない、フレーム
パワがしきい値th1(th2)よりも小さいフレームでは、ス
ペクトルサブトラクションの処理をおこなわないことに
相当する。したがって、サブトラクト係数を変更する手
段にかわって、スペクトルサブトラクションの処理その
ものをON/OFFする手段を用いても全く同じ処理をおこな
うことができる。図11は、サブトラクト係数を変更す
る手段にかわって、スペクトルサブトラクションの処理
をON/OFFする手段を備えた、雑音除去部104の第二の
実施例のブロック図である。図11において、1101
はサブトラクト判定部、1102はスイッチ、1103
はフーリエ変換部、1104は雑音スペクトル推定部、
1105はサブトラクト部、1106はフーリエ逆変換
部である。サブトラクト判定部1101は、音声区間検
出部103より得られたフレームパワと図10で説明し
たしきい値th1との大きさを比較して、スペクトルサブ
トラクション処理をおこなうか、おこなわないかを判定
する。つまり、フレームパワがしきい値よりも大きい場
合にはスペクトルサブトラクションをおこなうと判定
し、逆にフレームパワがしきい値よりも小さい場合には
スペクトルサブトラクションをおこなわないと判定す
る。スイッチ1102は、スペクトルサブトラクション
判定部1101の判定に基づいて処理を切り替える。図
11において、スペクトルサブトラクションをおこなう
場合には、上側にスイッチしフレーム分割部102より
出力したフレームデータをフーリエ変換部1103に入
力する。スペクトルサブトラクションをおこなわない場
合には、スイッチを下側に倒してフーリエ変換部110
3からフーリエ逆変換部1106までの処理をスキップ
する。フーリエ変換部1103、雑音スペクトル推定部
1104、サブトラクト部1105、フーリエ逆変換部
1106については、図7ですでに説明しているのでこ
こでの説明は省略する。
について説明する。数5に示したサブトラクト係数決定
関数において、th1=th2とした場合のグラフを図10に
示す。この場合には、フレームパワがしきい値th1(th2)
よりも大きいフレームでは、従来のサブトラクト係数固
定のスペクトルサブトラクションをおこない、フレーム
パワがしきい値th1(th2)よりも小さいフレームでは、ス
ペクトルサブトラクションの処理をおこなわないことに
相当する。したがって、サブトラクト係数を変更する手
段にかわって、スペクトルサブトラクションの処理その
ものをON/OFFする手段を用いても全く同じ処理をおこな
うことができる。図11は、サブトラクト係数を変更す
る手段にかわって、スペクトルサブトラクションの処理
をON/OFFする手段を備えた、雑音除去部104の第二の
実施例のブロック図である。図11において、1101
はサブトラクト判定部、1102はスイッチ、1103
はフーリエ変換部、1104は雑音スペクトル推定部、
1105はサブトラクト部、1106はフーリエ逆変換
部である。サブトラクト判定部1101は、音声区間検
出部103より得られたフレームパワと図10で説明し
たしきい値th1との大きさを比較して、スペクトルサブ
トラクション処理をおこなうか、おこなわないかを判定
する。つまり、フレームパワがしきい値よりも大きい場
合にはスペクトルサブトラクションをおこなうと判定
し、逆にフレームパワがしきい値よりも小さい場合には
スペクトルサブトラクションをおこなわないと判定す
る。スイッチ1102は、スペクトルサブトラクション
判定部1101の判定に基づいて処理を切り替える。図
11において、スペクトルサブトラクションをおこなう
場合には、上側にスイッチしフレーム分割部102より
出力したフレームデータをフーリエ変換部1103に入
力する。スペクトルサブトラクションをおこなわない場
合には、スイッチを下側に倒してフーリエ変換部110
3からフーリエ逆変換部1106までの処理をスキップ
する。フーリエ変換部1103、雑音スペクトル推定部
1104、サブトラクト部1105、フーリエ逆変換部
1106については、図7ですでに説明しているのでこ
こでの説明は省略する。
【0043】すでに説明したように、音声区間検出部1
03ではフレームパワの値と音声区間検出用しきい値の
比較結果に基づいて内部状態を遷移していくことで音声
区間検出をおこなっている。したがって、雑音除去部1
04において、音声区間検出部103より得られるフレ
ームパワとしきい値からサブトラクト係数を求めるかわ
りに、音声区間検出部103の内部状態を用いてサブト
ラクト係数を求めても同様な処理がおこなえるはずであ
る。図12は雑音除去部104の第三の実施例のブロッ
ク図である。この第三の実施例の構成は図7で説明した
雑音除去部104の第一の実施例と全く同じである。第
一の実施例と第三の実施例との違いは、音声区間検出部
103から得る情報とサブトラクション係数計算部12
03の処理が異なる点である。以下この点について説明
する。図12の第三の実施例では、音声区間検出部10
3より現在のフレームの音声検出状態をサブトラクショ
ン係数計算部1203に入力する。サブトラクション係
数計算部1203では、入力した音声検出状態に対応し
てサブトラクト係数を決定する。一例として、図13に
音声検出状態1302とサブトラクト係数1301との
対応テーブルを示す。図13の対応テーブルによれば、
音声中の母音区間の音声パワの大きなフレーム(状態S
2)に対しては、サブトラクト係数は2.0と大きな値を
とり、子音の開始区間(状態S1)や音声中のポーズ区間
(状態S3)では、サブトラクト係数はそれぞれ1.2、
0.8と小さな値をとる。従って、雑音除去部104の
第三の実施例においても、雑音除去部104の第一、第
二の実施例と同様な効果が期待できる。
03ではフレームパワの値と音声区間検出用しきい値の
比較結果に基づいて内部状態を遷移していくことで音声
区間検出をおこなっている。したがって、雑音除去部1
04において、音声区間検出部103より得られるフレ
ームパワとしきい値からサブトラクト係数を求めるかわ
りに、音声区間検出部103の内部状態を用いてサブト
ラクト係数を求めても同様な処理がおこなえるはずであ
る。図12は雑音除去部104の第三の実施例のブロッ
ク図である。この第三の実施例の構成は図7で説明した
雑音除去部104の第一の実施例と全く同じである。第
一の実施例と第三の実施例との違いは、音声区間検出部
103から得る情報とサブトラクション係数計算部12
03の処理が異なる点である。以下この点について説明
する。図12の第三の実施例では、音声区間検出部10
3より現在のフレームの音声検出状態をサブトラクショ
ン係数計算部1203に入力する。サブトラクション係
数計算部1203では、入力した音声検出状態に対応し
てサブトラクト係数を決定する。一例として、図13に
音声検出状態1302とサブトラクト係数1301との
対応テーブルを示す。図13の対応テーブルによれば、
音声中の母音区間の音声パワの大きなフレーム(状態S
2)に対しては、サブトラクト係数は2.0と大きな値を
とり、子音の開始区間(状態S1)や音声中のポーズ区間
(状態S3)では、サブトラクト係数はそれぞれ1.2、
0.8と小さな値をとる。従って、雑音除去部104の
第三の実施例においても、雑音除去部104の第一、第
二の実施例と同様な効果が期待できる。
【0044】次に、音声分析部105について説明す
る。
る。
【0045】音声分析部105は入力音声から照合部1
06で距離計算をおこなう際に使用する音声の特徴パラ
メータを計算する。音声認識で用いられる特徴パラメー
タには、LPCケプストラム、メルケプストラム、帯域フ
ィルタの出力、FFTスペクトルなど数多く存在する。本
実施例ではもっとも一般的に用いられているLPCケプス
トラムを用いる場合について説明する。図14は音声分
析部105の一実施例を説明するためのプロック図であ
る。図14において、1401は線形予測分析部、14
02はケプストラム計算部である。線形予測分析に関し
ては音声信号処理の分野では非常に一般的な分析手法で
あり、前出の古井;「ディジタル音声処理」など詳しく
解説されている良書は多い。線形予測係数の計算法には
いくつものアルゴリズムが提案されているが、一例とし
てLevinson-Durbinのアルゴリズムの処理フローを図1
5に示した(臼井、伊藤、三田;生体信号処理の基礎、
オーム社)。線形予測分析部1401に入力した音声デ
ータは図15に示した分析処理フローに従い、線形予測
係数(LPC係数)が求められる。ケプストラム計算部1
402はLPC係数(a1,...,an)から数6に示す再帰式
によって、LPCケプストラム(c1,...,cn)を計算す
る。
06で距離計算をおこなう際に使用する音声の特徴パラ
メータを計算する。音声認識で用いられる特徴パラメー
タには、LPCケプストラム、メルケプストラム、帯域フ
ィルタの出力、FFTスペクトルなど数多く存在する。本
実施例ではもっとも一般的に用いられているLPCケプス
トラムを用いる場合について説明する。図14は音声分
析部105の一実施例を説明するためのプロック図であ
る。図14において、1401は線形予測分析部、14
02はケプストラム計算部である。線形予測分析に関し
ては音声信号処理の分野では非常に一般的な分析手法で
あり、前出の古井;「ディジタル音声処理」など詳しく
解説されている良書は多い。線形予測係数の計算法には
いくつものアルゴリズムが提案されているが、一例とし
てLevinson-Durbinのアルゴリズムの処理フローを図1
5に示した(臼井、伊藤、三田;生体信号処理の基礎、
オーム社)。線形予測分析部1401に入力した音声デ
ータは図15に示した分析処理フローに従い、線形予測
係数(LPC係数)が求められる。ケプストラム計算部1
402はLPC係数(a1,...,an)から数6に示す再帰式
によって、LPCケプストラム(c1,...,cn)を計算す
る。
【0046】
【数6】
【0047】最後に、照合部106について説明する。
図16は照合部106を説明するための図である。図1
6で、1601はDPマッチング部、1602は最小距
離判定部である。DPマッチング部1601は、音声分
析部105で求めた入力音声フレーム毎の特徴パラメー
タ(本実施例ではn次LPCケプストラム)系列と標準パ
タン格納部107に格納されている標準パタンとの距離
計算をおこなう。標準パタンは登録音声の特徴ベクトル
系列である。DPマッチングはDynamic Time Warpingと
も呼ばれ、音声パタンの発声時間長の変動に対する正規
化を動的計画法(Dynamic Programming)を用いておこな
う手法で、孤立単語の認識に古くから用いられている。
DPマッチングの詳細については古井;「ディジタル音
声処理」(東海大学出版)の説明が詳しい。DPマッチン
グ部1601において、C1からCmのすべての標準パタン
との距離計算が終了すると、最小距離判定部1602は
距離計算の値がもっとも小さかった標準パタンを見つけ
だす。音声認識システムでは最小距離判定部1602で
得られた距離最小の標準パタンの登録単語を認識結果と
する。
図16は照合部106を説明するための図である。図1
6で、1601はDPマッチング部、1602は最小距
離判定部である。DPマッチング部1601は、音声分
析部105で求めた入力音声フレーム毎の特徴パラメー
タ(本実施例ではn次LPCケプストラム)系列と標準パ
タン格納部107に格納されている標準パタンとの距離
計算をおこなう。標準パタンは登録音声の特徴ベクトル
系列である。DPマッチングはDynamic Time Warpingと
も呼ばれ、音声パタンの発声時間長の変動に対する正規
化を動的計画法(Dynamic Programming)を用いておこな
う手法で、孤立単語の認識に古くから用いられている。
DPマッチングの詳細については古井;「ディジタル音
声処理」(東海大学出版)の説明が詳しい。DPマッチン
グ部1601において、C1からCmのすべての標準パタン
との距離計算が終了すると、最小距離判定部1602は
距離計算の値がもっとも小さかった標準パタンを見つけ
だす。音声認識システムでは最小距離判定部1602で
得られた距離最小の標準パタンの登録単語を認識結果と
する。
【0048】以上で、本発明の雑音除去方式を採用した
音声認識システムの一実施例についての説明が終った。
つぎに、ここで説明した音声認識システムの性能評価結
果について述べる。図17は、男性2名がそれぞれ道路
沿い、駅ホームの二環境で発声した音声を用いた100単
語認識実験の平均認識率をプロットした結果である。図
17のグラフにおいて、縦軸に認識率、横軸にサブトラ
クト係数の上限値αmaxの値である。また、1701は
スペクトルサブトラクション処理をおこなわない場合の
認識結果、1702はサブトラクト係数を固定した従来
スペクトルサブトラクション(全フレームでサブトラク
ト係数はαmax)をおこなった場合の認識結果であり、1
703はサブトラクト係数をフレーム毎に0からαmax
の範囲で変化させた場合の認識結果である。
音声認識システムの一実施例についての説明が終った。
つぎに、ここで説明した音声認識システムの性能評価結
果について述べる。図17は、男性2名がそれぞれ道路
沿い、駅ホームの二環境で発声した音声を用いた100単
語認識実験の平均認識率をプロットした結果である。図
17のグラフにおいて、縦軸に認識率、横軸にサブトラ
クト係数の上限値αmaxの値である。また、1701は
スペクトルサブトラクション処理をおこなわない場合の
認識結果、1702はサブトラクト係数を固定した従来
スペクトルサブトラクション(全フレームでサブトラク
ト係数はαmax)をおこなった場合の認識結果であり、1
703はサブトラクト係数をフレーム毎に0からαmax
の範囲で変化させた場合の認識結果である。
【0049】図17の実験結果より、実環境で発声した
音声の認識にはスペクトルサブトラクション方式が有効
であることがわかる。特に、本発明のサブトラクト係数
をフレーム毎に変更する方式を適用することで、サブト
ラクト係数を固定にした従来のスペクトルサブトラクシ
ョン方式よりも認識率の向上が見られる。また本実施例
の場合、サブトラクト係数の上限値αmaxは、2が最適
であり、2をこえると認識率が低下することがわかる。
音声の認識にはスペクトルサブトラクション方式が有効
であることがわかる。特に、本発明のサブトラクト係数
をフレーム毎に変更する方式を適用することで、サブト
ラクト係数を固定にした従来のスペクトルサブトラクシ
ョン方式よりも認識率の向上が見られる。また本実施例
の場合、サブトラクト係数の上限値αmaxは、2が最適
であり、2をこえると認識率が低下することがわかる。
【0050】
【発明の効果】以上説明したように、本発明によれば、
スペクトルサブトラクション処理において、母音部分の
ように音声のパワがある程度確保されている区間では、
通常のスペクトルサブトラクションと同じ処理をおこな
い、音声中のポーズ区間や摩擦子音の部分のように音声
のパワが小さいところではサブトラクション係数を小さ
くすることによって推定騒音スペクトルの引き過ぎによ
ってよって生じる入力音声スペクトルの歪みを押さえる
ことができる。 また、本発明を音声認識システムに適
応することにより、サブトラクト係数を固定した従来の
スペクトルサブトラクション方式を用いた場合よりも実
際の環境下での認識性能を向上させることが可能とな
る。
スペクトルサブトラクション処理において、母音部分の
ように音声のパワがある程度確保されている区間では、
通常のスペクトルサブトラクションと同じ処理をおこな
い、音声中のポーズ区間や摩擦子音の部分のように音声
のパワが小さいところではサブトラクション係数を小さ
くすることによって推定騒音スペクトルの引き過ぎによ
ってよって生じる入力音声スペクトルの歪みを押さえる
ことができる。 また、本発明を音声認識システムに適
応することにより、サブトラクト係数を固定した従来の
スペクトルサブトラクション方式を用いた場合よりも実
際の環境下での認識性能を向上させることが可能とな
る。
【0051】以上の説明では、音声認識装置を例にとり
説明してきたが、音声符号システム等、同様な構造をも
つ音声処理システムに対しても適応可能であることは言
うまでもない。
説明してきたが、音声符号システム等、同様な構造をも
つ音声処理システムに対しても適応可能であることは言
うまでもない。
【図1】音声認識システムの一実施例を説明するための
ブロック図である。
ブロック図である。
【図2】音声区間検出部の一実施例を説明するためのブ
ロック図である。
ロック図である。
【図3】音声区間検出用しきい値を説明するための図で
ある。
ある。
【図4】音声区間検出部の内部状態遷移を説明するため
の図である。
の図である。
【図5】音声区間検出部の第二の実施例を説明するため
のブロック図である。
のブロック図である。
【図6】音声検出用しきい値の更新を説明するための図
である。
である。
【図7】雑音除去部の一実施例を説明するための図であ
る。
る。
【図8】サブトラクト係数の決定関数の一例を説明する
ための図である。
ための図である。
【図9】フレームパワとサブトラクト係数の関係を説明
するための図である。
するための図である。
【図10】サブトラクト係数の決定関数の一例を説明す
るための図である。
るための図である。
【図11】雑音除去部の第二の実施例を説明するための
図である。
図である。
【図12】雑音除去部の第三の実施例を説明するための
図である。
図である。
【図13】音声区間検出状態からサブトラクト係数を求
めるためのテーブルの一例を説明するための図である。
めるためのテーブルの一例を説明するための図である。
【図14】音声分析部の一実施例を説明するための図で
ある。
ある。
【図15】線形予測分析部の処理フローの一実施例を説
明するための図である。
明するための図である。
【図16】照合部および標準パタン格納部の一例を説明
するための図である。
するための図である。
【図17】本発明を適応した音声認識システムの認識性
能を説明するための図である。
能を説明するための図である。
101...音声入力部、...フレーム分割部、103...
音声区間検出部、104...雑音除去部、105...音声
分析部、106...照合部、107...標準パタン格納
部、108...判定部、701...フーリエ変換部、70
2...雑音スペクトル推定部、703...サブトラクト係
数計算部、704...サブトラクト部、705...フーリ
エ逆変換部。
音声区間検出部、104...雑音除去部、105...音声
分析部、106...照合部、107...標準パタン格納
部、108...判定部、701...フーリエ変換部、70
2...雑音スペクトル推定部、703...サブトラクト係
数計算部、704...サブトラクト部、705...フーリ
エ逆変換部。
Claims (9)
- 【請求項1】入力信号を一定間隔(フレーム間隔)毎に短
時間信号(フレーム信号)として切り出すフレーム分割手
段と、 前記フレーム信号のパワ(フレームパワ)と音声区間検出
用しきい値との大きさとを比較して音声区間の検出をお
こなう音声区間検出手段と、 前記フレーム信号から短時間スペクトルを求めるスペク
トル計算手段と、 前記短時間スペクトルのうち前記音声区間検出手段によ
って音声が存在しないと判定された区間から計算された
無音声スペクトルのみを用いて雑音スペクトルを推定す
る雑音スペクトル推定手段と、 推定した前記雑音スペクトルに所定の倍率(スペクトル
減算係数)をかけて前記短時間スペクトルから減算する
スペクトル減算手段とを備え、 前記音声区間検出手段から得られる情報に基づき前記ス
ペクトル減算係数の値はフレーム毎に変わることを特長
とする雑音除去システム。 - 【請求項2】前記スペクトル減算係数は、前記音声区間
検出用しきい値と前記フレームパワとの関係に基づいて
定まることを特長とする請求項1記載の雑音除去システ
ム。 - 【請求項3】前記スペクトル減算係数は、前記前記フレ
ームパワの大きさに基づいて定まることを特長とする請
求項1記載の雑音除去システム。 - 【請求項4】音声区間検出処理過程において複数の内部
状態を有し、前記音声区間検出用しきい値と前記フレー
ムパワの大きさの比較結果に基づき順次状態を遷移して
いき、最終状態に到達することで音声区間の検出を完了
する音声区間検出システムにおいて、 前記内部状態毎にあらかじめスペクトル減算係数の値を
設定しておき、現在遷移している内部状態に応じて前記
スペクトル減算手段で用いるスペクトル減算係数の値を
選択することを特長とする請求項1記載の雑音除去シス
テム。 - 【請求項5】前記フレームパワが小さいフレームではス
ペクトル減算係数の値を小さくすることを特長とする請
求項1から4記載の雑音除去システム。 - 【請求項6】入力信号を一定間隔毎にフレーム信号とし
て切り出すフレーム分割手段と、 前記フレーム信号のパワ(フレームパワ)の大きさと音声
区間検出用しきい値とを比較して音声区間の検出する音
声区間検出手段と、 前記フレーム信号から短時間スペクトルを求めるスペク
トル計算手段と、 前記短時間スペクトルのうち前記音声区間検出手段によ
って音声が存在しないと判定された区間に基づいて得ら
れる無音声スペクトルのみを用いて雑音スペクトルを推
定する雑音スペクトル推定手段と、 推定した前記雑音スペクトルにスペクトル減算係数をか
けて前記短時間スペクトルから減算するスペクトル減算
手段であって、予め有するスペクトル減算用しきい値よ
りも前記フレームパワの大きさが大きいフレームに対し
てのみ減算処理をおこなうスペクトル減算手段とを備え
た雑音除去システム。 - 【請求項7】前記スペクトル減算用しきい値は前記音声
区間検出用しきい値に基づいて決定することを特長とす
る請求項6記載の雑音除去システム。 - 【請求項8】前記スペクトル減算係数の値の上限を2と
することを特長とする請求項1から7記載の雑音除去シ
ステム。 - 【請求項9】請求項1から8の雑音除去システムを用い
た音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02910095A JP3451146B2 (ja) | 1995-02-17 | 1995-02-17 | スペクトルサブトラクションを用いた雑音除去システムおよび方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP02910095A JP3451146B2 (ja) | 1995-02-17 | 1995-02-17 | スペクトルサブトラクションを用いた雑音除去システムおよび方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08221092A true JPH08221092A (ja) | 1996-08-30 |
JP3451146B2 JP3451146B2 (ja) | 2003-09-29 |
Family
ID=12266936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP02910095A Expired - Fee Related JP3451146B2 (ja) | 1995-02-17 | 1995-02-17 | スペクトルサブトラクションを用いた雑音除去システムおよび方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3451146B2 (ja) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999050825A1 (fr) * | 1998-03-30 | 1999-10-07 | Mitsubishi Denki Kabushiki Kaisha | Dispositif et procede de reduction de bruits |
JP2006279185A (ja) * | 2005-03-28 | 2006-10-12 | Casio Comput Co Ltd | 撮像装置、音声記録方法及びプログラム |
JP2007199247A (ja) * | 2006-01-25 | 2007-08-09 | Kddi Corp | 音響分析装置及びコンピュータプログラム、音声認識システム |
US7706550B2 (en) | 2004-01-08 | 2010-04-27 | Kabushiki Kaisha Toshiba | Noise suppression apparatus and method |
WO2011055834A1 (ja) | 2009-11-06 | 2011-05-12 | 日本電気株式会社 | 信号処理方法、情報処理装置、及び信号処理プログラム |
WO2011055829A1 (ja) | 2009-11-06 | 2011-05-12 | 日本電気株式会社 | 信号処理方法、情報処理装置、及び信号処理プログラム |
WO2011055832A1 (ja) | 2009-11-06 | 2011-05-12 | 日本電気株式会社 | 情報処理装置、その付属装置、情報処理システム、その制御方法並びに制御プログラム |
WO2011055830A1 (ja) | 2009-11-09 | 2011-05-12 | 日本電気株式会社 | 信号処理方法、情報処理装置、及び信号処理プログラム |
JP2011118124A (ja) * | 2009-12-02 | 2011-06-16 | Murata Machinery Ltd | 音声認識システムと認識方法 |
WO2011148860A1 (ja) | 2010-05-24 | 2011-12-01 | 日本電気株式会社 | 信号処理方法、情報処理装置、及び信号処理プログラム |
WO2011148861A1 (ja) | 2010-05-25 | 2011-12-01 | 日本電気株式会社 | 信号処理方法、情報処理装置、及び信号処理プログラム |
WO2012070684A1 (ja) | 2010-11-25 | 2012-05-31 | 日本電気株式会社 | 信号処理装置、信号処理方法、及び信号処理プログラム |
JP2013120358A (ja) * | 2011-12-08 | 2013-06-17 | Nippon Hoso Kyokai <Nhk> | 雑音抑圧装置、雑音抑圧方法、および雑音抑圧プログラム |
US20130246056A1 (en) * | 2010-11-25 | 2013-09-19 | Nec Corporation | Signal processing device, signal processing method and signal processing program |
JP2014146942A (ja) * | 2013-01-29 | 2014-08-14 | Pioneer Electronic Corp | ノイズ低減装置、放送受信装置及びノイズ低減方法 |
JP2018532155A (ja) * | 2016-04-22 | 2018-11-01 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 音声検出方法、装置及び記憶媒体 |
CN112309414A (zh) * | 2020-07-21 | 2021-02-02 | 东莞市逸音电子科技有限公司 | 基于音频编解码的主动降噪方法、耳机及电子设备 |
CN113008851A (zh) * | 2021-02-20 | 2021-06-22 | 大连海事大学 | 一种基于斜入式激发提高共聚焦结构微弱信号检测信噪比的装置 |
JP2021105684A (ja) * | 2019-12-26 | 2021-07-26 | トヨタ自動車九州株式会社 | 騒音内音声認識装置及び騒音内音声認識システム |
CN113593604A (zh) * | 2021-07-22 | 2021-11-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 检测音频质量方法、装置及存储介质 |
WO2023286299A1 (ja) | 2021-07-12 | 2023-01-19 | ソニーグループ株式会社 | 音声処理装置及び音声処理方法、並びに補聴機器 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6182895B2 (ja) | 2012-05-01 | 2017-08-23 | 株式会社リコー | 処理装置、処理方法、プログラム及び処理システム |
-
1995
- 1995-02-17 JP JP02910095A patent/JP3451146B2/ja not_active Expired - Fee Related
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999050825A1 (fr) * | 1998-03-30 | 1999-10-07 | Mitsubishi Denki Kabushiki Kaisha | Dispositif et procede de reduction de bruits |
AU721270B2 (en) * | 1998-03-30 | 2000-06-29 | Mitsubishi Denki Kabushiki Kaisha | Noise reduction apparatus and noise reduction method |
US7706550B2 (en) | 2004-01-08 | 2010-04-27 | Kabushiki Kaisha Toshiba | Noise suppression apparatus and method |
JP2006279185A (ja) * | 2005-03-28 | 2006-10-12 | Casio Comput Co Ltd | 撮像装置、音声記録方法及びプログラム |
JP2007199247A (ja) * | 2006-01-25 | 2007-08-09 | Kddi Corp | 音響分析装置及びコンピュータプログラム、音声認識システム |
US8736359B2 (en) | 2009-11-06 | 2014-05-27 | Nec Corporation | Signal processing method, information processing apparatus, and storage medium for storing a signal processing program |
WO2011055834A1 (ja) | 2009-11-06 | 2011-05-12 | 日本電気株式会社 | 信号処理方法、情報処理装置、及び信号処理プログラム |
WO2011055832A1 (ja) | 2009-11-06 | 2011-05-12 | 日本電気株式会社 | 情報処理装置、その付属装置、情報処理システム、その制御方法並びに制御プログラム |
WO2011055829A1 (ja) | 2009-11-06 | 2011-05-12 | 日本電気株式会社 | 信号処理方法、情報処理装置、及び信号処理プログラム |
US9548062B2 (en) | 2009-11-06 | 2017-01-17 | Nec Corporation | Information processing apparatus, auxiliary device therefor, information processing system, control method therefor, and control program |
US9190070B2 (en) | 2009-11-06 | 2015-11-17 | Nec Corporation | Signal processing method, information processing apparatus, and storage medium for storing a signal processing program |
WO2011055830A1 (ja) | 2009-11-09 | 2011-05-12 | 日本電気株式会社 | 信号処理方法、情報処理装置、及び信号処理プログラム |
US9042576B2 (en) | 2009-11-09 | 2015-05-26 | Nec Corporation | Signal processing method, information processing apparatus, and storage medium for storing a signal processing program |
JP2011118124A (ja) * | 2009-12-02 | 2011-06-16 | Murata Machinery Ltd | 音声認識システムと認識方法 |
WO2011148860A1 (ja) | 2010-05-24 | 2011-12-01 | 日本電気株式会社 | 信号処理方法、情報処理装置、及び信号処理プログラム |
US9837097B2 (en) | 2010-05-24 | 2017-12-05 | Nec Corporation | Single processing method, information processing apparatus and signal processing program |
EP2767978A1 (en) | 2010-05-25 | 2014-08-20 | Nec Corporation | Audio signal processing |
WO2011148861A1 (ja) | 2010-05-25 | 2011-12-01 | 日本電気株式会社 | 信号処理方法、情報処理装置、及び信号処理プログラム |
US20130246056A1 (en) * | 2010-11-25 | 2013-09-19 | Nec Corporation | Signal processing device, signal processing method and signal processing program |
WO2012070684A1 (ja) | 2010-11-25 | 2012-05-31 | 日本電気株式会社 | 信号処理装置、信号処理方法、及び信号処理プログラム |
US9443503B2 (en) | 2010-11-25 | 2016-09-13 | Nec Corporation | Signal processing device, signal processing method and signal processing program |
US9792925B2 (en) | 2010-11-25 | 2017-10-17 | Nec Corporation | Signal processing device, signal processing method and signal processing program |
JP2013120358A (ja) * | 2011-12-08 | 2013-06-17 | Nippon Hoso Kyokai <Nhk> | 雑音抑圧装置、雑音抑圧方法、および雑音抑圧プログラム |
JP2014146942A (ja) * | 2013-01-29 | 2014-08-14 | Pioneer Electronic Corp | ノイズ低減装置、放送受信装置及びノイズ低減方法 |
JP2018532155A (ja) * | 2016-04-22 | 2018-11-01 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 音声検出方法、装置及び記憶媒体 |
JP2021105684A (ja) * | 2019-12-26 | 2021-07-26 | トヨタ自動車九州株式会社 | 騒音内音声認識装置及び騒音内音声認識システム |
CN112309414A (zh) * | 2020-07-21 | 2021-02-02 | 东莞市逸音电子科技有限公司 | 基于音频编解码的主动降噪方法、耳机及电子设备 |
CN112309414B (zh) * | 2020-07-21 | 2024-01-12 | 东莞市逸音电子科技有限公司 | 基于音频编解码的主动降噪方法、耳机及电子设备 |
CN113008851A (zh) * | 2021-02-20 | 2021-06-22 | 大连海事大学 | 一种基于斜入式激发提高共聚焦结构微弱信号检测信噪比的装置 |
CN113008851B (zh) * | 2021-02-20 | 2024-04-12 | 大连海事大学 | 一种基于斜入式激发提高共聚焦结构微弱信号检测信噪比的装置 |
WO2023286299A1 (ja) | 2021-07-12 | 2023-01-19 | ソニーグループ株式会社 | 音声処理装置及び音声処理方法、並びに補聴機器 |
CN113593604A (zh) * | 2021-07-22 | 2021-11-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 检测音频质量方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP3451146B2 (ja) | 2003-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3451146B2 (ja) | スペクトルサブトラクションを用いた雑音除去システムおよび方法 | |
KR101247652B1 (ko) | 잡음 제거 장치 및 방법 | |
US7647224B2 (en) | Apparatus, method, and computer program product for speech recognition | |
US6950796B2 (en) | Speech recognition by dynamical noise model adaptation | |
KR100312919B1 (ko) | 화자인식을위한방법및장치 | |
US7925502B2 (en) | Pitch model for noise estimation | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
WO2001035389A1 (en) | Tone features for speech recognition | |
Chowdhury et al. | Bayesian on-line spectral change point detection: a soft computing approach for on-line ASR | |
CN108682432B (zh) | 语音情感识别装置 | |
US5487129A (en) | Speech pattern matching in non-white noise | |
KR101122591B1 (ko) | 핵심어 인식에 의한 음성 인식 장치 및 방법 | |
Alam et al. | Robust feature extractors for continuous speech recognition | |
Bhukya et al. | End point detection using speech-specific knowledge for text-dependent speaker verification | |
Sorin et al. | The ETSI extended distributed speech recognition (DSR) standards: client side processing and tonal language recognition evaluation | |
Kato et al. | Using hidden Markov models for speech enhancement | |
JPS63502304A (ja) | 高雑音環境における言語認識のためのフレ−ム比較法 | |
JP2003271190A (ja) | 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置 | |
Shome et al. | Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech | |
Joseph et al. | Indian accent detection using dynamic time warping | |
JP4537821B2 (ja) | オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 | |
JPH11327593A (ja) | 音声認識システム | |
Evans et al. | Noise compensation using spectrogram morphological filtering | |
JPH04230800A (ja) | 音声信号処理装置 | |
Wang et al. | Improved Mandarin speech recognition by lattice rescoring with enhanced tone models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070711 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080711 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |