JP2004012884A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2004012884A
JP2004012884A JP2002167228A JP2002167228A JP2004012884A JP 2004012884 A JP2004012884 A JP 2004012884A JP 2002167228 A JP2002167228 A JP 2002167228A JP 2002167228 A JP2002167228 A JP 2002167228A JP 2004012884 A JP2004012884 A JP 2004012884A
Authority
JP
Japan
Prior art keywords
noise
unit
spectrum
speech recognition
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002167228A
Other languages
English (en)
Inventor
Masaya Nakamura
中村 雅也
Toshio Akaha
赤羽 俊夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2002167228A priority Critical patent/JP2004012884A/ja
Publication of JP2004012884A publication Critical patent/JP2004012884A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】認識率を向上できるとともに、音声認識を容易にリアルタイムで行うことができる音声認識装置を提供すること。
【解決手段】入力部101で、雑音を含む認識対象としての音声信号を入力する。次に、雑音除去部102で、入力された音声信号から雑音を除去する。次に、雑音付加部103で、雑音除去部102による雑音除去後の信号に雑音を付加する。次に、パラメータ化部104で、雑音付加部103による雑音付加後の信号を音声認識用のパラメータに変換する。そして、認識部105で、パラメータ化部104で得られたパラメータを音響モデルと比較して音声認識を行う。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
この発明は音声認識装置に関し、より詳しくは、雑音(典型的には環境雑音)を含む音声信号を対象として音声認識を行う音声認識装置に関する。
【0002】
【従来の技術および発明が解決しようとする課題】
環境雑音を含む音声信号を対象として音声認識を行う方法としては、大別して、認識の手本となる音響モデルに雑音を含ませる方法と、認識対象となる音声信号から雑音を除去した後に認識を行う方法との2種類がある。前者の方法では、音響モデルに予め雑音含ませておく必要があるため、様々な環境の雑音には対応できない。また、その場の環境を学習して音響モデルを再構築する手法も存在するが、計算量が多くなるためからリアルタイム処理は困難である。後者の方法は、様々な環境に対応できる上、計算量が少ないのでリアルタイム処理に適している。
【0003】
従来、後者の方法で、認識対象となる音声から雑音を除去するための代表的な方法として、スペクトル減算法が知られている。このスペクトル減算法の主な考え方は、「S.F.BOLL: ”Suppression of Acoustic Noise in Speech Using Spectral Subtraction, ” IEEE Transaction on Acoustics, Speech and Signal Processing, Vol.27, No.2,  pp.113−120, 1978」に記載されている。また、実際の使用例は、「庄境、中村、鹿野: ”音声強調手法E−CMN/CSSの自動車環境内での音声認識における評価, ”電子情報通信学会論文誌, D−II, Vol.J81−D−II, No.1, pp.1−9, 1998.1」に記載されている。
【0004】
このスペクトル減算法は、概略、図7に示すように、
雑音を含む音声信号を入力する入力部1001、
入力された音声信号を周波数スペクトルに変換するフーリエ変換部1002、
入力スペクトルから雑音スペクトルを除去する雑音減算部1003、
予測した雑音と実際の雑音とが異なる結果として雑音減算部1003において除去し過ぎるのを防ぐフロアリング部1004、
除去するための雑音スペクトルを学習する雑音スペクトル推定部1005、
逆フーリエ変換を行って周波数スペクトルを音声波形に戻す逆フーリエ変換部1006、
を有する。
【0005】
このスペクトル減算法を実行するために、次のように変数を定める。すなわち、
tは時間、
nは時間tで特定されるフレーム(期間を表す)におけるサンプル番号(ただし、0≦n<N)、
Nは切り出したフレームの長さ、
O(n;t)は時間tで特定されるフレームにおける入力信号、
S(n;t)は時間tで特定されるフレームにおける出力信号、
Os(w;t)は時間t、周波数wにおける入力スペクトル、
Ss(w;t)は入力スペクトルより雑音スペクトルを差し引くことで得られた、時間t、周波数wにおける音声スペクトル、
Ns(w;t)は時間t、周波数wにおける推定された雑音スペクトル、
αは入力スペクトルから雑音スペクトルを差し引く度合を決める係数、
βは入力スペクトルを一定以上に保つためのフロアリング係数、
γは雑音スペクトルの更新度合を決める係数
とする。α、β、γの具体的な値は、2.4、0.1、0.974としてもよい。
【0006】
具体的には、スペクトル減算法は次のような流れで実行される。
【0007】
まず、入力部1001において、雑音が含まれた音声信号を入力する。
【0008】
次に、フーリエ変換部1002において、入力部1001より得られた時間tで特定されるフレームの入力信号O(n;t)をフーリエ変換して、時間t、周波数wにおける入力スペクトルOs(w;t)を得る。
【0009】
雑音スペクトル推定部1005では、周波数帯域w毎に、次のようにして雑音スペクトルNs(w;t)を推定する。すなわち、
{Os(w;t)−α・Ns(w;t)}>β・Os(w;t)であれば、
その周波数帯域wが音声帯域であると判断して、
Ns(w;t)=Ns(w;t−1)                    …(88)
とする。
そうでなければ、つまり
{Os(w;t)−α・Ns(w;t)}≦β・Os(w;t)であれば、
その周波数帯域wが雑音帯域であると判断して、
Ns(w;t)=γ・Ns(w;t−1)+(1−γ)Os(w;t)        …(89)
とする。
【0010】
次に、雑音減算部1003において、フーリエ変換部1002によって得られた入力スペクトルOs(w;t)と雑音スペクトル推定部1005でこれまで推定された雑音スペクトルNs(w;t)とを用いて次式(90)の演算(減算)を行って、周波数帯域w毎に音声スペクトルSs(w;t)を得る。
Ss(w;t)=Os(w;t)−α・Ns(w;t)              …(90)
次に、フロアリング部1004では、スペクトルを減算し過ぎないように、周波数帯域w毎に次の変換処理を行う。すなわち
Ss(w;t)<β・Os(w;t)であれば、Ss(w;t)の値を
Ss(w;t)=β・Os(w;t)                   …(91)
とする。
そうでなければ、つまり
Ss(w;t)≧β・Os(w;t)であれば、
Ss(w;t)の値をそのまま維持する。
【0011】
そして、フロアリング部1004において処理を受けた音声スペクトルSs(w;t)を、逆フーリエ変換部1006において逆フーリエ変換する。これにより、雑音が除去された音声信号S(n;t)を得る。
【0012】
しかしながら、スペクトル減算法を用いた雑音除去方法では、完全に雑音を除去できるわけでなく、推定された雑音と実際の雑音との違いに起因して、必ず消し残り雑音が生じる。このような消し残り雑音を含む音声信号を対象とした場合、認識率が向上しにくいという問題がある。
【0013】
こうした問題を避けるために、特開平10−97278のように、スペクトル減算法とHMM(隠れマルコフモデル;hidden Markov model)合成法とを併用する方法が提案されている。この方法では、消し残り雑音から雑音モデルを作成し、本来の音響モデル(クリーン音響モデル)にこの雑音モデルを合成して合成音響モデルを作成する(HMM合成法)。そして、この合成音響モデルを比較に用いることによって、消し残り雑音の影響を無くして、認識率を向上させるようにしている。
【0014】
しかしながら、HMM合成法は、計算量が多くなるためリアルタイム処理が難しいという問題がある。
【0015】
そこで、この発明の課題は、認識率を向上できるとともに、音声認識を容易にリアルタイムで行うことができる音声認識装置を提供することにある。
【0016】
【課題を解決するための手段】
上記課題を解決するため、この発明の音声認識装置は次のような構成を備える。すなわち、この発明の音声認識装置は、雑音を含む認識対象としての音声信号を入力する入力部と、上記入力された音声信号から雑音を除去する雑音除去部とを備える。また、上記雑音除去部による雑音除去後の信号に雑音を付加する雑音付加部と、上記雑音付加部による雑音付加後の信号を音声認識用のパラメータに変換するパラメータ化部とを備える。さらに、上記パラメータ化部で得られたパラメータを音響モデルと比較して音声認識を行う認識部を備える。
【0017】
この発明の音声認識装置は、入力部で、雑音を含む認識対象としての音声信号を入力する。次に、雑音除去部で、上記入力された音声信号から雑音を除去する。次に、雑音付加部で、上記雑音除去部による雑音除去後の信号に雑音を付加する。次に、パラメータ化部で、上記雑音付加部による雑音付加後の信号を音声認識用のパラメータに変換する。そして、認識部で、上記パラメータ化部で得られたパラメータを音響モデルと比較して音声認識を行う。
【0018】
本発明の音声認識装置によれば、上記雑音除去部(例えば公知のスペクトル減算法)による雑音除去後の信号に雑音付加部で雑音を付加するので、消し残り雑音の影響が無くなる(実際上、無視できる。)。この結果、認識部では、雑音除去後の消し残り雑音に左右されずに音声認識が行われる。したがって、認識率が向上する。当然ながら、環境変化に伴って入力音声信号に含まれる雑音が変化しても、影響を受けない。また、公知のHMM合成などと異なり、消し残り雑音から雑音モデルを作成する等の処理を行う必要がないので、計算量が少なくて済む。したがって、音声認識を容易にリアルタイムで行うことができる。
【0019】
一実施形態の音声認識装置は、上記雑音付加部は上記雑音除去部で得られた信号に付加する雑音として既知雑音を用いる。
【0020】
ここでいう「既知雑音」とは、音声認識装置において参照されるパターンや統計的手法における音響モデル学習時に背景雑音として学習されたもの、あるいはそれと同様の特性を持つ雑音をさす。
【0021】
この一実施形態の音声認識装置では、上記雑音付加部は上記雑音除去部で得られた信号に付加する雑音として既知雑音を用いるので、認識部で認識される対象と音響モデルとの食い違いを低減することができる。したがって、さらに認識率を向上させることができる。
【0022】
一実施形態の音声認識装置は、上記雑音付加部は、周波数領域で雑音除去後の入力スペクトルに雑音スペクトルを加算して、この加算後のスペクトルを出力する。
【0023】
この一実施形態の音声認識装置では、上記雑音付加部は、周波数領域で雑音除去後の入力スペクトルに雑音スペクトルを加算して、この加算後のスペクトルを出力する。このようにした場合、時間領域の信号を出力する場合に比して、パラメータ化部における時間領域から周波数領域へのフーリエ変換を省略することができ、計算量を低減できる。したがって、音声認識を容易にリアルタイムで行うことができる。
【0024】
一実施形態の音声認識装置は、上記雑音付加部は、過度に雑音を除去するのを防ぐためのフロアリングの下限値に雑音スペクトルを用いる。
【0025】
この一実施形態の音声認識装置では、上記雑音付加部は、過度に雑音を除去するのを防ぐためのフロアリングの下限値に雑音スペクトルを用いる。したがって、上記雑音除去部で生じた消し残り雑音を、例えば既知雑音に置き換えることができる。したがって、さらに認識率を向上させることができる。
【0026】
一実施形態の音声認識装置では、上記既知雑音は上記音響モデルから抽出した雑音である。
【0027】
この一実施形態の音声認識装置では、上記既知雑音は上記音響モデルから抽出した雑音であるから、認識部で認識される対象と音響モデルとの食い違いを低減することができる。したがって、さらに認識率を向上させることができる。
【0028】
また、この発明の音声認識方法は、
雑音を含む認識対象としての音声信号を入力するステップと、
上記入力された音声信号から雑音を除去するステップと、
上記雑音除去後の信号に雑音を付加するステップと、
上記雑音付加後の信号を音声認識用のパラメータに変換するステップと、
上記音声認識用のパラメータを音響モデルと比較して音声認識を行うステップとを備える。
【0029】
この発明の音声認識方法は、まず、雑音を含む認識対象としての音声信号を入力する。次に、上記入力された音声信号から雑音を除去する。次に、上記雑音除去部による雑音除去後の信号に雑音を付加する。次に、上記雑音付加部による雑音付加後の信号を音声認識用のパラメータに変換する。そして、上記音声認識用のパラメータを音響モデルと比較して音声認識を行う。
【0030】
本発明の音声認識方法によれば、上記雑音除去(例えば公知のスペクトル減算法による)後の信号に雑音を付加するので、消し残り雑音の影響が無くなる(実際上、無視できる。)。この結果、雑音除去後の消し残り雑音に左右されずに音声認識が行われる。したがって、認識率が向上する。当然ながら、環境変化に伴って入力音声信号に含まれる雑音が変化しても、影響を受けない。また、公知のHMM合成などと異なり、消し残り雑音から雑音モデルを作成する等の処理を行う必要がないので、計算量が少なくて済む。したがって、音声認識を容易にリアルタイムで行うことができる。
【0031】
【発明の実施の形態】
以下、この発明の音声認識装置を図示の実施の形態により詳細に説明する。
【0032】
図1は、この発明の第1実施形態の音声認識装置(基本モデル)のブロック構成を示している。
【0033】
この音声認識装置は、入力部101と、雑音除去部102と、雑音付加部103と、パラメータ化部104と、認識部105とを備えている。
【0034】
入力部101では、雑音、例えば環境雑音を含む音声信号を入力する。
【0035】
雑音除去部102では、入力された音声信号から、スペクトル減算法などの公知の雑音除去方法によって雑音を除去する。この雑音除去部102による雑音除去後の信号には、消し残り雑音が存在する。
【0036】
雑音付加部103では、雑音除去部102による雑音除去後の信号に対して、雑音を付加する。ここで付加される雑音については、後に詳述する。
【0037】
パラメータ化部104では、雑音付加部103による雑音付加後の信号から音声の特徴量を抽出して、音声認識用の音響パラメータを得る。この音響パラメータの例としては、MFCC(メル周波数ケプストラム係数;Mel−Frequency Cepstrum Coefficient)やLPC(線形予測符号化;Linear Predictive Coding)などのパラメータが挙げられる。
【0038】
認識部105では、パラメータ化部104で得られた音響パラメータを音響モデルと比較して、音声認識を行う。
【0039】
この音声認識装置の特徴は、雑音を除去する雑音除去部102を備えると共に、雑音を付加する雑音付加部103を備えることにある。雑音付加部103が付加する雑音は、雑音除去部102による雑音除去後の信号に含まれる消し残り雑音と、予め用意された音響モデルとの食い違いを低減するものである。この雑音としては、例えば既知雑音を用いることができる。ここでいう既知雑音とは、音声認識装置において参照されるパターンや統計的手法における音響モデル学習時に背景雑音として学習されたもの、あるいはそれと同様の特性を持つ雑音をさす。
【0040】
次に、この音声認識装置の動作を具体的な数式を用いて説明する。なお、この例では、音声信号を波形に戻してから雑音を付加する。
【0041】
▲1▼ まず、入力部101では、マイクからの入力であれば、A/D変換によって時間tで特定されるフレーム(期間を表す)における入力信号O(n;t)を得る。この入力信号O(n;t)は、例えばサンプリング周波数12kHzで得られた量子化ビット16bitのデジタルデータである。
【0042】
▲2▼ 次に、雑音除去部102では、入力信号O(n;t)を一旦フーリエ変換して、周波数領域で公知のスペクトル減算法(既述)を用いて入力スペクトルから雑音スペクトルを減算した後、逆フーリエ変換を行って時間領域に戻す。これにより、入力信号O(n;t)の雑音を低減させる。この雑音除去部102による雑音除去後の信号S(n;t)には、消し残り雑音が存在する。
【0043】
▲3▼ 次に、雑音付加部103では、次式(1)の演算(加算)を行って、雑音除去後の信号S(n;t)に対して既知雑音を表す信号N1(n;t)を付加する。これにより、既知雑音が付加された音声信号S′(n;t)を得る。
S′(n;t)=S(n;t)+N1(n;t)                 …(1)
【0044】
▲4▼ パラメータ化部104では、雑音付加部103による雑音付加後の信号から音声の特徴量を抽出して、音声認識用の音響パラメータを得る。ここでは、MFCCパラメータを得るものとする。MFCCパラメータの具体的な作成手順は、例えば「鹿野、伊藤、河原、武田、山本編著、“音声認識システム”オーム社p.1−15」に記載されている。
【0045】
詳しくは、図8に示すように、
i) まず、入力部1101で、音声信号を入力する。入力された音声信号をs(n)とする。
【0046】
ii) 次に、プリエンファシス部1102で、次式(2)の演算を行って、その音声信号s(n)についてスペクトルの平坦化(プリエンファシス)を行う。
s1(n;t)=s(n)−a・s(n−1)                 …(2)
(ただし、aは、適切に選んだ適応基準によって変化する値であり、固定では0.9375が多く用いられる。)
このようにして、プリエンファシス後の音声信号s1(n)を求める。
【0047】
iii) 次に、ハミング窓部1103で、そのプリエンファシス後の音声信号s1(n)に対して窓掛けを行う。すなわち、次式(3)のハミング窓関数hamw(n)を用いて式(4)の演算を行う。
hamw(n)=0.54−0.46・cos(2・π・n/N)    …(3)
s2(n)=hamw(n)・s1(n)                …(4)
このようにして、窓掛けされた音声信号s2(n)を求める。
【0048】
d) 次に、フーリエ変換部1104で、その窓掛けされた音声信号s2(n)を周波数スペクトルにフーリエ変換する。この(高速)フーリエ変換によって得られた周波数スペクトルをs3(k)とする。なお、高速フーリエ変換のフレーム長をKとすると、周波数kは0≦k<Kの範囲内にある。
【0049】
e) 次に、メル周波数フィルタバンク部1105で、周波数軸上にL個の三角窓を配置してフィルタバンク分析(変換)を行う。
【0050】
詳しくは、三角窓関数W(l;k)を、
klo≦k≦kc(l)のとき、
W(k;l)={k−klo(l)}/{kc(l)−klo(l)}
kc≦k≦khi(l)のとき、
W(k;l)={k−khi(l)}/{kc(l)−khi(l)}
それ以外のとき、
W(k;l)=0
と定義する。
ただし、
lo(l)はl番目のフィルタの下限、
kc(l)はl番目のフィルタの中心、
khi(l)はl番目のフィルタの上限とする。
また、隣合うフィルタ間では
kc(l)=khi(l−1)=klo(l+1)
とする。
さらにkc(l)は、メル周波数Mel(f)軸上で等間隔に配置されるものとする。なお、Mel(f)=2595log10(1+f/700)であり、fの単位はHz(ヘルツ)とする。
【0051】
このとき、L個(Lはフィルタの個数)の帯域におけるそれぞれのパワーm(l)は、単一スペクトルチャネルの振幅スペクトル|s3(k)|を用いて、次式(5)で表される。
【0052】
【数1】
Figure 2004012884
と表される。
【0053】
iv) 次に、離散コサイン変換部1106では、次式(6)に示すように、フィルタバンク部1105で得られたL個の帯域におけるパワーm(l)を離散コサイン変換して、時間領域に戻す。
【0054】
【数2】
Figure 2004012884
このパラメータmfcc(i)にパワー値や傾きを示すデルタ値を与えると、音響モデルに用いられるMFCCパラメータが得られる。
【0055】
▲5▼ この後、図2中に示した認識部105において、このMFCCパラメータを音響モデルと比較して、音声認識を行う。この音響モデルとしては、一定雑音が付加された環境での音響モデルを用いる。
【0056】
このように、この音声認識装置では、入力された音声信号に既知雑音を付加するので、認識部で認識される対象と音響モデルとの食い違いを低減することができる。したがって、さらに認識率を向上させることができる。当然ながら、環境変化に伴って入力音声信号に含まれる雑音が変化しても、影響を受けない。また、公知のHMM合成などと異なり、消し残り雑音から雑音モデルを作成する等の処理を行う必要がないので、計算量が少なくて済む。したがって、音声認識を容易にリアルタイムで行うことができる。
【0057】
図2は、この発明の第2実施形態の音声認識装置のブロック構成を示している。この音声認識装置は、雑音付加部による既知雑音の付加を周波数領域で行う点に特徴を有している。
【0058】
この音声認識装置は、入力部101と、フーリエ変換部201と、雑音スペクトル推定部205と、減算部202と、フロアリング部203と、雑音付加部204と、パラメータ化部206と、認識部106とを備えている。
【0059】
▲1▼ 入力部101では、先の実施形態と同様に、雑音、例えば環境雑音を含む音声信号を入力する。
【0060】
▲2▼ フーリエ変換部201では、入力された音声信号をフーリエ変換して、周波数領域における入力スペクトルとする。
【0061】
▲3▼ 雑音スペクトル推定部205では、公知の雑音スペクトル推定部と同様に、周波数帯域w毎に、次のようにして雑音スペクトルNs(w;t)を推定する。すなわち、
{Os(w;t)−α・Ns(w;t)}>β・Os(w;t)であれば、
その周波数帯域wが音声帯域であると判断して、
Ns(w;t)=Ns(w;t−1)                      …(7)
とする。
そうでなければ、つまり
{Os(w;t)−α・Ns(w;t)}≦β・Os(w;t)であれば、
その周波数帯域wが雑音帯域であると判断して、
Ns(w;t)=γ・Ns(w;t−1)+(1−γ)Os(w;t)          …(8)
とする。なお、常にこの雑音帯域の更新式(8)を用いて雑音スペクトルの推定を行う連続スペクトル減算法を用いても良い。
【0062】
▲4▼ 次に、減算部202では、フーリエ変換部201によって得られた入力スペクトルOs(w;t)と雑音スペクトル推定部204でこれまで推定された雑音スペクトルNs(w;t)とを用いて次式(9)の演算(減算)を行って、周波数帯域w毎に音声スペクトルS′s(w;t)を得る。
S′s(w;t)=Os(w;t)−α・Ns(w;t)               …(9)
【0063】
▲5▼ 次に、フロアリング部203では、スペクトルを減算し過ぎないように、周波数帯域w毎に次の変換処理を行う。すなわち
S′s(w;t)<β・Os(w;t)であれば、S′s(w;t)の値を
S′s(w;t)=β・Os(w;t)                   …(10)
とする。
そうでなければ、つまり
S′s(w;t)≧β・Os(w;t)であれば、
S′s(w;t)の値をそのまま維持する。
【0064】
▲6▼ 雑音付加部204では、フロアリング部203による変換処理後のスペクトルに対して、次式(11)のように雑音スペクトルNs1(w;t)を付加する。これにより雑音が付加された音声スペクトルS″s(w;t)を得る。
S″s(w;t)=S′s(w;t)+Ns1(w;t)             …(11)
(ただし、Ns1(w;t)は既知雑音をゲイン調整して得られたスペクトルである。)
【0065】
▲7▼ パラメータ化部206では、雑音付加部204による雑音付加後の信号から音声の特徴量を抽出して、音声認識用の音響パラメータを得る。この音響パラメータの例としては、MFCCやLPCなどのパラメータが挙げられる。このパラメータ化部206は、雑音付加部204より周波数スペクトルの形態で信号を得ているので、パラメータ化部104においてMFCCやフーリエ変換を用いたパラメータに変換する場合に時間領域から周波数領域へのフーリエ変換を省略することができる。したがって、計算量を低減でき、音声認識を容易にリアルタイムで行うことができる。
【0066】
▲8▼ 認識部106では、先の実施形態と同様に、パラメータ化部206で得られた音響パラメータを音響モデルと比較して、音声認識を行う。
【0067】
図3は、この発明の第3実施形態の音声認識装置のブロック構成を示している。この音声認識装置は、入力信号に含まれた雑音を既知雑音で置き換える点に特徴を有している。
【0068】
この音声認識装置は、入力部101と、フーリエ変換部301と、雑音スペクトル推定部304と、減算部302と、雑音を用いたフロアリング部303と、パラメータ化部305と、認識部106とを備えている。
【0069】
▲1▼ 入力部101では、先の各実施形態と同様に、雑音、例えば環境雑音を含む音声信号を入力する。
【0070】
▲2▼ フーリエ変換部301では、入力された音声信号をフーリエ変換して、周波数領域における入力スペクトルとする。
【0071】
▲3▼ 雑音スペクトル推定部304では、公知の雑音スペクトル推定部と同様に、周波数帯域w毎に、次のようにして雑音スペクトルNs(w;t)を推定する。すなわち、既知雑音をゲイン調整して得られたスペクトルNs1(w;t)を基準として、
{Os(w;t)−α・Ns(w;t)}>Ns1(w;t)であれば、
その周波数帯域wが音声帯域であると判断して、
Ns(w;t)=Ns(w;t−1)                     …(12)
とする。
そうでなければ、つまり
{Os(w;t)−α・Ns(w;t)}≦Ns1(w;t)であれば、
その周波数帯域wが雑音帯域であると判断して、
Ns(w;t)=γ・Ns(w;t−1)+(1−γ)Os(w;t)         …(13)
とする。なお、常にこの雑音帯域の更新式(13)を用いて雑音スペクトルの推定を行う連続スペクトル減算法を用いても良い。
【0072】
▲4▼ 次に、減算部302では、フーリエ変換部301によって得られた入力スペクトルOs(w;t)と雑音スペクトル推定部304でこれまで推定された雑音スペクトルNs(w;t)とを用いて次式(9)の演算(減算)を行って、周波数帯域w毎に音声スペクトルS′s(w;t)を得る。
S′s(w;t)=Os(w;t)−α・Ns(w;t)              …(14)
【0073】
▲5▼ 次に、雑音を用いたフロアリング部303では、スペクトルを減算し過ぎないように、周波数帯域w毎に次の変換処理を行う。すなわち、既知雑音をゲイン調整して得られたスペクトルNs1(w;t)を基準として、
S′s(w;t)<Ns1(w;t)であれば、S′s(w;t)の値を
S′s(w;t)=Ns1(w;t)                   …(15)
とする。
そうでなければ、つまり
S′s(w;t)≧Ns1(w;t)であれば、
S′s(w;t)の値をそのまま維持する。
【0074】
この結果、過度に雑音を除去するのを防ぐためのフロアリングの下限値が雑音スペクトルNs1(w;t)によって与えられる。
【0075】
▲6▼ パラメータ化部305では、雑音を用いたフロアリング部303による変換処理(フロアリング)後の信号から音声の特徴量を抽出して、音声認識用の音響パラメータを得る。この音響パラメータの例としては、MFCCやLPCなどのパラメータが挙げられる。このパラメータ化部305は、フロアリング部303より周波数スペクトルの形態で信号を得ているので、パラメータ化部104においてMFCCやフーリエ変換を用いたパラメータに変換する場合に時間領域から周波数領域へのフーリエ変換を省略することができる。したがって、計算量を低減でき、音声認識を容易にリアルタイムで行うことができる。
【0076】
▲7▼ 認識部106では、先の実施形態と同様に、パラメータ化部305で得られた音響パラメータを音響モデルと比較して、音声認識を行う。
【0077】
従来の音声認識方法では、フロアリング部による変換処理(フロアリング)の基準として入力スペクトルに比例する値β・Os(w;t)を用いている。これに対して、この実施形態では、上述のように、雑音付加部103では、過度に雑音を除去するのを防ぐためのフロアリングの下限値が雑音スペクトルNs1(w;t)によって与えられる。これにより、雑音除去部2で生じた消し残り雑音を既知雑音スペクトルNs1(w;t)に置き換えることができる。したがって、さらに認識率を向上させることができる。
【0078】
図4は、認識部が用いる音響モデルから既知雑音を取得するための手順を例示している。この手順は、図8に示したMFCCパラメータ作成手順を逆に行うことによって、音響モデルに含まれる雑音のMFCCパラメータから、その雑音(既知雑音)のスペクトルを得るものである。
【0079】
i) まず逆フーリエ変換部401は、離散コサイン変換部1106による離散コサイン変換の逆変換を行う。
【0080】
すなわち、逆フーリエ変換部401は、MFCCパラメータからパワー値と傾きを示すデルタ値を除いたmfcc(i)を逆フーリエ変換し、得られた値を対数から戻すことで、L個の帯域におけるそれぞれのパワーm(l)を得る。
【0081】
ii) 次に、逆メル周波数フィルタバンク部402は、メル周波数フィルタバンク部1105による変換の逆変換を行う。
【0082】
三角窓関数W(l;k)の因子をもつL行(K/2)列の行列W1の逆行列W−1を求めることができれば、次式(16)により、振幅スペクトルs3(k)を算出することができる。
S3=W−1・M                       …(16)
(ただし、S3は|s3(k)|を因子とするベクトル、Mはm(l)を因子とするベクトルをそれぞれ表している。)
この例では、逆メル周波数フィルタバンク部402は、もっとも簡易な方法で逆行列W−1を求める。具体的には、すなわち、Wの転置行列Wを用いてW・Wを算出し、このW・Wの非対角項を0とし、かつ対角項は逆数に置き換えたものを行列Gとする。この行列Gを用いて、次式(17)のようにW−1を近似する。
−1=G・W                       …(17)
この式(17)による近似は、一般的に言うと粗い近似である。しかし、音声認識の性質上、完全に同一のノイズスペクトルを必要とするわけではないから、逆行列W−1を求めるためにこの近似を用いることは妥当である、と考えられる。
【0083】
iii) 次に、逆プリエンファシス部403は、プリエンファシス部1102によるプリエンファシスの逆変換を行う。
【0084】
この逆プリエンファシス部403による逆変換は、次式(18)で定められたフィルタ関数H(k)を用いて、式(19)に示すように振幅スペクトルs3(k)をフィルタ関数H(k)で除算することによって行われる。
H(k)= 1−ae−j2 π k/(N/2)              …(18)
(ただし、0.9<a<1.0である。)
s4(k)=s3(k)/H(k)              …(19)
この式(19)によって求められたs4(k)は、入力信号に対してハミング窓部1103で窓掛け後、フーリエ変換部1104でフーリエ変換を行ったものに相当する。
【0085】
このようにして、音響モデルに含まれる雑音のMFCCパラメータから、その雑音のスペクトルs4(k)を得ることができる。この雑音スペクトルs4(k)を既知雑音スペクトルとして用いることによって、認識部105においてさらに精度のよい認識を行うことができる。
【0086】
本発明の効果を、波形の変化を表す図5、スペクトルの変化を表す図6を用いて説明する。
【0087】
図5(a)は雑音を含んだ音声信号、図5(b)はスペクトル減算法で雑音を除去した音声信号を示している。また、図5(c)は、認識部が用いる音響モデルから図4に示した手順で取り出した既知雑音を、図3に示した第3実施形態の方法で付加して得られた信号を示している。
【0088】
図6(a)は雑音を含んだ音声信号の雑音部分をパラメータ化したパラメータのスペクトル、図6(b)はスペクトル減算法で雑音を除去した音声信号の雑音部分をパラメータ化したパラメータのスペクトルをそれぞれ表している。図6(c)は、認識部が用いる音響モデルから図4に示した手順で取り出した既知雑音を、図3に示した第3実施形態の方法で付加して得られた信号の雑音部分をパラメータ化したパラメータのスペクトルを表している。また、図6(d)は、音響モデルに含まれる雑音のスペクトルを表している。図6(a)のスペクトルに比べて、図6(b)のスペクトルは大きく雑音が低減されている。しかし、図6(a)のスペクトルと図6(b)のスペクトルとの間で形は変わらず、図6(b)のスペクトルは、図6(d)に示すような音響モデルに含まれた雑音のスペクトルとは異なってしまっている。これに対して、図6(c)のスペクトルは、図6(a)や図6(b)のスペクトルと比べて、図6(d)に示すような音響モデルに含まれた雑音のスペクトルに近い形となっている。
【0089】
したがって、本発明によれば、音声認識の認識率を効果的に高めることができる。
【0090】
【発明の効果】
以上より明らかなように、この発明の音声認識装置によれば、認識率を向上できるとともに、音声認識を容易にリアルタイムで行うことができる。
【図面の簡単な説明】
【図1】この発明の第1実施形態の音声認識装置のブロック構成を示す図である。
【図2】この発明の第2実施形態の音声認識装置のブロック構成を示す図である。
【図3】この発明の第2実施形態の音声認識装置のブロック構成を示す図である。
【図4】認識部が用いる音響モデルから既知雑音を取得するための手順を例示する図である。
【図5】本発明の効果を波形の変化で説明する図である。
【図6】本発明の効果をスペクトルの変化で説明する図である。
【図7】スペクトル減算法を説明するための流れ図である。
【図8】MFCCパラメータの作成法を説明するための流れ図である。
【符号の説明】
101 入力部
102 雑音除去部
103,204 雑音付加部
104,206,305 パラメータ化部
105,106 認識部
201,301 フーリエ変換部
202,302 減算部
203 フロアリング部
205,304 雑音スペクトル推定部
303 雑音を用いたフロアリング部

Claims (5)

  1. 雑音を含む認識対象としての音声信号を入力する入力部と、
    上記入力された音声信号から雑音を除去する雑音除去部と、
    上記雑音除去部による雑音除去後の信号に雑音を付加する雑音付加部と、
    上記雑音付加部による雑音付加後の信号を音声認識用のパラメータに変換するパラメータ化部と、
    上記パラメータ化部で得られたパラメータを音響モデルと比較して音声認識を行う認識部を備える音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    上記雑音付加部は上記雑音除去部で得られた信号に付加する雑音として既知雑音を用いることを特徴とする音声認識装置。
  3. 請求項1に記載の音声認識装置において、
    上記雑音付加部は、周波数領域で雑音除去後の入力スペクトルに雑音スペクトルを加算して、この加算後のスペクトルを出力することを特徴とする音声認識装置。
  4. 請求項1に記載の音声認識装置において、
    上記雑音付加部は、過度に雑音を除去するのを防ぐためのフロアリングの下限値に雑音スペクトルを用いることを特徴とする音声認識装置。
  5. 請求項2に記載の音声認識装置において、
    上記既知雑音は上記音響モデルから抽出した雑音であることを特徴とする音声認識装置。
JP2002167228A 2002-06-07 2002-06-07 音声認識装置 Pending JP2004012884A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002167228A JP2004012884A (ja) 2002-06-07 2002-06-07 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002167228A JP2004012884A (ja) 2002-06-07 2002-06-07 音声認識装置

Publications (1)

Publication Number Publication Date
JP2004012884A true JP2004012884A (ja) 2004-01-15

Family

ID=30434545

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002167228A Pending JP2004012884A (ja) 2002-06-07 2002-06-07 音声認識装置

Country Status (1)

Country Link
JP (1) JP2004012884A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006003899A (ja) * 2004-06-15 2006-01-05 Microsoft Corp ゲイン制約ノイズ抑圧
WO2007049644A1 (ja) 2005-10-26 2007-05-03 Nec Corporation エコー抑圧方法及び装置
JP2008203800A (ja) * 2007-02-23 2008-09-04 Matsushita Electric Works Ltd 音声コントローラ

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006003899A (ja) * 2004-06-15 2006-01-05 Microsoft Corp ゲイン制約ノイズ抑圧
KR101120679B1 (ko) 2004-06-15 2012-03-23 마이크로소프트 코포레이션 이득-제한된 잡음 억제
WO2007049644A1 (ja) 2005-10-26 2007-05-03 Nec Corporation エコー抑圧方法及び装置
US8433074B2 (en) 2005-10-26 2013-04-30 Nec Corporation Echo suppressing method and apparatus
JP2008203800A (ja) * 2007-02-23 2008-09-04 Matsushita Electric Works Ltd 音声コントローラ

Similar Documents

Publication Publication Date Title
Valin A hybrid DSP/deep learning approach to real-time full-band speech enhancement
US10381020B2 (en) Speech model-based neural network-assisted signal enhancement
Ghanbari et al. A new approach for speech enhancement based on the adaptive thresholding of the wavelet packets
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
EP2380165B1 (en) Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
JPH07271394A (ja) 確実な電話音声認識のための信号バイアスの除去
Yuo et al. Robust features for noisy speech recognition based on temporal trajectory filtering of short-time autocorrelation sequences
JP2006243290A (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
Thimmaraja et al. Speech enhancement and encoding by combining SS-VAD and LPC
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
CN114005457A (zh) 一种基于幅度估计与相位重构的单通道语音增强方法
Saleem et al. Spectral phase estimation based on deep neural networks for single channel speech enhancement
Jain et al. Marginal energy density over the low frequency range as a feature for voiced/non-voiced detection in noisy speech signals
Liu et al. Speech enhancement based on analysis–synthesis framework with improved parameter domain enhancement
Garg et al. Deep convolutional neural network-based speech signal enhancement using extensive speech features
JP2004012884A (ja) 音声認識装置
Kato et al. Using hidden Markov models for speech enhancement
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech
Shao et al. Clean speech reconstruction from noisy mel-frequency cepstral coefficients using a sinusoidal model
Sunnydayal et al. Speech enhancement using sub-band wiener filter with pitch synchronous analysis
Vinay et al. A Comparative Analysis on Speech Enhancement and Coding Techniques
Jin et al. Speech enhancement by residual domain constrained optimization
Seyedin et al. Robust MVDR-based feature extraction for speech recognition
JP4313740B2 (ja) 残響除去方法、プログラムおよび記録媒体
Funaki On Adaptive LASSO-based Sparse Time-Varying Complex AR Speech Analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070926

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081007