JP2001356795A - 音声認識装置、及び音声認識方法 - Google Patents
音声認識装置、及び音声認識方法Info
- Publication number
- JP2001356795A JP2001356795A JP2000176894A JP2000176894A JP2001356795A JP 2001356795 A JP2001356795 A JP 2001356795A JP 2000176894 A JP2000176894 A JP 2000176894A JP 2000176894 A JP2000176894 A JP 2000176894A JP 2001356795 A JP2001356795 A JP 2001356795A
- Authority
- JP
- Japan
- Prior art keywords
- noise
- amount
- feature
- feature vector
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
別に用意しなくとも雑音に適応した音声認識を可能とす
る音声認識装置、及び音声認識方法を提供することであ
る。 【解決手段】 特徴ベクトル成分調整部4は、入力音声
に含まれる雑音量に基づいて、この雑音量を加味した隠
れマルコフモデルの分散を推定し、この推定された分散
に応じて、前記入力音声の特徴量を調整する。比較部1
4は、この調整された特徴量を用いて、雑音を加味しな
い隠れマルコフモデル151〜15nに基づいて、前記
入力音声を認識する。
Description
び音声認識方法に係り、詳細には雑音環境下での音声認
識に好適な音声認識装置、及び音声認識方法に関する。
部分的には実用されている。その基本的手法はHMM
(Hidden Markov Model;隠れマルコフモデル)を利用
した統計手法によるものである。図7を参照してHMM
による音声認識の一般的な手法を説明する。まず、マイ
クから入力された音声はA/D変換部101で量子化さ
れた後、フレーム化部102によってフレーム(例えば
フレーム周波数10ms程度の所定処理単位長のタイム
スライス)に区切られ、特徴量検出部103によってフ
レーム毎に特徴量が計算される。この特徴量は、多くの
場合、MFCC(Mel-Frequency Cepstrum Coefficient
s;メル周波数ケプストラム係数)と呼ばれる30次程
度のベクトルが使用される。
05nがトレーニング等によって予め与えられている。
HMMモデルとは各単語を音素程度の比較的少ない複数
の状態で表し、単語毎に状態の遷移確率と、各状態から
入力されたベクトル(特徴量)を出力する確率と、をパ
ラメータとして与えたものである。単語HMMモデル1
051〜105nは音素毎にトレーニングされたHMM
モデルをその単語を音素に分解するときの順に結合する
ことによっても得ることができる。
入力された音声から計算された特徴量である特徴ベクト
ル列とが比較部104に入力される。比較部104では
どのHMMモデルが最も高い確率で与えられた特徴ベク
トル列を出力するかを確率計算によって求める。例えば
“やま”のHMMモデルHMM(yama)で、入力音声の特
徴ベクトル列x(i)を評価する場合は、「モデルHMM
(yama)からその特徴ベクトル列x(i)が出力される
確率;シンボル(特徴ベクトル)発生確率」を計算す
る。比較部104は各単語HMMモデルについてシンボ
ル(特徴ベクトル)発生確率を計算し、その確率を最大
とするHMMモデルに対応する単語を音声認識結果とし
て出力する。
音声認識が行われる環境では雑音による影響が避けられ
ない。雑音環境下における音声認識率を維持するための
方法としてSS(Spectrum Subtraction;スペクトラム
サブトラクション)や、雑音を加味したHMMモデル等
がある。SSとは認識する音声区間に先行する非音声区
間の複数フレームの平均スペクトルを雑音スペクトルと
し、これを音声スペクトルから減算することでスペクト
ル中の雑音成分を除去する方法である。SSは有効であ
るがそれのみでは非定常な雑音には対応できず、雑音を
加味したHMMモデルと合わせて使用する必要がある。
また、雑音を加味したHMMモデルは雑音の種類や大き
さによって多くのモデルを用意しなくてはならなかっ
た。
特別に用意しなくとも雑音に適応した音声認識を可能と
する音声認識装置、及び音声認識方法を提供することで
ある。
め、請求項1記載の発明の音声認識装置は、隠れマルコ
フモデルに基づく確率計算を行うことにより入力音声を
認識する音声認識装置であって、入力音声に含まれる雑
音量を検出する雑音量検出手段(例えば、図1に示す雑
音量検出部2)と、入力音声の特徴量を検出する特徴量
検出手段(例えば、図1に示す特徴量検出部13)と、
前記雑音量検出手段によって検出した雑音量に基づい
て、この雑音量を加味した隠れマルコフモデルの分散を
推定し、この推定された分散に応じて、前記特徴量検出
手段によって検出された特徴量を調整する特徴量調整手
段(例えば、図1に示す特徴ベクトル成分調整部4)
と、この特徴量調整手段によって調整された特徴量を用
いて、雑音を加味しない隠れマルコフモデル(例えば、
図1に示すHMMモデル151〜15n)に基づいて、
前記入力音声を認識する認識手段(例えば、図1に示す
比較部14)と、を備えることを特徴としている。
は、隠れマルコフモデルに基づく確率計算を行うことに
より入力音声を認識する音声認識方法であって、入力音
声に含まれる雑音量を検出する雑音量検出工程と、入力
音声の特徴量を検出する特徴量検出工程と、前記雑音量
検出工程において検出した雑音量に基づいて、この雑音
量を加味した隠れマルコフモデルの分散を推定し、この
推定された分散に応じて、前記特徴量検出工程において
検出された特徴量を調整する特徴量調整工程と、この特
徴量調整工程において調整された特徴量を用いて、雑音
を加味しない隠れマルコフモデルに基づいて、前記入力
音声を認識する認識工程と、を備えることを特徴として
いる。
れば、入力音声に含まれる雑音量に基づいて、この雑音
量を加味した隠れマルコフモデルの分散を推定し、この
推定された分散に応じて、前記入力音声の特徴量を調整
し、この調整された特徴量を用いて、雑音を加味しない
隠れマルコフモデルに基づいて、前記入力音声を認識す
るので、各種雑音に適した隠れマルコフモデルを持たな
くとも雑音に適応した音声認識を行うことが可能とな
り、多様な雑音が発生する環境下での音声認識率を向上
することができる。
項1記載の音声認識装置において、前記特徴量調整手段
は、前記雑音量に比例するように前記特徴量を調整する
ことが有効である。
大きさから比例計算によって特徴量を調整できるので、
様々な雑音に適応化することができる。
明に係る音声認識装置1の実施の形態を詳細に説明す
る。
1の構成を示すブロック図である。図1に示すように、
音声認識装置1は、A/D変換部11、フレーム化部1
2、特徴量検出部13、比較部14、複数の単語HMM
モデル151,152,・・・15nを備える他、雑音量
検出部2、雑音量調整部3、及び特徴ベクトル成分調整
部4(特徴量調整手段)を備える。
たアナログ音声信号をA/D変換し、量子化音声信号と
してフレーム化部12及び雑音量検出部2に出力する。
フレーム化部12は、A/D変換部11から入力された
量子化音声信号を例えば8〜16ms程度のシフト間隔
(フレーム周期)で所定の処理単位長(フレーム長;例
えば、20〜40ms)に区切る。この区切られた各音
声区間をフレームと呼ぶ。フレームは一部重複させるよ
うにして切り出すのが望ましい。特徴量検出部13はフ
レーム毎に特徴量を検出する。特徴量は、例えばMFC
C(Mel-Frequency Cepstrum Coefficients;メル周波
数ケプストラム係数)と呼ばれる30次程度の特徴ベク
トル列を用いる。
程を説明する。まず、入力された音声信号について平均
値を計算し、エンファシス(高域強調)を施してスペク
トルの傾斜を平坦化する。そして、フレーム化部12に
おいてフレームを切り出す際、元の音声信号に時間窓を
乗じて重み付けする。例えば、時間窓としてハミング窓
を乗じることによってフレームの両端に急激な変化が起
こらないようにしている。その後、特徴量検出部13は
フレーム単位に以下の処理を実行する。人間の聴覚特性
に適した特徴量を抽出するため、音の周波数の高さに対
して、対数的な特性(メル尺度)を示すような重みがか
かるように、FFT(高速フーリエ変換;Fast Fourier
Transform)を計算して周波数軸に変換し(ステップS
1)、メル尺度に変換する(ステップS2)。更に、対
数変換して(ステップS3)、重み付けし(ステップS
4)、FFT(COS変換)した後(ステップS5)、
正規化する(ステップS6)。この正規化処理では、各
特徴量の平均値がおよそ0になるように正規化される。
以上の過程で求められたMFCCの出力ディメンション
はエネルギー(≧0)の対数である。これはMFCCに
限らず、ほぼ全ての特徴量に共通といえる。以下、特徴
量検出部13から出力される特徴量のディメンションは
エネルギーの対数であるとして説明する。特徴量検出部
13において検出された特徴量(特徴ベクトル列)は、
後述する特徴ベクトル成分調整部4に出力される。な
お、特徴量はMFCCに限定されるものではなくその他
のものでもよい。また、特徴ベクトル列の次元も任意で
ある。ここではn次元とする。
子化された入力音声信号から雑音量の大きさを検出す
る。雑音量は、例えば非音声区間においてサンプリング
された音声信号のエネルギー値の二乗和を計算すること
により求められる。非音声区間は、例えば認識開始ボタ
ンを押下した瞬間から所定サンプル数とすればよい。な
お、雑音量は二乗和で計算したものに限定されるもので
はなく、他の計算方法によって算出されるものとしても
よい。
て検出された雑音量を、特徴ベクトル成分調整部4にお
ける分散推定の際の演算「(分散)*(雑音量)=定
数」(詳細は後述する)に使用できるように適当なディ
メンションに変換する。例えば、上述のようにエネルギ
ーの二乗和を雑音量とした場合は、雑音量の平方根をと
るようにすればよい。また極端に大きい雑音量を除去す
るため、リミッタを設けるようにしてもよい。
HMMモデル151〜15nを用いた音声認識について
図3〜図5を参照して説明する。図3は音声“yam
a”の状態遷移の様子を模式的に示す図であり、図4は
図3の一部を示す図である。また、図5は、シンボル
(特徴ベクトル)発生確率分布を表す図である。
12個の状態があると仮定する。図中の円はそれぞれ状
態を示し、矢印は状態が遷移する方向を示している。そ
して図4に示すように、各状態A,B,Cにおいて、状
態A→状態A、状態B→状態B、状態C→状態Cのよう
に現在の状態を維持する(状態内遷移)確率をそれぞれ
p(a)、p(b)、p(c)とし、状態A→状態B、
状態B→状態C、状態C→状態Xのように異なる状態へ
遷移する(状態間遷移)確率をそれぞれq(a)、q
(b)、q(c)とする。ここで、 q(a)=1−p(a) q(b)=1−p(b) q(c)=1−p(c) であり、p(a)、p(b)、p(c)、q(a)、q
(b)、q(c)はそれぞれトレーニングによって与え
られている。
Xを発生する確率はprob(a,X)、prob(b,X)、prob
(c,X)で表され、それぞれトレーニングによって与え
られている。ここでは、確率prob(a,X)は状態内遷移
(状態A→状態A)と状態間遷移(状態A→状態B)と
で同一であるとする。prob(b,X)、prob(c,X)につ
いても同様とする。
生する確率、すなわちシンボル発生確率の分布は図5に
示すように混合ガウス分布で表される。図5では簡単の
ためにベクトルを2次元としている。また、各次元は実
際は複数のガウス分布の混合であるが、図5では次式
(1)に示す1個のガウス分布を表すこととする。
トルの発生確率はprob(状態,特徴ベクトル)で表され
る。ここで、probは状態毎に与えられたn次元混合分布
の確率密度である。
合は、与えられている各HMMモデルについて、その各
状態から入力音声の特徴ベクトルがいくつ発生するかを
確率(シンボル(特徴ベクトル)発生確率)計算によっ
て求められる。シンボル(特徴ベクトル)発生確率を求
めるためには、例えば、入力音声の特徴ベクトルがV1
〜V20の20個のベクトルである場合は、「20個の
ベクトルがどの状態でいくつ発生するか」を求めればよ
い。一例を挙げると、図4において、「V1、V2は状
態Aで発生して、V3は状態Aから状態Bへの遷移中に
発生し、V4〜V10は状態Bで発生して、V11は状
態Bから状態Cへの遷移中に発生し、V12〜V20は
状態Cで発生する」とした場合に求められる確率P1
は、次式(2)で表される。
くつ発生するか」の全ての場合について確率P1,P
2,・・・,Pmを計算する。それらの和ΣPmが「HM
Mモデルが与えられた(入力された)特徴ベクトル列を
発生する確率」となる。以上の確率計算は後述する比較
部14において行われる。
る。各シンボル(特徴ベクトル)の発生確率は、前述し
たように、多次元(混合)ガウス分布で表現される(図
5参照)。また、ガウス分布は、G(μi,σi)で表さ
れ(ここで、μ;平均値,σ;共分散値)、入力系(特
徴ベクトル)の平均値μi及び共分散行列σiが定まると
決定される。以下、雑音が加わった場合の特徴量の平均
値及び共分散行列の変化について説明する。
よそ0になるように正規化されて出力されるため、雑音
の有無の影響はない。一方、共分散行列σは計算量低減
のため各次元が無相関と仮定する。このためシンボル
(特徴ベクトル)発生確率の雑音による影響は分散に反
映されると考えればよい。
力音声のエネルギーはノイズエネルギーによって全体的
に大きくなる。HMMモデルの分散は、特徴ベクトルの
各成分の分散に対応しているが、これらの分散は雑音に
よるエネルギーの全体的な増大によって原則的に小さく
なる。
13において入力音声の対数を計算する直前のデータの
平均値を「2」とし、「±1」の変動がある場合には、
その分散b1は次式(3)で表される。
えば「100」増大した場合、同様の仮定(データに
「±1」の変動がある)で分散b2を計算すると、次式
(4)となる。
かにb1>b2となる。以上のことから、雑音が加わっ
た音声でトレーニングしたHMMモデルは、雑音がない
音声でトレーニングしたHMMモデルより一般に分散が
小さくなるといえる。つまり、雑音が加わると分布全体
の分散が小さくなるが、平均値は正規化により不変
(0)である。
は、この現象を利用して特徴ベクトル成分調整部4によ
り雑音量に応じて雑音を加味したモデルの分散を推定
し、この推定した分散に応じて入力音声の特徴ベクトル
の各成分を調整する。そして、比較部14は、各成分が
調整された特徴ベクトルについてのシンボル(特徴ベク
トル)発生確率を雑音を加味しないHMMモデル151
〜15nを用いて求める。
雑音量が大きいほどHMMモデルの分散が小さくなるの
で、雑音を加味したモデルの分散は、検出した雑音量に
反比例させて算出する。すなわち、「(分散)*(雑音
量)=定数」となるように決定する。但し、雑音量は、
雑音量調整部3において適当なディメンションに変換さ
れている。また、シンボル(特徴ベクトル)発生確率分
布の平均値は0であるから、特徴ベクトルの各成分は推
定した分散に反比例するように調整すればよい。つま
り、特徴ベクトルの各成分は雑音の大きさから比例計算
によって調整すればよい。
整の概念を説明する。図6に示すグラフはそれぞれある
HMMモデルに基づくシンボル(特徴ベクトル)発生確
率分布を表しており、簡単のために1次元のグラフとし
ている。これらのグラフにおいて横軸は確率変数である
特徴量、縦軸は確率である。また、これらの分布は平均
値が0になるように正規化されている。
加味しないHMMモデルで評価した場合のシンボル(特
徴ベクトル)発生確率分布を示し、図6(B)は雑音を
加味したHMMモデルで雑音を含む入力音声を評価した
場合の確率分布を示している。これらのグラフにおいて
図6(A)における観測点P1(入力音声)は図6
(B)における観測点P2(入力音声)に対応してい
る。図6(B)に示すように雑音を加味したHMMモデ
ルを用いて雑音を含む入力音声を評価すれば正しい結果
(確率)を得ることができるが、雑音を加味したHMM
モデルを雑音毎、単語毎にそれぞれ用意するのは非常に
困難である。そこで、本発明では図6(C)に示すよう
に、特徴ベクトルの各成分を雑音量に応じて調整し、雑
音を加味しないHMMモデル(図6(A)のHMMモデ
ル)を用いてシンボル(特徴ベクトル)発生確率を求め
る。
加味したモデルでの分散が、雑音を加味しないHMMモ
デル(図6(A))の1/2倍となる場合は、シンボル
(特徴ベクトル)発生確率分布の平均値が0に正規化さ
れていることから、入力音声の特徴ベクトルの各成分を
2倍に調整し、雑音を加味していないHMMモデル(図
6(A)の分布)で評価することに等しいといえる。つ
まり、雑音量が大きい場合のHMMモデルの分散は小さ
くなるので、雑音量に反比例するように雑音を加味した
HMMモデルの分散を推定すればよく、更に、推定した
分散に反比例するように特徴ベクトルの各成分を調整し
て雑音を加味しないモデルで評価すれば、雑音を加味し
たモデルで評価した場合(図6(B))と同一の結果
(確率)を得ることができる。つまり、特徴ベクトル成
分調整部4では、検出した雑音量に比例するように特徴
ベクトルの各成分を調整すればよいこととなる。
おいて調整された特徴量に基づいて雑音を加味していな
い各HMMモデル151〜15nからのシンボル(特徴
ベクトル)発生確率を計算し、その確率が最も大きいH
MMモデルを音声認識結果として出力する。
たアナログ音声信号はA/D変換部11において量子化
音声信号に変換され、フレーム化部12に入力されると
ともに雑音量検出部2に入力される。フレーム化部12
に入力された量子化音声信号は、複数のフレームに区切
られ、次に特徴量検出部13に入力されて、MFCC等
の特徴量(特徴ベクトル列)が検出される。一方、雑音
量検出部2では入力されたディジタル音声信号から雑音
量を検出し、雑音量調整部3において、検出した雑音量
を適当なディメンションに変換したり、リミッタによっ
て極端な雑音を除去する。
て、雑音量検出部2及び前記雑音量調整部3において検
出、調整された雑音量に基づいて前記特徴量検出部13
において検出された特徴ベクトルの各成分を調整する。
すなわち、雑音を加味したHMMモデルの分散を推定し
(図6(B)参照)、この推定された分散に応じて特徴
ベクトルの大きさを調整する(図6(C)参照)。雑音
を加味したHMMモデルの分散は雑音の大きさに反比例
するように決定される。また、雑音を加味したモデルで
のシンボル(特徴ベクトル)発生確率の分散を1/x倍
にすることは、雑音を加味していないHMMモデルでの
確率変数、すなわち、特徴ベクトルの各成分をx倍にす
ることに等しいので、推定された分散に反比例するよう
に特徴ベクトルの各成分を調整する。
量に比例するように特徴ベクトルの各成分を調整すれば
よい(図6(A)→図6(C))。その後、比較部14
では成分が調整された特徴ベクトルについて、雑音を加
味していない全てのHMMモデル151〜15nでのシ
ンボル(特徴ベクトル)発生確率を計算し、その中で最
も確率の高いHMMモデル(単語)を音声認識結果とし
て出力する。
認識装置1は雑音の大きさによってHMMモデルの分散
が変化することを利用して、検出した雑音量から、この
雑音を加味したHMMモデルの分散を推定し、推定した
分散に応じて特徴量を調整し、調整後の特徴量について
雑音を加味していない各HMMモデル151〜15nか
らのシンボル(特徴ベクトル)発生確率を計算し、その
確率が最大となるHMMモデルを音声認識結果とする。
別に持たなくとも、雑音に適応した音声認識を行うこと
が可能となり、多様な雑音が発生する環境下での音声認
識率を向上することができる。
音量からの分散の推定及び特徴量の調整は計算によって
行うものとしたが、例えば、テーブルによって雑音に応
じた特徴量の調整を行うようにしてもよい。この場合、
テーブルには上述のHMMモデルと雑音との関係を利用
して、特徴量の調整量が雑音の大きさに比例するように
設定されているものとする。このようにテーブルを用い
て特徴量を調整するようにすれば、ある程度予測できる
雑音に対しては、分散の推定等の計算を省いて少ない演
算量で雑音に適応させることができる。
ば、検出した入力音声に含まれる雑音量に基づいて、こ
の雑音量を加味した隠れマルコフモデルの分散を推定
し、この推定された分散に応じて、前記入力音声の特徴
量を調整し、この調整された特徴量を用いて、雑音を加
味しない隠れマルコフモデルに基づいて、前記入力音声
を認識するので、各種雑音に適した隠れマルコフモデル
を持たなくとも雑音に適応した音声認識を行うことが可
能となり、多様な雑音が発生する環境下での音声認識率
を向上することができる。
さから比例計算によって特徴量を調整できるので、様々
な雑音に適応化することができる。
る。
る。
示す図である。
る。
図である。
Claims (3)
- 【請求項1】隠れマルコフモデルに基づく確率計算を行
うことにより入力音声を認識する音声認識装置であっ
て、 入力音声に含まれる雑音量を検出する雑音量検出手段
と、 入力音声の特徴量を検出する特徴量検出手段と、 前記雑音量検出手段によって検出した雑音量に基づい
て、この雑音量を加味した隠れマルコフモデルの分散を
推定し、この推定された分散に応じて、前記特徴量検出
手段によって検出された特徴量を調整する特徴量調整手
段と、 この特徴量調整手段によって調整された特徴量を用い
て、雑音を加味しない隠れマルコフモデルに基づいて、
前記入力音声を認識する認識手段と、 を備えることを特徴とする音声認識装置。 - 【請求項2】前記特徴量調整手段は、前記雑音量に比例
するように前記特徴量を調整することを特徴とする請求
項1記載の音声認識装置。 - 【請求項3】隠れマルコフモデルに基づく確率計算を行
うことにより入力音声を認識する音声認識方法であっ
て、 入力音声に含まれる雑音量を検出する雑音量検出工程
と、 入力音声の特徴量を検出する特徴量検出工程と、 前記雑音量検出工程において検出した雑音量に基づい
て、この雑音量を加味した隠れマルコフモデルの分散を
推定し、この推定された分散に応じて、前記特徴量検出
工程において検出された特徴量を調整する特徴量調整工
程と、 この特徴量調整工程において調整された特徴量を用い
て、雑音を加味しない隠れマルコフモデルに基づいて、
前記入力音声を認識する認識工程と、 を備えることを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000176894A JP4560899B2 (ja) | 2000-06-13 | 2000-06-13 | 音声認識装置、及び音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000176894A JP4560899B2 (ja) | 2000-06-13 | 2000-06-13 | 音声認識装置、及び音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001356795A true JP2001356795A (ja) | 2001-12-26 |
JP4560899B2 JP4560899B2 (ja) | 2010-10-13 |
Family
ID=18678558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000176894A Expired - Fee Related JP4560899B2 (ja) | 2000-06-13 | 2000-06-13 | 音声認識装置、及び音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4560899B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210123554A (ko) * | 2020-04-03 | 2021-10-14 | 서울시립대학교 산학협력단 | 선택적으로 원거리 발화를 보상하는 심층 신경망 기반 화자 특징 강화를 위한 장치 및 이를 위한 방법 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11265198A (ja) * | 1997-11-21 | 1999-09-28 | Sextant Avionique | ヴィーナーフィルタを用いた信号中のノイズ抑制のための周波数フィルタ方法 |
JP2001005486A (ja) * | 1999-04-23 | 2001-01-12 | Canon Inc | 音声処理装置及び方法 |
JP2002140096A (ja) * | 2000-06-02 | 2002-05-17 | Canon Inc | 信号処理システム |
-
2000
- 2000-06-13 JP JP2000176894A patent/JP4560899B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11265198A (ja) * | 1997-11-21 | 1999-09-28 | Sextant Avionique | ヴィーナーフィルタを用いた信号中のノイズ抑制のための周波数フィルタ方法 |
JP2001005486A (ja) * | 1999-04-23 | 2001-01-12 | Canon Inc | 音声処理装置及び方法 |
JP2002140096A (ja) * | 2000-06-02 | 2002-05-17 | Canon Inc | 信号処理システム |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210123554A (ko) * | 2020-04-03 | 2021-10-14 | 서울시립대학교 산학협력단 | 선택적으로 원거리 발화를 보상하는 심층 신경망 기반 화자 특징 강화를 위한 장치 및 이를 위한 방법 |
KR102340359B1 (ko) | 2020-04-03 | 2021-12-15 | 서울시립대학교 산학협력단 | 선택적으로 원거리 발화를 보상하는 심층 신경망 기반 화자 특징 강화를 위한 장치 및 이를 위한 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP4560899B2 (ja) | 2010-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11395061B2 (en) | Signal processing apparatus and signal processing method | |
US11423904B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
US9542937B2 (en) | Sound processing device and sound processing method | |
US9142221B2 (en) | Noise reduction | |
JP4520732B2 (ja) | 雑音低減装置、および低減方法 | |
US9384760B2 (en) | Sound processing device and sound processing method | |
US20090254341A1 (en) | Apparatus, method, and computer program product for judging speech/non-speech | |
US20060253285A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
WO2014153800A1 (zh) | 语音识别系统 | |
US7797157B2 (en) | Automatic speech recognition channel normalization based on measured statistics from initial portions of speech utterances | |
US8401844B2 (en) | Gain control system, gain control method, and gain control program | |
US20080114593A1 (en) | Noise suppressor for speech recognition | |
Tu et al. | A hybrid approach to combining conventional and deep learning techniques for single-channel speech enhancement and recognition | |
US20070150263A1 (en) | Speech modeling and enhancement based on magnitude-normalized spectra | |
US8423360B2 (en) | Speech recognition apparatus, method and computer program product | |
US7120580B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
JP4858663B2 (ja) | 音声認識方法及び音声認識装置 | |
KR100784456B1 (ko) | Gmm을 이용한 음질향상 시스템 | |
TW200926141A (en) | Speech recognition system and method with cepstral noise subtraction | |
JP4517457B2 (ja) | 音声認識装置、及び音声認識方法 | |
JP4560899B2 (ja) | 音声認識装置、及び音声認識方法 | |
JP3046029B2 (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
US20230095174A1 (en) | Noise supression for speech enhancement | |
Singh et al. | Sigmoid based Adaptive Noise Estimation Method for Speech Intelligibility Improvement | |
Shabani et al. | Missing feature mask generation in BSS outputs using pitch frequency |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070405 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100706 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100719 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130806 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |