JP3008593B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP3008593B2 JP3008593B2 JP3233993A JP23399391A JP3008593B2 JP 3008593 B2 JP3008593 B2 JP 3008593B2 JP 3233993 A JP3233993 A JP 3233993A JP 23399391 A JP23399391 A JP 23399391A JP 3008593 B2 JP3008593 B2 JP 3008593B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- noise
- section
- voice
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【0001】
【技術分野】本発明は音声認識装置に関し、特に非定常
雑音の多い環境で使用される音声認識装置の雑音学習方
式に関するものである。
雑音の多い環境で使用される音声認識装置の雑音学習方
式に関するものである。
【0002】
【従来技術】雑音パターンの学習がフィールド上での音
声認識装置に有効であることが知られており、すでに実
用化されている。
声認識装置に有効であることが知られており、すでに実
用化されている。
【0003】その従来の音声認識装置のブロック図を図
2に示す。図において、先ず、入力信号aは分析部1に
よって特徴ベクトルで表現される入力パターンbに変換
される。次に、入力パターンbは音声検出部2によって
音声区間と非音声区間に分けられ、前者は入力音声パタ
ーンcとして認識部3に、後者は非音声パターンdとし
て雑音学習部5に夫々出力される。
2に示す。図において、先ず、入力信号aは分析部1に
よって特徴ベクトルで表現される入力パターンbに変換
される。次に、入力パターンbは音声検出部2によって
音声区間と非音声区間に分けられ、前者は入力音声パタ
ーンcとして認識部3に、後者は非音声パターンdとし
て雑音学習部5に夫々出力される。
【0004】次に、雑音学習部5は非音声パターンdか
ら、例えばパワーレベルの最小となる1区間を抽出し、
あるいは全区間の平均を計算し、雑音パターンfとして
認識部3に出力する。
ら、例えばパワーレベルの最小となる1区間を抽出し、
あるいは全区間の平均を計算し、雑音パターンfとして
認識部3に出力する。
【0005】最後に、認識部3では入力音声パターンc
と、標準パターン記憶部4からの出力である標準パター
ンeの前後に雑音パターンfを結合したものとのマッチ
ングを行い、この結果類似度の最も高い標準パターンの
カテゴリを認識結果gとして出力する。また、マッチン
グの際に入力音声パターンcから雑音パターンfを減算
するノイズサブトラクションを行う場合もある。
と、標準パターン記憶部4からの出力である標準パター
ンeの前後に雑音パターンfを結合したものとのマッチ
ングを行い、この結果類似度の最も高い標準パターンの
カテゴリを認識結果gとして出力する。また、マッチン
グの際に入力音声パターンcから雑音パターンfを減算
するノイズサブトラクションを行う場合もある。
【0006】従来のこの種の雑音パターンは定常雑音で
あるという前提で音声検出の結果の非音声区間から1パ
ターンのみ学習されるものであった。
あるという前提で音声検出の結果の非音声区間から1パ
ターンのみ学習されるものであった。
【0007】図6の(a)は非定常雑音のない入力パタ
ーンのパワー波形例を示し、(b)は発声前に舌打ち
音、発声後に呼気音が付加した入力パターンのパワー波
形例を示し、(c)は発声の直前から直後まで電話の呼
出し音が付加した入力パターンのパワー波形例を示して
いる。
ーンのパワー波形例を示し、(b)は発声前に舌打ち
音、発声後に呼気音が付加した入力パターンのパワー波
形例を示し、(c)は発声の直前から直後まで電話の呼
出し音が付加した入力パターンのパワー波形例を示して
いる。
【0008】従来方式では、図(a)〜(c)のパワー
波形のいずれも非音声定常区間SNのみを雑音パターン
として学習している。実際のフィールド上での誤認識の
原因は定常雑音よりも非定常雑音のほうが多く、また非
定常雑音が多い環境で使用されるアプリケーションが多
いにもかかわらず、従来の音声認識装置における雑音学
習では、非定常雑音を学習することができない。従っ
て、フィールド上では高い認識率を維持できないという
問題点がある。
波形のいずれも非音声定常区間SNのみを雑音パターン
として学習している。実際のフィールド上での誤認識の
原因は定常雑音よりも非定常雑音のほうが多く、また非
定常雑音が多い環境で使用されるアプリケーションが多
いにもかかわらず、従来の音声認識装置における雑音学
習では、非定常雑音を学習することができない。従っ
て、フィールド上では高い認識率を維持できないという
問題点がある。
【0009】
【発明の目的】本発明の目的は、非定常雑音を学習する
ことが可能な音声認識装置を提供することである。
ことが可能な音声認識装置を提供することである。
【0010】
【発明の原理】先ず、一般的に非定常雑音は繰返される
ことが期待されていないのだが、実際にはある一定の環
境で使われている間、同じ様な非定常雑音が繰返される
ことが多い。
ことが期待されていないのだが、実際にはある一定の環
境で使われている間、同じ様な非定常雑音が繰返される
ことが多い。
【0011】例えば、バンキングサービス等の様に電話
からの音声入力のアプリケーションでは、電話回線が接
続されてから切断されるまでの間同一環境で同一話者か
らの音声入力が数十回ある。この間、例えば電話の呼出
音とか電車の走行音が大きく尚且つ頻繁に聞こえるオフ
ィスでは、これらの非定常雑音は繰返し入力音声に混入
する。
からの音声入力のアプリケーションでは、電話回線が接
続されてから切断されるまでの間同一環境で同一話者か
らの音声入力が数十回ある。この間、例えば電話の呼出
音とか電車の走行音が大きく尚且つ頻繁に聞こえるオフ
ィスでは、これらの非定常雑音は繰返し入力音声に混入
する。
【0012】又、イスをギーギー鳴らしながら電話をす
る癖のある人や、発声前後に付加される舌打ち音や呼気
音、鼻息音等が大きい人等、発声者に特有の非定常雑音
が繰返し混入することが多い。
る癖のある人や、発声前後に付加される舌打ち音や呼気
音、鼻息音等が大きい人等、発声者に特有の非定常雑音
が繰返し混入することが多い。
【0013】次に、同じ非定常雑音が混入しても、ある
人の特定の言葉(雑音に強い音声)は正しく認識する
が、他の特定の言葉(雑音に弱い音声)では誤認識する
場合が多い。つまり、雑音に強い音声に付加した非定常
雑音は認識結果から逆にこれを学習することができ、こ
こで学習した非定常雑音に弱い音声を認識する時に利用
すれば誤認識を防ぐことができる。
人の特定の言葉(雑音に強い音声)は正しく認識する
が、他の特定の言葉(雑音に弱い音声)では誤認識する
場合が多い。つまり、雑音に強い音声に付加した非定常
雑音は認識結果から逆にこれを学習することができ、こ
こで学習した非定常雑音に弱い音声を認識する時に利用
すれば誤認識を防ぐことができる。
【0014】
【発明の構成】そこで、本発明によれば、入力信号を入
力パータンに変換する分析部と、この入力パターンを入
力音声パターンと非入力音声パターンとに分ける音声検
出部と、前記非音声パターンから雑音パターンを学習す
る雑音学習部と前記雑音パターンを登録する雑音パター
ン記憶部と、予め準備された標準パターンが登録された
標準パターン記憶部と、前記入力音声パターン,前記標
準パターン,更には前記雑音パターンとから認識結果を
出力する認識部とを含み、前記雑音学習部は、前記非音
声パターンから特徴ベクトルの変化量を算出する手段
と、前記変化量の所定フレーム分の移動平均を算出する
手段と、前記移動平均の最小区間を検出してこれを定常
雑音パターンとし、前記移動平均が予め設定された値よ
りも大なる区間を検出してこれを非定常雑音パターンと
する手段とを含むことを特徴とする音声認識装置が得ら
れる。
力パータンに変換する分析部と、この入力パターンを入
力音声パターンと非入力音声パターンとに分ける音声検
出部と、前記非音声パターンから雑音パターンを学習す
る雑音学習部と前記雑音パターンを登録する雑音パター
ン記憶部と、予め準備された標準パターンが登録された
標準パターン記憶部と、前記入力音声パターン,前記標
準パターン,更には前記雑音パターンとから認識結果を
出力する認識部とを含み、前記雑音学習部は、前記非音
声パターンから特徴ベクトルの変化量を算出する手段
と、前記変化量の所定フレーム分の移動平均を算出する
手段と、前記移動平均の最小区間を検出してこれを定常
雑音パターンとし、前記移動平均が予め設定された値よ
りも大なる区間を検出してこれを非定常雑音パターンと
する手段とを含むことを特徴とする音声認識装置が得ら
れる。
【0015】
【実施例】以下に、本発明の実施例について図面を参照
しつつ詳細に説明する。
しつつ詳細に説明する。
【0016】図1は本発明の実施例のブロック図であ
り、図2と同等部分は同一符号により示している。図3
〜図5は図1の各部の動作を示す処理フローチャートで
あり、図1の構成及び動作について、図3〜図5を参照
して説明する。
り、図2と同等部分は同一符号により示している。図3
〜図5は図1の各部の動作を示す処理フローチャートで
あり、図1の構成及び動作について、図3〜図5を参照
して説明する。
【0017】先ず、入力信号aは分析部1によって特徴
ベクトルで表現される入力パターンbに変換される。入
力パターンbは音声検出部2によって音声区間と非音声
区間に分けられ(ステップ21)、前者を入力音声パタ
ーンcとして認識部3に出力し(ステップ22)、後者
を非音声パターンdとして雑音学習部5に出力する(ス
テップ23)。ここで、入力音声パターンが真の音声区
間を十分に含む様に音声検出パラメータを設定したり、
ハングオーバ区間をつける場合がある。
ベクトルで表現される入力パターンbに変換される。入
力パターンbは音声検出部2によって音声区間と非音声
区間に分けられ(ステップ21)、前者を入力音声パタ
ーンcとして認識部3に出力し(ステップ22)、後者
を非音声パターンdとして雑音学習部5に出力する(ス
テップ23)。ここで、入力音声パターンが真の音声区
間を十分に含む様に音声検出パラメータを設定したり、
ハングオーバ区間をつける場合がある。
【0018】次に、雑音学習部5では非音声パターンd
から特徴ベクトルの変化が小さい区間の平均を算出し
(ステップ51,52)、定常雑音パターンhとして雑
音パターン記憶部6に出力する(ステップ53,5
4)。ここでもし非音声パターンdのなかで特徴ベクト
ルの変化が大きい区間があれば、その区間を非定常雑音
パターンiとして雑音パターン記憶部6に出力する(ス
テップ55,54)。
から特徴ベクトルの変化が小さい区間の平均を算出し
(ステップ51,52)、定常雑音パターンhとして雑
音パターン記憶部6に出力する(ステップ53,5
4)。ここでもし非音声パターンdのなかで特徴ベクト
ルの変化が大きい区間があれば、その区間を非定常雑音
パターンiとして雑音パターン記憶部6に出力する(ス
テップ55,54)。
【0019】図6において、仮に音声検出が正確に行わ
れ“VOICE ”区間以外が非音声パターンとなり、さらに
特徴ベクトルの変化量がパワーとほぼ同じ波形だと考え
ることにする。この場合、いずれも特徴ベクトルの変化
が小さい“SN”区間を定常雑音パターンhとして学習
し、変化が大きい区間(N1,N2,N3,N3′)を
非定常雑音パターンiとして学習する。
れ“VOICE ”区間以外が非音声パターンとなり、さらに
特徴ベクトルの変化量がパワーとほぼ同じ波形だと考え
ることにする。この場合、いずれも特徴ベクトルの変化
が小さい“SN”区間を定常雑音パターンhとして学習
し、変化が大きい区間(N1,N2,N3,N3′)を
非定常雑音パターンiとして学習する。
【0020】次に、すでに雑音パターン記憶部6にいく
つかの雑音パターンが登録されている場合、登録済みの
雑音パターンの中で今回学習した雑音パターン(N1,
N2,N3,N3′)と類似度の高いもの(N8,N9
とする)があれば、これら(N8,N9)を廃棄する
(ステップ61,62)。
つかの雑音パターンが登録されている場合、登録済みの
雑音パターンの中で今回学習した雑音パターン(N1,
N2,N3,N3′)と類似度の高いもの(N8,N9
とする)があれば、これら(N8,N9)を廃棄する
(ステップ61,62)。
【0021】また、N3とN3′は類似度が高いため、
N3′は登録しない。
N3′は登録しない。
【0022】さらに、雑音パターン記憶部6に登録した
雑音パターンの数が予め決められた数(M個)以上にな
った場合には(ステップ63)、最も過去に登録した雑
音パターン(N7とする)を廃棄する(ステップ6
4)。
雑音パターンの数が予め決められた数(M個)以上にな
った場合には(ステップ63)、最も過去に登録した雑
音パターン(N7とする)を廃棄する(ステップ6
4)。
【0023】次に、認識部3では入力音声パターンcと
標準パターン記憶部4からの出力である標準パターンe
及び雑音パターン記憶部6からの出力である雑音パター
ンfとのマッチングを行う。
標準パターン記憶部4からの出力である標準パターンe
及び雑音パターン記憶部6からの出力である雑音パター
ンfとのマッチングを行う。
【0024】マッチングの方法は例えば、先ず入力音声
パターンから雑音パターンとのマッチングを開始する。
雑音パターンは定常雑音パターンと非定常雑音パターン
が結合したものも含まれる、最も類似度の高くなった雑
音パターンの次に、標準パターンと入力音声パターンの
続きの区間とのマッチングを行い、最後にまた雑音パタ
ーンと入力音声パターンの続きから終端までの区間との
マッチングを行う。
パターンから雑音パターンとのマッチングを開始する。
雑音パターンは定常雑音パターンと非定常雑音パターン
が結合したものも含まれる、最も類似度の高くなった雑
音パターンの次に、標準パターンと入力音声パターンの
続きの区間とのマッチングを行い、最後にまた雑音パタ
ーンと入力音声パターンの続きから終端までの区間との
マッチングを行う。
【0025】マッチングの結果、類似度の最も高くなっ
た標準パターンのカテゴリを認識結果gとして出力す
る。また、標準パターンとのマッチングの際、入力音声
パターンから定常雑音パターンを減算するノイズサブト
ラクションを行う場合もある。
た標準パターンのカテゴリを認識結果gとして出力す
る。また、標準パターンとのマッチングの際、入力音声
パターンから定常雑音パターンを減算するノイズサブト
ラクションを行う場合もある。
【0026】次に、認識結果が正解となった場合には
(ステップ31)、正解の標準パターンとのマッチング
バックトレースを行い(ステップ32)、標準パターン
に対応して入力音声パターンの区間を真の音声区間と判
断し、雑音パターンに対応した入力音声パターンの区間
を非音声区間と判断し、これを非音声パターンjとして
雑音学習部5に出力する(ステップ33)。
(ステップ31)、正解の標準パターンとのマッチング
バックトレースを行い(ステップ32)、標準パターン
に対応して入力音声パターンの区間を真の音声区間と判
断し、雑音パターンに対応した入力音声パターンの区間
を非音声区間と判断し、これを非音声パターンjとして
雑音学習部5に出力する(ステップ33)。
【0027】図6において、仮に音声検出が正確に行わ
れず“DETECT”区間が入力音声パターンになったとする
と、この区間がマッチングの対象となり、図6(b)の
入力音声パターンの場合のマッチングバックトレースを
図7のに示す。ここで、標準パターンに対応した区間は
t2〜t3であり、この区間を真の音声区間と判断す
る。逆に、雑音パターンに対応した区間はt1〜t2と
t3〜t4であり、この区間を非音声区間と判断し、非
音声パターンjとして雑音学習部に出力する。
れず“DETECT”区間が入力音声パターンになったとする
と、この区間がマッチングの対象となり、図6(b)の
入力音声パターンの場合のマッチングバックトレースを
図7のに示す。ここで、標準パターンに対応した区間は
t2〜t3であり、この区間を真の音声区間と判断す
る。逆に、雑音パターンに対応した区間はt1〜t2と
t3〜t4であり、この区間を非音声区間と判断し、非
音声パターンjとして雑音学習部に出力する。
【0028】次に、雑音学習部5では非音声パターンj
の中で特徴ベクトルの変化が小さい区間であればこ平均
をとり定常雑音パターンhとして雑音パターン記憶部6
に出力する(ステップ51〜54)。また、非音声パタ
ーンjの中で特徴ベクトルの変化が大きい区間があれ
ば、その区間を非定常雑音パターンiとして雑音パター
ン記憶部6に出力する(ステップ51,52,55)。
の中で特徴ベクトルの変化が小さい区間であればこ平均
をとり定常雑音パターンhとして雑音パターン記憶部6
に出力する(ステップ51〜54)。また、非音声パタ
ーンjの中で特徴ベクトルの変化が大きい区間があれ
ば、その区間を非定常雑音パターンiとして雑音パター
ン記憶部6に出力する(ステップ51,52,55)。
【0029】図6においては、特徴ベクトルの変化量が
パワーとほぼ同じ波形だと考えることにすると、変化が
小さい区間がないためいずれも定常雑音パターンはな
く、非定常雑音パターン(N1,N2,N3,N3′)
を学習することになる。
パワーとほぼ同じ波形だと考えることにすると、変化が
小さい区間がないためいずれも定常雑音パターンはな
く、非定常雑音パターン(N1,N2,N3,N3′)
を学習することになる。
【0030】最後に、雑音パターン記憶部6に登録され
ている雑音パターンの廃棄方法や登録方法は前述と同じ
である。
ている雑音パターンの廃棄方法や登録方法は前述と同じ
である。
【0031】このように、同一の環境(場所や人等)で
使用されている過去の入力パターンから非定常雑音を含
めた雑音パターンを学習し、次の認識時にこれらの雑音
パターンを用いたマッチングを行うことができる。
使用されている過去の入力パターンから非定常雑音を含
めた雑音パターンを学習し、次の認識時にこれらの雑音
パターンを用いたマッチングを行うことができる。
【0032】
【発明の効果】以上述べた様に、本発明によれば、定常
雑音の他に非定常雑音をも学習して認識できるようにし
たので、非定常雑音を含めた複数の雑音パターンを用い
たマッチングを行うことができ、非定常雑音が多い用途
での音声認識が高い認識率で可能になるという効果があ
る。
雑音の他に非定常雑音をも学習して認識できるようにし
たので、非定常雑音を含めた複数の雑音パターンを用い
たマッチングを行うことができ、非定常雑音が多い用途
での音声認識が高い認識率で可能になるという効果があ
る。
【図1】本発明の実施例のブロック図である。
【図2】従来の音声認識装置のブロック図である。
【図3】音声検出部2及び雑音学習部5の処理フロー図
である。
である。
【図4】雑音パターン記憶部6の記憶手順を示すフロー
図である。
図である。
【図5】認識部3の処理フロー図である。
【図6】(a)は非定常雑音のない入力パターンのパワ
ー波形図、(b),(c)は非定常雑音が混在した入力
パターンのパワー波形図である。
ー波形図、(b),(c)は非定常雑音が混在した入力
パターンのパワー波形図である。
【図7】図6(b)の入力音声パターンと標準パターン
及び雑音パターンとのマッチングバックトレースを示す
図である。
及び雑音パターンとのマッチングバックトレースを示す
図である。
1 分析部 2 音声検出部 3 認識部 4 標準パターン記憶部 5 雑音学習部 6 雑音パターン記憶部
Claims (2)
- 【請求項1】 入力信号を入力パータンに変換する分析
部と、この入力パターンを入力音声パターンと非入力音
声パターンとに分ける音声検出部と、前記非音声パター
ンから雑音パターンを学習する雑音学習部と前記雑音パ
ターンを登録する雑音パターン記憶部と、予め準備され
た標準パターンが登録された標準パターン記憶部と、前
記入力音声パターン,前記標準パターン,更には前記雑
音パターンとから認識結果を出力する認識部とを含み、
前記雑音学習部は、前記非音声パターンから特徴ベクト
ルの変化量を算出する手段と、前記変化量の所定フレー
ム分の移動平均を算出する手段と、前記移動平均の最小
区間を検出してこれを定常雑音パターンとし、前記移動
平均が予め設定された値よりも大なる区間を検出してこ
れを非定常雑音パターンとする手段とを含むことを特徴
とする音声認識装置。 - 【請求項2】 前記雑音学習部は、更に前記認識部で行
われた認識処理であるマッチング処理の結果、前記雑音
パターンに対応する入力音声パターンの区間から、新た
に雑音パターンを学習する手段を含むことを特徴とする
請求項1記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3233993A JP3008593B2 (ja) | 1991-08-21 | 1991-08-21 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3233993A JP3008593B2 (ja) | 1991-08-21 | 1991-08-21 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0546196A JPH0546196A (ja) | 1993-02-26 |
JP3008593B2 true JP3008593B2 (ja) | 2000-02-14 |
Family
ID=16963868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3233993A Expired - Lifetime JP3008593B2 (ja) | 1991-08-21 | 1991-08-21 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3008593B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100468817B1 (ko) * | 1997-02-17 | 2005-05-16 | 삼성전자주식회사 | 잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법 |
JP4577543B2 (ja) * | 2000-11-21 | 2010-11-10 | ソニー株式会社 | モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置 |
KR100429896B1 (ko) * | 2001-11-22 | 2004-05-03 | 한국전자통신연구원 | 잡음 환경에서의 음성신호 검출방법 및 그 장치 |
JP6594278B2 (ja) * | 2016-09-20 | 2019-10-23 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、これらの方法及びプログラム |
-
1991
- 1991-08-21 JP JP3233993A patent/JP3008593B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0546196A (ja) | 1993-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI659409B (zh) | 一種語音端點檢測方法及語音辨識方法 | |
JP3282075B2 (ja) | 連続音声認識において句読点を自動的に生成する装置および方法 | |
US7818174B1 (en) | Speech-recognition grammar analysis | |
JP4246703B2 (ja) | 自動音声認識の方法 | |
US20060100866A1 (en) | Influencing automatic speech recognition signal-to-noise levels | |
CN112581938A (zh) | 基于人工智能的语音断点检测方法、装置和设备 | |
JPH04182700A (ja) | 音声認識装置 | |
JP2003532162A (ja) | 雑音に影響された音声の認識のためのロバストなパラメータ | |
KR20210000802A (ko) | 인공지능 음성 인식 처리 방법 및 시스템 | |
JP3008593B2 (ja) | 音声認識装置 | |
JPH02298998A (ja) | 音声認識装置とその方法 | |
JP2996019B2 (ja) | 音声認識装置 | |
JPH07219579A (ja) | 音声認識装置 | |
JP3523382B2 (ja) | 音声認識装置及び音声認識方法 | |
CN116312561A (zh) | 一种电力调度系统人员声纹识别鉴权降噪和语音增强方法、系统及装置 | |
JPH05119792A (ja) | 音声認識装置 | |
CN110265062A (zh) | 基于情绪检测的智能贷后催收方法及装置 | |
JP3031081B2 (ja) | 音声認識装置 | |
CN112151070B (zh) | 一种语音检测的方法、装置及电子设备 | |
JPH0481898A (ja) | 音声認識装置 | |
JP3360978B2 (ja) | 音声認識装置 | |
JPH0466999A (ja) | 文節境界検出装置 | |
EP4401076A1 (en) | Speech processing of an audio signal | |
JP3026855B2 (ja) | 音声認識装置 | |
JPH0484197A (ja) | 連続音声認識装置 |