JPH06110491A

JPH06110491A - 音声認識装置

Info

Publication number: JPH06110491A
Application number: JP4260994A
Authority: JP
Inventors: Haruyuki Hayashi; 晴之林
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1992-09-30
Filing date: 1992-09-30
Publication date: 1994-04-22
Anticipated expiration: 2015-04-10
Also published as: JP3031081B2

Abstract

(57)【要約】【目的】過去の音声パターンから非定常雑音を含む雑音
パターンを学習し、非定常雑音が付加した入力音声を正
しく認識できるようにする。【構成】この音声認識装置は、入力信号ａから入力パタ
ーンｂに変換する分析部１と、入力パターンｂから入力
音声パターンｃと非音声パターンｄとに分ける音声検出
部２と、雑音パターンｈが登録されるとともに雑音パタ
ーンｆを出力する雑音パターン記憶部６とを備える。ま
た、予め用意された標準パターンｅが登録される標準パ
ターン記憶部４と、入力音声パターンｃと標準パターン
ｅおよび雑音パターンｆとから認識結果ｇを出力する認
識部３と、音声検出部２からおよび認識部３で行われた
マッチング処理の結果から分離された非音声パターンｊ
から雑音パターンを学習し雑音パターンｈを雑音パター
ン記憶部６に登録する雑音学習部５とを備える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置に関し、
特に非定常雑音の多い環境で使用される音声認識装置に
関する。

【０００２】

【従来の技術】図５を参照すると、従来の音声認識装置
において、分析部１は入力信号ａを特徴ベクトルで表現
される入力パターンｂに変換する。音声検出部２は、入
力パターンｂを音声区間と非音声区間とに分け、音声区
間を入力音声パターンｃとして認識部３へ、また非音声
区間を非音声パターンｄとして雑音学習部５へ各各出力
する。雑音学習部５は、非音声パターンｄから例えばパ
ワーレベルの最小となる１区間を抽出あるいは全区間の
平均を計算し、雑音パターンｆとして認識部３へ出力す
る。認識部３は、入力音声パターンｃと標準パターン記
憶部４からの標準パターンｅの前後に雑音パターンｆを
結合したものとのマッチングを行い、その結果類似度の
最も高い標準パターンのカテゴリを認識結果ｇとして出
力する。なお、このマッチングの際に入力音声パターン
ｃから雑音パターンｆを減算するノイズサブストラクシ
ョンを行う場合もある。

【０００３】従来のこの種の雑音パターンは定常雑音と
いう前提で音声検出の結果の非音声区間から１パターン
のみ学習されるものである。

【０００４】次に図２を参照すると、（ａ）は非定常雑
音のない入力パターンのパワーの波形図であり、（ｂ）
は発声前に舌打ち音および発声後に呼気音が付加された
入力パターンのパワーの波形図と特徴ベクトルの変化量
の波形図である。従来の音声認識方式ではいずれも非音
声定常区間である″ＳＮ″区間のみを雑音パターンとし
て学習している。

【０００５】

【発明が解決しようとする課題】この従来の音声認識装
置では、実際のフィールド上での誤認識の原因は定常雑
音よりも非定常雑音のほうが多く、また非定常雑音が多
い環境で使用されるアプリケーションが多いにもかかわ
らず、従来の雑音学習方式では非定常雑音を学習するこ
とができない。したがって、フィールド上では高い音声
認識率を維持できない。

【０００６】

【課題を解決するための手段】本発明による音声認識装
置は、入力信号から入力パターンに変換する分析手段
と、前記入力パターンから入力音声パターンと第１の非
音声パターンとに分ける音声検出手段と、第１の雑音パ
ターンが登録されるとともに第２の雑音パターンを出力
する雑音パターン記憶手段と、予め用意された標準パタ
ーンが登録される標準パターン記憶手段と、前記入力音
声パターンと前記標準パターンおよび前記第２の雑音パ
ターンとから認識結果を出力する認識手段と、前記音声
検出手段からおよび前記認識手段で行われたマッチング
処理の結果から分離された第２の非音声パターンから雑
音パターンを学習し前記第１の雑音パターンを前記雑音
パターン記憶手段に登録する雑音学習手段とを備え、前
記雑音学習手段が非音声パターンから特徴ベクトルの変
化が小さい区間の平均を定常雑音パターンとして学習
し、かつ特徴ベクトルの変化が大きい区間を切り出し非
定常雑音パターンとして学習する。

【０００７】また、本発明による音声認識装置は、前記
雑音パターン記憶手段において、最新の定常雑音パター
ンを１個のみ記憶し、さらに新しいものから決られた個
数分だけ非定常雑音パターンを記憶する。

【０００８】さらに、本発明による音声認識装置は、前
記認識手段において、定常雑音パターンのみおよび非定
常雑音パターンの前後に定常雑音パターンを結合したも
のを雑音パターンとしてマッチング処理に用いる。

【０００９】

【実施例】本発明の音声認識装置において、雑音学習手
段では非音声パターンから特徴ベクトルの変化が小さい
区間の平均を定常雑音パターンとして学習し、特徴ベク
トルの変化が大きい区間を切り出して非定常雑音パター
ンとして学習する。また、雑音パターン記憶手段では最
新の定常雑音パターンを１個のみ記憶し、さらに新しい
ものから決められた個数分だけ非定常雑音パターンを記
憶する。さらに、認識手段では定常雑音パターンのみお
よび非定常雑音パターンの前後に定常雑音パターンを結
合したものを雑音パターンとしてマッチング処理に用い
る。

【００１０】次に、本発明について図面を参照して説明
する。本発明の一実施例を示す図１を参照すると、分析
部１は入力信号ａを特徴ベクトルで表現される入力パタ
ーンｂに変換する。音声検出部２は、入力パターンｂを
音声区間と非音声区間とに分け、音声区間を入力音声パ
ターンｃとして認識部３へ出力し、非音声区間を非音声
パターンｄとして雑音学習部５へ出力する。なおここ
で、入力音声パターンｃが真の音声区間を十分に含む様
に音声検出パラメータを設定したり、ハングオーバー区
間をつける場合もある。雑音学習部５は、非音声パター
ンｄから特徴ベクトルの変化が小さい区間の平均をとり
雑音パターンｈを定常雑音パターンとして雑音パターン
記憶部６へ出力する。ここでもし非音声パターンｄのな
かで特徴ベクトルの変化が大きい区間があれば、その区
間を切り出して雑音パターンｈを非定常雑音パターンと
して雑音パターン記憶部６へ出力する。図２（ｂ）にお
いて、仮に音声検出が正確に行われ″ＶＯＩＣＥ″の区
間以外が非音声パターンになったとすると、特徴ベクト
ルの変化が小さい例えばΔＶ＝Δｌ以下の区間″ＳＮ″
の平均を定常雑音パターンｈとして学習し、変化が大き
い例えばΔＶ＝Δｈ以上区間″Ｎ１″，″Ｎ２″を非定
常雑音パターンｉとして学習する。雑音パターン記憶部
６は、過去の定常雑音パターンを廃棄し、区間″ＳＮ″
での最新の定常雑音パターンを１個登録する。さらに、
今回学習した区間″Ｎ１″，″Ｎ２″での非定常雑音パ
ターンを登録し、既に登録した非定常雑音パターンの数
が予め決められた数のＭ個であった場合には、最も過去
に登録した区間（ここでは区間″Ｎ７″，″Ｎ８″とす
る）での雑音パターンを廃棄する。

【００１１】認識部３は、入力音声パターンｃと標準パ
ターン記憶部４からの出力である標準パターンｅおよび
雑音パターン記憶部６からの出力である雑音パターンｆ
とのマッチングを行う。ここで雑音パターンｆは、定常
雑音パターンｈとＭ個の（定常雑音パターンｈ＋非定常
雑音パターンｉ＋定常雑音パターンｈ）の合計（Ｍ＋
１）個の組み合わせを用意する。図２（ｂ）において学
習した区間″ＳＮ″，″Ｎ１″，″Ｎ２″での定常・非
定常雑音パターンから、図５の（ａ），（ｂ），（ｃ）
のように３個の雑音パターンを作成してマッチングに用
いる。このマッチングの方法は、例えば各標準パターン
の前後（Ｍ＋１）個の雑音パターンを結合したものと入
力音声パターンとをマッチングし、最も類似度が高くな
った組み合わせの標準パターンのカテゴリを認識結果ｇ
として出力するか、または入力音声パターンの始端から
雑音パターンとのマッチングを開始し、最も類似度の高
くなった雑音パターンの次に入力音声パターンの続きの
区間と標準パターンとのマッチングを行い、最後に再度
入力音声パターンの続きから終端までの区間と雑音パタ
ーンとのマッチングを行う。その結果、類似度の最も高
くなった標準パターンのカテゴリを認識結果ｇとして出
力する。なお、標準パターンとのマッチングの際に、入
力音声パターンから定常雑音パターンを減算するノイズ
サブストラクションを行う場合もある。次に、認識結果
が正解となった場合には正解の標準パターンとのマッチ
ングバックトレースを行い、標準パターンに対応した入
力音声パターンの区間を真の音声区間と判断し、かつ雑
音パターンに対応した入力音声パターンの区間を非音声
区間と判断してこれを非音声パターンｊとして雑音学習
部５に出力する。図２において、仮に音声検出が正確に
行われず″ＤＥＴＥＣＴ″の区間が入力音声パターンに
なったとすると、この″ＤＥＴＥＣＴ″の区間がマッチ
ングの対象となる。図２（ｂ）の入力音声パターンの場
合のマッチングバックトレースを図３に示す。この図３
において、標準パターンに対応した区間は″ｔ1 ″〜″
ｔ3 ″であり、この区間を真の音声区間と判断する。逆
に、雑音パターンに対応した区間は″ｔ1 ″〜″ｔ2
と″ｔ3 ″〜″ｔ4 ″であり、この区間を非音声区間と
判断し、非音声パターンｊとして雑音学習部に出力す
る。雑音学習部５は、非音声パターンｊの中で特徴ベク
トルの変化が小さい区間があればこの平均をとり定常雑
音パターンｈとして、また非音声パターンｊの中で特徴
ベクトルの変化が大きい区間があればその区間を非定常
雑音パターンｉとして雑音パターン記憶部６へ出力す
る。なお、図２（ｂ）においては特徴ベクトルの変化が
小さい区間がないため定常雑音パターンはなく、区間″
Ｎ１″，″Ｎ２″での非定常雑音パターンを学習するこ
とになる。雑音パターン記憶部６における雑音パターン
の廃棄あるいは登録の方法は前述と同じである。

【００１２】このように、同一の環境（場所や人等）で
使用されている過去の入力パターンから複数の雑音パタ
ーンを学習し、次の認識時にこれらの雑音パターンを用
いたマッチングを行うこてができる。

【００１３】

【発明の効果】以上説明したように本発明によれば、
非定常雑音を含めた複数の雑音パターンを用いたマッチ
ングを行うことができ、非定常雑音が付加したために誤
認識していた入力音声を正しく認識することができる。
この結果、非定常雑音が多いフィールド上でも高い認識
率が維持できる。

【図面の簡単な説明】

【図１】本発明の一実施例の音声認識装置を示すブロッ
ク図である。

【図２】（ａ）は同実施例の音声認識装置の非定常雑音
のない入力パターンのパワーの波形図である。（ｂ）は同実施例の音声認識装置の発声前に舌打ち音お
よび発声後に呼気音が付加された入力パターンのパワー
の波形と特徴ベクトルの変化量を示す波形図である。

【図３】同実施例の音声認識装置の図２（ｂ）の入力音
声パターンと標準パターンおよび雑音パターンとのマッ
チングバックトレースを示す図である。

【図４】（ａ）、（ｂ）、（ｃ）は同実施例の音声認識
装置の図２（ｂ）で学習した定常雑音パターンと非定常
雑音パターンから認識時用に作成した３つの雑音パター
ンのパワーの波形図である。

【図５】従来の音声認識装置を示すブロック図である。

【符号の説明】

１分析部２音声検出部３認識部４標準パターン記憶部５雑音学習部６雑音パターン記憶部ａ入力信号ｂ入力パターンｃ入力音声パターンｄ非音声パターンｅ標準パターンｆ雑音パターンｇ認識結果ｈ雑音パターンｊ非音声パターン

Claims

【特許請求の範囲】

【請求項１】入力信号から入力パターンに変換する分
析手段と、前記入力パターンから入力音声パターンと第
１の非音声パターンとに分ける音声検出手段と、第１の
雑音パターンが登録されるとともに第２の雑音パターン
を出力する雑音パターン記憶手段と、予め用意された標
準パターンが登録される標準パターン記憶手段と、前記
入力音声パターンと前記標準パターンおよび前記第２の
雑音パターンとから認識結果を出力する認識手段と、前
記音声検出手段からおよび前記認識手段で行われたマッ
チング処理の結果から分離された第２の非音声パターン
から雑音パターンを学習し前記第１の雑音パターンを前
記雑音パターン記憶手段に登録する雑音学習手段とを備
え、前記雑音学習手段が非音声パターンから特徴ベクトルの
変化が小さい区間の平均を定常雑音パターンとして学習
し、かつ特徴ベクトルの変化が大きい区間を切り出し非
定常雑音パターンとして学習することを特徴とする音声
認識装置。
【請求項２】前記雑音パターン記憶手段において、最
新の定常雑音パターンを１個のみ記憶し、さらに新しい
ものから決られた個数分だけ非定常雑音パターンを記憶
することを特徴とする請求項１記載の音声認識装置。
【請求項３】前記認識手段において、定常雑音パター
ンのみおよび非定常雑音パターンの前後に定常雑音パタ
ーンを結合したものを雑音パターンとしてマッチング処
理に用いることを特徴とする請求項１項および請求項２
記載の音声認識装置。