JPH04264498A

JPH04264498A - 音声認識方法

Info

Publication number: JPH04264498A
Application number: JP3025799A
Authority: JP
Inventors: Yasuyuki Masai; 康之正井; Tsuneo Nitta; 恒雄新田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1991-02-20
Filing date: 1991-02-20
Publication date: 1992-09-21
Anticipated expiration: 2015-03-06
Also published as: JP3015477B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

［発明の目的］

【０００１】

【産業上の利用分野】本発明は、騒音に埋もれた音声パ
ターンから音声パターンを抽出し高い認識性能を得るこ
とのできる音声認識方式に関する。

【０００２】

【従来の技術】音声認識技術は、優れたマンマシン・イ
ンターフェースを実現する上での重要な役割を担ってい
る。この音声認識技術を実用化するにおいて、その認識
精度を高める上での重要な前処理として雑音除去があり
、従来より種々研究・開発されている。

【０００３】この雑音除去の方式としては、音響分析を
行うバンド・パス・フィルタの各チャネルごとにオート
・ゲイン・コントローラを設けて、各チャネルに含まれ
る雑音成分の大きさに応じて、そのチャネルの増幅率を
変化させる方式が実用化されている。ところが、このよ
うな雑音除去方式では、各チャネル間の相対的な信号の
大きさを見ていないため、認識に必要な音声パターンの
特徴が消えてしまう等の問題がある。また、神経回路網
モデルを用いた雑音除去装置（例えば、特開平２−１５
７１８公報参照）が提案されているが、前記雑音除去装
置では神経回路網の学習に使用した雑音と同じ雑音に対
しては効果的に除去することができるが、学習していな
い雑音が入力音声に混入した場合には除去効果は少ない
。さらに、複数のマイクを使用し適応フィルタにより雑
音を除去する方法も提案されているが、実用時にはマイ
クの配置位置の制約が問題となる。前記３種類の方式は
いずれもその構成が複雑であり、安価な音声認識装置の
前処理として使用するのは困難である。

【０００４】

【発明が解決しようとする課題】このように従来にあっ
てはある条件を満たした環境下では高い雑音除去効果が
得られるが、条件が満たされない場合には雑音除去効果
が極端に低下し、また、構成が複雑であるという点で問
題が残されている。

【０００５】本発明は、このような事情を考慮してなさ
れたもので、その目的とするところは、環境条件が変化
しても雑音除去効果があまり低下せず、構成が簡単なピ
ーク強調フィルタを構成し、雑音に埋もれた入力音声か
ら音声特徴を効果的に抽出し、騒音下で発生された音声
を信頼性良く認識することのできる音声認識方式を提供
することにある。

【０００６】

【課題を解決するための手段】本発明は、入力音声を分
析処理して得られる入力音声パターンと学習音声パター
ンに対して微分処理を施した音声パターンを各々入力音
声パターンと学習音声パターンから引き去るフィルタ処
理を行い、雑音に埋もれた音声パターンから音声部分だ
けを抽出し標準パターンの作成と類似度演算を行うこと
を特徴とする音声認識方式である。

【０００７】

【作用】本発明によれば、符号の反転とシフト操作によ
る簡単な手段によりピーク強調ができ、雑音に埋もれた
音声パターンから音声成分を強調して抽出することがで
きるので、騒音下で発声された音声に対しても高い認識
性能を得ることができる。

【０００８】

【実施例】以下、図面を参照して本発明に係る音声認識
装置の一実施例について説明する。図１は、実施例装置
の要部概略構成図であり、１は入力音声を音響分析して
その特徴パラメータを求める音響分析部である。この音
響分析部１は標準パターンとの照合に用いるための特徴
量として、例えば周波数分析したバンド・パス・フィル
タ群出力を求める。

【０００９】ピーク強調フィルタ部２は、上記音響分析
部１で求められた入力音声の特徴パラメータに対して微
分処理を施した特徴パラメータの定数倍を微分処理を施
す前の特徴パラメータから引き去った特徴パラメータを
出力する。尚、ここではピーク強調フィルタ部２に入力
される音声の特徴パラメータとしては、例えば、１６チ
ャネルのバンド・パス・フィルタの出力ｘ（ｉ，ｊ）［
ｊ＝０，１，…，１５］とする。ここで、ｉはフレーム
番号、ｊはチャネル番号を示す。しかして、前記ピーク
強調フィルタ部２は、特徴パラメータｘ（ｉ，ｊ）から
ピーク強調後の特徴パラメータｙ（ｉ，ｊ）を　　１＜
＝ｊ＜＝１４のときｙ（ｉ，ｊ）＝（−ｘ（ｉ，ｊ−１）＋８＊ｘ（ｉ，ｊ）−ｘ（ｉ，ｊ
＋１））／８　　ｊ＝０のときｙ（ｉ，ｊ）＝（−ｘ（ｉ，ｊ）＋８＊ｘ（ｉ，ｊ）−ｘ（ｉ，ｊ＋１
））／８　　ｊ＝１５のときｙ（ｉ，ｊ）＝（−ｘ（ｉ，ｊ−１）＋８＊ｘ（ｉ，ｊ
）−ｘ（ｉ，ｊ））／８として求める。　　また、ｙ（ｉ，ｊ）はさらに一般的にｙ（ｉ，ｊ）
＝α＊ｘ（ｉ，ｊ）−β＊（ｘ（ｉ，ｊ−１）−２＊ｘ
（ｉ，ｊ）＋ｘ（ｉ，ｊ＋１））として求めてもよい。（ただし、α、βは定数）また、周波数方向と時間方向
にラプラス演算を行った特徴パラメータの定数倍を元の
パラメータから引き去った場合の特徴パラメータｙ（ｉ
，ｊ）はｙ（ｉ，ｊ）＝α＊ｘ（ｉ，ｊ）−β＊（ｘ（ｉ，ｊ−
１）−４＊ｘ（ｉ，ｊ）−ｘ（ｉ，ｊ＋１）−ｘ（ｉ−
１，ｊ）−ｘ（ｉ＋１，ｊ））として求める。（ただし
、α、βは定数）

【００１０】標準パターンとして音声を登録した人の音
声を認識対象とする特定話者音声認識装置においては、
標準パターン作成部３は前記ピーク強調フィルタ部２で
ピーク強調された特徴パラメータをその認識対象単語に
ついての標準パターンとし、そのカテゴリ名を付して標
準パターン辞書４に登録する。また、不特定多数の話者
の音声を認識対象とする不特定話者音声認識装置におい
ては、標準パターン作成部３を本実施例の音声認識装置
とは別に用意し、前記ピーク強調フィルタ部２と同じ手
段でピーク強調した特徴パラメータを用いて標準パター
ンを作成し、そのカテゴリ名を付して前記標準パターン
辞書４に登録する。類似度演算部５は、ピーク強調フィ
ルタ部２でピーク強調された入力音声の特徴パラメータ
と前記標準パターン辞書４に登録されている標準パター
ンとの間で類似度を計算し、その計算結果を判定部６に
て判定して、例えば類似度値の最も高い標準パターンの
カテゴリ名を前記入力音声に対する認識結果として求め
るものとなっている。

【００１１】次に、図２を用いて、ピーク強調フィルタ
部２の構成例を説明する。音響分析部１で得られた特徴
パラメータ（例えばバンドパスフィルタの出力値）はフ
レームごとに、周波数の低い順に（高い順に）シフトレ
ジスタ１１に入力され、順次シフトレジスタ１２，１３
へとシフトされる。シフトレジスタ１１，１２，１３の
３つのシフトレジスタに値が設定されると、シフトレジ
スタ１１と１３の出力は、それぞれ符号反転器１４と１
５に入力され符号が反転される。また、シフトレジスタ
１２の出力は左３ビットシフター１６に入力され、左に
３ビットシフトされる。符号反転器１４、１５の出力と
左３ビットシフター１６の出力は加算器１７に入力され
加算される。加算器１７の出力は右３ビットシフター１
８で右に３ビットシフトされ、ピーク強調後の特徴パラ
メータとして出力される。

【００１２】なお、本発明は上述した実施例に限定され
るものではない。ここでは、特徴パラメータを微分した
ものの定数倍を元の特徴パラメータから引き去ってピー
ク強調を施すフィルタの場合について述べたが、雑音レ
ベルに応じて引き去る大きさを適応的に変更しても良い
。その他、本発明はその要旨を逸脱しない範囲で種々変
形して実施することができる。

【００１３】

【発明の効果】以上説明したように本発明によれば、符
号の反転とシフト操作による簡単な手段によりピーク強
調ができ、雑音に埋もれた音声パターンから音声成分を
強調して抽出することができるので騒音下で発声された
音声に対しても高い認識性能を得ることができる等の実
用上多大なる効果が奏せられる。

【図面の簡単な説明】

【図１】本発明の一実施例に係る音声認識装置の概略構
成図である。

【図２】本発明のピーク強調フィルタ部の構成図である
。［符号の説明］１…音響分析部２…ピーク強調フィルタ部３…標準ハターン作成部４…標準パターン辞書５…類似度演算部６…判定部

Claims

【特許請求の範囲】

【請求項１】入力音声を分析処理して求められる入力音
声パターンと予め収集された学習音声パターンに基づい
て作成されている標準パターンとの間で類似度を計算し
て上記入力音声を認識する音声認識方式において、前記
入力音声パターンと前記学習音声パターンから、前記入
力音声パターンと前記学習音声パターンに微分処理を施
した音声パターンの定数倍を各々引き去るフィルタを用
いてピークを強調した後、前記標準パターンの作成及び
類似度計算をすることを特徴とする音声認識方式。
【請求項２】フィルタは、入力音声パターンおよび学習
音声パターンを周波数方向にラプラス演算を施した音声
パターンの定数倍を前記入力音声パターンおよび前記学
習音声パターンから各々引き去る手段を備えたものであ
る特許請求の範囲第１項記載の音声認識方式。
【請求項３】フィルタは、入力音声パターンおよび学習
音声パターンを時間方向にラプラス演算を施した音声パ
ターンの定数倍を前記入力音声パターンおよび前記学習
音声パターンから各々引き去る手段を備えたものである
特許請求の範囲第１項記載の音声認識方式。
【請求項４】フィルタは、入力音声パターンおよび学習
音声パターンを周波数方向および時間方向にラプラス演
算を施した音声パターンの定数倍を前記入力音声パター
ンおよび前記学習音声パターンから各々引き去る手段を
備えたものである特許請求の範囲第１項記載の音声認識
方式。