JPH0643892A

JPH0643892A - 音声認識方法

Info

Publication number: JPH0643892A
Application number: JP4030395A
Authority: JP
Inventors: Katsuyuki Futayada; 勝行二矢田; Toshiyuki Morii; 利幸森井
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1992-02-18
Filing date: 1992-02-18
Publication date: 1994-02-18

Abstract

(57)【要約】【目的】従来の音声認識装置の問題点であった、使用
環境での騒音の混入や入力回路で発生するノイズによる
認識率の低下といった課題を解決し、簡単な方法によっ
て、耐ノイズ性に優れ、安定した認識率が得られる音声
認識方法の提案を目的とする。【構成】人の声の平均的な特徴に類似したノイズを発
生するモデル騒音発生部１を設け、ここで生成されるノ
イズを加算部２で入力音声と混合してノイズの混入した
入力音声を作成し、これを分析部３で分析した後、特徴
パラメータ抽出部４で特徴パラメータを求める。そし
て、特徴パラメータと標準パターン格納部６の各標準パ
ターンとの類似度を照合部５で求め、認識結果を出力す
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は人間の言葉を機械に理解
させるために用いる音声認識方法に関するものである。

【０００２】

【従来の技術】音声認識方法の実用化における最大の問
題点の１つは耐ノイズ性をいかに向上させるかというこ
とである。現在用いられている認識装置や、開発中の認
識方法の中には、静かな環境中では十分な認識性能を示
すが、騒音が混入すると極端に認識能力が低下するもの
が少なくない。

【０００３】人間の耳は人の声であるか騒音であるかを
正確に聞き分けることができるが、これは物理的な情報
のみでなく、言語情報など、より高次の情報をも利用し
て聴いているためである。物理情報のみを用いる現状の
認識装置では、マイクに混入する音声と騒音とを完全に
区別して処理するのは不可能であるが、物理情報のみで
ノイズの影響をできるだけ軽減しようとする試みはいく
つかある。

【０００４】騒音には一定レベルの音圧が常に混入する
「定常騒音」と、レベルが短時間に大きく変動する「非
定常騒音」があるが、ここでは主に前者を問題にする。
定常騒音（準定常騒音を含む）の影響を低減する方法と
して、従来、次の２つがよく用いられている。

【０００５】１つは、長時間平均として求めた騒音スペ
クトルを、マイクから入力した音声（騒音を含む）から
差引く方法である。この方法を用いた第１の従来例とし
て、田部井他「スペクトル・ローカルピークによる単語
音声認識」（日本音響学会音声研究会資料 s85-86,Dec.
20,1985）をあげることができる。この文献では、自動
車騒音が混入した音声を１１チャンネルの帯域フィルタ
で分析し、各帯域のパワーから騒音スペクトル成分を差
引く方法（スペクトルサブトラクション法）によって、
騒音の認識に及ぼす影響を軽減している。騒音スペクト
ルは、認識前に、自動車騒音のみを帯域フィルタで分析
して求めておく。

【０００６】音声認識に対する騒音の影響を軽減する第
２の方法は、パターンマッチングに用いる標準パターン
を、騒音が混入した音声データを用いて作成する方法で
ある。すなわち、入力信号に入る騒音を許容し、そのか
わりに、標準パターンに積極的にノイズを混入すること
によって、スペクトルパターンを適合させようとする方
法である。第２の従来例として、発明者らが提案した方
法がある（特開昭59-132000号公報「音声の標準パター
ン作成法」）。これは、一般的な環境騒音を−６ｄＢ／
オクターフ゛のスペクトル傾斜を持つモデル騒音で近似し、こ
れをマイクの入力特性を表現するフィルタに通してノイ
ズデータを作成し、このノイズデータを音声データに対
して一定の割合で混入して作成したノイズ入りの音声デ
ータを用いて、標準パターンを作成する方法である。

【０００７】この方法は一般的な騒音に対しては有効で
あり、しかも認識時の処理は全く増えないので、実用的
な方法と言える。

【０００８】

【発明が解決しようとする課題】入力のスペクトルから
騒音のスペクトルを差引く第１の従来例の問題点は、入
力信号のレベルが小さいときなどは、差引いた後の値が
負になってしまう危険性があることである。これは、定
常騒音と言っても多少の変動があるためである。負にな
った場合は、差引かないか、あるいは一定値を入れると
いった策がとられることがあるが、いずれにしてもスペ
クトル歪が生じてしまい、認識率に悪い影響がある。ま
た、騒音スペクトルは認識前の短時間で求めるのが普通
であるが、この時に、騒音の変動などによって騒音の特
徴を正しく求められなかった場合、認識率が大幅に低下
してしまう。第１の従来例の方法は、原理的には良さそ
うな方法であるが、実用として用いる場合にはなかなか
うまくいかない。

【０００９】ノイズを混入したデータを用いて標準パタ
ーンを作成する第２の従来例の方法では次に示すよう
に、標準パターンに混入したノイズの性質と認識時に混
入する騒音の性質が類似している場合は良好な結果にな
るが、騒音の性質が異なる場合は認識率が低下するとい
う問題がある。（表１）は、日本語の５母音と鼻音のデ
ータを用いて、標準パターン作成用データと評価用デー
タにそれぞれノイズを加えて認識実験を行なった結果で
ある。

【００１０】

【表１】

【００１１】ノイズは雑踏騒音（展示会の会場で収録し
た、人の声を中心とする騒音）と雨の降る音を用い、原
音（クリーンデータ）に対して、信号対ノイズ比（ＳＮ
Ｒ）が２５ｄＢになるように加えた。（表１）には、標
準パターンと評価データに同じノイズを用いた場合、違
うノイズを用いた場合、および、原音どうし、原音とノ
イズ付加の場合の認識率（母音・鼻音の平均認識率）を
示している。

【００１２】（表１）によると、評価データにノイズが
付加している場合は、原音で作成した標準パターンを用
いるよりもノイズ付加データで作成した標準パターンを
用いる方が結果が良い。そして、標準パターンと評価デ
ータのノイズが同じ場合の方が違う場合よりも５％程度
認識率が高い（９１.１９％と８６.４３％、８９.８５
％と８４.４１％の比較）。このように第２の従来例
は、入力に標準パターンに付加したノイズと同質の騒音
が混入した場合には有効な方法であるが、ノイズが異質
の場合には良い結果が得られない。

【００１３】本発明は従来例における問題点を解決する
ものである。まず、第１の従来例のような差引く方法を
用いないので、騒音の変動に対して影響を受けることは
ない。そして、第２の従来例に於ける、入力ノイズの性
質の違いによる認識率低下という問題点を解決し、優れ
た音声認識方法を提供するものである。

【００１４】

【課題を解決するための手段】本発明は上記課題を解決
するために、音声の平均スペクトルに類似した、性質の
明らかなノイズを入力音声に付加し、ノイズを付加した
入力音声から得られる特徴パラメータと音声の標準パタ
ーンとの照合を行なうことによって音声を認識するよう
にしたものである。

【００１５】

【作用】本発明は上記構成により、本来のノイズと後で
付加するノイズの両方のノイズ特性が加わった入力音声
から得られる特徴パラメータにおける、入力音声に混入
する性質が不明の騒音の影響が軽減され、この特徴パラ
メータと音声の標準パターンとの照合を行なうことで、
安定した高い認識率を得ることができる。

【００１６】

【実施例】本発明の実施例について図面を用いて詳細に
説明する前に、まず、本発明の原理を説明する。前記
（表１）において、「雑踏騒音」のスペクトルは多くの
人の声の時間平均値とみなして良い。そして「雨の音」
のスペクトルは、白色ノイズに近い。（表１）におい
て、原音で作成した標準パターンの項（クリーン）を縦
方向に見ると、評価データに雑踏騒音が付加しても認識
率の低下はあまり大きくないが（９１.９８→９０．１
２）、雨の音の騒音が付加すると大きく低下する（９
１．９８→７６.０６）ことがわかる。すなわち、人の
声に類似した騒音の影響は小さいが、人の声と性質が大
きく異なる騒音の影響は大きい。

【００１７】一般にノイズのスペクトルの傾斜が人の声
の平均的なスペクトルの傾きと大きく異なる場合は認識
率に対する影響が大きいが、スペクトルの傾きの差異が
小さい場合は、認識率にあまり影響を与えない。したが
って、人の声に近い性質のノイズならば、音声に重畳し
ても認識率に与える影響は小さいということである。

【００１８】本発明は、このような事実を踏まえ、性質
のよく分ったノイズ（人の声に近い性質のノイズ）を入
力音声に積極的に加えることによって、マイクから混入
する環境騒音や入力系に重畳する電気的ノイズ（白色雑
音に近い）など、性質のよく分らないノイズの影響を軽
減する方法である。

【００１９】図４は、原音データと信号対ノイズ比（Ｓ
ＮＲ）２５ｄＢ、２０ｄＢ、１５ｄＢの音声データで作
成した標準パターンを用いて、原音（クリーン）、ＳＮ
Ｒ２５，２０，１５ｄＢの評価用データ（入力データ）
の認識率を全ての組合わせに対して求めてプロットした
ものであり、□印はクリーンデータで作成した標準パタ
ーンによる評価を表わし、＋印はＳＮＲ２５ｄＢのデー
タで作成した標準パターンによる評価を、◇印はＳＮＲ
２０ｄＢのデータで作成した標準パターンによる評価
を、△印はＳＮＲ１５ｄＢのデータで作成した標準パタ
ーンによる評価をそれぞれ表わしている。付加したノイ
ズは、入力も標準パターンも同じであり、人の声の平均
的なスペクトル傾斜に類似した−６ｄＢ／オクターフ゛の傾き
を有するモデルノイズである。

【００２０】図４によると、標準パターンのＳＮＲと評
価データのＳＮＲが一致したときに良い結果になってい
る。そして、両方のＳＮＲの差が±５ｄＢ程度ならば認
識率の低下は小さい。ＳＮＲ２５ｄＢまたは２０ｄＢの
標準パターンを用いれば、クリーンデータからＳＮＲ１
５ｄＢのデータまで、広い範囲の評価データに対して良
好な認識率が得られている。従って、入力データのＳＮ
Ｒと標準パターンのＳＮＲの一致度は厳密である必要は
ない。また、図４から、標準パターンは原音で作成して
も良いが、それよりも多少のノイズを加えたデータで作
成した方が、広い範囲の騒音レベルに対して頑強である
ことが分る。

【００２１】図４の実験は、入力と標準パターンに加え
るノイズが全く同じものであった。本発明は、環境ノイ
ズや回路ノイズに対し、性質の分ったノイズを混入する
方法であるので、本来のノイズと後で加えるノイズの両
方のノイズ特性が入力音声に付加されることになる。し
たがって、標準パターンに付加するノイズ（性質の分っ
たノイズ）と異なるノイズが入力に混入することにな
る。つまり、加えたノイズとは多少異なるノイズが入力
に加わる。そこで次に問題になるのは、入力に混入する
ノイズの性質と標準パターンに混ぜるノイズの性質が、
類似してはいるが微妙に異なる場合に、認識率への影響
はどの程度かということである。

【００２２】これを確かめるために、標準パターンは−
６ｄＢ／オクターフ゛の特性のモデルノイズを付加して作成
し、入力にはこれとは多少スペクトル傾斜が異なるノイ
ズ（道路騒音、工場の騒音、学校の教室で収録した騒
音。これらは−６ｄＢ／オクターフ゛に近いスペクトル傾斜を
有する）を付加して実験を行なった。結果を（表２）に
示す。

【００２３】

【表２】

【００２４】（表２）のように、入力と標準パターンの
ノイズが一致している場合（９１.３３％）に比べ、入
力に他の騒音が混入しても認識率の低下はあまりない。
したがって、入力に混入するノイズのスペクトルが多少
ずれたとしても、認識率への影響は小さい。ただし、
（表１）で説明したように、両スペクトルのずれが大き
い場合は認識率が大幅に低下する。

【００２５】以下、本発明の一実施例について図面を参
照して説明する。図１は、前記の手段を用いた本発明の
第１の実施例の構成を示すブロック図である。１はノイ
ズ信号を発生するモデル騒音発生部、２は入力信号と前
記ノイズ信号を加算する加算部、３はノイズの混入した
音声の分析部、４は、分析結果から特徴パラメータを求
める特徴パラメータ抽出部、５は特徴パラメータの時系
列と標準パターンとのパターンマッチングを行なう照合
部、６は音声の標準パターンを格納する標準パターン格
納部である。

【００２６】上記構成に於てその動作を次に説明する。
マイクなどから入力された入力音声（一般に環境騒音や
電気ノイズを含む）と、モデル騒音発生部１で発生され
たノイズ信号は、加算部２によって加算され、ノイズが
混入した入力信号が作成される。モデル騒音は性質がよ
く分った騒音であり、Ｈｏｔｈスペクトルノイズ、白色
雑音を−６ｄＢ／オクターフ゛のフィルタに通して得たノイ
ズ、雑踏騒音の定常部などが用いられる。モデル騒音の
加算方法としては、アナログ信号として発生して入力波
形に直接加える方法、ディジタル信号としてメモリに蓄
積しておき、入力音声をＡＤ変換した後で加算する方
法、乱数発生器などでランダムノイズを発生して加える
方法などがある。入力音声とノイズの割合は、平均的な
ＳＮＲが２０〜２５ｄＢ程度にするのがよい。

【００２７】分析部３はノイズの混入した音声を分析す
る部分であり、線形予測分析（ＬＰＣ分析）を用いてい
るが、その他帯域フィルタ分析、ＦＦＴ分析などでもよ
い。特徴パラメータ抽出部４は、分析結果から特徴パラ
メータを求める部分であり、本実施例ではＬＰＣケプス
トラム係数を求めている。分析部３が帯域フィルタの場
合は帯域パワーが、ＦＦＴ分析の場合はＦＦＴケプスト
ラムや帯域パワーが求められる。照合部５では、入力を
分析して得られた特徴パラメータの時系列と標準パター
ン格納部６に格納されている音声の標準パターンとのパ
ターンマッチングを行ない、類似度が最大になる標準パ
ターンに対応する音声を認識結果として出力する。標準
パターンは、認識対象とする各音声に対して、標準パタ
ーン作成用データを用いて、あらかじめ作成しておく。
また、モデル騒音発生部１で生成されるノイズと同質の
ものを標準パターン作成用データに一定の割合で加えた
後、標準パターンを作成しても良い。パターンマッチン
グの方法は、入力音声長と標準パターン長を非線形に伸
縮して照合する方法や、線形伸縮によって時間長を合せ
た後照合する方法がある。

【００２８】本発明の第２の実施例の構成を示すブロッ
ク図を図２に示す。第１の実施例との違いは、第１の実
施例ではモデル騒音発生部１からのノイズ信号を入力音
声に加算したが、第２の実施例ではモデル騒音中間パラ
メータ格納部７を設け、分析部３において、モデル騒音
を中間パラメータの形で加えることである。図２におい
て、分析部３でＬＰＣ分析を行なうとき、その過程で求
められる自己相関関数に対して、モデル騒音中間パラメ
ータ格納部７に格納してあるモデル騒音の自己相関関数
を加える方法や、ＬＰＣ分析の結果として求められる線
形予測係数に対して、モデル騒音中間パラメータ格納部
７に格納されているモデル騒音の線形予測係数を加工し
て混合する方法である。特徴パラメータ抽出部４以降の
手続は第１の実施例と同様である。

【００２９】本発明の第３の実施例の構成を示すブロッ
ク図を図３に示す。第３の実施例では、モデル騒音を分
析して得たパラメータをモデル騒音パラメータ格納部８
に格納しておき、これを特徴パラメータ抽出部４で求め
た入力音声の特徴パラメータに対して一定の割合で加え
る方法である。例えば特徴パラメータとして帯域パワー
を用いる場合、入力音声の帯域パワーにノイズの帯域パ
ワーを加えてノイズを混入した帯域パワーを作成し、照
合部５へ送る方法が第３の実施例に相当する。

【００３０】前記、第１乃至第３の実施例は、いずれも
入力音声に対して性質のよく分ったノイズを積極的に混
入する方法であり、混入の形態が異なるのみである。第
１の実施例が最も精密な方法で効果も大きいが、第２、
第３の簡便法でも十分な効果がある。

【００３１】

【発明の効果】以上述べた本発明を用いることにより、
入力音声にマイクから種々の環境騒音が混入した場合
や、入力回路の電気的ノイズが重畳した場合において
も、安定した高い認識率の得られる音声認識装置を作成
することが可能となる。本発明を認識装置に組込むため
の処理量の増加や部品点数の増加は極めて少ない。そし
て、電気的ノイズが多少あってもよいので、安価な入力
回路を用いることができるなど、経済的効果も大きい。
このように、本発明は音声認識装置の実用化に対しての
貢献度が大きく、効果も大きい音声認識方法である。

【図面の簡単な説明】

【図１】本発明の第１の実施例を説明するブロック図

【図２】本発明の第２の実施例を説明するブロック図

【図３】本発明の第３の実施例を説明するブロック図

【図４】評価データの信号対ノイズ比（ＳＮＲ）と音素
認識率の関係を示す概念図

【符号の説明】

１モデル騒音発生部２加算部３分析部４特徴パラメータ抽出部５照合部６標準パターン格納部７モデル騒音中間パラメータ格納部８モデル騒音パラメータ格納部

Claims

【特許請求の範囲】

【請求項１】音声の平均スペクトルに類似した、性質
の明らかなノイズを入力音声に付加し、ノイズを付加し
た入力音声から得られる特徴パラメータと音声の標準パ
ターンとの照合を行なうことによって音声を認識するこ
とを特徴とする音声認識方法。
【請求項２】音声波形とノイズの波形を混合すること
によって、ノイズを付加した入力音声を作成することを
特徴とする請求項１記載の音声認識方法。
【請求項３】音声波形を分析して得られるパラメータ
と、ノイズを分析して得られるパラメータを混合するこ
とによって、ノイズを付加した音声入力から得られる特
徴パラメータを作成することを特徴とする請求項１記載
の音声認識方法。
【請求項４】入力音声に付加するものと同質のノイズ
を付加した音声データを用いて音声の標準パターンを作
成することを特徴とする請求項１記載の音声認識方法。