JPH06138895A

JPH06138895A - 音声認識装置

Info

Publication number: JPH06138895A
Application number: JP4287494A
Authority: JP
Inventors: Toshio Akaha; 俊夫赤羽; Satoru Nakamura; 哲中村; Seiji Hamaguchi; 清治濱口
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1992-10-26
Filing date: 1992-10-26
Publication date: 1994-05-20

Abstract

(57)【要約】【目的】雑音下での認識性能に優れた音声認識装置を
提供する。【構成】特定話者の音声をマイクロホン１８を介して
認識部１１で解析し、解析データを以降の音声認識のた
めに参照データメモリ１７に登録する。登録の際に、音
声認識を実行する環境音に類似した騒音信号を雑音合成
部１３で生成し、アンプ１４で増幅しスピーカ１５で音
に変換し特定話者へ与える。この音を聞いて発声する話
者の音声は、音声認識装置が実際に動作する際と同様な
環境音の影響を受けた音声となり、音声の変化による認
識精度の低下が生じない。変換／発信部１６は、ラジオ
等の既設の音響装置を流用する場合に使用する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識装置に関する
ものである。

【０００２】

【従来の技術】特定話者の音声認識装置では、使用者が
予め音声登録をしておく。音声登録とは、発生した認識
対象音声を分析して参照データを作成し、記憶しておく
ことを言う。使用時には入力音声を分析して得られた特
徴データを、登録されている複数の参照データと比較
し、最も入力と近いと判断されたデータを認識結果とす
る。比較には線形マッチング、非線形マッチング、動的
計画法を用いて求めるＤＰマッチング等が用いられる。

【０００３】比較的環境雑音の大きな環境で認識を行う
場合には、環境雑音の小さな環境で音声登録するより
も、認識実行時に近い環境雑音の下で音声登録する方が
一般的に認識性能がよいことが知られている。（参考文
献；B.H.Juang,"Computer Speech and Language" 1991-
Figure 1）この現象を利用して雑音の小さな環境で発生した音声に
雑音を付加して登録することで、疑似的に認識実行環境
で登録した標準パターンを作成することが考えられる。
また逆に、登録時に比べて認識実行時の環境雑音が少な
い時には、登録時の雑音と同種の雑音を認識実行時の音
声に付加する方法もある。（参考文献；日本電信電話、
「音声認識装置」特開昭58-23098）通常、雑音の大きなところでは人は必然的に強く大きな
声を出す。雑音による音声への影響は、単に雑音が付加
されるだけでなく、強く大きな声を出すことによる音声
のスペクトル構造や時間構造の変化となって表れること
がLombard 効果として知られており、その影響は雑音に
よる影響よりも大きい。（参考文献；滝沢他、音響学会
講演論文集、1989.Oct）

【０００４】

【発明が解決しようとする課題】雑音の小さい環境で発
生した登録音声に雑音を付加する方法では、音声のスペ
クトル構造や時間構造の変化を模擬することはできな
い。

【０００５】本発明は、音声認識実行時の雑音による音
声への影響を登録時の音声に模擬的に作り出すことによ
り、自動車の運転中など雑音の大きい環境下においても
優れた音声認識性能を発揮し得る音声認識装置を提供す
ることにある。

【０００６】

【課題を解決するための手段】本発明の音声認識装置
は、認識対象音声を分析して参照データを生成し登録す
る登録手段と、入力音声を格納されている参照データと
比較することにより該入力音声を認識する認識手段と、
前記登録手段による登録時に前記認識手段による認識時
の環境雑音を模した雑音を発生する雑音発生手段とを備
えたことを特徴とする。

【０００７】

【作用】認識時に想定される環境雑音に比べ、登録時
の環境雑音が小さい場合雑音合成手段は雑音信号を発生
し、スピーカやヘッドホンなどにより使用者に呈示す
る。使用者は、認識時と同様に強く大きな声をだすの
で、認識時の音声に表れるスペクトル構造及び時間構造
の変化を登録時に模擬することができる。

【０００８】

【実施例】以下に本発明の実施例を図面を参照して詳細
に説明する。図１に示すように本実施例の音声認識装置
１は、認識部１１、制御部１２、雑音合成部１３、アン
プ１４、スピーカ１５、変換／発信部１６、参照データ
メモリ１７、マイクロホン１８及び出力端子により構成
される。

【０００９】認識部１１は、特定話者の音声を認識する
装置であり、マイクロホン１８からの音声を分析して登
録や認識を行う。認識部１１は、マイクロプロッセッサ
（ＭＰＵ）等を用いて実現するのが一般的である。参照
データメモリ１７は、特定話者の音声の参照データを格
納するメモリである。

【００１０】制御部１２は、使用者のボタン操作などを
受けて認識部１１の認識と登録の切り替えなどを制御
し、音声登録時には雑音を発生するように雑音合成部１
３を制御する。より有利には制御部１２は、音声登録時
に認識部１１に入力される環境音の大きさを計測し、自
動的に必要な大きさの雑音を発生するように制御する。

【００１１】雑音合成部１３は、音声帯域の雑音を合成
し発生する部である。合成方式としては、ＦＭ合成やパ
ルス発信、ランダムノイズ、あるいはメモリに記憶した
波形を再生することなどが考えられる。雑音合成部１３
は、アナログ発振器、専用のデジタル回路、汎用のＭＰ
Ｕ、認識部１１のプロッセッサを利用するなどにより実
現される。演算プロッセッサを用いて演算により波形を
合成する場合には、Ｄ／Ａコンバータを使ってアナログ
信号に変換する。

【００１２】アンプ１４およびスピーカ１５は、雑音合
成部１３の信号を認識時に想定される雑音レベルと同じ
レベルまで拡大し、使用者に呈示する機器である。これ
らの機器は認識部１１に内蔵することも考えられるが、
自動車に搭載する場合など、オーディオ装置が既にある
場合は省くことも可能である。この場合、信号をオーデ
ィオ装置へ伝えるための出力端子あるいはラジオ電波へ
の変調・発振、あるいは磁気テープ装置へ出力するため
の変換／発信部１６などを備えることで、外部のオーデ
ィオ装置を利用することが可能となる。

【００１３】図２に、本発明の他の実施例の音声認識装
置のブロック図を示す。図１の音声認識装置１の構成要
素と同一の機能を有する要素には同一の符号を付してい
る。図２の音声認識装置２は、認識部１１、制御部１
２、雑音合成部１３、アンプ１４、スピーカ１５、参照
データメモリ１７、マイクロホン１８及び雑音メモリ２
９により構成される。音声認識装置２は雑音メモリ２９
が追加されている点で図１の音声認識装置１と異なる。

【００１４】音声認識時にマイクロホン１８から入力さ
れた音声信号の中から、雑音と判断された部分をデジタ
ルデータとして雑音メモリ２９に記憶し、新たに音声の
登録を行う時に、雑音合成部１３でこの雑音を再生して
使用者に呈示し、より実際に近い環境を作り出す。雑音
を判定するには、音声パワーの値、音声パワーの変化
量、スペクトルの変化量などがいずれもある閾値より小
さいということを基準にすれば、定常的な雑音区間を規
定することができる。これらの値、量を表すパラメータ
は、認識部１１での分析処理により得られる。

【００１５】雑音の表現手段としては、バンドパスフィ
ルタや高速フーリエ変換を用いたパワースペクトル形
状、スペクトルの１次回帰直線、線形予測分析（ＬＰ
Ｃ）を用いたスペクトル包絡などが利用できる。これら
の分析は認識部１１によって計算するのが容易である。
パワースペクトル形状による雑音の分析の場合、逆フー
リエ変換を用いて合成する。線形予測分析による分析の
場合は、インパルス列あるいは白色雑音を入力として線
形予測係数を係数とするフィルタで所望のスペクトル形
状を持つ雑音を合成する。

【００１６】音声認識実行時に環境雑音の種類と大きさ
を判別し、最適な参照データを用いて認識を行うように
するために、予め複数の種類の雑音を分類し登録してお
くことも可能である。多数の雑音データをスペクトル分
析装置を用いて分析し、ベクトル量子化などのクラスタ
リング手法でＮ個のクラスに分類し、それぞれの代表的
な雑音パラメータを作成する。これらＮ個のパラメータ
を雑音メモリ２９に蓄え、登録時に順次使用者に呈示す
ることによって、発声変動の異なる参照データを参照デ
ータメモリ１７に登録する。認識実行時には環境雑音を
上と同様の分析を行った後、Ｎ個の雑音パラメータと比
較し、最も近い雑音下で参照データメモリ１７に登録し
た参照データを用いて認識する。

【００１７】音声認識を実行する場合、認識実行時の環
境音が現在登録されている参照データの登録時の環境音
のどれとも異なる場合、認識実行時の雑音を記録し、自
動的に再登録を使用者に促すことも可能である。この場
合、問題となるのは雑音の認識方法である。認識実行時
の雑音をスペクトル分析し、雑音メモリ２９に蓄えらて
いるＮ個の雑音パラメータとの距離を求め、どの雑音と
もある閾値以上の距離がある場合に新しい種類の雑音で
あると判断する。距離の閾値は、Ｎ個の雑音パラメータ
相互間の平均的な距離の数倍を設定する。

【００１８】上述の音声認識装置において、登録時にヘ
ッドホンやイヤホンなどを用いて使用者の耳に直接雑音
を呈示し、発声変動の起こった音声を雑音を含まない状
態で登録し、認識実行時に入力された雑音を参照データ
に混合して認識するようにすると、使用者の発声変動は
起こるが、マイクロホンからの入力音声には雑音合成部
の発声した雑音が含まれないことになるので、参照デー
タに任意の雑音を付加する、あるいは付加しないといっ
た選択が可能になる。雑音を付加する場合、分析の前に
電気的に混合すれば高速処理が可能になるが、雑音が含
まれない入力から音声区間を検出した後、デジタル演算
により任意の雑音を混合してから分析を行う方が、音声
区間の検出が高精度にできるため有利である。また登録
時に雑音を付加しないで雑音による発声変動の起こった
音声だけを登録してもよい。

【００１９】認識実行時あるいは認識実行の直前に認識
部に入力されている環境音を付加して参照データとする
ことも可能である。この場合は分析して得られたパラメ
ータ上で混合する方が計算量が少ない。また実際に混合
したパラメータを作成するまでもなく、認識部で入力デ
ータの距離演算をする際に、参照データに雑音パラメー
タを加算する変わりに入力データから雑音データのパラ
メータを減算することで同様の効果が得られる。参照デ
ータがＭ個ある場合、入力データは１つなので計算量は
１／Ｍとなる。

【００２０】

【発明の効果】本発明の音声認識装置は、雑音による音
声認識実行時の音声への影響を登録時の音声に模擬的に
作り出すことにより、雑音の大きい環境下においても優
れた音声認識性能を発揮することができる。

【図面の簡単な説明】

【図１】本発明の音声認識装置の実施例のブロック図で
ある。

【図２】本発明の音声認識装置の他の実施例のブロック
図である。

【符号の説明】

１、２音声認識装置１１認識部１２制御部１３雑音合成部１４アンプ１５スピーカ１６変換／発信部１７参照データメモリ１８マイクロホン２９雑音メモリ

Claims

【特許請求の範囲】

【請求項１】認識対象音声を分析して参照データを生
成し登録する登録手段と、入力音声を格納されている参
照データと比較することにより該入力音声を認識する認
識手段と、前記登録手段による登録時に前記認識手段に
よる認識時の環境雑音を模した雑音を発生する雑音発生
手段とを備えたことを特徴とする音声認識装置。
【請求項２】認識時の入力音声波形から雑音波形を抽
出して記憶する記憶手段を更に備えており、前記雑音発
生手段は、登録時に前記記憶手段に記憶されている雑音
波形を用いて認識時の環境雑音を模した雑音を発生する
ことを特徴とする請求項１に記載の音声認識装置。
【請求項３】前記記憶手段は、抽出された雑音波形を
スペクトル分析して得られるパラメータとして記憶し、
前記雑音発生手段は該パラメータから雑音波形を再生す
ることを特徴とする請求項２に記載の音声認識装置。
【請求項４】前記記憶手段は波形または大きさのこと
なる複数の種類の雑音を登録し、前記登録手段は前記複
数の種類の雑音を使用者にそれぞれ呈示したときの該使
用者の複数の種類の音声の参照データを登録し、前記認
識手段は認識時の雑音と登録されている雑音とを比較し
て使用すべき参照データを選択することを特徴とする請
求項１に記載の音声認識装置。
【請求項５】認識時の環境雑音が登録されている雑音
のいずれとも異なると前記認識手段により判定された際
に、前記記憶手段は該認識時の環境雑音を新規登録する
ことを特徴とする請求項４に記載の音声認識装置。
【請求項６】使用者の音声を雑音を含まない状態で登
録すべく前記雑音発生手段が使用者の耳のみに雑音を呈
示するように構成されており、前記認識手段は、認識時
に入力された雑音を参照データに混合して認識を行うこ
とを特徴とする請求項１から４のいずれか一項に記載の
音声認識装置。