JP2004198810A

JP2004198810A - 音声認識装置

Info

Publication number: JP2004198810A
Application number: JP2002368441A
Authority: JP
Inventors: Hiroshi Ono; 宏大野
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2002-12-19
Filing date: 2002-12-19
Publication date: 2004-07-15

Abstract

【課題】音声信号に含まれる雑音成分を適切に除去可能にして、音声認識の精度を向上させること。
【解決手段】音声認識装置は、マイクロフォンから入力される音声信号から雑音成分を除去するための適応フィルタを備える。ＬＭＳ学習部は、繰り返し、ＬＭＳ法に基づきフィルタ係数を学習し（Ｓ２２０）、その結果得られたフィルタ係数を適応フィルタに設定する（Ｓ２３０）。また、音声認識の開始と共に制御部から学習禁止指令が入力されると、フィルタ係数の学習を停止する。その後、音声認識に必要な音声信号が音声認識部に与えられると制御部から入力される学習再開指令（Ｓ２６０）に従って、再び、フィルタ係数を学習し更新する。
【選択図】図３

Description

【０００１】
【発明の属する技術分野】
本発明は、マイクロフォンから得た音声信号に基づいて、利用者がマイクロフォンに入力した音声を認識する音声認識装置に関する。
【０００２】
【従来の技術】
従来より、利用者から発せられた音声をマイクロフォンで集音し、これを予め認識語として記憶された音声のパターンと比較し、一致度の高い認識語を利用者が発声した語彙であると認識する音声認識装置が知られている。この種の音声認識装置は、例えばカーナビゲーション装置などに組み込まれている。
【０００３】
このような音声認識装置の音声認識率（音声認識の正解率）は、マイクロフォンから入力される音声信号に含まれる雑音量によって左右されることがよく知られているが、特に自動車などの車両内においては、車載オーディオ機器の動作時に、再生される音楽等が雑音として利用者の音声と共にマイクロフォンで集音されてしまう問題がある。
【０００４】
この問題に対し、従来では、車載オーディオ機器と、音声認識装置とを連動させ、音声認識処理の際に、車載オーディオ機器にて再生される音楽等のボリュームを調節する（例えば車載オーディオ機器をミュートに設定する）ことで、再生される音楽等がマイクロフォンに入力されないようにし、一定度以上の音声認識率を確保するようにしていた。尚、このような先行技術は周知公用のため、関連文献を非開示とする。
【０００５】
【発明が解決しようとする課題】
しかしながら、従来の音声認識装置では、車載オーディオ機器にて再生される音楽等のボリュームを調節するので、一時的に音楽等が利用者に聞こえなくなってしまい、その事が原因で利用者に不満が及ぶ可能性があった。
【０００６】
そこで、本発明者らは、雑音源（車載オーディオ機器）から得られる参照信号に基づき、マイクロフォンから得られる音声信号に含まれる雑音成分を学習し、その音声信号から学習した雑音成分を除去する雑音除去部を音声認識装置に設けることにした。
【０００７】
しかしながら、最小二乗平均（ＬｅａｓｔＭｅａｎＳｑｕａｒｅ：ＬＭＳ）法などの周知の学習法では、雑音除去後の信号が小さくなる方向に学習を繰り返すため、利用者がマイクロフォンに音声を入力している間に雑音成分の学習が繰り返されると、その利用者による発話の影響を受けて雑音除去部が誤学習をし、音声信号に含まれる雑音成分が適切に除去できなくなってしまう問題があった。したがって、このような雑音除去部を音声認識装置に導入しても、音声認識の精度向上には限界があった。
【０００８】
本発明はこうした問題に鑑みなされたものであり、音声認識対象の音声信号に含まれる雑音成分を適切に除去して高精度に音声認識可能な音声認識装置を提供することを目的とする。
【０００９】
【課題を解決するための手段】
かかる目的を達成するためになされた請求項１に記載の音声認識装置によれば、予め設定されたフィルタ係数に従い雑音源から入力される参照信号を濾波することで雑音除去信号生成手段が生成した雑音除去信号を用いて、雑音除去手段が、マイクロフォンから入力される音声信号に含まれる雑音成分を除去し、雑音除去後の音声信号を出力する。また、この音声認識装置は、係数更新手段を備えており、雑音除去手段から出力される音声信号に基づき、係数更新手段にて、雑音除去信号生成手段に設定すべきフィルタ係数を学習し、その結果得たフィルタ係数を、雑音除去信号生成手段に対して設定する。
【００１０】
一方、音声認識手段は、外部（例えば、ＰＴＴスイッチ等の操作スイッチ）から動作開始指令が入力されると、所定期間、雑音除去手段から出力される音声信号を取得し、その音声信号に基づき、マイクロフォンに入力された音声を認識する。
【００１１】
この音声認識装置では、音声認識手段が雑音除去手段から出力される音声信号を取得している間、学習禁止手段が、係数更新手段によるフィルタ係数の学習動作を禁止するので、音声認識のために利用者が発した音声がマイクロフォンに入力されている間に、フィルタ係数の学習更新は行われない。
【００１２】
したがって、請求項１に記載の音声認識装置によれば、音声認識手段による音声信号取得の際に、マイクロフォンに入力される利用者の音声の影響によって、フィルタ係数が不適切に学習更新されるのを防止することができる。
換言すると、請求項１に記載の音声認識装置によれば、音声認識手段による音声信号取得が行われていない期間に限定して、係数更新手段にフィルタ係数を学習させることができるので、従来と比較して、適切なフィルタ係数を雑音除去信号生成手段に設定することができる。よって、この音声認識装置によれば、雑音除去の精度を向上させることができ、結果的に音声認識の精度（音声認識率）を向上させることができる。
【００１３】
尚、学習禁止手段は、少なくとも音声認識手段が雑音除去手段から音声信号の取得を開始した時点から終了する時点までの期間、係数更新手段の学習動作を禁止する構成にされていればよい。つまり、フィルタ係数の学習禁止は、音声信号取得完了後、音声認識手段による音声の認識が完了するまでの間継続されても構わない。
【００１４】
また、係数更新手段には、音声認識手段が雑音除去手段から出力される音声信号を取得していない期間にフィルタ係数を学習させればよく、音声認識手段の非動作時のみにフィルタ係数を学習させてもよいし、音声認識手段が音声の認識を行っているか否かにかかわらず、音声認識手段が音声信号を取得した直後からフィルタ係数の学習を再開させてもよい。
【００１５】
その他、請求項１に記載の音声認識装置における音声認識手段は、外部から動作開始指令が入力された後、利用者による発声がなされた発声期間に限定して、雑音除去手段から出力される音声信号を取得する構成にされていると良い。音声認識手段をこのような構成とすれば、利用者による発話内容が含まれない雑音区間の音声信号を、音声認識の際に用いずに済み、音声認識率が向上する。
【００１６】
また、このように利用者による発声期間の音声信号を選択的に音声認識手段に取得させるには、例えば、雑音除去手段から出力される音声信号に基づいて、利用者による発声がなされた発声期間を判別し、雑音除去手段から出力される音声信号の内、その発声期間に該当する音声信号のみを選択的に、音声認識手段に取得させる取得制御手段、を請求項１記載の音声認識装置に設ければよい。
【００１７】
ところで、動作開始指令と同時に、音声認識手段が雑音除去手段から音声信号を取得しない場合には、音声認識手段が雑音除去手段から出力される音声信号を取得している期間のみ係数更新手段の学習動作を禁止しようとすると、装置構成が煩雑になる可能性がある。
【００１８】
したがって、請求項１に記載の音声認識装置においては、請求項２に記載のように、学習禁止手段を構成すると良い。請求項２に記載の音声認識装置における学習禁止手段は、動作開始指令が音声認識手段に入力されると同時に係数更新手段によるフィルタ係数の学習動作を禁止して、少なくとも音声認識手段が音声信号の取得を終了するまでの期間、その係数更新手段の学習動作を禁止した状態にする。
【００１９】
この音声認識装置によれば、音声認識手段に外部から動作開始指令が入力されたか否かを監視する程度で、音声認識手段が雑音除去手段から出力される音声信号の取得を開始する際には、係数更新手段の学習動作を禁止することができる。即ち、請求項２の発明によれば、簡単な制御で、請求項１に記載の音声認識装置の動作を実現することができる。
【００２０】
また、上述の音声認識装置（請求項１）には、上記学習禁止手段に代えて、請求項３に記載のように、学習速度切替手段を設けてもよい。請求項３に記載の音声認識装置における学習速度切替手段は、音声認識手段の非動作時に、第一の学習速度で、係数更新手段にフィルタ係数を学習させ、音声認識手段が雑音除去手段から出力される音声信号を取得している間には、第一の学習速度より低い第二の学習速度で、係数更新手段にフィルタ係数を学習させる。
【００２１】
マイクロフォンに入力される利用者の音声は、定常及び準定常的な音とは異なり、突発的に発生する非定常的な音声であることから、音声認識手段が雑音除去手段から出力される音声信号を取得している期間、フィルタ係数の学習速度を遅くすれば、フィルタ係数の学習時に利用者の音声が与える影響を抑えることができ、係数更新手段によるフィルタ係数の誤学習を抑制することができる。
【００２２】
即ち、請求項３に記載の音声認識装置によれば、従来と比較して、適切にフィルタ係数の学習を係数更新手段に実行させることができ、雑音除去の精度を向上させることができる。したがって、本発明（請求項３）によれば、音声認識装置における音声認識の精度を向上させることができる。
【００２３】
尚、学習速度切替手段は、少なくとも音声認識手段が雑音除去手段から音声信号の取得を開始した時点から終了する時点まで、第二の学習速度で、係数更新手段にフィルタ係数の学習を行わせる構成にされていればよく、例えば、音声信号の取得完了後、音声認識手段による音声の認識が完了し音声認識手段の動作が停止するまで、第二の学習速度で、フィルタ係数の学習を係数更新手段に実行させても構わない。
【００２４】
また、学習速度切替手段は、少なくとも音声認識手段の非動作時に第一の学習速度で係数更新手段にフィルタ係数を学習させる構成にされていればよく、音声認識手段の非動作時に加え、音声認識手段の動作時であって音声認識手段が雑音除去手段から出力される音声信号を取得していない期間に、第一の学習速度で係数更新手段にフィルタ係数を学習させる構成にされていてもよい。即ち、学習速度切替手段は、音声認識手段が音声の認識を行っているか否かにかかわらず、音声認識手段が音声信号を取得した直後から第一の学習速度で係数更新手段にフィルタ係数の学習を行わせる構成にされていてもよい。
【００２５】
その他、請求項３に記載の音声認識装置における音声認識手段は、請求項１に記載の音声認識装置と同様に、外部から動作開始指令が入力された後、利用者による発声がなされた発声期間に限定して、雑音除去手段から出力される音声信号を取得する構成にされていると良い。音声認識手段をこのような構成とすれば、利用者による発話内容が含まれない雑音区間の音声信号を、音声認識の際に用いずに済み、音声認識の精度が向上する。また、このように利用者による発声期間の音声信号を選択的に音声認識手段に取得させる場合には、上述の取得制御手段を装置内に設ければ良い。
【００２６】
尚、動作開始指令と同時に音声認識手段が雑音除去手段から音声信号を取得しない場合には、音声認識手段が雑音除去手段から出力される音声信号を取得している期間のみ第二の学習速度でフィルタ係数が学習されるようにすると、装置構成が煩雑になる可能性がある。
【００２７】
したがって、請求項３に記載の音声認識装置においては、動作開始指令が音声認識手段に入力されると同時に、第二の学習速度で、係数更新手段にフィルタ係数を学習させ、音声認識手段が音声信号の取得を終了するまでの期間は、第二の学習速度によるフィルタ係数の学習を係数更新手段に継続させるように、学習速度切替手段を構成するとよい。
【００２８】
このような構成にされた請求項４に記載の音声認識装置によれば、音声認識手段に外部から動作開始指令が入力されたか否かを監視する程度で、音声認識手段が雑音除去手段から音声信号を取得する際には、係数更新手段に第二の学習速度でフィルタ係数を学習させることができる。つまり、請求項４に記載の音声認識装置によれば、簡単な装置構成（制御）で、係数更新手段の学習速度を適切に切り替えることができる。
【００２９】
その他、上述した請求項１〜請求項４の発明は、請求項５に記載のように、係数更新手段が、ＬＭＳ法を用いて、雑音除去信号生成手段に設定すべきフィルタ係数を学習する音声認識装置に適用される良い。
ＬＭＳ法を用いる場合には、マイクロフォンに入力される音声に、雑音源以外の音源から発生した音声（即ち、利用者の音声）が含まれると、フィルタ係数の誤学習を引き起こしやすい。請求項５に記載のように、ＬＭＳ法を用いて学習を行う音声認識装置に、本発明（請求項１〜４）を適用すれば、音声認識の精度を効果的に向上させることができる。
【００３０】
また、請求項１〜請求項５に記載の発明は、請求項６に記載のように、雑音源がオーディオ機器である音声認識装置に適用されるとよい。
請求項６に記載の音声認識装置によれば、オーディオ機器の動作によりスピーカから再生される音楽等のボリュームを調節しなくても、高精度に音声認識を行うことが可能であるので、便利である。
【００３１】
【発明の実施の形態】
以下に本発明の実施例について、図面とともに説明する。尚、図１は、本発明が適用された音声認識装置１の概略構成を表すブロック図である。
図１に示す本実施例の音声認識装置１は、カーナビゲーション装置３に接続されており、マイクロフォン５に入力された利用者の音声を認識し、その音声に従う操作信号をカーナビゲーション装置３に入力することで、利用者の音声に従った操作をカーナビゲーション装置３に対して施す。
【００３２】
この音声認識装置１は、主に、マイクロフォン５及び車載オーディオ機器７にアナログ−デジタル変換器（ＡＤＣ）１１，１３を介して接続されたオーディオキャンセラ部２０と、音声抽出部３１と、音声認識部３３と、ＰＴＴ（ＰｕｓｈｔｏＴａｌｋ）スイッチ３５と、制御部３７と、音声合成部３９と、から構成されている。
【００３３】
オーディオキャンセラ部２０は、主に、適応フィルタ２１と、減算部２３と、ＬＭＳ学習部２５と、から構成されており、マイクロフォン５からＡＤＣ１１を介して入力される音声信号ｙ（ｔ）を減算部２３に入力すると共に、車載オーディオ機器７からスピーカ９に入力されるオーディオ信号ｘ（ｔ）をＡＤＣ１３から取得し、そのオーディオ信号ｘ（ｔ）を適応フィルタ２１に入力する。
【００３４】
適応フィルタ２１は、フィルタ係数ｗを記憶する図示しないレジスタ等を備えている。
ｗ＝（ｗ［０］，ｗ［１］，…，ｗ［Ｊ］）^T …式（１）
尚、上付き記号Ｔは、転置行列を意味する。また、パラメータＪ＋１は、タップ長を表す。
【００３５】
この適応フィルタ２１は、ＬＭＳ学習部２５の動作（詳細後述）により予めレジスタに設定されたフィルタ係数ｗと、雑音源としての車載オーディオ機器７から参照信号として得た上記オーディオ信号ｘ（ｔ）とを、次式に代入し演算することで、オーディオ信号ｘ（ｔ）をフィルタ係数ｗに従い濾波し、音声信号ｙ（ｔ）から雑音成分を除去するための雑音除去信号ｃ（ｔ）を生成する。そして、雑音除去信号ｃ（ｔ）を減算部２３に入力する。
【００３６】
ｃ（ｔ）＝ｘ^T・ｗ …式（２）
但し、パラメータｘは、下式で表されるオーディオ信号ｘ（ｔ）の時系列ベクトルである。また、ここでいうパラメータｔは、サンプリング周期を単位とする時間パラメータである。
【００３７】

一方、減算部２３は、ＡＤＣ１１を介してマイクロフォン５より入力される音声信号ｙ（ｔ）から雑音除去信号ｃ（ｔ）を減算することで、音声信号ｙ（ｔ）に含まれる雑音成分（即ち、車載オーディオ機器７の動作によりスピーカ９から再生される音声成分）を除去し、雑音除去後の音声信号ｚ（ｔ）を得る。
【００３８】
ｚ（ｔ）＝ｙ（ｔ）−ｃ（ｔ） …式（４）
また、減算部２３は、減算した結果得られた雑音除去後の音声信号ｚ（ｔ）を、音声抽出部３１に入力する。
音声抽出部３１は、制御部３７からの動作開始指令を受けて動作を開始する構成にされており、動作を開始すると、オーディオキャンセラ部２０から入力された雑音除去後の音声信号ｚ（ｔ）が、音声区間（即ち、利用者による発声がなされた発声期間）の信号であるか、それとも、利用者の音声が含れず音声区間に属さない雑音区間の信号であるのかを判定し、音声区間の信号であると判定した場合には、その音声信号ｚ（ｔ）を音声認識部３３に入力する。そして音声区間が終了すると、動作を停止する。
【００３９】
尚、判定方法としては、例えば入力信号の短時間パワーを一定時間毎に抽出していき、所定の閾値以上の短時間パワーが一定以上継続したか否かによって音声区間であるか雑音区間であるかを判定する手法がよく採用されている。
一方、音声認識部３３は、制御部３７から入力される動作開始指令に従い動作を開始し、音声抽出部３１から出力される音声信号ｚ（ｔ）を取得することにより、音声抽出部３１を介して、減算部２３から音声区間の信号ｚ（ｔ）を選択的に取得する。また、音声認識部３３は、音声信号ｚ（ｔ）の取得後に、その音声信号ｚ（ｔ）を音響分析し、音声信号ｚ（ｔ）から特徴量（例えばケプストラム）を抽出することで、特徴量の時系列データを得る。
【００４０】
その後、音声認識部３３は、特徴量の時系列データを、周知の技法を用いて、自身が備える図示しない音声辞書に登録された音声パターンと比較し、一致度の高い音声パターンに対応する語彙を、利用者が発声した語彙であると認識して、その認識結果を制御部３７に入力し、この後動作を停止する。
【００４１】
制御部３７は、ＰＴＴスイッチ３５が押されたタイミングや戻されたタイミングを監視する構成にされており、ＰＴＴスイッチ３５が押され、ＰＴＴスイッチ３５から動作開始指令信号が入力されたと判断すると（Ｓ１００でＹｅｓ）、オーディオキャンセラ部２０のＬＭＳ学習部２５に対して学習禁止指令を入力し（Ｓ１１０）、その後に音声認識部３３及び音声抽出部３１に動作開始指令を入力することで、音声認識部３３及び音声抽出部３１を作動させて、音声認識を開始する（Ｓ１２０）。尚、図２は、制御部３７の処理動作を表すフローチャートである。
【００４２】
その後、制御部３７は、音声区間が終了し音声認識部３３による音声信号の取得が完了したか否かを、音声抽出部３１の動作状態に基づき判断し（Ｓ１３０）、音声区間が終了したと判断すると（Ｓ１３０でＹｅｓ）、ＬＭＳ学習部２５に学習再開指令を入力する（Ｓ１４０）と共に、音声認識部３３から認識結果を取得する（Ｓ１５０）。そして認識結果が正しいか否かを利用者に問い合わせるために、認識結果をトークバックする（Ｓ１６０）。
【００４３】
即ち、制御部３７は、音声合成部３９を制御して、音声合成部３９に、認識結果に従う音声信号を生成させ、その音声信号をスピーカ９に入力させる。尚、音声合成部３９は、図示しない波形データベース内に格納されている音声波形を用い、制御部３７からの音声の出力指示に基づく音声信号を合成してスピーカ９に出力する。従って、Ｓ１６０においては、認識結果が音声で利用者に通知される。
【００４４】
この後、制御部３７は、利用者の操作によりＰＴＴスイッチ３５等の操作スイッチから認識結果が正しいことを表す認識結果確定信号が入力されたか否か判断し（Ｓ１７０）、認識結果確定信号が入力されたと判断すると（Ｓ１７０でＹｅｓ）、確定後処理を実行する（Ｓ１８０）。一方、認識結果確定信号が入力されなかったと判断すると（Ｓ１７０でＮｏ）、確定後処理を実行せずに、当該処理を終了する。
【００４５】
尚、Ｓ１８０で行われる確定後処理において、制御部３７は、認識結果に従う操作信号をカーナビゲーション装置３に入力する。このような確定後処理は、周知の技術を用いたものであるので、詳細な説明を省略する。
次に、オーディオキャンセラ部２０のＬＭＳ学習部２５の処理動作について図３を用いて説明する。図３は、音声認識装置１に電源が投入されると同時に、ＬＭＳ学習部２５が実行する学習処理を表すフローチャートである。
【００４６】
ＬＭＳ学習部２５は、学習処理の実行を開始すると、まず最初に、適応フィルタ２１に対して初期設定を施す（Ｓ２１０）。即ち、ＬＭＳ学習部２５は、予め定められた所定のフィルタ係数（初期値）を適応フィルタ２１に設定する。
その後、ＬＭＳ学習部２５は、減算部２３から出力される音声信号ｚ（ｔ）を用い、ＬＭＳ法に基づく次式に従い係数ｗ’を算出することで、次に適応フィルタ２１に設定すべきフィルタ係数ｗ’を学習する（Ｓ２２０）。
【００４７】
【数１】

【００４８】
ここで、代入する係数ｗは、既に適応フィルタ２１に設定したフィルタ係数ｗの値である。また、αは、係数ｗ’が発散するのを防止するための忘却係数であり、βは、除数がゼロになるのを防止するための正の定数である。その他μは、ステップサイズパラメータと呼ばれるものであり、フィルタ係数の学習速度に対応するパラメータである。
【００４９】
Ｓ２２０におけるフィルタ係数ｗ’の計算が完了すると、ＬＭＳ学習部２５は、Ｓ２２０で算出したフィルタ係数ｗ’を、新たなフィルタ係数ｗとして、適応フィルタ２１に設定する（Ｓ２３０）。
この後、ＬＭＳ学習部２５は、学習禁止指令が制御部３７より入力されているか否か判断し（Ｓ２４０）、入力されていなければ（Ｓ２４０でＮｏ）、当該装置の電源オフやエラー等により学習処理の終了指令が制御部３７から入力されているか否か判断する（Ｓ２５０）。そして、終了指令が入力されていれば（Ｓ２５０でＹｅｓ）、当該処理を終了し、終了指令が入力されていなければ（Ｓ２５０でＮｏ）、処理をＳ２２０に戻して、フィルタ係数ｗ’を学習し、その後フィルタ係数を更新する（Ｓ２３０）。
【００５０】
また、Ｓ２４０において、学習禁止指令が制御部３７より入力されていると判断すると（Ｓ２４０でＹｅｓ）、ＬＭＳ学習部２５は、処理をＳ２６０に移して、学習再開指令が制御部３７から入力されているか否か判断する。そして学習再開指令が入力されていなければ（Ｓ２６０でＮｏ）、続くＳ２７０にて終了指令が入力されているか否か判断し、終了指令が入力されていれば（Ｓ２７０でＹｅｓ）、当該処理を終了し、終了指令が入力されていなければ（Ｓ２７０でＮｏ）、処理をＳ２６０に戻して、学習再開指令が制御部３７より入力されるまで待機する。
【００５１】
そして、学習再開指令が入力されたと判断すると（Ｓ２６０でＹｅｓ）、処理をＳ２２０に戻して、フィルタ係数ｗ’を学習し、その結果得られたフィルタ係数ｗ’を、新たなフィルタ係数ｗとして、適応フィルタ２１に設定する（Ｓ２３０）。
【００５２】
ＬＭＳ学習部２５は、このような動作を繰り返すことによって、図４に示すように、ＰＴＴスイッチ３５が押下（オン）されてから音声区間が終了するまでの間、フィルタ係数の学習動作を停止する。また、音声区間が終了して学習再開指令が入力されると、再び、次の学習禁止指令が入力されるまで、フィルタ係数の学習を継続する。尚、図４は、ＬＭＳ学習部２５の動作切替タイミングを表すタイムチャートである。
【００５３】
以上、本実施例の音声認識装置１について説明したが、この音声認識装置１では、制御部３７の動作により、音声認識部３３が音声抽出部３１を介してオーディオキャンセラ部２０から音声信号を取得している間、ＬＭＳ学習部２５によるフィルタ係数の学習が禁止されるので、音声認識のために利用者が発した音声がマイクロフォン５に入力される際に、フィルタ係数ｗの学習更新が行われるのを防止することができる。
【００５４】
したがって、この音声認識装置１によれば、音声認識部３３による音声信号取得の際に、マイクロフォン５に入力される利用者の音声の影響によって、フィルタ係数が不適切に学習更新されるのを防止することができ、音声認識の対象となる音声信号から精度よく雑音成分を取り除くことができる。結果、本実施例によれば、音声認識装置１における音声認識の精度を高めることができ、高い音声認識率を実現することが可能である。
【００５５】
その他、本実施例では、オーディオキャンセラ部２０から出力される音声信号ｚ（ｔ）に基づき、音声抽出部３１にて、利用者による発声がなされた発声期間を判別し、オーディオキャンセラ部２０から出力される音声信号の内、その発声期間に該当する音声信号のみを選択的に音声認識部３３に入力するようにしているので、利用者による発話内容が含まれない雑音区間の音声信号を、音声認識部３３に入力せずに済み、雑音に影響されず、音声認識部３３に正確な音声認識を行わせることができる。また、本実施例では、音声抽出部３１が、自動で発声期間を判別するので、利用者に発声期間に関する情報を操作スイッチから入力させなくて済み便利である。
【００５６】
また、本実施例では、ＰＴＴスイッチ３５から動作開始指令が入力されると同時に、その時点から音声抽出部３１が音声区間の検出を終了して音声認識部３３が音声信号の取得を終了するまでの期間、ＬＭＳ学習部２５によるフィルタ係数の学習を禁止するように制御部３７を構成しているので、簡単な制御で、利用者の発声期間には、フィルタ係数の学習を停止することができる。
【００５７】
さて、上記実施例ではフィルタ係数の学習を禁止することにより音声認識装置１の高性能化を実現したが、利用者の発声期間中に、フィルタ係数の学習速度を遅くすることで、従来と比較して高精度に音声認識を行えるようにすることも可能である。
【００５８】
次には、このような構成にされた変形例の音声認識装置について説明することにする。尚、変形例の音声認識装置は、制御部３７及びＬＭＳ学習部２５の一部処理動作が異なる程度の構成であり、その他の装置内各部の構成は上述の音声認識装置１と同一である。したがって、以下では、上述の音声認識装置１と同一構成の各部の説明を省略することにし、図５及び図６を用いて、制御部３７及びＬＭＳ学習部２５の動作を説明する程度に留める。
【００５９】
図５は、変形例の音声認識装置における制御部３７の処理動作を表すフローチャートである。図５に示すように、制御部３７は、ＰＴＴスイッチ３５から動作開始指令信号が入力されたと判断すると（Ｓ３００でＹｅｓ）、フィルタ係数の学習速度を遅くするための低速学習指令をオーディオキャンセラ部２０のＬＭＳ学習部２５に入力し（Ｓ３１０）、その後に音声認識部３３及び音声抽出部３１を作動させて音声認識を開始する（Ｓ３２０）。
【００６０】
その後、制御部３７は、音声区間が終了し音声抽出部３１から音声認識部３３への音声信号入力が完了したか否かを、音声抽出部３１の動作状態に基づき判断し（Ｓ３３０）、音声区間が終了したと判断すると（Ｓ３３０でＹｅｓ）、フィルタ係数の学習速度を通常の学習速度に変更するための通常学習指令をＬＭＳ学習部２５に入力する（Ｓ３４０）。また、同時に、音声認識部３３から認識結果を取得する（Ｓ３５０）。そして認識結果が正しいか否かを利用者に問い合わせるために、認識結果をトークバックする（Ｓ３６０）。
【００６１】
この後、制御部３７は、利用者の操作によりＰＴＴスイッチ３５等の操作スイッチから認識結果が正しいことを表す認識結果確定信号が入力されたか否か判断し（Ｓ３７０）、認識結果確定信号が入力されたと判断すると（Ｓ３７０でＹｅｓ）、確定後処理を実行する（Ｓ３８０）。一方、認識結果確定信号が入力されなかったと判断すると（Ｓ３７０でＮｏ）、確定後処理を実行せずに、当該処理を終了する。
【００６２】
次に、変形例の音声認識装置におけるＬＭＳ学習部２５の処理動作について図６を用いて説明する。図６は、音声認識装置に電源が投入されると同時に、変形例のＬＭＳ学習部２５が実行する学習処理を表すフローチャートである。
ＬＭＳ学習部２５は、学習処理を開始するとＳ４１０で、初期設定として、予め定められた所定のフィルタ係数（初期値）を適応フィルタ２１に対して設定すると共に、フィルタ係数ｗ’算出の際に用いる式（５）のパラメータμを、初期値μ_Hに設定する（μ＝μ_H）。
【００６３】
この後、ＬＭＳ学習部２５は、減算部２３から出力される音声信号ｚ（ｔ）を用いて、ＬＭＳ法に基づく式（５）に従い係数ｗ’を算出する（Ｓ４２０）。この動作によりＬＭＳ学習部２５は、次に適応フィルタ２１に設定すべきフィルタ係数ｗ’を学習し、Ｓ４３０にて、フィルタ係数ｗ’を、新たなフィルタ係数ｗとして、適応フィルタ２１に設定する。
【００６４】
続いて、ＬＭＳ学習部２５は、低速学習指令が制御部３７より入力されているか否か判断し（Ｓ４４０）、入力されていると判断すると（Ｓ４４０でＹｅｓ）、Ｓ４５０にて、学習速度を表すパラメータμに、予め定められた値μ_Lを設定する（μ＝μ_L）。尚、値μ_L及び値μ_Hには、不等式μ_L＜μ_Hの関係が成立する。
【００６５】
式（５）を見れば理解できるように、パラメータμの値を小さくすると、フィルタ係数ｗ’の変化量を、小さくすることができる。つまり、パラメータμを小さくすることで、フィルタ係数ｗ’が収束するまでの時間を長期化することができ、学習速度を抑えることができる。ＬＭＳ学習部２５は、このようにパラメータμを通常より小さい値μ_Lに設定することで、フィルタ係数の学習速度を低くしているのである。
【００６６】
この後、制御部３７は、処理をＳ４２０に移して、μ＝μ_Lである式（５）に従い、フィルタ係数ｗ’を算出し、その後フィルタ係数ｗを更新する（Ｓ４３０）。
一方、制御部３７は、Ｓ４４０にて、低速学習指令が入力されていないと判断すると（Ｓ４４０でＮｏ）、Ｓ４６０にて、制御部３７から通常学習指令が入力されているか否か判断する。
【００６７】
ここで、通常学習指令が入力されていると判断すると（Ｓ４６０でＹｅｓ）、制御部３７は、Ｓ４７０にて、学習速度を表すパラメータμを、μ_Hに変更する（μ＝μ_H）。そして、再び処理をＳ４２０に移し、μ＝μ_Hである式（５）に従い、フィルタ係数ｗ’を算出し、その後フィルタ係数ｗを更新する（Ｓ４３０）。
【００６８】
また、制御部３７は、Ｓ４４０及びＳ４６０でＮｏと判断すると、Ｓ４８０にて、当該学習処理の終了指令が制御部３７から入力されているか否か判断する。そして、終了指令が入力されていないと判断すると（Ｓ４８０でＮｏ）、処理をＳ４２０に戻して、フィルタ係数ｗ’を学習し、その後フィルタ係数を更新する（Ｓ４３０）。一方、終了指令が入力されていると判断すると（Ｓ４８０でＹｅｓ）、当該学習処理を終了する。
【００６９】
ＬＭＳ学習部２５は、このような処理を実行することによって、図７に示すように、ＰＴＴスイッチ３５が押下（オン）されてから、音声区間が終了するまでの間は、フィルタ係数の学習速度を低くする。また、音声区間が終了して通常学習指令が入力されると、再び、次の低速学習指令が入力されるまで、通常の学習速度でフィルタ係数の学習を行う。尚、図７は、学習速度の切替タイミングを表すタイムチャートである。
【００７０】
以上、変形例について説明したが、変形例の音声認識装置では、音声認識部３３及び音声抽出部３１の作動と共にＬＭＳ学習部２５に低速学習指令を入力することで、音声認識部３３が音声抽出部３１を介してオーディオキャンセラ部２０から音声信号を取得している間、通常より低学習速度で、ＬＭＳ学習部２５に、フィルタ係数を学習させているので、その期間においてフィルタ係数の学習動作に及ぶ利用者の音声の影響を抑えることができ、ＬＭＳ学習部２５におけるフィルタ係数の誤学習を抑制することができる。
【００７１】
この結果、変形例の音声認識装置によれば、ＬＭＳ学習部２５に適切にフィルタ係数の学習を行わせることができ、オーディオキャンセラ部２０における雑音除去の精度を向上させることができる。したがって、変形例によれば、高精度に音声認識可能な音声認識装置を提供することができる。
【００７２】
また、変形例では、制御部３７が、音声認識部３３の非動作時に加え、音声認識部３３が音声信号を取得した直後（即ち音声区間が終了した直後）から通常の学習速度でＬＭＳ学習部２５にフィルタ係数の学習を行わせる構成にされているので、連続してＰＴＴスイッチ３５から動作開始指令信号が入力され音声認識部３３が動作する場合にも、オーディオキャンセラ部２０にて適切な雑音除去が可能である。
【００７３】
その他、変形例においても、音声抽出部３１が、利用者による発声がなされた発声期間に該当する音声信号のみを選択的に音声認識部３３に入力するので、利用者による発話内容が含まれない雑音区間の音声信号を、音声認識部３３に入力せずに済み、雑音に影響されず、音声認識部３３にて正確な音声認識を行うことができる。
【００７４】
また、変形例の音声認識装置においては、ＰＴＴスイッチ３５から動作開始指令信号が入力されると同時に、低学習速度でＬＭＳ学習部２５にフィルタ係数を学習させる手法を採用しているので、簡単な制御で確実に、フィルタ係数の誤学習を抑制することができる。
【００７５】
その他、上記実施例の音声認識装置によれば、車載オーディオ機器７の動作によりスピーカ９から再生される音楽等のボリュームを調節しなくても、高精度に音声認識を行うことができるので、ボリューム調整などによって利用者に不満が及ぶといった従来問題を解消することができる。
【００７６】
以上、本発明の実施例について説明したが、本発明の雑音除去信号生成手段は、本実施例の適応フィルタ２１に相当し、本発明の雑音除去手段は、減算部２３に相当する。また、係数更新手段は、ＬＭＳ学習部２５に相当し、音声認識手段は、音声区間における音声信号ｚ（ｔ）を取得して音声認識を行う音声認識部３３に相当する。また、学習禁止手段は、制御部３７が図２に示す処理に従うタイミングで学習禁止指令及び学習再開指令をＬＭＳ学習部２５に入力する動作にて実現されている。
【００７７】
その他、学習速度切替手段は、制御部３７が図５に示す処理に従うタイミングで低速学習指令及び通常学習指令をＬＭＳ学習部２５に入力する動作にて実現されている。尚、学習速度切替手段が、第二の学習速度で係数更新手段にフィルタ係数を学習させる動作は、本実施例において、ＬＭＳ学習部２５に、第二の学習速度に対応するパラメータμ＝μ_Lでフィルタ係数ｗ’の演算を行わせる動作にて実現されている。また、学習速度切替手段が、第一の学習速度で係数更新手段にフィルタ係数を学習させる動作は、本実施例において、ＬＭＳ学習部２５に、第一の学習速度に対応するパラメータμ＝μ_Hでフィルタ係数ｗ’の演算を行わせる動作にて実現されている。
【００７８】
また、本発明の音声認識装置は、上記実施例に限定されるものではなく、種々の態様を採ることができる。
例えば、制御部３７は、少なくとも音声認識部３３による音声信号の取得期間において、ＬＭＳ学習部２５の動作を禁止する、若しくは、ＬＭＳ学習部２５におけるフィルタ係数の学習速度を低速度化する構成にされていればよく、音声区間の終了後音声認識部３３における音声認識が完了し、音声認識の結果が得られるまで、ＬＭＳ学習部２５によるフィルタ係数の学習を禁止してもよいし、低学習速度でＬＭＳ学習部２５を動作させてもよい。
【００７９】
また、上記実施例では、フィルタ係数の学習方法としてＬＭＳ法、具体的にはＮｏｒｍａｌｉｚｅｄＬＭＳ（ＮＬＭＳ）アルゴリズムが採用された音声認識装置に、本発明を適用した例を示したが、その他の学習方法でフィルタ係数を学習する音声認識装置に本発明を適用しても構わない。尚、本発明を適用可能な学習方法としては、上述した適応アルゴリズム以外に、例えば、複素ＬＭＳアルゴリズム、ＦａｓｔＬＭＳ（ＦＬＭＳ）アルゴリズム、射影アルゴリズム、ＲＬＳ（ＲｅｃｕｒｓｉｖｅＬｅａｓｔＳｑｕａｒｅ）アルゴリズム、ＳＨＡＲＦ（ＳｉｍｐｌｅＨｙｐｅｒｓｔａｂｌｅＡｄａｐｔｉｖｅＲｅｃｕｒｓｉｖｅＦｉｌｔｅｒ）アルゴリズム、ＤＣＴ（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）を用いた適応フィルタ、ＳＡＮ（ＳｉｎｇｌｅＦｒｅｑｕｅｎｃｙＡｄａｐｔｉｖｅＮｏｔｃｈ）フィルタ、ニューラルネットワーク、遺伝的アルゴリズム等が挙げられる。
【図面の簡単な説明】
【図１】本実施例の音声認識装置１の概略構成を表すブロック図である。
【図２】制御部３７の処理動作を表すフローチャートである。
【図３】ＬＭＳ学習部２５が実行する学習処理を表すフローチャートである。
【図４】ＬＭＳ学習部２５の動作切替タイミングを表すタイムチャートである。
【図５】変形例の制御部３７における処理動作を表すフローチャートである。
【図６】変形例のＬＭＳ学習部２５が実行する学習処理を表すフローチャートである。
【図７】学習速度の切替タイミングを表すタイムチャートである。
【符号の説明】
１…音声認識装置、３…カーナビゲーション装置、５…マイクロフォン、７…車載オーディオ機器、９…スピーカ、１１，１３…ＡＤＣ、２０…オーディオキャンセラ部、２１…適応フィルタ、２３…減算部、２５…ＬＭＳ学習部、３１…音声抽出部、３３…音声認識部、３５…ＰＴＴスイッチ、３７…制御部、３９…音声合成部

Claims

雑音源から入力される参照信号を、予め設定されたフィルタ係数に従い濾波することで、雑音を除去するための雑音除去信号を生成する雑音除去信号生成手段と、
該雑音除去信号生成手段が生成した前記雑音除去信号を用いて、マイクロフォンから入力される音声信号に含まれる雑音成分を除去し、その雑音除去後の音声信号を出力する雑音除去手段と、
該雑音除去手段が出力する音声信号に基づいて、前記雑音除去信号生成手段に設定すべきフィルタ係数を学習し、学習した結果得たフィルタ係数を、前記雑音除去信号生成手段に設定する係数更新手段と、
外部から動作開始指令が入力されると、所定期間、前記雑音除去手段から出力される音声信号を取得して、その音声信号に基づき、前記マイクロフォンに入力された音声を認識する音声認識手段と、
該音声認識手段が前記雑音除去手段から出力される音声信号を取得している期間、前記係数更新手段によるフィルタ係数の学習動作を禁止する学習禁止手段と、
を備えることを特徴とする音声認識装置。
前記学習禁止手段は、前記動作開始指令が前記音声認識手段に入力されると同時に、前記音声認識手段が前記音声信号の取得を終了するまでの期間、前記係数更新手段によるフィルタ係数の学習動作を禁止することを特徴とする請求項１に記載の音声認識装置。
雑音源から入力される参照信号を、予め設定されたフィルタ係数に従い濾波することで、雑音を除去するための雑音除去信号を生成する雑音除去信号生成手段と、
該雑音除去信号生成手段が生成した前記雑音除去信号を用いて、マイクロフォンから入力される音声信号に含まれる雑音成分を除去し、その雑音除去後の音声信号を出力する雑音除去手段と、
該雑音除去手段が出力する音声信号に基づいて、前記雑音除去信号生成手段に設定すべきフィルタ係数を学習し、学習した結果得たフィルタ係数を、前記雑音除去信号生成手段に設定する係数更新手段と、
外部から動作開始指令が入力されると、所定期間、前記雑音除去手段から出力される音声信号を取得して、その音声信号に基づき、前記マイクロフォンに入力された音声を認識する音声認識手段と、
該音声認識手段の非動作時に、第一の学習速度で、前記係数更新手段にフィルタ係数を学習させ、前記音声認識手段が前記雑音除去手段から出力される音声信号を取得している期間には、前記第一の学習速度より低い第二の学習速度で、前記係数更新手段にフィルタ係数を学習させる学習速度切替手段と、
を備えることを特徴とする音声認識装置。
前記学習速度切替手段は、前記動作開始指令が前記音声認識手段に入力されると同時に、前記音声認識手段が前記音声信号の取得を終了するまでの期間、前記第二の学習速度で、前記係数更新手段にフィルタ係数を学習させることを特徴とする請求項３に記載の音声認識装置。
前記係数更新手段は、前記雑音除去手段が出力する音声信号に基づき、ＬＭＳ法を用いて、前記雑音除去信号生成手段に設定すべきフィルタ係数を学習することを特徴とする請求項１〜請求項４のいずれかに記載の音声認識装置。
雑音源がオーディオ機器である請求項１〜請求項５のいずれかに記載の音声認識装置。