JP2004198810A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2004198810A JP2004198810A JP2002368441A JP2002368441A JP2004198810A JP 2004198810 A JP2004198810 A JP 2004198810A JP 2002368441 A JP2002368441 A JP 2002368441A JP 2002368441 A JP2002368441 A JP 2002368441A JP 2004198810 A JP2004198810 A JP 2004198810A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- learning
- voice
- noise removal
- filter coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】音声認識装置は、マイクロフォンから入力される音声信号から雑音成分を除去するための適応フィルタを備える。LMS学習部は、繰り返し、LMS法に基づきフィルタ係数を学習し(S220)、その結果得られたフィルタ係数を適応フィルタに設定する(S230)。また、音声認識の開始と共に制御部から学習禁止指令が入力されると、フィルタ係数の学習を停止する。その後、音声認識に必要な音声信号が音声認識部に与えられると制御部から入力される学習再開指令(S260)に従って、再び、フィルタ係数を学習し更新する。
【選択図】 図3
Description
【発明の属する技術分野】
本発明は、マイクロフォンから得た音声信号に基づいて、利用者がマイクロフォンに入力した音声を認識する音声認識装置に関する。
【0002】
【従来の技術】
従来より、利用者から発せられた音声をマイクロフォンで集音し、これを予め認識語として記憶された音声のパターンと比較し、一致度の高い認識語を利用者が発声した語彙であると認識する音声認識装置が知られている。この種の音声認識装置は、例えばカーナビゲーション装置などに組み込まれている。
【0003】
このような音声認識装置の音声認識率(音声認識の正解率)は、マイクロフォンから入力される音声信号に含まれる雑音量によって左右されることがよく知られているが、特に自動車などの車両内においては、車載オーディオ機器の動作時に、再生される音楽等が雑音として利用者の音声と共にマイクロフォンで集音されてしまう問題がある。
【0004】
この問題に対し、従来では、車載オーディオ機器と、音声認識装置とを連動させ、音声認識処理の際に、車載オーディオ機器にて再生される音楽等のボリュームを調節する(例えば車載オーディオ機器をミュートに設定する)ことで、再生される音楽等がマイクロフォンに入力されないようにし、一定度以上の音声認識率を確保するようにしていた。尚、このような先行技術は周知公用のため、関連文献を非開示とする。
【0005】
【発明が解決しようとする課題】
しかしながら、従来の音声認識装置では、車載オーディオ機器にて再生される音楽等のボリュームを調節するので、一時的に音楽等が利用者に聞こえなくなってしまい、その事が原因で利用者に不満が及ぶ可能性があった。
【0006】
そこで、本発明者らは、雑音源(車載オーディオ機器)から得られる参照信号に基づき、マイクロフォンから得られる音声信号に含まれる雑音成分を学習し、その音声信号から学習した雑音成分を除去する雑音除去部を音声認識装置に設けることにした。
【0007】
しかしながら、最小二乗平均(Least Mean Square:LMS)法などの周知の学習法では、雑音除去後の信号が小さくなる方向に学習を繰り返すため、利用者がマイクロフォンに音声を入力している間に雑音成分の学習が繰り返されると、その利用者による発話の影響を受けて雑音除去部が誤学習をし、音声信号に含まれる雑音成分が適切に除去できなくなってしまう問題があった。したがって、このような雑音除去部を音声認識装置に導入しても、音声認識の精度向上には限界があった。
【0008】
本発明はこうした問題に鑑みなされたものであり、音声認識対象の音声信号に含まれる雑音成分を適切に除去して高精度に音声認識可能な音声認識装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
かかる目的を達成するためになされた請求項1に記載の音声認識装置によれば、予め設定されたフィルタ係数に従い雑音源から入力される参照信号を濾波することで雑音除去信号生成手段が生成した雑音除去信号を用いて、雑音除去手段が、マイクロフォンから入力される音声信号に含まれる雑音成分を除去し、雑音除去後の音声信号を出力する。また、この音声認識装置は、係数更新手段を備えており、雑音除去手段から出力される音声信号に基づき、係数更新手段にて、雑音除去信号生成手段に設定すべきフィルタ係数を学習し、その結果得たフィルタ係数を、雑音除去信号生成手段に対して設定する。
【0010】
一方、音声認識手段は、外部(例えば、PTTスイッチ等の操作スイッチ)から動作開始指令が入力されると、所定期間、雑音除去手段から出力される音声信号を取得し、その音声信号に基づき、マイクロフォンに入力された音声を認識する。
【0011】
この音声認識装置では、音声認識手段が雑音除去手段から出力される音声信号を取得している間、学習禁止手段が、係数更新手段によるフィルタ係数の学習動作を禁止するので、音声認識のために利用者が発した音声がマイクロフォンに入力されている間に、フィルタ係数の学習更新は行われない。
【0012】
したがって、請求項1に記載の音声認識装置によれば、音声認識手段による音声信号取得の際に、マイクロフォンに入力される利用者の音声の影響によって、フィルタ係数が不適切に学習更新されるのを防止することができる。
換言すると、請求項1に記載の音声認識装置によれば、音声認識手段による音声信号取得が行われていない期間に限定して、係数更新手段にフィルタ係数を学習させることができるので、従来と比較して、適切なフィルタ係数を雑音除去信号生成手段に設定することができる。よって、この音声認識装置によれば、雑音除去の精度を向上させることができ、結果的に音声認識の精度(音声認識率)を向上させることができる。
【0013】
尚、学習禁止手段は、少なくとも音声認識手段が雑音除去手段から音声信号の取得を開始した時点から終了する時点までの期間、係数更新手段の学習動作を禁止する構成にされていればよい。つまり、フィルタ係数の学習禁止は、音声信号取得完了後、音声認識手段による音声の認識が完了するまでの間継続されても構わない。
【0014】
また、係数更新手段には、音声認識手段が雑音除去手段から出力される音声信号を取得していない期間にフィルタ係数を学習させればよく、音声認識手段の非動作時のみにフィルタ係数を学習させてもよいし、音声認識手段が音声の認識を行っているか否かにかかわらず、音声認識手段が音声信号を取得した直後からフィルタ係数の学習を再開させてもよい。
【0015】
その他、請求項1に記載の音声認識装置における音声認識手段は、外部から動作開始指令が入力された後、利用者による発声がなされた発声期間に限定して、雑音除去手段から出力される音声信号を取得する構成にされていると良い。音声認識手段をこのような構成とすれば、利用者による発話内容が含まれない雑音区間の音声信号を、音声認識の際に用いずに済み、音声認識率が向上する。
【0016】
また、このように利用者による発声期間の音声信号を選択的に音声認識手段に取得させるには、例えば、雑音除去手段から出力される音声信号に基づいて、利用者による発声がなされた発声期間を判別し、雑音除去手段から出力される音声信号の内、その発声期間に該当する音声信号のみを選択的に、音声認識手段に取得させる取得制御手段、を請求項1記載の音声認識装置に設ければよい。
【0017】
ところで、動作開始指令と同時に、音声認識手段が雑音除去手段から音声信号を取得しない場合には、音声認識手段が雑音除去手段から出力される音声信号を取得している期間のみ係数更新手段の学習動作を禁止しようとすると、装置構成が煩雑になる可能性がある。
【0018】
したがって、請求項1に記載の音声認識装置においては、請求項2に記載のように、学習禁止手段を構成すると良い。請求項2に記載の音声認識装置における学習禁止手段は、動作開始指令が音声認識手段に入力されると同時に係数更新手段によるフィルタ係数の学習動作を禁止して、少なくとも音声認識手段が音声信号の取得を終了するまでの期間、その係数更新手段の学習動作を禁止した状態にする。
【0019】
この音声認識装置によれば、音声認識手段に外部から動作開始指令が入力されたか否かを監視する程度で、音声認識手段が雑音除去手段から出力される音声信号の取得を開始する際には、係数更新手段の学習動作を禁止することができる。即ち、請求項2の発明によれば、簡単な制御で、請求項1に記載の音声認識装置の動作を実現することができる。
【0020】
また、上述の音声認識装置(請求項1)には、上記学習禁止手段に代えて、請求項3に記載のように、学習速度切替手段を設けてもよい。請求項3に記載の音声認識装置における学習速度切替手段は、音声認識手段の非動作時に、第一の学習速度で、係数更新手段にフィルタ係数を学習させ、音声認識手段が雑音除去手段から出力される音声信号を取得している間には、第一の学習速度より低い第二の学習速度で、係数更新手段にフィルタ係数を学習させる。
【0021】
マイクロフォンに入力される利用者の音声は、定常及び準定常的な音とは異なり、突発的に発生する非定常的な音声であることから、音声認識手段が雑音除去手段から出力される音声信号を取得している期間、フィルタ係数の学習速度を遅くすれば、フィルタ係数の学習時に利用者の音声が与える影響を抑えることができ、係数更新手段によるフィルタ係数の誤学習を抑制することができる。
【0022】
即ち、請求項3に記載の音声認識装置によれば、従来と比較して、適切にフィルタ係数の学習を係数更新手段に実行させることができ、雑音除去の精度を向上させることができる。したがって、本発明(請求項3)によれば、音声認識装置における音声認識の精度を向上させることができる。
【0023】
尚、学習速度切替手段は、少なくとも音声認識手段が雑音除去手段から音声信号の取得を開始した時点から終了する時点まで、第二の学習速度で、係数更新手段にフィルタ係数の学習を行わせる構成にされていればよく、例えば、音声信号の取得完了後、音声認識手段による音声の認識が完了し音声認識手段の動作が停止するまで、第二の学習速度で、フィルタ係数の学習を係数更新手段に実行させても構わない。
【0024】
また、学習速度切替手段は、少なくとも音声認識手段の非動作時に第一の学習速度で係数更新手段にフィルタ係数を学習させる構成にされていればよく、音声認識手段の非動作時に加え、音声認識手段の動作時であって音声認識手段が雑音除去手段から出力される音声信号を取得していない期間に、第一の学習速度で係数更新手段にフィルタ係数を学習させる構成にされていてもよい。即ち、学習速度切替手段は、音声認識手段が音声の認識を行っているか否かにかかわらず、音声認識手段が音声信号を取得した直後から第一の学習速度で係数更新手段にフィルタ係数の学習を行わせる構成にされていてもよい。
【0025】
その他、請求項3に記載の音声認識装置における音声認識手段は、請求項1に記載の音声認識装置と同様に、外部から動作開始指令が入力された後、利用者による発声がなされた発声期間に限定して、雑音除去手段から出力される音声信号を取得する構成にされていると良い。音声認識手段をこのような構成とすれば、利用者による発話内容が含まれない雑音区間の音声信号を、音声認識の際に用いずに済み、音声認識の精度が向上する。また、このように利用者による発声期間の音声信号を選択的に音声認識手段に取得させる場合には、上述の取得制御手段を装置内に設ければ良い。
【0026】
尚、動作開始指令と同時に音声認識手段が雑音除去手段から音声信号を取得しない場合には、音声認識手段が雑音除去手段から出力される音声信号を取得している期間のみ第二の学習速度でフィルタ係数が学習されるようにすると、装置構成が煩雑になる可能性がある。
【0027】
したがって、請求項3に記載の音声認識装置においては、動作開始指令が音声認識手段に入力されると同時に、第二の学習速度で、係数更新手段にフィルタ係数を学習させ、音声認識手段が音声信号の取得を終了するまでの期間は、第二の学習速度によるフィルタ係数の学習を係数更新手段に継続させるように、学習速度切替手段を構成するとよい。
【0028】
このような構成にされた請求項4に記載の音声認識装置によれば、音声認識手段に外部から動作開始指令が入力されたか否かを監視する程度で、音声認識手段が雑音除去手段から音声信号を取得する際には、係数更新手段に第二の学習速度でフィルタ係数を学習させることができる。つまり、請求項4に記載の音声認識装置によれば、簡単な装置構成(制御)で、係数更新手段の学習速度を適切に切り替えることができる。
【0029】
その他、上述した請求項1〜請求項4の発明は、請求項5に記載のように、係数更新手段が、LMS法を用いて、雑音除去信号生成手段に設定すべきフィルタ係数を学習する音声認識装置に適用される良い。
LMS法を用いる場合には、マイクロフォンに入力される音声に、雑音源以外の音源から発生した音声(即ち、利用者の音声)が含まれると、フィルタ係数の誤学習を引き起こしやすい。請求項5に記載のように、LMS法を用いて学習を行う音声認識装置に、本発明(請求項1〜4)を適用すれば、音声認識の精度を効果的に向上させることができる。
【0030】
また、請求項1〜請求項5に記載の発明は、請求項6に記載のように、雑音源がオーディオ機器である音声認識装置に適用されるとよい。
請求項6に記載の音声認識装置によれば、オーディオ機器の動作によりスピーカから再生される音楽等のボリュームを調節しなくても、高精度に音声認識を行うことが可能であるので、便利である。
【0031】
【発明の実施の形態】
以下に本発明の実施例について、図面とともに説明する。尚、図1は、本発明が適用された音声認識装置1の概略構成を表すブロック図である。
図1に示す本実施例の音声認識装置1は、カーナビゲーション装置3に接続されており、マイクロフォン5に入力された利用者の音声を認識し、その音声に従う操作信号をカーナビゲーション装置3に入力することで、利用者の音声に従った操作をカーナビゲーション装置3に対して施す。
【0032】
この音声認識装置1は、主に、マイクロフォン5及び車載オーディオ機器7にアナログ−デジタル変換器(ADC)11,13を介して接続されたオーディオキャンセラ部20と、音声抽出部31と、音声認識部33と、PTT(Pushto Talk)スイッチ35と、制御部37と、音声合成部39と、から構成されている。
【0033】
オーディオキャンセラ部20は、主に、適応フィルタ21と、減算部23と、LMS学習部25と、から構成されており、マイクロフォン5からADC11を介して入力される音声信号y(t)を減算部23に入力すると共に、車載オーディオ機器7からスピーカ9に入力されるオーディオ信号x(t)をADC13から取得し、そのオーディオ信号x(t)を適応フィルタ21に入力する。
【0034】
適応フィルタ21は、フィルタ係数wを記憶する図示しないレジスタ等を備えている。
w=(w[0],w[1],…,w[J])T …式(1)
尚、上付き記号Tは、転置行列を意味する。また、パラメータJ+1は、タップ長を表す。
【0035】
この適応フィルタ21は、LMS学習部25の動作(詳細後述)により予めレジスタに設定されたフィルタ係数wと、雑音源としての車載オーディオ機器7から参照信号として得た上記オーディオ信号x(t)とを、次式に代入し演算することで、オーディオ信号x(t)をフィルタ係数wに従い濾波し、音声信号y(t)から雑音成分を除去するための雑音除去信号c(t)を生成する。そして、雑音除去信号c(t)を減算部23に入力する。
【0036】
c(t)=xT・w …式(2)
但し、パラメータxは、下式で表されるオーディオ信号x(t)の時系列ベクトルである。また、ここでいうパラメータtは、サンプリング周期を単位とする時間パラメータである。
【0037】
一方、減算部23は、ADC11を介してマイクロフォン5より入力される音声信号y(t)から雑音除去信号c(t)を減算することで、音声信号y(t)に含まれる雑音成分(即ち、車載オーディオ機器7の動作によりスピーカ9から再生される音声成分)を除去し、雑音除去後の音声信号z(t)を得る。
【0038】
z(t)=y(t)−c(t) …式(4)
また、減算部23は、減算した結果得られた雑音除去後の音声信号z(t)を、音声抽出部31に入力する。
音声抽出部31は、制御部37からの動作開始指令を受けて動作を開始する構成にされており、動作を開始すると、オーディオキャンセラ部20から入力された雑音除去後の音声信号z(t)が、音声区間(即ち、利用者による発声がなされた発声期間)の信号であるか、それとも、利用者の音声が含れず音声区間に属さない雑音区間の信号であるのかを判定し、音声区間の信号であると判定した場合には、その音声信号z(t)を音声認識部33に入力する。そして音声区間が終了すると、動作を停止する。
【0039】
尚、判定方法としては、例えば入力信号の短時間パワーを一定時間毎に抽出していき、所定の閾値以上の短時間パワーが一定以上継続したか否かによって音声区間であるか雑音区間であるかを判定する手法がよく採用されている。
一方、音声認識部33は、制御部37から入力される動作開始指令に従い動作を開始し、音声抽出部31から出力される音声信号z(t)を取得することにより、音声抽出部31を介して、減算部23から音声区間の信号z(t)を選択的に取得する。また、音声認識部33は、音声信号z(t)の取得後に、その音声信号z(t)を音響分析し、音声信号z(t)から特徴量(例えばケプストラム)を抽出することで、特徴量の時系列データを得る。
【0040】
その後、音声認識部33は、特徴量の時系列データを、周知の技法を用いて、自身が備える図示しない音声辞書に登録された音声パターンと比較し、一致度の高い音声パターンに対応する語彙を、利用者が発声した語彙であると認識して、その認識結果を制御部37に入力し、この後動作を停止する。
【0041】
制御部37は、PTTスイッチ35が押されたタイミングや戻されたタイミングを監視する構成にされており、PTTスイッチ35が押され、PTTスイッチ35から動作開始指令信号が入力されたと判断すると(S100でYes)、オーディオキャンセラ部20のLMS学習部25に対して学習禁止指令を入力し(S110)、その後に音声認識部33及び音声抽出部31に動作開始指令を入力することで、音声認識部33及び音声抽出部31を作動させて、音声認識を開始する(S120)。尚、図2は、制御部37の処理動作を表すフローチャートである。
【0042】
その後、制御部37は、音声区間が終了し音声認識部33による音声信号の取得が完了したか否かを、音声抽出部31の動作状態に基づき判断し(S130)、音声区間が終了したと判断すると(S130でYes)、LMS学習部25に学習再開指令を入力する(S140)と共に、音声認識部33から認識結果を取得する(S150)。そして認識結果が正しいか否かを利用者に問い合わせるために、認識結果をトークバックする(S160)。
【0043】
即ち、制御部37は、音声合成部39を制御して、音声合成部39に、認識結果に従う音声信号を生成させ、その音声信号をスピーカ9に入力させる。尚、音声合成部39は、図示しない波形データベース内に格納されている音声波形を用い、制御部37からの音声の出力指示に基づく音声信号を合成してスピーカ9に出力する。従って、S160においては、認識結果が音声で利用者に通知される。
【0044】
この後、制御部37は、利用者の操作によりPTTスイッチ35等の操作スイッチから認識結果が正しいことを表す認識結果確定信号が入力されたか否か判断し(S170)、認識結果確定信号が入力されたと判断すると(S170でYes)、確定後処理を実行する(S180)。一方、認識結果確定信号が入力されなかったと判断すると(S170でNo)、確定後処理を実行せずに、当該処理を終了する。
【0045】
尚、S180で行われる確定後処理において、制御部37は、認識結果に従う操作信号をカーナビゲーション装置3に入力する。このような確定後処理は、周知の技術を用いたものであるので、詳細な説明を省略する。
次に、オーディオキャンセラ部20のLMS学習部25の処理動作について図3を用いて説明する。図3は、音声認識装置1に電源が投入されると同時に、LMS学習部25が実行する学習処理を表すフローチャートである。
【0046】
LMS学習部25は、学習処理の実行を開始すると、まず最初に、適応フィルタ21に対して初期設定を施す(S210)。即ち、LMS学習部25は、予め定められた所定のフィルタ係数(初期値)を適応フィルタ21に設定する。
その後、LMS学習部25は、減算部23から出力される音声信号z(t)を用い、LMS法に基づく次式に従い係数w’を算出することで、次に適応フィルタ21に設定すべきフィルタ係数w’を学習する(S220)。
【0047】
【数1】
【0048】
ここで、代入する係数wは、既に適応フィルタ21に設定したフィルタ係数wの値である。また、αは、係数w’が発散するのを防止するための忘却係数であり、βは、除数がゼロになるのを防止するための正の定数である。その他μは、ステップサイズパラメータと呼ばれるものであり、フィルタ係数の学習速度に対応するパラメータである。
【0049】
S220におけるフィルタ係数w’の計算が完了すると、LMS学習部25は、S220で算出したフィルタ係数w’を、新たなフィルタ係数wとして、適応フィルタ21に設定する(S230)。
この後、LMS学習部25は、学習禁止指令が制御部37より入力されているか否か判断し(S240)、入力されていなければ(S240でNo)、当該装置の電源オフやエラー等により学習処理の終了指令が制御部37から入力されているか否か判断する(S250)。そして、終了指令が入力されていれば(S250でYes)、当該処理を終了し、終了指令が入力されていなければ(S250でNo)、処理をS220に戻して、フィルタ係数w’を学習し、その後フィルタ係数を更新する(S230)。
【0050】
また、S240において、学習禁止指令が制御部37より入力されていると判断すると(S240でYes)、LMS学習部25は、処理をS260に移して、学習再開指令が制御部37から入力されているか否か判断する。そして学習再開指令が入力されていなければ(S260でNo)、続くS270にて終了指令が入力されているか否か判断し、終了指令が入力されていれば(S270でYes)、当該処理を終了し、終了指令が入力されていなければ(S270でNo)、処理をS260に戻して、学習再開指令が制御部37より入力されるまで待機する。
【0051】
そして、学習再開指令が入力されたと判断すると(S260でYes)、処理をS220に戻して、フィルタ係数w’を学習し、その結果得られたフィルタ係数w’を、新たなフィルタ係数wとして、適応フィルタ21に設定する(S230)。
【0052】
LMS学習部25は、このような動作を繰り返すことによって、図4に示すように、PTTスイッチ35が押下(オン)されてから音声区間が終了するまでの間、フィルタ係数の学習動作を停止する。また、音声区間が終了して学習再開指令が入力されると、再び、次の学習禁止指令が入力されるまで、フィルタ係数の学習を継続する。尚、図4は、LMS学習部25の動作切替タイミングを表すタイムチャートである。
【0053】
以上、本実施例の音声認識装置1について説明したが、この音声認識装置1では、制御部37の動作により、音声認識部33が音声抽出部31を介してオーディオキャンセラ部20から音声信号を取得している間、LMS学習部25によるフィルタ係数の学習が禁止されるので、音声認識のために利用者が発した音声がマイクロフォン5に入力される際に、フィルタ係数wの学習更新が行われるのを防止することができる。
【0054】
したがって、この音声認識装置1によれば、音声認識部33による音声信号取得の際に、マイクロフォン5に入力される利用者の音声の影響によって、フィルタ係数が不適切に学習更新されるのを防止することができ、音声認識の対象となる音声信号から精度よく雑音成分を取り除くことができる。結果、本実施例によれば、音声認識装置1における音声認識の精度を高めることができ、高い音声認識率を実現することが可能である。
【0055】
その他、本実施例では、オーディオキャンセラ部20から出力される音声信号z(t)に基づき、音声抽出部31にて、利用者による発声がなされた発声期間を判別し、オーディオキャンセラ部20から出力される音声信号の内、その発声期間に該当する音声信号のみを選択的に音声認識部33に入力するようにしているので、利用者による発話内容が含まれない雑音区間の音声信号を、音声認識部33に入力せずに済み、雑音に影響されず、音声認識部33に正確な音声認識を行わせることができる。また、本実施例では、音声抽出部31が、自動で発声期間を判別するので、利用者に発声期間に関する情報を操作スイッチから入力させなくて済み便利である。
【0056】
また、本実施例では、PTTスイッチ35から動作開始指令が入力されると同時に、その時点から音声抽出部31が音声区間の検出を終了して音声認識部33が音声信号の取得を終了するまでの期間、LMS学習部25によるフィルタ係数の学習を禁止するように制御部37を構成しているので、簡単な制御で、利用者の発声期間には、フィルタ係数の学習を停止することができる。
【0057】
さて、上記実施例ではフィルタ係数の学習を禁止することにより音声認識装置1の高性能化を実現したが、利用者の発声期間中に、フィルタ係数の学習速度を遅くすることで、従来と比較して高精度に音声認識を行えるようにすることも可能である。
【0058】
次には、このような構成にされた変形例の音声認識装置について説明することにする。尚、変形例の音声認識装置は、制御部37及びLMS学習部25の一部処理動作が異なる程度の構成であり、その他の装置内各部の構成は上述の音声認識装置1と同一である。したがって、以下では、上述の音声認識装置1と同一構成の各部の説明を省略することにし、図5及び図6を用いて、制御部37及びLMS学習部25の動作を説明する程度に留める。
【0059】
図5は、変形例の音声認識装置における制御部37の処理動作を表すフローチャートである。図5に示すように、制御部37は、PTTスイッチ35から動作開始指令信号が入力されたと判断すると(S300でYes)、フィルタ係数の学習速度を遅くするための低速学習指令をオーディオキャンセラ部20のLMS学習部25に入力し(S310)、その後に音声認識部33及び音声抽出部31を作動させて音声認識を開始する(S320)。
【0060】
その後、制御部37は、音声区間が終了し音声抽出部31から音声認識部33への音声信号入力が完了したか否かを、音声抽出部31の動作状態に基づき判断し(S330)、音声区間が終了したと判断すると(S330でYes)、フィルタ係数の学習速度を通常の学習速度に変更するための通常学習指令をLMS学習部25に入力する(S340)。また、同時に、音声認識部33から認識結果を取得する(S350)。そして認識結果が正しいか否かを利用者に問い合わせるために、認識結果をトークバックする(S360)。
【0061】
この後、制御部37は、利用者の操作によりPTTスイッチ35等の操作スイッチから認識結果が正しいことを表す認識結果確定信号が入力されたか否か判断し(S370)、認識結果確定信号が入力されたと判断すると(S370でYes)、確定後処理を実行する(S380)。一方、認識結果確定信号が入力されなかったと判断すると(S370でNo)、確定後処理を実行せずに、当該処理を終了する。
【0062】
次に、変形例の音声認識装置におけるLMS学習部25の処理動作について図6を用いて説明する。図6は、音声認識装置に電源が投入されると同時に、変形例のLMS学習部25が実行する学習処理を表すフローチャートである。
LMS学習部25は、学習処理を開始するとS410で、初期設定として、予め定められた所定のフィルタ係数(初期値)を適応フィルタ21に対して設定すると共に、フィルタ係数w’算出の際に用いる式(5)のパラメータμを、初期値μHに設定する(μ=μH)。
【0063】
この後、LMS学習部25は、減算部23から出力される音声信号z(t)を用いて、LMS法に基づく式(5)に従い係数w’を算出する(S420)。この動作によりLMS学習部25は、次に適応フィルタ21に設定すべきフィルタ係数w’を学習し、S430にて、フィルタ係数w’を、新たなフィルタ係数wとして、適応フィルタ21に設定する。
【0064】
続いて、LMS学習部25は、低速学習指令が制御部37より入力されているか否か判断し(S440)、入力されていると判断すると(S440でYes)、S450にて、学習速度を表すパラメータμに、予め定められた値μLを設定する(μ=μL)。尚、値μL及び値μHには、不等式μL<μHの関係が成立する。
【0065】
式(5)を見れば理解できるように、パラメータμの値を小さくすると、フィルタ係数w’の変化量を、小さくすることができる。つまり、パラメータμを小さくすることで、フィルタ係数w’が収束するまでの時間を長期化することができ、学習速度を抑えることができる。LMS学習部25は、このようにパラメータμを通常より小さい値μLに設定することで、フィルタ係数の学習速度を低くしているのである。
【0066】
この後、制御部37は、処理をS420に移して、μ=μLである式(5)に従い、フィルタ係数w’を算出し、その後フィルタ係数wを更新する(S430)。
一方、制御部37は、S440にて、低速学習指令が入力されていないと判断すると(S440でNo)、S460にて、制御部37から通常学習指令が入力されているか否か判断する。
【0067】
ここで、通常学習指令が入力されていると判断すると(S460でYes)、制御部37は、S470にて、学習速度を表すパラメータμを、μHに変更する(μ=μH)。そして、再び処理をS420に移し、μ=μHである式(5)に従い、フィルタ係数w’を算出し、その後フィルタ係数wを更新する(S430)。
【0068】
また、制御部37は、S440及びS460でNoと判断すると、S480にて、当該学習処理の終了指令が制御部37から入力されているか否か判断する。そして、終了指令が入力されていないと判断すると(S480でNo)、処理をS420に戻して、フィルタ係数w’を学習し、その後フィルタ係数を更新する(S430)。一方、終了指令が入力されていると判断すると(S480でYes)、当該学習処理を終了する。
【0069】
LMS学習部25は、このような処理を実行することによって、図7に示すように、PTTスイッチ35が押下(オン)されてから、音声区間が終了するまでの間は、フィルタ係数の学習速度を低くする。また、音声区間が終了して通常学習指令が入力されると、再び、次の低速学習指令が入力されるまで、通常の学習速度でフィルタ係数の学習を行う。尚、図7は、学習速度の切替タイミングを表すタイムチャートである。
【0070】
以上、変形例について説明したが、変形例の音声認識装置では、音声認識部33及び音声抽出部31の作動と共にLMS学習部25に低速学習指令を入力することで、音声認識部33が音声抽出部31を介してオーディオキャンセラ部20から音声信号を取得している間、通常より低学習速度で、LMS学習部25に、フィルタ係数を学習させているので、その期間においてフィルタ係数の学習動作に及ぶ利用者の音声の影響を抑えることができ、LMS学習部25におけるフィルタ係数の誤学習を抑制することができる。
【0071】
この結果、変形例の音声認識装置によれば、LMS学習部25に適切にフィルタ係数の学習を行わせることができ、オーディオキャンセラ部20における雑音除去の精度を向上させることができる。したがって、変形例によれば、高精度に音声認識可能な音声認識装置を提供することができる。
【0072】
また、変形例では、制御部37が、音声認識部33の非動作時に加え、音声認識部33が音声信号を取得した直後(即ち音声区間が終了した直後)から通常の学習速度でLMS学習部25にフィルタ係数の学習を行わせる構成にされているので、連続してPTTスイッチ35から動作開始指令信号が入力され音声認識部33が動作する場合にも、オーディオキャンセラ部20にて適切な雑音除去が可能である。
【0073】
その他、変形例においても、音声抽出部31が、利用者による発声がなされた発声期間に該当する音声信号のみを選択的に音声認識部33に入力するので、利用者による発話内容が含まれない雑音区間の音声信号を、音声認識部33に入力せずに済み、雑音に影響されず、音声認識部33にて正確な音声認識を行うことができる。
【0074】
また、変形例の音声認識装置においては、PTTスイッチ35から動作開始指令信号が入力されると同時に、低学習速度でLMS学習部25にフィルタ係数を学習させる手法を採用しているので、簡単な制御で確実に、フィルタ係数の誤学習を抑制することができる。
【0075】
その他、上記実施例の音声認識装置によれば、車載オーディオ機器7の動作によりスピーカ9から再生される音楽等のボリュームを調節しなくても、高精度に音声認識を行うことができるので、ボリューム調整などによって利用者に不満が及ぶといった従来問題を解消することができる。
【0076】
以上、本発明の実施例について説明したが、本発明の雑音除去信号生成手段は、本実施例の適応フィルタ21に相当し、本発明の雑音除去手段は、減算部23に相当する。また、係数更新手段は、LMS学習部25に相当し、音声認識手段は、音声区間における音声信号z(t)を取得して音声認識を行う音声認識部33に相当する。また、学習禁止手段は、制御部37が図2に示す処理に従うタイミングで学習禁止指令及び学習再開指令をLMS学習部25に入力する動作にて実現されている。
【0077】
その他、学習速度切替手段は、制御部37が図5に示す処理に従うタイミングで低速学習指令及び通常学習指令をLMS学習部25に入力する動作にて実現されている。尚、学習速度切替手段が、第二の学習速度で係数更新手段にフィルタ係数を学習させる動作は、本実施例において、LMS学習部25に、第二の学習速度に対応するパラメータμ=μLでフィルタ係数w’の演算を行わせる動作にて実現されている。また、学習速度切替手段が、第一の学習速度で係数更新手段にフィルタ係数を学習させる動作は、本実施例において、LMS学習部25に、第一の学習速度に対応するパラメータμ=μHでフィルタ係数w’の演算を行わせる動作にて実現されている。
【0078】
また、本発明の音声認識装置は、上記実施例に限定されるものではなく、種々の態様を採ることができる。
例えば、制御部37は、少なくとも音声認識部33による音声信号の取得期間において、LMS学習部25の動作を禁止する、若しくは、LMS学習部25におけるフィルタ係数の学習速度を低速度化する構成にされていればよく、音声区間の終了後音声認識部33における音声認識が完了し、音声認識の結果が得られるまで、LMS学習部25によるフィルタ係数の学習を禁止してもよいし、低学習速度でLMS学習部25を動作させてもよい。
【0079】
また、上記実施例では、フィルタ係数の学習方法としてLMS法、具体的にはNormalizedLMS(NLMS)アルゴリズムが採用された音声認識装置に、本発明を適用した例を示したが、その他の学習方法でフィルタ係数を学習する音声認識装置に本発明を適用しても構わない。尚、本発明を適用可能な学習方法としては、上述した適応アルゴリズム以外に、例えば、複素LMSアルゴリズム、FastLMS(FLMS)アルゴリズム、射影アルゴリズム、RLS(Recursive Least Square)アルゴリズム、SHARF(Simple Hyperstable Adaptive Recursive Filter)アルゴリズム、DCT(Discrete Cosine Transform)を用いた適応フィルタ、SAN(Single Frequency Adaptive Notch)フィルタ、ニューラルネットワーク、遺伝的アルゴリズム等が挙げられる。
【図面の簡単な説明】
【図1】本実施例の音声認識装置1の概略構成を表すブロック図である。
【図2】制御部37の処理動作を表すフローチャートである。
【図3】LMS学習部25が実行する学習処理を表すフローチャートである。
【図4】LMS学習部25の動作切替タイミングを表すタイムチャートである。
【図5】変形例の制御部37における処理動作を表すフローチャートである。
【図6】変形例のLMS学習部25が実行する学習処理を表すフローチャートである。
【図7】学習速度の切替タイミングを表すタイムチャートである。
【符号の説明】
1…音声認識装置、3…カーナビゲーション装置、5…マイクロフォン、7…車載オーディオ機器、9…スピーカ、11,13…ADC、20…オーディオキャンセラ部、21…適応フィルタ、23…減算部、25…LMS学習部、31…音声抽出部、33…音声認識部、35…PTTスイッチ、37…制御部、39…音声合成部
Claims (6)
- 雑音源から入力される参照信号を、予め設定されたフィルタ係数に従い濾波することで、雑音を除去するための雑音除去信号を生成する雑音除去信号生成手段と、
該雑音除去信号生成手段が生成した前記雑音除去信号を用いて、マイクロフォンから入力される音声信号に含まれる雑音成分を除去し、その雑音除去後の音声信号を出力する雑音除去手段と、
該雑音除去手段が出力する音声信号に基づいて、前記雑音除去信号生成手段に設定すべきフィルタ係数を学習し、学習した結果得たフィルタ係数を、前記雑音除去信号生成手段に設定する係数更新手段と、
外部から動作開始指令が入力されると、所定期間、前記雑音除去手段から出力される音声信号を取得して、その音声信号に基づき、前記マイクロフォンに入力された音声を認識する音声認識手段と、
該音声認識手段が前記雑音除去手段から出力される音声信号を取得している期間、前記係数更新手段によるフィルタ係数の学習動作を禁止する学習禁止手段と、
を備えることを特徴とする音声認識装置。 - 前記学習禁止手段は、前記動作開始指令が前記音声認識手段に入力されると同時に、前記音声認識手段が前記音声信号の取得を終了するまでの期間、前記係数更新手段によるフィルタ係数の学習動作を禁止することを特徴とする請求項1に記載の音声認識装置。
- 雑音源から入力される参照信号を、予め設定されたフィルタ係数に従い濾波することで、雑音を除去するための雑音除去信号を生成する雑音除去信号生成手段と、
該雑音除去信号生成手段が生成した前記雑音除去信号を用いて、マイクロフォンから入力される音声信号に含まれる雑音成分を除去し、その雑音除去後の音声信号を出力する雑音除去手段と、
該雑音除去手段が出力する音声信号に基づいて、前記雑音除去信号生成手段に設定すべきフィルタ係数を学習し、学習した結果得たフィルタ係数を、前記雑音除去信号生成手段に設定する係数更新手段と、
外部から動作開始指令が入力されると、所定期間、前記雑音除去手段から出力される音声信号を取得して、その音声信号に基づき、前記マイクロフォンに入力された音声を認識する音声認識手段と、
該音声認識手段の非動作時に、第一の学習速度で、前記係数更新手段にフィルタ係数を学習させ、前記音声認識手段が前記雑音除去手段から出力される音声信号を取得している期間には、前記第一の学習速度より低い第二の学習速度で、前記係数更新手段にフィルタ係数を学習させる学習速度切替手段と、
を備えることを特徴とする音声認識装置。 - 前記学習速度切替手段は、前記動作開始指令が前記音声認識手段に入力されると同時に、前記音声認識手段が前記音声信号の取得を終了するまでの期間、前記第二の学習速度で、前記係数更新手段にフィルタ係数を学習させることを特徴とする請求項3に記載の音声認識装置。
- 前記係数更新手段は、前記雑音除去手段が出力する音声信号に基づき、LMS法を用いて、前記雑音除去信号生成手段に設定すべきフィルタ係数を学習することを特徴とする請求項1〜請求項4のいずれかに記載の音声認識装置。
- 雑音源がオーディオ機器である請求項1〜請求項5のいずれかに記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002368441A JP2004198810A (ja) | 2002-12-19 | 2002-12-19 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002368441A JP2004198810A (ja) | 2002-12-19 | 2002-12-19 | 音声認識装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008240988A Division JP2009031809A (ja) | 2008-09-19 | 2008-09-19 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004198810A true JP2004198810A (ja) | 2004-07-15 |
Family
ID=32765009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002368441A Pending JP2004198810A (ja) | 2002-12-19 | 2002-12-19 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004198810A (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039447A (ja) * | 2004-07-30 | 2006-02-09 | Nissan Motor Co Ltd | 音声入力装置 |
JP2006047447A (ja) * | 2004-08-02 | 2006-02-16 | Nissan Motor Co Ltd | 音声入力装置 |
US7693712B2 (en) | 2005-03-25 | 2010-04-06 | Aisin Seiki Kabushiki Kaisha | Continuous speech processing using heterogeneous and adapted transfer function |
CN101089952B (zh) * | 2006-06-15 | 2010-10-06 | 株式会社东芝 | 噪声抑制、提取特征、训练模型及语音识别的方法和装置 |
CN101154383B (zh) * | 2006-09-29 | 2010-10-06 | 株式会社东芝 | 噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置 |
CN102629472A (zh) * | 2011-02-07 | 2012-08-08 | Jvc建伍株式会社 | 噪声去除装置及噪声去除方法 |
KR20160037484A (ko) * | 2014-09-29 | 2016-04-06 | 현대모비스 주식회사 | 음성 인식 장치 및 방법 |
CN111883160A (zh) * | 2020-08-07 | 2020-11-03 | 上海茂声智能科技有限公司 | 一种定向麦克风阵列拾音降噪方法及装置 |
-
2002
- 2002-12-19 JP JP2002368441A patent/JP2004198810A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039447A (ja) * | 2004-07-30 | 2006-02-09 | Nissan Motor Co Ltd | 音声入力装置 |
JP4561222B2 (ja) * | 2004-07-30 | 2010-10-13 | 日産自動車株式会社 | 音声入力装置 |
JP2006047447A (ja) * | 2004-08-02 | 2006-02-16 | Nissan Motor Co Ltd | 音声入力装置 |
JP4649905B2 (ja) * | 2004-08-02 | 2011-03-16 | 日産自動車株式会社 | 音声入力装置 |
US7693712B2 (en) | 2005-03-25 | 2010-04-06 | Aisin Seiki Kabushiki Kaisha | Continuous speech processing using heterogeneous and adapted transfer function |
CN101089952B (zh) * | 2006-06-15 | 2010-10-06 | 株式会社东芝 | 噪声抑制、提取特征、训练模型及语音识别的方法和装置 |
CN101154383B (zh) * | 2006-09-29 | 2010-10-06 | 株式会社东芝 | 噪声抑制、提取语音特征、语音识别及训练语音模型的方法和装置 |
CN102629472A (zh) * | 2011-02-07 | 2012-08-08 | Jvc建伍株式会社 | 噪声去除装置及噪声去除方法 |
KR20160037484A (ko) * | 2014-09-29 | 2016-04-06 | 현대모비스 주식회사 | 음성 인식 장치 및 방법 |
KR102338041B1 (ko) | 2014-09-29 | 2021-12-10 | 현대모비스 주식회사 | 음성 인식 장치 및 방법 |
CN111883160A (zh) * | 2020-08-07 | 2020-11-03 | 上海茂声智能科技有限公司 | 一种定向麦克风阵列拾音降噪方法及装置 |
CN111883160B (zh) * | 2020-08-07 | 2024-04-16 | 上海茂声智能科技有限公司 | 一种定向麦克风阵列拾音降噪方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4283212B2 (ja) | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 | |
JP2005195895A (ja) | 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置 | |
JP4753821B2 (ja) | 音信号補正方法、音信号補正装置及びコンピュータプログラム | |
JP6545419B2 (ja) | 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置 | |
JP4520596B2 (ja) | 音声認識方法および音声認識装置 | |
JP2002536691A (ja) | 音声認識除去方式 | |
JP2004198810A (ja) | 音声認識装置 | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JPH1152976A (ja) | 音声認識装置 | |
JP2003532162A (ja) | 雑音に影響された音声の認識のためのロバストなパラメータ | |
JP2004347956A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP5115944B2 (ja) | 音声認識装置 | |
JP2009031809A (ja) | 音声認識装置 | |
JP2007293059A (ja) | 信号処理装置およびその方法 | |
JP2003308092A (ja) | 雑音除去装置及び雑音除去方法 | |
JP3877271B2 (ja) | 音声認識用オーディオキャンセル装置 | |
JP2019020678A (ja) | ノイズ低減装置および音声認識装置 | |
JP3510458B2 (ja) | 音声認識システムおよび音声認識制御プログラムを記録した記録媒体 | |
JP2002091489A (ja) | 音声認識装置 | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
JPH06274196A (ja) | 雑音除去方法および雑音除去装置 | |
JP4924652B2 (ja) | 音声認識装置及びカーナビゲーション装置 | |
JP4173978B2 (ja) | 雑音除去装置、及び、音声認識装置、並びに音声通信装置 | |
JPH11327593A (ja) | 音声認識システム | |
JP4765394B2 (ja) | 音声対話装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080722 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080919 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081028 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081127 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090115 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20090206 |