JP4999267B2

JP4999267B2 - 音声入力装置

Info

Publication number: JP4999267B2
Application number: JP2004360901A
Authority: JP
Inventors: 真吾木内; 徹丸本; 望齊藤
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2004-12-14
Filing date: 2004-12-14
Publication date: 2012-08-15
Anticipated expiration: 2024-12-14
Also published as: JP2006171152A

Description

本発明は、オーディオ装置と共に用いられる音声入力装置において、音声認識精度を向上する技術に関するものである。

ユーザの発話音声を音声認識することにより音声入力を可能とする音声入力装置が広く用いられている。また、オーディオ装置と共に用いられる音声入力装置としては、自動車において各種カーオーディオ装置と共に用いられるカーナビゲーション装置などが知られている。

そして、このようなオーディオ装置と共に用いられる音声入力装置において、音声認識精度を向上する技術としては、マイクでピックアップした音声信号の振幅が、音声認識の前処理として行うＡ／Ｄ変換に用いるＡ／Ｄ変換器に許容される最大入力電圧値に近い大きさとなるように、Ａ／Ｄ変換前に行う音声信号の増幅のゲインを調整する技術が知られている。

図４ａに、このような音声入力装置の構成を示す。
図中において、ラジオ受信機やCDプレイヤなどであるオーディオ機器４０２から出力されたオーディオ信号は、オーディオアンプ４０３の出力アンプ４０３１で、オーディオ操作部４０１を介してユーザから指定されたゲインで増幅されスピーカ４０４から出力される。

スピーカ４０４から出力されたオーディオ音Ａ及びユーザの発話音声Ｓは、マイク４０５から入力し電気信号に変換される。マイク４０５の出力信号は入力調整アンプ４０６で増幅された後、Ａ／Ｄ変換器４０７でデジタル信号に変換され音声認識装置４０８に入力する。音声認識装置４０８は、入力するＡ／Ｄ変換器４０７の出力信号に対して音声認識処理を行ってユーザの発話の内容を認識し、認識結果を情報処理装置４０９に入力する。情報処理装置４０９は、入力する音声認識装置の認識結果に応じた処理を行う。

ここで、トークスイッチ４１１は、ユーザが音声入力を行う場合に、ユーザがオン状態とするスイッチであり、このトークスイッチ４１１がオンの状態である期間のみ音声認識装置４０８は前述した音声認識処理を行う。また、ゲイン制御部４１０は、トークスイッチ４１１がオンの状態である期間、Ａ／Ｄ変換器４０７から出力されるデジタル信号のダイナミックレンジが、Ａ／Ｄ変換器４０７の出力可能な最大ダイナミックレンジ以下の当該最大ダイナミックレンジに近い所定の大きさとなるように、すなわち、Ａ／Ｄ変換器４０７へ入力する信号の最大振幅が、Ａ／Ｄ変換器４０７に許容される最大入力電圧値以下の当該入力レンジに近い所定の大きさとなるように、入力調整アンプ４０６の増幅のゲインを調整する。すなわち、たとえば、Ａ／Ｄ変換器４０７の入力レンジが０Ｖ-１０Ｖであれば、Ａ／Ｄ変換器に入力する信号の振幅が９.５Ｖとなるように入力調整アンプ４０６の増幅のゲインを調整する。

このようにすることにより、Ａ／Ｄ変換器４０７に入力する信号がＡ／Ｄ変換器４０７の入力レンジをオーバーしてしまうことを排除しつつ、Ａ／Ｄ変換器４０７に入力する信号を、Ａ／Ｄ変換によってできるだけ多くのビット数を用いて表現すること、すなわち、できるだけ高い精度で表現することが可能となり、後段の音声認識の精度を向上することができるようになる。

また、オーディオ装置と共に用いられる音声入力装置において、音声認識精度を向上する技術としては、音声入力受付時に、オーディオ装置からの出力オーディオ信号のゲインを調整する技術も知られている（たとえば、特許文献１）。
図４ｂに、このような音声入力装置の構成を示す。
図中において、オーディオ機器４１２から出力されたオーディオ信号は、オーディオアンプ４１３の出力調整アンプ４１３１で増幅されスピーカ４１４から出力される。
スピーカ４１４から出力されたオーディオ音Ａ及びユーザの発話音声Ｓは、マイク４１５に入力し電気信号となる。マイク４１５の出力信号は入力アンプ４１６で増幅された後Ａ／Ｄ変換器４１７でデジタル信号に変換されて発話音声抽出部４１８に入力する。発話音声抽出部４１８は、オーディオ機器４１２の出力オーディオ信号を参照して、Ａ／Ｄ変換器４１７の出力するデジタル信号からオーディオ信号成分をキャンセルし、オーディオ信号成分をキャンセル後のデジタル信号を音声認識装置４１９に入力する。音声認識装置４１９は、入力するデジタル信号に対して音声認識処理を行ってユーザの発話の内容を認識し、認識結果を情報処理装置４２０に入力する。情報処理装置４２０は、入力する音声認識装置の認識結果に応じた処理を行う。

ここで、トークスイッチ４２２がオンの状態である期間のみ音声認識装置は前述した音声認識処理を行う。そして、ゲイン制御部４２１は、トークスイッチがオンの状態である期間、スピーカ４１４に出力されるオーディオ信号が所定のレベル以下となるように、出力調整アンプ４１３１のゲインを調整する。また、ゲイン制御部４１３１は、トークスイッチ４２１がオフである期間には、オーディオ操作部４１１を介してユーザから指定されたゲインとなるように、出力調整アンプ４１３１のゲインを調整する。

このような音声入力装置によれば、音声認識時に、ユーザにある程度オーディオ信号が聞こえるようにしつつ、ユーザの発話音声と共にマイク４１５に入力してしまうオーディオ音Ａのレベルを、音声認識の妨げとならないように適当に小さく抑えることができる。
特開２００１-２３６０９０号公報

図４ａに示した音声入力装置によれば、入力調整アンプ４０６のゲインを、マイク４０５により得られる、ユーザの発話音声Ｓとオーディオ音Ａが混在した信号に応じて制御するため、マイク４０５に入力するオーディオ音Ａのレベルがマイクに入力する発話音声Ｓのレベルに対して比較的大きい場合には、音声認識の対象となる発話音声を、Ａ／Ｄ変換によって多くのビット数を用いて表現すること、すなわち、できるだけ高い精度で表現することができなくなり音声認識の精度が劣化する。

一方、図４ｂに示した音声入力装置によれば、マイク４１５に入力するオーディオ音のレベルを小さく抑制できることが期待できるが、以下の点で不十分である。
すなわち、この音声入力装置によれば、スピーカ４１４に出力されるオーディオ信号が所定のレベル以下となるように出力調整アンプ４１３１のゲインを調整するが、音声認識の妨げとならない範囲で、できるだけユーザがオーディオ信号を良好に聞くことができるように、スピーカ４１４から出力されるオーディオ音のレベルを制御することができない。

なお、図４ａ、ｂの音声入力装置を組み合わせても以上の課題は同様に残ることになる。
そこで、本発明は、音声入力装置において、ユーザのオーディオ音の聞き取りをできるだけ妨げないようにしつつ、音声認識の精度をより向上することを課題とする。

前記課題達成のために、本発明は、オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号に基づくオーディオ音を出力するスピーカと併用される音声入力装置を、オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号によって駆動され、オーディオ音を出力するスピーカと、前記スピーカから出力されるオーディオ音とユーザの発話音声をピックアップするマイクと、マイクから出力された信号を増幅する入力調整アンプと、前記入力調整アンプで増幅された信号を、デジタル信号に変換するＡ／Ｄ変換器と、前記Ａ／Ｄ変換器の出力するデジタル信号であるＡ／Ｄ変換器出力信号から当該Ａ／Ｄ変換器出力信号の一成分であるユーザの発話音声信号を抽出する発話音声信号抽出手段と、前記発話音声信号抽出手段が抽出した発話音声信号を対象として音声認識処理を行う音声認識処理手段と、前記発話音声信号抽出手段が抽出した発話音声信号の大きさに基づいて、前記入力調整アンプのゲインを、前記Ａ／Ｄ変換器出力信号中において、発話音声信号成分が所定の大きさのレベルを有するように調整するゲイン制御手段とを含めて構成したものである。

このような音声入力装置によれば、発話音声信号抽出手段が抽出した発話音声信号のレベルに基づいて、入力調整アンプのゲインの調整を行うので、確実にＡ／Ｄ変換器に一定のレベルの発話音声信号成分が入力されるようにすることができる。したがって、発話音声信号成分をＡ／Ｄ変換によって所望のビット数を用いて表現すること、すなわち、所望の精度で表現することができ、後段の音声認識の精度を向上することができる。

ここで、このような音声入力装置には、さらに、オーディオ機器がスピーカに出力するオーディオ信号を増幅する出力調整アンプを設け、前記ゲイン制御手段は、少なくとも前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさに基づいて、前記出力調整アンプのゲインを、前記入力調整アンプで増幅された信号のレベルが前記Ａ／Ｄ変換器の入力レンジを超えないように制御するようにすることが好ましい。また、この場合には、前記ゲイン制御手段において、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさとオーディオ機器が出力するオーディオ信号のレベルの大きさとに基づいて、前記出力調整アンプのゲインを、前記入力調整アンプで増幅された信号のレベルが前記Ａ／Ｄ変換器の入力レンジを超えないように制御するようにしてもよい。または、前記発話音声抽出手段を、オーディオ機器が出力するオーディオ信号と、前記Ａ／Ｄ変換器出力信号とに基づいて、Ａ／Ｄ変換器出力信号中の、当該Ａ／Ｄ変換器出力信号の一成分であるオーディオ信号成分を推定し、推定したオーディオ信号成分を、当該Ａ／Ｄ変換器出力信号よりキャンセルすることにより、当該Ａ／Ｄ変換器出力信号の一成分であるユーザの発話音声信号を抽出するものとし、前記ゲイン制御手段において、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさと、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルの大きさとに基づいて、前記入力調整アンプで増幅された信号のレベルが前記Ａ／Ｄ変換器の入力レンジを超えないように, 前記出力調整アンプのゲインを制御するようにしてもよい。または、前記発話音声信号抽出手段が抽出した発話音声信号の大きさより、前記マイクから出力される信号中の発話音声信号成分のレベルの現在までの最小値を算出する最小発話音声レベル算出手段を設け、前記ゲイン制御手段は、前記出力調整アンプのゲインを、前記マイクから出力される信号中の発話音声信号成分のレベルの大きさが、前記最小発話音声レベル算出手段が算出した最小値と等しい大きさである場合にも、前記入力調整アンプで増幅された信号のレベルが前記Ａ／Ｄ変換器の入力レンジを超えないように、前記出力調整アンプのゲインを制御するようにしてもよい。

このようにすることにより、確実にＡ／Ｄ変換器に一定のレベルの発話音声信号成分が入力されるようにしつつ、発話音声信号成分と共にＡ／Ｄ変換器に入力するオーディオ信号成分によって、Ａ／Ｄ変換器の入力がＡ／Ｄ変換器の入力レンジを超えてしまうことを抑止することができる。また、音声認識のために必要な、一定のレベルの発話音声信号成分のＡ／Ｄ変換器への入力を確保できる範囲内において、できるだけ大きなレベルでオーディオ音をユーザに聞かせることができる。

また、以上の音声入力装置は、前記発話音声抽出手段を、オーディオ機器が出力するオーディオ信号と、前記Ａ／Ｄ変換器出力信号とに基づいてオーディオ機器の出力を入力とし前記Ａ／Ｄ変換器の出力を出力とする系の伝達関数を推定し、オーディオ機器が出力するオーディオ信号と推定した伝達関数に基づいてＡ／Ｄ変換器出力信号中の、当該Ａ／Ｄ変換器出力信号の一成分であるオーディオ信号成分を算定し、算定したオーディオ信号成分を、当該Ａ／Ｄ変換器出力信号よりキャンセルすることにより、当該Ａ／Ｄ変換器出力信号の一成分であるユーザの発話音声信号を抽出するものとし、前記ゲイン制御手段において、ユーザが音声入力を行わない期間に、前記出力アンプのゲインを所定値に設定すると共に、前記Ａ／Ｄ変換器出力信号中において、当該Ａ／Ｄ変換器出力信号の一成分であるオーディオ信号成分が所定の大きさのレベルを有するように入力調整アンプを調整するようにしてもよい。

このようにすることにより、ユーザが音声入力を行わない期間には、出力調整アンプと入力調整アンプとのゲインを、発話音声抽出手段に入力するＡ／Ｄ変換器出力信号中のオーディオ信号成分のレベルが大きくなるようにして、この期間に、オーディオ機器が出力するオーディオ信号の伝達関数の推定がより正確に行われるようにすることができる。

以上のように、本発明によれば、音声入力装置において、ユーザのオーディオ信号の聞き取りをできるだけ妨げないようにしつつ、音声認識の精度をより向上することができる。

以下、本発明に係る音声入力装置の実施形態について説明する。
図１に、音声入力装置の構成を示す。
図示するように音声入力装置は、ラジオ受信機やCDプレイヤなどであるオーディオ機器１、オーディオアンプ２、スピーカ３、マイク４、入力調整アンプ５、Ａ／Ｄ変換器６、発話音声抽出部７、音声認識装置８、情報処理装置９、ゲイン制御部１０、トークスイッチ１１、オーディオ操作部１２を備えている。

また、オーディオアンプ２は、ボリューム調整アンプ２１と、出力調整アンプ２２とを備えている。
このような構成において、オーディオ機器１から出力されたオーディオ信号は、オーディオアンプ２で増幅され、スピーカ４０４から出力される。
スピーカ３から出力されたオーディオ音Ａ１及びユーザの発話音声Ｓは、マイク４から入力し、入力調整アンプ５で増幅された後Ａ／Ｄ変換器６でデジタル信号に変換され、発話音声抽出部７に入力する。発話音声抽出部７は、オーディオ機器１の出力するオーディオ信号Ａを参照して、Ａ／Ｄ変換器６の出力するデジタル信号からオーディオ信号成分をキャンセルし、オーディオ信号成分をキャンセル後のデジタル信号を音声認識装置８に入力する。音声認識装置８は、入力するデジタル信号に対して音声認識処理を行ってユーザの発話の内容を認識し、認識結果を情報処理装置９に入力する。情報処理装置９は、入力する音声認識装置８の認識結果に応じた処理を行う。

ここで、トークスイッチ１１は、ユーザが音声入力を行う場合に、ユーザがオン状態とするスイッチであり、このトークスイッチ１１がオンの状態である期間のみ音声認識装置４０８は前述した音声認識処理を行う。
また、以上の動作中において、オーディオアンプ２の、ボリューム調整アンプ２１は、オーディオ操作部１２を介してユーザから指定されたゲインで、オーディオ機器１から入力するオーディオ信号Ａ１を増幅し、出力調整アンプ２２に出力する。
また、オーディオアンプ２の、出力調整アンプ２２は、ゲイン制御部１０から指定されたゲインで、ボリューム調整アンプ２１から入力するオーディオ信号を増幅し、スピーカ３に出力する。そして、入力調整アンプ５も、ゲイン制御部１０から指定されたゲインで、マイク４から入力する入力音声信号を増幅し、Ａ／Ｄ変換器６に出力する。なお、ゲイン制御部１０の、出力調整アンプ２２、入力調整アンプ５のゲイン制御の動作については後述する。

次に、図２に、発話音声抽出部７の構成を示す。
図示するように、発話音声抽出部７は、学習制御部７１、係数更新部７２、適応フィルタ７３、加算器７４より構成される。
フィルタ７３は、オーディオ機器１の出力からＡ／Ｄ変換器６の出力までのオーディオ信号の伝達系のインパルス応答を模擬するフィルタであり、このフィルタ７３のインパルス応答を算出、更新するのが係数更新部７２であり、フィルタ７３と係数更新部７２とで適応フィルタを構成している。係数更新部７２は、LMS（平均二乗誤差）アルゴリズムやNLMS（正規化平均二乗誤差）アルゴリズムなどにより、加算器７４が出力する、Ａ／Ｄ変換器６の出力とフィルタ７３の出力との差分信号のパワーが最小となるようにフィルタ７３のフィルタ係数ｘｊを算出し、フィルタ７３に設定する処理を繰り返す。

そして、学習制御部７１は、このような係数更新部７２の係数更新動作を、トークスイッチ１１がオフの期間のみ行わせ、トークスイッチ１１がオンの期間に停止させる制御を行う。このようにすることにより、ユーザが発話していない、Ａ／Ｄ変換器６の出力の支配的な成分がオーディオ信号であることが期待できる期間にのみフィルタ７３のフィルタ係数ｘｊの更新を行うことができるので、より適正にフィルタ７３のインパルス応答を、オーディオ機器１の出力からＡ／Ｄ変換器６の出力までのオーディオ信号の伝達系のインパルス応答を模擬するように設定することができる。

さて、図示するように、フィルタ７３のインパルス応答が、オーディオ機器１の出力からＡ／Ｄ変換器６の出力までのオーディオ信号の伝達系のインパルス応答を正確に模擬している場合、加算器７４が出力する、Ａ／Ｄ変換器６の出力とフィルタ７３の出力の差分信号は、Ａ／Ｄ変換器６の出力から、オーディオ信号成分を除去した発話音声成分のみの信号となる。そして、この差分信号が、前述したオーディオ信号成分をキャンセル後のデジタル信号として音声認識装置８に送られ、音声認識装置８において、このデジタル信号を対象として音声認識が行われることになる。

また、図示するように、フィルタ７３の出力と加算器７４の出力はゲイン制御部１０にも送られる。そして、上述のようにフィルタ７３の出力は、Ａ／Ｄ変換器６の出力中のオーディオ信号成分の推定値を表し、加算器７４の出力はＡ／Ｄ変換器６の出力中の発話音声信号成分の推定値を表す。以下、このフィルタ７３の出力を「推定オーディオ信号」と、加算器７４の出力を「推定発話音声信号」と呼ぶ。

以下、ゲイン制御部１０が行う出力調整アンプ２２、入力調整アンプ５のゲイン制御の動作について説明する。
図３に、ゲイン制御部１０が行うゲイン調整処理の手順を示す。なお、このゲイン調整処理は、音声入力装置が起動されたときに起動され、処理を開始する。
図示するように、この処理では、まず、トークスイッチ１１がオンかどうかを調べる（ステップ３０２）。そして、トークスイッチ１１がオフであれば、出力調整アンプ２２のゲインを１に設定する（ステップ３１４）と共に、入力調整アンプ５のゲインを、Ａ／Ｄ変換器６の出力するデジタル信号のダイナミックレンジと、Ａ／Ｄ変換器６の出力可能な最大ダイナミックレンジとの比率が、１-Δ：１となるように設定する（ステップ３１６）。ここで、Δは、Ａ／Ｄ変換器６に入力する入力音声信号のレベルが、Ａ／Ｄ変換器６の入力レンジを超えてしまわないように設定したマージンであり、たとえば、０.０５である。

さて、トークスイッチ１１がオンである場合には（ステップ３０２）、ゲイン調整処理開始後、初めてトークスイッチ１１がオンとなったのかどうかを調べ（ステップ３０４）、初めてトークスイッチ１１がオンとなったのであれば、まず、出力調整アンプ２２のゲインをディフォルト値に設定する（ステップ３１８）。このディフォルト値は、あらかじめ想定した最小の発話音声レベルでユーザが発話した場合でも、入力調整アンプ５で増幅される前の入力音声信号中の発話音声信号成分の大きさが、入力音声信号中のオーディオ信号成分の大きさよりも大きくなることが期待できる値とする。

ただし、ここでは、オーディオ機器１から入力するオーディオ信号の大きさとボリューム調整アンプ２１のゲインとに基づいて、出力調整アンプ２２から出力されるオーディオ信号の大きさがデフォルト値以下となるように、出力調整アンプ２２のゲインを調整するようにしてもよい。ここで、この出力調整アンプ２２から出力されるオーディオ信号の大きさのデフォルト値は、あらかじめ想定した最小の発話音声レベルでユーザが発話した場合でも、入力調整アンプ５で増幅される前の入力音声信号中の発話音声信号成分の大きさが、入力音声信号中のオーディオ信号成分の大きさよりも大きくなることが期待できる値とする。

または、ここでは、推定オーディオ信号のダイナミックレンジを入力調整アンプ５のゲインで除した値、すなわち、入力調整アンプ５で増幅される前の入力音声信号中のオーディオ信号成分の大きさが、あらかじめ想定した最小の発話音声レベルでユーザが発話した場合に生じると推定される、入力調整アンプ５で増幅される前の入力音声信号中の発話成分信号の大きさより小さくなるように、出力調整アンプ２２のゲインを設定するようにしてもよい。

そして、次に、入力調整アンプ５のゲインを、発話音声抽出部７から入力する推定発話音声信号のダイナミックレンジと、Ａ／Ｄ変換器６の出力可能な最大ダイナミックレンジとの比率が、１：２となるように設定する（ステップ３２０）。また、推定発話音声信号のダイナミックレンジを入力調整アンプ５のゲイン値で除した値、すなわち、入力調整アンプ５で増幅される前の入力音声信号中の発話音声信号成分の大きさを、入力発話音声レベルとして記憶する（ステップ３２２）。

そして、以上のステップ３２０と３２２の処理を、トークスイッチ１１がオフになるまで繰り返し（ステップ３２４）、トークスイッチ１１がオフとなったならば、ステップ３０２からの処理に戻る。
一方、ステップ３０４で、初めてトークスイッチ１１がオンとなったのではないと判定された場合には、まず、出力調整アンプ２２のゲインを、推定オーディオ信号のダイナミックレンジを入力調整アンプ５のゲインで除した値が、記憶しておいた入力発話音声レベルのうちの最小の値よりも小さくなるように設定する（ステップ３０６）。

ただし、ここでは、予め入力発話音声のレベルの各値とオーディオ機器１の出力するオーディオ信号の各値とボリューム調整アンプ２１のゲインとのレベルの各値との組み合わせに対して、当該組み合わせでスピーカ３からオーディオ音信号が出力されたときに、入力調整アンプ５で増幅される前の入力音声信号中のオーディオ信号成分の大きさが当該入力発話音声のレベルの値より小さくなる出力調整アンプ２２のゲインの値を定義しておき、記憶しておいた入力発話音声レベルのうちの最小の値とオーディオ機器１から入力するオーディオ信号のレベルの値と現在の出力調整アンプ２２のゲインの値との組に対して定義されているゲインの値に、出力調整アンプ２２のゲインを設定するようにしてもよい。

または、ここでは、予め入力発話音声のレベルの各値に対して、出力調整アンプ２２のゲインの値を、その値を出力調整アンプ２２のゲインとしたときに、入力調整アンプ５で増幅される前の入力音声信号中のオーディオ信号成分の大きさが当該入力音声信号中の入力発話音声のレベルの値より小さくなるように定義しておき、記憶しておいた入力発話音声レベルのうちの最小の値に対して定義されているゲインの値に、出力調整アンプ２２のゲインを設定するようにしてもよい。

そして、次に、入力調整アンプ５のゲインを、発話音声抽出部７から入力する推定発話音声信号のダイナミックレンジと、Ａ／Ｄ変換器６の出力可能な最大ダイナミックレンジとの比率が、１：２となるように設定する（ステップ３０８）。また、推定発話音声信号のダイナミックレンジを入力調整アンプ５のゲイン値で除した値を、入力発話音声レベルとして記憶する（ステップ３１０）。

そして、以上のステップ３２０と３２２の処理を、トークスイッチ１１がオフになるまで繰り返し（ステップ３１２）、トークスイッチ１１がオフとなったならば、ステップ３０２からの処理に戻る。
以上のようなゲイン調整処理によれば、ユーザがトークスイッチ１１をオンとして発話を行う期間には、以上の入力調整アンプ５のゲインの調整（ステップ３０８、３２０）により、推定発話音声信号の大きさが、確実にＡ／Ｄ変換器６の出力可能な最大ダイナミックレンジの１／２となるようにすることができる。すなわち、Ａ／Ｄ変換器６に入力する入力音声信号中の発話音声信号成分を、Ａ／Ｄ変換器６の入力レンジの１／２のレベルとすることができる。一方で、以上の出力調整アンプ２２のゲインの設定（ステップ３０６、３１８）によって、Ａ／Ｄ変換器６に入力する入力音声信号中のオーディオ信号成分のレベルの大きさは、同入力音声信号中の発話音声信号成分のレベルの大きさ（Ａ／Ｄ変換器６の入力レンジの１／２）より小さくなるように設定されるので、Ａ／Ｄ変換器６に入力する信号のレベルが、Ａ／Ｄ変換器６の入力レンジを超えてしまうことを抑制することができる。

また、ユーザがトークスイッチ１１をオフとしている期間には、出力調整アンプ２２と入力調整アンプ５とのゲインを、発話音声抽出部７に入力するＡ／Ｄ変換器６の出力するデジタル信号中のオーディオ信号成分のレベルが大きくなるようにして（ステップ３１４、３１６）、オーディオ機器１の出力からＡ／Ｄ変換器６の出力までのオーディオ信号の伝達系のインパルス応答を模擬するフィルタ係数ｘｊの算出及びフィルタ７３への設定が、より正確に行われるようにすることができる。

以上、本発明の実施形態について説明した。
以上のように、本実施形態によれば、音声認識装置８で音声認識の処理に対象となる推定発話音声信号の大きさを、Ａ／Ｄ変換器６の出力可能な最大ダイナミックレンジの１／２となるようにすることができる。すなわち、Ａ／Ｄ変換器６に入力する入力音声信号中の発話音声信号成分を、Ａ／Ｄ変換器６の入力レンジの１／２のレベルとすることができる。一方で、Ａ／Ｄ変換器６に入力する入力音声信号中のオーディオ信号成分の大きさを、同入力音声信号中の発話音声信号成分より小さくなるように制御するので、Ａ／Ｄ変換器６に入力する入力音声信号のレベルが、Ａ／Ｄ変換器６の入力レンジを超えてしまうことも抑制される。

ただし、本実施形態は、Ａ／Ｄ変換器６に入力する信号中の発話音声信号成分のレベルを、Ａ／Ｄ変換器６の入力レンジの１／２のレベルとする代わりに、Ａ／Ｄ変換器６の入力レンジ×ｎ（但し、ｎは１＞ｎ＞０を満たす任意数）のレベルとなるように入力調整アンプ５のゲインを制御するようにしてもよく、この場合には、Ａ／Ｄ変換器６に入力する入力音声信号中のオーディオ信号成分の大きさを、Ａ／Ｄ変換器６の入力レンジ×（１-ｎ）未満となるように、出力調整アンプ２２のゲインを制御するようにする。

本発明の実施形態に係る音声入力装置の構成を示すブロック図である。本発明の実施形態に係る発話音声抽出部の構成を示すブロック図である。本発明の実施形態に係るゲイン調整処理を示すフローチャートである。従来の音声入力装置の構成を示すブロック図である。

符号の説明

１…オーディオ機器、２…オーディオアンプ、３…スピーカ、４…マイク、５…入力調整アンプ、６…Ａ／Ｄ変換器、７…発話音声抽出部、８…音声認識装置、９…樹方処理装置、１０…ゲイン制御部、１１…トークスイッチ、１２…オーディオ操作部、２１…ボリューム調整アンプ、２２…出力調整アンプ、７１…学習制御部、７２…係数更新部、７３…フィルタ、７４…加算器。

Claims

オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号に基づくオーディオ音を出力するスピーカと併用される音声入力装置であって、
前記スピーカから出力されるオーディオ音とユーザの発話音声をピックアップするマイクと、
マイクから出力された信号を増幅する入力調整アンプと、
前記入力調整アンプで増幅された信号を、デジタル信号に変換するＡ／Ｄ変換器と、
前記Ａ／Ｄ変換器の出力するデジタル信号であるＡ／Ｄ変換器出力信号から当該Ａ／Ｄ変換器出力信号の一成分であるユーザの発話音声信号を抽出する発話音声信号抽出手段と、
前記発話音声信号抽出手段が抽出した発話音声信号を対象として音声認識処理を行う音声認識処理手段と、
前記発話音声信号抽出手段が抽出した発話音声信号の大きさに基づいて、前記入力調整アンプのゲインを、前記Ａ／Ｄ変換器出力信号中において、発話音声信号成分が所定の大きさのレベルを有するように調整するゲイン制御手段と、
オーディオ機器がスピーカに出力するオーディオ信号を増幅する出力調整アンプとを有し、
前記ゲイン制御手段は、少なくとも前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさに基づいて、前記出力調整アンプのゲインを、前記入力調整アンプで増幅された信号のレベルが前記Ａ／Ｄ変換器の入力レンジを超えないように制御することを特徴とする音声入力装置。
請求項１記載の音声入力装置であって、
前記ゲイン制御手段は、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさとオーディオ機器が出力するオーディオ信号のレベルの大きさとに基づいて、前記出力調整アンプのゲインを、前記入力調整アンプで増幅された信号のレベルが前記Ａ／Ｄ変換器の入力レンジを超えないように制御することを特徴とする音声入力装置。
請求項１記載の音声入力装置であって、
前記発話音声抽出手段は、オーディオ機器が出力するオーディオ信号と、前記Ａ／Ｄ変換器出力信号とに基づいて、前記Ａ／Ｄ変換器出力信号中の、当該Ａ／Ｄ変換器出力信号の一成分であるオーディオ信号成分を推定し、推定したオーディオ信号成分を、当該Ａ／Ｄ変換器出力信号よりキャンセルすることにより、当該Ａ／Ｄ変換器出力信号の一成分であるユーザの発話音声信号を抽出し、
前記ゲイン制御手段は、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさと、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルの大きさとに基づいて、前記入力調整アンプで増幅された信号のレベルが前記Ａ／Ｄ変換器の入力レンジを超えないように, 前記出力調整アンプのゲインを制御することを特徴とする音声入力装置。
請求項１記載の音声入力装置であって、
前記発話音声信号抽出手段が抽出した発話音声信号の大きさより、前記マイクから出力される信号中の発話音声信号成分のレベルの現在までの最小値を算出する最小発話音声レベル算出手段を有し、
前記ゲイン制御手段は、前記出力調整アンプのゲインを、前記マイクから出力される信号中の発話音声信号成分のレベルの大きさが、前記最小発話音声レベル算出手段が算出した最小値と等しい大きさである場合にも、前記入力調整アンプで増幅された信号のレベルが前記Ａ／Ｄ変換器の入力レンジを超えないように、前記出力調整アンプのゲインを制御することを特徴とする音声入力装置。
請求項１記載の音声入力装置であって、
前記発話音声抽出手段は、オーディオ機器が出力するオーディオ信号と、前記Ａ／Ｄ変換器出力信号とに基づいて、オーディオ機器の出力を入力とし前記Ａ／Ｄ変換器の出力を出力とする系の伝達関数を推定し、オーディオ機器が出力するオーディオ信号と推定した伝達関数に基づいて前記Ａ／Ｄ変換器出力信号中の、当該Ａ／Ｄ変換器出力信号の一成分であるオーディオ信号成分を算定し、算定したオーディオ信号成分を、当該Ａ／Ｄ変換器出力信号よりキャンセルすることにより、当該Ａ／Ｄ変換器出力信号の一成分であるユーザの発話音声信号を抽出し、
前記ゲイン制御手段は、ユーザが音声入力を行わない期間に、前記出力アンプのゲインを所定値に設定すると共に、前記Ａ／Ｄ変換器出力信号中において、当該Ａ／Ｄ変換器出力信号の一成分であるオーディオ信号成分が所定の大きさのレベルを有するように入力調整アンプを調整することを特徴とする音声入力装置。