JP4999267B2 - 音声入力装置 - Google Patents

音声入力装置 Download PDF

Info

Publication number
JP4999267B2
JP4999267B2 JP2004360901A JP2004360901A JP4999267B2 JP 4999267 B2 JP4999267 B2 JP 4999267B2 JP 2004360901 A JP2004360901 A JP 2004360901A JP 2004360901 A JP2004360901 A JP 2004360901A JP 4999267 B2 JP4999267 B2 JP 4999267B2
Authority
JP
Japan
Prior art keywords
signal
output
audio
input
converter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004360901A
Other languages
English (en)
Other versions
JP2006171152A (ja
Inventor
真吾 木内
徹 丸本
望 齊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2004360901A priority Critical patent/JP4999267B2/ja
Publication of JP2006171152A publication Critical patent/JP2006171152A/ja
Application granted granted Critical
Publication of JP4999267B2 publication Critical patent/JP4999267B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、オーディオ装置と共に用いられる音声入力装置において、音声認識精度を向上する技術に関するものである。
ユーザの発話音声を音声認識することにより音声入力を可能とする音声入力装置が広く用いられている。また、オーディオ装置と共に用いられる音声入力装置としては、自動車において各種カーオーディオ装置と共に用いられるカーナビゲーション装置などが知られている。
そして、このようなオーディオ装置と共に用いられる音声入力装置において、音声認識精度を向上する技術としては、マイクでピックアップした音声信号の振幅が、音声認識の前処理として行うA/D変換に用いるA/D変換器に許容される最大入力電圧値に近い大きさとなるように、A/D変換前に行う音声信号の増幅のゲインを調整する技術が知られている。
図4aに、このような音声入力装置の構成を示す。
図中において、ラジオ受信機やCDプレイヤなどであるオーディオ機器402から出力されたオーディオ信号は、オーディオアンプ403の出力アンプ4031で、オーディオ操作部401を介してユーザから指定されたゲインで増幅されスピーカ404から出力される。
スピーカ404から出力されたオーディオ音A及びユーザの発話音声Sは、マイク405から入力し電気信号に変換される。マイク405の出力信号は入力調整アンプ406で増幅された後、A/D変換器407でデジタル信号に変換され音声認識装置408に入力する。音声認識装置408は、入力するA/D変換器407の出力信号に対して音声認識処理を行ってユーザの発話の内容を認識し、認識結果を情報処理装置409に入力する。情報処理装置409は、入力する音声認識装置の認識結果に応じた処理を行う。
ここで、トークスイッチ411は、ユーザが音声入力を行う場合に、ユーザがオン状態とするスイッチであり、このトークスイッチ411がオンの状態である期間のみ音声認識装置408は前述した音声認識処理を行う。また、ゲイン制御部410は、トークスイッチ411がオンの状態である期間、A/D変換器407から出力されるデジタル信号のダイナミックレンジが、A/D変換器407の出力可能な最大ダイナミックレンジ以下の当該最大ダイナミックレンジに近い所定の大きさとなるように、すなわち、A/D変換器407へ入力する信号の最大振幅が、A/D変換器407に許容される最大入力電圧値以下の当該入力レンジに近い所定の大きさとなるように、入力調整アンプ406の増幅のゲインを調整する。すなわち、たとえば、A/D変換器407の入力レンジが0V-10Vであれば、A/D変換器に入力する信号の振幅が9.5Vとなるように入力調整アンプ406の増幅のゲインを調整する。
このようにすることにより、A/D変換器407に入力する信号がA/D変換器407の入力レンジをオーバーしてしまうことを排除しつつ、A/D変換器407に入力する信号を、A/D変換によってできるだけ多くのビット数を用いて表現すること、すなわち、できるだけ高い精度で表現することが可能となり、後段の音声認識の精度を向上することができるようになる。
また、オーディオ装置と共に用いられる音声入力装置において、音声認識精度を向上する技術としては、音声入力受付時に、オーディオ装置からの出力オーディオ信号のゲインを調整する技術も知られている(たとえば、特許文献1)。
図4bに、このような音声入力装置の構成を示す。
図中において、オーディオ機器412から出力されたオーディオ信号は、オーディオアンプ413の出力調整アンプ4131で増幅されスピーカ414から出力される。
スピーカ414から出力されたオーディオ音A及びユーザの発話音声Sは、マイク415に入力し電気信号となる。マイク415の出力信号は入力アンプ416で増幅された後A/D変換器417でデジタル信号に変換されて発話音声抽出部418に入力する。発話音声抽出部418は、オーディオ機器412の出力オーディオ信号を参照して、A/D変換器417の出力するデジタル信号からオーディオ信号成分をキャンセルし、オーディオ信号成分をキャンセル後のデジタル信号を音声認識装置419に入力する。音声認識装置419は、入力するデジタル信号に対して音声認識処理を行ってユーザの発話の内容を認識し、認識結果を情報処理装置420に入力する。情報処理装置420は、入力する音声認識装置の認識結果に応じた処理を行う。
ここで、トークスイッチ422がオンの状態である期間のみ音声認識装置は前述した音声認識処理を行う。そして、ゲイン制御部421は、トークスイッチがオンの状態である期間、スピーカ414に出力されるオーディオ信号が所定のレベル以下となるように、出力調整アンプ4131のゲインを調整する。また、ゲイン制御部4131は、トークスイッチ421がオフである期間には、オーディオ操作部411を介してユーザから指定されたゲインとなるように、出力調整アンプ4131のゲインを調整する。
このような音声入力装置によれば、音声認識時に、ユーザにある程度オーディオ信号が聞こえるようにしつつ、ユーザの発話音声と共にマイク415に入力してしまうオーディオ音Aのレベルを、音声認識の妨げとならないように適当に小さく抑えることができる。
特開2001-236090号公報
図4aに示した音声入力装置によれば、入力調整アンプ406のゲインを、マイク405により得られる、ユーザの発話音声Sとオーディオ音Aが混在した信号に応じて制御するため、マイク405に入力するオーディオ音Aのレベルがマイクに入力する発話音声Sのレベルに対して比較的大きい場合には、音声認識の対象となる発話音声を、A/D変換によって多くのビット数を用いて表現すること、すなわち、できるだけ高い精度で表現することができなくなり音声認識の精度が劣化する。
一方、図4bに示した音声入力装置によれば、マイク415に入力するオーディオ音のレベルを小さく抑制できることが期待できるが、以下の点で不十分である。
すなわち、この音声入力装置によれば、スピーカ414に出力されるオーディオ信号が所定のレベル以下となるように出力調整アンプ4131のゲインを調整するが、音声認識の妨げとならない範囲で、できるだけユーザがオーディオ信号を良好に聞くことができるように、スピーカ414から出力されるオーディオ音のレベルを制御することができない。
なお、図4a、bの音声入力装置を組み合わせても以上の課題は同様に残ることになる。
そこで、本発明は、音声入力装置において、ユーザのオーディオ音の聞き取りをできるだけ妨げないようにしつつ、音声認識の精度をより向上することを課題とする。
前記課題達成のために、本発明は、オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号に基づくオーディオ音を出力するスピーカと併用される音声入力装置を、オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号によって駆動され、オーディオ音を出力するスピーカと、前記スピーカから出力されるオーディオ音とユーザの発話音声をピックアップするマイクと、マイクから出力された信号を増幅する入力調整アンプと、前記入力調整アンプで増幅された信号を、デジタル信号に変換するA/D変換器と、前記A/D変換器の出力するデジタル信号であるA/D変換器出力信号から当該A/D変換器出力信号の一成分であるユーザの発話音声信号を抽出する発話音声信号抽出手段と、前記発話音声信号抽出手段が抽出した発話音声信号を対象として音声認識処理を行う音声認識処理手段と、前記発話音声信号抽出手段が抽出した発話音声信号の大きさに基づいて、前記入力調整アンプのゲインを、前記A/D変換器出力信号中において、発話音声信号成分が所定の大きさのレベルを有するように調整するゲイン制御手段とを含めて構成したものである。
このような音声入力装置によれば、発話音声信号抽出手段が抽出した発話音声信号のレベルに基づいて、入力調整アンプのゲインの調整を行うので、確実にA/D変換器に一定のレベルの発話音声信号成分が入力されるようにすることができる。したがって、発話音声信号成分をA/D変換によって所望のビット数を用いて表現すること、すなわち、所望の精度で表現することができ、後段の音声認識の精度を向上することができる。
ここで、このような音声入力装置には、さらに、オーディオ機器がスピーカに出力するオーディオ信号を増幅する出力調整アンプを設け、前記ゲイン制御手段は、少なくとも前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさに基づいて、前記出力調整アンプのゲインを、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように制御するようにすることが好ましい。また、この場合には、前記ゲイン制御手段において、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさとオーディオ機器が出力するオーディオ信号のレベルの大きさとに基づいて、前記出力調整アンプのゲインを、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように制御するようにしてもよい。または、前記発話音声抽出手段を、オーディオ機器が出力するオーディオ信号と、前記A/D変換器出力信号とに基づいて、A/D変換器出力信号中の、当該A/D変換器出力信号の一成分であるオーディオ信号成分を推定し、推定したオーディオ信号成分を、当該A/D変換器出力信号よりキャンセルすることにより、当該A/D変換器出力信号の一成分であるユーザの発話音声信号を抽出するものとし、前記ゲイン制御手段において、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさと、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルの大きさとに基づいて、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように, 前記出力調整アンプのゲインを制御するようにしてもよい。または、前記発話音声信号抽出手段が抽出した発話音声信号の大きさより、前記マイクから出力される信号中の発話音声信号成分のレベルの現在までの最小値を算出する最小発話音声レベル算出手段を設け、前記ゲイン制御手段は、前記出力調整アンプのゲインを、前記マイクから出力される信号中の発話音声信号成分のレベルの大きさが、前記最小発話音声レベル算出手段が算出した最小値と等しい大きさである場合にも、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように、前記出力調整アンプのゲインを制御するようにしてもよい。
このようにすることにより、確実にA/D変換器に一定のレベルの発話音声信号成分が入力されるようにしつつ、発話音声信号成分と共にA/D変換器に入力するオーディオ信号成分によって、A/D変換器の入力がA/D変換器の入力レンジを超えてしまうことを抑止することができる。また、音声認識のために必要な、一定のレベルの発話音声信号成分のA/D変換器への入力を確保できる範囲内において、できるだけ大きなレベルでオーディオ音をユーザに聞かせることができる。
また、以上の音声入力装置は、前記発話音声抽出手段を、オーディオ機器が出力するオーディオ信号と、前記A/D変換器出力信号とに基づいてオーディオ機器の出力を入力とし前記A/D変換器の出力を出力とする系の伝達関数を推定し、オーディオ機器が出力するオーディオ信号と推定した伝達関数に基づいてA/D変換器出力信号中の、当該A/D変換器出力信号の一成分であるオーディオ信号成分を算定し、算定したオーディオ信号成分を、当該A/D変換器出力信号よりキャンセルすることにより、当該A/D変換器出力信号の一成分であるユーザの発話音声信号を抽出するものとし、前記ゲイン制御手段において、ユーザが音声入力を行わない期間に、前記出力アンプのゲインを所定値に設定すると共に、前記A/D変換器出力信号中において、当該A/D変換器出力信号の一成分であるオーディオ信号成分が所定の大きさのレベルを有するように入力調整アンプを調整するようにしてもよい。
このようにすることにより、ユーザが音声入力を行わない期間には、出力調整アンプと入力調整アンプとのゲインを、発話音声抽出手段に入力するA/D変換器出力信号中のオーディオ信号成分のレベルが大きくなるようにして、この期間に、オーディオ機器が出力するオーディオ信号の伝達関数の推定がより正確に行われるようにすることができる。
以上のように、本発明によれば、音声入力装置において、ユーザのオーディオ信号の聞き取りをできるだけ妨げないようにしつつ、音声認識の精度をより向上することができる。
以下、本発明に係る音声入力装置の実施形態について説明する。
図1に、音声入力装置の構成を示す。
図示するように音声入力装置は、ラジオ受信機やCDプレイヤなどであるオーディオ機器1、オーディオアンプ2、スピーカ3、マイク4、入力調整アンプ5、A/D変換器6、発話音声抽出部7、音声認識装置8、情報処理装置9、ゲイン制御部10、トークスイッチ11、オーディオ操作部12を備えている。
また、オーディオアンプ2は、ボリューム調整アンプ21と、出力調整アンプ22とを備えている。
このような構成において、オーディオ機器1から出力されたオーディオ信号は、オーディオアンプ2で増幅され、スピーカ404から出力される。
スピーカ3から出力されたオーディオ音A1及びユーザの発話音声Sは、マイク4から入力し、入力調整アンプ5で増幅された後A/D変換器6でデジタル信号に変換され、発話音声抽出部7に入力する。発話音声抽出部7は、オーディオ機器1の出力するオーディオ信号Aを参照して、A/D変換器6の出力するデジタル信号からオーディオ信号成分をキャンセルし、オーディオ信号成分をキャンセル後のデジタル信号を音声認識装置8に入力する。音声認識装置8は、入力するデジタル信号に対して音声認識処理を行ってユーザの発話の内容を認識し、認識結果を情報処理装置9に入力する。情報処理装置9は、入力する音声認識装置8の認識結果に応じた処理を行う。
ここで、トークスイッチ11は、ユーザが音声入力を行う場合に、ユーザがオン状態とするスイッチであり、このトークスイッチ11がオンの状態である期間のみ音声認識装置408は前述した音声認識処理を行う。
また、以上の動作中において、オーディオアンプ2の、ボリューム調整アンプ21は、オーディオ操作部12を介してユーザから指定されたゲインで、オーディオ機器1から入力するオーディオ信号A1を増幅し、出力調整アンプ22に出力する。
また、オーディオアンプ2の、出力調整アンプ22は、ゲイン制御部10から指定されたゲインで、ボリューム調整アンプ21から入力するオーディオ信号を増幅し、スピーカ3に出力する。そして、入力調整アンプ5も、ゲイン制御部10から指定されたゲインで、マイク4から入力する入力音声信号を増幅し、A/D変換器6に出力する。なお、ゲイン制御部10の、出力調整アンプ22、入力調整アンプ5のゲイン制御の動作については後述する。
次に、図2に、発話音声抽出部7の構成を示す。
図示するように、発話音声抽出部7は、学習制御部71、係数更新部72、適応フィルタ73、加算器74より構成される。
フィルタ73は、オーディオ機器1の出力からA/D変換器6の出力までのオーディオ信号の伝達系のインパルス応答を模擬するフィルタであり、このフィルタ73のインパルス応答を算出、更新するのが係数更新部72であり、フィルタ73と係数更新部72とで適応フィルタを構成している。係数更新部72は、LMS(平均二乗誤差)アルゴリズムやNLMS(正規化平均二乗誤差)アルゴリズムなどにより、加算器74が出力する、A/D変換器6の出力とフィルタ73の出力との差分信号のパワーが最小となるようにフィルタ73のフィルタ係数xjを算出し、フィルタ73に設定する処理を繰り返す。
そして、学習制御部71は、このような係数更新部72の係数更新動作を、トークスイッチ11がオフの期間のみ行わせ、トークスイッチ11がオンの期間に停止させる制御を行う。このようにすることにより、ユーザが発話していない、A/D変換器6の出力の支配的な成分がオーディオ信号であることが期待できる期間にのみフィルタ73のフィルタ係数xjの更新を行うことができるので、より適正にフィルタ73のインパルス応答を、オーディオ機器1の出力からA/D変換器6の出力までのオーディオ信号の伝達系のインパルス応答を模擬するように設定することができる。
さて、図示するように、フィルタ73のインパルス応答が、オーディオ機器1の出力からA/D変換器6の出力までのオーディオ信号の伝達系のインパルス応答を正確に模擬している場合、加算器74が出力する、A/D変換器6の出力とフィルタ73の出力の差分信号は、A/D変換器6の出力から、オーディオ信号成分を除去した発話音声成分のみの信号となる。そして、この差分信号が、前述したオーディオ信号成分をキャンセル後のデジタル信号として音声認識装置8に送られ、音声認識装置8において、このデジタル信号を対象として音声認識が行われることになる。
また、図示するように、フィルタ73の出力と加算器74の出力はゲイン制御部10にも送られる。そして、上述のようにフィルタ73の出力は、A/D変換器6の出力中のオーディオ信号成分の推定値を表し、加算器74の出力はA/D変換器6の出力中の発話音声信号成分の推定値を表す。以下、このフィルタ73の出力を「推定オーディオ信号」と、加算器74の出力を「推定発話音声信号」と呼ぶ。
以下、ゲイン制御部10が行う出力調整アンプ22、入力調整アンプ5のゲイン制御の動作について説明する。
図3に、ゲイン制御部10が行うゲイン調整処理の手順を示す。なお、このゲイン調整処理は、音声入力装置が起動されたときに起動され、処理を開始する。
図示するように、この処理では、まず、トークスイッチ11がオンかどうかを調べる(ステップ302)。そして、トークスイッチ11がオフであれば、出力調整アンプ22のゲインを1に設定する(ステップ314)と共に、入力調整アンプ5のゲインを、A/D変換器6の出力するデジタル信号のダイナミックレンジと、A/D変換器6の出力可能な最大ダイナミックレンジとの比率が、1-Δ:1となるように設定する(ステップ316)。ここで、Δは、A/D変換器6に入力する入力音声信号のレベルが、A/D変換器6の入力レンジを超えてしまわないように設定したマージンであり、たとえば、0.05である。
さて、トークスイッチ11がオンである場合には(ステップ302)、ゲイン調整処理開始後、初めてトークスイッチ11がオンとなったのかどうかを調べ(ステップ304)、初めてトークスイッチ11がオンとなったのであれば、まず、出力調整アンプ22のゲインをディフォルト値に設定する(ステップ318)。このディフォルト値は、あらかじめ想定した最小の発話音声レベルでユーザが発話した場合でも、入力調整アンプ5で増幅される前の入力音声信号中の発話音声信号成分の大きさが、入力音声信号中のオーディオ信号成分の大きさよりも大きくなることが期待できる値とする。
ただし、ここでは、オーディオ機器1から入力するオーディオ信号の大きさとボリューム調整アンプ21のゲインとに基づいて、出力調整アンプ22から出力されるオーディオ信号の大きさがデフォルト値以下となるように、出力調整アンプ22のゲインを調整するようにしてもよい。ここで、この出力調整アンプ22から出力されるオーディオ信号の大きさのデフォルト値は、あらかじめ想定した最小の発話音声レベルでユーザが発話した場合でも、入力調整アンプ5で増幅される前の入力音声信号中の発話音声信号成分の大きさが、入力音声信号中のオーディオ信号成分の大きさよりも大きくなることが期待できる値とする。
または、ここでは、推定オーディオ信号のダイナミックレンジを入力調整アンプ5のゲインで除した値、すなわち、入力調整アンプ5で増幅される前の入力音声信号中のオーディオ信号成分の大きさが、あらかじめ想定した最小の発話音声レベルでユーザが発話した場合に生じると推定される、入力調整アンプ5で増幅される前の入力音声信号中の発話成分信号の大きさより小さくなるように、出力調整アンプ22のゲインを設定するようにしてもよい。
そして、次に、入力調整アンプ5のゲインを、発話音声抽出部7から入力する推定発話音声信号のダイナミックレンジと、A/D変換器6の出力可能な最大ダイナミックレンジとの比率が、1:2となるように設定する(ステップ320)。また、推定発話音声信号のダイナミックレンジを入力調整アンプ5のゲイン値で除した値、すなわち、入力調整アンプ5で増幅される前の入力音声信号中の発話音声信号成分の大きさを、入力発話音声レベルとして記憶する(ステップ322)。
そして、以上のステップ320と322の処理を、トークスイッチ11がオフになるまで繰り返し(ステップ324)、トークスイッチ11がオフとなったならば、ステップ302からの処理に戻る。
一方、ステップ304で、初めてトークスイッチ11がオンとなったのではないと判定された場合には、まず、出力調整アンプ22のゲインを、推定オーディオ信号のダイナミックレンジを入力調整アンプ5のゲインで除した値が、記憶しておいた入力発話音声レベルのうちの最小の値よりも小さくなるように設定する(ステップ306)。
ただし、ここでは、予め入力発話音声のレベルの各値とオーディオ機器1の出力するオーディオ信号の各値とボリューム調整アンプ21のゲインとのレベルの各値との組み合わせに対して、当該組み合わせでスピーカ3からオーディオ音信号が出力されたときに、入力調整アンプ5で増幅される前の入力音声信号中のオーディオ信号成分の大きさが当該入力発話音声のレベルの値より小さくなる出力調整アンプ22のゲインの値を定義しておき、記憶しておいた入力発話音声レベルのうちの最小の値とオーディオ機器1から入力するオーディオ信号のレベルの値と現在の出力調整アンプ22のゲインの値との組に対して定義されているゲインの値に、出力調整アンプ22のゲインを設定するようにしてもよい。
または、ここでは、予め入力発話音声のレベルの各値に対して、出力調整アンプ22のゲインの値を、その値を出力調整アンプ22のゲインとしたときに、入力調整アンプ5で増幅される前の入力音声信号中のオーディオ信号成分の大きさが当該入力音声信号中の入力発話音声のレベルの値より小さくなるように定義しておき、記憶しておいた入力発話音声レベルのうちの最小の値に対して定義されているゲインの値に、出力調整アンプ22のゲインを設定するようにしてもよい。
そして、次に、入力調整アンプ5のゲインを、発話音声抽出部7から入力する推定発話音声信号のダイナミックレンジと、A/D変換器6の出力可能な最大ダイナミックレンジとの比率が、1:2となるように設定する(ステップ308)。また、推定発話音声信号のダイナミックレンジを入力調整アンプ5のゲイン値で除した値を、入力発話音声レベルとして記憶する(ステップ310)。
そして、以上のステップ320と322の処理を、トークスイッチ11がオフになるまで繰り返し(ステップ312)、トークスイッチ11がオフとなったならば、ステップ302からの処理に戻る。
以上のようなゲイン調整処理によれば、ユーザがトークスイッチ11をオンとして発話を行う期間には、以上の入力調整アンプ5のゲインの調整(ステップ308、320)により、推定発話音声信号の大きさが、確実にA/D変換器6の出力可能な最大ダイナミックレンジの1/2となるようにすることができる。すなわち、A/D変換器6に入力する入力音声信号中の発話音声信号成分を、A/D変換器6の入力レンジの1/2のレベルとすることができる。一方で、以上の出力調整アンプ22のゲインの設定(ステップ306、318)によって、A/D変換器6に入力する入力音声信号中のオーディオ信号成分のレベルの大きさは、同入力音声信号中の発話音声信号成分のレベルの大きさ(A/D変換器6の入力レンジの1/2)より小さくなるように設定されるので、A/D変換器6に入力する信号のレベルが、A/D変換器6の入力レンジを超えてしまうことを抑制することができる。
また、ユーザがトークスイッチ11をオフとしている期間には、出力調整アンプ22と入力調整アンプ5とのゲインを、発話音声抽出部7に入力するA/D変換器6の出力するデジタル信号中のオーディオ信号成分のレベルが大きくなるようにして(ステップ314、316)、オーディオ機器1の出力からA/D変換器6の出力までのオーディオ信号の伝達系のインパルス応答を模擬するフィルタ係数xjの算出及びフィルタ73への設定が、より正確に行われるようにすることができる。
以上、本発明の実施形態について説明した。
以上のように、本実施形態によれば、音声認識装置8で音声認識の処理に対象となる推定発話音声信号の大きさを、A/D変換器6の出力可能な最大ダイナミックレンジの1/2となるようにすることができる。すなわち、A/D変換器6に入力する入力音声信号中の発話音声信号成分を、A/D変換器6の入力レンジの1/2のレベルとすることができる。一方で、A/D変換器6に入力する入力音声信号中のオーディオ信号成分の大きさを、同入力音声信号中の発話音声信号成分より小さくなるように制御するので、A/D変換器6に入力する入力音声信号のレベルが、A/D変換器6の入力レンジを超えてしまうことも抑制される。
ただし、本実施形態は、A/D変換器6に入力する信号中の発話音声信号成分のレベルを、A/D変換器6の入力レンジの1/2のレベルとする代わりに、A/D変換器6の入力レンジ×n(但し、nは1>n>0を満たす任意数)のレベルとなるように入力調整アンプ5のゲインを制御するようにしてもよく、この場合には、A/D変換器6に入力する入力音声信号中のオーディオ信号成分の大きさを、A/D変換器6の入力レンジ×(1-n)未満となるように、出力調整アンプ22のゲインを制御するようにする。
本発明の実施形態に係る音声入力装置の構成を示すブロック図である。 本発明の実施形態に係る発話音声抽出部の構成を示すブロック図である。 本発明の実施形態に係るゲイン調整処理を示すフローチャートである。 従来の音声入力装置の構成を示すブロック図である。
符号の説明
1…オーディオ機器、2…オーディオアンプ、3…スピーカ、4…マイク、5…入力調整アンプ、6…A/D変換器、7…発話音声抽出部、8…音声認識装置、9…樹方処理装置、10…ゲイン制御部、11…トークスイッチ、12…オーディオ操作部、21…ボリューム調整アンプ、22…出力調整アンプ、71…学習制御部、72…係数更新部、73…フィルタ、74…加算器。

Claims (5)

  1. オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号に基づくオーディオ音を出力するスピーカと併用される音声入力装置であって、
    前記スピーカから出力されるオーディオ音とユーザの発話音声をピックアップするマイクと、
    マイクから出力された信号を増幅する入力調整アンプと、
    前記入力調整アンプで増幅された信号を、デジタル信号に変換するA/D変換器と、
    前記A/D変換器の出力するデジタル信号であるA/D変換器出力信号から当該A/D変換器出力信号の一成分であるユーザの発話音声信号を抽出する発話音声信号抽出手段と、
    前記発話音声信号抽出手段が抽出した発話音声信号を対象として音声認識処理を行う音声認識処理手段と、
    前記発話音声信号抽出手段が抽出した発話音声信号の大きさに基づいて、前記入力調整アンプのゲインを、前記A/D変換器出力信号中において、発話音声信号成分が所定の大きさのレベルを有するように調整するゲイン制御手段と、
    オーディオ機器がスピーカに出力するオーディオ信号を増幅する出力調整アンプとを有し、
    前記ゲイン制御手段は、少なくとも前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさに基づいて、前記出力調整アンプのゲインを、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように制御することを特徴とする音声入力装置。
  2. 請求項1記載の音声入力装置であって、
    前記ゲイン制御手段は、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさとオーディオ機器が出力するオーディオ信号のレベルの大きさとに基づいて、前記出力調整アンプのゲインを、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように制御することを特徴とする音声入力装置。
  3. 請求項1記載の音声入力装置であって、
    前記発話音声抽出手段は、オーディオ機器が出力するオーディオ信号と、前記A/D変換器出力信号とに基づいて、前記A/D変換器出力信号中の、当該A/D変換器出力信号の一成分であるオーディオ信号成分を推定し、推定したオーディオ信号成分を、当該A/D変換器出力信号よりキャンセルすることにより、当該A/D変換器出力信号の一成分であるユーザの発話音声信号を抽出し、
    前記ゲイン制御手段は、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさと、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルの大きさとに基づいて、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように, 前記出力調整アンプのゲインを制御することを特徴とする音声入力装置。
  4. 請求項1記載の音声入力装置であって、
    前記発話音声信号抽出手段が抽出した発話音声信号の大きさより、前記マイクから出力される信号中の発話音声信号成分のレベルの現在までの最小値を算出する最小発話音声レベル算出手段を有し、
    前記ゲイン制御手段は、前記出力調整アンプのゲインを、前記マイクから出力される信号中の発話音声信号成分のレベルの大きさが、前記最小発話音声レベル算出手段が算出した最小値と等しい大きさである場合にも、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように、前記出力調整アンプのゲインを制御することを特徴とする音声入力装置。
  5. 請求項1記載の音声入力装置であって、
    前記発話音声抽出手段は、オーディオ機器が出力するオーディオ信号と、前記A/D変換器出力信号とに基づいて、オーディオ機器の出力を入力とし前記A/D変換器の出力を出力とする系の伝達関数を推定し、オーディオ機器が出力するオーディオ信号と推定した伝達関数に基づいて前記A/D変換器出力信号中の、当該A/D変換器出力信号の一成分であるオーディオ信号成分を算定し、算定したオーディオ信号成分を、当該A/D変換器出力信号よりキャンセルすることにより、当該A/D変換器出力信号の一成分であるユーザの発話音声信号を抽出し、
    前記ゲイン制御手段は、ユーザが音声入力を行わない期間に、前記出力アンプのゲインを所定値に設定すると共に、前記A/D変換器出力信号中において、当該A/D変換器出力信号の一成分であるオーディオ信号成分が所定の大きさのレベルを有するように入力調整アンプを調整することを特徴とする音声入力装置。
JP2004360901A 2004-12-14 2004-12-14 音声入力装置 Active JP4999267B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004360901A JP4999267B2 (ja) 2004-12-14 2004-12-14 音声入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004360901A JP4999267B2 (ja) 2004-12-14 2004-12-14 音声入力装置

Publications (2)

Publication Number Publication Date
JP2006171152A JP2006171152A (ja) 2006-06-29
JP4999267B2 true JP4999267B2 (ja) 2012-08-15

Family

ID=36672014

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004360901A Active JP4999267B2 (ja) 2004-12-14 2004-12-14 音声入力装置

Country Status (1)

Country Link
JP (1) JP4999267B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538479B2 (en) 2020-03-30 2022-12-27 Samsung Electronics Co., Ltd. Digital microphone interface circuit for voice recognition and including the same

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10115392B2 (en) * 2010-06-03 2018-10-30 Visteon Global Technologies, Inc. Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system
JP5457293B2 (ja) * 2010-07-14 2014-04-02 アルパイン株式会社 音声認識装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3268408B2 (ja) * 1993-12-15 2002-03-25 長野日本無線株式会社 音声検出装置
JPH08278796A (ja) * 1995-04-10 1996-10-22 Fujitsu Ten Ltd 音声処理装置
JP2002041073A (ja) * 2000-07-31 2002-02-08 Alpine Electronics Inc 音声認識装置
JP2003345387A (ja) * 2002-05-23 2003-12-03 Matsushita Electric Ind Co Ltd 音声制御装置および音響装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11538479B2 (en) 2020-03-30 2022-12-27 Samsung Electronics Co., Ltd. Digital microphone interface circuit for voice recognition and including the same

Also Published As

Publication number Publication date
JP2006171152A (ja) 2006-06-29

Similar Documents

Publication Publication Date Title
JP4333369B2 (ja) 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
EP2081405B1 (en) A hearing aid adapted to a specific type of voice in an acoustical environment, a method and use
EP2592546B1 (en) Automatic Gain Control in a multi-talker audio system
US20070126503A1 (en) Audio processing system and method for automatically adjusting volume
JP2005084253A (ja) 音響処理装置、方法、プログラム及び記憶媒体
JP5251808B2 (ja) 雑音除去装置
US9972338B2 (en) Noise suppression device and noise suppression method
US9214163B2 (en) Speech processing apparatus and method
CN113555033B (zh) 语音交互系统的自动增益控制方法、装置及系统
JP4999267B2 (ja) 音声入力装置
JP5188558B2 (ja) 音声処理装置
JP4381291B2 (ja) 車載用オーディオ装置
JP2012022127A (ja) 音声認識装置
CN113473345B (zh) 一种穿戴设备辅听控制方法、装置、系统及可读存储介质
JP2001236090A (ja) 音声入力装置
JP5105912B2 (ja) 音声明瞭度改善装置およびその騒音レベル推定方法
JP2008102551A (ja) 音声信号の処理装置およびその処理方法
JP4527654B2 (ja) 音声通信装置
KR20180126926A (ko) 바지-인 음성 인식을 위한 신호 처리 장치 및 방법
JP4722607B2 (ja) 音声処理装置
JP4313294B2 (ja) 音声出力装置
JP2005157086A (ja) 音声認識装置
JP2010239458A (ja) 音量調整装置、方法、プログラム及び記録媒体
JP4079478B2 (ja) 音声信号の処理回路および処理方法
JP3596580B2 (ja) 音声信号の処理回路

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100413

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110426

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110510

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20110729

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120515

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4999267

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150525

Year of fee payment: 3