JP2006195411A

JP2006195411A - 音声処理装置

Info

Publication number: JP2006195411A
Application number: JP2005211469A
Authority: JP
Inventors: Shingo Kiuchi; 真吾木内; Nozomi Saito; 望齊藤; Toru Marumoto; 徹丸本
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2004-12-14
Filing date: 2005-07-21
Publication date: 2006-07-27
Anticipated expiration: 2025-07-21
Also published as: JP4722607B2

Abstract

【課題】ユーザの音声入力時の音響環境を向上することのできる「音声処理装置」を提供する。
【解決手段】スピーカ３から出力されたオーディオ音Ａ１とユーザの発話音声信号Ｓとその他のノイズ音Ｎは、マイク４から入力しマイク出力信号となる。マイク出力信号は入力アンプ５で増幅された後、Ａ／Ｄ変換器６でデジタル信号に変換され、発話音声抽出部７に入力する。発話音声抽出部７は、入力したデジタル信号中から発話音声信号成分を抽出し音声認識装置８に入力する。ゲイン制御部１０は、Ａ／Ｄ変換器６が出力するデジタル信号の発話音声信号成分を除く成分である環境音信号が示す環境音下で、発話音声信号成分が表す発話音声が明瞭に聞こえるように、スピーカ３の出力音量を調整する出力調整アンプ２２のゲインを制御する。
【選択図】図１

Description

本発明は、オーディオ装置と共に用いられる音声処理装置において、ユーザの音声入力時の音響環境を向上する技術に関するものである。

ユーザの発話音声を処理する音声処理装置としては、ユーザの発話音声を音声認識することにより音声入力を可能とする音声入力装置が知られている。また、オーディオ装置と共に用いられる音声入力装置としては、自動車において各種カーオーディオ装置と共に用いられるカーナビゲーション装置などが知られている。

また、このようなオーディオ装置と共に用いられる音声入力装置において、音声入力受付時に、オーディオ装置からの出力されるオーディオ信号のゲインを調整する技術も知られている（たとえば、特許文献１）。
図６に、このような音声入力装置の構成を示す。
図中において、オーディオソース機器６１２から出力されたオーディオ信号は、オーディオアンプ６１３の出力調整アンプ６１３１で増幅されスピーカ６１４から出力される。
スピーカ６１４から出力されたオーディオ音Ａ及びユーザの発話音声Ｓは、マイク６１５から入力しマイク出力信号となる。マイク出力信号は入力アンプ６１６で増幅された後Ａ／Ｄ変換器６１７でデジタル信号に変換されて発話音声抽出部６１８に入力する。発話音声抽出部６１８は、オーディオソース機器６１２の出力オーディオ信号を参照して、Ａ／Ｄ変換器６１７の出力するデジタル信号中からオーディオ信号成分をキャンセルし、オーディオ信号成分をキャンセル後のデジタル信号を音声認識装置６１９に入力する。音声認識装置６１９は、入力するデジタル信号に対して音声認識処理を行ってユーザの発話の内容を認識し、認識結果を情報処理装置６２０に入力する。情報処理装置６２０は、入力する音声認識装置の認識結果に応じた処理を行う。

ここで、トークスイッチ６２２がオンの状態である期間のみ音声認識装置は前述した音声認識処理を行う。そして、ゲイン制御部６２１は、トークスイッチがオンの状態である期間、スピーカ６１４に出力されるオーディオ信号が所定のレベル以下となるように、出力調整アンプ６１３１のゲインを調整する。また、ゲイン制御部６１３１は、トークスイッチ６２１がオフである期間には、オーディオ操作部６１１を介してユーザから指定されたゲインとなるように、出力調整アンプ６１３１のゲインを調整する。

このような音声入力装置によれば、音声入力時に、ユーザに所定レベル以下のオーディオ信号が聞こえるようにしつつ、ユーザの発話音声と共にマイク６１５に入力してしまうオーディオ信号Ａのレベルを、音声認識の妨げとならないように適当に小さく抑えることができる。
特開２００１-２３６０９０号公報

図６に示した音声入力装置によれば、音声入力時にオーディオ装置から出力されるオーディオ信号のレベルを所定のレベル以下に制御するだけなので、ユーザの音声入力時の音響環境という観点から見ると不十分である。
すなわち、オーディオ信号の出力レベルが同じであっても、小さな声で発話する人と、大きな声で発話する人とでは、オーディオ信号が発話の妨げになる度合いは異なる。より具体的には、大きな声で発話する人にとっては気にならないレベルのオーディオ信号であっても、小さな声で発話する人にとっては、発話の邪魔になると感じることもある。また、同様に、同じ出力レベルでオーディオ信号が出力されているときの、小さな声で発話された発話音声の音声認識精度と、大きな声で発話された発話音声の音声認識の精度は、小さな声で発話された発話音声の方が、マイクに入力する発話音声レベルに対するオーディオ信号レベルが大きくなるために低くなる。

また、オーディオ信号の出力レベルが同じであっても、その他の周辺の騒音レベルが大きい場合と小さい場合とでは、そのオーディオ信号の出力が、発話の妨げになる度合いや発話音声の音声認識精度は異なったものとなる。
そこで、本発明は、オーディオ装置と併用される音声処理装置において、ユーザの音声入力時の音響環境を向上することを課題とする。

前記課題達成のために、本発明は、オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号に基づいてオーディオ音声を出力するスピーカと併用される音声処理装置を、オーディオ機器がスピーカに出力するオーディオ信号を増幅する出力調整アンプと、周辺音をピックアップするマイクと、前記マイクが出力する信号であるマイク出力信号から当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出する発話音声信号抽出手段と、前記発話音声信号抽出手段が抽出した発話音声信号を対象として所定の音声処理を行う音声処理手段と、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさに基づいて、前記出力調整アンプのゲインを調整するゲイン制御手段とを含めて構成したものである。

このような音声処理装置によれば、ゲイン制御部において、たとえば、少なくとも発話音声信号のレベルが小さい程オーディオ信号成分のレベルが小さくなるように、出力調整アンプのゲインを制御することが可能となり、これによりユーザが小さな声で発話しても大きな声で発話しても、スピーカから出力されるオーディオ信号が発話の妨げになる度合を同様な程度とすることができるようになる。また、このことは、別の観点からは、ユーザの発話の大きさにかかわらず、ユーザの発話の妨げにならない程度に、大きな音量でオーディオ信号をユーザに聞かせることができることを意味する。また、このように発話音声信号のレベルが小さい程オーディオ信号成分のレベルが小さくなるようにすることによって、ユーザの発話の大きさにかかわらず、良好な音声処理の精度を確保することができるようになる。よって、ユーザの音声入力時の音響環境を向上することができるようになる。

ここで、以上のような音声処理装置は、より具体的には、前記発話音声抽出部を、前記発話音声抽出手段は、オーディオ機器が出力するオーディオ信号と、前記マイク出力信号とに基づいて、前記マイク出力信号中の、当該入力音声に一成分として含まれるオーディオ信号成分を推定し、推定したオーディオ信号成分を、当該マイク出力信号よりキャンセルすることにより、当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出するものとして、前記ゲイン制御手段において、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさと、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルの大きさとの関係が所定の関係となるように、前記出力調整アンプのゲインを調整するようにしてもよい。このようにすることにより、より正確に、スピーカから出力されるオーディオ信号のレベルを制御することができる。

または、前記発話音声抽出部を、前記発話音声抽出手段は、オーディオ機器が出力するオーディオ信号と、前記マイク出力信号とに基づいて、マイク出力信号中の、当該マイク出力信号に一成分として含まれるオーディオ信号成分を推定すると共に、前記マイク出力信号中の、当該マイク出力信号に一成分として含まれるノイズ音成分を推定し、推定したオーディオ信号成分とノイズ成分を、当該マイク出力信号よりキャンセルすることにより、当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出するものとし、前記ゲイン制御手段において、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさと、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルの大きさとの関係が所定の関係となるように、前記出力調整アンプのゲインを調整するようにしてもよい。このようにすることにより、オーディオ信号に加えノイズ音をも考慮した上で、オーディオ信号とノイズ音とよりなる環境音を、発話の妨げになる度合がユーザの発話の大きさによらずに同様な程度となるように制御することができる。
また、以上の各音声処理装置は、前記ケイン制御手段が、前記発話音声信号抽出手段が抽出した発話音声信号が表す発話音声が、ユーザに等しいラウドネスで聞こえるように、前記出力調整アンプのゲインを調整することが好ましい。

また、前記課題達成のために、本発明は、オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号に基づいてオーディオ音声を出力するスピーカと併用される音声処理装置を、オーディオ機器がスピーカに出力するオーディオ信号を増幅する出力調整アンプと、周辺音をピックアップするマイクと、前記マイクが出力する信号であるマイク出力信号から当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出する発話音声信号抽出手段と、前記発話音声信号抽出手段が抽出した発話音声信号を対象として所定の音声処理を行う音声処理手段と、前記出力調整アンプのゲインを調整するゲイン制御手段とにより構成し、前記発話音声抽出部において、オーディオ機器が出力するオーディオ信号と、前記マイク出力信号とに基づいて、前記マイク出力信号中の、当該マイク出力信号に一成分として含まれるオーディオ信号成分を推定すると共に、前記マイク出力信号中の、当該マイク出力信号に一成分として含まれるノイズ音成分を推定し、推定したオーディオ信号成分とノイズ成分を、当該マイク出力信号よりキャンセルすることにより、当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出し、前記ゲイン制御手段において、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルが所定のレベルとなるように、前記出力調整アンプのゲインを調整するようにしたものである。

このような音声処理装置によれば、スピーカから出力されるオーディオ信号と、その他の騒音であるノイズ音とにより形成される、ユーザの発話にとっての背景騒音のレベルを所望のレベルとすることができる。したがって、ノイズ音のレベルによらずに、背景騒音を、発話の妨げにならないレベルに抑制することができると共に、ユーザの発話の妨げにならない程度に、大きな音量でオーディオ信号をユーザに聞かせることができる。また、ノイズ音のレベルによらずに、良好な音声処理の精度を確保することができるようになる。よって、ユーザの音声入力時の音響環境を向上することができるようになる。

ここで、このような音声処理装置は、前記ゲイン制御手段において、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルが所定のしきい値未満のレベルである場合に、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルが前記しきい値と等しいレベルとなるように、前記出力調整アンプのゲインを調整し、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルが前記しきい値以上のレベルである場合に、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルが前記しきい値よりも小さい所定のレベルとなるように、前記出力調整アンプのゲインを調整するようにしてもよい。

また、前記しきい値の値は、５５ｄＢＡ以上７０ｄＢＡ以下の値とすることが、ユーザの発話の妨げにならない程度に、できるだけ大きな音量でオーディオ信号をユーザに聞かせつつ、音声処理やユーザの発話に影響を与える騒音環境を良好なものとする上で好ましい。または、前記しきい値の値は、６５ｄＢＡ以上６９ｄＢＡ以下の値とすることも、騒音環境を効率的に向上する上で好ましい。

なお、以上の各音声処理装置において、前記音声処理手段は、前記所定の音声処理として、前記発話音声信号抽出手段が抽出した発話音声信号を対象とする音声認識処理を行うものであってよい。

以上のように、本発明によれば、オーディオ装置と併用される音声処理装置において、ユーザの音声入力時の音響環境を向上することができる。

以下、本発明に係る音声処理装置の実施形態について、自動車に搭載される音声入力装置への適用を例にとり説明する。
図１に、音声入力装置の構成を示す。
図示するように音声入力装置は、ラジオ受信機やCDプレイヤなどであるオーディオソース機器１、オーディオアンプ２、スピーカ３、マイク４、入力アンプ５、Ａ／Ｄ変換器６、発話音声抽出部７、音声認識装置８、樹方処理装置９、ゲイン制御部１０、トークスイッチ１１、オーディオ操作部１２を備えている。

また、オーディオアンプ２は、ボリューム調整アンプ２１と、出力調整アンプ２２とを備えている。
このような構成において、オーディオソース機器１から出力されたオーディオ信号は、オーディオアンプ２で増幅され、スピーカ３から出力される。
スピーカ３から出力されたオーディオ音Ａ１とユーザの発話音声Ｓとその他のノイズ音Ｎは、マイク４から入力し電気信号として出力される。ここで、以下では説明の便宜上、このマイク４が出力する信号を「マイク出力信号」と称す。さて、マイク出力信号は入力アンプ５で増幅された後Ａ／Ｄ変換器６でデジタル信号に変換され、発話音声抽出部７に入力する。発話音声抽出部７は、オーディオソース機器１の出力オーディオ信号を参照して、Ａ／Ｄ変換器６の出力するデジタル信号中からオーディオ信号成分とノイズ音信号成分をキャンセルし、キャンセル後のデジタル信号を音声認識装置８に入力する。音声認識装置８は、入力するデジタル信号に対して音声認識処理を行ってユーザの発話の内容を認識し、認識結果を情報処理装置に入力する。情報処理装置は、入力する音声認識装置８の認識結果に応じた処理を行う。

ここで、トークスイッチ１１は、ユーザが音声入力を行う場合に、ユーザがオン状態とするスイッチであり、このトークスイッチ１１がオンの状態である期間のみ音声認識装置８は前述した音声認識処理を行う。
また、以上の動作中において、オーディオアンプ２の、ボリューム調整アンプ２１は、オーディオ操作部１２を介してユーザから指定されたゲインで、オーディオソース機器１から出力されるオーディオ信号を増幅し、出力調整アンプ２２に出力する。
また、オーディオアンプ２の、出力調整アンプ２２は、ゲイン制御部１０から指定されたゲインで、ボリューム調整アンプ２１から入力するオーディオ信号を増幅し、スピーカ３に出力する。なお、ゲイン制御部１０の、出力調整アンプ２２のゲイン制御の動作については後述する。

次に、図２に、発話音声抽出部７の構成を示す。
図示するように、発話音声抽出部７は、学習制御部７１、係数更新部７２、フィルタ７３、第１加算器７４、ノイズ音推定部７５、第２加算器７６より構成される。
フィルタ７３は、オーディオソース機器１の出力からＡ／Ｄ変換器６の出力までの伝達系のインパルス応答を模擬するフィルタであり、このフィルタ７３のインパルス応答を算出、更新するのが係数更新部７２であり、フィルタ７３と係数更新部７２とで適応フィルタを構成している。係数更新部７２は、LMS（平均二乗誤差）アルゴリズムやNLMS（正規化平均二乗誤差）アルゴリズムなどにより、第１加算器７４が出力するＡ／Ｄ変換器６の出力とフィルタ７３の出力の差分信号のパワーが最小となるようにフィルタ７３のフィルタ係数ｘｊを算出し、フィルタ７３に設定する処理を繰り返す。

そして、学習制御部７１は、このような係数更新部７２の係数更新動作を、トークスイッチ１１がオフの期間のみ行わせ、トークスイッチ１１がオンの期間に停止させる制御を行う。このようにすることにより、ユーザが発話していない、Ａ／Ｄ変換器６の出力の支配的な成分がオーディオ信号であることが期待できる期間にのみフィルタ７３の更新を行うことができるので、より適正にフィルタ７３のインパルス応答を、オーディオソース機器１の出力からＡ／Ｄ変換器６の出力までの伝達系のインパルス応答を模擬するように設定することができる。

さて、図示するように、フィルタ７３のインパルス応答が、オーディオソース機器１の出力からＡ／Ｄ変換器６の出力までの伝達系のインパルス応答を正確に模擬している場合、第１加算器７４が出力するＡ／Ｄ変換器６の出力とフィルタ７３の出力ＡＬの差分信号は、Ａ／Ｄ変換器６の出力から、オーディオ信号成分を除去した発話音声成分とのノイズ音成分のみの信号となる。ただし、ユーザが発話していない期間は、第１加算器７４が出力する差分信号は、Ａ／Ｄ変換器６の出力から、オーディオ信号成分を除去したノイズ音信号成分のみの信号となる。

そこで、ノイズ音推定部７５は、トークスイッチ１１がオフの期間に、第１加算器７４が出力する差分信号ＡＬから、Ａ／Ｄ変換器６の出力に含まれるノイズ音成分を推定し、トークスイッチ１１がオンの期間には、推定したノイズ音成分に基づいて、ノイズ音成分を模擬する推定ノイズ音信号ＮＬを第２加算器７６に出力する。すなわち、たとえば、トークスイッチ１１がオフの期間に、第１加算器７４が出力する過去一定期間の差分信号の平均をノイズ音成分として推定する。そして、トークスイッチ１１がオンとなったならば、ノイズ音成分の推定を停止し、最後に推定したノイズ音成分に基づいて、ノイズ音成分を模擬する推定ノイズ音信号ＮＬを第２加算器７６に出力する。ただし、このノイズ音推定部７５は、現在の車両の走行速度などからノイズ音成分を推定し、トークスイッチ１１がオンの期間に、推定したノイズ音成分を模擬する推定ノイズ音信号ＮＬを第２加算器７６に出力するものなどとしてもよい。

ここで、トークスイッチ１１がオンの期間に、第２加算器７６が出力する第１加算器７４の出力とノイズ音推定部７５の出力ＮＬの差分信号ＳＬは、Ａ／Ｄ変換器６の出力から、オーディオ信号成分とノイズ音成分が除かれた発話音声成分のみの信号となる。
そして、この発話音声成分のみを表す差分信号ＳＬが、前述したオーディオ信号成分とノイズ音成分をキャンセル後のデジタル信号として音声認識装置８に送られ、音声認識装置８において、このデジタル信号を対象として音声認識が行われることになる。
また、図示するように、フィルタ７３の出力ＡＬと第２加算器７６の出力ＳＬとノイズ音推定部７５の出力ＮＬとはゲイン制御部１０にも送られる。そして、上述のようにフィルタ７３の出力ＡＬは、Ａ／Ｄ変換器６の出力中のオーディオ信号成分の推定値を表し、第２加算器７６の出力ＳＬはＡ／Ｄ変換器６の出力中の発話音声信号成分の推定値を表し、ノイズ音推定部７５の出力ＮＬは、Ａ／Ｄ変換器６の出力中のノイズ音信号成分の推定値を表す。以下、このフィルタ７３の出力を「推定オーディオ信号ＡＬ」と、第２加算器７６の出力を「推定発話音声信号ＳＬ」と、ノイズ音推定部７５の出力を「推定ノイズ音信号ＮＬ」と呼ぶ。

以下、トークスイッチ１１のオンの期間に、ゲイン制御部１０が行う出力調整アンプ２２のゲイン制御の動作について説明する。
ゲイン制御部１０は、まず、推定オーディオ信号ＡＬと推定ノイズ音信号ＮＬを加算し推定環境音信号ＥＬとする。そして、推定環境音信号ＥＬと推定発話音声信号ＳＬとの関係が、所定の関係となるように出力調整アンプ２２のゲインを制御する。
ここで、所定の関係とは、推定環境音信号ＥＬが示す環境音下で、推定発話音声信号ＳＬが表す発話音声が明瞭に聞こえるようになる関係である。
ここで、図３は、物理的な音圧レベルと、その音を人間が聞いているときに感じるラウドネスとの対応関係を示したものである。図３の曲線において、横軸は物理的な音圧レベル（単位はSound Pressure Level SPL（ｄＢ))であり、縦軸は人の感じる音の大きさを数値化したラウドネス（単位はsone) である。図３において(a) は静かな環境におけるものであり、(b) は騒音環境下におけるものである。なお、(b) は、人の最小可聴値が約３５ｄＢ上昇するような環境音の中での曲線であって、環境音が変化することによりこの曲線も様々に変化する。

ここで、図３の曲線は縦軸のラウドネスの数値が同じであれば、人は音が同じ大きさであると感じていることを表している。
したがって、３７ｄＢ SPLの物理的音圧レベルの音を(b) の騒音環境下で聞く場合と同様に、０．１soneの大きさで、１２ｄＢ SPLの物理的音圧レベルの音を聞こえるようにするためには、(a) の静かな環境が必要となる。
そこで、ゲイン制御部１０は、このような人間の聴覚特性に従って、推定オーディオ信号ＡＬと推定ノイズ音信号ＮＬを加算した環境音信号ＥＬが示す環境音下で、推定発話音声信号ＳＬが表す発話音声が常に、一定のラウドネスでユーザに聞こえるように、出力調整アンプ２２のゲインを制御する。すなわち、推定発話音声信号ＳＬのレベルの大きさに応じて、出力調整アンプ２２のゲインを変化させることにより環境音量を変化させる。なお、このようなゲインの制御のために、推定発話音声信号ＳＬのレベルの各値と、その値のレベルの推定発話音声信号ＳＬが表す発話音声が、所定のラウドネスでユーザに聞こえるようになる環境音信号ＥＬのレベルの値の対応を示すテーブルを、あらかじめゲイン制御部１０に設定しておく。そして、ゲイン制御部１０は、トークスイッチ１１がオンである期間、入力する推定発話音声信号ＳＬのレベルにテーブルにおいて対応づけられている環境音信号ＥＬのレベルの値から、入力する推定ノイズ音信号ＮＬのレベルの値を減算した値に、入力する推定オーディオ信号ＡＬのレベルの値が変化するように、出力調整アンプ２２のゲインを制御する。

以上、本発明の実施形態を説明した。
ところで、以上の実施形態におけるゲイン制御は、人間のラウドネス特性を考慮せずに、単純に、推定オーディオ信号ＡＬと推定ノイズ音信号ＮＬを加算した環境音信号ＥＬと、推定発話音声信号ＳＬの比が予め定めた比率となるように出力調整アンプ２２のゲインを制御することにより行うようにしてもよい。または、推定オーディオ信号ＡＬと推定ノイズ音信号ＮＬを加算した環境音信号ＥＬと、推定発話音声信号ＳＬの差が予め定めた値以上となるように出力調整アンプ２２のゲインを制御することにより行うようにしてもよい。また、以上の実施形態におけるゲイン制御では、発話音声抽出部７から入力する推定オーディオ信号ＡＬ、推定ノイズ音信号ＮＬ、推定発話音声信号ＳＬに代えて、推定オーディオ信号ＡＬ、推定ノイズ音信号ＮＬ、推定発話音声信号ＳＬにそれぞれ適当な重み付けを与えた値であるａ×推定オーディオ信号ＡＬ、ｂ×推定ノイズ音信号ＮＬ、ｃ×推定発話音声信号ＳＬを用いるようにしてもよい。

また、以上の実施形態は、ゲイン制御部１０におけるゲイン制御において、推定発話音声信号ＳＬに代えて固定値を用いるようにしてもよい。すなわち、人間の発話音のレベルの平均は６３dBAから６６dBAであるので、たとえば、ユーザが６３dBAで発話したときにＡ／Ｄ変換器６の出力に含まれることになる発話音声信号成分のレベルを、固定的に、推定発話音声信号ＳＬのレベルに代えて用いて、以上のゲイン制御を行うようにしてもよい。
また、以上の実施形態は、ゲイン制御部１０におけるゲイン制御において、推定ノイズ音信号ＮＬに代えて、あらかじめ設定した固定値を用いるようにしてもよい。すなわち、その車両でおおよそ生じ得る平均または最大ノイズが発生したときに、Ａ／Ｄ変換器６の出力に含まれることになるノイズ音信号成分のレベルを、固定的に、推定ノイズ音信号ＮＬのレベルに代えて用いて、以上のゲイン制御を行うようにしてもよい。

以上のように本実施形態によれば、ゲイン制御部１０のゲインの制御によって、ユーザが小さな声で発話しても大きな声で発話しても、環境音が発話の妨げになる度合を同様な程度とすることができるようになる。また、これにより、ユーザの発話の大きさにかかわらず、ユーザの発話の妨げにならない程度に、大きな音量でオーディオ信号をユーザに聞かせることができるようになる。また、このように発話音声信号のレベルが小さい程オーディオ信号成分のレベルが小さくなるようにすることによって、ユーザの発話の大きさにかかわらず、良好な音声認識の精度を確保することができるようになる。

ところで、以上の実施形態におけるゲイン制御部１０におけるゲイン制御は、図４に示すゲイン制御処理によって行うようにしてもよい。
図示するように、この処理では、ユーザによる音声入力の開始を監視する（ステップ４０２）。音声入力の開始判定は、トークスイッチ１１がオン状態に操作されたときに音声入力が開始されたと判定することにより行う。
そして、ユーザによる音声入力が開始されたならば、推定ノイズ音信号ＮＬの大きさが６５ｄＢＡ未満であるかどうかを調べる（ステップ４０４）。そして、推定ノイズ音信号ＮＬの大きさが６５ｄＢＡ以上であれば、推定オーディオ信号ＡＬの大きさが４５ｄＢＡとなるように、出力調整アンプ２２のゲインを制御し（ステップ４１２）、ステップ４０８に進む。

一方、推定ノイズ音信号ＮＬの大きさが６５ｄＢＡ未満であれば（ステップ４０６）、推定オーディオ信号ＡＬと推定ノイズ音信号ＮＬを加算した推定環境音信号ＥＬの大きさが６５ｄＢＡとなるように、出力調整アンプ２２のゲインを制御し（ステップ４０６）、ステップ４０８に進む。

ステップ４０８では、ユーザによる音声入力が終了しているかどうかを調べ、音声入力が終了していなければステップ４０４からの処理に戻る。一方、音声入力が終了していれば、出力調整アンプ２２のゲインを、音声入力の開始を検出した後に最初にゲインをステップ４０６またはステップ４１２で変更する前の値に復帰した上で（ステップ４１０）、ステップ４０２に戻り、次のユーザによる音声入力の開始を待つ。なお、音声入力の終了判定は、トークスイッチ１１がオフ状態に操作されたときに音声入力が終了したと判定することにより行う。

さて、このようなゲイン制御処理によれば、音声入力中、推定ノイズ音信号ＮＬの大きさが６５ｄＢＡ未満のときは、推定オーディオ信号ＡＬと推定ノイズ音信号ＮＬを加算した推定環境音信号ＥＬの大きさが６５ｄＢＡとなるように出力調整アンプ２２のゲインが制御される。

ここで図５に、文章了解度と背景騒音の関係を表したグラフを示す。このグラフは、米国ＥＰＡ（US Environmental Protection Agency)が提唱している、話者と聞き手の距離が１ｍのときの定常的な背景騒音に対する文章了解度（話者が話した文章の聞き手の了解度）の値を示すものである（US Environmental Protection Agency: Information on levels of environmental noise requisite to protect public health and welfare with adequate margin of safety. 550/9-74-004, 1974)。

図示するように、このグラフによれば、背景騒音レベルが６５ｄＢＡのとき、聞き手の文章了解度は約９５％となる。したがって、このようなゲイン制御処理によれば、推定ノイズ音信号ＮＬの大きさが６５ｄＢＡ未満のときは、推定環境音信号ＥＬの大きさとして推定される、オーディオソース機器１の出力音と周辺のノイズ音とよりなる音声入力の環境音（背景騒音）を６５ｄＢＡ未満に抑え、文章了解度が約９５％以上となる、ユーザの発話や音声認識にとって充分に良好な騒音環境を実現することができる。

また、図５に示したグラフによれば、推定ノイズ音信号ＮＬの大きさが４５ｄＢＡ以下である場合には、聞き手の文章了解度は、ほぼ１００％となる。したがって、このようなゲイン制御処理によれば、推定ノイズ音信号ＮＬの大きさが６５ｄＢＡ以上のときは、推定オーディオ信号ＡＬの大きさから推定される、オーディオソース機器１の出力音を、ユーザの発話や文章了解度に与える悪影響が充分に小さくなるレベル（４５ｄＢＡ）に設定することができる。

ただし、以上のゲイン制御処理では、６５ｄＢＡをしきい値として、推定ノイズ音信号ＮＬの大きさがしきい値未満のときに、推定環境音信号ＥＬのレベルがしきい値となるように出力調整アンプ２２のゲインを調整し、推定ノイズ音信号ＮＬの大きさがしきい値以上のときに、推定オーディオ信号ＡＬが４５ｄＢＡとなるように出力調整アンプ２２のゲインを調整したが、このしきい値は、必ずしも６５ｄＢＡとしなくともよい。ユーザや、実際の環境によっては、オーディオソース機器１の出力音が比較的大きくても支障が生じない場合もあるからである。ただし、このしきい値は、望ましくは、５５ｄＢＡから７０ｄＢＡの間に値とすることが好ましい。このようにすることにより、オーディオソース機器１の出力音をユーザがある程度の音量で視聴できるレベルに維持しつつ、最低でも文章了解度が約６０％以上となる比較的良好な騒音環境を確保することができる。また、図５のグラフより理解されるように、背景騒音レベルの増加に対する文章了解度の減少率の変化率は、約６７ｄＢＡの背景騒音レベルでピーク値をとる。そして、約６７ｄＢを超えると、背景騒音レベルの増加に対する文章了解度の減少率は急激に増加する。したがって、この約６７ｄＢＡ近傍の約６７ｄＢＡ未満の値、たとえば、６５ｄＡから６９ｄＢＡの間の値をしきい値として選択することも、オーディオソース機器１の出力音のレベルの低下を押さえつつ、ユーザの発話や音声認識に影響を与える騒音環境を向上する上で効率的である。

また、このようなしきい値は、実際の利用状況に応じて、ユーザが任意に変更、調整できるようにすることも好ましい。
以上説明したゲイン制御処理によれば、ノイズ音とオーディオソース機器１の出力音よりなる環境音（背景騒音）のレベルを所望のレベルとすることができる。したがって、周辺のノイズ音のレベルによらずに、環境音を、発話の妨げにならないレベルに抑制することができると共に、ユーザの発話の妨げにならない程度に、大きな音量でオーディオ信号をユーザに聞かせることができる。また、ノイズ音のレベルによらずに、良好な音声処理の精度を確保することができるようになる。よって、ユーザの音声入力時の音響環境を向上することができるようになる。

ところで、以上の実施形態は、出力調整アンプ２２をイコライザ機能を備えた出力調整アンプ２２とした場合には、出力調整アンプ２２におけるゲインの調整を、周波数帯域ごとに行うようにしてもよい。なお、この場合に、人間のラウドネス特性を考慮したゲイン制御をおこなうときには、周波数帯域ごとに、以上の処理を行って、周波数帯域ごとに出力調整アンプ２２におけるゲイン量を定める。

なお、以上では、音声認識を行う装置への適用を例にとり説明したが、本実施形態に係るオーディオソース機器１の出力音のゲイン調整の技術は、入力音声を処理する任意の音声処理装置に同様に適用可能である。すなわち、たとえば、図１における音声認識装置に代えて発話音声抽出部７から入力音声を通信網に送信する音声送信部を備えて、音声通信装置を構成したりすることができる。

本発明の実施形態に係る音声入力装置の構成を示すブロック図である。本発明の実施形態に係る発話音声抽出部の構成を示すブロック図である。騒音下での人間の聴覚特性を示す図である。本発明の実施形態に係るゲイン制御処理を示すフローチャートである。文章了解度と背景騒音の関係を表した図である。従来の音声入力装置の構成を示すブロック図である。

符号の説明

１…オーディオソース機器、２…オーディオアンプ、３…スピーカ、４…マイク、５…入力アンプ、６…Ａ／Ｄ変換器、７…発話音声抽出部、８…音声認識装置、９…樹方処理装置、１０…ゲイン制御部、１１…トークスイッチ、１２…オーディオ操作部、２１…ボリューム調整アンプ、２２…出力調整アンプ、７１…学習制御部、７２…係数更新部、７３…フィルタ、７４…第１加算器、７５…ノイズ音推定部、７６…第２加算器。

Claims

オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号に基づいてオーディオ音声を出力するスピーカと併用される音声処理装置であって、
オーディオ機器がスピーカに出力するオーディオ信号を増幅する出力調整アンプと、
周辺音をピックアップするマイクと、
前記マイクが出力する信号であるマイク出力信号から当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出する発話音声信号抽出手段と、
前記発話音声信号抽出手段が抽出した発話音声信号を対象として所定の音声処理を行う音声処理手段と、
前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさに基づいて、前記出力調整アンプのゲインを調整するゲイン制御手段とを有することを特徴とする音声処理装置。
請求項１記載の音声処理装置であって、
前記発話音声抽出部は、オーディオ機器が出力するオーディオ信号と、前記マイク出力信号とに基づいて、前記マイク出力信号中の、当該入力音声に一成分として含まれるオーディオ信号成分を推定し、推定したオーディオ信号成分を、当該マイク出力信号よりキャンセルすることにより、当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出し、
前記ゲイン制御手段は、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさと、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルの大きさとが所定の関係となるように、前記出力調整アンプのゲインを調整することを特徴とする音声処理装置。
請求項１記載の音声処理装置であって、
前記発話音声抽出部は、オーディオ機器が出力するオーディオ信号と、前記マイク出力信号とに基づいて、前記マイク出力信号中の、当該マイク出力信号に一成分として含まれるオーディオ信号成分を推定すると共に、前記マイク出力信号中の、当該マイク出力信号に一成分として含まれるノイズ音成分を推定し、推定したオーディオ信号成分とノイズ成分を、当該マイク出力信号よりキャンセルすることにより、当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出し、
前記ゲイン制御手段は、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさと、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルの大きさとの関係が所定の関係となるように、前記出力調整アンプのゲインを調整することを特徴とする音声処理装置。
請求項１、２または３記載の音声処理装置であって、
前記所定の関係は、少なくとも発話音声信号のレベルが小さい程オーディオ信号成分のレベルが小さくなる関係であることを特徴とする音声処理装置。
請求項１、２または３記載の音声処理装置であって、
前記ゲイン制御手段は、前記発話音声信号抽出手段が抽出した発話音声信号が表す発話音声が、ユーザに等しいラウドネスで聞こえるように、前記出力調整アンプのゲインを調整することを特徴とする音声処理装置。
オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号に基づいてオーディオ音声を出力するスピーカと併用される音声処理装置であって、
オーディオ機器がスピーカに出力するオーディオ信号を増幅する出力調整アンプと、
周辺音をピックアップするマイクと、
前記マイクが出力する信号であるマイク出力信号から当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出する発話音声信号抽出手段と、
前記発話音声信号抽出手段が抽出した発話音声信号を対象として所定の音声処理を行う音声処理手段と、
前記出力調整アンプのゲインを調整するゲイン制御手段とを有し、
前記発話音声抽出部は、オーディオ機器が出力するオーディオ信号と、前記マイク出力信号とに基づいて、前記マイク出力信号中の、当該マイク出力信号に一成分として含まれるオーディオ信号成分を推定すると共に、前記マイク出力信号中の、当該マイク出力信号に一成分として含まれるノイズ音成分を推定し、推定したオーディオ信号成分とノイズ成分を、当該マイク出力信号よりキャンセルすることにより、当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出し、
前記ゲイン制御手段は、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルが所定のレベルとなるように、前記出力調整アンプのゲインを調整することを特徴とする音声処理装置。
請求項６記載の音声処理装置であって、
前記ゲイン制御手段は、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルが所定のしきい値未満のレベルである場合に、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルが前記しきい値と等しいレベルとなるように、前記出力調整アンプのゲインを調整し、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルが前記しきい値以上のレベルである場合に、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルが前記しきい値よりも小さい所定のレベルとなるように、前記出力調整アンプのゲインを調整することを特徴とする音声処理装置。
請求項７記載の音声処理装置であって、
前記しきい値の値は、５５ｄＢＡ以上７０ｄＢＡ以下の値であることを特徴とする音声処理装置。
請求項８記載の音声処理装置であって、
前記しきい値の値は、６５ｄＢＡ以上６９ｄＢＡ以下の値であることを特徴とする音声処理装置。
請求項１、２、３、４、５、６、７、８または９記載の音声処理装置であって、
前記音声処理手段は、前記所定の音声処理として、前記発話音声信号抽出手段が抽出した発話音声信号を対象とする音声認識処理を行うことを特徴とする音声処理装置。