JP2006195411A - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP2006195411A
JP2006195411A JP2005211469A JP2005211469A JP2006195411A JP 2006195411 A JP2006195411 A JP 2006195411A JP 2005211469 A JP2005211469 A JP 2005211469A JP 2005211469 A JP2005211469 A JP 2005211469A JP 2006195411 A JP2006195411 A JP 2006195411A
Authority
JP
Japan
Prior art keywords
signal
speech
component
output
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005211469A
Other languages
English (en)
Other versions
JP4722607B2 (ja
Inventor
Shingo Kiuchi
真吾 木内
Nozomi Saito
望 齊藤
Toru Marumoto
徹 丸本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2005211469A priority Critical patent/JP4722607B2/ja
Publication of JP2006195411A publication Critical patent/JP2006195411A/ja
Application granted granted Critical
Publication of JP4722607B2 publication Critical patent/JP4722607B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】ユーザの音声入力時の音響環境を向上することのできる「音声処理装置」を提供する。
【解決手段】スピーカ3から出力されたオーディオ音A1とユーザの発話音声信号Sとその他のノイズ音Nは、マイク4から入力しマイク出力信号となる。マイク出力信号は入力アンプ5で増幅された後、A/D変換器6でデジタル信号に変換され、発話音声抽出部7に入力する。発話音声抽出部7は、入力したデジタル信号中から発話音声信号成分を抽出し音声認識装置8に入力する。ゲイン制御部10は、A/D変換器6が出力するデジタル信号の発話音声信号成分を除く成分である環境音信号が示す環境音下で、発話音声信号成分が表す発話音声が明瞭に聞こえるように、スピーカ3の出力音量を調整する出力調整アンプ22のゲインを制御する。
【選択図】図1

Description

本発明は、オーディオ装置と共に用いられる音声処理装置において、ユーザの音声入力時の音響環境を向上する技術に関するものである。
ユーザの発話音声を処理する音声処理装置としては、ユーザの発話音声を音声認識することにより音声入力を可能とする音声入力装置が知られている。また、オーディオ装置と共に用いられる音声入力装置としては、自動車において各種カーオーディオ装置と共に用いられるカーナビゲーション装置などが知られている。
また、このようなオーディオ装置と共に用いられる音声入力装置において、音声入力受付時に、オーディオ装置からの出力されるオーディオ信号のゲインを調整する技術も知られている(たとえば、特許文献1)。
図6に、このような音声入力装置の構成を示す。
図中において、オーディオソース機器612から出力されたオーディオ信号は、オーディオアンプ613の出力調整アンプ6131で増幅されスピーカ614から出力される。
スピーカ614から出力されたオーディオ音A及びユーザの発話音声Sは、マイク615から入力しマイク出力信号となる。マイク出力信号は入力アンプ616で増幅された後A/D変換器617でデジタル信号に変換されて発話音声抽出部618に入力する。発話音声抽出部618は、オーディオソース機器612の出力オーディオ信号を参照して、A/D変換器617の出力するデジタル信号中からオーディオ信号成分をキャンセルし、オーディオ信号成分をキャンセル後のデジタル信号を音声認識装置619に入力する。音声認識装置619は、入力するデジタル信号に対して音声認識処理を行ってユーザの発話の内容を認識し、認識結果を情報処理装置620に入力する。情報処理装置620は、入力する音声認識装置の認識結果に応じた処理を行う。
ここで、トークスイッチ622がオンの状態である期間のみ音声認識装置は前述した音声認識処理を行う。そして、ゲイン制御部621は、トークスイッチがオンの状態である期間、スピーカ614に出力されるオーディオ信号が所定のレベル以下となるように、出力調整アンプ6131のゲインを調整する。また、ゲイン制御部6131は、トークスイッチ621がオフである期間には、オーディオ操作部611を介してユーザから指定されたゲインとなるように、出力調整アンプ6131のゲインを調整する。
このような音声入力装置によれば、音声入力時に、ユーザに所定レベル以下のオーディオ信号が聞こえるようにしつつ、ユーザの発話音声と共にマイク615に入力してしまうオーディオ信号Aのレベルを、音声認識の妨げとならないように適当に小さく抑えることができる。
特開2001-236090号公報
図6に示した音声入力装置によれば、音声入力時にオーディオ装置から出力されるオーディオ信号のレベルを所定のレベル以下に制御するだけなので、ユーザの音声入力時の音響環境という観点から見ると不十分である。
すなわち、オーディオ信号の出力レベルが同じであっても、小さな声で発話する人と、大きな声で発話する人とでは、オーディオ信号が発話の妨げになる度合いは異なる。より具体的には、大きな声で発話する人にとっては気にならないレベルのオーディオ信号であっても、小さな声で発話する人にとっては、発話の邪魔になると感じることもある。また、同様に、同じ出力レベルでオーディオ信号が出力されているときの、小さな声で発話された発話音声の音声認識精度と、大きな声で発話された発話音声の音声認識の精度は、小さな声で発話された発話音声の方が、マイクに入力する発話音声レベルに対するオーディオ信号レベルが大きくなるために低くなる。
また、オーディオ信号の出力レベルが同じであっても、その他の周辺の騒音レベルが大きい場合と小さい場合とでは、そのオーディオ信号の出力が、発話の妨げになる度合いや発話音声の音声認識精度は異なったものとなる。
そこで、本発明は、オーディオ装置と併用される音声処理装置において、ユーザの音声入力時の音響環境を向上することを課題とする。
前記課題達成のために、本発明は、オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号に基づいてオーディオ音声を出力するスピーカと併用される音声処理装置を、オーディオ機器がスピーカに出力するオーディオ信号を増幅する出力調整アンプと、周辺音をピックアップするマイクと、前記マイクが出力する信号であるマイク出力信号から当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出する発話音声信号抽出手段と、前記発話音声信号抽出手段が抽出した発話音声信号を対象として所定の音声処理を行う音声処理手段と、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさに基づいて、前記出力調整アンプのゲインを調整するゲイン制御手段とを含めて構成したものである。
このような音声処理装置によれば、ゲイン制御部において、たとえば、少なくとも発話音声信号のレベルが小さい程オーディオ信号成分のレベルが小さくなるように、出力調整アンプのゲインを制御することが可能となり、これによりユーザが小さな声で発話しても大きな声で発話しても、スピーカから出力されるオーディオ信号が発話の妨げになる度合を同様な程度とすることができるようになる。また、このことは、別の観点からは、ユーザの発話の大きさにかかわらず、ユーザの発話の妨げにならない程度に、大きな音量でオーディオ信号をユーザに聞かせることができることを意味する。また、このように発話音声信号のレベルが小さい程オーディオ信号成分のレベルが小さくなるようにすることによって、ユーザの発話の大きさにかかわらず、良好な音声処理の精度を確保することができるようになる。よって、ユーザの音声入力時の音響環境を向上することができるようになる。
ここで、以上のような音声処理装置は、より具体的には、前記発話音声抽出部を、前記発話音声抽出手段は、オーディオ機器が出力するオーディオ信号と、前記マイク出力信号とに基づいて、前記マイク出力信号中の、当該入力音声に一成分として含まれるオーディオ信号成分を推定し、推定したオーディオ信号成分を、当該マイク出力信号よりキャンセルすることにより、当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出するものとして、前記ゲイン制御手段において、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさと、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルの大きさとの関係が所定の関係となるように、前記出力調整アンプのゲインを調整するようにしてもよい。このようにすることにより、より正確に、スピーカから出力されるオーディオ信号のレベルを制御することができる。
または、前記発話音声抽出部を、前記発話音声抽出手段は、オーディオ機器が出力するオーディオ信号と、前記マイク出力信号とに基づいて、マイク出力信号中の、当該マイク出力信号に一成分として含まれるオーディオ信号成分を推定すると共に、前記マイク出力信号中の、当該マイク出力信号に一成分として含まれるノイズ音成分を推定し、推定したオーディオ信号成分とノイズ成分を、当該マイク出力信号よりキャンセルすることにより、当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出するものとし、前記ゲイン制御手段において、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさと、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルの大きさとの関係が所定の関係となるように、前記出力調整アンプのゲインを調整するようにしてもよい。このようにすることにより、オーディオ信号に加えノイズ音をも考慮した上で、オーディオ信号とノイズ音とよりなる環境音を、発話の妨げになる度合がユーザの発話の大きさによらずに同様な程度となるように制御することができる。
また、以上の各音声処理装置は、前記ケイン制御手段が、前記発話音声信号抽出手段が抽出した発話音声信号が表す発話音声が、ユーザに等しいラウドネスで聞こえるように、前記出力調整アンプのゲインを調整することが好ましい。
また、前記課題達成のために、本発明は、オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号に基づいてオーディオ音声を出力するスピーカと併用される音声処理装置を、オーディオ機器がスピーカに出力するオーディオ信号を増幅する出力調整アンプと、周辺音をピックアップするマイクと、前記マイクが出力する信号であるマイク出力信号から当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出する発話音声信号抽出手段と、前記発話音声信号抽出手段が抽出した発話音声信号を対象として所定の音声処理を行う音声処理手段と、前記出力調整アンプのゲインを調整するゲイン制御手段とにより構成し、前記発話音声抽出部において、オーディオ機器が出力するオーディオ信号と、前記マイク出力信号とに基づいて、前記マイク出力信号中の、当該マイク出力信号に一成分として含まれるオーディオ信号成分を推定すると共に、前記マイク出力信号中の、当該マイク出力信号に一成分として含まれるノイズ音成分を推定し、推定したオーディオ信号成分とノイズ成分を、当該マイク出力信号よりキャンセルすることにより、当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出し、前記ゲイン制御手段において、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルが所定のレベルとなるように、前記出力調整アンプのゲインを調整するようにしたものである。
このような音声処理装置によれば、スピーカから出力されるオーディオ信号と、その他の騒音であるノイズ音とにより形成される、ユーザの発話にとっての背景騒音のレベルを所望のレベルとすることができる。したがって、ノイズ音のレベルによらずに、背景騒音を、発話の妨げにならないレベルに抑制することができると共に、ユーザの発話の妨げにならない程度に、大きな音量でオーディオ信号をユーザに聞かせることができる。また、ノイズ音のレベルによらずに、良好な音声処理の精度を確保することができるようになる。よって、ユーザの音声入力時の音響環境を向上することができるようになる。
ここで、このような音声処理装置は、前記ゲイン制御手段において、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルが所定のしきい値未満のレベルである場合に、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルが前記しきい値と等しいレベルとなるように、前記出力調整アンプのゲインを調整し、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルが前記しきい値以上のレベルである場合に、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルが前記しきい値よりも小さい所定のレベルとなるように、前記出力調整アンプのゲインを調整するようにしてもよい。
また、前記しきい値の値は、55dBA以上70dBA以下の値とすることが、ユーザの発話の妨げにならない程度に、できるだけ大きな音量でオーディオ信号をユーザに聞かせつつ、音声処理やユーザの発話に影響を与える騒音環境を良好なものとする上で好ましい。または、前記しきい値の値は、65dBA以上69dBA以下の値とすることも、騒音環境を効率的に向上する上で好ましい。
なお、以上の各音声処理装置において、前記音声処理手段は、前記所定の音声処理として、前記発話音声信号抽出手段が抽出した発話音声信号を対象とする音声認識処理を行うものであってよい。
以上のように、本発明によれば、オーディオ装置と併用される音声処理装置において、ユーザの音声入力時の音響環境を向上することができる。
以下、本発明に係る音声処理装置の実施形態について、自動車に搭載される音声入力装置への適用を例にとり説明する。
図1に、音声入力装置の構成を示す。
図示するように音声入力装置は、ラジオ受信機やCDプレイヤなどであるオーディオソース機器1、オーディオアンプ2、スピーカ3、マイク4、入力アンプ5、A/D変換器6、発話音声抽出部7、音声認識装置8、樹方処理装置9、ゲイン制御部10、トークスイッチ11、オーディオ操作部12を備えている。
また、オーディオアンプ2は、ボリューム調整アンプ21と、出力調整アンプ22とを備えている。
このような構成において、オーディオソース機器1から出力されたオーディオ信号は、オーディオアンプ2で増幅され、スピーカ3から出力される。
スピーカ3から出力されたオーディオ音A1とユーザの発話音声Sとその他のノイズ音Nは、マイク4から入力し電気信号として出力される。ここで、以下では説明の便宜上、このマイク4が出力する信号を「マイク出力信号」と称す。さて、マイク出力信号は入力アンプ5で増幅された後A/D変換器6でデジタル信号に変換され、発話音声抽出部7に入力する。発話音声抽出部7は、オーディオソース機器1の出力オーディオ信号を参照して、A/D変換器6の出力するデジタル信号中からオーディオ信号成分とノイズ音信号成分をキャンセルし、キャンセル後のデジタル信号を音声認識装置8に入力する。音声認識装置8は、入力するデジタル信号に対して音声認識処理を行ってユーザの発話の内容を認識し、認識結果を情報処理装置に入力する。情報処理装置は、入力する音声認識装置8の認識結果に応じた処理を行う。
ここで、トークスイッチ11は、ユーザが音声入力を行う場合に、ユーザがオン状態とするスイッチであり、このトークスイッチ11がオンの状態である期間のみ音声認識装置8は前述した音声認識処理を行う。
また、以上の動作中において、オーディオアンプ2の、ボリューム調整アンプ21は、オーディオ操作部12を介してユーザから指定されたゲインで、オーディオソース機器1から出力されるオーディオ信号を増幅し、出力調整アンプ22に出力する。
また、オーディオアンプ2の、出力調整アンプ22は、ゲイン制御部10から指定されたゲインで、ボリューム調整アンプ21から入力するオーディオ信号を増幅し、スピーカ3に出力する。なお、ゲイン制御部10の、出力調整アンプ22のゲイン制御の動作については後述する。
次に、図2に、発話音声抽出部7の構成を示す。
図示するように、発話音声抽出部7は、学習制御部71、係数更新部72、フィルタ73、第1加算器74、ノイズ音推定部75、第2加算器76より構成される。
フィルタ73は、オーディオソース機器1の出力からA/D変換器6の出力までの伝達系のインパルス応答を模擬するフィルタであり、このフィルタ73のインパルス応答を算出、更新するのが係数更新部72であり、フィルタ73と係数更新部72とで適応フィルタを構成している。係数更新部72は、LMS(平均二乗誤差)アルゴリズムやNLMS(正規化平均二乗誤差)アルゴリズムなどにより、第1加算器74が出力するA/D変換器6の出力とフィルタ73の出力の差分信号のパワーが最小となるようにフィルタ73のフィルタ係数xjを算出し、フィルタ73に設定する処理を繰り返す。
そして、学習制御部71は、このような係数更新部72の係数更新動作を、トークスイッチ11がオフの期間のみ行わせ、トークスイッチ11がオンの期間に停止させる制御を行う。このようにすることにより、ユーザが発話していない、A/D変換器6の出力の支配的な成分がオーディオ信号であることが期待できる期間にのみフィルタ73の更新を行うことができるので、より適正にフィルタ73のインパルス応答を、オーディオソース機器1の出力からA/D変換器6の出力までの伝達系のインパルス応答を模擬するように設定することができる。
さて、図示するように、フィルタ73のインパルス応答が、オーディオソース機器1の出力からA/D変換器6の出力までの伝達系のインパルス応答を正確に模擬している場合、第1加算器74が出力するA/D変換器6の出力とフィルタ73の出力ALの差分信号は、A/D変換器6の出力から、オーディオ信号成分を除去した発話音声成分とのノイズ音成分のみの信号となる。ただし、ユーザが発話していない期間は、第1加算器74が出力する差分信号は、A/D変換器6の出力から、オーディオ信号成分を除去したノイズ音信号成分のみの信号となる。
そこで、ノイズ音推定部75は、トークスイッチ11がオフの期間に、第1加算器74が出力する差分信号ALから、A/D変換器6の出力に含まれるノイズ音成分を推定し、トークスイッチ11がオンの期間には、推定したノイズ音成分に基づいて、ノイズ音成分を模擬する推定ノイズ音信号NLを第2加算器76に出力する。すなわち、たとえば、トークスイッチ11がオフの期間に、第1加算器74が出力する過去一定期間の差分信号の平均をノイズ音成分として推定する。そして、トークスイッチ11がオンとなったならば、ノイズ音成分の推定を停止し、最後に推定したノイズ音成分に基づいて、ノイズ音成分を模擬する推定ノイズ音信号NLを第2加算器76に出力する。ただし、このノイズ音推定部75は、現在の車両の走行速度などからノイズ音成分を推定し、トークスイッチ11がオンの期間に、推定したノイズ音成分を模擬する推定ノイズ音信号NLを第2加算器76に出力するものなどとしてもよい。
ここで、トークスイッチ11がオンの期間に、第2加算器76が出力する第1加算器74の出力とノイズ音推定部75の出力NLの差分信号SLは、A/D変換器6の出力から、オーディオ信号成分とノイズ音成分が除かれた発話音声成分のみの信号となる。
そして、この発話音声成分のみを表す差分信号SLが、前述したオーディオ信号成分とノイズ音成分をキャンセル後のデジタル信号として音声認識装置8に送られ、音声認識装置8において、このデジタル信号を対象として音声認識が行われることになる。
また、図示するように、フィルタ73の出力ALと第2加算器76の出力SLとノイズ音推定部75の出力NLとはゲイン制御部10にも送られる。そして、上述のようにフィルタ73の出力ALは、A/D変換器6の出力中のオーディオ信号成分の推定値を表し、第2加算器76の出力SLはA/D変換器6の出力中の発話音声信号成分の推定値を表し、ノイズ音推定部75の出力NLは、A/D変換器6の出力中のノイズ音信号成分の推定値を表す。以下、このフィルタ73の出力を「推定オーディオ信号AL」と、第2加算器76の出力を「推定発話音声信号SL」と、ノイズ音推定部75の出力を「推定ノイズ音信号NL」と呼ぶ。
以下、トークスイッチ11のオンの期間に、ゲイン制御部10が行う出力調整アンプ22のゲイン制御の動作について説明する。
ゲイン制御部10は、まず、推定オーディオ信号ALと推定ノイズ音信号NLを加算し推定環境音信号ELとする。そして、推定環境音信号ELと推定発話音声信号SLとの関係が、所定の関係となるように出力調整アンプ22のゲインを制御する。
ここで、所定の関係とは、推定環境音信号ELが示す環境音下で、推定発話音声信号SLが表す発話音声が明瞭に聞こえるようになる関係である。
ここで、図3は、物理的な音圧レベルと、その音を人間が聞いているときに感じるラウドネスとの対応関係を示したものである。図3の曲線において、横軸は物理的な音圧レベル(単位はSound Pressure Level SPL(dB))であり、縦軸は人の感じる音の大きさを数値化したラウドネス(単位はsone) である。図3において(a) は静かな環境におけるものであり、(b) は騒音環境下におけるものである。なお、(b) は、人の最小可聴値が約35dB上昇するような環境音の中での曲線であって、環境音が変化することによりこの曲線も様々に変化する。
ここで、図3の曲線は縦軸のラウドネスの数値が同じであれば、人は音が同じ大きさであると感じていることを表している。
したがって、37dB SPLの物理的音圧レベルの音を(b) の騒音環境下で聞く場合と同様に、0.1soneの大きさで、12dB SPLの物理的音圧レベルの音を聞こえるようにするためには、(a) の静かな環境が必要となる。
そこで、ゲイン制御部10は、このような人間の聴覚特性に従って、推定オーディオ信号ALと推定ノイズ音信号NLを加算した環境音信号ELが示す環境音下で、推定発話音声信号SLが表す発話音声が常に、一定のラウドネスでユーザに聞こえるように、出力調整アンプ22のゲインを制御する。すなわち、推定発話音声信号SLのレベルの大きさに応じて、出力調整アンプ22のゲインを変化させることにより環境音量を変化させる。なお、このようなゲインの制御のために、推定発話音声信号SLのレベルの各値と、その値のレベルの推定発話音声信号SLが表す発話音声が、所定のラウドネスでユーザに聞こえるようになる環境音信号ELのレベルの値の対応を示すテーブルを、あらかじめゲイン制御部10に設定しておく。そして、ゲイン制御部10は、トークスイッチ11がオンである期間、入力する推定発話音声信号SLのレベルにテーブルにおいて対応づけられている環境音信号ELのレベルの値から、入力する推定ノイズ音信号NLのレベルの値を減算した値に、入力する推定オーディオ信号ALのレベルの値が変化するように、出力調整アンプ22のゲインを制御する。
以上、本発明の実施形態を説明した。
ところで、以上の実施形態におけるゲイン制御は、人間のラウドネス特性を考慮せずに、単純に、推定オーディオ信号ALと推定ノイズ音信号NLを加算した環境音信号ELと、推定発話音声信号SLの比が予め定めた比率となるように出力調整アンプ22のゲインを制御することにより行うようにしてもよい。または、推定オーディオ信号ALと推定ノイズ音信号NLを加算した環境音信号ELと、推定発話音声信号SLの差が予め定めた値以上となるように出力調整アンプ22のゲインを制御することにより行うようにしてもよい。また、以上の実施形態におけるゲイン制御では、発話音声抽出部7から入力する推定オーディオ信号AL、推定ノイズ音信号NL、推定発話音声信号SLに代えて、推定オーディオ信号AL、推定ノイズ音信号NL、推定発話音声信号SLにそれぞれ適当な重み付けを与えた値であるa×推定オーディオ信号AL、b×推定ノイズ音信号NL、c×推定発話音声信号SLを用いるようにしてもよい。
また、以上の実施形態は、ゲイン制御部10におけるゲイン制御において、推定発話音声信号SLに代えて固定値を用いるようにしてもよい。すなわち、人間の発話音のレベルの平均は63dBAから66dBAであるので、たとえば、ユーザが63dBAで発話したときにA/D変換器6の出力に含まれることになる発話音声信号成分のレベルを、固定的に、推定発話音声信号SLのレベルに代えて用いて、以上のゲイン制御を行うようにしてもよい。
また、以上の実施形態は、ゲイン制御部10におけるゲイン制御において、推定ノイズ音信号NLに代えて、あらかじめ設定した固定値を用いるようにしてもよい。すなわち、その車両でおおよそ生じ得る平均または最大ノイズが発生したときに、A/D変換器6の出力に含まれることになるノイズ音信号成分のレベルを、固定的に、推定ノイズ音信号NLのレベルに代えて用いて、以上のゲイン制御を行うようにしてもよい。
以上のように本実施形態によれば、ゲイン制御部10のゲインの制御によって、ユーザが小さな声で発話しても大きな声で発話しても、環境音が発話の妨げになる度合を同様な程度とすることができるようになる。また、これにより、ユーザの発話の大きさにかかわらず、ユーザの発話の妨げにならない程度に、大きな音量でオーディオ信号をユーザに聞かせることができるようになる。また、このように発話音声信号のレベルが小さい程オーディオ信号成分のレベルが小さくなるようにすることによって、ユーザの発話の大きさにかかわらず、良好な音声認識の精度を確保することができるようになる。
ところで、以上の実施形態におけるゲイン制御部10におけるゲイン制御は、図4に示すゲイン制御処理によって行うようにしてもよい。
図示するように、この処理では、ユーザによる音声入力の開始を監視する(ステップ402)。音声入力の開始判定は、トークスイッチ11がオン状態に操作されたときに音声入力が開始されたと判定することにより行う。
そして、ユーザによる音声入力が開始されたならば、推定ノイズ音信号NLの大きさが65dBA未満であるかどうかを調べる(ステップ404)。そして、推定ノイズ音信号NLの大きさが65dBA以上であれば、推定オーディオ信号ALの大きさが45dBAとなるように、出力調整アンプ22のゲインを制御し(ステップ412)、ステップ408に進む。
一方、推定ノイズ音信号NLの大きさが65dBA未満であれば(ステップ406)、推定オーディオ信号ALと推定ノイズ音信号NLを加算した推定環境音信号ELの大きさが65dBAとなるように、出力調整アンプ22のゲインを制御し(ステップ406)、ステップ408に進む。
ステップ408では、ユーザによる音声入力が終了しているかどうかを調べ、音声入力が終了していなければステップ404からの処理に戻る。一方、音声入力が終了していれば、出力調整アンプ22のゲインを、音声入力の開始を検出した後に最初にゲインをステップ406またはステップ412で変更する前の値に復帰した上で(ステップ410)、ステップ402に戻り、次のユーザによる音声入力の開始を待つ。なお、音声入力の終了判定は、トークスイッチ11がオフ状態に操作されたときに音声入力が終了したと判定することにより行う。
さて、このようなゲイン制御処理によれば、音声入力中、推定ノイズ音信号NLの大きさが65dBA未満のときは、推定オーディオ信号ALと推定ノイズ音信号NLを加算した推定環境音信号ELの大きさが65dBAとなるように出力調整アンプ22のゲインが制御される。
ここで図5に、文章了解度と背景騒音の関係を表したグラフを示す。このグラフは、米国 EPA(US Environmental Protection Agency)が提唱している、話者と聞き手の距離が1mのときの定常的な背景騒音に対する文章了解度(話者が話した文章の聞き手の了解度)の値を示すものである(US Environmental Protection Agency: Information on levels of environmental noise requisite to protect public health and welfare with adequate margin of safety. 550/9-74-004, 1974)。
図示するように、このグラフによれば、背景騒音レベルが65dBAのとき、聞き手の文章了解度は約95%となる。したがって、このようなゲイン制御処理によれば、推定ノイズ音信号NLの大きさが65dBA未満のときは、推定環境音信号ELの大きさとして推定される、オーディオソース機器1の出力音と周辺のノイズ音とよりなる音声入力の環境音(背景騒音)を65dBA未満に抑え、文章了解度が約95%以上となる、ユーザの発話や音声認識にとって充分に良好な騒音環境を実現することができる。
また、図5に示したグラフによれば、推定ノイズ音信号NLの大きさが45dBA以下である場合には、聞き手の文章了解度は、ほぼ100%となる。したがって、このようなゲイン制御処理によれば、推定ノイズ音信号NLの大きさが65dBA以上のときは、推定オーディオ信号ALの大きさから推定される、オーディオソース機器1の出力音を、ユーザの発話や文章了解度に与える悪影響が充分に小さくなるレベル(45dBA)に設定することができる。
ただし、以上のゲイン制御処理では、65dBAをしきい値として、推定ノイズ音信号NLの大きさがしきい値未満のときに、推定環境音信号ELのレベルがしきい値となるように出力調整アンプ22のゲインを調整し、推定ノイズ音信号NLの大きさがしきい値以上のときに、推定オーディオ信号ALが45dBAとなるように出力調整アンプ22のゲインを調整したが、このしきい値は、必ずしも65dBAとしなくともよい。ユーザや、実際の環境によっては、オーディオソース機器1の出力音が比較的大きくても支障が生じない場合もあるからである。ただし、このしきい値は、望ましくは、55dBAから70dBAの間に値とすることが好ましい。このようにすることにより、オーディオソース機器1の出力音をユーザがある程度の音量で視聴できるレベルに維持しつつ、最低でも文章了解度が約60%以上となる比較的良好な騒音環境を確保することができる。また、図5のグラフより理解されるように、背景騒音レベルの増加に対する文章了解度の減少率の変化率は、約67dBAの背景騒音レベルでピーク値をとる。そして、約67dBを超えると、背景騒音レベルの増加に対する文章了解度の減少率は急激に増加する。したがって、この約67dBA近傍の約67dBA未満の値、たとえば、65dAから69dBAの間の値をしきい値として選択することも、オーディオソース機器1の出力音のレベルの低下を押さえつつ、ユーザの発話や音声認識に影響を与える騒音環境を向上する上で効率的である。
また、このようなしきい値は、実際の利用状況に応じて、ユーザが任意に変更、調整できるようにすることも好ましい。
以上説明したゲイン制御処理によれば、ノイズ音とオーディオソース機器1の出力音よりなる環境音(背景騒音)のレベルを所望のレベルとすることができる。したがって、周辺のノイズ音のレベルによらずに、環境音を、発話の妨げにならないレベルに抑制することができると共に、ユーザの発話の妨げにならない程度に、大きな音量でオーディオ信号をユーザに聞かせることができる。また、ノイズ音のレベルによらずに、良好な音声処理の精度を確保することができるようになる。よって、ユーザの音声入力時の音響環境を向上することができるようになる。
ところで、以上の実施形態は、出力調整アンプ22をイコライザ機能を備えた出力調整アンプ22とした場合には、出力調整アンプ22におけるゲインの調整を、周波数帯域ごとに行うようにしてもよい。なお、この場合に、人間のラウドネス特性を考慮したゲイン制御をおこなうときには、周波数帯域ごとに、以上の処理を行って、周波数帯域ごとに出力調整アンプ22におけるゲイン量を定める。
なお、以上では、音声認識を行う装置への適用を例にとり説明したが、本実施形態に係るオーディオソース機器1の出力音のゲイン調整の技術は、入力音声を処理する任意の音声処理装置に同様に適用可能である。すなわち、たとえば、図1における音声認識装置に代えて発話音声抽出部7から入力音声を通信網に送信する音声送信部を備えて、音声通信装置を構成したりすることができる。
本発明の実施形態に係る音声入力装置の構成を示すブロック図である。 本発明の実施形態に係る発話音声抽出部の構成を示すブロック図である。 騒音下での人間の聴覚特性を示す図である。 本発明の実施形態に係るゲイン制御処理を示すフローチャートである。 文章了解度と背景騒音の関係を表した図である。 従来の音声入力装置の構成を示すブロック図である。
符号の説明
1…オーディオソース機器、2…オーディオアンプ、3…スピーカ、4…マイク、5…入力アンプ、6…A/D変換器、7…発話音声抽出部、8…音声認識装置、9…樹方処理装置、10…ゲイン制御部、11…トークスイッチ、12…オーディオ操作部、21…ボリューム調整アンプ、22…出力調整アンプ、71…学習制御部、72…係数更新部、73…フィルタ、74…第1加算器、75…ノイズ音推定部、76…第2加算器。

Claims (10)

  1. オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号に基づいてオーディオ音声を出力するスピーカと併用される音声処理装置であって、
    オーディオ機器がスピーカに出力するオーディオ信号を増幅する出力調整アンプと、
    周辺音をピックアップするマイクと、
    前記マイクが出力する信号であるマイク出力信号から当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出する発話音声信号抽出手段と、
    前記発話音声信号抽出手段が抽出した発話音声信号を対象として所定の音声処理を行う音声処理手段と、
    前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさに基づいて、前記出力調整アンプのゲインを調整するゲイン制御手段とを有することを特徴とする音声処理装置。
  2. 請求項1記載の音声処理装置であって、
    前記発話音声抽出部は、オーディオ機器が出力するオーディオ信号と、前記マイク出力信号とに基づいて、前記マイク出力信号中の、当該入力音声に一成分として含まれるオーディオ信号成分を推定し、推定したオーディオ信号成分を、当該マイク出力信号よりキャンセルすることにより、当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出し、
    前記ゲイン制御手段は、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさと、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルの大きさとが所定の関係となるように、前記出力調整アンプのゲインを調整することを特徴とする音声処理装置。
  3. 請求項1記載の音声処理装置であって、
    前記発話音声抽出部は、オーディオ機器が出力するオーディオ信号と、前記マイク出力信号とに基づいて、前記マイク出力信号中の、当該マイク出力信号に一成分として含まれるオーディオ信号成分を推定すると共に、前記マイク出力信号中の、当該マイク出力信号に一成分として含まれるノイズ音成分を推定し、推定したオーディオ信号成分とノイズ成分を、当該マイク出力信号よりキャンセルすることにより、当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出し、
    前記ゲイン制御手段は、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさと、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルの大きさとの関係が所定の関係となるように、前記出力調整アンプのゲインを調整することを特徴とする音声処理装置。
  4. 請求項1、2または3記載の音声処理装置であって、
    前記所定の関係は、少なくとも発話音声信号のレベルが小さい程オーディオ信号成分のレベルが小さくなる関係であることを特徴とする音声処理装置。
  5. 請求項1、2または3記載の音声処理装置であって、
    前記ゲイン制御手段は、前記発話音声信号抽出手段が抽出した発話音声信号が表す発話音声が、ユーザに等しいラウドネスで聞こえるように、前記出力調整アンプのゲインを調整することを特徴とする音声処理装置。
  6. オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号に基づいてオーディオ音声を出力するスピーカと併用される音声処理装置であって、
    オーディオ機器がスピーカに出力するオーディオ信号を増幅する出力調整アンプと、
    周辺音をピックアップするマイクと、
    前記マイクが出力する信号であるマイク出力信号から当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出する発話音声信号抽出手段と、
    前記発話音声信号抽出手段が抽出した発話音声信号を対象として所定の音声処理を行う音声処理手段と、
    前記出力調整アンプのゲインを調整するゲイン制御手段とを有し、
    前記発話音声抽出部は、オーディオ機器が出力するオーディオ信号と、前記マイク出力信号とに基づいて、前記マイク出力信号中の、当該マイク出力信号に一成分として含まれるオーディオ信号成分を推定すると共に、前記マイク出力信号中の、当該マイク出力信号に一成分として含まれるノイズ音成分を推定し、推定したオーディオ信号成分とノイズ成分を、当該マイク出力信号よりキャンセルすることにより、当該マイク出力信号に一成分として含まれるユーザの発話音声信号を抽出し、
    前記ゲイン制御手段は、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルが所定のレベルとなるように、前記出力調整アンプのゲインを調整することを特徴とする音声処理装置。
  7. 請求項6記載の音声処理装置であって、
    前記ゲイン制御手段は、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルが所定のしきい値未満のレベルである場合に、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルが前記しきい値と等しいレベルとなるように、前記出力調整アンプのゲインを調整し、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルとノイズ成分のレベルとを加算したレベルが前記しきい値以上のレベルである場合に、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルが前記しきい値よりも小さい所定のレベルとなるように、前記出力調整アンプのゲインを調整することを特徴とする音声処理装置。
  8. 請求項7記載の音声処理装置であって、
    前記しきい値の値は、55dBA以上70dBA以下の値であることを特徴とする音声処理装置。
  9. 請求項8記載の音声処理装置であって、
    前記しきい値の値は、65dBA以上69dBA以下の値であることを特徴とする音声処理装置。
  10. 請求項1、2、3、4、5、6、7、8または9記載の音声処理装置であって、
    前記音声処理手段は、前記所定の音声処理として、前記発話音声信号抽出手段が抽出した発話音声信号を対象とする音声認識処理を行うことを特徴とする音声処理装置。
JP2005211469A 2004-12-14 2005-07-21 音声処理装置 Active JP4722607B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005211469A JP4722607B2 (ja) 2004-12-14 2005-07-21 音声処理装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2004360902 2004-12-14
JP2004360902 2004-12-14
JP2005211469A JP4722607B2 (ja) 2004-12-14 2005-07-21 音声処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2010232649A Division JP5188558B2 (ja) 2004-12-14 2010-10-15 音声処理装置

Publications (2)

Publication Number Publication Date
JP2006195411A true JP2006195411A (ja) 2006-07-27
JP4722607B2 JP4722607B2 (ja) 2011-07-13

Family

ID=36801520

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005211469A Active JP4722607B2 (ja) 2004-12-14 2005-07-21 音声処理装置

Country Status (1)

Country Link
JP (1) JP4722607B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011152920A1 (en) * 2010-06-03 2011-12-08 Johnson Controls Technology Company Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6180997A (ja) * 1984-09-27 1986-04-24 Nec Corp 音量調節器付き拡声装置
JP2000059881A (ja) * 1998-08-05 2000-02-25 Yamaha Corp 音声再生装置および通信会議装置
JP2001236090A (ja) * 2000-02-22 2001-08-31 Alpine Electronics Inc 音声入力装置
JP2003202896A (ja) * 2002-01-07 2003-07-18 Denso Corp 車両用空調装置および車両用オーディオ装置
JP2003249996A (ja) * 2002-02-25 2003-09-05 Kobe Steel Ltd 音声信号入出力装置
JP2003264627A (ja) * 2002-03-11 2003-09-19 Alpine Electronics Inc 通話音声処理装置
JP2004187165A (ja) * 2002-12-05 2004-07-02 Alpine Electronics Inc 音声通信装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0536500U (ja) * 1991-10-18 1993-05-18 株式会社ケンウツド 車載用音響機器の音声認識装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6180997A (ja) * 1984-09-27 1986-04-24 Nec Corp 音量調節器付き拡声装置
JP2000059881A (ja) * 1998-08-05 2000-02-25 Yamaha Corp 音声再生装置および通信会議装置
JP2001236090A (ja) * 2000-02-22 2001-08-31 Alpine Electronics Inc 音声入力装置
JP2003202896A (ja) * 2002-01-07 2003-07-18 Denso Corp 車両用空調装置および車両用オーディオ装置
JP2003249996A (ja) * 2002-02-25 2003-09-05 Kobe Steel Ltd 音声信号入出力装置
JP2003264627A (ja) * 2002-03-11 2003-09-19 Alpine Electronics Inc 通話音声処理装置
JP2004187165A (ja) * 2002-12-05 2004-07-02 Alpine Electronics Inc 音声通信装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011152920A1 (en) * 2010-06-03 2011-12-08 Johnson Controls Technology Company Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system
CN102906811A (zh) * 2010-06-03 2013-01-30 约翰逊控制技术公司 用于调节包括扬声器和麦克风的语音识别系统的方法及语音识别系统
CN102906811B (zh) * 2010-06-03 2014-08-20 约翰逊控制技术公司 用于调节包括扬声器和麦克风的语音识别系统的方法及语音识别系统
US10115392B2 (en) 2010-06-03 2018-10-30 Visteon Global Technologies, Inc. Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system

Also Published As

Publication number Publication date
JP4722607B2 (ja) 2011-07-13

Similar Documents

Publication Publication Date Title
CN106664473B (zh) 信息处理装置、信息处理方法和程序
US10726859B2 (en) Method of and system for noise suppression
JP6374529B2 (ja) ヘッドセットと音源との間のオーディオの協調的処理
US8897457B2 (en) Method and device for acoustic management control of multiple microphones
EP2081405B1 (en) A hearing aid adapted to a specific type of voice in an acoustical environment, a method and use
JP6325686B2 (ja) ヘッドセットと音源との間のオーディオの協調的処理
JP3329519B2 (ja) ユーザ制御フィードバック除去機能を備えた視覚補助装置
JP2016051038A (ja) ノイズゲート装置
EP3777114B1 (en) Dynamically adjustable sidetone generation
JP5188558B2 (ja) 音声処理装置
JPH0968997A (ja) 音声処理方法及び装置
JP4722607B2 (ja) 音声処理装置
JP2006333396A (ja) 音声信号拡声装置
CN113473345B (zh) 一种穿戴设备辅听控制方法、装置、系统及可读存储介质
JP3822397B2 (ja) 音声入出力方式
KR101602298B1 (ko) 음량측정기를 이용한 오디오시스템
JP2008102551A (ja) 音声信号の処理装置およびその処理方法
JP4999267B2 (ja) 音声入力装置
JP4527654B2 (ja) 音声通信装置
JP5105912B2 (ja) 音声明瞭度改善装置およびその騒音レベル推定方法
JP2001236090A (ja) 音声入力装置
JP4313294B2 (ja) 音声出力装置
JP4495581B2 (ja) 音声出力装置
JP3596580B2 (ja) 音声信号の処理回路
JP4079478B2 (ja) 音声信号の処理回路および処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110405

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110406

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4722607

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150