JP4999267B2 - 音声入力装置 - Google Patents
音声入力装置 Download PDFInfo
- Publication number
- JP4999267B2 JP4999267B2 JP2004360901A JP2004360901A JP4999267B2 JP 4999267 B2 JP4999267 B2 JP 4999267B2 JP 2004360901 A JP2004360901 A JP 2004360901A JP 2004360901 A JP2004360901 A JP 2004360901A JP 4999267 B2 JP4999267 B2 JP 4999267B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- output
- audio
- input
- converter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
図中において、ラジオ受信機やCDプレイヤなどであるオーディオ機器402から出力されたオーディオ信号は、オーディオアンプ403の出力アンプ4031で、オーディオ操作部401を介してユーザから指定されたゲインで増幅されスピーカ404から出力される。
図4bに、このような音声入力装置の構成を示す。
図中において、オーディオ機器412から出力されたオーディオ信号は、オーディオアンプ413の出力調整アンプ4131で増幅されスピーカ414から出力される。
スピーカ414から出力されたオーディオ音A及びユーザの発話音声Sは、マイク415に入力し電気信号となる。マイク415の出力信号は入力アンプ416で増幅された後A/D変換器417でデジタル信号に変換されて発話音声抽出部418に入力する。発話音声抽出部418は、オーディオ機器412の出力オーディオ信号を参照して、A/D変換器417の出力するデジタル信号からオーディオ信号成分をキャンセルし、オーディオ信号成分をキャンセル後のデジタル信号を音声認識装置419に入力する。音声認識装置419は、入力するデジタル信号に対して音声認識処理を行ってユーザの発話の内容を認識し、認識結果を情報処理装置420に入力する。情報処理装置420は、入力する音声認識装置の認識結果に応じた処理を行う。
すなわち、この音声入力装置によれば、スピーカ414に出力されるオーディオ信号が所定のレベル以下となるように出力調整アンプ4131のゲインを調整するが、音声認識の妨げとならない範囲で、できるだけユーザがオーディオ信号を良好に聞くことができるように、スピーカ414から出力されるオーディオ音のレベルを制御することができない。
そこで、本発明は、音声入力装置において、ユーザのオーディオ音の聞き取りをできるだけ妨げないようにしつつ、音声認識の精度をより向上することを課題とする。
図1に、音声入力装置の構成を示す。
図示するように音声入力装置は、ラジオ受信機やCDプレイヤなどであるオーディオ機器1、オーディオアンプ2、スピーカ3、マイク4、入力調整アンプ5、A/D変換器6、発話音声抽出部7、音声認識装置8、情報処理装置9、ゲイン制御部10、トークスイッチ11、オーディオ操作部12を備えている。
このような構成において、オーディオ機器1から出力されたオーディオ信号は、オーディオアンプ2で増幅され、スピーカ404から出力される。
スピーカ3から出力されたオーディオ音A1及びユーザの発話音声Sは、マイク4から入力し、入力調整アンプ5で増幅された後A/D変換器6でデジタル信号に変換され、発話音声抽出部7に入力する。発話音声抽出部7は、オーディオ機器1の出力するオーディオ信号Aを参照して、A/D変換器6の出力するデジタル信号からオーディオ信号成分をキャンセルし、オーディオ信号成分をキャンセル後のデジタル信号を音声認識装置8に入力する。音声認識装置8は、入力するデジタル信号に対して音声認識処理を行ってユーザの発話の内容を認識し、認識結果を情報処理装置9に入力する。情報処理装置9は、入力する音声認識装置8の認識結果に応じた処理を行う。
また、以上の動作中において、オーディオアンプ2の、ボリューム調整アンプ21は、オーディオ操作部12を介してユーザから指定されたゲインで、オーディオ機器1から入力するオーディオ信号A1を増幅し、出力調整アンプ22に出力する。
また、オーディオアンプ2の、出力調整アンプ22は、ゲイン制御部10から指定されたゲインで、ボリューム調整アンプ21から入力するオーディオ信号を増幅し、スピーカ3に出力する。そして、入力調整アンプ5も、ゲイン制御部10から指定されたゲインで、マイク4から入力する入力音声信号を増幅し、A/D変換器6に出力する。なお、ゲイン制御部10の、出力調整アンプ22、入力調整アンプ5のゲイン制御の動作については後述する。
図示するように、発話音声抽出部7は、学習制御部71、係数更新部72、適応フィルタ73、加算器74より構成される。
フィルタ73は、オーディオ機器1の出力からA/D変換器6の出力までのオーディオ信号の伝達系のインパルス応答を模擬するフィルタであり、このフィルタ73のインパルス応答を算出、更新するのが係数更新部72であり、フィルタ73と係数更新部72とで適応フィルタを構成している。係数更新部72は、LMS(平均二乗誤差)アルゴリズムやNLMS(正規化平均二乗誤差)アルゴリズムなどにより、加算器74が出力する、A/D変換器6の出力とフィルタ73の出力との差分信号のパワーが最小となるようにフィルタ73のフィルタ係数xjを算出し、フィルタ73に設定する処理を繰り返す。
図3に、ゲイン制御部10が行うゲイン調整処理の手順を示す。なお、このゲイン調整処理は、音声入力装置が起動されたときに起動され、処理を開始する。
図示するように、この処理では、まず、トークスイッチ11がオンかどうかを調べる(ステップ302)。そして、トークスイッチ11がオフであれば、出力調整アンプ22のゲインを1に設定する(ステップ314)と共に、入力調整アンプ5のゲインを、A/D変換器6の出力するデジタル信号のダイナミックレンジと、A/D変換器6の出力可能な最大ダイナミックレンジとの比率が、1-Δ:1となるように設定する(ステップ316)。ここで、Δは、A/D変換器6に入力する入力音声信号のレベルが、A/D変換器6の入力レンジを超えてしまわないように設定したマージンであり、たとえば、0.05である。
一方、ステップ304で、初めてトークスイッチ11がオンとなったのではないと判定された場合には、まず、出力調整アンプ22のゲインを、推定オーディオ信号のダイナミックレンジを入力調整アンプ5のゲインで除した値が、記憶しておいた入力発話音声レベルのうちの最小の値よりも小さくなるように設定する(ステップ306)。
以上のようなゲイン調整処理によれば、ユーザがトークスイッチ11をオンとして発話を行う期間には、以上の入力調整アンプ5のゲインの調整(ステップ308、320)により、推定発話音声信号の大きさが、確実にA/D変換器6の出力可能な最大ダイナミックレンジの1/2となるようにすることができる。すなわち、A/D変換器6に入力する入力音声信号中の発話音声信号成分を、A/D変換器6の入力レンジの1/2のレベルとすることができる。一方で、以上の出力調整アンプ22のゲインの設定(ステップ306、318)によって、A/D変換器6に入力する入力音声信号中のオーディオ信号成分のレベルの大きさは、同入力音声信号中の発話音声信号成分のレベルの大きさ(A/D変換器6の入力レンジの1/2)より小さくなるように設定されるので、A/D変換器6に入力する信号のレベルが、A/D変換器6の入力レンジを超えてしまうことを抑制することができる。
以上のように、本実施形態によれば、音声認識装置8で音声認識の処理に対象となる推定発話音声信号の大きさを、A/D変換器6の出力可能な最大ダイナミックレンジの1/2となるようにすることができる。すなわち、A/D変換器6に入力する入力音声信号中の発話音声信号成分を、A/D変換器6の入力レンジの1/2のレベルとすることができる。一方で、A/D変換器6に入力する入力音声信号中のオーディオ信号成分の大きさを、同入力音声信号中の発話音声信号成分より小さくなるように制御するので、A/D変換器6に入力する入力音声信号のレベルが、A/D変換器6の入力レンジを超えてしまうことも抑制される。
Claims (5)
- オーディオ信号を出力するオーディオ機器と、オーディオ機器が出力するオーディオ信号に基づくオーディオ音を出力するスピーカと併用される音声入力装置であって、
前記スピーカから出力されるオーディオ音とユーザの発話音声をピックアップするマイクと、
マイクから出力された信号を増幅する入力調整アンプと、
前記入力調整アンプで増幅された信号を、デジタル信号に変換するA/D変換器と、
前記A/D変換器の出力するデジタル信号であるA/D変換器出力信号から当該A/D変換器出力信号の一成分であるユーザの発話音声信号を抽出する発話音声信号抽出手段と、
前記発話音声信号抽出手段が抽出した発話音声信号を対象として音声認識処理を行う音声認識処理手段と、
前記発話音声信号抽出手段が抽出した発話音声信号の大きさに基づいて、前記入力調整アンプのゲインを、前記A/D変換器出力信号中において、発話音声信号成分が所定の大きさのレベルを有するように調整するゲイン制御手段と、
オーディオ機器がスピーカに出力するオーディオ信号を増幅する出力調整アンプとを有し、
前記ゲイン制御手段は、少なくとも前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさに基づいて、前記出力調整アンプのゲインを、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように制御することを特徴とする音声入力装置。 - 請求項1記載の音声入力装置であって、
前記ゲイン制御手段は、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさとオーディオ機器が出力するオーディオ信号のレベルの大きさとに基づいて、前記出力調整アンプのゲインを、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように制御することを特徴とする音声入力装置。 - 請求項1記載の音声入力装置であって、
前記発話音声抽出手段は、オーディオ機器が出力するオーディオ信号と、前記A/D変換器出力信号とに基づいて、前記A/D変換器出力信号中の、当該A/D変換器出力信号の一成分であるオーディオ信号成分を推定し、推定したオーディオ信号成分を、当該A/D変換器出力信号よりキャンセルすることにより、当該A/D変換器出力信号の一成分であるユーザの発話音声信号を抽出し、
前記ゲイン制御手段は、前記発話音声信号抽出手段が抽出した発話音声信号のレベルの大きさと、前記発話音声信号抽出手段が推定したオーディオ信号成分のレベルの大きさとに基づいて、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように, 前記出力調整アンプのゲインを制御することを特徴とする音声入力装置。 - 請求項1記載の音声入力装置であって、
前記発話音声信号抽出手段が抽出した発話音声信号の大きさより、前記マイクから出力される信号中の発話音声信号成分のレベルの現在までの最小値を算出する最小発話音声レベル算出手段を有し、
前記ゲイン制御手段は、前記出力調整アンプのゲインを、前記マイクから出力される信号中の発話音声信号成分のレベルの大きさが、前記最小発話音声レベル算出手段が算出した最小値と等しい大きさである場合にも、前記入力調整アンプで増幅された信号のレベルが前記A/D変換器の入力レンジを超えないように、前記出力調整アンプのゲインを制御することを特徴とする音声入力装置。 - 請求項1記載の音声入力装置であって、
前記発話音声抽出手段は、オーディオ機器が出力するオーディオ信号と、前記A/D変換器出力信号とに基づいて、オーディオ機器の出力を入力とし前記A/D変換器の出力を出力とする系の伝達関数を推定し、オーディオ機器が出力するオーディオ信号と推定した伝達関数に基づいて前記A/D変換器出力信号中の、当該A/D変換器出力信号の一成分であるオーディオ信号成分を算定し、算定したオーディオ信号成分を、当該A/D変換器出力信号よりキャンセルすることにより、当該A/D変換器出力信号の一成分であるユーザの発話音声信号を抽出し、
前記ゲイン制御手段は、ユーザが音声入力を行わない期間に、前記出力アンプのゲインを所定値に設定すると共に、前記A/D変換器出力信号中において、当該A/D変換器出力信号の一成分であるオーディオ信号成分が所定の大きさのレベルを有するように入力調整アンプを調整することを特徴とする音声入力装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004360901A JP4999267B2 (ja) | 2004-12-14 | 2004-12-14 | 音声入力装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004360901A JP4999267B2 (ja) | 2004-12-14 | 2004-12-14 | 音声入力装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006171152A JP2006171152A (ja) | 2006-06-29 |
JP4999267B2 true JP4999267B2 (ja) | 2012-08-15 |
Family
ID=36672014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004360901A Active JP4999267B2 (ja) | 2004-12-14 | 2004-12-14 | 音声入力装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4999267B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11538479B2 (en) | 2020-03-30 | 2022-12-27 | Samsung Electronics Co., Ltd. | Digital microphone interface circuit for voice recognition and including the same |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10115392B2 (en) * | 2010-06-03 | 2018-10-30 | Visteon Global Technologies, Inc. | Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system |
JP5457293B2 (ja) * | 2010-07-14 | 2014-04-02 | アルパイン株式会社 | 音声認識装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3268408B2 (ja) * | 1993-12-15 | 2002-03-25 | 長野日本無線株式会社 | 音声検出装置 |
JPH08278796A (ja) * | 1995-04-10 | 1996-10-22 | Fujitsu Ten Ltd | 音声処理装置 |
JP2002041073A (ja) * | 2000-07-31 | 2002-02-08 | Alpine Electronics Inc | 音声認識装置 |
JP2003345387A (ja) * | 2002-05-23 | 2003-12-03 | Matsushita Electric Ind Co Ltd | 音声制御装置および音響装置 |
-
2004
- 2004-12-14 JP JP2004360901A patent/JP4999267B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11538479B2 (en) | 2020-03-30 | 2022-12-27 | Samsung Electronics Co., Ltd. | Digital microphone interface circuit for voice recognition and including the same |
Also Published As
Publication number | Publication date |
---|---|
JP2006171152A (ja) | 2006-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4333369B2 (ja) | 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置 | |
EP2081405B1 (en) | A hearing aid adapted to a specific type of voice in an acoustical environment, a method and use | |
EP2592546B1 (en) | Automatic Gain Control in a multi-talker audio system | |
US20070126503A1 (en) | Audio processing system and method for automatically adjusting volume | |
JP2005084253A (ja) | 音響処理装置、方法、プログラム及び記憶媒体 | |
JP5251808B2 (ja) | 雑音除去装置 | |
US9972338B2 (en) | Noise suppression device and noise suppression method | |
US9214163B2 (en) | Speech processing apparatus and method | |
CN113555033B (zh) | 语音交互系统的自动增益控制方法、装置及系统 | |
JP4999267B2 (ja) | 音声入力装置 | |
JP5188558B2 (ja) | 音声処理装置 | |
JP4381291B2 (ja) | 車載用オーディオ装置 | |
JP2012022127A (ja) | 音声認識装置 | |
CN113473345B (zh) | 一种穿戴设备辅听控制方法、装置、系统及可读存储介质 | |
JP2001236090A (ja) | 音声入力装置 | |
JP5105912B2 (ja) | 音声明瞭度改善装置およびその騒音レベル推定方法 | |
JP2008102551A (ja) | 音声信号の処理装置およびその処理方法 | |
JP4527654B2 (ja) | 音声通信装置 | |
KR20180126926A (ko) | 바지-인 음성 인식을 위한 신호 처리 장치 및 방법 | |
JP4722607B2 (ja) | 音声処理装置 | |
JP4313294B2 (ja) | 音声出力装置 | |
JP2005157086A (ja) | 音声認識装置 | |
JP2010239458A (ja) | 音量調整装置、方法、プログラム及び記録媒体 | |
JP4079478B2 (ja) | 音声信号の処理回路および処理方法 | |
JP3596580B2 (ja) | 音声信号の処理回路 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070727 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100405 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100413 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110426 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110510 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20110729 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120515 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4999267 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150525 Year of fee payment: 3 |