JP4209247B2 - 音声認識装置および方法 - Google Patents
音声認識装置および方法 Download PDFInfo
- Publication number
- JP4209247B2 JP4209247B2 JP2003127378A JP2003127378A JP4209247B2 JP 4209247 B2 JP4209247 B2 JP 4209247B2 JP 2003127378 A JP2003127378 A JP 2003127378A JP 2003127378 A JP2003127378 A JP 2003127378A JP 4209247 B2 JP4209247 B2 JP 4209247B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- talkback
- speaker
- voice
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 35
- 230000003044 adaptive effect Effects 0.000 claims description 75
- 230000008569 process Effects 0.000 claims description 22
- 230000005540 biological transmission Effects 0.000 claims description 13
- 238000004088 simulation Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 7
- 230000006872 improvement Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims 7
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Description
【発明の属する技術分野】
本発明は、ユーザが発声した音声コマンドを認識して機器の制御を行うための音声認識装置および方法に関し、特に、認識した発話音声をユーザにフィードバックするトークバック機能を有する音声認識装置に用いて好適なものである。
【0002】
【従来の技術】
従来、例えば車両に搭載されるナビゲーション装置やハンズフリー装置、あるいはパーソナルコンピュータ(パソコン)等の分野において、リモコンやタッチパネルあるいはキーボードやマウスに加え、音声認識装置を用いることにより、ユーザの音声入力により機器の操作をすることが可能である。
【0003】
この種の音声認識装置では、備え付けの発話ボタンを押すことで音声認識モードとなり、ユーザの発話音声を認識してコマンドを実行する。発話方法には主に2つの方法がある。第1の方法は、ユーザが発話ボタンを一度押すと音声認識モードになり、必要に応じて機器からユーザに音声入力を促すことで、ユーザと機器とが対話的にやり取りを行う方法である。第2の方法は、ユーザが発話ボタンを押すたびに所定時間だけ音声入力が可能となる方法である。
【0004】
音声認識装置の殆どは、認識した発話音声をスピーカ等からユーザにフィードバックするトークバック機能を有している。ユーザは、トークバックされた音声を聞いて正しいかどうか確認し、間違っていれば音声入力をやり直し、正しければその旨を音声認識装置に指示する。音声認識装置はこの指示を受けることによって各種制御を実行するようになっている。
【0005】
通常、音声認識装置に用意されている複数の音声コマンドは、制御対象の機器に対する操作内容に応じて複数の階層に分けて管理されている。例えば、ナビゲーション装置において住所で目的地を設定する場合は、「都道府県→市区町村→住所の残り」のように、住所を複数階層に分けて音声入力する。
【0006】
この場合、各階層で音声入力をするたびにトークバックが行われるため、一連の音声入力が完了するまでには長い時間がかかることが多い。これに対して、音声の認識時間を短縮する試みが成されている。その一例として、トークバックの演算量を削減して認識時間の短縮を図った装置が提案されている(例えば、特許文献1参照)。
【0007】
【特許文献1】
特開平6−149287号公報
【0008】
【発明が解決しようとする課題】
しかしながら、従来の音声認識装置では、トークバックの最中は次の音声入力を受け付けない状態となる。トークバックの音声が発話音声に混ざると、発話音声の誤認識が発生しやすくなるからである。図4(a)は、従来の音声認識装置に関する音声入力受付状態の変化の様子を示したタイミングチャートである。なお、この図4(a)は、上述した第1の発話方法に関する音声入力受付状態の変化を示している。
【0009】
図4(a)に示すように、第1の発話方法では、ユーザが最初に発話ボタンを押すと音声認識モードになり、所定時間だけ音声入力受付状態となる。ユーザは、音声入力受付状態となっている間に所望の音声コマンドを発声する。発声が行われると、音声認識装置はその入力音声の認識処理およびトークバック処理を行うが、この間は音声入力を受け付けない状態となる。トークバックが終わると、再び音声入力受付状態となり、次の音声入力が可能となる。
【0010】
このように、第1の発話方法では、トークバックが終了するまでは次の音声入力を受け付けないため、ユーザの好きなタイミングで発声することができない。すなわち、トークバックを聞き終わるまでは待っていなければならないので、一連の音声入力をするのに長い時間がかかってしまうという問題があった。
【0011】
一方、第2の発話方法によれば、発話ボタンを押すことによってトークバックを中断し、次の音声入力を行うことも可能である。しかしながら、この場合は、複数階層に亘って音声入力を行う際に、各階層で音声入力を行う都度、発話ボタンを押さなければならず、操作が非常に煩雑になるという問題があった。
【0012】
本発明は、このような問題を解決するために成されたものであり、発話ボタンを何回も押すなどの煩雑な操作を行うことなく、音声認識の操作時間を短縮できるようにすることを目的とする。
【0013】
【課題を解決するための手段】
上記した課題を解決するために、本発明の音声認識装置では、スピーカから出力されてマイクに入力されるトークバック音声を適応フィルタ手段により模擬して、そのトークバック模擬音声をマイク入力音声から減算することにより、発話音声とトークバック音声とが混在しているマイク入力音声から発話音声だけを抽出するようにしている。
【0014】
上記のように構成した本発明によれば、トークバックが行われている最中に音声入力をしても、トークバック音声は除去され、発話音声だけが抽出されて音声認識エンジンに供給されることとなる。これにより、トークバック中に音声入力をしても発話音声の誤認識が生じる不都合を抑制でき、トークバック時においても音声入力を随時受け付けることが可能となる。
【0015】
【発明の実施の形態】
(第1の実施形態)
以下、本発明の第1の実施形態を図面に基づいて説明する。図1は、第1の実施形態による音声認識装置の要部構成を示すブロック図である。
【0016】
図1に示すように、本実施形態の音声認識装置100は、ボリューム又はイコライザ(以下、単にボリューム等と記す)1、ゲイン制御部2、出力アンプ3、適応フィルタ(ADF)4、減算器5、音声出力部51、スピーカ52、マイク53および音声認識エンジン54を備えて構成されている。
【0017】
音声出力部51は、トークバック音声を生成して出力する処理を行う。スピーカ52は、ボリューム等1でゲイン制御され更に出力アンプ3で増幅されたトークバック音声を出力する。マイク53は、発話音声入力用のものであるが、実際には、発声された音声コマンドだけでなく、スピーカ52から出力されるトークバック音声、走行ノイズなどの周辺ノイズも全て同じマイク53に入力される。音声認識エンジン54は、マイク入力された発話音声を認識して、その発話音声に対応するコマンドを図示しない制御対象の機器(例えば、ナビゲーション装置)に対して実行する。
【0018】
適応フィルタ4は、図2に示すように、係数同定部21および音声補正フィルタ22を含んで構成されている。係数同定部21は、スピーカ52からマイク53の間における音響系の伝達関数(音声補正フィルタ22のフィルタ係数)を同定するためのフィルタであり、LMS(Least Mean Square )アルゴリズムやN−LMS(Normalized-LMS)アルゴリズムによる適応フィルタが用いられている。この係数同定部21は、減算器5から出力される誤差e(n)のパワーが最小となるように動作して音響系のインパルス応答を同定する。
【0019】
音声補正フィルタ22は、係数同定部21により決定されたフィルタ係数w(n)と、制御対象となるトークバック音声x(n)とを用いて畳み込み演算することにより、トークバック音声x(n)に対して上述の音響系と同一の伝達特性を与える。これにより、マイク53の位置におけるトークバック音声を模擬したトークバック模擬音声y(n)を生成する。このように適応フィルタ4は、本発明の適応フィルタ手段を構成する。
【0020】
減算器5は、マイク53より入力された音声(音声コマンドとトークバックと周辺ノイズとが混在した音声)から、適応フィルタ4により生成されたトークバック模擬音声y(n)を減算することにより、音声コマンド(発話音声)と周辺ノイズ(例えば走行ノイズ)とを抽出する。このように減算器5は、本発明の発話音声抽出手段を構成する。
【0021】
この減算器5により抽出された発話音声と周辺ノイズとの混在音声は、音声認識エンジン54に供給される。音声認識エンジン54は、雑音処理を行った後、音声コマンドの認識処理を行う。この際の雑音処理とは、フィルタによる処理やスペクトラムサブストラクションなど、従来の代表される処理である。なお、減算器5により抽出された発話音声および周辺ノイズの混在音声は、誤差e(n)として適応フィルタ4の係数同定部21およびゲイン制御部2にもフィードバックされる。
【0022】
ゲイン制御部2は、適応フィルタ4から出力されるトークバック模擬音声y(n)と、減算器5から出力される発話音声および周辺ノイズの混在音声e(n)とに基づいて、音声出力部51から出力される制御対象のトークバック音声に対して加える最適のゲインを算出し、この算出されたゲイン値をボリューム等1に出力する。ここでは、発話音声および周辺ノイズの混在音声e(n)をトークバック音声に対するノイズとみなして、スピーカ52から出力されるトークバック音声がユーザに明瞭に聞こえるように、当該トークバック音声のゲイン調整を行う。
【0023】
ボリューム等1は、音声出力部51より出力されたトークバック音声に対してゲイン補正を行う。すなわち、音声出力部51から入力されるトークバック音声に対して、ゲイン制御部2により算出されたゲインを与えることにより、当該トークバック音声を補正する。この補正は、例えば、複数に分割された周波数帯域のそれぞれ毎に行う。
【0024】
次に、上記のように構成した音声認識装置100の動作を簡単に説明する。音声出力部51より出力されたトークバック音声は、ボリューム等1およびゲイン制御部2によってゲイン調整が行われ、当該トークバック音声の明瞭度が改善される。ボリューム等1から出力されたトークバック音声は、出力アンプ3において所定の倍率で増幅された後、スピーカ52から出力される。
【0025】
スピーカ52から出力されたトークバック音声は、マイク53より入力される。このときユーザが音声コマンドを発声していると、その発話音声もマイク53より入力される。また、走行中であれば、エンジン音やロードノイズなどの周辺ノイズもマイク53より入力される。したがって、マイク53には、トークバック音声と発話音声と周辺ノイズとが混在した状態で入力される。この混在音声は、減算器5のプラス端に入力される。一方、減算器5のマイナス端には、適応フィルタ4により生成されたトークバック模擬音声(トークバック音声の推定値)が入力される。
【0026】
減算器5は、マイク53より入力されたトークバック音声と発話音声と周辺ノイズとの混在音声から、適応フィルタ4より入力されたトークバック模擬音声を引くことによって誤差を演算し、発話音声と周辺ノイズとを抽出する。抽出された発話音声と周辺ノイズは、音声認識エンジン54に供給される。これにより、周辺ノイズの低減処理および音声コマンドに対応した処理が実行される。また、上記抽出された発話音声と周辺ノイズは、ゲイン制御部2および適応フィルタ4にもフィードバックされ、トークバック音声の明瞭度改善処理およびトークバック音声の推定演算処理に利用される。
【0027】
図3は、第1の実施形態による音声認識処理の動作を示すフローチャートである。なお、図1には図示していないが、音声認識装置100は音声認識に関する全体の制御を行うコントローラを備えており、図3に示すフローチャートはこのコントローラの制御に従って実行される。
【0028】
図3において、コントローラが音声認識開始のトリガ(例えば、発話ボタンの押下、所定キーワードの音声入力等)を検知すると(ステップS1)、音声認識エンジン54をアクティブにして、音声入力受付状態とする(ステップS2)。この状態でユーザは、複数階層に分けて管理されている音声コマンドの最上層に当たる第1コマンドを発声する(ステップS3)。
【0029】
ここで発声された音声コマンドはマイク53から入力され、減算器5を介して音声認識エンジン54に供給される。これを受けて音声認識エンジン54は、音声認識処理(ノイズ低減処理を含む)を実行する(ステップS4)。このとき、コントローラは音声認識エンジン54を非アクティブに戻して音声入力受付状態を解除する。次に、ボリューム等1およびゲイン制御部2は、トークバック音声の明瞭度改善処理を開始する(ステップS5)。この状態で音声出力部51は、音声認識エンジン54による認識結果および案内文の音声トークバックを開始する(ステップS6)。
【0030】
このトークバックが行われている間、コントローラは、引き続き音声操作が必要か否かを判定する(ステップS7)。ここでは、更に下の階層に遷移して音声コマンドの入力を続ける必要があるか否かを判定する。引き続き音声操作が必要な場合は、音声認識エンジン54を再びアクティブにして音声入力受付状態とする(ステップS8)。その後、減算器5は、上記ステップS6で出力されたトークバック音声の推定値を適応フィルタ4から得て、これをマイク53の入力音声から減算することによって、マイク入力音声からトークバック音声を除去する(ステップS9)。
【0031】
そして、コントローラは、音声コマンドの発声があったか否かを判定する(ステップS10)。発声がない場合はステップS9に戻り、発声があるまでこのループ処理を繰り返す。なお、一定時間内に何の発声も行われない場合は、タイムアウト処理が行われる。一方、音声コマンドの発声が行われると、その時点でトークバックを中断し(ステップS11)、ステップS4の処理に戻る。なお、ここでは発話が行われたときにトークバックを中断しているが、トークバックがあってもその音声は除去されて発話音声だけが抽出されるので、必ずしもトークバックを中断する必要はない。
【0032】
図4は、本実施形態による音声入力受付状態の変化の様子を従来技術と比較して示すタイミングチャートであり、(a)は従来技術、(b)は本実施形態を示している。なお、図4(a)の動作については既に説明した。
【0033】
図4(b)に示すように、本実施形態では、ユーザが最初に発話ボタンを押すと音声認識モードになり、所定時間だけ音声入力受付状態となる。ユーザは、音声入力受付状態となっている間に所望の音声コマンドを発声する。音声コマンドが入力されると、その入力音声の認識処理およびトークバック処理が行われる。ここまでの動作は、図4(a)に示す従来技術と同じである。
【0034】
図4(a)に示す従来技術では、トークバックが行われている間は音声入力を受け付けない状態とされていた。これに対して、図4(b)に示す本実施形態では、認識処理が終わった段階で自動的に音声入力受付状態となり、トークバックが終了するまで待たずに、好きなタイミングで次の音声入力をすることが可能となる。これにより待ち時間を少なくすることができる。
【0035】
以上詳しく説明したように、本実施形態によれば、トークバック時においても音声入力を随時受け付け、トークバックが終了するのを待たずに好きなタイミングで音声入力をすることができるようになる。しかも、発話をするたびに発話ボタンを押す必要もない。これにより、煩雑なボタン操作を行うことなく、一連の音声認識にかかる操作時間を短縮することができる。
【0036】
また、本実施形態では、トークバック音声の明瞭度改善のために設けられている適応フィルタ4で推定した模擬音声を利用して、マイク入力音声からトークバック音声を除去している。そのため、トークバック音声除去のために、専用の適応フィルタを別に導入する必要がない。これにより、コストアップを招くことなく、トークバック音声の明瞭度を改善すると同時に、音声認識操作時間の短縮を図ることができる。
【0037】
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。図5は、第2の実施形態による音声認識装置の要部構成を示すブロック図である。なお、この図5において、図1に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
【0038】
図5に示すように、本実施形態の音声認識装置200は、図1に示した構成に加え、出力アンプ6−1,6−2、第2の適応フィルタ7−1,7−2、加算器8、減算器9、オーディオ再生部61および複数チャンネル(右チャンネル、左チャンネル)のスピーカ62−1,62−2を備えて構成されている。
【0039】
オーディオ再生部61は、CD(Compact Disc)、MD(Mini Disc)、DVD(Digital Versatile Disk)、ラジオ放送等の各種オーディオソースを再生するものである。出力アンプ6−1,6−2は、オーディオ再生部61により再生された左右チャンネルのオーディオ音を所定の倍率で増幅し、各チャンネルのスピーカ62−1,62−2から出力する。スピーカ62−1,62−2から出力されたオーディオ音は、発話音声およびスピーカ52からのトークバック音声と共にマイク53に入力される。
【0040】
第2の適応フィルタ7−1,7−2も図2のように構成されている。一方の適応フィルタ7−1は、右チャンネルのスピーカ62−1からマイク53までの伝達系を模擬したフィルタ係数を同定し、右チャンネルのオーディオ音をフィルタ処理することによって右チャンネルのオーディオ模擬音を生成する。
【0041】
また、他方の適応フィルタ7−2は、左チャンネルのスピーカ62−2からマイク53までの伝達系を模擬したフィルタ係数を同定し、左チャンネルのオーディオ音をフィルタ処理することによって左チャンネルのオーディオ模擬音を生成する。
【0042】
このように、第2の実施形態では、適応フィルタ4が本発明による第1の適応フィルタ手段を構成し、第2の適応フィルタ7−1,7−2が本発明による第2の適応フィルタ手段を構成する。加算器8は、第2の適応フィルタ7−1,7−2から出力される左右チャンネルのオーディオ模擬音を加算して減算器9に出力する。
【0043】
本実施形態において減算器5は、マイク53より入力された音声(音声コマンドとトークバックとオーディオ音と周辺ノイズとが混在した音声)から、適応フィルタ4により生成されたトークバック模擬音声を減算することによって、音声コマンドとオーディオ音と周辺ノイズとを抽出する。さらに、減算器9は、減算器5より出力された音声から、適応フィルタ7−1,7−2および加算器8により生成されたオーディオ模擬音を減算することによって音声コマンド(発話音声)と周辺ノイズとを抽出する。このように減算器5,9は、本発明の発話音声抽出手段を構成する。
【0044】
減算器5により抽出された音声コマンドとオーディオ音と周辺ノイズとの混在音声のうち、周辺ノイズは音声認識エンジン54によって低減され、音声コマンドのみが認識処理される。また、この減算器5により抽出された発話音声とオーディオ音と周辺ノイズとの混在音声は、ゲイン制御部2および適応フィルタ4にフィードバックされる。また、減算器9により抽出された発話音声と周辺ノイズとの混在音声は、音声認識エンジン54に供給されるとともに、第2の適応フィルタ7−1,7−2にフィードバックされる。
【0045】
次に、上記のように構成した第2の実施形態による音声認識装置200の動作を簡単に説明する。音声出力部51より出力されたトークバック音声は、ボリューム等1およびゲイン制御部2によってゲイン調整が行われ、当該トークバック音声の明瞭度が改善される。ボリューム等1から出力されたトークバック音声は、出力アンプ3において所定の倍率で増幅された後、スピーカ52から出力される。
【0046】
また、オーディオ再生部61より出力されたオーディオ音は、出力アンプ6−1,6−2において所定の倍率で増幅された後、スピーカ62−1,62−2から出力される。
【0047】
スピーカ52から出力されたトークバック音声と、スピーカ62−1,62−2から出力されたオーディオ音は、マイク53より入力される。このときユーザが音声コマンドを発声していると、その発話音声もマイク53より入力される。また、走行中であれば、エンジン音やロードノイズなどの周辺ノイズもマイク53より入力される。したがって、マイク53には、トークバック音声とオーディオ音と発話音声と周辺ノイズとが混在した状態で入力される。
【0048】
この混在音声は、減算器5のプラス端に入力される。一方、減算器5のマイナス端には、適応フィルタ4により生成されたトークバック模擬音声が入力される。減算器5は、マイク53より入力された混在音声から、適応フィルタ4より出力されるトークバック模擬音声を引くことによって誤差を演算し、オーディオ音と発話音声と周辺ノイズとを抽出する。
【0049】
抽出されたオーディオ音と発話音声と周辺ノイズとの混在音声は、減算器9のプラス端に入力される。一方、減算器9のマイナス端には、適応フィルタ7−1,7−2および加算器8により生成されたオーディオ模擬音が入力される。減算器9は、減算器5より入力された混在音声から、加算器8より入力されたオーディオ模擬音を引くことによって誤差を演算し、発話音声と周辺ノイズとを抽出する。
【0050】
抽出された発話音声および周辺ノイズは、音声認識エンジン54に供給される。これにより、周辺ノイズの低減処理および音声コマンドに対応した処理が実行される。減算器5で抽出されたオーディオ音と発話音声と周辺ノイズは、ゲイン制御部2および適応フィルタ4にもフィードバックされ、トークバック音声の明瞭度改善処理およびトークバック音声の推定演算処理に利用される。また、減算器9で抽出された発話音声と周辺ノイズは、適応フィルタ7−1,7−2にもフィードバックされ、オーディオ音の推定演算処理に利用される。
【0051】
図6は、第2の実施形態による音声認識処理の動作を示すフローチャートである。なお、この図6において、図3に示したステップ番号と同一の番号を付した処理は同一の処理内容を示すものであるので、ここでは重複する説明を省略する。図6において図3と異なるのは、ステップS2とステップS3との間、ステップS9とステップS10との間にそれぞれオーディオ音の除去処理(ステップS21,S22)が入っていることのみである。
【0052】
ステップS21,S22におけるオーディオ音の除去処理では、減算器9によって、加算器8から入力されるオーディオ音の推定値を減算器5の出力音声から減算することにより、オーディオ音と発話音声と周辺ノイズとの混在音声からオーディオ音を除去し、発話音声と周辺ノイズとを抽出する。
【0053】
以上詳しく説明したように、第2の実施形態によれば、トークバックが行われていて、かつ、オーディオ再生が行われているときに音声入力をしても、マイク入力音声からトークバック音声とオーディオ音とを除去し、発話音声と周辺ノイズとを抽出して音声認識エンジン54に供給することができる。よって、トークバックとオーディオ再生とが行われている最中においても音声入力を随時受け付け、好きなタイミングで音声入力をすることができるようになり、音声認識の操作時間を短縮することができる。
【0054】
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。図7は、第3の実施形態による音声認識装置の要部構成を示すブロック図である。なお、この図7において、図5に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
【0055】
上記図5に示す第2の実施形態は、トークバック音声の出力先とオーディオ音の出力先とが異なる場合について説明した。これに対して図7に示す第3の実施形態は、トークバック音声の出力先とオーディオ音の出力先とが同じの場合を示している。
【0056】
すなわち、図7に示す第3の実施形態による音声認識装置300では、図5に示した出力アンプ3がなく、2つの出力アンプ6−1,6−2のみを備えている。また、本実施形態の音声認識装置300は、図5に示した適応フィルタ4の代わりに可変フィルタ10を備え、加算器11を更に備えて構成されている。その他の構成は図5と同様である。
【0057】
図7において、加算器11は、ボリューム等1より出力されたトークバック音声と、オーディオ再生部61により再生された右チャンネルのオーディオ音とを加算して出力アンプ6−1および適応フィルタ7−1に出力する。出力アンプ6−1は、加算器11より出力された音声を所定の倍率で増幅し、右チャンネルのスピーカ62−1から出力する。
【0058】
また、適応フィルタ7−1は、右チャンネルのスピーカ62−1からマイク53までの伝達系を模擬したフィルタ係数を同定する。そして、この同定したフィルタ係数を用いて、加算器11から出力されるトークバック音声と右チャンネルのオーディオ音との混在音声をフィルタ処理することによって、当該混在音声を模擬した音声を生成する。
【0059】
可変フィルタ10は、フィルタ係数が可変に構成された音声補正フィルタであり、右チャンネルの適応フィルタ7−1により同定されたフィルタ係数をコピーして設定する。そして、ボリューム等1より出力されたトークバック音声をフィルタ処理することにより、マイク53の位置でのトークバック模擬音声を生成する。この可変フィルタ10は、本発明の可変フィルタ手段を構成する。
【0060】
ここで、可変フィルタ10に対するフィルタ係数のコピー元である右チャンネルの適応フィルタ7−1は、トークバック音声が出力される右チャンネルのスピーカ62−1からマイク53までの伝達系を模擬する適応フィルタである。例えば、本実施形態の音声認識装置300をナビゲーション装置に適用する場合、運転席の近くに設置された右チャンネルのスピーカ62−1からトークバック音声が出力され、それが入力されるマイク53も運転席の近くに設置される。したがって、この場合は右チャンネルの適応フィルタ7−1のフィルタ係数を可変フィルタ10にコピーするのが好ましい。なお、運転席が左側にある場合は、左チャンネルの適応フィルタ7−2のフィルタ係数を可変フィルタ10にコピーするのが好ましい。
【0061】
次に、上記のように構成した第3の実施形態による音声認識装置300の動作を簡単に説明する。音声出力部51より出力されたトークバック音声は、ボリューム等1およびゲイン制御部2によってゲイン調整が行われ、当該トークバック音声の明瞭度が改善される。
【0062】
ボリューム等1から出力されたトークバック音声は、オーディオ再生部61により再生された右チャンネルのオーディオ音と加算器11で加算され、出力アンプ6−1において所定の倍率で増幅された後、スピーカ62−1から出力される。また、オーディオ再生部61により再生された左チャンネルのオーディオ音は、出力アンプ6−2において所定の倍率で増幅された後、スピーカ62−2から出力される。
【0063】
スピーカ62−1から出力された音声(トークバック音声と右チャンネルオーディオ音との混在音声)と、スピーカ62−2から出力された左チャンネルオーディオ音とは、マイク53より入力される。このときユーザが音声コマンドを発声していると、その発話音声もマイク53より入力される。また、走行中であれば、エンジン音やロードノイズなどの周辺ノイズもマイク53より入力される。したがって、マイク53からは、トークバック音声と左右チャンネルのオーディオ音と発話音声と周辺ノイズとが混在した音声が入力される。
【0064】
この混在音声は、減算器5,9のプラス端に入力される。減算器5のマイナス端には、可変フィルタ10により生成されたトークバック模擬音声が入力される。減算器5は、マイク53より入力された混在音声から、可変フィルタ10より出力されるトークバック模擬音声を引くことによって誤差を演算し、オーディオ音と発話音声と周辺ノイズとを抽出する。抽出されたオーディオ音と発話音声と周辺ノイズとの混在音声は、ゲイン制御部2にフィードバックされ、トークバック音声の明瞭度改善処理に利用される。
【0065】
上記加算器11より出力されたトークバック音声と右チャンネルオーディオ音との混在音声は、適応フィルタ7−1にも入力される。そして、この適応フィルタ7−1によって、トークバック音声と右チャンネルオーディオ音との混在模擬音声が生成される。一方、適応フィルタ7−2において、左チャンネルのオーディオ模擬音が生成される。
【0066】
そして、これらの適応フィルタ7−1,7−2により生成された模擬音声が加算器8で加算され、その結果が減算器9のマイナス端に入力される。減算器9は、減算器5より入力された混在音声から、加算器8より入力されたトークバック音声とオーディオ音との混在模擬音声を引くことによって誤差を演算し、発話音声と周辺ノイズとを抽出する。
【0067】
減算器9で抽出された発話音声および周辺ノイズは、音声認識エンジン54に供給される。これにより、周辺ノイズの低減処理および音声コマンドに対応した処理が実行される。また、当該減算器9で抽出された発話音声と周辺ノイズは、適応フィルタ7−1,7−2にもフィードバックされ、オーディオ音の推定演算処理に利用される。
【0068】
なお、第3の実施形態による音声認識処理の動作は、図6に示したフローチャートと同様であるので、ここでは説明を省略する。
【0069】
以上詳しく説明したように、第3の実施形態においても第2の実施形態と同様に、トークバックとオーディオ再生とが行われているときでも音声入力を随時受け付け、好きなタイミングで音声入力をすることができる。また、第3の実施形態によれば、フィルタ係数の同定を行うためのアルゴリズムを含んだ高度な適応フィルタをトークバック音声推定用に用意する必要がなく、その分コストを削減することができる。さらに、可変フィルタ10にはフィルタ係数をコピーするだけで良く、フィルタ係数を同定するための演算処理を行う必要がないので、処理負荷を軽減することができるというメリットも有する。
【0070】
なお、以上第1〜第3の実施形態について説明したが、これらは本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその精神、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【0071】
【発明の効果】
本発明は上述したように、スピーカから出力されマイクに入力されるトークバック音声を適応フィルタにより推定して、その推定値をマイク入力音声から減算することにより、発話音声とその他の音声とが混在しているマイク入力音声から発話音声だけを抽出するようにしたので、発話のたびに発話ボタンを押してトークバックを中断させるといった面倒な操作をしなくても、トークバック中の任意のタイミングで音声入力を随時行うことができるようになる。これにより、煩雑な操作を行うことなく、音声認識の操作時間を短縮することができる。
【図面の簡単な説明】
【図1】第1の実施形態による音声認識装置の要部構成を示すブロック図である。
【図2】適応フィルタの構成を示す図である。
【図3】第1の実施形態による音声認識処理の動作を示すフローチャートである。
【図4】本実施形態による音声入力受付状態の変化の様子を従来技術と比較して示すタイミングチャートである。
【図5】第2の実施形態による音声認識装置の要部構成を示すブロック図である。
【図6】第2の実施形態による音声認識処理の動作を示すフローチャートである。
【図7】第3の実施形態による音声認識装置の要部構成を示すブロック図である。
【符号の説明】
1 ボリューム又はイコライザ
2 ゲイン制御部
3 出力アンプ
4 適応フィルタ
5 減算器
6−1,6−2 出力アンプ
7−1,7−2 適応フィルタ
8 加算器
9 減算器
10 可変フィルタ
11 加算器
Claims (11)
- マイクから入力された発話音声を認識してスピーカからトークバックする機能を備えた音声認識装置であって、
上記スピーカから出力されたトークバック音声が上記マイクに入力される伝達系を模擬したフィルタ係数を設定し、上記スピーカから出力される前のトークバック音声をフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成する適応フィルタ手段と、
上記マイクより入力された音声から上記トークバック模擬音声を減算することによって発話音声を抽出する発話音声抽出手段と、
上記適応フィルタ手段により生成された上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記スピーカから出力される前のトークバック音声に対するノイズとみなして、上記スピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記スピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記スピーカから出力される前のトークバック音声の明瞭度改善処理を行う明瞭度改善処理手段とを備え、
上記適応フィルタ手段は、上記誤差音のパワーが最小となるように動作して上記フィルタ係数を設定することを特徴とする音声認識装置。 - マイクから入力された発話音声を認識してスピーカからトークバックする機能を備えた音声認識装置であって、
第1のスピーカから出力されたトークバック音声が上記マイクに入力される伝達系を模擬した第1のフィルタ係数を設定し、上記第1のスピーカから出力される前のトークバック音声をフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成する第1の適応フィルタ手段と、
第2のスピーカから出力されたオーディオ音が上記マイクに入力される伝達系を模擬した第2のフィルタ係数を設定し、上記第2のスピーカから出力される前のオーディオ音をフィルタ処理することによって上記マイクの位置でのオーディオ模擬音を生成する第2の適応フィルタ手段と、
上記マイクより入力された音声から上記トークバック模擬音声および上記オーディオ模擬音を減算することによって発話音声を抽出する発話音声抽出手段と、
上記第1の適応フィルタ手段により生成された上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記第1のスピーカから出力される前のトークバック音声に対するノイズとみなして、上記第1のスピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記第1のスピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記第1のスピーカから出力される前のトークバック音声の明瞭度改善処理を行う明瞭度改善処理手段とを備え、
上記第1の適応フィルタ手段は、上記誤差音のパワーが最小となるように動作して上記第1のフィルタ係数を設定し、
上記第2の適応フィルタ手段は、上記マイクより入力された音声から上記トークバック模擬音声および上記オーディオ模擬音を減算することによって得られる第2の誤差音のパワーが最小となるように動作して上記第2のフィルタ係数を設定することを特徴とする音声認識装置。 - 上記第2の適応フィルタ手段は、複数の上記第2のスピーカから出力される複数チャンネルのオーディオ音に対応して複数設けられていることを特徴とする請求項2に記載の音声認識装置。
- マイクから入力された発話音声を認識してスピーカからトークバックする機能を備えた音声認識装置であって、
上記スピーカから出力されたトークバック音声とオーディオ音との混在音声が上記マイクに入力される伝達系を模擬したフィルタ係数を設定し、上記スピーカから出力される前の混在音声をフィルタ処理することによって上記マイクの位置での混在模擬音声を生成する適応フィルタ手段と、
上記マイクより入力された音声から上記混在模擬音声を減算することにより発話音声を抽出する発話音声抽出手段と、
上記適応フィルタ手段により設定されたフィルタ係数を複写して設定し、上記スピーカから出力される前のトークバック音声をフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成する可変フィルタ手段と、
上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記スピーカから出力される前のトークバック音声に対するノイズとみなして、上記スピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記スピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記スピーカから出力される前のトークバック音声の明瞭度改善処理を行う明瞭度改善処理手段とを備え、
上記適応フィルタ手段は、上記マイクより入力された音声から上記混在模擬音声を減算して得られる第3の誤差音のパワーが最小となるように動作して上記フィルタ係数を設定することを特徴とする音声認識装置。 - 複数のスピーカから複数チャンネルのオーディオ音が出力されるとともに、その中の少なくとも1つのスピーカから上記トークバック音声も出力されるように成され、
上記適応フィルタ手段は、上記少なくとも1つのスピーカから出力される或るチャンネルのオーディオ音と上記トークバック音声との混在音声に対応して設けられていることを特徴とする請求項4に記載の音声認識装置。 - 上記複数のスピーカのうち他のスピーカから出力された他チャンネルのオーディオ音が上記マイクに入力される伝達系を模擬した第2のフィルタ係数を設定し、上記他のスピーカから出力される前のオーディオ音をフィルタ処理することによって上記マイクの位置でのオーディオ模擬音を生成する他の適応フィルタ手段を更に備え、
上記他の適応フィルタ手段は、上記マイクより入力された音声から上記混在模擬音声および上記オーディオ模擬音を減算して得られる第4の誤差音のパワーが最小となるように動作して上記第2のフィルタ係数を設定し、
上記発話音声抽出手段は、上記マイクより入力された音声から上記混在模擬音声および上記オーディオ模擬音を減算することによって上記発話音声を抽出することを特徴とする請求項5に記載の音声認識装置。 - 上記マイクから入力された発話音声を認識処理部が認識処理する際に、音声入力を受け付けない非アクティブ状態に設定するとともに、上記認識処理部によって認識された発話音声を上記スピーカからトークバックする処理を開始する際に、上記音声入力を受け付けるアクティブ状態に設定するコントローラを備えたことを特徴とする請求項1〜6の何れか1項に記載の音声認識装置。
- マイクから入力された発話音声を認識処理部が認識処理する際に、音声入力を受け付けない非アクティブ状態に設定するステップと、
上記認識処理部によって認識された発話音声をスピーカからトークバックする処理を開始する際に、音声入力を受け付けるアクティブ状態に設定するステップと、
上記スピーカから出力されたトークバック音声が上記マイクに入力される伝達系を模擬したフィルタ係数を適応フィルタに設定し、上記スピーカから出力される前のトークバック音声をフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成するステップと、
上記アクティブ状態の設定時に上記マイクより入力された音声から上記トークバック模擬音声を減算することにより発話音声を抽出して上記認識処理部に供給するステップと、
上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記スピーカから出力される前のトークバック音声に対するノイズとみなして、上記スピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記スピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記スピーカから出力される前のトークバック音声の明瞭度改善処理を行うステップとを有し、
上記トークバック模擬音声を生成するステップでは、上記適応フィルタが、上記誤差音のパワーが最小となるように動作して上記フィルタ係数を設定することを特徴とする音声認識方法。 - マイクから入力された発話音声を認識処理部が認識処理する際に、音声入力を受け付けない非アクティブ状態に設定するステップと、
上記認識処理部によって認識された発話音声を第1のスピーカからトークバックする処理を開始する際に、音声入力を受け付けるアクティブ状態に設定するステップと、
上記第1のスピーカから出力されたトークバック音声が上記マイクに入力される伝達系を模擬した第1のフィルタ係数を第1の適応フィルタに設定し、上記第1のスピーカから出力される前のトークバック音声をフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成するステップと、
第2のスピーカから出力されたオーディオ音が上記マイクに入力される伝達系を模擬した第2のフィルタ係数を第2の適応フィルタに設定し、上記第2のスピーカから出力される前のオーディオ音をフィルタ処理することによって上記マイクの位置でのオーディオ模擬音を生成するステップと、
上記アクティブ状態の設定時に上記マイクより入力された音声から上記トークバック模擬音声および上記オーディオ模擬音を減算することにより発話音声を抽出して上記認識処理部に供給するステップと、
上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記第1のスピーカから出力される前のトークバック音声に対するノイズとみなして、上記第1のスピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記第1のスピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記第1のスピーカから出力される前のトークバック音声の明瞭度改善処理を行うステップとを有し、
上記トークバック模擬音声を生成するステップでは、上記第1の適応フィルタが、上記誤差音のパワーが最小となるように動作して上記第1のフィルタ係数を設定し、
上記オーディオ模擬音を生成するステップでは、上記第2の適応フィルタが、上記マイクより入力された音声から上記トークバック模擬音声および上記オーディオ模擬音を減算することによって得られる第2の誤差音のパワーが最小となるように動作して上記第2のフィルタ係数を設定することを特徴とする音声認識方法。 - マイクから入力された発話音声を認識処理部が認識処理する際に、音声入力を受け付けない非アクティブ状態に設定するステップと、
上記認識処理部によって認識された発話音声をスピーカからトークバックする処理を開始する際に、音声入力を受け付けるアクティブ状態に設定するステップと、
上記スピーカから出力されたトークバック音声とオーディオ音との混在音声が上記マイクに入力される伝達系を模擬したフィルタ係数を適応フィルタに設定し、上記スピーカから出力される前の混在音声をフィルタ処理することによって上記マイクの位置での混在模擬音声を生成するステップと、
上記アクティブ状態の設定時に上記マイクより入力された音声から上記混在模擬音声を減算することにより発話音声を抽出して上記認識処理部に供給するステップと、
上記適応フィルタに設定されたフィルタ係数を可変フィルタに複写して設定し、上記スピーカから出力される前のトークバック音声を上記可変フィルタによりフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成するステップと、
上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記スピーカから出力される前のトークバック音声に対するノイズとみなして、上記スピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記スピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記スピーカから出力される前のトークバック音声の明瞭度改善処理を行うステップとを有し、
上記混在模擬音声を生成するステップでは、上記適応フィルタが、上記マイクより入力された音声から上記混在模擬音声を減算して得られる第3の誤差音のパワーが最小となるように動作して上記フィルタ係数を設定することを特徴とする音声認識方法。 - 複数のスピーカから複数チャンネルのオーディオ音が出力されるとともに、その中の少なくとも1つのスピーカから上記トークバック音声も出力されるように成され、
上記少なくとも1つのスピーカから出力される前の或るチャンネルのオーディオ音と上記トークバック音声との混在音声に対して上記フィルタ処理を行うことによって上記マイクの位置での混在模擬音声を生成するようにしたことを特徴とする請求項10に記載の音声認識方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003127378A JP4209247B2 (ja) | 2003-05-02 | 2003-05-02 | 音声認識装置および方法 |
EP04252331A EP1475781B1 (en) | 2003-05-02 | 2004-04-21 | Voice recognition system and method |
DE602004014675T DE602004014675D1 (de) | 2003-05-02 | 2004-04-21 | Verfahren und Vorrichtung zur Spracherkennung |
US10/835,742 US7552050B2 (en) | 2003-05-02 | 2004-04-30 | Speech recognition system and method utilizing adaptive cancellation for talk-back voice |
CNB2004100421295A CN1258753C (zh) | 2003-05-02 | 2004-05-08 | 声音识别装置以及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003127378A JP4209247B2 (ja) | 2003-05-02 | 2003-05-02 | 音声認識装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004333704A JP2004333704A (ja) | 2004-11-25 |
JP4209247B2 true JP4209247B2 (ja) | 2009-01-14 |
Family
ID=32985618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003127378A Expired - Lifetime JP4209247B2 (ja) | 2003-05-02 | 2003-05-02 | 音声認識装置および方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7552050B2 (ja) |
EP (1) | EP1475781B1 (ja) |
JP (1) | JP4209247B2 (ja) |
CN (1) | CN1258753C (ja) |
DE (1) | DE602004014675D1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006104845A1 (en) | 2000-12-21 | 2006-10-05 | Medtronic, Inc. | System and method for ventricular pacing with progressive conduction check interval |
US20070225049A1 (en) * | 2006-03-23 | 2007-09-27 | Andrada Mauricio P | Voice controlled push to talk system |
JP2009169139A (ja) * | 2008-01-17 | 2009-07-30 | Alpine Electronics Inc | 音声認識装置 |
US20090259397A1 (en) * | 2008-04-10 | 2009-10-15 | Richard Stanton | Navigation system with touchpad remote |
EP2257082A1 (en) * | 2009-05-28 | 2010-12-01 | Harman Becker Automotive Systems GmbH | Background noise estimation in a loudspeaker-room-microphone system |
CN101902674B (zh) * | 2010-08-13 | 2012-11-28 | 西安交通大学 | 基于空间抵消的高增益扩音系统自激消除方法 |
US9373338B1 (en) * | 2012-06-25 | 2016-06-21 | Amazon Technologies, Inc. | Acoustic echo cancellation processing based on feedback from speech recognizer |
US9190057B2 (en) | 2012-12-12 | 2015-11-17 | Amazon Technologies, Inc. | Speech model retrieval in distributed speech recognition systems |
CN103198831A (zh) * | 2013-04-10 | 2013-07-10 | 威盛电子股份有限公司 | 语音操控方法与移动终端装置 |
US9984675B2 (en) * | 2013-05-24 | 2018-05-29 | Google Technology Holdings LLC | Voice controlled audio recording system with adjustable beamforming |
CN103971681A (zh) * | 2014-04-24 | 2014-08-06 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法及系统 |
KR102208477B1 (ko) | 2014-06-30 | 2021-01-27 | 삼성전자주식회사 | 마이크 운용 방법 및 이를 지원하는 전자 장치 |
CN104167212A (zh) * | 2014-08-13 | 2014-11-26 | 深圳市泛海三江科技发展有限公司 | 一种智能楼宇系统的音频处理方法及装置 |
KR102437156B1 (ko) * | 2015-11-24 | 2022-08-26 | 삼성전자주식회사 | 전자 장치의 상태에 따른 음성 신호 처리 방법 및 그 전자 장치 |
EP3410433A4 (en) * | 2016-01-28 | 2019-01-09 | Sony Corporation | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM |
US20180166073A1 (en) * | 2016-12-13 | 2018-06-14 | Ford Global Technologies, Llc | Speech Recognition Without Interrupting The Playback Audio |
CN107146611B (zh) * | 2017-04-10 | 2020-04-17 | 北京猎户星空科技有限公司 | 一种语音响应方法、装置及智能设备 |
JP2019020678A (ja) * | 2017-07-21 | 2019-02-07 | 株式会社レイトロン | ノイズ低減装置および音声認識装置 |
JP2019086903A (ja) | 2017-11-02 | 2019-06-06 | 東芝映像ソリューション株式会社 | 音声対話端末、および音声対話端末制御方法 |
JP7186375B2 (ja) * | 2018-03-29 | 2022-12-09 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法および音声処理システム |
CN116647778A (zh) * | 2023-05-17 | 2023-08-25 | 深圳市富德康电子有限公司 | 一种多人降噪对讲系统 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5241692A (en) * | 1991-02-19 | 1993-08-31 | Motorola, Inc. | Interference reduction system for a speech recognition device |
JPH0522779A (ja) | 1991-07-09 | 1993-01-29 | Sony Corp | 音声認識遠隔制御装置 |
US5548681A (en) * | 1991-08-13 | 1996-08-20 | Kabushiki Kaisha Toshiba | Speech dialogue system for realizing improved communication between user and system |
US5412735A (en) * | 1992-02-27 | 1995-05-02 | Central Institute For The Deaf | Adaptive noise reduction circuit for a sound reproduction system |
JP2657189B2 (ja) * | 1993-02-16 | 1997-09-24 | 三田工業株式会社 | 制御シーケンスソフトウェアの自動生成方法とその装置 |
US5434922A (en) * | 1993-04-08 | 1995-07-18 | Miller; Thomas E. | Method and apparatus for dynamic sound optimization |
US5796849A (en) * | 1994-11-08 | 1998-08-18 | Bolt, Beranek And Newman Inc. | Active noise and vibration control system accounting for time varying plant, using residual signal to create probe signal |
US5664019A (en) * | 1995-02-08 | 1997-09-02 | Interval Research Corporation | Systems for feedback cancellation in an audio interface garment |
JPH08335094A (ja) | 1995-06-08 | 1996-12-17 | Nippon Telegr & Teleph Corp <Ntt> | 音声入力方法およびこの方法を実施する装置 |
DE19521258A1 (de) * | 1995-06-10 | 1996-12-12 | Philips Patentverwaltung | Spracherkennungssystem |
US5907622A (en) * | 1995-09-21 | 1999-05-25 | Dougherty; A. Michael | Automatic noise compensation system for audio reproduction equipment |
US5848163A (en) * | 1996-02-02 | 1998-12-08 | International Business Machines Corporation | Method and apparatus for suppressing background music or noise from the speech input of a speech recognizer |
US5822402A (en) * | 1996-05-02 | 1998-10-13 | Marszalek; Gary Allen | Method and apparatus for processing synthesized speech and synthesizer volume for calling line identification data messages |
JP3152292B2 (ja) * | 1997-04-15 | 2001-04-03 | 日本電気株式会社 | 多チャネルエコー除去方法及び装置 |
US6263078B1 (en) * | 1999-01-07 | 2001-07-17 | Signalworks, Inc. | Acoustic echo canceller with fast volume control compensation |
US7039182B1 (en) * | 1999-05-28 | 2006-05-02 | 3Com Corporation | Echo canceller having improved noise immunity |
ATE339865T1 (de) * | 1999-07-19 | 2006-10-15 | Oticon As | Rückkopplungsunterdrückung unter verwendung von bandbreite-detektion |
US20030040910A1 (en) * | 1999-12-09 | 2003-02-27 | Bruwer Frederick J. | Speech distribution system |
US20020041678A1 (en) * | 2000-08-18 | 2002-04-11 | Filiz Basburg-Ertem | Method and apparatus for integrated echo cancellation and noise reduction for fixed subscriber terminals |
US6725193B1 (en) * | 2000-09-13 | 2004-04-20 | Telefonaktiebolaget Lm Ericsson | Cancellation of loudspeaker words in speech recognition |
US6876968B2 (en) * | 2001-03-08 | 2005-04-05 | Matsushita Electric Industrial Co., Ltd. | Run time synthesizer adaptation to improve intelligibility of synthesized speech |
US6937980B2 (en) * | 2001-10-02 | 2005-08-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech recognition using microphone antenna array |
US7079645B1 (en) * | 2001-12-18 | 2006-07-18 | Bellsouth Intellectual Property Corp. | Speaker volume control for voice communication device |
JP2004080210A (ja) * | 2002-08-13 | 2004-03-11 | Fujitsu Ltd | デジタルフィルタ |
US7162420B2 (en) * | 2002-12-10 | 2007-01-09 | Liberato Technologies, Llc | System and method for noise reduction having first and second adaptive filters |
-
2003
- 2003-05-02 JP JP2003127378A patent/JP4209247B2/ja not_active Expired - Lifetime
-
2004
- 2004-04-21 DE DE602004014675T patent/DE602004014675D1/de not_active Expired - Lifetime
- 2004-04-21 EP EP04252331A patent/EP1475781B1/en not_active Expired - Lifetime
- 2004-04-30 US US10/835,742 patent/US7552050B2/en active Active
- 2004-05-08 CN CNB2004100421295A patent/CN1258753C/zh not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE602004014675D1 (de) | 2008-08-14 |
US20040260549A1 (en) | 2004-12-23 |
EP1475781A3 (en) | 2004-12-15 |
EP1475781B1 (en) | 2008-07-02 |
CN1258753C (zh) | 2006-06-07 |
EP1475781A2 (en) | 2004-11-10 |
US7552050B2 (en) | 2009-06-23 |
JP2004333704A (ja) | 2004-11-25 |
CN1542734A (zh) | 2004-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4209247B2 (ja) | 音声認識装置および方法 | |
US11348595B2 (en) | Voice interface and vocal entertainment system | |
CN106664473B (zh) | 信息处理装置、信息处理方法和程序 | |
US6529605B1 (en) | Method and apparatus for dynamic sound optimization | |
JP2007312364A (ja) | 音響信号処理における均等化 | |
JP2010156826A (ja) | 音響制御装置 | |
JP2007180896A (ja) | 音声信号処理装置および音声信号処理方法 | |
CN102906811B (zh) | 用于调节包括扬声器和麦克风的语音识别系统的方法及语音识别系统 | |
JP5115944B2 (ja) | 音声認識装置 | |
JP2006119520A (ja) | 音声認識装置及びその搭載車両 | |
JP2005502247A (ja) | オーディオ再生装置 | |
CN113053402A (zh) | 一种语音处理方法、装置和车辆 | |
US20120033835A1 (en) | System and method for modifying an audio signal | |
JP3822397B2 (ja) | 音声入出力方式 | |
CN110942770B (zh) | 音声识别装置、音声识别方法、存储音声识别程序的非暂时性计算机可读介质 | |
KR20220091151A (ko) | 차량용 능동 소음 제어 장치 및 그 제어 방법 | |
JP4587941B2 (ja) | 音声補正システムおよびこれに用いる適応フィルタ | |
WO2021038736A1 (ja) | 音場制御装置及び音場制御方法 | |
JP4765394B2 (ja) | 音声対話装置 | |
JP4999267B2 (ja) | 音声入力装置 | |
JP7474548B2 (ja) | オーディオデータの再生の制御 | |
JP2014181988A (ja) | オーディオ装置 | |
JP2009277278A (ja) | 音声処理装置 | |
JP2004235979A (ja) | 音入出力装置および音入出力方法 | |
JP5114922B2 (ja) | 車両用音響装置、及び、外部音源装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080513 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080918 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081021 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081022 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4209247 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121031 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121031 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131031 Year of fee payment: 5 |
|
EXPY | Cancellation because of completion of term |