JP4209247B2 - Speech recognition apparatus and method - Google Patents
Speech recognition apparatus and method Download PDFInfo
- Publication number
- JP4209247B2 JP4209247B2 JP2003127378A JP2003127378A JP4209247B2 JP 4209247 B2 JP4209247 B2 JP 4209247B2 JP 2003127378 A JP2003127378 A JP 2003127378A JP 2003127378 A JP2003127378 A JP 2003127378A JP 4209247 B2 JP4209247 B2 JP 4209247B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- talkback
- speaker
- voice
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 35
- 230000003044 adaptive effect Effects 0.000 claims description 75
- 230000008569 process Effects 0.000 claims description 22
- 230000005540 biological transmission Effects 0.000 claims description 13
- 238000004088 simulation Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 7
- 230000006872 improvement Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims 7
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、ユーザが発声した音声コマンドを認識して機器の制御を行うための音声認識装置および方法に関し、特に、認識した発話音声をユーザにフィードバックするトークバック機能を有する音声認識装置に用いて好適なものである。
【0002】
【従来の技術】
従来、例えば車両に搭載されるナビゲーション装置やハンズフリー装置、あるいはパーソナルコンピュータ(パソコン)等の分野において、リモコンやタッチパネルあるいはキーボードやマウスに加え、音声認識装置を用いることにより、ユーザの音声入力により機器の操作をすることが可能である。
【0003】
この種の音声認識装置では、備え付けの発話ボタンを押すことで音声認識モードとなり、ユーザの発話音声を認識してコマンドを実行する。発話方法には主に2つの方法がある。第1の方法は、ユーザが発話ボタンを一度押すと音声認識モードになり、必要に応じて機器からユーザに音声入力を促すことで、ユーザと機器とが対話的にやり取りを行う方法である。第2の方法は、ユーザが発話ボタンを押すたびに所定時間だけ音声入力が可能となる方法である。
【0004】
音声認識装置の殆どは、認識した発話音声をスピーカ等からユーザにフィードバックするトークバック機能を有している。ユーザは、トークバックされた音声を聞いて正しいかどうか確認し、間違っていれば音声入力をやり直し、正しければその旨を音声認識装置に指示する。音声認識装置はこの指示を受けることによって各種制御を実行するようになっている。
【0005】
通常、音声認識装置に用意されている複数の音声コマンドは、制御対象の機器に対する操作内容に応じて複数の階層に分けて管理されている。例えば、ナビゲーション装置において住所で目的地を設定する場合は、「都道府県→市区町村→住所の残り」のように、住所を複数階層に分けて音声入力する。
【0006】
この場合、各階層で音声入力をするたびにトークバックが行われるため、一連の音声入力が完了するまでには長い時間がかかることが多い。これに対して、音声の認識時間を短縮する試みが成されている。その一例として、トークバックの演算量を削減して認識時間の短縮を図った装置が提案されている(例えば、特許文献1参照)。
【0007】
【特許文献1】
特開平6−149287号公報
【0008】
【発明が解決しようとする課題】
しかしながら、従来の音声認識装置では、トークバックの最中は次の音声入力を受け付けない状態となる。トークバックの音声が発話音声に混ざると、発話音声の誤認識が発生しやすくなるからである。図4(a)は、従来の音声認識装置に関する音声入力受付状態の変化の様子を示したタイミングチャートである。なお、この図4(a)は、上述した第1の発話方法に関する音声入力受付状態の変化を示している。
【0009】
図4(a)に示すように、第1の発話方法では、ユーザが最初に発話ボタンを押すと音声認識モードになり、所定時間だけ音声入力受付状態となる。ユーザは、音声入力受付状態となっている間に所望の音声コマンドを発声する。発声が行われると、音声認識装置はその入力音声の認識処理およびトークバック処理を行うが、この間は音声入力を受け付けない状態となる。トークバックが終わると、再び音声入力受付状態となり、次の音声入力が可能となる。
【0010】
このように、第1の発話方法では、トークバックが終了するまでは次の音声入力を受け付けないため、ユーザの好きなタイミングで発声することができない。すなわち、トークバックを聞き終わるまでは待っていなければならないので、一連の音声入力をするのに長い時間がかかってしまうという問題があった。
【0011】
一方、第2の発話方法によれば、発話ボタンを押すことによってトークバックを中断し、次の音声入力を行うことも可能である。しかしながら、この場合は、複数階層に亘って音声入力を行う際に、各階層で音声入力を行う都度、発話ボタンを押さなければならず、操作が非常に煩雑になるという問題があった。
【0012】
本発明は、このような問題を解決するために成されたものであり、発話ボタンを何回も押すなどの煩雑な操作を行うことなく、音声認識の操作時間を短縮できるようにすることを目的とする。
【0013】
【課題を解決するための手段】
上記した課題を解決するために、本発明の音声認識装置では、スピーカから出力されてマイクに入力されるトークバック音声を適応フィルタ手段により模擬して、そのトークバック模擬音声をマイク入力音声から減算することにより、発話音声とトークバック音声とが混在しているマイク入力音声から発話音声だけを抽出するようにしている。
【0014】
上記のように構成した本発明によれば、トークバックが行われている最中に音声入力をしても、トークバック音声は除去され、発話音声だけが抽出されて音声認識エンジンに供給されることとなる。これにより、トークバック中に音声入力をしても発話音声の誤認識が生じる不都合を抑制でき、トークバック時においても音声入力を随時受け付けることが可能となる。
【0015】
【発明の実施の形態】
(第1の実施形態)
以下、本発明の第1の実施形態を図面に基づいて説明する。図1は、第1の実施形態による音声認識装置の要部構成を示すブロック図である。
【0016】
図1に示すように、本実施形態の音声認識装置100は、ボリューム又はイコライザ(以下、単にボリューム等と記す)1、ゲイン制御部2、出力アンプ3、適応フィルタ(ADF)4、減算器5、音声出力部51、スピーカ52、マイク53および音声認識エンジン54を備えて構成されている。
【0017】
音声出力部51は、トークバック音声を生成して出力する処理を行う。スピーカ52は、ボリューム等1でゲイン制御され更に出力アンプ3で増幅されたトークバック音声を出力する。マイク53は、発話音声入力用のものであるが、実際には、発声された音声コマンドだけでなく、スピーカ52から出力されるトークバック音声、走行ノイズなどの周辺ノイズも全て同じマイク53に入力される。音声認識エンジン54は、マイク入力された発話音声を認識して、その発話音声に対応するコマンドを図示しない制御対象の機器(例えば、ナビゲーション装置)に対して実行する。
【0018】
適応フィルタ4は、図2に示すように、係数同定部21および音声補正フィルタ22を含んで構成されている。係数同定部21は、スピーカ52からマイク53の間における音響系の伝達関数(音声補正フィルタ22のフィルタ係数)を同定するためのフィルタであり、LMS(Least Mean Square )アルゴリズムやN−LMS(Normalized-LMS)アルゴリズムによる適応フィルタが用いられている。この係数同定部21は、減算器5から出力される誤差e(n)のパワーが最小となるように動作して音響系のインパルス応答を同定する。
【0019】
音声補正フィルタ22は、係数同定部21により決定されたフィルタ係数w(n)と、制御対象となるトークバック音声x(n)とを用いて畳み込み演算することにより、トークバック音声x(n)に対して上述の音響系と同一の伝達特性を与える。これにより、マイク53の位置におけるトークバック音声を模擬したトークバック模擬音声y(n)を生成する。このように適応フィルタ4は、本発明の適応フィルタ手段を構成する。
【0020】
減算器5は、マイク53より入力された音声(音声コマンドとトークバックと周辺ノイズとが混在した音声)から、適応フィルタ4により生成されたトークバック模擬音声y(n)を減算することにより、音声コマンド(発話音声)と周辺ノイズ(例えば走行ノイズ)とを抽出する。このように減算器5は、本発明の発話音声抽出手段を構成する。
【0021】
この減算器5により抽出された発話音声と周辺ノイズとの混在音声は、音声認識エンジン54に供給される。音声認識エンジン54は、雑音処理を行った後、音声コマンドの認識処理を行う。この際の雑音処理とは、フィルタによる処理やスペクトラムサブストラクションなど、従来の代表される処理である。なお、減算器5により抽出された発話音声および周辺ノイズの混在音声は、誤差e(n)として適応フィルタ4の係数同定部21およびゲイン制御部2にもフィードバックされる。
【0022】
ゲイン制御部2は、適応フィルタ4から出力されるトークバック模擬音声y(n)と、減算器5から出力される発話音声および周辺ノイズの混在音声e(n)とに基づいて、音声出力部51から出力される制御対象のトークバック音声に対して加える最適のゲインを算出し、この算出されたゲイン値をボリューム等1に出力する。ここでは、発話音声および周辺ノイズの混在音声e(n)をトークバック音声に対するノイズとみなして、スピーカ52から出力されるトークバック音声がユーザに明瞭に聞こえるように、当該トークバック音声のゲイン調整を行う。
【0023】
ボリューム等1は、音声出力部51より出力されたトークバック音声に対してゲイン補正を行う。すなわち、音声出力部51から入力されるトークバック音声に対して、ゲイン制御部2により算出されたゲインを与えることにより、当該トークバック音声を補正する。この補正は、例えば、複数に分割された周波数帯域のそれぞれ毎に行う。
【0024】
次に、上記のように構成した音声認識装置100の動作を簡単に説明する。音声出力部51より出力されたトークバック音声は、ボリューム等1およびゲイン制御部2によってゲイン調整が行われ、当該トークバック音声の明瞭度が改善される。ボリューム等1から出力されたトークバック音声は、出力アンプ3において所定の倍率で増幅された後、スピーカ52から出力される。
【0025】
スピーカ52から出力されたトークバック音声は、マイク53より入力される。このときユーザが音声コマンドを発声していると、その発話音声もマイク53より入力される。また、走行中であれば、エンジン音やロードノイズなどの周辺ノイズもマイク53より入力される。したがって、マイク53には、トークバック音声と発話音声と周辺ノイズとが混在した状態で入力される。この混在音声は、減算器5のプラス端に入力される。一方、減算器5のマイナス端には、適応フィルタ4により生成されたトークバック模擬音声(トークバック音声の推定値)が入力される。
【0026】
減算器5は、マイク53より入力されたトークバック音声と発話音声と周辺ノイズとの混在音声から、適応フィルタ4より入力されたトークバック模擬音声を引くことによって誤差を演算し、発話音声と周辺ノイズとを抽出する。抽出された発話音声と周辺ノイズは、音声認識エンジン54に供給される。これにより、周辺ノイズの低減処理および音声コマンドに対応した処理が実行される。また、上記抽出された発話音声と周辺ノイズは、ゲイン制御部2および適応フィルタ4にもフィードバックされ、トークバック音声の明瞭度改善処理およびトークバック音声の推定演算処理に利用される。
【0027】
図3は、第1の実施形態による音声認識処理の動作を示すフローチャートである。なお、図1には図示していないが、音声認識装置100は音声認識に関する全体の制御を行うコントローラを備えており、図3に示すフローチャートはこのコントローラの制御に従って実行される。
【0028】
図3において、コントローラが音声認識開始のトリガ(例えば、発話ボタンの押下、所定キーワードの音声入力等)を検知すると(ステップS1)、音声認識エンジン54をアクティブにして、音声入力受付状態とする(ステップS2)。この状態でユーザは、複数階層に分けて管理されている音声コマンドの最上層に当たる第1コマンドを発声する(ステップS3)。
【0029】
ここで発声された音声コマンドはマイク53から入力され、減算器5を介して音声認識エンジン54に供給される。これを受けて音声認識エンジン54は、音声認識処理(ノイズ低減処理を含む)を実行する(ステップS4)。このとき、コントローラは音声認識エンジン54を非アクティブに戻して音声入力受付状態を解除する。次に、ボリューム等1およびゲイン制御部2は、トークバック音声の明瞭度改善処理を開始する(ステップS5)。この状態で音声出力部51は、音声認識エンジン54による認識結果および案内文の音声トークバックを開始する(ステップS6)。
【0030】
このトークバックが行われている間、コントローラは、引き続き音声操作が必要か否かを判定する(ステップS7)。ここでは、更に下の階層に遷移して音声コマンドの入力を続ける必要があるか否かを判定する。引き続き音声操作が必要な場合は、音声認識エンジン54を再びアクティブにして音声入力受付状態とする(ステップS8)。その後、減算器5は、上記ステップS6で出力されたトークバック音声の推定値を適応フィルタ4から得て、これをマイク53の入力音声から減算することによって、マイク入力音声からトークバック音声を除去する(ステップS9)。
【0031】
そして、コントローラは、音声コマンドの発声があったか否かを判定する(ステップS10)。発声がない場合はステップS9に戻り、発声があるまでこのループ処理を繰り返す。なお、一定時間内に何の発声も行われない場合は、タイムアウト処理が行われる。一方、音声コマンドの発声が行われると、その時点でトークバックを中断し(ステップS11)、ステップS4の処理に戻る。なお、ここでは発話が行われたときにトークバックを中断しているが、トークバックがあってもその音声は除去されて発話音声だけが抽出されるので、必ずしもトークバックを中断する必要はない。
【0032】
図4は、本実施形態による音声入力受付状態の変化の様子を従来技術と比較して示すタイミングチャートであり、(a)は従来技術、(b)は本実施形態を示している。なお、図4(a)の動作については既に説明した。
【0033】
図4(b)に示すように、本実施形態では、ユーザが最初に発話ボタンを押すと音声認識モードになり、所定時間だけ音声入力受付状態となる。ユーザは、音声入力受付状態となっている間に所望の音声コマンドを発声する。音声コマンドが入力されると、その入力音声の認識処理およびトークバック処理が行われる。ここまでの動作は、図4(a)に示す従来技術と同じである。
【0034】
図4(a)に示す従来技術では、トークバックが行われている間は音声入力を受け付けない状態とされていた。これに対して、図4(b)に示す本実施形態では、認識処理が終わった段階で自動的に音声入力受付状態となり、トークバックが終了するまで待たずに、好きなタイミングで次の音声入力をすることが可能となる。これにより待ち時間を少なくすることができる。
【0035】
以上詳しく説明したように、本実施形態によれば、トークバック時においても音声入力を随時受け付け、トークバックが終了するのを待たずに好きなタイミングで音声入力をすることができるようになる。しかも、発話をするたびに発話ボタンを押す必要もない。これにより、煩雑なボタン操作を行うことなく、一連の音声認識にかかる操作時間を短縮することができる。
【0036】
また、本実施形態では、トークバック音声の明瞭度改善のために設けられている適応フィルタ4で推定した模擬音声を利用して、マイク入力音声からトークバック音声を除去している。そのため、トークバック音声除去のために、専用の適応フィルタを別に導入する必要がない。これにより、コストアップを招くことなく、トークバック音声の明瞭度を改善すると同時に、音声認識操作時間の短縮を図ることができる。
【0037】
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。図5は、第2の実施形態による音声認識装置の要部構成を示すブロック図である。なお、この図5において、図1に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
【0038】
図5に示すように、本実施形態の音声認識装置200は、図1に示した構成に加え、出力アンプ6−1,6−2、第2の適応フィルタ7−1,7−2、加算器8、減算器9、オーディオ再生部61および複数チャンネル(右チャンネル、左チャンネル)のスピーカ62−1,62−2を備えて構成されている。
【0039】
オーディオ再生部61は、CD(Compact Disc)、MD(Mini Disc)、DVD(Digital Versatile Disk)、ラジオ放送等の各種オーディオソースを再生するものである。出力アンプ6−1,6−2は、オーディオ再生部61により再生された左右チャンネルのオーディオ音を所定の倍率で増幅し、各チャンネルのスピーカ62−1,62−2から出力する。スピーカ62−1,62−2から出力されたオーディオ音は、発話音声およびスピーカ52からのトークバック音声と共にマイク53に入力される。
【0040】
第2の適応フィルタ7−1,7−2も図2のように構成されている。一方の適応フィルタ7−1は、右チャンネルのスピーカ62−1からマイク53までの伝達系を模擬したフィルタ係数を同定し、右チャンネルのオーディオ音をフィルタ処理することによって右チャンネルのオーディオ模擬音を生成する。
【0041】
また、他方の適応フィルタ7−2は、左チャンネルのスピーカ62−2からマイク53までの伝達系を模擬したフィルタ係数を同定し、左チャンネルのオーディオ音をフィルタ処理することによって左チャンネルのオーディオ模擬音を生成する。
【0042】
このように、第2の実施形態では、適応フィルタ4が本発明による第1の適応フィルタ手段を構成し、第2の適応フィルタ7−1,7−2が本発明による第2の適応フィルタ手段を構成する。加算器8は、第2の適応フィルタ7−1,7−2から出力される左右チャンネルのオーディオ模擬音を加算して減算器9に出力する。
【0043】
本実施形態において減算器5は、マイク53より入力された音声(音声コマンドとトークバックとオーディオ音と周辺ノイズとが混在した音声)から、適応フィルタ4により生成されたトークバック模擬音声を減算することによって、音声コマンドとオーディオ音と周辺ノイズとを抽出する。さらに、減算器9は、減算器5より出力された音声から、適応フィルタ7−1,7−2および加算器8により生成されたオーディオ模擬音を減算することによって音声コマンド(発話音声)と周辺ノイズとを抽出する。このように減算器5,9は、本発明の発話音声抽出手段を構成する。
【0044】
減算器5により抽出された音声コマンドとオーディオ音と周辺ノイズとの混在音声のうち、周辺ノイズは音声認識エンジン54によって低減され、音声コマンドのみが認識処理される。また、この減算器5により抽出された発話音声とオーディオ音と周辺ノイズとの混在音声は、ゲイン制御部2および適応フィルタ4にフィードバックされる。また、減算器9により抽出された発話音声と周辺ノイズとの混在音声は、音声認識エンジン54に供給されるとともに、第2の適応フィルタ7−1,7−2にフィードバックされる。
【0045】
次に、上記のように構成した第2の実施形態による音声認識装置200の動作を簡単に説明する。音声出力部51より出力されたトークバック音声は、ボリューム等1およびゲイン制御部2によってゲイン調整が行われ、当該トークバック音声の明瞭度が改善される。ボリューム等1から出力されたトークバック音声は、出力アンプ3において所定の倍率で増幅された後、スピーカ52から出力される。
【0046】
また、オーディオ再生部61より出力されたオーディオ音は、出力アンプ6−1,6−2において所定の倍率で増幅された後、スピーカ62−1,62−2から出力される。
【0047】
スピーカ52から出力されたトークバック音声と、スピーカ62−1,62−2から出力されたオーディオ音は、マイク53より入力される。このときユーザが音声コマンドを発声していると、その発話音声もマイク53より入力される。また、走行中であれば、エンジン音やロードノイズなどの周辺ノイズもマイク53より入力される。したがって、マイク53には、トークバック音声とオーディオ音と発話音声と周辺ノイズとが混在した状態で入力される。
【0048】
この混在音声は、減算器5のプラス端に入力される。一方、減算器5のマイナス端には、適応フィルタ4により生成されたトークバック模擬音声が入力される。減算器5は、マイク53より入力された混在音声から、適応フィルタ4より出力されるトークバック模擬音声を引くことによって誤差を演算し、オーディオ音と発話音声と周辺ノイズとを抽出する。
【0049】
抽出されたオーディオ音と発話音声と周辺ノイズとの混在音声は、減算器9のプラス端に入力される。一方、減算器9のマイナス端には、適応フィルタ7−1,7−2および加算器8により生成されたオーディオ模擬音が入力される。減算器9は、減算器5より入力された混在音声から、加算器8より入力されたオーディオ模擬音を引くことによって誤差を演算し、発話音声と周辺ノイズとを抽出する。
【0050】
抽出された発話音声および周辺ノイズは、音声認識エンジン54に供給される。これにより、周辺ノイズの低減処理および音声コマンドに対応した処理が実行される。減算器5で抽出されたオーディオ音と発話音声と周辺ノイズは、ゲイン制御部2および適応フィルタ4にもフィードバックされ、トークバック音声の明瞭度改善処理およびトークバック音声の推定演算処理に利用される。また、減算器9で抽出された発話音声と周辺ノイズは、適応フィルタ7−1,7−2にもフィードバックされ、オーディオ音の推定演算処理に利用される。
【0051】
図6は、第2の実施形態による音声認識処理の動作を示すフローチャートである。なお、この図6において、図3に示したステップ番号と同一の番号を付した処理は同一の処理内容を示すものであるので、ここでは重複する説明を省略する。図6において図3と異なるのは、ステップS2とステップS3との間、ステップS9とステップS10との間にそれぞれオーディオ音の除去処理(ステップS21,S22)が入っていることのみである。
【0052】
ステップS21,S22におけるオーディオ音の除去処理では、減算器9によって、加算器8から入力されるオーディオ音の推定値を減算器5の出力音声から減算することにより、オーディオ音と発話音声と周辺ノイズとの混在音声からオーディオ音を除去し、発話音声と周辺ノイズとを抽出する。
【0053】
以上詳しく説明したように、第2の実施形態によれば、トークバックが行われていて、かつ、オーディオ再生が行われているときに音声入力をしても、マイク入力音声からトークバック音声とオーディオ音とを除去し、発話音声と周辺ノイズとを抽出して音声認識エンジン54に供給することができる。よって、トークバックとオーディオ再生とが行われている最中においても音声入力を随時受け付け、好きなタイミングで音声入力をすることができるようになり、音声認識の操作時間を短縮することができる。
【0054】
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。図7は、第3の実施形態による音声認識装置の要部構成を示すブロック図である。なお、この図7において、図5に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
【0055】
上記図5に示す第2の実施形態は、トークバック音声の出力先とオーディオ音の出力先とが異なる場合について説明した。これに対して図7に示す第3の実施形態は、トークバック音声の出力先とオーディオ音の出力先とが同じの場合を示している。
【0056】
すなわち、図7に示す第3の実施形態による音声認識装置300では、図5に示した出力アンプ3がなく、2つの出力アンプ6−1,6−2のみを備えている。また、本実施形態の音声認識装置300は、図5に示した適応フィルタ4の代わりに可変フィルタ10を備え、加算器11を更に備えて構成されている。その他の構成は図5と同様である。
【0057】
図7において、加算器11は、ボリューム等1より出力されたトークバック音声と、オーディオ再生部61により再生された右チャンネルのオーディオ音とを加算して出力アンプ6−1および適応フィルタ7−1に出力する。出力アンプ6−1は、加算器11より出力された音声を所定の倍率で増幅し、右チャンネルのスピーカ62−1から出力する。
【0058】
また、適応フィルタ7−1は、右チャンネルのスピーカ62−1からマイク53までの伝達系を模擬したフィルタ係数を同定する。そして、この同定したフィルタ係数を用いて、加算器11から出力されるトークバック音声と右チャンネルのオーディオ音との混在音声をフィルタ処理することによって、当該混在音声を模擬した音声を生成する。
【0059】
可変フィルタ10は、フィルタ係数が可変に構成された音声補正フィルタであり、右チャンネルの適応フィルタ7−1により同定されたフィルタ係数をコピーして設定する。そして、ボリューム等1より出力されたトークバック音声をフィルタ処理することにより、マイク53の位置でのトークバック模擬音声を生成する。この可変フィルタ10は、本発明の可変フィルタ手段を構成する。
【0060】
ここで、可変フィルタ10に対するフィルタ係数のコピー元である右チャンネルの適応フィルタ7−1は、トークバック音声が出力される右チャンネルのスピーカ62−1からマイク53までの伝達系を模擬する適応フィルタである。例えば、本実施形態の音声認識装置300をナビゲーション装置に適用する場合、運転席の近くに設置された右チャンネルのスピーカ62−1からトークバック音声が出力され、それが入力されるマイク53も運転席の近くに設置される。したがって、この場合は右チャンネルの適応フィルタ7−1のフィルタ係数を可変フィルタ10にコピーするのが好ましい。なお、運転席が左側にある場合は、左チャンネルの適応フィルタ7−2のフィルタ係数を可変フィルタ10にコピーするのが好ましい。
【0061】
次に、上記のように構成した第3の実施形態による音声認識装置300の動作を簡単に説明する。音声出力部51より出力されたトークバック音声は、ボリューム等1およびゲイン制御部2によってゲイン調整が行われ、当該トークバック音声の明瞭度が改善される。
【0062】
ボリューム等1から出力されたトークバック音声は、オーディオ再生部61により再生された右チャンネルのオーディオ音と加算器11で加算され、出力アンプ6−1において所定の倍率で増幅された後、スピーカ62−1から出力される。また、オーディオ再生部61により再生された左チャンネルのオーディオ音は、出力アンプ6−2において所定の倍率で増幅された後、スピーカ62−2から出力される。
【0063】
スピーカ62−1から出力された音声(トークバック音声と右チャンネルオーディオ音との混在音声)と、スピーカ62−2から出力された左チャンネルオーディオ音とは、マイク53より入力される。このときユーザが音声コマンドを発声していると、その発話音声もマイク53より入力される。また、走行中であれば、エンジン音やロードノイズなどの周辺ノイズもマイク53より入力される。したがって、マイク53からは、トークバック音声と左右チャンネルのオーディオ音と発話音声と周辺ノイズとが混在した音声が入力される。
【0064】
この混在音声は、減算器5,9のプラス端に入力される。減算器5のマイナス端には、可変フィルタ10により生成されたトークバック模擬音声が入力される。減算器5は、マイク53より入力された混在音声から、可変フィルタ10より出力されるトークバック模擬音声を引くことによって誤差を演算し、オーディオ音と発話音声と周辺ノイズとを抽出する。抽出されたオーディオ音と発話音声と周辺ノイズとの混在音声は、ゲイン制御部2にフィードバックされ、トークバック音声の明瞭度改善処理に利用される。
【0065】
上記加算器11より出力されたトークバック音声と右チャンネルオーディオ音との混在音声は、適応フィルタ7−1にも入力される。そして、この適応フィルタ7−1によって、トークバック音声と右チャンネルオーディオ音との混在模擬音声が生成される。一方、適応フィルタ7−2において、左チャンネルのオーディオ模擬音が生成される。
【0066】
そして、これらの適応フィルタ7−1,7−2により生成された模擬音声が加算器8で加算され、その結果が減算器9のマイナス端に入力される。減算器9は、減算器5より入力された混在音声から、加算器8より入力されたトークバック音声とオーディオ音との混在模擬音声を引くことによって誤差を演算し、発話音声と周辺ノイズとを抽出する。
【0067】
減算器9で抽出された発話音声および周辺ノイズは、音声認識エンジン54に供給される。これにより、周辺ノイズの低減処理および音声コマンドに対応した処理が実行される。また、当該減算器9で抽出された発話音声と周辺ノイズは、適応フィルタ7−1,7−2にもフィードバックされ、オーディオ音の推定演算処理に利用される。
【0068】
なお、第3の実施形態による音声認識処理の動作は、図6に示したフローチャートと同様であるので、ここでは説明を省略する。
【0069】
以上詳しく説明したように、第3の実施形態においても第2の実施形態と同様に、トークバックとオーディオ再生とが行われているときでも音声入力を随時受け付け、好きなタイミングで音声入力をすることができる。また、第3の実施形態によれば、フィルタ係数の同定を行うためのアルゴリズムを含んだ高度な適応フィルタをトークバック音声推定用に用意する必要がなく、その分コストを削減することができる。さらに、可変フィルタ10にはフィルタ係数をコピーするだけで良く、フィルタ係数を同定するための演算処理を行う必要がないので、処理負荷を軽減することができるというメリットも有する。
【0070】
なお、以上第1〜第3の実施形態について説明したが、これらは本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその精神、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【0071】
【発明の効果】
本発明は上述したように、スピーカから出力されマイクに入力されるトークバック音声を適応フィルタにより推定して、その推定値をマイク入力音声から減算することにより、発話音声とその他の音声とが混在しているマイク入力音声から発話音声だけを抽出するようにしたので、発話のたびに発話ボタンを押してトークバックを中断させるといった面倒な操作をしなくても、トークバック中の任意のタイミングで音声入力を随時行うことができるようになる。これにより、煩雑な操作を行うことなく、音声認識の操作時間を短縮することができる。
【図面の簡単な説明】
【図1】第1の実施形態による音声認識装置の要部構成を示すブロック図である。
【図2】適応フィルタの構成を示す図である。
【図3】第1の実施形態による音声認識処理の動作を示すフローチャートである。
【図4】本実施形態による音声入力受付状態の変化の様子を従来技術と比較して示すタイミングチャートである。
【図5】第2の実施形態による音声認識装置の要部構成を示すブロック図である。
【図6】第2の実施形態による音声認識処理の動作を示すフローチャートである。
【図7】第3の実施形態による音声認識装置の要部構成を示すブロック図である。
【符号の説明】
1 ボリューム又はイコライザ
2 ゲイン制御部
3 出力アンプ
4 適応フィルタ
5 減算器
6−1,6−2 出力アンプ
7−1,7−2 適応フィルタ
8 加算器
9 減算器
10 可変フィルタ
11 加算器[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice recognition apparatus and method for controlling a device by recognizing a voice command uttered by a user, and more particularly, to a voice recognition apparatus having a talkback function for feeding back a recognized utterance voice to a user. Is preferred.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, in the fields of navigation devices, hands-free devices, personal computers (personal computers), etc. mounted on vehicles, devices using voice recognition devices in addition to remote controls, touch panels, keyboards, mice, and the like can be used. It is possible to operate.
[0003]
In this type of speech recognition apparatus, a speech recognition mode is entered by pressing a provided speech button, and a command is executed by recognizing the user's speech. There are two main ways of speaking. The first method is a method in which when the user presses the utterance button once, the voice recognition mode is set, and the user and the device interact with each other by prompting the user to input a voice as necessary. The second method is a method that enables voice input for a predetermined time each time the user presses the utterance button.
[0004]
Most speech recognition apparatuses have a talkback function that feeds back the recognized speech sound to a user from a speaker or the like. The user listens to the talk-backed voice to check whether it is correct. If the voice is incorrect, the user inputs the voice again, and if correct, instructs the voice recognition device to that effect. The voice recognition apparatus executes various controls upon receiving this instruction.
[0005]
Usually, a plurality of voice commands prepared in the voice recognition apparatus are managed in a plurality of layers according to the operation contents for the device to be controlled. For example, when a destination is set by an address in the navigation device, the address is divided into a plurality of layers and input by voice, such as “prefecture → city / town → remaining address”.
[0006]
In this case, talkback is performed every time voice is input in each layer, and thus it often takes a long time to complete a series of voice inputs. In contrast, attempts have been made to shorten the speech recognition time. As an example, an apparatus has been proposed in which the amount of talkback computation is reduced to shorten the recognition time (see, for example, Patent Document 1).
[0007]
[Patent Document 1]
JP-A-6-149287
[0008]
[Problems to be solved by the invention]
However, in the conventional speech recognition apparatus, the next speech input is not accepted during talkback. This is because when the talkback sound is mixed with the utterance voice, erroneous recognition of the utterance voice is likely to occur. FIG. 4A is a timing chart showing a state of change in the voice input acceptance state related to the conventional voice recognition apparatus. FIG. 4A shows the change in the voice input acceptance state related to the first utterance method described above.
[0009]
As shown in FIG. 4A, in the first utterance method, when the user first presses the utterance button, the voice recognition mode is set, and the voice input acceptance state is set for a predetermined time. The user utters a desired voice command while in the voice input acceptance state. When speech is performed, the speech recognition apparatus performs recognition processing and talkback processing of the input speech, but during this time, speech input is not accepted. When the talkback ends, the voice input acceptance state is entered again, and the next voice input becomes possible.
[0010]
As described above, in the first utterance method, the next voice input is not accepted until the talkback is completed, and therefore the voice cannot be uttered at the user's favorite timing. That is, there is a problem that it takes a long time to input a series of voices because it is necessary to wait until the talkback is finished.
[0011]
On the other hand, according to the second speech method, the talkback can be interrupted by pressing the speech button, and the next voice input can be performed. However, in this case, when performing voice input over a plurality of hierarchies, there is a problem that the speech button must be pressed every time voice input is performed in each hierarchy, and the operation becomes very complicated.
[0012]
The present invention has been made to solve such a problem, and it is possible to shorten the operation time of voice recognition without performing a complicated operation such as pressing a speech button many times. Objective.
[0013]
[Means for Solving the Problems]
In order to solve the above-described problems, in the speech recognition apparatus of the present invention, the talkback speech output from the speaker and input to the microphone is simulated by the adaptive filter means, and the talkback simulated speech is subtracted from the microphone input speech. By doing so, only the utterance voice is extracted from the microphone input voice in which the utterance voice and the talkback voice are mixed.
[0014]
According to the present invention configured as described above, even if speech input is performed during talkback, the talkback speech is removed, and only the speech speech is extracted and supplied to the speech recognition engine. It will be. As a result, it is possible to suppress the inconvenience of erroneous recognition of the uttered voice even if voice input is performed during talkback, and it is possible to accept voice input at any time even during talkback.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
(First embodiment)
DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, a first embodiment of the invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a main configuration of the speech recognition apparatus according to the first embodiment.
[0016]
As shown in FIG. 1, the
[0017]
The
[0018]
As shown in FIG. 2, the
[0019]
The
[0020]
The
[0021]
The mixed voice of the uttered voice and the ambient noise extracted by the
[0022]
Based on the talkback simulated speech y (n) output from the
[0023]
The volume or the like 1 performs gain correction on the talkback sound output from the
[0024]
Next, the operation of the
[0025]
The talkback sound output from the
[0026]
The
[0027]
FIG. 3 is a flowchart showing the operation of the speech recognition process according to the first embodiment. Although not shown in FIG. 1, the
[0028]
In FIG. 3, when the controller detects a voice recognition start trigger (for example, pressing of a speech button, voice input of a predetermined keyword, etc.) (step S1), the
[0029]
The voice command uttered here is input from the
[0030]
While this talkback is being performed, the controller determines whether or not a voice operation is still necessary (step S7). Here, it is determined whether or not it is necessary to move to a lower hierarchy and continue to input voice commands. If the voice operation is still necessary, the
[0031]
Then, the controller determines whether or not a voice command has been uttered (step S10). If there is no utterance, the process returns to step S9, and this loop processing is repeated until there is utterance. If no utterance is made within a certain time, a timeout process is performed. On the other hand, when a voice command is issued, the talkback is interrupted at that time (step S11), and the process returns to step S4. Note that the talkback is interrupted when an utterance is made here, but even if there is a talkback, the voice is removed and only the utterance voice is extracted, so it is not always necessary to interrupt the talkback. .
[0032]
FIG. 4 is a timing chart showing the state of change in the voice input acceptance state according to the present embodiment in comparison with the prior art. FIG. 4A shows the prior art, and FIG. 4B shows the present embodiment. Note that the operation of FIG. 4A has already been described.
[0033]
As shown in FIG. 4B, in this embodiment, when the user first presses the speech button, the voice recognition mode is set, and the voice input reception state is set for a predetermined time. The user utters a desired voice command while in the voice input acceptance state. When a voice command is input, recognition processing and talkback processing for the input voice are performed. The operation so far is the same as that of the prior art shown in FIG.
[0034]
In the prior art shown in FIG. 4A, a voice input is not accepted while talkback is being performed. On the other hand, in the present embodiment shown in FIG. 4B, the voice input is automatically accepted when the recognition process is completed, and the next voice can be played at a desired timing without waiting until the talkback is finished. It becomes possible to input. This can reduce the waiting time.
[0035]
As described above in detail, according to the present embodiment, voice input can be received at any time even during talkback, and voice input can be performed at any timing without waiting for the talkback to end. Moreover, it is not necessary to press the utterance button every time an utterance is made. Thereby, the operation time required for a series of voice recognition can be shortened without performing complicated button operations.
[0036]
In this embodiment, the talkback sound is removed from the microphone input sound by using the simulated sound estimated by the
[0037]
(Second Embodiment)
Next, a second embodiment of the present invention will be described. FIG. 5 is a block diagram showing a main configuration of the speech recognition apparatus according to the second embodiment. In FIG. 5, those given the same reference numerals as those shown in FIG. 1 have the same functions, and therefore redundant description is omitted here.
[0038]
As shown in FIG. 5, the
[0039]
The
[0040]
The second adaptive filters 7-1 and 7-2 are also configured as shown in FIG. One adaptive filter 7-1 identifies a filter coefficient that simulates the transmission system from the right channel speaker 62-1 to the
[0041]
The other adaptive filter 7-2 identifies a filter coefficient simulating the transmission system from the left channel speaker 62-2 to the
[0042]
Thus, in the second embodiment, the
[0043]
In the present embodiment, the
[0044]
Of the mixed voice of the voice command, the audio sound, and the ambient noise extracted by the
[0045]
Next, the operation of the
[0046]
The audio sound output from the
[0047]
The talkback sound output from the
[0048]
This mixed sound is input to the plus end of the
[0049]
The extracted mixed sound of the audio sound, the speech sound and the ambient noise is input to the plus end of the
[0050]
The extracted speech voice and ambient noise are supplied to the
[0051]
FIG. 6 is a flowchart showing the operation of the speech recognition process according to the second embodiment. In FIG. 6, the processing given the same number as the step number shown in FIG. 3 indicates the same processing content, and therefore, duplicate description is omitted here. 6 is different from FIG. 3 only in that an audio sound removal process (steps S21 and S22) is included between steps S2 and S3 and between steps S9 and S10.
[0052]
In the audio sound removal processing in steps S21 and S22, the
[0053]
As described above in detail, according to the second embodiment, even if voice input is performed while talkback is being performed and audio playback is being performed, the talkback voice is converted from the microphone input voice. The audio sound can be removed, and the uttered voice and the ambient noise can be extracted and supplied to the
[0054]
(Third embodiment)
Next, a third embodiment of the present invention will be described. FIG. 7 is a block diagram showing a main configuration of the speech recognition apparatus according to the third embodiment. In FIG. 7, components having the same reference numerals as those shown in FIG. 5 have the same functions, and thus redundant description is omitted here.
[0055]
In the second embodiment shown in FIG. 5, the case where the output destination of the talkback sound is different from the output destination of the audio sound has been described. On the other hand, the third embodiment shown in FIG. 7 shows a case where the output destination of the talkback sound and the output destination of the audio sound are the same.
[0056]
That is, in the
[0057]
In FIG. 7, an
[0058]
The adaptive filter 7-1 identifies filter coefficients that simulate the transmission system from the right channel speaker 62-1 to the
[0059]
The
[0060]
Here, the right-channel adaptive filter 7-1 that is the copy source of the filter coefficient for the
[0061]
Next, the operation of the
[0062]
The talkback sound output from the
[0063]
The sound output from the speaker 62-1 (mixed sound of talkback sound and right channel audio sound) and the left channel audio sound output from the speaker 62-2 are input from the
[0064]
This mixed sound is input to the positive ends of the
[0065]
The mixed sound of the talkback sound and the right channel audio sound output from the
[0066]
The simulated voices generated by the adaptive filters 7-1 and 7-2 are added by the adder 8 and the result is input to the minus end of the
[0067]
The speech voice and ambient noise extracted by the
[0068]
Note that the operation of the speech recognition process according to the third embodiment is the same as that in the flowchart shown in FIG.
[0069]
As described above in detail, in the third embodiment, as in the second embodiment, even when talkback and audio playback are being performed, voice input is accepted at any time, and voice input is performed at a desired timing. be able to. Further, according to the third embodiment, it is not necessary to prepare an advanced adaptive filter including an algorithm for identifying filter coefficients for talkback speech estimation, and the cost can be reduced correspondingly. Furthermore, it is only necessary to copy the filter coefficient to the
[0070]
Although the first to third embodiments have been described above, these are merely examples of implementation in carrying out the present invention, and thus the technical scope of the present invention is limitedly interpreted. It must not be done. In other words, the present invention can be implemented in various forms without departing from the spirit or main features thereof.
[0071]
【The invention's effect】
In the present invention, as described above, the talkback sound output from the speaker and input to the microphone is estimated by the adaptive filter, and the estimated value is subtracted from the microphone input sound, so that the speech sound and other sounds are mixed. Since only the utterance voice is extracted from the microphone input voice, the utterance is interrupted by pressing the utterance button for each utterance, and the voice can be heard at any timing during the talkback. Input can be performed at any time. Thereby, the operation time for voice recognition can be shortened without performing a complicated operation.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a main configuration of a speech recognition apparatus according to a first embodiment.
FIG. 2 is a diagram illustrating a configuration of an adaptive filter.
FIG. 3 is a flowchart showing an operation of speech recognition processing according to the first embodiment.
FIG. 4 is a timing chart showing the state of change in the voice input acceptance state according to the present embodiment in comparison with the prior art.
FIG. 5 is a block diagram showing a main configuration of a speech recognition apparatus according to a second embodiment.
FIG. 6 is a flowchart showing an operation of speech recognition processing according to the second embodiment.
FIG. 7 is a block diagram showing a main configuration of a speech recognition apparatus according to a third embodiment.
[Explanation of symbols]
1 Volume or equalizer
2 Gain controller
3 Output amplifier
4 Adaptive filter
5 Subtractor
6-1, 6-2 Output amplifier
7-1, 7-2 Adaptive filter
8 Adder
9 Subtractor
10 Variable filter
11 Adder
Claims (11)
上記スピーカから出力されたトークバック音声が上記マイクに入力される伝達系を模擬したフィルタ係数を設定し、上記スピーカから出力される前のトークバック音声をフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成する適応フィルタ手段と、
上記マイクより入力された音声から上記トークバック模擬音声を減算することによって発話音声を抽出する発話音声抽出手段と、
上記適応フィルタ手段により生成された上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記スピーカから出力される前のトークバック音声に対するノイズとみなして、上記スピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記スピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記スピーカから出力される前のトークバック音声の明瞭度改善処理を行う明瞭度改善処理手段とを備え、
上記適応フィルタ手段は、上記誤差音のパワーが最小となるように動作して上記フィルタ係数を設定することを特徴とする音声認識装置。A speech recognition device having a function of recognizing a speech voice input from a microphone and talking back from a speaker,
A filter coefficient simulating a transmission system in which the talkback sound output from the speaker is input to the microphone is set, and the talkback sound before being output from the speaker is filtered to filter at the position of the microphone. Adaptive filter means for generating talkback simulated speech;
Utterance voice extraction means for extracting the utterance voice by subtracting the talkback simulated voice from the voice input from the microphone;
The error sound is output from the speaker by using the talkback simulated sound generated by the adaptive filter means and the error sound obtained by subtracting the talkback simulated sound from the sound input from the microphone. A gain value to be added to the talkback sound before being output from the speaker is calculated as noise with respect to the previous talkback sound, and the talkback sound before being output from the speaker is calculated based on the calculated gain value. And a clarity improvement processing means for performing a clarity improvement processing of the talkback sound before being output from the speaker by performing gain correction on the speaker,
The adaptive filter means operates so as to minimize the power of the error sound, and sets the filter coefficient.
第1のスピーカから出力されたトークバック音声が上記マイクに入力される伝達系を模擬した第1のフィルタ係数を設定し、上記第1のスピーカから出力される前のトークバック音声をフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成する第1の適応フィルタ手段と、
第2のスピーカから出力されたオーディオ音が上記マイクに入力される伝達系を模擬した第2のフィルタ係数を設定し、上記第2のスピーカから出力される前のオーディオ音をフィルタ処理することによって上記マイクの位置でのオーディオ模擬音を生成する第2の適応フィルタ手段と、
上記マイクより入力された音声から上記トークバック模擬音声および上記オーディオ模擬音を減算することによって発話音声を抽出する発話音声抽出手段と、
上記第1の適応フィルタ手段により生成された上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記第1のスピーカから出力される前のトークバック音声に対するノイズとみなして、上記第1のスピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記第1のスピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記第1のスピーカから出力される前のトークバック音声の明瞭度改善処理を行う明瞭度改善処理手段とを備え、
上記第1の適応フィルタ手段は、上記誤差音のパワーが最小となるように動作して上記第1のフィルタ係数を設定し、
上記第2の適応フィルタ手段は、上記マイクより入力された音声から上記トークバック模擬音声および上記オーディオ模擬音を減算することによって得られる第2の誤差音のパワーが最小となるように動作して上記第2のフィルタ係数を設定することを特徴とする音声認識装置。A speech recognition device having a function of recognizing a speech voice input from a microphone and talking back from a speaker,
A first filter coefficient simulating a transmission system in which the talkback sound output from the first speaker is input to the microphone is set, and the talkback sound before being output from the first speaker is filtered. First adaptive filter means for generating talkback simulated speech at the position of the microphone,
By setting a second filter coefficient simulating a transmission system in which the audio sound output from the second speaker is input to the microphone, and filtering the audio sound before being output from the second speaker Second adaptive filter means for generating simulated audio at the microphone location;
Utterance voice extraction means for extracting utterance voice by subtracting the talkback simulation voice and the audio simulation sound from the voice input from the microphone;
Using the talkback simulated sound generated by the first adaptive filter means and the error sound obtained by subtracting the talkback simulated sound from the sound input from the microphone, the error sound is converted into the first error sound. A gain value to be added to the talkback sound before being output from the first speaker is calculated as noise for the talkback sound before being output from the first speaker, and the first gain is calculated based on the calculated gain value. Clarity improvement processing means for performing intelligibility improvement processing of the talkback sound before being output from the first speaker by performing gain correction on the talkback sound before being output from the first speaker. ,
The first adaptive filter means operates so as to minimize the power of the error sound and sets the first filter coefficient.
The second adaptive filter means operates so that the power of the second error sound obtained by subtracting the talkback simulated sound and the audio simulated sound from the sound input from the microphone is minimized. A speech recognition apparatus, wherein the second filter coefficient is set.
上記スピーカから出力されたトークバック音声とオーディオ音との混在音声が上記マイクに入力される伝達系を模擬したフィルタ係数を設定し、上記スピーカから出力される前の混在音声をフィルタ処理することによって上記マイクの位置での混在模擬音声を生成する適応フィルタ手段と、
上記マイクより入力された音声から上記混在模擬音声を減算することにより発話音声を抽出する発話音声抽出手段と、
上記適応フィルタ手段により設定されたフィルタ係数を複写して設定し、上記スピーカから出力される前のトークバック音声をフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成する可変フィルタ手段と、
上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記スピーカから出力される前のトークバック音声に対するノイズとみなして、上記スピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記スピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記スピーカから出力される前のトークバック音声の明瞭度改善処理を行う明瞭度改善処理手段とを備え、
上記適応フィルタ手段は、上記マイクより入力された音声から上記混在模擬音声を減算して得られる第3の誤差音のパワーが最小となるように動作して上記フィルタ係数を設定することを特徴とする音声認識装置。A speech recognition device having a function of recognizing a speech voice input from a microphone and talking back from a speaker,
By setting a filter coefficient that simulates a transmission system in which a mixed sound of talkback sound and audio sound output from the speaker is input to the microphone, and filtering the mixed sound before being output from the speaker Adaptive filter means for generating mixed simulated speech at the microphone location;
Utterance voice extraction means for extracting the utterance voice by subtracting the mixed simulated voice from the voice input from the microphone;
Variable filter means for generating a talkback simulated sound at the microphone position by copying and setting the filter coefficient set by the adaptive filter means and filtering the talkback sound before being output from the speaker When,
Using the talkback simulated sound and the error sound obtained by subtracting the talkback simulated sound from the sound input from the microphone, the error sound is a noise with respect to the talkback sound before being output from the speaker, and As a result, a gain value to be added to the talkback sound before being output from the speaker is calculated, and gain correction is performed on the talkback sound before being output from the speaker by the calculated gain value. And a clarity improving processing means for performing a clarity improving process of the talkback sound before being output from the speaker,
The adaptive filter means operates so as to minimize the power of the third error sound obtained by subtracting the mixed simulated sound from the sound input from the microphone, and sets the filter coefficient. Voice recognition device.
上記適応フィルタ手段は、上記少なくとも1つのスピーカから出力される或るチャンネルのオーディオ音と上記トークバック音声との混在音声に対応して設けられていることを特徴とする請求項4に記載の音声認識装置。A plurality of channels of audio sound is output from a plurality of speakers, and the talkback sound is also output from at least one of the speakers.
5. The sound according to claim 4, wherein the adaptive filter means is provided corresponding to a mixed sound of an audio sound of a certain channel output from the at least one speaker and the talkback sound. Recognition device.
上記他の適応フィルタ手段は、上記マイクより入力された音声から上記混在模擬音声および上記オーディオ模擬音を減算して得られる第4の誤差音のパワーが最小となるように動作して上記第2のフィルタ係数を設定し、
上記発話音声抽出手段は、上記マイクより入力された音声から上記混在模擬音声および上記オーディオ模擬音を減算することによって上記発話音声を抽出することを特徴とする請求項5に記載の音声認識装置。Audio before being output from the other speaker by setting a second filter coefficient simulating a transmission system in which the audio sound of the other channel output from the other speaker among the plurality of speakers is input to the microphone Further comprising other adaptive filter means for generating simulated audio at the microphone location by filtering the sound,
The other adaptive filter means operates so as to minimize the power of the fourth error sound obtained by subtracting the mixed simulated sound and the audio simulated sound from the sound input from the microphone. Set the filter coefficient of
6. The speech recognition apparatus according to claim 5, wherein the utterance speech extraction unit extracts the utterance speech by subtracting the mixed simulated speech and the audio simulated sound from speech input from the microphone.
上記認識処理部によって認識された発話音声をスピーカからトークバックする処理を開始する際に、音声入力を受け付けるアクティブ状態に設定するステップと、
上記スピーカから出力されたトークバック音声が上記マイクに入力される伝達系を模擬したフィルタ係数を適応フィルタに設定し、上記スピーカから出力される前のトークバック音声をフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成するステップと、
上記アクティブ状態の設定時に上記マイクより入力された音声から上記トークバック模擬音声を減算することにより発話音声を抽出して上記認識処理部に供給するステップと、
上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記スピーカから出力される前のトークバック音声に対するノイズとみなして、上記スピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記スピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記スピーカから出力される前のトークバック音声の明瞭度改善処理を行うステップとを有し、
上記トークバック模擬音声を生成するステップでは、上記適応フィルタが、上記誤差音のパワーが最小となるように動作して上記フィルタ係数を設定することを特徴とする音声認識方法。A step of setting an inactive state in which voice input is not accepted when the recognition processing unit performs recognition processing on speech sound input from a microphone;
A step of setting an active state for receiving voice input when starting a process of talking back from the speaker the uttered voice recognized by the recognition processing unit;
A filter coefficient that simulates a transmission system in which the talkback sound output from the speaker is input to the microphone is set in an adaptive filter, and the talkback sound before being output from the speaker is filtered to filter the microphone. Generating talkback simulated audio at a location;
Extracting the utterance voice by subtracting the talkback simulated voice from the voice inputted from the microphone when the active state is set, and supplying the utterance voice to the recognition processing unit;
Using the talkback simulated sound and the error sound obtained by subtracting the talkback simulated sound from the sound input from the microphone, the error sound is a noise with respect to the talkback sound before being output from the speaker, and As a result, a gain value to be added to the talkback sound before being output from the speaker is calculated, and gain correction is performed on the talkback sound before being output from the speaker by the calculated gain value. And a process for improving the clarity of the talkback sound before being output from the speaker,
In the step of generating the talkback simulated voice , the adaptive filter operates so as to minimize the power of the error sound and sets the filter coefficient.
上記認識処理部によって認識された発話音声を第1のスピーカからトークバックする処理を開始する際に、音声入力を受け付けるアクティブ状態に設定するステップと、
上記第1のスピーカから出力されたトークバック音声が上記マイクに入力される伝達系を模擬した第1のフィルタ係数を第1の適応フィルタに設定し、上記第1のスピーカから出力される前のトークバック音声をフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成するステップと、
第2のスピーカから出力されたオーディオ音が上記マイクに入力される伝達系を模擬した第2のフィルタ係数を第2の適応フィルタに設定し、上記第2のスピーカから出力される前のオーディオ音をフィルタ処理することによって上記マイクの位置でのオーディオ模擬音を生成するステップと、
上記アクティブ状態の設定時に上記マイクより入力された音声から上記トークバック模擬音声および上記オーディオ模擬音を減算することにより発話音声を抽出して上記認識処理部に供給するステップと、
上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記第1のスピーカから出力される前のトークバック音声に対するノイズとみなして、上記第1のスピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記第1のスピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記第1のスピーカから出力される前のトークバック音声の明瞭度改善処理を行うステップとを有し、
上記トークバック模擬音声を生成するステップでは、上記第1の適応フィルタが、上記誤差音のパワーが最小となるように動作して上記第1のフィルタ係数を設定し、
上記オーディオ模擬音を生成するステップでは、上記第2の適応フィルタが、上記マイクより入力された音声から上記トークバック模擬音声および上記オーディオ模擬音を減算することによって得られる第2の誤差音のパワーが最小となるように動作して上記第2のフィルタ係数を設定することを特徴とする音声認識方法。A step of setting an inactive state in which voice input is not accepted when the recognition processing unit performs recognition processing on speech sound input from a microphone;
A step of setting an active state for receiving a voice input when starting a process of talking back the uttered voice recognized by the recognition processing unit from the first speaker;
A first filter coefficient simulating a transmission system in which talkback sound output from the first speaker is input to the microphone is set in the first adaptive filter, and before the signal is output from the first speaker. Generating talkback simulated speech at the microphone location by filtering the talkback speech;
A second filter coefficient simulating a transmission system in which the audio sound output from the second speaker is input to the microphone is set in the second adaptive filter, and the audio sound before being output from the second speaker Generating an audio simulation sound at the microphone position by filtering
Extracting the utterance voice by subtracting the talkback simulation voice and the audio simulation sound from the voice input from the microphone at the time of setting the active state, and supplying the utterance voice to the recognition processing unit;
The talkback sound before the error sound is output from the first speaker, using the talkback simulated sound and the error sound obtained by subtracting the talkback simulated sound from the sound input from the microphone. The gain value added to the talkback sound before being output from the first speaker is calculated, and the talkback sound before being output from the first speaker is calculated based on the calculated gain value. Performing a clarity improvement process for talkback audio before being output from the first speaker by performing gain correction on
In the step of generating the talkback simulated voice, the first adaptive filter operates to minimize the power of the error sound and sets the first filter coefficient.
In the step of generating the audio simulation sound , the second adaptive filter has a second error sound power obtained by subtracting the talkback simulation sound and the audio simulation sound from the sound input from the microphone. The speech recognition method is characterized in that the second filter coefficient is set by operating so as to be minimized.
上記認識処理部によって認識された発話音声をスピーカからトークバックする処理を開始する際に、音声入力を受け付けるアクティブ状態に設定するステップと、
上記スピーカから出力されたトークバック音声とオーディオ音との混在音声が上記マイクに入力される伝達系を模擬したフィルタ係数を適応フィルタに設定し、上記スピーカから出力される前の混在音声をフィルタ処理することによって上記マイクの位置での混在模擬音声を生成するステップと、
上記アクティブ状態の設定時に上記マイクより入力された音声から上記混在模擬音声を減算することにより発話音声を抽出して上記認識処理部に供給するステップと、
上記適応フィルタに設定されたフィルタ係数を可変フィルタに複写して設定し、上記スピーカから出力される前のトークバック音声を上記可変フィルタによりフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成するステップと、
上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記スピーカから出力される前のトークバック音声に対するノイズとみなして、上記スピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記スピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記スピーカから出力される前のトークバック音声の明瞭度改善処理を行うステップとを有し、
上記混在模擬音声を生成するステップでは、上記適応フィルタが、上記マイクより入力された音声から上記混在模擬音声を減算して得られる第3の誤差音のパワーが最小となるように動作して上記フィルタ係数を設定することを特徴とする音声認識方法。A step of setting an inactive state in which voice input is not accepted when the recognition processing unit performs recognition processing on speech sound input from a microphone;
A step of setting an active state for receiving voice input when starting a process of talking back from the speaker the uttered voice recognized by the recognition processing unit;
A filter coefficient simulating a transmission system in which mixed speech of talkback sound and audio sound output from the speaker is input to the microphone is set as an adaptive filter, and the mixed sound before being output from the speaker is filtered. Generating a mixed simulated voice at the microphone position by:
Extracting the uttered voice by subtracting the mixed simulated voice from the voice input from the microphone when the active state is set, and supplying the extracted voice to the recognition processing unit;
The filter coefficient set in the adaptive filter is copied and set in a variable filter, and the talkback sound before being output from the speaker is filtered by the variable filter, so that the talkback simulated sound at the microphone position is obtained. Generating
Using the talkback simulated sound and the error sound obtained by subtracting the talkback simulated sound from the sound input from the microphone, the error sound is a noise with respect to the talkback sound before being output from the speaker, and As a result, a gain value to be added to the talkback sound before being output from the speaker is calculated, and gain correction is performed on the talkback sound before being output from the speaker by the calculated gain value. And a process for improving the clarity of the talkback sound before being output from the speaker,
In the step of generating the mixed simulated voice , the adaptive filter operates so that the power of the third error sound obtained by subtracting the mixed simulated voice from the voice input from the microphone is minimized. A speech recognition method characterized by setting a filter coefficient.
上記少なくとも1つのスピーカから出力される前の或るチャンネルのオーディオ音と上記トークバック音声との混在音声に対して上記フィルタ処理を行うことによって上記マイクの位置での混在模擬音声を生成するようにしたことを特徴とする請求項10に記載の音声認識方法。A plurality of channels of audio sound is output from a plurality of speakers, and the talkback sound is also output from at least one of the speakers.
The mixed simulated sound at the microphone position is generated by performing the filtering process on the mixed sound of the audio sound of a certain channel and the talkback sound before being output from the at least one speaker. The speech recognition method according to claim 10, wherein:
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003127378A JP4209247B2 (en) | 2003-05-02 | 2003-05-02 | Speech recognition apparatus and method |
EP04252331A EP1475781B1 (en) | 2003-05-02 | 2004-04-21 | Voice recognition system and method |
DE602004014675T DE602004014675D1 (en) | 2003-05-02 | 2004-04-21 | Method and device for speech recognition |
US10/835,742 US7552050B2 (en) | 2003-05-02 | 2004-04-30 | Speech recognition system and method utilizing adaptive cancellation for talk-back voice |
CNB2004100421295A CN1258753C (en) | 2003-05-02 | 2004-05-08 | Voice recognition system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003127378A JP4209247B2 (en) | 2003-05-02 | 2003-05-02 | Speech recognition apparatus and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004333704A JP2004333704A (en) | 2004-11-25 |
JP4209247B2 true JP4209247B2 (en) | 2009-01-14 |
Family
ID=32985618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003127378A Expired - Lifetime JP4209247B2 (en) | 2003-05-02 | 2003-05-02 | Speech recognition apparatus and method |
Country Status (5)
Country | Link |
---|---|
US (1) | US7552050B2 (en) |
EP (1) | EP1475781B1 (en) |
JP (1) | JP4209247B2 (en) |
CN (1) | CN1258753C (en) |
DE (1) | DE602004014675D1 (en) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006104845A1 (en) | 2000-12-21 | 2006-10-05 | Medtronic, Inc. | System and method for ventricular pacing with progressive conduction check interval |
US20070225049A1 (en) * | 2006-03-23 | 2007-09-27 | Andrada Mauricio P | Voice controlled push to talk system |
JP2009169139A (en) * | 2008-01-17 | 2009-07-30 | Alpine Electronics Inc | Voice recognizer |
US20090259397A1 (en) * | 2008-04-10 | 2009-10-15 | Richard Stanton | Navigation system with touchpad remote |
EP2257082A1 (en) * | 2009-05-28 | 2010-12-01 | Harman Becker Automotive Systems GmbH | Background noise estimation in a loudspeaker-room-microphone system |
CN101902674B (en) * | 2010-08-13 | 2012-11-28 | 西安交通大学 | Self-excitation eliminating method of high gain public address system based on space counteracting |
US9373338B1 (en) * | 2012-06-25 | 2016-06-21 | Amazon Technologies, Inc. | Acoustic echo cancellation processing based on feedback from speech recognizer |
US9190057B2 (en) | 2012-12-12 | 2015-11-17 | Amazon Technologies, Inc. | Speech model retrieval in distributed speech recognition systems |
CN103198831A (en) * | 2013-04-10 | 2013-07-10 | 威盛电子股份有限公司 | Voice control method and mobile terminal device |
US9984675B2 (en) * | 2013-05-24 | 2018-05-29 | Google Technology Holdings LLC | Voice controlled audio recording system with adjustable beamforming |
CN103971681A (en) * | 2014-04-24 | 2014-08-06 | 百度在线网络技术(北京)有限公司 | Voice recognition method and system |
KR102208477B1 (en) | 2014-06-30 | 2021-01-27 | 삼성전자주식회사 | Operating Method For Microphones and Electronic Device supporting the same |
CN104167212A (en) * | 2014-08-13 | 2014-11-26 | 深圳市泛海三江科技发展有限公司 | Audio processing method and device of intelligent building system |
KR102437156B1 (en) * | 2015-11-24 | 2022-08-26 | 삼성전자주식회사 | Electronic device and method for processing voice signal according to state of electronic device |
EP3410433A4 (en) * | 2016-01-28 | 2019-01-09 | Sony Corporation | Information processing device, information processing method, and program |
US20180166073A1 (en) * | 2016-12-13 | 2018-06-14 | Ford Global Technologies, Llc | Speech Recognition Without Interrupting The Playback Audio |
CN107146611B (en) * | 2017-04-10 | 2020-04-17 | 北京猎户星空科技有限公司 | Voice response method and device and intelligent equipment |
JP2019020678A (en) * | 2017-07-21 | 2019-02-07 | 株式会社レイトロン | Noise reduction device and voice recognition device |
JP2019086903A (en) | 2017-11-02 | 2019-06-06 | 東芝映像ソリューション株式会社 | Speech interaction terminal and speech interaction terminal control method |
JP7186375B2 (en) * | 2018-03-29 | 2022-12-09 | パナソニックIpマネジメント株式会社 | Speech processing device, speech processing method and speech processing system |
CN116647778A (en) * | 2023-05-17 | 2023-08-25 | 深圳市富德康电子有限公司 | Multi-person noise reduction intercom system |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5241692A (en) * | 1991-02-19 | 1993-08-31 | Motorola, Inc. | Interference reduction system for a speech recognition device |
JPH0522779A (en) | 1991-07-09 | 1993-01-29 | Sony Corp | Speech recognition remote controller |
US5548681A (en) * | 1991-08-13 | 1996-08-20 | Kabushiki Kaisha Toshiba | Speech dialogue system for realizing improved communication between user and system |
US5412735A (en) * | 1992-02-27 | 1995-05-02 | Central Institute For The Deaf | Adaptive noise reduction circuit for a sound reproduction system |
JP2657189B2 (en) * | 1993-02-16 | 1997-09-24 | 三田工業株式会社 | Method and apparatus for automatically generating control sequence software |
US5434922A (en) * | 1993-04-08 | 1995-07-18 | Miller; Thomas E. | Method and apparatus for dynamic sound optimization |
US5796849A (en) * | 1994-11-08 | 1998-08-18 | Bolt, Beranek And Newman Inc. | Active noise and vibration control system accounting for time varying plant, using residual signal to create probe signal |
US5664019A (en) * | 1995-02-08 | 1997-09-02 | Interval Research Corporation | Systems for feedback cancellation in an audio interface garment |
JPH08335094A (en) | 1995-06-08 | 1996-12-17 | Nippon Telegr & Teleph Corp <Ntt> | Voice input method and device for executing this method |
DE19521258A1 (en) * | 1995-06-10 | 1996-12-12 | Philips Patentverwaltung | Speech recognition system |
US5907622A (en) * | 1995-09-21 | 1999-05-25 | Dougherty; A. Michael | Automatic noise compensation system for audio reproduction equipment |
US5848163A (en) * | 1996-02-02 | 1998-12-08 | International Business Machines Corporation | Method and apparatus for suppressing background music or noise from the speech input of a speech recognizer |
US5822402A (en) * | 1996-05-02 | 1998-10-13 | Marszalek; Gary Allen | Method and apparatus for processing synthesized speech and synthesizer volume for calling line identification data messages |
JP3152292B2 (en) * | 1997-04-15 | 2001-04-03 | 日本電気株式会社 | Method and apparatus for removing multi-channel echo |
US6263078B1 (en) * | 1999-01-07 | 2001-07-17 | Signalworks, Inc. | Acoustic echo canceller with fast volume control compensation |
US7039182B1 (en) * | 1999-05-28 | 2006-05-02 | 3Com Corporation | Echo canceller having improved noise immunity |
ATE339865T1 (en) * | 1999-07-19 | 2006-10-15 | Oticon As | FEEDBACK SUPPRESSION USING BANDWIDTH DETECTION |
US20030040910A1 (en) * | 1999-12-09 | 2003-02-27 | Bruwer Frederick J. | Speech distribution system |
US20020041678A1 (en) * | 2000-08-18 | 2002-04-11 | Filiz Basburg-Ertem | Method and apparatus for integrated echo cancellation and noise reduction for fixed subscriber terminals |
US6725193B1 (en) * | 2000-09-13 | 2004-04-20 | Telefonaktiebolaget Lm Ericsson | Cancellation of loudspeaker words in speech recognition |
US6876968B2 (en) * | 2001-03-08 | 2005-04-05 | Matsushita Electric Industrial Co., Ltd. | Run time synthesizer adaptation to improve intelligibility of synthesized speech |
US6937980B2 (en) * | 2001-10-02 | 2005-08-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech recognition using microphone antenna array |
US7079645B1 (en) * | 2001-12-18 | 2006-07-18 | Bellsouth Intellectual Property Corp. | Speaker volume control for voice communication device |
JP2004080210A (en) * | 2002-08-13 | 2004-03-11 | Fujitsu Ltd | Digital filter |
US7162420B2 (en) * | 2002-12-10 | 2007-01-09 | Liberato Technologies, Llc | System and method for noise reduction having first and second adaptive filters |
-
2003
- 2003-05-02 JP JP2003127378A patent/JP4209247B2/en not_active Expired - Lifetime
-
2004
- 2004-04-21 DE DE602004014675T patent/DE602004014675D1/en not_active Expired - Lifetime
- 2004-04-21 EP EP04252331A patent/EP1475781B1/en not_active Expired - Lifetime
- 2004-04-30 US US10/835,742 patent/US7552050B2/en active Active
- 2004-05-08 CN CNB2004100421295A patent/CN1258753C/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE602004014675D1 (en) | 2008-08-14 |
US20040260549A1 (en) | 2004-12-23 |
EP1475781A3 (en) | 2004-12-15 |
EP1475781B1 (en) | 2008-07-02 |
CN1258753C (en) | 2006-06-07 |
EP1475781A2 (en) | 2004-11-10 |
US7552050B2 (en) | 2009-06-23 |
JP2004333704A (en) | 2004-11-25 |
CN1542734A (en) | 2004-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4209247B2 (en) | Speech recognition apparatus and method | |
US11348595B2 (en) | Voice interface and vocal entertainment system | |
CN106664473B (en) | Information processing apparatus, information processing method, and program | |
US6529605B1 (en) | Method and apparatus for dynamic sound optimization | |
JP2007312364A (en) | Equalization in acoustic signal processing | |
JP2010156826A (en) | Acoustic control device | |
JP2007180896A (en) | Voice signal processor and voice signal processing method | |
CN102906811B (en) | Method for adjusting voice recognition system comprising speaker and microphone, and voice recognition system | |
JP5115944B2 (en) | Voice recognition device | |
JP2006119520A (en) | Voice recognition device and vehicle having it | |
JP2005502247A (en) | Audio playback device | |
CN113053402A (en) | Voice processing method and device and vehicle | |
US20120033835A1 (en) | System and method for modifying an audio signal | |
JP3822397B2 (en) | Voice input / output system | |
CN110942770B (en) | Voice recognition device, voice recognition method, and non-transitory computer-readable medium storing voice recognition program | |
KR20220091151A (en) | Active noise control apparatus and method of controlling the same | |
JP4587941B2 (en) | Speech correction system and adaptive filter used therefor | |
WO2021038736A1 (en) | Sound field control device and sound field control method | |
JP4765394B2 (en) | Spoken dialogue device | |
JP4999267B2 (en) | Voice input device | |
JP7474548B2 (en) | Controlling the playback of audio data | |
JP2014181988A (en) | Audio apparatus | |
JP2009277278A (en) | Speech processing unit | |
JP2004235979A (en) | Apparatus and method for inputting/outputting sound | |
JP5114922B2 (en) | Vehicle acoustic device and external sound source device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080513 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080918 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081021 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081022 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4209247 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111031 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121031 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121031 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131031 Year of fee payment: 5 |
|
EXPY | Cancellation because of completion of term |