JP4410378B2 - Speech recognition method and apparatus - Google Patents

Speech recognition method and apparatus Download PDF

Info

Publication number
JP4410378B2
JP4410378B2 JP2000112942A JP2000112942A JP4410378B2 JP 4410378 B2 JP4410378 B2 JP 4410378B2 JP 2000112942 A JP2000112942 A JP 2000112942A JP 2000112942 A JP2000112942 A JP 2000112942A JP 4410378 B2 JP4410378 B2 JP 4410378B2
Authority
JP
Japan
Prior art keywords
directivity
unit
recognition
gain
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000112942A
Other languages
Japanese (ja)
Other versions
JP2001296891A (en
Inventor
和行 野木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2000112942A priority Critical patent/JP4410378B2/en
Publication of JP2001296891A publication Critical patent/JP2001296891A/en
Application granted granted Critical
Publication of JP4410378B2 publication Critical patent/JP4410378B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声で制御される制御対象機器に与える入力指示の語彙を認識する、車載用などの音声認識装置に関するものである。
【0002】
【従来の技術】
図8は、従来の車載用音声認識装置のシステム構成を示すブロック図である。以下、図に従って説明する。車両等の運転中にナビゲーション機器やオーディオ機器等を操作するに際して、スイッチ操作による運転者の負担を軽減するために、運転者など話者(発話者)の発声した音声を認識して、接続された機器に入力指示する音声認識装置がある。
【0003】
1は話者の発声した音声を電気信号に変換する音声入力部で、無指向性の複数のマイクロホン1a〜1cからなっている。3はマイクロホン1a〜1cで検出された信号を調整して音声入力部1の指向性を話者の方向に調整した音声信号を出力するための指向性調整部である。5はナビゲーション機器やオーディオ機器等の入力部に接続された音声認識部である。8は話者の方向を検出する方向検出手段で、ルームミラーの角度や座席スライド位置、リクライニング角度などから音声の方向を検出する。41は方向検出手段8の検出結果に基いて指向性調整部3を制御する指向性制御部である。
【0004】
次に、動作について説明する。
図9は、従来の車載用音声認識装置の動作内容を示すフローチャートである。最初にステップS0において、音声認識開始の操作が行われる。次にステップS1において、方向検出手段8で話者の方向を検出し、話者の位置情報を取得する。次にステップS2において、ステップS1にて取得した話者の位置情報を基に指向性制御部41が指向性を話者の方向に変更するように指向性調整部3を制御する。次にステップS3において、マイクロホン1a〜1cから話者の音声を入力する。続いてステップS4において、指向性調整部3が指向性を変更した音声に対して音声認識部5が認識処理を実行する。そしてステップS5において、音声認識部5から認識結果を出力する。
【0005】
【発明が解決しようとする課題】
従来の音声認識装置では、指向性を調整する場合、話者の位置を特定するために、話者の方向を検出する手段が必要となる。この方向検出手段として従来は、車載用の場合、ルームミラーの角度や座席スライド位置、リクライニング角度などから検出した。そのため、話者が運転者であることに限定されてしまい、運転者以外が話者となる場合は上記方向検出手段では検出できない。運転者以外をも話者としてその音声を検出する場合、方向検出手段の構成が複雑となるだけでなく、誰が発話するのかを検出しなければならないのでその手段として話者判別用のスイッチなどが必要となる。また、これらの構成を実現した場合においても、指定した指向性が必ずしも音声認識処理において高い性能が得られる特性であるとは限らない。
【0006】
本発明は、話者の音声以外のノイズを低減して音声認識性能を向上させると共に、複数の方向に存在する話者の発声にも、話者判別用のスイッチなしで対応できる利便性の高い音声認識方法、装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
請求項1に係る音声認識装置は、音声入力部と、音声入力部からの信号を保存する音声バッファ部と、音声バッファ部に保存された信号から指向性を変更した信号を生成する指向性調整部と、指向性調整部により指向性を変更した信号に対して音声認識処理を行う音声認識部と、音声バッファ部に保存された信号を再生する音声バッファ制御部と、指向性調整部にて変更する複数の指向性情報を記憶した指向性情報記憶部と、指向性情報記憶部に記憶された指向性情報から1つを選択して指向性調整部を制御する指向性制御部と、音声認識部における認識対象を記憶した音声認識辞書部と、
指向性制御部の制御により指向性調整部にて複数回指向性を変更して各指向性の信号を使用し認識処理を複数回実行させる音声認識制御部と、変更した複数の指向性における認識結果と音声認識辞書部に保存されたデータとの一致度を記憶する判定結果記憶部と、判定結果記憶部に記憶された認識結果の中から一致度が最も高い指向性を判定する一致度判定部とを備え、一致度が最も高い指向性を判定し、その後に続く一連の音声対話においては判定した指向性を継続利用し音声操作者からの音声を最も認識性能の高い指向性で入力するものである。
【0008】
請求項2に係る音声認識装置は、音声入力部と、音声入力部からの信号を保存する音声バッファ部と、音声バッファ部に保存された信号から指向性および利得を変更した信号を生成する指向性利得調整部と、指向性利得調整部により指向性および利得を変更した信号に対して音声認識処理を行う音声認識部と、音声バッファ部に保存された信号を再生する音声バッファ制御部と、指向性利得調整部にて変更する複数の指向性情報および利得情報を記憶した指向性利得情報記憶部と、指向性利得情報記憶部に記憶された指向性情報および利得情報から各1つを選択して指向性利得調整部を制御する指向性利得制御部と、音声認識部における認識対象を記憶した音声認識辞書部と、
指向性制御部の制御により指向性調整部にて複数回指向性および利得を変更して各指向性の信号を使用し認識処理を複数回実行させる音声認識制御部と、変更した複数の指向性および利得における認識結果と音声認識辞書部に保存されたデータとの一致度を記憶する判定結果記憶部と、判定結果記憶部に記憶された認識結果の中から一致度が最も高い指向性および利得を判定する一致度判定部とを備え、一致度が最も高い指向性および利得を判定し、その後に続く一連の音声対話においては判定した指向性および利得を継続利用し音声操作者からの音声を最も認識性能の高い指向性で入力するものである。
【0009】
請求項3に係る音声認識方法は、入力された音声信号に対して認識処理を行い、あるキーワードが認識されたかどうかを判定するステップ、キーワードが認識されたとき、そのキーワードの音声信号に対して指向性を変更した各指向性の音声信号を使用し複数回の認識処理を行い、変更した複数の指向性における認識結果と音声認識辞書部に保存されたデータとの一致度を得るステップ、これらの認識結果の中から一致度が最も高い指向性を判定するステップ、およびこの判定した最も一致度の高い指向性に指向性を設定してその後のオーディオ機器等の操作コマンド音声認識を行うステップを有するものである。
【0010】
請求項4に係る音声認識方法は、入力された音声信号に対して認識処理を行い、あるキーワードが認識されたかどうかを判定するステップ、キーワードが認識されたとき、そのキーワードの音声信号に対して指向性および利得を変更した各指向性および各利得の音声信号を使用し複数回の認識処理を行い、変更した複数の指向性および利得における認識結果と音声認識辞書部に保存されたデータとの一致度を得るステップ、これらの認識結果の中から一致度が最も高い指向性および利得を判定するステップ、およびこの判定した最も一致度の高い指向性および利得に指向性および利得を設定してその後のオーディオ機器等の操作コマンド音声認識を行うステップを有するものである。
【0011】
【発明の実施の形態】
実施の形態1.
以下、この発明の実施の形態を、車載用の音声認識装置について説明する。
図1は、この発明の実施の形態1における音声認識装置のシステム構成を示すブロック図である。図において、1は話者が発した音声を電気信号(以下、音声信号と呼ぶ)に変換する音声入力部で、無指向性の複数(ここでは3つ)のマイクロホン1a〜1cからなる。
図2は、車両へのマイクロホンの取付位置の例を示す平面図である。車両11内で、3つのマイクロホン1a〜1cをダッシュボード12上中央部へ等間隔に三角形をなすように設置する。例えば、マイクロホン1a〜1cの各出力信号のゲインバランスを調整することにより、指向性を真正面や運転席13方向、あるいは助手席14方向に変更することが可能となる。
【0012】
図1へ戻り、2は音声入力部1からの音声信号を保存する音声バッファ部で、それぞれマイクロホン1a〜1cに対応して設けられた複数の音声バッファ2a〜2cからなる。3は音声バッファ部2に保存された音声信号を調整して、指向性を変更した音声信号を出力する指向性調整部、5は指向性調整部3で指向性を変更された音声信号に対して音声認識処理を実行する音声認識部であり、認識結果と次に述べる音声認識辞書部6に保存されたデータとの一致度を出力する。6は認識対象を記憶する音声認識辞書部であり、音声認識部5の音声認識処理における基準となるデータが保存されている。
【0013】
4は音声バッファ部2と指向性調整部3と音声認識部5を制御する制御部、43は音声バッファ部2での音声信号の保存と再生を制御する音声バッファ制御部、41は指向性調整部3での指向性変更を制御する指向性制御部、42は指向性制御部41による指向性制御のための複数の指向性情報を記憶する指向性情報記憶部であり、例えば正面を0°とし、5°間隔で±90°までを記憶しておき、指向性制御部41がその中から1つずつ選択して制御を行う。44は音声認識部5の認識処理の開始や中止、および認識結果と一致度の取得を行う音声認識制御部、45は指向性制御部41からの指向性情報および音声認識制御部44からの認識結果と一致度から、どの指向性が最適であるかを判定する一致度判定部、46は音声認識部での認識結果と一致度、および一致度判定部45での判定結果を記憶する判定結果記憶部であり、上記41〜46で制御部4を構成している。
【0014】
次に、動作について説明する。
図3は、図1に示した音声認識装置の動作内容を示すフローチャートである。最初にステップA0において、制御部4の各部の初期化および処理の開始操作が実行される。
次にステップA1において、指向性制御部41からの制御により指向性調整部3の指向性設定を無指向性に設定する。
次にステップA2において、マイクロホン1a〜1cに入力されて音声信号に変換されたそれぞれの信号を音声バッファ制御部43からの制御により音声バッファ2a〜2cに格納し、この格納された音声信号を音声バッファ制御部43からの制御により再生し、この音声信号を、無指向性に設定された指向性調整部3に入力し、指向性調整部3の出力を音声認識部5に入力する。音声認識部5では入力された音声信号に対して、音声認識制御部44からの制御により、音声操作の開始コマンドとなるキーワード、例えば「認識スタート」を認識する処理を実行する。
【0015】
次にステップA3において、音声認識部5の認識結果に基づき、音声認識制御部44は、キーワード「認識スタート」が認識されたのかを判定し、認識されなかった場合はステップA2に戻り、再度音声入力処理およびキーワード認識処理を実行する。認識された場合はステップA4に進む。
次に、ステップA4へ進んだときは、音声バッファ制御部43からの制御により、音声バッファ2a〜2cへの音声入力を停止し、キーワード「認識スタート」が認識された時のその音声信号を格納する。
【0016】
次にステップA5において、指向性制御部41からの制御により、指向性調整部3の指向性設定を指向性情報記憶部42に記憶された、例えば正面0°方向に設定する。
次にステップA6において、ステップA4で音声バッファ2a〜2cに格納されたキーワード「認識スタート」の音声信号を、音声バッファ制御部43からの制御により再生し、指向性調整部3にて指向性制御部41が設定した指向性をもつ音声信号を生成し、音声認識部5にてキーワード認識処理を再度実行し、音声認識制御部44が認識処理の結果と一致度を音声認識部5から取得して、一致度判定部45に送信する。一致度判定部45は現在設定されている指向性情報と認識結果と一致度を判定結果記憶部46へ送信して記憶させる。
【0017】
次にステップA7において、指向性情報記憶部42に記憶された全ての指向性についての再認識処理および認識結果と一致度の取得が終了していない場合はステップA5に戻り、指向性情報記憶部42に記憶された全ての指向性について終了するまで繰り返す。全ての指向性について再認識処理および認識結果と一致度の取得が終了した場合はステップA8に進む。
【0018】
次に、ステップA8へ進んだときは、判定結果記憶部46に記憶された全ての指向性についての認識結果と一致度から、一致度判定部45は、認識結果が正解、すなわちキーワード「認識スタート」であり、かつ最も一致度の高い指向性はどれであるかを判定し、指向性制御部41は、一致度判定部45が判定した指向性となるように指向性調整部3を制御する。
【0019】
次にステップA9において、ステップA4で停止した音声バッファ2a〜2cへの音声入力を再開する。すなわちマイクロホン1a〜1cに入力されて音声信号に変換されたそれぞれの信号を音声バッファ制御部43からの制御により音声バッファ2a〜2cに格納し、この格納された音声信号を音声バッファ制御部43からの制御により再生し、ステップA8で認識結果が正解であってかつ最も一致度の高い指向性に設定された指向性調整部3に音声信号を入力し、指向性調整部3の出力を音声認識部5に入力する。音声認識部5では入力された音声信号に対して、音声認識制御部44からの制御により音声認識辞書部6に格納された認識語彙を認識する処理を実行する。
次にステップA10において、音声認識部5は認識処理の結果を出力し、図示外のオーディオ機器等の操作を行う。
なお、ステップA8で、図示外のディスプレイまたはランプにより、キーワード「認識スタート」の認識完了と指向性の設定方向を表示するようにしておけば、話者がその表示を確認して、ステップA9で、続くコマンドを入力することができる。
【0020】
以上のように実施の形態1の音声認識方法、装置においては、キーワード「認識スタート」を認識した時点の音声バッファの音声信号を用いて指向性を変更し、音声認識における一致度から話者の方向を判定して、話者の音声を抽出するため、話者の方向が定まっていない場合においても話者の音声を有効に抽出し、認識する事が可能である。また、話者の方向検出手段が不要であり、話者判別用のスイッチあるいは方向検出用のセンサなどのコスト削減が可能となる。
【0021】
実施の形態2.
図4は、この発明の実施の形態2における音声認識装置のシステム構成を示すブロック図である。
本実施の形態では、実施の形態1で行った指向性を変化させ一致度の最大のものを選ぶ方法に加えて、利得変化すなわち信号レベルを変化させて一致度を見る方法を用いている。
図4では図1の指向性調整部3、指向性制御部41および指向性記憶部42に代えて、それぞれ指向性利得調整部31、指向性利得制御部47および指向性利得記憶部48を設けている。
【0022】
図4において、31は音声バッファ部2に保有された音声信号を調整して指向性および利得を変更した音声信号を出力する指向性利得調整部、47は指向性利得調整部31での指向性と利得の変更を制御する指向性利得制御部、48は指向性利得制御部47の指向性と利得の制御において複数の指向性情報と複数の利得情報を記憶する指向性利得情報記憶部であり、例えば正面を0°とし、5°間隔で±90までを記憶するとともに、初期利得を0dBとし、3dB間隔で±15dBまでを記憶している。
【0023】
音声認識部5は、指向性利得調整部31で指向性と利得を変更された音声信号に対して音声認識処理を実行する。一致度判定部45は、指向性利得制御部47からの指向性情報と利得情報および音声認識制御部44からの認識結果と一致度から、どの指向性および利得が最適であるかを判定する。
制御部4は、43〜48で構成されている。その他の部分は図1と同様であるので説明を省略する。
【0024】
次に、動作について説明する。
図5は、図4に示した音声認識装置の動作内容を示すフローチャートである。最初にステップB0において、制御部4の各部の初期化および処理の開始操作が実行される。
次にステップB1において、指向性利得制御部47からの制御により指向性利得調整部31の指向性および利得設定を無指向性および初期利得に設定する。
次にステップB2において、マイクロホン1a〜1cに入力されて音声信号に変換されたそれぞれの信号を音声バッファ制御部43からの制御により音声バッファ2a〜2cに格納し、この格納された音声信号を音声バッファ制御部43からの制御により再生し、この音声信号を、無指向性および初期利得に設定された指向性利得調整部31に入力し、指向性利得調整部31の出力を音声認識部5に入力する。音声認識部5では入力された音声信号に対して、音声認識制御部44からの制御により、音声操作の開始コマンドとなるキーワード、例えば「認識スタート」を認識する処理を実行する。
【0025】
次にステップB3において、音声認識部5の認識結果に基づき、音声認識制御部44は、キーワード「認識スタート」が認識されたのかを判定し、認識されなかった場合はステップB2に戻り再度音声入力処理およびキーワード認識処理を実行する。認識された場合はステップB4に進む。
次に、ステップB4へ進んだときは、音声バッファ制御部43からの制御により、音声バッファ2a〜2cへの音声入力を停止し、キーワード「認識スタート」が認識された時のその音声信号を格納する。
【0026】
次にステップB5において、指向性利得制御部47からの制御により、指向性利得調整部31の指向性設定を指向性利得情報記憶部48に記憶された例えば正面0°方向に設定する。
次にステップB6において、ステップB4で音声バッファ2a〜2cに格納されたキーワード「認識スタート」の音声信号を音声バッファ制御部43からの制御により再生し、指向性利得調整部31にて指向性利得制御部47が設定した指向性をもつ音声信号を生成し、音声認識部5にてキーワード認識処理を再度実行し、音声認識制御部44が認識処理の結果と一致度を音声認識部5から取得して、一致度判定部45に送信する。一致度判定部45は現在設定されている指向性情報と認識結果と一致度を判定結果記憶部46へ送信して記憶させる。
【0027】
次にステップB7において、指向性利得情報記憶部48に記憶された全ての指向性についての再認識処理および認識結果と一致度の取得が終了していない場合はステップB5に戻り、指向性利得情報記憶部48に記憶された全ての指向性について再認識処理および認識結果と一致度の取得が終了するまで繰り返す。全ての指向性について再認識処理および認識結果と一致度の取得が終了した場合はステップB8に進む。
【0028】
次に、ステップB8へ進んだときは、判定結果記憶部46に記憶された全ての指向性についての認識結果と一致度から、一致度判定部45は、認識結果が正解、すなわちキーワード「認識スタート」であり、かつ最も一致度の高い指向性はどれであるかを判定し、指向性利得制御部47は、一致度判定部45が判定した指向性となるように指向性利得調整部31を制御する。
【0029】
次にステップB9において、指向性利得制御部47からの制御により、指向性利得調整部31の利得設定を指向性利得情報記憶部48に記憶された、例えば初期利得より3dB高い利得に設定する。この場合の利得調整は、ステップB8にて判定された指向性の方向についてのみ利得が調整されるものとする。
【0030】
次にステップB10において、ステップB4で音声バッファ2a〜2cに格納されたキーワード「認識スタート」の音声信号を音声バッファ制御部43からの制御により再生し、指向性利得調整部31にて指向性利得制御部47が設定した指向性および利得をもつ音声信号を生成し、音声認識部5にてキーワード認識処理を再度実行し、音声認識制御部44が認識処理の結果と一致度を音声認識部5から取得し、一致度判定部45に送信する。一致度判定部45は現在設定されている指向性情報と利得情報と認識結果と一致度を判定結果記憶部46へ送信して記憶させる。
【0031】
次にステップB11において、指向性利得情報記憶部48に記憶された全ての利得についての再認識処理および認識結果と一致度の取得が終了していない場合はステップB9に戻り指向性利得情報記憶部48に記憶された全ての利得に対する再認識処理および認識結果と一致度の取得が終了するまで繰り返す。全ての利得について再認識処理および認識結果と一致度の取得が終了した場合はステップB12に進む。
【0032】
次に、ステップB12へ進んだときは、判定結果記憶部46に記憶された全ての利得についての認識結果と一致度から、一致度判定部45は、認識結果が正解であり、かつ最も一致度の高い利得はどれであるかを判定し、指向性利得制御部47は、一致度判定部45が判定した指向性および利得となるように指向性利得調整部31を制御する。
【0033】
次にステップB13において、ステップB4で停止した音声バッファ2a〜2cへの音声入力を再開する。すなわちマイクロホン1a〜1cに入力されて音声信号に変換されたそれぞれの信号を音声バッファ制御部43からの制御により音声バッファ2a〜2cに格納し、この格納された音声信号を音声バッファ制御部43からの制御により再生し、ステップB12で認識結果が正解であってかつ最も一致度の高い指向性および利得に設定された指向性利得調整部31に音声信号を入力し、指向性利得調整部31の出力を音声認識部5に入力する。音声認識部5では入力された音声信号に対して、音声認識制御部44からの制御により音声認識辞書部6に格納された認識語彙を認識する処理を実行する。
次にステップB14において、音声認識部5は認識処理の結果を出力し、図示外のオーディオ機器等の制御を行う。
【0034】
以上のように実施の形態2の音声認識方法、装置においては、音声認識における一致度を用いて話者の方向を判定し、更に音声認識における一致度を用いて最適な利得、すなわち音声認識に最適な入力信号レベルを判定し、話者の音声を抽出するため、話者の方向が定まっていない場合においても話者の音声を有効に抽出するとともに、話者からマイクロホンまでの距離などのためにマイクロホンへの音声入力レベルが異なる場合でも、音声認識に最適な入力信号レベルで認識処理を実行する事が可能である。また、話者の方向検出手段が不要であり、方向検出用のセンサなどのコスト削減が可能となる。
【0035】
実施の形態3.
図6は、この発明の実施の形態3における音声認識装置のシステム構成を示すブロック図である。
本実施の形態は、音声でナビゲーション装置を制御する例を示す。図6では、図4に示したものに加えてナビゲーション装置7を示している。
図6において、7は音声認識の結果に基づいて制御部4により、種々の操作が実行されるナビゲーション装置である。その他は図4と同様であるので説明を省略する。
【0036】
次に、動作について説明する。
図7は、図6に示した音声認識装置の動作内容を示すフローチャートである。ステップC0〜C12は、図5のステップB0〜B12と同様であるので説明を省略する。ただし、図5ではキーワードの例を「認識スタート」として説明したが、図7では別のキーワード、例えば「ナビゲーション」を用いる。
【0037】
ステップC12に続くステップC13において、ステップC4で停止した音声バッファ2a〜2cへの音声入力を再開する。すなわちマイクロホン1a〜1cに入力されて音声信号に変換されたそれぞれの信号を音声バッファ制御部43からの制御により音声バッファ2a〜2cに格納し、この格納された音声信号を音声バッファ制御部43からの制御により再生し、ステップC12で認識結果が正解であり、かつ最も一致度の高い指向性および利得に設定された指向性利得調整部31に音声信号を入力し、指向性利得調整部31の出力を音声認識部5に入力する。音声認識部5では入力された音声信号に対して、音声認識制御部44からの制御により、音声認識辞書部6に格納されたナビゲーション装置7の制御コマンド語彙、例えば「詳細表示」、「広域表示」、「目的地設定」などを認識する処理を実行する。
【0038】
次にステップC14において、音声認識制御部44が音声認識部5の認識結果、例えば「詳細表示」を取得し、認識結果「詳細表示」に対応した制御信号をナビゲーション装置7に送信する。次にステップC15において、ナビゲーション装置7が受信した認識結果「詳細表示」に対応した制御信号に応じて表示画面を詳細表示する処理を実行する。
【0039】
以上のように実施の形態3の音声認識方法、装置においては、キーワード「ナビゲーション」を認識した時点の音声バッファの音声信号を用い指向性を変更して音声認識における一致度の最も高い指向性を判定し、これを話者の方向とし、さらに一致度の最も高い利得を判定して以後の音声認識処理を実行するため、音声認識の開始スイッチなどは不要であり、操作が簡便となる。また、キーワード認識処理における一致度の最も高い指向性および利得を判定するため、話者の方向が運転者に限定されず、助手席からの音声操作も可能となり、以後のコマンド認識処理において最適な指向性と利得で認識処理を実行可能であり、認識性能の向上が可能である。また、話者の方向検出手段が不要であり、方向検出用のセンサなどのコスト削減が可能となる。
【0040】
【発明の効果】
請求項1に係る音声認識装置によれば、指向性を変更した信号に対して音声認識処理を行う音声認識部と、認識結果の中から一致度が最も高い指向性を判定する一致度判定部を備えているので、一致度判定部で一致度が最高と判定した指向性に設定することにより、話者が複数存在してその方向が定まっていない場合でも話者判別用のスイッチやセンサなしで、話者以外のノイズを低減して話者の音声を有効に抽出でき、音声認識性能が高く、利便性の高い音声認識装置が得られる。
【0041】
請求項2に係る音声認識装置によれば、指向性および利得を変更した信号に対して音声認識処理を行う音声認識部と、認識結果の中から一致度の最も高い指向性と利得を判定する一致度判定部を備えているので、一致度判定部で一致度が最高と判定した指向性および利得に設定することにより、話者の方向が定まっておらず、また音声入力部(マイクロホン)への入力レベルが大きいあるいは小さい場合でも話者判別用のスイッチやセンサなしで、話者の音声を有効に抽出するとともに適切な信号レベルで認識処理を行うことができ、音声認識性能が高く、利便性の高い音声認識装置が得られる。
【0042】
請求項3に係る音声認識方法によれば、認識されたキーワードの音声信号に対して指向性を変更した複数の認識処理を行い、その認識結果の中から一致度が最も高い指向性を判定し、この指向性に設定して以後の音声認識を行うので、話者の方向が定まっていない場合でも話者判別用のスイッチやセンサなしで、話者の音声を有効に抽出でき、音声認識性能が高く、利便性の高い音声認識方法が得られる。
【0043】
請求項4に係る音声認識方法によれば、認識されたキーワードの音声信号に対して指向性と利得を変更した複数の認識処理を行い、その認識結果の中から一致度が最も高い指向性および利得を判定し、この指向性および利得に設定して以後の音声認識を行うので、話者の方向が定まっておらず、また音声入力部への入力レベルが大きいあるいは小さい場合でも話者判別用のスイッチやセンサなしで、話者の音声を有効に抽出するとともに適切な信号レベルで認識処理を行うことができ、音声認識性能が高く、利便性の高い音声認識方法が得られる。
【図面の簡単な説明】
【図1】 この発明の実施の形態1における音声認識装置のシステム構成を示すブロック図である。
【図2】 図1の音声認識装置のマイクロホンの取付位置を示す平面図である。
【図3】 図1の音声認識装置の動作内容を示すフローチャートである。
【図4】 この発明の実施の形態2における音声認識装置のシステム構成を示すブロック図である。
【図5】 図4の音声認識装置の動作内容を示すフローチャートである。
【図6】 この発明の実施の形態3における音声認識装置のシステム構成を示すブロック図である。
【図7】 図6の音声認識装置の動作内容を示すフローチャートである。
【図8】 従来の音声認識装置のシステム構成を示すブロック図である。
【図9】 図8の音声認識装置の動作内容を示すフローチャートである。
【符号の説明】
1 音声入力部、2 音声バッファ部、3 指向性調整部、5 音声認識部、
6 音声認識辞書部、31 指向性利得調整部、41 指向性制御部、
42 指向性情報記憶部、43 音声バッファ制御部、44 音声認識制御部、
45 一致度判定部、46 判定結果記憶部、47 指向性利得制御部、
48 指向性利得情報記憶部。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an on-vehicle speech recognition device that recognizes a vocabulary of input instructions given to a control target device controlled by speech.
[0002]
[Prior art]
FIG. 8 is a block diagram showing a system configuration of a conventional in-vehicle speech recognition device. Hereinafter, it demonstrates according to a figure. When operating a navigation device or audio device while driving a vehicle, etc., to reduce the burden on the driver due to the switch operation, the voice spoken by the speaker (speaker) such as the driver is recognized and connected. There is a voice recognition device for instructing input to a device.
[0003]
Reference numeral 1 denotes a voice input unit that converts a voice uttered by a speaker into an electrical signal, and includes a plurality of omnidirectional microphones 1a to 1c. A directivity adjustment unit 3 adjusts signals detected by the microphones 1a to 1c to output a voice signal in which the directivity of the voice input unit 1 is adjusted in the direction of the speaker. Reference numeral 5 denotes a voice recognition unit connected to an input unit such as a navigation device or an audio device. Reference numeral 8 denotes direction detection means for detecting the direction of the speaker, which detects the direction of voice from the angle of the rearview mirror, the seat slide position, the reclining angle, and the like. A directivity control unit 41 controls the directivity adjustment unit 3 based on the detection result of the direction detection unit 8.
[0004]
Next, the operation will be described.
FIG. 9 is a flowchart showing the operation content of a conventional in-vehicle voice recognition device. First, in step S0, a voice recognition start operation is performed. Next, in step S1, the direction detection means 8 detects the direction of the speaker and acquires the position information of the speaker. Next, in step S2, the directivity control unit 41 controls the directivity adjusting unit 3 so that the directivity control unit 41 changes the directivity to the direction of the speaker based on the position information of the speaker acquired in step S1. Next, in step S3, the voice of the speaker is input from the microphones 1a to 1c. Subsequently, in step S4, the voice recognition unit 5 performs a recognition process on the voice whose directivity adjustment unit 3 has changed the directivity. In step S5, the speech recognition unit 5 outputs a recognition result.
[0005]
[Problems to be solved by the invention]
In the conventional speech recognition apparatus, when adjusting the directivity, a means for detecting the direction of the speaker is required in order to specify the position of the speaker. Conventionally, this direction detection means is detected from the angle of the rearview mirror, the seat slide position, the reclining angle, etc. in the case of in-vehicle use. For this reason, the speaker is limited to being a driver, and when the person other than the driver is a speaker, the direction detection unit cannot detect the speaker. When detecting the voice as a speaker other than the driver, not only the configuration of the direction detection means is complicated, but also a switch for determining the speaker is necessary as it is necessary to detect who speaks. Necessary. Even when these configurations are realized, the specified directivity is not necessarily a characteristic that can provide high performance in the speech recognition processing.
[0006]
The present invention improves the speech recognition performance by reducing noise other than the voice of the speaker, and is highly convenient to handle the voice of the speaker existing in a plurality of directions without a switch for speaker discrimination. An object is to provide a speech recognition method and apparatus.
[0007]
[Means for Solving the Problems]
The speech recognition apparatus according to claim 1 includes a speech input unit, a speech buffer unit that stores a signal from the speech input unit, and a directivity adjustment that generates a signal having a changed directivity from the signal stored in the speech buffer unit. A voice recognition unit that performs voice recognition processing on a signal whose directivity has been changed by the directivity adjustment unit, a voice buffer control unit that reproduces a signal stored in the voice buffer unit, and a directivity adjustment unit. A directivity information storage section that stores a plurality of directivity information to be changed, a directivity control section that selects one of the directivity information stored in the directivity information storage section and controls the directivity adjustment section; A speech recognition dictionary that stores recognition targets in the recognition unit;
Each directivity signal is used by changing the directivity multiple times in the directivity adjustment section under the control of the directivity control section. Speech recognition control unit that executes recognition processing multiple times, and recognition results for multiple modified directivities And the data stored in the voice recognition dictionary A determination result storage unit that stores the degree of coincidence, and a coincidence degree determination unit that determines the directivity having the highest degree of coincidence among the recognition results stored in the determination result storage unit. , Determine the directivity with the highest degree of coincidence, and continue to use the determined directivity in a series of subsequent voice conversations, and input the voice from the voice operator with the directivity with the highest recognition performance Is.
[0008]
The speech recognition apparatus according to claim 2 includes a speech input unit, a speech buffer unit that stores a signal from the speech input unit, and a directivity that generates a signal in which directivity and gain are changed from the signal stored in the speech buffer unit. A directivity gain adjustment unit, a speech recognition unit that performs speech recognition processing on a signal whose directivity and gain have been changed by the directivity gain adjustment unit, a speech buffer control unit that reproduces a signal stored in the speech buffer unit, A directivity gain information storage unit storing a plurality of directivity information and gain information to be changed by the directivity gain adjustment unit, and one each selected from the directivity information and gain information stored in the directivity gain information storage unit A directivity gain control unit that controls the directivity gain adjustment unit, a speech recognition dictionary unit that stores recognition targets in the speech recognition unit, and
Each directivity signal is used by changing the directivity and gain multiple times in the directivity adjustment section under the control of the directivity control section. Speech recognition control unit that executes recognition processing multiple times, and recognition results for multiple modified directivities and gains And the data stored in the voice recognition dictionary A determination result storage unit that stores the degree of coincidence, and a coincidence degree determination unit that determines the directivity and gain having the highest degree of coincidence among the recognition results stored in the determination result storage unit. Determine the directivity and gain with the highest degree of coincidence, and continue to use the determined directivity and gain in a series of subsequent voice conversations, and input the voice from the voice operator with the directivity with the highest recognition performance. Is.
[0009]
According to a third aspect of the present invention, there is provided a speech recognition method for performing recognition processing on an input speech signal and determining whether or not a keyword is recognized. When a keyword is recognized, the speech signal of the keyword is recognized. Changed directivity Multiple times using each directional audio signal Perform recognition processing, The recognition results of multiple modified directivities and the data stored in the speech recognition dictionary A step of obtaining a degree of coincidence, a step of determining the directivity having the highest degree of coincidence among these recognition results, and the determination Set the directivity to the directivity with the highest degree of coincidence, and then recognize the operation commands for audio equipment etc. The step which performs is performed.
[0010]
According to a fourth aspect of the present invention, there is provided a speech recognition method for performing recognition processing on an input speech signal and determining whether or not a keyword is recognized. When a keyword is recognized, the speech signal of the keyword is recognized. Changed directivity and gain Multiple times using audio signals of each directivity and gain Perform recognition processing, The recognition result of multiple modified directivities and gains and the data stored in the speech recognition dictionary A step of obtaining a degree of coincidence, a step of determining directivity and gain having the highest degree of coincidence among the recognition results, and the determination Set the directivity and gain to the directivity and gain with the highest degree of coincidence, and then recognize the operation commands for audio equipment etc. The step which performs is performed.
[0011]
DETAILED DESCRIPTION OF THE INVENTION
Embodiment 1 FIG.
Hereinafter, embodiments of the present invention will be described with reference to an on-vehicle speech recognition apparatus.
FIG. 1 is a block diagram showing a system configuration of a speech recognition apparatus according to Embodiment 1 of the present invention. In the figure, reference numeral 1 denotes a voice input unit that converts a voice uttered by a speaker into an electrical signal (hereinafter referred to as a voice signal), and includes a plurality (three in this case) of microphones 1a to 1c.
FIG. 2 is a plan view showing an example of a position where the microphone is attached to the vehicle. Within the vehicle 11, three microphones 1 a to 1 c are installed on the dashboard 12 at a central portion so as to form a triangle at regular intervals. For example, by adjusting the gain balance of the output signals of the microphones 1a to 1c, the directivity can be changed to the front, the driver's 13 direction, or the passenger's 14 direction.
[0012]
Returning to FIG. 1, reference numeral 2 denotes an audio buffer unit for storing an audio signal from the audio input unit 1, and includes a plurality of audio buffers 2a to 2c provided corresponding to the microphones 1a to 1c, respectively. The directivity adjusting unit 3 adjusts the audio signal stored in the audio buffer unit 2 and outputs the audio signal whose directivity is changed. The reference numeral 5 denotes the audio signal whose directivity is changed by the directivity adjusting unit 3. The speech recognition unit executes speech recognition processing, and outputs the degree of coincidence between the recognition result and data stored in the speech recognition dictionary unit 6 described below. Reference numeral 6 denotes a voice recognition dictionary unit for storing recognition targets, in which data serving as a reference in the voice recognition processing of the voice recognition unit 5 is stored.
[0013]
4 is a control unit that controls the audio buffer unit 2, the directivity adjustment unit 3, and the voice recognition unit 5, 43 is an audio buffer control unit that controls the storage and reproduction of audio signals in the audio buffer unit 2, and 41 is a directivity adjustment. A directivity control unit that controls the directivity change in the unit 3, and 42 is a directivity information storage unit that stores a plurality of directivity information for directivity control by the directivity control unit 41. Then, up to ± 90 ° is stored at intervals of 5 °, and the directivity control unit 41 selects and controls one by one. 44 is a speech recognition control unit that starts and stops the recognition process of the speech recognition unit 5 and acquires the degree of coincidence with the recognition result, and 45 is the directivity information from the directivity control unit 41 and the recognition from the speech recognition control unit 44. A coincidence determination unit that determines which directivity is optimal from the result and the coincidence, 46 is a determination result for storing the recognition result and the coincidence in the speech recognition unit, and the determination result in the coincidence determination unit 45 It is a memory | storage part and the control part 4 is comprised by said 41-46.
[0014]
Next, the operation will be described.
FIG. 3 is a flowchart showing the operation contents of the speech recognition apparatus shown in FIG. First, in step A0, initialization of each part of the control part 4 and start operation of the process are executed.
Next, in step A1, the directivity setting of the directivity adjustment unit 3 is set to non-directivity by the control from the directivity control unit 41.
Next, in step A2, the signals input to the microphones 1a to 1c and converted into audio signals are stored in the audio buffers 2a to 2c under the control of the audio buffer control unit 43, and the stored audio signals are stored as audio signals. Reproduction is performed under the control of the buffer control unit 43, and this audio signal is input to the directivity adjustment unit 3 set to non-directionality, and the output of the directivity adjustment unit 3 is input to the audio recognition unit 5. The voice recognition unit 5 executes a process of recognizing a keyword that is a voice operation start command, for example, “recognition start”, by the control from the voice recognition control unit 44 on the input voice signal.
[0015]
Next, in step A3, based on the recognition result of the speech recognition unit 5, the speech recognition control unit 44 determines whether or not the keyword “recognition start” has been recognized. Input processing and keyword recognition processing are executed. If recognized, the process proceeds to step A4.
Next, when the process proceeds to step A4, the voice input to the voice buffers 2a to 2c is stopped by the control from the voice buffer control unit 43, and the voice signal when the keyword “recognition start” is recognized is stored. To do.
[0016]
Next, in step A5, the directivity setting of the directivity adjustment unit 3 is set in the directivity information storage unit 42, for example, in the 0 ° front direction, under the control of the directivity control unit 41.
Next, in step A6, the voice signal of the keyword “recognition start” stored in the voice buffers 2a to 2c in step A4 is reproduced under the control of the voice buffer control unit 43, and the directivity control unit 3 controls the directivity. The voice signal having directivity set by the unit 41 is generated, the keyword recognition process is executed again by the voice recognition unit 5, and the voice recognition control unit 44 acquires the result of the recognition process and the degree of coincidence from the voice recognition unit 5. And transmitted to the coincidence degree determination unit 45. The coincidence determination unit 45 transmits the currently set directivity information, the recognition result, and the coincidence to the determination result storage unit 46 for storage.
[0017]
Next, in step A7, if re-recognition processing for all directivities stored in the directivity information storage unit 42 and acquisition of recognition results and coincidences are not completed, the process returns to step A5, and the directivity information storage unit It repeats until it complete | finishes about all the directivity memorize | stored in 42. FIG. If the re-recognition process and the recognition result and the degree of coincidence have been acquired for all directivities, the process proceeds to step A8.
[0018]
Next, when proceeding to Step A8, the coincidence degree determination unit 45 determines that the recognition result is correct, that is, the keyword “recognition start” from the recognition results and the coincidence degrees for all directivities stored in the determination result storage unit 46. The directivity control unit 41 controls the directivity adjustment unit 3 so that the directivity determined by the coincidence determination unit 45 is obtained. .
[0019]
Next, in step A9, the audio input to the audio buffers 2a to 2c stopped in step A4 is resumed. That is, the respective signals input to the microphones 1 a to 1 c and converted into audio signals are stored in the audio buffers 2 a to 2 c under the control of the audio buffer control unit 43, and the stored audio signals are transmitted from the audio buffer control unit 43. The voice signal is input to the directivity adjustment unit 3 that is set to the directivity with the correct recognition result and the highest coincidence in step A8, and the output of the directivity adjustment unit 3 is recognized as a voice. Input to part 5. The voice recognition unit 5 executes processing for recognizing the recognition vocabulary stored in the voice recognition dictionary unit 6 under the control of the voice recognition control unit 44 with respect to the input voice signal.
Next, in step A10, the voice recognition unit 5 outputs the result of the recognition process, and operates an audio device or the like not shown.
In step A8, if the recognition completion of the keyword “recognition start” and the directionality setting direction are displayed on a display or lamp (not shown), the speaker confirms the display, and in step A9. , You can enter the following command.
[0020]
As described above, in the speech recognition method and apparatus of the first embodiment, the directivity is changed using the speech signal of the speech buffer at the time when the keyword “recognition start” is recognized, and the speaker's degree of coincidence in speech recognition is determined. Since the speaker's voice is extracted by determining the direction, it is possible to effectively extract and recognize the speaker's voice even when the speaker's direction is not fixed. Further, no speaker direction detection means is required, and costs such as a speaker discrimination switch or a direction detection sensor can be reduced.
[0021]
Embodiment 2. FIG.
FIG. 4 is a block diagram showing a system configuration of the speech recognition apparatus according to Embodiment 2 of the present invention.
In the present embodiment, in addition to the method of changing the directivity performed in the first embodiment and selecting the one with the highest degree of matching, a method of viewing the degree of matching by changing the gain, that is, the signal level, is used.
In FIG. 4, instead of the directivity adjustment unit 3, the directivity control unit 41, and the directivity storage unit 42 of FIG. 1, a directivity gain adjustment unit 31, a directivity gain control unit 47, and a directivity gain storage unit 48 are provided. ing.
[0022]
In FIG. 4, 31 is a directivity gain adjustment unit that adjusts an audio signal held in the audio buffer unit 2 and outputs an audio signal whose directivity and gain are changed, and 47 is a directivity in the directivity gain adjustment unit 31. A directivity gain control unit 48 that controls the change in gain, and a directivity gain information storage unit 48 that stores a plurality of directivity information and a plurality of gain information in the directivity and gain control of the directivity gain control unit 47. For example, the front is 0 °, and ± 90 is stored at 5 ° intervals, and the initial gain is 0 dB, and ± 15 dB is stored at 3 dB intervals.
[0023]
The voice recognition unit 5 performs voice recognition processing on the voice signal whose directivity and gain are changed by the directivity gain adjustment unit 31. The coincidence determination unit 45 determines which directivity and gain are optimal from the directivity information and gain information from the directivity gain control unit 47 and the recognition result and coincidence from the speech recognition control unit 44.
The control unit 4 includes 43 to 48. The other parts are the same as in FIG.
[0024]
Next, the operation will be described.
FIG. 5 is a flowchart showing the operation contents of the speech recognition apparatus shown in FIG. First, in step B0, initialization of each part of the control part 4 and start operation of the process are executed.
Next, in step B1, the directivity and gain setting of the directivity gain adjustment unit 31 are set to non-directivity and initial gain by the control from the directivity gain control unit 47.
Next, in step B2, the signals input to the microphones 1a to 1c and converted into audio signals are stored in the audio buffers 2a to 2c under the control of the audio buffer control unit 43, and the stored audio signals are stored as audio signals. The audio signal is reproduced under the control of the buffer control unit 43, and this audio signal is input to the directivity gain adjustment unit 31 set to omnidirectionality and initial gain, and the output of the directivity gain adjustment unit 31 is input to the audio recognition unit 5. input. The voice recognition unit 5 executes a process of recognizing a keyword that is a voice operation start command, for example, “recognition start”, by the control from the voice recognition control unit 44 on the input voice signal.
[0025]
Next, in step B3, based on the recognition result of the voice recognition unit 5, the voice recognition control unit 44 determines whether or not the keyword “recognition start” has been recognized. Processing and keyword recognition processing are executed. If recognized, the process proceeds to step B4.
Next, when the process proceeds to step B4, the voice input to the voice buffers 2a to 2c is stopped by the control from the voice buffer control unit 43, and the voice signal when the keyword “recognition start” is recognized is stored. To do.
[0026]
Next, in step B 5, the directivity setting of the directivity gain adjustment unit 31 is set to, for example, the front 0 ° direction stored in the directivity gain information storage unit 48 by the control from the directivity gain control unit 47.
Next, in step B 6, the voice signal of the keyword “recognition start” stored in the voice buffers 2 a to 2 c in step B 4 is reproduced under the control of the voice buffer control unit 43, and the directivity gain adjustment unit 31 directs the directivity gain. A voice signal having directivity set by the control unit 47 is generated, the keyword recognition process is executed again by the voice recognition unit 5, and the voice recognition control unit 44 acquires the result of the recognition process and the degree of coincidence from the voice recognition unit 5. Then, it transmits to the coincidence degree determination unit 45. The coincidence determination unit 45 transmits the currently set directivity information, the recognition result, and the coincidence to the determination result storage unit 46 for storage.
[0027]
Next, in step B7, if re-recognition processing for all directivities stored in the directivity gain information storage unit 48 and acquisition of recognition results and coincidence have not been completed, the process returns to step B5, and directivity gain information is acquired. The process is repeated until the re-recognition process and the recognition result and the degree of coincidence are acquired for all directivities stored in the storage unit 48. If the re-recognition process and the recognition result and the degree of coincidence have been acquired for all directivities, the process proceeds to step B8.
[0028]
Next, when the process proceeds to step B8, the coincidence determination unit 45 determines that the recognition result is the correct answer, that is, the keyword “recognition start” from the recognition results and the coincidence of all directivities stored in the determination result storage unit 46. And the directivity gain control unit 47 controls the directivity gain adjustment unit 31 so that the directivity determined by the coincidence determination unit 45 is obtained. Control.
[0029]
Next, in step B9, the gain setting of the directivity gain adjustment unit 31 is set to a gain that is 3 dB higher than the initial gain stored in the directivity gain information storage unit 48 under the control of the directivity gain control unit 47, for example. In this case, the gain is adjusted only in the direction of directivity determined in step B8.
[0030]
Next, in step B10, the speech signal of the keyword “recognition start” stored in the speech buffers 2a to 2c in step B4 is reproduced under the control of the speech buffer control unit 43, and the directivity gain adjustment unit 31 directs the directivity gain. A voice signal having the directivity and gain set by the control unit 47 is generated, and the keyword recognition process is executed again by the voice recognition unit 5, and the voice recognition control unit 44 determines the degree of coincidence with the result of the recognition process. And sent to the coincidence determination unit 45. The coincidence determination unit 45 transmits the currently set directivity information, gain information, recognition result, and coincidence to the determination result storage unit 46 for storage.
[0031]
Next, in step B11, when the re-recognition processing for all gains stored in the directivity gain information storage unit 48 and the recognition result and the degree of coincidence have not been completed, the process returns to step B9 to return to the directivity gain information storage unit. The process is repeated until the re-recognition processing for all the gains stored in 48 and the acquisition of the recognition result and the matching degree are completed. If the re-recognition process and the recognition result and the degree of coincidence have been acquired for all gains, the process proceeds to step B12.
[0032]
Next, when the process proceeds to step B12, the coincidence degree determination unit 45 determines that the recognition result is correct and has the highest degree of coincidence based on the recognition results and coincidence values for all gains stored in the determination result storage unit 46. The directivity gain control unit 47 controls the directivity gain adjustment unit 31 so that the directivity and gain determined by the coincidence determination unit 45 are obtained.
[0033]
Next, in step B13, the audio input to the audio buffers 2a to 2c stopped in step B4 is resumed. That is, the respective signals input to the microphones 1 a to 1 c and converted into audio signals are stored in the audio buffers 2 a to 2 c under the control of the audio buffer control unit 43, and the stored audio signals are transmitted from the audio buffer control unit 43. The voice signal is input to the directivity gain adjustment unit 31 that is set to the directivity and gain with the highest recognition and the recognition result is correct in step B12. The output is input to the voice recognition unit 5. The voice recognition unit 5 executes processing for recognizing the recognition vocabulary stored in the voice recognition dictionary unit 6 under the control of the voice recognition control unit 44 with respect to the input voice signal.
Next, in step B14, the voice recognition unit 5 outputs the result of the recognition process, and controls an audio device (not shown).
[0034]
As described above, in the speech recognition method and apparatus according to the second embodiment, the direction of the speaker is determined using the degree of coincidence in speech recognition, and the optimum gain, ie, speech recognition, is further obtained using the degree of coincidence in speech recognition. Because the optimal input signal level is determined and the speaker's voice is extracted, the speaker's voice is effectively extracted even when the speaker's direction is not fixed, and the distance from the speaker to the microphone, etc. Even if the voice input level to the microphone is different, the recognition process can be executed with the optimum input signal level for voice recognition. In addition, no speaker direction detection means is required, and the cost of a direction detection sensor or the like can be reduced.
[0035]
Embodiment 3 FIG.
FIG. 6 is a block diagram showing a system configuration of the speech recognition apparatus according to Embodiment 3 of the present invention.
This embodiment shows an example of controlling a navigation device by voice. In FIG. 6, in addition to what was shown in FIG. 4, the navigation apparatus 7 is shown.
In FIG. 6, reference numeral 7 denotes a navigation device in which various operations are executed by the control unit 4 based on the result of voice recognition. Others are the same as in FIG.
[0036]
Next, the operation will be described.
FIG. 7 is a flowchart showing the operation content of the speech recognition apparatus shown in FIG. Steps C0 to C12 are the same as steps B0 to B12 in FIG. However, although an example of a keyword is described as “recognition start” in FIG. 5, another keyword such as “navigation” is used in FIG. 7.
[0037]
In step C13 following step C12, the audio input to the audio buffers 2a to 2c stopped in step C4 is resumed. That is, the respective signals input to the microphones 1 a to 1 c and converted into audio signals are stored in the audio buffers 2 a to 2 c under the control of the audio buffer control unit 43, and the stored audio signals are transmitted from the audio buffer control unit 43. The speech signal is input to the directivity gain adjustment unit 31 that is set to the directivity and gain with the highest degree of coincidence and the recognition result is correct in step C12. The output is input to the voice recognition unit 5. In the voice recognition unit 5, the control command vocabulary of the navigation device 7 stored in the voice recognition dictionary unit 6, for example, “detail display”, “wide area display”, is controlled by the voice recognition control unit 44 with respect to the input voice signal. ”And“ Destination setting ”are recognized.
[0038]
Next, in step C14, the voice recognition control unit 44 acquires the recognition result of the voice recognition unit 5, for example, “detailed display”, and transmits a control signal corresponding to the recognition result “detailed display” to the navigation device 7. Next, in step C15, a process of displaying the display screen in detail according to the control signal corresponding to the recognition result “detailed display” received by the navigation device 7 is executed.
[0039]
As described above, in the speech recognition method and apparatus of the third embodiment, the directivity is changed by using the speech signal of the speech buffer at the time when the keyword “navigation” is recognized, and the directivity having the highest degree of coincidence in speech recognition is obtained. Since the determination is made and this is set as the direction of the speaker, and the gain with the highest degree of matching is determined and the subsequent speech recognition process is executed, a voice recognition start switch or the like is unnecessary, and the operation becomes simple. Further, since the directivity and gain with the highest degree of coincidence in the keyword recognition process are determined, the direction of the speaker is not limited to the driver, and voice operation from the passenger seat is possible, which is optimal in the subsequent command recognition process. Recognition processing can be executed with directivity and gain, and recognition performance can be improved. In addition, no speaker direction detection means is required, and the cost of a direction detection sensor or the like can be reduced.
[0040]
【The invention's effect】
According to the speech recognition apparatus of the first aspect, the speech recognition unit that performs speech recognition processing on the signal with the changed directivity, and the coincidence determination unit that determines the directivity having the highest coincidence among the recognition results. Therefore, there is no switch or sensor for speaker identification even when there are multiple speakers and the direction is not fixed by setting the directivity that the matching score is determined to be the highest by the matching score determination unit. Thus, noise other than the speaker can be reduced to effectively extract the voice of the speaker, and a voice recognition device with high voice recognition performance and high convenience can be obtained.
[0041]
According to the speech recognition apparatus of the second aspect, the speech recognition unit that performs speech recognition processing on the signal with the changed directivity and gain, and the directivity and gain having the highest degree of coincidence are determined from the recognition results. Since it has a coincidence determination unit, the direction of the speaker is not fixed by setting to the directivity and gain determined to be the highest in the coincidence determination unit, and to the voice input unit (microphone) Even if the input level is high or low, it is possible to extract the speaker's voice effectively and perform recognition processing at an appropriate signal level without using a switch or sensor for speaker identification. A highly recognizable speech recognition apparatus can be obtained.
[0042]
According to the speech recognition method according to claim 3, a plurality of recognition processes with different directivities are performed on the recognized keyword speech signal, and the directivity having the highest degree of matching is determined from the recognition results. Because the voice recognition is performed after setting this directivity, the voice of the speaker can be extracted effectively without the switch or sensor for speaker discrimination even when the direction of the speaker is not fixed. And a highly convenient speech recognition method can be obtained.
[0043]
According to the speech recognition method according to claim 4, a plurality of recognition processes with different directivities and gains are performed on the recognized keyword speech signal, and the directivity having the highest degree of matching among the recognition results and Since the gain is determined, and the subsequent speech recognition is performed with this directivity and gain set, the speaker's direction is not fixed, and the speaker input is used even when the input level to the voice input unit is high or low. Without the switches and sensors, the voice of the speaker can be extracted effectively and the recognition process can be performed at an appropriate signal level, so that a voice recognition method with high voice recognition performance and high convenience can be obtained.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a system configuration of a speech recognition apparatus according to Embodiment 1 of the present invention.
2 is a plan view showing a microphone attachment position of the speech recognition apparatus of FIG. 1. FIG.
FIG. 3 is a flowchart showing the operation content of the speech recognition apparatus of FIG. 1;
FIG. 4 is a block diagram showing a system configuration of a speech recognition apparatus according to Embodiment 2 of the present invention.
FIG. 5 is a flowchart showing the operation content of the speech recognition apparatus of FIG. 4;
FIG. 6 is a block diagram showing a system configuration of a speech recognition apparatus according to Embodiment 3 of the present invention.
7 is a flowchart showing the operation content of the speech recognition apparatus of FIG. 6;
FIG. 8 is a block diagram showing a system configuration of a conventional speech recognition apparatus.
FIG. 9 is a flowchart showing the operation content of the speech recognition apparatus of FIG. 8;
[Explanation of symbols]
1 speech input unit, 2 speech buffer unit, 3 directivity adjustment unit, 5 speech recognition unit,
6 speech recognition dictionary unit, 31 directivity gain adjustment unit, 41 directivity control unit,
42 directivity information storage unit, 43 voice buffer control unit, 44 voice recognition control unit,
45 coincidence determination unit, 46 determination result storage unit, 47 directivity gain control unit,
48 Directivity gain information storage unit.

Claims (4)

音声入力部と、この音声入力部からの信号を保存する音声バッファ部と、この音声バッファ部に保存された信号から指向性を変更した信号を生成する指向性調整部と、この指向性調整部により指向性を変更した信号に対して音声認識処理を行う音声認識部と、上記音声バッファ部に保存された信号を再生する音声バッファ制御部と、上記指向性調整部にて変更する複数の指向性情報を記憶した指向性情報記憶部と、この指向性情報記憶部に記憶された指向性情報から1つを選択して上記指向性調整部を制御する指向性制御部と、上記音声認識部における認識対象を記憶した音声認識辞書部と、
上記指向性制御部の制御により上記指向性調整部にて複数回指向性を変更して各指向性の信号を使用し認識処理を複数回実行させる音声認識制御部と、
変更した複数の指向性における認識結果と上記音声認識辞書部に保存されたデータとの一致度を記憶する判定結果記憶部と、この判定結果記憶部に記憶された認識結果の中から一致度が最も高い指向性を判定する一致度判定部とを備え、一致度が最も高い指向性を判定し、その後に続く一連の音声対話においては判定した指向性を継続利用し音声操作者からの音声を最も認識性能の高い指向性で入力する音声認識装置。
An audio input unit, an audio buffer unit that stores a signal from the audio input unit, a directivity adjustment unit that generates a signal whose directivity is changed from the signal stored in the audio buffer unit, and the directivity adjustment unit A speech recognition unit that performs speech recognition processing on a signal whose directivity has been changed by the above, a speech buffer control unit that reproduces a signal stored in the speech buffer unit, and a plurality of directivities that are changed by the directivity adjustment unit A directivity information storage unit storing the directivity information; a directivity control unit that selects one of the directivity information stored in the directivity information storage unit to control the directivity adjustment unit; and the speech recognition unit A speech recognition dictionary part that stores the recognition target in
A voice recognition control unit that performs directivity processing a plurality of times using a signal of each directivity by changing the directivity a plurality of times in the directivity adjustment unit under the control of the directivity control unit;
A determination result storage unit that stores the degree of coincidence between the changed recognition results for the plurality of directivities and the data stored in the speech recognition dictionary unit, and the degree of coincidence among the recognition results stored in the determination result storage unit A matching degree determination unit that determines the highest directivity, determines the directivity with the highest degree of matching, and continuously uses the determined directivity in a series of subsequent voice conversations to receive voice from the voice operator Voice recognition device that inputs with the highest recognition performance directivity .
音声入力部と、この音声入力部からの信号を保存する音声バッファ部と、この音声バッファ部に保存された信号から指向性および利得を変更した信号を生成する指向性利得調整部と、この指向性利得調整部により指向性および利得を変更した信号に対して音声認識処理を行う音声認識部と、上記音声バッファ部に保存された信号を再生する音声バッファ制御部と、上記指向性利得調整部にて変更する複数の指向性情報および利得情報を記憶した指向性利得情報記憶部と、この指向性利得情報記憶部に記憶された指向性情報および利得情報から各1つを選択して上記指向性利得調整部を制御する指向性利得制御部と、上記音声認識部における認識対象を記憶した音声認識辞書部と、
上記指向性制御部の制御により上記指向性調整部にて複数回指向性および利得を変更して各指向性の信号を使用し認識処理を複数回実行させる音声認識制御部と、
変更した複数の指向性および利得における認識結果と上記音声認識辞書部に保存されたデータとの一致度を記憶する判定結果記憶部と、この判定結果記憶部に記憶された認識結果の中から一致度が最も高い指向性および利得を判定する一致度判定部とを備え、一致度が最も高い指向性および利得を判定し、その後に続く一連の音声対話においては判定した指向性および利得を継続利用し音声操作者からの音声を最も認識性能の高い指向性で入力するた音声認識装置。
An audio input unit, an audio buffer unit for storing a signal from the audio input unit, a directivity gain adjusting unit for generating a signal in which directivity and gain are changed from the signal stored in the audio buffer unit, and the directivity A speech recognition unit that performs speech recognition processing on a signal whose directivity and gain have been changed by a directivity gain adjustment unit, a speech buffer control unit that reproduces a signal stored in the speech buffer unit, and the directivity gain adjustment unit A directivity gain information storage unit storing a plurality of directivity information and gain information to be changed in step 1, and selecting each one from the directivity information and gain information stored in the directivity gain information storage unit A directivity gain control unit that controls the directional gain adjustment unit, a speech recognition dictionary unit that stores recognition targets in the speech recognition unit,
A voice recognition control unit that executes a recognition process a plurality of times using a signal of each directivity by changing the directivity and gain a plurality of times in the directivity adjustment unit under the control of the directivity control unit;
A determination result storage unit that stores the degree of coincidence between the recognition results for the changed plurality of directivities and gains and the data stored in the speech recognition dictionary unit, and a match among the recognition results stored in the determination result storage unit And a coincidence determination unit that determines the directivity and gain with the highest degree of determination, determine the directivity and gain with the highest degree of coincidence, and continue to use the determined directivity and gain in the subsequent series of voice conversations A voice recognition device for inputting voice from a voice operator with directivity having the highest recognition performance .
入力された音声信号に対して認識処理を行い、あるキーワードが認識されたかどうかを判定するステップ、キーワードが認識されたとき、そのキーワードの音声信号に対して指向性を変更した各指向性の音声信号を使用し複数回の認識処理を行い、変更した複数の指向性における認識結果と音声認識辞書部に保存されたデータとの一致度を得るステップ、これらの認識結果の中から一致度が最も高い指向性を判定するステップ、およびこの判定した最も一致度の高い指向性に指向性を設定してその後のオーディオ機器等の操作コマンド音声認識を行うステップを有する音声認識方法。A step of performing recognition processing on the input voice signal to determine whether or not a keyword is recognized. When a keyword is recognized, each directional voice in which directivity is changed with respect to the voice signal of the keyword. A signal is used to perform recognition processing multiple times to obtain a degree of coincidence between the changed recognition results for the plurality of directivities and the data stored in the speech recognition dictionary, and the degree of coincidence is the highest among these recognition results. A speech recognition method comprising: determining a high directivity; and setting a directivity to the determined directivity having the highest degree of coincidence to perform subsequent operation command speech recognition of an audio device or the like . 入力された音声信号に対して認識処理を行い、あるキーワードが認識されたかどうかを判定するステップ、キーワードが認識されたとき、そのキーワードの音声信号に対して指向性および利得を変更した各指向性および各利得の音声信号を使用し複数回の認識処理を行い、変更した複数の指向性および利得における認識結果と音声認識辞書部に保存されたデータとの一致度を得るステップ、これらの認識結果の中から一致度が最も高い指向性および利得を判定するステップ、およびこの判定した最も一致度の高い指向性および利得に指向性および利得を設定してその後のオーディオ機器等の操作コマンド音声認識を行うステップを有する音声認識方法。A step of performing recognition processing on the input voice signal to determine whether or not a keyword is recognized. When a keyword is recognized, each directivity in which directivity and gain are changed with respect to the voice signal of the keyword . A step of performing recognition processing a plurality of times using the sound signal of each gain, and obtaining a degree of coincidence between the recognition results in the changed plurality of directivities and gains and the data stored in the speech recognition dictionary unit, and these recognition results Determining the directivity and gain with the highest degree of coincidence from the above, and setting the directivity and gain to the determined directivity and gain with the highest degree of coincidence for subsequent operation command speech recognition of audio equipment, etc. A speech recognition method comprising the steps of:
JP2000112942A 2000-04-14 2000-04-14 Speech recognition method and apparatus Expired - Fee Related JP4410378B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000112942A JP4410378B2 (en) 2000-04-14 2000-04-14 Speech recognition method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000112942A JP4410378B2 (en) 2000-04-14 2000-04-14 Speech recognition method and apparatus

Publications (2)

Publication Number Publication Date
JP2001296891A JP2001296891A (en) 2001-10-26
JP4410378B2 true JP4410378B2 (en) 2010-02-03

Family

ID=18625002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000112942A Expired - Fee Related JP4410378B2 (en) 2000-04-14 2000-04-14 Speech recognition method and apparatus

Country Status (1)

Country Link
JP (1) JP4410378B2 (en)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0030918D0 (en) * 2000-12-19 2001-01-31 Hewlett Packard Co Activation of voice-controlled apparatus
JP3910898B2 (en) * 2002-09-17 2007-04-25 株式会社東芝 Directivity setting device, directivity setting method, and directivity setting program
WO2006025106A1 (en) * 2004-09-01 2006-03-09 Hitachi, Ltd. Voice recognition system, voice recognizing method and its program
JP4654777B2 (en) * 2005-06-03 2011-03-23 パナソニック株式会社 Acoustic echo cancellation device
JP2008309864A (en) * 2007-06-12 2008-12-25 Fujitsu Ten Ltd Voice recognition device and voice recognition method
EP2445230A4 (en) * 2009-06-17 2016-05-18 Panasonic Ip Corp America Hearing aid apparatus
JP5452158B2 (en) * 2009-10-07 2014-03-26 株式会社日立製作所 Acoustic monitoring system and sound collection system
US20120169583A1 (en) * 2011-01-05 2012-07-05 Primesense Ltd. Scene profiles for non-tactile user interfaces
JP2016126022A (en) * 2014-12-26 2016-07-11 アイシン精機株式会社 Speech processing unit
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
JP7111206B2 (en) * 2021-02-17 2022-08-02 日本電信電話株式会社 Speaker direction enhancement device, speaker direction enhancement method, and program

Also Published As

Publication number Publication date
JP2001296891A (en) 2001-10-26

Similar Documents

Publication Publication Date Title
JP3910898B2 (en) Directivity setting device, directivity setting method, and directivity setting program
JP6584731B2 (en) Gesture operating device and gesture operating method
JP4779748B2 (en) Voice input / output device for vehicle and program for voice input / output device
JP4304952B2 (en) On-vehicle controller and program for causing computer to execute operation explanation method thereof
JP5137853B2 (en) In-vehicle speech recognition device
EP2028061A2 (en) System and method of controlling personalized settings in a vehicle
US20090055180A1 (en) System and method for optimizing speech recognition in a vehicle
JP4410378B2 (en) Speech recognition method and apparatus
JP2007329702A (en) Sound-receiving device and voice-recognition device, and movable object mounted with them
JP2017090614A (en) Voice recognition control system
JP6214297B2 (en) Navigation apparatus and method
JP3842497B2 (en) Audio processing device
JP6459330B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JP3760755B2 (en) Voice input device
JP4478146B2 (en) Speech recognition system, speech recognition method and program thereof
JP3838159B2 (en) Speech recognition dialogue apparatus and program
JP2019197964A (en) Microphone control device
JP2004301875A (en) Speech recognition device
JP3919337B2 (en) Voice recognition device for vehicle
JP2000305596A (en) Speech recognition device and navigator
JP3679617B2 (en) Audio transmission method
JP2020160181A (en) Speech processing apparatus and speech processing method
JP2003345389A (en) Voice recognition device
US11930335B2 (en) Control device, control method, and control program
JP7407665B2 (en) Audio output control device and audio output control program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061102

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20061102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091113

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121120

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121120

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131120

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees