JP4478146B2

JP4478146B2 - 音声認識システム、音声認識方法およびそのプログラム

Info

Publication number: JP4478146B2
Application number: JP2006515454A
Authority: JP
Inventors: 賢一水石; 真人戸上
Original assignee: Hitachi Automotive Systems Ltd
Current assignee: Hitachi Astemo Ltd
Priority date: 2004-09-01
Filing date: 2004-09-01
Publication date: 2010-06-09
Anticipated expiration: 2024-09-01
Also published as: JPWO2006025106A1; WO2006025106A1

Description

本発明は、音声認識システム、音声認識方法およびそのプログラムに関する。

車両の運転者が、ナビゲーション装置等の車載情報端末を操作するとき、運転者が脇見運転をして事故を起こさないよう、車室内において音声コマンドによりナビゲーション装置に命令伝達する技術がある。
この技術では、周囲から大きな騒音が混入したとき（例えば、車両がトンネル内を走行したとき等）、音声コマンドのＳ／Ｎ（Signal／Noise）比が低下して、音声コマンドの音声認識率が低下しやすいという問題がある。
この問題を解決するため、運転者からの音声（音声コマンド）と、周囲からの騒音とを２つの音源としてとらえ、これらの音声を分離する工夫がなされてきた。

従来からある音声分離技術は、以下の２つに大別される。
（１）マイクロホンの指向性に基づき音声を分離する技術（特許文献１〜特許文献３参照）。
（２）複数のマイクロホンから取り込まれた運転者（発話者）の音声と車室内の雑音とを、情報処理装置の計算機内部で信号処理を行うことによって見分けて分離する技術（非特許文献１〜非特許文献３参照）。
なお、（２）の信号処理に用いられるアルゴリズムとしては、独立成分分析（ＩＣＡ、Independent Component Analysis）を用いて、音声の受信信号だけで音源を分離するＢＳＳ（Blind Source Separation）という技術が知られている。
特開２００３−０４４０９２号公報（請求項１）特開平１１−２９８９８８号公報（請求項１）特開２００１−３３７６９４号公報（請求項１） A.J.Bell and T.J.Sejinowski,"An information-maximization approach to blind separation and blind deconvolution," Neural Computation, Vol.7,No.6,pp.1129-1159,1995. S.Kurita,H.Saruwatari,S.Kajita,K.Takeda,F.Itakura, "Evaluation of blind Signal separation method using directivity pattern under reverberant conditions,"Proc.,IEEE,International Conference on Acoustic,Speech,and Signal Processing,SAM-P2-5, pp.3140-3143,June,2000. 猿渡洋、澤井克之、他、"ブラインド音源分離とサブバンド除去処理を用いた車室内音声認識"、清学技報、Vol. 102, No.35, pp. 7-12.

しかし、前記した技術のいずれもが、車室内の発話者の音声と、周囲の雑音（騒音）とを分離するときにＣＰＵ（Central Processing Unit）が複雑なアルゴリズムを高速で処理する必要がある。すなわち、発話者の音声コマンドの認識をする際にＣＰＵ資源を多く消費するので、音声コマンドの認識に要する時間が長くなるという問題、あるいは音声コマンドの認識に要する時間を短縮しようとすると処理能力の高いＣＰＵを使う必要があるので、コストアップに繋がるという問題がある。また、発話者の体格や座席シートの位置や傾斜角度の調整によって、音声認識率が低下してしまうという問題もある。

そこで、本発明は、前記した問題を解決し、発話者の音声コマンドの認識をする際のＣＰＵ資源の消費を抑え、発話者が発話する位置が変化した場合にも音声認識率を低下させない音声認識システムを提供することを課題とする。

前記した課題を解決するため、本発明の音声認証システムは、発話者の音声の音源位置を示したプリセット情報を記憶する記憶装置と、この記憶装置に記憶された発話者のプリセット情報を参照して、マイクロホンにより入力された音声から発話者の音声を分離し、音声認識を行う音声認識部とを有する構成とした。
また、本発明の音声認識システムは、発話者の座席シートの位置を検出するセンサをさらに備え、記憶装置は、発話者の座席シートの位置ごとのプリセット情報を記憶し、プリセット情報検索部は、センサから発話者の座席シートの位置を取得し、取得した座席シートの位置に基づいて、記憶装置からプリセット情報を検索し、音声認識部に出力する構成とした。その他の構成については、後記する。

本発明によれば、以下のような効果が得られる。
（１）音声認識システムは発話者ごとの音源位置を予め記憶しておくので、異なる発話者（運転者）が利用する場合にも、発話者の音声と雑音（騒音）との音源分離が容易となる。また、発話者の体格や座席シートの位置の調整の仕方によって、発話者が発話する位置が変化したときに、音声コマンドの音声認識率が低下してしまうことを防止できる。
（２）音声認識システムは予め記憶された音源位置の情報に基づいて音声分離処理を行うので、音声分離に要するＣＰＵ資源が節約される。したがって、音声分離処理（音声認識処理）に要する時間も短縮化でき、発話者が音声コマンドで車載端末装置を操作するときの操作レスポンスを向上させることができる。つまり、発話者は音声コマンドによる操作を行いやすくなる。
（３）運転者である発話者が音声コマンドで車載情報端末の操作をしやすくなることで、運転中の視覚や手動での操作により、交通事故が発生する可能性を低くすることができる。すなわち、車両の運転時の安全性を向上させることができる。

次に、本発明を実施するための最良の形態（以下、実施の形態とする）について、適宜図面を参照して詳細に説明する。
《第１の実施の形態》
本発明の第１の実施の形態は、本発明の音声認識システムをナビゲーション装置に適用したものである。図１は、本実施の形態の音声認識システムを示すブロック図である。
本実施の形態の音声認識システムは、車両１の発話者３１（３１Ａ,Ｂ）の音声入力を受け付けるマイクロホン（音声入力手段）１４と、ナビゲーション装置（車載情報端末）１０と、ナビゲーション装置１０からの音声データを出力するスピーカ（音声出力手段）１５（１５Ａ,Ｂ）と、ナビゲーション装置１０からの画像データを出力するモニタ（表示手段）１３と、発話者３１（３１Ａ,Ｂ）がナビゲーション装置１０に各種情報の入力を行うリモートコントローラ（入力手段）１８と、リモートコントローラ１８から入力された各種情報を受け付けるレシーバ１９とを含んで構成される。

マイクロホン１４は、ナビゲーション装置１０と接続され、発話者３１（３１Ａ,Ｂ）の音声入力を受け付けると、この音声情報をナビゲーション装置１０へ出力する。
ここで、マイクロホン１４は、図１に示すように少なくとも２個のマイクロホン（マクロホン１４Ａ,Ｂ）で構成されることが好ましい。このようにすることで、ナビゲーション装置１０は、発話者３１（３１Ａ,Ｂ）の音源の位置を正確に特定することが可能になる。もちろん、マイクロホン１４は３個以上で構成されていてもよい。

リモートコントローラ１８は、発話者３１（３１Ａ,Ｂ）のＩＤや、プリセット情報の呼び出し指示等、各種情報をナビゲーション装置１０に入力する入力手段である。
レシーバ１９は、リモートコントローラ１８経由で入力された情報を受信し、この情報をナビゲーション装置１０へ出力する。

なお、リモートコントローラ１８とレシーバ１９との間は、赤外線やブルートゥース等で無線通信を行うようにしてもよいし、ケーブル等で接続して有線通信を行うようにしてもよい。
また、モニタ１３は、発話者３１（３１Ａ,Ｂ）が画面に触れることで各種情報の入力を行えるようにしてもよい。つまり、モニタ１３は、タッチパネル機能を備えるようにしてもよい。
なお、リモートコントローラ１８は、所定の通信機能を備えた携帯電話機やＰＤＡ（Personal Digital Assistant）であってもよい。

図２（ａ）は、音声認識システムのブロック図であり、図２（ｂ）は、図２（ａ）のＣＰＵにより実現される機能を示したブロック図である。
図２（ａ）に示すように、ナビゲーション装置１０は、Ａ／Ｄ（Analog／Digital）変換装置１６と、ＣＰＵ（中央演算装置、Central Processing Unit）１７と、記憶装置２１と、Ｄ／Ａ（Digital／Analog）変換装置２４とを含んで構成される。

Ａ／Ｄ（Analog／Digital）変換装置１６は、マイクロホン１４から入力された発話者３１の音声コマンドを、アナログ波形からデジタル信号へ変換する。そして、デジタル信号に変換した音声コマンドを、ＣＰＵ１７へ出力する。

ＣＰＵ１７は、その機能上、図２（ｂ）に示すように、音源位置特定部２３と、音声認識部２０と、プリセット情報検索部２５と、ナビゲーション処理部２２とに区分される。ここに示される各構成は、ＣＰＵ１７が、記憶装置２１に記憶された音源位置の特定用プログラム、音声認識用プログラム等を実行することにより実現される。
なお、図２（ｂ）では、マイクロホン１４、レシーバ１９からの入力、モニタ１３、スピーカ１５への出力は省略している。

音源位置特定部２３は、Ａ／Ｄ変換装置１６でデジタル信号に変換された音声コマンドを受信すると、音声コマンドの位相情報（進みや遅延）および強度分布を演算処理して、音声コマンドの発声の指向性を分析し、発話者３１の音声の音源位置を特定する。そして、この音源位置を発話者３１のプリセット情報（詳細は後記）として、記憶装置２１に登録（記憶）する。
なお、音源位置の特定には、公知の技術（特許文献１〜３、非特許文献１〜３）を用いるものとし、このときの音源位置の特定精度は、±５ｃｍ程度とする。

プリセット情報検索部２５は、リモートコントローラ１８等からの発話者３１のＩＤ等の入力を受けて、記憶装置２１から発話者３１のプリセット情報を検索する。そして、検索されたプリセット情報を音声認識部２０に受け渡す。
なお、プリセット情報検索部２５は、モニタ１３上に、記憶装置２１に記憶されたプリセット情報を表示して、発話者３１にプリセット情報の選択入力を促す画面を出力するようにしてもよい。

音声認識部２０は、マイクロホン１４経由で音声の入力を受けると、発話者３１のプリセット情報を参照して、この音声コマンドの指向性を設定した音声信号を作成する。そして、入力された音声から発話者３１の音声を分離する。そして、分離された音声（音声コマンド）の音声信号がどのようなコマンドを示すかを分析する。つまり、記憶装置２１に記憶された音声辞書（音声信号ごとに、その音声信号の意味するコマンドを示した情報）を参照して、音声コマンドを所定のコマンドとして認識する。
このとき、音声認識部２０が音源位置を特定したあとの、音声コマンドの指向性を設定した音声信号の作成、発話者３１の音声の分離および音声コマンドの分析は公知の技術を用いるものとする。

ナビゲーション処理部２２は、音声認識部２０からコマンドの出力を受けると、このコマンドに基づき、各種ナビゲーション処理を行う。
これら各構成要素の動作の詳細は、後記する。

記憶装置２１は、前記したプリセット情報、音源位置の特定用プログラム、音声認識用プログラム、プリセット情報登録用プログラム、音声辞書等を記憶し、ハードディスクや不揮発性メモリ等により構成される。
なお、音声辞書とは、音声信号ごとに、その音声信号の意味するコマンドを示した情報である。
ここで、記憶装置２１に記憶されるプリセット情報を、図３を用いて説明する。図３は、図２（ａ）の記憶装置に記憶されるプリセット情報を例示した図である。

図３に示されるように、プリセット情報は、発話者３１（車両１の乗員）ごとに、その発話者３１が音声コマンドを発声するときの音源位置の情報を記憶する。
例えば、図３において、発話者３１Ａが発声するときの音源位置は（Ｘ₁、Ｙ₁）であり、発話者３１Ｃが発声するときの音源位置は（Ｘ₃、Ｙ₃）であることを示している。
なお、このプリセット情報は、記憶装置２１では座標位置データで格納しておき、モニタ１３に表示するときには、発話者３１が発声するときの音源位置を示した画像データ（図３参照）を作成し、出力するようにしてもよい。

なお、発話者３１が座席シートの位置を前方または後方に移動させたとき（図３の発話者３１Ａ,Ｃ参照）や、異なる者が発話者３１となったときのことを考慮して、車両１の運転を開始するたびに、発話者３１がプリセット情報を登録するようにしてもよい。また、予め所定の者が運転者（発話者）となることが決まっていれば、その運転者（発話者）のプリセット情報を登録しておき、発話者３１が車両１の運転を開始するとき、発話者３１がナビゲーション装置１０にＩＤ等を入力して、プリセット情報を呼び出すようにしてもよい。
また、このプリセット情報は、運転席の発話者３１Ａ,Ｃのものだけでなく、助手席の発話者３１Ｂ（図３参照）の音源位置や、後部座席の乗員の音源位置（図示せず）の情報を含んでいてもよい。このようにすることで、運転席以外の発話者３１も音声コマンドでナビゲーション装置１０を操作できるようになる。

ちなみに、プリセット情報における音源位置の情報は、（Ｘ、Ｙ）の二次元情報として記憶されるものとしたが、これに高さに関する情報を加えて、三次元の情報（Ｘ、Ｙ、Ｚ）として記憶されるものとしてもよい。この場合には、例えば、ナビゲーション装置１０は３個のマイクロホン１４から音声を取得するようにして、ＣＰＵ１７が、高さ方向の音声の指向性を演算するようにする。
このように、ナビゲーション装置１０は発話者３１の音源位置の高さに関する情報を取得することで、ＣＰＵ１７は、発話者３１の正確な音源位置や音声の指向性を特定できるので、音声分離の演算処理を行いやすくなる。
なお、プリセット情報に記憶される発話者３１の音源位置の精度は、前記したとおり±５ｃｍ程度である。

記憶装置２１に記憶されたプリセット情報は、リモートコントローラ１８（またはモニタ１３がタッチパネル機能を備えていればモニタ１３）からのＩＤ等の入力により呼び出される。
例えば、発話者３１が、リモートコントローラ１８等から自己のＩＤ（識別情報）を入力すると、プリセット情報検索部２５が、このＩＤをキーとして記憶装置２１から発話者３１のプリセット情報を検索し、この情報を呼び出す。
なお、この発話者３１のＩＤは、発話者３１が、リモートコントローラ１８のキー等を用いて手動で入力してもよいし、リモートコントローラ１８の記憶部（図示せず）に予め記憶させておき、これをナビゲーション装置１０へ送信するようにしてもよい。

（プリセット情報の登録手順）
図４は、本実施の形態におけるプリセット情報の登録手順を示したフローチャートである。図４を用いて、本実施の形態におけるプリセット情報の登録手順（ＣＰＵ１７によるプリセット情報登録用プログラムの実行処理）について説明する（適宜図１〜図３参照）。
ここでは、モニタ１３（図１、図２参照）がタッチパネルで構成されており、発話者３１は、モニタ１３へのタッチ入力により各種入力を行う場合を例として説明する。

まず、ＣＰＵ１７は車両１のモニタ１３からプリセット情報の登録開始の指示入力（タッチ入力）がされたことを検出すると、記憶装置２１から発話者３１の情報の登録画面を読み出し、モニタ１３に出力する。そして、ＣＰＵ１７は、モニタ１３経由で発話者３１の情報（例えば、発話者３１の氏名やＩＤ等）の入力を受け付けると（ステップＳ４０１）、この発話者３１の情報を記憶装置２１に記憶する。

次に、ＣＰＵ１７は、発話者３１に音声コマンドの発声を促す音声データを記憶装置２１から読み出す。そして、この音声データ（音声案内）をスピーカ１５から出力させる（ステップＳ４０２）。
例えば、ＣＰＵ１７は、スピーカ１５から「発声位置（音源位置）の初期設定を行います。モニタの発声位置設定の開始ボタンを押して下さい。」という音声案内を出力させる。そして、モニタ１３経由で発話者３１から発声位置の開始ボタンの選択入力を受け付けると、ＣＰＵ１７は、スピーカ１５から「ハンドルを握って、通常の運転姿勢をとってください。ピーという音の後で、１０秒間の間に音声コマンドを繰り返してください。ピピという音で終了します。」という音声案内を出力させる。そして、「目的地設定」、「レストラン案内」、「リルート」等、予め記憶装置２１に記憶された音声をスピーカ１５から出力して、発話者３１にこれらの音声（音声コマンド）の発声を促す。

続いて、ＣＰＵ１７は、マイクロホン１４経由で、発話者３１が発声した音声コマンドの入力を受け付ける（ステップＳ４０３）。なお、入力される音声コマンドは、Ａ／Ｄ変換装置１６で、デジタル信号へ変換された音声コマンドである。
ＣＰＵ１７の音源位置特定部２３は、デジタル信号に変換した音声コマンドにおける位相情報（進みや遅延）および強度分布を演算処理して、音声コマンドにおける発声の指向性を分析する。そして、分析された指向性の情報に基づき、発話者３１の発声の音源位置を特定する（ステップＳ４０４）。そして、この音源位置を発話者３１のプリセット情報として、記憶装置２１に登録し（ステップＳ４０５）、いったん処理を終了する。なお、プリセット情報を登録するときは、ステップＳ４０１で入力された発話者３１の情報（ＩＤ等）も含めるようにする。このようにすることで、プリセット情報検索部２５が発話者３１のＩＤをキーとして、記憶装置２１から発話者３１のプリセット情報を呼び出すことができる。

図５は、本実施の形態における音声認識の処理手順を示したフローチャートである。図５を用いて、本システムが行う音声認識処理（ＣＰＵ１７による音声認識用プログラムの実行処理）を説明する（適宜図１〜図４参照）。
ここでも、情報の入力はタッチパネル機能を持つモニタ１３で行われるものとする。

まず、ＣＰＵ１７は、モニタ１３経由で発話者３１の情報（ＩＤ）の入力を受けると（ステップＳ５０１）、プリセット情報検索部２５がこのＩＤをキーとして、記憶装置２１から発話者３１のプリセット情報を検索し、このプリセット情報を呼び出す（ステップＳ５０２）。そして、このプリセット情報を音声認識部２０へ受け渡す。

次に、音声認識部２０がマイクロホン１４経由で、発話者３１の音声入力を検知すると（ステップＳ５０３のＹＥＳ）、プリセット情報検索部２５が検索した発話者３１のプリセット情報を参照して、音声コマンドの音声認識を行う（ステップＳ５０４）。

すなわち、まず、音声認識部２０は、発話者３１のプリセット情報を参照して、音声（音声コマンド）の指向性を特定する。次に、この指向性に基づき、マイクロホン１４経由で入力された音声を、車室内の雑音（例えば、トンネル内を走行する際に発生する騒音）と、音声コマンドの音声とに分離する。そして、記憶装置２１の音声辞書を参照して、分離された音声コマンドの音声が意味するコマンドを特定する。
なお、前記した音声の指向性の特定、分離および音声コマンドにおけるコマンドの内容特定は公知の技術を用いるものとする。

次に、音声認識部２０は、ステップＳ５０４で特定したコマンドをナビゲーション処理部２２に出力し（ステップＳ５０５）、ナビゲーション処理部２２は、このコマンドにしたがってナビゲーション処理を行う（ステップＳ５０６）。ここでのナビゲーション処理とは、例えば音声認識部２０から出力されたコマンドにしたがって、モニタ１３にナビゲーション用の画像データを出力したり、Ｄ／Ａ変換装置２１経由で、スピーカ１５にナビゲーション用の音声を出力したりすることをいう。

このように、音声認識システムの記憶装置２１で発話者３１のプリセット情報を格納しておき、音声認識をするときには、音声認識部２０がこのプリセット情報を参照して音声コマンドの分離を行うようにする。このようにすることで、従来よりもＣＰＵ１７の音声認識処理の負荷を軽減することができる。

なお、ここでは、発話者３１のＩＤ入力は、モニタ（タッチパネル）１３から行うようにしたが、例えば、車両１のドアの施錠および解錠を無線で行う無線エントリーキーを用いるようにしてもよい。すなわち、車両１のドアオープン時に、レシーバ１９経由で、無線エントリーキーから送信される固有のＩＤ（発話者３１のＩＤ）を取得し、このＩＤに基づきプリセット情報検索部２５が発話者３１のプリセット情報を呼び出し、音声認識部２０に受け渡すようにしてもよい。
このようにすることで、運転者（発話者３１）は、手軽に本実施の形態のナビゲーション装置１０を利用することができる。

《第２の実施の形態》
本発明の第２の実施の形態は、記憶装置２１が座席位置（運転席、助手席、右後部座席、左後部座席等）ごとの標準の音源位置の情報（標準のプリセット情報）を記憶し、音源位置特定部２３が、この標準のプリセット情報を参照して音源位置の特定を行うことを特徴とする。本実施の形態を図１〜図５を参照しつつ説明する。
なお、前記した第１の実施の形態と同様の構成要素は同じ符号を付して、説明を省略する。

第２の実施の形態において音源位置特定部２３は、リモートコントローラ１８等から、発話者３１の座席位置の入力を受けると、入力された座席位置における標準の音源位置の情報を記憶装置２１から呼び出す。そして、音源位置特定部２３は、この標準の音源位置の情報と、発話者３１から取得した音声コマンドとに基づいて発話者３１の音源位置の特定を行う。このようにすることで、音源位置特定部２３は、より正確な音源位置のプリセット情報を作成することができる。また、音源位置特定部２３における音源位置特定処理の負荷を軽減できる。

ちなみに、音声認識部２０は、前記した標準の音源位置の情報に基づき、発話者３１の音声認識処理を行うようにしてもよい。すなわち、プリセット情報検索部２５は、発話者３１の座席位置の選択入力を受けると、記憶装置２１からその座席位置の標準の音源位置に関する情報（標準のプリセット情報）を読み出し、音声認識部２０に受け渡す。そして、音声認識部２０は、その標準の音源位置に基づき発話者３１の指向性の設定を行い、音声コマンドの音声分離および音声認識処理を行う。このようにすることで、プリセット情報を登録していない者（例えば、助手席の同乗者）が、一時的に発話者３１になることも容易となる。

なお、車両１が座席シートの前後のシフト量（座席の位置）、背もたれの傾斜角度等を検出するセンサを備え、プリセット情報検索部２５は、このセンサの検出結果に基づきプリセット情報を検索するようにしてもよい。
すなわち、予め記憶装置２１に、車両１の座席シートの前後へのシフト量、背もたれの傾斜角度ごとの音源位置等を示したプリセット情報を登録しておく。そして、プリセット情報検索部２５は、前記したセンサから座席シートの前後のシフト量、背もたれの傾斜角度等を取得すると、この座席シートの前後のシフト量、背もたれの傾斜角度等に対応するプリセット情報を記憶装置２１から検索する。そして、音声認識部２０は、検索されたプリセット情報に基づき、音声認識を行うようにする。このようにすることで、音声認識部２０の音声認識の処理負荷を軽減することができる。

また、発話者３１が騒音下で発した音声コマンドを音声認識システムが正しく認識しているか否かの確認ができるようにしてもよい。

まず、発話者３１が、リモートコントローラ１８経由で、ナビゲーション装置１０に音声コマンドが正しく認識されているか否かの確認をする旨の指示入力をする。これを受けて、ＣＰＵ１７が、記憶装置２１に記憶された騒音データ（例えば、車両がトンネル内を時速１００キロメートルで走行しているときの騒音データ）を呼び出し、この騒音をスピーカ１５から出力させる。そして、このような騒音下で発話者３１が音声コマンドを発声し、ＣＰＵ１７は前記した図５のステップＳ５０３およびステップＳ５０４と同様に、発話者３１が発声した音声コマンドを特定する処理を行う。

そして、ＣＰＵ１７は、この特定されたコマンドの内容に基づいて、記憶装置２１に記録されているテキスト／音声変換テーブルを参照し、音声コマンドを音声合成信号に変換する。そして、Ｄ／Ａ変換装置２１でアナログ波形に変換し、スピーカ１５から音声合成音として出力させる。すなわち、ナビゲーション装置１０に、発話者３１から入力された音声コマンドを復唱させるようにする。

ここで、スピーカ１５から出力された音声合成音（復唱された音声コマンド）が、発話者３１の発した音声コマンドと同じものであれば、ナビゲーション装置１０で音声コマンドが正しく認識されていることになる。
一方、スピーカ１５から出力された音声合成音（復唱された音声コマンド）が、発話者３１の発した音声コマンドとは異なるものであれば、ナビゲーション装置１０で音声コマンドが正しく認識されていないことになるので、発話者３１は再度プリセット情報を登録する等の処置を取ることができる。

以上、本発明の実施の形態について説明した。このような音声認識システムによれば、音声分離処理に要するＣＰＵ資源が節約され、音声分離処理に要する時間を短縮化できる。つまり、発話者３１が音声コマンドでナビゲーション装置１０を操作するときの、操作レスポンスを向上させることになり、発話者３１は音声コマンドによる操作を行いやすくなる。また、高度な演算処理能力を持つＣＰＵを用いる必要がなくなるので音声認識システムを導入する際のコストを低減できる。
さらに、運転者が発話者３１になるとき、音声コマンドによるナビゲーション装置１０の操作をしやすくなるので、運転中の視覚や手動での操作により、交通事故が発生する可能性を低くすることができる。すなわち、運転時の安全性を向上させることができる。

本発明は、前記した実施の形態に限定されず、発明の趣旨を逸脱しない範囲で応用可能である。例えば、前記した実施の形態では、本発明の音声認識システムをナビゲーション装置に適用した場合を例に説明したが、他の車載情報端末に適用してもよい。
また、前記した実施の形態において、スピーカ１５から出力される騒音は、記憶装置２１に記憶されている音声データを用いることとしたが、ＣＤ等の記憶媒体に記憶された音声データを用いるようにしてもよい。
また、本実施の形態に係る音声認識システムは、コンピュータ及びプログラムによって実現することができ、そのプログラムをコンピュータによる読み取り可能な記憶媒体（ＣＤ−ＲＯＭ等）に記憶して提供することが可能である。さらに、そのプログラムを、ネットワークを通して提供することも可能である。
ここでいうコンピュータシステムとは、ＯＳ（Operating System）等のソフトウェアや周辺機器等のハードウエアを含むものである。

本実施の形態の音声認識システムの構成を示すブロック図である。図２（ａ）は、音声認識システムのブロック図であり、図２（ｂ）は、図２（ａ）のＣＰＵにより実現される機能を示したブロック図である。図２（ａ）の記憶装置に記憶されるプリセット情報を例示した図である。本実施の形態におけるプリセット情報の登録手順を示したフローチャートである。本実施の形態における音声認識の処理手順を示したフローチャートである。

符号の説明

１車両
１０ナビゲーション装置
１３モニタ
１４（１４Ａ，Ｂ）マイクロホン
１５（１５Ａ，Ｂ）スピーカ
１６Ａ／Ｄ変換装置
１７ＣＰＵ
１８リモートコントローラ
１９レシーバ
２０音声認識部
２１記憶装置
２２ナビゲーション処理部
２３音源位置特定部
２５プリセット情報検索部
３１（３１Ａ〜３１Ｃ）発話者

Claims

車両内に設置された複数のマイクロホンにより入力された音声から、発話者の音声を分離して音声認識を行う音声認識システムであって、
前記発話者の座席シートの位置を検出するセンサと、
前記発話者の座席シートの位置ごとに、前記発話者の音声の音源位置を示すプリセット情報を記憶する記憶装置と、
前記センサにより前記発話者の座席シートの位置を検出し、前記検出した座席シートの位置に基づいて、前記記憶装置から前記発話者のプリセット情報を検索するプリセット情報検索部と、
前記検索された発話者のプリセット情報を参照して、前記マイクロホンから入力された音声から前記発話者の音声を分離し、音声認識処理を行う音声認識部とを特徴とする音声認識システム。
車両内に設置された複数のマイクロホンにより入力された音声から、発話者の音声を分離して音声認識を行う音声認識方法であって、
前記発話者の座席シートの位置ごとの前記発話者の音声の音源位置を示すプリセット情報を記憶する記憶装置を備える音声認識システムが、
センサにより前記発話者の座席シートの位置を検出するステップと、
前記検出された座席シートの位置に基づいて、前記発話者のプリセット情報を検索するステップと、
前記検索された発話者のプリセット情報を参照して、前記マイクロホンから入力された音声から前記発話者の音声を分離し、音声認識処理を行うステップと、
を実行することを特徴とする音声認識方法。
コンピュータに、請求項２に記載の音声認識方法を実行させるための音声認識用プログラム。