JP2005003997A

JP2005003997A - 音声認識装置および音声認識方法ならびに車両

Info

Publication number: JP2005003997A
Application number: JP2003168134A
Authority: JP
Inventors: Takeshi Nakamura; 中村　　剛
Original assignee: Toyota Motor Corp; Toyota InfoTechnology Center Co Ltd
Current assignee: Toyota Motor Corp; Toyota InfoTechnology Center Co Ltd
Priority date: 2003-06-12
Filing date: 2003-06-12
Publication date: 2005-01-06

Abstract

【課題】複数のユーザにより利用される場合でも、ユーザごとに音声認識結果の精度を向上させ、音声認識の認識性能を向上させて、音声認識装置を高性能化する。
【解決手段】音声入力部１と、複数の音声認識部３ａ〜３ｎと、音声認識結果を判定する認識結果判定部４と、ユーザ情報データ７ａ、…を格納したユーザ情報データベース７と、ユーザ情報データを選択するユーザ情報選択部６とを有する音声認識装置を構成する。複数の音声認識部３ａ〜３ｎが認識した音声認識結果を統計的に処理することにより、複数の音声認識部による認識結果のうちから、最も正確性が高い音声認識結果を、全体の認識結果として出力する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
この発明は、音声認識装置および音声認識方法ならびに車両に関し、特に、音声認識方式を採用したナビゲーションシステムなどの車両搭載装置に適用して好適なものである。
【０００２】
【従来の技術】
近年、ユーザの現在位置とともにユーザの現在位置を含む地図をディスプレイ上に表示させて、ユーザを、所望とする目的地まで誘導するナビゲーションシステムが急速に普及してきている。さらに、現在、ユーザの音声によって種々の操作を実行可能な音声操作機能付きのナビゲーションシステムも登場している。
【０００３】
このような音声操作を実行するためには、音声を認識する手段が必要であるため、音声操作機能付きのナビゲーションシステムにおいては、音声操作を実行するための音声認識装置が備えられている。
【０００４】
【特許文献１】
特開２０００−１３７４９５号公報
【０００５】
【発明が解決しようとする課題】
そして、上述した従来の音声認識装置においては、１つの音声認識エンジンを搭載して、この音声認識エンジンを用いて、種々の音声の音声認識処理を実行するようにしている。
【０００６】
ところが、従来の音声認識装置において、音声認識エンジンが１つしか搭載されていないことにより、あるユーザのある状態における音声に関しては、精度良く高い認識率で音声認識処理を実行することができるが、他の音声に変わると、精度が低下して、認識率が低くなってしまうという場合がある。
【０００７】
すなわち、従来の音声認識装置においては、搭載されている音声認識エンジンの種類に起因して、複数種類の音声に対する音声認識の向き不向きが存在してしまう。
【０００８】
そのため、音声認識装置を利用するユーザが複数の場合でも、個々のユーザごとに最適な音声認識結果を得ることができる音声認識装置の開発が熱望されていた。
【０００９】
したがって、この発明の目的は、複数のユーザによって利用される場合であっても、これらのユーザごとの音声認識結果の精度を向上させることができ、認識性能を高性能化することができる音声認識装置および音声認識方法、ならびにこの音声認識装置を備えた車両を提供することにある。
【００１０】
【課題を解決するための手段】
上記目的を達成するために、この発明の第１の発明は、
外部からユーザの音声を入力可能に構成された、音声入力手段と、
音声入力手段に入力された音声に対して、それぞれ互いに異なる音声認識処理を実行可能に構成された、複数の音声認識手段と、
複数の音声認識エンジンによるそれぞれの音声認識結果を判定可能に構成された認識結果判定手段と、
ユーザごとの音声認識結果が統計的に分類されて生成された複数のユーザ情報データを格納可能なユーザ情報データベースと、
複数のユーザ情報データから、ユーザのユーザ情報データを選択可能に構成されたユーザ情報選択手段とを有し、
複数の音声認識手段による複数の音声認識結果を統計的に処理して、全体の認識結果として出力するように構成されている
ことを特徴とする音声認識装置である。
【００１１】
この第１の発明において、典型的には、ユーザを認証可能に構成された認証手段をさらに有する。また、典型的には、ユーザ情報データが、複数の音声認識手段における音声認識手段ごとの誤認率のデータまたは認識率のデータを含む。
【００１２】
この第１の発明において、具体的には、複数の音声認識手段によりそれぞれ音声認識処理がされた複数の音声認識結果をそれぞれ出力する問い合わせ生成手段を有し、問い合わせ生成手段により出力された複数の音声認識結果のうちから、ユーザにより選択された音声認識結果に基づいた情報を、ユーザのユーザ情報データに格納するように構成されている。
【００１３】
この発明の第２の発明は、
入力された音声を複数の音声認識手段によりそれぞれ認識し、
複数の音声認識エンジンにより認識された複数の音声認識結果が、音声認識結果を判定する認識結果判定手段に供給されると、
認識結果判定手段により、複数の音声認識結果が相互に比較され、
比較において、複数の音声認識結果が一致した場合、複数の音声認識結果を、音声認識結果として出力し、
比較において、複数の音声認識結果が不一致の場合には、複数の音声認識結果に対して統計的処理を行うことにより、複数の音声認識結果から少なくとも１つの音声認識結果を選択して、選択された音声認識結果を出力するようにした
ことを特徴とする音声認識方法である。
【００１４】
この第２の発明において、典型的には、入力された音声を複数の音声認識手段によりそれぞれ認識し、複数の音声認識エンジンにより認識された複数の音声認識結果が、音声認識結果を判定する認識結果判定手段に供給されると、認識結果判定手段により、複数の音声認識結果が相互に比較され、比較において、複数の音声認識結果が一致した場合、複数の音声認識結果を、全体の認識結果として出力し、比較において、複数の音声認識結果が不一致の場合には、複数の音声認識結果に対して統計的処理を行うことにより、複数の音声認識結果から少なくとも１つの音声認識結果を選択して、選択された音声認識結果を、全体の認識結果として出力する。
【００１５】
このような音声認識方法を採用することにより、音声入力を行うユーザに関するユーザ情報データが存在した場合に、ユーザにおける最も適した音声認識手段を選択することができるので、ユーザごとに最適化された音声認識結果を表示することができる。
【００１６】
この第２の発明において、具体的には、ユーザ情報データに含まれる、複数の音声認識手段における認識率の最も高い音声認識手段の認識率と、認識率が最も高い音声認識手段による認識率より低い音声認識手段の認識率との差が、所定値以上であった場合に、認識率の最も高い音声認識手段により認識された音声認識結果を、全体の認識結果として出力する。
【００１７】
この第２の発明において、典型的には、音声入力を行うユーザに該当するユーザ情報データが存在しない場合、または、ユーザに該当するユーザ情報に含まれる認識率の最も高い音声認識手段の認識率と、認識率が最も高い音声認識手段による認識率より低い音声認識手段の認識率との差が所定値未満であった場合、複数の音声認識結果からユーザが発した音声と同じまたは最も近い音声認識結果をユーザに問い合わせ、複数の音声認識結果のうちからユーザにより音声認識結果が選択され入力されると、認識結果判定手段が、ユーザが選択した音声認識結果を出力した音声認識手段の認識率のデータと、ユーザが選択しなかった音声認識結果を出力した音声認識手段の認識率のデータとを生成して、ユーザの識別子に関連づけされたユーザ情報データに格納する。
【００１８】
この発明の第３の発明は、
外部からユーザの音声を入力可能に構成された、音声入力手段と、音声入力手段に入力された音声に対して、それぞれ互いに異なる音声認識処理を実行可能に構成された、複数の音声認識手段と、複数の音声認識エンジンによるそれぞれの音声認識結果を判定可能に構成された認識結果判定手段と、ユーザごとの音声認識結果が統計的に分類されて生成された複数のユーザ情報データを格納可能なユーザ情報データベースと、複数のユーザ情報データから、ユーザのユーザ情報データを選択可能に構成されたユーザ情報選択手段とを有し、複数の音声認識手段による複数の音声認識結果を統計的に処理して、全体の認識結果として出力する音声認識装置が備えられている
ことを特徴とする車両である。
【００１９】
また、この発明において、認識率とは、音声認識手段における認識率を指し、認識率から誤認率も一義的に導出することが可能であり、さらに、音声認識手段の認識率は、複数の音声に対して音声認識処理を行った場合の音声認識結果の正解率と置き換えることもできる。
【００２０】
上述のように構成されたこの発明による音声認識装置および音声認識方法によれば、音声入力手段と、複数の音声認識手段と、音声認識結果を判定する認識結果判定手段と、ユーザ情報データを格納したユーザ情報データベースと、複数のユーザ情報データから、所定のユーザのユーザ情報データを選択するユーザ情報選択手段とを有し、複数の音声認識手段による複数の音声認識結果を統計的に処理して、音声認識結果として出力していることにより、複数の音声認識手段による音声認識結果のうちから、最も正確性が高い音声認識結果を出力することができる。
【００２１】
さらに、上述のように構成された音声認識装置を備えた車両によれば、車両に設けられ、電気信号により操作可能に構成された、例えばナビゲーションシステムやエアコンなどの種々の装置に対して、音声認識装置から出力される音声認識結果の信号を供給することにより、種々の装置を操作することができ、その操作確実性を向上させることが可能となる。
【００２２】
【発明の実施の形態】
以下、この発明の一実施形態について図面を参照しながら説明する。図１に、この一実施形態による音声認識装置を示す。
【００２３】
図１に示すように、この一実施形態による音声認識装置は、音声入力部１と、認証部２と、第１音声認識部３ａ、第２音声認識部３ｂ，…、および第Ｎ音声認識部３ｎを有する音声認識部３と、認識結果判定部４と、ユーザ問合せ生成部５と、ユーザ情報選択部６と、個々のユーザ情報データ７ａ，７ｂ，…，７ｎ…が格納されたユーザ情報データベース７とを有して構成されている。
【００２４】
音声入力部１は、外部から入力されたユーザの音声を電気信号に変換するためのものであり、例えばマイクロフォンなどからなる。
【００２５】
認証部２は、個々のユーザを識別するための装置である。この認証部２としては、例えば、ユーザにより入力されたユーザＩＤやパスワードに基づいて、ユーザを特定する装置を挙げることができる。
【００２６】
この場合、具体的には、認証部２においては、ボタンなどから構成される入力部と、ディスプレイなどからなる出力部とが設けられ、ユーザが入力部からユーザＩＤやパスワードを入力することにより、この一実施形態による音声認識装置を利用するユーザを特定可能に構成されている。なお、認証部２としては、生体認証方法の個人を識別する際に、身体的な情報などを判断材料として利用する技術、具体的には、指紋、掌紋、声紋、網膜パターンといった身体的な特徴や、筆跡やキータイプの際の癖といった情報を利用して認証を行なうバイオメトリックス技術を利用することも可能である。また、認証部２において認証された結果、例えばユーザＩＤなどのユーザを特定するユーザ識別子は、後述するユーザ情報選択部６に供給される。
【００２７】
音声認識部３は、複数の音声認識部（第１音声認識部３ａ、第２音声認識部３ｂ、・・・、第Ｎ音声認識部３ｎ）を有して、構成されている。
【００２８】
これらのＮ個の音声認識部３ａ〜３ｎは、それぞれソフトウェアから構成される音声認識エンジンと、この音声認識エンジンプログラムにより参照可能なデータベースとを有して構成されている。
【００２９】
そして、これらの音声認識部３ａ〜３ｎにおいては、互いに異なる音声認識処理が行われる。具体的には、第１音声認識部３ａおよび第２音声認識部３ｂにおいては、それらの第１音声認識エンジンのプログラムと第２音声認識エンジンのプログラムとが異なっていたり、第１データベースに格納された音響モデル（音素モデル）と第２データベースに格納された音響モデルとが異なっていたりする。
【００３０】
そのため、第１音声認識部３ａの音声認識処理と、第２音声認識部３ｂの音声認識処理とは、互いに異なる音声認識処理が実行される。同様に、第Ｎ音声認識部３ｎは、第１音声認識部３ａおよび第２音声認識部３ｂなどのいずれの音声認識部とも異なる音声認識処理を実行可能に構成されている。また、音声認識部３のうちの、その他の音声認識部においても、それぞれ他の音声認識部とは異なる音声認識処理を実行可能に構成されている。
【００３１】
なお、音声認識部３ａ〜３ｎにおける音声認識エンジンとしては、通常、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ（ＨＭＭ））を用いた確立モデルによるものや、環境型マルコフモデルや、ニューラルネットワークを用いたものが採用される。
【００３２】
また、第１音声認識部３ａから第Ｎ音声認識部３ｎにそれぞれ設けられた第１データベース〜第Ｎデータベースは、それぞれ互いに異なる音響モデル（音素モデル）のデータや音声認識辞書データなどを有して構成されている。これらの音響モデルとしては、例えば、車内用の音響モデルや静かな状態での音響モデル、またはハンズフリーマイクを用いた場合の音響モデルなどを挙げることができる。そして、これらの音響モデルや音声認識辞書データが格納されたデータベースは、それぞれの音声認識部３ａ〜３ｎにおける音声認識エンジンにより、格納されたデータを参照可能に構成されている。
【００３３】
認識結果判定部４は、音声認識部３における第１音声認識部３ａ〜第Ｎ音声認識部３ｎから出力される音声認識結果に基づいて、最も正確性の高い音声認識結果を選択可能に構成されている。また、この認識結果判定部４は、ユーザ情報選択部６によってユーザ情報データ７ａ，７ｂ，…，７ｎ，…のうちから選択され索出されたユーザ情報データを、入力可能に構成されている。
【００３４】
また、この認識結果判定部４は、例えば中央処理装置（ＣＰＵ）およびＲＯＭやＲＡＭからなる記憶部を有する情報処理部から構成されており、複数の音声認識結果や、これらから選択した音声認識結果を出力可能に構成されている。
【００３５】
そして、この認識結果判定部４から出力された音声認識結果が、この一実施形態による音声認識装置による全体の音声認識結果として出力される。なお、この認識結果判定部４から出力された音声認識結果は、電気信号として種々の装置に供給され、音声認識処理に基づく、命令信号を供給可能に構成されている。
【００３６】
ユーザ問合せ生成部５は、複数の音声認識結果が、少なくとも２通りの互いに異なる音声認識結果を出力した場合に、この少なくとも２通りの認識結果を外部に出力可能に構成されている。
【００３７】
そして、ユーザが、自己の発した音声と一致する音声認識結果、または最も近い音声認識結果を選択すると、ユーザ情報データベース７のユーザ情報データ７ａ，７ｂ，…，７ｎ，…のうちの、ユーザＩＤなどのユーザ識別子に関連づけされたユーザ情報データに、ユーザが選択した音声認識結果およびこの音声認識結果を出力した音声認識部の認識率や誤認率と、入力された音声信号の情報とが、ユーザ識別子に関連づけされて格納される。
【００３８】
また、ユーザ識別子に該当するユーザ情報データがユーザ情報データベース７に存在しなかった場合には、新たにユーザ情報データが生成され、ユーザ情報データベース７に格納される。
【００３９】
また、ユーザ情報選択部６は、ユーザ情報データベース７から、認証部２により認証されたユーザのユーザ識別子に基づいて、ユーザ情報データ７ａ，７ｂ，…，７ｎ，…から、所定のユーザのユーザ情報データ７ａ，７ｂ，…，７ｎ，…を選択するためのものである。
【００４０】
また、このユーザ情報データベース７は、複数のユーザ情報データ７ａ，７ｂ，…，７ｎ，…が格納されて、構成されている。このユーザ情報データ７ａ，７ｂ，…，７ｎ，…としては、音声認識部３に設けられた複数の音声認識部による、それぞれの音声認識結果の正確性を判断するための、第１音声認識部３ａから第Ｎ音声認識部３ｎにおける、これまでの誤認率または認識率のデータと、同音異義語の使用頻度などの使用率のデータとがユーザ識別子に関連づけされて格納されている。
【００４１】
また、ユーザ情報データベース７には、これらの情報以外にも、複数の音声認識部３ａ〜３ｎによる音声認識処理を統計的に実行可能とし、ユーザにとって最適な音声認識処理を実行するために必要な情報データを格納しておくことが可能である。
【００４２】
また、ユーザ情報データベース７には、上述した情報データ以外にも、ユーザ自身の音声情報などを格納することも可能である。そして、認証部２において、バイオメトリックス技術を採用して、ユーザの音声により認証を実行する場合に、ユーザ情報データベース７に格納されたユーザの音声情報を検索して、ユーザの認証を実行するようにしてもよい。
【００４３】
（音声認識方法）
次に、以上のように構成されたこの一実施形態による音声認識装置による音声認識方法について説明する。図２に、この一実施形態による音声認識方法のフローチャートの一例を示す。
【００４４】
図２に示すように、この一実施形態による音声認識方法においては、まず、ステップＳＴ１において、ユーザが認証部２にユーザＩＤやパスワードを入力することにより、音声認識装置へのログインが実行される。続いて、ステップＳＴ２に移行して、入力されたユーザＩＤやパスワードに基づいて、認証部２によりユーザ認証が実行される。
【００４５】
次に、ユーザ認証が終了すると、ステップＳＴ３において、ユーザが音声を発し、この音声が音声入力部１に入力される。音声入力部１においては、入力された音声が電気信号に変換され、この音声信号が音声認識部３に供給される。
【００４６】
すなわち、音声入力部１から、音声認識部３における第１音声認識部３ａ〜第Ｎ音声認識部３ｎにそれぞれ音声信号が供給される。そして、ステップＳＴ４において、音声信号が入力されたそれぞれの音声認識部３ａ〜３ｎにおいて、音声認識が実行される。
【００４７】
そして、それぞれの音声認識部３ａ〜３ｎにおいて、音声認識処理により得られた音声認識結果のデータが認識結果判定部４に供給される。複数の音声認識結果のデータが認識結果判定部４に供給されると、認識結果判定部４によりこれらの認識処理結果が相互に比較される。
【００４８】
そして、ステップＳＴ５に移行し、認識結果判定部４において、複数の音声認識部３ａ〜３ｎから出力された音声認識結果のデータが互いに一致するか否かの判断が行われる。
【００４９】
この判断の結果、全ての音声認識部３ａ〜３ｎから出力された音声認識結果のデータが全て一致している場合には、ステップＳＴ１２に移行して、互いに一致した音声認識結果が、音声認識装置による全体の音声認識結果として、認識結果判定部４から出力される。
【００５０】
他方、ステップＳＴ５における判断の結果、複数の音声認識部３ａ〜３ｎから出力された複数の音声認識結果のデータのうちの、少なくとも１つの音声認識結果が、他の音声認識結果のデータと一致しない場合、ステップＳＴ６に移行する。以降の処理については、ステップＳＴ５において、複数の音声認識結果のデータが全て一致するということがない場合について説明する。
【００５１】
まず、ステップＳＴ６においては、ユーザ情報選択部６に命令信号を供給して、認証部２により認証されたユーザのユーザ識別子が、ユーザ情報データベース７中に存在するか否かが検索される。
【００５２】
このユーザ情報データベース７における検索の結果、ログインをしているユーザに合致するユーザ識別子に関連づけされたユーザ情報データ７ａ…が存在した場合には、このユーザ情報データ７ａ…が索出されて、認識結果判定部４に供給される。その後、ステップＳＴ７に移行する。
【００５３】
ステップＳＴ７においては、認識結果判定部４において、複数の音声認識部３ａ〜３ｎにおけるユーザごとの音声認識結果の差が明確か否かの判断が行われる。すなわち、具体的には、認識結果判定部４において、ユーザ情報データに含まれる複数の音声認識部３ａ〜３ｎに関する認識率または誤認率のデータを比較する。
【００５４】
そして、この認識率または誤認率のデータが比較された結果、それらの差が所定のしきい値以上、例えば１０％以上の差がある場合には、ステップＳＴ８に移行する。なお、この認識率または誤認率の差のしきい値に関しては、種々の値を採用することが可能であり、さらに、必要に応じて、しきい値の設定を変更することも可能である。
【００５５】
ステップＳＴ８においては、認識結果判定部４により、認識率が高く誤認率が低い音声認識部からの音声認識結果のデータが選択される。そして、この認識結果判定部４により選択された音声認識結果のデータと、この最終的な音声認識結果を出力した音声認識部の認識率、およびそれ以外の音声認識結果を出力した音声認識部の認識率とがそれぞれ計算されて、ユーザ識別子に関連づけされたユーザ情報データ７ａ，…に格納される（ステップＳＴ１１）。
【００５６】
これとともに、ステップＳＴ１２に移行して、認識結果判定部４により選択された音声認識結果のデータが、音声認識装置の全体の認識結果として、出力される。
【００５７】
また、ステップＳＴ６においてユーザ情報データがない場合、またはステップＳＴ７において複数の音声認識部３ａ〜３ｎにおけるユーザごとの音声認識結果の差が明確ではない場合、ステップＳＴ９に移行する。
【００５８】
ステップＳＴ９においては、ログインをしているユーザに関するユーザ情報データがない場合や、ユーザ情報データがユーザ情報データベース７に存在している場合でも複数の音声認識部３ごとの差が明確でない場合、認識結果判定部４により、複数の音声認識結果のデータのうちから最も確からしい音声認識結果を選択することが困難であるため、ユーザに対して、複数の音声認識結果のうちから正しい音声認識結果を選択するように問い合わせを行う。
【００５９】
すなわち、認識結果判定部４からユーザ問合せ生成部５に、音声認識部３ａ〜３ｎから出力された音声認識結果を全て供給する。そして、これらの音声認識結果のデータは、互いに異なる音声認識結果のデータとして、ユーザ問合せ生成部５に供給される。
【００６０】
ユーザ問合せ生成部５においては、互いに異なる複数の音声認識結果のデータを、音声の出力部から出力したり、ディスプレイなどの表示部（いずれも図示せず）に表示したりする。ここで、音声入力によりユーザによる選択が行われる場合には、ステップＳＴ３に移行して、上述と同様の処理が行われる。
【００６１】
そして、ユーザが、入力部（図示せず）により、ユーザ自身が発した音声と同じ、もしくは最も近い内容の音声認識結果を選択する（ステップＳＴ１０）と、ユーザにより選択された音声認識結果のデータと、この最終的な音声認識結果を出力した音声認識部の認識率（または誤認率）、およびそれ以外の音声認識結果を出力した音声認識部の認識率（または誤認率）とがそれぞれ計算されて、ユーザ識別子に関連づけされたユーザ情報データ７ａ，…に格納される。
【００６２】
このように、ユーザ識別子に関連づけされたユーザ情報データ７ａ，…におけるデータ量が増加していくに従い、複数の音声認識部３ａ〜３ｎのうちのユーザごとの認識率や誤認率のデータの信頼性が増加していく。そして、そのデータの増加によって、ユーザごとに、どの音声認識部３ａ〜３ｎが最も適した音声認識部であるかが明確になっていく。
【００６３】
そして、上述した相互の音声認識部３ａ〜３ｎにおける認識率の差が、特定の音声認識部において、しきい値以上であれば、ユーザの認証が行われた段階で、このユーザに適用する音声認識部として、最も認識率の高い音声認識部が採用される。
【００６４】
（車両）
また、上述の一実施形態における音声認識装置を車両に備えた場合においては、認識結果判定部４から出力された音声認識結果のデータを、例えば、カーナビゲーションシステムや、エアーコンディショナーなどの操作入力部に供給して、操作可能に構成する。これにより、音声認識処理によって、カーナビゲーションや、エアコンを操作可能に構成することによって、ユーザによる音声の入力によって、これらの車両に搭載された種々の装置を操作することが可能となる。
【００６５】
以上、この発明の一実施形態について具体的に説明したが、この発明は、上述の実施形態に限定されるものではなく、この発明の技術的思想に基づく各種の変形が可能である。
【００６６】
例えば、上述の実施形態において挙げた所定値としてのしきい値はあくまでも例に過ぎず、必要に応じてこれと異なるしきい値を用いてもよい。
【００６７】
【発明の効果】
以上説明したように、この発明によれば、音声入力手段と、複数の音声認識手段と、音声認識結果を判定する認識結果判定手段と、ユーザ情報データを格納可能なユーザ情報データベースと、複数のユーザ情報データから、ユーザのユーザ情報データを選択可能に構成されたユーザ情報選択手段とを有し、複数の音声認識手段による複数の音声認識結果を統計的に処理して、音声認識結果として出力していることにより、複数の音声認識手段による音声認識結果のうちから、最も正確性が高い音声認識結果を出力することができるので、複数のユーザによって利用される場合であっても、これらのユーザごとに最も適した音声認識手段を採用することができるので、ユーザごとの音声認識結果の精度を向上させることができ、認識性能を高性能化することができる。
【図面の簡単な説明】
【図１】この発明の一実施形態による音声認識装置を示すブロック図である。
【図２】この発明の一実施形態による音声認識装置による音声認識方法の一例を示すフローチャートである。
【符号の説明】
１音声入力部
２認証部
３，３ａ〜３ｎ音声認識部
４認識結果判定部
５ユーザ問合せ生成部
６ユーザ情報選択部
７ユーザ情報データベース
７ａ，７ｂ，…７ｎユーザ情報データ

Claims

外部からユーザの音声を入力可能に構成された、音声入力手段と、
上記音声入力手段に入力された音声に対して、それぞれ互いに異なる音声認識処理を実行可能に構成された、複数の音声認識手段と、
上記複数の音声認識エンジンによるそれぞれの音声認識結果を判定可能に構成された認識結果判定手段と、
ユーザごとの音声認識結果が統計的に分類されて生成された複数のユーザ情報データを格納可能なユーザ情報データベースと、
上記複数のユーザ情報データから、上記ユーザのユーザ情報データを選択可能に構成されたユーザ情報選択手段とを有し、
上記複数の音声認識手段による複数の音声認識結果を統計的に処理して、全体の認識結果として出力するように構成されている
ことを特徴とする音声認識装置。
ユーザを認証可能に構成された認証手段をさらに有する
ことを特徴とする請求項１記載の音声認識装置。
上記ユーザ情報データが、上記複数の音声認識手段における音声認識手段ごとの誤認率のデータまたは認識率のデータを含む
ことを特徴とする請求項１または２記載の音声認識装置。
上記複数の音声認識手段によりそれぞれ音声認識処理がされた複数の音声認識結果をそれぞれ出力する問い合わせ生成手段を有し、
上記問い合わせ生成手段により出力された複数の音声認識結果のうちから、ユーザにより選択された音声認識結果に基づいた情報を、上記ユーザの上記ユーザ情報データに格納するように構成されている
ことを特徴とする請求項１から３の何れか１項記載の音声認識装置。
入力された音声を複数の音声認識手段によりそれぞれ認識し、
上記複数の音声認識エンジンにより認識された複数の音声認識結果が、音声認識結果を判定する認識結果判定手段に供給されると、
上記認識結果判定手段により、上記複数の音声認識結果が相互に比較され、
上記比較において、上記複数の音声認識結果が一致した場合、上記複数の音声認識結果を、全体の認識結果として出力し、
上記比較において、上記複数の音声認識結果が不一致の場合には、上記複数の音声認識結果に対して統計的処理を行うことにより、上記複数の音声認識結果から少なくとも１つの音声認識結果を選択して、選択された音声認識結果を、全体の認識結果として出力するようにした
ことを特徴とする音声認識方法。
音声入力を行うユーザの識別を実行可能な認証手段によりユーザの認証を行い、
上記複数の音声認識手段における個々の音声認識手段ごとの認識率のデータを含む、ユーザ識別子に関連づけされて格納されたユーザ情報データが存在し、かつ、上記比較において上記複数の音声認識結果が不一致の場合、
上記ユーザ情報データに含まれる上記音声認識手段ごとの上記認識率に基づいて、上記複数の音声認識結果のうちから、認識率の最も高い音声認識手段により認識された音声認識結果を出力する
ことを特徴とする請求項５記載の音声認識方法。
上記ユーザ情報データに含まれる、上記複数の音声認識手段における認識率の最も高い音声認識手段の認識率と、上記認識率が最も高い音声認識手段による認識率より低い音声認識手段の認識率との差が、所定値以上であった場合に、上記認識率の最も高い音声認識手段により認識された音声認識結果を、全体の認識結果として出力する
ことを特徴とする請求項６記載の音声認識方法。
上記音声入力を行うユーザに該当するユーザ情報データが存在しない場合、または、上記ユーザに該当するユーザ情報に含まれる認識率の最も高い音声認識手段の認識率と、上記認識率が最も高い音声認識手段による認識率より低い音声認識手段の認識率との差が所定値未満であった場合、
上記複数の音声認識結果からユーザが発した音声と同じまたは最も近い音声認識結果をユーザに問い合わせ、
複数の音声認識結果のうちからユーザにより音声認識結果が選択され入力されると、上記認識結果判定手段が、上記ユーザが選択した音声認識結果を出力した音声認識手段の認識率のデータと、上記ユーザが選択しなかった音声認識結果を出力した音声認識手段の認識率のデータとを生成して、上記ユーザの識別子に関連づけされたユーザ情報データに格納する
ことを特徴とする請求項７記載の音声認識方法。
外部からユーザの音声を入力可能に構成された、音声入力手段と、上記音声入力手段に入力された音声に対して、それぞれ互いに異なる音声認識処理を実行可能に構成された、複数の音声認識手段と、上記複数の音声認識エンジンによるそれぞれの音声認識結果を判定可能に構成された認識結果判定手段と、ユーザごとの音声認識結果が統計的に分類されて生成された複数のユーザ情報データを格納可能なユーザ情報データベースと、上記複数のユーザ情報データから、上記ユーザのユーザ情報データを選択可能に構成されたユーザ情報選択手段とを有し、上記複数の音声認識手段による複数の音声認識結果を統計的に処理して、全体の認識結果として出力する音声認識装置が備えられている
ことを特徴とする車両。