JP2005003997A - 音声認識装置および音声認識方法ならびに車両 - Google Patents
音声認識装置および音声認識方法ならびに車両 Download PDFInfo
- Publication number
- JP2005003997A JP2005003997A JP2003168134A JP2003168134A JP2005003997A JP 2005003997 A JP2005003997 A JP 2005003997A JP 2003168134 A JP2003168134 A JP 2003168134A JP 2003168134 A JP2003168134 A JP 2003168134A JP 2005003997 A JP2005003997 A JP 2005003997A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- recognition
- user
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】複数のユーザにより利用される場合でも、ユーザごとに音声認識結果の精度を向上させ、音声認識の認識性能を向上させて、音声認識装置を高性能化する。
【解決手段】音声入力部1と、複数の音声認識部3a〜3nと、音声認識結果を判定する認識結果判定部4と、ユーザ情報データ7a、…を格納したユーザ情報データベース7と、ユーザ情報データを選択するユーザ情報選択部6とを有する音声認識装置を構成する。複数の音声認識部3a〜3nが認識した音声認識結果を統計的に処理することにより、複数の音声認識部による認識結果のうちから、最も正確性が高い音声認識結果を、全体の認識結果として出力する。
【選択図】 図1
【解決手段】音声入力部1と、複数の音声認識部3a〜3nと、音声認識結果を判定する認識結果判定部4と、ユーザ情報データ7a、…を格納したユーザ情報データベース7と、ユーザ情報データを選択するユーザ情報選択部6とを有する音声認識装置を構成する。複数の音声認識部3a〜3nが認識した音声認識結果を統計的に処理することにより、複数の音声認識部による認識結果のうちから、最も正確性が高い音声認識結果を、全体の認識結果として出力する。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
この発明は、音声認識装置および音声認識方法ならびに車両に関し、特に、音声認識方式を採用したナビゲーションシステムなどの車両搭載装置に適用して好適なものである。
【0002】
【従来の技術】
近年、ユーザの現在位置とともにユーザの現在位置を含む地図をディスプレイ上に表示させて、ユーザを、所望とする目的地まで誘導するナビゲーションシステムが急速に普及してきている。さらに、現在、ユーザの音声によって種々の操作を実行可能な音声操作機能付きのナビゲーションシステムも登場している。
【0003】
このような音声操作を実行するためには、音声を認識する手段が必要であるため、音声操作機能付きのナビゲーションシステムにおいては、音声操作を実行するための音声認識装置が備えられている。
【0004】
【特許文献1】
特開2000−137495号公報
【0005】
【発明が解決しようとする課題】
そして、上述した従来の音声認識装置においては、1つの音声認識エンジンを搭載して、この音声認識エンジンを用いて、種々の音声の音声認識処理を実行するようにしている。
【0006】
ところが、従来の音声認識装置において、音声認識エンジンが1つしか搭載されていないことにより、あるユーザのある状態における音声に関しては、精度良く高い認識率で音声認識処理を実行することができるが、他の音声に変わると、精度が低下して、認識率が低くなってしまうという場合がある。
【0007】
すなわち、従来の音声認識装置においては、搭載されている音声認識エンジンの種類に起因して、複数種類の音声に対する音声認識の向き不向きが存在してしまう。
【0008】
そのため、音声認識装置を利用するユーザが複数の場合でも、個々のユーザごとに最適な音声認識結果を得ることができる音声認識装置の開発が熱望されていた。
【0009】
したがって、この発明の目的は、複数のユーザによって利用される場合であっても、これらのユーザごとの音声認識結果の精度を向上させることができ、認識性能を高性能化することができる音声認識装置および音声認識方法、ならびにこの音声認識装置を備えた車両を提供することにある。
【0010】
【課題を解決するための手段】
上記目的を達成するために、この発明の第1の発明は、
外部からユーザの音声を入力可能に構成された、音声入力手段と、
音声入力手段に入力された音声に対して、それぞれ互いに異なる音声認識処理を実行可能に構成された、複数の音声認識手段と、
複数の音声認識エンジンによるそれぞれの音声認識結果を判定可能に構成された認識結果判定手段と、
ユーザごとの音声認識結果が統計的に分類されて生成された複数のユーザ情報データを格納可能なユーザ情報データベースと、
複数のユーザ情報データから、ユーザのユーザ情報データを選択可能に構成されたユーザ情報選択手段とを有し、
複数の音声認識手段による複数の音声認識結果を統計的に処理して、全体の認識結果として出力するように構成されている
ことを特徴とする音声認識装置である。
【0011】
この第1の発明において、典型的には、ユーザを認証可能に構成された認証手段をさらに有する。また、典型的には、ユーザ情報データが、複数の音声認識手段における音声認識手段ごとの誤認率のデータまたは認識率のデータを含む。
【0012】
この第1の発明において、具体的には、複数の音声認識手段によりそれぞれ音声認識処理がされた複数の音声認識結果をそれぞれ出力する問い合わせ生成手段を有し、問い合わせ生成手段により出力された複数の音声認識結果のうちから、ユーザにより選択された音声認識結果に基づいた情報を、ユーザのユーザ情報データに格納するように構成されている。
【0013】
この発明の第2の発明は、
入力された音声を複数の音声認識手段によりそれぞれ認識し、
複数の音声認識エンジンにより認識された複数の音声認識結果が、音声認識結果を判定する認識結果判定手段に供給されると、
認識結果判定手段により、複数の音声認識結果が相互に比較され、
比較において、複数の音声認識結果が一致した場合、複数の音声認識結果を、音声認識結果として出力し、
比較において、複数の音声認識結果が不一致の場合には、複数の音声認識結果に対して統計的処理を行うことにより、複数の音声認識結果から少なくとも1つの音声認識結果を選択して、選択された音声認識結果を出力するようにした
ことを特徴とする音声認識方法である。
【0014】
この第2の発明において、典型的には、入力された音声を複数の音声認識手段によりそれぞれ認識し、複数の音声認識エンジンにより認識された複数の音声認識結果が、音声認識結果を判定する認識結果判定手段に供給されると、認識結果判定手段により、複数の音声認識結果が相互に比較され、比較において、複数の音声認識結果が一致した場合、複数の音声認識結果を、全体の認識結果として出力し、比較において、複数の音声認識結果が不一致の場合には、複数の音声認識結果に対して統計的処理を行うことにより、複数の音声認識結果から少なくとも1つの音声認識結果を選択して、選択された音声認識結果を、全体の認識結果として出力する。
【0015】
このような音声認識方法を採用することにより、音声入力を行うユーザに関するユーザ情報データが存在した場合に、ユーザにおける最も適した音声認識手段を選択することができるので、ユーザごとに最適化された音声認識結果を表示することができる。
【0016】
この第2の発明において、具体的には、ユーザ情報データに含まれる、複数の音声認識手段における認識率の最も高い音声認識手段の認識率と、認識率が最も高い音声認識手段による認識率より低い音声認識手段の認識率との差が、所定値以上であった場合に、認識率の最も高い音声認識手段により認識された音声認識結果を、全体の認識結果として出力する。
【0017】
この第2の発明において、典型的には、音声入力を行うユーザに該当するユーザ情報データが存在しない場合、または、ユーザに該当するユーザ情報に含まれる認識率の最も高い音声認識手段の認識率と、認識率が最も高い音声認識手段による認識率より低い音声認識手段の認識率との差が所定値未満であった場合、複数の音声認識結果からユーザが発した音声と同じまたは最も近い音声認識結果をユーザに問い合わせ、複数の音声認識結果のうちからユーザにより音声認識結果が選択され入力されると、認識結果判定手段が、ユーザが選択した音声認識結果を出力した音声認識手段の認識率のデータと、ユーザが選択しなかった音声認識結果を出力した音声認識手段の認識率のデータとを生成して、ユーザの識別子に関連づけされたユーザ情報データに格納する。
【0018】
この発明の第3の発明は、
外部からユーザの音声を入力可能に構成された、音声入力手段と、音声入力手段に入力された音声に対して、それぞれ互いに異なる音声認識処理を実行可能に構成された、複数の音声認識手段と、複数の音声認識エンジンによるそれぞれの音声認識結果を判定可能に構成された認識結果判定手段と、ユーザごとの音声認識結果が統計的に分類されて生成された複数のユーザ情報データを格納可能なユーザ情報データベースと、複数のユーザ情報データから、ユーザのユーザ情報データを選択可能に構成されたユーザ情報選択手段とを有し、複数の音声認識手段による複数の音声認識結果を統計的に処理して、全体の認識結果として出力する音声認識装置が備えられている
ことを特徴とする車両である。
【0019】
また、この発明において、認識率とは、音声認識手段における認識率を指し、認識率から誤認率も一義的に導出することが可能であり、さらに、音声認識手段の認識率は、複数の音声に対して音声認識処理を行った場合の音声認識結果の正解率と置き換えることもできる。
【0020】
上述のように構成されたこの発明による音声認識装置および音声認識方法によれば、音声入力手段と、複数の音声認識手段と、音声認識結果を判定する認識結果判定手段と、ユーザ情報データを格納したユーザ情報データベースと、複数のユーザ情報データから、所定のユーザのユーザ情報データを選択するユーザ情報選択手段とを有し、複数の音声認識手段による複数の音声認識結果を統計的に処理して、音声認識結果として出力していることにより、複数の音声認識手段による音声認識結果のうちから、最も正確性が高い音声認識結果を出力することができる。
【0021】
さらに、上述のように構成された音声認識装置を備えた車両によれば、車両に設けられ、電気信号により操作可能に構成された、例えばナビゲーションシステムやエアコンなどの種々の装置に対して、音声認識装置から出力される音声認識結果の信号を供給することにより、種々の装置を操作することができ、その操作確実性を向上させることが可能となる。
【0022】
【発明の実施の形態】
以下、この発明の一実施形態について図面を参照しながら説明する。図1に、この一実施形態による音声認識装置を示す。
【0023】
図1に示すように、この一実施形態による音声認識装置は、音声入力部1と、認証部2と、第1音声認識部3a、第2音声認識部3b,…、および第N音声認識部3nを有する音声認識部3と、認識結果判定部4と、ユーザ問合せ生成部5と、ユーザ情報選択部6と、個々のユーザ情報データ7a,7b,…,7n…が格納されたユーザ情報データベース7とを有して構成されている。
【0024】
音声入力部1は、外部から入力されたユーザの音声を電気信号に変換するためのものであり、例えばマイクロフォンなどからなる。
【0025】
認証部2は、個々のユーザを識別するための装置である。この認証部2としては、例えば、ユーザにより入力されたユーザIDやパスワードに基づいて、ユーザを特定する装置を挙げることができる。
【0026】
この場合、具体的には、認証部2においては、ボタンなどから構成される入力部と、ディスプレイなどからなる出力部とが設けられ、ユーザが入力部からユーザIDやパスワードを入力することにより、この一実施形態による音声認識装置を利用するユーザを特定可能に構成されている。なお、認証部2としては、生体認証方法の個人を識別する際に、身体的な情報などを判断材料として利用する技術、具体的には、指紋、掌紋、声紋、網膜パターンといった身体的な特徴や、筆跡やキータイプの際の癖といった情報を利用して認証を行なうバイオメトリックス技術を利用することも可能である。また、認証部2において認証された結果、例えばユーザIDなどのユーザを特定するユーザ識別子は、後述するユーザ情報選択部6に供給される。
【0027】
音声認識部3は、複数の音声認識部(第1音声認識部3a、第2音声認識部3b、・・・、第N音声認識部3n)を有して、構成されている。
【0028】
これらのN個の音声認識部3a〜3nは、それぞれソフトウェアから構成される音声認識エンジンと、この音声認識エンジンプログラムにより参照可能なデータベースとを有して構成されている。
【0029】
そして、これらの音声認識部3a〜3nにおいては、互いに異なる音声認識処理が行われる。具体的には、第1音声認識部3aおよび第2音声認識部3bにおいては、それらの第1音声認識エンジンのプログラムと第2音声認識エンジンのプログラムとが異なっていたり、第1データベースに格納された音響モデル(音素モデル)と第2データベースに格納された音響モデルとが異なっていたりする。
【0030】
そのため、第1音声認識部3aの音声認識処理と、第2音声認識部3bの音声認識処理とは、互いに異なる音声認識処理が実行される。同様に、第N音声認識部3nは、第1音声認識部3aおよび第2音声認識部3bなどのいずれの音声認識部とも異なる音声認識処理を実行可能に構成されている。また、音声認識部3のうちの、その他の音声認識部においても、それぞれ他の音声認識部とは異なる音声認識処理を実行可能に構成されている。
【0031】
なお、音声認識部3a〜3nにおける音声認識エンジンとしては、通常、隠れマルコフモデル(Hidden Markov Model(HMM))を用いた確立モデルによるものや、環境型マルコフモデルや、ニューラルネットワークを用いたものが採用される。
【0032】
また、第1音声認識部3aから第N音声認識部3nにそれぞれ設けられた第1データベース〜第Nデータベースは、それぞれ互いに異なる音響モデル(音素モデル)のデータや音声認識辞書データなどを有して構成されている。これらの音響モデルとしては、例えば、車内用の音響モデルや静かな状態での音響モデル、またはハンズフリーマイクを用いた場合の音響モデルなどを挙げることができる。そして、これらの音響モデルや音声認識辞書データが格納されたデータベースは、それぞれの音声認識部3a〜3nにおける音声認識エンジンにより、格納されたデータを参照可能に構成されている。
【0033】
認識結果判定部4は、音声認識部3における第1音声認識部3a〜第N音声認識部3nから出力される音声認識結果に基づいて、最も正確性の高い音声認識結果を選択可能に構成されている。また、この認識結果判定部4は、ユーザ情報選択部6によってユーザ情報データ7a,7b,…,7n,…のうちから選択され索出されたユーザ情報データを、入力可能に構成されている。
【0034】
また、この認識結果判定部4は、例えば中央処理装置(CPU)およびROMやRAMからなる記憶部を有する情報処理部から構成されており、複数の音声認識結果や、これらから選択した音声認識結果を出力可能に構成されている。
【0035】
そして、この認識結果判定部4から出力された音声認識結果が、この一実施形態による音声認識装置による全体の音声認識結果として出力される。なお、この認識結果判定部4から出力された音声認識結果は、電気信号として種々の装置に供給され、音声認識処理に基づく、命令信号を供給可能に構成されている。
【0036】
ユーザ問合せ生成部5は、複数の音声認識結果が、少なくとも2通りの互いに異なる音声認識結果を出力した場合に、この少なくとも2通りの認識結果を外部に出力可能に構成されている。
【0037】
そして、ユーザが、自己の発した音声と一致する音声認識結果、または最も近い音声認識結果を選択すると、ユーザ情報データベース7のユーザ情報データ7a,7b,…,7n,…のうちの、ユーザIDなどのユーザ識別子に関連づけされたユーザ情報データに、ユーザが選択した音声認識結果およびこの音声認識結果を出力した音声認識部の認識率や誤認率と、入力された音声信号の情報とが、ユーザ識別子に関連づけされて格納される。
【0038】
また、ユーザ識別子に該当するユーザ情報データがユーザ情報データベース7に存在しなかった場合には、新たにユーザ情報データが生成され、ユーザ情報データベース7に格納される。
【0039】
また、ユーザ情報選択部6は、ユーザ情報データベース7から、認証部2により認証されたユーザのユーザ識別子に基づいて、ユーザ情報データ7a,7b,…,7n,…から、所定のユーザのユーザ情報データ7a,7b,…,7n,…を選択するためのものである。
【0040】
また、このユーザ情報データベース7は、複数のユーザ情報データ7a,7b,…,7n,…が格納されて、構成されている。このユーザ情報データ7a,7b,…,7n,…としては、音声認識部3に設けられた複数の音声認識部による、それぞれの音声認識結果の正確性を判断するための、第1音声認識部3aから第N音声認識部3nにおける、これまでの誤認率または認識率のデータと、同音異義語の使用頻度などの使用率のデータとがユーザ識別子に関連づけされて格納されている。
【0041】
また、ユーザ情報データベース7には、これらの情報以外にも、複数の音声認識部3a〜3nによる音声認識処理を統計的に実行可能とし、ユーザにとって最適な音声認識処理を実行するために必要な情報データを格納しておくことが可能である。
【0042】
また、ユーザ情報データベース7には、上述した情報データ以外にも、ユーザ自身の音声情報などを格納することも可能である。そして、認証部2において、バイオメトリックス技術を採用して、ユーザの音声により認証を実行する場合に、ユーザ情報データベース7に格納されたユーザの音声情報を検索して、ユーザの認証を実行するようにしてもよい。
【0043】
(音声認識方法)
次に、以上のように構成されたこの一実施形態による音声認識装置による音声認識方法について説明する。図2に、この一実施形態による音声認識方法のフローチャートの一例を示す。
【0044】
図2に示すように、この一実施形態による音声認識方法においては、まず、ステップST1において、ユーザが認証部2にユーザIDやパスワードを入力することにより、音声認識装置へのログインが実行される。続いて、ステップST2に移行して、入力されたユーザIDやパスワードに基づいて、認証部2によりユーザ認証が実行される。
【0045】
次に、ユーザ認証が終了すると、ステップST3において、ユーザが音声を発し、この音声が音声入力部1に入力される。音声入力部1においては、入力された音声が電気信号に変換され、この音声信号が音声認識部3に供給される。
【0046】
すなわち、音声入力部1から、音声認識部3における第1音声認識部3a〜第N音声認識部3nにそれぞれ音声信号が供給される。そして、ステップST4において、音声信号が入力されたそれぞれの音声認識部3a〜3nにおいて、音声認識が実行される。
【0047】
そして、それぞれの音声認識部3a〜3nにおいて、音声認識処理により得られた音声認識結果のデータが認識結果判定部4に供給される。複数の音声認識結果のデータが認識結果判定部4に供給されると、認識結果判定部4によりこれらの認識処理結果が相互に比較される。
【0048】
そして、ステップST5に移行し、認識結果判定部4において、複数の音声認識部3a〜3nから出力された音声認識結果のデータが互いに一致するか否かの判断が行われる。
【0049】
この判断の結果、全ての音声認識部3a〜3nから出力された音声認識結果のデータが全て一致している場合には、ステップST12に移行して、互いに一致した音声認識結果が、音声認識装置による全体の音声認識結果として、認識結果判定部4から出力される。
【0050】
他方、ステップST5における判断の結果、複数の音声認識部3a〜3nから出力された複数の音声認識結果のデータのうちの、少なくとも1つの音声認識結果が、他の音声認識結果のデータと一致しない場合、ステップST6に移行する。以降の処理については、ステップST5において、複数の音声認識結果のデータが全て一致するということがない場合について説明する。
【0051】
まず、ステップST6においては、ユーザ情報選択部6に命令信号を供給して、認証部2により認証されたユーザのユーザ識別子が、ユーザ情報データベース7中に存在するか否かが検索される。
【0052】
このユーザ情報データベース7における検索の結果、ログインをしているユーザに合致するユーザ識別子に関連づけされたユーザ情報データ7a…が存在した場合には、このユーザ情報データ7a…が索出されて、認識結果判定部4に供給される。その後、ステップST7に移行する。
【0053】
ステップST7においては、認識結果判定部4において、複数の音声認識部3a〜3nにおけるユーザごとの音声認識結果の差が明確か否かの判断が行われる。すなわち、具体的には、認識結果判定部4において、ユーザ情報データに含まれる複数の音声認識部3a〜3nに関する認識率または誤認率のデータを比較する。
【0054】
そして、この認識率または誤認率のデータが比較された結果、それらの差が所定のしきい値以上、例えば10%以上の差がある場合には、ステップST8に移行する。なお、この認識率または誤認率の差のしきい値に関しては、種々の値を採用することが可能であり、さらに、必要に応じて、しきい値の設定を変更することも可能である。
【0055】
ステップST8においては、認識結果判定部4により、認識率が高く誤認率が低い音声認識部からの音声認識結果のデータが選択される。そして、この認識結果判定部4により選択された音声認識結果のデータと、この最終的な音声認識結果を出力した音声認識部の認識率、およびそれ以外の音声認識結果を出力した音声認識部の認識率とがそれぞれ計算されて、ユーザ識別子に関連づけされたユーザ情報データ7a,…に格納される(ステップST11)。
【0056】
これとともに、ステップST12に移行して、認識結果判定部4により選択された音声認識結果のデータが、音声認識装置の全体の認識結果として、出力される。
【0057】
また、ステップST6においてユーザ情報データがない場合、またはステップST7において複数の音声認識部3a〜3nにおけるユーザごとの音声認識結果の差が明確ではない場合、ステップST9に移行する。
【0058】
ステップST9においては、ログインをしているユーザに関するユーザ情報データがない場合や、ユーザ情報データがユーザ情報データベース7に存在している場合でも複数の音声認識部3ごとの差が明確でない場合、認識結果判定部4により、複数の音声認識結果のデータのうちから最も確からしい音声認識結果を選択することが困難であるため、ユーザに対して、複数の音声認識結果のうちから正しい音声認識結果を選択するように問い合わせを行う。
【0059】
すなわち、認識結果判定部4からユーザ問合せ生成部5に、音声認識部3a〜3nから出力された音声認識結果を全て供給する。そして、これらの音声認識結果のデータは、互いに異なる音声認識結果のデータとして、ユーザ問合せ生成部5に供給される。
【0060】
ユーザ問合せ生成部5においては、互いに異なる複数の音声認識結果のデータを、音声の出力部から出力したり、ディスプレイなどの表示部(いずれも図示せず)に表示したりする。ここで、音声入力によりユーザによる選択が行われる場合には、ステップST3に移行して、上述と同様の処理が行われる。
【0061】
そして、ユーザが、入力部(図示せず)により、ユーザ自身が発した音声と同じ、もしくは最も近い内容の音声認識結果を選択する(ステップST10)と、ユーザにより選択された音声認識結果のデータと、この最終的な音声認識結果を出力した音声認識部の認識率(または誤認率)、およびそれ以外の音声認識結果を出力した音声認識部の認識率(または誤認率)とがそれぞれ計算されて、ユーザ識別子に関連づけされたユーザ情報データ7a,…に格納される。
【0062】
このように、ユーザ識別子に関連づけされたユーザ情報データ7a,…におけるデータ量が増加していくに従い、複数の音声認識部3a〜3nのうちのユーザごとの認識率や誤認率のデータの信頼性が増加していく。そして、そのデータの増加によって、ユーザごとに、どの音声認識部3a〜3nが最も適した音声認識部であるかが明確になっていく。
【0063】
そして、上述した相互の音声認識部3a〜3nにおける認識率の差が、特定の音声認識部において、しきい値以上であれば、ユーザの認証が行われた段階で、このユーザに適用する音声認識部として、最も認識率の高い音声認識部が採用される。
【0064】
(車両)
また、上述の一実施形態における音声認識装置を車両に備えた場合においては、認識結果判定部4から出力された音声認識結果のデータを、例えば、カーナビゲーションシステムや、エアーコンディショナーなどの操作入力部に供給して、操作可能に構成する。これにより、音声認識処理によって、カーナビゲーションや、エアコンを操作可能に構成することによって、ユーザによる音声の入力によって、これらの車両に搭載された種々の装置を操作することが可能となる。
【0065】
以上、この発明の一実施形態について具体的に説明したが、この発明は、上述の実施形態に限定されるものではなく、この発明の技術的思想に基づく各種の変形が可能である。
【0066】
例えば、上述の実施形態において挙げた所定値としてのしきい値はあくまでも例に過ぎず、必要に応じてこれと異なるしきい値を用いてもよい。
【0067】
【発明の効果】
以上説明したように、この発明によれば、音声入力手段と、複数の音声認識手段と、音声認識結果を判定する認識結果判定手段と、ユーザ情報データを格納可能なユーザ情報データベースと、複数のユーザ情報データから、ユーザのユーザ情報データを選択可能に構成されたユーザ情報選択手段とを有し、複数の音声認識手段による複数の音声認識結果を統計的に処理して、音声認識結果として出力していることにより、複数の音声認識手段による音声認識結果のうちから、最も正確性が高い音声認識結果を出力することができるので、複数のユーザによって利用される場合であっても、これらのユーザごとに最も適した音声認識手段を採用することができるので、ユーザごとの音声認識結果の精度を向上させることができ、認識性能を高性能化することができる。
【図面の簡単な説明】
【図1】この発明の一実施形態による音声認識装置を示すブロック図である。
【図2】この発明の一実施形態による音声認識装置による音声認識方法の一例を示すフローチャートである。
【符号の説明】
1 音声入力部
2 認証部
3,3a〜3n 音声認識部
4 認識結果判定部
5 ユーザ問合せ生成部
6 ユーザ情報選択部
7 ユーザ情報データベース
7a,7b,…7n ユーザ情報データ
【発明の属する技術分野】
この発明は、音声認識装置および音声認識方法ならびに車両に関し、特に、音声認識方式を採用したナビゲーションシステムなどの車両搭載装置に適用して好適なものである。
【0002】
【従来の技術】
近年、ユーザの現在位置とともにユーザの現在位置を含む地図をディスプレイ上に表示させて、ユーザを、所望とする目的地まで誘導するナビゲーションシステムが急速に普及してきている。さらに、現在、ユーザの音声によって種々の操作を実行可能な音声操作機能付きのナビゲーションシステムも登場している。
【0003】
このような音声操作を実行するためには、音声を認識する手段が必要であるため、音声操作機能付きのナビゲーションシステムにおいては、音声操作を実行するための音声認識装置が備えられている。
【0004】
【特許文献1】
特開2000−137495号公報
【0005】
【発明が解決しようとする課題】
そして、上述した従来の音声認識装置においては、1つの音声認識エンジンを搭載して、この音声認識エンジンを用いて、種々の音声の音声認識処理を実行するようにしている。
【0006】
ところが、従来の音声認識装置において、音声認識エンジンが1つしか搭載されていないことにより、あるユーザのある状態における音声に関しては、精度良く高い認識率で音声認識処理を実行することができるが、他の音声に変わると、精度が低下して、認識率が低くなってしまうという場合がある。
【0007】
すなわち、従来の音声認識装置においては、搭載されている音声認識エンジンの種類に起因して、複数種類の音声に対する音声認識の向き不向きが存在してしまう。
【0008】
そのため、音声認識装置を利用するユーザが複数の場合でも、個々のユーザごとに最適な音声認識結果を得ることができる音声認識装置の開発が熱望されていた。
【0009】
したがって、この発明の目的は、複数のユーザによって利用される場合であっても、これらのユーザごとの音声認識結果の精度を向上させることができ、認識性能を高性能化することができる音声認識装置および音声認識方法、ならびにこの音声認識装置を備えた車両を提供することにある。
【0010】
【課題を解決するための手段】
上記目的を達成するために、この発明の第1の発明は、
外部からユーザの音声を入力可能に構成された、音声入力手段と、
音声入力手段に入力された音声に対して、それぞれ互いに異なる音声認識処理を実行可能に構成された、複数の音声認識手段と、
複数の音声認識エンジンによるそれぞれの音声認識結果を判定可能に構成された認識結果判定手段と、
ユーザごとの音声認識結果が統計的に分類されて生成された複数のユーザ情報データを格納可能なユーザ情報データベースと、
複数のユーザ情報データから、ユーザのユーザ情報データを選択可能に構成されたユーザ情報選択手段とを有し、
複数の音声認識手段による複数の音声認識結果を統計的に処理して、全体の認識結果として出力するように構成されている
ことを特徴とする音声認識装置である。
【0011】
この第1の発明において、典型的には、ユーザを認証可能に構成された認証手段をさらに有する。また、典型的には、ユーザ情報データが、複数の音声認識手段における音声認識手段ごとの誤認率のデータまたは認識率のデータを含む。
【0012】
この第1の発明において、具体的には、複数の音声認識手段によりそれぞれ音声認識処理がされた複数の音声認識結果をそれぞれ出力する問い合わせ生成手段を有し、問い合わせ生成手段により出力された複数の音声認識結果のうちから、ユーザにより選択された音声認識結果に基づいた情報を、ユーザのユーザ情報データに格納するように構成されている。
【0013】
この発明の第2の発明は、
入力された音声を複数の音声認識手段によりそれぞれ認識し、
複数の音声認識エンジンにより認識された複数の音声認識結果が、音声認識結果を判定する認識結果判定手段に供給されると、
認識結果判定手段により、複数の音声認識結果が相互に比較され、
比較において、複数の音声認識結果が一致した場合、複数の音声認識結果を、音声認識結果として出力し、
比較において、複数の音声認識結果が不一致の場合には、複数の音声認識結果に対して統計的処理を行うことにより、複数の音声認識結果から少なくとも1つの音声認識結果を選択して、選択された音声認識結果を出力するようにした
ことを特徴とする音声認識方法である。
【0014】
この第2の発明において、典型的には、入力された音声を複数の音声認識手段によりそれぞれ認識し、複数の音声認識エンジンにより認識された複数の音声認識結果が、音声認識結果を判定する認識結果判定手段に供給されると、認識結果判定手段により、複数の音声認識結果が相互に比較され、比較において、複数の音声認識結果が一致した場合、複数の音声認識結果を、全体の認識結果として出力し、比較において、複数の音声認識結果が不一致の場合には、複数の音声認識結果に対して統計的処理を行うことにより、複数の音声認識結果から少なくとも1つの音声認識結果を選択して、選択された音声認識結果を、全体の認識結果として出力する。
【0015】
このような音声認識方法を採用することにより、音声入力を行うユーザに関するユーザ情報データが存在した場合に、ユーザにおける最も適した音声認識手段を選択することができるので、ユーザごとに最適化された音声認識結果を表示することができる。
【0016】
この第2の発明において、具体的には、ユーザ情報データに含まれる、複数の音声認識手段における認識率の最も高い音声認識手段の認識率と、認識率が最も高い音声認識手段による認識率より低い音声認識手段の認識率との差が、所定値以上であった場合に、認識率の最も高い音声認識手段により認識された音声認識結果を、全体の認識結果として出力する。
【0017】
この第2の発明において、典型的には、音声入力を行うユーザに該当するユーザ情報データが存在しない場合、または、ユーザに該当するユーザ情報に含まれる認識率の最も高い音声認識手段の認識率と、認識率が最も高い音声認識手段による認識率より低い音声認識手段の認識率との差が所定値未満であった場合、複数の音声認識結果からユーザが発した音声と同じまたは最も近い音声認識結果をユーザに問い合わせ、複数の音声認識結果のうちからユーザにより音声認識結果が選択され入力されると、認識結果判定手段が、ユーザが選択した音声認識結果を出力した音声認識手段の認識率のデータと、ユーザが選択しなかった音声認識結果を出力した音声認識手段の認識率のデータとを生成して、ユーザの識別子に関連づけされたユーザ情報データに格納する。
【0018】
この発明の第3の発明は、
外部からユーザの音声を入力可能に構成された、音声入力手段と、音声入力手段に入力された音声に対して、それぞれ互いに異なる音声認識処理を実行可能に構成された、複数の音声認識手段と、複数の音声認識エンジンによるそれぞれの音声認識結果を判定可能に構成された認識結果判定手段と、ユーザごとの音声認識結果が統計的に分類されて生成された複数のユーザ情報データを格納可能なユーザ情報データベースと、複数のユーザ情報データから、ユーザのユーザ情報データを選択可能に構成されたユーザ情報選択手段とを有し、複数の音声認識手段による複数の音声認識結果を統計的に処理して、全体の認識結果として出力する音声認識装置が備えられている
ことを特徴とする車両である。
【0019】
また、この発明において、認識率とは、音声認識手段における認識率を指し、認識率から誤認率も一義的に導出することが可能であり、さらに、音声認識手段の認識率は、複数の音声に対して音声認識処理を行った場合の音声認識結果の正解率と置き換えることもできる。
【0020】
上述のように構成されたこの発明による音声認識装置および音声認識方法によれば、音声入力手段と、複数の音声認識手段と、音声認識結果を判定する認識結果判定手段と、ユーザ情報データを格納したユーザ情報データベースと、複数のユーザ情報データから、所定のユーザのユーザ情報データを選択するユーザ情報選択手段とを有し、複数の音声認識手段による複数の音声認識結果を統計的に処理して、音声認識結果として出力していることにより、複数の音声認識手段による音声認識結果のうちから、最も正確性が高い音声認識結果を出力することができる。
【0021】
さらに、上述のように構成された音声認識装置を備えた車両によれば、車両に設けられ、電気信号により操作可能に構成された、例えばナビゲーションシステムやエアコンなどの種々の装置に対して、音声認識装置から出力される音声認識結果の信号を供給することにより、種々の装置を操作することができ、その操作確実性を向上させることが可能となる。
【0022】
【発明の実施の形態】
以下、この発明の一実施形態について図面を参照しながら説明する。図1に、この一実施形態による音声認識装置を示す。
【0023】
図1に示すように、この一実施形態による音声認識装置は、音声入力部1と、認証部2と、第1音声認識部3a、第2音声認識部3b,…、および第N音声認識部3nを有する音声認識部3と、認識結果判定部4と、ユーザ問合せ生成部5と、ユーザ情報選択部6と、個々のユーザ情報データ7a,7b,…,7n…が格納されたユーザ情報データベース7とを有して構成されている。
【0024】
音声入力部1は、外部から入力されたユーザの音声を電気信号に変換するためのものであり、例えばマイクロフォンなどからなる。
【0025】
認証部2は、個々のユーザを識別するための装置である。この認証部2としては、例えば、ユーザにより入力されたユーザIDやパスワードに基づいて、ユーザを特定する装置を挙げることができる。
【0026】
この場合、具体的には、認証部2においては、ボタンなどから構成される入力部と、ディスプレイなどからなる出力部とが設けられ、ユーザが入力部からユーザIDやパスワードを入力することにより、この一実施形態による音声認識装置を利用するユーザを特定可能に構成されている。なお、認証部2としては、生体認証方法の個人を識別する際に、身体的な情報などを判断材料として利用する技術、具体的には、指紋、掌紋、声紋、網膜パターンといった身体的な特徴や、筆跡やキータイプの際の癖といった情報を利用して認証を行なうバイオメトリックス技術を利用することも可能である。また、認証部2において認証された結果、例えばユーザIDなどのユーザを特定するユーザ識別子は、後述するユーザ情報選択部6に供給される。
【0027】
音声認識部3は、複数の音声認識部(第1音声認識部3a、第2音声認識部3b、・・・、第N音声認識部3n)を有して、構成されている。
【0028】
これらのN個の音声認識部3a〜3nは、それぞれソフトウェアから構成される音声認識エンジンと、この音声認識エンジンプログラムにより参照可能なデータベースとを有して構成されている。
【0029】
そして、これらの音声認識部3a〜3nにおいては、互いに異なる音声認識処理が行われる。具体的には、第1音声認識部3aおよび第2音声認識部3bにおいては、それらの第1音声認識エンジンのプログラムと第2音声認識エンジンのプログラムとが異なっていたり、第1データベースに格納された音響モデル(音素モデル)と第2データベースに格納された音響モデルとが異なっていたりする。
【0030】
そのため、第1音声認識部3aの音声認識処理と、第2音声認識部3bの音声認識処理とは、互いに異なる音声認識処理が実行される。同様に、第N音声認識部3nは、第1音声認識部3aおよび第2音声認識部3bなどのいずれの音声認識部とも異なる音声認識処理を実行可能に構成されている。また、音声認識部3のうちの、その他の音声認識部においても、それぞれ他の音声認識部とは異なる音声認識処理を実行可能に構成されている。
【0031】
なお、音声認識部3a〜3nにおける音声認識エンジンとしては、通常、隠れマルコフモデル(Hidden Markov Model(HMM))を用いた確立モデルによるものや、環境型マルコフモデルや、ニューラルネットワークを用いたものが採用される。
【0032】
また、第1音声認識部3aから第N音声認識部3nにそれぞれ設けられた第1データベース〜第Nデータベースは、それぞれ互いに異なる音響モデル(音素モデル)のデータや音声認識辞書データなどを有して構成されている。これらの音響モデルとしては、例えば、車内用の音響モデルや静かな状態での音響モデル、またはハンズフリーマイクを用いた場合の音響モデルなどを挙げることができる。そして、これらの音響モデルや音声認識辞書データが格納されたデータベースは、それぞれの音声認識部3a〜3nにおける音声認識エンジンにより、格納されたデータを参照可能に構成されている。
【0033】
認識結果判定部4は、音声認識部3における第1音声認識部3a〜第N音声認識部3nから出力される音声認識結果に基づいて、最も正確性の高い音声認識結果を選択可能に構成されている。また、この認識結果判定部4は、ユーザ情報選択部6によってユーザ情報データ7a,7b,…,7n,…のうちから選択され索出されたユーザ情報データを、入力可能に構成されている。
【0034】
また、この認識結果判定部4は、例えば中央処理装置(CPU)およびROMやRAMからなる記憶部を有する情報処理部から構成されており、複数の音声認識結果や、これらから選択した音声認識結果を出力可能に構成されている。
【0035】
そして、この認識結果判定部4から出力された音声認識結果が、この一実施形態による音声認識装置による全体の音声認識結果として出力される。なお、この認識結果判定部4から出力された音声認識結果は、電気信号として種々の装置に供給され、音声認識処理に基づく、命令信号を供給可能に構成されている。
【0036】
ユーザ問合せ生成部5は、複数の音声認識結果が、少なくとも2通りの互いに異なる音声認識結果を出力した場合に、この少なくとも2通りの認識結果を外部に出力可能に構成されている。
【0037】
そして、ユーザが、自己の発した音声と一致する音声認識結果、または最も近い音声認識結果を選択すると、ユーザ情報データベース7のユーザ情報データ7a,7b,…,7n,…のうちの、ユーザIDなどのユーザ識別子に関連づけされたユーザ情報データに、ユーザが選択した音声認識結果およびこの音声認識結果を出力した音声認識部の認識率や誤認率と、入力された音声信号の情報とが、ユーザ識別子に関連づけされて格納される。
【0038】
また、ユーザ識別子に該当するユーザ情報データがユーザ情報データベース7に存在しなかった場合には、新たにユーザ情報データが生成され、ユーザ情報データベース7に格納される。
【0039】
また、ユーザ情報選択部6は、ユーザ情報データベース7から、認証部2により認証されたユーザのユーザ識別子に基づいて、ユーザ情報データ7a,7b,…,7n,…から、所定のユーザのユーザ情報データ7a,7b,…,7n,…を選択するためのものである。
【0040】
また、このユーザ情報データベース7は、複数のユーザ情報データ7a,7b,…,7n,…が格納されて、構成されている。このユーザ情報データ7a,7b,…,7n,…としては、音声認識部3に設けられた複数の音声認識部による、それぞれの音声認識結果の正確性を判断するための、第1音声認識部3aから第N音声認識部3nにおける、これまでの誤認率または認識率のデータと、同音異義語の使用頻度などの使用率のデータとがユーザ識別子に関連づけされて格納されている。
【0041】
また、ユーザ情報データベース7には、これらの情報以外にも、複数の音声認識部3a〜3nによる音声認識処理を統計的に実行可能とし、ユーザにとって最適な音声認識処理を実行するために必要な情報データを格納しておくことが可能である。
【0042】
また、ユーザ情報データベース7には、上述した情報データ以外にも、ユーザ自身の音声情報などを格納することも可能である。そして、認証部2において、バイオメトリックス技術を採用して、ユーザの音声により認証を実行する場合に、ユーザ情報データベース7に格納されたユーザの音声情報を検索して、ユーザの認証を実行するようにしてもよい。
【0043】
(音声認識方法)
次に、以上のように構成されたこの一実施形態による音声認識装置による音声認識方法について説明する。図2に、この一実施形態による音声認識方法のフローチャートの一例を示す。
【0044】
図2に示すように、この一実施形態による音声認識方法においては、まず、ステップST1において、ユーザが認証部2にユーザIDやパスワードを入力することにより、音声認識装置へのログインが実行される。続いて、ステップST2に移行して、入力されたユーザIDやパスワードに基づいて、認証部2によりユーザ認証が実行される。
【0045】
次に、ユーザ認証が終了すると、ステップST3において、ユーザが音声を発し、この音声が音声入力部1に入力される。音声入力部1においては、入力された音声が電気信号に変換され、この音声信号が音声認識部3に供給される。
【0046】
すなわち、音声入力部1から、音声認識部3における第1音声認識部3a〜第N音声認識部3nにそれぞれ音声信号が供給される。そして、ステップST4において、音声信号が入力されたそれぞれの音声認識部3a〜3nにおいて、音声認識が実行される。
【0047】
そして、それぞれの音声認識部3a〜3nにおいて、音声認識処理により得られた音声認識結果のデータが認識結果判定部4に供給される。複数の音声認識結果のデータが認識結果判定部4に供給されると、認識結果判定部4によりこれらの認識処理結果が相互に比較される。
【0048】
そして、ステップST5に移行し、認識結果判定部4において、複数の音声認識部3a〜3nから出力された音声認識結果のデータが互いに一致するか否かの判断が行われる。
【0049】
この判断の結果、全ての音声認識部3a〜3nから出力された音声認識結果のデータが全て一致している場合には、ステップST12に移行して、互いに一致した音声認識結果が、音声認識装置による全体の音声認識結果として、認識結果判定部4から出力される。
【0050】
他方、ステップST5における判断の結果、複数の音声認識部3a〜3nから出力された複数の音声認識結果のデータのうちの、少なくとも1つの音声認識結果が、他の音声認識結果のデータと一致しない場合、ステップST6に移行する。以降の処理については、ステップST5において、複数の音声認識結果のデータが全て一致するということがない場合について説明する。
【0051】
まず、ステップST6においては、ユーザ情報選択部6に命令信号を供給して、認証部2により認証されたユーザのユーザ識別子が、ユーザ情報データベース7中に存在するか否かが検索される。
【0052】
このユーザ情報データベース7における検索の結果、ログインをしているユーザに合致するユーザ識別子に関連づけされたユーザ情報データ7a…が存在した場合には、このユーザ情報データ7a…が索出されて、認識結果判定部4に供給される。その後、ステップST7に移行する。
【0053】
ステップST7においては、認識結果判定部4において、複数の音声認識部3a〜3nにおけるユーザごとの音声認識結果の差が明確か否かの判断が行われる。すなわち、具体的には、認識結果判定部4において、ユーザ情報データに含まれる複数の音声認識部3a〜3nに関する認識率または誤認率のデータを比較する。
【0054】
そして、この認識率または誤認率のデータが比較された結果、それらの差が所定のしきい値以上、例えば10%以上の差がある場合には、ステップST8に移行する。なお、この認識率または誤認率の差のしきい値に関しては、種々の値を採用することが可能であり、さらに、必要に応じて、しきい値の設定を変更することも可能である。
【0055】
ステップST8においては、認識結果判定部4により、認識率が高く誤認率が低い音声認識部からの音声認識結果のデータが選択される。そして、この認識結果判定部4により選択された音声認識結果のデータと、この最終的な音声認識結果を出力した音声認識部の認識率、およびそれ以外の音声認識結果を出力した音声認識部の認識率とがそれぞれ計算されて、ユーザ識別子に関連づけされたユーザ情報データ7a,…に格納される(ステップST11)。
【0056】
これとともに、ステップST12に移行して、認識結果判定部4により選択された音声認識結果のデータが、音声認識装置の全体の認識結果として、出力される。
【0057】
また、ステップST6においてユーザ情報データがない場合、またはステップST7において複数の音声認識部3a〜3nにおけるユーザごとの音声認識結果の差が明確ではない場合、ステップST9に移行する。
【0058】
ステップST9においては、ログインをしているユーザに関するユーザ情報データがない場合や、ユーザ情報データがユーザ情報データベース7に存在している場合でも複数の音声認識部3ごとの差が明確でない場合、認識結果判定部4により、複数の音声認識結果のデータのうちから最も確からしい音声認識結果を選択することが困難であるため、ユーザに対して、複数の音声認識結果のうちから正しい音声認識結果を選択するように問い合わせを行う。
【0059】
すなわち、認識結果判定部4からユーザ問合せ生成部5に、音声認識部3a〜3nから出力された音声認識結果を全て供給する。そして、これらの音声認識結果のデータは、互いに異なる音声認識結果のデータとして、ユーザ問合せ生成部5に供給される。
【0060】
ユーザ問合せ生成部5においては、互いに異なる複数の音声認識結果のデータを、音声の出力部から出力したり、ディスプレイなどの表示部(いずれも図示せず)に表示したりする。ここで、音声入力によりユーザによる選択が行われる場合には、ステップST3に移行して、上述と同様の処理が行われる。
【0061】
そして、ユーザが、入力部(図示せず)により、ユーザ自身が発した音声と同じ、もしくは最も近い内容の音声認識結果を選択する(ステップST10)と、ユーザにより選択された音声認識結果のデータと、この最終的な音声認識結果を出力した音声認識部の認識率(または誤認率)、およびそれ以外の音声認識結果を出力した音声認識部の認識率(または誤認率)とがそれぞれ計算されて、ユーザ識別子に関連づけされたユーザ情報データ7a,…に格納される。
【0062】
このように、ユーザ識別子に関連づけされたユーザ情報データ7a,…におけるデータ量が増加していくに従い、複数の音声認識部3a〜3nのうちのユーザごとの認識率や誤認率のデータの信頼性が増加していく。そして、そのデータの増加によって、ユーザごとに、どの音声認識部3a〜3nが最も適した音声認識部であるかが明確になっていく。
【0063】
そして、上述した相互の音声認識部3a〜3nにおける認識率の差が、特定の音声認識部において、しきい値以上であれば、ユーザの認証が行われた段階で、このユーザに適用する音声認識部として、最も認識率の高い音声認識部が採用される。
【0064】
(車両)
また、上述の一実施形態における音声認識装置を車両に備えた場合においては、認識結果判定部4から出力された音声認識結果のデータを、例えば、カーナビゲーションシステムや、エアーコンディショナーなどの操作入力部に供給して、操作可能に構成する。これにより、音声認識処理によって、カーナビゲーションや、エアコンを操作可能に構成することによって、ユーザによる音声の入力によって、これらの車両に搭載された種々の装置を操作することが可能となる。
【0065】
以上、この発明の一実施形態について具体的に説明したが、この発明は、上述の実施形態に限定されるものではなく、この発明の技術的思想に基づく各種の変形が可能である。
【0066】
例えば、上述の実施形態において挙げた所定値としてのしきい値はあくまでも例に過ぎず、必要に応じてこれと異なるしきい値を用いてもよい。
【0067】
【発明の効果】
以上説明したように、この発明によれば、音声入力手段と、複数の音声認識手段と、音声認識結果を判定する認識結果判定手段と、ユーザ情報データを格納可能なユーザ情報データベースと、複数のユーザ情報データから、ユーザのユーザ情報データを選択可能に構成されたユーザ情報選択手段とを有し、複数の音声認識手段による複数の音声認識結果を統計的に処理して、音声認識結果として出力していることにより、複数の音声認識手段による音声認識結果のうちから、最も正確性が高い音声認識結果を出力することができるので、複数のユーザによって利用される場合であっても、これらのユーザごとに最も適した音声認識手段を採用することができるので、ユーザごとの音声認識結果の精度を向上させることができ、認識性能を高性能化することができる。
【図面の簡単な説明】
【図1】この発明の一実施形態による音声認識装置を示すブロック図である。
【図2】この発明の一実施形態による音声認識装置による音声認識方法の一例を示すフローチャートである。
【符号の説明】
1 音声入力部
2 認証部
3,3a〜3n 音声認識部
4 認識結果判定部
5 ユーザ問合せ生成部
6 ユーザ情報選択部
7 ユーザ情報データベース
7a,7b,…7n ユーザ情報データ
Claims (9)
- 外部からユーザの音声を入力可能に構成された、音声入力手段と、
上記音声入力手段に入力された音声に対して、それぞれ互いに異なる音声認識処理を実行可能に構成された、複数の音声認識手段と、
上記複数の音声認識エンジンによるそれぞれの音声認識結果を判定可能に構成された認識結果判定手段と、
ユーザごとの音声認識結果が統計的に分類されて生成された複数のユーザ情報データを格納可能なユーザ情報データベースと、
上記複数のユーザ情報データから、上記ユーザのユーザ情報データを選択可能に構成されたユーザ情報選択手段とを有し、
上記複数の音声認識手段による複数の音声認識結果を統計的に処理して、全体の認識結果として出力するように構成されている
ことを特徴とする音声認識装置。 - ユーザを認証可能に構成された認証手段をさらに有する
ことを特徴とする請求項1記載の音声認識装置。 - 上記ユーザ情報データが、上記複数の音声認識手段における音声認識手段ごとの誤認率のデータまたは認識率のデータを含む
ことを特徴とする請求項1または2記載の音声認識装置。 - 上記複数の音声認識手段によりそれぞれ音声認識処理がされた複数の音声認識結果をそれぞれ出力する問い合わせ生成手段を有し、
上記問い合わせ生成手段により出力された複数の音声認識結果のうちから、ユーザにより選択された音声認識結果に基づいた情報を、上記ユーザの上記ユーザ情報データに格納するように構成されている
ことを特徴とする請求項1から3の何れか1項記載の音声認識装置。 - 入力された音声を複数の音声認識手段によりそれぞれ認識し、
上記複数の音声認識エンジンにより認識された複数の音声認識結果が、音声認識結果を判定する認識結果判定手段に供給されると、
上記認識結果判定手段により、上記複数の音声認識結果が相互に比較され、
上記比較において、上記複数の音声認識結果が一致した場合、上記複数の音声認識結果を、全体の認識結果として出力し、
上記比較において、上記複数の音声認識結果が不一致の場合には、上記複数の音声認識結果に対して統計的処理を行うことにより、上記複数の音声認識結果から少なくとも1つの音声認識結果を選択して、選択された音声認識結果を、全体の認識結果として出力するようにした
ことを特徴とする音声認識方法。 - 音声入力を行うユーザの識別を実行可能な認証手段によりユーザの認証を行い、
上記複数の音声認識手段における個々の音声認識手段ごとの認識率のデータを含む、ユーザ識別子に関連づけされて格納されたユーザ情報データが存在し、かつ、上記比較において上記複数の音声認識結果が不一致の場合、
上記ユーザ情報データに含まれる上記音声認識手段ごとの上記認識率に基づいて、上記複数の音声認識結果のうちから、認識率の最も高い音声認識手段により認識された音声認識結果を出力する
ことを特徴とする請求項5記載の音声認識方法。 - 上記ユーザ情報データに含まれる、上記複数の音声認識手段における認識率の最も高い音声認識手段の認識率と、上記認識率が最も高い音声認識手段による認識率より低い音声認識手段の認識率との差が、所定値以上であった場合に、上記認識率の最も高い音声認識手段により認識された音声認識結果を、全体の認識結果として出力する
ことを特徴とする請求項6記載の音声認識方法。 - 上記音声入力を行うユーザに該当するユーザ情報データが存在しない場合、または、上記ユーザに該当するユーザ情報に含まれる認識率の最も高い音声認識手段の認識率と、上記認識率が最も高い音声認識手段による認識率より低い音声認識手段の認識率との差が所定値未満であった場合、
上記複数の音声認識結果からユーザが発した音声と同じまたは最も近い音声認識結果をユーザに問い合わせ、
複数の音声認識結果のうちからユーザにより音声認識結果が選択され入力されると、上記認識結果判定手段が、上記ユーザが選択した音声認識結果を出力した音声認識手段の認識率のデータと、上記ユーザが選択しなかった音声認識結果を出力した音声認識手段の認識率のデータとを生成して、上記ユーザの識別子に関連づけされたユーザ情報データに格納する
ことを特徴とする請求項7記載の音声認識方法。 - 外部からユーザの音声を入力可能に構成された、音声入力手段と、上記音声入力手段に入力された音声に対して、それぞれ互いに異なる音声認識処理を実行可能に構成された、複数の音声認識手段と、上記複数の音声認識エンジンによるそれぞれの音声認識結果を判定可能に構成された認識結果判定手段と、ユーザごとの音声認識結果が統計的に分類されて生成された複数のユーザ情報データを格納可能なユーザ情報データベースと、上記複数のユーザ情報データから、上記ユーザのユーザ情報データを選択可能に構成されたユーザ情報選択手段とを有し、上記複数の音声認識手段による複数の音声認識結果を統計的に処理して、全体の認識結果として出力する音声認識装置が備えられている
ことを特徴とする車両。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003168134A JP2005003997A (ja) | 2003-06-12 | 2003-06-12 | 音声認識装置および音声認識方法ならびに車両 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003168134A JP2005003997A (ja) | 2003-06-12 | 2003-06-12 | 音声認識装置および音声認識方法ならびに車両 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005003997A true JP2005003997A (ja) | 2005-01-06 |
Family
ID=34093732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003168134A Withdrawn JP2005003997A (ja) | 2003-06-12 | 2003-06-12 | 音声認識装置および音声認識方法ならびに車両 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005003997A (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005181439A (ja) * | 2003-12-16 | 2005-07-07 | Nissan Motor Co Ltd | 音声認識装置 |
KR100728620B1 (ko) | 2005-02-07 | 2007-06-14 | 한국정보통신대학교 산학협력단 | 집합적 음성인식 시스템 및 그 시스템에서의 음성인식 방법 |
JP2009505140A (ja) * | 2005-08-09 | 2009-02-05 | モバイル・ヴォイス・コントロール・エルエルシー | 音声制御型ワイヤレス通信デバイス・システム |
JP2009265307A (ja) * | 2008-04-24 | 2009-11-12 | Toyota Motor Corp | 音声認識装置及びこれを用いる車両システム |
JP2013134302A (ja) * | 2011-12-26 | 2013-07-08 | Denso Corp | 音声認識装置 |
WO2014054217A1 (ja) * | 2012-10-02 | 2014-04-10 | 株式会社デンソー | 音声認識システム |
WO2015075903A1 (ja) * | 2013-11-21 | 2015-05-28 | 日産自動車株式会社 | 音声認識装置 |
WO2016006038A1 (ja) * | 2014-07-08 | 2016-01-14 | 三菱電機株式会社 | 音声認識システム及び音声認識方法 |
JP2016206580A (ja) * | 2015-04-28 | 2016-12-08 | 四郎丸 功 | 音声認識装置及び音声認識システム |
WO2018038385A3 (ko) * | 2016-08-23 | 2018-08-09 | 삼성전자 주식회사 | 음성 인식 방법 및 이를 수행하는 전자 장치 |
JP2020160281A (ja) * | 2019-03-27 | 2020-10-01 | 本田技研工業株式会社 | 端末装置、端末装置の制御方法、およびプログラム |
-
2003
- 2003-06-12 JP JP2003168134A patent/JP2005003997A/ja not_active Withdrawn
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005181439A (ja) * | 2003-12-16 | 2005-07-07 | Nissan Motor Co Ltd | 音声認識装置 |
KR100728620B1 (ko) | 2005-02-07 | 2007-06-14 | 한국정보통신대학교 산학협력단 | 집합적 음성인식 시스템 및 그 시스템에서의 음성인식 방법 |
JP2009505140A (ja) * | 2005-08-09 | 2009-02-05 | モバイル・ヴォイス・コントロール・エルエルシー | 音声制御型ワイヤレス通信デバイス・システム |
JP2009265307A (ja) * | 2008-04-24 | 2009-11-12 | Toyota Motor Corp | 音声認識装置及びこれを用いる車両システム |
JP2013134302A (ja) * | 2011-12-26 | 2013-07-08 | Denso Corp | 音声認識装置 |
US9123327B2 (en) | 2011-12-26 | 2015-09-01 | Denso Corporation | Voice recognition apparatus for recognizing a command portion and a data portion of a voice input |
US9293142B2 (en) | 2012-10-02 | 2016-03-22 | Denso Corporation | Voice recognition system |
WO2014054217A1 (ja) * | 2012-10-02 | 2014-04-10 | 株式会社デンソー | 音声認識システム |
WO2015075903A1 (ja) * | 2013-11-21 | 2015-05-28 | 日産自動車株式会社 | 音声認識装置 |
WO2016006038A1 (ja) * | 2014-07-08 | 2016-01-14 | 三菱電機株式会社 | 音声認識システム及び音声認識方法 |
CN106663421A (zh) * | 2014-07-08 | 2017-05-10 | 三菱电机株式会社 | 声音识别系统以及声音识别方法 |
US10115394B2 (en) | 2014-07-08 | 2018-10-30 | Mitsubishi Electric Corporation | Apparatus and method for decoding to recognize speech using a third speech recognizer based on first and second recognizer results |
JP2016206580A (ja) * | 2015-04-28 | 2016-12-08 | 四郎丸 功 | 音声認識装置及び音声認識システム |
WO2018038385A3 (ko) * | 2016-08-23 | 2018-08-09 | 삼성전자 주식회사 | 음성 인식 방법 및 이를 수행하는 전자 장치 |
US11107467B2 (en) | 2016-08-23 | 2021-08-31 | Samsung Electronics Co., Ltd. | Method for voice recognition and electronic device for performing same |
JP2020160281A (ja) * | 2019-03-27 | 2020-10-01 | 本田技研工業株式会社 | 端末装置、端末装置の制御方法、およびプログラム |
JP7278830B2 (ja) | 2019-03-27 | 2023-05-22 | 本田技研工業株式会社 | 端末装置、端末装置の制御方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7620547B2 (en) | Spoken man-machine interface with speaker identification | |
JP4571624B2 (ja) | ローカルモデルを用いた話者認識 | |
JP6977004B2 (ja) | 車載装置、発声を処理する方法およびプログラム | |
US20160039356A1 (en) | Establishing microphone zones in a vehicle | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
EP3437939B1 (en) | Vehicle control apparatus, vehicle control method, and recording medium storing program | |
JP2003202897A (ja) | 車載機器用音声認識装置 | |
US9881609B2 (en) | Gesture-based cues for an automatic speech recognition system | |
US9715877B2 (en) | Systems and methods for a navigation system utilizing dictation and partial match search | |
US20160300050A1 (en) | Verifying a user with biometric data | |
JP2005003997A (ja) | 音声認識装置および音声認識方法ならびに車両 | |
US10431221B2 (en) | Apparatus for selecting at least one task based on voice command, vehicle including the same, and method thereof | |
US11380325B2 (en) | Agent device, system, control method of agent device, and storage medium | |
JP2003330485A (ja) | 音声認識装置、音声認識システム及び音声認識方法 | |
US11508370B2 (en) | On-board agent system, on-board agent system control method, and storage medium | |
WO2018088534A1 (ja) | 電子機器、電子機器の制御方法及び電子機器の制御プログラム | |
US10770070B2 (en) | Voice recognition apparatus, vehicle including the same, and control method thereof | |
US20140136204A1 (en) | Methods and systems for speech systems | |
JP4938719B2 (ja) | 車載情報システム | |
US7289957B1 (en) | Verifying a speaker using random combinations of speaker's previously-supplied syllable units | |
CN115447588A (zh) | 车辆的控制方法、装置、车辆及存储介质 | |
KR20140035164A (ko) | 음성인식시스템의 동작방법 | |
CN111798842A (zh) | 对话系统和对话处理方法 | |
EP1063634A2 (en) | System for recognizing utterances alternately spoken by plural speakers with an improved recognition accuracy | |
US9858918B2 (en) | Root cause analysis and recovery systems and methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060905 |