JP2009145755A

JP2009145755A - 音声認識装置

Info

Publication number: JP2009145755A
Application number: JP2007324853A
Authority: JP
Inventors: Shojiro Takeuchi; 彰次郎竹内; Hiroaki Sekiyama; 博昭関山; Yoshikazu Sekine; 由一関根
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2007-12-17
Filing date: 2007-12-17
Publication date: 2009-07-02

Abstract

【課題】発話者を特定しながら音声認識性能を向上させる音声認識装置を提供すること。
【解決手段】発話者が発する音声を認識する音声認識装置１００は、発話者を特定する発話者特定手段１１と、特定した発話者に応じて音声認識特性を調整する音声認識特性調整手段１２とを備える。音声認識特性調整手段１２は、特定した発話者に応じて、マイク感度、声域フィルタで除去する周波数帯域、方言認識辞書、又は、頻出語彙認識辞書を切り換えるようにする。音声認識装置１００は、音声から声紋データを取得する音声認識手段１０を備え、発話者特定手段１１は、予め登録された声紋データと音声認識手段１０が取得した声紋データとを照合して発話者を特定する。
【選択図】図１

Description

本発明は、発話者が発する音声を認識する音声認識装置に関し、特に、発話者を特定した上で音声認識を行う音声認識装置に関する。

従来、マイクを介して入力された音声に基づいて発話者の特定を試み、その発話者が特定できた場合にだけ音声認識による車両制御を許可する車両制御装置が知られている（例えば、特許文献１参照。）。

この車両制御装置は、車室内外に設けられた複数のマイクの何れかに音声信号が入力されると、その音声信号から音声認識の対象となる音声データと発話者特定用の声紋データとを生成し、生成した音声データ及び声紋データを用いて、登録済みの発話者による音声キーワードの発話であるか否かを判定する。

そして、この車両制御装置は、登録済みの発話者による音声キーワードの発話であると判定できた場合だけ、「ドア施錠」、「ドア解錠」、又は、「トランク開放」といった、音声データに含まれる車両制御用の音声コマンドを受け付け、その音声コマンドに対応する制御信号をドアやトランクを開閉させるための各種駆動装置に送信してそれら駆動装置を作動させるようにする。

このように、この車両制御装置は、登録されていない発話者による音声キーワードの発話、又は、音声キーワード以外の音声の発話に反応することなく、登録済みの発話者による音声キーワードの発話のみに反応するので、セキュリティ性を維持しながら音声認識を利用した運転支援を提供できる。
特開２０００−８０８２８号公報

しかしながら、特許文献１に記載の車両制御装置は、発話者の特定結果をセキュリティの強化のみに利用しており、その特定結果を音声認識性能の向上に活用していない。

上述の点に鑑み、本発明は、発話者を特定しながら音声認識性能を向上させる音声認識装置を提供することを目的とする。

上述の目的を達成するために、第一の発明に係る音声認識装置は、発話者が発する音声を認識する音声認識装置であって、発話者を特定する発話者特定手段と、特定した発話者に応じて音声認識特性を調整する音声認識特性調整手段と、を備えることを特徴とする。

また、第二の発明は、第一の発明に係る音声認識装置であって、前記音声認識特性調整手段は、特定した発話者に応じて、マイク感度、声域フィルタで除去する周波数帯域、方言認識辞書、又は、頻出語彙認識辞書を切り換えることを特徴とする。

また、第三の発明は、第一又は第二の発明に係る音声認識装置であって、音声から声紋データを取得する音声認識手段を更に備え、前記発話者特定手段は、予め登録された声紋データと前記音声認識手段が取得した声紋データとを照合して発話者を特定することを特徴とする。

上述の手段により、本発明は、発話者を特定しながら音声認識性能を向上させる音声認識装置を提供することを目的とする。

以下、図面を参照しつつ、本発明を実施するための最良の形態の説明を行う。

図１は、本発明に係る音声認識装置の構成例を示すブロック図であり、音声認識装置１００は、制御装置１、マイク２、個人認証装置３、記憶装置４及びスピーカ５から構成される。

また、音声認識装置１００は、車載装置であり、運転者が発話する所定の音声コマンドを認識し、認識した音声コマンドに応じて、エンジンの始動、ヘッドライトの点灯、窓の開閉等、各種車載装置を自動的に作動させるようにする。

制御装置１は、ＣＰＵ（Central Processing Unit）、ＲＡＭ(Random Access Memory)、ＲＯＭ（Read Only Memory）等を備えたコンピュータであって、例えば、音声認識手段１０、発話者特定手段１１、音声認識特性調整手段１２及びユーザ情報更新登録手段１３のそれぞれに対応するプログラムをＲＯＭに記憶しながら、各手段に対応する処理をＣＰＵに実行させる。

マイク２は、発話者が発話する音声を受け付けるための装置であり、例えば、ステアリングホイール上に配置され、運転者が発話する音声をアナログ信号として取得する。なお、マイク２は、例えば、ドアミラーやフロントピラー等の車両外側に配置され、車両に搭乗しようとする搭乗者が発話する音声を取得するようにしてもよい。車両外部から音声認識によりドアの施解錠等を行うためである。

個人認証装置３は、個人を認証するための装置であり、例えば、ドアノブ付近に設置される指紋認証装置や静脈認証装置がある。

また、個人認証装置３は、スマートキー（トランスポンダ）を携帯した運転者が車両に接近した場合に特定小電力無線を利用してその運転者を認証するスマートキーシステムであってもよい。

記憶装置４は、各種情報を記憶するための装置であり、例えば、ハードディスクやＤＶＤ（Digital Versatile Disk）等の記憶媒体であって、環境情報データベース４０（以下、「環境情報ＤＢ４０」とする。）、ユーザ情報ＤＢ４１、標準音声認識辞書ＤＢ４２、方言認識辞書４３及び頻出語彙認識辞書ＤＢ４４等を記憶する。

環境情報ＤＢ４０は、雑音等の環境音に関する情報を体系的に格納したデータベースであり、各種環境音の周波数、振幅、波形パターン等を保持する。制御装置１は、例えば、車速センサ等の各種車載装置の出力に基づいてマイク２の周辺環境を判定し、その周辺環境を検索キーとして環境情報ＤＢ４０を検索し、除去すべき環境音に関する情報（例えば、周波数である。）を抽出して、マイク２が取得するアナログ信号からその環境音を除去する。

ユーザ情報ＤＢ４１は、車両を利用するユーザに関する情報を体系的に格納したデータベースであり、各ユーザの声紋データ、声の大きさ、声域、方言、頻繁に使用する語彙等に関する情報を保持する。

図２は、ユーザ情報ＤＢ４１の構成例を示す図であり、ユーザ情報ＤＢ４１は、例えば、各ユーザの識別番号を記憶する「ユーザＩＤ」欄、各ユーザの声紋データのファイル名を記憶する「声紋データ」欄、各ユーザの声の大きさ（例えば、「大」、「中」、「小」の三段階の値で表される。）を記憶する「声量」欄、各ユーザの声の高低（例えば、「大」、「中」、「小」の三段階の値で表される。）を記憶する「声域」欄、及び、各ユーザの方言に対応する識別番号を記憶する「方言」欄を有する。

例えば、ユーザＩＤ「１」のユーザは、「Ｆｉｌｅ１」のファイル名で特定される声紋データを有し、声量が大きく、声域が高く、方言がないユーザであることを示す。

なお、声紋データは、例えば、ソノグラム分析により音声を視覚化、パターン化したデータであり、制御装置１は、発話者に特定の言葉（音声キーワード）を発話させることで取得した声紋データを予め登録しておき、その後、マイク２を介して新たに取得するその音声キーワードを発話させた場合の声紋データと登録された声紋データとを照合することにより発話者を特定することができる。

標準音声認識辞書ＤＢ４２は、音声認識装置１００が発話者の音声を認識できるよう、音声認識させる標準的な言葉を体系的に格納したデータベースであり、制御装置１は、マイク２を介して取得したアナログデータから隠れマルコフモデル等の確率モデルを用いて単語列の音響特徴を記述する音響モデルを生成し、その音響特徴と標準音声認識辞書ＤＢ４２に登録された言葉の音響特徴とを比較しながら最も音響特徴が近い言葉を抽出することができる。

音声認識装置１００は、起動時に、記憶装置４に記憶された標準音声認識辞書ＤＢ４２をアクセス速度の速い制御装置１のＲＡＭ上にコピーする。検索が高速で行われるようにするためである。但し、音声認識装置１００は、標準音声認識辞書ＤＢ４２の全部又は一部をＲＡＭ上にコピーすることなく、記憶装置４にある標準音声認識辞書ＤＢ４２の全部又は一部を直接参照するようにしてもよい。容量の大きな標準音声認識辞書ＤＢ４２を利用できるようにするためである。

方言認識辞書ＤＢ４３は、音声認識装置１００が発話者の音声を認識できるよう、音声認識させる言葉、特に、東北弁、関西弁又は九州弁といった方言で用いられる言葉を体系的に格納したデータベースであり、方言毎に用意され、標準音声認識辞書ＤＢ４２を補完する。

このように、標準音声認識辞書ＤＢ４２から分離して方言毎に方言認識辞書ＤＢ４３を用意することで、音声認識装置１００は、ある発話者が全く使用しないような方言を比較（検索）対象から除外して無駄な検索を回避しながらも、方言を使う別の発話者に対しては、対応する方言認識辞書ＤＢ４３を適用することにより、発話の認識精度を向上させることができる。

音声認識装置１００は、起動時に、記憶装置４に記憶された方言認識辞書ＤＢ４３のうち発話者の方言に対応するものをアクセス速度の速い制御装置１のＲＡＭ上にコピーし、検索が高速で行われるようにする。

なお、音声認識装置１００は、ユーザが新たに登録された当初は、全ての方言に対応する方言認識辞書ＤＢ４３をＲＡＭ上にコピーし、どの方言が発話された場合にもその音声を認識できるようにしておく。

その後、音声認識装置１００は、ユーザ情報更新登録手段１３（後述）により、各方言に対応する方言認識辞書ＤＢ４３に対するアクセス回数に基づいてそのユーザの方言を判定し、次回からはその方言に対応する方言認識辞書ＤＢ４３のみをＲＡＭ上にコピーするようにする。

なお、所定期間後も方言認識辞書ＤＢ４３に対するアクセス回数が所定数に達せず、そのユーザが方言を用いない（標準語のみを話すことを意味する。）と判定した場合、音声認識装置１００は、方言認識辞書ＤＢ４３をＲＡＭ上にコピーしないようにする。無駄な検索、照合を省略して処理速度を向上させるためであり、また、別の有用な認識辞書をＲＡＭにコピーできるようにするためである。

頻出語彙認識辞書ＤＢ４４は、音声認識装置１００が発話者の音声を迅速に認識できるよう、音声認識の対象となる言葉のうち、特に、発話者が頻繁に使用する言葉を別途格納したデータベースであり、発話者毎に所定数の頻出語彙を登録する。

このように、発話者が頻繁に使用する言葉を別途記憶しておくことで、標準音声認識辞書ＤＢ４２に登録されている言葉に先だって頻出語彙の照合を行うことができ、音声認識装置１００は、音声認識処理における負荷を低減させながら、音声認識速度を向上させることができる。

図３は、頻出語彙認識辞書ＤＢ４４の構成例を示す図であり、頻出語彙認識辞書ＤＢ４４は、ユーザ毎に１０個の頻出語彙を登録している。

制御装置１は、例えば、標準音声認識辞書ＤＢ４２に登録された言葉のそれぞれについて使用頻度（発話者の音声と一致した回数を意味する。）をカウントし、使用頻度の高い所定数（例えば、１０個）の言葉をユーザ毎に抽出して頻出語彙認識辞書ＤＢ４４に別途登録する。

例えば、図３は、「ユーザＩＤ」が「１」のユーザが、音声コマンド「エンジン始動」を最も頻繁に発話し、音声コマンド「ライト点灯」を二番目に頻繁に発話し、音声コマンド「冷房」を十番目に頻繁に発話することを示す。

なお、頻出語彙認識辞書ＤＢ４４に登録される言葉は、リアルタイムで更新されてもよく、一定期間毎に更新されてもよい。

スピーカ５は、各種情報を音声出力するための装置であり、例えば、車載スピーカであって、マイク２との併用により音声認識装置１００が発話者とコミュニケーションを取ることができるようにする。また、スピーカ５は、音声認識装置１００が認識した音声を確認のために再生出力するようにしてもよい。

次に、制御装置１が有する各種手段について説明する。

音声認識手段１０は、発話者が発した音声を認識するための手段であり、各種車載装置が出力する情報と環境情報ＤＢ４０に記憶される環境音に関する情報とを用いて、マイク２を介して取得されるアナログデータに含まれる環境音を除去する環境適応機能を含む。

音声認識手段１０は、例えば、イグニッションスイッチが出力するエンジン始動信号を受信した場合、環境情報ＤＢ４０に記憶されるエンジン音又は排気音に関する情報（例えば、周波数又は波形パターンである。）を取得して、マイク２が取得したアナログデータからその周波数帯域にある信号やその波形パターンに合致する音声信号（エンジン音又は排気音に関する音声信号）を除去する。

同様に、音声認識手段１０は、ワイパースイッチが出力するワイパー始動信号を受信した場合、環境情報ＤＢ４０に記憶されるワイパー音に関する情報を取得して、マイク２が取得したアナログデータからそのワイパー作動音に関する音声信号を除去する。

また同様に、音声認識手段１０は、車速センサが出力する車速情報を受信した場合、環境情報ＤＢ４０に記憶される風きり音又は振動音に関する情報を取得して、マイク２が取得したアナログデータからその車速に応じた風切り音や振動音に関する音声信号を除去する。

このような環境適応機能を利用して、音声認識手段１０は、マイク２が取得したアナログデータに含まれる環境音を除去し、発話者による発話だけがそのアナログデータに含まれるようにして、音声認識における認識精度を向上させるようにする。

また、音声認識手段１０は、環境毎に異なる標準音声認識辞書ＤＢ４２又は頻出語彙認識辞書ＤＢ４４を用意しておき、各種車載装置が出力する情報に応じてそれらのデータベースを切り換えるようにしてもよい。例えば、車室内の気温が高い場合には、エアコンの操作に関する語彙を頻出語彙としてＲＡＭ上にコピーするようにしてもよい。

また、音声認識手段１０は、例えば、環境音が除去されたアナログデータのある時点の瞬時スペクトルまたはある区間の平均スペクトルをスペクトル分析により求め、ＦＦＴ（Fast Fourier Transformation）によるパワースペクトルやＬＰＣ(Linear Prediction Coding)によるスペクトル包絡を抽出したり、基本周波数の時間変化をピッチ分析により求めたりして、発話者が発した音声の音響特徴（声紋データを含む。）を取得し、かつ、音素の抽出に利用できるデジタルデータ（以下、「音声データ」とする。）を取得して、それらデータをＲＡＭに一時的に記憶する音声データ整形機能を含む。

このような音声データ整形機能を利用して音声データを取得した音声認識手段１０は、ＲＡＭに記憶されたその音声データに含まれる音素と標準音声認識辞書ＤＢ４２に登録された音素とを比較して、その音声データが表す音声コマンドを認識する。

発話者特定手段１１は、発話者を特定するための手段であり、例えば、音声認識手段１０が取得した声紋データとユーザ情報ＤＢ４１に登録された声紋データとを照合して発話者を特定し、その声紋データに対応するユーザＩＤを所得する。

また、発話者特定手段１１は、個人認証装置３が出力する指紋パターン、静脈パターン又はスマートキーＩＤ等と、ユーザ情報ＤＢ４１に登録された指紋パターン、静脈パターン又はスマートキーＩＤ等とを照合して発話者を特定するようにしてもよい。

音声認識特性調整手段１２は、発話者に応じて音声認識装置１００の音声認識特性を調整するための手段であり、例えば、発話者特定手段１１が取得したユーザＩＤを用いてユーザ情報ＤＢ４１を参照しながらそのユーザＩＤのレコードにおける「声量」欄の値を抽出し、抽出した値に応じてマイク２の感度を調整する。例えば、「声量」欄の値が「大」であればマイク２の感度を下げ、適切な音量でアナログデータを取得できるようにする。

また、音声認識特性調整手段１２は、そのユーザＩＤのレコードにおける「声域」欄の値を抽出し、抽出した値に応じて声域フィルタで除去しようとする周波数帯域を調整する。例えば、「声域」欄の値が「高」であれば低音の周波数帯域を除去できるようにする。

更に、音声認識特性調整手段１２は、そのユーザＩＤのレコードにおける「方言」欄の値を抽出し、抽出した値に応じて参照すべき方言認識辞書ＤＢ４３を切り換え、或いは、追加するようにする。例えば、「方言」欄の値が「関西弁」を表す識別番号であれば、関西弁に対応する方言認識辞書ＤＢ４３をＲＡＭ上にコピーするようにする。

更に、音声認識特性調整手段１２は、頻出語彙認識辞書ＤＢ４４を参照しながらそのユーザＩＤに対応する頻出語彙を抽出し、そのユーザ専用の認識辞書として頻出語彙認識辞書ＤＢ４４の一部をＲＡＭにコピーすることで、ＲＡＭに記憶されたその認識辞書と新たに取得した音声データとの照合を音声認識手段１０が優先的に実行できるようにする。

なお、音声認識特性調整手段１２は、発話者を特定できない場合には、方言認識辞書ＤＢ４３又は頻出語彙認識辞書ＤＢ４４の一部をＲＡＭ上にコピーしないようにし、或いは、既にＲＡＭ上にコピーされていればそれらを消去するようにする。無駄な照合処理を省略し、また、ＲＡＭの有効活用を図るようにするためである（例えば、別の認識辞書をコピーできるようにする。）。

また、音声認識特性調整手段１２は、単に、ＲＡＭ上にコピーされた方言認識辞書ＤＢ４３又は頻出語彙認識辞書ＤＢ４４に対する参照（照合）を禁止するだけでもよい。無駄な照合処理を省略し、音声認識の処理速度を向上させるためである。

ユーザ情報更新登録手段１３は、ユーザ情報ＤＢ４１の内容を更新したり、ユーザ情報ＤＢ４１に新たなユーザを登録したりするための手段である。

最初に、ユーザ情報更新登録手段１３が、ユーザ情報ＤＢ４１の内容を更新する処理について説明する。

ユーザ情報更新登録手段１３は、例えば、各方言に対応する方言認識辞書ＤＢ４３に対するアクセス回数を所定期間に亘ってユーザ毎に計数し、アクセス回数が最も高い方言認識辞書ＤＢ４３であって、そのアクセス回数が所定回数以上となる方言認識辞書ＤＢ４３に対応する方言識別番号をそのユーザのレコードにおける「方言」欄に記憶する。

また、ユーザ情報更新登録手段１３は、所定期間におけるユーザ毎の声量の平均値（例えば、デシベルで表される。）を算出し、その算出された値がそのユーザのレコードにおける「声量」欄の値と異なる場合には、その算出された値で「声量」欄の値を更新するようにする。声域についても同様である。

次に、ユーザ情報更新登録手段１３が、新たなユーザをユーザ情報ＤＢ４１に登録する処理について説明する。

この場合、ユーザ情報更新登録手段１３は、個人認証装置３又は声紋データの照合により管理者（例えば、管理権限を有する登録済みのユーザであり、複数人であっても一人であってもよい。）を特定した後、管理者による所定操作（例えば、新規ユーザ登録処理を開始させるためのボタン操作である。）に応じて新規ユーザ登録処理を開始させる。

ユーザ情報更新登録手段１３は、新規レコードの「ユーザＩＤ」欄に新たなユーザ識別番号を追加した上で、マイク２を介して所定の音声キーワードを音声入力するようスピーカ５から案内メッセージを出力し、その登録を受けようとするユーザがその音声キーワードを発話したときのアナログデータを音声認識手段１０に取得させる。

その後、ユーザ情報更新登録手段１３は、音声認識手段１０により、そのアナログデータから声紋データを抽出させ、その声紋データのファイルを新規レコードの「声紋データ」欄に追加する。

また、ユーザ情報更新登録手段１３は、そのアナログデータに基づいて「声量」欄及び「声域」欄の値を決定するようにしてもよく、初期値として「中」の値を記憶してもよい。所定時間に亘って音声認識を行った後にその所定期間における音声認識結果を踏まえて更新すればよいからである。

次に、図４を参照しながら、音声認識装置１００が発話者に応じて音声認識特性を調整する処理（以下、「音声認識特性調整処理」とする。）について説明する。なお、図３は、音声認識特性調整処理の流れを示すフローチャートである。

音声認識装置１００は、音声認識機能が作動していない場合にマイク２において音声が入力されたときに、音声認識特性調整処理を実行する。

音声認識機能が作動していない場合とは、音声認識を開始させるための音声キーワード（開始キーワード）が未だ認識されていない状態、或いは、音声認識を終了させるための音声キーワード（終了キーワード）が認識された後の状態をいう。

また、音声認識装置１００は、音声認識機能を作動させた場合であっても、所定期間に亘って音声が認識されない場合には、音声認識機能を自動的に終了させるようにしてもよい。このような場合も、音声認識機能が作動していない場合に該当することとなる。

最初に、音声認識装置１００の制御装置１は、マイク２に対して音声が入力された場合、車速センサ、ワイパースイッチ、イグニッションスイッチ等の各種車載装置の出力に基づいて環境音（エンジン音、風きり音等がある。）の有無を判定する。

その後、制御装置１は、環境音が存在すると判定した場合には、音声認識手段１０により環境情報ＤＢ４０を参照してその環境音の周波数、振幅又は波形パターン等を特定し、入力された音声であるアナログデータからその環境音を除去し（ステップＳ１）、環境音が除去されたアナログデータから音声データ及び声紋データを生成する（ステップＳ２）。

環境音が存在しないと判定した場合には、制御装置１は、そのアナログデータから環境音を除去することなく、音声データ及び声紋データを生成する。

その後、制御装置１は、新たに生成された音声データと音声認識機能を開始させるための音声キーワードとを照合し（ステップＳ３）、その音声データがその音声キーワードに一致しない場合には（ステップＳ３のＮＯ）、スピーカ５から音声メッセージ「開始キーワードではありません」を出力させて音声認識特性調整処理を終了させる（ステップＳ４）。不審者が音声認識機能を利用して車両を操作することがないようにするためである。

なお、制御装置１は、開始キーワード以外の音声を所定回数（例えば、３回）連続して認識した場合、或いは、音声データを所定回数連続して認識できなかった（言葉を特定できなかった）場合、音声認識機能の作動を禁止するようにしてもよい。

一方、その音声データがその音声キーワードに一致する場合（ステップＳ３のＹＥＳ）、制御装置１は、発話者特定手段１１により、新たに生成された声紋データとユーザ情報ＤＢ４１に登録された声紋データとを照合し（ステップＳ５）、その音声キーワードを発した発話者がユーザ情報ＤＢ４１に既に登録されているユーザであるか否かを判定する。

新たに生成された声紋データとユーザ情報ＤＢ４１に登録された声紋データとが一致せず、発話者を特定できない場合には（ステップＳ５のＮＯ）、スピーカ５から音声メッセージ「登録ユーザではありません」を出力させて音声認識特性調整処理を終了させる（ステップＳ４）。未登録の発話者に音声認識機能を使用させないようにするためである。

なお、制御装置１は、登録ユーザ以外の者による開始キーワードの発話を所定回数（例えば、３回）連続して認識した場合にも、音声認識機能の作動を禁止するようにしてもよい。セキュリティ性を高めるためである。

一方、新たに生成された声紋データとユーザ情報ＤＢ４１に登録された声紋データとが一致し、発話者を特定できた場合（ステップＳ５のＹＥＳ）、制御装置１は、音声認識特性調整手段１２により、その発話者のユーザＩＤに応じて、マイク感度、声域フィルタで除去する周波数帯域を調整し、また、方言認識辞書及び頻出語彙認識辞書をそのユーザＩＤに応じて切り換えるようにする（ステップＳ６）。その発話者による発話に対する認識精度を向上させるためである。

その後、制御装置１は、音声認識機能を作動させ（ステップＳ７）、終了キーワードを認識するか、或いは、音声を認識しない状態が所定時間に達するまでは、その発話者が発する音声コマンドを受け付けられるようにする。

以上の構成により、音声認識装置１００は、発話者を特定し、その特定した発話者に応じてマイク感度や声域フィルタの特性を調節するので、音声の認識精度を向上させることができる。

また、音声認識装置１００は、その特定した発話者に応じて、メモリに常駐させる各種認識辞書を切り換えるので、音声の認識速度を向上させることができる。

また、音声認識装置１００は、声紋データに基づいて発話者を特定するので、指紋認証装置や静脈認証装置等の設置を省略することができ、装置の製造コストを抑えると共に、利用者の利便性を向上させることができる。

以上、本発明の好ましい実施例について詳説したが、本発明は、上述した実施例に制限されることはなく、本発明の範囲を逸脱することなしに上述した実施例に種々の変形及び置換を加えることができる。

例えば、上述の実施例では、特定できた発話者に応じて方言認識辞書を切り換えるが、特定できた発話者に応じて標準音声認識辞書ＤＢ４２の使用言語（日本語又は英語等である。）を切り換えるようにしてもよい。

また、上述の実施例において、音声認識装置１００は、登録ユーザとして特定された者による発話（音声コマンド）であれば、分け隔て無くその音声コマンドを受け付けるようにするが、登録ユーザ毎に受け付け可能な音声コマンドを異ならせるようにしてもよい。

例えば、音声認識装置１００は、車両外部からドアを解錠するための音声コマンドに関しては、登録ユーザのうちの一部の者が発話した場合にのみ受け付けるようにしてもよい。

本発明に係る音声認識装置の構成例を示すブロック図である。ユーザ情報ＤＢの構成例を示す図である。頻出語彙認識辞書ＤＢの構成例を示す図である。音声認識特性調整処理の流れを示すフローチャートである。

符号の説明

１制御装置
２マイク
３個人認証装置
４記憶装置
５スピーカ
１０音声認識手段
１１発話者特定手段
１２音声認識特性調整手段
１３ユーザ情報更新登録手段
４０環境情報データベース
４１ユーザ情報データベース
４２標準音声認識辞書データベース
４３方言認識辞書データベース
４４頻出語彙認識辞書データベース
１００音声認識装置

Claims

発話者が発する音声を認識する音声認識装置であって、
発話者を特定する発話者特定手段と、
特定した発話者に応じて音声認識特性を調整する音声認識特性調整手段と、
を備えることを特徴とする音声認識装置。
前記音声認識特性調整手段は、特定した発話者に応じて、マイク感度、声域フィルタで除去する周波数帯域、方言認識辞書、又は、頻出語彙認識辞書を切り換える、
ことを特徴とする請求項１に記載の音声認識装置。
音声から声紋データを取得する音声認識手段を更に備え、
前記発話者特定手段は、予め登録された声紋データと前記音声認識手段が取得した声紋データとを照合して発話者を特定する、
ことを特徴とする請求項１又は２に記載の音声認識装置。