JP2003532163A

JP2003532163A - 車載音声認識システムのための選択的話者適合方法

Info

Publication number: JP2003532163A
Application number: JP2001581271A
Authority: JP
Inventors: チャールズアレンエヴァハート; スコットアラントンプソン
Original assignee: ビステオングローバルテクノロジーズインコーポレイテッド
Priority date: 2000-05-04
Filing date: 2001-05-04
Publication date: 2003-10-28
Also published as: US6587824B1; DE10191732B4; WO2001084538A1; GB2366434B; GB2366434A; DE10191732T1

Abstract

(57)【要約】車載音声認識システムの認識精度を向上させる方法を開示する。本発明の方法は、Ｎベスト適合技術を使用して、システムの音声エンジンを話者の音声特性に適合させる。本方法において、音声認識システムは、自動車命令に関連し特定の話者の音声特性を有する発話を受信して処理し（７６）、発話に適合するＮベスト音声命令セットを選択する（７８）。話者からのトレーニングモード入力を受信すると、システムは、Ｎベスト命令セットを話者に出力し（８６）、話者は正確な命令を選択する。次に、システムは、受信した音声特性を有する発話がユーザーにより選択された自動車命令として認識されるように音声エンジンを適合させる（９０）。

Description

【発明の詳細な説明】

【０００１】（技術分野）本発明は音声認識システムに関し、より詳細には、車載音声認識システムを選
択的にトレーニングして個々の話者の音声特性に適合するようにする方法に関す
る。

【０００２】（背景技術）自動車に搭載された音声認識システムは、運転者及び乗員が、音声命令に対応
した単語又は語句を発声することによって種々の車両機能を制御することを可能
にする。車内に置かれた１つあるいはそれ以上のマイクロホンは、発声された単
語又は語句を表す音声信号を受け取る。種々の音響及び言語モデル化技術を使用
する音声エンジン認識アルゴリズムは、音声信号を処理して、１つ又はそれ以上
の記憶された命令文法セットに含まれる、適合する音声命令を識別するために用
いられる。音声命令は、パワーウィンド、ロック及び空調制御装置等の、任意の
数の車両機能及び付属品を操作するための適切な制御手段に送られる。

【０００３】音声認識システムの有効性は、主として認識精度、即ちシステムが音声命令を
発語に正確に適合させるか否かに基づいて評価される。一般的に、音声認識では
、個々の話者の発音癖、方言及び口調といった音声／発音特性の広範な変化が困
難な問題を引き起こす。特に、車載音声認識システムでは、車両に多くの乗員が
搭乗することになるのでこの問題が顕著になる。さらに、車室内の音響特性は、
エンジンノイズ、通過車両及びサイレン等の道路ノイズのみならず、音声認識を
特に難しくする風雨や雷等の天候条件により変化することもある。

【０００４】一般的に、音響、語彙及び言語モデルは、音声エンジンに含まれており、可能
性のある単語の検索区域を縮小することによって認識処理を助け、類似音の単語
及び語句の間の不明確性を取り除くようになっている。これらのモデルは、どち
らかと言えば統計学に基づいたシステムであり種々の形態で提供され得る。音響
モデルは、各々の命令に対応する音響特性又は音声信号の波形モデルを含むこと
ができる。語彙及び言語モデルは、一般的に命令語選択及び文法的構造に関して
音声エンジンに指示するアルゴリズムを含むことができる。例えば、単純な言語
モデルは、有限状態のネットワークとして特定でき、各々の単語に続く許容単語
を系統的に与える。しかし、より複雑で、文脈を規定した言語モデルも存在する
。

【０００５】認識精度を改善するために、従来型の車載音声認識システムは、トレーニング
ルーチンを実行することによってこれらのモデルを話者の音声特性に適合させる
ことを可能にしている。一般的に、このようなトレーニングルーチンは、話者が
システムにトレーニングモードに入るように指示することにより開始される。

【０００６】システムは、話者に対して多数の所定の又は不規則な音声命令を教えて、話者
に各々の命令を発声するよう指示する。システムは、発声された単語の、対応す
る音声命令に関するモデルからの変動に基づいて命令の全セットを適合させる。
しかし、音声命令の全セットを適合させるので、システムに話者の音声特性の十
分なサンプリングをもたらすには相当数の反復を必要とする。典型的に、このよ
うなトレーニングルーチンは、少なくとも２０から４０回の命令プロンプト及び
返答反復を含む。

【０００７】前記の技術は、多数のトレーニング命令入力の反復が原因で、使用者にとって
は不便であり時間を要するものである。トレーニングルーチンは、特に運転者を
散漫にする場合があるので、運転者に対して運転中にルーチンを実行することは
不適切である。更に、前記の技術は、繰り返して誤認識される、特に問題のある
単語の訂正については有効でない場合もある。これは前記の技術が、所定の話者
の発音特性に対して音声認識システムを大まかに調整するように設計されている
ためである。従って、車載音声認識システムを、間違って認識された音声命令を訂正するよ
うに適合させる、簡単かつ有効な技術に対しての要求がある。

【０００８】（発明の開示）本発明は、音声認識システムの音声エンジンを必要に応じて話者の音声特性に
適合させて、特定の音声命令と、対象の特定の問題のある単語又は語句とを認識
することによって、音声認識システムの認識精度を向上させるための方法を提供
する。本方法は、Ｎベスト適合技術を用いて、発話に最も密接に適合する公知の
自動車命令リストを提供する。話者がＮベスト適合から意図する又は正確な自動
車命令を選択する際に、必要に応じて音声エンジンを適合させるために発話が用
いられ、この自動車命令を自動的に認識する。

【０００９】詳細には、本発明は、車両付属品を音声で操作するための車載音声認識システ
ムの選択的話者適合方法である。この方法は、話者に依存する音声特性を有し公
知の自動車命令に関連する話者の発話を受信する段階と、発話を認識パラメータ
に応じて処理する段階と、処理された発話に適合する公知の自動車命令のＮベス
トセットを識別する段階と、Ｎベスト命令セットを話者に出力する段階と、Ｎベ
スト命令セットから正確な自動車命令を選択する話者の入力を受信する段階と、
音声特性を有する発話を正確な自動車命令として認識することによって認識シス
テムが話者に適合するように、認識パラメータを調整する段階とを含む。この方
法は、正確な自動車命令に対応する付属品の操作の実行を更に含む。

【００１０】本発明の１つの態様においては、認識パラメータは音響波形モデルであり、発
話の音声特性は話者に依存する音響特性を含む。この場合、音声エンジンは、正
確な自動車命令の波形モデルの代わりにこの音響特性を用いることによって適合
される。もしくは、認識パラメータは発音分類セットであり、音声エンジンは、
発話の音声特性に応じて正確な自動車命令に関する発音分類セットを変更するこ
とによって適合される。

【００１１】本発明の他の態様においては、Ｎベスト命令セットは、計器パネルの表示装置
に表示してもよく、話者の選択入力は入力装置によって行われる。もしくは、Ｎ
ベスト命令セットは、テキスト音声アルゴリズム、及び／又は、予め記録された
音声ファイルを処理することによって、車両オーディオ装置のスピーカーから可
聴的に出力してもよい。この場合、可聴的な出力は、話者が選択入力として発声
できる、各々のＮベスト命令に関する識別名を含む。

【００１２】他の態様においては、本発明の方法は、話者からのトレーニングモード入力を
受信することを含み、トレーニングモード入力を受信した場合にのみ、出力、選
択、及び適合の各々の段階が実行される。トレーニングモードの入力は、トレー
ニングモード制御ボタンを操作すること、又はトレーニングモード音声命令を発
することを含む、種々の方法により実行できる。トレーニングモード音声命令は
、「ｔｒａｉｎ」又は「ｌｅａｒｎｗｏｒｄ」といった専用の単語又は語句で
あってもよい。又は、音声エンジンによって認識された発声命令に対応する付属
品の操作がすでに実行されている、任意の発話であってもよい。例えば、室内灯
が既に点灯している場合に、音声エンジンが、発話語句を「ｄｏｍｅｌｉｇｈ
ｔｏｎ」と認識すると、このことを誤認識エラーと解釈してトレーニングモー
ドに入ることができる。更に、トレーニングモード入力は、「ｄｏｍｅｌｉｇ
ｈｔｏｎ・・・ｄｏｍｅｌｉｇｈｔｏｎ」のような、連続して繰り返
される発話であってもよい。反復語句は、通常は連続して発せられない選択され
た音声命令のみ、及び／又は所望の付属品の操作が既に実行されているときにの
み、トレーニングモードと判断できる。

【００１３】別の態様において、本発明の方法は、Ｎベスト命令セットにおける自動車命令
の各々に対する適合確率加重の割当を含む。好ましくは、Ｎベスト自動車命令の
１つは、最も高い適合確率加重を有し、この場合、話者が、正確な自動車命令と
して最も高い適合確率の命令を選択しない場合にのみ適合が実行される。

【００１４】従って、本発明は、話者の音声特性に応じた特定の音声命令を認識するように
音声エンジンを選択的に適合させる、簡単かつ迅速な方法を提供する。意図した
又は正確な音声命令に対する発話の相関関係に応じた音声エンジンの適合によっ
て、本方法は、話者が、特定の音声命令の誤認識を訂正できるようにする。更に
、本方法は、すでに発話されている発声に対して音声エンジンを適合させるので
、話者が多数のレーニング命令プロンプトに返答することを要求する、長い繰返
しルーチンの必要性を排除できる。本発明の前述及び他の利点は、以下の好適な実施形態の記載から明らかになる
はずである。

【００１５】（発明を実施するための最良の形態）図１を参照すると、自動車１０は、客室１２、ステアリングホイール１４、計
器パネル／ダッシュボード１６、及び再生装置とスピーカー（図示せず）を有す
るオーディオシステム１８（図２を参照）を含む。図１及び図２を参照すると、
計器パネル１６は、メインプロセッサ２０、メインメモリ２２、入出力（Ｉ／Ｏ
）モジュール２４、ユーザーインターフェース２６、及び音声制御システム（Ｖ
ＣＳ）モジュール３０を有する中央制御ユニット１９を含むことが好ましい。中
央制御装置１９は、運転者と前部座席乗員（図示せず）による操作のための適切
な位置にあることが好ましい。適切なシリコンチップであることが好ましいメイ
ンメモリ２２は、メインプロセッサ２０の作動と中央制御装置１９の他の構成要
素の処理を制御するためのオペレーティングシステム３２を提供するプログラミ
ングを含む。このメインプロセッサ２０は、本技術分野では公知の任意の適切な
マイクロプロセッサチップであってもよい。

【００１６】ユーザーインターフェース２６は、表示装置３４及びマイクロホン３６を含む
。また、室内の種々の場所に着席した車両搭乗者からの命令を上手く受け取るた
めに、追加的な補助マイクロホン３８を客室内の種々の場所に配置してもよい。
例えば、補助マイクロホン３８（図１）は、ステアリングホイール１４や、前部
及び後部の乗員アームレスト（図示せず）に取り付けることができる。

【００１７】また、ユーザーインターフェース２６は、制御ボタン４０を含み、これは付属
品４２、４４、及び４６等の車両付属品を操作するためのものを含む。これらの
制御ボタン４０は、種々の制御操作を実行するように構成変更又はプログラム変
更が可能な多機能ボタンであってもよい。例えば、補助制御８２は、以下に説明
するように、トレーニングモード入力装置として使用できる。ユーザーインター
フェース２６は、好ましくはＩ／Ｏモジュール２４及び車両ネットワークバス４
８を経由して車両付属品に接続する。ユーザーインターフェース２６は、各々の
付属品に関連する全ての制御可能機能パラメータの調整を可能にする。車両付属
品は、空調制御、時計、内部及び外部照明、オーディオシステム１８、バックミ
ラー、ドアロック、シート及びウィンドウ制御、及びナビゲーションシステム等
の任意の電力が供給される装置であってもよい。

【００１８】ユーザーインターフェース２６は、マイクロホン３６を経由する音声信号と制
御ボタン４０からの制御信号とを受信すると同時に、使用者に表示及び音声信号
を送信するために、メインプロセッサ２０に接続している。図２は、ユーザーイ
ンターフェース２６及びＶＣＳモジュール３０を中央制御装置１９の一部として
示しているが、これらの構成部品は全て、直接的に又は車両ネットワークバス４
８を経由して接続される別個の装置であってよいことに留意されたい。

【００１９】ＶＣＳモジュール３０は、音声プロセッサ５０及びメモリ５２を含む。音声プ
ロセッサは、任意の数の適切なマイクロプロセッシングチップであってもよく、
メモリは任意の適切な電子記憶素子であってもよい。本発明を実行するのに適切
な音声エンジン５４及びアダプタ５６を提供するソフトウエアプログラミングは
、ＶＣＳメモリ５２に格納されている。音声エンジン５４は、１つ又はそれ以上
の命令及び制御文法（ＣＣＧ）セットを含む。ＣＣＧセットは、車両付属品の機
能を制御するための公知の自動車関連音声命令リストを含む。従って、例えば、
ＣＣＧセットは、マップガイダンス、目的地入力、表示命令、及びナビゲーショ
ン設定に関する種々のメニューへアクセスするための、ナビゲーションユニット
で実行可能な命令を含むことができる。更に、命令は、テキスト音声アルゴリズ
ムに応じて処理でき、制御される付属品の機能又は状態に関して乗員へ音声フィ
ードバックを与えるための車両オーディオシステム１８に送信される、合成音声
メッセージであってもよい。もしくは、予め記録された音声ファイルは、ユーザ
フィードバックのために処理して可聴的に出力してもよい。

【００２０】命令の異なるセットを含む１つ又はそれ以上の多重ＣＣＧセットは、異なる付
属品又は付属品機能を種々の車両乗員によって音声駆動できるようにアクティブ
にできる。例えば、運転者がバックミラーを調整可能にするバックミラー調整命
令を有する運転者ＣＣＧセットは、アクティブにできるが、アクティブな乗員文
法セットはこのような命令を含まなくてもよい。

【００２１】本技術分野で公知の任意の数の異なる形式の文法構造を使用できる。例えば、
音声命令は、温度、音量、速度、及び窓や座席の位置といった調整用パラメータ
を識別するキータームを含むことができ、もしくは、音声命令は、メニューシス
テムで構成してもよく、音声命令は、制御する付属品、これに続く機能パラメー
タの表現である。この差違の例は、キーワードに従うシステムにおいて窓を下げ
るための典型的な音声命令は「ｌｏｗｅｒｗｉｎｄｏｗ」であるが、メニュー
に従うシステムにおいては、対応する音声命令は「ｗｉｎｄｏｗ−ｄｏｗｎ」で
ある。本発明は、これらのいずれか、両方、又は他の公知の音声命令構造で音声
命令を構成及び識別するのに利用できる。

【００２２】以下に本発明に使用可能な音声エンジン・アーキテクチャの１つの実施形態を
説明する。一般的に、音声エンジン５４は、発話音を認識して、付属品４２、４
４、及び４６等の音声駆動車両付属品を制御するための対応する命令を伝達する
音声認識技術を使用する。音声プロセッサ５０は、マイクロホン３６からのデジ
タル化音声信号を受信する。音声エンジン５４の制御のもとに、音声プロセッサ
５０は、音声エンジン認識アルゴリズムを用いてデジタル化音声信号を解析して
、アクティブな文法セットに含まれる対応する音声命令を識別する。

【００２３】詳細には、図３を参照すると、信号／データ変換ブロック５８において、音声
プロセッサは、認識アルゴリズムを使用して、デジタル化音声信号を別の形式に
変換する。別の形式としては、スペクトル特性を示すものを挙げることができる
。信号／データ変換ブロック５８は、音声認識処理の次の段階に使用できる、音
声信号の新しい表現を生成する。モデル化ブロック６０において、モデル化アル
ゴリズムは、話者に依存しない音響モデルや他の公知の語彙及び言語モデルを音
声信号に付加することによって更に音声信号を処理するのに使用される。最後に
、検索ブロック６２において、検索アルゴリズムは、音声プロセッサ５０を音声
信号に対応する最も可能性が高い命令に導くために使用される。検索アルゴリズ
ムは、単一の最もよく適合する命令又はＣＣＧセットのＮベスト適合命令セット
を識別できる。Ｎベスト技術を用いて、最も可能性が高い命令セットを生成して
、各々に適合確率加重を割当てることが好ましい。

【００２４】図２を参照すると、適合命令を識別するとプロセッサ２０、５０は、Ｉ／Ｏモ
ジュール２４を介して、所望のタスクを実行する関連の付属品へ命令を出力する
。１つの例としては、前述の処理は、運転者が客室温度を上げるための「ｔｅｍ
ｐｅｒａｒｕｒｅｕｐ」といった音声命令を発することによって音声駆動空調
システムを制御するのに使用できる。

【００２５】音声プロセッサ５０は、運転者又は乗員である話者が音声命令を発した際に、
前述の処理を自動的に実行できる。もしくは、付属品を音声によって駆動するた
めに、オペレーティングシステム３２は、音声プロセッサ５０がユーザーインタ
ーフェース２６を経由して制御ボタン４０からの会話制御信号を受信することを
要求するようプログラムすることができ、音声信号を受信して処理する「聴取」
期間を呼び出す。いずれの場合においても、通常の操作のもとでは、音声エンジ
ンアダプター５６はトレーニングモード入力が受信されるまでは作動しない。

【００２６】図４に示す典型的な従来技術によれば、話者６４によるトレーニングモード入
力は、音声エンジン５４全体を話者６４の音声特性に適合させるための記憶され
たトレーニングルーチンを開始させる。図４を参照すると、トレーニングルーチ
ンは、音声エンジン５４をトレーニングするのに用いる公知の命令を選択するト
レーニング命令ジェネレーター６６から開始する。命令は、不規則に発生しても
よく、あるいは、１つ又はそれ以上のアクティブな文法セットの音声構造の代表
的なサンプリングを提供する指示命令セットであってもよい。トレーニング命令
プロンプター６８は、最初に発生された命令を受信して話者６４に命令を出力し
、その命令を話者が発声するよう指示する。命令は、本技術分野では公知の音声
エンジン５４のテキスト音声アルゴリズム又は予め記録された音声ファイルを使
用して、車両のオーディオシステム１８等のスピーカーを介して可聴的に出力で
き、又は表示装置３４を使用して視覚的に出力できる。命令プロンプトに応答し
て、話者６４はその命令を発音し、音声エンジンを用いて受信され処理される。
この処理は、複数回、典型的には２０−４０回繰り返され、主としてアクティブ
な文法中の公知の音声命令の量と音声の不一致に依存する。新しいトレーニング
命令毎に、話者６４は可聴的に命令をオウム返しすることを指示される。生成さ
れた各々のトレーニング命令を受信して処理すると、システムトレーナー７０は
、話者６４の特有の音声特性に応じて、音響モデルセットと必要に応じて他の公
知の認識パラメータセットの全体を、話者６４の返答の各々の音響特性及び発音
特性に対する各々のトレーニング命令の相関関係を用いて調整する。この多重反
復処理は、非常に長くなり、しばしば２０分かかることもあり、更に、話者６４
は非常に多くの注意を向ける必要がある。従って、この方法は自動車１０の運転
者が使用するのには適していない。

【００２７】本発明によれば、選択的に音声エンジン５４を適合させて、特定の話者６４の
音声特性に基づく特定の音声命令を認識するようになった、簡単かつ迅速な方法
が図５のブロック図に示されている。図示のように、話者の命令入力とＮベスト
適合リスト７４の選択とを表す音声信号の相関関係を用いる命令アダプタ７２に
よって音声エンジン５４を適合させる。図示のように、本方法は、話者が多数の
トレーニング命令プロンプトへ返答することを必要とする、別個のトレーニング
ルーチンに対する必要性を排除する。更に、本方法は、特定の命令に対してのみ
、音声エンジン５４を話者６４の音声特性に適合させるように設計された適合ア
ルゴリズムを有する「命令アダプタ」を含む。対照的に、図４の従来技術による
方法では、話者の音声特性に適合させるために、音声エンジン認識パラメータの
全体のセットを修正する、システムトレーナー７０のアルゴリズムを使用してい
る。従って、従来技術の方法が、音声エンジン全体の適合をもたらすのに対して
、本発明の方法は、特定の音声命令についての話者が選択した適合である。従来
技術の方法は、音声エンジン５４を話者６４の音声特性に広く適合させるが、本
発明は、従来技術の方法では認識できないままになっていることもある、特定の
誤認識音声命令を話者が訂正できるようにする。本発明は、前記の従来技術の方
法による音声エンジンに対する粗い修正の微調整を提供するのに使用できること
に留意されたい。

【００２８】図２及び図６を参照すると、本発明の選択的適合処理を実行するのに好適な方
法が説明されている。ステップ７６で、音声プロセッサ５０は、発話音声命令を
表す音声信号を受信して処理する。次に、ステップ７８で、音声エンジン５４は
、前述の音声認識技術を用いて、音声信号に最もよく適合するアクティブなＣＣ
Ｇセット、即ちＮベスト適合からの音声命令セットをコンパイルする。

【００２９】次に、音声プロセッサ５０は、決定ブロック８０において話者からのトレーニ
ングモードについてチェックする。このステップはステップ７８の前に実行でき
るので、話者が音声エンジン５４を適合させようと望む場合にのみ、Ｎベストリ
ストが生成される。しかし、前述のように、音声エンジン認識アルゴリズムは、
適合命令を確認する一環としてＮベスト技術を含むことが多く、この場合、本ス
テップは、付加的な処理なしに通常の動作のもとで実行される。

【００３０】トレーニングモード入力は、トレーニングモード制御ボタン８２（図１）の操
作とトレーニングモード音声命令の発声を含む、種々の方法で実行できる。トレ
ーニングモード音声命令は、「ｔｒａｉｎ」又は「ｌｅａｒｎｗｏｒｄ」とい
った専用の単語又は語句であってもよい。又は、任意の発話であってもよく、こ
の場合、音声エンジン５４によって認識された発声命令に対応する付属品の操作
がすでに実行されている。例えば、室内灯が既に点灯している場合に、音声エン
ジン５４が、発話語句を「ｄｏｍｅｌｉｇｈｔｏｎ」と認識すると、このこ
とを誤認識エラーと解釈してトレーニングモードに入ることができる。更に、ト
レーニングモード入力は、「ｄｏｍｅｌｉｇｈｔｏｎ・・・ｄｏｍｅ
ｌｉｇｈｔｏｎ」のような、連続して繰り返される発話であってもよい。反復
語句は、通常は連続して発せられない選択された音声命令のみ、及び／又は所望
の付属品の操作が既に実行されているときにのみ、トレーニングモードと判断で
きる。

【００３１】好ましくは、トレーニングモードの要求が入力されない場合、プロセッサ２０
、５０は、ステップ８４で、Ｉ／Ｏモジュール２４を経由して適合音声命令を関
連の付属品に対して出力し、付属品を所望通り作動させて、対応するタスクを実
行する。トレーニングモードの要求が入力されると、プロセッサ２０、５０は、
ステップ８６で、ユーザーインターフェース２６にＮベスト適合リストを出力す
る。Ｎベスト適合リストは、話者に車両オーディオシステム１８によって可聴的
に、又は表示装置３４に視覚的に示すことができる。いずれの場合も、話者は、
リストアップされたＮベスト適合の１つを意図する音声命令として選択するよう
指示される。

【００３２】音声エンジン５４は、Ｎベスト適合リスト中に、話者が実行するつもりの音声
命令を識別できない可能性がある。この場合、ステップ８６で、ユーザーは命令
を再発声するよう視覚的に又は可聴的に指示され得る。追加的に又は別の方法で
、話者は、アクティブな又は任意のＣＣＧセット中の全ての音声命令リストから
命令を選択するよう指示され得る。

【００３３】ステップ８８で、話者は意図する音声命令を選択する。入力は、制御ボタン４
０の１つによる接触入力又は音声入力であってもよい。音声入力は、Ｎベスト適
合リスト中の各々の命令に割当てられた選択識別名の発声を含むことが好ましい
。例えば、使用者は、例えば、意図した命令として最初にリストアップされた適
合命令を選択するには「１」又は「ａ」と、２番目にリストアップされた命令に
ついては「２」又は「ｂ」と発声するよう指示され得る。

【００３４】好ましくは、話者が一度Ｎベスト適合リストから命令を選択すると、プロセッ
サ２０は、選択命令が最も高い適合確率加重を有しているか否かを決定できる。
そうであれば、音声エンジン５４は、発話命令を正確に認識しており適合は行な
わない。そうでなければ、ステップ９０で、適合アルゴリズムは、選択命令に対
するステップ７４で受信した音声信号の相関関係を用いて実行される。適合アル
ゴリズムは音声エンジン５４を修正して、ステップ７６で受信した音声信号の音
声パターン及び音声特性を有する音声信号を、選択命令として認識する。このこ
とは、音声エンジンモデルの認識パラメータが修正される適合アルゴリズムを用
いて達成できる。これらのパラメータは、公知の各々の音声命令に関するＶＣＳ
メモリ５２に記憶される音響波形モデルを含むことができ、適合アルゴリズムは
、関連する命令についてのアクティブなモデルを、ステップ７６で受信した音声
信号の音響特性に置き換えることができる。もしくは、認識パラメータは、関連
する命令についての音声分類セットを含むことができ、これはステップ７６で受
信した音声信号に応じて修正される。

【００３５】最後に、ステップ８４で、プロセッサ２０、５０は、関連する付属品へ選択命
令を出力してタスクが実行される。

【００３６】本発明は、前述の好適な実施形態で詳細に説明されていない他の態様を含むこ
とができる。前述の内容は、本発明の範囲を限定するものではない。従って、本
発明の全範囲は請求項を参照することで見出せる。

【図面の簡単な説明】

【図１】車両付属品の制御のための音声認識システムを有する自動車の計器パネルの部
分正面図である。

【図２】図１の車内音声認識システムのブロック図であり、本発明の選択的話者適合方
法を利用している。

【図３】図２の音声認識システムにおいて使用するための、音声エンジン・アーキテク
チャのブロック図である。

【図４】反復トレーニング手順に基づいて音声エンジンを適合させる従来技術の方法を
示すブロック図であり、話者は、不規則に生成される音声命令又は所定の音声命
令を複数回だけ発話するよう指示される。

【図５】話者が語句を発声してＮベスト適合命令リストから意図する命令を選択するこ
とによって、音声エンジンを選択的に適合させる方法を示すブロック図である。

【図６】本発明の選択的話者適合方法を実行するための好適な実施形態を示すフローチ
ャートである。

───────────────────────────────────────────────────── フロントページの続き (72)発明者トンプソンスコットアランアメリカ合衆国ミシガン州 48187 キャントンボッツフォードコート 6259 Ｆターム(参考） 5D015 KK01

Claims

【特許請求の範囲】

【請求項１】車両付属品を音声で操作するための車載音声認識システムの
選択的話者適合方法であって、（Ａ）話者に依存する音声特性を有し公知の自動車命令に関連する話者の発話
を受信する段階と、（Ｂ）前記発話を認識パラメータに応じて処理する段階と、（Ｃ）前記処理された発話に適合する公知の自動車命令のＮベストセットを識
別する段階と、（Ｄ）前記Ｎベスト命令セットを前記話者に出力する段階と、（Ｅ）前記Ｎベスト命令セットから正確な自動車命令を選択する話者の入力を
受信する段階と、（Ｆ）前記音声特性を有する発話を前記正確な自動車命令として認識すること
によって、前記認識システムが前記話者に適合するように前記認識パラメータを
調整する段階と、を含むことを特徴とする方法。
【請求項２】前記認識パラメータが音響波形モデルであり、前記発話の音
声特性が話者に依存する音響波形特性であり、前記適合段階（Ｆ）が、前記正確
な自動車命令に関する前記音響波形モデルに対して前記波形特性を相関させる段
階を含むことを特徴とする請求項１に記載の方法。
【請求項３】前記認識パラメータが音声分類セットであり、前記適合段階
（Ｆ）が、前記発話に応じて前記正確な命令に関する前記音声分類セットを変更
する段階を更に含むことを特徴とする請求項１に記載の方法。
【請求項４】前記段階（Ｄ）が、表示装置上へのＮベスト命令セットを表
示する段階を含むことを特徴とする請求項１に記載の方法。
【請求項５】前記段階（Ｄ）が、Ｎベスト命令セットを処理する段階と、
車両オーディオシステムによって前記Ｎ−ベスト命令セットを可聴的に出力する
段階とを含むことを特徴とする請求項１に記載の方法。
【請求項６】前記可聴的に出力されるＮベスト命令セットが、選択識別名
を含み、前記話者選択入力が、前記選択識別名を含む発話であることを特徴とす
る請求項５に記載の方法。
【請求項７】前記話者からのトレーニングモード入力を受信する段階を更
に含み、前記（Ｄ）−（Ｆ）の段階が、前記トレーニングモード入力が受信され
た場合にのみ実行されることを特徴とする請求項１に記載の方法。
【請求項８】前記トレーニングモード入力が、トレーニングモード音声命
令の１つ及び接触スイッチであることを特徴とする請求項７に記載の方法。
【請求項９】前記トレーニングモード音声命令が、反復発話であることを
特徴とする請求項８に記載の方法。
【請求項１０】前記反復発話が、所望の付属品の操作が既に実行されてい
る場合にのみ、前記トレーニングモードとして認識されることを特徴とする請求
項９に記載の方法。
【請求項１１】前記識別段階（Ｃ）が、前記Ｎベスト命令セット内の前記
公知の自動車命令の各々に対する適合確率加重を割当てる段階を含むことを特徴
とする請求項１に記載の方法。
【請求項１２】前記Ｎ−ベスト命令セット中の前記自動車命令の１つが最
も高い適合確率加重を有し、前記話者が、前記正確な自動車命令として前記最も
高い適合確率の命令を選択しなかった場合にのみ、前記適合段階（Ｆ）を実行す
ることを特徴とする請求項９に記載の方法。
【請求項１３】前記正確な自動車命令に対応する付属品の操作を実行する
段階を更に備えることを特徴とする請求項１に記載の方法。
【請求項１４】前記Ｎベスト命令セットが、少なくとも３つの公知の自動
車命令を備えることを特徴とする請求項１に記載の方法。