JP2003532163A - 車載音声認識システムのための選択的話者適合方法 - Google Patents
車載音声認識システムのための選択的話者適合方法Info
- Publication number
- JP2003532163A JP2003532163A JP2001581271A JP2001581271A JP2003532163A JP 2003532163 A JP2003532163 A JP 2003532163A JP 2001581271 A JP2001581271 A JP 2001581271A JP 2001581271 A JP2001581271 A JP 2001581271A JP 2003532163 A JP2003532163 A JP 2003532163A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- command
- vehicle
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000006978 adaptation Effects 0.000 title claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 14
- 230000004044 response Effects 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000003252 repetitive effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000004378 air conditioning Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 241000287531 Psittacidae Species 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 241000269400 Sirenidae Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000001343 mnemonic effect Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
(57)【要約】
車載音声認識システムの認識精度を向上させる方法を開示する。本発明の方法は、Nベスト適合技術を使用して、システムの音声エンジンを話者の音声特性に適合させる。本方法において、音声認識システムは、自動車命令に関連し特定の話者の音声特性を有する発話を受信して処理し(76)、発話に適合するNベスト音声命令セットを選択する(78)。話者からのトレーニングモード入力を受信すると、システムは、Nベスト命令セットを話者に出力し(86)、話者は正確な命令を選択する。次に、システムは、受信した音声特性を有する発話がユーザーにより選択された自動車命令として認識されるように音声エンジンを適合させる(90)。
Description
【0001】
(技術分野)
本発明は音声認識システムに関し、より詳細には、車載音声認識システムを選
択的にトレーニングして個々の話者の音声特性に適合するようにする方法に関す
る。
択的にトレーニングして個々の話者の音声特性に適合するようにする方法に関す
る。
【0002】
(背景技術)
自動車に搭載された音声認識システムは、運転者及び乗員が、音声命令に対応
した単語又は語句を発声することによって種々の車両機能を制御することを可能
にする。車内に置かれた1つあるいはそれ以上のマイクロホンは、発声された単
語又は語句を表す音声信号を受け取る。種々の音響及び言語モデル化技術を使用
する音声エンジン認識アルゴリズムは、音声信号を処理して、1つ又はそれ以上
の記憶された命令文法セットに含まれる、適合する音声命令を識別するために用
いられる。音声命令は、パワーウィンド、ロック及び空調制御装置等の、任意の
数の車両機能及び付属品を操作するための適切な制御手段に送られる。
した単語又は語句を発声することによって種々の車両機能を制御することを可能
にする。車内に置かれた1つあるいはそれ以上のマイクロホンは、発声された単
語又は語句を表す音声信号を受け取る。種々の音響及び言語モデル化技術を使用
する音声エンジン認識アルゴリズムは、音声信号を処理して、1つ又はそれ以上
の記憶された命令文法セットに含まれる、適合する音声命令を識別するために用
いられる。音声命令は、パワーウィンド、ロック及び空調制御装置等の、任意の
数の車両機能及び付属品を操作するための適切な制御手段に送られる。
【0003】
音声認識システムの有効性は、主として認識精度、即ちシステムが音声命令を
発語に正確に適合させるか否かに基づいて評価される。一般的に、音声認識では
、個々の話者の発音癖、方言及び口調といった音声/発音特性の広範な変化が困
難な問題を引き起こす。特に、車載音声認識システムでは、車両に多くの乗員が
搭乗することになるのでこの問題が顕著になる。さらに、車室内の音響特性は、
エンジンノイズ、通過車両及びサイレン等の道路ノイズのみならず、音声認識を
特に難しくする風雨や雷等の天候条件により変化することもある。
発語に正確に適合させるか否かに基づいて評価される。一般的に、音声認識では
、個々の話者の発音癖、方言及び口調といった音声/発音特性の広範な変化が困
難な問題を引き起こす。特に、車載音声認識システムでは、車両に多くの乗員が
搭乗することになるのでこの問題が顕著になる。さらに、車室内の音響特性は、
エンジンノイズ、通過車両及びサイレン等の道路ノイズのみならず、音声認識を
特に難しくする風雨や雷等の天候条件により変化することもある。
【0004】
一般的に、音響、語彙及び言語モデルは、音声エンジンに含まれており、可能
性のある単語の検索区域を縮小することによって認識処理を助け、類似音の単語
及び語句の間の不明確性を取り除くようになっている。これらのモデルは、どち
らかと言えば統計学に基づいたシステムであり種々の形態で提供され得る。音響
モデルは、各々の命令に対応する音響特性又は音声信号の波形モデルを含むこと
ができる。語彙及び言語モデルは、一般的に命令語選択及び文法的構造に関して
音声エンジンに指示するアルゴリズムを含むことができる。例えば、単純な言語
モデルは、有限状態のネットワークとして特定でき、各々の単語に続く許容単語
を系統的に与える。しかし、より複雑で、文脈を規定した言語モデルも存在する
。
性のある単語の検索区域を縮小することによって認識処理を助け、類似音の単語
及び語句の間の不明確性を取り除くようになっている。これらのモデルは、どち
らかと言えば統計学に基づいたシステムであり種々の形態で提供され得る。音響
モデルは、各々の命令に対応する音響特性又は音声信号の波形モデルを含むこと
ができる。語彙及び言語モデルは、一般的に命令語選択及び文法的構造に関して
音声エンジンに指示するアルゴリズムを含むことができる。例えば、単純な言語
モデルは、有限状態のネットワークとして特定でき、各々の単語に続く許容単語
を系統的に与える。しかし、より複雑で、文脈を規定した言語モデルも存在する
。
【0005】
認識精度を改善するために、従来型の車載音声認識システムは、トレーニング
ルーチンを実行することによってこれらのモデルを話者の音声特性に適合させる
ことを可能にしている。一般的に、このようなトレーニングルーチンは、話者が
システムにトレーニングモードに入るように指示することにより開始される。
ルーチンを実行することによってこれらのモデルを話者の音声特性に適合させる
ことを可能にしている。一般的に、このようなトレーニングルーチンは、話者が
システムにトレーニングモードに入るように指示することにより開始される。
【0006】
システムは、話者に対して多数の所定の又は不規則な音声命令を教えて、話者
に各々の命令を発声するよう指示する。システムは、発声された単語の、対応す
る音声命令に関するモデルからの変動に基づいて命令の全セットを適合させる。
しかし、音声命令の全セットを適合させるので、システムに話者の音声特性の十
分なサンプリングをもたらすには相当数の反復を必要とする。典型的に、このよ
うなトレーニングルーチンは、少なくとも20から40回の命令プロンプト及び
返答反復を含む。
に各々の命令を発声するよう指示する。システムは、発声された単語の、対応す
る音声命令に関するモデルからの変動に基づいて命令の全セットを適合させる。
しかし、音声命令の全セットを適合させるので、システムに話者の音声特性の十
分なサンプリングをもたらすには相当数の反復を必要とする。典型的に、このよ
うなトレーニングルーチンは、少なくとも20から40回の命令プロンプト及び
返答反復を含む。
【0007】
前記の技術は、多数のトレーニング命令入力の反復が原因で、使用者にとって
は不便であり時間を要するものである。トレーニングルーチンは、特に運転者を
散漫にする場合があるので、運転者に対して運転中にルーチンを実行することは
不適切である。更に、前記の技術は、繰り返して誤認識される、特に問題のある
単語の訂正については有効でない場合もある。これは前記の技術が、所定の話者
の発音特性に対して音声認識システムを大まかに調整するように設計されている
ためである。 従って、車載音声認識システムを、間違って認識された音声命令を訂正するよ
うに適合させる、簡単かつ有効な技術に対しての要求がある。
は不便であり時間を要するものである。トレーニングルーチンは、特に運転者を
散漫にする場合があるので、運転者に対して運転中にルーチンを実行することは
不適切である。更に、前記の技術は、繰り返して誤認識される、特に問題のある
単語の訂正については有効でない場合もある。これは前記の技術が、所定の話者
の発音特性に対して音声認識システムを大まかに調整するように設計されている
ためである。 従って、車載音声認識システムを、間違って認識された音声命令を訂正するよ
うに適合させる、簡単かつ有効な技術に対しての要求がある。
【0008】
(発明の開示)
本発明は、音声認識システムの音声エンジンを必要に応じて話者の音声特性に
適合させて、特定の音声命令と、対象の特定の問題のある単語又は語句とを認識
することによって、音声認識システムの認識精度を向上させるための方法を提供
する。本方法は、Nベスト適合技術を用いて、発話に最も密接に適合する公知の
自動車命令リストを提供する。話者がNベスト適合から意図する又は正確な自動
車命令を選択する際に、必要に応じて音声エンジンを適合させるために発話が用
いられ、この自動車命令を自動的に認識する。
適合させて、特定の音声命令と、対象の特定の問題のある単語又は語句とを認識
することによって、音声認識システムの認識精度を向上させるための方法を提供
する。本方法は、Nベスト適合技術を用いて、発話に最も密接に適合する公知の
自動車命令リストを提供する。話者がNベスト適合から意図する又は正確な自動
車命令を選択する際に、必要に応じて音声エンジンを適合させるために発話が用
いられ、この自動車命令を自動的に認識する。
【0009】
詳細には、本発明は、車両付属品を音声で操作するための車載音声認識システ
ムの選択的話者適合方法である。この方法は、話者に依存する音声特性を有し公
知の自動車命令に関連する話者の発話を受信する段階と、発話を認識パラメータ
に応じて処理する段階と、処理された発話に適合する公知の自動車命令のNベス
トセットを識別する段階と、Nベスト命令セットを話者に出力する段階と、Nベ
スト命令セットから正確な自動車命令を選択する話者の入力を受信する段階と、
音声特性を有する発話を正確な自動車命令として認識することによって認識シス
テムが話者に適合するように、認識パラメータを調整する段階とを含む。この方
法は、正確な自動車命令に対応する付属品の操作の実行を更に含む。
ムの選択的話者適合方法である。この方法は、話者に依存する音声特性を有し公
知の自動車命令に関連する話者の発話を受信する段階と、発話を認識パラメータ
に応じて処理する段階と、処理された発話に適合する公知の自動車命令のNベス
トセットを識別する段階と、Nベスト命令セットを話者に出力する段階と、Nベ
スト命令セットから正確な自動車命令を選択する話者の入力を受信する段階と、
音声特性を有する発話を正確な自動車命令として認識することによって認識シス
テムが話者に適合するように、認識パラメータを調整する段階とを含む。この方
法は、正確な自動車命令に対応する付属品の操作の実行を更に含む。
【0010】
本発明の1つの態様においては、認識パラメータは音響波形モデルであり、発
話の音声特性は話者に依存する音響特性を含む。この場合、音声エンジンは、正
確な自動車命令の波形モデルの代わりにこの音響特性を用いることによって適合
される。もしくは、認識パラメータは発音分類セットであり、音声エンジンは、
発話の音声特性に応じて正確な自動車命令に関する発音分類セットを変更するこ
とによって適合される。
話の音声特性は話者に依存する音響特性を含む。この場合、音声エンジンは、正
確な自動車命令の波形モデルの代わりにこの音響特性を用いることによって適合
される。もしくは、認識パラメータは発音分類セットであり、音声エンジンは、
発話の音声特性に応じて正確な自動車命令に関する発音分類セットを変更するこ
とによって適合される。
【0011】
本発明の他の態様においては、Nベスト命令セットは、計器パネルの表示装置
に表示してもよく、話者の選択入力は入力装置によって行われる。もしくは、N
ベスト命令セットは、テキスト音声アルゴリズム、及び/又は、予め記録された
音声ファイルを処理することによって、車両オーディオ装置のスピーカーから可
聴的に出力してもよい。この場合、可聴的な出力は、話者が選択入力として発声
できる、各々のNベスト命令に関する識別名を含む。
に表示してもよく、話者の選択入力は入力装置によって行われる。もしくは、N
ベスト命令セットは、テキスト音声アルゴリズム、及び/又は、予め記録された
音声ファイルを処理することによって、車両オーディオ装置のスピーカーから可
聴的に出力してもよい。この場合、可聴的な出力は、話者が選択入力として発声
できる、各々のNベスト命令に関する識別名を含む。
【0012】
他の態様においては、本発明の方法は、話者からのトレーニングモード入力を
受信することを含み、トレーニングモード入力を受信した場合にのみ、出力、選
択、及び適合の各々の段階が実行される。トレーニングモードの入力は、トレー
ニングモード制御ボタンを操作すること、又はトレーニングモード音声命令を発
することを含む、種々の方法により実行できる。トレーニングモード音声命令は
、「train」又は「learn word」といった専用の単語又は語句で
あってもよい。又は、音声エンジンによって認識された発声命令に対応する付属
品の操作がすでに実行されている、任意の発話であってもよい。例えば、室内灯
が既に点灯している場合に、音声エンジンが、発話語句を「dome ligh
t on」と認識すると、このことを誤認識エラーと解釈してトレーニングモー
ドに入ることができる。更に、トレーニングモード入力は、「dome lig
ht on ・・・ dome light on」のような、連続して繰り返
される発話であってもよい。反復語句は、通常は連続して発せられない選択され
た音声命令のみ、及び/又は所望の付属品の操作が既に実行されているときにの
み、トレーニングモードと判断できる。
受信することを含み、トレーニングモード入力を受信した場合にのみ、出力、選
択、及び適合の各々の段階が実行される。トレーニングモードの入力は、トレー
ニングモード制御ボタンを操作すること、又はトレーニングモード音声命令を発
することを含む、種々の方法により実行できる。トレーニングモード音声命令は
、「train」又は「learn word」といった専用の単語又は語句で
あってもよい。又は、音声エンジンによって認識された発声命令に対応する付属
品の操作がすでに実行されている、任意の発話であってもよい。例えば、室内灯
が既に点灯している場合に、音声エンジンが、発話語句を「dome ligh
t on」と認識すると、このことを誤認識エラーと解釈してトレーニングモー
ドに入ることができる。更に、トレーニングモード入力は、「dome lig
ht on ・・・ dome light on」のような、連続して繰り返
される発話であってもよい。反復語句は、通常は連続して発せられない選択され
た音声命令のみ、及び/又は所望の付属品の操作が既に実行されているときにの
み、トレーニングモードと判断できる。
【0013】
別の態様において、本発明の方法は、Nベスト命令セットにおける自動車命令
の各々に対する適合確率加重の割当を含む。好ましくは、Nベスト自動車命令の
1つは、最も高い適合確率加重を有し、この場合、話者が、正確な自動車命令と
して最も高い適合確率の命令を選択しない場合にのみ適合が実行される。
の各々に対する適合確率加重の割当を含む。好ましくは、Nベスト自動車命令の
1つは、最も高い適合確率加重を有し、この場合、話者が、正確な自動車命令と
して最も高い適合確率の命令を選択しない場合にのみ適合が実行される。
【0014】
従って、本発明は、話者の音声特性に応じた特定の音声命令を認識するように
音声エンジンを選択的に適合させる、簡単かつ迅速な方法を提供する。意図した
又は正確な音声命令に対する発話の相関関係に応じた音声エンジンの適合によっ
て、本方法は、話者が、特定の音声命令の誤認識を訂正できるようにする。更に
、本方法は、すでに発話されている発声に対して音声エンジンを適合させるので
、話者が多数のレーニング命令プロンプトに返答することを要求する、長い繰返
しルーチンの必要性を排除できる。 本発明の前述及び他の利点は、以下の好適な実施形態の記載から明らかになる
はずである。
音声エンジンを選択的に適合させる、簡単かつ迅速な方法を提供する。意図した
又は正確な音声命令に対する発話の相関関係に応じた音声エンジンの適合によっ
て、本方法は、話者が、特定の音声命令の誤認識を訂正できるようにする。更に
、本方法は、すでに発話されている発声に対して音声エンジンを適合させるので
、話者が多数のレーニング命令プロンプトに返答することを要求する、長い繰返
しルーチンの必要性を排除できる。 本発明の前述及び他の利点は、以下の好適な実施形態の記載から明らかになる
はずである。
【0015】
(発明を実施するための最良の形態)
図1を参照すると、自動車10は、客室12、ステアリングホイール14、計
器パネル/ダッシュボード16、及び再生装置とスピーカー(図示せず)を有す
るオーディオシステム18(図2を参照)を含む。図1及び図2を参照すると、
計器パネル16は、メインプロセッサ20、メインメモリ22、入出力(I/O
)モジュール24、ユーザーインターフェース26、及び音声制御システム(V
CS)モジュール30を有する中央制御ユニット19を含むことが好ましい。中
央制御装置19は、運転者と前部座席乗員(図示せず)による操作のための適切
な位置にあることが好ましい。適切なシリコンチップであることが好ましいメイ
ンメモリ22は、メインプロセッサ20の作動と中央制御装置19の他の構成要
素の処理を制御するためのオペレーティングシステム32を提供するプログラミ
ングを含む。このメインプロセッサ20は、本技術分野では公知の任意の適切な
マイクロプロセッサチップであってもよい。
器パネル/ダッシュボード16、及び再生装置とスピーカー(図示せず)を有す
るオーディオシステム18(図2を参照)を含む。図1及び図2を参照すると、
計器パネル16は、メインプロセッサ20、メインメモリ22、入出力(I/O
)モジュール24、ユーザーインターフェース26、及び音声制御システム(V
CS)モジュール30を有する中央制御ユニット19を含むことが好ましい。中
央制御装置19は、運転者と前部座席乗員(図示せず)による操作のための適切
な位置にあることが好ましい。適切なシリコンチップであることが好ましいメイ
ンメモリ22は、メインプロセッサ20の作動と中央制御装置19の他の構成要
素の処理を制御するためのオペレーティングシステム32を提供するプログラミ
ングを含む。このメインプロセッサ20は、本技術分野では公知の任意の適切な
マイクロプロセッサチップであってもよい。
【0016】
ユーザーインターフェース26は、表示装置34及びマイクロホン36を含む
。また、室内の種々の場所に着席した車両搭乗者からの命令を上手く受け取るた
めに、追加的な補助マイクロホン38を客室内の種々の場所に配置してもよい。
例えば、補助マイクロホン38(図1)は、ステアリングホイール14や、前部
及び後部の乗員アームレスト(図示せず)に取り付けることができる。
。また、室内の種々の場所に着席した車両搭乗者からの命令を上手く受け取るた
めに、追加的な補助マイクロホン38を客室内の種々の場所に配置してもよい。
例えば、補助マイクロホン38(図1)は、ステアリングホイール14や、前部
及び後部の乗員アームレスト(図示せず)に取り付けることができる。
【0017】
また、ユーザーインターフェース26は、制御ボタン40を含み、これは付属
品42、44、及び46等の車両付属品を操作するためのものを含む。これらの
制御ボタン40は、種々の制御操作を実行するように構成変更又はプログラム変
更が可能な多機能ボタンであってもよい。例えば、補助制御82は、以下に説明
するように、トレーニングモード入力装置として使用できる。ユーザーインター
フェース26は、好ましくはI/Oモジュール24及び車両ネットワークバス4
8を経由して車両付属品に接続する。ユーザーインターフェース26は、各々の
付属品に関連する全ての制御可能機能パラメータの調整を可能にする。車両付属
品は、空調制御、時計、内部及び外部照明、オーディオシステム18、バックミ
ラー、ドアロック、シート及びウィンドウ制御、及びナビゲーションシステム等
の任意の電力が供給される装置であってもよい。
品42、44、及び46等の車両付属品を操作するためのものを含む。これらの
制御ボタン40は、種々の制御操作を実行するように構成変更又はプログラム変
更が可能な多機能ボタンであってもよい。例えば、補助制御82は、以下に説明
するように、トレーニングモード入力装置として使用できる。ユーザーインター
フェース26は、好ましくはI/Oモジュール24及び車両ネットワークバス4
8を経由して車両付属品に接続する。ユーザーインターフェース26は、各々の
付属品に関連する全ての制御可能機能パラメータの調整を可能にする。車両付属
品は、空調制御、時計、内部及び外部照明、オーディオシステム18、バックミ
ラー、ドアロック、シート及びウィンドウ制御、及びナビゲーションシステム等
の任意の電力が供給される装置であってもよい。
【0018】
ユーザーインターフェース26は、マイクロホン36を経由する音声信号と制
御ボタン40からの制御信号とを受信すると同時に、使用者に表示及び音声信号
を送信するために、メインプロセッサ20に接続している。図2は、ユーザーイ
ンターフェース26及びVCSモジュール30を中央制御装置19の一部として
示しているが、これらの構成部品は全て、直接的に又は車両ネットワークバス4
8を経由して接続される別個の装置であってよいことに留意されたい。
御ボタン40からの制御信号とを受信すると同時に、使用者に表示及び音声信号
を送信するために、メインプロセッサ20に接続している。図2は、ユーザーイ
ンターフェース26及びVCSモジュール30を中央制御装置19の一部として
示しているが、これらの構成部品は全て、直接的に又は車両ネットワークバス4
8を経由して接続される別個の装置であってよいことに留意されたい。
【0019】
VCSモジュール30は、音声プロセッサ50及びメモリ52を含む。音声プ
ロセッサは、任意の数の適切なマイクロプロセッシングチップであってもよく、
メモリは任意の適切な電子記憶素子であってもよい。本発明を実行するのに適切
な音声エンジン54及びアダプタ56を提供するソフトウエアプログラミングは
、VCSメモリ52に格納されている。音声エンジン54は、1つ又はそれ以上
の命令及び制御文法(CCG)セットを含む。CCGセットは、車両付属品の機
能を制御するための公知の自動車関連音声命令リストを含む。従って、例えば、
CCGセットは、マップガイダンス、目的地入力、表示命令、及びナビゲーショ
ン設定に関する種々のメニューへアクセスするための、ナビゲーションユニット
で実行可能な命令を含むことができる。更に、命令は、テキスト音声アルゴリズ
ムに応じて処理でき、制御される付属品の機能又は状態に関して乗員へ音声フィ
ードバックを与えるための車両オーディオシステム18に送信される、合成音声
メッセージであってもよい。もしくは、予め記録された音声ファイルは、ユーザ
フィードバックのために処理して可聴的に出力してもよい。
ロセッサは、任意の数の適切なマイクロプロセッシングチップであってもよく、
メモリは任意の適切な電子記憶素子であってもよい。本発明を実行するのに適切
な音声エンジン54及びアダプタ56を提供するソフトウエアプログラミングは
、VCSメモリ52に格納されている。音声エンジン54は、1つ又はそれ以上
の命令及び制御文法(CCG)セットを含む。CCGセットは、車両付属品の機
能を制御するための公知の自動車関連音声命令リストを含む。従って、例えば、
CCGセットは、マップガイダンス、目的地入力、表示命令、及びナビゲーショ
ン設定に関する種々のメニューへアクセスするための、ナビゲーションユニット
で実行可能な命令を含むことができる。更に、命令は、テキスト音声アルゴリズ
ムに応じて処理でき、制御される付属品の機能又は状態に関して乗員へ音声フィ
ードバックを与えるための車両オーディオシステム18に送信される、合成音声
メッセージであってもよい。もしくは、予め記録された音声ファイルは、ユーザ
フィードバックのために処理して可聴的に出力してもよい。
【0020】
命令の異なるセットを含む1つ又はそれ以上の多重CCGセットは、異なる付
属品又は付属品機能を種々の車両乗員によって音声駆動できるようにアクティブ
にできる。例えば、運転者がバックミラーを調整可能にするバックミラー調整命
令を有する運転者CCGセットは、アクティブにできるが、アクティブな乗員文
法セットはこのような命令を含まなくてもよい。
属品又は付属品機能を種々の車両乗員によって音声駆動できるようにアクティブ
にできる。例えば、運転者がバックミラーを調整可能にするバックミラー調整命
令を有する運転者CCGセットは、アクティブにできるが、アクティブな乗員文
法セットはこのような命令を含まなくてもよい。
【0021】
本技術分野で公知の任意の数の異なる形式の文法構造を使用できる。例えば、
音声命令は、温度、音量、速度、及び窓や座席の位置といった調整用パラメータ
を識別するキータームを含むことができ、もしくは、音声命令は、メニューシス
テムで構成してもよく、音声命令は、制御する付属品、これに続く機能パラメー
タの表現である。この差違の例は、キーワードに従うシステムにおいて窓を下げ
るための典型的な音声命令は「lower window」であるが、メニュー
に従うシステムにおいては、対応する音声命令は「window−down」で
ある。本発明は、これらのいずれか、両方、又は他の公知の音声命令構造で音声
命令を構成及び識別するのに利用できる。
音声命令は、温度、音量、速度、及び窓や座席の位置といった調整用パラメータ
を識別するキータームを含むことができ、もしくは、音声命令は、メニューシス
テムで構成してもよく、音声命令は、制御する付属品、これに続く機能パラメー
タの表現である。この差違の例は、キーワードに従うシステムにおいて窓を下げ
るための典型的な音声命令は「lower window」であるが、メニュー
に従うシステムにおいては、対応する音声命令は「window−down」で
ある。本発明は、これらのいずれか、両方、又は他の公知の音声命令構造で音声
命令を構成及び識別するのに利用できる。
【0022】
以下に本発明に使用可能な音声エンジン・アーキテクチャの1つの実施形態を
説明する。一般的に、音声エンジン54は、発話音を認識して、付属品42、4
4、及び46等の音声駆動車両付属品を制御するための対応する命令を伝達する
音声認識技術を使用する。音声プロセッサ50は、マイクロホン36からのデジ
タル化音声信号を受信する。音声エンジン54の制御のもとに、音声プロセッサ
50は、音声エンジン認識アルゴリズムを用いてデジタル化音声信号を解析して
、アクティブな文法セットに含まれる対応する音声命令を識別する。
説明する。一般的に、音声エンジン54は、発話音を認識して、付属品42、4
4、及び46等の音声駆動車両付属品を制御するための対応する命令を伝達する
音声認識技術を使用する。音声プロセッサ50は、マイクロホン36からのデジ
タル化音声信号を受信する。音声エンジン54の制御のもとに、音声プロセッサ
50は、音声エンジン認識アルゴリズムを用いてデジタル化音声信号を解析して
、アクティブな文法セットに含まれる対応する音声命令を識別する。
【0023】
詳細には、図3を参照すると、信号/データ変換ブロック58において、音声
プロセッサは、認識アルゴリズムを使用して、デジタル化音声信号を別の形式に
変換する。別の形式としては、スペクトル特性を示すものを挙げることができる
。 信号/データ変換ブロック58は、音声認識処理の次の段階に使用できる、音
声信号の新しい表現を生成する。モデル化ブロック60において、モデル化アル
ゴリズムは、話者に依存しない音響モデルや他の公知の語彙及び言語モデルを音
声信号に付加することによって更に音声信号を処理するのに使用される。最後に
、検索ブロック62において、検索アルゴリズムは、音声プロセッサ50を音声
信号に対応する最も可能性が高い命令に導くために使用される。検索アルゴリズ
ムは、単一の最もよく適合する命令又はCCGセットのNベスト適合命令セット
を識別できる。Nベスト技術を用いて、最も可能性が高い命令セットを生成して
、各々に適合確率加重を割当てることが好ましい。
プロセッサは、認識アルゴリズムを使用して、デジタル化音声信号を別の形式に
変換する。別の形式としては、スペクトル特性を示すものを挙げることができる
。 信号/データ変換ブロック58は、音声認識処理の次の段階に使用できる、音
声信号の新しい表現を生成する。モデル化ブロック60において、モデル化アル
ゴリズムは、話者に依存しない音響モデルや他の公知の語彙及び言語モデルを音
声信号に付加することによって更に音声信号を処理するのに使用される。最後に
、検索ブロック62において、検索アルゴリズムは、音声プロセッサ50を音声
信号に対応する最も可能性が高い命令に導くために使用される。検索アルゴリズ
ムは、単一の最もよく適合する命令又はCCGセットのNベスト適合命令セット
を識別できる。Nベスト技術を用いて、最も可能性が高い命令セットを生成して
、各々に適合確率加重を割当てることが好ましい。
【0024】
図2を参照すると、適合命令を識別するとプロセッサ20、50は、I/Oモ
ジュール24を介して、所望のタスクを実行する関連の付属品へ命令を出力する
。1つの例としては、前述の処理は、運転者が客室温度を上げるための「tem
perarure up」といった音声命令を発することによって音声駆動空調
システムを制御するのに使用できる。
ジュール24を介して、所望のタスクを実行する関連の付属品へ命令を出力する
。1つの例としては、前述の処理は、運転者が客室温度を上げるための「tem
perarure up」といった音声命令を発することによって音声駆動空調
システムを制御するのに使用できる。
【0025】
音声プロセッサ50は、運転者又は乗員である話者が音声命令を発した際に、
前述の処理を自動的に実行できる。もしくは、付属品を音声によって駆動するた
めに、オペレーティングシステム32は、音声プロセッサ50がユーザーインタ
ーフェース26を経由して制御ボタン40からの会話制御信号を受信することを
要求するようプログラムすることができ、音声信号を受信して処理する「聴取」
期間を呼び出す。いずれの場合においても、通常の操作のもとでは、音声エンジ
ンアダプター56はトレーニングモード入力が受信されるまでは作動しない。
前述の処理を自動的に実行できる。もしくは、付属品を音声によって駆動するた
めに、オペレーティングシステム32は、音声プロセッサ50がユーザーインタ
ーフェース26を経由して制御ボタン40からの会話制御信号を受信することを
要求するようプログラムすることができ、音声信号を受信して処理する「聴取」
期間を呼び出す。いずれの場合においても、通常の操作のもとでは、音声エンジ
ンアダプター56はトレーニングモード入力が受信されるまでは作動しない。
【0026】
図4に示す典型的な従来技術によれば、話者64によるトレーニングモード入
力は、音声エンジン54全体を話者64の音声特性に適合させるための記憶され
たトレーニングルーチンを開始させる。図4を参照すると、トレーニングルーチ
ンは、音声エンジン54をトレーニングするのに用いる公知の命令を選択するト
レーニング命令ジェネレーター66から開始する。命令は、不規則に発生しても
よく、あるいは、1つ又はそれ以上のアクティブな文法セットの音声構造の代表
的なサンプリングを提供する指示命令セットであってもよい。トレーニング命令
プロンプター68は、最初に発生された命令を受信して話者64に命令を出力し
、その命令を話者が発声するよう指示する。命令は、本技術分野では公知の音声
エンジン54のテキスト音声アルゴリズム又は予め記録された音声ファイルを使
用して、車両のオーディオシステム18等のスピーカーを介して可聴的に出力で
き、又は表示装置34を使用して視覚的に出力できる。命令プロンプトに応答し
て、話者64はその命令を発音し、音声エンジンを用いて受信され処理される。
この処理は、複数回、典型的には20−40回繰り返され、主としてアクティブ
な文法中の公知の音声命令の量と音声の不一致に依存する。新しいトレーニング
命令毎に、話者64は可聴的に命令をオウム返しすることを指示される。生成さ
れた各々のトレーニング命令を受信して処理すると、システムトレーナー70は
、話者64の特有の音声特性に応じて、音響モデルセットと必要に応じて他の公
知の認識パラメータセットの全体を、話者64の返答の各々の音響特性及び発音
特性に対する各々のトレーニング命令の相関関係を用いて調整する。この多重反
復処理は、非常に長くなり、しばしば20分かかることもあり、更に、話者64
は非常に多くの注意を向ける必要がある。従って、この方法は自動車10の運転
者が使用するのには適していない。
力は、音声エンジン54全体を話者64の音声特性に適合させるための記憶され
たトレーニングルーチンを開始させる。図4を参照すると、トレーニングルーチ
ンは、音声エンジン54をトレーニングするのに用いる公知の命令を選択するト
レーニング命令ジェネレーター66から開始する。命令は、不規則に発生しても
よく、あるいは、1つ又はそれ以上のアクティブな文法セットの音声構造の代表
的なサンプリングを提供する指示命令セットであってもよい。トレーニング命令
プロンプター68は、最初に発生された命令を受信して話者64に命令を出力し
、その命令を話者が発声するよう指示する。命令は、本技術分野では公知の音声
エンジン54のテキスト音声アルゴリズム又は予め記録された音声ファイルを使
用して、車両のオーディオシステム18等のスピーカーを介して可聴的に出力で
き、又は表示装置34を使用して視覚的に出力できる。命令プロンプトに応答し
て、話者64はその命令を発音し、音声エンジンを用いて受信され処理される。
この処理は、複数回、典型的には20−40回繰り返され、主としてアクティブ
な文法中の公知の音声命令の量と音声の不一致に依存する。新しいトレーニング
命令毎に、話者64は可聴的に命令をオウム返しすることを指示される。生成さ
れた各々のトレーニング命令を受信して処理すると、システムトレーナー70は
、話者64の特有の音声特性に応じて、音響モデルセットと必要に応じて他の公
知の認識パラメータセットの全体を、話者64の返答の各々の音響特性及び発音
特性に対する各々のトレーニング命令の相関関係を用いて調整する。この多重反
復処理は、非常に長くなり、しばしば20分かかることもあり、更に、話者64
は非常に多くの注意を向ける必要がある。従って、この方法は自動車10の運転
者が使用するのには適していない。
【0027】
本発明によれば、選択的に音声エンジン54を適合させて、特定の話者64の
音声特性に基づく特定の音声命令を認識するようになった、簡単かつ迅速な方法
が図5のブロック図に示されている。図示のように、話者の命令入力とNベスト
適合リスト74の選択とを表す音声信号の相関関係を用いる命令アダプタ72に
よって音声エンジン54を適合させる。図示のように、本方法は、話者が多数の
トレーニング命令プロンプトへ返答することを必要とする、別個のトレーニング
ルーチンに対する必要性を排除する。更に、本方法は、特定の命令に対してのみ
、音声エンジン54を話者64の音声特性に適合させるように設計された適合ア
ルゴリズムを有する「命令アダプタ」を含む。対照的に、図4の従来技術による
方法では、話者の音声特性に適合させるために、音声エンジン認識パラメータの
全体のセットを修正する、システムトレーナー70のアルゴリズムを使用してい
る。従って、従来技術の方法が、音声エンジン全体の適合をもたらすのに対して
、本発明の方法は、特定の音声命令についての話者が選択した適合である。従来
技術の方法は、音声エンジン54を話者64の音声特性に広く適合させるが、本
発明は、従来技術の方法では認識できないままになっていることもある、特定の
誤認識音声命令を話者が訂正できるようにする。本発明は、前記の従来技術の方
法による音声エンジンに対する粗い修正の微調整を提供するのに使用できること
に留意されたい。
音声特性に基づく特定の音声命令を認識するようになった、簡単かつ迅速な方法
が図5のブロック図に示されている。図示のように、話者の命令入力とNベスト
適合リスト74の選択とを表す音声信号の相関関係を用いる命令アダプタ72に
よって音声エンジン54を適合させる。図示のように、本方法は、話者が多数の
トレーニング命令プロンプトへ返答することを必要とする、別個のトレーニング
ルーチンに対する必要性を排除する。更に、本方法は、特定の命令に対してのみ
、音声エンジン54を話者64の音声特性に適合させるように設計された適合ア
ルゴリズムを有する「命令アダプタ」を含む。対照的に、図4の従来技術による
方法では、話者の音声特性に適合させるために、音声エンジン認識パラメータの
全体のセットを修正する、システムトレーナー70のアルゴリズムを使用してい
る。従って、従来技術の方法が、音声エンジン全体の適合をもたらすのに対して
、本発明の方法は、特定の音声命令についての話者が選択した適合である。従来
技術の方法は、音声エンジン54を話者64の音声特性に広く適合させるが、本
発明は、従来技術の方法では認識できないままになっていることもある、特定の
誤認識音声命令を話者が訂正できるようにする。本発明は、前記の従来技術の方
法による音声エンジンに対する粗い修正の微調整を提供するのに使用できること
に留意されたい。
【0028】
図2及び図6を参照すると、本発明の選択的適合処理を実行するのに好適な方
法が説明されている。ステップ76で、音声プロセッサ50は、発話音声命令を
表す音声信号を受信して処理する。次に、ステップ78で、音声エンジン54は
、前述の音声認識技術を用いて、音声信号に最もよく適合するアクティブなCC
Gセット、即ちNベスト適合からの音声命令セットをコンパイルする。
法が説明されている。ステップ76で、音声プロセッサ50は、発話音声命令を
表す音声信号を受信して処理する。次に、ステップ78で、音声エンジン54は
、前述の音声認識技術を用いて、音声信号に最もよく適合するアクティブなCC
Gセット、即ちNベスト適合からの音声命令セットをコンパイルする。
【0029】
次に、音声プロセッサ50は、決定ブロック80において話者からのトレーニ
ングモードについてチェックする。このステップはステップ78の前に実行でき
るので、話者が音声エンジン54を適合させようと望む場合にのみ、Nベストリ
ストが生成される。しかし、前述のように、音声エンジン認識アルゴリズムは、
適合命令を確認する一環としてNベスト技術を含むことが多く、この場合、本ス
テップは、付加的な処理なしに通常の動作のもとで実行される。
ングモードについてチェックする。このステップはステップ78の前に実行でき
るので、話者が音声エンジン54を適合させようと望む場合にのみ、Nベストリ
ストが生成される。しかし、前述のように、音声エンジン認識アルゴリズムは、
適合命令を確認する一環としてNベスト技術を含むことが多く、この場合、本ス
テップは、付加的な処理なしに通常の動作のもとで実行される。
【0030】
トレーニングモード入力は、トレーニングモード制御ボタン82(図1)の操
作とトレーニングモード音声命令の発声を含む、種々の方法で実行できる。トレ
ーニングモード音声命令は、「train」又は「learn word」とい
った専用の単語又は語句であってもよい。又は、任意の発話であってもよく、こ
の場合、音声エンジン54によって認識された発声命令に対応する付属品の操作
がすでに実行されている。例えば、室内灯が既に点灯している場合に、音声エン
ジン54が、発話語句を「dome light on」と認識すると、このこ
とを誤認識エラーと解釈してトレーニングモードに入ることができる。更に、ト
レーニングモード入力は、「dome light on ・・・ dome
light on」のような、連続して繰り返される発話であってもよい。反復
語句は、通常は連続して発せられない選択された音声命令のみ、及び/又は所望
の付属品の操作が既に実行されているときにのみ、トレーニングモードと判断で
きる。
作とトレーニングモード音声命令の発声を含む、種々の方法で実行できる。トレ
ーニングモード音声命令は、「train」又は「learn word」とい
った専用の単語又は語句であってもよい。又は、任意の発話であってもよく、こ
の場合、音声エンジン54によって認識された発声命令に対応する付属品の操作
がすでに実行されている。例えば、室内灯が既に点灯している場合に、音声エン
ジン54が、発話語句を「dome light on」と認識すると、このこ
とを誤認識エラーと解釈してトレーニングモードに入ることができる。更に、ト
レーニングモード入力は、「dome light on ・・・ dome
light on」のような、連続して繰り返される発話であってもよい。反復
語句は、通常は連続して発せられない選択された音声命令のみ、及び/又は所望
の付属品の操作が既に実行されているときにのみ、トレーニングモードと判断で
きる。
【0031】
好ましくは、トレーニングモードの要求が入力されない場合、プロセッサ20
、50は、ステップ84で、I/Oモジュール24を経由して適合音声命令を関
連の付属品に対して出力し、付属品を所望通り作動させて、対応するタスクを実
行する。トレーニングモードの要求が入力されると、プロセッサ20、50は、
ステップ86で、ユーザーインターフェース26にNベスト適合リストを出力す
る。Nベスト適合リストは、話者に車両オーディオシステム18によって可聴的
に、又は表示装置34に視覚的に示すことができる。いずれの場合も、話者は、
リストアップされたNベスト適合の1つを意図する音声命令として選択するよう
指示される。
、50は、ステップ84で、I/Oモジュール24を経由して適合音声命令を関
連の付属品に対して出力し、付属品を所望通り作動させて、対応するタスクを実
行する。トレーニングモードの要求が入力されると、プロセッサ20、50は、
ステップ86で、ユーザーインターフェース26にNベスト適合リストを出力す
る。Nベスト適合リストは、話者に車両オーディオシステム18によって可聴的
に、又は表示装置34に視覚的に示すことができる。いずれの場合も、話者は、
リストアップされたNベスト適合の1つを意図する音声命令として選択するよう
指示される。
【0032】
音声エンジン54は、Nベスト適合リスト中に、話者が実行するつもりの音声
命令を識別できない可能性がある。この場合、ステップ86で、ユーザーは命令
を再発声するよう視覚的に又は可聴的に指示され得る。追加的に又は別の方法で
、話者は、アクティブな又は任意のCCGセット中の全ての音声命令リストから
命令を選択するよう指示され得る。
命令を識別できない可能性がある。この場合、ステップ86で、ユーザーは命令
を再発声するよう視覚的に又は可聴的に指示され得る。追加的に又は別の方法で
、話者は、アクティブな又は任意のCCGセット中の全ての音声命令リストから
命令を選択するよう指示され得る。
【0033】
ステップ88で、話者は意図する音声命令を選択する。入力は、制御ボタン4
0の1つによる接触入力又は音声入力であってもよい。音声入力は、Nベスト適
合リスト中の各々の命令に割当てられた選択識別名の発声を含むことが好ましい
。例えば、使用者は、例えば、意図した命令として最初にリストアップされた適
合命令を選択するには「1」又は「a」と、2番目にリストアップされた命令に
ついては「2」又は「b」と発声するよう指示され得る。
0の1つによる接触入力又は音声入力であってもよい。音声入力は、Nベスト適
合リスト中の各々の命令に割当てられた選択識別名の発声を含むことが好ましい
。例えば、使用者は、例えば、意図した命令として最初にリストアップされた適
合命令を選択するには「1」又は「a」と、2番目にリストアップされた命令に
ついては「2」又は「b」と発声するよう指示され得る。
【0034】
好ましくは、話者が一度Nベスト適合リストから命令を選択すると、プロセッ
サ20は、選択命令が最も高い適合確率加重を有しているか否かを決定できる。
そうであれば、音声エンジン54は、発話命令を正確に認識しており適合は行な
わない。そうでなければ、ステップ90で、適合アルゴリズムは、選択命令に対
するステップ74で受信した音声信号の相関関係を用いて実行される。適合アル
ゴリズムは音声エンジン54を修正して、ステップ76で受信した音声信号の音
声パターン及び音声特性を有する音声信号を、選択命令として認識する。このこ
とは、音声エンジンモデルの認識パラメータが修正される適合アルゴリズムを用
いて達成できる。これらのパラメータは、公知の各々の音声命令に関するVCS
メモリ52に記憶される音響波形モデルを含むことができ、適合アルゴリズムは
、関連する命令についてのアクティブなモデルを、ステップ76で受信した音声
信号の音響特性に置き換えることができる。もしくは、認識パラメータは、関連
する命令についての音声分類セットを含むことができ、これはステップ76で受
信した音声信号に応じて修正される。
サ20は、選択命令が最も高い適合確率加重を有しているか否かを決定できる。
そうであれば、音声エンジン54は、発話命令を正確に認識しており適合は行な
わない。そうでなければ、ステップ90で、適合アルゴリズムは、選択命令に対
するステップ74で受信した音声信号の相関関係を用いて実行される。適合アル
ゴリズムは音声エンジン54を修正して、ステップ76で受信した音声信号の音
声パターン及び音声特性を有する音声信号を、選択命令として認識する。このこ
とは、音声エンジンモデルの認識パラメータが修正される適合アルゴリズムを用
いて達成できる。これらのパラメータは、公知の各々の音声命令に関するVCS
メモリ52に記憶される音響波形モデルを含むことができ、適合アルゴリズムは
、関連する命令についてのアクティブなモデルを、ステップ76で受信した音声
信号の音響特性に置き換えることができる。もしくは、認識パラメータは、関連
する命令についての音声分類セットを含むことができ、これはステップ76で受
信した音声信号に応じて修正される。
【0035】
最後に、ステップ84で、プロセッサ20、50は、関連する付属品へ選択命
令を出力してタスクが実行される。
令を出力してタスクが実行される。
【0036】
本発明は、前述の好適な実施形態で詳細に説明されていない他の態様を含むこ
とができる。前述の内容は、本発明の範囲を限定するものではない。従って、本
発明の全範囲は請求項を参照することで見出せる。
とができる。前述の内容は、本発明の範囲を限定するものではない。従って、本
発明の全範囲は請求項を参照することで見出せる。
【図1】
車両付属品の制御のための音声認識システムを有する自動車の計器パネルの部
分正面図である。
分正面図である。
【図2】
図1の車内音声認識システムのブロック図であり、本発明の選択的話者適合方
法を利用している。
法を利用している。
【図3】
図2の音声認識システムにおいて使用するための、音声エンジン・アーキテク
チャのブロック図である。
チャのブロック図である。
【図4】
反復トレーニング手順に基づいて音声エンジンを適合させる従来技術の方法を
示すブロック図であり、話者は、不規則に生成される音声命令又は所定の音声命
令を複数回だけ発話するよう指示される。
示すブロック図であり、話者は、不規則に生成される音声命令又は所定の音声命
令を複数回だけ発話するよう指示される。
【図5】
話者が語句を発声してNベスト適合命令リストから意図する命令を選択するこ
とによって、音声エンジンを選択的に適合させる方法を示すブロック図である。
とによって、音声エンジンを選択的に適合させる方法を示すブロック図である。
【図6】
本発明の選択的話者適合方法を実行するための好適な実施形態を示すフローチ
ャートである。
ャートである。
─────────────────────────────────────────────────────
フロントページの続き
(72)発明者 トンプソン スコット アラン
アメリカ合衆国 ミシガン州 48187 キ
ャントン ボッツフォード コート 6259
Fターム(参考) 5D015 KK01
Claims (14)
- 【請求項1】 車両付属品を音声で操作するための車載音声認識システムの
選択的話者適合方法であって、 (A)話者に依存する音声特性を有し公知の自動車命令に関連する話者の発話
を受信する段階と、 (B)前記発話を認識パラメータに応じて処理する段階と、 (C)前記処理された発話に適合する公知の自動車命令のNベストセットを識
別する段階と、 (D)前記Nベスト命令セットを前記話者に出力する段階と、 (E)前記Nベスト命令セットから正確な自動車命令を選択する話者の入力を
受信する段階と、 (F)前記音声特性を有する発話を前記正確な自動車命令として認識すること
によって、前記認識システムが前記話者に適合するように前記認識パラメータを
調整する段階と、 を含むことを特徴とする方法。 - 【請求項2】 前記認識パラメータが音響波形モデルであり、前記発話の音
声特性が話者に依存する音響波形特性であり、前記適合段階(F)が、前記正確
な自動車命令に関する前記音響波形モデルに対して前記波形特性を相関させる段
階を含むことを特徴とする請求項1に記載の方法。 - 【請求項3】 前記認識パラメータが音声分類セットであり、前記適合段階
(F)が、前記発話に応じて前記正確な命令に関する前記音声分類セットを変更
する段階を更に含むことを特徴とする請求項1に記載の方法。 - 【請求項4】 前記段階(D)が、表示装置上へのNベスト命令セットを表
示する段階を含むことを特徴とする請求項1に記載の方法。 - 【請求項5】 前記段階(D)が、Nベスト命令セットを処理する段階と、
車両オーディオシステムによって前記N−ベスト命令セットを可聴的に出力する
段階とを含むことを特徴とする請求項1に記載の方法。 - 【請求項6】 前記可聴的に出力されるNベスト命令セットが、選択識別名
を含み、前記話者選択入力が、前記選択識別名を含む発話であることを特徴とす
る請求項5に記載の方法。 - 【請求項7】 前記話者からのトレーニングモード入力を受信する段階を更
に含み、前記(D)−(F)の段階が、前記トレーニングモード入力が受信され
た場合にのみ実行されることを特徴とする請求項1に記載の方法。 - 【請求項8】 前記トレーニングモード入力が、トレーニングモード音声命
令の1つ及び接触スイッチであることを特徴とする請求項7に記載の方法。 - 【請求項9】 前記トレーニングモード音声命令が、反復発話であることを
特徴とする請求項8に記載の方法。 - 【請求項10】 前記反復発話が、所望の付属品の操作が既に実行されてい
る場合にのみ、前記トレーニングモードとして認識されることを特徴とする請求
項9に記載の方法。 - 【請求項11】 前記識別段階(C)が、前記Nベスト命令セット内の前記
公知の自動車命令の各々に対する適合確率加重を割当てる段階を含むことを特徴
とする請求項1に記載の方法。 - 【請求項12】 前記N−ベスト命令セット中の前記自動車命令の1つが最
も高い適合確率加重を有し、前記話者が、前記正確な自動車命令として前記最も
高い適合確率の命令を選択しなかった場合にのみ、前記適合段階(F)を実行す
ることを特徴とする請求項9に記載の方法。 - 【請求項13】 前記正確な自動車命令に対応する付属品の操作を実行する
段階を更に備えることを特徴とする請求項1に記載の方法。 - 【請求項14】 前記Nベスト命令セットが、少なくとも3つの公知の自動
車命令を備えることを特徴とする請求項1に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/565,304 US6587824B1 (en) | 2000-05-04 | 2000-05-04 | Selective speaker adaptation for an in-vehicle speech recognition system |
US09/565,304 | 2000-05-04 | ||
PCT/US2001/014402 WO2001084538A1 (en) | 2000-05-04 | 2001-05-04 | Selective speaker adaptation for an in-vehicle speech recognition system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003532163A true JP2003532163A (ja) | 2003-10-28 |
Family
ID=24258018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001581271A Pending JP2003532163A (ja) | 2000-05-04 | 2001-05-04 | 車載音声認識システムのための選択的話者適合方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6587824B1 (ja) |
JP (1) | JP2003532163A (ja) |
DE (1) | DE10191732B4 (ja) |
GB (1) | GB2366434B (ja) |
WO (1) | WO2001084538A1 (ja) |
Families Citing this family (81)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7580782B2 (en) * | 1995-10-30 | 2009-08-25 | Automotive Technologies International, Inc. | Vehicular electronic system with crash sensors and occupant protection systems |
JP2004505322A (ja) * | 2000-07-28 | 2004-02-19 | シーメンス ヴィディーオー オートモーティヴ コーポレイション | 遠隔操作系のユーザーインターフェイス |
US7236859B2 (en) * | 2000-09-01 | 2007-06-26 | Cattron Intellectual Property Corporation | Remote control system for a locomotive |
JP3919210B2 (ja) * | 2001-02-15 | 2007-05-23 | アルパイン株式会社 | 音声入力案内方法及び装置 |
US6754627B2 (en) * | 2001-03-01 | 2004-06-22 | International Business Machines Corporation | Detecting speech recognition errors in an embedded speech recognition system |
US6963760B2 (en) * | 2001-10-01 | 2005-11-08 | General Motors Corporation | Method and apparatus for generating DTMF tones using voice-recognition commands during hands-free communication in a vehicle |
US7996232B2 (en) * | 2001-12-03 | 2011-08-09 | Rodriguez Arturo A | Recognition of voice-activated commands |
US6889191B2 (en) * | 2001-12-03 | 2005-05-03 | Scientific-Atlanta, Inc. | Systems and methods for TV navigation with compressed voice-activated commands |
US20030120493A1 (en) * | 2001-12-21 | 2003-06-26 | Gupta Sunil K. | Method and system for updating and customizing recognition vocabulary |
JP2003241790A (ja) * | 2002-02-13 | 2003-08-29 | Internatl Business Mach Corp <Ibm> | 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム |
KR100434545B1 (ko) * | 2002-03-15 | 2004-06-05 | 삼성전자주식회사 | 홈네트워크로 연결된 가전기기들을 제어하는 방법 및 장치 |
US7676366B2 (en) * | 2003-01-13 | 2010-03-09 | Art Advanced Recognition Technologies Inc. | Adaptation of symbols |
JP2004239963A (ja) * | 2003-02-03 | 2004-08-26 | Mitsubishi Electric Corp | 車載制御装置 |
DE10313310A1 (de) * | 2003-03-25 | 2004-10-21 | Siemens Ag | Verfahren zur sprecherabhängigen Spracherkennung und Spracherkennungssystem dafür |
WO2004102329A2 (en) * | 2003-05-08 | 2004-11-25 | Good Health Network, Inc. | Secure healthcare database system and method |
US7986974B2 (en) * | 2003-05-23 | 2011-07-26 | General Motors Llc | Context specific speaker adaptation user interface |
US20100246837A1 (en) * | 2009-03-29 | 2010-09-30 | Krause Lee S | Systems and Methods for Tuning Automatic Speech Recognition Systems |
US9844326B2 (en) | 2008-08-29 | 2017-12-19 | University Of Florida Research Foundation, Inc. | System and methods for creating reduced test sets used in assessing subject response to stimuli |
US9319812B2 (en) | 2008-08-29 | 2016-04-19 | University Of Florida Research Foundation, Inc. | System and methods of subject classification based on assessed hearing capabilities |
US9553984B2 (en) | 2003-08-01 | 2017-01-24 | University Of Florida Research Foundation, Inc. | Systems and methods for remotely tuning hearing devices |
US20050186992A1 (en) * | 2004-02-20 | 2005-08-25 | Slawomir Skret | Method and apparatus to allow two way radio users to access voice enabled applications |
US7421387B2 (en) * | 2004-02-24 | 2008-09-02 | General Motors Corporation | Dynamic N-best algorithm to reduce recognition errors |
US20050187767A1 (en) * | 2004-02-24 | 2005-08-25 | Godden Kurt S. | Dynamic N-best algorithm to reduce speech recognition errors |
US20050280524A1 (en) * | 2004-06-18 | 2005-12-22 | Applied Digital, Inc. | Vehicle entertainment and accessory control system |
US20060155429A1 (en) * | 2004-06-18 | 2006-07-13 | Applied Digital, Inc. | Vehicle entertainment and accessory control system |
US8005668B2 (en) * | 2004-09-22 | 2011-08-23 | General Motors Llc | Adaptive confidence thresholds in telematics system speech recognition |
US20060258336A1 (en) * | 2004-12-14 | 2006-11-16 | Michael Sajor | Apparatus an method to store and forward voicemail and messages in a two way radio |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US7895039B2 (en) | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US7865362B2 (en) | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US7827032B2 (en) * | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7826945B2 (en) * | 2005-07-01 | 2010-11-02 | You Zhang | Automobile speech-recognition interface |
US7904300B2 (en) * | 2005-08-10 | 2011-03-08 | Nuance Communications, Inc. | Supporting multiple speech enabled user interface consoles within a motor vehicle |
US20070136063A1 (en) * | 2005-12-12 | 2007-06-14 | General Motors Corporation | Adaptive nametag training with exogenous inputs |
US20070136069A1 (en) * | 2005-12-13 | 2007-06-14 | General Motors Corporation | Method and system for customizing speech recognition in a mobile vehicle communication system |
US20070157285A1 (en) * | 2006-01-03 | 2007-07-05 | The Navvo Group Llc | Distribution of multimedia content |
US20070156853A1 (en) * | 2006-01-03 | 2007-07-05 | The Navvo Group Llc | Distribution and interface for multimedia content and associated context |
US8626506B2 (en) * | 2006-01-20 | 2014-01-07 | General Motors Llc | Method and system for dynamic nametag scoring |
US7872574B2 (en) * | 2006-02-01 | 2011-01-18 | Innovation Specialists, Llc | Sensory enhancement systems and methods in personal electronic devices |
US9583096B2 (en) * | 2006-08-15 | 2017-02-28 | Nuance Communications, Inc. | Enhancing environment voice macros via a stackable save/restore state of an object within an environment controlled by voice commands for control of vehicle components |
TWI311311B (en) * | 2006-11-16 | 2009-06-21 | Inst Information Industr | Speech recognition device, method, application program, and computer readable medium for adjusting speech models with selected speech data |
US20080147411A1 (en) * | 2006-12-19 | 2008-06-19 | International Business Machines Corporation | Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment |
US20090055180A1 (en) * | 2007-08-23 | 2009-02-26 | Coon Bradley S | System and method for optimizing speech recognition in a vehicle |
KR20090107365A (ko) * | 2008-04-08 | 2009-10-13 | 엘지전자 주식회사 | 이동 단말기 및 그 메뉴 제어방법 |
US20100082559A1 (en) * | 2008-09-19 | 2010-04-01 | General Motors Corporation | Method of managing a schedule-based software package update |
US8285545B2 (en) * | 2008-10-03 | 2012-10-09 | Volkswagen Ag | Voice command acquisition system and method |
KR101556594B1 (ko) * | 2009-01-14 | 2015-10-01 | 삼성전자 주식회사 | 신호처리장치 및 신호처리장치에서의 음성 인식 방법 |
US20120004910A1 (en) * | 2009-05-07 | 2012-01-05 | Romulo De Guzman Quidilig | System and method for speech processing and speech to text |
DE102009039889B4 (de) | 2009-09-03 | 2021-10-07 | Volkswagen Ag | Vorrichtung und Verfahren zum Erfassen von Sprache in einem Kraftfahrzeug |
US8626511B2 (en) * | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
US8787977B2 (en) * | 2010-04-08 | 2014-07-22 | General Motors Llc | Method of controlling dialing modes in a vehicle |
US8738377B2 (en) * | 2010-06-07 | 2014-05-27 | Google Inc. | Predicting and learning carrier phrases for speech input |
JP2013529794A (ja) * | 2010-06-24 | 2013-07-22 | 本田技研工業株式会社 | 車載音声認識システム及び車両外音声認識システム間の通信システム及び方法 |
US8532674B2 (en) * | 2010-12-10 | 2013-09-10 | General Motors Llc | Method of intelligent vehicle dialing |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US20120323574A1 (en) * | 2011-06-17 | 2012-12-20 | Microsoft Corporation | Speech to text medical forms |
EP2665059B1 (en) * | 2011-10-25 | 2016-02-10 | Olympus Corporation | Endoscope operation system |
US9317605B1 (en) | 2012-03-21 | 2016-04-19 | Google Inc. | Presenting forked auto-completions |
AU2013290340B2 (en) | 2012-07-16 | 2017-10-26 | Valco Acquisition Llc | Medical procedure monitoring system |
US9558739B2 (en) * | 2012-11-13 | 2017-01-31 | GM Global Technology Operations LLC | Methods and systems for adapting a speech system based on user competance |
US20140136204A1 (en) * | 2012-11-13 | 2014-05-15 | GM Global Technology Operations LLC | Methods and systems for speech systems |
US9502030B2 (en) * | 2012-11-13 | 2016-11-22 | GM Global Technology Operations LLC | Methods and systems for adapting a speech system |
US9601111B2 (en) * | 2012-11-13 | 2017-03-21 | GM Global Technology Operations LLC | Methods and systems for adapting speech systems |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US9646606B2 (en) | 2013-07-03 | 2017-05-09 | Google Inc. | Speech recognition using domain knowledge |
TWI536366B (zh) * | 2014-03-18 | 2016-06-01 | 財團法人工業技術研究院 | 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體 |
CN105334997A (zh) * | 2014-08-12 | 2016-02-17 | 扬智科技股份有限公司 | 智能输入装置及其设定方法与控制方法 |
US10325591B1 (en) * | 2014-09-05 | 2019-06-18 | Amazon Technologies, Inc. | Identifying and suppressing interfering audio content |
JP2016061954A (ja) * | 2014-09-18 | 2016-04-25 | 株式会社東芝 | 対話装置、方法およびプログラム |
KR102371697B1 (ko) * | 2015-02-11 | 2022-03-08 | 삼성전자주식회사 | 음성 기능 운용 방법 및 이를 지원하는 전자 장치 |
EP3089159B1 (en) * | 2015-04-28 | 2019-08-28 | Google LLC | Correcting voice recognition using selective re-speak |
KR101910383B1 (ko) * | 2015-08-05 | 2018-10-22 | 엘지전자 주식회사 | 차량 운전 보조 장치 및 이를 구비한 차량 |
US9996517B2 (en) * | 2015-11-05 | 2018-06-12 | Lenovo (Singapore) Pte. Ltd. | Audio input of field entries |
US10475447B2 (en) * | 2016-01-25 | 2019-11-12 | Ford Global Technologies, Llc | Acoustic and domain based speech recognition for vehicles |
DE102016212681A1 (de) | 2016-07-12 | 2018-01-18 | Audi Ag | Steuervorrichtung und Verfahren zum sprachbasierten Betreiben eines Kraftfahrzeugs |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US10950229B2 (en) * | 2016-08-26 | 2021-03-16 | Harman International Industries, Incorporated | Configurable speech interface for vehicle infotainment systems |
US20190179416A1 (en) * | 2017-12-12 | 2019-06-13 | Ford Global Technologies, Llc | Interactive vehicle speech recognition and correction system |
EP3781452B1 (de) * | 2018-06-21 | 2022-03-02 | Siemens Mobility GmbH | Verfahren und vorrichtung zum steuern eines schienenfahrzeugs mittels sprachmitteilung |
KR20200098079A (ko) * | 2019-02-11 | 2020-08-20 | 현대자동차주식회사 | 대화 시스템 및 대화 처리 방법 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CH644246B (fr) * | 1981-05-15 | 1900-01-01 | Asulab Sa | Dispositif d'introduction de mots a commande par la parole. |
JPS5870287A (ja) * | 1981-10-22 | 1983-04-26 | 日産自動車株式会社 | 音声認識装置 |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
EP0559349B1 (en) * | 1992-03-02 | 1999-01-07 | AT&T Corp. | Training method and apparatus for speech recognition |
ATE251058T1 (de) * | 1994-03-18 | 2003-10-15 | Vcs Ind Inc D B A Voice Contro | Sprachgesteuertes fahrzeugalarmsystem |
US5864810A (en) | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
US5835890A (en) * | 1996-08-02 | 1998-11-10 | Nippon Telegraph And Telephone Corporation | Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon |
US6205426B1 (en) * | 1999-01-25 | 2001-03-20 | Matsushita Electric Industrial Co., Ltd. | Unsupervised speech model adaptation using reliable information among N-best strings |
US6377924B1 (en) * | 1999-03-12 | 2002-04-23 | Texas Instruments Incorporated | Method of enrolling phone-based speaker specific commands |
US6374221B1 (en) * | 1999-06-22 | 2002-04-16 | Lucent Technologies Inc. | Automatic retraining of a speech recognizer while using reliable transcripts |
US6230138B1 (en) | 2000-06-28 | 2001-05-08 | Visteon Global Technologies, Inc. | Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system |
-
2000
- 2000-05-04 US US09/565,304 patent/US6587824B1/en not_active Expired - Lifetime
-
2001
- 2001-05-04 GB GB0130027A patent/GB2366434B/en not_active Expired - Fee Related
- 2001-05-04 WO PCT/US2001/014402 patent/WO2001084538A1/en active Application Filing
- 2001-05-04 DE DE10191732T patent/DE10191732B4/de not_active Expired - Fee Related
- 2001-05-04 JP JP2001581271A patent/JP2003532163A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US6587824B1 (en) | 2003-07-01 |
DE10191732B4 (de) | 2005-10-06 |
WO2001084538A1 (en) | 2001-11-08 |
GB2366434B (en) | 2004-01-21 |
GB2366434A (en) | 2002-03-06 |
DE10191732T1 (de) | 2003-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6587824B1 (en) | Selective speaker adaptation for an in-vehicle speech recognition system | |
US6230138B1 (en) | Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system | |
EP2045140B1 (en) | Adjustment of vehicular elements by speech control | |
US8738368B2 (en) | Speech processing responsive to a determined active communication zone in a vehicle | |
US7676363B2 (en) | Automated speech recognition using normalized in-vehicle speech | |
US8688451B2 (en) | Distinguishing out-of-vocabulary speech from in-vocabulary speech | |
US7881929B2 (en) | Ambient noise injection for use in speech recognition | |
EP1695177B1 (en) | Wirelessly delivered owner s manual | |
US8005681B2 (en) | Speech dialog control module | |
CN109545219A (zh) | 车载语音交互方法、系统、设备及计算机可读存储介质 | |
US8762151B2 (en) | Speech recognition for premature enunciation | |
US20070150287A1 (en) | Method for driving a dialog system | |
JP2004126413A (ja) | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム | |
US20130211828A1 (en) | Speech processing responsive to active noise control microphones | |
JP2017090612A (ja) | 音声認識制御システム | |
JPH1165587A (ja) | 車両用音声入力装置 | |
JPH11126092A (ja) | 音声認識装置および車両用音声認識装置 | |
JP2018116130A (ja) | 車内音声処理装置および車内音声処理方法 | |
KR20220073513A (ko) | 대화 시스템, 차량 및 대화 시스템의 제어 방법 | |
JP2020144285A (ja) | エージェントシステム、情報処理装置、移動体搭載機器制御方法、及びプログラム | |
JP2000322074A (ja) | 音声入力区間判定装置,音声データ抽出装置,音声認識装置,車両用ナビゲーション装置及び入力用マイク | |
US20160336912A1 (en) | Automatic gain control module, method for controlling the same, vehicle including the automatic gain control module, and method for controlling the vehicle | |
JPH07219582A (ja) | 車載用音声認識装置 | |
US20230238020A1 (en) | Speech recognition system and a method for providing a speech recognition service | |
JP3679617B2 (ja) | 音声伝達方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050801 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060104 |