JP2003532163A - 車載音声認識システムのための選択的話者適合方法 - Google Patents

車載音声認識システムのための選択的話者適合方法

Info

Publication number
JP2003532163A
JP2003532163A JP2001581271A JP2001581271A JP2003532163A JP 2003532163 A JP2003532163 A JP 2003532163A JP 2001581271 A JP2001581271 A JP 2001581271A JP 2001581271 A JP2001581271 A JP 2001581271A JP 2003532163 A JP2003532163 A JP 2003532163A
Authority
JP
Japan
Prior art keywords
speaker
voice
command
vehicle
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001581271A
Other languages
English (en)
Inventor
チャールズ アレン エヴァハート
スコット アラン トンプソン
Original Assignee
ビステオン グローバル テクノロジーズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ビステオン グローバル テクノロジーズ インコーポレイテッド filed Critical ビステオン グローバル テクノロジーズ インコーポレイテッド
Publication of JP2003532163A publication Critical patent/JP2003532163A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

(57)【要約】 車載音声認識システムの認識精度を向上させる方法を開示する。本発明の方法は、Nベスト適合技術を使用して、システムの音声エンジンを話者の音声特性に適合させる。本方法において、音声認識システムは、自動車命令に関連し特定の話者の音声特性を有する発話を受信して処理し(76)、発話に適合するNベスト音声命令セットを選択する(78)。話者からのトレーニングモード入力を受信すると、システムは、Nベスト命令セットを話者に出力し(86)、話者は正確な命令を選択する。次に、システムは、受信した音声特性を有する発話がユーザーにより選択された自動車命令として認識されるように音声エンジンを適合させる(90)。

Description

【発明の詳細な説明】
【0001】 (技術分野) 本発明は音声認識システムに関し、より詳細には、車載音声認識システムを選
択的にトレーニングして個々の話者の音声特性に適合するようにする方法に関す
る。
【0002】 (背景技術) 自動車に搭載された音声認識システムは、運転者及び乗員が、音声命令に対応
した単語又は語句を発声することによって種々の車両機能を制御することを可能
にする。車内に置かれた1つあるいはそれ以上のマイクロホンは、発声された単
語又は語句を表す音声信号を受け取る。種々の音響及び言語モデル化技術を使用
する音声エンジン認識アルゴリズムは、音声信号を処理して、1つ又はそれ以上
の記憶された命令文法セットに含まれる、適合する音声命令を識別するために用
いられる。音声命令は、パワーウィンド、ロック及び空調制御装置等の、任意の
数の車両機能及び付属品を操作するための適切な制御手段に送られる。
【0003】 音声認識システムの有効性は、主として認識精度、即ちシステムが音声命令を
発語に正確に適合させるか否かに基づいて評価される。一般的に、音声認識では
、個々の話者の発音癖、方言及び口調といった音声/発音特性の広範な変化が困
難な問題を引き起こす。特に、車載音声認識システムでは、車両に多くの乗員が
搭乗することになるのでこの問題が顕著になる。さらに、車室内の音響特性は、
エンジンノイズ、通過車両及びサイレン等の道路ノイズのみならず、音声認識を
特に難しくする風雨や雷等の天候条件により変化することもある。
【0004】 一般的に、音響、語彙及び言語モデルは、音声エンジンに含まれており、可能
性のある単語の検索区域を縮小することによって認識処理を助け、類似音の単語
及び語句の間の不明確性を取り除くようになっている。これらのモデルは、どち
らかと言えば統計学に基づいたシステムであり種々の形態で提供され得る。音響
モデルは、各々の命令に対応する音響特性又は音声信号の波形モデルを含むこと
ができる。語彙及び言語モデルは、一般的に命令語選択及び文法的構造に関して
音声エンジンに指示するアルゴリズムを含むことができる。例えば、単純な言語
モデルは、有限状態のネットワークとして特定でき、各々の単語に続く許容単語
を系統的に与える。しかし、より複雑で、文脈を規定した言語モデルも存在する
【0005】 認識精度を改善するために、従来型の車載音声認識システムは、トレーニング
ルーチンを実行することによってこれらのモデルを話者の音声特性に適合させる
ことを可能にしている。一般的に、このようなトレーニングルーチンは、話者が
システムにトレーニングモードに入るように指示することにより開始される。
【0006】 システムは、話者に対して多数の所定の又は不規則な音声命令を教えて、話者
に各々の命令を発声するよう指示する。システムは、発声された単語の、対応す
る音声命令に関するモデルからの変動に基づいて命令の全セットを適合させる。
しかし、音声命令の全セットを適合させるので、システムに話者の音声特性の十
分なサンプリングをもたらすには相当数の反復を必要とする。典型的に、このよ
うなトレーニングルーチンは、少なくとも20から40回の命令プロンプト及び
返答反復を含む。
【0007】 前記の技術は、多数のトレーニング命令入力の反復が原因で、使用者にとって
は不便であり時間を要するものである。トレーニングルーチンは、特に運転者を
散漫にする場合があるので、運転者に対して運転中にルーチンを実行することは
不適切である。更に、前記の技術は、繰り返して誤認識される、特に問題のある
単語の訂正については有効でない場合もある。これは前記の技術が、所定の話者
の発音特性に対して音声認識システムを大まかに調整するように設計されている
ためである。 従って、車載音声認識システムを、間違って認識された音声命令を訂正するよ
うに適合させる、簡単かつ有効な技術に対しての要求がある。
【0008】 (発明の開示) 本発明は、音声認識システムの音声エンジンを必要に応じて話者の音声特性に
適合させて、特定の音声命令と、対象の特定の問題のある単語又は語句とを認識
することによって、音声認識システムの認識精度を向上させるための方法を提供
する。本方法は、Nベスト適合技術を用いて、発話に最も密接に適合する公知の
自動車命令リストを提供する。話者がNベスト適合から意図する又は正確な自動
車命令を選択する際に、必要に応じて音声エンジンを適合させるために発話が用
いられ、この自動車命令を自動的に認識する。
【0009】 詳細には、本発明は、車両付属品を音声で操作するための車載音声認識システ
ムの選択的話者適合方法である。この方法は、話者に依存する音声特性を有し公
知の自動車命令に関連する話者の発話を受信する段階と、発話を認識パラメータ
に応じて処理する段階と、処理された発話に適合する公知の自動車命令のNベス
トセットを識別する段階と、Nベスト命令セットを話者に出力する段階と、Nベ
スト命令セットから正確な自動車命令を選択する話者の入力を受信する段階と、
音声特性を有する発話を正確な自動車命令として認識することによって認識シス
テムが話者に適合するように、認識パラメータを調整する段階とを含む。この方
法は、正確な自動車命令に対応する付属品の操作の実行を更に含む。
【0010】 本発明の1つの態様においては、認識パラメータは音響波形モデルであり、発
話の音声特性は話者に依存する音響特性を含む。この場合、音声エンジンは、正
確な自動車命令の波形モデルの代わりにこの音響特性を用いることによって適合
される。もしくは、認識パラメータは発音分類セットであり、音声エンジンは、
発話の音声特性に応じて正確な自動車命令に関する発音分類セットを変更するこ
とによって適合される。
【0011】 本発明の他の態様においては、Nベスト命令セットは、計器パネルの表示装置
に表示してもよく、話者の選択入力は入力装置によって行われる。もしくは、N
ベスト命令セットは、テキスト音声アルゴリズム、及び/又は、予め記録された
音声ファイルを処理することによって、車両オーディオ装置のスピーカーから可
聴的に出力してもよい。この場合、可聴的な出力は、話者が選択入力として発声
できる、各々のNベスト命令に関する識別名を含む。
【0012】 他の態様においては、本発明の方法は、話者からのトレーニングモード入力を
受信することを含み、トレーニングモード入力を受信した場合にのみ、出力、選
択、及び適合の各々の段階が実行される。トレーニングモードの入力は、トレー
ニングモード制御ボタンを操作すること、又はトレーニングモード音声命令を発
することを含む、種々の方法により実行できる。トレーニングモード音声命令は
、「train」又は「learn word」といった専用の単語又は語句で
あってもよい。又は、音声エンジンによって認識された発声命令に対応する付属
品の操作がすでに実行されている、任意の発話であってもよい。例えば、室内灯
が既に点灯している場合に、音声エンジンが、発話語句を「dome ligh
t on」と認識すると、このことを誤認識エラーと解釈してトレーニングモー
ドに入ることができる。更に、トレーニングモード入力は、「dome lig
ht on ・・・ dome light on」のような、連続して繰り返
される発話であってもよい。反復語句は、通常は連続して発せられない選択され
た音声命令のみ、及び/又は所望の付属品の操作が既に実行されているときにの
み、トレーニングモードと判断できる。
【0013】 別の態様において、本発明の方法は、Nベスト命令セットにおける自動車命令
の各々に対する適合確率加重の割当を含む。好ましくは、Nベスト自動車命令の
1つは、最も高い適合確率加重を有し、この場合、話者が、正確な自動車命令と
して最も高い適合確率の命令を選択しない場合にのみ適合が実行される。
【0014】 従って、本発明は、話者の音声特性に応じた特定の音声命令を認識するように
音声エンジンを選択的に適合させる、簡単かつ迅速な方法を提供する。意図した
又は正確な音声命令に対する発話の相関関係に応じた音声エンジンの適合によっ
て、本方法は、話者が、特定の音声命令の誤認識を訂正できるようにする。更に
、本方法は、すでに発話されている発声に対して音声エンジンを適合させるので
、話者が多数のレーニング命令プロンプトに返答することを要求する、長い繰返
しルーチンの必要性を排除できる。 本発明の前述及び他の利点は、以下の好適な実施形態の記載から明らかになる
はずである。
【0015】 (発明を実施するための最良の形態) 図1を参照すると、自動車10は、客室12、ステアリングホイール14、計
器パネル/ダッシュボード16、及び再生装置とスピーカー(図示せず)を有す
るオーディオシステム18(図2を参照)を含む。図1及び図2を参照すると、
計器パネル16は、メインプロセッサ20、メインメモリ22、入出力(I/O
)モジュール24、ユーザーインターフェース26、及び音声制御システム(V
CS)モジュール30を有する中央制御ユニット19を含むことが好ましい。中
央制御装置19は、運転者と前部座席乗員(図示せず)による操作のための適切
な位置にあることが好ましい。適切なシリコンチップであることが好ましいメイ
ンメモリ22は、メインプロセッサ20の作動と中央制御装置19の他の構成要
素の処理を制御するためのオペレーティングシステム32を提供するプログラミ
ングを含む。このメインプロセッサ20は、本技術分野では公知の任意の適切な
マイクロプロセッサチップであってもよい。
【0016】 ユーザーインターフェース26は、表示装置34及びマイクロホン36を含む
。また、室内の種々の場所に着席した車両搭乗者からの命令を上手く受け取るた
めに、追加的な補助マイクロホン38を客室内の種々の場所に配置してもよい。
例えば、補助マイクロホン38(図1)は、ステアリングホイール14や、前部
及び後部の乗員アームレスト(図示せず)に取り付けることができる。
【0017】 また、ユーザーインターフェース26は、制御ボタン40を含み、これは付属
品42、44、及び46等の車両付属品を操作するためのものを含む。これらの
制御ボタン40は、種々の制御操作を実行するように構成変更又はプログラム変
更が可能な多機能ボタンであってもよい。例えば、補助制御82は、以下に説明
するように、トレーニングモード入力装置として使用できる。ユーザーインター
フェース26は、好ましくはI/Oモジュール24及び車両ネットワークバス4
8を経由して車両付属品に接続する。ユーザーインターフェース26は、各々の
付属品に関連する全ての制御可能機能パラメータの調整を可能にする。車両付属
品は、空調制御、時計、内部及び外部照明、オーディオシステム18、バックミ
ラー、ドアロック、シート及びウィンドウ制御、及びナビゲーションシステム等
の任意の電力が供給される装置であってもよい。
【0018】 ユーザーインターフェース26は、マイクロホン36を経由する音声信号と制
御ボタン40からの制御信号とを受信すると同時に、使用者に表示及び音声信号
を送信するために、メインプロセッサ20に接続している。図2は、ユーザーイ
ンターフェース26及びVCSモジュール30を中央制御装置19の一部として
示しているが、これらの構成部品は全て、直接的に又は車両ネットワークバス4
8を経由して接続される別個の装置であってよいことに留意されたい。
【0019】 VCSモジュール30は、音声プロセッサ50及びメモリ52を含む。音声プ
ロセッサは、任意の数の適切なマイクロプロセッシングチップであってもよく、
メモリは任意の適切な電子記憶素子であってもよい。本発明を実行するのに適切
な音声エンジン54及びアダプタ56を提供するソフトウエアプログラミングは
、VCSメモリ52に格納されている。音声エンジン54は、1つ又はそれ以上
の命令及び制御文法(CCG)セットを含む。CCGセットは、車両付属品の機
能を制御するための公知の自動車関連音声命令リストを含む。従って、例えば、
CCGセットは、マップガイダンス、目的地入力、表示命令、及びナビゲーショ
ン設定に関する種々のメニューへアクセスするための、ナビゲーションユニット
で実行可能な命令を含むことができる。更に、命令は、テキスト音声アルゴリズ
ムに応じて処理でき、制御される付属品の機能又は状態に関して乗員へ音声フィ
ードバックを与えるための車両オーディオシステム18に送信される、合成音声
メッセージであってもよい。もしくは、予め記録された音声ファイルは、ユーザ
フィードバックのために処理して可聴的に出力してもよい。
【0020】 命令の異なるセットを含む1つ又はそれ以上の多重CCGセットは、異なる付
属品又は付属品機能を種々の車両乗員によって音声駆動できるようにアクティブ
にできる。例えば、運転者がバックミラーを調整可能にするバックミラー調整命
令を有する運転者CCGセットは、アクティブにできるが、アクティブな乗員文
法セットはこのような命令を含まなくてもよい。
【0021】 本技術分野で公知の任意の数の異なる形式の文法構造を使用できる。例えば、
音声命令は、温度、音量、速度、及び窓や座席の位置といった調整用パラメータ
を識別するキータームを含むことができ、もしくは、音声命令は、メニューシス
テムで構成してもよく、音声命令は、制御する付属品、これに続く機能パラメー
タの表現である。この差違の例は、キーワードに従うシステムにおいて窓を下げ
るための典型的な音声命令は「lower window」であるが、メニュー
に従うシステムにおいては、対応する音声命令は「window−down」で
ある。本発明は、これらのいずれか、両方、又は他の公知の音声命令構造で音声
命令を構成及び識別するのに利用できる。
【0022】 以下に本発明に使用可能な音声エンジン・アーキテクチャの1つの実施形態を
説明する。一般的に、音声エンジン54は、発話音を認識して、付属品42、4
4、及び46等の音声駆動車両付属品を制御するための対応する命令を伝達する
音声認識技術を使用する。音声プロセッサ50は、マイクロホン36からのデジ
タル化音声信号を受信する。音声エンジン54の制御のもとに、音声プロセッサ
50は、音声エンジン認識アルゴリズムを用いてデジタル化音声信号を解析して
、アクティブな文法セットに含まれる対応する音声命令を識別する。
【0023】 詳細には、図3を参照すると、信号/データ変換ブロック58において、音声
プロセッサは、認識アルゴリズムを使用して、デジタル化音声信号を別の形式に
変換する。別の形式としては、スペクトル特性を示すものを挙げることができる
。 信号/データ変換ブロック58は、音声認識処理の次の段階に使用できる、音
声信号の新しい表現を生成する。モデル化ブロック60において、モデル化アル
ゴリズムは、話者に依存しない音響モデルや他の公知の語彙及び言語モデルを音
声信号に付加することによって更に音声信号を処理するのに使用される。最後に
、検索ブロック62において、検索アルゴリズムは、音声プロセッサ50を音声
信号に対応する最も可能性が高い命令に導くために使用される。検索アルゴリズ
ムは、単一の最もよく適合する命令又はCCGセットのNベスト適合命令セット
を識別できる。Nベスト技術を用いて、最も可能性が高い命令セットを生成して
、各々に適合確率加重を割当てることが好ましい。
【0024】 図2を参照すると、適合命令を識別するとプロセッサ20、50は、I/Oモ
ジュール24を介して、所望のタスクを実行する関連の付属品へ命令を出力する
。1つの例としては、前述の処理は、運転者が客室温度を上げるための「tem
perarure up」といった音声命令を発することによって音声駆動空調
システムを制御するのに使用できる。
【0025】 音声プロセッサ50は、運転者又は乗員である話者が音声命令を発した際に、
前述の処理を自動的に実行できる。もしくは、付属品を音声によって駆動するた
めに、オペレーティングシステム32は、音声プロセッサ50がユーザーインタ
ーフェース26を経由して制御ボタン40からの会話制御信号を受信することを
要求するようプログラムすることができ、音声信号を受信して処理する「聴取」
期間を呼び出す。いずれの場合においても、通常の操作のもとでは、音声エンジ
ンアダプター56はトレーニングモード入力が受信されるまでは作動しない。
【0026】 図4に示す典型的な従来技術によれば、話者64によるトレーニングモード入
力は、音声エンジン54全体を話者64の音声特性に適合させるための記憶され
たトレーニングルーチンを開始させる。図4を参照すると、トレーニングルーチ
ンは、音声エンジン54をトレーニングするのに用いる公知の命令を選択するト
レーニング命令ジェネレーター66から開始する。命令は、不規則に発生しても
よく、あるいは、1つ又はそれ以上のアクティブな文法セットの音声構造の代表
的なサンプリングを提供する指示命令セットであってもよい。トレーニング命令
プロンプター68は、最初に発生された命令を受信して話者64に命令を出力し
、その命令を話者が発声するよう指示する。命令は、本技術分野では公知の音声
エンジン54のテキスト音声アルゴリズム又は予め記録された音声ファイルを使
用して、車両のオーディオシステム18等のスピーカーを介して可聴的に出力で
き、又は表示装置34を使用して視覚的に出力できる。命令プロンプトに応答し
て、話者64はその命令を発音し、音声エンジンを用いて受信され処理される。
この処理は、複数回、典型的には20−40回繰り返され、主としてアクティブ
な文法中の公知の音声命令の量と音声の不一致に依存する。新しいトレーニング
命令毎に、話者64は可聴的に命令をオウム返しすることを指示される。生成さ
れた各々のトレーニング命令を受信して処理すると、システムトレーナー70は
、話者64の特有の音声特性に応じて、音響モデルセットと必要に応じて他の公
知の認識パラメータセットの全体を、話者64の返答の各々の音響特性及び発音
特性に対する各々のトレーニング命令の相関関係を用いて調整する。この多重反
復処理は、非常に長くなり、しばしば20分かかることもあり、更に、話者64
は非常に多くの注意を向ける必要がある。従って、この方法は自動車10の運転
者が使用するのには適していない。
【0027】 本発明によれば、選択的に音声エンジン54を適合させて、特定の話者64の
音声特性に基づく特定の音声命令を認識するようになった、簡単かつ迅速な方法
が図5のブロック図に示されている。図示のように、話者の命令入力とNベスト
適合リスト74の選択とを表す音声信号の相関関係を用いる命令アダプタ72に
よって音声エンジン54を適合させる。図示のように、本方法は、話者が多数の
トレーニング命令プロンプトへ返答することを必要とする、別個のトレーニング
ルーチンに対する必要性を排除する。更に、本方法は、特定の命令に対してのみ
、音声エンジン54を話者64の音声特性に適合させるように設計された適合ア
ルゴリズムを有する「命令アダプタ」を含む。対照的に、図4の従来技術による
方法では、話者の音声特性に適合させるために、音声エンジン認識パラメータの
全体のセットを修正する、システムトレーナー70のアルゴリズムを使用してい
る。従って、従来技術の方法が、音声エンジン全体の適合をもたらすのに対して
、本発明の方法は、特定の音声命令についての話者が選択した適合である。従来
技術の方法は、音声エンジン54を話者64の音声特性に広く適合させるが、本
発明は、従来技術の方法では認識できないままになっていることもある、特定の
誤認識音声命令を話者が訂正できるようにする。本発明は、前記の従来技術の方
法による音声エンジンに対する粗い修正の微調整を提供するのに使用できること
に留意されたい。
【0028】 図2及び図6を参照すると、本発明の選択的適合処理を実行するのに好適な方
法が説明されている。ステップ76で、音声プロセッサ50は、発話音声命令を
表す音声信号を受信して処理する。次に、ステップ78で、音声エンジン54は
、前述の音声認識技術を用いて、音声信号に最もよく適合するアクティブなCC
Gセット、即ちNベスト適合からの音声命令セットをコンパイルする。
【0029】 次に、音声プロセッサ50は、決定ブロック80において話者からのトレーニ
ングモードについてチェックする。このステップはステップ78の前に実行でき
るので、話者が音声エンジン54を適合させようと望む場合にのみ、Nベストリ
ストが生成される。しかし、前述のように、音声エンジン認識アルゴリズムは、
適合命令を確認する一環としてNベスト技術を含むことが多く、この場合、本ス
テップは、付加的な処理なしに通常の動作のもとで実行される。
【0030】 トレーニングモード入力は、トレーニングモード制御ボタン82(図1)の操
作とトレーニングモード音声命令の発声を含む、種々の方法で実行できる。トレ
ーニングモード音声命令は、「train」又は「learn word」とい
った専用の単語又は語句であってもよい。又は、任意の発話であってもよく、こ
の場合、音声エンジン54によって認識された発声命令に対応する付属品の操作
がすでに実行されている。例えば、室内灯が既に点灯している場合に、音声エン
ジン54が、発話語句を「dome light on」と認識すると、このこ
とを誤認識エラーと解釈してトレーニングモードに入ることができる。更に、ト
レーニングモード入力は、「dome light on ・・・ dome
light on」のような、連続して繰り返される発話であってもよい。反復
語句は、通常は連続して発せられない選択された音声命令のみ、及び/又は所望
の付属品の操作が既に実行されているときにのみ、トレーニングモードと判断で
きる。
【0031】 好ましくは、トレーニングモードの要求が入力されない場合、プロセッサ20
、50は、ステップ84で、I/Oモジュール24を経由して適合音声命令を関
連の付属品に対して出力し、付属品を所望通り作動させて、対応するタスクを実
行する。トレーニングモードの要求が入力されると、プロセッサ20、50は、
ステップ86で、ユーザーインターフェース26にNベスト適合リストを出力す
る。Nベスト適合リストは、話者に車両オーディオシステム18によって可聴的
に、又は表示装置34に視覚的に示すことができる。いずれの場合も、話者は、
リストアップされたNベスト適合の1つを意図する音声命令として選択するよう
指示される。
【0032】 音声エンジン54は、Nベスト適合リスト中に、話者が実行するつもりの音声
命令を識別できない可能性がある。この場合、ステップ86で、ユーザーは命令
を再発声するよう視覚的に又は可聴的に指示され得る。追加的に又は別の方法で
、話者は、アクティブな又は任意のCCGセット中の全ての音声命令リストから
命令を選択するよう指示され得る。
【0033】 ステップ88で、話者は意図する音声命令を選択する。入力は、制御ボタン4
0の1つによる接触入力又は音声入力であってもよい。音声入力は、Nベスト適
合リスト中の各々の命令に割当てられた選択識別名の発声を含むことが好ましい
。例えば、使用者は、例えば、意図した命令として最初にリストアップされた適
合命令を選択するには「1」又は「a」と、2番目にリストアップされた命令に
ついては「2」又は「b」と発声するよう指示され得る。
【0034】 好ましくは、話者が一度Nベスト適合リストから命令を選択すると、プロセッ
サ20は、選択命令が最も高い適合確率加重を有しているか否かを決定できる。
そうであれば、音声エンジン54は、発話命令を正確に認識しており適合は行な
わない。そうでなければ、ステップ90で、適合アルゴリズムは、選択命令に対
するステップ74で受信した音声信号の相関関係を用いて実行される。適合アル
ゴリズムは音声エンジン54を修正して、ステップ76で受信した音声信号の音
声パターン及び音声特性を有する音声信号を、選択命令として認識する。このこ
とは、音声エンジンモデルの認識パラメータが修正される適合アルゴリズムを用
いて達成できる。これらのパラメータは、公知の各々の音声命令に関するVCS
メモリ52に記憶される音響波形モデルを含むことができ、適合アルゴリズムは
、関連する命令についてのアクティブなモデルを、ステップ76で受信した音声
信号の音響特性に置き換えることができる。もしくは、認識パラメータは、関連
する命令についての音声分類セットを含むことができ、これはステップ76で受
信した音声信号に応じて修正される。
【0035】 最後に、ステップ84で、プロセッサ20、50は、関連する付属品へ選択命
令を出力してタスクが実行される。
【0036】 本発明は、前述の好適な実施形態で詳細に説明されていない他の態様を含むこ
とができる。前述の内容は、本発明の範囲を限定するものではない。従って、本
発明の全範囲は請求項を参照することで見出せる。
【図面の簡単な説明】
【図1】 車両付属品の制御のための音声認識システムを有する自動車の計器パネルの部
分正面図である。
【図2】 図1の車内音声認識システムのブロック図であり、本発明の選択的話者適合方
法を利用している。
【図3】 図2の音声認識システムにおいて使用するための、音声エンジン・アーキテク
チャのブロック図である。
【図4】 反復トレーニング手順に基づいて音声エンジンを適合させる従来技術の方法を
示すブロック図であり、話者は、不規則に生成される音声命令又は所定の音声命
令を複数回だけ発話するよう指示される。
【図5】 話者が語句を発声してNベスト適合命令リストから意図する命令を選択するこ
とによって、音声エンジンを選択的に適合させる方法を示すブロック図である。
【図6】 本発明の選択的話者適合方法を実行するための好適な実施形態を示すフローチ
ャートである。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 トンプソン スコット アラン アメリカ合衆国 ミシガン州 48187 キ ャントン ボッツフォード コート 6259 Fターム(参考) 5D015 KK01

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 車両付属品を音声で操作するための車載音声認識システムの
    選択的話者適合方法であって、 (A)話者に依存する音声特性を有し公知の自動車命令に関連する話者の発話
    を受信する段階と、 (B)前記発話を認識パラメータに応じて処理する段階と、 (C)前記処理された発話に適合する公知の自動車命令のNベストセットを識
    別する段階と、 (D)前記Nベスト命令セットを前記話者に出力する段階と、 (E)前記Nベスト命令セットから正確な自動車命令を選択する話者の入力を
    受信する段階と、 (F)前記音声特性を有する発話を前記正確な自動車命令として認識すること
    によって、前記認識システムが前記話者に適合するように前記認識パラメータを
    調整する段階と、 を含むことを特徴とする方法。
  2. 【請求項2】 前記認識パラメータが音響波形モデルであり、前記発話の音
    声特性が話者に依存する音響波形特性であり、前記適合段階(F)が、前記正確
    な自動車命令に関する前記音響波形モデルに対して前記波形特性を相関させる段
    階を含むことを特徴とする請求項1に記載の方法。
  3. 【請求項3】 前記認識パラメータが音声分類セットであり、前記適合段階
    (F)が、前記発話に応じて前記正確な命令に関する前記音声分類セットを変更
    する段階を更に含むことを特徴とする請求項1に記載の方法。
  4. 【請求項4】 前記段階(D)が、表示装置上へのNベスト命令セットを表
    示する段階を含むことを特徴とする請求項1に記載の方法。
  5. 【請求項5】 前記段階(D)が、Nベスト命令セットを処理する段階と、
    車両オーディオシステムによって前記N−ベスト命令セットを可聴的に出力する
    段階とを含むことを特徴とする請求項1に記載の方法。
  6. 【請求項6】 前記可聴的に出力されるNベスト命令セットが、選択識別名
    を含み、前記話者選択入力が、前記選択識別名を含む発話であることを特徴とす
    る請求項5に記載の方法。
  7. 【請求項7】 前記話者からのトレーニングモード入力を受信する段階を更
    に含み、前記(D)−(F)の段階が、前記トレーニングモード入力が受信され
    た場合にのみ実行されることを特徴とする請求項1に記載の方法。
  8. 【請求項8】 前記トレーニングモード入力が、トレーニングモード音声命
    令の1つ及び接触スイッチであることを特徴とする請求項7に記載の方法。
  9. 【請求項9】 前記トレーニングモード音声命令が、反復発話であることを
    特徴とする請求項8に記載の方法。
  10. 【請求項10】 前記反復発話が、所望の付属品の操作が既に実行されてい
    る場合にのみ、前記トレーニングモードとして認識されることを特徴とする請求
    項9に記載の方法。
  11. 【請求項11】 前記識別段階(C)が、前記Nベスト命令セット内の前記
    公知の自動車命令の各々に対する適合確率加重を割当てる段階を含むことを特徴
    とする請求項1に記載の方法。
  12. 【請求項12】 前記N−ベスト命令セット中の前記自動車命令の1つが最
    も高い適合確率加重を有し、前記話者が、前記正確な自動車命令として前記最も
    高い適合確率の命令を選択しなかった場合にのみ、前記適合段階(F)を実行す
    ることを特徴とする請求項9に記載の方法。
  13. 【請求項13】 前記正確な自動車命令に対応する付属品の操作を実行する
    段階を更に備えることを特徴とする請求項1に記載の方法。
  14. 【請求項14】 前記Nベスト命令セットが、少なくとも3つの公知の自動
    車命令を備えることを特徴とする請求項1に記載の方法。
JP2001581271A 2000-05-04 2001-05-04 車載音声認識システムのための選択的話者適合方法 Pending JP2003532163A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/565,304 US6587824B1 (en) 2000-05-04 2000-05-04 Selective speaker adaptation for an in-vehicle speech recognition system
US09/565,304 2000-05-04
PCT/US2001/014402 WO2001084538A1 (en) 2000-05-04 2001-05-04 Selective speaker adaptation for an in-vehicle speech recognition system

Publications (1)

Publication Number Publication Date
JP2003532163A true JP2003532163A (ja) 2003-10-28

Family

ID=24258018

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001581271A Pending JP2003532163A (ja) 2000-05-04 2001-05-04 車載音声認識システムのための選択的話者適合方法

Country Status (5)

Country Link
US (1) US6587824B1 (ja)
JP (1) JP2003532163A (ja)
DE (1) DE10191732B4 (ja)
GB (1) GB2366434B (ja)
WO (1) WO2001084538A1 (ja)

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7580782B2 (en) * 1995-10-30 2009-08-25 Automotive Technologies International, Inc. Vehicular electronic system with crash sensors and occupant protection systems
JP2004505322A (ja) * 2000-07-28 2004-02-19 シーメンス ヴィディーオー オートモーティヴ コーポレイション 遠隔操作系のユーザーインターフェイス
US7236859B2 (en) * 2000-09-01 2007-06-26 Cattron Intellectual Property Corporation Remote control system for a locomotive
JP3919210B2 (ja) * 2001-02-15 2007-05-23 アルパイン株式会社 音声入力案内方法及び装置
US6754627B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Detecting speech recognition errors in an embedded speech recognition system
US6963760B2 (en) * 2001-10-01 2005-11-08 General Motors Corporation Method and apparatus for generating DTMF tones using voice-recognition commands during hands-free communication in a vehicle
US7996232B2 (en) * 2001-12-03 2011-08-09 Rodriguez Arturo A Recognition of voice-activated commands
US6889191B2 (en) * 2001-12-03 2005-05-03 Scientific-Atlanta, Inc. Systems and methods for TV navigation with compressed voice-activated commands
US20030120493A1 (en) * 2001-12-21 2003-06-26 Gupta Sunil K. Method and system for updating and customizing recognition vocabulary
JP2003241790A (ja) * 2002-02-13 2003-08-29 Internatl Business Mach Corp <Ibm> 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
KR100434545B1 (ko) * 2002-03-15 2004-06-05 삼성전자주식회사 홈네트워크로 연결된 가전기기들을 제어하는 방법 및 장치
US7676366B2 (en) * 2003-01-13 2010-03-09 Art Advanced Recognition Technologies Inc. Adaptation of symbols
JP2004239963A (ja) * 2003-02-03 2004-08-26 Mitsubishi Electric Corp 車載制御装置
DE10313310A1 (de) * 2003-03-25 2004-10-21 Siemens Ag Verfahren zur sprecherabhängigen Spracherkennung und Spracherkennungssystem dafür
WO2004102329A2 (en) * 2003-05-08 2004-11-25 Good Health Network, Inc. Secure healthcare database system and method
US7986974B2 (en) * 2003-05-23 2011-07-26 General Motors Llc Context specific speaker adaptation user interface
US20100246837A1 (en) * 2009-03-29 2010-09-30 Krause Lee S Systems and Methods for Tuning Automatic Speech Recognition Systems
US9844326B2 (en) 2008-08-29 2017-12-19 University Of Florida Research Foundation, Inc. System and methods for creating reduced test sets used in assessing subject response to stimuli
US9319812B2 (en) 2008-08-29 2016-04-19 University Of Florida Research Foundation, Inc. System and methods of subject classification based on assessed hearing capabilities
US9553984B2 (en) 2003-08-01 2017-01-24 University Of Florida Research Foundation, Inc. Systems and methods for remotely tuning hearing devices
US20050186992A1 (en) * 2004-02-20 2005-08-25 Slawomir Skret Method and apparatus to allow two way radio users to access voice enabled applications
US7421387B2 (en) * 2004-02-24 2008-09-02 General Motors Corporation Dynamic N-best algorithm to reduce recognition errors
US20050187767A1 (en) * 2004-02-24 2005-08-25 Godden Kurt S. Dynamic N-best algorithm to reduce speech recognition errors
US20050280524A1 (en) * 2004-06-18 2005-12-22 Applied Digital, Inc. Vehicle entertainment and accessory control system
US20060155429A1 (en) * 2004-06-18 2006-07-13 Applied Digital, Inc. Vehicle entertainment and accessory control system
US8005668B2 (en) * 2004-09-22 2011-08-23 General Motors Llc Adaptive confidence thresholds in telematics system speech recognition
US20060258336A1 (en) * 2004-12-14 2006-11-16 Michael Sajor Apparatus an method to store and forward voicemail and messages in a two way radio
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7895039B2 (en) 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
US7904300B2 (en) * 2005-08-10 2011-03-08 Nuance Communications, Inc. Supporting multiple speech enabled user interface consoles within a motor vehicle
US20070136063A1 (en) * 2005-12-12 2007-06-14 General Motors Corporation Adaptive nametag training with exogenous inputs
US20070136069A1 (en) * 2005-12-13 2007-06-14 General Motors Corporation Method and system for customizing speech recognition in a mobile vehicle communication system
US20070157285A1 (en) * 2006-01-03 2007-07-05 The Navvo Group Llc Distribution of multimedia content
US20070156853A1 (en) * 2006-01-03 2007-07-05 The Navvo Group Llc Distribution and interface for multimedia content and associated context
US8626506B2 (en) * 2006-01-20 2014-01-07 General Motors Llc Method and system for dynamic nametag scoring
US7872574B2 (en) * 2006-02-01 2011-01-18 Innovation Specialists, Llc Sensory enhancement systems and methods in personal electronic devices
US9583096B2 (en) * 2006-08-15 2017-02-28 Nuance Communications, Inc. Enhancing environment voice macros via a stackable save/restore state of an object within an environment controlled by voice commands for control of vehicle components
TWI311311B (en) * 2006-11-16 2009-06-21 Inst Information Industr Speech recognition device, method, application program, and computer readable medium for adjusting speech models with selected speech data
US20080147411A1 (en) * 2006-12-19 2008-06-19 International Business Machines Corporation Adaptation of a speech processing system from external input that is not directly related to sounds in an operational acoustic environment
US20090055180A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method for optimizing speech recognition in a vehicle
KR20090107365A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
US20100082559A1 (en) * 2008-09-19 2010-04-01 General Motors Corporation Method of managing a schedule-based software package update
US8285545B2 (en) * 2008-10-03 2012-10-09 Volkswagen Ag Voice command acquisition system and method
KR101556594B1 (ko) * 2009-01-14 2015-10-01 삼성전자 주식회사 신호처리장치 및 신호처리장치에서의 음성 인식 방법
US20120004910A1 (en) * 2009-05-07 2012-01-05 Romulo De Guzman Quidilig System and method for speech processing and speech to text
DE102009039889B4 (de) 2009-09-03 2021-10-07 Volkswagen Ag Vorrichtung und Verfahren zum Erfassen von Sprache in einem Kraftfahrzeug
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US8787977B2 (en) * 2010-04-08 2014-07-22 General Motors Llc Method of controlling dialing modes in a vehicle
US8738377B2 (en) * 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
JP2013529794A (ja) * 2010-06-24 2013-07-22 本田技研工業株式会社 車載音声認識システム及び車両外音声認識システム間の通信システム及び方法
US8532674B2 (en) * 2010-12-10 2013-09-10 General Motors Llc Method of intelligent vehicle dialing
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US20120323574A1 (en) * 2011-06-17 2012-12-20 Microsoft Corporation Speech to text medical forms
EP2665059B1 (en) * 2011-10-25 2016-02-10 Olympus Corporation Endoscope operation system
US9317605B1 (en) 2012-03-21 2016-04-19 Google Inc. Presenting forked auto-completions
AU2013290340B2 (en) 2012-07-16 2017-10-26 Valco Acquisition Llc Medical procedure monitoring system
US9558739B2 (en) * 2012-11-13 2017-01-31 GM Global Technology Operations LLC Methods and systems for adapting a speech system based on user competance
US20140136204A1 (en) * 2012-11-13 2014-05-15 GM Global Technology Operations LLC Methods and systems for speech systems
US9502030B2 (en) * 2012-11-13 2016-11-22 GM Global Technology Operations LLC Methods and systems for adapting a speech system
US9601111B2 (en) * 2012-11-13 2017-03-21 GM Global Technology Operations LLC Methods and systems for adapting speech systems
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9646606B2 (en) 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
TWI536366B (zh) * 2014-03-18 2016-06-01 財團法人工業技術研究院 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體
CN105334997A (zh) * 2014-08-12 2016-02-17 扬智科技股份有限公司 智能输入装置及其设定方法与控制方法
US10325591B1 (en) * 2014-09-05 2019-06-18 Amazon Technologies, Inc. Identifying and suppressing interfering audio content
JP2016061954A (ja) * 2014-09-18 2016-04-25 株式会社東芝 対話装置、方法およびプログラム
KR102371697B1 (ko) * 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
EP3089159B1 (en) * 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
KR101910383B1 (ko) * 2015-08-05 2018-10-22 엘지전자 주식회사 차량 운전 보조 장치 및 이를 구비한 차량
US9996517B2 (en) * 2015-11-05 2018-06-12 Lenovo (Singapore) Pte. Ltd. Audio input of field entries
US10475447B2 (en) * 2016-01-25 2019-11-12 Ford Global Technologies, Llc Acoustic and domain based speech recognition for vehicles
DE102016212681A1 (de) 2016-07-12 2018-01-18 Audi Ag Steuervorrichtung und Verfahren zum sprachbasierten Betreiben eines Kraftfahrzeugs
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US10950229B2 (en) * 2016-08-26 2021-03-16 Harman International Industries, Incorporated Configurable speech interface for vehicle infotainment systems
US20190179416A1 (en) * 2017-12-12 2019-06-13 Ford Global Technologies, Llc Interactive vehicle speech recognition and correction system
EP3781452B1 (de) * 2018-06-21 2022-03-02 Siemens Mobility GmbH Verfahren und vorrichtung zum steuern eines schienenfahrzeugs mittels sprachmitteilung
KR20200098079A (ko) * 2019-02-11 2020-08-20 현대자동차주식회사 대화 시스템 및 대화 처리 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
JPS5870287A (ja) * 1981-10-22 1983-04-26 日産自動車株式会社 音声認識装置
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
EP0559349B1 (en) * 1992-03-02 1999-01-07 AT&T Corp. Training method and apparatus for speech recognition
ATE251058T1 (de) * 1994-03-18 2003-10-15 Vcs Ind Inc D B A Voice Contro Sprachgesteuertes fahrzeugalarmsystem
US5864810A (en) 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
US5835890A (en) * 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
US6205426B1 (en) * 1999-01-25 2001-03-20 Matsushita Electric Industrial Co., Ltd. Unsupervised speech model adaptation using reliable information among N-best strings
US6377924B1 (en) * 1999-03-12 2002-04-23 Texas Instruments Incorporated Method of enrolling phone-based speaker specific commands
US6374221B1 (en) * 1999-06-22 2002-04-16 Lucent Technologies Inc. Automatic retraining of a speech recognizer while using reliable transcripts
US6230138B1 (en) 2000-06-28 2001-05-08 Visteon Global Technologies, Inc. Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system

Also Published As

Publication number Publication date
US6587824B1 (en) 2003-07-01
DE10191732B4 (de) 2005-10-06
WO2001084538A1 (en) 2001-11-08
GB2366434B (en) 2004-01-21
GB2366434A (en) 2002-03-06
DE10191732T1 (de) 2003-04-03

Similar Documents

Publication Publication Date Title
US6587824B1 (en) Selective speaker adaptation for an in-vehicle speech recognition system
US6230138B1 (en) Method and apparatus for controlling multiple speech engines in an in-vehicle speech recognition system
EP2045140B1 (en) Adjustment of vehicular elements by speech control
US8738368B2 (en) Speech processing responsive to a determined active communication zone in a vehicle
US7676363B2 (en) Automated speech recognition using normalized in-vehicle speech
US8688451B2 (en) Distinguishing out-of-vocabulary speech from in-vocabulary speech
US7881929B2 (en) Ambient noise injection for use in speech recognition
EP1695177B1 (en) Wirelessly delivered owner s manual
US8005681B2 (en) Speech dialog control module
CN109545219A (zh) 车载语音交互方法、系统、设备及计算机可读存储介质
US8762151B2 (en) Speech recognition for premature enunciation
US20070150287A1 (en) Method for driving a dialog system
JP2004126413A (ja) 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
US20130211828A1 (en) Speech processing responsive to active noise control microphones
JP2017090612A (ja) 音声認識制御システム
JPH1165587A (ja) 車両用音声入力装置
JPH11126092A (ja) 音声認識装置および車両用音声認識装置
JP2018116130A (ja) 車内音声処理装置および車内音声処理方法
KR20220073513A (ko) 대화 시스템, 차량 및 대화 시스템의 제어 방법
JP2020144285A (ja) エージェントシステム、情報処理装置、移動体搭載機器制御方法、及びプログラム
JP2000322074A (ja) 音声入力区間判定装置,音声データ抽出装置,音声認識装置,車両用ナビゲーション装置及び入力用マイク
US20160336912A1 (en) Automatic gain control module, method for controlling the same, vehicle including the automatic gain control module, and method for controlling the vehicle
JPH07219582A (ja) 車載用音声認識装置
US20230238020A1 (en) Speech recognition system and a method for providing a speech recognition service
JP3679617B2 (ja) 音声伝達方式

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050801

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060104