JP2004508593A

JP2004508593A - コンピュータにより実現される音声認識システムトレーニング

Info

Publication number: JP2004508593A
Application number: JP2002525641A
Authority: JP
Inventors: ウォルチャック，ドナルド・エル; リグズビィ，スティーブン
Original assignee: スナップ　−　オン　テクノロジーズ，インコーポレイテッド
Priority date: 2000-09-01
Filing date: 2001-08-03
Publication date: 2004-03-18
Also published as: EP1314151A1; CN1451152A; US6556971B1; WO2002021509A1; CN1189861C; EP1314151B1; AU2001279172A1; TW571290B

Abstract

コンピュータにより実現される音声システムのトレーニングは、或る概念を表わすアイコンを表示するステップと、ユーザに対し、ユーザがアイコンに関連付けようと決めた任意の音を含む発声を生じさせるように指示するステップと、アイコンと発声との関連付けを確認するステップと、アイコンと発声との関連付けをコンピュータ可読媒体に保存するステップとを含む。この発明は、車輪アライメントまたは車両エンジン診断を含む車両診断の分野に対して特に適用可能であるが、これらに限定はされない。

Description

【０００１】
【発明の背景】
１．発明の分野
この発明は音声認識システムのトレーニングに関し、より特定的には、ユーザが選択した発声を、アイコンにより表わされる概念に関連付けるための、コンピュータにより実現される音声認識システムのトレーニングに関するものである。
【０００２】
２．関連技術の説明
音声認識の分野では、ユーザの発音または発声を基準発声パターンに関係付けるための多くの方法が実現されている。典型的に基準発声パターンは、意図された環境で音声認識システムを用いる前の「トレーニングセッション」の際に作成される。このトレーニングセッションで既存の音声認識トレーニングシステムは、ユーザに対し、画面上に表示された特定の語に対応する発声をマイクロホンに向かって言うように指示する。当業者には理解されるように、アナログ・デジタル変換器、ならびにフィルタおよび増幅器などの適当な電子機器によって、発声は信号へと変換され、信号はソフトウェアによって代表的な波形またはベクトルへと処理される。発声は、たとえばフーリエ変換を利用して多次元ベクトルへと変えることができ、こうして特定の時間単位にわたる発声のスペクトル特性のデジタル値を表現する一連のフレームがもたらされる。
【０００３】
音声認識システムはたとえば製造、修理、アビオニクス、および医療用途で用いられているが、それは、これらの場面ではユーザが手作業を行なうために自分の手を空けておく一方で、コンピュータで制御される機械または機器で実行され得る第２の手作業を同時に行なうことが重要だからである。第１の作業を行なっているユーザは、マイクロホンを用いて１つ以上の指定されたシステムを制御することができ、ここでユーザは各々の追加の作業を別々に行なうための時間および／または注意力を割かなくてもよい。この種のシステムは自動車用途で用いられ、これによりユーザはコンピュータに接続されたリフトまたはジャッキなどの装置を制御できる。この種のシステムはさらに車輪アライメント工程でも用いられ、車両を特定のアライメント値と適合させるために必要な調節を行なうようにユーザを導くフィードバックおよびセンサデータを提供する。
【０００４】
音声認識アプリケーションを含む従来のソフトウェアアプリケーションは、概念または予め定められたプログラム命令セットの略記法としてアイコンを用いることが多くなっている。これによってユーザは、アイコンをクリックまたは選択すると、予め定められたイベントまたは一連のイベントの発生を知る。アイコンのすぐそばにはしばしば標識または文章枠が配置され、これによって、アイコンで表わされる概念の意味についてさらなる手掛りが与えられる。標識または文章枠は特に音声認識アプリケーションでは重要であり、ここでソフトウェアおよびコンピュータは、ユーザが口にするコマンドを所望のアイコンに関係付けるように仕込まれる。従来は、ソフトウェアが実際に必要としているか、または単に混乱を避けるために、ユーザはアイコンのそばに表示された特定の語を復唱する。たとえば或るアイコンがフロッピー（Ｒ）ディスクの外観を呈しており、そのそばに“ｓａｖｅ（保存）”と書いてある標識があれば、ユーザは自分の“ｓａｖｅ”の発音をソフトウェアが認識するようにトレーニングすることになる。これではユーザは、その他の、自分にとってよりわかりやすい、または意味が明らかな発声または語を用いることを制限されてしまい、この問題は、アイコンが表わす概念の性質がより抽象的で規定が困難なものになるほど重大性を帯びてくる。
【０００５】
さらに、これら音声認識システムを外国語に対応させることにはしばしば困難が伴うが、それは、ソフトウェアの表示とリレーショナル言語データベースとの両方に修正を加える必要があり、こうしてシステムにさらなる費用および複雑さが加わるからである。別途の言語データベース（たとえば日本語）が利用可能でない場合、基本言語（たとえば英語）に堪能でない人は、基準語を理解および／または発音するのに困難を覚え、こうして生産性が落ちてしまう可能性がある。また基準語で略語が用いられていると、これを母国語としない話者はさらなる困難を抱え、生産性はさらに損なわれかねないが、このことは関連付けられた語句および作業が複雑になるにつれて特に顕著になる。
【０００６】
極端な場合には、人が自分の母語の読解に習熟していない、または言語障害があることすらあり、特定の語および対応する行為間の対応関係にのみ基づく音声認識制御システムでは、そのトレーニングおよび実現にさらなる障害が生じてしまう。このような困難を乗り越えたとしても、所望の効果または結果と、所望の効果または結果について外的に与えられた規定とを関係付けることは常に容易なわけではない。換言すると、行為または一連の行為についてのソフトウェア設計者の規定または略記法的な概念は、ユーザ自身の経験に基づく、同じ行為または一連の行為についてのユーザの内的な規定と正しく対応しない可能性がある。こうして、ソフトウェアにより与えられた特定の関係をユーザが覚えることができない、という形で明らかとなるニーモニック上の不整合性が潜在的に存在し、ユーザは手元にある作業から望ましくないほど注意を逸らさなければならない。
【０００７】
したがって、実質的に言語によって影響されず、個々のユーザにとって快適な音声認識システムのトレーニングが必要とされている。
【０００８】
【発明の概要】
この発明は、上で特定された要求を満たすために、さまざまな局面および実施例において、ユーザが選択した発声を、アイコンで表現される概念に関連付けるための、コンピュータにより実現される音声認識システムのトレーニングを提供する。
【０００９】
一局面で、コンピュータにより実現される音声認識システムをトレーニングするための方法は、或る概念を表わすアイコンを表示するステップと、ユーザがアイコンに関連付けようと決めた任意の音を含む発声を生じさせるように、ユーザに対して指示するステップとを含む。この方法はさらに、アイコンと発声との間の関連付けを確認するステップと、アイコンと発声との間の関連付けをコンピュータ可読媒体に保存するステップとを含む。
【００１０】
別の局面で、コンピュータ可読媒体は、ユーザが発した音と、ユーザが選択したアイコンに関連付けられた概念とを、コンピュータが関連付けることを可能にする命令を担い、ここで音は、ユーザがアイコンに関係付けたいと望む任意の音または音の組合せを含み得る。命令は、ユーザが発した音を、選択されたアイコンに関連付けられた概念または命令セットに関係付ける。こうして音、および音とアイコンの概念との関係が記憶される。さらに命令は、ユーザによる後続の音を、記憶された音と比較して、後続の音が記憶された音に対応するかどうかを判断できる。一致が存在すれば、記憶された音とアイコンの概念との関係を用いて、識別されたアイコンに対応する命令セットを実行する。
【００１１】
さらに別の局面では、コンピュータに基づく車両診断システムが音声認識プログラム製品を含み、これはコンピュータプロセッサとともに、音から信号への変換器たとえばマイクロホンによりプロセッサに与えられた信号を処理し、ディスプレイ上に表示されたアイコンで表わされる概念を、ユーザが決めた任意の音に関係付けるように構成される。
【００１２】
この発明に関する上記およびその他の局面および利点は、以下の詳細な説明および添付の図面から当業者に明らかとなるであろう。
【００１３】
【好ましい実施例の説明】
音声認識ソフトウェアの話者登録およびトレーニングによってユーザは、音声コマンドを用いてデータを入力し、データを受取り、さらにコンピュータを通じ機器を動作させることによって、手元の作業から過度の時間または注意力を逸らすことなく効率的に多数の作業を行なうことができる。たとえば車輪アライナの動作では、センサから入手された測定値から算出されたアライメント値が、当業者に公知の態様で、車両仕様書に従い必要とされるアライメント値と比較される。ここに記載の方法およびシステムに従うと、コンピュータにより実現される音声認識システムは、ユーザが選択した発声と、ディスプレイに出力されたアイコンで表わされる概念とを関連付けるように構成される。
【００１４】
図１は、この発明の一実施例が実現され得るコンピュータシステム１００を例示するブロック図である。コンピュータシステム１００は、情報を通信するためのバス１０２またはその他の通信機構と、バス１０２に結合され、情報を処理するためのプロセッサ１０４とを含む。コンピュータシステム１００はさらに、ランダムアクセスメモリ（ＲＡＭ）またはその他の動的記憶装置などの主メモリ１０６を含み、これはバス１０２に結合されて、プロセッサ１０４が実行することになる情報および命令を記憶するためのものである。主メモリ１０６はさらに、プロセッサ１０４が実行する命令の実行中に、一時変数またはその他の中間情報を記憶するためにも用いられ得る。コンピュータシステム１００はさらに、バス１０２に結合されて、プロセッサ１０４のための静的情報および命令を記憶するための、読取専用メモリ（ＲＯＭ）１０８またはその他の静的記憶装置を含む。磁気ディスクまたは光ディスクなどの記憶装置１１０が情報および命令を記憶するために設けられてバス１０２に結合される。
【００１５】
コンピュータシステム１００は、バス１０２を介して、情報をコンピュータのユーザに対して表示するための陰極線管（ＣＲＴ）などのディスプレイ１１２に結合され得る。英数字またはその他のキーを含む入力装置１１４がバス１０２に結合され、情報およびコマンド選択をプロセッサ１０４へ通信する。その他のユーザ入力装置の種類は、マウス、トラックボール、またはカーソルキーなどのカーソル操作装置１１６であり、これは、方向情報およびコマンド選択をプロセッサ１０４へ通信し、ディスプレイ１１２上のカーソルの動きを操作するためのものである。典型的にこの入力装置は、第１の軸（たとえばｘ）および第２の軸（たとえばｙ）の２本の軸における２つの自由度を有し、装置はこれによって平面上の位置を特定することができる。
【００１６】
コンピュータシステム１００は、音声認識システムをトレーニングして、ユーザが選択した発声と、コンピュータシステムにより表示されたアイコンで表わされる概念とを関連付けるために用いられる。これに従い、ユーザが選択した発声をアイコンで表わされた概念に関連付けるための音声認識システムトレーニングは、主メモリ１０６内にある１つ以上の命令の１つ以上のシーケンスを実行するプロセッサ１０４に応答して、コンピュータシステム１００により可能となる。このような命令は、記憶装置１１０などの別のコンピュータ可読媒体から主メモリ１０６へ読出され得る。
【００１７】
主メモリ１０６内にある情報のシーケンスの実行は、プロセッサ１０４がここに記載のプロセスステップを行なうことを引起す。主メモリ１０６内にある命令シーケンスを実行するためには、多重処理構成にある１つ以上のプロセッサを採用することもできる。これに代わる実施例では、ソフトウェア命令の代わりに、またはこれと組合せてハードウェア回路を用いることができ、ハードウェア回路とソフトウェアとの特定の組合せは要件でないことが理解されるべきである。
【００１８】
命令は任意の数の形式で設けることができ、これにはたとえばソースコード、アセンブリコード、オブジェクトコード、機械語、以上を圧縮または暗号化したもの、ならびにこれらの任意およびすべての均等物がある。「コンピュータ可読媒体」とは、プロセッサ１０４が実行するようにここへに命令を与えることに関与するあらゆる媒体を指し、「プログラム製品」とは、コンピュータで実行可能なプログラムを担うあらゆるコンピュータ可読媒体を指す。コンピュータで使用可能な媒体は、命令を「担っている」と言うことができ、これは、命令がコンピュータ使用可能媒体と関連付けられるすべての仕方を包含する。
【００１９】
コンピュータ可読媒体は不揮発性媒体、揮発性媒体および伝送媒体を含むが、これらに限定はされない。不揮発性媒体はたとえば、記憶装置１１０などの光ディスクまたは磁気ディスクを含む。揮発性媒体は、主メモリ１０６などの動的メモリを含む。伝送媒体は、バス１０２を構成する線を含む同軸ケーブル、銅線および光ファイバを含む。伝送媒体はさらに、無線周波数（ＲＦ）および赤外線（ＩＲ）データ通信の際に生成されるものなどの、音波または光波の形態を取ることもできる。コンピュータ可読媒体の一般的な形態は、たとえばフロッピー（Ｒ）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、その他任意の磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤ、その他任意の光媒体、パンチカード、紙テープ、その他任意の孔パターンを有する物理的媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、フラッシュＥＰＲＯＭ、その他任意のメモリチップまたはカートリッジ、後に記載の搬送波、またはその他任意のコンピュータ読出可能媒体を含む。
【００２０】
１つ以上の命令の１つ以上のシーケンスを、プロセッサ１０４が実行するようにここへ運ぶことには、さまざまな形態のコンピュータ可読媒体が関与し得る。たとえば命令は、まず遠隔コンピュータの磁気ディスク上に担われることがある。遠隔コンピュータは命令をその動的メモリへロードして、モデムを用い電話回線経由で命令を送信することができる。コンピュータシステム１００についてローカルなモデムは電話回線上のデータを受取り、赤外線送信機を用いてデータを赤外線信号に変換できる。バス１０２に結合された赤外線検出器は、赤外線信号で搬送されたデータを受信してデータをバス１０２上に置くことができる。バス１０２はデータを主メモリ１０６へ伝え、プロセッサ１０４はここから命令を検索および実行する。任意には、プロセッサ１０４による実行前または実行後に、主メモリ１０６が受取った命令を記憶装置１１０に記憶させることができる。
【００２１】
コンピュータシステム１００はさらに、バス１０２に結合された通信インターフェイス１１８を含むこともあり、これによって、ローカルネットワーク１２２に接続されたネットワークリンク１２０との双方向データ通信結合がもたらされる。たとえば通信インターフェイス１１８は、対応する種類の電話回線へのデータ通信接続をもたらすための、統合サービスデジタル通信網（ＩＳＤＮ）カードまたはモデムであることができる。別の例で通信インターフェイス１１８は、対応するＬＡＮへのデータ通信接続を与えるためのローカルエリアネットワーク（ＬＡＮ）カードであってもよい。無線リンクもまた実現可能である。このような実現例では、通信インターフェイス１１８は、さまざまな種類の情報を表わすデジタルデータの流れを搬送する電気信号、電磁信号または光信号を送受信する。
【００２２】
ネットワークリンク１２０は典型的に、１つ以上のネットワーク経由で他のデータサービスへのデータ通信を与える。たとえばネットワークリンク１２０は、ローカルネットワーク１２２を通じホストコンピュータ１２４へ、またはインターネットサービスプロバイダ（ＩＳＰ）１２６により動作するデータ装置への接続を与えることができる。次にＩＳＰ１２６は、現在一般に「インターネット」１２８と呼ばれている世界規模のパケットデータ通信網経由のデータ通信サービスを提供する。ローカルネットワーク１２２およびインターネット１２８はともに、デジタルデータの流れを搬送する電気信号、電磁信号または光信号を用いる。デジタルデータをコンピュータシステム１００へ、およびここから搬送する、さまざまなネットワーク経由の信号、ならびにネットワークリンク１２０上および通信インターフェイス１１８経由の信号は、情報を運ぶ搬送波の例示的な形態である。したがって、ここで例を用いて説明するこの発明の方法で必要な処理は、記憶装置１１０を用いてローカルコンピュータで実現されることも、またはたとえばＬＡＮ上もしくはインターネット上で実現されることもある。
【００２３】
コンピュータシステム１００はネットワーク、ネットワークリンク１２０および通信インターフェイス１１８経由でメッセージを送信し、プログラムコードを含むデータを受信することができる。インターネットの例では、サーバ１３０が、アプリケーションプログラムのために要求されたコードをインターネット１２８、ＩＳＰ１２６、ローカルネットワーク１２２、そして通信インターフェイス１１８経由で送信できる。この発明に従うと、このようなダウンロードされた１つのアプリケーションが、音声認識システムをトレーニングすることで、ユーザが選択した発声と、ここに記載のアイコンによって表わされる概念とを関連付けることを可能にする。受信されたコードは、受信されるとプロセッサ１０４によって実行され、および／または記憶装置１１０、もしくはその他の不揮発性記憶装置で、後の実行のために記憶される。この態様でコンピュータシステム１００は、搬送波の形でアプリケーションコードを入手できる。
【００２４】
動作について、ユーザは、音から信号への変換器またはマイクロホン１１７、たとえばマサチューセッツ州ウスター（Ｗｏｒｃｅｓｔｅｒ，Ｍａｓｓａｃｈｕｓｅｔｔｓ）のデービッド・クラーク・カンパニー（ＤａｖｉｄＣｌａｒｋＣｏｍｐａｎｙ）により入手可能なウェアラブル“ＤＣＮＣ”ヘッドセットなどに向って発声を口にする。これに代えて、１つ以上の固定マイクロホン１１７を仕事の現場またはコンピュータ１００のそばに配置することもできる。システムは、マイクロホン１１７と制御装置１００との間の通信をやり取りするためのハードウェア送受信機を含むことができる。これに代えて、ユーザと、この発明の方法を実現するコンピュータ１００と、主メモリ１０６または記憶装置１１０に記憶された、この発明の方法を容易にするソフトウェアとの間の通信は、たとえばドイツに基盤を置くＧＮネットコム（ＧＮＮｅｔｃｏｍ）^ＴＭにより製造されているエリップス（Ｅｌｌｉｐｓｅ）^ＴＭなど、当該技術で一般に公知の種類の高周波数無線装置によって実現され得る。この装置は、制御装置内に位置付けられた対応する送受信機と通信する。信号は、電気信号、電磁信号または光信号による伝送を含む従来のデータ伝送手段によって伝送用に適当に符号化され、送信機によって、コンピュータ１００と関連付けられた受信機へ送信され得る。
【００２５】
ユーザの動きの自由を確保しながらユーザとコンピュータ１００との対話を容易にするために、眼鏡またはバイザーと動作的に関連付けられた頭上型ディスプレイなどの携帯用またはウェアラブルディスプレイ１１２を介してユーザにデータを与えることができ、これにはたとえばバージニア州フェアファックス（Ｆａｉｒｆａｘ，Ｖｉｒｇｉｎｉａ）のザイバーノート（Ｘｙｂｅｒｎａｕｔ）^ＴＭにより製造されている「モバイルアシスタントＩＶ（ＭｏｂｉｌｅＡｓｓｉｓｔａｎｔＩＶ）」^ＴＭが含まれ、後に論じるこの発明の方法の実現についてユーザを支援する。別の好適なウェアラブルディスプレイには、ワシントン州レッドモンド（ＲｅｄｍｏｎｄＷａｓｈｉｎｇｔｏｎ）のバーチャル・ビジョン・インコーポレイテッド（ＶｉｒｔｕａｌＶｉｓｉｏｎ，Ｉｎｃ．）から入手可能な「バーチャル・ビジョン・スポート（ＶｉｒｔｕａｌＶｉｓｉｏｎＳｐｏｒｔ）」または「イー・グラス（ｅＧｌａｓｓ）」携帯用モニタが含まれる。後に説明する音声認識トレーニングの方法は、従来のＣＲＴディスプレイ、フラットパネルディスプレイ（たとえばＬＥＤ、ＬＣＤおよびＬＣＯＳ（シリコン上の液晶）ディスプレイを含む）、または投影像によっても実現され得る。選択された表示手段は、ユーザの発声に基づいて、コンピュータ１００から出力されたデータおよび情報を表示する。
【００２６】
図２で例示するこの発明に従う方法を実現するためには、ベルギーのレルヌー＆オースピー（Ｌｅｒｎｏｕｔ＆Ｈａｕｓｐｉｅ）^ＴＭによる自動音声認識（ＡＳＲ）ソフトウェア、たとえばＬ＆Ｈ　ＰＣＭＭ　ＡＳＲバージョン１５００または１６００などを、上述のシステムとともに用いることができる。ステップ２０２において、或る概念を表わす少なくとも１つのアイコンがユーザに対して表示され，アイコンで表わされる概念は、コンピュータにより実行可能な命令セットに存在し得る。
【００２７】
ステップ２００は図３で例示され、この図は、複数のアイコン３００を表示するスタートアップ話者登録画面を示し、各々のアイコンは、アイコンが表わす概念を図形的に示唆する。たとえばアイコン３５０は、完全な一連の車両アライメントを表わす。図５に示すように、その他のアイコンには、特定の測定を行なうことに関する複数のアイコンを含む画面への移動を表わすアイコン５５０と、調節を行なうことに関する複数のアイコンを含む調節画面への移動を表わすアイコン５６０とが含まれるが、これらに限定はされない。
【００２８】
図３で、任意には各アイコン３００の隣に見出し３１０が表示され、アイコンが表わす概念をテキストで表わし、音声認識プログラムのトレーニングを行なうユーザに追加的な案内を提供する。さらに、たとえばヘッドセット３２０およびスピーカ３３０を着用している男性を表わすアイコンも表示される。これらアイコンはそれぞれ、選択されたアイコン３００の登録を開始する、および選択されたアイコンについて録音された発声を再生させるために用いられる。複数のアイコン３２０，３３０を示すが、アイコン３２０，３３０が与える機能の各々につき単一のアイコンを設けてもよい。
【００２９】
ユーザは話者登録プロセスを始めるために、アイコンをマウスでクリックするなどでアイコン３５０を選択し、次にアイコン３２０を選択してアイコンの話者登録を開始することができる。これに代えて、話者登録プロセスおよびこれに関連するあらゆるアプリケーションは、音声に応答する操縦キーまたはアイコン３７５へ入力され得る。これら操縦キーにはたとえば「操縦」、「左」、「右」、「上」、「下」および「入力」が含まれ、これらのうちいくつかを図３および図５に示す。操縦キー３７５は、「右」または「左」など予め定められた文の音声コマンドに対応し得る。これに代えて操縦キーは、アイコン３００の登録について後に説明する手順を用いて、ユーザの選択した発声または音と関連付けることも可能である。
【００３０】
アイコン３００の選択後、ユーザはステップ２１０で、図４（ａ）で示すように、選択されたアイコン３５０に関連付ける発声を口にするように指示される。ユーザの発声は、いかなる特定の語、音または言語にも限定されない。換言するとユーザは、選択されたアイコン３５０に対し、或る予め定められた語を関係付けるように制約されるわけではなく、ユーザはこのアイコンに、どのような可聴音または音の組合せを含む発声を関係付けることも可能である。たとえば見出し３１０は“ＲｕｎＰｒｏ３２Ｗｉｚａｒｄ（ｐｒｏ３２ウイザードを実行）”であるが、ユーザは“ＳｔａｒｔＷｈｅｅｌＡｌｉｇｎｍｅｎｔ（車輪アライメントを開始）”または“ＡｎｆａｎｇＲａｄＡｕｓｒｉｃｈｔｕｎｇ（車輪アライメントを開始）”、またはその他どのような所望の音もしくは音の組合せを口にしてもよい。発声は、コンピュータ主メモリ１０６、記憶装置１１０、またはＬＡＮ１２２もしくはサーバ１３０記憶装置に記憶され、当業者に公知の方法を用いて、１つ以上の代表的な波形またはスペクトル特性ベクトル（フレーム）へ変換され、この方法にはパルス符号変調およびフーリエ変換動作が含まれるが、これらに限定はされない。発声を記憶および変換するための厳密な方法はここに示すこの発明の概念の中心ではなく、発声を記憶および変換するのに用いられる方法および装置は、ユーザが、任意の可聴音または音の組合せを含む発声を、表示されたアイコンに関係付けることを可能にすることのみが必須である。
【００３１】
ステップ２２０は、選択されたアイコン３５０と発声との関連付けを確認する。必須ではないが、ユーザはこの発声を少なくともさらに２回口にすることが好ましく、これにより音声認識ソフトウェアによる発声波形の正しいサンプリングおよび分析が確実になり、選択された発声におけるわずかなばらつきが勘案される。これら発声の各々は、個々の検索、および後続の発声との比較のために、個々にデータベースに保存されて選択されたアイコンに関係付けられるか、または当業者に公知の方法を用いて代表的な発声へと組合され得る。発声の多数の反復を用いて、多数の反復の間で観察されたばらつきから個別化された誤差関数を生成することができ、次にこれを後続の発声に適用することで、ユーザの声にある自然なばらつきを勘案することができる。単一の発声を適応させることも可能であり、ここで音声認識ソフトウェアは、予め定められたレベルの発声波形でのばらつきを勘案するように適合された、一般化された信号処理アルゴリズムを適用することができる。必要な回数だけ発声が繰返された後、ユーザは図４（ｂ）に示す“ＯＫ”をクリック、またはこれを言うことにより、アイコン３５０と発声との関連付けを確認する。
【００３２】
ステップ２３０で、実行可能プログラム命令セット、およびさまざまなアイコンで表わされる概念に、記憶された発声を関係付ける、発声およびポインタを記憶したリレーショナルデータベースなど、適当なコンピュータ可読媒体で、アイコンと発声との関連付けが永久的に保存される。図４（ｃ）で示すように、アイコンに関連付けられた発声をデータベースに永久的に追加する機会がユーザに与えられる。
【００３３】
図４（ｄ）に示すステップ２４０などの追加のステップを含めることができ、ここでユーザは、選択されたアイコンに関連付けられた発声を繰返すよう指示される。ステップ２５０で、この繰返された発声は、当業者に公知の従来の方法を用い、保存された発声と比較される。最後に、図３（ｅ）で示すように、識別されたアイコン３５０がユーザに対して表示され、アイコン３５０と発声との一致が成功したことが確認される。
【００３４】
以上の議論に従ってトレーニングされた、図２〜５に示す車輪アライメントの応用例などの応用例を用いるに際し、ユーザは、１つ以上のアイコンを表示しているディスプレイ上の任意のアイコンを選択するために、このアイコンの選択を示すものとしてアプリケーションが認識するよう先にユーザがトレーニングした発声を口にすることができる。このように、一般的に図２で示すように、ユーザの発声をシステムが認識するようにトレーニングし、アイコンが表わす特定の概念にこの発声を関連付けるための革新的な方法が提供される。
【００３５】
応用に際しての発声の試みが、アイコンで表わされる所望の概念を起動するのに成功しない場合、ウェアラブルディスプレイ、マイクロホンおよび、コンピュータとの双方向通信を可能にする付属の電子機器とともに操縦キー３７５を用いることにより、操縦コマンドを用いアイコン３００を周期的に表示させて、所望のアイコンを強調および選択することができる。たとえばユーザは、「操縦」またはユーザが指定したその他等価の発声を口にすることによって、登録のためのアイコン３５０を選択でき、この後、選択された開始点にあるアイコン３００が強調される。次にユーザは、適当な操縦コマンドを用いてアイコン３５０を選択することができる。こうしてユーザは、制御装置またはコンピュータ１００へ戻ってデータを手動で入力したり、またはソフトウェアをローカルに再トレーニングする必要なしに、不適当なエラーを回避することができる。
【００３６】
音声認識システムのトレーニングを実現する方法はさらに、自動的に、またはユーザへの問合せにより、以前に保存された音声モデルを、認識されていない発声を組込むように適合させることを含み得る。操縦キー３７５などの代替的な手段によって適当なアイコンが識別された後の、以前に記憶された発声と、認識されていない発声を表わす多次元ベクトルとの間のばらつきを勘案するように誤差関数を修正する。こうして認識されていない発声は、この発声のスペクトル特性を表わす多次元ベクトルまたはフレームのストリングへと変えられて、以前に記憶した発声を組込む以前に生成された誤差関数と統計的に比較され得る。しかし上述のように、ユーザの発声を記憶および変換するのに用いる厳密な方法および装置はここに示すこの発明の概念の中心ではなく、このような方法および装置が、あらゆる可聴音または音の組合せを含む発声を、表示されたアイコンに関係付けることをユーザにとって可能にする限り、音声処理およびコンピュータプログラミング関係の当業者に公知のあらゆる方法および装置がここに含まれ得る。
【００３７】
コンピュータにより実現される音声認識システムトレーニングはさらに、コンピュータ可読命令として有利に提供される。これら命令は、ハードディスクドライブなどのコンピュータ可読媒体に記憶され、ユーザが発した音を、アイコン３５０などの選択されたアイコンに関連付けられた概念と関係付ける。ユーザが発した音はこのコンピュータ可読媒体に記憶され、さらに記憶された音と、選択されたアイコン３５０に関連付けられた概念との関係もまた、ここに記憶される。ユーザは、選択されたアイコン３５０と関連付けられた概念に関係付けたいと望むあらゆる音または音の組合せを言うまたは発することができる。ユーザは、ソフトウェア、または或る局面では示唆的な見出し３１０によって、音の選択について制限はされない。
【００３８】
この後、或るアプリケーションを音声認識システムと協働的に関連付けて用いる際、選択されたアイコン３５０で表わされる概念を選択するために、ユーザはこのアイコンに対応する所望の音を繰返す。この後続の音は、当業者に公知の手段により、記憶された音と比較され、こうして後続の音が記憶された音に対応するかどうかを判断する。一致が示されれば、記憶された音と後続の音との対応に基づき、記憶された音に関係付けられた概念が識別される。所望の概念の識別の後、この概念に対応する命令セットが実行される。命令セットは制御信号の出力を含み得る。
【００３９】
たとえば、キーボード上の“ｃｔｒｌ−ｙ”を押すことでアイコンの表わす概念を実行できる場合、ソフトウェア命令は、関心が向けられたプロセッサに“ｃｔｒｌ−ｙ”コマンドを出力することになる。これに代えてソフトウェアは、選択されたアイコンまたは、動作的に関係付けられた、選択されたアイコンから出てくるアイコンを含む、概念に対応するデータを、ウェアラブルディスプレイへ出力することにより、ユーザの前部の視野にデータを視覚的に表示することができる。ソフトウェアはまた、制御信号を或る機械へ出力することによって、記憶され識別されたユーザ発声に関係付けられた概念に従う機能を行なうこともできる。たとえば、以下に例示する車輪アライメントシステムまたは車両エンジン診断システムなどの車両診断システムを含む自動車サービスシステムへ、制御信号を出力することができる。
【００４０】
上記の、コンピュータにより実現される音声認識システムの一局面は、車輪アライメントシステムとの関連で有利に提供される。図６はこのような車両診断システムの可能な１構成を示し、これはいくつかの動作的な構成要素、たとえば車輪アライナ６３４を含み、これは車輪に装着され得るアライメントヘッド６３６を有し、これはキャスタ、キャンバまたはトーインなど車両のアライメント特性を測定するためのセンサを含み、当業者に公知の態様で、アライメント特性または各車輪の配向を表わす信号を生成する。車輪アライメントシステムはさらに、１つ以上のジャッキ６４０を含み得る車両リフトまたはラック６３８と、車両バランサ６４２とを含む。アライナ６３４、ラック６３８およびバランサ６４２は、一般に参照番号６４４で示す制御装置との通信を、それぞれ適当なインターフェイス６４６、６４８および６５０経由で行ない、これらはたとえば電線、無線高周波もしくは赤外線送受信機、または光ファイバであり得る。
【００４１】
制御装置６４４はシステムバス６５２を含み、これは電源６５４により電力を供給される。電源６５４はさらに或る数の機能モジュールにも電力を供給することができ、これには、システムバス６５２と自動車サービス設備の或る要素との間に配置された或る数の通信モジュール６５６が含まれる。通信モジュール６５６は、自動車サービス設備とシステムバス６５２との間でデータを伝送する。予め録音された、または合成された音声の形でシステムバスからのデータをユーザに与えるために、ヘッドセットなどの信号から音への変換器６１４と、システムバス６５２との間に、音声プロセッサモジュール６５８が配置される。この局面で音声プロセッサモジュール６５８はさらに、ユーザからのデータをシステムバスおよびコンピュータ６６８に与えるために、マイクロホンなどの音から信号への変換器６１４とシステムバス６５２との間に配置される。ウェアラブルザイバーノート^ＴＭディスプレイなどのディスプレイ６２０が設けられ、これにより、データ信号を表示のために好適な形へ変換するための映像制御モジュールを通じてコンピュータおよびシステムバスから受取られたデータを、ユーザに対して視覚的に出力する。さらにプリンタ制御モジュール６６２、プリンタ６６６およびディスクドライブ６７２がシステムバスに結合され、この結合では、必要であれば別個のデジタル入出力手段６６４が用いられる。
【００４２】
コンピュータ６６８は少なくとも１つのプロセッサ、たとえばインテルのペンティアムＩＩＩ（ＩｎｔｅｌＰｅｎｔｉｕｍＩＩＩ）^ＴＭ、またはアドバンスト・マイクロ・ディバイシズのアスロン（ＡｄｖａｎｃｅｄＭｉｃｒｏＤｅｖｉｃｅｓＡｔｈｌｏｎ）^ＴＭプロセッサなどを有するが、多数のプロセッサを含むこともできる。コンピュータ６６８はシステムバス６５２と接続され、算出および管理タスクを実行して自動車サービスシステムに対する全体的な制御を提供する。任意には、制御装置６４４はキーボード６７０およびディスクドライブ６７２を含むことができ、これを通じて車両データまたは命令などがコンピュータ６６８へ通信され得る。加えてシステムは、インターフェイス６７４を通じ外部システムと通信することができる。
【００４３】
音声認識をトレーニングするための上述の方法およびシステムに従うと、プロセッサまたはコンピュータ６６８とともに、ユーザがマイクロホン６１４を通じてプロセッサに与えた信号を処理するための、音声認識プログラム製品が提供される。音声認識プログラム製品は、コンピュータ６６８によりディスプレイ６２０上に表示されるアイコン３００で表わされる概念を、ユーザが決めた任意の音に関係付けるように構成される。上述のように、ユーザは複数のアイコン３００にそれぞれ関係付けられた音のデータベースを作成する。動作について、マイクロホン６１４からのデジタル信号（すなわち後続の発声）は、データベースに記憶されたデジタル信号（すなわち記憶された発声）と比較され、これは一致が見つかるまで、または記憶された発声のすべてが一致なしに処理されるまで行なわれる。一致が見つかれば、コンピュータ６６８は、識別されたアイコンで表わされる概念に対応する制御信号などの命令を、車輪アライメントシステムの適当な構成要素に送信する。たとえばコンピュータ６６８は、コンピュータと電気的に接続されたリフト６３８および／またはジャッキ６４０に制御信号を与えて、リフトまたはジャッキを持上げるまたは下げることができる。これに代えて、アイコン５５０または５６０など選択されたアイコンにより表わされる概念は、異なったアイコンを含む追加の画面へユーザを導くこともある。一致が見つからなければ、スピーカ、ディスプレイ、または別の光もしくは音を発する機器を通じて、コンピュータ６６８によりユーザに対しエラーメッセージが送られる。一致が見つからなければユーザは操縦キー３７５を用いて適当な概念を選択するか、または話者登録トレーニングを行なってシステムを再トレーニングするかを任意に選ぶことができる。
【００４４】
このように、音声認識トレーニングの上述の方法およびシステムは、実質的に言語により影響されず、個々のユーザにとって極めて快適な音声認識システムを提供する。この発明をそのさまざまな局面との関連で説明したが、この発明は前掲の特許請求の範囲に記載した多種多様な局面および詳細を包含することが理解されるべきであり、この特許請求の範囲は、ここで例示したこの発明の範囲および精神内に入るあらゆる均等物を包含すると解釈されるべきである。
【図面の簡単な説明】
【図１】この発明の一実施例が実現され得るコンピュータシステムを示すブロック図である。
【図２】この発明に従う方法を示すブロック図である。
【図３】図２の方法の或るステップを表わすディスプレイを示す図である。
【図４ａ】図２の方法における追加のステップを表わすディスプレイを示す図である。
【図４ｂ】図２の方法における追加のステップを表わすディスプレイを示す図である。
【図４ｃ】図２の方法における追加のステップを表わすディスプレイを示す図である。
【図４ｄ】図２の方法における追加のステップを表わすディスプレイを示す図である。
【図４ｅ】図２の方法における追加のステップを表わすディスプレイを示す図である。
【図５】異なった概念を表わす複数のアイコンを含むディスプレイを示す図である。
【図６】この発明に従う音声認識システムのトレーニングを組込んだ車輪アライメントシステムを概略的に表わす図である。

Claims

コンピュータにより実現される音声認識システムをトレーニングするための方法であって、
（ａ）　或る概念を表わすアイコンを表示するステップと、
（ｂ）　前記アイコンに関連付けようとユーザが決めた任意の音を含む発声を生じさせるように、ユーザに対して指示するステップと、
（ｃ）　前記アイコンと前記発声との関連付けを確認するステップと、
（ｄ）　前記アイコンと前記発声との関連付けを、コンピュータ可読媒体に保存するステップとを含む、方法。
アイコンは車両診断に関係した概念を表わす、請求項１に記載の、コンピュータにより実現される音声記憶システムをトレーニングするための方法。
アイコンは、車輪アライメントに関係した概念を表わす、請求項２に記載の、コンピュータにより実現される音声認識システムをトレーニングするための方法。
前記確認するステップはさらに、
ユーザに前記発声を繰返すよう指示するステップを含む、請求項１に記載の、コンピュータにより実現される音声認識システムをトレーニングするための方法。
（ｅ）　ユーザに対し、前記アイコンに関連付けられた発声を繰返すように指示するステップと、
（ｆ）　関連付けられたアイコンを識別するために、繰返された発声を複数の記憶された発声と比較するステップと、
（ｇ）　識別されたアイコンを表示するステップとをさらに含む、請求項４に記載の、コンピュータにより実現される音声認識システムをトレーニングするための方法。
前記発声は語または複数の語である、請求項１に記載の、コンピュータにより実現される音声認識システムをトレーニングするための方法。
命令を担うコンピュータ可読媒体であって、前記命令は、少なくとも１つのプロセッサを有するコンピュータが、選択されたアイコンと関連付けられた概念に、ユーザが発した音を関連付けることを可能にし、前記命令は、コンピュータにより実行されると、前記コンピュータが以下のステップを行なうことを引起し、前記ステップは、
選択されたアイコンと関連付けられた概念に、ユーザが発した音を関係付けるステップと、
ユーザが発した音を記憶し、記憶された音と、選択されたアイコンに関連付けられた概念との間の関係を、記憶するステップとを含み、
ユーザが発する音は、あらゆる音または音の組合せを含み得る、コンピュータ可読媒体。
前記命令はさらに、前記コンピュータが以下のステップを行なうことを引起すように構成され、前記ステップは、
ユーザが発した後続の音を、記憶された音と比較することにより、後続の音が記憶された音に対応するかどうかを判断するステップと、
記憶された音と後続の音との対応に基づいて、記憶された音に関係付けられた概念を識別するステップとを含む、請求項７に記載の命令を担うコンピュータ可読媒体。
前記命令はさらに、前記コンピュータが以下のステップを行なうことを引起すように構成され、前記ステップは、
記憶されたユーザの声に関係付けられた概念に対応する命令セットを実行するステップを含む、請求項８に記載の命令を担うコンピュータ可読媒体。
前記命令はさらに、前記コンピュータが以下のステップを行なうことを引起すように構成され、前記ステップは、
コンピュータに接続された装置に制御信号を出力するステップを含み、
前記装置は、制御信号の結果として第１の状態から第２の状態へ変化する、請求項１０に記載の命令を担うコンピュータ可読媒体。
車両診断システムであって、
少なくとも１つのプロセッサを有するコンピュータと、
音から信号への変換器とを含み、前記音から信号への変換器は、前記音から信号への変換器に入力された音に対応して、信号をプロセッサへ出力するように構成され、前記車両診断システムはさらに、
受信した信号に対応して、プロセッサから信号を受取り画像を表示するように構成されたディスプレイと、
前記音から信号への変換器によりプロセッサに与えられた信号を、プロセッサとともに処理するように構成された音声認識プログラム製品とを含み、
音声認識プログラム製品は、ディスプレイ上に表示されたアイコンで表わされる概念を、ユーザが決めたあらゆる音と関係付ける命令を含む、車両診断システム。
アイコンは、車両診断に関係した概念を表わす、請求項１１に記載の車両診断システム。
前記音から信号への変換器はマイクロホンを含む、請求項１２に記載の車両診断システム。
音声認識プログラム製品は、識別されたアイコンで表わされる概念に対応して制御信号を出力するための命令を含む、請求項１２に記載の車両診断システム。
アイコンは、車輪アライメントに関係した概念を表わす、請求項１２に記載の車両診断システム。
アイコンは、車両エンジン診断に関係した概念を表わす、請求項１２に記載の車両診断システム。
コンピュータにより制御されるように構成された装置をさらに含み、
音声認識プログラム製品により出力された制御信号は、プロセッサにより用いられて前記装置の状態を第１の状態から第２の状態へ変える、請求項１４に記載の車両診断システム。
関心の向けられた車両パラメータを測定し、関心の向けられた測定パラメータに対応する信号をプロセッサに与えるための、センサを含む、請求項１３に記載の車両診断システム。
前記装置は、コンピュータにより出力された信号に応答して、上方向または下方向へ動くように構成された、リフトおよびジャッキのうち少なくとも１つである、請求項１７に記載の車両診断システム。
ウェアラブルディスプレイをさらに含む、請求項１５に記載の車両診断システム。