JP2004508593A - コンピュータにより実現される音声認識システムトレーニング - Google Patents

コンピュータにより実現される音声認識システムトレーニング Download PDF

Info

Publication number
JP2004508593A
JP2004508593A JP2002525641A JP2002525641A JP2004508593A JP 2004508593 A JP2004508593 A JP 2004508593A JP 2002525641 A JP2002525641 A JP 2002525641A JP 2002525641 A JP2002525641 A JP 2002525641A JP 2004508593 A JP2004508593 A JP 2004508593A
Authority
JP
Japan
Prior art keywords
computer
sound
icon
user
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002525641A
Other languages
English (en)
Inventor
ウォルチャック,ドナルド・エル
リグズビィ,スティーブン
Original Assignee
スナップ − オン テクノロジーズ,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by スナップ − オン テクノロジーズ,インコーポレイテッド filed Critical スナップ − オン テクノロジーズ,インコーポレイテッド
Publication of JP2004508593A publication Critical patent/JP2004508593A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

コンピュータにより実現される音声システムのトレーニングは、或る概念を表わすアイコンを表示するステップと、ユーザに対し、ユーザがアイコンに関連付けようと決めた任意の音を含む発声を生じさせるように指示するステップと、アイコンと発声との関連付けを確認するステップと、アイコンと発声との関連付けをコンピュータ可読媒体に保存するステップとを含む。この発明は、車輪アライメントまたは車両エンジン診断を含む車両診断の分野に対して特に適用可能であるが、これらに限定はされない。

Description

【0001】
【発明の背景】
1.発明の分野
この発明は音声認識システムのトレーニングに関し、より特定的には、ユーザが選択した発声を、アイコンにより表わされる概念に関連付けるための、コンピュータにより実現される音声認識システムのトレーニングに関するものである。
【0002】
2.関連技術の説明
音声認識の分野では、ユーザの発音または発声を基準発声パターンに関係付けるための多くの方法が実現されている。典型的に基準発声パターンは、意図された環境で音声認識システムを用いる前の「トレーニングセッション」の際に作成される。このトレーニングセッションで既存の音声認識トレーニングシステムは、ユーザに対し、画面上に表示された特定の語に対応する発声をマイクロホンに向かって言うように指示する。当業者には理解されるように、アナログ・デジタル変換器、ならびにフィルタおよび増幅器などの適当な電子機器によって、発声は信号へと変換され、信号はソフトウェアによって代表的な波形またはベクトルへと処理される。発声は、たとえばフーリエ変換を利用して多次元ベクトルへと変えることができ、こうして特定の時間単位にわたる発声のスペクトル特性のデジタル値を表現する一連のフレームがもたらされる。
【0003】
音声認識システムはたとえば製造、修理、アビオニクス、および医療用途で用いられているが、それは、これらの場面ではユーザが手作業を行なうために自分の手を空けておく一方で、コンピュータで制御される機械または機器で実行され得る第2の手作業を同時に行なうことが重要だからである。第1の作業を行なっているユーザは、マイクロホンを用いて1つ以上の指定されたシステムを制御することができ、ここでユーザは各々の追加の作業を別々に行なうための時間および/または注意力を割かなくてもよい。この種のシステムは自動車用途で用いられ、これによりユーザはコンピュータに接続されたリフトまたはジャッキなどの装置を制御できる。この種のシステムはさらに車輪アライメント工程でも用いられ、車両を特定のアライメント値と適合させるために必要な調節を行なうようにユーザを導くフィードバックおよびセンサデータを提供する。
【0004】
音声認識アプリケーションを含む従来のソフトウェアアプリケーションは、概念または予め定められたプログラム命令セットの略記法としてアイコンを用いることが多くなっている。これによってユーザは、アイコンをクリックまたは選択すると、予め定められたイベントまたは一連のイベントの発生を知る。アイコンのすぐそばにはしばしば標識または文章枠が配置され、これによって、アイコンで表わされる概念の意味についてさらなる手掛りが与えられる。標識または文章枠は特に音声認識アプリケーションでは重要であり、ここでソフトウェアおよびコンピュータは、ユーザが口にするコマンドを所望のアイコンに関係付けるように仕込まれる。従来は、ソフトウェアが実際に必要としているか、または単に混乱を避けるために、ユーザはアイコンのそばに表示された特定の語を復唱する。たとえば或るアイコンがフロッピー(R)ディスクの外観を呈しており、そのそばに“save(保存)”と書いてある標識があれば、ユーザは自分の“save”の発音をソフトウェアが認識するようにトレーニングすることになる。これではユーザは、その他の、自分にとってよりわかりやすい、または意味が明らかな発声または語を用いることを制限されてしまい、この問題は、アイコンが表わす概念の性質がより抽象的で規定が困難なものになるほど重大性を帯びてくる。
【0005】
さらに、これら音声認識システムを外国語に対応させることにはしばしば困難が伴うが、それは、ソフトウェアの表示とリレーショナル言語データベースとの両方に修正を加える必要があり、こうしてシステムにさらなる費用および複雑さが加わるからである。別途の言語データベース(たとえば日本語)が利用可能でない場合、基本言語(たとえば英語)に堪能でない人は、基準語を理解および/または発音するのに困難を覚え、こうして生産性が落ちてしまう可能性がある。また基準語で略語が用いられていると、これを母国語としない話者はさらなる困難を抱え、生産性はさらに損なわれかねないが、このことは関連付けられた語句および作業が複雑になるにつれて特に顕著になる。
【0006】
極端な場合には、人が自分の母語の読解に習熟していない、または言語障害があることすらあり、特定の語および対応する行為間の対応関係にのみ基づく音声認識制御システムでは、そのトレーニングおよび実現にさらなる障害が生じてしまう。このような困難を乗り越えたとしても、所望の効果または結果と、所望の効果または結果について外的に与えられた規定とを関係付けることは常に容易なわけではない。換言すると、行為または一連の行為についてのソフトウェア設計者の規定または略記法的な概念は、ユーザ自身の経験に基づく、同じ行為または一連の行為についてのユーザの内的な規定と正しく対応しない可能性がある。こうして、ソフトウェアにより与えられた特定の関係をユーザが覚えることができない、という形で明らかとなるニーモニック上の不整合性が潜在的に存在し、ユーザは手元にある作業から望ましくないほど注意を逸らさなければならない。
【0007】
したがって、実質的に言語によって影響されず、個々のユーザにとって快適な音声認識システムのトレーニングが必要とされている。
【0008】
【発明の概要】
この発明は、上で特定された要求を満たすために、さまざまな局面および実施例において、ユーザが選択した発声を、アイコンで表現される概念に関連付けるための、コンピュータにより実現される音声認識システムのトレーニングを提供する。
【0009】
一局面で、コンピュータにより実現される音声認識システムをトレーニングするための方法は、或る概念を表わすアイコンを表示するステップと、ユーザがアイコンに関連付けようと決めた任意の音を含む発声を生じさせるように、ユーザに対して指示するステップとを含む。この方法はさらに、アイコンと発声との間の関連付けを確認するステップと、アイコンと発声との間の関連付けをコンピュータ可読媒体に保存するステップとを含む。
【0010】
別の局面で、コンピュータ可読媒体は、ユーザが発した音と、ユーザが選択したアイコンに関連付けられた概念とを、コンピュータが関連付けることを可能にする命令を担い、ここで音は、ユーザがアイコンに関係付けたいと望む任意の音または音の組合せを含み得る。命令は、ユーザが発した音を、選択されたアイコンに関連付けられた概念または命令セットに関係付ける。こうして音、および音とアイコンの概念との関係が記憶される。さらに命令は、ユーザによる後続の音を、記憶された音と比較して、後続の音が記憶された音に対応するかどうかを判断できる。一致が存在すれば、記憶された音とアイコンの概念との関係を用いて、識別されたアイコンに対応する命令セットを実行する。
【0011】
さらに別の局面では、コンピュータに基づく車両診断システムが音声認識プログラム製品を含み、これはコンピュータプロセッサとともに、音から信号への変換器たとえばマイクロホンによりプロセッサに与えられた信号を処理し、ディスプレイ上に表示されたアイコンで表わされる概念を、ユーザが決めた任意の音に関係付けるように構成される。
【0012】
この発明に関する上記およびその他の局面および利点は、以下の詳細な説明および添付の図面から当業者に明らかとなるであろう。
【0013】
【好ましい実施例の説明】
音声認識ソフトウェアの話者登録およびトレーニングによってユーザは、音声コマンドを用いてデータを入力し、データを受取り、さらにコンピュータを通じ機器を動作させることによって、手元の作業から過度の時間または注意力を逸らすことなく効率的に多数の作業を行なうことができる。たとえば車輪アライナの動作では、センサから入手された測定値から算出されたアライメント値が、当業者に公知の態様で、車両仕様書に従い必要とされるアライメント値と比較される。ここに記載の方法およびシステムに従うと、コンピュータにより実現される音声認識システムは、ユーザが選択した発声と、ディスプレイに出力されたアイコンで表わされる概念とを関連付けるように構成される。
【0014】
図1は、この発明の一実施例が実現され得るコンピュータシステム100を例示するブロック図である。コンピュータシステム100は、情報を通信するためのバス102またはその他の通信機構と、バス102に結合され、情報を処理するためのプロセッサ104とを含む。コンピュータシステム100はさらに、ランダムアクセスメモリ(RAM)またはその他の動的記憶装置などの主メモリ106を含み、これはバス102に結合されて、プロセッサ104が実行することになる情報および命令を記憶するためのものである。主メモリ106はさらに、プロセッサ104が実行する命令の実行中に、一時変数またはその他の中間情報を記憶するためにも用いられ得る。コンピュータシステム100はさらに、バス102に結合されて、プロセッサ104のための静的情報および命令を記憶するための、読取専用メモリ(ROM)108またはその他の静的記憶装置を含む。磁気ディスクまたは光ディスクなどの記憶装置110が情報および命令を記憶するために設けられてバス102に結合される。
【0015】
コンピュータシステム100は、バス102を介して、情報をコンピュータのユーザに対して表示するための陰極線管(CRT)などのディスプレイ112に結合され得る。英数字またはその他のキーを含む入力装置114がバス102に結合され、情報およびコマンド選択をプロセッサ104へ通信する。その他のユーザ入力装置の種類は、マウス、トラックボール、またはカーソルキーなどのカーソル操作装置116であり、これは、方向情報およびコマンド選択をプロセッサ104へ通信し、ディスプレイ112上のカーソルの動きを操作するためのものである。典型的にこの入力装置は、第1の軸(たとえばx)および第2の軸(たとえばy)の2本の軸における2つの自由度を有し、装置はこれによって平面上の位置を特定することができる。
【0016】
コンピュータシステム100は、音声認識システムをトレーニングして、ユーザが選択した発声と、コンピュータシステムにより表示されたアイコンで表わされる概念とを関連付けるために用いられる。これに従い、ユーザが選択した発声をアイコンで表わされた概念に関連付けるための音声認識システムトレーニングは、主メモリ106内にある1つ以上の命令の1つ以上のシーケンスを実行するプロセッサ104に応答して、コンピュータシステム100により可能となる。このような命令は、記憶装置110などの別のコンピュータ可読媒体から主メモリ106へ読出され得る。
【0017】
主メモリ106内にある情報のシーケンスの実行は、プロセッサ104がここに記載のプロセスステップを行なうことを引起す。主メモリ106内にある命令シーケンスを実行するためには、多重処理構成にある1つ以上のプロセッサを採用することもできる。これに代わる実施例では、ソフトウェア命令の代わりに、またはこれと組合せてハードウェア回路を用いることができ、ハードウェア回路とソフトウェアとの特定の組合せは要件でないことが理解されるべきである。
【0018】
命令は任意の数の形式で設けることができ、これにはたとえばソースコード、アセンブリコード、オブジェクトコード、機械語、以上を圧縮または暗号化したもの、ならびにこれらの任意およびすべての均等物がある。「コンピュータ可読媒体」とは、プロセッサ104が実行するようにここへに命令を与えることに関与するあらゆる媒体を指し、「プログラム製品」とは、コンピュータで実行可能なプログラムを担うあらゆるコンピュータ可読媒体を指す。コンピュータで使用可能な媒体は、命令を「担っている」と言うことができ、これは、命令がコンピュータ使用可能媒体と関連付けられるすべての仕方を包含する。
【0019】
コンピュータ可読媒体は不揮発性媒体、揮発性媒体および伝送媒体を含むが、これらに限定はされない。不揮発性媒体はたとえば、記憶装置110などの光ディスクまたは磁気ディスクを含む。揮発性媒体は、主メモリ106などの動的メモリを含む。伝送媒体は、バス102を構成する線を含む同軸ケーブル、銅線および光ファイバを含む。伝送媒体はさらに、無線周波数(RF)および赤外線(IR)データ通信の際に生成されるものなどの、音波または光波の形態を取ることもできる。コンピュータ可読媒体の一般的な形態は、たとえばフロッピー(R)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、その他任意の磁気媒体、CD−ROM、DVD、その他任意の光媒体、パンチカード、紙テープ、その他任意の孔パターンを有する物理的媒体、RAM、PROM、EPROM、フラッシュEPROM、その他任意のメモリチップまたはカートリッジ、後に記載の搬送波、またはその他任意のコンピュータ読出可能媒体を含む。
【0020】
1つ以上の命令の1つ以上のシーケンスを、プロセッサ104が実行するようにここへ運ぶことには、さまざまな形態のコンピュータ可読媒体が関与し得る。たとえば命令は、まず遠隔コンピュータの磁気ディスク上に担われることがある。遠隔コンピュータは命令をその動的メモリへロードして、モデムを用い電話回線経由で命令を送信することができる。コンピュータシステム100についてローカルなモデムは電話回線上のデータを受取り、赤外線送信機を用いてデータを赤外線信号に変換できる。バス102に結合された赤外線検出器は、赤外線信号で搬送されたデータを受信してデータをバス102上に置くことができる。バス102はデータを主メモリ106へ伝え、プロセッサ104はここから命令を検索および実行する。任意には、プロセッサ104による実行前または実行後に、主メモリ106が受取った命令を記憶装置110に記憶させることができる。
【0021】
コンピュータシステム100はさらに、バス102に結合された通信インターフェイス118を含むこともあり、これによって、ローカルネットワーク122に接続されたネットワークリンク120との双方向データ通信結合がもたらされる。たとえば通信インターフェイス118は、対応する種類の電話回線へのデータ通信接続をもたらすための、統合サービスデジタル通信網(ISDN)カードまたはモデムであることができる。別の例で通信インターフェイス118は、対応するLANへのデータ通信接続を与えるためのローカルエリアネットワーク(LAN)カードであってもよい。無線リンクもまた実現可能である。このような実現例では、通信インターフェイス118は、さまざまな種類の情報を表わすデジタルデータの流れを搬送する電気信号、電磁信号または光信号を送受信する。
【0022】
ネットワークリンク120は典型的に、1つ以上のネットワーク経由で他のデータサービスへのデータ通信を与える。たとえばネットワークリンク120は、ローカルネットワーク122を通じホストコンピュータ124へ、またはインターネットサービスプロバイダ(ISP)126により動作するデータ装置への接続を与えることができる。次にISP126は、現在一般に「インターネット」128と呼ばれている世界規模のパケットデータ通信網経由のデータ通信サービスを提供する。ローカルネットワーク122およびインターネット128はともに、デジタルデータの流れを搬送する電気信号、電磁信号または光信号を用いる。デジタルデータをコンピュータシステム100へ、およびここから搬送する、さまざまなネットワーク経由の信号、ならびにネットワークリンク120上および通信インターフェイス118経由の信号は、情報を運ぶ搬送波の例示的な形態である。したがって、ここで例を用いて説明するこの発明の方法で必要な処理は、記憶装置110を用いてローカルコンピュータで実現されることも、またはたとえばLAN上もしくはインターネット上で実現されることもある。
【0023】
コンピュータシステム100はネットワーク、ネットワークリンク120および通信インターフェイス118経由でメッセージを送信し、プログラムコードを含むデータを受信することができる。インターネットの例では、サーバ130が、アプリケーションプログラムのために要求されたコードをインターネット128、ISP126、ローカルネットワーク122、そして通信インターフェイス118経由で送信できる。この発明に従うと、このようなダウンロードされた1つのアプリケーションが、音声認識システムをトレーニングすることで、ユーザが選択した発声と、ここに記載のアイコンによって表わされる概念とを関連付けることを可能にする。受信されたコードは、受信されるとプロセッサ104によって実行され、および/または記憶装置110、もしくはその他の不揮発性記憶装置で、後の実行のために記憶される。この態様でコンピュータシステム100は、搬送波の形でアプリケーションコードを入手できる。
【0024】
動作について、ユーザは、音から信号への変換器またはマイクロホン117、たとえばマサチューセッツ州ウスター(Worcester, Massachusetts)のデービッド・クラーク・カンパニー(David Clark Company)により入手可能なウェアラブル“DCNC”ヘッドセットなどに向って発声を口にする。これに代えて、1つ以上の固定マイクロホン117を仕事の現場またはコンピュータ100のそばに配置することもできる。システムは、マイクロホン117と制御装置100との間の通信をやり取りするためのハードウェア送受信機を含むことができる。これに代えて、ユーザと、この発明の方法を実現するコンピュータ100と、主メモリ106または記憶装置110に記憶された、この発明の方法を容易にするソフトウェアとの間の通信は、たとえばドイツに基盤を置くGNネットコム(GNNetcom)TMにより製造されているエリップス(Ellipse)TMなど、当該技術で一般に公知の種類の高周波数無線装置によって実現され得る。この装置は、制御装置内に位置付けられた対応する送受信機と通信する。信号は、電気信号、電磁信号または光信号による伝送を含む従来のデータ伝送手段によって伝送用に適当に符号化され、送信機によって、コンピュータ100と関連付けられた受信機へ送信され得る。
【0025】
ユーザの動きの自由を確保しながらユーザとコンピュータ100との対話を容易にするために、眼鏡またはバイザーと動作的に関連付けられた頭上型ディスプレイなどの携帯用またはウェアラブルディスプレイ112を介してユーザにデータを与えることができ、これにはたとえばバージニア州フェアファックス(Fairfax, Virginia)のザイバーノート(Xybernaut)TMにより製造されている「モバイルアシスタントIV(Mobile Assistant IV)」TMが含まれ、後に論じるこの発明の方法の実現についてユーザを支援する。別の好適なウェアラブルディスプレイには、ワシントン州レッドモンド(Redmond Washington)のバーチャル・ビジョン・インコーポレイテッド(Virtual Vision, Inc.)から入手可能な「バーチャル・ビジョン・スポート(Virtual Vision Sport)」または「イー・グラス(eGlass)」携帯用モニタが含まれる。後に説明する音声認識トレーニングの方法は、従来のCRTディスプレイ、フラットパネルディスプレイ(たとえばLED、LCDおよびLCOS(シリコン上の液晶)ディスプレイを含む)、または投影像によっても実現され得る。選択された表示手段は、ユーザの発声に基づいて、コンピュータ100から出力されたデータおよび情報を表示する。
【0026】
図2で例示するこの発明に従う方法を実現するためには、ベルギーのレルヌー&オースピー(Lernout & Hauspie)TMによる自動音声認識(ASR)ソフトウェア、たとえばL&H PCMM ASRバージョン1500または1600などを、上述のシステムとともに用いることができる。ステップ202において、或る概念を表わす少なくとも1つのアイコンがユーザに対して表示され,アイコンで表わされる概念は、コンピュータにより実行可能な命令セットに存在し得る。
【0027】
ステップ200は図3で例示され、この図は、複数のアイコン300を表示するスタートアップ話者登録画面を示し、各々のアイコンは、アイコンが表わす概念を図形的に示唆する。たとえばアイコン350は、完全な一連の車両アライメントを表わす。図5に示すように、その他のアイコンには、特定の測定を行なうことに関する複数のアイコンを含む画面への移動を表わすアイコン550と、調節を行なうことに関する複数のアイコンを含む調節画面への移動を表わすアイコン560とが含まれるが、これらに限定はされない。
【0028】
図3で、任意には各アイコン300の隣に見出し310が表示され、アイコンが表わす概念をテキストで表わし、音声認識プログラムのトレーニングを行なうユーザに追加的な案内を提供する。さらに、たとえばヘッドセット320およびスピーカ330を着用している男性を表わすアイコンも表示される。これらアイコンはそれぞれ、選択されたアイコン300の登録を開始する、および選択されたアイコンについて録音された発声を再生させるために用いられる。複数のアイコン320,330を示すが、アイコン320,330が与える機能の各々につき単一のアイコンを設けてもよい。
【0029】
ユーザは話者登録プロセスを始めるために、アイコンをマウスでクリックするなどでアイコン350を選択し、次にアイコン320を選択してアイコンの話者登録を開始することができる。これに代えて、話者登録プロセスおよびこれに関連するあらゆるアプリケーションは、音声に応答する操縦キーまたはアイコン375へ入力され得る。これら操縦キーにはたとえば「操縦」、「左」、「右」、「上」、「下」および「入力」が含まれ、これらのうちいくつかを図3および図5に示す。操縦キー375は、「右」または「左」など予め定められた文の音声コマンドに対応し得る。これに代えて操縦キーは、アイコン300の登録について後に説明する手順を用いて、ユーザの選択した発声または音と関連付けることも可能である。
【0030】
アイコン300の選択後、ユーザはステップ210で、図4(a)で示すように、選択されたアイコン350に関連付ける発声を口にするように指示される。ユーザの発声は、いかなる特定の語、音または言語にも限定されない。換言するとユーザは、選択されたアイコン350に対し、或る予め定められた語を関係付けるように制約されるわけではなく、ユーザはこのアイコンに、どのような可聴音または音の組合せを含む発声を関係付けることも可能である。たとえば見出し310は“Run Pro32 Wizard(pro32ウイザードを実行)”であるが、ユーザは“Start Wheel Alignment(車輪アライメントを開始)”または“Anfang Rad Ausrichtung(車輪アライメントを開始)”、またはその他どのような所望の音もしくは音の組合せを口にしてもよい。発声は、コンピュータ主メモリ106、記憶装置110、またはLAN122もしくはサーバ130記憶装置に記憶され、当業者に公知の方法を用いて、1つ以上の代表的な波形またはスペクトル特性ベクトル(フレーム)へ変換され、この方法にはパルス符号変調およびフーリエ変換動作が含まれるが、これらに限定はされない。発声を記憶および変換するための厳密な方法はここに示すこの発明の概念の中心ではなく、発声を記憶および変換するのに用いられる方法および装置は、ユーザが、任意の可聴音または音の組合せを含む発声を、表示されたアイコンに関係付けることを可能にすることのみが必須である。
【0031】
ステップ220は、選択されたアイコン350と発声との関連付けを確認する。必須ではないが、ユーザはこの発声を少なくともさらに2回口にすることが好ましく、これにより音声認識ソフトウェアによる発声波形の正しいサンプリングおよび分析が確実になり、選択された発声におけるわずかなばらつきが勘案される。これら発声の各々は、個々の検索、および後続の発声との比較のために、個々にデータベースに保存されて選択されたアイコンに関係付けられるか、または当業者に公知の方法を用いて代表的な発声へと組合され得る。発声の多数の反復を用いて、多数の反復の間で観察されたばらつきから個別化された誤差関数を生成することができ、次にこれを後続の発声に適用することで、ユーザの声にある自然なばらつきを勘案することができる。単一の発声を適応させることも可能であり、ここで音声認識ソフトウェアは、予め定められたレベルの発声波形でのばらつきを勘案するように適合された、一般化された信号処理アルゴリズムを適用することができる。必要な回数だけ発声が繰返された後、ユーザは図4(b)に示す“OK”をクリック、またはこれを言うことにより、アイコン350と発声との関連付けを確認する。
【0032】
ステップ230で、実行可能プログラム命令セット、およびさまざまなアイコンで表わされる概念に、記憶された発声を関係付ける、発声およびポインタを記憶したリレーショナルデータベースなど、適当なコンピュータ可読媒体で、アイコンと発声との関連付けが永久的に保存される。図4(c)で示すように、アイコンに関連付けられた発声をデータベースに永久的に追加する機会がユーザに与えられる。
【0033】
図4(d)に示すステップ240などの追加のステップを含めることができ、ここでユーザは、選択されたアイコンに関連付けられた発声を繰返すよう指示される。ステップ250で、この繰返された発声は、当業者に公知の従来の方法を用い、保存された発声と比較される。最後に、図3(e)で示すように、識別されたアイコン350がユーザに対して表示され、アイコン350と発声との一致が成功したことが確認される。
【0034】
以上の議論に従ってトレーニングされた、図2〜5に示す車輪アライメントの応用例などの応用例を用いるに際し、ユーザは、1つ以上のアイコンを表示しているディスプレイ上の任意のアイコンを選択するために、このアイコンの選択を示すものとしてアプリケーションが認識するよう先にユーザがトレーニングした発声を口にすることができる。このように、一般的に図2で示すように、ユーザの発声をシステムが認識するようにトレーニングし、アイコンが表わす特定の概念にこの発声を関連付けるための革新的な方法が提供される。
【0035】
応用に際しての発声の試みが、アイコンで表わされる所望の概念を起動するのに成功しない場合、ウェアラブルディスプレイ、マイクロホンおよび、コンピュータとの双方向通信を可能にする付属の電子機器とともに操縦キー375を用いることにより、操縦コマンドを用いアイコン300を周期的に表示させて、所望のアイコンを強調および選択することができる。たとえばユーザは、「操縦」またはユーザが指定したその他等価の発声を口にすることによって、登録のためのアイコン350を選択でき、この後、選択された開始点にあるアイコン300が強調される。次にユーザは、適当な操縦コマンドを用いてアイコン350を選択することができる。こうしてユーザは、制御装置またはコンピュータ100へ戻ってデータを手動で入力したり、またはソフトウェアをローカルに再トレーニングする必要なしに、不適当なエラーを回避することができる。
【0036】
音声認識システムのトレーニングを実現する方法はさらに、自動的に、またはユーザへの問合せにより、以前に保存された音声モデルを、認識されていない発声を組込むように適合させることを含み得る。操縦キー375などの代替的な手段によって適当なアイコンが識別された後の、以前に記憶された発声と、認識されていない発声を表わす多次元ベクトルとの間のばらつきを勘案するように誤差関数を修正する。こうして認識されていない発声は、この発声のスペクトル特性を表わす多次元ベクトルまたはフレームのストリングへと変えられて、以前に記憶した発声を組込む以前に生成された誤差関数と統計的に比較され得る。しかし上述のように、ユーザの発声を記憶および変換するのに用いる厳密な方法および装置はここに示すこの発明の概念の中心ではなく、このような方法および装置が、あらゆる可聴音または音の組合せを含む発声を、表示されたアイコンに関係付けることをユーザにとって可能にする限り、音声処理およびコンピュータプログラミング関係の当業者に公知のあらゆる方法および装置がここに含まれ得る。
【0037】
コンピュータにより実現される音声認識システムトレーニングはさらに、コンピュータ可読命令として有利に提供される。これら命令は、ハードディスクドライブなどのコンピュータ可読媒体に記憶され、ユーザが発した音を、アイコン350などの選択されたアイコンに関連付けられた概念と関係付ける。ユーザが発した音はこのコンピュータ可読媒体に記憶され、さらに記憶された音と、選択されたアイコン350に関連付けられた概念との関係もまた、ここに記憶される。ユーザは、選択されたアイコン350と関連付けられた概念に関係付けたいと望むあらゆる音または音の組合せを言うまたは発することができる。ユーザは、ソフトウェア、または或る局面では示唆的な見出し310によって、音の選択について制限はされない。
【0038】
この後、或るアプリケーションを音声認識システムと協働的に関連付けて用いる際、選択されたアイコン350で表わされる概念を選択するために、ユーザはこのアイコンに対応する所望の音を繰返す。この後続の音は、当業者に公知の手段により、記憶された音と比較され、こうして後続の音が記憶された音に対応するかどうかを判断する。一致が示されれば、記憶された音と後続の音との対応に基づき、記憶された音に関係付けられた概念が識別される。所望の概念の識別の後、この概念に対応する命令セットが実行される。命令セットは制御信号の出力を含み得る。
【0039】
たとえば、キーボード上の“ctrl−y”を押すことでアイコンの表わす概念を実行できる場合、ソフトウェア命令は、関心が向けられたプロセッサに“ctrl−y”コマンドを出力することになる。これに代えてソフトウェアは、選択されたアイコンまたは、動作的に関係付けられた、選択されたアイコンから出てくるアイコンを含む、概念に対応するデータを、ウェアラブルディスプレイへ出力することにより、ユーザの前部の視野にデータを視覚的に表示することができる。ソフトウェアはまた、制御信号を或る機械へ出力することによって、記憶され識別されたユーザ発声に関係付けられた概念に従う機能を行なうこともできる。たとえば、以下に例示する車輪アライメントシステムまたは車両エンジン診断システムなどの車両診断システムを含む自動車サービスシステムへ、制御信号を出力することができる。
【0040】
上記の、コンピュータにより実現される音声認識システムの一局面は、車輪アライメントシステムとの関連で有利に提供される。図6はこのような車両診断システムの可能な1構成を示し、これはいくつかの動作的な構成要素、たとえば車輪アライナ634を含み、これは車輪に装着され得るアライメントヘッド636を有し、これはキャスタ、キャンバまたはトーインなど車両のアライメント特性を測定するためのセンサを含み、当業者に公知の態様で、アライメント特性または各車輪の配向を表わす信号を生成する。車輪アライメントシステムはさらに、1つ以上のジャッキ640を含み得る車両リフトまたはラック638と、車両バランサ642とを含む。アライナ634、ラック638およびバランサ642は、一般に参照番号644で示す制御装置との通信を、それぞれ適当なインターフェイス646、648および650経由で行ない、これらはたとえば電線、無線高周波もしくは赤外線送受信機、または光ファイバであり得る。
【0041】
制御装置644はシステムバス652を含み、これは電源654により電力を供給される。電源654はさらに或る数の機能モジュールにも電力を供給することができ、これには、システムバス652と自動車サービス設備の或る要素との間に配置された或る数の通信モジュール656が含まれる。通信モジュール656は、自動車サービス設備とシステムバス652との間でデータを伝送する。予め録音された、または合成された音声の形でシステムバスからのデータをユーザに与えるために、ヘッドセットなどの信号から音への変換器614と、システムバス652との間に、音声プロセッサモジュール658が配置される。この局面で音声プロセッサモジュール658はさらに、ユーザからのデータをシステムバスおよびコンピュータ668に与えるために、マイクロホンなどの音から信号への変換器614とシステムバス652との間に配置される。ウェアラブルザイバーノートTMディスプレイなどのディスプレイ620が設けられ、これにより、データ信号を表示のために好適な形へ変換するための映像制御モジュールを通じてコンピュータおよびシステムバスから受取られたデータを、ユーザに対して視覚的に出力する。さらにプリンタ制御モジュール662、プリンタ666およびディスクドライブ672がシステムバスに結合され、この結合では、必要であれば別個のデジタル入出力手段664が用いられる。
【0042】
コンピュータ668は少なくとも1つのプロセッサ、たとえばインテルのペンティアムIII(Intel Pentium III)TM、またはアドバンスト・マイクロ・ディバイシズのアスロン(Advanced Micro Devices Athlon)TMプロセッサなどを有するが、多数のプロセッサを含むこともできる。コンピュータ668はシステムバス652と接続され、算出および管理タスクを実行して自動車サービスシステムに対する全体的な制御を提供する。任意には、制御装置644はキーボード670およびディスクドライブ672を含むことができ、これを通じて車両データまたは命令などがコンピュータ668へ通信され得る。加えてシステムは、インターフェイス674を通じ外部システムと通信することができる。
【0043】
音声認識をトレーニングするための上述の方法およびシステムに従うと、プロセッサまたはコンピュータ668とともに、ユーザがマイクロホン614を通じてプロセッサに与えた信号を処理するための、音声認識プログラム製品が提供される。音声認識プログラム製品は、コンピュータ668によりディスプレイ620上に表示されるアイコン300で表わされる概念を、ユーザが決めた任意の音に関係付けるように構成される。上述のように、ユーザは複数のアイコン300にそれぞれ関係付けられた音のデータベースを作成する。動作について、マイクロホン614からのデジタル信号(すなわち後続の発声)は、データベースに記憶されたデジタル信号(すなわち記憶された発声)と比較され、これは一致が見つかるまで、または記憶された発声のすべてが一致なしに処理されるまで行なわれる。一致が見つかれば、コンピュータ668は、識別されたアイコンで表わされる概念に対応する制御信号などの命令を、車輪アライメントシステムの適当な構成要素に送信する。たとえばコンピュータ668は、コンピュータと電気的に接続されたリフト638および/またはジャッキ640に制御信号を与えて、リフトまたはジャッキを持上げるまたは下げることができる。これに代えて、アイコン550または560など選択されたアイコンにより表わされる概念は、異なったアイコンを含む追加の画面へユーザを導くこともある。一致が見つからなければ、スピーカ、ディスプレイ、または別の光もしくは音を発する機器を通じて、コンピュータ668によりユーザに対しエラーメッセージが送られる。一致が見つからなければユーザは操縦キー375を用いて適当な概念を選択するか、または話者登録トレーニングを行なってシステムを再トレーニングするかを任意に選ぶことができる。
【0044】
このように、音声認識トレーニングの上述の方法およびシステムは、実質的に言語により影響されず、個々のユーザにとって極めて快適な音声認識システムを提供する。この発明をそのさまざまな局面との関連で説明したが、この発明は前掲の特許請求の範囲に記載した多種多様な局面および詳細を包含することが理解されるべきであり、この特許請求の範囲は、ここで例示したこの発明の範囲および精神内に入るあらゆる均等物を包含すると解釈されるべきである。
【図面の簡単な説明】
【図1】この発明の一実施例が実現され得るコンピュータシステムを示すブロック図である。
【図2】この発明に従う方法を示すブロック図である。
【図3】図2の方法の或るステップを表わすディスプレイを示す図である。
【図4a】図2の方法における追加のステップを表わすディスプレイを示す図である。
【図4b】図2の方法における追加のステップを表わすディスプレイを示す図である。
【図4c】図2の方法における追加のステップを表わすディスプレイを示す図である。
【図4d】図2の方法における追加のステップを表わすディスプレイを示す図である。
【図4e】図2の方法における追加のステップを表わすディスプレイを示す図である。
【図5】異なった概念を表わす複数のアイコンを含むディスプレイを示す図である。
【図6】この発明に従う音声認識システムのトレーニングを組込んだ車輪アライメントシステムを概略的に表わす図である。

Claims (20)

  1. コンピュータにより実現される音声認識システムをトレーニングするための方法であって、
    (a) 或る概念を表わすアイコンを表示するステップと、
    (b) 前記アイコンに関連付けようとユーザが決めた任意の音を含む発声を生じさせるように、ユーザに対して指示するステップと、
    (c) 前記アイコンと前記発声との関連付けを確認するステップと、
    (d) 前記アイコンと前記発声との関連付けを、コンピュータ可読媒体に保存するステップとを含む、方法。
  2. アイコンは車両診断に関係した概念を表わす、請求項1に記載の、コンピュータにより実現される音声記憶システムをトレーニングするための方法。
  3. アイコンは、車輪アライメントに関係した概念を表わす、請求項2に記載の、コンピュータにより実現される音声認識システムをトレーニングするための方法。
  4. 前記確認するステップはさらに、
    ユーザに前記発声を繰返すよう指示するステップを含む、請求項1に記載の、コンピュータにより実現される音声認識システムをトレーニングするための方法。
  5. (e) ユーザに対し、前記アイコンに関連付けられた発声を繰返すように指示するステップと、
    (f) 関連付けられたアイコンを識別するために、繰返された発声を複数の記憶された発声と比較するステップと、
    (g) 識別されたアイコンを表示するステップとをさらに含む、請求項4に記載の、コンピュータにより実現される音声認識システムをトレーニングするための方法。
  6. 前記発声は語または複数の語である、請求項1に記載の、コンピュータにより実現される音声認識システムをトレーニングするための方法。
  7. 命令を担うコンピュータ可読媒体であって、前記命令は、少なくとも1つのプロセッサを有するコンピュータが、選択されたアイコンと関連付けられた概念に、ユーザが発した音を関連付けることを可能にし、前記命令は、コンピュータにより実行されると、前記コンピュータが以下のステップを行なうことを引起し、前記ステップは、
    選択されたアイコンと関連付けられた概念に、ユーザが発した音を関係付けるステップと、
    ユーザが発した音を記憶し、記憶された音と、選択されたアイコンに関連付けられた概念との間の関係を、記憶するステップとを含み、
    ユーザが発する音は、あらゆる音または音の組合せを含み得る、コンピュータ可読媒体。
  8. 前記命令はさらに、前記コンピュータが以下のステップを行なうことを引起すように構成され、前記ステップは、
    ユーザが発した後続の音を、記憶された音と比較することにより、後続の音が記憶された音に対応するかどうかを判断するステップと、
    記憶された音と後続の音との対応に基づいて、記憶された音に関係付けられた概念を識別するステップとを含む、請求項7に記載の命令を担うコンピュータ可読媒体。
  9. 前記命令はさらに、前記コンピュータが以下のステップを行なうことを引起すように構成され、前記ステップは、
    記憶されたユーザの声に関係付けられた概念に対応する命令セットを実行するステップを含む、請求項8に記載の命令を担うコンピュータ可読媒体。
  10. 前記命令はさらに、前記コンピュータが以下のステップを行なうことを引起すように構成され、前記ステップは、
    コンピュータに接続された装置に制御信号を出力するステップを含み、
    前記装置は、制御信号の結果として第1の状態から第2の状態へ変化する、請求項10に記載の命令を担うコンピュータ可読媒体。
  11. 車両診断システムであって、
    少なくとも1つのプロセッサを有するコンピュータと、
    音から信号への変換器とを含み、前記音から信号への変換器は、前記音から信号への変換器に入力された音に対応して、信号をプロセッサへ出力するように構成され、前記車両診断システムはさらに、
    受信した信号に対応して、プロセッサから信号を受取り画像を表示するように構成されたディスプレイと、
    前記音から信号への変換器によりプロセッサに与えられた信号を、プロセッサとともに処理するように構成された音声認識プログラム製品とを含み、
    音声認識プログラム製品は、ディスプレイ上に表示されたアイコンで表わされる概念を、ユーザが決めたあらゆる音と関係付ける命令を含む、車両診断システム。
  12. アイコンは、車両診断に関係した概念を表わす、請求項11に記載の車両診断システム。
  13. 前記音から信号への変換器はマイクロホンを含む、請求項12に記載の車両診断システム。
  14. 音声認識プログラム製品は、識別されたアイコンで表わされる概念に対応して制御信号を出力するための命令を含む、請求項12に記載の車両診断システム。
  15. アイコンは、車輪アライメントに関係した概念を表わす、請求項12に記載の車両診断システム。
  16. アイコンは、車両エンジン診断に関係した概念を表わす、請求項12に記載の車両診断システム。
  17. コンピュータにより制御されるように構成された装置をさらに含み、
    音声認識プログラム製品により出力された制御信号は、プロセッサにより用いられて前記装置の状態を第1の状態から第2の状態へ変える、請求項14に記載の車両診断システム。
  18. 関心の向けられた車両パラメータを測定し、関心の向けられた測定パラメータに対応する信号をプロセッサに与えるための、センサを含む、請求項13に記載の車両診断システム。
  19. 前記装置は、コンピュータにより出力された信号に応答して、上方向または下方向へ動くように構成された、リフトおよびジャッキのうち少なくとも1つである、請求項17に記載の車両診断システム。
  20. ウェアラブルディスプレイをさらに含む、請求項15に記載の車両診断システム。
JP2002525641A 2000-09-01 2001-08-03 コンピュータにより実現される音声認識システムトレーニング Pending JP2004508593A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/653,989 US6556971B1 (en) 2000-09-01 2000-09-01 Computer-implemented speech recognition system training
PCT/US2001/024379 WO2002021509A1 (en) 2000-09-01 2001-08-03 Computer-implemented speech recognition system training

Publications (1)

Publication Number Publication Date
JP2004508593A true JP2004508593A (ja) 2004-03-18

Family

ID=24623074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002525641A Pending JP2004508593A (ja) 2000-09-01 2001-08-03 コンピュータにより実現される音声認識システムトレーニング

Country Status (7)

Country Link
US (1) US6556971B1 (ja)
EP (1) EP1314151B1 (ja)
JP (1) JP2004508593A (ja)
CN (1) CN1189861C (ja)
AU (1) AU2001279172A1 (ja)
TW (1) TW571290B (ja)
WO (1) WO2002021509A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015179371A (ja) * 2014-03-19 2015-10-08 ブラザー工業株式会社 処理実行装置および処理実行プログラム
CN106796785A (zh) * 2014-10-22 2017-05-31 高通股份有限公司 用于产生声音检测模型的声音样本验证

Families Citing this family (163)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE50007902D1 (de) * 1999-03-02 2004-10-28 Siemens Ag Augmented-reality-system mit einsatz mobiler geräte
US7689416B1 (en) 1999-09-29 2010-03-30 Poirier Darrell A System for transferring personalize matter from one computer to another
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7219058B1 (en) * 2000-10-13 2007-05-15 At&T Corp. System and method for processing speech recognition results
GB0030079D0 (en) * 2000-12-09 2001-01-24 Hewlett Packard Co Voice exchanges with voice service systems
US20020128837A1 (en) * 2001-03-12 2002-09-12 Philippe Morin Voice binding for user interface navigation system
US7209187B2 (en) * 2001-05-08 2007-04-24 Thomson Licensing System for selectively extinguishing a light source that illuminates a television power button
US7359775B2 (en) * 2001-06-13 2008-04-15 Hunter Engineering Company Method and apparatus for information transfer in vehicle service systems
US20030055535A1 (en) * 2001-09-17 2003-03-20 Hunter Engineering Company Voice interface for vehicle wheel alignment system
US6952674B2 (en) * 2002-01-07 2005-10-04 Intel Corporation Selecting an acoustic model in a speech recognition system
US7548847B2 (en) * 2002-05-10 2009-06-16 Microsoft Corporation System for automatically annotating training data for a natural language understanding system
US20030224334A1 (en) * 2002-06-03 2003-12-04 Boys Donald R. Low-cost, widely-applicable instruction system
JP4304952B2 (ja) 2002-10-07 2009-07-29 三菱電機株式会社 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
US7732162B2 (en) 2003-05-05 2010-06-08 Probiodrug Ag Inhibitors of glutaminyl cyclase for treating neurodegenerative diseases
US7757173B2 (en) * 2003-07-18 2010-07-13 Apple Inc. Voice menu system
KR20050028150A (ko) * 2003-09-17 2005-03-22 삼성전자주식회사 음성 신호를 이용한 유저-인터페이스를 제공하는휴대단말기 및 그 방법
US7735012B2 (en) * 2004-11-04 2010-06-08 Apple Inc. Audio user interface for computing devices
KR100677156B1 (ko) * 2004-12-08 2007-02-02 삼성전자주식회사 음원 관리 방법 및 그 장치
US7711358B2 (en) * 2004-12-16 2010-05-04 General Motors Llc Method and system for modifying nametag files for transfer between vehicles
US7596370B2 (en) * 2004-12-16 2009-09-29 General Motors Corporation Management of nametags in a vehicle communications system
ATE509332T1 (de) * 2005-03-14 2011-05-15 Harman Becker Automotive Sys Automatische erkennung von fahrzeugbetrieb- geräuschsignalen
US20070055520A1 (en) * 2005-08-31 2007-03-08 Microsoft Corporation Incorporation of speech engine training into interactive user tutorial
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
EP2057455B1 (en) * 2006-08-17 2015-11-04 Snap-on Incorporated Vehicle diagnostic equipment providing hands free operation
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
WO2008055945A1 (en) 2006-11-09 2008-05-15 Probiodrug Ag 3-hydr0xy-1,5-dihydr0-pyrr0l-2-one derivatives as inhibitors of glutaminyl cyclase for the treatment of ulcer, cancer and other diseases
EP2091948B1 (en) 2006-11-30 2012-04-18 Probiodrug AG Novel inhibitors of glutaminyl cyclase
JP2008146158A (ja) * 2006-12-06 2008-06-26 Canon Inc 情報処理装置及び情報処理方法
MX2009009234A (es) 2007-03-01 2009-12-01 Probiodrug Ag Uso nuevo de inhibidores de ciclasa de glutaminilo.
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
EP2865670B1 (en) 2007-04-18 2017-01-11 Probiodrug AG Thiourea derivatives as glutaminyl cyclase inhibitors
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
ES2548913T3 (es) 2009-09-11 2015-10-21 Probiodrug Ag Derivados heterocíclicos como inhibidores de glutaminil ciclasa
US9197736B2 (en) 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
EP2531988A4 (en) * 2010-02-04 2015-09-09 Snap On Tools Corp ROTATING ANIMATED VISUAL USER DISPLAY INTERFACE
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
ES2586231T3 (es) 2010-03-03 2016-10-13 Probiodrug Ag Inhibidores de glutaminil ciclasa
AU2011226074B2 (en) 2010-03-10 2015-01-22 Vivoryon Therapeutics N.V. Heterocyclic inhibitors of glutaminyl cyclase (QC, EC 2.3.2.5)
EP2560953B1 (en) 2010-04-21 2016-01-06 Probiodrug AG Inhibitors of glutaminyl cyclase
EP2442587A1 (en) * 2010-10-14 2012-04-18 Harman Becker Automotive Systems GmbH Microphone link system
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8530670B2 (en) 2011-03-16 2013-09-10 Probiodrug Ag Inhibitors
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
CN102323873B (zh) * 2011-09-07 2015-12-16 上海量明科技发展有限公司 即时通信中用以触发图标回复的方法及系统
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9679564B2 (en) * 2012-12-12 2017-06-13 Nuance Communications, Inc. Human transcriptionist directed posterior audio source separation
EP2941769B1 (en) * 2013-01-04 2019-05-08 Kopin Corporation Bifurcated speech recognition
US9158834B2 (en) * 2013-01-21 2015-10-13 Snap-On Incorporated Methods and systems for mapping repair orders within a database
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
EP2994907A2 (en) * 2013-05-06 2016-03-16 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
USD745892S1 (en) * 2013-09-03 2015-12-22 Samsung Electronics Co., Ltd. Display screen or portion thereof with icon
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
CN105355196A (zh) * 2015-09-28 2016-02-24 大连楼兰科技股份有限公司 智能眼镜应用于汽车维保领域的语音指令识别方法
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10559140B2 (en) * 2017-06-16 2020-02-11 Uatc, Llc Systems and methods to obtain feedback in response to autonomous vehicle failure events
CN107506446B (zh) * 2017-08-23 2020-07-28 京东方科技集团股份有限公司 辅助查询确认方法及系统
DK3461819T3 (da) 2017-09-29 2020-08-10 Probiodrug Ag Inhibitorer af glutaminylcyklase

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998012503A1 (en) * 1996-09-18 1998-03-26 Snap-On Technologies, Inc. Calibrating cameras used in alignment of wheels
JP2000155595A (ja) * 1998-11-19 2000-06-06 Canon Inc 撮像装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH644246B (fr) 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
US4931964A (en) 1984-09-07 1990-06-05 Fmc Corporation Vehicle wheel alignment apparatus and method
US4827520A (en) 1987-01-16 1989-05-02 Prince Corporation Voice actuated control system for use in a vehicle
AU2049792A (en) * 1991-08-30 1993-03-04 Bear Automotive Service Equipment Company Wheel alignment system
US5345538A (en) 1992-01-27 1994-09-06 Krishna Narayannan Voice activated control apparatus
US5379366A (en) * 1993-01-29 1995-01-03 Noyes; Dallas B. Method for representation of knowledge in a computer as a network database system
JP4001643B2 (ja) 1993-10-05 2007-10-31 スナップ−オン・テクノロジイズ・インク 両手解放型自動車整備装置
WO1995019030A1 (en) * 1994-01-05 1995-07-13 Pois, Inc. Apparatus and method for a personal onboard information system
US6088731A (en) * 1998-04-24 2000-07-11 Associative Computing, Inc. Intelligent assistant for use with a local computer and with the internet
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6330499B1 (en) * 1999-07-21 2001-12-11 International Business Machines Corporation System and method for vehicle diagnostics and health monitoring

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998012503A1 (en) * 1996-09-18 1998-03-26 Snap-On Technologies, Inc. Calibrating cameras used in alignment of wheels
JP2000155595A (ja) * 1998-11-19 2000-06-06 Canon Inc 撮像装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015179371A (ja) * 2014-03-19 2015-10-08 ブラザー工業株式会社 処理実行装置および処理実行プログラム
CN106796785A (zh) * 2014-10-22 2017-05-31 高通股份有限公司 用于产生声音检测模型的声音样本验证
JP2017535809A (ja) * 2014-10-22 2017-11-30 クゥアルコム・インコーポレイテッドQualcomm Incorporated サウンド検出モデルを生成するためのサウンドサンプル検証

Also Published As

Publication number Publication date
EP1314151A1 (en) 2003-05-28
CN1451152A (zh) 2003-10-22
US6556971B1 (en) 2003-04-29
WO2002021509A1 (en) 2002-03-14
CN1189861C (zh) 2005-02-16
EP1314151B1 (en) 2011-05-25
AU2001279172A1 (en) 2002-03-22
TW571290B (en) 2004-01-11

Similar Documents

Publication Publication Date Title
JP2004508593A (ja) コンピュータにより実現される音声認識システムトレーニング
US10810529B2 (en) Directing an inspector through an inspection
US9263037B2 (en) Interactive manual, system and method for vehicles and other complex equipment
CN107657017A (zh) 用于提供语音服务的方法和装置
JP2012226299A (ja) 音声命令語処理装置及びその方法
CN108337380A (zh) 自动调整用户界面以用于免提交互
EP2494473A1 (en) Transforming components of a web page to voice prompts
US20030055535A1 (en) Voice interface for vehicle wheel alignment system
CN111902831B (zh) 演示支援系统
US7249023B2 (en) Navigated menuing for industrial human machine interface via speech recognition
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
JP7252029B2 (ja) サーバ装置、情報提供方法、およびプログラム
JPH05307461A (ja) 音声データ入出力装置
US20110022384A1 (en) Wind turbine control system and method for inputting commands to a wind turbine controller
JP2000207166A (ja) 音声入力装置及び音声入力方法
JPH08129476A (ja) 音声データ入力装置
JP2002312451A (ja) オーダ入力装置
JP3614116B2 (ja) トランスクリプション装置、トランスクリプション方法、トランスクリプションプログラム、およびそのプログラムを記録した記録媒体
JP2004029457A (ja) 音声対話装置、および音声対話プログラム
WO2022019145A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
KR20180081933A (ko) 음성 인식 장치, 이를 포함하는 차량, 및 음성 인식 장치의 제어방법
JP2001084028A (ja) プラント監視装置
JP2005038067A (ja) 音声入力機能を備えたフォームを提供する電子フォームシステム
JPH0876968A (ja) 音響ディスプレイ装置
JP2022006564A (ja) 電子所見録記録支援装置および電子所見録記録支援方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111004

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111012

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111104

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111227