JP2004509385A - An input device for voice recognition and intelligibility using key input data. - Google Patents
An input device for voice recognition and intelligibility using key input data. Download PDFInfo
- Publication number
- JP2004509385A JP2004509385A JP2002505609A JP2002505609A JP2004509385A JP 2004509385 A JP2004509385 A JP 2004509385A JP 2002505609 A JP2002505609 A JP 2002505609A JP 2002505609 A JP2002505609 A JP 2002505609A JP 2004509385 A JP2004509385 A JP 2004509385A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- input
- signal
- speech
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 6
- 230000005236 sound signal Effects 0.000 claims description 32
- 238000012546 transfer Methods 0.000 claims description 26
- 238000005516 engineering process Methods 0.000 claims description 11
- 230000011664 signaling Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Input From Keyboards Or The Like (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
キー入力(13)と音声データ(14)の両者をコンピュータへ送るインターフェースコントローラ(12)を持つ入力デバイスが開示されている。コンピュータは分割した処理を行うためにデータを分けることができ、音声または言語認識のための音声明瞭度処理を含んでいる。入力デバイスは音声認識キーボードを持つことができ、音声認識処理はキーボードとローカルに置かれており、そのキーボードはマルチメディアの電子デバイスを遠隔で制御できる。入力デバイスへの口語コマンドはインターネットアクセスを始めることができる。本発明はさらに音声または言語認識用の単一のインターフェースによってコンピュータシステムにキー入力及び音声入力(17)を提供する方法、口語をテキストに変換する方法、インターネットにつながれたコンピュータからインターネットへのアクセスを提供する方法、または少なくともひとつの電子デバイスを口語コマンドにより遠隔で制御する方法、も熟考している。An input device having an interface controller (12) for sending both key input (13) and audio data (14) to a computer is disclosed. Computers can separate the data to perform the segmented processing, including speech intelligibility processing for speech or language recognition. The input device can have a speech recognition keyboard, and the speech recognition process is located locally with the keyboard, which can remotely control the multimedia electronic device. Spoken commands to input devices can initiate Internet access. The present invention further provides a method for providing key and voice input (17) to a computer system through a single interface for speech or language recognition, a method for translating spoken language to text, and providing access to the Internet from an Internet-connected computer. Methods of providing or remotely controlling at least one electronic device by spoken commands are also contemplated.
Description
【0001】
【発明の属する技術分野】
本発明は電子デバイスとインターフェースするための入力デバイスに関連するものである。本発明はさらに特にコンピュータキーボード、音声・言語認識システム、そして電子装置の制御システムに関連している。
【0002】
【従来の技術】
従来技術として音声検出機能はキーボードに統合されることが知られている。例えばWhelpley Jr.は米国特許第5659665号(以下Whelpley665パテントと呼ぶ)で、キーボードとコンピュータシステムとの間のデータケーブルに外部デバイスを挿入することを開示している。この外部デバイスは音声信号をコンピュータのキーボードポートに送られるキー入力データへ変換することと、一方で、キーボード自身からの通常の信号は外部デバイスを通過していつものとおりにコンピュータへ行くことを許可することにより、コンピュータに音声認識機能を付加している。Whelpley665パテントで開示されている音声認識システムは音声入力がその中に組み込まれており、音声入力信号の処理用として音声認識のハードウェアは外部デバイスに閉じ込められている。音声コマンドはキーボードデータと等しいとき以外はコンピュータには決して送られず、音声認識機能を実行する際にコンピュータ処理時間は消費されない。
【0003】
Whelpley665パテントではまた、キーボードハウジング内に音声認識デバイスが含まれている実施例を開示している。外面的な実施例と同様に、そのデバイスは音声信号をキー入力データに変換したり、キーボードから来るデータストリームにデータを挿入したりする働きをする。Whelpley665パテントで開示された組み合わせは、音声認識機能をコンピュータに対して透明となるように事実上偽装する。従って音声信号は決してキーボードケーブルによって転送されない。
【0004】
【発明が解決しようとする課題】
Whelpley665パテントで開示されているようなキーボード操作を模擬するだけのどんな従来技術のデバイスでも、キーボード入力やキー入力の組み合わせで実行できるコマンドに対しては機能的に事実上の限界がある。コンピュータに直接そして音声認識システムとは無関係につながれた余計なマイクロフォンやスピーカの組み合わせなしでは音声信号自身の操作を実行することがコンピュータにとってできないので、このことは大きな欠点となる。
【0005】
音声認識は発展していく技術であることがまた知られている。
現在実行されているものは、特定のユーザの音声を正確に認識するために設計された音声依存型のものと、いかなる音声に対しても正確に機能するように設計された音声非依存型のものがある。この分野での進歩は、言語をキー入力に変換する際のさまざまな発音、話し方、アクセントの変化による不正確さを減らしていることである。音声認識のいかなる組み込み手段もハードウェアの限界となりつつあり、技術の進歩とともにアップグレードすることが高価になりそうである。
【0006】
さらに基本的なテキスト入力のような機能は、特定ユーザの音声を正確に見分けるために現在の音声認識システムをトレーニングする必要により、非常に複雑である。Galvinによる米国特許第5874939号(Galvin939パテント)ではトレーニングを容易にするディスプレイ付の音声認識キーボードを開示している。システムによって口語をテキストに変換する際には、ユーザはそれらをディスプレイ上で正確にチェックでき、この方法ではシステムオーバータイムの正確さを改善できる。
【0007】
Whelpley665パテントと同じように、Galvin939パテントで開示されている音声認識システムは組み込みのものであり、音声データをコンピュータに転送はしない。結果としてトレーニング手順は必然的にキーボードとのインターフェースで局部的な制限が必要となり、開示されたように貧弱なまたは高価なものとなり、間違いなくコンピュータに接続されたディスプレイと同じようにキーボードディスプレイを準備する問題に関連する。
【0008】
Whelpley665パテントやGalvin939パテントで開示されているような組み込みのアプローチは、コンピュータシステムとは分離された外部プロセッサに言語処理を制限することにより、システム効率の改善を図っており、そしてより古いコンピュータシステムに適しているであろうとはいえ、現行のコンピュータシステムや利用可能なハイビットレートのインターフェースでの実用的な使用に対しては十分な柔軟性がなく、他の音声関連技術の使用には適さない。
【0009】
同じインターフェースによって音声信号とキーボード信号をコンピュータに同時に転送できる低価格の装置に対する要望がある。また、ディジタル技術のような他の音声処理機能をサポートするのと同じようにキーボード信号を模擬できる音声明瞭度認識システムに対する要望や、遠隔デバイス制御に対する要望もある。キーボードと近くない環境でのこれらの機能に対する要望がある。また、キーボード内で、あるいはアプリケーションに依存したコンピュータシステムとともに機能することができる音声明瞭度認識システムに対する要望もある。
【0010】
【課題を解決するための手段】
本発明は、コンピュータキーボードや音声データを持ったマイクロフォンやテレフォンハンドセットのようなその他の周辺インターフェースから音声明瞭度認識システムにテキスト入力としてキー入力データを統合し、電子装置を制御し、そしてインターネットへアクセスすることに向けられている。
【0011】
本発明のひとつの実施例としては通常のコンピュータキーボードのような入力デバイスを提供することであり、そのデバイスは音声信号入力とインターフェースコントローラを共有するために、そしてキー入力データを運ぶものと同じケーブルによってコンピュータシステムへ信号を送ることを可能にするために適合される。
【0012】
コンピュータへ1本のケーブルによってキーボード信号と音声信号の両方を伝送することは、ユニバーサルシリアルバス(USB)コントローラのような十分高いビットレートを持つキーボードインターフェースコントローラと、たとえばマイクロフォンからのアナログ音声信号をディジタルに変換するコントローラに接続された音声プロセッサを使うことにより達成される。この方法ではUSBキーボードはコンピュータとの間の音声信号のコンジットとなる。そして音声処理を行うためにコンピュータシステムで現在使われている音声やサウンドのカードのような現存する周辺デバイスの追加や置き換えそれ自体が可能となる。
【0013】
音声プロセッサへのスピーカのような音声出力の接続は、テレコミュニケーション分野と互換性のある多重音声転送を可能とする。音声プロセッサにメモリを増設することにより、入力デバイスに対して音声メッセージ化、音声プリント認識、そして音声認識の機能を拡張できる。
【0014】
本発明の目的は、コンピュータシステム内で使うための通信信号を供給するインターフェースコントローラと、インターフェースコントローラに接続されたキー入力手段と、インターフェースコントローラに接続された音声入力手段とを備えるコンピュータシステムに対して入力デバイスを提供することにより達成され、キー入力手段と音声入力手段はコンピュータにキーボードデータや音声データを送るためのインターフェースコントローラを共有している。
【0015】
本発明のさらなる実施例は、音声とキーボードの情報を受けるために単一の入力デバイスを用いたコンピュータが、テキストとしての出力用に音声認識技術を使って、または、対応する操作命令を実行することにより、音声入力を処理する、音声認識システムである。上述のように入力デバイスはUSBキーボードのようなものであり、音声プロセッサはアナログ音声入力に適応するためにその間に置かれている。音声プリント認識を容易にするためにメモリを入力デバイスやコンピュータに増設できる。入力デバイスとコンピュータとの間の信号の符号化はインターフェースを詮索することを防ぐために使うことができる。また音声認識は、コンピュータと並列な入力デバイスにより、システムの計算負荷を分散したり、または音声認識機能の精度を高めたりすることを達成できる。
【0016】
さらにここでは、入力処理手段と出力手段につながれた音声認識手段を持つコンピュータシステムと、コンピュータの入力処理手段につながれた少なくともひとつのインターフェースコントローラに結合され共有しているキー入力手段と音声入力手段を持つ音声信号とキー入力信号を転送するための入力デバイスと、を備える音声認識システムを提供しており、音声認識手段は音声信号を処理し、出力手段に対して出力を生成する。
【0017】
さらなる実施例では、ひとつ以上の外部デバイスへの入力と同じように、コンピュータにデータを転送できる信号化手段をもつキーボード内に音声認識が組み込まれている。この実施例に従った代表的な処理は、コンピュータとのインタ−フェースにUSB技術を使ったものや、テレビを制御するために使われるような赤外線(IR)、またはコードレスフォンのような適用での無線周波数(RF)転送などである。言語認識を行うために必要なコンポーネントは、キーボードインターフェースによってコンピュータへ言語をテキスト転送へ変換するために、そしてまた互換性のある電子デバイスに対して遠隔制御された音声を提供するために、キーボード内に含まれている。
【0018】
そしてその上、キー入力や少なくともひとつの電子デバイスを制御するための操作命令を生成するためのコンピュータシステム用の音声認識キーボードを提供しており、コンピュータシステムへの転送に適した第1のタイプと、少なくともひとつの電子デバイスへの転送に適した第2のタイプの2タイプの信号転送が可能な信号化手段と、転送用に信号化手段へのキー入力を提供するために信号化手段に接続された複数のキーと、音声入力手段と、信号手段による転送用に口語を操作命令に変換するために音声入力手段に接続された音声認識手段と、を備えている。
【0019】
信号処理や音声認識を扱う音声処理回路と同じように、キーボードに音声入力を提供するためには少なくともひとつの音声入力デバイスが必要となる。前記の実施例のように、メモリ、符号化回路、そしてキーボードへの音声出力手段を加えることは、音声プリント比較や、ディジタル電話方式や音声データエントリを確実にするのに適した双方向音声伝達を可能としている。
【0020】
次の実施例では、インターネットアクセスのために形づくられたコンピュータにつながれる時にキーボードが提供されるように、入力デバイスは特定の口語コマンドを受信するとインターネットへのアクセスを始めるであろう。
【0021】
インターネットに接続されるために形づくられたコンピュータからインターネットへ音声アクセスを提供するための音声認識入力デバイスを提供しており、音声入力手段と、インターネットにアクセスを始めるために定義された少なくともひとつの口語コマンドを認識するための音声認識手段と、コマンドの実行トリガのための信号手段と、を備えている。
【0022】
本発明はさらに、単一のインターフェースによってキー入力と音声入力をコンピュータシステムに提供する方法、口語をテキストに変換する方法、インターネットにつながれたコンピュータからインターネットへアクセスを提供する方法、そして少なくともひとつの電子デバイスを口語コマンドで遠隔制御する方法についても熟考している。
【0023】
【発明の実施の形態】
上述の内容や、本発明の他の特徴、外観、利点は、添付図と共に読まれる以下の記述より明らかとなるであろう。図中の参照番号は同一要素を示している。
【0024】
さて図1を参照すると、数字10で一般に示されている本発明による言語入力デバイスの好ましい実施例の電気的なブロック図が示されている。言語入力デバイス10に対してケース11が図で示されている。コンピュータシステムは数字20で一般に表されている。コンピュータ20は入力プロセッサ21を持っており、言語入力デバイス10のインターフェースコントローラ12と双方向通信でつながれている。インターフェースコントローラ12はキー入力13と音声入力17からの信号を受信するために接続されている。
【0025】
音声プロセッサ14は音声入力17とインターフェースコントローラ12との間に接続されている。音声プロセッサ14とインターフェースコントローラ12との間は双方向接続が存在する。インターフェースコントローラ12と音声プロセッサ14はシングルチップ内に結合することができる。機能上は同等である。音声出力18とメモリ16は音声プロセッサ14につながれている。音声入力17と音声出力18は図1のケース11内に示されているとはいえ、本発明の機能や精神に影響を与えることなく、それらはケースの外側に存在しうることが理解できる。
【0026】
動作中には、音声入力17から受信した信号は音声プロセッサ14でディジタル化され、音声データはインターフェースコントローラ12に送られる。インターフェースコントローラ12はキー入力13から受信したキー入力データとこの音声データを結合して、ひとつのデータ信号としてコンピュータシステム20内の入力プロセッサ21にそれらを転送する。USBに関連した近年のデバイスでは、キーボードとマイクロフォンは複合したUSBデバイスとしてふたつの異なるUSBエンドポイントを使うので、キーボードデータと音声データは同時である必要はない。音声データは同時でも非同時でもよい。もしデータが同時であれば、USBバス上で他のすべてのデータタイプのものよりも優先権を与えられるであろう。オーディオデータなどはまた非同時であり、他のUSBデバイスをエミュレートする。どのインターフェース方法が使われるかにかかわらず、音声データとキー入力データは同時にまたはどちらか一方が一度に送られる。音声データとキー入力データは単一のケーブルによってコンピュータシステムに転送される。
【0027】
同様に、コンピュータ20からインターフェースコントローラ12で受信された音声データを含む信号は、音声出力18に適したアナログ信号への変換のために音声プロセッサに送られる。もっとも単純なケースとしては、音声プロセッサは音声データ入力用のADコンバータとして、そして音声データ出力用のDAコンバータとして機能する。
【0028】
音声入力17から受信した信号は、人間の言語をテキストに変換する言語認識や、人間の言語をコマンドに変換したり確認を実行したりする音声認識のような音声明瞭度認識のいかなるタイプに対しても処理される。
【0029】
メモリ16は音声プリントサンプルまたは音声認識データを含んでおり、音声プロセッサ14が音声入力17からくる音声信号の音声プリント比較を行ったり、その結果音声認識機能を実行したりすることを可能にしている。
【0030】
図2は図1と同様に本発明の電気的なブロック図を示しており、ここでは言語入力デバイス10はUSBキーボードをベースとしている。USBキーボードの標準的な構成要素は代表的な形に並べられており、キー入力13とLED信号15がつながれそしてUSB出力19を持ったインターフェースコントローラ12に含まれている。
【0031】
種々のクラスのUSBデバイスが存在する。USBキーボードそれ自身はHID(ヒューマンインターフェースデバイス)のクラスになる。他のクラスはオーディオデバイス、コミュニケーションデバイス、ディスプレイデバイス、そしてマスストレージデバイスのクラスが含まれる。オーディオデバイスクラスはUSBマイクロフォン用のデバイスディスクリプタと定義される。USBオーディオデバイスクラスのディスクリプタを使うことはUSBマイクロフォンをサポートする標準的な方法であり、一括転送をサポートするフルスピード12メガビット/秒のUSBインターフェースチップを必要とする。このようなチップは低速のチップよりも高価となるが、マイクロフォン用のより広いレンジのUSBシステムドライバとの互換性を保証している。しかしながら本発明では同時、非同時両方でのデータ転送を熟考しており、どのようなインターフェースでもその基本的な機能性を変えることなくこれらのUSBデバイスクラスを取り替えることができる。
【0032】
本発明はUSBキーボードに対して、インターフェースコントローラ12につながれた音声プロセッサ14を付加しており、各々マイクロフォンとスピーカとして表された音声入力17と音声出力18がつながれている。音声入力17はオンボードマイクロフォン(すなわちキーボードに統合されているもの)またはジャックコネクタにプラグを差し込むマイクロフォンとなりうる。またメモリ16は音声プロセッサ14に接続されている。
【0033】
言語入力デバイス10の動作は図1で記述したものと同等であり、キー入力13から受信したデータと音声入力17から受信した音声データをインターフェースコントローラ12で結合し、音声プロセッサ14によってディジタル化する。ディジタル信号はインターフェースコントローラ12に入り、信号をパケット化するUSBプロセッサとして働く。最終的な信号は、同様のUSBインターフェースを持ついかなるコンピュータシステムとも互換性のある標準的なUSB技術に従って音声パケットとしてUSBケーブル19によって転送される。パケット化の可能なフォーマットのひとつとしては、16ビット8KhzPCMのUSBマイクロフォンオーディオデータフォーマットがある。しかしながら他に多くの可能なオーディオフォーマットがある。USBケーブル19を通って入ってくる音声信号は、一定の順路に従って音声出力18を通って出力されるために、インターフェースコントローラ12によって音声プロセッサ14に送られる。音声プロセッサ14とインターフェースプロセッサ12は機能上の影響なく、シングルチップに結合することができる。LED15は一般的にNum LockやCaps Lockのようにキーボードの表示ライトとして使われるが、音声入力デバイス10の他の状況の機能を表示するためにも同様に使うことができる。
【0034】
この構成では、音声入力デバイス10はまさに標準のUSBキーボードとして機能し、またUSBに準拠したコンピュータに追加でインターフェースを付加することなく音声信号に対して2ウェイコンジットとして機能する。さらに、音声入力17と音声出力18はテレフォンハンドセットとして使われるレシーバユニットに結合されている。音声プロセッサ14にメモリ16を追加することは、システムが入ってくる信号とメモリ16に格納されている信号とを比較することによってユーザの同一性をチェックしたり、特定の認定されたユーザに音声入力デバイス10へのアクセスを制限したりすることを可能としている。この構成ではまた、単一の入力デバイスの簡潔さを保ったまま、音声プロセッサ14にいかなる音声明瞭度認識の機能性をも付加することができる。
【0035】
次に図3を参照すると、入力デバイス10を使った音声明瞭度認識システムの好ましい実施例がブロック図で示されており、コンピュータシステム20は出力手段23がつながっている音声サブシステム手段22に接続された入力プロセッサ21を持っている。入力デバイス10は基本的には図1と同様の基本構成要素を持っており、入力プロセッサ21への単一のインターフェースによってキー入力や音声データをコンピュータシステム20に同様に提供する働きをする。音声データは音声サブシステム手段22に転送するために入力プロセッサ21によって分離される。この実施例によると、音声サブシステム手段は命令のセットの形をとってソフトを実行するコンピュータシステムのネイティブ処理手段を備えているか、もしくは特別なハードまたは両者の組み合わせからなっている。
【0036】
出力手段23は、例えば口語をモニタ上に表示するテキストに変換して音声サブシステム手段22の出力を直接提供したり、あるいはもっと間接的にはワードプロセッサに対する音声書き取りのようになり、プリンタへ出力したりすることができる。先の実施例のように入力デバイス10内のインターフェースコントローラ12はUSB技術に従って信号を生成するために適応されている。同様に音声プロセッサ14はアナログからディジタルへの変換を提供するために、音声入力17とインターフェースコントローラ12との間につながれている。音声プロセッサ14がインターフェースコントローラ12から受信したディジタル音声信号をスピーカへの出力に適したアナログ信号に変換するケースでは音声出力18が提供される。
【0037】
先の実施例のように、音声プロセッサ14の機能は信号モード変換に制限を持たせる必要がない。メモリ16の追加は、入力デバイス10でローカルに音声プリント比較や言語認識のような音声を処理することを可能にする。音声プリント比較は入ってくる音声信号をメモリ16内に記録されている音声プリントと比較するために使うことができる。音声プロセッサ14によるローカルな音声明瞭度認識は音声サブシステム22とともに用いることができ、この場合には入力デバイス10はコンピュータシステム20のコプロセッサとして機能する。
【0038】
出力手段23上で表示されるユーザインターフェースはウィンドウズベースとすることができ、音声コマンドが表示されたメニューをプルダウンすることによって動かすことができる。従ってユーザはシステムで認識されるコマンドを記憶する必要はない。この方法は音声明瞭度認識システムをよりユーザフレンドリーとすることができる。もちろんいかなるディスプレイインターフェースも使用可能であり、またインターフェースは本発明の機能性を変えることなく特殊な機能を実行するためにカスタマイズすることができる。
【0039】
図4は図3の音声明瞭度認識システムの変更実施例を示しており、図示されたケース11を持つ入力デバイス10は、キー入力13からのキー入力データを受信するためにそして前記音声プロセッサからの音声入力を送受信するために接続されたインターフェースコントローラ12を持つ。インターフェースコントローラ12はディジタル音声信号をコンピュータシステム20へケーブルによって送信するためにパケット化する。音声入力17と音声出力18は、コンピュータシステム20と同一のケーブルによってインターフェースコントローラ12を通ってくる音声プロセッサ14からのアナログ音声データを各々送受信している。先の実施例のように、メモリ16は音声プリント比較や音声認識用のデータを蓄えておくために音声プロセッサ14によって使われる。
【0040】
この実施例では、信号符号化手段19は入力デバイス10とコンピュータシステム20との間を転送されるデータの符号化/復号化を行うために入力デバイス10に追加されている。同様に符号化手段25がコンピュータシステム20内に同様の理由で付加されている。符号化手段19や25はソフト制御された符号化回路またはプロセッサのいかなる既知のタイプのものとなり得る。符号化手段19はインターフェースコントローラ12内に統合することができ、それによりインターフェースコントローラ12を使ってデータのパケット化と符号化の両方ができる。
【0041】
コンピュータシステム20内では、入力プロセッサは入力デバイス10から音声データとキー入力データを受信し、音声信号を音声認識手段22に渡す。メモリ24は音声サブシステム手段22につながれ、それによって記憶回路として仕えていることが示されている。出力手段23は音声サブシステム手段22の出力を表示するために使われるコンピュータシステム20の表示手段である。この実施例では、I/Oコントローラ26はコンピュータシステム20と、インターネット接続、テレフォンサービス、そして周辺機器のようなコンピュータシステム20の外部のデータソースとの間のゲートウェイインターフェースとして示されている。
【0042】
この構成では、音声入力17と音声出力18はオンライン電話方式を使用するためにレシーバユニット内に結合することができる。これに関係して、インターネットプロバイダによる音声(VOIP)が得られる。さらにI/Oコントローラ26の機能はローカルエリアネットワーク(LAN)カードのようなインターフェースカードを使うことにより達成できる。
【0043】
この実施例では、音声明瞭度認識システムは入力デバイス10からコンピュータシステム20への音声やキー入力の通信に対して安定した手段を提供するために機能している。インターフェースコントローラ12と入力プロセッサ21との間のインターフェースを詮索するいかなる試みも符号化手段19,25の動作に従う。
【0044】
次に図5を参照すると、入力デバイスが音声認識キーボード10である場合の本発明の実施例のブロック図が示されている。このような音声認識キーボード10の場合は図的には11として表されており、キー入力13と音声プロセッサ14からのデータを受信するインターフェースコントローラ12を内部に持っている。音声プロセッサ14は音声入力17からの音声信号を受信し、そしてメモリ16とつながれている。
【0045】
音声プロセッサ14は音声入力17から音声信号として入ってくる言語を受信し、インターフェースコントローラ12を通じてコンピュータシステム20や電子デバイス30への転送に適したコマンドへ口語を変換する。インターフェースコントローラ12はキー入力13と音声プロセッサ14からのデータを結合し、それらを選択的にコンピュータシステム20や電子デバイス30に転送する。
【0046】
この実施例によると、音声認識キーボード10は通常のキーボードとして使うことができ、コンピュータシステム20へキー入力を提供するためのUSBのようなインターフェースを持っている。しかしさらに、キー入力からの入力はコントロールデータとなることができ、さらにまた、DVDやCDプレーヤー、ステレオ、VCR、セットボックスまたはテレビのような電子デバイスに対して指示することができ、無線周波数(RF)または赤外線(IR)またはUSBケーブルのようなインターフェースを装備したインターフェースコントローラ12は、制御されるデバイス30との互換性を有している。
【0047】
さらに、音声入力17を通じて受信された口語コマンドはそれらのキー入力と同等なものに処理され、インターフェースコントローラ12に送られる。インターフェースコントローラは音声プロセッサ14から中継された入力をあたかもキー入力13からのデータと同じように処理し、USBインターフェース,RFまたはIRリンクのようなコンピュータインターフェースを経由して、必要であれば任意のその他のふさわしいインターフェースを通じてコンピュータシステム20または電子デバイス30に転送する。従って口語コマンドはDVDやCDプレーヤー、ステレオ、VCR、セットボックスまたはテレビのようなマルチメディア電子デバイスのいかなるタイプのものも遠隔制御できる。
【0048】
利用可能なキーボードコマンドや入力のセットは利用可能な音声コマンドや入力すべてのサブセットである。キーボードは常に既定の制約されたキーやキーの組み合わせの数を持つが、音声コマンドや入力は物理的には制限を持たない。キーボード入力が一般的には数百のコードで制限されるのに対して、音声コマンドは数千となることができる。
【0049】
本発明のキーとなる特徴は、音声パケットがUSBケーブルによって転送されるところであり、音声コマンドをキーボードコードに変換し、それからケーブルによってキーボードコードを送るのとは対照的である。音声コマンドセットは、従来はキーボードコードには制限があったのだが、キーボードコードに制限されない。サポートされる音声コマンドの数はシステムメモリや事前に記録されたコマンドの数によって制限されるのみである。事前に記録された音声コマンドの数はインターネット経由で新しいコードをダウンロードすることにより更新できるため、音声コマンドの数は制限なしに増やすことができる。音声コマンドの別個のセットは特別なwebサイトでサポートされるwebサイト音声コマンドにユーザがアクセスする時に自動的にダウンロードできる。
【0050】
図6はインターネットへの音声アクセスを提供することに対して示された本発明の代替の実施例を示している。この実施例では、入力デバイス10はメモリ16と音声入力17がつながれた音声プロセッサ14と接続されたインターフェースコントローラ12を持ち、ケース11の中に図示されている。この実施例では、口語コマンドは音声プロセッサ14により対応するデータに変換され、インターフェース経由でコンピュータシステム20に送られる。コンピュータシステム20はインターネットにつながる構成をしている。従ってインターネットアクセスが音声で起動できる。入力デバイス10はキーボード上に新しいキーを置き換えたり増やしたりするインターネットアクセスの音声起動を持つキーボードとなる。この実施例は、音声コマンドを、インターネットを操縦する際の使用のためにコンピュータシステム20によって認識されるコマンドに変換することを可能にしている。本発明のこの実施例を用いて、ワールドワイドネットワークのコンピュータはアクセス可能となる。
【0051】
本発明は、さらに音声とキー入力データに対して単一のインターフェースを用いる方法を熟考している。コンピュータは別々の処理を行うために、結合された信号をディジタル音声信号のコンポーネントとキー入力信号のコンポーネントに分ける。音声プリント比較がなされる。本発明は音声コマンドによりインターネットアクセスを起動する方法も含んでいる。このような音声コマンドはキーボードへの入力となることができる。方法はまた、口語コマンドを用いてキーボードから電子デバイスを遠隔制御するために熟考されている。
【0052】
本発明は、好ましい実施例に関して述べられているとはいえ、本発明の精神と領域内で応用例や変更例を熟考していることは、技術に熟練した人には明らかであろう。好ましい実施例による図や記述は発明の領域に制限をかけるよりもむしろ一例としてなされており、発明の精神や領域内で類似の変化・変形はすべてカバーしたつもりである。
【図面の簡単な説明】
【図1】本発明に従った入力デバイスのブロック図である。
【図2】USBキーボード内に本発明による言語入力デバイスを統合した実施例のブロック図である。
【図3】音声認識手段を持つコンピュータシステムに接続された本発明に従った入力デバイスの実施例のブロック図である。
【図4】さらに外部のサービスに接続されたコンピュータシステムに接続された本発明に従った入力デバイスの実施例のブロック図である。
【図5】統合された入力デバイスがリモートコントロール機能を有した音声認識キーボードである本発明の実施例のブロック図である。
【図6】インターネットへのアクセスを伴うコンピュータに接続された本発明の実施例のブロック図である。[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an input device for interfacing with an electronic device. The invention more particularly relates to computer keyboards, speech and language recognition systems, and control systems for electronic devices.
[0002]
[Prior art]
It is known from the prior art that the voice detection function is integrated into a keyboard. For example, Whelpley Jr. U.S. Pat. No. 5,569,665 (hereinafter Whelpley 665 patent) discloses the insertion of an external device into a data cable between a keyboard and a computer system. This external device converts audio signals into keystroke data sent to the computer's keyboard port, while allowing normal signals from the keyboard itself to pass through the external device to the computer as usual By doing so, a voice recognition function is added to the computer. The speech recognition system disclosed in the Whelpley 665 patent has speech input incorporated therein, and speech recognition hardware for processing the speech input signal is confined to an external device. The voice command is never sent to the computer except when it is equal to the keyboard data, and no computer processing time is consumed in performing the voice recognition function.
[0003]
Whelpley 665 patent also discloses an embodiment in which a voice recognition device is included within the keyboard housing. As in the external embodiment, the device serves to convert audio signals into key-in data and insert data into the data stream coming from the keyboard. The combination disclosed in the Whelpley 665 patent effectively disguises the speech recognition function as being transparent to the computer. Thus the audio signal is never transmitted by the keyboard cable.
[0004]
[Problems to be solved by the invention]
Any prior art device that merely simulates keyboard operation, such as that disclosed in the Whelpley 665 patent, has a practical limit to the commands that can be executed with a combination of keyboard and key inputs. This is a major drawback because the computer cannot perform the operation of the audio signal itself without the extra microphone and speaker combination connected directly to the computer and independently of the speech recognition system.
[0005]
Speech recognition is also known to be an evolving technology.
Currently implemented are voice-dependent, designed to accurately recognize the voice of a particular user, and voice-independent, designed to function correctly for any voice. There is something. Advances in this area are reducing the inaccuracy of various pronunciations, speaking styles, and accent changes in converting language to keystroke. Any built-in means of speech recognition is becoming the limit of the hardware, and upgrading with technology is likely to be expensive.
[0006]
Further, functions such as basic text input are very complex due to the need to train current speech recognition systems to accurately identify a particular user's speech. US Pat. No. 5,874,939 to Galvin (Galvin 939 patent) discloses a speech recognition keyboard with a display to facilitate training. When the system converts spoken words to text, the user can check them accurately on the display, and this method can improve the accuracy of system overtime.
[0007]
Like the Whelpley 665 patent, the speech recognition system disclosed in the Galvin 939 patent is built-in and does not transfer speech data to a computer. As a result, the training procedure inevitably requires local restrictions on interfacing with the keyboard, making it poor or expensive as disclosed, and arranging the keyboard display as if it were a computer connected display Related to the problem you want.
[0008]
Built-in approaches, such as those disclosed in the Whelpley 665 and Galvin 939 patents, improve system efficiency by limiting language processing to external processors separate from the computer system, and to older computer systems. Although suitable, it is not flexible enough for practical use with current computer systems and available high bit rate interfaces, and is not suitable for use with other audio-related technologies.
[0009]
There is a need for a low cost device that can simultaneously transfer voice and keyboard signals to a computer over the same interface. There is also a need for a speech intelligibility recognition system that can simulate keyboard signals as well as supporting other speech processing functions such as digital technology, and a need for remote device control. There is a need for these features in environments that are not close to a keyboard. There is also a need for a speech intelligibility recognition system that can function within a keyboard or with an application-dependent computer system.
[0010]
[Means for Solving the Problems]
The present invention integrates key input data as text input into a speech intelligibility recognition system from a computer keyboard or other peripheral interface such as a microphone with voice data or a telephone handset, controls electronic devices, and accesses the Internet. It is aimed at doing.
[0011]
One embodiment of the present invention is to provide an input device, such as a conventional computer keyboard, which shares the same controller as the audio signal input and interface controller, and which carries the key input data. Adapted to allow signals to be sent to the computer system.
[0012]
Transmitting both keyboard and audio signals over a single cable to a computer is accomplished by using a keyboard interface controller with a sufficiently high bit rate, such as a universal serial bus (USB) controller, and digitally converting analog audio signals from a microphone, for example. This is achieved by using an audio processor connected to the controller to convert to. In this way, the USB keyboard is a conduit for audio signals to and from the computer. The addition or replacement of existing peripheral devices, such as voice and sound cards currently used in computer systems to perform voice processing, is itself possible.
[0013]
The connection of an audio output, such as a loudspeaker, to an audio processor allows for multiple audio transfers compatible with the telecommunications field. By adding memory to the voice processor, the functions of voice messaging, voice print recognition, and voice recognition can be extended to input devices.
[0014]
An object of the present invention is to provide a computer system including an interface controller that supplies a communication signal for use in a computer system, key input means connected to the interface controller, and audio input means connected to the interface controller. This is achieved by providing an input device, wherein the key input means and the voice input means share an interface controller for sending keyboard data and voice data to the computer.
[0015]
A further embodiment of the present invention is a computer using a single input device to receive voice and keyboard information, using voice recognition technology for output as text, or executing corresponding operating instructions. Thus, a speech recognition system that processes speech input. As mentioned above, the input device is like a USB keyboard, with an audio processor interposed to accommodate analog audio input. Memory can be added to an input device or computer to facilitate voice print recognition. The encoding of the signal between the input device and the computer can be used to prevent snooping on the interface. In speech recognition, an input device in parallel with a computer can achieve a distribution of the computational load of the system or an improvement in the accuracy of the speech recognition function.
[0016]
Further, here, a computer system having voice recognition means connected to input processing means and output means, and key input means and voice input means coupled to and shared by at least one interface controller connected to input processing means of the computer. There is provided a voice recognition system including a voice signal having the voice signal and an input device for transferring a key input signal. The voice recognition means processes the voice signal and generates an output to an output means.
[0017]
In a further embodiment, speech recognition is incorporated into a keyboard with signaling means that can transfer data to a computer, as well as input to one or more external devices. Typical processing in accordance with this embodiment is using USB technology to interface with a computer, infrared (IR) as used to control a television, or an application such as a cordless phone. Radio frequency (RF) transfer. The components required to perform language recognition are within the keyboard, in order to convert the language to text transfer to the computer via a keyboard interface, and also to provide remotely controlled speech to compatible electronic devices. Included in
[0018]
In addition, there is provided a voice recognition keyboard for a computer system for generating an operation command for controlling a key input and at least one electronic device, and a first type suitable for transfer to the computer system. A signaling means capable of two types of signal transfer of a second type suitable for transfer to at least one electronic device, and connected to the signaling means for providing a key input to the signaling means for transfer A plurality of keys, voice input means, and voice recognition means connected to the voice input means for converting spoken language into operation commands for transfer by signal means.
[0019]
Like a voice processing circuit that handles signal processing and voice recognition, at least one voice input device is required to provide voice input to a keyboard. As in the previous embodiment, the addition of a memory, an encoding circuit, and a means for voice output to the keyboard can be used to compare voice prints, or to provide a two-way voice transmission suitable for securing digital telephony and voice data entry. Is possible.
[0020]
In the next embodiment, the input device will start accessing the Internet upon receiving certain spoken commands, such that a keyboard is provided when connected to a computer configured for Internet access.
[0021]
A speech recognition input device is provided for providing voice access to the Internet from a computer configured to be connected to the Internet, comprising a voice input means and at least one colloquial defined to initiate access to the Internet. The apparatus includes voice recognition means for recognizing a command and signal means for triggering execution of the command.
[0022]
The invention further provides a method for providing key and voice input to a computer system through a single interface, a method for translating spoken language to text, a method for providing access to the Internet from a computer connected to the Internet, and at least one electronic device. He also considers how to remotely control devices with spoken commands.
[0023]
BEST MODE FOR CARRYING OUT THE INVENTION
The foregoing and other features, aspects, and advantages of the present invention will become apparent from the following description read in conjunction with the accompanying drawings. Reference numbers in the figures indicate the same elements.
[0024]
Referring now to FIG. 1, there is shown an electrical block diagram of a preferred embodiment of a language input device, generally designated by the numeral 10, according to the present invention. A
[0025]
The
[0026]
In operation, signals received from
[0027]
Similarly, signals containing audio data received at
[0028]
The signal received from the
[0029]
[0030]
FIG. 2 shows an electrical block diagram of the present invention, similarly to FIG. 1, in which the
[0031]
There are various classes of USB devices. The USB keyboard itself becomes a class of HID (Human Interface Device). Other classes include classes for audio devices, communication devices, display devices, and mass storage devices. The audio device class is defined as a device descriptor for a USB microphone. Using USB audio device class descriptors is the standard way to support USB microphones and requires a
[0032]
The present invention adds to a USB keyboard an
[0033]
The operation of the
[0034]
In this configuration, the
[0035]
Referring now to FIG. 3, a preferred embodiment of a speech intelligibility recognition system using the
[0036]
The output means 23 directly converts the spoken language into text to be displayed on a monitor and directly provides the output of the voice subsystem means 22, or more indirectly, such as a voice dictation to a word processor, and outputs the data to a printer. Or you can. As in the previous embodiment, the
[0037]
As in the previous embodiment, the function of the
[0038]
The user interface displayed on the output means 23 can be Windows-based and can be moved by pulling down a menu in which voice commands are displayed. Therefore, the user does not need to memorize commands recognized by the system. This method can make the speech intelligibility recognition system more user friendly. Of course, any display interface can be used, and the interface can be customized to perform special functions without changing the functionality of the present invention.
[0039]
FIG. 4 shows a modified embodiment of the speech intelligibility recognition system of FIG. 3, wherein an
[0040]
In this embodiment, a signal encoding means 19 is added to the
[0041]
Within the
[0042]
In this configuration,
[0043]
In this embodiment, the speech intelligibility recognition system functions to provide a stable means for voice and key input communication from the
[0044]
Referring now to FIG. 5, a block diagram of an embodiment of the present invention where the input device is a
[0045]
[0046]
According to this embodiment, the
[0047]
Further, spoken commands received through the
[0048]
The set of available keyboard commands and inputs is a subset of all available voice commands and inputs. Keyboards always have a predefined number of constrained keys and key combinations, but voice commands and inputs have no physical limitations. Voice commands can be thousands while keyboard input is typically limited by hundreds of codes.
[0049]
A key feature of the present invention is where voice packets are transmitted over a USB cable, as opposed to converting voice commands to keyboard codes and then sending the keyboard codes over the cable. Voice command sets are not limited to keyboard codes, which were previously restricted to keyboard codes. The number of voice commands supported is only limited by the number of system memory and pre-recorded commands. Since the number of pre-recorded voice commands can be updated by downloading a new code via the Internet, the number of voice commands can be increased without limit. A separate set of voice commands can be automatically downloaded when a user accesses website voice commands supported by a particular website.
[0050]
FIG. 6 illustrates an alternative embodiment of the present invention shown for providing voice access to the Internet. In this embodiment, the
[0051]
The present invention further contemplates using a single interface for voice and key input data. The computer separates the combined signal into a digital audio signal component and a key input signal component for separate processing. A voice print comparison is made. The invention also includes a method for activating Internet access by a voice command. Such voice commands can be input to a keyboard. Methods are also contemplated for remotely controlling an electronic device from a keyboard using spoken commands.
[0052]
Although the present invention has been described with reference to preferred embodiments, it will be apparent to those skilled in the art that variations and modifications within the spirit and scope of the invention are contemplated. The drawings and descriptions of the preferred embodiments are provided as examples, rather than limiting the scope of the invention, and all similar variations and modifications within the spirit and scope of the invention are intended to be covered.
[Brief description of the drawings]
FIG. 1 is a block diagram of an input device according to the present invention.
FIG. 2 is a block diagram of an embodiment in which a language input device according to the present invention is integrated in a USB keyboard.
FIG. 3 is a block diagram of an embodiment of an input device according to the present invention connected to a computer system having voice recognition means.
FIG. 4 is a block diagram of an embodiment of an input device according to the present invention connected to a computer system further connected to an external service.
FIG. 5 is a block diagram of an embodiment of the present invention in which the integrated input device is a voice recognition keyboard having a remote control function.
FIG. 6 is a block diagram of an embodiment of the present invention connected to a computer with access to the Internet.
Claims (40)
前記インターフェースコントローラにつながれたキー入力手段と、
前記インターフェースコントローラにつながれた音声入力手段と、
を備え、前記キー入力手段および前記音声入力手段はキーボードデータと音声データをコンピュータに送るためのインターフェースコントローラを共有する、コンピュータシステム用の入力デバイス。An interface controller for providing communication signals used in the computer system;
Key input means connected to the interface controller;
Voice input means connected to the interface controller;
An input device for a computer system, wherein the key input means and the voice input means share an interface controller for sending keyboard data and voice data to a computer.
前記コンピュータの入力処理手段につながれた少なくともひとつのインターフェースコントローラに結合され共有しているキー入力手段と音声入力手段を持つ音声信号やキー入力信号を転送するための入力デバイスと
を備え、音声明瞭度認識手段は前記音声信号を処理し、出力手段への出力を生成する、音声明瞭度認識システム。A computer system having speech intelligibility recognition means coupled to the input processing means and the output means;
A voice input device coupled to at least one interface controller connected to input processing means of the computer and having a key input means and a voice input means, and an input device for transferring a key input signal; A speech intelligibility recognition system, wherein the recognition means processes the speech signal and generates an output to the output means.
それを通じて転送用に前記信号化手段へのキー入力を提供するために前記信号化手段に接続された複数のキーと、
音声入力手段と、
信号手段による転送用に口語を操作命令に変換するために前記音声入力手段に接続された音声認識手段と
を備え、少なくともひとつの電子デバイスを制御するためのキー入力や操作命令を生成する、コンピュータシステム用の音声認識キーボード。Signaling means capable of two types of signal transfer, a first type suitable for transfer to the computer system and a second type suitable for transfer to at least one electronic device;
A plurality of keys connected to the signaling means to provide a key input to the signaling means for transfer therethrough;
Voice input means;
A computer configured to generate a key input or an operation command for controlling at least one electronic device, comprising: a speech recognition unit connected to the voice input unit for converting a spoken language into an operation command for transfer by a signal unit. Voice recognition keyboard for the system.
インターネットアクセスを始めるために定義された少なくともひとつのコマンドとして口語コマンドを認識するための音声認識手段と、
前記コマンドの実行トリガのための信号手段と
を備え、インターネットに接続された構成のコンピュータからインターネットへの音声アクセスを提供する音声認識入力デバイス。Voice input means;
Voice recognition means for recognizing spoken commands as at least one command defined to initiate internet access;
And a signal means for triggering the execution of the command, and a voice recognition input device for providing voice access to the Internet from a computer connected to the Internet.
インターネットアクセスを伝えるために定義された少なくともひとつの前記コマンドとして口語コマンドを認識するための音声認識手段と、
前記コマンドを実行するための信号手段と
を備え、ワールドワイドネットワークのコンピュータにつながれたコンピュータからインターネットへ音声アクセスを提供する音声認識入力デバイス。Voice input means;
Voice recognition means for recognizing spoken commands as at least one of the commands defined to convey Internet access;
And a signal means for executing the command, wherein the voice recognition input device provides voice access to the Internet from a computer connected to a computer on a world wide network.
前記音声信号をディジタル音声信号へ変換するステップと、
キー入力信号を入力するステップと、
結合した信号を生成するために前記ディジタル音声信号と前記キー入力信号を単一のインターフェースコントローラにより同時に処理するステップと、
前記結合された信号を前記コンピュータシステムへ転送するステップと
を備える、単一のインターフェースによってコンピュータシステムにキー入力や音声入力を提供する方法。Inputting an audio signal;
Converting the audio signal into a digital audio signal;
Inputting a key input signal;
Simultaneously processing the digital audio signal and the key input signal by a single interface controller to generate a combined signal;
Transferring the combined signal to the computer system to provide key and voice input to the computer system through a single interface.
音声信号を入力するステップと、
キー入力信号を入力するステップと、
前記音声信号をディジタル音声信号へ変換するステップと、
前記ディジタル音声信号と前記サンプル音声プリントを比較するステップと、
前記ディジタル音声信号と前記サンプル音声プリントが一致したら前記ディジタル音声信号と前記キー入力信号を単一のインターフェースコントローラによって結合された信号に同時に処理するステップと、
前記結合された信号を前記コンピュータシステムに転送するステップと
を備える、単一のインターフェースによってコンピュータシステムにキー入力や音声入力を提供する方法。Storing a sample voice print;
Inputting an audio signal;
Inputting a key input signal;
Converting the audio signal into a digital audio signal;
Comparing the digital audio signal with the sample audio print;
Simultaneously processing the digital voice signal and the key input signal into a signal combined by a single interface controller if the digital voice signal and the sample voice print match;
Transferring the combined signal to the computer system. Providing a key and voice input to the computer system through a single interface.
前記音声信号をディジタル音声信号へ変換するステップと、
キー入力信号を入力するステップと、
前記ディジタル音声信号と前記キーボード信号を単一のインターフェースコントローラによって結合された信号に同時に処理するステップと、
前記結合された信号を単一のインターフェースによってコンピュータシステムに転送するステップと、
前記結合された信号を前記コンピュータでディジタル音声信号コンポーネントとキー入力信号コンポーネントに分けるステップと、
前記口語から相当するテキストに変換するための前記ディジタル音声信号コンポーネントを処理するステップと
を備える、口語をテキストに変換する方法。Inputting an audio signal including a spoken language;
Converting the audio signal into a digital audio signal;
Inputting a key input signal;
Simultaneously processing the digital voice signal and the keyboard signal into signals combined by a single interface controller;
Transferring the combined signal to a computer system over a single interface;
Splitting the combined signal into a digital audio signal component and a key input signal component at the computer;
Processing the digital audio signal component to convert the spoken language to the corresponding text.
前記音声信号をディジタル音声信号へ変換することと、
前記ディジタル音声信号内の前記口語を確認することと、
前記口語をコマンド、インターネットアクセスを始めるために定義された少なくともひとつの前記コマンド、に変換することと、
前記コマンドを前記コンピュータへ転送することと
を備える、インターネットに接続されたコンピュータからインターネットへのアクセスを提供する方法。Inputting a speech signal including a spoken language;
Converting the audio signal to a digital audio signal;
Confirming the spoken language in the digital audio signal;
Translating the spoken language into a command, at least one of the commands defined to initiate Internet access;
Transferring the command to the computer, the method comprising providing access to the Internet from a computer connected to the Internet.
前記キーボードを使ってキー入力データを入力することと、
前記音声信号を操作命令へ変換することと、
前記操作命令を少なくともひとつの前記電子デバイスへ転送することと、
前記キー入力データをコンピュータシステムへ転送することと
を備え、ただしここでの厳密なステップの順序は重要ではない、少なくともひとつの電子デバイスを口語コマンドにより遠隔で制御する方法。Inputting spoken commands as voice signals to the keyboard;
Inputting key input data using the keyboard;
Converting the voice signal into an operation command;
Transferring the operation command to at least one of the electronic devices;
Transferring said key-in data to a computer system, wherein the exact order of steps is not important, wherein the at least one electronic device is remotely controlled by spoken commands.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US60242500A | 2000-06-23 | 2000-06-23 | |
PCT/US2001/019999 WO2002001551A1 (en) | 2000-06-23 | 2001-06-22 | Input device for voice recognition and articulation using keystroke data. |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004509385A true JP2004509385A (en) | 2004-03-25 |
Family
ID=24411298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002505609A Pending JP2004509385A (en) | 2000-06-23 | 2001-06-22 | An input device for voice recognition and intelligibility using key input data. |
Country Status (8)
Country | Link |
---|---|
EP (1) | EP1312077A4 (en) |
JP (1) | JP2004509385A (en) |
CN (1) | CN1237509C (en) |
AU (1) | AU2001270088A1 (en) |
CA (1) | CA2407930A1 (en) |
HK (1) | HK1059332A1 (en) |
TW (1) | TW514824B (en) |
WO (1) | WO2002001551A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008217263A (en) * | 2007-03-01 | 2008-09-18 | Seiko Epson Corp | Storage terminal, information processor and information processing system |
US11631400B2 (en) | 2019-02-11 | 2023-04-18 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004128789A (en) * | 2002-10-01 | 2004-04-22 | Matsushita Electric Ind Co Ltd | Internet phone device and internet phone system |
US8346983B2 (en) * | 2005-12-20 | 2013-01-01 | Creative Technology Ltd | Simultaneous sharing of system resources by multiple input devices |
CN104468572A (en) * | 2014-12-08 | 2015-03-25 | 上海大学 | Method for remote voice control over strain selecting instrument through Android mobile phone |
CN114944155B (en) * | 2021-02-14 | 2024-06-04 | 成都启英泰伦科技有限公司 | Off-line voice recognition method combining terminal hardware and algorithm software processing |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1125098A (en) * | 1997-06-24 | 1999-01-29 | Internatl Business Mach Corp <Ibm> | Information processor and method for obtaining link destination file and storage medium |
US5893064A (en) * | 1997-05-14 | 1999-04-06 | K2 Interactive Llc | Speech recognition method and apparatus with voice commands and associated keystrokes |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1186028A (en) * | 1982-06-23 | 1985-04-23 | Microdesign Limited | Method and apparatus for scrambling and unscrambling data streams using encryption and decryption |
US5903870A (en) * | 1995-09-18 | 1999-05-11 | Vis Tell, Inc. | Voice recognition and display device apparatus and method |
US5874939A (en) * | 1996-12-10 | 1999-02-23 | Motorola, Inc. | Keyboard apparatus and method with voice recognition |
DE19815760A1 (en) * | 1998-04-08 | 1998-11-26 | Siegfried Dipl Ing Schmidt | Telephone appts. with speech based dialling |
DE19853689A1 (en) * | 1998-11-20 | 2000-05-31 | Detlef Arndt | Speech-controlled machine operating method uses remote-control device for accessing control functions for controlled machine or device stored in computer control program |
-
2001
- 2001-06-19 TW TW90114892A patent/TW514824B/en not_active IP Right Cessation
- 2001-06-22 JP JP2002505609A patent/JP2004509385A/en active Pending
- 2001-06-22 WO PCT/US2001/019999 patent/WO2002001551A1/en active Application Filing
- 2001-06-22 CN CN 01809495 patent/CN1237509C/en not_active Expired - Fee Related
- 2001-06-22 EP EP01948631A patent/EP1312077A4/en not_active Withdrawn
- 2001-06-22 CA CA002407930A patent/CA2407930A1/en not_active Abandoned
- 2001-06-22 AU AU2001270088A patent/AU2001270088A1/en not_active Abandoned
-
2004
- 2004-03-24 HK HK04102174A patent/HK1059332A1/en not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5893064A (en) * | 1997-05-14 | 1999-04-06 | K2 Interactive Llc | Speech recognition method and apparatus with voice commands and associated keystrokes |
JPH1125098A (en) * | 1997-06-24 | 1999-01-29 | Internatl Business Mach Corp <Ibm> | Information processor and method for obtaining link destination file and storage medium |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008217263A (en) * | 2007-03-01 | 2008-09-18 | Seiko Epson Corp | Storage terminal, information processor and information processing system |
US11631400B2 (en) | 2019-02-11 | 2023-04-18 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
Also Published As
Publication number | Publication date |
---|---|
HK1059332A1 (en) | 2004-06-25 |
CA2407930A1 (en) | 2002-01-03 |
EP1312077A4 (en) | 2005-08-17 |
CN1451156A (en) | 2003-10-22 |
WO2002001551A9 (en) | 2002-11-14 |
CN1237509C (en) | 2006-01-18 |
TW514824B (en) | 2002-12-21 |
EP1312077A1 (en) | 2003-05-21 |
AU2001270088A1 (en) | 2002-01-08 |
WO2002001551A1 (en) | 2002-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6169789B1 (en) | Intelligent keyboard system | |
US9479911B2 (en) | Method and system for supporting a translation-based communication service and terminal supporting the service | |
JP2020529032A (en) | Speech recognition translation method and translation device | |
US7421390B2 (en) | Method and system for voice control of software applications | |
JP4295846B2 (en) | Audio device and self-initialization method of audio device | |
US20140024411A1 (en) | Multifunction Mobile Device and Cellular Phone with Touch Screen and Internet Connectivity | |
JP3335178B2 (en) | Method and apparatus for transmitting voice samples to a voice activated data processing system | |
US20020138274A1 (en) | Server based adaption of acoustic models for client-based speech systems | |
US6931463B2 (en) | Portable companion device only functioning when a wireless link established between the companion device and an electronic device and providing processed data to the electronic device | |
JPH0823383A (en) | Communication system | |
JP2009300537A (en) | Speech actuation system, speech actuation method and in-vehicle device | |
US8606560B2 (en) | Automatic simultaneous interpertation system | |
CN110992955A (en) | Voice operation method, device, equipment and storage medium of intelligent equipment | |
JP2019175426A (en) | Translation system, translation method, translation device, and voice input/output device | |
TWI695281B (en) | Translation system, translation method, and translation device | |
WO2020054980A1 (en) | Phoneme-based speaker model adaptation method and device | |
JP2007504568A (en) | Keyboard with digital audio function | |
US20080043418A1 (en) | Video communication apparatus using VoIP and method of operating the same | |
JP2004509385A (en) | An input device for voice recognition and intelligibility using key input data. | |
JPH09292971A (en) | Translation device | |
JPH0934895A (en) | Translation system | |
JP2655086B2 (en) | Telephone line voice input system | |
CN109346041A (en) | Audio data processing method and device for robot | |
KR20060005623A (en) | Portable memory apparatus using usb and method using said portable memory apparatus using usb | |
CN109830239A (en) | Voice processing apparatus, voice recognition input systems and voice recognition input method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100706 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101109 |