JP2007529916A - コンピュータでの音声通信 - Google Patents
コンピュータでの音声通信 Download PDFInfo
- Publication number
- JP2007529916A JP2007529916A JP2006552241A JP2006552241A JP2007529916A JP 2007529916 A JP2007529916 A JP 2007529916A JP 2006552241 A JP2006552241 A JP 2006552241A JP 2006552241 A JP2006552241 A JP 2006552241A JP 2007529916 A JP2007529916 A JP 2007529916A
- Authority
- JP
- Japan
- Prior art keywords
- user
- voice
- communication channel
- computer
- request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 120
- 238000000034 method Methods 0.000 claims description 104
- 230000004044 response Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 6
- 230000000977 initiatory effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000001413 cellular effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 19
- 230000009471 action Effects 0.000 description 14
- 229920001690 polydopamine Polymers 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 230000002730 additional effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 239000000047 product Substances 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 1
- 240000002853 Nelumbo nucifera Species 0.000 description 1
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 108010041420 microbial alkaline proteinase inhibitor Proteins 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04J—MULTIPLEX COMMUNICATION
- H04J1/00—Frequency-division multiplex systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04J—MULTIPLEX COMMUNICATION
- H04J1/00—Frequency-division multiplex systems
- H04J1/02—Details
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/10—Aspects of automatic or semi-automatic exchanges related to the purpose or context of the telephonic communication
- H04M2203/1016—Telecontrol
Abstract
【解決手段】 一実施形態では、利用者との第1の通信チャネルが確立され、相手との通信を可能にする第2の通信チャネルを確立するための音声利用者要求が受信される。前記音声利用者要求が認識されると、前記第2の通信チャネルが確立される。別の実施形態では、コンピュータおよび利用者通信装置の間の通信チャネルが確立され、音声要求を有する利用者入力が検出および格納される。利用者プロファイルにアクセスが行われ、当該利用者プロファイルに基づき第1の文法が選択される。アクティブな前記第1の文法を使って前記音声要求の認識が試行される。前記音声要求が認識されない場合は、前記第1の文法が無効化されて第2の文法が有効化され、この第2の文法を使って前記音声要求の認識が試行される。
【選択図】 図8
【選択図】 図8
Description
本出願は、2004年2月3日に提出された米国特許出願第60/541,487号明細書「A System and Method for Wireless Audio Communication with a Computer; Continuation Describing the Use of Multiple Hardware Configurations with one Computer, Multiple Users, and telephone Bridging」および2005年2月2日に提出された米国特許出願明細書「Audio Communication with a Computer」に基づく利益を主張するものであり、双方の開示はこの参照により、それらの全体が本明細書に組み込まれるものである。
本発明は、音声入力を受信し、このような音声入力を使ってコンピュータアプリケーションとインタラクトするための音声認識のシステムおよび方法に関する。特に、本発明は、複数のハードウェア構成との接続に使用でき当該複数のハードウェア構成間での切り替えが可能な音声認識のシステムおよび方法に関する。より具体的には、本発明は、限定された音声認識語彙を選択的に使用して音声認識結果を最適化する音声認識のシステムおよび方法に関する。さらに具体的には、本発明は、種々の通信チャネル経由で通話を接続および転送するための音声認識のシステムおよび方法に関する。
一般の人々は、日常生活に関係する情報の格納およびアクセスするために、より頻繁にコンピュータを使用するようになってきている。予約、タスク、連絡先といった個人情報や、またスプレッドシート、データベース、ワードプロセッシング(ワープロ)文書に含まれるデータといった企業データなどはすべて、情報の更新、整理、およびアクセスが容易なため、特にコンピュータでの格納に適している情報タイプである。また、コンピュータは、株価や気象情報などタイミングが重要な情報に、リアルタイムまたは略リアルタイムでインターネットまたは別のネットワークから遠隔的にアクセスできる。これらに必要なタスクをすべて実行するため、コンピュータは機能も計算能力も非常に高度なものになってきている。さらにコンピュータは、用途ごとにより多様化している。例えば、高度に進歩した自動車にはオンボードコンピュータが装備される場合、あるいはコンピュータが消費者製品など別の装置内に埋め込まれて当該製品が一般装置の能力を超えた強化機能を有すことが可能になる場合がある。このように、利用者は、各自のコンピュータへのアクセスが可能な状態で―換言すると、自宅かオフィス(もしくは可能性として高度に進歩した自動車内)にいながら―このような計算能力に容易にアクセスして望ましいタスクを実行することができる。
ただし、多くの状況において、利用者は移動中または単にコンピュータから離れた場所でこのような情報にアクセスする必要がある。残念なことに、コンピュータの完全な計算能力は、(高度に進歩した自動車の場合を除き)大部分が非可動式である。例えば、デスクトップコンピュータは、固定した場所に配置するよう設計されているため、移動用途には適していない。同様に、コンピュータが埋め込まれた消費者製品も、ほとんどの場合非可動式である。ラップトップコンピュータは、デスクトップコンピュータと比べてはるかに移動しやすく、また同程度の計算能力を有するが、コスト高で依然として扱い難い。また、長距離無線インターネット接続(無線WANまたは広域ネットワーク)は高価でまだ十分普及しておらず、このようなラップトップ用の携帯電話接続は現在のインターネット基準では低速である。さらに、リモートインターネット接続は利用者が各自の自宅またはオフィスで有する可能性のあるインターネット接続と重複するものであるため、コストが重複することになる。
従来の方法では、個人用の携帯情報端末(personal digital assistant、略称PDA)を使って利用者の情報にアクセスが可能である。このようなPDAでは、クレードルかIR(赤外線)ビームでコンピュータと断続的に接続することにより、コンピュータに対し情報をアップロードまたはダウンロードできる。一部のPDAは無線接続で情報にアクセスでき、携帯電話を兼ねることもある。しかしながら、PDAには数多くの欠点がある。例えば、PDAは高価で、利用者の既存コンピュータの計算能力と重複することが多く、高価なサービス契約が必要な場合があり、しばしばベースステーションまたはパーソナルコンピュータとの同期を必要とし、PDAの使い方を覚える点でも、PDAの小型画面を使用する点でも、入力装置に両手を使わなければならない点でも使い難く、さらに利用者のコンピュータと比べると機能性に制限がある。モバイルコンピューティング機能が向上すると、PDAの出費と複雑さも増す。また、従来のPDAは利用者の情報をオンボードで格納するため、PDAの盗難や紛失によりデータを失う危険性を伴う。
携帯電話のサイズ、コスト、および携帯性の改善に伴い、携帯電話の使用は極めて一般的になった。従来の一部の携帯電話には、指定した相手に電話を掛ける(番号は携帯電話に格納される)など、音声コマンドを使って単純なタスクを実行する限定された音声起動能力が備えられている。同様に、一部の自動車および高度な携帯電話では、単純なコマンドを受信するという文脈の中で音声を認識可能である。このような従来のシステムでは、単に、希望する相手に電話を掛けるなど実行したい機能を起動する既知のコマンド(音声)を、関与するソフトウェアが識別するのみである。すなわち、従来のシステムでは、発話された言葉の意味を決定することなく、音声を望ましい機能に合致させている。
同様に、従来のソフトウェアアプリケーションには、携帯電話を介して電子メールメッセージを利用者へ音声として伝達するものがある。このようなアプリケーションでは、携帯電話は、単にソフトウェアにコマンドを伝達し、次に当該ソフトウェアがメッセージを再生する。音声を認識できる従来のソフトウェアは、サーバーベースであるか、または主にコンピュータと同一の場所にいる利用者向けである。例えば、コールセンター用の音声認識システムは、システムが大規模で複雑になるため、強力なサーバー上で実行する必要がある。このようなシステムは、種々のアクセント(なまり)とスピーチパターン(言葉遣い)を有する話者の音声を認知可能である必要があるという理由からも大規模で複雑なものになる。このようなシステムは、複雑であるにもかかわらず、依然として一般にメニュー駆動の応答のみに限定されている。すなわち、発呼者から典型的な音声認識ソフトウェアへのパッケージでは、単に希望する要求を発話してシステムにその要求を認識させるのではなく、望ましい機能に到達するまでに1若しくはそれ以上のメニューレイヤーを経由しなければならない。このようなソフトウェアで多様なコマンドを認識する能力を改善する従来の方法では、通常、ソフトウェアによって音声コマンドとの照合を試みるために多数の音声語彙が提供される。ただし語彙を多数使用すると、当該語彙に含まれる音声、単語、またはフレーズ(句)を音声コマンドと照合するために多数の比較を行う必要があるため、さらに強力なコンピュータ装置が必要になる。パーソナルコンピュータ上で動作するよう設計された従来の音声認識ソフトウェアは、主にディクテーション(口述)を対象としており、このようなソフトウェアは、さらに、利用者が当該コンピュータの前にいる間にのみ使用され、当該ソフトウェアにより決定される単純なメニュー項目のみにアクセスを行うことに限定される。このように、従来の音声認識ソフトウェアは、キーボードやマウスなどの一般的な入力装置に対し代用的または補足的な機能を果たすのみである。
さらに、従来のPDAs、携帯電話、およびラップトップコンピュータは、概して互いに他方の機能を実行できないという欠点がある。高度な無線装置はPDAと携帯電話の機能性を組み合わせているが、非常に高価である。このように、利用者はPDA、携帯電話の機能、および可能性としてラップトップの機能さえも実行できる装置を多大な費用をかけて購入しなければならないか、もしくは携帯電話、PDA、および/またはラップトップを個々に購入する可能性がより高い。
このため、コンピュータのタイプ(または実装タイプ)および利用者の場所にかかわらず、コンピュータと通信するための携帯手段が必要となる。より具体的には、安価な携帯装置を介してコンピュータと口頭で対話し情報を得るためのシステムおよび方法が必要になる。さらに、このようなシステムおよび方法では、音声認識を強化することが有利になる。また、このようなシステムおよび方法では、任意の通信チャネルを介して、通話中に2若しくはそれ以上の相手と接続可能になることが望ましい。
以上の問題点を鑑みて、コンピュータとの通信を可能にするための方法、システム、およびコンピュータで読み込み可能な媒体を本明細書で開示するものである。一実施形態では、利用者との第1の通信チャネルが確立され、相手との通信を可能にする第2の通信チャネルを確立するための音声利用者要求が受信される。前記音声利用者要求が認識されると、前記第2の通信チャネルが確立される。
別の実施形態では、コンピュータと利用者の通信装置との間で通信チャネルが確立される。音声要求を有する利用者入力は、検出および格納される。また利用者プロファイルにアクセスが行われ、当該利用者プロファイルに基づき第1の文法が選択される。さらにアクティブな前記第1の文法を使って前記音声要求の認識が試行される。前記音声要求が認識されない場合は、前記第1の文法が無効化されて第2の文法が有効化され、この第2の文法を使って前記音声要求の認識が試行される。
本発明の対象を法定要件を満たすよう特定的に説明する。ただし、この説明自体は、本特許の範囲を限定することを意図したものではない。むしろ、本発明者らは、既存または将来の他の技術を参照することで、請求項に係る対象が他の方法でも具体化でき、本文書で説明するものと同様な異なる工程または要素を含むよう企図している。さらに、本明細書では、使用される方法の異なる態様を暗示するため、用語「工程」を使用する場合があるが、この用語は、個々の工程の順序を明示的に説明していない限り、本明細書で開示する種々の工程間でいずれの特定順序を示唆すると解釈すべきものではない。
本説明を行う上で、用語「有線音声」の通信または送信は、完全にワイヤー経由で移動する通信または送信を意味する。同様に、本説明を行う上で、用語「無線音声」の通信または送信は、少なくともある時点で無線移動する、すなわち空気または空間(あるいは他の何らかの延在媒体)を経由して電磁放射により移動し、少なくともある時点で音声形式であるか、音声形式であったか、もしくは音声形式になる、すなわちヒトである利用者に発話され、および/または聞き取れる通信または送信を意味する。
本明細書では、音声コマンドによりリモート通信装置をコンピュータと動作可能に接続するシステムおよび方法を説明する。本発明の一実施形態では、リモート通信装置、例えば携帯電話、無線トランシーバ、マイクロホン、有線電話などを使用して音声コマンドまたは発話されたコマンドを利用者のコンピュータに送信する。別の実施形態では、利用者のコンピュータが同一のリモート通信装置により利用者への音声アナウンスなどを起動する。利用者のコンピュータ上で動作するインターフェースプログラムは、例えば音声認識ソフトウェアと動作可能に相互接続し、利用者の発話した言葉、Text−to−Speech(テキストから音声合成)ソフトウェア、音声ソフトウェア、および/またはビデオソフトウェアを認識して、利用者、予約ソフトウェアおよび/または電子メールソフトウェア、スプレッドシート、データベース、インターネット、および/または他のネットワークなどと通信する。このインターフェースプログラムは、コンピュータI/O(入出力)ポートと連動して作動装置、センサ、ファックス機、電話装置、ステレオ、電気製品、自動車など外部電子装置と通信することもできる。コンピュータは、自動車、ステレオ、電気製品、またはこのような他のいかなる装置にも埋め込み可能であることが理解されるものである。また、このインターフェースプログラムは、利用者の音声コマンドを効率的に認識するよう能動的に試行できる。さらに、このインターフェースプログラムは、例えばVoice over Internet Protocol(ボイス・オーバー・インターネット・プロトコル、略称VoIP)および/またはSession Initiation Protocol(セッション・イニシエーション・プロトコル、略称SIP)規格により、利用者を第三者に接続することができる。したがって、一実施形態により、利用者は携帯型通信装置を使用して、任意の場所から利用者のコンピュータと通信することが可能になることが理解されるものである。
例えば一実施形態では、利用者は、携帯電話を操作して当該利用者のコンピュータに電話を掛けることができる。通信を確立した時点で、利用者は、ソフトウェアコンポーネントからアクセスするよう構成された任意タイプの情報を要求できる。さらに別の実施形態では、コンピュータによって、このような携帯電話を経由して利用者に連絡が行われ、例えば予約などが利用者に通知される場合がある。また、携帯電話によっていかなる音声認識も実行される必要がなく、あるいは当該携帯電話に利用者がアクセスを希望するいかなる利用者情報も含まれる必要がないことが理解されるものである。実際、一実施形態によれば、従来の「市販の」携帯電話やソフトフォンなどは、ソフトウェアを実行するコンピュータと併用する場合がある。その結果、一実施形態では、利用者が任意の場所から、また多種多様な通信装置のいずれを使うことによって、各自のコンピュータの広範な計算能力を活用することが可能になる。
以下の説明では、このようなソフトウェアおよび/またはハードウェアのコンポーネント、および通信装置の実装の詳細、また相互運用性の技術的態様は当業者に周知であることから、このような事柄は明瞭性のために本明細書において省略されていることが理解されるものである。
図1を参照すると、本発明の態様を実施可能な例示的なコンピュータ100が例示されている。コンピュータ100は、本明細書で説明する方法を実行可能な任意の汎用コンピュータ装置または特定用途向けコンピュータ装置でありうる。一実施形態では、コンピュータ100は、CPUハウジング102と、キーボード104と、ディスプレイ装置106と、マウス108とを有する。コンピュータ100は、任意数の方法で構成することが可能である一方、一実施形態との整合性を維持することができることが理解されるであろう。例えば、コンピュータ100は、ラップトップコンピュータの場合のように、一体化したディスプレイ装置106およびCPUハウジング102を有しうる。さらに別の実施形態では、コンピュータ100は、キーボード104の代わりに、またはキーボード104と併用して利用者入力を受信する代替手段を有しうる。一実施形態では、前記のインターフェースプログラムやソフトウェアコンポーネントなどのプログラム130が、前記ディスプレイ装置106に表示される。さらに別の実施形態では、コンピュータ100は、自動車、電気製品、消費者製品などに埋め込まれたCPUとそれに付随したメモリやI/Oなどである場合がある。したがって、本明細書で「コンピュータ」および「コンピュータ100」を言及する場合は、本明細書で開示するいかなる方法などを実行可能なコンピュータ装置を指しており、排他的にパーソナルコンピュータなどを指すものではないことが理解されるものである。
さらに別の実施形態では、コンピュータ100は、例えばインターネットやイントラネットなどのネットワーク120にも動作可能に接続されている(有線または無線、あるいはその双方)。コンピュータ100は、データ処理用のプロセッサ112、データ格納用のメモリ110、および前記ネットワーク120と通信するための入出力(I/O)114、および/または電話線など別の通信媒体をさらに有する。コンピュータ100のプロセッサ112は、単一のプロセッサであっても、複数の相互接続されたプロセッサであってもよいことが理解されるであろう。メモリ110は、例えばRAM、ROM、ハードドライブ、CD−ROM、USB格納装置などであっても、このようなタイプメモリのいかなる組み合わせであってもよい。また、メモリ110はコンピュータ100の内部または外部のいずれに位置していてもよい。I/O 114は、利用者または外部装置がコンピュータ100と通信できるようにするいかなるハードウェアおよび/またはソフトウェアコンポーネントであってもよい。このI/O 114は、内部および/または外部に位置する複数の装置である場合がある。
図2A〜図2Cは、本発明の態様を実施可能な例示的なコンピュータ構成の図を示したものである。図2Aでは、図1を参照し上述したように、ハウジング102と、キーボード104と、ディスプレイ装置106と、マウス108とを有するコンピュータ100を例示している。また、マイクロホン202およびスピーカー203が、コンピュータ100に動作可能に接続されている。マイクロホン202は、音波を受信し、コンピュータ100で解釈可能な電気信号に当該音波を変換するようなっていることが理解されるであろう。スピーカー203によってこれと反対の機能が実行されることによりコンピュータ100からの電気信号が音波に変換される。利用者がマイクロホン202に発話してコンピュータ100へコマンドまたは要求を発信すると、スピーカー203を介してコンピュータ100から応答が行われることが理解されるであろう。逆に、コンピュータ100は、スピーカー203を介してメッセージを発信するか、音声を再生する、もしくはディスプレイ装置106にメッセージを表示するなどして、利用者と「会話」を開始することが可能である。図2Aからわかるように、任意のキーボード104、マウス108、マイクロホン202、および/またはスピーカー203に加えて、もしくはその代わりに、例えばActiontec Electronics, Inc.(米国カリフォルニア州Sunnyvale)製のInternetPhoneWizardなどコンピュータ100に接続した電話ゲートウェイを経由して、選択的な有線電話、コードレス電話、またはスピーカーフォンを前記コンピュータ100に接続することが可能である。一実施形態では、従来の有線電話、コードレス電話、またはスピーカーフォンなどの電話210がマイクロホン202およびスピーカー203のリモートバージョンとして機能することにより、コンピュータ100との遠隔的インタラクションを可能にすることが理解されるであろう。特にコンピュータ100に接続するよう設計された電話210の一例としては、Clarysis(米国イリノイ州Elk Grove Village)のClarisys i750インターネット電話がある。
図2Bでも、図1を参照し上述したようにハウジング102と、キーボード104と、ディスプレイ装置106と、マウス108とを有するコンピュータ100を例示している。さらに、コンピュータ100は、ローカル電話206に動作可能に接続されている。一実施形態では、コンピュータ100は外部電話の存在を必要とすることなく、電話線に直接接続されることが理解されるであろう。コンピュータ100は、例えばI/O 114(ローカル電話206の代替であるが、明瞭性のため図2Bには図示せず)経由で、電話線から信号を受信するようなっている。このような実施形態では、I/O 114はボイスモデムまたはそれと均等の装置である。選択的なリモート電話204および/または携帯電話208も、ローカル電話206またはボイスモデムに動作可能に接続可能である。さらに別の実施形態では、ローカル電話206は携帯電話であり、コンピュータ100との通信は携帯電話経由で行われる。
例えば一実施形態では、利用者は、リモート電話204または携帯電話208を経由して、ローカル電話206に対応する電話番号に電話を掛けることが可能である。このような実施形態では、コンピュータ100が所定の信号などを有するすべての着信通話を監視し、当該信号の検出時に前記情報を通話からインターフェースプログラムまたは他のソフトウェアコンポーネントへ転送する。このように、コンピュータ100は、通話との接続時に利用者から音声のコマンドまたは要求を受信し、応答を発信する。逆に、前記コンピュータ100は、リモート電話204または携帯電話208宛に利用者対して電話を掛けることにより、利用者との会話を開始することが可能である。コンピュータ100は、電話ダイヤル能力を有するか、もしくはローカル電話206が存在する場合はそれを使用して同じ機能を実行することが可能であることが理解されるであろう。
電話204〜208は、一定の距離を置いて音声を再生するいかなるタイプの器機であってもよく、前記器機内において音声は(アナログ形式またはデジタル形式のいずれかの)電気インパルスに変換され、例えばセルラーネットワークなどにより有線または無線で送信されることが理解されるであろう。一実施形態において、電話を使用してコンピュータ100へリモートアクセスすることにより、低コストが確実になり、利用者にとってハンドセットが容易に入手可能になることが理解されるであろう。また、電話と接続して任意タイプまたは任意数の周辺機器を使用することもでき、このような任意タイプの周辺機器は均等に一実施形態と整合する。また、任意タイプのフィルタリングまたは雑音消去用ハードウェアまたはソフトウェアも電話204〜208などの電話あるいは前記コンピュータ100において使用可能で、このような電話204〜208から受信される信号の強度および/または明瞭性を向上させることができる。
ローカル電話206は、家庭環境内にあると同時に、例えば前記コンピュータ100から離れた場所において使用する有線電話またはコードレス電話であってもよい。例えばオフィス環境などの代替実施形態では、複数線の電話および/または長距離コードレス電話を本発明と接続して使用しうる。本明細書において、一実施形態を単一の利用者が単一の電話204〜208を操作するという文脈で説明しているが、任意数の利用者および電話204〜208も使用可能であり、このような任意数においても一実施形態と整合することが理解されるであろう。上述したように、ローカル電話206は、携帯電話ネットワーク経由で通信を行える携帯電話または他の装置であってもよい。
代替実施形態では、電話206は、例えばEnGenius製などの長距離テレフォニー機器でありうる。このような長距離コードレス電話は、商業環境などでの使用が望ましいことが理解されるであろう。一実施形態では、非常に長距離に渡って前記コンピュータ100にほぼ瞬時にアクセスできることが利用者にとって望ましい場合がある(市内移動中や、場合によっては国内移動中の場合など)。このような実施形態では、前記コンピュータ100との音声形式での情報の送受信にNextel technologyのDirect Connect(商標)などを使用可能である。例えば、利用者は1台のDirect Connect電話を使用し、前記コンピュータ100は第2の電話、すなわち別のDirect Connect電話または別タイプの通信装置のいずれかに接続される。
コンピュータ100には、電話204〜208に加え、またはその代わりにポケットベルやプッシュトゥトーク(push−to−talk)無線通信などの装置を接続される場合がある。すべてまたは大部分の利用者の情報は、コンピュータ100に格納されることが理解されるであろう。したがって、例えば電話204〜208などのリモート通信装置が紛失した場合、利用者はデータを喪失することなく、迅速かつ安価に装置を交換することができる。
ここで図2Cを参照すると、この図でも、図1を参照し上述したようにハウジング102と、キーボード104と、ディスプレイ装置106と、マウス108とを有するコンピュータ100を例示している。図2Bを参照して上記で例示した実施形態と対照的に、コンピュータ100はネットワーク120によりリモート電話204および/または携帯電話208に動作可能に接続されている。コンピュータ100は、例えばダイヤルアップモデム、DSL,ケーブルモデム、衛星接続、T1接続などにより前記ネットワーク120に動作可能に接続される場合があることが理解されるであろう。例えば、利用者は、前記コンピュータ100などに割り当てられた「ウェブ電話」番号、IPアドレス、または従来の電話番号に電話を掛けて、ネットワーク120経由でコンピュータ100に接続できる。同様に、コンピュータ100は、ネットワーク120経由でリモート電話204および/または携帯電話208に接続することが可能である。このような実施形態では、コンピュータ100は、ネットワーク120にアクセスするため、オンボード電話ダイヤル機能を有しているか、または電話ダイヤル機能と動作可能に通信していることが理解されるであろう。このような機能性は、ハードウェアまたはソフトウェアのコンポーネント、あるいはこれらの組み合わせにより提供される場合があり、これについては以下、図4Bを参照してより詳しく説明する。
このような電話通信の構成例には、VoIP接続がある。このような実施形態では、いかなるリモート電話からもコンピュータ100に直接ダイヤルし、ネットワーク120の一態様経由で前記インターフェースプログラムに接続することが可能である。例えば、前記コンピュータ100は、ブロードバンドインターネット接続などを使って着信VoIP通話を扱う機能を装備している場合がある。また、別のリモートコンピュータ100からのUSBインターネット電話によって、例えば前記コンピュータ100により直接応答されるVoIP通話が起動される場合もある。一実施形態では、SIP電話、もしくはインスタントメッセージング技術などでさえも、コンピュータ100との通信に使用できることが理解されるであろう。
このように、本発明の態様を実施可能な利用者のコンピュータ100のいくつかの構成例を提示した。利用者をコンピュータ100に動作可能に接続することにより利用者がこのようなコンピュータ100と口頭で通信できるようにするいかなる方法も、一実施形態と均等に整合することが理解されるであろう。
したがって、コンピュータ100と遠隔的に通信を行ういかなる手段も一実施形態と均等に整合することが理解されるであろう。コンピュータ100が前記リモート通信装置と効果的に通信を行うために、使用する通信媒体のタイプに応じて付加的な機器が必要となる場合がある。例えば、音声認識ソフトウェアエンジンへの入力は、一般にマイクロホンなどの標準的な入力装置から受信される。同様に、Text−to−Speechエンジンからの出力は、通常にスピーカーなどの標準的な出力装置へ送信される。同様に、携帯電話などの通信装置は、(ヘッドセットの)マイクロホンからの入力を受信し、出力をヘッドセットのスピーカーへ送信することができる。これにより一実施形態では、音声エンジンと、コンピュータに直接接続された通信装置(図2Bに示した電話206など)との間の接続が提供されるため、通常にスピーカーへ送信される前記装置からの出力は、前記音声エンジンの入力へと送信される(通常にはマイクロホンから発信される)。同様に、Text−to−Speechエンジンからの出力(通常スピーカーへ向かう)および前記装置の入力間が、当該装置が次いで音声出力をリモート発呼者に転送するよう、接続されていなければならない。
基本的な実施形態では、このような転送は、前記コンピュータの外部にある電話206との間で、(図2Bのように)パッチコードを使って達成される。ただし一部の実施形態では、信号を転送するだけでなく調整することも必要となる。例えば音声信号がアナログである場合、一実施形態では、可変抵抗器や音量調節などを用いて行うインピーダンス整合が必要である。音声信号がデジタルである場合は、その形式(サンプルレート、サンプルビット(ブロックサイズ)、およびチャネル数など)を調整しなければならない。
このような信号転送および調整に関する別の実施形態では、前記インターフェースプログラムと併用して前記コンピュータ100で動作する「ソフトフォン」ソフトウェアを含む場合がある。このようなソフトウェアはVoIP電話通信を容易にし、前記SIP規格またはH.323など他のプロトコルを使ってコンピュータ100上で通話を送受信する。このようなソフトウェアの一例に、Xten Networks,Inc.(カナダ、ブリティッシュコロンビア州Burnaby)製のX−PROがある。ソフトフォンソフトウェアは、通常、ローカルスピーカーまたはヘッドセットにより電話の音声信号を利用者に送信し、通常、ローカルマイクロホンにより電話音声を受信する。ソフトフォンソフトウェア用に使用する特定の音声装置は、コンピュータ100で複数の音声装置が利用可能なため、利用者設定として選択できることが多い。上記のとおり、Text−to−Speechソフトウェアは、通常、ローカルスピーカーまたはヘッドセット経由で音声(出力)をローカル利用者に送り、さらに音声認識ソフトウェアは、通常、ローカルマイクロホン経由で音声(入力)を受け取る。従って、ソフトフォンソフトウェアは、一実施形態によりText−to−Speechソフトウェアおよび音声認識ソフトウェアにリンクされる場合がある。このようなリンクは任意数の方法で達成でき、ハードウェアまたはソフトウェアのいずれか、またはこれらの組み合わせが含まれる。一実施形態では、ハードウェア音声装置を各アプリケーションに割り当て、次にパッチケーブルを使って適切な出力ポートおよび入力ポートをリンクする。このような構成により、ソフトフォンから音声認識ソフトウェアへ、またText−to−Speechソフトウェアからソフトフォンソフトウェアへ音声が流れることが可能になる。このような構成では、スピーカー出力ポートをマイクロホン入力ポートに接続することが必要となり、したがって一実施形態では、音声の歪みを軽減するため、前記パッチケーブルにおいてインピーダンス整合が使用される場合があることが理解されるであろう。
さらに別の実施形態では、アプリケーション間で音声信号をリンクする特殊なソフトウェアを使用する場合がある。このようなソフトウェアの一例にVirtual Audio Cable(Eugene V.Muzychenko作成によるソフトウェア)があり、これは音声ケーブルをソフトウェアで完全にエミュレートするもので、音声信号を送受信する異なるソフトウェアプログラム間を容易に接続できる。このような実施形態では、一対のVirtual Audio Cableは、ソフトフォンから音声認識ソフトウェアへ、またText−to−Speechソフトウェアからソフトフォンソフトウェアへ音声が流れるように設定されている。さらに別の実施形態では、ソフトフォンソフトウェア、Text−to−Speechソフトウェア、および音声認識ソフトウェアを修正または統合することにより、外部音声転送装置の必要性が完全になくなる。
ここで図3を参照すると、この図では一実施形態に係るソフトウェアおよび/またはハードウェアの構成例のブロック図を例示している。一実施形態では、このようなソフトウェアは前記コンピュータ100により実行されることが理解されるであろう。このような態様では、例えば図2A〜図2Cを参照して上述したとおり(図3では明瞭性のため図示せず)、電話204〜210などのリモート通信装置上でこのようなソフトウェアの導入を試行する代わりに、前記コンピュータ100の計算能力が利用される。
図3に例示した各ソフトウェアおよび/またはハードウェアコンポーネントは、(点線で例示したように)少なくとも1つの他のソフトウェアおよび/またはハードウェアコンポーネントに動作可能に接続されることが理解されるであろう。また、図3では一実施形態を例示しているのみであり、ソフトウェアおよび/またはハードウェアコンポーネントの他の構成も一実施形態と整合することが理解されるであろう。図3に例示したソフトウェアコンポーネントは、スタンドアロンプログラムやアプリケーションプログラムインターフェース(application program interfaces、略称APIs)などであってもよいことが理解されるであろう。さらに、このようなソフトウェアコンポーネントはコンピュータで実行可能な命令としてコンピュータで読み込み可能な媒体に実装でき、それらの命令は、以下説明する工程を実行するためコンピュータなどにより実行することが可能である。コンピュータで読み込み可能な媒体には、例えばCD−ROMディスク、DVDディスク、USBドライブなどが含まれる。一部のソフトウェアコンポーネントはすでにコンピュータに内臓されている可能性があり、これにより実質的にコストが下がり、複雑さが軽減され、保管スペースが節約でき、効率が改善される。
テレフォニー入力302は、発話された言葉または音声コマンドにより(DTMF信号を含む(これに限定されるものではない))、例えば図2A〜Cを参照して上述したように入力装置を介して、利用者が前記コンピュータ100と通信できるようにする任意タイプのコンポーネントであってもよい。同様に、利用者に聞き取れる音として電気信号を出力するため、テレフォニー出力304が提供される。テレフォニー入力302もテレフォニー出力304も、例えば、電話またはネットワーク120により接続を確立する上で必要な機能性を含め、このような電話またはネットワーク120に対し信号を送受信するといった他の目的に適合するようなっていることが理解されるであろう。テレフォニー入力302およびテレフォニー出力304は、前記コンピュータ100の内部または外部にあるハードウェア、もしくはソフトフォンアプリケーションなどのソフトウェアおよびそれに付随したネットワークインターフェースカードである場合がある。
また、音声認識ソフトウェア310も提供されており、名前が示唆するように、この音声認識ソフトウェアは、テレフォニー入力302により受信される信号などの電気信号(当該信号は利用者が発話した言葉を表す)を承認するようなっており、またこのような言葉を解読するようなっている。音声認識ソフトウェア310は、例えば任意タイプの特定用途向けソフトウェア、市販の音声認識ソフトウェア、あるいは例えば音声認識ソフトウェア310エンジンなどのソフトウェアのコンポーネントである可能性がある。このような認識ソフトウェア310は、音声認識をより最適化するための利用者トレーニングを含む場合がある。また、利用者と通信するためのText−to−Speechエンジン315も例示している。このようなText−to−Speechエンジン315は、一実施形態では、電子データから音声出力され次いで利用者に送信されるメッセージを生成する。図3に例示した一実施形態では、自然言語処理モジュール325および自然言語合成モジュール330が提供されており、音声メッセージをそれぞれ解釈および構築する。
利用者データ320は様々な情報を有し、この情報はコンピュータ100に格納されるか、もしくはコンピュータ100からアクセス可能であり、実施形態に従ってアクセスおよび使用することが可能である。例えば、個人情報データファイル322は、任意タイプの情報を含む任意タイプのコンピュータファイルでありうる。電子メール、予約ファイル、個人情報などは、個人情報データベースに格納される情報タイプの例である。また、このような個人情報データファイル322は、例えばスプレッドシート、データベース、文書ファイル、電子メールデータといったタイプのファイルである場合がある。さらに、このようなデータファイル322(および以降説明するデータファイル324)は、例えばガレージドアを開ける、文書を印刷する、ファックスを送信する、電子メールを送信する、家庭用電化製品の電源を入れる、および/または制御する、テレビまたはラジオの番組を録画または再生する、通信用の装置および/またはシステムと連動するなど、利用者の指示に応じたタスクを実行することができる。このような機能性は、例えばテレフォニー入力302、テレフォニー出力304、および/または入出力350などを介して、前記データファイル322〜324に含まれるか、このようなデータファイル322〜324からアクセス可能である。インターフェースプログラム300は、上述したような前記コンピュータ100の内部コンポーネント、もしくは、テレフォニー入力302、テレフォニー出力304、および/または入出力350などを使用して、前記プログラム300が前記コンピュータ100外部の装置と連動しうるコンポーネントを使って、このようなタスクを実行することができることが理解されるであろう。
利用者に代わってコンピュータ100によってアクセス可能な付加的ファイルは、ネットワークベースのデータファイル324である。このようなデータファイル324は、マクロ、XMLタグ、またはインターネットなどのネットワーク120にアクセスして利用者用の最新情報を取得する他の機能性を含む。このような情報には、例えば株価、気象情報、ニュース、交通情報などがある。ファイルの例としては、個人情報管理(personal information management、略称PIM)ファイルや、メッセージングアプリケーションプログラミングインターフェース(messaging application programming interface、略称MAPI、例えば電子メールなど)ファイルなどがある。これらのファイルは、Microsoft(登録商標)Outlook(登録商標)またはLotus Notes(登録商標)などのプログラムと併用されることもある。あるいは、インターフェースプログラム300は種々のコンピュータプログラムと、例えば相互運用性のある方法で直接インタラクトすることが可能である(コンピュータプログラミングを熟知しているものであれば理解されるように)。
このようなデータファイル324の別の例は、図7A〜Bのインターネット対応スプレッドシートの文脈で以下説明する。本明細書における用語、利用者データ320は、前記データファイル322および/または324を含む任意タイプのデータファイルを指すことが理解されるであろう。データファイルインターフェース335は、前記インターフェースプログラム300が前記利用者データ320にアクセスを行えるように提供されている。特定のファイルまたはファイルタイプのみと連動するデータファイルインターフェース335は、単一であっても複数あってもよいことが理解されるであろう。また一実施形態では、前記インターフェースプログラム300が時間および日付の情報を決定を行うことを可能にするシステムクロック340が提供される。さらに一実施形態では、外部の装置やコンポーネントなどとのインターフェース用の入出力350が提供される。例えば、入出力350は、1若しくはそれ以上のプリンタポート、シリアルポート、および/またはUSBポートなどを有す場合がある。
前記ハードウェアおよびソフトウェアコンポーネントと(点線で示すように)動作可能に接続されているのは、前記インターフェースプログラム300である。ただし、このインターフェースプログラム300自体は、スタンドアロンプログラムであるか、または実施形態に従ってタスクの実行を統合するソフトウェアコンポーネントである。例えば、前記インターフェースプログラム300は、他のソフトウェアコンポーネントを制御し、どの利用者データ320を開き、どの「文法」(利用者が発話すると期待される語句)を聞き取るかを制御する。
このインターフェースプログラム300自体は、利用者の関心のある利用者データ320を含む必要はないことが理解されるであろう。このような態様では、このインターフェースプログラム300は、上述したように任意の利用者データ320または他のソフトウェアコンポーネントからは独立して修正および更新が可能な、比較的小さく効率的なプログラムとして維持される。また、このようなモジュール式構成により、任意タイプのソフトウェアコンポーネントを実行する任意のコンピュータ100において前記インターフェースプログラム300の使用が可能になるため、互換性に関する懸念が軽減される。さらに、パーソナルコンピュータなどのコンピュータ100上で操作するよう設計されたコンポーネントおよびプログラムが前記インターフェースプログラム300において使用される場合は、高度な音声認識が非サーバーコンピュータ環境で実行可能になることが理解されるであろう。このため、このインターフェースプログラム300は、サーバーとは対照的に、コンピュータ100上で動作するよう設計され、コンピュータ100の利用者により馴染みのあるプログラムと連動する。例えば、このようなプログラムは、コンピュータ100のオペレーティングシステムの一部であるか、コンピュータ100のオペレーティングシステムからアクセス可能な、既存のソフトウェアアプリケーションでありうる。このようなプログラムは、スタンドアロンアプリケーションおよび/またはハードウェアインターフェースなどでもありうることが理解されるであろう。
また、一実施形態がモジュール式であるという性質により、実質的にいかなる音声認識ソフトウェア310も使用可能になることが理解されるであろう。ただし、言葉遣いは人により大きく異なり、また方言も多様であるため、いかなる認識ソフトウェア310も正確さが制限される。一実施形態では、このようなソフトウェア310が認識工程にある、発話される題材の文脈を限定することにより、当該ソフトウェア310の精度を改善する。例えば、前記ソフトウェア310が特定テーマ分野の言葉を認識することに限定されている場合、このソフトウェア310は、無関係な任意数の言葉に発音が類似している言葉を、望ましいテーマ分野に関係する言葉として、高い尤度で正しく認識する。利用者の音声コマンドをこのような文脈制限を使って解決する方法は、図5を参照して以下説明していく。
一実施形態では、前記インターフェースプログラム300によりアクセスされる前記利用者データ320は、このような文脈制限を実行するよう構成および編成することが可能である。このような構成は、図3で例示したように前記インターフェースプログラム300または他のソフトウェアコンポーネントの変更を必要とせず、むしろ前記利用者データ320自体で行える。例えば、Microsoft(登録商標)Excelなどのスプレッドシートアプリケーションは、前記インターフェースプログラム300と併用して使用するのに適した態様でデータを格納し、これにアクセスする手段を提供している。スクリプトファイル、アラームファイル、ルックアップファイル、コマンドファイル、ソルバーファイルなどは、すべて一実施形態で利用可能なスプレッドシートファイルのタイプである。
また、前記音声認識ソフトウェア310は「プロファイル」を構成する1若しくはそれ以上の設定を有する場合があることが理解されるであろう。音声認識ソフトウェア310のプロファイルは、前記インターフェースプログラム300などとの通信用に利用者が使用する通信チャネルのタイプを含む(これに限定されるものではない)様々な理由により作成されている。
スクリプトファイルは、利用者およびコンピュータ100間に音声ダイアログを提供するスプレッドシートである。例えば一実施形態において、スプレッドシートの1若しくはそれ以上の列(または行)は利用者の発話する、したがって、前記インターフェースプログラム300により認識される文法を表し、前記スプレッドシートの1若しくはそれ以上の列(または行)は前記コンピュータ100の応答を表す。これにより、利用者が例えば「こんにちは」と言うと、前記コンピュータ100は「こんにちは」または「おはようございます」などと発話しうる。このように、スクリプトファイルによってコンピュータ100とのよりユーザーフレンドリーな対話が可能になる。
一実施形態において、アラームファイルは、望ましい機能に対応する、スプレッドシートの1若しくはそれ以上の列(または行)にエントリを有する。例えば、このスプレッドシートの1エントリは、利用者が薬を服用、会議に出席するために特定の日付および/または時間に設定されたリマインダに対応する。これを受け、前記インターフェースプログラム300は、前記テレフォニー出力304などのコンポーネントと連動し、利用者に連絡を行い前記リマインダを通知する。このようにアラームファイルは、一部の実施形態では、所定の条件が満たされた時点でアクションを生成する必要があるため、常時アクティブであることが理解されるであろう。
一実施形態において、ルックアップファイルは、情報を含むスプレッドシートであるか、または情報と相互参照されるスプレッドシートである。一実施形態では、前記ルックアップファイル内に情報が完全に含まれるが、他の実施形態では、前記ルックアップファイルによってその外部のデータ源から情報が参照される。例えば、スプレッドシートにはインターネットから入手可能なデータ(例えば「スマートタグ」、ウェブクエリ、データベースクエリなどを使用)を参照するセルが含まれる場合があり、それらのセルは、所定の間隔で「リフレッシュ」されて確実に情報を最新に保つことが可能である。このため、ルックアップファイルは株価、スポーツのスコア、気象情報など、利用者用の情報を検索する目的で使用され場合がある。このような情報は、コンピュータ100に対してローカルまたはリモートに格納することができることが理解されるであろう。
コマンドファイルは、一実施形態において、利用者がコマンドを前記コンピュータ100に入力し、前記インターフェースプログラム300を適切なコンポーネントと連動させて前記コマンドを実行可能にするスプレッドシートである。例えば、利用者が歌を聞くことを希望した場合は、前記インターフェースプログラム300が音楽プログラムと連動して歌を再生する。ソルバーファイルは、一実施形態において、利用者が口頭で前記コンピュータ100に問い合わせを行うことにより、数学的問題および他の解析的問題を解くことを可能にする。各タイプのファイルに含まれるデータは、一連の行および/または列に編成され、これらの行および/または列には、利用者が言及しているデータを決定するため、前記音声認識ソフトウェア310が認識すべき「文法」または文法へのリンクが含まれる。
上述したように、スクリプトファイルは、利用者に望ましい情報を提供、あるいは望ましいタスクを実行するために、前記インターフェースプログラム300が活用しうるスプレッドシート技術を単純に応用したものである。一実施形態で使用する前記音声認識ソフトウェア310に応じて、このようなスクリプトの構文が、ソフトウェアが利用者の発話した言葉の中から聞き取ろうとしている内容に影響を与えることが理解されるであろう。
一実施形態は、例えば利用者から要求された時点でルックアップファイルのみを開くよう構成される。このような場合、前記コンピュータ100が潜在的に解読しなければならない文法の数が減るため、音声認識の速度と信頼度が全般に向上する。また、このような構成では、コンピュータ100のリソースも他のアクティビティのために解放される。このようなファイルを開きたい場合、利用者は、例えば「株価を参照」などの音声コマンドを発信することが可能である。次に、前記コンピュータ100は、データファイル322〜324などのうちどのファイルが発話された言葉に対応するかを決定し、該当ファイルを開く。次に、このコンピュータ100は、データがアクセス可能になったことを音声キューで利用者に通知する。
代替実施形態では、利用者は標準的なスプレッドシート技術を使用してスプレッドシートなどへの入力を完了するのではなく、代わりにウィザードやAPIなどを使って、例えば標準テンプレートファイルへの入力を行う。別の実施形態では、キーボード104などを使う代わりに、上述した音声認識技術を使って前記テンプレートファイルへの入力を行うことができる。さらに別の実施形態では、前記インターフェースプログラム300が利用者に一連の音声質問をプロンプトし、利用者はそれに発話して回答する。このように、前記コンピュータ100はより詳細な質問を行い、また利用者データ320の作成または修正など行うことが可能である。またさらに別の実施形態では、ウィザードにより、既存のスプレッドシート、またはインターネットなどからダウンロードしたスプレッドシートが、前記インターフェースプログラム300でアクセス可能かつ理解可能な形式に変換される。
図2A〜図2Cを参照して上述したとおり、単一の利用者であっても、その利用者が使用する通信チャネルに応じ、異なるソフトウェア構成(または「モード」)を必要とすることが理解されるであろう。例えば、利用者が携帯電話208で前記コンピュータ100と通信している場合、コンピュータ100は、当該媒体により提供される比較的低音質の信号から音声を認識するよう調整された音声認識ソフトウェア310のプロファイルを使用する必要がある。このように、音声認識ソフトウェア310のプロファイルは、携帯電話208により受信される利用者コマンドを認識するために存在する場合がある。また前記コンピュータ100は、利用者が使用する通信チャネルに応じ、利用者に利用可能な異なるデータファイル322などを必要とする場合がある。例えば利用者は、携帯電話208からの通話する場合が、常に特定情報にアクセスできることを希望し(利用者が移動中であり、特定情報を希望するため)、前記マイクロホン202の使用時には同じ特定情報を所望しない場合もある(例えばコンピュータの前にいて他の手段でこのような情報にアクセスできるため)。また、コンピュータ100の複数の利用者がそれぞれ種々の通信チャネル用に異なる構成設定を有しうることも理解されるであろう。これを受け、以下の説明では、このような構成変更を達成する手段を提供する実施形態の態様を説明していく。
上記のとおり、利用者は、コンピュータ100とインタラクトするために異なる通信チャネルを使用する場合がある。各通信チャネルに関与するハードウェアは、異なる音声品質を有する場合がある。例えば、異なる通信チャネルは異なるサンプリングレートを有する(例えば、テレフォニー機器では8kHZ、スピーカーでは16kHz、マイクロホンでは22.05kHz、CDでは44.1KHz、DVDでは48KHz、DVD音声では96KHzなど)。このように、また上記のとおり、関与するハードウェアに応じてモード変更などを行う必要がある。例えば、前記コンピュータ100への接続に使用する各通信チャネル用にプロファイルを作成するため、利用者は前記音声認識ソフトウェア310をトレーニングすることを希望することもある。異なる通信チャネルを使う際、設定および/またはソフトウェアが多数変更されるよう、利用者が希望する場合もあることが理解されるであろう。例えば、出力装置の変更、入力ゲインおよび出力音量を以前に格納された設定に調整、音声認識ソフトウェア310の設定またはエンジンの変更(例えば8kHz最適化を16kHz最適化に)、音声認識ソフトウェア310のプロファイルの変更(例えば携帯電話の利用者1からマイクロホンの利用者1へ)、音声形式変換パラメータの変更、背景雑音フィルタリングのプリファレンスまたはプロファイルの変更、「履歴」および/または「コンテキスト」ファイルの変更、他のプリファレンスまたは設定パラメータの変更、利用可能なデータファイル322または当該データファイル322内の機能セットの変更、もしくは各種機能用のプリファレンスの変更などが実施形態によって自動的に行われるよう利用者が希望する場合がある。
一実施形態では、このような変更は、これらのパラメータの一部または全部に対して事前設定されており、ハードウェア装置間での自動切り替えを可能にする。例えば、前記インターフェースプログラム300は、マイクロホンおよびスピーカー構成用に設定できるが(すなわち「ローカル」モードなど)、VoIPからの着信通話など他の装置に対しても「リスニング」を行う。「リスニング」している状態とは、前記インターフェースプログラム300が例えば、テレフォニー入力302または入出力350経由の着信通話といった新しい装置接続を認識できる状態にあることを意味することが理解されるであろう。このような通話の着信時に、前記インターフェースプログラム300は自動的にモードを切り替え、必要なすべてのパラメータを調整して、新しい(VoIPなどの)モードに対する性能を向上する。前記VoIP接続の動作が終了した時点で、一実施形態において、前記インターフェースプログラム300は自動的に前記ローカルモードに切り替わる。
引き続き上記のVoIPの例において、前記インターフェースプログラム300は、VoIP通話を承認するため、テレフォニー入力302、テレフォニー出力304、入出力350などを介して前記コンピュータ100を前記VoIP通話に接続するために使用されるハードウェアおよび/またはソフトウェアなどに何らかの形態の音声ブリッジを必要とすることが理解されるであろう。また、一部のテレフォニー機器では、他の音声機器と異なる方法および異なるサンプルレートでアナログ信号を圧縮およびデジタル化する。このため、これらのパラメータは、前記インターフェースプログラム300により自動的に切り替えられ、利用者がローカルモードからVoIPモードへ切り替えを行うことを可能にする。例えば、前記インターフェースプログラム300がローカルモードの状態にあり、VoIP通話を受信するために入出力350を経由してリンクされている可能性のあるソフトフォンから着信通話を検出する場合、前記インターフェースプログラム300はローカル音声装置を「断念」してソフトフォンとの通信を確立する。通常、この通信確立には、Virtual Audio Cable(上記のとおり)などで提供される追加ソフトウェアが必要になる。また、ソフトフォンのパラメータは、前記インターフェースプログラム300との通信を最適化するため変更される必要がある場合がある。さらに、前記インターフェースプログラム300を利用者のVoIP音声認識ソフトウェア310プロファイル(存在する場合)に切り替える必要がある場合もある。VoIP通話が終了後、前記インターフェースプログラム300は前記ローカル音声装置を再び制御下に置き、Virtual Audio Cableとの通信を終了する。
いかなるタイプのソフトウェアおよび/またはハードウェアの変更(もしくは欠如)も一実施形態と整合していることが理解されるであろう。例えば、一実施形態では、コンピュータ100およびインターフェースプログラム300との通信に利用者が使用可能な各タイプのハードウェアに対して、異なる音声認識ソフトウェア310のプロファイルおよび/またはエンジンが使用される場合がある。単一の時点において2つ以上のモードがアクティブでありうるため、複数のハードウェアおよび/またはソフトウェアの構成が同時にサポートされる可能性があることを理解すべきである。
上記のとおり、前記インターフェースプログラムは、異なる利用者用のプロファイルを有する場合がある。例えば、特定の利用者の音声が特定の通信チャネル経由で着信として認識され、次に、前記インターフェースソフトウェアは使用されている特定の通信チャネル用にその特定の利用者のプロファイルを切り替える。
一実施形態では、前記インターフェースプログラム300は、「安全な」リモート利用者のみに前記コンピュータ100へのアクセスを許可する。このような実施形態では、例えば、前記インターフェースプログラム300は、リモート利用者用に正しいハードウェア設定を確立した後、(例えばText−to−Speechエンジン315経由の)音声プロンプトなどで電話に応答し、セキュリティコード、Dual Tone Multi−Frequency(DTMF)コード、音声コードフレーズなどを利用者が提供するよう誘導する。正しい応答が受信されなかった場合、前記インターフェースプログラム300は、正しい応答を供給するよう追加的な試みを行いプロンプトを出す。最終的に正しい応答が受信されなかった場合、前記インターフェースプログラムによって、前記コンピュータ100へのアクセスが阻まれ、さらに/または通話が終了される。
上記のとおり、一実施形態においては、異なるソフトウェアプロファイルが前記コンピュータ100の複数の利用者について維持される場合がある。このような実施形態では、前記インターフェースプログラム300は、例えば前記コンピュータ100との通信に使用されている装置のタイプ、または入力コードなどから、特定の利用者を認識することが可能である。この認識に応答して、前記インターフェースプログラム300は、必要に応じて適切な利用者プロファイルをロードし、および/または他の設定変更を実行する。
例えば、前記インターフェースプログラム300は、特定タイプのハードウェア装置経由で利用者からの入力信号が受信された場合、適切な装置を介して前記Text−to−Speechエンジン315から前記利用者へ音声を出力する必要があると決定する。例えば、利用者が1つまたは複数の指定マイクロホンによりインターフェースプログラム300と通信している場合、このインターフェースプログラム300は、前記Text−to−Speechエンジン315の出力を1つまたは複数の指定スピーカーに送信する。
上述したとおり、コンピュータ100には複数の利用者が異なる利用者プロファイルを有する場合がある。前記インターフェースプログラム300では、このような利用者プロファイルを使ってハードウェアおよび/またはソフトウェアコンポーネントを適切に構成することが可能であることが理解されるであろう。以下の表1は、各利用者用に利用可能である種々の構成設定を含む利用者プロファイルの例を示したものである。表1に示したこれらの設定は、決して完全なリストでも必須リストでもないことが理解されるであろう。
例えば表1では、1若しくはそれ以上のSIPプロキシおよび複数のローカル音声装置が各利用者に割り当て可能であることがわかる。このような構成設定は必須ではないが、1つのプロファイルは、1つの入力装置にリンクされた1若しくはそれ以上の出力装置を有する場合があることが理解されるであろう。これにより、前記インターフェースプログラム300は、利用者と通信するために種々の構成で動作することが理解されるであろう。以上、前記構成間で切り替えを行う方法について説明してきたが、ここで図4A〜図4Cを参照すると、本発明の実施形態に係る利用者起動トランザクションの方法例を示したフローチャートが示されている。図3を参照してアラームスクリプトを説明したように、一実施形態においてテレフォニー出力304を介した前記インターフェースプログラム300は、トランザクションの起動も行えることが理解されるであろう。このような状況については、図6を参照し以下で説明する。
工程405において、利用者は前記コンピュータ100との通信を確立する。このような確立は、例えば図2B〜図2Cを参照して上記で説明したように、利用者が携帯電話208を介して前記コンピュータ100に電話を掛けることにより、このような確立が行われる。また、このような確立の際には、例えば、前記利用者データ320などにアクセスするためのセキュリティクリアランスを確立するなどの中間工程もありうることが理解されるであろう。選択的な工程410では、「音声」プロンプトが利用者に提供される。このようなプロンプトは、単に前記コンピュータ100側で発話された言葉を聞く準備が整ったことを利用者に示すためのものであるか、または日時などの他の情報を有するものである可能性がある。
工程415では、利用者要求が、例えば前記テレフォニー入力302などを介して受信される。工程420では、前記利用者要求が構文解析および/または分析され、その要求の内容が決定される。このような構文解析および/または分析は、例えば前記音声認識モジュール310および/または前記自然言語処理モジュール325により実行される。工程425では、利用者の要求に対応した望ましい機能が決定される。工程410〜425は、例えば音声認識ソフトウェア310が利用者の要求を認識するために、必要な回数だけ反復されることが理解されるであろう。このような反復は、例えば、利用者が前記コンピュータ100と通信を行っている通信チャネルの品質が劣悪である場合や、利用者の発話が不明瞭である場合、または他の任意の理由により必要となる場合がある。
工程425で、利用者が既存の情報を要求している、もしくは利用者がコンピュータ100によるアクションの実行を要求していると決定された場合、前記方法は図4Bの工程430へ進む。例えば、利用者が次の日の自分の予約について前記コンピュータ100に読み上げてほしいと希望している場合などである。あるいは、工程425において前記利用者要求に対応する望ましい機能がデータの追加または作成であると決定された場合、当該方法は図4Cの工程450へと進む。これは、例えば利用者がメッセージを記録したい場合や、既存または新規の連絡先用に新しい電話番号を入力したいなどと希望している場合である。
上記を受け、ここで図4Bを参照すると、工程430では、要求された前記利用者データ320がインターフェースプログラム300により選択され読み出される。図3を参照して上述したとおり、適切なデータファイルインターフェース335は、前記インターフェースプログラム300により有効化されて、利用者データ320とインタラクトし、また要求された情報にアクセスする。あるいは、前記インターフェース335は、要求されたアクションを例えば入出力350を使って実行するようなっている場合もある。工程432では、前記インターフェースプログラム300が、前記利用者データ320から読み出された情報に基づき、前記Text−to−Speechエンジン315および/または前記自然言語合成コンポーネント330に音声回答を生成させ、および/または望ましいアクションが実行されるようにする。要求されたデータの必要に応じ、選択的な工程434では、付加的な利用者データ320を要求するための、または元の要求をさらに明瞭化するための音声プロンプトが再び利用者に提供される。選択的な工程436では利用者応答が受信され、選択的な工程438ではその応答が再び構文解析および/または分析される。このような選択的なの工程434〜438は、図4Aの工程410〜420について上述したような形で実行されることが理解されるであろう。また、望ましい機能が前記インターフェースプログラム300にアクションを実行させることである場合(例えばガレージドアを開ける、ファックスを送信する、文書などを印刷する、メモや電子メールを記録する、電子メールを送信するなど)、応答は不要であるため、(いずれにしても応答は生成されるが(例えばアクションが正常に実行された旨を利用者に通知する))、上記のような工程434〜438は選択的であることも理解されるであろう。工程440では、付加的なアクションが必要かどうか決定される。必要である場合、当該方法は、さらに利用者データ320を読み出すため工程430に戻る。付加的なアクションが不要な場合は、工程442で会話が終了するか(例えば、利用者が電話を切った場合など)またはスタンバイモードになって更なる利用者入力が待機される。
工程425では、利用者が特定のアクションの実行を要求しているという決定に到達する可能性があることが理解されるであろう。例えば、利用者が通話を開始したいと希望している場合である。このような実施形態では、前記インターフェースプログラム300は、テレフォニー入力302、テレフォニー出力304、および/または入出力350など(明瞭性のため図4Bでは図示せず)を介し、利用者の指定した番号に電話を掛けるよう、SIPソフトフォンソフトウェアに指示する場合がある。別の実施形態では、利用者はMicrosoft(登録商標) Outlook(登録商標)または他の連絡先データベースに格納された電話番号に電話を掛けるよう要求する場合がある。このような実施形態では、前記プログラム300が前記連絡先データベース内の特定の名前または他のエントリに電話を掛けるよう、また前記連絡先データベース内の名前または他のエントリに関連付けられた電話番号を前記プログラム300が前記SIPソフトフォンにダイヤルさせるよう、利用者が要求する。現在の説明は単一の通話に関するものであるが、任意数の通話もダイヤルまたは接続することができ、したがって会議通話などが可能になることが理解されるであろう。
このような実施形態で電話を掛ける際、前記プログラム300は、例えばSIP電話を利用する会議通話を起動することにより、利用者および1若しくはそれ以上の他の利用者が同一線で接続され、さらに、コマンドを口頭で発し前記プログラムから情報を要求する能力を有するようにする。特定の文法により、前記プログラム300は、情報の提供、および/または特定のアクティビティの実行を明確に要求されるまで、前記利用者間の会話を静かに「聞く」ことができるようになる。あるいは、前記プログラム300は、別の利用者との通話または複数利用者間の会議通話を開始した時点で、前記利用者との接続を「解除」する。
図4Aを参照して上記で説明したように、利用者は、単にこのようなデータの読み出しまたは指定したアクションの実行を要求する代わりに、データの追加または作成を希望する場合がある。これを受けて図4Cを参照すると、工程450では、新しいデータベースやスプレッドシートなどの形態の、もしくは既存ファイルの新しいエントリとしての利用者データ320が、上記図4Aに関連して受信された利用者の命令に従って、選択または作成される。工程452では、音声プロンプトが利用者に提供され、このプロンプトにより利用者は、新しいデータまたは命令を発話するよう指示される。工程454では利用者応答が受信され、工程456ではその応答が構文解析および/または分析される。工程458では、その音声データまたはフィールド(音声録音の形態をとりうる)が、工程450で作成または選択された前記利用者データ320に追加される。選択的な工程460では、必要に応じ、付加的な新規データを要求する音声プロンプトが再び利用者に提供される。選択的な工程462では、このようなデータが利用者の音声応答の形態で受信され、選択的な工程464では、このような応答が構文解析および/または分析される。工程466では、付加的なアクションが必要であるかが決定される。付加的なアクションが必要な場合、前記方法は工程458に戻り、前記音声データまたはフィールドを前記利用者データ320に追加する。付加的なアクションが不要な場合、工程468で会話は終了するか、または更なる利用者入力を待機するスタンバイモードになる。このような利用者発話のプロンプトおよび受信は、図4A〜図4Bを参照して上記で説明したように行われることが理解されるであろう。
図3を参照して上記で説明したように、前記インターフェースプログラム300は、性能を強化するため、言葉および/または語句から成る語彙全体のうち、前記音声認識ソフトウェア310によって利用者の音声コマンドを認識するために使用される特定サブセットに文法サイズを制限する場合がある。一実施形態では、前記文法は利用者が音声コマンドを発すると考えられる特定の文脈に制限される。これを受け、次に図5を参照し、このような文脈制限を使って利用者音声コマンドを認識する方法例500を以下説明していく。工程502では、利用者の音声入力が検出され、音声ファイルとして保存される。いかなる形式の音声ファイル、例えば.wavファイルや.mp3ファイルなども実施形態と整合することが理解されるであろう。工程504では、前記インターフェースプログラム300および/または前記音声認識ソフトウェア310が、アクティブな文法を使って前記入力の認識を試行する。このアクティブな文法は、任意数または任意タイプの要因、例えば、利用者が使用しているハードウェアのタイプ、時刻、気象状態、カレンダーまたは予約の情報、過去の利用者要求、利用者構成設定などに基づき選択されることが理解されるであろう。アクティブな文法の選択は、上述したように、尤度の高いアクティブな文法(すなわち、現在の要求の対象)を以前の要求および/または種々の文脈的要因と相関させる統計的アプローチによりさらに強化されうる。例えば予約に関する要求は、次に起こる可能性の高い要求が、時刻または会議場所(すなわち、特定の担当者のオフィスの住所)に関するものであることを示唆する可能性がある。さらに、常に任意数の文法がアクティブである可能性がある。
工程506では、利用者入力が認識されたかどうか決定される。認識された場合、前記方法は工程508へ進み、認識データを処理する。このような処理は、例えば要求されたタスクの実行やコンピュータ100への利用者アクセスの許可などの可能性がある。工程510において、前記方法500は、例えばText−to−Speechエンジン315により、利用者と通信する。利用者のコマンドに対して前記インターフェースプログラム300および/または前記音声認識ソフトウェア310からの音声応答が必要とされない場合、工程510は選択的である場合がある。最後に、例えばメモリ空間を節約するため、工程512で前記利用者入力を含む前記音声ファイルが削除される。
工程506の決定が、利用者入力が認識されなかったというものであった場合は、(1つまたは複数の)アクティブな文法が工程514で無効化される。工程516では、利用可能な文法があるかどうかが決定される(例えば、工程504〜506の間にアクティブでなかった文法など)。アクティブな文法ある場合は、当該文法が工程518で有効化され、前記方法500は工程504に戻って前記利用者入力の認識を試行する。工程516の決定が、利用可能な追加文法がないという決定であった場合、前記方法500は、工程520で利用者にエラーを伝える。工程520のこのようなエラー通知には、利用者にコマンドを反復するよう促すプロンプト、または利用者にコマンドに該当する別の説明またはカテゴリを提供するよう促すプロンプトなどが含まれることが理解されるであろう。最後に、例えばメモリ空間を節約するため、工程522で前記音声ファイルが削除される。前記方法500は、利用者入力を認識するため、任意の回数実施されることが理解されるであろう。例えば工程518では、前記方法500によってそれ以前にアクティブでなかったすべての文法が有効化される必要はない。その代わりに、一実施形態は、1若しくはそれ以上の文法が最も高い確率で前記利用者入力に合致するものとしてインテリジェントに選択されると規定する。
利用者が前記インターフェースプログラム300に特定文法の有効化を指示することで、当該インターフェースプログラム300および/または前記音声認識ソフトウェア310が次の入力を認識する尤度を高めることが可能であることが理解されるであろう。例えば、「連絡先を参照」という利用者入力は、当該連絡先自体を開くだけでなく、利用者の連絡先に関連する文法を開くよう、前記インターフェースプログラム300をプロンプトする可能性がある。また一実施形態では、一般的な文法が提供される可能性があるが、この場合、前記一般的な文法は利用者から最も一般的に受信されるコマンドを有する可能性がある。このように、利用者が操作中の文脈とは無関係のコマンドを当該利用者が発した場合であっても、当該利用者のコマンドは前記インターフェースプログラム300によって理解される可能性が高い。
以上、利用者入力を認識する方法を説明してきたが、図6の方法は一実施形態に従いコンピュータ100が起動するトランザクションの方法例である。図6を参照すると、工程600では利用者データ320が監視される。例えばアラームファイル、予約データベース、電子メール/スケジュールプログラムファイルなど、利用者データ320の複数のインスタンスがインターフェースプログラム300により監視されることが理解されるであろう。工程605では、監視中の前記利用者データ320にアクションアイテムが含まれているかどうかが決定される。一実施形態において、前記インターフェースプログラム300は、例えばデータベース内のエントリをレビューして現在実行中のどのアイテムにアクションが必要かを決定するため、前記システムクロック340を使用するようなっていることが理解されるであろう。アクションアイテムが検出されなかった場合、前記インターフェースプログラム300は、工程600で前記利用者データ320を引き続き監視する。前記利用者データ320にアクションアイテムが含まれる場合、前記インターフェースプログラム300は、工程610で利用者との会話を開始する。このような会話の開始は、例えば、前記インターフェースプログラム300がソフトウェアコンポーネントに、電話204または携帯電話208を経由して利用者へ連絡させることにより実行される。図2A〜図2Cを参照して上記説明したハードウェア構成は、いずれもこのような機能を実行することが可能である。
工程615では、音声プロンプトが利用者に発信される。例えば、利用者が利用者自身の携帯電話208に回答した時点で、前記インターフェースプログラム300は、前記アクションアイテムに関するメッセージを前記Text−to−Speechエンジン315に生成させる。例えばセキュリティチェックや社交辞令など、アクションアイテムに関連しない他のメッセージも、この時点で利用者へ発話される場合があることが理解されるであろう。工程620では利用者応答が受信され、工程625ではその応答が、図4A〜図4Bを参照して説明したように構文解析および/または分析される。工程630では、発話された言葉に基づき付加的なアクションが必要かどうかが決定される。必要である場合、前記方法は工程615に戻る。付加的なアクションが不要な場合は、選択的な工程635で前記インターフェースプログラム300が利用者データ320に必要な調整をすべて行い、例えば、前記データベースインターフェース320に変更または設定を保存させる、またアラームを設定するといった利用者の要求を完了させる。前記インターフェースプログラム300は、次に工程600へ戻り、引き続き前記利用者データ320を監視する。利用者は、前記コンピュータ100からの接続を解除、またはそのまま接続を続け他のタスクを実行することが可能であることが理解されるであろう。実際、利用者は、次に例えば図4A〜図4Cを参照し上述した方法に従って処理される命令を発信することが可能である。
このように、インターフェースプログラム300は、コンピュータ100に格納された、またはコンピュータ100からアクセス可能な利用者データ320に関して、利用者に対して連絡を開始、および利用者から連絡を受信することが可能であることが理解されるであろう。またインターフェースプログラム300は、一部の実施形態において、利用者がコンピュータ100に遠隔的にアクセスする際に、利用者の目に触れることなく動作することも理解されるであろう。ただし、利用者は、インターフェースプログラム300が自身のプリファレンスに従い動作するように、当該プログラム300を構成または修正しなければならない場合がある。上記のとおり、当業者であれば、コンピュータ100のディスプレイ装置で表示を行うための、利用者インターフェースのプログラミングおよび構成に精通しているはずであり、したがってこのような構成の詳細は明瞭性のため本明細書では省略する。
上記のとおり、前記インターフェースプログラム300は、一実施形態において通話を発信することができる。このような発信通話を介して、当該インターフェースプログラム300のソフトウェアは、近々予定されている予約や緊急の電子メールなどについて利用者にアラートを送信する場合がある。また、一旦利用者への通話が確立されアラートが伝達されると、利用者は、前記インターフェースプログラム300へのクエリを継続し、付加的なタスクを実行するための追加情報を得ることができる。
発信通話が関与する別の実施形態は、「電話ブリッジ」を介して利用者の代わりに通話の発信および接続を行う工程に関する。電話ブリッジを使用する場合、利用者は、通話を発信および接続するよう前記インターフェースプログラム300に指示する。リモートアクセス機能として、電話ブリッジは、例えば移動中または通勤中の利用者に有益である場合がある。あるいは、利用者は、利用者自身が前記コンピュータ100をローカルに操作している場合においても、番号を調べ、電話機を探し、その番号をダイヤルする手間を省くために、前記インターフェースプログラム300が電話ブリッジを有することを希望する場合がある。例えば、利用者がマイクロホンに「Call John Smith(ジョン・スミスに電話)」と発話すると、前記インターフェースプログラム300は自動的に電話ブリッジソフトウェアを開始する。このように、利用者がリモート電話を操作している場合でも、ローカルマイクロホンを操作している場合でも、前記インターフェースプログラム300のソフトウェアは、使いやすく柔軟性のあるIPテレフォニー(VoIPなど)用「フロントエンド」を提供する。前記インターフェースプログラム300との通話ではVoIP技術が使用される場合があるため、長距離電話料金が非常に低価格なるか、場合によっては無視できる程になり、これにより利用者が第三者と通信するためのより経済的な手段が提供される。経済的な理由から、リモート利用者は特に直接ダイヤルよりVoIP電話ブリッジを好む場合がある。
図7は、上記を受け、VoIPを使ってこのような実施形態を実施可能なソフトウェアおよびハードウェアの構成を例示した図である。図のように、一実施形態ではリモート利用者710がSIPサービスプロバイダ712A経由で前記インターフェースプログラムと通信する。前記リモート利用者710が第三者との通信を希望する場合は、前記インターフェースプログラム300がSIPサービスプロバイダ712Bと通信し、次いでこのSIPサービスプロバイダ712Bが前記第三者714と通信する。このような通信を確立する方法については、図8を参照して以下説明する。利用者が前記インターフェースプログラム300に接続解除を指示すると、前記SIPサービスプロバイダ712A〜Bは互いに通信し合い、前記利用者および前記第三者の間の会話を継続する。SIPプロバイダ712Aおよび712Bは、同じプロバイダであってもよいし、1つの同一VoIPサーバーであってもよいことが理解されるであろう。
図8は、本発明の実施形態に従って利用者を第三者に接続する方法例800を示したフローチャートである。工程802以前に、前記インターフェースプログラム300はデフォルトモードなどで動作中である可能性があり、そのため、利用者からの通信試行を承認することができる。工程802では、利用者との通信が確立される。このような通信は、上述したものなど、任意の通信チャネルを介して行われることが理解されるであろう。利用者との通信を確立する工程の一部として、前記インターフェースプログラムは、図3を参照して上記で説明したように、適切なハードウェア入出力(X−Liteなどのソフトフォン付きVirtual Audio Cable音声装置など)およびこのようなリモート装置用の正しい利用者プロファイルに切り替えを行う。利用者および前記インターフェースプログラム300はこのような形で通信し、利用者は望ましいタスクを実行するよう前記インターフェースプログラム300に指示をすることもある。
工程804では、利用者を第三者に接続する要求が受信される。このような要求には、利用者および第三者の接続後、そのままの状態で会議通話を続行する代わりに、前記インターフェースプログラムを通話から接続解除するという利用者からの要求も含まれる場合がある。代替実施形態では、前記インターフェースプログラムは通話に留まるよう指示される。同様に、前記インターフェースプログラム300は、このような情報を得るため利用者にプロンプトする場合もある。代替実施形態において、前記インターフェースプログラム300は、接続解除すべきか通話に留まるべきかを示すデフォルト設定などを有する利用者プロファイルを有することもある。前記インターフェースプログラム300を通話に留まらせた場合、利用者は通話完了時に付加的なタスクを実行できるようになることが理解されるであろう。ただし、前記インターフェースプログラム300を接続解除すると、利用者および第三者間の信号品質が改善される可能性がある。前記インターフェースプログラム300が接続を続行することを利用者が希望しない一実施形態では、前記インターフェースプログラム300は、着信通話を発信番号に転送するようソフトフォンなどに指示する。これにより、2者は前記インターフェースプログラム300を中間に置くことなく、SIPブリッジで直接接続される。さらに、SIPプロバイダの一方または双方に会議をホストするよう指示することにより(例えばソフトフォンからSIPブリッジへのコマンドにより)、可能性としてインターフェースプログラム300を含む全者との接続を維持しつつ接続品質を改善できることが理解されるであろう。
工程806では、前記インターフェースプログラム300が利用者を第三者に接続する。この接続は、上述した通信チャネルを介するものでありうることが理解されるであろう。工程808では、前記インターフェースプログラム300が通話に留まるべきか接続解除されるべきかが決定される。前記インターフェースプログラム300が着信通話を発信番号に転送するようソフトフォンなどに指示する実施形態では、工程808は選択的であることが理解されるであろう。工程808の決定は、例えば、工程804に関連して上述した要求および/またはプロファイル情報などを使って行うことが可能である。工程808の決定が、前記インターフェースプログラムが通話に留まるべきではないというものであった場合は、工程814で、利用者および第三者が引き続き会話している状態で前記インターフェースプログラム300が通話から接続解除される。
工程808の決定が、前記インターフェースプログラム300が通話に留まるべきであるという決定の場合、当該インターフェースプログラム300は第三者が接続解除するのを待機する。一実施形態では、利用者および第三者間の残りの会話の間、前記音声認識ソフトウェア310が無効化され、意図せず会話を中断することを回避する。第三者が通話から接続解除したことを検出すると、前記インターフェースプログラム300は、前記音声認識ソフトウェア310を再起動し、工程812で利用者コマンドを待機するか、またはこのようなコマンドを得るため利用者にプロンプトを提示する。別の実施形態では、前記インターフェースプログラム300は、会話中にアクティブのまま維持され、利用者に応答することができる。このような実施形態では、特定のキーワードなどの認識を試行するためのみに、インターフェースプログラム300を有する可能性がある。前記インターフェースプログラム300は、一実施形態では、利用者が通話から接続解除した場合、それ自体を無効化するか、または以前および/またはデフォルトの状態に戻る場合がある。上記工程を行う際、前記インターフェースプログラム300は、図3を参照して上記で説明したように、当該状態のための適切な利用者プロファイル(ハードウェアおよび/またはソフトウェア構成設定を含む)を呼び出す場合がある。
当然のことながら、以上の例示的実施形態は単に説明目的で提供したものであり、決して本発明を限定すると解釈すべきものではない。本明細書で使用した用語は説明および例示のためのものであり、限定するためのものではない。また、本明細書で説明した利点および目的は、本発明を実施する各々の実施形態のみにより実現されるものではない。さらに、本発明を、特定の構造、材料、および/または実施形態を参照して本明細書で説明してきたが、本発明は本明細書に開示した特定の事柄に限定されるものではない。むしろ、本発明は、添付した特許請求の範囲内にである機能的に均等なすべての構造、方法、および用途へと拡張される。本明細書の教示の有益性を享受した当業者であれば、本発明の要旨を変更しない範囲で、種々の修正形態および変更形態をもたらすことができるであろう。
以上の課題を解決するための手段および以下の発明を実施するための最良の形態は、添付の図面を参照することでより明確に理解される。本発明を例示するため本発明の実施形態例を図面に示すが、本発明は開示されている具体的な方法および手段に限定されるものではない。当該図面は、以下のとおりである。
図1は、本発明の態様を実施しうる従来のデスクトップコンピュータの例を示した図である。
図2A〜図2Cは、本発明の態様を実施しうるコンピュータ構成の例を示した図である。
図2A〜図2Cは、本発明の態様を実施しうるコンピュータ構成の例を示した図である。
図2A〜図2Cは、本発明の態様を実施しうるコンピュータ構成の例を示した図である。
図3は、本発明の実施形態に係るソフトウェア構成の例を示したブロック図である。
図4A〜図4Cは、本発明の実施形態に係る利用者起動トランザクションの方法例を示したフローチャートである。
図4A〜図4Cは、本発明の実施形態に係る利用者起動トランザクションの方法例を示したフローチャートである。
図4A〜図4Cは、本発明の実施形態に係る利用者起動トランザクションの方法例を示したフローチャートである。
図5は、利用者音声コマンドを認識する方法を例示したフローチャートである。
図6は、本発明の実施形態に係るコンピュータ起動トランザクションの方法を例示したフローチャートである。
図7は、本発明の態様を実施しうるソフトウェアおよびハードウェアの構成を例示した図である。
図8は、本発明の実施形態に従って利用者を第三者に接続する方法を例示したフローチャートである。
Claims (63)
- 通信を可能にする方法であって、
利用者との第1の通信チャネルを確立する工程と、
音声利用者要求を受信し第2の通信チャネルを確立して相手との通信を可能にするものである、受信する工程と、
前記音声利用者要求を認識する工程と、
前記第2の通信チャネルを確立する工程と
を有する方法。 - 請求項1記載の方法において、前記第1の通信チャネルは利用者により起動されるものである。
- 請求項1記載の方法において、前記第1の通信チャネルを確立する工程は、前記第1の通信チャネルのタイプを決定する工程と、当該タイプに基づき少なくとも1つの入出力パラメータを設定する工程とを有するものである。
- 請求項3記載の方法において、この方法は、さらに、
セキュリティコードを提供するために音声プロンプトを前記利用者に提供する工程と、前記利用者からの入力を受信する工程とを有するものである。 - 請求項4記載の方法において、前記入力は、音声応答またはDTMF信号のうちの1つである。
- 請求項4記載の方法において、この方法は、さらに、
前記入力が前記セキュリティコードに合致するかを決定する工程と、前記入力が合致しなかった場合、前記第1の通信チャネルを終了させる工程とを有するものである。 - 請求項1記載の方法において、前記第1の通信チャネルまたは前記第2の通信チャネルは、Voice over Internet Protocol(ボイス・オーバー・インターネット・プロトコル)接続によるものである。
- 請求項1記載の方法において、前記第1の通信チャネルまたは前記第2の通信チャネルは、Session Initiation Protocol(セッション・イニシエーション・プロトコル)規格を使用するものである。
- 請求項1記載の方法において、前記音声利用者要求は、前記利用者の音声を含むものである。
- 請求項1記載の方法において、前記音声利用者要求は、前記相手の関連情報を含むものである。
- 請求項10記載の方法において、この方法は、さらに、
前記情報を前記相手の電話番号に関連付ける工程を有するものである。 - 請求項10記載の方法において、前記情報は、前記第2の通信チャネルに関連するものである。
- 請求項10記載の方法において、前記関連付ける工程では、前記情報を使用して利用者プロファイルにアクセスするものである。
- 請求項1記載の方法において、この方法は、さらに、
前記第2の通信チャネルが確立された後、前記第1の通信チャネルおよび前記第2の通信チャネルを接続解除する工程を有するものである。 - 請求項14記載の方法において、前記第1の通信チャネルおよび前記第2の通信チャネルは、前記利用者および前記相手間の通信を可能にするものである。
- 請求項15記載の方法において、前記第1の通信チャネルおよび前記第2の通信チャネルは、少なくとも1つのSession Initiation Protocolサービスプロバイダにより促進されるものである。
- 請求項1記載の方法において、この方法は、さらに、
前記第2の通信チャネルが確立された後、アクティブな状態から非アクティブな状態になる工程を有するものである。 - 請求項17記載の方法において、この方法は、さらに、
前記第2の通信チャネルの終了を検出する工程を有するものである。 - 請求項18記載の方法において、この方法は、さらに、
再度前記アクティブな状態になる工程を有するものである。 - 請求項19記載の方法において、前記音声利用者要求は第1の要求であり、この方法は、さらに、第2の音声利用者要求を受信する工程を有するものである。
- 請求項1記載の方法において、この方法は、さらに、
前記第1の通信チャネルの終了を検出する工程と、非アクティブな状態になる工程を有するものである。 - 請求項1記載の方法において、前記音声利用者要求は、前記第2の通信チャネルが終了された後、アクティブであり続けるための命令を含むものである。
- 通話を接続する方法を実行するための、コンピュータで実行可能な命令を有する、コンピュータで読み込み可能な媒体であって、当該方法は、
利用者との第1の通信チャネルを確立する工程と、
音声利用者要求を受信し第2の通信チャネルを確立して相手との通信を可能にするものである、受信する工程と、
前記音声利用者要求を認識する工程と、
前記第2の通信チャネルを確立する工程と
を有するものである、コンピュータで読み込み可能な媒体。 - 音声要求を認識する方法であって、
コンピュータと利用者通信装置との間で通信チャネルを確立する工程と、
音声要求を有する利用者入力を検出し、当該音声要求を格納する工程と、
利用者プロファイルにアクセスし、当該利用者プロファイルに基づいて第1の文法を選択する工程と、
アクティブな前記第1の文法を使って前記音声要求の認識を試行する工程と、
前記音声要求が認識されない場合、前記第1の文法を無効化し、第2の文法を有効化し、前記第2の文法を使って前記音声要求の認識を試行する工程と
を有する方法。 - 請求項24記載の方法において、前記利用者プロファイルは、利用者の特徴を使って選択されるものである。
- 請求項24記載の方法において、この方法は、さらに、
前記利用者プロファイルを更新する工程を有するものである。 - 請求項26記載の方法において、前記更新する工程は、前記音声要求に基づくものである。
- 請求項26記載の方法において、前記更新する工程は、入力源からの情報に基づくものである。
- 請求項26記載の方法において、前記更新する工程は、利用可能なデータの変化に基づくものである。
- 請求項25記載の方法において、前記利用者の特徴は利用者識別性である。
- 請求項25記載の方法において、前記利用者の特徴は利用者通信装置タイプである。
- 請求項25記載の方法において、前記利用者の特徴は通信チャネルタイプである。
- 請求項24記載の方法において、前記確立する工程は、前記利用者プロファイルにアクセスして通信チャネルタイプを決定する工程と、前記利用者プロファイルに基づいてパラメータを設定する工程とを有するものである。
- 請求項33記載の方法において、前記パラメータは入出力設定である。
- 請求項33記載の方法において、前記入出力設定は、前記利用者通信装置との通信を可能にするものである。
- 請求項33記載の方法において、前記通信チャネルタイプは、前記利用者通信装置に基づいて決定されるものである。
- 請求項33記載の方法において、前記パラメータは、前記音声要求の認識を強化するため設定されるものである。
- 請求項24記載の方法において、前記第1の文法および第2の文法は、考えうる複数の音声要求を有する語彙全体のサブセットである。
- 請求項24記載の方法において、音声要求を認識する工程は、前記音声要求を、前記第1の文法または第2の文法に含まれた考えうる音声要求に合致させる工程を有するものである。
- 請求項24記載の方法において、前記利用者プロファイルに基づき第1の文法を選択する工程は、前記利用者プロファイルにアクセスして音声入力の認識が成されている文脈を決定する工程と、当該文脈に基づいて前記利用者プロファイルを選択する工程とをさらに有するものである。
- 請求項40記載の方法において、前記文脈は、利用者が希望するタスクに関するものである。
- 請求項40記載の方法において、前記文脈は、利用者識別性に関するものである。
- 請求項40記載の方法において、前記文脈は、利用者通信装置タイプに関するものである。
- 請求項24記載の方法において、前記音声要求は、.mp3ファイルまたは.wavファイルのうちの1つとして格納されるものである。
- 請求項24記載の方法において、この方法は、さらに、
前記音声要求が認識された場合、当該音声要求を処理する工程を有するものである。 - 請求項45記載の方法において、この方法は、さらに、
格納された前記音声要求を削除する工程を有するものである。 - 請求項45記載の方法において、前記音声要求を処理する工程は、当該音声要求に関するタスクを実行する工程を有するものである。
- 請求項45記載の方法において、この方法は、さらに、
前記利用者と通信する工程を有するものである。 - 請求項48記載の方法において、前記通信する工程は、音声出力によるものである。
- 請求項24記載の方法において、この方法は、さらに、
前記音声要求が前記第2の文法により認識されなかった場合、前記第2の文法を無効化する工程を有するものである。 - 請求項50記載の方法において、この方法は、さらに、
第3の文法が利用可能かどうかを決定する工程と、第3の文法が利用可能でない場合、音声エラーメッセージを利用者に送信する工程を有するものである。 - 請求項24記載の方法において、前記通信チャネルは、Voice over Internet Protocol接続である。
- 音声コマンドを認識するための、コンピュータで実行可能な命令を有する、コンピュータで読み込み可能な媒体であって、当該方法は、
コンピュータと利用者通信装置との間で通信チャネルを確立する工程と、
音声要求を有する利用者入力を検出し、当該音声要求を格納する工程と、
利用者プロファイルにアクセスし、当該利用者プロファイルに基づき第1の文法を選択する工程と、
アクティブな前記第1の文法を使って前記音声要求の認識を試行する工程と、
前記音声要求が認識されない場合、前記第1の文法を無効化して第2の文法を有効化し、さらに前記第2の文法を使って前記音声要求の認識を試行する工程と
を有するものである、コンピュータで読み込み可能な媒体。 - コンピュータへのアクセスを提供するシステムであって、
通信チャネルに関連付けられたタイプを決定し、前記チャネルタイプに従って少なくとも1つの入出力パラメータを設定し、前記コンピュータとリモート通信装置との間で前記通信チャネルを確立するための通信コンポーネントと、
音声入力を受信し、当該入力をデジタル形態に変換するための音声認識コンポーネントと、
テキストのデータを音声形態に変換する、text−to−voice(テキストから音声合成)コンポーネントと、
前記データが格納されたファイルとインタラクトするためのファイルインターフェースコンポーネントと、
インターフェースプログラムであって、前記通信チャネルにより前記入力を受信し、前記音認識コンポーネントによって当該入力を変換して望ましい機能を決定し、コンポーネントによって当該望ましい機能を実行させるようなっているインターフェースプログラムと
を有するシステム。 - 請求項54記載のシステムにおいて、前記インターフェースプログラムは、さらに、前記望ましい機能に従って前記ファイルインターフェースが前記ファイルとインタラクトし、前記text−to−voiceコンポーネントが前記望ましい機能の結果を音声形態で前記リモート通信装置へ提供するようなっているものである。
- 請求項54記載のシステムにおいて、前記通信チャネルは、携帯電話、コードレス電話、有線電話、スピーカーフォン、テレフォニーソフトウェアを有する第2のコンピュータ、Voice over Internet Protocol電話、ソフトフォン、またはインスタントメッセージングソフトウェアを有する第2のコンピュータのうちの1つにより、前記リモート通信装置において確立されるものである。
- 請求項54記載のシステムにおいて、前記通信チャネルはPSTNネットワーク、セルラーネットワーク、Voice over Internet Protocolネットワーク、Session Initiation Protocolサービスプロバイダ、またはラジオネットワークのうちの1つにより確立されるものである。
- 請求項57記載のシステムにおいて、前記通信チャネルは複数のネットワークにより確立されるものである。
- 請求項54記載のシステムにおいて、前記音認識コンポーネントは、音声認識モジュールである。
- 請求項54記載のシステムにおいて、前記音認識コンポーネントは、DTMFデコーダである。
- 請求項54記載のシステムにおいて、前記音認識コンポーネントと、前記text−to−voiceコンポーネントと、前記ファイルインターフェースコンポーネントは、アプリケーションプログラムインターフェースである。
- 請求項54記載のシステムにおいて、前記音認識コンポーネントと、前記text−to−voiceコンポーネントと、前記ファイルインターフェースコンポーネントは、ソフトウェアアプリケーションである。
- 請求項54記載のシステムにおいて、前記ファイルは、スプレッドシート、電子メールサーバー、電子メールクライアント、データベース、モニタ、センサ、ワードプロセッシングファイル、またはエンタープライズアプリケーションデータのうちの1つである。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US54148704P | 2004-02-03 | 2004-02-03 | |
US11/048,948 US20050180464A1 (en) | 2002-10-01 | 2005-02-02 | Audio communication with a computer |
PCT/US2005/003421 WO2005074634A2 (en) | 2004-02-03 | 2005-02-03 | Audio communication with a computer |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007529916A true JP2007529916A (ja) | 2007-10-25 |
Family
ID=34840553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006552241A Pending JP2007529916A (ja) | 2004-02-03 | 2005-02-03 | コンピュータでの音声通信 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20050180464A1 (ja) |
EP (1) | EP1763943A4 (ja) |
JP (1) | JP2007529916A (ja) |
KR (1) | KR20070006759A (ja) |
CA (1) | CA2559409A1 (ja) |
WO (1) | WO2005074634A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007334301A (ja) * | 2006-06-16 | 2007-12-27 | Storz Endoskop Produktions Gmbh | ユーザプロファイル管理コンポーネントを備えた音声認識システム |
JP2017228030A (ja) * | 2016-06-21 | 2017-12-28 | 日本電気株式会社 | 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070123251A1 (en) * | 1996-10-23 | 2007-05-31 | Riparius Ventures, Llc | Remote internet telephony device |
US7076567B1 (en) * | 2002-04-25 | 2006-07-11 | Oracle International Corporation | Simplified application object data synchronization for optimized data storage |
US7606881B2 (en) * | 2002-04-25 | 2009-10-20 | Oracle International Corporation | System and method for synchronization of version annotated objects |
US7957401B2 (en) | 2002-07-05 | 2011-06-07 | Geos Communications, Inc. | System and method for using multiple communication protocols in memory limited processors |
US7787489B2 (en) * | 2002-10-07 | 2010-08-31 | Oracle International Corporation | Mobile data distribution |
US7606217B2 (en) | 2003-07-02 | 2009-10-20 | I2 Telecom International, Inc. | System and method for routing telephone calls over a voice and data network |
US7552389B2 (en) * | 2003-08-20 | 2009-06-23 | Polycom, Inc. | Computer program and methods for automatically initializing an audio controller |
US7676599B2 (en) | 2004-01-28 | 2010-03-09 | I2 Telecom Ip Holdings, Inc. | System and method of binding a client to a server |
WO2005086964A2 (en) | 2004-03-11 | 2005-09-22 | I2Telecom International, Inc. | DYNAMICALLY ADAPTING THE TRANSMISSION RATE OF PACKETS IN REAL-TIME VoIP COMMUNICATIONS TO THE AVAILABLE BANDWIDTH |
US8804758B2 (en) | 2004-03-11 | 2014-08-12 | Hipcricket, Inc. | System and method of media over an internet protocol communication |
US7782878B2 (en) * | 2004-08-16 | 2010-08-24 | I2Telecom Ip Holdings, Inc. | System and method for sharing an IP address |
US7336654B2 (en) * | 2004-10-20 | 2008-02-26 | I2Telecom International, Inc. | Portable VoIP service access module |
US20080004880A1 (en) * | 2006-06-15 | 2008-01-03 | Microsoft Corporation | Personalized speech services across a network |
US20070294349A1 (en) * | 2006-06-15 | 2007-12-20 | Microsoft Corporation | Performing tasks based on status information |
US20080010124A1 (en) * | 2006-06-27 | 2008-01-10 | Microsoft Corporation | Managing commitments of time across a network |
US7958207B2 (en) * | 2006-07-10 | 2011-06-07 | Koninklijke Philips Electronics N.V. | Method of installing software for enabling a connection of a phone to an interconnected network |
US9794348B2 (en) | 2007-06-04 | 2017-10-17 | Todd R. Smith | Using voice commands from a mobile device to remotely access and control a computer |
US20090018826A1 (en) * | 2007-07-13 | 2009-01-15 | Berlin Andrew A | Methods, Systems and Devices for Speech Transduction |
US8504048B2 (en) | 2007-12-17 | 2013-08-06 | Geos Communications IP Holdings, Inc., a wholly owned subsidiary of Augme Technologies, Inc. | Systems and methods of making a call |
US9025740B2 (en) * | 2010-05-06 | 2015-05-05 | Bellmar Communications Llc | Method and system for improved communication security |
US20120079045A1 (en) * | 2010-09-24 | 2012-03-29 | Robert Plotkin | Profile-Based Message Control |
US8554856B2 (en) | 2010-11-08 | 2013-10-08 | Yagi Corp. | Enforced unitasking in multitasking systems |
US20140152591A1 (en) * | 2012-11-30 | 2014-06-05 | Kabushiki Kaisha Toshiba | Electronic device and computer program product |
US20140269490A1 (en) * | 2013-03-12 | 2014-09-18 | Vonage Network, Llc | Systems and methods of configuring a terminal adapter for use with an ip telephony system |
US20150031416A1 (en) | 2013-07-23 | 2015-01-29 | Motorola Mobility Llc | Method and Device For Command Phrase Validation |
US9721570B1 (en) * | 2013-12-17 | 2017-08-01 | Amazon Technologies, Inc. | Outcome-oriented dialogs on a speech recognition platform |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11355455A (ja) * | 1998-06-10 | 1999-12-24 | Nippon Denki Computer System Kk | 管理端末機および被管理端末機の接続制御方式 |
US6292480B1 (en) * | 1997-06-09 | 2001-09-18 | Nortel Networks Limited | Electronic communications manager |
JP2002524776A (ja) * | 1998-09-09 | 2002-08-06 | ワン ボイス テクノロジーズ インコーポレーテッド | 音声認識および自然言語処理を使用した対話型ユーザ・インタフェース |
JP2003209867A (ja) * | 2001-12-28 | 2003-07-25 | Motorola Inc | 移動体通信装置のデータ送信方法、移動体通信装置のデータ受信方法、移動体通信装置及び音声ポータルシステム |
JP2003281145A (ja) * | 2002-03-22 | 2003-10-03 | Toshiba Corp | 情報検索表示システムおよび携帯端末装置 |
JP2003304332A (ja) * | 2002-04-12 | 2003-10-24 | Ntt Communications Kk | 音声発呼装置 |
US20030223403A1 (en) * | 2002-05-29 | 2003-12-04 | Richard Higgins | Method and apparatus for Voice-over IP services triggered by off-hook event |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5661787A (en) * | 1994-10-27 | 1997-08-26 | Pocock; Michael H. | System for on-demand remote access to a self-generating audio recording, storage, indexing and transaction system |
US5752232A (en) * | 1994-11-14 | 1998-05-12 | Lucent Technologies Inc. | Voice activated device and method for providing access to remotely retrieved data |
US6069890A (en) * | 1996-06-26 | 2000-05-30 | Bell Atlantic Network Services, Inc. | Internet telephone service |
KR100526216B1 (ko) * | 1996-11-28 | 2005-11-04 | 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니 | 대화형 장치 |
US6636733B1 (en) * | 1997-09-19 | 2003-10-21 | Thompson Trust | Wireless messaging method |
US6366651B1 (en) * | 1998-01-21 | 2002-04-02 | Avaya Technology Corp. | Communication device having capability to convert between voice and text message |
US5950167A (en) * | 1998-01-26 | 1999-09-07 | Lucent Technologies Inc. | Screen-less remote voice or tone-controlled computer program operations via telephone set |
US6519326B1 (en) * | 1998-05-06 | 2003-02-11 | At&T Corp. | Telephone voice-ringing using a transmitted voice announcement |
EP0975123A1 (en) * | 1998-07-15 | 2000-01-26 | Telefonaktiebolaget L M Ericsson (Publ) | Communication device and method for reliable and low-delay packet transmission |
US6529585B2 (en) * | 1998-08-20 | 2003-03-04 | At&T Corp. | Voice label processing apparatus and method |
US6792082B1 (en) * | 1998-09-11 | 2004-09-14 | Comverse Ltd. | Voice mail system with personal assistant provisioning |
US6577861B2 (en) * | 1998-12-14 | 2003-06-10 | Fujitsu Limited | Electronic shopping system utilizing a program downloadable wireless telephone |
SE525728C2 (sv) * | 1999-01-27 | 2005-04-12 | Ericsson Telefon Ab L M | Portabel telekommunikationsanordning för flera ljudtillbehör |
US6493324B1 (en) * | 1999-03-29 | 2002-12-10 | Worldcom, Inc. | Multimedia interface for IP telephony |
US6415257B1 (en) * | 1999-08-26 | 2002-07-02 | Matsushita Electric Industrial Co., Ltd. | System for identifying and adapting a TV-user profile by means of speech technology |
US6650871B1 (en) * | 1999-10-14 | 2003-11-18 | Agere Systems Inc. | Cordless RF range extension for wireless piconets |
US6823370B1 (en) * | 1999-10-18 | 2004-11-23 | Nortel Networks Limited | System and method for retrieving select web content |
US6546262B1 (en) * | 1999-11-12 | 2003-04-08 | Altec Lansing Technologies, Inc. | Cellular telephone accessory device for a personal computer system |
AU2279801A (en) * | 1999-12-20 | 2001-07-03 | Audiopoint, Inc. | System for on-demand delivery of user-specific audio content |
US7298830B2 (en) * | 2000-04-05 | 2007-11-20 | Nms Communications Corporation | Telephone and wireless access to computer network-based audio |
GB0008383D0 (en) * | 2000-04-05 | 2000-05-24 | Sontora Limited | System and method for providing an internet audio stream to a wap mobile telephone or the like over a computer nrework |
US20010040960A1 (en) * | 2000-05-01 | 2001-11-15 | Eitan Hamami | Method, system and device for using a regular telephone as a computer audio input/output device |
JP2002051164A (ja) * | 2000-05-24 | 2002-02-15 | Victor Co Of Japan Ltd | 音声コンテンツ試聴システム及びシステムサーバ並びに携帯電話機 |
US6570969B1 (en) * | 2000-07-11 | 2003-05-27 | Motorola, Inc. | System and method for creating a call usage record |
GB2365262B (en) * | 2000-07-21 | 2004-09-15 | Ericsson Telefon Ab L M | Communication systems |
US7095733B1 (en) * | 2000-09-11 | 2006-08-22 | Yahoo! Inc. | Voice integrated VOIP system |
US6556563B1 (en) * | 2000-09-11 | 2003-04-29 | Yahoo! Inc. | Intelligent voice bridging |
US6731724B2 (en) * | 2001-01-22 | 2004-05-04 | Pumatech, Inc. | Voice-enabled user interface for voicemail systems |
US6621502B1 (en) * | 2001-05-02 | 2003-09-16 | Awa, Inc. | Method and system for decoupled audio and video presentation |
US6594483B2 (en) * | 2001-05-15 | 2003-07-15 | Nokia Corporation | System and method for location based web services |
US7369537B1 (en) * | 2001-07-18 | 2008-05-06 | Global Ip Solutions, Inc. | Adaptive Voice-over-Internet-Protocol (VoIP) testing and selecting transport including 3-way proxy, client-to-client, UDP, TCP, SSL, and recipient-connect methods |
US7006968B2 (en) * | 2001-10-11 | 2006-02-28 | Hewlett-Packard Development Company L.P. | Document creation through embedded speech recognition |
US7346044B1 (en) * | 2001-10-12 | 2008-03-18 | Mediaring Ltd. | Network address translation for voice over internet protocol router |
US20030115203A1 (en) * | 2001-12-19 | 2003-06-19 | Wendell Brown | Subscriber data page for augmenting a subscriber connection with another party |
US20030187657A1 (en) * | 2002-03-26 | 2003-10-02 | Erhart George W. | Voice control of streaming audio |
US7106725B2 (en) * | 2002-05-03 | 2006-09-12 | Microsoft Corporation | Integration of voice and data channels |
US7190950B1 (en) * | 2002-06-27 | 2007-03-13 | Bellsouth Intellectual Property Corporation | Storage of voicemail messages at an alternate storage location |
US6876727B2 (en) * | 2002-07-24 | 2005-04-05 | Sbc Properties, Lp | Voice over IP method for developing interactive voice response system |
CA2500574A1 (en) * | 2002-10-01 | 2004-04-15 | Christopher Frank Mcconnell | A system and method for wireless audio communication with a computer |
US7391763B2 (en) * | 2002-10-23 | 2008-06-24 | International Business Machines Corporation | Providing telephony services using proxies |
-
2005
- 2005-02-02 US US11/048,948 patent/US20050180464A1/en not_active Abandoned
- 2005-02-03 KR KR1020067017633A patent/KR20070006759A/ko not_active Application Discontinuation
- 2005-02-03 WO PCT/US2005/003421 patent/WO2005074634A2/en active Search and Examination
- 2005-02-03 JP JP2006552241A patent/JP2007529916A/ja active Pending
- 2005-02-03 CA CA002559409A patent/CA2559409A1/en not_active Abandoned
- 2005-02-03 EP EP05712753A patent/EP1763943A4/en not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6292480B1 (en) * | 1997-06-09 | 2001-09-18 | Nortel Networks Limited | Electronic communications manager |
JPH11355455A (ja) * | 1998-06-10 | 1999-12-24 | Nippon Denki Computer System Kk | 管理端末機および被管理端末機の接続制御方式 |
JP2002524776A (ja) * | 1998-09-09 | 2002-08-06 | ワン ボイス テクノロジーズ インコーポレーテッド | 音声認識および自然言語処理を使用した対話型ユーザ・インタフェース |
JP2003209867A (ja) * | 2001-12-28 | 2003-07-25 | Motorola Inc | 移動体通信装置のデータ送信方法、移動体通信装置のデータ受信方法、移動体通信装置及び音声ポータルシステム |
JP2003281145A (ja) * | 2002-03-22 | 2003-10-03 | Toshiba Corp | 情報検索表示システムおよび携帯端末装置 |
JP2003304332A (ja) * | 2002-04-12 | 2003-10-24 | Ntt Communications Kk | 音声発呼装置 |
US20030223403A1 (en) * | 2002-05-29 | 2003-12-04 | Richard Higgins | Method and apparatus for Voice-over IP services triggered by off-hook event |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007334301A (ja) * | 2006-06-16 | 2007-12-27 | Storz Endoskop Produktions Gmbh | ユーザプロファイル管理コンポーネントを備えた音声認識システム |
JP4699411B2 (ja) * | 2006-06-16 | 2011-06-08 | シュトルツ・エンドスコープ・プロドゥクツィオンス・ゲーエムベーハー | ユーザプロファイル管理コンポーネントを備えた音声認識システム |
JP2017228030A (ja) * | 2016-06-21 | 2017-12-28 | 日本電気株式会社 | 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2005074634A2 (en) | 2005-08-18 |
WO2005074634A3 (en) | 2006-12-07 |
EP1763943A4 (en) | 2009-11-04 |
EP1763943A2 (en) | 2007-03-21 |
CA2559409A1 (en) | 2005-08-18 |
US20050180464A1 (en) | 2005-08-18 |
KR20070006759A (ko) | 2007-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2007529916A (ja) | コンピュータでの音声通信 | |
KR102582517B1 (ko) | 공유된 음성 작동 디바이스상의 호출 핸들링 | |
US20060276230A1 (en) | System and method for wireless audio communication with a computer | |
US9761241B2 (en) | System and method for providing network coordinated conversational services | |
US7400712B2 (en) | Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access | |
JP5425945B2 (ja) | ローカルなインターラプト検出に基づく音声認識技術 | |
US6424945B1 (en) | Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection | |
CA2345660C (en) | System and method for providing network coordinated conversational services | |
US8831185B2 (en) | Personal home voice portal | |
JP2003511884A (ja) | 出力オーディオ信号が生ずる間に入力音声信号を処理する方法および装置 | |
US20050272415A1 (en) | System and method for wireless audio communication with a computer | |
US11979518B2 (en) | Handling calls on a shared speech-enabled device | |
WO2008100420A1 (en) | Providing network-based access to personalized user information | |
JP3925326B2 (ja) | 端末通信システム、連携サーバ、音声対話サーバ、音声対話処理方法および音声対話処理プログラム | |
JP2003008745A (ja) | 音声補完方法及び音声補完装置ならびに電話端末装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080131 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100713 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101207 |