JP3703082B2 - 会話型バーチャル・マシンによる会話型コンピューティング - Google Patents
会話型バーチャル・マシンによる会話型コンピューティング Download PDFInfo
- Publication number
- JP3703082B2 JP3703082B2 JP2000575021A JP2000575021A JP3703082B2 JP 3703082 B2 JP3703082 B2 JP 3703082B2 JP 2000575021 A JP2000575021 A JP 2000575021A JP 2000575021 A JP2000575021 A JP 2000575021A JP 3703082 B2 JP3703082 B2 JP 3703082B2
- Authority
- JP
- Japan
- Prior art keywords
- conversational
- user
- context
- cvm
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000002452 interceptive effect Effects 0.000 title claims description 69
- 238000000034 method Methods 0.000 claims abstract description 91
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 109
- 230000003993 interaction Effects 0.000 claims description 86
- 230000008569 process Effects 0.000 claims description 59
- 239000010410 layer Substances 0.000 description 54
- 238000007726 management method Methods 0.000 description 34
- 238000013515 script Methods 0.000 description 22
- 230000009471 action Effects 0.000 description 21
- 229920001690 polydopamine Polymers 0.000 description 18
- 238000004891 communication Methods 0.000 description 17
- 230000008859 change Effects 0.000 description 13
- 239000003795 chemical substances by application Substances 0.000 description 12
- 230000007246 mechanism Effects 0.000 description 11
- 238000003860 storage Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 9
- 238000011161 development Methods 0.000 description 9
- 238000012546 transfer Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 7
- 230000006855 networking Effects 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000012937 correction Methods 0.000 description 5
- 230000001934 delay Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000002269 spontaneous effect Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006837 decompression Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000012913 prioritisation Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 208000025967 Dissociative Identity disease Diseases 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 239000012792 core layer Substances 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 241000282668 Cebus Species 0.000 description 1
- IXUNZKARBRITGN-UHFFFAOYSA-N Chloromaloside A Natural products O1C2(OCC(C)CC2)C(C)C(C2(C(=O)CC3C4(C)CC5)C)C1CC2C3CCC4CC5OC(C(C1O)O)OC(CO)C1OC(C1OC2C(C(O)C(O)C(CO)O2)O)OC(CO)C(O)C1OC1OCC(O)C(O)C1O IXUNZKARBRITGN-UHFFFAOYSA-N 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000007420 reactivation Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
-
- G06Q50/40—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72445—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/60—Medium conversion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/35—Aspects of automatic or semi-automatic exchanges related to information services provided via a voice call
- H04M2203/355—Interactive dialogue design tools, features or methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42204—Arrangements at the exchange for service or number selection by voice
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/44—Additional connecting arrangements for providing access to frequently-wanted subscribers, e.g. abbreviated dialling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4931—Directory assistance systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
- Input From Keyboards Or The Like (AREA)
- Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
- Machine Translation (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Navigation (AREA)
- Geophysics And Detection Of Objects (AREA)
- Saccharide Compounds (AREA)
Description
本出願は、1998年10月2日出願の米国仮特許出願第60/102957号および1999年1月27日出願の米国仮特許出願第60/117595号に基づく。
【0002】
【発明の属する技術分野】
本特許出願は、一般には会話型コンピューティングのシステムおよび方法に関する。より詳細には、本発明は、スタンドアロンOS(オペレーティング・システム)として、または従来のOSまたはRTOS(リアルタイム・オペレーティング・システム)上で稼動するプラットフォームまたはカーネルとして実施可能で、従来のプラットフォームおよびアプリケーションとの下位互換性を備えることも可能なCVM(会話型仮想計算機)を対象とする。本明細書に記載のCVMは、会話型API(アプリケーション・プログラム・インターフェース)、会話型プロトコル、および会話型ファウンデーション・クラスをアプリケーション開発者に開示し、対話およびコンテキスト、会話型エンジンおよびリソース、および異なる会話機能を有するプラットフォームおよび装置間の会話型プロトコル/通信の管理による会話型コンピューティングを実現するカーネル層を備え、汎用CUI(会話型ユーザ・インターフェース)を提供する。
【0003】
【従来の技術】
現在、最先端のアーキテクチャ、プラットフォーム、およびOS(オペレーティング・システム)は基本的にGUI(グラフィカル・ユーザ・インターフェース)ベースであるかまたはGUIカーネルを中核として構築されているため、PC(パーソナル・コンピュータ)およびワークステーションの分野では、GUIベースのOSが主流になっている。実際、UIが主として音声とDTMF(dual tone multifrequency)I/O(入出力)であるIVR(対話式音声応答)などの電話アプリケーションを除き、ほとんどの一般的な情報アクセスおよび管理アプリケーションは、GUIパラダイムを中心に構築されている。さらに、他の非GUIベースのUIは、メインフレームやきわめて専門的なシステムなどのより古いアーキテクチャと共に使用されている。一般に、GUIパラダイムでは、ユーザと機械との間のUIはグラフィックであり(たとえばマイクロソフトWindowsやUnix-X Windows)、各プロセスを別個のウィンドウとして表示することによってマルチタスク機能を実現し、それによって、各ウィンドウへの入力がキーボード、マウス、またはペンなどの他のポインティング・デバイスを介して行うことができる(ただし、プロセスによっては、ユーザと直接「対話/インターフェース」していないときには隠すこともできる)。
【0004】
GUIは、時分割式メインフレームから個別計算機、およびサーバやバックエンド・サービスおよびアーキテクチャなどの他の階層へのパラダイム・シフトを喚起し、促した。GUIベースのOSは、情報へのアクセスと情報の管理のために従来のPCクライアント/サーバ・モデルで広く実施されてきた。アクセスされる情報は、装置上でローカルに、インターネットや専用イントラネットを介してリモートに、複数のパーソナル・コンピュータ、装置、およびサーバ上に置かれる場合がある。このような情報には、コンテンツ素材、トランザクション管理、および生産性向上ツールが含まれる。しかし、情報にアクセスし、管理するのに、従来のPCクライアント/サーバ・モデルから離れて、相互に接続され、ユーザがどこでも、いつでも、どの装置を介してでも情報にアクセスし、管理することができる、数十億のパーベイシブ・コンピューティング・クライアント(PvCクライアント)に向かう新しい傾向がある。しかも、この情報へのアクセスは、使用する装置やアプリケーションとは関係なく、情報とのインターフェースが同じである。この傾向は、装置の小型化やその機能と複雑さの飛躍的増大と同調している。それと同時に、電話が依然として情報にアクセスするための最も普及した通信装置であるため、電話を介した情報へのアクセスと管理の普及への同様の期待もさらに強くなっている。
【0005】
しかし残念ながら、このような情報へのアクセスは、使用可能な装置やインターフェースによって制約されており、基礎となる論理は装置によって全く異なる。実際、この組込み分野における多様性と制約は、他の階層、すなわちデスクトップ、ワークステーション、バックエンド・サーバとは比較にならず、したがって、組込み分野はUIに重要な課題を提起している。さらに、PvCクライアントの複雑さの増大は、ますます制約が増えている入出力インターフェースと重なって、GUIの有効性を大幅に低下させる。実際、PvCクライアントは、ユーザが手や目を使わない対話を望むモバイル環境ではより頻繁に使用されている。いくつかの制約された機能を備えた組込み装置であっても、GUIは、超小型の表示装置には負担がかかりすぎ、乏しい電力とCPUリソースを消費する。さらに、このようなGUIは、制約のあるインターフェースと取り組むユーザをひるませ、使う気を失わせる。さらに、任意の装置を経由して任意の場所からいつでも情報にアクセスし情報を管理する遍在インターフェースについて最近明確化されたニーズはGUIの限界を示している。
【0006】
最近、コンピュータが使われるところでは至る所で、ボイス・コマンド・アンド・コントロール(ボイスC&C)UIが使われ始めている。実際、シュリンクラップ小売製品としての音声認識の最近の成功や、電話IVR(対話型音声応答)インターフェースの一部としての導入の進行により、音声認識は今後重要なユーザ・インターフェース要素となることが明らかになっている。たとえば、電話会社、コール・センター、やIVRは、音声インターフェースを実現して特定の作業を自動化し、オペレータの要件や運営コストを減らし、通話処理の迅速化を図っている。しかし現段階では、IVRアプリケーション開発者は、それぞれ独自のプロピライエタリ音声エンジンおよびAPI(アプリケーション・プログラム・インターフェース)を提供している。対話の開発は複雑なスクリプト記述と熟練したプログラマを必要とし、これらのプロピライエタリ・アプリケーションは、一般に、ベンダからベンダへと移植されない(すなわち、各アプリケーションは特定業務論理向けに丹念に作られ、設計される)。
【0007】
さらに、GUIベースのOS用の音声インターフェースは、口述筆記やコマンド・アンド・コントロール用の市販の連続音声認識アプリケーションを使用して実施されてきた。しかし、このような音声アプリケーションは、キーボードやマウスの代替となり、ユーザが対象を変えて新しいタスクを開始できるようにし、対象としているタスクに音声コマンドを与えることができるようにするという意味で、基本的にGUIベースのOSの付加機能である。実際、このような音声インターフェースを提供している現在のベンダおよび技術開発業者はすべて、GUIメニューに焦点を合わせ、選択するためのキーボードまたはポインティング・デバイスを直接置き換えるために、音声またはNLU(自然言語理解)をコマンド行入力として組み込むことに依存している。このようなアプリケーションでは、音声は、ヒューマン/マシン対話の根本的変化の方向ではなく、新しい追加のI/Oモダリティとみなされている。
【0008】
会話システムとしての音声、NLU、またはその他の入出力インターフェースの実現は、オペレーティング・システムへの表面的な組込みに限られるべきではない。また、組込み装置間での遍在的ルック・アンド・フィールに限られるべきでもない。基礎となるオペレーティング・システムとコンピューティング機能の設計を根本的に変えるべきである。さらに、入出力媒体での柔軟性により、オペレーティング・システムの最も根本的変革には音声入出力を必要とせず、より一般的なキーボード、マウス、またはペン入力およびディスプレイ出力でも実現可能である。
【0009】
【発明が解決しようとする課題】
したがって、既存のアプリケーションへの音声入出力または会話機能の付加、会話型アプリケーションの構築、従来のオペレーティング・システムへの「音声」の表面的な組込みをはるかに超える、汎用会話型ユーザ・インターフェースを介した複数のプラットフォーム、装置、およびアプリケーションにわたる会話型コンピューティングを提供するシステムがきわめて望ましい。
【0010】
【課題を解決するための手段】
本発明は、汎用会話型ユーザ・インターフェース(CUI)を介した会話型コンピューティングを提供する会話型コンピューティング・パラダイムに基づくシステムおよび方法を対象とする。この会話型コンピュータ・パラダイムは、システムがユーザ対話して、照会とその実行結果の遂行、一義化、または修正を行うことを規定する。これらは、コンテキスト、アプリケーション、履歴、およびユーザの選好とバイオメトリックに基づいて、照会、コンテキスト、および操作情報を抽出し、扱う。これらの中核原理は、音声使用可能入出力インターフェースを必要とせず、基礎となるコンピューティング・コアに深く浸透する。実際、本発明による会話型コンピューティング・パラダイムは、音声のない場合にも適用され、対話がたとえばキーボードを介して行われる場合であっても、対話および会話を中心に構築されたコンピューティングの本質を表す。VT100やPalm Pilot画面などのダミー端末ディスプレイを介する場合でも、ユーザが、たとえば並列して稼動している複数のWindowsアプリケーションをシームレスに制御することができるようにするのが、会話型コンピューティング・パラダイムである。
【0011】
本発明の一態様では、会話型パラダイムに基づく会話型コンピューティングを提供するシステムは、スタンドアロンOS(オペレーティング・システム)として、または、従来のOSまたはRTOS(リアルタイム・オペレーティング・システム)上で稼動するプラットフォームまたはカーネルとして実施され、従来のプラットフォームおよびアプリケーションとの下位互換性を備えることも可能なCVM(会話型仮想計算機)である。このCVMは、会話型API(アプリケーション・プログラム・インターフェース)、会話型プロトコル、および会話型ファウンデーション・クラスをアプリケーション開発者に開示し、対話およびコンテキスト、会話型エンジンおよびリソース、および異なる会話機能を有するプラットフォームおよび装置間での会話型プロトコル/通信を管理することにより、会話型コンピューティングを実施するカーネルを提供して、汎用CUI(会話型ユーザ・インターフェース)を提供する。このCVMカーネルは、登録された会話機能および要件に基づいてアプリケーションおよび装置間の対話を制御する中核層である。また、入出力モダリティとして音声を付加して会話型システム動作を実現するにとどまらない統一会話型ユーザ・インターフェースも提供する。CVMは、ディスコース、コンテキスト、混在主導権(mixed initiative requests)、抽象化の能力による会話に類似した方式でタスクを管理することができる。
【0012】
本発明の一態様では、CVMは、音声認識、話者認識、テキスト−音声、自然言語理解、および自然対話生成エンジンを含む会話型サブシステム(ローカルと分散型のいずれともすることができる)を使用して、ユーザと機械との対話の理解と生成を行う。これらのサブシステムには、CVMを介してアクセスする。これらのエンジンは、会話型アプリケーションAPIを介してアプリケーションに対して隠蔽される。CVMは、このようなエンジンを会話型エンジンAPIを介して制御することができる。さらに、会話型APIは会話型エンジンAPIを含むことができる。典型的には、CVMはこれらのエンジンAPIをアプリケーション開発者に直接開示する機能を含む。これは、会話アプリケーションAPIに含まれた会話エンジンAPIを有することによって、または会話アプリケーションAPIのレベルでの類似の呼出しおよび機能をエミュレートすることによって行うことができる。
【0013】
他の態様では、CVMカーネル層(またはCVMコントローラ)が、対話を管理し、アクティブな対話、コンテキスト、およびアプリケーションを選択する、メタ情報マネージャと、リソース・マネージャと、コンテキストスタックと、グローバル履歴と、対話マネージャと、タスク・ディスパッチャとを含む。コンテキストスタックは、アクティブ化されたディスコースを使用する各アクティブ・プロセスのコンテキスト(完全照会引数および状態/モード、すなわちすでに導入済みの照会引数、任意の入出力イベント、およびアプリケーションによって生成されたイベント)を、入力理解に必要なデータ(たとえば、音声入力のためのアクティブFSG、トピック、語彙、または可能な照会)と共に蓄積する。CVMカーネルは、ローカルおよびネットワーク化された従来型および会話型のリソース上で生成される異なるタスクおよびプロセス間の調整を行う。CVMカーネル層は、これらのリソースを追跡し、入力を適切な会話サブシステムに送り、装置、状態、アプリケーション間の調停を行う。CVMカーネル層は、アクティブ会話および会話履歴に従った出力生成および優先順位付け、遅延戻り、ネットワーク・リソース間の委任、およびタスク委任および記憶の調整も行う。
【0014】
本発明の他の態様では、CVMシステムは、オブジェクト、データ・ストリーム・ハンドル、ネットワーク、周辺装置、ハードウェア、ローカルおよびネットワーク化ファイル・システムなどの要素に関連付けられたメタ情報を介して高水準の抽象化および抽象カテゴリも備える。本発明の一態様による抽象メタ情報システムは、リソースの所有者/開発者またはリソースの過去の使用者/アプリケーションによって定義された複数のカテゴリを含む。このような要素には、抽象ショートカットおよび混在主導権要求を介してアクセスすることができる。接続時、またはオブジェクトまたはそのコンテキストに関連付けられた抽象カテゴリのリストを更新し、各リソースがその機能を登録する抽象化のテーブルのように機能する(DNSサーバまたはネーム空間マネージャと類似した)メタ情報サーバを介して、新規オブジェクトに関連付けられた新規カテゴリを自動的に作成するための登録プロトコルを備える。ダウンロードまたは転送されたオブジェクトは、同じプロトコルを使用してローカルで登録することができる。抽象メタ情報を使用して、ネットワークの要素のショートカット、自動抽出、または処理を行うことができる。
【0015】
他の態様では、CVMは、(複数のドメインによる)複数のタスク、プロセス、およびディスコースにわたって記憶されたNLU、NLG、コンテキスト、および混在主導権を有する機能を備える。会話型入力インターフェースを備え、それによって、マルチモード入力ストリームのセットがそれぞれASCIIコマンドまたは照会(すなわち、属性値ペアまたはnタプルのリスト)に書き換えられる。各入力エンティティ(コマンド、NLU照会フィールドまたは引数ユニット(分離された文字、語など)にタイム・マークが関連付けられ、複合入力ストリームに付加される。同じタイム・マークを持つ2つ以上のストリームは、各入力ストリームが前に寄与した時点に基づいて、または各アプリケーション/入力ストリームがコンテキスト履歴に基づいて受け取った優先順位に基づいて、優先順位付けされる。複合入力は、可能なFSGおよび辞書と対照され、任意選択により、ユーザにフィードバックされる。各リソースは、それぞれの会話型機能を交換し、入力ストリームは該当する情報のみを交換するように調整される。
【0016】
他の態様では、会話型出力ディスパッチおよびインターネット・プロトコルを備え、それによって複数のタスクの出力が、コンテキスト・スタックおよびタスク・ディスパッチャに基づいて単一チャネル出力に待ち行列化される。多重化されている場合であっても、各入力ストリームに割り当てられたリソースをリダイレクトまたは修正する機構を設ける。各リソースはその会話型機能を交換し、出力ストリームは、出力Voiceフォントの選択と会話プレゼンテーションの形式設定を含めて、該当する情報のみを交換するように調整される。
【0017】
他の態様では、任意の使用可能なリソースを入力ストリームまたは出力ストリームとして使用できるようにするプログラミング/スクリプト言語を使用する。会話サブシステムを使用して、各入力はバイナリまたはASCII入力(属性値ペアまたはnタプルのリスト)に変換され、これは組込みオブジェクトとしてプログラミング言語が直接することができる。呼出し、フラグ、およびタグが自動的に組み込まれ、オブジェクトとプロセスの間で、異なるオブジェクトと正しくインターフェースするのに必要な会話メタ情報を伝達する。実際、任意のモダリティの任意の入力が、関連付けられたコンテキストまたはコンテキスト・スタックに追加されるイベントとして対話マネージャによってCVMカーネル層によって取り込まれる。たとえば、マウスのクリックまたはポインタ/スタイラスの指示アクションの後に、「I would like to open this(これを開きたい)」というコマンドが続くと、それは属性値ペアのセットCommand: Open, Object:Windows、または最後のマウス・クリックで選択されたタスクに一義化される。出力はアプリケーションまたはユーザの必要に応じて特に形式設定することができる。新しいプログラミング・ツールを使用してマルチモーダルディスコース処理を容易に構築することができるようになっている。さらに、このようなプログラミング言語およびスクリプトは、会話使用可能アプリケーションとCVM、およびCML(会話マークアップ言語)の間での会話型APIを含む。
【0018】
他の態様では、それぞれのASCII/バイナリ・コンテンツに基づいて、またはそれぞれのNLU変換照会/属性値nタプルのリストに基づいて比較可能な、豊富な会話型照会を扱うように、会話論理ステートメント・ステータスおよび演算子を拡張する。このようなシステムをテストまたは修正する論理演算子を実現する。
【0019】
他の態様では、複数の会話型装置またはアプリケーションが、会話認識のみするサイレント・パートナを含めて、それぞれの会話型機能を登録することができる会話型ネットワーク接続プロトコルを備える。
【0020】
会話型プロトコルを備えて、複数のCVMおよびサイレント・パートナとの会話を調整し、複数のCVM装置が会話型接続され、調整されると、単一のインターフェースを介して(たとえば単一のマイクロフォンを介して)それらを同時に制御することができるようになるようにする。互いを検出し、それぞれの識別情報を登録した後、各システムまたは装置はそれぞれの会話型機能に関する情報を交換し、データ転送を関連する情報のみに限定する。サイレント会話パートナも同様に振舞い、会話プロキシ・サーバを介して、またはCVMの会話型クライアントとして対話することができる。複数のCVM間の調整には、複数の会話接続された装置/オブジェクトによって提示される調整された一様な会話型インターフェースを提供するために動的マスタ−スレーブ対話およびピア・ツー・ピア対話を行うこともできる。さらに、互いにピア・ツー・ピア式に対話する(全体的なネットワーク・トラフィックおよび対話フロー遅延を減らすように最適化または決定された)複数のローカル・マスタ他のトポロジも考慮することができる。オブジェクトの集合が、集中または分散コンテキスト・スタックを介してユーザに単一の調整されたインターフェースを提示することができる。
【0021】
他の態様では、開発者がCVM用の会話認識アプリケーションの作成、シミュレート、デバッグを行うための開発ツールも設ける。この開発ツールは、API呼出し、プロトコル・呼出し、これらのAPIおよびプロトコルを使用したアプリケーションの直接実施、関連付けられたライブラリ、CVMが提供するサービスおよび動作を利用するアプリケーションのリンク機能を提供する。これらの開発ツールによって、Voiceフォントなど、複数のパーソナリティによる会話型インターフェースの構築が可能になり、それによってユーザは出力データを提供する音声のタイプを選択することができる。PostscriptやAFL(オーディオ・フォーマッティング言語)などの会話プレゼンテーションを構築する会話型形式設定言語を備える。これらのアプリケーションを実施するコードは、宣言型または手続き型とすることができる。これは、インタプリタ型またはコンパイラ型スクリプトおよびプログラムを、ライブラリ・リンク、会話型論理、エンジン呼出し、および会話型ファウンデーション・クラスと共に含む。会話型ファウンデーション・クラスは、モダリティまたはモダリティの組合せとは関係なく、どのような対話でも特徴付ける基本構成要素または会話ジェスチャである。
【0022】
他の態様では、ローカルまたはリモート・ファイル、特に実行可能ファイルの作成者または変更者あるいはその両方に関するメタ情報を使用して会話型セキュリティを設け、無許可のアクセスを防止する。CVMは、制限されたリソースへの照会が行われるたびに、そのリソースに関連付けられたセキュリティ・メタ情報に基づいて、ユーザの自動認証を行う。この認証は、要求に対して直接または、照会の前に取得した有効期限切れになっていない情報に対して行われる。
【0023】
他の態様では、CVMは、会話カスタマイズ機能を備える。リソースへの照会が行われると自動的にユーザが識別される。この認証は、要求に対して直接または、照会の前に取得した有効期限切れになっていない情報に対して行われる。各タスクまたはリソース・アクセスを、要求者の選好に合わせて個別にカスタマイズすることができる。タスクおよびコンテキストは、アクティブ・ユーザの順序に従って優先順位付けされ、ユーザ変更のたびに優先順位付けし直される。ユーザ識別の変更に基づいて、環境変数をオンザフライで修正することができ、環境全体をリセットする必要がない。曖昧性は、ユーザ識別を使用して各コンテキストまたはコンテキスト・スタックのレベルで解決される。
【0024】
他の態様では、ファイルの名前、修正、またはASCIIコンテンツだけでなく、オペレーティング・システム、アプリケーション、またはユーザによって定義された抽象カテゴリや、オペレーティング・システムによってオンラインまたはオフラインで抽出されたトピック、またはオブジェクトにアクセスしたときに会話プロトコルを介して入手したトピックにも基づく、会話型探索機能を備える。さらに、アクティブ照会を完成させたり、または類似の照会/コンテキストを抽出するコンテキスト探索機能を備える。
【0025】
他の態様では、リソース・マネージャ・レベルで、またはメタ情報、抽象化、会話型照会/混在主導権/修正に依存するアプリケーション会話型選択機能を備える。このような会話型選択機能により、基本選択の長いシーケンスが回避され、選択の自然なショートカットおよび修正が実現される。さらに、階層構造を備えたオブジェクトのスケルトンに直ちにアクセスし、提示する機構を備える。
【0026】
他の態様では、ローカルおよびリモート・リソース、エージェントおよびユーザの利用履歴を使用して、要求の完成、手続きのガイド、情報の探索、および新規アプリケーションのアップグレード/インストールを行う、汎用調整会話型インターフェースを介した会話型ヘルプ、マニュアル、およびサポートを備える。さらに、ヘルプ情報にアクセスするNLU照会を使用して、または現行ユーザ(履歴)に関連付けられたメタ情報に基づいて、または欠落したり混在主導権を使用して修正されたりした引数に基づいて、ヘルプ情報にアクセスすることができる。各アプリケーションが備えるダイアログは、ユーザの選好または専門知識のレベルに合わせて調整される。
【0027】
本発明によるCVMが備えるその他の特徴としては、最小の学習曲線で済む単純で直観的で自然なインターフェース、音声の使用により生産性が大幅に向上する魅力的な会話型アプリケーション、新機能または使用法、自然照会を理解することができる高機能な機械/装置、ハンドフリーまたはアイフリー・モードで作業を効率的に行うことができる機能、会話型ユーザ入出力を捕捉し、必要に応じて置き換える魅力的なマルチモード高生産性ユーザ・インターフェース(ディスプレイなしかまたは小型ディスプレイ、キーボード、ペン、ポインティング・デバイスなし、リモート・コンピューティングなど)、アクセスのために使用する装置(PC、PDA、電話など)とは独立し、トランザクション/サービス/アプリケーションとも独立した汎用ユーザ・インターフェース、1つの装置が複数の他の装置を制御することができるようにする複数の会話型装置間で調整されたインターフェース、既存のOS、アプリケーション、装置、およびサービスとの下位互換性がある。
【0028】
【発明の実施の形態】
本発明は、会話型システムおよびマルチ・モーダル・インターフェースのすべての態様を組み込む会話型コンピューティングのためのシステムおよび方法を対照とする。本明細書に記載の会話型コンピューティング・パラダイムによる会話型コンピューティングを実現する重要な構成要素は、CVM(会話型仮想計算機)である。一実施形態では、このCVMは、従来のOSまたはRTOS上で稼動する会話型プラットフォームまたはカーネルである。CVMプラットフォームは、PvC(パーベイシブ・コンピューティング)クライアントおよびサーバによって実施することもできる。一般に、CVMは、会話サブシステム(たとえば音声認識エンジン、テキスト−音声合成など)と会話型または従来型あるいはその両方のアプリケーションとの間での会話型APIおよびプロトコルを実現する。また、CVMは、より限定されたインターフェースを備えた既存のアプリケーションとの下位互換性も備えることができる。後述するように、CVMは、会話型サービスおよび動作だけでなく、CVM層または少なくとも会話認識機能を備えた複数のアプリケーションおよび装置との対話のための会話型プロトコルも提供する。
【0029】
本明細書に記載の様々な要素およびプロトコル/APIは、それぞれが実行する機能またはそれぞれが交換する情報に基づいて定義されることを理解されたい。それらの実際の編成または実施態様は様々とすることができ、たとえば同一または異なるエンティティによって実施され、より大きな構成要素の構成要素として、または独立してインスタンス化されたオブジェクト、またはそのようなオブジェクトまたはクラスのファミリとして実施することができる。
【0030】
本発明による本明細書に記載の会話型コンピューティング・パラダイムに基づくCVM(またはオペレーティング・システム)により、コンピュータまたはその他の任意の対話型装置はユーザと会話することができる。さらにCVMにより、ユーザは、機械にディスプレイやGUI機能がなく、キーボード、ペン、またはポインティング・デバイスがない場合でも関係なく、その機械上で複数のタスクを実行することができる。実際に、ユーザはこれらのタスクを会話と同様に管理することができ、1つのタスクまたは複数の同時タスクを終了させることができる。タスクを会話のように管理するために、本発明によるCVMは、混在主導権、コンテキスト、および高レベルの抽象化に依存して様々な機能を実行する機能を備える。混在主導権により、ユーザはシステムとの対話を通して要求を自然に完成、変更または修正することができる。また混在主導権とは、CVMが、タスク全体を通じて、特に音声使用可能アプリケーションにおいて、ユーザを積極的に支援し(主導して支援し)、指示することを意味し、この場合、混在主導権機能はディスプレイのないシステムや限られたディスプレイ機能しかないシステムを補う自然な方法である。一般には、CVMは従来のインターフェースおよび入出力を置き換えるのではなく、それらを補うものである。これは、音声をマウス、キーボード、およびペンなどの他の入出力装置と併用する「マルチモダリティ」という概念である。装置の限界に特定のインターフェースの実現が含まれる場合、従来のインターフェースを置き換えることができる。さらに、その結果のインターフェースの装置、層、およびサービス間での遍在性と一様性も不可欠の特性である。CVMシステムは、大体において従来の入力媒体または出力媒体あるいはその両方と共に機能することができることを理解されたい。実際に、従来のキーボード入力および従来のモニタ・ディスプレイに接続されたポインティング・デバイスを備えたコンピュータは、本発明によるCVMを利用することにより大きな利益を得ることができる。一例は、米国仮特許出願第60/128081号に記載されている(これには、GUIモダリティと音声モダリティとが緊密に同期した真のマルチモーダル・アプリケーションを作成する方法が記載されている)。言い換えると、コンピュータに話しかけなくないユーザでも、CVM使用可能機械との対話へのダイナミックで積極的な移行を認識することができる。
【0031】
次に図1を参照すると、クライアント装置またはサーバで実施可能な本発明の一実施形態による会話型コンピューティング・システム(またはCVMシステム)がブロック図に示されている。一般に、CVMは汎用調整マルチモーダル会話型ユーザ・インターフェース(CUI)10を備える。CUIの「マルチモーダリティ」態様とは、音声、キーボード、ペン、ポインティング・デバイス(マウス)、キーパッド、タッチ・スクリーンなどの様々な入出力リソースを、CVMプラットフォームと共に使用することができることを意味する。CUI10の「一様性」態様とは、CVMがデスクトップ・コンピュータ、ディスプレイ機能が制限されたPDA、ディスプレイを備えない電話と共に実施されているか否かを問わず、CVMシステムが同じUIをユーザに提供することを意味する。言い換えると、一様性とはCVMシステムが、音声のみのものから、音声、マルチモーダルすなわち音声+GUI、さらにGUIのみのものまでの範囲の機能を持つ装置のUIを適切に扱うことができることを意味する。したがって、汎用CUIは、アクセス・モーダリティに関係なく、すべてのユーザ対話に同じUIを提供する。
【0032】
さらに、汎用CUIの概念は、調整CUIの概念にまで拡大する。具体的には、(コンピュータ層内または複数のコンピュータ層にわたる)複数の装置が同じCUIを提供すると仮定すると、それらの装置を単一のディスコースすなわち調整インターフェースを介して管理することができる。すなわち、複数の装置が会話接続されている(すなわち互いに認識している)場合、それらを1つの装置の1つのインターフェース(たとえば単一のマイクロフォン)を介して同時に制御することができる。たとえば、汎用調整CUIを介して、会話接続された高度自動機能電話、ページャ、PDA、ネットワーク・コンピュータ、およびIVR、車載コンピュータを音声による自動的に制御することができる。これらのCUI概念については、後で詳述する。
【0033】
さらにCVMシステムは、会話認識アプリケーション11(すなわち会話プロトコルを「話す」アプリケーション)と従来型アプリケーション12を含む複数のアプリケーションを含む。会話認識アプリケーション11は、会話型アプリケーションAPI13を介してCVMコア層(またはカーネル)14と共に動作するように特にプログラムされたアプリケーションである。一般に、CVMカーネル14は、アプリケーションと装置間の対話をそれらの登録された会話型機能および要件に基づいて制御し、入出力モーダリティとして音声を追加して会話型システム動作を実現するだけにとどまらない統一された会話型ユーザ・インターフェースを提供する。CVMシステムは、従来のOSとAPI15、および従来の装置ハードウェア16上に構築することができ、サーバまたは任意のクライアント装置(PC、PDA、PvC)上に置くことができる。従来型アプリケーション12は、CVMカーネル層14によって管理される。CVMカーネル層14はOS APIを介して従来型アプリケーションのGUIメニューおよびコマンドと、基礎OSコマンドとにアクセスする。CVMは、会話サブシステム18(すなわち会話エンジン)および従来のOS15の従来型サブシステム(たとえばファイル・システムや従来のドライバ)を含む、すべての入出力発行を自動的に扱う。一般に、会話サブシステム18は、適切なデータ・ファイル17(たとえば、コンテキスト、有限状態文法、語彙、言語モデル、記号照会マップなど)を使用して、音声要求を照会に変換し、出力をおよび結果を発話メッセージに変換する機能を果たす。会話型アプリケーションAPI13は、CVM14が照会をアプリケーション呼出しに変換し、逆に出力を音声に変換して、ユーザに提供する前に適切に記憶されるすべての情報を伝達する。
【0034】
次に図2を参照すると、本発明の一実施形態による会話型コンピューティング・システム(またはCVM)の抽象プログラミング層が図示されている。CVMの抽象層は、会話認識アプリケーション200と従来型アプリケーション201とを含む。上述のように、会話認識アプリケーション200は、会話型アプリケーションAPI層203を介してCVMカーネル層202と対話する。会話型アプリケーションAPI層203は、CVMカーネル202が備える様々な機能(後述する)を提供するための会話型プログラミング言語/スクリプトおよびライブラリ(会話型ファウンデーション・クラス)を含む。たとえば、会話型プログラミング言語/スクリプトは、アプリケーション開発者が会話認識アプリケーション200をフック(または開発)することができるようにする会話型APIを備える。また、会話型API層203、会話型プロトコル204、および、開発者が会話機能をアプリケーションに組み込んで「会話認識型」にすることができるようにするシステム呼出しも備える。アプリケーション、API呼出し、およびプロトコル呼出しを実現するコードには、ライブラリ・リンク、(後述する)会話型論理エンジン呼出し、および会話型ファウンデーション・クラスを備えるインタプリタ型およびコンパイラ型のスクリプトおよびプログラムが含まれる。
【0035】
具体的には、会話型アプリケーションAPI層203は、複数の会話型ファウンデーション・クラス205(または基本対話構成要素)を含み、これは、本発明によるCUIまたは会話認識アプリケーション200を構築するために使用することができるライブラリ関数を介してアプリケーション開発者に提供される。会話型ファウンデーション・クラス205は、基本構成要素または会話ジェスチャ(T.V.Raman(ラーマン)が「Auditory User Interfaces, Toward The Speaking Computer」Kluwer Academic Publishers, Boston 1997で記載している)であり、任意の対話を、モダーリティまたはモダーリティの組合せ(手続き式または宣言式に実施可能である)とは独立して特徴づける。会話型ファウンデーション・クラス205は、CUIビルディング・ブロック、会話型プラットフォーム・ライブラリ、対話モジュールおよび構成要素、および対話スクリプトおよびビーンを含む。会話型ファウンデーション・クラス205は、ローカルで会話型オブジェクト206にコンパイルすることができる。具体的には、会話型ファウンデーション・オブジェクト206(または対話構成要素)は、Java( 登録商標 )やC++などのプログラミング言語によって、これらのライブラリを呼び出すコード中の異なる個別のクラスを組み合わせることによって、会話型ファウンデーション・クラス205(ファウンデーション対話構成要素)からコンパイルされる。上述のように、コーディングはそのような基本対話構成要素を宣言型コードに組み込むこと、またはそれらを手続き型コードにリンクすることを含む。会話型ファウンデーション・クラス205をネストし、埋め込むことによって、特定の対話タスクまたはアプリケーションを実行する(再使用可能または再使用不能)会話型オブジェクト206を(宣言式またはコンパイル/インタプリテーションを介して)作成することができる。たとえば、会話型オブジェクト206は、CML(会話型マークアップ言語)のページなど(ネストしているか否かを問わず)、宣言式に実現することができ、会話型ブラウザ(またはビューワ)(200a)によって処理またはロードされる。対話オブジェクトは、(会話型ブラウザを介して)CML(会話型マークアップ言語)ページによりロード可能なアプレットまたはオブジェクトと、CVM上の手続き型オブジェクト(CVM上で分散可能)、CML内のスクリプト・タグ、およびサーブレット構成要素を含む。
【0036】
本発明により実施可能な会話型ジェスチャのいくつかの例は以下の通りである。会話型ジェスチャ・メッセージは、機械が情報メッセージをユーザに伝達するために使用する。ジェスチャ・メッセージは、一般には、表示文字列または音声プロンプトとして表される。メッセージのうちの発話される部分は、CVM上で稼動する様々なアプリケーション/対話の現行状態に応じて変わることができる。「select from set(セットから選択)」という会話ジェスチャを使用して、個別の選択肢のセットから選択することをユーザに求める対話をカプセル化する。これは、プロンプト、デフォルト選択、および妥当な選択肢のセットをカプセル化する。「select from range」という会話型ジェスチャ・メッセージは、ユーザが連続した値の範囲から値を選択することができる対話をカプセル化する。このジェスチャは、有効な範囲、現行選択、および情報プロンプトをカプセル化する。さらに、入力制約がより複雑な場合(または場合によっては存在しない場合)に、会話ジェスチャ入力を使用してユーザ入力を入手する。このジェスチャは、ユーザ・プロンプト、要求されている情報項目(未定)に関するアプリケーション・レベルのセマンティクス、および場合によっては入力の有効性を検査するための述語をカプセル化する。上述のように、会話型ファウンデーション・クラスは、会話型ジェスチャの概念を含むが、これだけには限定されない(すなわち、基本動作およびサービスのレベルや、会話型タスクを実行するための規則にも及ぶ)。
【0037】
後述するように、プログラミング・モデルは、会話型APIを介したマスタ対話マネージャとエンジンとの接続を可能にする。ファウンデーション・クラスのデータ・ファイルはCVM上に存在する(組込みプラットフォームのためにロード可能)。オブジェクトのデータ・ファイルは、展開およびロード可能である。異なるオブジェクトが同時に対話マネージャとして機能する。いくつかの会話型ファウンデーション・クラスの例を以下に示す。
【0038】
低水準対話の会話型ファウンデーション・クラス:
(該当する場合に使用可能なマルチモーダル機能)
(分散の場合CVMハンドルを含む)
1. Select_an_item_from_list(リストから項目を入手)
2. Field_filling_with_grammar(フィールドに文法を記入)
3. Acoustic_Enroll_speaker_(話者を音響登録)
4. Acoustic_Identify_speaker(話者を音響識別)
5. Acoustic_Verify_speaker(話者を音響識別)
6. Verify_utterance(発言を検証)
7. Add_to_list(リストに追加)
8. Enroll_utterance(発言を登録)
9. Get_input_from_NL(NLから入力を入手)
10. Disambiguate(一義化)
など
【0039】
低水準特殊化対話の会話型ファウンデーション・クラス
(該当する場合に使用可能なマルチモーダル機能)
(分散の場合CVMハンドルを含む)
1. Get_Yes/No(Yes/Noを入手)
2. Get_a_date(日付を入手)
3. Get_a_time(時刻を入手)
4. Get_a_natural_number(自然数を入手)
5. Get_a_currency(通貨を入手)
6. Get_a_telephone_number(米国または国際電話番号を入手。規則などを指定可能。)
7. Get_digitstring(数字ストリングを入手)
8. Get_alphanumeric(英数字を入手)
9. Get_spelling(スペルを入手)
10. Speech_biometrics_identify(発話バイオメトリックの識別)
11. Open_NL(NLを開く)
12. Close_NL(NLを閉じる)
13. Delete_NL(NLを削除)
14. Save_NL(NLを保存)
15. Select_NL(NLを選択)
16. Mark_NL(NLをマーク)
など
【0040】
中水準対話の会話型ファウンデーション・クラス
(該当する場合に使用可能なマルチモーダル機能)
(分散の場合CVMハンドルを含む)
1. Form_filling(書式記入)
2. Request_confirmation(要求確認)
3. Identify_user by dialog(対話によりユーザを識別)
4. Enrol_user by dialog(対話によりユーザを登録)
5. Speech_biometorics_identify(音声バイオメトリクスを識別)
6. Verify_user by dialog(対話によるユーザの検証)
7. Correct_input(入力を修正)
8. Speech_biometrics_identify(音声バイオメトリクスを識別)
9. Speech_biometrics_verify(音声バイオメトリクスを検証)
10. Speech_biometrics_enrol(音声バイオメトリクスを登録)
11. Manage_table(テーブルの管理)
12. Fill_free_field(フリー・フィールドへの記入)
13. Listen_to TTS(TTSを聞く)
14. Listen_to_playback(再生を聞く)
15. Simulltaneous_form_filling(同時書式入力)
16. Simultaneous_classes_dialog(同時クラス対話)
17. Summarize_dialog(対話を要約)
など
【0041】
高水準アプリケーション固有ファウンデーション・クラス
(該当する場合に使用可能なマルチモーダル機能)
(分散の場合CVMハンドルを含む)
1. Manage_bank_account(銀行口座の管理)
2. Manage_portfolio(有価証券の管理)
3. Request_travel_reservation(旅行予約の要求)
4. Manage_e-mail(電子メールの管理)
5. Manage_calender(カレンダーの管理)
6. Manage_addressbook/director(アドレス帳/電話帳の管理)
など
【0042】
通信会話クラス
1. Get_list_of CVM_devices(CVM装置のリストを入手)
2. Get_capability_of_CVM_device(CVM装置の機能を入手)
3. Send_capability_to_CVM_device(CVM装置に機能を送る)
4. Request_device_with_given_capability(所定の機能付き装置を要求)
5. Get_handle_from_CVM_device(CVM装置からハンドルを入手)
6. Mark_as_Master_CVM(マスタCVMとしてマーク)
7. Mark_as_active_CVM(アクティブCVMとしてマーク)
8. Get_context(コンテキストを入手)
9. Send_context(コンテキストを送る)
10. Get_result(結果を入手)
11. Send_result(結果を送る)
12. Save_on_context(コンテキストを保存)
など
【0043】
サービスおよび動作会話型ファウンデーション・クラス
(この場合も分散の場合はCVMハンドル付きとすることができる)
1. Get_meta-information(メタ情報を入手)
2. Set_meta-information(メタ情報の設定)
3. Register_category(カテゴリを登録)
4. Get_list_of_categories(カテゴリのリストを入手)
5. Conversational_search(dialog or abstraction-based)(会話探索(対話ベースまたは抽象化ベース))
6. Conversational_selection(dialog or abstraction-based)(会話選択(対話ベースまたは抽象化ベース))
7. Accept_result(結果を受諾)
8. Reject_result(結果を拒否)
9. Arbitrate_result(結果を調停)
など
【0044】
その他のサービス
(複数のクラスによる)
会話型セキュリティ
会話のカスタマイズ
会話型ヘルプ
会話優先順位付け
リソース管理
出力形式設定および提示
入出力抽象化
エンジン抽象化
など
【0045】
規則
ファースト・ネームから名前を完全に入手する方法
電話番号の入手方法
住所の入手方法
照会のやり直し方法
照会の訂正方法
など
【0046】
本明細書では、CVMが提供する開発環境をSPOKEN AGE(商標)と呼ぶ。Spoken Ageを使用して、開発者はCVM用の会話認識アプリケーションの作成、シミュレート、およびデバッグを行うことができる。API呼出しの直接実施を提供するほか、複数のパーソナリテイによる高機能会話型インターフェース、ユーザが出力の音声のタイプを選択することができるVoiceフォント、およびPostcriptやAFL(オーディオ・フォーマッティング言語)のような会話型プレゼンテーションを作成する会話形式設定言語も提供する。
【0047】
前述のように、会話型アプリケーションAPI層203は、汎用会話型入出力、会話型論理、および会話型メタ情報交換プロトコルを実現する会話型プログラミング言語およびスクリプトを含む。会話型プログラミング言語/スクリプトによって、任意の使用可能なリソースを入力ストリームまたは出力ストリームとして使用することができるようになる。以下で詳述するように、(CVM202が会話エンジンAPI207を介してアクセスする)会話型エンジン208および会話型データ・ファイル209を使用して、各入力はバイナリまたはASCII入力に変換され、それをプログラミング言語によって組込みオブジェクトとして直接処理することができる。呼出し、フラグ、およびタグを自動的に組み込むことができ、異なるオブジェクトと正しくインターフェースするのに必要な会話型メタ情報をオブジェクトとプロセス間で送ることができる。さらに、アプリケーションまたはユーザの必要に応じて出力ストリームを特別に形式設定することができる。これらのプログラミング・ツールにより、マルチモーダル・ディスコース処理を容易に構築することができる。さらに、論理ストリーム状況および演算子を拡張して、ASCII/バイナリのコンテンツに基づき、またはそれらのNLU変換照会(従来型および会話型のサブシステムの入出力)またはFSGベースの要求(この場合システムは限定されたコマンドを使用)に基づき比較可能な豊富な会話型照会を扱う。このようなシステムをテストまたは修正するための論理演算子が実現可能である。会話型論理値/演算子は拡張されて、真、偽、不完全、曖昧、ASCIIの視点での異/同、NLUの視点からの異/同、アクティブ照会フィールドの視点からの異/同、不明、非互換、および比較不能を含む。
【0048】
さらに、会話型アプリケーションAPI層203は、基礎OSの機能および動作の拡張機能を実現するコードも含む。このような拡張機能としては、たとえば、任意のオブジェクトに関連付けられた高水準の抽象化および抽象カテゴリ、抽象カテゴリの自己登録機構、記憶、要約、会話型探索、選択、リダイレクト、ユーザ・カスタマイズ、学習機能、ヘルプ、マルチユーザおよびセキュリティ機能、ファウンデーション・クラス・ライブラリなどがあり、それぞれについては後で詳述する。
【0049】
図2に示す会話型コンピューティング・システムは、コア・エンジンである会話型エンジン208(たとえば音声認識、NL解析、NLU、TTS、および音声圧縮/圧縮解除の各エンジン)とそれらを使用するアプリケーションとの間のインターフェースをとる会話型エンジンAPI層207をさらに含む。エンジンAPI層207は、ローカルかリモートかを問わずコア・エンジンと通信するためのプロトコルも備える。入出力API層210が、キーボード、マウス、タッチ・スクリーン、キーパッド(マルチモーダル会話型UIを実現する)および音声入出力を取り込む音声サブシステム(音声入力/音声出力)などの従来の入出力リソース211とのインターフェースをとる。入出力API層210は、装置抽象化、入出力抽象化、およびUI抽象化を備える。入出力リソース211は、入出力API層210を介してCVMカーネル層202に登録される。
【0050】
コアCVMカーネル層202は、会話型アプリケーションおよび動作/サービスマネージャ層215、会話型対話マネージャ(アービトレータ)層219、会話型リソース・マネージャ層220、タスク/ディスパッチャ・マネージャ221,およびメタ情報マネージャ220など、CVM層202の中核機能を実現するプログラミング層を含む。会話型アプリケーションおよび動作/サービスマネージャ層215は、従来型アプリケーション201および会話認識アプリケーション200を管理する機能を含む。このような管理機能としては、たとえば、(ローカルおよびネットワーク分散の両方で)どのアプリケーションが登録されたか、アプリケーションの対話インターフェース(ある場合)は何か、各アプリケーションの状態の追跡などがある。さらに、会話型アプリケーションおよびサービス/動作マネージャ215は、CVMシステムが提供する特定のサービスまたは動作に関連付けられたすべてのタスクを開始する。会話型サービスおよび動作は、ユーザがアプリケーションおよび対話内に存在すると予想できる会話型UIのすべての動作および機能と、アプリケーション開発者が(アプリケーションの開発によって実現しなくても)APIを介してアクセス可能であると予想できる機能である。CVMカーネル202が提供する会話型サービスおよび動作の例としては、会話型カテゴリ化およびメタ情報、会話型オブジェクト、リソースおよびファイル管理、会話型探索、会話型選択、会話型カスタマイズ、会話型セキュリティ、会話型ヘルプ、会話型優先順位付け、会話型遅延処置/エージェント/記憶、会話型論理、会話型インターフェースおよび装置(それぞれについては本明細書で詳述する)。このようなサービスは、会話型アプリケーション層203を介してAPI呼出しにより提供される。会話型アプリケーションおよび動作/サービス・マネージャ215は、装置、アプリケーション、またはユーザ選好の機能と制約に合わせてUIを適合化するのに必要な様々な機能をすべて実行する役割を果たす。
【0051】
会話型対話マネージャ219は、登録されているすべてのアプリケーションにわたって対話(GUIキーボード、ポインタ、マウス、ビデオ入力などの音声およびマルチモーダル入出力を含む会話型対話)を管理する機能を含む。具体的には、会話型対話マネージャ219は、ユーザがもっている情報、ユーザが提示する入力、ユーザ入力を扱うべきアプリケーションを判断する。
【0052】
会話型リソース・マネージャ220は、登録されている会話型エンジン208(ローカルの会話型エンジン208またはネットワーク分散リソース)、各登録リソースの機能、および各登録リソースの状態を判断する。さらに、会話型リソース・マネージャ220は、CPUサイクルの割振りの優先順位または入出力の優先順位を付けて、それに続くアクティブ・アプリケーションとの対話を維持する(たとえば現行の入力または出力の認識または処理に従事しているエンジンが優先権を持つ)。同様に、分散アプリケーションの場合、アクティブな前景プロセスのためにネットワーク遅延を最小限にするように、使用するエンジンおよびネットワーク経路の経路指定と選択を行う。
【0053】
タスク・ディスパッチ/マネージャ221は、ローカルおよびネットワーク化従来型および会話型リソース(後で詳述)上で(ユーザまたは計算機によって)生成された様々なタスクおよびプロセスのディスパッチと調整を行う。メタ情報マネージャ222は、メタ情報リポジトリ218を介して、システムに関連付けられたメタ情報を管理する。メタ情報マネージャ222およびリポジトリ218は、一般に会話型対話では既知であるものとみなされるが現行会話のレベルでは入手できないすべての情報を収集する。例としては、先験的知識、文化的、教育的前提事項および不変の情報、過去の要求、参照、ユーザに関する情報、アプリケーション、ニュースなどがある。これは、一般に、会話型履歴/コンテキストの長さ/存続期間を超えて保持され、存続する必要がある情報であり、会話にとって共通の知識であると予想され、したがって現在および過去の会話型対話中には決して定義されていない情報である。また、後述するように、コマンド、リソース、マクロなどへのショートカットも、メタ情報マネージャ222によって管理され、メタ情報リポジトリ218に格納される。さらに、メタ情報リポジトリ218は、ユーザ識別に基づくユーザ利用記録を含む。CVMシステムが提供する会話型ヘルプや支援などのサービスと、いくつかの対話プロンプト(概説、質問、フィードバックなど)は、メタ情報リポジトリ218に格納され、アプリケーションに関連付けられている、ユーザの利用履歴に基づいて調整することができる。ユーザが所与のアプリケーションと以前に対話したことがある場合、ユーザがそれについて熟知していると見なして説明を少なくすることができる。同様に、ユーザが多くの誤りを犯した場合、多数のエラーは、ユーザがアプリケーションまたは機能について不確かであるか、熟知していないか、理解していないか、または誤って理解しているためであると解釈されるため、説明をより詳しくすることができる。
【0054】
対話マネージャ219によってコンテキスト・スタック217が管理される。コンテキスト・スタック217は、アプリケーションに関連付けられたすべての情報を含む。このような情報には、すべての変数、状態、入力、出力、および対話のコンテキストで行われたバックエンドに対する照会と、対話中に発生した外部イベントが含まれる。後で詳述するように、コンテキスト・スタックには、各アクティブ対話(または据置き対話−エージェント/記憶)に対応する編成/ソートされたコンテキストが関連付けられる。CVMシステムにはグローバル履歴216が含まれ、各アプリケーションのコンテキストを超えて記憶される情報を含む。グローバル履歴には、たとえば、すべてのアプリケーションに関連付けられた情報や会話型セッション中に行われた処置(すなわち現行セッション(または機械が起動されてからの)のユーザと機械との間の対話の履歴)が記憶される。
【0055】
CVMカーネル層202は、(対話マネージャ219を迂回せずに)対話マネージャ219を介したバックエンド業務論理213へのアクセスを可能にするバックエンド抽象化層223をさらに含む。これにより、このようなアクセスをコンテキスト・スタック217およびグローバル履歴216に加えることができる。たとえば、バックエンド抽象化層223は、対話マネージャ219との間の入出力をデータベース照会に変換する。この層223は、標準化属性値nタプルをデータベース照会に変換し、そのような照会の結果をテーブルまたは属性値nタプルのセットに変換し戻して対話マネージャ219に返す。さらに、ユーザに提示される動作、UI、および対話を、CVMシステムを実行する装置の入出力機能およびエンジンの機能に基づいて適合化する会話トランスコード層224を備える。
【0056】
CVMシステムは、OS212が提供する基礎システムサービスの一部として、通信スタック214(または通信エンジン)をさらに含む。CVMシステムは、通信スタックを使用して、会話型通信を行うように会話型通信サービスを拡張する会話型プロトコル204を介して情報を送る。通信スタック214は、会話型装置感の会話型通信交換を行うために、本発明の一実施形態により周知のOSI(開放型システム相互接続)プロトコル層と共に実現可能であることを理解されたい。当技術分野で周知のように、OSIは7層を含み、各層は、ネットワーク接続された装置のネットワーク分散会話型アプリケーション感の通信を行うためにそれぞれの機能を実行する。これらの層(その機能は周知である)は、アプリケーション層、プレゼンテーション層、セッション層、トランスポート層、ネットワーク層、データリンク層、および物理層である。アプリケーション層は、会話型プロトコル204を介した会話型通信を可能にするように拡張される。
【0057】
会話型プロトコル204によって、一般に、リモート・アプリおよびリソースは、それらの会話型機能およびプロキシを登録することができる。具体的には、さらに図3を参照すると、会話型プロトコル204(またはメソッド)は、分散会話型プロトコル300と、ディスカバリ、登録、および折衝プロトコル301と、音声送信プロトコル302とを含む。分散会話型プロトコル300により、ネットワーク会話型アプリケーション200、200a、およびネットワーク接続装置(ローカル・クライアントおよびサーバなどのその他のネットワーク化装置)は、情報を交換してそれぞれの現行の会話状態、引数(データ・ファイル209)、およびコンテキストを互いに登録することができる。分散会話型プロトコル300は、ネットワーク接続装置(たとえばクライアント/サーバ)間でローカルおよびネットワークの会話型エンジン208、208aを共用することを可能にする。分散会話型プロトコル300は、対話マネージャ(DM)プロトコル(後述)も含む。分散会話型プロトコルは、マスタ/スレーブ会話型ネットワーク、ピア会話型ネットワーク、サイレント・パートナを含む複数の装置およびアプリケーションが関与する会話を調整するための情報の交換を可能にする。分散会話型プロトコルを使用してネットワーク装置間で交換可能な情報には、データ・ファイル(引数)を指すポインタ、データ・ファイルおよびその他の会話型引数の転送(必要な場合)、入力イベント、出力イベント、および認識結果の通知、会話型エンジンAPI呼出しおよび結果、状態、コンテキスト変更、およびその他のシステム・イベントの通知、登録更新、登録のためのハンドシェーク、折衝更新、折衝のためのハンドシェーク、要求リソースが失われた場合のディスカバリ更新が含まれる。
【0058】
さらに、分散会話型プロトコル300によって、アプリケーションおよび装置は、アプレット、ActiveX構成要素、およびその他の実行可能コードなどの他の情報を交換することができるようにし、それによって、装置または関連付けられたアプリケーションが、たとえばマスタ/スレーブやピア・ツー・ピア会話型ネットワーク構成およびサイレント・パートナを含むネットワーク内の装置間での会話と調整することができるようにする。言い換えると、複数のCVMまたは会話認識装置が会話接続され、調整される場合、単一のインターフェースを介して(すなわち単一のマイクロフォンを介して)それらを同時に制御することが可能になる。たとえば、音声によって、高度自動機能電話、ページャ、PDA、ネットワーク・コンピュータ、IVR、車載コンピュータを、固有の調整会話型インターフェースを介して自動的に制御することができる。サイレント・パートナを、他の会話型装置から会話型インターフェースを介して制御することができる。サイレント・パートナは、API/プロトコルを介してネットワーク接続CVMと対話することができるような会話認識システムである。しかし、サイレント・パートナは、指定されている機能以外には、ユーザに対して入出力を提示しない。たとえば、室内のランプは、CVMによって検出可能であり、その会話状態(たとえばそのコマンドが何であるか、すなわち、ランプの点灯、消灯)を登録することができ、CVMから送られたコマンドを実行することができることによって、会話認識可能であると言える。この形態では、本明細書でUCRC(汎用会話型リモート・コントロール)と呼ぶCVMリモート・コントロールは、検出されたすべての会話認識器具によってサポートされているコマンドをダウンロードすることができる。その場合、ユーザはこれらのアプリケーションをCVMリモート・コントロールと対話するだけで音声により制御することができる。
【0059】
一実施形態では、分散会話型プロトコル300は、ネットワークを介したアプリケーションおよび異なる会話型エンジン間での呼出しを実施するように、RMI(リモート・メソッド呼出)またはRPC(リモート・プロシージャ呼出し)システム呼出しを介して実施される。当技術分野で周知のように、RPCは、1つのアプリケーションがネットワークを介して別のアプリケーションにサービスを要求することを可能にするプロトコルである。同様に、RMIは、分散ネットワーク内でオブジェクトどうしが対話することを可能にする方法である。RMIによって、要求と共に1つまたは複数のオブジェクトを受け渡しすることができる。
【0060】
会話型プロトコル204は、会話型ディスカバリ(検出)、登録、および折衝の各プロトコル301(またはメソッド)をさらに含む。登録プロトコルは、装置間のデータ転送を該当情報に限定し、マスタ/スレーブまたはピア・ネットワークの折衝を行うように、各ネットワーク装置またはアプリケーションがそれぞれの会話型機能、状態/コンテキストに関する情報の交換と登録を行えるようにする。(会話認識のみの)サイレント会話型パートナも同様に動作し(すなわちそれぞれの機能などを登録し)、会話型プロキシ・サーバを介して、またはCVMの会話型クライアントとして対話することができる(すなわち、サイレント・パートナはCVM装置への会話型登録を使用する)。
【0061】
登録プロトコルにより交換可能な情報は、(1)機能と、定義および更新イベントを含むロード・メッセージ、(2)エンジン・リソース(所与の装置がNLU、DM、NLG、TTS、話者認識、音声認識圧縮、コーディング、記憶などを含むか否か)、(3)入出力機能、(4)CPU、メモリ、およびロード機能、(5)データ・ファイル・タイプ(ドメイン固有、辞書、言語モデル、言語など)、(6)ネットワーク・アドレスおよび機能、(7)ユーザに関する情報(定義および更新イベント)、(8)装置、アプリケーション、または対話のためのユーザ選好、(9)カスタマイズ、(10)ユーザの経験、(11)ヘルプ、(12)アプリケーション(およびアプリケーション状態)ごとの機能要件(定義および更新イベント)、(13)CUIサービスおよび動作(ヘルプ・ファイル、カテゴリ、会話優先順位など)のためのメタ情報(典型的にはテーブルを指すポインタを介した定義および更新イベント)、(14)プロトコル・ハンドシェーク、(15)トポロジ折衝である。
【0062】
登録は、TCP/IP、TCP/IP29、X−10、CEBusなどの従来の通信プロトコルや装置間のソケット通信を使用して行うこともできる。装置は、分散会話型アーキテクチャを使用してそれに関連付けられた会話型エンジンおよびCVMコントローラに、それぞれの会話型引数(たとえばアクティブ語彙、文法、言語モデル、解析および翻訳/タグ付けモデル、声紋、合成規則、ベースフォーム(句読規則)および音声フォント)を伝達する。この情報は、ファイルまたはストリームとしてCVMコントローラおよび会話型エンジンに渡されるか、またはURL(または前述のように装置間の情報交換レベルでの宣言または手続き、オブジェクトおよびXML構造)により渡される。登録プロトコルを実施する一実施形態では、装置は、接続時に、フラグのセットまたは装置特性オブジェクトを交換することによって、事前準備されたプロトコルを使用して会話型機能に関する情報(たとえばTTS英語、任意のテキスト、音声認識、500ワードおよびFSG文法、話者認識なしなど)を交換することができる。同様にアプリケーションはエンジン要件リストを交換できる。マスタ/スレーブ・ネットワーク構成では、マスタ対話マネージャはすべてのリストをコンパイルし、機能および必要なものを会話型機能と突き合わせる。さらに、装置またはアプリケーションのコンテキスト・スタック/履歴を指示、受け渡し、または指すことによって、コントローラがそのコンテキスト・スタックにアクセスし、追加することができるコンテキスト情報を送ることができる。装置は、そのマルチモーダル入出力およびUI機能(画面あり/画面なし、音声入出力機能、キーボードなど)に関する情報も渡す。会話型引数によって、対話エンジンは、現在の状況およびコンテキストに基づいてNLUエンジンによる新規照会の関連性を推定することができる。
【0063】
会話型ディスカバリ・プロトコル301は、装置の自発的ネットワーク化会話型クライアント230、230aが、ローカルまたはネットワークの会話認識システムを自動的に検出し、そのような会話認識システムを動的かつ自発的にネットワーク接続するために使用する。ディスカバリ・プロトコルを介して交換される情報には、(1)ハンドシェークのブロードキャスト要求または要求の聴取、(2)装置識別子の交換、(3)最初の登録のためのハンドル/ポインタの交換、(4)最初の折衝のためのハンドルの交換が含まれる。
【0064】
さらに、折衝プロトコル301は、動的マスタ/スレーブおよびピア・ツー・ピア対話において複数のCVMシステム間の適切な調整を実現するように、マスタ/スレーブまたはピア・ネットワーキング間の折衝を可能にする。具体的には、複数のCVM装置が登録時に、会話型登録機能に、たとえば、制御機能、それらの装置がアクセス可能な会話エンジン、それらの装置に登録済みでそれらの装置が制御するアプリケーションおよび装置に関する情報を加える。UI、入出力機能、およびアクティブ入出力に基づいて、1つのCVMコントローラがマスタになり、他のCVMコントローラがスレーブとして機能するが、これは新しい折衝が行われるまで登録アプリケーションであるという点でマスタと相対的には同等である。マスタとスレーブの役割は、アクティブ入出力モーダリティに基づいて、またはアクティブ・アプリケーションに基づいて動的に交換可能である。
【0065】
音声送信プロトコル302(または会話型コーディング・プロトコル)は、音声送信クライアント38、38aが他のネットワーク装置、システム、またはアプリケーションとの間で圧縮音声を処理のために送受信するために使用する。音声送信クライアント38、38aは、ネットワークを介して送信された音声を処理するために、適合する圧縮ハードウェア235、235aを使用して、圧縮、圧縮解除、再構築エンジン234、234aと共に動作する。音声コーダ234、234aは、圧縮音声の知覚的に受容可能または理解可能な再構築と、最適化された会話パフォーマンス(たとえば語誤り率)を実現する。音声は、それぞれのネットワーク装置上で、音響信号処理エンジン(音声サブシステム)232、232aと適合する音声ハードウェア233,233aを使用して取り込まれる(さらにフィーチャに変換される)。さらに、音声処理のために装置間で圧縮音声ファイル形式303を送受信することができる。具体的には、音声送信プロトコル303によって、装置は圧縮音声またはローカルの処理結果をネットワーク上の他の装置およびアプリケーションとの間で送受信することができる。前述のように、会話型エンジン208(図2)は、送信のために音声(または結果)を圧縮し、ローカル処理のためにネットワークを介して他の装置またはアプリケーションから入手した圧縮音声(または結果)を圧縮解除する、圧縮/圧縮解除エンジン234を含むことが好ましい。一実施形態では、送信側装置と受信側装置戸の間のハンドシェーク・プロセスの後に、(パケット方式の)データ・ストリームを受信側に送る。パケット・ヘッダによって、音声(結果)を符号化するために使用するコーディング方式とコーディング引数(サンプリング周波数、フィーチャ特性、ベクトル次元、フィーチャ変換/ファミリなど)を指定することが好ましい。さらに、誤り訂正情報(たとえば、直前のパケットが失われたり遅延した場合に差分デコーダを修正するための直前のパケットの最後のフィーチャ・ベクトル、または失われたパケットを復元(再送信)するための適切なメッセージング)も組み込むことができる。
【0066】
図9、図10、および図11に示すように、会話型プロトコル204は、ネットワーク装置の対話マネージャ(DM)(DMについては後述)間での情報交換のためのプロトコルをさらに含む。たとえば図9に示すように、分散アプリケーション(分散アプリケーション200a)では、所与の機能をどの対話マネージャ(219または219a)が実行するかを判断するための情報を交換するために対話管理プロトコルを使用する。典型的には、異なる装置、CVM、または異なるアプリケーションがそれ独自の対話マネージャ、コンテキスト・スタック217、217a、およびグローバル履歴218、218aを有する。それらの異なる対話マネージャは、(分散プロトコル300(図3)の一部である)対話マネージャDMプロトコルを介して、マスタ対話マネージャおよびスレーブまたは対等対話マネージャと、トポロジを折衝する。アクティブ・マスタ対話マネージャ(図9で対話マネージャ219として図示されている)は、それらの異なるマネージャへの入出力の流れを管理してアクティブ対話を決定し、照会を適切に実行し、コンテキストと履歴を更新する役割を果たす。たとえば、交換可能な情報は、(1)DMアーキテクチャ登録(たとえば各DMはローカルDMの集合とすることができる)、(2)関連付けられたメタ情報(ユーザ、装置、機能、アプリケーションの必要事項など)を指すポインタ、(3)DMネットワーク・トポロジ(たとえばマスタ/スレーブ、ピア・ツー・ピア)の折衝、(4)該当する場合、すなわちマスタDMによって制御されるエンジンを使用する場合、データ・ファイル(会話型引数)、(5)エンジンへの転送やコンテキストへの追加のためのユーザ入力、ユーザへの出力など、入出力イベントの通知、(6)認識イベントの通知、(7)エンジンからマスタDMへの処理済み入力の転送、(8)マスタDMの責任の登録DMへの転送、(9)DM処理結果イベント、(10)DM例外、(11)信頼結果および曖昧結果、提案フィードバックおよび出力、提案実行状態、提案アクション、提案コンテキスト変更、提案新規対話状態の転送、(12)決定通知、コンテキスト更新、アクション更新、状態更新など、(13)完了、失敗、または割り込まれたアクションの通知、(14)コンテキスト変更の通知、(15)アクションによるデータ・ファイル、コンテキスト、および状態の更新である。さらに、アクション、入出力イベント、バックエンド・アクセスは、従来のリソース・マネージャおよびタスク・ディスパッチャ・マネージャと共用される情報である。
【0067】
図10および図11に、本発明による対話管理のシステムおよび方法を示す。具体的には、図10には、様々な装置/アプリケーション(l、k、およびN)の複数の対話マネージャ(すなわち、マスタ・アービトレータと、スレーブ・対話マネージャl、k、およびN)間の階層的対話を図示する。図10には、典型的なマスタ/スレーブ・トポロジが示されている。前述のように、このトポロジは、DMプロトコルを介して関連する情報を交換することによって形成される。一方、図11には、主ルート(アービトレータ)対話マネージャのみが、1つまたは複数のアプリケーションまたは装置(l、k、N)のために対話マネージャ・タスクを行う他のマスタ/スレーブ構成が図示されている。この場合、マスタ対話マネージャ・アービトレータは、存在する唯一の対話マネージャであり、グローバル・コンテキストおよび履歴(場合によってはアプリケーション固有のコンテキストおよび履歴の分類を有する)を維持する。DMプロトコルでは、各アプリケーションおよび装置と中核ルート対話マネージャとの間で属性値nタプルを交換する必要がある。
【0068】
複数の装置/アプリケーションが関与する場合であっても、図10に示すように実際の対話管理プロセスは単一の装置上の単一の対話マネージャによって逐次実行することができることを理解されたい。この2つの状況の相違は、ユーザが、所定のタスクのために特化されたエンティティごとに1つの会話をもって複数の会話を行う感じを持つのに対し、複数のタスクを行う1つのエンティティとの会話を行っている感じを持つことである。これらのトポロジのそれぞれは、DMプロトコルを介して折衝するか、またはユーザ選好、アプリケーションによる選定、またはCVMデフォルト設定値によって設定することができる。
【0069】
次に図4を参照すると、本発明の一実施形態によるCVMシステムの会話型カーネルの会話型システムおよびコア機能モジュールの詳細なアーキテクチャが図示されている。図4のシステムおよびそれに付随する説明は、実施例を示す例示のためのものであり、当業者なら本発明の主旨によるCVMを実施する他の構成要素またはシステム・アーキテクチャを考えることができることを理解されたい。さらに、これらの要素のそれぞれをアプリケーション内または既存のオペレーティング・システム下のプラットフォームとしてスタンドアロン・モードで導入するか、またはこれらの異なる新規要素を中心に構築されたコア・カーネルを持つ真のCVMで導入することができることを理解されたい。基礎オペレーティング・システムに対する会話型呼出しは、CVMによって取り込み、実施することができ、それによって移植性が可能になる。その場合、CVMは既存のプラットフォームのためのスタンドアロン・プラットフォームとして構成される。
【0070】
図4を参照すると、本発明の一実施形態による会話型システム400は、相対的に、会話型サブシステムの組合せと、CVM401によって実行され、管理される会話型サブシステムとを含む。CVM401は、タスク・ディスパッチャ/コントローラ402と、メタ情報マネージャ403と、対話コントローラ404(または上述の対話マネージャ)と、コンテキスト・スタック405と、会話型サブシステム・サービス・マネージャ406とを含む。本明細書では、「CVMコントローラ」という用語はタスク・ディスパッチャ/コントローラ402と対話コントローラ404とを集合的に指すものと理解されたい。一般に、CVM401は会話型および会話型の入力ストリームを複数のアクションに伝え、格納された出力を会話型または従来型あるいはその両方の出力ストリームを介してユーザに対して出力する。
【0071】
会話型システム400は、たとえば音声認識システム408、話者認識システム409、リソース言語理解および自然言語解析システム410、テキスト−音声合成(TTS)システム411などを含む複数の会話型リソース・サブシステム(エンジン)407をさらに含む。会話型リソース407はNLG(自然言語生成)エンジンや音声サブシステムなどの他のシステムを含むこともできることを理解されたい。前述のように、これらの会話型サブシステム407のそれぞれには、CVM401に対するAPI呼出しを介してアクセスすることができる。CVM401は、(会話型サブシステム・サービス・マネージャ406を介して)要求先の会話型サブシステム407を探し出し、その実行を促し、しかるべく結果を返す。これらの会話型サブシステム407は、ローカル、またはネットワークを介して分散させることができることと、(開発者がエンジン407の特定の動作を実施したい場合、エンジンAPIは常にアプリケーションにとって使用可能であるが)すべての会話型サブシステム呼出しは、アプリケーションに対して隠蔽されることを理解されたい。
【0072】
会話型サブシステム・サービス・マネージャ406は、CVM401によって提供される(本明細書に記載の)すべてのサービス、UIおよび動作を管理する。会話型サブシステム・サービス・マネージャ412は、基礎オペレーティング・システム(または、基礎OSがない場合でも従来の入出力システム)によって提供されるすべてのサービスおよびUIを管理する。
【0073】
CVM401の中核は、対話コントローラ404の制御下で動作し、管理されるコンテキスト・スタック405である(コンテキスト・スタック405は前述のグローバル履歴及びメタ情報リポジトリに直接関係することを理解されたい)。一般に、コンテキスト・スタック405は、アクティブ化されたディスコース(すなわち所与のタスク/プロトコル/スレッドに関連付けられた会話型対話)を持つ各アクティブ・プロセスのコンテキスト(すなわち属性値nタプルの完全照会引数リスト、および状態/モード)を、入力の理解に必要と考えられる異なるエンジンのためのデータ・ファイル413(または少なくともそのような会話引数の識別子)(たとえば、エンジンがFSG、トピック、語彙、HMM(隠れマルコフ・モデル)、声紋、言語モデル、音声入力のための考えられる照会などのそれぞれのタスクを実行するのに使用するファイルまたは引数)と共に蓄積する。言い換えると、「コンテキスト」という用語は、(アクティブと非アクティブとを問わず)各ディスコースの状態を指し、ディスコースの過去の履歴、その現行状態、特定の特性、および対応するタスクの照会引数(たとえば各アクティブ・タスク/プロセスの語彙ファイル、言語モデル、解析、タグ、声紋、TTS規則、文法、NLUなど)を、入力理解に必要なデータと共に追跡する。分散CVM(後述)では、(コンテキストおよびグローバル履歴に関して前述したように)コンテキスト・スタック(およびその他のCVM構成要素)はネットワーク・サービスに直接関連付けることができる(すなわちネットワークを介して分散される)ことを理解されたい。
【0074】
具体的には、各新規タスク、プロセス、またはスレッドは、新しいスタック項目を作成し、ディスコースに関連付けられる。各アプリケーションは、複数のディスコース(たとえばアプリケーション管理ディスコースとアプリケーション・コンテンツ・ナビゲーション・ディスコース)と関連付けることができる。所与のディスコースに関連付けられた各コンテキストは、対応するプロセス/タスク/スレッドに対して行われた最新の要求および最新の出力を含む。所与のディスコースのコンテキストには、たとえば実際の照会をマップするアクティブな文法、語彙、および記号言語も関連付けられる。この場合も、最新の情報が履歴およびコンテキスト・スタックに格納される。過去の履歴、コンテキストおよびその他の情報は、メタ情報マネージャ403によって管理され、メタ情報の一部として記憶される。
【0075】
対話コントローラ404は、(後述するようにタスク管理がタスク・ディスパッチャ/コントローラ402によって制御されて)ネットワーク装置からローカルまたはリモートで生成される各新規タスク/プロセス/スレッドのためにコンテキスト・スタック405内に新しいスタック項目を作成することによって、コンテキスト・スタック405を管理する。各アクティブ・アプリケーションに複数のディスコース(たとえばアプリケーション管理ディスコースとアプリケーション・コンテンツ・ナビゲーション・ディスコース)を関連付けることができる。前述のように、所与のディスコースに関連付けられた各コンテキストは、対応するプロセス/タスク/スレッドに対して行われた最新の要求と最新の出力とを含む。さらに、所与のディスコースのコンテキストには、たとえば実際の照会をマップするアクティブな文法、語彙、および記号言語(属性値nタプル)も関連付けられる。コンテキスト・スタック405は、機械状態スタックに関連付けられ、それによって、ユーザからの新規入力があると、対話コントローラ404は入力コンテキストが適切に設定されるまでコンテキスト・スタック405を走査する。これは、基本的に最新および過去のディスコースのうちからユーザと機械とのアクティブ・ディスコースを見つけて選択することになる。
【0076】
タスク・ディスパッチャ/コントローラ402は、ローカルおよびネットワークかされた従来型および会話型のリソース上で(ユーザおよび機械によって)生成された異なるタスクおよびプロセスのディスパッチと調整を行う。タスク・ディスパッチャ/コントローラ402は、基本的にリソース割り振り機構であり、一般に(従来型タスクと会話型タスクとを問わず)タスクをディスパッチし、アクティブ化し、すべてのリソースの負荷と可用性を監視することによって各タスク、リソースなどの状況を制御し、様々なタスクを様々なリソースに適切に割当て、シフトさせる。このリソース割り振り機能では、各リソースの現行負荷と、各サービスおよびアプリケーションに必要なものとを判断し、それらを扱うことができるリソースにタスクをディスパッチすることによってシステム全体の負荷分散/管理を行い、全体的なシステム負荷および会話フローを最適化する。タスク・ディスパッチャ/コントローラ402は、(会話型タスク・マネージャ417を介して)会話型システム管理手続きと、(前述のディスカバリ、登録、折衝、および分散会話型プロトコルを介して)異なるリソースによって交換される情報とに依存する。タスク・ディスパッチャ/コントローラ402は、これらのリソースを追跡し、従来のサブシステム(たとえばGUI入出力およびシステム、ビデオ認識エンジンなど)および会話型サブシステム407を、コンテキスト・スタック405上の異なるタスク間で分配する。さらに、タスク・ディスパッチャ/コントローラ402は、基礎オペレーティング・システムのサービスを使用して、従来型タスク・マネージャ417のレベルでオペレーティング・システムによって制御可能な従来型タスクを制御する。この場合も、前述のように、従来のオペレーティング・システムは会話型タスク・ディスパッチャ/コントローラ402の指示によりタスク管理を行うことができる。
【0077】
タスク・ディスパッチャ/コントローラ402は、従来型および会話型のサブシステム・サービス412、406から(アクティブ・コンテキストを選択する対話コントローラ404を介して)コンテキスト・スタック405に入力を供給し、異なるタスクの出力を異なるサブシステムに供給し、それらに優先順位を付ける。また、タスク・ディスパッチャ/コントローラ402は、コンテキスト・スタック405によりエージェント/デーモンの形の会話型支援および記憶タスクの挿入と管理も行う。タスク・ディスパッチャ/コントローラ402は、アクティブ会話および会話履歴、遅延戻り、ネットワーク・リソース間の委任、タスク委任、要約、および記憶(これらの機能については後述する)に従って、出力の生成と順位付けを調整する。
【0078】
対話コントローラ404は、(タスク・ディスパッチャ・コントローラ402に登録されている)すべての従来型および会話型アプリケーションにわたって対話(対話型=音声およびマルチモーダルすなわちGUI、キーボード、ポインタ、マウス、ビデオ入力など)を管理する。前述のように、アプリケーションは(API呼出しまたは折衝プロトコルを介して)アプリケーションの状態、最新の入力をどのように解釈するか、およびそのような解釈の信頼度に関する情報を交換する。対話コントローラ404は、アクティブなコンテキストおよびアプリケーションの管理と判断を行う。また、対話コントローラ404は、対話コントローラ404がアクティブなアプリケーションを判断するのを支援するためにアプリケーションが情報を交換するための会話型プロトコルを管理したり、そのような判断ができない場合に曖昧性を解決するための小規模な対話をアクティブ化したりする。
【0079】
図5に、対話マネージャ404の機能を図示する。図のように、異なるタスク(タスク1、タスクN)およびリソース(会話型サブシステムA〜Z)がCVM401によって管理される。CVM401は、(対話マネージャおよび会話型プロトコルに関して前述したように)どのアプリケーションがアクティブであるか、コンテキストをどのように変更すべきかを決定する。分散アプリケーションでは、この機能は前述の対話マネージャ・プロトコルによりメッセージを送ることによって実行される。対話マネージャ・プロトコルを使用してローカル並列アプリケーション間で情報を交換することを理解されたい。設計時に対話マネージャおよびエンジンにとって未知の複数の(ローカルまたはネットワーク化)対話/アプリケーションにわたる対話とコンテキストを管理する機能は、ジェネリックNL処理と呼ばれるものであり、プラグ可能対話マネージャおよびNLアプリケーションである。
【0080】
アプリケーションはCVM401に対して(前述のようにCVM APIによって)直接、オペレーティング・システム(またはJVM(Java仮想計算機)などの基礎システム)に対して直接、またはMicrosoft Windowsなどのオペレーティング・システムに対して呼出しを行うことができることを理解されたい。CVM401を介して呼出しが行われると、タスク・ディスパッチャ/コントローラ402を介して登録され、対話(マルチモーダルとすることができ、音声入力または出力がなくてもよい)は対話コントローラ404によって管理される。呼出しが完全に基礎オペレーティング・システムに対して行われる場合、対話コントローラ404はアプリケーションと間接的にのみ対話する。すなわち、従来の呼出しは従来型タスク・マネージャ417によって管理され、したがってタスク・ディスパッチャ/コントローラ402に渡されると、タスク・ディスパッチャは従来型タスク・マネージャ417と協調し、命令するため、タスク・ディスパッチャ/コントローラ402によって考慮される。タスク・マネージャ417は、そのアプリケーションを対話コントローラ404に登録し、タスク・ディスパッチャ/コントローラ402が認識している状況変更を更新する。従来型アプリケーションがC&C(コマンド・アンド・コントロール)インターフェース(またはその他のタイプの音声インターフェース)によって管理される場合、アプリケーション対話は対話コントローラ404への登録により対話コントローラ404によって登録され、制御される。これらは特別な場合であることを理解されたい。しかし、一般に、下位互換性または非互換アプリケーションが問題ではない場合、対話コントローラ404は、コンテキスト・スタック405を介してすべてのアプリケーションの対話を制御し、コンテキストを管理する。CVM401は、すべての従来型機能、サービス、および動作を再実施することができることを理解されたい。その場合、CVM401は、従来型オペレーティング・システム上のプラットフォームとしては実行せず、それ自体でオペレーティング・システムとして機能し、すべての従来型呼出しを取り込む。
【0081】
CVM401は、CVM401に関連付けられたファイル(またはレコードや名前空間などの装置に合わせて適合化されたその他の同様のエンティティ)、ディレクトリ、オブジェクト、およびアプリケーションなどの要素、その他のリソースまたはオブジェクト(ローカル、ネットワークなど)、およびユーザに関する情報(選好、セキュリティ上の習慣、バイオメトリクス、振舞いなど)を管理するメタ情報マネージャ403をさらに含む。メタ情報マネージャ403は、このような要素およびシステム・リソースを抽象カテゴリおよびメタ情報を介して高水準の従来型抽象化と関連付けることによって、これらの要素を管理する。たとえばオブジェクト表現は、各オブジェクトに関連付けられた内容主導のメタ情報(たとえばセキュリティ・フィーチャ(ユーザおよび作成者)、写真、描画、画像のような抽象概念とファイルとの関連付け)のように、高度な知識表現を含むように拡張される。これらの各要素は1つまたは複数のメタ情報カテゴリに関連付けられる。これらのカテゴリは、オペレーティング・システム、アプリケーション、またはユーザによって定義される。各ファイル、ディレクトリ・オブジェクト、およびアプリケーションは、カテゴリ定義および関連付けられた関数を指すことによって、またはこれらのクラスに登録することによって、定義されたカテゴリのうちの1つまたは複数のカテゴリに関連付けることができる。以下で詳述するように、抽象メタ情報を使用して、ファイル・システムまたはその他のオブジェクト、リソースまたはユーザの要素へのショートカットを設けたり、自動的に抽出し、処理することができる。
【0082】
具体的には、メタ情報マネージャ403は、複数のカテゴリと共に抽象メタ情報およびプロトコルを使用してファイル・システムを管理する。これらのカテゴリは、リソースの所有者/開発者、またはリソースの過去の使用者/アプリケーションが定義することができる。CVM401は、従来のファイル管理システムとは異なりアソシアティブ・メモリに依存し、ファイルに関する情報がオペレーティング・システムによって次の3つの主な形態で取り込まれるので有利である。すなわち、(1)ファイル名の拡張子、(2)ファイル名のヘッダ、および(3)ファイル内容のタイプ(バイナリかASCIIか)(ただし、本明細書に記載の抽象カテゴリ概念はこのような従来のファイルシステムを大幅に改良することができる)である。会話型システムでは、追加のレベルの抽象化を加えて、ファイルの内容または役割を特徴付けることができる。たとえば、各ファイルにファイルを特徴づける抽象クラスのセットを関連付けることができる(それに対して従来は、たとえばGIFファイルにはデフォルトによりそのファイルを開いたり編集したりするソフトウェア・アプリケーションが関連付けられる)。さらに、複数のディレクトリ/ファイル・システム表示が、デフォルトによりこれらの拡張を表示情報に含めたり除外したりする。他のイメージ・タイプのファイルは、自動プロセスを利用するために、アプリケーションのレベルで、または好ましくはオペレーティング・システムのレベルで登録する必要がある。逆に、不正または曖昧なファイル拡張子によって、不正な自動化タスクが発生することが多い。一方、ヘッダによって、所与のファイルの内容および処理要件に関するより詳細な情報が伝えられる。しかし、現在、MIMEヘッダのようなヘッダは、通常、アプリケーション、たとえば電子メール、またはプロトコルおよび言語、たとえばHTTPおよびHTMLのクラスのためにのみ作成される。
【0083】
本発明によると、ファイルは抽象メタ情報と関連付けられる。これは、トピックまたはイメージ分類子などによって自動的に、またはアプリケーション、ユーザ、プラットフォームなどによって明示的に行うことができる。たとえば、イメージ、写真、映画、描画の概念によって、多様な抽象カテゴリを定義することができる。したがって、ファイルはこれらの異なる用語によって、ファイルの形式、拡張子、または用法とは独立して特徴付けることができる。さらに、CVMは、アプリケーション開発者(登録される)またはユーザ(カスタマイズまたは用法)が、複数のアプリケーションにわたるカテゴリを追加する機能も備える。
【0084】
この抽象化は、ファイルだけでなくディレクトリ、オブジェクト、およびアプリケーションにも拡張可能であることを理解されたい。たとえば、リンク、マクロ、ショートカット、さらにはブックマークのような概念を特定の概念カテゴリと関連付けることができる。これらのカテゴリによって、たとえばすべての財務アプリケーションまたはすべての財務ファイルか、すべての描画アプリケーションまたはすべての画像ファイルかを表示することができる。
【0085】
メタ情報マネージャ403は、CVMプラットフォーム上に設けられたオブジェクトまたは構築されたオブジェクトをカテゴリの二重リンクリストに関連付ける。同じ機能を実現する他の実施態様を使用することもできることを理解されたい。CVMプロットフォームは、定義されているすべてのカテゴリのリポジトリ・テーブルを含み、これはメタ情報マネージャ403によって管理される。カテゴリによってはユーザまたはアプリケーションに依存する場合がある。CVMプラットフォーム・システム呼出しを使用して、ユーザまたはアプリケーションは新規カテゴリを作成し、それらのカテゴリに新規オブジェクトを関連付けることができる。これは、特にファイル・システムの場合に言えることである。さらに、CVMプラットフォームによって、またはユーザ/アプリケーションによってシステム呼出しを介して動的に提供される情報、すなわち、作成日付、使用日付、使用者、時間、回数、オブジェクト作成者、オブジェクトのコンパイル者を、各オブジェクトに付加することができる。
【0086】
オブジェクト、アプリケーション、ユーザ、またはプラットフォームによって提供される情報に基づいて、オブジェクトの内容に索引付けすることができる。これらの索引は、オブジェクトに関連付けられた動的情報の一部である。索引付けまたはトピック検出あるいはその両方は、可能なときにオンザフライで、またはバッチ・モードで行うことができる。
【0087】
さらに、メタ情報を使用可能なリソースに関連付けることができるのと同様に、メタ情報、抽象化、および抽象カテゴリをディスパッチされた各タスクおよびプロセスに関連付けることができることを理解されたい。プロセスおよび負荷管理に加えて、これはきわめて明細なタスク選択を提供する。たとえば、1つの会話型要求で、ユーザは、タスクの出力を聴取するか、またはコンテキスト・スタックを探索してタスクのための入力(たとえばマイクロフォン)を再要求し、ウェーブ・ファイルまたはASCIIファイルに対して入力ストリームを付加するように指示することができる。同様に、たとえば、ユーザは、単一のリダイレクト要求を与えることによってファイル送信先のプリンタをリダイレクトすることができる。
【0088】
ファイル・システムのレベルの抽象カテゴリの使用の概念は、好ましくは、CVMオペレーティング・システムによって使用可能またはアクセス可能などのようなオブジェクトまたはリソースあるいはその両方にも拡張されることを理解されたい。したがって、ネットワーク化アプリケーションおよび分散アプリケーションの場合、メタ情報マネージャ403は、リソースの所有者/開発者またはリソースの過去の使用者/アプリケーションによって定義された、非ローカルのオブジェクトまたはリソース(たとえばファイル・ディレクトリ、ディスク、オブジェクト、周辺装置、アプリケーションなど)に関連付けられた複数のメタ情報カテゴリを管理することができることを理解されたい。実際に、抽象カテゴリは、特定のリソースがローカル・リソースであるかネットワーク・リソースであるかに関係ないことと、リソースへのアクセスまたは接続を介してリソースを抽象カテゴリに登録したり、新しい抽象カテゴリを作成することもできることを理解されたい。具体的には、アクセス可能でまだアクセスされていない新規オブジェクトは、そのメタ情報を登録しなければならず、この登録プロセスは機械が接続するときにローカルで行うか、またはそれ自体、その内容、またはそのカテゴリを登録するDNS手法または名前空間マネージャに類似したサーバに対して行うことができる。このプロトコルは、(たとえばActiveX、Javascript、Javeアプレット、Vbscriptを介して)アプリケーションまたはオブジェクトを機械にダウンロードまたは転送する場合、ローカルでも使用され、それによってアプリケーションはその抽象カテゴリを自動的に登録アクティブ化することができる。リモート・システムとの接続時に、またはオブジェクトまたはその内容に関連付けられた抽象カテゴリのリストを更新する(DNSサーバまたは名前空間サーバに類似した)メタ情報サーバを介して、(上述のように)登録プロトコルを使用して、新しい非ローカルオブジェクトに関連付けられた新規カテゴリが自動的に作成される。この自己登録機構により、ネットワークからダウンロードされる新規オブジェクトまたはネットワークに転送されるオブジェクトは、同じプロトコルを使用してそのオブジェクトに関連付けられたメタ情報を伝達し、ローカルで登録することができる。二重リンクリストおよびリポジトリをプラットフォーム・リストに付加することができる。リソースが新規カテゴリを登録すると、新規カテゴリはそのリソースに関連付けられたものとして指される。リソースが破棄されると、対応するカテゴリは削除される。
【0089】
ローカル・オブジェクトに関連付けられたメタ情報と同様に、抽象メタ情報を使用して、ネットワークの非ローカル要素へのショートカット、自動抽出または処理を行うことができる。これらのリソースは、アクティブ抽象カテゴリまたは登録リソース内に少なくともしばらくは記憶する必要がある。カテゴリ定義および関連付けられた関数を指すことによって、または適切なクラスに登録することによって、リモート・アクセス可能な各非ローカル・オブジェクトまたはリソースをこれらの異なるカテゴリに関連付けることができる。
【0090】
たとえば、watson.ibm.comイントラネットに属するすべてのリソースとして「watson」リソース、または閲覧したすべての財務ホーム・ページを参照することが可能になる。現在、従来のブラウザ(またはビューワ)では、ページまたはファイルのURLを記憶し、その後、ユーザが手動で分類することはできる。本発明の手法の結果、ヘッダ形式またはHTML内(たとえば現行HTML仕様で指定されているコメント・フィールド内または適切なメタ・タグ内、または追加の会話型プロトコル・ハンドシェークのため)に当初から含まれているその他のメタ情報に基づいて、抽象カテゴリが自動的に作成または登録されることになる。したがって、ブックマークは、アクセスまたは追加時に自動的にカテゴリ化される。
【0091】
メタ情報マネージャ403およびリポジトリは、一般に、会話型対話では既知であるとみなされるが現行の会話のレベルでは入手できないすべての情報を収集する。例としては、先験的知識、文化的、教育的前提事項および不変の情報、過去の要求、参照、ユーザ、アプリに関する情報、ニュースなどがある。一般には、これは、会話履歴/コンテキストの長さ/存続期間を超えて保持され持続する必要がある情報であり、その会話にとって共通の知識であると予想され、したがって現在および過去の会話型対話中に定義されていない情報である。
【0092】
データ・ストリーム処理の一様性は、メタ情報を介した抽象カテゴリ化を簡略にし、類似した抽象カテゴリ、ファイル、オブジェクト、アプリケーション、およびローカル・リソースまたはネットワーク・リソースとしてカテゴライズできるようにする重要な方法である。
【0093】
入出力データ・ストリームを処理する際のCVM401のタスク・ディスパッチャ/コントローラ402、対話コントローラ404、およびコンテキスト・スタック405間の対話について、以下に詳述する。本発明は、(複数のドメインを持つ)複数のタスクにわたって記憶されたコンテキストおよび混在主導権によるNLUインターフェースを提供することを理解されたい。具体的には、本発明は、複数のドメインを有する複数のアプリケーションにわたるNLU、NLG、および混在主導権による自然な対話を設ける機能を提供する。なお、各アプリケーションはCVM401にアプリケーション自体の解析および変換引数を提供する。以下で詳述するように、NLUエンジン410は、照会に順次に(書式記入)または並列して(たとえば手続きスレッド、並列会話型オブジェクト/手続き、または並列書式)タグ付けすることができる。曖昧でない照会を生成して対話を完了した最初のタスクが実行され、他のアプリケーションによって解釈された対応する照会が記憶されて、認識された照会がユーザによって拒否された場合にアクティブ化する。
【0094】
会話バイオメトリクスを使用してユーザに関するコンテキストおよびメタ情報を収集することができ、照会をユーザ選好のためにカスタマイズまたは適合化したり認証したりすることができるだけでなく、その情報を使用してより堅固な認識を行うことができることを理解されたい。したがって、ユーザを認識するためにどのような情報でも蓄積することができる。すなわち、照会の通常の言い表し方、言い表された照会のタイプ、コマンド頻度(頻繁に使用されたか頻繁には使用されていないか)、好まれたアプリケーション、時刻、または用法などである。会話バイオメトリクスは、米国特許第5897616号で開示されている方法を使用して構築することができる。
【0095】
次に図6を参照すると、本発明の一実施形態による会話型入出力インターフェースが図示されている。図のように、本発明の一実施形態による会話型入力インターフェースは、自然インターフェースを含む、電話600、キーボード601、ポインティング・デバイス602、手書き装置603を介したマルチモーダル入力、すなわちファイル/ストリーム/リソース、音声を処理することができる。これは、あらゆるモーダリティにわたるすべての入出力イベントを捉え、(コンテキスト・スタックに適切に記憶する)対話マネージャに転送することを意味する。音声クライアント(たとえば電話600)からの発話入力は、音声認識プロセス604を受け、その他の入力(たとえばキーボード、マウス・クリックなど)はNLU処理605される。各入力は、属性獲得(401a)を受け、それによって入力から属性値nタプルが獲得される。要約プロセス401bを行い、それによって属性値nタプルがコンテキストに加えられる。次に、バックエンド・アプリケーション608の構文によって照会が完全、不完全、曖昧のいずれあるかを検証する。また、バックエンド・アクセスは、対話マネージャおよびコンテキスト・マネージャによって追跡される。場合によっては、いくつかの一義化機能(対話マネージャの機能)をバックエンドにロードすることによって、「インテリジェンス」の一部をバックエンドに分散することもできる。個別には、各入力ストリームは従来のように動作する。重要な会話型態様は、(入力照会の自然言語理解を実現するために)コマンドをNLUで、または(自由な自然入力ではなく、文法および語彙の規則に従って制約された入力の場合)FSGモードで入力することができる入力手続きである。コマンドまたは照会は、欠落フィールドを満たすことによって、またはアクティブ・タスクのための不正なフィールドを訂正することによって、完全なものにしたり訂正することができる。したがって、CVMは、従来のOSでは満たされなかった、入力の曖昧性を生じさせる同時入力ストリームをマージする問題を導入する。たとえば、リダイレクトされた入力ストリームは言うまでもなく、入力はキーボード入力、手書き入力、音声入力を結合することができる。したがって、本発明は、曖昧性を解決する機構を備える。これは、前記で引用した米国特許出願第60/128081号に記載されているようにして行うことができる。
【0096】
本発明によると、この入力の問題は、複数のデコーダ、ASCII転記、または属性値nタプルの出力のマージとして扱われる。各入力ストリームを、ASCII転記に変換し、音声認識処理604を通した入力タイム・マークと合致させる。異なる入力ストリームが同じタスクに関連付けられている場合、それらの転記を以下のようにマージする。まず、コマンドと照会をタイム・マークに基づいてソートし、単一のデータ・ストリームに付加する。コマンド形式をFSG規則と照合し、文法規則を満たすように再ソートする。NLU照会は必ずしも再ソートを必要としない。NLUの場合、ストリームごとに記号フィールドを満たし、次に最終入力ストリームのレベルで結合する。スペリングや英数字コードなどの引数は、順序付けの曖昧性を解決するのに文法規則やNLUを利用しない。固有ストリームの作成にも同様にタイム・マークを使用する。しかし、入力は確認のためにユーザにフィードバックされ、場合によってはアプリケーションに依存する辞書またはFSG規則書を使用して事前フィルタリングされる。
【0097】
ネットワーク・ベースの対話の場合、前述のように、各機械がネットワーク内の他の装置のタスク・ディスパッチャ/コントローラに登録し、その会話機能に関する情報を提供する。言い換えると、通常のデスクトップ機は、完全会話機能を登録するのに対し、電話は登録するか(高度自動機能電話)またはそのサーバにに画面、キーボード、ポインタのない装置として登録させ(通常電話)、PDAは、単一ウィンドウ装置などとして登録する。システム間では関連のある入力のみが交換される。
【0098】
要約すると、この入力手続きは、マルチモード入力ストリームのセットを形成し、それぞれがASCIIコマンドまたは属性値nタプルのリストに転記される。各入力エンティティ(コマンド、NLU照会フィールド、または引数ユニット(分離文字、語など))がタイム・マークに関連付けられ、結合された入力ストリームにそれに応じて付加される。2つ以上のストリームが全く同じタイム・マークを有する場合、それらは各入力ストリームが前に寄与した時間に基づいて優先順位が付けられる。結合された入力はFSGおよび辞書と照合され、任意選択によりユーザにフィードバックされる。各リソースがそれぞれの会話機能を交換し、入力ストリームは関係のある情報のみを交換するように調整される。
【0099】
会話出力のディスパッチおよびインターフェースについては、CVM401は、ファイル/ストリーム/リソース、ディスプレイ(単一またはマルチウィンドウ、GUI、カラー、画像、動画)、音声への出力を生成する。個別には、各出力ストリームは従来のように動作する。しかし、コンテキスト・スタック405およびタスク・ディスパッチャ/コントローラ402により、複数のプロセスの出力が同時に同じ出力ストリーム(たとえば同じテキスト・モード・ディスプレイまたは音声合成装置)上でぶつかる場合がある。また、1つのタスクの出力がいくつかの出力ストリーム間で多重化される場合がある。
【0100】
各出力ストリームは従来のように動作する。あるいは、出力はタスクの出力と対話プロセス(たとえば指示された対話または混在主導権)の生成出力のいずれかの場合がある。異なるカテゴリの出力ストリームが存在する。たとえば、単一チャネル出力(たとえばダミー端末(VT100またはPalm Pilotスクリーン)や音声のみの出力)では、当該リソースを使用するすべての出力メッセージが同じチャネルを使用する(または場合によっては同じチャネルを共用する))(たとえば、音声出力、固有ウィンドウ/画面、またはテキスト出力)。多重チャネル出力では、各タスクの出力ごとに別々のチャネルが存在する(たとえばWindows GUI)。単一チャネルへの複数のタスクの出力ストリームは、コンテンツ・スタック405と、タスク・ディスパッチャ402によって割り当てられた優先順位とに基づいて待ち行列化される。単一チャネル出力がユーザに提供されると、イベントはアクティブになり、コンテキスト・スタックの最上位に置かれる。多重チャネル出力には優先順位は付けられず、非同期的に更新され、タスクを最上位には上げない。
【0101】
また、タスクによって割り当てられ、ユーザが修正可能な出力ハンドルに基づいて、各タスクからの出力を多重化し、複数の出力ストリームにすることもできることを理解されたい。ネットワーク・ベースの対話の場合、各機械は、ネットワーク内の他の接続装置のタスク・ディスパッチャ/コントローラに登録して会話機能に関する情報を提供する。たとえば、前述のように、通常のデスクトップ機は、完全会話機能を登録する。電話は登録するか(高度自動機能電話)、またはそのサーバが画面、キーボード、ペン、ポインタのない装置として登録し(通常電話)、PDAは、単一ウィンドウ装置(たとえばPlam Pilot)などとして登録する。システムの間では該当する出力だけが交換される。
【0102】
すべての出力、特に音声出力は、ユーザがカスタマイズし、プログラムすることができることを理解されたい。テキスト表示のためのフォントを選択することができるように、出力を発話する音声の選択を行うことができる。この場合は、Voiceフォントのことである。会話形式設定言語を使用して複雑な会話提示を作成することができる。要約すると、CVM401は、多重化されている場合であっても、単一チャネル出力への複数タスクの出力をコンテキスト・スタック405とタスク・ディスパッチャ402に基づいて待ち行列化する機構と、各入力ストリームに割り当てられたリソースのリダイレクトまたは変更を行う機構とを備える。各リソースは、それぞれの会話機能を交換し、出力ストリームは、出力Voiceフォントの選択、GUIイベントを含む会話提示の形式設定、およびその他の音声コンテンツを含めて、関係する情報のみを交換するように調整される。
【0103】
次に、CVM401による入出力処理について説明する。前述のように、CVM401は様々な活動を整理しなければならない。たとえば、基本システム呼出しは、異なるサブシステムに関与する複数のアクションを生成する必要がある。このようなアクションには、タスクの実行、新規入力の聴取、出力/フィードバックの生成が含まれる。たとえば、タスク・ディスパッチャ/コントローラ402は、コンテキスト・スタック405に基づいて、対話コントローラ404に対する照会を操作しなければならない異なる統計的パーサを決定して、アクティブ・コンテキストを特定し、照会を完全なものにする。これらのアクションは、たとえば完成された照会を実行し、コンテキスト・スタック405を更新し、不完全または曖昧な照会/コマンドについてユーザにフィードバックを提供し、新規入力のデコードを可能にし、コンテキスト・スタック405を探索し、実行されたプロセスまたは実行されているプロセスの出力を返すように、適切に優先順位付けされなければならない。
【0104】
タスク・ディスパッチャ/コントローラ402は、各タスクまたは装置に、会話型引数を有する会話型エンジンを関連付ける。1つのアプリケーションまたは装置について1つのエンジンがある場合、各アプリケーションまたは装置のNLUエンジンは、(前述のように)並列(手続きスレッド)または順次(書式記入)とすることができる。複数の装置/アプリケーションが同じエンジンを共用する場合、NLUエンジンは、手続きスレッドと並列である必要がある。新規照会の拒否または尤度は、会話型引数に基づいてアクティブ化されたタスクによって管理される。拒否された照会または可能性の低い照会があると、対話コントローラ404はコンテキスト・スタック405を調べて使用可能な次のコンテキストを探す。各アクション、完成した照会、会話型引数と、各戻り値/結果は、コンテキスト・スタック405に格納される。さらに、適切な場合、戻り値および結果によって過去のコンテキストがアクティブ化される。
【0105】
タスク・ディスパッチャ/コントローラ402は、各コマンド/プロセスを複数のアクションに分け、適切な優先順位で関連付けられたスレッド/プロセスを開始し、それらをコンテキスト・スタック405に関係づけ/挿入する。タスク・ディスパッチャ402は、各リソースを割り振り、生成された異なるアクションにそれらを分配し、リソースとの間でのハンドルおよびストリームを制御する。タスク・ディスパッチャ402は、モーダリティ(ポインタ、キーボード、ファイル、音声)に基づいて、ストリームを適切な会話型サブシステムまたは、転記/把握された音声入力を有する会話型サブシステムにリダイレクトする。これらのサブシステムの出力は、コンテキスト・スタック405を探索してアクティブ照会を取り出し、それを完成させる。他方、出力は各タスクの優先順位に基づいて待ち行列化され、出力リソースに順次ディスパッチされる。
【0106】
アクティブ化されたディスコースがあるか否かを問わず、各新規(アクティブ)タスク/プロセス/スレッドによって、コンテキスト・スタック405内に新規タスク項目が作成される。コンテキスト・スタックには機械状態スタックが関連付けられ、ユーザからの新規入力があった場合に、入力コンテキストを適切に確立することができるまでコンテキスト・スタック405を走査することができるようにする。この結果、基本的に、最新および過去のディスコースのうちからユーザと機械との間のアクティブ・ディスコースを見つけて選択し、場合によっては履歴に戻る。この選択プロセスについて、以下に詳述する。さらに、各タスクには混在主導権層が関連付けられる。この層は、従来のオペレーティング・システムにおけるコマンド行の用法情報の会話版と同等の単純なものにすることができる。対話コントローラ404は、まず、ユーザ・コマンド照会がコマンド照会の構文レベルで完全か曖昧かを調べる。不完全または曖昧と見なされるコマンドは、同様に優先度(注目しているアプリケーションが最上位)によって適切な会話型エンジン407に返され、会話型エンジン407は欠落情報または曖昧な情報の要求(プロンプト)を生成し、コンテキスト(要求した欠落フィールド)を更新する。また、単純に、要求はプロンプトをより良く定式化することができない場合(たとえばレガシー・アプリケーション)、不完全で曖昧である言うこともできる。
【0107】
一方、完全で曖昧さのないコマンドの場合は、特定の結果(出力またはアクション)が得られる。会話型システムのようにユーザによってリダイレクトされない場合は、これらの結果も同様に優先度によって適切な会話型エンジン407に返され、コンテキストが更新される。しかし、リダイレクトは、結果をリダイレクトするときに部分混在主導権通知を行うため、より高度になり得る。後で詳述するように、これはたとえば会話型アシスタントによって実施することができる。これは、従来のシステムで実現するときわめて複雑になり、恐らく特別に作成されたスクリプトに出力をリダイレクトすることが必要になるであろう。コマンドは、CVMプラットフォーム、アプリケーション、またはユーザ選好から供給される選好/設定値に基づいて、実行の前にユーザによる確認も必要とする場合がある。
【0108】
アクティブ・コンテキストの完了/探索は、コンテキストごとにスタックを走査して行われる。すなわち、新規照会または引数は、対話エンジンが需要可能な一致を入手するまでスタックを下方に走査することによって比較され、任意選択によりユーザから確認を得る。NLU記号言語のレベルで発話と合致するコンテキストが見つかると直ちにそのコンテキストがアクティブになり、それに対応するプロセスがアクティブになる。アクティブ・コマンドが完了するまで、または新しいコマンドが与えられるまで、この選択されたコンテキストがアクティブとしてマークされ、コンテキスト・スタック405の最上位に置かれる。ユーザにメッセージが返されると、コンテキストは更新されて、アクティブ・コンテキストの下に、コンテキスト・スタック405の最上位に押し上げられる。アクティブ・コンテキストは更新されて、戻り値があることが通知される。これは、CVMセッション・ディスコースのレベルでも行うことができる。CVMセッション・ディスコースはスタック内に、または常にスタック以外にも置くことができ、アクティブ・コンテキストの直後に、スタックを走査する前に探索される。同時に完了したタスクは、CVMの優先順位(たとえばFIFOまたはFILO)に従ってアクティブ・コンテキストの下に配置されるコンテキストとなる。タスクを生成するのに十分に完成されたアクティブ・コンテキストは、スタック内で次のコンテキストまたは返されたすべてのコンテキストの下に押し下げられることになる。あるいは、アクティブ・ディスコースになることもある。これは、自動的に、またはユーザがコマンドを出したときに行うことができる。このスタック構造によって、複数のタスク、スレッド、またはプロセスとの曖昧性のない会話型対話を維持することができる。
【0109】
要求が完全な場合はそれが実行されるが、たとえば取消しができない場合には、ユーザによる確認を要求することがある。要求が不完全な場合、混在主導権を使用して、照会/コマンドの完成または修正を続ける。コマンド/要求が続けられる場合、ユーザがディスコースを拒否する自由をコンテキストに残しておく。これは、直前のスタック状況(およびプログラム状況)を復元し、スタックを下方に走査することになる。ユーザは、スタックの上方に戻って明示的に要求する必要がある。実行の前またはユーザへの実行の通知の前にユーザが入力を拒否する場合、またはただちに完了する場合、新規入力はアクティブ発話に付加され、スタックの最上位から探索を再開する。アクティブ・コンテキストが確立される前にユーザから提供されるその他の発話は、バッファに格納され、アクティブ発話(音声発話またはその他の入力モード)に付加されるものと見なされる。コンテキスト・スタックは、音声、キーボード、マウス、またはその他の入力またはコマンドおよびアプリケーション出力に応じて更新される。
【0110】
本発明によるCVM401が備える特に有用な機能は、「会話記憶」である。会話記憶は、遅延してユーザ、プラットフォーム、または特定のアプリケーションによって割り当てられたタスクおよびコンテキストに戻る機能である。一般に、ユーザによって出された命令/コマンドは、システムのバックグラウンドに明示的に送られる。このようなコマンドは、いくつかの特定のタスクまたは機能が割り当てられたデーモンまたはエージェントを開始する場合がある。これらは記憶を行うことができ、それによって、コマンドまたはイベントのCVM「タスク・ノート」が得られ、それを報告または実行し、ユーザが選択した特定の時点またはデフォルトによる特定の時点(たとえばセッションの終わり)にユーザに返される。したがって、出力またはバックグラウンド・タスクをリダイレクトして、その結果を後の時点で提示することができる。会話型エージェントが起動される。従来のバックグラウンド・タスクおよびエージェントとは異なり、リマインダ(覚え書き)または結果がユーザに返されると、記憶要求時点の会話コンテキストが復元される。記憶が行われた時点で、コンテキスト・スタック405のスナップショットがとられ、記憶されたタスクに関連付けられたメタ情報として記憶される。コンテキスト・スタック405は、記憶されたタスクがユーザと対話する時点で配列し直される。現行コンテキスト・スタックが記憶され、古いコンテキスト・スタックはスタックの上部に加えられ、その際、タスクの開始とその完了の間のコンテキストとダイアログの展開による中間変更に基づいて、ユーザまたはアプリケーション・プログラマによってプログラムされた更新、またはCVMによって加えられる更新が行われる。前のコンテキストに戻ることによってユーザと記憶されたタスクとの対話が完了すると、前のコンテキスト・スタックがスタックの最上部に追加される。コンテキスト・スタックが追加されると、重複するものは、スタックの最下部で除去することができる。ユーザ、プラットフォーム、またはアプリケーションは、スタックの保管部分のみを保持するようにすることもできる。会話型アシスタントがこのようなタスクを行う。これらは、エージェントまたはデーモンが単独で実行するだけで実施することができ、出力を生成するときにのみユーザの再対話することができる。その出力は、タスクの優先度に従ってユーザに送られる。アクティブになると、ユーザはエージェントに関連付けられたタスクを容易に更新することができる。会話記憶は、言わばスタックの最下部に挿入されたタスクであり、セッションの終わりにスタックが空にされたときにのみ実行される。場合によっては、これらは所定の時点にスタック内のより高い位置に挿入したり、スタックの最上部に押し上げたりすることもできる。記憶機能は、過去のアクション、選好、および命令を記憶する機能を提供する。
【0111】
前述のように、記憶は、アクティブ・コンテキストのスナップショットを保管し、リマインダに関連付けられた会話を復元する。しかし、その時点でのユーザに対する会話とコンテキストを要約することができることも重要である。これを行うには、アプリケーションの開発者(またはユーザ選好、またはCVMプラットフォームによる何らかの決定)は、記入されている場合に、要約してユーザに提示されるフィールド(すなわち属性項目)を提供することができる。これは、システムの各変数/属性に関連付けられたメタ情報に特別なフィールドとして格納される。アプリケーション開発者は一般には、実際の変数名や属性指定ではなく、(使用可能な抽象名によって)各フィールドをアドレスする方法を記述することができる。要約は、アプリケーション決定(アプリケーションの再アクティブ化)、またはユーザの照会、またはCVMによる決定時にアクティブ化することができる。これは、アクティブ・プロセスを探索し、コンテキストを回復し、「照会に関連付けられた属性nタプルの埋込み状況」を要約する。要約タスクは、他のアプリケーションに類似したCVMのサービスであり、それによってユーザは要約アプリケーションと対話してより詳細な情報を得たり、要約のために時間を遡ったりすることができる。これは、「go back to application X(アプリケーションXに戻る)」または「you were telling me to do Y(あなたはYを行うように指示しています)」と言う単純なものや、対話の履歴をより詳細に遡るきわめて複雑なものにすることができる。
【0112】
CVM401が備える他の機能は、会話型リダイレクトである。たとえばUnixプロセスの入出力をリダイレクトするのは容易なため、会話型リダイレクトも同じ機能を実行する。しかし、リダイレクトは、ストリームをリダイレクトしているときに部分混在主導権通知を行うことができるため、より高度なものとすることができる。会話型呼出しを使用すると、優先度によってプロセス結果とユーザへの通知との出力を区別することができる。
【0113】
この場合も、前述のように、メタ情報、抽象化、および抽象カテゴリをディスパッチされる各タスクおよびプロセスに関連付けることができ、これによってタスクの特定の選択を行う。たとえば、1つの会話型要求によって(またはキーボードのボタンの押下げ、マウスのクリック、キーを設けることによって)、ユーザは、タスクの出力を聴取したり、コンテキスト・スタックの下方のタスクのために入力(たとえばマイクロフォン)を再要求し、ウェーブ・ファイルまたはASCIIファイルに対して入力ストリームに付加するように指示することができる。同様に、ユーザは、単一のリダイレクト要求を出すことにより、ファイルの送信先のプリンタをリダイレクトすることができる。
【0114】
オプション/選好の設定、システムの負荷、またはシステムの機能に基づいて、タスク・ディスパッチャ/コントローラ402は、ネットワーク・プロセッサ上でタスクを実行したり、または、別のプロセッサが入力の理解のために使用可能になり、アクティブになって入力を理解することができるようになるまで、またはそのようなタスクを実行することができる装置がネットワーク上で使用可能になるまで、ある種のタスクを据置きにすることを決定することができる。典型的には、ローエンドのハンドヘルド装置上で据置きされた口述は、このモデルに従う。この場合も、サーバ側がアクティブになって転記を行うことが可能になるまで、タスクはタスク上で記憶され、セッションごとに記憶される。同様に、ローカル機とサーバ機との共用インターフェースを、タスク・ディスパッチャ/コントローラ402によって管理することができる。たとえば、会話型ネーム・ダイヤラー・アプリケーションを高度自動機能電話に付加することができる。頻繁に使用する名前をローカルで記憶し、認識する。他方、未知の名前や、一度も使ったことのない名前は、認識のためにより強力なネットワーク機に送り、更新された情報(ダイヤルする電話番号など)をダウンロードする。同様に、ローカルで記憶されているすべての情報は、定期的に同期化して電話番号情報を更新することができる。このローカルのプロセス対サーバ・ベースの認識は、タスク・ディスパッチャ402によって隠蔽される。ネットワーク共用タスクは、タスクが実行される機械とは関係なく、いくつかのディスコースとしてユーザによって管理される。これは、すべてのトランザクションのためのすべてのプラットフォームにわたるCVM APIの有用性の一例である。これは、会話型プロトコルを使用したネットワーク装置間の会話型サービスの調整を行う方法およびシステムに類似している。さらに、クライアントとサーバの間の分散アーキテクチャおよび分散処理によって、会話型ネットワーキングの新たな要件が生じる。このような要件には、ネットワーク全体の会話型対話に関与する各ユーザの割当て対話を保証するための、トラフィック・フローと、ネットワーク全体に分散されたリソースの管理が含まれる。ここで要素を、ネットワークでの会話型対話のために使用することができる(たとえば対話フローを維持するためのサーバ負荷管理、タスク、特徴要件および機能要件、会話型引数の可用性(データ・ファイル)に基づくエンジン・サーバ選択、会話型プロトコル、再生のための再構築を可能にするピッチによるコーディング・プロトコルを提供する音声RecoVC(認識互換VoCoder))。
【0115】
タスク・ディスパッチャ/コントローラ402は、本明細書に記載の方式でCVMが行う従来型および会話型サブシステムの共用を行わない従来のOSと比較して、画期的なディスパッチ動作を示すことを理解されたい。実際に、従来のシステムでは、テキスト入力は常にウィンドウ内で順次に行われ、ただ1つのタスクにしか関連付けられない。キーボードと固有ウィンドウ内に表示されるテキストによって複数の同時タスクを扱う機能は、本明細書に記載のような会話型ディスパッチの原理のほとんどを使用する必要がある。タスク・ディスパッチャは、対話フローを維持する問題に対処し、したがってネットワークおよびCPUの負荷による遅延を最小限にする。タスク・ディスパッチャは、CPUサイクルと使用可能なネットワーク経路およびリソースに優先順位を付けて、対話の遅延が受容可能な程度まで最小化されるように保証する。エンジンがボトルネックになる場合、そのエンジンはより多くのCPUサイクルを受け取る(その遅れが再吸収されるまで高い優先順位を受け取る)。この場合も、これは、従来のコンピューティングに関係することである。ネットワーク経路が低速になり過ぎた場合、別の経路または別のリソースを見つけて遅延を最小限にする。そうでない場合、応答に遅延が生じる可能性があることをユーザに警告する。アクティブ対話の対話フローはCVMの優先事項である。接続されているすべてのユーザのアクティブ対話の対話フローおよび最小化された遅延は、CVMがネットワーク内のルータ・ゲートウェイおよびサーバ上で最適化する機能である。
【0116】
会話型CVMシステムが備える他の機能は、「会話型セキュリティ」であり、これによって、ローカルまたはリモートのファイル、特に実行可能ファイルの作成者/変更者に関するメタ情報を、セキュリティの目的に使用することができる。具体的には、音声ベースの会話システムでは、各コマンドが照会の定式化だけでなく、ユーザの認証のための十分な情報も伝えるため、テキスト独立話者検証を使用してユーザの識別と検証を行うことができる。このようにして、制限されたリソースに対する照会が行われるときには常に、そのリソースに関連付けられたセキュリティ・メタ情報に基づいて自動(および透過な)ユーザ認証を行うことができる。前述のように、ユーザ照会および履歴に関して収集されたすべての情報を使用して、ユーザの認識(IDまたは検証)に寄与することができる。
【0117】
認証は、要求に対して直接、または照会の少し前に獲得した期限切れになっていない情報を使用して行うことができる。具体的には、ファイルまたはアプリケーションへのアクセスの認証を照会ごとに行うことができる。たとえば、ユーザが制限されたサービスを要求した場合、その特定のサービスにアクセスすることを事前に認証されているユーザのセットを基準にして要求を検証することができる。認証は、要求(たとえばファイル・アクセス、ディレクトリ・アクセス、アプリケーションのオープン、実行可能プログラム、接続、暗号化/暗号解除、デジタル認証/署名)に対して行われるオープン・セット話者識別によって行うことができる。類似のユーザに割り当てられた異なるパスワードまたはユーザIDを有するリソースに、明示的ログインやパスワード認証なしにシームレスにアクセスすることができる。いずれにしても、ユーザ対話によって、目立たないユーザ認証を連続的、透過的に行うことができる。
【0118】
音声入力がない場合でも会話型VMが実施可能な概念によると、コンテキストのスタックは、ユーザの識別が最も最近に認証された識別として含む必要がある。さらに、各リソースは、認証されたユーザのリストと、いくつかのセキュリティ要件(たとえば非音声の場合は、最新の認証の有効期限)を含む必要がある。当然ながら、キーストリークまたはペン方式の認証も考えられるが、まったく必須ではない。
【0119】
各リソースは、それにアクセスを試みる各ユーザの識別をログ/キャッシングすることもできる。これらのログを暗号化し、後で、前にアクセスしたリソースへのアクセス要求を認証するのに使用することもできる。具体的には、オペレーティング・システムは、外部からのパスワード要求をインタセプトし、ユーザにとって透過なログを使用して要求を完全なものにすることができる。新しいリソースは、メタ情報を登録しているときにログイン要求を転送することができ、それによってログイン・プロセスさえもユーザに対してまったく透過になるようにすることができる。これは、単一サインオンまたはパスワード飛越しの概念の拡張である。
【0120】
CVMが備える他の機能は、「会話型カスタマイズ」であり、これによって各タスクまたはリソースへのアクセスを、ユーザ要求者の選好に合わせて個別にカスタマイズすることができる。たとえば、CVMのパーソナリティ/振舞い(たとえば合成音声−Voiceフォント)を、識別されたユーザの選好に合わせて自動的にカスタマイズすることができる。ユーザがCVM対話から明示的にログアウト(すなわちセッションを終了する)するまで、そのカスタマイズと選好が固定される。このようなシステムまたはアプリケーションはマルチユーザ式であるが、次のログインまで一度に一人のユーザに一回のみ適用される。
【0121】
会話型セキュリティに関して前述したように、リソースに対して照会が行われるときには常にユーザの自動識別を行うことができる。認証は、要求に対して直接、または照会の少し前に獲得した期限切れになっていない情報に対して行うことができる。タスクおよびコンテキストは、アクティブ・ユーザの順序に従って優先順位付けされ、ユーザ変更のたびに優先順位付けし直される。環境変数および選好は、環境全体をリセットする必要なしに、ユーザ識別の変更に基づいて「オンザフライ」で変更を加えることができる。曖昧性は、ユーザ識別を使用して各コンテキストまたはコンテキスト・スタックのレベルで解決することができる。分散型の場合、ユーザまたはサーバ変更に伴い、クライアントからサーバへのコンテキストのロードであるか、サーバ上で維持されているコンテキストの回復であるか、またはサーバ間でのコンテキストの転送であるかを問わずコンテキストを更新する必要がある。
【0122】
会話型VMは、複数のユーザの選好およびアクティブ・コンテキストに合わせて動的に適応することができる。これによって、アクティブに稼動中に複数のユーザが可能になる。音声ベースのシステムでは、各コマンドを使用してテキストとは独立した話者識別を行うことができる。ユーザの変更は、新しいアクティブ・コンテキストの作成を自動的に暗黙に示し、新しいアクティブ・コンテキストが新しいユーザまたはアクティブ・アプリケーションによって明示的に破棄されない限りはそれによって直前のコンテキストはコンテキスト・スタックの下位に押し下げられる。ユーザ変更によって、アクティブ・ユーザに関連付けられたタスクが先に処理されるようにコンテキスト・スタックと共に優先順位が自動的に変更される。
【0123】
ユーザ識別は各ディスコースのコンテキスト内で関連付けることができるため、コマンドの曖昧性を直ちに透過的に解決することができる(母親からの電子メールは、ユーザとは関係なく正しく理解される)。コンテキスト・スタック405を走査するプロセスは、ディスコースの所有者、関連付けられたアプリケーション、または何らかのオプションによって破棄されない限り、同じユーザに対する関連付けられたディスコースによって強化されるので有利である。コンテキスト・スタックを走査する際のこの規則の例外は自動的に、ディスコースに複数ユーザのフラグが付けられることを意味する。会話型セキュリティについて前述したように、ユーザ識別は、ユーザによるユーザ識別の手動選択または入力などの代替手続きによって入手することができる。アクティブ・ユーザ識別の変更も、会話型セキュリティ・サブシステムに影響を与える。各リソースは、そのリソースにアクセスするユーザの識別を記録することができる。
【0124】
要約すると、会話型複数ユーザおよび会話型セキュリティに関しては、対話、カテゴリ、メタ情報、およびリソース・アクセスは、ユーザの識別とそれに関連付けられたメタ情報履歴に応じて変化することができることを理解されたい。逆に、照会について収集された会話型情報を使用してユーザを認識することができる。各オブジェクトに関連付けられたメタ情報は、各アクションまたはアクセスの前または後に参照および更新することができる。オブジェクトが作成、修正、または参照されると、ユーザに関する情報がそのメタ情報に加えられ、それによってメタ情報は各オブジェクトに関連付けられたセキュリティ・フィールドと選好フィールドを含むようになる。オブジェクトへのアクセスは、その内容、作成日付、アクセスおよび変更の履歴、およびその他のメタ情報に基づく。アクセスは、ユーザの識別だけでなく、日付、使用履歴、開かれたアプリケーションなどのような追加のメタ情報にも基づいて制御または構成される。言い換えると、画面表示、再生、または実行のためにファイルが開かれるということを条件として、ユーザにファイルへのアクセスを許可することができる。しかし、その人は、ファイルの内容を別のオブジェクトにコピーするためにファイルを開くアクセスは拒否される。さらに、メタ情報を消去不能な方式でオブジェクトにタグ付けすることができる。
【0125】
CVMが提供する他の機能は、「会話型探索」であり、これによって探索機能は、ファイルの名前、変更、またはASCIIコンテンツだけでなく、オペレーティング・システム、アプリケーション、またはユーザによって定義された抽象カテゴリや、オペレーティング・システムによってオンラインまたはオフラインで取り出し可能なトピック、オブジェクトにアクセスしたときにまたはプロトコルを介して入手したトピックに基づくことができる。さらに、コンテキスト探索機能を使用して、アクティブ照会を完成したり、類似した照会/コンテキストを取り出したりすることができる。
【0126】
具体的には、各リソースに関連付けられた抽象カテゴリに基づいてリソースを探索することができる。これらのカテゴリは、前述のようにメタ情報概念のコンテキストで定義するか、またはコンテキスト・アソシエーションに基づくことができる。前述のようにディレクトリ内のすべてのイメージの探索は比較的単純であるが、「類似イメージ」の探索は、コンテキスト・アソシエーション、すなわち、ディレクトリ内のすべてのイメージのうち、どのイメージが類似のコンテキストで使用されたか(たとえば現在のイメージの編集に使用されているアプリケーションと同様にカテゴライズされたリソースによるオープン、編集または組込み)に依存する。これは、各リソース/オブジェクト・アクセスのコンテキスト・ロギング/キャッシングによって行うことができる。カテゴリは、それ自体に関するメタ情報も含む。さらに、カテゴリまたはコンテキスト・カテゴリによる探索だけでなく、ユーザ・アクセスによる探索(従来のオペレーティング・システムのように、それを修正するユーザの識別のみによらない)も可能である。
【0127】
最終的に、語の部分、語、語トピック、またはコンテキストに基づいてASCII、音声、およびその他の転記可能媒体のセットを探索することができる。トピックは、トピック・テキストを識別する機能を含む。コンテキスト探索は、現行のアクティブ照会/コンテキストを完成させるアクティブ・コンテキストまたは候補として、テキスト中で類似のコンテキストを探索する機能を含む。たとえば、「火曜日」というキーワードまたは実際の日付を探索することによって、所定の火曜日を参照するファイルをすべて取り出すことができる。「明日」に言及している月曜日のカレンダ項目もこれらの項目を返すことになる。
【0128】
ファイルのトピック判断は、コンピュータを集中的に使用していないときにオフラインで行うことができる。新規ファイルまたは最近変更されたファイルのみを調べる必要がある。トピックは、各リソースに関連付けられたメタ情報に自動的に加えられる。コンテキスト情報は明らかに、常にきわめてCPUを多用するタスクであり、ユーザの明示的な要求でのみ行われる。外部オブジェクトの場合、リソースにアクセスするとトピックを(前述のように)自動的に登録することができる。これは、ローカル機がオブジェクトでそれ自体の(それ自体に関するメタ情報によって定義された)内部抽象化を探索するのを妨げない。
【0129】
「会話型選択」の機能も備える。会話型選択機能は、基本選択の長いシーケンスを回避し、選択の自然ショートカットを設け、訂正を行うメタ情報、抽象化、会話型照会/混在主導権/訂正に依存することによって、リソース・マネージャ・レベルで、または任意のアプリケーション内で提供される。階層構造によってオブジェクトの骨組みに直ちにアクセスし、提示する様々な機構を備える。
【0130】
具体的には、会話型選択は本発明により、階層的探索(抽象化ベースの選択)と、複合照会機能(対話ベースの検索)との組み合わせを使用して、アクティブ・タスクまたはアプリケーション内から行うことができることを理解されたい。会話型選択は、従来の選択方法の大幅な改良を実現する。実際に、GUI環境でも、メタ情報と抽象カテゴリの使用により、所与のアプリケーションまたは照会のための使用可能なリソースの表示が大幅に改良される。具体的には、(抽象化とショートカットを使用する)抽象化ベースの会話型選択では、個人は、(IVRにおける)音声照会がDTMFインターフェースを介したメニュー・ページを迂回するのと同様の方式で、メニューや階層選択を迂回することができる。これは、生産性向上の点で会話型インターフェースが備える大きな利点の1つである。また、(たとえばデスクトップ、PDA、電話を介した)サービスへのアクセスに使用されるモーダリティとは関係なく、同じインターフェースを使用するという点で、インターフェースの一様性も示している。
【0131】
たとえば、ウェブ・ブラウシングのためにデータベースから情報を取り出し、HTML形式の情報を、JSAPIおよび会話型拡張機能を使用して作成した会話型ヘッダと共に提供するバックエンド・サーバを考えてみる。会話型ブラウザ・モーダリティを介してサーバにアクセスする場合、ユーザは、ポイント指示または発話によって、情報を表示し、所望の情報を選択することができる。そのユーザが電話モーダリティを介してサーバにアクセスする場合、ユーザはURLとアンカーを含むナビゲーション・メニューを介して選択を行うことができる。これらのナビゲーション・メニューは、ウェブ・ページが会話型HTMLを介してブラウザに送信するメタ情報から生成される。
【0132】
これらのいずれの場合も、ウェブ・ページまたはファイル・システム、あるいはその他のオブジェクトおよびリソースの階層構造を介した選択によってナビゲーションに使用されるメニューは、様々な補完的方式の1つで適切に提示することができる。たとえば、ネットワーク・オブジェクトの登録時に、メニューによってその構造に関するメタ情報を伝えることができる。さらに、システムは、構造体の構造(スケルトン)の各オブジェクトに関連付けるメタ情報をローカルで追跡することができる。さらに、システムは、CPUのオフピーク使用中にそのスケルトン情報を定期的に更新することができる。
【0133】
システムは、ローカルまたは外部リソースおよび階層オブジェクトを定期的にスパイダーすることができる。あるいは、特に対話構造では、各システムはアクセス可能なリソースに登録し、定期的に、またはアクセス時に、スケルトンメタ情報を更新することができる。さらに、メタ情報サーバは、スパイダリングを行って、メタ情報と共にスケルトン情報を提供することもできる。
【0134】
このメタ情報は、メニュー(TTS)の提示方法、どのような語彙、FSG、およびNLUを使用する必要があるかなどを記述する。さらに、混在主導権およびNLUを使用して選択を訂正することができ、従来のOSやGUIベースの選択のように後戻りしたりまったく新しい選択を必要としない。
【0135】
したがって、会話型探索および選択に関しては、(ディレクトリを備えたファイル・システムのような)会話型構造だけでなく、プラットフォーム・アプリケーションまたはユーザによってオブジェクトに関連付けられたメタ情報、抽象カテゴリに基づき、関連付けられた動的情報にも基づいて、オブジェクトを探索し、選択することができる。さらに、探索照会は、自然な仕方で行うことができ、混在主導権を使用して絞ることができる。照会は、デコードされ、解析された後、NLU技法を使用して照会の論理組合せ(記号照会)に変換される。会話型構造と、カテゴリおよび動的情報を探索し、記号照会と突き合わせることができる。混在主導権を使用して、探索結果に基づく照会の絞り込みと修正を行うことができる。合致するオブジェクトを1つ選び出したり受け入れたりすることができる。
【0136】
CVMによって提供されるその他の機能は、ヘルプ、マニュアル、およびサポートである。会話型インターフェースの最も魅力的な点の1つは、そのようなシステムを使用する際の学習曲線を平坦にすることができることである。実際、NLUおよび混在主導権は、ユーザに各アプリケーションの使用とシステムの制御を指導するのを支援する。しかし、さらに重要なのは、ユーザがタスクを行っている間にユーザにサポートを提供することができることである。
【0137】
会話型サポートは、ユーザからの要求時にヘルプとマニュアルを提供する。これは、アプリケーションのユーザ使用履歴と、同様にカテゴライズされた(メタ情報)カテゴリのユーザ使用履歴に依存する。ユーザの以前のアクションに基づいて、本発明のヘルプ機能について詳細に説明される(たとえば、ユーザがまだタスクを行っていない、ユーザが最近タスクを行っていない、またはユーザが当該タスクを行う際に常に失敗する場合)か、または単純なリマインダが示される(ユーザがそれに習熟している場合)。ユーザがタスクを行っている間、サポート・アシスタントが同時にアプリケーション・マニュアルを追跡する。脱落フィールド、曖昧な要求、一連の訂正および拒否されたコマンドが、アシスタントによって追跡され、混在主導権をヘルプ対話によって強化するために使用される。会話型ヘルプや支援などのサービスと、CVMシステムによって示されるいくつかの対話プロンプト(概説、質問、フィードバックなど)は、メタ情報リポジトリに格納されているユーザの使用履歴に基づいて調整され、アプリケーションに関連付けることができることを理解されたい。ユーザが前に所与のアプリケーションと対話していた場合、ユーザはそれに習熟しているとみなして説明を短くすることができる。同様に、ユーザが多くの誤りを犯す場合、繰り返される誤りはユーザがそのアプリケーションまたは機能について不確かであるか、習熟していないか、または理解していない/誤解していると解釈されるため、説明をより複雑にすることができる。
【0138】
混在主導権/使用サポートから、NLU要求および混在主導権、トピック・ベースの探索、マルチモーダル・チュートリアルを介したマニュアルへの会話型アクセスまでにわたる、程度やモーダリティの異なるヘルプが提供される。これは、(たとえば、バックグラウンドでのアプリケーションの更新や再インストールのための)ローカルまたはリモート・エージェントを含む会話型技術サポートの形態を採ることができる。この場合も、ヘルプ・インターフェースの一様性と調整がきわめて重要である。
【0139】
ヘルプ情報には、ヘルプ情報にアクセスするためのNLU照会を使用して、または現行ユーザに関連付けられたメタ情報(履歴)に基づいて、および脱落引数または混在主導権を使用して変更された引数に基づいて、アクセスすることができることを理解されたい。各アプリケーションによって提供される対話は、ユーザの選好または専門知識のレベルに合わせて調整される。
【0140】
要約すると、ヘルプおよびサポートは、ローカルおよびリモートのリソース、ユーザの使用履歴、およびエージェントを使用して、要求を完成させ、手続きを手引きし、情報を探索し、新規アプリケーションのアップグレード/インストールを行う、汎用調整会話インターフェースを介して提供される。
【0141】
次に、上述のようなCVMを実施するために使用するプログラミング言語/スクリプトについて、詳述する。このようなプログラミング/スクリプト言語により、使用可能な任意のリソースを入力または出力ストリームとして使用することができる。CVMプラットフォームの会話型サブシステムを使用して、各入力を、プログラミング言語が組込みオブジェクトとして直接処理することができるバイナリまたはASCII入力または属性値nタプル(または宣言型の同等バイトまたはXML)に変換する。呼出し、フラグ、およびタグは自動的に組み込まれ、オブジェクトおよびプロセス間で、異なるオブジェクトと正しくインターフェースするのに必要な会話型メタ情報を伝達する。出力は、アプリケーションまたはユーザの必要に従って特別に形式設定することができる。これらの新しいプログラミング・ツールを使用して、マルチモーダル・ディスコース処理を容易に構築することができる。プログラミング/スクリプト言語は、ファイル・ハンドルやストリーム・ハンドルに類似したハンドルを、会話型システム・アーキテクチャ、すなわち、音声認識/話者認識/会話型システムにおいて提示される会話型サブシステムの入力または出力に与える。これらの入力ストリームは、実際にはシステム呼出しによって実施される、ライブラリ呼出しとして扱われる。CVMの観点からは、会話型ブラウザを、会話型アプリケーションとみなすか、またはその構成要素(たとえばXMLパーサ)およびプラグインを会話型アプリケーションを含む会話型エンジンの一部と見なすことができることを理解されたい。
【0142】
マイクロフォンからの音声入力(たとえば標準音声入力)は、語、音のシーケンス、またはユーザ識別または照会(NLUが提供する記号言語表現)による関数呼出しの引数とすることができる。入力は、手書きによって、またはファイルなどからも供給することができる。各結果ストリームは、オブジェクト指向コンテキストにおける導出クラスと見なすことができる。
【0143】
プラットフォーム・スクリプトの場合、発話は、会話型サブシステム・サービスの1つによって処理され、スクリプトによって処理されてから、アクションを引き起こす。会話型コマンド・アンド・コントロール環境(たとえばViaVoiceのVoice Center)は、会話型スクリプトによって作成された比較的単純な会話型プラットフォームと見なすことができる。スクリプトを修正することによって、プラットフォームが修正される。実際には、Voice Centerは、従来のC/C++コードによって作成され、これは入力ハンドと、コマンドの認識および実行をコード内に深く隠蔽する。コンテキスト、音声状況などをプラットフォーム内に設定して、環境変数や大域変数を更新することができる。この場合も、前述のように会話型オブジェクト/構成要素およびファウンデーション・クラスを手続き型または宣言型とすることができる。
【0144】
本発明の一態様による前述の入力プロセスは、音声またはその他の入力ストリームが、一般に文字入力または記号入力のために確保されたあらゆる種類の処理形態を採ることができる従来の入出力ストリームとして組み込まれるとみなす。ユーザ入力は、解析およびNLUの後に、それぞれの転記、または記号言語へのマッピングによって表現することができる。さらに、出力もスクリプト/プログラミング言語によって完全に制御することができる。Voiceフォントを、メッセージに応じて選択、または設計、修正することができる。このような会話型プログラミング言語およびスクリプトの使用により、複合リダイレクトおよび会話プロセッサまたはマルチモーダル・ディスコース・プロセッサを構築することができる。これらは、たとえば従来のワード・プロセッサおよび描画/写真/ビデオ・エディタの自然マルチモーダル拡張版である。CVMを含むファウンデーション・クラスについては前述した。
【0145】
さらに、他のオブジェクトとストリームを交換する場合、ストリームのナビゲート、制御または合成のために、データ・ストリームを会話型メタ情報をシームレスに追加することが重要である。他のオブジェクトまたはサブシステムと通信する場合、これはシステム関数呼出しによりローカルで行われる。ネットワーク・オブジェクトは、HTTP/HTML、TCP/IPのような他のリモート・プロトコルを介して、または多様な形態のソケット対話を介して通信する。これらのプロトコルは、この会話型メタ情報を交換することができるタグ、フラグ、およびセマフォによって補完される。
【0146】
このようなプログラミング言語は、新しいスクリプト言語の形態とすることができるまったく新しい会話型ツールであり、PERLおよびKshell、CおよびC++、HTML、Javascript、Basic、Javaなどの拡張版であり、Spoken PERLなどと呼ぶことができる。解釈(スクリプト/宣言型)またはコンパイル(手続き型)される会話型ファウンデーション・クラスおよび対話構成要素(手続き型または宣言型)のライブラリによってCVM上での実行を最適化するように、言語を最初から新たに構築することもできる。
【0147】
前述のように、プログラミング言語/スクリプトは、会話型アプリケーションとCVMとの間の会話型APIを含む。また、CML(会話型マークアップ言語)も含む。ここで、手続き型APIおよびプロトコルとCML(XMLおよびHTTP)との区別、およびトランスポート・プロトコルの変形プロトコルについて述べておく必要がある。手続き型APIは、CVMを会話認識アプリケーションに露出させる。手続き型APIおよびプロトコルによって、CVM、アプリケーション、および装置間での会話型情報の高速な交換を可能にし、コントローラによる各アプリケーションおよびコンテキスト切換必要手続き型インターフェースの状態の高速な判断を可能にする。一方、CMLは、提示素材/内容を会話型ブラウザに伝達する理想的な方法であり、XMLの目的と合致し、対話の開発に必要なプログラミング専門知識を少なくするという利点を有する。
【0148】
前掲の特許出願に記載されている会話型ブラウザタイプのインターフェースでは、ページ間でXMLが交換されるが、ページ間および複数の同時タスク間でのコンテキストは、API/プロトコルを介してブラウザによって管理される。この実施態様は、たとえば、純粋にソケット・ベース(TCP/IP)、HTTPCorba/Java RMIベース、または(XMLを使用した)順次化オブジェクトの交換によるHTTPベースとすることができる。プロトコルは、XML(宣言型)と手続き型の通信がサポートされるように設計することが好ましい。
【0149】
会話型スクリプトによって開かれる可能性の中でも、会話型論理は恐らく最もめざましいものであろう。新しい会話型プログラミング言語のレベルでは、従来型および会話型のサブシステムに発行され、供給されるストリームに対する直接処理は、新しい論理ストリームおよび演算子を暗黙に示す。
【0150】
論理ストリームは、(1)真、(2)偽、(3)不完全、(4)曖昧、(5)ASCIIの視点での異/同、(6)NLUの視点からの異/同、(7)アクティブ照会フィールドの視点からの異/同、(8)不明、(9)非互換、(10)比較不能を含む。会話型論理演算子を導入して、このようなステートメントのテストまたは修正を行うことができる。要約すると、ASCII/バイナリ内容に基づいて、またはNLU変換された照会(従来型および会話型サブシステムの入出力)に基づいて比較することができる豊富な会話型照会を扱うように、論理ステートメント状況および演算子を会拡張する。このようなシステムのテストまたは修正を行うように論理演算子を実現することができる。
【0151】
次に図7を参照すると、本発明の一態様による分散CVMのアーキテクチャが図示されている。この分散型システムの中核はCVM704(サーバ、PCなどに置くことができる)であり、複数のアプリケーション706、装置708〜713、その他のCVMアプリケーションまたは装置707、および会話型リソース705間の会話型アービトレータとして機能する。CVM704は、このような装置およびアプリケーションにわたって調整された一様な会話型インターフェースを備え、それによって異なる会話型装置708〜713、リソース705、アプリケーション706が本発明の会話型プロトコルを介して接続することができる。複数の会話接続された装置/オブジェクトによって、調整インターフェースが提示される。オブジェクトの集合が、CVM704の集中または分散コンテキスト・スタックを介してユーザに対して単一の調整インターフェースを提供する。会話型装置は、他の会話型装置から会話型インターフェースを介して制御可能なサイレント・パートナを含むことができる。登録段階で、これらは要求時にサポートされているコンテキストのリストを交換する。接続時に、これらのコンテキストが更新される。接続に応じて、コンテキストは集中化または装置間で分散される(すなわちネットワークが折衝される)。
【0152】
ユーザが装置の集合と対話するとき、対話は常に車内のPVA(パーソナル・ビークル・アシスタント)710、または音声ブラウザ713などの中央ユニットを介して行うことができる。タスク・ディスパッチャおよびコンテキスト・スタックは、すべての装置に関連付けられたコンテキストを蓄積し、各装置に対するコマンドを解析し、適切にディスパッチする。ユーザが装置の集合全体と対話する場合、装置は常にアクティブである(最後にアクティブにされたコンテキスト)。当該装置は、新規コマンドがそのコンテキスト・スタックに適合するか否かを調べる。適合しない場合は、アクティブになる隣の装置に渡す。このプロセスは、一致が見つかるまで繰り返され、場合によってはユーザによって確認され、または要求は最初の装置に戻される。その場合、ユーザにエラー・メッセージまたは混乱メッセージが返される。
【0153】
前述のように、CVMは、複数のディスコースを管理し、コンテキストを使用し、抽象化およびメタ情報を介してオブジェクトを参照し、タスク、抽象化、コンテキストの割当てと記憶を行い、ユーザの認識と認証を行い、ディスプレイ、GUI、キーボード、またはポインティング・デバイスを使用するか否かを問わず、すべての対話を通して同じインターフェースを提示する機能を備えることによって、ユーザがシステムと対話できるようにする。同じ対話は、チャネルに無関係の機能を付加または省いて、電話、ウェブ、PDA、デスクトップを介しても行われる。
【0154】
たとえば、ユーザはスプレッドシートの要素に関する情報にリモートからアクセスし、必要であれば修正すると同時に、自分のメールをチェックする。ユーザは、これらのすべてのタスクを(デスクトップの前にいるときに)従来の方式で行うことにするか、または、電子メールをタイプで仕上げながら、スプレッドシートの情報を目で見ないで音声で調べることができる。いずれの場合も、ユーザにとってインターフェースはシームレスに同じである。
【0155】
複数の装置が会話接続されている場合、それらの装置は、すべての装置を汎用CUIを介して制御することができるようにそれぞれのインターフェースを調整する。この概念を以下の例で示す。夜、自動車で帰宅途中であり、配偶者から新しい食料品店で何かを買ってくるように頼まれたのを思い出したとする。留守番電話でメッセージを見つけた後、音声認識ソフトウェアを使用してそれを急いでデスクトップのメモ帳に転記した。しかし、それをプリントするのもPDAに転送するのも忘れた。しかし、デスクトップPCがCVMを稼動させてれば問題はない。なぜなら、問題車内にPDA、会話型車載PC(PVA、パーソナル・ビークル・アシスタント)と会話型高度自動機能電話を備えているためである。さらに、PVAが組込みCVMを稼動させていると同時に、他の2つのアプリケーションが会話認識であるものとする。すなわち、PVAで稼動しているCVMを介してそれらのアプリケーションを制御できるものとする。
【0156】
PVAに、電話を使用してPCにダイヤル接続するように指示することができる。接続が確立された後は、音声により認証され、前に作成した「食料品リスト」を音声により要求するだけでそのメモを見つけることができ、ファイル名やディレクトリを思い出したり、ディレクトリを閲覧してやっと適切なファイルを選択したりしなくても済む。PC CVMが要求する場合には、その選択を確認する必要がある。「これをPDAと同期させなさい」という別の照会を出すことができる。すると、そのファイルが次の同期でPDAに転送されるようにリンクされる。最後のコマンド「実行!」を出すと、PCは手に負えず、PVAにその曖昧な照会を処理させる。PVAは、その希望を理解して、直前に会話に基づいてPDAとPACを同期させる。確認後、同期化が行われ、食料品リストがPDAに格納されて、後で使用できるようになる。
【0157】
次に、PVAにその店まで曲がり角ごとに案内するように指示する。現在位置が計算され、店の場所がローカルで、またはサーバから取り出され、最新の更新情報を考慮に入れて道程が計算される。随時、現在位置に関するナビゲーション情報、次にすべき事、目的地までの距離を要求することができ、異なる道程も要求することができる。
【0158】
時間に追われて、PVAに、店のドライブ・スルー・サーバにダイヤルするように指示する。これには、電話番号案内サービスIVRとの中間会話が必要になる。現在のホーム・ページと同様に構築されたスモール・ビジネスまたは個人消費者IVRの概念の一例である、店のIVRと、会話型インターフェースとの対話を介して接続した後、注文を出す。そのために、PVAに対して、食料品リストをゆっくりとブラウズして項目ごとに読み上げるように指示する。次に、IVRに対してその要求を言い直し、各注文が適切に取られるまで対話を続ける。
【0159】
店に到着するまでに、注文はできている。これで、家まで車を運転しながら静かに電子メールや、ニュース、株式市況を聞くことができる。必要であれば、自分のPCにダイヤルし、スプレッドシート情報を調べたり、修正したりすることができる。これは、デスクトップ機でメールを処理しながら音声で調べるのと同じ方法である。また、PVAまたはデスクトップ機でエージェントにタスクを割り当て、更新または後で思い出させるように要求することもできる。
【0160】
デスクトップ機、PVA、CVM認識高度自動機能電話、およびPDAでCVMを稼動させる場合、アプリケーション開発者はCVM APIに接続するだけで済む。これには、以下のような、そのすべての会話機能と要件を登録することが含まれる。
1.アプリケーションを制御するためのアクティブ語彙、有限状態文法、言語モデル
2.NLUまたは少なくともコンテキスト状態リストがサポートされている場合、記号マッピング
3.特に出力のカテゴライズを可能にする関連付けられた該当メタ情報/カテゴリ
4.会話型入出力情報。入出力を直接制御するか、サイレント・パートナであるか、または会話型入出力プロバイダのクライアントであるか、および
5.CVM機能/状態。CVMを稼動させているか、CVMクライアントであるか、マスタ、スレーブ、またはパートナCVMであるか
【0161】
上述の例では、PVAはマスタCVMであった。CVMを装備している場合、PDAおよび高度自動機能電話はスレーブCVM、または単にCVM認識機である。PVAがPCに会話接続する場合、PVAがマスタ、スレーブ、パートナのいずれとして機能するかを決定するのは、アプリケーション開発者である。ローカルで、または電話を介して接続する場合、装置はAPIで伝えられた必要な情報を交換し、それによって装置間の調整を完全に定義する。この場合も、CVMは、会話型および従来型サブシステムを含めて、すべての入出力問題を自動的に処理する。またこの場合も、APIはCVMのためのすべての情報を伝え、照会をアプリケーション呼出しに変換し、逆に出力を音声に変換し、適切にソートしてからユーザに提供する。
【0162】
開発者は、開発ツールを使用して、会話型APIおよびCVMを中心にしたアプリケーションを容易に作成することができる。この開発環境(本明細書ではSpoken Age(スポークン・エイジ)と呼ぶ)によって、プログラマは、CVMのエミュレート、アプリケーションまたはネットワーク・プロトコルのデバッグ、および会話型ユーザ・インターフェースの迅速な開発を行うことができる。Spoken Ageは、CUIおよびCVM用アプリケーション開発機能を含む。また、所与のアプリケーションのためにエンジンのデータ・ファイル(会話型引数)を修正する環境も備える。具体的には、これは、ツールのレベルでSpoken Ageが、IBMのViaVoiceツールキットなどのSDKツールキットのような、会話型エンジンのフロントエンドも含むことを意味する。これは、Spoken Ageが備えるツールキットとアルゴリズムによって、ユーザが所与のタスクのためにデータ・ファイルの再作成、適応化、または拡張を行うことができることを意味する。これには、データ収集規則に従ってアプリケーションのためにデータを収集することと、適切なスクリプトを実行してデータ・ファイルを生成し、パフォーマンスをテストすることが含まれる。これは、タスク、ドメイン、または音響環境専用のデータ・ファイルまたはデータ・ファイルの一部を(CD ROMまたはウェブ・サイトから)ダウンロードすることも含まれる。また、書式に記入し、新規アプリケーションの記述/データ例の提示を行うことによって、データ・ファイル・サービス・オフィスに行った照会にも続いて、データを更新することも含まれる。
【0163】
プラットフォーム上および特定のチャネル用にアプリケーションを開発した後は、プログラマはSpoken Ageによって、CVMをサポートする他のどのようなプラットフォームにでも移植することができる。プログラマは、CVMによって、その会話型機能を、新しいプラットフォームまたは装置による通信チャネルまたはUIの制約に合わせて自動的に適応させることもできる。また、Spoken Ageを使って書かれたJava、CGI、およびXML/HTMLベースのウェブ・サイトを、電話または小型の組込み会話型ブラウザによってアクセスする限定された音声マークアップ言語を介してサービスを提供するIVRに直ちに変換することができる。
【0164】
分散システムは、CVMと共に動作可能な魅力的な音声使用可能アプリケーションである会話型ブラウザ713をさらに含む。会話型ブラウザは、CVM上で稼動することができ、CMLを解釈して会話型対話を作成すると同時に、CMLページを提示することができる。図7に示し、前掲のIBM整理番号YO998−392P特許出願で詳述しているように、会話型トランスコーダ・プロキシ・コードを介してレガシー・アプリケーション700にアクセスし、HTMLやDB2のような従来の形式をXMLにトランスコードすることができる。会話型ブラウザは、XML仕様に基づく音声マークアップ言語であるCML(会話型マークアップ言語)を解釈する。これは、CVM上で稼動する最も魅力的なアプリケーションの1とみなすことができる。会話型ブラウザは、それ自体のCVMを持つスタンドアロン・アプリケーションとすることができる。CMLによって、初心アプリケーション開発者でも、会話型対話を迅速に開発することができる。HTMLおよびワールド・ワイド・ウェブとの類似点をさらに続けて挙げると、CMLおよび会話型ブラウザは、レガシー企業アプリケーションおよびレガシー・データベースの周囲に会話型ユーザ・インターフェースを構築する簡素でシステマティックな方法を提供する。さらに、この機構をCVMの上に構築した後は、これらのアプリケーション、サービス、およびトランザクションを会話に組み込むことができ、ユーザはそれを複数の(ローカルおよびネットワーク)アプリケーションおよび(ローカルおよびネットワーク)装置にわたって伝えることができる。また、ユーザが、会話型ブラウザを稼動させているPCまたはIVRでレガシー・アプリケーション、会話型アプリケーションにアクセスするとき、またはサーバ側にある会話型アプリケーションにアクセスするときに、ユーザに同じユーザ・インターフェースも提供する。HTML対話をCMLに変換する会話型プロキシの使用により、同じページでPCまたは組込み装置上の従来型またはマルチモーダルのブラウザ、会話型ブラウザ、およびIVRアプリケーションを駆動することができる。電話カードを備えたサーバ上の適切に設計されたホーム・ページは、パーソナルIVRにもなる。特に、会話型プロキシを導入してHTMLページをCMLページにトランスコードした場合にそうである。
【0165】
CVMはAPIおよびCVMを介して露出され、分散リソースはAPIおよび手続き型プロトコルを介して最も効率的に対話するが、対話プロトコルをHTTPおよびXML/HTML交換を含めるように拡張することが重要である。実際、単一、または順次の会話型トランザクションには、HTTPおよびXML交換、または場合によっては順次化オブジェクトで十分な場合もある。最適プロトコルを選択し、XML交換を可能にするオプションによって、ごくわずかなプログラミング知識で対話の設計を簡略化することができる。一方、手続き呼出しにより、複数の同時会話アプリケーションを備えたきわめて効率的なローカルまたは分散実施態様を設けることができる。効率的な会話プラットフォーム機能は、APIインターフェースを必要とする。複数の会話型アプリケーションにわたって効率的な対話マネージャは、異なるサブシステム、アプリケーション、および関係CVMエンティティ間での手続きオブジェクトの交換を必要とする。
【0166】
UCRC(Universal Conversational Remote Control(汎用会話リモート・コントロール))とも呼ぶ、図8に示すようなUCA(Universal Conversational Appliance(汎用会話機器))を使用する本発明のアプリケーションの例を以下に示す。このUCAまたはUCRCは、会話型プロトコルの複数の態様を含むCVM装置の一例である。UCRCは、自発ネットワーク機能を有する音声使用可能携帯型PDAである。このネットワーク機能は、RF、特別機能(たとえばブルートゥース、ホッピング・ネットワーク)またはIRとすることができる。家庭環境では、機器は会話認識となる(ただし一般にはサイレント・パートナである)。これは、異なる機器を検出し、必要な情報を交換して会話制御することを意味する。異なる機器が同様のネットワーク機能を有する。簡略化された場合には、これらは、X10のような永続ネットワークを使用する「ホーム・ディレクタ」タイプのインターフェースによって直接制御される。この場合、UCAはホーム・ディレクタと直接対話する。
【0167】
UCRCは、(前述のように)会話型プロトコル801を介してハンドシェーク(検出)要求を周期的に(きわめて頻繁に)ブロードキャストする。各機器(またはホーム・ディレクタ)は、このような要求を検出すると応答する。新たに検出された機器はそれ自体の識別情報を示す。UCRCもそれ自体の識別情報を示す。その結果のハンドシェークによって、登録が行われる。登録には、機器の性質と名前の識別(およびその他のメタ情報)およびそれがサイレント・パートナであることが含まれ、次にこれによって折衝が行われる。
【0168】
この場合、折衝ではUCRCが会話を駆動することで直ちに合意する。新たに検出された機器は、その現在の状態と、その状態でサポートするコマンドとを交換する。限られた数のコマンドをサポートする場合、サポートする他の状態と、それらの他の状態に関連付けられたコマンドも送る。これは、前述の構造スケルトンの送信に相当する。状態の構造が複雑すぎる場合、この情報通知は状態が変わるたびに状態ごとに行われる。
【0169】
交換プロセスでは、アクティブ化時に戻りハンドル/イベントによるコマンドのリストを機器に返し、さらに、場合によっては必要なすべてのデータ・ファイル、すなわち語彙、基本フォーム、対話のためのプロンプト/音声フォント、文法、場合により解析、変換、タグ付け、記号言語、およびNLインターフェース用の言語生成規則も返す。あるいは、この情報は、会話型エンジン・タスクを実行する他のエンジン(たとえば音声認識タスクなどを実行するサーバなど)のアドレスを含むことができる。アクティブ化時およびユーザからの入力時に、UCRC CVMは関連付けられた機器を判断する。これは、異なる機器によって(ローカルまたはリモートで)サポートされるコマンドに従い、認識結果に基づいて行われる。
【0170】
決定すると、イベント/戻りハンドルがアクティブ化され、その関連付けられた機器でコマンドが実行される。その結果、状態が変化する。この新たな状態はUCRCに伝達される。UCRC上のコンテキストも更新される。コマンドは、スケルトンに基づいて、またはサポートされているコマンドの新たな交換に基づいて更新される。機器が一時的にネットワークから消える場合、この情報はコンテキストに格納される(機器が依然としてUCRCによって制御されている場合)。これは、時間(最後に検出されてからの経過時間)または場所(メタ情報)または(非アクティブ化される場合)メタ情報に基づいて行うことができる。再アクティブ化されると、情報のほとんどはコンテキストまたはメタ情報から再ロードされ、プロトコルは更新がないかのみ調べる。
【0171】
機器が制御リストから明示的に除去される場合、その装置から、またはUCRCからサインオフ要求が明示的に送られる。機器が従来方式で制御される場合(テレビジョンの従来のリモート・コントロール、または照明器具のスイッチなど)、UCRCにイベントが返され、コンテキスト、データ・ファイル、および機器の状態の登録/折衝、あるいは単なる更新が行われる。
【0172】
ホーム・ディレクタを使用する場合、以下の2つのモデルを採ることができる点を除き、プロトコルはまったく同じであることに留意されたい。
1)1つアプリケーション、すなわちホーム・ディレクタのみが登録される。機器変更またはコマンドの結果、ホーム・ディレクタ全体の状態が変更される。
2)個々の機器すべてがUCRCに登録される。ホーム・ディレクタは、機器とUCRCとの間でプロトコルの送信とトランスコードを行うゲートウェイとしてのみ機能する。
【0173】
ホーム・ディレクタ・モデルについて考えてみると、UCRCによって提供される機能を拡張することができる。自発的ネットワーキングではなく、通常のワイヤレスLAN(ホーム・ディレクタに接続されたベース局とのイーサネット、RF)とすることもできる。範囲外の場合には、ホーム・ディレクタ・ソリューションは、通常の電話(たとえばモデム・タイプの接続)によって呼出し可能であるという利点がある。そのような場合、すべてのプロトコルは、電話を介して交換することができる。したがって、新UCRC技法は、範囲内にあるときにローカルまたは自発ネットワーク機能を備え、範囲外にあるときにはベース局へのバイナリ接続機能を備えて常に勝ち得から制御されるセルラーホン/UCRCである。
【0174】
あるいは、UCRC機能を重複させたり、ホーム・ディレクタ機に限定したりすることもできる。重複させる場合、機械が電話カードを介した音声ブラウズ機能またはローカル・ホームIVR機能を備える場合には、家庭用機器は、電話によって(Cおよびサーバ交換会話プロトコルを介したバイナリ接続の必要なしに)どこからでも制御することができる。UCRCおよび会話プロトコルは、ホーム・ディレクタと機器との間にある。任意の通常電話を使用することができる。第2の事例では、家庭にあるときには機器の制御には通常、サーバも使用される。UCRCは、携帯型入出力システムになる。すなわち、音声を取り込み、圧縮してホーム・ディレクタに送る(会話型コーディング)。出力も同様に、再生のためにUCRCに送られる。実際のCVM処理はすべて、ホーム・ディレクタ・サーバ上で行われることになる。
【0175】
次に図12を参照すると、本明細書に記載の構成要素および機能を使用して構成可能な会話型ネットワーク・システムが図示されている。本発明による会話型コンピューティングは、異なる装置のネットワーク化という点で新しい要件を意味することを理解されたい。これは、すべてのプロトコル、負荷およびトラフィックの管理、ネットワーク・キャッシングおよび記憶における主要な考慮事項が、負荷またはトラフィックのバランスを保証することだけではなく、さらに、ネットワーク上で現在会話をしているユーザまたはネットワーク・リソースを使っているユーザのすべてのアクティブ対話の対話フローを最適化することであるということを意味する。言い換えると、会話型分散アーキテクチャによって、対話の遅延およびフロー、音声送信(会話型コーディング)の遅延、音声とGUI構成要素との同期化(実際、GUI入力の結果として、イベントおよび、UIの音声構成要素とGUI構成要素との同期化/協調動作が行われなければならない)、および基礎会話型プロトコル(折衝、対話マネージャ・プロトコルなど)の更新と交換を最適化するために、新たな追加の制約または考慮事項をが加えられる。このような面は、ローカルまたはネットワークあるいはその両方でのシームレスで透過的な処理が望まれる場合に重要な役割を演じる。サービス品質、帯域幅、最小遅延、最小パケット損失などは、依然としてVoIPの場合と同様に重要である。
【0176】
さらに、特定のタスクおよびドメインに必要なデータ・ファイルを適切なエンジンに適切に転送する問題がある。この場合も、ネットワーク上でのキャッシュまたは記憶と、特に精細なトラフィック管理および負荷管理を必要とする。やはり、送信側と受信側との間のトラフィックのフローのみが問題であるVoIPの場合でさえも存在しない概念である。さらに、スケルトン情報(すなわち対話論理)でさえも、ネットワーク内で適切に事前記憶、キャッシュ、または重複させることができ、効率が向上する。
【0177】
図12に示すシステムでは、本発明によるクライアント装置1000(CVMシステムまたは対話マネージャ機能を備える)は、PSTN1002を介して接続することによってサービス・ネットワーク・プロバイダ・ネットワーク1001と、ルータ1004を介してインターネット/イントラネット1003ネットワークの所望の情報にアクセスすることができる。ルータ1004とインターネット/イントラネット・ネットワーク1003は、会話型ネットワーク・サービス拡張機能および機構を提供する。これには、(前述の)分散会話プロトコル、RecoVC(認識互換VoCoder)による音声コーディング、アプリケーションおよびメタ情報(分散アプリケーション・プロトコル)、ディスカバリ、登録、折衝プロトコル、対話フローとトラフィック・バランスを維持するためのサーバ負荷管理、対話フローを維持するルーティング、タスク機能および能力要件と会話引数可用性(データ・ファイル)とに基づくエンジン・サーバ選択、会話引数(分散:記憶)、トラフィック/ルーティングおよびキャッシングが含まれる。
【0178】
図12に示すような任意のネットワーク(インターネット、ブルートゥース、ワイヤレス・ネットワークなど)および会話型アプリケーション・サービスまたはコンテンツまたはトランザクション・プロバイダのイントラネットでは、ネットワークはコンテンツ・サーバとバックエンド・論理または業務論理サーバ、会話型エンジン・サーバ、ゲートウェイ、ルータ、プロキシ、およびIVR(たとえばサウンド・カードのような)およびサーバ・ブラウザを有し、これらのリソースの間で音声ファイルおよびデータ・ファイルが会話型ネットワーキング原理による最適化に従って、絶えず交換される。
【0179】
したがって、CVM構成要素または会話型サービスは、これらすべてのエンティティ(サーバ、クライアント、ゲートウェイ、ルータなど)上に存在して、会話型ネットワーキング測定、送信、管理、および様々な機能の実行のためにメッセージを交換する必要がある。一般に、これらの機能は、ネットワーク内の負荷分散、トラフィック分散、記憶およびキャッシングなどを行うために、既存のプロトコルおよびシステム上で実行される。
【0180】
本明細書では例示の実施形態について添付図面を参照しながら説明したが、本システムおよび方法はこれらの厳密な実施形態には限定されず、当業者なら本発明の範囲および主旨から逸脱することなく、他の様々な変更および修正を加えることができることを理解されたい。このような変更および修正はすべて、特許請求の範囲に定義されている本発明の範囲内に含まれるものと意図される。
【図面の簡単な説明】
【図1】 本発明の一実施形態による会話型コンピューティング・システムを示すブロック図である。
【図2】 本発明の一実施形態による対話型コンピューティング・システムの抽象層を示す図である。
【図3】 本発明の一態様による会話型コンピューティング・システムで実施される会話型プロトコルを示すブロック図である。
【図4】 本発明の一実施形態による会話型コンピューティング・システムの構成要素を示すブロック図である。
【図5】 本発明の一態様によるタスク・ディスパッチ・プロセスを示す図である。
【図6】 本発明の一態様による会話型ユーザ・インターフェースおよび入出力プロセスの概要を示す図である。
【図7】 本発明の一態様による分散会話型コンピューティング・システムを示す図である。
【図8】 本発明の一実施形態による汎用会話型装置を示す図である。
【図9】 本発明の一態様による対話管理プロセスを示す図である。
【図10】 本発明の他の態様による対話管理プロセスを示す図である。
【図11】 本発明の他の態様による対話管理プロセスを示す図である。
【図12】 本発明の対話型ネットワーキングを示す図である。
Claims (10)
- 複数の入出力リソースから、ユーザが入出力を行うための会話型ユーザ・インターフェースと、
前記会話型ユーザ・インターフェースによる入力に対して、グローバル履歴もしくはメタ情報と前記入力に関連するコンテキストを使用して対話を管理する対話マネージャ、前記コンテキストと前記グローバル履歴と前記メタ情報とに関連づけられたコンテキスト・スタック、および、タスクおよびプロセスのディスパッチと調整を行うタスク・ディスパッチャコントローラ、を備える会話型仮想計算機と、
を備える複数のコンピュータがネットワークを介して接続されたコンピューティング・システムにおいて、
前記複数のコンピュータのうち一のコンピュータの対話マネージャが、このコンピュータの会話型ユーザ・インターフェースから入力されたコンテキストに対応する使用可能なすべてのアプリケーションに関連する情報を含むグローバル履歴もしくは使用可能なリソースに関連するメタ情報があるかを判断し、このコンテキストに対応するグローバル履歴もしくはメタ情報が、このコンピュータのコンテキスト・スタックに記憶されていないと判断した場合には、前記対話マネージャが、前記一のコンピュータ以外の他のコンピュータの対話マネージャと通信を行い、前記他のコンピュータの前記グローバル履歴および前記メタ情報に含まれるユーザ利用履歴に基づいて前記コンテキストに対応する出力を調整し、前記一のコンピュータの会話型ユーザ・インターフェースが、この調整した出力を行うコンピューティング・システム。 - 前記対話マネージャが、オペレーティング・システムの会話型カーネルと、この会話型カーネルと、ユーザからの入力とを仲介する会話型アプリケーション・プログラム・インターフェース(API)とから実現される請求項1に記載のコンピューティング・システム。
- 前記会話型アプリケーション・プログラム・インターフェースが、会話型ユーザ・インターフェースまたは会話認識アプリケーションを構築するために使用可能な会話型ファウンデーション・クラスまたは基本対話構成要素のライブラリ関数を含む請求項2に記載のコンピューティング・システム。
- 前記会話型ユーザ・インターフェースが、ユーザからの入力を受ける汎用自然言語理解(NLU)インターフェース又は、前記対話マネージャが調整した出力を行う自然言語生成(NLG)インターフェースのうちのいずれか一方を含む請求項1に記載のコンピューティング・システム。
- 前記対話型マネージャにより前記他のコンピュータのグローバル履歴もしくはメタ情報から、前記コンテキストに対応する出力を調整した後に、前記他のコンピュータのタスク・ディスパッチャコントローラが、前記調整した出力と前記コンテキストとを、前記他のコンピュータのコンテキスト・スタックに記憶させる請求項1に記載のコンピューティング・システム。
- 前記ユーザからの入力に対して出力を判断するグローバル履歴もしくはメタ情報が、コンピュータのコンテキスト・スタックに記憶されていないと判断した場合に、前記対話マネージャが、前記一のコンピュータ以外の他のコンピュータの対話マネージャと通信を行う際に、前記対話マネージャは、会話型ディスカバリ・プロトコルを使用して、通信すべき他のコンピュータを決定して通信を行う請求項1に記載のコンピューティング・システム。
- 前記タスク・ディスパッチャコントローラが、前記コンテキストに対応する出力に優先順位をつけてコンテキスト・スタックに供給することで、前記対話マネージャが、出力するときに、この優先順位に基づいて出力を決定する請求項1または請求項5に記載のコンピューティング・システム。
- メタ情報としてセキュリティ情報を含み、前記対話マネージャが、前記メタ情報のセキュリティ情報を使用して、ユーザにファイルのアクセスを制限する請求項1に記載のコンピューティング・システム。
- 前記対話マネージャは、ユーザ・コマンド照会が完全か曖昧かを判断し、不完全または曖昧である場合には、再度、ユーザに入力の内容を更新させる処理を行う請求項1に記載のコンピューティング・システム。
- 前記対話マネージャは、ユーザ・コマンド照会が完全か曖昧かを判断し、完全で曖昧さのない場合にでも、ユーザ選好/設定値に基づいて、実行前にユーザに確認させる処理を行う請求項1に記載のコンピューティング・システム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10295798P | 1998-10-02 | 1998-10-02 | |
US60/102,957 | 1998-10-02 | ||
US11759599P | 1999-01-27 | 1999-01-27 | |
US60/117,595 | 1999-01-27 | ||
PCT/US1999/022927 WO2000020962A2 (en) | 1998-10-02 | 1999-10-01 | Conversational computing via conversational virtual machine |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002526855A JP2002526855A (ja) | 2002-08-20 |
JP3703082B2 true JP3703082B2 (ja) | 2005-10-05 |
Family
ID=26799924
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000575117A Pending JP2003525477A (ja) | 1998-10-02 | 1999-10-01 | 汎用階層オブジェクトを介する効率的なボイス・ナビゲーションのための構造スケルトン |
JP2000575021A Expired - Lifetime JP3703082B2 (ja) | 1998-10-02 | 1999-10-01 | 会話型バーチャル・マシンによる会話型コンピューティング |
JP2000575249A Pending JP2002527800A (ja) | 1998-10-02 | 1999-10-01 | 会話ブラウザおよび会話システム |
JP2000575119A Expired - Fee Related JP4171585B2 (ja) | 1998-10-02 | 1999-10-01 | ネットワーク調整された会話型サービスを提供するためのシステムおよび方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000575117A Pending JP2003525477A (ja) | 1998-10-02 | 1999-10-01 | 汎用階層オブジェクトを介する効率的なボイス・ナビゲーションのための構造スケルトン |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000575249A Pending JP2002527800A (ja) | 1998-10-02 | 1999-10-01 | 会話ブラウザおよび会話システム |
JP2000575119A Expired - Fee Related JP4171585B2 (ja) | 1998-10-02 | 1999-10-01 | ネットワーク調整された会話型サービスを提供するためのシステムおよび方法 |
Country Status (10)
Country | Link |
---|---|
US (4) | US7418382B1 (ja) |
EP (4) | EP1125279B1 (ja) |
JP (4) | JP2003525477A (ja) |
KR (4) | KR100431972B1 (ja) |
CN (4) | CN100472500C (ja) |
AT (1) | ATE383640T1 (ja) |
CA (4) | CA2345662A1 (ja) |
DE (1) | DE69937962T2 (ja) |
IL (5) | IL142363A0 (ja) |
WO (4) | WO2000021073A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11372897B1 (en) * | 2011-09-02 | 2022-06-28 | Pure Storage, Inc. | Writing of data to a storage system that implements a virtual file structure on an unstructured storage layer |
Families Citing this family (690)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7003463B1 (en) | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
IL142363A0 (en) * | 1998-10-02 | 2002-03-10 | Ibm | System and method for providing network coordinated conversational services |
US6163794A (en) * | 1998-10-23 | 2000-12-19 | General Magic | Network system extensible by users |
US6886047B2 (en) * | 1998-11-13 | 2005-04-26 | Jp Morgan Chase Bank | System and method for managing information retrievals for integrated digital and analog archives on a global basis |
FR2787902B1 (fr) * | 1998-12-23 | 2004-07-30 | France Telecom | Modele et procede d'implementation d'un agent rationnel dialoguant, serveur et systeme multi-agent pour la mise en oeuvre |
WO2001013255A2 (en) | 1999-08-13 | 2001-02-22 | Pixo, Inc. | Displaying and traversing links in character array |
US7330815B1 (en) * | 1999-10-04 | 2008-02-12 | Globalenglish Corporation | Method and system for network-based speech recognition |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
DE69942507D1 (de) * | 1999-12-06 | 2010-07-29 | Ericsson Telefon Ab L M | Intelligente Herstellung von Piconets |
JP2001188784A (ja) * | 1999-12-28 | 2001-07-10 | Sony Corp | 会話処理装置および方法、並びに記録媒体 |
US20010043234A1 (en) * | 2000-01-03 | 2001-11-22 | Mallik Kotamarti | Incorporating non-native user interface mechanisms into a user interface |
AU2001238153A1 (en) * | 2000-02-11 | 2001-08-20 | Convergent Networks, Inc. | Service level executable environment for integrated pstn and ip networks and call processing language therefor |
WO2003050799A1 (en) * | 2001-12-12 | 2003-06-19 | International Business Machines Corporation | Method and system for non-intrusive speaker verification using behavior models |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
AU2001256902A1 (en) * | 2000-05-05 | 2001-11-20 | James Ewing | A method and a system relating to protocol communications within a pre-existing www server framework |
US6769010B1 (en) * | 2000-05-11 | 2004-07-27 | Howzone.Com Inc. | Apparatus for distributing information over a network-based environment, method of distributing information to users, and method for associating content objects with a database wherein the content objects are accessible over a network communication medium by a user |
FR2809204B1 (fr) * | 2000-05-17 | 2003-09-19 | Bull Sa | Interface applicative multiprosseur, ne necessitant pas l'utilisation d'un systeme d'exploitation multiprocesseur |
US7039951B1 (en) | 2000-06-06 | 2006-05-02 | International Business Machines Corporation | System and method for confidence based incremental access authentication |
US7047196B2 (en) | 2000-06-08 | 2006-05-16 | Agiletv Corporation | System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery |
CA2689656A1 (en) * | 2000-06-16 | 2001-12-16 | Bayer Healthcare Llc | System, method and biosensor apparatus for data communications with a personal data assistant |
US6654722B1 (en) * | 2000-06-19 | 2003-11-25 | International Business Machines Corporation | Voice over IP protocol based speech system |
US6788667B1 (en) * | 2000-06-20 | 2004-09-07 | Nokia Corporation | Wireless access to wired network audio services using mobile voice call |
WO2002005153A2 (en) * | 2000-07-07 | 2002-01-17 | 2020Me Holdings Ltd. | System, method and medium for facilitating transactions over a network |
US7139709B2 (en) | 2000-07-20 | 2006-11-21 | Microsoft Corporation | Middleware layer between speech related applications and engines |
DE60125597T2 (de) * | 2000-08-31 | 2007-05-03 | Hitachi, Ltd. | Vorrichtung für die Dienstleistungsvermittlung |
US6785651B1 (en) * | 2000-09-14 | 2004-08-31 | Microsoft Corporation | Method and apparatus for performing plan-based dialog |
EP1332605A4 (en) * | 2000-10-16 | 2004-10-06 | Eliza Corp | METHOD AND SYSTEM FOR PROVIDING ADAPTIVE RESPONDENT TRAINING IN A VOICE RECOGNITION APPLICATION |
US7594030B2 (en) | 2000-11-22 | 2009-09-22 | Microsoft Corporation | Locator and tracking service for peer to peer resources |
US7072982B2 (en) | 2000-11-22 | 2006-07-04 | Microsoft Corporation | Universal naming scheme for peer to peer resources |
DE50011222D1 (de) * | 2000-12-04 | 2005-10-27 | Siemens Ag | Verfahren zum Nutzen einer Datenverarbeitungsanlage abhängig von einer Berechtigung, zugehörige Datenverarbeitungsanlage und zugehöriges Programm |
US7016847B1 (en) * | 2000-12-08 | 2006-03-21 | Ben Franklin Patent Holdings L.L.C. | Open architecture for a voice user interface |
GB0030958D0 (en) * | 2000-12-19 | 2001-01-31 | Smart Card Solutions Ltd | Compartmentalized micro-controller operating system architecture |
JP3322262B2 (ja) | 2000-12-22 | 2002-09-09 | 日本電気株式会社 | 無線携帯端末通信システム |
DE10064661A1 (de) * | 2000-12-22 | 2002-07-11 | Siemens Ag | Kommunikationsanordnung und Verfahren für Kommunikationssysteme mit interaktiver Sprachfunktion |
FI20002860A (fi) * | 2000-12-27 | 2002-06-28 | Nokia Corp | Laiteroolit ja pikoverkkoyhteydet |
US6925645B2 (en) * | 2000-12-29 | 2005-08-02 | Webex Communications, Inc. | Fault tolerant server architecture for collaborative computing |
US6964023B2 (en) | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US7461148B1 (en) * | 2001-02-16 | 2008-12-02 | Swsoft Holdings, Ltd. | Virtual private server with isolation of system components |
EP1233590A1 (en) * | 2001-02-19 | 2002-08-21 | Sun Microsystems, Inc. | Content provider for a computer system |
US7606909B1 (en) * | 2001-02-20 | 2009-10-20 | Michael Ely | Method and apparatus for a business contact center |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
EP1405169B1 (en) * | 2001-03-22 | 2006-11-15 | Canon Kabushiki Kaisha | Information processing apparatus and method, and program product |
US7174514B2 (en) * | 2001-03-28 | 2007-02-06 | Siebel Systems, Inc. | Engine to present a user interface based on a logical structure, such as one for a customer relationship management system, across a web site |
US6996531B2 (en) * | 2001-03-30 | 2006-02-07 | Comverse Ltd. | Automated database assistance using a telephone for a speech based or text based multimedia communication mode |
FR2822994B1 (fr) * | 2001-03-30 | 2004-05-21 | Bouygues Telecom Sa | Assistance au conducteur d'un vehicule automobile |
CA2344904A1 (en) * | 2001-04-23 | 2002-10-23 | Bruno Richard Preiss | Interactive voice response system and method |
US7437295B2 (en) * | 2001-04-27 | 2008-10-14 | Accenture Llp | Natural language processing for a location-based services system |
US7698228B2 (en) | 2001-04-27 | 2010-04-13 | Accenture Llp | Tracking purchases in a location-based services system |
US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7020841B2 (en) | 2001-06-07 | 2006-03-28 | International Business Machines Corporation | System and method for generating and presenting multi-modal applications from intent-based markup scripts |
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
US7606712B1 (en) * | 2001-06-28 | 2009-10-20 | At&T Intellectual Property Ii, L.P. | Speech recognition interface for voice actuation of legacy systems |
US7647597B2 (en) * | 2001-06-28 | 2010-01-12 | Microsoft Corporation | Transparent and sub-classable proxies |
US6839896B2 (en) * | 2001-06-29 | 2005-01-04 | International Business Machines Corporation | System and method for providing dialog management and arbitration in a multi-modal environment |
JP3997459B2 (ja) * | 2001-10-02 | 2007-10-24 | 株式会社日立製作所 | 音声入力システムおよび音声ポータルサーバおよび音声入力端末 |
US7324947B2 (en) | 2001-10-03 | 2008-01-29 | Promptu Systems Corporation | Global speech user interface |
EP1708470B1 (en) * | 2001-10-03 | 2012-05-16 | Accenture Global Services Limited | Multi-modal callback system |
EP1466468B1 (en) * | 2001-10-03 | 2006-08-02 | Accenture Global Services GmbH | Multi-modal messaging and callback with service authorizer and virtual customer database |
US7441016B2 (en) | 2001-10-03 | 2008-10-21 | Accenture Global Services Gmbh | Service authorizer |
US7233655B2 (en) | 2001-10-03 | 2007-06-19 | Accenture Global Services Gmbh | Multi-modal callback |
US7472091B2 (en) | 2001-10-03 | 2008-12-30 | Accenture Global Services Gmbh | Virtual customer database |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7222073B2 (en) | 2001-10-24 | 2007-05-22 | Agiletv Corporation | System and method for speech activated navigation |
US7133830B1 (en) | 2001-11-13 | 2006-11-07 | Sr2, Inc. | System and method for supporting platform independent speech applications |
US8498871B2 (en) * | 2001-11-27 | 2013-07-30 | Advanced Voice Recognition Systems, Inc. | Dynamic speech recognition and transcription among users having heterogeneous protocols |
US20030101054A1 (en) * | 2001-11-27 | 2003-05-29 | Ncc, Llc | Integrated system and method for electronic speech recognition and transcription |
GB2388209C (en) | 2001-12-20 | 2005-08-23 | Canon Kk | Control apparatus |
US7302394B1 (en) * | 2001-12-20 | 2007-11-27 | Ianywhere Solutions, Inc. | Front-end device independence for natural interaction platform |
WO2003063137A1 (en) * | 2002-01-22 | 2003-07-31 | V-Enable, Inc. | Multi-modal information delivery system |
US6990639B2 (en) | 2002-02-07 | 2006-01-24 | Microsoft Corporation | System and process for controlling electronic components in a ubiquitous computing environment using multimodal integration |
US6704396B2 (en) | 2002-02-27 | 2004-03-09 | Sbc Technology Resources, Inc. | Multi-modal communications method |
US20030187944A1 (en) * | 2002-02-27 | 2003-10-02 | Greg Johnson | System and method for concurrent multimodal communication using concurrent multimodal tags |
US6807529B2 (en) * | 2002-02-27 | 2004-10-19 | Motorola, Inc. | System and method for concurrent multimodal communication |
GB0204768D0 (en) * | 2002-02-28 | 2002-04-17 | Mitel Knowledge Corp | Bimodal feature access for web applications |
FR2840484B1 (fr) * | 2002-05-28 | 2004-09-03 | France Telecom | Protocole de communication entre un module d'application vocale et une plate-forme vocale dans un serveur vocal |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7822609B2 (en) | 2002-06-14 | 2010-10-26 | Nuance Communications, Inc. | Voice browser with integrated TCAP and ISUP interfaces |
KR20040002031A (ko) * | 2002-06-29 | 2004-01-07 | 주식회사 케이티 | 다수의 응용프로그램들간의 음성인식엔진 공유 방법 |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
AU2002345308A1 (en) * | 2002-07-17 | 2004-02-02 | Nokia Corporation | Mobile device having voice user interface, and a methode for testing the compatibility of an application with the mobile device |
US20040054757A1 (en) * | 2002-09-14 | 2004-03-18 | Akinobu Ueda | System for remote control of computer resources from embedded handheld devices |
US8321427B2 (en) | 2002-10-31 | 2012-11-27 | Promptu Systems Corporation | Method and apparatus for generation and augmentation of search terms from external and internal sources |
US7519534B2 (en) | 2002-10-31 | 2009-04-14 | Agiletv Corporation | Speech controlled access to content on a presentation medium |
CN1720520B (zh) * | 2002-12-02 | 2010-05-05 | 索尼株式会社 | 对话控制设备和方法,以及机器人设备 |
KR20040051285A (ko) * | 2002-12-12 | 2004-06-18 | 삼성전자주식회사 | 애플릿이 링크된 마크업 문서의 디스플레이 방법 및 그시스템 |
US7822612B1 (en) * | 2003-01-03 | 2010-10-26 | Verizon Laboratories Inc. | Methods of processing a voice command from a caller |
US7673304B2 (en) * | 2003-02-18 | 2010-03-02 | Microsoft Corporation | Multithreaded kernel for graphics processing unit |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
US7249025B2 (en) * | 2003-05-09 | 2007-07-24 | Matsushita Electric Industrial Co., Ltd. | Portable device for enhanced security and accessibility |
WO2004109471A2 (en) * | 2003-06-06 | 2004-12-16 | The Trustees Of Columbia University In The City Of New York | System and method for voice activating web pages |
EP1654806A4 (en) | 2003-06-26 | 2007-01-17 | Agile Tv Corp | NULL SEARCH, NULL MEMORY VECTOR QUANTIZATION |
US7313528B1 (en) * | 2003-07-31 | 2007-12-25 | Sprint Communications Company L.P. | Distributed network based message processing system for text-to-speech streaming data |
US7383302B2 (en) * | 2003-09-15 | 2008-06-03 | International Business Machines Corporation | Method and system for providing a common collaboration framework accessible from within multiple applications |
US7428273B2 (en) | 2003-09-18 | 2008-09-23 | Promptu Systems Corporation | Method and apparatus for efficient preamble detection in digital data receivers |
US7249348B2 (en) * | 2003-10-21 | 2007-07-24 | Hewlett-Packard Development Company, L.P. | Non-interfering status inquiry for user threads |
US7199802B2 (en) * | 2003-10-24 | 2007-04-03 | Microsoft Corporation | Multiple-mode window presentation system and process |
US7856632B2 (en) * | 2004-01-29 | 2010-12-21 | Klingman Edwin E | iMEM ASCII architecture for executing system operators and processing data operators |
US20050229185A1 (en) * | 2004-02-20 | 2005-10-13 | Stoops Daniel S | Method and system for navigating applications |
WO2005094098A1 (en) * | 2004-02-25 | 2005-10-06 | Sk Telecom Co., Ltd. | Method and mobile terminal for implementing vector animation interactive service on mobile phone browser |
US7925510B2 (en) * | 2004-04-28 | 2011-04-12 | Nuance Communications, Inc. | Componentized voice server with selectable internal and external speech detectors |
US7596788B1 (en) * | 2004-05-11 | 2009-09-29 | Platform Computing Corporation | Support of non-trivial scheduling policies along with topological properties |
US7730482B2 (en) * | 2004-06-08 | 2010-06-01 | Covia Labs, Inc. | Method and system for customized programmatic dynamic creation of interoperability content |
US7814502B2 (en) * | 2004-06-14 | 2010-10-12 | Nokia Corporation | Shared landmark user interfaces |
KR100627228B1 (ko) * | 2004-07-01 | 2006-09-25 | 에스케이 텔레콤주식회사 | 기업용 무선 어플리케이션 서비스를 위한 전용 브라우저시스템 및 그 운영방법 |
US7398471B1 (en) * | 2004-07-29 | 2008-07-08 | Emc Corporation | System and method for the administration of resource groups |
FI20041075A0 (fi) | 2004-08-12 | 2004-08-12 | Nokia Corp | Tiedon lähettäminen ryhmälle vastaanottolaitteita |
US8744852B1 (en) * | 2004-10-01 | 2014-06-03 | Apple Inc. | Spoken interfaces |
US7693719B2 (en) * | 2004-10-29 | 2010-04-06 | Microsoft Corporation | Providing personalized voice font for text-to-speech applications |
US8706501B2 (en) * | 2004-12-09 | 2014-04-22 | Nuance Communications, Inc. | Method and system for sharing speech processing resources over a communication network |
US7640162B2 (en) * | 2004-12-14 | 2009-12-29 | Microsoft Corporation | Semantic canvas |
KR100654447B1 (ko) * | 2004-12-15 | 2006-12-06 | 삼성전자주식회사 | 지역별로 존재하는 컨텐츠를 글로벌로 공유하고 거래하는방법 및 시스템 |
US7987244B1 (en) * | 2004-12-30 | 2011-07-26 | At&T Intellectual Property Ii, L.P. | Network repository for voice fonts |
KR100725719B1 (ko) * | 2005-02-04 | 2007-06-08 | 주식회사 유진로봇 | 음성과 태스크 오브젝트 기반의 대화시스템 |
US7490042B2 (en) * | 2005-03-29 | 2009-02-10 | International Business Machines Corporation | Methods and apparatus for adapting output speech in accordance with context of communication |
US9111253B2 (en) * | 2005-04-22 | 2015-08-18 | Sap Se | Groupware time tracking |
US20060271520A1 (en) * | 2005-05-27 | 2006-11-30 | Ragan Gene Z | Content-based implicit search query |
CA2654867C (en) | 2005-06-13 | 2018-05-22 | E-Lane Systems Inc. | Vehicle immersive communication system |
US8090084B2 (en) * | 2005-06-30 | 2012-01-03 | At&T Intellectual Property Ii, L.P. | Automated call router for business directory using the world wide web |
JP4667138B2 (ja) | 2005-06-30 | 2011-04-06 | キヤノン株式会社 | 音声認識方法及び音声認識装置 |
US7640160B2 (en) * | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US7634409B2 (en) | 2005-08-31 | 2009-12-15 | Voicebox Technologies, Inc. | Dynamic speech sharpening |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8073700B2 (en) * | 2005-09-12 | 2011-12-06 | Nuance Communications, Inc. | Retrieval and presentation of network service results for mobile device using a multimodal browser |
US9009046B1 (en) * | 2005-09-27 | 2015-04-14 | At&T Intellectual Property Ii, L.P. | System and method for disambiguating multiple intents in a natural language dialog system |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
CN103824177B (zh) * | 2005-10-05 | 2018-03-20 | 邓白氏公司 | 用于多个产品的模块化的基于Web的ASP应用 |
US8041800B2 (en) * | 2005-11-08 | 2011-10-18 | International Business Machines Corporation | Automatic orchestration of dynamic multiple party, multiple media communications |
US20070124142A1 (en) * | 2005-11-25 | 2007-05-31 | Mukherjee Santosh K | Voice enabled knowledge system |
JP4829600B2 (ja) * | 2005-11-28 | 2011-12-07 | キヤノン株式会社 | 通信装置及び通信装置の制御方法 |
US9215748B2 (en) | 2005-11-28 | 2015-12-15 | Canon Kabushiki Kaisha | Communication apparatus, control method for communication apparatus, and communication system |
JP2007164732A (ja) * | 2005-12-16 | 2007-06-28 | Crescent:Kk | コンピュータ実行可能なプログラム、および情報処理装置 |
DE102005061365A1 (de) * | 2005-12-21 | 2007-06-28 | Siemens Ag | Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem |
CN100382083C (zh) * | 2005-12-23 | 2008-04-16 | 威盛电子股份有限公司 | 网络会话管理方法及系统 |
US7840964B2 (en) * | 2005-12-30 | 2010-11-23 | Intel Corporation | Mechanism to transition control between components in a virtual machine environment |
KR101204408B1 (ko) * | 2006-01-19 | 2012-11-27 | 삼성전자주식회사 | 유니폼 객체 모델을 이용한 유비쿼터스 서비스/디바이스테스트 방법 및 장치 |
US20070180365A1 (en) * | 2006-01-27 | 2007-08-02 | Ashok Mitter Khosla | Automated process and system for converting a flowchart into a speech mark-up language |
US8078990B2 (en) | 2006-02-01 | 2011-12-13 | Research In Motion Limited | Secure device sharing |
US20070225983A1 (en) * | 2006-03-23 | 2007-09-27 | Theodore Maringo | Worldwide time device |
KR101264318B1 (ko) * | 2006-07-07 | 2013-05-22 | 삼성전자주식회사 | 네트워크 환경에서의 서비스 메뉴 및 서비스 제공방법 및그 서비스 제공장치 |
KR100807307B1 (ko) * | 2006-07-10 | 2008-02-28 | 한국전자통신연구원 | 대화형 음성 인터페이스 시스템 및 그 응답 방법 |
US9976865B2 (en) | 2006-07-28 | 2018-05-22 | Ridetones, Inc. | Vehicle communication system with navigation |
US20100030557A1 (en) | 2006-07-31 | 2010-02-04 | Stephen Molloy | Voice and text communication system, method and apparatus |
US8589869B2 (en) | 2006-09-07 | 2013-11-19 | Wolfram Alpha Llc | Methods and systems for determining a formula |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7957976B2 (en) * | 2006-09-12 | 2011-06-07 | Nuance Communications, Inc. | Establishing a multimodal advertising personality for a sponsor of a multimodal application |
KR100832534B1 (ko) * | 2006-09-28 | 2008-05-27 | 한국전자통신연구원 | 음성 인식을 통한 컨텐츠 정보 서비스 제공 장치 및 그방법 |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US11256386B2 (en) | 2006-11-22 | 2022-02-22 | Qualtrics, Llc | Media management system supporting a plurality of mobile devices |
US8700014B2 (en) | 2006-11-22 | 2014-04-15 | Bindu Rama Rao | Audio guided system for providing guidance to user of mobile device on multi-step activities |
US8478250B2 (en) | 2007-07-30 | 2013-07-02 | Bindu Rama Rao | Interactive media management server |
US10803474B2 (en) * | 2006-11-22 | 2020-10-13 | Qualtrics, Llc | System for creating and distributing interactive advertisements to mobile devices |
US7827033B2 (en) * | 2006-12-06 | 2010-11-02 | Nuance Communications, Inc. | Enabling grammars in web page frames |
US20080140390A1 (en) * | 2006-12-11 | 2008-06-12 | Motorola, Inc. | Solution for sharing speech processing resources in a multitasking environment |
CA2572116A1 (en) * | 2006-12-27 | 2008-06-27 | Ibm Canada Limited - Ibm Canada Limitee | System and method for processing multi-modal communication within a workgroup |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US8843376B2 (en) | 2007-03-13 | 2014-09-23 | Nuance Communications, Inc. | Speech-enabled web content searching using a multimodal browser |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8788620B2 (en) * | 2007-04-04 | 2014-07-22 | International Business Machines Corporation | Web service support for a multimodal client processing a multimodal application |
US8131549B2 (en) * | 2007-05-24 | 2012-03-06 | Microsoft Corporation | Personality-based device |
AU2012244080B2 (en) * | 2007-05-24 | 2014-04-17 | Microsoft Technology Licensing, Llc | Personality-based Device |
US9794348B2 (en) | 2007-06-04 | 2017-10-17 | Todd R. Smith | Using voice commands from a mobile device to remotely access and control a computer |
US8612972B2 (en) | 2007-06-27 | 2013-12-17 | Microsoft Corporation | Running add-on components in virtual environments |
US20090018818A1 (en) * | 2007-07-10 | 2009-01-15 | Aibelive Co., Ltd. | Operating device for natural language input |
US9264483B2 (en) | 2007-07-18 | 2016-02-16 | Hammond Development International, Inc. | Method and system for enabling a communication device to remotely execute an application |
ITFI20070177A1 (it) | 2007-07-26 | 2009-01-27 | Riccardo Vieri | Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento. |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8364694B2 (en) | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US8472934B2 (en) * | 2007-11-28 | 2013-06-25 | Nokia Corporation | Portable apparatus, method and user interface |
JP2010020273A (ja) * | 2007-12-07 | 2010-01-28 | Sony Corp | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9703784B2 (en) * | 2007-12-24 | 2017-07-11 | Sandisk Il Ltd. | Mobile device and method for concurrently processing content according to multiple playlists |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US8086455B2 (en) * | 2008-01-09 | 2011-12-27 | Microsoft Corporation | Model development authoring, generation and execution based on data and processor dependencies |
US20090198496A1 (en) * | 2008-01-31 | 2009-08-06 | Matthias Denecke | Aspect oriented programmable dialogue manager and apparatus operated thereby |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
CA2719301C (en) * | 2008-03-25 | 2016-10-04 | E-Lane Systems Inc. | Multi-participant, mixed-initiative voice interaction system |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) * | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
CN102037710B (zh) * | 2008-05-19 | 2014-04-02 | 思杰系统有限公司 | 用于远程处理多媒体插件调用的方法和系统 |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
EP3249893A1 (en) * | 2008-06-03 | 2017-11-29 | Whirlpool Corporation | Appliance development toolkit |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
CA2727951A1 (en) | 2008-06-19 | 2009-12-23 | E-Lane Systems Inc. | Communication system with voice mail access and call by spelling functionality |
US20090328062A1 (en) * | 2008-06-25 | 2009-12-31 | Microsoft Corporation | Scalable and extensible communication framework |
CN101621480B (zh) * | 2008-06-30 | 2012-03-28 | 国际商业机器公司 | 呈现服务器和在其中使用的xsl文件处理方法 |
US9652023B2 (en) | 2008-07-24 | 2017-05-16 | Intelligent Mechatronic Systems Inc. | Power management system |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8463053B1 (en) | 2008-08-08 | 2013-06-11 | The Research Foundation Of State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
US8959053B2 (en) * | 2008-08-13 | 2015-02-17 | Alcatel Lucent | Configuration file framework to support high availability schema based upon asynchronous checkpointing |
JP5897240B2 (ja) * | 2008-08-20 | 2016-03-30 | 株式会社ユニバーサルエンターテインメント | 顧客対応システム、並びに会話サーバ |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8355919B2 (en) | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8352272B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8396714B2 (en) | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8121842B2 (en) * | 2008-12-12 | 2012-02-21 | Microsoft Corporation | Audio output of a document from mobile device |
US8914417B2 (en) | 2009-01-07 | 2014-12-16 | International Business Machines Corporation | Apparatus, system, and method for maintaining a context stack |
TW201027378A (en) * | 2009-01-08 | 2010-07-16 | Realtek Semiconductor Corp | Virtual platform and related simulation method |
US20100324895A1 (en) * | 2009-01-15 | 2010-12-23 | K-Nfb Reading Technology, Inc. | Synchronization for document narration |
WO2010084497A1 (en) * | 2009-01-26 | 2010-07-29 | Tomer London | System and method for providing visual content and services to wireless terminal devices in response to a received voice call |
US9529573B2 (en) * | 2009-01-28 | 2016-12-27 | Microsoft Technology Licensing, Llc | Graphical user interface generation through use of a binary file |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
CN101533409B (zh) * | 2009-04-23 | 2011-03-02 | 何海群 | 一种网络浏览器系统和控制方法 |
US8601015B1 (en) | 2009-05-15 | 2013-12-03 | Wolfram Alpha Llc | Dynamic example generation for queries |
US8788524B1 (en) | 2009-05-15 | 2014-07-22 | Wolfram Alpha Llc | Method and system for responding to queries in an imprecise syntax |
US8577543B2 (en) * | 2009-05-28 | 2013-11-05 | Intelligent Mechatronic Systems Inc. | Communication system with personal information management and remote vehicle monitoring and control features |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9002713B2 (en) * | 2009-06-09 | 2015-04-07 | At&T Intellectual Property I, L.P. | System and method for speech personalization by need |
US9055151B2 (en) * | 2009-06-22 | 2015-06-09 | Avaya Inc. | Method to set the flag as replied or forwarded to all replied or forwarded voice messages |
US8442189B2 (en) * | 2009-06-22 | 2013-05-14 | Avaya Inc. | Unified communications appliance |
WO2010148518A1 (en) | 2009-06-27 | 2010-12-29 | Intelligent Mechatronic Systems | Vehicle internet radio interface |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9171541B2 (en) * | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
WO2011059997A1 (en) | 2009-11-10 | 2011-05-19 | Voicebox Technologies, Inc. | System and method for providing a natural language content dedication service |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US20110110534A1 (en) * | 2009-11-12 | 2011-05-12 | Apple Inc. | Adjustable voice output based on device status |
US9978272B2 (en) | 2009-11-25 | 2018-05-22 | Ridetones, Inc | Vehicle to vehicle chatting and communication system |
US20110125733A1 (en) * | 2009-11-25 | 2011-05-26 | Fish Nathan J | Quick access utility |
US20110144976A1 (en) * | 2009-12-10 | 2011-06-16 | Arun Jain | Application user interface system and method |
US8868427B2 (en) * | 2009-12-11 | 2014-10-21 | General Motors Llc | System and method for updating information in electronic calendars |
EP4318463A3 (en) * | 2009-12-23 | 2024-02-28 | Google LLC | Multi-modal input on an electronic device |
GB0922608D0 (en) * | 2009-12-23 | 2010-02-10 | Vratskides Alexios | Message optimization |
JP2011139303A (ja) * | 2009-12-28 | 2011-07-14 | Nec Corp | 通信システム、制御装置、通信制御方法、およびプログラム |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US9665620B2 (en) * | 2010-01-15 | 2017-05-30 | Ab Initio Technology Llc | Managing data queries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8645914B2 (en) * | 2010-01-22 | 2014-02-04 | AgentSheets, Inc. | Conversational programming |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8433828B2 (en) | 2010-02-26 | 2013-04-30 | Apple Inc. | Accessory protocol for touch screen device accessibility |
US8554948B2 (en) * | 2010-03-03 | 2013-10-08 | At&T Intellectual Property I, L.P. | Methods, systems and computer program products for identifying traffic on the internet using communities of interest |
JP5560814B2 (ja) * | 2010-03-24 | 2014-07-30 | 日本電気株式会社 | 負荷分散システム、負荷分散サーバおよび負荷分散方法 |
US8612932B2 (en) * | 2010-04-18 | 2013-12-17 | Voxeo Corporation | Unified framework and method for call control and media control |
US8776091B2 (en) * | 2010-04-30 | 2014-07-08 | Microsoft Corporation | Reducing feedback latency |
US8484015B1 (en) | 2010-05-14 | 2013-07-09 | Wolfram Alpha Llc | Entity pages |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8352908B2 (en) | 2010-06-28 | 2013-01-08 | International Business Machines Corporation | Multi-modal conversion tool for form-type applications |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9246914B2 (en) * | 2010-07-16 | 2016-01-26 | Nokia Technologies Oy | Method and apparatus for processing biometric information using distributed computation |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
US8812298B1 (en) | 2010-07-28 | 2014-08-19 | Wolfram Alpha Llc | Macro replacement of natural language input |
US8775618B2 (en) * | 2010-08-02 | 2014-07-08 | Ebay Inc. | Application platform with flexible permissioning |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8688435B2 (en) * | 2010-09-22 | 2014-04-01 | Voice On The Go Inc. | Systems and methods for normalizing input media |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US20120173242A1 (en) * | 2010-12-30 | 2012-07-05 | Samsung Electronics Co., Ltd. | System and method for exchange of scribble data between gsm devices along with voice |
US9183843B2 (en) | 2011-01-07 | 2015-11-10 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
US8898065B2 (en) | 2011-01-07 | 2014-11-25 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9542657B2 (en) * | 2011-02-23 | 2017-01-10 | Avaya Inc. | Method and system for optimizing contact center performance |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9202465B2 (en) * | 2011-03-25 | 2015-12-01 | General Motors Llc | Speech recognition dependent on text message content |
US8171137B1 (en) | 2011-05-09 | 2012-05-01 | Google Inc. | Transferring application state across devices |
CN103534697B (zh) * | 2011-05-13 | 2017-11-21 | 微软技术许可有限责任公司 | 用于提供统计对话管理器训练的方法和系统 |
US20120317492A1 (en) * | 2011-05-27 | 2012-12-13 | Telefon Projekt LLC | Providing Interactive and Personalized Multimedia Content from Remote Servers |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US9069814B2 (en) | 2011-07-27 | 2015-06-30 | Wolfram Alpha Llc | Method and system for using natural language to generate widgets |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9734252B2 (en) | 2011-09-08 | 2017-08-15 | Wolfram Alpha Llc | Method and system for analyzing data using a query answering system |
US8645532B2 (en) * | 2011-09-13 | 2014-02-04 | BlueStripe Software, Inc. | Methods and computer program products for monitoring the contents of network traffic in a network device |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US9851950B2 (en) | 2011-11-15 | 2017-12-26 | Wolfram Alpha Llc | Programming in a precise syntax using natural language |
US8595016B2 (en) * | 2011-12-23 | 2013-11-26 | Angle, Llc | Accessing content using a source-specific content-adaptable dialogue |
KR101962126B1 (ko) * | 2012-02-24 | 2019-03-26 | 엘지전자 주식회사 | 음성 인식 결과에 따라 데이터베이스에 액세스하는 멀티미디어 디바이스 및 그 제어 방법 |
CN103295575B (zh) * | 2012-02-27 | 2019-01-25 | 北京三星通信技术研究有限公司 | 一种语音识别方法和客户端 |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
CN104487932B (zh) * | 2012-05-07 | 2017-10-10 | 思杰系统有限公司 | 用于远程应用和桌面的语音识别支持 |
US20130304536A1 (en) * | 2012-05-10 | 2013-11-14 | Ebay, Inc. | Harvest Customer Tracking Information |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10395270B2 (en) | 2012-05-17 | 2019-08-27 | Persado Intellectual Property Limited | System and method for recommending a grammar for a message campaign used by a message optimization system |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9502029B1 (en) * | 2012-06-25 | 2016-11-22 | Amazon Technologies, Inc. | Context-aware speech processing |
US20140006318A1 (en) * | 2012-06-29 | 2014-01-02 | Poe XING | Collecting, discovering, and/or sharing media objects |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US8880398B1 (en) * | 2012-07-13 | 2014-11-04 | Google Inc. | Localized speech recognition with offload |
US9529808B1 (en) | 2012-07-16 | 2016-12-27 | Tintri Inc. | Efficient and flexible organization and management of file metadata |
CN104704485B (zh) * | 2012-07-19 | 2018-11-30 | 格兰斯电讯网络有限公司 | 一种在第二位置查看第一浏览器的内容的方法 |
US9424233B2 (en) | 2012-07-20 | 2016-08-23 | Veveo, Inc. | Method of and system for inferring user intent in search input in a conversational interaction system |
US9485330B2 (en) | 2012-07-30 | 2016-11-01 | Tencent Technology (Shenzhen) Company Limited | Web browser operation method and system |
CN103577444B (zh) * | 2012-07-30 | 2017-04-05 | 腾讯科技(深圳)有限公司 | 一种操控浏览器的方法及系统 |
US9465833B2 (en) | 2012-07-31 | 2016-10-11 | Veveo, Inc. | Disambiguating user intent in conversational interaction system for large corpus information retrieval |
US9378073B2 (en) * | 2012-08-14 | 2016-06-28 | International Business Machines Corporation | Remote procedure call for a distributed system |
US9384736B2 (en) * | 2012-08-21 | 2016-07-05 | Nuance Communications, Inc. | Method to provide incremental UI response based on multiple asynchronous evidence about user input |
US9405424B2 (en) | 2012-08-29 | 2016-08-02 | Wolfram Alpha, Llc | Method and system for distributing and displaying graphical items |
KR102150289B1 (ko) * | 2012-08-30 | 2020-09-01 | 삼성전자주식회사 | 사용자 단말에서 사용자 인터페이스 장치 및 이를 지원하는 방법 |
CN102831229A (zh) * | 2012-08-30 | 2012-12-19 | 浙大网新科技股份有限公司 | 适合盲人使用的网页浏览方法 |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US8700396B1 (en) * | 2012-09-11 | 2014-04-15 | Google Inc. | Generating speech data collection prompts |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US10276157B2 (en) * | 2012-10-01 | 2019-04-30 | Nuance Communications, Inc. | Systems and methods for providing a voice agent user interface |
KR20150063423A (ko) | 2012-10-04 | 2015-06-09 | 뉘앙스 커뮤니케이션즈, 인코포레이티드 | Asr을 위한 개선된 하이브리드 컨트롤러 |
US9035884B2 (en) | 2012-10-17 | 2015-05-19 | Nuance Communications, Inc. | Subscription updates in multiple device language models |
WO2014073206A1 (ja) * | 2012-11-07 | 2014-05-15 | 日本電気株式会社 | 情報処理装置、及び、情報処理方法 |
KR101980834B1 (ko) * | 2012-11-28 | 2019-05-21 | 한국전자통신연구원 | 컨텍스트 정보 기반 응용프로그램 관리방법 및 그 장치 |
US9003039B2 (en) | 2012-11-29 | 2015-04-07 | Thales Canada Inc. | Method and apparatus of resource allocation or resource release |
KR101940719B1 (ko) * | 2012-12-14 | 2019-01-23 | 한국전자통신연구원 | 태스크 그래프 기반 대화 처리 시스템의 태스크 그래프 구축 장치 및 방법 |
CN103117058B (zh) * | 2012-12-20 | 2015-12-09 | 四川长虹电器股份有限公司 | 基于智能电视平台的多语音引擎切换系统及方法 |
CN103020278A (zh) * | 2012-12-28 | 2013-04-03 | 深圳创维数字技术股份有限公司 | 一种网页的控制方法及浏览器 |
US9430420B2 (en) | 2013-01-07 | 2016-08-30 | Telenav, Inc. | Computing system with multimodal interaction mechanism and method of operation thereof |
US9922639B1 (en) * | 2013-01-11 | 2018-03-20 | Amazon Technologies, Inc. | User feedback for speech interactions |
CN103971687B (zh) * | 2013-02-01 | 2016-06-29 | 腾讯科技(深圳)有限公司 | 一种语音识别系统中的负载均衡实现方法和装置 |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US9817835B2 (en) * | 2013-03-12 | 2017-11-14 | Tintri Inc. | Efficient data synchronization for storage containers |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9218052B2 (en) | 2013-03-14 | 2015-12-22 | Samsung Electronics Co., Ltd. | Framework for voice controlling applications |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
CN110096712B (zh) | 2013-03-15 | 2023-06-20 | 苹果公司 | 通过智能数字助理的用户培训 |
US9125180B1 (en) | 2013-03-15 | 2015-09-01 | Google Inc. | Techniques for automatically establishing a long-lasting connection across computing devices configured for short-range wireless communication |
KR102057795B1 (ko) | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9348555B2 (en) * | 2013-03-15 | 2016-05-24 | Volkswagen Ag | In-vehicle access of mobile device functions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9875494B2 (en) * | 2013-04-16 | 2018-01-23 | Sri International | Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant |
US9946757B2 (en) | 2013-05-10 | 2018-04-17 | Veveo, Inc. | Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system |
US9431008B2 (en) * | 2013-05-29 | 2016-08-30 | Nuance Communications, Inc. | Multiple parallel dialogs in smart phone applications |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US20160035348A1 (en) * | 2013-06-07 | 2016-02-04 | Nuance Communications, Inc. | Speech-Based Search Using Descriptive Features of Surrounding Objects |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
US9311298B2 (en) * | 2013-06-21 | 2016-04-12 | Microsoft Technology Licensing, Llc | Building conversational understanding systems using a toolset |
KR102053820B1 (ko) | 2013-07-02 | 2019-12-09 | 삼성전자주식회사 | 서버 및 그 제어방법과, 영상처리장치 및 그 제어방법 |
US10956433B2 (en) * | 2013-07-15 | 2021-03-23 | Microsoft Technology Licensing, Llc | Performing an operation relative to tabular data based upon voice input |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10109273B1 (en) | 2013-08-29 | 2018-10-23 | Amazon Technologies, Inc. | Efficient generation of personalized spoken language understanding models |
US9361289B1 (en) * | 2013-08-30 | 2016-06-07 | Amazon Technologies, Inc. | Retrieval and management of spoken language understanding personalization data |
US10628378B2 (en) | 2013-09-03 | 2020-04-21 | Tintri By Ddn, Inc. | Replication of snapshots and clones |
US9495965B2 (en) * | 2013-09-20 | 2016-11-15 | American Institutes For Research | Synthesis and display of speech commands method and system |
CN103474065A (zh) * | 2013-09-24 | 2013-12-25 | 贵阳世纪恒通科技有限公司 | 基于自动分类技术的语音意图判定识别方法 |
WO2015050543A1 (en) * | 2013-10-02 | 2015-04-09 | Empire Technology Development, Llc | Identification of distributed user interface (dui) elements |
CN104598257B (zh) | 2013-10-30 | 2019-01-18 | 华为技术有限公司 | 远程应用程序运行的方法和装置 |
KR101740332B1 (ko) * | 2013-11-05 | 2017-06-08 | 한국전자통신연구원 | 자동 번역 장치 및 방법 |
US9754591B1 (en) * | 2013-11-18 | 2017-09-05 | Amazon Technologies, Inc. | Dialog management context sharing |
US9690854B2 (en) * | 2013-11-27 | 2017-06-27 | Nuance Communications, Inc. | Voice-enabled dialog interaction with web pages |
US9558176B2 (en) | 2013-12-06 | 2017-01-31 | Microsoft Technology Licensing, Llc | Discriminating between natural language and keyword language items |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
KR101489826B1 (ko) * | 2013-12-30 | 2015-02-04 | 유승우 | 더미 터미널 및 본체 |
US10057355B2 (en) | 2014-02-13 | 2018-08-21 | Nec Corporation | Communication system, communication device, communication method, and non-transitory computer readable medium storing program |
WO2015148725A2 (en) * | 2014-03-25 | 2015-10-01 | Mark Stephen Meadows | Systems and methods for executing cryptographically secure transactions using voice and natural language processing |
US20150278852A1 (en) * | 2014-04-01 | 2015-10-01 | DoubleVerify, Inc. | System And Method For Identifying Online Advertisement Laundering And Online Advertisement Injection |
JP2015207819A (ja) * | 2014-04-17 | 2015-11-19 | 株式会社リコー | 情報処理装置、情報処理システム、通信制御方法およびプログラム |
US9514376B2 (en) * | 2014-04-29 | 2016-12-06 | Google Inc. | Techniques for distributed optical character recognition and distributed machine language translation |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US11314826B2 (en) | 2014-05-23 | 2022-04-26 | Samsung Electronics Co., Ltd. | Method for searching and device thereof |
US9990433B2 (en) | 2014-05-23 | 2018-06-05 | Samsung Electronics Co., Ltd. | Method for searching and device thereof |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
JP2016024212A (ja) * | 2014-07-16 | 2016-02-08 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
CN107112013B (zh) * | 2014-09-14 | 2020-10-23 | 谷歌有限责任公司 | 用于创建可定制对话系统引擎的平台 |
CN107003996A (zh) | 2014-09-16 | 2017-08-01 | 声钰科技 | 语音商务 |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
CN112217905B (zh) | 2014-09-19 | 2024-03-29 | 康维达无线有限责任公司 | 服务层会话迁移和共享 |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
CN107003999B (zh) | 2014-10-15 | 2020-08-21 | 声钰科技 | 对用户的在先自然语言输入的后续响应的系统和方法 |
EP3207452A4 (en) * | 2014-10-15 | 2018-06-20 | Ayla Networks, Inc. | Registration framework for connected consumer devices |
US9648055B2 (en) * | 2014-10-15 | 2017-05-09 | Ayla Networks, Inc. | Applications in a flexible registration framework |
US9800619B2 (en) * | 2014-10-15 | 2017-10-24 | Ayla Networks, Inc. | Registration framework for connected consumer devices |
US9813505B2 (en) | 2014-10-15 | 2017-11-07 | Ayla Networks, Inc. | Devices in a flexible registration framework |
EP3210096B1 (en) * | 2014-10-21 | 2019-05-15 | Robert Bosch GmbH | Method and system for automation of response selection and composition in dialog systems |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9965464B2 (en) * | 2014-12-05 | 2018-05-08 | Microsoft Technology Licensing, Llc | Automatic process guidance |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10154041B2 (en) * | 2015-01-13 | 2018-12-11 | Microsoft Technology Licensing, Llc | Website access control |
US9854049B2 (en) | 2015-01-30 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for resolving ambiguous terms in social chatter based on a user profile |
US10180985B2 (en) * | 2015-02-19 | 2019-01-15 | At&T Intellectual Property I, L.P. | Apparatus and method for automatically redirecting a search |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9672829B2 (en) * | 2015-03-23 | 2017-06-06 | International Business Machines Corporation | Extracting and displaying key points of a video conference |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US20160321025A1 (en) * | 2015-04-30 | 2016-11-03 | Kabushiki Kaisha Toshiba | Electronic apparatus and method |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
CN106302089B (zh) * | 2015-05-21 | 2019-06-11 | 阿里巴巴集团控股有限公司 | 会话处理方法和系统 |
CN107851217A (zh) * | 2015-05-27 | 2018-03-27 | 奥瑞恩实验室 | 可穿戴个人通信节点的智能代理特征 |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9721569B2 (en) * | 2015-05-27 | 2017-08-01 | Intel Corporation | Gaussian mixture model accelerator with direct memory access engines corresponding to individual data streams |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10133999B2 (en) | 2015-06-01 | 2018-11-20 | AffectLayer, Inc. | Analyzing conversations to automatically identify deals at risk |
US10324979B2 (en) | 2015-06-01 | 2019-06-18 | AffectLayer, Inc. | Automatic generation of playlists from conversations |
US10679013B2 (en) | 2015-06-01 | 2020-06-09 | AffectLayer, Inc. | IoT-based call assistant device |
US10360911B2 (en) | 2015-06-01 | 2019-07-23 | AffectLayer, Inc. | Analyzing conversations to automatically identify product features that resonate with customers |
US10110743B2 (en) | 2015-06-01 | 2018-10-23 | AffectLayer, Inc. | Automatic pattern recognition in conversations |
US10181326B2 (en) | 2015-06-01 | 2019-01-15 | AffectLayer, Inc. | Analyzing conversations to automatically identify action items |
US10367940B2 (en) | 2015-06-01 | 2019-07-30 | AffectLayer, Inc. | Analyzing conversations to automatically identify product feature requests |
US10387573B2 (en) | 2015-06-01 | 2019-08-20 | AffectLayer, Inc. | Analyzing conversations to automatically identify customer pain points |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US9407989B1 (en) | 2015-06-30 | 2016-08-02 | Arthur Woodrow | Closed audio circuit |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10504137B1 (en) | 2015-10-08 | 2019-12-10 | Persado Intellectual Property Limited | System, method, and computer program product for monitoring and responding to the performance of an ad |
US9688225B2 (en) * | 2015-10-09 | 2017-06-27 | Livio, Inc. | Methods and systems for a mobile device to emulate a vehicle human-machine interface |
KR20180082455A (ko) * | 2015-10-15 | 2018-07-18 | 인터랙티브 인텔리전스 그룹, 인코포레이티드 | 다국어 통신 시퀀싱 시스템 및 방법 |
EP3341933A1 (en) | 2015-10-21 | 2018-07-04 | Google LLC | Parameter collection and automatic dialog generation in dialog systems |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US11018888B2 (en) * | 2015-12-03 | 2021-05-25 | Whirlpool Corporation | Methods of remote control of appliances |
US10832283B1 (en) | 2015-12-09 | 2020-11-10 | Persado Intellectual Property Limited | System, method, and computer program for providing an instance of a promotional message to a user based on a predicted emotional response corresponding to user characteristics |
CN105551488A (zh) * | 2015-12-15 | 2016-05-04 | 深圳Tcl数字技术有限公司 | 语音控制方法及系统 |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10732783B2 (en) | 2015-12-28 | 2020-08-04 | Microsoft Technology Licensing, Llc | Identifying image comments from similar images |
US10417346B2 (en) * | 2016-01-23 | 2019-09-17 | Microsoft Technology Licensing, Llc | Tool for facilitating the development of new language understanding scenarios |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10097919B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Music service selection |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10224026B2 (en) * | 2016-03-15 | 2019-03-05 | Sony Corporation | Electronic device, system, method and computer program |
KR102450487B1 (ko) * | 2016-03-17 | 2022-10-04 | 구글 엘엘씨 | 하이브리드 클라이언트-서버 데이터 제공 |
US9996531B1 (en) * | 2016-03-29 | 2018-06-12 | Facebook, Inc. | Conversational understanding |
US10319371B2 (en) * | 2016-05-04 | 2019-06-11 | GM Global Technology Operations LLC | Disambiguation of vehicle speech commands |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
CN106095593B (zh) * | 2016-05-31 | 2019-04-16 | Oppo广东移动通信有限公司 | 一种前、后景应用程序行为同步方法及装置 |
KR101995540B1 (ko) * | 2016-06-03 | 2019-07-15 | 주식회사 허브케이 | 판독/입력 오류 단어 정정 장치 및 방법 |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
WO2017222503A1 (en) * | 2016-06-21 | 2017-12-28 | Hewlett-Packard Development Company, L.P. | Communications utilizing multiple virtual assistant services |
WO2018023106A1 (en) | 2016-07-29 | 2018-02-01 | Erik SWART | System and method of disambiguating natural language processing requests |
KR101827773B1 (ko) * | 2016-08-02 | 2018-02-09 | 주식회사 하이퍼커넥트 | 통역 장치 및 방법 |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
KR102481881B1 (ko) * | 2016-09-07 | 2022-12-27 | 삼성전자주식회사 | 외부 디바이스를 제어하는 서버 및 그 방법 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
CN106847272A (zh) * | 2016-12-12 | 2017-06-13 | 北京光年无限科技有限公司 | 与运行应用关联的智能机器人的数据交互方法 |
CN106844453B (zh) * | 2016-12-20 | 2020-09-08 | 江苏瀚远科技股份有限公司 | 一种电子文件格式转换方法 |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
KR102643501B1 (ko) * | 2016-12-26 | 2024-03-06 | 현대자동차주식회사 | 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법 |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
US20180247644A1 (en) * | 2017-02-27 | 2018-08-30 | Intel Corporation | Queueing spoken dialogue output |
EP3392884A1 (en) * | 2017-04-21 | 2018-10-24 | audEERING GmbH | A method for automatic affective state inference and an automated affective state inference system |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10127227B1 (en) * | 2017-05-15 | 2018-11-13 | Google Llc | Providing access to user-controlled resources by automated assistants |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US11436417B2 (en) | 2017-05-15 | 2022-09-06 | Google Llc | Providing access to user-controlled resources by automated assistants |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US11048995B2 (en) | 2017-05-16 | 2021-06-29 | Google Llc | Delayed responses by computational assistant |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
JP6777887B2 (ja) * | 2017-06-30 | 2020-10-28 | 京セラドキュメントソリューションズ株式会社 | リモート通信制御システム、セッション管理システムおよびセッション管理プログラム |
CN107319857A (zh) * | 2017-06-30 | 2017-11-07 | 广东工业大学 | 一种交互镜子及具有该交互镜子的智能家电系统 |
US20190018545A1 (en) * | 2017-07-13 | 2019-01-17 | International Business Machines Corporation | System and method for rapid financial app prototyping |
KR102419374B1 (ko) * | 2017-07-21 | 2022-07-11 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법 |
TWI646529B (zh) * | 2017-07-25 | 2019-01-01 | 雲拓科技有限公司 | 主動聊天裝置 |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
CN109426530B (zh) * | 2017-08-17 | 2022-04-05 | 阿里巴巴集团控股有限公司 | 页面确定方法、装置、服务器和存储介质 |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10600419B1 (en) * | 2017-09-22 | 2020-03-24 | Amazon Technologies, Inc. | System command processing |
US10957313B1 (en) | 2017-09-22 | 2021-03-23 | Amazon Technologies, Inc. | System command processing |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
CN107479906A (zh) * | 2017-09-28 | 2017-12-15 | 电子科技大学 | 基于Cordova的跨平台在线教育移动终端 |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10453454B2 (en) * | 2017-10-26 | 2019-10-22 | Hitachi, Ltd. | Dialog system with self-learning natural language understanding |
CN107767856B (zh) * | 2017-11-07 | 2021-11-19 | 中国银行股份有限公司 | 一种语音处理方法、装置及服务器 |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
KR102100976B1 (ko) * | 2017-12-08 | 2020-05-15 | 구글 엘엘씨 | 스택 데이터 구조 백그라운드의 디지털 어시스턴트 프로세싱 |
CN108008728B (zh) * | 2017-12-12 | 2020-01-17 | 深圳市银星智能科技股份有限公司 | 清洁机器人以及基于清洁机器人的最短路径规划方法 |
US20190180753A1 (en) * | 2017-12-12 | 2019-06-13 | Ca, Inc. | Analysis of collaborative dialog data structures from speech processing computer system |
US10671251B2 (en) | 2017-12-22 | 2020-06-02 | Arbordale Publishing, LLC | Interactive eReader interface generation based on synchronization of textual and audial descriptors |
WO2019125486A1 (en) * | 2017-12-22 | 2019-06-27 | Soundhound, Inc. | Natural language grammars adapted for interactive experiences |
US11443646B2 (en) | 2017-12-22 | 2022-09-13 | Fathom Technologies, LLC | E-Reader interface system with audio and highlighting synchronization for digital books |
US11900928B2 (en) | 2017-12-23 | 2024-02-13 | Soundhound Ai Ip, Llc | System and method for adapted interactive experiences |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
CN108256066B (zh) * | 2018-01-16 | 2022-01-11 | 智言科技(深圳)有限公司 | 端到端层次解码任务型对话系统 |
CN108269205A (zh) * | 2018-01-24 | 2018-07-10 | 成都安信思远信息技术有限公司 | 一种利用云平台的电子数据鉴定系统 |
CN108319912A (zh) * | 2018-01-30 | 2018-07-24 | 歌尔科技有限公司 | 一种唇语识别方法、装置、系统和智能眼镜 |
US20190236137A1 (en) * | 2018-01-31 | 2019-08-01 | Microsoft Technology Licensing, Llc | Generating conversational representations of web content |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
CN108520748B (zh) * | 2018-02-01 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 一种智能设备功能引导方法及系统 |
US10891430B2 (en) * | 2018-02-02 | 2021-01-12 | Fuji Xerox Co., Ltd. | Semi-automated methods for translating structured document content to chat-based interaction |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
KR102507249B1 (ko) * | 2018-03-08 | 2023-03-07 | 삼성전자주식회사 | 성능 모드 제어 방법 및 이를 지원하는 전자 장치 |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11056107B2 (en) * | 2018-03-30 | 2021-07-06 | International Business Machines Corporation | Conversational framework |
EP3776246A1 (en) * | 2018-04-19 | 2021-02-17 | Google LLC | Dependency graph conversation modeling for use in conducting human-to-computer dialog sessions with a computer-implemented automated assistant |
CN108614773A (zh) * | 2018-04-24 | 2018-10-02 | 广州链创信息科技有限公司 | 一种手机小程序用展示发布体验系统 |
US11094316B2 (en) * | 2018-05-04 | 2021-08-17 | Qualcomm Incorporated | Audio analytics for natural language processing |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
EP3570189B1 (de) * | 2018-05-14 | 2023-08-09 | Siemens Aktiengesellschaft | Computerimplementiertes verfahren zum bereitstellen eines adaptiven dialogsystems und ein adaptives dialogsystem |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US10776582B2 (en) * | 2018-06-06 | 2020-09-15 | International Business Machines Corporation | Supporting combinations of intents in a conversation |
US10811009B2 (en) | 2018-06-27 | 2020-10-20 | International Business Machines Corporation | Automatic skill routing in conversational computing frameworks |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
EP3682345B1 (en) | 2018-08-07 | 2021-11-24 | Google LLC | Assembling and evaluating automated assistant responses for privacy concerns |
US11436215B2 (en) | 2018-08-20 | 2022-09-06 | Samsung Electronics Co., Ltd. | Server and control method thereof |
EP3642837B1 (en) * | 2018-08-23 | 2024-03-13 | Google LLC | Regulating assistant responsiveness according to characteristics of a multi-assistant environment |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10762893B2 (en) * | 2018-09-28 | 2020-09-01 | Comcast Cable Communications, Llc | Monitoring of one or more audio/video collection devices |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US10594837B1 (en) | 2018-11-02 | 2020-03-17 | International Business Machines Corporation | Predictive service scaling for conversational computing |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US10770072B2 (en) | 2018-12-10 | 2020-09-08 | International Business Machines Corporation | Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
CN110021291B (zh) * | 2018-12-26 | 2021-01-29 | 创新先进技术有限公司 | 一种语音合成文件的调用方法及装置 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
EP3703342B1 (en) * | 2019-03-01 | 2023-07-26 | ABB Schweiz AG | Dynamic load balancing in network centric process control systems |
WO2020185880A1 (en) * | 2019-03-12 | 2020-09-17 | Beguided, Inc. | Conversational artificial intelligence for automated self-service account management |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN111800537B (zh) * | 2019-04-09 | 2021-07-20 | Oppo广东移动通信有限公司 | 终端使用状态的评估方法、装置、存储介质及电子设备 |
CN111857219B (zh) | 2019-04-25 | 2023-06-30 | 益逻触控系统公司 | 具有三层系统架构的自助服务装置 |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11640504B2 (en) | 2019-05-17 | 2023-05-02 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11526780B2 (en) * | 2019-08-05 | 2022-12-13 | Microsoft Technology Licensing, Llc | Converting nonnative skills for conversational computing interfaces |
US10915227B1 (en) | 2019-08-07 | 2021-02-09 | Bank Of America Corporation | System for adjustment of resource allocation based on multi-channel inputs |
CN110647736A (zh) * | 2019-08-13 | 2020-01-03 | 平安科技(深圳)有限公司 | 插件式坐席系统登录方法、装置、计算机设备及存储介质 |
CN110400564A (zh) * | 2019-08-21 | 2019-11-01 | 科大国创软件股份有限公司 | 一种基于栈的聊天机器人对话管理方法 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN110647305B (zh) * | 2019-09-29 | 2023-10-31 | 阿波罗智联(北京)科技有限公司 | 应用程序的语音交互方法、装置、设备和介质 |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
JP7029434B2 (ja) * | 2019-10-23 | 2022-03-03 | サウンドハウンド,インコーポレイテッド | コンピュータによって実行される方法、サーバ装置、情報処理システム、プログラム、およびクライアント端末 |
WO2021096382A2 (ru) * | 2019-11-15 | 2021-05-20 | Федеральное Государственное Автономное Образовательное Учреждение Высшего Образования "Московский Физико-Технический Институт" (Национальный Исследовательский Университет) (Мфти) | Способ и система управления диалоговым агентом в канале взаимодействия с пользователем |
CN111105289B (zh) * | 2019-11-22 | 2023-05-05 | 北京云杉信息技术有限公司 | 一种基于aop方式的客户端订单取消判断方法及装置 |
US11664044B2 (en) | 2019-11-25 | 2023-05-30 | Qualcomm Incorporated | Sound event detection learning |
EP3836043A1 (en) | 2019-12-11 | 2021-06-16 | Carrier Corporation | A method and an equipment for configuring a service |
CN114787786A (zh) * | 2019-12-13 | 2022-07-22 | 株式会社日立产机系统 | 通信模块、通信系统和通信方法 |
CN111223485A (zh) * | 2019-12-19 | 2020-06-02 | 深圳壹账通智能科技有限公司 | 智能交互方法、装置、电子设备及存储介质 |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
CN113035226B (zh) * | 2019-12-24 | 2024-04-23 | 中兴通讯股份有限公司 | 语音通话方法、通信终端和计算机可读介质 |
US11209573B2 (en) | 2020-01-07 | 2021-12-28 | Northrop Grumman Systems Corporation | Radio occultation aircraft navigation aid system |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US20210303273A1 (en) * | 2020-03-30 | 2021-09-30 | Nuance Communications, Inc. | Development system and method |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
CN114095487B (zh) * | 2020-07-30 | 2024-03-19 | 中移(苏州)软件技术有限公司 | 一种远程任务执行方法、装置及存储介质 |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11514799B2 (en) | 2020-11-11 | 2022-11-29 | Northrop Grumman Systems Corporation | Systems and methods for maneuvering an aerial vehicle during adverse weather conditions |
US11410677B2 (en) | 2020-11-24 | 2022-08-09 | Qualcomm Incorporated | Adaptive sound event classification |
CN112527435B (zh) * | 2020-12-08 | 2024-02-13 | 建信金融科技有限责任公司 | 浏览器操作方法及系统 |
US11329933B1 (en) | 2020-12-28 | 2022-05-10 | Drift.com, Inc. | Persisting an AI-supported conversation across multiple channels |
US20220415311A1 (en) * | 2021-06-24 | 2022-12-29 | Amazon Technologies, Inc. | Early invocation for contextual data processing |
US20230197072A1 (en) * | 2021-12-17 | 2023-06-22 | Google Llc | Warm word arbitration between automated assistant devices |
CN115064168B (zh) * | 2022-08-17 | 2022-12-13 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和存储介质 |
CN116719649A (zh) * | 2022-09-01 | 2023-09-08 | 荣耀终端有限公司 | 会话通知的提示方法、电子设备及可读存储介质 |
CN116450383A (zh) * | 2023-06-19 | 2023-07-18 | 合肥景云软件工程有限责任公司 | 一种通过网页调用操作系统的方法 |
Family Cites Families (104)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4787031A (en) * | 1985-01-04 | 1988-11-22 | Digital Equipment Corporation | Computer with virtual machine mode and multiple protection rings |
JPH0673135B2 (ja) * | 1988-03-01 | 1994-09-14 | 工業技術院長 | 自然言語対話処理装置 |
US5282265A (en) * | 1988-10-04 | 1994-01-25 | Canon Kabushiki Kaisha | Knowledge information processing system |
JPH0384652A (ja) * | 1989-08-29 | 1991-04-10 | Personal Joho Kankyo Kyokai | ヒューマンインタフェースのアーキテクチャモデル |
US5333237A (en) * | 1989-10-10 | 1994-07-26 | Hughes Aircraft Company | Hypermedia structured knowledge base system |
JP3235728B2 (ja) * | 1990-02-09 | 2001-12-04 | 沖ソフトウェア株式会社 | 会話制御方式 |
JPH05304567A (ja) * | 1990-04-05 | 1993-11-16 | Texas Instr Inc <Ti> | 遠隔通信システムならびにその遠隔通信サービスプレゼンテーションインターフェース及び遠隔通信ネットワーク |
JPH0410153A (ja) * | 1990-04-27 | 1992-01-14 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索システム |
US5133004A (en) | 1990-05-07 | 1992-07-21 | Unisys Corporation | Digital computer platform for supporting telephone network applications |
US5255305A (en) * | 1990-11-01 | 1993-10-19 | Voiceplex Corporation | Integrated voice processing system |
US5274695A (en) * | 1991-01-11 | 1993-12-28 | U.S. Sprint Communications Company Limited Partnership | System for verifying the identity of a caller in a telecommunications network |
JPH0792801B2 (ja) * | 1991-08-02 | 1995-10-09 | 工業技術院長 | 非単調推論方法 |
US5283888A (en) * | 1991-08-27 | 1994-02-01 | International Business Machines Corporation | Voice processing interface unit employing virtual screen communications for accessing a plurality of primed applications |
US6400996B1 (en) * | 1999-02-01 | 2002-06-04 | Steven M. Hoffberg | Adaptive pattern recognition based control system and method |
JP3213056B2 (ja) * | 1992-06-19 | 2001-09-25 | 株式会社日立製作所 | マルチメディア処理装置 |
US5384890A (en) * | 1992-09-30 | 1995-01-24 | Apple Computer, Inc. | Method and apparatus for providing multiple clients simultaneous access to a sound data stream |
FR2696574B1 (fr) * | 1992-10-06 | 1994-11-18 | Sextant Avionique | Procédé et dispositif d'analyse d'un message fourni par des moyens d'interaction à un système de dialogue homme-machine. |
JPH06131437A (ja) * | 1992-10-20 | 1994-05-13 | Hitachi Ltd | 複合形態による操作指示方法 |
JPH06149534A (ja) * | 1992-11-13 | 1994-05-27 | Toshiba Corp | 音声画面操作装置 |
US6029188A (en) * | 1993-01-18 | 2000-02-22 | Institute For Personalized Information Environment | Information processing system for an architecture model capable of interfacing with humans and capable of being modified |
US5544228A (en) * | 1993-09-27 | 1996-08-06 | The Walt Disney Company | Method and apparatus for transmission of full frequency digital audio |
US5509060A (en) * | 1993-11-19 | 1996-04-16 | At&T Corp. | Network-accessible intelligent telephone service |
US5748841A (en) * | 1994-02-25 | 1998-05-05 | Morin; Philippe | Supervised contextual language acquisition system |
US5644686A (en) * | 1994-04-29 | 1997-07-01 | International Business Machines Corporation | Expert system and method employing hierarchical knowledge base, and interactive multimedia/hypermedia applications |
JP3408332B2 (ja) * | 1994-09-12 | 2003-05-19 | 富士通株式会社 | ハイパーテキスト読上装置 |
US5682539A (en) * | 1994-09-29 | 1997-10-28 | Conrad; Donovan | Anticipated meaning natural language interface |
US5594789A (en) * | 1994-10-13 | 1997-01-14 | Bell Atlantic Network Services, Inc. | Transaction implementation in video dial tone network |
JPH10508964A (ja) * | 1994-11-08 | 1998-09-02 | バーミア、テクノロジーズ、インコーポレーテッド | 料金設定機能を有するオンラインサービス開発ツール |
JPH08137697A (ja) * | 1994-11-15 | 1996-05-31 | Kobe Steel Ltd | 自律分散型システム |
US6029195A (en) * | 1994-11-29 | 2000-02-22 | Herz; Frederick S. M. | System for customized electronic identification of desirable objects |
US5748974A (en) * | 1994-12-13 | 1998-05-05 | International Business Machines Corporation | Multimodal natural language interface for cross-application tasks |
JP2746218B2 (ja) * | 1995-02-23 | 1998-05-06 | 富士ゼロックス株式会社 | 資源管理装置および資源管理方法 |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
US5742845A (en) * | 1995-06-22 | 1998-04-21 | Datascape, Inc. | System for extending present open network communication protocols to communicate with non-standard I/O devices directly coupled to an open network |
JP3729918B2 (ja) * | 1995-07-19 | 2005-12-21 | 株式会社東芝 | マルチモーダル対話装置及び対話方法 |
US5794205A (en) * | 1995-10-19 | 1998-08-11 | Voice It Worldwide, Inc. | Voice recognition interface apparatus and method for interacting with a programmable timekeeping device |
JPH10124378A (ja) | 1995-12-01 | 1998-05-15 | Zakuson R & D:Kk | インターネットおよびイントラネット上におけるホームページ上の文書録画支援装置および文書録画支援システム |
AU1566497A (en) * | 1995-12-22 | 1997-07-17 | Rutgers University | Method and system for audio access to information in a wide area computer network |
US6101528A (en) * | 1996-03-27 | 2000-08-08 | Intel Corporation | Method and apparatus for discovering server applications by a client application in a network of computer systems |
US5884262A (en) * | 1996-03-28 | 1999-03-16 | Bell Atlantic Network Services, Inc. | Computer network audio access and conversion system |
CA2224712A1 (en) * | 1996-04-22 | 1997-10-30 | At&T Corp. | Method and apparatus for information retrieval using audio interface |
US5956507A (en) * | 1996-05-14 | 1999-09-21 | Shearer, Jr.; Bennie L. | Dynamic alteration of operating system kernel resource tables |
JPH09319760A (ja) * | 1996-05-30 | 1997-12-12 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索運行システム |
CA2257129A1 (en) * | 1996-06-03 | 1997-12-11 | Worldvoice Inc. | Telephonic voice message store and forward method having network address and voice authentication |
JPH1078952A (ja) * | 1996-07-29 | 1998-03-24 | Internatl Business Mach Corp <Ibm> | 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置 |
US5799063A (en) * | 1996-08-15 | 1998-08-25 | Talk Web Inc. | Communication system and method of providing access to pre-recorded audio messages via the Internet |
JPH10124293A (ja) * | 1996-08-23 | 1998-05-15 | Osaka Gas Co Ltd | 音声指令可能なコンピュータとそれ用の媒体 |
US5850629A (en) * | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
EP0863466A4 (en) * | 1996-09-26 | 2005-07-20 | Mitsubishi Electric Corp | INTERACTIVE PROCESSOR |
US5721827A (en) * | 1996-10-02 | 1998-02-24 | James Logan | System for electrically distributing personalized information |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
US5774857A (en) * | 1996-11-15 | 1998-06-30 | Motorola, Inc. | Conversion of communicated speech to text for tranmission as RF modulated base band video |
JP3826239B2 (ja) * | 1996-11-22 | 2006-09-27 | 日本電信電話株式会社 | ハイパーテキスト中継方法及び装置 |
US6282511B1 (en) * | 1996-12-04 | 2001-08-28 | At&T | Voiced interface with hyperlinked information |
US5960399A (en) | 1996-12-24 | 1999-09-28 | Gte Internetworking Incorporated | Client/server speech processor/recognizer |
US6456974B1 (en) * | 1997-01-06 | 2002-09-24 | Texas Instruments Incorporated | System and method for adding speech recognition capabilities to java |
JP2907174B2 (ja) * | 1997-02-04 | 1999-06-21 | 日本電気株式会社 | 監視制御システムのユーザインタフェースシステム |
JPH10222342A (ja) * | 1997-02-06 | 1998-08-21 | Nippon Telegr & Teleph Corp <Ntt> | ハイパーテキスト音声制御方法及び装置 |
JPH10222525A (ja) | 1997-02-07 | 1998-08-21 | Hitachi Ltd | ナビゲーション方法 |
JPH10243048A (ja) * | 1997-02-27 | 1998-09-11 | Nippon Telegr & Teleph Corp <Ntt> | 情報伝送方法及びシステム |
US5987102A (en) * | 1997-03-14 | 1999-11-16 | Efusion, Inc. | Method and apparatus for bridging a voice call including selective provision of information in non-audio to the caller |
US5884266A (en) | 1997-04-02 | 1999-03-16 | Motorola, Inc. | Audio interface for document based information resource navigation and method therefor |
JP3646471B2 (ja) * | 1997-05-14 | 2005-05-11 | 日本電信電話株式会社 | 情報提供方法及び個人適応情報提供サーバ及び情報提供プログラムを格納した記憶媒体 |
US5897616A (en) * | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
US6044347A (en) * | 1997-08-05 | 2000-03-28 | Lucent Technologies Inc. | Methods and apparatus object-oriented rule-based dialogue management |
US6353824B1 (en) * | 1997-11-18 | 2002-03-05 | Apple Computer, Inc. | Method for dynamic presentation of the contents topically rich capsule overviews corresponding to the plurality of documents, resolving co-referentiality in document segments |
US6157705A (en) * | 1997-12-05 | 2000-12-05 | E*Trade Group, Inc. | Voice control of a server |
US6230197B1 (en) * | 1998-09-11 | 2001-05-08 | Genesys Telecommunications Laboratories, Inc. | Method and apparatus for rules-based storage and retrieval of multimedia interactions within a communication center |
US6370508B2 (en) * | 1998-09-11 | 2002-04-09 | Genesys Telecommunications Laboratories, Inc. | Interface engine for managing business processes within a multimedia communication-center |
WO1999049394A1 (en) * | 1998-03-23 | 1999-09-30 | Microsoft Corporation | Application program interfaces in an operating system |
US6859451B1 (en) * | 1998-04-21 | 2005-02-22 | Nortel Networks Limited | Server for handling multimodal information |
US6012030A (en) * | 1998-04-21 | 2000-01-04 | Nortel Networks Corporation | Management of speech and audio prompts in multimodal interfaces |
US6018711A (en) * | 1998-04-21 | 2000-01-25 | Nortel Networks Corporation | Communication system user interface with animated representation of time remaining for input to recognizer |
US6438523B1 (en) * | 1998-05-20 | 2002-08-20 | John A. Oberteuffer | Processing handwritten and hand-drawn input and speech input |
US6253326B1 (en) * | 1998-05-29 | 2001-06-26 | Palm, Inc. | Method and system for secure communications |
US6397259B1 (en) * | 1998-05-29 | 2002-05-28 | Palm, Inc. | Method, system and apparatus for packet minimized communications |
US6269366B1 (en) * | 1998-06-24 | 2001-07-31 | Eastman Kodak Company | Method for randomly combining images with annotations |
US6269336B1 (en) * | 1998-07-24 | 2001-07-31 | Motorola, Inc. | Voice browser for interactive services and methods thereof |
US6119147A (en) * | 1998-07-28 | 2000-09-12 | Fuji Xerox Co., Ltd. | Method and system for computer-mediated, multi-modal, asynchronous meetings in a virtual space |
WO2000008547A1 (en) * | 1998-08-05 | 2000-02-17 | British Telecommunications Public Limited Company | Multimodal user interface |
US6195696B1 (en) * | 1998-10-01 | 2001-02-27 | International Business Machines Corporation | Systems, methods and computer program products for assigning, generating and delivering content to intranet users |
US6493671B1 (en) | 1998-10-02 | 2002-12-10 | Motorola, Inc. | Markup language for interactive services to notify a user of an event and methods thereof |
US7003463B1 (en) * | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
IL142363A0 (en) * | 1998-10-02 | 2002-03-10 | Ibm | System and method for providing network coordinated conversational services |
US6615240B1 (en) * | 1998-12-18 | 2003-09-02 | Motive Communications, Inc. | Technical support chain automation with guided self-help capability and option to escalate to live help |
US6851115B1 (en) * | 1999-01-05 | 2005-02-01 | Sri International | Software-based architecture for communication and cooperation among distributed electronic agents |
US6523061B1 (en) * | 1999-01-05 | 2003-02-18 | Sri International, Inc. | System, method, and article of manufacture for agent-based navigation in a speech-based data navigation system |
US7216351B1 (en) * | 1999-04-07 | 2007-05-08 | International Business Machines Corporation | Systems and methods for synchronizing multi-modal interactions |
US6519617B1 (en) * | 1999-04-08 | 2003-02-11 | International Business Machines Corporation | Automated creation of an XML dialect and dynamic generation of a corresponding DTD |
US6636831B1 (en) * | 1999-04-09 | 2003-10-21 | Inroad, Inc. | System and process for voice-controlled information retrieval |
US6529889B1 (en) * | 1999-07-27 | 2003-03-04 | Acappella Software, Inc. | System and method of knowledge architecture |
US7069220B2 (en) * | 1999-08-13 | 2006-06-27 | International Business Machines Corporation | Method for determining and maintaining dialog focus in a conversational speech system |
US6799169B1 (en) * | 1999-08-13 | 2004-09-28 | International Business Machines Corporation | Method and system for modeless operation of a multi-modal user interface through implementation of independent decision networks |
US6377913B1 (en) * | 1999-08-13 | 2002-04-23 | International Business Machines Corporation | Method and system for multi-client access to a dialog system |
US6738803B1 (en) * | 1999-09-03 | 2004-05-18 | Cisco Technology, Inc. | Proxy browser providing voice enabled web application audio control for telephony devices |
US6615172B1 (en) * | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US6829603B1 (en) * | 2000-02-02 | 2004-12-07 | International Business Machines Corp. | System, method and program product for interactive natural dialog |
US7415537B1 (en) * | 2000-04-07 | 2008-08-19 | International Business Machines Corporation | Conversational portal for providing conversational browsing and multimedia broadcast on demand |
US6934756B2 (en) * | 2000-11-01 | 2005-08-23 | International Business Machines Corporation | Conversational networking via transport, coding and control conversational protocols |
US6970935B1 (en) * | 2000-11-01 | 2005-11-29 | International Business Machines Corporation | Conversational networking via transport, coding and control conversational protocols |
US6801604B2 (en) * | 2001-06-25 | 2004-10-05 | International Business Machines Corporation | Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources |
US6839896B2 (en) * | 2001-06-29 | 2005-01-04 | International Business Machines Corporation | System and method for providing dialog management and arbitration in a multi-modal environment |
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7349845B2 (en) * | 2003-09-03 | 2008-03-25 | International Business Machines Corporation | Method and apparatus for dynamic modification of command weights in a natural language understanding system |
-
1999
- 1999-10-01 IL IL14236399A patent/IL142363A0/xx unknown
- 1999-10-01 CN CNB998116076A patent/CN100472500C/zh not_active Expired - Lifetime
- 1999-10-01 CN CNB998116165A patent/CN1160700C/zh not_active Expired - Lifetime
- 1999-10-01 JP JP2000575117A patent/JP2003525477A/ja active Pending
- 1999-10-01 CN CNB998116181A patent/CN1171200C/zh not_active Expired - Fee Related
- 1999-10-01 WO PCT/US1999/022915 patent/WO2000021073A1/en active IP Right Grant
- 1999-10-01 EP EP99951722A patent/EP1125279B1/en not_active Expired - Lifetime
- 1999-10-01 US US09/806,549 patent/US7418382B1/en not_active Expired - Fee Related
- 1999-10-01 CA CA002345662A patent/CA2345662A1/en not_active Abandoned
- 1999-10-01 CA CA002345660A patent/CA2345660C/en not_active Expired - Lifetime
- 1999-10-01 EP EP99950114A patent/EP1163576A4/en not_active Withdrawn
- 1999-10-01 DE DE69937962T patent/DE69937962T2/de not_active Expired - Lifetime
- 1999-10-01 IL IL14236699A patent/IL142366A0/xx active IP Right Grant
- 1999-10-01 CA CA002345661A patent/CA2345661A1/en not_active Abandoned
- 1999-10-01 KR KR10-2001-7002798A patent/KR100431972B1/ko not_active IP Right Cessation
- 1999-10-01 IL IL14236499A patent/IL142364A0/xx unknown
- 1999-10-01 WO PCT/US1999/023008 patent/WO2000021232A2/en not_active Application Discontinuation
- 1999-10-01 KR KR10-2001-7004207A patent/KR100430953B1/ko not_active IP Right Cessation
- 1999-10-01 CN CNB998116173A patent/CN1151488C/zh not_active Expired - Lifetime
- 1999-10-01 JP JP2000575021A patent/JP3703082B2/ja not_active Expired - Lifetime
- 1999-10-01 AT AT99951722T patent/ATE383640T1/de not_active IP Right Cessation
- 1999-10-01 US US09/806,565 patent/US7137126B1/en not_active Expired - Lifetime
- 1999-10-01 EP EP99950131A patent/EP1133734A4/en not_active Withdrawn
- 1999-10-01 EP EP99951713A patent/EP1125277A4/en not_active Withdrawn
- 1999-10-01 JP JP2000575249A patent/JP2002527800A/ja active Pending
- 1999-10-01 KR KR1020017004223A patent/KR100620826B1/ko active IP Right Grant
- 1999-10-01 JP JP2000575119A patent/JP4171585B2/ja not_active Expired - Fee Related
- 1999-10-01 CA CA2345665A patent/CA2345665C/en not_active Expired - Lifetime
- 1999-10-01 WO PCT/US1999/022927 patent/WO2000020962A2/en active IP Right Grant
- 1999-10-01 KR KR10-2001-7004228A patent/KR100459299B1/ko not_active IP Right Cessation
- 1999-10-01 IL IL14080599A patent/IL140805A0/xx unknown
- 1999-10-01 WO PCT/US1999/022925 patent/WO2000021075A1/en active IP Right Grant
-
2001
- 2001-04-02 IL IL142366A patent/IL142366A/en not_active IP Right Cessation
-
2006
- 2006-10-23 US US11/551,901 patent/US7729916B2/en not_active Expired - Fee Related
-
2009
- 2009-08-20 US US12/544,473 patent/US8082153B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11372897B1 (en) * | 2011-09-02 | 2022-06-28 | Pure Storage, Inc. | Writing of data to a storage system that implements a virtual file structure on an unstructured storage layer |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3703082B2 (ja) | 会話型バーチャル・マシンによる会話型コンピューティング | |
JP3943543B2 (ja) | マルチモーダル環境における対話管理およびアービトレーションを提供するシステムおよび方法 | |
US9767164B2 (en) | Context based data searching | |
US7680816B2 (en) | Method, system, and computer program product providing for multimodal content management | |
US7027975B1 (en) | Guided natural language interface system and method | |
US6996800B2 (en) | MVC (model-view-controller) based multi-modal authoring tool and development environment | |
US8499028B2 (en) | Dynamic extensible lightweight access to web services for pervasive devices | |
US7216351B1 (en) | Systems and methods for synchronizing multi-modal interactions | |
JP4428952B2 (ja) | ユーザインタフェース制御装置及びその方法 | |
US11749276B2 (en) | Voice assistant-enabled web application or web page | |
US20030101413A1 (en) | Smart links | |
US20020103881A1 (en) | Method and system for integrating applications and mobile networks | |
US20100094635A1 (en) | System for Voice-Based Interaction on Web Pages | |
CN101243437A (zh) | 由端点定制的虚拟机器人通信格式 | |
US20070168194A1 (en) | Scheduling audio modalities for data management and data rendering | |
JP2008146639A (ja) | クライアントにウェブ・サービスを提供するための方法、コンピュータ・プログラム及びシステム | |
Mueller et al. | Interactive multimodal user interfaces for mobile devices | |
KR102050377B1 (ko) | 서드 파티 테스크 공급자들의 서비스 제공을 대행하는 협력적 퍼스널 어시스턴트 시스템 및 그에 따른 방법 | |
KR20190133135A (ko) | 서드 파티 테스크 공급자들의 서비스 제공을 대행하는 협력적 퍼스널 어시스턴트 시스템 및 그에 따른 방법 | |
JP2004246865A (ja) | 音声応答ウェブシステム及びその入出力制御方法 | |
Sikora et al. | Representations and Protocols for Universal Access to the World-Wide-Web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040726 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20040726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20040727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050519 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050712 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20050712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050714 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3703082 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090729 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100729 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100729 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100729 Year of fee payment: 5 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100729 Year of fee payment: 5 |
|
R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110729 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110729 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120729 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120729 Year of fee payment: 7 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120729 Year of fee payment: 7 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120729 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130729 Year of fee payment: 8 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130729 Year of fee payment: 8 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |