CN1325528A - 采用语音识别和自然语言处理的网络交互式用户界面 - Google Patents
采用语音识别和自然语言处理的网络交互式用户界面 Download PDFInfo
- Publication number
- CN1325528A CN1325528A CN99813098A CN99813098A CN1325528A CN 1325528 A CN1325528 A CN 1325528A CN 99813098 A CN99813098 A CN 99813098A CN 99813098 A CN99813098 A CN 99813098A CN 1325528 A CN1325528 A CN 1325528A
- Authority
- CN
- China
- Prior art keywords
- subclauses
- network object
- clauses
- file
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003058 natural language processing Methods 0.000 title claims abstract description 99
- 230000002452 interceptive effect Effects 0.000 title claims description 23
- 238000000034 method Methods 0.000 claims abstract description 66
- 230000009471 action Effects 0.000 claims abstract description 31
- 230000008878 coupling Effects 0.000 claims description 31
- 238000010168 coupling process Methods 0.000 claims description 31
- 238000005859 coupling reaction Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 30
- 230000005540 biological transmission Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 4
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000014509 gene expression Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 125000004122 cyclic group Chemical class 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Input From Keyboards Or The Like (AREA)
Abstract
一种用于通过计算机用话语、语音处理和自然语言处理与网络对象交互的系统和方法。一个数据定义文件联系网络对象和一个语音处理器。数据定义文件包含一个与网络对象(包括语法文件和自然语言处理器)有关的存储器结构。语音处理器在第一语法文件检索话语的匹配短语,如果在第一语法文件找不到匹配短语时,就在第二语法文件检索匹配短语。系统也包含一个自然语言处理器,用于在一个数据库检索匹配短语的匹配条目;一个应用界面,用于如果在数据库找到匹配条目时,就执行一个与匹配条目相关的行动。系统采用特定语境语法,由此增强语音识别和自然语言处理的效率。系统另外还能自适应地以交互方式“学习”单词和短语以及它们的相关意思。
Description
本发明涉及用于网络计算机用户界面的语音识别。更具体来说,本发明涉及一种用语音识别和自然语言处理与计算机进行用户交互的新颖方法和系统。本申请是美国专利申请“Interactive User InterfaceUsing Speech Recognition and Natural Language Processing”(采用语音识别和自然语言处理的交互式用户界面)(申请号:09/150,459,申请日1998年9月10日)的部分继续申请。
随着计算机变得更加盛行,明显有许多人在掌握计算机知识和与计算机交流等方面困难很大。用户要操作计算机,就必须经常学习各种已不通用的命令和非直观的过程。例如,大多数计算机都使用基本上是菜单驱动的基于视窗的操作系统。这要求用户学习什么菜单命令或命令序列会产生预定结果。
此外,传统的与计算机的交互的速度经常因诸如键盘或鼠标的手工输入设备而减慢。许多计算机用户都不是打字快手。结果,许多时间都花费在通过这些手工输入设备向计算机发送命令和单词上。已经明显需要有一种更容易、更快速和更直观的与计算机和网络对象(如网站)通信的方法。
有人提出的计算机交互的方法是语音识别。语音识别涉及用软件和硬件协作监测听得见的人类语音并把所监测的语音转换成单词串。如现有技术中已知的那样,语音识别的工作方式是把硬件监测到的语音分解成不可分的更小单位的声音-称作音素(phonemes)。音素是不同的声音单元。例如,单词“those”由三个音素组成;第一个音素是“th”音,第二个是“o”音,第三个是“s”音。语音识别软件试图将所监测的音素与一个存储的字典中的已知单词比较。美国专利4,783,803号中给出了一个语音识别系统的例子,该专利名称为“SpeechRecognition Apparatus and Method”(语音识别装置和方法)(1998年11月8日授权,受让给Dragon Systems公司),这里引用作为参考。目前,市场上有许多语音识别软件包,出自Dragon Systems公司和IBM公司这样的公司。
这些语音识别软件包的一个缺陷是,它们通常只执行命令和控制功能或者口授指令功能。所以,用户仍然需要学习命令语汇才能操作计算机。
有人提出的这些语音识别系统的增强系统,是用自然语言处理系统处理所监测的单词。自然语言处理一般涉及通过分析所监测的单词的语法关系和相对语境,确定它们的概念上的“意思”(例如说话人想要传达什么意思)。例如美国4,887,212号专利叙述了一种用单词隔离、语形学分析、字典查找和语法分析来分析一个输入单词流的方法。该专利名称为“Parser for Natural Language Text”(自然语言文本分析器)(1989年12月12日授权,受让给IBM公司),这里引用作为参考。
与语音识别一起采用的自然语言处理提供一种用口语而不是诸如键盘或鼠标的手工输入操作计算机的强大工具。然而,常规的自然语言处理系统的一个缺点是,它可能无法确定由语音识别系统所监测的单词的准确“意思”。在这样的情况下,用户通常需要重新组合或重新陈述短语(phrase),希望自然语言处理系统将能在后面的尝试中确定准确“意思”。显然,这会导致严重的延迟,因为用户需要重新陈述整个句子或命令。常规系统的另一个缺点是,语音识别所需的时间可能会过分长。这主要由于与大量要处理的信息相比,处理资源的速度有限。例如,在许多常规语音识别程序中,识别话语(utterance)所需的时间很长,因为所搜索的字典文件很大。
常规语音识别和自然语言处理系统的再一个缺点是,它们不是交互式的,因此不能应付新情况。当计算机系统遇到未知的或新的网络对象,计算机与对象之间形成新的关系。常规的语音识别和自然语言处理系统不能应付由以前未知的网络对象形成的新关系所导致的情况。结果,就不可能与计算机进行对话方式的交互。用户需要向计算机传达完整的概念。用户不能说句子片断,因为这些(与前面的话语有关的)句子片断的意思将丢失。
采用语音识别和自然语言处理的计算机所需要的是一种避免上述缺点的交互式用户界面。
本发明是一种用于与采用话语、语音处理和自然语言处理的计算机进行交互的新颖和改进的系统和方法。一般来说,该系统包含一个语音处理器(speech processor),用于在一个第一语法文件中搜索话语的一个匹配短语,并用于在如果在第一语法文件中找不到匹配短语时,在一个第二语法文件中搜索匹配短语。该系统也包括一个用于在一个数据库中搜索匹配短语的对应匹配条目(matching entry)的自然语言处理器,以及一个如果在数据库中找到匹配条目就执行一个与匹配条目相关联的行动(action)的应用界面(applicationinterface)。
在最佳实施例中,如果在数据库中找不到匹配条目,自然语言处理器就用匹配短语更新数据库、第一语法文件和第二语法文件的至少其中之一。
第一语法文件是一个特定语境语法文件。特定语境语法文件是一种含有与特定主题高度相关的单词和短语的语法文件。第二语法文件是一个一般性语法文件。一般性语法文件是一种含有不必按语境解释的单词和短语的语法文件。就是说,一般性语法文件中的单词和短语不属于任何母体语境(parent context)。本发明在搜索一般性语法文件之前搜索特定语境语法文件,从而允许用户用更口语化的方式与计算机交流,其中,所说出的单词如果在特定语境语法文件中被找到,就被参照最近讨论过的主题进行解释。
在本发明的另外一个方面中,如果在一般性语法文件中找不到匹配短语,语音识别处理器就在一个口授语法(dictation grammar)中搜索匹配短语。口授语法是个一般性单词和短语的大单词表。通过首先搜索特定语境语法和一般性语法,预计将大大缩短语音识别时间-因为特定语境语法和一般性语法是物理上比口授语法更小的文件。
在本发明的另外一个方面中,自然语言处理器在搜索数据库之前替换匹配短语中的至少一个单词。这可由自然语言处理器中的用于以通配符替换匹配短语中的至少一个单词的变量置换器(variablereplacer)完成。通过以通配符替换短语中的某些单词(称作“单词变量”),可以大大地减少数据库中条目的数量。此外,自然语言处理器中的代词替换器(pronoun substituter)可以以适当名称替换匹配短语中的代词,便于特定于用户的事实在数据库中的存储。
在本发明的另外一个方面中,一个串格式化器(string formatter)在搜索数据库之前对匹配短语进行文本格式化。一个单词加权器(wordweighter)也在搜索数据库之前按各个单词的相对重要性加权匹配短语中的各个单词。这些步骤便于更快、更准确地搜索数据库。
自然语言处理器中的一个搜索引擎为匹配条目生成一个可信度值(confidence value)。自然语言处理器将该可信度值与一个阀值比较。一个布尔检测器(boolean tester)确定匹配条目中是否存在所需数量的匹配短语中的单词。该布尔检测的作用是验证由搜索引擎返回的结果。
为了消除歧义,自然语言处理器在匹配条目中不存在所需数量的匹配短语中的单词时,提示用户匹配条目是否是话语的正确解释。如果匹配条目不是话语的正确解释,自然语言处理器也提示用户提供另外的信息。用该另外的信息更新数据库、第一语法文件和第二语法文件的至少其中之一。这样,本发明适应性地“学习”更多的话语的意思,由此增强用户界面的效率。
语音处理器将启用并检索一个与匹配条目相关联的特定语境语法,用于其后一个话语的其后一个匹配短语。这保证首先将检索到最相关的单词和短语,由此减少语音识别的次数。
一般来说,本发明包括一种用于为与网络对象(如网页)进行语音交互而更新计算机的方法。一开始,通过网络向计算机传输一个随语音交互系统与网络对象相关联的网络对象表。网络对象表的位置可以嵌置在网络对象内、位于某特定因特网网站或位于存储多个网络对象的网络对象表的统一位置。在网络对象表中检索匹配网络对象的条目。与网络对象匹配的条目可能导致执行一个行动,诸如通过扬声器播出正文言语、采用一个特定语境语法文件或采用一个自然语言处理数据库。网络对象表可以是一个对话定义文件的一部分。对话定义文件也可以包含一个特定语境语法、一个自然语言处理数据库条目,或者包含这二者。
在本发明的另一个方面中,一个网络接口通过网络传输一个对话定义文件。对话定义文件含有一个网络对象表。一个数据处理器在网络对象表中检索与网络对象匹配的表条目。找到匹配表条目后,一个应用界面执行该匹配条目规定的一个行动。
在本发明的另一个方面中,定位并读取一个与网络对象相关的对话定义文件。对话定义文件可以从各种位置读取,例如从网站、从存储介质或者从一个存储多个网络对象的对话定义文件的位置读取。搜索对话定义文件中包含的一个网络对象表,以查找与网络对象匹配的表条目。匹配条目定义一个与网络对象相关的行动,然后由系统执行该行动。除了网络对象表外,对话定义文件也可以包含一个特定语境语法、一个自然语言处理数据库的条目,或者包含这二者。
根据以下结合附图所作的详细说明,本发明的特点、目的和优点将变得更加明显。附图中相同的标注符自始至终标识相对应的对象,其中:
图1是一个用于本发明的典型计算机系统的功能框图;
图2是本发明的图1的计算机系统的CPU102和存储介质108的扩展的功能框图;
图3A-3D是向计算机提供交互式语音识别和自然语言处理的方法的流程图;
图4是本发明的典型的自然语言处理(NLP)数据库的选择列的示意图。
图5是按照本发明的典型的对话定义文件(DDF)的示意图。
图6本发明的典型的网络对象表的选择列的示意图。
图7A-7C是本发明的方法的流程图,解释的是交互式语音识别和自然语言处理与网络对象(如网页)的链接。
图8是通过因特网连接到其它计算机、存贮介质和网站的计算机系统的示意图。
现在将参照图1的典型计算机系统100的功能框图叙述本发明。图1中,计算机系统100包含一个中央处理单元(CPU)102。CPU 102可以是本领域中已知的、经过适当编程而能执行本文结合图3A-3D所述方法的任何通用微处理器或微控制器。用于编程CPU的软件可以在存储介质108上找到,或者经过计算机网络从另一个位置得到。例如,CPU 102可以是一个诸如由因特尔公司制造的奔腾Ⅱ处理器之类的普通微处理器。
CPU 102与包括显示器104、手工输入装置106、存储介质108、麦克风110、扬声器112、数据输入端口114和网络接口116在内的多个外围设备通信。显示器104可以是个直观显示设备-如CRT、LCD屏幕、触感屏幕,或者是本领域中已知的用于直观地向用户显示图象和文字的其它监视器。手工输入装置106可以是一个普通键盘、按键盘、鼠标、跟踪球或者本领域中已知的用于手工输入数据的其它输入设备。存储介质108可以是个普通的读/写存储器-如磁盘驱动器、软盘驱动器、CDROM驱动器、硅存储器或本领域中已知的用于存储和检索数据的其它存储设备。重要的是,存储介质108可以远离CPU 102,通过诸如局域网(LAN)或宽域网(WAN)的网络或者因特网与CPU 102相连。麦克风110可以是本领域中已知的任何适合用于向CPU 102提供音频信号的麦克风。扬声器112可以是本领域中已知的任何适合用于重现来自CPU 102的音频信号的扬声器。不言自明,麦克风110和扬声器112可以包含相应的数-模和模-数转换电路。数据输入端口114可以是本领域中已知的任何用于用诸如RS-232、通用串行总线之类的数据协议与外部附件连接的数据端口。网络接口116可以是本领域中已知的用于经过计算机网络传送文件的任何接口-这种网络的例子包括TCP/IP网络、以太网或令牌环网络。此外,在有些系统上,网络接口116可以包括一个与数据输入端口114相连的调制解调器。
所以,图1展示了计算机系统100的各功能单元。计算机系统100的每个单元可以是如上所述的合适的成品部件。本发明提供一种用于用语音与计算机系统100接合的方法和系统。
如图8中所示,计算机系统100可以与因特网700相连(因特网是计算机网络的一个集合)。要连接到因特网700,计算机系统100可以采用网络接口116、与数据输入端口114相连的调制解调器或者本领域中已知的任何其它方法。网站710、其它计算机720和存储介质108也可以通过这类本领域中的已知方法连接到因特网。
现在转至图2,图2表示CPU 102和存储介质108的一个扩展的功能框图。应当明白,图2的功能单元可以整个地以软件或硬件或者软硬件的结合实现。就软件实现而言,软件可以位于存储介质108中或位于计算机网络上的另一个位置。CPU 102中包括语音识别处理器200、数据处理器201、自然语言处理器202和应用界面220。数据处理器201与显示器104、存储介质108、麦克风110、扬声器112、数据输入端口114和网络接口116连接。数据处理器201允许CPU定位这些资源和以这些资源读取数据。自然语言处理器202进一步包含变量置换器204、串格式化器206、单词加权器208、布尔检测器210、代词置换器211和搜索引擎213。存储介质108中含有多个特定语境语法文件212、一般性语法文件214、口授语法216和自然语言处理器(NLP)数据库218。在最佳实施例中,语法文件212、214和216是巴科斯-诺尔(Bakus-Naur)形式(BNF)的文件,描述由用户说出的语言的结构。BNF文件是本领域中众所周知的用于描述语言结构的文件,因此这里将不讨论BNF文件的详细内容。BNF文件的一个优点是,可以用分层的树型结构来描述短语或单词序列,而无需显式地列举这些单词序列的全部组合。所以,BNF文件在最佳实施例中的使用,使存储介质108中的语法文件212、214和216的物理大小最小化,提高了以下文所述方式启用和搜索这些文件的速度。不过,在另外的实施例中可以使用其它文件结构。
现在将结合图3A-3D的流程图,说明图2的这些功能单元的操作和互动。在图3A中,流程始于功能框300,向语音处理器200提供一个话语。话语是有开头和结尾的一系列的声音,可包含一个或多个口语单词。捕获口语单词的麦克风100可以执行功能框300的步骤。或者,可以经过输入端口144或者从存储介质108向语音处理器200提供话语。话语的格式最好是数字格式,如有名的“.wav”音频文件格式。
流程前进到判断框302,语音处理器200在此判断是否特定语境语法212的其中之一已经被启用。如果特定语境语法212被启用,就在功能框304搜索特定语境语法212。在最佳实施例中,特定语境语法212是BNF文件,含有与某个母体语境有关的单词和短语。一般来说,语境就是一个主题领域。例如,在本发明的一个可应用于个人电脑的实施例中,语境的例子可以是“新闻”、“天气”或“股票”。在这种情况下,特定语境语法212就各自含有对应于这些语境中的不同语境的命令、控制单词、描述符(descriptor)、限定符(qualifier)或参数。语境的使用提供一种表示各种信息类型的分层结构。下文将结合NLP数据库218进一步对各语境及其应用作出说明。
如果已经有特定语境语法212被启用,就搜索该特定语境语法212,查找在功能框300所提供话语的匹配项(match)。然而,如果没有特定语境语法212被启用,流程就前进到功能框308,在此启用一般性语法214。
在最佳实施例中,一般性语法214是一个BNF文件,文件中含有的单词和短语本身并不属于某个母体语境,但是可能有某特定语境语法文件212为此存在的一个相关语境。换言之,一般性语法214中的单词和短语可能位于分层语境结构的根部。例如,在一个可应用于个人电脑的实施例中,一般性语法214就含有命令和控制短语。
在功能框310中,搜索一般性语法214,查找在功能框300所提供话语的匹配单词或短语。在功能框312,对是否找到该匹配进行判别。如果找不到匹配项,就在功能框314启用口授语法216。在最佳实施例中,口授语法216是一个BFN文件,文件中含有的单词列表本身既无某个母体语境也无相关语境。例如,在一个可应用于个人电脑的实施例中,口授语法216就含有一个类似于通用词典的较大的通用单词列表。
在功能框316中,搜索口授语法,查找在功能框300所提供话语的每个单词的匹配单词。在判别框318如果找不到匹配单词,则在功能框320可以选择在显示器104显示一个可视的出错讯息或者选择通过扬声器112重播一个有声的出错讯息。过程结束,直到在功能框300有另一个话语被提供给语音处理器200。
所以,如上述说明可见,当某个话语被提供给语音处理器200时,首先搜索启用的特定语境语法212(如果有的话)。如果所启用的特定语境语法212中没有匹配项,则启用并搜索一般性语法214。如果一般性语法214中没有匹配项,则启用并搜索口授语法216。
在最佳实施例中,当语音识别处理器200在搜索特定语境语法212或一般性语法214时,称其处于“命令和控制”方式。在该方式中,语音识别处理器200把整个话语作为整体与语法中的条目作比较。相比之下,当语音识别处理器200在搜索口授语法时,称其处于“口授”方式。在该方式中,语音识别处理器200每次一个单词地把话语与口授语法216中的条目作比较。可以预计,在命令和控制方式中检索整个一个话语的匹配项的速度,一般会比在口授方式中每次搜索一个单词的速度快。
进一步可以预计,任何单个的特定语境语法212在规模上都小于一般性语法214(即总的单词和短语更少),后者在规模上又小于口授语法216。所以,通过首先搜索任何启用的特定语境语法212的方法,有可能更快地找到匹配项(如果有的话),这至少是部分地因为文件更小。同样,通过在搜索口授语法216之前搜索一般性语法214的方法,有可能更快地找到匹配项。
此外,正如下文对本发明能自适应地对特定语境语法212和一般性语法214添加的能力进一步解释的那样,它们将含有最常用的话语。因此可以预计,在特定语境语法212或一般性语法214中找到匹配项的速度更有可能比在口授语法216中的快。
最后,正如下文将进一步解释的那样,在启用的特定语境语法212中的单词和短语,是用户更有可能说出的,因为它们是与用户最近说到的主题高度相关的单词。这也使用户能用语句片断以更口语话的风格说话,其单词的意思被按照所启用的特定语境语法212解释。
通过按上述顺序进行搜索,本发明的搜索的效率,高于在含有所有预期单词和短语的一个大型列表中每次一个条目地进行搜索的效率。
返回到判断框306,如果在特定语境语法212中找到匹配项,则有图3A中所显示的三种可能的下一步步骤。对于所启用的特定语境语法212中的每个匹配条目,可能都有一个相关的要由语音识别处理器200采取的行动。功能框322表示,一个行动可能是指示应用界面220对某个独立软件应用或实体采取某种行动。例如,应用界面220可以用微软公司的语音应用编程接口(SAPI)标准与某外部应用通信。可以指示该外部应用例如访问特定的因特网网站URL或者通过正文向语音转换的方式说出特定的短语。可以采取如下文将结合图4的NLP数据库218所进一步讨论的那样的其它行动。
功能框324表示,另一个行动可以是直接访问自然语言处理(NLP)数据库218中的某一行,由此绕过下文进一步作说明的自然语言处理步骤。功能框326表示,另一个行动可以是把用于所启用语境的单词或短语前置(prepend)到在功能框306在特定语境语法中找到的匹配单词或短语。例如,如果所启用的语境是“movies”(电影),匹配的话语是“8o’clock”(8点钟),则把单词“movies”前置到短语“8o’clock”,组成短语“movies at 8o’clock”(8点钟的电影)。
同样,如果在一般性语法214中找到匹配项,流程就前进到功能框322-在此指示应用界面220采取一个如上所述的行动,或者前进到功能框324,直接访问NLP数据库中的某一行。然而,如果在一般性语法214中找到匹配项,则不进行对语境的前置,因为如上所述,一般性语法214中的条目本身并没有母体语境。
或者,可以在功能框301捕获手工输入的单词,输入到自然语言处理器中。
最后参看图3A,可以通过手工输入装置106输入单词。在这种情况下,不需要进行语音识别,不过仍然需要对所输入单词进行自然语言处理。然后,流程前进到图3B。
图3B中,在功能框328,自然语言处理器202为进行自然语言处理分析而对短语进行格式化。这种格式化是用串格式化器206完成的,可包括去除单词之间的多余空格、把所有字母变成小写(或大写)、把缩略部分完全写出(例如把“it’s”变成“it is”)之类的文字处理。这个格式化步骤的目的是对短语作分析的准备。
流程继续到功能框330,在此由变量置换器204用相关的通配符函数(wildcard function)置换某些“单词变量”,为访问NLP数据库218作准备。这里所用的术语“单词变量”指的是表示数量、日期、时间、货币之类的单词或短语。例如,在一个实施例中,短语“what moviesare playing at 8o’clock”(8点钟在放什么电影)要在功能框330被转换成“what movies are playing at$time”(在$time时在放什么电影),其中“$time”是一个用来代表任一时间值的通配符函数。作为另一个例子,在一个实施例中,短语“sell IBM stock at 100dollars”(按100美元的价格卖出IBM股票)要在功能框330被转换成“sell IBM stock at $dollars”(按$dollar的价格卖出IBM股票),其中“$dollars”是一个用来代表任一美元值的通配符函数。这个步骤可以由一个简单循环来完成,该循环搜索短语中诸如单词“dollar”或“o’clock”的关键记号并用规定的通配符函数置换这些单词变量。为了跟踪在短语中作过替换的位置,可以使用一个数组。这样能在搜索过NLP数据库218后将原始的单词变量重新替换回该短语中的某个位置。
在功能框330用相关通配符函数置换单词变量的目的是减少必须在NLP数据库218中出现的条目的数量。例如,NLP数据库218会只含有“what movies are playing at$time”(在$time时在放什么电影),而不是有一个个单独的对应于8点钟、9点钟、10点钟等等的条目。下文将对NLP数据库218作进一步说明。
在功能框332,由代词置换器211用专有名称置换短语中的代词。例如,在一个实施例中,要把代词“I”(我)、“my”或“mine”(我的)替换成说话人的姓名。这个步骤的目的是能在NLP数据库218中存储和访问特定于用户的事实。例如,要把语句“who aremy children”(谁是我的孩子)转换成“who are Dean’s children”(谁是Dean的孩子),其中Dean是说话人的姓名。这个步骤还是可以用一个简单循环来完成-该循环搜索短语中的代词并把找到的代词替换成专有名称。为了跟踪在短语中作过替换的位置,可以使用一个数组。
在功能框334中,由单词加权器208对短语中的各个单词按它们对于短语的总体意思的相对“重要性”进行加权。例如,在一个实施例中,分配三个加权因数。将最低的加权因数分配给诸如“a”、“an”、“the”和其它冠词的单词。将最高的加权因数赋予可能与短语的意思有重要关系的单词。例如,这些单词可包括NLP数据库218中的所有动词、名词、形容词、和专有名称(proper name)。将中间的加权因数赋予短语中的所有其它单词。这种加权的目的是便于增强NLP数据库218的搜索功能。
图4中表示一个实施例的NLP数据库218的几个选定列的例子。NLP数据库218包含多个列400-410和多个行412A-412N。列400中的各条目代表对NLP数据库来说是“已知的”短语。列402中显示的是列400中每个条目的必需单词的数目。列404中显示的是列400中每个条目的相关语境或子语境(sub context)。列408和410中显示的是列400中每个条目的一个或多个相关行动。应当注意,图4中所示的NLP数据库218只是一个用于叙述本发明的简化的例子。其它实施例可以有更多或更少的具有不同条目的列。
返回到图3B,在功能框336,搜索NLP数据库218,根据NLP数据库218的列400中的条目是否含有短语中的任何单词(或单词的同义词)和这些单词的相对权重,查找短语的可能匹配项。在功能框338,根据短语中每一个单词的出现次数和它们的相对权重,为每一个可能的匹配条目生成一个可信度值。数据库的加权单词检索在本领域中是众所周知的,可以用市场销售的搜索引擎(如位于美国弗吉尼亚州阿灵顿的DT软件公司生产的“dtsearch”)执行。同样,同义词检索在本领域中是众所周知的,可以用诸如由位于美国新泽西普林斯顿的普林斯顿大学认识科学实验室开发的“WordNet”这样的可公开获得的工具执行。搜索引擎可以是自然语言处理器202的一个组成部分。
在判断框340,自然语言处理器202判断是否可能匹配条目中的任一条目有大于或等于某个预定最小阀值T的可信度值。阀值T代表据其可判定短语是否与NLP数据库中任何条目匹配的可接受的最低可信度值。如果没有可信度值大于或等于T的可能匹配条目,则流程就前进到功能框342,在此将一个可选的出错讯息或者通过显示器104向用户显示,或者通过扬声器112重播。在一个实施例中,向用户显示的任何出错讯息的类型(如果有的话),可以取决于在最高可信度的NLP数据库条目中找到的“命中”有多少(即短语中有多少匹配单词)。有零个或一个命中与有两个或更多的命中相比,会生成不同类型的出错讯息。
然而,如果NLP数据库218中至少有一个条目的可信度值大于或等于T,则流程前进到功能框344,在此从短语中剔除“噪声”单词。“噪声”单词包括相对于短语中的其它单词来说对短语的总体意思没有重要贡献的单词。这些单词可包括冠词、代词、连词和类似性质的单词。“非噪声”单词则包括对短语的总体意思有重要贡献的单词。“非噪声”单词包括动词、名词、形容词、专有名称和类似的单词。
流程前进到图3C,在功能框346从NLP数据库218的列402中提取最高可信度匹配条目的非噪声单词要求。例如,如果最高可信度匹配短语是行412A中的条目(例如,“what movies are playing at$time”(在$time时在放什么电影)),则所要求的非噪声单词的数目是3。
在判断框348,进行一次检测,确定该短语所要求的非噪声单词的数目实际上出现在从NLP数据库218提取的最高可信度匹配条目中。这个检测是对在功能框336中进行的相关风格搜索(relevance-stylesearch)的精确性的验证,不言自明,一个可以生成大于最小阀值T的可信度值的条目,未必是短语的一个可接受的匹配项。
在判断框348进行的检测的性质是一个由布尔检测器210进行的布尔“AND”检测。该检测确定短语中每一个非噪声单词(或其同义词)是否实际上出现在最高可信度条目中。如果有足够数量的实际上出现在最高可信度条目中的必要单词,流程就前进到功能框350,自然语言处理器202在此指示应用界面220采取列408或410中的一个相关行动。不言自明,也可以有另外的行动列。
例如,如果最高可信度条目是行412A中的条目,并且判断框348的布尔检测确定列400中的条目中的短语中实际上有3个非噪声单词,则要采取列408中的相关行动(例如访问电影网站)。NLP数据库中的其它条目有其它的相关行动。例如,如果最高可信度条目是行412E中的条目(例如,“what time is it”(现在几点钟)),则相关行动可能是,自然语言处理器202指示一个文字转换至语音应用程序(未予示出)通过扬声器112向用户报出当前时间。另一个例子是,如果最高可信度条目是行412N中的条目(例如,“show me the news”(给我显示新闻)),则第一个相关行动可能是访问因特网上预定的新闻网站,第二个相关行动可能是指示一个图象显示应用程序(未予示出)显示新闻的相关图象。也可以采取不同的或另外的行动。
同样,对于短语,如果最高可信度条目含有如在判断框348确定的预定数量的非噪声单词,自然语言处理器202就指示语音识别处理器200启用用于列404的相关语境的特定语境语法212。所以,对于行412A,要启用用于语境“movies”(电影)的特定语境语法212。所以,当在图3A的功能框300向语音识别处理器200提供下一个话语时,语音识别处理器在搜索一般性语法214之前要在所启用的特定语境语法212中检索“movies”(电影)。如上所述,启用恰当的特定语境语法212大大增加快速、成功的语音识别的可能性,并且增强了用户以口语化风格与计算机沟通的能力。
然而-回到判断框348,如果从NLP数据库218提取的最高可信度条目中实际上没有短语中预定数量的非噪声单词,流程就前进到功能框354,通过显示器104或扬声器112提示用户回答是否指的是最高可信度条目。例如,如果用户说“how much is IBM stock selling fortoday”(IBM股票今日卖多少),则NLP数据库218中的最高可信度条目可能是行412B中的条目。在这种情况下,尽管相关因数可能很高,必要单词(或其同义词)的数量却可能不够。所以,要在功能框354提示用户回答他是否指的是“what is the price of IBM stock on August28。1998”(1998年8月28日IBM股票的价格是多少)。
用户可以作肯定回答或否定回答。如果在判断框356确定用户作了肯定回答,则在功能框350采取与该最高可信度条目相关的行动,然后在功能框352启用相关的特定语境语法212。
然而,如果在判断框356确定用户作了否定回答,流程就前进到图3D,从NLP数据库218的列404提取用于该最高可信度条目的相关语境,并在功能框360提示用户用基于语境的交互对话提供信息。例如,如果用户说“what is the price of XICOR stock today”(XICOR股票今日价格是多少),并且NLP数据库218中的最高可信度条目是行412B(例如“what is the price of IBM stock on$date”(日期$的IBM股票的价格是多少)),则在功能框354提示用户回答他是否指的就是这个意思。
如果用户回答是否定的,则在功能框358从列404提取语境“stock”(股票),并通过显示器104或扬声器112把用于该股票语境的基于语境的交互对话向用户表示。这种基于语境的交互对话的作用是提示用户提供XICOR股票的名称和股票报价符。用户可以口头回答所需信息。对于每一个可能的语境,可以采用不同的基于语境的交互对话。例如,基于语境“weather”(天气)的交互对话的作用是提示用户提供姓名和希望了解其天气情况的地点和名称(例如城市)。同样,基于语境“news”(新闻)的交互对话的作用是提示用户提供文章的类型、新闻来源、新闻网站的因特网URL或其它有关信息。
基于语境的交互对话结束后,在功能框362,更新NLP数据库218、一般性语法214和特定语境语法212,以包括新的信息。这样,下一次用户询问该信息时,就会找到合适的匹配项,无需提示用户提供更多信息就能采取适当的行动。所以,本发明自适应地“学习”识别用户说出的短语。
在本发明一个实施例中,NLP数据库218、特定语境语法212、一般性语法214和口授语法216的一个或多个也含有与每个条目相关联的时间戳值(未予示出)。每次使用一个匹配条目时,就更新与该条目相关联的时间戳值。每隔一定时间,或者由用户决定,把时间戳值在一定日期或时间之前的条目从它们各自的数据库/语法中删除。这样,通过“清除”旧的或过时的条目,可以使数据库/语法的大小保持在高效的程度。这也有助于避免错误的匹配。
在本发明一个实施例中,语音识别和自然语言处理可以被用来与网络对象(networked objects)互动,连网对象例如是有语境敏感的基于语音的界面的万维网(“WWW”或“Web”)网页。
图5表示一个典型的对话定义文件(DDF)500,它表示为把语音识别和自然语言处理与某个因特网对象(诸如文本文件或图象文件,或者是最佳实施例中的网页)相联系所必需的信息。尽管在其最简单实施例中,对话定义文件500由一个网络对象表510组成,DDF也可以含有另外的特定语境语法文件214和另外的用于自然语言处理(NLP)数据库218的条目,如图5所示的那样。DDF 500的最佳实施例包括一个网络对象表510,一个特定语境语法文件214和一个含有指向自然语言处理数据库218的条目的文件。可以用本领域的任何已知方法,如Lempel-Ziv压缩法,把这些成分压缩并组合进DDF文件500。特定语境语法文件214和自然语言处理(NLP)数据库218如前面段落中所述的那样。网络对象表510是一个存储器结构(如存储器树)、链或表,它把资源的地址与各种行动、语法或NLP数据库218中的条目相联系。
图6中表示网络对象表510的一个典型实施例。图6表示一个存储器表,表中可含有对应下列内容的各条目列:网络对象520、文本到语音转换(TTS)标志522、文本言语524、使用语法标志526、附接语法标志528、“is yes/no”(是/否)标志、““是(do yes)”的相应操作”(do yes)532和““否”的相应操作”(do no)534行动。表中的每行540A-540E代表与一个网络对象相关的语法和言语。本发明的典型实施例通过统一资源定位器(URL)来引用网络对象520。URL是一种指定作为万维网一部分的因特网上的资源的地址的标准方法。由于这个标准用于说明因特网资源的位置是本领域中众所周知的,所以这里将不讨论URL的详细内容。URL的一个优点是,除了许多网络对象设备和通信协议外,URL能指定各种网络对象格式的信息,包括超文本的、图象的、数据库的或其它的文件。
正文到语音(TTS)标志522与正文言语524组合起来时,指出在对应的网络对象被传输时是否应当通过扬声器播出一个初始语句。例如,当传输行540A的网络对象列520中所列的网页(http://www.conversational sys.com)时,TTS标志522是作过标记的,这表明正文言语524“Hello,welcome to ConversationalSystems”(你好,欢迎来到谈话系统)要通过扬声器112播出。
下面三个标志涉及使用与这个网络对象相关的语法。“使用语法”标志526或“附接语法”标志528的肯定标记指出出现一个与所指示的网络对象相关的特定语境语法文件214。“使用语法”标志526的标记指出该新的特定语境语法文件214代替现有的特定语境语法文件,禁用现有的文件。“附接语法”标志528指出该新的特定语境语法文件214应当与现有的特定语境语法文件同时启用。
最后,其余列的条目涉及一个“是/否”语法结构。如果“为是/否”标志530是作过标记的,则启用一个标准“是/否”语法。当启用了一个标准“是/否”语法时,向计算机说出的肯定性命令导致计算机执行““是”的相应操作”条目532中所指出的命令。类似地,向计算机说出的否定性命令导致计算机执行““否”的相应操作”条目534中所指出的命令。““是”的相应操作”532列和““否”的相应操作”534列中的条目可以是命令,也可以是指向NLP数据库218中嵌入的命令的指针。例如,如行540B所示,“是/否”标志是作过标记的。如果给计算机一个肯定性回答,例如“是”,则导致执行““是”的相应操作”条目532中的相应命令;在这个具体情况中,该条目是数字“210”,是对NLP数据库中第210条命令的引用。如果回答是“否”,则导致计算机执行NLP数据库中第211条命令。
现在转至图7A,图中表示向互连计算机(如正在浏览万维网的计算机)提供言语和语音命令的方法和系统的流程图。图7A-7C的方法可以与图3A-3D的方法结合起来使用。在功能框602中,向万维网浏览器提供一个网站URL(网络对象)。网络浏览器是一种用于在因特网中导航的程序,这是本领域中众所周知的。功能框602的向浏览器提供URL的步骤可以很简单,只要用户键入该URL,或者让用户选择一个对所选网站URL的“链接”。该步骤也可以用前面结合与NLP数据库218中每个条目相关的行动所述的语音命令来完成。在功能框604,计算机得到URL后,必须决定是否能解析该URL内指定的网站的因特网地址。这个解析过程是本领域中一个众所周知的过程。如果计算机不能解析因特网地址,在功能框605,在浏览器窗口中显示一个出错讯息,然后,系统返回其初始状态600。如果解析了因特网地址,在功能框606,计算机向该网站发送一个对该网页的请求。
在功能框608,作出判断,看网站是否发送网页。如果网站没有响应,或者未能发送网页,则在功能框605,在浏览器窗口中显示一个出错讯息,然后,系统返回其初始状态600。如果网站返回网页,则在功能框610,在浏览器窗口显示网页。
在判断框612,计算机100判断是否该网站的对应DDF文件500已经出现在计算机100上。如果DDF文件已经出现,流程就前进到图7C;否则,流程就前进到图7B。
转至图7B。如果DDF文件500不存在,计算机检查是否DDF文件500的位置被以URL的形式编码在网页的超文本标记语言(HTML)内。(注意,HTML是本领域中众所周知的,因此这里将不讨论该语言的详细内容)。在HTML代码内对DDF文件位置编码的方法是,将DDF文件位置列在一个初始HTML元标记(meta-tag)中,例如:
<meta DDF=“http://www.conversationalsys.com/ConverseIt.ddf”>
或者把一个脚本标记(scripting tag)直接写入浏览器所支持的HTML的变体(variation),
<!--
<DDF=“http://www.conversationalsys.com/ConverseIt.ddf”>-->
如果DDF文件位置信息被编码在网页内,则在功能框616,解析该位置的因特网地址,然后在功能框626,计算机请求传输DDF文件500。
另一方面,如果DDF文件500的位置没有被编码在网页内,它就有几个可能的存储位置。它可能存储在网站的一个预定位置-如根目录中某个文件位置,或者在一个不同的中央位置-例如在另一个因特网服务器上或图1的存储介质108中。功能框618和620检查这些可能。功能框618判断DDF文件是否位于该网站。在该步骤中,计算机向网站发送查询,询问是否存在DDF文件500。如果DDF文件500在网站存在,在功能框626,计算机请求传输DDF文件500。如果DDF文件不在网站,在功能框620,计算机查询中央位置是否有该网站的一个DDF文件。如果DDF文件在网站存在,在功能框626,计算机请求传输DDF文件。如果找不到DDF文件500,在功能框622,就关闭任何当前DDF文件的现有部分,诸如网络对象表510、与网站相关的NLP数据库218和任何以前访问过的网站的特定语境语法214。此外,在功能框624,按非语音启动的网站对待该网站,并且只使用标准语法文件。标准语法文件系统是现有的不包含任何与网络对象相关联的特定语境语法文件的相关语法的系统上的语法文件。
如果DDF文件500在功能框626被请求,并且其传输不成功,则在功能框622关闭任何当前DDF文件500的任何现有部分,并在功能框624,按非语音启动的网站对待该网站,并且只使用标准语法文件。
如果DDF文件500在功能框626被请求,并且在功能框628判断其传输是成功的,则在功能框630,它替代任何以前的DDF文件。在功能框632,析取DDF文件500的任何成分,诸如网络对象表510、特定语境语法文件214和NLP数据库218。可以用类似的技术来获得实现图3A-3D中所示方法的必要软件,包含图2的功能单元。
流程转移到图7C。在功能框634,由计算机将网络对象表510读入存储器。如果功能框636判断出网页URL存在于网站网络对象表510中,则它由如图6中所示的表的某行540A-540E表示。网络对象表的每行表示用户可用于该特定网页的语音交互。如果不存在对应于该网页的行,则不存在用于该网页的语音交互,于是处理结束。
如果功能框636判断出网页URL存在于网站网络对象表510中,则在功能框638,计算机检查TTS标志522是否作了标记,以决定是否把一个正文言语524与网页相联系。如果有一个正文言语524,就在功能框640播出它,然后流程继续。如果由判断框642判断出有一个与网页相关联的特定语境语法文件,就在功能框644启用它,然后在功能框646启用NLP数据库218。如果没有与网页相关联的特定语境语法文件,在功能框646只启用NLP数据库218。一旦NLP数据库被启用,功能框646,系统就按如以上所述的图3A-3C的方式运行。
总之,本发明提供一种用于计算机的连网的交互式用户界面的方法和系统。通过使用通过对话定义文件与因特网对象联系的特定语境语法,本发明减少语音识别时间,提高用户以口语话风格与因特网对象(如网页)沟通的能力。此外,通过采用对各种语法和NLP数据库的适应性更新,本发明进一步提高交互的效率。
前面的最佳实施例说明,使本领域任何熟练人员都能制造或使用本发明。这些实施例的各种修改,对本领域的熟练人员来说显而易见,无需发明性技能,就能将本文中所界定的一般原理应用于其它实施例。所以,本发明不限于本文所示的实施例,而应涵盖与本文所披露的原理和新颖特点相符的最宽的范围。
Claims (14)
1.一种用于为与网络对象进行语音交互而更新计算机的方法,该方法包含下列步骤:
通过网络传输一个与网络对象相关联的网络对象表;
在网络对象表中检索网络对象的匹配条目;和
如果在网络对象表中找到所述匹配条目,就执行一个与所述匹配条目相关的行动。
2.权利要求1的方法,其中,网络对象表是从一个网站读取的。
3.权利要求1的方法,其中,网络对象表是从一个存储多个网络对象的网络对象表的位置读取的。
4.权利要求1的方法,其中,将网络对象表包含在一个也包含一个特定语境语法的对话定义文件中。
5.权利要求1的方法,其中,将网络对象表包含在一个也包含一个自然语言处理数据库的条目的对话定义文件中。
6.权利要求1的方法,其中,将网络对象表包含在一个也包含一个特定语境语法和一个自然语言处理数据库的条目的对话定义文件中。
7.一种用于为与网络对象进行语音交互而更新计算机的系统,该系统包含:
一个网络接口,用于传输一个与一个网络对象相关联的对话定义文件,其中,对话定义文件含有一个网络对象表;
一个数据处理器,用于在网络对象表中检索网络对象的匹配条目;和
一个应用界面,用于在如果在网络对象表中找到所述匹配条目时,就执行一个与所述匹配条目相关的行动。
8.一种用于为与网络对象进行语音交互而更新计算机的方法,该方法包含下列步骤:
查找一个与一个网络对象相关联的对话定义文件,其中,对话定义文件包含一个网络对象表;
读取对话定义文件;
在网络对象表中检索网络对象的匹配条目;和
如果在网络对象表中找到所述匹配条目,就执行一个与所述匹配条目相关的行动。
9.权利要求8的方法,其中,对话定义文件是从一个网站读取的。
10.权利要求8的方法,其中,对话定义文件是从一个存储多个网络对象的对话定义文件的位置读取的。
11.权利要求8的方法,其中,对话定义文件是从存储介质读取的。
12.权利要求8的方法,其中,对话定义文件包含一个特定语境语法。
13.权利要求8的方法,其中,对话定义文件包含一个自然语言处理数据库的条目。
14.权利要求8的方法,其中,对话定义文件包含一个特定语境语法和一个自然语言处理数据库的条目。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/150,459 | 1998-09-09 | ||
US09/150,459 US6499013B1 (en) | 1998-09-09 | 1998-09-09 | Interactive user interface using speech recognition and natural language processing |
US09/166,198 | 1998-10-05 | ||
US09/166,198 US6532444B1 (en) | 1998-09-09 | 1998-10-05 | Network interactive user interface using speech recognition and natural language processing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1325528A true CN1325528A (zh) | 2001-12-05 |
CN1161747C CN1161747C (zh) | 2004-08-11 |
Family
ID=22534628
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB998130931A Expired - Lifetime CN1153190C (zh) | 1998-09-09 | 1999-09-08 | 采用语音识别和自然语言处理的交互式用户界面 |
CNB998130982A Expired - Lifetime CN1161747C (zh) | 1998-09-09 | 1999-09-08 | 采用语音识别和自然语言处理的网络交互式用户界面 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB998130931A Expired - Lifetime CN1153190C (zh) | 1998-09-09 | 1999-09-08 | 采用语音识别和自然语言处理的交互式用户界面 |
Country Status (10)
Country | Link |
---|---|
US (2) | US6499013B1 (zh) |
EP (2) | EP1110205B1 (zh) |
JP (2) | JP2002524776A (zh) |
CN (2) | CN1153190C (zh) |
AT (2) | ATE287117T1 (zh) |
AU (2) | AU762282B2 (zh) |
CA (2) | CA2343229A1 (zh) |
DE (2) | DE69922971T2 (zh) |
ES (2) | ES2235508T3 (zh) |
WO (2) | WO2000014727A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100517300C (zh) * | 2002-11-28 | 2009-07-22 | 皇家飞利浦电子股份有限公司 | 分配词类信息的设备和方法 |
CN1892819B (zh) * | 2005-06-30 | 2010-04-21 | 佳能株式会社 | 语音识别方法和语音识别设备 |
US9208787B2 (en) | 2006-06-27 | 2015-12-08 | Deutsche Telekom Ag | Method and device for the natural-language recognition of a vocal expression |
CN107667399A (zh) * | 2015-06-25 | 2018-02-06 | 英特尔公司 | 语音识别服务 |
CN109598112A (zh) * | 2014-07-18 | 2019-04-09 | 谷歌有限责任公司 | 利用协同定位信息的发言人验证 |
CN110033774A (zh) * | 2017-12-07 | 2019-07-19 | 交互数字Ce专利控股公司 | 用于隐私保护型语音交互的设备和方法 |
CN110223679A (zh) * | 2019-06-14 | 2019-09-10 | 南京机电职业技术学院 | 一种语音识别输入装置 |
CN110265013A (zh) * | 2019-06-20 | 2019-09-20 | 平安科技(深圳)有限公司 | 语音的识别方法及装置、计算机设备、存储介质 |
CN111801733A (zh) * | 2018-01-18 | 2020-10-20 | 克里斯托弗·安东尼·席尔瓦 | 对网络路径进行区域化解析的系统和方法 |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
Families Citing this family (380)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6775264B1 (en) | 1997-03-03 | 2004-08-10 | Webley Systems, Inc. | Computer, internet and telecommunications based network |
US6499013B1 (en) | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
US6434524B1 (en) * | 1998-09-09 | 2002-08-13 | One Voice Technologies, Inc. | Object interactive user interface using speech recognition and natural language processing |
US20020032564A1 (en) * | 2000-04-19 | 2002-03-14 | Farzad Ehsani | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface |
EP1224569A4 (en) | 1999-05-28 | 2005-08-10 | Sehda Inc | PHRASE BASED DIALOGUE MODELING WITH SPECIAL APPLICATION FOR GENERATING RECOGNITION GRAMMARK FOR LANGUAGE-CONTROLLED USER INTERFACE |
JP3702414B2 (ja) * | 1999-08-11 | 2005-10-05 | 株式会社日立製作所 | 情報検索支援方法、コンピュータ読み取り可能な記憶媒体および情報検索装置 |
AU6630800A (en) | 1999-08-13 | 2001-03-13 | Pixo, Inc. | Methods and apparatuses for display and traversing of links in page character array |
US6862713B1 (en) * | 1999-08-31 | 2005-03-01 | International Business Machines Corporation | Interactive process for recognition and evaluation of a partial search query and display of interactive results |
DE19944325A1 (de) * | 1999-09-15 | 2001-03-22 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Spracherkennung |
US7447635B1 (en) * | 1999-10-19 | 2008-11-04 | Sony Corporation | Natural language interface control system |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7516190B2 (en) | 2000-02-04 | 2009-04-07 | Parus Holdings, Inc. | Personal voice-based information retrieval system |
US6721705B2 (en) * | 2000-02-04 | 2004-04-13 | Webley Systems, Inc. | Robust voice browser system and voice activated device controller |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
CA2408584A1 (en) * | 2000-04-06 | 2001-10-18 | One Voice Technologies, Inc. | Natural language and dialogue generation processing |
DE60125597T2 (de) * | 2000-08-31 | 2007-05-03 | Hitachi, Ltd. | Vorrichtung für die Dienstleistungsvermittlung |
US7024348B1 (en) * | 2000-09-28 | 2006-04-04 | Unisys Corporation | Dialogue flow interpreter development tool |
US7660740B2 (en) * | 2000-10-16 | 2010-02-09 | Ebay Inc. | Method and system for listing items globally and regionally, and customized listing according to currency or shipping area |
KR20020032835A (ko) * | 2000-10-27 | 2002-05-04 | 정우성 | 자연어 처리와 음성 인식 병합에 의거한 음성 언어 이해기술 및 그 비즈니스 모델 |
DE10196793D2 (de) | 2000-11-03 | 2004-10-07 | Voicecom Ag | Robuste Spracherkennung mit Datenbankorganisation |
JP3714159B2 (ja) * | 2000-11-30 | 2005-11-09 | 日本電気株式会社 | ブラウザ搭載装置 |
EP1352316A2 (en) * | 2000-12-01 | 2003-10-15 | The Trustees Of Columbia University In The City Of New York | A method and system for voice activating web pages |
WO2002050816A1 (en) * | 2000-12-18 | 2002-06-27 | Koninklijke Philips Electronics N.V. | Store speech, select vocabulary to recognize word |
US7027987B1 (en) * | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
US7103533B2 (en) * | 2001-02-21 | 2006-09-05 | International Business Machines Corporation | Method for preserving contextual accuracy in an extendible speech recognition language model |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
US7072837B2 (en) * | 2001-03-16 | 2006-07-04 | International Business Machines Corporation | Method for processing initially recognized speech in a speech recognition session |
WO2002086864A1 (en) * | 2001-04-18 | 2002-10-31 | Rutgers, The State University Of New Jersey | System and method for adaptive language understanding by computers |
US7203645B2 (en) * | 2001-04-27 | 2007-04-10 | Intel Corporation | Speech recognition system loading different recognition engines for different applications |
US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7506022B2 (en) | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
US7409349B2 (en) | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US7519529B1 (en) | 2001-06-29 | 2009-04-14 | Microsoft Corporation | System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service |
US7409335B1 (en) | 2001-06-29 | 2008-08-05 | Microsoft Corporation | Inferring informational goals and preferred level of detail of answers based on application being employed by the user |
US20030009334A1 (en) * | 2001-07-03 | 2003-01-09 | International Business Machines Corporation | Speech processing board for high volume speech processing applications |
US20030037053A1 (en) * | 2001-08-09 | 2003-02-20 | Zhong-Hua Wang | Method and apparatus for automatically updating stock and mutual fund grammars in speech recognition systems |
US6985865B1 (en) * | 2001-09-26 | 2006-01-10 | Sprint Spectrum L.P. | Method and system for enhanced response to voice commands in a voice command platform |
US7752266B2 (en) | 2001-10-11 | 2010-07-06 | Ebay Inc. | System and method to facilitate translation of communications between entities over a network |
US7711570B2 (en) | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US8229753B2 (en) | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7058565B2 (en) * | 2001-12-17 | 2006-06-06 | International Business Machines Corporation | Employing speech recognition and key words to improve customer service |
US6915246B2 (en) * | 2001-12-17 | 2005-07-05 | International Business Machines Corporation | Employing speech recognition and capturing customer speech to improve customer service |
KR20020023197A (ko) * | 2001-12-27 | 2002-03-28 | 김연수 | 자연음 처리를 이용한 데이터 제공 방법과 이를 위한 시스템 |
US7203644B2 (en) * | 2001-12-31 | 2007-04-10 | Intel Corporation | Automating tuning of speech recognition systems |
AU2003205166A1 (en) | 2002-01-14 | 2003-07-30 | Jerzy Lewak | Identifier vocabulary data access method and system |
DE10211777A1 (de) * | 2002-03-14 | 2003-10-02 | Philips Intellectual Property | Erzeugung von Nachrichtentexten |
US20030187658A1 (en) * | 2002-03-29 | 2003-10-02 | Jari Selin | Method for text-to-speech service utilizing a uniform resource identifier |
JP3967952B2 (ja) * | 2002-04-16 | 2007-08-29 | 富士通株式会社 | 文法更新システム及び方法 |
EP1363271A1 (de) * | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
DE10220520A1 (de) * | 2002-05-08 | 2003-11-20 | Sap Ag | Verfahren zur Erkennung von Sprachinformation |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
US20030216923A1 (en) * | 2002-05-15 | 2003-11-20 | Gilmore Jeffrey A. | Dynamic content generation for voice messages |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7941348B2 (en) | 2002-06-10 | 2011-05-10 | Ebay Inc. | Method and system for scheduling transaction listings at a network-based transaction facility |
US8719041B2 (en) * | 2002-06-10 | 2014-05-06 | Ebay Inc. | Method and system for customizing a network-based transaction facility seller application |
US20030229554A1 (en) * | 2002-06-10 | 2003-12-11 | Veres Robert Dean | Method and system for composing transaction listing descriptions for use in a network-based transaction facility |
US8078505B2 (en) | 2002-06-10 | 2011-12-13 | Ebay Inc. | Method and system for automatically updating a seller application utilized in a network-based transaction facility |
AU2003280474A1 (en) | 2002-06-28 | 2004-01-19 | Conceptual Speech, Llc | Multi-phoneme streamer and knowledge representation speech recognition system and method |
US20040008828A1 (en) * | 2002-07-09 | 2004-01-15 | Scott Coles | Dynamic information retrieval system utilizing voice recognition |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US7363398B2 (en) * | 2002-08-16 | 2008-04-22 | The Board Of Trustees Of The Leland Stanford Junior University | Intelligent total access system |
US6907397B2 (en) * | 2002-09-16 | 2005-06-14 | Matsushita Electric Industrial Co., Ltd. | System and method of media file access and retrieval using speech recognition |
US20050180464A1 (en) * | 2002-10-01 | 2005-08-18 | Adondo Corporation | Audio communication with a computer |
US20060276230A1 (en) * | 2002-10-01 | 2006-12-07 | Mcconnell Christopher F | System and method for wireless audio communication with a computer |
US7197494B2 (en) * | 2002-10-15 | 2007-03-27 | Microsoft Corporation | Method and architecture for consolidated database search for input recognition systems |
US20040111259A1 (en) * | 2002-12-10 | 2004-06-10 | Miller Edward S. | Speech recognition system having an application program interface |
EP1450350A1 (en) * | 2003-02-20 | 2004-08-25 | Sony International (Europe) GmbH | Method for Recognizing Speech with attributes |
US7480619B1 (en) | 2003-03-04 | 2009-01-20 | The Board Of Trustees Of The Leland Stanford Junior University | Integration manager and natural interaction processor |
US6980949B2 (en) * | 2003-03-14 | 2005-12-27 | Sonum Technologies, Inc. | Natural language processor |
US7729913B1 (en) | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
US7260535B2 (en) | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
US9710819B2 (en) * | 2003-05-05 | 2017-07-18 | Interactions Llc | Real-time transcription system utilizing divided audio chunks |
CA2524591A1 (en) * | 2003-05-05 | 2004-11-18 | Interactions, Llc | Apparatus and method for processing service interactions |
US8223944B2 (en) * | 2003-05-05 | 2012-07-17 | Interactions Corporation | Conference call management system |
WO2004109658A1 (ja) * | 2003-06-02 | 2004-12-16 | International Business Machines Corporation | 音声応答システム、音声応答方法、音声サーバ、音声ファイル処理方法、プログラム及び記録媒体 |
US9202467B2 (en) * | 2003-06-06 | 2015-12-01 | The Trustees Of Columbia University In The City Of New York | System and method for voice activating web pages |
US20040254790A1 (en) * | 2003-06-13 | 2004-12-16 | International Business Machines Corporation | Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars |
US7742985B1 (en) | 2003-06-26 | 2010-06-22 | Paypal Inc. | Multicurrency exchanges between participants of a network-based transaction facility |
US20050027539A1 (en) * | 2003-07-30 | 2005-02-03 | Weber Dean C. | Media center controller system and method |
US7383172B1 (en) | 2003-08-15 | 2008-06-03 | Patrick William Jamieson | Process and system for semantically recognizing, correcting, and suggesting domain specific speech |
US8311835B2 (en) | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
US9552354B1 (en) * | 2003-09-05 | 2017-01-24 | Spoken Traslation Inc. | Method and apparatus for cross-lingual communication |
US7376752B1 (en) | 2003-10-28 | 2008-05-20 | David Chudnovsky | Method to resolve an incorrectly entered uniform resource locator (URL) |
GB2409561A (en) * | 2003-12-23 | 2005-06-29 | Canon Kk | A method of correcting errors in a speech recognition system |
US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US8160883B2 (en) | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
US20080235018A1 (en) * | 2004-01-20 | 2008-09-25 | Koninklikke Philips Electronic,N.V. | Method and System for Determing the Topic of a Conversation and Locating and Presenting Related Content |
US7899671B2 (en) * | 2004-02-05 | 2011-03-01 | Avaya, Inc. | Recognition results postprocessor for use in voice recognition systems |
US7496500B2 (en) * | 2004-03-01 | 2009-02-24 | Microsoft Corporation | Systems and methods that determine intent of data and respond to the data based on the intent |
US9189568B2 (en) | 2004-04-23 | 2015-11-17 | Ebay Inc. | Method and system to display and search in a language independent manner |
JP2005339237A (ja) * | 2004-05-27 | 2005-12-08 | Aruze Corp | アプリケーション利用補助システム |
WO2005122145A1 (en) * | 2004-06-08 | 2005-12-22 | Metaphor Solutions, Inc. | Speech recognition dialog management |
US7580837B2 (en) | 2004-08-12 | 2009-08-25 | At&T Intellectual Property I, L.P. | System and method for targeted tuning module of a speech recognition system |
US7925506B2 (en) * | 2004-10-05 | 2011-04-12 | Inago Corporation | Speech recognition accuracy via concept to keyword mapping |
US7242751B2 (en) * | 2004-12-06 | 2007-07-10 | Sbc Knowledge Ventures, L.P. | System and method for speech recognition-enabled automatic call routing |
US7921091B2 (en) * | 2004-12-16 | 2011-04-05 | At&T Intellectual Property Ii, L.P. | System and method for providing a natural language interface to a database |
ES2261053B1 (es) * | 2004-12-29 | 2008-04-16 | France Telecom España, S.A. | Metodo para la utilizacion de lenguaje natural como interfaz para los terminales moviles. |
US7751551B2 (en) | 2005-01-10 | 2010-07-06 | At&T Intellectual Property I, L.P. | System and method for speech-enabled call routing |
KR100718147B1 (ko) * | 2005-02-01 | 2007-05-14 | 삼성전자주식회사 | 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법 |
US7593962B2 (en) * | 2005-02-18 | 2009-09-22 | American Tel-A-Systems, Inc. | System and method for dynamically creating records |
US8225232B2 (en) | 2005-02-28 | 2012-07-17 | Microsoft Corporation | Dynamic configuration of unified messaging state changes |
US7409344B2 (en) | 2005-03-08 | 2008-08-05 | Sap Aktiengesellschaft | XML based architecture for controlling user interfaces with contextual voice commands |
US7996219B2 (en) * | 2005-03-21 | 2011-08-09 | At&T Intellectual Property Ii, L.P. | Apparatus and method for model adaptation for spoken language understanding |
US7657020B2 (en) | 2005-06-03 | 2010-02-02 | At&T Intellectual Property I, Lp | Call routing system and method of using the same |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7542904B2 (en) * | 2005-08-19 | 2009-06-02 | Cisco Technology, Inc. | System and method for maintaining a speech-recognition grammar |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
EP1934971A4 (en) | 2005-08-31 | 2010-10-27 | Voicebox Technologies Inc | DYNAMIC LANGUAGE SCRIPTURE |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US8229745B2 (en) * | 2005-10-21 | 2012-07-24 | Nuance Communications, Inc. | Creating a mixed-initiative grammar from directed dialog grammars |
US8315874B2 (en) * | 2005-12-30 | 2012-11-20 | Microsoft Corporation | Voice user interface authoring tool |
US8229733B2 (en) * | 2006-02-09 | 2012-07-24 | John Harney | Method and apparatus for linguistic independent parsing in a natural language systems |
US20070225970A1 (en) * | 2006-03-21 | 2007-09-27 | Kady Mark A | Multi-context voice recognition system for long item list searches |
JP4734155B2 (ja) * | 2006-03-24 | 2011-07-27 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US7756708B2 (en) | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
US8107610B2 (en) * | 2006-06-06 | 2012-01-31 | At&T Intellectual Property I, L.P. | Callback processing of interactive voice response requests |
US8639782B2 (en) | 2006-08-23 | 2014-01-28 | Ebay, Inc. | Method and system for sharing metadata between interfaces |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7742922B2 (en) * | 2006-11-09 | 2010-06-22 | Goller Michael D | Speech interface for search engines |
CN101558443B (zh) | 2006-12-15 | 2012-01-04 | 三菱电机株式会社 | 声音识别装置 |
US7809564B2 (en) * | 2006-12-18 | 2010-10-05 | International Business Machines Corporation | Voice based keyword search algorithm |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
US7912828B2 (en) * | 2007-02-23 | 2011-03-22 | Apple Inc. | Pattern searching methods and apparatuses |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
CN101075435B (zh) * | 2007-04-19 | 2011-05-18 | 深圳先进技术研究院 | 一种智能聊天系统及其实现方法 |
US20080273672A1 (en) * | 2007-05-03 | 2008-11-06 | Microsoft Corporation | Automated attendant grammar tuning |
ITFI20070177A1 (it) | 2007-07-26 | 2009-01-27 | Riccardo Vieri | Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento. |
WO2009039867A1 (de) * | 2007-09-20 | 2009-04-02 | Siemens Enterprise Communications Gmbh & Co. Kg | Verfahren und kommunikationsanordnung zum betreiben einer kommunikationsverbindung |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8364694B2 (en) | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8396714B2 (en) | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8355919B2 (en) | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8352268B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8352272B2 (en) | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010051591A1 (en) * | 2008-11-06 | 2010-05-14 | Digital Intermediary Pty Limited | Context layered object engine |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110010179A1 (en) * | 2009-07-13 | 2011-01-13 | Naik Devang K | Voice synthesis and processing |
US20110066438A1 (en) * | 2009-09-15 | 2011-03-17 | Apple Inc. | Contextual voiceover |
US9171541B2 (en) | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US9502025B2 (en) | 2009-11-10 | 2016-11-22 | Voicebox Technologies Corporation | System and method for providing a natural language content dedication service |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US20110167350A1 (en) * | 2010-01-06 | 2011-07-07 | Apple Inc. | Assist Features For Content Display Device |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US20110189646A1 (en) * | 2010-02-01 | 2011-08-04 | Amos Benninga | Pedagogical system method and apparatus |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8521513B2 (en) | 2010-03-12 | 2013-08-27 | Microsoft Corporation | Localization for interactive voice response systems |
US8694313B2 (en) | 2010-05-19 | 2014-04-08 | Google Inc. | Disambiguation of contact information using historical data |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8484031B1 (en) | 2011-01-05 | 2013-07-09 | Interactions Corporation | Automated speech recognition proxy system for natural language understanding |
US9245525B2 (en) | 2011-01-05 | 2016-01-26 | Interactions Llc | Automated speech recognition proxy system for natural language understanding |
US9472185B1 (en) | 2011-01-05 | 2016-10-18 | Interactions Llc | Automated recognition system for natural language understanding |
US8560321B1 (en) | 2011-01-05 | 2013-10-15 | Interactions Corportion | Automated speech recognition system for natural language understanding |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
WO2012135226A1 (en) * | 2011-03-31 | 2012-10-04 | Microsoft Corporation | Augmented conversational understanding architecture |
US9244984B2 (en) | 2011-03-31 | 2016-01-26 | Microsoft Technology Licensing, Llc | Location based conversational understanding |
US9858343B2 (en) | 2011-03-31 | 2018-01-02 | Microsoft Technology Licensing Llc | Personalization of queries, conversations, and searches |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US9842168B2 (en) | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
US9064006B2 (en) | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US9454962B2 (en) | 2011-05-12 | 2016-09-27 | Microsoft Technology Licensing, Llc | Sentence simplification for spoken language understanding |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
EP2667268A1 (de) * | 2012-05-24 | 2013-11-27 | Siemens Aktiengesellschaft | Verfahren zum Betrieb eines Automatisierungsgeräts |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
CN103678283B (zh) * | 2012-08-30 | 2016-08-17 | 英业达科技有限公司 | 提供外语词组以辅助外语文章撰写的系统及其方法 |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US10276157B2 (en) * | 2012-10-01 | 2019-04-30 | Nuance Communications, Inc. | Systems and methods for providing a voice agent user interface |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9047271B1 (en) | 2013-02-28 | 2015-06-02 | Google Inc. | Mining data for natural language system |
US9020809B1 (en) | 2013-02-28 | 2015-04-28 | Google Inc. | Increasing semantic coverage with semantically irrelevant insertions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US8694305B1 (en) * | 2013-03-15 | 2014-04-08 | Ask Ziggy, Inc. | Natural language processing (NLP) portal for third party applications |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
CN112230878B (zh) | 2013-03-15 | 2024-09-27 | 苹果公司 | 对中断进行上下文相关处理 |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US8768687B1 (en) * | 2013-04-29 | 2014-07-01 | Google Inc. | Machine translation of indirect speech |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
US9177553B1 (en) | 2013-06-25 | 2015-11-03 | Google Inc. | Identifying underserved command inputs |
US9123336B1 (en) | 2013-06-25 | 2015-09-01 | Google Inc. | Learning parsing rules and argument identification from crowdsourcing of proposed command inputs |
US9183196B1 (en) | 2013-06-25 | 2015-11-10 | Google Inc. | Parsing annotator framework from external services |
US9092505B1 (en) | 2013-06-25 | 2015-07-28 | Google Inc. | Parsing rule generalization by n-gram span clustering |
US9330195B1 (en) | 2013-06-25 | 2016-05-03 | Google Inc. | Inducing command inputs from property sequences |
US9251202B1 (en) | 2013-06-25 | 2016-02-02 | Google Inc. | Corpus specific queries for corpora from search query |
US9117452B1 (en) | 2013-06-25 | 2015-08-25 | Google Inc. | Exceptions to action invocation from parsing rules |
US9299339B1 (en) | 2013-06-25 | 2016-03-29 | Google Inc. | Parsing rule augmentation based on query sequence and action co-occurrence |
US9280970B1 (en) | 2013-06-25 | 2016-03-08 | Google Inc. | Lattice semantic parsing |
US9984684B1 (en) | 2013-06-25 | 2018-05-29 | Google Llc | Inducing command inputs from high precision and high recall data |
US20150031416A1 (en) | 2013-07-23 | 2015-01-29 | Motorola Mobility Llc | Method and Device For Command Phrase Validation |
CN104346151B (zh) * | 2013-07-30 | 2018-04-27 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10109273B1 (en) * | 2013-08-29 | 2018-10-23 | Amazon Technologies, Inc. | Efficient generation of personalized spoken language understanding models |
US9507849B2 (en) * | 2013-11-28 | 2016-11-29 | Soundhound, Inc. | Method for combining a query and a communication command in a natural language computer system |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
CN105934791B (zh) * | 2014-01-31 | 2019-11-22 | 惠普发展公司,有限责任合伙企业 | 语音输入命令 |
CN109949815B (zh) * | 2014-04-07 | 2024-06-07 | 三星电子株式会社 | 电子装置 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US20150331853A1 (en) * | 2014-05-15 | 2015-11-19 | Marco Palmonari | Automated multi-grammar language processing system to optimize request handling in contact centers |
US10726831B2 (en) * | 2014-05-20 | 2020-07-28 | Amazon Technologies, Inc. | Context interpretation in natural language processing using previous dialog acts |
US20150340024A1 (en) * | 2014-05-23 | 2015-11-26 | Google Inc. | Language Modeling Using Entities |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) * | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
US9626703B2 (en) | 2014-09-16 | 2017-04-18 | Voicebox Technologies Corporation | Voice commerce |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9747896B2 (en) | 2014-10-15 | 2017-08-29 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
CN104360897B (zh) * | 2014-10-29 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 对话处理方法和对话管理系统 |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
CN105869632A (zh) * | 2015-01-22 | 2016-08-17 | 北京三星通信技术研究有限公司 | 基于语音识别的文本修订方法和装置 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10515150B2 (en) | 2015-07-14 | 2019-12-24 | Genesys Telecommunications Laboratories, Inc. | Data driven speech enabled self-help systems and methods of operating thereof |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10455088B2 (en) | 2015-10-21 | 2019-10-22 | Genesys Telecommunications Laboratories, Inc. | Dialogue flow optimization and personalization |
US10382623B2 (en) | 2015-10-21 | 2019-08-13 | Genesys Telecommunications Laboratories, Inc. | Data-driven dialogue enabled self-help systems |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10843080B2 (en) * | 2016-02-24 | 2020-11-24 | Virginia Tech Intellectual Properties, Inc. | Automated program synthesis from natural language for domain specific computing applications |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
WO2018023106A1 (en) | 2016-07-29 | 2018-02-01 | Erik SWART | System and method of disambiguating natural language processing requests |
US20180052573A1 (en) * | 2016-08-17 | 2018-02-22 | Microsoft Technology Licensing, Llc | Interaction with a file storage service through a messaging bot |
US10838992B2 (en) * | 2016-08-17 | 2020-11-17 | International Business Machines Corporation | Content selection for usage within a policy |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
GB201618479D0 (en) | 2016-11-02 | 2016-12-14 | Syngenta Participations Ag | Adjuvants |
US10540966B2 (en) | 2016-11-02 | 2020-01-21 | Genesys Telecommunications Laboratories, Inc. | System and method for parameterization of speech recognition grammar specification (SRGS) grammars |
US10482885B1 (en) * | 2016-11-15 | 2019-11-19 | Amazon Technologies, Inc. | Speaker based anaphora resolution |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US20180330725A1 (en) * | 2017-05-09 | 2018-11-15 | Microsoft Technology Licensing, Llc | Intent based speech recognition priming |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN108694939B (zh) * | 2018-05-23 | 2020-11-03 | 广州视源电子科技股份有限公司 | 语音搜索优化方法、装置和系统 |
CN110728976B (zh) * | 2018-06-30 | 2022-05-06 | 华为技术有限公司 | 语音识别的方法、装置及系统 |
CN108899030A (zh) * | 2018-07-10 | 2018-11-27 | 深圳市茁壮网络股份有限公司 | 一种语音识别方法及装置 |
US10789943B1 (en) | 2018-08-31 | 2020-09-29 | Interactions Llc | Proxy for selective use of human and artificial intelligence in a natural language understanding system |
US11481558B2 (en) | 2018-09-12 | 2022-10-25 | Samsung Electroncis Co., Ltd. | System and method for a scene builder |
DE102018222156A1 (de) * | 2018-12-18 | 2020-06-18 | Volkswagen Aktiengesellschaft | Verfahren, Anordnung und Verwendung zum Erzeugen einer Antwortausgabe in Reaktion auf eine Spracheingabeinformation |
US11151981B2 (en) | 2019-10-10 | 2021-10-19 | International Business Machines Corporation | Audio quality of speech in sound systems |
CN112562679B (zh) * | 2020-11-26 | 2024-06-14 | 浪潮金融信息技术有限公司 | 一种离线语音交互方法、装置及介质 |
JP2023535102A (ja) * | 2021-07-19 | 2023-08-16 | グーグル エルエルシー | サードパーティデジタルアシスタントのアクションのためのビットベクトルに基づくコンテンツマッチング |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4783803A (en) | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
US4887212A (en) | 1986-10-29 | 1989-12-12 | International Business Machines Corporation | Parser for natural language text |
US5127055A (en) * | 1988-12-30 | 1992-06-30 | Kurzweil Applied Intelligence, Inc. | Speech recognition apparatus & method having dynamic reference pattern adaptation |
JPH02301869A (ja) | 1989-05-17 | 1990-12-13 | Hitachi Ltd | 自然言語処理システム保守支援方式 |
US5222187A (en) * | 1989-12-29 | 1993-06-22 | Texas Instruments Incorporated | Grammar-based checksum constraints for high performance speech recognition circuit |
JP3266246B2 (ja) * | 1990-06-15 | 2002-03-18 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法 |
EP0543329B1 (en) * | 1991-11-18 | 2002-02-06 | Kabushiki Kaisha Toshiba | Speech dialogue system for facilitating human-computer interaction |
US5511213A (en) * | 1992-05-08 | 1996-04-23 | Correa; Nelson | Associative memory processor architecture for the efficient execution of parsing algorithms for natural language processing and pattern recognition |
US5293584A (en) * | 1992-05-21 | 1994-03-08 | International Business Machines Corporation | Speech recognition system for natural language translation |
US5699456A (en) * | 1994-01-21 | 1997-12-16 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars |
JP2967688B2 (ja) * | 1994-07-26 | 1999-10-25 | 日本電気株式会社 | 連続単語音声認識装置 |
US5799268A (en) * | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
US5715468A (en) * | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
DE4440598C1 (de) * | 1994-11-14 | 1996-05-23 | Siemens Ag | Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments |
JP2855409B2 (ja) | 1994-11-17 | 1999-02-10 | 日本アイ・ビー・エム株式会社 | 自然言語処理方法及びシステム |
US5758322A (en) * | 1994-12-09 | 1998-05-26 | International Voice Register, Inc. | Method and apparatus for conducting point-of-sale transactions using voice recognition |
US5748974A (en) * | 1994-12-13 | 1998-05-05 | International Business Machines Corporation | Multimodal natural language interface for cross-application tasks |
US5774859A (en) * | 1995-01-03 | 1998-06-30 | Scientific-Atlanta, Inc. | Information system having a speech interface |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
US6456974B1 (en) * | 1997-01-06 | 2002-09-24 | Texas Instruments Incorporated | System and method for adding speech recognition capabilities to java |
US6188985B1 (en) * | 1997-01-06 | 2001-02-13 | Texas Instruments Incorporated | Wireless voice-activated device for control of a processor-based host system |
WO1998035491A1 (en) * | 1997-02-05 | 1998-08-13 | British Telecommunications Public Limited Company | Voice-data interface |
US6138098A (en) * | 1997-06-30 | 2000-10-24 | Lernout & Hauspie Speech Products N.V. | Command parsing and rewrite system |
US5960384A (en) * | 1997-09-03 | 1999-09-28 | Brash; Douglas E. | Method and device for parsing natural language sentences and other sequential symbolic expressions |
US5995918A (en) * | 1997-09-17 | 1999-11-30 | Unisys Corporation | System and method for creating a language grammar using a spreadsheet or table interface |
US6094635A (en) * | 1997-09-17 | 2000-07-25 | Unisys Corporation | System and method for speech enabled application |
US6058166A (en) * | 1997-10-06 | 2000-05-02 | Unisys Corporation | Enhanced multi-lingual prompt management in a voice messaging system with support for speech recognition |
US6157705A (en) * | 1997-12-05 | 2000-12-05 | E*Trade Group, Inc. | Voice control of a server |
US6154722A (en) * | 1997-12-18 | 2000-11-28 | Apple Computer, Inc. | Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability |
US6138100A (en) * | 1998-04-14 | 2000-10-24 | At&T Corp. | Interface for a voice-activated connection system |
US6499013B1 (en) | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
US6178404B1 (en) * | 1999-07-23 | 2001-01-23 | Intervoice Limited Partnership | System and method to facilitate speech enabled user interfaces by prompting with possible transaction phrases |
-
1998
- 1998-09-09 US US09/150,459 patent/US6499013B1/en not_active Expired - Lifetime
- 1998-10-05 US US09/166,198 patent/US6532444B1/en not_active Expired - Lifetime
-
1999
- 1999-09-08 CN CNB998130931A patent/CN1153190C/zh not_active Expired - Lifetime
- 1999-09-08 CA CA002343229A patent/CA2343229A1/en not_active Abandoned
- 1999-09-08 AU AU58130/99A patent/AU762282B2/en not_active Ceased
- 1999-09-08 DE DE69922971T patent/DE69922971T2/de not_active Expired - Lifetime
- 1999-09-08 ES ES99945549T patent/ES2235508T3/es not_active Expired - Lifetime
- 1999-09-08 JP JP2000569390A patent/JP2002524776A/ja active Pending
- 1999-09-08 EP EP99949601A patent/EP1110205B1/en not_active Expired - Lifetime
- 1999-09-08 DE DE69923191T patent/DE69923191T2/de not_active Expired - Lifetime
- 1999-09-08 EP EP99945549A patent/EP1110206B1/en not_active Expired - Lifetime
- 1999-09-08 WO PCT/US1999/020445 patent/WO2000014727A1/en active IP Right Grant
- 1999-09-08 WO PCT/US1999/020447 patent/WO2000014728A1/en active IP Right Grant
- 1999-09-08 JP JP2000569391A patent/JP2002524806A/ja active Pending
- 1999-09-08 AT AT99949601T patent/ATE287117T1/de not_active IP Right Cessation
- 1999-09-08 CA CA002343150A patent/CA2343150A1/en not_active Abandoned
- 1999-09-08 AU AU62439/99A patent/AU763059B2/en not_active Ceased
- 1999-09-08 AT AT99945549T patent/ATE286296T1/de not_active IP Right Cessation
- 1999-09-08 ES ES99949601T patent/ES2235520T3/es not_active Expired - Lifetime
- 1999-09-08 CN CNB998130982A patent/CN1161747C/zh not_active Expired - Lifetime
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100517300C (zh) * | 2002-11-28 | 2009-07-22 | 皇家飞利浦电子股份有限公司 | 分配词类信息的设备和方法 |
CN1892819B (zh) * | 2005-06-30 | 2010-04-21 | 佳能株式会社 | 语音识别方法和语音识别设备 |
US9208787B2 (en) | 2006-06-27 | 2015-12-08 | Deutsche Telekom Ag | Method and device for the natural-language recognition of a vocal expression |
CN109598112A (zh) * | 2014-07-18 | 2019-04-09 | 谷歌有限责任公司 | 利用协同定位信息的发言人验证 |
US11942095B2 (en) | 2014-07-18 | 2024-03-26 | Google Llc | Speaker verification using co-location information |
CN107667399A (zh) * | 2015-06-25 | 2018-02-06 | 英特尔公司 | 语音识别服务 |
CN110033774A (zh) * | 2017-12-07 | 2019-07-19 | 交互数字Ce专利控股公司 | 用于隐私保护型语音交互的设备和方法 |
CN111801733A (zh) * | 2018-01-18 | 2020-10-20 | 克里斯托弗·安东尼·席尔瓦 | 对网络路径进行区域化解析的系统和方法 |
CN110223679A (zh) * | 2019-06-14 | 2019-09-10 | 南京机电职业技术学院 | 一种语音识别输入装置 |
CN110265013A (zh) * | 2019-06-20 | 2019-09-20 | 平安科技(深圳)有限公司 | 语音的识别方法及装置、计算机设备、存储介质 |
US11676608B2 (en) | 2021-04-02 | 2023-06-13 | Google Llc | Speaker verification using co-location information |
Also Published As
Publication number | Publication date |
---|---|
ES2235508T3 (es) | 2005-07-01 |
WO2000014727A1 (en) | 2000-03-16 |
ATE287117T1 (de) | 2005-01-15 |
ES2235520T3 (es) | 2005-07-01 |
CN1161747C (zh) | 2004-08-11 |
CN1153190C (zh) | 2004-06-09 |
CA2343229A1 (en) | 2000-03-16 |
EP1110205A1 (en) | 2001-06-27 |
CA2343150A1 (en) | 2000-03-16 |
AU5813099A (en) | 2000-03-27 |
JP2002524806A (ja) | 2002-08-06 |
EP1110205B1 (en) | 2005-01-12 |
AU762282B2 (en) | 2003-06-19 |
DE69923191T2 (de) | 2006-01-05 |
DE69922971D1 (de) | 2005-02-03 |
DE69922971T2 (de) | 2005-12-29 |
DE69923191D1 (de) | 2005-02-17 |
CN1325527A (zh) | 2001-12-05 |
US6532444B1 (en) | 2003-03-11 |
EP1110206A1 (en) | 2001-06-27 |
EP1110206B1 (en) | 2004-12-29 |
JP2002524776A (ja) | 2002-08-06 |
WO2000014728A1 (en) | 2000-03-16 |
AU6243999A (en) | 2000-03-27 |
AU763059B2 (en) | 2003-07-10 |
ATE286296T1 (de) | 2005-01-15 |
US6499013B1 (en) | 2002-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1161747C (zh) | 采用语音识别和自然语言处理的网络交互式用户界面 | |
US6434524B1 (en) | Object interactive user interface using speech recognition and natural language processing | |
US7729913B1 (en) | Generation and selection of voice recognition grammars for conducting database searches | |
US9330661B2 (en) | Accuracy improvement of spoken queries transcription using co-occurrence information | |
KR101359715B1 (ko) | 모바일 음성 웹 제공 방법 및 장치 | |
RU2360281C2 (ru) | Представление данных на основе введенных пользователем данных | |
CA2280331C (en) | Web-based platform for interactive voice response (ivr) | |
US7742922B2 (en) | Speech interface for search engines | |
US20020173955A1 (en) | Method of speech recognition by presenting N-best word candidates | |
US20040167875A1 (en) | Information processing method and system | |
WO2001078065A1 (en) | Natural language and dialogue generation processing | |
CN1279804A (zh) | 通过听觉表示sgml数据页的系统和方法 | |
CN1879149A (zh) | 音频对话系统和语音浏览方法 | |
US8200485B1 (en) | Voice interface and methods for improving recognition accuracy of voice search queries | |
House | Spoken-language access to multimedia(SLAM): a multimodal interface to the World-Wide Web | |
Morde et al. | A multimodal system for accessing driving directions | |
Yu | Efficient error correction for speech systems using constrained re-recognition | |
Gregory | Efficient Error Correction for Speech Recognition Systems using Constrained Re-recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
C10 | Entry into substantive examination | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20040811 |