CN1325528A - 采用语音识别和自然语言处理的网络交互式用户界面 - Google Patents

采用语音识别和自然语言处理的网络交互式用户界面 Download PDF

Info

Publication number
CN1325528A
CN1325528A CN99813098A CN99813098A CN1325528A CN 1325528 A CN1325528 A CN 1325528A CN 99813098 A CN99813098 A CN 99813098A CN 99813098 A CN99813098 A CN 99813098A CN 1325528 A CN1325528 A CN 1325528A
Authority
CN
China
Prior art keywords
subclauses
network object
clauses
file
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99813098A
Other languages
English (en)
Other versions
CN1161747C (zh
Inventor
D·C·韦博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ONE VOICE TECHNOLOGIES Inc
Original Assignee
ONE VOICE TECHNOLOGIES Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=22534628&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN1325528(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by ONE VOICE TECHNOLOGIES Inc filed Critical ONE VOICE TECHNOLOGIES Inc
Publication of CN1325528A publication Critical patent/CN1325528A/zh
Application granted granted Critical
Publication of CN1161747C publication Critical patent/CN1161747C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

一种用于通过计算机用话语、语音处理和自然语言处理与网络对象交互的系统和方法。一个数据定义文件联系网络对象和一个语音处理器。数据定义文件包含一个与网络对象(包括语法文件和自然语言处理器)有关的存储器结构。语音处理器在第一语法文件检索话语的匹配短语,如果在第一语法文件找不到匹配短语时,就在第二语法文件检索匹配短语。系统也包含一个自然语言处理器,用于在一个数据库检索匹配短语的匹配条目;一个应用界面,用于如果在数据库找到匹配条目时,就执行一个与匹配条目相关的行动。系统采用特定语境语法,由此增强语音识别和自然语言处理的效率。系统另外还能自适应地以交互方式“学习”单词和短语以及它们的相关意思。

Description

采用语音识别和自然语言处理的网络交互式用户界面
本发明涉及用于网络计算机用户界面的语音识别。更具体来说,本发明涉及一种用语音识别和自然语言处理与计算机进行用户交互的新颖方法和系统。本申请是美国专利申请“Interactive User InterfaceUsing Speech Recognition and Natural Language Processing”(采用语音识别和自然语言处理的交互式用户界面)(申请号:09/150,459,申请日1998年9月10日)的部分继续申请。
随着计算机变得更加盛行,明显有许多人在掌握计算机知识和与计算机交流等方面困难很大。用户要操作计算机,就必须经常学习各种已不通用的命令和非直观的过程。例如,大多数计算机都使用基本上是菜单驱动的基于视窗的操作系统。这要求用户学习什么菜单命令或命令序列会产生预定结果。
此外,传统的与计算机的交互的速度经常因诸如键盘或鼠标的手工输入设备而减慢。许多计算机用户都不是打字快手。结果,许多时间都花费在通过这些手工输入设备向计算机发送命令和单词上。已经明显需要有一种更容易、更快速和更直观的与计算机和网络对象(如网站)通信的方法。
有人提出的计算机交互的方法是语音识别。语音识别涉及用软件和硬件协作监测听得见的人类语音并把所监测的语音转换成单词串。如现有技术中已知的那样,语音识别的工作方式是把硬件监测到的语音分解成不可分的更小单位的声音-称作音素(phonemes)。音素是不同的声音单元。例如,单词“those”由三个音素组成;第一个音素是“th”音,第二个是“o”音,第三个是“s”音。语音识别软件试图将所监测的音素与一个存储的字典中的已知单词比较。美国专利4,783,803号中给出了一个语音识别系统的例子,该专利名称为“SpeechRecognition Apparatus and Method”(语音识别装置和方法)(1998年11月8日授权,受让给Dragon Systems公司),这里引用作为参考。目前,市场上有许多语音识别软件包,出自Dragon Systems公司和IBM公司这样的公司。
这些语音识别软件包的一个缺陷是,它们通常只执行命令和控制功能或者口授指令功能。所以,用户仍然需要学习命令语汇才能操作计算机。
有人提出的这些语音识别系统的增强系统,是用自然语言处理系统处理所监测的单词。自然语言处理一般涉及通过分析所监测的单词的语法关系和相对语境,确定它们的概念上的“意思”(例如说话人想要传达什么意思)。例如美国4,887,212号专利叙述了一种用单词隔离、语形学分析、字典查找和语法分析来分析一个输入单词流的方法。该专利名称为“Parser for Natural Language Text”(自然语言文本分析器)(1989年12月12日授权,受让给IBM公司),这里引用作为参考。
与语音识别一起采用的自然语言处理提供一种用口语而不是诸如键盘或鼠标的手工输入操作计算机的强大工具。然而,常规的自然语言处理系统的一个缺点是,它可能无法确定由语音识别系统所监测的单词的准确“意思”。在这样的情况下,用户通常需要重新组合或重新陈述短语(phrase),希望自然语言处理系统将能在后面的尝试中确定准确“意思”。显然,这会导致严重的延迟,因为用户需要重新陈述整个句子或命令。常规系统的另一个缺点是,语音识别所需的时间可能会过分长。这主要由于与大量要处理的信息相比,处理资源的速度有限。例如,在许多常规语音识别程序中,识别话语(utterance)所需的时间很长,因为所搜索的字典文件很大。
常规语音识别和自然语言处理系统的再一个缺点是,它们不是交互式的,因此不能应付新情况。当计算机系统遇到未知的或新的网络对象,计算机与对象之间形成新的关系。常规的语音识别和自然语言处理系统不能应付由以前未知的网络对象形成的新关系所导致的情况。结果,就不可能与计算机进行对话方式的交互。用户需要向计算机传达完整的概念。用户不能说句子片断,因为这些(与前面的话语有关的)句子片断的意思将丢失。
采用语音识别和自然语言处理的计算机所需要的是一种避免上述缺点的交互式用户界面。
本发明是一种用于与采用话语、语音处理和自然语言处理的计算机进行交互的新颖和改进的系统和方法。一般来说,该系统包含一个语音处理器(speech processor),用于在一个第一语法文件中搜索话语的一个匹配短语,并用于在如果在第一语法文件中找不到匹配短语时,在一个第二语法文件中搜索匹配短语。该系统也包括一个用于在一个数据库中搜索匹配短语的对应匹配条目(matching entry)的自然语言处理器,以及一个如果在数据库中找到匹配条目就执行一个与匹配条目相关联的行动(action)的应用界面(applicationinterface)。
在最佳实施例中,如果在数据库中找不到匹配条目,自然语言处理器就用匹配短语更新数据库、第一语法文件和第二语法文件的至少其中之一。
第一语法文件是一个特定语境语法文件。特定语境语法文件是一种含有与特定主题高度相关的单词和短语的语法文件。第二语法文件是一个一般性语法文件。一般性语法文件是一种含有不必按语境解释的单词和短语的语法文件。就是说,一般性语法文件中的单词和短语不属于任何母体语境(parent context)。本发明在搜索一般性语法文件之前搜索特定语境语法文件,从而允许用户用更口语化的方式与计算机交流,其中,所说出的单词如果在特定语境语法文件中被找到,就被参照最近讨论过的主题进行解释。
在本发明的另外一个方面中,如果在一般性语法文件中找不到匹配短语,语音识别处理器就在一个口授语法(dictation grammar)中搜索匹配短语。口授语法是个一般性单词和短语的大单词表。通过首先搜索特定语境语法和一般性语法,预计将大大缩短语音识别时间-因为特定语境语法和一般性语法是物理上比口授语法更小的文件。
在本发明的另外一个方面中,自然语言处理器在搜索数据库之前替换匹配短语中的至少一个单词。这可由自然语言处理器中的用于以通配符替换匹配短语中的至少一个单词的变量置换器(variablereplacer)完成。通过以通配符替换短语中的某些单词(称作“单词变量”),可以大大地减少数据库中条目的数量。此外,自然语言处理器中的代词替换器(pronoun substituter)可以以适当名称替换匹配短语中的代词,便于特定于用户的事实在数据库中的存储。
在本发明的另外一个方面中,一个串格式化器(string formatter)在搜索数据库之前对匹配短语进行文本格式化。一个单词加权器(wordweighter)也在搜索数据库之前按各个单词的相对重要性加权匹配短语中的各个单词。这些步骤便于更快、更准确地搜索数据库。
自然语言处理器中的一个搜索引擎为匹配条目生成一个可信度值(confidence value)。自然语言处理器将该可信度值与一个阀值比较。一个布尔检测器(boolean tester)确定匹配条目中是否存在所需数量的匹配短语中的单词。该布尔检测的作用是验证由搜索引擎返回的结果。
为了消除歧义,自然语言处理器在匹配条目中不存在所需数量的匹配短语中的单词时,提示用户匹配条目是否是话语的正确解释。如果匹配条目不是话语的正确解释,自然语言处理器也提示用户提供另外的信息。用该另外的信息更新数据库、第一语法文件和第二语法文件的至少其中之一。这样,本发明适应性地“学习”更多的话语的意思,由此增强用户界面的效率。
语音处理器将启用并检索一个与匹配条目相关联的特定语境语法,用于其后一个话语的其后一个匹配短语。这保证首先将检索到最相关的单词和短语,由此减少语音识别的次数。
一般来说,本发明包括一种用于为与网络对象(如网页)进行语音交互而更新计算机的方法。一开始,通过网络向计算机传输一个随语音交互系统与网络对象相关联的网络对象表。网络对象表的位置可以嵌置在网络对象内、位于某特定因特网网站或位于存储多个网络对象的网络对象表的统一位置。在网络对象表中检索匹配网络对象的条目。与网络对象匹配的条目可能导致执行一个行动,诸如通过扬声器播出正文言语、采用一个特定语境语法文件或采用一个自然语言处理数据库。网络对象表可以是一个对话定义文件的一部分。对话定义文件也可以包含一个特定语境语法、一个自然语言处理数据库条目,或者包含这二者。
在本发明的另一个方面中,一个网络接口通过网络传输一个对话定义文件。对话定义文件含有一个网络对象表。一个数据处理器在网络对象表中检索与网络对象匹配的表条目。找到匹配表条目后,一个应用界面执行该匹配条目规定的一个行动。
在本发明的另一个方面中,定位并读取一个与网络对象相关的对话定义文件。对话定义文件可以从各种位置读取,例如从网站、从存储介质或者从一个存储多个网络对象的对话定义文件的位置读取。搜索对话定义文件中包含的一个网络对象表,以查找与网络对象匹配的表条目。匹配条目定义一个与网络对象相关的行动,然后由系统执行该行动。除了网络对象表外,对话定义文件也可以包含一个特定语境语法、一个自然语言处理数据库的条目,或者包含这二者。
根据以下结合附图所作的详细说明,本发明的特点、目的和优点将变得更加明显。附图中相同的标注符自始至终标识相对应的对象,其中:
图1是一个用于本发明的典型计算机系统的功能框图;
图2是本发明的图1的计算机系统的CPU102和存储介质108的扩展的功能框图;
图3A-3D是向计算机提供交互式语音识别和自然语言处理的方法的流程图;
图4是本发明的典型的自然语言处理(NLP)数据库的选择列的示意图。
图5是按照本发明的典型的对话定义文件(DDF)的示意图。
图6本发明的典型的网络对象表的选择列的示意图。
图7A-7C是本发明的方法的流程图,解释的是交互式语音识别和自然语言处理与网络对象(如网页)的链接。
图8是通过因特网连接到其它计算机、存贮介质和网站的计算机系统的示意图。
现在将参照图1的典型计算机系统100的功能框图叙述本发明。图1中,计算机系统100包含一个中央处理单元(CPU)102。CPU 102可以是本领域中已知的、经过适当编程而能执行本文结合图3A-3D所述方法的任何通用微处理器或微控制器。用于编程CPU的软件可以在存储介质108上找到,或者经过计算机网络从另一个位置得到。例如,CPU 102可以是一个诸如由因特尔公司制造的奔腾Ⅱ处理器之类的普通微处理器。
CPU 102与包括显示器104、手工输入装置106、存储介质108、麦克风110、扬声器112、数据输入端口114和网络接口116在内的多个外围设备通信。显示器104可以是个直观显示设备-如CRT、LCD屏幕、触感屏幕,或者是本领域中已知的用于直观地向用户显示图象和文字的其它监视器。手工输入装置106可以是一个普通键盘、按键盘、鼠标、跟踪球或者本领域中已知的用于手工输入数据的其它输入设备。存储介质108可以是个普通的读/写存储器-如磁盘驱动器、软盘驱动器、CDROM驱动器、硅存储器或本领域中已知的用于存储和检索数据的其它存储设备。重要的是,存储介质108可以远离CPU 102,通过诸如局域网(LAN)或宽域网(WAN)的网络或者因特网与CPU 102相连。麦克风110可以是本领域中已知的任何适合用于向CPU 102提供音频信号的麦克风。扬声器112可以是本领域中已知的任何适合用于重现来自CPU 102的音频信号的扬声器。不言自明,麦克风110和扬声器112可以包含相应的数-模和模-数转换电路。数据输入端口114可以是本领域中已知的任何用于用诸如RS-232、通用串行总线之类的数据协议与外部附件连接的数据端口。网络接口116可以是本领域中已知的用于经过计算机网络传送文件的任何接口-这种网络的例子包括TCP/IP网络、以太网或令牌环网络。此外,在有些系统上,网络接口116可以包括一个与数据输入端口114相连的调制解调器。
所以,图1展示了计算机系统100的各功能单元。计算机系统100的每个单元可以是如上所述的合适的成品部件。本发明提供一种用于用语音与计算机系统100接合的方法和系统。
如图8中所示,计算机系统100可以与因特网700相连(因特网是计算机网络的一个集合)。要连接到因特网700,计算机系统100可以采用网络接口116、与数据输入端口114相连的调制解调器或者本领域中已知的任何其它方法。网站710、其它计算机720和存储介质108也可以通过这类本领域中的已知方法连接到因特网。
现在转至图2,图2表示CPU 102和存储介质108的一个扩展的功能框图。应当明白,图2的功能单元可以整个地以软件或硬件或者软硬件的结合实现。就软件实现而言,软件可以位于存储介质108中或位于计算机网络上的另一个位置。CPU 102中包括语音识别处理器200、数据处理器201、自然语言处理器202和应用界面220。数据处理器201与显示器104、存储介质108、麦克风110、扬声器112、数据输入端口114和网络接口116连接。数据处理器201允许CPU定位这些资源和以这些资源读取数据。自然语言处理器202进一步包含变量置换器204、串格式化器206、单词加权器208、布尔检测器210、代词置换器211和搜索引擎213。存储介质108中含有多个特定语境语法文件212、一般性语法文件214、口授语法216和自然语言处理器(NLP)数据库218。在最佳实施例中,语法文件212、214和216是巴科斯-诺尔(Bakus-Naur)形式(BNF)的文件,描述由用户说出的语言的结构。BNF文件是本领域中众所周知的用于描述语言结构的文件,因此这里将不讨论BNF文件的详细内容。BNF文件的一个优点是,可以用分层的树型结构来描述短语或单词序列,而无需显式地列举这些单词序列的全部组合。所以,BNF文件在最佳实施例中的使用,使存储介质108中的语法文件212、214和216的物理大小最小化,提高了以下文所述方式启用和搜索这些文件的速度。不过,在另外的实施例中可以使用其它文件结构。
现在将结合图3A-3D的流程图,说明图2的这些功能单元的操作和互动。在图3A中,流程始于功能框300,向语音处理器200提供一个话语。话语是有开头和结尾的一系列的声音,可包含一个或多个口语单词。捕获口语单词的麦克风100可以执行功能框300的步骤。或者,可以经过输入端口144或者从存储介质108向语音处理器200提供话语。话语的格式最好是数字格式,如有名的“.wav”音频文件格式。
流程前进到判断框302,语音处理器200在此判断是否特定语境语法212的其中之一已经被启用。如果特定语境语法212被启用,就在功能框304搜索特定语境语法212。在最佳实施例中,特定语境语法212是BNF文件,含有与某个母体语境有关的单词和短语。一般来说,语境就是一个主题领域。例如,在本发明的一个可应用于个人电脑的实施例中,语境的例子可以是“新闻”、“天气”或“股票”。在这种情况下,特定语境语法212就各自含有对应于这些语境中的不同语境的命令、控制单词、描述符(descriptor)、限定符(qualifier)或参数。语境的使用提供一种表示各种信息类型的分层结构。下文将结合NLP数据库218进一步对各语境及其应用作出说明。
如果已经有特定语境语法212被启用,就搜索该特定语境语法212,查找在功能框300所提供话语的匹配项(match)。然而,如果没有特定语境语法212被启用,流程就前进到功能框308,在此启用一般性语法214。
在最佳实施例中,一般性语法214是一个BNF文件,文件中含有的单词和短语本身并不属于某个母体语境,但是可能有某特定语境语法文件212为此存在的一个相关语境。换言之,一般性语法214中的单词和短语可能位于分层语境结构的根部。例如,在一个可应用于个人电脑的实施例中,一般性语法214就含有命令和控制短语。
在功能框310中,搜索一般性语法214,查找在功能框300所提供话语的匹配单词或短语。在功能框312,对是否找到该匹配进行判别。如果找不到匹配项,就在功能框314启用口授语法216。在最佳实施例中,口授语法216是一个BFN文件,文件中含有的单词列表本身既无某个母体语境也无相关语境。例如,在一个可应用于个人电脑的实施例中,口授语法216就含有一个类似于通用词典的较大的通用单词列表。
在功能框316中,搜索口授语法,查找在功能框300所提供话语的每个单词的匹配单词。在判别框318如果找不到匹配单词,则在功能框320可以选择在显示器104显示一个可视的出错讯息或者选择通过扬声器112重播一个有声的出错讯息。过程结束,直到在功能框300有另一个话语被提供给语音处理器200。
所以,如上述说明可见,当某个话语被提供给语音处理器200时,首先搜索启用的特定语境语法212(如果有的话)。如果所启用的特定语境语法212中没有匹配项,则启用并搜索一般性语法214。如果一般性语法214中没有匹配项,则启用并搜索口授语法216。
在最佳实施例中,当语音识别处理器200在搜索特定语境语法212或一般性语法214时,称其处于“命令和控制”方式。在该方式中,语音识别处理器200把整个话语作为整体与语法中的条目作比较。相比之下,当语音识别处理器200在搜索口授语法时,称其处于“口授”方式。在该方式中,语音识别处理器200每次一个单词地把话语与口授语法216中的条目作比较。可以预计,在命令和控制方式中检索整个一个话语的匹配项的速度,一般会比在口授方式中每次搜索一个单词的速度快。
进一步可以预计,任何单个的特定语境语法212在规模上都小于一般性语法214(即总的单词和短语更少),后者在规模上又小于口授语法216。所以,通过首先搜索任何启用的特定语境语法212的方法,有可能更快地找到匹配项(如果有的话),这至少是部分地因为文件更小。同样,通过在搜索口授语法216之前搜索一般性语法214的方法,有可能更快地找到匹配项。
此外,正如下文对本发明能自适应地对特定语境语法212和一般性语法214添加的能力进一步解释的那样,它们将含有最常用的话语。因此可以预计,在特定语境语法212或一般性语法214中找到匹配项的速度更有可能比在口授语法216中的快。
最后,正如下文将进一步解释的那样,在启用的特定语境语法212中的单词和短语,是用户更有可能说出的,因为它们是与用户最近说到的主题高度相关的单词。这也使用户能用语句片断以更口语话的风格说话,其单词的意思被按照所启用的特定语境语法212解释。
通过按上述顺序进行搜索,本发明的搜索的效率,高于在含有所有预期单词和短语的一个大型列表中每次一个条目地进行搜索的效率。
返回到判断框306,如果在特定语境语法212中找到匹配项,则有图3A中所显示的三种可能的下一步步骤。对于所启用的特定语境语法212中的每个匹配条目,可能都有一个相关的要由语音识别处理器200采取的行动。功能框322表示,一个行动可能是指示应用界面220对某个独立软件应用或实体采取某种行动。例如,应用界面220可以用微软公司的语音应用编程接口(SAPI)标准与某外部应用通信。可以指示该外部应用例如访问特定的因特网网站URL或者通过正文向语音转换的方式说出特定的短语。可以采取如下文将结合图4的NLP数据库218所进一步讨论的那样的其它行动。
功能框324表示,另一个行动可以是直接访问自然语言处理(NLP)数据库218中的某一行,由此绕过下文进一步作说明的自然语言处理步骤。功能框326表示,另一个行动可以是把用于所启用语境的单词或短语前置(prepend)到在功能框306在特定语境语法中找到的匹配单词或短语。例如,如果所启用的语境是“movies”(电影),匹配的话语是“8o’clock”(8点钟),则把单词“movies”前置到短语“8o’clock”,组成短语“movies at 8o’clock”(8点钟的电影)。
同样,如果在一般性语法214中找到匹配项,流程就前进到功能框322-在此指示应用界面220采取一个如上所述的行动,或者前进到功能框324,直接访问NLP数据库中的某一行。然而,如果在一般性语法214中找到匹配项,则不进行对语境的前置,因为如上所述,一般性语法214中的条目本身并没有母体语境。
或者,可以在功能框301捕获手工输入的单词,输入到自然语言处理器中。
最后参看图3A,可以通过手工输入装置106输入单词。在这种情况下,不需要进行语音识别,不过仍然需要对所输入单词进行自然语言处理。然后,流程前进到图3B。
图3B中,在功能框328,自然语言处理器202为进行自然语言处理分析而对短语进行格式化。这种格式化是用串格式化器206完成的,可包括去除单词之间的多余空格、把所有字母变成小写(或大写)、把缩略部分完全写出(例如把“it’s”变成“it is”)之类的文字处理。这个格式化步骤的目的是对短语作分析的准备。
流程继续到功能框330,在此由变量置换器204用相关的通配符函数(wildcard function)置换某些“单词变量”,为访问NLP数据库218作准备。这里所用的术语“单词变量”指的是表示数量、日期、时间、货币之类的单词或短语。例如,在一个实施例中,短语“what moviesare playing at 8o’clock”(8点钟在放什么电影)要在功能框330被转换成“what movies are playing at$time”(在$time时在放什么电影),其中“$time”是一个用来代表任一时间值的通配符函数。作为另一个例子,在一个实施例中,短语“sell IBM stock at 100dollars”(按100美元的价格卖出IBM股票)要在功能框330被转换成“sell IBM stock at $dollars”(按$dollar的价格卖出IBM股票),其中“$dollars”是一个用来代表任一美元值的通配符函数。这个步骤可以由一个简单循环来完成,该循环搜索短语中诸如单词“dollar”或“o’clock”的关键记号并用规定的通配符函数置换这些单词变量。为了跟踪在短语中作过替换的位置,可以使用一个数组。这样能在搜索过NLP数据库218后将原始的单词变量重新替换回该短语中的某个位置。
在功能框330用相关通配符函数置换单词变量的目的是减少必须在NLP数据库218中出现的条目的数量。例如,NLP数据库218会只含有“what movies are playing at$time”(在$time时在放什么电影),而不是有一个个单独的对应于8点钟、9点钟、10点钟等等的条目。下文将对NLP数据库218作进一步说明。
在功能框332,由代词置换器211用专有名称置换短语中的代词。例如,在一个实施例中,要把代词“I”(我)、“my”或“mine”(我的)替换成说话人的姓名。这个步骤的目的是能在NLP数据库218中存储和访问特定于用户的事实。例如,要把语句“who aremy children”(谁是我的孩子)转换成“who are Dean’s children”(谁是Dean的孩子),其中Dean是说话人的姓名。这个步骤还是可以用一个简单循环来完成-该循环搜索短语中的代词并把找到的代词替换成专有名称。为了跟踪在短语中作过替换的位置,可以使用一个数组。
在功能框334中,由单词加权器208对短语中的各个单词按它们对于短语的总体意思的相对“重要性”进行加权。例如,在一个实施例中,分配三个加权因数。将最低的加权因数分配给诸如“a”、“an”、“the”和其它冠词的单词。将最高的加权因数赋予可能与短语的意思有重要关系的单词。例如,这些单词可包括NLP数据库218中的所有动词、名词、形容词、和专有名称(proper name)。将中间的加权因数赋予短语中的所有其它单词。这种加权的目的是便于增强NLP数据库218的搜索功能。
图4中表示一个实施例的NLP数据库218的几个选定列的例子。NLP数据库218包含多个列400-410和多个行412A-412N。列400中的各条目代表对NLP数据库来说是“已知的”短语。列402中显示的是列400中每个条目的必需单词的数目。列404中显示的是列400中每个条目的相关语境或子语境(sub context)。列408和410中显示的是列400中每个条目的一个或多个相关行动。应当注意,图4中所示的NLP数据库218只是一个用于叙述本发明的简化的例子。其它实施例可以有更多或更少的具有不同条目的列。
返回到图3B,在功能框336,搜索NLP数据库218,根据NLP数据库218的列400中的条目是否含有短语中的任何单词(或单词的同义词)和这些单词的相对权重,查找短语的可能匹配项。在功能框338,根据短语中每一个单词的出现次数和它们的相对权重,为每一个可能的匹配条目生成一个可信度值。数据库的加权单词检索在本领域中是众所周知的,可以用市场销售的搜索引擎(如位于美国弗吉尼亚州阿灵顿的DT软件公司生产的“dtsearch”)执行。同样,同义词检索在本领域中是众所周知的,可以用诸如由位于美国新泽西普林斯顿的普林斯顿大学认识科学实验室开发的“WordNet”这样的可公开获得的工具执行。搜索引擎可以是自然语言处理器202的一个组成部分。
在判断框340,自然语言处理器202判断是否可能匹配条目中的任一条目有大于或等于某个预定最小阀值T的可信度值。阀值T代表据其可判定短语是否与NLP数据库中任何条目匹配的可接受的最低可信度值。如果没有可信度值大于或等于T的可能匹配条目,则流程就前进到功能框342,在此将一个可选的出错讯息或者通过显示器104向用户显示,或者通过扬声器112重播。在一个实施例中,向用户显示的任何出错讯息的类型(如果有的话),可以取决于在最高可信度的NLP数据库条目中找到的“命中”有多少(即短语中有多少匹配单词)。有零个或一个命中与有两个或更多的命中相比,会生成不同类型的出错讯息。
然而,如果NLP数据库218中至少有一个条目的可信度值大于或等于T,则流程前进到功能框344,在此从短语中剔除“噪声”单词。“噪声”单词包括相对于短语中的其它单词来说对短语的总体意思没有重要贡献的单词。这些单词可包括冠词、代词、连词和类似性质的单词。“非噪声”单词则包括对短语的总体意思有重要贡献的单词。“非噪声”单词包括动词、名词、形容词、专有名称和类似的单词。
流程前进到图3C,在功能框346从NLP数据库218的列402中提取最高可信度匹配条目的非噪声单词要求。例如,如果最高可信度匹配短语是行412A中的条目(例如,“what movies are playing at$time”(在$time时在放什么电影)),则所要求的非噪声单词的数目是3。
在判断框348,进行一次检测,确定该短语所要求的非噪声单词的数目实际上出现在从NLP数据库218提取的最高可信度匹配条目中。这个检测是对在功能框336中进行的相关风格搜索(relevance-stylesearch)的精确性的验证,不言自明,一个可以生成大于最小阀值T的可信度值的条目,未必是短语的一个可接受的匹配项。
在判断框348进行的检测的性质是一个由布尔检测器210进行的布尔“AND”检测。该检测确定短语中每一个非噪声单词(或其同义词)是否实际上出现在最高可信度条目中。如果有足够数量的实际上出现在最高可信度条目中的必要单词,流程就前进到功能框350,自然语言处理器202在此指示应用界面220采取列408或410中的一个相关行动。不言自明,也可以有另外的行动列。
例如,如果最高可信度条目是行412A中的条目,并且判断框348的布尔检测确定列400中的条目中的短语中实际上有3个非噪声单词,则要采取列408中的相关行动(例如访问电影网站)。NLP数据库中的其它条目有其它的相关行动。例如,如果最高可信度条目是行412E中的条目(例如,“what time is it”(现在几点钟)),则相关行动可能是,自然语言处理器202指示一个文字转换至语音应用程序(未予示出)通过扬声器112向用户报出当前时间。另一个例子是,如果最高可信度条目是行412N中的条目(例如,“show me the news”(给我显示新闻)),则第一个相关行动可能是访问因特网上预定的新闻网站,第二个相关行动可能是指示一个图象显示应用程序(未予示出)显示新闻的相关图象。也可以采取不同的或另外的行动。
同样,对于短语,如果最高可信度条目含有如在判断框348确定的预定数量的非噪声单词,自然语言处理器202就指示语音识别处理器200启用用于列404的相关语境的特定语境语法212。所以,对于行412A,要启用用于语境“movies”(电影)的特定语境语法212。所以,当在图3A的功能框300向语音识别处理器200提供下一个话语时,语音识别处理器在搜索一般性语法214之前要在所启用的特定语境语法212中检索“movies”(电影)。如上所述,启用恰当的特定语境语法212大大增加快速、成功的语音识别的可能性,并且增强了用户以口语化风格与计算机沟通的能力。
然而-回到判断框348,如果从NLP数据库218提取的最高可信度条目中实际上没有短语中预定数量的非噪声单词,流程就前进到功能框354,通过显示器104或扬声器112提示用户回答是否指的是最高可信度条目。例如,如果用户说“how much is IBM stock selling fortoday”(IBM股票今日卖多少),则NLP数据库218中的最高可信度条目可能是行412B中的条目。在这种情况下,尽管相关因数可能很高,必要单词(或其同义词)的数量却可能不够。所以,要在功能框354提示用户回答他是否指的是“what is the price of IBM stock on August28。1998”(1998年8月28日IBM股票的价格是多少)。
用户可以作肯定回答或否定回答。如果在判断框356确定用户作了肯定回答,则在功能框350采取与该最高可信度条目相关的行动,然后在功能框352启用相关的特定语境语法212。
然而,如果在判断框356确定用户作了否定回答,流程就前进到图3D,从NLP数据库218的列404提取用于该最高可信度条目的相关语境,并在功能框360提示用户用基于语境的交互对话提供信息。例如,如果用户说“what is the price of XICOR stock today”(XICOR股票今日价格是多少),并且NLP数据库218中的最高可信度条目是行412B(例如“what is the price of IBM stock on$date”(日期$的IBM股票的价格是多少)),则在功能框354提示用户回答他是否指的就是这个意思。
如果用户回答是否定的,则在功能框358从列404提取语境“stock”(股票),并通过显示器104或扬声器112把用于该股票语境的基于语境的交互对话向用户表示。这种基于语境的交互对话的作用是提示用户提供XICOR股票的名称和股票报价符。用户可以口头回答所需信息。对于每一个可能的语境,可以采用不同的基于语境的交互对话。例如,基于语境“weather”(天气)的交互对话的作用是提示用户提供姓名和希望了解其天气情况的地点和名称(例如城市)。同样,基于语境“news”(新闻)的交互对话的作用是提示用户提供文章的类型、新闻来源、新闻网站的因特网URL或其它有关信息。
基于语境的交互对话结束后,在功能框362,更新NLP数据库218、一般性语法214和特定语境语法212,以包括新的信息。这样,下一次用户询问该信息时,就会找到合适的匹配项,无需提示用户提供更多信息就能采取适当的行动。所以,本发明自适应地“学习”识别用户说出的短语。
在本发明一个实施例中,NLP数据库218、特定语境语法212、一般性语法214和口授语法216的一个或多个也含有与每个条目相关联的时间戳值(未予示出)。每次使用一个匹配条目时,就更新与该条目相关联的时间戳值。每隔一定时间,或者由用户决定,把时间戳值在一定日期或时间之前的条目从它们各自的数据库/语法中删除。这样,通过“清除”旧的或过时的条目,可以使数据库/语法的大小保持在高效的程度。这也有助于避免错误的匹配。
在本发明一个实施例中,语音识别和自然语言处理可以被用来与网络对象(networked objects)互动,连网对象例如是有语境敏感的基于语音的界面的万维网(“WWW”或“Web”)网页。
图5表示一个典型的对话定义文件(DDF)500,它表示为把语音识别和自然语言处理与某个因特网对象(诸如文本文件或图象文件,或者是最佳实施例中的网页)相联系所必需的信息。尽管在其最简单实施例中,对话定义文件500由一个网络对象表510组成,DDF也可以含有另外的特定语境语法文件214和另外的用于自然语言处理(NLP)数据库218的条目,如图5所示的那样。DDF 500的最佳实施例包括一个网络对象表510,一个特定语境语法文件214和一个含有指向自然语言处理数据库218的条目的文件。可以用本领域的任何已知方法,如Lempel-Ziv压缩法,把这些成分压缩并组合进DDF文件500。特定语境语法文件214和自然语言处理(NLP)数据库218如前面段落中所述的那样。网络对象表510是一个存储器结构(如存储器树)、链或表,它把资源的地址与各种行动、语法或NLP数据库218中的条目相联系。
图6中表示网络对象表510的一个典型实施例。图6表示一个存储器表,表中可含有对应下列内容的各条目列:网络对象520、文本到语音转换(TTS)标志522、文本言语524、使用语法标志526、附接语法标志528、“is yes/no”(是/否)标志、““是(do yes)”的相应操作”(do yes)532和““否”的相应操作”(do no)534行动。表中的每行540A-540E代表与一个网络对象相关的语法和言语。本发明的典型实施例通过统一资源定位器(URL)来引用网络对象520。URL是一种指定作为万维网一部分的因特网上的资源的地址的标准方法。由于这个标准用于说明因特网资源的位置是本领域中众所周知的,所以这里将不讨论URL的详细内容。URL的一个优点是,除了许多网络对象设备和通信协议外,URL能指定各种网络对象格式的信息,包括超文本的、图象的、数据库的或其它的文件。
正文到语音(TTS)标志522与正文言语524组合起来时,指出在对应的网络对象被传输时是否应当通过扬声器播出一个初始语句。例如,当传输行540A的网络对象列520中所列的网页(http://www.conversational sys.com)时,TTS标志522是作过标记的,这表明正文言语524“Hello,welcome to ConversationalSystems”(你好,欢迎来到谈话系统)要通过扬声器112播出。
下面三个标志涉及使用与这个网络对象相关的语法。“使用语法”标志526或“附接语法”标志528的肯定标记指出出现一个与所指示的网络对象相关的特定语境语法文件214。“使用语法”标志526的标记指出该新的特定语境语法文件214代替现有的特定语境语法文件,禁用现有的文件。“附接语法”标志528指出该新的特定语境语法文件214应当与现有的特定语境语法文件同时启用。
最后,其余列的条目涉及一个“是/否”语法结构。如果“为是/否”标志530是作过标记的,则启用一个标准“是/否”语法。当启用了一个标准“是/否”语法时,向计算机说出的肯定性命令导致计算机执行““是”的相应操作”条目532中所指出的命令。类似地,向计算机说出的否定性命令导致计算机执行““否”的相应操作”条目534中所指出的命令。““是”的相应操作”532列和““否”的相应操作”534列中的条目可以是命令,也可以是指向NLP数据库218中嵌入的命令的指针。例如,如行540B所示,“是/否”标志是作过标记的。如果给计算机一个肯定性回答,例如“是”,则导致执行““是”的相应操作”条目532中的相应命令;在这个具体情况中,该条目是数字“210”,是对NLP数据库中第210条命令的引用。如果回答是“否”,则导致计算机执行NLP数据库中第211条命令。
现在转至图7A,图中表示向互连计算机(如正在浏览万维网的计算机)提供言语和语音命令的方法和系统的流程图。图7A-7C的方法可以与图3A-3D的方法结合起来使用。在功能框602中,向万维网浏览器提供一个网站URL(网络对象)。网络浏览器是一种用于在因特网中导航的程序,这是本领域中众所周知的。功能框602的向浏览器提供URL的步骤可以很简单,只要用户键入该URL,或者让用户选择一个对所选网站URL的“链接”。该步骤也可以用前面结合与NLP数据库218中每个条目相关的行动所述的语音命令来完成。在功能框604,计算机得到URL后,必须决定是否能解析该URL内指定的网站的因特网地址。这个解析过程是本领域中一个众所周知的过程。如果计算机不能解析因特网地址,在功能框605,在浏览器窗口中显示一个出错讯息,然后,系统返回其初始状态600。如果解析了因特网地址,在功能框606,计算机向该网站发送一个对该网页的请求。
在功能框608,作出判断,看网站是否发送网页。如果网站没有响应,或者未能发送网页,则在功能框605,在浏览器窗口中显示一个出错讯息,然后,系统返回其初始状态600。如果网站返回网页,则在功能框610,在浏览器窗口显示网页。
在判断框612,计算机100判断是否该网站的对应DDF文件500已经出现在计算机100上。如果DDF文件已经出现,流程就前进到图7C;否则,流程就前进到图7B。
转至图7B。如果DDF文件500不存在,计算机检查是否DDF文件500的位置被以URL的形式编码在网页的超文本标记语言(HTML)内。(注意,HTML是本领域中众所周知的,因此这里将不讨论该语言的详细内容)。在HTML代码内对DDF文件位置编码的方法是,将DDF文件位置列在一个初始HTML元标记(meta-tag)中,例如:
     <meta DDF=“http://www.conversationalsys.com/ConverseIt.ddf”>
或者把一个脚本标记(scripting tag)直接写入浏览器所支持的HTML的变体(variation),
<!--
     <DDF=“http://www.conversationalsys.com/ConverseIt.ddf”>-->
如果DDF文件位置信息被编码在网页内,则在功能框616,解析该位置的因特网地址,然后在功能框626,计算机请求传输DDF文件500。
另一方面,如果DDF文件500的位置没有被编码在网页内,它就有几个可能的存储位置。它可能存储在网站的一个预定位置-如根目录中某个文件位置,或者在一个不同的中央位置-例如在另一个因特网服务器上或图1的存储介质108中。功能框618和620检查这些可能。功能框618判断DDF文件是否位于该网站。在该步骤中,计算机向网站发送查询,询问是否存在DDF文件500。如果DDF文件500在网站存在,在功能框626,计算机请求传输DDF文件500。如果DDF文件不在网站,在功能框620,计算机查询中央位置是否有该网站的一个DDF文件。如果DDF文件在网站存在,在功能框626,计算机请求传输DDF文件。如果找不到DDF文件500,在功能框622,就关闭任何当前DDF文件的现有部分,诸如网络对象表510、与网站相关的NLP数据库218和任何以前访问过的网站的特定语境语法214。此外,在功能框624,按非语音启动的网站对待该网站,并且只使用标准语法文件。标准语法文件系统是现有的不包含任何与网络对象相关联的特定语境语法文件的相关语法的系统上的语法文件。
如果DDF文件500在功能框626被请求,并且其传输不成功,则在功能框622关闭任何当前DDF文件500的任何现有部分,并在功能框624,按非语音启动的网站对待该网站,并且只使用标准语法文件。
如果DDF文件500在功能框626被请求,并且在功能框628判断其传输是成功的,则在功能框630,它替代任何以前的DDF文件。在功能框632,析取DDF文件500的任何成分,诸如网络对象表510、特定语境语法文件214和NLP数据库218。可以用类似的技术来获得实现图3A-3D中所示方法的必要软件,包含图2的功能单元。
流程转移到图7C。在功能框634,由计算机将网络对象表510读入存储器。如果功能框636判断出网页URL存在于网站网络对象表510中,则它由如图6中所示的表的某行540A-540E表示。网络对象表的每行表示用户可用于该特定网页的语音交互。如果不存在对应于该网页的行,则不存在用于该网页的语音交互,于是处理结束。
如果功能框636判断出网页URL存在于网站网络对象表510中,则在功能框638,计算机检查TTS标志522是否作了标记,以决定是否把一个正文言语524与网页相联系。如果有一个正文言语524,就在功能框640播出它,然后流程继续。如果由判断框642判断出有一个与网页相关联的特定语境语法文件,就在功能框644启用它,然后在功能框646启用NLP数据库218。如果没有与网页相关联的特定语境语法文件,在功能框646只启用NLP数据库218。一旦NLP数据库被启用,功能框646,系统就按如以上所述的图3A-3C的方式运行。
总之,本发明提供一种用于计算机的连网的交互式用户界面的方法和系统。通过使用通过对话定义文件与因特网对象联系的特定语境语法,本发明减少语音识别时间,提高用户以口语话风格与因特网对象(如网页)沟通的能力。此外,通过采用对各种语法和NLP数据库的适应性更新,本发明进一步提高交互的效率。
前面的最佳实施例说明,使本领域任何熟练人员都能制造或使用本发明。这些实施例的各种修改,对本领域的熟练人员来说显而易见,无需发明性技能,就能将本文中所界定的一般原理应用于其它实施例。所以,本发明不限于本文所示的实施例,而应涵盖与本文所披露的原理和新颖特点相符的最宽的范围。

Claims (14)

1.一种用于为与网络对象进行语音交互而更新计算机的方法,该方法包含下列步骤:
通过网络传输一个与网络对象相关联的网络对象表;
在网络对象表中检索网络对象的匹配条目;和
如果在网络对象表中找到所述匹配条目,就执行一个与所述匹配条目相关的行动。
2.权利要求1的方法,其中,网络对象表是从一个网站读取的。
3.权利要求1的方法,其中,网络对象表是从一个存储多个网络对象的网络对象表的位置读取的。
4.权利要求1的方法,其中,将网络对象表包含在一个也包含一个特定语境语法的对话定义文件中。
5.权利要求1的方法,其中,将网络对象表包含在一个也包含一个自然语言处理数据库的条目的对话定义文件中。
6.权利要求1的方法,其中,将网络对象表包含在一个也包含一个特定语境语法和一个自然语言处理数据库的条目的对话定义文件中。
7.一种用于为与网络对象进行语音交互而更新计算机的系统,该系统包含:
一个网络接口,用于传输一个与一个网络对象相关联的对话定义文件,其中,对话定义文件含有一个网络对象表;
一个数据处理器,用于在网络对象表中检索网络对象的匹配条目;和
一个应用界面,用于在如果在网络对象表中找到所述匹配条目时,就执行一个与所述匹配条目相关的行动。
8.一种用于为与网络对象进行语音交互而更新计算机的方法,该方法包含下列步骤:
查找一个与一个网络对象相关联的对话定义文件,其中,对话定义文件包含一个网络对象表;
读取对话定义文件;
在网络对象表中检索网络对象的匹配条目;和
如果在网络对象表中找到所述匹配条目,就执行一个与所述匹配条目相关的行动。
9.权利要求8的方法,其中,对话定义文件是从一个网站读取的。
10.权利要求8的方法,其中,对话定义文件是从一个存储多个网络对象的对话定义文件的位置读取的。
11.权利要求8的方法,其中,对话定义文件是从存储介质读取的。
12.权利要求8的方法,其中,对话定义文件包含一个特定语境语法。
13.权利要求8的方法,其中,对话定义文件包含一个自然语言处理数据库的条目。
14.权利要求8的方法,其中,对话定义文件包含一个特定语境语法和一个自然语言处理数据库的条目。
CNB998130982A 1998-09-09 1999-09-08 采用语音识别和自然语言处理的网络交互式用户界面 Expired - Lifetime CN1161747C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US09/150,459 1998-09-09
US09/150,459 US6499013B1 (en) 1998-09-09 1998-09-09 Interactive user interface using speech recognition and natural language processing
US09/166,198 1998-10-05
US09/166,198 US6532444B1 (en) 1998-09-09 1998-10-05 Network interactive user interface using speech recognition and natural language processing

Publications (2)

Publication Number Publication Date
CN1325528A true CN1325528A (zh) 2001-12-05
CN1161747C CN1161747C (zh) 2004-08-11

Family

ID=22534628

Family Applications (2)

Application Number Title Priority Date Filing Date
CNB998130931A Expired - Lifetime CN1153190C (zh) 1998-09-09 1999-09-08 采用语音识别和自然语言处理的交互式用户界面
CNB998130982A Expired - Lifetime CN1161747C (zh) 1998-09-09 1999-09-08 采用语音识别和自然语言处理的网络交互式用户界面

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CNB998130931A Expired - Lifetime CN1153190C (zh) 1998-09-09 1999-09-08 采用语音识别和自然语言处理的交互式用户界面

Country Status (10)

Country Link
US (2) US6499013B1 (zh)
EP (2) EP1110205B1 (zh)
JP (2) JP2002524776A (zh)
CN (2) CN1153190C (zh)
AT (2) ATE287117T1 (zh)
AU (2) AU762282B2 (zh)
CA (2) CA2343229A1 (zh)
DE (2) DE69922971T2 (zh)
ES (2) ES2235508T3 (zh)
WO (2) WO2000014727A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100517300C (zh) * 2002-11-28 2009-07-22 皇家飞利浦电子股份有限公司 分配词类信息的设备和方法
CN1892819B (zh) * 2005-06-30 2010-04-21 佳能株式会社 语音识别方法和语音识别设备
US9208787B2 (en) 2006-06-27 2015-12-08 Deutsche Telekom Ag Method and device for the natural-language recognition of a vocal expression
CN107667399A (zh) * 2015-06-25 2018-02-06 英特尔公司 语音识别服务
CN109598112A (zh) * 2014-07-18 2019-04-09 谷歌有限责任公司 利用协同定位信息的发言人验证
CN110033774A (zh) * 2017-12-07 2019-07-19 交互数字Ce专利控股公司 用于隐私保护型语音交互的设备和方法
CN110223679A (zh) * 2019-06-14 2019-09-10 南京机电职业技术学院 一种语音识别输入装置
CN110265013A (zh) * 2019-06-20 2019-09-20 平安科技(深圳)有限公司 语音的识别方法及装置、计算机设备、存储介质
CN111801733A (zh) * 2018-01-18 2020-10-20 克里斯托弗·安东尼·席尔瓦 对网络路径进行区域化解析的系统和方法
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information

Families Citing this family (380)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6775264B1 (en) 1997-03-03 2004-08-10 Webley Systems, Inc. Computer, internet and telecommunications based network
US6499013B1 (en) 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6434524B1 (en) * 1998-09-09 2002-08-13 One Voice Technologies, Inc. Object interactive user interface using speech recognition and natural language processing
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
EP1224569A4 (en) 1999-05-28 2005-08-10 Sehda Inc PHRASE BASED DIALOGUE MODELING WITH SPECIAL APPLICATION FOR GENERATING RECOGNITION GRAMMARK FOR LANGUAGE-CONTROLLED USER INTERFACE
JP3702414B2 (ja) * 1999-08-11 2005-10-05 株式会社日立製作所 情報検索支援方法、コンピュータ読み取り可能な記憶媒体および情報検索装置
AU6630800A (en) 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US6862713B1 (en) * 1999-08-31 2005-03-01 International Business Machines Corporation Interactive process for recognition and evaluation of a partial search query and display of interactive results
DE19944325A1 (de) * 1999-09-15 2001-03-22 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Spracherkennung
US7447635B1 (en) * 1999-10-19 2008-11-04 Sony Corporation Natural language interface control system
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
US7050977B1 (en) 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7516190B2 (en) 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
US6721705B2 (en) * 2000-02-04 2004-04-13 Webley Systems, Inc. Robust voice browser system and voice activated device controller
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
CA2408584A1 (en) * 2000-04-06 2001-10-18 One Voice Technologies, Inc. Natural language and dialogue generation processing
DE60125597T2 (de) * 2000-08-31 2007-05-03 Hitachi, Ltd. Vorrichtung für die Dienstleistungsvermittlung
US7024348B1 (en) * 2000-09-28 2006-04-04 Unisys Corporation Dialogue flow interpreter development tool
US7660740B2 (en) * 2000-10-16 2010-02-09 Ebay Inc. Method and system for listing items globally and regionally, and customized listing according to currency or shipping area
KR20020032835A (ko) * 2000-10-27 2002-05-04 정우성 자연어 처리와 음성 인식 병합에 의거한 음성 언어 이해기술 및 그 비즈니스 모델
DE10196793D2 (de) 2000-11-03 2004-10-07 Voicecom Ag Robuste Spracherkennung mit Datenbankorganisation
JP3714159B2 (ja) * 2000-11-30 2005-11-09 日本電気株式会社 ブラウザ搭載装置
EP1352316A2 (en) * 2000-12-01 2003-10-15 The Trustees Of Columbia University In The City Of New York A method and system for voice activating web pages
WO2002050816A1 (en) * 2000-12-18 2002-06-27 Koninklijke Philips Electronics N.V. Store speech, select vocabulary to recognize word
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7103533B2 (en) * 2001-02-21 2006-09-05 International Business Machines Corporation Method for preserving contextual accuracy in an extendible speech recognition language model
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US7072837B2 (en) * 2001-03-16 2006-07-04 International Business Machines Corporation Method for processing initially recognized speech in a speech recognition session
WO2002086864A1 (en) * 2001-04-18 2002-10-31 Rutgers, The State University Of New Jersey System and method for adaptive language understanding by computers
US7203645B2 (en) * 2001-04-27 2007-04-10 Intel Corporation Speech recognition system loading different recognition engines for different applications
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7506022B2 (en) 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US7409349B2 (en) 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7519529B1 (en) 2001-06-29 2009-04-14 Microsoft Corporation System and methods for inferring informational goals and preferred level of detail of results in response to questions posed to an automated information-retrieval or question-answering service
US7409335B1 (en) 2001-06-29 2008-08-05 Microsoft Corporation Inferring informational goals and preferred level of detail of answers based on application being employed by the user
US20030009334A1 (en) * 2001-07-03 2003-01-09 International Business Machines Corporation Speech processing board for high volume speech processing applications
US20030037053A1 (en) * 2001-08-09 2003-02-20 Zhong-Hua Wang Method and apparatus for automatically updating stock and mutual fund grammars in speech recognition systems
US6985865B1 (en) * 2001-09-26 2006-01-10 Sprint Spectrum L.P. Method and system for enhanced response to voice commands in a voice command platform
US7752266B2 (en) 2001-10-11 2010-07-06 Ebay Inc. System and method to facilitate translation of communications between entities over a network
US7711570B2 (en) 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7058565B2 (en) * 2001-12-17 2006-06-06 International Business Machines Corporation Employing speech recognition and key words to improve customer service
US6915246B2 (en) * 2001-12-17 2005-07-05 International Business Machines Corporation Employing speech recognition and capturing customer speech to improve customer service
KR20020023197A (ko) * 2001-12-27 2002-03-28 김연수 자연음 처리를 이용한 데이터 제공 방법과 이를 위한 시스템
US7203644B2 (en) * 2001-12-31 2007-04-10 Intel Corporation Automating tuning of speech recognition systems
AU2003205166A1 (en) 2002-01-14 2003-07-30 Jerzy Lewak Identifier vocabulary data access method and system
DE10211777A1 (de) * 2002-03-14 2003-10-02 Philips Intellectual Property Erzeugung von Nachrichtentexten
US20030187658A1 (en) * 2002-03-29 2003-10-02 Jari Selin Method for text-to-speech service utilizing a uniform resource identifier
JP3967952B2 (ja) * 2002-04-16 2007-08-29 富士通株式会社 文法更新システム及び方法
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
US20030216923A1 (en) * 2002-05-15 2003-11-20 Gilmore Jeffrey A. Dynamic content generation for voice messages
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7941348B2 (en) 2002-06-10 2011-05-10 Ebay Inc. Method and system for scheduling transaction listings at a network-based transaction facility
US8719041B2 (en) * 2002-06-10 2014-05-06 Ebay Inc. Method and system for customizing a network-based transaction facility seller application
US20030229554A1 (en) * 2002-06-10 2003-12-11 Veres Robert Dean Method and system for composing transaction listing descriptions for use in a network-based transaction facility
US8078505B2 (en) 2002-06-10 2011-12-13 Ebay Inc. Method and system for automatically updating a seller application utilized in a network-based transaction facility
AU2003280474A1 (en) 2002-06-28 2004-01-19 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
US20040008828A1 (en) * 2002-07-09 2004-01-15 Scott Coles Dynamic information retrieval system utilizing voice recognition
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7363398B2 (en) * 2002-08-16 2008-04-22 The Board Of Trustees Of The Leland Stanford Junior University Intelligent total access system
US6907397B2 (en) * 2002-09-16 2005-06-14 Matsushita Electric Industrial Co., Ltd. System and method of media file access and retrieval using speech recognition
US20050180464A1 (en) * 2002-10-01 2005-08-18 Adondo Corporation Audio communication with a computer
US20060276230A1 (en) * 2002-10-01 2006-12-07 Mcconnell Christopher F System and method for wireless audio communication with a computer
US7197494B2 (en) * 2002-10-15 2007-03-27 Microsoft Corporation Method and architecture for consolidated database search for input recognition systems
US20040111259A1 (en) * 2002-12-10 2004-06-10 Miller Edward S. Speech recognition system having an application program interface
EP1450350A1 (en) * 2003-02-20 2004-08-25 Sony International (Europe) GmbH Method for Recognizing Speech with attributes
US7480619B1 (en) 2003-03-04 2009-01-20 The Board Of Trustees Of The Leland Stanford Junior University Integration manager and natural interaction processor
US6980949B2 (en) * 2003-03-14 2005-12-27 Sonum Technologies, Inc. Natural language processor
US7729913B1 (en) 2003-03-18 2010-06-01 A9.Com, Inc. Generation and selection of voice recognition grammars for conducting database searches
US7260535B2 (en) 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US9710819B2 (en) * 2003-05-05 2017-07-18 Interactions Llc Real-time transcription system utilizing divided audio chunks
CA2524591A1 (en) * 2003-05-05 2004-11-18 Interactions, Llc Apparatus and method for processing service interactions
US8223944B2 (en) * 2003-05-05 2012-07-17 Interactions Corporation Conference call management system
WO2004109658A1 (ja) * 2003-06-02 2004-12-16 International Business Machines Corporation 音声応答システム、音声応答方法、音声サーバ、音声ファイル処理方法、プログラム及び記録媒体
US9202467B2 (en) * 2003-06-06 2015-12-01 The Trustees Of Columbia University In The City Of New York System and method for voice activating web pages
US20040254790A1 (en) * 2003-06-13 2004-12-16 International Business Machines Corporation Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars
US7742985B1 (en) 2003-06-26 2010-06-22 Paypal Inc. Multicurrency exchanges between participants of a network-based transaction facility
US20050027539A1 (en) * 2003-07-30 2005-02-03 Weber Dean C. Media center controller system and method
US7383172B1 (en) 2003-08-15 2008-06-03 Patrick William Jamieson Process and system for semantically recognizing, correcting, and suggesting domain specific speech
US8311835B2 (en) 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US9552354B1 (en) * 2003-09-05 2017-01-24 Spoken Traslation Inc. Method and apparatus for cross-lingual communication
US7376752B1 (en) 2003-10-28 2008-05-20 David Chudnovsky Method to resolve an incorrectly entered uniform resource locator (URL)
GB2409561A (en) * 2003-12-23 2005-06-29 Canon Kk A method of correcting errors in a speech recognition system
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US8160883B2 (en) 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US20080235018A1 (en) * 2004-01-20 2008-09-25 Koninklikke Philips Electronic,N.V. Method and System for Determing the Topic of a Conversation and Locating and Presenting Related Content
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
US7496500B2 (en) * 2004-03-01 2009-02-24 Microsoft Corporation Systems and methods that determine intent of data and respond to the data based on the intent
US9189568B2 (en) 2004-04-23 2015-11-17 Ebay Inc. Method and system to display and search in a language independent manner
JP2005339237A (ja) * 2004-05-27 2005-12-08 Aruze Corp アプリケーション利用補助システム
WO2005122145A1 (en) * 2004-06-08 2005-12-22 Metaphor Solutions, Inc. Speech recognition dialog management
US7580837B2 (en) 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
US7925506B2 (en) * 2004-10-05 2011-04-12 Inago Corporation Speech recognition accuracy via concept to keyword mapping
US7242751B2 (en) * 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
US7921091B2 (en) * 2004-12-16 2011-04-05 At&T Intellectual Property Ii, L.P. System and method for providing a natural language interface to a database
ES2261053B1 (es) * 2004-12-29 2008-04-16 France Telecom España, S.A. Metodo para la utilizacion de lenguaje natural como interfaz para los terminales moviles.
US7751551B2 (en) 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
KR100718147B1 (ko) * 2005-02-01 2007-05-14 삼성전자주식회사 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법
US7593962B2 (en) * 2005-02-18 2009-09-22 American Tel-A-Systems, Inc. System and method for dynamically creating records
US8225232B2 (en) 2005-02-28 2012-07-17 Microsoft Corporation Dynamic configuration of unified messaging state changes
US7409344B2 (en) 2005-03-08 2008-08-05 Sap Aktiengesellschaft XML based architecture for controlling user interfaces with contextual voice commands
US7996219B2 (en) * 2005-03-21 2011-08-09 At&T Intellectual Property Ii, L.P. Apparatus and method for model adaptation for spoken language understanding
US7657020B2 (en) 2005-06-03 2010-02-02 At&T Intellectual Property I, Lp Call routing system and method of using the same
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7542904B2 (en) * 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
EP1934971A4 (en) 2005-08-31 2010-10-27 Voicebox Technologies Inc DYNAMIC LANGUAGE SCRIPTURE
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US8229745B2 (en) * 2005-10-21 2012-07-24 Nuance Communications, Inc. Creating a mixed-initiative grammar from directed dialog grammars
US8315874B2 (en) * 2005-12-30 2012-11-20 Microsoft Corporation Voice user interface authoring tool
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
US20070225970A1 (en) * 2006-03-21 2007-09-27 Kady Mark A Multi-context voice recognition system for long item list searches
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US8107610B2 (en) * 2006-06-06 2012-01-31 At&T Intellectual Property I, L.P. Callback processing of interactive voice response requests
US8639782B2 (en) 2006-08-23 2014-01-28 Ebay, Inc. Method and system for sharing metadata between interfaces
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7742922B2 (en) * 2006-11-09 2010-06-22 Goller Michael D Speech interface for search engines
CN101558443B (zh) 2006-12-15 2012-01-04 三菱电机株式会社 声音识别装置
US7809564B2 (en) * 2006-12-18 2010-10-05 International Business Machines Corporation Voice based keyword search algorithm
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US7912828B2 (en) * 2007-02-23 2011-03-22 Apple Inc. Pattern searching methods and apparatuses
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101075435B (zh) * 2007-04-19 2011-05-18 深圳先进技术研究院 一种智能聊天系统及其实现方法
US20080273672A1 (en) * 2007-05-03 2008-11-06 Microsoft Corporation Automated attendant grammar tuning
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
WO2009039867A1 (de) * 2007-09-20 2009-04-02 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und kommunikationsanordnung zum betreiben einer kommunikationsverbindung
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010051591A1 (en) * 2008-11-06 2010-05-14 Digital Intermediary Pty Limited Context layered object engine
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110010179A1 (en) * 2009-07-13 2011-01-13 Naik Devang K Voice synthesis and processing
US20110066438A1 (en) * 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
US9171541B2 (en) 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US20110167350A1 (en) * 2010-01-06 2011-07-07 Apple Inc. Assist Features For Content Display Device
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US20110189646A1 (en) * 2010-02-01 2011-08-04 Amos Benninga Pedagogical system method and apparatus
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8521513B2 (en) 2010-03-12 2013-08-27 Microsoft Corporation Localization for interactive voice response systems
US8694313B2 (en) 2010-05-19 2014-04-08 Google Inc. Disambiguation of contact information using historical data
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8484031B1 (en) 2011-01-05 2013-07-09 Interactions Corporation Automated speech recognition proxy system for natural language understanding
US9245525B2 (en) 2011-01-05 2016-01-26 Interactions Llc Automated speech recognition proxy system for natural language understanding
US9472185B1 (en) 2011-01-05 2016-10-18 Interactions Llc Automated recognition system for natural language understanding
US8560321B1 (en) 2011-01-05 2013-10-15 Interactions Corportion Automated speech recognition system for natural language understanding
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
WO2012135226A1 (en) * 2011-03-31 2012-10-04 Microsoft Corporation Augmented conversational understanding architecture
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
EP2667268A1 (de) * 2012-05-24 2013-11-27 Siemens Aktiengesellschaft Verfahren zum Betrieb eines Automatisierungsgeräts
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
CN103678283B (zh) * 2012-08-30 2016-08-17 英业达科技有限公司 提供外语词组以辅助外语文章撰写的系统及其方法
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US10276157B2 (en) * 2012-10-01 2019-04-30 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9047271B1 (en) 2013-02-28 2015-06-02 Google Inc. Mining data for natural language system
US9020809B1 (en) 2013-02-28 2015-04-28 Google Inc. Increasing semantic coverage with semantically irrelevant insertions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US8694305B1 (en) * 2013-03-15 2014-04-08 Ask Ziggy, Inc. Natural language processing (NLP) portal for third party applications
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
CN112230878B (zh) 2013-03-15 2024-09-27 苹果公司 对中断进行上下文相关处理
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US8768687B1 (en) * 2013-04-29 2014-07-01 Google Inc. Machine translation of indirect speech
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
US9177553B1 (en) 2013-06-25 2015-11-03 Google Inc. Identifying underserved command inputs
US9123336B1 (en) 2013-06-25 2015-09-01 Google Inc. Learning parsing rules and argument identification from crowdsourcing of proposed command inputs
US9183196B1 (en) 2013-06-25 2015-11-10 Google Inc. Parsing annotator framework from external services
US9092505B1 (en) 2013-06-25 2015-07-28 Google Inc. Parsing rule generalization by n-gram span clustering
US9330195B1 (en) 2013-06-25 2016-05-03 Google Inc. Inducing command inputs from property sequences
US9251202B1 (en) 2013-06-25 2016-02-02 Google Inc. Corpus specific queries for corpora from search query
US9117452B1 (en) 2013-06-25 2015-08-25 Google Inc. Exceptions to action invocation from parsing rules
US9299339B1 (en) 2013-06-25 2016-03-29 Google Inc. Parsing rule augmentation based on query sequence and action co-occurrence
US9280970B1 (en) 2013-06-25 2016-03-08 Google Inc. Lattice semantic parsing
US9984684B1 (en) 2013-06-25 2018-05-29 Google Llc Inducing command inputs from high precision and high recall data
US20150031416A1 (en) 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device For Command Phrase Validation
CN104346151B (zh) * 2013-07-30 2018-04-27 联想(北京)有限公司 一种信息处理方法及电子设备
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10109273B1 (en) * 2013-08-29 2018-10-23 Amazon Technologies, Inc. Efficient generation of personalized spoken language understanding models
US9507849B2 (en) * 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CN105934791B (zh) * 2014-01-31 2019-11-22 惠普发展公司,有限责任合伙企业 语音输入命令
CN109949815B (zh) * 2014-04-07 2024-06-07 三星电子株式会社 电子装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US20150331853A1 (en) * 2014-05-15 2015-11-19 Marco Palmonari Automated multi-grammar language processing system to optimize request handling in contact centers
US10726831B2 (en) * 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US20150340024A1 (en) * 2014-05-23 2015-11-26 Google Inc. Language Modeling Using Entities
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) * 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US9626703B2 (en) 2014-09-16 2017-04-18 Voicebox Technologies Corporation Voice commerce
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9747896B2 (en) 2014-10-15 2017-08-29 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
CN104360897B (zh) * 2014-10-29 2017-09-22 百度在线网络技术(北京)有限公司 对话处理方法和对话管理系统
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
CN105869632A (zh) * 2015-01-22 2016-08-17 北京三星通信技术研究有限公司 基于语音识别的文本修订方法和装置
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10515150B2 (en) 2015-07-14 2019-12-24 Genesys Telecommunications Laboratories, Inc. Data driven speech enabled self-help systems and methods of operating thereof
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10455088B2 (en) 2015-10-21 2019-10-22 Genesys Telecommunications Laboratories, Inc. Dialogue flow optimization and personalization
US10382623B2 (en) 2015-10-21 2019-08-13 Genesys Telecommunications Laboratories, Inc. Data-driven dialogue enabled self-help systems
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10843080B2 (en) * 2016-02-24 2020-11-24 Virginia Tech Intellectual Properties, Inc. Automated program synthesis from natural language for domain specific computing applications
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US20180052573A1 (en) * 2016-08-17 2018-02-22 Microsoft Technology Licensing, Llc Interaction with a file storage service through a messaging bot
US10838992B2 (en) * 2016-08-17 2020-11-17 International Business Machines Corporation Content selection for usage within a policy
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
GB201618479D0 (en) 2016-11-02 2016-12-14 Syngenta Participations Ag Adjuvants
US10540966B2 (en) 2016-11-02 2020-01-21 Genesys Telecommunications Laboratories, Inc. System and method for parameterization of speech recognition grammar specification (SRGS) grammars
US10482885B1 (en) * 2016-11-15 2019-11-19 Amazon Technologies, Inc. Speaker based anaphora resolution
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US20180330725A1 (en) * 2017-05-09 2018-11-15 Microsoft Technology Licensing, Llc Intent based speech recognition priming
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN108694939B (zh) * 2018-05-23 2020-11-03 广州视源电子科技股份有限公司 语音搜索优化方法、装置和系统
CN110728976B (zh) * 2018-06-30 2022-05-06 华为技术有限公司 语音识别的方法、装置及系统
CN108899030A (zh) * 2018-07-10 2018-11-27 深圳市茁壮网络股份有限公司 一种语音识别方法及装置
US10789943B1 (en) 2018-08-31 2020-09-29 Interactions Llc Proxy for selective use of human and artificial intelligence in a natural language understanding system
US11481558B2 (en) 2018-09-12 2022-10-25 Samsung Electroncis Co., Ltd. System and method for a scene builder
DE102018222156A1 (de) * 2018-12-18 2020-06-18 Volkswagen Aktiengesellschaft Verfahren, Anordnung und Verwendung zum Erzeugen einer Antwortausgabe in Reaktion auf eine Spracheingabeinformation
US11151981B2 (en) 2019-10-10 2021-10-19 International Business Machines Corporation Audio quality of speech in sound systems
CN112562679B (zh) * 2020-11-26 2024-06-14 浪潮金融信息技术有限公司 一种离线语音交互方法、装置及介质
JP2023535102A (ja) * 2021-07-19 2023-08-16 グーグル エルエルシー サードパーティデジタルアシスタントのアクションのためのビットベクトルに基づくコンテンツマッチング

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4783803A (en) 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4887212A (en) 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US5127055A (en) * 1988-12-30 1992-06-30 Kurzweil Applied Intelligence, Inc. Speech recognition apparatus & method having dynamic reference pattern adaptation
JPH02301869A (ja) 1989-05-17 1990-12-13 Hitachi Ltd 自然言語処理システム保守支援方式
US5222187A (en) * 1989-12-29 1993-06-22 Texas Instruments Incorporated Grammar-based checksum constraints for high performance speech recognition circuit
JP3266246B2 (ja) * 1990-06-15 2002-03-18 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
EP0543329B1 (en) * 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
US5511213A (en) * 1992-05-08 1996-04-23 Correa; Nelson Associative memory processor architecture for the efficient execution of parsing algorithms for natural language processing and pattern recognition
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5699456A (en) * 1994-01-21 1997-12-16 Lucent Technologies Inc. Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
JP2967688B2 (ja) * 1994-07-26 1999-10-25 日本電気株式会社 連続単語音声認識装置
US5799268A (en) * 1994-09-28 1998-08-25 Apple Computer, Inc. Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like
US5715468A (en) * 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
DE4440598C1 (de) * 1994-11-14 1996-05-23 Siemens Ag Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
JP2855409B2 (ja) 1994-11-17 1999-02-10 日本アイ・ビー・エム株式会社 自然言語処理方法及びシステム
US5758322A (en) * 1994-12-09 1998-05-26 International Voice Register, Inc. Method and apparatus for conducting point-of-sale transactions using voice recognition
US5748974A (en) * 1994-12-13 1998-05-05 International Business Machines Corporation Multimodal natural language interface for cross-application tasks
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US6456974B1 (en) * 1997-01-06 2002-09-24 Texas Instruments Incorporated System and method for adding speech recognition capabilities to java
US6188985B1 (en) * 1997-01-06 2001-02-13 Texas Instruments Incorporated Wireless voice-activated device for control of a processor-based host system
WO1998035491A1 (en) * 1997-02-05 1998-08-13 British Telecommunications Public Limited Company Voice-data interface
US6138098A (en) * 1997-06-30 2000-10-24 Lernout & Hauspie Speech Products N.V. Command parsing and rewrite system
US5960384A (en) * 1997-09-03 1999-09-28 Brash; Douglas E. Method and device for parsing natural language sentences and other sequential symbolic expressions
US5995918A (en) * 1997-09-17 1999-11-30 Unisys Corporation System and method for creating a language grammar using a spreadsheet or table interface
US6094635A (en) * 1997-09-17 2000-07-25 Unisys Corporation System and method for speech enabled application
US6058166A (en) * 1997-10-06 2000-05-02 Unisys Corporation Enhanced multi-lingual prompt management in a voice messaging system with support for speech recognition
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6138100A (en) * 1998-04-14 2000-10-24 At&T Corp. Interface for a voice-activated connection system
US6499013B1 (en) 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
US6178404B1 (en) * 1999-07-23 2001-01-23 Intervoice Limited Partnership System and method to facilitate speech enabled user interfaces by prompting with possible transaction phrases

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100517300C (zh) * 2002-11-28 2009-07-22 皇家飞利浦电子股份有限公司 分配词类信息的设备和方法
CN1892819B (zh) * 2005-06-30 2010-04-21 佳能株式会社 语音识别方法和语音识别设备
US9208787B2 (en) 2006-06-27 2015-12-08 Deutsche Telekom Ag Method and device for the natural-language recognition of a vocal expression
CN109598112A (zh) * 2014-07-18 2019-04-09 谷歌有限责任公司 利用协同定位信息的发言人验证
US11942095B2 (en) 2014-07-18 2024-03-26 Google Llc Speaker verification using co-location information
CN107667399A (zh) * 2015-06-25 2018-02-06 英特尔公司 语音识别服务
CN110033774A (zh) * 2017-12-07 2019-07-19 交互数字Ce专利控股公司 用于隐私保护型语音交互的设备和方法
CN111801733A (zh) * 2018-01-18 2020-10-20 克里斯托弗·安东尼·席尔瓦 对网络路径进行区域化解析的系统和方法
CN110223679A (zh) * 2019-06-14 2019-09-10 南京机电职业技术学院 一种语音识别输入装置
CN110265013A (zh) * 2019-06-20 2019-09-20 平安科技(深圳)有限公司 语音的识别方法及装置、计算机设备、存储介质
US11676608B2 (en) 2021-04-02 2023-06-13 Google Llc Speaker verification using co-location information

Also Published As

Publication number Publication date
ES2235508T3 (es) 2005-07-01
WO2000014727A1 (en) 2000-03-16
ATE287117T1 (de) 2005-01-15
ES2235520T3 (es) 2005-07-01
CN1161747C (zh) 2004-08-11
CN1153190C (zh) 2004-06-09
CA2343229A1 (en) 2000-03-16
EP1110205A1 (en) 2001-06-27
CA2343150A1 (en) 2000-03-16
AU5813099A (en) 2000-03-27
JP2002524806A (ja) 2002-08-06
EP1110205B1 (en) 2005-01-12
AU762282B2 (en) 2003-06-19
DE69923191T2 (de) 2006-01-05
DE69922971D1 (de) 2005-02-03
DE69922971T2 (de) 2005-12-29
DE69923191D1 (de) 2005-02-17
CN1325527A (zh) 2001-12-05
US6532444B1 (en) 2003-03-11
EP1110206A1 (en) 2001-06-27
EP1110206B1 (en) 2004-12-29
JP2002524776A (ja) 2002-08-06
WO2000014728A1 (en) 2000-03-16
AU6243999A (en) 2000-03-27
AU763059B2 (en) 2003-07-10
ATE286296T1 (de) 2005-01-15
US6499013B1 (en) 2002-12-24

Similar Documents

Publication Publication Date Title
CN1161747C (zh) 采用语音识别和自然语言处理的网络交互式用户界面
US6434524B1 (en) Object interactive user interface using speech recognition and natural language processing
US7729913B1 (en) Generation and selection of voice recognition grammars for conducting database searches
US9330661B2 (en) Accuracy improvement of spoken queries transcription using co-occurrence information
KR101359715B1 (ko) 모바일 음성 웹 제공 방법 및 장치
RU2360281C2 (ru) Представление данных на основе введенных пользователем данных
CA2280331C (en) Web-based platform for interactive voice response (ivr)
US7742922B2 (en) Speech interface for search engines
US20020173955A1 (en) Method of speech recognition by presenting N-best word candidates
US20040167875A1 (en) Information processing method and system
WO2001078065A1 (en) Natural language and dialogue generation processing
CN1279804A (zh) 通过听觉表示sgml数据页的系统和方法
CN1879149A (zh) 音频对话系统和语音浏览方法
US8200485B1 (en) Voice interface and methods for improving recognition accuracy of voice search queries
House Spoken-language access to multimedia(SLAM): a multimodal interface to the World-Wide Web
Morde et al. A multimodal system for accessing driving directions
Yu Efficient error correction for speech systems using constrained re-recognition
Gregory Efficient Error Correction for Speech Recognition Systems using Constrained Re-recognition

Legal Events

Date Code Title Description
C06 Publication
C10 Entry into substantive examination
PB01 Publication
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20040811