CN102298928B - 用于认知超负荷的设备用户的交互式对话 - Google Patents

用于认知超负荷的设备用户的交互式对话 Download PDF

Info

Publication number
CN102298928B
CN102298928B CN201110276754.6A CN201110276754A CN102298928B CN 102298928 B CN102298928 B CN 102298928B CN 201110276754 A CN201110276754 A CN 201110276754A CN 102298928 B CN102298928 B CN 102298928B
Authority
CN
China
Prior art keywords
equipment
management module
context
dialogue
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110276754.6A
Other languages
English (en)
Other versions
CN102298928A (zh
Inventor
翁富良
L·卡维多
B·拉格胡那坦
D·米尔科维奇
L·希亚特
H·施密特
A·格林施泰因
S·彼得斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN102298928A publication Critical patent/CN102298928A/zh
Application granted granted Critical
Publication of CN102298928B publication Critical patent/CN102298928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

一种与认知超负荷的设备用户进行交互式对话的系统和方法,包括维护与设备和领域有关的信息的知识库;采用关系方式和本体方式中的至少一种组织所述信息;从用户处接收语音;将语音转换为单词序列;识别单词序列中的部分专有名词;使用所述领域信息的模型从单词序列中确定含意结构;调节所述部分专有名词的边界以增强所述含意结构的准确率;使用所述知识库在与认知超负荷的用户的对话的上下文中理解该含意结构;选择对于认知超负荷的用户的应答内容;基于所选择内容、所述对话的上下文以及语法规则生成所述应答;以及合成所述应答的语音波形。

Description

用于认知超负荷的设备用户的交互式对话
本申请是申请号为200580040270.4、申请日为2005年8月10日、发明名称为“用于认知超负荷的设备用户的交互式对话”的中国专利申请的分案申请。
技术领域
本发明涉及用于认知超负荷的设备用户的交互式对话的方法和系统。
背景技术
带有口语对话接口的系统已经在广泛应用中获得稳步增长的认可。但是,口语对话接口系统可以使用受限语言和脚本对话交互。特别是,口语语言对话系统可以包括极少被关注的语言理解和对话交互的简单模型。然而,真实的人类对话可能很大程度上依赖于上下文和环境,充满不合语法的言辞(utterance)和不完整句,并且很可能是相当交互性和协作性的。例如,说话人可能互相打断,说完各自的句子,以及共同对共享的上下文做出贡献。
理解语言和对自然对话建模在建造友好的口语语言接口中是很重要,并且在用户对外部任务非常关心的设置中至关重要,例如驾驶直升飞机或汽车。在这种场景中,用户可能在适当时刻之前不能提前计划好他们的措辞或“保持那种想法”。而是用户可能需要能够打断对话系统并做出基于上下文和环境的指示。相反的,对话系统必须在上下文中理解这些贡献,并且应该仅在合适时打断用户(比如在关键情况下),并且任何来自系统的问题都应该尽可能的集中。由此,在高度着重的或认知超负荷的领域(domain)中的会话接口,即那些涉及到专注于其他任务的用户的领域,可能需要更灵活的对话,并且其具有鲁棒性的、覆盖广泛的语言理解。
例如,在汽车工业中,对话系统可以提供对设备的命令和控制。然而,这些系统可能为了语言理解和对话管理而依赖于关键字识别技术和有限状态技术。这些系统可能还会碰到与更新数据库或接入到新设备/应用程序相关的困难。由此,由于这些系统所使用技术的限制,只能处理具有约束性的口语语言表达。此外,较为频繁发生的语言现象,例如代词,歧义和修正,可能不能正确处理。
发明内容
本发明的典型实施例和/或典型方法提供了一种典型的灵活的对话系统和/或方法,其允许用户在口头上与多种设备交互,并且能够进行具有完全口语理解的丰富对话、多线程对话管理、信息的动态更新、部分专有名词(partial proper name)的识别、并且允许简单有效的即插即用的领域端口。
在这点上,根据本发明的典型对话系统和/或典型方法理解特定语言现象,该特定语言现象可能在人的对话中是普遍的但可能不容易被现有技术处理。特别是,根据本发明的典型对话系统可以提供完全的语言分析,在分析中,该典型系统理解不包含内容的单词的微妙之处,这些单词例如“一个(a)”、“该(the)”、“这个(this)”、“那个(that)”和“其他的(other)”。此外,典型对话系统可以对用户的言辞提供基于环境和上下文的理解。
根据本发明的一方面,提供了一种对话系统,包括:一个对话管理模块,其配置用于处理用户与设备之间的语言交流;设备管理模块,其配置用于确定适当的设备来处理所述对话管理模块发出的言辞并采取相应行动;以及,上下文管理模块,其配置用于确保上下文中所述适当的设备在重设前在一定逻辑量的时间内保持在上下文中。
根据本发明的另一方面,提供了一种用于允许用户在口头上与多个设备交互的方法,包括:由一个对话管理模块处理用户与设备之间的语言交流;由设备管理模块确定适当的设备来处理所述对话管理模块发出的言辞并采取相应行动;以及,由上下文管理模块确保上下文中所述适当的设备在重设前在一定逻辑量的时间内保持在上下文中。
本发明的典型实施例和/或典型方法可以提供动态更新,从而可以动态地添加和扩展设备和信息内容。在这点上,本发明可以使用一组技术,其允许新内容的动态更新和新领域的快速适应。本发明的典型实施例和/或典型方法可以在管理庞大数量的内容方面给用户增加用户易用性,由此可以加速技术的市场接受程度。本发明的典型实施例和/或典型方法可以实现多种应用,并且允许公司快速添加新应用以便获取产业内的市场份额,比如汽车,手持设备和蜂窝电话。本发明的典型实施例和/或典型方法使用新的一组技术,其允许动态内容更新并且在管理用户喜欢的内容项目上为用户提供更多的方便。所述新技术还可以允许开发者/公司以更快、更节省成本的方式提出新应用。
本发明的典型系统和/或典型方法可以包含统计式自然语言理解(NLU)模块,以提供鲁棒的全句分析,以及对话管理器(DM),以支持基于上下文的理解并且管理用户-系统的交互。本发明的典型系统和/或典型方法在面对来自语音识别(SR)模块和人类用户的不完整输入时,可以提供鲁棒性,所述不完整输入包括,例如包含对部分专有名词的不完整引用的输入。
本发明的典型对话系统和/或典型方法可以支持的对话包括对MP3音乐播放器(在处理专有名词方面具有挑战性的领域)、蜂窝电话、导航系统和/或其他感兴趣点服务的控制。
附图说明
图1A示出了根据本发明的典型对话系统;
图1B示出了典型自然语言理解模块;
图1C示出了典型对话管理模块;
图2示出了用户和图1A的典型系统之间的简单对话,包括MP3音乐播放器的控制;
图3示出了典型活动模型和语言映射实现的典型伪代码;
图4A示出了与认知超负荷的设备用户进行交互式交谈的典型方法;
图4B示出了对从认知超负荷的设备用户处接收到的语音转换的单词序列的含意结构进行确定的典型方法;
图5示出了为图1所述的典型系统的用户提供的典型接口,其集成了多个设备;
图6示出了图1的典型系统与该典型系统的用户之间的典型对话;以及
图7示出了图1的典型系统执行的典型任务分配过程的典型伪代码。
具体实施方式
图1示出了典型对话系统100,用于为用户与多个设备151的交互提供端对端口语处理。该典型系统100包括语音增强器模块101、语音识别模块102、自然语言理解(NLU)模块103、对话管理模块104、应答生成模块105、语音合成模块106、知识库模块107、知识管理模块108、韵律检测模块109以及设备/应用程序管理器110。
语音增强器模块101增强典型对话系统100所接收的语音。特别是,语音增强器模块101可以提供例如噪声减少和/或回音消除。
语音识别模块102接收声学信号并且输出带有附加标记(例如置信值)的单词序列或者单词网格(lattice)。在这点上,语音识别模块102可以包含采用基于分类的n-gram和动态语法的细微差别语言识别引擎(Nuance speech recognition engine)。N-gram涉及统计算法,该统计算法基于概率将单词和分类联系起来。自然语言理解模块103接收带有附加置信值的单词序列或单词网格,并且基于针对领域中的语言数据训练得到的统计模型而输出结构化的含意表达。在这点上,自然语言理解(NLU)模块103目的是提供灵活且鲁棒的口语能力。
对话管理模块104获取所述结构化的含意表达,并且基于对话上下文和从知识库107获得的知识,向其他模块发出合适的指令。
知识库107与例如用户、设备、外部环境和当前上下文情况有关的知识。知识库107可以包括一个或多个数据库,例如包括关系数据库和本体数据库(ontological database)。特别是,知识库107可以包括例如歌曲、流派、艺术家和其他属性之间的本体关系数据库。知识库107还可以包括,例如导航任务与感兴趣点(POI)服务的本体关系的数据库。在这点上,知识库107可以获取领域数据/知识,以训练在语言理解中使用的统计模型。所述领域数据/知识可以包括,例如用于描绘和预测用户行为的统计量。知识库107还可以包括语言学的知识,以便解决例如歧义。在这点上,所述语言学知识可以,例如从广泛可用的字典和其他来源中构建,所述其他来源包括,例如朗文出版公司出版的朗文当代英语字典(LDOCE),或者WordNet——由普林斯顿大学的George Miller教授和他的助手们提供的开放资源(请见Cognitive science Group下的普林斯顿大学网站)。
知识管理模块108管理知识库107、普通本体,领域特有本体以及用于任何活动领域的任何数据库。知识管理模块108还在不同模块之间更新并且同步当前知识库107。
应答生成模块105从对话管理模块104获取内容,选取在该上下文中的相关部分,并且以简洁的语法方式组织它们,以输入到语音合成模块106中。在这点上,可以使用一种内容选取方法,该方法在例如在2004年8月20日申请的美国专利申请No.10/923,590,名为“METHOD AND SYSTEM FOR ADAPTIVE NAVIGATION USINGA DRIVER’S ROUTE KNOWLEDGE”中进行了描述,在此将其整体引入作为参考。
语音合成模块106获取带有标记特征的单词序列并且产生语音波形。特别是,语音合成模块106可以包括使用例如Nuance Vocalizer实现的文本到语音(TTS)引擎。
韵律检测模块109提供附加特征,比如对于声调、停顿和持续的检测,以便提高典型系统100的特定模块的性能,包括例如语音识别模块102、自然语言理解(NLU)模块103和对话管理模块104。在这点上,可以使用Venkataraman等人在2003年的关于声学、语音和信号处理的IEEE国际会议上的“Training a prosody-based dialog acttagger from unlabeled data”中描述的技术。
典型系统对话系统100可以采用分散方式实现。例如,不采用其他系统中所使用的集线器体系结构,例如Seneff等人1998年在Proc.ICLSP’98上的“Galaxy-II:A Reference Architecture forConversational System Development”中所描述的系统,典型系统100可以使用基于事件的、面向消息的中间件采用分布式方式进行配置,以便允许例如新模块和/或设备151的动态注册。
典型对话系统100可以使用现货组件。特别是,典型对话系统100的一些部分可以使用微软Visual C++6.0、Nuance Vocalizer4.0和Nuance Recognizer8.5实现。典型对话系统100可以包括例如任何合适的处理设备,比如带有基于Intel微处理器的个人计算机。该适当的处理设备可以被例如广泛的各种操作和/或应用开发环境所支持,比如微软视窗2000或基于Linux的环境。需要了解的是,典型对话系统100的模块101至109可以共存于公共平台中,或者这些模块中的一些或者全部可以分开驻留。
NLU模块
图1B示出了典型自然语言理解模块103,用于提供灵活且鲁棒的口语能力。典型自然语言理解模块103包括四个子模块:统计标记器103a、统计依赖分析器103b、特征映射器103c和语义分类器103d。
统计标记器103a使用隐性马尔可夫模型(HMM)描述在基于历史预测语音部分(POS)的标记时的概率。所述模型可以例如从依赖性的和/或注释性的文本数据中训练得到。在这点上,统计标记器103a可以使用例如Dermataso和Kokkinakis在ComputationalLinguistics,Volume21,No2,1995中的“Automatic Stochastic Tagging ofNatural Language Texts”中所描述的技术来实现,并且可以使用Viterbi算法来找到合适的标记序列。
统计依赖分析器103b使用统计标记器103a所描述的统计概率建立语言模型,该语言模型包括条件概率分量和互信息分量。该条件概率分量在为两个首部给出两个相应子树的情况下,估计这两个首部之间的语法关系的概率。其可以使用,例如,在2003年7月3日提交的美国专利申请No.10/613,366,名为“A FAST FEATURESELECTION METHOF AN SYSTEM FOR MAXIMUX ENTROPUMODELING”中所描述的条件最大熵建模的选择性增益计算(SGC)方法来进行计算,在此将其整体引入作为参考。
最大熵(ME)建模是一种普通的统计建模范例,其可以应用于语言建模和自然语言处理中,以通过结合各种提供信息的特定特征来预测语言行为,每种特征都将某种语言统计事件从一个数据总集编码至条件模型的通用框架中。在这点上,条件最大熵模型可以采用于下形式:
p ( y | x ) = 1 z ( x ) exp ( Σ j λ j f j ( x , y ) )
其中,y是语法关系,x表示由十维矩阵所定义的左右子树,所述矩阵包含首部单词、标记和语法关系,而fj(x,y)、λj和Z(x)分别是特征、权值和归一化因数。
该互信息分量描绘左右子树代表之间的冗余性,并且可以通过所述首部标记的因数分解以及给定标记的单词的条件互信息来计算。
特征映射器103c从统计依赖分析器103b获取依赖关系,并且产生对于与f结构类似的特征结构的可扩展标记语言(XML)表示。在所述表示中,首部单词、谓词、各种修饰语以及诸如情态、动词体(aspect)和时态的句法特征都清楚地罗列出来。所述映射基于一组顶部与修饰语的模式。所述模式可能包括单词、标记或语法关系。
不像其他现有技术的对话系统,自然语言理解模块103提供了对于输入句子的鲁棒的全面分析。不仅提取出传统的感知内容单词,而且还提取出各种其他单词的细微含意。例如,冠词“一个”、“该”、“这个”、“那个”和“其他的”由自然语言模块103区分,并且由对话管理模块104适当地理解。相信这些冠词被其他现有系统的模板匹配器所忽略,这些现有系统包括例如Jackson等人在1991年的DarpaSpeech and Natural Language Workshop上的“A Template Matcher forRobust Natural Language Interpretation”,或者美国专利No.6,292,767,名为“Method And System For Building and Running Natural LanguageUnderstanding Systems”中所描述的系统。
自然语言理解模块103支持知识库107的动态更新。依赖分析器103b根据模板数据进行训练。例如,在MP3领域中,所述训练数据不包括任何特定歌曲名,而是包含一个称为songname(歌曲名称)的一般性分类名。这对于其他分类也适用。在语法分析中,新歌曲数据库被提供或更新。当输入句子包含完整歌曲名称时,首先识别该名称,并且将其分类名songname添加到现有单词序列中,作为可替换路径。更复杂的情况可以是当歌曲名称是不完整的情况(心烦意乱的用户的普遍情况)。
语音识别器具有基于分类的语法(统计的或非统计的),在此,名称分类,例如歌曲名称,可以由另一个仅仅基于歌曲名称集合训练得到的n-gram模型定义,并且将该训练得到的n-gram模型动态或静态地插入到基于分类的语法中。在这点上,当歌曲名称数据库如同例如2004年7月15日申请的美国专利申请10/892,724,名为“AMETHOD AND APPARATUS FOR PROPER AND PARTIAL PROPERNAME RECOGNITION”中所描述的那样时,可以提供用于部分专有名词的识别器,其以90%以上的准确率标记相应的单词子序列,上述专利申请在此整体引入作为参考。将具有专有名词的修改的输入网格提供给分析器,以便进行分析。在这点上,本发明的典型实施例和/或典型方法可以使用例如Weng等人在6th International Workshop onParsing Technologies,ACL/SIGPARSE,Trento,2000上的“Parsing aLattice with Multiple Grammars”中所描述的特定技术。
语义主题分类器103d基于统计标记器103a和统计依赖分析器103b的输入,确定主题。语义主题分类器103d可以使用诸如条件最大熵建模、基于存储器的建模和/或其他方法的技术,将输入的句子分类到各个语义类别中。语义主题分类器103d所使用的模型可以使用标记的数据进行训练。
对话管理模块
图1c示出了典型对话管理模块104,用于管理和调解典型系统101的各个模块之间的交互。在这点上,典型对话管理模块104可以使用例如对话管理应用程序来实现,该应用程序可从斯坦福大学语言和信息交互研究中心(CSLI)得到,其有时被称为“CSLI对话管理器”或简称为“CDM”。CDM使用对话移动(dialogue-move)方法来保存对话上下文,该方法在例如Larsson和Traum在NaturalLanguage Engineering,No.6(3-4)200中的“Information state anddialogue management in the TRINDI dialogue move engine toolkit”中进行了描述,然后,将对话上下文用于理解输入的言辞(包括片段和修正),解决NP,构建显著的应答,追踪主题等。所述对话状态也可以用于偏置语言识别期望值并且提高语言确定性能。对于CDM的更详细的描述可以在例如Lemon等人在Traitement Automatique desLangues(TAL),No.43(2),2002中的“Collaborative activities andmulti-tasking in dialogue systems”中找到。
多领域设计
对话管理模块104支持多领域环境,并且可应用于广泛的应用中,包括例如对于智能设备和指导的控制。不同应用领域可以包括为表面级别生成指定不同的语法,以及设备特有的活动模型(AM),其表示由对话管理模块104管理的任务和所述任务的状态,从而可以提供对于所述任务的明确参考(例如“将其取消(cancel that)”)。所述活动模型是对于对话管理模块104与之交互的代理或设备的能力的说明性规范,并且其包括语言信息,例如从动词及其参数到设备动作的映射。例如,参见图3,其示出了典型活动模型和语言映射实现的伪代码。标记为“required(需要)”的参数在所给出的用户命令缺少参数时可以生成子对话。在这点上,所述活动模型方法允许实现“即插即用”功能,从而当将该典型对话系统应用于新领域时,不需要替换全部对话管理模块104。
对话管理模块104包括语义分析器组件104a,用于从来自自然语言理解模块103的准f结构中构建语义逻辑形式,并且获得需要上下文信息的对话移动类型。例如,当对话管理模块104从自然语言理解模块103接收到言辞时,可以使用当前上下文提取语义含意,并且对象(referent)可以使用“显著表(salience list)”来填充,显著表保存了引入到对话中的名词短语(NP)和宾语的表示。根据对话移动的类型,可以添加新命令至活动模型(AM),或者如果输入的言辞是一个提问,则可以查询知识管理模块108并将结果答案发送至自然语言理解模块103。对话管理模块104的一些内部组件可以允许依赖于领域和不依赖于领域的过程进行混合,其中,缺省流程是独立于特定领域实现的,但是其一些子过程可以轻松地配置为利用依赖于领域的信息。类似的,对于新的应用,当前实现也可以允许对于逻辑形式或对话移动操作符的扩展而不会扰乱CDM的核心实现。
多线程上下文管理
对话管理模块104配置为管理多线程、多主题的对话。这在汽车情况中尤其重要,在此,司机可能和多个设备进行交织性的交互。例如,选择并且预订餐馆的交互可能会被蜂窝电话请求所打断。在这点上,需要注意的是,当和多个设备交互时,用户可能希望和中央控制器交互而不是分别和每个设备交互。
用于支持多线程对话的对话管理模块104的组件包括对话移动树104b和活动树104c,其作为用于其他对话上下文功能的框架,所述其他对话上下文功能例如有生成任务报告以及在对话中休息之后提问用户(例如,“我们在谈论什么?”)。
对话移动树104b表示对话的历史上下文。输入的言辞被分类为对话移动,通过将其本身附着至所述对话移动树上的适当活动节点上而在上下文中对其进行理解。例如,可以将答案附着至有效的相应提问节点。新的对话主题产生新的分支,并且不能将其自身附着至最近的有效节点的对话移动可以附着至与恢复的对话相对应的另一分支中的有效节点上。
活动树104c管理与当前对话相关的活动。当用户发出一个命令时,其可以导致新的活动被创建并且被添加至活动树104c。在所述活动能够最终被发送至执行设备之前,该典型系统100尝试全部解析此活动,包括例如尝试解析全部名词短语(NP),或者产生子对话以便得到更多信息。修正和改正(例如,“我的意思是/我是说…”)可以包括编辑现有的活动表示。活动执行在活动树104c上被监控,并且变化可能导致生成输出,例如在失败或成功完成时。
对话移动树104b和活动树104c作为其他对话上下文功能的框架,所述其他对话上下文功能例如生成任务报告,以及在对话中休息之后提问用户(例如,典型系统100可能提示用户“我们在谈论什么?”)。对话移动树104b还为任务(例如参考解析情况)提供暗示性的谈话结构。
知识管理模块
知识管理器(KM)108控制知识库资源(例如,领域的一般性知识和设备信息)的访问和更新。领域知识根据依赖于领域的本体构建。知识管理模块108可以使用例如Protégé实现,其是不依赖于领域的主体工具,可以从斯坦福大学得到。有关Protégé的更详细的细节可以从例如“protege.stanford.edu”的网址上得到。
知识管理模块108可以由对话管理模块进行查询,所述对话管理模块例如与从命令或查询中构建的语义描述相匹配。例如,在MP3领域中,“播放一些Cher的摇滚音乐”命令可能导致对于具有流派=摇滚(genre=rock)并且艺术家=Cher(artist=cher)的歌曲(song)分类的对象的查询,在此,流派(genre)和摇滚(rock)是歌曲分类的(继承的)属性。当很多结果满足用户的约束时,对话管理模块104可以使用本体分层结构来对其进行分类,并且以简洁的方法输出这些结果以减少用户的认知负载。如上面所解释的,知识库模块107可以在任何点上动态地更新新实例。
另外,知识管理模块108还作为设备信息,例如活动模型(AM),的存储库。可替换的,活动模型(AM)可以驻留在设备/应用程序管理器110中。当有新设备可用时,其向知识管理模块108注册其信息,知识管理模块108使得该新设备对于CDM104是可用的。
设备/应用程序管理器
设备/应用程序管理器110基于一些因素,例如上下文中的当前设备、指示上下文变化的语言线索、明确的寻址、和/或者对于与特定设备的活动模型相关联的语言模板的言辞最佳匹配,决定哪个设备最适合处理给定的言辞(例如,命令或提问)。在这点上,设备/应用程序管理器110可以将依赖于设备和/或应用程序的信息与一般性对话管理模块104隔离,以便提供即插即用能力。设备/应用程序管理模块110包括状态信息,其描述特定设备或应用程序的多种可能状态以及所述状态的可能值域。可应用于所述设备/应用程序的活动、由此提供的功能、或者用于特定活动或功能的可能的语言表示可以由设备/应用程序管理器110保存和协调。在这点上,所述设备/应用程序特有的特定项目可以封装在领域模型中,当所述应用程序被初始使用时,该领域模型可以被公开发布。特别是,所述语言表示可以通过与自然语言理解模块103、“标记”模块相关联的统计模型或者通过其他途径来捕捉。
图4A示出了典型方法400,用于与认知超负荷的设备用户进行交互式对话。在步骤S401,典型系统100维护与设备和领域有关的信息的知识库。在步骤S402,典型系统100用关系和/或本体的方式组织所述信息。在步骤S403,典型系统100从用户处接收语音。在步骤S404,典型系统100在接收到的语音中减少噪音并消除回声。在步骤S405,典型系统100在接收到的语音中识别停顿、支吾和/或持续。在步骤S406,典型系统100把语音转化为单词序列,并识别该单词序列中的部分专有名词。在步骤S407,典型系统100调节所述部分专有名词的边界以便提高含意结构的准确率。在步骤S408,典型系统100使用领域信息的模型从所述单词序列中确定含意结构。在步骤S409,典型系统100使用知识库在与认知超负荷的用户的对话的上下文中理解所述含意结构。在步骤S410,典型系统100基于当前上下文和对所述含意结构的理解,决定要与所述设备相结合执行的操作。在步骤S411,典型系统100执行该设备操作。在步骤S412,典型系统100选择内容,用于对于认知超负荷的用户的应答。在步骤S413,典型系统100基于所选择的内容、对话的上下文和语法规则生成所述应答。在步骤S414,典型系统100为合成所述应答的语音波形。
图4B示出了典型方法450,用于确定由从认知超负荷的设备用户处接收到的语音转换的单词序列的含意结构。在步骤S415,所述典型系统为所述单词序列中的每个单词识别一部分语音标记。在步骤S416,典型系统100从所述单词序列中得到依赖性结构,以动态地修改领域信息的模型。在步骤S417,典型系统100将所述依赖性结构转换为特征结构。在步骤S418,典型系统100将所述部分语音标记和特征结构与单词序列的语义主题相关联。
图5示出了典型系统100的用户151与多个设备代理160a、160b和160c之间的典型集成接口。在此典型实施例中,为用户151提供了公共接口,以便与多个设备代理160a、160b和160c交互。在这点上,对话管理模块104的简单实例可以方便用户151与设备代理160a、160b和160c之间的交流。设备管理模块110可以了解每个设备并且作为对话管理模块104和各个代理160a、160b和160c之间的缓冲器。由此,设备管理模块110本身可以是集成代理,并且用户151相信他们正在与之进行交流。
但是,为了维持设备自主性,可以要求每个设备代理160a、160b和160c独立地处理给予它的命令,管理其自己的任务,并且将设备特有的言辞添加到对话管理模块104,以便实现更成功且更自然的任务对话与执行。
对话管理模块104可以使用根据CSLI对话管理器(CDM)的修改来实现,CDM提供了一种单设备系统,该系统使用对话管理器、对话移动树、任务树和模拟任务树来处理对话管理和任务执行。
根据本发明的典型实施例,除了支持多个设备之外,典型系统100可以仅用一个对话管理模块104配置,该对话管理模块104处理用户151与设备代理160a、160b和160c之间的所有语言交流。在这点上,用户可能感觉其好像仅寻址了单个代理/设备,这表示能够导致更高效的用户界面。因此,用户151可以简单地发出命令,比如,“开车去餐馆”,或者“调大声音”,并且可以觉得其在向单个代理对话,而不是分别向GPS系统和收音机对话。
当典型系统100用单个对话管理模块104配置时,该对话管理模块104使用面向任务的方法将言辞发送到正确的代理。例如,当用户151做出言辞时,对话管理模块104获取该言辞,并如同所述单设备对话系统中那样将其放置在对话移动树上。如果该言辞没有涉及任何先前的言辞(例如,给予所述设备之一的命令),则对话管理模块104就可以与设备管理模块110通信,以找到哪个设备应该接收该言辞。在此实例中,设备管理模块110可以确定适当的设备来处理该言辞并采取相应行动。但是,如果该言辞是对于已经存在的对话线程的响应,则可以将该言辞的效果自动地确定到发送到该适当的设备。
上下文设备
对话管理模块104可以额外地了解在当前语言上下文中的设备。每次都明确地寻址一个设备,或者生成与一个特定设备相对应的命令,该设备变为上下文中的当前设备。该设备也可以通过自己生成言辞而变为当前上下文设备。这可以例如通过设备上下文管理模块111维持,设备上下文管理模块111确保上下文中的设备在重设前仅在一定逻辑量的时间内保持在上下文中。换句话说,当一个设备变为上下文中的设备时,定时器启动,该定时器记录该设备已在上下文中多长时间。在特定时间段的结束时,将上下文中的设备重设为空。该定时器每次都重启该设备,或者另一个设备被寻址或说出言辞。因此,设备上下文管理模块111可以协调和/或管理轮换次序。在这点上,在运行NIST工程的MultideviceApp和CarApp时,在上下文中的设备可以出现在“CAR”的主面板上。
与任务相关的对话
为了便于用户151与所述设备之间的与任务相关的交流,可以由对话管理模块104维持一个集成的任务树(TaskTree),其代表每个代理都已经处理过的所有任务。该任务树可以如下面所述,与每个代理的任务执行管理在该代理的模拟任务树(SimTaskTree)中进行同步,以便对话管理模块104可以为用户提供有关过程、属于任何或所有代理的任务的成功与失败的反馈。因此,有关任务状态、完成、失败等的报告可以由所述任务树生成。
可替换的,每个设备可以为设备特有的面向任务的对话负责。例如,如果给出一个模糊的命令,设备就可能有责任解决该模糊性并继续任务的执行。这些言辞和询问可以用例如与单设备对话系统中的类似询问相同的方式来处理。解决这种设备生成的询问的样本对话在图6中示出。
分布式任务管理
根据本发明的典型实施例和/或典型方法,任务管理可以包括请求每个设备和/或设备代理自主地并独立地管理其自己的任务。在这点上,当对话管理模块104初始给出一个用户命令时,设备管理模块110可以使用类MultiDeviceTaskProperties构建一组一般性任务属性。这些属性表示与该用户命令相对应的任务的基本的、与领域无关的思想。这些属性的位置(slot)是正常的NL位置,例如“命令”,“直接宾语”和“形容词”。一旦构建了这些属性,设备管理模块110就向所述设备发送这些属性的一个拷贝,所述设备每个都答复它们是肯定能够处理该命令、可以处理该命令、还是肯定不能处理该命令。给予上下文中的当前设备第一次机会回复说其能够处理,并且如果其返回其肯定能够处理该任务,则将该任务自动给予该设备。反过来,汇集来自所有设备的答案,如果存在模糊性(即,两个设备都“肯定”能够处理该任务),则生成查询,以询问用户想要用哪个设备来处理所述言辞。当找到合适的设备时,将该命令分配给此设备,并将合适的节点添加至所述任务树和该设备的模拟任务树上,并且该设备自己处理任务的剩余部分的执行和交流。
设备注册
为了让一个设备加入到集成系统100中,可能需要满足几个要求,包括例如与识别、任务功能和系统特有的功能有关的要求。
对于与识别有关的要求,可以要求该设备具有唯一性的标识串,以便设备管理模块110可以了解每个设备。每个设备可以有设备类型(DeviceType)(即,UAV),以及唯一性的设备名(DeviceName)(即,UAV1)。所有事务,例如逻辑文件系统(lfs),任务管理等,都可以使用设备名作为标识标记。
对于与任务功能有关的要求,可以要求该设备能够在给定一般性任务描述的情况下判断其是否有能力处理和执行上述任务。此功能可以用于单设备和单代理任务以及多设备任务中。其可以由一系列可在设备的代码中找到的设备特有的功能实现。这些功能获取MultiDeviceTaskProperties或者GenericSlotSet,并且使用这些属性来判断它们认为它们是否能够执行由所述属性描述的任务。
对于与系统特有的功能有关的需要,为了能与典型系统100相兼容,可以要求该设备提供其他的系统特有类和功能。这可能包括例如TaskLFPParser,其获取一般性任务属性并且从设备特有的任务属性中构建所述设备的活动模型、NPResolver等。所有这些类(必须要执行内容的一个示例是查看餐馆设备(RestaurantDevice))都可以用于提供设备特有的任务和对话处理。每个设备自己的设备启动器类也可以位于该类别下。
任务分配
为了最大化或至少提高向设备分配任务的可靠性,当设备管理模块110选择一个设备来处理任务时,可以考虑几个因素。它可能给予在上下文中的当前设备最高的优先级。如果该设备能够处理该用户命令,则将该命令自动分配给该设备并且任务开始执行。否则,设备管理模块110可以向每个设备询问其是否有能力处理此任务,并汇集给予肯定回答的设备的列表。如果一个以上的设备认为其能够处理特定任务,可以生成查询,要求用户更明确地指定他们想要使用的设备。样本对话在图6中示出。一旦该查询被答复,就通知所选择的设备,以便使其可以开始处理该命令。任务分配的典型实现的典型伪代码在图7中提供。
任务处理与执行
如前所述,每个任务都要对执行和维持其自己的任务负责。其可以通过维持其自己的模拟任务树来实现该目的。如前面所提到的,这些模拟任务树与所述对话管理模块的单个任务树进行同步,以便于与任务相关的对话—即,更新和报告。因此,每个设备可以根据任务进行的如何(即,该任务是正在处理、已完成还是失败了),来持续地更新在其自己的模拟任务树上的任务,并且随后这些更新可以由所述任务树所获得,以保持其当前状态。如前面所述,这可以允许对话管理模块104向用户提供与所有任务的进度有关的反馈。换句话说,所述任务树可以被当作每个单个设备的模拟任务树的组合。各个单个设备的模拟任务树上只有其本身正在执行的(或已经执行过的,等等)任务,仅有一些与如下所述团队任务相关的例外情况。然而,所述任务树具有来自所有设备的所有任务的组合,并且因此其在某种意义上是每个单个模拟任务树的混合体以及在系统中发生的所有事件的一种表示。
示例对话
图2示出了用户与图1A的典型系统100之间的典型对话200,包括对MP3音乐播放器的控制。典型对话200示出了典型系统100可以处理的特定功能和交互,包括例如,基于上下文和外部环境的扩展名词短语(NP)解析、动态内容更新、去模糊性、多线程对话和复杂专有名词。
主要的功能是通过用于控制MP3音乐播放器的实际例子来描述的。
数据收集
为了改善以及评价典型系统100的性能,可以为特定任务收集对话数据。在这点上,可以使用“Oz向导”(Wizard of Oz,WOZ)方法,在该方法中,实验对象与处于另一个场所内的假装是智能机器的人进行交谈。这种设置可能需要设计高质量的对话系统,该系统在面向任务的交互中模拟人类行为。这部分地是因为WOZ方法可以在对话期间在语言复杂性方面设置正确的用户期望值。因此,WOZ方法可以避免陷入理解人与人的对话的困难问题中,该问题可能超出了当今NLP技术的能力之外。
为了模拟认知超负荷的场景,可以使用驾驶模拟器作为占用任务。作为该模拟器的一部分,可以使用称为Midtown Madness1(疯狂都市1)的电视游戏,其是发生在芝加哥市区。将带有力反馈的方向盘安装在游戏屏幕前。可以设置两个分开的场所(称为试验对象场所和向导场所),以使得试验对象和向导互不可见。向导作为“处理”对话系统,试验对象在不知道或者看不到向导的情况下与其进行交互。向导能够通过视频分离器看到游戏屏幕,从而其知道在试验对象在驾驶画面中的当前情况。当试验对象需要导航或娱乐信息时,其按下方向盘上的推下-交谈(push-to-talk,PTT)按钮并向头戴麦克风讲话。向导仅在PTT被按下才能够听到试验对象的语音。
来自试验对象和向导的对话被录音软件记录在硬盘上。可以构建一个用于操作MP3播放器的场景,其中,要求试验对象在其环绕城市开车时创建两个歌曲列表。为了创建该歌曲列表,试验对象可以在其收藏中查询歌曲,听歌曲,并将歌曲添加到其列表中或者从列表中删除。此场景提供多线程对话。

Claims (8)

1.一种对话系统,包括:
一个对话管理模块(104),其配置用于处理用户与设备之间的语言交流;
设备管理模块,其配置用于从多个可用设备中确定并选择多个设备中的一个适当的设备来处理所述对话管理模块发出的言辞并采取相应行动;以及
上下文管理模块,其配置用于在一段时间到期时将上下文中所述适当的设备从上下文中移除;
其中,在当执行确定和选择时所述多个设备中的一个设备在上下文中的情况下,所述设备管理模块配置为利用这样的事实:上下文中的各个设备作为用于选择和确定所述适当的设备的因素。
2.根据权利要求1所述的对话系统,其中所述对话管理模块配置用于支持设备特有的活动模型。
3.根据权利要求2所述的对话系统,其中所述活动模型是对于所述对话管理模块与之交互的设备的能力的说明性规范。
4.根据权利要求1所述的对话系统,其中所述设备管理模块向每个设备询问其是否有能力处理任务,并汇集给予肯定回答的设备的列表。
5.根据权利要求1所述的对话系统,其中,在上下文中预定时间量之后,在当前语言上下文中的设备被重设。
6.根据权利要求1所述的对话系统,其中,设备通过下列两种方式之一成为在当前语言上下文中的设备:(1)被明确地寻址;以及(2)被命令指导。
7.一种用于允许用户在口头上与多个设备交互的方法,包括:
由一个对话管理模块(104)处理用户与设备之间的语言交流;
由设备管理模块从多个可用设备中确定并选择多个设备中的一个适当的设备来处理所述对话管理模块发出的言辞并采取相应行动;以及
由上下文管理模块在一段时间到期时将所述适当的设备从上下文中移除;
其中,在当执行确定和选择时所述多个设备中的一个设备在上下文中的情况下,所述设备管理模块配置为利用这样的事实:上下文中的各个设备作为用于选择和确定所述适当的设备的因素。
8.根据权利要求7所述的方法,其中所述对话管理模块配置用于支持设备特有的活动模型。
CN201110276754.6A 2004-09-27 2005-08-10 用于认知超负荷的设备用户的交互式对话 Active CN102298928B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/952,069 2004-09-27
US10/952,069 US7716056B2 (en) 2004-09-27 2004-09-27 Method and system for interactive conversational dialogue for cognitively overloaded device users
CN2005800402704A CN101189659B (zh) 2004-09-27 2005-08-10 用于认知超负荷的设备用户的交互式对话

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2005800402704A Division CN101189659B (zh) 2004-09-27 2005-08-10 用于认知超负荷的设备用户的交互式对话

Publications (2)

Publication Number Publication Date
CN102298928A CN102298928A (zh) 2011-12-28
CN102298928B true CN102298928B (zh) 2015-07-01

Family

ID=35395833

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201110276754.6A Active CN102298928B (zh) 2004-09-27 2005-08-10 用于认知超负荷的设备用户的交互式对话
CN2005800402704A Active CN101189659B (zh) 2004-09-27 2005-08-10 用于认知超负荷的设备用户的交互式对话

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN2005800402704A Active CN101189659B (zh) 2004-09-27 2005-08-10 用于认知超负荷的设备用户的交互式对话

Country Status (5)

Country Link
US (1) US7716056B2 (zh)
EP (2) EP1794747B1 (zh)
JP (1) JP5142720B2 (zh)
CN (2) CN102298928B (zh)
WO (1) WO2006036328A1 (zh)

Families Citing this family (356)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7324927B2 (en) * 2003-07-03 2008-01-29 Robert Bosch Gmbh Fast feature selection method and system for maximum entropy modeling
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
TWI293753B (en) * 2004-12-31 2008-02-21 Delta Electronics Inc Method and apparatus of speech pattern selection for speech recognition
EP1851755A4 (en) * 2005-02-15 2010-01-20 Celf Corp USER DIALOGUE CONNECTION
US20060271520A1 (en) * 2005-05-27 2006-11-30 Ragan Gene Z Content-based implicit search query
US8041570B2 (en) * 2005-05-31 2011-10-18 Robert Bosch Corporation Dialogue management using scripts
US7904300B2 (en) * 2005-08-10 2011-03-08 Nuance Communications, Inc. Supporting multiple speech enabled user interface consoles within a motor vehicle
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US8700403B2 (en) * 2005-11-03 2014-04-15 Robert Bosch Gmbh Unified treatment of data-sparseness and data-overfitting in maximum entropy modeling
US8027457B1 (en) * 2005-12-01 2011-09-27 Cordell Coy Process for automated deployment of natural language
JP5248867B2 (ja) * 2006-01-31 2013-07-31 本田技研工業株式会社 会話システムおよび会話ソフトウェア
KR100760301B1 (ko) * 2006-02-23 2007-09-19 삼성전자주식회사 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치
US9620117B1 (en) * 2006-06-27 2017-04-11 At&T Intellectual Property Ii, L.P. Learning from interactions for a spoken dialog system
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US9082406B2 (en) 2006-11-30 2015-07-14 Robert Bosch Llc Method and system for extending dialog systems to process complex activities for applications
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101075301A (zh) 2007-06-28 2007-11-21 腾讯科技(深圳)有限公司 虚拟宠物系统和虚拟宠物聊天方法、装置
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US8639509B2 (en) * 2007-07-27 2014-01-28 Robert Bosch Gmbh Method and system for computing or determining confidence scores for parse trees at all levels
CN101122972A (zh) * 2007-09-01 2008-02-13 腾讯科技(深圳)有限公司 一种虚拟宠物聊天系统、方法及虚拟宠物问答服务器
CN101119209A (zh) 2007-09-19 2008-02-06 腾讯科技(深圳)有限公司 虚拟宠物系统和虚拟宠物聊天方法、装置
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
WO2009047858A1 (ja) * 2007-10-12 2009-04-16 Fujitsu Limited エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置、音出力装置、オーディオシステム、ナビゲーションシステム及び移動体
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US7996214B2 (en) * 2007-11-01 2011-08-09 At&T Intellectual Property I, L.P. System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework
US8155959B2 (en) * 2007-11-07 2012-04-10 Robert Bosch Gmbh Dialog system for human agent to correct abnormal output
US20090125813A1 (en) * 2007-11-09 2009-05-14 Zhongnan Shen Method and system for processing multiple dialog sessions in parallel
US8620662B2 (en) * 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8583418B2 (en) * 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10481878B2 (en) * 2008-10-09 2019-11-19 Objectstore, Inc. User interface apparatus and methods
US9978365B2 (en) 2008-10-31 2018-05-22 Nokia Technologies Oy Method and system for providing a voice interface
US9129601B2 (en) * 2008-11-26 2015-09-08 At&T Intellectual Property I, L.P. System and method for dialog modeling
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8326637B2 (en) * 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8442826B2 (en) 2009-06-10 2013-05-14 Microsoft Corporation Application-dependent information for recognition processing
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US8682669B2 (en) * 2009-08-21 2014-03-25 Synchronoss Technologies, Inc. System and method for building optimal state-dependent statistical utterance classifiers in spoken dialog systems
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US20110110534A1 (en) * 2009-11-12 2011-05-12 Apple Inc. Adjustable voice output based on device status
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US20110307250A1 (en) * 2010-06-10 2011-12-15 Gm Global Technology Operations, Inc. Modular Speech Recognition Architecture
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
KR101699720B1 (ko) * 2010-08-03 2017-01-26 삼성전자주식회사 음성명령 인식 장치 및 음성명령 인식 방법
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8769009B2 (en) 2011-02-18 2014-07-01 International Business Machines Corporation Virtual communication techniques
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9298287B2 (en) 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9454962B2 (en) * 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9495331B2 (en) 2011-09-19 2016-11-15 Personetics Technologies Ltd. Advanced system and method for automated-context-aware-dialog with human users
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US8595016B2 (en) * 2011-12-23 2013-11-26 Angle, Llc Accessing content using a source-specific content-adaptable dialogue
CN103187060A (zh) * 2011-12-28 2013-07-03 上海博泰悦臻电子设备制造有限公司 车载语音处理装置
CN103187058A (zh) * 2011-12-28 2013-07-03 上海博泰悦臻电子设备制造有限公司 车内语音对话系统
CN103187051A (zh) * 2011-12-28 2013-07-03 上海博泰悦臻电子设备制造有限公司 车载互动装置
US8825533B2 (en) 2012-02-01 2014-09-02 International Business Machines Corporation Intelligent dialogue amongst competitive user applications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
CN103366732A (zh) * 2012-04-06 2013-10-23 上海博泰悦臻电子设备制造有限公司 语音播报方法及装置、车载系统
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
DE102013209780B4 (de) 2012-05-29 2022-03-31 GM Global Technology Operations, LLC (n.d. Ges. d. Staates Delaware) Verfahren und Dialogsystem zum Verbessern der Fahrzeugsicherheit mittels Abschätzen einer kognitiven Belastung von auf das Fahren bezogenen Aktivitäten durch eine Mensch-Maschine-Schnittstelle
US20130325482A1 (en) * 2012-05-29 2013-12-05 GM Global Technology Operations LLC Estimating congnitive-load in human-machine interaction
US9009027B2 (en) * 2012-05-30 2015-04-14 Sas Institute Inc. Computer-implemented systems and methods for mood state determination
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
CN103514875A (zh) * 2012-06-29 2014-01-15 联想(北京)有限公司 语音数据的匹配方法和电子设备
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9667742B2 (en) 2012-07-12 2017-05-30 Robert Bosch Gmbh System and method of conversational assistance in an interactive information system
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US8700396B1 (en) * 2012-09-11 2014-04-15 Google Inc. Generating speech data collection prompts
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9619459B2 (en) * 2012-10-01 2017-04-11 Nuance Communications, Inc. Situation aware NLU/NLP
WO2014070872A2 (en) 2012-10-30 2014-05-08 Robert Bosch Gmbh System and method for multimodal interaction with reduced distraction in operating vehicles
US10282419B2 (en) 2012-12-12 2019-05-07 Nuance Communications, Inc. Multi-domain natural language processing architecture
US9607046B2 (en) 2012-12-14 2017-03-28 Microsoft Technology Licensing, Llc Probability-based state modification for query dialogues
CN103049532A (zh) * 2012-12-21 2013-04-17 东莞中国科学院云计算产业技术创新与育成中心 基于突发事件应急管理的知识库引擎构建及其查询方法
KR20140089871A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 대화형 서버, 그 제어 방법 및 대화형 시스템
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9378741B2 (en) 2013-03-12 2016-06-28 Microsoft Technology Licensing, Llc Search results using intonation nuances
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN110096712B (zh) 2013-03-15 2023-06-20 苹果公司 通过智能数字助理的用户培训
US10303762B2 (en) * 2013-03-15 2019-05-28 Disney Enterprises, Inc. Comprehensive safety schema for ensuring appropriateness of language in online chat
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
CN105144133B (zh) 2013-03-15 2020-11-20 苹果公司 对中断进行上下文相关处理
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US9263032B2 (en) 2013-10-24 2016-02-16 Honeywell International Inc. Voice-responsive building management system
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10209853B2 (en) 2013-12-20 2019-02-19 Robert Bosch Gmbh System and method for dialog-enabled context-dependent and user-centric content presentation
DE102014002543A1 (de) * 2014-02-22 2015-08-27 Audi Ag Verfahren zur Erfassung wenigstens zweier zu erfassender Informationen mit zu verknüpfendem Informationsgehalt durch eine Sprachdialogeinrichtung, Sprachdialogeinrichtung und Kraftfahrzeug
CN103942056B (zh) * 2014-05-05 2017-07-28 北京京东尚科信息技术有限公司 一种基于场景的人机交互方法和装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10726831B2 (en) * 2014-05-20 2020-07-28 Amazon Technologies, Inc. Context interpretation in natural language processing using previous dialog acts
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9547471B2 (en) * 2014-07-03 2017-01-17 Microsoft Technology Licensing, Llc Generating computer responses to social conversational inputs
US9390725B2 (en) 2014-08-26 2016-07-12 ClearOne Inc. Systems and methods for noise reduction using speech recognition and speech synthesis
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US9690776B2 (en) 2014-12-01 2017-06-27 Microsoft Technology Licensing, Llc Contextual language understanding for multi-turn language tasks
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10460720B2 (en) 2015-01-03 2019-10-29 Microsoft Technology Licensing, Llc. Generation of language understanding systems and methods
US10713005B2 (en) 2015-01-05 2020-07-14 Google Llc Multimodal state circulation
US10572810B2 (en) 2015-01-07 2020-02-25 Microsoft Technology Licensing, Llc Managing user interaction for input understanding determinations
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10109214B2 (en) 2015-03-06 2018-10-23 International Business Machines Corporation Cognitive bias determination and modeling
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10091140B2 (en) * 2015-05-31 2018-10-02 Microsoft Technology Licensing, Llc Context-sensitive generation of conversational responses
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10249297B2 (en) 2015-07-13 2019-04-02 Microsoft Technology Licensing, Llc Propagating conversational alternatives using delayed hypothesis binding
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
WO2017083504A1 (en) * 2015-11-12 2017-05-18 Semantic Machines, Inc. Interaction assistant
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10896681B2 (en) 2015-12-29 2021-01-19 Google Llc Speech recognition with selective use of dynamic language models
US9922647B2 (en) * 2016-01-29 2018-03-20 International Business Machines Corporation Approach to reducing the response time of a speech interface
US10229687B2 (en) * 2016-03-10 2019-03-12 Microsoft Technology Licensing, Llc Scalable endpoint-dependent natural language understanding
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9996531B1 (en) * 2016-03-29 2018-06-12 Facebook, Inc. Conversational understanding
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10606952B2 (en) * 2016-06-24 2020-03-31 Elemental Cognition Llc Architecture and processes for computer learning and understanding
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10446137B2 (en) 2016-09-07 2019-10-15 Microsoft Technology Licensing, Llc Ambiguity resolving conversational understanding system
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10366160B2 (en) 2016-09-30 2019-07-30 International Business Machines Corporation Automatic generation and display of context, missing attributes and suggestions for context dependent questions in response to a mouse hover on a displayed term
US10268679B2 (en) 2016-12-02 2019-04-23 Microsoft Technology Licensing, Llc Joint language understanding and dialogue management using binary classification based on forward and backward recurrent neural network
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10268680B2 (en) 2016-12-30 2019-04-23 Google Llc Context-aware human-to-computer dialog
US10235990B2 (en) 2017-01-04 2019-03-19 International Business Machines Corporation System and method for cognitive intervention on human interactions
US10373515B2 (en) 2017-01-04 2019-08-06 International Business Machines Corporation System and method for cognitive intervention on human interactions
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10318639B2 (en) 2017-02-03 2019-06-11 International Business Machines Corporation Intelligent action recommendation
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
CN107093425A (zh) * 2017-03-30 2017-08-25 安徽继远软件有限公司 电力系统的语音导航系统、语音识别方法和语音交互方法
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
KR101945190B1 (ko) * 2017-05-11 2019-02-07 미디어젠(주) 음성인식 작동 시스템 및 방법
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
WO2019032996A1 (en) * 2017-08-10 2019-02-14 Facet Labs, Llc ORAL COMMUNICATION DEVICE AND COMPUTER ARCHITECTURE FOR PROCESSING DATA AND DELIVERING USER FEEDBACK OUTPUT, AND ASSOCIATED METHODS
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10504513B1 (en) 2017-09-26 2019-12-10 Amazon Technologies, Inc. Natural language understanding with affiliated devices
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US11360736B1 (en) * 2017-11-03 2022-06-14 Amazon Technologies, Inc. System command processing
EP3483748A1 (en) * 2017-11-14 2019-05-15 Atos Information Technology GmbH Assistant bot for controlling a domain specific target system
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10579739B2 (en) * 2018-01-23 2020-03-03 Wipro Limited Method and system for identifying places of interest in a natural language input
US10991369B1 (en) * 2018-01-31 2021-04-27 Progress Software Corporation Cognitive flow
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN108877811B (zh) * 2018-04-24 2022-05-06 中国地质大学(武汉) 一种基于声纹选择词汇的方法、设备及存储设备
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10559308B2 (en) * 2018-06-18 2020-02-11 Sas Institute Inc. System for determining user intent from text
US10803251B2 (en) * 2018-06-30 2020-10-13 Wipro Limited Method and device for extracting action of interest from natural language sentences
US10803253B2 (en) * 2018-06-30 2020-10-13 Wipro Limited Method and device for extracting point of interest from natural language sentences
US10803252B2 (en) * 2018-06-30 2020-10-13 Wipro Limited Method and device for extracting attributes associated with centre of interest from natural language sentences
JP7068962B2 (ja) * 2018-08-13 2022-05-17 株式会社日立製作所 対話方法、対話システム及びプログラム
TWI683226B (zh) * 2018-08-28 2020-01-21 宏碁股份有限公司 多媒體處理電路及電子系統
US10971132B2 (en) 2018-08-28 2021-04-06 Acer Incorporated Multimedia processing method and electronic system
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11238750B2 (en) * 2018-10-23 2022-02-01 International Business Machines Corporation Evaluation of tutoring content for conversational tutor
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
KR20200085143A (ko) * 2019-01-04 2020-07-14 삼성전자주식회사 외부 장치를 등록하는 대화형 제어 시스템 및 방법
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN111723566B (zh) * 2019-03-21 2024-01-23 阿里巴巴集团控股有限公司 产品信息的重构方法和装置
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
JP2022531645A (ja) * 2019-05-09 2022-07-08 エスアールアイ インターナショナル 人間会話キューを理解および生成する方法、システム、および装置
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US10868778B1 (en) * 2019-05-30 2020-12-15 Microsoft Technology Licensing, Llc Contextual feedback, with expiration indicator, to a natural understanding system in a chat bot
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110223679A (zh) * 2019-06-14 2019-09-10 南京机电职业技术学院 一种语音识别输入装置
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
DE102019127075A1 (de) * 2019-10-09 2021-04-15 Bayerische Motoren Werke Aktiengesellschaft Computerimplementiertes verfahren und datenverarbeitungssystem für einen intelligenten persönlichen assistenten sowie computerimplementiertes verfahren und datenverarbeitungssystem zum erstellen eines dendrogramms
CN110782871B (zh) 2019-10-30 2020-10-30 百度在线网络技术(北京)有限公司 一种韵律停顿预测方法、装置以及电子设备
US11416556B2 (en) * 2019-12-19 2022-08-16 Accenture Global Solutions Limited Natural language dialogue system perturbation testing
CN113050787B (zh) * 2019-12-26 2022-08-05 上海智臻智能网络科技股份有限公司 一种人机对话模型的训练方法及人机对话方法
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11829720B2 (en) 2020-09-01 2023-11-28 Apple Inc. Analysis and validation of language models
GB2601542B (en) * 2020-12-04 2023-07-19 Rolls Royce Plc System for reply generation
US12021806B1 (en) 2021-09-21 2024-06-25 Apple Inc. Intelligent message delivery
CN114898751B (zh) * 2022-06-15 2024-04-23 中国电信股份有限公司 自动化配置方法及系统、存储介质和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5267323A (en) * 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
EP1079371A1 (en) * 1999-08-26 2001-02-28 Matsushita Electric Industrial Co., Ltd. Universal remote control allowing natural language modality for television and multimedia searches and requests
US6505057B1 (en) * 1998-01-23 2003-01-07 Digisonix Llc Integrated vehicle voice enhancement system and hands-free cellular telephone system

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4706212A (en) * 1971-08-31 1987-11-10 Toma Peter P Method using a programmed digital computer system for translation between natural languages
US5887120A (en) * 1995-05-31 1999-03-23 Oracle Corporation Method and apparatus for determining theme for discourse
ZA965340B (en) * 1995-06-30 1997-01-27 Interdigital Tech Corp Code division multiple access (cdma) communication system
US6292767B1 (en) 1995-07-18 2001-09-18 Nuance Communications Method and system for building and running natural language understanding systems
US5828710A (en) * 1995-12-11 1998-10-27 Delco Electronics Corporation AFC frequency synchronization network
US6292718B2 (en) * 1999-01-28 2001-09-18 International Business Machines Corp. Electronic control system
WO2000062193A1 (en) * 1999-04-08 2000-10-19 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition
JP3994368B2 (ja) * 2000-01-25 2007-10-17 ソニー株式会社 情報処理装置および情報処理方法、並びに記録媒体
JP2001306199A (ja) * 2000-04-17 2001-11-02 Sharp Corp ネットワーク機器制御装置
EP1162803A1 (en) * 2000-06-05 2001-12-12 Telefonaktiebolaget L M Ericsson (Publ) Frequency tracking device and method for a receiver of a multi-carrier communication system
US7346490B2 (en) * 2000-09-29 2008-03-18 Axonwave Software Inc. Method and system for describing and identifying concepts in natural language text for information retrieval and processing
US7023928B2 (en) * 2001-08-06 2006-04-04 Lucent Technologies Inc. Synchronization of a pilot assisted channel estimation orthogonal frequency division multiplexing system
US20030061029A1 (en) 2001-08-29 2003-03-27 Efraim Shaket Device for conducting expectation based mixed initiative natural language dialogs
US7103116B2 (en) * 2001-09-24 2006-09-05 Atheros Communications, Inc. Detection of a false detection of a communication packet
US7403890B2 (en) * 2002-05-13 2008-07-22 Roushar Joseph C Multi-dimensional method and apparatus for automated language interpretation
US8931010B2 (en) * 2002-11-04 2015-01-06 Rovi Solutions Corporation Methods and apparatus for client aggregation of media in a networked media system
JP2004198597A (ja) * 2002-12-17 2004-07-15 Advanced Telecommunication Research Institute International 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
US7324927B2 (en) 2003-07-03 2008-01-29 Robert Bosch Gmbh Fast feature selection method and system for maximum entropy modeling
US7865356B2 (en) 2004-07-15 2011-01-04 Robert Bosch Gmbh Method and apparatus for providing proper or partial proper name recognition
US7424363B2 (en) 2004-08-20 2008-09-09 Robert Bosch Corporation Method and system for adaptive navigation using a driver's route knowledge

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5267323A (en) * 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
US6505057B1 (en) * 1998-01-23 2003-01-07 Digisonix Llc Integrated vehicle voice enhancement system and hands-free cellular telephone system
EP1079371A1 (en) * 1999-08-26 2001-02-28 Matsushita Electric Industrial Co., Ltd. Universal remote control allowing natural language modality for television and multimedia searches and requests

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Class-Based n-gram Models of Natural Language;Peter F. Brown et al;《Computational Linguistics》;19921231;第18卷(第4期);对比文件2的Introduction部分的右栏第一段 *

Also Published As

Publication number Publication date
CN101189659A (zh) 2008-05-28
EP1794747A1 (en) 2007-06-13
JP5142720B2 (ja) 2013-02-13
WO2006036328A1 (en) 2006-04-06
JP2008514983A (ja) 2008-05-08
CN101189659B (zh) 2011-11-16
CN102298928A (zh) 2011-12-28
EP1794747B1 (en) 2019-07-10
US20060074670A1 (en) 2006-04-06
US7716056B2 (en) 2010-05-11
EP2296141A1 (en) 2011-03-16

Similar Documents

Publication Publication Date Title
CN102298928B (zh) 用于认知超负荷的设备用户的交互式对话
Allen et al. An architecture for a generic dialogue shell
Tur et al. Spoken language understanding: Systems for extracting semantic information from speech
Schatzmann et al. The hidden agenda user simulation model
JP4075067B2 (ja) 情報処理装置および情報処理方法、並びに、プログラム
US11016968B1 (en) Mutation architecture for contextual data aggregator
KR20080068844A (ko) 텍스트 메타데이터를 갖는 음성문서의 인덱싱 및 검색방법, 컴퓨터 판독가능 매체
CN101535983A (zh) 协作会话语音用户界面的系统和方法
JP2001357053A (ja) 対話装置
Weng et al. CHAT: a conversational helper for automotive tasks.
Lee et al. Interactive spoken content retrieval by deep reinforcement learning
Minker et al. Spoken dialogue systems technology and design
Dybkjær et al. The disc approach to spoken language systems development and evaluation.
Williams Spoken dialogue systems: Challenges, and opportunities for research.
CN111798847A (zh) 语音交互方法、服务器和计算机可读存储介质
López-Cózar et al. Testing dialogue systems by means of automatic generation of conversations
Keizer A Bayesian approach to dialogue act classification
WO2021181930A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
Raghunathan et al. A Conversational Dialogue System for Cognitively Overloaded Users
Wai et al. Scalability and portability of a belief network-based dialog model for different application domains
Pearlman Sls-lite: Enabling spoken language systems design for non-experts
Komatani et al. Managing out-of-grammar utterances by topic estimation with domain extensibility in multi-domain spoken dialogue systems
Keizer Dialogue act modelling using Bayesian networks
Cavedon et al. Developing a conversational in-car dialog system
Dybkjær et al. Design, formalization and evaluation of spoke language dialogue

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant