CN108369580A - 针对屏幕上项目选择的基于语言和域独立模型的方法 - Google Patents
针对屏幕上项目选择的基于语言和域独立模型的方法 Download PDFInfo
- Publication number
- CN108369580A CN108369580A CN201680071950.0A CN201680071950A CN108369580A CN 108369580 A CN108369580 A CN 108369580A CN 201680071950 A CN201680071950 A CN 201680071950A CN 108369580 A CN108369580 A CN 108369580A
- Authority
- CN
- China
- Prior art keywords
- language
- project
- feature
- computing device
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000009471 action Effects 0.000 claims abstract description 18
- 230000004044 response Effects 0.000 claims abstract description 12
- 238000003860 storage Methods 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 40
- 238000000605 extraction Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 22
- 239000003550 marker Substances 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 16
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 230000006399 behavior Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000000429 assembly Methods 0.000 description 3
- 230000000712 assembly Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 210000002414 leg Anatomy 0.000 description 3
- 238000006116 polymerization reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011022 operating instruction Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002195 synergetic effect Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 241000238558 Eucarida Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24522—Translation of natural language queries to structured queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
提供了一种针对项目消歧和选择的基于通用模型的方法。可以由计算设备响应于用于选择的项目的列表来接收话语。在一些方面,项目的列表可以在显示器屏幕上显示。继而可以向话语应用通用消歧模型。通用消歧模型可以用于基于所标识的语言和/或域独立参考特征,来确定话语是否指向项目的列表中的至少一个,并且标识来自列表的与话语相对应的项目。计算设备继而可以执行可以包括选择与话语相关联的所标识的项目的动作。
Description
背景技术
机器学习、语言理解和人工智能正在改变用户与计算机交互的方式。计算机和应用的开发者总是尝试改进人类与计算机之间的交互。然而,语言理解的开发以及选择针对任何给定语言的模型经常需要大量时间、金钱和其他资源来完成。
就这些和其他一般考虑而言,已经做出了本文公开的方面。而且,虽然可以讨论相对具体的问题,但是应当理解,本文的各方面不应当限于解决背景技术或者本公开内容其他部分中所标识的具体问题。
发明内容
总体来说,公开内容一般涉及用于提供或者生成针对屏幕上项目选择和消歧的基于语言和/或域独立模型的方法。响应于在显示器上显示项目,可以由计算设备接收第一语言的话语(utterance)。继而可以由计算设备向话语应用语言和/或域独立消歧模型。即使在通用消歧模型没有在相同语言中被训练或者接收相同语言的最小训练数据作为话语时,也可以使用该通用模型。通用消歧模型可以基于从所提取的话语的参考特征选择的语言和/或域独立特征来标识话语是否指向显示器上的项目中的至少一个项目,并且继而可以标识所显示的项目中的项目是否与话语相对应。在标识与显示器上的话语相对应的项目时,计算设备继而可以执行与话语相关联的动作。因此,本文公开的系统和方法的语言和/或域独立模型以最小成本和开发时间可扩展至新的语言。更具体地,本文公开的系统和方法的语言和/或域独立模型通过使其通用于或者可应用于任何给定语言而提供改善的效率和可扩展性。因此,与不是设计为语言和/或域独立的自然用户接口或者消歧模型相比,本文公开的系统和方法的语言和/或域独立模型更加易于开发和/或扩展,并且更加有效。
本公开内容的一个方面包括一种语言理解系统。该语言理解系统包括语言理解服务器。语言理解服务器包括处理器和存储器。处理器执行存储在存储器上的指令以执行方法。该方法包括:从多个特征提取器检索训练特征,并且基于使用来自不同特征提取器的训练特征以形成经训练的语言理解模型的训练算法,来估计模型参数。在一些方面,多个特征提取器(例如,域预测器、意图预测器、实体预测器等)可以定位在与语言理解系统相同的服务器上。在其他方面,多个特征提取器可以定位在与语言理解系统通信的一个或多个不同的服务器上。
本公开内容的另一方面涉及一种用于训练和使用自然语言理解系统的方法。该方法包括训练语言理解系统的语言理解模型。语言理解模型的训练包括:例如在语言理解服务器处接收来自多个特征提取器的训练特征,并且基于使用来自不同特征提取器的训练特征以形成经训练的语言理解模型的训练算法,来估计模型参数。在一些方面,多个特征提取器(例如,域预测器、意图预测器、实体预测器等)可以定位在语言理解服务器上。在其他方面,多个特征提取器可以定位在与语言理解服务器通信的一个或多个不同的服务器上。
本公开内容的又一方面包括一种系统。该系统包括至少一个处理器和存储器。存储器包括存储在其上的计算机可执行指令。计算机可执行指令由至少一个处理器执行。计算机可执行指令导致系统执行操作,操作包括:在自然语言服务器上接收来自客户端设备的自然语言输入,向第一特征提取器(例如,意图预测器)发送自然语言输入,向第二特征提取器(例如,域预测器)发送自然语言输入,以及向第三特征提取器(例如,实体预测器)发送自然语言输入。在一些方面,一个或多个特征提取器(例如,第一特征提取器、第二特征提取器和第三特征提取器)可以定位在与自然语言服务器通信的一个或多个远程服务器上。在其他方面,一个或多个特征提取器可以定位在自然语言服务器上。
关于上文描述的方面,计算机可执行指令导致系统执行另外的操作,操作包括:从第一特征提取器接收针对自然语言输入的第一潜在特征集合,从第二特征提取器接收针对自然语言输入的第二潜在特征集合,以及从第三特征提取器接收针对自然语言输入的第三潜在特征集合。计算机可执行指令导致系统执行附加操作,操作包括:聚合第一潜在特征集合、第二潜在特征集合和第三潜在特征集合,以形成聚合的潜在特征集合,并且使用利用来自第一特征提取器、第二特征提取器和第三特征提取器的训练特征训练的语言理解模型,来评估聚合的潜在特征集合。计算机可执行指令导致系统执行另外的操作,操作包括基于评估聚合的潜在特征集合来确定用户意图、域和实体(或者位置(slot))以及相关联的置信度分数,以及基于用户意图、域和实体以及置信度分数来生成响应。
提供此发明内容以用于以简化形式介绍下文在具体实施方式中进一步描述的概念的选择。此发明内容不旨在标识所要求保护的主题的关键特征或者必要特征,也不旨在辅助确定所要求保护的主题的范围。
这些和其他特征和优点将通过阅读以下具体实施方式和相关联的附图的评述而变得易见。可以理解,前述一般描述和下文具体实施方式都仅是说明性的而不是权利要求的约束。
附图说明
参考以下附图来描述非限制性和非穷举式的示例或者方面。
图1是图示了根据公开内容的方面的使用针对屏幕上项目选择和消歧(disambiguation)的基于通用模型的方法的系统。
图2A示出了根据公开内容的方面的计算设备的屏幕显示器,其包括用于使用针对屏幕上项目选择和消歧的基于通用模型的方法的用户接口。
图2B示出了根据公开内容的方面的计算设备的屏幕显示器,其包括用于使用针对屏幕上项目选择和消歧的基于通用模型的方法的用户接口。
图3示出了根据公开内容的方面的计算设备的屏幕显示器,其包括用于使用针对屏幕上项目选择和消歧的基于通用模型的方法的用户接口。
图4是图示了根据公开内容的方面的用于使用针对屏幕上项目选择和消歧的基于通用模型的方法的例程的流程图。
图5是图示了根据公开内容的方面的用于使用针对屏幕上项目选择和消歧的基于通用模型的方法的例程的流程图。
图6是图示了可以利用其实践公开内容的方面的计算设备的示例物理组件的框图。
图7A和图7B是可以利用其实践公开内容的方面的移动计算设备的简化框图。
图8是可以利用其实践公开内容的各种方面的分布式计算系统的简化框图。
图9图示了可以利用其实践公开内容的方面的平板计算设备。
具体实施方式
机器学习、语言理解和人工智能的进步正在改变用户与计算机交互的方式。诸如SIRI、GOOGLE Now和CORTANA的数字助理应用是人机交互转换的示例。自然语言理解(NLU)系统负责提取语义框架以表示自然语言输入的域、意图和语义位置(或者实体)。NLU系统通常使用从域和语言特定的输入或者具有语义注释的数据训练的NLU模型。来自特征提取器的诸如单词N元语法、词典、个性化等的各种特征被用于建立NLU模型。在已经训练NLU之后对所接收的用户话语进行语义解码的运行时,也可以提取用于训练NLU模型的来自特征提取器的相同特征集合。
因为视觉呈现用于传送对话系统或者应用的响应,统计自然语言理解中的人机交互已经随着视觉显示屏幕的添加而改变。在解译用户话语时,屏幕上项目标识和分辨(resolution)是实现自然和精确的人机通信的一个关键问题。消歧模型已经被设计为从用户话语准确地标识屏幕上项目。消歧模型用于通过使用由NLU系统从话语中提取的参考特征,来标识话语是否指向显示器上的项目中的至少一个,并且基于所提取的参考特征来标识所显示的项目中与话语相对应的项目。计算设备继而可以在标识显示器上与话语相对应的项目时执行与话语相关联的动作。NLU系统和消歧模型的组合提供自然用户接口(NUI),其支持针对用户的更加自然的用户交互。
随着NUI成为主流,将NUI和消歧模型扩展至不同语言产生了新的和有挑战性的问题。传统上,NLU系统和消歧模型都需要利用所接收的话语的语言和/或域中的注释数据来进行训练。另外,先前使用的系统和方法需要利用与NLU系统使用的相同量的训练数据来训练消歧模型。因此,消歧模型的训练通常是时间和成本高昂的,这妨碍了消歧模型和/或NUI到新语言的可扩展性。附加地,每个新的域和/或语言需要附加的存储器和存储,使得在添加更多的语言和域时其更难以将消歧模型和/或NUI扩展至更多的语言和域。
通常没有允许通用(本文中也称为语言和/或域独立)消歧模型的系统或者方法。本文公开的系统和方法提供了通用消歧模型。通用消歧模型是语言和/或域独立的,这是因为通用消歧模型标识从话语中提取的语言和/或域独立特征,并且使用这些特征来确定话语是否与所显示的项目相关。因此,本文公开的系统和方法提供了可以应用于任何语言的通用消歧模块,其对该语言进行最小化的培训或者不培训,并且具有最小的精度损失。另外,在最小的成本和开发时间的情况下,通用消歧模型容易地可扩展至新的语言。因此,通过使消歧模型通用或者可应用于任何给定语言,本文公开的系统和方法改进了消歧模型的开发、效率和可扩展性。
因此,与不是被设计为通用的NUI或者消歧模型相比,本文公开的系统和方法提供了可应用于更多语言并且更加有效的NUI或者消歧模型。例如,基于增加的(由减少的消歧模型训练数据的需要而释放的)可用存储器,用于响应所接收的话语的处理时间可以减少。另外,在这些不同语言中对消歧模型进行训练或者仅进行最小化的训练的情况下,本文公开的系统和方法允许消歧模型从不同语言中训练的一个或多个不同NLU系统接收特征。由此,在与不是被设计为通用的消歧模型相比时,NUI和消歧模型更加易于扩展或者应用于新的语言。
在以下详细描述中,可以对形成其一部分的附图做出参考,并且其中通过图示的方式示出了具体实施方式或者示例。这些实施方式或者示例可以进行组合,可以使用其他实施方式或者示例,并且在不脱离本公开内容的精神或者范围的情况下,可以做出结构上的改变。因此,以下详细描述不应被认为是限制性的,并且本公开内容的范围由所附权利要求及其等同物限定。
现在将参考附图描述本公开内容的各种方面,其中在若干附图中,相似的数字表示相似的元件。图1是图示了根据公开内容的方面的通用系统100的框图,该通用系统100使用针对屏幕上项目选择和消歧的基于模型的方法。可以包括会话式对话系统的系统100包括与显示器110通信的计算设备125(应当理解,根据公开内容的各种方面,显示器110可以与计算设备125集成或者包括连接至计算设备125的单独设备)。计算设备125可以包括但不限于膝上型计算机、智能手机、视频游戏控制台、电视机、移动电话、智能电话、平板计算机、智能手表、可穿戴计算机、个人计算机、台式计算机和/或游戏系统。计算设备125还可以包括一个或多个记录设备(未示出)或者与其通信,一个或多个记录设备用于检测话音并且接收视频/图片(例如,MICROSOFT KINECT、麦克风等)。
计算设备125可以存储应用130,如下文将更加详细地描述,应用130可以配置用于从用户接收自然语言查询形式的话语135和140,以选择可以在显示器110上示出的项目115。话语135和140可以是相同的语言或者不同的语言。在一些方面,应用130可以与操作系统相关联地执行,操作系统诸如来自华盛顿雷德蒙德的微软公司的WINDOWS PHONE和XBOXOS操作系统。然而,应当理解,根据本文描述的各种方面,可以替换地使用其他操作系统和应用(包括来自其他制造商的那些)。
项目115中的每一个还可以包括元数据120,该元数据120可以包括附加项目数据,诸如文本描述(例如,电影项目的概要、出版年份、演员、体裁等)。例如,应用130可以配置用于显示用户接口,该用户接口用于查询基于常见字符(例如,“哈利波特”电影)的电影列表或者位于城市或者城镇的特定区域中的餐馆列表(例如,位于华盛顿贝尔维尤东北部的餐馆),并且继而由此做出期望选择。也可以使用应用130接收和显示包括针对与其他类别(例如,联系人列表、音乐、电视节目等)相对应的其他项目的自然语言查询的话语。
在一些方面,计算设备125可以包括一个或多个特征提取器和/或通用消歧模型150(也称为“选择模型”)或者与其集成。在其他方面,计算设备125经由网络和与计算设备125分离的一个或多个特征提取器114和/或通用消歧模型150通信。在一些方面,一个或多个特征提取器114和/或通用消歧模型150是应用130的一部分。在其他方面,应用130与一个或多个单独的特征提取器114和/或通用消歧模型150通信。
如下文将更加详细地描述的,应用130可以配置用于生成、使用通用消歧模型150/与通用消歧模型150通信。通用消歧模型150从应用130和/或计算设备125接收包括其元数据120的所显示的项目115。附加地,通用消歧模型150接收或者获得与话语140相关联的参考特征145(其可以包括显式描述参考、隐式描述参考、显式空间或位置参考以及隐式空间或位置参考)。从一个或多个特征提取器114接收或者获得参考特征145。
可以针对特定域和/或语言来训练每个特征提取器114。例如,可以使用第一训练数据118a来训练第一特征提取器114a,第一训练数据118a诸如与美国域相关联的注释英语数据或者与意大利域相关联的注释意大利语数据。在另一示例中,可以使用第二训练数据118b来训练第二特征提取器114b,第二训练数据118b诸如与墨西哥域相关联的注释西班牙语数据或者与法国域相关联的注释法语数据。然而,通过使用针对任意数目的语言或者域118n的训练数据,可以由系统100使用特征提取器114n。特征提取器114是能够从用户话语或者查询中提取参考特征145的任何NLU系统或者口语理解系统。在一些方面,使用来自与话语相同语言的注释数据来训练特征提取器。在其他方面,使用来自与话语不同的语言的注释数据来训练特征提取器。
如上文所讨论的,特征提取器114可以提取语义框架以标识自然语言输入的域、意图和语义位置(或者实体)。特征提取器114可以提取各种特征145,诸如单词N元语法、词典、个性化等。特征提取器114向通用消歧模型150发送针对话语的这些参考特征145。因此,与话语135或话语140相关联的参考特征145(其可以包括显示描述参考、隐式描述参考、显示空间或位置参考和隐式空间或位置参考)可以包括域和/或语言特定特征以及域和/或语言独立特征。例如,n元语法特征是语言相关特征。在一些方面,语言独立特征是指主要从语义空间(例如,存在位置标记但不是实际单词标记的)、项目的位置和/或位置参考(例如,“第一个”)导出的特征。例如,特征的值是语言和域相关的,而特征的存在不是语言和域相关的。例如,单词“足球”的存在与用于说出该单词的域或者语言不相关。然而,单词“足球”的值以及其是否指英式足球或者美式足球与用于解译该单词的值的语言(例如,美国英语或者英国英语)和域(美国或者英国)相关。由此,由特征提取器114生成的特征中的一些特征是语言和/或域相关的。而由特征提取器114生成的其他特征是语言和/或域独立的。在一些方面,特征提取器114是与通用消歧模型150分离并且不同的组件。在其他方面,特征提取器114是通用消歧模型150的一部分或者集成组件。
通用消歧模型150可以包括特征标识器/选择器151。通用消歧模型150还可以包括各种子模型和程序模块,包括统计分类器模型155、词法重叠模块160、语义解析器165和/或语义定位解析器170。通用消歧模型150可以使用特征标识器/选择器151来标识和/或选择来自一个或多个特征提取器114的、语言和/或域独立的特征。通用消歧模型150可以使用前述子模型和程序模块中的一个或多个,基于所选择的通用特征(也称为域和/或语言独立特征)而确定所显示的项目115与话语140之间是否存在关系,以使得通用消歧模型150可以准确地标识指向计算设备125的显示器110的话语,并且响应于用户查询而选择正确的项目。
在一些方面,通用消歧模型150向应用130和/或计算设备125发送话语与一个或多个所显示的项目115之间所确定的关系175。在这些方面,应用130和/或计算设备125基于所确定的关系或者关联175来确定要采取的动作。在其他方面,通用消歧模型150向应用130和/或计算设备125发送话语与一个或多个所显示的项目115之间所确定的关系175以及所确定的动作以用于执行。
在一些方面,通用消歧模型150尚未利用话语的语言中的任何训练数据进行训练。在示例中,如图1所图示,在第一语言中提供话语135,并且通用消歧模型150尚未从该第一语言接收训练数据118a。然而,通过使用通用特征,通用消歧模型150能够从话语135确定屏幕上项目选择,在与话语的相同语言中完全训练的消歧模型相比时,具有5%或者更少的绝对精度损失。另外,通用消歧模型150通过使用通用特征能够以85%-95%的精度,来在其中通用消歧模型159没有训练的语言中从话语135确定屏幕上项目选择。由此,对于在通用消歧模型150没有被训练的语言和/或域中的话语,通用消歧模型150可以被有效地使用。
另外,通用消歧模型150可以利用话语的相同语言中最少量的训练数据来增加其精度。例如,当通用消歧模型150接收与语言理解模型相比针对给定语言的20%至30%的随机选择的训练数据时,与在话语的语言中完全训练的消歧模型相比,通用消歧模型150可以具有仅2%或者更少的精度损失。在另一示例中,当通用消歧模型150接收与语言理解模型相比针对给定语言的10%至20%的随机选择的训练数据时,与在话语的该语言中完全训练的消歧模型相比,通用消歧模型150可以具有仅3%或者更少的精度损失。
因此,系统100易于以最少的成本和开发时间可扩展至新的语言。另外,系统100通过使消歧模型通用或者可应用于任何给定语言而改进了消歧模型的开发、效率和可扩展性。因此,与不是被设计为通用的NUI或者消歧模型相比,系统100提供了可应用于更多语言并且更加有效的NUI或者消歧模型。
图2A示出了根据本公开内容的方面的计算设备125的屏幕显示器,其包括用于使用针对屏幕上项目消歧和选择的基于通用模型的方法的用户接口205。用户接口205可以由应用130在显示器110上生成,其可以配置用于用户与计算设备125交互以完成诸如浏览、搜索、过滤等若干任务。用户接口205可以包括第一回合(turn)或者第一话语207以及识别结果209。第一回合话语207可以包括由用户针对项目的列表所提出的查询(例如,“查找喜剧”),之后应用130可以为用户返回项目列表220A-220J以便从显示器110上所示出的进行选择。如上文关于图1所讨论的,项目220A-220J中的每一个可以包括附加于元数据(未向用户示出)的伴随文本(例如,喜剧电影的标题),其可以包括关于每个项目的附加信息。
图2B示出了根据公开内容的方面的计算设备125的屏幕显示器,其包括用于使用针对屏幕上项目消歧和选择的基于通用模型的方法的用户接口205。用户接口205可以由应用130在显示项目220A-220J之后响应于接收到第一话语207而生成(如图2A所示),用户接口205可以包括第二回合或者第二话语210以及识别结果215。如下文关于图4-图5将更加详细地讨论的,识别结果215可以通过将通用消歧模型150应用于第二话语210而确定,以便从所显示的项目220A-220J(例如,“项目10”)中标识用户所请求的正确项目(例如,“最后一个”)。一旦已经标识了项目,则该项目继而可以被高亮(诸如围绕项目220J所示)以用于用户的选择或者其他动作。
图3示出了根据公开内容的方面的计算设备125的屏幕显示器,其包括用于针对屏幕上项目消歧和选择的基于通用模型的方法的用户接口305。用户接口305可以由应用130在显示器110上生成,其可以配置用于用户与计算设备125交互,以完成诸如浏览、搜索、过滤等若干任务。用户接口305可以包括话语310和识别结果315。如下文关于图4-图5将更加详细地讨论的,识别结果315可以通过向话语310应用通用消歧模型150(也称为“选择模型”)而确定,以便从所显示的项目320-330中标识用户请求的正确项目(例如,“街道名称3上的一个”)。一旦已经标识了项目,则该项目继而可以被高亮(诸如应用于项目330所示的)以用于用户的选择或者其他动作。
图4是图示了根据公开内容的方面的例程400的流程图,例程400使用针对项目消歧和选择的基于消歧模型(也称为“选择模型”)的方法。在一些方面,通用消歧模型可以用于标识和选择在显示器上呈现的多个项目中的项目。在其他方面,通用消歧模型可以用于标识和选择经由备选介质向用户呈现的多个项目中的项目,备选介质例如音频接口、触觉接口(例如盲文)等。在又一些方面,通用消歧模型可以用于标识和选择项目的储存库中的多个项目中的项目。
在阅读本文提出的例程的讨论时,应当理解,本公开内容的各种方面的逻辑操作被实现为(1)在计算系统上运行的计算机实现的行为或者程序模块的序列和/或(2)计算系统内的互连机器逻辑电路或者电路模块。实现是取决于实现公开内容的计算系统的性能需求的选择问题。因此,图4-图5中所图示的并且组成本文描述的各种方面的逻辑操作不同地称为操作、结构设备、行为或者模块。本领域技术人员将认识到,在不偏离如本文陈述的权利要求内阐述的本公开内容的精神和范围的情况下,这些操作、结构设备、行为和模块可以在软件、硬件、固件、专用数字逻辑或者其任何组合中实现。备选地或者附加地,本文描述的功能性可以至少部分地由一个或多个硬件逻辑组件执行。例如但非限制性的,可以使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。
例程400开始于操作405,其中在计算设备125上执行的应用130可以(从用户)接收话语。在一些方面,话语可以响应于多个项目在显示器110上的显示。在其他方面,话语可以响应于多个项目经由另一介质的呈现,另一介质例如音频、触觉(例如,盲文)等。在又一些方面,话语可以是自发的,例如,没有项目的呈现的提示的情况下出现。话语可以是第一语言的。
例程500从操作405继续到操作410,其中在计算设备125上执行的应用130可以应用通用消歧模型150,以标识(或者确定)与在操作405处接收的话语相对应的项目。应当理解,根据一个方面,单个通用模型(例如,通用消歧模型150或者选择模型)可以用于实现多级过程。例如,当话语响应于显示器上的多个项目时,通用模型可以:(1)标识用户是否指的是显示器110上的项目,并且如果是,(2)确定用户指的是哪个项目,并且在一些方面,(3)选择该项目。根据备选方面,多个模型(例如,单独的模型)可以用于实现前述多级过程。例如,第一模型可以用于确定用户是否指的是显示器110上的项目,并且第二模型可以用于确定或者表示用户指的是哪个项目(例如,对项目消歧),并且在一些方面,选择针对动作的所标识的项目。下文关于图5将更加详细地描述用于标识与话语相对应的项目的通用消歧模型150执行的说明性操作。
例程400从操作410继续到操作415,其中在计算设备125上执行的应用130可以执行与由通用消歧模型150标识的项目相关联的动作(或者多个动作)。例如,在一些方面,动作可以包括用户选择显示器110上的多个项目中的经消歧的项目,以用于查看与所选择的项目有关的附加信息(例如,与所选择的电影标题有关的附加信息)。在其他方面,动作可以包括用户选择显示器上经消歧的项目以及与所选择的项目相关联的活动的执行。活动例如可以包括播放所选择的电影、显示去往所选择的餐馆定位的方向、生成去往来自联系人列表的所选择的联系人的电子邮件,等等。从操作415,例程400继而结束。
图5是图示了根据公开内容的方面的例程500的流程图,例程500使用针对项目消歧和选择的基于通用模型的方法。如上文提供的,在一些方面,通用消歧模型可以用于标识和选择显示器上呈现的多个项目中的项目。在其他方面,通用消歧模型可以用于标识和选择经由备选介质向用户呈现的多个项目中的项目,备选介质例如音频、触觉(例如,盲文)等。在又一些方面,通用消歧模型可以用于标识和选择项目的储存库中的多个项目中的项目。
例程500开始于操作501,其中从第一语言的话中提取参考特征。在一些方面,在作为话语的相同或者不同语言中训练的一个或多个特征提取器用于提取参考特征。例如,基于话语来提取一些特征(例如,指示用户的意图的LU特征),而不考虑呈现了多个项目中的哪些项目。在其他方面,基于话语的特征与多个项目相关联的特征之间的关系来提取特征。如上文所讨论的,一个或多个特征提取器114可以用于在操作501期间从话语提取参考特征。特别地,一个或多个特征提取器114可以配置用于通过考虑不同类型的话语(或者话语分类)来提取语义和语法特征。在一个方面,话语分类可以包括:(1)显式参考(即,标题的整体或者部分的显示提及,或者诸如下划线文本的其他文本提示(例如,在查阅预定标题时“向我示出空座位的细节”));(2)隐式参考(即,使用与项目相关的信息的项目的隐式参照,诸如作者的姓名或者项目图像(例如,“2005年发布的一个”));(3)显式位置(即,使用来自被显示为网格的项目的信息的位置参考或者屏幕定位数据(例如,“我想看右下角的电影”));以及(4)隐式位置(即,与显示器上的一个项目相关的位置参考(例如,针对同一行中相同导演的两个显示的电影项目的“该导演的电影中的第二个”))。
在操作502处,通用消歧模型150可以标识或者接收与多个项目相关联的参考特征。在一些方面,参考特征可以作为元数据附加到多个项目中的每一个。如上文提供的,多个项目可以在显示器上呈现,经由另一介质呈现,或者从项目储存库可访问。另外,无关于所呈现的项目(例如,指示用户的意图的LU特征)从话语标识(提取)一些参考特征,并且基于与一个或多个项目相关联的特征的关系(例如,相似度)从话语中标识(提取)一些参考特征。例如,针对每个项目,执行推理引擎(例如,模型预测)来提取参考特征。在一些情况下,可以从与项目相关联的元数据中标识参考特征。在另外的方面,可以从在与话语相同或者不同的语言中训练的一个或多个特征提取器接收或者获得参考特征。附加地,在一些方面,没有利用与话语相同的语言中的任何训练数据来训练通用模型。在其他方面,利用与话语相同的语言中的仅最少量的训练数据来训练通用模型,诸如与针对该语言的特征提取器所使用的训练数据的量相比是50%、40%、30%、20%、10%或5%或者更少。
在操作503处,通用消歧模型150可以从获得的或者接收的参考特征中标识通用特征。通用特征可以是语言和/或域独立的任何特征。例如,基于话语和项目关系,可以确定哪个话语指的是哪个项目。由此,在一些方面,在操作503处,通用消歧模型150标识语言独立特征。在其他方面,在操作503处,通用消歧模型150标识域(或者场所)独立特征。在又一些方面,在操作503处,通用消歧模型150标识语言独立特征与域独立特征的组合。如上文所讨论的,标记的值或者标记的n元语法是语言相关特征,并且因此可以不由通用消歧模型150在操作503处标识。然而,诸如导出的语义空间、标记的存在、项目的位置和/或位置参考(例如,“第一个”)的特征是语言和/或域独立特征,并且可以由通用消歧模型150在操作503处标识。
通用消歧模型150在操作504处选择所标识的通用特征。由此,通用消歧模型150使用域和/或语言独立特征来确定第一语言的话语是否与一个或多个项目相关联。例如,一个或多个标识的通用特征可以由模型基于话语和多个项目二者的知识来选择。也就是,来自话语的特定单词/词组可以与多个项目中的一个或多个项目的名称或者属性中的单词/词组相匹配。在一些方面,当由模型确定匹配时,特定通用特征可以在运行时期间激发(例如,被选择)。
在操作505处,其中(由应用130生成或者使用的)通用消歧模型150可以确定在图4的操作405处接收的话语是否指向多个项目中的一个或多个特定项目,例如,显示器110上显示的一个或多个屏幕上项目。特别地,通用消歧模型150可以配置用于建立以及向话语和项目的所选择的通用特征应用统计分类器模型155。在一些方面,统计分类器模型155可以包括词法和语义特征。词法和语义特征可以包括从话语中的文本获得的词汇、话语与显示器110上的项目相关联的项目元数据之间的词组匹配以及定位特征(例如,“顶部”、“第二个”等)。在操作505处,如果通用消歧模型150确定话语指向例如显示器110上显示的多个项目中的至少一个项目,则例程500分支到操作520。在操作505处,如果通用消歧模型150不能确定话语指向一个或多个特定项目(例如,话语与一个或多个屏幕上项目的元数据中的任何元数据之间不存在词组匹配),则例程500继续到操作510。
在操作510处,应用130可以配置用于请求所接收的话语的澄清。例如,所请求的澄清可以包括返回“没有结果”消息,随后是对重新叙述话语的请求。例程500从操作510返回至操作501。
在操作520处,通用消歧模型150可以基于在操作504处选择的通用特征来标识与话语相对应的一个或多个项目。在一些方面,所标识的(一个或多个)项目可以是显示器110上显示的多个项目中的一个或多个、经由另一介质(例如,音频、触觉等)呈现的多个项目中的一个或多个和/或项目储存库中的多个项目中的一个或多个。特别地,通用消歧模型150可以配置用于标识话语中的一个或多个显式和隐式参考(例如,参考特征),确定话语与多个项目中的每一个相关联的元数据之间的词法匹配分数(本文中也称为词法重叠),针对话语和元数据中的语义词组之间的匹配词组来解析话语,以及解析话语以捕获定位指示符以用于预测项目的屏幕定位。例如,词法匹配分数可以基于词法单词匹配,词法单词匹配基于单词重叠、单词顺序、Jaccard句子相似度等。在一些方面,如果针对话语-项目对的词法匹配分数高于阈值,则通用消歧模型150可以确定项目与用户做出的话语相对应。在其他方面,如果针对话语-项目对的词法匹配分数低于阈值,则通用消歧模型150可以确定项目与用户做出的话语不相对应。
应当理解,根据一个方面,当使用话语的相同语言中的至少一些数据来训练通用模型时,通用消歧模型150可以使用语义解析器165(其可以包括自然语言理解模型)来将话语解码为语义标记,诸如电影-名称、演员-名字或者描述符(诸如电影或者游戏类型或者描述)。备选地,通用消歧模型150可以仅使用所选择的通用特征中的语义标记。通用消歧模型150可以寻找话语与每个项目的元数据中的语义词组之间的匹配词组。还应当理解,根据公开内容的一些方面,通用消歧模型150可以使用语义定位解析器170来解析话语以用于捕获取决于屏幕布局(例如,在诸如智能电话或者手持式游戏设备的较小显示器屏幕上,所显示的项目可以列在单个列中,而在较大的显示器屏幕上,诸如膝上型、平板、台式计算机监视器或者电视机,所显示的项目可以列在网格结构中)的屏幕定位特征(例如,行和列指示符、空间指示符,诸如左、右、上、下等)。一旦已经提取了经解析的话语中的单词的定位特征,通用消歧模型150就可以用于确定所显示的项目的预测定位。
从操作520,例程500继而结束。
因此,例程(或者方法)400和/或500易于以最小的成本和开发时间而可扩展至新的语言。另外,在没有附加训练或者仅具有最小化的训练的情况下,例程400和/或500通过使消歧模型通用或者可应用于任何给定语言而改进了消歧模型的开发、效率和可扩展性。因此,与不是被设计为通用的NUI或者消歧模型相比,例程400和/或500提供了可应用于更多语言并且更加有效的NUI或者消歧模型。
图6-图9以及相关联的描述提供了其中可以实践公开内容的方面的多种操作环境的讨论。然而,关于图6-图9所图示和讨论的设备和系统是出于示例和说明的目的,而不是对可以用于实践本文描述的公开内容的方面的大量计算设备配置的限制。
图6是图示了可以利用其实践公开内容的方面的计算设备600的物理组件(例如,硬件)的框图。例如,通用消歧模型150可以由计算设备600和/或应用620实现。在一些方面,计算设备600是移动电话、智能电话、平板计算机、平板手机、智能手表、可穿戴式计算机、个人计算机、台式计算机、游戏系统、膝上型计算机等等。下文描述的计算设备组件可以包括用于NLU系统的计算机可执行指令,其可以被执行以采用方法300或者400以及实现本文公开的系统100或者200的部分。在基本配置中,计算设备600可以包括至少一个处理单元602和系统存储器604。取决于计算设备的配置和类型,系统存储器604可以包括但不限于易失性存储(例如,随机存取存储器)、非易失性存储(例如,只读存储器)、闪速存储器或者此类存储器的任何组合。系统存储器604可以包括操作系统605以及适于运行软件应用620的一个或多个程序模块606。操作系统605例如可以适于控制计算设备600的操作。另外,公开内容的方面可以与图形库、其他操作系统或者任何其他应用程序相结合地实践,并且不限于任何特定应用或者系统。该基本配置在图6中由虚线608内的那些组件图示。计算设备600可以具有附加特征或者功能性。例如,计算设备600还可以包括附加数据存储设备(可移动和/或不可移动),举例而言,诸如磁盘、光盘或者磁带。此类附加存储在图6中由可移动存储设备609和不可移动存储设备610图示。例如,训练数据、所提取的特征、通用特征和/或话语可以存储在所图示的存储设备中的任何存储设备中。
如上所述,多个程序模块和数据文件可以存储在系统存储器604中。当在处理单元602上执行时,程序模块606(例如,通用消歧模型150)可以执行包括但不限于执行如本文描述的方法300和/或方法400的过程。例如,处理单元602可以实现通用消歧模型150或者应用620。根据本公开内容的方面可以使用并且特别地用于生成屏幕内容的其他程序模块可以包括数字助理应用、语音识别应用、电子邮件应用、社交网络应用、协同应用、企业管理应用、消息收发应用、文字处理应用、电子表格应用、数据库应用、演示应用、联系人应用、游戏应用、电子商务应用、电子商业应用、事务型应用、交换应用、日历应用等。在一些方面,通用消歧模型150可以由以上提及的应用中的一个来执行。
另外,公开内容的方面可以在电气电路中实践,电气电路包括分立电子元件、包含逻辑门的封装或者集成电子芯片、使用微处理器的电路或者包含电子元件或者微处理器的单个芯片上的电路。例如,公开内容的方面可以经由片上系统(SOC)实践,其中图6中所图示的组件中每一个或者许多可以集成到的那个集成电路上。此类SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能性,所有这些被集成(或者“烧制”)到芯片衬底上作为单个集成电路。当经由SOC操作时,本文描述的关于客户端到交换机协议的能力的功能性可以经由单个集成电路(芯片)上与计算设备600的其他组件集成的专用逻辑来操作。公开内容的方面还可以使用能够执行逻辑操作的其他技术来实践,举例而言,逻辑操作诸如与、或和非,包括但不限于机械、光学、流体和量子技术。另外,公开内容的方面可以在通用计算机内或者任何其他电路或者系统中实践。
计算设备600还可以具有一个或多个输入设备612,诸如键盘、鼠标、笔、麦克风或者其他声音或语音输入设备、触摸或刷卡输入设备等。还可以包括(一个或多个)输出设备614,诸如显示器、扬声器、打印机等。前述设备是示例,并且可以使用其他设备。计算设备600可以包括一个或多个通信连接616,其允许与其他计算设备650通信。适合的通信连接616的示例包括但不限于RF发射机、接收机和/或收发机电路、通用串行总线(USB)、并行和/或串行端口。
如本文使用的术语计算机可读介质或者存储介质可以包括非暂时性计算机存储介质。计算机存储介质可以包括在用于信息的存储的任何方法或者技术中实现的易失性和非易失性、可移动和不可移动介质,信息诸如计算机可读指令、数据结构或者程序模块。系统存储器604、可移动存储设备609和不可移动存储设备610都是计算机存储介质示例(例如,存储器存储)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪速存储器或者其他存储器技术、CD-ROM、数字通用盘(DVD)或者其他光学存储、磁带盒、磁带、磁盘存储或者其他磁存储设备,或者可以用于存储信息并且可以由计算设备600访问的任何其他制品。任何此类计算机存储介质都可以是计算设备600的一部分。计算机存储介质不包括载波或者其他传播或者调制的数据信号。
通信介质可以由计算机可读指令、数据结构、程序模块或者调制数据信号中的其他数据(诸如载波或者其他传送机制)来具体化,并且包括任何信息递送介质。术语“调制数据信号”可以描述具有一个或多个特征集或者以编码信号中的信息的方式改变的信号。通过示例而非限制性的方式,通信介质可以包括有线介质(诸如有线网络或者直接有线连接)和无线介质(诸如声学、射频(RF)、红外和其他无线介质)。
图7A和图7B图示了可以利用其实践公开内容的方面的移动计算设备700,例如,移动电话、智能电话、平板计算机、平板手机、智能手表、可穿戴式计算机、个人计算机、台式计算机、游戏系统、膝上型计算机等等。参考图7A,图示了适于实现方面的移动计算设备700的一个方面。在基本配置中,移动计算设备700是手持式计算机,其具有输入元件和输出元件二者。移动计算设备700通常包括显示器705以及一个或多个输入按钮710,其允许用户将信息录入到移动计算设备700中。移动计算设备700的显示器705也可以充当输入设备(例如,触摸屏显示器)。
如果包括的话,可选的侧面输入元件715允许进一步的用户输入。侧面输入元件715可以是旋转开关、按钮或者任何其他类型的手动输入元件。在备选方面,移动计算设备700可以并入更多或者更少的输入元件。例如,在一些方面,显示器705可以不是触摸屏。在另一备选方面,移动计算设备700是便携式电话系统,诸如蜂窝电话。移动计算设备700还可以包括可选的小键盘735。可选的小键盘735可以是物理小键盘或者在触摸屏显示器上生成的“软”小键盘。
附加于或者代替与显示器705相关联的触摸屏输入设备和/或小键盘735,自然用户接口(NUI)可以并入到移动计算设备700中。如本文使用的,NUI包括使得用户能够以不受诸如鼠标、键盘、遥控器等输入设备施加的认为约束的“自然”方式与设备交互的任何接口技术。NUI方法的示例包括依赖于话音识别、触摸和笔识别、屏幕上以及邻近屏幕二者的手势识别、隔空手势、头部和眼部跟踪、语音和话音、视觉、触摸、手势和机器智能的那些方法。
在各种方面,输出元件包括用于示出图形用户接口(GUI)的显示器705。在本文公开的方面中,各种用户信息收集可以在显示器705上显示。另外的输出元件可以包括视觉指示器720(例如,发光二极管)和/或音频换能器725(例如,扬声器)。在一些方面,移动计算设备700并入振动换能器以用于向用户提供触觉反馈。在又一方面,移动计算设备700并入输入和/或输出端口,诸如音频输入(例如,麦克风插孔)、音频输出(例如,头戴式耳机插孔)和视频输出(例如,HDMI端口)以用于向外部设备发送信号或者从外部设备接收信号。
图7B是图示了移动计算设备的一个方面的架构的框图。也就是,移动计算设备700可以并入系统(例如,架构)702以实现一些方面。在一个方面,系统702实现为“智能电话”,其能够运行一个或多个应用(例如,浏览器、电子邮件、日历、联系人管理器、消息收发客户端、游戏和媒体客户端/播放器)。在一些方面,系统702集成为计算设备,诸如集成的个人数字助理(PDA)和无线电话。
一个或多个应用程序766和/或通用消歧模型150可以被加载到存储器762中,并且在操作系统764上运行或者与操作系统764相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、因特网浏览器程序、消息收发程序等等。系统702还包括存储器762内的非易失性存储区域768。非易失性存储区域768可以用于存储在系统702断电时不应当丢失的持续信息。应用程序766可以使用并且存储非易失性存储区域768中的信息,诸如由电子邮件应用使用的电子邮件或者其他消息,等等。同步应用(未示出)也驻留在系统702上,并且被编程为与驻留在主计算机上的相对应的同步应用交互,以保持存储在非易失性存储区域768中的信息与存储在主计算机处的相对应的信息同步。应当理解,其他应用可以加载到存储器762中并且在移动计算设备700上运行。
系统702具有电源770,其可以实现为一个或多个电池。电源770还可能包括外部电源,诸如AC适配器或者电源插座,其用于对电池进行补充或者充电。
系统702还可以包括无线电772,其执行发射和接收射频通信的功能。无线电772支持系统702与“外部世界”之间经由通信载体或者服务提供者的无线连接性。去往和来自无线电772的传输在操作系统764的控制下进行。换言之,由无线电772接收的通信可以经由操作系统764传布到应用程序766,反之亦然。
视觉指示器720可以用于提供视觉通知,以及/或者音频接口774可以用于经由音频换能器725产生可听的通知。在所图示的方面中,视觉指示器720是发光二极管(LED),并且音频换能器725是扬声器。这些设备可以直接耦合至电源770,以使得在被激活时,即使处理器760和其他组件可能关闭以保存电池电量,它们仍然保持开启通知机制所指定的持续时间。LED可以被编程以无限地保持开启,直到用户采取动作来指示设备的电源开启状态。音频接口774用于向用户提供可听信号并且从用户接收可听信号。例如,除了耦合至音频换能器725之外,音频接口774还可以耦合至麦克风以接收可听输入。系统702还可以包括视频接口776,其使得机载相机730能够记录静止图像、视频流等。
实现系统702的移动计算设备700可以具有附加特征或者功能性。例如,移动计算设备700还可以包括(可移动和/或不可移动)附加数据存储设备,诸如磁盘、光盘或者磁带。此类附加存储在图7B中由非易失性存储区域768来图示。
由移动计算设备700生成或者捕获并且经由系统702存储的数据/信息可以本地存储在移动计算设备700上,如上所述,或者数据可以存储在任意数目的存储介质上,任意数目的存储介质可以由设备经由无线电772或者经由移动计算设备700与移动计算设备700相关联的单独计算设备(例如,诸如因特网的分布式计算网络中的服务器计算机)之间的有线连接而访问。应当理解,此类数据/信息可以经由移动计算设备700、经由无线电772或者经由分布式计算网络而访问。类似地,此类数据/信息可以容易地在计算设备之间传送,以用于根据公知的数据/信息传送和存储方式的存储和使用,包括电子邮件和协同数据/信息共享系统。
图8图示了用于处理在计算系统处从远程源接收的数据的系统的架构的一个方面,诸如一般计算设备804、平板计算机806或者移动设备808,如上所述。在服务器设备802处显示的内容可以存储在不同的通信信道或者其他存储类型中。例如,可以使用目录服务822、网络门户824、邮箱服务826、即时消息收发储存库828或者社交网络站点830来存储各种文档。通过示例的方式,通用消歧模型150可以在一般计算设备804、平板计算设备806和/或移动计算设备808(例如,智能电话)中实现。在其他方面,服务器802配置用于经由网络815针对应用130实现通用消歧模型150。
图9图示了示例性平板计算设备900,其可以执行本文公开的一个或多个方面。附加地,本文描述的方面和功能性可以在分布式系统(例如,基于云的计算系统)上操作,其中应用功能性、存储器、数据存储和取回以及各种处理功能可以通过分布式计算网络(诸如因特网或者内联网)彼此远程地操作。用户接口和各种类型的信息可以经由机载计算设备显示器或者经由与一个或多个计算设备相关联的远程显示单元来显示。例如,用户接口和各种类型的信息可以墙面上显示并且交互,用户接口和各种类型的信息被投影到该墙面上。与利用其可以实践本发明的方面的多数计算系统的交互包括击键录入、触摸屏录入、语音或者其他音频录入、手势录入,其中相关联的计算设备配备有检测(例如,相机)功能性,其用于捕获并且解译用于控制计算设备的功能性的用户手势,等等。
在一个方面,计算设备被提供为包括至少一个处理器和存储器,该存储器用于存储和编码计算机可执行指令,当计算机可执行指令由至少一个处理器执行时,可操作用于使得计算设备接收话语。例如,计算机可执行指令还可以使得计算设备从话语中提取特征以形成提取的特征。计算机可执行指令还可以使得计算设备使用语言独立消歧模型来标识指向多个项目中的至少一个项目的话语,其中语言独立消歧模型通过以下来标识话语指向多个项目中的至少一个项目:将提取的特征中的一个或多个域独立特征和语言独立特征标识为通用特征;确定从话语中提取的一个或多个通用特征与多个项目相关联的一个或多个特征之间的重叠;以及基于重叠来标识多个项目中与话语相对应的至少一个项目。计算机可执行指令还可以使得计算设备在标识话语指向多个项目中的至少一个项目时发送指令以执行与话语相关联的动作。
进一步关于上文所述的方面,在第一语言中接收话语,并且使用来自与第一语言不同的语言的数据来训练语言独立消歧模型。在一些情况下,多个项目在显示器上呈现。在另外的示例中,从话语中提取特征还包括确定话语的特征与多个项目中的一个或多个项目相关联的特征之间的一个或多个关系,以及从话语中提取与多个项目中的一个或多个项目相关联的一个或多个特征具有关系的特征。可以从与多个项目中的每一个相关联的元数据中标识与多个项目中的每一个相关联的特征。附加地,确定重叠还可以包括计算设备确定话语的单词或者词语与多个项目中的至少一个的标题或者属性中的单词或者词组之间的词法重叠。例如,当在显示器上呈现多个项目时,确定词法重叠可以包括以下中的一个或多个:基于话语中的文本的一部分来标识对至少一个项目的显式参考;基于话语中的文本提示来标识对至少一个项目的显式参考;基于话语中的屏幕定位数据来标识对至少一个项目的显式参考,基于话语来标识对至少一个项目的隐式参考;以及基于话语来标识对至少一个项目的位置的隐式参考。
在以上示例的另外方面,当在显示器上呈现多个项目时,确定重叠可以包括计算设备建立包括词法和语义特征的统计分类器模型,词法和语义特征例如可以包括话语和与显示器上的多个项目中的一个或多个项目相关联的元数据之间的匹配,或者话语和与显示器上的多个项目中的一个或多个项目相关联的定位特征之间的匹配。在又一些方面,当在显示器上呈现多个项目时,确定重叠可以包括:计算设备确定从话语中提取的通用特征和与显示器上的多个项目中的一个或多个项目相关联的特征之间的多个匹配分数;针对话语中的语义单词或词组与多个项目中的至少一个项目的标题或者属性中的单词或词组之间的匹配词组来解析话语;以及,解析话语以捕获用于预测多个项目中的至少一个项目的屏幕定位的定位指示符。应当理解,可以使用以上步骤的任何组合来标识与所接收的话语相对应的至少一个项目。
在另一方面,提供了一种方法。该方法包括在显示器上显示多个项目,以及由计算设备响应于显示多个项目而接收第一语言的话语。该方法还包括由计算设备从话语中提取与多个项目中的一个或多个项目相关联的特征具有关系的特征以形成提取的特征。该方法还包括由计算设备通过使用语言独立消歧模型来标识话语指向显示器上的多个项目中的至少一个项目。在示例中,利用来自第二语言的数据训练语言独立消歧模型。语言独立消歧模型通过以下来标识话语指向显示器上的多个项目中的至少一个项目:标识提取的特征中的域和语言独立特征;从提取特征中选择域和语言独立特征以形成所选择的特征;确定从话语提取的所选择的特征和与显示器上的多个项目中的一个或多个项目相关联的特征之间的重叠;以及基于重叠来标识显示器上的多个项目中的至少一个项目与话语相对应。该方法还包括由计算设备响应于标识话语指向显示器上的多个项目中的至少一个项目而执行与话语相关联的动作。应当理解,可以使用以上步骤的任何组合来标识与所接收的话语相对应的至少一个项目。
在又一方面,提供了一种计算机可读存储介质。该计算机可读存储介质存储计算机可执行指令,当计算机可执行指令由计算设备执行时,使得计算设备执行方法。例如,计算机可执行指令可以使得计算设备发送用于呈现多个项目的指令并且接收第一语言的话语。计算机可执行指令可以使得计算设备使用语言理解模型从话语中提取特征以形成提取特征,并且通过使用语言独立灵活项目选择模型来确定话语指向多个项目中的至少一个项目。在示例中,语言独立灵活项目选择模型没有接收到针对第一语言的训练数据。语言独立灵活项目选择模型通过以下来确定话语指向多个项目中的至少一个项目:将提取特征中的一个或多个域独立特征和语言独立特征标识为通用特征,以及确定从话语提取的一个或多个通用特征和与多个项目中的至少一个项目相关联的一个或多个特征之间的词法重叠。计算机可执行指令可以使得计算设备在确定话语指向多个项目之中的至少一个项目时发送指令以执行与话语相关联的动作。应当理解,可以使用以上步骤的任何组合来标识与所接收的话语相对应的至少一个项目。
本公开内容的方面例如是上文参考根据公开内容的方面的框图和/或方法、系统和计算机程序产品的操作说明而描述的。框中提到的功能/行为可以不按照任何流程图中所示的顺序发生。例如,取决于涉及的功能性/行为,连续示出的两个框实际上可以基本上同时执行,或者框有时可以按照相反顺序执行。
本公开内容参考附图描述了本技术的一些方面,其中仅描述了可能方面中的一些。然而,其他方面能够以许多不同的形式具体化,并且本文公开的特定方面不应当解释为限制于本文陈述的公开内容的各种方面。相反,提供了这些示例性方面以使得本公开内容全面和完整,并且向本领域技术人员充分传达了其他可能方面。例如,在不脱离本公开内容的范围的情况下,可以对本文公开的各种方面的方面进行修改和/或组合。
虽然本文描述了特定方面,但是技术的范围不限于那些特定方面。本领域技术人员将认识到本技术的范围和精神内的其他方面或者改进。因此,仅作为说明性方面而公开了特定结构、行为或者介质。技术的范围由所附权利要求以及其中的任何等效物来限定。
以上参考框图和/或方法、系统和计算机程序产品的操作说明描述了各种实施方式和/或示例。框中提到的功能/行为可以不按照任何流程图中所示的顺序发生。例如,取决于涉及的功能性/行为,连续示出的两个框实际上可以基本上同时执行,或者框有时可以按照相反顺序执行。
本申请中提供的一个或多个方面的描述和图示布置在以任何方式限制或者约束所要求保护的公开内容的范围。本申请中提供的实施方式、示例和细节被认为足以传达拥有并且使得其他人能够做出并且使用所要求保护的公开内容的最佳模式。权利要求不应当解释为限于本申请中提供的任何实施方式、示例或者细节。不管是否组合地或者单独地示出和描述,(结构和方法二者的)各种特征旨在被选择性地包括或者省略,以产生具有特定特征集合的实施方式。在已经提供了本申请的描述和图示的情况下,本领域技术人员可以想到多种变体、修改和备选实施方式,这些多种变体、修改和备选实施方式落入本申请中具体化的总体发明构思的更广泛方面的精神内并且不脱离权利要求的更广泛范围。
Claims (15)
1.一种方法,包括:
在显示器上显示多个项目;
响应于显示所述多个项目,由计算设备接收第一语言的话语;
由所述计算设备从所述话语中提取和与所述多个项目中的一个或多个项目相关联的特征具有关系的特征,以形成提取的特征;
由所述计算设备使用语言独立消歧模型来标识所述话语指向所述显示器上的所述多个项目中的至少一个项目,
其中所述语言独立消歧模型利用来自第二语言的数据而被训练,以及
其中所述语言独立消歧模型通过以下来标识所述话语指向所述显示器上的所述多个项目中的所述至少一个项目:
标识提取的所述特征中的域和语言独立特征;
从提取的所述特征中选择所述域和语言独立特征以形成选择的特征;
确定从所述话语中提取的选择的所述特征和与所述显示器上的所述多个项目中的一个或多个项目相关联的所述特征之间的重叠;以及
基于所述重叠来标识所述显示器上的所述多个项目中与所述话语相对应的所述至少一个项目;以及
响应于标识所述话语指向所述显示器上的所述多个项目中的所述至少一个项目,由所述计算设备执行与所述话语相关联的动作。
2.根据权利要求1所述的方法,其中确定所述重叠包括:
确定从所述话语中提取的选择的所述特征中的至少一个特征和与所述显示器上的所述多个项目中的所述至少一个项目相关联的所述特征中的至少一个特征之间的词法重叠。
3.一种存储计算机可执行指令的计算机可读存储介质,当所述计算机可执行指令由计算设备执行时,使得所述计算设备执行包括以下的方法:
发送指令以呈现多个项目;
由所述计算设备接收第一语言的话语;
由所述计算设备使用语言理解模型从所述话语中提取特征,以形成提取的特征;
由所述计算设备通过使用语言独立灵活项目选择模型来确定所述话语指向所述多个项目中的至少一个项目,
其中所述语言独立灵活项目选择模型尚未接收针对所述第一语言的训练数据,
其中所述语言独立灵活项目选择模型通过以下来确定所述话语指向所述多个项目中的所述至少一个项目:
将提取的所述特征中的一个或多个域独立特征和语言独立特征标识为通用特征;以及
确定从所述话语中提取的一个或多个通用特征和与所述多个项目中的所述至少一个项目相关联的一个或多个特征之间的词法重叠;以及
在确定所述话语指向所述多个项目之中的所述至少一个项目时,发送指令以执行与所述话语相关联的动作。
4.一种计算设备,包括:
至少一个处理器;以及
存储器,所述存储器用于存储和编码计算机可执行指令,所述计算机可执行指令在由所述至少一个处理器执行时操作用于:
接收话语;
从所述话语中提取特征以形成提取的特征;
使用语言独立消歧模型来标识所述话语指向多个项目中的至少一个项目,其中所述语言独立消歧模型通过以下来标识所述话语指向所述多个项目中的所述至少一个项目:
将提取的所述特征中的一个或多个域独立特征和语言独立特征标识为通用特征;
确定从所述话语中提取的一个或多个通用特征和与所述多个项目相关联的一个或多个特征之间的重叠;以及
基于所述重叠来标识所述多个项目中与所述话语相对应的所述至少一个项目;以及
在标识所述话语指向所述多个项目中的所述至少一个项目时,发送指令以执行与所述话语相关联的动作。
5.根据权利要求4所述的计算设备,其中所述话语是第一语言的,并且其中所述语言独立消歧模型是使用来自与所述第一语言不同的语言的数据进行训练的。
6.根据权利要求4所述的计算设备,其中所述多个项目在显示器上呈现。
7.根据权利要求4所述的计算设备,其中与所述多个项目中的每个项目相关联的特征是从与所述多个项目中的每个项目相关联的元数据中被标识的。
8.根据权利要求4所述的计算设备,其中从所述话语中提取所述特征还包括:
确定所述话语的特征和与所述多个项目中的一个或多个项目相关联的特征之间的一个或多个关系;以及
从所述话语中提取和与所述多个项目中的一个或多个项目相关联的一个或多个特征具有关系的特征。
9.根据权利要求8所述的计算设备,其中多个语言理解模型用于从所述话语中提取和与所述多个项目中的一个或多个项目相关联的一个或多个特征具有关系的特征,并且其中所述多个语言理解模型中的每一个语言理解模型是使用来自不同语言的数据进行训练的。
10.根据权利要求9所述的计算设备,其中所述话语是第一语言的,所述第一语言不同于用于训练所述多个语言理解模型的语言中的任何语言。
11.根据权利要求4所述的计算设备,其中确定所述重叠还包括:
确定所述话语的至少一个单词与所述多个项目中的所述至少一个项目的标题或者属性中的至少一个单词之间的词法重叠。
12.根据权利要求4所述的计算设备,其中所述多个项目在显示器上呈现,并且其中确定所述重叠还包括:
建立包括词法和语义特征的统计分类器模型,所述词法和语义特征包括以下中的一个或多个:所述话语和与所述显示器上的所述多个项目中的一个或多个项目相关联的元数据之间的匹配,以及所述话语和与所述显示器上的所述多个项目中的一个或多个项目相关联的定位特征之间的匹配;以及
向所述话语应用所述统计分类器模型。
13.根据权利要求11所述的计算设备,其中确定所述词法重叠还包括以下中的一个或多个:
基于所述话语中的文本的部分来标识对所述至少一个项目的显式参考;
基于所述话语中的文本提示来标识对所述至少一个项目的显式参考;以及
基于所述话语中的屏幕定位数据来标识对所述至少一个项目的显式参考。
14.根据权利要求11所述的计算设备,其中确定所述词法重叠还包括:
基于所述话语来标识对所述至少一个项目的隐式参考;以及
基于所述话语来标识对所述至少一个项目的位置的隐式参考。
15.根据权利要求4所述的计算设备,其中所述多个项目在显示器上呈现,并且其中确定所述重叠还包括:
确定从所述话语中提取的所述通用特征和与所述显示器上的所述多个项目中的一个或多个项目相关联的特征之间的多个匹配分数;
针对所述话语中的语义单词或词组与所述多个项目中的所述至少一个项目的标题或者属性中的单词或词组之间的匹配词组来解析所述话语;以及
解析所述话语以捕获用于预测所述多个项目中的所述至少一个项目的屏幕定位的定位指示符。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/966,257 | 2015-12-11 | ||
US14/966,257 US9886958B2 (en) | 2015-12-11 | 2015-12-11 | Language and domain independent model based approach for on-screen item selection |
PCT/US2016/063739 WO2017100015A1 (en) | 2015-12-11 | 2016-11-25 | Language and domain independent model based approach for on-screen item selection |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108369580A true CN108369580A (zh) | 2018-08-03 |
CN108369580B CN108369580B (zh) | 2021-11-26 |
Family
ID=57589178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680071950.0A Active CN108369580B (zh) | 2015-12-11 | 2016-11-25 | 针对屏幕上项目选择的基于语言和域独立模型的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9886958B2 (zh) |
EP (1) | EP3387553A1 (zh) |
CN (1) | CN108369580B (zh) |
WO (1) | WO2017100015A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6523974B2 (ja) * | 2016-01-05 | 2019-06-05 | 株式会社東芝 | コミュニケーション支援装置、コミュニケーション支援方法、および、プログラム |
EP3403201A4 (en) * | 2016-06-02 | 2019-01-09 | Samsung Electronics Co., Ltd. | METHOD AND ELECTRONIC DEVICE FOR PREDICTING A RESPONSE |
US20180054535A1 (en) * | 2016-08-19 | 2018-02-22 | Kabushiki Kaisha Toshiba | System and method for enhanced device interface for seniors and challenged users |
EP3401797A1 (en) * | 2017-05-12 | 2018-11-14 | Samsung Electronics Co., Ltd. | Speech navigation for multilingual web pages |
US10449440B2 (en) * | 2017-06-30 | 2019-10-22 | Electronic Arts Inc. | Interactive voice-controlled companion application for a video game |
US11079899B2 (en) * | 2017-07-26 | 2021-08-03 | Microsoft Technology Licensing, Llc | Dynamic eye-gaze dwell times |
US10515625B1 (en) | 2017-08-31 | 2019-12-24 | Amazon Technologies, Inc. | Multi-modal natural language processing |
US10621317B1 (en) | 2017-09-14 | 2020-04-14 | Electronic Arts Inc. | Audio-based device authentication system |
EP3567585A4 (en) * | 2017-11-15 | 2020-04-15 | Sony Corporation | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
US10503468B2 (en) | 2017-12-08 | 2019-12-10 | Amazon Technologies, Inc. | Voice enabling applications |
US11182122B2 (en) * | 2017-12-08 | 2021-11-23 | Amazon Technologies, Inc. | Voice control of computing devices |
US10629192B1 (en) | 2018-01-09 | 2020-04-21 | Electronic Arts Inc. | Intelligent personalized speech recognition |
US11404050B2 (en) * | 2019-05-16 | 2022-08-02 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling thereof |
US10926173B2 (en) | 2019-06-10 | 2021-02-23 | Electronic Arts Inc. | Custom voice control of video game character |
US20220269734A1 (en) * | 2021-02-19 | 2022-08-25 | Zebra Technologies Corporation | Intelligent natural language dialogue systems and methods for creating intelligent natural language dialogues for efficient retrieval of items in one or more large databases |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997008604A2 (en) * | 1995-08-16 | 1997-03-06 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
US20040088163A1 (en) * | 2002-11-04 | 2004-05-06 | Johan Schalkwyk | Multi-lingual speech recognition with cross-language context modeling |
US20090170536A1 (en) * | 2005-05-27 | 2009-07-02 | Sony Ericsson Mobile Communications Ab | Automatic language selection for text input in messaging context |
CN101521722A (zh) * | 2008-02-27 | 2009-09-02 | 深圳Tcl新技术有限公司 | 一种语音识别电视机及其实现方法 |
CN102137085A (zh) * | 2010-01-22 | 2011-07-27 | 谷歌公司 | 语音命令的多维消歧 |
CN102750366A (zh) * | 2012-06-18 | 2012-10-24 | 海信集团有限公司 | 基于自然交互输入的视频搜索系统及方法和视频搜索服务器 |
CN103678383A (zh) * | 2012-09-17 | 2014-03-26 | 联想(北京)有限公司 | 一种数据处理方法及电子设备 |
US20150248886A1 (en) * | 2014-03-03 | 2015-09-03 | Microsoft Corporation | Model Based Approach for On-Screen Item Selection and Disambiguation |
Family Cites Families (53)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6085160A (en) | 1998-07-10 | 2000-07-04 | Lernout & Hauspie Speech Products N.V. | Language independent speech recognition |
US6757718B1 (en) | 1999-01-05 | 2004-06-29 | Sri International | Mobile navigation of network-based electronic information using spoken input |
EP1250701B1 (de) | 2000-01-27 | 2004-11-17 | Siemens Aktiengesellschaft | System und verfahren zur blickfokussierten sprachverarbeitung |
US6795806B1 (en) | 2000-09-20 | 2004-09-21 | International Business Machines Corporation | Method for enhancing dictation and command discrimination |
US6964023B2 (en) | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
JP3919210B2 (ja) | 2001-02-15 | 2007-05-23 | アルパイン株式会社 | 音声入力案内方法及び装置 |
AU2002314933A1 (en) | 2001-05-30 | 2002-12-09 | Cameronsound, Inc. | Language independent and voice operated information management system |
KR100457509B1 (ko) | 2001-07-07 | 2004-11-17 | 삼성전자주식회사 | 터치스크린과 음성인식을 통해 동작 제어되는 정보단말기 및 그의 명령 실행 방법 |
US7324947B2 (en) | 2001-10-03 | 2008-01-29 | Promptu Systems Corporation | Global speech user interface |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7881493B1 (en) | 2003-04-11 | 2011-02-01 | Eyetools, Inc. | Methods and apparatuses for use of eye interpretation information |
US20120253823A1 (en) | 2004-09-10 | 2012-10-04 | Thomas Barton Schalk | Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing |
US7742911B2 (en) | 2004-10-12 | 2010-06-22 | At&T Intellectual Property Ii, L.P. | Apparatus and method for spoken language understanding by using semantic role labeling |
US8467672B2 (en) | 2005-10-17 | 2013-06-18 | Jeffrey C. Konicek | Voice recognition and gaze-tracking for a camera |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
JP4878471B2 (ja) | 2005-11-02 | 2012-02-15 | キヤノン株式会社 | 情報処理装置およびその制御方法 |
US9250703B2 (en) | 2006-03-06 | 2016-02-02 | Sony Computer Entertainment Inc. | Interface with gaze detection and voice input |
US8793620B2 (en) | 2011-04-21 | 2014-07-29 | Sony Computer Entertainment Inc. | Gaze-assisted computer interface |
US8375326B2 (en) | 2006-05-30 | 2013-02-12 | Dell Products Lp. | Contextual-based and overlaid user interface elements |
CN101466305B (zh) | 2006-06-11 | 2012-05-30 | 沃尔沃技术公司 | 用于确定和分析视觉兴趣位置的方法 |
US8635243B2 (en) * | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US20110054899A1 (en) | 2007-03-07 | 2011-03-03 | Phillips Michael S | Command and control utilizing content information in a mobile voice-to-speech application |
US8224656B2 (en) | 2008-03-14 | 2012-07-17 | Microsoft Corporation | Speech recognition disambiguation on mobile devices |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
KR101597289B1 (ko) | 2009-07-31 | 2016-03-08 | 삼성전자주식회사 | 동적 화면에 따라 음성을 인식하는 장치 및 방법 |
US9043206B2 (en) | 2010-04-26 | 2015-05-26 | Cyberpulse, L.L.C. | System and methods for matching an utterance to a template hierarchy |
US8756571B2 (en) | 2010-05-07 | 2014-06-17 | Hewlett-Packard Development Company, L.P. | Natural language text instructions |
US8700392B1 (en) | 2010-09-10 | 2014-04-15 | Amazon Technologies, Inc. | Speech-inclusive device interfaces |
US8560321B1 (en) | 2011-01-05 | 2013-10-15 | Interactions Corportion | Automated speech recognition system for natural language understanding |
KR101295711B1 (ko) | 2011-02-15 | 2013-08-16 | 주식회사 팬택 | 음성 인식으로 애플리케이션의 실행 가능한 이동통신 단말 장치 및 방법 |
US20140099623A1 (en) | 2012-10-04 | 2014-04-10 | Karmarkar V. Amit | Social graphs based on user bioresponse data |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US20120259638A1 (en) | 2011-04-08 | 2012-10-11 | Sony Computer Entertainment Inc. | Apparatus and method for determining relevance of input speech |
US8260615B1 (en) * | 2011-04-25 | 2012-09-04 | Google Inc. | Cross-lingual initialization of language models |
US9183832B2 (en) | 2011-06-07 | 2015-11-10 | Samsung Electronics Co., Ltd. | Display apparatus and method for executing link and method for recognizing voice thereof |
US20130030811A1 (en) | 2011-07-29 | 2013-01-31 | Panasonic Corporation | Natural query interface for connected car |
WO2013033842A1 (en) | 2011-09-07 | 2013-03-14 | Tandemlaunch Technologies Inc. | System and method for using eye gaze information to enhance interactions |
US9024844B2 (en) | 2012-01-25 | 2015-05-05 | Microsoft Technology Licensing, Llc | Recognition of image on external display |
US9129591B2 (en) * | 2012-03-08 | 2015-09-08 | Google Inc. | Recognizing speech in multiple languages |
US9423870B2 (en) | 2012-05-08 | 2016-08-23 | Google Inc. | Input determination method |
US9098494B2 (en) | 2012-05-10 | 2015-08-04 | Microsoft Technology Licensing, Llc | Building multi-language processes from existing single-language processes |
US9823742B2 (en) | 2012-05-18 | 2017-11-21 | Microsoft Technology Licensing, Llc | Interaction and management of devices using gaze detection |
US20130346085A1 (en) | 2012-06-23 | 2013-12-26 | Zoltan Stekkelpak | Mouth click sound based computer-human interaction method, system and apparatus |
US8977555B2 (en) | 2012-12-20 | 2015-03-10 | Amazon Technologies, Inc. | Identification of utterance subjects |
CN103885743A (zh) | 2012-12-24 | 2014-06-25 | 大陆汽车投资(上海)有限公司 | 结合注视跟踪技术的语音文本输入方法和系统 |
US8571851B1 (en) | 2012-12-31 | 2013-10-29 | Google Inc. | Semantic interpretation using user gaze order |
KR20140089876A (ko) | 2013-01-07 | 2014-07-16 | 삼성전자주식회사 | 대화형 인터페이스 장치 및 그의 제어 방법 |
US9761225B2 (en) * | 2013-03-11 | 2017-09-12 | Nuance Communications, Inc. | Semantic re-ranking of NLU results in conversational dialogue applications |
KR20140132246A (ko) | 2013-05-07 | 2014-11-17 | 삼성전자주식회사 | 오브젝트 선택 방법 및 오브젝트 선택 장치 |
US9338493B2 (en) * | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10317992B2 (en) | 2014-09-25 | 2019-06-11 | Microsoft Technology Licensing, Llc | Eye gaze for spoken language understanding in multi-modal conversational interactions |
-
2015
- 2015-12-11 US US14/966,257 patent/US9886958B2/en active Active
-
2016
- 2016-11-25 EP EP16816057.0A patent/EP3387553A1/en not_active Withdrawn
- 2016-11-25 CN CN201680071950.0A patent/CN108369580B/zh active Active
- 2016-11-25 WO PCT/US2016/063739 patent/WO2017100015A1/en active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997008604A2 (en) * | 1995-08-16 | 1997-03-06 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
US20040088163A1 (en) * | 2002-11-04 | 2004-05-06 | Johan Schalkwyk | Multi-lingual speech recognition with cross-language context modeling |
US20090170536A1 (en) * | 2005-05-27 | 2009-07-02 | Sony Ericsson Mobile Communications Ab | Automatic language selection for text input in messaging context |
CN101521722A (zh) * | 2008-02-27 | 2009-09-02 | 深圳Tcl新技术有限公司 | 一种语音识别电视机及其实现方法 |
CN102137085A (zh) * | 2010-01-22 | 2011-07-27 | 谷歌公司 | 语音命令的多维消歧 |
CN102750366A (zh) * | 2012-06-18 | 2012-10-24 | 海信集团有限公司 | 基于自然交互输入的视频搜索系统及方法和视频搜索服务器 |
CN103678383A (zh) * | 2012-09-17 | 2014-03-26 | 联想(北京)有限公司 | 一种数据处理方法及电子设备 |
US20150248886A1 (en) * | 2014-03-03 | 2015-09-03 | Microsoft Corporation | Model Based Approach for On-Screen Item Selection and Disambiguation |
Also Published As
Publication number | Publication date |
---|---|
US9886958B2 (en) | 2018-02-06 |
CN108369580B (zh) | 2021-11-26 |
WO2017100015A1 (en) | 2017-06-15 |
US20170169829A1 (en) | 2017-06-15 |
EP3387553A1 (en) | 2018-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108369580A (zh) | 针对屏幕上项目选择的基于语言和域独立模型的方法 | |
CN104584003B (zh) | 词检测和域字典推荐 | |
US10055403B2 (en) | Rule-based dialog state tracking | |
US9412363B2 (en) | Model based approach for on-screen item selection and disambiguation | |
JP6667504B2 (ja) | オーファン発話検出システム及び方法 | |
US9805718B2 (en) | Clarifying natural language input using targeted questions | |
TWI437449B (zh) | 多重模式輸入方法及輸入方法編輯器系統 | |
US10896222B1 (en) | Subject-specific data set for named entity resolution | |
US10997223B1 (en) | Subject-specific data set for named entity resolution | |
CN105531758B (zh) | 使用外国单词语法的语音识别 | |
CN107924483A (zh) | 通用假设排列模型的生成与应用 | |
CN109918676A (zh) | 一种检测意图正则表达式的方法及装置、终端设备 | |
WO2018045646A1 (zh) | 基于人工智能的人机交互方法和装置 | |
US11921966B2 (en) | Intelligent response using eye gaze | |
JP2021197133A (ja) | 意味マッチング方法、装置、電子機器、記憶媒体及びコンピュータプログラム | |
US20180196870A1 (en) | Systems and methods for a smart search of an electronic document | |
US20230118506A1 (en) | Conversational aspect sentiment analysis for dialogue understanding | |
CN107112009A (zh) | 使用多标记结构的转录纠正 | |
WO2019156536A1 (ko) | 학습 데이터 중 식별 가능하지만 학습 가능성이 없는 데이터의 레이블화를 통한, 대화형 ai 에이전트 시스템을 위한 지식베이스 모델의 구축 또는 갱신 방법, 컴퓨터 장치, 및 컴퓨터 판독 가능 기록 매체 | |
CN108197105A (zh) | 自然语言处理方法、装置、存储介质及电子设备 | |
US20140181672A1 (en) | Information processing method and electronic apparatus | |
US10282417B2 (en) | Conversational list management | |
CN103678467B (zh) | 信息显示控制装置、信息显示控制方法以及系统 | |
CN108108350B (zh) | 名词识别方法及装置 | |
Caschera et al. | Multimodal interaction in gaming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |