CN104704556B - 使用分类器将音频话语映射至动作 - Google Patents
使用分类器将音频话语映射至动作 Download PDFInfo
- Publication number
- CN104704556B CN104704556B CN201380052230.6A CN201380052230A CN104704556B CN 104704556 B CN104704556 B CN 104704556B CN 201380052230 A CN201380052230 A CN 201380052230A CN 104704556 B CN104704556 B CN 104704556B
- Authority
- CN
- China
- Prior art keywords
- string
- standard
- grader
- language
- computing device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 96
- 238000013507 mapping Methods 0.000 title abstract description 5
- 239000013598 vector Substances 0.000 claims abstract description 100
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000005021 gait Effects 0.000 claims description 18
- 230000008859 change Effects 0.000 claims description 7
- 230000001815 facial effect Effects 0.000 claims description 2
- 230000000977 initiatory effect Effects 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 44
- 239000004615 ingredient Substances 0.000 description 27
- 230000006870 function Effects 0.000 description 22
- 238000012549 training Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 12
- 230000008901 benefit Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000256844 Apis mellifera Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000002828 fuel tank Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
所公开的实施例涉及使用分类器将话语映射至动作。一种说明性方法包括由计算设备接收音频话语;基于该话语确定文本串;基于该文本串确定串特征矢量;接收传感器数据;基于该传感器数据确定传感器特征矢量;从分类器集合中选择目标分类器,其中基于该目标分类器的串特征标准对应于该串特征矢量的至少一个串特征并且该目标分类器的传感器特征标准对应于该传感器特征矢量中的至少一个传感器特征的确定而选择该目标分类器;并且由该计算设备发起对应于该目标分类器的目标动作。
Description
背景技术
除非这里以其它方式指出,该部分中所描述的素材针对本申请的权利要求而言并非现有技术,也并不由于包括在该部分之中而被承认其构成现有技术。
诸如移动电话和平板电脑之类的计算设备在近年来已经越来越流行。对于用户而言,计算设备提供了各种服务,包括由诸如媒体播放器、个人信息管理器和web浏览器之类的软件应用所提供的那些服务。为了向用户提供有所提升的益处,一些计算设备可以基于从用户所接收的音频话语(话语)而发起与这些服务或其它服务相关的动作。
发明内容
在一个方面,一种说明性计算设备包括具有输入组件的用户接口。该计算设备进一步包括处理器和具有存储于其上的程序指令的计算机可读存储介质,当该程序指令被该处理器所执行时使得该计算设备执行操作的集合,该集合包括经由该输入组件接收话语;基于该话语确定文本串;基于该文本串确定串特征矢量;从分类器集合中选择目标分类器,其中基于确定该目标分类器的串特征标准对应于该串特征矢量的至少一个串特征而选择该目标分类器;以及发起对应于该目标分类器的目标动作。
在另一个方面,一种说明性方法包括由计算设备接收音频话语;基于该话语确定文本串;基于该文本串确定串特征矢量;接收传感器数据;基于该传感器数据确定传感器特征矢量;从分类器集合中选择目标分类器,其中基于确定该目标分类器的串特征标准对应于该串特征矢量的至少一个串特征并且该目标分类器的传感器特征标准对应于该传感器特征矢量中的至少一个传感器特征而选择该目标分类器;以及发起对应于该目标分类器的目标动作。
在另一个方面,一种说明性计算机可读存储介质具有存储于其上的程序指令,当该程序指令由计算设备所执行时使得该计算设备执行以下操作集合,该操作集合包括接收音频话语;基于该话语确定文本串;基于该文本串确定串特征矢量;接收传感器数据;基于该传感器数据确定传感器特征矢量;从分类器集合中选择目标分类器,其中基于确定该目标分类器的串特征标准对应于该串特征矢量的至少一个串特征并且该目标分类器的传感器特征标准对应于该传感器特征矢量中的至少一个传感器特征而选择该目标分类器;并且发起对应于该目标分类器的目标动作。
在另一个方面,一种说明性方法包括接收话语;基于该话语确定文本串;基于该文本串确定串特征矢量;接收传感器数据;基于该传感器数据确定传感器特征矢量;确定所识别的动作;并且生成分类器,其中该分类器具有对应于该串特征矢量中的至少一个串特征的串特征标准,具有对应于该传感器特征矢量中的至少一个传感器特征的传感器特征标准,并且对应于所识别的动作。
附图说明
图1是说明性计算设备的简化框图。
图2是示出说明性方法的训练功能组件的流程图。
图3是示出说明性方法的运行时间功能组件的流程图。
具体实施方式
除非以其它方式所指出,否则,贯穿本公开,术语“一”或“一个”是指“至少一个”,并且术语“该”是指“该至少一个”。
这里所描述的计算设备和方法的说明性实施例并非意在作为限制。将容易理解的是,所公开的计算设备和方法的某些方面可以以各种不同配置进行布置和组合,所有这些都在这里得以被预期。
在以下详细描述中,对形成其一部分的附图加以参考。详细描述、附图和权利要求中所描述的说明性实施例并非意在作为限制。可以采用其它实施例,可以进行其它变化,而并不背离本文所给出的主题的精神或范围。将容易理解的是,本公开的方面可以以各种不同配置进行布置、替换、组合、划分和设计,所有这些都在这里得以被预期。
I.概述
在基于计算机的话音识别的环境中,将话语(例如,“呼叫妈妈”)映射至特定动作(例如,向被指定为“妈妈”的联系人进行电话呼叫)可能涉及到两个阶段。在第一阶段,该话语被映射至文本串。在第二阶段,该文本串被映射至动作。由于这些阶段中的每一个中所涉及到的计算复杂度,在经常被称作“云”计算的布置中,一些计算设备可能把每个阶段中所涉及到的一个或多个功能外包给可能更适于应对这样的复杂计算的服务器计算设备(服务器)。然而,除其它之外,在第二阶段中使用基于特征的分类器(分类器)可以降低计算复杂度和/或可以减少或消除计算设备将所选择功能外包给服务器的需求。
对于诸如移动电话的计算设备而言,可能期望在没有基于云的服务器的支持情况下提供话音识别特征。因此,示例实施例可以包括一种能够连同准确的结果一起自动提供这样的话音识别功能但是没有来自基于云的服务器的支持的移动电话。
在支持计算设备上的话音识别功能的服务器的环境中,在第一阶段,话语被映射至文本串。在该阶段,计算设备可以对所接收的话语进行编码并且将经编码的话语发送至服务器。随后,服务器可以确定表示经编码的话语的文本串。该服务器可以使用自动话音识别(ASR)模块来进行该确定,该ASR模块接收经编码的话语作为输入,并且提供表示该经编码的话语的文本串作为输出。作为简单的示例,该ASR模块可以接收话语“呼叫妈妈”的编码作为输入,并且可以(在这种示例下是准确地)提供相对应的文本串“呼叫妈妈”作为输出。该ASR模块可以使用目前已知或随后研发的任何ASR技术。典型地,ASR模块采用高度复杂且资源密集的分析技术,并且除其它之外,可能涉及声音、字典和语言模型的使用。
在第二阶段,该文本串被映射至动作。在该第二阶段,服务器可以使用语法和语义分析(PSA)模块对该文本串进行分析。PSA模块寻求获得对该文本串的语法和语义的深度理解,并且像ASR模块一样,经常涉及高度复杂和资源密集的分析技术。
由于这两个阶段中的每一个的复杂度,每个阶段中所涉及到的功能通常从(最初接收该话语的)计算设备卸载到服务器,后者可以具有相对更大的计算能力和/或其它系统资源。然而,在一些示例下,这可能并非是可能的、实际的或者所期望的。例如,计算设备可能针对服务器具有有限访问或者无法对其进行访问。例如,计算设备可以被配置为使用蜂窝无线网络连接至服务器,但是可能会缺少充分的蜂窝无线覆盖来进行该连接。另外,即使当服务器能够被访问时,蜂窝设备与服务器的数据交换也可能在将话语映射至动作的过程中提供所不期望的延迟。
在该方法的一个实施例中,在以上所描述的第二阶段中使用分类器而不是PSA模块。分类器提供了相对较不复杂的将文本串映射至动作的解决方案。在一些实施例中,计算设备可以基于文本串的各种串特征来选择分类器。分类器以这种方式的使用减少或消除了对文本串的语义进行深度理解的需求。这允许计算设备以高的准确度水平基于文本串确定适当动作,但是例如与使用PSA模块相比,计算复杂度有所下降。
在其它实施例中,计算设备可以进一步基于各种传感器特征来选择分类器。传感器特征可以基于计算设备所接收的传感器数据来确定。通过进一步考虑这些传感器特征,计算设备可以利用甚至更高的准确性水平来确定适当动作,而且计算复杂度同样有所下降。
另外,由于实施基于分类器的第二阶段的方式,可能出现ASR模块的精简版本在第一阶段中适宜并切合实际的示例。虽然精简ASR模块可能在将话语映射至文本串时较不准确,但是由于在第二阶段中使用基于分类器的技术的方式,其对于将话语映射至动作的整体准确性的影响则可能很小或者甚至不存在。另外,精简ASR模块通常具有较低的计算复杂度。结果,第一阶段可以完全在计算设备上执行。这样,在一些实施例中,该计算设备可以在并不将任何相关功能外包给服务器的情况下将话语映射至动作并且随后发起该动作。
该方法可以被描述为具有两个功能组件,也就是其中计算设备生成一个或多个分类器的“训练”组件,以及其中计算设备基于一个或多个所生成的分类器发起动作的“运行时间”组件。
II.说明性计算设备
现在参考图1,示出了说明性计算设备102的简化框图。作为示例而非限制,计算设备102可以采取游戏设备、便携式媒体播放器、蜂窝移动电话、平板电脑、台式或膝上计算机、电视和/或对这些或其它设备中的一个或多个进行控制的设备(例如,对电视、视频录制系统和音频系统进行控制的设备)的形式。
计算设备102可以包括用户接口104、通信接口106、传感器108、处理器110和数据存储112,它们全部可以经由系统总线114或其它连接机制互相电连接。
用户接口104可以用来允许计算设备102与人类或非人类用户进行交互,例如从用户接收输入并且向用户提供输出。用户接口104可以包括输入组件,诸如麦克风、小键盘、键盘、触摸敏感或存在敏感面板、计算机鼠标、轨迹球或操纵杆。用户接口104还可以包括输出组件,诸如显示屏(其例如可以与存在敏感面板相结合)、CRT、LCD、LED、使用DLP技术的显示器、打印机、灯泡和/或目前已知或者日后研发的其它类似设备。用户接口104还可以被配置为经由扬声器、扬声器插口、音频输出端口、音频输出设备、耳机和/或目前已知或者日后研发的其它类似设备生成(多个)可听输出。
通信接口106用于允许计算设备102使用模拟或数字调制与其他设备、接入网络和/或传输网络进行通信。例如,通信接口可以采用有线接口的形式,诸如以太网、令牌环或USB端口。作为另一个示例,通信接口可以采用无线接口的形式,诸如WiFi、蓝牙、全球定位系统(GPS)或者广域无线(例如,WiMAX或LTE)接口。
传感器108用来收集与计算设备102相关联的传感器数据。传感器108的非限制性示例包括移动、定位和/或环境传感器,诸如加速计、罗盘、陀螺仪、GPS接收器或外界光线传感器。其它示例的传感器可以包括音频和/或视频传感器,诸如图像捕捉传感器(例如,静态或视频相机)。
处理器110可以包括一个或多个通用处理器(例如,微处理器)和/或一个或多个专用处理器(例如,DSP、GPU、FPU、网络处理器或ASIC)。数据存储112可以包括一个或多个易失性和/或非易失性存储组件,诸如磁性、光学、闪存或有机存储,并且可以整体或部分与处理器110进行整合。数据存储112可以包括可移动和/或非可移动组件。
一般来讲,处理器110能够执行存储在数据存储112中的程序指令(例如,编译或非编译的程序逻辑和/或机器代码)以实施这里所描述的各种功能。因此,数据存储112可以包括具有存储于其上的程序指令的非瞬态计算机可读存储介质,当该程序指令被计算设备102(例如,被包括于其中的组件,诸如处理器110)所执行时,使得计算设备102执行这里所公开和/或附图中所示出的任意方法、过程、操作或功能。因此,计算设备可以被配置为执行这里所公开和/或附图中所示出的任意方法、过程、操作或功能。
III.说明性方法
如以上所讨论的,该方法可以被描述为具有两个功能组成部分,即训练组成部分和运行时间组成部分。在训练组成部分中,计算设备102以基于串的特征矢量(例如,串特征矢量)和/或基于传感器的特征矢量(传感器特征矢量)为基础连同所指示的动作一起生成分类器。在运行时间组成部分中,计算设备102选择训练组成部分中所生成的一个或多个分类器,并且发起相对应的动作。
A.训练组成部分
现在参考图2,示出了说明性方法的训练组成部分的流程图。在框202,计算设备102接收话语。例如,计算设备102可以经由包括在计算设备中或者与之相耦合的麦克风接收来自用户的话语。在框204,计算设备102诸如通过使用ASR模块而基于该话语确定文本串。
1.确定串特征矢量
在框206,计算设备102基于该文本串确定串特征矢量。串特征矢量包括一个或多个串特征。这些串特征可以与通常结合ASR模块所使用并且直接从话语所得出的话语特征(例如,梅尔频率倒频谱系数)有所区别。另一方面,串特征从文本串(例如,ASR模块的输出)所得出。因此,串特征可以被认为是“串级别”或“语句级别”的特征并且与话语特征相比在概念上提供了更高级别的信息。
现在将对串特征的若干非限制性示例进行讨论。在本公开中讨论串特征时,使用“术语”来指代单个单词(例如,“navigate”或“John”)、多个连续单词(例如,“directionsto”或“direct me to”),或者逻辑上分组的字符集合(例如,“www.website123.com”)。
串特征的一个示例可以是“术语标识”,其指示给定术语是否、多频繁地被包含于相对应的文本串中和/或在其中的位置。例如,考虑文本串“direct me to a gas station”以及特定术语标识串特征,也就是术语“direct me to”。在该示例中,串特征可以指示术语“direct me to”在该串中出现了一次,并且该术语的位置可以被定义为该文本串的前三个单词。
作为另一个示例,串特征可以是话音部分标识,其指示具有给定话音部分的单词是否、多频繁地包含于相对应的文本串中和/或在其中的位置。例如,再次考虑文本串“direct me to a gas station”以及特定的话音部分标识串特征,也就是话音部分“名词”。在该示例中,该串特征可以指示名词在该串中出现了三次(单词“me”、“gas”和“station”),以及在该文本串内的相应单词位置(即,第二个、第五个和第六个单词)。
作为另一个示例,串特征可以是词汇类型标识,其指示具有给定词汇类型(例如,数字、字母、字母-数字混合、URL、数据、时间等)的单词是否、多频繁地包含于相对应的文本串中和/或在其中的位置。例如,再次考虑文本串“direct me to a gas station”以及特定的词汇类型标识串特征,也就是词汇类型“字母”。在该示例中,该串特征可以指示具有“字母”词汇类型的单词出现了六次(该文本串中的每个单词出现一次)并且在该文本串内的相应位置出现。作为另一个示例,考虑文本串“go to website123.com”和特定词汇类型标识串特征,也就是词汇类型“URL”。在该示例中,该串特征可以指示具有“URL”词汇类型的单词出现了一次(对于“website123.com”而言)以及作为该文本串的第三个单词的位置。
以上所描述的示例串特征是非限制性的。实际上,也可以使用诸如基于文本串的语法特性的那些串特征。另外,在一些示例中,文本串可以被发送至翻译服务模块,翻译服务模块将一种语言的文本串翻译为另一种语言的文本串。所翻译的文本串随后可以被用作确定串特征矢量的基础。例如,非英语文本串可以被转换为英语文本串,并且该非英语文本串的串特征矢量可以基于该英语文本串来确定。
2.确定传感器特征矢量
计算设备102除了确定文本串的串特征矢量之外,在一个实施例中,该计算设备还基于计算设备102所接收的传感器数据确定传感器特征矢量。再次返回图2,在框208,计算设备102例如经由传感器108接收传感器数据。在框210,计算设备102基于该传感器数据确定传感器特征矢量。与串特征矢量类似,传感器特征矢量可以包含一个或多个传感器特征。
现在将结合所选择类型的传感器108对传感器特征的非限制性示例进行讨论。作为一个示例,计算设备102基于从加速计或GPS接收器所接收的传感器数据确定传感器特征,在该示例中,传感器特征可以指示计算设备102的行进速度。计算设备102可以使用目前已知或者日后研发的技术来确定这样的行进速度。
作为另一个示例,计算设备102基于从图像捕捉传感器所接收的传感器数据确定传感器特征。在该示例中,传感器特征可以指示计算设备102的用户标识(例如,来自可能用户标识集合之一)。计算设备102可以使用目前已知或者日后研发的面部识别技术来确定这样的用户标识。
3.生成分类器
一旦计算设备102已经如以上所描述的确定了矢量特征矢量和/或传感器特征矢量,就可以执行附加功能来针对所识别的动作生成适当分类器。再次返回图2,在框212,计算设备102确定计算设备可能发起的所识别动作。
在一个实施例中,框212的功能可以包括计算设备102接收对来自动作列表中的所识别动作的用户选择(例如,在用户想要明确选择所识别动作以对分类器进行训练的情况下)。在另一个实施例中,该功能可以包括计算设备102响应于其他用户输入而确定所识别的动作(例如,在用户以传统方式使用计算设备,并且所识别的动作由用户输入所触发的情况下)。
在框214,计算设备102生成具有至少两种特性的分类器。第一种特性是分类器具有对应于串特征矢量中的至少一个串特征的串特征标准。第二种特性是该分类器对应于所识别的动作。
由于分类器被设计为具有对应于串特征的串特征标准,所以该串特征标准的概念可以结合对以上所提供的各个串特征示例的描述而被最佳地理解。这样,分类器的串特征标准例如可以包括术语标识标准、话音部分标识标准和/或词汇类型标识标准。
例如,分类器可以具有指定文本串必须包含单词“gas”的术语标识标准。更为具体的术语标识标准可以指定文本串必须在该文本串的一个或多个特定位置包含单词“gas”。分类器的串特征标准还可以包括相同或其它类型的其它标准,诸如针对另一个术语(例如“station”)的术语标识标准,或者话音部分标识标准(例如,指定文本串必须包含至少两个名词和一个动词,或者在动词之前包含一个名词)。串特征标准诸如可以通过使用阈值和范围而指定与串特征相结合的各种适当条件。
计算设备102生成分类器的功能可以包括该计算设备创建新的分类器或者修改现有分类器。如果所识别的动作并不对应于之前所创建的分类器,则可以创建新的分类器以对应于所识别的动作。然而,如果所识别的动作对应于之前所创建的分类器,则可以另外对该分类器进行适当修改(例如,通过补充或改动其串特征标准)。在另一个实施例中,可以创建均具有不同串特征标准但是对应于相同的所识别动作的单独分类器。分类器还可以被分配以排序,以在两个分类器都具有对应于给定串特征矢量的串特征标准时使得一个分类器优先于另一个。注意到,在确定优先级时也可以使用对应性的程度。
在一个实施例中,计算设备102生成多个分类器,其中每一个可以对应于可以由计算设备所发起的不同动作。这样的动作可以包括可以由计算设备所执行的任意动作或动作群组,例如包括开启应用(例如,web浏览器或地图应用)、执行应用相关的任务(例如,加载网站、提供指示、发送电子邮件或SMS、发起电话呼叫,或者安排日程表中的预约)、仿真输入(例如,在文本框中输入文本)、改变设置(例如,提高音量或设置闹钟),以及它们的组合。
在一个实施例中,计算设备102可以具有其可以发起的总体上数量有限的可能动作,因此该计算设备可以针对每个可能动作生成分类器。在另一个实施例中,计算设备102可以(从较大的动作集合中)定义可以针对其生成分类器的可能动作的特定子集。例如,该子集可以包括可以在没有互联网连接的情况下发起的动作(例如,提高音量或拍摄照片)。这在第一和第二阶段中所涉及到的功能在计算设备102上执行并且因此计算设备102不需要互联网连接以将所接收到的话语映射至动作或者发起(并完成)该动作的示例中是特别适宜的。
在一个实施例中,分类器也可以对应于计算设备102可以用于受限或“阴影”解析的变元模板(argument template)。例如,文本串“give me directions to XYZ”可以基于术语“give me directions to”的术语标识标准而被映射至一个分类器。对应于该分类器的变元模板例如可以指示下一个术语预计为目的地。因此,该文本串可以针对处于该位置的变元(即,术语)进行特殊解析。作为结果,该分类器可以对应于计算设备102开始地图软件应用并且提供去往该解析目的地的驾驶指示的动作。这种类型的阴影解析可能明显不如传统解析(例如,以上所描述的PSA模块中所使用的)那么复杂,因为前者受益于以上所描述的变元模板。该模板有助于引导并聚焦所需要执行的任何解析。
分类器还可以以层级进行布置,其中分类器的集合可以包括被布置为父超级分类器的孩子的子分类器的集合。例如,如果分类器群组中的所有分类器中存在共用的串特征标准,则该共用的串特征标准可以被用作超级分类器的串特征标准。该超级分类器被布置为该分类器群组中的分类器的父分类器,该分类器群组中的每个分类器都是该父分类器的子分类器。除其它之外,该层级布置形式可以提高如以下在运行时间组成部分中所描述的选择适当分类器的功能的效率。
在一个实施例中,使用目前已知或日后研发的学习技术的分类器学习服务(CLS)(例如,线性分类器服务)可以被用来生成分类器并且依据以上所描述的总体设计和行为方面为所识别的动作定义适当的串特征标准。
如以上所描述的,计算设备102除了确定串特征矢量之外,在一个实施例中,计算设备102还基于计算设备102所接收的传感器数据确定传感器特征。在这样的实施例中,该分类器可以包括第三属性,也就是说该分类器具有对应于传感器特征矢量中的至少一个传感器特征的传感器特征标准。
由于分类器可以被设计为具有对应于传感器特征的传感器特征标准,所以该传感器特征标准的概念可以结合以上所提供的传感器特征示例的描述而被最佳地理解。这样,分类器的传感器特征标准例如可以包括行进速度标准和/或用户标识标准。
例如,分类器可以具有规定行进速度传感器特征必须指示具有特定数值(或者处于特定范围之内等)的行进速度的行进速度标准。该分类器的串特征标准还可以包括相同或其它类型的其它标准,诸如规定用户标识传感器特征必须指示特定用户的用户标识标准。
注意到,以上关于计算设备102生成分类器(涉及到属性、CLS、层级等的使用)所提供的所有讨论同样能够应用于具有另外的第三属性的分类器,其中给定分类器具有对应于传感器特征矢量中的至少一个传感器特征的传感器特征标准。
B.运行时间组成部分
在该方法的运行时间组成部分中,计算设备102选择在训练组成部分中生成的一个或多个分类器并且发起相对应的动作。
1.确定串特征和传感器特征矢量
现在参考图3,示出了示出说明性方法的运行时间组成部分的流程图。在该运行时间组成部分中,框302、304、306、308和310分别对如之前在训练组成部分中所描述的框202、204、206、208和210进行镜像。这样,在框302,计算设备102接收话语。在框304,计算设备102基于该话语确定文本串。在框306,计算设备102基于该文本串确定串特征矢量。在框308,计算设备102接收传感器数据,并且在框310,计算设备102基于该传感器数据确定传感器特征矢量。
2.基于串特征标准选择分类器
在运行时间组成部分中,将所确定的特征矢量与之前所生成的分类器的集合的特征标准进行比较以确定目标分类器。这样,在框312,计算设备102(例如,从分类器集合)选择目标分类器。计算设备102基于该计算设备确定了目标分类器的串特征标准对应于该串特征矢量的至少一个串特征而选择目标分类器。
在一个方面,选择目标分类器的功能可以与如训练组成部分中所描述的生成分类器的功能相反地得到最佳理解。为了说明,如果计算设备102在训练组成部分中基于文本串S和动作A生成了分类器C,随后计算设备可以在运行时间组成部分中基于串S而适当选择分类器C。在运行时间组成部分中的框314处,计算设备102发起对应于目标分类器的目标动作,其在以上所提供的示例中将为动作A。
作为计算设备102以训练组成部分中所描述的方式生成分类器的结果,在运行时间组成部分中,特定分类器可以提供将两个或更多不同文本串映射至相同目标动作的好处。例如,计算设备102可以基于第一文本串“提高铃声音量”并且基于所识别的提高铃声音量的动作而生成分类器。随后,计算设备102可以基于第二文本串“增加铃声水平”(并且基于相同的识别动作)修改该分类器。作为结果,分类器的串特征标准对应于基于第一文本串所确定的第一串特征矢量以及基于第二文本串所确定的第二串特征矢量两者。这样,第一和第二文本串都映射至相同的动作,也就是提高铃声音量。
作为另一个示例,计算设备102可以利用适当分类器将每个文本串“将我定向至加油站”、“给我到加油站的方向”和“在哪可以装满油箱?”映射至计算设备102随后可以发起的相同动作(例如,开启地图应用并且提供去往加油站的指示)。如以上所讨论的,这样的映射可以在没有(例如,经由PSA模块)对每个文本串进行深度语义理解的情况下进行。相反,这样的映射依赖于该方法中作为互补的训练和运行时间组成部分中分类器的生成和选择。
3.基于传感器特征标准选择分类器
计算设备102可以进一步基于计算设备102确定了目标分类器的传感器特征标准对应于传感器特征矢量中的至少一个传感器特征来选择目标分类器。如以上所讨论的,计算设备102基于其所接收的传感器数据确定传感器特征矢量。这样,计算设备102可以将(基于计算设备所接收的话语的)文本串与(相同计算设备所接收的)传感器数据的组合映射至目标动作。
通过额外考虑传感器数据,本来要被选择为目标分类器的分类器可以被另外确定为非目标分类器(具有相对应的非目标动作)。例如,考虑以以上所描述的方式确定了串特征矢量和传感器特征矢量的计算设备102。在该示例中,尽管分类器的串特征标准对应于串特征矢量中的至少一个串特征,但是计算设备102还是会确定该分类器为非目标分类器,原因在于该分类器的传感器特征标准并不对应于传感器特征矢量中的任何传感器特征。
然而,应当意识到的是,一对特征矢量的非目标分类器可能是另一对特征矢量的目标分类器。因此,即使在两个计算设备102确定了相同的文本串的情况下,每个计算设备也可能选择不同的目标分类器,并且因此发起不同的动作。这也可能在单个计算设备102(在两种单独示例中)接收两个话语的情况下发生。实际上,即使那两个话语映射到相同的文本串,在每种示例中,计算设备102也可以基于该计算设备在相应示例中所确定的传感器特征矢量选择不同的目标分类器。这在文本串可能具有多种语义含义,但是传感器特征矢量可以帮助确定其中适当的一种的情形中是特别有利的。以下提供了对该好处加以说明的非限制性使用情形的示例。
4.第一使用情形示例:所考虑的行进速度
在第一使用情形的示例中,计算设备102基于从用户所接收到的话语而确定文本串“导航至品牌ABC”。该文本串可以被认为具有至少两种语义含义,其中每一种对应于用户所可能预期的不同动作。第一种含义对应于其中计算设备102开启地图应用并且提供有关与品牌ABC相关联的兴趣点(例如,品牌ABC的零售店)的地图信息(例如,指示)的第一动作。第二种含义对应于其中计算设备102开启非地图应用—诸如与品牌ABC相关联的应用(例如,品牌ABC的“app”)—或者web浏览应用随后加载与品牌ABC相关联的网站(例如,brand-ABC.com)。
继续该第一示例,假设已经生成了两个分类器,每个分类器具有对应于基于该文本串所确定的串特征矢量中的串特征的串特征标准。进一步假设第一分类器具有行进速度标准,其规定了行进速度传感器特征必须指示高于每小时四十英里的阈值的行进速度,并且第一分类器对应于第一动作。进一步假设第二分类器具有行进速度标准,其规定了行进速度传感器特征必须指示处于或低于每小时四十英里的阈值的行进速度,并且第二分类器对应于第二动作。
应当理解的是,负责生成这两个分类器(或任意分类器)的基本逻辑并不需要为了使得该分类器得以投入使用而被实际实现。实际上,可以假定在运行时间组成部分中存在训练组成部分中的一个或多个特征矢量与特定动作之间的给定关联。然而,针对一些示例强调可能的根本原因在解释分类器在实践中可以如何提供某些益处会是有用的。
仍然继续该第一示例,两个分类器的根本原因的一种解释可以如下。如果计算设备102的行进速度大于阈值,则合理性结论可能是该计算设备在车辆(例如,汽车)中行进,并且因此计算设备的用户可能对地图/导航动作感兴趣。然而,如果该行进速度处于或低于该阈值,则合理性结论可能是计算设备102并未在车辆中行进,并且因此用户可能对地图/导航动作并不太感兴趣,而是可能对导航至网站或开启另一个非地图应用更感兴趣。
这样,在第一示例的运行时间组成部分中,计算设备102基于从加速计或GPS接收器所获得的传感器数据而确定行进速度传感器特征。接着,计算设备102基于串特征矢量和传感器特征矢量(即,基于计算站点的行进速度)选择适当分类器并且发起适当动作。
5.第二使用情形的示例—用户标识的考虑
在第二示例中,计算设备102基于从用户所接收的话语确定文本串“send amessage saying on my way to John”。该文本串可以被认为具有至少两种语义含义,其中每一种对应于用户所可能预期的不同动作。第一种含义对应于其中计算设备102向被标识为John的联系人发送具有文本主体“on my way”的电子邮件的第一动作。第二种含义对应于其中计算设备102向被标识为John的联系人发送具有文本主体“on my way”的SMS消息的第二动作。
与第一示例相同,假设已经生成了两个分类器,每个分类器具有对应于基于该文本串所确定的串特征矢量中的串特征的串特征标准。进一步假设第一分类器具有用户标识标准,其规定了用户标识传感器特征必须指示第一用户,并且第一分类器对应于第一动作。最后,假设第二分类器具有用户标识标准,其规定了用户标识传感器特征必须指示第二用户,并且第二分类器对应于第二动作。关于支持这些分类器的生成的根本原因而言,可能是第一和第二用户简单地具有针对短语“send a message”的建议相应的意图(即,关于用户想要发送电子邮件还是发送文本消息)的使用历史。这些使用历史因此可以在训练组成部分中创建适当分类器。
这样,在该第二示例的运行时间组成部分中,计算设备102基于对从图像捕捉传感器所获得的传感器数据的面部识别分析而确定用户标识传感器特征。随后,计算设备102基于串特征矢量和传感器特征矢量(即,基于计算站点的用户)选择适当分类器并且发起适当动作。因此,如果用户标识为第一用户,则选择第一分类器并发起第一动作。如果用户标识为第二用户,则选择第二分类器并发起第二动作。作为相关的益处,该示例中分类器的目标动作可以进一步针对特定用户进行定制。例如,目标动作可以进一步“从”消息中的字段选择缺省值以与相应的所识别用户进行匹配。
6.使用分类器验证变元类型
在一些实施例中,可以在文本串的变元级别应用附加分类器以验证变元类型。例如,如果文本串“设置闹铃至XYZ”映射至设置闹钟的所识别动作,则该附加分类器可以在发起对应于该初始分类器的动作之前验证XYZ是诸如“中午”、“五分钟后”或“四点钟”之类的有效变元。如果验证失败,则这可能是初始分类器的选择不正确的指示,并且因此可以选择另一个分类器(对应于相同或另一种动作)。在另一个示例中,可以使用PSA模块(例如,使用CRF统计建模方法的PSA模块)来验证变元。
7.基于所发起的动作选择分类器
在一些实施例中,除了串特征和/或传感器特征矢量之外,可以基于之前所发起的动作来选择分类器。例如,考虑计算设备接收到话语“示出城市XYZ的地图”,其使得计算设备选择第一分类器并且发起开启地图应用并显示XYZ城市的第一动作。另外考虑到该计算设备随后接收到话语“带我去那”。除了考虑串特征矢量之外,计算设备在选择第二分类器时还可以考虑第一动作。这会使得计算设备(基于有关地图服务的第一动作)选择对应于提供指示的第二动作的第二分类器。注意到,在计算设备并未考虑第一动作的情况下,该计算设备可能不会选择第二分类器,并且因此该计算设备可能会发起不同的动作。
IV.优势的示例
分类器提供了一种利用低复杂度水平将文本串映射至动作的解决方案。除其它之外,以以上所描述的方式使用分类器减少或消除了例如通过使用PSA模块对文本串的语义进行深度理解的需要。如所提到的,PSA模块经常涉及到高度复杂的分析技术。例如,PSA可以被配置为从文本串得出语言注释,并且可以进一步被配置为使用一种或多种解析技术对那些注释进行解析,上述解析技术诸如基于条件随机场(CRF)或其它统计建模技术的那些技术。在另一个示例中,PSA可以被配置为向文本串应用诸如以扩展巴科斯范式(ABNF)进行编码的那些语法集合以确定其语义含义。诸如这些的语法通常是手写的,并且经常要去语言专家进行输入以确保它们提供了有用的结果。计算设备随后可以确定对应于所确定的文本串的语义含义的动作。然而,该复杂分析可以通过使用如这里所描述的分类器而被避免。
另外,在一些情况下,可以在第一阶段中使用精简版本的ASR模块,诸如通过对ASR模块进行定制以识别出对应于一个或多个分类器的串特征标准(流入,术语标识)的术语。由于第一和第二阶段的复杂度都有所降低,所以在一些实施例中,计算设备就可以执行这两个阶段中所涉及的功能。然而,所预见到的是,该方法可以以客户端-服务器架构来实施,其中计算设备与执行这里所描述的一种或多种功能的服务器进行通信。虽然贯穿本公开所描述的益处是可能的,但是它们并非对于所有实施例都是必然的。另外,所描述的益处是作为示例来提供。实际上,也可能提供其它益处。
V.变化形式的示例
虽然贯穿本公开的每种特征都已经被描述为由计算设备来执行,但是一种或多种功能可以由不同计算设备(或用户)来执行。例如,一个计算设备102可以在训练组成部分中生成分类器,而另一个计算设备可以选择一个分类器。最后,该方法的益处可以在并不执行这里所描述的每种功能的情况下得以被实现,因此在各个实施例中,可以执行所描述功能的子集。
虽然这里已经公开了实施例的各个方面,但是其它方面和实施例对于本领域技术人员将会是显而易见的。这里所公开的各个方面和实施例是出于说明的目的而并非意在作为限制,实际的范围和精神由以下权利要求所指示。
Claims (17)
1.一种将音频话语映射至动作的方法,包括:
由计算设备接收音频话语;
基于所述话语确定文本串;
基于所述文本串确定串特征矢量;
接收传感器数据;
基于所述传感器数据确定传感器特征矢量;
从分类器集合中选择目标分类器,其中基于所述目标分类器的串特征标准对应于所述串特征矢量的至少一个串特征并且所述目标分类器的传感器特征标准对应于所述传感器特征矢量中的至少一个传感器特征的确定而选择所述目标分类器;以及
由所述计算设备发起对应于所述目标分类器的目标动作,
其中所述话语是第一话语,所述文本串是第一文本串,所述串特征矢量是第一串特征矢量,所述传感器数据是第一传感器数据,并且所述传感器特征矢量是第一传感器特征矢量,所述方法进一步包括:
接收第二话语;
基于所述第二话语确定第二文本串;
基于所述第二文本串确定第二串特征矢量,其中所述第一串特征矢量和所述第二串特征矢量不同;
接收第二传感器数据;
基于所述第二传感器数据确定第二传感器特征矢量,其中所述第一传感器特征矢量和所述第二传感器特征矢量不同;
从所述分类器集合中选择所述目标分类器,其中基于所述串特征标准对应于所述第二串特征矢量的至少一个串特征并且所述传感器特征标准对应于所述第二传感器特征矢量中的至少一个传感器特征的确定而选择所述目标分类器;以及
发起所述目标动作。
2.根据权利要求1所述的方法,其中所述串特征标准包括标准集合中的至少一个标准,所述标准集合包括术语标识标准、话音部分标识标准和词汇类型标识标准。
3.根据权利要求1所述的方法,其中所述传感器特征标准包括标准集合中的至少一个标准,所述标准集合包括行进速度标准和用户标识标准。
4.根据权利要求1所述的方法,进一步包括:
从所述分类器集合中确定非目标分类器;
其中所述非目标分类器的串特征标准对应于所述串特征矢量中的至少一个串;并且
其中基于所述非目标分类器的传感器特征标准并不对应于所述传感器特征矢量的任何传感器特征的确定而确定所述非目标分类器。
5.根据权利要求4所述的方法,其中所述非目标分类器对应于非目标动作,并且其中所述文本串具有至少两种语义含义,对应于所述目标动作的第一种语义含义以及对应于所述非目标动作的第二种语义含义。
6.根据权利要求5所述的方法,其中接收传感器数据包括经由包括于所述计算设备中的加速计和GPS接收器中的一个接收传感器数据;
其中所述目标分类器的所述传感器特征标准包括第一行进速度标准,并且所述目标动作包括开启地图应用并且提供与关联于所述文本串的至少一部分的兴趣点相关的地图信息;并且
其中所述非目标分类器的所述传感器特征标准包括第二行进速度标准,并且所述非目标动作包括开启非地图应用。
7.根据权利要求6所述的方法,其中开启非地图应用包括开启web浏览应用,并且其中所述非目标动作进一步包括加载对应于所述文本串的所述至少一部分的网站。
8.根据权利要求6所述的方法,其中开启非地图应用包括开启与所述文本串的所述至少一部分相关联的应用。
9.根据权利要求4所述的方法,其中接收传感器数据包括经由包括于所述计算设备中的图像捕捉传感器接收传感器数据;
其中所述目标分类器的所述传感器特征标准包括第一用户标识标准并且所述目标动作包括发送电子邮件;
其中所述非目标分类器的所述传感器特征标准包括第二用户标识标准并且所述非目标动作包括发送SMS消息;并且
其中基于所述传感器数据确定传感器特征矢量包括基于面部识别技术以及所述传感器数据确定用户标识传感器特征。
10.根据权利要求1所述的方法,所述方法进一步包括:
确定对应于所述目标分类器的变元模板;以及
基于所述变元模板针对变元解析所述文本串,其中所述目标动作基于所述变元。
11.根据权利要求1所述的方法,其中所述分类器集合是按照层级布置而被布置为父超级分类器的孩子的子分类器集合。
12.一种计算设备,包括:
具有输入部件的用户接口;
处理器被配置为:
经由所述输入部件接收音频话语;
基于所述话语确定文本串;
基于所述文本串确定串特征矢量;
从分类器集合中选择目标分类器,其中基于所述目标分类器的串特征标准对应于所述串特征矢量的至少一个串特征的确定而选择所述目标分类器;以及
发起对应于所述目标分类器的目标动作,
其中所述话语是第一话语,所述文本串是第一文本串,所述串特征矢量是第一串特征矢量,并且所述处理器被进一步配置为:
接收第二话语;
基于所述第二话语确定第二文本串;
基于所述第二文本串确定第二串特征矢量,其中所述第一串特征矢量和所述第二串特征矢量不同;
从所述分类器集合中选择所述目标分类器,其中基于所述串特征标准对应于所述第二串特征矢量的至少一个串特征;以及
发起所述目标动作。
13.根据权利要求12所述的计算设备,其中进一步基于之前由所述计算设备发起的动作而选择所述目标分类器。
14.一种将音频话语映射至动作的方法,包括:
由计算设备接收音频话语;
基于所述话语确定文本串;
基于所述文本串确定串特征矢量;
接收传感器数据;
基于所述传感器数据确定传感器特征矢量;
确定所识别的动作;以及
生成分类器,其中所述分类器具有对应于所述串特征矢量中的至少一个串特征的串特征标准,具有对应于所述传感器特征矢量中的至少一个传感器特征的传感器特征标准,并且对应于所识别的所述动作,
其中所述话语是第一话语,所述文本串是第一文本串,所述串特征矢量是第一串特征矢量,所述方法进一步包括:
接收第二话语;
基于所述第二话语确定第二文本串;
基于所述第二文本串确定第二串特征矢量;以及
对所述分类器进行修改而使得所述串特征标准进一步对应于所述第二串特征矢量中的至少一个串特征。
15.根据权利要求14所述的方法,其中所述串特征标准包括术语标识标准、话音部分标识标准和词汇类型标识标准中的至少一项。
16.根据权利要求14所述的方法,其中接收传感器数据包括经由包括于所述计算设备中的加速计和GPS接收器中的一个接收传感器数据,并且其中所述传感器特征标准包括行进速度标准。
17.根据权利要求15所述的方法,其中接收传感器数据包括经由包括于所述计算设备中的图像捕捉传感器接收传感器数据,并且其中所述传感器特征标准包括用户标识标准。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710264657.2A CN107256706B (zh) | 2012-10-04 | 2013-06-26 | 一种计算设备及其存储介质 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/644,986 US8484025B1 (en) | 2012-10-04 | 2012-10-04 | Mapping an audio utterance to an action using a classifier |
US13/644,986 | 2012-10-04 | ||
PCT/US2013/047852 WO2014055144A1 (en) | 2012-10-04 | 2013-06-26 | Mapping an audio utterance to an action using a classifier |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710264657.2A Division CN107256706B (zh) | 2012-10-04 | 2013-06-26 | 一种计算设备及其存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104704556A CN104704556A (zh) | 2015-06-10 |
CN104704556B true CN104704556B (zh) | 2017-05-17 |
Family
ID=48701486
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710264657.2A Active CN107256706B (zh) | 2012-10-04 | 2013-06-26 | 一种计算设备及其存储介质 |
CN201380052230.6A Active CN104704556B (zh) | 2012-10-04 | 2013-06-26 | 使用分类器将音频话语映射至动作 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710264657.2A Active CN107256706B (zh) | 2012-10-04 | 2013-06-26 | 一种计算设备及其存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8484025B1 (zh) |
EP (1) | EP2904607B1 (zh) |
CN (2) | CN107256706B (zh) |
ES (1) | ES2646729T3 (zh) |
WO (1) | WO2014055144A1 (zh) |
Families Citing this family (78)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112013005742T5 (de) * | 2012-11-30 | 2015-09-10 | Mitsubishi Electric Corporation | Absichtsabschätzungsvorrichtung und Absichtsabschätzungsverfahren |
US9318128B1 (en) * | 2013-01-08 | 2016-04-19 | Google Inc. | Methods and systems for determining instructions for applications that are recognizable by a voice interface |
US9842593B2 (en) | 2014-11-14 | 2017-12-12 | At&T Intellectual Property I, L.P. | Multi-level content analysis and response |
JP2017091431A (ja) * | 2015-11-17 | 2017-05-25 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US10743101B2 (en) | 2016-02-22 | 2020-08-11 | Sonos, Inc. | Content mixing |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10097939B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Compensation for speaker nonlinearities |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10418026B2 (en) | 2016-07-15 | 2019-09-17 | Comcast Cable Communications, Llc | Dynamic language and command recognition |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9693164B1 (en) | 2016-08-05 | 2017-06-27 | Sonos, Inc. | Determining direction of networked microphone device relative to audio playback device |
US9794720B1 (en) | 2016-09-22 | 2017-10-17 | Sonos, Inc. | Acoustic position measurement |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9886954B1 (en) | 2016-09-30 | 2018-02-06 | Doppler Labs, Inc. | Context aware hearing optimization engine |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
CN108628873B (zh) * | 2017-03-17 | 2022-09-27 | 腾讯科技(北京)有限公司 | 一种文本分类方法、装置和设备 |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
KR102685523B1 (ko) | 2018-03-27 | 2024-07-17 | 삼성전자주식회사 | 사용자 음성 입력을 처리하는 장치 |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10878811B2 (en) | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11875231B2 (en) | 2019-06-26 | 2024-01-16 | Samsung Electronics Co., Ltd. | System and method for complex task machine learning |
US11501753B2 (en) | 2019-06-26 | 2022-11-15 | Samsung Electronics Co., Ltd. | System and method for automating natural language understanding (NLU) in skill development |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10972802B1 (en) * | 2019-09-26 | 2021-04-06 | Dish Network L.L.C. | Methods and systems for implementing an elastic cloud based voice search using a third-party search provider |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
CN111582831B (zh) * | 2020-05-12 | 2023-03-14 | 深圳博沃智慧科技有限公司 | 政务信箱管理方法、系统及存储介质 |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
CN112016430B (zh) * | 2020-08-24 | 2022-10-11 | 郑州轻工业大学 | 一种面向多手机佩戴位置的层次化动作识别方法 |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
US20210403031A1 (en) * | 2021-09-10 | 2021-12-30 | Intel Corporation | Disambiguation of vehicle navigation actions |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997046998A1 (en) * | 1996-06-05 | 1997-12-11 | Massachusetts Institute Of Technology | Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors |
EP0881625A2 (en) * | 1997-05-27 | 1998-12-02 | AT&T Corp. | Multiple models integration for multi-environment speech recognition |
WO2010141802A1 (en) * | 2009-06-05 | 2010-12-09 | Apple Inc. | Contextual voice commands |
WO2011156381A1 (en) * | 2010-06-07 | 2011-12-15 | Google, Inc. | Predicting and learning carrier phrases for speech input |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08160990A (ja) * | 1994-12-09 | 1996-06-21 | Oki Electric Ind Co Ltd | 音声合成装置 |
US6064959A (en) * | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
US6243695B1 (en) | 1998-03-18 | 2001-06-05 | Motorola, Inc. | Access control system and method therefor |
US6964023B2 (en) * | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US7117432B1 (en) * | 2001-08-13 | 2006-10-03 | Xerox Corporation | Meta-document management system with transit triggered enrichment |
US20030149562A1 (en) * | 2002-02-07 | 2003-08-07 | Markus Walther | Context-aware linear time tokenizer |
US7302383B2 (en) * | 2002-09-12 | 2007-11-27 | Luis Calixto Valles | Apparatus and methods for developing conversational applications |
US7567902B2 (en) | 2002-09-18 | 2009-07-28 | Nuance Communications, Inc. | Generating speech recognition grammars from a large corpus of data |
CN1201284C (zh) * | 2002-11-15 | 2005-05-11 | 中国科学院声学研究所 | 一种语音识别系统中的快速解码方法 |
US7389230B1 (en) * | 2003-04-22 | 2008-06-17 | International Business Machines Corporation | System and method for classification of voice signals |
JP2004334193A (ja) * | 2003-05-01 | 2004-11-25 | Microsoft Corp | 音声認識および自然言語理解のための複合統計/ルール・ベース文法モデルを有するシステム |
US7379867B2 (en) * | 2003-06-03 | 2008-05-27 | Microsoft Corporation | Discriminative training of language models for text and speech classification |
US20050038647A1 (en) * | 2003-08-11 | 2005-02-17 | Aurilab, Llc | Program product, method and system for detecting reduced speech |
CN1303582C (zh) * | 2003-09-09 | 2007-03-07 | 摩托罗拉公司 | 自动语音归类方法 |
US7137099B2 (en) * | 2003-10-24 | 2006-11-14 | Microsoft Corporation | System and method for extending application preferences classes |
WO2006083020A1 (ja) * | 2005-02-04 | 2006-08-10 | Hitachi, Ltd. | 抽出された音声データを用いて応答音声を生成する音声認識システム |
US7643985B2 (en) * | 2005-06-27 | 2010-01-05 | Microsoft Corporation | Context-sensitive communication and translation methods for enhanced interactions and understanding among speakers of different languages |
US7590541B2 (en) | 2005-09-30 | 2009-09-15 | Rockwell Automation Technologies, Inc. | HMI presentation layer configuration system |
US8583416B2 (en) * | 2007-12-27 | 2013-11-12 | Fluential, Llc | Robust information extraction from utterances |
US8566088B2 (en) * | 2008-11-12 | 2013-10-22 | Scti Holdings, Inc. | System and method for automatic speech to text conversion |
US8407057B2 (en) * | 2009-01-21 | 2013-03-26 | Nuance Communications, Inc. | Machine, system and method for user-guided teaching and modifying of voice commands and actions executed by a conversational learning system |
WO2011029011A1 (en) * | 2009-09-04 | 2011-03-10 | Speech Cycle, Inc. | System and method for the localization of statistical classifiers based on machine translation |
JP2011100403A (ja) * | 2009-11-09 | 2011-05-19 | Sony Corp | 情報処理装置、情報抽出方法、プログラム及び情報処理システム |
US9674328B2 (en) * | 2011-02-22 | 2017-06-06 | Speak With Me, Inc. | Hybridized client-server speech recognition |
-
2012
- 2012-10-04 US US13/644,986 patent/US8484025B1/en active Active
-
2013
- 2013-06-26 ES ES13737910.3T patent/ES2646729T3/es active Active
- 2013-06-26 EP EP13737910.3A patent/EP2904607B1/en active Active
- 2013-06-26 CN CN201710264657.2A patent/CN107256706B/zh active Active
- 2013-06-26 CN CN201380052230.6A patent/CN104704556B/zh active Active
- 2013-06-26 WO PCT/US2013/047852 patent/WO2014055144A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997046998A1 (en) * | 1996-06-05 | 1997-12-11 | Massachusetts Institute Of Technology | Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors |
EP0881625A2 (en) * | 1997-05-27 | 1998-12-02 | AT&T Corp. | Multiple models integration for multi-environment speech recognition |
WO2010141802A1 (en) * | 2009-06-05 | 2010-12-09 | Apple Inc. | Contextual voice commands |
WO2011156381A1 (en) * | 2010-06-07 | 2011-12-15 | Google, Inc. | Predicting and learning carrier phrases for speech input |
Also Published As
Publication number | Publication date |
---|---|
CN107256706A (zh) | 2017-10-17 |
CN104704556A (zh) | 2015-06-10 |
WO2014055144A1 (en) | 2014-04-10 |
CN107256706B (zh) | 2020-08-18 |
ES2646729T3 (es) | 2017-12-15 |
US8484025B1 (en) | 2013-07-09 |
EP2904607A1 (en) | 2015-08-12 |
EP2904607B1 (en) | 2017-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104704556B (zh) | 使用分类器将音频话语映射至动作 | |
US11966701B2 (en) | Dynamic content rendering based on context for AR and assistant systems | |
WO2021252845A1 (en) | Entity level data augmentation in chatbots for robust named entity recognition | |
EP2801091A1 (en) | Methods, apparatuses and computer program products for joint use of speech and text-based features for sentiment detection | |
US20220358727A1 (en) | Systems and Methods for Providing User Experiences in AR/VR Environments by Assistant Systems | |
US12118790B2 (en) | Auto-capture of interesting moments by assistant systems | |
US12125297B2 (en) | Task execution based on real-world text detection for assistant systems | |
US20220415320A1 (en) | Systems and Methods for Implementing Smart Assistant Systems | |
EP3550449A1 (en) | Search method and electronic device using the method | |
US11983329B1 (en) | Detecting head gestures using inertial measurement unit signals | |
US12112001B1 (en) | Preventing false activations based on don/doff detection for assistant systems | |
EP4435703A1 (en) | Generating contextual responses for out-of-coverage requests for assistant systems | |
US20230419952A1 (en) | Data Synthesis for Domain Development of Natural Language Understanding for Assistant Systems | |
US20240119932A1 (en) | Systems and Methods for Implementing Smart Assistant Systems | |
US20230353652A1 (en) | Presenting Personalized Content during Idle Time for Assistant Systems | |
US20240112674A1 (en) | Presenting Attention States Associated with Voice Commands for Assistant Systems | |
US20240282300A1 (en) | Interaction Composer for Conversation Design Flow for Assistant Systems | |
Griol et al. | Integration of context-aware conversational interfaces to develop practical applications for mobile devices | |
CN118506776A (zh) | 助理系统的基于环境运动的主动暂停媒体播放 | |
CN117396838A (zh) | 助理系统的基于真实世界文本检测的任务执行 | |
CN117377942A (zh) | 助理系统的主动收听 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: Google Inc. |