CN107767865B - 语音动作偏置系统 - Google Patents
语音动作偏置系统 Download PDFInfo
- Publication number
- CN107767865B CN107767865B CN201710398592.0A CN201710398592A CN107767865B CN 107767865 B CN107767865 B CN 107767865B CN 201710398592 A CN201710398592 A CN 201710398592A CN 107767865 B CN107767865 B CN 107767865B
- Authority
- CN
- China
- Prior art keywords
- speech
- movement
- user equipment
- triggering
- software application
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 456
- 238000013518 transcription Methods 0.000 claims abstract description 160
- 230000035897 transcription Effects 0.000 claims abstract description 160
- 238000009434 installation Methods 0.000 claims abstract description 15
- 230000001960 triggered effect Effects 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 28
- 230000001052 transient effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 description 32
- 238000004458 analytical method Methods 0.000 description 31
- 238000004891 communication Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 230000006855 networking Effects 0.000 description 8
- 238000012805 post-processing Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 235000015927 pasta Nutrition 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000007474 system interaction Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
用于确定安装在用户设备上的软件应用与新语音动作兼容的方法、系统和装置,其中新语音动作是由软件应用的应用开发者指明的。识别用于触发软件应用执行新语音动作的一个或多个触发词语。将自动话音识别器偏置为相对于其他语音动作的触发词语更偏好所识别的新语音动作的触发词语。获得由偏置的自动话音识别器生成的发声的转录。确定由偏置的自动话音识别器生成的发声的转录包括所识别的触发词语中包括的特定触发词语。至少基于确定由偏置的自动话音识别器生成的发声的转录包括特定触发词语,触发新语音动作的执行。
Description
技术领域
本说明书涉及语音动作,并且一种特定实现方式涉及语音动作检测技术。
背景技术
软件应用中的一个任务是用户在执行特定作业时与之交互的一个或多个活动的收集,其中每个活动是在软件应用中定义的。每个活动是活动类的一个实例,并且总体上集合中的一个或多个活动控制任务的执行的生命周期,使得在任务内执行的多个活动可允许用户执行该作业。在一些实现方式中,命令可与活动或者与活动有关的动作相关联,使得用户对该命令的提交可触发该活动或动作。特定的意图可被发射(fire)以触发活动的开始或动作的执行。从而,为了触发活动的开始或动作的执行,用户必须拥有关于跟用于发射与活动或动作相对应的意图的活动或动作相关联的命令的知识。
发明内容
本说明书描述了一种平台,用于将话音识别系统偏置为相对于其他词语更偏好用于新语音动作的触发词语。在本说明书中,新语音动作是由先前安装的软件应用的应用开发者指明的语音动作。应用开发者可使用该平台来提交定义新语音动作的信息,其中该信息指明先前已被发布并安装在一个或多个用户设备上的软件应用、当该新语音动作被用户发出并被话音识别系统识别时该应用执行的动作、用于触发该动作的触发词语以及该触发词语在其中可用来触发该应用中的该动作的情境。
应用开发者提交的情境可指明当该语音动作应当有效来触发该应用中的该动作时的用户设备状态。设备状态可包括例如哪个(或哪些)应用在前台操作(即,当前在设备的用户界面中活跃)或者在后台操作(即,当前在设备的用户界面中隐藏不可见),或者可包括关于应用的具体信息,例如哪个活动当前在运行、哪些活动被包括在活动栈上、当前运行的活动的状态或者栈上的一个或多个活动的状态,等等。
当应用开发者提交定义新语音动作的信息时,被设计为服务或工具的平台可验证定义新语音动作的信息以确定新语音动作是否与应用兼容,或者以其他方式确定新语音动作是否可被实现。如果新语音动作有效,则通过归纳(induct)定义新语音动作的信息,可以为该语音动作创建一被称为意图(intent)并且具有特定格式的被动数据结构的新实例。意图可指明定义新语音动作的信息中的一些或全部,例如应用、触发词语、响应于检测到该触发词语要触发的活动或动作以及该触发词语触发该活动或动作所必要的情境。随后可为该应用部署该语音动作,使得该语音动作对于该应用成为使能的语音动作,而无需对应用代码做出额外的更改来支持该语音动作。
一旦已部署了语音动作,操作用户设备的用户就可提供话音输入。用户设备可以提交关于用户设备的情境信息,并且情境信息和话音输入的转录(transcription)可用于识别意图并且触发所识别的意图。当意图被触发时,用于执行活动或动作的数据被确定,并且被发送到用户设备以响应于该语音输入而执行该活动或动作。
每个新语音动作与一个或多个触发词语相关联,这些触发词语的发音可与用于其他语音动作的触发词语相似,或者其发音可与不是语音动作的其他单词相似。从而,在一些实现方式中,系统可偏置自动话音识别器以使得自动话音识别器更有可能确定接收到的语音输入包括用于新语音动作的触发词语。为了偏置自动话音识别器,平台可确定用户设备的情境并且可偏置用于转录用户话音的自动话音识别器以识别对于该情境使能的触发词语。例如,在用户向用户设备提供口头输入之时,用户设备的情境或者安装在用户设备上的一个或多个应用的情境可被确定。随后可基于情境识别可用来被触发的语音动作,并且可调整自动话音识别器以对口头输入中的触发词语的识别进行偏置。
在一些实现方式中,偏置话音识别引擎包括调整自动话音识别器使用的一个或多个语言模型以生成用户话音的转录。例如,与用于新语音动作的触发词语相关联的一个或多个识别概率被调整来提高在话音数据中识别出触发词语的可能性,或者提高自动话音识别器相对于其他语音动作的触发词语识别新语音动作的触发词语的偏好。自动话音识别器偏好的触发词语可包括与对于用户设备或在用户设备上操作的应用的给定状态使能的语音动作相关联的那些触发词语。额外地或替换地,与语义上相似的词语或者用于不可用(即,未使能)的语音动作的触发词语相关联的一个或多个识别概率可被调整来降低在话音数据中识别出语义上相似的词语的可能性,或者降低自动话音识别器对于语义上相似的词语的偏好。在其他实现方式中,话音识别引擎使用的一般语言模型可用于生成用户话音的候选转录,并且候选转录的后期处理可被执行来偏置话音识别。例如,在用于用户话音的候选转录被生成之后,向候选转录中的一个或多个分配的概率或置信得分可被调整来偏置话音识别引擎来选择包括用于新语音动作的触发词语的候选转录作为发声的转录,而不选择不包括用于新语音动作的触发词语的其他候选转录。
例如,应用开发者可以为先前安装在一个或多个用户设备的媒体播放器应用部署新的“跳过广告”(skip ad)语音动作。通过部署新语音动作,用户可能够提供包括触发词语“跳过广告”的口头输入来绕过在媒体播放器应用内呈现的广告。应用开发者也可提交“跳过广告”语音动作可被触发时的情境。在部署语音动作之后,在其设备上安装有媒体播放器应用的用户可提供语音输入来控制媒体播放器应用。基于用户的用户设备的情境或者媒体播放器应用的情境,“跳过广告”语音动作可被识别为在用户的口头输入之时可用于触发的应用。
平台用来转化用户话音的自动话音识别器因此可被朝着使得自动话音识别器更有可能检测到触发词语“跳过广告”的方向偏置。偏置的自动话音识别器随后可用于在语音输入上执行话音识别。因为自动话音识别器已被朝着触发词语“跳过广告”偏置,所以用户的否则将被转录为“混战”(scrimmage)的语音输入可转而被转录为“跳过广告”(skip ad),从而导致“跳过广告”语音动作的触发。
本说明书中描述的主题的新颖方面可实现在被配置为执行以下动作的方法、系统和计算机可读存储介质中:由语音动作系统确定安装在用户设备上的软件应用与新语音动作兼容,其中软件应用与语音动作系统不同并且新语音动作是由软件应用的应用开发者指明的;由语音动作系统识别用于触发软件应用执行新语音动作的一个或多个触发词语;由语音动作系统将自动话音识别器偏置为相对于一个或多个其他语音动作的触发词语更偏好所识别的新语音动作的一个或多个触发词语;由语音动作系统获得由偏置的自动话音识别器生成的发声的转录;由语音动作系统确定由偏置的自动话音识别器生成的发声的转录包括所识别的一个或多个触发词语中包括的特定触发词语;并且由语音动作系统至少基于确定由偏置的自动话音识别器生成的发声的转录包括特定的触发词语来触发新语音动作的执行。
这些和其他实施例可各自可选地包括以下特征中的一个或多个。在各种示例中,将自动话音识别器偏置为相对于一个或多个其他语音动作的触发词语更偏好所识别的新语音动作的一个或多个触发词语包括调整自动话音识别器在执行话音识别时使用的语言模型以使得使用经调整的语言模型的自动话音识别器检测到新语音动作的触发词语的可能性提高;触发新语音动作的执行包括触发软件应用执行与新语音动作相关联的动作;触发新语音动作的执行包括:为新语音动作识别语音动作意图,其中语音动作意图包括当被软件应用接收到时请求软件应用执行用于执行新语音动作的一个或多个操作的数据;并且将语音动作意图提供给用户设备,从而请求软件应用执行用于执行新语音动作的一个或多个操作。
在各种其他示例中,确定安装在用户设备上的软件应用与新语音动作兼容包括:识别与新语音动作相关联的情境,其中情境指明当新语音动作被使能时的用户设备状态或软件应用状态;接收指示用户设备的状态或安装在用户设备上的软件应用的状态的信息;并且至少基于确定指示用户设备的状态或安装在用户设备上的软件应用的状态的信息满足情境而确定安装在用户设备上的软件应用与新语音动作兼容;指示用户设备的状态或安装在用户设备上的软件应用的状态的信息包括指示在用户设备的显示器处呈现的内容的信息。
在各种其他示例中,确定安装在用户设备上的软件应用与新语音动作兼容包括:访问关于软件应用的元数据;并且至少基于关于应用的元数据确定安装在用户设备上的软件应用与新语音动作兼容;偏置的自动话音识别器从用户设备接收与发声相对应的音频数据,并且偏置的自动话音识别器基于对与发声相对应的音频数据执行话音识别来生成发声的转录。
在各种其他示例中,这些和其他实施例可各自可选地包括以下中的一个或多个:由语音动作系统确定安装在用户设备上的软件应用与一个或多个其他语音动作兼容;由语音动作系统识别用于触发软件应用执行一个或多个其他语音动作的一个或多个触发词语;并且由语音动作系统对新语音动作和一个或多个其他语音动作排名,其中将自动话音识别器偏置为相对于一个或多个其他语音动作的触发词语更偏好所识别的新语音动作的一个或多个触发词语包括至少基于该排名来偏置自动话音识别器。
在各种其他示例中,这些和其他实施例可各自可选地包括以下中的一个或多个:接收指示用户设备的状态或者安装在用户设备上的软件应用的状态的信息;并且至少基于接收到的指示用户设备的状态或安装在用户设备上的软件应用的状态的信息来对新语音动作和一个或多个其他语音动作排名。
本公开的方法和系统增强了语音动作处理。将自动话音识别器偏置为相对于其他词语更偏好用于语音动作的触发词语提高了在由用户提交的语音命令中将会检测到用于语音动作的触发词语的可能性。因此,由于偏置的自动话音识别器对语音命令中的触发词语的检测,如果利用未偏置的自动话音识别器来处理则将不会导致语音动作的触发的语音命令可转而导致语音动作的触发。以这种方式增强语音动作触发改善了用户体验,因为用户提供的语音命令更有可能被处理为语音动作。从而,用户可避免必须重复最初未被处理为语音动作的语音命令,例如由于在初始语音命令发声中未识别出触发词语。类似地,改善了用户体验,因为用户提供的语音命令更有可能被识别为对于特定设备或应用状态使能的触发语音动作。从而,用户可避免必须重复最初未被处理为触发使能语音动作的语音命令,例如通过避免在初始语音命令发声中检测到用于被禁用的语音动作的触发词语。
本说明书中描述的主题的一个或多个实施例的细节在附图和以下描述中记载。主题的其他潜在特征、方面和优点将从描述、附图和权利要求中变得清楚。
附图说明
图1A-1B描绘了用于语音动作开发系统和服务的示例系统。
图2描绘了用于偏置话音识别器来检测语音动作触发词语的示例系统。
图3是与语音动作开发系统和服务相关联的示例过程的流程图。
图4描绘了根据一种实现方式的话音识别偏置的示例。
各幅图中的相似附图标记指示相似的元素。
具体实施方式
图1A图示了语音动作系统100的示例。语音动作系统100提供了一种平台和服务,凭借该平台和服务,应用开发者可以为先前已安装在一个或多个用户设备上的应用建立新的语音动作。然后,在其设备上安装了该应用的用户可使用语音命令以使得该应用执行由新语音动作指明的特定操作。
语音动作系统100也可提供一种联系图1B和图2更详细论述的平台,用于偏置自动话音识别器以将自动话音识别器调节为适合用于新语音动作的触发词语。当用户提供语音命令时,偏置的自动话音识别器可生成语音命令发声的转录,以确定语音命令发声是否包括用于新语音动作的触发词语。自动话音识别器偏置因此通过允许利用否则可能在用户提交的语音命令发声中检测不到的触发词语触发新语音动作,来改善了用户体验。
语音动作系统100从终端102a-102n接收由应用开发者101a-101n提交的定义新语音动作的数据,其中这些新语音动作是用于一个或多个不同应用的。语音动作系统100可确定每个新语音动作是否是有效的语音动作。每个被确定为有效的新语音动作可被归纳来生成与新语音动作相对应的意图,并且与新语音动作相对应的意图可被存储在语音动作系统100的应用语音动作数据库110处。
例如,语音动作系统100可具有接收并验证定义新语音动作的数据的验证引擎。验证该数据可包括确定定义语音动作的数据的格式化遵从要求,确定新语音动作与指明的应用兼容,或者以其他方式确定基于从应用开发者101a-101n接收的数据可建立语音动作。语音动作系统100的归纳引擎可接收经验证的定义新语音动作的数据,并且可归纳该数据以生成与新语音动作相对应的意图。意图随后可被存储在应用语音动作数据库110中。
应用语音动作数据库110可存储关于在许多不同的软件应用内可执行的活动或动作的语音动作。应用语音动作数据库110中包括的语音动作可包括在构建应用时由应用开发者101a-101n提交的内置语音动作,以及在构建应用之后由应用开发者101a-101n提交的用于执行应用支持的操作的新语音动作。
语音动作也可包括操作系统默认支持的应用特定语音动作。这些预支持的语音动作可以是能够在无需应用开发者101a-101n向语音动作系统100提交该语音动作的情况下在应用中执行的语音动作。例如,退出在前台运行的任务或活动的语音动作“退出应用”可对任何应用自动可用,并且可对每个应用被包括在应用语音动作数据库110中,而无需应用开发者101a-101n向语音动作系统100提交信息来定义“退出应用”语音动作。
除了应用语音动作数据库110以外,语音动作系统100还可包括操作系统(OS)语音动作数据库120,其存储不与任何特定的应用或情境相关联的语音动作。例如,使得设备进入锁定状态的“锁定电话”语音动作可以是在OS语音动作数据库120中被指明为不与特定应用相关联的语音动作的语音动作,或者是普遍可访问的语音动作,即无论“锁定设备”语音动作被触发时设备或应用的状态如何都可访问。一般而言,OS语音动作数据库120中存储的语音动作是并非由定义语音动作的应用开发者101a-101n生成的语音动作,因为存储在OS语音动作数据库120处的语音动作是用户设备操作环境而不是由第三方应用开发者101a-101n生成的任何特定应用所通用的。
语音动作系统100使得拥有用户设备104的用户105能够向其用户设备104提供口头语音输入来使得动作被用户设备104或在其用户设备104上操作的应用执行。例如,如图1A中所示,拥有用户设备104的用户105在其用户设备104上运行有媒体播放器应用并且在媒体播放器应用正在用户设备104的前台运行并且正在音频播放器模式中操作媒体播放器应用的同时提供口头输入“跳过广告”。
与该口头输入相对应的音频数据和指明用户设备104的状态(包括在用户设备104上运行的应用的状态)的情境信息被发送到语音动作系统100。具体而言,对于图1A中所示的示例,与语音输入“跳过广告”相对应的音频数据被语音动作系统100的话音识别引擎130接收,并且指示用户设备104的状态的情境信息被语音动作系统100的情境分析引擎140接收。情境信息可指示出媒体播放器应用正在用户设备104的前台运行,媒体播放器应用当前处于音频播放器模式中,并且可指示出关于用户设备104和安装在用户设备104上的应用的状态的其他信息。
话音识别引擎130接收与语音输入相对应的音频数据,生成语音输入的转录,并且将语音输入的转录提供给语音动作选择器150。情境分析引擎140从用户设备104接收情境信息并且处理情境信息以确定相关情境信息。例如,情境分析引擎140可分析情境信息以识别安装在用户设备104上的应用,并且与这些应用的每一者相关联的元数据可指明用于该应用的可用语音动作和对于确定对给定设备或应用状态可使能哪个语音动作相关的情境信息。在一些情况中,基于该分析,情境分析引擎140可确定为了识别应当使能哪些语音动作需要额外的情境信息,因此情境分析引擎140可向用户设备104请求额外的情境信息。情境分析引擎140将经处理的情境信息转发给语音动作选择器150。
例如,如图1A中所示,话音识别引擎130可接收与语音输入“跳过广告”相对应的音频数据并且可获得语音输入的转录。情境分析引擎140从用户设备104接收情境信息,该情境信息指明媒体播放器应用在前台运行,媒体播放器应用在音频播放器模式中操作,并且可选地提供关于用户设备104或媒体播放器应用的状态的其他信息。例如,情境信息还可指示出社交网络应用正在用户设备104的后台运行并且用户设备104的电池寿命当前是50%。情境分析引擎140可处理接收到的情境信息以识别与选择要触发的语音动作有密切关系的情境信息。例如,情境分析引擎140可接收指示出媒体播放器应用或社交网络应用都没有基于设备电池寿命使能或禁用特定语音动作的信息。因此,情境分析引擎140可过滤情境信息以仅指示媒体播放器应用正在用户设备104的前台操作,媒体播放器应用处于音频播放器模式中,并且社交网络应用正在用户设备104的后台操作。经过滤的情境信息和语音输入“跳过广告”的转录随后可被提供给语音动作选择器150。
语音动作选择器150从话音识别引擎130接收口头输入的转录并且从情境分析引擎140接收包括经处理的情境信息的情境。语音动作选择器150使用该转录和情境来识别与在用户设备104处要触发的特定语音动作相关联的特定意图。例如,语音动作选择器150可访问应用语音动作数据库110和OS语音动作数据库120以识别对于当前情境使能的候选语音动作的集合。识别候选语音动作的集合可包括识别存储在应用语音动作数据库110或OS语音动作数据库120处的指明与语音动作选择器150接收的情境匹配的情境的意图的集合。替换地,识别候选语音动作的集合可包括访问与一个或多个软件应用相关联的指明语音动作和语音动作在其中被使能的情境的元数据,其中该元数据可被存储在应用语音动作数据库110处、存储在客户端设备104处或存储在别处。语音动作选择器150随后可识别与匹配从情境分析引擎140接收的情境的情境相关联的候选语音动作。
在识别了对于该情境使能的候选语音动作的集合后,语音动作选择器150可将语音输入的转录和与每个使能的语音动作相关联的一个或多个触发词语相比较。一般地,触发词语可包括一个或多个单词或其他词语,并且作为语音动作的识别符操作,使得对特定触发词语的一个或多个词语的检测导致对与该特定触发词语相对应的语音动作的识别和触发。例如,语音动作选择器150可将转录和与使能的语音动作的意图相关联的各个触发词语相比较。语音动作选择器150基于确定该转录匹配与特定语音动作相关联的意图所指明的触发词语,来为该特定语音动作识别特定意图。替换地,语音动作选择器150可基于确定该转录匹配在应用元数据中指明的与特定语音动作相关联的触发词语,来为该特定语音动作识别特定意图。
例如,语音动作选择器150可接收语音输入“跳过广告”的转录和情境,并且可使用接收到的情境来识别在用户设备104处要发起的候选语音动作,即,对于给定情境使能的语音动作。在为该情境确定候选语音动作的集合之后,语音动作选择器150将语音输入“跳过广告”的转录与候选语音动作的意图所指明的触发词语相比较。语音动作选择器150可确定转录“跳过广告”匹配“跳过广告”语音动作的意图对于媒体播放器应用所指明的触发词语,并且因此可选择“跳过广告”语音动作来触发。
“跳过广告”语音动作可以是用于使得媒体播放器应用跳过在所选内容被播放之前呈现给媒体播放器应用的用户的广告的语音动作。例如,在用户105选择了要在用户设备104播放的特定媒体内容之后,用户105可提供“跳过广告”语音动作以使得媒体播放器应用跳过否则将在所选内容之前呈现的广告。从而,如果媒体播放器应用正加载广告或者已开始向用户105呈现广告,则用户105可提供说出“跳过广告”的语音命令以绕过广告并且开始所选内容的播放。
在一些实现方式中,基于确定转录的至少一部分匹配触发词语的一个或多个单词或其他词语,来将转录识别为匹配触发词语。例如,可基于转录的每个词语匹配触发词语的每个词语来识别转录和触发词语之间的匹配。在一些实现方式中,可基于确定转录的非全部词语匹配触发词语的词语来识别匹配。例如,转录即使在以下情况下也可匹配触发词语:触发词语的一些词语在转录中不存在,转录除了触发词语的词语以外还包括其他词语,或者转录的一个或多个词语与触发词语的词语不同。从而,作为示例,转录“新电子邮件”、“发送新电子邮件”或者“开启新电子邮件”的每一者可被识别为匹配触发词语“打开新电子邮件”,尽管这些转录的每一者未能精确匹配该触发词语。
在一些情况中,如果转录包括触发词语的单词或其他词语的一些或全部,但顺序与触发词语指明的顺序不同,则该转录可被识别为匹配该触发词语。例如,转录“锁定电话”可被识别为匹配“电话锁定”触发词语。在一些情况中,基于确定转录包括触发词语的词语的一个或多个同义词或替换词语,可将转录识别为匹配触发词语。从而,基于“撰写”和“打开”被分类为“书写”的同义词,转录“撰写新电子邮件”或“打开新电子邮件”可被识别为匹配触发词语“书写新电子邮件”。
在识别了特定语音动作后,语音动作选择器150向用户设备104提供使得与该特定语音动作相关联的活动或动作被发起的动作触发数据。为此,语音动作选择器150可获得用于控制用户设备104执行与所选择的语音动作相关联的动作或活动的信息。在一些情况中,控制用户设备104执行与所选择的语音动作相关联的动作或活动可包括发射所选择的语音动作的意图。发射所选择的语音动作的意图可使得用于发起与所选择的语音动作相关联的活动或动作的信息被提供给用户设备104。
例如,所选择的语音动作的意图可包括使得与该语音动作相关联的动作或活动被与该语音动作相关联的应用执行的数据。所选择的意图可被发送到用户设备104,使得用户设备104对意图的接收可充当请求或者可触发与语音动作相关联的动作或活动的执行。替换地,语音动作选择器150可确定其他数据来充当使得所选择的语音动作在用户设备104处被执行的动作触发数据,并且可将该信息发送给用户设备104。例如,意图可只识别用户设备104为了执行该语音动作而要执行的动作或活动,并且语音动作选择器150可确定可控制用户设备104上的应用执行与该语音动作相关联的动作或活动的动作触发数据。所确定的动作触发数据可被发送到用户设备104,以使得动作触发数据使得与语音动作相关联的动作或活动被执行。在一些实现方式中,意图可被存储在用户设备104本地,并且语音动作选择器150可向用户设备104发送识别要发射的特定意图的数据。用户设备104随后可发射指明的意图来执行语音动作。
例如,在从候选语音动作的集合之中选择“跳过广告”语音动作之后,语音动作选择器150将“跳过广告”语音动作的意图发送到用户设备104,或者获得用于控制在用户设备104上运行的媒体播放器应用绕过在媒体播放器应用处正在呈现或即将呈现的广告的其他信息。语音动作选择器150将用于控制媒体播放器应用跳过广告的数据发送给用户设备104,用户设备104进而发起让在用户设备104上运行的媒体播放器应用跳过在用户设备105的界面处当前或即将呈现的广告的过程。
在一些实现方式中,与一个或多个第三方应用开发者101a-101n相对应的一个或多个终端102a-102n可各自通过一个或多个有线或无线数据连接(例如通过一个或多个网络)与语音动作系统100通信。终端102a-102n的每一者可以是移动设备,例如蜂窝电话、智能电话、平板计算机、膝上型计算机、个人数字助理(personal digital assistant,PDA)、上网本计算机或其他移动计算设备,或者可以是任何固定计算设备,例如桌面型计算机或其他固定计算机。与用户105相关联的用户设备104也可通过一个或多个有线或无线数据连接(例如网络)与语音动作系统100通信,其中用户设备104也可以是移动或固定计算设备,例如蜂窝电话、智能电话、平板计算机、上网本、个人数字助理、膝上型计算机、桌面型计算机或其他计算设备。
图1A中所示的示例语音动作系统100包括应用语音动作数据库110、操作系统(OS)语音动作数据库120、话音识别引擎130、情境分析引擎140和语音动作选择器150。语音动作系统100的组件的每一者——包括应用语音动作数据库110、OS语音动作数据库120、话音识别引擎130、情境分析引擎140和语音动作选择器150——可通过使能电子通信的交换的一个或多个有线或无线数据通道(例如一个或多个网络)与语音动作系统100的一个或多个其他组件通信。在一些实现方式中,语音动作系统100的组件中的一个或多个可被组合,以使得其功能被单个组件执行,或者可由两个或更多个组件表示,以使得它们的功能分散在两个或更多个组件上。语音动作系统100的组件可实现在单个计算设备上,例如单个服务器系统,或者可实现在通过使能组件之间的电子通信的交换的一个或多个有线或无线数据通道通信的多个计算设备上。图1A的系统或语音动作系统100的其他替换实现方式可例如像2016年3月1日递交的美国专利申请15/057,453中公开的那样实现,在此将该申请全部并入。
图1B描绘了一种偏置自动话音识别器以促进语音动作触发的示例语音动作系统。图1B的语音动作系统可偏置自动话音识别器以更容易检测新语音动作的触发词语。此外,图1B的语音动作系统可识别有资格触发的语音动作,并且可将自动话音识别器偏置为与对于给定状态没有资格触发的其他新语音动作的触发词语相比更容易检测到对于给定的用户设备或应用状态有资格触发的新语音动作的触发词语。
简要地说,图1B的语音动作系统100包括应用语音动作数据库110、话音识别引擎130、情境分析引擎140和语音动作选择器150,每一者如联系图1A所描述的。在一些实现方式中,语音动作系统100可包括额外的或与图1B中所示的那些不同的组件。例如,语音动作系统可包括如图1A中的OS语音动作数据库120。语音动作系统100的组件110、130、140、150可通过一个或多个有线或无线数据通道(例如一个或多个网络)与彼此通信。
语音动作系统100可与一个或多个终端102a-102n通信,这些终端102a-102n与一个或多个第三方应用开发者101a-101n相关联,这些第三方应用开发者101a-101n向语音动作系统100提交新语音动作以对于由第三方应用开发者101a-101n开发的现有软件应用使能这些新语音动作,其中现有软件应用即先前已开发并且被安装在一个或多个用户设备上的应用。一个或多个终端102a-102n和语音动作系统100之间的通信可通过一个或多个有线或无线数据通道发生,例如通过一个或多个有线或无线网络发生。语音动作系统100可额外地与一个或多个用户设备交换通信,例如与用户105相关联的用户设备104。在一些实现方式中,语音动作系统100和用户设备104通过一个或多个有线或无线数据通道(例如一个或多个网络)交换通信。
与图1A中一样,应用开发者101a-101n可向语音动作系统100提交指明用于软件应用的新语音动作的信息。例如,在应用开发者101a-101n开发并部署了应用,并且该应用被安装在一个或多个用户设备上之后,应用开发者101a-101n利用终端102a-102n向语音动作系统100提交指明新语音动作的信息。语音动作系统100归纳指明新语音动作的信息,并且在应用语音动作数据库110处存储与新语音动作有关的信息。例如,新语音动作的意图可基于该归纳过程被生成并被存储在应用语音动作数据库110处。此外,关于新语音动作的信息可作为应用元数据被生成并存储在应用语音动作数据库110处。用于控制用户设备执行新语音动作的操作的一个或多个语音动作语法也可被生成和/或存储在应用语音动作数据库110处。
一旦新语音动作已被应用开发者101a-101n提交给语音动作系统100并且新语音动作已被归纳,应用开发者101a-101n就可部署新语音动作以使能在安装了该应用的用户设备处触发新语音动作。例如,应用开发者101a-101n可能够通过最初将新语音动作部署到一个或多个所选择的用户设备来测试新语音动作,并且在成功测试了新语音动作或者响应于该测试而修改新语音动作之后,应用开发者101a-101n可部署新语音动作以使能在安装了该应用的所有兼容用户设备处触发该新语音动作。
例如,媒体播放器应用的第三方应用开发者101a可以向语音动作系统提交关于“跳过广告”语音动作的信息,该“跳过广告”语音动作控制媒体播放器应用跳过广告或绕过媒体播放器应用内的广告的呈现。指明“跳过广告”语音动作的数据被归纳并且诸如意图之类的信息、元数据或其他信息被添加到应用语音动作数据库110以使能“跳过广告”语音动作的使用。应用开发者101a随后可测试“跳过广告”语音动作,例如通过将“跳过广告”语音动作选择性地部署到有限数目的用户。在测试之后,应用开发者101a部署“跳过广告”语音动作以使能在所有兼容的用户设备(例如用户设备104)处触发“跳过广告”语音动作。
在新语音动作已被部署之后,用户105可提供语音命令以在其用户设备104处触发新语音动作。用户设备104可将关于语音命令的信息发送到语音动作系统100以便处理。例如,基于确定用户105提供了语音命令,用户设备104可确定情境信息并且可将情境信息提供给语音动作系统100。
如联系图1A所描述,情境信息可指明关于用户设备104的信息或者关于安装在用户设备104上的一个或多个应用的信息。提交给语音动作系统100的情境信息例如可包括:指明用户设备104的品牌(make)或型号、用户设备104的操作系统、用户设备104的硬件组件或能力(例如用户设备104是否具有屏幕、扬声器、耳机插座、外部显示器等等)的信息;关于用户设备104的状态的信息,例如用户设备104的电池寿命、检测到的用户设备104的位置、用户设备104的可用存储器或其他存储容量,等等。
情境信息也可指明关于安装在用户设备104处的一个或多个应用的信息。例如,情境信息可识别当前安装在用户设备104处或当前在用户设备104处运行的一个或多个应用、在用户设备104的前台操作的应用、在用户设备104的后台操作的一个或多个应用、一个或多个应用当前正执行的活动或任务、指示在用户设备104的显示器处正呈现的或者在应用的GUI中正呈现的内容的信息、或者其他信息。
用户设备104可额外地向语音动作系统100提供与用户105的语音命令发声相对应的音频数据。例如,用户设备104可以若干种方式之一确定用户105意图提供语音命令,例如通过确定用户105选择了特定图标或按压了特定控件,确定用户105说出了指示语音命令的特定短语,例如短语“好吧Google一下”,确定用户105有可能响应来自用户设备105的对语音命令的提示,例如响应于用户设备105提供诸如“说出您想要做什么”的音频输出,或者可以其他方式确定用户105意图提供语音输入。在一些实现方式中,用户105可在音频数据被用户设备104获得之前确认其提供语音命令的意图。用户设备104可获得并向语音动作系统100发送与语音命令发声相对应的音频数据以便处理语音命令。
语音动作系统100接收情境信息和与语音命令相对应的音频数据,并且处理情境信息和音频数据以识别并触发语音动作。在一些实现方式中,情境分析引擎140可接收由用户设备104提交给语音动作系统100的情境信息,并且可处理情境信息以识别与确定要触发哪个语音动作相关的情境信息。如联系图1A所描述,处理情境信息可涉及情境分析引擎140对从用户设备104接收的情境信息过滤以识别与选择要触发的特定语音动作相关的情境信息。在处理接收到的情境信息之后,情境分析引擎140向语音动作选择器150和话音识别引擎130中的一者或多者提供包括所识别的相关情境信息的情境。
例如,基于用户105向用户设备105提供语音命令“跳过广告”,用户设备105可确定情境信息并且将所确定的情境信息提供给语音动作系统100。情境分析引擎140可从用户设备104接收情境信息并且可处理情境信息以确定情境,即,过滤掉不那么相关的情境信息。在由情境分析引擎140处理之后,情境分析引擎140可向语音动作选择器150和/或话音识别引擎130提供情境,其中例如情境指明媒体播放器应用在用户设备104的前台操作、媒体播放器应用处于音频播放器模式中并且社交网络应用在用户设备104的后台运行。
基于情境识别一个或多个候选语音动作。在一些示例中,语音动作选择器150基于情境识别候选语音动作。例如,语音动作选择器150可从情境分析引擎140接收情境并且可访问应用语音动作数据库110以识别与接收到的情境兼容的语音动作。为此,语音动作选择器150可将接收到的情境与对于应用语音动作数据库110中包括的一个或多个语音动作指明的条件相比较。语音动作选择器150可基于确定接收到的情境满足对于这些语音动作指明的条件来识别候选语音动作。
替换地,话音识别引擎130可基于对于应用语音动作数据库110中包括的一个或多个语音动作指明的情境使能条件的比较来识别一个或多个候选语音动作。在另外的其他示例中,话音识别引擎130和语音动作选择器150两者都可独立地基于将情境与对于一个或多个语音动作指明的使能条件相比较来识别候选语音动作。除了在应用语音动作数据库110处识别候选语音动作外,也可执行类似的过程来在图1A的OS语音动作数据库120(在图1B中没有示出)处识别候选语音动作。
返回图1B的示例,语音动作选择器150和/或话音识别引擎130可基于指明媒体播放器应用在前台运行、媒体播放器应用处于音频播放器模式中并且社交网络应用在后台运行的情境与应用语音动作数据库110处的一个或多个语音动作的条件的比较,来识别候选语音动作。基于该比较,可识别候选语音动作,例如“跳过广告”语音动作、“下一首歌”语音动作、“暂停”语音动作和“共享歌曲”语音动作。
候选语音动作和/或关于候选语音动作的信息被提供给语音动作选择器150和话音识别引擎130。话音识别引擎130至少基于候选语音动作和/或关于候选语音动作的信息被偏置。例如,对于候选语音动作的每一者可识别一个或多个触发词语,并且可至少基于所识别的触发词语来配置话音识别引擎130以将话音识别引擎130偏置为相对于其他语音动作的触发词语更偏好新语音动作的触发词语。例如,偏置话音识别引擎130可涉及将话音识别引擎130配置为检测有资格触发的语音动作的触发词语而不是没有资格触发的语音动作的触发词语,或者检测有资格触发的语音动作的触发词语而不是非触发词语的其他词语。在一些示例中,每个候选语音动作的触发词语可从与候选语音动作相对应的意图识别,可从与候选语音动作相对应的应用元数据识别,或者可从关于候选语音动作的其他信息识别。
基于候选语音动作偏置话音识别引擎130一般包括将话音识别引擎130偏置为更容易识别用于新语音动作的触发词语。例如,话音识别引擎130可与用于对与语音命令相对应的音频数据执行话音识别以生成音频数据的转录的一个或多个语言模型和一个或多个声学模型相关联。偏置话音识别引擎130可包括调整声学模型或语言模型中的一个或多个,以提高在对发声音频数据执行话音识别时识别与新语音动作相关联的触发词语的概率,和/或提高包括所识别的新语音动作的触发词语的候选转录被话音识别引擎130选择为发声的转录的概率。
例如,声学模型或语言模型中的一个或多个可以是统计或概率模型,例如隐马尔可夫模型、基于动态时间规整(dynamic time warping,DTW)的话音识别模型、神经网络、深前馈神经网络(deep feedforward neural network,DNN)或递归神经网络。基于候选语音动作偏置一个或多个声学模型或语言模型可包括识别可用于触发新语音动作中的一个或多个的触发词语的集合,并且修改声学模型或语言模型中的一个或多个以使得音频数据的转录将包括新语音动作的触发词语的概率被提高。在一些实现方式中,修改一个或多个语言模型或声学模型包括修改模型使用的统计值,或者以其他方式修改模型,例如通过在隐马尔可夫模型中去除或添加节点或者调整与节点之间的边缘相关联的概率。在一些实现方式中,调整一个或多个语言模型或声学模型可涉及选择或组合话音识别引擎130要使用的一个或多个特定语言模型或声学模型。例如,话音识别引擎130可能够访问一个或多个不同的语言模型和/或声学模型,并且可选择或组合所选择的语言模型和/或声学模型来用于基于候选语音动作执行话音识别。
在一些实现方式中,为了偏置话音识别以检测语音动作的触发词语,话音识别引擎130对为特定发声音频数据生成的候选转录执行额外的处理。例如,话音识别引擎130可利用一般或通用语言模型和一般或通用声学模型来执行话音识别以生成发声的候选转录。这些一般或通用模型可被话音识别引擎130用于所有用户,例如使得用于不同设备和/或用户的话音识别引擎全都使用相同的模型,或者这些一般或通用模型可被针对特定用户定制,例如基于随着时间的流逝而使模型适应于特定用户,比如基于机器学习。在对用户发声生成候选转录之后,可执行后期处理来偏置话音识别引擎130以选择包括对于给定情境有资格被触发的语音动作的触发词语的候选转录。在一些情况中,后期处理涉及调整分配给候选转录的概率或置信得分,例如通过提高分配给包括有资格被触发的语音动作的触发词语的候选转录的概率或置信得分,并且降低分配给不包括有资格被触发的语音动作的触发词语的候选转录的概率或置信得分。在一些实现方式中,可调整整个发声的概率或置信得分。例如,可基于确定候选转录“跳过正播放的广告”包括与对于给定情境有资格被触发的语音动作相对应的触发词语“跳过广告”,来调整分配给该候选转录的概率或置信得分。在其他实现方式中,可调整特定候选词语的概率或置信得分。例如,基于确定(例如基于接收到的情境确定)“跳过广告”语音动作有资格触发,可独立于与发声的其他部分相对应的其他词语来调整分配给词语“跳过”的概率或置信得分。
作为示例,触发词语“跳过广告”、“下一首歌”、“暂停”和“共享歌曲”可被识别为候选触发词语,并且话音识别引擎130可被偏置以提高话音识别引擎130识别这些触发词语的能力。在一些实现方式中,话音识别引擎130在执行话音识别时使用的一个或多个声学模型或语言模型可被修改,以使得例如与未被识别为触发词语的单词“pasta”(意面)相比,话音识别引擎130更有可能检测到触发词语“pause”(暂停)。替换地,在其他实现方式中,一般或通用声学模型或语言模型可被话音识别引擎130用来生成发声的转录,并且可对发声的候选转录执行后期处理以与其他不包括“跳过广告”、“下一首歌”、“暂停”和“共享歌曲”词语的候选转录相比提高包括这些词语“跳过广告”、“下一首歌”、“暂停”和“共享歌曲”的候选转录被话音识别引擎130选择为发声的转录的概率。
偏置的话音识别引擎130接收与用户105提供的语音命令发声相对应的音频数据,并且生成发声的转录。例如,编码了由用户105提交的语音命令发声“跳过广告”的音频数据可被从用户设备104发送并被偏置的话音识别引擎130接收。偏置的话音识别引擎130可对接收到的音频数据执行话音识别以生成发声的转录。
在一些实现方式中,因为话音识别引擎130已被偏置来检测用于候选语音动作的触发词语,包括与“跳过广告”语音动作相关联的触发词语“跳过广告”,所以与话音识别引擎130没有基于候选语音动作被偏置的情况相比,偏置的话音识别引擎130可生成转录“跳过广告”并且可向该转录分配更高的置信得分或精确概率。从而,如果话音识别是利用未偏置的话音识别引擎130执行的,则可能生成了不同的转录结果。例如,未偏置的话音识别引擎130可识别发声的两个候选转录,包括转录“停止应用”(stop app)和“跳过广告”(skipad),并且可能不正确地选择“停止应用”转录,因为该转录被分配了比“跳过广告”转录更高的置信得分。然而,通过在执行话音识别之前偏置话音识别引擎130,“跳过广告”转录可被分配更高的置信得分并且因此可被正确地识别为发声的转录。
偏置的话音识别引擎130生成的转录被提供给语音动作选择器150,其中语音动作选择器150选择特定的候选语音动作来触发。例如,如联系图1A所描述,语音动作选择器150可接收识别候选语音动作的信息以及由偏置的话音识别引擎130生成的语音命令发声的转录。语音动作选择器150可基于检测到转录和对于特定候选语音动作指明的触发词语之间的匹配来识别该特定候选语音动作来触发。例如,鉴于转录匹配对于“跳过广告”语音动作指明的触发词语“跳过广告”,并且转录不匹配对于“暂停”语音动作指明的触发词语“暂停”,语音动作选择器150可选择“跳过广告”语音动作来触发。
在一些示例中,转录可匹配与多个候选语音动作相关联的触发词语。在这种场景中,数据可被发送到用户设备104,该数据使得请求被呈现给用户105以选择多个候选语音动作中的特定一个来触发。语音动作选择器150可接收指示用户选择的信息并且可因此选出用户选择的候选语音动作来触发。在一些实现方式中,可调整触发词语与选择和/或未选择的语音动作之间的相关性。例如,存储在应用语音动作数据库110处的数据可基于用户选择被更新以指示出特定的触发词语与用户选择的语音动作更相关,并且指示出特定的触发词语与未选择的语音动作不那么相关。这种相关性例如可使得语音动作选择器150即使在转录匹配与多个语音动作相对应的触发词语时也能够选择特定的候选语音动作来触发。
基于特定的候选语音动作被选择,语音动作选择器150或语音动作系统100的另一组件向用户设备104提供使得所选择的候选语音动作被触发或执行的数据。例如,语音动作选择器150可访问所选择的候选语音动作的意图,并且可将该意图发送到用户设备104,作为对于用户设备104执行与该意图相关联的语音动作(例如通过执行该意图所指明的一个或多个操作或活动来执行)的请求。
在其他实现方式中,语音动作选择器150可访问指明用于执行特定候选语音动作的活动或操作的信息,并且可向用户设备104提供控制用户设备104执行指明的活动或操作的指令。例如,语音动作选择器150可在应用语音动作数据库110处访问特定候选语音动作的意图并且可利用语音动作选择器150可访问的一个或多个语法来构建执行该语音动作所必要的一个或多个操作。替换地,语音动作选择器150可访问例如应用语音动作数据库110处的数据,用于指令用户设备104执行对于执行特定候选语音动作所必要的活动或操作。语音动作选择器150随后可向用户设备104发送信息,指令用户设备104或安装在用户设备上的应用执行特定候选语音动作的活动或操作。
在另外的其他示例中,语音动作意图可被存储在用户设备104本地,并且语音动作选择器150可向用户设备104发送识别要触发的特定候选语音动作的信息。用户设备104可接收指明特定候选语音动作的信息,并且可发射与该特定候选语音动作相对应的意图以发起该特定候选语音动作的活动或操作的执行。
图2描绘了一种示例语音动作系统,其偏置自动话音识别器以改善语音动作系统响应于用户语音命令而触发适当的语音动作的能力。例如,包括与图1A和1B的话音识别引擎130相似的话音识别引擎230的图2的语音动作系统200可被配置为将话音识别引擎230偏置为更容易识别与合格语音动作相对应的触发词语。
简要地说,图2的语音动作系统200包括应用元数据后端210、偏置引擎220、话音识别引擎230、与图1A和1B的情境分析引擎140相似的情境分析引擎240、与图1A和1B的语音动作选择器150相似的语音动作选择器250、语音动作构建器260以及语音动作语法265。语音动作系统200的组件210、220、230、240、250、260、265可通过一个或多个有线或无线数据通道(例如一个或多个网络)通信。语音动作系统200也可通过一个或多个有线或无线数据通道(例如网络)从与用户205相关联的用户设备204接收数据和向其发送数据。
当用户设备204的用户205向用户设备204提供语音命令时,根据图2的操作可被执行来识别要在用户设备处触发的语音动作。如所述,通过话音识别引擎230的偏置来促进对要触发的适当语音动作的识别。
当用户205向用户设备204提供语音命令时,情境信息被用户设备204确定并被提供给语音动作系统200,在这里其被情境分析引擎240接收(步骤A)。例如,用户205可说出发声“跳过广告”以向用户设备204提供语音命令。响应于检测到该语音命令,用户设备204可以为用户设备204和/或安装在用户设备204上的软件应用确定情境信息,例如媒体播放器应用正在用户设备204的前台操作,媒体播放器应用正在音频播放器模式中操作,社交网络应用正在用户设备204的后台操作,并且用户设备204的电池处于50%容量。在一些实现方式中,情境信息还可识别或提供与在用户设备104的显示器处呈现的内容有关的具体细节,例如在用户设备104处呈现的搜索结果或歌曲。所确定的情境信息被发送到语音动作系统200并且被情境分析引擎240接收。
情境分析引擎240处理接收到的情境信息,并且由该处理得到的情境被提供到语音动作系统的偏置引擎220和语音动作选择器250的每一者(步骤B)。例如,情境分析引擎240可处理从用户设备204接收的情境信息,并且可确定情境信息的至少一部分与语音动作的处理无关并且可被从情境中排除。从而,情境分析引擎240可省略指明用户设备204的电池处于50%容量的情境信息,并且因此可生成仅指明媒体播放器应用正在用户设备204的前台操作并且在音频播放器模式中操作并且指明社交网络应用正在用户设备204的后台操作的情境。所生成的情境被提供给偏置引擎220和语音动作选择器250。
应用元数据后端210处的信息被访问以识别候选语音动作和用于触发候选语音动作的触发词语(步骤C)。与应用语音动作数据库类似,应用元数据后端210可包括与一个或多个语音动作有关的信息。例如,应用元数据后端210可指明对于每个第三方应用(例如,或者安装在用户设备204上,或者在“应用商店”中对于任何用户普遍可用的第三方应用)可用的所有语音动作。应用元数据后端210还可对于每个语音动作指明为了使得该语音动作能够触发而必须满足的一个或多个条件,以及指明用于触发每个语音动作的一个或多个触发词语的信息。
例如,应用元数据后端210可包括与用于安装在用户设备204上的媒体播放器应用和社交网络应用两者的语音动作有关的信息。应用元数据后端210可指明用户可用来控制每个应用的许多语音动作。对于这些应用指明的语音动作可各自与一个或多个条件相关联,为了让语音动作有资格触发,接收到的情境必须满足这些条件。例如,应用元数据后端210可指明用于媒体播放器应用的“跳过广告”语音动作有资格触发所要求的条件。这些条件例如可要求媒体播放器应用在用户设备的前台操作并且在音频播放器模式中操作。应用元数据后端210还可指明当被检测到时引起“跳过广告”语音动作的触发的与“跳过广告”语音动作相关联的一个或多个触发词语,例如触发词语“跳过广告”。
偏置引擎220接收或访问存储在应用元数据后端210处的信息,并且基于接收到的信息对话音识别引擎230进行偏置(步骤D)。在一些实现方式中,偏置话音识别引擎230包括识别有可能用于给定情境的触发词语,并且偏置话音识别引擎230以更容易识别这些触发词语。例如,偏置引擎220可在应用元数据后端210处识别接收到的情境所指明的每个应用的语音动作的全集,例如媒体播放器应用和社交网络应用的每一者可用的语音动作的全集。偏置引擎220随后可使用情境来识别有资格触发的那些语音动作的子集。例如,偏置引擎220可比较指明媒体播放器应用在前台操作并且处于音频播放器模式中并且指明社交网络应用在后台操作的情境,并且基于此情境可识别出对于给定情境可用的候选语音动作的子集。随后在应用元数据后端210处识别用于候选语音动作的触发词语。
偏置引擎220随后向话音识别引擎230提供信息以偏置话音识别引擎230。例如,基于为候选语音动作的集合识别出可用触发词语,偏置引擎220可向话音识别引擎230提供偏置信息以调整话音识别引擎230在执行话音识别时使用的一个或多个语言模型或声学模型。一个或多个语言模型或声学模型的偏置可如参考图1B所述那样执行。在其他示例中,偏置引擎220向话音识别引擎230提供偏置信息,该偏置信息使得话音识别引擎230选择包括与合格语音动作集合相对应的触发词语的候选转录,而不选择不包括这种触发词语的其他转录。这些情况中话音识别引擎230的偏置可如随后联系图4所述那样执行。
在一些实现方式中,基于用于候选语音动作的触发词语对话音识别引擎230进行偏置包括对候选语音动作和/或用于候选语音动作的触发词语进行排名,并且基于候选语音动作和/或触发词语的排名来偏置话音识别引擎230。例如,偏置引擎220可基于接收到的情境对一个或多个候选语音动作排名,例如通过将与在前台运行的应用相关联的候选语音动作排名得高于与在后台运行的应用相关联的语音动作。话音识别引擎230随后可被偏置得不那么朝向在排名中较低的语音动作的触发词语并且可被偏置得更强烈地朝向在排名中较高的语音动作的触发词语。
类似地,与特定候选语音动作更紧密关联的触发词语在触发词语的排名中可被排名得高于与特定候选语音动作不那么紧密关联的其他触发词语。从而,话音识别引擎230可被更强烈地偏置得朝向更高排名的触发词语而不是更低排名的触发词语。例如,基于语音动作系统200确定特定触发词语比其他触发词语更经常用于调用候选语音动作,应用元数据后端210可包括指示出该特定触发词语与该候选语音动作更紧密关联的信息。结果,偏置引擎220可将话音识别引擎230偏置得与其他不那么经常使用的触发词语相比更强烈地朝向检测到更经常使用的触发词语。
偏置的话音识别引擎230接收与用户205输入的语音命令相对应的音频数据(步骤E)。例如,用户设备204可检测提供语音命令的用户204的发声,并且可将与发声相对应的音频数据发送到语音动作系统200,在这里其被话音识别引擎230接收。在一些实现方式中,音频数据可在情境信息之前或与情境信息同时被提供给语音动作系统200,以使得话音识别引擎230在话音识别引擎230的偏置完成时已经拥有音频数据。
偏置的话音识别引擎230对接收到的音频数据执行话音识别,并且将音频数据的转录提供给语音动作选择器250(步骤F)。例如,在话音识别引擎230的偏置完成之后,偏置的话音识别引擎230可对编码了用户204提交的语音命令发声的音频数据执行话音识别。偏置话音识别引擎230可提高生成的转录包括用于候选语音动作的语音动作触发词语的可能性。
例如,对用户的语音命令发声执行话音识别的未偏置的话音识别引擎230可能生成两个候选转录“跳过广告”和“停止应用”,并且可基于分配给“停止应用”转录的置信值高于分配给“跳过广告”转录的置信值而选择“停止应用”转录。从而,如果“停止应用”转录不是用于候选语音动作的触发词语,则用户204输入的语音命令可能没有任何效果。然而,偏置的话音识别引擎230可生成音频数据的两个候选转录“跳过广告”和“停止应用”,但基于话音识别引擎230的偏置导致向“跳过广告”转录分配比“停止应用”转录更高的置信值而选择转录“跳过广告”作为要提供给语音动作选择器250的转录。
语音动作选择器250接收该转录并且使用该转录和其他访问的信息来识别要触发的语音动作(步骤G)。例如,语音动作选择器250可从情境分析引擎240接收情境信息(步骤B),并且基于在应用元数据后端210处访问的信息(步骤C),可识别一个或多个候选语音动作和与这些候选语音动作相对应的触发词语。替换地,语音动作选择器250可从偏置引擎220或话音识别引擎230接收识别候选语音动作及其相应的触发词语的信息。语音动作选择器250随后通过将接收到的发声的转录与用于候选语音动作的触发词语相比较来识别要触发的特定语音动作。基于确定转录匹配特定触发词语,语音动作选择器250识别与该特定触发词语相对应的候选语音动作并且向语音动作构建器260提供识别出所识别的语音动作的信息。
在一些示例中,即使匹配不完整,也可识别触发词语与转录之间的匹配。例如,即使转录不包括触发词语的所有词语,语音动作选择器250也可能够确定该转录匹配该触发词语。语音动作选择器250也可能够确定转录匹配触发词语的一些部分并且不匹配触发词语的其他部分,并且虽然如此也可将该转录识别为匹配触发词语的其他部分。从而,例如,转录“跳过”或“跳过商业广告”仍可被识别为匹配“跳过广告”触发词语。基于检测到此匹配,语音动作选择器250可选择与匹配的触发词语相对应的语音动作。
在一些实现方式中,在语音动作选择器250识别要触发的语音动作之后,语音动作构建器260访问语音动作语法265以构建语音动作并且允许其在用户设备204处的执行(步骤H)。例如,基于接收到指示出“跳过广告”语音动作应当被触发的信息,语音动作构建器260可访问语音动作语法265以取回或构建媒体播放器应用为了执行“跳过广告”语音动作而可执行的操作。在一些实现方式中,构建语音动作可涉及选择、修改或生成意图,该意图当被用户设备204接收到时请求用户设备执行该意图指明的操作以执行该语音动作。在其他实现方式中,语音动作构建器260可生成或识别要提供给用户设备204的特定指令,用于控制安装在用户设备204上的应用执行实现语音动作所必要的操作。
在一些示例中,构建语音动作包括构建在用户设备204处呈现给用户205的一个或多个内容元素上执行的操作。例如,如果所选择的语音动作涉及在用户设备204处呈现的特定内容,例如在用户设备204正显示歌曲的列表时“播放第二首歌”的语音动作,则语音动作构建器260可生成或修改意图以允许该语音动作的适当执行。从而,当构建语音动作时,语音动作构建器260访问语音动作语法265处的允许语音动作的适当执行的信息,例如用于选择和播放在用户设备204的显示器上示出的第二项目。
语音动作构建器260向用户设备204提供数据以在用户设备204处触发语音动作(步骤I)。例如,语音动作构建器260可向用户设备204发送意图以控制用户设备204执行语音动作,或者可向用户设备204发送控制应用执行用于实现语音动作的操作的指令。
图3是用于触发语音动作的示例过程300的流程图。在一些实现方式中,图3的过程300可由图1A和1B的语音动作系统100执行。过程300允许了语音动作系统100处理用户105提交的语音命令,其中这些语音命令将会触发新语音动作的概率提高。
过程300包括由语音动作系统确定安装在用户设备上的软件应用与新语音动作兼容,其中软件应用不同于语音动作系统并且新语音动作是由软件应用的应用开发者指明的(302)。例如,用户105可在用户设备104处提供语音命令,并且与接收到的语音命令相关联地提交给语音动作系统100的情境信息可被用于确定应用开发者101a-101n提交的特定新语音动作在该语音命令之时是否与用户设备104兼容。在一些实现方式中,确定用户设备与新语音动作兼容可包括将用户设备104的情境或者安装在用户设备104上的一个或多个应用的情境与使得新语音动作能够触发而要求的一个或多个条件相比较。基于该比较,语音动作系统100可确定情境满足该一个或多个条件并且因此可将用户设备识别为与新语音动作兼容。
语音动作系统识别用于触发软件应用执行新语音动作的一个或多个触发词语(304)。例如,基于根据情境与使能新语音动作所要求的一个或多个条件的比较确定新语音动作与用户设备104兼容,可识别用于触发新语音动作的一个或多个触发词语。
语音动作系统将自动话音识别器偏置为相对于一个或多个其他语音动作的触发词语更偏好所识别的新语音动作的一个或多个触发词语(306)。例如,如联系图1B和图2所述,语音动作系统100的话音识别引擎230可基于所识别的一个或多个触发词语被偏置以提高话音识别引擎230将会在用户提交的发声中检测到用于新语音动作的触发词语的存在的概率。偏置话音识别引擎230可涉及调整话音识别引擎230在执行话音识别时使用的一个或多个语言模型和/或声学模型。偏置话音识别引擎230可导致话音识别引擎230更有可能向包括用于新语音动作的触发词语的候选转录分配提高这些候选转录被选择为发声的转录的可能性的置信得分。
语音动作系统获得由偏置的自动话音识别器生成的发声的转录(308)。例如,偏置的话音识别引擎230可从用户设备104接收编码了用户105的语音命令的发声的音频数据,并且可对音频数据执行话音识别以生成发声的转录。
语音动作系统确定偏置的自动话音识别器生成的发声的转录包括所识别的一个或多个触发词语中包括的特定触发词语(310)。例如,在偏置的话音识别引擎230生成用户105的发声的转录之后,偏置的话音识别引擎230可将该转录提供给语音动作选择器150。语音动作选择器150可将转录与所识别的用于触发新语音动作的一个或多个触发词语中的每一个相比较,并且可确定转录的至少一部分匹配用于触发新语音动作的一个或多个触发词语中的特定一个。在一些实现方式中,检测转录与特定触发词语之间的匹配可只要求该转录基本上匹配该特定触发词语。例如,转录可包括比特定触发词语更多的单词,包括特定触发词语中包括的单词的同义词,或者包括比特定触发词语更少的单词,而仍可被识别为匹配该特定触发词语。
语音动作系统至少基于确定由偏置的自动话音识别器生成的发声的转录包括特定触发词语而触发新语音动作的执行(312)。例如,基于语音动作选择器150确定转录匹配一个或多个所识别的用于触发新语音动作的触发词语中包括的特定触发词语,语音动作选择器150可向用户设备104提供触发与新语音动作相关联的操作的执行的数据。在一些实现方式中,向用户设备104提供数据以触发新语音动作的执行包括向用户设备104发送意图,其中用户设备对意图的接收会请求用户设备执行意图中指明的操作以执行该语音动作。替换地,语音动作选择器150可向用户设备104提供指令,这些指令直接控制用户设备104或在用户设备104上操作的应用执行操作,从而实现语音动作的执行。
关于以上描述,又及,用户可被提供以控件,以允许用户做出关于以下事项的选择:联系图1A至图3描述的系统、程序或特征是否以及何时可使能对用户信息(例如,关于用户的社交网络、社交动作或活动、用户的偏好或者用户的当前位置的信息)的收集,以及用户是否被发送来自服务器的内容或通信。此外,在存储或使用某些数据之前,可通过一种或多种方式处理这些数据,以去除个人可识别信息。例如,基于用户设备处的用户输入接收的用户的身份或信息可被处理,以使得不能够针对用户确定个人可识别信息。从而,用户可对以下事项具有控制权:收集关于用户的什么信息,如何使用该信息,以及向用户提供什么信息。
图4描绘了根据一种实现方式的话音识别偏置示例。在图4中,话音识别引擎——例如图1A和1B的话音识别引擎130——接收到了与用户发声相对应的音频数据,并且基于接收到的音频数据生成了图400,即,用户发声的马尔可夫模型或词网格(word lattice)表示。在图400中,每个节点402a-402f对应于词语之间的连接,并且每个边缘404a-404i——即节点402a-402f之间的连接——对应于与用户发声音频数据的一部分相对应的候选词语。图400使得话音识别引擎130能够确定用户发声的候选转录。虽然在图4中被示为只具有节点402a-402f,但在一些实现方式中图400可包括额外的边缘和节点,分别对应于其他候选词语和词语之间的连接,用于确定用户发声的候选转录。
话音识别引擎130可使用图400来识别用户发声的候选转录的集合。例如,在一些实现方式中,图400的节点402a-402f和/或边缘404a-404i可各自与一概率相关联,该概率指示出所确定的对于用户发声包括与该边缘402a-402f或节点404a-404i相对应的特定词语或词语之间的连接的置信,即置信得分(未示出)。基于图400,话音识别引擎130可通过找出该图中导致最高概率的路径来为用户发声确定候选转录。话音识别引擎130可至少基于所确定的概率来对候选转录进行排名。例如,话音识别引擎130可以为用户发声生成图400并且可以为发声确定候选转录,包括转录“暂停乐队说出文本”(pause band say text)、“意面和星球”(pasta and planets)、“暂停并播放下一首”(pause and play next)和“暂停乐队星球”(pause band planets)。话音识别引擎130可进一步基于分配给节点402a-402f和/或边缘404a-404i的概率来对候选转录排名。例如,在没有偏置的情况下,候选转录“暂停乐队说出文本”可被排名为第一,候选转录“意面和星球”被排名为第二,候选转录“暂停并播放下一首”被排名为第三,并且候选转录“暂停乐队星球”被排名为第四,如排名450a中所示。额外的候选转录(未示出)也可被包括在排名450a中,其中每个候选转录基于其构成节点和边缘被分配与整体置信相对应的整体概率。
话音识别引擎130可执行偏置以偏好与新语音动作相关联的候选转录。为了实现偏置,话音识别引擎130可对候选转录执行后期处理,修改候选转录图中的概率,或者执行这些操作的某种组合。
候选转录的后期处理随后可被执行来偏好包括与有资格触发的语音动作相对应的触发词语的候选转录。具体而言,分配给候选转录的概率或置信得分可基于候选转录中包括的与合格语音动作相对应的触发词语的存在或缺乏而被调整。例如,基于接收到的情境,可做出如下确定:“暂停”语音动作和“播放下一首”语音动作都是有资格触发的。与候选转录相关联的概率随后可基于候选转录中的“暂停”或“播放下一首”触发词语的存在而被调整。例如,分配给包括这些触发词语的候选转录的概率或置信得分可被提高,而分配给不包括这些触发词语的候选转录的概率或置信得分可被降低。
在调整分配给候选转录的概率或置信得分之后,可确定新的排名450b,其反映了朝着以与有资格触发的语音动作相对应的触发词语为特征的候选转录的偏置。例如,基于分配给包括触发词语“暂停”或“播放下一首”的候选转录的概率被提高,排名450b可以让候选转录“暂停并播放下一首”排名第一,虽然其在执行话音识别偏置之前在排名450a中排名第三。候选转录“暂停并说出文本”和“暂停乐队星球”可分别被排名第二和第三,这是基于分配给它们每一者的概率或置信得分由于在这些候选转录中触发词语“暂停”的存在而被提高。在排名450a中排名第二的转录“意面和星球”在排名450b中可以是第四,这是基于其概率由于在该候选转录中不存在触发词语“暂停”或“播放下一首”的任一者而被降低或没有被提高。
利用这些技术,话音识别可被偏置以提高话音识别引擎130将会在用户发声中检测到触发词语的概率。这种方法也具有某些优点,因为其不要求话音识别引擎130使用的特定语言模型或声学模型被修改或再训练来优先于其他词语检测某些触发词语。更确切地说,话音识别引擎130使用的语言模型和声学模型的输出可被后期处理以偏好与用于有资格触发的语音动作的触发词语相对应的候选输出。这种语言模型和声学模型可以是话音识别引擎130使用的通用语言和声学模型,即,不是任何一个用户或设备特定的语言和声学模型,或者可以是单个用户或设备或者用户或设备的群组特定的、并且已被训练来提高话音识别对于这些特定个体或设备的准确性的语言和声学模型。
作为后期处理的替换或附加,话音识别引擎可通过调整分配给图中的特定节点或边缘的概率或置信得分来偏置候选转录。然后,一不同路径有可能会导致最高概率,并且该不同路径更有可能指示新语音动作的转录。例如,基于“暂停”是用于有资格触发的语音动作的触发词语,分配给与词语“暂停”相对应的边缘404a的概率或置信得分可被调整以提高包括词语“暂停”的候选转录将会被识别并且在候选转录的排名中被排名得更高的概率。从而,通过在节点级或边缘级应用偏置,可实现与在候选转录级执行偏置时相似的偏置结果。
已描述了数个实现方式。然而,将会理解,在不脱离本公开的精神和范围的情况下可做出各种修改。可以使用以上示出的流程的各种形式,其中步骤被重排序、添加或删除。因此,其他实现方式在所附权利要求的范围内。
对于这里论述的系统和/或方法可收集关于用户的个人信息,或者可利用个人信息的情况,可向用户提供如下机会:控制程序或特征是否收集个人信息,例如关于用户的社交网络、社交动作或活动、职业、偏好或当前位置的信息,或者控制系统和/或方法是否和/或如何能够执行与用户更相关的操作。此外,在存储或使用某些数据之前,可通过一种或多种方式使其匿名,以去除个人可识别信息。例如,可将用户的身份匿名,以使得不能针对用户确定个人可识别信息,或者在获得位置信息的情况下可将用户的地理位置一般化到城市、邮编或州级别,以使得不能确定用户的特定位置。从而,用户可对如何收集和使用关于他或她的信息拥有控制权。
虽然前述实施例主要是参考开发用于安装在用户设备上的应用的语音动作来描述的,但描述的特征也可针对机器、其他设备、机器人或其他系统使用。例如,图1A和1B的语音动作系统100可被利用来开发和实现用于与机器交互的语音动作和可发现性示例,其中机器具有关联的计算系统,可用于开发和实现用于与机器人或具有机器人组件的系统交互的语音动作,可用于开发和实现用于与家电、娱乐系统或其他设备交互的语音动作,或者可用于开发和实现用于与车辆或其他运输系统交互的语音动作。
本说明书中描述的实施例和所有功能操作可以用数字电子电路实现,或者用计算机软件、固件或硬件—包括本说明书中公开的结构及其结构等同物—实现,或者用它们中的一个或多个的组合来实现。实施例可实现为一个或多个计算机程序产品,即计算机程序指令的一个或多个模块,其被编码在计算机可读介质上,以供数据处理装置执行或者控制数据处理装置的操作。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、实现机器可读传播信号的组合物或者他们中的一个或多个的组合。术语“数据处理装置”涵盖了用于处理数据的所有装置、设备和机器,例如包括可编程处理器、计算机或者多个处理器或计算机。除了硬件外,装置还可包括为所关注的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。传播的信号是人工生成的信号,例如机器生成的电信号、光信号或电磁信号,该信号被生成来编码信息以传送到适当的接收器装置。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言来编写,所述语言包括经编译或解释的语言,并且计算机程序可按任何形式来部署,包括被部署为独立程序或被部署为模块、组件、子例程或者适合用在计算环境中的其他单元。计算机程序不一定对应于文件系统中的文件。程序可被存储在保存其他程序或数据的文件的一部分中(例如,存储在标记语言文档中的一个或多个脚本)、存储在专用于所关注程序的单个文件中或者存储在多个协调的文件中(例如,存储一个或多个模块、子程序或代码部分的文件)。计算机程序可被部署来在一个计算机或多个计算机上执行,所述多个计算机位于一个地点或分布在多个地点并由通信网络互连。
本说明书中描述的过程和逻辑流可通过一个或多个可编程处理器执行一个或多个计算机程序以通过对输入数据进行操作并生成输出而执行功能,从而来执行。过程和逻辑流也可由专用逻辑电路来执行,并且装置也可实现为专用逻辑电路,专用逻辑电路例如是FPGA(现场可编程门阵列)或ASIC(专用集成电路)。
适用于执行计算机程序的处理器例如包括通用和专用微处理器两者,以及任何种类的数字计算机的任何一个或多个处理器。一般地,处理器将从只读存储器或随机访问存储器或者这两者接收指令和数据。
计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。一般地,计算机还将包括一个或多个大容量存储设备,或者操作性地耦合到一个或多个大容量存储设备以便从其接收数据或向其传递数据,或者既包括也操作性地耦合到一个或多个大容量存储设备,所述大容量存储设备用于存储数据,例如是磁盘、磁光盘或光盘。然而,计算机不是必须具有这种设备。另外,计算机可被嵌入在另一设备中,例如平板计算机、移动电话、个人数字助理(personal digital assistant,PDA)、移动音频播放器、全球定位系统(Global Positioning System,GPS)接收器,仅举几例。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,例如包括半导体存储器设备,例如EPROM、EEPROM和快闪存储器设备;磁盘,例如内部硬盘或可移除盘、磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可被专用逻辑电路所补充,或者被包含在专用逻辑电路中。
为了支持与用户的交互,实施例可实现在计算机上,该计算机具有用于向用户显示信息的显示设备,例如,CRT(阴极射线管)或LCD(液晶显示器)监视器,以及用户可用来向计算机提供输入的键盘和指点设备,例如鼠标或轨迹球。其他种类的设备也可用于支持与用户的交互;例如,提供给用户的反馈可以是任何形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;并且来自用户的输入可按任何形式被接收,包括声响、话音或触觉输入。
实施例可在计算系统中实现,该计算系统包括后端组件(例如,作为数据服务器),或者包括中间件组件(例如,应用服务器),或者包括前端组件(例如,具有用户可通过其来与实现方式交互的图形用户界面或Web浏览器的客户端计算机),或者一个或多个这种后端、中间件或前端组件的任何组合。系统的组件可由任何形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网(local area network,“LAN”)和广域网(wideareanetwork,“WAN”),例如因特网。
计算系统可包括客户端和服务器。客户端和服务器一般可彼此远离并且通常通过通信网络来交互。客户端和服务器的关系是由于计算机程序在各计算机上运行且相互之间具有客户端-服务器关系而发生的。
虽然本说明书包含许多具体细节,但这些细节不应被解释为对本公开的范围或者可请求保护的范围的限制,而是应被解释为对特定实施例所特有的特征的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可在单个实施例中组合实现。相反,在单个实施例的上下文中描述的各种特征也可分开地或者按任何适当的子组合在多个实施例中实现。另外,虽然以上可将特征描述为按某些组合来动作,或者甚至最初权利要求是这样记载的,但来自要求保护的组合的一个或多个特征在一些情况下可被从该组合中删去,并且要求保护的组合可指向子组合或子组合的变体。
类似地,虽然操作在附图中是按特定顺序描绘的,但这不应当被理解为为了实现期望的结果要求这种操作按所示出的特定顺序或按先后顺序执行,或者要求所有示出的操作都被执行。在某些情况中,多任务和并行处理可能是有利的。另外,在以上描述的实施例中各种系统组件的分离不应当被理解为在所有实施例中都要求这种分离,并且应当理解所描述的程序组件和系统一般可被一起集成在单个软件产品中或被封装到多个软件产品中。
在提到HTML文件的每个情况中,也可替换为其他文件类型或格式。例如,HTML文件可被XML、JSON、纯文本或其他类型的文件所替代。另外,在提到表格或哈希表的情况下,可使用其他数据结构(例如电子数据表、关系数据库或结构化文件)。
从而,已经描述了特定实施例。其他实施例在所附权利要求的范围内。例如,权利要求中记载的动作可按不同的顺序执行,而仍实现期望的结果。
Claims (20)
1.一种由计算机实现的用于话音识别的方法,包括:
由语音动作系统确定安装在用户设备上的软件应用与新语音动作兼容,其中所述软件应用不同于所述语音动作系统并且所述新语音动作是由所述软件应用的应用开发者指明的;
由所述语音动作系统确定安装在所述用户设备上的所述软件应用与一个或多个其他语音动作兼容;
由所述语音动作系统识别用于触发所述软件应用执行所述新语音动作的一个或多个触发词语;
由所述语音动作系统识别用于触发所述软件应用执行所述一个或多个其他语音动作的一个或多个触发词语;
由所述语音动作系统对所述新语音动作和所述一个或多个其他语音动作进行排名;
由所述语音动作系统将自动话音识别器偏置为相对于所述一个或多个其他语音动作的触发词语更偏好所识别的所述新语音动作的一个或多个触发词语,其中所述自动话音识别器是至少基于所述排名被偏置的;
由所述语音动作系统获得由偏置的自动话音识别器生成的发声的转录;
由所述语音动作系统确定由所述偏置的自动话音识别器生成的发声的转录包括所识别的一个或多个触发词语中包括的特定触发词语;并且
由所述语音动作系统至少基于确定由所述偏置的自动话音识别器生成的发声的转录包括所述特定触发词语而触发所述新语音动作的执行。
2.如权利要求1所述的方法,其中,将所述自动话音识别器偏置为相对于一个或多个其他语音动作的触发词语更偏好所识别的所述新语音动作的一个或多个触发词语包括调整所述自动话音识别器在执行话音识别时使用的语言模型以使得使用经调整的语言模型的所述自动话音识别器检测到所述新语音动作的触发词语的可能性提高。
3.如权利要求1所述的方法,其中,触发所述新语音动作的执行包括触发所述软件应用执行与所述新语音动作相关联的动作。
4.如权利要求1所述的方法,其中,触发所述新语音动作的执行包括:
为所述新语音动作识别语音动作意图,其中所述语音动作意图包括当被所述软件应用接收到时请求所述软件应用执行用于执行所述新语音动作的一个或多个操作的数据;并且
将所述语音动作意图提供给所述用户设备,从而请求所述软件应用执行用于执行所述新语音动作的一个或多个操作。
5.如权利要求1所述的方法,其中,确定安装在所述用户设备上的所述软件应用与所述新语音动作兼容包括:
识别与所述新语音动作相关联的情境,其中所述情境指明当所述新语音动作被使能时的用户设备状态或软件应用状态;
接收指示所述用户设备的状态或安装在所述用户设备上的所述软件应用的状态的信息;并且
至少基于确定指示所述用户设备的状态或者安装在所述用户设备上的所述软件应用的状态的信息满足所述情境而确定安装在所述用户设备上的所述软件应用与所述新语音动作兼容。
6.如权利要求5所述的方法,其中,指示所述用户设备的状态或安装在所述用户设备上的所述软件应用的状态的信息包括指示在所述用户设备的显示器处呈现的内容的信息。
7.如权利要求1所述的方法,其中,确定安装在所述用户设备上的所述软件应用与所述新语音动作兼容包括:
访问关于所述软件应用的元数据;并且
至少基于关于所述应用的所述元数据来确定安装在所述用户设备上的所述软件应用与所述新语音动作兼容。
8.如权利要求1所述的方法,其中,所述偏置的自动话音识别器从所述用户设备接收与所述发声相对应的音频数据,并且其中,所述偏置的自动话音识别器基于对与所述发声相对应的所述音频数据执行话音识别来生成所述发声的转录。
9.如权利要求1所述的方法,包括:
接收指示所述用户设备的状态或安装在所述用户设备上的所述软件应用的状态的信息;并且
至少基于接收到的指示所述用户设备的状态或者安装在所述用户设备上的所述软件应用的状态的信息来对所述新语音动作和所述一个或多个其他语音动作进行排名。
10.如权利要求1所述的方法,其中,对所述新语音动作和所述一个或多个其他语音动作进行排名包括对触发词语进行排名。
11.如权利要求1所述的方法,其中,所述新语音动作和所述一个或多个其他语音动作是至少基于概率被排名的。
12.一种用于话音识别的系统,包括:
一个或多个计算机和存储指令的一个或多个存储设备,所述指令当被所述一个或多个计算机执行时可操作来使得所述一个或多个计算机执行操作,所述操作包括:
由语音动作系统确定安装在用户设备上的软件应用与一个或多个其他语音动作兼容;
由所述语音动作系统识别用于触发所述软件应用执行新语音动作的一个或多个触发词语;
由所述语音动作系统识别用于触发所述软件应用执行所述一个或多个其他语音动作的一个或多个触发词语;
由所述语音动作系统对所述新语音动作和所述一个或多个其他语音动作进行排名;
由所述语音动作系统将自动话音识别器偏置为相对于所述一个或多个其他语音动作的触发词语更偏好所识别的所述新语音动作的一个或多个触发词语,其中所述自动话音识别器是至少基于所述排名被偏置的;
由所述语音动作系统获得由偏置的自动话音识别器生成的发声的转录;
由所述语音动作系统确定由所述偏置的自动话音识别器生成的发声的转录包括所识别的一个或多个触发词语中包括的特定触发词语;并且
由所述语音动作系统至少基于确定由所述偏置的自动话音识别器生成的发声的转录包括所述特定触发词语而触发所述新语音动作的执行。
13.如权利要求12所述的系统,其中,将所述自动话音识别器偏置为相对于一个或多个其他语音动作的触发词语更偏好所识别的所述新语音动作的一个或多个触发词语包括调整所述自动话音识别器在执行话音识别时使用的语言模型以使得使用经调整的语言模型的所述自动话音识别器检测到所述新语音动作的触发词语的可能性提高。
14.如权利要求12所述的系统,其中,触发所述新语音动作的执行包括触发所述软件应用执行与所述新语音动作相关联的动作。
15.如权利要求12所述的系统,其中,触发所述新语音动作的执行包括:
为所述新语音动作识别语音动作意图,其中所述语音动作意图包括当被所述软件应用接收到时请求所述软件应用执行用于执行所述新语音动作的一个或多个操作的数据;并且
将所述语音动作意图提供给所述用户设备,从而请求所述软件应用执行用于执行所述新语音动作的一个或多个操作。
16.如权利要求12所述的系统,其中,确定安装在所述用户设备上的所述软件应用与所述新语音动作兼容包括:
识别与所述新语音动作相关联的情境,其中所述情境指明当所述新语音动作被使能时的用户设备状态或软件应用状态;
接收指示所述用户设备的状态或安装在所述用户设备上的所述软件应用的状态的信息;并且
至少基于确定指示所述用户设备的状态或者安装在所述用户设备上的所述软件应用的状态的信息满足所述情境而确定安装在所述用户设备上的所述软件应用与所述新语音动作兼容。
17.如权利要求16所述的系统,其中,指示所述用户设备的状态或安装在所述用户设备上的所述软件应用的状态的信息包括指示在所述用户设备的显示器处呈现的内容的信息。
18.如权利要求12所述的系统,其中,确定安装在所述用户设备上的所述软件应用与所述新语音动作兼容包括:
访问关于所述软件应用的元数据;并且
至少基于关于所述应用的所述元数据来确定安装在所述用户设备上的所述软件应用与所述新语音动作兼容。
19.如权利要求12所述的系统,其中,所述偏置的自动话音识别器从所述用户设备接收与所述发声相对应的音频数据,并且其中,所述偏置的自动话音识别器基于对与所述发声相对应的所述音频数据执行话音识别来生成所述发声的转录。
20.一种存储软件的非暂态计算机可读存储介质,所述软件包括可被一个或多个计算机执行的指令,这些指令当被这样执行时使得所述一个或多个计算机执行操作,所述操作包括:
由语音动作系统确定安装在用户设备上的软件应用与新语音动作兼容,其中所述软件应用不同于所述语音动作系统并且所述新语音动作是由所述软件应用的应用开发者指明的;
由所述语音动作系统确定安装在所述用户设备上的所述软件应用与一个或多个其他语音动作兼容;
由所述语音动作系统识别用于触发所述软件应用执行所述新语音动作的一个或多个触发词语;
由所述语音动作系统识别用于触发所述软件应用执行所述一个或多个其他语音动作的一个或多个触发词语;
由所述语音动作系统对所述新语音动作和所述一个或多个其他语音动作进行排名;
由所述语音动作系统将自动话音识别器偏置为相对于一个或多个其他语音动作的触发词语更偏好所识别的所述新语音动作的一个或多个触发词语,其中所述自动话音识别器是至少基于所述排名被偏置的;
由所述语音动作系统获得由偏置的自动话音识别器生成的发声的转录;
由所述语音动作系统确定由所述偏置的自动话音识别器生成的发声的转录包括所识别的一个或多个触发词语中包括的特定触发词语;并且
由所述语音动作系统至少基于确定由所述偏置的自动话音识别器生成的发声的转录包括所述特定触发词语而触发所述新语音动作的执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910226611.0A CN110070860B (zh) | 2016-08-19 | 2017-05-31 | 语音动作偏置系统 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/241,538 | 2016-08-19 | ||
US15/241,538 US9691384B1 (en) | 2016-08-19 | 2016-08-19 | Voice action biasing system |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910226611.0A Division CN110070860B (zh) | 2016-08-19 | 2017-05-31 | 语音动作偏置系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107767865A CN107767865A (zh) | 2018-03-06 |
CN107767865B true CN107767865B (zh) | 2019-04-19 |
Family
ID=59034958
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910226611.0A Active CN110070860B (zh) | 2016-08-19 | 2017-05-31 | 语音动作偏置系统 |
CN201710398592.0A Active CN107767865B (zh) | 2016-08-19 | 2017-05-31 | 语音动作偏置系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910226611.0A Active CN110070860B (zh) | 2016-08-19 | 2017-05-31 | 语音动作偏置系统 |
Country Status (4)
Country | Link |
---|---|
US (2) | US9691384B1 (zh) |
EP (3) | EP3627500B1 (zh) |
CN (2) | CN110070860B (zh) |
WO (1) | WO2018034718A1 (zh) |
Families Citing this family (79)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9734151B2 (en) * | 2012-10-31 | 2017-08-15 | Tivo Solutions Inc. | Method and system for voice based media search |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9460713B1 (en) * | 2015-03-30 | 2016-10-04 | Google Inc. | Language model biasing modulation |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10210862B1 (en) * | 2016-03-21 | 2019-02-19 | Amazon Technologies, Inc. | Lattice decoding and result confirmation using recurrent neural networks |
US10049670B2 (en) | 2016-06-06 | 2018-08-14 | Google Llc | Providing voice action discoverability example for trigger term |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10127926B2 (en) | 2016-06-10 | 2018-11-13 | Google Llc | Securely executing voice actions with speaker identification and authentication input types |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10261752B2 (en) * | 2016-08-02 | 2019-04-16 | Google Llc | Component libraries for voice interaction services |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9691384B1 (en) | 2016-08-19 | 2017-06-27 | Google Inc. | Voice action biasing system |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11003417B2 (en) * | 2016-12-15 | 2021-05-11 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus with activation word based on operating environment of the apparatus |
US10565989B1 (en) * | 2016-12-16 | 2020-02-18 | Amazon Technogies Inc. | Ingesting device specific content |
US10229680B1 (en) * | 2016-12-29 | 2019-03-12 | Amazon Technologies, Inc. | Contextual entity resolution |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10522146B1 (en) * | 2019-07-09 | 2019-12-31 | Instreamatic, Inc. | Systems and methods for recognizing and performing voice commands during advertisement |
KR102007478B1 (ko) * | 2017-06-28 | 2019-08-05 | 크리스토퍼 재현 윤 | 특정 조건에서 음성인식을 이용한 어플리케이션 제어 장치 및 방법 |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10878047B1 (en) * | 2017-09-22 | 2020-12-29 | Amazon Technologies, Inc. | Content generation framework |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US11676062B2 (en) * | 2018-03-06 | 2023-06-13 | Samsung Electronics Co., Ltd. | Dynamically evolving hybrid personalized artificial intelligence system |
US11113473B2 (en) * | 2018-04-02 | 2021-09-07 | SoundHound Inc. | Interpreting expressions having potentially ambiguous meanings in different domains |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11011162B2 (en) * | 2018-06-01 | 2021-05-18 | Soundhound, Inc. | Custom acoustic models |
KR102523982B1 (ko) * | 2018-08-21 | 2023-04-20 | 구글 엘엘씨 | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 |
WO2020040745A1 (en) | 2018-08-21 | 2020-02-27 | Google Llc | Dynamic and/or context-specific hot words to invoke automated assistant |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) * | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11593562B2 (en) * | 2018-11-09 | 2023-02-28 | Affirm, Inc. | Advanced machine learning interfaces |
US11043214B1 (en) * | 2018-11-29 | 2021-06-22 | Amazon Technologies, Inc. | Speech recognition using dialog history |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
CN113785354A (zh) * | 2019-05-06 | 2021-12-10 | 谷歌有限责任公司 | 选择性地激活设备上语音识别并且在选择性地激活设备上的nlu和/或设备上履行中使用识别的文本 |
WO2020226789A1 (en) * | 2019-05-06 | 2020-11-12 | Google Llc | Contextual biasing for speech recognition |
CN114026636A (zh) * | 2019-06-19 | 2022-02-08 | 谷歌有限责任公司 | 用于语音识别的场境偏置 |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11948556B2 (en) | 2019-10-15 | 2024-04-02 | Google Llc | Detection and/or enrollment of hot commands to trigger responsive action by automated assistant |
WO2021076349A1 (en) * | 2019-10-18 | 2021-04-22 | Google Llc | End-to-end multi-speaker audio-visual automatic speech recognition |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11610588B1 (en) * | 2019-10-28 | 2023-03-21 | Meta Platforms, Inc. | Generating contextually relevant text transcripts of voice recordings within a message thread |
US20210158803A1 (en) * | 2019-11-21 | 2021-05-27 | Lenovo (Singapore) Pte. Ltd. | Determining wake word strength |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
EP4085452A1 (en) * | 2020-01-30 | 2022-11-09 | Google LLC | Speech recognition |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
CN111883151B (zh) * | 2020-07-30 | 2024-08-30 | 云知声智能科技股份有限公司 | 音频信号的处理方法、装置、设备和存储介质 |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
EP4047599A4 (en) * | 2020-12-23 | 2022-12-21 | Samsung Electronics Co., Ltd. | METHOD FOR PROVIDING VOICE-BASED CONTENT AND ASSOCIATED ELECTRONIC DEVICE |
US11978449B2 (en) * | 2021-03-02 | 2024-05-07 | Samsung Electronics Co., Ltd. | Electronic device for processing user utterance and operation method therefor |
US20220319494A1 (en) * | 2021-03-31 | 2022-10-06 | International Business Machines Corporation | End to end spoken language understanding model |
US20220415311A1 (en) * | 2021-06-24 | 2022-12-29 | Amazon Technologies, Inc. | Early invocation for contextual data processing |
US20230088601A1 (en) * | 2021-09-15 | 2023-03-23 | Samsung Electronics Co., Ltd. | Method for processing incomplete continuous utterance and server and electronic device for performing the method |
US11756548B1 (en) * | 2022-06-03 | 2023-09-12 | Apple Inc. | Ambiguity resolution for application integration |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1164292A (zh) * | 1994-10-25 | 1997-11-05 | 英国电讯公司 | 声控服务 |
CN103999152A (zh) * | 2011-12-29 | 2014-08-20 | 英特尔公司 | 利用动态语法元素集的语音识别 |
CN104050967A (zh) * | 2013-03-14 | 2014-09-17 | 本田技研工业株式会社 | 语音接口系统和方法 |
EP2963642A1 (en) * | 2014-06-30 | 2016-01-06 | Samsung Electronics Co., Ltd | Method of providing voice command and electronic device supporting the same |
Family Cites Families (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5632002A (en) | 1992-12-28 | 1997-05-20 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
CA2119397C (en) | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US6125347A (en) | 1993-09-29 | 2000-09-26 | L&H Applications Usa, Inc. | System for controlling multiple user application programs by spoken input |
DE69822296T2 (de) | 1997-10-20 | 2005-02-24 | Koninklijke Philips Electronics N.V. | Mustererkennungsregistrierung in einem verteilten system |
US5983180A (en) * | 1997-10-23 | 1999-11-09 | Softsound Limited | Recognition of sequential data using finite state sequence models organized in a tree structure |
US6192343B1 (en) | 1998-12-17 | 2001-02-20 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms |
EP1045374B1 (en) | 1999-04-13 | 2010-08-11 | Sony Deutschland GmbH | Merging of speech interfaces for concurrent use of devices and applications |
US6374226B1 (en) | 1999-08-06 | 2002-04-16 | Sun Microsystems, Inc. | System and method for interfacing speech recognition grammars to individual components of a computer program |
US6408271B1 (en) * | 1999-09-24 | 2002-06-18 | Nortel Networks Limited | Method and apparatus for generating phrasal transcriptions |
US6442522B1 (en) | 1999-10-12 | 2002-08-27 | International Business Machines Corporation | Bi-directional natural language system for interfacing with multiple back-end applications |
US6748361B1 (en) | 1999-12-14 | 2004-06-08 | International Business Machines Corporation | Personal speech assistant supporting a dialog manager |
US7085723B2 (en) | 2001-01-12 | 2006-08-01 | International Business Machines Corporation | System and method for determining utterance context in a multi-context speech application |
US7103533B2 (en) * | 2001-02-21 | 2006-09-05 | International Business Machines Corporation | Method for preserving contextual accuracy in an extendible speech recognition language model |
US7167831B2 (en) | 2002-02-04 | 2007-01-23 | Microsoft Corporation | Systems and methods for managing multiple grammars in a speech recognition system |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7502737B2 (en) | 2002-06-24 | 2009-03-10 | Intel Corporation | Multi-pass recognition of spoken dialogue |
JP4107093B2 (ja) | 2003-01-30 | 2008-06-25 | 株式会社日立製作所 | 対話型端末装置及び対話アプリケーション提供方法 |
US7013282B2 (en) | 2003-04-18 | 2006-03-14 | At&T Corp. | System and method for text-to-speech processing in a portable device |
US7363228B2 (en) | 2003-09-18 | 2008-04-22 | Interactive Intelligence, Inc. | Speech recognition system and method |
US8942985B2 (en) | 2004-11-16 | 2015-01-27 | Microsoft Corporation | Centralized method and system for clarifying voice commands |
JP3984988B2 (ja) | 2004-11-26 | 2007-10-03 | キヤノン株式会社 | ユーザインタフェース設計装置およびその制御方法 |
US8200495B2 (en) * | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
JP4260788B2 (ja) | 2005-10-20 | 2009-04-30 | 本田技研工業株式会社 | 音声認識機器制御装置 |
JP4878471B2 (ja) | 2005-11-02 | 2012-02-15 | キヤノン株式会社 | 情報処理装置およびその制御方法 |
US8301448B2 (en) | 2006-03-29 | 2012-10-30 | Nuance Communications, Inc. | System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy |
US8234120B2 (en) * | 2006-07-26 | 2012-07-31 | Nuance Communications, Inc. | Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities |
US7899673B2 (en) | 2006-08-09 | 2011-03-01 | Microsoft Corporation | Automatic pruning of grammars in a multi-application speech recognition interface |
US7840409B2 (en) | 2007-02-27 | 2010-11-23 | Nuance Communications, Inc. | Ordering recognition results produced by an automatic speech recognition engine for a multimodal application |
US20090030691A1 (en) | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using an unstructured language model associated with an application of a mobile communication facility |
US7877258B1 (en) | 2007-03-29 | 2011-01-25 | Google Inc. | Representing n-gram language models for compact storage and fast retrieval |
US8396713B2 (en) | 2007-04-30 | 2013-03-12 | Nuance Communications, Inc. | Method and system for using a statistical language model and an action classifier in parallel with grammar for better handling of out-of-grammar utterances |
US8620652B2 (en) * | 2007-05-17 | 2013-12-31 | Microsoft Corporation | Speech recognition macro runtime |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US8370160B2 (en) | 2007-12-31 | 2013-02-05 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US20090171663A1 (en) | 2008-01-02 | 2009-07-02 | International Business Machines Corporation | Reducing a size of a compiled speech recognition grammar |
US7917368B2 (en) | 2008-02-25 | 2011-03-29 | Mitsubishi Electric Research Laboratories, Inc. | Method for interacting with users of speech recognition systems |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
TWI420433B (zh) | 2009-02-27 | 2013-12-21 | Ind Tech Res Inst | 語音互動系統與方法 |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9684741B2 (en) | 2009-06-05 | 2017-06-20 | Microsoft Technology Licensing, Llc | Presenting search results according to query domains |
US20110099507A1 (en) | 2009-10-28 | 2011-04-28 | Google Inc. | Displaying a collection of interactive elements that trigger actions directed to an item |
US8868427B2 (en) | 2009-12-11 | 2014-10-21 | General Motors Llc | System and method for updating information in electronic calendars |
EP2339576B1 (en) * | 2009-12-23 | 2019-08-07 | Google LLC | Multi-modal input on an electronic device |
US8626511B2 (en) | 2010-01-22 | 2014-01-07 | Google Inc. | Multi-dimensional disambiguation of voice commands |
US8515734B2 (en) | 2010-02-08 | 2013-08-20 | Adacel Systems, Inc. | Integrated language model, related systems and methods |
US8731939B1 (en) | 2010-08-06 | 2014-05-20 | Google Inc. | Routing queries based on carrier phrase registration |
US8682661B1 (en) | 2010-08-31 | 2014-03-25 | Google Inc. | Robust speech recognition |
KR101828273B1 (ko) | 2011-01-04 | 2018-02-14 | 삼성전자주식회사 | 결합기반의 음성명령 인식 장치 및 그 방법 |
US8296142B2 (en) * | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US8650031B1 (en) * | 2011-07-31 | 2014-02-11 | Nuance Communications, Inc. | Accuracy improvement of spoken queries transcription using co-occurrence information |
AU2015271922B2 (en) * | 2012-01-11 | 2017-07-27 | Samsung Electronics Co., Ltd. | Method and apparatus for executing a user function using voice recognition |
US20130238326A1 (en) | 2012-03-08 | 2013-09-12 | Lg Electronics Inc. | Apparatus and method for multiple device voice control |
EP2639792A1 (en) | 2012-03-16 | 2013-09-18 | France Télécom | Voice control of applications by associating user input with action-context idendifier pairs |
US9275411B2 (en) | 2012-05-23 | 2016-03-01 | Google Inc. | Customized voice action system |
US8532675B1 (en) | 2012-06-27 | 2013-09-10 | Blackberry Limited | Mobile communication device user interface for manipulation of data items in a physical space |
US8965759B2 (en) | 2012-09-01 | 2015-02-24 | Sarah Hershenhorn | Digital voice memo transfer and processing |
CN103903619B (zh) * | 2012-12-28 | 2016-12-28 | 科大讯飞股份有限公司 | 一种提高语音识别准确率的方法及系统 |
KR20140089861A (ko) | 2013-01-07 | 2014-07-16 | 삼성전자주식회사 | 디스플레이 장치 및 그의 제어 방법 |
US20140279232A1 (en) | 2013-03-14 | 2014-09-18 | Andrew Man-Hon Lau | System and method for an affinity capture, user feedback and affinity analysis |
US9292254B2 (en) | 2013-05-15 | 2016-03-22 | Maluuba Inc. | Interactive user interface for an intelligent assistant |
US9997160B2 (en) * | 2013-07-01 | 2018-06-12 | Toyota Motor Engineering & Manufacturing North America, Inc. | Systems and methods for dynamic download of embedded voice components |
US9443507B2 (en) | 2013-07-15 | 2016-09-13 | GM Global Technology Operations LLC | System and method for controlling a speech recognition system |
US9697522B2 (en) | 2013-11-01 | 2017-07-04 | Plantronics, Inc. | Interactive device registration, setup and use |
US9639854B2 (en) | 2014-06-26 | 2017-05-02 | Nuance Communications, Inc. | Voice-controlled information exchange platform, such as for providing information to supplement advertising |
US9502032B2 (en) * | 2014-10-08 | 2016-11-22 | Google Inc. | Dynamically biasing language models |
CN104360897B (zh) * | 2014-10-29 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 对话处理方法和对话管理系统 |
US9691384B1 (en) | 2016-08-19 | 2017-06-27 | Google Inc. | Voice action biasing system |
-
2016
- 2016-08-19 US US15/241,538 patent/US9691384B1/en active Active
-
2017
- 2017-05-31 CN CN201910226611.0A patent/CN110070860B/zh active Active
- 2017-05-31 CN CN201710398592.0A patent/CN107767865B/zh active Active
- 2017-06-02 EP EP19206708.0A patent/EP3627500B1/en active Active
- 2017-06-02 EP EP17729340.4A patent/EP3479374B1/en active Active
- 2017-06-02 WO PCT/US2017/035757 patent/WO2018034718A1/en active Search and Examination
- 2017-06-02 EP EP22208865.0A patent/EP4198969A1/en active Pending
- 2017-06-08 US US15/617,496 patent/US10089982B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1164292A (zh) * | 1994-10-25 | 1997-11-05 | 英国电讯公司 | 声控服务 |
CN103999152A (zh) * | 2011-12-29 | 2014-08-20 | 英特尔公司 | 利用动态语法元素集的语音识别 |
CN104050967A (zh) * | 2013-03-14 | 2014-09-17 | 本田技研工业株式会社 | 语音接口系统和方法 |
EP2963642A1 (en) * | 2014-06-30 | 2016-01-06 | Samsung Electronics Co., Ltd | Method of providing voice command and electronic device supporting the same |
Also Published As
Publication number | Publication date |
---|---|
US10089982B2 (en) | 2018-10-02 |
EP4198969A1 (en) | 2023-06-21 |
CN110070860A (zh) | 2019-07-30 |
EP3479374B1 (en) | 2019-12-25 |
US20180053507A1 (en) | 2018-02-22 |
CN107767865A (zh) | 2018-03-06 |
EP3627500A1 (en) | 2020-03-25 |
EP3479374A1 (en) | 2019-05-08 |
WO2018034718A1 (en) | 2018-02-22 |
CN110070860B (zh) | 2023-07-07 |
EP3627500B1 (en) | 2022-11-23 |
US9691384B1 (en) | 2017-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107767865B (zh) | 语音动作偏置系统 | |
JP6942841B2 (ja) | ダイアログ・システムにおけるパラメータ収集および自動ダイアログ生成 | |
US11929075B2 (en) | Voice action discoverability system | |
EP3424045B1 (en) | Developer voice actions system | |
US20210132986A1 (en) | Back-end task fulfillment for dialog-driven applications | |
US10460728B2 (en) | Exporting dialog-driven applications to digital communication platforms | |
US9883026B2 (en) | Method and apparatus for facilitating speech application testing | |
US20190027147A1 (en) | Automatic integration of image capture and recognition in a voice-based query to understand intent | |
AU2020386374A1 (en) | System and method for managing a dialog between a contact center system and a user thereof | |
CN107111475A (zh) | 管理用于输入理解确定的用户交互 | |
US20110153322A1 (en) | Dialog management system and method for processing information-seeking dialogue | |
CN107111725A (zh) | 在输入理解系统中保护私有信息 | |
Celestino | Development and implementation of an automotive virtual assistant |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |