CN112291203A - 将用于具有选择性离线能力的话音动作的数据本地保存 - Google Patents
将用于具有选择性离线能力的话音动作的数据本地保存 Download PDFInfo
- Publication number
- CN112291203A CN112291203A CN202011084350.2A CN202011084350A CN112291203A CN 112291203 A CN112291203 A CN 112291203A CN 202011084350 A CN202011084350 A CN 202011084350A CN 112291203 A CN112291203 A CN 112291203A
- Authority
- CN
- China
- Prior art keywords
- voice
- offline
- action
- selective
- electronic device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009471 action Effects 0.000 title claims abstract description 291
- 238000012545 processing Methods 0.000 claims description 91
- 238000000034 method Methods 0.000 claims description 56
- 230000004044 response Effects 0.000 claims description 31
- 238000004891 communication Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 238000009877 rendering Methods 0.000 description 7
- 235000008429 bread Nutrition 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 239000008267 milk Substances 0.000 description 5
- 210000004080 milk Anatomy 0.000 description 5
- 235000013336 milk Nutrition 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000009118 appropriate response Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Abstract
本公开涉及完成话音动作,尤其是将用于具有选择性离线能力的话音动作的数据本地保存在支持话音的电子装置中。每当由于支持话音的电子装置离线而不能本地完成具有选择性离线能力的话音动作时,将与这种动作相关联的数据本地保存在所述装置中,以便稍后能够在已经恢复在线连接之后完成所述动作。可在已经恢复在线连接之后执行与在线服务和/或另一电子装置的同步和/或从在线服务检索场境敏感数据,以便能够之后完成所述话音动作。
Description
分案说明
本申请属于申请日为2016年5月20日的中国发明专利申请201680020179.4的分案申请。
技术领域
本公开涉及将用于具有选择性离线能力的话音动作的数据本地保存在支持话音的电子装置中。
背景技术
基于话音的用户接口正越来越多地用于控制计算机和其它电子装置。基于话音的用户接口的一个特别有用的应用是用于便携式电子装置,例如移动电话、手表、平板计算机、头戴式装置、虚拟现实或增强现实装置等。另一个有用的应用是用于车载电子系统,例如包括导航和音频能力的汽车系统。这种应用的特征通常在于限制使用较多传统键盘或触摸屏输入和/或在需要鼓励用户保持专注于其它任务的情形中(例如当用户正在开车或走路时)使用的非传统形状因数(form factors)。
基于话音的用户接口已经持续从仅能够理解简单直接命令的早期基本接口发展到对自然语言请求做出响应并能够理解上下文和管理与用户的来回对话或会话的较复杂接口。许多基于话音的用户接口包括将人类话音的音频记录转换为文本的初始语音至文本(或话音至文本)转换、以及对文本进行分析以尝试确定用户请求的含义的语义分析。基于所确定的用户记录的话音的含义,可采取诸如执行搜索或以其它方式控制计算机或其它电子装置的动作。
基于话音的用户接口的计算资源需求(例如,就处理器和/或存储器资源来说)可能是大量的,因而,一些常规的基于话音的用户接口方案采用了客户端-服务器架构,其中,相对低功率的客户端装置接收并记录话音输入,该记录在诸如因特网的网络上传输到用于语音至文本转换和语义处理的在线服务,并且该在线服务生成适当的响应并将其传输回客户端装置。在线服务可以为处理话音输入投入大量计算资源,从而使得能够实施比原本能够在客户端装置中本地实施的更复杂的语音识别和语义分析功能。然而,客户端-服务器方案必须要求客户端在处理话音输入时在线(即,与所述在线服务连通)。尤其是,在移动应用和汽车应用中,可能不能随时随地都保证持续的在线连接,所以,每当客户端装置“离线”时,客户端-服务器型的基于话音的用户接口可能在客户端装置中停用,且因此未连接到在线服务。此外,即使当装置连接到在线服务时,考虑到需要客户端装置与在线服务之间的双向通信,用户可能非期望地察觉到与话音输入的在线处理相关的等待时间。这样,一些装置可包括用于处理话音输入的离线或本地处理功能。
发明内容
本说明书总体上涉及如下的各种实施例:每当由于支持话音的电子装置离线而不能本地完成特定类型的话音动作(本文中称为具有选择性离线能力的话音动作)时,将与所述动作相关联的数据本地保存在所述装置中,以便稍后能够在已经恢复在线连接之后完成所述动作。如下文将更详细地论述的,具有选择性离线能力的话音动作是在某些情况下当支持话音的电子装置在线时能够完成但在其它情况下仅可使用与在线服务的连接来完成的一类话音动作,并且,保存与这种动作相关联的数据使得能够在已经恢复在线连接之后执行诸如与在线服务和/或另一电子装置同步和/或从在线服务检索场境敏感数据(context sensitive data)等的操作,以便能够之后完成所述话音动作。
因此,在一些实施例中,一种方法可使用支持话音的电子装置接收话音输入,并且在所述支持话音的电子装置中响应于接收到所述话音输入的至少一部分来执行所述话音输入的所述至少一部分的本地处理,以构建具有选择性离线能力的话音动作的至少一部分,其中,所述具有选择性离线能力的话音动作是在至少一种情况下能够离线完成并且在至少一种其它情况下仅能够使用与在线服务的连接来完成的类型,在所述本地处理期间且所述支持话音的电子装置离线时确定是否能够离线完成所述具有选择性离线能力的话音动作,并且响应于确定能够离线完成所述具有选择性离线能力的话音动作而使用本地处理完成所述具有选择性离线能力的话音动作。另外,响应于确定不能离线完成所述具有选择性离线能力的话音动作,所述方法可本地保存用于所述具有选择性离线能力的话音动作的由所述本地处理生成的数据,并且在所述支持话音的电子装置与在线服务连接之后使用本地保存的数据完成所述具有选择性离线能力的话音动作。
在一些实施例中,所述支持话音的电子装置包括被配置为在与无线网络连通时与所述在线服务通信的移动装置,并且在一些实施例中,执行所述本地处理在使用所述支持话音的电子装置完全接收到话音输入之前动态地构建了所述具有离线能力的话音动作的至少一部分,并且,在本地处理期间且所述支持话音的电子装置离线时确定是否能够离线完成所述具有选择性离线能力的话音动作是在用所述支持话音的电子装置完全接收到所述话音输入之前执行的。
另外,在一些实施例中,在所述支持话音的电子装置与所述在线服务连接之后使用本地保存的数据完成所述具有选择性离线能力的话音动作包括:从所述在线服务检索场境敏感数据并使用该场境敏感数据完成所述具有选择性离线能力的话音动作。另外,在一些实施例中,在所述支持话音的电子装置与在线服务连接之后使用本地保存的数据完成所述具有选择性离线能力的话音动作包括:向在线服务发出对所述场境敏感数据的查询,并且在一些实施例中,所述具有离线能力的话音动作包括至少一个位置敏感参数,该查询包括所述支持话音的电子装置的当前位置,并且所述场境敏感数据包括位置敏感数据。在一些实施例中,所述具有离线能力的话音动作包括基于话音输入仍未解决的至少一个参数,并且,从在线服务检索所述场境敏感数据包括从在线服务检索用于所述至少一个参数的值。
另外,在一些实施例中,在所述支持话音的电子装置与在线服务连接之后使用本地保存的数据完成所述具有选择性离线能力的话音动作包括:将所述支持话音的电子装置与所述在线服务同步。在一些实施例中,在所述支持话音的电子装置与在线服务连接之后使用本地保存的数据完成所述具有选择性离线能力的话音动作包括:将所述支持话音的电子装置与和所述支持话音的电子装置的用户相关联的至少一个其它电子装置同步。
此外,在一些实施例中,本地保存用于所述具有选择性离线能力的话音动作的由所述本地处理生成的数据包括:本地保存与所述具有选择性离线能力的话音动作相关联的诊断数据,并且,在所述支持话音的电子装置与在线服务连接之后使用本地保存的数据完成所述具有选择性离线能力的话音动作包括:上传与所述具有选择性离线能力的话音动作相关联的所述诊断数据。
一些实施例还响应于确定不能离线完成所述具有选择性离线能力的话音动作而在所述支持话音的电子装置上执行所述具有选择性离线能力的话音动作的本地完成,并且,在所述支持话音的电子装置与在线服务连接之后使用本地保存的数据完成所述具有选择性离线能力的话音动作包括:通过所述在线服务执行所述具有选择性离线能力的话音动作的远程完成。一些实施例还包括:响应于确定不能离线完成所述具有选择性离线能力的话音动作,向所述支持话音的电子装置的用户通知将在所述支持话音的电子装置与在线服务连接之后完成所述具有选择性离线能力的话音动作,并且一些实施例还包括:响应于确定不能离线完成所述具有选择性离线能力的话音动作,在所述支持话音的电子装置已与在线服务连接之后向所述支持话音的电子装置的用户通知已经完成所述具有选择性离线能力的话音动作。另外,在一些实施例中,所述具有选择性离线能力的话音动作的类型选自由以下类型组成的组:提醒类型、通信类型、事件类型、装置设置类型、媒体控制类型和导航类型。
另外,一些实施例可包括一种设备,其包括存储器和一个或多个处理器,所述处理器能够运行以执行存储在该存储器中的指令,其中,所述指令被配置为执行前述方法中的任一个。一些实施例还可包括一种非暂态计算机可读存储介质,其存储能够由一个或多个处理器执行以执行任一前述方法的计算机指令。
应当理解,前述构思与本文中更详细描述的额外构思的所有组合预期作为本文公开的主题的一部分。例如,出现在本公开的结尾处的所要求保护的主题的所有组合都预期作为本文公开的主题的一部分。
附图说明
图1示出计算机系统的示例性架构。
图2是示例性分布式话音输入处理环境的框图。
图3是示出使用图2的环境处理话音输入的示例性方法的流程图。
图4是示出使用图2的环境处理话音输入的示例性方法的流程图。
图5是示出使用图2的环境处理话音输入的另一种示例性方法的流程图。
图6是由图2中提到的串流话音至文本模块(streaming voice to text module)执行的示例性离线话音至文本例程(offline voice to text routine)的流程图。
图7是由图2中提到的语义处理器模块执行的示例性处理文本令牌例程的流程图。
图8是由图2中提到的语义处理器模块执行的示例性接收输入结束例程(receiveend of input routine)的流程图。
图9是由图2中提到的语义处理器模块执行的示例性处理待决动作例程的流程图。
具体实施方式
在下文论述的实施例中,每当由于支持话音的电子装置离线而不能本地完成具有选择性离线能力的话音动作时,将与该动作相关联的数据本地保存在所述装置中,以便稍后能够在已经恢复在线连接之后完成所述动作。下文论述关于选定的实施例的进一步细节。然而,应当理解,还可想到其它实施例,所以,本文公开的实施例不是详尽的。
示例性硬件和软件环境
现在转向附图,其中,在所有若干视图中,相同的标号始终表示相同部分,图1是示例性计算机系统10中的电子部件的框图。系统10通常包括至少一个处理器12,该处理器12经由总线子系统14与许多外围设备通信。这些外围设备可包括存储子系统16(例如,包括存储器子系统18和文件存储子系统20)、用户接口输入装置22、用户接口输出装置24以及网络接口子系统26。该输入和输出装置允许用户与系统10交互。网络接口子系统26提供通往外部网络的接口并且耦接到其它计算机系统中的对应接口装置。
在一些实施例中,用户接口输入装置22可包括键盘、指点装置(例如鼠标、轨迹球、触控板或图形输入板)、扫描仪、并入到显示器中的触摸屏、音频输入装置(例如语音识别系统、麦克风)和/或其它类型的输入装置。一般来说,所使用的术语“输入装置”旨在包括用于向计算机系统10或通信网络输入信息的所有可能类型的装置和方式。
用户接口输出装置24可包括显示子系统、打印机、传真机或非视觉显示器(例如音频输出装置)。该显示子系统可包括阴极射线管(CRT)、平板装置(例如液晶显示器(LCD))、投影装置或用于创建可见图像的某种其它机构。该显示子系统还可提供非视觉显示,例如经由音频输出装置。一般来说,所使用的术语“输出装置”旨在包括用于从计算机系统10向用户或另一个机器或计算机系统输出信息的所有可能类型的装置和方式。
存储子系统16存储编程和数据结构,所述编程和数据结构提供本文所述的一些或所有模块的功能。例如,存储子系统16可包括用于执行下文公开的方法的选定方面的逻辑。
这些软件模块通常由处理器12单独地执行或与其它处理器组合地执行。存储子系统16中使用的存储器子系统18可包括许多存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)28以及存储固定指令的只读存储器(ROM)30。文件存储子系统20可提供用于程序和数据文件的永久存储,并且可包括硬盘驱动器、软盘驱动器以及相关联的可移除介质、CD-ROM驱动器、光盘驱动器或可移除介质盒。实现某些实施例的功能的模块可由存储子系统16中的文件存储子系统20存储或存储在处理器12能够访问的其它机器中。
总线子系统14提供用于允许系统10的各种部件和子系统按照预期彼此通信的机制。虽然总线子系统14被示意性地示出为单个总线,但该总线子系统的替代实施例可使用多个总线。
系统10可具有不同类型,包括移动装置、便携式电子装置、嵌入式装置、台式计算机、膝上型计算机、平板计算机、可穿戴装置、工作站、服务器、计算集群、刀片式服务器、服务器机群或者任何其它的数据处理系统或计算装置。另外,系统10所实现的功能可分布在经由一个或多个网络彼此互连(例如,通过客户端-服务器、对等或其它联网布置)的多个系统当中。由于计算机和网络的不断变化的性质,图1中描绘的系统10的描述仅旨在作为用于示出一些实施例的目的的特定实例。系统10的许多其它构造也是可以的,其可具有比图1中描绘的计算机系统更多或更少的部件。
下文论述的实施例可包括实现本文所公开的功能的各种组合的一种或多种方法。其它实施例可包括一种非暂态计算机可读存储介质,其存储可由处理器执行以执行诸如本文所述的一种或多种方法等的方法的指令。又一些其它实施例可包括一种设备,该设备包括存储器和一个或多个处理器,所述处理器能够运行以执行存储在存储器中的指令,从而执行诸如本文所述的一种或多种方法等的方法。
下文所述的各种程序代码可基于在特定实施例中实现所述程序代码所在的应用程序来识别。然而,应当理解,以下任何特定程序命名法仅是为了方便而使用的。此外,考虑到可将计算机程序组织成例程、程序、方法、模块、对象等的无数种方式以及可在驻留于典型计算机内的各种软件层(例如,操作系统、库、API、应用程序、小程序等)中分派程序功能的各种方式,应当理解,一些实施例可不限于本文所述的程序功能的特定组织和分派。
此外,将会理解,可通过任何程序代码执行或在任何例程、工作流程等中执行的本文所述的各种操作可被组合、拆分、重新排序、省略、依序或并行地执行、和/或使用其它技术补充,因此,一些实施例不限于本文所述的特定操作顺序。
分布式话音输入处理环境
图2示出示例性的分布式话音输入处理环境50,其例如用于与支持话音的装置52一起使用,该支持话音的装置52与诸如在线搜索服务54等的在线服务连通。在下文论述的实施例中,例如,支持话音的装置52(在本文中还被称为支持话音的电子装置)被描述为移动装置,例如蜂窝电话或平板计算机。然而,其它实施例可使用各种各样的其它支持话音的装置,所以,下文参考移动装置仅是为了简化下文的论述。无数其它类型的支持话音的装置可使用本文描述的功能,包括(例如)膝上型计算机、手表、头戴式装置、虚拟现实或增强现实装置、其它可穿戴装置、音频/视频系统、导航系统、汽车和其它车辆系统等。此外,许多这种支持话音的装置可被认为是资源受限的,因为这种装置的存储器和/或处理能力可能基于技术、经济或其它原因而受到约束,尤其是当与可向各个任务投入几乎无限计算资源的在线或基于云的服务的能力相比时。就一些这种装置能够“离线”操作并在至少一部分时间内未连接到在线服务(例如,基于预期这种装置可能在普通使用情况下不时地经历暂时网络连接中断)来说,这种装置还可被视为离线装置。
在一些实施例中,在线搜索服务54可被实施为采用云基础设施的基于云的服务,例如,使用运行适于处理来自多个用户的大量请求的软件的高性能计算机的服务器机群或集群。在所示出的实施例中,在线搜索服务54能够查询一个或多个数据库以找出所请求的信息,例如,以提供包括所请求的信息的网站列表。在线搜索服务54可不限于基于话音的搜索,并且还能够处理其它类型的搜索,例如,基于文本的搜索、基于图像的搜索等。在其它实施例中,在线系统不一定需要处理搜索,而是可限于针对非搜索动作(例如设置闹钟或提醒)处理基于话音的请求、管理列表、启动经由电话、文本、电子邮件等与其他用户通信,或执行可经由话音输入启动的其它动作。出于本公开的目的,基于话音的请求和其它形式的话音输入可统称为基于话音的查询,而不管所述基于话音的查询是否设法启动搜索、提出问题、发布命令等。因此,一般来说,任何话音输入(例如,包括一个或多个字词或短语)可在所示出的实施例的上下文中被视为基于话音的查询。
在图2的实施例中,支持话音的装置52所接收到的话音输入由支持话音的应用程序(或“app”)56处理,在一些实施例中,所述支持话音的应用程序56可以是搜索应用程序。在其它实施例中,可在支持话音的装置的操作系统或固件内处理话音输入。在所示出的实施例中,应用程序56包括话音动作模块58、在线接口模块60和呈现/同步模块62。话音动作模块58接收针对所述应用程序的话音输入并且为所述支持话音的装置52的用户协调所述话音输入的分析和一个或多个动作的执行。在线接口模块60提供与在线搜索服务54的接口,包括将话音输入转发到服务54并接收对其的响应。呈现/同步模块62管理对用户的响应的呈现(rendering),例如,经由视觉显示器、口述音频或适合于特定的支持话音的装置的其它反馈接口。另外,在一些实施例中,模块62还处理与在线搜索服务54的同步,例如,每当一个响应或动作影响在线搜索服务中针对该用户维持的数据时(例如,在话音输入请求创建维持在基于云的日历中的约会的情况下)。
应用程序56依赖于各种中间件、框架、操作系统和/或固件模块来处理话音输入,包括(例如)串流话音至文本模块64以及语义处理器模块66,该语义处理器模块66包括剖析器模块68、对话管理器模块70和动作构建器模块72。
模块64接收话音输入的音频记录,例如,以数字音频数据的形式,并将该数字音频数据转换为一个或多个文本字词或短语(在本文中还被称为令牌)。在所示出的实施例中,模块64也是串流模块,以便逐令牌地并且实时地或准实时地将话音输入转换为文本,从而可与用户的语音同时并因此在用户阐明完整的口述请求之前有效地从模块64输出所述令牌。模块64可依赖于一个或多个本地存储的离线声学和/或语言模型74,它们一起以某种语言建模音频信号与语音单位之间的关系,以及所述语言中的字词顺序。在一些实施例中,可使用单个模型74,而在其它实施例中,可支持多个模型,例如用于支持多种语言、多个说话者等。
模块64将语音转换为文本,而模块66尝试辨别由模块64输出的文本的语义或含义,以用于制定适当的响应。例如,剖析器模块68依赖于一个或多个离线语法模型76以将文本映射到特定动作并且识别约束这种动作的执行的属性,例如,针对这种动作的输入变量。在一些实施例中,可使用单个模型76,而在其它实施例中,可支持多个模型,例如用于支持多个不同动作或动作域(即,诸如通信相关动作、搜索相关动作、音频/视觉相关动作、日历相关动作、装置控制相关动作等的相关动作的集合)。
作为示例,离线语法模型76可支持诸如“设置提醒”等的动作,所述设置提醒动作具有指定设置什么类型的提醒的提醒类型参数、指定与该提醒相关联的一个或多个项目的项目参数、以及指定激活该提醒并提醒用户的时间的时间参数。剖析器模块64可接收一系列令牌,例如“提醒我”、“买”、“面包”和“下班后”,并且将所述一系列令牌映射到设置提醒的动作,其中,提醒类型参数被设置为“购物提醒”,项目参数被设置为“面包”并且时间参数被设置为“5:00pm”,从而用户在那天5:00pm接收到“购买面包”的提醒。
剖析器模块68还可与管理与用户的对话的对话管理器模块70一起工作。在此上下文中,对话是指与两个人之间的会话相似的一组话音输入和响应。因此,模块70维持对话的“状态”,以便在先前的话音输入中从用户获得的信息能够在处理后续的话音输入时使用。因此,例如,假如用户说“提醒我买面包”,则可生成响应说“好的,您想要什么时候被提醒?”,从而,后续的话音输入“下班后”将被附回到原始请求以创建提醒。
动作构建器模块72从剖析器模块68接收经过剖析的文本(其表示话音输入解释),并生成动作以及任何相关参数以便由支持话音的应用程序56的模块62处理。动作构建器模块72可依赖于一个或多个离线动作模型78,该离线动作模型78包括用于从经过剖析的文本来创建动作的各种规则。在一些实施例中,例如,动作可被定义为函数F,使得F(IT)=AU,其中T表示输入解释的类型并且U表示输出动作的类型。因此,F可包括多个被映射到彼此的输入对(T,U),例如,作为f(it)=au,其中it是类型t的输入原型变量,并且au是类型u的输出模块化自变量或参数。应当理解,一些参数可被直接接收为话音输入,而一些参数可以用其它方式来确定,例如,基于用户的位置、人口统计信息或基于特定于用户的其它信息。例如,假如用户说“提醒我在杂货店买面包”,则在没有诸如用户的当前位置、用户的工作地点与家之间的已知路径、用户常去的杂货店等额外信息的情况下可能不能确定位置参数。
将会理解,在一些实施例中,模型74、76和78可组合成较少的模型或拆分成额外的模型,模块64、68、70和72的功能也可这样组合或拆分。此外,模型74至78在本文中被称为离线模型,因为这些模型本地存储在支持话音的装置52上,因此在装置52不与在线搜索服务54连通时也能离线访问。
此外,在线搜索服务54通常包括用于处理话音输入的补充功能,例如,使用依赖于各种声学/语言、语法和/或动作模型82的基于话音的查询处理器80。将会理解,在一些实施例中,尤其当支持话音的装置52是资源受限装置时,基于话音的查询处理器80和由此使用的模型82可实现比在所述支持话音的装置52本地实现的更复杂且计算资源更密集的话音处理功能。然而,在其它实施例中,也可不使用补充的在线功能。
在一些实施例中,可支持在线功能和离线功能两者,例如,使得每当装置与在线服务连通时使用在线功能,而在不存在连接时使用离线功能。在其它实施例中,可以向在线功能和离线功能分派不同的动作或动作域,而在又一些其它实施例中,可仅在离线功能未能充分处理特定话音输入时才使用在线功能。
图3例如示出了可由支持话音的装置52执行以处理话音输入的话音处理例程100。例程100在框102中通过接收话音输入(例如,以数字音频信号的形式)而开始。在本实施例中,初次尝试将话音输入转发到在线搜索服务(框104)。如果不成功(例如,由于缺少连接或缺少来自在线搜索服务的响应),则框106将控制权转交给框108,以将话音输入转换为文本令牌(框108,例如使用图2的模块64),剖析所述文本令牌(框110,例如使用图2的模块68)并从经过剖析的文本构建动作(框112,例如使用图2的模块72)。所得到的动作然后用于执行客户端侧的呈现和同步(框114,例如使用图2的模块62),并且该话音输入的处理完成。
返回到框106,如果将话音输入转发到在线搜索服务的尝试是成功的,则框106绕过框108至112并将控制权直接转交该框114以执行客户端侧的呈现和同步。然后,该话音输入的处理完成。将会理解,在其它实施例中,如上文提到的,可在在线处理之前先尝试离线处理,例如,以在能够本地处理话音输入时避免不必要的数据通信。
将用于具有选择性离线能力的话音动作的数据本地保存在支持话音的电子装置
中
支持话音的电子装置可在不同程度上依赖于在线和离线功能来实现基于话音的用户接口。例如,一些装置可优先使用在线服务来执行与处理话音输入相关联的许多操作,部分是因为在线基于话音的查询处理器通常能够投入相对较多的处理资源来处理基于话音的查询。可由在线服务执行的功能之一是语义处理,其处理从数字音频数据生成的文本元素(还被称为令牌),以尝试确定用户正经由基于话音的查询请求的动作。在一些情况下,甚至可将数字音频信号提供给在线服务,以便在远离所述装置的位置处执行语义处理以及话音至文本转换。
由于这种装置潜在具有连接性问题并且即使在不存在连接性问题时仍可能经历一般等待时间,在一些情况下还可能希望在支持话音的电子装置内并入本地或离线处理功能,包括话音至文本和语义处理功能。在一些情况下,仍可在每次存在连接时将话音输入转发到在线服务,并且可在每次存在连接时使用在线服务的结果,从而使本地处理主要以后备角色服务并且仅在不存在网络连接的情况下处理话音输入。在一些实施例中,支持话音的电子装置还可包括串流架构,其在用户口述时从话音输入中动态地构建动作,而不是在尝试从话音输入获得含义之前一直等待直到已经接收完整的话音输入,从而得到甚至在用户完整口述完话音输入之前就被至少部分地构建的话音动作。
在下文所论述的实施例中,用于在支持话音的电子装置中实现基于话音的用户接口的本地或离线功能可通过如下方式尝试解决由于需要在不考虑与在线服务的连接性的情况下处理话音输入所引起的问题:尝试本地处理能够在没有在线连接的情况下处理的某些话音动作,同时,推迟不能在没有在线连接的情况下处理的某些话音动作的处理。然而,结合该推迟处理,还可本地保存与这种动作相关联的数据以便能够在重新建立在线连接时自动完成这种动作。
特别地,在一些实施例中,在支持话音的电子装置(例如移动装置)离线时本地保存与本文中称为“具有选择性离线能力的话音动作”的特定种类的话音动作相关联的数据,以便能够在针对所述装置重新建立连接时自动完成那些动作。在本公开的上下文中,“具有选择性离线能力的话音动作”可被视为在一种或多种情况下能够离线并且在没有在线连接的情况下完成、而在一种或多种其它情况下需要与在线服务的连接以便完成的话音动作。术语“具有选择性离线能力的话音动作”在本文中用于区别于永远不需要在线连接的纯离线动作和总是需要在线连接的纯在线动作。
具有选择性离线能力的话音动作的实例包括(但不限于)诸如提醒类型动作、通信类型动作、事件类型动作、装置设置类型动作、媒体控制类型动作、导航类型动作等的动作。在一些实施例中,这种动作可基于从话音输入得到的一个或多个模糊点(例如,由于动作的一个或多个参数不能严格基于所述话音输入中提供的数据和/或在支持话音的电子装置上本地可用的数据来解决)而具有选择性离线能力。在这种情况下,可能需要从在线服务获得场境敏感数据,例如,关于一个或多个参数的数据,和/或关于解决话音输入中的模糊点的数据,并且完成这种动作能够需要向在线服务进行一个或多个查询。在一些实施例中,该查询可包括所述支持话音的电子装置的当前位置,以便可以针对与动作相关联的一个或多个位置敏感参数来检索位置敏感数据。另外,在一些实施例中,该查询可针对与动作相关联的至少一个未解决参数来检索值。
作为一个实例,提醒类型动作可在一种情况下由对“设置对明天一点打电话给我妈的提醒”的请求来触发并且在另一种情况下由对“提醒我买牛奶”的请求来触发。在前一种情况下,可离线地并且在没有任何在线帮助的情况下解决从这个话音输入创建提醒所需的所有参数,因为从该话音输入知道了提醒的时间和日期(在所述装置中存储的当前日期之后的下一天的1:00pm),可直接从该话音输入生成提醒的文本(“打电话给我妈”),甚至可以从本地数据生成呼叫的联系号码(用于与用户具有“母亲”关系的个人的本地存储的联系方式)。
然而,在后一种情况下,可直接从该话音输入生成提醒的文本(“买牛奶”),但可能不能在所有情况下本地确定其它参数。例如,在一些实施例中,所述请求可被处理为每当用户的装置位于离特定位置的特定距离内时通知用户的、基于位置的提醒。然而,要在该提醒上设置的位置可能需要在线辅助以便进行确定。例如,可将所述位置设置为特定杂货店的位置,例如,靠近该装置的当前位置、靠近用户的家、靠近该装置的当前位置与用户的家之间的路径,等等。还可基于用户的购买历史或其它人口统计信息或甚至基于当前进行牛奶促销的杂货店来选择杂货店。对于许多这种信息,在线数据和/或分析可用于生成所述位置,因此,如果在接收到话音输入时所述支持话音的电子装置当前不在线,则不能实现所请求的话音动作的完成。
在一些实施例中,具有选择性离线能力的话音动作还可基于需要将数据上传到在线服务和/或需要与在线服务和/或一个或多个其它支持话音的电子装置同步而具有选择性离线能力。例如,针对在线的或基于云的日历服务创建事件或提醒可涉及同步该本地创建的事件或提醒,因而,在一些实施例中,当装置离线时,该事件或提醒的创建可不被视为完全完成,直到重新建立连接为止。
在本公开的上下文中,“完成”一个动作因此可以指执行用户经由话音输入所请求的那些步骤和/或操作。完成一个动作还可包括完成话音动作对象的构造以及执行该话音动作对象所指定的动作。在一些情况下,动作的完成可仅在本地发生(本文中被称为本地完成),而在一些情况下,动作的完成还可远程地发生(本文中被称为远程完成),例如,在在线服务中和/或在与用户的支持话音的电子装置相关联的一个或多个其它装置中,在用户将若干个装置链接到同一账号的情况下也可能会发生这种情况。在一些情况下,该本地完成可伴随着稍后与在线服务的同步,例如,在用户装置上本地创建提醒或事件并稍后使其与在线日历账户同步的情况下。在这种情况下,在该装置上创建提醒可仍被视为表示所述动作的完成,即使稍后会发生同步。在其它实施例中,完成一个动作可包括完整构建话音动作对象并将所完成的话音动作对象返回到支持话音的电子装置中的另一个模块以用于进一步处理。
现在转向图4,该图示出用于在图2的环境中处理具有选择性离线能力的话音动作的话音处理例程150的一个示例性实施例。在这个实施例中,在框152中,支持话音的电子装置(例如,经由无线网络耦接到在线服务的移动装置)接收话音输入的至少一部分(例如,表示口述问题或命令的至少一部分的数字音频信号)。响应于接收到该话音输入的所述部分,在所述支持话音的电子装置上执行对该话音输入的所述部分的离线或本地处理(例如,通过模块64和66),以基于该话音输入的一部分或全部来构建话音动作的至少一部分。在一些实施例中,还可启动在线处理以便同时由在线服务处理,例如,通过将数字音频数据或由本地话音至文本处理所生成的文本令牌转发到在线服务。
接下来,在框156中,确定所述话音动作是否是具有选择性离线能力的话音动作。将会理解,在一些实施例中,框154可包括使用串流架构来动态构建话音动作,所以,可在完全处理该话音输入之前执行框156,而在其它实施例中,可直到该话音输入的本地处理完成才执行框156。
如上文提到的,可以多种不同方式确定一个动作是否具有选择性离线能力。在一些实施例中,例如,这种确定可基于所请求的动作的类型。在其它实施例中,这种确定可基于子类型,基于这种动作的一个或多个参数或以其它方式。
如果一个动作不具有选择性离线能力,则框156将控制权转交到框158以完成该动作,并且例程150完成。例如,如果一个动作总是能够离线完成,则该动作的完成可包括执行在所述装置上完成该动作所需的操作的剩余部分。如果一个动作总是需要在线连接,则该动作的完成可包括:与在线服务通信并执行在所述装置上完成该动作所需的任何其它本地操作。
另一方面,如果确定该动作具有选择性离线能力,则框156将控制权转交到框160,以确定所述支持话音的电子装置当前是否离线。如果不是并且存在与在线服务的连接,则动作是否具有选择性离线能力的问题未决,所以,控制权转交到框158以完成所述动作,从而在需要时访问在线服务。然而,如果该装置离线,框160将控制权转交到框162以确定是否能够离线完成所述具有选择性离线能力的话音动作,如果是,则将控制权转交到框158以视情况完成所述动作。
然而,如果不是,则框162将控制权转交到框164,以有效地推迟在所述装置上完成话音动作。如上文提到的,可以许多方式确定具有选择性离线能力的话音动作不能离线完成,例如,基于需要检索场境敏感数据、需要与在线服务和/或另一个装置同步,等等。因而,如果一个话音动作可离线完成,则框162将控制权转交到框158以视情况完成所述动作。
在这种情况下,框164执行以构建基于所述装置的离线状态所准许的话音动作的剩余部分,例如,使用用于能够在所述装置上本地解决的每个参数的数据来构建话音动作对象。在与在线服务或其它装置的同步是唯一阻止该动作完成的操作的实施例中,框164甚至可构建完整的话音动作对象,并且有效地执行本地完成,从而仅留下一旦连接恢复则由该在线服务或另一装置执行的远程完成。
接下来,框166本地保存与该话音动作相关联的数据,例如,通过将该数据本地存储在所述装置上。在一些实施例中,例如,该数据可包括话音动作对象,包括用于与之相关联的一些或所有参数的数据。
框168接下来等待连接到在线服务或以其它方式恢复在线连接。此后,框170与在线服务通信并使用本地保存的数据完成所述话音动作,例如,通过检索场境敏感数据、通过将话音动作对象或其多个部分上传到在线服务、通过与该在线服务或另一装置同步,等等。另外,在一些实施例中,可将额外数据传送到该在线服务。例如,在一些实施例中,与具有选择性离线能力的话音动作相关联的诊断数据可被本地保存并且结合完成所述动作而上传到该在线服务,并且其中,在所述支持话音的电子装置与在线服务连接之后使用本地保存的数据完成所述具有选择性离线能力的话音动作包括:上传与所述具有选择性离线能力的话音动作相关联的诊断数据,例如,诸如导航日志、错误日志等的数据、用户体验改善数据、诸如动作对象和动作相关查询等的动作相关数据、训练数据、剖析数据、话音至文本数据,等等。在框170完成之后,例程150完成。
现在转向图5至9,公开了用于使用串流架构在图2的装置50中处理话音输入的另一个示例性实施例。特别地,公开了可由话音动作模块58、串流话音至文本模块64、和语义处理器模块66执行的多个例程。
例如,图5示出了话音动作模块58响应于接收到话音输入的至少一部分而执行的示例性话音输入处理例程180。例程180通过在框182中启动在线处理而开始,例如,通过向在线服务发送请求,例如向在线搜索服务54的基于话音的查询处理器80发送,从而表明话音单元即将从所述装置出现。请注意,如果不存在在线连接,则框182可不导致向在线服务通知该话音输入。
接下来,在框184中,将与该话音输入的第一部分相关联的数字音频数据串流到在线服务(如果已连接)以及离线话音至文本模块(串流话音至文本模块64)二者。框186确定整个话音输入是否已被处理,如果不是,则将控制权返回到框184以将额外的数字音频数据串流到在线服务以及所述离线话音至文本模块。一旦整个话音输入已被处理,则例程180完成。
将会理解,在一些实施例中,可通过将用于该话音输入的第一部分的数字音频数据发送到在线服务来启动在线处理,因此,框182可省略。另外,在一些实施例中,将数字音频数据串流到在线服务及所述离线话音至文本模块的速率可不同,并且在一些情况下,可直到接收到整个话音输入才将数字音频数据串流到所述在线服务。在又一些其它实施例中,可本地执行话音至文本转换,从而,不是将数字音频数据串流到所述在线服务,而是将所述话音至文本模块所输出的文本令牌串流到在线服务。
图6接下来示出了由串流话音至文本模块64执行的示例性离线话音至文本例程200。如上文提到的,模块64从话音动作模块58接收表示话音输入的多个部分的数字音频数据,因而,例程200在框202中通过开始从模块58接收话音输入而开始。框204生成并输出在该话音输入的数字音频数据中识别出的文本令牌(例如,字词和/或短语),并且框206确定整个话音输入是否已被处理,例如,当没有该话音输入的进一步的数字音频数据仍未处理时。在更多数字音频数据仍未处理时,框206将控制权返回到框204以生成额外的文本令牌,并且当整个话音输入已被处理时,框206将控制权转交到框208以报告话音输入的结束,例如,向语义处理器模块66报告。在其它实施例中,话音输入的结束也可由话音动作模块58或所述装置中的其它功能报告。例程200然后被完成。
图7接下来示出了语义处理器模块66响应于从所述串流话音至文本模块64接收到文本令牌而执行的示例性处理文本令牌例程210。例程210在框212中通过确定模块66当前是否正在构建话音动作而开始。如果不是,则控制权转交到框214以初始化新动作对象。在框214中初始化新动作对象之后,或者如果框212确定动作当前已处于构建过程中,则框216将该文本令牌添加到与所述动作相关联的一组文本令牌。框218针对所述动作剖析所述文本令牌,并且框220尝试从经过剖析的文本构建所述动作。如上文提到的,在所示出的实施例中,可采用串流架构,其尝试基于语义处理器模块当前可用的信息来渐进地并且动态地构建动作。这样,在一些实施例中,框218和220可在额外的文本令牌被供应到语义处理器模块时对动作进行构建、修改、精炼、修改、校正等。另外,在一些实施例中,框218和220可确定正在请求什么动作,确定用于该动作的一个或多个参数的值,甚至确定何时可能需要额外数据来完成该动作。例如,如果一个动作部分地基于位置,例如是餐厅订位请求的情况下,则框218和220可确定需要位于该装置的当前位置附近的餐厅的列表及其可用性,以便完成该动作。
接下来,框222确定是否需要任何在线信息来完成该动作(例如,基于框218和220中的动作的前述动态构建)。如果不是,则控制权转交到框224以在该装置上执行客户端侧的呈现。例如,客户端侧的呈现可包括:在该装置的显示器上显示由用户口述的文本,基于由正被处理的文本令牌产生的对所述部分构建的动作的更新来更改先前显示的文本,或者是可适合于特定装置的其它音频和/或视觉更新。例程210然后针对那个文本令牌完成。
如果框222确定需要额外在线信息,控制权则转交到框226,以尝试向在线服务发送查询来请求额外信息。控制权然后转交到框224以执行客户端侧的呈现,并且例程210完成。
图8接下来示出了可由语义处理器模块66响应于接收到输入结束的指示(例如,如图6的框208中生成的)而执行的示例性的接收输入结束(receive end of input)例程230。例程230在框232中通过等待(如果必要的话)所有文本令牌完成例程210的处理而开始,从而表明语义处理器已处理了该话音输入的所有文本令牌。然后,框234确定该动作是否是具有选择性离线能力的话音动作。
如果该动作没有选择性离线能力,则框234将控制权转交到框236以完成该动作,并且例程230完成。另一方面,如果该动作被确定为具有选择性离线能力,则框234将控制权转交到框238以确定所述支持话音的电子装置当前是否离线。如果不是离线并且存在与在线服务的连接,则该动作是否具有选择性离线能力的问题未决,所以,控制权转交到框236以完成该动作,以便在需要时访问在线服务。然而,如果该装置是离线的,则框238将控制权转交到框240以确定是否能够离线完成所述具有选择性离线能力的话音动作,如果是,则将控制权转交到框236以视情况完成该动作。
然而,如果不是,则框240将控制权转交到框242,以有效地推迟在所述装置上完成话音动作。特别地,框242本地保存与该话音动作相关联的数据,例如,通过将该数据本地存储在所述装置上。在一些实施例中,例如,该数据可包括话音动作对象,包括用于与之相关联的一些或所有参数的数据。然后,框244可向用户呈现表明将在重新建立连接时完成所述动作的通知,例如,在一些实施例中,通过生成一个卡片(card)。作为一个实例,如果话音动作是创建提醒,则可在装置50上显示一个通知,例如“您当前离线,并且您对创建买牛奶提醒的请求将在恢复连接时执行”。在框244完成后,例程230完成。
图9接下来示出了示例性的处理待决动作例程250,它可由语义处理器模块66或所述支持话音的电子装置中的另一个模块执行,以处理数据已被本地保存的任何待决话音动作。例如,每当装置50建立与在线服务的连接时,可执行该例程250,因而,例程250在框252中通过确定是否存在任何待决的具有选择性在线能力的动作而开始。如果不存在,则例程250终止;然而,如果存在任何待决动作,则控制权转交到框254,以启动用于处理每个待决动作的FOR循环。
对于每个这种动作,框254将控制权转交到框256,以确定是否需要从在线服务获得任何场境敏感数据以完成该动作。如果是,则控制权转交到框258以查询在线服务并接收所请求的场境敏感数据。控制权然后转交到框260以本地完成该动作(即,执行本地完成)并执行客户端侧的呈现,从而向用户通知(例如,使用卡片)该动作已经被完成。如果不是,则绕过框258,并且框256将控制权直接转交到框260。示例性的通知可能是“连接已恢复,并且您的买牛奶提醒现在已被创建”。
然后,框260将控制权转交到框262以确定是否需要在线和/或装置同步,即,是否应使用在线服务或用户的其它装置来执行远程完成。如果是,则控制权转交到框264以执行同步。控制权然后转交到框266以上传与该动作相关联的诊断数据。如果不是,则绕过框264,并且框262将控制权直接转交到框266。
框266(其在一些实施例中为可选的)可上传诸如导航日志、误差日志等的数据、用户体验改善数据、诸如动作对象和动作相关查询等的动作相关数据、训练数据、剖析数据、话音至文本数据,等等。在框266完成之后,控制权返回到框254以处理另外的待决动作,并且,一旦所有动作均被处理,例程250就完成了。
尽管本文中已描述并示出了若干实施例,但可利用用于执行所述功能和/或获得本文所述的结果和/或一个或多个优点的各种其它装置和/或结构,并且这种修改和/或变型中的每一个均被认为落入本文所述的实施例的范围内。更一般来说,本文所述的所有参数、尺寸、材料和配置均旨在是示例性的,并且,实际的参数、尺寸、材料和/或配置将取决于该教示所用于的一个或多个特定应用。本领域技术人员将认识到或能够仅使用常规试验来确定本文所述的具体实施例的许多等效形式。因此,应当理解,前述实施例仅是作为实例给出的,并且,在所附权利要求及其等效物的范围内,能够以除了具体描述和主张的方式之外的其它方式实践实施例。本公开的实施例涉及本文所述的每个单独特征、系统、物件、材料、套件和/或方法。另外,如果这种特征、系统、物件、材料、套件和/或方法不互相抵触,则两个或更多个这种特征、系统、物件、材料、套件和/或方法的任何组合均包括在本公开的范围内。
Claims (29)
1.一种方法,包括:
使用支持话音的电子装置接收话音输入;和
在所述支持话音的电子装置中,并且响应于接收到所述话音输入的至少一部分:
执行所述话音输入的所述至少一部分的本地处理,其中,所述本地处理识别所述话音输入与具有选择性离线能力的话音动作相关联,并构建所述具有选择性离线能力的话音动作的至少一部分,并且其中,所述本地处理通过识别所述话音输入与是以下类型的话音动作相关联来识别所述话音输入与具有选择性离线能力的话音动作相关联:因为所述话音动作的参数不能严格基于所述话音输入中提供的数据和/或在所述支持话音的装置上本地可用的数据来解决而在至少一种情况下能够离线完成并且在至少一种其它情况下仅能够使用与在线服务的连接来完成;
在所述本地处理期间确定所述具有选择性离线能力的话音动作不能够离线完成,其中,确定所述具有选择性离线能力的话音动作不能够离线完成包括:在所述本地处理期间确定所述具有选择性离线能力的话音动作包括根据所述话音输入仍未解决的至少一个参数;以及
响应于确定所述具有选择性离线能力的话音动作不能够离线完成:
基于根据所述话音输入仍未解决的所述至少一个参数来查询在线服务;
响应于所述查询而从所述在线服务接收所述至少一个参数的值;以及
使用所述值来完成所述具有选择性离线能力的话音动作。
2.根据权利要求1所述的方法,其中,完成所述具有选择性离线能力的话音动作包括:
在从所述在线服务接收所述值之后,使用所述值并且使用由所述本地处理针对所述具有选择性离线能力的话音动作生成的本地保存的数据,完成所述具有选择性离线能力的话音动作。
3.根据权利要求1所述的方法,其中,所述支持话音的电子装置包括移动装置,所述移动装置被配置为在与无线网络通信时与所述无线服务通信。
4.根据权利要求1所述的方法,其中,执行所述本地处理在使用所述支持话音的电子装置完全接收到所述话音输入之前动态地构建了所述具有离线能力的话音动作的所述至少一部分,并且其中,在所述本地处理期间确定所述具有选择性离线能力的话音动作不能够离线完成是在使用所述支持话音的电子装置完全接收到所述话音输入之前执行的。
5.根据权利要求1所述的方法,其中,所述支持话音的电子装置在所述本地处理期间是离线的。
6.根据权利要求1所述的方法,其中,所述值是针对场境敏感数据。
7.根据权利要求6所述的方法,其中,所述至少一个参数包括位置敏感数据,其中,所述查询包括所述支持话音的电子装置的当前位置,并且其中,所述值包括位置敏感数据。
8.根据权利要求1所述的方法,进一步包括:响应于确定所述具有选择性离线能力的话音动作不能够离线完成,向所述支持话音的电子装置的用户通知所述具有选择性离线能力的话音动作将在将来时间完成。
9.根据权利要求1所述的方法,其中,所述具有选择性离线能力的话音动作的类型选自由以下类型组成的组:提醒类型、通信类型、事件类型、装置设置类型、媒体控制类型和导航类型。
10.根据权利要求1所述的方法,其中,在所述本地处理期间确定所述具有选择性离线能力的话音动作不能够离线完成是在使用所述支持话音的电子装置完全接收到所述话音输入之前执行。
11.一种包括存储器和能够执行存储在所述存储器中的指令的一个或多个处理器的支持话音的电子装置,包括用于以下的指令:
使用所述支持话音的电子装置接收话音输入;和
在所述支持话音的电子装置中,并且响应于接收到所述话音输入的至少一部分:
执行所述话音输入的所述至少一部分的本地处理,其中,所述本地处理识别所述话音输入与具有选择性离线能力的话音动作相关联,并构建所述具有选择性离线能力的话音动作的至少一部分,并且其中,用于执行所述本地处理的指令包括用于通过识别所述话音输入与是以下类型的话音动作相关联来识别所述话音输入与具有选择性离线能力的话音动作相关联的指令:因为所述话音动作的参数不能严格基于所述话音输入中提供的数据和/或在所述支持话音的装置上本地可用的数据来解决而在至少一种情况下能够离线完成并且在至少一种其它情况下仅能够使用与在线服务的连接来完成;
在所述本地处理期间确定所述具有选择性离线能力的话音动作不能够离线完成,其中,用于确定所述具有选择性离线能力的话音动作不能够离线完成的所述指令包括:用于在所述本地处理期间确定所述具有选择性离线能力的话音动作包括根据所述话音输入仍未解决的至少一个参数的指令;以及
响应于确定所述具有选择性离线能力的话音动作不能够离线完成:
从在线服务器获得根据所述话音输入仍未解决的所述至少一个参数的值;以及
使用所述值来完成所述具有选择性离线能力的话音动作。
12.根据权利要求11所述的支持话音的电子装置,其中,用于完成所述具有选择性离线能力的话音动作的所述指令包括用于以下的指令:
使用所述值并且使用由所述本地处理针对所述具有选择性离线能力的话音动作生成的本地保存的数据,完成所述具有选择性离线能力的话音动作。
13.根据权利要求11所述的支持话音的电子装置,其中,用于执行所述本地处理的所述指令包括:用于在使用所述支持话音的电子装置完全接收到所述话音输入之前动态地构建了所述具有离线能力的话音动作的所述至少一部分的指令,并且其中,用于在所述本地处理期间确定所述具有选择性离线能力的话音动作不能够离线完成的指令包括:用于在使用所述支持话音的电子装置完全接收到所述话音输入之前确定所述本地处理期间确定所述具有选择性离线能力的话音动作不能够离线完成的指令。
14.根据权利要求11所述的支持话音的电子装置,其中,所述支持话音的电子装置在所述本地处理期间是离线的。
15.根据权利要求11所述的支持话音的电子装置,其中,所述至少一个参数包括位置敏感数据,并且其中,所述值包括基于所述支持话音的电子装置的当前位置的位置敏感数据。
16.根据权利要求11所述的支持话音的电子装置,其中,所述指令进一步包括用于以下的指令:
响应于确定所述具有选择性离线能力的话音动作不能够离线完成,向所述支持话音的电子装置的用户通知所述具有选择性离线能力的话音动作将在将来时间完成。
17.根据权利要求11所述的支持话音的电子装置,其中,用于在所述本地处理期间确定所述具有选择性离线能力的话音动作不能够离线完成的指令包括:用于在使用所述支持话音的电子装置完全接收到所述话音输入之前确定所述具有选择性离线能力的话音动作不能够离线完成的指令。
18.一种存储计算机指令的非暂时性计算机可读存储介质,所述计算机指令能够由一个或多个处理器执行以执行方法,所述方法包括:
使用支持话音的电子装置接收话音输入;和
在所述支持话音的电子装置中,并且响应于接收到所述话音输入的至少一部分:
执行所述话音输入的所述至少一部分的本地处理,其中,所述本地处理识别所述话音输入与具有选择性离线能力的话音动作相关联,并构建所述具有选择性离线能力的话音动作的至少一部分,并且其中,所述本地处理通过识别所述话音输入与是以下类型的话音动作相关联来识别所述话音输入与具有选择性离线能力的话音动作相关联:因为所述话音动作的参数不能严格基于所述话音输入中提供的数据和/或在所述支持话音的装置上本地可用的数据来解决而在至少一种情况下能够离线完成并且在至少一种其它情况下仅能够使用与在线服务的连接来完成;
在所述本地处理期间确定所述具有选择性离线能力的话音动作不能够离线完成,其中,确定所述具有选择性离线能力的话音动作不能够离线完成包括:在所述本地处理期间确定所述具有选择性离线能力的话音动作包括根据所述话音输入仍未解决的至少一个参数;以及
响应于确定所述具有选择性离线能力的话音动作不能够离线完成:
基于根据所述话音输入仍未解决的所述至少一个参数来查询在线服务;
响应于所述查询而从所述在线服务接收所述至少一个参数的值;以及
使用所述值来完成所述具有选择性离线能力的话音动作。
19.一种方法,包括:
使用支持话音的电子装置接收话音输入;和
在所述支持话音的电子装置中,并且响应于接收到所述话音输入的至少一部分:
在执行所述话音输入的所述至少一部分的本地处理期间,识别所述话音输入与具有选择性离线能力的话音动作相关联,所述具有选择性离线能力的话音动作相关联是以下类型:因为完成所述具有选择性离线能力的话音动作所需的参数不能严格基于所述话音输入中提供的数据和/或在所述支持话音的装置上本地可用的数据来解决而在至少一种情况下能够离线完成并且在至少一种其它情况下仅能够使用与在线服务的连接来完成;
在所述本地处理期间确定所述具有选择性离线能力的话音动作不能够离线完成,其中,确定所述具有选择性离线能力的话音动作不能够离线完成包括:在所述本地处理期间确定所述具有选择性离线能力的话音动作包括根据所述本地处理仍未解决的至少一个参数;以及
响应于确定所述具有选择性离线能力的话音动作不能够离线完成:
与在线服务交互以获得根据所述话音输入仍未解决的所述至少一个参数的值;以及
使用从与所述在线服务交互中获得的所述值来完成所述具有选择性离线能力的话音动作。
20.根据权利要求19所述的方法,其中,所述具有选择性离线能力的话音动作的类型是媒体控制类型。
21.根据权利要求19所述的方法,其中,完成所述具有选择性离线能力的话音动作包括:
在获得所述值之后,使用所述值并且使用由所述本地处理针对所述具有选择性离线能力的话音动作生成的本地保存的数据,完成所述具有选择性离线能力的话音动作。
22.根据权利要求19所述的方法,其中,所述支持话音的电子装置包括移动装置,所述移动装置被配置为在与无线网络通信时与所述无线服务通信。
23.根据权利要求19所述的方法,其中,执行所述本地处理在使用所述支持话音的电子装置完全接收到所述话音输入之前动态地构建了所述具有离线能力的话音动作的所述至少一部分,并且其中,在所述本地处理期间确定所述具有选择性离线能力的话音动作不能够离线完成是在使用所述支持话音的电子装置完全接收到所述话音输入之前执行的。
24.根据权利要求19所述的方法,其中,所述支持话音的电子装置在所述本地处理期间是离线的。
25.根据权利要求19所述的方法,其中,所述值是针对场境敏感数据。
26.根据权利要求25所述的方法,其中,所述至少一个参数包括位置敏感数据,并且其中,所述值包括基于所述支持话音的电子装置的当前位置的位置敏感数据。
27.根据权利要求19所述的方法,进一步包括:响应于确定所述具有选择性离线能力的话音动作不能够离线完成,向所述支持话音的电子装置的用户通知所述具有选择性离线能力的话音动作将在将来时间完成。
28.根据权利要求19所述的方法,其中,在所述本地处理期间确定所述具有选择性离线能力的话音动作不能够离线完成是在使用所述支持话音的电子装置完全接收到所述话音输入之前执行。
29.一种包括存储器和能够执行存储在所述存储器中的指令的一个或多个处理器的支持话音的电子装置,包括用于以下的指令:
使用支持话音的电子装置接收话音输入;和
在所述支持话音的电子装置中,并且响应于接收到所述话音输入的至少一部分:
在所述话音输入的所述至少一部分的本地处理的执行期间,识别所述话音输入与具有选择性离线能力的话音动作相关联,所述具有选择性离线能力的话音动作相关联是以下类型:因为完成所述具有选择性离线能力的话音动作所需的参数不能严格基于所述话音输入中提供的数据和/或在所述支持话音的装置上本地可用的数据来解决而在至少一种情况下能够离线完成并且在至少一种其它情况下仅能够使用与在线服务的连接来完成;
在所述本地处理期间确定所述具有选择性离线能力的话音动作不能够离线完成,其中,用于确定所述具有选择性离线能力的话音动作不能够离线完成的指令包括:用于在所述本地处理期间确定所述具有选择性离线能力的话音动作包括根据所述本地处理仍未解决的至少一个参数的指令;以及
响应于确定所述具有选择性离线能力的话音动作不能够离线完成:
与在线服务交互以获得根据所述话音输入仍未解决的所述至少一个参数的值;以及
使用从与所述在线服务交互中获得的所述值来完成所述具有选择性离线能力的话音动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011084350.2A CN112291203B (zh) | 2015-05-27 | 2016-05-20 | 将用于具有选择性离线能力的话音动作的数据本地保存 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/723,279 US10083697B2 (en) | 2015-05-27 | 2015-05-27 | Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device |
US14/723,279 | 2015-05-27 | ||
CN201680020179.4A CN107430853B (zh) | 2015-05-27 | 2016-05-20 | 将用于具有选择性离线能力的话音动作的数据本地保存在支持话音的电子装置中 |
CN202011084350.2A CN112291203B (zh) | 2015-05-27 | 2016-05-20 | 将用于具有选择性离线能力的话音动作的数据本地保存 |
PCT/US2016/033658 WO2016191319A1 (en) | 2015-05-27 | 2016-05-20 | Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680020179.4A Division CN107430853B (zh) | 2015-05-27 | 2016-05-20 | 将用于具有选择性离线能力的话音动作的数据本地保存在支持话音的电子装置中 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112291203A true CN112291203A (zh) | 2021-01-29 |
CN112291203B CN112291203B (zh) | 2023-04-18 |
Family
ID=56116557
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011084350.2A Active CN112291203B (zh) | 2015-05-27 | 2016-05-20 | 将用于具有选择性离线能力的话音动作的数据本地保存 |
CN201680020179.4A Active CN107430853B (zh) | 2015-05-27 | 2016-05-20 | 将用于具有选择性离线能力的话音动作的数据本地保存在支持话音的电子装置中 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680020179.4A Active CN107430853B (zh) | 2015-05-27 | 2016-05-20 | 将用于具有选择性离线能力的话音动作的数据本地保存在支持话音的电子装置中 |
Country Status (8)
Country | Link |
---|---|
US (3) | US10083697B2 (zh) |
EP (2) | EP3584789B1 (zh) |
JP (1) | JP6553736B2 (zh) |
KR (1) | KR102043365B1 (zh) |
CN (2) | CN112291203B (zh) |
DE (1) | DE112016002370T5 (zh) |
GB (1) | GB2553940A (zh) |
WO (1) | WO2016191319A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10922894B2 (en) * | 2016-06-06 | 2021-02-16 | Biodigital, Inc. | Methodology and system for mapping a virtual human body |
US10095529B2 (en) * | 2016-06-07 | 2018-10-09 | Microsoft Technology Licensing, Llc | Font download on application boot |
US10726056B2 (en) * | 2017-04-10 | 2020-07-28 | Sap Se | Speech-based database access |
US10607606B2 (en) * | 2017-06-19 | 2020-03-31 | Lenovo (Singapore) Pte. Ltd. | Systems and methods for execution of digital assistant |
US11170762B2 (en) | 2018-01-04 | 2021-11-09 | Google Llc | Learning offline voice commands based on usage of online voice commands |
WO2019176670A1 (ja) * | 2018-03-16 | 2019-09-19 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN109919607A (zh) * | 2018-11-23 | 2019-06-21 | 阿里巴巴集团控股有限公司 | 基于离线乘车码的换乘优惠方法及装置和电子设备 |
US11544706B2 (en) * | 2019-04-26 | 2023-01-03 | Discover Financial Services | Multi-token provisioning, online purchase transaction processing, and card life cycle management systems and methods |
CN110238842A (zh) * | 2019-04-30 | 2019-09-17 | 北京云迹科技有限公司 | 用于机器人的远程播放方法及装置 |
KR20210061091A (ko) | 2019-11-19 | 2021-05-27 | 삼성전자주식회사 | 인텔리전트 어시스턴스 서비스를 제공하기 위한 전자 장치 및 그의 동작 방법 |
KR102208387B1 (ko) * | 2020-03-10 | 2021-01-28 | 주식회사 엘솔루 | 음성 대화 재구성 방법 및 장치 |
US11853381B2 (en) | 2020-11-13 | 2023-12-26 | Google Llc | Hybrid fetching using a on-device cache |
KR102602513B1 (ko) * | 2021-05-28 | 2023-11-16 | 주식회사 피앤씨솔루션 | 오프라인 환경에서 음성 명령어 번역 기능을 갖는 증강현실 글라스 장치 |
CN115273818B (zh) * | 2022-09-27 | 2022-12-13 | 小米汽车科技有限公司 | 语音处理方法、处理装置、处理设备、车辆和介质 |
CN115662430B (zh) * | 2022-10-28 | 2024-03-29 | 阿波罗智联(北京)科技有限公司 | 输入数据解析方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6442520B1 (en) * | 1999-11-08 | 2002-08-27 | Agere Systems Guardian Corp. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network |
US6839670B1 (en) * | 1995-09-11 | 2005-01-04 | Harman Becker Automotive Systems Gmbh | Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process |
US20060177011A1 (en) * | 2005-02-07 | 2006-08-10 | Jens Skakkebaek | System and method for providing code on voicemail appliance |
CN102164354A (zh) * | 2010-04-29 | 2011-08-24 | 微软公司 | 用于移动设备的本地语音邮件 |
CN102694788A (zh) * | 2012-03-07 | 2012-09-26 | 张春晓 | 一种服务器端提供客户端远程服务的方法和系统 |
US20140067392A1 (en) * | 2012-09-05 | 2014-03-06 | GM Global Technology Operations LLC | Centralized speech logger analysis |
CN103888473A (zh) * | 2008-03-31 | 2014-06-25 | 艾科星科技公司 | 用于经由无线电话网络的话音信道发射数据的系统、方法及设备 |
Family Cites Families (130)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MC1154A1 (fr) | 1976-08-04 | 1978-04-17 | Ile De France | Nouveaux 2,3-alkylene bis(oxy)benzamides substitues,leurs derives et leurs procedes de preparation |
US5092919A (en) | 1991-01-15 | 1992-03-03 | Imperial Chemical Industries Plc | Certain 2-(2'-methyl-3',4'-trisubstituted benzoyl)-1,3-cyclohexanediones |
CA2151370C (en) | 1992-12-31 | 2005-02-15 | Robert Don Strong | A speech recognition system |
JPH06259090A (ja) * | 1993-03-09 | 1994-09-16 | Nec Corp | 音声対話システム |
US6092919A (en) | 1995-08-01 | 2000-07-25 | Guided Systems Technologies, Inc. | System and method for adaptive control of uncertain nonlinear processes |
US5857099A (en) | 1996-09-27 | 1999-01-05 | Allvoice Computing Plc | Speech-to-text dictation system with audio message capability |
US6856960B1 (en) * | 1997-04-14 | 2005-02-15 | At & T Corp. | System and method for providing remote automatic speech recognition and text-to-speech services via a packet network |
US8209184B1 (en) * | 1997-04-14 | 2012-06-26 | At&T Intellectual Property Ii, L.P. | System and method of providing generated speech via a network |
US6779030B1 (en) * | 1997-10-06 | 2004-08-17 | Worldcom, Inc. | Intelligent network |
US6215879B1 (en) | 1997-11-19 | 2001-04-10 | Philips Semiconductors, Inc. | Method for introducing harmonics into an audio stream for improving three dimensional audio positioning |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
US6963759B1 (en) * | 1999-10-05 | 2005-11-08 | Fastmobile, Inc. | Speech recognition technique based on local interrupt detection |
US6678415B1 (en) | 2000-05-12 | 2004-01-13 | Xerox Corporation | Document image decoding using an integrated stochastic language model |
US20020042707A1 (en) * | 2000-06-19 | 2002-04-11 | Gang Zhao | Grammar-packaged parsing |
US7464033B2 (en) | 2000-07-31 | 2008-12-09 | Texas Instruments Incorporated | Decoding multiple HMM sets using a single sentence grammar |
US6421607B1 (en) * | 2000-09-22 | 2002-07-16 | Motorola, Inc. | System and method for distributed navigation service |
US6751595B2 (en) * | 2001-05-09 | 2004-06-15 | Bellsouth Intellectual Property Corporation | Multi-stage large vocabulary speech recognition system and method |
DE10147341B4 (de) * | 2001-09-26 | 2005-05-19 | Voiceobjects Ag | Verfahren und Vorrichtung zum Aufbau einer in einem Computersystem implementierten Dialogsteuerung aus Dialogobjekten sowie zugehöriges Computersystem zur Durchführung einer Dialogsteuerung |
US20030120493A1 (en) | 2001-12-21 | 2003-06-26 | Gupta Sunil K. | Method and system for updating and customizing recognition vocabulary |
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7233786B1 (en) * | 2002-08-06 | 2007-06-19 | Captaris, Inc. | Providing access to information of multiple types via coordination of distinct information services |
US7197331B2 (en) * | 2002-12-30 | 2007-03-27 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
US7729913B1 (en) * | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
US8292433B2 (en) * | 2003-03-21 | 2012-10-23 | Queen's University At Kingston | Method and apparatus for communication between humans and devices |
US8301436B2 (en) * | 2003-05-29 | 2012-10-30 | Microsoft Corporation | Semantic object synchronous understanding for highly interactive interface |
US7653191B1 (en) * | 2003-06-26 | 2010-01-26 | Microsoft Corporation | Voice call routing by dynamic personal profile |
US7392188B2 (en) * | 2003-07-31 | 2008-06-24 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method enabling acoustic barge-in |
JP2005284880A (ja) * | 2004-03-30 | 2005-10-13 | Nec Corp | 音声認識サービスシステム |
EP2317508B1 (en) | 2004-10-05 | 2012-06-27 | Inago Corporation | Grammar rule generation for speech recognition |
KR100695127B1 (ko) * | 2004-10-08 | 2007-03-14 | 삼성전자주식회사 | 다 단계 음성 인식 장치 및 방법 |
US20060129931A1 (en) * | 2004-12-10 | 2006-06-15 | Microsoft Corporation | Integrated client help viewer for internet-based and local help content |
KR100718147B1 (ko) * | 2005-02-01 | 2007-05-14 | 삼성전자주식회사 | 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법 |
US7697509B2 (en) | 2005-06-03 | 2010-04-13 | Alcatel-Lucent Usa Inc. | Dynamic E911 updating in a VoIP telephony system |
US7949529B2 (en) * | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US11153425B2 (en) * | 2005-09-01 | 2021-10-19 | Xtone, Inc. | System and method for providing interactive services |
WO2007034478A2 (en) | 2005-09-20 | 2007-03-29 | Gadi Rechlis | System and method for correcting speech |
US7929941B2 (en) * | 2005-12-16 | 2011-04-19 | Alcatel-Lucent Usa Inc. | System for providing emergency voice mail service |
US7689420B2 (en) * | 2006-04-06 | 2010-03-30 | Microsoft Corporation | Personalizing a context-free grammar using a dictation language model |
US20070276651A1 (en) | 2006-05-23 | 2007-11-29 | Motorola, Inc. | Grammar adaptation through cooperative client and server based speech recognition |
US7664530B2 (en) * | 2006-06-09 | 2010-02-16 | AT&I Intellectual Property I, L.P | Method and system for automated planning using geographical data |
US20090030697A1 (en) | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model |
US8949130B2 (en) * | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
TWI375933B (en) * | 2007-08-07 | 2012-11-01 | Triforce Co Ltd | Language learning method and system thereof |
US9569806B2 (en) | 2007-09-04 | 2017-02-14 | Apple Inc. | Dynamic presentation of location-specific information |
US8166126B2 (en) * | 2007-09-18 | 2012-04-24 | Cassidian Communications, Inc. | System and method for distributing notifications to a group of recipients |
US20100172287A1 (en) * | 2007-10-25 | 2010-07-08 | Krieter Marcus | Temporal network server connected devices with off-line ad hoc update and interaction capability |
US8463424B2 (en) * | 2007-11-07 | 2013-06-11 | Research In Motion Limited | System and method for displaying address information on a map |
CN101903946B (zh) | 2007-12-21 | 2012-09-26 | Nvoq股份有限公司 | 分布式听写/转录系统 |
US9177551B2 (en) | 2008-01-22 | 2015-11-03 | At&T Intellectual Property I, L.P. | System and method of providing speech processing in user interface |
US8700310B2 (en) * | 2008-02-05 | 2014-04-15 | Madhavi Jayanthi | Mobile device and server for facilitating GPS based services |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8676904B2 (en) * | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20100153335A1 (en) * | 2008-12-12 | 2010-06-17 | Microsoft Corporation | Synchronizing multiple classes with disparate schemas in the same collection |
US8695058B2 (en) * | 2009-05-20 | 2014-04-08 | Mobile Iron, Inc. | Selective management of mobile device data in an enterprise environment |
CN101604204B (zh) | 2009-07-09 | 2011-01-05 | 北京科技大学 | 智能情感机器人分布式认知系统 |
US8892439B2 (en) | 2009-07-15 | 2014-11-18 | Microsoft Corporation | Combination and federation of local and remote speech recognition |
US8391320B2 (en) | 2009-07-28 | 2013-03-05 | Avaya Inc. | State-based management of messaging system jitter buffers |
US9172803B2 (en) * | 2009-08-23 | 2015-10-27 | Aspect Software, Inc. | System and method for integrating runtime usage statistics with developing environment |
US10264029B2 (en) * | 2009-10-30 | 2019-04-16 | Time Warner Cable Enterprises Llc | Methods and apparatus for packetized content delivery over a content delivery network |
WO2011059997A1 (en) * | 2009-11-10 | 2011-05-19 | Voicebox Technologies, Inc. | System and method for providing a natural language content dedication service |
US9171541B2 (en) * | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
JP2011124629A (ja) * | 2009-12-08 | 2011-06-23 | Nec Corp | スケジュール情報共有システム、スケジュール情報共有方法、通信端末、及びプログラム |
WO2011133824A1 (en) * | 2010-04-21 | 2011-10-27 | Michael Jerry Saylor | Multimodal interactive voice response system |
US9263058B2 (en) * | 2010-06-24 | 2016-02-16 | Honda Motor Co., Ltd. | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system |
CN101938522A (zh) * | 2010-08-31 | 2011-01-05 | 中华电信股份有限公司 | 语音微博客服务的方法 |
US8954291B2 (en) * | 2010-09-30 | 2015-02-10 | Fitbit, Inc. | Alarm setting and interfacing with gesture contact interfacing controls |
US8719368B2 (en) * | 2010-10-07 | 2014-05-06 | Facebook, Inc. | Preferred contact channel for user communications |
US8869307B2 (en) * | 2010-11-19 | 2014-10-21 | Mobile Iron, Inc. | Mobile posture-based policy, remediation and access control for enterprise resources |
US8930194B2 (en) | 2011-01-07 | 2015-01-06 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
US9183843B2 (en) | 2011-01-07 | 2015-11-10 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
JP6317111B2 (ja) | 2011-02-22 | 2018-04-25 | スピーク・ウィズ・ミー・インコーポレイテッドSpeak With Me,Inc. | ハイブリッド型クライアントサーバ音声認識 |
US9202465B2 (en) | 2011-03-25 | 2015-12-01 | General Motors Llc | Speech recognition dependent on text message content |
US9679561B2 (en) * | 2011-03-28 | 2017-06-13 | Nuance Communications, Inc. | System and method for rapid customization of speech recognition models |
CN102215233A (zh) | 2011-06-07 | 2011-10-12 | 盛乐信息技术(上海)有限公司 | 信息系统客户端及信息发布与获取方法 |
KR101834937B1 (ko) * | 2011-07-06 | 2018-03-06 | 삼성전자 주식회사 | 통신 시스템에서 사용자 단말기의 정보 획득 방법 및 장치 |
GB2493413B (en) * | 2011-07-25 | 2013-12-25 | Ibm | Maintaining and supplying speech models |
US20130085753A1 (en) | 2011-09-30 | 2013-04-04 | Google Inc. | Hybrid Client/Server Speech Recognition In A Mobile Device |
US8972263B2 (en) | 2011-11-18 | 2015-03-03 | Soundhound, Inc. | System and method for performing dual mode speech recognition |
CN102496364A (zh) * | 2011-11-30 | 2012-06-13 | 苏州奇可思信息科技有限公司 | 基于云端网络的交互式语音识别方法 |
US9620122B2 (en) | 2011-12-08 | 2017-04-11 | Lenovo (Singapore) Pte. Ltd | Hybrid speech recognition |
CN104094287A (zh) | 2011-12-21 | 2014-10-08 | 诺基亚公司 | 用于情境识别的方法、装置以及计算机软件 |
JP5821639B2 (ja) * | 2012-01-05 | 2015-11-24 | 株式会社デンソー | 音声認識装置 |
EP2817940B1 (en) | 2012-02-24 | 2018-09-26 | Wyse Technology L.L.C. | Information sharing using token received via near proximity communication |
US20130246392A1 (en) | 2012-03-14 | 2013-09-19 | Inago Inc. | Conversational System and Method of Searching for Information |
US10431235B2 (en) * | 2012-05-31 | 2019-10-01 | Elwha Llc | Methods and systems for speech adaptation data |
US20140036023A1 (en) * | 2012-05-31 | 2014-02-06 | Volio, Inc. | Conversational video experience |
WO2013185109A2 (en) * | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
WO2013192535A1 (en) | 2012-06-22 | 2013-12-27 | Johnson Controls Technology Company | Multi-pass vehicle voice recognition systems and methods |
US9053708B2 (en) | 2012-07-18 | 2015-06-09 | International Business Machines Corporation | System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment |
US20140039893A1 (en) | 2012-07-31 | 2014-02-06 | Sri International | Personalized Voice-Driven User Interfaces for Remote Multi-User Services |
US9497515B2 (en) | 2012-08-16 | 2016-11-15 | Nuance Communications, Inc. | User interface for entertainment systems |
US8799959B2 (en) | 2012-08-16 | 2014-08-05 | Hoi L. Young | User interface for entertainment systems |
US9106957B2 (en) | 2012-08-16 | 2015-08-11 | Nuance Communications, Inc. | Method and apparatus for searching data sources for entertainment systems |
US9384736B2 (en) * | 2012-08-21 | 2016-07-05 | Nuance Communications, Inc. | Method to provide incremental UI response based on multiple asynchronous evidence about user input |
CN104641669B (zh) * | 2012-09-21 | 2019-03-01 | 苹果公司 | 用于在不要求网络访问的情况下的电子访问客户端的控制切换的装置和方法 |
KR20150063423A (ko) | 2012-10-04 | 2015-06-09 | 뉘앙스 커뮤니케이션즈, 인코포레이티드 | Asr을 위한 개선된 하이브리드 컨트롤러 |
WO2014060054A1 (de) | 2012-10-16 | 2014-04-24 | Audi Ag | Spracherkennung in einem kraftfahrzeug |
WO2014065808A1 (en) * | 2012-10-26 | 2014-05-01 | Blackberry Limited | Text and context recognition through images and video |
US9093069B2 (en) * | 2012-11-05 | 2015-07-28 | Nuance Communications, Inc. | Privacy-sensitive speech model creation via aggregation of multiple user models |
US9190057B2 (en) * | 2012-12-12 | 2015-11-17 | Amazon Technologies, Inc. | Speech model retrieval in distributed speech recognition systems |
US9185227B2 (en) * | 2012-12-14 | 2015-11-10 | Kirusa, Inc. | Sender driven call completion system |
US8977555B2 (en) | 2012-12-20 | 2015-03-10 | Amazon Technologies, Inc. | Identification of utterance subjects |
US8494853B1 (en) | 2013-01-04 | 2013-07-23 | Google Inc. | Methods and systems for providing speech recognition systems based on speech recordings logs |
WO2014137341A1 (en) | 2013-03-07 | 2014-09-12 | Nuance Communications, Inc. | Method for training an automatic speech recognition system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR102073102B1 (ko) * | 2013-03-21 | 2020-02-04 | 삼성전자 주식회사 | 언어인식을 위한 언어모델 db, 언어인식장치와 언어인식방법, 및 언어인식시스템 |
US9430465B2 (en) | 2013-05-13 | 2016-08-30 | Facebook, Inc. | Hybrid, offline/online speech translation system |
US9449599B2 (en) | 2013-05-30 | 2016-09-20 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
CN103400576B (zh) | 2013-07-18 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 基于用户行为日志的语音模型更新方法及装置 |
DE102013215136A1 (de) | 2013-08-01 | 2015-02-05 | Dywidag-Systems International Gmbh | Korrosionsgeschütztes Zugglied und plastisch verformbare Scheibe aus Korrosionsschutzmaterial für ein derartiges Zugglied |
US9412362B2 (en) | 2013-08-28 | 2016-08-09 | Verint Systems Ltd. | System and method for determining the compliance of agent scripts |
US9904720B2 (en) * | 2013-09-18 | 2018-02-27 | Facebook, Inc. | Generating offline content |
WO2015041892A1 (en) | 2013-09-20 | 2015-03-26 | Rawles Llc | Local and remote speech processing |
US9530416B2 (en) | 2013-10-28 | 2016-12-27 | At&T Intellectual Property I, L.P. | System and method for managing models for embedded speech and language processing |
US20150120296A1 (en) * | 2013-10-29 | 2015-04-30 | At&T Intellectual Property I, L.P. | System and method for selecting network-based versus embedded speech processing |
US9666188B2 (en) | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
DE102013224581A1 (de) | 2013-11-29 | 2015-06-03 | Osram Opto Semiconductors Gmbh | Optoelektronisches Bauelement und Verfahren zu seiner Herstellung |
CN104751843A (zh) * | 2013-12-25 | 2015-07-01 | 上海博泰悦臻网络技术服务有限公司 | 一种语音服务切换方法和系统 |
US20150186892A1 (en) * | 2013-12-30 | 2015-07-02 | Tencent Technology (Shenzhen) Company Limited | Methods and systems for verifying a transaction |
US8868409B1 (en) | 2014-01-16 | 2014-10-21 | Google Inc. | Evaluating transcriptions with a semantic parser |
US20150255068A1 (en) * | 2014-03-10 | 2015-09-10 | Microsoft Corporation | Speaker recognition including proactive voice model retrieval and sharing features |
US20150293509A1 (en) * | 2014-04-15 | 2015-10-15 | Ford Global Technologies, Llc | In-vehicle home automation integration |
US20150370787A1 (en) | 2014-06-18 | 2015-12-24 | Microsoft Corporation | Session Context Modeling For Conversational Understanding Systems |
US9462112B2 (en) * | 2014-06-19 | 2016-10-04 | Microsoft Technology Licensing, Llc | Use of a digital assistant in communications |
JP2016009193A (ja) | 2014-06-23 | 2016-01-18 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | ユーザ適合音声認識 |
US9548066B2 (en) | 2014-08-11 | 2017-01-17 | Amazon Technologies, Inc. | Voice application architecture |
CN104462262B (zh) * | 2014-11-21 | 2017-10-31 | 北京奇虎科技有限公司 | 一种实现语音搜索的方法、装置和浏览器客户端 |
US9460713B1 (en) | 2015-03-30 | 2016-10-04 | Google Inc. | Language model biasing modulation |
US10114676B2 (en) | 2015-05-05 | 2018-10-30 | Microsoft Technology Licensing, Llc | Building multimodal collaborative dialogs with task frames |
US9922138B2 (en) | 2015-05-27 | 2018-03-20 | Google Llc | Dynamically updatable offline grammar model for resource-constrained offline device |
-
2015
- 2015-05-27 US US14/723,279 patent/US10083697B2/en active Active
-
2016
- 2016-05-20 GB GB1715766.0A patent/GB2553940A/en not_active Withdrawn
- 2016-05-20 WO PCT/US2016/033658 patent/WO2016191319A1/en active Application Filing
- 2016-05-20 EP EP19188888.2A patent/EP3584789B1/en active Active
- 2016-05-20 JP JP2017550865A patent/JP6553736B2/ja active Active
- 2016-05-20 EP EP16728170.8A patent/EP3262637B1/en active Active
- 2016-05-20 DE DE112016002370.7T patent/DE112016002370T5/de not_active Withdrawn
- 2016-05-20 CN CN202011084350.2A patent/CN112291203B/zh active Active
- 2016-05-20 CN CN201680020179.4A patent/CN107430853B/zh active Active
- 2016-05-20 KR KR1020177027560A patent/KR102043365B1/ko active IP Right Grant
-
2018
- 2018-08-28 US US16/115,219 patent/US10334080B2/en active Active
-
2019
- 2019-06-24 US US16/450,296 patent/US10986214B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6839670B1 (en) * | 1995-09-11 | 2005-01-04 | Harman Becker Automotive Systems Gmbh | Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process |
US6442520B1 (en) * | 1999-11-08 | 2002-08-27 | Agere Systems Guardian Corp. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network |
US20060177011A1 (en) * | 2005-02-07 | 2006-08-10 | Jens Skakkebaek | System and method for providing code on voicemail appliance |
CN103888473A (zh) * | 2008-03-31 | 2014-06-25 | 艾科星科技公司 | 用于经由无线电话网络的话音信道发射数据的系统、方法及设备 |
CN102164354A (zh) * | 2010-04-29 | 2011-08-24 | 微软公司 | 用于移动设备的本地语音邮件 |
CN102694788A (zh) * | 2012-03-07 | 2012-09-26 | 张春晓 | 一种服务器端提供客户端远程服务的方法和系统 |
US20140067392A1 (en) * | 2012-09-05 | 2014-03-06 | GM Global Technology Operations LLC | Centralized speech logger analysis |
Non-Patent Citations (1)
Title |
---|
杨基明等: "智能语音技术在客服系统中的应用", 《电信快报》 * |
Also Published As
Publication number | Publication date |
---|---|
DE112016002370T5 (de) | 2018-02-15 |
US20190387076A1 (en) | 2019-12-19 |
EP3584789B1 (en) | 2022-03-16 |
JP2018523143A (ja) | 2018-08-16 |
US10986214B2 (en) | 2021-04-20 |
KR20170125901A (ko) | 2017-11-15 |
CN112291203B (zh) | 2023-04-18 |
EP3262637B1 (en) | 2019-08-28 |
US10334080B2 (en) | 2019-06-25 |
US20160351200A1 (en) | 2016-12-01 |
JP6553736B2 (ja) | 2019-07-31 |
US10083697B2 (en) | 2018-09-25 |
US20180366129A1 (en) | 2018-12-20 |
KR102043365B1 (ko) | 2019-11-11 |
EP3262637A1 (en) | 2018-01-03 |
GB201715766D0 (en) | 2017-11-15 |
GB2553940A (en) | 2018-03-21 |
WO2016191319A1 (en) | 2016-12-01 |
EP3584789A1 (en) | 2019-12-25 |
CN107430853B (zh) | 2020-11-03 |
CN107430853A (zh) | 2017-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112291203B (zh) | 将用于具有选择性离线能力的话音动作的数据本地保存 | |
US11676606B2 (en) | Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device | |
EP3385946B1 (en) | Dynamically updatable offline grammar model for resource-constrained offline device | |
JP2022548064A (ja) | 動的なコンテキスト対話セッション延長 | |
EP3304546B1 (en) | Selective aborting of online processing of voice inputs in a voice-enabled electronic device | |
US20230061999A1 (en) | Semantic parser including a coarse semantic parser and a fine semantic parser | |
JP2022547598A (ja) | コンテキストデータを使用した対話処理のための技術 | |
KR20200124298A (ko) | 원격으로 생성된 자동화된 어시스턴트 콘텐츠를 렌더링할 때 클라이언트 디바이스 지연 완화 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |