CN107430623A - 用于资源受限的离线设备的动态可更新的离线语法模型 - Google Patents
用于资源受限的离线设备的动态可更新的离线语法模型 Download PDFInfo
- Publication number
- CN107430623A CN107430623A CN201680018964.6A CN201680018964A CN107430623A CN 107430623 A CN107430623 A CN 107430623A CN 201680018964 A CN201680018964 A CN 201680018964A CN 107430623 A CN107430623 A CN 107430623A
- Authority
- CN
- China
- Prior art keywords
- inquiry
- offline
- syntactic model
- data
- resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 claims description 80
- 238000000034 method Methods 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 14
- 230000001052 transient effect Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 235000008429 bread Nutrition 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000000463 material Substances 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000005538 encapsulation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000009118 appropriate response Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000009666 routine test Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2425—Iterative querying; Query formulation based on the results of a preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90324—Query formulation using system suggestions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
一种资源受限的支持语音的设备(诸如移动设备)的离线语义处理器利用具有减少的资源要求的离线语法模型来解析由所述设备接收到的基于语音的查询。可以从由在线基于语音的查询处理器使用的更大并且更综合的语法模型生成离线语法模型,并且离线语法模型的生成可以基于从一个或多个用户收集到的查询使用数据,以使得来自在线语法模型的更流行的基于语音的查询的子集能够被包含到离线语法模型中。另外,这样的设备可以收集查询使用数据并且将这样的数据上载到在线服务,以使得更新的离线语法模型能够被生成并且下载回到设备并且从而使得离线语法模型的动态更新能够被执行。
Description
背景技术
基于语音的用户接口正日益被用于计算机和其它电子设备的控制中。基于语音的用户接口的一个特别有用的应用是关于便携式电子设备,诸如移动电话、手表、平板计算机、头戴式设备、虚拟或增强现实设备等。另一有用的应用是关于车辆电子系统,诸如包含导航和音频能力的汽车系统。这样的应用的通常特征在于限制更传统的键盘或触摸屏输入的实用性非传统的形成因素,和/或在期望促进用户保持专注于其它任务的情况中进行使用——诸如当用户正在开车或步行时。
基于语音的用户接口已经从仅能够理解简单并且直接的命令的早期基本接口继续演变到对自然语言请求作出反应并且能够理解场境并且管理与用户的来回对话或交谈的更复杂的接口。许多基于语音的用户接口包含初始语音到文本转换和语义分析二者,所述语音到文本转换将人类语音的音频记录转换为文本,以及所述语义分析对文本进行分析以尝试确定用户请求的含义。基于所确定的用户的记录的语音的含义,可以进行动作,诸如执行搜索或者控制计算机或其它电子设备。
基于语音的用户接口的计算资源要求——例如,在处理器和/或存储器资源方面,可能是大量的,并且因此,一些常规的基于语音的用户接口方法采用客户端-服务器架构,其中由相对低功率的客户端设备接收和记录语音输入,通过诸如因特网的网络将该记录发送到用于语音到文本转换和语义处理的在线服务,并且由该在线服务生成适当的响应并且将其发送回客户端设备。在线服务能够将大量的计算资源专用于处理语音输入,从而使得相比于能够以其它方式在客户端设备内本地实现的语音识别和语义分析功能实现了更复杂的语音识别和语义分析功能。然而,客户端-服务器方法必须要求当处理语音输入时客户端在线(例如,与在线服务处于通信中)。特别地在移动和汽车应用中,可能不能始终保证以及在所有位置保证连续的在线连接性,因此无论何时客户端“离线”并且因此未连接到在线服务时,基于客户端-服务器语音的用户接口可能在客户端设备中被禁用。
发明内容
本说明书大体涉及促进资源受限的支持语音的设备中的离线语义处理的各种实施方式。这样的设备的离线语义处理器利用具有减少的资源要求的离线语法模型来解析由设备接收到的基于语音的查询。在一些实施方式中,可以从由在线基于语音的查询处理器使用的更大并且更综合的语法模型生成离线语法模型,并且离线语法模型的生成可以基于从一个或多个用户收集到的查询使用数据,以使得来自在线语法模型的更流行的基于语音的查询的子集能够被包含到离线语法模型中。另外,在一些实施方式中,这样的设备可以收集查询使用数据并且将这样的数据上载到在线服务,以使得更新的离线语法模型能够被生成并且下载回到设备并且从而使得离线语法模型的动态更新能够被执行。
因此,在一些实施方式中,一种方法可以维护由在线基于语音的查询处理器用于解析在线基于语音的查询的在线语法模型,其中,在线语法模型将多个查询映射到一个或多个动作。可以分析对于至少多个查询的子集的查询使用数据以从由在线语法模型映射的多个查询中间识别流行查询的子集,并且可以构造将流行查询的子集映射到一个或多个动作中的动作的离线语法模型,以供资源受限的离线设备使用,其中,离线语法模型相对于在线语法模型已经减少了资源要求并且省略了对多个查询中的一个或多个查询的映射。
一些实施方式还包括将离线语法模型传送到资源受限的离线设备,以由资源受限的离线设备进行存储并且由资源受限的离线设备的离线语义处理器使用。在一些实施方式中,将离线语法模型传送到资源受限的离线设备动态地更新了存储在资源受限的离线设备中的离线语法模型。
在一些实施方式中,查询使用数据包括对由多个用户发出的查询所收集的查询使用数据。进一步地,在一些实施方式中,查询使用数据包括对由多个用户发出的基于语音的查询所收集的查询使用数据,并且在一些实施方式中,查询使用数据包括对由在线基于语音的查询处理器处理的查询所收集的基于语音的查询使用数据。在一些实施方式中,查询使用数据包括对由资源受限的离线设备的用户发出并且由资源受限的离线设备的离线语义处理器处理的基于语音的查询所收集的查询使用数据,并且在一些实施方式中,查询使用数据包括对由多个资源受限的离线设备的多个用户发出并且由多个资源受限的离线设备的离线语义处理器处理的基于语音的查询所收集的查询使用数据。
在一些实施方式中,查询使用数据包括对来自多个用户的文本查询所收集的查询使用数据,并且在一些实施方式中,查询使用数据包括一个或多个查询日志。进一步地,在一些实施方式中,构造离线语法模型包括至少部分地基于从资源受限的离线设备所收集的查询使用数据,构造用于资源受限的离线设备的个性化离线语法模型。在一些实施方式中,分析查询使用数据包括对一个或多个动作中的第一动作:使用所收集的查询使用数据确定由在线语法模型将映射到第一动作的多个查询中的查询的分布,并且将来自映射到第一动作的多个查询中的最高N个查询包括在所识别的流行查询的子集中。然而在其它实施方式中,构造离线语法模型包括使用流行查询的子集训练离线语法模型。
一些实施方式还提供一种方法,包括:在资源受限的离线设备的语义处理器中,使用存储在资源受限的离线设备中的离线语法模型处理由资源受限的离线设备的用户发出的基于语音的查询,其中,离线语法模型将来自多个查询中的流行查询的子集映射到一个或多个动作。所述方法还包括:利用资源受限的离线设备收集用于由用户发出的查询的查询使用数据;将查询使用数据从资源受限的离线设备上载到在线服务,以用于更新离线语法模型;利用资源受限的离线设备从在线服务接收更新数据,至少部分地基于上载的查询使用数据来生成更新数据;并且使用更新数据更新存储在资源受限的离线设备中的离线语法模型,使得使用更新的离线语法模型来处理在更新离线语法模型之后由用户发出的基于语音的查询。
在一些实施方式中,查询使用数据包括与由使用资源受限的离线设备的用户发出的基于语音的查询或文本查询相关联的查询使用数据,并且在一些实施方式中,还至少部分地基于对于由多个用户发出的查询的查询使用数据来生成更新数据。在一些实施方式中,更新数据包括更新的离线语法模型,并且更新离线语法模型包括将更新的离线语法模型存储在资源受限的离线设备中。另外,在一些实施方式中,为资源受限的离线设备的用户个性化更新的离线语法模型。
另外,一些实施方式包括一种装置,其包括存储器和一个或多个处理器,一个或多个处理器可操作以执行被存储在存储器中的指令,其中,所述指令被配置为执行前述方法中的任一个。一些实施方式还包括一种非暂态计算机可读存储介质,其存储由一个或多个处理器可执行以执行前述方法中的任一个的计算机指令。
应该理解的是,前述概念和在本文中更详细描述的附加概念的所有组合不被视为本文所公开的主题的一部分。例如,在本公开的末尾出现的要求保护的主题的所有组合被视为本文所公开的主题的一部分。
附图说明
图1图示了计算机系统的示例架构。
图2是示例分布式语音输入处理环境的框图。
图3是图示使用图2的环境处理语音输入的示例方法的流程图。
图4图示了用于在动作域中处理语音输入的示例语法模型。
图5是图示构造离线语法模型的示例方法的流程图。
图6是图示上载由移动设备所生成的查询以用于更新离线语法模型的示例方法的流程图。
具体实施方式
在在下文中所讨论的实施方式中,资源受限的支持语音的设备的离线语义处理器利用具有减少的资源要求的离线语法模型来解析由该设备所接收到的基于语音的查询。在一些实施方式中,可以从由在线基于语音的查询处理器使用的更大并且更综合的语法模型生成离线语法模型,并且离线语法模型的生成可以基于从一个或多个用户收集到的查询使用数据,以使得来自在线语法模型的更流行的基于语音的查询的子集能够被包含到离线语法模型中。另外,在一些实施方式中,这样的设备可以收集查询使用数据并且将这样的数据上载到在线服务,以使得更新的离线语法模型能够被生成并且下载回到设备并且从而使得离线语法模型的动态更新能够被执行。
在下文中讨论了关于所选择的实施方式的进一步的细节。然而,将理解到预期其它实施方式,因此本文所公开的实施方式是非排他性的。
示例硬件和软件环境
现在转到附图,其中,相同的数字贯穿若干附图指示相同的部分,图1是示例计算机系统10中的电子部件的块图。系统10典型地包括至少一个处理器12,其经由总线子系统14与许多外围设备通信。这些外围设备可以包括存储子系统16——包括例如存储器子系统18和文件存储子系统20、用户接口输入设备22、用户接口输出设备24和网络接口子系统26。输入设备和输出设备允许用户与系统10交互。网络接口子系统26向外部网络提供接口并且被耦合到其它计算机系统中的对应的接口设备。
在一些实施方式中,用户接口输入设备22可以包括键盘、诸如鼠标、轨迹球、触摸板或图形输入板的指向设备、扫描器、合并到显示器中的触摸屏、诸如语音识别系统、麦克风的音频输入设备和/或其它类型的输入设备。一般而言,术语“输入设备”的使用旨在包括将信息输入到计算机系统10中或者输入到通信网络上的所有可能类型的设备和方式。
用户接口输出设备24可以包括显示子系统、打印机、传真机或诸如音频输出设备的非视觉显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或用于创建可见图像的某种其它机构。显示子系统还可以诸如经由音频输出设备提供非视觉显示器。一般而言,术语“输出设备”的使用旨在包括将信息从计算机系统10输出给用户或者另一机器或计算机系统的所有可能类型的设备和方式。
存储子系统16存储提供在本文中所描述的模块中的一些或全部的功能性的编程和数据结构。例如,存储子系统16可以包括执行在下文中所公开的方法的所选择的方面的逻辑。
通常由处理器12单独地或者组合其它处理器执行这些软件模块。用在存储子系统16中的存储器子系统18可以包括许多存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)28和在其中存储固定指令的只读存储器(ROM)30。文件存储子系统20可以为程序和数据文件提供永久存储,并且可以包括硬盘驱动器、软盘驱动器连同相关联的可移除介质、CD-ROM驱动器、光盘驱动器或可移除介质盒。实现特定实施方式的功能性的模块可以存储在存储子系统16的文件存储子系统20中或存储在由处理器12可访问的其它机器中。
总线子系统14提供用于允许系统10的各种部件和子系统如预期地彼此通信的机构。虽然总线子系统14示意性地被示出为单个总线,但是总线子系统的备选实施方式可以使用多个总线。
系统10可以具有不同的类型,包括移动设备、便携式电子设备、嵌入式设备、台式计算机、膝上型计算机、平板计算机、可穿戴设备、工作站、服务器、计算集群、刀片服务器、服务器群或任何其它数据处理系统或计算设备。另外,由系统10实现的功能性可以被分布在通过一个或多个网络彼此互连的多个系统中,例如,在客户端-服务器、对等或其它网络布置中。由于计算机和网络的不断改变的性质,出于图示一些实施方式的目的,图1中所描绘的系统的描述仅被认为是特定示例。具有比图1中所描绘的计算机系统更多或更少的部件的系统10的许多其它配置是可能的。
在下文中所讨论的实施方式可以包括实现在本文中所公开的功能性的各种组合的一个或多个方法。其它实施方式可以包括非暂态计算机可读存储介质,其存储由处理器可执行以执行诸如在本文中所描述的方法中的一个或多个的方法的指令。然而其它实施方式可以包括装置,其包括存储器和一个或多个处理器,该一个或多个处理器可操作以执行存储在该存储器中的指令以执行诸如在本文中所描述的方法中的一个或多个的方法。
可以基于应用来识别在下文中所描述的各种程序代码,在应用内各种程序代码被实现在特定实施方式中。然而,应该理解的是,下面的任何特定程序命名法仅为了方便起见被使用。而且,给定计算机程序可以被组织为例程、过程、方法、模块、对象等的无数的方式以及程序功能性可以分配在驻留在典型的计算机内的各个软件层(例如,操作系统、库、API、应用、小程序等)中的各种方式,应该理解的是,一些实施方式可能不限于在本文中所描述的程序功能性的特定组织和分配。
而且,将理解到,可以由任何程序代码执行或在任何例程、工作流等中执行的本文所描述的各种操作可以顺序地或并行地和/或组合、分割、重排、省略、执行和/或利用其它技术来补充,并且因此,一些实施方式不限于在本文中所描述的操作的特定序列。
分布式语音输入处理环境
图2图示了示例分布式语音输入处理环境50,例如,用于支持语音的设备52与诸如在线搜索服务54的在线服务进行通信。在下文中所讨论的实施方式中,例如,支持语音的设备52被描述为诸如蜂窝电话或平板计算机的移动设备。其它实施方式可以利用各种各样的其它支持语音的设备,然而,因此在下文中对移动设备的参考仅出于简化下文中的讨论的目的。无数的其它类型的支持语音的设备可以使用在本文中所描述的功能性,包括例如膝上型计算机、手表、头戴式设备、虚拟或增强现实设备、其它可穿戴设备、音频/视频系统、导航系统、汽车和其它车辆系统等。而且,这样的支持语音的设备中的许多设备可以被认为是资源受限的,因为这样的设备的存储器和/或处理能力可以基于技术、经济或其它原因而受限,特别地当与可以将实际上无限的计算资源专用于个体任务的在线服务或基于云的服务的能力相比较时。一些这样的设备在某种程度上还可以被认为是离线设备,因为这样的设备可能能够在“离线”下操作并且未连接到在线服务达至少一部分时间,例如,基于这样的设备可能在普通使用的情况下不时经历临时网络连接性故障的预期。
在一些实施方式中,在线搜索服务54可以被实现为采用云基础设施的基于云的服务,例如,使用运行适于处理来自多个用户的大量的请求的软件的高性能计算机的服务器群或集群。在所图示的实施方式中,在线搜索服务54能够查询一个或多个数据库以定位所请求的信息,例如,以提供包括所请求的信息的网站的列表。在线搜索服务54可能不限于基于语音的搜索,并且还能够处理其它类型的搜索,例如,基于文本的搜索、基于图像的搜索等。在其它实施方式中,在线系统未必需要处理搜索,并且可以限于处理用于非搜索动作的基于语音的请求,诸如设置闹钟或提醒、管理列表、经由电话、文本、电子邮件等发起与其它用户的通信或执行可以经由语音输入发起的其它动作。出于本公开的目的,基于语音的请求和其它形式的语音输入可以被统称为基于语音的请求,而不管基于语音的请求是否试图发起搜索、提出问题、发出命令等。一般而言,因此,例如包括一个或多个词语或短语的任何语音输入可以被认为是在所图示的实施方式场境内的基于语音的查询。
在图2的实施方式中,由支持语音的设备52接收到的语音输入由支持语音的应用(或“app”)56来处理,在一些实施方式中支持语音的应用56可以是搜索应用。在其它实施方式中,可以在支持语音的设备的操作系统或固件内处理语音输入。所图示的实施方式中的应用56包括语音动作模块58、在线接口模块60和渲染/同步模块62。语音动作模块58接收被引导到应用的语音输入,并且协调语音输入的分析和支持语音的设备52的用户的一个或多个动作的性能。在线接口模块60提供与在线搜索服务54的接口,包括将语音输入转发给服务54并且接收其响应。渲染/同步模块62管理对用户的响应的渲染,例如,经由视觉显示器、语音音频或适于特定基于语音的设备的其它反馈接口。另外,在一些实施方式中,模块62还处理与在线搜索服务54的同步,例如,无论何时响应或动作影响在线搜索服务中为用户维护的数据(例如,其中,语音输入请求创建了在基于云的日历中维护的约会)。
应用56依赖于各种中间件、框架、操作系统和/或固件模块来处理语音输入,包括例如流式语音到文本模块64和包括解析器模块68、对话管理器模块70和动作构造器模块72的语义处理器模块66。
模块64接收语音输入的音频记录,例如,以数字音频数据的形式,并且将数字音频数据转换为一个或多个文本词语或短语(在本文中还被称为令牌)。在所图示的实施方式中,模块64还是流式模块,使得语音输入在逐令牌基础上并且实时或近实时地被转换为文本,使得可以有效地与用户的语音同时地并且因此在用户说出完整的口头请求之前从模块64输出令牌。模块64可以依赖于一个或多个本地存储的离线声学和/或语言模型74,其一起对音频信号与语言中的语音单位之间的关系连同语言中的词序进行建模。在一些实施方式中,可以使用单个模型74,而在其它实施方式中,可以支持多个模型,例如,以支持多个语言、多个说话者等。
鉴于模块64将语音转换为文本,模块66出于将适当的响应公式化的目的,尝试辨识出由模块64输出的文本的语义或含义。例如,解析器模块68依赖于一个或多个离线语法模型76,来将文本映射到特定动作并且识别约束这样的动作的性能的属性,例如,这样的动作的输入变量。在一些实施方式中,可以使用单个模型76,而在其它实施方式中,可以支持多个模型,例如,以支持不同的动作或动作域(即,诸如通信相关动作、搜索相关动作、音频/视觉相关动作、日历相关动作、设备控制相关动作等的相关动作的合集)。
作为示例,离线语法模型76可以支持诸如“设定提醒”的动作,该动作具有指定设定什么类型的提醒的提醒类型参数、指定与提醒相关联的一个或多个条目的条目参数以及指定激活提醒并且提醒用户的时间的时间参数。解析器模块64可以接收令牌的序列——诸如“提醒我”、“挑选”、“面包”和“下班后”,并且将令牌的序列映射到以下动作:具有设定为“购物提醒”的提醒类型参数、设定为“面包”的条目参数和“5:00pm”的时间参数的设置提醒,使得在那天5:00pm用户接收到“购买面包”的提醒。
解析器模块68还可以结合管理与用户的对话的对话管理器模块70工作。该场境内的对话指代与两个个体之间的交谈类似的语音输入和响应集合。因此,模块70维护对话的“状态”,以使得当处理后续语音输入时能够使用在先前的语音输入中从用户所获得的信息。因此,例如,如果用户将说“提醒我挑选面包”,则可以生成响应以说“好,你想何时被提醒?”,使得“下班后”的后续语音输入将被绑定回原始请求以创建提醒。
动作构造器模块72从解析器模块68接收表示语音输入解译的分析的文本,并且连同任何相关联的参数一起生成动作,以由支持语音的应用56的模块62进行处理。动作构造器模块72可以依赖于一个或多个离线动作模块78,其包含用于从解析的文本创建动作的各种规则。在一些实施方式中,例如,动作可以被定义为函数F,使得F(IT)=Au,其中,T表示输入解译的类型以及U表示输出动作的类型。F可以因此包括被映射到彼此的多个输入对(T,U),例如,如f(it)=au,其中,it是类型t的输入原型变量,以及au是类型u的输出模块参量或参数。将理解到,一些参数可以直接地被接收为语音输入,而一些参数可以以其它方式被确定,例如,基于用户的位置、人口统计信息或基于特定于用户的其它信息。例如,如果用户将说“提醒我在杂货店挑选面包”,则在没有诸如用户的当前位置、工作与家之间的用户的已知路线、用户常去的杂货店等的附加信息的情况下,位置参数可能是无法确定的。
将理解到,在一些实施方式中,模块74、76和78可以被组合为更少的模型或分割为附加模型,如可以是模块64、68、70和72的功能性。而且,在模型被本地存储在支持语音的设备52上并且因此当设备52与在线搜索服务54不处于通信时是离线可访问的范围内,模型74-78在本文中被称为离线模型。
而且,在线搜索服务54通常包括用于处理语音输入的补充功能性,例如使用依赖于各种声学/语言、语法和/或动作模型82的基于语音的查询处理器80。将理解到,在一些实施方式中,特别地当支持语音的设备52是资源受限的设备时,相比于在支持语音的设备52本地的语音处理功能性,由此使用的基于语音的查询处理器80和模型82可以实现更复杂并且计算资源密集的语音处理功能性。然而,在其它实施方式中,也可以使用无补充的在线功能性。
在一些实施方式中,可以支持在线功能性和离线功能性二者,例如,使得无论何时设备与在线服务通信,使用在线功能性,而当连接性不存在时,使用离线功能性。在其它实施方式中,可以将不同的动作或动作域分配给在线功能性和离线功能性,并且仍在其它实施方式中,可以仅当离线功能性不足以处理特定语音输入时使用在线功能性。
图3例如图示了可以由支持语音的设备52执行以处理语音输入的语音处理例程100。例程100通过接收例如以数字音频信号为形式的语音输入在块102中开始。在该实施方式中,进行初始尝试以将语音输入转发给在线搜索服务(块104)。如果不成功,例如,由于缺少连接性或缺少来自在线搜索服务的响应,则块106将控制传递到块108,以将语音输入转换为文本令牌(块108,例如,使用图2的模块64)、解析文本令牌(块110,例如,使用图2的模块68),并且从解析的文本构造动作(块112,例如,使用图2的模块72)。所产生的动作然后被用于执行客户端侧渲染和同步(块114,例如,使用图2的模块62),并且语音输入的处理完成。
返回块106,如果将语音输入转发给在线搜索服务的尝试是成功的,则块106绕过块108-112并且将控制直接地传递到块114来执行客户端侧渲染和同步。语音输入的处理然后完成。将理解到,在其它实施方式中,如上所述,可以在在线处理之前尝试离线处理,例如,以避免当可以本地处理语音输入时不必要的数据通信。
用于资源受限的离线设备的动态地可更新的离线语法模型
如上所述,在一些实施方式中,支持语音的设备可以是资源受限的,并且可能缺少在线服务的原始计算能力和/或存储能力。结合实现基于语音的用户接口的复杂性中的许多复杂性被实现在由实现这样的功能性的各种模块使用的模型中,包括例如将文本映射到动作的语法模型。
在该方面中,语法模型可以指代适于将一个或多个文本词语或短语(在本文中被统称为“令牌”)映射到待由设备实现的一个或多个动作的任何数据结构。映射到特定动作的文本词语或短语还可以被认为是构成映射到动作的不同的基于语音的查询。语法模型可以被实现为例如状态转移图或在任何其它适合的数据结构中。而且,可以以例如经由编程、经由训练等的许多方式生成语法模型。
动作可以指代实际上可以由特定设备执行的任何操作,诸如执行搜索、打电话、发送文本消息、发送电子邮件、设置提醒、得到方向、设置约会、改变设备设置、创建笔记、播放歌曲或视频、改变音量等。在一些实施方式中,动作可以被聚组为被称为动作域的合集,例如,通信动作域(用于打电话、发送消息等)、媒体动作域(用于播放歌曲、播放视频等)、计划动作域(用于创建提醒、创建约会等)和导航动作域(用于显示地图、获得方向等)等。将理解到,语法模型可以对于不同的语言、对于不同的说话者以及对于不同的终端用户应用而变化。
语法模型的实用性至少部分地基于对不同动作所创建的不同映射的数目。语言是不断地演变的,并且不同的说话者可以说不同的指令来执行相同的动作,例如,基于年龄、国家、地区等中的差异。然而,在语法模型内实现的映射的数目通常增加存储模型所要求的存储器的数量以及识别模型中的特定映射所要求的处理时间和资源的数量二者。
给定许多在线服务中可用的广泛的计算资源,许多这样的服务采用能够处理各种各样的映射的大且复杂的语法模型。图4例如图示了被实现为包含映射到具有条目128、时间日期130和位置参数132的“创建购物提醒”动作126的多个状态122和转移124的有限状态转移图的示例语法模型120的一部分。如在附图中看到,多个令牌被支持用于触发提醒(例如,“提醒我”、“设定提醒”、“不要让我忘记”等)并且用于指定提醒是购物提醒(例如,“在商店处停下以获取”、“购买”、“挑选”、“获取”、“抓取一些”、“停下和挑选”等),从而导致大量的潜在映射以及因此同义短语或可以被用于创建购物提醒的基于语音的查询。
而且,对于每个参数128、130、132,可以在语法模型内映射大量的潜在值。对于条目128的列表,例如,无数的产品名字和描述134可以是可能的(例如,“面包”、“牛奶”等),包括条目的通用术语以及特定品牌名称二者。对于时间日期参数130,可以支持与时间和/或日期相关联的各种短语136,包括数值(例如,“6:00pm”)和非数值(例如,“下班后”、“明天早晨”等)二者。对于位置参数132,可以指定地址(例如,“101大街”)、普通位置(例如,“杂货店”)、商业名称(例如,特定杂货店)等。在一些实施方式中,一个或多个参数可以是可选的。另外,在一些实施方式中,一个或多个参数可以基于非语音数据(例如,当前GPS位置、用户的最喜爱的商业、用户的典型工作时间的知识等)以及在一些实例中基于语音数据和非语音数据的组合(例如,在用户陈述“杂货店”并且该输入组合用户的已知回家路线被用于识别沿着路线的特定杂货店的情况下)被定义。而且,在一些实施方式中,可以基于对话或交谈推导出参数,使得至少部分地从先前语音输入推测参数。
图形120仅表示可以被包括在语法模型中的潜在映射的小子集,并且将理解到,为了覆盖可以从用户接收到的基于语音的查询的所有可能变化,对那些可能变化中的全部的映射将需要被包含到语法模型中。缺少个体计算机和电子设备的许多资源约束的在线服务具有并入大量的映射来使语法模型的有用性最大化的奢侈。因此,然而,由在线服务使用的语法模型(其在本文中被称为在线语法模型)通常太大和/或太处理器密集以致于不能在个体计算机和电子设备中使用,特别地许多类型的设备具有对于基于语音的用户接口的最大的需要。
然而,在本文所讨论的实施方式中,离线语法模型可以被生成为供资源受限的支持语音的离线设备使用的在线语法模型的子集,从而适应于设备的存储器和/或处理限制。而且,可以基于历史查询使用统计生成离线语法模型,使得从在线语法模型中有效地除去较不频繁地遇到的基于语音的查询中的一些或全部,并且使得离线语法模型被配置成识别来自在线语法模型的更频繁地遇到的基于语音的查询中的一些或全部。因此,离线语法模型希望地包括更频繁地遇到的基于语音的查询,使得离线语义处理器将希望地响应于更常用的基于语音的查询,同时与在线语法模型相比具有减少的资源要求。
在各种实施方式中,可以基于统计查询分析来构建离线语法模型,并且由移动设备或其它资源受限的支持语音的离线设备使用离线语法模型来执行基于语音的查询的语义处理。在一些实施方式中,离线语法模型可以是在线语法模型的子集,例如包括对于基于统计查询分析的“流行”查询的子集的映射。在该方面中,基于各种查询使用数据——例如,基于已发出查询的用户的数目或百分比、用户已发出查询的次数、用户已发出查询的频率或其某种组合,查询可以被确定为是“流行的”。因此,并非全部由在线语法模型支持的查询中被包含到离线语法模型中,而是减少了离线语法模型的存储器占用和对于利用离线语法模型必要的处理要求以更好地考虑离线设备的资源约束。
在一些实施方式中,可以由在线基于语音的查询处理器维护在线语法模型并且将在线语法模型用于解析在线基于语音的查询。在线语法模型可以被配置成将多个查询映射到一个或多个动作,例如,在诸如动作域中的合集中的一个或多个动作。可以分析对于至少多个查询的子集的查询使用数据——例如,如可以从查询日志等确定的,以从由在线语法模型所映射的多个查询中识别流行查询的子集。然后,基于分析,可以构造供资源受限的离线设备使用的、将流行查询的子集映射到一个或多个动作中的动作的离线语法模型,例如,通过使用流行查询的子集训练离线语法模型。值得注意的是,离线语法模型可以相对于在线语法模型具有减少的资源要求,并且可以省略对于相对应的在线语法模型中所映射的查询中的一个或多个查询的映射。
图5例如图示了适于由在线服务执行以至少部分地基于统计和历史查询分析构造离线语法模型的例程150。例程150可以由处理基于语音的查询的相同服务来执行,或者可以由完全不同的服务来执行。而且,例程150可以被用于初始地生成离线语法模型,或者生成被用于替换先前生成的离线语法模型的更新的离线语法模型。
例程150通过确定包含到离线语法模型中的动作的合集在块152中开始。动作的合集可以与一个或多个动作域有关,并且可以进一步关于例如特定语言(诸如英语)是有限的。
然后,在块154中,离线语法模型被初始化,例如,在没有任何现有映射的情况下。块156然后发起FOR循环来处理合集中的每个动作。对于每个这样的动作,块158从在线源和/或离线源收集查询使用数据,并且块160确定对于动作的查询的分布。块162然后基于查询的分布从在线查询模型中确定被包含到离线语法模型中的“最高的”N个查询。
在一些实施方式中,所收集的查询使用数据可以限于由在线用户所生成的查询使用数据,而在其它实施方式中可以限于由离线用户所生成的查询使用数据。在其它实施方式中,可以收集来自在线用户和离线用户二者的查询使用数据。
在还其它实施方式中,可以从在线服务的所有用户或离线设备的人口收集查询使用数据,或者可以从用户的子集收集查询使用数据,例如,从仅说特定语言的用户、来自相同国家或地理区域的用户、仅共享类似人口统计特性的用户等。所收集的查询使用数据可以在一些实例中限于基于语音的查询,而在其它实例中,还可以收集基于非语音的查询(例如,文本查询)。另外,在其中为个体用户构建“个性化”离线语法模型的一些实施方式中,所收集的查询使用数据可以集中于由特定用户发出的先前查询。
在一些实施方式中,例如,可以从由离线设备和/或在线服务维护的查询日志中收集查询使用数据。如在下面将更详细讨论的,可以部分地通过处理从离线设备上载到在线服务的查询使用数据收集这样的查询日志。在该方面中,查询使用数据可以包括可以被用于确定与特定动作相关联的一个或多个查询的相对流行度的任何数据,包括例如查询自己、查询标识符、查询计数、用户标识符等。
可以在不同的实施方式中以许多方式执行对查询的分布的确定,以有效地确定映射到特定动作的查询的相对“流行度”。例如,可以通过确定各种查询已被发出的次数确定分布,在特定时间段期间(例如,在过去的X个月期间)在某些实例中次数可以是有限的。作为另一示例,可以通过确定发出特定查询的独特用户的数目确定分布。在一些实施方式中,可以使用加权因子来将查询流行度的多个指示一起组合在分布内,例如以使频繁地发出并且由大量的用户发出的查询优先化。在一些实施方式中,还可以基于与这样的查询相关联的附加数据——例如,发出这样的查询的用户的标识符,对查询进行加权。这样做可以使得例如能够当生成对特定用户的离线语法模型时对由该特定用户发出的查询进行更多的加权。
一旦确定了查询的分布,最高的N个查询就可以被选择以包括在离线语法模型中。在该方面中“最高的”指代如由生成分布使用的规则所定义的最流行的查询。而且,这样的查询的数目N在不同的实施方式中可以是不同的,例如,基于期望对于离线语法模型的总体大小和/或复杂性、待分配给特定动作的大小和/或复杂性、将被包含到模型中的其它动作的数目、所述动作对于其它动作的相对重要性等。因此,将理解到,当多个动作被映射在离线语法模型内时,在一些实例中每个动作可以具有相同数目的映射的查询,但是在其它实例中具有不同数目的映射的查询。
因此,将理解到,块158-162执行对一个或多个用户的查询使用数据的统计和历史分析,以从映射到在线语法模型中的动作的查询中确定那些查询中的待包含到离线语法模型中的“流行”查询的子集。因此,一旦最高的N个查询被确定,块164就将最高的N个查询包含到离线语法模型中。在一些实施方式中,例如,训练技术可以被用于通过有效地训练模型将最高的N个查询包含到该模式中。控制然后传递到块156来处理合集中的附加动作。
一旦合集中的所有动作被处理,块156就将控制传递到块166,以将离线语法模型封装并且将其分发到一个或多个客户端,即,一个或多个资源受限的支持语音的离线设备,其进而接收并且打开封装的离线语法模型并且将该模型存储在相应的设备上(块158)。封装可以被用于将离线语法模型压缩以减少传输大小并且以由相应的设备可用的方式使模型格式化。
如上所述,在一些实例中,例程150可以被用于构造初始离线语法模型。然而,在其它实例中,例程150可以被用于更新离线语法模型,例如,以更好地跟踪随时间的使用中的改变、包含用户的特定人口的口语和/或基于那些用户的特定查询历史使用于特定用户的模型个性化。这样的更新可以被认为是动态更新,因为设备可以被更新为系统更新的一部分、应用更新或者作为对用户隐藏的背景更新。
现在转到图6,如上所述,在一些实施方式中,统计和历史查询分析可以至少部分地基于从离线设备所收集的查询使用数据。因此,在一些实施方式中,可以期望从离线设备周期性地上载查询使用数据。图6图示了可以由离线设备执行来将查询使用数据转发给在线服务以在更新或者构造离线查询模型中稍后使用的上载查询例程200。例程200通过本地记录由离线设备的用户发出的对于一个或多个动作域的查询在块202中开始。块204确定上载准则是否被满足。在一些实施方式中,上载准则可以是基于时间的,例如,每天、每周或以某个其它时间间隔上载查询。在其它实施方式中,然而,上载准则可以不同,并且可以例如基于查询的数目、上载的数据量或者甚至响应于来自在线服务的请求。
如果上载准则未被满足,则控制返回块202以继续日志查询。否则,控制传递到块206以封装与查询日志相关联的查询使用数据并且将封装的数据上载到在线服务,并且然后返回在块202中的记录查询。如在块208中所示,封装的查询使用数据由在线服务接收、打开并且然后被存储在储存库中以用于稍后分析。
虽然在本文中已经描述并且图示若干实施方式,但是可以利用用于执行功能和/或获得结果的各种其它装置和/或结构和/或在本文中所描述的优点中的一个或多个,并且这样的变型和/或修改中的每一个被认为在本文所描述的实施方式的范围内。更一般地,在本文中所描述的所有参数、尺寸、材料和配置旨在是示例性的,并且实际参数、尺寸、材料和/或配置将取决于使用教导的特定应用。本领域的技术人员将认识到或能够使用不超过常规试验确定本文所描述的特定实施方式的许多等价方案。因此,应理解到,前述实施方式仅以示例的方式呈现,并且在随附的权利要求书和其等价方案的范围内,可以实践除特别地所描述和要求保护外的实施方式。本公开的实施方式涉及本文所描述的每个单独的特征、系统、物品、材料、工具和/或方法。另外,如果这样的特征、系统、物品、材料、工具和/或方法不互相矛盾,则两个或两个以上这样的特征、系统、物品、材料、工具和/或方法的任何组合被包括在本公开的发明范围内。
Claims (20)
1.一种方法,包括:
维护由在线基于语音的查询处理器使用的以解析在线基于语音的查询的在线语法模型,所述在线语法模型将多个查询映射到一个或多个动作;
分析对于至少所述多个查询的子集的查询使用数据,以从由所述在线语法模型所映射的所述多个查询中识别流行查询的子集;以及
构造离线语法模型以供资源受限的离线设备使用,所述离线语法模型将所述流行查询的子集映射到所述一个或多个动作中的动作,其中,所述离线语法模型相对于所述在线语法模型已减少了资源要求并且省略了对于所述多个查询中的一个或多个查询的映射。
2.根据权利要求1所述的方法,还包括将所述离线语法模型传送到所述资源受限的离线设备,以由所述资源受限的离线设备进行存储并且用于由所述资源受限的离线设备的离线语义处理器使用。
3.根据权利要求2所述的方法,其中,将所述离线语法模型传送到所述资源受限的离线设备动态地更新了存储在所述资源受限的离线设备中的所述离线语法模型。
4.根据权利要求1所述的方法,其中,所述查询使用数据包括对于由多个用户发出的查询所收集的查询使用数据。
5.根据权利要求4所述的方法,其中,所述查询使用数据包括对于由所述多个用户发出的基于语音的查询所收集的查询使用数据。
6.根据权利要求5所述的方法,其中,所述查询使用数据包括对于由所述在线基于语音的查询处理器处理的查询所收集的基于语音的查询使用数据。
7.根据权利要求5所述的方法,其中,所述查询使用数据包括对于由所述资源受限的离线设备的用户发出并且由所述资源受限的离线设备的离线语义处理器处理的基于语音的查询所收集的查询使用数据。
8.根据权利要求5所述的方法,其中,所述查询使用数据包括对于由多个资源受限的离线设备的多个用户发出并且由所述多个资源受限的离线设备的离线语义处理器处理的基于语音的查询所收集的查询使用数据。
9.根据权利要求4所述的方法,其中,所述查询使用数据包括对于来自所述多个用户的文本查询所收集的查询使用数据。
10.根据权利要求4所述的方法,其中,所述查询使用数据包括一个或多个查询日志。
11.根据权利要求4所述的方法,其中,构造所述离线语法模型包括至少部分地基于从所述资源受限的离线设备所收集的查询使用数据,为所述资源受限的离线设备的用户构造个性化离线语法模型。
12.根据权利要求4所述的方法,其中,分析所述查询使用数据包括对于所述一个或多个动作中的第一动作:
使用所收集的查询使用数据确定由所述在线语法模型映射到所述第一动作的多个查询中的查询的分布;以及
将来自被映射到所述第一动作的所述多个查询中的最高的N个查询包括在所识别的流行查询的子集中。
13.根据权利要求1所述的方法,其中,构造所述离线语法模型包括使用所述流行查询的子集训练所述离线语法模型。
14.一种方法,包括:
在资源受限的离线设备的语义处理器中,使用存储在所述资源受限的离线设备中的离线语法模型处理由所述资源受限的离线设备的用户发出的基于语音的查询,其中,所述离线语法模型将来自多个查询中的流行查询的子集映射到一个或多个动作;
利用所述资源受限的离线设备收集由所述用户发出的查询的查询使用数据;
将所述查询使用数据从所述资源受限的离线设备上载到在线服务,以在更新所述离线语法模型中使用;
利用所述资源受限的离线设备从所述在线服务接收更新数据,所述更新数据至少部分地基于所上载的查询使用数据而生成;以及
使用所述更新数据来更新存储在所述资源受限的离线设备中的所述离线语法模型,使得在更新所述离线语法模型之后使用所更新的离线语法模型来处理由所述用户发出的基于语音的查询。
15.根据权利要求14所述的方法,其中,所述查询使用数据包括与所述用户使用所述资源受限的离线设备发出的基于语音的查询或文本查询相关联的查询使用数据。
16.根据权利要求14所述的方法,其中,所述更新数据还至少部分地基于由多个用户发出的查询的查询使用数据而被生成。
17.根据权利要求14所述的方法,其中,所述更新数据包括所更新的离线语法模型,并且其中,更新所述离线语法模型包括将所更新的离线语法模型存储在所述资源受限的离线设备中。
18.根据权利要求14所述的方法,其中,所更新的离线语法模型为所述资源受限的离线设备的所述用户而被个性化。
19.一种包括存储器和一个或多个处理器的装置,所述一个或多个处理器可操作以执行存储在所述存储器中的指令,包括进行以下的指令:
维护由在线基于语音的查询处理器使用的以解析在线基于语音的查询的在线语法模型,所述在线语法模型将多个查询映射到一个或多个动作;
分析对于至少所述多个查询的子集的查询使用数据,以从由所述在线语法模型所映射的所述多个查询中识别流行查询的子集;以及
构造离线语法模型以供资源受限的离线设备使用,所述离线语法模型将所述流行查询的子集映射到所述一个或多个动作中的动作,其中,所述离线语法模型相对于所述在线语法模型已减少了资源要求并且省略了对于所述多个查询中的一个或多个查询的映射。
20.一种存储计算机指令的非暂态计算机可读存储介质,所述计算机指令能够由一个或多个处理器执行以执行包括以下的方法的:
维护由在线基于语音的查询处理器使用的以解析在线基于语音的查询的在线语法模型,所述在线语法模型将多个查询映射到一个或多个动作;
分析对于至少所述多个查询的子集的查询使用数据,以从由所述在线语法模型所映射的所述多个查询中识别流行查询的子集;以及
构造离线语法模型以供资源受限的离线设备使用,所述离线语法模型将所述流行查询的子集映射到所述一个或多个动作中的动作,其中,所述离线语法模型相对于所述在线语法模型已减少了资源要求并且省略了对于所述多个查询中的一个或多个查询的映射。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/723,305 US9922138B2 (en) | 2015-05-27 | 2015-05-27 | Dynamically updatable offline grammar model for resource-constrained offline device |
US14/723,305 | 2015-05-27 | ||
PCT/US2016/033649 WO2016191313A1 (en) | 2015-05-27 | 2016-05-20 | Dynamically updatable offline grammar model for resource-constrained offline device |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107430623A true CN107430623A (zh) | 2017-12-01 |
Family
ID=56133039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680018964.6A Pending CN107430623A (zh) | 2015-05-27 | 2016-05-20 | 用于资源受限的离线设备的动态可更新的离线语法模型 |
Country Status (4)
Country | Link |
---|---|
US (2) | US9922138B2 (zh) |
EP (2) | EP3266020B1 (zh) |
CN (1) | CN107430623A (zh) |
WO (1) | WO2016191313A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112581962A (zh) * | 2015-05-27 | 2021-03-30 | 谷歌有限责任公司 | 在支持语音的电子设备中对语音转文本模型的场境敏感动态更新 |
WO2021120145A1 (zh) * | 2019-12-20 | 2021-06-24 | 深圳市优必选科技股份有限公司 | 语音转换方法、装置、计算机设备及计算机可读存储介质 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10083697B2 (en) | 2015-05-27 | 2018-09-25 | Google Llc | Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device |
US9836527B2 (en) * | 2016-02-24 | 2017-12-05 | Google Llc | Customized query-action mappings for an offline grammar model |
CN108399169A (zh) * | 2017-02-06 | 2018-08-14 | 阿里巴巴集团控股有限公司 | 基于问答系统的对话处理方法、装置和系统及移动设备 |
CN107704450B (zh) * | 2017-10-13 | 2020-12-04 | 威盛电子股份有限公司 | 自然语言识别设备以及自然语言识别方法 |
US11170762B2 (en) * | 2018-01-04 | 2021-11-09 | Google Llc | Learning offline voice commands based on usage of online voice commands |
EP3800633B1 (en) * | 2018-06-27 | 2023-10-11 | Google LLC | Rendering responses to a spoken utterance of a user utilizing a local text-response map |
US11527234B2 (en) | 2019-10-01 | 2022-12-13 | Rovi Guides, Inc. | Method and apparatus for generating hint words for automated speech recognition |
US11205430B2 (en) | 2019-10-01 | 2021-12-21 | Rovi Guides, Inc. | Method and apparatus for generating hint words for automated speech recognition |
CA3095037A1 (en) * | 2019-10-01 | 2021-04-01 | Rovi Guides, Inc. | Method and apparatus for generating hint words for automated speech recognition |
CN111144128B (zh) * | 2019-12-26 | 2023-07-25 | 北京百度网讯科技有限公司 | 语义解析方法和装置 |
CN111538926A (zh) * | 2020-04-20 | 2020-08-14 | 北京达佳互联信息技术有限公司 | 一种离线包自动发布方法、装置、电子设备及存储介质 |
CN111782409B (zh) * | 2020-08-17 | 2023-12-19 | 支付宝(杭州)信息技术有限公司 | 任务处理、风险识别任务处理方法、装置及电子设备 |
CN113095509A (zh) * | 2021-04-29 | 2021-07-09 | 百度在线网络技术(北京)有限公司 | 线上机器学习模型的更新方法和装置 |
CN113223705B (zh) * | 2021-05-22 | 2023-08-29 | 杭州医康慧联科技股份有限公司 | 适用于隐私计算平台的离线预测方法 |
CN115273818B (zh) * | 2022-09-27 | 2022-12-13 | 小米汽车科技有限公司 | 语音处理方法、处理装置、处理设备、车辆和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070239454A1 (en) * | 2006-04-06 | 2007-10-11 | Microsoft Corporation | Personalizing a context-free grammar using a dictation language model |
US20140337032A1 (en) * | 2013-05-13 | 2014-11-13 | Google Inc. | Multiple Recognizer Speech Recognition |
WO2014186143A1 (en) * | 2013-05-13 | 2014-11-20 | Facebook, Inc. | Hybrid, offline/online speech translation system |
WO2015009086A1 (en) * | 2013-07-17 | 2015-01-22 | Samsung Electronics Co., Ltd. | Multi-level speech recognition |
US20150032443A1 (en) * | 2013-07-25 | 2015-01-29 | Yael Karov | Self-learning statistical natural language processing for automatic production of virtual personal assistants |
CN104508739A (zh) * | 2012-06-21 | 2015-04-08 | 谷歌公司 | 动态语言模型 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020042707A1 (en) | 2000-06-19 | 2002-04-11 | Gang Zhao | Grammar-packaged parsing |
US20020087315A1 (en) | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented multi-scanning language method and system |
US6751595B2 (en) | 2001-05-09 | 2004-06-15 | Bellsouth Intellectual Property Corporation | Multi-stage large vocabulary speech recognition system and method |
DE10147341B4 (de) | 2001-09-26 | 2005-05-19 | Voiceobjects Ag | Verfahren und Vorrichtung zum Aufbau einer in einem Computersystem implementierten Dialogsteuerung aus Dialogobjekten sowie zugehöriges Computersystem zur Durchführung einer Dialogsteuerung |
US20030171926A1 (en) * | 2002-03-07 | 2003-09-11 | Narasimha Suresh | System for information storage, retrieval and voice based content search and methods thereof |
US7197331B2 (en) | 2002-12-30 | 2007-03-27 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
US7729913B1 (en) * | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
US7606708B2 (en) | 2005-02-01 | 2009-10-20 | Samsung Electronics Co., Ltd. | Apparatus, method, and medium for generating grammar network for use in speech recognition and dialogue speech recognition |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
EP2109097B1 (en) * | 2005-11-25 | 2014-03-19 | Swisscom AG | A method for personalization of a service |
US20070276651A1 (en) * | 2006-05-23 | 2007-11-29 | Motorola, Inc. | Grammar adaptation through cooperative client and server based speech recognition |
US8949130B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US9172803B2 (en) | 2009-08-23 | 2015-10-27 | Aspect Software, Inc. | System and method for integrating runtime usage statistics with developing environment |
US9679561B2 (en) | 2011-03-28 | 2017-06-13 | Nuance Communications, Inc. | System and method for rapid customization of speech recognition models |
CN102427416B (zh) * | 2011-12-12 | 2014-07-23 | 东软集团股份有限公司 | 分布式事件检测方法及装置 |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
EP2804113A3 (en) * | 2013-05-13 | 2014-12-24 | Facebook, Inc. | Hybrid, offline/online speech translation system |
US9477782B2 (en) * | 2014-03-21 | 2016-10-25 | Microsoft Corporation | User interface mechanisms for query refinement |
US9639854B2 (en) * | 2014-06-26 | 2017-05-02 | Nuance Communications, Inc. | Voice-controlled information exchange platform, such as for providing information to supplement advertising |
-
2015
- 2015-05-27 US US14/723,305 patent/US9922138B2/en active Active
-
2016
- 2016-05-20 WO PCT/US2016/033649 patent/WO2016191313A1/en active Application Filing
- 2016-05-20 EP EP16729670.6A patent/EP3266020B1/en active Active
- 2016-05-20 CN CN201680018964.6A patent/CN107430623A/zh active Pending
- 2016-05-20 EP EP18175418.5A patent/EP3385946B1/en active Active
-
2018
- 2018-02-04 US US15/888,049 patent/US10552489B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070239454A1 (en) * | 2006-04-06 | 2007-10-11 | Microsoft Corporation | Personalizing a context-free grammar using a dictation language model |
CN104508739A (zh) * | 2012-06-21 | 2015-04-08 | 谷歌公司 | 动态语言模型 |
US20140337032A1 (en) * | 2013-05-13 | 2014-11-13 | Google Inc. | Multiple Recognizer Speech Recognition |
WO2014186143A1 (en) * | 2013-05-13 | 2014-11-20 | Facebook, Inc. | Hybrid, offline/online speech translation system |
WO2015009086A1 (en) * | 2013-07-17 | 2015-01-22 | Samsung Electronics Co., Ltd. | Multi-level speech recognition |
US20150032443A1 (en) * | 2013-07-25 | 2015-01-29 | Yael Karov | Self-learning statistical natural language processing for automatic production of virtual personal assistants |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112581962A (zh) * | 2015-05-27 | 2021-03-30 | 谷歌有限责任公司 | 在支持语音的电子设备中对语音转文本模型的场境敏感动态更新 |
WO2021120145A1 (zh) * | 2019-12-20 | 2021-06-24 | 深圳市优必选科技股份有限公司 | 语音转换方法、装置、计算机设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3266020A1 (en) | 2018-01-10 |
EP3385946A1 (en) | 2018-10-10 |
US20160350320A1 (en) | 2016-12-01 |
US20180157673A1 (en) | 2018-06-07 |
US10552489B2 (en) | 2020-02-04 |
EP3266020B1 (en) | 2018-07-18 |
EP3385946B1 (en) | 2021-08-04 |
US9922138B2 (en) | 2018-03-20 |
WO2016191313A1 (en) | 2016-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107430623A (zh) | 用于资源受限的离线设备的动态可更新的离线语法模型 | |
CN111033492B (zh) | 为自动化助手提供命令束建议 | |
US10170106B2 (en) | Parameter collection and automatic dialog generation in dialog systems | |
CN112270925B (zh) | 用于创建可定制对话系统引擎的平台 | |
US10679622B2 (en) | Dependency graph generation in a networked system | |
CN107430855A (zh) | 在支持语音的电子设备中对语音转文本模型的场境敏感动态更新 | |
JP6704937B2 (ja) | パケット化されたオーディオ信号の変調 | |
CN107430853B (zh) | 将用于具有选择性离线能力的话音动作的数据本地保存在支持话音的电子装置中 | |
CN107481719A (zh) | 个人助理模块的非确定性任务发起 | |
JP6518020B1 (ja) | リソース制約のあるデバイスにおけるオフライン意味論処理の促進 | |
US20210082414A1 (en) | Techniques for dialog processing using contextual data | |
US11893993B2 (en) | Interfacing with applications via dynamically updating natural language processing | |
JP6968897B2 (ja) | 登録されていないリソースによるオーディオベースのネットワークセッションの確立 | |
US11514896B2 (en) | Interfacing with applications via dynamically updating natural language processing | |
CN107430852A (zh) | 在支持语音的电子设备中对语音输入的在线处理的选择性中止 | |
CN112487137B (zh) | 使用集成共享资源来流线化对话处理 | |
JP2022009571A (ja) | 登録されていないリソースによるオーディオベースのネットワークセッションの確立 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171201 |
|
RJ01 | Rejection of invention patent application after publication |