CN104509079A - 基于位置标记的语音识别模型 - Google Patents

基于位置标记的语音识别模型 Download PDF

Info

Publication number
CN104509079A
CN104509079A CN201380040775.5A CN201380040775A CN104509079A CN 104509079 A CN104509079 A CN 104509079A CN 201380040775 A CN201380040775 A CN 201380040775A CN 104509079 A CN104509079 A CN 104509079A
Authority
CN
China
Prior art keywords
language
model
position mark
building
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380040775.5A
Other languages
English (en)
Other versions
CN104509079B (zh
Inventor
G·陶布曼
B·斯特罗普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN104509079A publication Critical patent/CN104509079A/zh
Application granted granted Critical
Publication of CN104509079B publication Critical patent/CN104509079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72457User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to geographic location
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

公开了用于使用模型执行语音识别的方法、系统和包括编码在计算机存储介质上的计算机程序的装置,该模型基于其中说话者做出话语的建筑物内的位置。所述方法、系统和装置包括接收对应于话语的数据和获得用于其中话语被说出的建筑物内的区域的位置标记的动作。进一步的动作包括基于位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于位置标记的权重相关联。此外,动作还包括使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重生成复合模型。所述动作还包括使用复合模型生成话语的转录。

Description

基于位置标记的语音识别模型
相关申请的交叉引用
本申请要求于2012年8月1日提交的序列号为61/678,277和于2012年10月15日提交的序列号为13/651,566的美国临时申请的权益,其整体如同完全记载于此一样通过引用的方式并入。
技术领域
本说明书总体上涉及自动语音识别。
背景技术
语音识别通常依赖于所说语言的语音识别模型。然而,对于给定的语言(或给定语言的方言),取决于在何处发出词语而不同地使用词语。例如,当人在他们的客厅中时,他们可能频繁地使用与电视节目和媒体播放器的控制相关的词语,而当人在他们的厨房中时,他们可能使用与食物类型或烹饪相关的词语。用于语音识别的典型语言模型通常没有考虑到在说出词语处的位置特定情境,特别是对于在建筑物(例如在家)内的词语使用的变化。
发明内容
一般而言,本说明书中所描述的主题的一方面可以包括自动语音识别引擎(ASR),该自动语音识别引擎使用基于说话者在建筑物中何处做出话语的模型,执行语音识别。在一些实现方式中,该语音识别模型可以是基于两个或更多情境特定模型的复合模型。ASR引擎可以将话语转录成文本,例如用于语音查询,或者通过处理器执行将话语转换成命令。
在某些方面,本说明书中所描述的主题可以体现为方法,该方法包括接收对应于话语的数据和获得用于其中该话语被说出的建筑物内的区域的位置标记的动作。进一步的动作包括基于位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于位置标记的权重相关联。此外,所述动作还包括使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重来生成复合模型。所述动作还包括使用复合模型生成话语的转录。
主题的另一方面可以体现为方法,该方法包括在客户端设备处接收话语和在客户端设备处获得用于其中该话语被说出的建筑物内的区域的位置标记的动作。所述动作还包括从客户端设备向服务器传送对应于话语和用于其中话语被说出的建筑物内的区域的位置标记的数据。并且所述动作包括在客户端设备处接收话语的转录。在一些方面,使用复合模型生成话语的转录,并且使用一个或多个模型和基于位置标记而选择的一个或多个模型的相应权重来生成复合模型。
其他版本包括相对应的系统、装置和被配置为执行所述方法的动作的计算机程序,该计算机程序编码在计算机存储设备上。
这些和其他的版本可以每个可选择地包括以下特征中的一个或多个特征。例如,一些实现方式涉及到从客户端设备接收对应于话语的数据,从客户端设备接收用于其中该话语被说出的建筑物内的区域的位置标记。该位置标记可以为基于在客户端设备处接收的短程无线电传输的位置数据。
一些实现方式涉及到使用位置无关语言模型生成话语的一个或多个候选转录,并且然后基于将一个或多个候选转录与一个或多个位置相关语言模型中的短语进行比较,标识建筑物内的一个或多个候选区域。
某些实现方式涉及到从在建筑物处的处理系统接收对应于话语的数据,并且从在建筑物处的处理系统接收用于其中话语被说出的建筑物内的区域的位置标记。在一些方面,位置标记为从处理系统获得的位置数据。处理系统使用被布置在建筑物中的麦克风阵列定位话语,其中麦克风阵列可操作地耦合到处理系统。
此外,在一些实现方式中,所选择的用于语音识别的模型为语言模型,并且复合模型为复合语言模型。在一些实现方式中,所选择的用于语音识别的模型为声学模型,并且复合模型为复合声学模型。并且在一些实现方式中,所选择的用于语音识别的模型为语言模型和声学模型,并且复合模型为复合语言模型和复合声学模型。
在下文的附图和描述中记载了本说明书所描述的主题的一个或多个实施例的细节。所述主题的其他特征、方面以及优点将根据描述、附图和权利要求而变得清楚。
附图说明
图1a和1b是生成位置相关语音识别模型和使用位置相关语音识别模型执行语音识别的示例系统的图。
图2是生成和获得位置相关声学模型以用于在语音识别中使用的样本ASR引擎的组件的图。
图3a和3b是生成和获得位置相关语音模型以用于在语音识别中使用的样本ASR引擎的组件的图。
图4是用于使用基于位置标记的语音识别模型来执行语音识别的示例过程的流程图。
在不同附图中相同的附图的标记表示相同的元件。
具体实施方式
如下所述,ASR引擎可以基于在建筑物(例如用户的家)中用户做出话语所处的区域(例如房间),使语音识别模型偏向,或者选择完全不同的语音识别模型。这可以涉及到若干特征。第一,安装在建筑物中的客户端设备和/或应答器系统被用来当用户在建筑物中移动并做出话语时估计他们的位置。第二,在训练阶段期间,ASR引擎使用位置无关语音识别模型来执行语音识别,并从遍及建筑物的各个位置收集话语的转录。第三,转录可以被用来生成位置相关语音识别模型,该位置相关语音识别模型可以随后被用来执行语音识别。在一些方面,可以将来自多个用户和/或多个建筑物的转录组合以生成聚合的位置相关语音识别模型。例如,可以将处于或者靠近位于各个建筑物的厨房的多个话语的转录组合以生成厨房特定语音识别模型。
如在本公开中使用的,位置相关语音识别模型是被偏向于与建筑物的给定区域相关的主题、词语、噪声和/或声学特征(signature)的模型。本公开中所使用的区域指的是建筑物的功能部分(例如厨房、餐厅、卧室、客厅、洗手间、办公室)。在不同的建筑物中,相同类型的区域(例如厨房)可以具有不同的尺寸和声学特性(例如混响),但是可以共享相似的噪声特征和词汇。例如,一室公寓中的厨房与大的独户住宅中的厨房相比可能具有不同的声学特性,但是仍然可以具有共同的噪声和语义主题。因此,与厨房区域相关联的位置相关模型可以包括与食物和烹饪主题和/或在厨房中最常发现的噪声(例如微波炉、搅拌器、洗碗机等)相关的词语。位置无关语音识别模型是不偏向于住宅的任何特定区域的模型。
此外,在本公开中,人说出的短语被称为话语。一般而言,话语可以包含一个或多个词语。话语可以表示任何语音通信类型,例如(例如为了操作家庭自动化系统的)基于语音的指令、命令或动作,基于语音的搜索查询、口述(dictation)、对话系统或者使用经转录的语音或者调用使用经转录的语音来执行动作的软件应用的任何其他输入。
图1a示出了生成位置相关语音识别模型和使用位置相关语音识别模型执行语音识别的示例系统100。图1a还示出了语音识别在执行时处理器系统102中的数据流。参照图1a,首先描述了用于执行语音识别方法的一般性描述,然后提供了更详细的描述。
初始地,在图1a中,当用户102位于客厅120中时,用户102做出话语104(即“苹果和香料”)。例如,用户102可以具有家庭自动化系统,该家庭自动化系统控制客厅里包括音乐播放器(例如MP3播放器)的娱乐系统,用户102可以打算播放叫做“苹果&香料”乐队的“精选集”专辑。响应于该话语,客户端设备106将话语104编码成音频信号,并通过检测来自无线电应答器112的信号来获得位置标记。客户端设备106然后将音频信号和位置标记(例如无线电应答器112的标识符)经由网络110发送到处理系统108。处理系统108执行接收了位置标记和音频信号的ASR引擎116。
假定ASR引擎116已经被训练,位置确定组件130访问位置标记,并获得用户102在说出话语时的估计位置。在本实施例中,由于位置确定组件130接收到无线电应答器110(与客厅相关联)的标识符,因此位置确定组件130会输出与客厅120对应的估计位置。这一估计位置然后被输出至声学模型生成器134和语言模型生成器140。声学模型生成器134从声学模型的集合136中选择与客厅区域相关联的位置相关声学模型。语言模型生成器140从语言模型的集合142中选择也与客厅区域相关联的位置相关语言模型142b。
ASR引擎116然后使用所选择的声学模型132和语言模型138来将对应于话语104的音频信号转换成转录。在这一情况下,用于客厅142b的语言模型包括短语“苹果&香料”,ASR引擎116将其识别为针对话语104的最佳匹配。例如,客厅语言模型142b可以通过用户媒体库(例如电影、音乐、电视节目、视频游戏等)来编程。应当注意,词语“苹果”和“香料”也在用于厨房142a的语言模型中,这在没有附加情境信息的情况下可能导致歧义。有利的是,因为ASR引擎116使语言模型的选择基于位置标记,这表明当说出话语时,用户102在客厅120中而不是厨房122中,所以,ASR引擎116可以容易地解决歧义。
最后,ASR引擎116可以经由输出组件144传达转录“苹果&香料”。例如,输出组件144可以提供去往在处理器系统108上执行的媒体播放器控制程序的接口,反过来可以使得媒体播放器排队等候“苹果&香料的精选集”专辑以用于重放。
更详细地,用户102位于具有多个区域(例如客厅120和厨房122)的建筑物(例如在用户的家中)中。当在客厅102中时,用户102说出话语104至客户端设备106中(例如“苹果和香料”)。客户端设备106是在用户的控制下并且能够通过网络请求和接收资源的电子设备。客户端设备(其示例包括图1a和1b的设备)可以包括一个或多个处理设备,并且可以为或者包括移动电话(例如智能电话)、膝上型计算机、手持计算机、平板计算机、网络设备、相机、增强通用分组无线业务(EGPRS)移动电话,媒体播放器、导航设备、电子邮件设备、可穿戴式计算机、游戏控制台、交互式或者所谓“智能”电视、或者任何两个或更多这些数据处理设备或者其他数据处理设备的组合。
用户102可以记录话语104,例如通过按压客户端设备106上的按钮来在说话之前发起对话,说出该、话语,并然后释放移动设备上的按钮。在另一示例中,客户端设备106可以通过说话者的话语来激活。在另一示例中,用户可以在说出话语之前选择客户端设备106上的用户接口控制(例如麦克风图标)。作为又一示例,麦克风可以在用户说话之前被激活,或者可以处于“始终开启(always on)”状态,来允许用户不需要手动激活麦克风就能说话。例如,客户端设备可以使用连续记录缓冲器。
客户端设备106然后将用户的话语104转换成一系列音频信号(例如样本或波形),该音频信号例如可以为两秒(或更多)相对高质量音频(例如16kHz无损音频)的片段。例如,客户端设备106可以在记录话语时创建声音文件或者数据流。此外,响应于接收到话语104,客户端设备106发起用以获得用于其中话语被说出的建筑物的区域的位置标记的过程。本公开所指的位置标记为指示信号从特定位置获得的相对可能性的数据。
在一些实现方式中,例如在图1a中示出的示例,位置标记可以为描述从无线电应答器发送的无线电信号的数据(例如无线电应答器标识符和信号强度),该无线电信号由位于建筑物的特定区域中的客户端设备所接收。例如,如下所述,无线电应答器130可以被定位在遍及建筑物的各个区域中。无线电应答器可以为任何合适的短程无线电系统,例如蓝牙、近场通信(NFC)或者WiFi。
无线电应答器可以被安装在遍及建筑物的各个区域中,并然后与建筑物中的相应区域相关联。例如,无线电应答器112可以与客厅区域120相关联,无线电应答器114可以与厨房区域122相关联。可以使用任何合适的手段使无线电应答器与建筑物的不同区域相关联。例如,处理系统108可以提供接口,以使得用户可以将每个无线电应答器标记为处于特定类别的房间(例如厨房、客厅、卧室、办公室、餐厅、浴室)中。在一些实现方式中,处理系统108可以呈现网络接口,通过网络接口,用户能够经由网络浏览器进行交互。在其他方面,可以经由客户端设备106上的图形用户接口访问处理器系统108,该图形用户接口例如在客户端设备上执行的移动应用。
一旦客户端设备106将话语104编码成音频信号,并获得用于其中话语被说出的建筑物内的区域的位置标记,客户端设备就经由网络110将音频信号和位置标记发送至处理系统108。在一些实现方式中,客户端设备106可以建立与处理系统108的通信会话,并在会话期间将音频信号和位置标记发送至处理系统108。在替代实现方式中,客户端设备106周期性地(例如每30秒、每1分钟、每5分钟)获得并发送位置标记,而不管是否接收到话语。在其他实现方式中,客户端设备106可以在客户端设备106识别到改变时发送位置标记,该改变例如是客户端设备检测到:(i)新的无线电应答器标识符,(ii)无线电应答器的相对信号强度改变,或(iii)无线电应答器已经停止被检测到。在这样的实现方式中,位置标记的改变可以表明客户端106已经被重新定位到建筑物中的不同区域。
处理系统108接收与话语对应的音频信号和位置标记,该音频信号和位置标记用于执行语音识别和/或训练位置相关语音识别模型。处理系统108可以为一个或多个计算设备(例如包括一个或多个处理器和计算机可读存储介质的服务器),该计算设备使用ASR引擎116将语音转换成文本,以及其他能力。ASR引擎116可以为处理语音转文本的软件实现的输入/输出系统。例如,ASR引擎116可以为例如库的软件代码、平台、软件开发包或者对象。
处理系统108可以物理地位于与用户102相同的建筑物中或者远程地定位。网络110可以因此包括一个或多个网络。网络可以在各种模式或协议下提供通信,例如全球移动通信系统(GSM)语音电话、短消息服务(SMS)、增强消息服务(EMS)、多媒体信息服务(MMS)消息、码分多址(CDMA)、时分多址(TDMA)、个人数字蜂窝电话(PDC)、宽带码分多址(WCDMA)、CDMA2000、通用分组无线电系统(GPRS)或者一个或多个电视或者电缆网络,以及其他。例如,通信可以通过射频收发器发生。此外,可以使用例如蓝牙、WiFi或其他这样的收发器发生短程通信。此外,在一些实现方式中,本公开所描述的处理系统108中的一个、几个或所有功能可以由客户端设备106来执行。
ASR引擎116可以在训练模式和操作模式两种模式中操作。在训练模式中,ASR引擎116:(i)使用位置无关(例如无偏向的)语音识别模型执行语音识别;和(ii)收集使话语的转录和其中做出话语的位置相关的数据,来训练位置相关语音识别模型。在操作模式中,ASR引擎116使用经训练的位置相关语音识别模型来执行语音识别。然而,在一些实现方式中,ASR引擎116在操作模式中继续训练位置相关语音识别模型。ASR引擎116可以基于若干输入来确定在哪个模式中操作。例如,用户102可以被提示为经由与处理系统108的接口来选择模式。备选地或另外地,ASR引擎116可以包括用于在模式之间切换的预定阈值(例如给定区域中的特定数目的话语或给定区域中的特定数目的标识出的词语)。在一些实现方式中,可以触发ASR引擎116切换模式的外部训练数据可以被提供给ASR引擎116。例如,ASR引擎116可以从应用服务器接收经训练的位置相关语音识别模型,该应用服务器聚集来自多个建筑物和用户的位置相关语音识别模型。
ASR引擎116包括用于执行语音到文字转换和训练位置相关语音识别模型的多种组件(例如软件模块或库)。具体而言,ASR引擎116包括估计做出话语104时的客户端设备106位置的位置确定组件130。位置确定组件130将估计位置输出至声学模型生成器134和语言模型生成器140。在训练模式期间,声学模型生成器134收集针对各种类别的房间的话语,来更新声学模型的集合136。另外,声学模型生成器134可以提供位置无关声学模型以用于执行语音识别。在操作模式期间,声学模型生成器134根据声学模型的集合136生成位置相关声学模型132。在训练模式期间,语言模型生成器140收集针对各种类别的房间的话语,来更新语言模型的集合142。另外,语言模型生成器140可以提供位置无关声学模型以用于执行语音识别。在操作模式期间,语言模型生成器140根据语言模型的集合142生成位置相关语言模型140。ASR引擎116使用声学模型132和语言模型138以将来自话语104的音频信号转换成转录。输出组件144然后输出转录,例如输出至客户端设备106或处理系统108的另一组件(例如家庭自动化系统)。
更详细地,位置确定组件130基于位置标记(例如从无线电应答器中发现的信号)估计在做出话语时客户端设备106的位置。例如,客户端设备106可能已经检测到无线电应答器112,因此位置标记可以包括相对应的无线电应答器标识符(例如“应答器1”),在一些实现方式中,也可以为无线电应答器的信号强度(例如-60dBm)。因此,位置确定组件130可以确定当话语104被说出时,客户端设备106在客厅区域120中。
在一些实现方式中,客户端设备106可能检测到多于一个应答器,并且可以将来自多个应答器的信号加权来估计位置。例如,客户端设备106可能检测到来自两个无线电应答器的信号,并确定所接收到信号的信号强度(例如接收信号强度指示器(RSSI))。客户端设备106可以将描述两个信号的位置标记发送至处理系统108,处理系统108可以利用信号强度之间的相对差来估计在做出话语时客户端设备106的位置。
例如,假定客户端设备106检测到来自无线电应答器112和无线电应答器114的信号。客户端设备106可以确定来自无线电应答器112的信号具有-60dBm的RSSI,并且来自无线电应答器114的信号具有-63dBm的RSSI。因为无线电应答器112的信号强度比来自无线电应答器114的信号多3dB,因此这表明来自无线电应答器112的信号是来自无线电应答器114的信号的两倍强度,并且应答器112可能比应答器114更接近客户端设备106。因此,位置确定组件130可以使得与应答器112相关联的位置(例如客厅区域120)的权重比与应答器114相关联的位置(例如厨房区域122)重。这些权重可以对应于该话语在相关联的区域中被说出的概率或者可能性。因此,使用基于相对信号强度的加权,位置标记可以表明其中话语被说出的区域67%的可能性为客厅,并且33%的可能性为厨房。下表1示出了根据这一示例的位置标记。
表1
位置确定组件130的输出可以然后用来生成用于执行语音识别的统计模型,或者用来训练语音识别模型。一般而言,ASR引擎116使用统计模型来处理语音。ASR引擎116可以使用声学模型132以用于处理音频信号来生成子词序列。例如,声学模型可以被实施为隐马尔可夫模型(HMM)或者高斯混合模型(GMM)。在一些方面,如下所述,ASR引擎116可以使用由声学模型生成器134基于位置标记生成的复合声学模型。下面将更详细地描述,声学模型生成器134是接收位置确定组件130输出的组件,其根据声学模型136库生成声学模型,并输出声学模型以供ASR引擎116使用。在训练模式中,声学模型生成器134可以训练位置相关声学模型。
ASR引擎116使用来自声学模型132的子词序列作为对语言模型138的输入。语言模型138处理子词序列来确定最佳匹配子词序列的一个或多个词语。例如,ASR引擎116可以将子词序列与包括在语言模型138中的词汇表进行比较。在一些方面,如下所述,ASR引擎116可以使用由语言模型生成器140基于位置标记生成的复合语言模型。下面将更详细地描述,语言模型生成器140是接收位置确定组件130的输出的组件,其根据语言模型142a、142b的集合生成语言模型,并输出语言模型以供ASR引擎116使用。在训练模式中,语言模型生成器140可以训练位置相关语言模型。
一旦ASR引擎116生成话语104的转录,输出组件144就将转录路由至合适的系统。在一些实现方式中,输出组件144可以将转录发送回客户端设备106。在其他实现方式中,输出组件144可以将转录发送至在处理系统108上执行的另一组件,例如,家庭自动化系统、基于语音的搜索服务、口述应用、文字处理应用、或使用经转录的语音或者调用使用经转录的语音来执行动作的软件应用的任何其他应用。在一些实现方式中,输出组件144可以将说话者的话语的转录提交给搜索服务。搜索服务通过抓取或者索引网站上内容出版商提供的资源来识别资源。可以基于数据与之对应的资源对关于资源的数据进行索引。例如,响应于搜索查询,匹配输入关键词的资源的经索引和可选地经高速缓存的副本可以被检索到并被输出,。
参考图1b,在一些实现方式中,可以使用麦克风阵列而不是无线电应答器来确定说出话语时用户102的位置。作为示例,在图1b的系统150中,当用户102位于客厅120中时,用户102做出话语104(即“苹果和香料”)。然而,安装在客厅120中的语音检测设备160检测话语104,而不是使用客户端设备检测话语。语音检测设备160将话语104转换成音频信号,然后,其将音频信号和位置标记(例如语音检测设备160的标识符和/或话语的声压级)经由网络110发送至处理系统108。处理系统108正在执行ASR引擎116,ASR引擎116如上文进行操作将话语104转换成与“苹果&香料的精选集”相对应的语音命令。
语音检测设备160、162可以为任何合适的组件或组件的集合,其适于检测话语,将话语转换成音频信号,将音频信号和位置标记传达至处理系统108。例如,语音检测设备可以为可操作地耦合到处理系统108的麦克风。在其他实现方式中,语音检测设备可以包括麦克风、模数转换器、处理器、计算机可读存储介质和能够用于经由网络110与处理系统108进行通信的网络接口。在一些实现方式中,语音检测设备可以包括一个或多个用户输入/输出组件(例如按钮、LCD和/或存在敏感显示器)。麦克风可以为用于将声音转换成音频信号的任何合适的声电换能器,例如单向的、双向的或者全方向的有线或无线麦克风。
语音检测设备(例如麦克风阵列)可以被安装在遍及建筑物的各个区域,然后与建筑物的相应区域相关联。例如,语音检测设备160可以与客厅区域120相关联,并且语音检测设备162可以与厨房区域相关联。语音检测设备可以使用任何合适的手段与建筑物的不同区域相关联。例如,处理系统108可以提供接口,以便用户可以将每个语音检测设备标记为被安装在特定类别的房间中(例如厨房、客厅、卧室、办公室、餐厅、浴室)。在一些实现方式中,处理系统108可以提供网络接口,通过该网络接口,用户可以经由网络浏览器进行交互。在其他方面,可以经由客户端设备106上的图形用户接口访问处理器系统108,例如执行于客户端设备上的移动应用。在一些方面,一个或多个语音检测设备可以包括针对建筑物的具体区域的定向麦克风,在这种情况下,来自定向麦克风的话语可以与特定区域更高度相关。
用户102可以发起话语104,例如通过按压语音检测设备160、162上的按钮来在说话之前发起对话,说出话语,然后释放按钮。在另一示例中,语音检测设备160可以通过说话者的话语来被激活。在又一示例中,麦克风可以在用户说话被激活,或者可以处于“始终开启”状态,以允许用户不需要手动激活麦克风就能说话。例如,客户端设备可以使用连续的记录缓冲器。
语音检测设备160、162将用户的话语104转换成一系列音频信号(例如样本或波形),该一系列音频信号例如可以为两秒(或更多)相对高质量音频(例如16kHz无损音频)的片段。例如,语音检测设备160、162可以在记录话语时创建声音文件或者数据流。
此外,响应于接收到话语104,语音检测设备160、162获得位置标记。位置标记可以包括描述语音检测设备的标识符的数据,和/或在语音检测设备处所接收到的话语的声压级(例如dB re 20μPaRMS)。例如,假定语音检测设备160检测到声压级为60dB的话语104。假定语音检测设备162也检测到话语104,但声压级为57dB。因为语音检测设备160处的声压级比语音检测设备162处的声压级多3dB,这表明语音检测设备160处的声压级是语音检测设备162处的声压级的两倍强度,并且表明,话语104可能与语音检测设备162相比更接近语音检测设备160而做出。因此,位置确定组件130可以使得与语音检测设备160相关联的位置(例如客厅区域120)的权重比与语音检测设备162相关联的位置(例如厨房区域122)重。这些权重可以对应于话语在相关联区域中被说出的概率或者可能性。因此,使用基于相对声压级的加权,位置标记可以表明话语的区域67%的可能性为客厅,并且33%的可能性为厨房。下表2示出了根据这一示例的位置标记。
表2
在一些实现方式中,可以使用话语本身,而不是使用无线电应答器或语音检测设备的标识符来作为位置标记。例如,客户端设备106或者语音检测设备160、162可以生成对应于话语104的音频信号,并将其发送至处理系统108。ASR引擎116可能随后使用位置无关语音识别模型来生成话语104的一个或多个候选转录。然后,ASR引擎116可以将候选转录与一个或多个位置相关语言模型中的短语进行比较。与最佳匹配位置相关语言模型相关联的区域可随后被用作做出话语104的估计位置。例如,如果使用位置无关语音模型的转录是“苹果&香料”,并且这一短语仅仅在厨房语言模型中被找到,则位置可以被确定为厨房。如果短语在多个语言模型中被找到,则位置估计可以基于词语出现的概率对相关联的区域进行加权,以生成经加权的位置估计(例如33%厨房,67%客厅),或者可以选择与对于该词语具有最高概率的语言模型相关联的区域作为估计位置。
图2示出了生成和获得用于在语音识别中使用的位置相关声学模型的样本ASR引擎的组件。具体而言,该组件包括基于位置标记向声学模型生成器134提供估计位置的位置确定组件130。声学模型生成器134使用估计位置来从声学模型的集合136中选择或者生成声学模型,或者,在训练模式中,训练声学模型的集合136中的声学模型。声学模型的集合136存储了位置相关声学模型,包括厨房声学模型208、办公室声学模型210、卧室声学模型212和客厅声学模型214。
如上所述,客户端设备或者语音检测设备向处理系统108提供位置标记,处理系统108在合适的存储器中存储数据。位置确定组件130访问存储的位置标记202,并针对相关联的话语在建筑物中哪里被做出而生成估计位置。具体而言,建筑物区域映射器组件204(例如软件库或功能)解析位置标记来生成估计位置。估计位置可以为话语在各种类别房间中被做出的可能性或概率的形式。估计位置可以被输出到任何合适的数据结构中,例如,对象或者一组变量。
例如,假定位置标记仅包括(例如用于无线电应答器和/或语音检测设备的)一个标识符。然后,建筑物映射器204可以基于与标识符相关联的区域来生成建筑物内的估计位置。因此,如果位置标记包括与客厅区域120相关联的无线电应答器112的标识符,则估计位置可能是1.0客厅。
假定位置标记包括两个标识符。建筑物区域映射204继而可以基于内插与标识符相关联的区域来生成建筑物内的估计位置。因此,如果位置标记包括用于与客厅区域120相关联的无线电应答器112的标识符,和用于与厨房区域122相关联的无线电应答器114的标识符,则估计位置可能是0.5客厅和0.5厨房。
进一步假定位置标记包括两个标识符和相对应的信号强度(例如无线电应答器处的RSSI或语音检测设备处的声压级)。建筑物区域映射器204可以基于内插与标识符相关联的区域与基于相对信号强度的加权一起生成建筑物内的估计位置。因此,如果位置标记包括用于与客厅区域120相关联的无线电应答器112的标识符和-60dBm的RSSI,以及用于与厨房区域122相关联的无线电应答器114的标识符和-63dBm的RSSI,则估计位置可能是0.67客厅和0.33厨房。注意这一基于信号强度确定估计位置的示例是为了说明的目的,并且实现方式可以包含更为经微调和精细的模型来改进估计位置的准确度。此外,尽管出于示例性目的描述了仅从两个源接收位置标记,但是在实现方式中位置标记可以从任何数目的来源进行接收。
在接收到估计位置之后,声学模型生成器134执行取决于ASR引擎116在训练模式还是在操作模式进行操作的操作。在训练模式中,声学模型生成器134接收训练数据(例如用于与位置标记相关联的话语的音频信号),并训练存储在声学模型的集合136中的一个或多个声学模型。此外,声学模型生成器提供位置无关声学模型以用于在执行语音识别中使用。在操作模式中,声学模型生成器134基于估计位置获得(例如选择或生成)位置相关声学模型以用于在执行语音识别中使用。
声学模型的集合136可以被存储在文件结构(例如网络文件系统)中或者数据库(例如MySQL,PostgreSQL,MS SQL Server,MongoDB)中,或者可以被处理系统108访问的任何其他合适的数据结构中。在一些实现方式中,处理系统108可以经由网络服务存储和访问所存储的声学模型的集合136,网络服务例如表述性状态转移(REST)形式服务。
集合136中的声学模型最初可以用与用户通常遇到的各种声学空间匹配的之前经训练的声学模型填充。在训练模式中,声学模型生成器134接收与话语相关联的音频信号,并做出相对应的声学空间是否匹配之前存储的声学模型的确定。分析音频信号可以提供关于周围空间的声学特性的信息。那些特性可以包括房间的大小、噪声源和混响特性,噪声源例如为通风管或外窗。
如果声学空间与之前存储的声学模型不匹配,则声学模型生成器134可以初始化并适配新的声学模型。基于周围空间的大小,声学模型生成器134还可以调整声学模型以考虑混响。可以使用各种方法来完成这一调整,包括使用模型自适应,例如对于已知目标的最大似然线性回归。目标转换可以在之前在该位置遇到时已经被估计,或者可以从与空间相关联的混响时间推断出。一旦位置被充分地建模,则声学模型生成器134在声学模型136的集合中存储声学模型。
在操作模式中,当ASR引擎116执行语音识别时,声学模型生成器134选择由位置估计所标识的位置相关声学模型。例如,如果位置估计标识出客厅120和厨房122很可能为其中做出话语的区域,然后,声学模型生成器134选择客厅声学模型214和厨房声学模型208。
然后,声学模型生成器134使用所选择的位置相关声学模型生成声学模型。具体而言,复合声学模型220可以与一个或多个基础声学模型222相联系,基础声学模型222对应于存储在声学模型的集合136中的声学模型,复合声学模型220和基础声学模型222之间的联系可以被加权。在一些实现方式中,来自一个复合声学模型的联系的权重的总和可以为1或者被归一化为1。
声学模型生成器134可以使用任何合适的技术合并基础声学模型来形成复合声学模型。例如,假定每个声学模型包括高斯分布和相关联的隐马尔可夫模型(HMM)的集合。声学模型生成器134可以使用基于估计位置的权重,通过映射高斯分布和HMM来生成复合声学模型。因此,如果估计位置为0.67客厅和0.33厨房,则可以映射高斯分布和HMM以生成复合声学模型,该复合声学模型具有权重为67%的客厅声学模型214的高斯分布和HMM,以及权重为33%的厨房声学模型208的高斯分布和HMM。
应当理解,虽然示出了复合声学模型220、基础声学模型222和联系的特定数目和配置,但是其他数目和配置也是可行的。例如,可以存在足够的复合声学模型220,使得基础声学模型222的每个经加权的组合具有联系的复合声学模型220。在一些示例中,复合声学模型可以与更多或更少基础声学模型222相联系。在一些实现方式中,可以存在复合声学模型220和基础声学模型222之间不同的联系权重,例如正整数、概率或维距离(例如四维空间中的W,X,Y,Z值)。
在一些实现方式中,复合声学模型220可以根据需要被创建,例如当接收到与之前存储的声学模型不对应的位置估计时。复合声学模型220可以通过存储在可以由声学模型生成器134可访问的存储器结构中持续存在。在一些实现方式中,多个可能的复合声学模型220可以被预生成。例如,这可在预处理时间可用时,和/或当预期有很少的基础声学模型222时被使用。
图3a和3b示出了生成和获得位置相关语言模型以用于在语音识别中使用的样本ASR引擎的组件。具体而言,该组件包括向语言模型生成器140提供基于位置标记的估计位置的位置确定组件130。语言模型生成器140使用估计位置来从语言模型的集合142中选择或者生成语言模型,或者,在训练模式中,训练语言模型的集合142中的语言模型。
在图3a中,语言模型142的集合存储位置相关语言模型,包括厨房语言模型142a、客厅语言模型142b、办公室语言模型142c和卧室语言模型142d。如图所示,厨房语言模型142a包括与食物和烹饪相关的词语,例如“搅拌机”、“苹果”和“烤箱”;客厅语言模型142b包括媒体和娱乐相关的词语,例如“电视”、“电影”和“音乐”;办公室语言模型142c包括办公相关的词语,例如“邮件”、“传真”和“口述”;并且卧室语言模型142d包括睡眠相关的词语,例如“闹钟”、“睡眠”和“灯光”。
在图3b中,语言模型的集合142存储了核心语言模型160和与网络浏览、媒体和食物分别相关的各种主题特定语言模型162、164、166。每个主题可以与一个或多个区域相关联,并且可以使用核心语言模型和主题特定语言模型中的一个或多个主题特定语言模型来生成复合语言模型。如图所示,核心语言模型160包括与建筑控制、例如“灯光”、“空调”和“加热”相关联的通用词语,网络浏览语言模型162包括例如“购物”、“新闻”和“名人”的词语;并且媒体语言模型164包括例如“电视”、“电影”和“音乐”的词语;并且食物语言模型166包括例如“爆米花”、“苹果”和“烤箱”的词语。
如上所述,位置确定组件130提供估计位置。在接收到估计位置之后,语言模型生成器140取决于ASR引擎116在训练模式还是在操作模式中进行操作来执行操作。在训练模式中,语言模型生成器140接收训练数据(例如使用与位置标记相关联的位置无关语言模型所做出的转录),并训练存储在语言模型的集合142中的一个或多个语言模型。另外,语言模型生成器提供位置无关语言模型以用于在执行语音识别中使用。在操作模式中,语言模型生成器140基于估计位置获得(例如选择或生成)位置相关语言模型以用于在执行语音识别中使用。
语言模型的集合142可以被存储在文件结构中(例如网络文件系统)或者数据库中(例如MySQL,PostgreSQL,MS SQL Server,MongoDB),或者可以被处理系统108访问的任何其他合适的数据结构中。在一些实现方式中,处理系统108可以经由网络服务存储和访问所存储的语言模型的集合142,网络服务例如表述性状态转移(REST)形式服务。
集合142中的语言模型可以用包括与房间或主题的类别相对应的常用词的之前训练的语言模型填充。例如,第三方网络服务可以组合来自多个用户和/或多个建筑物中的转录,从而生成用于潜在类别的房间(例如厨房、客厅、办公室、卧室)的聚合位置相关语言模型。此外,用于一些类别房间的语言模型可以通过参考用户所拥有的内容或产品来填充。例如,ASR引擎116可能访问来自用户的媒体库(例如电影、音乐、电视节目、视频游戏等)的主题来填充用于可能具有媒体播放器(例如客厅或卧室)的房间类别的语言模型。类似的技术可以用于填充主题特定的语言模型。在训练模式中,语言模型生成器140接收与估计位置相关联的转录,并使用来自转录的词语来训练相对应的位置相关语言模型和/或主题特定语言模型。
参考图3a的示例系统,在操作模式中,语言模型生成器140选择由位置估计所标识的位置相关语言模型。例如,如果位置估计标识出客厅120和厨房122很可能为做出话语的区域,则语言模型生成器140选择客厅语言模型142a和厨房语言模型142b。
然后,语言模型生成器140使用所选择的位置相关语言模型生成语言模型。具体而言,复合语言模型320可以与一个或多个基础语言模型322相联系,基础语言模型322对应于存储在语言模型的集合140中的语言模型,复合语言模型320和基础语言模型322之间的联系可以被加权。在一些示例中,来自一个复合语言模型的联系的权重的总和可以为1或者可以被归一化为1。
虽然示出了复合语言模型320、基础语言模型322和联系的特定数目和配置,但是其他数目和配置也是可行的。例如,可以存在足够的复合语言模型320,使得基础语言模型322的每个经加权的组合具有与相联系的复合语言模型320。在一些示例中,复合语言模型可以与更多或更少基础语言模型322相联系。在一些示例中,可以存在复合语言模型320和基础语言模型322之间的不同的联系权重,例如正整数、概率或维距离(例如四维空间中的W,X,Y,Z值)。
在一些实现方式中,复合语言模型320可以根据需要被创建,例如在接收到与之前存储的语言模型不对应的位置估计时。复合语言模型320可以通过存储在可以由语言模型生成器140可访问的存储器结构中持续存在。在一些实现方式中,多个可能的复合语言模型320可以被预生成。例如,这可以在预处理时间可用时被使用,和/或在预期有很少的基础语言模型322时。
参考图3b的样本系统,在操作模式中,语言模型生成器140通过两个步骤生成复合位置相关语言模型:1)从主题特定语言模型中生成区域特定语言模型;2)从区域特定语言模型中生成复合位置相关语言模型。
在第一步骤中,语言模型生成器140使用各种权重,通过组合主题特定语言模型来创建区域特定语言模型(例如厨房语言模型、客厅语言模型和办公室语言模型)。每个区域特定语言模型可以在不同程度上包括核心语言模型。在一些实现方式中,主题特定语言模型334可以与一个或多个区域特定语言模型332相联系。复合语言模型330和区域特定语言模型332之间的联系可以被加权。在一些示例中,来自一个复合语言模型的联系的权重的总和可以为1或者被归一化为1。
权重可以基于经验分析预先确定,和/或它们可以在训练模式中被训练。权重也可以基于用户习惯周期性地更新。例如,如果用户主要在客厅中执行网络浏览,则用于网络浏览主题的权重可以基于他的使用随时间增加。在另一示例中,在训练期间,语言模型生成器140可以确定后端语义服务是否响应于给定话语。后端语义服务可以为家庭自动化系统中的功能、搜索服务、应用或者可以接收语音命令的任何其他服务。例如,如果电视相关后端语义服务响应于给定话语,则话语可以被标识为对应于媒体主题相关语言模型。如果媒体主题相关语言模型与客厅相关联,则这将表明话语很可能是在客厅中做出的。语言模型生成器140可以在任何合适的存储结构中持久存储这些权重,存储结构例如为数据库或文件系统。
如图所示,样本厨房语言模型332a包括75%的食物语言模型166的权重和25%的核心语言模型160的权重;样本客厅语言模型332b包括50%的媒体语言模型164的权重、25%的网络浏览模型162的权重和25%的核心语言模型160的权重;并且样本办公室语言模型332c包括50%的网络浏览语言模型162的权重和50%的核心语言模型160的权重。
在第二步骤中,语言模型生成器140使用所选择的区域特定语言模型生成位置相关复合语言模型,区域特定语言模型在来自位置确定组件130的位置估计中被标识。具体而言,复合语言模型330可以与在第一个步骤中被生成的一个或多个区域特定语言模型332相联系。复合语言模型330和区域特定语言模型332之间的联系可以被加权。在一些示例中,来自一个复合语言模型的联系的权重的总和可以为1或者被归一化为1。
虽然示出了复合语言模型330、区域特定语言模型332、主题特定语言模型334和联系的特定数目和配置,但是其他数目和配置也是可行的。例如,可以存在足够的复合语言模型330,使得区域特定语言模型332的每个经加权的组合具有与联系的复合语言模型330。在一些示例中,复合语言模型可以与更多或更少区域特定语言模型332相联系。在一些示例中,可以存在复合语言模型330和区域特定语言模型332之间不同的联系权重,例如正整数、概率或维距离(例如四维空间中的W,X,Y,Z值)。
在一些实现方式中,复合语言模型330可以根据需要被创建,例如当接收到与之前存储的语言模型不对应的位置估计时。复合语言模型330可以通过存储在可以由语言模型生成器140可访问的存储器结构中持续存在。在一些实现方式中,多个可能的复合语言模型330可以被预生成。例如,这可用于在预处理时间可用时,和/或当预期有很少的区域特定语言模型332时被使用。
语言模型生成器140可以使用任何合适的技术合并语言模型。例如,假定每个语言模型包括词语和每个词语的相关联的计数(例如频率)。语言模型生成器140可以使用计数合并策略,例如最大后验(MAP)自适应。这样的计数合并策略可以生成词语的概率p(w|h),如下面的公式(1)中示出:
p ( w | h ) = xc 1 ( hw ) + ( 1 + x ) c 2 ( hw ) xc 1 ( w ) + ( 1 - x ) c 2 ( w ) - - - ( 1 )
在公式(1)中,hw是在具有上下文h的词语w中的N元文法结尾,c1(hw)和c2(hw)分别为在第一和第二语言模型中hw的计数,并且x是控制每个语言模型语料库向组合的语言模型的贡献的常量。
备选地,语言模型生成器140可以使用语言模型联合策略生成复合语言模型。这可以生成词语的概率,下面的公式(2)中示出了p(w):p(w)=max(xp1(w),(1-x)p2(w))  (2)
在公式(2)中,p1(w)和p2(w)分别为在第一个和第二语言模型中w的概率,x是控制每个语言模型语料库向组合的语言模型的贡献的常量。
图4示出了用于使用基于位置标记的语音识别模型来执行语音识别的示例过程400。简而言之,过程400包括接收对应于话语的数据(404),获得其中话语被说出的建筑物内的区域的位置标记(406),基于位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于位置标记的权重相关联(408),使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重来生成复合模型(410),以及使用复合模型生成话语的转录(412)。
更详细地,过程400从步骤404开始,此时ASR引擎116从客户端设备160或语音检测设备160、162接收对应于话语的数据,。例如,语音信号可以为相对高质量音频(例如16kHz无损音频)的片段。
如上所述,在步骤406中,然后ASR引擎116获得其中话语被说出的建筑物内的区域的位置标记。例如,位置标记可以为无线电应答器或语音检测设备的标识符,并且还可以包括信号强度(例如RSSI和/或声压级)。在一些实现方式中,位置标记可以为基于在客户端设备处接收的短程无线电传输的位置数据。备选地,位置标记可以根据话语生成。具体而言,ASR引擎116可以使用位置无关语言模型生成话语的一个或多个候选转录。然后,所ASR引擎116可以基于将一个或多个候选转录与一个或多个位置相关语言模型中的短语进行比较,标识建筑物内的一个或多个候选区域。在这种实现方式中,ASR引擎116从在建筑物处的处理系统接收对应于话语的数据。在又一实现方式中,位置标记可以为从处理系统获得的位置数据。在这种实现方式中,处理系统可以使用被布置在建筑物中的麦克风阵列(例如语音检测设备)来定位话语,该麦克风阵列可操作地耦合到处理系统。
接下来,在步骤408中,ASR引擎116基于位置标记选择用于语音的一个或多个语音模型(例如声学模型和/或语言模型)。每个所选择的语音模型可以与基于位置标记的权重相关联。例如,如果ASR引擎116接收到与分别为33%和67%的厨房区域和客厅区域对应标识符,则所选择的用于厨房和客厅的语音模型会相应地将被选择和加权。
然后,在步骤410中,ASR引擎116使用所选择的一个或多个语音模型和相应权重生成复合语音模型。如上文所详细描述,ASR引擎166可以组合语言模型(例如声学模型和/或语音模型)。最后,在步骤412中,ASR引擎116使用复合语音模型生成话语的转录。
对于其中收集关于用户的信息的此处所讨论的系统的情形,可以向用户提供选择打开/关闭可以收集用户信息(例如关于用户的偏好或者用户的目前位置)的程序或功能的机会。此外,特定数据可以在其被存储或使用之前以一种或多种方式匿名化,使得个人可标识的信息被移除。例如,用户的身份可以匿名化。
可以在数字电子电路装置中或者在有形地体现的计算机软件、固件或者在计算机硬件(包括在本说明书中公开的结构及其结构等效物)中或者在它们中的一项或者多项的组合中实施在本说明书中描述的主题、功能操作和过程的实现方式。可以将在本说明书中描述的主题的实施例实施为一个或者多个计算机程序、即编码在有形非易失程序载体上的用于由数据处理装置执行或者控制数据处理装置的操作的一个或者多个计算机程序指令模块。备选地或者附加地,可以在人为生成的传播的信号(例如,机器生成的电、光或者电磁信号)上对程序指令编码,该信号被生成用于对信息编码以用于向适当接收器设备发送以供数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储衬底、随机或者串行存取存储器设备或者它们中的一项或者多项的组合。
术语“数据处理装置”涵盖各种用于处理数据的装置、设备和机器,举例而言包括可编程处理器、计算机、多个处理器或计算机。该设备可以包括专用逻辑电路装置,例如,FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。该装置除了硬件之外也可以包括为讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统的代码或者它们中的一项或者多项的组合。
计算机程序(也被称为或描述为程序、软件、软件应用、模块、软件模块、脚本或者代码)可以用任何形式的编程语言编写,包括编译或者解译语言、或说明或者过程语言,并且计算机程序可以用任何形式部署,包括部署为独立程序或者部署为适合于在计算环境中使用的模块、组件、子例程或者其他单元。计算机程序可以、但是无需对应于文件系统中的文件。程序可以被存储于保持其他程序或者数据的文件(例如,存储于标记语言文档中的一个或者多个脚本)的一部分中、专用于讨论的程序的单个文件中,或者多个协同文件(例如,存储一个或者多个模块、子程序或者代码部分的文件)中。计算机程序可以被部署用于在一个计算机上或者在位于一个地点或者跨多个地点分布并且由通信网络互连的多个计算机上执行。
在本说明书中描述的过程和逻辑流程可以由一个或者多个可编程处理器执行,该一个或者多个可编程计算机执行一个或者多个计算机程序以通过对输入数据操作并且生成输出来执行功能。该过程和逻辑流也可以由专用逻辑电路装置(例如,FPGA(现场可编程门阵列)或者ASIC(专用集成电路)执行并且也可以将设备实施为专用逻辑电路装置。
举例而言,适合于执行计算机程序的计算机可以基于通用微处理器或者专用微处理器,或者其两者,或者任何其他种类的中央处理器。一般而言,中央处理器将从只读存储器或者随机存取存储器或者二者接收指令和数据。计算机的必要元件是用于执行指令的中央处理器单元以及用于存储指令和数据的一个或者多个存储器设备。一般而言,计算机还将包括用于存储数据的一个或者多个海量存储装置(例如,磁盘、磁光盘或者光盘)或者被操作地耦合用于从该一个或者多个海量存储设备接收数据或者向该一个或者多个海量存储设备发送数据或者接收和发送二者。然而,计算机无需具有这样的设备。另外,计算机可以被嵌入于另一设备中,聊举数例,例如,移动电话、个人数字助理(PDA)、移动音频或者视频播放器、游戏控制台、全球定位系统(GPS)接收器或者便携存储设备(例如,通用串行总线(USB)闪存驱动)。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,举例而言包括半导体存储器设备,例如,EPROM、EEPROM和闪速存储器设备;磁盘,例如,内部硬盘或者可去除盘;磁光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路装置补充或者并入于专用逻辑电路装置中。
为了提供与用户的交互,可以在计算机上实施在本说明书中描述的主题的实施例,该计算机具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器)以及用户可以用来向计算机提供输入的键盘和指向设备,例如,鼠标或者轨迹球。其他种类的设备也可以用来提供与用户的交互;例如,向用户提供的反馈可以是任何形式的感官反馈,例如,视觉反馈、听觉反馈或者触觉反馈;并且可以用包括声音、语音或者触觉输入的任何形式接收来自用户的输入。此外,计算机可以通过向用户使用的设备发送文档和从该设备接收文档(例如,通过响应于从用户的客户端设备上的web浏览器接收的请求向web浏览器发送网页)来与用户交互。
在本说明书中描述的主题的实施例可以在计算系统中实施,该计算系统包括例如作为数据服务器的后端组件或者包括中间件组件(例如,应用服务器)或者包括前端组件(例如,具有图形用户接口或者Web浏览器(用户可以通过该图形用户接口或者Web浏览器与在本说明书中描述的主题的实现方式交互——)的客户端计算机)或者一个或者多个这样的后端、中间件或者前端部件的任何组合。系统的组件可以通过任何数字数据通信形式或者介质(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”),例如,因特网。
计算系统可以包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助在相应计算机上运行并且相互具有客户端-服务器关系的计算机程序而产生。
尽管本说明书包含许多具体实现方式细节,但是不应将这些解释为限制可以要求保护的内容的范围,而是解释为对具体实现方式特有的特征的解释。在本说明书中在分开的实施例的背景中描述的某些特征也可以在单个实施例中被组合实施。相反地,在单个实施例的背景中描述的各种特征也可以在多个实施例中分开地或者在任何适当子组合中被实施。另外,虽然上文可以将特征描述为在某些组合中动作并且甚至起初这样要求保护,但是来自要求保护的组合的一个或者多个特征可以在一些情况下从该组合中被删除,并且要求保护的组合可以涉及子组合或者子组合的变型。
类似地,尽管在附图中以特定顺序描绘操作,但是这不应被理解为要求以所示特定顺序或者以依次顺序执行这样的操作或者执行所有所示操作以实现希望的结果。在某些境况中,多任务和并行处理可以是有利的。另外,在上文描述的实施例中的各种系统部件的分离不应被理解为在所有实施例中要求这样的分离,并且应当理解描述的程序组件和系统一般可以一起集成于单个软件产品中或者被封装到多个软件产品中。
家庭自动化系统是将房中的电子设备互相集成的软件、固件和/或硬件系统。家庭自动化可以包括照明、HVAC(加热,通风和空调)、电器和其他系统的集中控制。家庭自动化系统还可以控制家中的活动,例如家庭娱乐系统、室内植物和院内浇水、宠物喂食和/或家中机器人。家中的设备可以通过计算机网络连接以允许处理系统的控制,并可以允许来自因特网的远程访问。
描述了主题的具体实施例。其他实现方式在所附权利要求的范围内。例如,在权利要求中记载的动作可以按不同顺序被执行而仍然实现希望的结果。作为一个示例,在附图中描绘的过程未必需要所示特定顺序或者依次顺序以实现希望的结果。在某些实现方式中,多任务和并行处理可以是有利的。可以提供或者除去上述过程中的其他步骤。因此,其他实现方式也在所附权利要求的范围之内。

Claims (30)

1.一种计算机实现的方法,包括:
接收对应于话语的数据;
获得用于其中所述话语被说出的建筑物内的区域的位置标记;
基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联;
使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重来生成复合模型;
使用所述复合模型生成所述话语的转录。
2.根据权利要求1所述的方法,
其中接收对应于所述话语的数据包括:从客户端设备接收对应于所述话语的数据,
其中获得用于其中所述话语被说出的建筑物内的区域的位置标记包括:从所述客户端设备接收用于其中所述话语被说出的所述建筑物内的所述区域的位置标记。
3.根据权利要求2所述的方法,其中所述位置标记包括:基于在所述客户端设备处接收的短程无线电传输的位置数据。
4.根据权利要求1所述的方法,其中获得所述位置标记包括:
使用位置无关语言模型生成所述话语的一个或多个候选转录;
基于将所述一个或多个候选转录与一个或多个位置相关语言模型中的短语进行比较,标识所述建筑物内的一个或多个候选区域。
5.根据权利要求1所述的方法,
其中接收对应于所述话语的数据包括:从在所述建筑物处的处理系统接收对应于所述话语的数据,并且
其中获得用于其中所述话语被说出的建筑物内的区域的位置标记包括:从在所述建筑物处的所述处理系统接收用于其中所述话语被说出的所述建筑物内的所述区域的位置标记。
6.根据权利要求5所述的方法,其中所述位置标记包括从所述处理系统获得的位置数据,其中所述处理系统使用被布置在所述建筑物中的麦克风阵列定位所述话语,并且其中所述麦克风阵列可操作地耦合到所述处理系统。
7.根据权利要求1所述的方法,
其中基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联包括:基于所述位置标记选择一个或多个语言模型,其中所述一个或多个语言模型中的每个语言模型与基于所述位置标记的权重相关联;
其中使用所选择的一个或多个模型和所选择的一个或多个模型的所述相应权重来生成复合模型包括:使用所选择的一个或多个语言模型和所选择的一个或多个语言模型的所述相应权重来生成复合语言模型;
其中使用所述复合模型生成所述话语的转录包括:使用所述复合语言模型生成所述话语的所述转录。
8.根据权利要求1所述的方法,
其中基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联包括:基于所述位置标记选择一个或多个声学模型,其中所述一个或多个声学模型中的每个声学模型与基于所述位置标记的权重相关联;
其中使用所选择的一个或多个模型和所选择的一个或多个模型的所述相应权重来生成复合模型包括:使用所选择的一个或多个声学模型和所选择的一个或多个声学模型的所述相应权重来生成复合声学模型;并且
其中使用所述复合模型生成所述话语的转录包括:使用所述复合声学模型生成所述话语的所述转录。
9.一种系统,包括:
一个或多个计算机和存储指令的一个或多个存储设备,所述指令在被所述一个或多个计算机执行时,使得所述一个或多个计算机执行操作,所述操作包括:
接收对应于话语的数据;
获得用于其中所述话语被说出的建筑物内的区域的位置标记;
基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联;
使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重来生成复合模型;
使用所述复合模型生成所述话语的转录。
10.根据权利要求9所述的系统,
其中接收对应于所述话语的数据包括:从客户端设备接收对应于所述话语的数据,
其中获得用于其中所述话语被说出的建筑物内的区域的位置标记包括:从所述客户端设备接收用于其中所述话语被说出的所述建筑物内的所述区域的位置标记。
11.根据权利要求10所述的系统,其中所述位置标记包括:基于在所述客户端设备处接收的短程无线电传输的位置数据。
12.根据权利要求9所述的系统,其中获得所述位置标记包括:
使用位置无关语言模型生成所述话语的一个或多个候选转录;
基于将所述一个或多个候选转录与一个或多个位置相关语言模型中的短语进行比较,标识所述建筑物内的一个或多个候选区域。
13.根据权利要求9所述的系统,
其中接收对应于所述话语的数据包括:从在所述建筑物处的处理系统接收对应于所述话语的数据,并且
其中获得用于其中所述话语被说出的建筑物内的区域的位置标记包括:从在所述建筑物处的所述处理系统接收用于其中所述话语被说出的所述建筑物内的所述区域的位置标记。
14.根据权利要求13所述的系统,其中所述位置标记包括从所述处理系统获得的位置数据,其中所述处理系统使用被布置在所述建筑物中的麦克风阵列定位所述话语,并且其中所述麦克风阵列可操作地耦合到所述处理系统。
15.根据权利要求9所述的系统,
其中基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联包括:基于所述位置标记选择一个或多个语言模型,其中所述一个或多个语言模型中的每个语言模型与基于所述位置标记的权重相关联;
其中使用所选择的一个或多个模型和所选择的一个或多个模型的所述相应权重来生成复合模型包括:使用所选择的一个或多个语言模型和所选择的一个或多个语言模型的所述相应权重来生成复合语言模型;
其中使用所述复合模型生成所述话语的转录包括:使用所述复合语言模型生成所述话语的所述转录。
16.根据权利要求9所述的系统,
其中基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联包括:基于所述位置标记选择一个或多个声学模型,其中所述一个或多个声学模型中的每个声学模型与基于所述位置标记的权重相关联;
其中使用所选择的一个或多个模型和所选择的一个或多个模型的所述相应权重来生成复合模型包括:使用所选择的一个或多个声学模型和所选择的一个或多个声学模型的所述相应权重来生成复合声学模型;并且
其中使用所述复合模型生成所述话语的转录包括:使用所述复合声学模型生成所述话语的所述转录。
17.一种存储软件的非瞬态的计算机可读介质,所述软件包括由一个或多个计算机可执行的指令,所述指令在所述执行时,使得所述一个或多个计算机执行操作,所述操作包括:
接收对应于话语的数据;
获得用于其中所述话语被说出的建筑物内的区域的位置标记;
基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联;
使用所选择的一个或多个模型和所选择的一个或多个模型的相应权重来生成复合模型;
使用所述复合模型生成所述话语的转录。
18.根据权利要求17所述的计算机可读介质,
其中接收对应于所述话语的数据包括:从客户端设备接收对应于所述话语的数据,
其中获得用于其中所述话语被说出的建筑物内的区域的位置标记包括:从所述客户端设备接收用于其中所述话语被说出的所述建筑物内的所述区域的位置标记。
19.根据权利要求18所述的计算机可读介质,其中所述位置标记包括:基于在所述客户端设备处接收的短程无线电传输的位置数据。
20.根据权利要求17所述的计算机可读介质,其中获得所述位置标记包括:
使用位置无关语言模型生成所述话语的一个或多个候选转录;
基于将所述一个或多个候选转录与一个或多个位置相关语言模型中的短语进行比较,标识所述建筑物内的一个或多个候选区域。
21.根据权利要求17所述的计算机可读介质,
其中接收对应于所述话语的数据包括:从在所述建筑物处的处理系统接收对应于所述话语的数据,并且
其中获得用于其中所述话语被说出的建筑物内的区域的位置标记包括:从在所述建筑物处的所述处理系统接收用于其中所述话语被说出的所述建筑物内的所述区域的位置标记。
22.根据权利要求21所述的计算机可读介质,其中所述位置标记包括从所述处理系统获得的位置数据,其中所述处理系统使用被布置在所述建筑物中的麦克风阵列定位所述话语,并且其中所述麦克风阵列可操作地耦合到所述处理系统。
23.根据权利要求17所述的计算机可读介质,
其中基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联包括:基于所述位置标记选择一个或多个语言模型,其中所述一个或多个语言模型中的每个语言模型与基于所述位置标记的权重相关联;
其中使用所选择的一个或多个模型和所选择的一个或多个模型的所述相应权重来生成复合模型包括:使用所选择的一个或多个语言模型和所选择的一个或多个语言模型的所述相应权重来生成复合语言模型;
其中使用所述复合模型生成所述话语的转录包括:使用所述复合语言模型生成所述话语的所述转录。
24.根据权利要求17所述的计算机可读介质,
其中基于所述位置标记选择用于语音识别的一个或多个模型,其中每个所选择的一个或多个模型与基于所述位置标记的权重相关联包括:基于所述位置标记选择一个或多个声学模型,其中所述一个或多个声学模型中的每个声学模型与基于所述位置标记的权重相关联;
其中使用所选择的一个或多个模型和所选择的一个或多个模型的所述相应权重来生成复合模型包括:使用所选择的一个或多个声学模型和所选择的一个或多个声学模型的所述相应权重来生成复合声学模型;并且
其中使用所述复合模型生成所述话语的转录包括:使用所述复合声学模型生成所述话语的所述转录。
25.一种客户端设备,包括:
一个或多个处理器和存储指令的一个或多个存储设备,所述指令当由所述一个或多个处理器执行时、可操作用于使得所述一个或多个处理器执行操作,所述操作包括:
在客户端设备处接收话语;
在所述客户端设备处获得用于其中所述话语被说出的建筑物内的区域的位置标记;
从所述客户端设备向服务器传送对应于所述话语的数据和用于其中所述话语被说出的所述建筑物内的所述区域的所述位置标记;以及
在所述客户端设备处接收所述话语的转录,其中使用复合模型生成所述话语的所述转录,并且其中使用一个或多个模型和基于所述位置标记而被选择的所述一个或多个模型的相应权重来生成所述复合模型。
26.根据权利要求25所述的客户端设备,其中所述位置标记包括基于在所述客户端设备处接收的短程无线电传输的位置数据。
27.根据权利要求25所述的客户端设备,
其中在所述客户端设备处接收所述话语包括:从在所述建筑物处的处理系统接收对应于所述话语的数据,
其中在所述客户端设备处获得用于其中所述话语被说出的建筑物内的区域的位置标记包括:从在所述建筑物处的所述处理系统接收用于其中所述话语被说出的所述建筑物内的所述区域的位置标记。
28.根据权利要求27所述的客户端设备,其中所述位置标记包括从所述处理系统获得的位置数据,其中所述处理系统使用被布置在所述建筑物中的麦克风阵列定位所述话语,并且其中所述麦克风阵列可操作地耦合到所述处理系统。
29.根据权利要求25所述的客户端设备,其中所述复合模型包括复合声学模型,并且其中所述一个或多个模型和所述一个或多个模型的相应权重包括一个或多个声学模型和所述一个或多个声学模型的相应权重。
30.根据权利要求25所述的客户端设备,其中所述复合模型包括复合语言模型,并且其中所述一个或多个模型和所述一个或多个模型的相应权重包括一个或多个语言模型和所述一个或多个语言模型的相应权重。
CN201380040775.5A 2012-08-01 2013-07-23 基于位置标记的语音识别模型 Active CN104509079B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261678277P 2012-08-01 2012-08-01
US61/678,277 2012-08-01
US13/651,566 US8831957B2 (en) 2012-08-01 2012-10-15 Speech recognition models based on location indicia
US13/651,566 2012-10-15
PCT/US2013/051626 WO2014022148A1 (en) 2012-08-01 2013-07-23 Speech recognition models based on location indicia

Publications (2)

Publication Number Publication Date
CN104509079A true CN104509079A (zh) 2015-04-08
CN104509079B CN104509079B (zh) 2017-06-09

Family

ID=50026324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380040775.5A Active CN104509079B (zh) 2012-08-01 2013-07-23 基于位置标记的语音识别模型

Country Status (4)

Country Link
US (1) US8831957B2 (zh)
EP (1) EP2880844B1 (zh)
CN (1) CN104509079B (zh)
WO (1) WO2014022148A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105679318A (zh) * 2015-12-23 2016-06-15 珠海格力电器股份有限公司 一种基于语音识别的显示方法、装置、显示系统和空调
CN105957519A (zh) * 2016-06-30 2016-09-21 广东美的制冷设备有限公司 多区域同时进行语音控制的方法和系统、服务器及麦克风
CN106205622A (zh) * 2016-06-29 2016-12-07 联想(北京)有限公司 信息处理方法及电子设备
CN106205608A (zh) * 2015-05-29 2016-12-07 微软技术许可有限责任公司 利用知识图的用于语音识别的语言建模
CN107209842A (zh) * 2015-06-29 2017-09-26 谷歌公司 隐私保护训练语料库选择
CN107408384A (zh) * 2015-11-25 2017-11-28 百度(美国)有限责任公司 部署的端对端语音识别
CN107683504A (zh) * 2015-06-10 2018-02-09 纽昂斯通讯公司 用于增强型语音目的地输入的运动自适应语音识别
CN107895574A (zh) * 2016-10-03 2018-04-10 谷歌公司 基于装置拓扑结构来处理语音命令
CN108205585A (zh) * 2016-12-19 2018-06-26 霍尼韦尔国际公司 设施组件的语音控制
CN109200578A (zh) * 2017-06-30 2019-01-15 电子技术公司 用于视频游戏的交互式语音控制的伴随应用
CN109992669A (zh) * 2019-04-08 2019-07-09 浙江大学 一种基于语言模型和强化学习的关键词问答方法
CN110085228A (zh) * 2019-04-28 2019-08-02 广西盖德科技有限公司 语音码应用方法、应用客户端及系统
CN110797014A (zh) * 2018-07-17 2020-02-14 中兴通讯股份有限公司 一种语音识别方法、装置及计算机存储介质

Families Citing this family (270)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9576573B2 (en) * 2011-08-29 2017-02-21 Microsoft Technology Licensing, Llc Using multiple modality input to feedback context for natural language understanding
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9502029B1 (en) * 2012-06-25 2016-11-22 Amazon Technologies, Inc. Context-aware speech processing
US9922646B1 (en) * 2012-09-21 2018-03-20 Amazon Technologies, Inc. Identifying a location of a voice-input device
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
EP2932650B1 (en) * 2012-12-13 2021-01-27 Samsung Electronics Co., Ltd. Apparatus for controlling devices in home network system
US9495955B1 (en) * 2013-01-02 2016-11-15 Amazon Technologies, Inc. Acoustic model training
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10593326B2 (en) * 2013-04-25 2020-03-17 Sensory, Incorporated System, method, and apparatus for location-based context driven speech recognition
US9472205B2 (en) * 2013-05-06 2016-10-18 Honeywell International Inc. Device voice recognition systems and methods
WO2014190496A1 (en) * 2013-05-28 2014-12-04 Thomson Licensing Method and system for identifying location associated with voice command to control home appliance
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10846699B2 (en) 2013-06-17 2020-11-24 Visa International Service Association Biometrics transaction processing
US9754258B2 (en) 2013-06-17 2017-09-05 Visa International Service Association Speech transaction processing
JP6077957B2 (ja) * 2013-07-08 2017-02-08 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理プログラム
KR20150031896A (ko) * 2013-09-17 2015-03-25 한국전자통신연구원 음성인식장치 및 그 동작방법
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP6318621B2 (ja) * 2014-01-06 2018-05-09 株式会社デンソー 音声処理装置、音声処理システム、音声処理方法、音声処理プログラム
US9437189B2 (en) * 2014-05-29 2016-09-06 Google Inc. Generating language models
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9904851B2 (en) 2014-06-11 2018-02-27 At&T Intellectual Property I, L.P. Exploiting visual information for enhancing audio signals via source separation and beamforming
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
US9728190B2 (en) * 2014-07-25 2017-08-08 International Business Machines Corporation Summarization of audio data
US9769552B2 (en) 2014-08-19 2017-09-19 Apple Inc. Method and apparatus for estimating talker distance
WO2016033364A1 (en) * 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US11275757B2 (en) 2015-02-13 2022-03-15 Cerner Innovation, Inc. Systems and methods for capturing data, creating billable information and outputting billable information
US10270609B2 (en) 2015-02-24 2019-04-23 BrainofT Inc. Automatically learning and controlling connected devices
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9672814B2 (en) * 2015-05-08 2017-06-06 International Business Machines Corporation Semi-supervised learning of word embeddings
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10274911B2 (en) * 2015-06-25 2019-04-30 Intel Corporation Conversational interface for matching text of spoken input based on context model
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9536527B1 (en) * 2015-06-30 2017-01-03 Amazon Technologies, Inc. Reporting operational metrics in speech-based systems
KR101642918B1 (ko) * 2015-08-03 2016-07-27 서치콘주식회사 코드네임 프로토콜을 이용한 네트워크 접속 제어 방법, 이를 수행하는 네트워크 접속 제어 서버 및 이를 저장하는 기록매체
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
CN105260160A (zh) * 2015-09-25 2016-01-20 百度在线网络技术(北京)有限公司 一种用于输出语音信息的方法和装置
US10018977B2 (en) 2015-10-05 2018-07-10 Savant Systems, Llc History-based key phrase suggestions for voice control of a home automation system
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10388280B2 (en) * 2016-01-27 2019-08-20 Motorola Mobility Llc Method and apparatus for managing multiple voice operation trigger phrases
WO2017138934A1 (en) * 2016-02-10 2017-08-17 Nuance Communications, Inc. Techniques for spatially selective wake-up word recognition and related systems and methods
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9826306B2 (en) 2016-02-22 2017-11-21 Sonos, Inc. Default playback device designation
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10097939B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Compensation for speaker nonlinearities
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10605470B1 (en) 2016-03-08 2020-03-31 BrainofT Inc. Controlling connected devices using an optimization function
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
DK179588B1 (en) * 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
ES2806204T3 (es) * 2016-06-15 2021-02-16 Cerence Operating Co Técnicas para reconomiento de voz para activación y sistemas y métodos relacionados
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US11188289B2 (en) * 2016-07-29 2021-11-30 Hewlett-Packard Development Company, L.P. Identification of preferred communication devices according to a preference rule dependent on a trigger phrase spoken within a selected time from other command data
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10484382B2 (en) 2016-08-31 2019-11-19 Oracle International Corporation Data management for a multi-tenant identity cloud service
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10594684B2 (en) 2016-09-14 2020-03-17 Oracle International Corporation Generating derived credentials for a multi-tenant identity cloud service
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN111971742A (zh) 2016-11-10 2020-11-20 赛轮思软件技术(北京)有限公司 与语言无关的唤醒词检测的技术
US10931758B2 (en) * 2016-11-17 2021-02-23 BrainofT Inc. Utilizing context information of environment component regions for event/activity prediction
US10157613B2 (en) * 2016-11-17 2018-12-18 BrainofT Inc. Controlling connected devices using a relationship graph
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
WO2018140420A1 (en) 2017-01-24 2018-08-02 Honeywell International, Inc. Voice control of an integrated room automation system
US10739733B1 (en) 2017-02-01 2020-08-11 BrainofT Inc. Interactive environmental controller
US11276395B1 (en) * 2017-03-10 2022-03-15 Amazon Technologies, Inc. Voice-based parameter assignment for voice-capturing devices
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10984329B2 (en) 2017-06-14 2021-04-20 Ademco Inc. Voice activated virtual assistant with a fused response
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US11308132B2 (en) 2017-09-27 2022-04-19 Oracle International Corporation Reference attributes for related stored objects in a multi-tenant cloud service
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
EP3493200B1 (en) * 2017-11-30 2023-07-26 Vestel Elektronik Sanayi ve Ticaret A.S. Voice-controllable device and method of voice control
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10783882B2 (en) * 2018-01-03 2020-09-22 International Business Machines Corporation Acoustic change detection for robust automatic speech recognition based on a variance between distance dependent GMM models
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10715564B2 (en) 2018-01-29 2020-07-14 Oracle International Corporation Dynamic client registration for an identity cloud service
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
KR102635811B1 (ko) * 2018-03-19 2024-02-13 삼성전자 주식회사 사운드 데이터를 처리하는 시스템 및 시스템의 제어 방법
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11074249B2 (en) 2018-04-10 2021-07-27 Intel Corporation Dynamic adaptation of language understanding systems to acoustic environments
US20190332848A1 (en) 2018-04-27 2019-10-31 Honeywell International Inc. Facial enrollment and recognition system
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11011162B2 (en) 2018-06-01 2021-05-18 Soundhound, Inc. Custom acoustic models
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US20190390866A1 (en) 2018-06-22 2019-12-26 Honeywell International Inc. Building management system with natural language interface
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US11120367B2 (en) * 2018-07-30 2021-09-14 International Business Machines Corporation Validating training data of classifiers
US11062703B2 (en) * 2018-08-21 2021-07-13 Intel Corporation Automatic speech recognition with filler model processing
WO2020041945A1 (en) 2018-08-27 2020-03-05 Beijing Didi Infinity Technology And Development Co., Ltd. Artificial intelligent systems and methods for displaying destination on mobile device
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US10650819B2 (en) * 2018-10-15 2020-05-12 Midea Group Co., Ltd. System and method for providing portable natural language processing interface across multiple appliances
US10978046B2 (en) * 2018-10-15 2021-04-13 Midea Group Co., Ltd. System and method for customizing portable natural language processing interface for appliances
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US20200135191A1 (en) * 2018-10-30 2020-04-30 Bby Solutions, Inc. Digital Voice Butler
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11100925B2 (en) * 2018-12-06 2021-08-24 Comcast Cable Communications, Llc Voice command trigger words
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
KR20200076441A (ko) * 2018-12-19 2020-06-29 삼성전자주식회사 전자 장치 및 그의 제어 방법
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11062704B1 (en) 2018-12-21 2021-07-13 Cerner Innovation, Inc. Processing multi-party conversations
US11798560B1 (en) 2018-12-21 2023-10-24 Cerner Innovation, Inc. Rapid event and trauma documentation using voice capture
US11869509B1 (en) 2018-12-21 2024-01-09 Cerner Innovation, Inc. Document generation from conversational sources
US11875883B1 (en) 2018-12-21 2024-01-16 Cerner Innovation, Inc. De-duplication and contextually-intelligent recommendations based on natural language understanding of conversational sources
US11410650B1 (en) 2018-12-26 2022-08-09 Cerner Innovation, Inc. Semantically augmented clinical speech processing
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN111508483B (zh) * 2019-01-31 2023-04-18 北京小米智能科技有限公司 设备控制方法及装置
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11423111B2 (en) 2019-02-25 2022-08-23 Oracle International Corporation Client API for rest based endpoints for a multi-tenant identify cloud service
US11792226B2 (en) 2019-02-25 2023-10-17 Oracle International Corporation Automatic api document generation from scim metadata
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US20220335937A1 (en) * 2019-07-30 2022-10-20 Dolby Laboratories Licensing Corporation Acoustic zoning with distributed microphones
US11659332B2 (en) 2019-07-30 2023-05-23 Dolby Laboratories Licensing Corporation Estimating user location in a system including smart audio devices
US20230319190A1 (en) * 2019-07-30 2023-10-05 Dolby Laboratories Licensing Corporation Acoustic echo cancellation control for distributed audio devices
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11870770B2 (en) 2019-09-13 2024-01-09 Oracle International Corporation Multi-tenant identity cloud service with on-premise authentication integration
US11687378B2 (en) 2019-09-13 2023-06-27 Oracle International Corporation Multi-tenant identity cloud service with on-premise authentication integration and bridge high availability
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
KR102342343B1 (ko) * 2019-10-10 2021-12-22 한국전자기술연구원 적응형 대화를 위한 장치
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
WO2022198474A1 (en) 2021-03-24 2022-09-29 Sas Institute Inc. Speech-to-analytics framework with support for large n-gram corpora
US11138979B1 (en) 2020-03-18 2021-10-05 Sas Institute Inc. Speech audio pre-processing segmentation
US11145309B1 (en) * 2020-03-18 2021-10-12 Sas Institute Inc. Dynamic model selection in speech-to-text processing
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
DE102021210933A1 (de) 2021-09-30 2023-03-30 Robert Bosch Gesellschaft mit beschränkter Haftung Computerimplementiertes Verfahren und Recheneinheit zum Steuern eines Gerätes durch Spracheingabe

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1691344A1 (en) * 2003-11-12 2006-08-16 HONDA MOTOR CO., Ltd. Speech recognition device
US20120016670A1 (en) * 2010-07-13 2012-01-19 Qualcomm Incorporated Methods and apparatuses for identifying audible samples for use in a speech recognition capability of a mobile device

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5657425A (en) * 1993-11-15 1997-08-12 International Business Machines Corporation Location dependent verbal command execution in a computer based control system
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
US6188976B1 (en) 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US7275029B1 (en) * 1999-11-05 2007-09-25 Microsoft Corporation System and method for joint optimization of language model performance and size
JP2001319045A (ja) * 2000-05-11 2001-11-16 Matsushita Electric Works Ltd 音声マンマシンインタフェースを用いたホームエージェントシステム、及びプログラム記録媒体
US7243069B2 (en) 2000-07-28 2007-07-10 International Business Machines Corporation Speech recognition by automated context creation
US7292678B2 (en) * 2000-08-31 2007-11-06 Lamson Holdings Llc Voice activated, voice responsive product locator system, including product location method utilizing product bar code and aisle-situated, aisle-identifying bar code
WO2002097590A2 (en) * 2001-05-30 2002-12-05 Cameronsound, Inc. Language independent and voice operated information management system
US7533020B2 (en) * 2001-09-28 2009-05-12 Nuance Communications, Inc. Method and apparatus for performing relational speech recognition
JP2003131683A (ja) * 2001-10-22 2003-05-09 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US7224981B2 (en) 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
US7328155B2 (en) * 2002-09-25 2008-02-05 Toyota Infotechnology Center Co., Ltd. Method and system for speech recognition using grammar weighted based upon location information
US6889189B2 (en) * 2003-09-26 2005-05-03 Matsushita Electric Industrial Co., Ltd. Speech recognizer performance in car and home applications utilizing novel multiple microphone configurations
US20060293892A1 (en) * 2005-06-22 2006-12-28 Jan Pathuel Biometric control systems and associated methods of use
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US9583096B2 (en) * 2006-08-15 2017-02-28 Nuance Communications, Inc. Enhancing environment voice macros via a stackable save/restore state of an object within an environment controlled by voice commands for control of vehicle components
US8041568B2 (en) * 2006-10-13 2011-10-18 Google Inc. Business listing search
US7840407B2 (en) * 2006-10-13 2010-11-23 Google Inc. Business listing search
US7890326B2 (en) * 2006-10-13 2011-02-15 Google Inc. Business listing search
US20080154600A1 (en) * 2006-12-21 2008-06-26 Nokia Corporation System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition
US8938392B2 (en) * 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
JP4466666B2 (ja) * 2007-03-14 2010-05-26 日本電気株式会社 議事録作成方法、その装置及びそのプログラム
US8886521B2 (en) * 2007-05-17 2014-11-11 Redstart Systems, Inc. System and method of dictation for a speech recognition command system
US8150699B2 (en) * 2007-05-17 2012-04-03 Redstart Systems, Inc. Systems and methods of a structured grammar for a speech recognition command system
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8219407B1 (en) * 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
WO2009102885A1 (en) * 2008-02-12 2009-08-20 Phone Through, Inc. Systems and methods for enabling interactivity among a plurality of devices
US8965765B2 (en) * 2008-09-19 2015-02-24 Microsoft Corporation Structured models of repetition for speech recognition
US20110066423A1 (en) * 2009-09-17 2011-03-17 Avaya Inc. Speech-Recognition System for Location-Aware Applications
US20100312469A1 (en) * 2009-06-05 2010-12-09 Telenav, Inc. Navigation system with speech processing mechanism and method of operation thereof
US8527278B2 (en) * 2009-06-29 2013-09-03 Abraham Ben David Intelligent home automation
US8255217B2 (en) * 2009-10-16 2012-08-28 At&T Intellectual Property I, Lp Systems and methods for creating and using geo-centric language models
US8892443B2 (en) * 2009-12-15 2014-11-18 At&T Intellectual Property I, L.P. System and method for combining geographic metadata in automatic speech recognition language and acoustic models
EP2339576B1 (en) * 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US8265928B2 (en) * 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US9263034B1 (en) 2010-07-13 2016-02-16 Google Inc. Adapting enhanced acoustic models
US8787949B2 (en) * 2011-01-04 2014-07-22 General Motors Llc Method for controlling a mobile communications device while located in a mobile vehicle
KR101828273B1 (ko) * 2011-01-04 2018-02-14 삼성전자주식회사 결합기반의 음성명령 인식 장치 및 그 방법
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1691344A1 (en) * 2003-11-12 2006-08-16 HONDA MOTOR CO., Ltd. Speech recognition device
US20120016670A1 (en) * 2010-07-13 2012-01-19 Qualcomm Incorporated Methods and apparatuses for identifying audible samples for use in a speech recognition capability of a mobile device

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106205608A (zh) * 2015-05-29 2016-12-07 微软技术许可有限责任公司 利用知识图的用于语音识别的语言建模
CN107683504A (zh) * 2015-06-10 2018-02-09 纽昂斯通讯公司 用于增强型语音目的地输入的运动自适应语音识别
CN107683504B (zh) * 2015-06-10 2021-05-28 赛伦斯运营公司 用于运动自适应语音处理的方法、系统和计算机可读介质
CN111695146B (zh) * 2015-06-29 2023-12-15 谷歌有限责任公司 隐私保护训练语料库选择
CN107209842A (zh) * 2015-06-29 2017-09-26 谷歌公司 隐私保护训练语料库选择
CN111695146A (zh) * 2015-06-29 2020-09-22 谷歌有限责任公司 隐私保护训练语料库选择
CN107408384B (zh) * 2015-11-25 2020-11-27 百度(美国)有限责任公司 部署的端对端语音识别
CN107408384A (zh) * 2015-11-25 2017-11-28 百度(美国)有限责任公司 部署的端对端语音识别
CN105679318A (zh) * 2015-12-23 2016-06-15 珠海格力电器股份有限公司 一种基于语音识别的显示方法、装置、显示系统和空调
US10957305B2 (en) 2016-06-29 2021-03-23 Lenovo (Beijing) Co., Ltd. Method and device for information processing
CN106205622A (zh) * 2016-06-29 2016-12-07 联想(北京)有限公司 信息处理方法及电子设备
CN105957519A (zh) * 2016-06-30 2016-09-21 广东美的制冷设备有限公司 多区域同时进行语音控制的方法和系统、服务器及麦克风
CN105957519B (zh) * 2016-06-30 2019-12-10 广东美的制冷设备有限公司 多区域同时进行语音控制的方法和系统、服务器及麦克风
CN107895574A (zh) * 2016-10-03 2018-04-10 谷歌公司 基于装置拓扑结构来处理语音命令
CN108205585A (zh) * 2016-12-19 2018-06-26 霍尼韦尔国际公司 设施组件的语音控制
US11077361B2 (en) 2017-06-30 2021-08-03 Electronic Arts Inc. Interactive voice-controlled companion application for a video game
CN109200578A (zh) * 2017-06-30 2019-01-15 电子技术公司 用于视频游戏的交互式语音控制的伴随应用
CN109200578B (zh) * 2017-06-30 2021-10-22 电子技术公司 用于视频游戏的交互式语音控制的伴随应用
CN110797014A (zh) * 2018-07-17 2020-02-14 中兴通讯股份有限公司 一种语音识别方法、装置及计算机存储介质
CN109992669A (zh) * 2019-04-08 2019-07-09 浙江大学 一种基于语言模型和强化学习的关键词问答方法
CN110085228A (zh) * 2019-04-28 2019-08-02 广西盖德科技有限公司 语音码应用方法、应用客户端及系统

Also Published As

Publication number Publication date
EP2880844A1 (en) 2015-06-10
WO2014022148A1 (en) 2014-02-06
US8831957B2 (en) 2014-09-09
US20140039888A1 (en) 2014-02-06
CN104509079B (zh) 2017-06-09
EP2880844B1 (en) 2019-12-11

Similar Documents

Publication Publication Date Title
CN104509079A (zh) 基于位置标记的语音识别模型
US11600291B1 (en) Device selection from audio data
EP3622510B1 (en) Intercom-style communication using multiple computing devices
US11138977B1 (en) Determining device groups
Laput et al. Ubicoustics: Plug-and-play acoustic activity recognition
US10475445B1 (en) Methods and devices for selectively ignoring captured audio data
US10672387B2 (en) Systems and methods for recognizing user speech
CN108351872B (zh) 用于响应用户语音的方法和系统
EP2932371B1 (en) Response endpoint selection
CN105960672B (zh) 用于稳健语音识别的变量组件深度神经网络
CN105874732B (zh) 用于识别音频流中的一首音乐的方法和装置
CN111344780A (zh) 基于上下文的设备仲裁
CN107767865A (zh) 语音动作偏置系统
CN105006235A (zh) 基于词比较的语音端点定位
Guo et al. Localising speech, footsteps and other sounds using resource-constrained devices
Song et al. Deep room recognition using inaudible echos
CN103426429B (zh) 语音控制方法和装置
Kim et al. Acoustic Event Detection in Multichannel Audio Using Gated Recurrent Neural Networks with High‐Resolution Spectral Features
Dissanayake et al. Detecting door events using a smartphone via active sound sensing
CN112185425A (zh) 音频信号处理方法、装置、设备及存储介质
WO2020202862A1 (ja) 応答生成装置及び応答生成方法
WO2023107249A1 (en) Acoustic event detection
CN110867191A (zh) 语音处理方法、信息装置与计算机程序产品
CN112823047A (zh) 用于控制网络应用程序的系统和设备
CN113593531B (zh) 语音识别模型训练方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.

CP01 Change in the name or title of a patent holder