CN105741848A - 用于增强话音识别准确度的有地理标记的环境音频 - Google Patents
用于增强话音识别准确度的有地理标记的环境音频 Download PDFInfo
- Publication number
- CN105741848A CN105741848A CN201610320104.XA CN201610320104A CN105741848A CN 105741848 A CN105741848 A CN 105741848A CN 201610320104 A CN201610320104 A CN 201610320104A CN 105741848 A CN105741848 A CN 105741848A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- geotagged audio
- geotagged
- weighting
- mobile equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Abstract
用于增强话音识别准确度的方法、系统和装置、包括在计算机存储介质上编码的计算机程序。在一个方面,一种方法包括:接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号;接收与由特定移动设备记录的话语对应的音频信号;确定与特定移动设备相关联的特定地理位置;使用有地理标记的音频信号的子集来针对特定地理位置生成噪声模型,其中使用已经针对特定地理位置生成的噪声模型来对与话语对应的音频信号执行噪声补偿。
Description
本申请是2012年10月12日进入中国国家阶段的、国际申请日为2011年3月22日的、申请号为201180019038.8的发明专利申请(名称为“用于增强话音识别准确度的有地理标记的环境音频”)的分案申请。
相关申请的交叉引用
本申请要求于2010年4月14日提交的、标题为GEOTAGGEDENVIRONMENTALAUDIOFORENHANCEDSPEECHRECOGNITIONACCURACY的第12/760,147号美国申请的优先权,其公开的内容通过引用并入于此。
技术领域
本说明书涉及话音识别。
背景技术
如在本说明书中所用,“搜索查询”包括当用户请求搜索引擎执行搜索查询时用户向搜索引擎提交的一个或者多个查询检索词,其中“检索词”或者“查询检索词”包括一个或者多个完全或者部分字词、字符或者字符串。搜索查询的“结果”(或者“搜索结果”)包括统一资源定位符(URI)以及其它内容,该URI引用搜索引擎确定响应于搜索查询的资源。搜索结果可以包括其它事物、比如标题、预览图像、用户评分、地图或者方向、对应资源的描述或者已经从对应资源自动或者人工提取的或者以别的方式与对应资源关联的文字摘录。
在其它方式之中,用户可以通过在键盘上键入或者在话音查询的上下文中通过向移动设备的麦克风中口述查询来录入搜索查询的查询检索词。当提交语音查询时,移动设备的麦克风除了用户的口述话语之外还可能记录环境噪声或者声音或者“环境音频”。例如,环境音频可以包括处于用户周围的其他人的背景聊天或者谈话或者自然(例如,狗吠)或者人造物体(例如,办公室、机场或者公路噪声或者建筑活动)生成的噪声。环境音频可能部分地遮蔽用户的语音从而使得自动化话音识别(“ASR”)引擎难以准确识别口述话语。
发明内容
一般而言,可以在用于ASR引擎为地理区域适配、训练、选择或者另外生成噪声模型并且用于将这一噪声模型应用于从位于这一地理区域中或者附近的移动设备接收的“有地理标记的”音频信号(或者“采样”或者“波形”)的方法中体现本说明书中描述的主题内容的一个创新方面。如本说明书所用,“有地理标记的”音频信号指代已经与地理位置元数据或者地理空间元数据关联或者用地理位置元数据或者地理空间元数据“标记”的信号。位置元数据可以包括导航坐标如纬度和经度、海拔信息、方位或者指向信息或者与位置相关联的名称或者地址以及其它内容。
更具体而言,方法包括:接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号;存储有地理标记的音频信号;以及使用有地理标记的音频信号的所选子集来针对特定地理区域生成噪声模型。在接收移动设备在特定地理区域内或者附近记录的话语时,ASR引擎可以使用针对特定地理区域生成的噪声模型来对音频信号执行噪声补偿,并且可以对噪声补偿的音频信号执行话音识别。注意,可以在接收话语之前、期间或者之后生成用于特定地理区域的噪声模型。
一般而言,可以在包括以下动作的方法中体现本说明书中描述的主题内容的另一创新方面:接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号;接收与由特定移动设备记录的话语对应的音频信号;确定与特定移动设备相关联的特定地理位置;使用有地理标记的音频信号的子集来针对特定地理位置生成噪声模型,其中使用已经针对特定地理位置生成的噪声模型来对与话语对应的音频信号执行噪声补偿。
这些方面的其它实施例包括被配置成执行方法的动作的对应系统、装置和计算机程序,所述计算机程序编码在计算机存储设备上。
这些和其它实施例可以各自可选地包括以下特征中的一个或者多个特征。在各种示例中,使用噪声补偿的音频信号来对话语执行话音识别;生成噪声模型还包括在接收与话语对应的音频信号之前生成噪声模型;生成噪声模型还包括在接收与话语对应的音频信号之后生成噪声模型;为每个有地理标记的音频信号,确定在特定地理位置和与有地理标记的音频信号相关联的地理位置之间的距离,以及选择与在特定地理位置的预定距离内的地理位置相关联、或者与在N个与特定地理位置最近的地理位置之中的地理位置相关联的有地理标记的音频信号作为有地理标记的音频信号的子集;选择与特定地理位置相关联的有地理标记的音频信号作为有地理标记的音频信号的子集;基于特定地理位置、并且基于与话语关联的上下文数据选择有地理标记的音频信号的子集;上下文数据包括引用移动设备何时记录话语时的时间或者日期的数据、引用特定移动设备在记录话语时测量的速度或者运动量的数据、引用移动设备的设置的数据、或者引用移动设备的类型的数据;话语代表语音搜索查询,或者向数字口授应用或者对话系统的输入;确定特定地理位置还包括从移动设备接收引用特定地理位置的数据;确定特定地理位置还包括确定与设备相关联的以往地理位置或者默认地理位置;生成噪声模型包括使用有地理标记的音频信号的子集作为训练集来训练高斯混合模型(GMM);生成话语的一个或者多个候选转录,使用一个或者多个候选转录来执行搜索查询;处理接收的有地理标记的音频信号以排除环境音频的、包括多个移动设备的用户的语音的部分;从针对多个地理位置生成的多个噪声模型之中选择针对特定地理位置生成的噪声模型;限定围绕特定地理位置的区域,从多个噪声模型之中选择与区域内的地理位置相关联的多个噪声模型,生成选择的噪声模型的加权组合,其中使用选择的噪声模型的加权组合来执行噪声补偿;生成噪声模型还包括使用有地理标记的音频信号的子集以及使用音频信号的与话语对应的环境音频部分来为特定地理位置生成噪声模型;以及/或者区域被限定为围绕特定地理位置,以及选择在区域内记录的有地理标记的音频信号作为有地理标记的音频信号的子集
可以实现本说明书中描述的主题内容的具体实施例以实现以下优点中的一个或者多个优点。ASR引擎可以提供音频信号的更好噪声抑制。可以提高话音识别准确度。可以使用环境音频信号来生成噪声模型,这些环境音频信号准确反映地理区域中的实际环境噪声。可以在服务器侧而不是在客户端设备上执行话音识别和噪声模型生成,以允许更好的过程优化并且增加计算效率。
在附图和下文描述中阐述本说明书中描述的主题内容的一个或者多个实施例的细节。主题内容的其它潜在特征、方面和优点将从说明书、附图和权利要求中变得容易理解。
附图说明
图1是使用有地理标记的环境音频以增强话音识别准确度的示例系统的图。
图2是过程的示例的流程图。
图3是过程的另一示例的流程图。
图4是过程的示例的泳道(swimlane)图。
各种附图中的相似标号指示相似要素。
具体实施方式
图1是使用有地理标记的环境音频以增强话音识别准确度的示例系统100的图。图1还图示了在状态(a)至状态(i)期间在系统100内的数据流以及在状态(i)期间在移动设备104上显示的用户接口158。
更具体而言,系统100包括通过一个或者多个网络110与包括移动设备102和移动设备104的移动客户端通信设备通信的服务器106和ASR引擎108。服务器106可以是搜索引擎、口授引擎、对话系统或者是使用转录的话音的任何其它引擎或者系统。网络110可以包括无线蜂窝网络、无线局域网(WLAN)或者Wi-Fi网络、第三代(3G)或者第四代(4G)移动电信网络、专用网络(如内联网)、公用网络(如因特网)或者其任何适当组合。
状态(a)至状态(i)描绘了当系统100执行示例过程时出现的数据流。状态(a)至状态(i)可以是时序状态,或者它们可以在与所图示序列不同的序列中出现。
简言之,根据图1中所示示例过程,ASR引擎108从移动设备102接收有地理标记的环境音频信号130并且针对多个地理位置生成地理特有噪声模型112。当接收与移动设备104记录的话语对应的音频信号138时,确定与移动设备104(或者移动设备104的用户)相关联的特定地理位置。ASR引擎108使用与特定地理位置匹配的或者以别的方式适合于特定地理位置的地理特有噪声模型来转录话语,并且从ASR引擎108向服务器106传达一个或者多个候选转录146。当服务器106是搜索引擎时,服务器106使用候选转录146来执行一个或者多个搜索查询、生成搜索结果152并且向移动设备104传达搜索结果152用于显示。
更具体而言,在状态(a)期间,移动设备102通过网络110向ASR引擎108传达包括环境音频的有地理标记的音频信号130(本说明书称之为“环境音频信号”)。一般而言,环境音频可以包括(自然地或者以别的方式)出现于特定位置的任何环境声音。环境音频通常排除移动设备的用户的声音、话语或者语音。
设备102a传达已经用引用“位置A”的元数据132a标记的音频信号130a,设备102b传达已经用引用“位置B”的元数据132b标记的音频信号130b,以及设备102c传达已经用也引用“位置B”的元数据132c标记的音频信号130c。如图所示,移动设备102可以将元数据132与音频信号130进行关联,或者ASR引擎108或者另一服务器可以在推断移动设备102的(或者移动设备102的用户的)位置之后关联元数据与音频信号130。
环境音频信号130可以各自包括相对高质量音频(如十六千赫兹无损音频信号)的两秒(或者更多)摘录。环境音频信号130可以与元数据相关联,该元数据引用相应移动设备102在记录、捕获或者获得环境音频时的地理位置。
可以从移动设备102向ASR引擎108人工上传环境音频信号130。例如,可以与生成并且向公用图像数据库或者贮存库传达图像结合生成并且传达环境音频信号130。备选地,对于选择参与的用户,可以自动获得并且从移动设备102向ASR引擎108传达环境音频信号130而在向ASR引擎108传达每个环境音频信号之前不请求显式用户致动。
元数据132可以用任何数目的不同格式或者细节或者粒度水平描述位置。例如,元数据132a可以包括与移动设备102a的当时存在位置相关联的纬度和经度,并且元数据132c可以包括与移动设备102c的当时存在位置相关联的地址或者地理区域。另外,由于将移动设备102b图示为在移动的交通工具中,所以元数据132b可以描述交通工具的路径(例如,包括起点和终点以及运动数据)。此外,元数据132可以按照位置类型描述位置(例如,“移动交通工具”、“在海滩上”、“在餐馆中”、“在高建筑物中”、“南亚”、“农村区域”、“有建筑噪声的某处”、“游乐园”、“在船艇上”、“室内”、“地下”、“在街道上”、“森林”)。单个音频信号可以与描述一个或者多个位置的元数据相关联。
与音频信号138相关联的地理位置可以代之以按照界定区域来描述、表达为限定界定区域的坐标集。备选的,可以使用区域标识符(比如,州名或者标识符、城市名、惯用名(例如,“中央公园”)、国名或者任意限定的区域的标识符(例如“隔间/区域ABC123”))来限定地理位置。
在将位置与环境音频信号进行关联之前,移动设备102或者ASR引擎108可以处理元数据以调整位置信息的细节水平(例如,以确定与特定坐标集相关联的州),或者可以离散化位置信息(例如通过选择沿着路径的具体点或者与路径相关联的区域)。也可以通过指定或者添加位置型元数据、例如通过向其的关联地理坐标与海滩位置相关联的环境音频信号添加“在海滩上”标记或者通过向包括在背景中交谈的多个人的声音的环境音频信号添加“有许多人的某处”标记来调整元数据的细节水平。
在状态(b)期间,ASR引擎108从移动设备102接收有地理标记的环境音频信号130,并且在数据存储库111中在环境音频信号的汇集114中存储有地理标记的音频信号(或者其部分)。如下文描述的那样,汇集用于训练、适配或者生成一个或者多个地理位置特有(或者“地理特有”)噪声模型112。
由于汇集114中的环境音频信号不应包括用户的语音,所以ASR引擎108可以使用语音活动检测器以验证环境音频信号的汇集114仅包括与环境噪声对应的音频信号130或者滤除或者标识或者排除音频信号130(或者音频信号130的部分),这些音频信号包括移动设备102的各种用户的语音。
ASR引擎108存储的环境音频信号的汇集114可以包括数以百计、数以千计、数以百万计或者数以千万计的环境音频信号。在所图示示例中,有地理标记的环境音频信号130a的部分或者全部可以存储于汇集114中作为环境音频信号124,有地理标记的环境音频信号130b的部分或者全部可以存储于汇集114中作为环境音频信号126a,并且有地理标记的环境音频信号130c的部分或者全部可以存储于汇集114中作为环境音频信号120b。
在汇集中存储环境音频信号130可以包括确定用户的语音是否在音频信号130中被编码,并且分别基于确定用户的语音在音频信号130中被或者未被编码来确定存储或者确定不存储环境音频信号130。备选地,在汇集中存储环境音频信号130可以包括标识环境音频信号130的包括用户的语音的部分、通过去除包括用户的语音的部分或者通过关联对包括用户的语音的部分进行引用的元数据来变更环境音频信号130并且在汇集中存储变更的环境音频信号130。
与环境音频信号130关联的其它上下文数据或者元数据也可以存储于汇集114中。例如,在汇集114中包括的环境音频信号在一些实现中可以包括其它元数据标记、比如指示背景语音(例如,自助餐厅聊天)是否存在于环境音频内的标记、标识获得特定环境音频信号的日期的标记(例如,用来确定采样年龄)或者标识特定环境音频信号是否以某一方式从汇集的在相同或者相似位置获得的其它环境音频信号偏离的标记。以这一方式,可以可选地过滤环境音频信号的汇集114以排除满足或者未满足特定标准的特定环境音频信号、比如排除比某个年龄更老的或者包括背景聊天的特定环境音频信号,该背景聊天可以标识个人或者本质上为专有或者私密的。
在附加示例中,可以在与环境音频信号关联的元数据中标记如下数据,该数据引用汇集114的环境音频信号是否被人工或者自动上传。例如,可以仅使用自动上传的或者人工上传的那些环境音频信号来生成噪声模型112,或者可以在生成噪声模型期间向每个上传类别分配不同加权。
虽然已经描述汇集114的环境音频信号为包括标识相应地理位置的显式标记,但是在其它实现中,比如当可以推导在音频信号与地理位置之间的关联性时,无需显式使用标记。例如,可以通过处理(例如用服务器106存储的)搜索日志来隐式关联地理位置与环境音频信号以确定用于特定环境音频信号的地理位置信息。因而ASR引擎108接收有地理标记的环境音频信号可以包括获得未明确包括地理标记的环境音频信号,并且推导和关联用于环境音频信号的一个或者多个地理标记。
在状态(c)期间,通过网络110从移动设备104向ASR引擎108传达音频信号138。虽然图示了移动设备102为与移动设备104不同的设备,但是在其它实现中,从提供有地理标记的环境音频信号130的移动设备104之一传达音频信号138。
音频信号138包括移动设备104(例如,当用户隐式或者显式发起语音搜索查询时)记录的话语140(“纽约体育馆”)。音频信号138包括引用地理位置“位置B”的元数据139。除了包括话语140之外,音频信号138还可以包括环境音频摘录、比如在口述话语140之前或者之后记录的环境音频的两秒摘录。尽管如在图1中所示将话语140描述为语音查询,但是在其它示例实现中,话语可以是向口授系统或者向对话系统输入的语音。
可以使用与汇集114中包括的环境音频信号相关联的地理位置相同或者不同的细节水平来限定与音频信号138相关联的地理位置(“位置B”)。例如,与汇集114中包括的环境音频信号相关联的地理位置可以对应于地理区域,而与音频信号138相关联的地理位置可以对应于特定地理坐标。当细节水平不同时,ASR引擎108可以处理地理元数据139或者与汇集114的环境音频信号相关联的元数据以对准细节水平,从而可以执行子集选择过程。
移动设备104(或者移动设备104的用户)可以基于当记录话语140时当前的位置信息将元数据139与音频信号138相关联,并且可以从移动设备104将元数据139与音频信号138一起向ASR引擎108传达。备选地,ASR引擎108可以基于ASR引擎108推断的用于移动设备104(或者移动设备104的用户)的地理位置将元数据与音频信号138相关联。
ASR引擎108可以使用用户的日历时间表、用户偏好(例如,如存储于ASR引擎108或者服务器106的用户账户中或者如从移动设备104传达)、默认位置、以往位置(例如,移动设备104的GPS模块计算的最新位置)、用户在提交语音搜索查询时显式提供的信息、根据话语104本身、三角测量(例如,WiFi或者小区塔三角测量)、移动设备104中的GPS模块或者推算定位(deadreckoning)来推断地理位置。元数据139可以包括准确度信息,该信息指定地理位置确定的准确度,从而表示移动设备104在记录话语140时的时间实际上在元数据139指定的特定地理位置的可能性。
还可以与音频信号138一起包括其它元数据。例如,与音频信号一起包括的元数据可以包括与相应移动设备102相关联的位置或者场所。例如,场所信息可以描述其中注册移动设备102的区域或者移动设备102的用户的语言或者方言以及其它可选参数。话音识别模块118可以使用这一信息以选择、训练、适配或者生成与移动设备104的上下文匹配的噪声、话音、声学、流行度或者其它模型。
在状态(d)中,ASR引擎108选择汇集114中的环境音频信号的子集并且使用噪声模型生成模块116以使用环境音频信号的子集、例如通过使用环境音频信号的子集作为用于噪声模型的训练集来训练、适配或者生成一个或者多个噪声模型112(例如高斯混合模型(GMM))。子集可以包括汇集114中的环境音频信号中的所有或者比所有更少的环境音频信号。
一般而言,噪声模型112与话音模型、声学模型、流行度模型和/或其它模型一起应用于音频信号138以将口述话语140转译或者转录成一个或者多个文字后续转录146,并且向候选转录生成话音识别置信度分数。具体地,噪声模型用于噪声抑制或者噪声补偿以增强口述话语140对于ASR引擎108的可理解性。
更具体而言,噪声模型生成模块116可以使用音频信号、具体针对在被地理标记为已经在与音频信号138关联的地理位置(“位置B”)或者附近或者在相同或者相似类型的位置记录的环境音频信号126a和126b的汇集114来为该地理位置生成噪声模型120b。由于音频信号138与这一地理位置(“位置B”)相关联,所以除了环境音频信号126a和126b之外或者替代地,在音频信号138本身中包括的环境音频也可以用来针对该地理位置生成噪声模型。类似地,噪声模型生成模块116可以使用被地理标记为已经在另一地理位置(“位置A”)或者附近在相同或者相似类型的位置记录的环境音频信号124来为该另一地理位置生成噪声模型120a。如果噪声模型生成模块116被配置成选择被地理标记为已经在与音频信号138相关联的地理位置附近记录的环境音频信号,并且如果“位置A”在“位置B”附近,则噪声模型生成模块116还可以使用环境音频信号124来为“位置B”生成噪声模型120b。
除了有地理标记的位置之外,与汇集114的环境音频信号相关联的其它上下文数据还可以用来选择环境音频信号的子集以用于生成噪声模型112或者调整特定音频信号将对生成具有的权值或者影响。例如,ASR引擎108可以选择汇集114中的环境音频信号的子集,该子集的环境音频信号的上下文信息指示它们比预定时间段更长或者更短或者它们满足某个质量或者近因标准。另外,ASR引擎108可以选择汇集114中的如下环境音频信号作为子集,这些环境音频信号的上下文信息指示它们是使用具有与移动设备104相似的音频子系统的移动设备来记录的。
可以用来从汇集114选择环境音频信号的子集的其它上下文数据在一些示例中可以包括时间信息、日期信息、对特定移动设备在记录期间测量的速度或者运动量进行引用的数据、其它设备传感器数据、设备状态数据(例如,蓝牙耳机、扬声器电话或者传统输入方法)、如果用户选择提供用户标识符则包括标识符或者标识移动设备类型或者机型的信息。上下文数据例如可以提供在音频信号138的记录周围的条件的指示。
在一个示例中,移动设备104与音频信号138一起供应的上下文数据可以指示移动设备104沿着与高速公路相关联的路径在高速公路速度行驶。ASR108可以推断音频信号138被记录在交通工具内,并且可以选择汇集114中的环境音频信号的与“在移动交通工具以内”位置类型相关联的子集。在另一示例中,移动设备104与音频信号138一起供应的上下文数据可以指示移动设备104在农村区域中并且话语140记录于周日上午6点。基于这一上下文数据,ASR108可以推断如果子集包括在高峰时段期间在农村区域中记录的环境音频信号,则不会提高话音识别的准确度。因而上下文数据可以由噪声模型生成模块116用来在生成噪声模型112时过滤环境音频信号的汇集114或者由话音识别模块118用来为特定话语选择适当噪声模型112。
在一些实现中,噪声模型生成模块116可以基于与音频信号关联的地理位置邻近于与音频信号138关联的地理位置来选择汇集114的环境音频信号的加权组合。噪声模型生成模块116还可以使用音频信号138本身中包括的环境音频(例如,在口述话语之前或者之后或者在话语之间的停顿期间记录的环境音频)来生成噪声模型112。
例如,噪声模型生成模块116可以首先相对于音频信号138中包括的环境音频的质量确定存储于汇集114中的环境音频信号的质量,并且可以选择仅使用存储于汇集114中的音频信号、仅使用音频信号138中包括的环境音频或者其任何适当加权或者未加权组合来生成噪声模型。例如,噪声模型生成模块116可以确定音频信号138包括非大量环境音频或者在汇集114中为该特定地理位置存储高质量环境音频,并且可以选择生成噪声模型而未使用音频信号138中包括的环境音频(或者向该环境音频给予小权值)。
在一些实现中,噪声模型生成模块116从汇集114选择与N(例如,五、二十或者五十)个地理位置相关联的环境音频信号作为子集,这些地理位置最接近于与音频信号138相关联的地理位置。当与音频信号138相关联的地理位置时描述点或者地点(例如,坐标)时,可以相对于该地理位置限定几何形状(例如,圆形或者方形),并且噪声模型生成模块116可以从汇集114选择与完全或者部分位于限定的地理形状内的地理区域相关联的音频信号作为子集。
如果已经按照位置类型(例如,“在海滩上”、“城市”)限定与音频信号138相关联的地理位置,则ASR引擎108仍然可以选择与相同或者相似位置类型关联的环境音频信号,即使与所选音频信号关联的物理地理位置在物理上未在与音频信号138关联的地理位置附近。例如,可以用“在海滩上”元数据为在佛罗里达海滩上记录的音频信号标记噪声模型,并且噪声模型生成模块116可以从汇集114选择如下环境音频信号作为子集,这些环境音频信号的相关联元数据指示它们也记录于海滩上,尽管事实是它们记录于澳大利亚、夏威夷或者冰岛的海滩上。
如果与音频信号138相关联的地理位置未匹配于与汇集114的任何环境音频信号相关联的任何物理地理位置(或者没有与该任何物理地理位置的高质量匹配),则噪声模型生成模块116可以恢复基于匹配位置类型、而不是匹配实际物理地理位置来选择子集。其它匹配过程如集群(clusting)算法可以用来匹配音频信号与环境音频信号。
除了生成一般的地理特有噪声模型112之外,噪声模型生成模块116还可以生成以其它标准为目标或者其它标准特有的地理特有噪声模型、比如不同设备类型或者一天不同时间特有的地理特有噪声模型。可以基于检测到已经满足阈值标准、比如确定汇集114的阈值数目的环境音频信号引用相同地理位置并且共享另一相同或者相似上下文(例如,一天中的某个时间、一周中的某天、运动特性、设备类型等)来生成作为目标的子模型。
可以在已经接收话语140之前、期间或者之后生成噪声模型112。例如可以与处理话语140并行处理来自与话语相同或者相似的位置的多个环境音频信号,并且这些环境音频信号可以用来实时或者接近实时生成噪声模型112以更好地逼近围绕移动设备104的实况噪声条件。
在状态(e)中,ASR引擎108的话音识别模块118使用用于与音频信号138相关联的地理位置的地理特有噪声模型120b来对音频信号138执行噪声补偿以增强话音识别的准确度,并且随后对噪声补偿的音频信号执行话音识别。当音频信号138包括描述移动设备104的设备类型的元数据时,ASR引擎108可以应用与音频信号关联的地理位置和移动设备104的设备类型二者特有的噪声模型122。话音识别模块118可以生成与在音频信号138中编码的话语匹配的一个或者多个候选转录和用于候选转录的话音识别置信度值。
在状态(f)期间,从ASR引擎108向服务器106传达话音识别模块118生成的候选转录146中的一个或者多个候选转录。当服务器106是搜索引擎时,可以使用候选转录作为候选查询检索词以执行一个或者多个搜索查询。ASR引擎108可以在向服务器106发送候选转录146之前按照它们的相应话音识别置信度分数对它们排序。通过转录口述话语并且向服务器106提供候选转录,ASR引擎108可以向移动设备104提供话音搜索查询能力、口授能力或者对话系统能力。
服务器106可以使用候选查询检索词来执行一个或者多个搜索查询、生成引用搜索结果160的文件152。服务器106在一些示例中可以包括用来在因特网内发现引用的网上搜索引擎、用来发现企业或者个人的电话簿型搜索引擎或者另一专门化搜索引擎(例如,提供对诸如餐馆和电影娱乐信息、医疗和药品信息等娱乐清单的引用的搜索引擎)。
在状态(h)期间,服务器106向移动设备104提供引用搜索结果160的文件152。文件152可以是标记语言文件、比如可扩展标记语言(XML)或者超文本标记语言(HTML)文件。
在状态(i)期间,移动设备104在用户接口158上显示搜索结果160。具体而言,用户接口包括:搜索框157,其显示具有最高话音识别置信度分数的候选查询检索词(“纽约体育馆”);备选查询检索词建议区域159,其显示话语140可能已经预计的候选查询检索词的另一替代(“JimNewark”);搜索结果160a,其包括指向用于“纽约健身房”160a的资源的链接;以及搜索结果160b,其包括指向用于“曼哈顿塑体”160b的链接。搜索结果160a还可以包括在被选择时可以由移动设备104拨号的电话号码的链接。
图2是过程200的示例的流程图。简言之,过程200包括接收一个或者多个有地理标记的环境音频信号、接收与地理位置相关联的话语并且至少部分基于地理位置生成噪声模型。可以对音频信号执行噪声补偿,因为噪声模型促使提高话音识别准确度。
更具体而言,当过程200开始时,接收与环境音频对应的有地理标记的音频信号(202)。移动设备可以在特定地理位置记录有地理标记的音频信号。有地理标记的音频信号可以包括关联上下文数据、诸如在记录有地理标记的音频信号期间测量的时间、日期、速度或者运动量,或者记录有地理标记的音频信号的设备类型。可以处理接收的有地理标记的音频信号以排除环境音频的如下部分,这些部分包括移动设备的用户的语音。可以接收并且存储在一个或者多个地理位置记录的多个有地理标记的音频信号。
接收特定移动设备记录的话语(204)。话语可以包括语音搜索查询或者可以是向口授或者对话应用或者系统的输入。话语可以包括关联上下文数据,诸如在记录有地理标记的音频信号期间测量的时间、日期、速度或者运动量,或者记录有地理标记的音频信号的设备类型。
确定与移动设备相关联的特定地理位置(206)。例如,可以从移动设备接收引用特定地理位置的数据,或者可以确定与移动设备相关联的以往地理位置或者默认地理位置。
使用有地理标记的音频信号的子集来针对特定地理位置生成噪声模型(208)。可以通过为每个有地理标记的音频信号确定在特定地理位置和与有地理标记的音频信号相关联的地理位置之间的距离;以及选择在特定地理位置的预定距离内的或者与在N个与特定地理位置最近的地理位置之中的地理位置相关联的那些有地理标记的音频信号来选择有地理标记的音频信号的子集。
可以通过标识与特定地理位置相关联的有地理标记的音频信号,以及/或者通过标识在声学上与话语相似的有地理标记的音频信号来选择有地理标记的音频信号的子集。可以基于特定地理位置并且基于与话语相关联的上下文数据来选择有地理标记的音频信号的子集。
生成噪声模型可以包括使用有地理标记的音频信号的子集作为训练集来训练GMM。一些噪声减少或者分离算法如非负矩阵因式分解(NMF)可以使用特征矢量本身而不是高斯分量代表的平均值。其它算法如Alqonquin可以在有人为变化时使用GMM或者特征矢量本身。
使用已经针对特定地理位置生成的噪声模型对与话语对应的音频信号执行噪声补偿以增强音频信号或者减少话语由于噪声所致的不确定性(210)。
对噪声补偿的音频信号执行话音识别(212)。执行话音识别可以包括生成话语的一个或者多个候选转录。可以使用一个或者多个候选转录来执行搜索查询,或者可以提供候选转录中的一个或者多个候选转录作为数字口授应用的输出。备选地,可以提供候选转录中的一个或者多个候选转录作为向对话系统的输入以允许计算机系统与特定移动设备的用户对话。
图3是过程300的示例的流程图。简言之,过程300包括采集有地理标记的音频信号并且至少部分基于与每个有地理标记的音频信号相关联的特定地理位置生成多个噪声模型。可以在对话语执行话音识别时至少部分基于与话语相关联的地理位置选择这些噪声模型中的一个或者多个噪声模型。
更具体而言,当过程300开始时,接收与环境音频对应的有地理标记的音频信号(302)。移动设备可以在特定地理位置记录有地理标记的音频信号。可以处理接收的有地理标记的音频信号以排除环境音频的如下部分,这些部分包括移动设备的用户的语音。可以接收并且存储在一个或者多个地理位置记录的多个有地理标记的音频信号。
可选地,接收与有地理标记的音频信号关联的上下文数据(304)。有地理标记的音频信号可以包括关联上下文数据、诸如在记录有地理标记的音频信号期间测量的时间、日期、速度或者运动量或者记录有地理标记的音频信号的设备类型。
生成一个或者多个噪声模型(306)。可以使用有地理标记的音频信号的子集来针对特定地理位置,或者可选地针对位置类型生成每个噪声模型。可以通过为每个有地理标记的音频信号确定在特定地理位置和与有地理标记的音频信号相关联的地理位置之间的距离,并且选择在特定地理位置的预定距离内的、或者与在N个与特定地理位置最近的地理位置之中的地理位置相关联的那些有地理标记的音频信号来选择有地理标记的音频信号的子集。可以通过标识与特定地理位置相关联的有地理标记的音频信号来选择有地理标记的音频信号的子集。可以基于特定地理位置并且基于与有地理标记的音频信号相关联的上下文数据选择有地理标记的音频信号的子集。生成噪声模型可以包括使用有地理标记的音频信号的子集来训练高斯混合模型(GMM)。
接收特定移动设备记录的话语(308)。话语可以包括语音搜索查询。话语可以包括关联上下文数据,诸如在记录有地理标记的音频信号期间测量的时间、日期、速度或者运动量,或者记录有地理标记的音频信号的设备类型。
检测地理位置(310)。例如,可以从移动设备的GPS模块接收引用特定地理位置的数据。
选择噪声模型(312)。可以从针对多个地理位置生成的多个噪声模型之中选择噪声模型。上下文数据可以可选地促成从针对特定地理位置的多个噪声模型之中选择特定的噪声模型。
使用所选噪声模型对话语执行话音识别(314)。执行话音识别可以包括生成话语的一个或者多个候选转录。可以使用一个或者多个候选转录来执行搜索查询。
图4示出了用于使用有地理标记的环境音频来增强话音识别准确度的过程400的示例的泳道图。过程400可以由移动设备402、ASR引擎404和搜索引擎406来实现。移动设备402可以向ASR引擎404提供音频信号、比如环境音频信号或者与话语对应的音频信号。虽然仅图示了一个移动设备402,但是移动设备402可以代表向过程400贡献环境音频信号和语音查询的大量移动设备402。ASR引擎404可以基于环境音频信号生成噪声模型,并且可以在执行话音识别时将一个或者多个噪声模型应用于传入语音搜索查询。ASR引擎404可以向搜索引擎406提供语音搜索查询内的话语的转录以完成语音搜索查询请求。
过程400始于移动设备402向ASR引擎404提供408有地理标记的音频信号。音频信号可以包括环境音频以及关于记录环境音频的位置的指示。可选地,有地理标记的音频信号可以包括例如形式为元数据的上下文数据。ASR引擎404可以在环境音频数据存储库中存储有地理标记的音频信号。
移动设备402向ASR引擎404提供410话语。话语例如可以包括语音搜索查询。话语的记录可以可选地包括例如在记录话语之前或者之后短暂记录的环境音频采样。
移动设备402向ASR引擎404提供412地理位置。移动设备在一些示例中可以提供使用GPS模块来检测的导航坐标、最新(但是未必与记录并行)GPS读数、默认位置、根据先前提供的话语派生的位置或者通过发射塔的推算定位或者三角测量来估计的位置。移动设备402可以可选地向ASR引擎404提供上下文数据、比如传感器数据、设备机型标识或者设备设置。
ASR引擎404生成414噪声模型。可以部分通过训练GMM来生成噪声模型。可以基于移动设备402提供的地理位置生成噪声模型。例如,从在移动设备402的位置或者附近的位置提交的有地理标记的音频信号可以促成噪声模型。可选地,移动设备402提供的上下文数据可以用来过滤有地理标记的音频信号以选择与记录话语的条件最适合的有地理标记的音频信号。例如,可以按照一周中的某天或者一天中的某个时间来过滤在移动设备402提供的地理位置附近的有地理标记的音频信号。如果环境音频采样与移动设备402提供的话语一起包括,则可以可选地在噪声模型中包括环境音频采样。
ASR引擎404对提供的话语执行话音识别416。使用由ASR引擎404生成的噪声模型,可以将移动设备402提供的话语转录成一个或者多个查询检索词集合。
ASR引擎404向搜索引擎406转发418生成的转录。如果ASR引擎404生成多个转录,则可以可选地以置信度为序对转录排序。ASR引擎404可以可选地向搜索引擎406提供上下文数据、比如地理位置,搜索引擎406可以使用该上下文数据对搜索结果过滤或者排序。
搜索引擎406使用转录来执行420搜索操作。搜索引擎406可以对与转录检索词有关的一个或者多个URI定位。
搜索引擎406向移动设备402提供422搜索查询结果。例如,搜索引擎406可以转发如下HTML代码,该代码生成定位的URI的可视清单。
已经描述多个实现。然而,将理解可以进行各种修改而未脱离公开内容的精神实质和范围。例如,可以在重新排序、添加或者去除步骤时使用上文所示流程的各种形式。因而其它实现在所附权利要求的范围内。
可以在数字电子电路中或者在包括本说明书中公开的结构及其结构等效物的计算机软件、固件或者硬件中或者在它们中的一项或者多项的组合中实现本说明书中描述的实施例和所有功能操作。实施例可以被实现为一个或者多个计算机程序产品、即在计算机可读介质上编码的用于由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或者多个模块。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、实现机器可读传播信号的物质组成或者它们中的一项或者多项的组合。术语“数据处理装置”涵盖了用于处理数据的所有装置、设备和机器、例如包括一个可编程处理器、一个计算机或者多个处理器或者计算机。装置除了包括硬件之外还可以包括为讨论的计算机程序创建执行环境的代码、例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一项或者多项的组合的代码。传播信号是人为生成的信号、例如由机器生成的电、光学或者电磁信号,该信号被生成以用于对信息进行编码以用于向适当接收器装置发送。
可以用包括编译或者解释语言的任何形式的编程语言编写计算机程序(也称为程序、软件、软件应用、脚本或者代码),并且可以用任何形式部署它、包括作为独立程序或者作为适合用于在计算环境中使用的模块、部件、子例程或者其它单元。计算机程序不一定对应于文件系统中的文件。程序可以存储于保持其它程序或者数据的文件的部分中(例如存储于标记语言文档中的一个或者多个脚本)、专用于讨论的程序的单个文件中或者多个协同文件(例如存储一个或者多个模块、子程序或者代码部分的文件)中。计算机程序可以被部署成在一个计算机上或者在位于一个地点或者分布于多个地点并且由通信网络互连的多个计算机上执行。
在本说明书中描述的过程和逻辑流程可以由一个或者多个可编程处理器执行,该处理器执行一个或者多个计算机程序以通过对输入数据操作并且生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)执行,并且装置也可以实现为该专用逻辑电路。
适合于执行计算机程序的处理器例如包括通用和专用微处理器和任何种类的数字计算机的任何一个或者多个处理器。一般而言,处理器将从只读存储器或者随机存取存储器或者这二者接收指令和数据。计算机的基本单元是用于执行指令的处理器以及用于存储指令和数据的一个或者多个存储器设备。一般而言,计算机也将包括用于存储数据的一个或者多个海量存储设备如磁盘、光磁盘或者光盘或者操作地耦合成从该海量存储设备接收数据或者向该海量存储设备传送数据或者这二者。然而计算机无需具有这样的设备。另外,计算机可以嵌入于另一设备中,仅举数例,该另一设备例如是写字板计算机、移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GPS)接收器。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备、例如包括半导体存储器设备如EPROM、EEPROM和闪存设备;磁盘如内部硬盘或者可拆卸盘;光磁盘;以及CDROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或者并入于专用逻辑电路中。
为了提供与用户的交互,实施例可以实限于计算机上,该计算机具有用于向用户显示信息的显示器设备如CRT(阴极射线管)或者LCD(液晶显示器)监视器以及用户可以用来向计算机提供输入的键盘和指点设备如鼠标或者跟踪球。其它种类的设备也可以用来提供与用户的交互;例如向用户提供的反馈可以是任何形式的感官反馈如视觉反馈、听觉反馈或者触觉反馈;并且可以用包括声音、话音或者触觉输入的任何形式接收来自用户的输入。
实施例可以实现于计算系统中,该计算系统包括后端部件如作为数据服务器或者包括中间件部件如应用服务器或者包括前端部件、例如具有如下图形用户界面或者网上浏览器的客户端计算机或者这样的后端、中间件或者前端部件中的一个或者多个部件的任何组合,用户可以通过该图形用户界面或者网上浏览器与实现交互。系统的部件可以由任何数字数据通信形式或者介质如通信网络互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)如因特网。
计算系统可以包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助计算机程序来发生,这些计算机程序在相应计算机上运行并且相互具有客户端-服务器关系。
尽管本说明书包含许多细节,但是这些不应解释为对公开内容的范围或者可以要求保护的内容的范围的限制、而应当作为对具体实现特有的特征的描述。也可以在单个实施例组合实施本说明书中在单独实施例的上下文中描述的某些特征。反言之,也可以在多个实施例中单独或者在任何适当子组合中实施在单个实施例的上下文中描述的各种特征。另外虽然上文可以将特征描述为在某些实施例中作用并且甚至起初这样要求保护,但是在一些情况下可以从要求保护的组合中去除来自该组合的一个或者多个特征,并且要求保护的组合可以涉及子组合或者子组合的变体。
类似地,尽管在附图中以特定顺序描绘操作,但是这不应理解为要求以所示特定顺序或者以序列顺序执行这样的操作或者执行所有所示操作以实现希望的结果。在某些境况中,多任务和并行处理可以是有利的。另外,在上文描述的实施例中分离各种系统部件不应理解为在所有实施例中要求这样的分离,并且应当理解描述的程序部件和系统一般可以一起集成于单个软件产品中或者封装到多个软件产品中。
在其中提到HTML文件的每个实例中,可以替换为其它文件类型或者格式。例如HTML文件可以替换为XML、JSON、明文或者其它类型的文件。另外当提到表或者散列表时,可以使用其它数据结构(比如电子数据表、关系数据库或者结构化文件)。
这样已经描述特定实施例。其它实施例在所附权利要求的范围内。例如在权利要求中记载的动作可以按不同顺序来执行并且仍然获得希望的结果。
Claims (50)
1.一种系统,包括:
一个或者多个计算机;以及
计算机可读介质,耦合到所述一个或者多个计算机,所述计算机可读介质具有存储于其上的指令,所述指令在由所述一个或者多个计算机执行时使所述一个或者多个计算机执行操作,所述操作包括:
接收与由移动设备记录的话语对应的音频信号;
确定与所述移动设备相关联的地理位置;
标识与和所述地理位置相关联的环境音频相对应的有地理标记的音频信号的集合;
基于与相应的有地理标记的音频信号相关联的元数据来加权所述有地理标记的音频信号的集合中的每个有地理标记的音频信号;以及
使用所述有地理标记的音频信号的集合来对与所述话语对应的所述音频信号执行噪声补偿。
2.根据权利要求1所述的系统,其中所述操作还包括接收有地理标记的音频信号,每个有地理标记的音频信号包括所述与相应的有地理标记的音频信号相关联的元数据。
3.根据权利要求1所述的系统,其中所述操作还包括:
接收有地理标记的音频信号;
生成用于每个有地理标记的音频信号的元数据;以及
将所述元数据与所述相应的有地理标记的音频信号相关联。
4.根据权利要求1所述的系统,其中加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的元数据以及与和所述话语对应的所述音频信号相关联的元数据来加权所述有地理标记的音频信号的集合中的每个有地理标记的音频信号。
5.根据权利要求1所述的系统,其中所述元数据指示背景语音是否存在于所述相应的有地理标记的音频信号,并且加权每个有地理标记的音频信号包括:基于背景语音是否存在于所述相应的有地理标记的音频信号来加权每个有地理标记的音频信号。
6.根据权利要求1所述的系统,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的地理位置信息的准确度,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的地理位置信息的准确度来加权每个有地理标记的音频信号。
7.根据权利要求1所述的系统,其中所述元数据指示所述相应的有地理标记的音频信号的长度,并且加权每个有地理标记的音频信号包括:基于所述相应的有地理标记的音频信号的长度来加权每个有地理标记的音频信号。
8.根据权利要求1所述的系统,其中所述元数据指示所述相应的有地理标记的音频信号的质量,并且加权每个有地理标记的音频信号包括:基于所述相应的有地理标记的音频信号的质量来加权每个有地理标记的音频信号。
9.根据权利要求1所述的系统,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的地理位置,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的地理位置接近与所述移动设备相关联的地理位置来加权每个有地理标记的音频信号。
10.根据权利要求1所述的系统,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的地理位置,并且加权每个有地理标记的音频信号包括:基于限定与所述相应的有地理标记的音频信号相关联的地理位置的细节的水平来加权每个有地理标记的音频信号。
11.根据权利要求1所述的系统,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的地理位置类型,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的地理位置类型来加权每个有地理标记的音频信号。
12.根据权利要求1所述的系统,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的移动设备的类型,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的移动设备的类型来加权每个有地理标记的音频信号。
13.根据权利要求1所述的系统,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的一天中的某个时间,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的一天中的某个时间来加权每个有地理标记的音频信号。
14.根据权利要求1所述的系统,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的一周中的某天,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的一周中的某天来加权每个有地理标记的音频信号。
15.根据权利要求1所述的系统,其中加权每个有地理标记的音频信号还包括:在接收与所述话语对应的所述音频信号之后,加权每个有地理标记的音频信号。
16.根据权利要求1所述的系统,其中使用所述有地理标记的音频信号的集合来执行噪声补偿,包括:
使用所述加权的有地理标记的音频信号的集合来生成用于所述地理位置的噪声模型;以及
使用所生成的噪声模型对与所述话语对应的所述音频信号执行噪声补偿。
17.根据权利要求1所述的系统,其中所述操作还包括使用所述噪声补偿的音频信号来对所述话语执行话音识别。
18.根据权利要求1所述的系统,其中使用所述有地理标记的音频信号的集合来执行噪声补偿,还包括:使用所述加权的有地理标记的音频信号的集合以及使用所述音频信号的与所述话语相对应的环境音频部分来针对与所述话语相对应的所述音频信号执行噪声补偿。
19.一种用计算机程序编码的计算机存储介质,所述程序包括指令,所述指令在由一个或者多个计算机执行时使得所述一个或者多个计算机执行操作,所述操作包括:
接收与由移动设备记录的话语对应的音频信号;
确定与所述移动设备相关联的地理位置;
标识与和所述地理位置相关联的环境音频相对应的有地理标记的音频信号的集合;
基于与相应的有地理标记的音频信号相关联的元数据来加权所述有地理标记的音频信号的集合中的每个有地理标记的音频信号;以及
使用所述有地理标记的音频信号的集合来对与所述话语对应的所述音频信号执行噪声补偿。
20.一种计算机实现的方法,包括:
接收与由移动设备记录的话语对应的音频信号;
确定与所述移动设备相关联的地理位置;
标识与和所述地理位置相关联的环境音频相对应的有地理标记的音频信号的集合;
基于与相应的有地理标记的音频信号相关联的元数据来加权所述有地理标记的音频信号的集合中的每个有地理标记的音频信号;以及
使用所述有地理标记的音频信号的集合来对与所述话语对应的所述音频信号执行噪声补偿。
21.根据权利要求20所述的计算机实现的方法,其中所述操作还包括接收有地理标记的音频信号,每个有地理标记的音频信号包括所述与相应的有地理标记的音频信号相关联的元数据。
22.根据权利要求20所述的计算机实现的方法,其中所述操作还包括:接收有地理标记的音频信号;生成用于每个有地理标记的音频信号的元数据;以及将所述元数据与所述相应的有地理标记的音频信号相关联。
23.根据权利要求20所述的计算机实现的方法,其中所述元数据指示背景语音是否存在于所述相应的有地理标记的音频信号,并且加权每个有地理标记的音频信号包括:基于背景语音是否存在于所述相应的有地理标记的音频信号来加权每个有地理标记的音频信号。
24.根据权利要求20所述的计算机实现的方法,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的地理位置信息的准确度,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的地理位置信息的准确度来加权每个有地理标记的音频信号。
25.根据权利要求20所述的计算机实现的方法,其中所述元数据指示所述相应的有地理标记的音频信号的长度,并且加权每个有地理标记的音频信号包括:基于所述相应的有地理标记的音频信号的长度来加权每个有地理标记的音频信号。
26.根据权利要求20所述的计算机实现的方法,其中所述元数据指示所述相应的有地理标记的音频信号的质量,并且加权每个有地理标记的音频信号包括:基于所述相应的有地理标记的音频信号的质量来加权每个有地理标记的音频信号。
27.根据权利要求20所述的计算机实现的方法,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的地理位置,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的地理位置接近与所述移动设备相关联的地理位置来加权每个有地理标记的音频信号。
28.根据权利要求20所述的计算机实现的方法,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的地理位置,并且加权每个有地理标记的音频信号包括:基于限定与所述相应的有地理标记的音频信号相关联的地理位置的细节的水平来加权每个有地理标记的音频信号。
29.根据权利要求20所述的计算机实现的方法,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的地理位置类型,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的地理位置类型来加权每个有地理标记的音频信号。
30.根据权利要求20所述的计算机实现的方法,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的移动设备的类型,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的移动设备的类型来加权每个有地理标记的音频信号。
31.一种系统,包括:
一个或者多个计算机;以及
计算机可读介质,耦合到所述一个或者多个计算机,所述计算机可读介质具有存储于其上的指令,所述指令在由所述一个或者多个计算机执行时使所述一个或者多个计算机执行操作,所述操作包括:
接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号,
接收与由特定移动设备记录的话语对应的音频信号,
确定与所述特定移动设备相关联的特定地理位置,选择有地理标记的音频信号的子集,并且基于所述相应的音频信号是否被人工上传或自动更新来加权所述子集中的每个有地理标记的音频信号,
使用所述有地理标记的音频信号的子集来针对所述特定地理位置生成噪声模型,以及
使用已经针对所述特定地理位置生成的所述噪声模型来对与所述话语对应的所述音频信号执行噪声补偿。
32.根据权利要求31所述的系统,其中所述操作还包括使用所述噪声补偿的音频信号来对所述话语执行话音识别。
33.根据权利要求31所述的系统,其中生成所述噪声模型还包括在接收与所述话语对应的所述音频信号之前生成所述噪声模型。
34.根据权利要求31所述的系统,其中生成所述噪声模型还包括在接收与所述话语对应的所述音频信号之后生成所述噪声模型。
35.根据权利要求31所述的系统,其中所述操作还包括:
为每个所述有地理标记的音频信号确定在所述特定地理位置和与所述有地理标记的音频信号相关联的地理位置之间的距离;以及
选择与在所述特定地理位置的预定距离内的地理位置相关联、或者与在N个与所述特定地理位置最近的地理位置之中的地理位置相关联的所述有地理标记的音频信号作为所述有地理标记的音频信号的所述子集。
36.根据权利要求31所述的系统,其中所述操作还包括:
选择与所述特定地理位置相关联的所述有地理标记的音频信号作为所述有地理标记的音频信号的所述子集。
37.根据权利要求36所述的系统,其中所述上下文数据包括引用所述移动设备何时记录所述话语的时间或者日期的数据、引用所述特定移动设备在记录所述话语时测量的速度或者运动量的数据、引用所述移动设备的设置的数据、或者引用所述移动设备的类型的数据。
38.根据权利要求31所述的系统,其中所述操作还包括:基于所述特定地理位置并且基于与所述话语相关联的上下文数据来选择所述有地理标记的音频信号的所述子集。
39.根据权利要求31所述的系统,其中所述话语代表语音搜索查询,或者向数字口授应用或者对话系统的输入。
40.根据权利要求31所述的系统,其中确定所述特定地理位置还包括从所述移动设备接收引用所述特定地理位置的数据。
41.根据权利要求31所述的系统,其中确定所述特定地理位置还包括确定与所述设备相关联的以往地理位置或者默认地理位置。
42.根据权利要求31所述的系统,其中生成所述噪声模型包括使用所述有地理标记的音频信号的所述子集作为训练集来训练高斯混合模型(GMM)。
43.根据权利要求31所述的系统,其中所述操作还包括:
生成所述话语的一个或者多个候选转录;以及
使用所述一个或者多个候选转录来执行搜索查询。
44.根据权利要求31所述的系统,其中所述操作还包括:
处理所述接收的有地理标记的音频信号以排除所述环境音频的、包括所述多个移动设备的用户的语音的部分。
45.根据权利要求44所述的系统,其中:
所述操作还包括:
限定围绕所述特定地理位置的区域,
从所述多个噪声模型之中选择与所述区域内的地理位置相关联的多个噪声模型,以及
生成所述选择的噪声模型的加权组合;并且使用所述选择的噪声模型的加权组合来执行所述噪声补偿。
46.根据权利要求31所述的系统,其中所述操作还包括:从针对所述多个地理位置生成的多个噪声模型之中选择针对所述特定地理位置生成的所述噪声模型。
47.根据权利要求31所述的系统,其中生成所述噪声模型还包括:使用所述有地理标记的音频信号的所述子集以及使用所述音频信号的与所述话语对应的环境音频部分来针对所述特定地理位置生成所述噪声模型。
48.根据权利要求31所述的系统,其中所述操作还包括:
限定围绕所述特定地理位置的区域;以及
选择在所述区域内记录的所述有地理标记的音频信号作为所述有地理标记的音频信号的所述子集。
49.一种用计算机程序编码的计算机存储介质,所述程序包括指令,所述指令在由一个或者多个计算机执行时使得所述一个或者多个计算机执行操作,所述操作包括:
接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号;
接收与由特定移动设备记录的话语对应的音频信号;
确定与所述特定移动设备相关联的特定地理位置;
选择有地理标记的音频信号的子集,并且基于所述相应的音频信号是否被人工上传或自动更新来加权所述子集中的每个有地理标记的音频信号;
使用所述有地理标记的音频信号的子集来针对所述特定地理位置生成噪声模型;以及
使用已经针对所述特定地理位置生成的所述噪声模型来对与所述话语对应的所述音频信号执行噪声补偿。
50.一种计算机实现的方法,包括:
接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号;
接收与由特定移动设备记录的话语对应的音频信号;
确定与所述特定移动设备相关联的特定地理位置;
选择有地理标记的音频信号的子集,并且基于所述相应的音频信号是否被人工上传或自动更新来加权所述子集中的每个有地理标记的音频信号;
使用所述有地理标记的音频信号的子集来针对所述特定地理位置生成噪声模型;以及
使用已经针对所述特定地理位置生成的所述噪声模型来对与所述话语对应的所述音频信号执行噪声补偿。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/760,147 | 2010-04-14 | ||
US12/760,147 US8265928B2 (en) | 2010-04-14 | 2010-04-14 | Geotagged environmental audio for enhanced speech recognition accuracy |
CN201180019038.8A CN102918591B (zh) | 2010-04-14 | 2011-03-22 | 用于增强话音识别准确度的有地理标记的环境音频 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180019038.8A Division CN102918591B (zh) | 2010-04-14 | 2011-03-22 | 用于增强话音识别准确度的有地理标记的环境音频 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105741848A true CN105741848A (zh) | 2016-07-06 |
CN105741848B CN105741848B (zh) | 2019-07-23 |
Family
ID=44041584
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180019038.8A Active CN102918591B (zh) | 2010-04-14 | 2011-03-22 | 用于增强话音识别准确度的有地理标记的环境音频 |
CN201610320104.XA Active CN105741848B (zh) | 2010-04-14 | 2011-03-22 | 用于增强话音识别准确度的有地理标记的环境音频的系统及方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180019038.8A Active CN102918591B (zh) | 2010-04-14 | 2011-03-22 | 用于增强话音识别准确度的有地理标记的环境音频 |
Country Status (5)
Country | Link |
---|---|
US (4) | US8265928B2 (zh) |
EP (4) | EP2559031B1 (zh) |
CN (2) | CN102918591B (zh) |
AU (1) | AU2011241065B2 (zh) |
WO (1) | WO2011129954A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107564546A (zh) * | 2017-07-27 | 2018-01-09 | 上海师范大学 | 一种基于位置信息的语音端点检测方法 |
Families Citing this family (351)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001013255A2 (en) * | 1999-08-13 | 2001-02-22 | Pixo, Inc. | Displaying and traversing links in character array |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080129520A1 (en) * | 2006-12-01 | 2008-06-05 | Apple Computer, Inc. | Electronic device with enhanced audio feedback |
US7912828B2 (en) * | 2007-02-23 | 2011-03-22 | Apple Inc. | Pattern searching methods and apparatuses |
US8977255B2 (en) * | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
ITFI20070177A1 (it) | 2007-07-26 | 2009-01-27 | Riccardo Vieri | Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento. |
US9053089B2 (en) * | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8364694B2 (en) * | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) * | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) * | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) * | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8355919B2 (en) * | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8352272B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8352268B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8396714B2 (en) * | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8712776B2 (en) * | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) * | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) * | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110010179A1 (en) * | 2009-07-13 | 2011-01-13 | Naik Devang K | Voice synthesis and processing |
US20110066438A1 (en) * | 2009-09-15 | 2011-03-17 | Apple Inc. | Contextual voiceover |
US8682649B2 (en) * | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
EP3091535B1 (en) | 2009-12-23 | 2023-10-11 | Google LLC | Multi-modal input on an electronic device |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
US8600743B2 (en) * | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US20110167350A1 (en) * | 2010-01-06 | 2011-07-07 | Apple Inc. | Assist Features For Content Display Device |
US8311838B2 (en) * | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US20110177809A1 (en) * | 2010-01-15 | 2011-07-21 | Qualcomm Incorporated | Affecting a navigation function in response to a perceived transition from one environment to another |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8468012B2 (en) * | 2010-05-26 | 2013-06-18 | Google Inc. | Acoustic model adaptation using geographic information |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US20110316672A1 (en) * | 2010-06-29 | 2011-12-29 | International Business Machines Corporation | Mobile communication based tagging |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
US8521526B1 (en) * | 2010-07-28 | 2013-08-27 | Google Inc. | Disambiguation of a spoken query term |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8812014B2 (en) * | 2010-08-30 | 2014-08-19 | Qualcomm Incorporated | Audio-based environment awareness |
US9277362B2 (en) * | 2010-09-03 | 2016-03-01 | Blackberry Limited | Method and apparatus for generating and using location information |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US8532674B2 (en) * | 2010-12-10 | 2013-09-10 | General Motors Llc | Method of intelligent vehicle dialing |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
WO2012107561A1 (en) * | 2011-02-10 | 2012-08-16 | Dolby International Ab | Spatial adaptation in multi-microphone sound capture |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
CN104040480A (zh) * | 2011-03-28 | 2014-09-10 | 安比恩特兹公司 | 利用声学语境进行搜索的方法和系统 |
US9137734B2 (en) * | 2011-03-30 | 2015-09-15 | Microsoft Technology Licensing, Llc | Mobile device configuration based on status and location |
US9298287B2 (en) | 2011-03-31 | 2016-03-29 | Microsoft Technology Licensing, Llc | Combined activation for natural user interface systems |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US9244984B2 (en) | 2011-03-31 | 2016-01-26 | Microsoft Technology Licensing, Llc | Location based conversational understanding |
US9858343B2 (en) | 2011-03-31 | 2018-01-02 | Microsoft Technology Licensing Llc | Personalization of queries, conversations, and searches |
US9842168B2 (en) | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
US20120265526A1 (en) * | 2011-04-13 | 2012-10-18 | Continental Automotive Systems, Inc. | Apparatus and method for voice activity detection |
US9064006B2 (en) | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US9454962B2 (en) | 2011-05-12 | 2016-09-27 | Microsoft Technology Licensing, Llc | Sentence simplification for spoken language understanding |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8595015B2 (en) * | 2011-08-08 | 2013-11-26 | Verizon New Jersey Inc. | Audio communication assessment |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
EP2831872A4 (en) * | 2012-03-30 | 2015-11-04 | Intel Corp | MULTISENSOR SPEED DEPENDENT CONTEXTUAL LANGUAGE IDENTIFICATION AND SUMMARY |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11023520B1 (en) | 2012-06-01 | 2021-06-01 | Google Llc | Background audio identification for query disambiguation |
US9123338B1 (en) | 2012-06-01 | 2015-09-01 | Google Inc. | Background audio identification for speech disambiguation |
JP2013254395A (ja) * | 2012-06-07 | 2013-12-19 | Ricoh Co Ltd | 処理装置、処理システム、出力方法およびプログラム |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
EP2867890B1 (en) * | 2012-06-28 | 2018-04-25 | Nuance Communications, Inc. | Meta-data inputs to front end processing for automatic speech recognition |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US8639577B1 (en) * | 2012-07-31 | 2014-01-28 | Wal-Mart Stores, Inc. | Use of sound to authenticate and enable a return with an electronic receipt |
US8831957B2 (en) * | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
US8571865B1 (en) * | 2012-08-10 | 2013-10-29 | Google Inc. | Inference-aided speaker recognition |
US20140074466A1 (en) | 2012-09-10 | 2014-03-13 | Google Inc. | Answering questions using environmental context |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9251804B2 (en) * | 2012-11-21 | 2016-02-02 | Empire Technology Development Llc | Speech recognition |
EP2877993B1 (en) * | 2012-11-21 | 2016-06-08 | Huawei Technologies Co., Ltd. | Method and device for reconstructing a target signal from a noisy input signal |
US20140163768A1 (en) * | 2012-12-11 | 2014-06-12 | At&T Intellectual Property I, L.P. | Event and condition determination based on sensor data |
US9190057B2 (en) * | 2012-12-12 | 2015-11-17 | Amazon Technologies, Inc. | Speech model retrieval in distributed speech recognition systems |
US9653070B2 (en) | 2012-12-31 | 2017-05-16 | Intel Corporation | Flexible architecture for acoustic signal processing engine |
BR112015018905B1 (pt) | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
US9032000B2 (en) * | 2013-02-19 | 2015-05-12 | Digital Globe Inc. | System and method for geolocation of social media posts |
US9734819B2 (en) | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
US10229701B2 (en) | 2013-02-28 | 2019-03-12 | Nuance Communications, Inc. | Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission |
WO2014133525A1 (en) * | 2013-02-28 | 2014-09-04 | Nuance Communication, Inc. | Server-side asr adaptation to speaker, device and noise condition via non-asr audio transmission |
US20140270249A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression |
US20140278415A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Voice Recognition Configuration Selector and Method of Operation Therefor |
US20140278392A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Pre-Processing Audio Signals |
US9237225B2 (en) | 2013-03-12 | 2016-01-12 | Google Technology Holdings LLC | Apparatus with dynamic audio signal pre-conditioning and methods therefor |
US20140278393A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US9846506B2 (en) * | 2013-03-13 | 2017-12-19 | Clarion Co., Ltd. | Display device |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US11151899B2 (en) | 2013-03-15 | 2021-10-19 | Apple Inc. | User training by intelligent digital assistant |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9886160B2 (en) * | 2013-03-15 | 2018-02-06 | Google Llc | Managing audio at the tab level for user notification and control |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
AU2014251347B2 (en) | 2013-03-15 | 2017-05-18 | Apple Inc. | Context-sensitive handling of interruptions |
US9437208B2 (en) * | 2013-06-03 | 2016-09-06 | Adobe Systems Incorporated | General sound decomposition models |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105264524B (zh) | 2013-06-09 | 2019-08-02 | 苹果公司 | 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面 |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
US9727129B2 (en) * | 2013-06-28 | 2017-08-08 | Harman International Industries, Incorporated | System and method for audio augmented reality |
WO2015017303A1 (en) * | 2013-07-31 | 2015-02-05 | Motorola Mobility Llc | Method and apparatus for adjusting voice recognition processing based on noise characteristics |
JP6163266B2 (ja) | 2013-08-06 | 2017-07-12 | アップル インコーポレイテッド | リモート機器からの作動に基づくスマート応答の自動作動 |
US9530416B2 (en) | 2013-10-28 | 2016-12-27 | At&T Intellectual Property I, L.P. | System and method for managing models for embedded speech and language processing |
US9666188B2 (en) | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US8862467B1 (en) * | 2013-12-11 | 2014-10-14 | Google Inc. | Contextual speech recognition |
CN103680493A (zh) | 2013-12-19 | 2014-03-26 | 百度在线网络技术(北京)有限公司 | 区分地域性口音的语音数据识别方法和装置 |
WO2015100587A1 (zh) * | 2013-12-31 | 2015-07-09 | 海能达通信股份有限公司 | 语音录制方法、通话录音回放方法以及相关装置和系统 |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9633657B2 (en) * | 2014-04-02 | 2017-04-25 | Speakread A/S | Systems and methods for supporting hearing impaired users |
US10104452B2 (en) * | 2014-05-08 | 2018-10-16 | Paypal, Inc. | Gathering unique information from dispersed users |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9904851B2 (en) | 2014-06-11 | 2018-02-27 | At&T Intellectual Property I, L.P. | Exploiting visual information for enhancing audio signals via source separation and beamforming |
US9384738B2 (en) * | 2014-06-24 | 2016-07-05 | Google Inc. | Dynamic threshold for speaker verification |
US9639854B2 (en) | 2014-06-26 | 2017-05-02 | Nuance Communications, Inc. | Voice-controlled information exchange platform, such as for providing information to supplement advertising |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9837102B2 (en) * | 2014-07-02 | 2017-12-05 | Microsoft Technology Licensing, Llc | User environment aware acoustic noise reduction |
US10051364B2 (en) | 2014-07-03 | 2018-08-14 | Qualcomm Incorporated | Single channel or multi-channel audio control interface |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9530408B2 (en) | 2014-10-31 | 2016-12-27 | At&T Intellectual Property I, L.P. | Acoustic environment recognizer for optimal speech processing |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US11275757B2 (en) | 2015-02-13 | 2022-03-15 | Cerner Innovation, Inc. | Systems and methods for capturing data, creating billable information and outputting billable information |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
CN104777998B (zh) * | 2015-03-17 | 2018-12-18 | 惠州Tcl移动通信有限公司 | 图片旋转的方法及智能终端 |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
WO2016172591A1 (en) | 2015-04-24 | 2016-10-27 | Dolby Laboratories Licensing Corporation | Augmented hearing system |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
CN104951182B (zh) * | 2015-05-27 | 2021-05-28 | 深圳市万普拉斯科技有限公司 | 应用的界面主题的更换方法、装置及智能终端 |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
CN107683504B (zh) * | 2015-06-10 | 2021-05-28 | 赛伦斯运营公司 | 用于运动自适应语音处理的方法、系统和计算机可读介质 |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
EP3317879B1 (de) * | 2015-06-30 | 2020-02-19 | Fraunhofer Gesellschaft zur Förderung der Angewand | Verfahren und vorrichtung zum zuordnen von geräuschen und zum analysieren |
CN105824550B (zh) * | 2015-07-23 | 2021-11-30 | 维沃移动通信有限公司 | 一种屏幕保护界面控制方法和装置 |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
CN105654960A (zh) * | 2015-09-21 | 2016-06-08 | 宇龙计算机通信科技(深圳)有限公司 | 一种对终端声音消噪的处理方法及装置 |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
KR102494139B1 (ko) * | 2015-11-06 | 2023-01-31 | 삼성전자주식회사 | 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법 |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10631108B2 (en) | 2016-02-08 | 2020-04-21 | K/S Himpp | Hearing augmentation systems and methods |
US10284998B2 (en) | 2016-02-08 | 2019-05-07 | K/S Himpp | Hearing augmentation systems and methods |
US10390155B2 (en) | 2016-02-08 | 2019-08-20 | K/S Himpp | Hearing augmentation systems and methods |
US10341791B2 (en) | 2016-02-08 | 2019-07-02 | K/S Himpp | Hearing augmentation systems and methods |
US10750293B2 (en) * | 2016-02-08 | 2020-08-18 | Hearing Instrument Manufacture Patent Partnership | Hearing augmentation systems and methods |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10181321B2 (en) * | 2016-09-27 | 2019-01-15 | Vocollect, Inc. | Utilization of location and environment to improve recognition |
US9959864B1 (en) * | 2016-10-27 | 2018-05-01 | Google Llc | Location-based voice query recognition |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10296586B2 (en) * | 2016-12-23 | 2019-05-21 | Soundhound, Inc. | Predicting human behavior by machine learning of natural language interpretations |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US11567726B2 (en) * | 2017-07-21 | 2023-01-31 | Google Llc | Methods, systems, and media for providing information relating to detected events |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
GB2566759B8 (en) * | 2017-10-20 | 2021-12-08 | Please Hold Uk Ltd | Encoding identifiers to produce audio identifiers from a plurality of audio bitstreams |
GB2566760B (en) | 2017-10-20 | 2019-10-23 | Please Hold Uk Ltd | Audio Signal |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
CN108335694B (zh) * | 2018-02-01 | 2021-10-15 | 北京百度网讯科技有限公司 | 远场环境噪声处理方法、装置、设备和存储介质 |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
KR20190136578A (ko) * | 2018-05-31 | 2019-12-10 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
CN109087659A (zh) * | 2018-08-03 | 2018-12-25 | 三星电子(中国)研发中心 | 音频优化方法及设备 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11869509B1 (en) | 2018-12-21 | 2024-01-09 | Cerner Innovation, Inc. | Document generation from conversational sources |
US11875883B1 (en) | 2018-12-21 | 2024-01-16 | Cerner Innovation, Inc. | De-duplication and contextually-intelligent recommendations based on natural language understanding of conversational sources |
US11062704B1 (en) | 2018-12-21 | 2021-07-13 | Cerner Innovation, Inc. | Processing multi-party conversations |
US11410650B1 (en) | 2018-12-26 | 2022-08-09 | Cerner Innovation, Inc. | Semantically augmented clinical speech processing |
CN109545196B (zh) * | 2018-12-29 | 2022-11-29 | 深圳市科迈爱康科技有限公司 | 语音识别方法、装置及计算机可读存储介质 |
CN109545195B (zh) * | 2018-12-29 | 2023-02-21 | 深圳市科迈爱康科技有限公司 | 陪伴机器人及其控制方法 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
WO2020208972A1 (ja) * | 2019-04-08 | 2020-10-15 | ソニー株式会社 | 応答生成装置及び応答生成方法 |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
BR112021024472A2 (pt) | 2019-06-04 | 2022-02-15 | Geoquest Systems Bv | Aplicação de geomarcadores a imagens para identificar oportunidades de exploração |
KR102260216B1 (ko) * | 2019-07-29 | 2021-06-03 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US20210256176A1 (en) * | 2020-02-18 | 2021-08-19 | International Business Machines Corporation | Development of geo-spatial physical models using historical lineage data |
US20210304736A1 (en) * | 2020-03-30 | 2021-09-30 | Nvidia Corporation | Media engagement through deep learning |
US11295543B2 (en) * | 2020-03-31 | 2022-04-05 | International Business Machines Corporation | Object detection in an image |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
EP4169307A4 (en) * | 2020-06-22 | 2024-02-21 | Qualcomm Inc | VOICE OR VOICE RECOGNITION IN HIGH NOISE ENVIRONMENTS |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US20220100796A1 (en) * | 2020-09-29 | 2022-03-31 | Here Global B.V. | Method, apparatus, and system for mapping conversation and audio data to locations |
CN113496099B (zh) * | 2021-04-06 | 2022-05-06 | 西南交通大学 | 一种基于深度学习的边坡永久位移预测模型训练方法 |
CN113506565A (zh) * | 2021-07-12 | 2021-10-15 | 北京捷通华声科技股份有限公司 | 语音识别的方法、装置、计算机可读存储介质与处理器 |
CN114333881B (zh) * | 2022-03-09 | 2022-05-24 | 深圳市迪斯声学有限公司 | 基于环境自适应的音频传输降噪方法、设备及介质 |
CN116962935B (zh) * | 2023-09-20 | 2024-01-30 | 深圳市齐奥通信技术有限公司 | 一种基于数据分析的耳机降噪方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020059068A1 (en) * | 2000-10-13 | 2002-05-16 | At&T Corporation | Systems and methods for automatic speech recognition |
US20040138882A1 (en) * | 2002-10-31 | 2004-07-15 | Seiko Epson Corporation | Acoustic model creating method, speech recognition apparatus, and vehicle having the speech recognition apparatus |
US20050187763A1 (en) * | 2004-02-23 | 2005-08-25 | General Motors Corporation | Dynamic tuning of hands-free algorithm for noise and driving conditions |
CN1737906A (zh) * | 2004-03-23 | 2006-02-22 | 哈曼贝克自动系统-威美科公司 | 利用中枢网络分离语音信号 |
US20070124756A1 (en) * | 2005-11-29 | 2007-05-31 | Google Inc. | Detecting Repeating Content in Broadcast Media |
US20080188271A1 (en) * | 2007-02-07 | 2008-08-07 | Denso Corporation | Communicating road noise control system, in-vehicle road noise controller, and server |
CN101325061A (zh) * | 2007-06-13 | 2008-12-17 | 株式会社东芝 | 用于音频信号处理的方法和装置 |
US20090271188A1 (en) * | 2008-04-24 | 2009-10-29 | International Business Machines Corporation | Adjusting A Speech Engine For A Mobile Computing Device Based On Background Noise |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
US6778959B1 (en) * | 1999-10-21 | 2004-08-17 | Sony Corporation | System and method for speech verification using out-of-vocabulary models |
US7457750B2 (en) | 2000-10-13 | 2008-11-25 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
US6876966B1 (en) * | 2000-10-16 | 2005-04-05 | Microsoft Corporation | Pattern recognition training method and apparatus using inserted noise followed by noise reduction |
US6915262B2 (en) | 2000-11-30 | 2005-07-05 | Telesector Resources Group, Inc. | Methods and apparatus for performing speech recognition and using speech recognition results |
US6959276B2 (en) * | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
US6950796B2 (en) * | 2001-11-05 | 2005-09-27 | Motorola, Inc. | Speech recognition by dynamical noise model adaptation |
US7224981B2 (en) | 2002-06-20 | 2007-05-29 | Intel Corporation | Speech recognition of mobile devices |
JP4109063B2 (ja) * | 2002-09-18 | 2008-06-25 | パイオニア株式会社 | 音声認識装置及び音声認識方法 |
US7457745B2 (en) | 2002-12-03 | 2008-11-25 | Hrl Laboratories, Llc | Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments |
US7392188B2 (en) * | 2003-07-31 | 2008-06-24 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method enabling acoustic barge-in |
JP4548646B2 (ja) * | 2003-09-12 | 2010-09-22 | 株式会社エヌ・ティ・ティ・ドコモ | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
CN101361301A (zh) * | 2005-11-29 | 2009-02-04 | 谷歌公司 | 检测广播媒体中的重复内容 |
US7890326B2 (en) | 2006-10-13 | 2011-02-15 | Google Inc. | Business listing search |
US8041568B2 (en) | 2006-10-13 | 2011-10-18 | Google Inc. | Business listing search |
US20090030687A1 (en) | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
US8589163B2 (en) | 2009-12-04 | 2013-11-19 | At&T Intellectual Property I, L.P. | Adapting language models with a bit mask for a subset of related words |
US8468012B2 (en) | 2010-05-26 | 2013-06-18 | Google Inc. | Acoustic model adaptation using geographic information |
-
2010
- 2010-04-14 US US12/760,147 patent/US8265928B2/en active Active
-
2011
- 2011-03-22 CN CN201180019038.8A patent/CN102918591B/zh active Active
- 2011-03-22 EP EP11713118.5A patent/EP2559031B1/en active Active
- 2011-03-22 AU AU2011241065A patent/AU2011241065B2/en active Active
- 2011-03-22 WO PCT/US2011/029407 patent/WO2011129954A1/en active Application Filing
- 2011-03-22 EP EP18188692.0A patent/EP3425634B1/en active Active
- 2011-03-22 CN CN201610320104.XA patent/CN105741848B/zh active Active
- 2011-03-22 EP EP14162078.1A patent/EP2750133B1/en active Active
- 2011-03-22 EP EP21189184.1A patent/EP3923281B1/en active Active
- 2011-09-30 US US13/250,843 patent/US8175872B2/en active Active
-
2012
- 2012-08-01 US US13/564,636 patent/US8428940B2/en active Active
-
2013
- 2013-04-12 US US13/862,170 patent/US8682659B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020059068A1 (en) * | 2000-10-13 | 2002-05-16 | At&T Corporation | Systems and methods for automatic speech recognition |
US20040138882A1 (en) * | 2002-10-31 | 2004-07-15 | Seiko Epson Corporation | Acoustic model creating method, speech recognition apparatus, and vehicle having the speech recognition apparatus |
US20050187763A1 (en) * | 2004-02-23 | 2005-08-25 | General Motors Corporation | Dynamic tuning of hands-free algorithm for noise and driving conditions |
CN1737906A (zh) * | 2004-03-23 | 2006-02-22 | 哈曼贝克自动系统-威美科公司 | 利用中枢网络分离语音信号 |
US20070124756A1 (en) * | 2005-11-29 | 2007-05-31 | Google Inc. | Detecting Repeating Content in Broadcast Media |
US20080188271A1 (en) * | 2007-02-07 | 2008-08-07 | Denso Corporation | Communicating road noise control system, in-vehicle road noise controller, and server |
CN101325061A (zh) * | 2007-06-13 | 2008-12-17 | 株式会社东芝 | 用于音频信号处理的方法和装置 |
US20090271188A1 (en) * | 2008-04-24 | 2009-10-29 | International Business Machines Corporation | Adjusting A Speech Engine For A Mobile Computing Device Based On Background Noise |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107564546A (zh) * | 2017-07-27 | 2018-01-09 | 上海师范大学 | 一种基于位置信息的语音端点检测方法 |
Also Published As
Publication number | Publication date |
---|---|
AU2011241065A1 (en) | 2012-10-04 |
EP2750133B1 (en) | 2018-08-29 |
CN102918591B (zh) | 2016-06-08 |
AU2011241065B2 (en) | 2014-04-17 |
EP3923281B1 (en) | 2024-01-31 |
US8265928B2 (en) | 2012-09-11 |
US8175872B2 (en) | 2012-05-08 |
EP3425634A2 (en) | 2019-01-09 |
EP2750133A1 (en) | 2014-07-02 |
EP3425634B1 (en) | 2021-09-15 |
US8682659B2 (en) | 2014-03-25 |
CN105741848B (zh) | 2019-07-23 |
US20110257974A1 (en) | 2011-10-20 |
US20120022870A1 (en) | 2012-01-26 |
US20130238325A1 (en) | 2013-09-12 |
US20120296643A1 (en) | 2012-11-22 |
EP3425634A3 (en) | 2019-03-20 |
EP3923281A1 (en) | 2021-12-15 |
EP2559031B1 (en) | 2014-05-14 |
US8428940B2 (en) | 2013-04-23 |
WO2011129954A1 (en) | 2011-10-20 |
CN102918591A (zh) | 2013-02-06 |
EP2559031A1 (en) | 2013-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102918591B (zh) | 用于增强话音识别准确度的有地理标记的环境音频 | |
CN103038817B (zh) | 使用地理信息的声学模型适配 | |
CN103069480B (zh) | 用于语音识别的语音模型和噪声模型 | |
US10819811B2 (en) | Accumulation of real-time crowd sourced data for inferring metadata about entities | |
US8255217B2 (en) | Systems and methods for creating and using geo-centric language models | |
KR20160081995A (ko) | 상태-종속 쿼리 응답 | |
CN103038765A (zh) | 用于适配情境模型的方法和装置 | |
AU2014200999B2 (en) | Geotagged environmental audio for enhanced speech recognition accuracy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |