CN105741848A - 用于增强话音识别准确度的有地理标记的环境音频 - Google Patents

用于增强话音识别准确度的有地理标记的环境音频 Download PDF

Info

Publication number
CN105741848A
CN105741848A CN201610320104.XA CN201610320104A CN105741848A CN 105741848 A CN105741848 A CN 105741848A CN 201610320104 A CN201610320104 A CN 201610320104A CN 105741848 A CN105741848 A CN 105741848A
Authority
CN
China
Prior art keywords
audio signal
geotagged audio
geotagged
weighting
mobile equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610320104.XA
Other languages
English (en)
Other versions
CN105741848B (zh
Inventor
T·克里斯特詹森
M·I·洛伊德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN105741848A publication Critical patent/CN105741848A/zh
Application granted granted Critical
Publication of CN105741848B publication Critical patent/CN105741848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Abstract

用于增强话音识别准确度的方法、系统和装置、包括在计算机存储介质上编码的计算机程序。在一个方面,一种方法包括:接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号;接收与由特定移动设备记录的话语对应的音频信号;确定与特定移动设备相关联的特定地理位置;使用有地理标记的音频信号的子集来针对特定地理位置生成噪声模型,其中使用已经针对特定地理位置生成的噪声模型来对与话语对应的音频信号执行噪声补偿。

Description

用于增强话音识别准确度的有地理标记的环境音频
本申请是2012年10月12日进入中国国家阶段的、国际申请日为2011年3月22日的、申请号为201180019038.8的发明专利申请(名称为“用于增强话音识别准确度的有地理标记的环境音频”)的分案申请。
相关申请的交叉引用
本申请要求于2010年4月14日提交的、标题为GEOTAGGEDENVIRONMENTALAUDIOFORENHANCEDSPEECHRECOGNITIONACCURACY的第12/760,147号美国申请的优先权,其公开的内容通过引用并入于此。
技术领域
本说明书涉及话音识别。
背景技术
如在本说明书中所用,“搜索查询”包括当用户请求搜索引擎执行搜索查询时用户向搜索引擎提交的一个或者多个查询检索词,其中“检索词”或者“查询检索词”包括一个或者多个完全或者部分字词、字符或者字符串。搜索查询的“结果”(或者“搜索结果”)包括统一资源定位符(URI)以及其它内容,该URI引用搜索引擎确定响应于搜索查询的资源。搜索结果可以包括其它事物、比如标题、预览图像、用户评分、地图或者方向、对应资源的描述或者已经从对应资源自动或者人工提取的或者以别的方式与对应资源关联的文字摘录。
在其它方式之中,用户可以通过在键盘上键入或者在话音查询的上下文中通过向移动设备的麦克风中口述查询来录入搜索查询的查询检索词。当提交语音查询时,移动设备的麦克风除了用户的口述话语之外还可能记录环境噪声或者声音或者“环境音频”。例如,环境音频可以包括处于用户周围的其他人的背景聊天或者谈话或者自然(例如,狗吠)或者人造物体(例如,办公室、机场或者公路噪声或者建筑活动)生成的噪声。环境音频可能部分地遮蔽用户的语音从而使得自动化话音识别(“ASR”)引擎难以准确识别口述话语。
发明内容
一般而言,可以在用于ASR引擎为地理区域适配、训练、选择或者另外生成噪声模型并且用于将这一噪声模型应用于从位于这一地理区域中或者附近的移动设备接收的“有地理标记的”音频信号(或者“采样”或者“波形”)的方法中体现本说明书中描述的主题内容的一个创新方面。如本说明书所用,“有地理标记的”音频信号指代已经与地理位置元数据或者地理空间元数据关联或者用地理位置元数据或者地理空间元数据“标记”的信号。位置元数据可以包括导航坐标如纬度和经度、海拔信息、方位或者指向信息或者与位置相关联的名称或者地址以及其它内容。
更具体而言,方法包括:接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号;存储有地理标记的音频信号;以及使用有地理标记的音频信号的所选子集来针对特定地理区域生成噪声模型。在接收移动设备在特定地理区域内或者附近记录的话语时,ASR引擎可以使用针对特定地理区域生成的噪声模型来对音频信号执行噪声补偿,并且可以对噪声补偿的音频信号执行话音识别。注意,可以在接收话语之前、期间或者之后生成用于特定地理区域的噪声模型。
一般而言,可以在包括以下动作的方法中体现本说明书中描述的主题内容的另一创新方面:接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号;接收与由特定移动设备记录的话语对应的音频信号;确定与特定移动设备相关联的特定地理位置;使用有地理标记的音频信号的子集来针对特定地理位置生成噪声模型,其中使用已经针对特定地理位置生成的噪声模型来对与话语对应的音频信号执行噪声补偿。
这些方面的其它实施例包括被配置成执行方法的动作的对应系统、装置和计算机程序,所述计算机程序编码在计算机存储设备上。
这些和其它实施例可以各自可选地包括以下特征中的一个或者多个特征。在各种示例中,使用噪声补偿的音频信号来对话语执行话音识别;生成噪声模型还包括在接收与话语对应的音频信号之前生成噪声模型;生成噪声模型还包括在接收与话语对应的音频信号之后生成噪声模型;为每个有地理标记的音频信号,确定在特定地理位置和与有地理标记的音频信号相关联的地理位置之间的距离,以及选择与在特定地理位置的预定距离内的地理位置相关联、或者与在N个与特定地理位置最近的地理位置之中的地理位置相关联的有地理标记的音频信号作为有地理标记的音频信号的子集;选择与特定地理位置相关联的有地理标记的音频信号作为有地理标记的音频信号的子集;基于特定地理位置、并且基于与话语关联的上下文数据选择有地理标记的音频信号的子集;上下文数据包括引用移动设备何时记录话语时的时间或者日期的数据、引用特定移动设备在记录话语时测量的速度或者运动量的数据、引用移动设备的设置的数据、或者引用移动设备的类型的数据;话语代表语音搜索查询,或者向数字口授应用或者对话系统的输入;确定特定地理位置还包括从移动设备接收引用特定地理位置的数据;确定特定地理位置还包括确定与设备相关联的以往地理位置或者默认地理位置;生成噪声模型包括使用有地理标记的音频信号的子集作为训练集来训练高斯混合模型(GMM);生成话语的一个或者多个候选转录,使用一个或者多个候选转录来执行搜索查询;处理接收的有地理标记的音频信号以排除环境音频的、包括多个移动设备的用户的语音的部分;从针对多个地理位置生成的多个噪声模型之中选择针对特定地理位置生成的噪声模型;限定围绕特定地理位置的区域,从多个噪声模型之中选择与区域内的地理位置相关联的多个噪声模型,生成选择的噪声模型的加权组合,其中使用选择的噪声模型的加权组合来执行噪声补偿;生成噪声模型还包括使用有地理标记的音频信号的子集以及使用音频信号的与话语对应的环境音频部分来为特定地理位置生成噪声模型;以及/或者区域被限定为围绕特定地理位置,以及选择在区域内记录的有地理标记的音频信号作为有地理标记的音频信号的子集
可以实现本说明书中描述的主题内容的具体实施例以实现以下优点中的一个或者多个优点。ASR引擎可以提供音频信号的更好噪声抑制。可以提高话音识别准确度。可以使用环境音频信号来生成噪声模型,这些环境音频信号准确反映地理区域中的实际环境噪声。可以在服务器侧而不是在客户端设备上执行话音识别和噪声模型生成,以允许更好的过程优化并且增加计算效率。
在附图和下文描述中阐述本说明书中描述的主题内容的一个或者多个实施例的细节。主题内容的其它潜在特征、方面和优点将从说明书、附图和权利要求中变得容易理解。
附图说明
图1是使用有地理标记的环境音频以增强话音识别准确度的示例系统的图。
图2是过程的示例的流程图。
图3是过程的另一示例的流程图。
图4是过程的示例的泳道(swimlane)图。
各种附图中的相似标号指示相似要素。
具体实施方式
图1是使用有地理标记的环境音频以增强话音识别准确度的示例系统100的图。图1还图示了在状态(a)至状态(i)期间在系统100内的数据流以及在状态(i)期间在移动设备104上显示的用户接口158。
更具体而言,系统100包括通过一个或者多个网络110与包括移动设备102和移动设备104的移动客户端通信设备通信的服务器106和ASR引擎108。服务器106可以是搜索引擎、口授引擎、对话系统或者是使用转录的话音的任何其它引擎或者系统。网络110可以包括无线蜂窝网络、无线局域网(WLAN)或者Wi-Fi网络、第三代(3G)或者第四代(4G)移动电信网络、专用网络(如内联网)、公用网络(如因特网)或者其任何适当组合。
状态(a)至状态(i)描绘了当系统100执行示例过程时出现的数据流。状态(a)至状态(i)可以是时序状态,或者它们可以在与所图示序列不同的序列中出现。
简言之,根据图1中所示示例过程,ASR引擎108从移动设备102接收有地理标记的环境音频信号130并且针对多个地理位置生成地理特有噪声模型112。当接收与移动设备104记录的话语对应的音频信号138时,确定与移动设备104(或者移动设备104的用户)相关联的特定地理位置。ASR引擎108使用与特定地理位置匹配的或者以别的方式适合于特定地理位置的地理特有噪声模型来转录话语,并且从ASR引擎108向服务器106传达一个或者多个候选转录146。当服务器106是搜索引擎时,服务器106使用候选转录146来执行一个或者多个搜索查询、生成搜索结果152并且向移动设备104传达搜索结果152用于显示。
更具体而言,在状态(a)期间,移动设备102通过网络110向ASR引擎108传达包括环境音频的有地理标记的音频信号130(本说明书称之为“环境音频信号”)。一般而言,环境音频可以包括(自然地或者以别的方式)出现于特定位置的任何环境声音。环境音频通常排除移动设备的用户的声音、话语或者语音。
设备102a传达已经用引用“位置A”的元数据132a标记的音频信号130a,设备102b传达已经用引用“位置B”的元数据132b标记的音频信号130b,以及设备102c传达已经用也引用“位置B”的元数据132c标记的音频信号130c。如图所示,移动设备102可以将元数据132与音频信号130进行关联,或者ASR引擎108或者另一服务器可以在推断移动设备102的(或者移动设备102的用户的)位置之后关联元数据与音频信号130。
环境音频信号130可以各自包括相对高质量音频(如十六千赫兹无损音频信号)的两秒(或者更多)摘录。环境音频信号130可以与元数据相关联,该元数据引用相应移动设备102在记录、捕获或者获得环境音频时的地理位置。
可以从移动设备102向ASR引擎108人工上传环境音频信号130。例如,可以与生成并且向公用图像数据库或者贮存库传达图像结合生成并且传达环境音频信号130。备选地,对于选择参与的用户,可以自动获得并且从移动设备102向ASR引擎108传达环境音频信号130而在向ASR引擎108传达每个环境音频信号之前不请求显式用户致动。
元数据132可以用任何数目的不同格式或者细节或者粒度水平描述位置。例如,元数据132a可以包括与移动设备102a的当时存在位置相关联的纬度和经度,并且元数据132c可以包括与移动设备102c的当时存在位置相关联的地址或者地理区域。另外,由于将移动设备102b图示为在移动的交通工具中,所以元数据132b可以描述交通工具的路径(例如,包括起点和终点以及运动数据)。此外,元数据132可以按照位置类型描述位置(例如,“移动交通工具”、“在海滩上”、“在餐馆中”、“在高建筑物中”、“南亚”、“农村区域”、“有建筑噪声的某处”、“游乐园”、“在船艇上”、“室内”、“地下”、“在街道上”、“森林”)。单个音频信号可以与描述一个或者多个位置的元数据相关联。
与音频信号138相关联的地理位置可以代之以按照界定区域来描述、表达为限定界定区域的坐标集。备选的,可以使用区域标识符(比如,州名或者标识符、城市名、惯用名(例如,“中央公园”)、国名或者任意限定的区域的标识符(例如“隔间/区域ABC123”))来限定地理位置。
在将位置与环境音频信号进行关联之前,移动设备102或者ASR引擎108可以处理元数据以调整位置信息的细节水平(例如,以确定与特定坐标集相关联的州),或者可以离散化位置信息(例如通过选择沿着路径的具体点或者与路径相关联的区域)。也可以通过指定或者添加位置型元数据、例如通过向其的关联地理坐标与海滩位置相关联的环境音频信号添加“在海滩上”标记或者通过向包括在背景中交谈的多个人的声音的环境音频信号添加“有许多人的某处”标记来调整元数据的细节水平。
在状态(b)期间,ASR引擎108从移动设备102接收有地理标记的环境音频信号130,并且在数据存储库111中在环境音频信号的汇集114中存储有地理标记的音频信号(或者其部分)。如下文描述的那样,汇集用于训练、适配或者生成一个或者多个地理位置特有(或者“地理特有”)噪声模型112。
由于汇集114中的环境音频信号不应包括用户的语音,所以ASR引擎108可以使用语音活动检测器以验证环境音频信号的汇集114仅包括与环境噪声对应的音频信号130或者滤除或者标识或者排除音频信号130(或者音频信号130的部分),这些音频信号包括移动设备102的各种用户的语音。
ASR引擎108存储的环境音频信号的汇集114可以包括数以百计、数以千计、数以百万计或者数以千万计的环境音频信号。在所图示示例中,有地理标记的环境音频信号130a的部分或者全部可以存储于汇集114中作为环境音频信号124,有地理标记的环境音频信号130b的部分或者全部可以存储于汇集114中作为环境音频信号126a,并且有地理标记的环境音频信号130c的部分或者全部可以存储于汇集114中作为环境音频信号120b。
在汇集中存储环境音频信号130可以包括确定用户的语音是否在音频信号130中被编码,并且分别基于确定用户的语音在音频信号130中被或者未被编码来确定存储或者确定不存储环境音频信号130。备选地,在汇集中存储环境音频信号130可以包括标识环境音频信号130的包括用户的语音的部分、通过去除包括用户的语音的部分或者通过关联对包括用户的语音的部分进行引用的元数据来变更环境音频信号130并且在汇集中存储变更的环境音频信号130。
与环境音频信号130关联的其它上下文数据或者元数据也可以存储于汇集114中。例如,在汇集114中包括的环境音频信号在一些实现中可以包括其它元数据标记、比如指示背景语音(例如,自助餐厅聊天)是否存在于环境音频内的标记、标识获得特定环境音频信号的日期的标记(例如,用来确定采样年龄)或者标识特定环境音频信号是否以某一方式从汇集的在相同或者相似位置获得的其它环境音频信号偏离的标记。以这一方式,可以可选地过滤环境音频信号的汇集114以排除满足或者未满足特定标准的特定环境音频信号、比如排除比某个年龄更老的或者包括背景聊天的特定环境音频信号,该背景聊天可以标识个人或者本质上为专有或者私密的。
在附加示例中,可以在与环境音频信号关联的元数据中标记如下数据,该数据引用汇集114的环境音频信号是否被人工或者自动上传。例如,可以仅使用自动上传的或者人工上传的那些环境音频信号来生成噪声模型112,或者可以在生成噪声模型期间向每个上传类别分配不同加权。
虽然已经描述汇集114的环境音频信号为包括标识相应地理位置的显式标记,但是在其它实现中,比如当可以推导在音频信号与地理位置之间的关联性时,无需显式使用标记。例如,可以通过处理(例如用服务器106存储的)搜索日志来隐式关联地理位置与环境音频信号以确定用于特定环境音频信号的地理位置信息。因而ASR引擎108接收有地理标记的环境音频信号可以包括获得未明确包括地理标记的环境音频信号,并且推导和关联用于环境音频信号的一个或者多个地理标记。
在状态(c)期间,通过网络110从移动设备104向ASR引擎108传达音频信号138。虽然图示了移动设备102为与移动设备104不同的设备,但是在其它实现中,从提供有地理标记的环境音频信号130的移动设备104之一传达音频信号138。
音频信号138包括移动设备104(例如,当用户隐式或者显式发起语音搜索查询时)记录的话语140(“纽约体育馆”)。音频信号138包括引用地理位置“位置B”的元数据139。除了包括话语140之外,音频信号138还可以包括环境音频摘录、比如在口述话语140之前或者之后记录的环境音频的两秒摘录。尽管如在图1中所示将话语140描述为语音查询,但是在其它示例实现中,话语可以是向口授系统或者向对话系统输入的语音。
可以使用与汇集114中包括的环境音频信号相关联的地理位置相同或者不同的细节水平来限定与音频信号138相关联的地理位置(“位置B”)。例如,与汇集114中包括的环境音频信号相关联的地理位置可以对应于地理区域,而与音频信号138相关联的地理位置可以对应于特定地理坐标。当细节水平不同时,ASR引擎108可以处理地理元数据139或者与汇集114的环境音频信号相关联的元数据以对准细节水平,从而可以执行子集选择过程。
移动设备104(或者移动设备104的用户)可以基于当记录话语140时当前的位置信息将元数据139与音频信号138相关联,并且可以从移动设备104将元数据139与音频信号138一起向ASR引擎108传达。备选地,ASR引擎108可以基于ASR引擎108推断的用于移动设备104(或者移动设备104的用户)的地理位置将元数据与音频信号138相关联。
ASR引擎108可以使用用户的日历时间表、用户偏好(例如,如存储于ASR引擎108或者服务器106的用户账户中或者如从移动设备104传达)、默认位置、以往位置(例如,移动设备104的GPS模块计算的最新位置)、用户在提交语音搜索查询时显式提供的信息、根据话语104本身、三角测量(例如,WiFi或者小区塔三角测量)、移动设备104中的GPS模块或者推算定位(deadreckoning)来推断地理位置。元数据139可以包括准确度信息,该信息指定地理位置确定的准确度,从而表示移动设备104在记录话语140时的时间实际上在元数据139指定的特定地理位置的可能性。
还可以与音频信号138一起包括其它元数据。例如,与音频信号一起包括的元数据可以包括与相应移动设备102相关联的位置或者场所。例如,场所信息可以描述其中注册移动设备102的区域或者移动设备102的用户的语言或者方言以及其它可选参数。话音识别模块118可以使用这一信息以选择、训练、适配或者生成与移动设备104的上下文匹配的噪声、话音、声学、流行度或者其它模型。
在状态(d)中,ASR引擎108选择汇集114中的环境音频信号的子集并且使用噪声模型生成模块116以使用环境音频信号的子集、例如通过使用环境音频信号的子集作为用于噪声模型的训练集来训练、适配或者生成一个或者多个噪声模型112(例如高斯混合模型(GMM))。子集可以包括汇集114中的环境音频信号中的所有或者比所有更少的环境音频信号。
一般而言,噪声模型112与话音模型、声学模型、流行度模型和/或其它模型一起应用于音频信号138以将口述话语140转译或者转录成一个或者多个文字后续转录146,并且向候选转录生成话音识别置信度分数。具体地,噪声模型用于噪声抑制或者噪声补偿以增强口述话语140对于ASR引擎108的可理解性。
更具体而言,噪声模型生成模块116可以使用音频信号、具体针对在被地理标记为已经在与音频信号138关联的地理位置(“位置B”)或者附近或者在相同或者相似类型的位置记录的环境音频信号126a和126b的汇集114来为该地理位置生成噪声模型120b。由于音频信号138与这一地理位置(“位置B”)相关联,所以除了环境音频信号126a和126b之外或者替代地,在音频信号138本身中包括的环境音频也可以用来针对该地理位置生成噪声模型。类似地,噪声模型生成模块116可以使用被地理标记为已经在另一地理位置(“位置A”)或者附近在相同或者相似类型的位置记录的环境音频信号124来为该另一地理位置生成噪声模型120a。如果噪声模型生成模块116被配置成选择被地理标记为已经在与音频信号138相关联的地理位置附近记录的环境音频信号,并且如果“位置A”在“位置B”附近,则噪声模型生成模块116还可以使用环境音频信号124来为“位置B”生成噪声模型120b。
除了有地理标记的位置之外,与汇集114的环境音频信号相关联的其它上下文数据还可以用来选择环境音频信号的子集以用于生成噪声模型112或者调整特定音频信号将对生成具有的权值或者影响。例如,ASR引擎108可以选择汇集114中的环境音频信号的子集,该子集的环境音频信号的上下文信息指示它们比预定时间段更长或者更短或者它们满足某个质量或者近因标准。另外,ASR引擎108可以选择汇集114中的如下环境音频信号作为子集,这些环境音频信号的上下文信息指示它们是使用具有与移动设备104相似的音频子系统的移动设备来记录的。
可以用来从汇集114选择环境音频信号的子集的其它上下文数据在一些示例中可以包括时间信息、日期信息、对特定移动设备在记录期间测量的速度或者运动量进行引用的数据、其它设备传感器数据、设备状态数据(例如,蓝牙耳机、扬声器电话或者传统输入方法)、如果用户选择提供用户标识符则包括标识符或者标识移动设备类型或者机型的信息。上下文数据例如可以提供在音频信号138的记录周围的条件的指示。
在一个示例中,移动设备104与音频信号138一起供应的上下文数据可以指示移动设备104沿着与高速公路相关联的路径在高速公路速度行驶。ASR108可以推断音频信号138被记录在交通工具内,并且可以选择汇集114中的环境音频信号的与“在移动交通工具以内”位置类型相关联的子集。在另一示例中,移动设备104与音频信号138一起供应的上下文数据可以指示移动设备104在农村区域中并且话语140记录于周日上午6点。基于这一上下文数据,ASR108可以推断如果子集包括在高峰时段期间在农村区域中记录的环境音频信号,则不会提高话音识别的准确度。因而上下文数据可以由噪声模型生成模块116用来在生成噪声模型112时过滤环境音频信号的汇集114或者由话音识别模块118用来为特定话语选择适当噪声模型112。
在一些实现中,噪声模型生成模块116可以基于与音频信号关联的地理位置邻近于与音频信号138关联的地理位置来选择汇集114的环境音频信号的加权组合。噪声模型生成模块116还可以使用音频信号138本身中包括的环境音频(例如,在口述话语之前或者之后或者在话语之间的停顿期间记录的环境音频)来生成噪声模型112。
例如,噪声模型生成模块116可以首先相对于音频信号138中包括的环境音频的质量确定存储于汇集114中的环境音频信号的质量,并且可以选择仅使用存储于汇集114中的音频信号、仅使用音频信号138中包括的环境音频或者其任何适当加权或者未加权组合来生成噪声模型。例如,噪声模型生成模块116可以确定音频信号138包括非大量环境音频或者在汇集114中为该特定地理位置存储高质量环境音频,并且可以选择生成噪声模型而未使用音频信号138中包括的环境音频(或者向该环境音频给予小权值)。
在一些实现中,噪声模型生成模块116从汇集114选择与N(例如,五、二十或者五十)个地理位置相关联的环境音频信号作为子集,这些地理位置最接近于与音频信号138相关联的地理位置。当与音频信号138相关联的地理位置时描述点或者地点(例如,坐标)时,可以相对于该地理位置限定几何形状(例如,圆形或者方形),并且噪声模型生成模块116可以从汇集114选择与完全或者部分位于限定的地理形状内的地理区域相关联的音频信号作为子集。
如果已经按照位置类型(例如,“在海滩上”、“城市”)限定与音频信号138相关联的地理位置,则ASR引擎108仍然可以选择与相同或者相似位置类型关联的环境音频信号,即使与所选音频信号关联的物理地理位置在物理上未在与音频信号138关联的地理位置附近。例如,可以用“在海滩上”元数据为在佛罗里达海滩上记录的音频信号标记噪声模型,并且噪声模型生成模块116可以从汇集114选择如下环境音频信号作为子集,这些环境音频信号的相关联元数据指示它们也记录于海滩上,尽管事实是它们记录于澳大利亚、夏威夷或者冰岛的海滩上。
如果与音频信号138相关联的地理位置未匹配于与汇集114的任何环境音频信号相关联的任何物理地理位置(或者没有与该任何物理地理位置的高质量匹配),则噪声模型生成模块116可以恢复基于匹配位置类型、而不是匹配实际物理地理位置来选择子集。其它匹配过程如集群(clusting)算法可以用来匹配音频信号与环境音频信号。
除了生成一般的地理特有噪声模型112之外,噪声模型生成模块116还可以生成以其它标准为目标或者其它标准特有的地理特有噪声模型、比如不同设备类型或者一天不同时间特有的地理特有噪声模型。可以基于检测到已经满足阈值标准、比如确定汇集114的阈值数目的环境音频信号引用相同地理位置并且共享另一相同或者相似上下文(例如,一天中的某个时间、一周中的某天、运动特性、设备类型等)来生成作为目标的子模型。
可以在已经接收话语140之前、期间或者之后生成噪声模型112。例如可以与处理话语140并行处理来自与话语相同或者相似的位置的多个环境音频信号,并且这些环境音频信号可以用来实时或者接近实时生成噪声模型112以更好地逼近围绕移动设备104的实况噪声条件。
在状态(e)中,ASR引擎108的话音识别模块118使用用于与音频信号138相关联的地理位置的地理特有噪声模型120b来对音频信号138执行噪声补偿以增强话音识别的准确度,并且随后对噪声补偿的音频信号执行话音识别。当音频信号138包括描述移动设备104的设备类型的元数据时,ASR引擎108可以应用与音频信号关联的地理位置和移动设备104的设备类型二者特有的噪声模型122。话音识别模块118可以生成与在音频信号138中编码的话语匹配的一个或者多个候选转录和用于候选转录的话音识别置信度值。
在状态(f)期间,从ASR引擎108向服务器106传达话音识别模块118生成的候选转录146中的一个或者多个候选转录。当服务器106是搜索引擎时,可以使用候选转录作为候选查询检索词以执行一个或者多个搜索查询。ASR引擎108可以在向服务器106发送候选转录146之前按照它们的相应话音识别置信度分数对它们排序。通过转录口述话语并且向服务器106提供候选转录,ASR引擎108可以向移动设备104提供话音搜索查询能力、口授能力或者对话系统能力。
服务器106可以使用候选查询检索词来执行一个或者多个搜索查询、生成引用搜索结果160的文件152。服务器106在一些示例中可以包括用来在因特网内发现引用的网上搜索引擎、用来发现企业或者个人的电话簿型搜索引擎或者另一专门化搜索引擎(例如,提供对诸如餐馆和电影娱乐信息、医疗和药品信息等娱乐清单的引用的搜索引擎)。
在状态(h)期间,服务器106向移动设备104提供引用搜索结果160的文件152。文件152可以是标记语言文件、比如可扩展标记语言(XML)或者超文本标记语言(HTML)文件。
在状态(i)期间,移动设备104在用户接口158上显示搜索结果160。具体而言,用户接口包括:搜索框157,其显示具有最高话音识别置信度分数的候选查询检索词(“纽约体育馆”);备选查询检索词建议区域159,其显示话语140可能已经预计的候选查询检索词的另一替代(“JimNewark”);搜索结果160a,其包括指向用于“纽约健身房”160a的资源的链接;以及搜索结果160b,其包括指向用于“曼哈顿塑体”160b的链接。搜索结果160a还可以包括在被选择时可以由移动设备104拨号的电话号码的链接。
图2是过程200的示例的流程图。简言之,过程200包括接收一个或者多个有地理标记的环境音频信号、接收与地理位置相关联的话语并且至少部分基于地理位置生成噪声模型。可以对音频信号执行噪声补偿,因为噪声模型促使提高话音识别准确度。
更具体而言,当过程200开始时,接收与环境音频对应的有地理标记的音频信号(202)。移动设备可以在特定地理位置记录有地理标记的音频信号。有地理标记的音频信号可以包括关联上下文数据、诸如在记录有地理标记的音频信号期间测量的时间、日期、速度或者运动量,或者记录有地理标记的音频信号的设备类型。可以处理接收的有地理标记的音频信号以排除环境音频的如下部分,这些部分包括移动设备的用户的语音。可以接收并且存储在一个或者多个地理位置记录的多个有地理标记的音频信号。
接收特定移动设备记录的话语(204)。话语可以包括语音搜索查询或者可以是向口授或者对话应用或者系统的输入。话语可以包括关联上下文数据,诸如在记录有地理标记的音频信号期间测量的时间、日期、速度或者运动量,或者记录有地理标记的音频信号的设备类型。
确定与移动设备相关联的特定地理位置(206)。例如,可以从移动设备接收引用特定地理位置的数据,或者可以确定与移动设备相关联的以往地理位置或者默认地理位置。
使用有地理标记的音频信号的子集来针对特定地理位置生成噪声模型(208)。可以通过为每个有地理标记的音频信号确定在特定地理位置和与有地理标记的音频信号相关联的地理位置之间的距离;以及选择在特定地理位置的预定距离内的或者与在N个与特定地理位置最近的地理位置之中的地理位置相关联的那些有地理标记的音频信号来选择有地理标记的音频信号的子集。
可以通过标识与特定地理位置相关联的有地理标记的音频信号,以及/或者通过标识在声学上与话语相似的有地理标记的音频信号来选择有地理标记的音频信号的子集。可以基于特定地理位置并且基于与话语相关联的上下文数据来选择有地理标记的音频信号的子集。
生成噪声模型可以包括使用有地理标记的音频信号的子集作为训练集来训练GMM。一些噪声减少或者分离算法如非负矩阵因式分解(NMF)可以使用特征矢量本身而不是高斯分量代表的平均值。其它算法如Alqonquin可以在有人为变化时使用GMM或者特征矢量本身。
使用已经针对特定地理位置生成的噪声模型对与话语对应的音频信号执行噪声补偿以增强音频信号或者减少话语由于噪声所致的不确定性(210)。
对噪声补偿的音频信号执行话音识别(212)。执行话音识别可以包括生成话语的一个或者多个候选转录。可以使用一个或者多个候选转录来执行搜索查询,或者可以提供候选转录中的一个或者多个候选转录作为数字口授应用的输出。备选地,可以提供候选转录中的一个或者多个候选转录作为向对话系统的输入以允许计算机系统与特定移动设备的用户对话。
图3是过程300的示例的流程图。简言之,过程300包括采集有地理标记的音频信号并且至少部分基于与每个有地理标记的音频信号相关联的特定地理位置生成多个噪声模型。可以在对话语执行话音识别时至少部分基于与话语相关联的地理位置选择这些噪声模型中的一个或者多个噪声模型。
更具体而言,当过程300开始时,接收与环境音频对应的有地理标记的音频信号(302)。移动设备可以在特定地理位置记录有地理标记的音频信号。可以处理接收的有地理标记的音频信号以排除环境音频的如下部分,这些部分包括移动设备的用户的语音。可以接收并且存储在一个或者多个地理位置记录的多个有地理标记的音频信号。
可选地,接收与有地理标记的音频信号关联的上下文数据(304)。有地理标记的音频信号可以包括关联上下文数据、诸如在记录有地理标记的音频信号期间测量的时间、日期、速度或者运动量或者记录有地理标记的音频信号的设备类型。
生成一个或者多个噪声模型(306)。可以使用有地理标记的音频信号的子集来针对特定地理位置,或者可选地针对位置类型生成每个噪声模型。可以通过为每个有地理标记的音频信号确定在特定地理位置和与有地理标记的音频信号相关联的地理位置之间的距离,并且选择在特定地理位置的预定距离内的、或者与在N个与特定地理位置最近的地理位置之中的地理位置相关联的那些有地理标记的音频信号来选择有地理标记的音频信号的子集。可以通过标识与特定地理位置相关联的有地理标记的音频信号来选择有地理标记的音频信号的子集。可以基于特定地理位置并且基于与有地理标记的音频信号相关联的上下文数据选择有地理标记的音频信号的子集。生成噪声模型可以包括使用有地理标记的音频信号的子集来训练高斯混合模型(GMM)。
接收特定移动设备记录的话语(308)。话语可以包括语音搜索查询。话语可以包括关联上下文数据,诸如在记录有地理标记的音频信号期间测量的时间、日期、速度或者运动量,或者记录有地理标记的音频信号的设备类型。
检测地理位置(310)。例如,可以从移动设备的GPS模块接收引用特定地理位置的数据。
选择噪声模型(312)。可以从针对多个地理位置生成的多个噪声模型之中选择噪声模型。上下文数据可以可选地促成从针对特定地理位置的多个噪声模型之中选择特定的噪声模型。
使用所选噪声模型对话语执行话音识别(314)。执行话音识别可以包括生成话语的一个或者多个候选转录。可以使用一个或者多个候选转录来执行搜索查询。
图4示出了用于使用有地理标记的环境音频来增强话音识别准确度的过程400的示例的泳道图。过程400可以由移动设备402、ASR引擎404和搜索引擎406来实现。移动设备402可以向ASR引擎404提供音频信号、比如环境音频信号或者与话语对应的音频信号。虽然仅图示了一个移动设备402,但是移动设备402可以代表向过程400贡献环境音频信号和语音查询的大量移动设备402。ASR引擎404可以基于环境音频信号生成噪声模型,并且可以在执行话音识别时将一个或者多个噪声模型应用于传入语音搜索查询。ASR引擎404可以向搜索引擎406提供语音搜索查询内的话语的转录以完成语音搜索查询请求。
过程400始于移动设备402向ASR引擎404提供408有地理标记的音频信号。音频信号可以包括环境音频以及关于记录环境音频的位置的指示。可选地,有地理标记的音频信号可以包括例如形式为元数据的上下文数据。ASR引擎404可以在环境音频数据存储库中存储有地理标记的音频信号。
移动设备402向ASR引擎404提供410话语。话语例如可以包括语音搜索查询。话语的记录可以可选地包括例如在记录话语之前或者之后短暂记录的环境音频采样。
移动设备402向ASR引擎404提供412地理位置。移动设备在一些示例中可以提供使用GPS模块来检测的导航坐标、最新(但是未必与记录并行)GPS读数、默认位置、根据先前提供的话语派生的位置或者通过发射塔的推算定位或者三角测量来估计的位置。移动设备402可以可选地向ASR引擎404提供上下文数据、比如传感器数据、设备机型标识或者设备设置。
ASR引擎404生成414噪声模型。可以部分通过训练GMM来生成噪声模型。可以基于移动设备402提供的地理位置生成噪声模型。例如,从在移动设备402的位置或者附近的位置提交的有地理标记的音频信号可以促成噪声模型。可选地,移动设备402提供的上下文数据可以用来过滤有地理标记的音频信号以选择与记录话语的条件最适合的有地理标记的音频信号。例如,可以按照一周中的某天或者一天中的某个时间来过滤在移动设备402提供的地理位置附近的有地理标记的音频信号。如果环境音频采样与移动设备402提供的话语一起包括,则可以可选地在噪声模型中包括环境音频采样。
ASR引擎404对提供的话语执行话音识别416。使用由ASR引擎404生成的噪声模型,可以将移动设备402提供的话语转录成一个或者多个查询检索词集合。
ASR引擎404向搜索引擎406转发418生成的转录。如果ASR引擎404生成多个转录,则可以可选地以置信度为序对转录排序。ASR引擎404可以可选地向搜索引擎406提供上下文数据、比如地理位置,搜索引擎406可以使用该上下文数据对搜索结果过滤或者排序。
搜索引擎406使用转录来执行420搜索操作。搜索引擎406可以对与转录检索词有关的一个或者多个URI定位。
搜索引擎406向移动设备402提供422搜索查询结果。例如,搜索引擎406可以转发如下HTML代码,该代码生成定位的URI的可视清单。
已经描述多个实现。然而,将理解可以进行各种修改而未脱离公开内容的精神实质和范围。例如,可以在重新排序、添加或者去除步骤时使用上文所示流程的各种形式。因而其它实现在所附权利要求的范围内。
可以在数字电子电路中或者在包括本说明书中公开的结构及其结构等效物的计算机软件、固件或者硬件中或者在它们中的一项或者多项的组合中实现本说明书中描述的实施例和所有功能操作。实施例可以被实现为一个或者多个计算机程序产品、即在计算机可读介质上编码的用于由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或者多个模块。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、实现机器可读传播信号的物质组成或者它们中的一项或者多项的组合。术语“数据处理装置”涵盖了用于处理数据的所有装置、设备和机器、例如包括一个可编程处理器、一个计算机或者多个处理器或者计算机。装置除了包括硬件之外还可以包括为讨论的计算机程序创建执行环境的代码、例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一项或者多项的组合的代码。传播信号是人为生成的信号、例如由机器生成的电、光学或者电磁信号,该信号被生成以用于对信息进行编码以用于向适当接收器装置发送。
可以用包括编译或者解释语言的任何形式的编程语言编写计算机程序(也称为程序、软件、软件应用、脚本或者代码),并且可以用任何形式部署它、包括作为独立程序或者作为适合用于在计算环境中使用的模块、部件、子例程或者其它单元。计算机程序不一定对应于文件系统中的文件。程序可以存储于保持其它程序或者数据的文件的部分中(例如存储于标记语言文档中的一个或者多个脚本)、专用于讨论的程序的单个文件中或者多个协同文件(例如存储一个或者多个模块、子程序或者代码部分的文件)中。计算机程序可以被部署成在一个计算机上或者在位于一个地点或者分布于多个地点并且由通信网络互连的多个计算机上执行。
在本说明书中描述的过程和逻辑流程可以由一个或者多个可编程处理器执行,该处理器执行一个或者多个计算机程序以通过对输入数据操作并且生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)执行,并且装置也可以实现为该专用逻辑电路。
适合于执行计算机程序的处理器例如包括通用和专用微处理器和任何种类的数字计算机的任何一个或者多个处理器。一般而言,处理器将从只读存储器或者随机存取存储器或者这二者接收指令和数据。计算机的基本单元是用于执行指令的处理器以及用于存储指令和数据的一个或者多个存储器设备。一般而言,计算机也将包括用于存储数据的一个或者多个海量存储设备如磁盘、光磁盘或者光盘或者操作地耦合成从该海量存储设备接收数据或者向该海量存储设备传送数据或者这二者。然而计算机无需具有这样的设备。另外,计算机可以嵌入于另一设备中,仅举数例,该另一设备例如是写字板计算机、移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GPS)接收器。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备、例如包括半导体存储器设备如EPROM、EEPROM和闪存设备;磁盘如内部硬盘或者可拆卸盘;光磁盘;以及CDROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或者并入于专用逻辑电路中。
为了提供与用户的交互,实施例可以实限于计算机上,该计算机具有用于向用户显示信息的显示器设备如CRT(阴极射线管)或者LCD(液晶显示器)监视器以及用户可以用来向计算机提供输入的键盘和指点设备如鼠标或者跟踪球。其它种类的设备也可以用来提供与用户的交互;例如向用户提供的反馈可以是任何形式的感官反馈如视觉反馈、听觉反馈或者触觉反馈;并且可以用包括声音、话音或者触觉输入的任何形式接收来自用户的输入。
实施例可以实现于计算系统中,该计算系统包括后端部件如作为数据服务器或者包括中间件部件如应用服务器或者包括前端部件、例如具有如下图形用户界面或者网上浏览器的客户端计算机或者这样的后端、中间件或者前端部件中的一个或者多个部件的任何组合,用户可以通过该图形用户界面或者网上浏览器与实现交互。系统的部件可以由任何数字数据通信形式或者介质如通信网络互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)如因特网。
计算系统可以包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助计算机程序来发生,这些计算机程序在相应计算机上运行并且相互具有客户端-服务器关系。
尽管本说明书包含许多细节,但是这些不应解释为对公开内容的范围或者可以要求保护的内容的范围的限制、而应当作为对具体实现特有的特征的描述。也可以在单个实施例组合实施本说明书中在单独实施例的上下文中描述的某些特征。反言之,也可以在多个实施例中单独或者在任何适当子组合中实施在单个实施例的上下文中描述的各种特征。另外虽然上文可以将特征描述为在某些实施例中作用并且甚至起初这样要求保护,但是在一些情况下可以从要求保护的组合中去除来自该组合的一个或者多个特征,并且要求保护的组合可以涉及子组合或者子组合的变体。
类似地,尽管在附图中以特定顺序描绘操作,但是这不应理解为要求以所示特定顺序或者以序列顺序执行这样的操作或者执行所有所示操作以实现希望的结果。在某些境况中,多任务和并行处理可以是有利的。另外,在上文描述的实施例中分离各种系统部件不应理解为在所有实施例中要求这样的分离,并且应当理解描述的程序部件和系统一般可以一起集成于单个软件产品中或者封装到多个软件产品中。
在其中提到HTML文件的每个实例中,可以替换为其它文件类型或者格式。例如HTML文件可以替换为XML、JSON、明文或者其它类型的文件。另外当提到表或者散列表时,可以使用其它数据结构(比如电子数据表、关系数据库或者结构化文件)。
这样已经描述特定实施例。其它实施例在所附权利要求的范围内。例如在权利要求中记载的动作可以按不同顺序来执行并且仍然获得希望的结果。

Claims (50)

1.一种系统,包括:
一个或者多个计算机;以及
计算机可读介质,耦合到所述一个或者多个计算机,所述计算机可读介质具有存储于其上的指令,所述指令在由所述一个或者多个计算机执行时使所述一个或者多个计算机执行操作,所述操作包括:
接收与由移动设备记录的话语对应的音频信号;
确定与所述移动设备相关联的地理位置;
标识与和所述地理位置相关联的环境音频相对应的有地理标记的音频信号的集合;
基于与相应的有地理标记的音频信号相关联的元数据来加权所述有地理标记的音频信号的集合中的每个有地理标记的音频信号;以及
使用所述有地理标记的音频信号的集合来对与所述话语对应的所述音频信号执行噪声补偿。
2.根据权利要求1所述的系统,其中所述操作还包括接收有地理标记的音频信号,每个有地理标记的音频信号包括所述与相应的有地理标记的音频信号相关联的元数据。
3.根据权利要求1所述的系统,其中所述操作还包括:
接收有地理标记的音频信号;
生成用于每个有地理标记的音频信号的元数据;以及
将所述元数据与所述相应的有地理标记的音频信号相关联。
4.根据权利要求1所述的系统,其中加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的元数据以及与和所述话语对应的所述音频信号相关联的元数据来加权所述有地理标记的音频信号的集合中的每个有地理标记的音频信号。
5.根据权利要求1所述的系统,其中所述元数据指示背景语音是否存在于所述相应的有地理标记的音频信号,并且加权每个有地理标记的音频信号包括:基于背景语音是否存在于所述相应的有地理标记的音频信号来加权每个有地理标记的音频信号。
6.根据权利要求1所述的系统,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的地理位置信息的准确度,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的地理位置信息的准确度来加权每个有地理标记的音频信号。
7.根据权利要求1所述的系统,其中所述元数据指示所述相应的有地理标记的音频信号的长度,并且加权每个有地理标记的音频信号包括:基于所述相应的有地理标记的音频信号的长度来加权每个有地理标记的音频信号。
8.根据权利要求1所述的系统,其中所述元数据指示所述相应的有地理标记的音频信号的质量,并且加权每个有地理标记的音频信号包括:基于所述相应的有地理标记的音频信号的质量来加权每个有地理标记的音频信号。
9.根据权利要求1所述的系统,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的地理位置,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的地理位置接近与所述移动设备相关联的地理位置来加权每个有地理标记的音频信号。
10.根据权利要求1所述的系统,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的地理位置,并且加权每个有地理标记的音频信号包括:基于限定与所述相应的有地理标记的音频信号相关联的地理位置的细节的水平来加权每个有地理标记的音频信号。
11.根据权利要求1所述的系统,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的地理位置类型,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的地理位置类型来加权每个有地理标记的音频信号。
12.根据权利要求1所述的系统,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的移动设备的类型,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的移动设备的类型来加权每个有地理标记的音频信号。
13.根据权利要求1所述的系统,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的一天中的某个时间,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的一天中的某个时间来加权每个有地理标记的音频信号。
14.根据权利要求1所述的系统,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的一周中的某天,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的一周中的某天来加权每个有地理标记的音频信号。
15.根据权利要求1所述的系统,其中加权每个有地理标记的音频信号还包括:在接收与所述话语对应的所述音频信号之后,加权每个有地理标记的音频信号。
16.根据权利要求1所述的系统,其中使用所述有地理标记的音频信号的集合来执行噪声补偿,包括:
使用所述加权的有地理标记的音频信号的集合来生成用于所述地理位置的噪声模型;以及
使用所生成的噪声模型对与所述话语对应的所述音频信号执行噪声补偿。
17.根据权利要求1所述的系统,其中所述操作还包括使用所述噪声补偿的音频信号来对所述话语执行话音识别。
18.根据权利要求1所述的系统,其中使用所述有地理标记的音频信号的集合来执行噪声补偿,还包括:使用所述加权的有地理标记的音频信号的集合以及使用所述音频信号的与所述话语相对应的环境音频部分来针对与所述话语相对应的所述音频信号执行噪声补偿。
19.一种用计算机程序编码的计算机存储介质,所述程序包括指令,所述指令在由一个或者多个计算机执行时使得所述一个或者多个计算机执行操作,所述操作包括:
接收与由移动设备记录的话语对应的音频信号;
确定与所述移动设备相关联的地理位置;
标识与和所述地理位置相关联的环境音频相对应的有地理标记的音频信号的集合;
基于与相应的有地理标记的音频信号相关联的元数据来加权所述有地理标记的音频信号的集合中的每个有地理标记的音频信号;以及
使用所述有地理标记的音频信号的集合来对与所述话语对应的所述音频信号执行噪声补偿。
20.一种计算机实现的方法,包括:
接收与由移动设备记录的话语对应的音频信号;
确定与所述移动设备相关联的地理位置;
标识与和所述地理位置相关联的环境音频相对应的有地理标记的音频信号的集合;
基于与相应的有地理标记的音频信号相关联的元数据来加权所述有地理标记的音频信号的集合中的每个有地理标记的音频信号;以及
使用所述有地理标记的音频信号的集合来对与所述话语对应的所述音频信号执行噪声补偿。
21.根据权利要求20所述的计算机实现的方法,其中所述操作还包括接收有地理标记的音频信号,每个有地理标记的音频信号包括所述与相应的有地理标记的音频信号相关联的元数据。
22.根据权利要求20所述的计算机实现的方法,其中所述操作还包括:接收有地理标记的音频信号;生成用于每个有地理标记的音频信号的元数据;以及将所述元数据与所述相应的有地理标记的音频信号相关联。
23.根据权利要求20所述的计算机实现的方法,其中所述元数据指示背景语音是否存在于所述相应的有地理标记的音频信号,并且加权每个有地理标记的音频信号包括:基于背景语音是否存在于所述相应的有地理标记的音频信号来加权每个有地理标记的音频信号。
24.根据权利要求20所述的计算机实现的方法,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的地理位置信息的准确度,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的地理位置信息的准确度来加权每个有地理标记的音频信号。
25.根据权利要求20所述的计算机实现的方法,其中所述元数据指示所述相应的有地理标记的音频信号的长度,并且加权每个有地理标记的音频信号包括:基于所述相应的有地理标记的音频信号的长度来加权每个有地理标记的音频信号。
26.根据权利要求20所述的计算机实现的方法,其中所述元数据指示所述相应的有地理标记的音频信号的质量,并且加权每个有地理标记的音频信号包括:基于所述相应的有地理标记的音频信号的质量来加权每个有地理标记的音频信号。
27.根据权利要求20所述的计算机实现的方法,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的地理位置,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的地理位置接近与所述移动设备相关联的地理位置来加权每个有地理标记的音频信号。
28.根据权利要求20所述的计算机实现的方法,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的地理位置,并且加权每个有地理标记的音频信号包括:基于限定与所述相应的有地理标记的音频信号相关联的地理位置的细节的水平来加权每个有地理标记的音频信号。
29.根据权利要求20所述的计算机实现的方法,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的地理位置类型,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的地理位置类型来加权每个有地理标记的音频信号。
30.根据权利要求20所述的计算机实现的方法,其中所述元数据指示与所述相应的有地理标记的音频信号相关联的移动设备的类型,并且加权每个有地理标记的音频信号包括:基于与所述相应的有地理标记的音频信号相关联的移动设备的类型来加权每个有地理标记的音频信号。
31.一种系统,包括:
一个或者多个计算机;以及
计算机可读介质,耦合到所述一个或者多个计算机,所述计算机可读介质具有存储于其上的指令,所述指令在由所述一个或者多个计算机执行时使所述一个或者多个计算机执行操作,所述操作包括:
接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号,
接收与由特定移动设备记录的话语对应的音频信号,
确定与所述特定移动设备相关联的特定地理位置,选择有地理标记的音频信号的子集,并且基于所述相应的音频信号是否被人工上传或自动更新来加权所述子集中的每个有地理标记的音频信号,
使用所述有地理标记的音频信号的子集来针对所述特定地理位置生成噪声模型,以及
使用已经针对所述特定地理位置生成的所述噪声模型来对与所述话语对应的所述音频信号执行噪声补偿。
32.根据权利要求31所述的系统,其中所述操作还包括使用所述噪声补偿的音频信号来对所述话语执行话音识别。
33.根据权利要求31所述的系统,其中生成所述噪声模型还包括在接收与所述话语对应的所述音频信号之前生成所述噪声模型。
34.根据权利要求31所述的系统,其中生成所述噪声模型还包括在接收与所述话语对应的所述音频信号之后生成所述噪声模型。
35.根据权利要求31所述的系统,其中所述操作还包括:
为每个所述有地理标记的音频信号确定在所述特定地理位置和与所述有地理标记的音频信号相关联的地理位置之间的距离;以及
选择与在所述特定地理位置的预定距离内的地理位置相关联、或者与在N个与所述特定地理位置最近的地理位置之中的地理位置相关联的所述有地理标记的音频信号作为所述有地理标记的音频信号的所述子集。
36.根据权利要求31所述的系统,其中所述操作还包括:
选择与所述特定地理位置相关联的所述有地理标记的音频信号作为所述有地理标记的音频信号的所述子集。
37.根据权利要求36所述的系统,其中所述上下文数据包括引用所述移动设备何时记录所述话语的时间或者日期的数据、引用所述特定移动设备在记录所述话语时测量的速度或者运动量的数据、引用所述移动设备的设置的数据、或者引用所述移动设备的类型的数据。
38.根据权利要求31所述的系统,其中所述操作还包括:基于所述特定地理位置并且基于与所述话语相关联的上下文数据来选择所述有地理标记的音频信号的所述子集。
39.根据权利要求31所述的系统,其中所述话语代表语音搜索查询,或者向数字口授应用或者对话系统的输入。
40.根据权利要求31所述的系统,其中确定所述特定地理位置还包括从所述移动设备接收引用所述特定地理位置的数据。
41.根据权利要求31所述的系统,其中确定所述特定地理位置还包括确定与所述设备相关联的以往地理位置或者默认地理位置。
42.根据权利要求31所述的系统,其中生成所述噪声模型包括使用所述有地理标记的音频信号的所述子集作为训练集来训练高斯混合模型(GMM)。
43.根据权利要求31所述的系统,其中所述操作还包括:
生成所述话语的一个或者多个候选转录;以及
使用所述一个或者多个候选转录来执行搜索查询。
44.根据权利要求31所述的系统,其中所述操作还包括:
处理所述接收的有地理标记的音频信号以排除所述环境音频的、包括所述多个移动设备的用户的语音的部分。
45.根据权利要求44所述的系统,其中:
所述操作还包括:
限定围绕所述特定地理位置的区域,
从所述多个噪声模型之中选择与所述区域内的地理位置相关联的多个噪声模型,以及
生成所述选择的噪声模型的加权组合;并且使用所述选择的噪声模型的加权组合来执行所述噪声补偿。
46.根据权利要求31所述的系统,其中所述操作还包括:从针对所述多个地理位置生成的多个噪声模型之中选择针对所述特定地理位置生成的所述噪声模型。
47.根据权利要求31所述的系统,其中生成所述噪声模型还包括:使用所述有地理标记的音频信号的所述子集以及使用所述音频信号的与所述话语对应的环境音频部分来针对所述特定地理位置生成所述噪声模型。
48.根据权利要求31所述的系统,其中所述操作还包括:
限定围绕所述特定地理位置的区域;以及
选择在所述区域内记录的所述有地理标记的音频信号作为所述有地理标记的音频信号的所述子集。
49.一种用计算机程序编码的计算机存储介质,所述程序包括指令,所述指令在由一个或者多个计算机执行时使得所述一个或者多个计算机执行操作,所述操作包括:
接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号;
接收与由特定移动设备记录的话语对应的音频信号;
确定与所述特定移动设备相关联的特定地理位置;
选择有地理标记的音频信号的子集,并且基于所述相应的音频信号是否被人工上传或自动更新来加权所述子集中的每个有地理标记的音频信号;
使用所述有地理标记的音频信号的子集来针对所述特定地理位置生成噪声模型;以及
使用已经针对所述特定地理位置生成的所述噪声模型来对与所述话语对应的所述音频信号执行噪声补偿。
50.一种计算机实现的方法,包括:
接收与由多个移动设备在多个地理位置记录的环境音频对应的有地理标记的音频信号;
接收与由特定移动设备记录的话语对应的音频信号;
确定与所述特定移动设备相关联的特定地理位置;
选择有地理标记的音频信号的子集,并且基于所述相应的音频信号是否被人工上传或自动更新来加权所述子集中的每个有地理标记的音频信号;
使用所述有地理标记的音频信号的子集来针对所述特定地理位置生成噪声模型;以及
使用已经针对所述特定地理位置生成的所述噪声模型来对与所述话语对应的所述音频信号执行噪声补偿。
CN201610320104.XA 2010-04-14 2011-03-22 用于增强话音识别准确度的有地理标记的环境音频的系统及方法 Active CN105741848B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/760,147 2010-04-14
US12/760,147 US8265928B2 (en) 2010-04-14 2010-04-14 Geotagged environmental audio for enhanced speech recognition accuracy
CN201180019038.8A CN102918591B (zh) 2010-04-14 2011-03-22 用于增强话音识别准确度的有地理标记的环境音频

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201180019038.8A Division CN102918591B (zh) 2010-04-14 2011-03-22 用于增强话音识别准确度的有地理标记的环境音频

Publications (2)

Publication Number Publication Date
CN105741848A true CN105741848A (zh) 2016-07-06
CN105741848B CN105741848B (zh) 2019-07-23

Family

ID=44041584

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201180019038.8A Active CN102918591B (zh) 2010-04-14 2011-03-22 用于增强话音识别准确度的有地理标记的环境音频
CN201610320104.XA Active CN105741848B (zh) 2010-04-14 2011-03-22 用于增强话音识别准确度的有地理标记的环境音频的系统及方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201180019038.8A Active CN102918591B (zh) 2010-04-14 2011-03-22 用于增强话音识别准确度的有地理标记的环境音频

Country Status (5)

Country Link
US (4) US8265928B2 (zh)
EP (4) EP2559031B1 (zh)
CN (2) CN102918591B (zh)
AU (1) AU2011241065B2 (zh)
WO (1) WO2011129954A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564546A (zh) * 2017-07-27 2018-01-09 上海师范大学 一种基于位置信息的语音端点检测方法

Families Citing this family (351)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001013255A2 (en) * 1999-08-13 2001-02-22 Pixo, Inc. Displaying and traversing links in character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080129520A1 (en) * 2006-12-01 2008-06-05 Apple Computer, Inc. Electronic device with enhanced audio feedback
US7912828B2 (en) * 2007-02-23 2011-03-22 Apple Inc. Pattern searching methods and apparatuses
US8977255B2 (en) * 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US9053089B2 (en) * 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8364694B2 (en) * 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) * 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) * 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) * 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8355919B2 (en) * 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8352272B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8352268B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8396714B2 (en) * 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) * 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) * 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110010179A1 (en) * 2009-07-13 2011-01-13 Naik Devang K Voice synthesis and processing
US20110066438A1 (en) * 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
US8682649B2 (en) * 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
EP3091535B1 (en) 2009-12-23 2023-10-11 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US20110167350A1 (en) * 2010-01-06 2011-07-07 Apple Inc. Assist Features For Content Display Device
US8311838B2 (en) * 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US20110177809A1 (en) * 2010-01-15 2011-07-21 Qualcomm Incorporated Affecting a navigation function in response to a perceived transition from one environment to another
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US20110316672A1 (en) * 2010-06-29 2011-12-29 International Business Machines Corporation Mobile communication based tagging
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8521526B1 (en) * 2010-07-28 2013-08-27 Google Inc. Disambiguation of a spoken query term
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8812014B2 (en) * 2010-08-30 2014-08-19 Qualcomm Incorporated Audio-based environment awareness
US9277362B2 (en) * 2010-09-03 2016-03-01 Blackberry Limited Method and apparatus for generating and using location information
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US8532674B2 (en) * 2010-12-10 2013-09-10 General Motors Llc Method of intelligent vehicle dialing
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
WO2012107561A1 (en) * 2011-02-10 2012-08-16 Dolby International Ab Spatial adaptation in multi-microphone sound capture
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CN104040480A (zh) * 2011-03-28 2014-09-10 安比恩特兹公司 利用声学语境进行搜索的方法和系统
US9137734B2 (en) * 2011-03-30 2015-09-15 Microsoft Technology Licensing, Llc Mobile device configuration based on status and location
US9298287B2 (en) 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US20120265526A1 (en) * 2011-04-13 2012-10-18 Continental Automotive Systems, Inc. Apparatus and method for voice activity detection
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8595015B2 (en) * 2011-08-08 2013-11-26 Verizon New Jersey Inc. Audio communication assessment
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
EP2831872A4 (en) * 2012-03-30 2015-11-04 Intel Corp MULTISENSOR SPEED DEPENDENT CONTEXTUAL LANGUAGE IDENTIFICATION AND SUMMARY
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11023520B1 (en) 2012-06-01 2021-06-01 Google Llc Background audio identification for query disambiguation
US9123338B1 (en) 2012-06-01 2015-09-01 Google Inc. Background audio identification for speech disambiguation
JP2013254395A (ja) * 2012-06-07 2013-12-19 Ricoh Co Ltd 処理装置、処理システム、出力方法およびプログラム
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
EP2867890B1 (en) * 2012-06-28 2018-04-25 Nuance Communications, Inc. Meta-data inputs to front end processing for automatic speech recognition
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US8639577B1 (en) * 2012-07-31 2014-01-28 Wal-Mart Stores, Inc. Use of sound to authenticate and enable a return with an electronic receipt
US8831957B2 (en) * 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
US8571865B1 (en) * 2012-08-10 2013-10-29 Google Inc. Inference-aided speaker recognition
US20140074466A1 (en) 2012-09-10 2014-03-13 Google Inc. Answering questions using environmental context
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9251804B2 (en) * 2012-11-21 2016-02-02 Empire Technology Development Llc Speech recognition
EP2877993B1 (en) * 2012-11-21 2016-06-08 Huawei Technologies Co., Ltd. Method and device for reconstructing a target signal from a noisy input signal
US20140163768A1 (en) * 2012-12-11 2014-06-12 At&T Intellectual Property I, L.P. Event and condition determination based on sensor data
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9653070B2 (en) 2012-12-31 2017-05-16 Intel Corporation Flexible architecture for acoustic signal processing engine
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US9032000B2 (en) * 2013-02-19 2015-05-12 Digital Globe Inc. System and method for geolocation of social media posts
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US10229701B2 (en) 2013-02-28 2019-03-12 Nuance Communications, Inc. Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission
WO2014133525A1 (en) * 2013-02-28 2014-09-04 Nuance Communication, Inc. Server-side asr adaptation to speaker, device and noise condition via non-asr audio transmission
US20140270249A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression
US20140278415A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Voice Recognition Configuration Selector and Method of Operation Therefor
US20140278392A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Pre-Processing Audio Signals
US9237225B2 (en) 2013-03-12 2016-01-12 Google Technology Holdings LLC Apparatus with dynamic audio signal pre-conditioning and methods therefor
US20140278393A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US9846506B2 (en) * 2013-03-13 2017-12-19 Clarion Co., Ltd. Display device
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US11151899B2 (en) 2013-03-15 2021-10-19 Apple Inc. User training by intelligent digital assistant
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9886160B2 (en) * 2013-03-15 2018-02-06 Google Llc Managing audio at the tab level for user notification and control
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
AU2014251347B2 (en) 2013-03-15 2017-05-18 Apple Inc. Context-sensitive handling of interruptions
US9437208B2 (en) * 2013-06-03 2016-09-06 Adobe Systems Incorporated General sound decomposition models
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
US9727129B2 (en) * 2013-06-28 2017-08-08 Harman International Industries, Incorporated System and method for audio augmented reality
WO2015017303A1 (en) * 2013-07-31 2015-02-05 Motorola Mobility Llc Method and apparatus for adjusting voice recognition processing based on noise characteristics
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US9530416B2 (en) 2013-10-28 2016-12-27 At&T Intellectual Property I, L.P. System and method for managing models for embedded speech and language processing
US9666188B2 (en) 2013-10-29 2017-05-30 Nuance Communications, Inc. System and method of performing automatic speech recognition using local private data
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US8862467B1 (en) * 2013-12-11 2014-10-14 Google Inc. Contextual speech recognition
CN103680493A (zh) 2013-12-19 2014-03-26 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法和装置
WO2015100587A1 (zh) * 2013-12-31 2015-07-09 海能达通信股份有限公司 语音录制方法、通话录音回放方法以及相关装置和系统
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9633657B2 (en) * 2014-04-02 2017-04-25 Speakread A/S Systems and methods for supporting hearing impaired users
US10104452B2 (en) * 2014-05-08 2018-10-16 Paypal, Inc. Gathering unique information from dispersed users
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9904851B2 (en) 2014-06-11 2018-02-27 At&T Intellectual Property I, L.P. Exploiting visual information for enhancing audio signals via source separation and beamforming
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
US9639854B2 (en) 2014-06-26 2017-05-02 Nuance Communications, Inc. Voice-controlled information exchange platform, such as for providing information to supplement advertising
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9837102B2 (en) * 2014-07-02 2017-12-05 Microsoft Technology Licensing, Llc User environment aware acoustic noise reduction
US10051364B2 (en) 2014-07-03 2018-08-14 Qualcomm Incorporated Single channel or multi-channel audio control interface
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9530408B2 (en) 2014-10-31 2016-12-27 At&T Intellectual Property I, L.P. Acoustic environment recognizer for optimal speech processing
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US11275757B2 (en) 2015-02-13 2022-03-15 Cerner Innovation, Inc. Systems and methods for capturing data, creating billable information and outputting billable information
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
CN104777998B (zh) * 2015-03-17 2018-12-18 惠州Tcl移动通信有限公司 图片旋转的方法及智能终端
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
WO2016172591A1 (en) 2015-04-24 2016-10-27 Dolby Laboratories Licensing Corporation Augmented hearing system
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
CN104951182B (zh) * 2015-05-27 2021-05-28 深圳市万普拉斯科技有限公司 应用的界面主题的更换方法、装置及智能终端
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
CN107683504B (zh) * 2015-06-10 2021-05-28 赛伦斯运营公司 用于运动自适应语音处理的方法、系统和计算机可读介质
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
EP3317879B1 (de) * 2015-06-30 2020-02-19 Fraunhofer Gesellschaft zur Förderung der Angewand Verfahren und vorrichtung zum zuordnen von geräuschen und zum analysieren
CN105824550B (zh) * 2015-07-23 2021-11-30 维沃移动通信有限公司 一种屏幕保护界面控制方法和装置
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
CN105654960A (zh) * 2015-09-21 2016-06-08 宇龙计算机通信科技(深圳)有限公司 一种对终端声音消噪的处理方法及装置
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
KR102494139B1 (ko) * 2015-11-06 2023-01-31 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10631108B2 (en) 2016-02-08 2020-04-21 K/S Himpp Hearing augmentation systems and methods
US10284998B2 (en) 2016-02-08 2019-05-07 K/S Himpp Hearing augmentation systems and methods
US10390155B2 (en) 2016-02-08 2019-08-20 K/S Himpp Hearing augmentation systems and methods
US10341791B2 (en) 2016-02-08 2019-07-02 K/S Himpp Hearing augmentation systems and methods
US10750293B2 (en) * 2016-02-08 2020-08-18 Hearing Instrument Manufacture Patent Partnership Hearing augmentation systems and methods
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10181321B2 (en) * 2016-09-27 2019-01-15 Vocollect, Inc. Utilization of location and environment to improve recognition
US9959864B1 (en) * 2016-10-27 2018-05-01 Google Llc Location-based voice query recognition
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10296586B2 (en) * 2016-12-23 2019-05-21 Soundhound, Inc. Predicting human behavior by machine learning of natural language interpretations
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US11567726B2 (en) * 2017-07-21 2023-01-31 Google Llc Methods, systems, and media for providing information relating to detected events
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
GB2566759B8 (en) * 2017-10-20 2021-12-08 Please Hold Uk Ltd Encoding identifiers to produce audio identifiers from a plurality of audio bitstreams
GB2566760B (en) 2017-10-20 2019-10-23 Please Hold Uk Ltd Audio Signal
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
CN108335694B (zh) * 2018-02-01 2021-10-15 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
KR20190136578A (ko) * 2018-05-31 2019-12-10 삼성전자주식회사 음성 인식 방법 및 장치
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
CN109087659A (zh) * 2018-08-03 2018-12-25 三星电子(中国)研发中心 音频优化方法及设备
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11869509B1 (en) 2018-12-21 2024-01-09 Cerner Innovation, Inc. Document generation from conversational sources
US11875883B1 (en) 2018-12-21 2024-01-16 Cerner Innovation, Inc. De-duplication and contextually-intelligent recommendations based on natural language understanding of conversational sources
US11062704B1 (en) 2018-12-21 2021-07-13 Cerner Innovation, Inc. Processing multi-party conversations
US11410650B1 (en) 2018-12-26 2022-08-09 Cerner Innovation, Inc. Semantically augmented clinical speech processing
CN109545196B (zh) * 2018-12-29 2022-11-29 深圳市科迈爱康科技有限公司 语音识别方法、装置及计算机可读存储介质
CN109545195B (zh) * 2018-12-29 2023-02-21 深圳市科迈爱康科技有限公司 陪伴机器人及其控制方法
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
WO2020208972A1 (ja) * 2019-04-08 2020-10-15 ソニー株式会社 応答生成装置及び応答生成方法
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
BR112021024472A2 (pt) 2019-06-04 2022-02-15 Geoquest Systems Bv Aplicação de geomarcadores a imagens para identificar oportunidades de exploração
KR102260216B1 (ko) * 2019-07-29 2021-06-03 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US20210256176A1 (en) * 2020-02-18 2021-08-19 International Business Machines Corporation Development of geo-spatial physical models using historical lineage data
US20210304736A1 (en) * 2020-03-30 2021-09-30 Nvidia Corporation Media engagement through deep learning
US11295543B2 (en) * 2020-03-31 2022-04-05 International Business Machines Corporation Object detection in an image
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
EP4169307A4 (en) * 2020-06-22 2024-02-21 Qualcomm Inc VOICE OR VOICE RECOGNITION IN HIGH NOISE ENVIRONMENTS
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US20220100796A1 (en) * 2020-09-29 2022-03-31 Here Global B.V. Method, apparatus, and system for mapping conversation and audio data to locations
CN113496099B (zh) * 2021-04-06 2022-05-06 西南交通大学 一种基于深度学习的边坡永久位移预测模型训练方法
CN113506565A (zh) * 2021-07-12 2021-10-15 北京捷通华声科技股份有限公司 语音识别的方法、装置、计算机可读存储介质与处理器
CN114333881B (zh) * 2022-03-09 2022-05-24 深圳市迪斯声学有限公司 基于环境自适应的音频传输降噪方法、设备及介质
CN116962935B (zh) * 2023-09-20 2024-01-30 深圳市齐奥通信技术有限公司 一种基于数据分析的耳机降噪方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020059068A1 (en) * 2000-10-13 2002-05-16 At&T Corporation Systems and methods for automatic speech recognition
US20040138882A1 (en) * 2002-10-31 2004-07-15 Seiko Epson Corporation Acoustic model creating method, speech recognition apparatus, and vehicle having the speech recognition apparatus
US20050187763A1 (en) * 2004-02-23 2005-08-25 General Motors Corporation Dynamic tuning of hands-free algorithm for noise and driving conditions
CN1737906A (zh) * 2004-03-23 2006-02-22 哈曼贝克自动系统-威美科公司 利用中枢网络分离语音信号
US20070124756A1 (en) * 2005-11-29 2007-05-31 Google Inc. Detecting Repeating Content in Broadcast Media
US20080188271A1 (en) * 2007-02-07 2008-08-07 Denso Corporation Communicating road noise control system, in-vehicle road noise controller, and server
CN101325061A (zh) * 2007-06-13 2008-12-17 株式会社东芝 用于音频信号处理的方法和装置
US20090271188A1 (en) * 2008-04-24 2009-10-29 International Business Machines Corporation Adjusting A Speech Engine For A Mobile Computing Device Based On Background Noise

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
US6778959B1 (en) * 1999-10-21 2004-08-17 Sony Corporation System and method for speech verification using out-of-vocabulary models
US7457750B2 (en) 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US6876966B1 (en) * 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US6915262B2 (en) 2000-11-30 2005-07-05 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
US7224981B2 (en) 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
JP4109063B2 (ja) * 2002-09-18 2008-06-25 パイオニア株式会社 音声認識装置及び音声認識方法
US7457745B2 (en) 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US7392188B2 (en) * 2003-07-31 2008-06-24 Telefonaktiebolaget Lm Ericsson (Publ) System and method enabling acoustic barge-in
JP4548646B2 (ja) * 2003-09-12 2010-09-22 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
CN101361301A (zh) * 2005-11-29 2009-02-04 谷歌公司 检测广播媒体中的重复内容
US7890326B2 (en) 2006-10-13 2011-02-15 Google Inc. Business listing search
US8041568B2 (en) 2006-10-13 2011-10-18 Google Inc. Business listing search
US20090030687A1 (en) 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US8589163B2 (en) 2009-12-04 2013-11-19 At&T Intellectual Property I, L.P. Adapting language models with a bit mask for a subset of related words
US8468012B2 (en) 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020059068A1 (en) * 2000-10-13 2002-05-16 At&T Corporation Systems and methods for automatic speech recognition
US20040138882A1 (en) * 2002-10-31 2004-07-15 Seiko Epson Corporation Acoustic model creating method, speech recognition apparatus, and vehicle having the speech recognition apparatus
US20050187763A1 (en) * 2004-02-23 2005-08-25 General Motors Corporation Dynamic tuning of hands-free algorithm for noise and driving conditions
CN1737906A (zh) * 2004-03-23 2006-02-22 哈曼贝克自动系统-威美科公司 利用中枢网络分离语音信号
US20070124756A1 (en) * 2005-11-29 2007-05-31 Google Inc. Detecting Repeating Content in Broadcast Media
US20080188271A1 (en) * 2007-02-07 2008-08-07 Denso Corporation Communicating road noise control system, in-vehicle road noise controller, and server
CN101325061A (zh) * 2007-06-13 2008-12-17 株式会社东芝 用于音频信号处理的方法和装置
US20090271188A1 (en) * 2008-04-24 2009-10-29 International Business Machines Corporation Adjusting A Speech Engine For A Mobile Computing Device Based On Background Noise

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564546A (zh) * 2017-07-27 2018-01-09 上海师范大学 一种基于位置信息的语音端点检测方法

Also Published As

Publication number Publication date
AU2011241065A1 (en) 2012-10-04
EP2750133B1 (en) 2018-08-29
CN102918591B (zh) 2016-06-08
AU2011241065B2 (en) 2014-04-17
EP3923281B1 (en) 2024-01-31
US8265928B2 (en) 2012-09-11
US8175872B2 (en) 2012-05-08
EP3425634A2 (en) 2019-01-09
EP2750133A1 (en) 2014-07-02
EP3425634B1 (en) 2021-09-15
US8682659B2 (en) 2014-03-25
CN105741848B (zh) 2019-07-23
US20110257974A1 (en) 2011-10-20
US20120022870A1 (en) 2012-01-26
US20130238325A1 (en) 2013-09-12
US20120296643A1 (en) 2012-11-22
EP3425634A3 (en) 2019-03-20
EP3923281A1 (en) 2021-12-15
EP2559031B1 (en) 2014-05-14
US8428940B2 (en) 2013-04-23
WO2011129954A1 (en) 2011-10-20
CN102918591A (zh) 2013-02-06
EP2559031A1 (en) 2013-02-20

Similar Documents

Publication Publication Date Title
CN102918591B (zh) 用于增强话音识别准确度的有地理标记的环境音频
CN103038817B (zh) 使用地理信息的声学模型适配
CN103069480B (zh) 用于语音识别的语音模型和噪声模型
US10819811B2 (en) Accumulation of real-time crowd sourced data for inferring metadata about entities
US8255217B2 (en) Systems and methods for creating and using geo-centric language models
KR20160081995A (ko) 상태-종속 쿼리 응답
CN103038765A (zh) 用于适配情境模型的方法和装置
AU2014200999B2 (en) Geotagged environmental audio for enhanced speech recognition accuracy

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant