CN103038817A - 使用地理信息的声学模型适配 - Google Patents

使用地理信息的声学模型适配 Download PDF

Info

Publication number
CN103038817A
CN103038817A CN201180021722XA CN201180021722A CN103038817A CN 103038817 A CN103038817 A CN 103038817A CN 201180021722X A CN201180021722X A CN 201180021722XA CN 201180021722 A CN201180021722 A CN 201180021722A CN 103038817 A CN103038817 A CN 103038817A
Authority
CN
China
Prior art keywords
geographic position
sound signal
acoustic model
mobile device
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201180021722XA
Other languages
English (en)
Other versions
CN103038817B (zh
Inventor
M·I·洛伊德
T·克里斯特詹森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN201410723927.8A priority Critical patent/CN104575493B/zh
Publication of CN103038817A publication Critical patent/CN103038817A/zh
Application granted granted Critical
Publication of CN103038817B publication Critical patent/CN103038817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephone Function (AREA)

Abstract

用于增强语音识别准确度的方法、系统和装置、包括在计算机存储介质上编码的计算机程序。在一个方面中,一种方法包括:接收与移动设备记录的讲话对应的音频信号;确定与移动设备关联的地理位置;针对地理位置适配一个或者多个声学模型;并且使用针对地理位置适配的一个或者多个声学模型对音频信号执行语音识别。

Description

使用地理信息的声学模型适配
相关申请的交叉引用
本申请要求标题为ACOUSTIC MODEL ADAPTATION USINGGEOGRAPHIC INFORMATION、于2010年5月26日提交的第12/787,568号美国申请的优先权,通过援引将其公开内容并入于此。
技术领域
本说明书涉及语音识别。
背景技术
移动设备的用户可以例如通过在键盘上键入或者向麦克风中口述来录入文字。在话音输入的背景中,自动化搜索识别(“ASR”)引擎可能在与特定语言关联的声音基于用户的口音而变化时准确识别口述单词有困难。例如在由纽约人或者波士顿人口述时,典型ASR引擎可能识别单词“park”分别为单词“pork”或者“pack”。
发明内容
一般而言,在本说明书中描述的主题内容的一个创新方面可以体现于方法中,这些方法用于ASR引擎自动地训练、选择、生成或者否则适配在地理位置上专属(或者“地理专属”)于一个或者多个地理区域的一个或者多个声学模型。声学模型应用于用位置信息进行“地理标注”的音频信号(或者“采样”或者“波形”)以通过比较音频信号与声音的统计表示来执行语音识别,这些声音组成特定语言的每个单词。一个或者多个声学模型可以包括在地理位置上专属于单个地理区域或者多个地理区域的单个声学模型。
如本说明书中所用,“地理标注”的音频信号指代已经与位置元数据(例如地理位置元数据或者相对位置元数据)或者地理空间元数据关联或者用该元数据“标注”的信号。除其他以外,位置元数据可以包括导航坐标如纬度和经度、海拔信息、方位或者航向信息、与位置关联的名称或者地址信息、相对位置或者方向信息或者引用位置类型的信息。
用于适配声学模型的方法包括接收多个移动设备在多个地理位置记录的地理标注的音频信号并且使用地理标注的音频信号中的至少部分来适配一个或者多个声学模型。在接收移动设备在地理位置之一内或者附近记录的讲话时,ASR引擎可以使用一个或者多个适配的声学模型对讲话执行语音识别。显然可以在接收讲话之前、期间或者之后适配声学模型。
讲话可以对应于任何类型的话音输入、比如向话音搜索查询系统、口授系统或者对话系统的输入。在话音搜索查询系统的情境中,“搜索查询”包括在用户请求搜索引擎执行搜索查询时用户向搜索引擎提交的一个或者多个查询检索词,其中“检索词”或者“查询检索词”包括一个或者多个全部或者部分单词、字符或者字符串。除其他以外,搜索查询的“结果”(或者“搜索结果”)包括引用如下资源的统一资源标识符(URI),搜索引擎确定该资源响应于搜索查询。除其他以外,搜索结果可以比如包括标题、预览图像、用户等级、地图或者方向、对应资源的描述或者已经从对应资源自动或者手动提取或者否则与对应资源关联的文字摘录。
一般而言,在本说明书中描述的主题内容的另一创新方面可以实现于包括以下动作的方法中:接收与移动设备记录的讲话对应的音频信号;确定与移动设备关联的地理位置;针对地理位置适配一个或者多个声学模型;并且使用针对地理位置适配的一个或者多个声学模型对音频信号执行语音识别。
这些方面的其它实施例包括配置成执行方法的动作的对应系统、装置和在计算机存储设备上编码的计算机程序。
这些和其它实施例可以各自可选地包括以下特征中的一个或者多个特征。在各种例子中,适配一个或者多个声学模型还包括在接收与讲话对应的音频信号之前适配一个或者多个声学模型;适配一个或者多个声学模型还包括在接收与讲话对应的音频信号之后适配一个或者多个声学模型;动作还包括接收与多个移动设备在多个地理位置记录的音频对应的地理标注的音频信号;并且针对地理位置适配一个或者多个声学模型还包括使用地理标注的音频信号的子集针对地理位置适配一个或者多个声学模型;动作还包括:针对地理标注的音频信号中的每个地理标注的音频信号确定在与移动设备关联的地理位置和与地理标注的音频信号关联的地理位置之间的距离;并且选择与在与移动设备关联的地理位置的预定距离内的地理位置关联、或者与在与关联于移动设备的地理位置最近的N个地理位置之中的地理位置关联的地理标注的音频信号作为地理标注的音频信号的子集;动作还包括选择与也与移动设备关联的地理位置关联的地理标注的音频信号作为地理标注的音频信号的子集;动作还包括基于与移动设备关联的地理位置和基于与讲话关联的情境数据选择地理标注的音频信号的子集;情境数据包括对移动设备记录讲话时的时间或者日期进行引用的数据、对移动设备在记录讲话时测量的速度或者运动量进行引用的数据、引用移动设备的设置的数据或者引用移动设备的类型的数据;适配声学模型包括使用地理标注的音频信号的子集作为训练集来训练高斯混合模型(GMM);讲话代表话音搜索查询或者向数字口授应用或者对话系统的输入;确定地理位置还包括从移动设备接收引用地理位置的数据;确定地理位置还包括确定与移动设备关联的以往地理位置或者默认地理位置;动作还包括:生成讲话的一个或者多个候选转录;并且使用一个或者多个候选转录来执行搜索查询;针对地理位置适配一个或者多个声学模型还包括从已经针对多个地理位置生成的多个声学模型之中选择针对与移动设备关联的地理位置生成的一个或者多个声学模型;针对地理位置适配一个或者多个声学模型还包括向单个声学模型使用的特征空间中并入引用地理位置的数据;向单个声学模型使用的特征空间中并入引用地理位置的数据还包括向单个声学模型使用的特征空间中并入值,其中值包括梅尔频率倒频谱系数和地理坐标;针对地理位置适配一个或者多个声学模型还包括向在单个声学模型中包括的状态信息中并入引用地理位置的数据;和/或针对地理位置适配一个或者多个声学模型还包括:推导与地理位置关联的变换矩阵;并且将变换矩阵应用于单个通用声学模型。
可以实施在本说明书中描述的主题内容的具体实施例以实现以下优点中的一个或者多个优点。可以提高语音识别准确度。可以使用准确地反映口音、方言或存在于给定语言中的语音模式中的差异的讲话以及可以跨不同的地理区域发生的讲话来适配声学模型。语音识别可以在服务器侧处执行,而非在客户端设备上执行,以允许增强处理优化并且增加计算效率。
在附图和下文描述中阐述在本说明书中描述的主题内容的一个或者多个实施例的细节。主题内容的其它潜在特征、方面和优点将从该描述、附图和权利要求中变得清楚。
附图说明
图1是使用地理标注的音频以增强语音识别准确度的例子系统的图。
图2和图3是例子过程的流程图。
图4是例子过程的泳道图。
各种附图中的相似标号指示相似要素。
具体实施方式
图1是使用地理标注的音频以增强语音识别准确度的例子系统100的图。图1也图示了在状态(a)至(i)期间在系统100内的数据流以及在状态(i)期间在系统100的移动设备102上显示的用户接口101。简言之,系统100适配地理专属于一个或者多个地理区域的一个或者多个声学模型。声学模型应用于用位置信息进行地理标注的音频信号,以通过比较音频信号与声音的统计表示来执行语音识别,这些声音组成特定语言的每个单词。
更具体而言,系统100包括通过一个或者多个网络106与服务器104和ASR引擎105通信的移动设备102。服务器104可以是搜索引擎、口授引擎、对话系统或者任何如下其它引擎或者系统,该引擎或者系统使用转录的语音或者调用使用转录的语音的软件应用以执行某个动作。网络106可以包括无线蜂窝网络、无线局域网(WLAN)或者Wi-Fi网络、第三代(3G)或者第四代(4G)移动电信网络、专用网络如内部网、公用网络如因特网或者其任何适当组合。状态(a)至(i)描绘当系统100执行例子过程时出现的数据流。状态(a)至(i)可以是时序状态,或者它们可以在与所示序列不同的序列中出现。
根据图1中所示例子过程,ASR引擎105从各种设备(例如移动设备102或者其它移动或者非移动设备)接收地理标注的音频信号107至109并且使用地理标注的音频信号107至109针对一个或者多个地理位置适配一个或者多个地理专属声学模型111。地理专属声学模型111可以包括适配成地理专属于一个地理位置或者多个地理位置的一个单个声学模型,或者地理专属声学模型111可以包括共同适配成地理专属于一个地理位置或者各自适配成地理专属于不同地理位置的两个或者更多声学模型。
当接收与移动设备102记录的讲话113对应的音频信号112时,确定与移动设备102(或者移动设备102的用户114(“波士顿Bob”))关联的一个或者多个地理位置。ASR引擎105使用地理专属声学模型111来转录讲话113,这些声学模型匹配于与移动设备102(或者移动设备102的用户114)关联的地理位置或者ASR引擎105确定这些声学模型适合于这些地理位置。从ASR引擎105向服务器104传达一个或者多个候选转录115。当服务器104是搜索引擎时,服务器104使用候选转录115来执行一个或者多个搜索查询、生成搜索结果116并且向移动设备102传达搜索结果116用于显示。
更具体而言,在状态(a)期间,通过网络106向ASR引擎105传达地理标注的音频信号107至109。一般而言,地理标注的音频信号107至109中的一个或者多个音频信号包括不同用户的话音。可以在状态(a)期间向ASR引擎105传达更少或者更多地理标注的音频信号。
虽然在地理标注的音频信号107至109中编码的话音中的若干语音可以共享共同语言,但是口述共同语言的不同话音可以具有与不同地理区域相关的不同口音(即“地理相关”语音)。因而与音频信号107至109关联的地理位置可以用来按照地理区域(并且因此按照口音、方言或者语音模式)对音频信号聚类并且适配一个或者多个声学模型111以更好地识别表现特定地理相关口音、方言或者语音模式的语音。除了话音之外,地理标注的音频信号107至109也可以包括在特定位置(自然地或者以别的方式)出现的周围声音或者环境噪声。
在状态(b)期间,ASR引擎105接收地理标注的音频信号107至109并且在音频信号汇集中(例如在计算机可读存储介质上)存储地理标注的音频信号107至109(或者其部分)。如下文描述的那样,ASR引擎105存储的音频信号汇集用于训练、构建、生成或者否则适配一个或者多个地理专属声学模型111,这些声学模型用来对地理标注的音频信号和讲话执行语音识别。
在图1中,ASR引擎105接收已经用引用位置“纽约市”的元数据117标注的音频信号107。另外,ASR引擎105接收已经用引用位置“波士顿”的元数据118和引用“城市”地理位置类型(即因为“波士顿”是城市)的元数据119标注的音频信号108。此外,ASR引擎105接收已经用引用位置“新英格兰”的元数据120和引用位置“波士顿”(“波士顿”是“新英格兰”内的城市)的元数据121标注的音频信号109。与相应音频信号关联的地理标注的位置可以指代移动设备的位置、用户、讲话引用的位置、默认位置、ASR引擎105、网络106或者网络106的部分或者一些其它位置。
元数据117至121(或者其一些部分)可以如图所示由向ASR引擎105传达元数据117至121的设备与音频信号107至109关联。取而代之,元数据117至121(或者其一些部分)可以由ASR引擎105、搜索引擎104或者由另一服务器在接收未标注的音频信号之后基于推断移动设备102(或者移动设备102的用户114)的位置来与音频信号107至109关联。
音频信号107至109可以各自包括相对高质量音频、比如十六千赫兹无损音频的两秒(或者更多)摘录。元数据可以引用设备(或者设备的用户)在记录、捕获、生成或者否则获得音频时的位置,或者元数据可以引用设备(或者设备的用户)在记录、捕获、生成或者否则获得音频之前或者之后的时间的位置。可以向ASR引擎105人工上传音频信号107至109,或者对于选择参与的用户,可以自动获得并且向ASR引擎105传达音频信号107至109而无需在向ASR引擎105传达每个音频信号之前的显式用户激励。
元数据117至121可以用任何数目的不同格式或者细节或者粒度水平描述位置。例如,元数据117至121可以包括标识地理区域的二维坐标(例如纬度和经度)、地址或者信息。当在移动车辆中记录音频信号时,元数据117至121可以描述车辆的路径(例如包括起点和终点以及运动数据)。此外,元数据117至121可以在位置类型方面描述位置(例如“移动车辆”、“在海滩上”、“在饭馆中”、“在高楼中”、“南亚”、“农村区域”、“有建筑噪声的某处”、“游乐园”、“在船艇上”、“室内”、“地下”、“在街道上”、“森林”)。
另外,元数据117至121可以在有界区域方面描述位置(例如表达为限定有界区域的坐标集)或者可以使用区域标识符、比如州名或者标识符、城市名、惯用名(例如“中央公园”、“唐人街”、“TriBeca”)、国名或者任意限定区域的标识符(例如“房间/区域ABC123”)。单个音频信号可以与描述一个位置或者位置类型或者多个位置和/或位置类型的元数据关联。
ASR引擎105或者移动设备102可以处理元数据117至121以调整位置信息的细节水平(例如以确定与特定坐标集关联的州),或者位置信息可以被离散化(例如通过选择沿着路径的具体点或者与路径关联的区域)。可以通过指定或者添加位置类型元数据、例如通过向其关联地理坐标与海滩位置关联的音频信号添加“在海滩上”标签或者通过向包括在背景中交谈的多个人的声音的音频信号添加“有许多人的某处”标签来调整元数据的细节水平,当特定音频信号与引用两个或者更多位置的元数据关联时,ASR引擎105可以通过去除引用位置中的一个或者多个位置的元数据来过滤音频信号。
元数据引用的地理位置也可以转换成离散化的特征以减少可能不同位置的数目。这可以例如通过减少纬度和经度坐标的分辨率(例如从0.001度减少至1度或者5度)或者通过将纬度和经度坐标转换成地理位置的名称(例如通过使用在国家、州、城市或者省份之间的边界限定的区域)来完成。
由于ASR引擎105适配一个或者多个声学模型111以增强对包括不同口音的话音的识别,所以用来适配一个或者多个声学模型111的音频信号应当包括不同用户在不同地理位置的语音、口音和方言。就这一点而言,ASR引擎105可以使用语音活动检测器以验证ASR引擎105存储的音频信号汇集包括语音存在于其中的音频信号并且滤除或者以别的方式标识或者排除仅包括环境噪音或者环境声音的音频信号(或者音频信号的部分)。例如ASR引擎105可以去除音频信号的与在用户口述之前或者之后出现或者在单词之间的停顿之间出现的背景噪声对应的部分。ASR引擎105存储的音频信号汇集可以包括数以十计、数以百计、数以千计、数以百万计或者数以亿计的音频信号。
ASR引擎105对存储或者不存储特定音频信号(或者其部分)的判决可以分别基于确定用户的语音在音频信号中被编码或者未被编码。取而代之,ASR引擎105存储音频信号可以包括标识音频信号的包括用户的语音的部分、通过去除未包括用户的语音的部分或者通过关联元数据、该元数据引用包括用户的语音的部分来变更音频信号并且存储变更的音频信号。音频信号的环境噪声或者环境声音部分可以由ASR引擎105存储用于其它目的、例如构建地理专属噪声模型。
与音频信号107或者109关联的其它情境数据或者元数据也可以由ASR引擎105存储。例如ASR引擎105存储的音频信号可以在一些实施方式中包括其它元数据标签、比如指示背景语音(例如自助餐厅聊天)是否存在于音频信号内的标签、标识获得特定音频信号的日期的标签(例如用来确定采样年龄)、标识移动设备102的用户114的口音的标签、标识移动设备102的用户114设置的地点的标签(例如标识用户114偏好英国英语或者美国英语的标签)或者标识特定音频信号是否以一些方式从汇集的在相同或者相似位置获得的其它音频信号偏离的标签。例如标签可以标识无口音或者有重口音(例如南非口音)的用户正在与不同重口音(例如澳大利亚口音)关联的地理区域中使用移动设备以避免使用未准确反映与特定地理区域关联的口音的音频信号来适配声学模型。
ASR引擎105可以可选地过滤音频信号以排除满足或者未满足其它标准的特定音频信号。例如ASR引擎105可以判决不存储如下音频信号,该音频信号比某一年龄更老或者包括可以唯一标识个人或者可以用别的方式在性质上专有或者私有的背景聊天。在附加例子中,可以在与音频信号关联的元数据中标注如下数据,该数据引用是否人工或者自动上传ASR引擎105存储的音频信号,并且可以仅使用自动上传的那些音频信号或者仅使用人工上传的那些音频信号来适配一个或者多个声学模型111,或者可以在适配声学模型期间向每个上传类别分配不同加权。
虽然显式标签可以应用于ASR引擎105存储的音频信号以引用特定地理位置,但是在其它实施方式中,可以比如当可以推导在音频信号与地理位置之间的关联性时,无需或者未使用显式标签。例如可以通过处理搜索日志(例如用服务器104存储)以推断用于特定音频信号的地理位置来隐式地关联地理位置与音频信号。因而,ASR引擎105‘接收’地理标注的音频信号可以包括获得未用地理位置明确标注的音频信号并且推导和关联用于音频信号的一个或者多个地理标签。
在状态(c)期间,通过网络106从移动设备102向ASR引擎105传达音频信号112。音频信号112包括移动设备012(例如在用户隐式地或者显式地发起语音搜索查询时)记录的讲话113(如本地波士顿人、比如“波士顿Bob”可以口述的“Pahk yah kah”,它是措词“停放您的汽车”的表音转录)。音频信号112包括引用地理位置“波士顿”的元数据123。除了包括讲话113之外,音频信号112也可以包括环境音频摘录、比如在口述讲话113之前或者之后记录的两秒音频摘录。尽管在图1中图示了讲话113为语音查询,但是在其它例子实施方式中,讲话可以是向口授系统或者相对话系统的语音输入。
可以使用与ASR引擎105存储的音频信号关联的地理位置相同或者不同的细节水平来限定与音频信号112关联的地理位置(“波士顿”)。例如可以表达与ASR引擎105存储的音频信号关联的地理位置为地理区域,而可以表达与音频信号112关联的地理位置为地理坐标。当细节水平不同时,ASR引擎105可以处理元数据117至121的地理元数据123以对准相应细节水平,从而可以更容易执行子集选择过程。
元数据123可以由移动设备102(或者移动设备102对用户114)在记录讲话113时基于当前地理位置来与音频信号112关联并且可以与音频信号112一起从移动设备102向ASR引擎105传达。取而代之,元数据可以由ASR引擎105基于ASR引擎105推断的用于移动设备102(或者移动设备102的用户114)的地理位置来与音频信号112关联。
ASR引擎105或者移动设备102可以使用用户的日历时间表、(例如如存储于ASR引擎105或者服务器104的用户账户中或者如从移动设备102传达的)用户偏好、默认位置、以往位置(例如移动设备102的GPS模块计算的最新位置)、用户在提交语音搜索查询时显式提供的信息、根据讲话113本身、三角测量(例如WiFi或者小区塔三角测量)、在移动设备102中的GPS模块或者推算定位(dead reckoning)来推断地理位置。元数据123可以包括准确度信息,该信息指定地理位置确定的准确度,从而表示移动设备102(或者移动设备102的用户114)在记录讲话113时的时间实际上在元数据123指定的特定地理位置的可能性。
在附加例子中,ASR引擎105或者移动设备102可以使用用户在所有他的讲话内的平均位置、用户的“家乡位置”(例如如用户显式地指定或者根据口音推断的、用户当前居住的位置或者他成长并且他的口音来自的位置)、代表用户在一些近来时间段内的位置的‘平滑’、当前位置与用户的家乡位置的组合(例如根据两个二维纬度和经度推导的四维信号)或者作为连续二维纬度和经度信号的当前位置位置来推断地理位置。
也可以与音频信号112一起包括其它元数据。例如与音频信号一起包括的元数据可以包括与相应移动设备102关联的位置或者地点。例如地点可以描述移动设备102在其中注册的区域或者移动设备102的用户114的语言或者方言以及其它可选参数。语音识别模块124可以使用这一信息以选择、训练、生成或者以别的方式适配与移动设备102的情境匹配的噪声、话音、声学、流行度或者其它模型。
在状态(d)期间,ASR引擎105选择ASR引擎105已经接收的音频信号的子集并且使用声学模型适配模块125以使用音频信号的子集来训练、生成或者以别的方式适配一个或者多个声学模型111(例如高斯混合模型(GMM))。例如可以使用ASR引擎105选择的音频信号的子集作为用于一个或者多个声学模型111的训练集。
子集可以包括ASR引擎105存储的音频信号中的所有或者少于所有音频信号。这一选择可以通过比较来自音频信号107至109的声学信息与来自音频信号112的声学信息来出现以产生更准确反应在不同口音之间的实际地理边界的子集。
一般而言,一个或者多个声学模型111与噪声模型、语言模型和/或其它模型一起应用于音频信号112以将口述讲话113转译或者转录成一个或者多个文字候选转录115并且向候选转录115生成语音识别置信度分数。具体而言,一个或者多个声学模型111包括组成特定语言的每个单词的声音的统计表示,并且噪声模型用于噪声抑制或者噪声补偿。两种模型增强口述讲话113在ASR引擎105看来的可理解性。
更具体而言,声学模型适配模块125可以使用音频信号108和109针对与音频信号112关联的地理位置(“波士顿”)适配声学模型,因为地理标注音频信号108和109为已经在该地理位置或者附近或者在相同或者相似类型的位置被记录。另外,除了音频信号108和109之外或者取而代之,音频信号112本身也可以用来适配一个或者多个声学模型111。在针对特定地理位置适配声学模型时,声学模型适配模块125基于可以与特定口音、方言或者话音模式相关的标准来适配声学模型。
在另一例子中,声学模型适配模块125可以使用被地理标注为已经在另一地理位置(例如“纽约市”)或者附近或者在相同或者相似类型的位置被记录的音频信号107针对另一地理位置适配声学模型。如果声学模型适配模块125被配置成选择被地理标注为已经在与音频信号112关联的地理位置附近(例如在预定义距离内)被记录的音频信号,那么如果“纽约市”在“波士顿”的预定义距离内,则声学模型视频模块125也可以使用标注“纽约市”的音频信号107针对“波士顿”适配一个或者多个声学模型111。
除了使用位置标准之外,其它情境数据也可以用来选择由ASR引擎105用来适配一个或者多个声学模型111的音频信号的子集或者调整特定音频信号对一个或者多个声学模型111的适配具有的影响的权值。例如ASR引擎15可以选择如下音频信号的子集,这些音频信号的情境数据指示它们比预定义时间段更长或者更短,或者这些音频信号的情境数据指示它们满足某一质量或者近因标准。另外,ASR引擎105可以选择如下音频信号作为子集,这些音频信号的情境信息指示它们是使用具有与移动设备102相似的音频子系统的移动设备来记录的。
可以用来选择音频信号的子集的其它情境数据可以在一些例子中包括时间信息、日期信息、对特定移动设备在记录期间测量的速度或者运动数量进行引用的数据、其它设备传感器数据、设备状态数据(例如蓝牙耳机、扬声器电话或者传统输入方法)、用户标识符(如果用户选择提供用户标识符)或者标识移动设备类型或者机型的信息。情境数据例如可以提供在音频信号112的记录周围环境的条件的指示。
在一个例子中,移动设备102与音频信号112一起供应的情境数据可以指示移动设备102在与水体关联的区域中在步行速度以上行进。使用这一情境数据,ASR 105可以推断音频信号112在船艇上被记录并且可以选择与“在船艇上”位置类型关联的音频信号的子集以更好地识别“在船艇上”位置类型共有的口音、方言或者话音模式、比如渔夫或者水手使用的口音、方言或者话音模式。
在另一例子中,移动设备102与音频信号112一起供应的情境数据可以指示移动设备102在农村区域中。基于这一情境数据,ASR引擎105可以推断如果子集包括在城市区域中记录的音频信号则不会提高语音识别的准确度。因而情境数据可以由声学模型适配模块125用来选择将用来适配一个或者多个声学模型的音频信号或者选择用来识别特定讲话的适当声学模型111。在一些实施方式中,声学模型适配模块125可以基于与音频信号关联的地理位置和与音频信号112关联的地理位置的邻近度来选择ASR引擎105存储的音频信号的加权组合。
声学模型适配模块125也可以使用音频信号112本身中包括的音频来适配一个或者多个声学模型111。例如声学模型适配模块125可以相对于音频信号112的质量确定ASR引擎105存储的音频信号的质量并且可以选择仅使用ASR引擎105存储的音频信号、仅使用音频信号112或者使用其任何适当加权或者未加权组合来适配一个或者多个声学模型111。例如声学模型适配模块125可以确定音频信号112包括很少讲话或者ASR引擎105针对该特定地理位置存储包括多个讲话的其它高质量音频信号并且可以选择适配声学模型而未使用音频信号112(或者向音频信号112给予很少加权)。
在一些实施方式中,声学模型适配模块125选择与N(例如五个、二十个或者五十个)与关联于音频信号112的地理位置最近的地理位置关联的音频信号作为子集。当与音频信号112关联的地理位置描述点或者地方(例如坐标)时,可以相对于该地理位置的几何形状(例如圆形或者方形)限定几何形状,并且声学模型适配模块125可以选择ASR引擎105存储的与全部或者部分位于限定的几何形状内的地理区域关联的音频信号作为子集。当与音频信号112关联的地理位置描述区域时,声学模型适配模块125可以选择ASR引擎105存储的与在区域的任何点的预定距离内的地理区域关联的音频信号作为子集。
如果已经在位置类型(即“在海滩上”、“城市”)方面限定与音频信号112关联的地理位置,ASR引擎105可以选择与相同或者相似位置类型关联的音频信号,即使与选择的音频信号关联的物理地理位置在物理上未在与音频信号112关联的地理位置附近。例如由于全世界的冲浪运动员可以使用相似口音或者方言,所以可以用“在海滩上”元数据标注用于在佛罗里达海滩上记录的音频信号的声学模型。在这样做时,声学模型适配模块125可以选择如下音频信号作为子集,这些音频信号的关联元数据指示它们也在海滩上被记录,尽管事实是可能已经在澳大利亚、夏威夷或者在冰岛的海滩上记录它们。
如果与音频信号112关联的地理位置未匹配于与ASR引擎105存储的音频信号关联的任何物理地理位置或者无高质量匹配(即匹配未满足预定质量阈值),则声学模型适配模块125可以基于匹配位置类型而不是匹配实际物理地理位置来选择音频信号的子集。其它匹配过程、比如聚类算法可以用来匹配音频信号112与ASR引擎105存储的音频信号。
除了生成‘通用’地理专属声学模型111之外,声学模型适配模块125也可以适配以其它标准为目标或者专属于其它标准的地理专属声学模型、比如进一步专属于不同设备类型或者当天时间的地理专属声学模型。可以基于检测已经满足阈值、比如确定ASR引擎105存储的阈值数目的音频信号指代相同地理位置并且共享另一相同或者相似情境(例如当天时间、当周日子、运动特性、设备类型等)来适配作为目标的声学子模型。
可以在移动设备102已经记录讲话113之前、期间或者之后适配一个或者多个声学模型111。例如来自与讲话113相同或者相似的位置的多个音频信号可以与处理讲话113并行处理并且可以用来实时或者近实时适配一个或者多个声学模型111以更好地逼近在记录讲话113时在包围移动设备102的地理区域中居住的人的口音、方言或者其它话音模式。
适配一个或者多个声学模型111可以使用至少四种方式来出现。例如可以针对每个地理位置地理区域或者地点构建单独声学模型。根据这一方式,适配声学模型114包括从ASR引擎105已经针对多个地理位置构建的多个声学模型之中选择与关联于音频信号112的地理位置匹配的特定地理专属声学模型。
根据第二方式,位置信息可以并入于声学模型中。例如二维连续纬度和经度坐标矢量可以直接堆叠于声学模型使用的已经包括声学特征如梅尔频率对数倒频谱系数(“MFCC”)的特征空间中。根据这一方式,需要构建更少声学模型,因为位置信息可以视为用于单个声学模型的规则训练过程的部分。
更具体而言,用来适配模型的音频信号(例如音频信号107至109)划分成帧(例如25毫秒帧)。例如使用十个到四十个MFCC来推导每帧的对数倒频谱表示以描述每个特定帧的声音。当使用特定帧来训练模型时,如下数据集用来代表帧,该数据集包括与特定帧关联的MFCC和指代地理位置(例如地理坐标)的值二者。
根据第三方式,可以并入离散化的位置信息作为在声学模型中包括的状态信息的部分。具体而言,声学模型将状态映射至特征空间内的概率分布,从而除了当前音素以及关于先前和后继音素的一些情境信息之外也可以扩充状态以包括位置信息。在训练期间,对于每帧,状态可能未确切已知;有时仅状态内的概率分布已知;在这一情况下,可以向状态内的概率分布中并入离散化的位置内的平滑连续位置分布或者概率密度函数。因而模型在音素水平而不是声学特征水平存储位置信息。
根据无需重新训练声学模型的第四方式,单个声学模型用于语言内的所有位置,然而基于地理位置以轻量级方式适配声学模型。一种这样的用于适配声学模型的已知技术使用最大似然线性回归(“MLLR”),该MLLR推导变换矩阵,该变换矩阵应用于声学模型空间中的高斯系数或者声学模型的输入特征应用以调整模型以与适配讲话集匹配。音频信号112的地理位置可以用来限定地理区域,并且可以向MLLR适配算法中馈送ASR引擎105存储的与区域关联的所有训练音频信号以产生可以用来变换声学模型以与在该区域中发现的口音匹配的矩阵。
更具体而言,可以针对特定区域和/或语言生成单个通用声学模型、比如代表“美国英语”的声学模型。用来适配模型的音频信号(例如音频信号107至109)用来生成线性变换,这些线性变换通过将通用声学模型的系数与适当线性变换进行矩阵相乘来变换通用模型以与特定子区域中的口音匹配。生成线性变换和通过矩阵乘法适配通用声学模型可以在飞行中、例如在ASR引擎105已经接收音频信号112之后出现。
在状态(e)期间,ASR引擎105的语音识别模块124使用用于与音频信号112关联的地理位置的一个或者多个地理专属声学模型111对音频信号112执行语音识别。当音频信号112包括对移动设备102的设备类型进行描述的元数据时,ASR引擎105可以应用专属于与音频信号关联的地理位置和移动设备102的设备类型二者的声学模型。语音识别模块124可以生成与在音频信号112中编码的讲话匹配的一个或者多个候选转录115和用于候选转录的语音识别置信度值。
在状态(f)期间,从ASR引擎105向服务器104传达语音识别模块124生成的候选转录115中的一个或者多个候选转录。当服务器104是搜索引擎时,可以使用候选转录115作为由搜索引擎用来执行一个或者多个搜索查询的候选查询检索词。ASR引擎105可以在向服务器104发送之前至少部分基于候选转录115的相应语音识别置信度分数对它们排行。通过转录口述讲话并且服务器104提供候选转录,ASR引擎105可以向移动设备102提供话音搜索查询能力、口授能力或者对话系统能力。
服务器104可以使用候选查询检索词来执行一个或者多个搜索查询并且可以生成引用搜索结果126和127的文件116。文件116可以是标记语言文件、比如可扩展标记语言(XML)或者超文本标记语言(HTML)文件。
服务器104在一些例子中可以包括用来在因特网内发现参考文献的网上搜索引擎、用来发现企业或者个人的电话簿型搜索引擎或者另一专门化搜索引擎(例如提供对诸如餐馆和电影院信息、医疗和药品信息等娱乐清单的引用的搜索引擎)。在状态(h)期间,服务器104向移动设备102提供引用搜索结果126至127的文件116。
在状态(i)期间,移动设备102在用户接口101上显示搜索结果126和127。用户接口101包括:搜索框129,该搜索框显示具有最高语音识别置信度分数的候选查询检索词(“停放您的汽车”);替代查询检索词建议区域130,该区域显示简化113可能已经预计的另一候选查询检索词(“Parker Cole”或者“Parka Card”);搜索结果126,该搜索结果包括指向用于“波士顿停车”的资源的链接;以及搜索结果127,该搜索结果包括指向用于“剑桥停车场”的资源的链接。
图2是例子过程200的流程图。简言之,过程200包括:接收与移动设备记录的讲话对应的音频信号;确定与移动设备关联的地理位置;针对地理位置适配一个或者多个声学模型;并且使用针对地理位置适配的一个或者多个声学模型对音频信号执行语音识别。
更具体而言,当过程200开始时,接收与移动设备记录的讲话对应的音频信号(202)。讲话可以包括语音搜索查询或者可以是向口授或者对话应用或者系统的输入。讲话可以包括关联情境数据、比如时间、日期、在记录地理标注的音频信号期间测量的速度或者运动数量或者记录地理标注的音频信号的设备类型。
确定与移动设备关联的地理位置(204)。例如可以从移动设备接收引用特定地理位置的数据或者可以标识与移动设备关联的以往地理位置或者默认地理位置。
针对地理位置适配一个或者多个声学模型(206)。可以通过针对每个地理标注的音频信号确定在特定地理位置和与地理标注的音频信号关联的地理位置之间的距离并且选择在特定地理位置的预定距离内或者与在与特定地理位置最近的N个地理位置之中的地理位置关联的那些地理标注的音频信号来选择用于适配音频模型的地理标注的音频信号的子集。
适配一个或者多个声学模型可以包括从已经针对多个地理位置生成的多个声学模型之中选择针对与移动设备关联的地理位置生成的一个或者多个声学模型或者向一个或者多个声学模型使用的特征空间中并入引用地理位置的数据(例如地理坐标)。取而代之,适配一个或者多个声学模型可以包括向在声学模型中包括的状态信息中并入引用地理位置的数据或者推导与地理位置关联的变换矩阵;并且将变换矩阵应用于通用声学模型。
可以通过标识与特定地理位置关联的地理标注的音频信号和/或通过标识与讲话在声学上相似的地理标注的音频信号来选择地理标注的音频信号的子集。可以基于特定地理位置和与讲话关联的情境数据选择地理标注的音频信号的子集。生成声学模型可以包括使用地理标注的音频信号的子集作为训练集来训练GMM。
对音频信号执行语音识别(208)。执行语音识别可以包括生成讲话的一个或者多个候选转录。可以使用一个或者多个候选转录来执行搜索查询,或者可以提供候选转录中的一个或者多个候选转录作为数字口授应用的输出。取而代之,可以提供候选转录中的一个或者多个候选转录作为向对话系统的输入以允许计算机系统与特定移动设备的用户对话。
图3是另一例子过程300的流程图。简言之,过程300包括接收地理标注的音频信号并且至少部分基于与每个地理标注的音频信号关联的特定地理位置生成多个声学模型。可以在基于讲话执行语音识别时至少部分基于与讲话的地理位置选择这些声学模型中的一个或者多个声学模型。
更具体而言,当过程300开始时,接收与音频对应的地理标注的音频信号(302)。地理标注的音频信号可以在特定地理位置由移动设备记录。可以处理接收的地理标注的音频信号以排除音频信号的部分,这些部分未包括移动设备对用户的语音。可以接收并且存储在一个或者多个地理位置记录的多个地理标注的音频信号。
可选地,接收与地理标注的音频信号关联的情境数据(304)。地理标注的音频信号可以包括时间、日期、在记录地理标注的音频信号期间测量的速度或者运动数量或者记录地理标注的音频信号的设备类型。
适配一个或者多个声学模型(306)。可以针对特定地理位置或者可选地针对位置类型使用地理标注的音频信号的子集来适配每个声学模型。可以通过针对每个地理标注的音频信号确定在特定地理位置和与地理标注的音频信号关联的地理位置之间的距离并且选择在特定地理位置的预定距离内或者与在与特定地理位置最近的N个地理位置之中的地理位置关联的那些地理标注的音频信号来选择理标注的音频信号的子集。可以通过标识与特定地理位置关联的地理标注的音频信号来选择地理标注的音频信号的子集。可以基于特定地理位置和与地理标注的音频信号关联的情境数据二者选择地理标注的音频信号的子集。生成声学模型可以包括使用地理标注的音频信号的子集来训练高斯混合模型(GMM)。
接收特定移动设备记录的讲话(308)。讲话可以包括语音搜索查询。讲话可以包括关联情境数据、比如时间、日期、在记录地理标注的音频信号期间测量的速度或者运动数量或者记录地理标注的音频信号的设备类型。
确定地理位置(310)。例如可以从移动设备的GPS模块接收引用特定地理位置的数据。
选择声学模型(312)。可以从针对多个地理位置适配的多个声学模型之中选择声学模型。情境数据可以可选地有助于从用于特定地理位置的多个声学模型之中选择特定声学模型。
使用选择的声学模型对讲话执行语音识别(314)。执行语音识别可以包括生成讲话的一个或者多个候选转录。可以使用一个或者多个候选转录来执行搜索查询。
图4示出了用于使用地理标注的音频来增强语音识别准确度的过程400的例子的泳道图。过程400可以由移动设备402、ASR引擎404和搜索引擎406实施。移动设备402可以向ASR引擎404提供音频信号、比如音频信号或者与讲话对应的音频信号。虽然图示了仅一个移动设备,但是移动设备402可以代表向过程400贡献音频信号和语音查询的大量移动设备402。ASR引擎404可以基于音频信号适配声学模型并且可以在执行语音识别时将一个或者多个声学模型应用于传入语音搜索查询。ASR引擎405可以向搜索引擎406提供对语音搜索查询内的讲话的转录以完成语音搜索查询请求。
过程400始于移动设备402向ASR引擎404提供408地理标注的音频信号。音频信号可以将移动设备402的语音的音频与关于记录音频的位置的指示一起包括。可选地,地理标注的音频信号可以包括例如形式为元数据的情境数据。ASR引擎404可以在音频数据存储库中存储地理标注的音频信号。
移动设备402向ASR引擎404提供410讲话。讲话例如可以包括语音搜索查询。记录讲话可以可选地包括例如在记录讲话之前或者之后简短记录的音频采样。
移动设备402向ASR引擎404提供412地理位置。移动设备在一些例子中可以提供使用GPS模块来检测的导航坐标、最新(但是未必与记录并行的)GPS读数、默认位置、根据先前提供的讲话推导的位置或者通过推算定位或者发射塔三角测量来估计的位置。移动设备402可以可选地向ASR引擎404提供情境数据、比如传感器数据、设备机型标识或者设备设置。
ASR引擎404适配414声学模型。可以部分通过训练GMM来适配声学模型。可以基于移动设备402提供的地理位置适配声学模型。例如从在移动设备402的位置或者附近的位置提交的地理标注的音频信号可以有助于声学模型。可选地,移动设备402提供的情境数据可以用来过滤地理标注的音频信号以选择与其中记录讲话的条件最适合的音频信号。例如可以按照当周日子或者当天时间过滤在移动设备402提供的地理位置附近的地理标注的音频信号。如果与移动设备402提供的讲话一起包括音频采样,则可以可选地在声学模型中包括音频采样。
ASR引擎104对提供的讲话执行语音识别416。可以使用由ASR引擎适配的声学模型将移动设备402提供的讲话转录成一个或者多个查询检索词集。
ASR引擎404向搜索引擎406转发418生成的转录。如果ASR引擎404生成多个转录,则可以可选地以置信度为序对转录排行。ASR引擎404可以可选地向搜索引擎406提供情境数据、比如地理位置,搜索引擎406可以使用该情境数据对搜索结果过滤或者排行。
搜索引擎406可以使用转录来执行420搜索操作。搜索引擎406可以对与转录检索词有关的一个或者多个URI定位。
搜索引擎406向移动设备402提供422搜索查询结果。例如搜索引擎406可以转发HTML代码,该代码生成定位的URI的可视列表。
已经描述多个实施方式。然而将理解可以进行各种修改而未脱离公开内容的精神实质和范围。例如可以在重新排序、添加或者去除步骤时使用上文所示流程的各种形式。因而其它实施方式在所附权利要求的范围内。
可以在数字电子电路中或者在包括本说明书中公开的结构及其结构等效物的计算机软件、固件或者硬件中或者在它们中的一项或者多项的组合中实施本说明书中描述的实施例和所有功能操作。实施例可以实施为一个或者多个计算机程序产品、即在计算机可读介质上编码的用于由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或者多个模块。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、实现机器可读传播信号的物质组成或者它们中的一项或者多项的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器、例如包括一个可编程处理器、一个计算机或者多个处理器或者计算机。装置除了包括硬件之外还可以包括为讨论的计算机程序创建执行环境的代码、例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一项或者多项的组合的代码。传播信号是人为生成的信号、例如为了对信息编码用于向适当接收器装置发送而生成的、机器生成的电、光学或者电磁信号。
可以用包括编译或者解译语言的任何形式的编程语言编写计算机程序(也称为程序、软件、软件应用、脚本或者代码),并且可以用任何形式部署它、包括作为独立程序或者作为适合用于在计算环境中使用的模块、部件、子例程或者其它单元。计算机程序未必对应于文件系统中的文件。程序可以存储于保持其它程序或者数据的文件的部分中(例如存储于标记语言文档中的一个或者多个脚本)、专用于讨论的程序的单个文件中或者多个协同文件(例如存储一个或者多个模块、子程序或者代码部分的文件)中。计算机程序可以被部署成在一个计算机上或者在位于一个地点或者分布于多个地点并且由通信网络互连的多个计算机上执行。
在本说明书中描述的过程和逻辑流程可以由一个或者多个可编程处理器执行,该处理器执行一个或者多个计算机程序以通过对输入数据操作并且生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路、例如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)执行,并且装置也可以实施为该专用逻辑电路。
适合于执行计算机程序的处理器例如包括通用和专用微处理器二者和任何种类的数字计算机的任何一个或者多个处理器。一般而言,处理器将从只读存储器或者随机存取存储器或者二者接收指令和数据。
计算机的基本单元是用于执行指令的处理器以及用于存储指令和数据的一个或者多个存储器设备。一般而言,计算机也将包括用于存储数据的一个或者多个海量存储设备、比如磁盘、光磁盘或者光盘或者操作地耦合成从该海量存储设备接收数据或者向该海量存储设备传送数据或者二者。然而计算机无需具有这样的设备。另外,计算机可以嵌入于另一设备中,聊举数例,该另一设备例如是写字板计算机、移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GPS)接收器。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备、例如包括半导体存储器设备如EPROM、EEPROM和闪存设备;磁盘如内部硬盘或者可拆卸盘;光磁盘;以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或者并入于专用逻辑电路中。
为了提供与用户的交互,实施例可以实施于计算机上,该计算机具有用于向用户显示信息的显示设备、例如CRT(阴极射线管)或者LCD(液晶显示器)监视器以及用户可以用来向计算机提供输入的键盘和指示设备、比如鼠标或者跟踪球。其它种类的设备也可以用来提供与用户的交互;例如向用户提供的反馈可以是任何形式的感官反馈比如视觉反馈、听觉反馈或者触觉反馈;并且可以用包括声音、话音或者触觉输入的任何形式接收来自用户的输入。
实施例可以实施于计算系统中,该计算系统包括后端部件、例如作为数据服务器或者包括中间件部件、例如应用服务器或者包括前端部件、例如具有如下图形用户接口或者网上浏览器的客户端计算机或者这样的后端、中间件或者前端部件中的一个或者多个部件的任何组合,用户可以通过该图形用户接口或者网上浏览器与实施方式交互。系统的部件可以由任何数字数据通信形式或者介质、比如通信网络互连。通信网络的例子包括局域网(“LAN”)和广域网(“WAN”)、例如因特网。
计算系统可以包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助计算机程序来出现,这些计算机程序在相应计算机上运行并且相互具有客户端-服务器关系。
尽管本说明书包含许多细节,但是这些不应解释为对公开内容的或者可以要求保护的内容的范围的限制、但是实际上解释为对具体实施方式特有的特征的描述。也可以在单个实施例组合实施本说明书中在单独实施例的背景中描述的某些特征。反言之,也可以在多个实施例中单独或者在任何适当子组合中实施在单个实施例的背景中描述的各种特征。另外,虽然上文可以描述特征为在某些实施例中作用并且甚至起初这样要求保护,但是在一些情况下可以从要求保护的组合中去除来自该组合的一个或者多个特征,并且要求保护的组合可以涉及子组合或者子组合的变化。
类似地,尽管在附图中以特定顺序描绘操作,但是这不应理解为要求以所示特定顺序或者以依次顺序执行这样的操作或者执行所有所示操作以实现希望的结果。在某些境况中,多任务和并行处理可以是有利的。另外,在上文描述的实施例中分离各种系统部件不应理解为在所有实施例中要求这样的分离,并且应当理解描述的程序部件和系统一般可以一起集成于单个软件产品中或者封装到多个软件产品中。
在其中提到HTML文件的每个实例中,可以替换为其它文件类型或者格式。例如HTML文件可以替换为XML、JSON、明文或者其它类型的文件。另外当提到表或者散列表时,可以使用其它数据结构(比如电子数据表、关系数据库或者结构化文件)。
这样已经描述具体实施例。其它实施例在所附权利要求的范围内。例如在权利要求中记载的动作可以按不同顺序来执行并且仍然实现希望的结果。

Claims (20)

1.一种系统,包括:
一个或者多个计算机;以及
计算机可读介质,耦合到所述一个或者多个计算机,具有存储于所述计算机可读介质上的指令,所述指令在由所述一个或者多个计算机执行时,使所述一个或者多个计算机执行操作,所述操作包括:
接收与移动设备记录的讲话对应的音频信号,
确定与所述移动设备关联的地理位置,
针对所述地理位置适配一个或者多个声学模型,以及
使用针对所述地理位置适配的所述一个或者多个声学模型对所述音频信号执行语音识别。
2.根据权利要求1所述的系统,其中适配一个或者多个声学模型还包括在接收与所述讲话对应的所述音频信号之前适配一个或者多个声学模型。
3.根据权利要求1所述的系统,其中适配一个或者多个声学模型还包括在接收与所述讲话对应的所述音频信号之后适配一个或者多个声学模型。
4.根据权利要求1所述的系统,其中:
所述操作还包括接收与多个移动设备在多个地理位置中记录的音频对应的地理标注的音频信号;以及
针对所述地理位置适配一个或者多个声学模型还包括使用所述地理标注的音频信号的子集、针对所述地理位置适配一个或者多个声学模型。
5.根据权利要求4所述的系统,其中所述操作还包括:
针对所述地理标注的音频信号中的每个地理标注的音频信号确定在与所述移动设备关联的所述地理位置和与所述地理标注的音频信号关联的地理位置之间的距离;以及
选择与在与所述移动设备关联的所述地理位置的预定距离内的地理位置关联、或者与在与关联于所述移动设备的所述地理位置最近的N个地理位置之中的地理位置关联的所述地理标注的音频信号作为所述地理标注的音频信号的所述子集。
6.根据权利要求4所述的系统,其中所述操作还包括:
选择与也与所述移动设备关联的所述地理位置关联的所述地理标注的音频信号作为所述地理标注的音频信号的所述子集。
7.根据权利要求4所述的系统,其中所述操作还包括基于与所述移动设备关联的所述地理位置和与所述讲话关联的情境数据来选择所述地理标注的音频信号的所述子集。
8.根据权利要求7所述的系统,其中所述情境数据包括对所述移动设备记录所述讲话时的时间或者日期进行引用的数据、对所述移动设备在记录所述讲话时测量的速度或者运动量进行引用的数据、引用所述移动设备的设置的数据或者引用所述移动设备的类型的数据。
9.根据权利要求4所述的系统,其中适配所述声学模型包括使用所述地理标注的音频信号的所述子集作为训练集来训练高斯混合模型(GMM)。
10.根据权利要求1所述的系统,其中所述讲话代表语音搜索查询或者向数字口授应用或者对话系统的输入。
11.根据权利要求1所述的系统,其中确定所述地理位置还包括从所述移动设备接收引用所述地理位置的数据。
12.根据权利要求1所述的系统,其中确定所述地理位置还包括确定与所述移动设备关联的以往地理位置或者默认地理位置。
13.根据权利要求1所述的系统,其中所述操作还包括:
生成所述讲话的一个或者多个候选转录;以及
使用所述一个或者多个候选转录来执行搜索查询。
14.根据权利要求1所述的系统,其中针对所述地理位置适配一个或者多个声学模型还包括:
从已经针对多个地理位置生成的多个声学模型之中选择针对与所述移动设备关联的所述地理位置生成的所述一个或者多个声学模型。
15.根据权利要求1所述的系统,其中针对所述地理位置适配一个或者多个声学模型还包括:
向单个声学模型使用的特征空间中并入引用所述地理位置的数据。
16.根据权利要求15所述的系统,其中向所述单个声学模型使用的特征空间中并入引用所述地理位置的数据还包括向所述单个声学模型使用的特征空间中并入值,其中所述值包括梅尔频率倒频谱系数和地理坐标。
17.根据权利要求1所述的系统,其中针对所述地理位置适配一个或者多个声学模型还包括向在单个声学模型中包括的状态信息中并入引用所述地理位置的数据。
18.根据权利要求1所述的系统,其中针对所述地理位置适配一个或者多个声学模型还包括:
推导与所述地理位置关联的变换矩阵;以及
将所述变换矩阵应用于单个通用声学模型。
19.一种用计算机程序编码的计算机存储介质,所述程序包括在由一个或者多个计算机执行时使所述一个或者多个计算机执行操作的指令,所述操作包括:
接收与移动设备记录的讲话对应的音频信号;
确定与所述移动设备关联的地理位置;
针对所述地理位置适配一个或者多个声学模型;以及
使用针对所述地理位置适配的所述一个或者多个声学模型对所述音频信号执行语音识别。
20.一种计算机实现的方法,包括:
接收与移动设备记录的讲话对应的音频信号;
确定与所述移动设备关联的地理位置;
针对所述地理位置适配一个或者多个声学模型;以及
使用针对所述地理位置适配的所述一个或者多个声学模型对所述音频信号执行语音识别。
CN201180021722.XA 2010-05-26 2011-05-23 使用地理信息的声学模型适配 Active CN103038817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410723927.8A CN104575493B (zh) 2010-05-26 2011-05-23 使用地理信息的声学模型适配

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/787,568 US8468012B2 (en) 2010-05-26 2010-05-26 Acoustic model adaptation using geographic information
US12/787,568 2010-05-26
PCT/US2011/037558 WO2011149837A1 (en) 2010-05-26 2011-05-23 Acoustic model adaptation using geographic information

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201410723927.8A Division CN104575493B (zh) 2010-05-26 2011-05-23 使用地理信息的声学模型适配

Publications (2)

Publication Number Publication Date
CN103038817A true CN103038817A (zh) 2013-04-10
CN103038817B CN103038817B (zh) 2015-01-14

Family

ID=44276070

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201180021722.XA Active CN103038817B (zh) 2010-05-26 2011-05-23 使用地理信息的声学模型适配
CN201410723927.8A Active CN104575493B (zh) 2010-05-26 2011-05-23 使用地理信息的声学模型适配

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201410723927.8A Active CN104575493B (zh) 2010-05-26 2011-05-23 使用地理信息的声学模型适配

Country Status (5)

Country Link
US (3) US8468012B2 (zh)
EP (1) EP2577653B1 (zh)
CN (2) CN103038817B (zh)
AU (2) AU2011258531B2 (zh)
WO (1) WO2011149837A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575516A (zh) * 2013-10-07 2015-04-29 霍尼韦尔国际公司 用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法
CN104637495A (zh) * 2013-11-08 2015-05-20 宏达国际电子股份有限公司 电子装置以及音频信号处理方法
WO2015090215A1 (zh) * 2013-12-19 2015-06-25 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法、装置和服务器
CN105225660A (zh) * 2014-06-30 2016-01-06 通用汽车环球科技运作有限责任公司 语音系统的适应方法和系统
CN105872687A (zh) * 2016-03-31 2016-08-17 乐视控股(北京)有限公司 一种通过语音控制智能设备的方法及装置
CN107016996A (zh) * 2017-06-06 2017-08-04 广东小天才科技有限公司 一种音频数据的处理方法及装置
WO2017215122A1 (zh) * 2016-06-16 2017-12-21 百度在线网络技术(北京)有限公司 多语音识别模型切换方法、装置和存储介质
CN107683504A (zh) * 2015-06-10 2018-02-09 纽昂斯通讯公司 用于增强型语音目的地输入的运动自适应语音识别
CN109243461A (zh) * 2018-09-21 2019-01-18 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN109377990A (zh) * 2018-09-30 2019-02-22 联想(北京)有限公司 一种信息处理方法和电子设备
CN110199348A (zh) * 2016-12-21 2019-09-03 亚马逊技术股份有限公司 口音转化
CN110419078A (zh) * 2017-03-14 2019-11-05 德克萨斯仪器股份有限公司 自动语音识别系统的用户记录关键字的质量反馈
CN110556097A (zh) * 2018-06-01 2019-12-10 声音猎手公司 定制声学模型
CN110914898A (zh) * 2018-05-28 2020-03-24 北京嘀嘀无限科技发展有限公司 一种用于语音识别的系统和方法
CN111919134A (zh) * 2018-01-26 2020-11-10 所尼托技术股份公司 使用声学位置确定技术的基于位置的功能
CN113506565A (zh) * 2021-07-12 2021-10-15 北京捷通华声科技股份有限公司 语音识别的方法、装置、计算机可读存储介质与处理器
CN114165819A (zh) * 2021-11-26 2022-03-11 珠海格力电器股份有限公司 吸油烟机及其控制方法、模组及计算机可读介质

Families Citing this family (347)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) * 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US8645137B2 (en) * 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) * 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080129520A1 (en) * 2006-12-01 2008-06-05 Apple Computer, Inc. Electronic device with enhanced audio feedback
US7912828B2 (en) * 2007-02-23 2011-03-22 Apple Inc. Pattern searching methods and apparatuses
US8977255B2 (en) * 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US9053089B2 (en) * 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) * 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) * 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8355919B2 (en) * 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8352272B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8352268B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8396714B2 (en) * 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) * 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9431006B2 (en) * 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110010179A1 (en) * 2009-07-13 2011-01-13 Naik Devang K Voice synthesis and processing
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US20110066438A1 (en) * 2009-09-15 2011-03-17 Apple Inc. Contextual voiceover
US8682649B2 (en) * 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
WO2011071484A1 (en) 2009-12-08 2011-06-16 Nuance Communications, Inc. Guest speaker robust adapted speech recognition
EP2339576B1 (en) 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US20110167350A1 (en) * 2010-01-06 2011-07-07 Apple Inc. Assist Features For Content Display Device
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8265928B2 (en) 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8442827B2 (en) 2010-06-18 2013-05-14 At&T Intellectual Property I, L.P. System and method for customized voice response
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8521526B1 (en) 2010-07-28 2013-08-27 Google Inc. Disambiguation of a spoken query term
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US20120109649A1 (en) * 2010-11-01 2012-05-03 General Motors Llc Speech dialect classification for automatic speech recognition
US20120155663A1 (en) * 2010-12-16 2012-06-21 Nice Systems Ltd. Fast speaker hunting in lawful interception systems
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8352245B1 (en) * 2010-12-30 2013-01-08 Google Inc. Adjusting language models
KR101791907B1 (ko) * 2011-01-04 2017-11-02 삼성전자주식회사 위치 기반의 음향 처리 장치 및 방법
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US20120197630A1 (en) * 2011-01-28 2012-08-02 Lyons Kenton M Methods and systems to summarize a source text as a function of contextual information
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
JP6317111B2 (ja) * 2011-02-22 2018-04-25 スピーク・ウィズ・ミー・インコーポレイテッドSpeak With Me,Inc. ハイブリッド型クライアントサーバ音声認識
US8660581B2 (en) 2011-02-23 2014-02-25 Digimarc Corporation Mobile device indoor navigation
US9270807B2 (en) * 2011-02-23 2016-02-23 Digimarc Corporation Audio localization using audio signal encoding and recognition
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9576573B2 (en) * 2011-08-29 2017-02-21 Microsoft Technology Licensing, Llc Using multiple modality input to feedback context for natural language understanding
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US20170221093A1 (en) * 2011-12-07 2017-08-03 Google Inc. Dynamically Generating Video / Animation, in Real-Time, in a Display or Electronic Advertisement Based on User Data
GB201200831D0 (en) * 2012-01-18 2012-02-29 Sensewhere Ltd Improved positioning system
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9224383B2 (en) * 2012-03-29 2015-12-29 Educational Testing Service Unsupervised language model adaptation for automated speech scoring
US8838448B2 (en) * 2012-04-05 2014-09-16 Nuance Communications, Inc. Forced/predictable adaptation for speech recognition
US8473293B1 (en) * 2012-04-17 2013-06-25 Google Inc. Dictionary filtering using market data
US8374865B1 (en) * 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8805684B1 (en) * 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US11023520B1 (en) * 2012-06-01 2021-06-01 Google Llc Background audio identification for query disambiguation
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9043205B2 (en) 2012-06-21 2015-05-26 Google Inc. Dynamic language model
US9502029B1 (en) * 2012-06-25 2016-11-22 Amazon Technologies, Inc. Context-aware speech processing
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
WO2014005055A2 (en) * 2012-06-29 2014-01-03 Elwha Llc Methods and systems for managing adaptation data
US9966064B2 (en) 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
US8831957B2 (en) * 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
US9946699B1 (en) * 2012-08-29 2018-04-17 Intuit Inc. Location-based speech recognition for preparation of electronic tax return
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9460716B1 (en) * 2012-09-11 2016-10-04 Google Inc. Using social networks to improve acoustic models
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9065971B2 (en) * 2012-12-19 2015-06-23 Microsoft Technology Licensing, Llc Video and audio tagging for active speaker detection
US9495955B1 (en) * 2013-01-02 2016-11-15 Amazon Technologies, Inc. Acoustic model training
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US10229701B2 (en) * 2013-02-28 2019-03-12 Nuance Communications, Inc. Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission
US20140270249A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression
US9237225B2 (en) 2013-03-12 2016-01-12 Google Technology Holdings LLC Apparatus with dynamic audio signal pre-conditioning and methods therefor
US20140278393A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10078487B2 (en) 2013-03-15 2018-09-18 Apple Inc. Context-sensitive handling of interruptions
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
KR101857648B1 (ko) 2013-03-15 2018-05-15 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
US20140365218A1 (en) * 2013-06-07 2014-12-11 Microsoft Corporation Language model adaptation using result selection
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
US20140372027A1 (en) * 2013-06-14 2014-12-18 Hangzhou Haicun Information Technology Co. Ltd. Music-Based Positioning Aided By Dead Reckoning
US9727129B2 (en) * 2013-06-28 2017-08-08 Harman International Industries, Incorporated System and method for audio augmented reality
KR102084646B1 (ko) * 2013-07-04 2020-04-14 삼성전자주식회사 음성 인식 장치 및 음성 인식 방법
US9786296B2 (en) * 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9530416B2 (en) 2013-10-28 2016-12-27 At&T Intellectual Property I, L.P. System and method for managing models for embedded speech and language processing
US9666188B2 (en) 2013-10-29 2017-05-30 Nuance Communications, Inc. System and method of performing automatic speech recognition using local private data
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
TWI506458B (zh) * 2013-12-24 2015-11-01 Ind Tech Res Inst 辨識網路產生裝置及其方法
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9633649B2 (en) 2014-05-02 2017-04-25 At&T Intellectual Property I, L.P. System and method for creating voice profiles for specific demographics
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
KR102225404B1 (ko) * 2014-05-23 2021-03-09 삼성전자주식회사 디바이스 정보를 이용하는 음성인식 방법 및 장치
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9904851B2 (en) 2014-06-11 2018-02-27 At&T Intellectual Property I, L.P. Exploiting visual information for enhancing audio signals via source separation and beamforming
US20150371628A1 (en) * 2014-06-23 2015-12-24 Harman International Industries, Inc. User-adapted speech recognition
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
EP3198593A4 (en) * 2014-08-01 2019-02-20 Maluuba Inc. VOICE RECOGNITION USING TEMPLATES ASSOCIATED WITH A GEOGRAPHICAL LOCATION
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
KR102348084B1 (ko) * 2014-09-16 2022-01-10 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9530408B2 (en) 2014-10-31 2016-12-27 At&T Intellectual Property I, L.P. Acoustic environment recognizer for optimal speech processing
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9898170B2 (en) 2014-12-10 2018-02-20 International Business Machines Corporation Establishing user specified interaction modes in a question answering dialogue
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9805713B2 (en) * 2015-03-13 2017-10-31 Google Inc. Addressing missing features in models
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
DE102015211101A1 (de) * 2015-06-17 2016-12-22 Volkswagen Aktiengesellschaft Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server
US10274911B2 (en) * 2015-06-25 2019-04-30 Intel Corporation Conversational interface for matching text of spoken input based on context model
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN105094364B (zh) * 2015-07-13 2018-07-20 小米科技有限责任公司 词汇显示方法和装置
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US9787819B2 (en) * 2015-09-18 2017-10-10 Microsoft Technology Licensing, Llc Transcription of spoken communications
AU2016327448B2 (en) * 2015-09-22 2019-07-11 Vendome Consulting Pty Ltd Methods for the automated generation of speech sample asset production scores for users of a distributed language learning system, automated accent recognition and quantification and improved speech recognition
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10468016B2 (en) 2015-11-24 2019-11-05 International Business Machines Corporation System and method for supporting automatic speech recognition of regional accents based on statistical information and user corrections
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10133821B2 (en) * 2016-01-06 2018-11-20 Google Llc Search result prefetching of voice queries
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US11138987B2 (en) * 2016-04-04 2021-10-05 Honeywell International Inc. System and method to distinguish sources in a multiple audio source environment
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
CN106128462A (zh) * 2016-06-21 2016-11-16 东莞酷派软件技术有限公司 语音识别方法及系统
CN106205622A (zh) * 2016-06-29 2016-12-07 联想(北京)有限公司 信息处理方法及电子设备
CN106251859B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别处理方法和装置
CN106293600A (zh) * 2016-08-05 2017-01-04 三星电子(中国)研发中心 一种语音控制方法及系统
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
WO2018085893A1 (en) 2016-11-10 2018-05-17 Mark Andrew Englund Acoustic method and system for providing digital data
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11144683B2 (en) 2016-12-06 2021-10-12 General Electric Company Real-time adaptation of system high fidelity model in feature space
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
KR102380717B1 (ko) * 2017-04-30 2022-03-31 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10446136B2 (en) * 2017-05-11 2019-10-15 Ants Technology (Hk) Limited Accent invariant speech recognition
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
CN107274885B (zh) * 2017-05-31 2020-05-26 Oppo广东移动通信有限公司 语音识别方法及相关产品
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10769138B2 (en) 2017-06-13 2020-09-08 International Business Machines Corporation Processing context-based inquiries for knowledge retrieval
KR102426717B1 (ko) * 2017-06-27 2022-07-29 삼성전자주식회사 발화 인식 모델을 선택하는 시스템 및 전자 장치
EP3662470B1 (en) * 2017-08-01 2021-03-24 Dolby Laboratories Licensing Corporation Audio object classification based on location metadata
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10468019B1 (en) * 2017-10-27 2019-11-05 Kadho, Inc. System and method for automatic speech recognition using selection of speech models based on input characteristics
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10616853B2 (en) * 2017-12-29 2020-04-07 Sonitor Technologies As Location determination using acoustic-contextual data
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
CN110047478B (zh) * 2018-01-16 2021-06-08 中国科学院声学研究所 基于空间特征补偿的多通道语音识别声学建模方法及装置
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
CA3092756A1 (en) * 2018-03-02 2019-09-06 Wilfred Edwin Booij Acoustic positioning transmitter and receiver system and method
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10803843B2 (en) 2018-04-06 2020-10-13 Microsoft Technology Licensing, Llc Computationally efficient language based user interface event sound selection
WO2019203794A1 (en) * 2018-04-16 2019-10-24 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
CN116959420A (zh) 2018-04-16 2023-10-27 谷歌有限责任公司 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10867067B2 (en) * 2018-06-07 2020-12-15 Cisco Technology, Inc. Hybrid cognitive system for AI/ML data privacy
CN108766414B (zh) * 2018-06-29 2021-01-15 北京百度网讯科技有限公司 用于语音翻译的方法、装置、设备和计算机可读存储介质
CN111194463A (zh) 2018-08-27 2020-05-22 北京嘀嘀无限科技发展有限公司 用于在移动设备上显示目的地的人工智能系统和方法
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
CN109215688B (zh) * 2018-10-10 2020-12-22 麦片科技(深圳)有限公司 同场景音频处理方法、装置、计算机可读存储介质及系统
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109599112B (zh) * 2019-01-02 2021-07-06 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及空调
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
JP6745465B1 (ja) * 2019-03-06 2020-08-26 パナソニックIpマネジメント株式会社 車両及びカメラモジュール
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN110082726B (zh) * 2019-04-10 2021-08-10 北京梧桐车联科技有限责任公司 声源定位方法及装置、定位设备及存储介质
CN110033765A (zh) * 2019-04-11 2019-07-19 中国联合网络通信集团有限公司 一种语音识别的方法及终端
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN110534112B (zh) * 2019-08-23 2021-09-10 王晓佳 基于位置与时间的分布式语音识别纠错方法
KR20190107622A (ko) * 2019-09-02 2019-09-20 엘지전자 주식회사 이동형 에이젼트를 이용한 실시간 음성 인식 모델 업데이트 방법 및 장치
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
WO2021258240A1 (en) * 2020-06-22 2021-12-30 Qualcomm Incorporated Voice or speech recognition in noisy environments
US11741965B1 (en) * 2020-06-26 2023-08-29 Amazon Technologies, Inc. Configurable natural language output
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US20230317057A1 (en) * 2022-03-31 2023-10-05 Microsoft Technology Licensing, Llc Assigning ssml tags to an audio corpus

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19533541C1 (de) 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
US6778959B1 (en) 1999-10-21 2004-08-17 Sony Corporation System and method for speech verification using out-of-vocabulary models
US7457750B2 (en) * 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
US7451085B2 (en) 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
US6876966B1 (en) 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US6915262B2 (en) * 2000-11-30 2005-07-05 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
US6959276B2 (en) 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6950796B2 (en) 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
US7224981B2 (en) 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
JP4109063B2 (ja) 2002-09-18 2008-06-25 パイオニア株式会社 音声認識装置及び音声認識方法
JP4352790B2 (ja) 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US7533023B2 (en) * 2003-02-12 2009-05-12 Panasonic Corporation Intermediary speech processor in network environments transforming customized speech parameters
US7392188B2 (en) 2003-07-31 2008-06-24 Telefonaktiebolaget Lm Ericsson (Publ) System and method enabling acoustic barge-in
JP4548646B2 (ja) 2003-09-12 2010-09-22 株式会社エヌ・ティ・ティ・ドコモ 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
US7634095B2 (en) 2004-02-23 2009-12-15 General Motors Company Dynamic tuning of hands-free algorithm for noise and driving conditions
US8041568B2 (en) * 2006-10-13 2011-10-18 Google Inc. Business listing search
US7890326B2 (en) * 2006-10-13 2011-02-15 Google Inc. Business listing search
US7941189B2 (en) 2007-02-07 2011-05-10 Denso Corporation Communicating road noise control system, in-vehicle road noise controller, and server
US9405823B2 (en) * 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
US8255224B2 (en) * 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
US8121837B2 (en) 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US9646025B2 (en) * 2008-05-27 2017-05-09 Qualcomm Incorporated Method and apparatus for aggregating and presenting data associated with geographic locations
US8548807B2 (en) * 2009-06-09 2013-10-01 At&T Intellectual Property I, L.P. System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring
US8589163B2 (en) * 2009-12-04 2013-11-19 At&T Intellectual Property I, L.P. Adapting language models with a bit mask for a subset of related words
US8265928B2 (en) * 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ENRICO BOCCHIERI AND DIAMANTINO CASEIRO: "USE OF GEOGRAPHICAL META-DATA IN ASR LANGUAGE AND ACOUSTIC MODELS", 《ICASSP-2010》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575516B (zh) * 2013-10-07 2020-02-28 霍尼韦尔国际公司 用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法
CN104575516A (zh) * 2013-10-07 2015-04-29 霍尼韦尔国际公司 用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法
CN104637495A (zh) * 2013-11-08 2015-05-20 宏达国际电子股份有限公司 电子装置以及音频信号处理方法
WO2015090215A1 (zh) * 2013-12-19 2015-06-25 百度在线网络技术(北京)有限公司 区分地域性口音的语音数据识别方法、装置和服务器
US9928831B2 (en) 2013-12-19 2018-03-27 Baidu Online Network Technology (Beijing) Co., Ltd. Speech data recognition method, apparatus, and server for distinguishing regional accent
CN105225660B (zh) * 2014-06-30 2019-07-05 通用汽车环球科技运作有限责任公司 语音系统的适应方法和系统
CN105225660A (zh) * 2014-06-30 2016-01-06 通用汽车环球科技运作有限责任公司 语音系统的适应方法和系统
CN107683504B (zh) * 2015-06-10 2021-05-28 赛伦斯运营公司 用于运动自适应语音处理的方法、系统和计算机可读介质
CN107683504A (zh) * 2015-06-10 2018-02-09 纽昂斯通讯公司 用于增强型语音目的地输入的运动自适应语音识别
CN105872687A (zh) * 2016-03-31 2016-08-17 乐视控股(北京)有限公司 一种通过语音控制智能设备的方法及装置
WO2017215122A1 (zh) * 2016-06-16 2017-12-21 百度在线网络技术(北京)有限公司 多语音识别模型切换方法、装置和存储介质
US10847146B2 (en) 2016-06-16 2020-11-24 Baidu Online Network Technology (Beijing) Co., Ltd. Multiple voice recognition model switching method and apparatus, and storage medium
CN110199348A (zh) * 2016-12-21 2019-09-03 亚马逊技术股份有限公司 口音转化
CN110419078B (zh) * 2017-03-14 2024-01-23 德克萨斯仪器股份有限公司 用于自动语音识别的系统和方法
CN110419078A (zh) * 2017-03-14 2019-11-05 德克萨斯仪器股份有限公司 自动语音识别系统的用户记录关键字的质量反馈
CN107016996A (zh) * 2017-06-06 2017-08-04 广东小天才科技有限公司 一种音频数据的处理方法及装置
CN111919134A (zh) * 2018-01-26 2020-11-10 所尼托技术股份公司 使用声学位置确定技术的基于位置的功能
CN110914898B (zh) * 2018-05-28 2024-05-24 北京嘀嘀无限科技发展有限公司 一种用于语音识别的系统和方法
CN110914898A (zh) * 2018-05-28 2020-03-24 北京嘀嘀无限科技发展有限公司 一种用于语音识别的系统和方法
CN110556097A (zh) * 2018-06-01 2019-12-10 声音猎手公司 定制声学模型
CN110556097B (zh) * 2018-06-01 2023-10-13 声音猎手公司 定制声学模型
US11830472B2 (en) 2018-06-01 2023-11-28 Soundhound Ai Ip, Llc Training a device specific acoustic model
CN109243461B (zh) * 2018-09-21 2020-04-14 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN109243461A (zh) * 2018-09-21 2019-01-18 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN109377990A (zh) * 2018-09-30 2019-02-22 联想(北京)有限公司 一种信息处理方法和电子设备
CN113506565A (zh) * 2021-07-12 2021-10-15 北京捷通华声科技股份有限公司 语音识别的方法、装置、计算机可读存储介质与处理器
CN113506565B (zh) * 2021-07-12 2024-06-04 北京捷通华声科技股份有限公司 语音识别的方法、装置、计算机可读存储介质与处理器
CN114165819A (zh) * 2021-11-26 2022-03-11 珠海格力电器股份有限公司 吸油烟机及其控制方法、模组及计算机可读介质

Also Published As

Publication number Publication date
CN103038817B (zh) 2015-01-14
US8219384B2 (en) 2012-07-10
WO2011149837A1 (en) 2011-12-01
AU2011258531B2 (en) 2014-03-06
AU2014202785B2 (en) 2015-10-29
CN104575493B (zh) 2019-03-26
US20120022869A1 (en) 2012-01-26
AU2011258531A1 (en) 2012-10-04
US20110295590A1 (en) 2011-12-01
EP2577653A1 (en) 2013-04-10
AU2014202785A1 (en) 2014-06-12
EP2577653B1 (en) 2015-03-11
CN104575493A (zh) 2015-04-29
US8468012B2 (en) 2013-06-18
US20130297313A1 (en) 2013-11-07

Similar Documents

Publication Publication Date Title
CN103038817B (zh) 使用地理信息的声学模型适配
CN102918591B (zh) 用于增强话音识别准确度的有地理标记的环境音频
CN103069480B (zh) 用于语音识别的语音模型和噪声模型
EP3308379B1 (en) Motion adaptive speech processing
US11048532B1 (en) Device agnostic user interface generation based on device input type
US11302291B1 (en) Device agnostic user interface generation
AU2014200999B2 (en) Geotagged environmental audio for enhanced speech recognition accuracy

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.