CN104575493B - 使用地理信息的声学模型适配 - Google Patents
使用地理信息的声学模型适配 Download PDFInfo
- Publication number
- CN104575493B CN104575493B CN201410723927.8A CN201410723927A CN104575493B CN 104575493 B CN104575493 B CN 104575493B CN 201410723927 A CN201410723927 A CN 201410723927A CN 104575493 B CN104575493 B CN 104575493B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- mobile device
- geographical
- geographic location
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006978 adaptation Effects 0.000 title claims abstract description 35
- 230000005236 sound signal Effects 0.000 claims abstract description 234
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000003860 storage Methods 0.000 claims abstract description 20
- 238000004590 computer program Methods 0.000 claims abstract description 13
- 238000013518 transcription Methods 0.000 claims description 29
- 230000035897 transcription Effects 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 208000005392 Spasm Diseases 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 7
- 241001269238 Data Species 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003137 locomotive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- JTJMJGYZQZDUJJ-UHFFFAOYSA-N phencyclidine Chemical compound C1CCCCN1C1(C=2C=CC=CC=2)CCCCC1 JTJMJGYZQZDUJJ-UHFFFAOYSA-N 0.000 description 1
- 235000015277 pork Nutrition 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephone Function (AREA)
Abstract
用于增强语音识别准确度的方法、系统和装置、包括在计算机存储介质上编码的计算机程序。在一个方面中,一种方法包括:接收与移动设备记录的讲话对应的音频信号;确定与移动设备关联的地理位置;针对地理位置适配一个或者多个声学模型;并且使用针对地理位置适配的一个或者多个声学模型对音频信号执行语音识别。
Description
本申请是申请号为201180021722.X、申请日为2011年5月23日、发明名称为“使用地理信息的声学模型适配”的发明专利申请的分案申请。
相关申请的交叉引用
本申请要求标题为ACOUSTIC MODEL ADAPTATION USING GEOGRAPHICINFORMATION、于2010年5月26日提交的第12/787,568号美国申请的优先权,通过援引将其公开内容并入于此。
技术领域
本说明书涉及语音识别。
背景技术
移动设备的用户可以例如通过在键盘上键入或者向麦克风中口述来录入文字。在话音输入的背景中,自动化搜索识别(“ASR”)引擎可能在与特定语言关联的声音基于用户的口音而变化时准确识别口述单词有困难。例如在由纽约人或者波士顿人口述时,典型ASR引擎可能识别单词“park”分别为单词“pork”或者“pack”。
发明内容
一般而言,在本说明书中描述的主题内容的一个创新方面可以体现于方法中,这些方法用于ASR引擎自动地训练、选择、生成或者否则适配在地理位置上专属(或者“地理专属”)于一个或者多个地理区域的一个或者多个声学模型。声学模型应用于用位置信息进行“地理标注”的音频信号(或者“采样”或者“波形”)以通过比较音频信号与声音的统计表示来执行语音识别,这些声音组成特定语言的每个单词。一个或者多个声学模型可以包括在地理位置上专属于单个地理区域或者多个地理区域的单个声学模型。
如本说明书中所用,“地理标注”的音频信号指代已经与位置元数据(例如地理位置元数据或者相对位置元数据)或者地理空间元数据关联或者用该元数据“标注”的信号。除其他以外,位置元数据可以包括导航坐标如纬度和经度、海拔信息、方位或者航向信息、与位置关联的名称或者地址信息、相对位置或者方向信息或者引用位置类型的信息。
用于适配声学模型的方法包括接收多个移动设备在多个地理位置记录的地理标注的音频信号并且使用地理标注的音频信号中的至少部分来适配一个或者多个声学模型。在接收移动设备在地理位置之一内或者附近记录的讲话时,ASR引擎可以使用一个或者多个适配的声学模型对讲话执行语音识别。显然可以在接收讲话之前、期间或者之后适配声学模型。
讲话可以对应于任何类型的话音输入、比如向话音搜索查询系统、口授系统或者对话系统的输入。在话音搜索查询系统的情境中,“搜索查询”包括在用户请求搜索引擎执行搜索查询时用户向搜索引擎提交的一个或者多个查询检索词,其中“检索词”或者“查询检索词”包括一个或者多个全部或者部分单词、字符或者字符串。除其他以外,搜索查询的“结果”(或者“搜索结果”)包括引用如下资源的统一资源标识符(URI),搜索引擎确定该资源响应于搜索查询。除其他以外,搜索结果可以比如包括标题、预览图像、用户等级、地图或者方向、对应资源的描述或者已经从对应资源自动或者手动提取或者否则与对应资源关联的文字摘录。
一般而言,在本说明书中描述的主题内容的另一创新方面可以实现于包括以下动作的方法中:接收与移动设备记录的讲话对应的音频信号;确定与移动设备关联的地理位置;针对地理位置适配一个或者多个声学模型;并且使用针对地理位置适配的一个或者多个声学模型对音频信号执行语音识别。
这些方面的其它实施例包括配置成执行方法的动作的对应系统、装置和在计算机存储设备上编码的计算机程序。
这些和其它实施例可以各自可选地包括以下特征中的一个或者多个特征。在各种例子中,适配一个或者多个声学模型还包括在接收与讲话对应的音频信号之前适配一个或者多个声学模型;适配一个或者多个声学模型还包括在接收与讲话对应的音频信号之后适配一个或者多个声学模型;动作还包括接收与多个移动设备在多个地理位置记录的音频对应的地理标注的音频信号;并且针对地理位置适配一个或者多个声学模型还包括使用地理标注的音频信号的子集针对地理位置适配一个或者多个声学模型;动作还包括:针对地理标注的音频信号中的每个地理标注的音频信号确定在与移动设备关联的地理位置和与地理标注的音频信号关联的地理位置之间的距离;并且选择与在与移动设备关联的地理位置的预定距离内的地理位置关联、或者与在与关联于移动设备的地理位置最近的N个地理位置之中的地理位置关联的地理标注的音频信号作为地理标注的音频信号的子集;动作还包括选择与也与移动设备关联的地理位置关联的地理标注的音频信号作为地理标注的音频信号的子集;动作还包括基于与移动设备关联的地理位置和基于与讲话关联的情境数据选择地理标注的音频信号的子集;情境数据包括对移动设备记录讲话时的时间或者日期进行引用的数据、对移动设备在记录讲话时测量的速度或者运动量进行引用的数据、引用移动设备的设置的数据或者引用移动设备的类型的数据;适配声学模型包括使用地理标注的音频信号的子集作为训练集来训练高斯混合模型(GMM);讲话代表话音搜索查询或者向数字口授应用或者对话系统的输入;确定地理位置还包括从移动设备接收引用地理位置的数据;确定地理位置还包括确定与移动设备关联的以往地理位置或者默认地理位置;动作还包括:生成讲话的一个或者多个候选转录;并且使用一个或者多个候选转录来执行搜索查询;针对地理位置适配一个或者多个声学模型还包括从已经针对多个地理位置生成的多个声学模型之中选择针对与移动设备关联的地理位置生成的一个或者多个声学模型;针对地理位置适配一个或者多个声学模型还包括向单个声学模型使用的特征空间中并入引用地理位置的数据;向单个声学模型使用的特征空间中并入引用地理位置的数据还包括向单个声学模型使用的特征空间中并入值,其中值包括梅尔频率倒频谱系数和地理坐标;针对地理位置适配一个或者多个声学模型还包括向在单个声学模型中包括的状态信息中并入引用地理位置的数据;和/或针对地理位置适配一个或者多个声学模型还包括:推导与地理位置关联的变换矩阵;并且将变换矩阵应用于单个通用声学模型。
可以实施在本说明书中描述的主题内容的具体实施例以实现以下优点中的一个或者多个优点。可以提高语音识别准确度。可以使用准确地反映口音、方言或存在于给定语言中的语音模式中的差异的讲话以及可以跨不同的地理区域发生的讲话来适配声学模型。语音识别可以在服务器侧处执行,而非在客户端设备上执行,以允许增强处理优化并且增加计算效率。
在附图和下文描述中阐述在本说明书中描述的主题内容的一个或者多个实施例的细节。主题内容的其它潜在特征、方面和优点将从该描述和附图中变得清楚。
附图说明
图1是使用地理标注的音频以增强语音识别准确度的例子系统的图。
图2和图3是例子过程的流程图。
图4是例子过程的泳道图。
各种附图中的相似标号指示相似要素。
具体实施方式
图1是使用地理标注的音频以增强语音识别准确度的例子系统100的图。图1也图示了在状态(a)至(i)期间在系统100内的数据流以及在状态(i)期间在系统100的移动设备102上显示的用户接口101。简言之,系统100适配地理专属于一个或者多个地理区域的一个或者多个声学模型。声学模型应用于用位置信息进行地理标注的音频信号,以通过比较音频信号与声音的统计表示来执行语音识别,这些声音组成特定语言的每个单词。
更具体而言,系统100包括通过一个或者多个网络106与服务器104和ASR引擎105通信的移动设备102。服务器104可以是搜索引擎、口授引擎、对话系统或者任何如下其它引擎或者系统,该引擎或者系统使用转录的语音或者调用使用转录的语音的软件应用以执行某个动作。网络106可以包括无线蜂窝网络、无线局域网(WLAN)或者Wi-Fi网络、第三代(3G)或者第四代(4G)移动电信网络、专用网络如内部网、公用网络如因特网或者其任何适当组合。状态(a)至(i)描绘当系统100执行例子过程时出现的数据流。状态(a)至(i)可以是时序状态,或者它们可以在与所示序列不同的序列中出现。
根据图1中所示例子过程,ASR引擎105从各种设备(例如移动设备102或者其它移动或者非移动设备)接收地理标注的音频信号107至109并且使用地理标注的音频信号107至109针对一个或者多个地理位置适配一个或者多个地理专属声学模型111。地理专属声学模型111可以包括适配成地理专属于一个地理位置或者多个地理位置的一个单个声学模型,或者地理专属声学模型111可以包括共同适配成地理专属于一个地理位置或者各自适配成地理专属于不同地理位置的两个或者更多声学模型。
当接收与移动设备102记录的讲话113对应的音频信号112时,确定与移动设备102(或者移动设备102的用户114(“波士顿Bob”))关联的一个或者多个地理位置。ASR引擎105使用地理专属声学模型111来转录讲话113,这些声学模型匹配于与移动设备102(或者移动设备102的用户114)关联的地理位置或者ASR引擎105确定这些声学模型适合于这些地理位置。从ASR引擎105向服务器104传达一个或者多个候选转录115。当服务器104是搜索引擎时,服务器104使用候选转录115来执行一个或者多个搜索查询、生成搜索结果116并且向移动设备102传达搜索结果116用于显示。
更具体而言,在状态(a)期间,通过网络106向ASR引擎105传达地理标注的音频信号107至109。一般而言,地理标注的音频信号107至109中的一个或者多个音频信号包括不同用户的话音。可以在状态(a)期间向ASR引擎105传达更少或者更多地理标注的音频信号。
虽然在地理标注的音频信号107至109中编码的话音中的若干语音可以共享共同语言,但是口述共同语言的不同话音可以具有与不同地理区域相关的不同口音(即“地理相关”语音)。因而与音频信号107至109关联的地理位置可以用来按照地理区域(并且因此按照口音、方言或者语音模式)对音频信号聚类并且适配一个或者多个声学模型111以更好地识别表现特定地理相关口音、方言或者语音模式的语音。除了话音之外,地理标注的音频信号107至109也可以包括在特定位置(自然地或者以别的方式)出现的周围声音或者环境噪声。
在状态(b)期间,ASR引擎105接收地理标注的音频信号107至109并且在音频信号汇集中(例如在计算机可读存储介质上)存储地理标注的音频信号107至109(或者其部分)。如下文描述的那样,ASR引擎105存储的音频信号汇集用于训练、构建、生成或者否则适配一个或者多个地理专属声学模型111,这些声学模型用来对地理标注的音频信号和讲话执行语音识别。
在图1中,ASR引擎105接收已经用引用位置“纽约市”的元数据117标注的音频信号107。另外,ASR引擎105接收已经用引用位置“波士顿”的元数据118和引用“城市”地理位置类型(即因为“波士顿”是城市)的元数据119标注的音频信号108。此外,ASR引擎105接收已经用引用位置“新英格兰”的元数据120和引用位置“波士顿”(“波士顿”是“新英格兰”内的城市)的元数据121标注的音频信号109。与相应音频信号关联的地理标注的位置可以指代移动设备的位置、用户、讲话引用的位置、默认位置、ASR引擎105、网络106或者网络106的部分或者一些其它位置。
元数据117至121(或者其一些部分)可以如图所示由向ASR引擎105传达元数据117至121的设备与音频信号107至109关联。取而代之,元数据117至121(或者其一些部分)可以由ASR引擎105、搜索引擎104或者由另一服务器在接收未标注的音频信号之后基于推断移动设备102(或者移动设备102的用户114)的位置来与音频信号107至109关联。
音频信号107至109可以各自包括相对高质量音频、比如十六千赫兹无损音频的两秒(或者更多)摘录。元数据可以引用设备(或者设备的用户)在记录、捕获、生成或者否则获得音频时的位置,或者元数据可以引用设备(或者设备的用户)在记录、捕获、生成或者否则获得音频之前或者之后的时间的位置。可以向ASR引擎105人工上传音频信号107至109,或者对于选择参与的用户,可以自动获得并且向ASR引擎105传达音频信号107至109而无需在向ASR引擎105传达每个音频信号之前的显式用户激励。
元数据117至121可以用任何数目的不同格式或者细节或者粒度水平描述位置。例如,元数据117至121可以包括标识地理区域的二维坐标(例如纬度和经度)、地址或者信息。当在移动车辆中记录音频信号时,元数据117至121可以描述车辆的路径(例如包括起点和终点以及运动数据)。此外,元数据117至121可以在位置类型方面描述位置(例如“移动车辆”、“在海滩上”、“在饭馆中”、“在高楼中”、“南亚”、“农村区域”、“有建筑噪声的某处”、“游乐园”、“在船艇上”、“室内”、“地下”、“在街道上”、“森林”)。
另外,元数据117至121可以在有界区域方面描述位置(例如表达为限定有界区域的坐标集)或者可以使用区域标识符、比如州名或者标识符、城市名、惯用名(例如“中央公园”、“唐人街”、“TriBeca”)、国名或者任意限定区域的标识符(例如“房间/区域ABC123”)。单个音频信号可以与描述一个位置或者位置类型或者多个位置和/或位置类型的元数据关联。
ASR引擎105或者移动设备102可以处理元数据117至121以调整位置信息的细节水平(例如以确定与特定坐标集关联的州),或者位置信息可以被离散化(例如通过选择沿着路径的具体点或者与路径关联的区域)。可以通过指定或者添加位置类型元数据、例如通过向其关联地理坐标与海滩位置关联的音频信号添加“在海滩上”标签或者通过向包括在背景中交谈的多个人的声音的音频信号添加“有许多人的某处”标签来调整元数据的细节水平,当特定音频信号与引用两个或者更多位置的元数据关联时,ASR引擎105可以通过去除引用位置中的一个或者多个位置的元数据来过滤音频信号。
元数据引用的地理位置也可以转换成离散化的特征以减少可能不同位置的数目。这可以例如通过减少纬度和经度坐标的分辨率(例如从0.001度减少至1度或者5度)或者通过将纬度和经度坐标转换成地理位置的名称(例如通过使用在国家、州、城市或者省份之间的边界限定的区域)来完成。
由于ASR引擎105适配一个或者多个声学模型111以增强对包括不同口音的话音的识别,所以用来适配一个或者多个声学模型111的音频信号应当包括不同用户在不同地理位置的语音、口音和方言。就这一点而言,ASR引擎105可以使用语音活动检测器以验证ASR引擎105存储的音频信号汇集包括语音存在于其中的音频信号并且滤除或者以别的方式标识或者排除仅包括环境噪音或者环境声音的音频信号(或者音频信号的部分)。例如ASR引擎105可以去除音频信号的与在用户口述之前或者之后出现或者在单词之间的停顿之间出现的背景噪声对应的部分。ASR引擎105存储的音频信号汇集可以包括数以十计、数以百计、数以千计、数以百万计或者数以亿计的音频信号。
ASR引擎105对存储或者不存储特定音频信号(或者其部分)的判决可以分别基于确定用户的语音在音频信号中被编码或者未被编码。取而代之,ASR引擎105存储音频信号可以包括标识音频信号的包括用户的语音的部分、通过去除未包括用户的语音的部分或者通过关联元数据、该元数据引用包括用户的语音的部分来变更音频信号并且存储变更的音频信号。音频信号的环境噪声或者环境声音部分可以由ASR引擎105存储用于其它目的、例如构建地理专属噪声模型。
与音频信号107或者109关联的其它情境数据或者元数据也可以由ASR引擎105存储。例如ASR引擎105存储的音频信号可以在一些实施方式中包括其它元数据标签、比如指示背景语音(例如自助餐厅聊天)是否存在于音频信号内的标签、标识获得特定音频信号的日期的标签(例如用来确定采样年龄)、标识移动设备102的用户114的口音的标签、标识移动设备102的用户114设置的地点的标签(例如标识用户114偏好英国英语或者美国英语的标签)或者标识特定音频信号是否以一些方式从汇集的在相同或者相似位置获得的其它音频信号偏离的标签。例如标签可以标识无口音或者有重口音(例如南非口音)的用户正在与不同重口音(例如澳大利亚口音)关联的地理区域中使用移动设备以避免使用未准确反映与特定地理区域关联的口音的音频信号来适配声学模型。
ASR引擎105可以可选地过滤音频信号以排除满足或者未满足其它标准的特定音频信号。例如ASR引擎105可以判决不存储如下音频信号,该音频信号比某一年龄更老或者包括可以唯一标识个人或者可以用别的方式在性质上专有或者私有的背景聊天。在附加例子中,可以在与音频信号关联的元数据中标注如下数据,该数据引用是否人工或者自动上传ASR引擎105存储的音频信号,并且可以仅使用自动上传的那些音频信号或者仅使用人工上传的那些音频信号来适配一个或者多个声学模型111,或者可以在适配声学模型期间向每个上传类别分配不同加权。
虽然显式标签可以应用于ASR引擎105存储的音频信号以引用特定地理位置,但是在其它实施方式中,可以比如当可以推导在音频信号与地理位置之间的关联性时,无需或者未使用显式标签。例如可以通过处理搜索日志(例如用服务器104存储)以推断用于特定音频信号的地理位置来隐式地关联地理位置与音频信号。因而,ASR引擎105‘接收’地理标注的音频信号可以包括获得未用地理位置明确标注的音频信号并且推导和关联用于音频信号的一个或者多个地理标签。
在状态(c)期间,通过网络106从移动设备102向ASR引擎105传达音频信号112。音频信号112包括移动设备102(例如在用户隐式地或者显式地发起语音搜索查询时)记录的讲话113(如本地波士顿人、比如“波士顿Bob”可以口述的“Pahk yah kah”,它是措词“停放您的汽车”的表音转录)。音频信号112包括引用地理位置“波士顿”的元数据123。除了包括讲话113之外,音频信号112也可以包括环境音频摘录、比如在口述讲话113之前或者之后记录的两秒音频摘录。尽管在图1中图示了讲话113为语音查询,但是在其它例子实施方式中,讲话可以是向口授系统或者相对话系统的语音输入。
可以使用与ASR引擎105存储的音频信号关联的地理位置相同或者不同的细节水平来限定与音频信号112关联的地理位置(“波士顿”)。例如可以表达与ASR引擎105存储的音频信号关联的地理位置为地理区域,而可以表达与音频信号112关联的地理位置为地理坐标。当细节水平不同时,ASR引擎105可以处理元数据117至121的地理元数据123以对准相应细节水平,从而可以更容易执行子集选择过程。
元数据123可以由移动设备102(或者移动设备102对用户114)在记录讲话113时基于当前地理位置来与音频信号112关联并且可以与音频信号112一起从移动设备102向ASR引擎105传达。取而代之,元数据可以由ASR引擎105基于ASR引擎105推断的用于移动设备102(或者移动设备102的用户114)的地理位置来与音频信号112关联。
ASR引擎105或者移动设备102可以使用用户的日历时间表、(例如如存储于ASR引擎105或者服务器104的用户账户中或者如从移动设备102传达的)用户偏好、默认位置、以往位置(例如移动设备102的GPS模块计算的最新位置)、用户在提交语音搜索查询时显式提供的信息、根据讲话113本身、三角测量(例如WiFi或者小区塔三角测量)、在移动设备102中的GPS模块或者推算定位(dead reckoning)来推断地理位置。元数据123可以包括准确度信息,该信息指定地理位置确定的准确度,从而表示移动设备102(或者移动设备102的用户114)在记录讲话113时的时间实际上在元数据123指定的特定地理位置的可能性。
在附加例子中,ASR引擎105或者移动设备102可以使用用户在所有他的讲话内的平均位置、用户的“家乡位置”(例如如用户显式地指定或者根据口音推断的、用户当前居住的位置或者他成长并且他的口音来自的位置)、代表用户在一些近来时间段内的位置的‘平滑’、当前位置与用户的家乡位置的组合(例如根据两个二维纬度和经度推导的四维信号)或者作为连续二维纬度和经度信号的当前位置位置来推断地理位置。
也可以与音频信号112一起包括其它元数据。例如与音频信号一起包括的元数据可以包括与相应移动设备102关联的位置或者地点。例如地点可以描述移动设备102在其中注册的区域或者移动设备102的用户114的语言或者方言以及其它可选参数。语音识别模块124可以使用这一信息以选择、训练、生成或者以别的方式适配与移动设备102的情境匹配的噪声、话音、声学、流行度或者其它模型。
在状态(d)期间,ASR引擎105选择ASR引擎105已经接收的音频信号的子集并且使用声学模型适配模块125以使用音频信号的子集来训练、生成或者以别的方式适配一个或者多个声学模型111(例如高斯混合模型(GMM))。例如可以使用ASR引擎105选择的音频信号的子集作为用于一个或者多个声学模型111的训练集。
子集可以包括ASR引擎105存储的音频信号中的所有或者少于所有音频信号。这一选择可以通过比较来自音频信号107至109的声学信息与来自音频信号112的声学信息来出现以产生更准确反应在不同口音之间的实际地理边界的子集。
一般而言,一个或者多个声学模型111与噪声模型、语言模型和/或其它模型一起应用于音频信号112以将口述讲话113转译或者转录成一个或者多个文字候选转录115并且向候选转录115生成语音识别置信度分数。具体而言,一个或者多个声学模型111包括组成特定语言的每个单词的声音的统计表示,并且噪声模型用于噪声抑制或者噪声补偿。两种模型增强口述讲话113在ASR引擎105看来的可理解性。
更具体而言,声学模型适配模块125可以使用音频信号108和109针对与音频信号112关联的地理位置(“波士顿”)适配声学模型,因为地理标注音频信号108和109为已经在该地理位置或者附近或者在相同或者相似类型的位置被记录。另外,除了音频信号108和109之外或者取而代之,音频信号112本身也可以用来适配一个或者多个声学模型111。在针对特定地理位置适配声学模型时,声学模型适配模块125基于可以与特定口音、方言或者话音模式相关的标准来适配声学模型。
在另一例子中,声学模型适配模块125可以使用被地理标注为已经在另一地理位置(例如“纽约市”)或者附近或者在相同或者相似类型的位置被记录的音频信号107针对另一地理位置适配声学模型。如果声学模型适配模块125被配置成选择被地理标注为已经在与音频信号112关联的地理位置附近(例如在预定义距离内)被记录的音频信号,那么如果“纽约市”在“波士顿”的预定义距离内,则声学模型视频模块125也可以使用标注“纽约市”的音频信号107针对“波士顿”适配一个或者多个声学模型111。
除了使用位置标准之外,其它情境数据也可以用来选择由ASR引擎105用来适配一个或者多个声学模型111的音频信号的子集或者调整特定音频信号对一个或者多个声学模型111的适配具有的影响的权值。例如ASR引擎15可以选择如下音频信号的子集,这些音频信号的情境数据指示它们比预定义时间段更长或者更短,或者这些音频信号的情境数据指示它们满足某一质量或者近因标准。另外,ASR引擎105可以选择如下音频信号作为子集,这些音频信号的情境信息指示它们是使用具有与移动设备102相似的音频子系统的移动设备来记录的。
可以用来选择音频信号的子集的其它情境数据可以在一些例子中包括时间信息、日期信息、对特定移动设备在记录期间测量的速度或者运动数量进行引用的数据、其它设备传感器数据、设备状态数据(例如蓝牙耳机、扬声器电话或者传统输入方法)、用户标识符(如果用户选择提供用户标识符)或者标识移动设备类型或者机型的信息。情境数据例如可以提供在音频信号112的记录周围环境的条件的指示。
在一个例子中,移动设备102与音频信号112一起供应的情境数据可以指示移动设备102在与水体关联的区域中在步行速度以上行进。使用这一情境数据,ASR 105可以推断音频信号112在船艇上被记录并且可以选择与“在船艇上”位置类型关联的音频信号的子集以更好地识别“在船艇上”位置类型共有的口音、方言或者话音模式、比如渔夫或者水手使用的口音、方言或者话音模式。
在另一例子中,移动设备102与音频信号112一起供应的情境数据可以指示移动设备102在农村区域中。基于这一情境数据,ASR引擎105可以推断如果子集包括在城市区域中记录的音频信号则不会提高语音识别的准确度。因而情境数据可以由声学模型适配模块125用来选择将用来适配一个或者多个声学模型的音频信号或者选择用来识别特定讲话的适当声学模型111。在一些实施方式中,声学模型适配模块125可以基于与音频信号关联的地理位置和与音频信号112关联的地理位置的邻近度来选择ASR引擎105存储的音频信号的加权组合。
声学模型适配模块125也可以使用音频信号112本身中包括的音频来适配一个或者多个声学模型111。例如声学模型适配模块125可以相对于音频信号112的质量确定ASR引擎105存储的音频信号的质量并且可以选择仅使用ASR引擎105存储的音频信号、仅使用音频信号112或者使用其任何适当加权或者未加权组合来适配一个或者多个声学模型111。例如声学模型适配模块125可以确定音频信号112包括很少讲话或者ASR引擎105针对该特定地理位置存储包括多个讲话的其它高质量音频信号并且可以选择适配声学模型而未使用音频信号112(或者向音频信号112给予很少加权)。
在一些实施方式中,声学模型适配模块125选择与N(例如五个、二十个或者五十个)与关联于音频信号112的地理位置最近的地理位置关联的音频信号作为子集。当与音频信号112关联的地理位置描述点或者地方(例如坐标)时,可以相对于该地理位置的几何形状(例如圆形或者方形)限定几何形状,并且声学模型适配模块125可以选择ASR引擎105存储的与全部或者部分位于限定的几何形状内的地理区域关联的音频信号作为子集。当与音频信号112关联的地理位置描述区域时,声学模型适配模块125可以选择ASR引擎105存储的与在区域的任何点的预定距离内的地理区域关联的音频信号作为子集。
如果已经在位置类型(即“在海滩上”、“城市”)方面限定与音频信号112关联的地理位置,ASR引擎105可以选择与相同或者相似位置类型关联的音频信号,即使与选择的音频信号关联的物理地理位置在物理上未在与音频信号112关联的地理位置附近。例如由于全世界的冲浪运动员可以使用相似口音或者方言,所以可以用“在海滩上”元数据标注用于在佛罗里达海滩上记录的音频信号的声学模型。在这样做时,声学模型适配模块125可以选择如下音频信号作为子集,这些音频信号的关联元数据指示它们也在海滩上被记录,尽管事实是可能已经在澳大利亚、夏威夷或者在冰岛的海滩上记录它们。
如果与音频信号112关联的地理位置未匹配于与ASR引擎105存储的音频信号关联的任何物理地理位置或者无高质量匹配(即匹配未满足预定质量阈值),则声学模型适配模块125可以基于匹配位置类型而不是匹配实际物理地理位置来选择音频信号的子集。其它匹配过程、比如聚类算法可以用来匹配音频信号112与ASR引擎105存储的音频信号。
除了生成‘通用’地理专属声学模型111之外,声学模型适配模块125也可以适配以其它标准为目标或者专属于其它标准的地理专属声学模型、比如进一步专属于不同设备类型或者当天时间的地理专属声学模型。可以基于检测已经满足阈值、比如确定ASR引擎105存储的阈值数目的音频信号指代相同地理位置并且共享另一相同或者相似情境(例如当天时间、当周日子、运动特性、设备类型等)来适配作为目标的声学子模型。
可以在移动设备102已经记录讲话113之前、期间或者之后适配一个或者多个声学模型111。例如来自与讲话113相同或者相似的位置的多个音频信号可以与处理讲话113并行处理并且可以用来实时或者近实时适配一个或者多个声学模型111以更好地逼近在记录讲话113时在包围移动设备102的地理区域中居住的人的口音、方言或者其它话音模式。
适配一个或者多个声学模型111可以使用至少四种方式来出现。例如可以针对每个地理位置地理区域或者地点构建单独声学模型。根据第一方式,适配声学模型114包括从ASR引擎105已经针对多个地理位置构建的多个声学模型之中选择与关联于音频信号112的地理位置匹配的特定地理专属声学模型。
根据第二方式,位置信息可以并入于声学模型中。例如二维连续纬度和经度坐标矢量可以直接堆叠于声学模型使用的已经包括声学特征如梅尔频率对数倒频谱系数(“MFCC”)的特征空间中。根据这一方式,需要构建更少声学模型,因为位置信息可以视为用于单个声学模型的规则训练过程的部分。
更具体而言,用来适配模型的音频信号(例如音频信号107至109)划分成帧(例如25毫秒帧)。例如使用十个到四十个MFCC来推导每帧的对数倒频谱表示以描述每个特定帧的声音。当使用特定帧来训练模型时,如下数据集用来代表帧,该数据集包括与特定帧关联的MFCC和指代地理位置(例如地理坐标)的值二者。
根据第三方式,可以并入离散化的位置信息作为在声学模型中包括的状态信息的部分。具体而言,声学模型将状态映射至特征空间内的概率分布,从而除了当前音素以及关于先前和后继音素的一些情境信息之外也可以扩充状态以包括位置信息。在训练期间,对于每帧,状态可能未确切已知;有时仅状态内的概率分布已知;在这一情况下,可以向状态内的概率分布中并入离散化的位置内的平滑连续位置分布或者概率密度函数。因而模型在音素水平而不是声学特征水平存储位置信息。
根据无需重新训练声学模型的第四方式,单个声学模型用于语言内的所有位置,然而基于地理位置以轻量级方式适配声学模型。一种这样的用于适配声学模型的已知技术使用最大似然线性回归(“MLLR”),该MLLR推导变换矩阵,该变换矩阵应用于声学模型空间中的高斯系数或者声学模型的输入特征应用以调整模型以与适配讲话集匹配。音频信号112的地理位置可以用来限定地理区域,并且可以向MLLR适配算法中馈送ASR引擎105存储的与区域关联的所有训练音频信号以产生可以用来变换声学模型以与在该区域中发现的口音匹配的矩阵。
更具体而言,可以针对特定区域和/或语言生成单个通用声学模型、比如代表“美国英语”的声学模型。用来适配模型的音频信号(例如音频信号107至109)用来生成线性变换,这些线性变换通过将通用声学模型的系数与适当线性变换进行矩阵相乘来变换通用模型以与特定子区域中的口音匹配。生成线性变换和通过矩阵乘法适配通用声学模型可以在飞行中、例如在ASR引擎105已经接收音频信号112之后出现。
在状态(e)期间,ASR引擎105的语音识别模块124使用用于与音频信号112关联的地理位置的一个或者多个地理专属声学模型111对音频信号112执行语音识别。当音频信号112包括对移动设备102的设备类型进行描述的元数据时,ASR引擎105可以应用专属于与音频信号关联的地理位置和移动设备102的设备类型二者的声学模型。语音识别模块124可以生成与在音频信号112中编码的讲话匹配的一个或者多个候选转录115和用于候选转录的语音识别置信度值。
在状态(f)期间,从ASR引擎105向服务器104传达语音识别模块124生成的候选转录115中的一个或者多个候选转录。当服务器104是搜索引擎时,可以使用候选转录115作为由搜索引擎用来执行一个或者多个搜索查询的候选查询检索词。ASR引擎105可以在向服务器104发送之前至少部分基于候选转录115的相应语音识别置信度分数对它们排行。通过转录口述讲话并且服务器104提供候选转录,ASR引擎105可以向移动设备102提供话音搜索查询能力、口授能力或者对话系统能力。
服务器104可以使用候选查询检索词来执行一个或者多个搜索查询并且可以生成引用搜索结果126和127的文件116。文件116可以是标记语言文件、比如可扩展标记语言(XML)或者超文本标记语言(HTML)文件。
服务器104在一些例子中可以包括用来在因特网内发现参考文献的网上搜索引擎、用来发现企业或者个人的电话簿型搜索引擎或者另一专门化搜索引擎(例如提供对诸如餐馆和电影院信息、医疗和药品信息等娱乐清单的引用的搜索引擎)。在状态(h)期间,服务器104向移动设备102提供引用搜索结果126至127的文件116。
在状态(i)期间,移动设备102在用户接口101上显示搜索结果126和127。用户接口101包括:搜索框129,该搜索框显示具有最高语音识别置信度分数的候选查询检索词(“停放您的汽车”);替代查询检索词建议区域130,该区域显示简化113可能已经预计的另一候选查询检索词(“Parker Cole”或者“Parka Card”);搜索结果126,该搜索结果包括指向用于“波士顿停车”的资源的链接;以及搜索结果127,该搜索结果包括指向用于“剑桥停车场”的资源的链接。
图2是例子过程200的流程图。简言之,过程200包括:接收与移动设备记录的讲话对应的音频信号;确定与移动设备关联的地理位置;针对地理位置适配一个或者多个声学模型;并且使用针对地理位置适配的一个或者多个声学模型对音频信号执行语音识别。
更具体而言,当过程200开始时,接收与移动设备记录的讲话对应的音频信号(202)。讲话可以包括语音搜索查询或者可以是向口授或者对话应用或者系统的输入。讲话可以包括关联情境数据、比如时间、日期、在记录地理标注的音频信号期间测量的速度或者运动数量或者记录地理标注的音频信号的设备类型。
确定与移动设备关联的地理位置(204)。例如可以从移动设备接收引用特定地理位置的数据或者可以标识与移动设备关联的以往地理位置或者默认地理位置。
针对地理位置适配一个或者多个声学模型(206)。可以通过针对每个地理标注的音频信号确定在特定地理位置和与地理标注的音频信号关联的地理位置之间的距离并且选择在特定地理位置的预定距离内或者与在与特定地理位置最近的N个地理位置之中的地理位置关联的那些地理标注的音频信号来选择用于适配音频模型的地理标注的音频信号的子集。
适配一个或者多个声学模型可以包括从已经针对多个地理位置生成的多个声学模型之中选择针对与移动设备关联的地理位置生成的一个或者多个声学模型或者向一个或者多个声学模型使用的特征空间中并入引用地理位置的数据(例如地理坐标)。取而代之,适配一个或者多个声学模型可以包括向在声学模型中包括的状态信息中并入引用地理位置的数据或者推导与地理位置关联的变换矩阵;并且将变换矩阵应用于通用声学模型。
可以通过标识与特定地理位置关联的地理标注的音频信号和/或通过标识与讲话在声学上相似的地理标注的音频信号来选择地理标注的音频信号的子集。可以基于特定地理位置和与讲话关联的情境数据选择地理标注的音频信号的子集。生成声学模型可以包括使用地理标注的音频信号的子集作为训练集来训练GMM。
对音频信号执行语音识别(208)。执行语音识别可以包括生成讲话的一个或者多个候选转录。可以使用一个或者多个候选转录来执行搜索查询,或者可以提供候选转录中的一个或者多个候选转录作为数字口授应用的输出。取而代之,可以提供候选转录中的一个或者多个候选转录作为向对话系统的输入以允许计算机系统与特定移动设备的用户对话。
图3是另一例子过程300的流程图。简言之,过程300包括接收地理标注的音频信号并且至少部分基于与每个地理标注的音频信号关联的特定地理位置生成多个声学模型。可以在基于讲话执行语音识别时至少部分基于与讲话的地理位置选择这些声学模型中的一个或者多个声学模型。
更具体而言,当过程300开始时,接收与音频对应的地理标注的音频信号(302)。地理标注的音频信号可以在特定地理位置由移动设备记录。可以处理接收的地理标注的音频信号以排除音频信号的部分,这些部分未包括移动设备对用户的语音。可以接收并且存储在一个或者多个地理位置记录的多个地理标注的音频信号。
可选地,接收与地理标注的音频信号关联的情境数据(304)。地理标注的音频信号可以包括时间、日期、在记录地理标注的音频信号期间测量的速度或者运动数量或者记录地理标注的音频信号的设备类型。
适配一个或者多个声学模型(306)。可以针对特定地理位置或者可选地针对位置类型使用地理标注的音频信号的子集来适配每个声学模型。可以通过针对每个地理标注的音频信号确定在特定地理位置和与地理标注的音频信号关联的地理位置之间的距离并且选择在特定地理位置的预定距离内或者与在与特定地理位置最近的N个地理位置之中的地理位置关联的那些地理标注的音频信号来选择理标注的音频信号的子集。可以通过标识与特定地理位置关联的地理标注的音频信号来选择地理标注的音频信号的子集。可以基于特定地理位置和与地理标注的音频信号关联的情境数据二者选择地理标注的音频信号的子集。生成声学模型可以包括使用地理标注的音频信号的子集来训练高斯混合模型(GMM)。
接收特定移动设备记录的讲话(308)。讲话可以包括语音搜索查询。讲话可以包括关联情境数据、比如时间、日期、在记录地理标注的音频信号期间测量的速度或者运动数量或者记录地理标注的音频信号的设备类型。
确定地理位置(310)。例如可以从移动设备的GPS模块接收引用特定地理位置的数据。
选择声学模型(312)。可以从针对多个地理位置适配的多个声学模型之中选择声学模型。情境数据可以可选地有助于从用于特定地理位置的多个声学模型之中选择特定声学模型。
使用选择的声学模型对讲话执行语音识别(314)。执行语音识别可以包括生成讲话的一个或者多个候选转录。可以使用一个或者多个候选转录来执行搜索查询。
图4示出了用于使用地理标注的音频来增强语音识别准确度的过程400的例子的泳道图。过程400可以由移动设备402、ASR引擎404和搜索引擎406实施。移动设备402可以向ASR引擎404提供音频信号、比如音频信号或者与讲话对应的音频信号。虽然图示了仅一个移动设备,但是移动设备402可以代表向过程400贡献音频信号和语音查询的大量移动设备402。ASR引擎404可以基于音频信号适配声学模型并且可以在执行语音识别时将一个或者多个声学模型应用于传入语音搜索查询。ASR引擎404可以向搜索引擎406提供对语音搜索查询内的讲话的转录以完成语音搜索查询请求。
过程400始于移动设备402向ASR引擎404提供408地理标注的音频信号。音频信号可以将移动设备402的语音的音频与关于记录音频的位置的指示一起包括。可选地,地理标注的音频信号可以包括例如形式为元数据的情境数据。ASR引擎404可以在音频数据存储库中存储地理标注的音频信号。
移动设备402向ASR引擎404提供410讲话。讲话例如可以包括语音搜索查询。记录讲话可以可选地包括例如在记录讲话之前或者之后简短记录的音频采样。
移动设备402向ASR引擎404提供412地理位置。移动设备在一些例子中可以提供使用GPS模块来检测的导航坐标、最新(但是未必与记录并行的)GPS读数、默认位置、根据先前提供的讲话推导的位置或者通过推算定位或者发射塔三角测量来估计的位置。移动设备402可以可选地向ASR引擎404提供情境数据、比如传感器数据、设备机型标识或者设备设置。
ASR引擎404适配414声学模型。可以部分通过训练GMM来适配声学模型。可以基于移动设备402提供的地理位置适配声学模型。例如从在移动设备402的位置或者附近的位置提交的地理标注的音频信号可以有助于声学模型。可选地,移动设备402提供的情境数据可以用来过滤地理标注的音频信号以选择与其中记录讲话的条件最适合的音频信号。例如可以按照当周日子或者当天时间过滤在移动设备402提供的地理位置附近的地理标注的音频信号。如果与移动设备402提供的讲话一起包括音频采样,则可以可选地在声学模型中包括音频采样。
ASR引擎404对提供的讲话执行语音识别416。可以使用由ASR引擎适配的声学模型将移动设备402提供的讲话转录成一个或者多个查询检索词集。
ASR引擎404向搜索引擎406转发418生成的转录。如果ASR引擎404生成多个转录,则可以可选地以置信度为序对转录排行。ASR引擎404可以可选地向搜索引擎406提供情境数据、比如地理位置,搜索引擎406可以使用该情境数据对搜索结果过滤或者排行。
搜索引擎406可以使用转录来执行420搜索操作。搜索引擎406可以对与转录检索词有关的一个或者多个URI定位。
搜索引擎406向移动设备402提供422搜索查询结果。例如搜索引擎406可以转发HTML代码,该代码生成定位的URI的可视列表。
已经描述多个实施方式。然而将理解可以进行各种修改而未脱离公开内容的精神实质和范围。例如可以在重新排序、添加或者去除步骤时使用上文所示流程的各种形式。
可以在数字电子电路中或者在包括本说明书中公开的结构及其结构等效物的计算机软件、固件或者硬件中或者在它们中的一项或者多项的组合中实施本说明书中描述的实施例和所有功能操作。实施例可以实施为一个或者多个计算机程序产品、即在计算机可读介质上编码的用于由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或者多个模块。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、实现机器可读传播信号的物质组成或者它们中的一项或者多项的组合。术语“数据处理装置”涵盖用于处理数据的所有装置、设备和机器、例如包括一个可编程处理器、一个计算机或者多个处理器或者计算机。装置除了包括硬件之外还可以包括为讨论的计算机程序创建执行环境的代码、例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一项或者多项的组合的代码。传播信号是人为生成的信号、例如为了对信息编码用于向适当接收器装置发送而生成的、机器生成的电、光学或者电磁信号。
可以用包括编译或者解译语言的任何形式的编程语言编写计算机程序(也称为程序、软件、软件应用、脚本或者代码),并且可以用任何形式部署它、包括作为独立程序或者作为适合用于在计算环境中使用的模块、部件、子例程或者其它单元。计算机程序未必对应于文件系统中的文件。程序可以存储于保持其它程序或者数据的文件的部分中(例如存储于标记语言文档中的一个或者多个脚本)、专用于讨论的程序的单个文件中或者多个协同文件(例如存储一个或者多个模块、子程序或者代码部分的文件)中。计算机程序可以被部署成在一个计算机上或者在位于一个地点或者分布于多个地点并且由通信网络互连的多个计算机上执行。
在本说明书中描述的过程和逻辑流程可以由一个或者多个可编程处理器执行,该处理器执行一个或者多个计算机程序以通过对输入数据操作并且生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路、例如FPGA(现场可编程门阵列)或者ASIC(专用集成电路)执行,并且装置也可以实施为该专用逻辑电路。
适合于执行计算机程序的处理器例如包括通用和专用微处理器二者和任何种类的数字计算机的任何一个或者多个处理器。一般而言,处理器将从只读存储器或者随机存取存储器或者二者接收指令和数据。
计算机的基本单元是用于执行指令的处理器以及用于存储指令和数据的一个或者多个存储器设备。一般而言,计算机也将包括用于存储数据的一个或者多个海量存储设备、比如磁盘、光磁盘或者光盘或者操作地耦合成从该海量存储设备接收数据或者向该海量存储设备传送数据或者二者。然而计算机无需具有这样的设备。另外,计算机可以嵌入于另一设备中,聊举数例,该另一设备例如是写字板计算机、移动电话、个人数字助理(PDA)、移动音频播放器、全球定位系统(GPS)接收器。适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备、例如包括半导体存储器设备如EPROM、EEPROM和闪存设备;磁盘如内部硬盘或者可拆卸盘;光磁盘;以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或者并入于专用逻辑电路中。
为了提供与用户的交互,实施例可以实施于计算机上,该计算机具有用于向用户显示信息的显示设备、例如CRT(阴极射线管)或者LCD(液晶显示器)监视器以及用户可以用来向计算机提供输入的键盘和指示设备、比如鼠标或者跟踪球。其它种类的设备也可以用来提供与用户的交互;例如向用户提供的反馈可以是任何形式的感官反馈比如视觉反馈、听觉反馈或者触觉反馈;并且可以用包括声音、话音或者触觉输入的任何形式接收来自用户的输入。
实施例可以实施于计算系统中,该计算系统包括后端部件、例如作为数据服务器或者包括中间件部件、例如应用服务器或者包括前端部件、例如具有如下图形用户接口或者网上浏览器的客户端计算机或者这样的后端、中间件或者前端部件中的一个或者多个部件的任何组合,用户可以通过该图形用户接口或者网上浏览器与实施方式交互。系统的部件可以由任何数字数据通信形式或者介质、比如通信网络互连。通信网络的例子包括局域网(“LAN”)和广域网(“WAN”)、例如因特网。
计算系统可以包括客户端和服务器。客户端和服务器一般相互远离并且通常通过通信网络交互。客户端和服务器的关系借助计算机程序来出现,这些计算机程序在相应计算机上运行并且相互具有客户端-服务器关系。
尽管本说明书包含许多细节,但是这些不应解释为对公开内容的或者可以要求保护的内容的范围的限制、但是实际上解释为对具体实施方式特有的特征的描述。也可以在单个实施例组合实施本说明书中在单独实施例的背景中描述的某些特征。反言之,也可以在多个实施例中单独或者在任何适当子组合中实施在单个实施例的背景中描述的各种特征。另外,虽然上文可以描述特征为在某些实施例中作用并且甚至起初这样要求保护,但是在一些情况下可以从要求保护的组合中去除来自该组合的一个或者多个特征,并且要求保护的组合可以涉及子组合或者子组合的变化。
类似地,尽管在附图中以特定顺序描绘操作,但是这不应理解为要求以所示特定顺序或者以依次顺序执行这样的操作或者执行所有所示操作以实现希望的结果。在某些境况中,多任务和并行处理可以是有利的。另外,在上文描述的实施例中分离各种系统部件不应理解为在所有实施例中要求这样的分离,并且应当理解描述的程序部件和系统一般可以一起集成于单个软件产品中或者封装到多个软件产品中。
在其中提到HTML文件的每个实例中,可以替换为其它文件类型或者格式。例如HTML文件可以替换为XML、JSON、明文或者其它类型的文件。另外当提到表或者散列表时,可以使用其它数据结构(比如电子数据表、关系数据库或者结构化文件)。
Claims (18)
1.一种用于适配声学模型的系统,所述系统包括:
一个或者多个计算机;以及
计算机可读介质,耦合到所述一个或者多个计算机,具有存储于所述计算机可读介质上的指令,所述指令在由所述一个或者多个计算机执行时,使所述一个或者多个计算机执行操作,所述操作包括:
接收与移动设备记录的讲话对应的音频信号;
确定与所述移动设备关联的地理位置;
确定与所述地理位置关联的地理位置类型;
基于与所述移动设备的所述地理位置关联的所述地理位置类型来选择地理标注的音频信号的子集;
使用所述地理标注的音频信号的所述子集针对所述地理位置类型适配一个或者多个声学模型;以及
使用针对所述地理位置类型适配的所述一个或者多个声学模型对所述音频信号执行语音识别。
2.根据权利要求1所述的系统,其中适配一个或者多个声学模型还包括在接收与所述讲话对应的所述音频信号之前适配一个或者多个声学模型。
3.根据权利要求1所述的系统,其中适配一个或者多个声学模型还包括在接收与所述讲话对应的所述音频信号之后适配一个或者多个声学模型。
4.根据权利要求1所述的系统,其中所述操作还包括:
针对所述地理标注的音频信号中的每个地理标注的音频信号确定在与所述移动设备关联的所述地理位置和与所述地理标注的音频信号关联的地理位置之间的距离;以及
选择与在与所述移动设备关联的所述地理位置的预定距离内的地理位置关联、或者与在与关联于所述移动设备的所述地理位置最近的N个地理位置之中的地理位置关联的所述地理标注的音频信号作为所述地理标注的音频信号的所述子集。
5.根据权利要求1所述的系统,其中所述操作还包括基于与所述移动设备的所述地理位置关联的所述地理位置类型和基于与所述讲话关联的情境数据来选择所述地理标注的音频信号的所述子集。
6.根据权利要求5所述的系统,其中所述情境数据包括对所述移动设备记录所述讲话时的时间或者日期进行引用的数据、对所述移动设备在记录所述讲话时测量的速度或者运动量进行引用的数据、引用所述移动设备的设置的数据或者引用所述移动设备的类型的数据。
7.根据权利要求1所述的系统,其中适配所述声学模型包括使用所述地理标注的音频信号的所述子集作为训练集来训练高斯混合模型(GMM)。
8.根据权利要求1所述的系统,其中所述讲话代表语音搜索查询或者向数字口授应用或者对话系统的输入。
9.根据权利要求1所述的系统,其中确定所述地理位置类型还包括从所述移动设备接收引用所述地理位置类型的数据。
10.根据权利要求1所述的系统,其中确定所述地理位置类型还包括确定与所述移动设备关联的以往地理位置或者默认地理位置。
11.根据权利要求1所述的系统,其中所述操作还包括:
生成所述讲话的一个或者多个候选转录;以及
使用所述一个或者多个候选转录来执行搜索查询。
12.根据权利要求1所述的系统,其中针对所述地理位置类型适配一个或者多个声学模型还包括:
从已经针对多个地理位置类型生成的多个声学模型之中选择针对与所述移动设备的所述地理位置关联的所述地理位置类型生成的所述一个或者多个声学模型。
13.根据权利要求1所述的系统,其中针对所述地理位置类型适配一个或者多个声学模型还包括:
向单个声学模型使用的特征空间中并入引用所述地理位置类型的数据。
14.根据权利要求13所述的系统,其中向所述单个声学模型使用的特征空间中并入引用所述地理位置类型的数据还包括向所述单个声学模型使用的特征空间中并入值,其中所述值包括梅尔频率倒频谱系数和地理坐标。
15.根据权利要求1所述的系统,其中针对所述地理位置类型适配一个或者多个声学模型还包括向在单个声学模型中包括的状态信息中并入引用所述地理位置类型的数据。
16.根据权利要求1所述的系统,其中针对所述地理位置类型适配一个或者多个声学模型还包括:
推导与所述地理位置类型关联的变换矩阵;以及
将所述变换矩阵应用于单个通用声学模型。
17.一种用计算机程序编码的计算机存储介质,所述程序包括在由一个或者多个计算机执行时使所述一个或者多个计算机执行操作的指令,所述操作包括:
接收与移动设备记录的讲话对应的音频信号;
确定与所述移动设备关联的地理位置;
确定与所述地理位置关联的地理位置类型;
基于与所述移动设备的所述地理位置关联的所述地理位置类型来选择地理标注的音频信号的子集;
使用所述地理标注的音频信号的子集、针对所述地理位置适配一个或者多个声学模型;以及
使用针对所述地理位置适配的所述一个或者多个声学模型对所述音频信号执行语音识别。
18.一种计算机实现的用于适配声学模型的方法,所述方法包括:
接收与移动设备记录的讲话对应的音频信号;
确定与所述移动设备关联的地理位置;
确定与所述地理位置关联的地理位置类型;
基于与所述移动设备的所述地理位置关联的所述地理位置类型来选择地理标注的音频信号的子集;
使用所述地理标注的音频信号的子集针对所述移动设备的用户的口音适配一个或者多个声学模型;以及
使用针对所述移动设备的所述用户的所述口音适配的所述一个或者多个声学模型对所述音频信号执行语音识别。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/787,568 US8468012B2 (en) | 2010-05-26 | 2010-05-26 | Acoustic model adaptation using geographic information |
US12/787,568 | 2010-05-26 | ||
CN201180021722.XA CN103038817B (zh) | 2010-05-26 | 2011-05-23 | 使用地理信息的声学模型适配 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180021722.XA Division CN103038817B (zh) | 2010-05-26 | 2011-05-23 | 使用地理信息的声学模型适配 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104575493A CN104575493A (zh) | 2015-04-29 |
CN104575493B true CN104575493B (zh) | 2019-03-26 |
Family
ID=44276070
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180021722.XA Active CN103038817B (zh) | 2010-05-26 | 2011-05-23 | 使用地理信息的声学模型适配 |
CN201410723927.8A Active CN104575493B (zh) | 2010-05-26 | 2011-05-23 | 使用地理信息的声学模型适配 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180021722.XA Active CN103038817B (zh) | 2010-05-26 | 2011-05-23 | 使用地理信息的声学模型适配 |
Country Status (5)
Country | Link |
---|---|
US (3) | US8468012B2 (zh) |
EP (1) | EP2577653B1 (zh) |
CN (2) | CN103038817B (zh) |
AU (2) | AU2011258531B2 (zh) |
WO (1) | WO2011149837A1 (zh) |
Families Citing this family (364)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU6630800A (en) * | 1999-08-13 | 2001-03-13 | Pixo, Inc. | Methods and apparatuses for display and traversing of links in page character array |
US8645137B2 (en) * | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
ITFI20010199A1 (it) * | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7669134B1 (en) | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080129520A1 (en) * | 2006-12-01 | 2008-06-05 | Apple Computer, Inc. | Electronic device with enhanced audio feedback |
US7912828B2 (en) * | 2007-02-23 | 2011-03-22 | Apple Inc. | Pattern searching methods and apparatuses |
US8977255B2 (en) * | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
ITFI20070177A1 (it) | 2007-07-26 | 2009-01-27 | Riccardo Vieri | Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento. |
US9053089B2 (en) * | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8165886B1 (en) | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
US8364694B2 (en) | 2007-10-26 | 2013-01-29 | Apple Inc. | Search assistant for digital media assets |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) * | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8289283B2 (en) | 2008-03-04 | 2012-10-16 | Apple Inc. | Language input interface on a device |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US9020816B2 (en) * | 2008-08-14 | 2015-04-28 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) * | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) * | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8355919B2 (en) * | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8352272B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8352268B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8396714B2 (en) * | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) * | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US9431006B2 (en) * | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110010179A1 (en) * | 2009-07-13 | 2011-01-13 | Naik Devang K | Voice synthesis and processing |
JP2011033680A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 音声処理装置及び方法、並びにプログラム |
US20110066438A1 (en) * | 2009-09-15 | 2011-03-17 | Apple Inc. | Contextual voiceover |
US8682649B2 (en) * | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
WO2011071484A1 (en) | 2009-12-08 | 2011-06-16 | Nuance Communications, Inc. | Guest speaker robust adapted speech recognition |
EP2339576B1 (en) | 2009-12-23 | 2019-08-07 | Google LLC | Multi-modal input on an electronic device |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
US8600743B2 (en) * | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US20110167350A1 (en) * | 2010-01-06 | 2011-07-07 | Apple Inc. | Assist Features For Content Display Device |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8265928B2 (en) | 2010-04-14 | 2012-09-11 | Google Inc. | Geotagged environmental audio for enhanced speech recognition accuracy |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8442827B2 (en) | 2010-06-18 | 2013-05-14 | At&T Intellectual Property I, L.P. | System and method for customized voice response |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US9104670B2 (en) | 2010-07-21 | 2015-08-11 | Apple Inc. | Customized search or acquisition of digital media assets |
US8521526B1 (en) | 2010-07-28 | 2013-08-27 | Google Inc. | Disambiguation of a spoken query term |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US20120109649A1 (en) * | 2010-11-01 | 2012-05-03 | General Motors Llc | Speech dialect classification for automatic speech recognition |
US20120155663A1 (en) * | 2010-12-16 | 2012-06-21 | Nice Systems Ltd. | Fast speaker hunting in lawful interception systems |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8352245B1 (en) * | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
KR101791907B1 (ko) * | 2011-01-04 | 2017-11-02 | 삼성전자주식회사 | 위치 기반의 음향 처리 장치 및 방법 |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US20120197630A1 (en) * | 2011-01-28 | 2012-08-02 | Lyons Kenton M | Methods and systems to summarize a source text as a function of contextual information |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
JP6317111B2 (ja) * | 2011-02-22 | 2018-04-25 | スピーク・ウィズ・ミー・インコーポレイテッドSpeak With Me,Inc. | ハイブリッド型クライアントサーバ音声認識 |
US8660581B2 (en) | 2011-02-23 | 2014-02-25 | Digimarc Corporation | Mobile device indoor navigation |
US9270807B2 (en) * | 2011-02-23 | 2016-02-23 | Digimarc Corporation | Audio localization using audio signal encoding and recognition |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9202465B2 (en) * | 2011-03-25 | 2015-12-01 | General Motors Llc | Speech recognition dependent on text message content |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9576573B2 (en) * | 2011-08-29 | 2017-02-21 | Microsoft Technology Licensing, Llc | Using multiple modality input to feedback context for natural language understanding |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US20170221093A1 (en) * | 2011-12-07 | 2017-08-03 | Google Inc. | Dynamically Generating Video / Animation, in Real-Time, in a Display or Electronic Advertisement Based on User Data |
GB201200831D0 (en) * | 2012-01-18 | 2012-02-29 | Sensewhere Ltd | Improved positioning system |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9224383B2 (en) * | 2012-03-29 | 2015-12-29 | Educational Testing Service | Unsupervised language model adaptation for automated speech scoring |
US8838448B2 (en) * | 2012-04-05 | 2014-09-16 | Nuance Communications, Inc. | Forced/predictable adaptation for speech recognition |
US8473293B1 (en) * | 2012-04-17 | 2013-06-25 | Google Inc. | Dictionary filtering using market data |
US8374865B1 (en) * | 2012-04-26 | 2013-02-12 | Google Inc. | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8805684B1 (en) * | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US11023520B1 (en) * | 2012-06-01 | 2021-06-01 | Google Llc | Background audio identification for query disambiguation |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9043205B2 (en) | 2012-06-21 | 2015-05-26 | Google Inc. | Dynamic language model |
US9502029B1 (en) * | 2012-06-25 | 2016-11-22 | Amazon Technologies, Inc. | Context-aware speech processing |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
WO2014005055A2 (en) * | 2012-06-29 | 2014-01-03 | Elwha Llc | Methods and systems for managing adaptation data |
US9966064B2 (en) | 2012-07-18 | 2018-05-08 | International Business Machines Corporation | Dialect-specific acoustic language modeling and speech recognition |
US8831957B2 (en) * | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
US9946699B1 (en) * | 2012-08-29 | 2018-04-17 | Intuit Inc. | Location-based speech recognition for preparation of electronic tax return |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9460716B1 (en) * | 2012-09-11 | 2016-10-04 | Google Inc. | Using social networks to improve acoustic models |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9190057B2 (en) * | 2012-12-12 | 2015-11-17 | Amazon Technologies, Inc. | Speech model retrieval in distributed speech recognition systems |
US9065971B2 (en) * | 2012-12-19 | 2015-06-23 | Microsoft Technology Licensing, Llc | Video and audio tagging for active speaker detection |
US9495955B1 (en) * | 2013-01-02 | 2016-11-15 | Amazon Technologies, Inc. | Acoustic model training |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9734819B2 (en) | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
US10229701B2 (en) * | 2013-02-28 | 2019-03-12 | Nuance Communications, Inc. | Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission |
US20140270249A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression |
US9237225B2 (en) | 2013-03-12 | 2016-01-12 | Google Technology Holdings LLC | Apparatus with dynamic audio signal pre-conditioning and methods therefor |
US20140278393A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10078487B2 (en) | 2013-03-15 | 2018-09-18 | Apple Inc. | Context-sensitive handling of interruptions |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
KR101857648B1 (ko) | 2013-03-15 | 2018-05-15 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
US20140365218A1 (en) * | 2013-06-07 | 2014-12-11 | Microsoft Corporation | Language model adaptation using result selection |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
US20140372027A1 (en) * | 2013-06-14 | 2014-12-18 | Hangzhou Haicun Information Technology Co. Ltd. | Music-Based Positioning Aided By Dead Reckoning |
US9727129B2 (en) * | 2013-06-28 | 2017-08-08 | Harman International Industries, Incorporated | System and method for audio augmented reality |
KR102084646B1 (ko) * | 2013-07-04 | 2020-04-14 | 삼성전자주식회사 | 음성 인식 장치 및 음성 인식 방법 |
US9786296B2 (en) * | 2013-07-08 | 2017-10-10 | Qualcomm Incorporated | Method and apparatus for assigning keyword model to voice operated function |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9299340B2 (en) * | 2013-10-07 | 2016-03-29 | Honeywell International Inc. | System and method for correcting accent induced speech in an aircraft cockpit utilizing a dynamic speech database |
US9530416B2 (en) | 2013-10-28 | 2016-12-27 | At&T Intellectual Property I, L.P. | System and method for managing models for embedded speech and language processing |
US9666188B2 (en) | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
CN104637495B (zh) * | 2013-11-08 | 2019-03-26 | 宏达国际电子股份有限公司 | 电子装置以及音频信号处理方法 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
CN103680493A (zh) * | 2013-12-19 | 2014-03-26 | 百度在线网络技术(北京)有限公司 | 区分地域性口音的语音数据识别方法和装置 |
TWI506458B (zh) * | 2013-12-24 | 2015-11-01 | Ind Tech Res Inst | 辨識網路產生裝置及其方法 |
US9589564B2 (en) | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9633649B2 (en) | 2014-05-02 | 2017-04-25 | At&T Intellectual Property I, L.P. | System and method for creating voice profiles for specific demographics |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
KR102225404B1 (ko) * | 2014-05-23 | 2021-03-09 | 삼성전자주식회사 | 디바이스 정보를 이용하는 음성인식 방법 및 장치 |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9904851B2 (en) | 2014-06-11 | 2018-02-27 | At&T Intellectual Property I, L.P. | Exploiting visual information for enhancing audio signals via source separation and beamforming |
US20150371628A1 (en) * | 2014-06-23 | 2015-12-24 | Harman International Industries, Inc. | User-adapted speech recognition |
US9858920B2 (en) * | 2014-06-30 | 2018-01-02 | GM Global Technology Operations LLC | Adaptation methods and systems for speech systems |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
EP3198593A4 (en) * | 2014-08-01 | 2019-02-20 | Maluuba Inc. | VOICE RECOGNITION USING TEMPLATES ASSOCIATED WITH A GEOGRAPHICAL LOCATION |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
KR102348084B1 (ko) * | 2014-09-16 | 2022-01-10 | 삼성전자주식회사 | 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체 |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9530408B2 (en) | 2014-10-31 | 2016-12-27 | At&T Intellectual Property I, L.P. | Acoustic environment recognizer for optimal speech processing |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9898170B2 (en) | 2014-12-10 | 2018-02-20 | International Business Machines Corporation | Establishing user specified interaction modes in a question answering dialogue |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9805713B2 (en) * | 2015-03-13 | 2017-10-31 | Google Inc. | Addressing missing features in models |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
CN107683504B (zh) * | 2015-06-10 | 2021-05-28 | 赛伦斯运营公司 | 用于运动自适应语音处理的方法、系统和计算机可读介质 |
DE102015211101A1 (de) * | 2015-06-17 | 2016-12-22 | Volkswagen Aktiengesellschaft | Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server |
US10274911B2 (en) * | 2015-06-25 | 2019-04-30 | Intel Corporation | Conversational interface for matching text of spoken input based on context model |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
CN105094364B (zh) * | 2015-07-13 | 2018-07-20 | 小米科技有限责任公司 | 词汇显示方法和装置 |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US9787819B2 (en) * | 2015-09-18 | 2017-10-10 | Microsoft Technology Licensing, Llc | Transcription of spoken communications |
AU2016327448B2 (en) * | 2015-09-22 | 2019-07-11 | Vendome Consulting Pty Ltd | Methods for the automated generation of speech sample asset production scores for users of a distributed language learning system, automated accent recognition and quantification and improved speech recognition |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10468016B2 (en) | 2015-11-24 | 2019-11-05 | International Business Machines Corporation | System and method for supporting automatic speech recognition of regional accents based on statistical information and user corrections |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10133821B2 (en) * | 2016-01-06 | 2018-11-20 | Google Llc | Search result prefetching of voice queries |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
CN105872687A (zh) * | 2016-03-31 | 2016-08-17 | 乐视控股(北京)有限公司 | 一种通过语音控制智能设备的方法及装置 |
US11138987B2 (en) * | 2016-04-04 | 2021-10-05 | Honeywell International Inc. | System and method to distinguish sources in a multiple audio source environment |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
CN105957516B (zh) * | 2016-06-16 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
CN106128462A (zh) * | 2016-06-21 | 2016-11-16 | 东莞酷派软件技术有限公司 | 语音识别方法及系统 |
CN106205622A (zh) * | 2016-06-29 | 2016-12-07 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
CN106251859B (zh) * | 2016-07-22 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN106293600A (zh) * | 2016-08-05 | 2017-01-04 | 三星电子(中国)研发中心 | 一种语音控制方法及系统 |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
WO2018085893A1 (en) | 2016-11-10 | 2018-05-17 | Mark Andrew Englund | Acoustic method and system for providing digital data |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11144683B2 (en) | 2016-12-06 | 2021-10-12 | General Electric Company | Real-time adaptation of system high fidelity model in feature space |
US10163451B2 (en) * | 2016-12-21 | 2018-12-25 | Amazon Technologies, Inc. | Accent translation |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
US11024302B2 (en) * | 2017-03-14 | 2021-06-01 | Texas Instruments Incorporated | Quality feedback on user-recorded keywords for automatic speech recognition systems |
KR102380717B1 (ko) * | 2017-04-30 | 2022-03-31 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법 |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10446136B2 (en) * | 2017-05-11 | 2019-10-15 | Ants Technology (Hk) Limited | Accent invariant speech recognition |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
CN107274885B (zh) * | 2017-05-31 | 2020-05-26 | Oppo广东移动通信有限公司 | 语音识别方法及相关产品 |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
CN107016996B (zh) * | 2017-06-06 | 2020-11-10 | 广东小天才科技有限公司 | 一种音频数据的处理方法及装置 |
US10769138B2 (en) | 2017-06-13 | 2020-09-08 | International Business Machines Corporation | Processing context-based inquiries for knowledge retrieval |
KR102426717B1 (ko) * | 2017-06-27 | 2022-07-29 | 삼성전자주식회사 | 발화 인식 모델을 선택하는 시스템 및 전자 장치 |
EP3662470B1 (en) * | 2017-08-01 | 2021-03-24 | Dolby Laboratories Licensing Corporation | Audio object classification based on location metadata |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10468019B1 (en) * | 2017-10-27 | 2019-11-05 | Kadho, Inc. | System and method for automatic speech recognition using selection of speech models based on input characteristics |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10616853B2 (en) * | 2017-12-29 | 2020-04-07 | Sonitor Technologies As | Location determination using acoustic-contextual data |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
CN110047478B (zh) * | 2018-01-16 | 2021-06-08 | 中国科学院声学研究所 | 基于空间特征补偿的多通道语音识别声学建模方法及装置 |
CN111919134A (zh) * | 2018-01-26 | 2020-11-10 | 所尼托技术股份公司 | 使用声学位置确定技术的基于位置的功能 |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
CA3092756A1 (en) * | 2018-03-02 | 2019-09-06 | Wilfred Edwin Booij | Acoustic positioning transmitter and receiver system and method |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10803843B2 (en) | 2018-04-06 | 2020-10-13 | Microsoft Technology Licensing, Llc | Computationally efficient language based user interface event sound selection |
WO2019203794A1 (en) * | 2018-04-16 | 2019-10-24 | Google Llc | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface |
CN116959420A (zh) | 2018-04-16 | 2023-10-27 | 谷歌有限责任公司 | 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言 |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
WO2019227290A1 (en) * | 2018-05-28 | 2019-12-05 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for speech recognition |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11011162B2 (en) * | 2018-06-01 | 2021-05-18 | Soundhound, Inc. | Custom acoustic models |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US10867067B2 (en) * | 2018-06-07 | 2020-12-15 | Cisco Technology, Inc. | Hybrid cognitive system for AI/ML data privacy |
CN108766414B (zh) * | 2018-06-29 | 2021-01-15 | 北京百度网讯科技有限公司 | 用于语音翻译的方法、装置、设备和计算机可读存储介质 |
CN111194463A (zh) | 2018-08-27 | 2020-05-22 | 北京嘀嘀无限科技发展有限公司 | 用于在移动设备上显示目的地的人工智能系统和方法 |
CN109243461B (zh) * | 2018-09-21 | 2020-04-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
CN109377990A (zh) * | 2018-09-30 | 2019-02-22 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
CN109215688B (zh) * | 2018-10-10 | 2020-12-22 | 麦片科技(深圳)有限公司 | 同场景音频处理方法、装置、计算机可读存储介质及系统 |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN109599112B (zh) * | 2019-01-02 | 2021-07-06 | 珠海格力电器股份有限公司 | 一种语音控制方法、装置、存储介质及空调 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
JP6745465B1 (ja) * | 2019-03-06 | 2020-08-26 | パナソニックIpマネジメント株式会社 | 車両及びカメラモジュール |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN110082726B (zh) * | 2019-04-10 | 2021-08-10 | 北京梧桐车联科技有限责任公司 | 声源定位方法及装置、定位设备及存储介质 |
CN110033765A (zh) * | 2019-04-11 | 2019-07-19 | 中国联合网络通信集团有限公司 | 一种语音识别的方法及终端 |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
CN110534112B (zh) * | 2019-08-23 | 2021-09-10 | 王晓佳 | 基于位置与时间的分布式语音识别纠错方法 |
KR20190107622A (ko) * | 2019-09-02 | 2019-09-20 | 엘지전자 주식회사 | 이동형 에이젼트를 이용한 실시간 음성 인식 모델 업데이트 방법 및 장치 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
WO2021258240A1 (en) * | 2020-06-22 | 2021-12-30 | Qualcomm Incorporated | Voice or speech recognition in noisy environments |
US11741965B1 (en) * | 2020-06-26 | 2023-08-29 | Amazon Technologies, Inc. | Configurable natural language output |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN113506565B (zh) * | 2021-07-12 | 2024-06-04 | 北京捷通华声科技股份有限公司 | 语音识别的方法、装置、计算机可读存储介质与处理器 |
CN114165819A (zh) * | 2021-11-26 | 2022-03-11 | 珠海格力电器股份有限公司 | 吸油烟机及其控制方法、模组及计算机可读介质 |
US20230317057A1 (en) * | 2022-03-31 | 2023-10-05 | Microsoft Technology Licensing, Llc | Assigning ssml tags to an audio corpus |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1692407A (zh) * | 2002-06-20 | 2005-11-02 | 英特尔公司 | 改善移动设备的语音识别 |
CN101563687A (zh) * | 2006-10-13 | 2009-10-21 | 谷歌公司 | 企业收录搜索 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19533541C1 (de) | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
US6778959B1 (en) | 1999-10-21 | 2004-08-17 | Sony Corporation | System and method for speech verification using out-of-vocabulary models |
US7457750B2 (en) * | 2000-10-13 | 2008-11-25 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
US7451085B2 (en) | 2000-10-13 | 2008-11-11 | At&T Intellectual Property Ii, L.P. | System and method for providing a compensated speech recognition model for speech recognition |
US6876966B1 (en) | 2000-10-16 | 2005-04-05 | Microsoft Corporation | Pattern recognition training method and apparatus using inserted noise followed by noise reduction |
US6915262B2 (en) * | 2000-11-30 | 2005-07-05 | Telesector Resources Group, Inc. | Methods and apparatus for performing speech recognition and using speech recognition results |
US6959276B2 (en) | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
US6950796B2 (en) | 2001-11-05 | 2005-09-27 | Motorola, Inc. | Speech recognition by dynamical noise model adaptation |
JP4109063B2 (ja) | 2002-09-18 | 2008-06-25 | パイオニア株式会社 | 音声認識装置及び音声認識方法 |
JP4352790B2 (ja) | 2002-10-31 | 2009-10-28 | セイコーエプソン株式会社 | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
US7457745B2 (en) * | 2002-12-03 | 2008-11-25 | Hrl Laboratories, Llc | Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments |
US7533023B2 (en) * | 2003-02-12 | 2009-05-12 | Panasonic Corporation | Intermediary speech processor in network environments transforming customized speech parameters |
US7392188B2 (en) | 2003-07-31 | 2008-06-24 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method enabling acoustic barge-in |
JP4548646B2 (ja) | 2003-09-12 | 2010-09-22 | 株式会社エヌ・ティ・ティ・ドコモ | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
US7634095B2 (en) | 2004-02-23 | 2009-12-15 | General Motors Company | Dynamic tuning of hands-free algorithm for noise and driving conditions |
US7890326B2 (en) * | 2006-10-13 | 2011-02-15 | Google Inc. | Business listing search |
US7941189B2 (en) | 2007-02-07 | 2011-05-10 | Denso Corporation | Communicating road noise control system, in-vehicle road noise controller, and server |
US20090030687A1 (en) | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
US9405823B2 (en) * | 2007-07-23 | 2016-08-02 | Nuance Communications, Inc. | Spoken document retrieval using multiple speech transcription indices |
US8255224B2 (en) * | 2008-03-07 | 2012-08-28 | Google Inc. | Voice recognition grammar selection based on context |
US8121837B2 (en) | 2008-04-24 | 2012-02-21 | Nuance Communications, Inc. | Adjusting a speech engine for a mobile computing device based on background noise |
US9646025B2 (en) * | 2008-05-27 | 2017-05-09 | Qualcomm Incorporated | Method and apparatus for aggregating and presenting data associated with geographic locations |
US8548807B2 (en) * | 2009-06-09 | 2013-10-01 | At&T Intellectual Property I, L.P. | System and method for adapting automatic speech recognition pronunciation by acoustic model restructuring |
US8589163B2 (en) * | 2009-12-04 | 2013-11-19 | At&T Intellectual Property I, L.P. | Adapting language models with a bit mask for a subset of related words |
US8265928B2 (en) * | 2010-04-14 | 2012-09-11 | Google Inc. | Geotagged environmental audio for enhanced speech recognition accuracy |
-
2010
- 2010-05-26 US US12/787,568 patent/US8468012B2/en active Active
-
2011
- 2011-05-23 AU AU2011258531A patent/AU2011258531B2/en not_active Ceased
- 2011-05-23 WO PCT/US2011/037558 patent/WO2011149837A1/en active Application Filing
- 2011-05-23 CN CN201180021722.XA patent/CN103038817B/zh active Active
- 2011-05-23 CN CN201410723927.8A patent/CN104575493B/zh active Active
- 2011-05-23 EP EP11723813.9A patent/EP2577653B1/en active Active
- 2011-09-30 US US13/250,690 patent/US8219384B2/en active Active
-
2013
- 2013-04-12 US US13/862,219 patent/US20130297313A1/en not_active Abandoned
-
2014
- 2014-05-21 AU AU2014202785A patent/AU2014202785B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1692407A (zh) * | 2002-06-20 | 2005-11-02 | 英特尔公司 | 改善移动设备的语音识别 |
CN101563687A (zh) * | 2006-10-13 | 2009-10-21 | 谷歌公司 | 企业收录搜索 |
Non-Patent Citations (1)
Title |
---|
《USE OF GEOGRAPHICAL META-DATA IN ASR LANGUAGE AND ACOUSTIC MODELS》;Enrico Bocchieri et al.;《Acoustics Speech and Signal Processing(ICASSP),2010 IEEE International Conference on》;20100319;第5118-5121页 |
Also Published As
Publication number | Publication date |
---|---|
CN103038817B (zh) | 2015-01-14 |
US8219384B2 (en) | 2012-07-10 |
CN103038817A (zh) | 2013-04-10 |
WO2011149837A1 (en) | 2011-12-01 |
AU2011258531B2 (en) | 2014-03-06 |
AU2014202785B2 (en) | 2015-10-29 |
US20120022869A1 (en) | 2012-01-26 |
AU2011258531A1 (en) | 2012-10-04 |
US20110295590A1 (en) | 2011-12-01 |
EP2577653A1 (en) | 2013-04-10 |
AU2014202785A1 (en) | 2014-06-12 |
EP2577653B1 (en) | 2015-03-11 |
CN104575493A (zh) | 2015-04-29 |
US8468012B2 (en) | 2013-06-18 |
US20130297313A1 (en) | 2013-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104575493B (zh) | 使用地理信息的声学模型适配 | |
CN105741848B (zh) | 用于增强话音识别准确度的有地理标记的环境音频的系统及方法 | |
CN103069480B (zh) | 用于语音识别的语音模型和噪声模型 | |
CN101939740B (zh) | 在集成语言导航服务环境中提供自然语言语音用户界面 | |
US20150193379A1 (en) | System and method for cognizant time-based reminders | |
US20170018268A1 (en) | Systems and methods for updating a language model based on user input | |
AU2014200999B2 (en) | Geotagged environmental audio for enhanced speech recognition accuracy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: American California Applicant after: Google limited liability company Address before: American California Applicant before: Google Inc. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |