CN107683504A

CN107683504A - 用于增强型语音目的地输入的运动自适应语音识别

Info

Publication number: CN107683504A
Application number: CN201580080606.3A
Authority: CN
Inventors: M·N·A·乔治斯; J·D·阿纳斯塔斯阿迪斯; O·本德尔
Original assignee: Nuance Communications Inc
Current assignee: Serenes operations
Priority date: 2015-06-10
Filing date: 2015-06-10
Publication date: 2018-02-09
Anticipated expiration: 2035-06-10
Also published as: US10504510B2; WO2016200381A1; EP3308379A1; CN107683504B; US20180158455A1; EP3308379B1

Abstract

一种用于运动自适应语音处理的方法或相关联系统包括：基于来自诸如传感器和非语音资源等与用户相关联的一个或多个资源动态地估计表示所述用户的运动的运动特征曲线。所述方法包括：实现对例如当所述用户在运动时从所述用户处接收到的语音信号的处理，所述处理将所估计的运动特征曲线考虑在内以便产生对所述语音信号的解释。动态地估计所述运动特征曲线可以包括使用来自与所述用户相关联的所述一个或多个资源的所述数据来计算运动权重向量，并且可以进一步包括使用所述运动权重向量来对多个模型进行插值以便生成运动自适应模型。所述运动自适应模型可以用于增强所述用户的语音目的地输入，并且对于未提供运动特征曲线的其他用户，所述运动自适应模型可以被再次使用。

Description

用于增强型语音目的地输入的运动自适应语音识别

背景技术

自动语音识别(automatic speech recognition，ASR)通常意指将声学信号(声音)转换为文字序列(文本)。按照统计方式，人们通常收集语音统计数据来训练随后在语音识别期间采用的语言模型及声学模型。通常，语言模型涉及特定文字序列的概率，而声学模型涉及语言中的声音。还可以通过语义模型来增强语音识别，以便生成所识别文本的语义表示(意思)。语音目的地输入(voice destination entry，VDE)是在车辆(例如汽车)中以及在移动电话上的主要ASR应用之一。

发明内容

一种用于运动自适应语音处理的方法包括：基于来自与用户相关联的一个或多个资源的数据动态地估计表示所述用户的运动的运动特征曲线；以及实现对从所述用户处接收到的语音信号的处理，所述处理将所估计的运动特征曲线考虑在内以便产生对所述语音信号的解释。

来自所述一个或多个资源的所述数据可以包括传感器数据和来自与所述用户相关联的非语音资源的数据。例如，所述传感器数据包括从由以下各项组成的组中选择的至少一个成分：位置、速度、加速度、方向及其组合。进一步地，来自所述非语音资源的所述数据可以包括从由以下各项组成的组中选择的至少一个成分：导航系统数据、通讯录数据、日历数据、运动历史数据、众包数据、配置数据及其组合。例如，来自所述非语音资源的所述数据可以包括关于在特定时间和位置的事件的信息，例如晚上六点钟在某个城市的摇滚音乐会。

在实施例中，动态地估计所述运动特征曲线包括：使用来自与所述用户相关联的所述一个或多个资源的所述数据来计算运动权重向量。进一步地，动态地估计所述运动特征曲线可以包括：使用所述运动权重向量来对多个模型进行插值以便生成运动自适应模型。

如此处使用的，模型(包括运动自适应模型)可以是语言模型、声学模型、语义模型或其组合。例如，当跨越(语言)边界时，多语言声学模型可以是特别有用的。语义模型可以给出对话语的全部或一部分的解释。例如，用户可以说，“播放麦当娜的音乐”。语义模型可以给出对词“麦当娜”(其可能是艺术家)的解释。语义模型还可以用于对整个话语进行分类，例如用于提供解释：“这是与音乐相关的，并且用户很有可能想要用他的音乐播放器听一些音乐”。

在实施例中，计算所述运动权重向量包括：确定所述非语音资源与同所述多个模型(例如，多个语言模型)相关联的语言资源之间的关系。可替代地或另外地，所述模型中的至少一个模型可以与地理区域相关联或者与地理区域、时间和日期中的至少一者相关联。对所述模型(例如，语言模型)进行插值可以产生所述用户位于或将要位于所述地理区域中的概率。例如，在用户正在驾驶汽车并且考虑了用户的路线的使用情况中，插值可以产生用户在午餐时间时会在何处的概率。在另一个使用情况示例中，在特定场地存在事件，并且许多人在某一时间开车去往/离开此事件，从而使得他们在所述区域中搜索相似事物(诸如餐厅、停车位等)。同一地点和时间但是在不同的日期(即没有事件)可能与对用户的语音查询的语音识别较不相关。降低的关联性的一个原因可能是：在没有事件的情况下，用户通常不会在那里寻找停车位，因为场地远离城市、远离其他兴趣点等。可替代地或另外地，动态地估计所述运动特征曲线可以进一步包括：使用背景模块(例如，背景语言模块)来对所述运动自适应模型进行插值。

使用一个模型来对另一个模型进行插值可以包括将这些模型组合成经插值的(例如，经组合的)模型。例如，两个语法(每一个语法是与地理区域有关的模型)可以被组合并且然后被用于处理语音信号。

从用户处接收到的所述语音信号可以包括以下各项中的至少一项：语音音频信号、视频信号(例如，来自用户的嘴或脸)以及来自手势(例如用于文本输入)的数据。

当用户在运动时，可以从所述用户处接收语音信号。

当接收到语音信号时，用户无需正在运动。例如，用户自身的位置可以用于进行运动自适应ASR，用户的方向(以及速度)为0。例如，用户可能正在寻找用户附近的某物，对着智能电话说话。

一种用于运动自适应语音处理的系统包括在客户端处的运动特征曲线估计器以及处理器。所述运动特征曲线估计器被配置用于基于来自与用户相关联的一个或多个资源的数据来动态地估计表示所述用户的运动的运动特征曲线。所述处理器被配置用于实现对从所述用户(例如，当在运动时)处接收到的语音信号的处理，所述处理考将所述所估计的运动特征曲线考虑在内以便产生对所述语音信号的解释。

在实施例中，所述运动特征曲线估计器被配置用于使用来自与所述用户相关联的所述一个或多个资源的所述数据来计算运动权重向量。进一步地，所述运动特征曲线估计器可以被配置用于使用所述运动权重向量来对多个模型进行插值以便生成运动自适应模型。所述模型中的至少一个模型可以与地理区域相关联，并且所述运动特征曲线估计器可以对所述模型进行插值以便产生所述用户位于或将要位于所述地理区域中的概率。可替代地或另外地，所述运动特征曲线估计器可以被进一步配置用于使用背景模型来对所述运动自适应模型进行插值。

通常，自动语音识别(ASR)可以被理解为分析语音信号以获得对所述语音的文本表示的过程。例如，用户可以说出“柏林在哪里？”所述话语的文字记录可以是“柏林在哪里”，并且解释可以是“柏林”+“行走方向”。

在用于运动自适应语音处理的系统的实施例中，所述处理器被配置用于在所述客户端处使用所述所估计的运动特征曲线来执行对所述语音信号的自动语音识别(ASR)，所述ASR产生对所述语音信号的所述解释。

在另一个实施例中，所述处理器被配置用于将所述语音信号和所述所估计的运动特征曲线发送至云服务以便使用所述所估计的运动特征曲线来执行对所述语音信号的ASR，所述ASR产生对所述语音信号的所述解释。

在又另一个实施例中，所述处理器被配置用于：将所述语音信号发送至云服务以便进行ASR；从所述云服务处接收所述ASR的结果；并且使用所述所估计的运动特征曲线来对所述结果进行重新排序以便产生对所述语音信号的所述解释。

一种计算机程序产品，包括非暂态计算机可读介质，所述非暂态计算机可读介质存储有用于执行一种用于运动自适应语音处理的方法的指令，所述指令当由处理器执行时使所述处理器：基于来自与用户相关联的一个或多个资源的数据动态地估计表示所述用户的运动的运动特征曲线，并且实现对从所述用户(例如，当用户在运动时)处接收到的语音信号的处理，所述处理将所述所估计的运动特征曲线考虑在内以便产生对所述语音信号的解释。

本发明的实施例可以具有许多优点。当前，用于某些领域的语言模型自适应受限于很小的用户相关内容，诸如联系人列表。由于地址的多种多样性，基于从其他应用导出的过去用户查询或者用户内容的自适应方法通常不为地址目的地输入而工作。本发明的实施例结合用户的单独运动特征曲线来将搜索空间约束于用户相关目的地。这直接导致逐渐增加的准确性。同样，这基于用户的行为使搜索空间个性化。

如今，众包数据用于推测命名实体(诸如兴趣点)的人气。然而，这种方式具有缺点。一方面，众包数据不可实时获得。另一方面，仍然不明确是，在众包数据(例如针对某些地址的点进率)与语音查询之间是否存在相关性。从网页导出的人气度量不一定与语音目的地查询相关。对于一些应用，可以通过对话激活或者去激活搜索空间的某个部分，例如系统或用户激活用户所停留的城市或州。相比而言，本发明的实施例使用基于用户运动特征曲线的连续自适应过程。例如，如果用户在高速公路上正离开城市，则较有可能的是，输入了作为当前行驶方向上的某个地点的地址，例如，下一个城市。另一方面，通过分析用户的运动特征曲线可以认识到用户当前正在寻找其附近的地址。在这种情况下，语音识别器可以集中于更可能与用户相关的这些地址。还可能结合来自导航系统的信息，例如当用户当前正在去往目的地的途中时。运动特征曲线的缺失将导致使用当前针对全部用户部署的普遍方式。因此，新颖实施例可以服务当前功能，这对于向后兼容性和产品多样性是有用的。

动态地估计用户的运动特征曲线以及基于运动特征曲线对语言模型进行插值对跨边界导航是特别有用的。在包括跨边界导航呈现出复杂的多语言问题的、使用不同语言的多个国家的地区中(诸如在欧洲)，这是明显优势。

实施例使用运动特征曲线来改善语音识别并且可以应用于自然语言理解。有利地，用于运动自适应语音处理的方法可以单独地提高每个用户的语音目的地输入的准确性。这种方法接近人类助手的行为，并且至少由于这个原因，将进一步有助于增加语音使能应用的认可度。

附图说明

根据本发明的示例实施例的以下更具体的说明，上述内容将是明显的，如在附图中所展示的，其中贯穿不同的视图的相同的参照字符是指相同的部分。所述图不一定是按比例绘制，而是着重展示本发明的实施例。

图1是用于运动自适应语音处理的方法和系统的示意图；

图2是示意图，展示了语言模型估计；

图3是示意图，展示了基于用户的位置、速度及方向的运动权重计算；

图4是示意图，展示了针对不确定速度或方向度量的运动权重计算；

图5是示意图，展示了基于用户路线的运动权重计算；

图6展示了运动自适应语音识别的示例嵌入式使用情况；

图7展示了运动自适应语音识别的示例混合使用情况；

图8展示了对自动语音识别(ASR)结果进行重新排序以便进行运动自适应语音识别的示例。

具体实施方式

以下是对本发明的示例实施例的说明。

语音目的地输入(例如，通过语音进行的地址输入)在至少两个方面是具有挑战性的：第一，大量邮政地址(例如在美国超过1000万)和兴趣点(例如在美国超过300万)要求语音识别器接近于声学分辨率极限(例如，大于200万字的词汇量大小)来运行。地址的数量和兴趣点的数量不断增长，这至少不是因为用户可以设置他们自己的兴趣点。第二，稀少的训练数据量使得很难通过结合句法知识来估计可靠的统计模型以便约束搜索空间。

当前，在对话阶段与目的地覆盖范围之间的权衡经常用于实现可用的准确性。对话阶段和目的地覆盖范围两者都对用户使用语音进行目的地输入的体验有影响。通常，增大对话阶段的数量可能降低用户体验。同样，增大目的地覆盖范围通常由于增大的模型空间而导致识别准确度的损失。

此处描述的方法和系统为移动电话和汽车音响主机(head unit)提供了缩小对话与一次性语音目的地输入之间的差距的解决方案。

众包数据每天都用于估计命名实体的人气。这种数据用于约束搜索空间以便实现对普通的命名实体(诸如普通地址)的较精确识别。使用众包数据的缺点是在较不普通的命名实体方面的性能退化，例如对于小的和不受欢迎的地区。有时候通过结合对话阶段来激活和去激活某些地区从而解决此缺点。

人工数据有时候用于估计不同地区(例如为美国、欧洲等)的统计语言模型或语法。本方式的实施例可以估计小地区(例如为德国的城市)的统计语言模型或语法。此外，如以下进一步描述的，实施例可以例如通过利用用户的运动特征曲线来提供对每个地区模型的实时插值(on-the-fly interpolation)。

还通常使用的是在句法层面上的限制，例如，通过要求必须以一定顺序说出地址，诸如“街道-城市-州”。这种句法约束方式不适用于其他领域，诸如人类直觉顺序经常不确定的兴趣点搜索。

本方式的实施例建立在常用的在线自适应方法的基础上。某些实施例可以用在推荐系统中，例如，以便在移动设备上推送个性化广告。

当前方式的实施例可以包括或利用对传感器数据(诸如速度及距离测量结果)的分析。这种分析通常涉及数字信号处理，并且可能需要提高鲁棒性的处理策略，以便处理不可预测的行为，例如，以便处理错误的传感器数据以及以便完全检测错误的传感器数据。

描述了结合用户的运动特征曲线以改进语音识别的方法和对应系统。虽然所述方法被描述成针对语音目的地输入，但是所述方法也可以扩展到其他领域。示例是语音餐馆搜索。如果运动特征曲线允许得出用户在大约午餐时间时位于某个城市的步行区中的某个地方的结论，则所述方法可以增强对餐馆的识别。这可以增强用户的一次性语音目的地输入体验。

在实施例中，所述方法通过分析说话者的(多个)运动特征曲线对统计语言模型集进行连续插值。所述统计模型可以基于一个或多个马尔可夫n元模型；其还可以基于一个或多个统计语法。例如，估计了考虑中的(多个)地区(例如，为城市、州、国家)的一个或多个统计语言模型。可以通过对这些模型中的全部模型或一部分进行均匀插值来实现(例如，估计)用户的当前行为。可以通过二元插值权重来实现激活及去激活能力。例如，当前城市具有权重‘1’-激活，而所有其他城市的权重为‘0’-禁用。可以基于说话者的(例如，用户的)运动特征曲线来估计连续的插值权重向量。

在特定示例中，处理可以包括以下程序：

a)生成(例如，频繁地或随需地)语音识别器的权重向量：

收集传感器数据-例如当前速度、方向等

生成运动特征曲线-例如，行驶了一个小时，仍然根据导航系统的路线前行分析运动-例如，最可能在高速公路上，正在寻找服务站

生成运动权重向量-例如，增强下一个地区中的兴趣点

b)识别语音：

更新运动插值权重-例如，将运动权重向量传递给识别器

将语音流传输或以其他方式发送至识别器-例如，进入云或本地

评估结果-例如，向用户显示或者输入到导航系统中。

对于基于例如加权有限状态转换器的预滤波搜索技术和语音译码两者，在线自适应方法在语音识别中是熟知的。这些自适应方法用于例如基于对话阶段或话题检测方法在某些领域之间进行插值。本发明的实施例可以在语音识别期间利用这些方法以结合运动特征曲线。然而，本方式的实施例不限于在线语音自适应；所述实施例还可以作为重新排序技术而例如用于根据用户的运动特征曲线处理第三方结果列表。因此，如果语音识别器无法被触摸(例如修改)，则根据本发明的方法和系统也是适用的。例如，此处描述的运动自适应语音处理可以被应用为核ASR功能无法被修改的现有系统和部署的附加程序。

可以根据各种传感器(诸如基于空间的卫星导航系统、加速度传感器、速度测量、高度表等)估计运动特征曲线。可以连同地图一起分析所述信息并且可以使所述信息与信息源(例如，导航历史或来自用户特征曲线的最喜欢的地点和活动)对齐。以这种方式，分析器可以结合用户可能感兴趣的当前路线、替代性路线或者地点和位置。

这种信息中的全部信息或者任何一部分可以用于使用所述一组可用统计语言模型来生成对齐的权重向量。例如，人们可以统计地分析并对齐权重向量。然而，因为可用的训练数据不充足，所以可能需要手动导出初始起点。开发者必须确定默认模式(例如，完全没有任何运动)，以及其对语音识别的影响(例如，当前区域的激活或者权重向量的均匀分布)。还可以配置的是：在缓慢、快速、绕弯等行驶时，行为应该是什么。运动特征曲线分析可以是自定义的或者依赖于某些其他标准。例如，对于高档轿车、家用车和跑车，分析可能是不同的。

所述技术适合于用于减小所需计算功率并且用于增加例如兴趣点搜索的准确性的嵌入式使用情况。具体地，混合的使用情况可以从此方式中受益。运动特征曲线可以在客户端上估计并且可以作为一个或多个插值权重传送至服务器。服务器使用所述(多个)插值权重来使其广泛的组合地址和兴趣点统计语言模型个性化。以这种方式，一方面，服务器可以防止其当前行为和概括方式。另一方面，服务器可以为某些客户(例如，汽车业高档汽车制造商)递送准确且个性化的语音解决方案。

将当前方式的实施例与其他方式区分的特征包括：针对彼此独立地估计某些地理区域的统计模型、基于用户运动特征曲线实现连续自适应的插值程序以及用于解决针对广泛人群的语音识别和针对专门客户的增强型用户自适应语音识别两者的混合使用情况。

图1是用于运动自适应语音处理的方法和系统的示意图。可以就资源和在过程中利用所述资源的模块来描述所述方法和系统。所述资源当中是例如全球定位系统(GPS)105、速度110、导航系统115、方向120以及配置125。与用户相关联的资源可以是用于导出用户行为的原始传感器测量结果和预处理数据。原始传感器测量结果(例如，来自GPS 105和车辆中传感器的数据)可以用于确定速度110和方向120。导航系统115可以提供可能的行驶路线和目的地。使用配置125，用户、客户或两者可以以各种方式调整运动自适应的影响。资源105、110、115和125通常是(与动态运动权重计算一起)组成图1中系统的动态方面的动态资源。图1中展示的其他资源和模块通常被认为是静态的，或者至少不像动态资源一样频繁更新。如果任何动态资源或处理都不可用，则静态资源和模块可以提供低效模式(fallback mode)。

附加资源包括语言模型位置数据库(“LM位置DB”)130、语言模型数据库(“LM DB”)135、兴趣点或地址数据库(“具有地理位置的POI/地址DB”)140。数据库130存储N个语言模型中的每个语言模型的参考地理位置(被展示为LM-1-位置、LM-2-位置和LM-N-位置)。语言模型数据库135是N个语言模型(被展示为LM-1、LM-2和LM-N)的数据库集合。兴趣点和地址数据库140是地址、兴趣点等的数据库集合。

一些实施例可选地包括背景语言模型(“LM”)145和现场数据(例如众包数据)150。可选资源145和150提供针对向后兼容性的并且用于服务不提供任何运动数据的用户的背景语言。

可以由图1中展示的示例系统和方法采用的处理模块当中有：选择地区155，生成训练数据160、162，估计语言模型(“估计LM”)165、167，运动权重计算170，第一语言模型插值(“LM插值1”)175，第二语言模型插值(“LM插值2”)180，以及运动自适应自动语音识别(“MA-ASR”)185。一些模块(诸如模块160、162)通常是“离线”执行的，也就是说在不具有每个查询或用户事务的情况下执行。对于嵌入式系统，甚至可以在系统生产时间一次性执行模块160和162。其他处理模块(诸如模块170、175)通常在每个用户事务的情况下执行。

选择地区模块155可以根据可用数据资源来指定某些地区(例如城市)。可以由人类专家或由系统自动地执行选择。选择155可以指定特定数据库(例如数据库104)或数据库104中将由其他处理模块使用的特定组兴趣点和地址，包括生成训练数据和估计语言模型的兴趣点和地址。训练数据生成模块106和可选模块162可以基于统计语法和自然语言短语生成语音目的地查询。语言模型估计模块165和可选模块167可以例如使用马尔可夫n元模型或统计语法来执行语言模型估计。

运动权重计算模块170评估传感器测量结果和来自非语音资源的数据。所述模块然后计算这些非语音资源与语言资源之间的关系。所述模块进一步计算运动插值权重向量172以便进行语音识别。

插值模块175、185可以合并N个语言模型(例如LM-1至LM-N)以便进行语音识别。在一个示例中(例如对于使用情况“驾驶汽车”)，第一插值模块175可以根据运动插值权重向量172来对N个语言模型进行插值以便生成运动自适应语言模型177。例如，对于使用情况“用户路线”，插值模块还可以对多个运动插值语言模型中的语言模型进行插值。在模块175处进行的插值的影响是可由用户、客户或两者配置的。例如，用户或客户可以禁用运动自适应语音识别。用户或客户还可以针对不同的汽车(高级轿车、跑车、名贵车、租用车、运动型多用途车等)和/或用户简况(例如，基于年龄、业务等)配置不同的行为。一种或另一种配置可以对运动自适应和/或其他模型和/或使用不同的权重计算具有相对较强的偏向。例如，一种配置可以增强车辆位置附近的位置，而另一种配置可以增强高速公路附近但不是直接处于高速公路上的目的地(例如较好的餐馆)。用户、客户或两者还可以选择要考虑的模式或模型。例如，对于业务使用情况，事件模型可能是不相关的。相反，对于业务或租赁汽车使用情况，运动自适应旅馆模型可能是特别相关的。

在一个示例中，第二插值模块180使用背景语言模型145来对运动自适应语言模型177进行插值以便生成运动自适应语言模型179。这种插值在不需要专用设置的情况下实现了向后兼容性。与模块175一样，在模块180处进行的插值的影响是可由用户、客户或两者配置(125)的。

如图1所示，运动自适应自动语音识别器185使用运动自适应语言模型177、179来处理语音信号190以便产生ASR结果195。ASR结果195可以呈现给用户，例如作为对语音信号的解释。可选地，ASR结果可以用于更新现场数据150，所述现场数据进而可用于更新数据库140。

用于运动自适应语音处理的上述系统和方法提供了多个有利特征。例如，运动自适应语音识别是可由客户及其用户定制的。不同的使用情况都是可实现的，诸如嵌入式使用情况、云使用情况或混合使用情况。以下例如参照图6至图8描述了示例使用情况。

如以上描述的，对于不提供运动数据的那些用户，图1中展示的示例系统和方法包括可以提供向后兼容性和增加的准确性的特征。例如，对于不提供运动特征曲线的用户，所生成的(多个)运动自适应语言模型可以再次用于增强语音目的地输入。

实施例可以在处理语音信号时采用运动历史和众包数据。使用用户的运动历史可以根据用户的运动行为增加针对过去语音查询的识别准确度。例如，实施例可以计算在来自用户的运动插值权重的指数衰退平均值(例如移动平均值)并且使用所产生的运动插值权重向量来进行运动自适应语音识别。使用众包数据可以包括使用人群的运动行为、使用背景语言模型来增加识别准确性。例如，实施例可以计算所有用户的平均运动插值权重向量。实施例还可以使用实时流量数据例如以便通过使用背景语言模型来评估实时流量数据从而增加识别准确度。例如，实施例可以计算一个或多个流量热点的对应运动插值权重向量。通常，实施例可以包括以下特征的任何组合：基于人群的运动行为的运动自适应语音识别、针对每个用户个性化的运动自适应语音识别以及基于实时流量数据(例如，而不是来自网页的点进率)的运动自适应语音识别。

图2是示意图，展示了语言模型估计。在所示出的示例中，估计了地区205的语言模型，所述地区包括城市210-1到210-14以及210-N(统称为210)。对于每个城市，在数据库140中存在相应条目，例如条目215-1、215-2等，直到215-N。所述条目包括兴趣点(POI)、地址或两者的列表。连同兴趣点和地址，数据库140存储兴趣点和地址的对应地理位置。例如，对于城市210-1(“汉诺威”)，数据库140包括兴趣点和地址列表215-1连同其对应地理位置。相似地，对于城市210-2(“比勒费尔德”)和210-N(“耶拿”)，存在对应的兴趣点和地址列表215-2、215-N。所述方法生成针对每个兴趣点和地址列表的训练数据(160)，并且根据所述训练数据估计语言模型(165)。因此，在针对城市210-1、210-2和210-N所示出的示例中，对训练数据的生成导致了存储在语言模型数据库(“LM DB”)135中的对应语言模型LM-1、LM-2和LM-N。如在225处所展示的，可以使用自然语言理解(NLU)短语来生成训练数据。

图3是示意图，展示了基于用户的位置、速度及方向的运动权重计算。示例使用情况是用户正在驾驶汽车。运动权重计算的输入可以包括针对兴趣区205(例如，城市210-1、210-02等，直到210-N)的语言模型的位置(“LM-n-位置”，其中n＝1-N)以及驾驶员的位置、方向和速度。速度是对用户是否行使于城市中并且正在寻找城市中的某物或者用户是否正行使于高速公路上并且可能寻找用户目的地处的某物(或者‘用户前方的’某物)的暗示。例如，给定用户的位置315、方向320以及速度，语音目的地查询例如针对城市210-5(“卡塞尔”)和210-4(“哥廷根”)的可能性高于城市210-N(“耶拿”)和210-6(“哈雷”)，因为用户正在远离后述城市的方向上行驶。然而，应当指出的是，针对城市210-N(“耶拿”)中的兴趣点和地址的语音查询的概率不为零，因为用户可能只是在错误的方向上行驶。

在一个示例中，所述计算包括以下程序：

a)估计驾驶员的方向320；

b)计算从驾驶员的位置315到LM-n-位置中的每一个LM-n-位置的向量(例如，325-1、325-2等至325-N)，并且使用驾驶员的方向320和速度按比例绘制那些向量；

c)计算驾驶员与LM-n-位置之间的距离(例如，D汉诺威，D哥廷根，D哈雷)；

d)计算运动插值权重向量，例如：

在以上计算中，n＝1-N(针对地区205中的全部城市)，Di是从用户当前位置到某一城市的距离，并且表示在特定城市的方向上的概率。示例计算是线性估计器，但是还可以使用对数估计器。

图4是示意图，展示了针对不确定速度或方向度量的运动权重计算。示例使用情况是只有GPS可用的情况下的慢动作行驶(或者步行)。运动权重计算的输入可以包括针对地区205(例如，城市210-1、210-2等，直到210-N)的语言模型的位置(LM-n-位置)以及用户的(例如，驾驶员的)位置。在415处示出了用户的当前位置。用户的估计的很可能的下一个位置被展示为具有逐渐减少可能性的区域420、425、430、435和440(外部边界线越细，可能性越小)。虽然示出了离散的区域，但是可能性可以在连续统一体下变化。例如，针对在城市210-N(“耶拿”)、210-6(“哈雷”)、210-1(“汉诺威”)以及210-2(“比勒费尔德”)内的地址的语音目的地查询是比较可能的，因为这些城市的位置全都落入同一区域425中。对城市210-7(“爱尔福特”)、210-5(“卡塞尔”)、210-4(“哥廷根”)或210-3(“帕德伯恩”)(所述城市落到区域430上或中)中的地址的查询比落入区域435中的城市(例如，210-N(“耶拿”)、210-6(“哈雷”)、210-1(“汉诺威”)以及210-2(“比勒费尔德”))中的查询更有可能。

在一个示例中，对运动权重的计算包括以下程序：

a)通过使用跟踪法(例如，具有高斯分布的卡尔曼滤波器)来计算用户的很可能的下一个位置；

b)基于很可能的下一个位置(例如，区域430比区域435更有可能)计算在每个LM-n-位置处的权重。

例如，权重向量中的每个条目(参考点)可以分配给地区的地图上的一个点。给定用户和移动的“当前”位置，卡尔曼滤波器方式提供了这些点中的每个点的概率。如果卡尔曼滤波器比地图上的参考点的分辨率更精确，则可以使用推迟的归一化。

图5是示意图，展示了基于用户路线的运动权重计算。示例使用情况是用户的已知路线。运动权重计算的输入可以包括针对地区205(例如，城市210-1、210-2等)的语言模型的位置(LM-n-位置)、用户515的行驶路线520以及时间530、535。例如，由于至少两个原因，对城市210-3(“帕德伯恩”)或城市210-5(“卡塞尔”)内的地址的语音目的地查询比对210-6(“哈雷”)或210-N(“耶拿”)内的地址的查询更有可能。第一，210-3(“帕徳伯恩”)和210-5(“卡塞尔”)接近用户的路线520。第二，如在535处示出的，用户将在午餐时间(535)到达那些城市附近的位置524，并且可能查询餐馆、停车场及其他地点。作为进一步示例，针对城市210-11(“波鸿”)和210-10(“多特蒙得”)中的地址的语音目的地查询比针对210-9(“西根”)或210-12(“伍珀塔尔”)中的地址的查询更有可能，这是因为210-11(“波鸿”)和210-10(“多特蒙得”)比210-9(“西根”)或210-12(“伍伯塔尔”)距路线的终点526(例如，用户的目的地)更短的距离。在图5中，从沿着用户的路线520的位置到城市的距离被示出为箭头。对于位置522，524和526，箭头分别具有实线、长虚线和短虚线。

在一个示例中，对运动权重的计算包括以下程序：

a)计算路线上的点(例如522、524和526)与LM-n-位置之间的距离(例如，D汉诺威、D哥廷根、D哈雷)；

b)例如，如以上参照图3所描述的，计算运动插值权重，以便对每个向量进行插值。

在上述的部分(b)中，人们可以首先在给定运动权重集合的情况下例如通过使用平均值来计算一个插值权重向量。相比而言，人们还可以计算每个权重集合的模型并且随后组合所述模型。对于将运动自适应模型与‘其他’模型(例如，偏向于‘领域特定’数据的模型)组合来说，这是有用的。

将对嵌入式、云和混合使用情况的示例实施例进行描述。在示例嵌入式使用情况中，在所有其他部件都处于嵌入式设备上时，在云上对语言资源进行处理并且将所述语言资源传送至嵌入式设备(通过调度或更新)。在示例云使用情况中，将传感器测量结果传送至云并且在云上对所述测量结果进行处理；所有方法和资源(包括语音识别器)都在云上。在示例混合使用情况中，在嵌入式设备上执行传感器测量和运动权重计算。对(多个)语言模型的插值以及语音识别在云上发生。对于任何网络连接都不可用的情况，在设备上使用低效ASR。可以在设备上执行对结果的重新评分以便合并来自云和嵌入式识别器的结果。另一个选项是与基于云的识别并行地运行客户端侧识别并且组合每一者的结果。还可以使用运动特征曲线向量来对结果进行加权，例如，可以将参考点保持在结果中或者可以将结果映射到某些参考点上。

图6展示了运动自适应语音识别的示例嵌入式使用情况。用于运动自适应语音处理的系统600包括客户端605以及在所述客户端处的运动特征曲线估计器610和处理器615。运动特征曲线估计器610被配置用于估计运动特征曲线620，所述运动特征曲线表示用户的运动并且动态地基于来自与用户635相关联的一个或多个资源的数据。在示例系统600中，处理器615被配置用于实现对从用户635(例如，当用户在运动时)处接收到的语音信号640的处理。将所估计的运动特征曲线620考虑在内来处理语音信号以便产生对语音信号的解释645。如所示出的，与用户相关联的资源可以包括位置数据622(例如，来自GPS，GLONASS或其他系统或传感器)；运动数据624(例如，速度、加速度等)，所述运动数据可以是导出的数据或者是由一个或多个传感器测量的数据；导航系统数据626；用户的个人收藏夹列表628；以及与客户设置或用户定义设置630相关的数据。对可以在处理器615上实现的自动语音处理引擎可用的另一个资源是数据存储设备632，所述数据存储设备存储针对单一地区的语言模型和语法集合。例如，数据存储设备632可以是参照图1进行描述的数据库135。

在图6中示出的示例实施例中，运动特征曲线估计器610被配置用于使用来自与用户相关联的一个或多个资源的数据来计算运动权重向量。运动向量提供了用户位置和运动的快照。运动特征曲线是这种快照的集合。进一步地，所述运动特征曲线估计器可以被配置用于使用所述运动权重向量来对多个模型进行插值以便生成运动自适应模型。所述模型中的至少一个模型可以与地理区域相关联，并且所述运动特征曲线估计器可以对所述模型进行插值以便产生所述用户位于或将要位于所述地理区域中的概率。可替代地或另外地，所述运动特征曲线估计器可以被进一步配置用于使用背景模型来对所述运动自适应模型进行插值。

在图6中展示的用于运动自适应语音处理的系统600的实施例中，处理器615被配置用于在客户端605处使用所估计的运动特征曲线620来执行对语音信号640的自动语音识别(ASR)。由处理器615进行的ASR直接地或通过中间ASR结果产生对语音信号的解释645。

系统600以具有实时语言模型自适应技术的ASR引擎为特征。另外，可使用此系统来实现许多当前的部署，例如激活/去激活、语言约束、对话等。

可以在一个设备(诸如智能电话或汽车音响主机(例如导航系统))上实现系统600的客户端605。可替代地，可以在两个或更多个设备上实现客户端605的功能。例如，可以在汽车音响主机上实现客户端605的一个方面(例如，运动特征曲线估计器610)，并且可以在智能电话上实现另一方面(例如，包括ASR引擎的处理器615)。在一个这种场景中，汽车音响主机计算运动权重向量并且将所述向量传达至智能电话。智能电话使用来自汽车音响主机的运动向量以及可选地此处描述的一个或多个语言、语法或其他模型来执行运动自适应ASR。可替代地，智能电话可以使用来自汽车音响主机的运动权重向量，并且将所述向量以及语音信号传送至云以便进行混合语音识别。以下对混合使用情况进行描述。

图7展示了运动自适应语音识别的示例混合用例。系统700包括客户端705以及被配置用于使用运动自适应语音识别来进行运动自适应语音处理的云服务750，例如，云语音数据输入(VDE)服务。客户端705包括运动特征曲线估计器710和处理器715。客户端可以被配置用于在客户端上进行增强型VDE连同运动特征曲线形成。在一个示例中，在汽车音响主机上实现客户端710。运动特征曲线估计器710被配置用于估计运动特征曲线720，所述运动特征曲线表示用户的运动并且动态地基于来自与用户735相关联的一个或多个资源722、724、726、728以及730的数据。与参照系统600进行描述的资源相似，系统700中与用户相关联的资源可以包括位置数据722(例如，来自GPS、GLONASS等)、运动数据724(例如，速度、加速度等)、导航系统数据726、个人数据728(例如个人收藏夹列表)以及与自定义设置或用户定义设置730有关的数据。在示例系统700中，处理器715被配置用于实现对从用户735(例如，当用户在运动时)处接收到的语音信号740的处理。由云服务750将所估计的运动特征曲线720考虑在内而处理语音信号740以便产生对语音信号的解释745。

在图7中展示的实施例中，处理器715被配置用于将语音信号740和所估计的运动特征曲线720发送至云服务750。云服务750使用所估计的运动特征曲线720来执行对语音信号740的自动语音识别(ASR)。ASR产生结果755，所述结果被发送回客户端707以供处理。例如，结果755可以作为对语音信号740的解释745而呈现给用户735。结果755还可以进入到背景语言模型中例如以便在云服务750处更新背景语言模型，从而使得其他用户可以受益。设想了多个背景模型，例如特定于餐馆、事件等的模型。

如图7中进一步展示的，被配置用于进行基本VDE而不进行运动自适应语音识别的客户端705’可以在系统700之内运行。例如，对于不具有运动特征曲线但可以从与云服务750交互中受益的用户，可以在智能电话上实现客户端705’。客户端705’包括被配置用于实现对从用户735’处接收到的语音信号740’的处理的处理器715’。将语音信号从客户端705’传输至云服务750，对所述语音信号进行处理，并且将结果755’返回至客户端。客户端处理结果755’以便产生对语音信号的解释745’例如以供呈现给用户。

因此，系统700可以服务现有客户和用户(诸如针对用户735’而描述的)，并且可以适应于并调节客户和用户相关行为(诸如针对用户735的行为(例如，运动特征曲线)而描述的)。

图8展示了对自动语音识别(ASR)结果进行重新排序以便进行运动自适应语音识别的示例。用于运动自适应语音处理的系统800包括客户端805和云服务850(例如云VDE服务)。客户端805包括被配置用于估计运动特征曲线820的运动特征曲线估计器810。如以上描述的，运动特征曲线表示用户的运动，并且动态地基于来自与用户835相关联的一个或多个资源的数据。系统800中与用户相关联的资源可以包括位置数据822(例如，来自GPS、GLONASS等)、运动数据824(例如，速度、加速度等)、导航系统数据826、个人数据828(例如个人收藏夹列表)、以及与自定义设置或用户定义设置830有关的数据。与系统700相似，系统800包括在客户端805处的处理器815，所述处理器被配置用于实现对从用户835(例如，当用户在运动时)处接收到的语音信号840的处理。由云服务850对语音信号840进行处理，但是与在系统700中的云服务750不同，云服务850不被配置用于进行运动自适应语音识别并且不接收所估计的运动特征曲线820。相反，在客户端805处将所估计的运动特征曲线820考虑在内而发生对语音识别结果的处理以便产生对语音信号的解释845。

在图8中展示的实施例中，处理器815被配置用于将语音信号840发送至云服务850以供进行ASR、从云服务处接收ASR的结果855并且使用所估计的运动特征曲线820来对结果进行重新排序(860)以便产生对语音信号的解释845。

系统800可以服务现有客户和用户(例如用户835’)，并且至少系统800的客户端805可以适应于并调节客户和用户相关行为(例如用户835的行为和运动特征曲线)。如图8中展示的，被配置用于进行基本VDE但不被配置用于使用运动自适应ASR的客户端805’可以在系统800之内运行。可以在可以与云服务850进行交互的智能电话或其他移动设备上实现客户端805’。客户端805’包括被配置用于实现对从用户835’处接收到的语音信号840’的处理的处理器815’。将语音信号从客户端805’传输至云服务850，并且在云服务处对所述语音信号进行处理。所述处理的结果855’被返回至客户端以便产生对语音信号的解释845’。

已经对根据本发明的使系统(例如语音识别系统)能够执行运动自适应语音处理的系统进行了描述。这种系统的部件(例如运动特征曲线估计器、插值模块、运动自适应自动语音识别器以及此处讨论的其他系统)可以例如是在计算机处理器上运行的程序代码的一部分。

可以使用一个或多个计算机系统来实现本发明的上述实施例的部分例如以便允许动态地估计表示用户的运动的运动特征曲线以及实现对从在运动中的用户处接收到的语音信号的处理。例如，可以使用硬件、软件或其组合来实现实施例。当在软件中实现时，软件代码可以存储在任何形式的非瞬态计算机可读介质上，并且可以在任何合适的处理器或者处理器的集合上加载并执行，无论所述处理器是提供于单个计算机中还是分布于在多台计算机当中。

进一步地，应当理解的是，计算机可以以多种形式中的任何形式来体现，诸如机架式计算机、台式计算机、膝上型计算机或平板计算机。另外地，计算机可以嵌入到通常不被认为是计算机但具有合适的处理能力的设备中，包括个人数字助理(PDA)、智能电话或其他合适的便携式或固定式电子设备。

而且，计算机还可以具有一个或多个输入和输出设备。除了其他用途之外，这些设备可以用于呈现用户接口。可以被用于提供用户接口的输出设备的示例包括用于对输出的视觉呈现的打印机或显示屏，以及用于对输出的听觉呈现的扬声器或其他声音生成设备。可以被用于用户接口的输入设备的示例包括键盘和指示设备，诸如鼠标、触摸板及数字化平板。作为另一个示例，计算机可以通过语音识别或以其他可听见的格式来接收输入信息。

这样的计算机可以通过具有任何适当形式的一个或多个网络被互连，包括像局域网或广域网，诸如企业网络或互联网。这样的网络可以基于任何合适的技术并且可以根据任何合适的协议运行，并且可以包括无线网、有线网或光纤网。

而且，此处概述的各种方法或过程还可以被编码为可在采用各种操作系统或平台中的任何一个的一个或多个处理器上执行的软件。另外地，这样的软件可以使用多种合适的编程语言和/或编程或脚本编写工具中的任何一种来编写，并且也可以被编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。

在这个方面，本发明的至少一部分可以被具体化为用一个或多个程序编码的计算机可读介质(或多个计算机可读介质)(例如，计算机存储器、一个或多个软盘、致密盘、光盘、磁带、闪存、在现场可编程门阵列或其他半导体设备中的电路配置、或其他有形的计算机存储介质)，所述一个或多个程序当在一个或多个计算机或其他处理器上执行时执行实现以上讨论的本发明的各个实施例的方法。所述一个或多个计算机可以读介质可以是可运输的，从而使得存储在其上的一个或多个程序可以被加载到一个或多个不同的计算机或其他处理器上以便实现如以上讨论的本发明的各个方面。

在这方面，应当理解的是，上述实施例的一种实施方式包括使用计算机程序(例如，多个指令)编程的至少一种计算机可读介质，所述计算机指令当在处理器上执行时执行这些实施例的上述功能中的一些或全部。如此处使用的，术语“计算机可读介质”仅涵盖可以被认为是机器或制件(即制品)的非瞬态计算机可读介质。计算机可读介质可以是例如可以在其上对计算机可读信息进行编码和存储的有形介质、可以在其上对计算机可读信息进行编码和存储的存储介质和/或可以在其上对计算机可读信息进行编码和存储的非暂态介质。计算机可读介质的其他非详尽示例包括计算机存储器(例如，ROM、RAM、闪存或其他类型的计算机存储器)、磁盘或磁带、光盘和/或可以被认为是机器或制件的其他类型的计算机可读介质。

术语“程序”或“软件”在此处在一般意义上用于指可采用于对计算机或其他处理器进行编程以便实现如以上讨论的本发明的各个方面的任何类型的计算机代码或计算机可执行指令集。另外地，应当理解的是，根据此实施例的一个方面，当被运行时执行本发明的方法的一个或多个计算机程序不需要驻留在单个计算机或处理器上，但可以以分模块化的方式分布于多个不同的计算机或处理器当中以便实现本发明的各个方面。

计算机可执行指令可以采用由一个或多个计算机或其他设备执行的多种形式(诸如程序模块)。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。通常，在各个实施例中，程序模块的功能可以根据期望而组合或分布。

在此引证的所有专利、公开申请以及参考文献的教导通过引用以其全部内容结合。

虽然已经参考本发明的示例性实施例进行了具体示出和描述了本发明，但本领域的技术人员应当理解的是，在不偏离由所附权利要求书所涵盖的本发明的范围的情况下，可以在所述范围内做出在形式和细节方面的各种改变。还应当理解的是，可以以各种方法来组合已经说明的实施例的各种技术特征，用于产生许多另外的实施例。

Claims

1.一种用于运动自适应语音处理的方法，所述方法包括：

基于来自与用户相关联的一个或多个资源的数据动态地估计表示所述用户的运动的运动特征曲线；以及

实现对从所述用户处接收到的语音信号的处理，所述处理将所估计的运动特征曲线考虑在内以便产生对所述语音信号的解释。

2.根据权利要求1所述的方法，其中，来自所述一个或多个资源的所述数据包括传感器数据和来自与所述用户相关联的非语音资源的数据。

3.根据权利要求2所述的方法，其中，所述传感器数据包括从由以下各项组成的组中选择的至少一个成分：位置、速度、加速度、方向及其组合。

4.根据权利要求3所述的方法，其中，来自所述非语音资源的所述数据包括从由以下各项组成的组中选择的至少一个成分：导航系统数据、通讯录数据、日历数据、运动历史数据、众包数据、配置数据及其组合。

5.根据权利要求1至4中任一项所述的方法，其中，动态地估计所述运动特征曲线包括：使用来自与所述用户相关联的所述一个或多个资源的所述数据来计算运动权重向量。

6.根据权利要求5所述的方法，其中，动态地估计所述运动特征曲线进一步包括：使用所述运动权重向量来对多个模型进行插值以便生成运动自适应模型。

7.根据权利要求6所述的方法，其中，计算所述运动权重向量包括：确定所述非语音资源与同所述多个模型相关联的语言资源之间的关系。

8.根据权利要求6所述的方法，其中，所述模型中的至少一个模型与地理区域相关联，并且其中，对所述模型进行插值导致所述用户位于或将要位于所述地理区域中的概率。

9.根据权利要求6所述的方法，其中，动态地估计所述运动特征曲线进一步包括：使用背景模型来对所述运动自适应模型进行插值。

10.根据以上权利要求中任一项所述的方法，其中，所述语音信号包括以下各项中的至少一项：语音音频信号、视频信号以及来自手势或文本输入的数据。

11.一种用于运动自适应语音处理的系统，所述系统包括：

运动特征曲线估计器，所述运动特征曲线估计器位于客户端处，所述估计器被配置用于基于来自与用户相关联的一个或多个资源的数据来动态地估计表示所述用户的运动的运动特征曲线；以及

处理器，所述处理器被配置用于实现对从所述用户处接收到的语音信号的处理，所述处理将所估计的运动特征曲线考虑在内以便产生对所述语音信号的解释。

12.根据权利要求11所述的系统，其中，来自所述一个或多个资源的所述数据包括传感器数据和来自与所述用户相关联的非语音资源的数据。

13.根据权利要求11至12中任一项所述的系统，其中，所述运动特征曲线估计器被配置用于使用来自与所述用户相关联的所述一个或多个资源的所述数据来计算运动权重向量。

14.根据权利要求13所述的系统，其中，所述运动特征曲线估计器被进一步配置用于使用所述运动权重向量来对多个模型进行插值以便生成运动自适应模型。

15.根据权利要求14所述的系统，其中，所述模型中的至少一个模型与地理区域相关联，并且其中，所述运动特征曲线估计器对所述模型进行插值以便产生所述用户位于或将要位于所述地理区域中的概率。

16.根据权利要求14所述的系统，其中，所述运动特征曲线估计器被进一步配置用于使用背景模型来对所述运动自适应模型进行插值。

17.根据权利要求11至16中任一项所述的系统，其中，所述处理器被配置用于在所述客户端处使用所述所估计的运动特征曲线来执行对所述语音信号的自动语音识别(ASR)，所述ASR产生对所述语音信号的所述解释。

18.根据权利要求11至16中任一项所述的系统，其中，所述处理器被配置用于将所述语音信号和所述所估计的运动特征曲线发送至云服务以便使用所述所估计的运动特征曲线来执行对所述语音信号的自动语音识别(ASR)，所述ASR产生对所述语音信号的所述解释。

19.根据权利要求11至16中任一项所述的系统，其中，所述处理器被配置用于：将所述语音信号发送至云服务以便进行自动语音识别(ASR)；从所述云服务处接收所述ASR的结果；并且使用所述所估计的运动特征曲线来对所述结果进行重新排序以便产生对所述语音信号的所述解释。

20.一种计算机程序产品，包括非暂态计算机可读介质，所述非暂态计算机可读介质存储有用于执行一种用于运动自适应语音处理的方法的指令，所述指令当由处理器执行时使所述处理器：

基于来自与用户相关联的一个或多个资源的数据动态地估计表示所述用户的运动的运动特征曲线；并且