CN105225660A

CN105225660A - 语音系统的适应方法和系统

Info

Publication number: CN105225660A
Application number: CN201510384677.4A
Authority: CN
Inventors: P.王; U.温特; T.J.格罗斯特; M.M.海斯特隆
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2014-06-30
Filing date: 2015-06-30
Publication date: 2016-01-06
Anticipated expiration: 2035-06-30
Also published as: US20150379985A1; US9858920B2; DE102015109758B4; DE102015109758A1; CN105225660B; DE102015109758A9

Abstract

本申请涉及语音系统的适应方法和系统。提供了用于车辆的语音系统的适应方法和系统。在一个实施例中，方法包括：接收语音数据；基于该语音数据确定语音速度；基于所述语音速度确定使用者模型；以及基于所述使用者模型生成用于语音识别系统和对话管理器中至少一者的适应参数。

Description

语音系统的适应方法和系统

技术领域

技术领域总体涉及语音系统，并更具体地说，涉及使语音系统适应的方法和系统，并且更具体地，涉及基于对话语速使语音系统适应的方法和系统。

背景技术

车辆语音系统执行对该车辆的占用者所说的语音进行语音识别。该语音言辞通常包括命令，这些命令控制该车辆或者可由该车辆访问的其它系统的一个或多个特征。语音系统基于所述命令管理与该车辆的使用者的对话。该对话对全部使用者来说通常是通用的。不是所有的使用者都以相同的方式与语音系统交流。而且，同一使用者可能每次都不是以同样的方式与该语音系统交流。例如，某些上下文条件会影响使用者讲出该命令的能力。

因此，期望提供用于使车辆的语音系统适应的方法和系统。另外，本发明的其它令人满意的特征和特点将从下面的具体描述和所附的权利要求并结合附图以及前面的技术领域和背景技术而变得易于理解。

发明内容

提供了用于车辆的语音系统的适应方法和系统。在一个实施例中，方法包括：接收语音数据；基于该语音数据确定语音语速；基于所述语音语速确定使用者模型；以及基于所述使用者模型生成用于语音识别系统和对话管理器中至少一者的适应参数。

在一个实施例中，系统包括第一模块，该第一模块接收语音数据并且基于该语音数据确定语音语速。该系统还包括第二模块，该第二模块基于该语音语速确定使用者模型。该系统还包括第三模块，该第三模块基于所述使用者模型产生用于所述语音识别系统和对话管理器中至少一者的适应参数。

本申请提出了如下方案：

方案1.一种车辆的语音系统的适应方法，包括：

接收语音数据；

基于所述语音数据确定语音语速；

基于所述语音语速确定使用者模型；以及

基于所述使用者模型生成用于语音识别系统和对话管理器中的至少一个的适应参数。

方案2.如方案1所述的方法，其中语音数据包括在定义的记录窗口之前和该定义的记录窗口之后记录的数据中的至少一个和在语音窗口期间记录的数据。

方案3.如方案1所述的方法，其中所述确定所述语音语速包括将所述语音数据划分成语音部分和非语音部分，并且其中所述确定所述语音语速是基于所述语音部分和所述非语音部分的时间。

方案4.如方案1所述的方法，其中所述确定所述使用者模型包括将所述语音语速与使用者标识符相关联。

方案5.如方案1所述的方法，其中所述确定所述使用者模型还包括将上下文数据与所述语音语速相关联。

方案6.如方案5所述的方法，其中所述上下文数据包括使用者注意力数据、车辆环境数据、车辆操纵数据、导航数据和天气数据中的至少一个。

方案7.如方案1所述的方法，其中所述生成所述适应参数包括生成使所述对话管理器的对话语速适应的适应参数。

方案8.如方案1所述的方法，其中所述生成所述适应参数包括生成使所述对话管理器的对话提示适应的适应参数。

方案9.如方案1所述的方法，其中所述生成所述适应参数包括生成使所述语音识别系统的记录窗口适应的适应参数。

方案10.如方案1所述的方法，其中所述生成所述适应参数包括生成使所述语音识别系统的语音识别适应的适应参数。

方案11.一种车辆的语音系统的适应系统，包括：

第一模块，其接收语音数据并且基于所述语音数据确定语音语速；

第二模块，其基于所述语音语速确定使用者模型；以及

第三模块，其基于所述使用者模型生成用于语音识别系统和对话管理器中的至少一个的适应参数。

方案12.如方案11所述的系统，其中语音数据包括在定义的记录窗口之前和该定义的记录窗口之后记录的数据中的至少一个和在语音窗口期间记录的数据。

方案13.如方案11所述的系统，其中所述第一模块通过将所述语音数据划分成语音部分和非语音部分确定所述语音语速，并且基于所述语音部分和所述非语音部分的时间确定所述语音语速。

方案14.如方案11所述的系统，其中所述第二模块通过将所述语音语速与使用者标识符相关联确定所述使用者模型。

方案15.如方案11所述的系统，其中所述第二模块通过将上下文数据与所述语音语速相关联确定所述使用者模型。

方案16.如方案15所述的系统，其中所述上下文数据包括使用者注意力数据、车辆环境数据、车辆操纵数据、导航数据和天气数据中的至少一个。

方案17.如方案11所述的系统，其中所述第三模块通过生成使所述对话管理器的对话语速适应的适应参数生成所述适应参数。

方案18.如方案11所述的系统，其中所述第三模块通过生成使所述对话管理器的对话提示适应的适应参数生成所述适应参数。

方案19.如方案11所述的系统，其中所述第三模块通过生成使所述语音识别系统的记录窗口适应的适应参数生成所述适应参数。

方案20.如方案11所述的系统，其中所述第三模块通过生成使所述语音识别系统的语音识别适应的适应参数生成所述适应参数。

附图说明

此后将结合下面的附图描述示例性实施例，其中相同的附图标记表示相同的元件；并且附图中：

图1是包括根据各种示例性实施例的语音系统的车辆的功能框图；

图2A和2B是根据示例性实施例的语音系统的记录语音数据的图示；

图3是数据流图，其说明了根据各种示例性实施例的语音系统的适应模块；以及

图4是流程图，其说明了可由根据各种示例性实施例的语音系统执行的适应方法。

具体实施方式

下面的具体描述本质上仅仅是示例性的，并非用于限定应用和使用。而且，并不意在受在前面的技术领域、背景技术、发明内容或者后面的具体实施方式中出现的任何明示或暗示的理论的约束。当在本文被使用时，术语模块指的是专用集成电路（ASIC）、电子电路、执行一个或多个软件或固件程序的处理器（共享的、专用的、或群组）和内存、组合逻辑电路；和/或提供所描述功能的其它合适的部件。

首先参照图1，根据本公开的示例性实施例，语音系统10被示出为包括在车辆12内。语音系统10通过人机界面（HMI）模块14为一个或多个车辆系统提供语音识别和对话。这些车辆系统可包括，例如，但不限于，电话系统16、导航系统18、媒体系统20、远程信息处理系统22、网络系统24、或者可包括依赖语音应用程序的任何其它车辆系统。如能理解的，语音系统10的一个或多个实施例可被应用于具有依赖语音应用程序的其它非车辆系统，并且因此，这些实施例不限于目前的车辆示例。出于示例性目的，仍在车辆示例的背景下讨论语音系统10。

语音系统10通过HMI模块14和通信总线和/或其它通信装置28（例如，有线的、短程无线、或长距离无线）与多个车辆系统16－24和/或其它车辆系统26通信。该通信总线可例如是，但不限于，CAN总线。

总的来说，语音系统10包括自动语音识别（ASR）模块30、对话管理器模块32、和适应模块34。如能理解的，ASR模块30、对话管理器模块32和适应模块34可被实施为单独的系统和/或被实施为如所示的组合式系统。如还能被理解的，语音系统10的模块可全都被实施在车辆12上，或者部分实施在车辆12上且部分实施在远程系统上，例如远程服务器（未示出）。

总的来说，ASR模块30接收和处理数据，该数据包括由HMI模块14记录的语音言辞。来自该语音言辞的一些被识别出的命令（例如，基于置信阈值）被发送给对话管理器模块32。对话管理器模块32基于该命令管理交互顺序和提示。

根据本公开的各种实施例，ASR模块30接收第二组数据，该组数据包括由HMI模块14记录的语音言辞。该第二组数据包括已经被记录的时间长度比第一组数据更长的数据。例如，如在图2A中所示，第一组数据40包括在记录窗口42期间记录的数据41，该记录窗口42在提示完成之后就立即在44开始并且在记录开始后的预定时间在46结束。如在图2B中所示，第二组数据48包括在第二记录窗口50期间记录的数据，该第二记录窗口大于第一记录窗口42（图2A），第二组数据包括在记录窗口42（图2A）之前（例如，在记录窗口42（图2A）之前的预定时间，例如，在语音提示期间）被记录的数据52、在记录窗口42（图2A）期间被记录的数据54、和在记录窗口42（图2A）之后（例如，在记录窗口42之后的预定时间，例如，在语音处理期间或者在后来的语音提示期间）被记录的数据56。

回看图1，ASR模块30将该第二组数据48提供给适应模块34。适应模块34处理该数据48，以及来自各种车辆系统16-24的数据、和/或来自各种其它车辆系统26（例如，不包括语音应用程序）的数据。适应模块34处理所述数据以确定语速并学习讲出该语速时的上下文。基于该语速和上下文，适应模块34确定用于使由ASR模块30和/或对话管理器模块32执行的对话和语音识别中的至少一个适应的适应参数。

如能理解的，适应模块34所进行的处理的全部或部分可被实时地执行、可被部分实时地且部分脱机地执行、或者可被完全地脱机执行。如还能被理解的，适应模块34可被实施为位于车辆12上、部分地位于车辆12上且部分地位于远程服务器上、或者完全位于远程服务器上。

现在参照图3并继续参照图1、2A和2B，数据流图说明了根据各种实施例的适应模块34。如所能理解的，根据本公开的适应模块34的各种实施例可包括任何数量的子模块。例如，图3中示出的子模块可被组合和/或进一步划分以类似地确定使用者的语速并且确定适应参数。在各种示例性实施例中，适应模块34包括语速确定模块60、使用者模型确定模块62、适应参数确定模块64、和使用者模型数据库65。

语速确定模块60接收作为输入的第二组语音数据48。语速确定模块60处理该第二组数据48以定义该语音的语速。例如，如在图2B中所述，语速确定模块将该语音数据划分成语音部分67、68和非语音部分69－71。语速确定模块60通过探测语音的开始和结束来划分该语音数据。

再参照图3，基于部分67－71，语速确定模块60确定该语音的语速72。语速确定模块60基于在提示结束之后且使用者语音开始之前的时间帧、在该语音期间和之后的语音停顿长度、在语音系统的下一个提示之前的语音停顿长度、和/或从在系统提示和使用者语音之间的语音交叠起的时间帧来确定语速72。语速确定模块60确定时间帧并用时间帧类型的标识符标记该时间帧，例如语音部分之间的停顿、提示末尾时的语音打断交叠、提示后的开始语音等。

而且，语速确定模块60能从当前的语音数据48和/或之前的语音数据48确定指示平均停顿时间、最小停顿时间和/或最大停顿时间。这些参数可被用于定义语速72。例如，语速确定模块60确定平均时间帧，使用者在系统提示结束之后经过该平均时间帧才开始讲话。

使用者模型确定模块62接收作为输入的语速72和使用者标识符74。使用者标识符74可以，例如，基于使用某个遥控钥匙、通过在车辆12中存在电子设备来确认、或者基于任何其它的方法。使用者模型确定模块62通过将语速72的参数与使用者的识别符74相关联并且将关联值作为使用者模型76存储在使用者模式数据库65内来建立使用者模型76。

附加地，或替换地，使用者模型确定模块62接收作为输入的上下文数据78。上下文数据78可由车辆12的一个或多个部件或传感器确定或感测并且被通信到适应模块62。在各种实施例中，上下文数据78可包括，但不限于，从眼睛跟踪系统接收的使用者注意力数据、从车辆安全系统接收的车辆环境数据、从通信总线或车辆的其它控制模块接收的车辆操纵数据、从导航系统接收的导航数据、和从卫星系统接收的天气数据。

使用者模型确定模块62将上下文数据78与语速72相关联并且将值存储作为使用者模型76的一部分。在各种实施例中，使用者模型确定模块62基于语音和/或上下文的出现时间将上下文数据78与使用者模型76相关联。

适应参数确定模块64接收作为输入的使用者模型76。适应参数确定模块64可还接收作为输入的当前上下文数据79。上下文数据79可由车辆的一个或多个部件或传感器确定或感测并且被通信到适应模块64。在各种实施例中，当前上下文数据79可类似地包括，但不限于，从眼睛跟踪系统接收的使用者注意力数据、从车辆安全系统接收的车辆环境数据、从通信总线或车辆的其它控制模块接收的车辆操纵数据、从导航系统接收的导航数据、从卫星系统接收的天气数据、和从乘客跟踪系统接收的指示乘客之间的互动的乘客数据。适应参数确定模块64从当前上下文数据79确定使用者的确定性水平、使用者的不确定性水平和/或上下文的分神正在发生。基于这种确定，适应参数确定模块64确定哪些适应参数对该使用者最有用。

例如，如果系统的暂停参数比所确定的使用者在系统提示结束之后、开始讲话之前所需要的平均时间不是足够地更长，就调节该暂停参数。可在每个对话步骤都调节该暂停参数。例如，对话中的一些步骤可能需要更长的时间来回答，例如，当使用者正从选项列表中进行选择，并需要时间来审视该列表以挑选最好的选择时。在另一示例中，如果系统的暂停参数比语音部分之间的平均停顿时间不是足够地更长，那么使用者可能被语音系统打断，因为该系统确定是语音结束，而不是停顿。在这种情况下，调节暂停参数以给出确定使用者的语音结束的时间。

在各种实施例中，适应参数确定模块64基于使用者模型76确定与确定性水平、不确定性水平、和上下文分神相关联的适应参数。例如，确定性水平可与使用者说出要求的方式有关。例如，如果使用者重复地看屏幕并且等着回答，那么该使用者可能不知道如何进行对话，要么是因为该使用者不是充分地了解此刻对话时的系统的能力，要么是因为该使用者不能决定他想要什么并且正在思考选择或者试图理解能从屏幕上得到的东西。

取决于这种设想，适应参数确定模块64确定适应参数80－86，这些参数将使对话语速、对话提示、记录窗口和语音识别中的至少一个适应。适应参数确定模块64将适应参数80－86发送给对话管理器模块32（图1）和ASR模块30（图1）中的至少一个或者使对话和/或语音识别方法适应。

在各种实施例中，适应参数确定模块64确定调节记录窗口的适应参数80－86。例如，适应参数80可基于确定的语速72调节记录窗口的开始时间以更早地开始和/或可调节记录窗口的结束时间以更晚地结束。在各种实施例中，适应参数80可以是依赖上下文的，即，是只与车辆的特定上下文有关，和/或可以是在全部上下文中使用的通用参数。

在各种实施例中，适应参数确定模块64确定调节对话的语速的适应参数82。例如，适应参数82可调节系统提示的传送时间。这样做可适应使用者的固有对话语速。例如，如果使用者不喜欢被系统催促，那么可稍微晚一点开始提示以具有更慢的对话语速。如果使用者对系统更加熟悉并且以更快的语速讲话，那么系统提示可在使用者结束讲话之后尽可能快地开始。

在各种实施例中，适应参数82可以是依赖上下文的，即，只与车辆的特定上下文有关，和/或可以是在全部上下文中使用的通用参数。例如，当从当前上下文数据中检测到特定的驾驶操纵时，适应参数82可调节时间安排使得直到该驾驶操纵结束时才给出下一个提示，并且此后传送随后提示以提醒使用者系统仍在听着。

在各种实施例中，适应参数确定模块64确定调节对话提示的适应参数84。例如，适应参数84可指示选择通知使用者系统限制和/或提供关于改进命令传送以避免识别错误的建议的提示。例如，适应参数确定模块64可确定使用者的言辞传送风格与最优的语音识别不一致，并且系统参数调节可能不是消除这种不一致的最佳方式。在这种情况下，适应参数确定模块64调节对话提示使得向使用者提供反馈，引导如何调节他们的说话风格并改善整体系统交互。例如，使用者可能错误地感觉到如果他们非常慢地讲出电话号码的数字，并且在每个数字之间都有停顿，那么系统就会更好地理解这些数字。这种传送风格不仅对于语音识别来说是不好的，而是对讲出这些言辞的使用者来说也是负担。指导使用者以自然节奏讲话的提示将减轻这一问题以及使用者在提供该言辞时的负担。

在各种实施例中，适应参数确定模块64确定调节识别方法的适应参数86。例如，适应参数86可指示使用第二组语音数据重新处理语音言辞或者通过提供改进的语音数据重新处理语音言辞，该改进的语音数据包括语音数据的语音部分和/或带有减少的非语音部分的语音部分。

现在参照图4，并继续参照图1-3,流程图示出了可由根据各种实施例的适应模块34执行的方法。如鉴于本公开所能意识到的，该方法中的操作的顺序不限于如图4所示的顺序执行，而是可以一个或多个不同的可适用的并根据本公开的顺序执行。如能进一步意识到的，在不改变该方法精神的情况下，该方法的一个或多个步骤可被添加或去除。

在一个示例中，方法可在100开始。在110接收包括在更长的记录窗口期间记录的数据的第二组语音数据48。在120接收与所记录的语音数据的时间相关联的上下文数据78。在130基于语音数据48确定语音语速72。在140基于语音语速72建立并存储使用者模型76。在150接收当前上下文数据78。在160基于使用者模型76和当前上下文数据78确定适应参数80－86。在170使用适应参数80－86使记录窗口、对话语速、对话提示、和语音处理中的至少一个适应。此后，方法可在180结束。

如能理解的，尽管方法的步骤被示出为被顺序地执行，但是在各种不同的实施例中各种不同的步骤的执行之间可经过一定时间。例如，步骤110－140可被执行数次以建立数个使用者模型76或者一个使用者模型76的数个值，此后才接收当前上下文数据78并且确定适应参数80－86。

虽然已经在前面的具体描述中给出了至少一个示例性实施例，但应当意识到存在大量的变型。还应意识到，一个或多个示例性实施例仅为示例，并且决不是用来限制本公开的范围、应用性、或构造。更确切地说，前面的具体描述将给本领域技术人员提供用于实施一个或多个示例性实施例的方便的路线图。应该理解的是，可在元件的功能和布置方式方面进行各种改变，而不脱离在所附权利要求及其法律等同方式中公开的本公开的范围。

Claims

1.一种车辆的语音系统的适应方法，包括：

接收语音数据；

基于所述语音数据确定语音语速；

基于所述语音语速确定使用者模型；以及

2.如权利要求1所述的方法，其中语音数据包括在定义的记录窗口之前和该定义的记录窗口之后记录的数据中的至少一个和在语音窗口期间记录的数据。

3.如权利要求1所述的方法，其中所述确定所述语音语速包括将所述语音数据划分成语音部分和非语音部分，并且其中所述确定所述语音语速是基于所述语音部分和所述非语音部分的时间。

4.如权利要求1所述的方法，其中所述确定所述使用者模型包括将所述语音语速与使用者标识符相关联。

5.如权利要求1所述的方法，其中所述确定所述使用者模型还包括将上下文数据与所述语音语速相关联。

6.如权利要求5所述的方法，其中所述上下文数据包括使用者注意力数据、车辆环境数据、车辆操纵数据、导航数据和天气数据中的至少一个。

7.如权利要求1所述的方法，其中所述生成所述适应参数包括生成使所述对话管理器的对话语速适应的适应参数。

8.如权利要求1所述的方法，其中所述生成所述适应参数包括生成使所述对话管理器的对话提示适应的适应参数。

9.如权利要求1所述的方法，其中所述生成所述适应参数包括生成使所述语音识别系统的记录窗口适应的适应参数。

10.一种车辆的语音系统的适应系统，包括：

第二模块，其基于所述语音语速确定使用者模型；以及