CN103928027A - 用于语音系统的自适应方法和系统 - Google Patents

用于语音系统的自适应方法和系统 Download PDF

Info

Publication number
CN103928027A
CN103928027A CN201310756824.7A CN201310756824A CN103928027A CN 103928027 A CN103928027 A CN 103928027A CN 201310756824 A CN201310756824 A CN 201310756824A CN 103928027 A CN103928027 A CN 103928027A
Authority
CN
China
Prior art keywords
user
data
module
voice
upgrades
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310756824.7A
Other languages
English (en)
Other versions
CN103928027B (zh
Inventor
R·D·辛斯三世
T·J·格罗斯特
R·M·赫奇特
U·温特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of CN103928027A publication Critical patent/CN103928027A/zh
Application granted granted Critical
Publication of CN103928027B publication Critical patent/CN103928027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

本发明涉及用于语音系统的自适应方法和系统。提供了用于调节语音系统的方法和系统。在一个例子中,一种方法包括从语音系统中载入语音数据;处理该语音数据以获得与任务请求和交互行为中的至少一个相关联的用户能力的模式;并且基于用户能力选择性地更新系统提示和交互序列中的至少一个。

Description

用于语音系统的自适应方法和系统
相关申请的交叉引用
本申请要求2012年11月13日提交的美国临时申请NO.61/725,802的权益,其全部内容在此被参考引入。
技术领域
技术领域概括地涉及语音系统,并且特别地涉及一种方法和系统,用于基于从用户交互和/或从例如车辆的一个或多个系统确定的数据使语音系统的部件适应。
背景技术
车辆语音系统对车辆的占用者发出的语音执行语音识别。所述语音话语通常包括控制车辆的一个或多个特征或可被该车辆访问的其它系统的命令。所述语音系统利用通用的识别技术使得车辆上任何占用者发出的语音话语都能够被识别。语音对话系统基于这些命令管理与车辆的用户之间的对话。该对话通常对所有用户通用。
因此,需要提供一种系统和方法,用于根据车辆的占用者和/或车辆和/或占用者的上下文语境使车辆语音系统适应。进一步,从随后的详细描述和所附的权利要求,并结合相应的附图和前述的技术领域和背景技术,本发明的其他所需特征和特性将更易于理解。
发明内容
提供了一种用于使语音系统适应的方法和系统。在一个例子中,一种方法包括:从语音系统中载入语音数据;处理该语音数据以获得与任务要求和交互行为中的至少一个相关联的用户能力模式;并且基于用户能力选择性地更新系统提示和交互序列中的至少一个。
在另一个例子中,一种系统包括:第一模块,其从语音系统中载入语音数据。第二模块,其处理该语音数据以获得与任务要求和交互行为中的至少一个相关联的用户能力模式。第三模块,其基于用户能力选择生地更新系统提示和交互序列中的至少一个。
本申请提供以下技术方案:
方案1一种使语音系统适应的方法,包括:
从语音系统载入语音数据;
处理该语音数据以获得与任务请求和交互行为中的至少一个相关联的用户能力的模式;并且
基于用户能力选择生地更新系统提示和交互序列中的至少一个。
方案2如方案1所述的方法,其中语音数据包括口头命令和口头命令的性能。
方案3如方案2所述的方法,其中口头命令的性能包括与任务完成成功、用户的重复出现的错误、以及语音系统的重复出现的错误中的至少一个相关联的参数和测量结果中的至少一个。
方案4如方案3所述的方法,其中所述参数和测量结果中的至少一个进一步与任务完成率、任务完成时间、暂停事件、响应时间、确认循环、解疑循环和帮助请求中的至少一个相关联。
方案5如方案1所述的方法,其中所述处理包括使用至少一个检测器处理语音数据,所述至少一个检测器与任务完成率、任务完成时间、暂停事件、用户响应时间、用户犹豫不决、用户暂停、冗长、导致确认循环的低系统置信水平、导致解疑循环的含糊的用户话语、和帮助请求中的至少一个相关联。
方案6如方案1所述的方法,其中选择性地更新包括在确定了用户或语音系统的重复错误后,选择性地更新系统提示,以包括用户帮助和更窄的回答空间中的至少一个。
方案7如方案1所述的方法,其中选择生地更新包括在确定用户学习了交互行为后,更新系统提示以包括原始提示。
方案8如方案1所述的方法,其中选择性也更新包括在确定了用户或语音系统的重复错误后,更新交互序列以包括更多的系统主动性。
方案9如方案1所述的方法,其中选择性地更新包括在确定用户已经学习了交互模式后,更新交互序列以包括更多的用户主动性。
方案10如方案1所述的方法,进一步包括基于对系统提示和交互序列中至少一个的更新,更新用户配置和系统设置中的至少一个。
方案11一种用于使语音系统适应的系统,包括:
第一模块,其从语音系统中载入语音数据;
第二模块,其处理语音数据以获得与任务请求和交互行为中的至少一个相关联的用户能力模式;和
第三模块,其基于用户能力选择性地更新系统提示和交互序列中的至少一个。
方案12如方案11所述的系统,其中语音数据包括口头命令和口头命令的性能。
方案13如方案12所述的系统,其中口头命令的性能包括与任务完成成功、用户的重复出现的错误、以及语音系统的重复出现的错误中的至少一个相关联的参数和测量结果中的至少一个。
方案14如方案13所述的系统,其中所述参数和测量结果中的至少一个进一步与任务完成率、任务完成时间、暂停事件、响应时间、确认循环、解疑循环和帮助请求中的至少一个相关联。
方案15如方案11所述的系统,其中第二模块使用至少一个检测器处理语音数据,所述检测器与任务完成率、任务完成时间、暂停事件、用户响应时间、用户犹豫不决、用户暂停、冗长、导致确认循环的低系统置信水平、导致解疑循环的含糊的用户话语、和帮助请求中的至少一个相关联。
方案16如方案11所述的系统,其中在确定了用户或语音系统的重复错误后,第三模块选择性地更新系统提示,以包括用户帮助和更窄的回答空间中的至少一个。
方案17如方案11所述的系统,其中确定用户学习了交互行为后,第三模块选择生地更新系统提示以包括原始提示。
方案18如方案11所述的系统,其中在确定了用户或语音系统的重复错误后,第三模块选择性地更新交互序列以包括更多的系统主动性。
方案19如方案11所述的系统,其中在确定用户已经学习了交互模式后,第三模块选择性地更新交互序列以包括更多的用户主动性。
方案20如方案11所述的系统,进一步包括第四模块,其基于对系统提示和交互序列中至少一个的更新,更新用户配置和系统设置中的至少一个。
附图说明
接下来将结合附图描述本发明的示例性实施例,附图中相同的数字代表了相同的元件,且其中:
图1为车辆的功能性框图,其包括根据多种示例性实施例的语音系统;
图2至6为数据流图,其示出了根据多种示例性实施例的语音系统的自适应模块;和
图7至10为序列图,示出了可以被根据多种示例性实施例的语音系统所执行的自适应方法。
具体实施方式
接下来的详细描述本质上仅仅是示例性的,并不用于限制本申请和使用。进一步,不需要限制于前述技术领域、背景技术、简要概述或者下面的详细描述中所出现的明示或暗示的原理。如在此听用,术语模块指的是专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共有、专用或集合)和存储器、组合逻辑电路、和/或其它可以提供所述功能的合适部件。
首先参照图1,根据本公开的示例性实施例,示出了一个包含在车辆12内的语音系统10。语音系统10通过人机接口模块(HMI)14为一个或多个车辆系统提供语音识别和对话。这种车辆系统可以包括,例如但不限于,电话系统16、导航系统18、媒体系统20,远程信息处理系统22,网络系统24,或其他任何可以包括依赖语音的应用程序的车辆系统。应当认识到,语音系统10的一个或多个实施例可以应用于其他带有依赖语音的应用程序的非车辆系统,因此,并不限于现有的车辆例子。为了举例,语音系统10将在车辆的例子中进行介绍。
语音系统10通过HMI模块14和通信总线和/或其他通信装置28(例如,有线、短程无线或远程无线)与多个车辆系统16-24和/或其他车辆系统26进行通信。所述通信总线可以是,例如但不限于,CAN总线。
一般来说,语音系统10包括一个自适应模块30,和一个自动语音识别(ASR)模块32,和一个对话管理模块34。应当理解,如所示,ASR模块32和对话管理模块34可以被设置成单独的系统和/或如所示的组合系统。进一步应当理解,语音系统10的模块可以全部设置在车辆12上,或者部分在车辆12上、部分在远程系统,例如远程服务器(未示出)上。
ARS模块32接收和处理来自HMI模块14的语音话语。部分从语音话语中被识别出的命令(例如,基于置信阈值)被发送给对话管理模块34。所述对话管理模块34基于所述命令管理交互序列和提示。自适应模块30载入产生自车辆占用者(例如,通过HMI模块14)的多种语音数据和交互数据,载入来自多种车辆系统16-24的数据,和/或载入来自多种其他车辆系统26(例如,不包括语音应用程序的车辆系统)的数据。自适应模块30对载入的数据执行一种或多种学习算法,并基于该学习算法使语音系统10的一个或多个部件适应。在多种实施例中,自适应模块30使语音系统10中的ASR模块32所使用的语言模型适应。在多种其他实施例中,自适应模块30使提示、和语音系统10中的对话管理模块34所使用的交互序列适应。
如图所示,自适应模块30被包括在语音系统10中。应当理解,在可替换的实施例中,自适应模块30可以被设置为,例如,在HMI模块14中或作为可与语音系统10通信的独立的应用程序。因此,本公开并不限于现有的例子。
现参照图2,数据流图示出了根据多种实施例的自适应模块30。应当理解,根据本公开,所述自适应模块30的多种实施例,可以包括任意数量的子模块。例如,图2中所示的子模块可以被组合和/或进一步分割以类似地使语音系统10(图1)中的部分适应。
在多种示例性实施例中,所述自适应模块30包括一个数据加载模块36,一个数据分析模块38,一个系统更新模块40,一个加载数据数据库42,和一个系统数据数据库44。所述数据库42、44可以临时或永久的存储系统10的数据。
所述数据加载模块36从车辆12的多种源(例如,车辆系统16-24和/或其他车辆系统26)将数据加载至加载数据数据库42。所述数据可以包括,例如但不限于,车辆数据46,车辆背景数据48,语音系统数据50,和用户交互数据52。所述车辆数据46可以包括,例如,速度数据,环境噪声水平数据,乘客数据(例如,在车辆12中检测出的乘客数量),车辆系统数据(例如,启动了的车辆系统的数量)等。所述车辆背景数据48可以包括,例如,车辆位置数据,道路类型数据,天气数据,交通数据等。所述语音系统数据50可以包括,例如,口头命令数据(例如,与车辆12的占用者口头发出的命令有关的数据),和性能数据(例如,与口头命令的识别性能有关的数据)。所述用户交互数据52可以包括,例如,交互序列数据,用户请求的频率数据,和来自其他HMI形式的数据,例如触摸屏手势交互数据或显示数据。
所述数据分析模块38从加载数据数据库42中检索加载数据并对加载数据进行分析以确定是否要使语音系统10所用的一个或多个语言模型适应,是否要使语音系统10给出的提示信息适应,和/或是否要使语音系统10提供的交互序列或对话适应。如果确定需要使语言模型、提示、和交互序列中的一个或多个适应,将建议的更新生成为更新的语言模型54、或为包括更新的提示和/或更新的交互序列的更新的用户配置56。
所述系统更新模块40接收作为输入的更新的语言模型54和更新的用户配置56。所述系统更新模块40基于所接收的输入存储或更新来自系统数据数据库44的语言模型,提示,和/或交互序列。例如,如果接收到了更新的语言模型54,则更新的语言模型54可以与原始模型进行组合以形成一个更加稳健的语言模型,例如,对于较短历史分布(单字母组)使用较小的语言模型(即更新的语言模型54),而对于调整后的较高历史分布(三字母组)使用更加详细的语言模型(即己存的语言模块)。在另一个例子中,包括提示和/或交互序列的用户配置56可以被存储已与特定用户一起使用。
现参照图3-6,数据流图示出了图2中根据多种实施例的数据分析模块38。应当理解,根据现有的公开,数据分析模块38的多种实施例可以包括任意数量的子模块。例如,图3-6中所示的子模块可以被组合和/或进一步划分以类似地分析已加载数据并使语音系统1O的部分适应。数据分析模块38的输入可以是从加载数据数据库42中检索获得的和/或直接从HMI模块14和/或车辆系统16-26中的一个或多个接收得到的。在多种实施例中,所述数据分析模块38包括用户表征自适应模块62、用户能力自适应模块64、背景数据自适应模块66,和/或系统模型自适应模块68。应当理解,所述数据分析模块38可只包括所示模块中的一个,或可包括所示模块的任意组合,且其不限于现有的例子。
所述用户表征自适应模块62从加载数据数据库42中检索已加载的数据。在多种实施例中,所述已加载数据包括用户讲出的口头命令70,和口头命令70的性能72。所述用户表征自适应模块62分析命令70以获得多种特征。所述特征可以包括,例如但不限于,冗长,相关谈话,信息分布,用户人口统计,交流的语气(例如,礼貌用语),年龄和性别。在多种实施例中,所述用户表征自适应模块62追踪命令70与特定特征相关的频率。一旦命令70以一定的频率与特定特征相关,所述用户表征自适应模块62基于命令70的特征确定语言模型74或基于特征组合多个语言模型(带或不带权重)以生成一个新的语言模型74。
在多种实施例中,如图4所示,所述用户表征自适应模块62包括一个或多个特征检测模块100a-100n和一个语言模型选择和合并模块102。每个特征检测模块100对命令70进行分析以得到一个或多个特征105a-105n。在多种示例性实施例中,所述特征检测模块100a-100n基于特定命令70是否与特定的特征相关和/或是否落入特定范围的特定特征内,输出一一个或多个特征105a-105n。所述语言模型选择和合并模块102基于所检测的特征105a-105n确定语言模型74。在多种实施例中,所述语言模型选择和合并模块102从预存储的模型中或模型的加权组合中确定合适的语言模型74。
在多种实施例中,所述特征检测模块100a-100n可以是冗长检测模块,礼貌检测模块,信息分布检测模块,区域分布检测模块,正式性等级检测模块,年龄检测模块,方言检测模块,和/或性别检测模块。所述冗长检测模块,例如,分析命令70并估计话语中修饰词和非功能性词的比例,并将其与已知的冗长分布进行比较。所述礼貌检测模块,例如,分析命令70并提取所有的礼貌水平指示词。然后使用不同指示词之间的加权和以及相互关系以检测礼貌等级。所述信息分布检测模块,例如,分析命令70以检测所需信息片断(也称为狭槽信息)的位置和数量。基于该信息,所述信息分布检测模块可以检测出趋于将该信息作为单个的话语说出的用户和一部分一部分地提供该信息的用户。
所述区域分布检测模块,例如,分析命令70并基于与用户历史行为的比较来检测区域。所述正式性等级检测模块,例如,分析命令70并提取出词汇。每个正式性等级的词汇是在其内进行检测的空间的基础。可以通过使用标准化距离测量来确定等级。所述年龄检测模块,例如,分析命令的话语并使用高斯混合模型(GMM)以将话语与各年龄或年龄组的参考模型进行比较。
所述方言检测模块,例如,分析命令70并提取声学特征。使用,例如,锚模型技术,产生标记并测量距离。所述性别检测模块,例如,分析命令70,提取声学特征并估计各性别的GMM分布。通过将GMM变换成超级向量(SV),可以估计距离并故出决定。应当理解,各检测模块100a-100n也可以执行其他方法和技术。因此,本公开并不限于现有的例子。
重新参照图3,所述用户能力自适应模块64从加载数据数据库42中检索已加载数据。在多种实施例中,所述已加载数据包括用户讲出的口头命令76和口头命令76的性能78。所述用户能力自适应模块64基于命令76的性能78分析命令76。在多种实施例中,所述性能78可以一般的包括任务完成成功和用户和/或系统的屡次发生的错误的参数和测量结果。例如,所述参数和测量结果可以是关于,但不限于,任务完成率和时间,暂停事件,响应时间,确认和解疑周期,帮助请求和脱离了高效和成功的交互序列的所有事件。
所述用户能力自适应模块64分析命令76以确定模式。所述用户能力自适应模块64基于所确定的模式为提示80提供建议的调节和/或为交互序列82提供建议的调节。所述建议的调节可以作为用户配置56的一部分被提供(图2)。例如,用户配置56中的提示80可以被更新,以在检测出用户或语音系统的屡次发生的错误后,包含更多的帮助和更窄的回答空间;并且在确定了用户或系统学习了最优交互行为后,用户配置56中的提示80可以被恢复成原始提示。在多种实施例中,可使用户配置56中的交互序列82适应以为所确定的重复用户错误提供更多的系统主动生,并且当确定用户已经学习了交互模式后,可使交互序列82适应以以允许更多的用户主动性。这种基于用户能力使用户设置适应促进了改善的用户能力,并建立了具有更高的任务完成率的交互模式。
例如,一个用户通常可能非常熟悉语音系统,频繁地使用这些语音系统通过他的移动电话来启动应用程序。因此他表达其要求的一贯方式是使用一个单独的话语,而很少需要在后来的对话中增加信息。当所述用户能力自适应模块64观察到了这一点并学习了这种模式后,它可决定使用最少的提示以保持对话高效并使得任务完成时间短。
在另一个例子中,同一用户可能更喜欢执行搜索请求,例如查找餐馆(例如,兴趣点(POI搜索))。基于他的移动电话经验,他可能形成了一种习惯,浏览大的搜索列表并在显示器上继续进行交互,彻底研究选项并进行选择。在因驾驶情况而显示将会显著地减少搜索内容时,他可能会对如何通过语音进行选择感到困惑。当所述用户能力自适应模块64观察到了这一点并学习了这种模式后,它可决定通过这种专属对话情形逐步地并使用帮助性提示来引导该用户,使得用户随着时间的过去理解了如何对选项进行搜索。
仍然在另一个例子中,另一个用户可能对语音不熟悉。他在驾驶期间才理解该优点并且开始通过语音要求呼叫他的联系人列表中的他的一些联系人或者调无线电台。该用户讲话非常慢且响亮,使得系统难以识别大部分请求。这导致了被错误地识别的联系人或无线电台的确认循环。用户变得恼怒并且其在这些错误恢复循环中的回答犹豫不决。所述用户能力自适应模块64观察到了暂停事件,长响应时间或对于确认循环的冗长的用户话语,并通过添加潜在的答案、有帮助的提示或将提示变为精确的是/否答案来引导用户处理这种情况。
在多种示例性实施例中,如图5所示,所述用户能力自适应模块64包括一个或多个模式检测模块104a-104n,一个或多个设置计算器模块106,和一个或多个用户配置自适应模块108。所述一个或多个模式检测模块104a-104n分析数据以确定特定的模式107a-107n。所述一个或多个设置计算器模块106基于所检测的模式107a-107n确定设置109。所述一个或多个用户配置自适应模块108基于设置109为用户配置56(图2)提供系统提示80和/或交互序列82。
所述模式检测模块104a-104n确定模式107a-107n,该模式涉及例如,任务完成率和时间、暂停事件、用户响应时间、相对于高效组织的话语的用户偏离(例如,犹豫不决、停顿、冗长等),导致确认循环的低系统置信度,导致解疑循环的含糊的用户话语,帮助请求和所有偏离高效和成功的交互序列的事件。当模式检测模块104a确定了与任务完成率和时间相关的模式,当完成率低于特定阈值时,设置计算器模块106产生设置109,其将系统提示变为提供更多有用信息的系统提示。在多种实施例中,当模式检测模块104a确定了与暂停事件、用户响应时间或相对于高效组织的话语的用户偏离相关的模式时,设置计算器模块106检查与当前对话步骤的关系,如果当前对话步骤重复出现在同一步骤中,则设置计算器模块106产生设置109以将提示和交互序列变为更小的步骤,这些更小的步骤带有紧密的系统问题,用户容易知道如何给出针对这些问题的答案(例如,由于可能的回答空间是狭窄的)。
当模式检测模块104a确定了与导致确认循环的低系统置信度相关的模式时,所述设置计算器模块106产生设置109以将提示变为提供更多有用信息、的系统提示,以使得用户知道如何回答。当模式检测模块104a确定了与导致解疑循环的含糊用户话语相关的模式时,所述设置计算器模块106产生设置109以将提示变为系统提示,其告诉用户如何在他的答案中包含足够的信息以使得其答案不含糊。在多种实施例中,当模式检测模块104a确定了与帮助请求相关的模式时,所述设置计算器模块106产生设置109以将系统提示变为提供更多有用信息的提示。这种模式检测可以通过收集与系统的识别混淆相关的用户数据来完成,例如,通过用户拒绝或修正的确认或解疑请求来检测。在这种情况下,数据被存储在混淆矩阵中,其随着时间显示重复发生的混淆。
对于上述所有确定的模式,一旦模式检测模块104a-104n确定了用户的行为变得更加高效和/或易于识别,所述设置计算器模块106产生设置109将语音系统提示和/或交互序列恢复为原始设置,认为用户已经获得了使用该系统的经验。
重新参照图3,所述背景数据自适应模块66从加载数据数据库42检索已加载数据。在多种实施例中,所述已加载数据包括车辆数据84,车辆背景数据86,和语音系统数据88。所述车辆数据84可以包括但不限于,车辆速度数据,或其他任何可从通信总线28上获得的数据。所述车辆背景数据86可以包括但不限于,当前驾驶位置和时间,道路类型,交通信息,天气,环境噪声水平,占用者的数量,已连接用户设备的数量,任何已启动的因特网或其他HMI应用程序,任何己启动的车辆系统(即,气候控制,主动巡航控制,灯光,变速器档位,风档刮水器等),或其他任何可从通信总线上获得或直接从车辆系统16-26获得的数据。所述语音系统数据88可以包括但不限于,用户发出的语音,语音生能,和/或由语音系统10确定的其他语音特征。
所述背景数据自适应模块66分析所加载的数据并检测在用户正使用该系统的背景和在使用该语音系统10时的用户的交互行为之间重复发生的模式。所述背景数据自适应模块66基于所述模式为用户任务偏好90、自然语言命令偏好92,和/或交互序列偏好94提供更新。在多种实施例中,所建议的调节被作为用户配置56(图2)的一部分被提供。
例如,交通数据提供了关于驾驶员正在行驶的路径上的交通堵塞的信息。此外来自CAN总线的速度数据支持驾驶员正处于交通堵塞中,并且安全系统(座椅安全带设置)暗示他是独自在车中。通过评估已加载的数据,所述模式检测模块110a检测出用户在这些时间打了很多电话或口授了邮件,SMS,或更新了他的日历。用户配置56(图2)被更新以识别这样的时间并在这些青况下为这些类型的请求提供识别优势并以更高的精确度执行。
在另一个例子中,周末驾驶员与其他人一起驾驶。最初的导航请求建议了一条到达兴趣点(POI)较长的驾驶路径,该兴趣点经常被游客访问。此外,驾驶员已经连接了他的iPOD并请求听特定的歌。通过评估该已加载的数据,所述模式检测模块110a检测出在这样的情况下,驾驶员请求了POI和在路上的POI音频导览,并且请求听iPOD中的一些他喜欢的歌或POI的音频导览。用户配置56(图2)被更新以识别这样的时间并在这些情况下为这些类型的请求提供识别优点并以更高的精确度执行。
在多种示例性实施例中,如图6所示,所述背景数据自适应模块66可以包括一个或多个模式检测模块110a-110n,一个或多个设置计算器模块112,和一个或多个用户配置自适应模块114。所述模式检测模块110a-110n分析特定模式115a-115n的数据。所述模式检测模块110a-110n,例如,检测与用户请求或请求类型相关的背景集群。所述设置计算器模块112基于所检测的模式115a-115n确定用户配置设置117。所述用户配置自适应模块114基于设置117提供用户配置56(图2)中所用到的用户任务偏好90,自然语言命令偏好92,和/或交互序列偏好94。
在多种实施例中,所述模式检测模块110a-110n通过确定用户行为的增加并确定用户行为增加期间的背景模式来确定模式。用户行为可以有多种类型并指的是执行特定任务类型、使用特定的词汇/语言、发生重复错误或在其话语中偏好特定的信息分布(例如,是在多于一个的话语中提供递增的信息还是在一个话语中给出完成任务的所有信息等)的频率。一旦检测出模式115a-115n,所述设置计算器模块112和用户配置自适应模块114根据所识别出的背景中的用户行为给出设置117和用户配置56(图2),例如,根据任务偏好、词汇偏好、提示偏好、和/或交互序列。
重新参照图3,所述系统模型自适应模块68从加载数据数据库42中检索已加载的数据。在多种实施例中,所述已加载数据包括用户讲出的口头命令96。在多种实施例中,所述命令96可以从加载数据数据库42(如图所示)中的加载数据检索得到,或替换地从HMI模块14(图1)随着用户说出命令而实时接收。所述系统模型自适应模块68对命令96进行评估并确定用于识别该命令的最优模型。例如,所述系统模型自适应模块68根据至少三个语音模型对命令进行评估并使得语音话语的命令与三个模型中的一个相关联。所述系统模型自适应模块68追踪命令96与特定模型相关联的频率。一旦命令96以一定的频率与特定的模型相关联,则该模型98被选中使用命令99进行更新,通过将命令99添加至模型或从模型中去除命令99。附加地或替换地,与命令99的所观察到的频率匹配的或者与命令99中的单词、短语、或单词到单词的过渡的所观察到的频率匹配的权重或概率可与命令99相关联并且所述模型使用该权重或概率进行更新。
每个所用的模型都可以在下列各项的至少一个中提供优势:所支持的短语的数量、短语的深度、处理的时延、识别的精确度和处理时间。所选模型的组合可以在上述所列各项中的至少两个中提供优势。例如,在多种实施例中,第一语言模型是一个固定模型,其包括了可识别命令的固定列表,被称为固定列表模型116(图10)。一个固定列表模型116具有改善时延、改善精确度和改善处理时间的优点,且其被认为是更优模型。这样的模型可以包括但不限于有限态语法(FSG)。第二语言模型具有更大范围的短语识别,被称为更宽范围模型118(图7)。更宽范围模型118识别出更宽范围的命令,然而时延更长且精确度下降。这样的模型可以包括但不限于统计语言模型(SLM)。第三语言模型是这两种模型的组合,其可以对这两种语言模型的结果进行仲裁,被称为仲裁模型120(图10)。这样的模型可以包括但不限于,结构平衡模型(SEM)。应当理解,由系统模型自适应模块68所实施的模型可以是任何语言模型,而不限于现有的例子。
应当理解,所述数据分析模块38可以包括一个自适应模块或上述自适应模块的任意组合。在一种情况下,其中实施了多个自适应模块,自适应模块的输出可以依赖于其他的自适应模块和或可以通过系统更新模块40(图2)以某种方式进行组合。通过这种方式对命令进行追踪,并将命令从次优选模型转移至更优的模型,该更优的模型可以在不牺牲系统灵活性的情况下被利用。因此,对命令的识别将随着时间有所改进,重复请求或确认循环被显著减少。
现在参照图7-10,并继续参照图1-6,序列图示出了自适应方法,其可以被根据多种示例性实施例的语音系统10所执行。应当理解,在本公开的启示下,所述方法中操作的顺序并不限于图7-10中的执行顺序,而是可以在适用时和根据本公开按照一种或多种不同的顺序执行。应当进一步理解,可以添加或去除本发明中的一个或多个步骤,而不改变本发明的精神。
参照图7,序列图示出了一个示例性的序列,其可以被执行以根据用户特征使语音系统10适应。如图所示,在步骤200,从例如HMI模块14(或通信总线28)接收命令,任意的背景言息和它们的性能,并在步骤202通过数据加载模块36进行加载。所述已加载的数据是在步骤210从加载数据数据库42中检索出的并在步骤220通过一个或多个特征检测模块100a-100n进行评估。然后在步骤230所述语言模型选择和合并模块102对识别出的特征105a-105n进行评估以确定该特征的发生是否具有特定的频率(例如,X次,其中X是大于1的可配置值)和置信度。在步骤240如果特征的发生具有特定的频率,则与特征相关的语言模型74被选中并提供给系统更新模块40用于更新。在步骤250系统更新模块40接收语言模型74并在步骤260使用语言模型74(例如,组合两个模型,或以其他方式)对当前的语言模型进行更新。
参照图8,序列图示出了一个示例性序列,其可以被执行以基于用户能力使语音系统10适应。如图所示,在步骤310,例如,从HMI模块14,接收命令和性能数据,并且在步骤312由数据加载模块36进行加载。所述已加载的数据是在步骤320从加载数据数据库42中检索得到的。在步骤330所述模式检测模块104a-104n对已加载数据进行评估并编译与用户能力相关的重复出现的模式107a-107n。在步骤340所述模式107a-107n被发送至设置计算器模块106。在步骤350,基于模式107a-107n,所述设置计算器模块106为整个交互策略(例如,提示的通用冗长等级)和/或特定的对话情境(例如,特定语境中的确认)计算推荐的系统交互设置109。在步骤360,所述用户系统交互设置109被发送至用户配置自适应模块108。在步骤370,所述用户配置自适应模块108使用户配置的设置适应。步骤380,所述用户配置被发送至系统更新模块40。在步骤390,系统更新模块40使用更新后的用户配置更新系统设置。
参照图9,序列图示出了一个示例性的序列,其可以被执行以基于背景数据使语音系统10适应。如图所示,在步骤410接收车辆数据84、背景数据86、和语音系统数据88,并在步骤412通过数据加载模块36进行加载。在步骤420从加载数据数据库42中检索已加载数据。在步骤430,模式检测模块110a-110n对己加载数据进行评估并编译与数据相关的重复出现的模式115a-115n,所述数据来自其他HMI模块14(例如,导航系统、集群堆栈、因特网信息)或车辆的加载系统(CAN总线),是背景数据,例如当前行驶位置和时间、道路类型、交通、天气、行驶速度、环境噪声水平、乘客数量、已连接的用户设备、已启动的因特网或其他HMI应用程序、已启动的车辆系统,例如气候控制、主动巡航控制,灯光,变速器档位,风档刮水器等。
在步骤440,模式115a-115n被发送至设置计算器模块112。在步骤450,基于所述模式115a-115n,所述设置计算器模块112为整个交互策略(例如,提示的通用冗长等级)和/或特定的对话情境(例如,特定语境中的确认)确定推荐的系统交互设置117。在步骤460,用户系统交互设置被发送至用户配置自适应模块114。在步骤470,用户配置自适应模块114使用户配置的设置适应。在步骤480,用户配置被发送至系统更新模块40。在步骤490,系统更新模块40使用已更新的用户配置更新系统设置。
参照图10,序列图示出了示例性的序列,其可以被执行以基于已适应的系统模型使语音系统10适应。如图所示,在步骤510从例如HMI模块14接收命令,并在步骤512使用数据加载模块36进行加载。在步骤520从加载数据数据库42中检索命令。替换地,所述命令96是在步骤530从HMI模块14直接接收的。系统模型自适应模块68对命令96进行处理以确定该命令的最优语言模型。例如,在步骤540,使用固定列表模型116对命令96进行处理并在步骤550将命令发送至仲裁模型120。同时或随后,在步骤555从加载数据数据库42中检索命令96并在步骤560使用更宽范围模型118对命令进行处理。替换地,命令96是在步骤557直接从HMI模块14接收的,并在步骤560使用更宽范围模型118对命令96进行处理。
在步骤570,更宽范围模型118的结果被发送至仲裁模型120。在步骤580使用仲裁模型120对固定列表模型116和更宽范围模型118的结果进行处理。在步骤590对仲裁的结果进行评估,以确定其结果是否以特定的频率(例如,X次,其中X是大于1的可配置值)发生。在步骤600,如果仲裁的结果是以特定的频率发生的,其结果和所述模型被提供给系统更新模块40用于更新。在步骤610,系统更新模块接收结果和模型并使用结果对系统模型进行更新。
尽管在前述的详细描述中已经公开了至少一个示例性实施例,应当理解存在大量的变形。还应当理解这些示例性实施例只是例子,且不用于在任何方面限制本发明的范围、应用或配置。相反,前述的详细描述将为本领域技术人员提供实现该示例性实施例的便捷途径图。应当理解可以在不脱离本发明范围的情况下对功能和元件的设置进行多种变形,如所附的权利要求及其法律等同中阐明该范围。

Claims (10)

1.一种使语音系统适应的方法,包括:
从语音系统载入语音数据;
处理该语音数据以获得与任务请求和交互行为中的至少一个相关联的用户能力的模式;并且
基于用户能力选择生地更新系统提示和交互序列中的至少一个。
2.如权利要求1所述的方法,其中语音数据包括口头命令和口头命令的性能。
3.如权利要求2所述的方法,其中口头命令的性能包括与任务完成成功、用户的重复出现的错误、以及语音系统的重复出现的错误中的至少一个相关联的参数和测量结果中的至少一个。
4.如权利要求3所述的方法,其中所述参数和测量结果中的至少一个进一步与任务完成率、任务完成时间、暂停事件、响应时间、确认循环、解疑循环和帮助请求中的至少一个相关联。
5.如权利要求1所述的方法,其中所述处理包括使用至少一个检测器处理语音数据,所述至少一个检测器与任务完成率、任务完成时间、暂停事件、用户响应时间、用户犹豫不决、用户暂停、冗长、导致确认循环的低系统置信水平、导致解疑循环的含糊的用户话语、和帮助请求中的至少一个相关联。
6.如权利要求1所述的方法,其中选择性地更新包括在确定了用户或语音系统的重复错误后,选择性地更新系统提示,以包括用户帮助和更窄的回答空间中的至少一个。
7.如权利要求1所述的方法,其中选择生地更新包括在确定用户学习了交互行为后,更新系统提示以包括原始提示。
8.如权利要求1所述的方法,其中选择性地更新包括在确定了用户或语音系统的重复错误后,更新交互序列以包括更多的系统主动性。
9.如权利要求1所述的方法,其中选择性地更新包括在确定用户已经学习了交互模式后,更新交互序列以包括更多的用户主动性。
10.一种用于使语音系统适应的系统,包括:
第一模块,其从语音系统中载入语音数据;
第二模块,其处理语音数据以获得与任务请求和交互行为中的至少一个相关联的用户能力模式;和
第三模块,其基于用户能力选择性地更新系统提示和交互序列中的至少一个。
CN201310756824.7A 2012-11-13 2013-11-13 用于语音系统的自适应方法和系统 Active CN103928027B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201261725802P 2012-11-13 2012-11-13
US61/725802 2012-11-13
US14/059,917 US9558739B2 (en) 2012-11-13 2013-10-22 Methods and systems for adapting a speech system based on user competance
US14/059917 2013-10-22

Publications (2)

Publication Number Publication Date
CN103928027A true CN103928027A (zh) 2014-07-16
CN103928027B CN103928027B (zh) 2018-01-26

Family

ID=50556052

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201310756824.7A Active CN103928027B (zh) 2012-11-13 2013-11-13 用于语音系统的自适应方法和系统
CN201310757116.5A Active CN103810995B (zh) 2012-11-13 2013-11-13 用于语音系统的调节方法和系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201310757116.5A Active CN103810995B (zh) 2012-11-13 2013-11-13 用于语音系统的调节方法和系统

Country Status (3)

Country Link
US (2) US9558739B2 (zh)
CN (2) CN103928027B (zh)
DE (2) DE102013222519A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138250A (zh) * 2015-08-03 2015-12-09 科大讯飞股份有限公司 人机交互操作引导方法、系统、人机交互装置及服务端
CN106537492A (zh) * 2014-11-24 2017-03-22 奥迪股份公司 具有用于语音识别的校正策略的机动车操作装置
CN107667399A (zh) * 2015-06-25 2018-02-06 英特尔公司 语音识别服务
CN109769180A (zh) * 2017-11-10 2019-05-17 恩智浦有限公司 车辆音频呈现控制器
CN109979445A (zh) * 2017-12-14 2019-07-05 通用汽车环球科技运作有限责任公司 一种用于理解标准语言和方言的系统和方法
CN110600011A (zh) * 2018-06-12 2019-12-20 中国移动通信有限公司研究院 一种语音识别方法、装置和计算机可读存储介质

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140358538A1 (en) * 2013-05-28 2014-12-04 GM Global Technology Operations LLC Methods and systems for shaping dialog of speech systems
US9858920B2 (en) * 2014-06-30 2018-01-02 GM Global Technology Operations LLC Adaptation methods and systems for speech systems
US20180314979A1 (en) * 2017-04-28 2018-11-01 GM Global Technology Operations LLC Systems and methods for processing radio data system feeds
US10120866B1 (en) * 2017-04-28 2018-11-06 Microsoft Technology Licensing, Llc Conversational system user behavior identification
JP7059524B2 (ja) * 2017-06-14 2022-04-26 ヤマハ株式会社 歌唱合成方法、歌唱合成システム、及びプログラム
US10460748B2 (en) * 2017-10-04 2019-10-29 The Toronto-Dominion Bank Conversational interface determining lexical personality score for response generation with synonym replacement
CN108010518B (zh) * 2017-12-13 2022-08-23 腾讯科技(深圳)有限公司 一种语音交互设备的语音采集方法、系统及存储介质
JP6731451B2 (ja) * 2018-07-20 2020-07-29 本田技研工業株式会社 車両管理システム、車両管理プログラム及び車両管理方法
US11238234B2 (en) 2019-09-11 2022-02-01 International Business Machines Corporation Adjusting a verbosity of a conversation turn
US11620990B2 (en) * 2020-12-11 2023-04-04 Google Llc Adapting automated speech recognition parameters based on hotword properties
US20230419971A1 (en) * 2022-06-24 2023-12-28 Cerence Operating Company Dynamic voice assistant system for a vehicle

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6560576B1 (en) * 2000-04-25 2003-05-06 Nuance Communications Method and apparatus for providing active help to a user of a voice-enabled application
US20050177374A1 (en) * 2004-02-05 2005-08-11 Avaya Technology Corp. Methods and apparatus for context and experience sensitive prompting in voice applications
US6944592B1 (en) * 1999-11-05 2005-09-13 International Business Machines Corporation Interactive voice response system
CN1945694A (zh) * 2005-09-28 2007-04-11 罗伯特·博世公司 为标记目的确定对话系统参数的系统和方法
CN101535983A (zh) * 2006-10-16 2009-09-16 沃伊斯博克斯科技公司 协作会话语音用户界面的系统和方法
CN101573750A (zh) * 2006-12-22 2009-11-04 吉尼塞斯电信实验室公司 使用人类语音检测分析选择交互式语音响应模式的方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US7263489B2 (en) * 1998-12-01 2007-08-28 Nuance Communications, Inc. Detection of characteristics of human-machine interactions for dialog customization and analysis
US6665644B1 (en) * 1999-08-10 2003-12-16 International Business Machines Corporation Conversational data mining
US6587824B1 (en) * 2000-05-04 2003-07-01 Visteon Global Technologies, Inc. Selective speaker adaptation for an in-vehicle speech recognition system
DE10050808C2 (de) 2000-10-13 2002-12-19 Voicecom Ag Sprachgeführte Gerätesteuerung mit Benutzeroptimierung
US7050976B1 (en) * 2001-09-26 2006-05-23 Sprint Spectrum L.P. Method and system for use of navigation history in a voice command platform
EP1320086A1 (en) * 2001-12-13 2003-06-18 Sony International (Europe) GmbH Method for generating and/or adapting language models
US6999931B2 (en) * 2002-02-01 2006-02-14 Intel Corporation Spoken dialog system using a best-fit language model and best-fit grammar
JP2003295893A (ja) 2002-04-01 2003-10-15 Omron Corp 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US7315811B2 (en) * 2003-12-31 2008-01-01 Dictaphone Corporation System and method for accented modification of a language model
US20060206333A1 (en) * 2005-03-08 2006-09-14 Microsoft Corporation Speaker-dependent dialog adaptation
EP1761015B1 (en) 2005-09-02 2017-11-08 Swisscom AG Self-adaptive user interface for dialogue systems
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US8131548B2 (en) * 2006-03-06 2012-03-06 Nuance Communications, Inc. Dynamically adjusting speech grammar weights based on usage
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
JP4767754B2 (ja) 2006-05-18 2011-09-07 富士通株式会社 音声認識装置および音声認識プログラム
US20080004880A1 (en) * 2006-06-15 2008-01-03 Microsoft Corporation Personalized speech services across a network
US8571866B2 (en) * 2009-10-23 2013-10-29 At&T Intellectual Property I, L.P. System and method for improving speech recognition accuracy using textual context
CN102280106A (zh) 2010-06-12 2011-12-14 三星电子株式会社 用于移动通信终端的语音网络搜索方法及其装置
US8532994B2 (en) * 2010-08-27 2013-09-10 Cisco Technology, Inc. Speech recognition using a personal vocabulary and language model
CN103186607A (zh) 2011-12-30 2013-07-03 大连天维科技有限公司 分布式语音检索系统
US20140039893A1 (en) * 2012-07-31 2014-02-06 Sri International Personalized Voice-Driven User Interfaces for Remote Multi-User Services

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6944592B1 (en) * 1999-11-05 2005-09-13 International Business Machines Corporation Interactive voice response system
US6560576B1 (en) * 2000-04-25 2003-05-06 Nuance Communications Method and apparatus for providing active help to a user of a voice-enabled application
US20050177374A1 (en) * 2004-02-05 2005-08-11 Avaya Technology Corp. Methods and apparatus for context and experience sensitive prompting in voice applications
CN1945694A (zh) * 2005-09-28 2007-04-11 罗伯特·博世公司 为标记目的确定对话系统参数的系统和方法
CN101535983A (zh) * 2006-10-16 2009-09-16 沃伊斯博克斯科技公司 协作会话语音用户界面的系统和方法
CN101573750A (zh) * 2006-12-22 2009-11-04 吉尼塞斯电信实验室公司 使用人类语音检测分析选择交互式语音响应模式的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106537492A (zh) * 2014-11-24 2017-03-22 奥迪股份公司 具有用于语音识别的校正策略的机动车操作装置
CN106537492B (zh) * 2014-11-24 2019-05-10 奥迪股份公司 具有用于语音识别的校正策略的机动车操作装置
CN107667399A (zh) * 2015-06-25 2018-02-06 英特尔公司 语音识别服务
CN105138250A (zh) * 2015-08-03 2015-12-09 科大讯飞股份有限公司 人机交互操作引导方法、系统、人机交互装置及服务端
CN109769180A (zh) * 2017-11-10 2019-05-17 恩智浦有限公司 车辆音频呈现控制器
CN109979445A (zh) * 2017-12-14 2019-07-05 通用汽车环球科技运作有限责任公司 一种用于理解标准语言和方言的系统和方法
CN110600011A (zh) * 2018-06-12 2019-12-20 中国移动通信有限公司研究院 一种语音识别方法、装置和计算机可读存储介质
CN110600011B (zh) * 2018-06-12 2022-04-01 中国移动通信有限公司研究院 一种语音识别方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
CN103928027B (zh) 2018-01-26
DE102013222507B4 (de) 2023-03-16
US20140136202A1 (en) 2014-05-15
US9564125B2 (en) 2017-02-07
DE102013222519A1 (de) 2014-05-15
CN103810995A (zh) 2014-05-21
US20140136201A1 (en) 2014-05-15
DE102013222507A1 (de) 2014-05-15
US9558739B2 (en) 2017-01-31
CN103810995B (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN103928027A (zh) 用于语音系统的自适应方法和系统
CN103811002B (zh) 用于语音系统的调节方法和系统
CN103810005A (zh) 用于语音系统的调节方法和系统
KR102562227B1 (ko) 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법
KR102338990B1 (ko) 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법
US10229671B2 (en) Prioritized content loading for vehicle automatic speech recognition systems
US9564132B2 (en) Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system
KR102414456B1 (ko) 대화 시스템, 이를 포함하는 차량 및 유고 정보 처리 방법
CN110648661A (zh) 对话系统、车辆和用于控制车辆的方法
US20170169814A1 (en) Text rule based multi-accent speech recognition with single acoustic model and automatic accent detection
CN109920410B (zh) 用于基于车辆的环境确定推荐的可靠性的装置和方法
US8374868B2 (en) Method of recognizing speech
US10741178B2 (en) Method for providing vehicle AI service and device using the same
EP3570276A1 (en) Dialogue system, and dialogue processing method
KR102403355B1 (ko) 차량, 그와 통신하는 모바일 기기 및 차량의 제어 방법
US11333518B2 (en) Vehicle virtual assistant systems and methods for storing and utilizing data associated with vehicle stops
KR102487669B1 (ko) 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법
CN110562260A (zh) 对话系统和对话处理方法
JP7310556B2 (ja) 情報処理システム
KR20190036018A (ko) 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant