CN103810995A - 用于语音系统的调节方法和系统 - Google Patents
用于语音系统的调节方法和系统 Download PDFInfo
- Publication number
- CN103810995A CN103810995A CN201310757116.5A CN201310757116A CN103810995A CN 103810995 A CN103810995 A CN 103810995A CN 201310757116 A CN201310757116 A CN 201310757116A CN 103810995 A CN103810995 A CN 103810995A
- Authority
- CN
- China
- Prior art keywords
- module
- user
- data
- user characteristics
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Abstract
本发明涉及用于语音系统的调节方法和系统。提供了用于调节语音系统的方法和系统。在一个例子中,一种方法包括:记录来自语音系统的语音数据;从语音数据中检测用户特征;以及基于用户特征选择性地更新语言模型。
Description
相关申请的交叉引用
本申请要求2012年11月13日提交的美国临时申请NO.61/725,802的权利,其全部内容通过引用被结合在此。
技术领域
本技术领域一般涉及语音系统,并且特别的涉及一种方法和系统,基于从用户交互和/或例如车辆的一个或多个系统确定的数据调整语音系统的组件。
背景技术
车辆语音系统对车辆的乘客发出的话语执行语音识别。所述话语通常包括控制车辆的一个或多个特征或其他可由车辆访问的系统的命令。所述语音系统利用通用的识别技术使得车辆上任何乘客发出的话语都能够被识别。语音对话系统基于这些命令管理与车辆的用户之间的对话。该对话典型地对所有用户通用。
因此,需要提供一种系统和方法,根据车辆的乘客和/或车辆和/或乘客的上下文情境对车辆语音系统进行调节。进一步,从随后的详细描述和所附的权利要求,并结合相应的附图和前述的技术领域和背景技术,本发明的其他所需特征和特性将更显而易见。
发明内容
提供了一种用于调节语音系统的方法和系统。在一个例子中,一种方法包括:从语音系统记录语音数据;从语音数据中检测用户特征;并且基于用户特征选择性地更新语言模型。
本发明提供以下技术方案:
1、一种调节语音系统的方法,包括:
记录来自语音系统的语音数据;
从所述语音数据中检测用户特征;以及
基于所述用户特征选择性地更新语言模型。
2、如技术方案1所述的方法,其中所述语音数据包括用户在与语音系统交互时发出的口头命令以及该口头命令的运行性能。
3、如技术方案1所述的方法,其中更新语言模型包括基于所述用户特征产生新的语言模型。
4、如技术方案1所述的方法,其中更新语言模型包括将与所述用户特征相关的语言模型与至少一个其他语言模型进行组合。
5、如技术方案1所述的方法,其中检测用户特征包括当对自动系统说出命令时,检测特定于用户行为的用户特征。
6、如技术方案5所述的方法,其中选择性地更新语言模型包括将与检测到的用户特征相关的模型和与一般用户特征相关的模型进行组合。
7、如技术方案1所述的方法,其中检测用户特征包括使用一个或多个检测器检测用户特征,所述检测器将所述语音数据映射到一个或多个与至少一个用户特征相关的分类中。
8、如技术方案1所述的方法,其中检测用户特征包括从所述语音数据中检测冗长、信息分布和区域分布中的至少一个。
9、如技术方案1所述的方法,其中检测用户特征包括从所述语音数据中检测礼貌和礼节水平中的至少一个。
10、如技术方案1所述的方法,其中检测用户特征包括从语音数据中检测年龄、方言和性别中的至少一个。
11、如技术方案1所述的方法,进一步包括:
追踪用户特征的频率,并且
其中当所述频率到达特定频率时,进行所述选择性地更新。
12、一种调节语音系统的系统,包括:
第一模块,其记录来自所述语音系统的语音数据;
第二模块,其从所述语音数据中检测用户特征;和
第三模块,其基于所述用户特征选择性地更新语言模型。
13、如技术方案12所述的系统,其中所述语音数据包括用户在与所述语音系统交互时发出的口头命令以及该口头命令的运行性能。
14、如技术方案12所述的系统,其中第三模块通过基于所述用户特征产生新的语言模型来更新所述语言模型。
15、如技术方案12所述的系统,其中第三模块通过将与所述用户特征相关的语言模型与至少一个其他语言模型进行组合来更新所述语言模型。
16、如技术方案12所述的系统,其中第二模块使用一个或多个检测器来检测所述用户特征,所述检测器将所述语音数据映射到一个或多个与至少一个用户特征相关的分类中。
17、如技术方案12所述的系统,其中第二模块从所述语音数据中检测冗长、信息分布和区域分布中的至少一个。
1 8、如技术方案12所述的系统,其中第二模块从所述语音数据中检测礼貌和礼节水平中的至少一个。
1 9、如技术方案1 2所述的系统,其中第二模块从所述语音数据中检测年龄、方言和性别中的至少一个。
20、如技术方案12所述的系统,其中第二模块追踪所述用户特征的频率,并且其中当所述频率到达特定频率值时,第三模块选择性地更新所述语言模型。
在另一个例子中,一种系统包括第一模块,其从语音系统中记录语音数据。第二模块从语音数据中检测用户特征。第三模块基于用户特征选择性地更新语言模型。
附图说明
接下来将结合附图描述本发明的示例性实施例,附图中相同的数字代表了相同的元件,且其中:
图1为车辆的功能性框图,其包括根据多种示例性实施例的语音系统;
图2至6为数据流图,其示出了根据多种示例性实施例的语音系统的调节模块;和
图7至10为序列图,示出了可以被根据多种示例性实施例的语音系统所执行的调节方法。
具体实施方式
接下来的详细描述本质上仅仅是示例性的,并不用于限制本发明的应用和使用。进一步,不需要限制于前述技术领域、背景技术、发明内容或者下面的详细描述中任何明示或暗示的原理。如在此所用,术语模块指的是执行一个或多个软件或固件程序的特定用途集成电路(ASIC),电子电路、处理器(共有、专用或集合)和存储器,组合逻辑电路,和/或其它可以提供所述功能的合适组件。
首先参照图1,根据本公开的示例性实施例,示出了将包括于车辆12内的语音系统10。语音系统10通过人机接口模块(HMI)14为一个或多个车辆系统提供语音识别和对话功能。这样的车辆系统可以包括,例如但不限于,电话系统16、导航系统18、媒体系统20,远程信息处理系统22,网络系统24,或其他任何可包括语音相关应用程序的车辆系统。应当认识到,语音系统10的一个或多个实施例可以应用于其他带有语音相关应用程序的非车辆系统,因此,并不限于当前的车辆例子。为了例示的目的,在车辆示例的环境下描述语音系统10。
语音系统10通过HMI模块14和通信总线和/或其他通信装置28(例如,有线、短程无线或远程无线)与多个车辆系统16-24和/或其他车辆系统26进行通信。所述通信总线可以是,例如但不限于,CAN总线。
一般来说,语音系统10包括调节模块30,自动语音识别(ASR)模块32,和对话管理模块34。应当理解,如所示,ASR模块32和对话管理模块34可以被设置成单独的系统和/或组合系统,如所示。进一步应当理解,语音系统10的模块可以全部设置在车辆12上,或者部分在车辆12上、部分在远程系统,例如远程服务器(未示出)上。
ASR模块32接收和处理来自HMI模块14的话语。部分从话语中识别出的命令(例如,基于置信阈值)被发送给对话管理模块34。所述对话管理模块34基于所述命令管理交互序列和提示。调节模块30记录来自车辆乘客(例如,通过HMI模块14)产生的各种语音数据和交互数据,记录来自各种车辆系统16-24的数据,和/或记录来自各种其他车辆系统26(例如,不包括语音应用程序的车辆系统)的数据。调节模块30对记录的数据执行一种或多种学习算法,并基于该学习算法调节语音系统10的一个或多个部件。在不同实施例中,调节模块30调节语音系统10中的ASR模块32所使用的语言模型。在多种其他实施例中,调节模块30调节语音系统10的对话管理模块34所使用的提示和交互序列。
如图所示,调节模块30包括在语音系统10中。应当理解,在可替换的实施例中,调节模块30可以被实施,例如,在HMI模块14中或作为与语音系统10通信的独立的应用程序。因此,本公开并不限于当前的例子。
现在参照图2,数据流图示出了根据各种实施例的调节模块30。应当理解,根据本公开,调节模块30的不同实施例可以包括任意数量的子模块。例如,图2中所示的子模块可以被组合和/或进一步分割以类似地调节语音系统10(图1)的多个部分。
在各种示例性实施例中,调节模块30包括数据记录模块36,数据分析模块38,系统更新模块40,记录数据数据库42,和系统数据数据库44。数据库42、44可以临时或永久地存储系统10的数据。
数据加载模块36将来自车辆12的各个源(例如,车辆系统16-24和/或其他车辆系统26)的数据记载在记载数据数据库42。所述数据可以包括,例如但不限于,车辆数据46,车辆情境数据48,语音系统数据50,和用户交互数据52。车辆数据46可以包括,例如,速度数据,环境噪声水平数据,乘客数据(例如,在车辆12中检测出有多个乘客),车辆系统数据(例如,启动了多个车辆系统)等。车辆情境数据48可以包括,例如,车辆位置数据,道路类型数据,天气数据,交通数据等。语音系统数据50可以包括,例如,口头命令数据(例如,与车辆12的乘客口头发出的命令有关的数据),和运行性能数据(例如,与口头命令的识别运行性能有关的数据)。用户交互数据52可以包括,例如,交互序列数据,用户请求的频率数据,和来自其他HMI形式的数据,例如触摸屏手势交互数据或显示数据。
数据分析模块38从记录数据数据库42中检索记录数据并对记录数据进行分析以确定是否要调整语音系统10所用的一个或多个语言模型,是否要调整语音系统10给出的提示信息,和/或是否要调整语音系统10提供的交互序列或对话。如果确定需要对一个或多个语言模型、提示信息、和交互序列进行调整,将生成建议的更新作为更新后的语言模型54、或作为更新后的用户配置文件56,其包括了更新后的提示信息和/或更新后的交互序列。
系统更新模块40接收更新后的语言模型54和更新后的用户配置文件56作为输入。系统更新模块40基于所接收的输入存储或更新来自系统数据数据库44的语言模型,提示信息,和/或交互序列。例如,如果接收到了更新后的语言模型54,则更新后的语言模型54可以与原始模型进行组合以形成更加强健的语言模型,例如,对于较短的历史分配(单字母)使用较小的语言模型(即更新后的语言模型54),而对于调整后的较高历史分配(三字母)使用更多细节的语言模型(即已存储的语言模型)。在另一个例子中,用户配置文件56包括可以被存储为特定用户所使用的提示和/或交互序列。
参照图3-6,数据流图示出了图2中根据多种实施例的数据分析模块38。应当理解,根据本公开,数据分析模块38的多种实施例可以包括任意数量的子模块。例如,图3-6中所示的子模块可以被组合和/或进一步划分以类似地分析记录的数据并调整语音系统10的多个部分。数据分析模块38的输入可以是从记录数据数据库42中检索获得的和/或直接从HMI模块14和/或一个或多个车辆系统16-26接收得到的。在多种实施例中,数据分析模块38包括用户特征调节模块62、用户权限调节模块64、情境数据调节模块66,和/或系统模型调节模块68。应当理解,数据分析模块38可只包括所示模块中的一个,或可包括所示模块的任意组合,且其不限于当前的例子。
用户特征调节模块62从记录数据数据库42中检索已记录的数据。在多种实施例中,已记录的数据包括用户发出的口头命令70,和口头命令70的运行性能72。用户特征调节模块62分析命令70的各种特征。所述特征可以包括,例如但不限于,冗长,相关讲话,信息分布,用户人口统计,交流的音调(例如,礼貌用语),年龄和性别。在多种实施例中,用户特征调节模块62追踪命令70与特定特征相关的频率。一旦命令70以一定的频率与特定特征相关,用户特征调节模块62基于命令70的特征确定语言模型74或通过基于特征组合若于语言模型(带或不带权重)生成新的语言模型74。
在多种实施例中,如图4所示,用户特征调节模块62包括一个或多个特征检测模块100a-100n以及语言模型选择和合并模块102。每个特征检测模块100对命令70进行分析以得到一个或多个特征105a-105n。在多种示例性实施例中,特征检测模块100a-100n基于特定命令70是否与特定的特征相关和/或是否落入特定特征的特定范围,输出一个或多个特征105a-105n。语言模型选择和合并模块102基于所检测的特征105a-105n确定语言模型74。在多种实施例中,语言模型选择和合并模块102从预存储的模型中或模型的加权组合中确定合适的语言模型74。
在多种实施例中,特征检测模块100a-100n可以是冗长检测模块,礼貌用语检测模块,信息分布检测模块,区域分布检测模块,礼节等级检测模块,年龄检测模块,方言检测模块,和/或性别检测模块。冗长检测模块,例如,分析命令70并估计话语中修饰词和非功能性词的比例,并将其与已知的冗长分布进行比较。礼貌用语检测模块,例如,分析命令70并提取所有的礼貌等级指示词。然后使用不同指示词之间的加权量和关系来检测礼貌等级。信息分布检测模块,例如,分析命令70以检测所需信息片断(也称为槽信息)的位置和数量。基于该信息,信息分布检测模块可以检测出趋于将该信息作为单独话语提供的用户和逐渐这么做的用户。
区域分布检测模块,例如,分析命令70并基于与用户历史行为的比较来检测区域。礼节等级检测模块,例如,分析命令70并提取出词汇量。每个礼节等级的词汇量是在其中进行检测的空间的基础。可以通过使用标准化距离测量来确定等级。年龄检测模块,例如,分析命令的话语并使用混合高斯模型(GMM)将话语与各年龄或年龄组的参考模型进行比较。
方言检测模块,例如,分析命令70并提取声学特征。使用,例如,锚模型技术,产生签名并测量距离。性别检测模块,例如,分析命令70,提取声学特征并估计各性别的GMM分布。通过将GMM变换成超级向量(SV),可以估计距离并进行判决。应当理解,各检测模块100a-100n也可以使用其他方法和技术。因此,本公开并不限于当前的例子。
重新参照图3,用户权限调节模块64从记录数据数据库42中检索已记录的数据。在多种实施例中,已记录的数据包括用户发出的口头命令76和口头命令76的运行性能78。用户权限调节模块64基于命令76的运行性能78分析命令76。在多种实施例中,运行性能78可以一般地包括任务成功完成和用户和/或系统的反复错误的参数和测量结果。例如,所述参数和测量结果可以是关于,但不限于,任务完成率和时间,暂停事件,响应时间,确认和解疑周期,帮助请求和脱离了有效且成功的交互序列的所有事件。
用户权限调节模块64分析命令76以确定模式。用户权限调节模块64基于所确定的模式为提示80提供建议的调整和/或为交互序列82提供调整。所建议的调整可以作为用户配置文件56的一部分被提供(图2)。例如,用户配置文件56中的提示80可以被更新,以在识别出用户或语音系统的重复错误后,包含更多的帮助和和更窄的回答空间;并且在确定了用户或系统学习了最优交互行为后,用户配置文件56中的提示80可以被恢复成原始提示。在各种实施例中,用户配置文件56中的交互序列82可以被调节以为识别的重复用户错误提供更大程度的系统主导,并且当确定用户学习了交互模式后,交互序列82可以被调节以允许更大程度的用户主导。这种基于用户权限提示对用户设置进行的调节提高了用户权限,并建立了具有更高任务完成率的交互模式。
例如,一个用户可能非常熟悉语音系统,通常频繁地通过他的移动电话来启动应用程序。因此他惯用的方式是使用一次性话语(one shot utterance)来表达他的要求,而很少需要稍后在后来的对话中增加信息。在用户权限调节模块64观察到了这一点并学习了这种模式后,它可以决定使用最少的提示以保持对话有效并使得任务完成时间短。
在另一个例子中,相同的用户可能更喜欢执行搜索请求,例如查找餐馆(例如,兴趣点(POI搜索))。基于他的移动电话经验,他可能形成了一种习惯,搜索大的搜索列表并在显示器上继续进行交互,彻底浏览选项并进行选择。由于驾驶情况显示将会显著地减少搜索内容,他可能会对如何通过语音进行选择感到困惑。在用户权限调节模块64观察到了这一点并学习了这种模式后,它可以逐步地并在这个特定对话环境中使用帮助性提示来引导该用户,使得随后用户理解了如何对选项进行查找。
仍然在另一个例子中,另一个用户可能对语音不熟悉。他了解到了在驾驶时使用语音的好处并开始通过语音提出请求,以给他联系人列表中的联系人打电话或调谐无线电台。该用户发音非常慢且响亮,使得系统难以识别大部分请求。这导致在确认周期中出现了错误识别的联系人或无线电台。用户变得急躁并且其在这些错误恢复周期中的回答变得含糊。用户权限调节模块64观察到了暂停事件,长响应时间或确认周期中冗长的用户话语,并通过添加潜在的答案、有益的提示或将提示变为精确的是/否答案来引导用户处理这种情况。
在多种示例性实施例中,如图5所示,用户权限调节模块64包括一个或多个模式检测模块104a-104n,一个或多个设置计算模块106,和一个或多个用户配置文件调节模块108。一个或多个模式检测模块104a-104n分析数据以识别特定的模式107a-107n。一个或多个设置计算模块106基于所检测的模式107a-107n确定设置109。一个或多个用户配置文件调节模块108基于设置109为用户配置文件56(图1)提供系统提示80和/或交互序列82。
模式检测模块104a-104n识别与下列相关的模式107a-107n,例如,任务完成率和时间、暂停事件、用户响应时间、距离有效的规范话语的用户偏离度(例如,含糊、停顿、冗长等),导致确认周期的低系统置信度,导致解疑周期的含糊用户话语,帮助请求和所有偏离有效和成功的交互序列的事件。当模式检测模块104a识别出了与任务完成率和时间相关的模式,当所述任务完成率低于特定阈值时,设置计算模块106产生设置109,其将系统提示变为信息更丰富的系统提示。在各种实施例中,当模式检测模块104a识别出了与暂停事件、用户响应时间或距离有效的规范话语的用户偏离度相关的模式时,设置计算模块106检查与当前对话步骤的关系,如果该对话步骤在同一步骤循环,则设置计算模块106产生设置109以将提示信息和交互序列变为更小的步骤,其带有有限的系统问题使得用户轻松地了解如何给出答案(例如,因为可能的回答空间是狭窄的)。
当模式检测模块104a识别到与导致确认周期的低系统置信度相关的模式时,设置计算模块106产生设置109以将提示信息变为信息更丰富的系统提示,以使得用户知道如何回答。当模式检测模块104a识别到与导致解疑周期的含糊用户话语相关的模式时,设置计算模块106产生设置109以将提示信息变为系统提示信息,其告诉用户如何在答案中包含足够的信息以使得其答案不含糊。在各种实施例中,当模式检测模块104a识别到与帮助请求相关的模式时,设置计算模块106产生设置109以将系统提示信息变为信息更丰富的提示。这种模式检测可以通过收集与系统的识别混淆相关的用户数据来完成,例如通过用户拒绝或修正确认或解疑请求来检测。在这种情况下,数据被存储在混淆矩阵中,其显示随着时间的循环混淆。
对于上述列出的所有被识别的模式,一旦模式检测模块104a-104n确定了用户的行为已经变得更加高效和/或易于识别,设置计算模块106产生设置109将语音系统提示信息和/或交互序列恢复为原始设置,假设用户已经获得了系统的使用经验。
重新参照图3,情境数据调节模块66从记录数据数据库42检索已记录的数据。在各种实施例中,已记录的数据包括车辆数据84,车辆情境数据86,和语音系统数据88。车辆数据84可以包括但不限于,车辆速度数据,或其他任何可从通信总线28上获得的数据。车辆情境数据86可以包括但不限于,当前驾驶位置和时间,道路类型,交通信息,天气,环境噪声水平,乘客数量,已连接的用户设备的数量,任何已启动的因特网或其他HMI应用程序,任何已启动的车辆系统(即气候控制,主动巡航控制,灯光,传动装置,风档刮水器等),或其他任何可从通信总线上获得或直接从车辆系统16-26获得的数据。语音系统数据88可以包括但不限于,用户发出的语音,语音运行性能,和/或由语音系统10识别的其他语音特性。
情境数据调节模块66分析所记录的数据并在其中用户正在使用系统的情境与在使用语音系统10时用户的交互行为之间检测重复的模式。情境数据调节模块66基于所述模式为用户任务偏好90、自然语言命令偏好92,和/或交互序列偏好94提供更新。在各种实施例中,所建议的调节作为用户配置文件56(图2)的一部分被提供。
例如,交通数据提供了关于驾驶员正在行驶的路径上的交通堵塞的信息。此外来自CAN总线的速度数据支持驾驶员正处于交通堵塞中,并且安全系统(座椅安全带设置)显示他是独自在车中。通过评估已记录的数据,模式检测模块110a检测出用户此时打了很多电话或口述邮件,SMS,或更新了他的日历。用户配置文件56(图2)被更新以识别这样的时刻并在这些情况下为这些类型的请求提供识别优势和并以更高的精确度执行。
在另一个例子中,驾驶员周末与其他人一起驾驶。最初的导航请求提出了一条距离兴趣点(POI)较远的路径,这是游客经常访问的路径。此外,驾驶员连接了他的iPOD并请求听特定的歌。通过评估已记录的数据,模式检测模块110a检测出在这样的情况下用户请求了POI和前往POI路上的语音导览,并且要求听iPOD中某些他喜欢的歌或POI的语音导览。用户配置文件56(图2)被更新以识别这样的时刻并在这些情况下为这些类型的请求提供识别优势和以更高的精确度执行。
在各种示例性实施例中,如图6所示,情境数据调节模块66可以包括一个或多个模式检测模块110a-110n,一个或多个设置计算模块112,和一个或多个用户配置文件调节模块114。模式检测模块110a-110n分析特定模式115a-115n的数据。模式检测模块110a-110n,例如,检测与用户请求或请求类型相关的情境簇(contextual cluster)。设置计算模块112基于所检测的模式115a-115n确定用户配置文件设置117。用户配置文件调节模块114基于设置117提供用户配置文件56(图2)中用到的用户任务偏好90,自然语言命令偏好92,和/或交互序列偏好94。
在各种实施例中,模式检测模块110a-110n通过确定用户行为中的增长和通过确定用户行为增长中的情境模式来确定模式。用户行为可以有各种类型并与执行特定任务类型、使用特定的词汇/语言,发生重复错误或在其话语中偏好的特定信息分布(例如,在不止一个的话语中提供递增的信息对在一个话语中给出完成任务所需的所有信息,等等)的频率相关。一旦检测出模式115a-115n,设置计算模块112和用户配置文件调节模块114根据在情境中识别出的用户行为提供设置117和用户配置文件56(图2),例如,根据任务偏好、词汇偏好、提示信息偏好、和/或交互序列。
重新参照图3,系统模型调节模块68从记录数据数据库42中检索已记录的数据。在各种实施例中,已记录的数据包括用户说出的口头命令96。在各种实施例中,命令96可以从记录数据数据库42(如图所示)中检索得到,或可选地从HMI模块14(图1)随着用户说出命令而实时接收。系统模型调节模块68对命令96进行评估并确定用于识别该命令的最优模型。例如,系统模型调节模块68根据至少三个语音模型对命令进行评估并使得语音话语的命令与三个模型中的一个相关联。系统模型调节模块68追踪命令96与特定模型相关联的频率。一旦命令96以一定的频率与特定的模型相关联,则该模型98被选中使用命令99进行更新,通过将命令99添加至模型或从模型中去除命令99。附加地或可选地,与命令99的观察频数相匹配或与命令99内的词、短语或词到词的转变的观察频数相匹配的权重或概率可能与命令99相关联,所述模型可以使用该权重或概率进行更新。
每个所用的模型都可以在下列方面中提供优势:所支持的短语的数量、短语的深度、处理的等待时间、识别的精确度和处理时间。所选的模型组合可以在上述列出的至少两者中提供优势。例如,在各种实施例中,第一语言模型是固定模型,其包括了可识别命令的固定列表,被称为固定列表模型116(图10)。固定列表模型116具有改善的等待时间、提高的精确度和改善的处理时间的优点,且其可以被认为是较佳的模型。这样的模型可以包括但不限于有限状态语法(FSG)。第二语言模型具有更大范围的短语识别,被称为更宽范围模型118(图7)。更宽范围模型118识别出更宽范围的命令,然而等待时间更长且精确度下降。这样的模型可以包括但不限于统计语言模型(SLM)。第三语言模型是两种模型之间的组合,其可以对两种语言模型的结果进行仲裁,被称为仲裁模型120(图10)。这样的模型可以包括但不限于,结构方程模型(SEM)。应当理解,由系统模型调节模块68所执行的模型可以是任何语言模型,而不限于当前的例子。
应当理解,所述数据分析模块38可以包括调节模块或上述调节模块的任意组合。在其中设置了多个调节模块的情况下,一调节模块的输出可以依赖于其他的调节模块与/或可以通过系统更新模块40(图2)以某种方式进行组合。通过以这种方式对命令进行追踪,并使命令从次优选模型转移至更优选的模型,可以在不牺牲系统灵活性的情况下利用更优选模型。因此,对命令的识别将随着时间而有所改进,明显地减少重复请求或确认周期。
现在参照图7-10,并继续参照图1-6,序列图示出了调节方法,其可以由根据各种示例性实施例的语音系统10所执行。应当理解,在本公开的启示下,所述方法中操作的顺序并不限于图7-10中的顺序执行,而是可以根据应用和本公开按照一种或多种不同的顺序执行。应当进一步理解,可以添加或去除本发明中的一个或多个步骤,而不改变本发明的精神。
参照图7,序列图示出了一个示例性的序列,其可以被执行以根据用户特征对语音系统10进行调节。如图所示,在步骤200,从例如HMI模块14(或通信总线28)接收命令、任意的情境信息和其运行性能,并在步骤202由数据记录模块36进行记录。所记录的数据在步骤210从记录数据数据库42中检索出并在步骤220通过一个或多个特征检测模块100a-100n进行评估。然后在步骤230,语言模型选择和合并模块102对识别出的特征105a-105n进行评估以确定该特征的发生是否具有特定的频率(例如,X次数,其中X是大于1的可配置数量)和置信度。如果特征的发生具有特定的频率,则在步骤240,与特征相关的语言模型74被选中并提供给系统更新模块40用于更新。在步骤250,系统更新模块40接收语言模型74,并在步骤260,使用语言模型74(例如,通过组合两个模型,或以其他方式)对当前的语言模型进行更新。
参照图8,序列图示出了一个示例性序列,其可以被执行以基于用户权限来调节语音系统10。如图所示,在步骤310,从例如HMI模块14接收命令和运行性能数据,并且在步骤312由数据记录模块36记录该命令和运行性能数据。所记录的数据在步骤320从记录数据数据库42中检索得到。在步骤330,模式检测模块104a-104n对记录的数据进行评估并编译与用户权限相关的重复模式107a-107n。在步骤340,模式107a-107n被发送至设置计算模块106。在步骤350,基于行为107a-107n,设置计算模块106为整个交互策略(例如,提示信息的通用冗长等级)和/或特定的对话情境(例如,特定情境中的确认)计算推荐的系统交互设置109。在步骤360,用户系统交互设置109被发送至用户配置文件调节模块108。在步骤370,用户配置文件调节模块108调节用户配置文件的设置。步骤380,用户配置文件被发送至系统更新模块40。在步骤390,系统更新模块40使用更新后的用户配置文件更新系统设置。
参照图9,序列图示出了一个示例性的序列,其可以被执行以基于情境数据对语音系统10进行调节。如图所示,在步骤410,接收车辆数据84、情境数据86、和语音系统数据88,并在步骤412通过数据记录模块36来记录这些数据。在步骤420,从记录数据数据库42中检索记录的数据。在步骤430,模式检测模块110a-110n对记录的数据进行评估并编译与下述相关的重复模式115a-115n:来自其他HMI模块14(例如,导航系统、簇堆、因特网信息)或车辆的记录系统(CAN总线)的数据,情境数据,例如当前行驶位置和时间、道路类型、交通、天气、行驶速度、环境噪声水平、乘客数量、已连接的用户设备、已启动的因特网或其他HMI应用程序、已启动的车辆系统,例如气候控制、主动巡航控制,灯光,传动装置,风档刮水器等。
在步骤440,模式115a-115n被发送至设置计算模块112。在步骤450,基于模式115a-115n,设置计算模块112为整个交互策略(例如,提示信息的通用冗长等级)和/或特定的对话情境(例如,特定情境中的确认)确定推荐的系统交互设置117。在步骤460,用户系统交互设置被发送至用户配置文件调节模块114。在步骤470,用户配置文件调节模块114调节用户配置文件的设置。在步骤480,用户配置文件被发送至系统更新模块40。在步骤490,系统更新模块40使用更新的用户配置文件更新系统设置。
参照图10,序列图示出了示例性的序列,其可以被执行以基于已更新的系统模型更新语音系统10。如图所示,在步骤510,从例如HMI模块14接收命令,并在步骤512,通过记录加载模块36记录该命令。在步骤520,从记录数据数据库42中检索所述命令。可选的,在步骤530从HMI模块14直接接收命令96。系统模型调节模块68对命令96进行处理以确定命令的最优语言模型。例如,在步骤540,通过固定列表模型116对命令96进行处理并在步骤550将其发送至仲裁模型120。同时或随后不久,在步骤555从记录数据数据库42中检索命令96并在步骤560由更宽范围模型118对命令进行处理。可选的,在步骤557直接从HMI模块14接收命令96,并在步骤560使用更宽范围模型118对命令96进行处理。
在步骤570,更宽范围模型118的结果被发送至仲裁模型120。在步骤580,通过仲裁模型120对固定列表模型116和更宽范围模型118的结果进行处理。在步骤590,对仲裁模型的结果进行评估,以确定该结果是否以特定的频率(例如,X次数,其中X是大于1的可配置数量)发生。在步骤600,如果仲裁模型的结果是以特定的频率发生的,则将该结果和模型提供给系统更新模块40以进行更新。在步骤610,系统更新模块接收所述结果和模型并使用该结果对系统模型进行更新。
尽管在前述的详细描述中已经公开了至少一个示例性实施例,应当理解存在大量的变形。还应当理解这些示例性实施例只是例子,且不用于在任何方面限制本发明的范围、应用或配置。相反,前述的详细描述将为本领域技术人员提供实现该示例性实施例的便捷途径。应当理解可以在不脱离本发明范围的情况下对功能和元件的设置进行多种变形,如所附的权利要求及其法律等同中所阐明。
Claims (10)
1.一种调节语音系统的方法,包括:
记录来自语音系统的语音数据;
从所述语音数据中检测用户特征;以及
基于所述用户特征选择性地更新语言模型。
2.如权利要求1所述的方法,其中所述语音数据包括用户在与语音系统交互时发出的口头命令以及该口头命令的运行性能。
3.如权利要求1所述的方法,其中更新语言模型包括基于所述用户特征产生新的语言模型。
4.如权利要求1所述的方法,其中更新语言模型包括将与所述用户特征相关的语言模型与至少一个其他语言模型进行组合。
5.如权利要求1所述的方法,其中检测用户特征包括当对自动系统说出命令时,检测特定于用户行为的用户特征。
6.如权利要求5所述的方法,其中选择性地更新语言模型包括将与检测到的用户特征相关的模型和与一般用户特征相关的模型进行组合。
7.如权利要求1所述的方法,其中检测用户特征包括使用一个或多个检测器检测用户特征,所述检测器将所述语音数据映射到一个或多个与至少一个用户特征相关的分类中。
8.如权利要求1所述的方法,其中检测用户特征包括从所述语音数据中检测冗长、信息分布和区域分布中的至少一个。
9.如权利要求1所述的方法,其中检测用户特征包括从所述语音数据中检测礼貌和礼节水平中的至少一个。
10.一种调节语音系统的系统,包括:
第一模块,其记录来自所述语音系统的语音数据;
第二模块,其从所述语音数据中检测用户特征;和
第三模块,其基于所述用户特征选择性地更新语言模型。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261725802P | 2012-11-13 | 2012-11-13 | |
US61/725802 | 2012-11-13 | ||
US14/059877 | 2013-10-22 | ||
US14/059,877 US9564125B2 (en) | 2012-11-13 | 2013-10-22 | Methods and systems for adapting a speech system based on user characteristics |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103810995A true CN103810995A (zh) | 2014-05-21 |
CN103810995B CN103810995B (zh) | 2018-02-23 |
Family
ID=50556052
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310757116.5A Active CN103810995B (zh) | 2012-11-13 | 2013-11-13 | 用于语音系统的调节方法和系统 |
CN201310756824.7A Active CN103928027B (zh) | 2012-11-13 | 2013-11-13 | 用于语音系统的自适应方法和系统 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310756824.7A Active CN103928027B (zh) | 2012-11-13 | 2013-11-13 | 用于语音系统的自适应方法和系统 |
Country Status (3)
Country | Link |
---|---|
US (2) | US9564125B2 (zh) |
CN (2) | CN103810995B (zh) |
DE (2) | DE102013222507B4 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105225660A (zh) * | 2014-06-30 | 2016-01-06 | 通用汽车环球科技运作有限责任公司 | 语音系统的适应方法和系统 |
CN108010518A (zh) * | 2017-12-13 | 2018-05-08 | 腾讯科技(深圳)有限公司 | 一种语音交互设备的语音采集方法、系统及存储介质 |
CN108810839A (zh) * | 2017-04-28 | 2018-11-13 | 通用汽车环球科技运作有限责任公司 | 用于处理无线电数据系统馈给的系统和方法 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140358538A1 (en) * | 2013-05-28 | 2014-12-04 | GM Global Technology Operations LLC | Methods and systems for shaping dialog of speech systems |
DE102014017384B4 (de) * | 2014-11-24 | 2018-10-25 | Audi Ag | Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung |
US20160379630A1 (en) * | 2015-06-25 | 2016-12-29 | Intel Corporation | Speech recognition services |
CN105138250A (zh) * | 2015-08-03 | 2015-12-09 | 科大讯飞股份有限公司 | 人机交互操作引导方法、系统、人机交互装置及服务端 |
US10120866B1 (en) * | 2017-04-28 | 2018-11-06 | Microsoft Technology Licensing, Llc | Conversational system user behavior identification |
JP7059524B2 (ja) * | 2017-06-14 | 2022-04-26 | ヤマハ株式会社 | 歌唱合成方法、歌唱合成システム、及びプログラム |
US10460748B2 (en) | 2017-10-04 | 2019-10-29 | The Toronto-Dominion Bank | Conversational interface determining lexical personality score for response generation with synonym replacement |
EP3484176A1 (en) * | 2017-11-10 | 2019-05-15 | Nxp B.V. | Vehicle audio presentation controller |
US10468017B2 (en) * | 2017-12-14 | 2019-11-05 | GM Global Technology Operations LLC | System and method for understanding standard language and dialects |
CN110600011B (zh) * | 2018-06-12 | 2022-04-01 | 中国移动通信有限公司研究院 | 一种语音识别方法、装置和计算机可读存储介质 |
JP6731451B2 (ja) * | 2018-07-20 | 2020-07-29 | 本田技研工業株式会社 | 車両管理システム、車両管理プログラム及び車両管理方法 |
US11238234B2 (en) | 2019-09-11 | 2022-02-01 | International Business Machines Corporation | Adjusting a verbosity of a conversation turn |
US11620990B2 (en) * | 2020-12-11 | 2023-04-04 | Google Llc | Adapting automated speech recognition parameters based on hotword properties |
US20230419971A1 (en) * | 2022-06-24 | 2023-12-28 | Cerence Operating Company | Dynamic voice assistant system for a vehicle |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1283843A (zh) * | 1999-08-10 | 2001-02-14 | 国际商业机器公司 | 会话数据开采 |
CN1448915A (zh) * | 2002-04-01 | 2003-10-15 | 欧姆龙株式会社 | 声音识别系统、装置、声音识别方法以及声音识别程序 |
US20050165602A1 (en) * | 2003-12-31 | 2005-07-28 | Dictaphone Corporation | System and method for accented modification of a language model |
US20070233487A1 (en) * | 2006-04-03 | 2007-10-04 | Cohen Michael H | Automatic language model update |
CN101075434A (zh) * | 2006-05-18 | 2007-11-21 | 富士通株式会社 | 语音识别装置及存储语音识别程序的记录介质 |
CN102280106A (zh) * | 2010-06-12 | 2011-12-14 | 三星电子株式会社 | 用于移动通信终端的语音网络搜索方法及其装置 |
CN103186607A (zh) * | 2011-12-30 | 2013-07-03 | 大连天维科技有限公司 | 分布式语音检索系统 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
US6188976B1 (en) * | 1998-10-23 | 2001-02-13 | International Business Machines Corporation | Apparatus and method for building domain-specific language models |
US7263489B2 (en) * | 1998-12-01 | 2007-08-28 | Nuance Communications, Inc. | Detection of characteristics of human-machine interactions for dialog customization and analysis |
GB9926134D0 (en) * | 1999-11-05 | 2000-01-12 | Ibm | Interactive voice response system |
US6560576B1 (en) * | 2000-04-25 | 2003-05-06 | Nuance Communications | Method and apparatus for providing active help to a user of a voice-enabled application |
US6587824B1 (en) * | 2000-05-04 | 2003-07-01 | Visteon Global Technologies, Inc. | Selective speaker adaptation for an in-vehicle speech recognition system |
DE10050808C2 (de) | 2000-10-13 | 2002-12-19 | Voicecom Ag | Sprachgeführte Gerätesteuerung mit Benutzeroptimierung |
US7050976B1 (en) * | 2001-09-26 | 2006-05-23 | Sprint Spectrum L.P. | Method and system for use of navigation history in a voice command platform |
EP1320086A1 (en) * | 2001-12-13 | 2003-06-18 | Sony International (Europe) GmbH | Method for generating and/or adapting language models |
US6999931B2 (en) * | 2002-02-01 | 2006-02-14 | Intel Corporation | Spoken dialog system using a best-fit language model and best-fit grammar |
US7457745B2 (en) * | 2002-12-03 | 2008-11-25 | Hrl Laboratories, Llc | Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments |
US7742580B2 (en) * | 2004-02-05 | 2010-06-22 | Avaya, Inc. | Methods and apparatus for context and experience sensitive prompting in voice applications |
US7877257B2 (en) * | 2004-09-27 | 2011-01-25 | Robert Bosch Corporation | Method and system to parameterize dialog systems for the purpose of branding |
US20060206333A1 (en) * | 2005-03-08 | 2006-09-14 | Microsoft Corporation | Speaker-dependent dialog adaptation |
EP1761015B1 (en) | 2005-09-02 | 2017-11-08 | Swisscom AG | Self-adaptive user interface for dialogue systems |
US7590536B2 (en) * | 2005-10-07 | 2009-09-15 | Nuance Communications, Inc. | Voice language model adjustment based on user affinity |
US8131548B2 (en) * | 2006-03-06 | 2012-03-06 | Nuance Communications, Inc. | Dynamically adjusting speech grammar weights based on usage |
US20080004880A1 (en) * | 2006-06-15 | 2008-01-03 | Microsoft Corporation | Personalized speech services across a network |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US8831183B2 (en) | 2006-12-22 | 2014-09-09 | Genesys Telecommunications Laboratories, Inc | Method for selecting interactive voice response modes using human voice detection analysis |
US8571866B2 (en) * | 2009-10-23 | 2013-10-29 | At&T Intellectual Property I, L.P. | System and method for improving speech recognition accuracy using textual context |
US8532994B2 (en) * | 2010-08-27 | 2013-09-10 | Cisco Technology, Inc. | Speech recognition using a personal vocabulary and language model |
US20140039893A1 (en) * | 2012-07-31 | 2014-02-06 | Sri International | Personalized Voice-Driven User Interfaces for Remote Multi-User Services |
-
2013
- 2013-10-22 US US14/059,877 patent/US9564125B2/en active Active
- 2013-10-22 US US14/059,917 patent/US9558739B2/en active Active
- 2013-11-06 DE DE102013222507.5A patent/DE102013222507B4/de active Active
- 2013-11-06 DE DE102013222519.9A patent/DE102013222519A1/de not_active Ceased
- 2013-11-13 CN CN201310757116.5A patent/CN103810995B/zh active Active
- 2013-11-13 CN CN201310756824.7A patent/CN103928027B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1283843A (zh) * | 1999-08-10 | 2001-02-14 | 国际商业机器公司 | 会话数据开采 |
CN1448915A (zh) * | 2002-04-01 | 2003-10-15 | 欧姆龙株式会社 | 声音识别系统、装置、声音识别方法以及声音识别程序 |
US20050165602A1 (en) * | 2003-12-31 | 2005-07-28 | Dictaphone Corporation | System and method for accented modification of a language model |
US20070233487A1 (en) * | 2006-04-03 | 2007-10-04 | Cohen Michael H | Automatic language model update |
CN101075434A (zh) * | 2006-05-18 | 2007-11-21 | 富士通株式会社 | 语音识别装置及存储语音识别程序的记录介质 |
CN102280106A (zh) * | 2010-06-12 | 2011-12-14 | 三星电子株式会社 | 用于移动通信终端的语音网络搜索方法及其装置 |
CN103186607A (zh) * | 2011-12-30 | 2013-07-03 | 大连天维科技有限公司 | 分布式语音检索系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105225660A (zh) * | 2014-06-30 | 2016-01-06 | 通用汽车环球科技运作有限责任公司 | 语音系统的适应方法和系统 |
CN105225660B (zh) * | 2014-06-30 | 2019-07-05 | 通用汽车环球科技运作有限责任公司 | 语音系统的适应方法和系统 |
CN108810839A (zh) * | 2017-04-28 | 2018-11-13 | 通用汽车环球科技运作有限责任公司 | 用于处理无线电数据系统馈给的系统和方法 |
CN108010518A (zh) * | 2017-12-13 | 2018-05-08 | 腾讯科技(深圳)有限公司 | 一种语音交互设备的语音采集方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
DE102013222507A1 (de) | 2014-05-15 |
US9558739B2 (en) | 2017-01-31 |
CN103928027B (zh) | 2018-01-26 |
DE102013222507B4 (de) | 2023-03-16 |
US20140136202A1 (en) | 2014-05-15 |
DE102013222519A1 (de) | 2014-05-15 |
US20140136201A1 (en) | 2014-05-15 |
CN103810995B (zh) | 2018-02-23 |
CN103928027A (zh) | 2014-07-16 |
US9564125B2 (en) | 2017-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103810995A (zh) | 用于语音系统的调节方法和系统 | |
CN103811002A (zh) | 用于语音系统的调节方法和系统 | |
CN103810005A (zh) | 用于语音系统的调节方法和系统 | |
KR102338990B1 (ko) | 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법 | |
US10269348B2 (en) | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system | |
KR102414456B1 (ko) | 대화 시스템, 이를 포함하는 차량 및 유고 정보 처리 방법 | |
US8527271B2 (en) | Method for speech recognition | |
JP6585154B2 (ja) | 単一音響モデルと自動アクセント検出を用いたテキスト規則ベースの複数アクセントの音声認識 | |
CN110648661A (zh) | 对话系统、车辆和用于控制车辆的方法 | |
CN104123936A (zh) | 对话系统自动训练方法、对话系统及用于车辆的控制装置 | |
US10997974B2 (en) | Dialogue system, and dialogue processing method | |
US8374868B2 (en) | Method of recognizing speech | |
JP6475426B2 (ja) | 意図推定装置、及び、モデルの学習方法 | |
US10861460B2 (en) | Dialogue system, vehicle having the same and dialogue processing method | |
US11333518B2 (en) | Vehicle virtual assistant systems and methods for storing and utilizing data associated with vehicle stops | |
KR102487669B1 (ko) | 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법 | |
US20220198151A1 (en) | Dialogue system, a vehicle having the same, and a method of controlling a dialogue system | |
JP7310556B2 (ja) | 情報処理システム | |
US20210303263A1 (en) | Dialogue system and vehicle having the same, and method of controlling dialogue system | |
US20220165264A1 (en) | Dialogue system, vehicle, and method of controlling dialogue system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |