CN103811002A - 用于语音系统的调节方法和系统 - Google Patents
用于语音系统的调节方法和系统 Download PDFInfo
- Publication number
- CN103811002A CN103811002A CN201310756239.7A CN201310756239A CN103811002A CN 103811002 A CN103811002 A CN 103811002A CN 201310756239 A CN201310756239 A CN 201310756239A CN 103811002 A CN103811002 A CN 103811002A
- Authority
- CN
- China
- Prior art keywords
- model
- models
- result
- module
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000006978 adaptation Effects 0.000 title 1
- 230000001755 vocal effect Effects 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 abstract description 5
- 238000001514 detection method Methods 0.000 description 39
- 230000003993 interaction Effects 0.000 description 23
- 238000007405 data analysis Methods 0.000 description 9
- 230000006399 behavior Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012790 confirmation Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000001105 regulatory effect Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000000700 radioactive tracer Substances 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000007474 system interaction Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供调节语音系统的方法和系统。在一个例子中,一种方法包括:利用具有一种或多种模型类型的一个或多个模型处理口头命令以获得模型结果;评估模型结果的频率;并基于该评估选择性地更新具有一种或多种模型类型的一个或多个模型。
Description
相关申请的交叉引用
本申请要求2012年11月13日提交的美国临时申请No.61/725802的权利,其全部内容在此被参考引入。
技术领域
技术领域总体涉及语音系统,并且更具体涉及基于由用户交互和/或例如车辆的一个或多个系统确定的数据调节语音系统的组件的方法和系统。
背景技术
车辆语音系统对车辆的乘客发出的语音执行语音识别。发出的语音典型地包括控制车辆或其它可被车辆访问的系统的一个或多个特征的命令。语音系统利用通用的识别技术使得车辆上任何乘客发出的语音都能够被识别。语音对话系统基于这些命令管理与车辆的用户之间的对话。该对话典型地对所有用户通用。
因此,需要提供一种系统和方法,根据车辆的乘客和/或车辆的情境环境和/或乘客对车辆语音系统进行调节。进一步,从随后的详细描述和所附的权利要求,并结合相应的附图和前述的技术领域和背景技术,本发明的其它所需特征和特性将变得清楚。
发明内容
提供了用于调节语音系统的方法和系统。在一个例子中,—种方法包括:利用具有一种或多种模型类型的一个或多个模型处理口头命令以获得模型结果;评估模型结果的频率;以及基于该评估选择性地更新具有一种或多种模型类型的一个或多个模型。
在另一个例子中,第一模块,其利用具有一种或多种模型类型的一个或多个模型处理口头命令以获得模型结果。第二模块,其评估模型结果的频率。第三模块,其基于该评估选择性地更新具有一种或多种模型类型的一个或多个模型。
进一步的,本发明包括下列技术方案。
1.一种调节语音系统的方法,包括:
利用具有一种或多种模型类型的一个或多个模型处理口头命令以获得模型结果;
评估模型结果的频率;以及
基于该评估选择性地更新具有—种或多种模型类型的一个或多个模型。
2.如方案1所述的方法,其中处理口头命令包括:
使用具有第一模型类型的第一语音模型处理口头命令以获得第一结果;
使用具有第二模型类型的第二语音模型处理口头命令以获得第二结果;
使用具有第三模型类型的第三语音模型处理第一结果和第二结果以获得第三结果。
3.如方案2所述的方法,进一步包括:
基于第三结果选择第一语音模型和第一结果、以及第二语音模型和第二结果中的至少一个;以及
基于所述选择更新系统模型。
4.如方案3所述的方法,进一步包括确定第三结果的频率;并且其中选择第一语音模型和第一结果、以及第二语音模型和第二结果中的至少一个是基于所述频率的。
5.如方案1所述的方法,其中处理口头命令包括使用具有至少三种不同模型类型的至少三个语音模型对口头命令进行处理。
6.如方案5所述的方法,其中第一语音模型是识别固定命令列表的固定语言模型类型。
7.如方案5所述的方法,其中第二语音模型是识别短语的大范围模型类型。
8.如方案5所述的方法,其中第三语音模型是仲裁模型类型,其对来自其它模型的结果进行仲裁。
9.如方案5所述的方法,其中第一模型是有限状态语法模型类型,第二模型是统计语言模型类型,且第三模型是结构方程模型类型。
10.如方案1所述的方法,其中选择性地更新一个或多个模型包括基于所述评估选择性地更新一个或多个模型以包括或排除所述口头命令。
11.如方案1所述的方法,其中选择性地更新一个或多个模型包括基于所述评估选择性地更新模型内的权重或概率中的至少一个。
12.一种调节语音系统的系统,包括:
第一模块,利用具有一种或多种模型类型的一个或多个模型处理口头命令以获得模型结果;
第二模块,评估模型结果的频率;和
第三模块,基于该评估选择性地更新具有一种或多种模型类型的一个或多个模型。
13.如方案12所述的系统,其中第一模块使用具有第一模型类型的第一语音模型处理口头命令以获得第一结果,使用具有第二模型类型的第二语音模型处理口头命令以获得第二结果,以及使用具有第三模型类型的第三语音模型处理第一结果和第二结果以获得第三结果。
14.如方案12所述的系统,其中第二模块基于第三结果选择第一语音模型和第一结果、以及第二语音模型和第二结果中的至少一个,并且其中第三模块基于所述选择更新系统模型。
15.如方案14所述的方法,其中第二模块确定第三结果的频率,并且基于所述频率选择第一语音模型和第一结果、以及第二语音模型和第二结果中的至少一个。
16.如方案12所述的系统,其中第一模块通过使用具有至少三个不同语音模型的至少三个语音模型对口头命令进行处理而对口头命令进行处理。
17.如方案16所述的系统,其中第一语音模型是识别固定命令列表的固定语言模型类型。
18.如方案16所述的系统,其中第二语音模型是识别短语的大范围模型类型。
19.如方案16所述的系统,其中第三语音模型是仲裁模型类型,其对来自其它模型的结果进行仲裁。
20.如方案12所述的系统,其中第三模块基于所述评估选择性地更新一个或多个模型以包括或排除所述口头命令。
21.如方案12所述的系统,其中第三模块基于所述评估选择性地更新一个或多个模型的权重或概率中的至少一个。
附图说明
接下来将结合附图描述示例性实施例,附图中相同的数字代表了相同的元件,且其中:
图1为车辆的功能性框图,其包括根据各种示例性实施例的语音系统;
图2至6为数据流图,其示出了根据各种示例性实施例的语音系统的调节模块;和
图7至10为序列图,示出了根据各种示例性实施例的可以被语音系统所执行的调节方法。
具体实施方式
接下来的详细描述本质上仅仅是示例性的,并不用于限制其应用和使用。进一步,不应受限于前述技术领域、背景技术、发明内容或者下面的详细描述中所给出的任何明示或暗示的原理。如在此所用,术语模块指的是执行一个或多个软件或固件程序的专用集成电路(ASIC)、电子电路、处理器(共有、专用或成组的)和存储器,组合逻辑电路,和/或其它提供所述功能的适用组件。
首先参照图1,根据本公开的示例性实施例,示出了一个位于车辆12内的语音系统10。语音系统10通过人机接口模块(HMI)14为一个或多个车辆系统提供语音识别和对话。这种车辆系统可以包括,例如但不限于,电话系统16、导航系统18、媒体系统20,信息通讯系统22,网络系统24,或任何其它可以包括基于语音的应用程序的车辆系统。应当认识到,语音系统10的一个或多个实施例可以应用于其它带有基于语音的应用程序的非车辆系统,因此,并不限于现有的车辆例子。为了举例,语音系统10将在车辆例子的上下文中进行介绍。
语音系统10通过HMI模块14和通信总线和/或其它通信装置28(例如,有线、短程无线或远程无线)与多个车辆系统16-24和/或其它车辆系统26进行通信。所述通信总线可以是,例如但不限于,CAN总线。
一般来说,语音系统10包括调节模块30,和自动语音识别(ASR)模块32,和对话管理模块34。应当理解,ASR模块32和对话管理模块34可以被设置成单独的系统和/或如所示的组合系统。进一步能够理解,语音系统10的模块可以全部设置在车辆12上,或者部分在车辆12上、部分在远程系统,例如远程服务器(未示出)上。
ASR模块32接收和处理来自HMI模块14的语音。从语音中识别出的一些命令(例如,基于置信阈值)被发送给对话管理模块34。对话管理模块34基于所述命令管理交互序列和提示。调节模块30记录由车辆乘客(例如,通过HMI模块14)产生的各种语音数据和交互数据,记录来自各种车辆系统16-24的数据,和/或记录来自各种其它车辆系统26(例如,不包括语音应用程序的车辆系统)的数据。调节模块30对记录的数据执行一种或多种学习算法,并基于该学习算法调节语音系统10的一个或多个组件。在各种实施例中,调节模块30调节语音系统10的ASR模块32所使用的语言模型。在各种其它实施例中,调节模块30调节语音系统10的对话管理模块34所使用的提示和交互序列。
如图所示,调节模块30被包括在语音系统10中。应当理解,在替代性实施例中,调节模块30可以被设置为,例如,在HMI模块14中或作为与语音系统10通信的孤立的应用程序。因此,本公开并不限于现有的例子。
现在参照图2,数据流图示出了根据各种实施例的调节模块30。应当理解,根据本公开,调节模块30的各种实施例可以包括任意数量的子模块。例如,图2中所示的子模块可以被组合和/或进一步分割成语音系统10(图1)中类似的调节部分。
在各种示例性实施例中,调节模块30包括数据记录模块36,数据分析模块38,系统更新模块40,记录数据数据库42,和系统数据数据库44。数据库42、44可以临时或永久地存储系统10的数据。
数据记录模块36将来自车辆12的各种源(例如,车辆系统16-24和/或其它车辆系统26)的数据记录至记录数据数据库42中。数据可以包括,例如但不限于,车辆数据46,车辆情境数据48,语音系统数据50,和用户交互数据52。车辆数据46可以包括,例如,速度数据,周围噪声水平数据,乘客数据(例如,在车辆12中检测出的乘客的数量),车辆系统数据(例如,启动的车辆系统的数量)等。车辆情境数据48可以包括,例如,车辆位置数据,道路类型数据,天气数据,交通数据等。语音系统数据50可以包括,例如,口头命令数据(例如,与车辆12的乘客口头发出的命令有关的数据),和性能数据(例如,与口头命令的识别性能有关的数据)。用户交互数据52可以包括,例如,交互序列数据,用户请求的频率数据,和来自其它HMI形式的数据,例如触摸屏手势交互数据或显示数据。
数据分析模块38从记录数据数据库42中获取记录数据并对记录数据进行分析以确定是否调节语音系统10所用的一个或多个语言模型,是否调节语音系统10给出的提示,和/或是否调节语音系统10提供的交互序列或对话。如果确定应该对语言模型、提示、和交互序列中的一个或多个进行调节,将生成建议的更新作为更新后的语言模型54、或作为更新后的用户配置文件56,其包括了更新后的提示和/或更新后的交互序列。
系统更新模块40接收更新后语言模型54和更新后的用户配置文件56作为输入。系统更新模块40基于所接收的输入存储或更新来自系统数据数据库44的语言模型,提示,和/或交互序列。例如,如果接收到了更新后的语言模型54,则更新后的语言模型54可以与原始模型进行组合以形成更加健全的语言模型,例如,对于较短历史分布(一元文法)使用较小的语言模型(即更新后的语言模型54),而对于调整后的较高历史分布(三元文法)使用更详细的语言模型(即保存的语言模型)。在另一个例子中,包括提示和/或交互序列的用户配置文件56可以被存储用于特定用户。
现在参照图3-6,数据流图示出了图2中根据各种实施例的数据分析模块38。应当理解,根据现有的公开,数据分析模块38的各种实施例可以包括任意数量的子模块。例如,图3-6中所示的子模块可以被组合和/或进一步划分以类似地分析记录的数据并调节语音系统10的部分。数据分析模块38的输入可以从记录数据数据库42中获取和/或直接从HMI模块14和/或一个或多个车辆系统16-26接收得到的。在各种实施例中,数据分析模块38包括用户特征调节模块62、用户能力调节模块64、情境数据调节模块66、和/或系统模型调节模块68。应当理解,数据分析模块38可只包括所示模块中的一个,或可包括所示模块的任意组合,且其不限于现有的例子。
用户特征调节模块62从记录数据数据库42中获取记录的数据。在各种实施例中,记录的数据包括用户发出的口头命令70,和口头命令70的特性72。用户特征调节模块62分析命令70的各种特征。特征可以包括,例如但不限于,冗长性、相关讲话、信息分布、用户人口统计、交流的音调(例如,礼貌用语),年龄和性别。在各种实施例中,用户特征调节模块62追踪命令70与特定特征相关联的频率。一旦命令70以一定的频率与特定特征相关联,用户特征调节模块62基于命令70的特征确定语言模型74或通过基于特征组合若干语言模型(带或不带权重)以生成新的语言模型74。
在各种实施例中,如图4所示,用户特征调节模块62包括一个或多个特征检测模块100a-100n和语言模型选择和合并模块102。每个特征检测模块100对命令70进行分析以得到一个或多个特征105a-105n。在各种示例性实施例中,特征检测模块100a-100n基于特定命令70是否与特定的特征相关联和/或是否落入特定特征的特定范围而输出一个或多个特征105a-105n。语言模型选择和合并模块102基于所检测的特征105a-105n确定语言模型74。在各种实施例中,语言模型选择和合并模块102由预存储的模型或模型的加权组合确定合适的语言模型74。
在各种实施例中,特征检测模块100a-100n可以是冗长性检测模块,礼貌性检测模块,信息分布检测模块,区域分布检测模块,正式等级检测模块,年龄检测模块,方言检测模块,和/或性别检测模块。冗长性检测模块,例如,分析命令70并估计语音中修饰词和非功能性词的比例,并将其与已知的冗长性分布进行比较。礼貌性检测模块,例如,分析命令70并提取所有的礼貌等级指示词。然后使用不同指示词之间的加权和和相互关系以检测礼貌等级。信息分布检测模块,例如,分析命令70以检测所需信息片断的位置和数量(也称为槽信息)。基于该信息,信息分布检测模块可以检测出用户趋于将该信息作为单独的语音说出和用户一段接一段的说。
区域分布检测模块,例如,分析命令70并基于与用户历史行为的比较来检测区域。正式等级检测模块,例如,分析命令70并提取出词汇。每个正式等级的词汇是进行检测的空间基础。可以通过使用归一化的距离量度来确定等级。年龄检测模块,例如,分析命令的语音并使用高斯混合模型(GMM)以将语音与各年龄或年龄组的参考模型进行比较。
方言检测模块例如分析命令70并提取声学特征。使用例如锚模型技术,产生标记并测量距离。性别检测模块例如分析命令70,提取声学特征并估计各性别的GMM分布。通过将GMM变换成超级向量(SV),估计距离并进行决策。应当理解,各检测模块100a-100n也可以执行其它方法和技术。因此,本公开并不限于现有的例子。
重新参照图3,用户能力调节模块64从记录数据数据库42中获取记录的数据。在各种实施例中,记录的数据包括用户发出的口头命令76和口头命令76的特性78。用户能力调节模块64基于命令76的特性78分析命令76。在各种实施例中,特性78可以一般地包括任务完成结果和重复用户和/或系统的错误的参数和测量结果。例如,参数和测量结果可以是关于,但不限于,任务完成率和时间,暂停事件,响应时间,确认和解疑周期,帮助请求和偏离有效和成功的交互序列的所有事件。
用户能力调节模块64分析命令76以识别模式。用户能力调节模块64基于所识别的模式为提示80提供建议的调整和/或为交互序列82提供调整。建议的调整可以作为用户配置文件56的一部分被提供(图2)。例如,用户配置文件56中的提示80可以被更新,以在识别出用户或语音系统的重复错误后,包含更多的帮助和更窄的回答空间;并且在确定了用户或系统学习了最优交互行为后,用户配置文件56中的提示80可以被恢复成原始提示。在各种实施例中,用户配置文件56的交互序列82可以被调节以为识别的重复用户错误提供更多的系统主导,并且当确定用户已学习了交互模式后,可以调节交互序列82以允许更多的用户主导。这种基于用户能力提示对用户设置进行的调节提高了用户能力,并建立了带有更高的任务完成率的交互模式。
例如,用户可能非常熟悉语音系统,通常频繁地使用以通过他的移动电话来启动应用程序。因此他惯用的方式是使用单独的语句来表达他的要求,而很少需要在后来的对话中增加信息。当用户能力调节模块64观察到了这一点并学习了这种模式后,它可以决定使用最少的提示以保持对话有效并使得任务完成时间短。
在另一个例子中,相同的用户可能更喜欢执行搜索请求,例如查找餐馆(例如,兴趣点(POI搜索))。基于他的移动电话经验,他可能形成了一种习惯,搜索大的搜索列表并在显示器上进行交互,彻底浏览选项并进行选择。在驾驶中的情况下显示将会显著的减少搜索内容,他可能会对如何通过语音进行选择感到困惑。当用户能力调节模块64观察到了这一点并学习了这种模式后,它可以决定逐步地并在特定对话环境中使用帮助性提示来引导该用户,使得随后用户理解如何通过选项进行搜索。
仍然在另一个例子中,另一个用户可能对语音不熟悉。他了解在驾驶时的优点并开始通过语音提出请求,以给他联系人列表中的某个联系人打电话或调谐无线电台。该用户发音非常慢且响亮,使得系统难以识别大部分请求。这导致用于错误的识别联系人或无线电台的确认周期。在这些错误恢复周期中,用户变得急躁并且回答变得含糊。用户能力调节模块64观察到了暂停事件,长响应时间或确认周期中冗长的用户语音,并通过添加潜在的答案、有益的提示或将提示变为精确的是/否答案来引导用户处理这种情况。
在各种示例性实施例中,如图5所示,用户能力调节模块64包括一个或多个模式检测模块104a-104n,一个或多个设置计算模块106,和一个或多个用户配置文件调节模块108。一个或多个模式检测模块104a-104n分析数据以识别特定的模式107a-107n。一个或多个设置计算模块106基于所检测的模式107a-107n确定设置109。一个或多个用户配置文件调节模块108基于设置109为用户配置文件56(图2)提供系统提示80和/或交互序列82。
模式检测模块104a-104n识别模式107a-107n,涉及例如,任务完成率和时间、暂停事件、用户响应时间、距离有效的调制语音的用户偏离度(例如,含糊、停顿、冗长性等),导致确认周期的低系统置信度,导致解疑周期的含糊的用户语音,帮助请求和所有偏离有效和成功的交互序列的事件。当模式检测模块104a识别出了与任务完成率和时间相关的模式,当该率低于某个阈值时,设置计算模块106产生设置109,其将系统提示变为更有信息的系统提示。在各种实施例中,当模式检测模块104a识别出了与暂停事件、用户响应时间或距离有效的调制语音的用户偏离度相关的模式时,设置计算模块106检查其与当前对话步骤的关系,如果对话步骤当前在同一步骤中,则设置计算模块106产生设置109以将提示和交互序列变为更小的步骤,其带有接近的系统问题使得用户轻松了解如何给出答案(例如,由于可能的回答空间是狭窄的)。
当模式检测模块104a识别到与导致确认周期的低系统置信度相关的模式时,设置计算模块106产生设置109以将提示变为更有信息的系统提示,以使得用户知道如何回答。当模式检测模块104a识别到与导致解疑周期的含糊用户语音相关的模式时,设置计算模块106产生设置109以将提示变为系统提示,其告诉用户如何在其答案中包含足够的信息以使得其答案不含糊。在各种实施例中,当模式检测模块104a识别到与帮助请求相关的模式时,设置计算模块106产生设置109以将系统提示变为更有信息的提示。这种模式检测可以通过收集与系统的识别混淆相关的用户数据来完成,该系统的识别混乱由例如用户拒绝或修正的确认或解疑请求来检测。在这种情况下,数据被存储在混淆矩阵中,其随着时间显示重复的混淆。
对于上述所有列出的识别模式,一旦模式检测模块104a-104n确定了用户的行为变得更加有效和/或易于识别,设置计算模块106产生设置109将语音系统提示和/或交互序列恢复为原始设置,假设用户已经获得了系统的使用经验。
重新参照图3,情境数据调节模块66从记录数据数据库42获取记录的数据。在各种实施例中,记录的数据包括车辆数据84,车辆情境数据86,和语音系统数据88。车辆数据84可以包括但不限于,车辆速度数据,或任何其它可从通信总线28上获得的数据。车辆情境数据86可以包括但不限于,当前驾驶位置和时间,道路类型,交通信息,天气,周围噪声水平,乘客数量,已连接用户设备的数量,任何启动的因特网或其它HMI应用程序,任何启动的车辆系统(即,气候控制,主动巡航控制,灯光,传动装置,风挡刮水器等),或任何其它可从通信总线上获得或直接从车辆系统16-26获得的数据。语音系统数据88可以包括但不限于,用户发出的语音,语音特性,和/或由语音系统10识别的其它语音特性。
当使用语音系统10时,情境数据调节模块66分析所记录的数据并且检测在用户正在使用系统的情境和用户交互行为之间的重复的模式。情境数据调节模块66基于模式为用户任务偏好90、自然语言命令偏好92、和/或交互序列偏好94提供更新。在各种实施例中,所建议的调整被作为用户配置文件56(图2)的一部分提供。
例如,交通数据提供了关于驾驶员正在行驶的路径上的交通堵塞的信息。此外,来自CAN总线的速度数据提示驾驶员正处于交通堵塞中,并且安全系统(座椅安全带设置)提示他是独自在车中。通过评估记录的数据,模式检测模块110a检测出用户在这时打了很多电话或发了邮件,SMS,或更新了他的日历。用户配置文件56(图2)被更新以识别这样的时刻并在这些情况下为这些类型的请求提供识别便利和以更高的精确度执行。
在另一个例子中,周末驾驶员与其他人一起驾驶。最初的导航请求建议了一条距离游客经常访问的兴趣点(POI)较远的路径。此外,驾驶员连接了他的iPod并请求听某些歌。通过评估记录的数据,模式检测模块110a检测到驾驶员请求POI以及在路上的POI的音频路线并且在这种情况下请求从iPod收听一些他喜欢的歌或POI的音频路线。用户配置文件56(图2)被更新以识别这样的时刻并在这些情况下为这些类型的请求提供识别便利和更高的精确度。
在各种示例性实施例中,如图6所示,情境数据调节模块66可以包括一个或多个模式检测模块110a-110n,一个或多个设置计算模块112,和一个或多个用户配置文件调节模块114。模式检测模块110a-110n分析特定模式115a-115n的数据。模式检测模块110a-110n,例如,检测与用户请求或请求类型相关的情境语群。设置计算模块112基于所检测的模式115a-115n确定用户配置文件设置117。用户配置文件调节模块114基于设置117提供用户配置文件56(图2)中所用到的用户任务偏好90、自然语言命令偏好92、和/或交互序列偏好94。
在各种实施例中,模式检测模块110a-110n通过确定用户行为中的增长并确定用户行为增长期间的情境模式来确定模式。用户行为可以为多种类型并且指执了特定任务类型、使用特定的词汇/语言,发生重复错误或在其语音中偏向特定的信息分布(例如,在多于一个的语音中提供递增的信息对在一个语音中给出完成任务所需的所有信息等)的频率。一旦检测出模式115a-115n,设置计算模块112和用户配置文件调节模块114根据所识别出的情境中的用户行为给出设置117和用户配置文件56(图2),例如,根据任务偏好、词汇偏好、提示偏好、和/或交互序列。
重新参照图3,系统模型调节模块68从记录数据数据库42中获取记录的数据。在各种实施例中,记录的数据包括用户发出的口头命令96。在各种实施例中,命令96可以从记录数据数据库42的记录数据(如图所示)中获取,或可选地从HMI模块14(图1)随着用户说出命令而实时接收。系统模型调节模块68对命令96进行评估并确定用于识别该命令的最优模型。例如,系统模型调节模块68根据至少三个语音模型对命令进行评估并使得语音命令与三个模型中的一个相关联。系统模型调节模块68追踪命令96与特定模型相关联的频率。一旦命令96以一定的频率与特定的模型相关联,则该模型98被选中使用命令99进行更新,通过将命令99添加至模型或从模型中去除命令99。附加地或可选地,权重或概率可与命令99相关联,权重或概率匹配命令99的观测概率或匹配词、短语或命令99中词对词的转换的观测概率,模型可使用该权重或概率进行更新。
每个所用的模型都可以提供下列好处中的至少一个:所支持的短语的数量、短语的深度、处理的等待时间、识别的精确度和处理时间。所选模型的组合可以提供上述优点中的至少两个。例如,在各种实施例中,第一语言模型是一个固定模型,其包括了可识别命令的固定列表,被称为固定列表模型116(图10)。固定列表模型116提供改善的等待时间、改善的精确度和改善的处理时间的优点,且其可以被认为是更优的模型。这样的模型可以包括但不限于有限态文法(FSG)。第二语言模型具有更大范围的识别短语,被称为大范围模型(widerscope model)118(图7)。大范围模型118可以识别出更大范围内的命令,然而等待时间更长且精确度下降。这样的模型可以包括但不限于统计语言模型(SLM)。第三语言模型是这两种模型之间的组合,其可以对两种语言模型的结果进行仲裁,被称为仲裁模型120(图10)。这样的模型可以包括但不限于,结构方程模型(SEM)。应当理解,由系统模型调节模块68所执行的模型可以是任何语言模型,而不限于现有的例子。
应当理解,数据分析模块38可以包括一个调节模块或上述调节模块的任意组合。在设置了多个调节模块的情况下,一个调节模块的输出可以依赖于其它的调节模块并且可以通过系统更新模块40(图2)以某种方式进行组合。通过以这种方式对命令进行追踪,并将命令从次优选模型转移至更优的模型,在不牺牲系统灵活性的情况下利用更优模型。因此,对命令的识别将随着时间有所改进,大量减少重复请求或确认周期。
现在参照图7-10,并继续参照图1-6,序列图示出了调节方法,其可以被根据各种示例性实施例的语音系统10所执行。应当理解,在本公开的启示下,方法中操作的顺序并不限于图7-10中的顺序执行,而是可以根据应用和现有的公开按照一种或多种不同的顺序执行。应当进一步理解,可以添加或去除本方法中的一个或多个步骤,而不改变本方法的精神。
参照图7,序列图示出了一个示例性的序列,其可以被执行以根据用户特征对语音系统10进行调节。如图所示,在200,从例如HMI模块14(或通信总线28)接收命令,任意的情境信息和其特征,并在202通过数据记录模块36进行记录。在210,记录的数据从记录数据数据库42中获取,并在220通过一个或多个特征检测模块100a-100n进行评估。然后在230,语言模型选择和合并模块102对识别出的特征105a-105n进行评估以确定该特征是否以特定的频率(例如,X次,其中X是大于1的可配置值)和置信度发生。如果特征已经以特定的频率发生,则与特征相关联的语言模型74被选中并提供给系统更新模块40用于在240更新。在250,系统更新模块40接收语言模型74并在260使用语言模型74(例如,通过组合两个模型,或以某个其它方式)对当前的语言模型进行更新。
参照图8,序列图示出了一个示例性序列,其可以被执行以基于用户能力调节语音系统10。如图所示,在310,例如,从HMI模块14接收命令和特征数据,并且在312由数据记录模块36进行记录。在320,从记录数据数据库42获取记录的数据。在330,模式检测模块104a-104n对记录的数据进行评估并编译与用户能力相关联的重复模式107a-107n。在340,模式107a-107n被发送至设置计算模块106。在350,基于模式107a-107n,设置计算模块106为整个交互策略(例如,提示的总体冗长性等级)和/或特定的对话情况(例如,特定情境中的确认)计算推荐的系统交互设置109。在360,用户系统交互设置109被发送至用户配置文件调节模块108。在370,用户配置文件调节模块108调节用户配置文件的设置。在380,用户配置文件被发送至系统更新模块40。在390,系统更新模块40使用调节后的用户配置文件更新系统设置。
参照图9,序列图示出了一个示例性的序列,其可以被执行以基于情境数据对语音系统10进行调节。如图所示,在410接收车辆数据84、情境数据86、和语音系统数据88,并在412由数据记录模块36进行记录。在420,从记录数据数据库42获取记录的数据。在430,模式检测模块110a-110n对记录的数据进行评估并编译与来自其它HMI模块14(例如,导航系统、语群堆栈、因特网信息)或车辆的记录系统(CAN总线),情境数据,例如当前行驶位置和时间、道路类型、交通、天气、行驶速度、周围噪声水平、乘客数量、已连接的用户设备、启动的因特网或其它HMI应用程序、启动的车辆系统,例如气候控制、主动巡航控制,灯光,传动装置,风挡刮水器等的数据相关联的重复模式115a-115n。
在440,模式115a-115n被发送至设置计算模块112。在450,基于模式115a-115n,设置计算模块112为整个交互策略(例如,提示的总体冗长性等级)和/或特定的对话情况(例如,特定情境中的确认)确定推荐的系统交互设置117。在460,用户系统交互设置被发送至用户配置文件调节模块114。在470,用户配置文件调节模块114调节用户配置文件的设置。在480,用户配置文件被发送至系统更新模块40。在490,系统更新模块40使用已调节的用户配置文件更新系统设置。
参照图10,序列图示出了示例性的序列,其可以被执行以基于已调节的系统模型调节语音系统10。如图所示,在510从例如HMI模块14接收命令,并在512由数据记录模块36进行记录。在520,从记录数据数据库42获取命令。可选地,命令96在530从HMI模块14直接接收。系统模型调节模块68对命令96进行处理以确定命令的最优语言模型。例如,在540,由固定列表模型116对命令96进行处理并在550将命令发送至仲裁模型120。同时或稍后,在555从记录数据数据库42获取命令96并在560由大范围模型118对命令96进行处理。可选地,命令96在557直接从HMI模块14接收,并在560由大范围模型118对命令96进行处理。
在570,大范围模型118的结果被发送至仲裁模型120。在580由仲裁模型120对固定列表模型116和大范围模型118的结果进行处理。在590对仲裁的结果进行评估,以确定结果是否以特定的频率(例如,X次,其中X是大于1的可配置值)发生。在600,如果仲裁的结果已经以特定的频率发生,则其结果和模型被提供给系统更新模块40用于更新。在610,系统更新模块接收结果和模型并使用结果对系统模型进行更新。
尽管在前述的详细描述中已经公开了至少一个示例性实施例,应当理解存在大量的变形。还应当理解这些示例性实施例只是例子,且不用于在任何方面限制本发明的范围、应用或配置。相反,前述的详细描述将为本领域技术人员提供实现该示例性实施例的便捷途径。应当理解可以在不脱离本发明范围的情况下对功能和元件的设置进行多种变形,如所附的权利要求及其法律等同中所阐明。
Claims (10)
1.一种调节语音系统的方法,包括:
利用具有一种或多种模型类型的一个或多个模型处理口头命令以获得模型结果;
评估模型结果的频率;以及
基于该评估选择性地更新具有一种或多种模型类型的一个或多个模型。
2.如权利要求1所述的方法,其中处理口头命令包括:
使用具有第一模型类型的第一语音模型处理口头命令以获得第一结果;
使用具有第二模型类型的第二语音模型处理口头命令以获得第二结果;
使用具有第三模型类型的第三语音模型处理第一结果和第二结果以获得第三结果。
3.如权利要求2所述的方法,进一步包括:
基于第三结果选择第一语音模型和第一结果、以及第二语音模型和第二结果中的至少一个;以及
基于所述选择更新系统模型。
4.如权利要求3所述的方法,进一步包括确定第三结果的频率;并且其中选择第一语音模型和第一结果、以及第二语音模型和第二结果中的至少一个是基于所述频率的。
5.如权利要求1所述的方法,其中处理口头命令包括使用具有至少三种不同模型类型的至少三个语音模型对口头命令进行处理。
6.如权利要求5所述的方法,其中第一语音模型是识别固定命令列表的固定语言模型类型。
7.如权利要求5所述的方法,其中第二语音模型是识别短语的大范围模型类型。
8.如权利要求5所述的方法,其中第三语音模型是仲裁模型类型,其对来自其它模型的结果进行仲裁。
9.如权利要求5所述的方法,其中第一模型是有限状态语法模型类型,第二模型是统计语言模型类型,且第三模型是结构方程模型类型。
10.一种调节语音系统的系统,包括:
第一模块,利用具有一种或多种模型类型的一个或多个模型处理口头命令以获得模型结果;
第二模块,评估模型结果的频率;和
第三模块,基于该评估选择性地更新具有一种或多种模型类型的一个或多个模型。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261725802P | 2012-11-13 | 2012-11-13 | |
US61/725,802 | 2012-11-13 | ||
US61/725802 | 2012-11-13 | ||
US14/059,813 US9601111B2 (en) | 2012-11-13 | 2013-10-22 | Methods and systems for adapting speech systems |
US14/059813 | 2013-10-22 | ||
US14/059,813 | 2013-10-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103811002A true CN103811002A (zh) | 2014-05-21 |
CN103811002B CN103811002B (zh) | 2017-07-18 |
Family
ID=50556088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310756239.7A Active CN103811002B (zh) | 2012-11-13 | 2013-11-13 | 用于语音系统的调节方法和系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9601111B2 (zh) |
CN (1) | CN103811002B (zh) |
DE (1) | DE102013223036B4 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105225660A (zh) * | 2014-06-30 | 2016-01-06 | 通用汽车环球科技运作有限责任公司 | 语音系统的适应方法和系统 |
CN106131098A (zh) * | 2015-05-04 | 2016-11-16 | 通用汽车环球科技运作有限责任公司 | 用于车辆中应用程序开发的车辆数据执行和情境干预模块 |
CN106257583A (zh) * | 2015-06-17 | 2016-12-28 | 大众汽车有限公司 | 语音识别系统以及用于运行语音识别系统的方法 |
CN106971734A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种可根据模型的提取频率训练识别模型的方法及系统 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9779722B2 (en) * | 2013-11-05 | 2017-10-03 | GM Global Technology Operations LLC | System for adapting speech recognition vocabulary |
KR102261552B1 (ko) | 2014-06-30 | 2021-06-07 | 삼성전자주식회사 | 음성 명령어 제공 방법 및 이를 지원하는 전자 장치 |
US9792907B2 (en) * | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US9972313B2 (en) | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
US10043521B2 (en) | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
US10468019B1 (en) * | 2017-10-27 | 2019-11-05 | Kadho, Inc. | System and method for automatic speech recognition using selection of speech models based on input characteristics |
US10691894B2 (en) * | 2018-05-01 | 2020-06-23 | Disney Enterprises, Inc. | Natural polite language generation system |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
EP3598377A1 (en) * | 2018-07-20 | 2020-01-22 | KBC Groep NV | Improved claim handling |
JP6731451B2 (ja) * | 2018-07-20 | 2020-07-29 | 本田技研工業株式会社 | 車両管理システム、車両管理プログラム及び車両管理方法 |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
DE102018133149A1 (de) * | 2018-12-20 | 2020-06-25 | Bayerische Motoren Werke Aktiengesellschaft | Multimodale Mehrstufeninteraktion |
CN109949797B (zh) * | 2019-03-11 | 2021-11-12 | 北京百度网讯科技有限公司 | 一种训练语料的生成方法、装置、设备及存储介质 |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5832063A (en) * | 1996-02-29 | 1998-11-03 | Nynex Science & Technology, Inc. | Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases |
CN1283843A (zh) * | 1999-08-10 | 2001-02-14 | 国际商业机器公司 | 会话数据开采 |
US20030236664A1 (en) * | 2002-06-24 | 2003-12-25 | Intel Corporation | Multi-pass recognition of spoken dialogue |
WO2006003542A1 (en) * | 2004-06-29 | 2006-01-12 | Philips Intellectual Property & Standards Gmbh | Interactive dialogue system |
CN1783213A (zh) * | 2004-12-01 | 2006-06-07 | 国际商业机器公司 | 用于自动语音识别的方法和装置 |
US20070038436A1 (en) * | 2005-08-10 | 2007-02-15 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
CN1941079A (zh) * | 2005-09-27 | 2007-04-04 | 通用汽车公司 | 语音识别方法和系统 |
US20070233487A1 (en) * | 2006-04-03 | 2007-10-04 | Cohen Michael H | Automatic language model update |
US20100235167A1 (en) * | 2009-03-13 | 2010-09-16 | Francois Bourdon | Speech recognition learning system and method |
CN102037481A (zh) * | 2008-03-19 | 2011-04-27 | 苹果核网络股份有限公司 | 用于检测行为模式的方法及设备 |
CN102097096A (zh) * | 2009-12-10 | 2011-06-15 | 通用汽车有限责任公司 | 在语音识别后处理过程中使用音调来改进识别精度 |
KR20110066357A (ko) * | 2009-12-11 | 2011-06-17 | 삼성전자주식회사 | 대화 시스템 및 그의 대화 방법 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19708183A1 (de) * | 1997-02-28 | 1998-09-03 | Philips Patentverwaltung | Verfahren zur Spracherkennung mit Sprachmodellanpassung |
US7263489B2 (en) * | 1998-12-01 | 2007-08-28 | Nuance Communications, Inc. | Detection of characteristics of human-machine interactions for dialog customization and analysis |
US6766295B1 (en) * | 1999-05-10 | 2004-07-20 | Nuance Communications | Adaptation of a speech recognition system across multiple remote sessions with a speaker |
US6484136B1 (en) * | 1999-10-21 | 2002-11-19 | International Business Machines Corporation | Language model adaptation via network of similar users |
US6587824B1 (en) * | 2000-05-04 | 2003-07-01 | Visteon Global Technologies, Inc. | Selective speaker adaptation for an in-vehicle speech recognition system |
US7203651B2 (en) * | 2000-12-07 | 2007-04-10 | Art-Advanced Recognition Technologies, Ltd. | Voice control system with multiple voice recognition engines |
US7072838B1 (en) * | 2001-03-20 | 2006-07-04 | Nuance Communications, Inc. | Method and apparatus for improving human-machine dialogs using language models learned automatically from personalized data |
JP3967952B2 (ja) * | 2002-04-16 | 2007-08-29 | 富士通株式会社 | 文法更新システム及び方法 |
US6834265B2 (en) * | 2002-12-13 | 2004-12-21 | Motorola, Inc. | Method and apparatus for selective speech recognition |
US20040210437A1 (en) * | 2003-04-15 | 2004-10-21 | Aurilab, Llc | Semi-discrete utterance recognizer for carefully articulated speech |
US20060149551A1 (en) * | 2004-12-22 | 2006-07-06 | Ganong William F Iii | Mobile dictation correction user interface |
US20060206333A1 (en) * | 2005-03-08 | 2006-09-14 | Microsoft Corporation | Speaker-dependent dialog adaptation |
US7826945B2 (en) * | 2005-07-01 | 2010-11-02 | You Zhang | Automobile speech-recognition interface |
US7590536B2 (en) * | 2005-10-07 | 2009-09-15 | Nuance Communications, Inc. | Voice language model adjustment based on user affinity |
US20070276651A1 (en) | 2006-05-23 | 2007-11-29 | Motorola, Inc. | Grammar adaptation through cooperative client and server based speech recognition |
EP2026327A4 (en) * | 2006-05-31 | 2012-03-07 | Nec Corp | LANGUAGE MODEL LEARNING, LANGUAGE MODEL LEARNING AND LANGUAGE MODEL LEARNING PROGRAM |
US20080004880A1 (en) * | 2006-06-15 | 2008-01-03 | Microsoft Corporation | Personalized speech services across a network |
DE102006029755A1 (de) * | 2006-06-27 | 2008-01-03 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung |
JP5127201B2 (ja) * | 2006-11-08 | 2013-01-23 | キヤノン株式会社 | 情報処理装置及び方法並びにプログラム |
US7415409B2 (en) * | 2006-12-01 | 2008-08-19 | Coveo Solutions Inc. | Method to train the language model of a speech recognition system to convert and index voicemails on a search engine |
US8275615B2 (en) * | 2007-07-13 | 2012-09-25 | International Business Machines Corporation | Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation |
US8364481B2 (en) * | 2008-07-02 | 2013-01-29 | Google Inc. | Speech recognition with parallel recognition tasks |
US8180641B2 (en) * | 2008-09-29 | 2012-05-15 | Microsoft Corporation | Sequential speech recognition with two unequal ASR systems |
US8571866B2 (en) * | 2009-10-23 | 2013-10-29 | At&T Intellectual Property I, L.P. | System and method for improving speech recognition accuracy using textual context |
US8532994B2 (en) * | 2010-08-27 | 2013-09-10 | Cisco Technology, Inc. | Speech recognition using a personal vocabulary and language model |
US9043205B2 (en) * | 2012-06-21 | 2015-05-26 | Google Inc. | Dynamic language model |
US20140039893A1 (en) * | 2012-07-31 | 2014-02-06 | Sri International | Personalized Voice-Driven User Interfaces for Remote Multi-User Services |
-
2013
- 2013-10-22 US US14/059,813 patent/US9601111B2/en active Active
- 2013-11-12 DE DE102013223036.2A patent/DE102013223036B4/de active Active
- 2013-11-13 CN CN201310756239.7A patent/CN103811002B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5832063A (en) * | 1996-02-29 | 1998-11-03 | Nynex Science & Technology, Inc. | Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases |
CN1283843A (zh) * | 1999-08-10 | 2001-02-14 | 国际商业机器公司 | 会话数据开采 |
US6665644B1 (en) * | 1999-08-10 | 2003-12-16 | International Business Machines Corporation | Conversational data mining |
US20030236664A1 (en) * | 2002-06-24 | 2003-12-25 | Intel Corporation | Multi-pass recognition of spoken dialogue |
WO2006003542A1 (en) * | 2004-06-29 | 2006-01-12 | Philips Intellectual Property & Standards Gmbh | Interactive dialogue system |
CN1783213A (zh) * | 2004-12-01 | 2006-06-07 | 国际商业机器公司 | 用于自动语音识别的方法和装置 |
US20070038436A1 (en) * | 2005-08-10 | 2007-02-15 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
CN1941079A (zh) * | 2005-09-27 | 2007-04-04 | 通用汽车公司 | 语音识别方法和系统 |
US20070233487A1 (en) * | 2006-04-03 | 2007-10-04 | Cohen Michael H | Automatic language model update |
CN102037481A (zh) * | 2008-03-19 | 2011-04-27 | 苹果核网络股份有限公司 | 用于检测行为模式的方法及设备 |
US20100235167A1 (en) * | 2009-03-13 | 2010-09-16 | Francois Bourdon | Speech recognition learning system and method |
CN102097096A (zh) * | 2009-12-10 | 2011-06-15 | 通用汽车有限责任公司 | 在语音识别后处理过程中使用音调来改进识别精度 |
KR20110066357A (ko) * | 2009-12-11 | 2011-06-17 | 삼성전자주식회사 | 대화 시스템 및 그의 대화 방법 |
Non-Patent Citations (5)
Title |
---|
刘启和 等: "《基于统计语言模型的双向词类标注方法》", 《计算机科学》 * |
孙连荣: "《结构方程模型(SEM)的原理及操作》", 《宁波大学学报(教育科学版)》 * |
林道发 等: "《基于HMM/VQ的认人的中等词表连续语音识别》", 《电子学报》 * |
申建国 等: "《语音识别程序的开发与应用》", 《计算机应用研究》 * |
邢永康 等: "《统计语言模型综述》", 《计算机科学》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105225660A (zh) * | 2014-06-30 | 2016-01-06 | 通用汽车环球科技运作有限责任公司 | 语音系统的适应方法和系统 |
CN105225660B (zh) * | 2014-06-30 | 2019-07-05 | 通用汽车环球科技运作有限责任公司 | 语音系统的适应方法和系统 |
CN106131098A (zh) * | 2015-05-04 | 2016-11-16 | 通用汽车环球科技运作有限责任公司 | 用于车辆中应用程序开发的车辆数据执行和情境干预模块 |
CN106257583A (zh) * | 2015-06-17 | 2016-12-28 | 大众汽车有限公司 | 语音识别系统以及用于运行语音识别系统的方法 |
CN106257583B (zh) * | 2015-06-17 | 2020-03-10 | 大众汽车有限公司 | 语音识别系统以及用于运行语音识别系统的方法 |
CN106971734A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种可根据模型的提取频率训练识别模型的方法及系统 |
CN106971734B (zh) * | 2016-01-14 | 2020-10-23 | 芋头科技(杭州)有限公司 | 一种可根据模型的提取频率训练识别模型的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US9601111B2 (en) | 2017-03-21 |
US20140136200A1 (en) | 2014-05-15 |
DE102013223036A1 (de) | 2014-05-15 |
DE102013223036B4 (de) | 2022-12-15 |
CN103811002B (zh) | 2017-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103811002A (zh) | 用于语音系统的调节方法和系统 | |
CN103810995A (zh) | 用于语音系统的调节方法和系统 | |
CN103810005A (zh) | 用于语音系统的调节方法和系统 | |
KR102338990B1 (ko) | 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법 | |
KR102414456B1 (ko) | 대화 시스템, 이를 포함하는 차량 및 유고 정보 처리 방법 | |
US9564132B2 (en) | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system | |
US20100286984A1 (en) | Method for speech rocognition | |
US11211047B2 (en) | Artificial intelligence device for learning deidentified speech signal and method therefor | |
CN110648661A (zh) | 对话系统、车辆和用于控制车辆的方法 | |
CN109920410B (zh) | 用于基于车辆的环境确定推荐的可靠性的装置和方法 | |
US8374868B2 (en) | Method of recognizing speech | |
JP6475426B2 (ja) | 意図推定装置、及び、モデルの学習方法 | |
KR102066451B1 (ko) | 차량용 ai 서비스를 제공하는 방법 및 이를 이용한 장치 | |
US20200118560A1 (en) | Dialogue system, vehicle having the same and dialogue processing method | |
KR20200006739A (ko) | 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법 | |
KR102487669B1 (ko) | 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법 | |
US11333518B2 (en) | Vehicle virtual assistant systems and methods for storing and utilizing data associated with vehicle stops | |
KR20200006738A (ko) | 대화 시스템 및 대화 처리 방법 | |
JP7310556B2 (ja) | 情報処理システム | |
JP7274901B2 (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
US20210406463A1 (en) | Intent detection from multilingual audio signal | |
CN117275467A (zh) | 一种噪音环境下的语音指令识别方法及装置 | |
CN115171672A (zh) | 语音处理方法、装置及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |