CN104166459A - 用于管理语音系统的对话的方法和系统 - Google Patents
用于管理语音系统的对话的方法和系统 Download PDFInfo
- Publication number
- CN104166459A CN104166459A CN201410399680.9A CN201410399680A CN104166459A CN 104166459 A CN104166459 A CN 104166459A CN 201410399680 A CN201410399680 A CN 201410399680A CN 104166459 A CN104166459 A CN 104166459A
- Authority
- CN
- China
- Prior art keywords
- pattern
- user
- mutual
- user interactions
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Abstract
本发明提供了一种用于管理语音系统的语音对话的方法与系统。在实施例中,一种方法包括:接收来自语音系统的用户的至少一个第一话语;基于所述至少一个第一话语来确定用户交互样式;并基于该交互样式生成对用户的反馈。
Description
相关申请
本申请要求2013年5月15日提交的美国临时申请号61/823,761的权益。
技术领域
该技术领域总地涉及语音系统,更具体地,涉及基于用户交互样式来管理语音系统内的对话的方法和系统。
背景技术
车辆语音识别系统执行由车辆乘客所说出的语音的语音识别或理解。语音话语通常包括命令,该命令与所述车辆或可由车辆访问的其它系统通信或控制所述车辆或可由车辆访问的其它系统的一个或多个特征。语音对话系统响应于语音话语生成口头命令。在一些示例中,所述口头命令响应于语音识别需要其他信息以便执行语音识别而生成。在其它示例中,所述口头命令作为对识别出的命令的确认而生成。通常,所述口头命令基于特定的交互样式。可以在语音识别系统的生成过程中设置该交互样式,或可以在使用语音识别系统之前由用户来预配置该交互样式。预先选择的交互样式可能不能令所有用户满意。
因而,需要提供用于管理语音对话的改进的方法和系统。因而,还需要提供基于用户交互样式来调整语音对话的方法和系统。此外,基于随后的详细描述和所附权利要求书,并结合附图和前述的技术领域与背景技术,本发明的其它所需的特征和特性将会变得显而易见。
发明内容
提供了用于管理语音系统的语音对话的方法和系统。在一实施例中,一种方法包括:接收来自语音系统的用户的至少一个第一话语;基于该至少一个第一话语来确定用户交互样式;并基于该交互样式生成对用户的反馈。
在另一实施例中,一种系统包括,第一模块,其接收来自语音系统的用户的至少一个第一话语并基于该至少一个第一话语来确定用户交互样式。该系统还包括第二模块,其基于该交互样式生成对用户的反馈。
本发明还包括以下技术方案:
1.一种用于管理语音系统的语音对话的方法,包括:
接收来自语音系统的用户的至少一个第一话语;
基于所述至少一个第一话语来确定用户交互样式;以及
基于所述交互样式生成对用户的反馈。
2.如技术方案1所述的方法,还包括:
基于所述第一话语确定下一个语音提示;以及
基于所述用户交互样式调整下一个语音提示,其中,所述生成所述反馈是基于调整后的语音提示的。
3.如技术方案2所述的方法,其中,所述确定用户交互样式包括确定多个用户交互样式,并且其中,所述调整包括基于所述多个用户交互样式来调整所述反馈。
4.如技术方案1所述的方法,其中,所述确定所述用户交互样式是基于样式处理方法的,所述样式处理方法包括与相互作用式样式相关联的参数。
5.如技术方案3所述的方法,其中,所述参数是预先定义的。
6.如技术方案3所述的方法,其中,所述参数是从其它语音话语获悉的。
7.如技术方案1所述的方法,其中,所述用户交互样式是高效的交互样式和相互作用式的交互样式中的至少一个。
8.如技术方案1所述的方法,其中,所述用户交互样式是老年人的交互样式和年轻人的交互样式中的至少一个。
9.如技术方案1所述的方法,其中,所述用户交互样式是规范交互样式和非规范的交互样式中的至少一个。
10.如技术方案1所述的方法,还包括:
接收用户数据,所述用户数据指示用户的姿势、措辞和人口统计学特征中的至少一个;并且
其中,所述确定所述用户交互样式还基于所述用户数据。
11.如技术方案1所述的方法,还包括基于所述交互样式来调整非语音系统反馈。
12.如技术方案1所述的方法,其中,所述接收所述第一话语是通过车辆的人机交互模块的。
13.一种用于管理语音系统的语音对话的系统,包括:
第一模块,其接收来自所述语音系统的用户的至少一个第一话语,并基于所述至少一个第一话语来确定用户交互样式;以及
第二模块,其基于所述交互样式生成对用户的反馈。
14.如技术方案13所述的系统,还包括:
第三模块,其基于所述第一话语确定下一个语音提示,并且其中,第二模块基于所述用户交互样式调整下一个语音提示,并基于调整后的语音提示生成反馈。
15.如技术方案14所述的系统,其中,第一模块确定多个用户交互样式,并且其中,第二模块基于所述多个用户交互样式来调整所述反馈。
16.如技术方案13所述的系统,其中,第一模块基于样式处理方法来确定所述用户交互样式,所述样式处理方法包括与相互作用式样式相关联的参数。
17.如技术方案16所述的系统,其中,所述参数是下列项中的至少一项:预定义的和从其它语音话语中获悉的。
18.如技术方案13所述的系统,其中,所述用户交互样式是下列项中的至少一项:高效的交互样式、相互作用式的交互样式、老年人的交互样式、年轻人的交互样式、规范的交互样式和非规范的交互样式。
19.如技术方案13所述的系统,其中,第一模块接收用户数据,所述用户数据指示用户的姿势、措辞和人口统计学特征中的至少一个,并还基于所述用户数据确定所述用户交互样式。
20.如技术方案13所述的系统,其中,第二模块基于所述交互样式来调整非语音系统反馈。
附图说明
下面结合以下附图描述示例性实施例,其中相似的标记表示相似的部件,在附图中:
图1是依据各种示例性实施例的包括语音系统的车辆的功能性方框图;
图2是示出了根据各种示例性实施例的语音系统的数据流图;
图3是示出了根据各种示例性实施例的可由语音系统执行的语音方法的流程图。
具体实施方式
以下的详细描述本质上仅仅是示例性的,并不意图限制应用和用途。此外,没有意图由在前面的技术领域、背景技术、发明内容或以下的详细说明中给出的任何已表述的或暗示的理论所约束。如这里所使用的,术语模块指专用集成电路(ASIC),电子电路,执行一个或多个软件或固件程序的处理器(共享的,专用的,或成组的)和存储器,组合逻辑电路,和/或能够提供所描述功能的其它合适组件。
根据本公开的示例性实施例,示出了包括在车辆12内的语音系统10。在各种示例性实施例中,语音系统10提供语音识别或理解,以及用于通过人机交互模块(HMI)模块14的一个或多个车辆系统的对话。这些车辆系统可以包括,比如,但不限制于,电话系统16,导航系统18,媒体系统20,信息通信系统22,网络系统24,或能够包括依赖语音应用的其它任何车辆系统。如能够理解的,语音系统10的一个或多个实施例可以被应用到具有依赖语音应用的其它非车辆系统,并因此,并不限于当前的车辆示例。
语音系统10和/或HMI模块14通过通信总线和/或其它通信装置26(比如,有线的,短距离无线的,或长距离无线的)与多个车辆系统14-24通信。通信总线可以是(比如,但不限制于)控制器区域网(CAN)总线,局部互连网络(LIN)总线,或任何其它类型的总线。
语音系统10包括语音识别模块32、对话管理模块34和语音生成模块35。应当理解,语音识别模块32、对话管理模块34和语音生成模块35可以被实现为分开系统和/或实现为所示的组合系统。通常,语音识别模块32使用依靠语义解释和/或自然语言理解的一个或多个语音识别技术来接收和处理来自HMI模块14的语音话语。语音识别模块32根据语音话语(比如,基于置信度阈值)将一个或多个可能的结果生成到对话管理模块34。
对话管理模块34基于结果管理交互次序和要说给用户的语音提示的选择。在各种实施例中,对话管理模块34响应于用户的语音话语,确定由系统生成的下一个语音提示。之后,对话管理模块34在语音话语中检测用户的特定的交互样式,并且基于交互样式选择性地调整(adapt)下一个语音提示。该调整后的语音提示被语音生成模块35转换为口头提示,并通过HMI模块14呈现给用户。如所能理解的,这些调整方法可以被实现为语音系统10的其它模块的一部分(比如,作为分开模块或另一模块的一部分)。为达到示范的目的,将在实现调整方法的对话管理模块34的背景下讨论本公开。
作为示例,如果来自用户的语音话语识别为:
用户:“John Smith,他的手机。”(“John Simth on his mobile.”)
该对话管理模块34检测到用户“高效的”交互样式,并将对用户的下一个语音提示(prompt)调整成为直入主题的(高效的),比如:
系统:“呼叫John Smith的手机。”(“Calling John Simth on his mobile.”)
作为另一示例,如果来自用户的语音话语被识别为:
用户:“我想要呼叫John Smith的手机。”(“I would like to call John Simth on hismobile.”)
该对话管理模块34检测到用户“相互作用式的”(更加多话的;更少程度地指向主题)交互样式,并将对用户的下一个语音提示调整成为相似的样式一相互作用式的,比如:
系统:“收到!我将呼叫John Smith的手机。”(“Got it!I’m calling John Simthon his mobile.”)
如下面将会更加详细地讨论的,对话管理模块34能够检测各种交互样式,并且“相互作用式的”样式和“高效的”样式仅仅是因示范性目的被提供。在各种实施例中,对话管理模块34能够基于交互样式另外地调整对用户的其它非语音相关反馈(比如,触觉的或视觉的)。这些非语音相关反馈可以与车辆系统14-24的控制特征或其它特征相关联。
现在参考图2并继续参考图1,数据流图示出了根据各种示例性实施例的对话管理模块34。如能够理解的那样,根据本公开,对话管理模块34的各种示例性实施例可以包括任意数量的子模块。在各种示例性实施例中,图2示出的子模块可以组合和/或被另外地拆分以便类似地管理语音对话和/或其它反馈。在各种示例性实施例中,对话管理模块34包括样式分类模块40、反馈管理模块42和调整模块44。
样式分类模块40接收语音话语46作为输入,语音话语46或者是由用户通过HMI模块14提供的,或者是语音识别模块32的结果。应当理解,语音话语46可以是语音话语的任何部分的或全部的数据表征。样式分类模块40使用一个或多个样式处理方法来处理语音话语46以确定语音话语46的一个或多个交互样式48。
比如,样式分类模块40可以包括一个或多个预先定义的交互样式,比如,但不限于,高效的样式,相互作用式(interactive)的样式,老年人的样式,年轻人的样式,非规范(informal)的样式,规范(formal)的样式,或者可以或可以不基于用户人口统计学特征(demographics)定义的任何其他交互样式。在另一示例中,交互样式可以通过用户与系统的反复交互获悉。不管交互样式是获悉的还是预先被定义的,样式处理方法都是基于与交互样式相关联的参数(比如,获悉的或者是预先定义的)来处理语音话语46的。比如,与高效的样式相关联的预先定义的参数可以包括,但不限于,对话的轮数,交互时间,命令长度和单词中的变化。在另一示例中,与相互作用式的样式相关联的预先定义参数可以包括,但不限于,单词中的变化、命令长度、某些类型的单词的使用以及对系统名字使用的指标。
在各种实施例中,样式分类模块40可另外地将指示用户姿势(gesture)、措辞或人口统计学特征的用户数据50接收作为输入。如所能理解的那样,用户数据50可以通过车辆12的一个或多个传感器系统从用户那里直接感测到(比如,当用户主动或被动地与系统交互时)或者可以由用户通过使用车辆的12的一个或多个配置系统配置。样式分类模块40除了语音话语46外还处理用户数据50以确定一个或多个交互样式48。比如,样式处理方法的参数可以基于用户姿势、措辞或人口统计学特征来设置,并且样式处理方法使用这些参数来处理用户数据50。
反馈管理模块42将语音话语52接收作为输入。在这种情况下,语音话语52是来自语音识别模块32的结果,或是语音话语的任何其它部分地或全部地被处理的数据表征。反馈管理模块42基于语音话语52选择语音提示54。例如,如果结果指示未识别出语音话语52的一个或多个部分,反馈管理模块42可以选择从用户那里要求更多信息的语音提示54。在另一示例中,如果结果指示识别具有一定置信度,那么反馈管理模块42可选择确认语音话语中信息的语音提示54。
调整模块44将语音提示54和交互样式48接收作为输入。调整模块44基于所检测的交互样式48在语音提示54上执行一个或多个调整方法。调整方法修改语音提示54以使它与交互样式48一致或回应(reciprocate)交互样式48。调整方法可以基于与交互样式48的检测和/或其它预定义的或获悉的参数相关联的相同或相似的参数来修改语音提示54。比如,如果交互样式48是高效的并且语音提示54是确认提示,那么确认提示基于能够使提示变得有效、具有简短和简明语言的参数而修改。在另一示例中,如果交互样式48是相互作用式的并且语音提示54是确认提示,那么确认提示基于能够使提示变得更加交互、具有更详细语言的参数而修改。在各种实施例中,语音提示54可以基于从用户获悉的参数和语言,和/或基于预先定义的参数和语言而修改。
一旦语音提示54已调整,则调节模块44就会生成调整的语音提示56以供语音生成模块35使用。
在各种实施例中,调整模块44基于交互样式48还调整其它非语音反馈58。比如,调整模块44基于交互样式48调整触觉反馈、嗓音(voice)反馈、声音(sound)反馈和/或视觉反馈。非语音反馈58可以(比如)与其中对话正在发生的车辆系统14-24的特征相关联。
现在参见图3,流程图示出了依据各种示例性实施例由语音系统10所执行的语音方法。如根据本公开所能理解的那样,该方法中的操作次序并不限于如附图3所示出的顺序执行,而是可以以一个或多个改变的顺序执行(作为可应用的并根据本公开)。如能另外地理解的,在不改变本方法精神的情况下,可以增加或去除该方法的一个或多个步骤。
如所示出的,该方法可在100处开始。在110处,接收语音话语46。在120处,对语音话语46执行一个或多个语音识别方法以确定结果。可选地,在130处,接收用户数据50。在140处,该结果和(可选地)用户数据50基于一个或多个样式处理方法来处理以确定交互样式48。在150处,基于语音话语52的结果来确定语音提示54。在160处,基于交互样式48调整150处的语音提示54。可选地,在170处,基于交互样式48调整其它反馈。之后,在180处,调整后的语音提示56被转换为语音,并生成给用户,并且可选地,在190处,将调整后的其他反馈58生成给用户。该方法可在200处结束。
如能够理解的,在各种实施例中,该方法对于由用户所提供的任意数量的语音话语可以重复,或者该方法可以将特定的交互样式维持达设定的时间段(比如,在车辆的当前操作期间)或达由用户所说的语音话语的X数量。
尽管在前面的详细描述中已介绍了至少一个示例性实施例,然而应该能够理解存在非常多的变形。还应该理解,示例性实施例或多个示例性实施例仅仅是示例,并无论如何不意图限制本公开的范围,适用性或配置。相反,前面的详细描述将会为本领域技术人员提供实施示例性实施例或多个示例性实施例的便捷的路线图。应该理解,在不背离本公开的范围的情况下,元件的功能和布置中可以做出各种改变,如在所附权利要求及其合法等效物中阐述的。
Claims (10)
1.一种用于管理语音系统的语音对话的方法,包括:
接收来自语音系统的用户的至少一个第一话语;
基于所述至少一个第一话语来确定用户交互样式;以及
基于所述交互样式生成对用户的反馈。
2.如权利要求1所述的方法,还包括:
基于所述第一话语确定下一个语音提示;以及
基于所述用户交互样式调整下一个语音提示,其中,所述生成所述反馈是基于调整后的语音提示的。
3.如权利要求2所述的方法,其中,所述确定用户交互样式包括确定多个用户交互样式,并且其中,所述调整包括基于所述多个用户交互样式来调整所述反馈。
4.如权利要求1所述的方法,其中,所述确定所述用户交互样式是基于样式处理方法的,所述样式处理方法包括与相互作用式样式相关联的参数。
5.如权利要求3所述的方法,其中,所述参数是预先定义的。
6.如权利要求3所述的方法,其中,所述参数是从其它语音话语获悉的。
7.如权利要求1所述的方法,其中,所述用户交互样式是高效的交互样式和相互作用式的交互样式中的至少一个。
8.如权利要求1所述的方法,其中,所述用户交互样式是老年人的交互样式和年轻人的交互样式中的至少一个。
9.如权利要求1所述的方法,其中,所述用户交互样式是规范交互样式和非规范的交互样式中的至少一个。
10.一种用于管理语音系统的语音对话的系统,包括:
第一模块,其接收来自所述语音系统的用户的至少一个第一话语,并基于所述至少一个第一话语来确定用户交互样式;以及
第二模块,其基于所述交互样式生成对用户的反馈。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361823761P | 2013-05-15 | 2013-05-15 | |
US61/823,761 | 2013-05-15 | ||
US14/262,183 US20140343947A1 (en) | 2013-05-15 | 2014-04-25 | Methods and systems for managing dialog of speech systems |
US14/262,183 | 2014-04-25 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104166459A true CN104166459A (zh) | 2014-11-26 |
Family
ID=51896470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410399680.9A Pending CN104166459A (zh) | 2013-05-15 | 2014-05-15 | 用于管理语音系统的对话的方法和系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20140343947A1 (zh) |
CN (1) | CN104166459A (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140358538A1 (en) * | 2013-05-28 | 2014-12-04 | GM Global Technology Operations LLC | Methods and systems for shaping dialog of speech systems |
US9583106B1 (en) * | 2013-09-13 | 2017-02-28 | PBJ Synthetics Corporation | Methods, systems, and media for presenting interactive audio content |
US9786299B2 (en) * | 2014-12-04 | 2017-10-10 | Microsoft Technology Licensing, Llc | Emotion type classification for interactive dialog system |
WO2017168936A1 (ja) * | 2016-03-31 | 2017-10-05 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020198707A1 (en) * | 2001-06-20 | 2002-12-26 | Guojun Zhou | Psycho-physical state sensitive voice dialogue system |
US20050246165A1 (en) * | 2004-04-29 | 2005-11-03 | Pettinelli Eugene E | System and method for analyzing and improving a discourse engaged in by a number of interacting agents |
CN1937002A (zh) * | 2006-07-27 | 2007-03-28 | 中山名人电脑科技有限公司 | 一种智能人机对话的系统及其实现方法 |
US20120072219A1 (en) * | 2010-09-22 | 2012-03-22 | At & T Intellectual Property I, L.P. | System and method for enhancing voice-enabled search based on automated demographic identification |
CN103077165A (zh) * | 2012-12-31 | 2013-05-01 | 威盛电子股份有限公司 | 自然语言对话方法及其系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040143440A1 (en) * | 2003-01-03 | 2004-07-22 | Venkatesh Prasad | Vehicle speech recognition system |
US20050096909A1 (en) * | 2003-10-29 | 2005-05-05 | Raimo Bakis | Systems and methods for expressive text-to-speech |
EP1895505A1 (en) * | 2006-09-04 | 2008-03-05 | Sony Deutschland GmbH | Method and device for musical mood detection |
US20090055180A1 (en) * | 2007-08-23 | 2009-02-26 | Coon Bradley S | System and method for optimizing speech recognition in a vehicle |
US20110151974A1 (en) * | 2009-12-18 | 2011-06-23 | Microsoft Corporation | Gesture style recognition and reward |
WO2013062589A1 (en) * | 2011-10-28 | 2013-05-02 | Intel Corporation | Adapting language use in a device |
-
2014
- 2014-04-25 US US14/262,183 patent/US20140343947A1/en not_active Abandoned
- 2014-05-15 CN CN201410399680.9A patent/CN104166459A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020198707A1 (en) * | 2001-06-20 | 2002-12-26 | Guojun Zhou | Psycho-physical state sensitive voice dialogue system |
US20050246165A1 (en) * | 2004-04-29 | 2005-11-03 | Pettinelli Eugene E | System and method for analyzing and improving a discourse engaged in by a number of interacting agents |
CN1937002A (zh) * | 2006-07-27 | 2007-03-28 | 中山名人电脑科技有限公司 | 一种智能人机对话的系统及其实现方法 |
US20120072219A1 (en) * | 2010-09-22 | 2012-03-22 | At & T Intellectual Property I, L.P. | System and method for enhancing voice-enabled search based on automated demographic identification |
CN103077165A (zh) * | 2012-12-31 | 2013-05-01 | 威盛电子股份有限公司 | 自然语言对话方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
US20140343947A1 (en) | 2014-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107644642B (zh) | 语义识别方法、装置、存储介质及电子设备 | |
US10991374B2 (en) | Request-response procedure based voice control method, voice control device and computer readable storage medium | |
CN108701454B (zh) | 对话系统中的参数收集和自动对话生成 | |
CN102428440A (zh) | 用于多模式输入的同步和消歧的系统和方法 | |
US10210003B2 (en) | Methods and apparatus for module arbitration | |
US8738375B2 (en) | System and method for optimizing speech recognition and natural language parameters with user feedback | |
CN104284257A (zh) | 用于口头对话服务仲裁的系统和方法 | |
CN109710727B (zh) | 用于自然语言处理的系统和方法 | |
EP2523188A1 (en) | Speech recognition system and method based on word-level candidate generation | |
CN103365833B (zh) | 一种基于上下文场景的输入候选词提示方法及系统 | |
US20060155546A1 (en) | Method and system for controlling input modalities in a multimodal dialog system | |
CN106128462A (zh) | 语音识别方法及系统 | |
CN104166459A (zh) | 用于管理语音系统的对话的方法和系统 | |
US9396725B2 (en) | System and method for optimizing speech recognition and natural language parameters with user feedback | |
CN110459222A (zh) | 语音控制方法、语音控制装置及终端设备 | |
KR20150133643A (ko) | 햅틱 설계 작성 도구 | |
CN104282305A (zh) | 语音对话系统中用于结果仲裁的系统和方法 | |
JP7050990B2 (ja) | 促進されたタスク実行 | |
CN105282332B (zh) | 语音拨号方法及装置 | |
CN103076893A (zh) | 一种用于实现语音输入的方法与设备 | |
CN110231865A (zh) | 触觉反馈方法、电子设备以及存储介质 | |
CN103632665A (zh) | 一种语音识别方法及电子设备 | |
CN104106113A (zh) | 用于使数据列表语音化的方法与语音控制的用户界面 | |
CN104077105A (zh) | 一种信息处理方法以及一种电子设备 | |
KR20160055059A (ko) | 음성 신호 처리 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141126 |