CN103544337A - 汽车乘员的对话模型 - Google Patents
汽车乘员的对话模型 Download PDFInfo
- Publication number
- CN103544337A CN103544337A CN201310361706.6A CN201310361706A CN103544337A CN 103544337 A CN103544337 A CN 103544337A CN 201310361706 A CN201310361706 A CN 201310361706A CN 103544337 A CN103544337 A CN 103544337A
- Authority
- CN
- China
- Prior art keywords
- dialogue
- dialog model
- bunch
- model
- dialog
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 64
- 239000013598 vector Substances 0.000 claims abstract description 48
- 238000013507 mapping Methods 0.000 claims description 45
- 238000004321 preservation Methods 0.000 claims description 14
- 238000004519 manufacturing process Methods 0.000 claims description 9
- 230000006399 behavior Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
- Navigation (AREA)
Abstract
本发明涉及汽车乘员的对话模型。一种用于在统计对话建模系统中生成和管理多对话模型的方法和装置,该系统能够基于所选的模型,学习并进行人机对话。根据特征向量选出对话模型,该特征向量描述了对话参与者和他们当前场景的特征。乘员无论为驾驶员还是乘客,机动车辆中的移动装置都能够根据车辆的位置和路线,以及该乘员的个性特征,向该机动车辆的乘员提供优化的对话服务。当通过远程对话服务器被网络化后,对话乘员的大池子可用于对话模型的自动建立,该对话模型适合于处理许多场景和参与者。
Description
相关申请的交叉引用
本申请要求标题为“汽车乘员的对话模型”,申请日为2012年5月29日,系列号为61/652,569的美国临时专利申请的权益。该临时专利申请公开的内容被引用结合到本申请中,并根据37CFR1.78(a)(4)和(5)(i)的规定要求了其优先权。
背景技术
可以通过部署统计学对话建模,来提高由自动语音识别和语音生成促进的人机对话中的机器响应的质量。统计学对话建模利用包含“部分可观测马尔可夫决策过程”(POMDP)和贝叶斯网络的技术。有限状态机器“呼叫流”方法上的统计学方式的优势在于,通过从该对话系统与用户的样本交互中学习,以赋予该自动化系统对对话性能进行优化的能力。
图1是用于统计学语音对话建模的现有技术系统的概念性框图。步骤101接收音频输入,并将该输入送入到包括对话模型105的对话控制单元103中。对话控制单元103发送对话行为到语音生成单元109,以产生该对话的音频输出。对话日志111保存用于离线分析的对话。在一个独立的,典型的线下学习进程中,对话控制单元103也可发送数据日志到对话模块生成器107,来更新模型105或用另一个模型替换模型105。
发明内容
本发明的实施例提供了根据与汽车有关的因素,为不同群组的人类对话参与者设计对话模型的方法,其中该人类对话参与者为汽车的乘员。因而,人类对话参与者在本公开中有时被称为“乘员”。本发明的其它实施例提供了用于将参与者分组成为簇的方法,其中的每个簇都与一个对话模型相对应。根据本发明的实施例,对话是人类参与者与机器之间的双向交互,或是其任何交互部分。
与为所有对话参与者使用单一对话模型的现有技术系统相比,本发明的实施例为对话参与者群的不同分段使用了不同的对话模型。这方面增强了口头和多模型对话的性能;允许改变人机接口以区分特殊对话;通过提供更好的从语音识别错误的恢复,提高了鲁棒性;并且根据品牌来改变对话风格,从而支持汽车品牌。
根据簇设计对话模型
根据本发明的实施例,配置对话模型的设计者为对话的定制者确定一个或多个参数。从多个参数中导出特征向量,然后该设计者创造出与该特征向量的不同值相对应的对话模型集合。
利用参与的汽车乘员共有的特征,本发明的实施例优化了对话性能。在这些实施例中,这些特征与对话参与者有关,并且包括对话参与者的个人特征(如年龄范围,为驾驶员或乘客等)和参与者所处的情况的特征(如他们所乘坐的汽车,他们的位置等)。本发明的实施例使用特征的子集,这些特征包括但不限于:
汽车品牌;
汽车型号;
汽车情况(如移动、静止、停车、行程开始、到达目的地);
车载对话系统的类型;
汽车地理位置(如大城市,郊区,农村等);
路的类型(如城市,农村,高速等);
星期几和请求的时间;
乘员的类型(驾驶员与乘客);
乘员年龄。
在非限制性的例子中,设计者希望创造与驾驶员的年龄和汽车品牌相应的对话模型集合,其中驾驶员年龄的三个范围为年轻的,中年的和年长的,并且考虑四个不同的汽车品牌。
本例子中的特征向量的形式为{年龄,品牌},设计者选择生成与簇编号0至6相应的7个对话模型,来覆盖由设计者详细说明的如下映射表的所有组合:
品牌 | 年轻的 | 中年的 | 老年的 |
品牌_A | 1 | 2 | 3 |
品牌_B | 4 | 4 | 5 |
品牌_C | 6 | 6 | 6 |
品牌_D | 0 | 0 | 0 |
根据本发明的某些实施例,同样存在着对话模型,通过该对话模型,参与者可被分组成簇,其非限制性例子包括:
请求的服务的类型(如餐馆、酒店、停车场);
坚持的对犹豫的(如乘员在对话中改变他或她的意见);
不耐心的对耐心的(如乘员过早地终止对话,或通过使用不耐心的词汇明确表示没有耐心);
乘员一点一点地提供信息对立刻提供全部信息(如在对话日志中由乘员行为所体现出的);以及
乘员形态偏好(如乘员相对于非语音形态更喜欢语音形态)。
某些实施例包括用于参与者在“触觉形式”中的互动的视觉显示器和触摸屏。依赖于环境和情况,汽车中的乘员可能更喜欢使用具有触摸屏的视觉显示器(如当停车时);或者可能需要音频互动对话(如当行驶时);或可能使用音频和触觉形式的组合。这个因素也可应用与对话模型。
本发明的实施例是在由汽车乘员进行的自动对话的环境中提出的,但是可以理解的是,这些实施例的很多原理也可适用于由其它环境中人员进行的自动对话,其非限制性例子是使用移动电话的人员。
参数和特征向量
本发明的某些实施例接收一个或多个参数,其中特征参数是任意形式的因数或影响对话类型或性能的因数的组合,包括但不限于:
乘员ID;
乘员年龄;
汽车型号;
汽车品牌;
当天的时间;
星期几;
汽车状态(如移动或停车);
乘员角色(驾驶员或乘客);
汽车地理位置;
车载对话系统的类型。
本发明的某些实施例利用特征向量,其中特征向量是包含为对话模型选择提供信息的整数集合的数据结构。该整数是该特征向量的组成部分,并通过特征映射(如映射表)或算法计算从参数中导出。在本发明的某些实施例中,特征向量可通过特征映射从参数中导出。
特征向量整数的组成部分的非限定性例子包括:
用整数表示的乘员ID;
用指示非正式年龄范围的整数表示的成员年龄,如分别表示年轻,中年和年老的整数1、2或3;
通过转换表,用整数表示的汽车品牌;
通过转换表,用整数表示的汽车型号;
通过转换表,用整数表示的当天的时间和星期几,来整数地表示非正式的时间范围,如工作日白天,周六晚上等;
通过转换表,用整数表示的汽车状态;
用整数表示的乘员角色,如用1或2分别表示驾驶员和乘客;
根据地图和适当的地理计算,或根据其它区域的缺省代码(0),用代表大城市区域的整数来表示的汽车地理位置;
计划的或实际的汽车路线;
通过转换表,用整数表示的车载对话系统的类型。
根据本发明的实施例,特征向量具有定义整数表示什么的模板。如一个非限定性例子,模板可以是{汽车品牌,汽车型号,乘员角色,乘员年龄,地理位置,星期几,当天的时间},基于该模板的特征向量可以是{3,4,1,2,56,1,1},其代表:星期日{1}晚上{1},一个“品牌A”{3}的“运动型轿跑车”型号{4}中的中年{2}驾驶员{1}正在底特律{56}行驶。
根据本发明的实施例,从对话模型中生成的一种情形和与之相应的对话的一个非限制性例子,涉及一个正在不熟悉的大城市区域中寻找合适的停车位置的驾驶员:
驾驶员:好的停车位置在哪儿?
系统:你需要去哪里?
驾驶员:我的会议在约翰逊大道1200号
系统:我有两个地点——两个街区外的一个停车场,以及街对面的一个地下车库。地下车库比较近但是比较贵。你想去哪个?
簇和簇映射
改进对话模型需要投入时间和其它资源,所以通过使每个对话模型视情况被最大限度的使用,来最优化其效率是值得的。因而,本发明的实施例提供了将群参与者划分成簇的能力,其中的每个簇都与一个对话模型相对应,该对话模型可用于生成对话,其适于关联簇中的每个参与者。
因而,本发明的实施例向对话模型的设计者提供了自动化的方法,以便设计者可为对话模型选择特征,并生成覆盖所选特征的对话模型的集合。
然后,本发明的关联实施例向映射对话参与者提供了自动化方法,其根据合适簇的配置文件。选择合适的聚类方法论和距离度量(如由为对话模型设计者处理这些技术问题的工程师来选择),并且根据聚类和距离度量,系统自动生成簇,并在离线程序中将参与者分配到这些簇中。已知的聚集算法方法论的非限制性例子是k-means基于形心的聚类算法和DBSCAN基于密度的聚类算法。距离度量的非限制性例子是欧几里得距离度量。
这些实施例中的簇元素是“簇成员”(或简称为“成员”)。在本发明的某些实施例中,每个簇都具有簇标识、簇ID,其非限制性例子包括:整数;用于从数据阵列中选择簇的阵列中的索引。在本发明的实施例中,在簇映射中详细描述了从特征向量到簇的映射,该簇映射是个预设的映射表格。如果从该特征向量中不能确定出簇,则该簇ID默认设为0。
对不具有乘员ID的未注册参与者进行聚类
本发明的某些实施例涉及未在系统中注册并且没有标识符的参与者。因而,系统没有办法将这些未注册参与者的过去的对话与那些参与者自身相关联起来。因而,系统将这些未注册用户与仅基于不涉及参与者历史,如汽车品牌和参与者的年龄范围的参数的对话模型相关联。这样的簇映射在之前的基于骑车品牌和驾驶员年龄的对话模型的例子中给出。
对具有乘员ID的注册参与者进行聚类
本发明的某些实施例中,对话参与者具有标识符。在具体的实施例中,该标识符是通过注册程序分配的乘员ID。在此情况下,为了根据参与者的历史对话来分析参与者的对话模型,系统能将过去的对话与具有乘员ID的注册参与者相关联。基于该分析,参与者的乘员ID可通过簇映射(映射表)被映射到簇ID。值得注意的是,在该分析过程中使用到该对话历史,并且一旦该簇映射可用,在将乘员ID映射到簇ID的过程中,将不需要该历史。
对话模型
在本发明的某些实施例中,对话系统将注册参与者的对话存储在数据库中,该数据库以参与者的乘员ID为密钥。然后,在线下学习过程中,该系统分析该注册参与者的对话模型,基于他或她的对话模型来将注册参与者分配到映射表的簇中。
如前所述,在其它的实施例中,未注册的参与者不能基于对话模型而被分配到簇,但是可基于其它不需要线下分析的因素,如当天的时间和汽车的位置,而将其分配到簇。由未注册参与者(其不具有乘员ID)进行的对话被存储在数据库中,并可用于系统的统计分析,但它们不能与任何具体的参与者相关联。
根据本发明的实施例,每个簇都具有对应的预定对话模型;根据与对话模型相关联的簇索引来选择对话模型。在这些实施例中,如果簇索引是0,则选择一般的对话模型。
本发明的某些实施例利用特征映射,其中特征映射是用于将参数转换为特征向量的一个表格,规则集合,算法或它们的组合。
因而,根据本发明的实施例,提供了一种方法,用于对设备进行操作,以便与环境中的人类对话参与者进行对话,该方法包括:(a)获得与从对话参与者的特征和环境的特征组成的组合中选择出的至少一个特征相关的参数;(b)从多个对话模型中选择一个具体的对话模型,该具体的对话模型与与该参数相关联;(c)基于该特具体的对话模型,该设备生成至少一个输出对话行为;(d)该设备向该人类对话参与者展现该至少一个输出对话行为。
并且,基于本发明的另一实施例,提供了一种用于建立对话模型的系统,该系统包括:(a)用于提供先前保存的对话的对话日志存储器;(b)用于根据来自该对话日志存储器的先前保存的对话,生成该对话模型的对话模型生成器单元;以及(c)生成用于从特征向量获得簇ID的簇映射的簇映射生成器。
另外,根据本发明的进一步的实施例,提供了一种用于建立对话模型的系统,该系统包括:(a)用于提供先前保存的对话的对话日志存储器;(b)用于根据来自该对话日志存储器的先前保存的对话,生成该对话模型的对话模型生成器单元;以及(c)生成用于从特征向量获得簇ID的簇映射的簇映射生成器。
另外,仍然根据本发明的进一步的实施例,提供了一种用于建立对话模型的系统,该系统包括:(a)用于提供先前保存的对话的对话日志存储器;(b)用于根据来自该对话日志存储器的先前保存的对话,生成该对话模型的对话模型生成器单元;以及(c)生成用于从对话参数获得特征向量的特征映射的特征映射生成器。
本发明还提供了如下解决方案:
1.一种用于对设备进行操作,以便与环境中的人类对话参与者进行对话的方法,该方法包括:
获得与至少一个特征相关的参数,该至少一个特征选自包括对话参与者的特征和环境的特征的一组特征;
从多个对话模型中选择具体的对话模型,使得该具体的对话模型与该参数相关;
基于该具体的对话模型,该设备生成至少一个输出对话行为;以及
该设备将该至少一个输出对话行为呈现给人类对话参与者。
2.如方案1所述的方法,进一步包括构造特征向量,其中该特征向量至少部分地从该参数中得出。
3.如方案2所述的方法,进一步包括确定人类对话参与者的簇。
4.如方案3所述的方法,进一步包括为给定簇选择对话模型。
5.如方案1所述的方法,进一步包括:
将多个人类对话参与者分组成为多个簇;以及
为该多个簇中的每一个簇生成对话模型。
6.如方案5所述的方法,进一步包括在存储设备中记录对话。
7.如方案6所述的方法,进一步包括建立用于将多个参数转换为特征向量的特征映射。
8.如方案7所述的方法,进一步包括建立用于将该特征向量映射到簇的簇映射。
9.如方案6所述的方法,进一步包括依据对话模型将人类对话参与者分簇。
10.如方案1所述的方法,其中该参数为预分配的乘员ID。
11.如方案9所述的方法,进一步包括为人类对话参与者的每个簇建立对话模型。
12.一种用于选择选定的对话模型,并基于该选定的对话模型来生成和管理对话的系统,该系统包括:
语音生成单元;
对话模型集合存储器;
对话控制单元,用于发送对话行为到该语音生成单元;
簇确定单元,用于确定与该对话相关联的簇ID;以及
对话模型选择单元,用于根据该簇ID,从该对话模型集合存储器中选择选定的对话模型,并发送该选定的对话模型到该对话控制单元;
其中该对话控制单元基于该选定的对话模型,发送该对话行为到该语音生成单元。
13.如方案12所述的系统,其中该语音生成单元进一步实施以生成多模型对话输出,其中该对话行为包括多模型对话。
14.如方案12所述的系统,进一步包括用于输出特征向量到该簇确定单元的特征确定单元,其中该特征向量为对话模型选择提供信息。
15.如方案12所述的系统,进一步包括用于为离线分析保存对话的对话日志存储器。
16.一种用于建立对话模型的系统,该系统包括:
用于提供先前保存的对话的对话日志存储器;
用于基于来自该对话日志存储器的先前保存的对话,生成该对话模型的对话模型生成器;以及
生成用于从特征向量获得簇ID的簇映射的簇映射生成器。
17.如方案16所述的系统,进一步包括生成用于从对话参数中获得该特征向量的特征映射的特征映射生成器。
18.如方案16所述的系统,进一步包括用于存储来自该对话模型生成器的对话模型的对话模型集合存储器。
19.一种用于生成对话模型的系统,该系统包括:
用于提供先前保存的对话的对话日志存储器;
用于基于来自该对话日志存储器的先前保存的对话,生成该对话模型的对话模型生成器;以及
生成用于从对话参数获得特征向量的特征映射的特征映射生成器。
20.如方案19所述的系统,进一步包括用于存储来自该对话模型生成器的该对话模型的对话模型集合存储器。
附图说明
本发明的主题在说明书的结尾部分被特别指出和明确要求。然而,当结合后续的附图来阅读时,本发明的组织和操作方法,连同对象、特征和优势,可通过参考后续的详细说明很好地被理解:
图1描述了用于统计学语音对话建模的现有技术系统;
图2A描述了根据本发明的实施例,选择对话模型并基于对话模型生成和管理对话的系统;
图2B描述了根据本发明实施例,生成对话模型的系统;
图3描述了根据本发明实施例,选择和使用对话模型的方法;
图4描述了根据本发明实施例,生成特征映射的方法;
图5描述了根据本发明实施例,生成对话模型集合的方法;
图6描述了根据本发明实施例的系统配置。
应该懂得,为了描述的简单性和清楚性,附图中的元素没有必要进行等比例的绘制。例如,为了清楚性,可以相对于其它元素而夸大一些元素的尺寸。进一步地,在恰当的地方,附图标记可在附图之间重复,以指示相应或类似的元素。
具体实施方式
在如下的详细说明中,许多特殊细节被阐明,以提供对本发明的充分理解。然而,可以被本领域技术人员理解的是,本发明可不使用这些特殊细节来实践。在其他实例中,为了不使本发明复杂化,没有详细描述公知的方法、程序和部件。
本发明涉及人机接口,并且尤其涉及为机动车乘员定制互动对话模型的系统和方法。
图2A描述了根据本发明的实施例,用于选择对话模型并基于对话模型生成和管理对话的系统。语音和多模型理解单元201接收音频和多模型输入,并发送解读的对话行为到对话控制单元203。如果簇改变了,对话控制单元203通过对话模型选择单元205从模型集合存储单元207恢复选择的模型。基于该选择的对话模型,对话控制单元203发送输出对话行为到用于音频和多模型输出的语音和多模型生成单元217。对话控制单元203考虑到用户行为、对话历史和对话上下文,来选择系统行为。
如下面将进一步详细讨论的,根据本实施例的系统也包括特征确定单元211,其响应于输入参数,输出特征向量到簇确定单元213。特征确定单元211和对话控制单元203都在对话日志存储器209中存储它们各自的输出。对话控制单元203存储整个交互,其包括对话日志存储器209中的用户行为和系统行为。簇确定单元213从特征确定单元211接收特征向量,并在对话日志存储器209中存储簇ID的特征向量。然后如下面更详细讨论的,模型选择单元205从模型集合存储器207中为对话控制单元203选择适当的模型。在此实施例中,对话日志存储器209包含相应的特征向量和每个对话的簇ID。
图2B中描述的系统具有发展可用于模型集合存储器207的新的对话模型的能力,其通过从对话日志209恢复先前生成的对话,并将该对话作为对话模型生成器215、簇映射生成器219和特征映射生成器221的输入,这使得新特征映射可用于特征确定单元211。对话模型生成器215可根据本领域已知的方法来运行。
相对于如当前实践的单一对话模型的使用,如图2A所示的本发明的实施例保持了多个对话模型,其根据特征向量被组织、存储、恢复和使用,这些特征向量从与参与者、汽车和汽车环境有关的参数中获得。
图3描述了根据本发明实施例的方法,用于操作设备与环境中的,如包括汽车中的乘员的环境中的人类对话参与者(“对话参与者”)进行对话。该方法涉及选择和使用对话模型,其是该对话的基础。在此实施例中,装置的一个或多个部件,如模型选择单元205、对话控制单元203、特征确定单元211和簇确定单元213(图2A)自动执行该方法的步骤。如下,该方法执行:
在参数步骤301中,获得一个或多个参数,该参数涉及对话参与者和/或环境,如乘员的年龄范围和/或位置、状态、汽车情形的一个或多个特征。在特征向量步骤306中,构造特征向量305,其矢量成分包括转换的接收参数。然后在选择步骤307中利用特征向量305选择与该特征向量相应的对话模型,以作为该对话的基础来使用。
在本发明的实施例中,成员被分组成为簇成员,并且一个具体的对话与一个簇相关联,例如通过簇ID。特征向量被映射到簇,因而一个特别的特征向量可与一个具体的对话模型相关联。通过将对话参与者分配为簇成员,将可以基于该参与者的簇来选择一个具体的对话模型。下面将详细讨论将对话参与者分配为簇成员。在本发明的实施例中,在对话开始前,对话参与者可被预先分配为簇成员。在其它实施例中,在对话过程中该对话参与者可被分配为簇乘员。在选择步骤309中,从对话模型集合存储器311中选择一个具体的对话模型(如果与当前模型不同)。
在对话-进行步骤313中,所选择的模型被作为该对话的基础来使用。对话在输入步骤315和输出步骤319中进行,其中,输入步骤315从该对话参与者接收对话输入行为,输出步骤319生成用于向对话参与者呈现的对话输出行为(根据该选择的对话模型)。在本发明的实施例中,该对话输出行为基于该对话输入行为,同样也基于所选择的对话模型,并且也基于该对话历史和该应用环境。步骤301、303、307和309不需要与步骤313、315、317、321和323同步。除了当对话正在进行时,对话模型可在任意时间被加载;相反地,对话加载也可以根本不发生。另外,因为这些行为没有固定的顺序,所以在步骤313后并行示出步骤315和319。在对话参与者启动对话的情况下(如,当汽车乘员发出请求),输入步骤315将开始该对话。然而,在自动化对话系统发起该对话的情况下(如通过发出驾驶员警告),输出步骤319将开始该对话。
在步骤315中接收到对话输入后,步骤317执行理解对话输入,以解释该对话输入。在步骤317(理解对话输入)或步骤319(生成对话输出)后,决策点321进行检查,以查看对话是否完成,并通过返回到对话-进行步骤313,来确定是否继续该对话,或者,如果该对话已完成,确定是否在结束步骤323结束该对话。
图4描述了基于本发明实施例的生成簇映射的方法。只有当通过对话模型的聚簇是必需的时候才使用此方法。在其它情况下,如先前示出的基于汽车品牌和驾驶员年龄的对话模型的情况下,簇映射是基于特征向量中的整数值。本方法的步骤被如簇映射生成器219(图2B)的一个或多个设备自动执行,如下,本方法继续进行:
乘员配置和乘员配置矢量
本发明的实施例提供了下列一种将参与者分组成与基于对话模型的对话模型相关联的参与者簇的方法。
在开始步骤401,定义了对话模型和相应的乘员配置。在非限制性例子中,“对话模型”包括如下:
输入形态,是用于“用户对话交替”或对话交替的采集的语音或非语音。在非限制性例子中,对话交替中的语音形态可被额定为100%,然而对话交替中的触觉形态可被额定为0%。使用此基于形态评价对话的方式,参与者的对话交替的采集被累积评价为95%是可能的,在此情况下,此对话模型的乘员配置可为95%。
对话中要求的服务。要求的服务例如可包括:导航辅助(A);识别如饭店的商业资源的位置(B);要求公路服务(C)。在相关的例子中,特殊对话参与者要求的服务A占对话的40%,服务B占对话的50%,服务C占对话的10%。这对应于乘员配置[40%50%10%]。
然后,对话模型设计者确定适合于对话模型的不同对话模型的个数。根据本发明的实施例,此数字被存储于数据结构403中。在本发明的另一实施例中,对话模型的占位符被存储在数据结构403中,其中每个占位符对应着一个最终将被生成的对话模型。
然后,在乘员配置步骤405中,计算“乘员配置”(对话模型的测量)。在本发明某些实施例中,该计算在离线时为多个乘员完成。
对于本例子的语音非语音对话模型成分,该乘员配置是特殊参与者的所有对话交替中的语音百分比。例如,如果某参与者的所有对话具有语音形态,那么该乘员配置是100%;如果所有对话都是触觉形态,并且没有语音,则该乘员配置是0%;如果大部分对话是带有少量触觉形态的语音,则该对话配置可能是95%。该乘员配置被存储于数据结构407中。
对于本例子的所要求的服务对话模型成分,特殊乘员的乘员配置成分是所要求的服务的柱状图,例如,[30%,50%,20%]表示服务A、B和C被要求分别占一个具体的参与者的对话的30%,50%和20%。
在计算步骤409中,相应于通过一个或更多个对话模型来对乘员进行聚簇,例如,可为使用乘员的所有对话,为每个乘员ID计算输入形态乘员配置,如存储存对话日志209中。作为非限制性例子,有具有如下乘员配置的四个乘员:
乘员ID | 乘员配置 |
O_1 | 67% |
O_2 | 100% |
O_3 | 33% |
O_4 | 20% |
在步骤411中,根据所选择的聚簇算法(如前所述)来确定簇,并将其存储在存储设备413中。在非限制性例子中,聚簇的结果可以是如下的三个簇:
簇ID | 簇形心 |
C_1 | 100% |
C_2 | 67% |
C_3 | 26.5% |
下面显示了与每个簇ID相关的每个乘员ID的距离度量,以及每个乘员ID的用粗下划线标识的最近簇形心。乘员ID的被映射为最近的簇。
C_1 | C_2 | C_3 | |
O_1 | 33% | 0% | 40.5% |
O_2 | 0% | 33% | 73.5% |
O_3 | 67% | 44% | 6.5% |
0_4 | 80% | 47% | 6.5% |
在步骤415中,根据最小距离度量(如上表中用粗下划线所标识的)将乘员映射到簇,因而乘员O_1、O_2、O_3和O_4分别映射到簇C_2、C_1、C_3和C_3。最后,从乘员ID到簇ID的映射被登记到簇映射417中。
图5描述了根据本发明实施例的,一种生成对话模型集合的方法。在此实施例中,如对话模型生成器215(图2B)的设备执行该方法的步骤,如下,该方法继续进行:
在步骤501中,利用簇映射,从特征向量中获得簇ID。然后,在具有开始点503和终止点523的循环中,每个簇被迭代和处理如下执行:在步骤505中,通过从对话日志209中收集对话,获得与迭代的簇相关联的所有对话。在步骤507中,所收集的对话被分为两个集合:训练集合509和测试集合511。在步骤513中,生成至少一个新对话模型,并将其添加到模型集合207中。如前所述,对话模型可根据本领域已知的算法来生成。在步骤515中,使用测试集合511的对话来评估模型集合207的模型,模型集合207中包括新添加的模型(一个或多个)。如在决策点517中所确定的,如果对话模型的性能改善了,那么在步骤519中该新添加的模型(一个或多个)被保存在模型集合207中。反之,如果性能没有改善,那么在步骤521中,模型集合207被恢复到之前存在的模型。如果没有之前存在的模型,那么模型207被恢复到一般(缺省)模型。
图6描述了根据本发明的实施例的一种系统配置。通过无线链路605与网络609通信的机动车601包括已安装的移动对话单元603。在本发明的实施例中,移动对话单元603包括音频前端。记录的语音和参数(压缩的或非压缩的)被发射到服务器611,该服务器611通过链路613连接到网络609。在一些实施例中,系统响应为再现的波形图。在其它实施例中,系统响应为用于汽车601中安装的文本——语音系统的指令(如文本)。多模型输入/输出被类似地用于其它实施例。在这些实施例中,对话日志存储在服务器611上,该服务器611可为多个汽车使用同一对话模型,该多个汽车例如为分别通过链路617和链路621与网络609进行通信的汽车615和汽车619。在这些实施例中,服务器611执行全部对话处理与学习。另一实施例为不同乘员使用不同模型。在非限制性例子中,同一汽车的驾驶员和乘客可被分配不同的对话模型。
在其它实施例中,代替了对话模型集合存储器207,移动对话单元603具有本地对话模型集合存储器607L。目的是使用相对小数目的模型来支持很多用户。并且根据一个实施例,模型集合存储器607L对于该驾驶员仅具有一个单一对话模型。
在本发明的相关实施例中,系统的操作分布在移动对话单元603与远程对话服务器611间的网络609上。在另一相关实施例中,大部分处理都由远程对话服务器611来完成,并且仅当连接605无效,并且移动对话单元603必须离线操作时,才会使用移动对话单元603。仍是在另一相关实施例中,大部分处理都由移动对话单元603来完成,并且主要使用连接605来从远程模型集合存储器607R中获得本地模型集合存储器607L的更新。仍是在另一实施例中,处理配置根据哪些资源在目前是有效的,而是可变的。然而,在所有这些实施例中,远程对话服务器611在更新、巩固、同步对话模型集合,和记录学习互动上起着核心作用。
本发明的进一步实施例提供了一种执行本发明实施例的前述任何方法或它们的变形的计算机产品。
基于该实施例的计算机产品,包括用于在计算机上执行该方法的可执行命令的集合,其中该可执行命令包含在有形计算机可读非短暂数据存储介质,该存储介质包括但不限于:如磁介质和光介质的计算机介质;计算机内存,半导体内存存储器;闪存;数据存储设备和硬盘组件;远程计算机或通信网络的有形非短暂存储设备;因而,当执行计算机产品的可执行命令时,该计算机产品使计算机执行该方法。
在此实施例中,“计算机”是用于执行实施本发明方法的可执行命令的集合的任意数据处理装置,该数据处理装置包括但不限于:个人计算机;工作站;服务器;网关;路由器;多路复用器,分离器;调制器,解调器;切换器;网络;处理器;控制器;数字装置,平板电脑;移动设备;移动电话;能够执行该命令的任意其它设备。在本发明相关实施例中,在此公开的方法由计算机或计算机的一部分来执行,其包括但不限于由存储设备所支持的处理器,该存储设备能够存储非短暂可执行指令和相应数据。
尽管在此阐述和描述本发明的某些特征,本领域普通技术人员可产生许多修正、替换、改变和等价物。因而可以理解的是,附加的权利要求意于在本发明的真实精神下,覆盖所有的这些修正和改变。
Claims (10)
1.一种用于对设备进行操作,以便与环境中的人类对话参与者进行对话的方法,该方法包括:
获得与至少一个特征相关的参数,该至少一个特征选自包括对话参与者的特征和环境的特征的一组特征;
从多个对话模型中选择具体的对话模型,使得该具体的对话模型与该参数相关;
基于该具体的对话模型,该设备生成至少一个输出对话行为;以及
该设备将该至少一个输出对话行为呈现给人类对话参与者。
2.如权利要求1所述的方法,进一步包括构造特征向量,其中该特征向量至少部分地从该参数中得出。
3.如权利要求2所述的方法,进一步包括确定人类对话参与者的簇。
4.如权利要求3所述的方法,进一步包括为给定簇选择对话模型。
5.如权利要求1所述的方法,进一步包括:
将多个人类对话参与者分组成为多个簇;以及
为该多个簇中的每一个簇生成对话模型。
6.如权利要求5所述的方法,进一步包括在存储设备中记录对话。
7.如权利要求6所述的方法,进一步包括建立用于将多个参数转换为特征向量的特征映射。
8.一种用于选择选定的对话模型,并基于该选定的对话模型来生成和管理对话的系统,该系统包括:
语音生成单元;
对话模型集合存储器;
对话控制单元,用于发送对话行为到该语音生成单元;
簇确定单元,用于确定与该对话相关联的簇ID;以及
对话模型选择单元,用于根据该簇ID,从该对话模型集合存储器中选择选定的对话模型,并发送该选定的对话模型到该对话控制单元;
其中该对话控制单元基于该选定的对话模型,发送该对话行为到该语音生成单元。
9.一种用于建立对话模型的系统,该系统包括:
用于提供先前保存的对话的对话日志存储器;
用于基于来自该对话日志存储器的先前保存的对话,生成该对话模型的对话模型生成器;以及
生成用于从特征向量获得簇ID的簇映射的簇映射生成器。
10.一种用于生成对话模型的系统,该系统包括:
用于提供先前保存的对话的对话日志存储器;
用于基于来自该对话日志存储器的先前保存的对话,生成该对话模型的对话模型生成器;以及
生成用于从对话参数获得特征向量的特征映射的特征映射生成器。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261652569P | 2012-05-29 | 2012-05-29 | |
US61/652569 | 2012-05-29 | ||
US13/874,002 US20130325483A1 (en) | 2012-05-29 | 2013-04-30 | Dialogue models for vehicle occupants |
US13/874002 | 2013-04-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103544337A true CN103544337A (zh) | 2014-01-29 |
Family
ID=49671331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310361706.6A Pending CN103544337A (zh) | 2012-05-29 | 2013-05-29 | 汽车乘员的对话模型 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20130325483A1 (zh) |
CN (1) | CN103544337A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682068A (zh) * | 2015-11-11 | 2017-05-17 | 三星电子株式会社 | 用于适应性更新用于用户认证的注册数据库的方法和设备 |
CN107368524A (zh) * | 2017-06-07 | 2017-11-21 | 阿里巴巴集团控股有限公司 | 一种对话生成方法、装置以及电子设备 |
CN110245224A (zh) * | 2019-06-20 | 2019-09-17 | 网易(杭州)网络有限公司 | 对话生成方法及装置 |
CN110858290A (zh) * | 2018-08-24 | 2020-03-03 | 比亚迪股份有限公司 | 驾驶员异常行为识别方法、装置、设备及存储介质 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9311430B2 (en) * | 2013-12-16 | 2016-04-12 | Mitsubishi Electric Research Laboratories, Inc. | Log-linear dialog manager that determines expected rewards and uses hidden states and actions |
JP6544594B2 (ja) | 2017-01-26 | 2019-07-17 | パナソニックIpマネジメント株式会社 | 情報処理システム、情報処理方法、プログラムおよび車両 |
US20180279899A1 (en) * | 2017-04-03 | 2018-10-04 | International Business Machines Corporation | System, apparatus, and methods for achieving flow state using biofeedback |
US11475883B1 (en) * | 2019-05-29 | 2022-10-18 | Amazon Technologies, Inc. | Natural language dialog scoring |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1491382A (zh) * | 2001-06-29 | 2004-04-21 | �Ҵ���˾ | 在多模式环境中提供对话管理和仲裁的系统和方法 |
US20040148165A1 (en) * | 2001-06-06 | 2004-07-29 | Peter Beyerlein | Pattern processing system specific to a user group |
CN1932974A (zh) * | 2005-09-13 | 2007-03-21 | 东芝泰格有限公司 | 说话者识别设备、说话者识别程序、和说话者识别方法 |
CN101687549A (zh) * | 2007-06-28 | 2010-03-31 | 空中客车营运有限公司 | 用于飞行器的交互式信息系统 |
US20110131144A1 (en) * | 2009-11-30 | 2011-06-02 | International Business Machines Corporation | Social analysis in multi-participant meetings |
CN102272828A (zh) * | 2008-10-31 | 2011-12-07 | 诺基亚公司 | 提供话音接口的方法和系统 |
CN102292766A (zh) * | 2009-01-21 | 2011-12-21 | 诺基亚公司 | 用于提供用于语音识别自适应的复合模型的方法、装置和计算机程序产品 |
US20120016678A1 (en) * | 2010-01-18 | 2012-01-19 | Apple Inc. | Intelligent Automated Assistant |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4980917A (en) * | 1987-11-18 | 1990-12-25 | Emerson & Stern Associates, Inc. | Method and apparatus for determining articulatory parameters from speech data |
US5461696A (en) * | 1992-10-28 | 1995-10-24 | Motorola, Inc. | Decision directed adaptive neural network |
EP1164576B1 (en) * | 2000-06-15 | 2006-02-22 | Swisscom Fixnet AG | Speaker authentication method and system from speech models |
US7295970B1 (en) * | 2002-08-29 | 2007-11-13 | At&T Corp | Unsupervised speaker segmentation of multi-speaker speech data |
US7328155B2 (en) * | 2002-09-25 | 2008-02-05 | Toyota Infotechnology Center Co., Ltd. | Method and system for speech recognition using grammar weighted based upon location information |
US7519534B2 (en) * | 2002-10-31 | 2009-04-14 | Agiletv Corporation | Speech controlled access to content on a presentation medium |
US6889189B2 (en) * | 2003-09-26 | 2005-05-03 | Matsushita Electric Industrial Co., Ltd. | Speech recognizer performance in car and home applications utilizing novel multiple microphone configurations |
US7266537B2 (en) * | 2004-01-14 | 2007-09-04 | Intelligent Results | Predictive selection of content transformation in predictive modeling systems |
US7424363B2 (en) * | 2004-08-20 | 2008-09-09 | Robert Bosch Corporation | Method and system for adaptive navigation using a driver's route knowledge |
US7596370B2 (en) * | 2004-12-16 | 2009-09-29 | General Motors Corporation | Management of nametags in a vehicle communications system |
US20060206333A1 (en) * | 2005-03-08 | 2006-09-14 | Microsoft Corporation | Speaker-dependent dialog adaptation |
NO326770B1 (no) * | 2006-05-26 | 2009-02-16 | Tandberg Telecom As | Fremgangsmate og system for videokonferanse med dynamisk layout basert pa orddeteksjon |
US8374874B2 (en) * | 2006-09-11 | 2013-02-12 | Nuance Communications, Inc. | Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction |
US8214219B2 (en) * | 2006-09-15 | 2012-07-03 | Volkswagen Of America, Inc. | Speech communications system for a vehicle and method of operating a speech communications system for a vehicle |
US8630853B2 (en) * | 2007-03-26 | 2014-01-14 | Nec Corporation | Speech classification apparatus, speech classification method, and speech classification program |
US8386260B2 (en) * | 2007-12-31 | 2013-02-26 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US8195460B2 (en) * | 2008-06-17 | 2012-06-05 | Voicesense Ltd. | Speaker characterization through speech analysis |
US9129601B2 (en) * | 2008-11-26 | 2015-09-08 | At&T Intellectual Property I, L.P. | System and method for dialog modeling |
US8484140B2 (en) * | 2009-06-09 | 2013-07-09 | Microsoft Corporation | Feature vector clustering |
US8160877B1 (en) * | 2009-08-06 | 2012-04-17 | Narus, Inc. | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting |
US9055409B2 (en) * | 2012-02-27 | 2015-06-09 | Ford Global Technologies, Llc | Method and apparatus for roadside assistance facilitation |
US8346563B1 (en) * | 2012-04-10 | 2013-01-01 | Artificial Solutions Ltd. | System and methods for delivering advanced natural language interaction applications |
-
2013
- 2013-04-30 US US13/874,002 patent/US20130325483A1/en not_active Abandoned
- 2013-05-29 CN CN201310361706.6A patent/CN103544337A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040148165A1 (en) * | 2001-06-06 | 2004-07-29 | Peter Beyerlein | Pattern processing system specific to a user group |
CN1491382A (zh) * | 2001-06-29 | 2004-04-21 | �Ҵ���˾ | 在多模式环境中提供对话管理和仲裁的系统和方法 |
CN1932974A (zh) * | 2005-09-13 | 2007-03-21 | 东芝泰格有限公司 | 说话者识别设备、说话者识别程序、和说话者识别方法 |
CN101687549A (zh) * | 2007-06-28 | 2010-03-31 | 空中客车营运有限公司 | 用于飞行器的交互式信息系统 |
CN102272828A (zh) * | 2008-10-31 | 2011-12-07 | 诺基亚公司 | 提供话音接口的方法和系统 |
CN102292766A (zh) * | 2009-01-21 | 2011-12-21 | 诺基亚公司 | 用于提供用于语音识别自适应的复合模型的方法、装置和计算机程序产品 |
US20110131144A1 (en) * | 2009-11-30 | 2011-06-02 | International Business Machines Corporation | Social analysis in multi-participant meetings |
US20120016678A1 (en) * | 2010-01-18 | 2012-01-19 | Apple Inc. | Intelligent Automated Assistant |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682068A (zh) * | 2015-11-11 | 2017-05-17 | 三星电子株式会社 | 用于适应性更新用于用户认证的注册数据库的方法和设备 |
CN106682068B (zh) * | 2015-11-11 | 2022-10-14 | 三星电子株式会社 | 用于适应性更新用于用户认证的注册数据库的方法和设备 |
CN107368524A (zh) * | 2017-06-07 | 2017-11-21 | 阿里巴巴集团控股有限公司 | 一种对话生成方法、装置以及电子设备 |
WO2018223992A1 (zh) * | 2017-06-07 | 2018-12-13 | 阿里巴巴集团控股有限公司 | 一种对话生成方法、装置以及电子设备 |
US10747959B2 (en) | 2017-06-07 | 2020-08-18 | Alibaba Group Holding Limited | Dialog generation method, apparatus, and electronic device |
US11354512B2 (en) | 2017-06-07 | 2022-06-07 | Advanced New Technologies Co., Ltd. | Method and device for generating dialog using trained dialog model |
CN110858290A (zh) * | 2018-08-24 | 2020-03-03 | 比亚迪股份有限公司 | 驾驶员异常行为识别方法、装置、设备及存储介质 |
CN110858290B (zh) * | 2018-08-24 | 2023-10-17 | 比亚迪股份有限公司 | 驾驶员异常行为识别方法、装置、设备及存储介质 |
CN110245224A (zh) * | 2019-06-20 | 2019-09-17 | 网易(杭州)网络有限公司 | 对话生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US20130325483A1 (en) | 2013-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103544337A (zh) | 汽车乘员的对话模型 | |
JP6799574B2 (ja) | 音声対話の満足度の確定方法及び装置 | |
CN107945792B (zh) | 语音处理方法和装置 | |
CN102460423B (zh) | 使用重新识别和统计分类的识别 | |
CN103810995B (zh) | 用于语音系统的调节方法和系统 | |
CN103811002A (zh) | 用于语音系统的调节方法和系统 | |
CN111442778A (zh) | 出行方案推荐方法、装置、设备及计算机可读存储介质 | |
CN115064167B (zh) | 语音交互方法、服务器和存储介质 | |
CN107861957B (zh) | 一种数据分析方法及装置 | |
CN113837669B (zh) | 一种标签体系的评价指标构建方法和相关装置 | |
CN105162875A (zh) | 大数据群体任务分配方法及装置 | |
CN110458664B (zh) | 一种用户出行信息预测方法、装置、设备及存储介质 | |
US20220138574A1 (en) | Method of training models in ai and electronic device | |
CN109146109A (zh) | 订单的分配、模型的训练方法及装置 | |
CN106599179B (zh) | 融合知识图谱和记忆图谱的人机对话控制方法及装置 | |
CN106255950B (zh) | 用户界面系统、用户界面控制装置和用户界面控制方法 | |
CN113570004B (zh) | 一种乘车热点区域预测方法、装置、设备及可读存储介质 | |
CN115374944B (zh) | 模型推理方法、装置、电子设备和存储介质 | |
CN111680514B (zh) | 信息处理和模型训练方法、装置、设备及存储介质 | |
CN115905734A (zh) | 一种基于地理位置信息进行智能推荐的方法及装置 | |
CN116340332A (zh) | 更新车载智能系统的场景库的方法、装置和车辆 | |
CN111950753A (zh) | 一种景区客流预测的方法及装置 | |
CN109739914A (zh) | 多数据源的处理方法、装置、设备及计算机可读存储介质 | |
CN113113002B (zh) | 车辆语音交互方法和系统、以及语音更新系统 | |
CN106775854B (zh) | 一种生成配置文件的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140129 |