CN1938681A - 任务建模的多级置信度度量及其关于面向任务的、多模态的对话管理的应用 - Google Patents

任务建模的多级置信度度量及其关于面向任务的、多模态的对话管理的应用 Download PDF

Info

Publication number
CN1938681A
CN1938681A CN200480000778.7A CN200480000778A CN1938681A CN 1938681 A CN1938681 A CN 1938681A CN 200480000778 A CN200480000778 A CN 200480000778A CN 1938681 A CN1938681 A CN 1938681A
Authority
CN
China
Prior art keywords
action
task
confidence measure
parameter
recipe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200480000778.7A
Other languages
English (en)
Inventor
恒舜·雷蒙德·李
龙尼·塔伊布
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of CN1938681A publication Critical patent/CN1938681A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开一种方法与系统(102),其用于在基于计算机的系统上实现的多模态的、面向任务的对话管理。系统(102)最大化请求任务(302)之后成功完成任务的概率。每一任务与一任务模型相关联,该模型包括方案、动作、参数与模态。对于每一任务,在各级别计算置信度度量。置信度度量表示依照用户偏好,动作成功的概率。使用提供的置信度度量(304),在运行时选择最适宜的方案、动作、参数与模态,以最大化完成任务的概率。在每一动作之后,依照用户偏好,修改置信度度量(312),并相应地选择下一适宜的动作。可选地,提供后评估模块(PEM),以监视用户响应,并修改用于置信度度量计算的公式。

Description

任务建模的多级置信度度量及其 关于面向任务的、多模态的对话管理的应用
技术领域
本发明涉及对话管理系统。更具体地,本发明提供一种方法与系统,其用于使用面向任务的、多模态(multi-modal)的对话管理系统,便利任务完成。
背景技术
最近几十年见证了软件应用的复杂性的增长。它的发生主要是为了向用户提供更多的自动化与更好的功能。处理器速度、硬件架构与网络连通性中的改进也便利了这一过程。随着应用的复杂性增加,用户与应用之间的接口问题也变得复杂。
用户接口担当用户与各软件应用之间的接口。对于到用户的输入/输出,用户接口典型地使用多模态。多模态用户接口系统是这样的用户接口系统,其使用各通信通道,例如键盘与语音识别/合成系统,来在用户与应用之间交换信息。多模态用户接口的使用给予用户/应用根据要交换的信息的类型,在各模式之间进行选择的灵活性。
在任务的成功完成中,用户接口扮演了重要角色。用户接口包括对话管理器,其采用面向任务的对话管理器来完成任务。对话管理器是面向任务的,这是因为其包括下层应用任务的任务模型。任务的任务模型包括多个方案(recipe),该方案为完成任务的方法。例如,任务可以是从数据库取回歌曲文件。完成该任务可以有多个方案。可使用标题、艺术家、流派、发行数据与文件格式的各组合来搜索数据库;而每一组合将组成一不同的方案。
为成功地完成任务,对话管理器必须决定:(1)需要如何完成任务;(2)为进行任务而执行的下一行动;(3)要与用户交换的信息;和(4)要用于用户与应用之间的信息交换的模态。所有上面的决定将在运行时,根据用户的偏好与其它因素,来作出。
对于任务的成功完成,用户接口系统面临的主要问题之一是处理模态与任务所需的其它相关资源的精确度与可获得性中的变化。精确度问题是指接口系统不能精确地接收用户输入的情况。甚至在精确地接收到输入时,接口系统可能不能解释输入,导致解释问题。例如,在语音识别系统中,系统可能不能正确地将接收的语音翻译成文本格式。精确度问题的其它实例是用户使用键盘或小键盘输入的误打字。相反地,用户可能不能解释合成语音形式的输出。解释问题也可能产生自因为低对比度(由于强的外部光亮)与小的/复杂的字体而造成的不清晰的文本或图形输出中。
任务所需的其它相关资源是指诸如网络连接以及与任务域相关的物理对象等资源。要求网络连接的任务的一个示例是要求自远程服务器访问某些信息的任务。为了完成任务而要求物理对象的任务的一个示例是运输领域中的要求卡车作为资源的任务。
用户接口系统面临的另一相关问题是选择一方案,以最大化成功完成任务的概率。典型地,在运行时期间,用户接口系统必须基于用户的响应选择适宜的方案以完成任务。然而,现有用户接口系统不具有任何决定使用哪一方案,以便最大化成功完成任务的概率的技术。
根据现有技术,存在对于用于自动地选择适宜的方案,以最大化成功完成任务的概率的方法与系统的需要。另外,存在对于提供对话管理器的鲁棒性,以处理模态与其它相关资源的精确度与可获得性中的变化的需要。
发明内容
本发明针对一种方法与系统,其用于使用面向任务的、多模态的对话管理,最大化完成任务的概率。
系统包括模态资源监视器(MRM)、对话管理器、置信度度量提取器(CME)与任务建模器。MRM监视所有模态的可获得性与性能。任务建模器存储可由系统执行的每一任务的任务模型。CME使用任务建模器提供的任务模型和MRM提供的模态置信度度量,向对话管理器提供置信度度量。对话管理器控制与用户的对话交互。
任务模型典型地分解为多级抽象。任务的任务模型包括用于完成任务的至少一个方案以及相关联的动作、参数与模态。
在接收对任务的请求后,CME在运行时为与任务相关联的每一方案、动作与参数计算置信度度量。置信度度量对应于可成功完成有关任务模型组件的概率分值。任务模型中较高级别处的置信度度量基于较低级别的置信度度量与当前级别可获得的其它知识源进行计算。
选择具有最高置信度度量的适宜的方案,以最大化完成任务的概率。类似地,还为适宜的方案选择适宜的动作与适宜的参数。适宜的动作在其后执行。
在接收对适宜的动作的用户响应时,基于由模态报告的实际的置信度度量,更新适宜的方案、适宜的动作与适宜的参数的置信度度量。方法再次跳回到选择适宜的方案、适宜的动作与适宜的参数的步骤。重复这些步骤,直到成功完成任务。这样,本发明提供在执行每一动作后,对适宜的方案与适宜的动作的动态选择。
遵照本发明的系统可以可选地具有后评估机制(PEM)。PEM监视对执行的各动作的用户响应,并修改用于计算置信度度量的公式。这有助于遵照用户偏好,持续地改进系统。
附图说明
下面将结合所附绘图,描述本发明的优选实施例,所述绘图被提供以阐释而非限制本发明,其中相似的称号表示相似的组件,并且其中:
图1是阐释示例性系统的框图,该系统实现一种用于多模态的、面向任务的对话管理的方法,其遵照本发明;
图2是阐释示例性任务模型的树形结构;
图3是阐释一种多模态的、面向任务的对话管理的方法的流程图,其遵照本发明的优选实施例;
图4是阐释一种用于提供置信度度量的方法的流程图;
图5是阐释对话控制方法的流程图;
图6是显示用于查找音频文件的任务的任务模型的表格;和
图7是显示为用于查找音频文件的任务模型的方案_1计算置信度度量的表格。
具体实施方式
本发明提供一种方法与系统,其用于面向任务的、多模态的对话管理,以最大化成功完成任务的概率。
图1是示例性系统的框图,该系统实现一种用于对话管理的方法,其遵照本发明的优选实施例。基于计算机的系统102连接到至少一个模态104,以与用户交互。基于计算机的系统102包括模态资源监视器(MRM)106、任务建模器108、置信度度量提取器(CME)110与对话管理器112。MRM106监视各模态104并向CME110提供信息。任务建模器108存储与各任务相关联的任务模型的仓库,并向对话管理器112与CME110提供任务模型。CME110向对话管理器112提供各抽象级别上的任务模型的置信度度量。CME110可以可选地具有后评估模块(PEM)114,以遵照用户响应修改置信度度量公式。对话管理器112具有一种对话控制方法,其为对话管理使用置信度度量与任务模型。下面详细地解释系统的每一组件。
使用至少一个模态104来接收输入并向用户提供输出。可使用的不同输入模态的示例是:键盘、语音识别系统、鼠标、游戏棒与触摸屏。类似地,各输出模态的示例是:显示器、触摸屏、语音合成系统与虚拟现实系统。对于任何本领域技术人员而言将显而易见的是,本发明中公开的方法可与任何模态一起工作。
基于计算机的系统102可以是包括,但不限于,电脑、笔记本电脑、平板电脑、掌上电脑、智能手机、个人数字助理(PDA)与各嵌入式系统等基于计算机的系统中的任何一个。
任务建模器108包括用于下层应用可完成的所有任务的模型。任务的任务模型包括用于完成任务的多个方案。每一任务与任务模型中的至少一个方案相关联。任务模型由任务建模器108向对话管理器112与CME110提供。这些任务模型由下层应用提供。这些任务模型可以由应用按照由对话管理器接受或决定的任一安排(scheme)提供。例如,应用开发者可以在描述符文件中定义应用的任务模型,该文件使用可扩展标注语言(XML),遵循由对话管理器(在文档类型定义中)定义的安排。对话管理器可读取描述符文件并装载应用任务模型描述符,解析XML文件并生成任务模型的内部表示以供其使用。
作为可供选择的另一种替代方案,对话管理器可提供软件库,其包括独立于域的任务建模类。应用开发者可通过使用由对话管理器提供的软件库,来实现任务模型的代码。其后,将这样生成的代码编译为应用程序,以供对话管理器使用。
方案是完成任务的特定方法。每一方案与一套动作与一套约束相关联。动作是给定方案中要完成的步骤。每一方案包括一或多个动作。约束指定时间排序以及与方案相关联的各动作之间的其它绑定,如果有的话。每一动作又与一套参数相关联,这些参数必须由用户在模态输入/输出104完成,以执行动作。每一参数与一套模态相关联,其可用于将参数输入/输出到用户。
图2中阐释了示例性的任务的任务模型。任务-A202与方案-A204和方案-B206相关联。方案-A204又与动作-A208、动作-B210、任务-B212和约束-A214相关联。约束-A214包括动作-A208、动作-B210和任务-B212之间的时间关系。任务-B212与方案-A204相关联的事实显示了任务模型的递归属性。换言之,方案的动作自身可包括任务,该任务具有其自己的任务模型。动作-A208与完成动作-A208所需的参数-A216和参数-B218相关联。参数-A216与模态-A220和模态-B222相关联。
下面将解释用于寻找包含歌曲在内的音频文件的任务的示例任务模型。该任务可使用各方案。一方案可包括指定歌曲名称,指定艺术家名称以及搜索数据库的动作。指定歌曲名称的动作与字符串参数Song_Name相关联。类似地,指定艺术家名称的动作与字符串参数Artist_Name相关联。该方案还与这样的约束相关联,即:搜寻数据库的动作将在其它两动作之后完成。
MRM106提供关于可获得的输入/输出模态的信息。特别地,MRM106检测模态的可获得性,并获取每一可获得的模态的精确度。模态的精确度是模态正确地解释并与用户共享信息的能力。MRM106包括一套用于所有模态的资源监视器。用于每一模态的资源监视器监视模态的各参数,例如可获得性、精确度等等。例如,如果语音识别系统连接到基于计算机的系统102,则在MRM106中将包括用于该语音识别系统的相应的资源监视器。对于本领域技术人员而言显而易见的是,可使用本领域中可获得的任何标准的资源监视器来形成MRM106。例如,移动设备的模态的可获得性可以由W3C的CC/PP(组合能力/偏好设定档)标准提供。与此相关的更多信息可在互联URL站点找到:http://www.w3.org/Mobile/CCPP。模态的精确度信息典型地由单个模态专用的API提供。例如,Java社区过程已交付称为JavaSpeech API(JSAPI)的规范,以监视话音资源。
将各模态的精确度传递给CME110,以提供和修改置信度度量。CME110在任务模型的各抽象级别提供置信度度量。置信度度量表示成功完成任务模型级别组件的概率分值。CME110使用来自任务建模器108的任务模型与来自MRM106的模态信息来计算置信度度量。CME110也存储置信度度量,以供以后使用。CME110可以可选地包括后评估模块(PEM)114,以遵照用户偏好修改用于计算置信度度量的公式。在后面的描述中参照图4进一步解释用于提供置信度度量的方法。
对话管理器112从CME110接收置信度度量。对话管理器112中的对话控制方法使用这些置信度度量来最大化完成任务的概率。对话管理器112还生成系统命令,以执行任务。对话管理器112使用置信度度量和自任务建模器108接收的任务模型来确定适宜的动作。该任务模型也由对话管理器112用于执行任务。在后面的描述中参照图5进一步解释对话控制方法。
参照图3,阐释了一种多模态的、面向任务的对话管理的方法的流程图,其遵照本发明的优选实施例。在步骤302,用户或应用进行对任务的请求。对任务的请求由对话管理器112接收。用户可使用任何可获得的输入模态104来请求任务。应用可通过时间监听器机制在对话管理器中请求任务。在此情形中,将对话管理器作为对任务事件的监听器注册到应用。无论何时应用想要在对话中请求任务,其生成请求任务事件。
在接收对任务的请求时,在步骤304,由CME110提供置信度度量。在此步骤,提供与任务相关联的方案、动作和参数的置信度度量。
在步骤304提供置信度度量之后,在步骤306,使用提供的置信度度量来确定要执行的适宜的动作。适宜的动作由对话管理器112使用对话控制方法确定,以便利任务的完成。
在确定适宜的动作后,在步骤308,由对话管理器112使用适宜的参数执行动作。对话管理器112生成系统命令,以执行适宜的动作。
对话管理器112其后等待并接收对于适宜的动作的用户响应310。在步骤312,基于用户响应,更新置信度度量。
在步骤314,检查任务状态。如果任务完成,则方法结束。如果任务未完成,则确定下一适宜的动作,以便利任务的完成,并且重复后继步骤。下面,详尽地描述上面描述的步骤。
图4是计算置信度度量中包括的步骤的流程图,其遵照本发明的优选实施例。该方法内嵌于CME110中。在步骤402,为每一参数计算参数级置信度度量(PLCM)。计算该任务的任务模型中出现的所有参数的置信度度量。可以以各种方法计算PLCM。下面描述两种示例性的方法。
如果直到计算时,参数仍未由用户提供,使用两个因子计算PLCM:(1)可用来获取该参数的模态的估计的精确度,和(2)相应的估计的为该参数使用一模态的概率。该依赖关系(dependency)可表示为:
PLCM=f({m(p),w(m,p)∶m,p})
其中,
p是参数;
m(p)是用于参数p的输入/输出的模态的估计的精确度;和
w(m,p)是使用用于参数p的输入/输出的模态m的估计的概率。
模态的估计的精确度m(p)可以从基于用户偏好的存储值获取。在另一方法中,可以由用户或模态初始地定义这些精确度。在不可获得精确度的情形中,可使用m(p)的缺省值。
使用模态的概率w(m,p)可以从基于用户偏好的存储值获取。在不可获得这些概率的情形中,系统向所有可获得的用于该参数的模态分配相等的概率。这些概率可以是应用专用的,并且可以由下层应用提供。可以基于使用的实际模态动态地修改概率,以便使系统适应用户偏好。
如果在计算PLCM之前,该参数已经由用户提供,则直接使用自MRM106获取的置信度度量来计算PLCM。
PLCM=CM(m,p)
其中,
CM(m,p)是用于参数p的输入/输出的模态m的置信度度量,如模态m所提供的那样。
对于本领域技术人员而言将显而易见的是,可采用任何用于为输入/输出模态提供置信度度量的方法。一种这样的系统由Ruben SanSegundo等在题为“Confidence Measures for Dialogue Management in theCu Communication System”、出版于Proceedings ICSLP 2000,Vol.2,page no.1237-1240的出版物中公开。一些其它的系统在No.5710864、题为“Systems,methods and articles of manufacture forimproving recognition confidence in hypothesized keywords”的美国专利与No.5710866、题为“A system and method for speech recognitionusing dynamically adjusted confidence measure”的美国专利中公开。上面的引用作为描述置信度度量的速记(short hand)方法包括在此说明书中。
在步骤404,计算与任务模型中的所有方案相关联的动作集之中的每一动作的动作级置信度度量(ALCM)。动作的ALCM表示动作被适当地指定和执行的概率。使用与动作相关联的参数集之中的每一参数的PLCM来计算它。ALCM也依赖于某些应用专用的标准。例如,考虑要求网络连接以供其成功完成的动作。这时,该动作的应用专用的标准是网络连接的可靠性。应用专用的标准与其它类似的因素由动作被成功执行的一般概率表示。上面提到的ALCM的依赖关系可如下表示:
ALCM=g(PLCM(p),p(S))
其中,
PLCM(p)是与动作相关联的参数集之中的参数p的参数级置信度度量;和
p(S)是动作被成功执行的一般概率。
在步骤406,计算与任务相关联的方案集之中的所有方案的方案级置信度度量(RLCM)。方案的PLCM是通过使用该方案成功完成任务的概率。使用约束以及与方案相关联的动作集之中的动作的ALCM来计算它。上面提到的依赖关系可表示为:
RLCM=h(ALCM(a),C)
其中,
ALCM(a)是与方案相关联的动作集之中的动作a的动作级置信度度量;和
C是与方案相关联的约束集。
下面描述在RLCM计算中包括约束的一示例性方法。考虑具有动作ai的方案,其中i可从0变化到m。方案与一套约束相关联,这些约束定义方案的动作的时间顺序。可将动作ai与aj之间的时间约束定义为参数Cij,其中:
Cij=1,如果在方案中aj可在ai之后执行;和
=0,如果在方案中aj不可在ai之后执行。
类似地,也可定义Cji
其后,计算遵照约束的所有可能的动作序列的置信度度量。其后,将方案的RLCM定义为所有可能的动作序列的置信度度量的最大值。任何不满足时间约束的动作序列将具有置信度度量0。RLCM函数h的该定义可表示为:
h=max{hp(ALCM(ai),Cij,ALCM(aj),Cjk,...ALCM(am))}
其中,hp是特定动作序列的置信度度量。
对于本领域技术人员而言将显而易见的是,可采用各种其它公式来在方案计算中包括约束。而且,可以注意,上面阐释的用于置信度度量计算的所有方法与公式均为示例性的。因此,对于本领域技术人员而言将显而易见的是,本发明可以与其它公式一起工作。
图5是确定适宜的动作的流程图,其遵照本发明的优选实施例。在步骤502,从与任务相关联的方案集之中选择适宜的方案。适宜的方案是与任务相关联的方案集之中具有最高置信度度量的方案。对于适宜的方案的这种选择的一个例外是这样的情况,其中用户已经为任务预先选择特定方案。那么,由用户选择的方案为适宜的方案。
在步骤502选择适宜的方案之后,在步骤504,选择适宜的动作。适宜的动作是与适宜的方案相关联的动作集之中具有最高置信度度量的动作。对于适宜的动作的选择最大化在下一对话轮次中成功完成任务的概率,从而推动任务。
在步骤506,从与适宜的动作相关联的参数集之中选择适宜的参数。适宜的参数是与适宜的动作相关联的参数集之中具有最高置信度度量的参数。
在步骤508,为所选参数选择适宜的模态。适宜的模态是与适宜的参数相关联的模态集之中具有最高置信度度量的模态。
重复步骤506与508,直到在步骤510,与适宜的动作相关联的参数集之中的所有参数均被选择。
回到图3,在步骤312,以如下方式进行置信度度量的更新。首先,修改与适宜的动作相关联的参数集中的每一参数相关联的PLCM。下面描述PLCM的修改。遵照用户响应,使用反馈因子修改用于该参数的模态的估计的精确度。遵照用户反馈,加上或者减去反馈因子。反馈因子是调整因子,以依照用户偏好,在各级别反映置信度度量。其后,使用模态的修改的精确度重新计算PLCM。模态精确度中的变化改变了PLCM,这是因为PLCM是遵照如参照图4的描述详述的公式进行计算的。
其后,使用如参照图4的描述详述的公式,使用与适宜的动作相关联的参数集中的每一参数的修改的PLCM来修改适宜的动作的ALCM。在下一步骤,使用如参照图4的描述详述的公式,使用与适宜的方案相关联的动作集中的每一动作的修改的ALCM来修改适宜的方案的RLCM。
在本发明的另一可供选择的实施例中,可以仅计算单级置信度度量,而非多级置信度度量。在此情形中,可以仅直接计算RLCM,而非多级方式。
在另一可供选择的实施例中,PEM评估用户响应,以评定其对于成功完成任务的相关度。这通过评定动作在用户上是否具有预期的效果,并确定对话是否可运行到下一轮次来进行。如果对话正原路返回,则系统调节置信度度量公式,以减小上一方案、动作与相关联的参数的权重。这有助于改进今后对方案、动作与参数的选择,以最大化完成任务的概率。
例如,考虑针对完成信息性任务的动作。遵照本发明的一个实施例的系统决定显示图像,而非使用文本合成,以输出文本。如果用户对输出满意,在下一步骤,用户将要求执行文本上的信息。假设,用户响应以“我不能读清细节”,因为图像在可获得的设备上太小,难以查看。这样,接口系统今后对于类似的任务将不使用图像输出。
下面描述遵照用户响应修改用于置信度度量计算的公式的一示例性方法。
在一种方法中,可通过依赖于用户响应的反馈因子来修改用于PLCM的公式。如果用户响应是正面的,则以反馈因子增加用于PLCM的公式。如果,相反地,用户响应是负面的,以反馈因子减少用于PLCM的公式。修改的公式可表示为:
PLCM=f({m(p),w(m,p)∶m,p})+EP
其中,EP是基于用户响应增加/减少的反馈因子。
在另一方法中,可通过取决于用户响应的反馈因子来修改用于ALCM的公式。如果用户响应是正面的,则以反馈因子增加用于ALCM的公式。如果,相反地,用户响应是负面的,以反馈因子减少用于ALCM的公式。修改的公式可表示为:
ALCM=g(PLCM(p),p(S))+EA
其中,EA是基于用户响应增加/减少的反馈因子。
在一不同的方法中,通过依赖于用户响应的反馈因子来修改用于RLCM的公式。修改的公式可表示为:
RLCM=h(ALCM(a),C)+ER
其中,ER是基于用户响应增加/减少的反馈因子。
在一可供选择的实施例中,可实行机器学习机制,以遵照用户的偏好、当前应用专用的偏好以及环境特定的议题(issue),动态地修改PLCM、ALCM与RLCM公式。在此情形中,反馈因子EP、EA与ER取决于用户偏好、应用专用的偏好以及环境特定的议题。在残障人士的情形中,用户偏好可能是重要的。例如,听觉障碍人士可选择图形或文本输出胜于语音输出。环境特定的议题是指任务的方案的选择上的执行的时间与空间的效果。例如,在户外位置中,对于输出而言,语音合成系统可能不是一个好的选择。因此,对于展现输出,可给予视频显示器胜过语音合成系统的偏好。环境特定的议题的另一示例是遵照位置(例如剧院、会议、家中等等)改变用户的偏好。
尽管本发明在语音识别/合成模态的帮助下公开,对于本领域技术人员而言将显而易见的是,可将本发明扩展到任何模态,而不偏离本发明的实质。
对于单个应用或者对于多个应用,可实现遵照本发明的单个CME。然而,应用必须以由本发明定义的形式向CME提供任务模型。CME其后可操作在合并的任务模型上。例如,遵照本发明的CME可驻留在智能手机上,其任务模型用于典型的电话操作,例如拨号与电话簿。也可将电话连接到网络,该网络提供额外的应用,例如媒体信息搜索。智能手机其后变为提供典型的电话操作与媒体信息搜索的终端。这样,CME可与用户交互,以访问本地或联网应用。在一些情形中,还可能有额外的应用通过提供完成任务的新方案来扩展已有应用。
现已描述所述方法与系统,下面展现一示例,其阐释本发明的使用。这里阐释这样的任务域,其中用户与系统交互,以在其CD收藏中查找音频文件。系统连接到语音与图形/文本模态,以接收输入并提供输出。任务模型显示在图6中。它包括两方案:Recipe_1与Recipe_2(方案_1和方案_2)。每一方案包括若干动作,为完成方案(从而完成任务)需要完成这些动作。例如,Recipe_1与动作specify_song_name、specify_artist_name与search_database相关联。Recipe_1还与给定动作的时间排序的约束相关联。每一动作又与若干参数相关联,需要指定这些参数。例如,动作specify_song_name与参数Song_Name1相关联。
一旦用户请求了搜索音频文件的任务,CME110会为两种方案计算置信度度量。置信度度量是按照下述方法计算的。
图7阐示用于Recipe_1的多级别置信度度量。从所存储的值获取用于每一参数的各模态的精确度。也可从这些模态自身获取这些精确度。例如,对于语音识别系统与键盘而言,用于参数Song_Name1的模态精确度分别是0.8与0.9。为计算每一参数的PLCM,使用这些精确度以及为该参数使用每一模态的概率。在本示例中,对于每一参数,可获得两模态。因此,对每一模态赋予概率0.5。用来计算PLCM的函数是:
PLCM=∑{p(m)x w(m,p)}
因此,计算PLCM为0.5*0.8+0.5*0.9=0.85。
动作的ALCM被定义为与动作相关联的参数的PLCM的乘积。使用该公式计算所有ALCM。类似地,方案的RLCM被定义为与菜单相关联的动作的ALCM的乘积。用来计算置信度度量的所有函数均为示例性的,为了简化公式而选择。
类似地,计算Recipe_2的置信度度量。其后,基于这些置信度度量,选择适宜的方案。出于示例性的目的,考虑Recipe_2的RLCM为0.6。因此,选择具有RLCM为0.68的Recipe_1而非Recipe_2作为适宜的方案。考虑约束与ALCM,选择动作specify_song_name作为要执行的适宜的动作。由于该动作仅有一参数,选择其作为适宜的参数。出于示例性的目的,如果用户选择为该参数使用语音模式,应用用户交互将如下:
Recipe_1动作:请指定歌曲名称
用户响应_1:“Love Song”
出于示例性的目的,假定由模态提供的该交互的置信度度量为0.5。使用用于语音模态的修订的(新的)置信度度量值,即上面描述的公式PLCM=CM(m,p)的修订的置信度度量值,修改参数Song_Name1的PLCM和动作specify_song_name的ALCM。还使用修改的ALCM修改Recipe_1的RLCM。Recipe_1的修改的RLCM是0.165。因此,系统选择具有RLCM为0.6的Recipe_2作为适宜的方案,以最大化完成任务的概率。遵照本发明的这一动态的方案选择有助于最大化成功完成任务的概率。选择具有最高ALCM并满足所有约束的动作作为适宜的动作。出于示例性的目的,假定动作specify_year_of_release是适宜的动作。下面是应用用户交互:
Recipe_2动作:哪一年发行?
用户响应_2(User response_2):“2002”
再次重复更新置信度度量的完整流程。出于示例性的目的,假定Recipe_2仍具有比Recipe_1更高的RLCM。进一步的交互将会像下面这样:
Recipe_2动作:为帮助我查找文件,敲入歌词的几个词,如果你行的话。
用户响应_3:“the real world”
其后,完成搜索数据库的动作,并将结果返回给用户。
可在用于各种高端联网设备的对话管理器中采用本发明,该设备向连接的设备提供众多应用与服务。连接的设备可以是各种移动设备,例如智能手机、笔记本电脑与个人数字助理(PDA)。
例如,向经由网络连接的各种设备提供媒体内容与搜索工具的数据库可以使用本发明。一般地,浏览和搜索的信息可以是任何媒体信息,例如图像、声音与视频片断。用户可以通过使用移动设备(例如智能手机)经由网络(例如GPRS或3G)与服务器交互来搜索媒体信息。典型地,使用与媒体信息相关联的描述符来执行这些数据搜索。例如,可以用其大小、日期、人员、地点等描述来标注照片图像。这些情形中的交互牵涉用户与系统之间的多个对话轮次,其中用户基于对话的当前状态与搜索结果,提供或修改其搜索标准。这里使用本发明来管理交互,其通过基于该特定智能手机的模态能力,动态地查找并施行适宜的方案。
另一示例是电影查找器应用程序,其中用户可使用无线设备(例如移动手持设备)搜索要看的电影,并在线订票。在此情形中,依据用户偏好与设备的模态可获得性,用户可浏览并使用各种标准,例如通过位置(电影院、市郊)、通过流派或通过放映时间,搜索电影。依据设备的输出能力与环境,应用程序将以不同方式表现其信息。例如,可以在具有充足的图形解析度的彩色手持设备上显示电影院的就座计划,而仅在单色设备上显示简单形式。对话交互也受到发生对话的环境的影响,例如用户的位置、当天的时间(time of day)。
本发明可施行于任何基于计算机的系统。计算机系统的典型示例包括通用计算机、编程的微处理器、微控制器、集成外设的电路组件、以及能够实现组成本发明的方法的步骤的其它设备或设备的排列。
尽管已阐释和描述本发明的优选实施例,对于本领域技术人员而言将明显的是,本发明并不仅限于这些实施例。对于本领域技术人员而言,各种修改、变动、变形、替换与等价物将是显而易见的,而不偏离如权利要求书所述的本发明的实质与范围。

Claims (20)

1.一种由基于计算机的系统便利完成任务的方法,所述任务由基于计算机的系统上的用户或应用来请求,所述任务与一组方案相关联,每一方案与一组动作和一组约束相关联,所述方案为完成所述任务定义动作执行的方式,每一所述动作与一组参数相关联,每一所述参数与一组模态相关联,所述模态为所述用户与所述基于计算机的系统之间的通信通道,所述方法包括:
为与所述任务相关联的所述方案、所述动作与所述参数提供置信度度量;
使用所提供的置信度度量,确定要执行的适宜的动作,确定所述的适宜的动作以便利完成所述任务;
执行所述的适宜的动作;
接收对所述的执行的适宜的动作的用户响应;
遵照所述用户响应更新所述置信度度量;和
重复所述的确定到更新步骤,直到完成所述任务。
2.如权利要求1所述的方法,其中为所述方案、所述动作与所述参数提供置信度度量包括:
为每一参数计算置信度度量;
为每一动作计算置信度度量,其使用与所述动作相关联的那组参数的置信度度量;和
为每一方案计算置信度度量,其使用与所述方案相关联的那组动作的置信度度量。
3.如权利要求2所述的方法,其中为每一参数计算置信度度量包括:
估计与所述参数相关联的那组模态的精确度;
估计与所述参数相关联的那组模态的使用的概率;和
使用所述的估计的精确度与所述的估计的概率,为所述参数计算所述置信度度量。
4.如权利要求2所述的方法,其中,使用与所述动作相关联的那组参数的置信度度量和成功执行所述动作的概率,为每一动作计算置信度度量。
5.如权利要求2所述的方法,其中,使用与所述方案相关联的那组动作的置信度度量和与所述方案相关联的那组约束,为每一方案计算置信度度量。
6.如权利要求1所述的方法,其中,使用用户偏好、应用专用偏好与环境特定议题中的一个或多个,计算所述置信度度量。
7.如权利要求1所述的方法,其中,确定所述的适宜的动作包括:
选择适宜的方案,所述的适宜的方案为具有最高置信度度量的方案,从与所述任务相关联的那组方案中选择所述的适宜的方案;
选择所述的适宜的动作,所述的适宜的动作为具有最高置信度度量的动作,从与所述的适宜的方案相关联的那组动作中选择所述的适宜的动作;
选择适宜的参数,所述的适宜的参数为具有最高置信度度量的参数,从与所述的适宜的动作相关联的那组参数中选择所述的适宜的参数;
选择适宜的模态,所述的适宜的模态为具有最高置信度度量的模态,从与所述的适宜的参数相关联的那组模态中选择所述的适宜的模态;和
重复所述的选择适宜的参数到选择适宜的模态的子步骤,直到选择了与所述的适宜的动作相关联的那组参数中的所有参数。
8.如权利要求1所述的方法,其中,更新所述置信度度量包括:
基于所观察到的用户响应,修改与所述的适宜的动作相关联的那组参数的置信度度量;
使用与所述的适宜的动作相关联的那组参数的所述的修改的置信度度量,修改所述的适宜的动作的置信度度量;和
使用所述的适宜的动作的修改的置信度度量,修改与所述的适宜的动作相关联的所述方案的置信度度量。
9.如权利要求1所述的方法,其进一步包括存储所更新的置信度度量,以供今后使用。
10.如权利要求1所述的方法,其进一步包括:
评估对所执行的动作的用户响应;和
基于所述评估,修改用于所述置信度度量计算的公式表示,所述公式表示为用于所述置信度度量的计算的公式。
11.如权利要求10所述的方法,其中,修改用于所述置信度度量计算的公式表示是通过使用机器学习机制来进行的。
12.一种用于计算机的计算机程序产品,所述计算机程序产品包括计算机可用的媒体,其中内嵌有用于便利完成任务的计算机可读的程序代码,所述任务由所述的基于计算机的系统上的用户或应用来请求,所述任务与一组方案相关联,每一所述方案与一组动作和一组约束相关联,所述方案为完成所述任务定义动作执行的方式,每一所述动作与一组参数相关联,每一所述参数与一组模态相关联,所述模态为所述用户与所述基于计算机的系统之间的通信通道,所述方法包括:
为与所述任务相关联的所述方案、动作与参数提供置信度度量;
使用所提供的置信度度量,确定要执行的适宜的动作,确定所述的适宜的动作以便利完成所述任务;
执行所述的适宜的动作;
接收对所执行的适宜的动作的用户响应;
遵照所述用户响应更新所述置信度度量;和
重复所述的确定到更新步骤的步骤,直到完成所述任务。
13.如权利要求12所述的计算机程序产品,其中,进行所述的为所述方案、所述动作与所述参数提供所述置信度度量的步骤的所述计算机程序代码包括进行以下子步骤的计算机程序代码:
为每一参数计算置信度度量;
为每一动作计算置信度度量,其使用与所述动作相关联的那组参数的置信度度量;和
为每一方案计算置信度度量,其使用与所述方案相关联的那组动作的置信度度量。
14.如权利要求12所述的计算机程序产品,其中,进行所述的确定所述的适宜的动作的步骤的所述计算机程序代码包括进行以下子步骤的计算机程序代码:
选择适宜的方案,所述的适宜的方案为具有最高置信度度量的方案,从与所述任务相关联的那组方案中选择所述的适宜的方案;
选择所述的适宜的动作,所述的适宜的动作为具有最高置信度度量的动作,从与所述的适宜的方案相关联的那组动作中选择所述的适宜的动作;
选择适宜的参数,所述的适宜的参数为具有最高置信度度量的参数,从与所述的适宜的动作相关联的那组参数中选择所述的适宜的参数;
选择适宜的模态,所述的适宜的模态为具有最高置信度度量的模态,从与所述的适宜的参数相关联的那组模态中选择所述的适宜的模态;和
重复所述的选择适宜的参数到选择适宜的模态的子步骤,直到选择了与所述的适宜的动作相关联的那组参数中的所有参数。
15.如权利要求12所述的计算机程序产品,其中,进行更新所述置信度度量的步骤的所述计算机程序代码包括进行以下子步骤的计算机程序代码:
基于所观察到的用户响应,修改与所述的适宜的动作相关联的那组参数的置信度度量;
使用与所述的适宜的动作相关联的那组参数的修改的置信度度量,修改所述的适宜的动作的置信度度量;和
使用所述的适宜的动作的修改的置信度度量,修改与所述的适宜的动作相关联的所述方案的置信度度量。
16.一种适宜于便利完成任务的系统,所述任务与一组方案相关联,每一所述方案与一组动作和一组约束相关联,每一所述动作与一组参数相关联,每一所述参数与一组模态相关联,所述系统连接到至少一个模态以与用户交互,所述系统包括:
模态资源监视器,其用于监视各种模态;
任务建模器,其包括用于所有任务的模型,用于任务的模型包括所述方案、所述动作、所述参数、所述模态与所述关联;
置信度度量提取器,其连接到所述模态资源监视器与所述任务建模器,所述置信度度量提取器为所有方案提供置信度度量;和
对话管理器,其连接到所述置信度度量提取器与所述任务建模器,所述对话管理器使用所述置信度度量选择适宜的动作,以便利完成所述任务,所述的适宜的动作为具有最高置信度度量的动作。
17.如权利要求16所述的系统,其中,所述模态包括键盘、语音识别系统、鼠标、游戏棒、显示器与触摸屏中的一个或多个。
18.如权利要求16所述的系统,其中,所述置信度度量提取器包括后评估模块,其用于基于用户响应,修改和存储用于所述置信度度量计算的公式表示。
19.如权利要求18所述的系统,其中,所述后评估模块采用机器学习机制,其使用用户偏好、应用专用偏好与环境特定议题中的一个或多个,修改用于所述置信度度量计算的所述公式表示。
20.一种由基于计算机的系统便利完成任务的方法,所述任务由所述的基于计算机的系统上的用户或应用来请求,所述任务与一组方案相关联,每一所述方案与一组动作和一组约束相关联,所述方案为完成所述任务定义动作执行的方式,每一所述动作与一组参数相关联,每一所述参数与一组模态相关联,所述模态为所述用户与所述基于计算机的系统之间的通信通道,所述方法包括:
a.为与所述任务相关联的所述方案、动作与参数提供置信度度量;
b.选择适宜的方案,所述的适宜的方案为具有最高置信度度量的方案,从与所述任务相关联的那组方案中选择所述的适宜的方案;
c.选择所述的适宜的动作,所述的适宜的动作为具有最高置信度度量的动作,从与所述的适宜的方案相关联的那组动作中选择所述的适宜的动作;
d.选择适宜的参数,所述的适宜的参数为具有最高置信度度量的参数,从与所述的适宜的动作相关联的那组参数中选择所述的适宜的参数;
e.选择适宜的模态,所述的适宜的模态为具有最高置信度度量的模态,从与所述的适宜的参数相关联的那组模态中选择所述的适宜的模态;和
f.重复所述的子步骤d~e,直到选择了与所述的适宜的动作相关联的那组参数中的所有参数;
g.执行所述的适宜的动作;
h.接收对所执行的适宜的动作的用户响应;
i.遵照所述用户响应更新所述置信度度量;和
j.重复所述的步骤b~i,直到完成所述任务。
CN200480000778.7A 2003-07-03 2004-07-01 任务建模的多级置信度度量及其关于面向任务的、多模态的对话管理的应用 Pending CN1938681A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/613,790 US20050004788A1 (en) 2003-07-03 2003-07-03 Multi-level confidence measures for task modeling and its application to task-oriented multi-modal dialog management
PCT/US2004/021153 WO2005003919A2 (en) 2003-07-03 2004-07-01 Multi-level confidence measures for task modeling and its application to task-oriented multi-modal dialog management

Publications (1)

Publication Number Publication Date
CN1938681A true CN1938681A (zh) 2007-03-28

Family

ID=33552767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200480000778.7A Pending CN1938681A (zh) 2003-07-03 2004-07-01 任务建模的多级置信度度量及其关于面向任务的、多模态的对话管理的应用

Country Status (3)

Country Link
US (1) US20050004788A1 (zh)
CN (1) CN1938681A (zh)
WO (1) WO2005003919A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700835A (zh) * 2008-10-31 2015-06-10 诺基亚公司 提供话音接口的方法和系统
CN109313540A (zh) * 2016-05-13 2019-02-05 马鲁巴公司 口语对话系统的两阶段训练
WO2019243911A1 (en) * 2018-06-20 2019-12-26 International Business Machines Corporation Determination of subject matter experts based on activities performed by users

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080158223A1 (en) * 2007-01-02 2008-07-03 International Business Machines Corporation Method and system for dynamic adaptability of content and channels
US20080163052A1 (en) * 2007-01-02 2008-07-03 International Business Machines Corporation Method and system for multi-modal fusion of physical and virtual information channels
US20080159328A1 (en) * 2007-01-02 2008-07-03 International Business Machines Corporation Method and system for in-context assembly of interactive actionable insights and modalities in physical spaces
US8856002B2 (en) * 2007-04-12 2014-10-07 International Business Machines Corporation Distance metrics for universal pattern processing tasks
US9886947B2 (en) * 2013-02-25 2018-02-06 Seiko Epson Corporation Speech recognition device and method, and semiconductor integrated circuit device
US20150032814A1 (en) * 2013-07-23 2015-01-29 Rabt App Limited Selecting and serving content to users from several sources
CN105183848A (zh) * 2015-09-07 2015-12-23 百度在线网络技术(北京)有限公司 基于人工智能的人机聊天方法和装置
US10733556B2 (en) 2016-05-09 2020-08-04 Mighty AI LLC Automated tasking and accuracy assessment systems and methods for assigning and assessing individuals and tasks
US20170323211A1 (en) * 2016-05-09 2017-11-09 Mighty AI, Inc. Automated accuracy assessment in tasking system
US11874861B2 (en) * 2019-05-17 2024-01-16 International Business Machines Corporation Retraining a conversation system based on negative feedback

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL120622A (en) * 1996-04-09 2000-02-17 Raytheon Co System and method for multimodal interactive speech and language training
US5819243A (en) * 1996-11-05 1998-10-06 Mitsubishi Electric Information Technology Center America, Inc. System with collaborative interface agent
WO1998050907A1 (en) * 1997-05-06 1998-11-12 Speechworks International, Inc. System and method for developing interactive speech applications
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
US7003038B2 (en) * 1999-09-27 2006-02-21 Mitsubishi Electric Research Labs., Inc. Activity descriptor for video sequences
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US7546382B2 (en) * 2002-05-28 2009-06-09 International Business Machines Corporation Methods and systems for authoring of mixed-initiative multi-modal interactions and related browsing mechanisms
US7512496B2 (en) * 2002-09-25 2009-03-31 Soheil Shams Apparatus, method, and computer program product for determining confidence measures and combined confidence measures for assessing the quality of microarrays

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700835A (zh) * 2008-10-31 2015-06-10 诺基亚公司 提供话音接口的方法和系统
US9978365B2 (en) 2008-10-31 2018-05-22 Nokia Technologies Oy Method and system for providing a voice interface
CN109313540A (zh) * 2016-05-13 2019-02-05 马鲁巴公司 口语对话系统的两阶段训练
WO2019243911A1 (en) * 2018-06-20 2019-12-26 International Business Machines Corporation Determination of subject matter experts based on activities performed by users
US11182266B2 (en) 2018-06-20 2021-11-23 International Business Machines Corporation Determination of subject matter experts based on activities performed by users

Also Published As

Publication number Publication date
US20050004788A1 (en) 2005-01-06
WO2005003919A2 (en) 2005-01-13
WO2005003919A3 (en) 2005-12-15

Similar Documents

Publication Publication Date Title
CN110998567B (zh) 用于对话语义分析的知识图谱
US11016786B2 (en) Search augmented menu and configuration for computer applications
Stanciulescu et al. A transformational approach for multimodal web user interfaces based on UsiXML
US8271107B2 (en) Controlling audio operation for data management and data rendering
US8799323B2 (en) Method and apparatus for displaying data stored in linked nodes
CN111033492A (zh) 为自动化助手提供命令束建议
JP4949407B2 (ja) 最適化ベースのビジュアル・コンテキスト管理
US20070061132A1 (en) Dynamically generating a voice navigable menu for synthesized data
EP1640839A1 (en) A method and system for presenting user tasks for the control of electronic devices
EP1647884A2 (en) A method and system for the orchestration of tasks on consumer electronics
US20070168194A1 (en) Scheduling audio modalities for data management and data rendering
US20070061371A1 (en) Data customization for data of disparate data types
US11474843B2 (en) AI-driven human-computer interface for associating low-level content with high-level activities using topics as an abstraction
CN1938681A (zh) 任务建模的多级置信度度量及其关于面向任务的、多模态的对话管理的应用
US20200004890A1 (en) Personalized artificial intelligence and natural language models based upon user-defined semantic context and activities
US20060167848A1 (en) Method and system for query generation in a task based dialog system
JP2023502815A (ja) 放送音声を生成する方法、装置、機器、およびコンピュータ記憶媒体
CN112352224A (zh) 具有模型生命周期管理的聊天机器人系统
US7647227B1 (en) Machine assisted speech generation for a conversational voice response system
Hartmann et al. Tailoring the interface to individual users
CN117882063A (zh) 应用可视化分析意图语言以生成数据可视化
Solon TeleMorph & TeleTuras: Bandwidth determined Mobile MultiModal Presentation
CN118484180A (zh) 系统开发方法、装置、设备及存储介质
van der Sluijs et al. Hera: Engineering web applications using semantic web-based models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication