CN101884064B

CN101884064B - 信息处理设备和信息处理方法

Info

Publication number: CN101884064B
Application number: CN2008801185101A
Authority: CN
Inventors: 迪·普罗菲奥·乌戈
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-12-07
Filing date: 2008-12-04
Publication date: 2012-04-25
Anticipated expiration: 2028-12-04
Also published as: CN101884064A; WO2009072567A1; JP2010020273A; US20100312561A1

Abstract

本发明公开了信息处理设备、信息处理方法和计算机程序。提供了一种用于使用POMDP进行基础处理的设备和方法。设计配置以使得为了通过来自用户的话语理解来自用户的请求而使用POMDP(部分可观察马尔可夫决策过程)进行基础处理，其中，将从接收用户的话语并进行语言分析的语言分析单元获取的分析信息以及包括从进行任务的任务管理器获取的任务可行性信息的实体信息设置为观察信息。因此，可以有效地实现理解，并且可以提供对用户请求的高速准确的识别以及基于用户请求的任务执行。

Description

信息处理设备和信息处理方法

技术领域

本发明涉及信息处理设备、信息处理方法和计算机程序，具体地，涉及应用于用于通过例如用户与信息处理设备(例如电视机)之间的通信来执行处理的配置的信息处理方法及计算机程序，更具体地，涉及其中信息处理设备分析来自用户的话语(utterance)并执行用户所请求的任务的配置。

此外，本发明涉及执行基础处理(grounding process)以使系统使用POMDP(部分可观察马尔可夫决策过程)来正确地识别用户的意图的信息处理设备、信息处理方法和计算机程序。

背景技术

例如，对于其中诸如电视机等的系统识别从用户输出的话语并在不使用遥控器的情况下进行处理的配置，已经进行了各种研究。为了使系统理解用户的话语并进行正确的处理，需要用户与系统之间的共识。

例如，如果系统不能理解用户请求，则系统需要通过询问用户问题并使用来自用户的回答正确理解用户的意图来解决该问题。

为了与用户进行通信，系统主要进行以下两个处理：

响应于用户请求在系统内部进行的处理(例如，在系统为电视机的情况下，响应于用户请求在系统内部进行的用于改变频道的处理)(称为“域任务”)；以及

用于通过会话实现系统和用户之间的相互理解的处理，其中在该会话中，如果系统不能理解用户请求，则系统询问用户问题并使用回答(称为“会话任务”)。

例如，在多人间的会谈中，将为使这多人相互理解所进行的处理称为“基础”。在该基础中，需要进行下面的处理：

(1)用于确认是否已实现了相互理解的处理；以及

(2)为了实现相互理解所进行的处理。

(1)为了确认是否已实现了相互理解，需要用于确定是否已实现了理解的标准。例如，需要理解的确信度或用于测量满意度的指标。另外，对于说话者和倾听者，标准的水平需要相同。

(2)在用于实现相互理解的处理中，也就是说，在基础处理中，重要的是对用于测量用户和基础动作之间的会谈或通信的有效性的指标进行标准化。

非专利文献1(作者为David R.Traum和James F.Allen.的A speech acts approach to grounding in conversation.In proceedings 2nd International Conference on Spoken Langrage Processing(ICSLP-92)，pages 137-40，1992年10月)说明了一种与用于实现相互理解的处理(即，基础处理)相关的现有技术。

参考图1和2说明该非专利文献中所示的配置。如图1所示，例如，该非专利文献说明了一种应用于在多人间进行的通信处理的状态变换结构。在通信处理中，如图1所示，出现下面七个状态：

S.初始状态；

1.紧接在开始之后的状态；

2.系统混乱状态；

3.需要确认状态；

4.用户混乱状态；

F.基础状态；以及

D.取消状态。

在通信处理中，发生这七个状态间的变换。

在非专利文献1中，如图2的表所示，定义与状态变换相对应的当前状态与使得发生状态变换的动作之间的对应关系。图2表示当在当前状态下进行该表所示的下个动作时(即，开始(I)到取消(R))可以变换成下个状态(S到D)。

例如，在初始状态(S)下，动作发起者(发起人)进行某一动作。例如，第一用户变成动作发起者，并且第一用户发出话语。在这种情况下，状态从(S)改变成“1”。此外，当动作发起者(发起人)在状态(1)下继续发出话语时，状态持续为(1)或者从状态(1)改变成状态(4)。

如果状态改变成基础状态“F”，则确定正进行会谈的多人达到了相互理解状态。取消“D”是这些用户未能达到相互理解的状态。

在非专利文献1中，主要说明在通信中多人相互理解的处理，即，基础处理。对于人和系统间的通信，这种相互理解处理(基础处理)也是必需的。也就是说，当用户请求系统(例如电视机)进行处理时，用户和系统必须达到相互理解，以进行正确的处理。

非专利文献1：David R.Traum和James F.Allen.的A speech acts approach to grounding in conversation.In proceedings 2nd International Conference on Spoken Langrage Processing(ICSLP-92)，第137-40页，1992年10月

发明内容

技术问题

为解决上述问题，本发明的目的是提供一种使得系统在与用户的通信中实现相互理解并有效进行正确处理的信息处理设备、信息处理方法和计算机程序。

本发明的另一目的是提供一种使得解释来自用户的话语的诸如电视机等的系统使用POMDP(部分可观察马尔可夫决策过程)来正确地识别用户的意图并进行处理的信息处理设备、信息处理方法和计算机程序。

技术方案

根据本发明的第一方面，提供一种用于接收来自用户的话语并分析该话语的信息处理设备。该信息处理设备的特征在于包括：用户接口，该用户接口接收来自用户的话语并进行语言分析；会话管理器，该会话管理器接收与通过用户接口输入的用户话语相关的信息的识别结果，并通过使用部分可观察马尔可夫决策过程(POMDP)进行用于理解用户请求的基础处理；以及任务管理器，该任务管理器基于与会话管理器所进行的基础处理的结果相关的信息而执行任务，其中，所述会话管理器具有配置以使用部分可观察马尔可夫决策过程进行基础处理，其中，当部分可观察马尔可夫决策过程执行用于确定是否理解了用户话语的管理处理时，将根据来自所述用户的话语而生成的语义信息以及基于包括由所述任务管理器进行的任务的可行性的信息而生成的实体信息设置为观察空间。

根据本发明的实施例，该信息处理设备的特征在于还包括显示器，其中，在由会话管理器进行的基础处理期间，显示器为用户显示系统动作。

根据本发明的另一实施例，该信息处理设备的特征在于，会话管理器具有配置以使用POMDP进行基础处理，其中，将使用用作观察空间的语义信息计算出的状态值和使用用作观察空间的实体信息计算出的状态值设置为状态空间。

根据本发明的另一实施例，该信息处理设备的特征在于，会话管理器具有配置以使用POMDP进行基础处理，其中，将使用用作观察空间的语义信息计算出的状态值、使用用作观察空间的实体信息计算出的状态值、以及使用其它观察空间计算出的状态值设置为状态空间。

根据本发明的另一实施例，该信息处理设备的特征在于，会话管理器具有配置以使用POMDP进行基础处理，其中POMDP具有以下配置：其中基于包括使用用作观察空间的语义信息计算出的状态值和使用用作观察空间的实体信息计算出的状态值的状态空间来计算成本。

根据本发明的另一实施例，该信息处理设备的特征在于，会话管理器具有配置以使用POMDP进行基础处理，其中，当部分可观察马尔可夫决策过程执行用于基础阶段变换的管理处理时，将包括来自用户的话语的用户动作设置为观察空间。

根据本发明的另一实施例，该信息处理设备的特征在于，会话管理器具有配置以使用POMDP进行基础处理，其中，将使用用作观察空间的用户动作计算出的状态值设置为状态空间。

此外，根据本发明的第二方面，提供一种信息处理设备中使用的信息处理方法，其中，该信息处理设备用于接收来自用户的话语并且分析该话语，该信息处理方法的特征在于包括以下步骤：语言输入和分析步骤，该语言输入和分析步骤通过使用用户接口接收来自用户的话语并进行语言分析；会话管理步骤，该会话管理步骤通过使用会话管理器，接收与通过用户接口输入的用户话语相关的信息的识别结果，并使用部分可观察马尔可夫决策过程(POMDP)进行用于理解用户请求的基础处理；以及任务管理步骤，该任务管理步骤通过使用任务管理器来基于与在会话管理步骤中进行的基础处理的结果相关的信息而执行任务，其中，所述会话管理步骤是使用部分可观察马尔可夫决策过程进行基础处理的步骤，其中，当部分可观察马尔可夫决策过程执行用于确定是否理解了用户话语的管理处理时，将响应于来自所述用户的话语而生成的语义信息和基于包括由所述任务管理器进行的任务的可行性的信息而生成的实体信息设置为观察空间。

根据本发明的另一实施例，该信息处理方法的特征在于还包括用于通过使用显示器在会话管理步骤所进行的基础处理期间为用户显示系统动作的步骤。

根据本发明的另一实施例，该信息处理方法的特征在于，会话管理步骤是使用POMDP进行基础处理的步骤，其中，将使用用作观察空间的语义信息计算出的状态值和使用用作观察空间的实体信息计算出的状态值设置为状态空间。

根据本发明的另一实施例，该信息处理方法的特征在于，会话管理步骤是使用POMDP进行基础处理的步骤，其中，将使用用作观察空间的语义信息计算出的状态值、使用用作观察空间的实体信息计算出的状态值、以及使用其它观察空间计算出的状态值设置为状态空间。

根据本发明的另一实施例，该信息处理方法的特征在于，会话管理步骤是使用POMDP进行基础处理的步骤，其中，POMDP具有以下配置：其中基于包括使用用作观察空间的语义信息计算出的状态值和使用用作观察空间的实体信息计算出的状态值的状态空间来计算成本。

根据本发明的另一实施例，该信息处理方法的特征在于，会话管理步骤是使用POMDP进行基础处理的步骤，其中，当部分可观察马尔可夫决策过程执行用于基础阶段变换的管理处理时，将包括来自用户的话语的用户动作设置为观察空间。

根据本发明的另一实施例，该信息处理方法的特征在于，会话管理步骤是使用POMDP进行基础处理的步骤，其中，将使用用作观察空间的用户动作计算出的状态值设置为状态空间。

根据本发明的另一实施例，该信息处理方法的特征在于，会话管理步骤是使用POMDP进行基础处理的步骤，其中POMDP具有以下配置：其中基于包括使用用作观察空间的用户动作计算出的状态值的状态空间来计算成本。

根据本发明的另一实施例，该信息处理方法的特征在于，会话管理步骤是使用基础模型进行处理的步骤，其中，将开始处理、继续处理、确认处理、确认请求处理、确认应答处理、确认应答请求处理和取消处理定义为基础处理的执行动作。

根据本发明的另一实施例，该信息处理方法的特征在于，会话管理步骤是使用基础模型进行处理的步骤，其中，将开始处理、确认应答处理和取消处理定义为基础处理的执行动作。

此外，根据本发明的第三方面，提供一种计算机程序，该计算机程序使信息处理设备进行用于接收来自用户的话语并分析该话语的信息处理。该计算机程序的特征在于包括以下步骤：语言输入和分析步骤，该语言输入和分析步骤通过使用用户接口接收来自用户的话语并进行语言分析；会话管理步骤，该会话管理步骤通过使用会话管理器，接收与通过用户接口输入的用户话语相关的信息的识别结果，并使用部分可观察马尔可夫决策过程(POMDP)进行用于理解用户请求的基础处理；以及任务管理步骤，该任务管理步骤通过使用任务管理器来基于与在会话管理步骤中进行的基础处理的结果相关的信息而执行任务。

应该注意，根据本发明的计算机程序是可提供给例如可以使用计算机可读记录介质或通信介质来执行各种程序代码的通用计算机的计算机程序。通过以计算机可读格式提供这种程序，在计算机系统中可以实现根据该程序的处理。

通过以下参考附图对示例性实施例的详细说明，本发明的其它特征和优点将显而易见。另外，应该注意，在本说明书中，术语“系统”是指多个装置的逻辑组合；这多个装置不是必须包括在一个主体中。

有益效果

根据本发明的实施例，设计了如下的配置：为了通过来自用户的话语来理解来自用户的请求，使用POMDP(部分可观察马尔可夫决策过程)执行基础处理，其中，将从接收用户的话语并进行语言分析的语言分析单元获取的分析信息以及包括从执行任务的任务管理器获取的任务可行性信息的实体信息(pragmatic information)设置为观察信息。因此，可以有效实现理解，并且可以提供对用户请求的高速准确的识别以及基于用户请求的任务执行。

附图说明

图1是示出基础处理中的状态变换的例子的图；

图2是示出基础处理中动作和状态变换之间的对应关系的例子的图；

图3是示出应用POMDP(部分可观察马尔可夫决策过程)的处理的例子的图；

图4是示出根据本发明实施例的信息处理设备的配置和该信息处理设备进行的处理的图；

图5是示出根据本发明实施例的信息处理设备的会话管理器所进行的处理的流程图；

图6是示出根据本发明实施例的信息处理设备的会话管理器所进行的处理的流程图；

图7是示出根据本发明实施例的信息处理设备的会话管理器的POMDP执行单元所进行的处理的流程图；

图8是示出根据本发明实施例的信息处理设备的会话管理器所进行的POMDP应用处理的图；

图9是示出贝叶斯网络和条件概率表(CPT)的图；

图10是示出状态值数据随着时间过去根据POMDP中设置的状态空间(State space)的改变而变换的例子的图；

图11是示出状态值数据随着时间过去根据POMDP中设置的状态空间的改变而变换的例子的图；

图12是示出根据本发明的信息处理设备所进行的POMDP应用处理中的基础处理和其它处理的比较结果的图；

图13是示出根据本发明的信息处理设备所进行的POMDP应用处理中的基础处理和其它处理的比较结果的图；

图14是示出根据本发明的信息处理设备所进行的使用POMDP的基础处理的例子的图；

图15是示出根据本发明的信息处理设备所进行的使用POMDP的基础处理的例子的图；

图16是示出根据本发明的信息处理设备所进行的使用POMDP的基础处理的例子的图；

图17是示出根据本发明的信息处理设备所进行的使用POMDP的基础处理的例子的图；

图18是示出根据本发明的信息处理设备的示例性配置的图；

图19是示出根据本发明的信息处理设备的示例性硬件配置的图。

具体实施方式

下面参考附图详细说明根据本发明实施例的信息处理设备、信息处理方法和计算机程序。注意，以下面的顺序进行说明：

(1)根据本发明的信息处理设备所进行的处理的概况

(2)根据本发明的信息处理设备的示例性配置和详细处理

(3)会话管理器所进行的详细基础处理

(4)使用POMDP的示例性基础处理

(5)信息处理设备的示例性硬件配置

(1)根据本发明的信息处理设备所进行的处理的概况

根据本发明，信息处理设备的例子是根据来自用户的话语进行各种处理(例如频道选择)的诸如电视机等的系统。也就是说，通过系统和用户通信，信息处理设备进行用户想要的处理。为了正确理解用户的意图，信息处理设备进行用于实现与用户之间的相互理解的处理，即，基础处理。

根据本发明的实施例，在基础处理中，信息处理设备应用下面的技术：

(1)BN(贝叶斯网络)；以及

(2)POMDP(部分可观察马尔可夫决策过程)。

BN(贝叶斯网络)包括多个节点，并且定义节点间的关系。例如，在美国专利申请公开2004/0220892和2002/0103793中说明了用于生成贝叶斯网络的处理和用于使用贝叶斯网络的处理。这些文献说明了用于生成其中正确定义节点间的关系的可靠的贝叶斯纹路的处理。根据本发明，为了估计相互理解的水平和进行跟踪，信息处理设备使用贝叶斯网络。例如，信息处理设备进行使用通过对来自用户的话语的语音识别、语言处理、词义分析和对言语的理解所获取的数据的处理。

POMDP(部分可观察马尔可夫决策过程)已知为用于状态预测或动作判定的技术之一。下面接着示意性说明部分可观察马尔可夫决策过程(以下称为“POMDP”)。

POMDP是用于通过使用下面的信息的状态预测或动作判定的技术。

(a)状态空间(S)；

(b)动作空间(action space)(A)；

(c)观察空间(observation space)(O)；以及

(d)回报空间(reward space)(R)。

这种信息随着时间(t)过去而改变。例如，定义计算状态变换概率的函数、计算回报的函数和计算发生观察状态的概率的函数。此后，使用可获得的信息和所定义的函数进行状态预测或动作判定。

定义的函数的例子包括下面的函数：

当在时间T＝(t-1)时状态S＝s_t-1且动作A＝a_t-1时，用于计算在下个时间T＝(t)时向状态S＝s_t的状态变换的概率的状态变换概率计算函数T(s_t，a_t-1，s_t-1)＝P(s_t|a_t-1，s_t-1)；

在时间T＝(t)时用于使用状态S＝s_t和动作A＝a_t计算回报的回报函数R(s_t，a_t)；以及

用于使用时间T＝(t-1)时的动作A＝a_t-1和时间T＝(t)时的状态S＝s_t计算在时间T＝(t)时发生观察状态(observation state)的概率的观察状态概率函数O(s_t，a_t-1，o_t-1)＝P(o_t|a_t-1，s_t)。

POMDP是一种用于通过使用上述各种信息和函数的状态预测或动作判定的技术。例如，POMDP应用于用于根据少量可获得的信息判定最佳动作的处理。更具体地，POMDP可应用于诸如用于确定机器人的动作的处理、使用计算机的模拟、数据处理和用于确定事务中的最佳的人的动作的处理等的各种动作判定处理。

接着参考图3说明通过使用POMDP和上述各种信息的状态预测或动作判定。图3示出时间T＝(t-1)时的状态s_t-1、动作a_t-1、回报R_t-1和观察o_t-1、以及下个时间T＝(t)时的状态s_t、动作a_t、回报R_t和观察o_t。连接块的箭头表示块之间的影响。也就是说，与箭头的源(父)相关的信息可能改变箭头的目的地(子)的状态或信息。

例如，如上所述，在时间T＝t-1时，可以使用时间t＝t-1时的状态s_t-1和动作a_t-1以及回报函数R(s_t-1，a_t-1)获得回报R_t-1。

另外，观察信息o_t-1是例如随着状态s_t-1改变而改变的可观察信息。

该关系还适用于任何时间T＝t-1、t、t+1、……。

而且，在不同时间，通过上述状态变换概率计算函数T(s_t，a_t-1，s_t-1 )＝P(s_t|a_t-1，s_t-1)定义时间T＝t时的状态s_t与时间T＝t-1时的状态s_t-1和动作a_t-1的组合之间的关系。也就是说，可以使用先前时间T＝t-1时的状态s_t-1和动作a_t-1计算时间T＝t时的状态s_t的发生概率。该关系可应用于连续证据观察时间的整个期间。

这样，根据POMDP，在包括不确定性的对象区域中，定义各种信息项(状态、动作、回报和观察)。此后，使用信息项之间的关系，在包括不确定性的对象区域中，估计状态变换或者判定人的动作。例如，在动作判定处理中，认为回报最大化的动作是最佳动作。

注意，在用于构建POMDP的处理中，重要的是适当设置信息项(状态、动作、回报和观察)之间的关系。在这种处理中，可以采用贝叶斯网络(BN)。

根据本发明的实施例，信息处理设备采用POMDP，以做出基础处理的模型并进行在用户和设备之间进行的会话的跟踪处理，即，以构建特定基础处理。

另外，根据本发明的实施例，信息处理设备采用用于执行会话中的基础的规则。例如，采用用于生成问题以实现对从用户接收到的指令的清晰理解的规则。

例如，进行以下处理：

用户：我需要飞往伦敦

在接收到这种请求时，系统进行下面的确认处理，以实现相互理解：

系统：你是说“到伦敦”吗？

系统询问这种问题以进行确认。用户如下回答该问题：

用户：是的。

通过获取这种回答，可以增大理解的置信度P。

这样，根据用户应答(是的)可以增大伦敦作为目的地的[置信度(P)]。

在这种情况下，如下表示置信度P：

P(目的地＝伦敦|证据＝是)。

(2)根据本发明的信息处理设备的示例性配置和详细处理

图4示出根据本发明的信息处理设备的示例性配置。在图4中，作为例子，示出进行诸如频道选择等的处理的电视系统。电视机包括与用户进行通信的数据处理单元。数据处理单元使用POMDP和贝叶斯网络进行相互理解处理，即，基础处理。

如图4所示，信息处理设备100包括会话管理器101、显示器102、任务管理器103和用户接口(GUI前端)104。用户接口(GUI前端)104包括语义解析仿真器105和基础动作仿真器106。会话管理器101包括POMDP执行单元200。POMDP执行单元200使用部分可观察马尔可夫决策过程(POMDP)执行基础处理。

在用户接口(GUI前端)104的语义解析仿真器105中，对从用户20输出的话语进行现有的语音识别和语义分析。这样识别话语的含义。将识别的言语输出给会话管理器101。

另外，在进行基础处理时，将从用户输出的话语输入到基础动作仿真器106。提取在基础处理中(即，在用户20和信息处理设备100之间的相互理解处理中)处理的用户的动作和话语信息作为基础动作。此后，将基础动作连同用户话语信息一起输出给会话管理器101。

如果通过语义解析仿真器105充分识别了用户的言语的含义，则会话管理器101向任务管理器103输出任务执行请求。更具体地，会话管理器101输出诸如与频道改变指令相关的信息或用于显示节目列表(EPG)的请求等的语义要素。任务管理器103进行与从会话管理器101输入的请求相对应的任务。将任务执行的结果输出到例如显示器102。

注意，任务管理器103发送与会话管理器101可允许的任务信息相关的任务信息。

然而，如果通过语义解析仿真器105没有充分识别用户的言语的含义，则以下面的方式进行基础处理。基础动作仿真器106提取用户的动作和话语信息作为基础动作，然后将该基础动作连同用户话语信息一起输出给会话管理器101。

会话管理器101响应于来自基础动作仿真器106的信息的输入而进行基础处理。也就是说，会话管理器101进行用于实现与用户之间的相互理解的基础处理。在该基础处理中，使用POMDP。

例如，在基础处理中，在显示器102上显示问题。用户20通过用户接口(GUI前端)104输入对该问题的回答。语义解析仿真器105进行包括语音识别和语义分析的语言分析，并且基础动作仿真器106提取基础动作。将处理的结果输入到会话管理器101。在该基础处理中，重复这种处理。

如果通过会话管理器101使用POMDP所进行的基础处理最终识别了从用户输出的言语的含义，则会话管理器101向任务管理器103输出任务执行请求。更具体地，例如，会话管理器101输出诸如频道改变指令信息或用于显示节目指南(EPG)的请求等的语义要素。任务管理器103执行与从会话管理器101输入的请求相对应的任务。将任务执行的结果输出到显示器102。

(3)会话管理器所进行的详细基础处理

下面参考图5至7所示的流程图详细说明会话管理器101进行的基础处理的序列。

图5是会话管理器101进行的基础处理的全部序列的流程图。

图6是图5所示的步骤S102中进行的处理的流程图，即，用于基于用户话语生成应用于POMDP的观察值(观察ID)的处理的详细序列。

图7是图5所示的步骤S104中进行的处理的流程图，即，POMDP执行单元200进行的基础处理的详细序列。POMDP执行单元200使用部分可观察马尔可夫决策过程(POMDP)进行基础处理。

接着说明图5所示的流程图的步骤中进行的处理。

首先，在步骤S101中产生用户话语。通过图4所示的用户接口(GUI前端)104将用户话语信息输入给会话管理器101。

随后，在步骤S102中，会话管理器101基于用户话语生成观察ID。

下面参考图6所示的流程图详细说明步骤S102中进行的处理。

在步骤S201中，会话管理器101计算对通过图4所示的用户接口104输入的用户话语的理解的确信度。此时，仅使用基于语言分析处理的信息(语义信息)计算理解的确信度。如下计算仅使用基于语言分析的信息(语义信息)所获得的通过语言处理的语义置信度[SemConf]：

SemConf＝f(通过语言处理的语义置信度)

其中，f( )表示计算存储在会话管理器101中的通过语言处理的语义置信度[SemConf]的函数。

随后，在步骤S202中，会话管理器101向任务管理器103询问对通过用户接口(GUI前端)104输入的用户话语的语言分析的结果的适当性 (relevance)是否存在。任务管理器103向会话管理器101回答对用户话语的语言分析的结果的适当性是否存在。

例如，当通过电视系统进行该处理时且如果识别出诸如频道改变等的与电视系统的操作相关的用户话语，则任务管理器103返回表示存在适当性的确定结果。然而，如果识别出与电视系统的操作无关的用户话语(例如话语“我累了”)，则任务管理器103返回表示不存在适当性的确定结果。注意，任务管理器103具有用于进行这种确定的程序并且使用该程序进行确定。

随后，在步骤S203中，会话管理器101询问任务管理器103是否存在通过用户接口104输入的用户话语的一致性(consistency)。任务管理器103向会话管理器101回答是否存在用户话语的一致性。

例如，如果任务管理器103已正在处理来自用户的请求，则任务管理器103确定表示下个指令的用户话语是否与当前处理具有一致性。注意，任务管理器103具有用于确定用户话语的语言分析的结果的适当性和一致性的程序，并且使用该程序进行确定。

随后，在步骤S204中，会话管理器101使用从任务管理器103接收到的信息(即，实体意见(pragmatic opinion))计算对实体意见的理解的置信度。如下给出用于计算表示对实体意见的理解的置信度的实体置信度[PragConf]的表达式：

PragConf＝g(适当性，一致性)

其中，g( )表示计算存储在会话管理器101中的实体置信度[PragConf]的函数。

随后，在步骤S205中，会话管理器101通过对以下两者进行求和来计算总体置信度[OverallConf]：仅使用基于在步骤S201中进行的语言分析的信息(语义信息)而获得的通过语言处理的语义置信度[SemConf]，以及在步骤S204中使用实体信息计算出的表示理解的置信度的实体置信度[PragConf]。如下给出用于计算总体置信度的表达式：

OverallConf＝h(语义，实体)

其中，h( )表示计算存储在会话管理器101中的总体置信度[OverallConf]的函数。

随后，在步骤S206中，会话管理器101询问任务管理器103通过用户接口104输入的用户话语的基础动作的类型(种类)。也就是说，会话管理器101询问任务管理器103用户话语属于图2所示的种类开始(I)到取消(R)中的哪一个。任务管理器103使用预先存储的程序分析用户话语的动作，并且将用户话语是基础动作中的哪一个作为分析的结果而通知给会话管理器101。

在步骤S207中，会话管理器101生成要应用于POMDP的观察ID。观察ID对应于输入的用户话语。使用下面的值计算观察ID：

(a)在步骤S201中计算出的且仅根据基于语言分析处理的信息所获得的语义置信度[SemConf]；

(b)在步骤S204中使用实体信息计算出的实体置信度[PragConf]；

(c)在步骤S205中计算出的总体置信度；以及

(d)在步骤S206中从任务管理器103获取的与用户话语相关的基础动作信息。

会话管理器101使用这些值和预定的计算程序确定观察ID。

如下给出用于确定观察ID的表达式：

观察ID＝z(语义，实体，总体，基础动作)

其中，z( )表示计算存储在会话管理器101中的观察ID的函数。

例如，将语义置信度[SemConf]、实体置信度[PragConf]和总体置信度[OverallConf]中的每个设置为以下三个值之一：高置信度值[H(高)]、低置信度值[L(低)]和中置信度值[A(不确定)]。

另外，用户话语的基础动作是图2所示的开始(I)到取消(R)(在图2所示的例子中的十三种类型)中的一个。

作为结果，出现3×3×3×13个不同的组合模式。

会话管理器101存储这些组合模式中的每个的观察ID和对应的数据，并且基于对应的数据计算观察ID。

这样，通过图6所示的流程的步骤S201至S207中所进行的处理，会话管理器101生成应用于POMDP的观察ID。观察ID对应于输入的用户话语。

回到参考图5，继续说明会话管理器101的处理的序列。在步骤S102中，会话管理器101进行图6所示的流程的步骤S201至S207中的处理，并且生成与用户话语相对应的观察ID。

随后，在步骤S103中，会话管理器101将与用户话语相对应的观察ID输出至POMDP执行单元200。在接着的步骤S104中，通过POMDP执行单元200进行基础处理。下面参考图7所示的流程图更详细地说明POMDP执行单元200所进行的基础处理。

在步骤S301中，POMDP执行单元200接收到与用户话语相对应的观察ID。随后，在步骤S302中，POMDP执行单元200进行基于与用户话语相对应的观察ID来更新确信度状况的处理。

如上所述，在POMDP中，基于观察ID来更新确信度状况。例如，如上所述，通过下面的处理，置信度P被增大。

用户：我需要飞往伦敦。

在接收到这种请求时，系统进行下面的确认处理，以实现相互理解。

系统：你是说“到伦敦”吗？

用户如下回答该问题。

用户：是的。

因此，根据来自用户的应答(是的)，可以增大目的地作为伦敦的[置信度(P)]。

在这种情况下，如下表示置信度P：

P(目的地＝伦敦|证据＝是)

在步骤S302中，进行与上述处理相类似的处理。因此，基于与用户话语相对应的观察ID来更新确信度状况。

随后，在步骤S303中，确定设备对用户所进行的下个动作。例如，该动作是图2所示的开始(I)到取消(R)(图2所示的例子中的十三个动作)中的一个。

如上所述，POMDP是用于通过使用下面的信息的状态预测或动作判定的技术：

(a)状态空间(S)；

(b)动作空间(A)；

(c)观察空间(O)；以及

(d)回报空间(R)。

这种信息随着时间(t)过去而改变。例如，定义计算状态变换的概率的函数、计算回报的函数、以及计算观察状态的发生的概率的函数。此后，使用可获得的信息和所定义的函数进行状态预测或动作判定。

这里，在步骤S301中，获取与用户话语相对应的新的观察ID。此后，使用观察ID和预先定义的算法确定下个动作。例如，计算在图2所示的开始(I)到取消(R)中的每个时所获得的回报。注意，在这种情况下，例如，回报对应于理解的确信度。

在步骤S304中，将在步骤S303中针对动作计算出的回报(＝理解的确信度)进行相互比较，并且选择具有最高值的动作作为要进行的动作。此后，POMDP执行单元200执行该动作，作为设备所进行的动作。

随后，在步骤S305中，POMDP执行单元200将用作执行的动作的标识的动作ID发送到会话管理器101。

回到参考图5，继续说明会话管理器101的处理的序列。在步骤S104中，POMDP执行单元200通过进行图7所示的流程的步骤S301至S307中的处理来进行基础处理。也就是说，POMDP执行单元200确定设备要进行的动作并进行所确定的动作。此后，将设备所进行的动作的动作ID发送给会话管理器101。

在步骤S105中，会话管理器101使用设备所进行的动作的动作ID来分析基础的进度(progress)，即，相互理解的进度。更具体地，如果设备所进行的动作是下面的动作之一：

(a)[Ack]，表示理解的肯定回答；以及

(b)[发送到TM]，表示发送对任务管理器要进行的处理的请求，确定实现了基础(打好了基础)，即，实现了相互理解。

然而，如果设备所进行的动作是除了(a)[Ack]和(b)[发送到TM]以外的动作，则确定未实现基础(未打好基础)，即，未相互理解。

如果确定实现了基础(打好了基础)，即，实现了相互理解，则步骤S106中的确定结果为“是”。此时，处理进行到步骤S108。

在步骤S108中，重新设置基础动作。在步骤S109中，将消息(任务请求)发送到任务管理器(TM)。

然而，如果确定未实现基础(未打好基础)，即，未实现相互理解，则步骤S106的确定结果为“否”。此时，处理进行到步骤S107。

在步骤S107中，例如，在设备的显示器上显示基础动作的结果，即，表示未实现相互理解的信息，以使得用户获知该结果。此后，继续进行基础处理。

注意，在例如执行基础处理直到在步骤S106中实现相互理解或完成基础阶段为止的期间，持续地重复地进行图5所示的处理。

接着参考图8说明会话管理器101的POMDP执行单元200所进行的处理，即，使用部分可观察马尔可夫决策过程(POMDP)的处理。

POMDP执行单元200执行包括下面的两个处理的使用POMDP的处理：

(A)用于确定是否对用户话语打好了基础(理解了用户话语)的管理处理；以及

(B)基础阶段变换的管理处理。

图8示出了这两个处理(A)和(B)的POMDP管理信息项，即，图3所示的以下信息项：

(a)状态空间(S)；

(b)动作空间(A)；

(c)观察空间(O)；以及

(d)回报空间(R)。

注意，通过具有表示观察信息(Observation)的终端节点的贝叶斯网络构建POMDP。贝叶斯网络是以有向图的形式表示概率变量之间的依赖性的网络。例如，有向图包括表示证据的节点和表示证据之间的因果关系的链接。通过使用样本学习数据的学习，可以生成表示基于特定条件的贝叶斯网络的节点的发生的概率的条件概率表(CPT)。

接着参考图9说明贝叶斯网络和条件概率表(CPT)。对于随机推理采用贝叶斯网络。特别地，通过使用贝叶斯网络，在仅观察到一些证据的包括不确定性的区域中，定量地处理预测或决策。基本上，在该算法中，将多个证据定义为节点，并且对节点之间的依赖性进行模型化。

在图9所示的例子中，将四个证据节点[Cloudy(云)]、[Sprinkler(喷水)]、[Rain(雨)]和[WetGlass(湿草)]定义为节点。链接节点的箭头表示箭头的源(父节点)具有对箭头的目的地(子节点)的影响。

在图9所示的例子中，节点[Cloudy]具有真(True)＝0.5的概率和假(False)＝0.5的概率。

在这种情况下，对于父节点[Cloudy]的子节点[Sprinkler]，根据父节点[Cloudy]的状态，可以以CPT(条件概率表)的形式获得Sprinkler开启(真)的概率和Sprinkler关闭(假)的概率。也就是说，可以获得图9所示的CPT 301。

CPT 301表示：当父节点[Cloudy]＝F(假)时，

子节点[Sprinkler]关闭(假)的概率＝0.5；并且

子节点[Sprinklerl开启(真)的概率＝0.5；以及

当父节点[Cloudy]＝T(真)时，

子节点[Sprinkler]关闭(假)的概率＝0.9；并且

子节点[Sprinkler]开启(真)的概率＝0.1。

在CPT 301中，P(S＝F)表示子节点[Sprinkler]为假的概率(可行性)，并且P(S＝T)表示子节点[Sprinkler]为真的概率(可行性)。

另外，对于父节点[Cloudy]的子节点[Rain]，根据父节点[Cloudy]的状态，可以以CPT(条件概率表)的形式获得下雨(真)的概率和不下雨(假)的概率。也就是说，可以获得图9所示的CPT 302。

CPT 302表示：当父节点[Cloudy]＝F(假)时，

子节点[Rain]为不下雨(假)的概率＝0.8；并且

子节点[Rain]为下雨(真)的概率＝0.2；以及

当父节点[Cloudy]＝T(真)时，

子节点[Rain]为不下雨(假)的概率＝0.2；并且

子节点[Rain]为下雨(真)的概率＝0.8。

此外，对于父节点[Sprinkler]和[Rain]的子节点[WetGlass]，根据父节点[Sprinkler]和[Rain]的状态，可以以CPT的形式获得草是湿的(真)的概率和草不是湿的(假)的概率。也就是说，可以获得图9所示的CPT303。

CPT 303表示：当父节点[Sprinkler]＝F(假)且父节点[Rain]＝F(假) 时，

子节点[WetGlass]不是湿的(假)的概率为1.0；并且

子节点[WetGlass]是湿的(真)的概率为0.0；以及

当父节点[Sprinkler]＝T(真)且父节点[Rain]＝F(假)时，

子节点[WetGlass]不是湿的(假)的概率为0.1；并且

子节点[WetGlass]是湿的(真)的概率为0.9；以及

当父节点[Sprinkler]＝F(假)且父节点[Rain]＝T(真)时，

子节点[WetGlass]不是湿的(假)的概率为0.1；并且

子节点[WetGlass]是湿的(真)的概率为0.9；以及

当父节点[Sprinkler]＝T(真)且父节点[Rain]＝T(真)时，

子节点[WetGlass]不是湿的(假)的概率为0.01；并且

子节点[WetGlass]是湿的(真)的概率为0.99。

这样，条件概率表(CPT)以表的形式表示子节点的结果发生的概率，其中，该表表示依赖于父节点的条件的概率的概率分布。通过以这种方式采用贝叶斯网络，可以获得表示在原因出现的情况下获得结果的条件概率的表的CPT。

在根据本发明的配置中，使用贝叶斯网络表示图3所示的下面的信息项中所包括的要素之间的依赖性：

(a)状态空间(S)；

(b)动作空间(A)；

(c)观察空间(O)；以及

(d)回报空间(R)。

此后，设置图8所示的POMDP。POMDP执行单元200执行包括下面的两个处理的使用POMDP的处理：

(B)基础阶段变换的管理处理。

下面说明图8所示的节点信息项。在用于确定是否对用户话语打好了基础(理解了用户话语)的管理处理(A)中，观察空间包括以下三个观察空间：实体证据(pragmatic evidence)221、总体理解(overallunderstanding)222和语义证据(semantic evidence)223。

状态空间包括下面三种状态空间：实体231、语义232和打好基础(Grounded)233。

此外，将基础成本(Grounding Cost)241设置为回报空间。

例如，可以基于通过图6所示的流程的步骤S202和S203中的处理从任务管理器103获得的任务的可行性来获得观察空间中所包括的实体证据221。例如，如上所述，可以获得高置信度[H(高)]、低置信度[L(低)]或中置信度[A(不确定)]。注意，可以获得各种类型的信息。例如，可以根据任务的可行性设置两种类型的观察空间(是，否)。

另外，观察空间中所包括的总体理解222除了包括从观察空间241和243所获得的观察空间以外还包括各种信息。例如，总体理解222包括与和输出话语的用户之间的会谈的状态相关的观察空间、表示用户是否回答了从系统输出的问题的状态、以及与是否存在用户相关的信息。

根据观察空间，可以获得诸如[H(高)]、[L(低)]、[A(不确定)]或(是，否)等的上述观察空间。

此外，观察空间中所包括的语义证据223表示对用户话语进行的语音识别和语义分析的结果。

例如，可以获得表示根据语义分析是否成功的[H(高)]、[L(低)]、[A(不确定)]或(是，否)的观察空间。

对于被包括在状态空间中的、包括任务可行性的实体231，设置基于观察空间中包括的实体证据221中的分析信息的状态值。

例如，设置状态[H(高)]、[L(低)]或[A(不确定)]，或者根据是否存在任务的可行性而使用概率值来设置(是，否)。当使用诸如(是，否)之类的两种状态时，例如，设置概率值数据(“是”的概率(0.8)和“否”的概率(0.2))。

图10(1)示出随着时间过去的实体231的状态值数据的变换的例子。随着时间过去，“是”的概率值和“否”的概率值根据实体证据221的输入而改变。

此外，对于状态空间中包括的语义232，设置基于包括在观察空间中的语义证据223中的分析信息的状态值。

例如，根据表示语义分析是否成功的观察空间而使用概率值来设置两种状态(是，否)。例如，设置“是”的概率(0.9)和“否”的概率(0.1)。

图10(2)示出随着过去语义232的状态值数据的变换的例子。随着时间过去，“是”的概率值和“否”的概率值根据观察信息(语义证据223)的输入而改变。

此外，对于状态空间中所包括的打好基础233，设置从包括任务空间中所包括的任务的可行性的实体231、与语义232相关的信息以及总体理解222所获得的观察信息。例如，设置基于输出话语的用户的会谈状态、与对从用户输出的问题进行应答的用户相关的信息以及与是否存在用户相关的信息的综合状态值。

例如，使用概率值设置表示是否实现理解的两种状态(是，否)。例如，设置“是”的概率(0.7)和“否”的概率(0.3)。

图10(3)示出随着时间过去的打好基础233的状态值数据的变换的例子。随着时间过去，“是”的概率值和“否”的概率值根据使用任务可行性信息而生成的实体231、与语义232相关的信息以及总体理解222的输入而改变。

被设置为回报空间的基础成本241对应于用于执行包括在状态空间中的打好基础233的成本。例如，当通过基础处理获得充分理解并且可以进行正确处理时，或者当最终没有获得充分理解并且浪费了时间时，成本发生变化。

另外，在用于管理基础阶段变换的管理处理(B)中，观察空间包括用户基础动作(User Grounding Act)251。

状态空间包括下面两种状态空间：处理前状态261和处理262。

动作空间包括信息处理设备所进行的系统基础动作(SystemGrounding Action)271。

此外，作为回报空间，设置以下两个回报空间：处理成本281和动作成本282。

观察空间中所包括的用户基础动作251表示与基础处理中所进行的用户动作相关的信息。更具体地，例如，在图1和2所示的基础模型(Grounding model)中，可以获得下面的观察空间作为用户动作：

话语开始处理(Initiate)，

继续处理(continue)，

确认处理(repair)，

确认请求处理(ReqRepair)，

确认应答(ack)，

对确认应答的请求(Reqack)，以及

取消(cancel)。

状态空间中所包括的处理前状态261和处理262对应于基础动作中的两个时间序列执行处理状态。例如，在图1和2所示的基础模型中，作为处理前状态261和处理262的状态值，设置S、1、2、3、4、D和F七个状态的概率值，其中，

S：初始状态；

1：紧接在开始之后的状态；

2：系统混乱；

3：需要确认；

4：用户混乱；

D：取消；

F：基础完成。

此时，设置七个状态S至F的概率值，以使得状态S至F的概率值的和为[1]。

图11示出了随着时间过去的处理262的状态值数据的变换的例子。随着时间过去，与状态S至F相对应的概率值根据用户基础动作251的输入而改变。

动作空间中所包括的系统基础动作271表示为了相互理解而由信息处理设备进行的基础动作。系统基础动作271是系统中进行的处理。在图1和2所示的基础模型中，系统执行下面的动作：

话语开始处理(Initiate)，

继续处理(continue)，

确认处理(repair)，

确认请求处理(ReqRepair)，

确认应答(ack)，

对确认应答的请求(Reqack)，以及

取消(cancel)。

被设置为回报空间的处理成本281对应于状态空间中所包括的处理262的执行成本。例如，设置该成本，以使该成本根据处理所需时间和处理负荷而改变。

被设置为回报空间的动作成本282对应于动作空间中所包括的系统基础动作271的执行成本。例如，设置动作成本282，以使动作成本282根据处理所需时间和处理负荷而改变。

图8所示的系统基础动作271对应于POMDP中的动作空间。系统基础动作271表示为了相互理解而由信息处理设备进行的基础动作。

在图1和2所示的基础模型中，系统执行以下动作之一：

话语开始处理(Initiate)，

继续处理(continue)，

确认处理(repair)，

确认请求处理(ReqRepair)，

确认应答(ack)，

确认应答的请求(Reqack)，以及

取消(cancel)。

根据使用POMDP中所设置的成本计算算法计算出的成本来确定要执行该动作中的哪一个动作。

在图1和2所示的基础模型中，系统所执行的动作是上述七个动作(Initiate至Cancel)中的一个。然而，如上所述，图1和2所示的基础模型仅是例子。因此，可以使用具有不同配置的基础模型。

例如，可以使用仅具有三个动作的简化基础模型：话语开始处理(Initiate)、确认应答(ack)和取消(cancel)。

例如，可以使用通过从图1所示的基础模型中去除除了下面的三个动作以外的动作而生成的基础模型：话语开始处理(Initiate)、确认应答(ack)和取消(cancel)。另外，可以去除图1所示的阶段S、1、2、3、4、F和D中的一些阶段。

下面说明使用简化基础模型的处理的例子，其中，在简化基础模型中，仅定义三个动作：话语开始处理(Initiate)、确认应答(ack)和取消(cancel)。

接着说明这样的例子，在该例子中，使用POMDP执行基础处理的设备是包括电视机的设备，并且用户请求该设备改变电视频道。

当用户使用话语“将电视频道改变成1”向设备进行请求时，图4所示的语义解析仿真器105分析该话语的含义。

例如，如果语义解析仿真器105没有充分识别用户话语，则进行基础处理。在这种情况下，基础动作仿真器106提取用户动作和话语信息作为基础动作，并且将其连同用户话语信息一起输出给会话管理器101。

在接收到来自基础动作仿真器106的信息时，会话管理器101进行基础处理，即，用于实现与用户的相互理解的基础处理。在基础处理中，采用POMDP。

在基础处理中，例如，将问题显示在显示器102上。用户20通过用户接口(GUI前端)104输入对问题的回答。语义解析仿真器105进行包括语音识别和语义分析的语言分析。基础动作仿真器106提取基础动作。将与结果相关的信息输入至会话管理器101。在基础处理中，重复这种处理。

当用户向设备发送请求“将电视频道改变成1”时，会话管理器101通过在显示器102上显示消息“频道1？”来询问问题。

来自用户的可能的回答是以下三个之一：

(a)是；

(b)不是；以及

(c)其它。

会话管理器101根据三个回答之一来确定要进行的动作。例如，如果(A)来自用户的回答是“是”，则要进行的动作(基础动作)＝确认应答(ack)。然而，如果(B)来自用户的回答是“否”，则要进行的动作(基础动作)＝取消(cancel)。如果(c)来自用户的回答是“其它”，则要进行的动作(基础动作)＝开始(Initiate)。

用于确定要进行的动作(基础动作)的算法被表示如下：

If Answer is YesNoAnswer(如果回答是YesNoAnswer)

If Answer is Negative(如果回答是Negative)

GroundingAct＝Cancel(GroundingAct＝取消)

Else(否则)

GroundingAct＝Ack(GroundingAct＝确认)

Else(否则)

GroundingAct＝Initiate(GroundingAct＝开始)

注意，如果要进行的动作(GroundingAct)＝开始动作(Initiate)，则再次接收用户话语，随后开始新的基础处理。这样，可以限制动作的数量(该例子中为3)，并且可以将简化基础模型应用于该处理。

如上所述，根据本发明，在基础处理中，可以采用多种基础模型。另外，可以进行使用POMDP的处理。因此，可以有效实现用户和信息处理设备之间的相互理解。

(4)使用POMDP的示例性基础处理

接着参考图12和随后的附图说明与根据本发明的使用POMDP的基础处理相关的评估数据。图12和13是示出了根据本发明的使用POMDP的基础处理的结果与不使用POMDP的基础处理的结果的比较的图。

首先，作为任务，用户请求系统(电视机，即，信息处理设备)显示电视节目。例如，用户进行请求“我想要观看体育节目”，并且开始会话。最终，显示用户想要观看的体育节目。使用这种处理来进行该比较。

比较下面的处理：

(1)相信：其中系统信任从用户接收到的所有话语的处理；

(2)确认：其中每当系统接收到用户话语时系统确认用户话语的处理；以及

(3)POMDP：根据本发明的使用POMDP的处理。

使用下面两个指标进行评估：

(A)任务实现率：对要选择的节目的成功选择的比率；以及

(B)次数：直到选择了要选择的节目为止所需的用户话语的数量。

四个用户中的每一个都进行用于选择10个节目的处理。图12和13示出通过处理(1)至(3)从总共40个处理获得的评估(A)和(B)的结果。注意，示出了当采用具有高精度的语言处理和低精度的语言处理的两个系统时所获得的处理的结果。

图12示出下面的处理的(A)任务实现率(对要选择的节目的成功选择的比率)：

(1)相信：(其中系统信任所有用户话语的处理)；

(2)确认：(其中系统始终要求确认用户话语的处理)；以及

(3)POMDP：(使用上述POMDP的处理)。

通过图12可知，对于使用POMDP的处理来说任务实现率最高。也就是说，与其它结果相比获得良好的结果。

图13示出下面的处理的(B)次数(直到选择了要选择的节目为止所需的用户话语的数量)：

(1)相信：(其中系统信任所有用户话语的处理)；

(2)确认：(其中系统始终要求确认用户话语的处理)；以及

(3)POMDP：(使用上述POMDP的处理)。

从图13可以看出，对于[相信](即，其中系统信任所有用户话语的处理)而言，次数最低。然而，可以以与对于[相信]而言的次数相同的次数来完成使用POMDP的处理。

对于[相信](即，其中系统信任所有用户话语的处理)而言，图12所示的任务实现率低。结果，在任务实现率和次数方面，根据本发明的使用POMDP的处理优于其它处理。

接着参考图14至17说明使用POMDP的基础场所的例子。图14至17分别示出下面的情况：

(1)用户与系统充分通信的情况(图14)；

(2)用户的请求模糊(请求具有低可靠性)的情况(图15)；

(3)系统不正确地理解来自用户的请求的情况(图16)；以及

(4)用户和系统之间的通信长的情况(图17)。

在图14至17中，作为用户话语的变换数据，示出用户和系统(信息处理设备)之间的问题的序列以及变换数据：(A)基础状态的变换和(B)打好基础状态的变换。

基础变换状态(grounding transition state)(A)对应于图8所示的POMDP中的处理262，并且打好基础变换状态(grounded transitionstate)(A)对应于图8所示的POMDP中的打好基础233、使用诸如任务可行性等的信息生成的实体231、以及语义232的“是”的概率值。

下面说明图14至17中的每一个。

(1)用户与系统充分通信的情况

图14示出用户与系统充分通信的情况。在这种情况下，例如，基础变换状态(A)通过1(紧接在开始之后的状态)从S(初始状态)成功地改变成F(基础)。因此，实现基础，即，用户和系统之间的相互理解。

在打好基础状态(B)的变换中，打好基础233、实体231和语义232各自的“是”的概率值高于第二次输入话语时的概率值。因此，出现其中差不多理解来自用户的请求的状态。

(2)用户的请求模糊(请求具有低可靠性)的情况

图15示出用户的请求模糊(请求具有低可靠性)的情况。在该情况下，出现下面的问题：系统未能清晰地听到第二次输入的用户的话语“我想要观看体育节目”。然后，系统询问确认问题“你真要观看动画片吗？”。

在这种情况下，基础状态变换(A)如下：

S(初始状态)→1(紧接在开始之后的状态)→(1(紧接在开始之后的状态)≌0.6，2(系统混乱)≌0.1，4(用户混乱)≌0.3)→F(基础)。

在用户话语2和3中，用户基础(即，用户和系统之间的理解)进入混乱状态。

对于(B)打好基础状态变换，打好基础233、实体231和语义232的“是”的置信度水平在输入第二个话语时暂时降低。此后，在输入第三个话语时，“是”的置信度水平降低。因此，出现其中几乎始终相信来自用户的请求被理解的状态。

(3)系统不正确地理解来自用户的请求的情况

图16示出系统不正确地理解来自用户的请求的情况。在这种情况下，发生系统未能清晰听到用户的第二个话语的输入“我想要观看体育节目”这一问题。系统询问用户“你真要观看动画片吗？”，以确认话语。此外，用户未能听到该问题并产生输入话语“你说什么？”。另外，响应于该话语，系统询问用户“你想要观看动画片吗？”。响应于该问题，用户做出否定回答“否”。

在这种情况下，基础状态变换(A)如下：

S(初始状态)→1(紧接在开始之后的状态)→(2(系统混乱)

0.2，4(用户混乱)

0.8)→(3(需要确认)

0.2，D(取消) 0.8)。

因此，未实现用户基础(即，用户和系统之间的理解)，并且到达取消状态。

对于(B)打好基础状态变换，在输入第二个话语时，打好基础233、实体231和语义232的“是”的置信度水平降低。此后，置信度水平恢复，因此，不会出现与分析信息相关的明显问题。

(4)用户和系统之间的通信长的情况

图17示出用户和系统之间的通信长的情况。通过从用户输入话语1至5来实现基础。

在这种情况下，例如，(A)基础状态变换如下：

S(初始状态)→1(紧接在开始之后的状态)→……→F(基础)。

也就是说，通过根据用户的话语的数量的多个状态，到达基础状态。最终，实现用户基础，即，用户和系统之间的理解。

对于(B)打好基础状态变换，在输入第二个话语时，打好基础233、实体231和语义232的“是”的置信度水平增大。因此，不会出现与分析信息相关的明显问题。

(5)信息处理设备的示例性硬件配置

接着参考图18说明使用上述POMDP进行基础处理的信息处理设备的示例性硬件配置。通过诸如具有用作程序执行单元的CPU的广泛使用的PC或电视机等的具有程序执行功能的各种信息处理设备实现信息处理设备450。注意，下面说明硬件配置的特定例子。

信息处理设备450包括用户接口451、使用POMDP进行基础处理的会话管理器452、任务管理器453、显示器454、存储单元455和数据库456。用户接口451、会话管理器452、任务管理器453和显示器454具有图4所示的配置。

例如，当通过用户接口451从用户输入话语时，由会话管理器452进行使用POMDP的基础处理。会话管理器452进行图4至8所示的使用POMDP的基础处理。任务管理器452管理在信息处理设备450中所进行的任务。详细的处理与图4所示的处理相同。

注意，数据库456存储应用于POMDP的程序、应用于POMDP的用于生成成本计算算法并计算状态变换概率的计算函数、回报的计算函数、用于计算发生特定观察状态的概率的函数、以及用于问题规则的数据。存储单元454由用作各种数据处理和程序的参数的存储区域以及工作区域的存储器构成。

最后，参考图19说明进行上述处理的信息处理设备的硬件配置的例子。CPU(中央处理单元)501用作上述实施例中所述的数据处理单元的主要部分，并且进行与OS(操作系统)相对应的处理。更具体地，CPU501进行使用POMDP的基础处理和任务管理处理。根据存储在诸如各信息处理设备的ROM和硬盘等的数据存储单元中的计算机程序来进行这些处理。

ROM(只读存储器)502存储CPU 501使用的程序、POMDP生成程序和计算参数。RAM(随机存储器)503根据需要而存储CPU 501所执行的程序和在执行程序中改变的参数。使用由例如CPU总线构成的主机总线将它们相互连接。

主机总线504通过桥505与外部总线506(例如，PCI(外围组件互连/接口总线)连接。

音频输入单元508接收用户的话语。输入单元509由被用户操作的输入装置构成。显示器510由液晶显示器装置或CRT(阴极射线管)构成。

HDD(硬盘驱动器)511包括硬盘。HDD 511驱动硬盘以记录或再现要由CPU 501执行的程序和信息。硬盘用作用于存储应用于POMDP生成的规则的存储部件。此外，硬盘存储诸如数据处理程序等的各种计算机程序。

驱动器512读取存储在可拆卸记录介质521(例如，安装的磁盘、光盘、磁光盘或半导体存储器)中的数据或程序。此后，驱动器512将该数据或程序提供给经由接口507、外部总线506、桥505和主机总线504而与驱动器512相连接的RAM 503。

连接端口514用作外部连接的设备522所连接至的端口。连接端口514包括诸如USB或IEEE 1394等的连接单元。通过接口507、外部总线506、桥505和主机总线504将连接端口514与例如CPU 501相连接。通信单元515与网络相连接。

注意，使用PC形成图19所示的信息处理设备的硬件配置的例子。然而，该配置不局限于图19所示的配置。例如，可以使用可以进行上述实施例中所述的处理的各种设备。

尽管参考本发明的特定实施例说明了本发明，但是，在本发明的范围内，对于本技术领域的技术人员来说，显然可以进行其它的替代、变型或改变。因此，上述公开不是旨在限定性的，而是应当根据所附权利要求及其合法等同内容来确定本发明的范围。

另外，可以通过硬件、软件或其组合配置来执行上述的系列处理。当通过软件执行上述的系列处理时，可以将记录该处理序列的程序安装在专用硬件中包含的计算机的存储器中，并且可以执行该程序。替代性地，可以将该程序安装在可执行各种功能的通用计算机中，并且可以执行该程序。例如，可以将该程序预先记录在记录介质中。可以从记录介质将该程序安装在计算机中。另外，可以通过诸如LAN(局域网)或因特网等的网络接收该程序，并且可以将该程序安装在计算机所包含的诸如硬盘等的记录介质中。

在本说明书中，按照上述顺序进行各种处理。然而，可以根据进行该处理的设备的处理能力或处理性能或者根据需要而并行地或独立地执行该处理。另外，如同在本说明书中所使用的那样，术语“系统”是指多个装置的逻辑组合，该多个装置不是必须包括在一个主体中。

工业适用性

如上所述，根据本发明的实施例设计该配置，以使得为了通过来自用户的话语而理解来自用户的请求，使用POMDP(部分可观察马尔可夫决策过程)进行基础处理，其中，将从接收用户的话语并进行语言分析的语言分析单元获取的分析信息和包括从进行任务的任务管理器获取的任务可行性信息的实体信息设置为观察信息。因此，可以有效地实现理解，并且可以提供对用户请求的高速准确的识别以及基于用户请求的任务执行。

Claims

1.一种信息处理设备，所述信息处理设备用于接收来自用户的话语并分析所述话语，其特征在于包括：

用户接口，所述用户接口接收来自用户的话语并进行语言分析；

会话管理器，所述会话管理器接收与经由所述用户接口输入的用户话语相关的信息的识别结果，并通过使用部分可观察马尔可夫决策过程(POMDP)进行用于理解用户请求的基础处理；以及

任务管理器，所述任务管理器基于与由所述会话管理器进行的所述基础处理的结果相关的信息来执行任务，

其中，所述会话管理器具有配置以使用部分可观察马尔可夫决策过程进行基础处理，其中，当部分可观察马尔可夫决策过程执行用于确定是否理解了用户话语的管理处理时，将根据来自所述用户的话语而生成的语义信息以及基于包括由所述任务管理器进行的任务的可行性的信息而生成的实体信息设置为观察空间。

2.根据权利要求1所述的信息处理设备，其特征在于，还包括：

显示器，所述显示器在由所述会话管理器进行的所述基础处理期间为所述用户显示系统动作。

3.根据权利要求1所述的信息处理设备，其特征在于，所述会话管理器具有配置以使用部分可观察马尔可夫决策过程进行基础处理，其中，将使用用作所述观察空间的所述语义信息而计算出的状态值以及使用用作所述观察空间的所述实体信息而计算出的状态值设置为状态空间。

4.根据权利要求1所述的信息处理设备，其特征在于，所述会话管理器具有配置以使用部分可观察马尔可夫决策过程进行基础处理，其中，将使用用作所述观察空间的所述语义信息而计算出的状态值、使用用作所述观察空间的所述实体信息而计算出的状态值、以及使用其它观察空间而计算出的状态值设置为状态空间。

5.根据权利要求1所述的信息处理设备，其特征在于，所述会话管理器具有配置以使用部分可观察马尔可夫决策过程进行基础处理，其中，所述部分可观察马尔可夫决策过程具有以下配置：其中基于包括使用用作所述观察空间的所述语义信息而计算出的状态值和使用用作所述观察空间的所述实体信息而计算出的状态值的状态空间来计算成本。

6.根据权利要求1所述的信息处理设备，其特征在于，所述会话管理器具有配置以使用部分可观察马尔可夫决策过程进行基础处理，其中，当部分可观察马尔可夫决策过程执行用于基础阶段变换的管理处理时，将包括来自所述用户的话语的用户动作设置为观察空间。

7.根据权利要求6所述的信息处理设备，其特征在于，所述会话管理器具有配置以使用部分可观察马尔可夫决策过程进行基础处理，其中，将使用用作观察空间的所述用户动作而计算出的状态值设置为状态空间。

8.一种用于在信息处理设备中使用的信息处理方法，其中所述信息处理设备用于接收来自用户的话语并分析所述话语，所述信息处理方法的特征在于包括：

语言输入和分析步骤，所述语言输入和分析步骤通过使用用户接口来接收来自用户的话语并进行语言分析；

会话管理步骤，所述会话管理步骤通过使用会话管理器，接收与经由所述用户接口输入的用户话语相关的信息的识别结果，并使用部分可观察马尔可夫决策过程(POMDP)进行用于理解用户请求的基础处理；以及

任务管理步骤，所述任务管理步骤通过使用任务管理器来基于与在所述会话管理步骤中进行的所述基础处理的结果相关的信息而执行任务，

其中，所述会话管理步骤是使用部分可观察马尔可夫决策过程进行基础处理的步骤，其中，当部分可观察马尔可夫决策过程执行用于确定是否理解了用户话语的管理处理时，将响应于来自所述用户的话语而生成的语义信息和基于包括由所述任务管理器进行的任务的可行性的信息而生成的实体信息设置为观察空间。

9.根据权利要求8所述的信息处理方法，其特征在于，还包括：

通过使用显示器在所述会话管理步骤中进行的基础处理期间为所述用户显示系统动作的步骤。

10.根据权利要求8所述的信息处理方法，其特征在于，所述会话管理步骤是使用部分可观察马尔可夫决策过程进行基础处理的步骤，其中，将使用用作所述观察空间的所述语义信息而计算出的状态值和使用用作所述观察空间的所述实体信息而计算出的状态值设置为状态空间。

11.根据权利要求8所述的信息处理方法，其特征在于，所述会话管理步骤是使用部分可观察马尔可夫决策过程进行基础处理的步骤，其中，将使用用作所述观察空间的所述语义信息而计算出的状态值、使用用作所述观察空间的所述实体信息而计算出的状态值、以及使用其它观察空间而计算出的状态值设置为状态空间。

12.根据权利要求8所述的信息处理方法，其特征在于，所述会话管理步骤是使用部分可观察马尔可夫决策过程进行基础处理的步骤，其中，部分可观察马尔可夫决策过程具有以下配置：其中基于包括使用用作所述观察空间的所述语义信息而计算出的状态值和使用用作所述观察空间的所述实体信息计算出的状态值的状态空间来计算成本。

13.根据权利要求8所述的信息处理方法，其特征在于，所述会话管理步骤是使用部分可观察马尔可夫决策过程进行基础处理的步骤，其中，当部分可观察马尔可夫决策过程执行用于基础阶段变换的管理处理时，将包括来自所述用户的话语的用户动作设置为观察空间。

14.根据权利要求13所述的信息处理方法，其特征在于，所述会话管理步骤是使用部分可观察马尔可夫决策过程进行基础处理的步骤，其中，将使用用作观察空间的所述用户动作计算出的状态值设置为状态空间。

15.根据权利要求13所述的信息处理方法，其特征在于，所述会话管理步骤是使用部分可观察马尔可夫决策过程进行基础处理的步骤，其中，部分可观察马尔可夫决策过程具有以下配置：其中基于包括使用用作所述观察空间的所述用户动作计算出的状态值的状态空间来计算成本。

16.根据权利要求8所述的信息处理方法，其特征在于，所述会话管理步骤是使用基础模型进行处理的步骤，其中，将开始处理、继续处理、确认处理、确认请求处理、确认应答处理、确认应答请求处理和取消处理定义为所述基础处理的执行动作。

17.根据权利要求8所述的信息处理方法，其特征在于，所述会话管理步骤是使用基础模型进行处理的步骤，其中，将开始处理、确认应答处理和取消处理定义为所述基础处理的执行动作。