CN1637740B

CN1637740B - 对话控制设备和对话控制方法

Info

Publication number: CN1637740B
Application number: CN200410091336XA
Authority: CN
Inventors: 富士本淳; 黄声扬; 胜仓裕
Original assignee: Universal Entertainment Corp; P to PA Inc
Current assignee: Universal Entertainment Corp
Priority date: 2003-11-20
Filing date: 2004-11-19
Publication date: 2012-03-28
Anticipated expiration: 2024-11-19
Also published as: ZA200409338B; US20050144013A1; US7676369B2; JP2005157494A; AU2004229094A1; CN1637740A; EP1533788A1

Abstract

本发明涉及一对话控制设备(1)，该设备用于执行基于对话内容和从外部获取的对话状态和信息的对话控制，并进行自然的回答。此设备包含一存储多项对话指定信息的话题的对话数据库(500)，一用于利用对话指定信息的话题选择回复语句的对话控制单元(300)，该对话指定信息是利用对话历史和对话信息确定的，和一用于获取环境识别信息的环境识别单元(800)，其中环境识别单元基于获取的环境识别信息产生事件信息，而且对话控制单元基于事件信息选择一回复语句。

Description

对话控制设备和对话控制方法

技术领域

本发明涉及一对话控制设备，和对话控制方法，特别涉及一用于利用对于呼叫者的面部识别，位置，特征和声音识别等的环境识别信息，执行对话控制的对话控制设备和对话控制方法，该控制包含对发出呼叫的呼叫者的回复。

背景技术

近年来，随着数字信号处理的高速发展和高度发达，如集中在计算机上的信息处理装置，高度集成LSI制造技术，和用于作为背景的例如DVDs的磁盘媒体的超细的高精密度制造技术，已有的对话控制技术使得给机器自然的语音，和理解人所说的话和做出合适的回复成为可能。这种类型的对话控制技术的示例在日本公开的专利2002-358304中有揭露。

以这种类型的对话控制技术，用户(说话者)的谈话是通过键盘或类似的装置获取的，而且这种对话控制只是基于谈话内容而执行。

另一方面，也有提供执行行为控制的技术，在自维持方式中基于除了谈话内容的信息之外，例如用户的声音和图像等信息等。用于执行这种类型的自维持行为控制的技术，例如在日本公开的专利2002-111981中有揭露。

以此类型的对话控制技术，作出一回复考虑的因素除了谈话之外，例如如用户的表情，人物，年龄等不作出回复。

同样，在用于在自维持方式中基于除了谈话内容的信息之外执行行为控制的技术中，存在只基于从外部获取的识别结果的行为控制，但是以此技术，过去的谈话内容没有被考虑，而造成非自然的行为控制。例如，如果在从外部获取的识别结果是说“生气的脸”的信息，即使直到那一处的对话显示良好的关系，将只基于“生气的脸”执行行为控制。

本发明的目的是提供对话控制技术，该技术基于对话内容与对话状态，和从外部获取的信息执行对话控制，并做出更自然的回答。

发明内容

作为用于解决上述问题的装置，本发明具有如下特点。

本发明的第一方面提供一用于在回复来自用户的语音的中输出回答的对话控制设备。

此对话控制设备包含用于为多个对话话题存储指定信息的数据库装置(对话数据库)，对话控制装置(对话控制单元)，其用于存储由先前的对话和先前的回复确定的对话历史，并利用话题指定信息选择以回复语句，该话题指定信息是利用对话历史和对话信息确定，和用于获取环境识另信息的环境识别装置(环境识别单元)，该环境识别装置基于获取的识别信息产生事件信息，该对话控制装置基于事件信息选择回复语句。

这里描述的“环境识别信息”是指从说话者和/或与说话者邻近的区域获取的信息，例如，安装对话控制设备的CCD摄像机，红外传感器或麦克风输出的信息。通过说明环境识别信息获取的“事件信息”是指，显示对话控制设备外部的情况的信息，并且是显示例如说话者的情绪和性别，说话者的特征和说话者邻近的信息。

依照此对话控制设备，由于不仅基于用户语音的内容，还有从环境识别装置获取的信息(例如，表情识别，情绪判断，性别识别，年龄识别，声音模式识别，说话者位置识别，等)执行对话控制，所以使得依照对话状况输出回复成为可能。

本发明的第二方面提供一种对话控制设备；包括：

(a)对话数据库，预先存储以下信息：

多项话题指定信息；

多个确定的话题标题，对应于所述多项话题指定信息的相应的一项；

多个确定的回复语句，对应于所述话题标题的相应的一个；和

多个确定的事件信息标记和多个回复类型，分别对应于所述回复语句的相应的一个；

(b)用于输入用户的语音的语音输入单元；

(c)传感器单元，用于获取发出语音的用户的面部图像数据；

(d)情绪判断模块，基于表情的特征量判断该用户的当前情绪，并且生成表示该判断结果的事件信息，所述特征量是从该用户的面部图像数据计算的，所述面部图像数据是由所述传感器单元获取的；

(e)过去对话信息存储单元，用于存储基于由该用户的过去的话音确定的多项过去对话信息和响应该过去的话音的过去回复语句，所述过去回复语句是由所述对话控制设备输出的；和

(f)对话控制单元，配置所述对话控制单元用于：

(i)将用户的语音作为该用户的对话信息输入到语音输入单元中的同时，根据输入的语音判断所说语句的类型；

(ii)获取发出语音的用户的面部图像数据，和基于获取的该用户的面部图像数据，由所述情绪判断模块生成用于判断该用户的当前情绪的所述事件信息；

(iii)基于在(i)项的话音输入单元中输入的该用户的所述对话信息，从存储在所述过去对话信息存储单元的多项过去对话信息中提取预定的过去对话信息；

(iv)基于在(iii)项中提取的所述预定的过去对话信息，从存储在所述对话数据库的多项话题指定信息中提取预定的话题指定信息；

(v)参阅在(i)项输入的该用户的所述对话信息，从多个确定的话题标题中提取预定的话题标题，以对应于在(iv)项提取的预定的话题指定信息；

(vi)基于在(ii)项由所述情绪判断模块生成的、表示该用户的当前情绪的所述事件信息，从对应于在(v)项提取的预定的话题标题的多个回复语句确定的多个事件信息标记中提取预定的事件信息标记；

(vii)基于与在上述(i)中判断的所说语句的类型匹配的回复类型和在(vi)项提取的预定的事件信息，从对应于在(v)项提取的预定的话题标题的多个回复语句中提取确定的预定的回复语句，以对应于所述预定的事件信息标记和所述回复类型中的每一个；和

(viii)输出在(vii)项提取的预定的回复语句。

这里提及的“情绪状况信息”是指代表一人物和/或说话者的情绪的信息。“环境识别信息”和“事件信息”在第一方面中具有同样的含义。

依照此方面的对话控制设备，由于不仅基于用户语音内容，而且从环境识别装置获取的信息(例如，表情识别，情绪判断，性别识别，年龄识别，声音模式识别，说话者位置识别，等)来执行对话控制，所以依照对话状况输出一回复成为可能，而且输出一反应人物情绪变化的，和适合于对话状态的合适的回复成为可能。

本发明的第三方面提供一用于在回复来自用户的语音中输出回答的对话控制方法。

此对话控制方法包含预先存储多项话题指定信息，为每一个话题指定信息确定的一个或多个对话标题，为每一对话标题确定的一个或多个回复语句，和相应于回复语句确定的事件信息标记的步骤，从一对话控制设备外部环境获取环境识别信息，且由环境识别信息产生事件信息的步骤，和将对话信息与在预先的对话和回复的基础上确定的话题指定信息做比较，从而获取至少一个利用话题指定信息确定的对话标题，，并从相应于对话标题的多个回复语句中依照相应于事件信息的事件信息标记选择回复语句的步骤。

这里提及的“环境识别信息”是指从说话者和/或邻近说话者的区域获取的信息，例如，通过安装于对话控制设备的CCD摄像机，红外感应器或麦克风输出的信息。通过说明环境识别信息获取的词语“事件信息”是指，显示对话控制设备外部的状况的信息，而且是显示例如，说话者的情绪和性别，说话者的特征和说话者的邻近的信息。

依照此对话控制方法，由于基于不仅是用户语音的内容，而且从环境识别装置获取的信息(例如，表情识别，情绪判断，性别识别，年龄识别，声音模式识别，说话者位置识别，等)来执行对话控制，所以依照对话的状况输出一回复成为可能。

本发明的第四方面提供一种控制对话控制设备的方法，所述对话控制设备包括：

(a)对话数据库，预先存储以下信息：

多项话题指定信息；

(b)用于输入用户的语音的语音输入单元；

(c)传感器单元，用于获取发出语音的用户的面部图像数据；

(e)过去对话信息存储单元，用于存储基于由该用户的过去的话音确定的多项过去对话信息和响应该过去话音的过去回复语句，所述过去回复语句是由所述对话控制设备输出的；和

(f)对话控制单元，配置所述对话控制单元用于执行以下步骤：

(iv)基于在步骤(iii)中提取的所述预定的过去对话信息，从存储在所述对话数据库的多项话题指定信息中提取预定的话题指定信息；

(v)参阅在(i)项输入的该用户的所述对话信息，从多个确定的话题标题中提取预定的话题标题，以对应于在步骤(iv)提取的预定的话题指定信息；

(vi)基于在步骤(ii)由所述情绪判断模块生成的、表示该用户的当前情绪的所述事件信息，从对应于在步骤(v)提取的预定的话题标题的多个回复语句确定的多个事件信息标记中提取预定的事件信息标记；

(vii)基于与在上述(i)中判断的所说语句的类型匹配的回复类型和在步骤(vi)提取的预定的事件信息，从对应于在步骤(v)提取的预定的话题标题的多个回复语句中提取确定的预定的回复语句，以对应于所述预定的事件信息标记和所述回复类型中的每一个；和

(viii)输出在步骤(vii)提取的预定的回复语句。

这里提及的“情绪状况信息”是指代表一个人物和/或说话者的情绪的信息。此“环境识别信息”和“事件信息”具有第三方面中的一样的含意。

依照此方面的此对话控制方法，由于基于不仅是用户语音的内容，而且从外部获取的信息，(例如，表情识别，情绪判断，性别识别，年龄识别，声音模式识别，说话者位置识别，等)来执行对话控制，所以依照对话的状况输出一回复成为可能，而且输出一反应一人物的情绪变化的，且适合于对话状况的适宜的回复成为可能。

本发明的其他目的和优势将在下面的描述中阐述，而且部分内容将由描述变得很明白，或可以通过本发明的实行而获悉。本发明的目的和优势可以通过下述全文中特别指出的手段装置和组合而实现和获取。

附图说明

参照作为说明书的一组成部分的附图来说明本发明的实施例，并与上面给出的概括的描述和下面给出的实施例的具体描述一起来说明本发明的原理。

图1是显示一对话控制设备例的外透视图，

图2是显示一对话控制设备的结构一实例的功能方框图，

图3是显示语音识别单元的结构一实例的功能方框图，

图4是显示对于一假定字限制部分的处理的时序图，

图5是显示语音识别单元的操作例的流程图，

图6是一对话控制设备的一部分的放大方框图，

图7是显示在字符串和从此字符串提取的显示语素之间关系的示图，

图8是显示“所说语句类型”，一代表所说语句类型的两字符字母编码，和相应于该所说语句类型的所说语句的一实例示图，

图9是显示语句类型和用于确定该语句类型的词典之间的关系的示图，

图10是显示用于存储在对话数据库里数据的数据结构的一实例示意图，

图11是显示一项特定的话题指定信息和另一项特定的确定信息之间的联系的示图，

图12是显示用于对话标题的数据结构实例的示图，

图13是用于描述回复语句类型和内容实例的示图，

图14是显示附加有特别的话题指定信息的对话标题，回复语句和事件信息标记的具体实例的示图，

图15是显示用于一事件信息标记的另一数据结构实例的示图，

图16是显示一环境识别单元的结构实例的功能方框图，

图17是显示一情绪判断模块的操作实例的流程图，

图18是显示一对话控制方法的过程的流程图，

图19是显示第二实施例的对话控制设备的结构实例的功能方框图，

图20是显示一情绪状况信息管理单元的存储内容实例的示图，

图21是显示第二实施例的对话数据库中的存储内容实例的示图，

图22是显示附加有特别的话题指定信息的对话标题，回复语句，事件信息标记，情绪状态参数和情绪标记的具体实例的示图，

图23是显示第二实施例的对话控制方法的过程的流程图。

具体实施方式

1.第一实施例

参照附图将对本发明的第一实施例进行描述。

图1是显示本实施例的对话控制设备的外部装置的透视图。

图中所示的对话控制设备1作用为餐厅自助餐桌点餐终端，该终端放置在餐厅的餐桌上或类似的地方，用于在相应于客户(用户)的提问和点餐时由客户点餐。

对话控制设备1包含一用于显示用户界面的液晶显示部分11，三维定向麦克风12A，12B，12C，和12D，该麦克风作用为用于获取说话者的对话的输入装置，且也作为用于通过确定声音模式和说话者位置执行说话者确认的传感器，一主要用于捕捉说话者的图像的CCD摄像机13，一用于探测说话者邻近的红外传感器14，和用于输出语音等的扬声器15L，15L，该语音是通过用于回复的对话控制设备而产生。

对话控制设备1通过三维定向麦克风12A，12B，12C，和12D的装置获取说话者的语音。同样，通过利用三维定向麦克风12A，12B，12C，与12D，CCD摄像机13和红外传感器14识别外部而获取环境识别信息。对话控制设备1基于说话者语音和环境识别信息输出一回复。可以利用扬声器15L，15R输出如声波纹信息的一回答，或者可以作为字符和图像数据输出给液晶显示部分作为回答。

对于对话控制设备1也有可能在液晶显示部分上显示用于对用户(客户)点餐的用户界面，而且可以显示娱乐内容例如心里诊断内容，用户可以在点餐之后使用该内容直到上菜。

对话控制设备的结构实例

下面，将描述对话控制设备1的内部构造。

整体结构

图2是说明本实施例的对话控制设备1的一结构实例的功能方框图。

对话控制设备1具有一硬件，该硬件相当于信息管理单元或信息处理单元，例如计算机或安装在底盘上的工作站。对话控制设备1的信息处理单元包含一具有中央处理器(CPU)的装置，一主存储器(RAM)，一只读存储器(ROM)，一输入输出单元(I/O)和一外部存储单元例如硬盘单元。一存储在ROM或外部存储单元中的程序，该程序用于使得信息处理单元作用为一对话控制设备1或使得计算机执行对话控制方法，该程序存入到主存储器然后任一对话控制设备1和对话控制方法可通过由CPU执行程序而实现。同样，也不是绝对必须在设备中的存储单元中存储程序，而且也有可能从计算机可读程序存储介质例如磁盘，光盘，磁光盘(CD)或DVD(数字通用光盘)或外部单元(例如，ASP(应用服务提供商)服务器)，提供该程序，而且存入此程序到主存储器。

如图2所示，对话控制设备1包含一输入单元100，一语音识别单元200，一语音控制单元300，一语句分析单元400，一对话数据库500，一输出单元600，一语音识别词典存储单元700，一环境识别单元800，和一用户界面控制单元900。

输入单元

输入单元100相应于3维定向麦克风12A-12D，并且获取从用户输入的输入信息。输入单元100将相应于所获取的语音内容的声音作为声音信号输出给语音识别单元200。在输出单元100是3维定向麦克风12A-12D的情况下，输入单元100也同样作用为环境识别单元800。

语音识别单元

语音识别单元200基于由输入单元100获取的语音内容指定相应于语音内容的字符串。特别的，从输入单元100输入声音信号的语音识别单元200基于输入声音信号，参考存储在语音识别词典存储单元700和对话数据库500中的词典，并且输出一由声音信号推测的声音识别结果。在图2中所示的结构实例，语音识别单元200请求获取对话数据库500的存储内容到对话控制单元300，而且对话控制单元300收到相应于请求而获取的对话数据库500的存储内容，但也有可能具有一结构，其语音识别单元200直接获取对话控制数据库500的存储内容，并将其与声音信号做比较。

语音识别单元的结构实例

图3所示的是显示语音识别单元200的结构实例的功能方框图。语音识别单元200包含一特征提取部分200A，一缓冲存储器(BM)200B，一字比较部分200C，缓冲存储器(BM)200D，一候补确定部分200E，和一假定字限制部分200F。字比较部分200C和假定字限制部分200F连接到语音识别词典存储单元700，且候补确定部分200E连接到对话数据库500。

连接到字比较部分200C的语音识别词典存储单元700存储一音素隐马尔可夫模型(hidden markov model)(下面隐马尔可夫模型用HHM表示)。音素HHM代表包含每一状态，而且每一状态分别具有如下信息：(a)状态序号，(b)可接受范围级，(c)先前的状态和随后的状态列，(d)输出概率密度分布参数，和(e)自转移概率和转换到随后的状态的概率。本实施例中利用的音素HHM获取关于每一分布在哪一扬声器中产生的说明，其是指转换和产生一特别的扬声器混合物。这里，一输出概率密度函数是一具有34维对角协方差矩阵的混合Gauss分布。同样，连接到字比较部分200C的语音识别词典存储单元700存储一字词典。字词典存储代表一读数的符号串，该读数由用于音素HHM的每一个字的符号所代表。

说话者发出的声音在输入到麦克风等之后输入到特征提取部分200A，并且被转换成声音信号。在输入声音信号的A/D转换之后，特征提取部分200A提取一特征参数并输出此特征参数。作为用于提取特征参数和输出提取的特征的方法，可以考虑不同的方法，但是作为一示例，例如有一执行LPC分布的方法，且提取一包含对数指数的34维特征参数，16阶倒谱系数，Δ对数指数和16阶Δ倒谱系数。提取的特征参数的年代次序通过缓冲存储器(BM)200B输入到字比较部分200C。

字比较部分200C基于利用单道Viterbi解码方法输入到缓冲存储器200B的特征参数，利用存储在语音识别词典存储单元700和字典中的音素HMM探测一假定字，且计算和输出一可能性。这里，字比较部分200C从语音的开始对在每一时间的每一HMM的每一状态，来计算一字和一可能字之间的可能性。对于每一不同的字识别序号，字开始时间，和以前的字有一独立的可能性。同样，为了减少计算处理的数量，有可能基于此音素HMM和字典从所有的计算的假设中除去低可能性的格栅假设。字比较部分200C为该假设将探测的假定字和可能性信息，与从语音开始的时间起的时间信息一起通过缓冲存储器200D输出到候补确定部分200E，和假定字限制部分200F。

候补确定部分200E参考对话控制单元300以对探测的假定字和在指定对话时间的话题指定信息进行比较，确定在假定字中是否与在指定对话时间的话题指定信息有匹配，以及如果有一匹配，将与该信息匹配的假定字作为识别结果输出，而没有匹配时，请求到假定字限制部分200F的假定字的限制。

下面描述候补确定部分200E的操作实例。字比较部分200C输出一假定字，例如，多个假定的字，如“kantaku”(日语中“kantaku”是通过开垦改良土壤)，“kataku”(日语中“kataku”是借口)，和“kantoku”(“kantoku”是棒球队的主管)和一可能性(识别率)。一指定对话时间与“影片”相关，而且对话确定信息的话题包含字“kantoku”(主管)，但是没有包含字“kantaku” (开垦)和“kataku”(借口)。同样，对于“kantaku”，“kataku”和“kantoku”的可能性(识别率)，“kantaku”是极高，“kantoku”是极低，“kataku”在两者之间。

在上述的条件下，候补确定部分200E对探测的假定字和在指定对话时间的话题指定信息进行比较以确定假定字“kantoku”匹配在指定对话时间的话题指定信息，输出作为识别结果的假定字“kantoku”，且发送识别结果到对话控制单元。作为这种类型的处理的结果，与当前正进行的对话的话题“电影”关联的“kantoku”被给于比具有高级可能性(识别概率)的假定字“kantaku”和“kataku”高的选择优先权，而且有可能输出一声音识别结果，该结果符合产生的对话的内容。

另一方面，如果没有匹配，假定字限制部分200F操作以输出一识别结果，该识别结果相应于一执行来自候补确定部分200E的假定字的限制的请求。假定字限制部分200F基于多个来自字比较部分200C通过缓冲存储器200D的假定字输出，参考存储在语音识别词典存储单元700的统计语言模型，而且对于用于具有相同的开始时间和相同的结束时间的同一字的假定字，对于字的每一主要音素环境，执行假定字限制以至从所有的可能性中，用一具有最高可能性的假定字代替，该可能性是从语音开始到这个字完成的时候计算的，而且然后从所有限制之后的假定字的词语序列中，输出作为识别结果的一用于具有最高总可能性的假定的词语序列。在本实施例中，更优的，要被处理的字的主要音素环境是一包含在字之前的假定字的最后的音素，和两个用于字的假定字的初始音素的3个音素列。

利用假定字限制部分200F的字限制实例将参考附图3进行描述。图4所示是假定字限制部分200F的处理实例的时序图。

例如，在一第i-1个字Wi-1之后，当一包含音素串a1，a2...的第i个字Wi到达时，对于Wi-1个字出现6个字作为假定字的Wa，Wb，Wc，Wd，We和Wf。这里，前3个字Wa，Wb和Wc的最后的音素是/x/，而且后3个音素Wd，We和Wf的最后音素是/y/。在完成时间te，如果保留3个采用假定字Wa，Wb和Wc的假定和1个采用假定字Wd，We和Wf的假定字，那然后从具有同样主要音素环境的前3个中保留具有最高可能性的假定，而且余下的被删除。

由于一采用假定字Wd，We和Wf的假定，其具有不同于其他3个假定的主要音素环境，也就是，因为上个假定字的最后音素不是x是y，所以没有删除采用假定字Wd，We和Wf的此假设。也就是，对于上个假定字的每一最后音素保留一假设。

在上述的实施例中，字的主要音素环境定义为一3音素列，该音素列包含这个字之前的假定字的最后音素和对于该字的假定字的两个最初的音素，但是本发明不局限于此，而且有可能具有一音素列，该音素列包含一对于假定字的音素串，上个假定字的一最后音素和上个假定字的与最后音素连续的至少一个音素，该音素串包含一对于字的假定字的最初音素。

在上述的实施例中，特征提取部分200A，字比较部分200C，候补确定部分200E和假定字限制部分200F由例如，一如数字电子计算机的计算机组成，而且缓冲存储器200B，200D，和语音识别词典存储单元700由例如硬盘存储器组成。

在上述的实施例中，利用字比较部分200Che和假定字限制部分200F执行声音识别，但是本发明不局限于此，而且有可能例如配置一语音识别单元，该该语音识别单元用于通过参考统计语言模型执行对于字的声音识别，该统计语言模型例如利用一用于参考一音素HMM和一单道DP算法的音素检查部分。

同样，已经描述具有作为对话控制设备的一部分的语音识别单元200的本实施例，但是也有可能其具有一独立的声音识别单元，该声音识别单元包含一语音识别单元，一语音识别词典存储单元700和一对话数据库500。

语音识别单元的操作实例

下面，将参照附图5对语音识别单元200的操作进行描述。图5是显示语音识别单元200的一操作实例的流程图。如果从输入单元100收到一声音信号，语音识别单元200执行输入声音的特征分析，且产生一特征参数(步骤S501)。然后，对此特征参数和存储在语音识别词典存储单元700和语言模型中的音素HHM进行比较，以获得假定字的指定序号和对于它们的可能性(步骤S502)。之后，语音识别单元200对获取的假定字的指定序号，所探测的假定字和在一指定的对话时间内的话题指定信息进行比较，并确定探测的假定字中和在指定对话时间内的话题指定信息是否存在匹配(步骤S503和步骤S504)。在如果有匹配，语音识别单元200输出作为识别结果的该匹配假定字(步骤S505)。另一方面，如果没有匹配，对话识别单元200依照获取的假定字的可能性，输出作为识别结果的具有最大可能性的假定字(步骤S506)。

语音识别词典存储单元

返回到图2，将继续对话控制设备1的结构实例进行描述。

语音识别词典存储单元700存储相应于标准声音信号的字符串。该信号的语音识别单元200其已检查相应于该声音信号所限定的相应于假定字的字符串，而且将作为字符串信号所限定的该字符串输出给对话控制单元300。

语句分析单元

下面，将参考附图6对给出语句分析单元400的一结构实例进行描述。图6是对话控制设备1的部分的放大方框图，而且是显示对话控制单元300和语句分析单元400的指定的结构实例方框图，图6所示的只是对话控制单元300，语句分析单元400和对话数据库500，省略了其他的结构元素。

语句分析单元400对输入单元100或语音识别单元200所指定的字符串进行分析。如图6所示，本实施例的语句分析单元400包含一字符串指定部分410，一语素提取部分420，一语素数据库430，一输入类型确定部分440和一表达类型数据库450。字符串指定部分410为每一分句给一由输入单元100或语音识别单元200指定的连续的字符串划界。此分句参照为没有失去语法含义而将字符串可能划分成的最小的片断。特别是，当在一连续的字符串中有一指定值或更多的一时间间隔时，字符串指定部分410在那个部分对该字符串划界。字符串指定部分410将每一划界的字符串输出给语素提取部分420和输入类型确定部分440。下面的“字符串”是指对于每一单个分句的一字符串。

语素提取部分

基于通过字符串指定部分410划界的分句的字符串，语素提取部分420提取每一语素并作为第一语素信息输出，该所提取的语素是构成对于该分句的字符串中的一个字符串的最小单元。这里，在本实施例中，语素是字符串中显示的字成分的最小单元。作为字成分的最小单元，有很多语音属性例如名词，形容词，动词等。

以如图7所示的本实施例，每一语素可以表示为m1，m2，m3...。图7是显示在一字符串和从此字符串中提取的语素之间的关系的示图。如图7所示，从字符串指定部分410输入一字符串的语素提取部分420检查此输入字符串和一语素组(该语素组提供作为语素词典，该词典定义为属于语音分类的各个部分的关键字，读数，语音成分，对于每一语素的语素组合等)，该语素组预先存储在语素数据库430中。执行该检查的语素提取部分420提取与预先存储语素组的任一个相匹配的每一语素(m1，m2...)。除了提取的语素的元素(n1，n2，n3...)可能是例如助动词。

语素提取部分420将每一提取的语素作为第一语素信息输出给话题指定信息搜索部分320。没有必要构造第一语素信息。这里，“构造”是指基于语音成分分类和排列含有字符串的语素，例如，转换所说语句中的字符串以至以指定的顺序排列语素例如“主语+宾语+谓语”，且转换成数据。明显的，即使使用构造的第一语素信息，也仍在本实施例的范围内。

输入类型确定部分

输入类型确定部分440基于一字符串指定部分410指定的字符串确定语音内容的类型(对话类型)。此对话类型是指定语音内容的类型的信息，而且在本实施例中是指例如，图8所示的“所说语句类型”。图8是显示“所说语句类型”的实例，代表所说语句类型的两字符字母编码，和一相应于该所说语句类型的所说语句的示图。

这里，本实施例中的“所说语句类型”包含如图8所示的陈述语句(D：陈述)，时间语句(T：时间)，地点语句(L：地点)，和否定语句(N：否定)等。这些类型构成的语句包含肯定语句和疑问语句。一“陈述语句”是指表示用户的观点或想法的语句。本实施例中，如图8所示，陈述语句可能是例如“我喜欢佐藤”。“地点语句”是指包括地点概念的语句。“时间语句”是指伴随有时间概念的语句。“否定语句”是指否定陈述语句的语句。图7所示是对于“所说语句类型”的例句。

对于输入类型确定部分440确定“所说语句类型”，以实施例输入类型确定部分440如图9所示，使用一用于确定是陈述语句的肯定表达词典和一用于确定是否定语句的否定表达词典。特别是，从字符串指定部分410输入一字符串的输入类型确定部分440基于输入字符串，相对于存储在表达类型数据库450中的每一词典检查该字符串。执行此检查的输入类型确定部分440然后从该字符串中提取与每一词典相关的语素。

输入类型确定部分440基于提取的元素确定“所说语句类型”。例如，如果该元素是在一字符串中包含的特别事件中被陈述，输入类型确定部分440确定包含那些要成为陈述语句的元素的字符串。输入类型确定部分440将确定的“所说语句类型”输出给回答获取部分350。

对话数据库

下面，将参考附图10对存储在对话数据库500中的数据的一数据结构实例进行描述。

对话数据库500为指定对话标题预先存储多项话题指定信息810，如图10所示。可选择的，各个话题识别信息810可以与其它的话题识别信息810相关，以例如图10所示的示例，所存储的话题识别信息810以至如果指定话题识别信息C(810)，那么可确定与此指定话题识别信息C(810)相关的指定话题识别信息A(810)，其它指定话题识别信息B(810)，和其它指定话题识别信息D(810)。

特别是的，以本实施例，指定话题识别信息810是指一“关键字”，该关键字与期望的输入内容或对于如果有来自客户的输入的回复语句相关。

一个或多个对话标题820相关联且存储在话题指定信息810中。对话标题820由音素组成，该音素包含单个字符，多个字符串，或这些的组合。对客户的回复语句相关联且存储在每一对话标题820中。同样，多个代表一回复语句830的类型的回复类型关联于回复语句830。

而且，事件信息标记840与回复语句830相关联且被存储。事件信息标记840是基于环境识别信息所产生的信息，而且由例如，判断用户的情绪的信息，判断用户性别的信息，判断用户年龄的信息，探测用户的邻近的信息，或识别用户正在说话的信息组成，该环境识别信息是通过执行在外部识别的对话控制设备1而获取。

为每一事件信息标记840，提供回复语句830，其所提供的回复以相应于一显示例如，一“生气的”“30岁”“男人”的事件信息标记840的回复语句，和相应于一显示例如，一“在笑的”“20岁”“女人”的事件信息标记840的回复语句各自准备具有不同的句子。。

下面，将描述在一特别的话题指定信息810和另一话题指定信息810之间的关联。图11是显示话题指定信息810A和其它话题指定信息810B，810C₁-810C₄，810D₁-810D₃...之间的关联的示图。在下面的描述中，“关联和存储”是指可以读取特别信息X和与X相关的信息，例如，用于读取在信息X的数据(例如，一指针显示信息Y的存储地址，信息Y存储在一物理/逻辑存储器地址)中的信息Y的信息是指“信息Y”的状态是‘关联和存储’在信息“X”中的。

以图11所示的示例，有可能关联和存储在话题指定信息和其它话题指定信息之间的较高级概念，一较低级概念，同义词，和反义词(从图11的示例中省略)。以图11所示的示例，话题指定信息810B(＝“娱乐”)与话题指定信息810A相关且作为对应于话题指定信息810A(＝“电影”)的高级概念话题指定信息而存储，而且存储在例如对应于指定信息(＝“电影”)之上的层存储。

同样，对于以相应于话题指定信息810A(＝“电影”)的低级概念的话题指定信息810C₁(＝“导演”)，话题指定信息810C₂(＝“明星”)，话题指定信息810C₃(＝“发行公司”)，话题指定信息810C₄(＝“放映时间”)，话题指定信息810D₁(＝“七武士”)，话题指定信息810D₂(＝“战争”)，话题指定信息810D₃(＝“保镖”)...与话题指定信息810A关联且被存储。

可选择的，同义词900与话题指定信息810A关联。以此例，显示了作为对于关键字“电影”的同义词的存储“作品”，“内容”和“电影院”的方面，该关键字是话题指定信息810A。通过确定这些同义词的类型，当一对话不包含关键字“电影”时，但是一所说语句中包含“作品”，“内容”和“电影院”等。也有可能以所说语句中包含的话题指定信息810A进行处理。

如果指定了特别的话题指定信息810，本实施例的对话控制设备1可以为话题指定信息810通过快速参考对话数据库500的存储内容，搜索和提取与该话题指定信息810关联且被存储的其它的话题指定信息810，和一对话标题820，回复语句830等。

下面将参考图12，对于对话标题820(“第二语素信息”)的一数据结构实例进行描述。图12是显示对话标题的一数据结构实例的示图。

话题指定信息810D₁，810D₂，810D₃...分别具有多个不同的对话标题820₁，820₂，...，对话标题820₃，820₄，...，和对话标题820₅，820₆。以图12所示的本实施例，各个对话标题820是由第一指定信息1001，第二指定信息1002，和第三指定信息1003构成的信息。这里第一指定信息1001是指以本实施例构成一对话的话题的主元素。第一指定信息1001的一示例是例如，构成一语句的主语。同样，以本实施例，第二指定信息1002是指和第一指定信息具有一密切关系的语素。第二指定信息1002是例如一宾语。以本实施例，第三指定信息是指代表一特定对象的移动或动作的语素，或是修饰名词的语素。第三指定信息可以是例如一动词，副词或形容词。第一指定信息1001，第二指定信息1002和第三指定信息1003各自的含义没有必要局限于上面所述，而且即使对于第一指定信息1001，第二指定信息1002和第三指定信息1003有其它的意思(其他语音成分)，只要可以根据它们理解语句的内容本实施例就有效。

例如，如果主语是“七武士”和形容词是“有趣的”，然后如图12所示，对话标题820₂由作为第一指定信息1001的语素“七武士”和作为第三指定信息1003的语素“有趣的”构成。这里没有相应于对话标题820₂包含的第二指定信息1002的语素，而且一用于显示没有相应的语素的符号“*”作为第二指定信息1002存储。

对话标题820₂(七武士；*；有趣的)具有含意“七武士很有趣”。在包含对话标题820的圆括号中，从左边开始依次排列第一指定信息1001，第二指定信息1002和第三指定信息1003。同样，在对话标题820中，如果没有从第一到第三指定信息包含的语素，那个部分显示为“*”。

构成上述的对话标题820的指定信息不局限于如上所述的第一到第三指定信息的三个部分，而且也有可能例如具有其他的指定信息(第四指定信息，或更多)。

下面，将对回复语句830进行描述。如图13所示，以本实施例，为了对用户说的所说语句的类型做出合适的回复，回复语句830分类成陈述(D：陈述)，时间(T：时间)，地点(L：地点)和否定(N；否定)类型(回复类型)，而且为每一类型准备一回复。同样，肯定表示为“A”，疑问表示为“Q”。

图14中，显示了具有合适的附属于一特定的话题指定信息810“日本食物”的对话标题820，回复语句830和事件信息标记840的一具体实例。

多个对话标题(820)1-1，1-2，...适合的附属于话题指定信息810“日本食物”。回复语句(830)1-1，1-2，...适合的附属于各个对话标题(820)1-1，1-2，...并被存储。每一回复语句830由多个为回复类型准备的语句，和事件信息标记840构成。

例如，如果在对话标题(820)1-1是(日本食物；*；喜欢)(其提取了“我喜欢日本食物。”中所包含的语素)，对于回复类型是DA(肯定陈述语句)的情况，在相应于该对话标题(820)1-1的回复语句(830)1-1中准备“提供不同的美味的日本菜”(对于事件信息标记840显示用户判断情绪是“开心”和用户判断性别是“男”的情况的回复)，和“提供非常健康的日本菜”(对于事件信息标记840显示判断的用户情绪是“开心”和判断的用户性别是“女”的情况的回复)，和对于回复类型是TA(时间肯定)的情况，准备“也提供可以很快做好的日本菜”(对于事件信息标记840显示判断的用户情绪是“开心”和判断的用户性别是“男”的情况的回复)，和“也提供可以很快做好的健康的日本菜”(对于事件信息标记840显示判断的用户情绪是“开心”和判断的用户性别是“女”的情况的回复)。对于其它的对话类型也依照事件信息标记840准备多个回复。后面将依照回复类型和事件信息标记840对一回复获取单元350获取一与该对话标题820关联的回复语句830进行描述。

对话控制单元

这里，返回到图6，将对话控制单元300的一结构实例进行描述。

对话控制单元300控制在对话控制设备1中的每一结构元素(语音识别单元200，语句分析单元400，对话数据库500，输出单元600，语音识别词典存储单元700，环境识别单元800和用户界面控制单元900)之间的数据传输，并具有用于实现确定和输出响应于说话的回复语句的功能。

本实施例中，对话控制设备300包含一管理单元310，一话题指定信息搜索单元320，一省略句补充单元330，一话题搜索单元340，和一回复获取单元350。管理单元310执行对话控制单元300的全面控制。同样，管理单元310存储一对话历史，并具有一根据请求更新对话历史的功能。管理单元310作用为将所有或部分存储的对话历史传输给每一话题指定信息搜索单元320，省略句补充单元330，话题搜索单元340，和回复获取单元350，该传输响应于来自这些单元的请求。

“对话历史”是指定在用户和对话控制设备之间的对话的主语的信息，而且对话历史是包含“记录的话题指定信息”，“记录的话题标题”，“用户输入语句话题指定信息”，和“回复语句话题指定信息”的至少一个信息。同样，对话历史包含的“记录的话题指定信息”，“记录的话题标题”，和“回复语句话题指定信息”不局限于由一直接的在先对话所确定，也有可能经一指定的周期而具有“记录的话题指定信息”，“记录的话题标题”，和“回复语句话题指定信息”，或者累积的存储它们。

下面，将对每一个包含对话控制单元300的单元进行描述。

话题指定信息搜索单元

话题指定信息搜索单元320对通过语素提取单元420提取的第一语素信息和每一项话题指定信息进行比较，并从与一语素匹配的每一话题指定信息中搜索对话指定信息810的话题，该语素构成第一语素信息。特别是，在从语素提取单元420输入的第一语素信息是两语素“日本食物”和“喜欢”的情况时，话题指定信息搜索单元320比较输入第一语素信息和话题指定信息。

当一构成第一语素信息的语素(例如“日本食物”)包含在一记录的对话标题820中心(直到上次所搜索的对话标题)，已执行该比较的话题指定信息搜索单元320将该记录的对话标题820输出给回复获取单元350。另一方面，当一构成第一语素信息的语素没有包含在一记录的对话标题820中心，话题指定信息搜索单元320基于第一语素信息确定用户输入语句话题指定信息，并将输入第一语素信息和用户输入语句话题指定信息输出给省略句补充单元330。“用户输入语句话题指定信息”是指从第一语素信息中包含的语素中与对话话题指定信息810等同的一相应于用户已作出的对话话题内容的一语素，或者是相应于用户已作出的对话话题内容的一可能性的一语素。

省略句补充单元

省略句补充单元330通过利用直到之前时候搜索的对话话题指定信息810(下文称作记录的对话话题指定信息)，和上个语句包含的对话话题指定信息810(下文称作为回复语句对话话题指定信息)，产生多个“补充第一语素信息”的类型。例如，如果有一所说语句是语句“我喜欢”的中，省略句补充单元330包含在第一语素信息“喜欢”中的记录的对话话题指定信息“日本食物”，以产生补充第一语素信息“日本食物，喜欢”。

也就是，如果使得第一语素信息是“W”，以及使得记录的对话话题指定信息和回复语句对话话题指定信息的集合是“D”，省略句补充单元330包含在第一语素信息“W”中的集合“D”的元素，以产生第一语素信息。

通过这样做，在利用第一语素信息构造的一语句是一省略句且其意思不清楚的情况中，省略句补充单元330可以利用集合“D”以含有第一语素信息“W”中的集合“D”的元素(例如，“日本食物”)。结果，对话控制单元300可以使第一语素信息“喜欢”变成补充第一语素信息“日本食物，喜欢”。补充第一语素信息“日本食物，喜欢”相应于语音内容“我喜欢日本食物”。

特别是，省略句补充单元330可以甚至在例如用户的语音内容是省略句的情况，利用集合“D”补充一省略句。结果，即使由第一语素信息形成的一语句是一省略句，省略句补充单元330可以将此语句变成一可理解的或甚至没有省略的语句。

省略句补充单元330基于集合“D”搜索与补充之后的第一语素信息匹配的对话标题820。如果发现了与补充之后的第一语素信息匹配的对话标题820的，省略句补充单元330将该对话标题820输出给回复获取单元350。然后回复获取单元350可以基于适合的由省略句补充单元330搜索的对话标题820，输出与用户语音内容最合适的回复语句830。

省略句补充单元330不局限于只包含第一语素信息中的集合“D”的元素，而且有可能基于记录的对话标题包含一任一第一指定信息，第二指定信息和第三指定信息包含的语素，该任一指定信息包含在提取的第一语素信息中的对话话题的话题。

话题搜索单元

当对话标题820不是通过省略句补充单元330确定时，话题搜索单元340对第一语素信息和相应于对话话题指定信息的对话标题820进行比较，该对话话题指定信息包含在用户输入类型中(下文参考作“用户输入语句对话话题指定信息”)，并从每一对话标题820中搜索与第一语素信息最合适的对话标题820。

特别是，基于输入搜索指示信号和第一语素信息中包含的用户输入语句对话话题指定信息，从省略句补充单元330输入一搜索指示信号的话题搜索单元340，从关联于用户输入语句对话话题指定信息的每一对话标题820中，搜索与第一语素信息最合适的对话标题820。话题搜索单元340将作为搜索结果信号的搜索的对话标题820输出给回答获取单元350。

图14是显示与特殊对话话题指定信息810(＝“佐藤”)关联的对话标题820，回复语句830和事件信息标记840的一具体实例示图。如图14所示，例如，由于对话话题指定信息810(＝“日本食物”)包含在输入第一语素信息“日本食物，喜欢”中，话题搜索单元340指定该对话话题指定信息810(＝“日本食物”)，然后与该对话话题指定信息810(＝“日本食物”)关联的每一对话标题(820)1-1，1-2，...和输入第一语素信息“日本食物，喜欢”进行比较。

话题搜索单元340基于此比较结果，从与输入第一语素信息“日本食物，喜欢”匹配的对话标题(820)1-1，1-2中指定对话标题(820)1-1(日本食物；*；喜欢)。话题搜索单元340将作为搜索结果信号的搜索对话标题(820)1-1(日本食物；*；喜欢)输出给回复获取单元350。

回复获取部分

基于由话题搜索单元340搜索的对话标题820，回复获取单元350获取一与对话标题820关联的回复语句830。同样，基于由话题搜索单元340搜索的对话标题820，回复获取单元350对每一与该对话标题820关联的回复类型和由输入类型确定单元440确定的对话类型进行比较，而且也对由环境识别单元800输出的事件信息和与回复语句830关联的事件信息标记840进行比较，以选择一相应于回复类型和事件信息标记840的回复语句，该回复类型和事件信息标记840符合于对话类型和事件信息。

如图14所示，例如，如果由话题搜索单元340搜索的对话标题820是对话标题1-1(对话话题；*；喜欢)，回复获取单元350从与对话标题1-1关联的回复语句1-1(DA，TA等)中，指定一与“所说语句类型”(例如DA)匹配的的对话类型(DA)，该“所说语句类型”由输入类型确定单元440确定，而且回复获取单元350指定与由环境识别单元800输出的事件信息匹配的事件信息标记840。已指定回复类型(DA)和事件信息标记840的回复获取单元350基于指定的回复类型(DA)和事件信息标记850，获取与该回复类型(DA)和事件信息标记840(例如，“开心”，男)关联的回复语句(“提供不同的美味的日本菜”)。

这里，从上述提及的“DA”，“TA”等中，“A”是指肯定。因而，如果对话类型和回复类型中包含“A”，它代表对一特定事物的肯定。在对话类型和回复类型中也有可能包含例如“DQ”，“TQ”的类型。“DQ”和“TQ”中的“Q”是指对于特定事物有疑问。

当由上述疑问类型(Q)形成回复类型时，以肯定类型(A)形成与该回复类型关联的回复语句。作为以肯定类型形成的回复语句，有一回复所问问题的语句。例如，如果所说语句是“你有什么可推荐的菜吗？”，对于该所说语句的对话类型是疑问类型(Q)。与疑问类型(Q)关联的一回复语句可能是，例如肯定类型(A)“是的，肉菜非常好。”

另一方面，当由一肯定类型(A)形成回复类型时，以疑问类型(Q)形成与该回复类型关联的回复语句。作为以疑问类型形成的回复语句，可能是一回复语音内容的疑问句或是引出一指定问题的疑问语句。例如，如果所说语句是“我喜欢有鱼的菜。”，对于该所说语句的对话类型是肯定类型(A)。与肯定类型(A)关联的一回复语句可能是，例如“您想怎么做鱼？”(引出一指定事物的疑问类型(Q))。

回复获取单元350将作为回复语句信号的获取回复语句830输出给管理单元310。管理单元310从回复获取单元350输入回复语句信号并将输入的回复语句信号输出给输出单元600。

输出单元600通过回复获取单元350获取的回复语句输出。该输出单元600是例如扬声器15L，15R。特别是的，从管理单元310输入回复语句的输出单元600基于输入回复语句以声音形式输出该回复语句，例如“提供不同的日本菜”。

事件信息标记

图15显示了一与图14所示的事件信息标记840不同的事件信息标记840的结构实例。图15中的事件信息标记840具有情绪判断信息1501，性别判断信息1502，年龄判断信息1503，和说话者判断信息1504。情绪判断信息1501是代表一由用户的表情图像数据和声音数据等判断获取的说话者的判断的信息，性别判断信息1502是代表一由用户的图像数据和声音数据等判断获取的说话者的性别的信息，年龄判断信息1503是代表一由用户的图像数据和声音数据等判断获取的说话者的年龄的数据，说话者判断信息1504是当由多个说话者时指定正在交谈的说话者的信息。

环境识别信息

返回到图2，将对话控制设备1的一结构实例进行描述。

对话控制设备1具有环境识别单元800。图16显示环境识别单元800的一结构实例。图16中的环境识别单元800包含一用于获取是外部信息的环境识别信息的传感器单元1601，和一事件管理单元1602，该事件管理单元1602用于接收来自传感器单元1601的环境识别信息，并通过执行分析和观察该信息的处理而产生和输出事件信息事件。

传感器单元1601包含一CCD摄像机1603，一红外传感器1604和一麦克风1605。CCD摄像机1603接收来自对话控制设备1外部的光，并转换成是一项环境识别信息或输出的特定的图像数据。红外传感器1604接收来自对话控制设备1外部的红外光，并作为一项环境识别信息的红外探测结果而输出。麦克风1605接收来自对话控制设备1外部的声响(声音)，并提供一作为一项环境识别信息的输出。同样，麦克风1605可以利用麦克风的定位指定作为一项环境识别信息的一声源的位置或方向。

事件管理单元1602具有基于传感器单元1601输出的的环境识别信息输出事件信息的功能。事件信息是相应于上面描述的事件信息标记840的信息，而且是例如情绪判断信息，性别判断信息，年龄判断信息或说话者判断信息。

事件管理单元1602包含一情绪判断模块1606，一性别判断模块1607，一声音识别模块1608，一说话者位置识别模块1609和一说话者邻近识别模块1610。

情绪判断模块1606从由传感器单元1601输出的说话者的图像判断说话者的情绪，而且作为事件信息输出判断的情绪。图17是显示由传感器单元1601执行的情绪判断处理实例的流程图。

如果从传感器单元1601接收了说话者图像数据，情绪判断模块1606基于说话者图像数据(S1701)执行特征量提取，所提取的特征量可由说话者的脸(眼睛，眉毛，嘴巴，等)的部分设置的特征值所计算的特征量。“特征值”是可表示表情变化的脸的部分设置的值，也就是例如生气，不喜欢，恐惧，开心，沮丧，或惊讶的表情，而且“特征值”也可以是两眉毛上和眉毛的中间的值，两个眼睛，垂直眼睛大小尺寸值，两片嘴唇和垂直嘴唇大小尺寸值。“特征量”是由这些特征值(例如距离)计算出的量，而且可以是眉毛和眼睛之间的距离，或眼睛和嘴唇之间的距离。

然后，情绪判断模块1606基于提取特征量执行表情识别处理以识别说话者的表情(步骤S1710)。首先，对于基本的表情(例如生气，不喜欢，恐惧，开心，沮丧和惊讶)的典型表现情绪和中性表情，预先注册为对于脸的上部(区域包括左和右眉)，脸的中部(区域包含左和右眼)和脸的下部(区域包含鼻子和嘴巴)的特征量的变化。例如，以一“惊讶的”表情，脸上显示作为典型表情动作的表情动作例如眉毛上扬。如果这个表情动作处理为特征量的变化，那么没有是眉毛间的距离的特征量A的变化，但是有例如是眼睛的高度，眉毛位置，和中心位置之间的距离的特征量B，C和D的递增的特征量的变化。为近似的表情变化存储作为的特征量的变化的表情的变化。

情绪判断模块1606执行情绪判断处理以从步骤S1701提取的特征量计算特征量的变化，从上述预先存储的特征量的变化和表情变化之间的关系指定相应于特征量的变化的表情变化，判断一现在(最近)说话者的表情并输出判断结果(步骤S1703)。判断结果作为事件信息输出。

下面，将给出性别判断模块1607的描述。性别判断模块1607作用为从传感器单元1601输出的说话者的图像判断说话者的性别，并作为事件信息输出判断的性别。下面描述例如由说话者的图像判断性别的处理。自动提取特征值并从说话者的面部图像数据计算出特征量。然后，对于预先已知的分类(例如，男，女)的特征量和计算的特征量进行比较，通过确定它和哪个级相近而确定性别。性别判断模块1607将上述性别判断处理的判断结果作为事件信息而输出。

下面，将给出声音识别模块1608的描述。声音识别模块1608作用为从麦克风1605输出的声音信号获取声波纹，并指定具有此声波纹信息的说话者。说话者的分类从过去的用户中指定一现在的说话者。有可能获取一过去对话话题指定信息等，或者另外如果多个用户利用同一对话控制设备1(例如，当聚集成一组的用户使用一安装在桌上的一个对话控制设备1)的，获取并比较声波纹信息从而指定各个用户。声音识别模块1608将该说话者指定信息作为事件信息而输出。

下面，将给出说话者位置识别模块1609的描述。说话者位置识别模块1609利用传感器单元1601的麦克风1605的定位获取说话者的位置(或相应于对话控制设备的角度)，因而指定说话者。如果在多个说话者在同时使用对话控制设备1的情况下(例如，当聚集成一组的用户使用一安装在桌上的一个对话控制设备1)，说话者位置识别模块1609指定各个用户，并作为事件信息输出指定用户的信息。以这种方式，如果有对话1(说话者A)，对话2(说话者B)，对话3(说话者C)和对话4(说话者D)，对话控制单元300对于各个说话者(说话者A，B，C和D)的对话历史进行管理，并基于各个对话历史而输出回复语句。

下面，将给出说话者邻近识别模块1610的描述。说话者邻近识别模块1610确定一特定的用户是否和对话控制设备足够近，以利用传感器单元1601的红外传感器1604的可探测的区域说话，而且以这种方式判断将进行对话的用户。如果在红外传感器1604的可探测区域有一说话者，红外传感器1604(传感器单元1601)将邻近探测信号作为环境识别信息而输出。接收是环境识别信息的邻近探测信号的说话者邻近识别模块1610，将说话者邻近通知信息作为事件信息输出。接收到上述的说话者邻近通知信息的对话控制单元300 输出一开场白回复语句，例如“欢迎”或是“可以点单了吗？”。

2.对话控制方法

具有上述结构的对话控制设备1执行下面将描述的对话控制方法。图18是显示本发明的对话控制方法的处理流程的流程图。

首先，输入单元100执行从用户获取语音内容的步骤(步骤S1801)。特别是，输入单元100获取包含用户语音内容的声音。输入单元100将作为声音信号的获取声音输出给声音识别单元200。输入单元100也可以获取一从用户输入的字符串(例如，以文本形式输入的字符数据)而不是声音。这种情况，输入单元100不是一麦克风，而是字符输入装置例如键盘或触摸板。

下面，声音识别单元200基于由输入单元100获取的语音内容执行用于指定相应于语音内容的字符串的步骤。特别是，已从输入单元100输入声音信号的声音识别单元200基于输入声音信号，指定相应于声音信号的一假定(候补)字。声音识别单元200获取与指定的假定(候补)字关联的字符串，并将作为字符串信号的获取字符串输出给对话控制单元300。

然后，字符串指定单元410执行为每一语句划分一连续的字符串的步骤(步骤S1803)，该连续的字符串是由声音识别单元200指定的。特别是，当在连续的字符串的输入之间有一特定的指定时间或更大的间隔时，从管理单元310输入字符串信号(或语素信号)的字符串指定单元410在那个间隔划分字符串。字符串指定单元410将划分的字符串输出给语素提取单元420和输入类型确定单元440。当输入字符串是从键盘输入的字符串时，字符串指定单元410可以在例如标点符号或空格的部分划分字符串。

之后，语素提取单元420基于通过字符串指定单元410指定的字符串，执行一步骤以编制构成作为第一语素的字符串中的最小字的语素(步骤S1804)。特别是，从字符串指定单元410输入字符串的语素提取单元420对输入字符串和预先存储在语素数据库430里的语素组进行比较。以本实施例，对于属于各个语言成分分类的语素，该语素组具有对各个语素如先前描述的语素词典准备的方位字，数字，语言成分和动作类型等。

已执行此比较的语素提取单元420然后从输入字符串中提取与预先存储语素组中包含的每一语素相匹配的每一个语素(m1，m2，...)。语素提取单元420然后将作为第一语素信息的每一个提取语素输出给话题指定信息搜索单元320。

然后，输入类型确定单元440基于包含由字符串指定单元410指定的每一个单句的每一个语素，执行一步骤其以确定“所说语句类型”(步骤S1805)。特别是，从字符串指定单元410输入字符串的输入类型确定单元440基于输入字符串，对该字符串和存储在对话类型数据库450里的每一词典进行比较，以从字符串中提取一与每一词典相关的元素。已提取该元素的输入类型确定单元440基于提取的元素确定该元素属于哪一个“所说语句类型”。输入类型确定单元440将确定的“所说语句类型”(对话类型)输出给回复获取单元350。

话题指定信息搜索单元320然后执行一步骤其以对由语素提取单元420提取的第一语素信息和记录的对话标题820中心进行比较(步骤S1806)。

如果在构成第一语素信息的该语素与记录的对话标题820中心相匹配，话题指定信息搜索单元320将该对话标题820输出给回复获取单元350。另一方面，如果在构成第一语素信息的该语素与记录的对话标题820中心不匹配，话题指定信息搜索单元320将作为搜索指导信号的输入第一语素信息和用户输入语句话题指定信息输出给省略句补充单元330。

之后，省略句补充单元330基于从话题指定信息搜索单元320输入的第一语素信息，执行一步骤其以在输入第一语素信息中包括记录的对话标题和回复语句指定信息(步骤S1807)。特别是，如果第一语素信息是“W”，而且记录的对话标题和回复指定信息的集合是“D”，那么省略句补充单元330包括在第一语素信息“W”中的对话话题指定信息“D”的元素，产生补充的第一语素信息，该补充第一语素信息和所有对话标题820与集合“D”关联，并搜索看该补充第一语素信息和对话标题820是否匹配。如果有一匹配补充第一语素信息的对话标题820，省略句补充单元330将对话标题820输出给回复获取单元350。另一方面，没有发现与补充第一语素信息匹配的对话标题820的，省略句补充单元330将第一语素信息和用户输入语句话题指定信息传输给话题搜索单元340。

下面，话题搜索单元340执行一步骤其对第一语素信息和用户输入语句话题指定信息进行比较，并从每一对话标题820中搜索与第一语素信息最合适的对话标题820(步骤S1808)。特别是，从省略句补充单元330输入搜索指定信号的话题搜索单元340基于在输入搜索指导信号中包含的用户输入语句话题指定信息和第一语素信息，从与用户输入语句话题指定信息关联的每一对话标题820中搜索与该第一语素信息适合的对话标题820。话题搜索单元340输出作为搜索结果信号的对话标题820，该对话标题820是作为到回复获取单元350搜索的结果返回的。

然后，省略句补充单元330或话题搜索单元340，回复获取单元350基于由话题指定信息搜索单元320搜索的对话标题820，对由语句分析单元400确定的对话类型和与对话标题820关联的每一回复类型进行比较，并准备回复语句选择(步骤S1809)。

特别是，从话题搜索单元340输入搜索结果且从输入类型确定单元440输入“所说语句类型”的回复获取单元350，基于相应于输入搜索结果信号和输入“所说语句类型”的“对话标题”，从与该“所说语句类型(DA)”关联的回复类型组中指定与“所说语句类型”匹配的回复类型。

另一方面，回复获取单元350参考从环境识别单元800(步骤S1810)输出的事件信息以获取回复语句830。

然后，回复获取单元350获取与事件信息标记840关联的且是相应于步骤S1809中指定的回复类型的回复语句830，该事件信息标记840与步骤S1810中参考的事件信息相匹配(步骤S1811)。

接着，回复获取单元350将在步骤S1811中获取的回复语句830通过管理单元310输出给输出单元600。从管理单元310接收到一回复语句的输出单元600输出该输入回复语句830(步骤S1812)。

作为上述的对话控制处理的结果，一与语音内容且反应环境识别信息相匹配的回复语句被输出。

3.优点

以本实施例的对话控制设备和对话控制方法，由于不仅基于用户的语音内容，还有从环境识别单元800获取的信息(例如，面部识别，情绪识别，性别识别，年龄识别，声音模式识别，说话者位置识别，等)而执行对话控制，所以有可能依照对话的状况输出一回复，而且有可能拓宽语音内容。

4.第二实施例

下面，将描述本发明的第二实施例的对话控制设备和对话控制方法。

第二实施例增加的特点中，第二实施例的对话控制设备和对话控制方法在回复语句中反应了对话控制设备所扮演的人物的情绪和/或说话者的情绪。

图19是显示第二实施例的对话控制设备的一结构实例的功能方框图。

第二实施例的对话控制设备1’和第一实施例的对话控制设备1除了下列地方之外是一样的，而且将只描述不同的地方，省略了相同地方的描述。

对话控制设备1’也具有用于管理情绪状况信息的一情绪状况信息管理单元1900，该情绪状况信息代表对话控制设备扮演的人物的情绪和/或说话者的情绪。

情绪状况信息管理单元1900接收从对话控制单元300输出的情绪标记，并执行处理使得以代表人物情绪的情绪状况信息(称为“人物情绪状况信息”)表示情绪标记，将实际人物情绪状况信息返回到对话控制单元300，并使相应于人物情绪状况信息的回复语句830的输出。同样，情绪状况信息管理单元1900接收与来自环境识别单元800的用户情绪相关的事件信息，基于事件信息产生代表说话者的情绪的情绪状况信息(成为“说话者情绪状况信息”)，将说话者情绪状况信息返回给对话控制单元300，并使相应于说话者情绪状况信息的回复语句830输出。

利用人物情绪状况信息描述人物情绪。人物情绪状况信息也可以是可累计存储代表情绪的信息的信息，而且有可能利用例如，作为人物情绪状况信息的一对于情绪标记的累积值。

对于情绪标记也有可能利用任何数据，只要它可以对情绪分类，例如，分配人物数据“A”到一代表情绪“正常”的情绪标记，分配人物数据“B”到一代表情绪“生气”的情绪标记，分配人物数据“C”到一代表情绪“狂怒的”的情绪标记，分配人物数据“D”到一代表情绪“开心”的情绪标记。本实施例的对话控制单元300基于该情绪标记，参考存储的人物情绪状况信息，并控制对话控制设备1’提供的人物(虚拟人物，真实人物)的情绪。

图20(A)显示了一数据结构，该数据结构用于由情绪状况信息管理单元1900存储的人物情绪状况信息，而图21(B)显示一数据结构实例，该数据结构用于由情绪状况信息管理单元1900存储的说话者的情绪状况信息。

人物情绪状况信息2000具有一用于每一个情绪标记类型2001的累积值2002。可为每一情绪标记增加或减少累积值2002。例如，对于通过情绪状况信息管理单元1900，每一代表“开心”的情绪标记的接收，可以增加相应于情绪标记类型“开心”的累积值2002的数值。

说话者情绪状况信息2003具有一对于每一说话者的单人记录2005A，2005B，2005C...，从而可以用分别具有一“生气”区域2004A，一“憎恨”区域2004B，一“害怕”区域2004C，一“开心”区域2004D，一“沮丧”区域2004E和一“惊讶”区域2004F的记录2005A，2005B，2005C描述多个用户的各自情绪，从而相应于说话者的6种基本情绪。

数据“0”或“1”存储在每个区域2004A-2004F中，以“0”代表没有相应于说话者的基本情绪，和以“1”代表有相应于说话者的基本情绪。例如，如果代表“开心”，“惊讶”的信息是代表由环境识别单元800判断的说话者情绪的事件信息中，情绪状况信息管理单元1900在用于该用户的记录中的“开心区域”2004D和“惊讶”区域中2004F中存储“1”，并在其他区域2004A，2004B，2004C，和2004E中存储“0”。

有可能通过依照该事件信息类型更新说话者情绪状况信息而为说话者连续存储情绪(通过判断)。在图20(B)中，“9”存储在对于说话者3的区域2004A-2004F中，但是不存在该用户，其代表还没有使用该记录。

同样，情绪状况信息管理单元1900将情绪状况信息传输给用户界面控制单元900，而且用户控制界面单元900在液晶显示器上，基于情绪状况信息显示一人物的面部的表情和动作等。由于依照回复语句830的内容以这种方式显示人物的情绪和动作等，所以对话控制设备1’的用户具有感觉是对话控制设备1’扮演的人物(虚拟人物，真实人物)就像真人一样自然的显示。

下面，将描述本实施例的对话数据库500’的存储内容。图21是显示本实施例的对话数据库500’的存储内容的示图。本实施例的对话数据库500’的存储内容几乎和图10的所示的存储内容一样，但是不同在于它具有与对话标题820关联的情绪状态参数850和情绪标记860。

情绪状态参数850与每一回复语句830相关联。情绪状态参数850是代表情绪状况信息的状态的信息。例如，当情绪状况信息显示对于“生气”情绪标记的累积值“10”时，这样定义，对于一特定的回复语句“A”的情绪状态参数850具有对于“生气”情绪标记的累积值5或更少，而另一方面，如果对于另一回复语句“B”的情绪状态参数850具有一对于“生气”情绪标记的累积值8或更多，不选择回复语句“A”而且通过对话控制设备1’选择作为给用户的回复的回复语句“B”。

进一步，一情绪标记860与回复语句830相关联且被存储，该情绪标记是代表由对话控制设备1’提供的一人物(虚拟人物)的情绪的数据。情绪标记860可以是任何数据只要是能够情绪分类，例如，分配人物数据“A”到一代表情绪“正常”的情绪标记，分配人物数据“B”到一代表情绪“生气”的情绪标记，分配人物数据“C”到一代表情绪“狂怒的”的情绪标记，分配人物数据“D”到一代表情绪“开心”的情绪标记。本实施例的对话控制设备1’对存储在情绪状况信息管理单元1900中的情绪状况信息和该情绪标记860进行比较，并选择一具有情绪标记860的回复语句，该情绪标记860与存储的情绪状况信息匹配，以控制对话控制设备1’提供的一人物(虚拟人物)情绪。

以本实施例，事件信息标记840，情绪状态参数850和情绪标记860与回复语句830关联，但是即使他们与对话标题820和对话话题指定信息810关联也可以实现本发明。

图22显示与本实施例的对话话题指定信息810“日本食物”关联的对话标题820，回复语句830，事件信息标记840，情绪状态参数850和情绪标记860的具体实例。

多个对话标题(820)1-1，1-2...和对话指定信息810“日本食物”关联。回复语句(830)1-1，1-2...和各个对话标题(820)1-1，1-2...关联且被存储。每一个回复语句830由多个为每一回复类型准备的语句，事件信息标记840，情绪状态参数850和情绪标记860构成。

例如，如果在对话标题(820)1-1是(日本食物；*；喜欢){已提取了一“我喜欢日本食物”中包含的语素}，对于一情况，其中回复类型是DA(肯定陈述语句)，“提供不同的美味的日本食物”(对于当事件信息标记840显示用户判断情绪是“开心”，用户判断性别是“男”，情绪状态参数850是“2或更少”且情绪标记860是“A”的回答)，“提供很健康的日本食物”(对于当事件信息标记840显示用户判断情绪是“开心”，用户判断性别是“女”，情绪状态参数850是“2或更少”且情绪标记860是“A”的回答)等都在相应于该对话标题(820)的回复语句(830)1-1中准备，而且对于一情况，其中回复类型是TA(时间肯定)，“也提供很快可以做好的日本食物”(对于当事件信息标记840显示用户判断情绪是“开心”，用户判断性别是“男”，情绪状态参数850是“2或更少”且情绪标记860是“A”的回答)，“也提供很快可以做好的健康的日本食物”(对于当事件信息标记840显示用户判断情绪是“开心”，用户判断性别是“女”，情绪状态参数850是“2或更少”且情绪标记860是“A”的回答)等都被准备。也为其他的对话类型准备多个与事件信息标记840关联的回复。下面将描述的回复获取单元350依照事件信息标记840，情绪状态参数850和情绪标记860，获取与该对话标题820关联的单个回复语句830。

5.对话控制设备的操作(对话控制方法)

下面将参考图23描述本实施例的对话控制设备1’的一操作实例。图23是以对话控制设备1’操作的结果执行的对话控制方法的流程图。

在图23中所示的操作中，处理是和第一实施例的操作实例相同(图18，步骤1801到步骤1809)，直到除了从获取语音内容(步骤S2301)的处理到参考事件信息标记(步骤S2309)的处理。下面将描述上面所说的从步骤S2301到步骤S2309的每一步骤。

在完成参考事件信息标记(步骤S2309)的处理完成后，对话控制设备1’执行情绪状况信息的更新(步骤S2310)。这里，执行处理以主要基于事件信息(代表说话者的判断情绪的事件信息)而更新说话者情绪状况信息2003。更新的情绪状况信息存储在情绪状况信息管理单元1900中。

然后，基于从环境识别单元800输出的最新事件信息，存储在情绪状况信息管理单元1900中的情绪状况信息，和在步骤S2308中取得的对话话题标题，对话控制设备1’从对话数据库中获取与那些信息项匹配的回复语句(步骤S2311)。

然后，对话控制设备1’输出获取的回复语句830(步骤S2312)。回复语句也可以作为声音从扬声器15L，15R输出，或者以字符信息在液晶显示单元11上显示。回复语句的内容830相应于所产生的事件信息而存储，该事件信息是利用对话控制设备1’的邻近的环境或说话者情绪或人物情绪而产生的，也就意味着有可能输出一与对话在进行的状况合适的回答。

然后，对话控制设备1’执行相应于步骤S2311中获取的回复，包含人物显示控制的用户界面的控制。以本实施例，参考相应于回复语句830的情绪标记860，选择一相应于该情绪标记860的人物(用于了解人物情绪的图像/声音数据，例如人物情绪和动作)，并通过引起在液晶显示单元11上的显示而执行用户界面控制，但是如果通过参考存储在情绪状况信息管理单元1900的人物情绪状况信息而执行用户界面控制，也可实现本实施例。

上述中，通过对话控制设备1’完成从用户对话到回复的输出的处理顺序。对话控制设备1’为每一个用户语音的接收执行上述的步骤S2301到步骤S2313，并处理在用户和对话控制设备1’之间的对话(交换信息)。

6.优点

本实施例的对话控制设备1’和对话控制方法具有的优点是它们可以反应一人物的情绪变化，并使得输出一与对话在进行的状态相合适的回复成为可能。

7.其他

(1)没有局限对话控制设备1和对话控制设备1’的声音识别单元200，对话控制单元300和语句分析单元400的结构和操作，而且即使采用与上述第一实施例不同的声音识别单元200，对话控制单元300和语句分析单元400，只要利用对话数据库返回相应于说话者的对话的内容的回复，就可以使用本发明的对话控制设备1和对话控制设备1’的结构元素。

(2)以上述的实施例，已经描述利用声音输入对话到对话控制设备1和对话控制设备1’，但是对于对话控制设备1和对话控制设备1’的输入并不局限于声音，而且有可能使用字符串数据输入，该输入利用字符输入装置例如键盘，触摸板，定点设备等，并可能具有一结构，其利用包含如字符串的对话输入的对话数据库500输出回复语句。

对于那些本技术领域的普通技术人员，很容易出现另外的优点和修改。因此，在更宽方面的本发明不局限于这里图示和描述的代表实施例或具体细节。因而，在不背离如权利要求和相当的所定义的通常发明概念的范围和精神，可以作出不同的修改。

Claims

1.一种对话控制设备，其特征在于包括：

(a)对话数据库，预先存储以下信息：

多项话题指定信息；

(b)用于输入用户的语音的语音输入单元；

(c)传感器单元，用于获取发出语音的用户的面部图像数据；

(f)对话控制单元，配置所述对话控制单元用于：

(viii)输出在(vii)项提取的预定的回复语句。

2.根据权利要求1的对话控制设备，其特征在于还包括：

情绪状况信息管理单元，用于存储预定人物的情绪信息；

用户接口单元，用于显示所述预定人物，其中：

所述情绪状况信息管理单元可操作用于：

接受表示该用户的当前情绪的事件信息，该事件信息是在(ii)项由所述情绪判断模块生成的；和

基于所接受的表示该用户的当前情绪的事件信息，更新所述预定人物的情绪信息，从而在所述预定人物中反映该用户的当前情绪；和

基于由所述情绪状况信息管理单元更新的所述预定人物的情绪信息，所述用户接口单元可操作来显示所述预定人物的动作和表情。

3.一种控制对话控制设备的方法，所述对话控制设备包括：

(a)对话数据库，预先存储以下信息：

多项话题指定信息；

(b)用于输入用户的语音的语音输入单元；

(c)传感器单元，用于获取发出语音的用户的面部图像数据；

(viii)输出在步骤(vii)提取的预定的回复语句。

4.根据权利要求3的控制对话控制设备的方法，所述对话控制设备还包括：

情绪状况信息管理单元，用于存储预定人物的情绪信息；

用户接口单元，用于显示所述预定人物，其中：

所述情绪状况信息管理单元可操作用于执行以下步骤：

基于由所述情绪状况信息管理单元更新的所述预定人物的情绪信息，所述用户接口单元可操作来执行显示所述预定人物的动作和表情的步骤。