CN1781140A

CN1781140A - 语音对话设备、方法和机器人设备

Info

Publication number: CN1781140A
Application number: CN200480011340.9A
Authority: CN
Inventors: 广江厚夫; 下村秀树; 赫尔穆特·勒克; 南野活树; 加藤晴
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2003-03-20
Filing date: 2004-03-16
Publication date: 2006-05-31
Also published as: EP1605438A4; DE602004009549D1; EP1605438B1; JP2004287016A; WO2004084183A1; US20060177802A1; EP1605438A1

Abstract

在传统的语音对话设备中，有着难于与用户进行自然对话的情况。对用户的话音进行话音识别，并根据话音识别的结果，按照预定的场景来控制与用户的对话，并且，如果必要的话，根据用户话音的内容而生成响应句子，从而音频合成一个再现场景的句子或者生成的响应句子。

Description

语音对话设备、方法和机器人设备

技术领域

本发明涉及语音对话系统和方法以及机器人设备，例如，适合于娱乐用的机器人。

背景技术

由语音对话系系统通过语音与人进行对话的方法可以根据内容分为两类。它们是“有场景(scenario)对话”和“无场景对话”。

在这两类方法之中，“无场景对话”方法是一种称为“非人工智能”的对话方法，它是通过E1iza为代表的一个简单答复句子产生算法而实现的(见非专利文献1)。

在“无场景的对话”方法中，如图36所示，通过重复一个反复的过程来进行处理(步骤SP92)，如果用户说出几句话，语音对话系统就对这些话进行话音识别(步骤SP90)，并根据识别结果来产生答复句子，以及用声音发出此答复句子(步骤SP91)。

在“无场景的对话”方法中的问题是如果用户不发声的话，对话就不进行。例如，如果图36的步骤SP91中产生的响应是促使用户说出下一句的内容，那么对话进行，然而，如果不是，例如，如果用户进入“不能说下一句话”的状况，语音对话系统就继续等待用户发声并且不进行对话。

进而，在“无场景对话”方法中，由于对话没有场景，因此，有这样的问题，这就是在图36的步骤SP91中，在产生响应时，在对话流中难于产生所考虑的答复句子。例如，难于进行这样的处理，这就是在听到用户的简述过后(profile over)之后，语音对话系统将它反映在对话中。

另一方面，“有场景对话”是这样的一个对话方法，其中，通过语音对话系统根据预定的场景连续地发声来进行对话，并且它的进行是通过两轮(turn)的组合来完成的，即，一轮是语音对话系统单方面地讲话，另一轮是语音对话系统询问用户并进而响应用户对问题的答复。应当说明的是，“轮”是指对话中明显独立的发声或者是对话的一个单元。

在这种对话方法的情况下，用户只答复问题，因此，用户并没有失去他所说的东西。进而，可以用问题的内容来限制用户的言词，因此，在语音对话系统根据用户的答复做出进一步响应的轮中，答复句子的设计是比较容易的。例如，作为语音对话系统向用户提问的一轮，只准备“是”和“否”两种答案就行了。此外，还有一个优点，这就是语音对话系统能通过使用一个情节流(a flow of story)来产生答复句子。

专利文献1“Artificial Unintelligence Review”，[在线]，[于2003年3月14日(Heisei15)查到]，互联网<URL：http：//www.ycf.nanet.cojp/-skato/muno/review.htm>

然而，这个对话方法也有一些问题。首先，由于语音对话系统只能根据假设用户的答复内容而事先设计出来的场景来讲话，因此，在用户说出预料之外的话时，该语音对话系统就不能做出响应。

例如，对于能用“是/否”来答复的提问，如果用户答复两者皆可，但是，他从未想过这样的一个事情或类似的事情，语音对话系统不能做出任何响应，即使做出响应，也只能是对用户答复的极不合适的响应。进而，在这样的情况下，以后情节变得不自然的可能性就会升高。

其次，难于设置以下两轮出现比率的程度，即，一轮语音对话系统单方面讲话和一轮语音对话系统向用户提问并进而根据用户对问题的答复加以响应。

实际上，在上述的语音对话系统中，如果前一轮太频繁，那就造成语音对话系统单方面对用户讲话的印象，而用户并不感觉到“正在进行对话”。相反，如果后一轮太频繁，那就造成这样的感觉，用户是在答复对用户的调查或查询；在此情况下，用户也不感觉到“在进行对话”。

相应地，可以考虑，通过解决常规的语音对话系统中的问题，语音对话系统能和用户进行正常的对话，并能明显地改进可行性和娱乐能力。

发明内容

本发明考虑到以上各点，本发明于提供一种语音对话系统、语音对话方法和机器人设备，它们能够和用户进行自然对话。

为了解决上述的问题，根据本发明，在该语音对话系统中，提供了对话控制装置，用于根据由话音识别装置的话音识别结果并按照以前给出的场景来控制与用户的对话，该话音识别装置对用户的讲话进行话音识别；还提供了响应产生装置，用于产生与用户讲话内容相应的答复句子，并响应来自对话控制装置的请求。对话控制装置根据用户讲话的内容对响应产生装置提出请求，以产生作为场合要求的答复句子。

因此，在该语音对话系统中，能够防止与用户的对话变得不自然，并且能给上述的用户一种“正在进行对话”的感觉。

此外，根据本发明，第一步是对用户的讲话进行话音识别；第二步是根据话音识别的结果并按照以前给出的场景来控制与用户的对话，如果需要，就产生与用户讲话的内容相应的答复句子；第三步是在再现的场景或在所产生的答复句子中对一个句子进行语音合成处理。在第二步中，根据用户讲话的内容并产生与用户讲话内容相应的、作为场合要求的答复句子。

因此，利用该语音对话方法，能防止与用户的对话变得不自然，并能给上述的用户一种“正在进行对话”的感觉。

此外，根据本发明，在机器人设备中，提供了对话控制装置，用于根据由话音识别装置的话音识别结果并按照以前给出的场景来控制与用户的对话，该话音识别装置对用户的讲话进行话音识别，还提供了响应产生装置，用于产生与用户讲话内容相应的答复句子，并响应来自对话控制装置的请求。对话控制装置根据用户讲话的内容对响应产生装置提出请求，以产生作为场合要求的答复句子。

结果，在此机器人装置中，能够防止与用户的对话变得不自然，并能给上述的用户一种“正在进行对话”的感觉。

附图说明

图1是根据本发明的具体实施例示出了机器人的外部结构的透视图。

图2是根据本发明的具体实施例示出了机器人的外部结构的透视图。

图3是根据本发明的具体实施例来说明机器人的外部结构的概念图。

图4是根据本发明的具体实施例来说明机器人的内部结构的概念图。

图5是根据本发明的具体实施例来说明机器人的内部结构的方块图。

图6是用于说明由与对话控制相关的主控制部分处理的内容的方块图。

图7是用于说明场景的结构的概念图。

图8示出了每个块的脚本格式(script format)示意图。

图9示出了单句场景块的程序结构的例子的示意图。

图10示出了再现单句场景块的程序的流程图。

图11示出了提问块程序结构的例子的示意图。

图12示出了再现提问块的过程的流程图。

图13示出了语义学定义文件的例子的示意图。

图14示出了第一提问/答复块的程序结构的例子的示意图。

图15示出了再现第一提问/答复块的过程的流程图。

图16示出了要用在响应产生部分中的标签的类型。

图17示出了答复句子产生规则文件的例子的示意图。

图18示出了答复句子产生规则文件的例子的示意图。

图19示出了答复句子产生规则文件的例子的示意图。

图20示出了答复句子产生规则文件的例子的示意图。

图21示出了答复句子产生规则文件的例子的示意图。

图22示出了规则表的例子的示意图。

图23示出了第二提问/答复块的程序结构的例子的示意图。

图24示出了再现第二个提问/答复块的过程的流程图。

图25示出了第三个提问/答复块的程序结构的例子的示意图。

图26示出了再现第三个提问/答复块的过程的流程图。

图27示出了第四个提问/答复块的程序结构的例子的示意图。

图28示出了再现第四提问/答复块的过程的流程图。

图29示出了第一对话块的程序结构的例子的示意图。

图30示出了第一对话块的程序结构的例子的示意图。

图31示出了再现第一对话块的过程的流程图。

图32示出了插入提示的列表的概念图。

图33示出了第二对话块的程序结构的例子的示意图。

图34示出了第二对话块的程序结构的例子的示意图。

图35示出了再现第二对话块的程序的流程图。

图36是说明了人工非智能的对话系统的流程图。

具体实施方式

以下，参照附图来详细说明本发明的实施例。

(1)根据实施例的机器人的普通结构

参照图1和图2，附图标记1通常表示根据本发明的双足机器人。头部单元3是放置在躯干单元2之上，具有相同结构的臂膀单元4A和4B分别放在躯干单元2的左上部分和右上部分，具有相同结构的腿部单元5A和5B分别安装在躯干单元2的左下部分和右下部分的预定位置上。

在躯干单元2中，构成躯干上部分的框架10和构成躯干下部分的腰基11通过腰关节机构12连接起来。腰关节机构12的致动器A₁和A₂是分别驱动的，腰关节机构12固定在构成躯干下部分形成的腰基11上，从而，如图3所示，躯干的上部分能够随着彼此正交的辊轴13和俯仰轴14的各自独立的转动而转动。

头部单元3是安装在肩基15的顶端的中心部位上，而肩基15是通过颈关节机构16固定在框架10的上端。分别驱动上述的颈关节机构16的致动器A₃和A₄，从而，如图3所示，头部单元3能够随着彼此正交的俯仰轴17和偏转轴18的各自独立的转动而转动。

胳膊单元4A和4B通过肩关节机构19分别安装在肩基15的左端和右端。分别驱动相应的肩关节机构19的致动器A₅和A₆，从而，如图3所示，相应于彼此正交的俯仰轴20和辊轴21的转动，能够分别独立地转动胳膊单元4A和4B。

在此情况下，在胳膊单元4A和4B的每一个之中，构成前臂部分的致动器A₈通过臂关节机构22和构成上臂部分的致动器A₇的输出轴相连。手部分23安装在上述的前臂部分的端部。

在胳膊单元4A和4B中，通过驱动致动器A₇，前臂部分能够随着图3所示的偏转轴24的转动而转动，通过驱动致动器A₈，前臂部分也能够随着图3所示的俯仰轴25的转动而转动。

在另一方面，通过髋关节机构26分别将腿单元5A和5B安装在构成躯干下部的腰基11上。分别驱动相应的髋关节机构26的致动器A₉和A₁₁，从而，如图3所示，随着彼此正交的偏转轴27、辊轴28和俯仰轴29的转动能够分别独立地转动髋关节机构26。

在此情况下，在腿单元5A和5B的每一个之中，构成大腿下面部分的框架32通过膝关节机构31与构成大腿部分的框架30的下端相连，脚部分34通过踝关节机构33与上述框架32的下端相连。

因此，在腿单元5A和5B中，通过驱动构成膝关节机构31的致动器A12可以让大腿下面部分随着图3所示的俯仰轴35的转动而转动。进而，通过分别驱动踝关节机构33的致动器A₁₃和A₁₄可以让脚部分34随着图3所示的、彼此正交的俯仰轴36和辊轴37的转动而分别独立地转动。

如图4所示，在构成人体单元2的躯干的下面部分的腰基11的背面上，安置了控制单元42，其中，用于控制上述的机器人1的全部运动的主控制部分40、如像电源电路和通信电路的外围电路41和电池45等(图5)含于盒子之中。

控制单元42与各个子控制部分43A到43D相连，而这些子控制单元又分别安装在一些组成单元(人体单元2、头部单元3、胳膊单元4A和4B、腿单元5A和5B)之中。因而，可将必要的电源电压提供给这些子控制部分43A到43D上，并且，控制单元42能够和这些子控制部分43A到43D进行通信。

子控制部分43A到43D中的每一个都与分别在相应的组成单元中的致动器A₁到A₁₄相连，因此，能将在上述的组成单元中的每个致动器A₁到A₁₄驱动到规定的状态，这个状态是根据从主控制部分40给出的各种控制命令分别指定的。

如图5所示，在头部单元3中，各种外部传感器都分别安装在预定的位置上，这些外部传感器如像起着机器人1的眼睛作用的电荷耦合器件(CCD)像机50、起着耳朵作用的麦克风51、起着嘴巴作用的扬声器52。

触摸传感器53作为外部传感器安置在手部分23和脚部分34上。此外，在控制部件42中，还包含如像电池传感器54和加速传感器55的内部传感器。

CCD像机50摄取周围的图像，并将所得到的视频信号S1A发送给主控制部分40。麦克风51拾取各种外部声音，并将所得到的音频信号S1B发送给主控制部分40。每一个触摸传感器53都检测在外部物体上的物理接触，并将检测的结果作为压力检测信号S1C发送给主控制部分40。

电池传感器54在预定周期中检测电池45的剩余量，并将检测的结果作为剩余电池检测信号S2A发送给主控制部分40。加速传感器55在预定周期中检测三个轴向(x轴、y轴和z轴)上的加速，并将检测的结果作为加速检测信号S2B发送给主控制部分40。

主控制部分40的配置有具有中央处理器(CPU)的微型计算机、用作为只读存储器(ROM)的内部存储器40A和随机存取存储器(RAM)等。主控制器40根据外部传感器信号S1和内部传感器信号S2，并通过确定是否触摸了外部的物体来确定机器人1的周围的状态和内部的状态，如像视频信号S1A、音频信号S1B和压力检测信号S1C之类的外部传感器信号S1，分别是由如像CCD摄像机50、麦克风51和触摸传感器53的各个外部传感器提供的，如像剩余电池检测信号S2A和加速检测信号S2B的内部传感器信号S2，分别是由如像电池感测器54和加速感测器55的各个内部感测器提供的。

然后，主控制器部分40根据确定结果、事先存储在内部存储器40A中的控制程序以及存储在那时装载的外部存储器56中的内部参数来确定下一个运动，并根据确定结果将控制命令发送到相应的子控制部分43A-43D之中。结果，在子控制部分43A-43D的控制下，根据控制命令驱动相应的致动器A₁-A₁₄。这样，就可以由机器人执行各种运动，如像在所有方向上摆动头部单元3，抬举胳膊单元4A和4B以及走路。

主控制部分40通过对由麦克风51提供的上述音频信号S1B的预定话音识别处理来识别用户讲话的内容，并根据上述的识别向扬声器52提供音频信号S3。从而，向外面发出合成话音以与用户进行对话。

按照这种方式，机器人1能够根据周围的状态和内部的状态自动移动，并且也能和用户进行对话。

(2)由与对话控制相关的主控制部分40进行的处理

(2-1)由与对话控制相关的主控制部分40进行处理的内容

下面将要说明由与对话控制相关的主控制部分40进行处理的内容。

如图6所示，如果按照功能对在机器人1中、由与对话控制相关的主控制部分40进行处理的内容进行分类，可以分为如下几类：话音识别部分60，用以对用户发出的语音进行语音识别；场景再现部分62，用于根据预先给定的场景，并根据上述话音识别部分60的识别结果来控制与用户的对话；响应产生部分63，用以产生响应来自场景再现部分62的请求的答复句子；和语音合成部分64，用以产生由场景再现部分62再现的场景61的一个句子或由响应产生部分63产生的答复句子的合成语音。应当说明的是，在下面的说明中，限定“一个句子”表示讲话时暂停的一个单元，这就是说，“一个句子”可能并不总是“一句话”。

在此，话音识别部分60具有根据由麦克风51提供的音频信号S1B来执行预定的话音识别处理的功能(图5)，并能识别在话语单元(word unit)中的含于上述音频信号S1B中的话音。话音识别部分60向场景再现部分62提供这些识别出来的作为字符串数据D1的词语。

场景再现部分62通过从上述外存储器56到内存储器40A中读取在多轮(turn)对话上提供的多种场景61的数据来管理话音(提示)，该话音是通过将其存储在外部存储器56中而事先给定的(图5)，并应是在与用户的一系列的对话过程中由上述的机器人1说出来的。

在与用户对话时，在这些多种场景61中，场景再现部分62选择适合用户的场景61并再现场景61，该用户是由面孔识别部分(未示出)根据由CCD像器50(图5)提供的图像信号S1A而被识别和鉴定出来的，并成为对话的另一方。于是，将与由机器人1发出的相应语音的字符串数据D2顺序地提供给语音合成部分64。

进而，如果场景再现部分62根据由话音识别部分60提供的字符串数据D1确认用户对机器人1的提问给出了意想不到的话作为答复，那么，场景再现部分62就向响应产生部分63提供上述的字符串数据D1和答复句子产生请求COM。

由非人工智能模块构成响应产生部分63，以便用如像Eliza引擎的简单答复句子产生算法来生成答复句子。如果答复句子产生请求COM是由场景再现部分62提供的，响应产生部分63就根据字符串数据D1来产生答复句子，该字符串数据D1是和答复句子产生请求COM一起提供的，并通过场景再现部分62将它的字符串数据D3提供给语音合成部分64。

语音合成部分64根据由场景再现部分62提供的字符串数据D2或由响应产生部分63提供的字符串数据D3，并通过上述的场景再现部分62来产生合成语音，并将所获得的上述合成语音的音频信号S3提供给话筒52(图5)。从而，从话筒52发出基于音频信号S3的合成语音。

按照这个方式，在机器人1中，通过合成“有场景的对话”和“没有场景的对话”能够进行讲话。例如，即使用户对机器人1的提问作了意想不到的答复，机器人1也能合适地响应这个答复。

(2-2)场景61的结构

(2-2-1)场景61的一般结构

下面，将要说明在机器人1中的场景61的结构。

如图7所示，在机器人1的情况下，通过按照任意次序排列任意数量的多种块BL(BL1-BL8)来形成每个场景61，这些块为一轮对话中(one turn)提供机器人1的动作，该对话包括应当由机器人1说出的一个句子。

在此，在机器人1的情况下，作为在与用户的对话中对包含机器人1讲话内容在一轮提供动作的上述程序(以下称之为块BL(BL1-BL8))，有八个类型的块BL1-BL8。接着，将要说明这八个类型的块BL1-BL8的结构以及用场景再现部分62来再现这八个类型的块BL1-BL8中的每一个的过程。

要注意的是，下面将要说明的“单句场景块BL1”和“提问块BL2”已经存在了，其后将要说明的块BL3-BL8中的每一个都从未存在过，并且这些块对机器人1而言，都是特别的。

此外，在下面的图9、11、14、23、25、27、29、30、33和34中，将根据图8所示的规则来说明每个脚本(程序结构)。在每个块BL的再现处理中，场景再现部分62向语音合成部分64提供字符串数据D2，并根据这个规则向响应产生部分63给出答复句子产生请求。

(2-2-2)单句场景块BL1

在场景61中，单句场景块BL1是仅由一个句子组成，例如，它有图9所示的程序结构。

在再现单句场景块BL1时，根据图10所示的再现单句场景块RT1的过程，在步骤SP1中，场景再现部分62再现由块制造者提供的一个句子，并将它的字符串数据D2提供给语音合成部分64。然后，场景再现部分62停止该单句场景块BL1的再现处理，然后，继续进行下面的块BL的再现处理。

(2-2-3)提问块BL2

提问块BL2是在向用户提问题或类似情况下所用的块BL，例如，它有图11所示的程序结构。在提问块BL2中，它促使用户讲话，并且机器人1根据用户对提问的答复是否是肯定的，说出由块制作者提供的、肯定或否定的提示。

实际上，在再现提问块BL2时，根据图12所示的再现提问块RT2的过程，首先，在步骤SP10中，场景再现部分62再现由块制造者提供的一个句子，将它的字符串数据D2提供给语音合成部分64。然后，在下面的步骤SP11中，场景再现部分62等待用户对此的答复(讲话)。

如果很快识别了根据来自话音识别部分60的字符串数据D1答复的用户，场景再现部分62继续进行步骤SP12，以确定答复的内容是否是肯定的。

如果在步骤SP12中得到的是肯定的结果，场景再现部分62就继续进行步骤SP13，以再现肯定的答复句子，并将它的字符串数据D2提供给语音合成部分64，以及停止该提问块BL2的再现处理，然后，场景再现部分62继续进行下面的块BL的再现处理。

与此相反，如果在步骤SP12中得到的是否定的结果，场景再现部分62就继续进行步骤SP14，以确定在步骤SP11中所识别的用户的答复是否是否定的。

如果在步骤SP14中得到的是肯定的结果，场景再现部分62就继续进行步骤SP15，以再现否定的答复句子，并将它的字符串数据D2提供给语音合成部分64，然后停止该提问块BL2的再现处理，然后，场景再现部分62继续进行下面的块BL的再现处理。

与此相反，如果在步骤SP14中得到的是否定的结果，场景再现部分62就停止按原样该提问块BL2的再现处理。然后，场景再现部分62继续进行下面的块BL的再现处理。

注意的是，在机器人1的情况下，作为用于确定用户的响应是肯定还是否定的装置，场景再现部分62有图13中示出的语义定义文件。

场景再现部分62参照该语义定义文件并根据由话音识别部分60提供的字符串数据D1来确定用户的答复是肯定的还是否定的。

(2-2-4)第一提问/答复块BL3(无循环)

类似于上述的提问块BL2，第一提问/答复块BL3是一个用在向用户提问或类似情况下的块BL，并且，例如有示于图14中的程序结构。第一提问/答复块BL3是这样设计的，以致即使用户对提问等的答复既不是肯定的也不是否定的，机器人1也能做出响应。

实际上，在再现第一提问/答复块BL3时，根据示于图15的再现第一提问/答复块的过程，首先，就步骤SP20-SP25而言，场景再现部分62进行与上述再现提问块RT2的过程的步骤SP10-SP14类似的处理(图12)。

如果在步骤SP24中得到否定的结果，场景再现部分62就向响应产生部分63(图6)提供答复句子产生请求COM和表示某种规则的标签，以便用由话音识别部分60在那时提供的字符串数据D1来产生如示于图16中的、要产生的答复句子(SPECIFIC、GENERAL、LAST、SPECFIC ST、GENERAL ST、LAST)。注意的是，块的制作者已经确定了此时要由场景再现部分62提供给响应产生部分63的标签(例如，见图14中的节点号为“1060”的那行)。

此时，在图17-21的例子中，响应产生部分63具有多个文件，其中，按照分别对应于要产生的答复句子的每一种产生规则，提供了相应答复句子的产生规则。此外，响应产生部分63具有示于图22中的规则表，其中，已将这些文件与要由场景再现部分62提供的标签关联。

按照这种方式，响应产生部分63参看这个规则表，并且，那时根据该文件、由场景再现部分62提供的标签和由话音识别部分60提供的字符串数据D1，响应产生部分63依照相应的答复句子产生规则产生答复句子，并通过场景再现部分62将它的字符串数据D3提供给语音合成部分64。

然后，场景再现部分62停止此第一提问/答复块BL3的再现处理，并继续进行在此之后的块BL的再现处理。

(2-2-5)第二提问/答复块BL4(循环类型1)

与提问块BL2相似，第二提问/答复块BL4是用在向用户提问等的情况下的一个块BL，例如，它有示于图23中的程序结构。在用户对提问等的答复既不是肯定又不是否定的情况下，考虑到在响应产生部分63中要产生的答复句子内容，第二提问/答复块BL4将用于防止对话变得不自然。

具体地说，例如，在再现上面用图15说明的第一提问/答复块RT3的过程的步骤SP26中，在响应产生部分63产生请求句(例如，“试用不同的话来说相同的事情”)或提问句(例如，“这是真的吗？”)的情况下，如果在完成了步骤SP26的处理之后，场景再现部分62继续进行下一个块BL的再现处理，用户就不能答复请求或提问，因此，对话就变得不自然了。

因此，在第二提问/答复块BL4中设计是这样的，以致在响应产生部分63产生答复句子时，在可能产生用户能像上面的答复句子那样，用“是”或“否”来响应的提问句的情况下，就能够接受用户对此提问的响应。

实际上，在再现第二提问/答复块BL4时，根据图24中所示的再现第二提问/答复块BL4，就步骤SP30-SP36而言，场景再现部分62进行与上述过程中的步骤SP20-SP26相似的处理，以便再现第三个块RT3。

在步骤SP36中，场景再现部分62请求响应产生部分63产生答复句子。照此方式，如果接收由响应产生部分63产生的答复句子的字符串数据D3，场景再现部分62就将其提供给语音合成部分64，并确定此答复句子是否是循环类型(loop type)。

明确地说，响应产生部分63是这样来设计的，以便在向场景再现部分62提供通过接收场景再现部分62的请求而产生的答复句子的字符串数据D3时，并在答复句子是提问句的情况下，用户能够用“是”或“否”来答复，它将表明答复句子是第一循环类型的属性信息加到上述字符串数据D3，在答复句子是用户不能用“是”或“否”来答复的请求句或类似句子的情况下，它将表明答复句子是第二循环类型的属性信息加到上述的字符串数据D3上，在答复句子是用户不必响应的陈述句的情况下，就把表明答复句子是非循环类的属性信息加到上述的字符串数据D3。

照此方式，在再现此第二提问/答复块BL4时，在再现第二提问/答复块BL4的过程的步骤SP36中，根据由响应产生部分63用答复句子的字符串数据D3提供的上述答复句子的属性信息，如果答复句子是第一循环类型，场景再现部分62就回到步骤SP31，随后，重复步骤SP31-SP36的处理，直到在步骤SP37得到肯定的结果为止。

如果在步骤SP37中很快得到肯定的结果，响应产生部分63就产生无循环类型的答复句子，场景再现部分62就停止第二提问/答复块BL4再现处理，然后再继续进行在此之后的块BL的再现处理。

(2-2-6)第三提问/答复块BL5(循环类型2)

与第二提问/答复块BI4相似，在用户对提问等的响应既不是肯定的又不是否定的情况下，考虑到要在响应产生部分63中产生的答复句子的内容，第三提问/答复块BL5是用于防止对话变得不自然的块，例如，它具有图25中所示的程序结构。

在此情况下，在第三提问/答复块BL5中，是这样设计的，以致在响应产生部分63产生答复句子时，在如像上面那样的答复句子的情况下，产生了用户不能用“是”或“否”来答复的句子，例如，如像“试用不同的话来说同一件事情”之类的请求句或者是如像“你对此作何想法？”之类的提问句，此时，就能接受用户对它的响应并且机器人1也能对此做出响应。

实际上，在再现第三提问/答复块BL5时，根据再现图26中所示的第三提问/答复块RT5的过程，就步骤SP40-SP46而言，场景再现部分62进行与再现第一提问/答复块RT3的上述过程中的步骤SP20-SP26相似的处理(图15)。

接着，场景再现部分62进行到步骤SP47，以便根据加到由响应产生部分63提供的、字符串数据D3的属性信息来确定基于字符串数据D3的答复句子是否是上述的第二循环类型。

在响应句子为第二循环类型的情况下，场景再现部分62回到步骤SP46，随后，重复步骤SP46-SP48-SP46的处理，直到在步骤SP47中得到否定结果为止。

在步骤SP47中，如果很快地得到了肯定的结果，响应产生部分63就产生非循环类型的答复句子，而场景再现部分62就停止第三提问/答复块BL5的再现程序，然后再继续进行在此之后的块BL的再现处理。

(2-2-7)第四提问/答复块BL6(循环类型3)

与第二和第三提问/答复块BL4和BL5相似，在用户对提问等的响应既不是肯定的又不是否定的情况下，考虑到要在响应产生部分63中产生的答复句子的内容，第四提问/答复块BL6是用于防止对话变得不自然的块，例如，它有着图27中所示的那样的程序结构。

在此情况下，在第四提问/答复块BL6中，是这样设计的，以致场景再现部分62能够应付响应产生部分63产生的答复句子是上述的第一循环类型和第二循环类型的两种情况。

实际上，在再现第四提问/答复块BL6时，根据再现示于图28中的第四提问/答复块BL6的过程，就步骤SP50-SP56而言，场景再现部分62进行与再现第一提问/答复块RT3的上述过程中的步骤SP20-SP26相似的处理(图15)。

在步骤SP56的处理之后，场景再现部分62继续进行到步骤SP57，以便根据加到由响应产生部分63提供的字符串数据D3的属性信息来确定所产生的答复句子是否是上述第一循环类型的还是第二循环类型。

在答复句子是第一循环类型或者是第二循环类型的情况下，场景再现部分62继续进行步骤SP58，以确定上述答复句子是否是第一循环类型的。

如果在步骤SP58中得到的是肯定的结果，场景再现部分62就回到步骤SP51。如果在步骤SP58中得到的是否定结果，场景再现部分62就继续进行到步骤59以等待用户的响应。如果很快做出了响应，场景再现部分62就根据来自话音识别部分60的字符串数据D1来识别这个，然后回到步骤SP56。此后，场景再现部分62重复步骤SP51-SP59的处理，直到在步骤SP57中得到否定的结果为止。

如果在步骤SP57中，很快地得到了肯定的结果，响应产生部分63就产生非循环类的答复句子，而场景再现部分62就停止第四提问/答复块BL6的再现处理，然后再继续进行在此之后的块BL的再现处理。

(2-2-8)第一对话块BL(无循环)

第一对话块BL7是用于增加使用户讲话的机会的块BL，它具有如图29和30所示的程序结构。注意的是，例如，图29示出了在有提示的情况下的程序结构的例子，而图30示出了在没有提示的情况下的程序结构的例子。

例如，通过将第一对话块BL7直接放在上面图9和图10所述一个句子场景块BL1之后，能够增加对话的轮次；它能给用户一个“正在进行对话”的感觉。

此外，例如，通过让机器人1再现话语(提示)，如像“我也这样想。”，“那是错误的吗？”和“你是怎么想的？”，用户就变得易于表达。因此，在第一对话块BL7中，是这样设计的，以使得在等待用户讲话之前，场景再现部分62再现一个示于图中的句子(提示)。然而，由于在紧前面再现的块BL中，根据机器人1讲话的内容，这个句子有时变成为不必要的了，因此，将其设计为是可省略的。

实际上，在再现第一对话块BL7时，根据再现示于图31中的第一对话块RT7的程序，首先，在步骤SP60中，场景再现部分62再现示于图中的可省略的提示，该提示是由块制作者按照场合要求而提供的，然后，在下一个步骤SP61中，场景再现部分62等待用户对其的讲话。

如果场景再现部分62根据来自话音识别部分60的字符串数据D1很快识别了讲话的用户，它就继续进行步骤SP62，以用上述的字符串数据D1向响应产生部分63提供答复句子产生请求COM。

结果，根据字符串数据D1和答复句子产生请求COM，在响应产生部分63中产生答复句子，并将其字符串D3通过场景再现部分62提供给语音合成部分64。

然后，场景对话块62停止第一对话块BL7的再现处理，然后继续进行在此之后的块BL的再现处理。

(2-2-9)第二对话块BL8(循环)

第二对话块BL8与第一对话块BL7一样，是用于增加使用户讲话的机会的块BL，例如，它有示于图33或图34中的程序结构。要注意的是，图33示出了在有提示的情况下的程序结构的例子，图34示出了在没有提示的情况下的程序结构的例子。

在上述的图31说明的、用于再现第一对话块RT7的过程的步骤SP62中，如果响应产生部分63有可能产生作为答复句子的提问句或请求句的话，那么，第二对话块BL8就是有效的。

实际上，在再现第二对话块BL8时，根据用于再现图35所示的第8块RT8的过程，就步骤SP70-SP72而言，场景再现部分62进行与上述用于再现第一对话块RT7的过程的步骤SP60-SP62相似的处理(图31)。

在下一个步骤SP73中，场景再现部分62根据上述加到由响应产生部分63提供的字符串数据D3的属性信息来确定答复句子是否是第二循环类型。

如果在步骤SP73中得到肯定的结果，场景再现部分62就回到步骤SP71，随后，重复步骤SP71-SP73的循环，直到在步骤SP73中得到否定的结果为止。

如果在步骤SP73中，很快地得到了否定的结果，响应产生部分63产生无循环类型的答复句子，场景再现部分62就停止第二对话块BL8的再现处理，并继续进行在此之后的块BL的再现处理。

(3)制作场景61的方法

下面，将要说明利用上面的第一到第九块BL1-BL9来制作场景的方法。

作为利用上述的块BL1-BL9的各种结构来制作场景61的方法，有第一场景制作方法和第二场景制作方法两种，在第一场景制作方法中，场景61将完全从开头制作起，在第一场景制作方法中，将通过对现有的场景61增加一些修改来制作新的场景61。

在此情况下，在第一场景制作方法中，如上面的图7所述，通过将任意数量的八种不同的块BL1-BL8按照任意的次序串行排列起来，并根据场景制作场景的个人爱好分别在每个块BL中提供必要的句子，就能制作想要的场景61。

进而，在第二场景制作方法中，根据由上述的单句场景块BL1和提问块BL2组成的现有的场景61，能够通过下述方法容易地制作的新场景61：

[1]用第一到第四提问/答复块BL3-BL6之一来改变提问块BL2(根据前面的和后面的块BL的内容，它可以是第一或第二对话块BL7-BL8)。

[2]紧接在单句场景块BL1后面，插入一个或多个第一或第二对话块BL7或BL8(根据前面的和后面的块BL的内容，它可以是单句场景块BL1、提问块BL2或第一到第四提问/答复块BL3-BL6)。

(4)实施例的操作和效果

根据上面的结构，在机器人1中，在场景再现部分62的控制之下，在正常状态中，按照场景61与用户进行“有场景的对话”，另一方面，如果用户做出了在场景61中的意想不到的或类似的响应，就用在响应产生部分63中产生的答复句子来进行“无场景的对话”。

相应地，在机器人1中，即使用户做出了在场景61中的意想不到的响应，也能对其回馈一个合适的响应。它能有效地防止此后的情况变得不自然。

此外，在机器人1中，能够通过按任意顺序排列任意数量的多种块BL来制作场景61，其中，对一轮对话提供了机器人1的动作，其中包含要由机器人1说出的句子。因此，为了使其变得容易，通过使用现有的场景61，也能够用较少的工序来轻易地制作令人感兴趣的场景。

根据上述的结构，在场景再现部分62的控制下，在正常的状态中，按照场景61来与用户进行“有场景的对话”，另一方面，在用户给出在场景61中意料不到的响应或类似的情况下，就用在响应产生部分63中产生的答复句子来进行“无场景的对话”。从而，能够防止与用户的对话变得不自然，与此同时，还能给上面的用户“在进行对话”的感觉。这样，就能实现与用户进行自然对话的机器人。

(5)其它实施例

在上述的实施例中，已经讨论了将本发明用于按图1到5构成的机器人1的情况。然而，本发明并不只限于此，除了用于与人进行对话的各种对话系统而外，它也能广泛地用于具有其它各种结构的机器人设备上。

在上述实施例中，已经讨论了这样的情况，为构成场景61的多个块BL配备了上述八种类型。然而，本发明不限于此，也可以由其结构在这八种类型以外的块来制作场景61，或者，也可以通过配备除了这八个类型之外的别的类型的块来制作场景61。

在上述的实施例中，已经讨论了使用单个的响应产生部分63的情况。然而，本发明不限于此，例如，在第三块BL3到第八块BL8(步骤SP26、SP36、SP46、SP56、SP62和SP72)中，可以分别相应于请求响应产生部分63产生答复句子的步骤来提供若干专用的响应产生部分。此处，配备有两种类型，一种是“不产生提问句和请求句”的响应产生部分，一种是“可能产生提问句和请求句”的响应产生部分，并且可以根据情况有选择地使用它们。

在上述的实施例中，已经讨论了在第二到第六块BL2-BL6中的情况，提供了用于确定用户的响应是肯定的还是否定的步骤(SP12、SP14、SP22、SP24、SP32、SP34、SP42、SP44、SP52和SP54)。然而，本发明不限于此，还可以提供用于与另一话语(word)相匹配的步骤来代替它们。

具体地说，例如，也能这样来进行设计，以便机器人1向用户提出如像“你出生在哪个辖区？”这样的问题，并相应于用户对这个问题的答复的话音识别结果来确定辖区。

在上述的实施例中，已经讨论了将第四到第六块BL4-BL6以及第八块BL8(步骤SP37、SP47、SP57和SP73)的循环次数设置为无限制的情况，然而，本发明并不只限于此，可以提供一个用于计算循环次数的计数器，以便根据计数器所计的数字来限制循环的次数。

在上述的实施例中，已经讨论了将等待用户讲话的等待时间设置为无限制的情况(例如，在再现提问块RT2的过程中的步骤SP11)。然而，本发明并不只限于此，而且，上面的等待时间也可以是有限的。例如，也可以这样来设计，如果在机器人1讲话后10秒钟内用户还不讲话，就再现以前配备的超时响应，并继续进行下一个块BL的再现处理。

在上述的实施例中，已经讨论了通过串行排列块BL来构成场景61的情况。然而，本发明并不只限于此，在场景61中通过并行排列块BL或用类似方式也可以提供一些分支(branch)。

在上述的实施例中，已经讨论了在与用户的对话中机器人只发出声音的情况。然而，本发明并不只限于此，机器人除了有语音之外，还可以有移动(动作)。

在上述的实施例中，已经讨论了不接受来自用户的请求的情况。然而，本发明并不只限于此，而且可以这样来制作场景，以便能够接收用户的如像“停止”和“请原谅”之类的请求。

在上述的实施例中，如图6所示，已经讨论了将以下若干部分组合在一起的情况：话音识别部分60，作为话音识别装置用于对用户的讲话进行话音识别；场景再现部分62，作为对话控制装置用于根据话音识别部分60的话音识别结果和以前指定的场景61来控制与用户的对话；响应产生部分63，作为响应产生装置用于根据用户讲话的内容产生答复句子，以对来自场景再现部分62的请求做出响应；语音合成部分64，作为语音合成装置用于对由场景再现部分62再现的场景61的一个句子或者由响应产生部分63产生的答复句子进行语音合成处理。然而，本发明并不只限于此，例如，可将由响应产生部分63提供的字符串数据D3直接提供给语音合成部分64。与话音识别部分60、场景再现部分62、响应产生部分63和语音合成部分64的组合一样，还能够广泛地运用除此之外的各种组合。

根据如上所述本发明，在语音对话系统中提供了以下装置：对话控制装置，用于根据对用户的讲话进行话音识别的话音识别装置的话音识别结果和以前给定的场景61来控制与用户的对话；响应产生装置，用于根据用户讲话的内容来产生答复句子，并响应来自对话控制装置的请求。对话控制装置请求响应产生装置根据用户讲话内容来产生作为场合要求的答复句子。从而，能够避免与用户的对话变得不自然，与此同时，能够给上述用户“正在进行对话”的感觉。这样就能实现能够与用户进行自然对话的语音对话系统。

根据本发明，提出了以下几个步骤：第一步是对用户的讲话进行话音识别；第二步是根据话音识别的结果和以前指定的场景来控制与用户的对话，并作为场合要求、根据用户讲话内容来产生答复句子；第三步是对再现场景的一个句子或所产生的答复句子进行语音合成处理。在第二步中，作为场合要求、根据用户讲话内容来产生答复句子，从而，能够避免与用户的对话变得不自然，与此同时，能够给上述的用户一个“正在进行对话”的感觉。这样，就能实现能够与用户进行自然对话的语音对话方法。

此外，根据本发明，在机器人设备中，提供了以下几种装置：对话控制装置，用于根据对用户的讲话进行话音识别的话音识别装置的话音识别结果和以前指定的场景来控制与用户的对话；响应产生装置，用于根据用户讲话的内容来产生答复句子，并响应来自对话控制装置的请求。对话控制装置请求响应产生装置根据用户讲话的内容来产生作为场合要求的答复句子。从而，能够避免与用户的对话变得不自然，与此同时，能够给上述的用户一个“正在进行对话”的感觉。这样就能实现能够与用户进行自然对话的机器人设备。

产业上的可利用性

除了娱乐用的机器人而外，本发明还广泛地适用于各种具有语音对话功能的设备，例如，个人计算机。

Claims

1.一种语音对话系统，该系统包括：

话音识别装置，用于对用户的讲话进行话音识别；

对话控制装置，用于根据由所述话音识别装置的话音识别结果、按照以前给定的场景来控制与所述用户的对话；

响应产生装置，用于产生与用户的讲话内容相应的答复句子，并响应来自所述对话控制装置的请求；

话音合成装置，用于对由所述对话控制装置再现的所述场景中的一个句子或对由所述响应产生装置产生的所述答复句子进行话音合成处理；和

所述语音对话系统，其中，

所述对话控制装置根据所述用户的讲话内容、请求所述响应产生装置产生作为场合要求的所述答复句子。

2.根据权利要求1的语音对话系统，其中，

所述对话控制装置根据由所述响应产生装置产生的所述答复句子的属性来控制与所述用户的所述对话。

3.根据权利要求1的语音对话系统，其中，

通过按任意顺序组合为与所述用户一轮对话提供的、任意数量的并具有相应预定格式的多种类型的若干块来制作所述场景。

4.根据权利要求3的语音对话系统，其中包括，

作为所述块之一，第一个块具有：

第一再现步骤，用于再现所述一个句子，以促使所述用户讲话；

第一讲话等待和识别步骤，用于在上述的第一再现步骤之后，等待所述用户的讲话，并在所述用户讲话时，识别上面讲话的内容；

第二再现步骤，在所述第一讲话等待和识别步骤之后，根据上面讲话的内容是肯定的还是否定的，来再现以前提供的一个相应的句子。

5.根据权利要求4的语音对话系统，包括：

作为所述块之一，第二块具有第一答复句子请求的产生步骤，当在所述第一讲话等待和识别步骤中所识别的所述用户的讲话内容既非是肯定的也非否定的时，就请求所述响应产生装置产生相应于所述用户讲话的内容的所述答复句子。

6.根据权利要求5的语音对话系统，包括：

作为所述块之一，第三块具有第一循环，其中，如果所述答复句子的属性是第一循环类型，就返回到所述第一讲话等待和识别步骤，所述答复句子是由响应所述第一答复句子请求的产生步骤中的所述请求的响应产生部分产生的。

7.根据权利要求5的语音对话系统，其中包括：

作为所述块之一，第四块具有第二循环，其中，如果所述答复句子的属性是第二循环类型，就等待所述用户的讲话，并且在所述用户讲话时，就识别上面讲话的内容，然后返回到所述答复句子请求的产生步骤，所述答复句子是由响应所述第一产生答复句子的请求步骤中的所述请求的响应产生部分产生的。

8.根据权利要求5的语音对话系统，包括：

作为所述块之一，第五块具有：

确定步骤，用于确定所述答复句子的属性，该答复句子是由所述第一产生答复句子的请求步骤中的所述请求的响应产生部分产生的。

第一循环，其中，如果在上述确定步骤中确定的所述答复句子的所述属性是第一循环类型，就返回到所述第一讲话等待和识别步骤；和

第二循环，其中，如果在上述确定步骤中确定的所述答复句子的所述属性是第二循环类型，就等待所述用户的讲话，并在所述用户讲话时，识别上面讲话的内容，然后返回到所述答复句子请求的产生步骤。

9.根据权利要求3的语音对话系统，包括：

作为所述块之一，第六块具有：

第二再现步骤，用于再现所述一个句子，如果需要，可在所述场景中省略这个句子；

第二讲话等待和识别步骤，用于在所述第二再现步骤之后等待所述用户的讲话，并在所述用户讲话时，用于识别上述讲话的内容；和

第二答复句子请求的产生步骤，在所述第二讲话等待和识别步骤之后，用于请求所述响应产生装置产生相应于所述用户讲话的内容的所述答复句子。

10.根据权利要求9的语音对话系统，其中包括：

作为所述块之一，第七块具有第三循环，其中，如果答复句子的属性是第三循环类型，就返回到所述第二讲话等待和识别步骤，所述答复句子是由响应所述第二答复句子请求的产生步骤中的所述请求的响应产生部分产生的。

11.一种语音对话方法，其中包括：

第一步骤，用于对用户的讲话进行话音识别；

第二步骤，用于根据所述话音识别的结果、按照以前给定的场景来控制与用户的对话，并且如果需要，产生与所述用户讲话的内容相应的答复句子；

第三步骤，用于对所述再现场景中的一个句子或对所产生的答复句子进行话音合成处理；

所述语音对话方法，其中，

在所述第二步骤中，根据所述用户讲话内容，产生作为场合要求的、与所述用户讲话内容相应的所述答复句子。

12.根据权利要求11的语音对话方法，其中，

在所述第二步骤中，根据所产生的答复句子的属性来控制与所述用户的对话。

13.根据权利要求11的语音对话方法，其中，

14.根据权利要求13的语音对话方法，包括：

作为所述块之一，第一个块具有：

15.根据权利要求14的语音对话方法，其中包括：

作为所述块之一，第二块具有第一答复句子请求的产生步骤，当在所述第一讲话等待和识别步骤中识别的所述用户的讲话的内容既非是肯定也非是否定时，用于产生与所述用户讲话的内容相应的所述答复句子。

16.根据权利要求15的语音对话方法，包括：

作为所述块之一，第三块具有第一循环，其中，如果在所述第一答复句子产生步骤中产生的所述答复句子的属性是第一循环类型，就返回到所述第一讲话等待和识别步骤。

17.根据权利要求15的语音对话方法，包括：

作为所述块之一，第四块具有第二循环，其中，如果在所述第一答复句子产生步骤中产生的所述答复句子的属性是第二循环类型，就等待所述用户的讲话，并在所述用户讲话时，识别上述讲话的内容，然后返回到所述答复句子产生步骤。

18.根据权利要求15的语音对话方法，包括：

作为所述块之一，第五块具有如下步骤：

确定步骤，用于确定在第一答复句子产生步骤中产生的所述答复句子的属性；

第一循环，其中，如果在上述确定步骤中确定的所述答复句子的属性是第一循环类型，就返回到所述第一讲话等待和识别步骤；

第二循环，其中，如果在上述确定步骤中确定的所述答复句子的属性是第二循环类型，就等待所述用户的讲话，并在用户讲话时，识别上述讲话的内容，然后返回到所述答复句子产生步骤。

19.根据权利要求13的语音对话方法，其中包括：

作为所述块之一，第六块具有如下步骤：

第二再现步骤，如果需要，用于再现在所述场景中可以省略的一个句子；

第二讲话等待和识别步骤，用于在所述第二再现步骤后，等待所述用户的讲话，并在用户讲话时，用于识别上述讲话的内容；

第二答复句子产生步骤，在所述第二讲话等待和识别步骤之后，用于产生与所述用户讲话的内容相应的所述答复句子。

20.根据权利要求19的语音对话方法，其中包括：

作为所述块之一，第七块具有一个第三循环，其中，如果在所述第二答复句子产生步骤中产生的所述答复句子的属性是第三循环类型，就返回到所述第二讲话等待和识别步骤。

21.一种机器人设备，包括：

话音识别装置，用于对用户的讲话进行话音识别；

对话控制装置，用于根据由所述话音识别装置的话音识别结果，并按照以前给定的场景来控制与所述用户的对话；

响应产生装置，用于产生与所述用户的讲话内容相应的答复句子，并响应来自所述对话控制装置的请求；

话音合成装置，用于对由所述对话控制装置再现的所述场景中的一个句子或者由所述响应产生装置产生的所述答复句子进行话音合成处理；

所述机器人设备，其中，

根据所述用户讲话的内容，所述对话控制装置请求所述响应产生装置产生作为场合要求的所述答复句子。