CN100423911C

CN100423911C - 机器人装置及其行为控制方法

Info

Publication number: CN100423911C
Application number: CNB2006100850660A
Authority: CN
Inventors: 藤田雅博; 高木刚; 堀中里香; 横野顺; 加布里尔·科斯塔; 下村秀树; 南野活树
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-10-13
Filing date: 2001-10-11
Publication date: 2008-10-08
Anticipated expiration: 2021-10-11
Also published as: US6718232B2; CN1290034C; CN1853879A; CN1396857A; CN1502453A; KR20020067699A; CN100411828C; TW581959B; CN1853880A; CN100445046C; US20030060930A1; EP1327504B1; EP1327504A1; EP1327504A4; KR100864339B1; WO2002032629A1

Abstract

一种通过根据传感器单元(120)获得的信息等改变在情感单元(130)中的感情等而显示出作为自主行为的信息捕获行为的机器人装置。所述机器人装置包括：行为控制部件，用于提供语言捕获行为；意义捕获部件；以及控制部件，用于执行指示其自身学习对象的行为控制。所述机器人装置将基于对象的内部状态变化和所述对象彼此相关地存储在存储器部件中。

Description

机器人装置及其行为控制方法

本申请是2001年10月11日提交、申请号为200310116312.0的发明专利申请“机器人装置及其行为控制方法”的分案申请。

技术领域

本发明涉及机器人装置及控制其行为的方法。

背景技术

近年来，仿照动物，比如狗的外貌形成的机器人装置正在出现在市场上。这种机器人装置响应外部信息或其自身内部状态，比如其感觉状态，行动像动物。在这些机器人当中，存在着能做出踢球这样的行为的一种，同时也存在为其提供学习功能的一种。在这些学习功能中，一种为语音学习功能。

宠物型机器人中的一个最终目标是，产生逼真的机器人装置，或换句话说，构造一个可扩充的系统。

迄今为止已经通过提高机器人装置的外观复杂性，尝试接近构造逼真机器人装置的目标。这也考虑到学习或成长元素。

但是，在组装这些功能时，常规的做法一直是改变对于行为产生固定设定的概率状态机的概率，或整个地更换状态机。

虽然通过与用户或外部世界的交互改变了行为发生的频率，从而提高了适合于机器人装置的复杂性，但是，不能够说，这样的复杂性在设计者(编程者)原来预先假定的行为或反应的范围之外。相似地，机器人能够识别的对象受到限制，使得机器人装置不能够识别编程者设定的之外的对象。这表示当前机器人装置缺乏确定如何对未知刺激做出反应的能力。

下面是产生可扩充系统所需要的而其可能在设计者设定的范围外的能力

(1)识别未知刺激的能力；

(2)产生新行为的能力；和

(3)针对未知刺激选择适当行为的能力。

如果考虑到所指的机器人装置是宠物型的机器人的这一事实，则宠物型机器人与人类交互的能力是特别重要的。事实上，在学习各种未知事物时，宠物型机器人通过与人类的交互学习它们。

在与人类交互中最重要的是通过语言交流。至于识别未知刺激的能力(1)，最佳分类、获取作为符号的名字和获取行为的名字，被认为是第一步骤。这是称为语言获取的研究领域。如所指出的，关键的是这些符号是物理相关或以物理为基础的。

例如，这点在如下的报告中指出：Kaplan等人的报告(在下面称为参考资料1，Kaplan，F.撰写的“交谈(Talking)AIBO：与自主的四腿机器人的语言交互的第一试验(First experimentation of verbal interactions with an autonomousfour-legged robot)”，刊载在关于交互作用智能媒体的CELE-Twente专题研讨会会议录(proceedings of the CECLE-Twentte on interacting agents)中，2000年10月)，Roy等人的报告(下面称为参考资料2，Roy，D.和Pentland A.撰写的“从自然声至视觉输入学习字(Learning Words from Natural Audio-Visual Input)”，刊载在关于口语语言处理的国际会议会议录(Proceedings of InternationalConference on Spoken Language Processing)中，1998年)，和Steels等人的报告(下面称为参考资料3，Steels，L.撰写的“以感知为基础的意义创造(PerceptuallyGrounded Meaning Creation)”，刊载在关于多智能媒体系统的国际会议会议录(Proceedings of the International Conference on Multi-Agent System)中，1996年)。

上述(2)的行为获取，可以用通过模仿的行为获取、通过强化学习的行为获取和从进化计算的行为获取示范说明。

例如，这点在以下报告中指出：Damasio的报告(下面称为参考资料4，Damasio，A.撰写的“Descartes’Error：情感和人的大脑(Emotion，and theHuman Brain)”，Putman出版集团(Putman Publishing Group)，1994年)，Mataric的报告(下面称为参考资料5，Mataric，M.撰写的“作为模仿基础的传感发动机基原：将感知联结到动作和将生物学联结到机器人(Sensory-MotorPrimitives as a basis for Imitation：Linking Perception to Actin and Biology toRobotics)”，刊载在C.Nehniv和K.Dautenhalm(eds)著“动物和人工制品的模仿(Imitation in Animals and Artifacts)”中，MIT出版社(press)出版，2000年)。

至于对未知刺激的适当的反应行为(3)，只报告了在现实世界中的极原始行为，或在虚拟世界中的几个相关行为。

上述能力(3)的涵义是，如何获取对象对机器人装置所具有的意义，例如，它是否是食物，玩具或可怕的东西。在该方面，不仅从身体上使识别对象与之相关或授之所识别对象的基础知识是必须的，而且识别该识别对象如何影响机器人装置的内部状态，如例如，主要情感或次要情感也是必须的。

发明内容

鉴于上述技术状态，本发明的目的是提供一种制造得更逼真的机器人装置以及控制所述机器人装置的行为的方法。

为解决上述问题，本发明的机器人装置包括传感器，用于检测对象；感知评估部分，用于评估从所述传感器输入的输入信号；内部状态管理部分，被馈送所述感知评估部分的评估结果以基于所述结果管理虚拟的内部状态；以及存储器部件，用于存储所述对象和基于所述对象的所述内部状态的变化之间的关系；将检测到的基于所述对象的所述内部状态的变化和所述对象相关地存储在所述存储器部件中，还包括：行为产生部分；所述内部状态管理部分监管所述内部状态以保持所述内部状态的恒定，当所述恒定被扰乱时，所述内部状态管理部分向所述行为产生部分发送第一信号，所述行为发生部分基于所述第一信号产生用于维持内部状态的稳定的动作；所述行为产生部分基于所述第一信号产生保持所述恒定的行为。

用机器人装置的行为控制方法，所述机器人基于其内部状态行动，并获取当基于内部状态行动的机器人对对象采取行动时产生的内部状态变化，作为对象的意义。

为达到上述目的，机器人装置还包括语音输入部件，和特征化多个字序列的多个模型，其中，基于发出字序列时占优势的字序列的特征值对所述模型进行分类。所述机器人还包括：语音输入评估部件，用于根据字序列特征化模型，评估由语音输入部件生成的语音输入；以及字序列指定部件，用于基于语音输入评估部件的评估值指定语音输入的字序列。

用这样构造的机器人装置，基于字序列特征化模型，用语音输入评估部件评估由语音输入部件生成的语音输入，所述的字序列特征化模型是基于发出的字序列的特征值分类的，并且，基于语音输入评估部件的评估值，由字序列指定部件指定语音输入的字序列。这使得机器人装置能够将输入语音指定为最佳字序列。为解决上述问题，本发明的机器人装置的行为控制方法也包括语音输入步骤；语音输入评估步骤，根据特征化多个字序列的多个模型，评估在语音输入步骤生成的语音输入；以及字序列指定步骤，基于在语音输入评估步骤中获得的评估值指定语音输入的字序列。该行为控制方法使得机器人装置能够将输入语音指定为最佳字序列。为解决上述问题，本发明的机器人装置还包括控制部件，用于执行指向学习对象的行为控制。这样构造的机器人装置执行指向其学习对象的行为。

为解决上述问题，本发明的自主行动机器人装置的行为控制方法包括：感知评估步骤，评估从检测对象的传感器输入的信号；内部状态管理步骤，用于管理基于所述感知评估步骤中的评估结果改变的虚拟的内部状态；以及存储步骤，存储所述对象和基于所述对象的所述内部状态的变化之间的关系；将检测到的基于对象的内部状态的变化和所述对象相关地存储在所述存储器部件中，还包括：行为产生步骤，使所述机器人基于所述内部状态管理步骤中所管理的所述内部状态产生相应的行为，以维持所述内部状态的稳定。

为解决上述问题，本发明的机器人部件的行为控制方法还包括：感知评估步骤，评估检测到对象的传感器的输入信号；内部状态管理部分，用于管理基于感知评估步骤中的评估结果改变的虚假内部状态；以及存储步骤，存储对象和基于对象的内部状态变化之间的关系。将基于所检测的对象的内部状态的变化和对象相关地存储在存储部件中。用这样构造的机器人装置的行为控制方法，当检测到对象时，将基于所检测的对象的内部状态变化和所述对象相关地存储在存储部件中。

通过阅读如附图所示的本发明的实施例，本发明的其它目的、特征和优点将变得更加清楚。

附图说明

图1是实施本发明的机器人装置的外观透视图；

图2是说明所述机器人装置的电路结构的方框图；

图3是说明所述机器人的软件结构的方框图；

图4是说明所述机器人的软件结构中应用层的方框图；

图5是说明所述机器人的软件结构的应用层结构的方框图；

图6是说明所述应用层的行为模型库结构的方框图；

图7说明了作为所述机器人装置的行为决定的信息的有限概率自动机；

图8说明了为有限概率自动机的每个节点提供的状态转换表；

图9是说明选择行为的构成单元的方框图；

图10是说明通过感知选择行为的构成单元方框图；

图11说明了子系统的指定例子；

图12是说明行为选择结构的一个更具体的构成单元的方框图；

图13说明了包括机器人装置的网络系统；

图14是说明直到机器人装置通过协同注意实现信息获取行为或信息确认行为一直执行的操作序列的流程图；

图15A和15B说明了为可选的单一颜色的输入图像的颜色分段；

图16A和16B说明了包括人类的输入图像的颜色分段；

图17说明了颜色分段的集群；

图18A和18B说明了输入图像的集群；

图19说明了通过颜色分段切片分析外形的结果；

图20说明实现了对发出的语音的识别的构成单元的方框图；

图21说明了用于输入未知语言的HMM的示意结构；

图22说明了语音识别的结果；

图23说明了与内部状态相关的信息；

图24说明了虚拟胃和虚拟膀胱之间关系；

图25是说明学习存储器结构的方框图；

图26说明了从根据外部或内部状态的刺激的信息，通过协同注意，实现信息获取行为或信息确认行为的处理过程。

具体实施方式

下面参照附图详细说明本发明的优选实施例。本实施例旨在说明一种自主地响应周围环境(外部刺激)和内部状态而行为的自主机器人装置。

在本实施例中，首先说明机器人装置的结构，随后详细说明利用所述机器人取得的日常功能。

(1)本实施例机器人装置的结构

如图1所示，所述机器人装置是模仿动物，比如狗的所谓宠物机器人，并且由分别连接在躯干单元2的左右侧的前后侧的腿单元3A、3B、3C和3D以及分别连接到躯干单元2的前后端的头部单元4和尾部单元5构成。

参见图2，躯干单元2包括控制器单元16，该控制器单元16包括：CPU(中央处理单元)10内部总线上的内连、DRAM(动态随机存取存储器)11、快速ROM(只读存储器)12、PC(个人计算机)卡接口电路13和信号处理电路14、以及作为机器人装置1的电源的电池17。在躯干单元2中还装有检测机器人装置1的运动姿势和运动加速度的角速度传感器18和加速度传感器19。

在头部单元4上安装在位的有：CCD(电荷耦合器件)照相机20，用于将成像外部状态；接触传感器21，用于检测由物理动作，如用户的‘打击’或‘轻拍’造成的压力；距离传感器22，用于测量到放置在前面的对象的距离；话筒23，用于收集外部声音；扬声器24，用于输出如哀鸣的声音；以及LED(发光二极管)，相当于机器人装置1的眼睛。

为腿单元3A至3D的关节部分、腿单元3A至3D和躯干单元2的各连接部分、头部单元4和躯干单元2的各连接部分以及尾部单元5的尾部5A的连接部分提供对应于自由度数目的数个执行器25₁至25_n和电位计26₁至26_n。例如，执行器25₁至25_n包括伺服电动机。腿单元3A至3D由伺服电动机的驱动控制，转换到目标姿势或运动。

各个传感器，如角速度传感器18、加速度传感器19、接触传感器21、触地传感器23R/L、姿势传感器24、距离传感器25、话筒26、距离传感器22、话筒23、扩音器24以及电位计25₁至25_n经相关的集线器27₁至27_n；连接到控制器16的信号处理电路14，而成像装置20和电池17直接连接到信号处理电路14。

信号处理电路14顺序地捕获从上述各传感器提供的传感器数据、图像数据或语音数据，以使这些数据顺序地经内部总线15存储在DRAM11中的预定位置。另外，信号处理电路14顺序地捕获由电池17提供的指示剩余电池容量的剩余电池容量数据，以将如此捕获的数据存储在DRAM11中的预定位置。

当CPU10执行机器人装置1的操作控制时，顺序利用如此存储在DRAM11中的各个传感器数据、图像数据、语音数据以及剩余电池容量数据。

实际中，在机器人装置1启动的初始阶段，CPU10为得到DRAM11中的存储内容、直接地或通过PC卡接口电路13读取插在躯干单元2的PC卡槽(未说明了)中的存储器卡28或存储在快速ROM12中控制程序。

然后，CPU10根据从信号处理电路14顺序存储到DRAM11的传感器数据、图像数据、语音数据或剩余电池容量数据，检查其自身状态和周围状态，以及用户可能发出的命令或行动。

CPU10根据检查的结果和存储在11中的控制程序，还确定下一个随之发生的动作，同时根据如此确定的结果，在需要时驱动执行器25₁至25_n，产生行为，如在上下方向或左右方向摇动头部单元4，或移动腿单元3A至3D以行走或跳跃。

在需要时，CPU10产生语音数据，并将如此产生的数据作为语音信号通过信号处理电路14发送到扬声器24，以向外部输出从语音信号推导出的语音，或开/关或闪耀LED。

以这种方式，本机器人装置1能够响应其自身状态和周围状态，或用户的命令或动作，而自主地行为。

(2)控制程序的软件结构

图3说明了机器人装置1中上述控制程序的软件结构。在图3中，器件驱动程序层30位于控制程序的最下层，并形成为由多个器件驱动程序组成的器件驱动程序组31。每个器件驱动程序是一个允许直接访问在普通计算机中使用的硬件，如图像拾取装置20(图2)或计时器的对象，并且响应相关硬件的中断执行处理。

机器人服务器对象32由虚拟机器人33、电源管理程序34、器件驱动程序管理程序35以及设计的机器人36组成。所述电源管理程序34由一组负责在电源之间切换的软件项目组成。所述器件驱动程序管理程序35由一组软件项目组成，管理各种其它器件驱动程序。所述设计的机器人36由管理所述机器人装置1的机构的一组软件项目组成。位于器件驱动程序层30的最下层的虚拟机器人33由提供访问硬件项目的接口的一组软件项目组成，它包括上述各种传感器和执行器25₁至25_n。

管理程序对象37由对象管理程序38和服务管理程序39组成。对象管理程序38是一组管理包括机器人的服务器对象32、中间件层40和应用层41中的各软件项目的引导和结束的软件项目，而服务管理程序39是一组根据存储器卡28(图2)中存储的连接文件中陈述的关于各对象之间连接的信息，管理各对象间连接的软件项目。

中间件层40位于机器人服务器对象32的上层，并且由提供机器人装置1的基本功能，如图像处理或语音处理的一组软件项目组成。应用程序层41位于中间件层40的上层，并且是根据组成中间件层40的软件项目处理的结果决定机器人装置1的行为的一组软件项目。

图4示说明了中间件层40和应用层41的具体的软件结构。

参见图4，中间件层40是由识别系统60和输出系统69组成。所述识别系统60具有用于噪音、温度或亮度检测、音阶(sound scale)识别、距离或姿势检测，用于接触传感器，用于运动检测和颜色识别的信号处理模块58至58以及输入语义转换器模块59。所述输出系统69具有输出语义转换器模块68以及用于姿势管理、跟踪、运动再现、行走、从跌倒状态的恢复、LED闪光和声音再现的信号处理模块61至67。

识别系统60的信号处理模块50至58从由机器人服务器对象32的虚拟机器人33从DRAM11(图2)读出的以进行处理的传感器数据、图像数据和语音数据中捕获相关的数据，并向输入语义转换器模块59发送处理的结果。应注意，虚拟机器人33构造为用于根据预定通信协议交换或转换信号的组件。

输入语义转换器模块59识别自身状态、周围的状态、用户命令或动作，如‘烦恼’、‘急躁’、‘光’、‘检测到一个球’、‘检测到跌倒’、‘被击打’、‘被轻拍’、‘听见do-mi-so音阶’、‘检测到运动的对象’、或‘检测到障碍’以向应用程序层41(图3)输出识别的结果。

应用层41由五个模块组成，即，行为模型库70、行为切换模块71、学习模块72、感觉模型73及本能模型74，如图5所示。

在行为模型库70中，提供有与多个预选条件项目，如‘剩余电池容量低’、‘从跌倒状态恢复’、‘要躲避的障碍’、‘要表达的感觉’、或‘检测到一个球’相关的各独立行为模块70₁至70_n，如图6所示。

当从输入语义转换器模块59提供了识别的结果、或从提供最后的识别结果的时间起过了预定的时间时，行为模型70₁至70_n在参照感觉模型73中保存的情感参数值、和参照本能模型74中保存的相应愿望的参数值的同时、决定下面的行为以将决定的结果发送到行为切换模块71。

在本实施例中，行为模型70₁至70_n使用称为有限概率自动机的算法作为决定下一个行为的技术。该算法根据对于内连各节点NODE₀至NODE_n的弧ARC₁至ARC_n1设定的转换概率的值P₁至P_n概率地确定从节点NODE₀至NODE_n中的哪一个到这些节点NODE₀至NODE_n中的哪一个将进行转换。

具体而言，每个行为模型701至70n包括图8所示的每个节点NODE₀至NODE_n的状态转换表80，与这些节点NODE₀至NODE_n相关地形成其自身的行为模型70₁至70_n。

在状态转换表80中，作为节点NODE₀至NODE_n中转换条件的输入事件(识别的结果)，以优先级的序列，列表在‘输入事件名’的列中，并且在列‘数据名’和‘数据范围’的相关行中陈述转换条件的其它条件。

因此，在图8的状态转换表80中说明了的节点NODE₁₀₀中，假定‘检测到球’(BALL)的识别结果，则与识别结果一起假定的球的大小(SIZE)是‘从1至1000’，代表向另一个节点转换的条件。相似地，假定识别结果‘检测到障碍’(OBSTACLE)，与识别结果一起假定的到所述障碍的距离(DISTANCE)是“从0至100”的范围，代表向另一个节点转换的条件。

而且在当前的节点NODE₁₀₀中，如果没有输入任何识别结果，但是在行为模型70₁至70_n周期地参考的参数值当中，保存在感觉模型73中的，各情感和愿望的参数值当中的参数值‘高兴’(JOY)，‘惊奇’(SURPRISE)或‘悲伤’(SADNESS)中任何一个在‘50至100’之间的范围中，则可以做出向另一个节点的转换。

而且，在状态转换表80中，从节点NODE₀至NODE_n能够做出向其转换的节点名表示在列‘向其它节点转换的概率’中的行‘转换的目的地节点’中，另外，在列‘输入事件名’、‘数据名’和‘数据范围’中陈述的所有条件满足时，可以将向其它节点NODE₀至NODE_n转换的概率列入在列‘向其它节点转换概率’的相对应位置。在向节点NODE₀至NODE_n转换时要输出的行为表示在列‘向其它节点转换概率’中的行‘输出行为’中。同时，列‘向其它节点转换的概率’中的每行概率值的总和是100％。

因此，在图8的状态转换表80表示的节点NODE₁₀₀中，假设识别结果‘检测到球’并且球的大小(SIZE)是‘从0至100’的范围，那么，能够以30％的概率做出向‘节点NODE₁₂₀(节点120)’转换，然后输出行为‘ACTION1’。

在行为模型70₁至70_n的每个中，每个都如该状态转换表80中陈述的那样多个节点NODE₀至NODE_n的集合交连在一起，从而，假定从输入语义转换器模块59给出识别结果，则利用NODE₀至NODE_n的状态转换表概率地确定下一个行为，并且将该决定的结果输出到行为切换模块71。

图5说明了的行为切换模块71，向中间件层40的输出语义转换器模块68发送命令、以在从行为模型库70的各个行为模型70₁至70_n输出的各行为当中，选择具有预定的较高优先级的从行为模型70₁至70_n输出的一个行为，并且执行该行为。该命令在下面称为行为命令。在本实施例中，在图6中说明了的行为模型70₁至70_n的给定一个的优先级排列(the order of priority)越高，在图6中的所述的行为模型的等级(rank)越低。

行为切换模块71根据在行为结束后输出语义转换器模块68提供的行为完成信息，通知学习模块72、感觉模型73和本能模型74该行为结束的效果。

将从输出语义转换器模块68提供的识别结果中的作为用户动作，如‘轻拍’或‘打击’接收的指令的识别结果馈送到学习模块72。

学习模块72根据识别结果和从行为切换模块71来的通知，改变行为模型库70中的行为70₁至70_n的转换概率，从而，在动作是‘轻拍’(‘训斥’)或‘打击’(‘表扬’)时，所述行为的发生概率将分别增加或降低。

另一方面，感觉模型73保存表示六种情感类型每一个的强度的参数，即，高兴(JOY)、悲伤(SADNESS)、愤怒(ANGER)、惊奇(SURPRISE)、厌恶(DISGUST)和恐惧(FEAR)。感觉模型73根据输入语义转换器模块59提供的特定识别结果，如‘被轻拍’或‘被打击’，逝去的时间以及从行为切换模块71来的通知周期地修改这些情感类型的参数值。

特别地，感觉模型73根据下列公式(1)计算下一周期的当前情感类型的参数值E[t+1]

E[t+1]＝E[t]+ke×ΔE[t]…(1)

其中ΔE[t]为由预定的公式根据，例如输入语义转换器模块59提供的识别结果、机器人装置在相关时间的行为或根据从前一个改变事件时间开始已逝去的时间计算的情感类型的变化量，，E[t]是情感类型的当前参数值，以及ke是表示情感类型的敏感度的系数。感觉模型73用这样计算的值代替情感类型的当前参数值E[t]，以修改情感类型的参数值。以相似的方式，感觉模型73修改情感类型的总体的参数值。

从输出语义转换器模块68来的各识别结果和通知将对各情感类型参数值的改变量ΔE[t]具有怎样的影响是预先确定的，从而，识别结果‘被轻拍’显著地影响情感类型‘愤怒’的参数值的改变量ΔE[t]，而识别结果‘被轻拍’显著地影响情感类型‘高兴’的参数值的改变量ΔE[t]。

输出语义转换器模块68的通知是所谓的行为反馈信息(行为结束信息)和关于行为发生的结果的信息。感觉模型73还根据该信息改变感觉。例如，通过‘吠’的动作可以降低愤怒的感觉水平。同时，输出语义转换器模块68来的通知也输入到学习模块72，然后，它根据该通知改变行为模型70₁至70_n的相应转换概率。

同时，由行为切换模块71的输出(适应于该感觉的行为)可以做出行为结果的反馈。

另一方面，本能模型74保存表示五个相互独立的愿望的强度参数，即‘练习愿望’、‘好感愿望’、‘食欲’及‘好奇’。本能模型74根据输入语义转换器模块59提供的识别结果、逝去的时间以及从行为切换模块71来的通知，周期地修改这些愿望的参数值。

特别地，本能模型74关于‘练习愿望’、‘好感愿望’和‘好奇’在预定的周期使用下面的公式，计算在下个周期中的这些愿望的参数值I[k+1]：

I[k+1]＝I[k]+ki×ΔI[k]…(2)

其中，ΔI[k]是由预定公式根据识别结果、逝去的时间及输出语义转换器模块68的通知计算的在相关时间的所述愿望的改变量，I[k]是愿望的当前参数值，以及ki是表示所述愿望的敏感度的系数，并且用计算的结果代替当前参数值I[k]，以修改愿望的参数值。本能模型74修改除了‘食欲’外的各愿望的参数值。

从输出语义转换器模块模块68来的识别结果和通知对各愿望的参数值的改变量ΔI[k]的影响是预先确定的，从而，例如，从输出语义转换器模块68来的通知显著影响‘疲劳’参数值的改变量ΔI[k]。

在本实施例中，各个情感类型和各个愿望的参数在从0至100的范围内改变，而系数ke和ki的值对各个情感类型和各个愿望独立地进行设定。

如图4所示，中间件层40的输出语义转换器模块68将如上所述的应用层41的行为切换模块71提供的抽象的行为命令，如‘往前走’、‘高兴’、‘喊叫’或‘跟踪(跟踪一个球)’发送到输出系统69的信号处理模块61至67。

假定一行为命令，信号处理模块61至67根据该行为命令，产生将提供到相关执行器25₁至25_n(图2)以执行该行为的伺服命令值、要从扬声器24(图2)输出的声音语音数据、和/或要向‘眼睛’LED提供的驱动数据、并且以这样的顺序，通过机器人服务器对象32的虚拟机器人33和信号处理电路14(图2)将这些数据发送到相关的执行器25₁至25_n、扬声器24或LED。

以这种方式，机器人装置1能够根据控制程序响应其自身内部状态、周围的状态(外部状态)或用户的命令或动作，执行自主的行为。

(3)本发明在机器人装置上的应用

现在说明的技术代表将本发明应用于机器人装置的基础。

(3-1)系统结构的概况

首先，在下面说明实现基于情感的符号获取的系统结构的概况。

首先，在构造系统时存在以下问题。通过本发明的系统解决了这些问题，并且将实现现有技术未能实现的逼真的机器人。

首先存在下面问题：

(Req-1)语言获取行为如何嵌入机器人装置1的自主行为系统；

(Req-2)基于情感的符号将如何构造；

(Req-3)要识别的现实世界的对象如何分类；以及

(Req-4)机器人装置1和人类如何将注意引向相同的对象，即，如何解决共同注意的问题。

首先，问题(Req-1)是通过集成生态学模型产生的自主行为的方法和基于物理的符号的获取的方法而解决的。

应注意，通过生态学模型产生自主行为是在，例如Arkin的报告(下面称为参考资料6，Arkin，R.C.，Fujita，M.，Takagi，T.，和Hasegawa，R.撰写的“生态学模型...(Ethological Model...)”提交到ICRA至2001)，和Bates的报告(下称参考资料7，Bates，J.撰写的“在交互的世界和oz项目中的特征本性(Nature ofcharacter in interactive worlds and the oz project)”“技术报告(TechnicalReport)CMU-CS-92-200”，Carnegie Mellon大学，1992年10月)中提出的技术。

基于物理的符号获取的方法是在前述的参考资料1-3中提出的技术。

特别地，将作为满足关于信息的饥饿感觉的行为的信息获取行为定义为自主行为之一，并且将‘吃’信息的信息获取行为实现为与吃食物的行为相似的子系统。作为要获取的对象的信息是对象和意义的名称。

所述子系统是规定机器人装置1的行为的子系统，所述的机器人装置1具有依赖于行为种类的多种子系统。该子系统主要由感知和内部状态确定。

至于(Req-2)基于情感的符号问题，通过将激发所述行为的内部状态变化与那时的输入和行为相关联来解决，特别地，不是通过将输入时内部状态其本身，而是将针对输入的内部状态变化，与那时的输入和行为相关联，而使对象对个人的意义与满足内部状态时激起的情感之间相关联。

至于(Req-3)，通过用感知分类对象，和通过将统计模型用作作为感知检测到的颜色等的分类器，适当地分类要识别的现实世界的对象。

机器人装置与在计算机中构造的虚拟世界中提出的，如在El至Nasr等人的报告(下面称为参考资料8，El-Nasr，M.，Loeger，T.，和Yen，J.撰写的“PETTEI：带有情感衍生智能的宠物(A pet with Evolving EmtionallyIntelligence)”刊载在“自主智能体的国际会议会议录(procedings ofInternational Conference on Autonomous Agents)”中，2000)中提出的合成生物之间的不同是机器人装置必须能够在现实世界中操作。在现实世界的对象中，颜色、形状等连续地分布在各特征空间中。而且，缺乏编程的简单观察对象不能够揭示它实际具有的意义。所以，在解决上述问题(Req-3)中，使用统计模型作为感知的分类器。

由通过利用该生态模型的行为选择中注意力引向对象时执行所述行为的一部分，自发地执行共同的注意力，而解决(Req-4)的共同注意问题。

共同注意或协同注意是现实世界中符号获取的重要功能之一。在Burner的报告(下面称为参考资料9，Bruner，J.撰写“学习如何用字做事情(Learninghow to do things with wordz)”刊载在J.Brunner和A.Garton著的“人的生长和发展(Human growth and development)”，Wolfstan College Lectures，Clarendon出版社，1978年)中，例如在认识心理学中指出共同注意在婴儿的学习过程中起重要的作用。这是引导方和被引导方，这里为婴儿共同拥有感兴趣对象的能力，由于婴儿自发地朝引导者手指指出的方向，或沿引导者的视线看。

通过利用注意引向某个对象时执行所述行为的生态模型的行为选择的一部分，自发地将该共同注意纳入到自主行为中。

首先，简要说明考虑生态研究的行为控制。例如在上述的参考资料6中讨论了生态运动控制技术。

接下来，全面地说明其结构，以及如何将信息获取行为集成在自主机器人装置1的软件中，以及与共同注意相关的解决方法。

在生态模型中的关键点是，通过内部状态和外部刺激选择行为，并且在产生行为评估(行为值)时，独立评估和相关(融合)从内部状态产生的动机和从外部刺激来的释放信号这使得将内部变量抑制到一定程度内的体内平衡(homeostatic)的行为能够产生。同时，体内平衡的行为是表现为例如将内部变量保持在固定水平上的行为。

图9说明了一种允许对彼此相关的内部变量和外部刺激进行独立评估的配置。图10说明了一种实现体内平衡的行为的配置，更具体地说，说明了一种其中系统地构造行为，并且解释外部环境以获得外部刺激从而选择保持固定内部状态的行为的配置。

参见图9，说明摄取行为的情况。动机产生器101评估并输出从内部状态如饥饿程度来的摄取行为的动机值。释放机构102评估并输出与摄取行为相关的外部刺激，例如，如果存在食物的话，摄取行为的释放信号。动机值和释放信号彼此独立地被评估。

行为评估器103评估动机值和释放信号，并输出行为本身的评估值作为行为值。存在多个对其每一个都独立计算行为值，并输出到稍后说明的动作选择单元的行为。动作选择器选择给出最高评估的行为以执行这样选择的行为。

通过定义动机产生器101从而使当内部状态偏离最适宜的范围时，将采取使内部状态能够恢复到它原来范围的动作，实现了试图获取行为的对象的广义的行为定义，如果外部世界存在该对象的话，从而可以实现体内平衡行为。

(3-3)基于情感的符号获取的体系

基于情感的符号获取实现相对于未知对象的情感获取行为作为自主行为的一部分。

作为一个例子，图12说明了一个实现基于情感的符号获取作为自主行为一部分的配置。在此系统构造中的要点可以列为：

(i)能够辨别输入是未知的输入还是先前已知的输入的每个通道的分类器；

(ii)用于存储每个通道分类结果与内部变量的改变时间的相关存储器；以及

(iii)通过生态模型将内部变量和外部刺激结合。

以上是系统构造的要点。同时，如果外部刺激是已知刺激，则启动根据通常生态模型的体内平衡行为的自主行为。

根据本发明实现的基于情感的符号获取，其特征为存储对象对哪个内部状态是至关重要的，并从而显著地不同于通常的基于物理的符号获取。

因此，基于情感的符号获取将对象与基于情感的信息相关。通过将信息与对象相关，使释放机构能够评估对于新的对象要采取哪个动作。

而且，通过将内部状态变化(内部变量)作为与对象相关的相关存储器，能够从所述相关存储器输出在次要情感中存储的内部变量中的改变以产生第二阶的情感，如高兴或恐惧作为情感。

这使得能够与见到的对象相关地，作为情感表现行为，产生表达，影响行为选择，或调整运动。

(3-4)情感获取(吃)行为

为实现作为自主行为一部分的信息获取行为，定义下面称为信息获取行为子系统的子系统，它具有作为内部状态因子的与信息获取愿望相关的各变量，在下面称其为信息获取变量。

例如，将信息获取行为子系统定义为是一个内部模型，其信息获取变量在对其相关存储器为未知的输入进行学习的情况下得以增加，并且随着时间而减少。在所述信息获取变量被耗尽时，该信息获取行为子系统产生信息获取行为的动机。

而且，在这种情况下，当输入(信息)是未知时，释放机构产生释放信号。这使得获取信息的行为，象吃食物的行为那样，能够作为内部变量和外部刺激的融合而产生。

在信息获取的愿望增加时，寻找未知对象的行为和诸如对未知对象问‘这是什么？’的询问的行为，是表现为信息获取行为的特定行为的典型行为。一般是通过与用户对话形成这样的行为。

通过构造这样的系统，通过基于好奇的对话能够实现信息获取，并进一步地自然地在自主行为中嵌入信息获取行为。即，信息获取行为是作为机器人装置1中的实现为自主行为的交互的新元素实现。

(3-5)共同注意

共同注意或协同注意自发地被嵌入在系统中。在该系统结构中，根据共同注意的信息获取行为(吃信息)如下执行：

假定通过如上所述的各内部变量和各外部刺激的融合，由动作选择单元116选择了信息获取行为。

激发释放机构102发出释放信号的对象是进行信息获取的目标。如果从内部状态的饥饿感觉单独地选择该行为，则进行寻找，并且给定对象变成所述信息获取行为的目标。因此，执行行为获取的目标变成共同注意的目标。

如果机器人具有主动性，即，如果信息获取行为从内部状态的饥饿感觉引起，则机器人装置1接近目标，并将其手指指向目标以激发操纵者的人的注意力从而实现共同注意。

如果用户具有主动性，即，如果根据释放机构102发出的释放信号指定目标，机器人装置1首先发出声音或移动对象以激发用户的注意。用户可以对此作出响应指向所述目标，如用手指指向目标，做出询问：‘这是什么？’。当该手指或询问选择了行为获取行为时，机器人装置1指定用手指指向的对象作为对象。因此，即使用户具有主动性，也实现了对相同目标的共同注意。

因此，在本系统中，共同注意作为如愿地对内部状态予以注意，或对强烈的外部刺激予以注意的一般概念的一部分，纳入到系统中。

(3-6)内部状态和情感(内部变量和情感)的改变

参见图12，将情感部分120大致分成感知内部状态部分131、内部状态部分132和情感部分133。

第一个内部状态部分132管理内部状态本身的动态。所述内部状态包括作为虚拟变量的营养、水、疲劳和好奇，这将在下面序列说明(图23)。除了上述的外，这些内部变量可以包括在活的有机体或动物中发现的其它内部变量。内部状态部分132监视各个保养所需的各状态以检测所监视的值偏离了最佳值。为维持恒定所需的行为，内部状态部分132还向动机产生器发送促使保持内部状态所需行为的信号。

第二部分，即，感知内部状态132，是分析从内部传感器或外部传感器来的输入以向内部状态管理单元输入该分析结果的部分。所述传感器信号分析对应于真实动物情况下的，有关从血液中的糖的比例检测到的饮食的信息，或有关疲劳的信息。在机器人装置1中，传感器信号是剩余电池容量的分析。在机器人装置1中，预先假设伪食欲，并且通过执行适当的动作产生输入信号以维持伪恒定内部状态。

第三部分，即，情感部分133，是通过内部变量的改变，产生愉快或不愉快的感觉以产生与高兴或愤怒相对应的情感的部分。该情感部分133也称为第二阶情感，并根据称为第一阶情感的内部情感的满足程度产生愉快或不愉快的信号。而且，情感部分133从这些愉快信号、不愉快信号、唤醒程度或确信状态产生诸如高兴、悲伤或愤怒的情感。第二阶情感用于情感表现的行为，诸如产生面部表情或产LED的相应光模式。

如图12所示，内部状态的这些改变，通过学习存储器(相关存储器)140用于学习的时序。这意味着当内部状态发生重大改变时进行学习。将内部状态和情感状态输入到行为产生单元的动机产生器用作各行为的诱因刺激。

(3-7)未知刺激的感知

在现实世界中机器人装置1的开发中，感觉‘识别’是一个严重的任务。具体而言，在现实环境下的实时识别，它提出一个关键问题，即，随各种因素变化的输入应视为是与已经学习的信息相同，还是应判断为是新的刺激。

近来，统计或概率模式分类的技术在识别领域已取得显著结果。这是将在特征空间中分布的输入抽样处理为最小化风险函数并找出它的参数的统计问题的识别技巧。在稍后说明的，当前是语音识别的主流的Hidden-Markov-Model(HMM)，是也属于该范畴的的识别技术。HMM也是图像识别的代表性识别技术。

在本系统中，使用该统计模式识别的技术，检查给定的输入是否是未知对象或已知对象。

在统计模式识别中，给出给定对象是否是它的原型的概率或可能性，并用于辨别对象是未知的或已知的刺激。而且，如果在给定传感器通道的特征空间中的距离较小以致通过该单独的通道决定是困难的，则可以用另一个通道观察显著差异，使得能够调节原来空间中的辨别参数。

(3-8)存储感觉的学习存储器(与情感相关的相关存储器)

学习存储器(相关存储器)用于进行伴随由作为诱因的各感知通道的输出引起的内部状态改变的学习。在此，学习意味着对与引起内部状态改变的对象，即影响内部状态的对象相结合作为诱因的内部状态变化的存储。

应注意内部状态变化是根据，例如，传感器信号分析中能够实际地测定的量，比如在关节中消耗的电流，以及根据如在(3-5)内部状态和情感中的改变(内部变量和情感)中所述的伪测定的量(对吃虚拟食物的操作的检测)产生的。在关节中消耗的电流由运动的次数确定，并且代表，例如，疲劳因子。

和相关性一样，根据从感知通道发送的原型数目和对所述原型合适的概率学习同时发生的事件之间的相似性。在这些事件当中，有所谓的基于物理的符号，如通过行为产生发送的对象名。这些符号也通过学习获取。

同时，作为诱因的内部状态变化和对对象采取的行为也相关地进行存储。结果是对由对对象采取什么行为产生内部状态的什么变化的存储。这样的学习代表基于情感的符号的获取。

应注意，情感是内部状态的直接改变，因此称为第一阶情感。但是，因为第一阶情感的改变可以引起第二阶情感，所以该情感是基于，例如，恐惧的符号。

(3-9)子系统和行为

根据图10说明了的一组多个可分类的行为的子系统115₁至115_n控制行为。子系统115₁至115_n是分级结构和树状结构，其最上层表明是实际的子系统。

在上述生态学研究的参考资料6中，即Arkin等人的报告中，列出精明(canny)行为必须和足够的子系统。在参考资料6中报告的技术的特征是，将摄取行为(研究性的)定义为吃的行为的子系统。例如，摄取行为的子系统将食物定义为吃的行为。这理想地使得能够产生将作为内部状态的剩余电池容量保持在某个范围内的行为，并且产生生成寻找充电地点的行为的动机的行为，即产生充电或自动充电的愿望。

在本系统中，本概念作为信息获取的一个步骤引入，并且提供对应于‘新颖信息的学习量’的行为作为内部状态的一项，同时也定义随比如时间因素降低的内部状态的动态范围。在内部状态的该动态中，产生对应于‘学习量’的行为，象电池的情况那样。例如，机器人装置1以使‘学习量’保持在一定范围内的方式动作，并且如果‘学习量’耗尽，则寻找获取新颖信息的未知对象。而且，当未知对象作为外部刺激存在时，机器人装置1接近它并通过实施：‘这是什么？’的询问行为指向它。另外，机器人装置1通过相关存储器产生学习操作者说出的名字的行为。同时，信息量是相应于正在学习的对象的特征确定的或是随时间的逝去降低的改变量。

而且，当学习了对象的名字时，能够定义获取所述对象的名字对内部状态具有的意义的行为。这可以通过测试对象的某个行为和在内部状态已改变时，通过进行行为和内部状态变化之间的相关学习而实现。

(4)对实际机器人装置的应用(实施)

(4-1)四腿机器人装置的结构(增强四腿机器人平台)

现在说明其上安装上述系统的四腿机器人装置1。图13说明了具有作为组成元件的机器人装置1的网络系统的例子。

在此网络系统中，机器人装置1借助于TCP/IP(发送控制/因特网协议)使用无线LAN卡161连接到网络。

机器人装置1包括：CPU，其特性为主操作处理系统(MOPS)R4XXX约为100兆指令/秒(MIPS)；以及16兆字节的主存储器。该机器人装置1包括作为输出的执行原始行为(基本姿势转换、寻找对象、跟踪对象、接近对象、踢对象、吃对象等)的软件；以及作为输入的具有一串发音标记的语音对象。机器人装置1还存储着用于使用相当于机器人眼睛的LED做出几个表达的命令。

在该机器人装置1中，已经构造上述系统，同时机器人装置1实现了作为自主行为的一部分的信息获取行为。

借助于机器人装置1连接的网络系统的优点，与在机器人装置1上执行的相似的操作能够在工作站163上进行。以下面的方式进行在工作站163上的处理过程。

机器人装置1捕获输入图像信号，并通过无线局域网LAN用无线LAN卡161将所述图像发送到访问点162。将所发送图像经以太网从访问点162发送到工作站163。

将在机器人装置1上各关节角的检测结构和传感器检测信息，如接触传感器或加速度传感器获得的信息，发送到工作站，正像从机器人装置1向工作站163发送图像一样。如果处理是由工作站163进行，则语音由工作站163提供的话筒输入，而不使用机器人装置1的话筒。

在工作站163上，使用上述的输入信号如图像，执行上述的感知、各内部变量的评估，行为子系统或动作的选择。这些功能可以通过在工作站上设计OPEN-R对象实现，如同在机器人装置1中一样，通过，例如，安装在Linux操作系统上的SONY公司制造的OPEN-R并通过自由互连网络上对象而实现。例如，各操作当前正根据混合在一起的Matlab程序和在Linux操作系统上的OPEN-R对象进行。

(4-2)实现的功能和试验结果

通过应用本发明，将机器人装置1设计为通过作为自主行为的一部分的共同注意，最终实现信息获取行为或情感确认行为。具体而言，如图14所示，机器人装置1用共同注意(步骤S4)通过自主行为(步骤S1)、对象输入(步骤S2)和行为选择(步骤S3)，最终实现信息获取行为和信息确认行为。机器人装置1将这些阶段作为自主行为的一部分进行处理。

(4-2-1)感知部分

参见图10，在机器人装置1中提供感知部分111。具体而言，如图12所示，感知部分121包括：用于理解图像的颜色感知部分122和形状感知部分123，接触感知部分(接触部分)124，以及用于理解声音的声音感知部分125。

具体而言，颜色感知部分122是实现从对象信息自动颜色分段的部分，如下面说明的那样；形状感知部分12是根据图像信息分析对象形状的部分；以及声音感知部分125是与从话筒输入的语音相应的语音识别的部分。下面说明这些感知部分进行的处理。

接触感知部分124(接触部分)通过所谓的肌肤球传感器的信号与对象接触，所述传感器为在机器人装置1的足底上提供的所谓肌肤球。

(4-2-1-1)自动颜色分段

首先，基于输入感知刺激进行使用颜色的颜色分段。该颜色分段使得能够刻划出任意单一颜色的多个对象。另外，在颜色分段中，使用通过在没有教师下学习的分群算法进行的颜色分段。

图15A和15B分别说明了人工绘制的对象及其颜色分段结果。图16A和16B分别说明了包括人的手和面部的自然图像及其颜色分段结果。

应注意输入图像在从较窄视角(5341度)的相机输入到系统时，已经通过了低通滤光器，从而减小到8860像素。为将该因素考虑在内，逐像素地独立进行颜色分段。通过这样做，基本能够实时获得图15B和16B说明了的良好结果。

通常在RGB空间或规范化RGB空间中进行颜色分段。因为相机信号是Y、Cr和Cb格式的，所以，将(Nr，Nb)的二维空间＝(atan(Cr/Y)，atan(Cb/Y))用作颜色空间。考虑到向RGB空间映射时执行的计算量及量化误差，这样做可以达到极有效的处理。

同时，该颜色分段用作形状分析的预处理。

下面是上述颜色分段中分群算法的处理步骤(i)至(vi)的例子。

在步骤(i)，均匀地排列适当数目的原型。

在步骤(ii)，向所有像素提供最接近的原型的级层(class levels to the closestprototype)用下面公式(3)作为距离。

d＝√(d_hue/σ_hue)²+(d_sat/σ_sat)²

…(3)

在上述公式中，hue和sat分别表示，如在从适当的取样图像的分布的起点可以看到的，如图17所示。一般来说，Hue＜sat。即，可以将上述距离认为是在色调方向中的加权误差。

在步骤(iii)，如果属于原型的像素数目较小，则改变原型。

在步骤(iv)，将原型移动到具有相同类标号(class label)的平均位置。

在步骤(v)，如果两个或更多原型的距离小于一定距离，则将这些原型一起组合到一个原型。

在步骤(vi)，如果修改原型位置的次数不频繁，或已到达适当值，则终止操作。如果为相反情况，则处理过程回到上述步骤(ii)，重新开始处理。

图18A和18B说明了输入图像的分群状态。图18A和18B说明了一种分析以前存储的皮肤颜色区域(area)以检测指出的方向以及剥离出(strip out)延长线上的对象的情况。在随后将说明的共同注意中使用该信息。

(4-2-1-2)形状分析

用相对大小和旋转具有不变性的Fourier描述符(descriptor)执行形状分析。在该形状分析中，Fourier描述符空间(第64维)中的L2范数(norm)用于分类。通过FD空间表示输入对象，并且，用到最接近的原型的距离，确定所述原型是否是新的原型。图19说明了通过颜色分段获得的对象形状分析的结果。

(4-2-1-3)语音识别

作为语言识别，使用利用HMM的连续语音识别。该技术可以通过在上述参考资料5中提出的技术示范地说明。

参见图20，为该系统提供语音输入单元171、具有多个HMM的HMM寄存器172，输入未知语言的HMM173以及比较器174。

HMM寄存器172的HMM是研究过日语音素并在开始时将需要的字记录其中的HMM。在HMM寄存器172的HMM中，包括后来获取的和学到的字。记录或获取的字的例子包括名词和动词。在HMM寄存器172的HMM中将输入的音素序列作为置信度的度数评估。

输入未知语言的HMM173是获取未知字的HMM。如图21所示，该输入未知语言的HMM173具有陈述并连接到所有音素状态的所有音素模型。如图21所示，如果做出语音输入‘bouruu’，则输入未知语言的HMM173将它识别为‘booru’。

由已经记录或获取字的HMM和输入未知语言的HMM173评估输入音素序列。此时，使用验证值，在比较器174中评估显示最大匹配的在距离HMM的距离。如果验证值大于预定值，将所述音素序列作为新的音素系列重新标记，所述新音素序列作为HMM寄存器172的HMM被记录。

通过例子说明HMM寄存器172仅包括作为HMM的两个记录的字‘tomare(stop)’和‘kere(kick)’的情况。图22说明了使用该系统的结果。

图22说明了在右侧记录的字的输入信号的验证值。同时，验证值越小，置信度越高。

例如，系统估计语音‘tomare’是音素序列‘tomare’的输入，此时验证值是0.136。

另一方面，对于在从图22的顶部第三行中的未知字‘booru(ball)’，与其最佳匹配的模型是‘tomare’，此时验证值极高，等于4.835。从而，分配并记录了一个新的符号‘未知(unknown)-1’。因此，对于下一个语音输入，即，从图22的顶部第四行上示出的语音输入‘booru(ball)’，未知-1的HMM是最靠近的，验证值是小值0.41，从而未知-1正确地获取到‘booru(ball)’。

而且，因为HMM能够识别连续的语音，故对于图22中从顶部起的第七个语音，紧接着在先前获取的标记未知至1，能够识别符号‘kere’。

在这种语音识别系统中，如果获取到名词‘booru’，则机器人装置1能够通过命令‘booru kere(kick a ball)’踢球。

(4-2-1-4)感觉部分(情感部分)

图23说明了内部状态(各内部变量)和与其相关的行为(各子系统)之间的关系。

参照摄取行为的心理学模型，该例建议了为维持通常内部状态的假想的体内营养积累缓冲器和排泄缓冲器，并将积累量定义为内部变量。内部变量的例子包括能量至2(虚拟食物)和虚拟排泄物。

如图24所示，通过将假想胃(体内营养积累缓冲器)和假想膀胱或肠(排泄物缓冲器)相关，将假想胃中的积累量的降低设计成导致例如假想膀胱中的积累量的增加。

如图23所示，内部变量具有根据某些因素增加或降低的动态。动机产生器的基本工作是提高相应行为组(子系统)的动机以将内部变量保持在允许的范围内的。

安装虚拟食物或水主要是考虑为改善机器人装置1的娱乐性。另外，存在与电能或疲劳其固有语义等同的内部变量。这些也构成图23所示的随增加或减少因素变化的动态。将相关子系统的动机产生器设计成激励行为以将这些动态保持在固定值。安装了所谓充电装置作为自主行为的机器人装置1的这种自动充电行为是可以期待的。然而，如果没有为机器人装置1提供这样的充电装置，则机器人装置1执行请求充电的行为，并且让某人(人类)将它的电池充电。

对于相关存储器获取的信息准备了相似的内部状态变量。用相关存储器，计算和发送获取的内部信息量。在这种情况下，除了忘却的情况，相关存储器的内部信息量仅增加。然而，忘却不必安装。通过在

适当的时间段结合各相应的信息量作为增加的因素、构成暂时减少因素的简单动态、以形成信息获取行为子系统的动机。

(4-2-1-5)学习存储器部分(相关存储器部分)

图25说明了在信息获取中机器人装置1使用的相关存储器140的具体结构。如图25所示，该相关存储器140包括短期存储器181、长期存储器182以及注意对象存储器183。具体地提供该相关存储器140，如图12所示。

通过上述结构，相关存储器140作为具有某个颜色和某个形状的名字的实体的存储单元以及作为该实体对机器人装置1的内部状态具有的意义的存储单元进行工作。

短期存储器(STM)181存储与ID号一起提供的图像中的对象信息。此时的对象信息是颜色原型数(CP-I)和形状原型数(SP-j)的信息。短期存储器181也被馈送从语音处理输入的一个语音的字序列。

图像数据被馈送颜色原型数(CP-I)和形状原型数(SP-j)，以获取对象名字和对内部状态的影响(delta-I)。如图12所示，这些组合在一起并发送到行为产生器150。如果未获取对象名(HMM-k)或对内部状态的影响(delta-I)，则将这些作为零信息留下和发送。将语音数据直接发送到行为产生器150。

另一方面，在行动选择单元116选择行为(Action)和对象(Obj-ID)。该信息从下面说明的行为状态机向相关存储器140发送。与对象(Obj-ID)相应的信息从短期存储器181存储到注意对象存储器183中。同时，将短期存储器181中存储的说出的字序列直接发送到注意对象存储器183。

用作为诱因的内部变量的变化设置从注意对象存储器183到作为固有相关存储器182工作的长期存储器182的学习的时序。因此，当在对象上执行动作期间改变了内部变量时，将内部变量的变化值与对象相关地进行存储。

(4-2-1-6)行为产生部分

现在说明作为规定机器人装置1行为的子系统的信息获取行为子系统151_n。如图26所示，将信息获取行为子系统子系统151_n构造为分级的结构。

在行为子系统层中，有一个软件对象。

在上述第一阶内部存储量偏离适当范围时，构造所述软件对象的动机产生器101用于输出动机值。

MC_val＝1-tanh(Int_val)+ε

…(4)

另一方面，释放机构102检查从相关存储器140发送的对象。释放机构102考虑与人指向相关的当前未知的和感知(释放)因素。在这些释放因素当中有例如，对象(Object)的对象名(Obj：Name)、颜色名(Ccolor：Name)、形状名(Shape：Name)以及对对象内部变量改变的影响(Act：Delta-1)。

除非就作为释放因素获得的东西做了信息定义，释放机构102产生释放信号。与对象相关地确定释放机构102输出的释放信号的值作为关于一个对象的未定义信息的积累值。例如，只有对象名(Obj：Name)和对对象内部变量的影响(Act：Delta-1)可以成为对象。

释放机构102评估存在对象的释放信号、以选择具有最大值的对象、从而输出指定如此选定的对象(Obj)的ID和释放信号。

例如，如果将苹果指定为对象，机器人装置1使用上述形状或颜色分析，分析它的形状或颜色以评估颜色名(Color：Name)和形状名(Shape：Name)作为释放因素。如果所述苹果被预先记录，则获取高的评估值，从而所述对象被识别是苹果。输出将苹果指定为选定对象的ID和这时的释放信号。如果所述苹果没有预先记录，则将未定义的苹果的数积累求和，并与作为未知对象的苹果相关。

释放机构102设置为产生与人指向相应的更大的释放信号。在做出指向的对象检测时，不管对象是未知对象或已知对象，释放机构102都产生释放信号。潜在的涵义是，显然指向是人发出的信息获取或确认请求，因此，如愿地引发信息获取行而不明显地依赖于内部状态，或如愿地执行对于先前已知对象的确认行为。

在信息获取行为子系统151_n中，作为行为评估值(行为值)，获得该释放信号和动机值的乘积。以相似的方式，每个其它规定，例如吃的子系统，使用输入到信息获取行为子系统151_n的该释放信号和动机值以获得行为评估值(行为值)。

动作选择单元116将各子系统的行为评估值(行为值)进行比较、以选择具有最大行为值的子系统作为要执行的子系统。这里说明信息获取行为子系统151_n中的行为值保持为最大的情况。

同时，选定子系统需要连续一段时间被选中。例如，通过相互抑制或疲劳因子使其成为可能。

在选中信息获取行为子系统151_n时，如图26所示，处理过程转移到称为模式MD的层。在模式MD中，以相似的方式进行信息选择。具体而言，在模式(Mode)中，区分上层的选择是通过指向指出的对象，或是机器人装置本身选择的对象，即，未知的对象。如果在该模式(Mode)中做出该区别，则在被称为模块MJ的下层中做出关于具体行为的评估。根据该选择，在动作选择单元116中选择指定的行为。

以这种方式，如果对象是已知的对象，则机器人装置1执行确认行为。如果对象是未知对象，则机器人装置1执行获取行为。信息获取行为可以如下执行，即，如果获取了关于对象名(Obj：Name)和对内部变量的改变的影响(Act：Delta-Int)的两类信息，则可以检查在子系统上给出最大评估值的对象以选择一个信息。

至于在执行确认行为的情况中的处理过程，向与确认行为相关的状态机发送命令，并执行所述名字的确认行为。在机器人装置1执行视觉跟踪时，机器人装置1接近人指向的对象，并将其手指，即，前肢指向对象，表现与‘这是XX，不是吗？’相应的行为。在陈述规定行为的行为序列的状态机的控制下实现这样的行为。

至于对象名(Obj：Name)的获取行为的处理过程，将其输出发送到负责获取相应对象名(Obj：Name)的状态机。

在对象名(Obj：Name)获取行为中，机器人装置在执行视觉跟踪时接近对象，并指向它以表现出与‘它的名字是什么？’相应的行为。而且，此时用距离对象的距离做出适当的行为控制。该行为由指示规定所述行为的行为序列的状态机实现。

紧接着‘它的名字是什么’，可以使用重复地确认对于从语音识别单元输出有效的任何输入音素序列的状态机，。

另一方面，如果选择了对内部变量的改变的影响(Acr：Delta-Int)的获取行为，即，根据内部变量改变获取未知对象的获取行为，则与对象相关地随机选择数个行为，并予以执行。此时产生的对内部变量的的变化的影响(Acr：Delta-Int)，由相关存储器评估。因为这将对象与内部状态相关联，所以将对新对象内部变量改变的影响实现为意义获取。

例如，如果内部状态在看见苹果时改变到‘愉快’，则内部状态改变与作为对象的苹果相关联。随后，机器人装置1将苹果解释为‘愉快’。这意味着，苹果的意义获取在机器人装置1上得以实现。

同时，如上所述，将本发明应用于机器人装置1，能够通过例如，软件实现。

工业可应用性

使用本发明，如上所述，机器人装置1能够将信息获取行为实现为自主行为的一部分，并将共同注意作为最佳行为执行。另外，机器人装置在信息获取行为中能够获取未知对象的意义，作为内部状态改变。这使得机器人装置更逼真。

Claims

1. 一种自主行动的机器人装置，包括：

传感器，用于检测对象；

感知评估部分，用于评估从所述传感器输入的输入信号；

内部状态管理部分，被馈送所述感知评估部分的评估结果以基于所述结果管理虚拟的内部状态；以及

存储器部件，用于存储所述对象和基于所述对象的所述内部状态的变化之间的关系；

将检测到的基于所述对象的所述内部状态的变化和所述对象相关地存储在所述存储器部件中，

还包括：

行为产生部分；

所述内部状态管理部分监管所述内部状态以保持所述内部状态的恒定，当所述恒定被扰乱时，所述内部状态管理部分向所述行为产生部分发送第一信号；

所述行为产生部分基于所述第一信号产生保持所述恒定的行为。

2. 如权利要求1所述的机器人装置，还包括：

情感部分，用于基于所述内部状态的变化产生虚拟的情感；

将所述对象和对象的与情感有关的信息存储在所述存储器部件中。

3. 如权利要求1所述的机器人装置，其中将所述内部状态的变化和保持所述恒定的行为相关地存储在所述存储器部件中。

4. 如权利要求1所述的机器人装置，其中所述内部状态管理部分具有信息获取愿望变量，并基于所述信息获取愿望变量的值向所述行为产生部分发送第二信号，

所述行为产生部分基于所述第二信号产生信息获取行为。

5. 一种自主行动机器人装置的行为控制方法，包括：

感知评估步骤，评估从检测对象的传感器输入的信号；

内部状态管理步骤，用于管理基于所述感知评估步骤中的评估结果改变的虚拟的内部状态；以及

存储步骤，存储所述对象和基于所述对象的所述内部状态的变化之间的关系；

将检测到的基于对象的内部状态的变化和所述对象相关地存储在所述存储器部件中，

还包括：

行为产生步骤，在所述内部状态管理步骤中所述内部状态的恒定被扰乱时，使所述机器人基于所述内部管理步骤中发出的第一信号，产生保持所述内部状态的恒定的行为。