CN1372506A - 机器人设备行为决定方法和机器人设备 - Google Patents

机器人设备行为决定方法和机器人设备 Download PDF

Info

Publication number
CN1372506A
CN1372506A CN01801218A CN01801218A CN1372506A CN 1372506 A CN1372506 A CN 1372506A CN 01801218 A CN01801218 A CN 01801218A CN 01801218 A CN01801218 A CN 01801218A CN 1372506 A CN1372506 A CN 1372506A
Authority
CN
China
Prior art keywords
behavior
tendency
incident
reason factor
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN01801218A
Other languages
English (en)
Inventor
高木刚
藤田雅博
长谷川里香
佐部浩太郎
克雷格·R·阿金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1372506A publication Critical patent/CN1372506A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Robotics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)
  • Toys (AREA)

Abstract

行动确定系统(70)包括感知信息获取部分(90)和动机信息获取部分(81),用于获取理由因素,该理由因素是对该行动具有影响的信息,即利用CCD摄像机(20)、距离传感器(22)或麦克风(23)收集的外部或内部信息,并用于根据该理由因素获取受该理由因素影响的行动的发生倾向;行动操作部分(82),用于根据相应于由感知信息获取部分(90)和动机信息获取部分(81)获取的两个或多个行动的相同组中的发生倾向的比较结果,选择一个行动;和输出语意转换器模块(68),用于根据由行动操作部分(82)选择的行动控制操作部分,使得可以采取所选择的行动。由于强化了生命的感觉,可以提供象动物一样行动的机器人。

Description

机器人设备行为决定方法和机器人设备
                         技术领域
本发明一般地涉及机器人设备行为决定方法和机器人设备,更具体地说,涉及自主机器人设备和决定机器人设备的行为的方法。
                         背景技术
最近,已经出现了形状象动物的机器人设备,即所谓的宠物机器人。这种机器人中的每一个做成象普通家庭中豢养的狗或猫的形状,并响应于诸如通过用户的“击打”或“轻拍”而自主举止,并适应它周围的环境。例如,它的自主行为包括“犬吠”、“猫叫”、“睡觉”等与实际的动物相似的行为。
如果机器人设备能够更象实际的宠物一样举止,它就会更象活物或动物,并且用户就会对这样的机器人设备感觉更加亲近和满意。机器人设备会比以前更能取悦于用户。
为了使机器人设备象实际的动物来举止,已经提出来使用决定机器人设备行为的行为学方法。
例如,作为用行为学方法进行行为研究的结果,由Sibly、Mcfarland等人(行为研究者)在1975年的文献中公开了动机空间表现的状态。另外,Ludlow在1976年公开了有竞争力的行为模型。这些结果在“Old Tricks,NewDogs:Ethology and Interactive Creature”(1997年4月)中由BruceMitchell Blumberg(Bruce of Arts,Amherst College,1977;Master ofSciences,Sloan School of Management,MIT,1981)进行了争论。BruceMitchell Blumberg将上述理论应用于用3D CG(计算机图形)创建的狗身上并证明上述理论是行为选择机制。
应该提醒的是,Bruce Mitchell Blumberg使用CG验证了动物的行为选择机制,而不是通过将该机制应用到存在于实际空间中的任何机器人设备。
对于显示于计算机系统的显示屏幕上的计算机图形创建的虚拟动物,有可能在行为的选择和幻象(apparition)之间进行直接的联结(行为选择=行为幻象),并通过选择将行为反馈给它的动机。可是,对于实际的机器人设备,因为下列的原因,行为的选择和幻象不能总是直接地相互联结(即行为选择不总是等于行为幻象)。
在不考虑诸如折返行为的计划行为而招致的行为可能取消所选择的行为。
没有传感器的输入,就不会知道行为是否已经实际地完成。
下面将给出可以应用上述原因的例子。即甚至在当机器人已经到达了它可以踢到球的距离时选择了“用脚踢球”的动作,并输出了行为命令(给机器人)的情况下,机器人设备在例如如果球躺在斜坡上的某些情况下也可能踢不到球。当已经识别机器人设备已经触摸到球并已经向前移动球时,也仅能识别“用脚踢球”动作的“能够顺利踢球”的结果。即对于这个识别,有必要根据从包括在机器人设备中的传感器馈送的信息评价行为并根据评价的结果改变机器人设备的内部状态。
从以上看出,Bruce Mitchell Blumberg提出的技术不足以决定存在于实际空间中的机器人设备的行为。
                         发明的公开
因此,本发明的目的在于:通过提供具有与活物或动物经改进的相似性的机器人设备和决定机器人设备的行为的方法,克服现有技术的上述缺陷。
通过提供其运动部件受到控制以使机器人设备表示性地举止的机器人设备可以达到上述目的,所述设备包括:
用于检测外部或内部信息的装置;
用于从信息检测装置检测的外部或内部信息获取影响行为的理由因素(cause factor)的装置;
用于基于理由因素获取装置获取的理由因素,获取理由因素影响行为的事件倾向(occurrence tendency)的装置;
用于在由事件倾向获取装置获取的、属于相同组的两个或更多行为的事件倾向之间进行比较的装置;
用于根据事件倾向比较装置进行的事件倾向比较的结果选择行为之一的装置;和
用于根据行为选择装置选择的行为控制运动部件以使机器人设备表达所选择的行为的装置;
由行为选择装置选择的行为的事件倾向是变化的,以适应由于行为的实际发生可变的理由因素。
在如上构建的机器人设备中,由信息检测装置检测外部或内部信息,由理由因素获取装置从信息检测装置检测的外部或内部信息中获取影响行为的理由因素,并由事件倾向获取装置基于理由因素获取装置获取的理由因素获取理由因素影响行为的事件倾向。
事件倾向比较装置在由事件倾向比较装置获取的、属于相同组的两个或多个行为的事件倾向之间进行比较,行为选择装置基于事件倾向比较装置进行的事件倾向比较结果,选择行为之一,运动部件控制装置基于行为选择装置选择的行为控制运动部件,以使机器人设备表达所选择的行为。由行为选择装置所选择的行为的事件倾向被变化,以适应由于行为的实际发生而导致的可变的理由因素。
上述机器人设备通过在理由因素的影响下决定的事件倾向之间的比较选择行为之一,并按照行为学方法表达行为。
另外,通过提供用于决定其运动部件受到控制以使机器人设备表示性地举止的机器人设备的行为的方法可以达到上述目的,所述方法包括:
由信息检测装置检测外部或内部信息;
从信息检测步骤检测的外部或内部信息中获取影响行为的理由因素;
基于在理由因素获取步骤获取的理由因素获取理由因素影响行为的事件倾向;
在由事件倾向获取步骤获取的、属于相同组的两个或多个行为的事件倾向之间进行比较;
基于在事件倾向比较步骤进行的事件倾向比较结果,选择行为之一;和
基于在行为选择步骤选择的行为控制运动部件,以使机器人设备表达所选择的行为;
在行为选择步骤所选择的行为的事件倾向适应于理由因素而变化,该理由因素由于行为的实际发生而变化。
在上述机器人设备行为决定方法中,在信息检测步骤检测外部或内部信息,在理由因素获取步骤,从在信息检测步骤检测的外部或内部信息中,获取影响行为的理由因素,和在事件倾向获取步骤,基于在理由因素获取步骤获取的理由因素,获取理由因素影响行为的事件倾向。
在事件倾向比较步骤,在由事件倾向获取步骤获取的、属于相同组的两个或多个行为的事件倾向之间进行比较,在行为选择步骤,基于在事件倾向比较步骤进行的事件倾向比较结果,选择行为之一,和在运动部件控制步骤,基于在行为选择步骤选择的行为控制运动部件,以使机器人设备表达所选择的行为。在行为选择步骤所选择的行为的事件倾向被变化,以适应由于行为的实际发生而导致的可变的理由因素。
上述机器人设备行为检测方法通过在理由因素的影响下决定的事件倾向之间的比较选择行为之一,并按照行为学方法表达行为。
                     附图简述
图1是根据本发明的机器人设备的透视图。
图2是图1的机器人设备的电路结构的方框图。
图3是图1的机器人设备的软件结构的方框图。
图4是在图1的机器人设备中的软件结构的中间层的方框图。
图5是机器人设备行为决定系统的方框图。
图6A和6B说明了使用行为学方法决定其行为的机器人设备。
图7显示了构建在行为选择器中的行为选择系统,其中多个行为形成了分层结构。
图8说明了包括在第一半行为决定系统中的要素的功能。
图9说明了包括在第二半行为决定系统中的要素的功能。
图10是说明根据感觉和动机使用行为学方法决定行为的方框图。
图11A至11C分别显示了其中映射了理由因素的理由因素状态空间的特性曲线,和其中映射了由理由因素状态空间限定的行为的事件倾向的事件倾向空间的特性曲线。
图12说明了理由因素状态空间。
图13A和13B分别显示了说明行为学方法的数学事件的摄取行为和饮水行为的特性曲线。
图14显示了事件倾向空间的特性曲线,其中映射了用于说明行为学方法的数学事件的摄取倾向和饮水倾向。
图15A和15B显示了映射在理由因素状态空间的、分别在摄取行为选择区域和在饮水行为选择区域的特性曲线。
图16说明了行为判优(独有控制)。
图17显示了说明由基于行为学方法的数学表达式实现的行为选择的事件倾向空间的特性曲线。
图18显示了说明机器人设备的实际行为选择的事件倾向空间的特性曲线。
图19是说明在包括于行为选择单元中的感知信息获取单元、动机信息获取单元和行为信息选择器之间的信息流的方框图。
图20说明了在完成行为判优(独有控制)之前的事件倾向的计算。
图21说明了在行为判优(独有控制)之下的事件倾向的计算。
图22显示了事件倾向计算中的操作的流程图。
图23是感知信息获取单元的方框图。
图24显示了感知信息获取单元中的操作流程图。
图25说明了动机信息获取单元。
图26A和26B说明了根据本发明的机器人设备的另一个实施例,其中在分层结构行为选择系统的较低层中的行为选择不受任何动机的影响。
图27说明了根据本发明的机器人设备的第二实施例中的行为选择处理器和动作发生器的功能。
图28是机器人设备的第二实施例中的行为决定系统的方框图。
图29是动作发生器的方框图。
图30是多个作为目标的行为选择单元的方框图。
图31详细显示了子系统层、模式层和模块层中的每个行为组的第一半部分。
图32详细显示了子系统层、模式层和模块层中的每个行为组的第二半部分。
                        实现本发明的最佳方式
下面将参照附图详细描述实现本发明的最佳方式。最佳方式涉及根据外部和内部因素改变其本能和情感(内部状态)的机器人设备,并且该机器人设备根据外部和内部因素的改变进行适应性地举止。
首先描述机器人设备的构造,然后将详细描述本发明对机器人设备的应用。
(1)根据本发明的机器人设备的构造
如图1所示,机器人设备(以下简称“机器人”)总地用标号1表示。它是做成狗的外表的宠物机器人。如图所示,机器人1包括身体单元2,分别连接于身体单元2的右前、左前和右后、左后的腿部单元3A至3D,分别连接于身体单元2的前部和后部的头部单元4和尾部单元5。
如图2所示,身体单元2包括CPU(中央处理单元)10、DRAM(动态随机存取存储器)11、闪速ROM(只读存储器)12、PC(个人计算机)卡接口电路13和信号处理电路14,都通过内部总线15互相连接以形成控制器16,另外包括向机器人1供电的电池17。另外,身体单元2包括角速度传感器18和加速度传感器19,以检测机器人1的方向和加速度,等等。
头部单元4包括分别位于各自位置的CCD(电荷偶合器件)摄像机20,以反映机器人1周围环境的图像;触摸传感器21,以检测作为诸如“轻拍”或“击打”的物理动作由用户所施加给机器人1的压力;距离传感器22,以测量机器人1前面的物体的距离;麦克风23,以收集外部的声音;扬声器24,以输出诸如犬吠的声音;作为机器人1的“眼睛”的LED(发光二极管)(未示出)等等。
另外,传动器251、252、...和电位计261、262、...分别位于腿部单元3A至3D的关节处,腿部单元3A至3D与身体单元2之间的接合处,头部单元4和身体单元2之间的接合处,和尾巴5A与尾部单元5之间的接合处。用于每个关节和接合处的传动器和电位计的数目依赖于传动器和电位计的自由度。例如,传动器251、252、...中的每一个都使用伺服马达。当驱动伺服马达时,控制腿部单元3A至3D转换到目标姿态或动作。
角速度传感器18、加速度传感器19、触摸传感器21、距离传感器22、麦克风23、扬声器24、LED、传动器251、252、...和电位计261、262、...中的每一个都通过集线器271至27n中的对应的一个连接到控制器16的信号处理电路14,CCD摄像机20和电池17直接连到信号处理电路14。
信号处理电路14依次获取从上述传感器中的每一个馈送的数据(以下将简称为“传感器数据”)、图像数据和话音数据,并将它们中的每一个通过内部总线15存储在DRAM11中的位置。另外,信号处理电路14依次获取从电池17馈送的、指示电池17的剩余电势的数据,并将它们中的每一个存储在DRAM11中的位置。
CPU10将根据如此存储在DRAM11中的传感器数据、图像数据、话音数据和剩余电池电势数据,控制机器人1的行为。
实际上,在将电源初始地供应给机器人1后,CPU10经由PC卡接口电路13从设置在身体单元2中的PC卡插槽(未示出)中的存储器卡28或直接地从闪速ROM12读取控制程序,并将它存储在DRAM11中。
另外,CPU10根据从信号处理电路14如上述依次存储在DRAM11中的传感器数据、图像数据、话音数据、剩余电池电势数据,确定机器人1的内部状态、机器人1周围的环境,来自用户的指令或动作的存在。
另外,CPU10根据确定结果和存储在DRAM11中的控制程序决定下一个行为,并根据确定的结果为下一个行为驱动必要的传动器251、252、...,以使头部单元4摇头或点头,摆动尾部单元5的尾巴5A或驱动腿部单元3A至3D进行行走。
此时,如果有必要,CPU10产生话音数据,并将它作为话音信号经由信号处理电路14馈送给扬声器24,由此输出从话音信号、打开或关闭或闪烁LED所产生的语音或话音。
因此,机器人1适应于它内部的状态或周围环境,或来自用户的指令或动作自主地举止。
(2)控制程序的软件结构
上面机器人1的控制程序具有如图3所示的软件结构。如图所示,装置驱动器层30位于控制程序的最底层,并含有包括多个装置驱动器的装置驱动器程序组31。在这种情况下,每个装置驱动器是允许对CCD摄像机20(见图2)和用在计算机中的普通硬件诸如定时器进行直接访问的目标程序,并用来自适当硬件的中断工作。
如图3所示,机器人服务器目标程序32也位于装置驱动器层30的最底层。这个目标程序32包括,例如虚拟机器人33,该虚拟机器人33包括提供访问诸如上述各种传感器、传动器251、252、...等的硬件的接口的软件组;电源管理器34,包括管理电源交换等的软件组;装置驱动器管理器35,包括管理其它各种装置驱动器的软件组;和设计的机器人36,包括管理机器人1的机制的软件组。
还提供有含有目标管理器38和服务管理器39的管理器目标程序37。在这种情况下,目标管理器38是管理分别包括在机器人服务器目标程序32、中间件层40和应用层41中的软件组的每一个的启动和终止的软件组。服务管理器39是根据存储在存储器卡28(见图2)中的关联文件中所描述的关于各目标之间的关联的信息,管理各目标间的关联的软件组。
中间件层40位于机器人服务器目标程序32的上面,并包括提供诸如图像处理、话音处理等的机器人1的基本功能的软件组。应用层41位于中间件层40的上面,并包括根据包括在中间件层40中的每个软件组进行的处理的结果,决定机器人1的行为的软件组。
中间件层40和应用层41的软件结构详细示于图4中。
如图4所示,中间件层40包括识别系统60和输出系统69,识别系统60包括分别用于噪音检测、温度检测、亮度检测、比例检测、距离检测、姿态检测、触摸传感、运动检测和色彩检测的信号处理模块50至58,和输入语意转换器模块59;输出系统69包括输出语意转换器模块68和分别用于姿态管理、跟踪、运动再现、行走、翻转状态的恢复、LED点亮和话音再现。
识别系统60中的信号处理模块50至58获取通过机器人服务器目标程序32中的虚拟机器人33从DRAM11(见图2)读取的适当的传感器数据、图像数据和话音数据,按预定方式处理数据并将数据处理结果提供给输入语意转换器模块59。在这个例子中,虚拟机器人33发挥在预定的通信规则下传送或转换信号的作用。
根据从信号处理模块50至58馈送的数据处理结果,输入语意转换器模块59识别机器人1的内部状态和周围环境,例如“嘈杂”、“热”、“明亮”、“检测到球”、“检测到翻转”、“轻拍”、“击打”、“检测到音阶”、“检测到移动物体”或“检测到障碍物”,和来自用户的指令或动作,并将识别结果输出到应用层41(见图2)。注意,应用层41已经在其中建立了设计用于决定行为的行为决定系统,这将在后面详细描述。
另一方面,在输出系统69中,输出语意转换器模块68根据行为信息控制信号处理模块61至67中的每一个。即,输出语意转换器模块68响应于来自识别系统60的识别结果,并向信号处理模块61至67中的每一个输出适应于机器人1的内部状态和周围环境的控制信息,例如“嘈杂”、“热”、“明亮”、“检测到球”、“检测到翻转”、“轻拍”、“击打”、“检测到音阶”、“检测到移动物体”或“检测到障碍物”,和来自用户的指令或动作。
馈送到输出语意转换器模块68的行为信息包括诸如“前进”、“愉快”、“哭泣”或“追踪(a all)”。输出语意转换器模块68将这种行为命令馈送给信号处理模块61至67的每一个。馈送给输出语意转换器模块68的行为信息源自于是较高级信息处理系统的行为决定系统。行为决定系统构成了本发明的本质部分,并将在后面详细描述。
信号处理模块61至67的每一个根据来自输出语意转换器模块68的行为命令工作,以向虚拟机器人33输出控制每个装置的控制信号。更具体地,信号处理模块61至67根据接收的行为命令生成伺服命令、声音数据和/或驱动数据,并依次将它们经由机器人服务器目标程序32(见图3)中的虚拟机器人33和信号处理电路14(见图2),分别发送给传动器251、252、...(见图2)、扬声器24(见图2)和/或“眼睛的”LED。
用根据来自虚拟机器人33的信号(命令)受到控制的每个装置,机器人1按预定的方式举止。
接下来,描述根据来自输入语意转换器模块59的识别结果决定下一个行为(过渡动作或有意动作)并将关于如此决定的行为的信息输出到输出语意转换器模块68的行为决定系统。
(3)机器人行为决定系统的配置
机器人1通过如图5所示的行为决定系统70决定行为(在后面适当的地方简称为“行为”)。行为决定系统70根据来自输入语意转换器模块59的识别结果决定行为,并将关于该行为的信息输出到输出语意转换器模块68。如图5所示,行为决定系统70包括行为选择单元80,内部状态模型单元71和调制器72。
行为选择单元80从一组行为中选择期望的一个。更明确地,行为选择单元80根据来自输入语意转换器模块59的识别结果选择期望的行为。行为选择单元80包括例如感知信息获取单元90、动机信息获取单元81和选择行为的行为选择处理器82。
在行为决定系统70中,感知信息获取单元90和动机信息获取单元81获取是由用于检测外部或内部信息的诸如CCD摄像机20、距离传感器22、麦克风23等等的检测装置检测的外部或内部信息、并影响机器人行为的理由因素,并获取受由理由因素获取装置检测的理由因素影响的行为的事件倾向。行为决定系统70中的行为选择处理器82在由感知信息获取单元90和动机信息获取单元81获取的、属于相同组的两个或更多行为的事件倾向中进行比较,并根据如此进行的事件倾向比较的结果选择行为之一。另外,在行为决定系统70中,输出语意转换器模块68根据由行为选择处理器82选择的行为控制运动部件,以使机器人1表达所选择的行为。
然后,行为选择单元80利用行为选择处理器82,根据由感知信息获取单元90从识别结果获取的感知信息和由动机信息获取单元81从内部状态模型单元71馈送的内部状态信息获取的动机信息,来选择行为。后面将详细描述行为选择单元80。
另一方面,内部状态模型单元71具有适应于外部和内部因素改变机器人1的本能和情感(内部状态)的内部状态模型。这里使用的术语“外部因素”是指例如“击打”信息、“轻拍”信息、来自机器人1的用户的指令等。术语“内部因素”是指例如“电池电势已经降低”的信息、“身体温度已经升高”的信息等等。
更明确地,内部状态模型单元71根据从输入语意转换器模块59馈送的识别结果改变内部状态,并将内部状态信息输出到行为选择单元80和调制器72。
动机信息获取单元81根据后面将详细描述的状态获取动机信息。
另一方面,调制器72生成关于最终将由机器人1表达的行为的行为信息(行为命令)。更明确地,调制器72生成最终从行为选择单元80所选择的行为和从内部状态模型单元71馈送的内部状态信息表达的行为信息,并将数据输出给输出语意转换器模型68。
调制器72可以使机器人1表达结合了由行为选择单元80所决定(选择)的行为和从内部状态模型单元71馈送的、与该行为结合的本能和情感状态的行为。即,行为选择单元80根据识别结果等选择“吃苹果”的行为作为下一个行为,而内部状态模型单元71根据识别结果获取例如“愤怒”作为机器人1的当前内部状态。然后,调制器72根据该信息将内部状态“愤怒”与行为“吃苹果”结合起来,生成“愤怒地吃苹果”的行为信息,并将该信息输出到输出语意转换器模块68。输出语意转换器模块68将用信号通知信号处理模块61至67的每一个,以控制将要轮流控制每个运动部件的每个装置,由此,使机器人1表达下一个行为(故意行为),即愤怒地吃苹果。
另外,当决定(选择)机器人1的行为时,使用并且也与所决定的行为结合使用指示在内部状态模型单元71中生成的本能和情感状态的内部状态信息。
如上述,行为决定系统70根据识别的结果决定行为。下面将更详细地描述行为决定系统70的每个构件。
(3-1)内部状态模型单元的结构
内部状态模型单元71适应于外部和内部因素改变诸如本能和情感的内部状态。当决定机器人1的行为时,使用从内部状态模型单元71馈送的本能和情感状态,并且还与所决定的行为结合。
内部状态模型单元71包括一组与本能(欲望)和适应于外部和内部因素而变化的特点相关的要素。
更明确地,内部状态模型单元71包括一组总共27个指示内部状态的要素,其9个本能要素是“疲劳”、“温度”、“疼痛”、“饥饿”、“口渴”、“友爱”、“好奇”、“排泄”和“性爱”,18个情感要素是“快乐”、“悲伤”、“愤怒”、“惊奇”、“厌恶”、“恐惧”、“挫折”、“厌倦”、“困倦”、“合群”、“耐心”、“紧张”、“放松”、“警惕”、“内疚”、“困扰”、“忠诚”、“屈服”和“嫉妒”。
上面情感要素的每一个具有指示其强度的参数。内部状态模型单元71根据诸如从输入语意转换器模块59馈送的“击打”或“轻拍”的特定识别结果、过去的时间等,周期性地改变这些要素的每个的参数。
更具体地,情感要素使用预定算法从输入语意转换器模块59馈送的识别结果计算在某时情感的变化、在那时机器人1的行为和从最后一次更新过去的时间。然后,取情感变量为ΔE[t],情感的当前参数值为E[t],和指示对情感的灵敏度的系数为ke,内部状态模型单元71通过计算方程式(1)确定下一个周期中的情感的参数值为E[t+1],并用情感的当前参数值E[t]取代情感参数值E[t+1],以取代以前的情感参数值。
E[t+1]=E[t]+kexΔE[t]..................(1)
内部状态模型单元71类似地计算方程式(1)以更新诸如“快乐”的所有剩余情感的参数值。
注意,预定来自输出语意转换器模块68的信息和识别结果在多大程度上影响每个参数值的变量ΔE[t]。该预定是这样的,即“击打”的识别结果对“愤怒”情感的参数值的变量ΔE[t]具有很大的影响,而“轻拍”的识别结果对“愉快”情感的参数值的变量ΔE[t]具有很大的影响。
来自输出语意转换器模块68的信息是关于行为的反馈信息(行为完成信息)。即它是关于行为表达结果的信息。内部状态模型单元71将用这种信息改变情感,以及后面将详细描述的本能。
例如,“哭泣”行为将降低“愤怒”情感的级别。注意,行为的结果可以通过调制器72的输出(具有增加了感觉的行为)反馈。
另一方面,每个愿望(本能)具有指示其程度的参数。内部状态模型单元71根据从输入语意转换器模块59馈送的识别结果、经过的时间和来自输出语意转换器68的信息周期性地更新包括在本能要素中的每个本能要素的参数值。
更具体地,内部状态模型单元71使用预定算法,在从识别结果的某一时间、经过的时间和来自输出语意转换器模块68的信息,计算每个本能(愿望)“疲劳”、“友好”、“好奇”、“性爱”和“排泄”的变量。然后,取愿望变量为ΔI[k],愿望的当前参数值为I[k],和指示对愿望的灵敏度的系数为Kj,内部状态模型单元71通过在给定周期计算方程式(2)确定下一个周期中的愿望的参数值为I[k+1],并用愿望的当前参数值I[k]取代愿望参数值I[t+1],以取代以前的愿望参数值。
I[k+1]=I[k]+kixΔI[k].....................(2)
内部状态模型单元71还用相同的方法计算上述方程式(2)以更新诸如“疲劳”的所有剩余本能(愿望)要素的参数值。
注意,预定来自输出语意转换器模块68的信息和识别结果在多大程度上影响每个愿望的参数值的变量ΔI[k]。该预定是这样的,例如来自输出语意转换器模块68的信息对“疲劳”状态的参数值的变量ΔI[k]将具有很大的影响。
另外,预定愿望的参数值可以按下列描述确定。
对于包括在本能要素中的“痛苦”要素,根据经由h输入语意转换器模块59从中间件层40的姿态检测信号处理模块55接收的不正常姿态的系数,已经采取的不正常姿态的次数被取做N,痛苦的程度取做K1,痛苦缓和的速度取做K2,并且使用下列方程式(3)计算痛苦的参数值I[k],计算的结果用当前痛苦的参数值I[k]取代,因此改变了“痛苦”的参数值。当I[k]<0时,I[k]=0,t=0和N=0。
I[k]=K1×N-K2×t..................(3)
对于本能要素“温度”,根据经由输入语意转换器模块59从温度检测信号处理模块51馈送的温度数据,温度被取做T,外部空气温度取做Y0,温度上升的系数取做K3。使用下列方程式(4)计算“温度”的参数值I[k],计算的结果用当前温度的参数值I[k]取代,因此更新了“温度”的参数值。当T-T0<0时,I[k]=0。
I[k]=(T-T0)×K3..................(4)
对于本能要素“饥饿”,根据经由输入语意转换器模块59(由剩余电池电势检测模块(未示出)获取的信息)馈送的剩余电池电势数据,剩余电池电势被取做BL。使用下列方程式(5)在预定的周期计算“饥饿”的参数值I[k],计算的结果用当前饥饿的参数值I[k]取代,因此更新了“饥饿”的参数值。
I[k]=100-BL..................(5)
对于本能要素“口渴”,假设根据经由输入语意转换器模块59馈送的剩余电池电势数据的变化速度,剩余电池电势在时间t被取做BL(t),并且在时间t1和t2分别获取剩余电池电势。然后使用下列方程式(6)计算“口渴”的参数值I[k],计算的结果用当前口渴的参数值I[k]取代,因此更新了“口渴”的参数值。
I[k]={BL(t2)-BL(t1)}/(t2-t1)..................(6)
注意,在这个实施例中,限定每个情感和愿望要素(本能)的参数值在0-100的范围内变化,并为每个情感和愿望要素设置系数ke和ki
如上述构建内部状态模型单元71,并将机器人1配置为随着由内部状态模型单元71适应于机器人1所存在的环境条件和它的内部状态改变的本能(愿望)和情感状态(参数)自主地行动。
(3-2)本能和情感响应于环境而改变
另外,机器人1使情感和本能适应于3个周围条件的值,即“噪音”、“温度”和“亮度”(这些在后面将被称为“环境条件”)。即例如,当环境是“明亮”时,机器人1变得欢快和高兴,但是当机器人1处于“黑暗”中时,它变得安静。
更具体地,机器人1除了前面提到的CCD摄像机20、距离传感器22、触摸传感器21、麦克风23等外,还包括提供的温度传感器,以检测周围的温度,并作为检测环境条件的外部传感器之一进行工作。根据温度传感器,中间件层40中的识别系统60分别包括检测噪音、温度和明亮度的信号处理模块50至52。
噪音检测信号处理模块50被配置为根据麦克风23(见图2)经由机器人服务器目标程序32中的虚拟机器人33提供的话音数据检测周围噪音的级别,并将检测结果输出到输入语意转换器模块59。
另外,温度检测信号处理模块51被配置为根据温度传感器经由虚拟机器人33馈送的传感器数据检测周围的温度,并将检测结果输出到输入语意转换器模块59。
另外,明亮度检测信号处理模块52被配置为根据CCD摄像机20(见图2)经由虚拟机器人33馈送的图像数据检测周围的明亮度,并将检测结果输出到输入语意转换器模块59。
输入语意转换器模块59根据来自信号处理模块50至52的输出识别周围的“噪音”、“温度”和“亮度”的级别,并将识别结果输出到应用模块41的内部状态模型单元71(见图5)。
更明确地,输入语意转换器模块59根据来自噪音检测信号处理模块50的输出识别周围的“噪音”的级别,并将诸如“嘈杂”或“安静”的识别结果输出到内部状态模型单元71。
另外,输入语意转换器模块59根据来自温度检测信号处理模块51的输出识别周围的“温度”的级别,并将诸如“热”或“冷”的识别结果输出到内部状态模型单元71和感知信息获取单元90。
另外,输入语意转换器模块59根据来自明亮度检测信号处理模块52的输出识别周围的“亮度”的强度,并将诸如“明亮”或“黑暗”的识别结果输出到内部状态模型单元71。
内部状态模型单元71通过根据如上述从输入语意转换器模块59馈送的各种识别结果计算方程式(1),周期性地改变参数值。
然后,内部状态模型单元71根据从输入语意转换器模块59馈送的关于“噪音”、“温度”和“亮度”的识别结果,增加或减小方程式(1)中的预定适当情感的系数ke的值。
更具体地,例如,当馈送识别结果“嘈杂”时,内部状态模型单元71将“愤怒”情感系数ke的值增加预定数量。另一方面,当馈送的识别结果是“安静”时,内部状态模型单元71将“愤怒”情感系数Ke的值减小预定数量。由此,“愤怒”情感的参数值将在周围“噪音”的影响下改变。
另外,当馈送识别结果“热”时,内部状态模型单元71将“欢乐”情感系数ke的值减小预定数量。另一方面,当馈送的识别结果是“冷”时,内部状态模型单元71将“悲伤”情感系数ke的值增加预定数量。因此,“悲伤”情感的参数值将在周围“温度”的影响下改变。
另外,当馈送识别结果“明亮”时,内部状态模型单元71将“欢乐”情感系数ke的值减小预定数量。另一方面,当馈送的识别结果是“黑暗”时,内部状态模型单元71将“恐惧”情感系数ke的值增加预定数量。因此,“恐惧”情感的参数值将在周围“亮度”的影响下改变。
类似地,内部状态模型单元71通过根据如上述从输入语意转换器模块59馈送的各种识别结果计算方程式(2)至(6),周期性地改变每个愿望要素的参数值。
另外,内部状态模型单元71根据从输入语意转换器模块59馈送的关于“噪音”、“温度”和“亮度”的识别结果,增加或减小方程式(2)中的预定适当愿望的系数ki的值。
另外,例如,当馈送识别结果“嘈杂”和“明亮”时,内部状态模型单元71将“疲劳”状态系数ki的值减小预定数量。另一方面,当馈送的识别结果是“安静”和“黑暗”时,内部状态模型单元71将“疲劳”状态系数ki的值增加预定数量。另外,例如,当识别结果是“热”或“冷”时,内部状态模型单元71将“疲劳”系数ki的值增加预定数量。
因此,结果,当机器人1处于例如“嘈杂”的环境时,“愤怒”情感的参数值容易增加,而“疲劳”状态的参数值容易减小,使得机器人1将表达“急噪”的行为。另一方面,当机器人1周围的环境“安静”时,“愤怒”情感的参数值容易减小,而“疲劳”状态的参数值容易增加,使得机器人1将动作得“温和”。
另外,当机器人1处于“热”的环境时,“欢乐”情感的参数值容易减小,而“疲劳”状态的参数值容易增加,使得机器人1将表现“懒惰”的行为。另一方面,当机器人1处于“冷”的环境时,“悲伤”情感的参数值容易增加,而“疲劳”状态的参数值容易增加,使得机器人1的动作好象是受到了寒冷的影响。
另外,当机器人1处于“明亮”的环境时,“欢乐”情感的参数值容易增加,而“疲劳”状态的参数值容易减小,使得机器人1将表现“快乐”的行为。另一方面,当处于“黑暗”的环境时,“欢乐”情感的参数值容易增加,而“疲劳”状态的参数值容易增加,使得机器人1将行动得“均衡”。
因此,机器人1可以利用内部状态模型单元71适应于环境(外部和内部因素)地改变它的本能和情感状态,并通过它的行为表达出经改变的本能和情感状态。另外,内部状态模型单元71获取的本能和情感状态被用作行为选择单元80中选择行为的信息。
(3-3)行为选择单元的结构
行为选择单元80选择预先准备的一组行为中的一个。将行为选择单元80构建为使用行为学方法选择(决定)行为。
一般地,认为动物根据影响动物行为的多个外部和内部因素(以下一般地简称为“理由”因素)决定行为。理由因素相互复杂地缠绕。根据动物的一般行为决定机制设计机器人1,以决定行为。
例如,当如图6A所示,机器人1的前面有一个水池时,使用行为学方法构建的具有行为决定机制的机器人1将通过下列程序决定要表达的行为。
机器人1将“发现水”,并感知和识别(评价)外部理由因素(根据外部感知要素;例如,感知)“距水10厘米”。另一方面,机器人1具有作为内部理由因素的“高度口渴”和“中等程度的饥饿”的动机(根据内部动机要素;例如,本能和情感)。注意,使用来自前述的内部状态模型单元71的参数值获取动机,这在后面将详细描述。
在基于行为学方法的行为决定中,至少进行下列判断。
即,甚至当机器人1处于“高度口渴”的状态并“发现水”时,如果离水的距离很远,它也不总是表达出任何饮水的行为。例如,当水与机器人1很远时,后者将可能相应地处于降级的(degraded)情形并较高度口渴。在这种情况下,机器人1将本能地避免饮水行为。
相反,甚至当机器人1“低度口渴”并且“有水在前面”时,在某些情况下,它也会表达出饮水的行为。即,不总是基于内部理由因素“口渴”判断机器人1是否表达出饮水行为,而是根据机器人1的外部理由因素“有水”和“它在前面”进行行为决定的判断。即,根据相互复杂地交错的多个外部和内部理由因素决定(选择)行为。
在最终决定行为前,将行为与其它行为进行比较。例如,当机器人1想“喝水”和“吃”时,它将“喝水”愿望的程度或可能性与“吃”愿望的程度或可能性进行比较,并选择例如饮水行为作为可能行为之一。
根据行为学方法,机器人1最终决定行为。即,在具有诸如“高度口渴”的情况下,机器人1根据“发现水”和“距水10厘米”的信息进行全面的判断,以表达饮水行为,而排除了诸如“吃”行为的任何其它行为。
另外,机器人1用愤怒作为“中等程度愤怒”的状态表达“吃”的行为。行为表达是通过前述的调制器72提供的。然后,在机器人1中,由于“发现水”而降低了作为内部状态的愤怒的级别。通过从输出语意转换器模块68向内部状态模型单元71反馈行为完成信息降低愤怒的级别。
图6B显示了用于根据前述的行为学方法选择“向前走”的动作作为“饮水行为”的过程。
首先,当在如图6A所示的状态中时,机器人1从包括“摄取行为”、“竞争行为”、“调查行为”等的多个行为中选择“摄取行为”。机器人1具有作为一组包括“摄取行为”、“竞争行为”、“调查行为”等的可选择行为的子系统(子系统层)。
行为组包括一起构成高级行为组的多个低级行为组。低级行为组相互控制,这对于下列情况也是真实的。
接下来,机器人1从所选择的摄取行为选择“饮水行为”。摄取行为还包括“吃”的行为。例如,机器人1具有其中包括诸如“饮水”行为、“吃”行为的一组可选择行为的模式(模式层)。即,作为从属于“摄取”行为子系统的行为,机器人1具有包括“饮水”和“吃”行为的行为组。
接下来,机器人1选择“走向水”行为的“向前移动”并表达该行为。对于“走向水”行为,可能的行为包括“向后移动”、“向右转”、“向左转”。机器人1拥有包括“向前移动”、“向后移动”、“向右转”、“向左转”等的马达命令(命令层)。
通过执行上述过程,机器人1采用行为学方法来表达象“向前走”的底层行为,作为包括在“摄取行为”子系统中的高级行为的最终行为。
图7显示了为决定选择建立的行为选择系统。行为选择系统形成于行为选择单元80中。
在行为选择系统中,以分层结构(树结构)的形式组织一组行为。在这个系统中,较高层包括诸如愿望的抽象行为。在分层结构中,行为选择系统包括含有一起构成高级行为的一组低级行为的行为组。例如,当机器人展现如“竞争行为”的高级行为时,低级行为包括“打架/掠夺”、“防御/逃跑”等。
行为选择系统可以被设计为以数据的形式(例如以数据库的形式)拥有每个行为,即,例如它可以被设计为面向对象的系统。当行为选择单元被设计为面向对象类型时,行为选择系统被构建为具有各行为作为对象的独立单元,并用对象的每个单元进行行为的选择。
在以如图7所示的分层结构的形式组织各组行为的行为选择系统中,高级层中的行为是诸如愿望的抽象行为,而低级层中的行为是实现愿望的具体行为。
在这种行为选择系统中,经过低级层中的行为进行选择,即有经选择的、实现高级行为,即最终行为的行为。即中间层中的行为包含关于从最高级行为到最低级行为延伸的路径的信息。
在沿着从高级层到低级层的上述路径前进时,根据前述的外部和内部理由因素在每一层中选择行为。
如图5所示,行为选择单元80包括感知信息获取单元90、动机信息获取单元81和行为选择处理器82。行为选择单元80的这些要素的每一个将按下面参照图8和图9描述的发挥作用。
感知信息获取单元90为每一个行为获取感知信息。为了取得感知信息,感知信息获取单元90计算指示在后面将详细描述的释放机制中的感知的评价的RM(释放机制)值。当感知信息获取单元90发现“水”并识别机器人1距离“水”10厘米时,摄取行为(饮水行为)的值将变大,即很可能选择饮水行为。
动机信息获取单元81根据机器人1的内部状态为每个行为获取动机信息。为了获取每个行为的动机信息,例如,它根据前述的本能和情感值为每个行为计算动机。更明确地,它计算指示在后面将详细描述的动机创建器中的动机的状态的Mot值。动机信息获取单元81获取机器人1的口渴状态。因此,摄取行为的动机值将变大,包括在摄取行为中的饮水行为将具有更进一步的值。
行为选择处理器82根据来自动机信息获取单元81的动机信息(动机值)和来自感知信息获取单元90的感知信息(值),选择期望的行为。当选择期望的行为时,行为选择处理器82对属于相同行为组的其它行为要素进行判优。例如,行为选择处理器82选择子系统层中的摄取行为,并选择摄取行为中的饮水行为。
另外,行为选择处理器82根据所选择的行为将实际的运动组编程。利用示例,这种编程的运动组将选择“向前移动”。
注意,内部状态模型单元71如上所述获取关于诸如机器人1的本能和情感状态的内部状态的信息。例如,为获取内部状态信息,内部状态模型单元71计算本能和情感值。更明确地,内部状态模型单元71计算本能(愿望)和情感的参数值或后面将描述的IE值。例如,内部状态模型单元71获取关于由运动等引起的口渴状态的信息。
如图8所示,输出语意转换器模块68将行为转换为对应机器人1的类型的一系列运动。例如,当输出语意转换器模块68识别机器人是四足动物时,它将提供一系列对应于机器人1的输入行为和情感状态的运动。即输出语意转换器模块68根据来自高级行为决定系统70的行为命令将命令发送给信号处理模块61至67。
后面将描述图9所示的调制器72、姿态管理模块等。注意,在图9中,“输入”栏显示输入命令的形态,而“输出”栏显示输出命令的形态。
如上所述构建行为选择单元80。接下来,下面将描述行为选择单元80进行行为选择所采用的行为学方法。
(3-4)使用行为学方法的行为选择
一般地,根据一组相互复杂地交错的因素决定(选择)动物的行为。图10显示了根据感知和动机信息决定行为的简单示例。
感知是影响行为的外部信息,并可以认为是由输入的环境信息限制和激发的条件。动机是诸如表达内部状态的“饥饿”或其它的内部信息,并可以认为是表达行为的内部意愿。因此,感知和动机可以用作决定将进行的行为的理由。
根据如下面详细描述的感知和动机决定行为。注意,行为决定(选择)的下列原则基于Silby和Mcfarland已经提出的状态空间方法(1975)。
Silby和Mcfarland的理论(1975)是基于这样一个假设,即动物非常可能采取它已经更频繁地表达了的动作(行为)。事件倾向可以由矢量空间清楚地限定。矢量的量级指示基于具有一定通用性(commonality)的索引的所谓的事件倾向量级。事件倾向包括例如摄取行为发生的倾向(度)和饮水行为发生的倾向(度)。所有事件倾向描述为事件倾向空间中的点。
事件倾向空间被分割为每个显示行为的类似事件的区域,并由交换线(switching line)分开。
另一方面,事件倾向依赖于各种理由因素。例如,吃行为依赖于食物的限制、摄取的机会、捕食的可能性等。另一个矢量空间用来清楚地指示所有这些理由因素。基于理由因素的事件倾向的决定基于下列情况。从理由因素的状态空间到事件倾向空间进行映射,以适应于理由因素的任何状态提供事件倾向的状态空间。可以在事件倾向状态空间决定行为。下面将参照图11A至11C描述理由因素和事件倾向之间的关系。
图11A和11C显示了描述理由因素的状态的理由因素状态空间。理由因素状态空间包括影响行为的执行的理由因素。理由因素包括前述的“感知”和“动机”。注意,为说明和解释的简单起见,图11A至11C仅实际上显示了二维空间,许多行为事件倾向是基于三维或更多维理由因素状态空间决定的。
图11A显示了吃行为的倾向,即吃行为事件的倾向(以下称为“吃倾向”)。在图11A中,水平轴表示作为理由因素之一的“饥饿”动机,而垂直轴表示作为另一个理由因素的“美味”感知。图11C显示了饮水行为的倾向,即“饮水”行为事件的倾向(以下称为“饮水倾向”)。在图11C中,水平轴表示作为“动机”的“口渴”,而垂直轴表示作为“感知”的“与水的距离”。
图11B根据图11A和11C中的理由因素显示了“吃倾向”和“饮水倾向”的空间。即图11B显示了空间,其中为了吃和饮水倾向之间的比较,映射了受理由因素影响的行为的事件倾向。
首先,参照图12描述理由因素状态空间。图12中的理由因素状态空间是图11A中所示的“吃行为”的理由因素状态空间。
如从图12所见,当有非常美味的食物(m2状态)并且饥饿感不是很强(理由状态)(n1状态)时,或饥饿感很强(n2>n1)并且可获取的食物不是如此美味(理由状态)(m1<m2)时,吃行为发生。即,吃行为不总是单独依赖于“饥饿”的动机,也不总是单独依赖于“美味”的感知而发生,而是依赖于“饥饿”和“美味”之间的相互作用而发生。
换句话说,甚至在具有不同程度的“饥饿”的情况下,吃行为发生。在理由因素状态空间中的一组点,存在使得吃行为的事件相互等价、即导致类似程度吃倾向的“饥饿”和“美味”的理由状态。例如,在不饥饿的情况下被给了非常“美味”的食物时的吃倾向与在非常饥饿的情况下食物“不是如此美味”时的吃倾向一般地相同。
例如,假设这里的“饥饿”和“美味”被取作吃行为的理由因素。因为吃行为事件倾向的程度彼此相似,当“美味”高时“饥饿”低,或当“美味”低时“饥饿”高。因此,对于相似程度的吃行为事件倾向,“饥饿”和“美味”相互成反比例。将相似吃倾向的点相互连接起来形成了例如图12所示的曲线。如图所示,存在一组理由因素状态,其中吃倾向在强度(矢量量级)y上相似,并按照理由因素状态空间中的曲线描述理由因素状态。
在理由因素状态空间中,存在一组在强度(y1、y2、...)上彼此不同的吃倾向,如图12中所示的吃倾向强度的描述等值线。
在图12中,当它在理由因素状态空间中向上时,吃倾向越强,这意味着当他或她很饥饿并在他的前面有非常美味的食物时,每个人都会显示吃行为。
因此,吃倾向的强度可以用理由因素限定,饮水倾向的强度可以类似地限定。
那就是说,当非常口渴时,即使与水的距离远,饮水行为也会发生。另外,当不太口渴但是与水的距离近时,作为“口渴”和“与水的距离”的相互作用的结果,饮水行为将会发生。
换句话说,饮水行为的发生不考虑“口渴”的程度是强还是弱。在理由因素状态空间中的一组点,有基于“口渴”和“与水的距离”的相似饮水倾向的理由状态。例如,当不“口渴”但是在很近的地方有水时的饮水倾向与当非常“口渴”但是水在非常远的地方的饮水倾向相似。
对于相似程度的饮水行为倾向,“口渴”和“与水的距离”相互成反比例。将相似程度的饮水倾向的点相互连接起来将导致例如图11C所示的曲线。即,存在一组在饮水倾向的强度x上相互类似的理由状态,并按照由图11C所示的理由因素状态空间中的曲线描述它们,在图11C中,作为等值线显示有强度(x1、x2、...)不同的饮水倾向。
如上所述,根据理由因素状态确定“吃倾向”的强度和“饮水倾向”的强度,根据它们的强度相互比较各倾向,并决定(选择)各倾向中的一个。在如图11B所示的事件倾向空间相互比较事件倾向。事件倾向空间包括可以发生的行为的倾向。
例如,当在理由状态中检测到吃倾向的强度y1和饮水倾向的强度x2时,为了比较的目的,在如图11B所示的事件倾向空间中将从理由因素状态空间映射的吃倾向的强度y1和饮水倾向的强度x2相互结合。更明确地,如下所述选择行为。
如图11B所示,事件倾向空间被交换线分为两个区域。一个区域由交换线和指示饮水倾向的x轴(y=0)限定(这个区域将被称为饮水行为选择区域),并且另一个区域由交换线和指示吃倾向的y轴(x=0)限定(这个区域将被称为吃行为选择区域)。
在由事件倾向空间中的交换线限定的每一个区域中,根据从理由因素状态空间映射的值(x,y)的位置决定一个行为。即,当发现值(x,y)在饮水行为选择区域中时,将选择饮水行为,并且当值(x,y)位于吃行为选择区域中时,将选择吃行为。因此,在图11C所示的例子中,由于值(x2,y1)位于饮水行为选择区域,所以将选择饮水行为。
注意,为了说明或解释简单起见,为吃和饮水行为的每一个的状态变量(理由因素)显示理由因素状态空间。可是,实际上,一个状态变量将影响一组行为的事件倾向。理由因素空间的曲线被连接到在其中获取指定行为的事件倾向的级别的状态。
另外,最终选择的行为将可能影响该行为的理由因素以及一组其它理由因素。为此,信息被判优。
使用行为学方法的理由因素的行为决定(选择)方法是由例如Silby和Mcfarland(1975)和Ludlow(竞争模型)提出来的。
(3-5)用于使能使用行为学方法的行为决定的公式
用于上述行为决定的行为学方法仅仅是理论上的,为了将它应用到机器人1,前述的行为学方法必须计算机化或编码为数据库。为了实现本发明,基于行为学方法的行为决定方法编码如下:
如图13A所示,“饥饿”状态(程度)作为“吃行为”的理由因素取作Mot[0],“美味”被评价为RM[0]。当Mot[0]和RM[0]分别取特定值时,吃倾向(倾向强度)被取作Be[0]。
类似地,如图13B所示,“口渴”状态(程度)作为“饮水行为”的理由因素取作Mot[1],“与水的距离”被评价为RM[1]。当Mot[1]和RM[1]分别取特定值时,饮水倾向(倾向强度)被取作Be[1]。这些项目具有如下表所示的关系。
释放机制 吃行为 食物的美味评价 RM[0]
饮水行为 与水的距离的评价 RM[1]
动机创建器 吃行为 饥饿 Mot[0]
饮水行为 口渴 Mot[1]
注意,在这个实施例中,由于在“吃行为”和“饮水行为”的两个事件倾向之间进行比较,所以当取两个动机的值Mot[0]和Mot[1]时,选择两个感知的值RM[0]和RM[1],但是也可以在更多的事件倾向间进行比较。因此,这些条目在如下的假设上进行了概括,即感知(外部智能要素)是RM[i],动机(内部动机要素)是Mot[i],事件倾向是Be[i]并且i是整数。在下列描述中发现的这些条目是经概括的条目,除非将发生或表达的行为的指定类型是为它们指定的。
在这个例子中,当理由因素“口渴”和“美味”处于反向比例的关系中时,发现“吃行为”的相似事件倾向。可是,对于相似程度的事件倾向,作用于事件倾向的理由因素不总是在这种反向比例的关系中。即可以通过下列方程式(7)给出Be[i]、RM[i]和Mot[i]之间的关系,但是RM[i]和Mot[i]不总是在反向比例关系中。简短而言,事件倾向不总是单独受动机(内部动机要素)的影响,还受感知(外部智能要素)的影响。
Be[i]=func(RM[i],Mot[i])...............(7)
另外,感知信息获取单元90获取“美味”或“与水的距离”的感知评价RM[i],动机信息获取单元81获取象“饥饿”或“口渴”的动机Mot[i]。后面将详细描述由感知和动机信息获取单元90和81获取这些信息的操作。
如上所述,基于感知(外部智力要素)和动机(内部动机要素)获取的吃和饮水倾向如图14的事件倾向空间所示。
在图14的事件倾向空间中,有两条交换线,第一条(y=αx)和第二条(y=βx)。即,该空间被分割为三个区域。另一方面,图11B中的事件倾向空间仅有一条交换线。为什么在图11B的空间中设置一条交换线而在图14中设置三条交换线的原因如下。
理论上,甚至具有如前所述的一条交换线也能选择不同类型的行为。可是,如果该理论应用到实际的机器人1上,如果每个行为的事件倾向临近于交换线,则当前选择的行为和任何其它的行为会更频繁地交换,使机器人1在各行为之间来回地转换。当所选择并执行的行为的事件倾向小于另一个行为的事件倾向时,会引发这种现象。即,当完成一个(期望)时,其程度将会变小,结果由该动机影响的行为的事件倾向将变小。
如上所述,两条交换线将事件倾向空间分割为三个区域:选择“吃行为”的区域(吃行为选择区域)、选择“饮水行为”的区域(饮水行为选择区域)、和既选择“吃行为”又选择“饮水行为”的区域(吃/饮水行为选择区域)。由此,阻止机器人1在各行为之间的反复转换是有可能的。为什么两条交换线的设置能使机器人1均匀地运转的原因将在后面描述。
按如下所述在图14中所示的事件倾向空间中选择表示最强事件倾向的行为。
如图14所示,事件倾向空间包括吃倾向Be[0]和饮水倾向Be[1],吃倾向Be[0]沿x轴取值,饮水倾向Be[1]沿y轴取值。在这个事件倾向空间中,第一和第二交换线分别被设置为y=αx和y=βx。例如,倾斜系数α和β是任意值,并可以根据机器人1的成长而决定。
吃倾向Be[0]根据图13A所示的“饥饿”Mot[0]和“美味”RM[0]取值,而饮水倾向Be[1]根据图13B所示的“口渴”Mot[1]和“与水的距离”RM[1]取值。
在事件倾向空间中,当从理由因素状态空间映射的值(a,a’)位于如图14所示的吃行为选择区域(点C)中时,选择吃行为。当值(a,a’)位于饮水行为选择区域(点D)中时,选择饮水行为。
当图13A所示的“饥饿”是Mot[0]=n0和“美味”RM[0]=m0时,值(a,a’)的项a是“吃倾向”Be[0],而当图13B所示的“口渴”是Mot[1]=n1和“与水的距离”RM[1]=m1时,值(a,b’)的项a’是“饮水倾向”Be[1]。
上述行为选择可以由下列算法实现:
首先,将为行为选择考虑a’/a(Be[1]/Be[0])。即当∝>a’/a>β时,值(a,a’)位于由x=0和第二条交换线(y=βx)定义的饮水行为选择空间。另外,当α>a’/a>0时,值(a,a’)位于由y=0和第一条交换线(y=αx)定义的吃行为选择空间。
可以从上面的表述中导出下列关系。当α>a’/a>0,即当值(a,a’)位于吃行为选择空间时,事件倾向空间将如图15A所示,并建立下列关系式:
aα-a’>0..................(8)
1-a’/a>0..................(9)
按照与方程(10)给出的α的关系可以将第一条交换线的倾斜系数α给出为α’。如后面详细所述,值α’是饮水倾向Be[1]对吃倾向Be[0]的行为判断(专有控制)的增益(gain)(>1)。
(Be[0]/Be[1])=1/α=α’...........(10)
从这个关系中将导出:当满足要求(11)时,选择“吃行为”:
a-a’α’>0..................(11)
图15B表示饮水行为的选择。第二条交换线的倾斜度β由下列方程式(12)给出。注意β是吃倾向Be[0]对饮水倾向Be[1]的行为判断(专有控制)的增益(gain)(>1)。
(Be[1])/(Be[0])=β..................(12)
从上述关系中将导出:当满足关系式(13)给出的要求时,选择“饮水行为”:
a’-aβ>0..................(13)
上述要求由下列关系式(14)和(15)满足。当满足要求(14)时,吃行为发生。当满足要求(15)时,饮水行为发生。
a-a’α’>0..................(14)
a’-aβ>0..................(15)
上面(a-a’α’)和(a’-aβ)作为矩阵的表达式将导致下列方程式(16): Be t [ 0 ] Be t [ 1 ] = Be t [ 0 ] Be t [ 1 ] - 0 α ′ β 0 Be ( t - 1 ) [ 0 ] Be ( t - 1 ) [ 1 ] . . . . . . ( 16 )
假设离散地计算上面的方程式。上面的方程式可以用如下列方程式(17)给出的t时刻的事件倾向Bet[i]和t-1时刻的事件倾向Be(t-1)[i]表达。 Be [ 0 ] Be [ 1 ] = a a ′ - 0 α ′ β 0 a a ′ . . . . . ( 17 ) 这里α’是饮水倾向Be[1]对吃倾向Bet[0]的行为判断(专有控制)的增益(>1),且β是吃倾向Bet[0]对饮水倾向Bet[1]的行为判断(专有控制)的增益(>1)。例如,可以如图16所见,α作为对吃倾向Bet[0]的行为判断(专有控制)的增益而起作用,而β作为对饮水倾向Bet[1]的行为判断(专有控制)的增益而起作用。
因此,一组行为的事件倾向可以用行列式的形式表示。当在行列式的左侧矩阵中有正的Bet[i]时,选择对应于事件倾向Bet[i]的行为。
注意,在上面的行列式中,由于各事件倾向中的一个的值为负,应该用为负事件倾向放置的0计算该方程式。
随着迭代解出方程(17),进行如图17所示的行为选择。
这里假设,当执行所选择的一个行为时,理由因素将对该行为具有较少的影响,并且被执行行为的事件倾向将更小。即,例如,当将“吃行为”选择为一个行为时,执行吃行为并获取对于吃的动机等,使得对“吃行为”的理由因素的影响将变小,并且吃倾向将变小(变弱)。由行为判断(专有控制)如下所述迭代使用方程(17)而执行行为选择。
如图17所示,例如,当(吃倾向Be[0],饮水倾向Be[1])=(a,a’)位于吃行为选择区域(由y=0和y=αx定义的区域)时,只要值(a,a’)位于吃行为选择区域,将选择吃行为作为一个行为。当值(a,a’)位于吃行为选择区域时,方程(17)左侧的吃倾向Bet[0]将具有正值。
当连续选择吃行为时,吃行为的事件对理由因素的影响将变小,使得吃倾向Bet[0]将变小(变弱)。当吃倾向Bet变小时,值(a,a’)将到达吃/饮水行为选择区域。即,值(a,a’)将按照如图17的图中的箭头P1所指示的变化。
在吃/饮水行为选择区域中,选择吃行为。方程(17)左侧的吃倾向Bet[0]将具有正值。当连续选择吃行为时,吃行为的事件对理由因素的影响将变小,使得吃倾向Bet[0]将变小。然后,值(a,a’)将从吃/饮水行为选择区域变化到饮水行为选择区域(由x=0和y=βx定义的区域)。即,值(a,a’)将按照如图17的图中的箭头P2所指示的变化。
在饮水行为选择区域中,选择饮水行为。当值(a,a’)位于饮水行为选择区域时,方程(17)左侧的饮水倾向Bet[1]此时将具有正值。
然后,当连续选择饮水行为时,饮水行为的事件将对理由因素具有较小的影响,饮水倾向Bet[1]将变小。然后,值(a,a’)将从饮水行为选择区域前进到吃/饮水行为选择区域。在吃/饮水行为选择区域中,选择饮水行为,并且方程(17)左侧的饮水倾向Bet[1]将具有正值。进一步,当连续选择饮水行为时,饮水倾向Bet[1]将变小,使得值(a,a’)将从吃/饮水行为选择区域前进到吃行为选择区域。在吃行为选择区域中,再选择吃行为。即,值(a,a’)从饮水行为选择区域到吃行为选择区域的变化如图17的图中的箭头P3所示。然后,新选择的行为变化到其来自的老的行为。
另外,在事件倾向空间中提供两条交换线防止了各行为的频繁交换,因此可以防止机器人1在各行为之间反复转换。
由于吃倾向Bet[0]和饮水倾向Bet[1]如上所述变化,值(a,a’)=(Bet[0],Bet[1])基于吃和饮水倾向和值的关系被指定,由此选择一个行为。此时,方程(17)中的吃倾向Bet[0]或饮水倾向Bet[1]将具有正值,并且取正值的事件倾向将是一个所选择的行为。由图5所示的行为决定单元进行这个行为决定。
注意,在上述中,已经关于一个示例描述了本发明的实施例,在该示例中,吃和饮水两个行为基于吃倾向Bet[0]和饮水倾向Bet[1]来回转换。可是实际上,更多行为(n个行为)在事件倾向空间中相互比较,以选择各行为中的一个。即,在由n维定义的事件倾向空间中选择行为。为了选择n个行为中的一个,利用由方程式(18)给出的行列式。
Figure A0180121800321
这里G[i]和G[j]是一个行为的事件倾向Bet[i]对另一个行为的事件倾向Bet[j]的行为判断(专有控制)的增益。
利用上述算法,每个行为的事件倾向可以根据诸如感知和动机的理由因素确定,并可以使用行为学方法决定行为,在该行为学方法中,根据事件倾向的强度(量级)决定(选择)行为。
注意,当已经如图17所示选择了行为时,可能认为事件倾向最终减小到0,即吃倾向Bet[0]和饮水倾向Bet[1]被减小到0(初始),这解释了当按照上述表达行为时,理由因素(例如动机)对行为的影响趋向于0的事实。
可是,由于影响选择当前未选择的行为的理由因素的影响还在继续,所以用基于行为学方法的行为决定没有问题。即,例如当表达饮水行为时,未选择的吃行为的理由因素之一的“饥饿”状态进行变化,因此“饥饿”的评价变化,使得吃倾向更高,这解释了“睡觉”或“行走”使食欲恢复的事实。即当正在表达所选择的行为时,未选择的行为的事件倾向被恢复。例如如图18所示。
第一和第二交换线的倾斜度α和β可以任意设置。因此,通过设置它们使之适应于机器人1的成长或特征的一个阶段,适当地表达这个行为是有可能的。
例如,机器人1具有成长行为模型,根据成长的阶段,通过该模型表达不同的行为。当成长的阶段是“幼年”时,第一交换线的倾斜度α和第二交换线的倾斜度β取相近的值,吃/饮水行为选择区域响应地靠近。当成长的阶段是“成年”时,第一交换线的倾斜度α和第二交换线的倾斜度β分别设置成这样的值,即吃/饮水行为选择区域较宽。
因此,当机器人1处于“幼年”阶段时,在吃行为和饮水行为之间进行频繁的交换,并且机器人1在各行为之间反复转换。当机器人1处于“成年”阶段时,在吃和饮水行为之间的交换以适当的间隔进行,并且机器人1将更平稳地进行举止。
另外,事件倾向的恢复速度可以根据成长的等级变化。例如,当成长的等级低时,恢复的速度被设置为高。当成长的等级高时,恢复的速度被设置为低。在这种情况下,当机器人1处于“幼年”阶段时,在吃和饮水行为之间的交换进行得频繁。另一方面,当机器人1处于“成年”阶段时,在吃和饮水行为之间的交换进行得适当。因此,产生了相似的效果。
注意,防止事件倾向通过它们的恢复减小到零,但也可以通过计算防止这个减小。
在前面,已经描述了实现机器人1的基于行为学方法的行为决定的公式。行为选择单元80使用这个公式选择行为。
(3-6)行为选择单元80的操作
下面将描述行为选择单元80的实际操作。
如图19所示,行为选择单元80包括获取感知信息(RM)的感知信息获取单元90,获取动机信息(Mot)的动机信息获取单元81,和基于感知信息(RM)和动机信息(Mot)选择行为的行为选择处理器82。
(3-6-1)获取事件倾向的过程
下面将描述基于感知评价(感知信息)RM[i]和动机状态(动机信息)Mot[i]确定事件倾向Bet[i]的过程。确定事件倾向Bet[i]的过程主要包括:在行为判断(专有控制)之前的事件倾向值的计算和在行为判断(专有控制)之后的事件倾向值的计算。即,确定事件倾向Bet[i]的过程主要包括方程式(18)右侧的事件倾向Bet[i]和方程式(18)左侧的事件倾向Bet[i]的计算。
将取三个不同行为的事件倾向Bet[i]的获取为例,描述前者和后者的计算。三个不同的行为属于相同的行为组。例如如图20所示,对于三个不同的行为,分别使用第一到第三为RM[0],RM[1]和RM[2]的三个感知评价和第一到第三为Mot[0],Mot[1]和Mot[2]的三个动机状态,以获取第一到第三为Bet[0],Bet[1],和Bet[2]的三个事件倾向。
其事件的倾向将被比较的三个不同的行为包括“吃行为”、“饮水行为”和“排泄行为”。对于第一个行为“吃”,第一个感知评价RM[0]是“美味”,第一个动机状态Mot[0]是“饥饿”。对于第二个行为“饮水”,第二个感知评价RM[1]是“与水的距离”,第二个动机状态Mot[1]是“口渴”。最后,对于第三个行为“排泄”,第三个感知评价RM[2]是“与排便地点的距离”,第三个动机状态Mot[2]是“想排便或排尿”。事件倾向空间包括这些吃倾向Bet[0]、饮水倾向Bet[1]和排泄倾向Bet[2]。
根据感知评价RM[i]和动机状态Mot[i],分别按照如下所述计算对应于“吃行为”、“饮水行为”和“排泄行为”的事件倾向Bet[i]。
使用下列来自感知评价RM[i]和动机状态Mot[i]和方程式(19)计算事件倾向Bet[i]:
Bet[i]=RM[i]×Mot[i]............(19)
当感知评价RM[i]和动机状态Mot[i]形成反比例关系时,该关系可以按照下列方程式(20)所给出的表示:
RM[i]=A[i]/Mot[i]................(20)
当将感知评价RM[i]代入方程式(19)时,可以获取系数A[i]为Bet[i]。即,在感知评价RM[i]和动机状态Mot[i]之间有反比例关系的情况下,系数A[i]被计算为事件倾向Bet[i]。
用这个计算,可以计算行为判断(专有控制)之前的事件倾向Bet[i]。可以通过下列方程式(21)计算具有给出到行为判断(专有控制)的考虑(consideration)的事件倾向Bet[i]: Be t [ 0 ] Be t [ 1 ] Be t [ 2 ] = Be t [ 0 ] Be t [ 1 ] Be t [ 2 ] - 0 G [ 1 ] [ 0 ] G [ 2 ] [ 0 ] G [ 0 ] [ 1 ] 0 G [ 2 ] [ 1 ] G [ 0 ] [ 2 ] G [ 1 ] [ 2 ] 0 Be ( t - 1 ) [ 0 ] Be ( t - 1 ) [ 1 ] Be ( t - 1 ) [ 2 ] . . . . . ( 21 )
如图21所示可见,通过行为判断(专有控制)增益G[i]和G[j](i=0,1,2;j=0,1,2)计算第一、第二和第三事件倾向Bet[0],Bet[1]和Bet[2],作为判断。
如上所述,计算在行为判断(专有控制)之前的事件倾向,并使用在行为判断(专有控制)之前的事件倾向和给出到行为判断(专有控制)的考虑计算事件倾向。
例如由如图22中所示的下列过程影响一系列的这些计算。
首先在步骤S1中,每个值用t=0和Be(t-1)[i]=0进行初始化。然后,在步骤S2到S6,为Bet[0]到Bet[2]计算方程式(21)右侧的第一项的值。即,计算在行为判断(专有控制)之前的事件倾向Bet[i]。下面描述步骤S2至S6的操作。
在步骤S2中,假设i=0。由此开始Bet[0]的计算。
在下一个步骤S3中,计算感知评价RM[0]和动机状态Mot[0]。即,例如获取“美味”的评价RM[0]和“饥饿”状态Mot[0]。
在步骤S4中,计算“吃行为”的事件倾向Bet[0],作为方程式(21)右侧第一项的值。
然后在步骤S5中,判断是否i=3。更具体地,判断是否已经计算了要比较的Bet[0]至Bet[2]的所有事件倾向的值。
当i=3时,在步骤S6中使i=i+1,并重复步骤S3和后续步骤中的操作。
用步骤S1至S6中的操作,将作为行为判断(专有控制)之前接着吃倾向Bet[0]的值计算饮水倾向Bet[1]和排泄倾向Bet[2]。
在步骤S5,当i=3时,将执行步骤S7中的操作。在步骤S7,计算方程式(21)左侧的事件倾向Bet[i](i=0至2)。即,使用方程式(21)计算具有给出到行为判断(专有控制)的考虑的事件倾向Bet[i]。
接下来在步骤S8,判断倾向Bet[i]中的任何一个是否取正值。当没有任何一个倾向Bet[i]为正时,在步骤S9使时间t=t+1,并重复步骤S1和后续步骤中的操作。因此,将会实现如由方程(21)给出的迭代计算。即,使用Be(t-1)[i]代替在前面步骤中已经获取的值Bet[i]进行计算。
另一方面,当事件倾向Bet[i]中的任何一个为正时,选择与该事件倾向Bet[i]对应的行为,作为实际要表达的一个行为,并从行为选择过程退出。
如上所述,可以基于感知评价(感知信息)RM[i]和动机状态(动机信息)Mot[i]确定事件倾向Bet[i]。
(3-6-2)感知信息获取单元90的操作
接下来,将详细描述获取感知评价RM[i]的感知信息获取单元90和获取动机状态Mot[i]的动机信息获取单元81。首先,从感知信息获取单元90开始描述。
响应于外部或内部信息(识别结果),感知信息获取单元90获取感知信息(评价),该信息是行为的理由因素中的一个。如图23所示,感知信息获取单元90包括行为存储器91、目标名称存储器92、目标决定单元93、目标信息存储器94和感知信息处理器95。
行为存储器91在数据库中存储例如一组可选择的存储器。
被馈送行为组号码(信号),行为存储器91输出一组行为,该组行为的事件倾向将作为目标决定单元93中的一个行为组被比较。
例如,下面将描述“吃苹果(吃苹果行为)”。
“吃苹果”行为最终是通过“接近苹果”、“嗅苹果”、“把苹果放进嘴里”、“触摸苹果”等来表达的。“接近”是缩短与目标的距离的行为,“嗅”是例如将鼻子靠近目标的行为,“放进嘴里”是把目标放进嘴里的行为,和“触摸”是用手(爪;腿)接触目标的行为。可以对所有普通可食用目标进行这些“接近”、“嗅”、“放进嘴里”和“触摸”的行为。例如,当目标是“橘子”时,缩短与目标的距离的行为就是“接近橘子”,  将鼻子靠近目标的行为是“嗅橘子”,放进嘴里的行为是“把橘子放进嘴里”,和用手接触橘子的行为是“触摸橘子”。
行为存储器91向目标决定单元93输出关于一组行为的信息作为一个行为组,诸如“接近”的该组行为对所有普通目标都适用。即,行为存储器91向目标决定单元93提供通过提取关于目标的信息限定的行为名称信息,该目标被提供有实现诸如“吃苹果”的高级行为的低级行为。从行为存储器91输出的行为名称信息对应于其事件倾向在行为选择处理器82中被相互比较的行为。即,行为名称信息在与这个行为本身的相互控制关系中。
为了减少为可适用于不同目标的一个行为定义一组信号(命令)的目的,将可适用于所有普通目标的行为名称信息置于行为存储器91中,由此保证可伸缩性,为了在相似行为的再现期间防止一个目标与另一个目标在行动上的任何大的差异,该可伸缩性会处于为每个目标定义一个行为的情况中。注意,特殊行为应该与关于该行为趋向的目标的信息一起定义。
另一方面,目标名称存储器92存储目标名称。存储于目标名称存储器92中的目标名称是为高级行为选择的名称。例如当机器人1识别苹果的存在时,就选择了“吃苹果(吃苹果行为)”的高级行为。在这种情况下,“苹果”作为目标名称被存储于目标名称存储器92中,并且目标名称存储器92将向目标决定单元93输出目标名称信息。
前述的行为存储器91向目标决定单元93输出适用于所有普通目标的低级行为相关的行为信息。目标名称存储器92将向目标决定单元93输出目标名称中的一个。因此,目标决定单元93将形成一组行为,该组行为的事件倾向将与从行为存储器91输出的信息(行为名称信号)和从目标名称存储器92输出的信息(目标信号)的全部信息进行比较。
目标决定单元93以可比较的形式向感知信息处理器95输出一组行为信息(行为组信号)。即,目标决定单元93向感知信息处理器95输出一对行为名称,该对行为名称包括由行为存储器91获取的名称和由目标名称存储器92获取的另一个名称。
注意,其事件倾向将被比较的所有组的行为不应该与相应的目标结合。即,响应于关于不趋向任何目标的行为的信息,目标名称存储器92将向目标决定单元93输出信息“没有相应的目标”。目标决定单元93向感知信息处理器95输出从行为存储器91输出的行为信息,作为关于没有相应目标的行为的信息。
如上述构成的行为存储器91、目标名称存储器92和目标决定单元93按如下所述工作。例如,当被馈送有行为组号“1”时,行为存储器91将向目标决定单元93输出包括在行为组号“1”中的“行为0”、“行为1”、“行为2”和“行为3”。另一方面,目标名称存储器92为“行为0”输出“食物”,为“行为1”输出“水”,为“行为2”输出“无目标”和为“行为3”输出“无目标”。在这个例子中,高级行为是“摄取行为”。当高级行为是如上所述的“吃苹果”时,目标名称存储器92将仅输出“苹果”。然后,目标决定单元93将向感知信息处理器95输出来自行为存储器91的每个“行为”和来自目标名称存储器92的“目标名称”,作为重要的目标信息。
输入语意转换器模块59向目标信息存储器94输出关于馈送给机器人1的感知的信息,并且目标信息存储器94存储关于从输入语意转换器模块59发送的感知的信息。即,目标信息存储器94存储用于计算事件倾向的感知评价的参数,诸如目标“苹果”、“与苹果的距离”、“苹果的方向”等。
基于来自目标信息存储器94的目标信息(目标信息信号)和来自目标决定单元93的行为组信息(行为组信息信号),感知信息处理器95为其事件倾向在行为选择处理器82中被比较的行为获取感知评价RM[i]。即,例如“与苹果的距离”用于“吃苹果(吃苹果行为)”或接近苹果的感知评价。
然后,由感知信息处理器95获取的感知评价RM[i]被发送给行为选择处理器82。例如,感知评价RM[i]作为矢量量值从感知信息获取单元90发送给行为选择处理器82,如图19所示。
注意,同步信号可以从目标决定单元93馈送给目标信息存储器94。同步信号可以用于在来自目标决定单元93的输出和来自目标信息存储器94的输出之间提供同步,由此,感知信息处理器95可以在确定的时间被馈送对应于来自目标决定单元93的行为的参数。
基本上,机器人1仅包括一个感知信息获取单元90。可是,可以为每个行为提供一个感知信息获取单元90。在这种情况下,感知信息获取单元90可以仅考虑一个行为应用于所有普通目标而工作,因此行为存储器91变得不再需要。在这个例子中,如后面将要描述的,从一组目标构成行为选择单元。
下面参照图24描述感知信息获取单元90的操作过程。
首先在步骤S11,获取行为组名称。该行为组包括诸如“接近苹果”、“嗅苹果”等“吃苹果”的低级行为。
接下来,执行目标选择程序。通过目标选择程序,在步骤S12获取行为名称组。因此,一组行为(可应用于所有普通目标形式的行为信息)被存储于行为存储器91。行为信息定义了诸如“接近”、“嗅”等的行为名称。
在步骤S13,获取目标名称。因此,通过高级行为获取的目标名称存储于目标名称存储器92中。目标名称是例如“苹果”。
然后,执行目标选择程序以获取行为名称组和目标名称。接下来在步骤S14,判断是否已经为感知信息处理器95中的所有选择的行为计算了感知评价RM[i]。在已经为所有选择的行为计算了感知评价RM[i]的情况下,终止该过程。当为所有选择的行为计算感知评价RM[i]未完成时,执行感知评价计算程序。
感知评价计算程序在感知信息处理器95中执行并包括下列步骤。
在步骤S15中,判断是否存在目标。当判断是目标存在时,过程前进到步骤S16。另一方面,如果判断是“否”,过程前进到步骤S18。
在步骤S16中,感知信息处理器95将从目标信息存储器94获取目标的距离和方向(获取感知评价的参数),并在步骤S17中计算感知评价(值)RM[i]。即,例如,从“与苹果的距离”计算“接近苹果”的评价RM[i]。注意,由距离传感器22检测距离,使用从CCD摄像机20等馈送的图像检测方向。
另一方面,在步骤S18中,感知信息处理器95计算没有任何目标的感知评价(值)RM[i]。这个操作可应用于要评价的行为和不趋向任何目标的行为。
执行感知评价计算程序,直到在步骤S14中判断已经为其事件倾向将被比较的所有行为计算了感知评价RM[i](包括在该行为组中的一组行为)。即,用步骤S14中的操作和感知评价计算程序,为所有包括在该行为组中的行为计算感知评价RM[i]。
当在步骤S14中判断已经为所有包括在该行为组中的行为计算了感知评价RM[i]时,终止该过程。
感知信息获取单元90如上述操作。用感知信息获取单元90,为其事件倾向将被比较的行为组中的一组行为获取感知评价RM[i]是有可能的。
(3-6-3)动机信息获取单元81的操作
动机信息获取单元81获取动机,该动机是基于本能和情感的状态的行为的理由因素之一,并适应于外部或内部信息(识别结果)而变化。动机信息获取单元81具有一组如图25所示的本能/情感参数IE[p](本能/情感参数组),并为行为获取一组动机Mot[i]。更具体地,如下所述获取行为的动机。
本能/情感参数组IE[p]包括可以受本能和情感影响的信息。更具体地,它包括一组由前述内部状态模型确定的参数。即,本能/情感参数包括例如:“疲劳”、“温度”、“疼痛”、“饥饿”、“口渴”、“友爱”、“屈服”、“好奇”、“排泄”、“快乐”、“悲伤”、“愤怒”、“惊奇”、“厌恶”、“恐惧”、“挫折”、“厌倦”、“困倦”、“合群”、“耐心”、“紧张/放松”、“警惕”、“内疚”、“困扰”、“忠诚”、“性爱”和“嫉妒”。
行为动机组Mot[i]对应于包括在相同行为组中的一组行为。例如,这种行为包括“摄取行为”的“饥饿”等和“饮水行为”的“口渴”等。
动机信息获取单元81使用方程式(22)计算映射本能/情感参数IE[p]以为每个行为计算动机Mot[i]。 Mot [ 0 ] Mot [ 1 ] . . Mot [ 2 ] = K [ 0 ] [ 0 ] K [ 0 ] [ 1 ] K [ 0 ] [ m ] K [ 1 ] [ 0 ] K [ 1 ] [ 1 ] K [ 1 ] [ m ] . . . . . . K [ i ] [ 0 ] K [ i ] [ 1 ] K [ i ] [ m ] IE [ 0 ] IE [ 1 ] . . IE [ m ] . . . . ( 22 )
方程(22)用于通过映射为线性和使本能/情感参数IE[p]乘以系数K[i][p],以为每个行为计算动机Mot[i]。计算为行列式的动机Mot[i]作为矢量量值从动机信息获取单元81发送给行为选择处理器82,如图19所示。
后面将利用示例,为“调查”、“需求”和“休息”行为取动机值来描述机器人行为。通过下列方程(23)给出“调查”行为的动机Mot[0]、“需求”行为的动机Mot[1]和“休息”行为的动机Mot[2]:
Figure A0180121800402
另外,通过方程式(24)给出K[i][p]: K [ i ] [ p ] = - 10 10 0 0 0 15 10 - 5 0 . . . . . . ( 24 )
另外,通过下列方程式给出本能/情感参数IE[p]:
Figure A0180121800412
因此,通过方程式(26)给出“调查”、“需求”和“休息”行为的动机:
在方程式(26)中,“调查”是其中“疲劳”用作负因数而“好奇”用作正因数的本能/情感系数的函数。另外,“需求”是其中“友爱”用作正因数的本能/情感系数的函数。“休息”是其中“疲劳”用作正因数而“好奇”用作负因数的本能/情感系数的函数。
这里将考虑其中本能/情感参数IE[p]是[10,50,20]的第一个例子。在这个状态下,好奇为高。“调查”Mot[0]是400(=-100+500+0),“需求”Mot[1]是300(=0+0+300),“休息”Mot[2]是-150(=100-250+0)。
接下来,将考虑其中本能/情感参数IE[p]是[70,10,30]的第二个例子。这个状态意味着调查使机器人很疲劳。在这个状态下,“调查”Mot[0]是-600(=-700+100+0),“需求”Mot[1]是450(=0+0+450),“休息”Mot[2]是650(=700-50+0)。
下面将考虑其中本能/情感参数IE[p]是[30,20,60]的第三个例子。在这个状态下,疲劳已经减轻了一定的程度,友爱增高。“调查”Mot[0]是-100(=-300+200+0),“需求”Mot[1]是300(=0+0+300),“休息”Mot[2]是200(=300-100+0)。
如上所述,可以根据本能/情感参数组IE[p]和系数K[i][m]获取行为动机Mot[i]。通过适当地映射本能/情感参数组K[i][p],为获取事件倾向RM[i]获取期望的动机Mot[i]是可能的。即,也可以获取诸如上述的“口渴”、“饥饿”的动机。
动机信息获取单元81如上述进行操作。对每个行为,可以通过动机信息获取单元81获取动机Mot[i]。通过动机信息获取单元81获取的动机根据本能和情感的参数值是可变的,结果,动机将被反映在所选择的行为上。例如在上述示例中,行为反映动机。
基本上,愿望随着时间的流逝而增加。因此,除非被满足,它将连续增加。当好奇变得高时,机器人1将开始调查(如上述第一个例子)。当机器人1在调查期间走动时,疲劳相应地增加。随着调查的进行,好奇本身将减小。如果在走动了一会儿之后没有信息被馈送给机器人1,好奇减小疲劳增加使得机器人1的行为转换为“休息”(如上述第二个例子)。在一定的休息之后,随着时间的流逝,疲劳减小而友爱增加,和机器人1的行为转换为“需求”(如上述第三个例子)。因此,动机将反映在所选择的行为中。
注意,前述系数K[i][p]的值可以任意设置。用任意设置的系数K[i][p],本能/情感参数IE[p]为获取动机Mot[i]的映射可以更广地变化。用如此设置的系数K[i][p],可以根据应用于机器人1的动物的种类和成长等级进行映射。
在前面,已经详细描述了获取感知评价RM[i]的感知信息获取单元90和获取动机状态Mot[i]的动机信息获取单元81。分别根据由感知信息获取单元90和动机信息获取单元81获取的感知评价RM[i]和动机状态Mot[i],行为选择处理器82选择各行为中的一个。
进行上述的行为选择,直到选择了最低行为层中的行为。即,以图7所示的分层的形式构成行为选择系统。如上所述在每一层中影响具有感知评价RM[i]和动机信息Mot[i]的行为选择,直到决定了最低层中的各行为中的一个(实际输出的行为)。即,如图6B所示,“摄取行为”是根据感知评价RM[i]和动机信息Mot[i]在子层中进行选择的结果,“饮水行为”是根据感知评价RM[i]和动机信息Mot[i]在包括一组进一步实现的行为的模式层中进行选择的结果,“接近水”是根据感知评价RM[i]和动机信息Mot[i]在包括一组进一步实现的行为的模块层中进行选择的结果,“向前移动(前进)”是根据感知评价RM[i]和动机信息Mot[i]在包括一组进一步实现的行为的马达命令层中进行选择的结果。用这些操作,由诸如“向前移动”等的实际行为实现‘吃行为”,该“吃行为”是抽象行为(如愿望)。
注意,对于每一层中的行为的选择,根据诸如感知和动机的理由因素计算行为的事件倾向,并根据计算的结果选择行为,而用于行为的事件倾向的计算的动机信息可以对所有层是公共的。即,例如当“摄取行为”是高级行为时,从属于该高级行为的所有行为趋向于“摄取行为”的实现。考虑到这个事实,低级行为被打算来缓和“饥饿(口渴)”。因此,对实现“摄取行为”的低级行为,“饥饿(口渴)”是动机信息(理由因素)。
注意,对于感知来说上面的情况不总是真实的。这是由于这个事实:“接近水”的感知信息(外部智力要素)包括“与水的距离”,而在某些情况下,“水的方向”作为感知信息最适合于从属“接近水”的“向前移动(前进)”。
(3-7)调节器72的操作
调节器72和后面将描述的输出语意转换器模块68进行操作,以表达由行为选择处理器82如上述选择的行为。
调节器72根据由行为选择单元80选择的行为和从内部状态模型单元71接收的代表情感信息(代表情感信号)决定最终要表达的行为。
从内部状态模型单元71输出的代表情感信息表示机器人1的当前情感状态。例如,内部状态模型单元71输出本能(愿望)或情感,其参数值为代表情感信息的最大值。
调节器72根据上述的代表情感调节由行为选择单元80选择的行为。即,调节器72进行运转以通过行为表达情感。
如上所述,将当前情感直接表达为机器人1的行为是不必要的,但是上述过程对于情感行为的表达是有效的。即,在机器人1不是真的生气而仅有一点生气的情况下,行为选择单元80选择的行为伴随有一定程度的“厌恶”。
调节器72向输出语意转换器模块68输出关于用上述情感选择和调节的行为的信息。例如,调节器72向输出语意转换器模块68输出行为信息,作为抽象行为命令。
输出语意转换器模块68向信号处理模块61至67馈送与来自调节器72的行为信息对应的输出。因此,作为实际的行为,机器人1将输出行为决定系统70决定的行为。
在前面已经描述了行为决定系统70。由于这个行为决定系统70,内部状态模型单元71可以根据来自输入语意转换器模块59的识别结果改变机器人1的诸如本能和情感状态的内部状态。另外,行为选择单元80可以根据来自输入语意转换器模块59的识别结果从一组行为中选择要通过机器人1表达的行为。
然后,调节器72根据由内部状态模型单元71获取的内部状态和由行为选择单元80获取的行为产生添加了情感的行为信息,并将具有情感的行为信息输出给输出语意转换器模块68。
(4)输出语意转换器模块68的操作
输出语意转换器模块68拥有关于机器人1的类型(两足动物或四足动物)、形状等的信息,并根据与机器人1有关的信息控制信号处理模块61至67以实现来自调节器72的行为信息。在机器人1是例如四足动物类型的情况下,由于输出语意转换器模块68知道机器人1是四足动物类型,当它被从调节器72馈送行为信息“前进(向前移动)”时,它输出命令给控制四条腿的信号处理模块,以便实现行为“前进”。此时,从调节器72接收抽象行为命令,输出语意转换器模块68将发送命令给控制四条腿的信号处理模块61至67的每一个。
信号处理模块61至67控制来自输出语意转换器模块68的对应的、基于装置的命令。因此,在前述行为决定系统70中决定(选择)的行为将被表达为机器人1的实际行为。
另外,机器人1用被管理的姿态和运动进行举止。原则上,机器人1的每个构件独立运转,但是由于如此管理姿态和运动,机器人1被禁止独立地进行预定的运动。
如图1所示,机器人1包括身体单元2和都连接于身体单元2的腿部单元3A至3D,头部单元4和尾部单元5。因此,在机器人1中,这些单元基本上可以在信号处理模块61至67的控制下为所选择的行为独立地运动。可是,在某些情况下,各构件之间的干涉将导致适当的运动。另外,在某些情况下,从当前姿态到期望的姿态或运动的转变是不可能的。
为了防止不合理的或不可能的姿态或各单元间的干涉,相互调准各单元以管理姿态和运动。在机器人1中,由图4所示的信号处理模块(姿态管理模块)61管理姿态和运动。
更具体地,当馈送给姿态管理模块61指令“向前移动(前进)”而机器人1正处于坐位置时,搜索姿态变化路径,姿态从“坐”沿着该路径变化到“走”状态。例如,通过一组姿态和运动搜索姿态沿其从“坐”变化到“走”状态的姿态变化路径。然后,基于搜索从“坐”变化到“走”状态的姿态变化路径的结果,为了在变化路径上实现姿态和运动,根据变化路径的顺序发送命令给信号处理模块。因此,在机器人1中,期望的目标姿态和运动,即,已经由前述的行为决定系统70决定的行为,可以实现防止任何不可能或不合理的姿态或各单元之间的干涉。
在前面已经描述了机器人1的结构和操作。由于前述的结构,机器人1可以输出使用行为学方法决定的行为。因此,机器人1将与活物或动物更加相似,用户将对机器人1感觉更亲切和满意。
(5)实现本发明的其它方式
在前面,已经描述了关于机器人1的本发明的最佳方式。可是,本发明还可以用下面描述的方式的任何一种来实现。在前述的实施例中,行为决定系统70参照动机信息最终决定选择行为。例如,在图6B所示的实施例中,参照动机信息选择行为“向前移动(前进)。可是,最终的行为选择可以不用参照动机信息来决定。
更具体地,例如如图26A和26B所示,参照诸如考虑中的与目标的距离的感知信息的信息(除动机信息外)选择从属于“摄取行为”的行为“接近水”和从属于“接近水”的更进一步的行为“向前移动”。例如,当打算某个行为(不确定的行为)时,动机将极大地作用于行为的选择。包括可能行为的行为范围被缩窄,然后用与动机分离的可能行为,行为选择过程(行为选择想法)转换到用于实现各行为的过程。即,决定最终选择的行为以便不受动机的影响。然后,例如,感知信息被用于行为的最终决定。注意,可以定义模式层是第0层而模块层是第一层。
例如,为了如上所述不根据动机信息决定行为,如图27和28所示提供有运动发生器100。运动发生器100从由行为选择处理器根据感知信息等选择的行为中选择行为“接近水”和从属于前述行为并实现运动“向前移动(前进)”的运动。然后,运动发生器100输出选择的运动给调节器72,调节器72将输出用如上从内部状态模型单元71发送的情感调节的行为。
更具体地,运动发生器100包括感知信息获取单元90和行为选择处理器102,如图29所示。例如,提供于运动发生器100中以存储来自输出语意转换器模块68的各种信息的目标信息存储器94被用于选择行为选择处理器102中的运动。因此,当期望的行为是“向前移动(前进)”时,运动发生器100仅使用诸如与目标的距离(例如,到目标的距离是10厘米的信息)和到该目标的方向(例如,目标在机器人1的右侧的信息)的信息,信息的两个要素存储于目标信息存储器94中,以选择行为选择处理器102中的运动。
在前述的实施例中,由行为选择单元80选择一组行为中的一个。例如,行为选择单元80拥有关于一组行为的信息并根据关于该行为的数据选择各行为中的一个。可是,本发明不限于行为决定的这种方式。
例如,行为决定系统70可以具有按照面向对象设计行为决定部分。注意,甚至当按照面向对象建立行为决定系统时,还照样使用包括高级行为和低级行为的分层结构。对于行为的选择,从用目标的单元组织的行为组中用目标的单元选择行为。更具体地,对于行为的选择,行为决定系统具有包含一组行为选择单元(目标或线程)801、802和803的分层结构,如图30所示。
在这个实施例中,作为对象的行为选择单元提供在上和下两层中,如图30所示。可是,不用说,本发明不限于行为决定系统70的这个结构。
行为选择单元801、802和803中的每一个包括感知信息获取单元90、动机信息获取单元81和与行为决定系统70中的行为选择单元80相近的行为选择处理器82。
在这种情况下,较低层中的行为选择单元802和803根据由较高层中的行为选择单元801选择的行为选择行为。即,较上层的行为选择导致了较下层中的行为选择单元之一的行为选择。较下层中的行为选择单元将选择低级行为。
然后,位于包含行为选择单元801、802和803的组的这个行为决定系统的最下层中的行为选择单元将关于所选择的行为的信息传递给前述的运动发生器100。
用对于面向目标的行为决定的行为决定系统,没必要总是知道整个系统关于行为决定是如何维持的,由此可以减轻行为决定的负担。对于新行为的添加,它足够添加对应的新目标,由此使得重写行为选择的所有数据没有必要。新行为的添加意味着伴随着成长等级的变化,通过学习或新行为的添加而获取新行为。
图6B或26B中所示的子系统层(SUBSYSTEM)、模式层(MODE1和MODE2)和模块层的行为组结构进一步详细示于图31和图32中。
在前面已经描述的机器人设备中,由检测装置检测外部或内部信息,由理由因素获取装置从由检测装置检测的外部或内部信息中获取影响行为的理由因素,由事件倾向获取装置根据由理由因素获取装置获取的理由因素,获取受理由因素影响的行为的事件倾向,由事件倾向比较装置在由事件倾向获取装置获取的、属于相同组的两个或更多行为的事件倾向中进行比较,由行为选择装置根据事件倾向比较装置进行的事件倾向比较的结果选择一个行为,并且由运动部件控制装置根据行为选择装置选择的行为控制机器人设备的运动部件,以使机器人设备表达所选择的行为。简单地讲,机器人设备通过在行为的事件倾向之间的比较选择在理由因素的影响下决定的一个行为,并按照行为学方法表达该行为。
在前述的用于决定机器人设备的行为的方法中,在信息检测步骤,由检测装置检测外部或内部信息;在理由因素获取步骤,从在信息检测步骤检测的外部或内部信息中获取影响机器人设备的行为的理由因素;在事件倾向获取步骤,根据在理由因素获取步骤获取的理由因素,获取受理由因素影响的行为的事件倾向;在事件倾向比较步骤,在在事件倾向获取步骤获取的、属于相同组的两个或更多行为的事件倾向中进行比较;在行为选择步骤,根据在事件倾向比较步骤进行的事件倾向比较的结果选择一个行为;并且在运动部件控制步骤,根据在行为选择步骤中选择的行为控制机器人设备的运动部件,以使机器人设备表达所选择的行为。简单地讲,机器人设备通过在行为的事件倾向之间的比较选择在理由因素的影响下决定的一个行为,并按照行为学方法表达该行为。

Claims (20)

1.一种机器人设备,其运动部件受到控制以使该机器人设备富于表情地进行举止,该设备包括:
用于检测外部或内部信息的装置;
用于从由信息检测装置检测的外部或内部信息中获取影响行为的理由因素的装置;
用于根据由理由因素获取装置获取的理由因素,获取受理由因素影响的行为的事件倾向的装置;
用于在由事件倾向获取装置获取的、属于相同组的两个或更多行为的事件倾向中进行比较的装置;
用于根据事件倾向比较装置进行的事件倾向比较的结果选择一个行为的装置;和
用于根据行为选择装置选择的行为控制该运动部件,以使机器人设备表达所选择的行为的装置;
由行为选择装置选择的行为的事件倾向适应于理由因素而变化,该理由因素由于行为的实际发生可变。
2.如权利要求1所述的设备,其中理由因素获取装置至少获取关于感知的理由因素和关于动机的理由因素。
3.如权利要求2所述的设备,其中理由因素获取装置获取关于动机的、包括本能和情感要素的理由因素。
4.如权利要求3所述的设备,其中本能要素至少包括“疲劳”、“温度”、“疼痛”、“饥饿”、“口渴”、“友爱”、“好奇”、“排泄”和“性爱”中的一个,情感要素至少包括“快乐”、“悲伤”、“愤怒”、“惊奇”、“厌恶”、“恐惧”、“挫折”、“厌倦”、“困倦”、“合群”、“耐心”、“紧张”、“放松”、“警惕”、“内疚”、“困扰”、“忠诚”、“屈服”和“嫉妒”中的一个。
5.如权利要求1所述的设备,进一步包括行为选择系统,该系统中的一组能够发生的行为以分层结构的形式组织,属于相同组的一组低级行为指示高级行为的具体行为,并且其中:
事件倾向比较装置比较相应于该组高级行为的组中的该组低级行为的事件倾向;
行为选择装置根据由事件倾向比较装置进行的事件倾向比较的结果选择低级行为;和
当行为选择装置选择的行为是低级行为时,运动部件控制装置根据该低级行为控制运动部件。
6.如权利要求5所述的设备,其中:
理由因素获取装置获取关于感知的理由因素和关于动机的理由因素;和
事件倾向获取装置根据关于感知的理由因素获取最低层中的至少一个行为的事件倾向。
7.如权利要求1所述的设备,还包括一组用于行为选择的目标;并且其中分别由该组目标实现理由因素获取装置、事件倾向获取装置和行为选择装置。
8.如权利要求1所述的设备,其中事件倾向比较装置通过行为判断(专有控制)在其事件倾向将被比较的行为的事件倾向之间比较一组事件倾向。
9.如权利要求1所述的设备,其中所述检测装置是传感器。
10.如权利要求9所述的设备,其中理由因素获取装置从由传感器检测的、为外部或内部信息的传感器信息获取评价行为的理由因素。
11.一种用于决定机器人设备的行为的方法,所述机器人设备的运动部件受到控制以使该机器人设备富于表情地进行举止,该方法包括步骤:
由信息检测装置检测外部或内部信息;
从在信息检测步骤检测的外部或内部信息中获取影响行为的理由因素;
基于在理由因素获取步骤获取的理由因素,获取受理由因素影响的行为的事件倾向;
在由事件倾向获取步骤获取的、属于相同组的两个或更多行为的事件倾向之间进行比较;
基于在事件倾向比较步骤进行的事件倾向比较的结果,选择行为之一;
基于在行为选择步骤选择的行为控制运动部件,以使机器人设备表达所选择的行为;
在行为选择步骤所选择的行为的事件倾向适应于理由因素而变化,该理由因素由于行为的实际发生可变。
12.如权利要求11所述的方法,其中在理由因素获取步骤,至少获取有关于感知的理由因素和关于动机的理由因素。
13.如权利要求12所述的方法,其中在理由因素获取步骤,获取有关于动机的、包括本能和情感要素的理由因素。
14.如权利要求13所述的方法,其中本能要素至少包括“疲劳”、“温度”、“疼痛”、“饥饿”、“口渴”、“友爱”、“好奇”、“排泄”和“性爱”中的一个,情感要素至少包括“快乐”、“悲伤”、“愤怒”、“惊奇”、“厌恶”、“恐惧”、“挫折”、“厌倦”、“困倦”、“合群”、“耐心”、“紧张”、“放松”、“警惕”、“内疚”、“困扰”、“忠诚”、“屈服”和“嫉妒”中的一个。
15.如权利要求11所述的方法,其中:
所述机器人设备进一步包括行为选择系统,该系统中的一组能够发生的行为以分层结构的形式组织,属于相同组的一组低级行为指示高级行为的具体行为;
在事件倾向比较步骤中,比较相应于高级行为的组中的该组低级行为的事件倾向;
在行为选择步骤中,根据在事件倾向比较步骤进行的事件倾向比较的结果选择低级行为;和
在运动部件控制步骤中,当在行为选择步骤中选择的行为是低级行为时,根据该低级行为控制运动部件。
16.如权利要求15所述的方法,其中:
在理由因素获取步骤中,获取关于感知的理由因素和关于动机的理由因素;和
在事件倾向获取步骤中,根据关于感知的理由因素获取最低层中的至少一个行为的事件倾向。
17.如权利要求11所述的方法,其中:
所述机器人设备还包括一组用于行为选择的目标;并且
分别由该组目标实现理由因素获取步骤、事件倾向获取步骤和行为选择步骤。
18.如权利要求11所述的方法,其中在事件倾向比较步骤中,通过行为判断(专有控制)在其事件倾向将被比较的行为的事件倾向之间比较一组事件倾向。
19.如权利要求11所述的方法,其中所述检测装置是传感器。
20.如权利要求19所述的方法,其中在理由因素获取步骤中,从由传感器检测的、为外部或内部信息的传感器信息获取评价行为的理由因素。
CN01801218A 2000-03-24 2001-03-26 机器人设备行为决定方法和机器人设备 Pending CN1372506A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP88596/00 2000-03-24
JP2000088596 2000-03-24

Publications (1)

Publication Number Publication Date
CN1372506A true CN1372506A (zh) 2002-10-02

Family

ID=18604453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN01801218A Pending CN1372506A (zh) 2000-03-24 2001-03-26 机器人设备行为决定方法和机器人设备

Country Status (5)

Country Link
US (1) US6650965B2 (zh)
EP (1) EP1247624A1 (zh)
KR (1) KR20020026165A (zh)
CN (1) CN1372506A (zh)
WO (1) WO2001070468A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504546B (zh) * 2008-12-12 2010-04-21 北京科技大学 一种儿童机器人的体位跟踪装置
CN102063640A (zh) * 2010-11-29 2011-05-18 北京航空航天大学 基于效用差分网络的机器人行为学习模型
CN101795831B (zh) * 2007-09-06 2013-05-01 奥林巴斯株式会社 机器人控制系统、机器人
CN103179157A (zh) * 2011-12-22 2013-06-26 张殿礼 一种智能网络机器人及控制方法
CN103354775A (zh) * 2010-12-17 2013-10-16 奥尔德巴伦机器人股份公司 设有用于其物理和虚拟资源的管理器的类人机器人,以及使用和编程方法
CN103752018A (zh) * 2014-01-24 2014-04-30 成都万先自动化科技有限责任公司 娱乐机器猩猩
CN103752019A (zh) * 2014-01-24 2014-04-30 成都万先自动化科技有限责任公司 娱乐机器犬
CN104554510A (zh) * 2015-01-04 2015-04-29 武汉理工大学 带有柔性结构的仿生机器狗
CN105945949A (zh) * 2016-06-01 2016-09-21 北京光年无限科技有限公司 面向智能机器人的信息处理方法及系统
CN109070332A (zh) * 2016-05-20 2018-12-21 Groove X 株式会社 行为自主型机器人以及计算机程序

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002127059A (ja) * 2000-10-20 2002-05-08 Sony Corp 行動制御装置および方法、ペットロボットおよび制御方法、ロボット制御システム、並びに記録媒体
WO2003078113A1 (fr) * 2002-03-15 2003-09-25 Sony Corporation Systeme de commande de robot, procede correspondant, et robot
JP2004001162A (ja) * 2002-03-28 2004-01-08 Fuji Photo Film Co Ltd ペットロボット充電システム、受取装置、ロボット、及びロボットシステム
JP2004268235A (ja) * 2003-03-11 2004-09-30 Sony Corp ロボット装置、その行動制御方法及びプログラム
US7613553B1 (en) * 2003-07-31 2009-11-03 The United States Of America As Represented By The Secretary Of The Navy Unmanned vehicle control system
US7689319B2 (en) * 2003-08-12 2010-03-30 Advanced Telecommunications Research Institute International Communication robot control system
KR100762653B1 (ko) * 2004-03-31 2007-10-01 삼성전자주식회사 캐릭터 육성 시뮬레이션을 제공하는 이동 통신 장치 및 방법
GB0407260D0 (en) * 2004-03-31 2004-05-05 Ibm Accelerated solution of constraint satisfaction problems by partioning of the variable space
WO2005099971A1 (ja) * 2004-04-16 2005-10-27 Matsushita Electric Industrial Co., Ltd. ロボット、ヒント出力装置、ロボット制御システム、ロボット制御方法、ロボット制御プログラム及び集積回路
JP4179230B2 (ja) * 2004-06-07 2008-11-12 ソニー株式会社 ロボット装置及びその動作制御方法
US8000837B2 (en) 2004-10-05 2011-08-16 J&L Group International, Llc Programmable load forming system, components thereof, and methods of use
US7047108B1 (en) * 2005-03-01 2006-05-16 Sony Corporation Enhancements to mechanical robot
US8588969B2 (en) * 2005-03-01 2013-11-19 Sony Corporation Enhancements to mechanical robot
JP2007041735A (ja) * 2005-08-01 2007-02-15 Toyota Motor Corp ロボット制御システム
US7797079B2 (en) 2005-12-09 2010-09-14 Electronics And Telecommunications Research Institute Apparatus for controlling robot and method thereof
KR100825719B1 (ko) * 2005-12-09 2008-04-29 한국전자통신연구원 복수의 감정 생성 로봇 및 로봇에서 복수의 감정 생성 방법
KR100827088B1 (ko) 2006-09-07 2008-05-02 삼성전자주식회사 소프트웨어 로봇 장치
KR100850352B1 (ko) * 2006-09-26 2008-08-04 한국전자통신연구원 상태 정보를 이용하여 감성을 표현하기 위한 지능형 로봇의감성 표현 장치 및 그 방법
KR101028814B1 (ko) * 2007-02-08 2011-04-12 삼성전자주식회사 소프트웨어 로봇 장치와 그 장치에서 소프트웨어 로봇의행동 발현 방법
EP1956528B1 (en) 2007-02-08 2018-10-03 Samsung Electronics Co., Ltd. Apparatus and method for expressing behavior of software robot
KR100866212B1 (ko) * 2007-02-08 2008-10-30 삼성전자주식회사 유전자 로봇 플랫폼 및 유전자 로봇 행동 발현 방법
JP5150341B2 (ja) * 2008-04-10 2013-02-20 株式会社東芝 データ作成装置及び方法
WO2009158653A1 (en) * 2008-06-27 2009-12-30 Intuitive Automata, Inc. Apparatus and method for assisting in achieving desired behavior patterns
US20100181943A1 (en) * 2009-01-22 2010-07-22 Phan Charlie D Sensor-model synchronized action system
CN101780675B (zh) * 2010-03-19 2011-08-31 上海大学 双面机器人头部装置
US8483873B2 (en) * 2010-07-20 2013-07-09 Innvo Labs Limited Autonomous robotic life form
US8762305B1 (en) * 2010-11-11 2014-06-24 Hrl Laboratories, Llc Method and system for dynamic task selection suitable for mapping external inputs and internal goals toward actions that solve problems or elicit rewards
JP2013146310A (ja) * 2012-01-17 2013-08-01 Sharp Corp 自走式電子機器
CN104246818B (zh) * 2012-09-28 2018-01-02 松下电器(美国)知识产权公司 行动倾向的确定方法以及行动倾向的确定系统
US9211645B2 (en) * 2012-12-13 2015-12-15 Korea Institute Of Industrial Technology Apparatus and method for selecting lasting feeling of machine
US9324245B2 (en) * 2012-12-13 2016-04-26 Korea Institute Of Industrial Technology Apparatus and method for creating artificial feelings
EP3154749A4 (en) * 2014-06-12 2017-12-06 Play-i, Inc. System and method for reinforcing programming education through robotic feedback
CN107291654A (zh) * 2016-03-31 2017-10-24 深圳光启合众科技有限公司 机器人的智能决策系统和方法
JP6838607B2 (ja) * 2016-06-06 2021-03-03 ソニー株式会社 仮想生物制御システム、仮想生物制御方法およびプログラム
JP6761598B2 (ja) * 2016-10-24 2020-09-30 富士ゼロックス株式会社 感情推定システム、感情推定モデル生成システム
WO2018157355A1 (zh) * 2017-03-02 2018-09-07 深圳市爱维尔智能科技有限公司 一种人型智能机器人及人机交流系统
US20190061617A1 (en) * 2017-08-29 2019-02-28 GM Global Technology Operations LLC Audio Control Systems And Methods Based On Driver Helmet Use
US10635102B2 (en) * 2017-10-17 2020-04-28 Steering Solutions Ip Holding Corporation Driver re-engagement assessment system for an autonomous vehicle
CN107598928B (zh) * 2017-10-25 2019-11-12 中国科学院沈阳自动化研究所 基于语义模型的相机与机器人控制系统及其自动适配方法
US10754318B2 (en) 2017-12-21 2020-08-25 X Development Llc Robot interaction with objects based on semantic information associated with embedding spaces
CN109991973A (zh) * 2017-12-29 2019-07-09 深圳市优必选科技有限公司 一种机器人运动控制方法、装置以及机器人
US11097418B2 (en) 2018-01-04 2021-08-24 X Development Llc Grasping of an object by a robot based on grasp strategy determined using machine learning model(s)
US20200022335A1 (en) * 2018-07-18 2020-01-23 Yuan Qing Wu Dog's play partner AI dog

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4657104A (en) * 1983-07-23 1987-04-14 Cybermation, Inc. Concentric shaft mobile base for robots and the like
US5742738A (en) * 1988-05-20 1998-04-21 John R. Koza Simultaneous evolution of the architecture of a multi-part program to solve a problem using architecture altering operations
US5983161A (en) * 1993-08-11 1999-11-09 Lemelson; Jerome H. GPS vehicle collision avoidance warning and control system and method
JPH0876810A (ja) 1994-09-06 1996-03-22 Nikon Corp 強化学習方法及び装置
JP3413694B2 (ja) 1995-10-17 2003-06-03 ソニー株式会社 ロボット制御方法およびロボット
US5963712A (en) * 1996-07-08 1999-10-05 Sony Corporation Selectively configurable robot apparatus
US5832189A (en) * 1996-09-26 1998-11-03 Interval Research Corporation Affect-based robot communication methods and systems
JP3761286B2 (ja) 1997-06-02 2006-03-29 富士通株式会社 ロボット制御方法、制御装置、記憶媒体及びロボット
JP3178393B2 (ja) 1997-11-11 2001-06-18 オムロン株式会社 行動生成装置、行動生成方法及び行動生成プログラム記録媒体
JP3765356B2 (ja) * 1997-12-22 2006-04-12 ソニー株式会社 ロボツト装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101795831B (zh) * 2007-09-06 2013-05-01 奥林巴斯株式会社 机器人控制系统、机器人
CN101504546B (zh) * 2008-12-12 2010-04-21 北京科技大学 一种儿童机器人的体位跟踪装置
CN102063640A (zh) * 2010-11-29 2011-05-18 北京航空航天大学 基于效用差分网络的机器人行为学习模型
CN102063640B (zh) * 2010-11-29 2013-01-30 北京航空航天大学 基于效用差分网络的机器人行为学习模型
CN103354775A (zh) * 2010-12-17 2013-10-16 奥尔德巴伦机器人股份公司 设有用于其物理和虚拟资源的管理器的类人机器人,以及使用和编程方法
CN103354775B (zh) * 2010-12-17 2016-08-31 奥尔德巴伦机器人股份公司 设有用于其物理和虚拟资源的管理器的类人机器人、及使用方法
CN103179157A (zh) * 2011-12-22 2013-06-26 张殿礼 一种智能网络机器人及控制方法
CN103752018A (zh) * 2014-01-24 2014-04-30 成都万先自动化科技有限责任公司 娱乐机器猩猩
CN103752019A (zh) * 2014-01-24 2014-04-30 成都万先自动化科技有限责任公司 娱乐机器犬
CN104554510A (zh) * 2015-01-04 2015-04-29 武汉理工大学 带有柔性结构的仿生机器狗
CN109070332A (zh) * 2016-05-20 2018-12-21 Groove X 株式会社 行为自主型机器人以及计算机程序
CN105945949A (zh) * 2016-06-01 2016-09-21 北京光年无限科技有限公司 面向智能机器人的信息处理方法及系统

Also Published As

Publication number Publication date
US20020156751A1 (en) 2002-10-24
WO2001070468A1 (fr) 2001-09-27
EP1247624A1 (en) 2002-10-09
KR20020026165A (ko) 2002-04-06
US6650965B2 (en) 2003-11-18

Similar Documents

Publication Publication Date Title
CN1372506A (zh) 机器人设备行为决定方法和机器人设备
CN1151016C (zh) 机器人设备及其控制方法,和机器人性格判别方法
CN1283428C (zh) 机器人设备、控制机器人设备动作的方法
CN1148281C (zh) 机器人系统、机器人装置及机器人装置的外装
CN1758991A (zh) 机器人装置、其行为控制方法及程序
CN1942289A (zh) 机器人、提示输出装置、机器人控制系统、机器人控制方法、机器人控制程序及集成电路
CN1161700C (zh) 网络系统
CN1246126C (zh) 机器人装置
CN1553845A (zh) 机器人系统和机器人设备的控制方法
CN1304345A (zh) 机器人装置及其控制方法
CN1897556A (zh) 信息处理设备、信息处理方法和信息处理程序
CN1392824A (zh) 编辑系统和方法及存储介质
CN1018069B (zh) 多厢体电梯系统的群控方法及装置
CN1855224A (zh) 信息处理装置、信息处理方法及程序
CN1163837C (zh) 网络访问管理系统和方法
CN100346941C (zh) 机器人及机器人的姿态控制方法
CN101044484A (zh) 信息处理装置、方法以及程序
CN1749999A (zh) .net数据类型和实例的持久存储
CN1808414A (zh) 学习、识别和生成数据的方法和设备以及计算机程序
CN1244850C (zh) 响应指定型的设备控制系统和方法
CN1299488A (zh) 改进的搜索引擎
CN1095105C (zh) 控制可移动装置的设备与方法
CN1274439A (zh) 窗口显示装置
CN1518488A (zh) 有腿移动式机器人的动作控制装置和动作控制方法以及机器人装置
CN1763743A (zh) 图表上的自动标签放置系统和方法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
C20 Patent right or utility model deemed to be abandoned or is abandoned