CN112163666B

CN112163666B - 一种基于强化学习的仿生机器鼠行为交互方法及仿真系统

Info

Publication number: CN112163666B
Application number: CN202011122467.5A
Authority: CN
Inventors: 石青; 谢宏钊; 贾广禄; 高子航; 孙韬; 周祺杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-06-11
Anticipated expiration: 2040-10-20
Also published as: CN112163666A

Abstract

本发明公开了一种基于强化学习的仿生机器鼠行为交互方法及仿真系统。通过当前行为交互过程中实验鼠所处状态，利用马尔可夫决策过程理论，对仿生机器鼠动作表现进行决策，解决了仿生机器鼠与实验鼠行为交互过程中存在的行为模式单一、适应性弱的问题。本发明能够适应实验鼠的随机行为，无论交互对象的年龄阶段、性别、情绪状态如何变化，这一方法都能根据当前状态做出合适决策，开展有效行为交互。

Description

一种基于强化学习的仿生机器鼠行为交互方法及仿真系统

技术领域

本发明涉及仿生机器鼠行为交互领域，特别是涉及一种基于强化学习的仿生机器鼠行为交互方法及仿真系统。

背景技术

实验鼠是被广泛使用的模式动物之一，对其行为模式的研究受到生物学家的广泛关注，但由于生物鼠行为随机、难以预测，相关的实验开展存在困难。利用仿生机器人与生物开展行为交互实验，揭示生物的行为生成机制和研究仿生机器人的控制策略是智能机器人和生物学领域的热点之一。仿生机器鼠模仿生物鼠结构设计，能够引发生物鼠的特定反应，二者交互成为当前技术热点。

当前利用仿生机器鼠行为交互实现方案主要分为示教实验和社交反应测试两类，示教实验中，仿生机器鼠重复表现特定行为，作为对实验鼠的刺激，实验鼠进而表现与该刺激相同的行为。社交反应测试中，通过预编程方式控制仿生机器鼠行为，刺激实验鼠的行为反应。

示教实验中，为刺激实验鼠产生模拟仿生机器鼠的行为，需要对其进行重复刺激，因此要求仿生机器鼠不间断表现单一特定行为。在这一条件下，仿生机器鼠与实验鼠之间的交互是单一的、非自然的，更无法适应实验鼠行为表现的随机性。在社交反应测试中，仿生机器鼠的行为表现由预编程程序确定，无法根据实验鼠行为表现适时调整，无法适应实验鼠行为渐进适应的特点。

发明内容

本发明的目的是提供一种基于强化学习的仿生机器鼠行为交互方法及仿真系统，通过当前行为交互过程中实验鼠所处状态，利用马尔可夫决策过程理论，对仿生机器鼠动作表现进行决策，解决了仿生机器鼠与实验鼠行为交互过程中存在的行为模式单一、适应性弱的问题。

为实现上述目的，本发明提供了如下方案：

一种基于强化学习的仿生机器鼠行为交互方法，包括：

随机初始化二维决策表，所述决策表包括状态-动作组合；

根据交互对象的位置及动作，判定交互对象的当前状态；

根据上一时刻状态的价值以及当前状态的价值计算反馈值；

基于所述反馈值，根据马尔可夫决策过程对所述决策表中对应的状态-动作组合的值进行更新；

根据∈-greedy算法从更新后的状态-动作组合中选择当前状态对应的动作；

根据选择的动作由仿真系统进行模拟实现。

可选地，所述状态集合包括：背后、左侧、右侧、远距、梳理、被梳理、攀爬、匍匐和其他9种状态；所述动作集合包括：直线前进、直线后退、原地左转、原地右转、直立、嗅探、梳理、被梳理、攀爬和匍匐共10种动作。

可选地，所述反馈值的计算公式如下：

r(s，s')＝V(s')-V(s)-0.5

其中，r表示反馈值，s表示上一时刻状态，s'表示当前状态，V(s)表示上一时刻状态的价值，V(s')表示当前状态的价值。

可选地，所述根据马尔可夫决策过程对所述决策表中对应的状态-动作组合的值进行更新的公式如下：

Q′(s,a)＝Q(s,a)+α[r+γargmaxQ(s′,a)-Q(s,a)]

其中，Q′(s,a)表示更新后的决策表，Q(s,a)表示更新前的决策表，a表示动作，α和γ均为0～1之间的常数。

可选地，所述根据∈-greedy算法从更新后的状态-动作组合中选择当前状态对应的动作，具体包括：

a、指定0～1之间的常数∈；

b、利用计算机随机数引擎生成0～1之间的随机数ra；

c、如果ra≥∈，执行步骤d；如果ra＜∈，执行步骤e；

d、在更新后的决策表中寻找当前状态对应的动作值最大的动作；

e、在动作集合中以相同的概率随机选取动作。

本发明还提供了一种应用于上述基于强化学习的仿生机器鼠行为交互方法的仿真系统，包括：

行为决策层，用于基于强化学习的仿生机器鼠行为交互方法生成行为决策；

动作执行层，与所述行为决策层连接，用于根据所述行为决策实现仿生机器鼠模型动作模拟；

关节控制层，与所述动作执行层连接，用于实现对仿生机器鼠模型各关节的位置及速度控制。

可选地，所述机器鼠模型由两个驱动轮驱动，所述机器鼠模型的躯干部分为7自由度串联机械臂。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种基于强化学习的仿生机器鼠行为交互方法及仿真系统，通过当前行为交互过程中实验鼠所处状态，利用马尔可夫决策过程理论，对仿生机器鼠动作表现进行决策，解决了仿生机器鼠与实验鼠行为交互过程中存在的行为模式单一、适应性弱的问题。本发明能够适应实验鼠的随机行为，无论交互对象的年龄阶段、性别、情绪状态如何变化，这一方法都能根据当前状态做出合适决策，开展有效行为交互。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于强化学习的仿生机器鼠行为交互方法的流程图；

图2为本发明实施例基于强化学习的仿生机器鼠行为交互方法的原理图；

图3为本发明实施例状态分类标准；

图4为本发明实施例状态集合；

图5为本发明实施例行为交互仿真系统总体架构

图6为本发明实施例机器鼠模型；

图7为本发明实施例关节控制层实现方式；

图8为本发明实施例动作执行层实现方式为。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1-2所示，一种基于强化学习的仿生机器鼠行为交互方法，包括：

步骤101：随机初始化二维决策表，所述决策表包括状态-动作组合。

决策表行数与行为交互实验所设置状态数量相一致，全部状态构成状态集合S，包括背后、左侧、右侧、远距、梳理、被梳理、攀爬、匍匐和其他9种状态。列数与行为交互实验所设置动作数量相一致，全部动作构成动作集合A，包括直线前进、直线后退、原地左转、原地右转、直立、嗅探、梳理、被梳理、攀爬和匍匐共10种动作。

步骤102：根据交互对象的位置(距离、角度)及动作，判定交互对象的当前状态。

步骤103：根据上一时刻状态的价值以及当前状态的价值计算反馈值。

r(s，s')＝V(s')-V(s)-0.5

其中，r表示反馈值，s表示上一时刻状态，s'表示当前状态，V(s)表示上一时刻状态的价值，V(s')表示当前状态的价值。状态价值如表1所示：

表1状态价值

步骤104：基于所述反馈值，根据马尔可夫决策过程对所述决策表中对应的状态-动作组合的值进行更新。

Q′(s,a)＝Q(s,a)+α[r+γargmaxQ(s′,a)-Q(s,a)]

步骤105：根据∈-greedy算法从更新后的状态-动作组合中选择当前状态对应的动作，∈-greedy算法是一种单项选择策略。

a、指定0～1之间的常数∈；

b、利用计算机随机数引擎生成0～1之间的随机数ra；

c、如果ra＜∈，执行步骤d；如果ra＜∈，执行步骤e；

d、在更新后的决策表中寻找当前状态对应的动作值最大的动作；公式如下：

a＝arg maxQ(s，：)；

e、在动作集合中以相同的概率随机选取动作，公式如下：

即公式3：

a＝argrandom(A)。

步骤106：根据选择的动作由仿真系统进行模拟实现。

在仿生机器鼠行为交互中，初始化决策表时设定的状态分类标准如图3所示，其中d_cc为仿生机器鼠与交互对象中心点的距离，β为仿生机器鼠自身中心点与鼻端连线和自身中心点与交互对象中心点连线构成的夹角；据此设定的状态集合如图4所示。

用于验证该策略的仿生机器鼠行为交互仿真系统总体架构如图5所示。该系统通过ROS(Robot Operation System：一种用于机器人控制的计算机操作系统)实现，其中关节控制层调用ROS中相应关节指令方法，实现对仿生机器鼠模型各关节的位置及速度控制；动作执行层通过调用关节控制层封装的方法，实现仿生机器鼠模型动作模拟；行为决策层实现上述基于强化学习的仿生机器鼠行为交互策略。

行为交互仿真系统使用的机器鼠模型如图6所示，该机器鼠足部由两个驱动轮驱动，躯干部分为7自由度串联机械臂。

关节控制层实现方式如图7所示。其中，仿真内核通过readsim()和writesim()与Gazebo仿真器进行通信，并进行状态变换和关节速度、位置变换；硬件资源接口隔离上层控制模块和下层仿真模块；Controller Manager负责加载、卸载和更新控制仿生机器鼠各个关节的控制器；上层接口为与动作执行层通信部分。

动作执行层实现方式如图8所示。其中，Follow Joint Trajectory与关节控制层的/body_group_trajectory_controller部分双向通信，完成对仿生机器鼠躯干部分关节的控制，MoveIt完成躯干部分运动涉及的运动学计算、路径规划及碰撞检测，并以位置形式发布各个躯干的控制指令，即：若动作执行层向/base_link1话题发布“1.57”的命令，即表示控制机器鼠的base_link1关节运动至1.57rad位置。对轮式仿生机器鼠轮部的控制由其直接发布相应话题实现，即：若动作执行层向/left_wheel话题发布“10”的命令，即表示控制机器鼠左轮以10rad/s的速度转动。C++接口与行为生成层通信，获取并执行前述基于强化学习的机器鼠行为交互决策机制发布的动作编号a。

为控制机器鼠产生相应的仿鼠动作，本发明根据实验鼠动作特点设计了直线前进、直线后退、原地左转、原地右转、直立、嗅探、梳理、被梳理、攀爬和匍匐共10种机器鼠的基本动作。其中包括机器鼠轮部动作的直线前进、直线后退、原地左转和原地右转6种，实现方式为：

直线前进：机器鼠左轮转速10rad/s，右轮转速10rad/s；

直线后退：机器鼠左轮转速-10rad/s，右轮转速-10rad/s；

原地左转：机器鼠左轮转速-10rad/s，右轮转速10rad/s；

原地右转：机器鼠左轮转速10rad/s，右轮转速-10rad/s。

此外，对直立、嗅探、梳理、被梳理、攀爬和匍匐共6种涉及机器鼠躯干运动的动作，通过设计各动作对应的关节位置实现：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于强化学习的仿生机器鼠行为交互方法，其特征在于，包括：

随机初始化二维决策表，所述决策表包括状态-动作组合；

根据交互对象的位置及动作，判定交互对象的当前状态；

根据上一时刻状态的价值以及当前状态的价值计算反馈值；所述反馈值的计算公式如下：

r(s，s′)＝V(s′)-V(s)-0.5

其中，r表示反馈值，s表示上一时刻状态，s'表示当前状态，V(s)表示上一时刻状态的价值，V(s')表示当前状态的价值；

根据选择的动作由仿真系统进行模拟实现。

2.根据权利要求1所述的基于强化学习的仿生机器鼠行为交互方法，其特征在于，所述状态集合包括：背后、左侧、右侧、远距、梳理、被梳理、攀爬、匍匐和其他9种状态；所述动作集合包括：直线前进、直线后退、原地左转、原地右转、直立、嗅探、梳理、被梳理、攀爬和匍匐共10种动作。

3.根据权利要求1所述的基于强化学习的仿生机器鼠行为交互方法，其特征在于，所述根据马尔可夫决策过程对所述决策表中对应的状态-动作组合的值进行更新的公式如下：

Q′(s,a)＝Q(s,a)+α[r+γargmaxQ(s′,a)-Q(s,a)]

4.根据权利要求1所述的基于强化学习的仿生机器鼠行为交互方法，其特征在于，所述根据∈-greedy算法从更新后的状态-动作组合中选择当前状态对应的动作，具体包括：

a、指定0～1之间的常数∈；

b、利用计算机随机数引擎生成0～1之间的随机数ra；

c、如果ra≥∈，执行步骤d；如果ra＜∈，执行步骤e；

e、在动作集合中以相同的概率随机选取动作。

5.一种应用于权利要求1-4任意一项所述的基于强化学习的仿生机器鼠行为交互方法的仿真系统，其特征在于，包括：

6.根据权利要求5所述的仿真系统，其特征在于，所述机器鼠模型由两个驱动轮驱动，躯干部分为7自由度串联机械臂。