CN104090573B

CN104090573B - 一种基于蚁群算法的机器人足球动态决策装置及其方法

Info

Publication number: CN104090573B
Application number: CN201410299887.9A
Authority: CN
Inventors: 赵希源
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-06-27
Filing date: 2014-06-27
Publication date: 2017-01-25
Anticipated expiration: 2034-06-27
Also published as: CN104090573A

Abstract

本发明公开了一种基于蚁群算法的机器人足球动态决策装置及其方法，属于人工智能技术领域。所述的机器人足球动态决策装置包括信息监测与提取模块、态势评估模块、动作决策模块、以及效果评估与反馈模块；所述的动态决策方法基于该装置，利用信息监测与提取模块获取球场上对方、己方和足球的信息；利用态势评估模块对球场态势做出评估；利用动作决策模块选取下一进行的动作方案；利用效果评估与反馈模块，将预期效果和实际执行效果比较，更新动作方案的优先级。本发明解决了当前机器人足球比赛中动态适应能力差的缺陷，决策成功率高，可动态修订己方的战术策略，提高战术有效性和球队整体攻防能力。

Description

一种基于蚁群算法的机器人足球动态决策装置及其方法

技术领域

本发明属于人工智能技术领域，具体涉及一种基于蚁群算法的机器人足球动态决策装置及其方法。

背景技术

机器人足球是足球运动与高新技术结合的产物，是研究多智能体系统(Multi-Agent System,简称MAS)，在动态不可预测环境中的协同配合能力的典型开发、验证平台，是未来人工智能领域主要研究方向。机器人足球系统主要包括机器人小车、视觉、决策和无线通讯四个子模块。随着机器人技术的发展，对机器人的底层控制已经较为成熟和精准，而决策模型的好坏已成为机器人足球比赛能否取胜的关键，在计算机仿真比赛中体现的尤为明显。

决策模块是整支球队的大脑，对比赛走势起着决定性的作用。机器人足球策略确定的方法多种多样，目前已有的策略可大致分为以下三类：

(1)直接将设计者的经验写成攻防策略，该方法实现简单，但效率较低，鲁棒性差，不能适应动态环境；

(2)采用BP(Back Propagation)神经网络、案例学习等模型，通过离线学习提高踢球策略，缺点是在实时决策中，不能动态在线学习，不具备在线对抗能力；

(3)采用强化学习与启发式搜素、进化算法等相结合的方式，该方式是对人类思维过程的进一步模拟和逼近，能根据球场态势调整攻防策略，对动态环境具有一定的自适应能力。

近年来，在机器人足球比赛中，强队之间往往同时准备多套战术，“教练”会基于对手特点选择相应的战术，机器人小车也会根据比赛中对方打法特点、攻防效果评估以及场上态势变化动态改变战术策略，这正是对人类足球战术理念的模拟。然而，目前基于该思想进行的机器人足球决策研究并不多见，大多仍以场上的简单信息和基本处理进行决策，对战术执行效果反馈信息利用率差，战术变换欠缺灵活性。

发明内容

本发明针对现有常用机器人足球策略的缺陷，基于人类足球战术理念的优越性和蚁群算法在动态环境中寻找最优路径的高效性，提出了一种基于蚁群算法的机器人足球动态决策装置及其方法，通过将赛场局势和状态进行分析提炼，并将机器人战术任务效果作为反馈，以决策、评估、再决策的方式，做出最适合当前态势的策略，有利于提高己方战术策略的针对性和有效性，具有一定的动态自适应能力。

本发明提出的一种基于蚁群算法的机器人足球动态决策装置，包括以下几个模块：信息监测与提取模块、态势评估模块、动作决策模块、以及效果评估与反馈模块。

信息监测与提取模块用于完成对球场信息的提取。

态势评估模块对提取的球场信息进行数据处理与分析，对球场态势做出整体评估，评估结果分为攻势、较攻势、均衡、较守势、守势及危机，根据式(1)确定。

动作决策模块基于态势评估模块的评估结果，在有限的机器人小车动作组中，以一定的概率进行动作决策，选取下一进行的动作方案。动作方案选中的概率根据式(2)确定。

效果评估与反馈模块对动作方案的预期执行效果和实际执行效果进行对比分析，并根据分析结果对动作方案的优先级进行修改，当本次动作方案的实际执行效果达到预期执行效果时，将该动作方案的优先级加1，否则，将该动作方案的优先级减1，当某动作方案的优先级小于0时，设置该动作方案的优先级为0。

一种基于蚁群算法的机器人足球动态决策方法，包括如下步骤：

步骤1：提取球场信息；

步骤2：对提取的球场信息进行数据处理与分析，对球场态势做出评估，评估结果分为危机、守势、较守势、均衡、较攻势及攻势，根据式(1)确定；

步骤3：根据步骤2的评估结果，在机器人小车动作组中，选取下一进行的动作方案；动作方案选中的概率根据式(2)确定；

步骤4：对动作方案的预期执行效果和实际执行效果进行对比分析，当本次动作方案的实际执行效果达到预期执行效果时，将该动作方案的优先级加1，否则，将该动作方案的优先级减1，当某动作方案的优先级小于0时，设置该动作方案的优先级为0。

根据式(1)确定评估结果：

其中，P_f,pos表示足球的位置，表示对方球员位置的平均分布，w为球场宽度。

根据式(2)确定第i个动作方案被选中的概率P_i：

P_{i} = \frac{N_{i}}{\underset{1 \leq j \leq k}{Σ} N_{j}} - - - (2)

其中，N_i表示第i个动作方案的优先级，k表示动作组中的动作方案总量；各动作方案的优先级初始都设置为1。

本发明基于蚁群算法的机器人足球动态决策装置及其方法，具有以下优点和积极效果：

1)球场信息获取全面，决策成功率高；

2)通过引入效果评估与反馈模块，可针对对方策略改变动态修改战术策略，具有一定的自适应能力，提高了战术有效性和球队整体攻防能力，解决了当前机器人足球比赛中动态适应能力差的缺陷。

附图说明

图1为本发明的机器人足球动态决策的模块示意图；

图2为本发明球场的坐标图。

具体实施方式

本发明是一种基于蚁群算法的机器人足球动态决策方法。针对当前机器人足球比赛中动态适应能力差的缺陷，通过对场上基本信息、状态的分析总结和战术执行效果评估，引入了蚁群算法，动态修订己方的战术策略，有利于提高战术有效性和球队整体攻防能力。下面首先对蚁群算法予以简单介绍。

蚁群算法(ant colony optimization,简称ACO)是一种用来在图中寻找优化路径的机率型算法，其灵感来源于蚂蚁在寻找食物过程中发现路径的行为。各个蚂蚁在没有事先告诉他们食物在什么地方的前提下开始寻找食物。当一只找到食物以后，它会向环境释放一种挥发性分泌物吸引其他的蚂蚁过来，该物质随着时间的推移会逐渐挥发消失，分泌物浓度的大小表征路径的远近，这样越来越多的蚂蚁会找到食物。有些蚂蚁并没有像其它蚂蚁一样总重复同样的路，它们会另辟蹊径，如果另开辟的道路比原来的其他道路更短，那么，渐渐地，更多的蚂蚁被吸引到这条较短的路上来。最后，经过一段时间运行，可能会出现一条最短的路径被大多数蚂蚁重复着。蚁群算法是一种模拟进化算法，研究表明该算法具有许多优良的性质。

本发明受蚁群算法启发，通过评估战术执行效果，动态改变备选方案的优先级，实现了机器人自助适应动态环境变化的能力。其中，优先级高的方案被执行的概率较高，优先级低的方案被执行的概率较低。

下面结合附图，对本发明的机器人足球动态决策装置及其方法进行详细说明。

如图1所示，本发明的基于蚁群算法的机器人足球动态决策装置，主要包括以下模块：信息监测与提取模块1、态势评估模块2、动作决策模块3以及效果评估与反馈模块4。

首先，信息检测与提取模块1对球场信息进行提取与分析，为机器人小车下一步执行动作提供信息基础。为了方便研究，将球场坐标原点设置于球场中心，球场宽w和高H及X和Y轴的方向如图2所示。建立完整球场信息集合I_all，主要包括以下三类：对方信息I_ene，足球信息I_foo和己方信息I_own，如式(1)所示。其中，如式(2)所示，对方信息I_ene包括对方每位队员信息P_e,pos,dir，P_e,pos,dir记载对方队员的位置和跑动方向等，球队控球率u_e，进球数量n_e及队形信息F_glo等；如式(3)所示，足球信息I_foo包括足球位置和运动方向等，记录在P_f,pos,dir中；如式(4)所示，己方信息I_own包括当前己方每位队员信息P_o,pos,dir，P_o,pos,dir记载己方队员的位置和跑动方向等，球队控球率u_o，进球数量n_o及队形信息F_glo等。对方信息和足球信息主要通过视觉系统获取图像提取得到，而己方信息既可通过视觉系统获取，又可通过本队成员之间相互通信获取。

I_all＝[I_ene,I_foo,I_own] (1)

I_ene＝[P_e,pos,dir,u_e,n_e,F_glo] (2)

I_foo＝[P_f,pos,dir] (3)

I_own＝[P_o,pos,dir,u_o,n_o,F_glo] (4)

基于信息监测与提取模块1获取的信息，态势评估模块2进行数据处理与分析，对球场态势做出整体评估与预测。球场态势可分为攻势、较攻势、均衡、较守势、守势及危机等状况，根据信息监测与提取模块1的信息，如球的位置、我方及对方球员位置的平均分布等，对球场态势进行分析，如公式(5)所示。并在此基础上做出动作类型决策，如进攻、防守或守门等球队策略。

P_f,pos表示足球的位置，根据P_f,pos,dir中数据获得；表示对方球员位置的平均分布，对所获得的P_e,pos,dir进行计算得到；w为球场宽度。

动作决策模块3基于球场态势评估结果和历史数据，在有限的可执行动作组中，以一定的概率进行动作决策，机器人小车组基于该模块输出执行下一部动作。由于球队策略都有几种可执行方案，因此，完成球场态势评估后，再交给动作决策模块3作为战术策略的决策依据。动作决策模块3选取备选方案，根据态势分析，从备选的可执行方案中，以一定的规则选出下一步要执行的动作。规则如下：

设备选方案共有k个，方案i对应的优先级为N_i，N_i为自然数。则方案i被选中的概率P_i为：

P_{i} = \frac{N_{i}}{\underset{1 \leq j \leq k}{Σ} N_{j}} - - - (6)

每个方案的初始优先级为N_i＝1，各个方案的优先级相同。态势评估的结果决定了备选方案的优先级，如在控球率低且足球位置靠近我方的态势下，多人包夹截球的动作方案优先级最高。优先级高的被选中的概率较大，优先级低的被选中的概率较小，但也有可能被选中，与蚁群算法中蚂蚁寻找食物时采取的原则相同，即信息素浓度高的路径被优先选择。

机器人小车基于选中的方案执行相应的动作，如在前场防守时的“两人”包夹截球，并将动作执行效果传递给效果评估与反馈模块4，效果评估与反馈模块4将动作方案的实际执行效果与预期执行效果进行对比分析，并相应动态地改变执行方案的优先级并存储下来作为后续执行动作的参考。其中，执行方案的优先级改变规则如下：

当本次战术执行效果达到预期执行效果时，如提高本队控球率、增大进球数量等，本次执行方案的优先级N_i加1，即N_i＝N_i+1；否则，本次战术执行效果未达到预期执行效果，偏差较大，本次执行方案优先级N_i减1，即N_i＝N_i-1，但当N_i的值小于0时，设置N_i＝0。

基于所述的机器人足球动态决策装置，相应的本发明提供了一种基于蚁群算法的机器人足球动态决策方法，整体包括如下四个步骤。

步骤1：提取球场信息；所提取的信息如公式(1)～公式(4)所示。

球场信息包括对方、己方和足球信息。对方信息包括对方队员的位置和跑动方向，对方球队控球率，进球数量及队形信息等。己方信息包括己方队员的位置和跑动方向，对方球队控球率，进球数量及队形信息等。足球信息包括足球位置和运动方向等。此外，还需要获取球场的宽度和高度等数据。

步骤2：对提取的球场信息进行数据处理与分析，对球场态势做出评估，评估结果分为危机、守势、较守势、均衡、较攻势及攻势，根据式(5确定。

步骤3：根据步骤2的评估结果，在机器人小车动作组中，选取下一进行的动作方案；动作方案选中的概率根据式(6)确定。

步骤4：对动作方案的预期执行效果和实际执行效果进行对比分析，当本次动作方案的实际执行效果达到预期执行效果时，将该动作方案的优先级加1，否则，将该动作方案的优先级减1，当某动作方案的优先级小于0时，设置该动作方案的优先级为0。通过引入反馈机制，即可在对方战术稳定的情况下，逐步提高动作执行成功率。也可感知对方战术变化做出相应调整。执行完本次动作后，即可进入下一轮循环。

本发明借鉴蚁群算法的思想，球场一开始，各个行动方案优先级相同，每个队员根据随机选定的方案进行活动，后来随着球场态势的发展，如比分落后，足球的位置逼近我方等情况，此时动作方案的选择优先级发生变化，动态调整动作方案，同时每个队员动态改变自己的行动方案，形成团队策略。

Claims

1.一种基于蚁群算法的机器人足球动态决策装置，其特征在于，包括信息监测与提取模块、态势评估模块、动作决策模块以及效果评估与反馈模块；

信息监测与提取模块用于提取球场信息；

球场信息集合I_all，包括三类：对方信息I_ene，足球信息I_foo和己方信息I_own；对方信息I_ene包括对方每位队员信息P_e,pos,dir、球队控球率u_e、进球数量n_e及队形信息F_glo，P_e,pos,dir记载对方队员的位置和跑动方向；足球信息I_foo包括足球位置和运动方向；己方信息I_own包括当前己方每位队员信息P_o,pos,dir、球队控球率u_o、进球数量n_o及队形信息F_glo，P_o,pos,dir记载己方队员的位置和跑动方向；

态势评估模块对所提取的球场信息进行数据处理与分析，对球场态势做出评估；

所述的态势评估模块根据下式对球场态势进行评估，评估结果分为攻势、较攻势、均衡、较守势、守势及危机：

其中，P_f,pos表示足球的位置，表示对方球员位置的平均分布，w为球场宽度；

动作决策模块基于态势评估模块的评估结果，在机器人小车动作组中，选取下一进行的动作方案；

第i个动作方案被选中的概率其中，N_i表示第i个动作方案的优先级，k表示动作组中的动作方案总量；各动作方案的优先级初始都设置为1；

效果评估与反馈模块对动作方案的预期执行效果和实际执行效果进行对比分析，根据分析结果对动作方案的优先级进行修改，当本次动作方案的实际执行效果达到预期执行效果时，将该动作方案的优先级加1，否则，将该动作方案的优先级减1，当某动作方案的优先级小于0时，设置该动作方案的优先级为0。

2.一种基于蚁群算法的机器人足球动态决策方法，其特征在于，包括如下步骤：

步骤1：提取球场信息；

步骤2：对提取的球场信息进行数据处理与分析，对球场态势做出评估，评估结果分为危机、守势、较守势、均衡、较攻势及攻势，根据下式确定：

步骤3：根据步骤2的评估结果，在机器人小车动作组中，选取下一进行的动作方案；