CN105109480B

CN105109480B - 智能调头方法及装置

Info

Publication number: CN105109480B
Application number: CN201510528807.7A
Authority: CN
Inventors: 方啸; 高红博; 王继贞; 张绍山; 张世兵; 尹飞飞
Original assignee: Chery Automobile Co Ltd
Current assignee: Wuhu Lion Automotive Technologies Co Ltd
Priority date: 2015-08-24
Filing date: 2015-08-24
Publication date: 2017-12-12
Anticipated expiration: 2035-08-24
Also published as: CN105109480A

Abstract

本发明公开了一种智能调头方法及装置，属于汽车主动安全领域。所述方法包括：在车辆调头过程中，实时获取当前环境状态信息，所述当前环境状态信息包括车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角；根据调头策略值表与所述当前环境状态信息，获取所述当前环境状态信息对应的决策动作，所述调头策略值表存储有多个车辆状态、每个状态的状态量以及对应的决策动作；每获取到一个决策动作，控制所述车辆执行所述决策动作并继续进行环境状态信息以及决策动作的获取，直到所述车辆到达目标状态。本发明通过自主学习获得智能调头方法，将该方法配置于车辆的车载系统，实现车辆在现实环境中的调头，具有稳定性、自适应性、机动性和灵活性。

Description

智能调头方法及装置

技术领域

本发明涉及汽车主动安全领域，特别涉及一种智能调头方法及装置。

背景技术

随着汽车使用量的逐年增长，事故发生率越来越高，因此，汽车安全引起了越来越多的关注。而在汽车安全领域中，汽车主动安全以其自动化的优势尤其受到瞩目。

汽车主动安全是指通过在汽车中增加提高主动安全性的方法及装置，使汽车能够主动采取措施避免事故的发生，例如，汽车的被动安全系统包括防抱死制动系统、盲点监测系统、车道偏离预警系统等，汽车主动安全系统的特点是为了防止事故的发生。

特别地，在汽车调头过程中，由于驾驶员视线受阻或对汽车周边环境判断不准确等原因造成在调头过程中容易发生交通事故，亟需一种能够提高汽车主动安全性的智能调头方法。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种智能调头方法及装置。所述技术方案如下：

一方面，提供了一种智能调头方法，所述方法包括：

在车辆调头过程中，实时获取当前环境状态信息，该当前环境状态信息包括车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角；

根据调头策略值表与该当前环境状态信息，获取该当前环境状态信息对应的决策动作，该调头策略值表存储有多个车辆状态、每个状态的状态量以及对应的决策动作；

每获取到一个决策动作，控制该车辆执行该决策动作并继续进行环境状态信息以及决策动作的获取，直到该车辆到达目标状态。

在本发明的第一方面的第一种可能实现方式中，该根据调头策略值表与该当前环境状态信息，获取该当前环境状态信息对应的决策动作，包括：

根据该当前环境状态信息，获取该调头策略值表中对应的该车辆状态的状态量；

从该车辆状态的多个临近车辆状态中，获取状态量大于该车辆状态的状态量的临近车辆状态；

根据该临近车辆状态，获取该车辆从该当前环境状态信息到达该临近车辆状态的决策动作。

在本发明的第一方面的第二种可能实现方式中，该方法还包括：

初始化参数列表，该参数列表包括最大试验次数、最大移动步数、试验次数、到达该目标状态获得的增强信号和未到达目标状态获得的增强信号，该目标状态是指车辆实现调头后的状态；

在一次试验过程中，生成试验状态信息，该试验状态信息包括车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角；

根据该试验状态信息，生成试验决策动作，该试验决策动作包括方向盘转动角度、前进或者后退时间以及前进或者后退速度；

执行该试验决策动作后，判断该车辆是否出界；

当该车辆出界时，执行下一轮试验过程；

当该车辆未出界时，判断该车辆是否到达该目标状态；

当该车辆到达该目标状态时，更新该调头策略值表，执行下一轮试验过程，直到达到该试验次数；

当该车辆未到达该目标状态时，判断当前移动步数是否大于该最大移动步数；

当该当前移动步数大于该最大移动步数时，更新该调头策略值表，执行下一轮试验过程，直到达到该试验次数；

当该当前移动步数不大于该最大移动步数时，根据当前的状态信息继续生成决策动作并执行后续试验步骤，直至该车辆达到目标状态或该当前移动步数大于该最大移动步数或直到达到该试验次数。

在本发明的第一方面的第三种可能实现方式中，该根据该试验状态信息，生成试验决策动作，包括：

根据该试验状态信息，交替生成前进的决策动作和后退的决策动作。

在本发明的第一方面的第四种可能实现方式中，当该车辆到达该目标状态时，更新该调头策略值表包括：

当该车辆到达该目标状态时，根据本次试验的所用移动步数，获取本次试验过程中每一步的车辆状态以及车辆从一个车辆状态变化为下一个车辆状态时所获得的增强信号；

判断在该调头策略值表中是否存在第一状态和第二状态，该第一状态为该本次试验中一个车辆状态，该第二状态为该本次试验中第一状态的下一个状态；

当该第一状态和该第二状态都不存在时，存储该第一状态、该第二状态以及目标决策动作获得的增强信号至该调头策略值表中，该目标决策动作为从第一状态变化为第二状态的决策动作；

当该第一状态存在且该第二状态不存在时，存储该第二状态以及该目标决策动作获得的增强信号至该调头策略值表中；

当该第一状态和该第二状态都存在时，判断是否存在该目标决策动作获得的增强信号；

当存在该目标决策动作获得的增强信号时，存储所有该目标决策动作获得的增强信号中的最大增强信号至该调头策略值表中；

当不存在该目标决策动作获得的增强信号时，存储该目标决策动作获得的增强信号至该调头策略值表中；

根据从该第一状态变化为该第二状态的决策动作获得的增强信号，获取该第一状态的状态量，该第一状态的状态量为从该第一状态至其所有临近状态的决策动作获得的增强信号中的最大增强信号。

另一方面，提供了一种智能调头装置，所述装置包括：

状态信息获取模块，用于在车辆调头过程中，实时获取当前环境状态信息，该当前环境状态信息包括车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角；

决策动作获取模块，用于根据调头策略值表与该当前环境状态信息，获取该当前环境状态信息对应的决策动作，该调头策略值表存储有多个车辆状态、每个状态的状态量以及对应的决策动作；

控制模块，用于每获取到一个决策动作，控制该车辆执行该决策动作并继续进行环境状态信息以及决策动作的获取，直到该车辆到达目标状态。

在本发明的第二方面的第一种可能实现方式中，该决策动作获取模块用于：

在本发明的第二方面的第二种可能实现方式中，该装置还包括：

初始化模块，用于初始化参数列表，该参数列表包括最大试验次数、最大移动步数、试验次数、到达该目标状态获得的增强信号和未到达目标状态获得的增强信号，该目标状态是指车辆实现调头后的状态；

状态信息生成模块，用于在一次试验过程中，生成试验状态信息，该试验状态信息包括车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角；

决策动作生成模块，用于根据该试验状态信息，生成试验决策动作，该试验决策动作包括方向盘转动角度、前进或者后退时间以及前进或者后退速度；

判断模块，用于执行该试验决策动作后，判断该车辆是否出界；

执行模块，用于当该车辆出界时，执行下一轮试验过程；

该判断模块还用于当该车辆未出界时，判断该车辆是否到达该目标状态；

更新模块，用于当该车辆到达该目标状态时，更新该调头策略值表，执行下一轮试验过程，直到达到该试验次数；

该判断模块还用于当该车辆未到达该目标状态时，判断当前移动步数是否大于该最大移动步数；

该更新模块还用于当该当前移动步数大于该最大移动步数时，更新该调头策略值表，执行下一轮试验过程，直到达到该试验次数；

该决策动作生成模块还用于当该当前移动步数不大于该最大移动步数时，根据当前的状态信息继续生成决策动作并执行后续试验步骤，直至该车辆达到目标状态或该当前移动步数大于该最大移动步数或直到达到该试验次数。

在本发明的第二方面的第三种可能实现方式中，该决策动作生成模块用于：

在本发明的第二方面的第四种可能实现方式中，该更新模块用于：

本发明实施例提供的技术方案带来的有益效果是：

通过自主学习获得智能调头方法，并将该方法配置于车辆的车载系统，以实现车辆在现实环境中的调头任务，具有稳定性、自适应性、机动性和灵活性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种智能调头方法流程图；

图2是本发明实施例提供的一种智能调头方法流程图；

图2A是本发明实施例提供的一种机器学习原理示意图；

图2B是本发明实施例提供的一种调头策略值表更新原理示意图；

图2C是本发明实施例提供的一种车辆调头示意图；

图3是本发明实施例提供的一种在现实环境中使用智能调头方法的流程图；

图4是本发明实施例提供的一种智能调头装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种智能调头方法流程图，如图1所示，智能调头方法用于车辆中，包括以下步骤：

101、在车辆调头过程中，实时获取当前环境状态信息，该当前环境状态信息包括车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角。

102、根据调头策略值表与该当前环境状态信息，获取该当前环境状态信息对应的决策动作，该调头策略值表存储有多个车辆状态、每个状态的状态量以及对应的决策动作。

103、每获取到一个决策动作，控制该车辆执行该决策动作并继续进行环境状态信息以及决策动作的获取，直到该车辆到达目标状态。

本发明实施例提供的方法，通过自主学习获得智能调头方法，并将该方法配置于车辆的车载系统，以实现车辆在现实环境中的调头任务，具有稳定性、自适应性、机动性和灵活性。

在本发明的第一种可能实现方式中，该根据调头策略值表与该当前环境状态信息，获取该当前环境状态信息对应的决策动作，包括：

在本发明的第二种可能实现方式中，该方法还包括：

执行该试验决策动作后，判断该车辆是否出界；

当该车辆出界时，执行下一轮试验过程；

当该车辆未出界时，判断该车辆是否到达该目标状态；

在本发明的第三种可能实现方式中，该根据该试验状态信息，生成试验决策动作，包括：

在本发明的第四种可能实现方式中，当该车辆到达该目标状态时，更新该调头策略值表包括：

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图2是本发明实施例提供的一种智能调头方法流程图，参见图2，该方法包括：

201、初始化参数列表，该参数列表包括最大试验次数、最大移动步数、试验次数、到达该目标状态获得的增强信号和未到达目标状态获得的增强信号，该目标状态是指车辆实现调头后的状态。

为了获取最优试验结果，以及避免试验进入死循环状态，初始化参数列表，初始化内容包括：最大试验次数、最大移动步数、试验次数、到达该目标状态获得的增强信号和未到达目标状态获得的增强信号。

在本发明实施例中，可以将最大试验次数设置为1000，在保证试验次数足够多的前提下避免试验进入死循环状态；最大移动步数可以设置为7，若在7步内不能完成调头任务，则停止本次试验，对于智能调头方法，移动步数的多少决定了控制算法的优劣，本发明实施例通过控制移动步数，使得通过试验得到的调头方法能够在尽量少的步数内完成调头任务；试验次数初始化为0，每完成一次试验，对该试验次数执行加1操作，直至该试验次数达到最大试验次数为止；最大试验次数和最大移动步数也可以根据需要设置为其他值，本发明实施例对此不作限定。

在现实环境中，要完成调头任务，需要获取车辆所处的环境状态信息，本发明实施例采用机器学习方法实现对智能调头方法的学习，具体学习过程如图2A所示，车辆通过获取车辆所处当前环境下的状态信息X(t)，根据该状态信息做出一个决策动作u(t)，这个决策动作会使车辆的状态信息变为X(t+1)，使得该车辆获得一个新的状态信息，与此同时，车辆所处的新的环境会反馈一个增强信号r(t)给该车辆，该增强信号通常以数值方式表示，用以表示决策动作u(t)的立即回报，该增强信号越大表示执行决策动作达到的效果越好，反之，该增强信号越小表示执行决策动作达到的效果越差；同样地，根据新的状态信息X(t+1)，车辆会做出一个新的决策动作u(t+1)，并得到一个新的增强信号r(t+1)。

本发明实施例提供了一种通过Q学习算法获得调头策略值表的方法，Q学习算法是一种增强学习算法，在增强学习算法中，当执行主体执行某一决策动作后，施教者会提供奖励或惩罚信息，以表示结果状态的正确与否。因此，在利用Q学习算法获得调头策略值表的过程中，当车辆到达目标状态时，可以给予数值为100的增强信号，当车辆未到达目标状态时，给予数值为0的增强信号。在该过程中，执行主体即为车辆，增强信号则表示奖励信息，增强信号的数值越大表示奖励越高，增强信号的数值越小表示奖励越低，施教者可以为使用Q学习算法获得调头控制策略的技术人员，也可以是执行该算法的系统应用，本发明实施例对此不作限定。

例如，图2B中的(a)(b)(c)(d)图分别为获取掉头策略值表过程中产生的初始值表、Q值表、V值表为调头策略值表，其中，Q值表中箭头上的值为对应车辆状态变换所执行的决策动作获取的增强信号，V值表中们每个状态格中的值为该状态的状态量，该状态量为从该状态出发到达其临近状态所执行决策动作获取增强信号的最大值。在图2B(a)中，当车辆执行从状态H到状态G的决策动作时，由于状态G为目标状态，所以执行该决策动作获取到的增强信号为100，当车辆执行从状态A到状态B的决策动作时，由于状态B不是目标状态，所以执行该决策动作获取到的增强信号为0。

202、在一次试验过程中，生成试验状态信息，该试验状态信息包括车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角。

由于Q学习算法是一个通过学习获得最优控制策略的过程，而在学习智能调头方法时，车辆要从成功和失败的经验中学会如何在不同的状态信息下使用最少的步数实现调头，因此，在每一次试验开始时，都要随机生成本次试验中车辆的状态信息，该状态信息包括车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角，针对该状态信息学习如何完成车辆的调头任务。

例如，在图2C中，状态1、状态2、状态3和状态4表示在本次试验中车辆完成一次调头任务所处的四种状态，其中，状态1是车辆在调头前的初始状态该，该状态的状态信息包括车道宽度为D、车辆在车道中的位置以及车辆与车道边界的夹角0°，其中车辆在车道中的位置是指车辆与车道两个边界的距离；状态4是车辆完成调头后的状态，也即是目标状态，该状态的状态信息包括车道宽度为D、车辆在车道中的位置以及车辆与车道边界的夹角180°。

203、根据该试验状态信息，生成试验决策动作，该试验决策动作包括方向盘转动角度、前进或者后退时间以及前进或者后退速度。

根据该试验状态信息，交替生成前进的决策动作和后退的决策动作，因为生成该试验决策动作的个数即为步骤201中的移动步数，所以为了尽量减少该移动步数，采用交替生成前进的决策动作和后退的决策动作的方式生成试验决策动作。

根据试验状态信息生成试验决策动作，具体是指根据车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角，生成试验决策动作，该试验决策动作包括方向盘转动角度、前进或者后退时间以及前进或者后退速度。

该试验决策动作的具体生成方式可以为：根据车辆在车道中的位置、车道宽度以及车辆与车道边界的夹角确定方向盘的转动角度，距离车道边界越远，方向盘转动角度越大；根据车辆在车道中的位置以及上一次生成的决策动作确定本次决策动作，如果上一次生成的决策动作为前进的决策动作，则本次生成的决策动作为后退的决策动作，如果上一次生成的决策动作为后退的决策动作，则本次生成的决策动作为前进的决策动作；根据车辆在车道中的位置、车道宽度确定前进或者后退时间以及前进或者后退速度。

204、执行该试验决策动作后，判断该车辆是否出界。

通过检测在执行该试验决策动作后车辆在车道中的位置，获取该车辆与车道两侧边缘的距离，如果该车辆与车道任一侧边缘的距离不大于指定阈值时，则认为该车辆出界，因为在调头方法的学习过程中，车辆为计算机中的模拟车辆，因此不存在车辆损坏的情况，因此可以将该指定阈值设置为0，为了确保在实际使用中的安全性，也可以将该指定阈值设置为任一大于0的数值，本发明实施例对此不作具体限定。

205、当该车辆出界时，执行下一轮试验过程。

当该车辆出界时，结束本次试验，对试验次数执行加1操作后，进行下一次试验，即重复执行步骤202及其以后步骤。

206、当该车辆未出界时，判断该车辆是否到达该目标状态。

判断车辆是否到达目标状态的方法可以为以下两种：

第一种、根据车辆从初始状态变为目标状态车辆角度变化是否在指定阈值范围内，判断该车辆是否到达目标状态，该指定阈值范围可以为[160°，200°]，也即是，通过判断车辆旋转角度是否在该指定阈值范围内，判断该车辆是否到达目标状态；例如，在初始状态时，设定车辆与参考边界的夹角为20°，经过执行若干次(不大于7次)决策动作后到达的状态中，如果该车辆与左侧边界的夹角为190°，该角度变化值即为170°，在该指定阈值范围内，认为该车辆到达目标状态，如果该车辆与左侧边界的夹角为150°，该角度变化值即为130°，不在该指定阈值范围内，认为该车辆未到达目标状态；上述指定阈值范围可由相关领域的技术人员自行设置。

第二种、根据车辆到达目标状态后该车辆与车道边界的夹角是否在指定阈值范围内，判断车辆是否到达目标状态，该指定阈值范围可以为[160°，200°]；如图2C所示，当车辆在初始状态时，车头方向与B侧的夹角为0°，经过执行若干次(不大于7次)决策动作后到达的状态中，如果车头方向与B侧的夹角为180°，该夹角的值在指定阈值范围内，认为该车辆到达目标状态，如果车头方向与B侧的夹角为150°时，该夹角的值不在指定阈值范围内，认为该车辆未到达目标状态；上述指定阈值范围可由相关领域的技术人员自行设置。

除上述方法外，还可以采用其他方法判断车辆是否到达目标状态，本发明实施例对此不作限定。

207、当该车辆到达该目标状态时，更新该调头策略值表，执行下一轮试验过程，直到达到该试验次数。

调头策略值表的更新方法可以包括如下步骤：

步骤一、当该车辆到达该目标状态时，根据本次试验的所用移动步数，获取本次试验过程中每一步的车辆状态以及车辆从一个车辆状态变化为下一个车辆状态时所获得的增强信号；判断在该调头策略值表中是否存在第一状态和第二状态，该第一状态为该本次试验中一个车辆状态，该第二状态为该本次试验中第一状态的下一个状态。

根据Q学习算法更新调头策略值表的方法可以以图2B为例进行具体说明：

在图2B中，(a)图为获取掉头策略值表过程中产生的初始值表，在该初始值表中，G为目标状态，A、B、C、D、E、F、H、I的状态信息为空，对应的状态量为0，状态F和状态H到达状态G所执行决策动作获取的增强信号为100，其他状态之间变化所执行决策动作获取的增强信号均为0。

当进行完一次试验后，如果车辆在最大移动步数内到达目标状态，也即是移动步数小于最大移动步数时完成调头任务时，获取本次试验过程中每一步的车辆状态以及车辆从一个车辆状态变化为下一个车辆状态时所获得的增强信号；例如，图2B中的(b)图为Q值表，在图2B中的(b)图中，如果在本次试验中，车辆从初始状态C，经过状态D、状态I、状态H到达目标状态G，车辆的移动步数为4步：状态C→状态D，状态D→状态I，状态I→状态H，状态H→状态G，该移动步数小于最大移动步数，认为本次试验成功，获取状态C、状态D、状态I、状态H和状态G的状态信息，并根据Q学习算法分别获取状态C→状态D、状态D→状态I、状态I→状态H、状态H→状态G所执行决策动作获取的增强信号，具体方法可以为：

设Q为从一个状态变化为另一个状态所执行决策动作获取的增强信号，将从状态C→状态D、状态D→状态I、状态I→状态H、状态H→状态G所执行的决策动作分别记为C→D、D→I、I→H、H→G，根据式获取状态变化所执行决策动作获取的增强信号，其中，u和u′表示决策动作，x和x′表示状态信息，表示执行决策动作u后到达状态x获取的增强信号，表示由状态x′变化为其临近状态所执行对应决策动作获取到的增强信号中的最大增强信号，r为增强信号，当到达目标状态时，r为100，当未到达目标状态时，r为0，α为折算因子，本发明实施例取0.8，也可以取其他任何大于0小于1的值，本发明实施例对此不作限定；根据上式可得：

图2B中的(b)图中对应箭头上方的数值即为执行相应决策动作获取的增强信号，即：

根据该调头策略值表中是否存在第一状态和第二状态，该步骤二可以包括以下几种情况：

第一种情况、当该第一状态和该第二状态都不存在时，存储该第一状态、该第二状态以及目标决策动作获得的增强信号至该调头策略值表中，该目标决策动作为从第一状态变化为第二状态的决策动作。

第二种情况、当该第一状态存在且该第二状态不存在时，存储该第二状态以及该目标决策动作获得的增强信号至该调头策略值表中。

例如，当经过该试验之前的试验得到的调头策略值表中不包括状态C、状态D、状态I、状态H时，将这4个状态的状态信息及对应决策动作获取的增强信号存储至该调头策略值表中；如果状态C已存在，而状态D不存在时，将状态D的状态信息即从状态C变化为状态D所执行决策动作获取的增强信号存储至该调头策略值表中。

第三种情况、当该第一状态和该第二状态都存在时，判断是否存在该目标决策动作获得的增强信号；当存在该目标决策动作获得的增强信号时，存储所有该目标决策动作获得的增强信号中的最大增强信号至该调头策略值表中；当不存在该目标决策动作获得的增强信号时，存储该目标决策动作获得的增强信号至该调头策略值表中；根据从该第一状态变化为该第二状态的决策动作获得的增强信号，获取该第一状态的状态量，该第一状态的状态量为从该第一状态至其所有临近状态的决策动作获得的增强信号中的最大增强信号。

当在经过该试验之前的试验得到的调头策略值表中包括状态C和状态D且存在从状态C变化为状态D所执行决策动作获得的增强信号时，如图2B中的(e)图和图2B中的(f)图分别表示包括状态C和状态D的经过该试验之前的试验得到的调头策略值表和经过该试验后更新得到的调头策略值表，在图2B中的(e)图中，而经过该试验获得从状态C到状态D所执行决策动作获得的增强信号为：

因此，用替换得到图2B中的(f)图更新后的调头策略值表。

当在经过该试验之前的试验得到的调头策略值表中包括状态C和状态D但是不存在从状态C变化为状态D所执行决策动作获得的增强信号时，直接将存储至调头策略值表的对应位置中。

根据图2B中的(b)图的Q值表以及式可以获得图2B中的(c)图的V值表，式中V^*(x)表示状态x对应的状态量，由图2B中的(b)图获取图2B中的(c)图的方法可以为：

其他状态的状态量的获取方法与上述方法同理，不再赘述。

图2B中的(d)图为最终的掉头策略值表的形式，箭头表示按照状态量逐渐增加的路径执行对应决策动作，直至在最大移动步数内到达目标状态G。

需要说明的是，在更新调头策略值表时，将当前车辆的第一状态与调头策略值表中的第三状态进行对比，为了提高更新效率，可以在第一状态和第三状态之间的差异位于指定差异范围内时，将第一状态和第三状态确定为同一状态，例如：当属于以下两种情况中的任何一种时，可以认为该第一状态与该第三状态为同一状态：

第一种情况、第一状态与第三状态中车道宽度以及车辆在该车道中的位置相同，且第一状态中车辆与车道边界的夹角与第三状态中车辆与车道边界的夹角的差值在指定阈值范围内；

第二种情况、第一状态中车辆与车道边界的夹角与第三状态中车辆与车道边界的夹角的差值在指定阈值范围内，且在第一状态和第三状态中车辆与车道两侧边缘中距离较近的一侧边缘的距离之间的差值在指定阈值范围内。

其中，指定阈值范围可以根据需要进行设置，也可以将其他情况下的两种状态作为同一状态进行处理，本发明实施例对此不作限定。

208、当该车辆未到达该目标状态时，判断当前移动步数是否大于该最大移动步数。

每生成一次决策动作，对移动步数执行加1操作，当该车辆未到达目标状态时，通过比较当前移动步数与最大移动步数，判断当前移动步数是否大于最大移动步数。

209、当该当前移动步数大于该最大移动步数时，更新该调头策略值表，执行下一轮试验过程，直到达到该试验次数。

当该当前移动步数大于该最大移动步数时，认为本次试验失败，也即是在最大移动步数范围内未达到目标状态，此时，保存上一次成功试验后更新到的调头策略值表，并对试验次数执行加1操作后，重复执行步骤202及其以后步骤。

210、当该当前移动步数不大于该最大移动步数时，根据当前的状态信息继续生成决策动作并执行后续试验步骤，直至该车辆达到目标状态或该当前移动步数大于该最大移动步数或直到达到该试验次数。

当该当前移动步数不大于该最大移动步数时，认为本次试验未结束，根据当前的状态信息重复执行步骤203及其以后步骤。

步骤201至步骤210为掉头策略值表的获取过程，其流程图可用图2表示，当试验次数达到最大试验次数时，将最后一次试验更新得到的调头策略值表进行归一化处理，将该归一化结果作为最终的调头策略值表。

通过将上述步骤生成的调头策略值表装载在实际车辆中，在现实环境中，实现根据该调头策略值表完成的调头任务，图3是本发明实施例提供的一种在现实环境中使用智能调头方法的流程图，参见图3，该方法包括：

301、在车辆调头过程中，实时获取当前环境状态信息，该当前环境状态信息包括车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角。

在现实环境中，可以根据摄像头或红外线装置实时获取车辆当前所处的环境状态信息，也可以通过其他方式获取该车辆当前所处的环境状态信息，本发明实施例对该获取方法不作具体限定。

302、根据调头策略值表与该当前环境状态信息，获取该当前环境状态信息对应的决策动作，该调头策略值表存储有多个车辆状态、每个状态的状态量以及对应的决策动作。

根据所述当前环境状态信息，获取所述调头策略值表中对应的所述车辆状态的状态量，从所述车辆状态的多个临近车辆状态中，获取状态量大于所述车辆状态的状态量的临近车辆状态，根据所述临近车辆状态，获取所述车辆从所述当前环境状态信息到达所述临近车辆状态的决策动作。

303、每获取到一个决策动作，控制该车辆执行该决策动作并继续进行环境状态信息以及决策动作的获取，直到该车辆到达目标状态。

如图2C所示，当车辆处于状态1时，通过将该状态1的状态信息与掉头策略值表中的状态信息进行匹配，获取决策动作1并执行该决策动作后到达状态2，再将状态2的状态信息与掉头策略值表中的状态信息进行匹配，获取决策动作2并执行该决策动作后到达状态3，再将状态3的状态信息与掉头策略值表中的状态信息进行匹配，获取决策动作3并执行该决策动作后到达状态4，状态4即为目标状态。

本发明实施例提供的方法，通过获取车辆所处环境状态信息，以增强学习的方法得到调头策略值表，通过将该调头策略值表配置于车辆的车载系统，以便在车辆的实际调头过程中，能够根据自身检测到的环境状态信息，不断的输出决策动作，以实现车辆在现实环境中的调头，该智能调头方法具有稳定性、自适应性、机动性和灵活性。

图4是本发明实施例提供的一种智能调头装置结构示意图。参照图4，该装置包括状态信息获取模块401，决策动作获取模块402和控制模块403。

状态信息获取模块401，用于在车辆调头过程中，实时获取当前环境状态信息，该当前环境状态信息包括车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角；

决策动作获取模块402，用于根据调头策略值表与该当前环境状态信息，获取该当前环境状态信息对应的决策动作，该调头策略值表存储有多个车辆状态、每个状态的状态量以及对应的决策动作；

控制模块403，用于每获取到一个决策动作，控制该车辆执行该决策动作并继续进行环境状态信息以及决策动作的获取，直到该车辆到达目标状态。

在本发明提供的第一种可能实现方式中，该决策动作获取模块402用于：

在本发明提供的第二种可能实现方式中，该装置还包括：

执行模块，用于当该车辆出界时，执行下一轮试验过程；

在本发明提供的第三种可能实现方式中，该决策动作生成模块用于：

在本发明提供的第四种可能实现方式中，该更新模块用于：

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种智能调头方法，其特征在于，所述方法包括：

在车辆调头过程中，实时获取当前环境状态信息，所述当前环境状态信息包括车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角；

根据所述当前环境状态信息，获取调头策略值表中对应的所述车辆状态的状态量；所述调头策略值表存储有多个车辆状态、每个状态的状态量以及对应的决策动作；

从所述车辆状态的多个临近车辆状态中，获取状态量大于所述车辆状态的状态量的临近车辆状态；

根据所述临近车辆状态，获取所述车辆从所述当前环境状态信息到达所述临近车辆状态的决策动作；

每获取到一个决策动作，控制所述车辆执行所述决策动作并继续进行环境状态信息以及决策动作的获取，直到所述车辆到达目标状态。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

初始化参数列表，所述参数列表包括最大试验次数、最大移动步数、试验次数、到达所述目标状态获得的增强信号和未到达目标状态获得的增强信号，所述目标状态是指车辆实现调头后的状态；

在一次试验过程中，生成试验状态信息，所述试验状态信息包括车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角；

根据所述试验状态信息，生成试验决策动作，所述试验决策动作包括方向盘转动角度、前进或者后退时间以及前进或者后退速度；

执行所述试验决策动作后，判断所述车辆是否出界；

当所述车辆出界时，执行下一轮试验过程；

当所述车辆未出界时，判断所述车辆是否到达所述目标状态；

当所述车辆到达所述目标状态时，更新所述调头策略值表，执行下一轮试验过程，直到达到所述试验次数；

当所述车辆未到达所述目标状态时，判断当前移动步数是否大于所述最大移动步数；

当所述当前移动步数大于所述最大移动步数时，更新所述调头策略值表，执行下一轮试验过程，直到达到所述试验次数；

当所述当前移动步数不大于所述最大移动步数时，根据当前的状态信息继续生成决策动作并执行后续试验步骤，直至所述车辆达到目标状态或所述当前移动步数大于所述最大移动步数或直到达到所述试验次数。

3.根据权利要求2所述的方法，其特征在于，所述根据所述试验状态信息，生成试验决策动作，包括：

根据所述试验状态信息，交替生成前进的决策动作和后退的决策动作。

4.根据权利要求2所述的方法，其特征在于，当所述车辆到达所述目标状态时，更新所述调头策略值表包括：

当所述车辆到达所述目标状态时，根据本次试验的所用移动步数，获取本次试验过程中每一步的车辆状态以及车辆从一个车辆状态变化为下一个车辆状态时所获得的增强信号；

判断在所述调头策略值表中是否存在第一状态和第二状态，所述第一状态为所述本次试验中一个车辆状态，所述第二状态为所述本次试验中第一状态的下一个状态；

当所述第一状态和所述第二状态都不存在时，存储所述第一状态、所述第二状态以及目标决策动作获得的增强信号至所述调头策略值表中，所述目标决策动作为从第一状态变化为第二状态的决策动作；

当所述第一状态存在且所述第二状态不存在时，存储所述第二状态以及所述目标决策动作获得的增强信号至所述调头策略值表中；

当所述第一状态和所述第二状态都存在时，判断是否存在所述目标决策动作获得的增强信号；

当存在所述目标决策动作获得的增强信号时，存储所有所述目标决策动作获得的增强信号中的最大增强信号至所述调头策略值表中；

当不存在所述目标决策动作获得的增强信号时，存储所述目标决策动作获得的增强信号至所述调头策略值表中；

根据从所述第一状态变化为所述第二状态的决策动作获得的增强信号，获取所述第一状态的状态量，所述第一状态的状态量为从所述第一状态至其所有临近状态的决策动作获得的增强信号中的最大增强信号。

5.一种智能调头装置，其特征在于，所述装置包括：

状态信息获取模块，用于在车辆调头过程中，实时获取当前环境状态信息，所述当前环境状态信息包括车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角；

决策动作获取模块，用于：根据所述当前环境状态信息，获取调头策略值表中对应的所述车辆状态的状态量，所述调头策略值表存储有多个车辆状态、每个状态的状态量以及对应的决策动作；

控制模块，用于每获取到一个决策动作，控制所述车辆执行所述决策动作并继续进行环境状态信息以及决策动作的获取，直到所述车辆到达目标状态。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

初始化模块，用于初始化参数列表，所述参数列表包括最大试验次数、最大移动步数、试验次数、到达所述目标状态获得的增强信号和未到达目标状态获得的增强信号，所述目标状态是指车辆实现调头后的状态；

状态信息生成模块，用于在一次试验过程中，生成试验状态信息，所述试验状态信息包括车道宽度、车辆在车道中的位置以及车辆与车道边界的夹角；

决策动作生成模块，用于根据所述试验状态信息，生成试验决策动作，所述试验决策动作包括方向盘转动角度、前进或者后退时间以及前进或者后退速度；

判断模块，用于执行所述试验决策动作后，判断所述车辆是否出界；

执行模块，用于当所述车辆出界时，执行下一轮试验过程；

所述判断模块还用于当所述车辆未出界时，判断所述车辆是否到达所述目标状态；

更新模块，用于当所述车辆到达所述目标状态时，更新所述调头策略值表，执行下一轮试验过程，直到达到所述试验次数；

所述判断模块还用于当所述车辆未到达所述目标状态时，判断当前移动步数是否大于所述最大移动步数；

所述更新模块还用于当所述当前移动步数大于所述最大移动步数时，更新所述调头策略值表，执行下一轮试验过程，直到达到所述试验次数；

所述决策动作生成模块还用于当所述当前移动步数不大于所述最大移动步数时，根据当前的状态信息继续生成决策动作并执行后续试验步骤，直至所述车辆达到目标状态或所述当前移动步数大于所述最大移动步数或直到达到所述试验次数。

7.根据权利要求6所述的装置，其特征在于，所述决策动作生成模块用于：

8.根据权利要求6所述的装置，其特征在于，所述更新模块用于：