CN115476882A

CN115476882A - 行为决策模型优化、行为决策方法、装置、设备及介质

Info

Publication number: CN115476882A
Application number: CN202211304552.2A
Authority: CN
Inventors: 王兆麒; 姜珊; 孙忠刚; 张晓谦; 王兆麟
Original assignee: FAW Group Corp
Current assignee: FAW Group Corp
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2022-12-16

Abstract

本发明公开了一种行为决策模型优化、行为决策方法、装置、设备及介质。车辆行为决策模型的优化方法包括：获取待优化的车辆行为决策模型和与车辆行为决策模型匹配的标准验证样本集，标准验证样本中包括多个车辆环境描述特征值和标准行为决策结果；对标准验证样本集进行数据预处理，得到归一化样本集；基于蝙蝠算法设置参数，采用蝙蝠算法进行蝙蝠群体的多轮迭代处理；当满足蝙蝠迭代结束条件时，获取全局最优蝙蝠；利用全局最优蝙蝠对车辆行为决策模型进行更新，得到优化后车辆行为决策模型。通过采用上述技术方案，能够高效优化车辆行为决策模型，提高车辆行为决策模型的准确率。

Description

行为决策模型优化、行为决策方法、装置、设备及介质

技术领域

本发明涉及车辆自动驾驶技术领域，尤其涉及一种行为决策模型优化、行为决策方法、装置、设备及介质。

背景技术

在车辆自动驾驶过程中，为了保证车辆行进的流畅性以及安全性，需要根据车辆当前行驶状态以及车辆周围环境状态对自动驾驶的当前行为进行决策。

在现有技术中，分类器可以用于各种场景下的事件决策，但现有的分类器无法直接用于根据车辆相关信息获取车辆行为决策，因此，对现有的分类器进行优化以获取最优车辆行为决策显得较为重要。

发明内容

本发明提供了一种行为决策模型优化、行为决策方法、装置、设备及介质，能够高效优化车辆行为决策模型，提高车辆行为决策模型的准确率。

根据本发明的一方面，提供了一种车辆行为决策模型的优化方法，包括：

获取待优化的车辆行为决策模型和与车辆行为决策模型匹配的标准验证样本集，标准验证样本中包括多个车辆环境描述特征值和标准行为决策结果；

对标准验证样本集进行数据预处理，得到归一化样本集；

基于蝙蝠算法设置参数，采用蝙蝠算法进行蝙蝠群体的多轮迭代处理；

其中，在每轮迭代过程中，使用与当前迭代轮次匹配的各蝙蝠对车辆行为决策模型进行更新后，以将标准验证样本集输入至各更新后车辆行为决策模型的适应度为评价指标，在各蝙蝠中识别当前轮次最优蝙蝠，并使用当前轮次最优蝙蝠进行当前轮次的蝙蝠群体迭代优化，蝙蝠中包括惩罚因子和高斯核函数；

当满足蝙蝠迭代结束条件时，获取全局最优蝙蝠；

利用全局最优蝙蝠对车辆行为决策模型进行更新，得到优化后车辆行为决策模型。

根据本发明的另一方面，提供了一种车辆行为决策方法，由车机系统执行，包括：

通过车辆中设置的多个传感器的信息采集结果，获取与本车辆和车辆行为决策相关的至少一个关联车辆对应的多个车辆环境描述特征值；

其中，车辆环境描述特征值包括本车辆与各相关车辆的当前车辆速度、本车辆与各相关车辆的当前车辆加速度、本车辆与各相关车辆的当前车辆左前方坐标、本车辆与各相关车辆的当前车辆前纵坐标、本车辆与各相关车辆的当前车辆宽度、本车辆与各相关车辆的当前车辆长度、本车辆与至少一个前方车辆的间距以及本车辆与至少一个后方车辆的间距；

将所述多个车辆环境描述特征值输入至采用本发明实施例一与实施例二中任一项所述的方法优化得到的多个优化后车辆行为决策模型中，获取多个优化后车辆行为决策模型输出的与各车辆行为决策对应的准确率；

筛选出准确率最高的车辆行为决策作为车辆行为决策结果，并执行与所述车辆行为决策结果匹配的车辆控制操作。

根据本发明的另一方面，提供了一种车辆行为决策模型的优化装置，包括：

标准验证样本集获取模块，用于获取待优化的车辆行为决策模型和与车辆行为决策模型匹配的标准验证样本集，标准验证样本中包括多个车辆环境描述特征值和标准行为决策结果；

归一化样本集获取模块，用于对标准验证样本集进行数据预处理，得到归一化样本集；

蝙蝠迭代模块，用于基于蝙蝠算法设置参数，采用蝙蝠算法进行蝙蝠群体的多轮迭代处理；

全局最优蝙蝠获取模块，用于当满足蝙蝠迭代结束条件时，获取全局最优蝙蝠；

车辆行为决策模型更新模块，用于利用全局最优蝙蝠对车辆行为决策模型进行更新，得到优化后车辆行为决策模型。

根据本发明的另一方面，提供了一种车辆行为决策装置，包括：

环境描述特征值获取模块，用于通过车辆中设置的多个传感器的信息采集结果，获取与本车辆和车辆行为决策相关的至少一个关联车辆对应的多个车辆环境描述特征值；

行为决策准确率获取模块，用于将所述多个车辆环境描述特征值输入至采用实施例一与实施例二任一项所述的方法优化得到的多个优化后车辆行为决策模型中，获取多个优化后车辆行为决策模型输出的与各车辆行为决策对应的准确率；

车辆控制模块，用于筛选出准确率最高的车辆行为决策作为车辆行为决策结果，并执行与所述车辆行为决策结果匹配的车辆控制操作。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明实施例一及实施例二所述的车辆行为决策模型的优化方法，或者，能够实现本发明实施例三所述的车辆行为决策方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明实施例一及实施例二所述的车辆行为决策模型的优化方法，或者，能够实现本发明实施例三所述的车辆行为决策方法。

本发明实施例的技术方案，通过对标准验证样本集进行数据预处理，得到归一化样本集，利用归一化样本集并基于蝙蝠算法对车辆行为决策模型进行优化的方式，能够有效提高优化后的车辆行为决策模型的准确率。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种车辆行为决策模型的优化方法的流程图；

图2是根据本发明实施例二提供的另一种车辆行为决策模型的优化方法的流程图；

图3a是根据本发明实施例三提供的一种车辆行为决策方法的流程图；

图3b是根据本发明实施例三提供的一种车辆位置关系图；

图4是根据本发明实施例四提供的一种车辆行为决策模型的优化装置的结构示意图；

图5是根据本发明实施例五提供的一种车辆行为决策装置的结构示意图；

图6是实现本发明实施例的车辆行为决策模型的优化方法和车辆行为决策方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1为本发明实施例一提供了一种车辆行为决策模型的优化方法的流程图，本实施例可适用于通过对标准验证样本集进行数据预处理，得到归一化样本集，利用归一化样本集并基于蝙蝠算法对车辆行为决策模型进行优化的情况，该方法可以由车辆行为决策模型的优化装置来执行，该车辆行为决策模型的优化装置可以采用硬件和/或软件的形式实现，该车辆行为决策模型的优化装置可配置于具备数据处理功能的计算机中。如图1所示，该方法包括：

S110、获取待优化的车辆行为决策模型和与车辆行为决策模型匹配的标准验证样本集，标准验证样本中包括多个车辆环境描述特征值和标准行为决策结果。

优选的，在本发明实施例中选用SVM(Support Vector Machine，支持向量机)作为车辆行为决策模型，SVM为一种能够解决二分类问题的支持向量机。

其中，车辆环境描述特征值为车辆行为决策模型的输入数据，在向车辆行为决策模型输入车辆环境描述特征之后，车辆行为决策模型能够输出相应的决策结果。

S120、对标准验证样本集进行数据预处理，得到归一化样本集。

在归一化样本集中，每个归一化样本中可以包括多个车辆环境描述特征值和标准行为决策结果。其中，车辆环境描述特征值中可以包括当前车辆与各相关车辆的车辆类型、当前车辆与各相关车辆的当前车辆速度、当前车辆与各相关车辆的当前车辆加速度、当前车辆与各相关车辆的当前车辆左前方坐标、当前车辆与各相关车辆的当前车辆前纵坐标、当前车辆与各相关车辆的当前车辆宽度、当前车辆与各相关车辆的当前车辆长度、当前车辆与至少一个前方车辆的间距以及当前车辆与至少一个后方车辆的间距；标准行为决策结果中可以包括各车辆行为准确率。

数据预处理可以包括对标准验证样本集进行归一化处理，统一数据标准，使归一化样本集中的每个特征更均衡化。

S130、基于蝙蝠算法设置参数，采用蝙蝠算法进行蝙蝠群体的多轮迭代处理。

其中，蝙蝠算法设置参数可以包括蝙蝠群体个数、最大迭代次数、蝙蝠初始位置、蝙蝠初始速度以及适应度函数。

其中，在每轮迭代过程中，使用与当前迭代轮次匹配的各蝙蝠对车辆行为决策模型进行更新后，以归一化样本集输入至各更新后车辆行为决策模型的适应度为评价指标，在各蝙蝠中识别最优蝙蝠，并使用最优蝙蝠进行当前轮次的蝙蝠群体迭代优化，蝙蝠中包括惩罚因子和高斯核函数。

可以理解的是，本发明实施例所提出的蝙蝠中包括惩罚因子和高斯核函数，即蝙蝠坐标由惩罚因子和高斯核函数组成。采用蝙蝠算法对蝙蝠群体进行迭代的过程，可理解为对惩罚因子和高斯核函数进行优化的过程。每个蝙蝠群体可以包含多个蝙蝠，即每个蝙蝠群体可代表多组不同的惩罚因子和高斯核函数。

S140、当满足蝙蝠迭代结束条件时，获取全局最优蝙蝠。

在一个具体的实施方式中，当已到达预设的最大迭代次数，且蝙蝠群体中存在适应度值大于预设的最小适应度值时，可视为满足蝙蝠迭代结束条件。可选的，还可以生成随机数，并将随机数与脉冲发射率之间的关系作为蝙蝠迭代结束条件之一。

S150、利用全局最优蝙蝠对车辆行为决策模型进行更新，得到优化后车辆行为决策模型。

当获取全局最优蝙蝠后，即可获取最优惩罚因子和最优高斯核函数，将最优惩罚因子与最优高斯核函数输入至车辆行为决策模型中，即可获取优化后的车辆行为决策模型。

实施例二

图2为本发明实施例二提供的一种车辆行为决策模型的优化方法的流程图，本实施例在上述实施例的基础上，具体说明了车辆行为决策模型的优化方法。如图2所示，该方法包括：

S210、获取待优化的车辆行为决策模型和与车辆行为决策模型匹配的标准验证样本集，标准验证样本中包括多个车辆环境描述特征值和标准行为决策结果。

S220、对各标准验证样本中的各车辆环境描述特征值进行数据归一化处理，得到经数据归一化处理的归一化样本集。

S230、利用蝙蝠初始位置更新待优化的车辆行为决策模型，将归一化数据输入至更新后的车辆行为决策模型，通过预设的适应度函数获取当前最优蝙蝠，并保存所述当前最优蝙蝠相关信息。

其中，最优蝙蝠相关信息中可以包括最优蝙蝠的位置，最优蝙蝠的当前迭代速度等。

S240、根据所述当前最优蝙蝠相关信息，对当前蝙蝠群体中的各蝙蝠进行迭代。

S250、根据上一迭代轮次中的最优蝙蝠相关信息计算得到本轮迭代最优飞行位置，根据最优飞行位置以及蝙蝠初始速度对上一迭代后的各蝙蝠位置进行更新迭代更新。

其中，计算得到本轮迭代最优飞行位置，可以具体包括：根据上一迭代轮次的最优蝙蝠的位置以及预设的位置迭代函数，计算得到本轮迭代最优飞行位置。

S260、将本轮迭代后各蝙蝠的适应度值与上一轮迭代后各蝙蝠的适应度值进行对比，保存两轮迭代中适应度值较高的各蝙蝠位置，同时更新下一轮迭代所需的相关参数，进行下一轮迭代，直至满足蝙蝠迭代停止条件时，停止蝙蝠迭代。

需要说明的是，在第一轮迭代后就需要检测是否满足蝙蝠迭代停止条件，本实施例中在此处提到判断是否满足蝙蝠迭代停止条件的步骤，仅是为了便于理解整个蝙蝠迭代过程，并不对蝙蝠迭代停止条件的判断位置进行限制。

S270、当满足蝙蝠迭代结束条件时，根据归一化样本集计算行为决策模型针对各蝙蝠的最终适应度值。

需要说明的是，蝙蝠的适应度值与车辆行为决策模型的决策结果准确率之间具有关联性，即蝙蝠的适应度值越高，车辆行为决策模型的决策结果准确率越高。

S280、获取适应度值最高的蝙蝠，将适应度最高的蝙蝠作为全局最优蝙蝠。

S290、利用全局最优蝙蝠对车辆行为决策模型进行更新，得到优化后车辆行为决策模型。

本发明实施例的技术方案，通过对标准验证样本集中的车辆环境描述特征值进行数据归一化处理的方式，使得用于优化车辆行为决策模型的每个特征值更均衡化，提高了车辆行为决策模型的决策准确率。

实施例三

图3a为本发明实施例三提供的一种车辆行为决策方法的流程图，本实施例可适用于采集与车辆行为决策相关的多个车辆环境描述特征值，并根据已优化的车辆行为决策模型输出的行为决策结果控制车辆，该方法可以由车辆行为决策装置来执行，该车辆行为决策装置可以采用硬件和/或软件的形式实现，该车辆行为决策装置可配置于具备数据处理功能的车机系统中。如图3a所示，该方法包括：

S310、通过车辆中设置的多个传感器的信息采集结果，获取与本车辆和车辆行为决策相关的至少一个关联车辆对应的多个车辆环境描述特征值。

其中，车辆环境描述特征值包括本车辆与各相关车辆的车辆类型、本车辆与各相关车辆的当前车辆速度、本车辆与各相关车辆的当前车辆加速度、本车辆与各相关车辆的当前车辆左前方坐标、本车辆与各相关车辆的当前车辆前纵坐标、本车辆与各相关车辆的当前车辆宽度、本车辆与各相关车辆的当前车辆长度、本车辆与至少一个前方车辆的间距以及本车辆与至少一个后方车辆的间距。

为了便于理解实际应用中本车辆与关联车辆的位置关系，图3b示出了本车辆与关联车辆的位置关系图。如图3b所示，车辆M为本车辆，车辆MP为本车辆前方车辆，车辆MB为本车辆后方车辆，车辆TP为本车辆相邻车道的前方车辆、车辆TB为本车辆相邻车道的后方车辆。

在如图3b所示的车辆位置关系图的基础上，车辆环境描述特征值可以包括车辆M、车辆MP、车辆MB、车辆TP以及车辆TB的车辆类型；车辆M、车辆MP、车辆MB、车辆TP以及车辆TB的速度；车辆M、车辆MP、车辆MB、车辆TP以及车辆TB的加速度；车辆M、车辆MP、车辆MB、车辆TP以及车辆TB的长度；车辆M、车辆MP、车辆MB、车辆TP以及车辆TB的宽度；车辆M、车辆TP以及车辆TB的当前车辆左前方坐标；车辆M、车辆TP以及车辆TB的当前车辆前纵坐标；车辆M与车辆MP之间的间隔；以及，车辆M与车辆MB之间的间隔。

其中，车辆M的类型为汽车类，车辆MP、车辆MB、车辆TP以及车辆TB的类型可根据传感器的信息采集结果获得，可以包括卡车类、汽车类以及摩托车类。

S320、将所述多个车辆环境描述特征值输入至多个优化后车辆行为决策模型中，获取多个优化后车辆行为决策模型输出的与各车辆行为决策对应的准确率。

为了实现对多个车辆行为进行同时决策，本发明创造性的提出了通过多个车辆行为决策模型获取各车辆行为决策的准确率，并选出准确率最高的行为决策进行车辆控制。

可选的，车辆行为可以包括自由驾驶、车辆跟随以及车道变换，也可以对更多车辆行为进行同时判断，本实施例仅做举例说明，并不对此进行具体限制。

S330、筛选出准确率最高的车辆行为决策作为车辆行为决策结果，并执行与所述车辆行为决策结果匹配的车辆控制操作。

本发明实施例的技术方案，通过传感器采集车辆环境描述特征值，将车辆环境描述特征值输入至优化后的车辆行为决策模型中，以获得行为决策结果控制车辆的方式，能够使车机系统根据外界车辆环境，精准进行自动行为决策，且能够在多种可选车辆行为中获取当前最优车辆行为，并通过最优车辆行为进行车辆控制操作，有效的提高了车机系统的智能化。

实施例四

图4为本发明实施例三提供的一种车辆行为决策模型的优化装置的结构示意图。如图4所示，该装置包括：标准验证样本集获取模块410、归一化样本集获取模块420、蝙蝠迭代模块430、全局最优蝙蝠获取模块440以及车辆行为决策模型更新模块450。

标准验证样本集获取模块410，用于获取待优化的车辆行为决策模型和与车辆行为决策模型匹配的标准验证样本集，标准验证样本中包括多个车辆环境描述特征值和标准行为决策结果。

归一化样本集获取模块420，用于对标准验证样本集进行数据预处理，得到归一化样本集。

蝙蝠迭代模块430，用于基于蝙蝠算法设置参数，采用蝙蝠算法进行蝙蝠群体的多轮迭代处理；

其中，在每轮迭代过程中，使用与当前迭代轮次匹配的各蝙蝠对车辆行为决策模型进行更新后，以将标准验证样本集输入至各更新后车辆行为决策模型的适应度为评价指标，在各蝙蝠中识别当前轮次最优蝙蝠，并使用当前轮次最优蝙蝠进行当前轮次的蝙蝠群体迭代优化，蝙蝠中包括惩罚因子和高斯核函数。

全局最优蝙蝠获取模块440，用于当满足蝙蝠迭代结束条件时，获取全局最优蝙蝠。

车辆行为决策模型更新模块450，用于利用全局最优蝙蝠对车辆行为决策模型进行更新，得到优化后车辆行为决策模型。

在上述各实施例的基础上，归一化样本集获取模块420，可以具体用于：对各标准验证样本中的各车辆环境描述特征值进行数据归一化处理，得到经数据归一化处理的归一化样本集。

在上述各实施例的基础上，蝙蝠算法设置参数可以包括蝙蝠群体个数、最大迭代次数、蝙蝠初始位置、蝙蝠初始速度以及适应度函数。

在上述各实施例的基础上，蝙蝠迭代模块430，可以具体用于：

利用蝙蝠初始位置更新待优化的车辆行为决策模型，将归一化数据输入至更新后的车辆行为决策模型，通过预设的适应度函数获取当前最优蝙蝠，并保存所述当前最优蝙蝠相关信息；

根据所述当前最优蝙蝠相关信息，对当前蝙蝠群体中的各蝙蝠进行迭代；

根据上一迭代轮次中的最优蝙蝠相关信息计算得到本轮迭代最优飞行位置，根据最优飞行位置以及蝙蝠初始速度对上一迭代后的各蝙蝠位置进行更新迭代更新；

将本轮迭代后各蝙蝠的适应度值与上一轮迭代后各蝙蝠的适应度值进行对比，保存两轮迭代中适应度值较高的各蝙蝠位置，同时更新下一轮迭代所需的相关参数，进行下一轮迭代，直至满足蝙蝠迭代停止条件时，停止蝙蝠迭代。

在上述各实施例的基础上，全局最优蝙蝠获取模块440，可以具体用于：

当满足蝙蝠迭代结束条件时，根据归一化样本集计算行为决策模型针对各蝙蝠的最终适应度值；

获取适应度值最高的蝙蝠，将适应度最高的蝙蝠作为全局最优蝙蝠。

本发明实施例所提供的车辆行为决策模型的优化装置可执行本发明任意实施例所提供的车辆行为决策模型的优化方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的一种车辆行为决策装置的结构示意图。如图5所示，该装置包括：环境描述特征值获取模块510、行为决策准确率获取模块520以及车辆控制模块530。

环境描述特征值获取模块510，用于通过车辆中设置的多个传感器的信息采集结果，获取与本车辆和车辆行为决策相关的至少一个关联车辆对应的多个车辆环境描述特征值；

行为决策准确率获取模块520，用于将所述多个车辆环境描述特征值输入至采用本发明实施利一与实施例二中任一项所述的方法优化得到的多个优化后车辆行为决策模型中，获取多个优化后车辆行为决策模型输出的与各车辆行为决策对应的准确率。

车辆控制模块530，用于筛选出准确率最高的车辆行为决策作为车辆行为决策结果，并执行与所述车辆行为决策结果匹配的车辆控制操作。

传感器采集车辆环境描述特征值，将车辆环境描述特征值输入至优化后的车辆行为决策模型中，以获得行为决策结果控制车辆的方式，能够使车机系统根据外界车辆环境，精准进行自动行为决策，且能够在多种可选车辆行为中获取当前最优车辆行为，并通过最优车辆行为进行车辆控制操作，有效的提高了车机系统的智能化。

本发明实施例所提供的车辆行为决策装置可执行本发明实施三例所提供的车辆行为决策方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6示出了可以用来实施本发明的实施例的电子设备60的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图6所示，电子设备60包括至少一个处理器61，以及与至少一个处理器61通信连接的存储器，如只读存储器(ROM)62、随机访问存储器(RAM)63等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器61可以根据存储在只读存储器(ROM)62中的计算机程序或者从存储单元68加载到随机访问存储器(RAM)63中的计算机程序，来执行各种适当的动作和处理。在RAM 63中，还可存储电子设备60操作所需的各种程序和数据。处理器61、ROM 62以及RAM 63通过总线64彼此相连。输入/输出(I/O)接口65也连接至总线64。

电子设备60中的多个部件连接至I/O接口65，包括：输入单元66，例如键盘、鼠标等；输出单元67，例如各种类型的显示器、扬声器等；存储单元68，例如磁盘、光盘等；以及通信单元69，例如网卡、调制解调器、无线通信收发机等。通信单元69允许电子设备60通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器61可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器61的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器61执行上文所描述的各个方法和处理，例如如本发明实施例所述的车辆行为决策模型的优化方法以及车辆行为决策方法。

在一些实施例中，车辆行为决策模型的优化方法以及车辆行为决策方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元68。在一些实施例中，计算机程序的部分或者全部可以经由ROM62和/或通信单元69而被载入和/或安装到电子设备60上。当计算机程序加载到RAM 63并由处理器61执行时，可以执行上文描述的车辆行为决策模型的优化方法以及车辆行为决策方法的一个或多个步骤。备选地，在其他实施例中，处理器61可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行车辆行为决策模型的优化方法以及车辆行为决策方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种车辆行为决策模型的优化方法，其特征在于，包括：

对标准验证样本集进行数据预处理，得到归一化样本集；

当满足蝙蝠迭代结束条件时，获取全局最优蝙蝠；

2.根据权利要求1所述的方法，其特征在于，对标准验证样本集进行数据预处理，得到归一化样本集，包括：

对各标准验证样本中的各车辆环境描述特征值进行数据归一化处理，得到经数据归一化处理的归一化样本集。

3.根据权利要求1所述的方法，其特征在于，蝙蝠算法设置参数包括蝙蝠群体个数、最大迭代次数、蝙蝠初始位置、蝙蝠初始速度以及适应度函数。

4.根据权利要求3所述的方法，其特征在于，所述基于蝙蝠算法设置参数，采用蝙蝠算法进行蝙蝠群体的多轮迭代处理，包括：

5.根据权利要求4所述的方法，其特征在于，所述当满足蝙蝠迭代结束条件时，获取全局最优蝙蝠，包括：

6.一种车辆行为决策方法，由车机系统执行，其特征在于，包括：

其中，车辆环境描述特征值包括本车辆与各相关车辆的车辆类型、本车辆与各相关车辆的当前车辆速度、本车辆与各相关车辆的当前车辆加速度、本车辆与各相关车辆的当前车辆左前方坐标、本车辆与各相关车辆的当前车辆前纵坐标、本车辆与各相关车辆的当前车辆宽度、本车辆与各相关车辆的当前车辆长度、本车辆与至少一个前方车辆的间距以及本车辆与至少一个后方车辆的间距；

将所述多个车辆环境描述特征值输入至采用权利要求1-5任一项所述的方法优化得到的多个优化后车辆行为决策模型中，获取多个优化后车辆行为决策模型输出的与各车辆行为决策对应的准确率；

7.一种车辆行为决策模型的优化装置，其特征在于，包括：

8.一种车辆行为决策装置，其特征在于，包括：

行为决策准确率获取模块，用于将所述多个车辆环境描述特征值输入至采用权利要求1-5任一项所述的方法优化得到的多个优化后车辆行为决策模型中，获取多个优化后车辆行为决策模型输出的与各车辆行为决策对应的准确率；

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的车辆行为决策模型的优化方法，或者，执行权利要求6所述的车辆行为决策方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-5中任一项所述的车辆行为决策模型的优化方法，或者，执行权利要求6所述的车辆行为决策方法。