CN116860300B

CN116860300B - 面向多子网多ecu的车载ota并行升级方法及系统

Info

Publication number: CN116860300B
Application number: CN202311122639.2A
Authority: CN
Inventors: 武亭; 卢放; 尹智帅; 张贵海; 司华超
Original assignee: Wuhan University of Technology WUT; Lantu Automobile Technology Co Ltd
Current assignee: Wuhan University of Technology WUT; Lantu Automobile Technology Co Ltd
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2023-11-28
Anticipated expiration: 2043-09-01
Also published as: CN116860300A

Abstract

本发明公开了一种面向多子网多ECU的车载OTA并行升级方法，包括：定期获取处于多子网多ECU并行的整车的当前网络环境信息；将当前第一时间段内的网络环境信息转换为二维资源网格图像并输入CNN模型中得到降维后的短时域特征向量；将当前第二时间段内的网络环境信息转换为二维资源网格图像，并输入多层感知机MLP中得到长时域特征向量；将短时域特征向量和长时域特征向量混合生成混合向量并生成网络环境聚合特征；将网络环境聚合特征输入预先训练好的基于马尔可夫决策过程的自适应深度强化学习模型，生成最终动作，以动态调整软件升级时车辆OTA的最大传输速度和数据传输并行线程数量。本发明可减少资源竞争和冲突，提高升级任务的并行度和效率。

Description

面向多子网多ECU的车载OTA并行升级方法及系统

技术领域

本发明涉及车载通信领域，尤其涉及面向多子网多ECU并行升级场景的车载OTA并行升级方法及系统。

背景技术

随着车辆电动化、智能化不断提高，车联网技术、智能驾驶技术的日渐成熟，主机厂通过车端软件方面不断优化和新增车辆功能，来提高购车客户用车体验及用户粘度；主机厂逐步规划通过OTA升级，实现软件方面收益。目前车辆常用的升级方式大都采用串行升级方式，串行升级主要的几个缺陷：首先，升级对象越多时间越长，进而影响用户升级体验，也将逐步影响主机厂OTA执行完成率；其次，升级时间过长也消耗了车辆更多的能源增大，一次软件迭代需推送多次升级任务，也影响用户升级体验。

发明内容

本发明主要目的在于提供一种可减少资源竞争和冲突，提高升级任务的并行度和效率的面向多子网多ECU的车载OTA并行升级方法及系统。

本发明所采用的技术方案是：

提供一种面向多子网多ECU的车载OTA并行升级方法，包括以下步骤：

定期获取处于多子网多ECU并行的整车的当前网络环境信息，该网络环境信息为包括带宽、延迟、丢包率、网络负载的多个时间序列数据；

将当前第一时间段内的网络环境信息使用极坐标转化方式归一化并转换为二维资源网格图像，并输入CNN模型中，得到降维后的短时域特征向量；

将当前第二时间段内的网络环境信息使用极坐标转化方式归一化并转换为二维资源网格图像，并输入多层感知机MLP中，得到长时域特征向量，其中第二时间段大于第一时间段；

将短时域特征向量和长时域特征向量混合生成混合向量，输入预先构建的图注意神经网络GAT中，生成网络环境聚合特征；

将网络环境聚合特征输入预先训练好的基于马尔可夫决策过程的自适应深度强化学习模型，生成最终动作；该深度强化学习模型将网络环境聚合特征用于描述状态空间，车辆OTA的传输速度与数据传输并行线程数量作为智能体所选择的动作，根据所生成的最终动作动态调整软件升级时车辆OTA的最大传输速度和数据传输并行线程数量。

接上述技术方案，第二时间段为第一时间段的10倍。

接上述技术方案，该基于马尔可夫决策过程的自适应深度强化学习模型中，马尔可夫决策过程MDP被表述为包含五个元素的元组，五个元素分别表示状态空间、动作空间、即时奖励、状态转移模型以及折扣因子；具体在状态下智能体遵循策略/>从动作空间中选择传输速度与数据传输并行线程数量，/>状态受动作/>影响转移为状态/>，奖励函数基于状态/>与其他条件给予智能体奖励/>，策略/>基于智能体得到的奖励/>进行策略迭代，使智能体能够获得更多的奖励，以鼓励智能体选择能够保持较低丢包率与较低延迟的车辆OTA的传输速度与数据传输并行线程数量。

接上述技术方案，具体将网络环境聚合特征通过2个多层感知器MLPs处理，计算当前时刻状态空间下每个动作的动作价值，在部署过程中，/>值最高的动作将被用作车辆OTA的执行参数。

接上述技术方案，软件升级时，对升级包传输进程进行管理，包括OTA平台设备管理、OTA平台软件版本管理、OTA平台整车软件基线版本管理、OTA平台并行任务管理、OTA车端任务执行管理。

接上述技术方案，其中OTA平台设备管理包括：

通过云平台向车载控制器的OBD-II端口发送多个诊断请求，获取每个控制器返回的包含固件版本和硬件地址信息的CAN报文，在云平台内解析报文获得每个控制器对应的固件信息，将总的数据按照不同的控制器分为多组数据，为不同的控制器分配一个设备名称，格式为“该控制器对应的固件版本+该控制器对应的硬件地址”；

定义车端控制器的基础编码，实现与软件包间的关联匹配、车端升级阶段与实车设备的检验；将设备名称作为车端控制器的基础编码，作为每个控制器唯一的标识符，用于识别特定的控制器和固件版本；创建一个数据库A，该数据库A包含所有的控制器固件版本信息以及其对应的软件包版本信息，云平台通过调用该数据库API，实现不同控制器固件版本与不同软件版本之间的匹配；

预先进行所有子网分组、升级前置约束、升级优先级定义，用于并行升级中的控制器自动分组；创建一个数据库B，该数据库B包含每个控制器对应的子网分组、升级前置约束、升级优先级定义的信息，云平台通过调用数据库B的API获取不同控制器对应的特性；

定义控制器诊断刷写地址，用于车端升级序列执行；在云平台中创建脚本，该脚本基于控制器名称为每个控制器定义一个诊断刷写地址用于升级序列执行；

定义控制器软件与硬件之间的兼容关系，避免软件错刷硬件；在云平台中创建另一脚本，通过调用数据库A和数据库B的API，获取控制器对应的特性与软件版本，通过对待更新软件的前置条件、软件版本信息进行比较，判断软硬件是否兼容。

接上述技术方案，OTA平台软件版本管理具体为配置该软件包兼容的软件基础编码及最低可升级的版本，车辆上控制器与配置的软件基础编码相同且当前软件版本大于等于配置的最低软件包版本，则可升级到该软件包版本；其中，软件基础编码表征了控制器的硬件及软件特性。

接上述技术方案，OTA平台整车软件基线版本管理具体以车型维度制定整车基线版本，不区分车型配置,包含车型内的所有 ECU OTA 软件包版本的组合，每个基线版本预先经过内部多轮软硬件协同测试以及软件版本兼容性测试，OTA升级成功后，车端更新为目标基线版本。

接上述技术方案，OTA平台并行任务管理具体在OTA任务创建后，针对ECU刷写顺序和关系进行校验，根据当前基线与目标基线之间差异，通过创建脚本调用数据库B的API，获得不同待升级ECU的子网分组、升级优先级和前置约束，按照各个ECU对应的功能和优先级生成“并行刷写矩阵”；通过并行分组间执行串行升级、并行分组内实现并行升级。

本发明还提供一种面向多子网多ECU的OTA并行升级系统，包括：

数据获取模块，用于定期获取处于多子网多ECU并行的整车的当前网络环境信息，该网络环境信息为包括带宽、延迟、丢包率、网络负载的多个时间序列数据；

短时域特征向量转换模块，用于将当前第一时间段内的网络环境信息使用极坐标转化方式归一化并转换为二维资源网格图像，并输入CNN模型中，得到降维后的短时域特征向量；

长时域特征向量转换模块，用于将当前第二时间段内的网络环境信息使用极坐标转化方式归一化并转换为二维资源网格图像，并输入多层感知机MLP中，得到长时域特征向量，其中第二时间段大于第一时间段；

特征聚合模块，用于将短时域特征向量和长时域特征向量混合生成混合向量，输入预先构建的图注意神经网络GAT中，生成网络环境聚合特征；

自适应网络环境的升级传输决策模块，用于将网络环境聚合特征输入预先训练好的基于马尔可夫决策过程的自适应深度强化学习模型，生成当前网络环境下车辆OTA的传输速度与数据传输并行线程数量，并根据其动态调整软件升级时车辆OTA的最大传输速度和数据传输并行线程数量。

本发明产生的有益效果是：本发明通过优化面向多子网、多ECU的升级策略，减少资源竞争和冲突，提高升级任务的并行度和效率。引入于马尔可夫决策过程的自适应深度强化学习模型，实现在不同网络环境下升级包的传输速度与并行传输线程数量的自适应调整，确保升级过程的稳定性和高效性。

进一步地，充分考虑各个控制器分组的约束条件，通过升级包传输进程管理，实现智能灵活地动态调整升级任务优先级和调度、符合实际约束条件的并行升级。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例面向多子网多ECU的车载OTA并行升级方法的流程图；

图2是本发明实施例网络环境信息聚合提取流程图；

图3是本发明实施例强化学习架构图；

图4是本发明实施例策略更新流程图；

图5是本发明实施例整车软件基线版本管理图；

图6是本发明实施例车辆基线匹配流程图；

图7是本发明实施例并行升级矩阵列表生成过程图；

图8是本发明实施例并行升级矩阵参考事例图；

图9是本发明实施例 OTA车端任务执行图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

如图1所示，本发明实施例面向多子网多ECU的车载OTA并行升级方法，包括以下步骤：

S1、定期获取处于多子网多ECU并行的整车的当前网络环境信息，该网络环境信息为包括带宽、延迟、丢包率、网络负载的多个时间序列数据；

S2、将当前第一时间段内的网络环境信息使用极坐标转化方式归一化并转换为二维资源网格图像，并输入CNN模型中，得到降维后的短时域特征向量；

S3、将当前第二时间段内的网络环境信息使用极坐标转化方式归一化并转换为二维资源网格图像，并输入多层感知机MLP中，得到长时域特征向量，其中第二时间段大于第一时间段；

S4、将短时域特征向量和长时域特征向量混合生成混合向量，输入预先构建的图注意神经网络GAT中，生成网络环境聚合特征；

S5、将网络环境聚合特征输入预先训练好的基于马尔可夫决策过程的自适应深度强化学习模型，生成最终动作；该深度强化学习模型将网络环境聚合特征用于描述状态空间，车辆OTA的传输速度与数据传输并行线程数量作为智能体所选择的动作，根据所生成的最终动作动态调整软件升级时车辆OTA的最大传输速度和数据传输并行线程数量。

其中，短时域特征向量代表了车辆当前时刻的网络环境信息，用于描述当前网络环境的状态，该状态是智能体做出下一时刻动作前所要观察的环境。长时域特征向量是从一段较长时间内的网络环境信息中提取的信息，其中包含了几种不同类型网络数据之间内在的交互关系。通过将短时域特征向量和长时域特征向量混合生成混合向量，该混合向量是将代表当前环境的短时域特征向量与代表向量之间内在交互关系的长时域特征向量进行聚合得到的，再通过GAT网络将两种信息融合得到聚合特征，该聚合特征既能表达当前的网络环境信息，同时又包含不同类型数据之间的内在关系。以该聚合特征作为状态空间的智能体可以在理解不同类型数据内在关系的前提下，基于当前的网络环境做出稳定、高效的决策。

步骤S2中的CNN模型是一个深度学习驱动的模型，特别是使用了卷积神经网络(CNN)。输入为网络环境的带宽、延迟、丢包率以及整车多子网多ECU的网络负载信息。CNN模型的输出为当前环境下保证数据传输稳定性的最大下行传输速度和当前网络负载环境下的数据传输并行线程数量。

该CNN模型是一种新颖的基于图注意力的网络架构，用于编码异构网络信息（即带宽、延迟、丢包率、网络负载），对4中异质网络环境信息的内在交互关系进行建模。

为了描述当前1s时刻中网络环境的状态信息，将收集到的数据转化为2D资源网格图像，作为网路信息环境状态的短时域特征向量。所有收集到的信号数据（带宽、延迟、丢包率、网络负载）都是包含了时间序列，在一段时间内，带宽数据表示为，延迟数据表示为/>，丢包率数据表示为/>，网络负载数据表示为/>。通过使用极坐标转化，将时间序列与数据值转换为对应角度之和的余弦，从而将已有数据转化为图像。最终得出一个尺寸为200×280×4的二值化图像输入/>，基于CNN的ResNet-18将/>投影到更低维的向量/>以供进一步操作。

如图2所示，本发明使用图注意力网络来模拟车辆OTA（Over-the-AirTechnology，空中下载技术）过程中4种数据之间的内在交互关系。将车辆在一段时间内的网络环境信息作为输入特征送入图神经网络，每次输入的是一组节点特征/>，然后每个节点的信息传播到邻接节点，通过自我注意力机制更新节点特征。/>四个节点中每个节点输入的是一个/>维的向量，/>的大小取决于时间长短。如果设定数据采集的频率为10/>，/>，可以得到/>。在本发明构建的网络模型中，首先将向量/>通过一个多层感知机MLP处理，得到一个长时域特征向量/>，然后将/>与上述CNN模块得出的/>连接起来（这里向量z是基于当前1s时刻内生成的短时域向量），生成混合向量/>，然后将/>发送到图神经网络，输出最终的聚合特征/>，该特征代表了4个节点之间的内部交互关系。

上文阐述了如何从网络环境信息中提取特征向量h，该特征向量既包含了长时域内4种数据之间的交互关系，又包含了短时域内4种数据的状态值。

本发明进一步采用基于马尔可夫决策过程的自适应深度强化学习模型基于已有的特征向量生成当前网络环境下车辆OTA的传输速度与并行线程数量。由于在面多不同数量不同架构的车载通信网络时，很难确定最优的数据传输策略，基于人工经验只能给出一定的范围区间，不能对已有的数据建立有效的监督，无法为每种情况下的数据传输创建最优标签，因此需要一种无监督的机器学习模型来完成该任务。在马尔可夫决策过程中我们只需要关注环境的变化和奖励函数的反馈，通过人工经验总结出的范围区间，为智能体的动作进行奖励或者惩罚，最终完成模型的收敛。通过为强化学习设计双层动作空间，约束并行线程数量与数据传输速度，使智能体能够在满足稳定性的前提下寻找到数据传输效率最高的策略。

首先，该自适应深度强化学习模型将该任务描述为马尔可夫决策过程，马尔可夫决策过程（MDP）：MDP过程是强化学习的理论基础，它可以被表述为包含五个元素的元组：，分别表示状态空间，动作空间，即时奖励，状态转移模型以及折扣因子。在这个表述中，智能体与环境进行交互，并通过最大化预期折扣回报/>来学习策略/>，其中/>平衡了即时和未来奖励的重要性。给定策略/>，状态-动作对的动作价值（Q值）定义为：

它可以使用贝尔曼方程计算：

最优的Q值函数可以写成：

双重深度Q学习：可以看到，一旦计算出最优的Q值函数，我们可以选择具有最大Q值的最优动作在状态/>下执行。然而，传统的表格方法无法应对大型状态空间，如图像。如图3所示，在深度Q学习中，最优的Q值函数中的/>被一个具有参数/>的深度神经网络/>近似。我们使用双重深度Q学习来估计这个网络，并在第/>次迭代时根据时间差分（TD）误差优化以下序列的损失函数

其中表示带有参数/>的目标网络，这些参数每/>次梯度步骤通过复制/>的权重进行更新，并在其他间隔中保持冻结。在这项工作中，/>和/>共享相同的CNN编码器，我们设置/>。

特征向量被用于描述状态空间，传输速度与并行线程数量作为智能体将要选择的动作/>，/>代表智能体执行动作所能够得到的回报，智能体的策略表示为/>，在/>状态下智能体遵循策略/>从动作空间中选择传输速度与并行线程数量，/>状态受动作/>影响转移为状态/>，奖励函数基于状态/>与其他条件给予智能体奖励/>，策略/>基于智能体得到的奖励进行策略迭代，使智能体能够获得更多的奖励。

其次，定义状态空间、动作空间/>、策略/>、奖励函数/>。如图4所示，状态空间/>在本发明中被视为通过图注意力网络模型得到的聚合特征/>，动作空间/>被定义为两层，分别是并行线程数量/>与传输速度/>，智能体基于策略/>进行动作选择时会先选择一个并行线程数量，然后在对应并行线程数量的传输速度集合中选择能够保证OTA稳定性的传输速度。并行线程数量/>，传输速度/>，基于大量工程实践，本发明定义了传输速度与并行线程数量之间的稳定性边界，即当/>时，，即当/>时，/>，即当时，/>，即当/>时，/>，策略/>通过状态-动作对的动作价值（Q值）定义给出。奖励函数/>，强化学习的目标是找到一个可以最大化预设奖励函数的策略，为了鼓励代理学习期望的高效鲁棒策略，奖励通常参考任务目的生成具有实际意义的正值。传输效率：更高的传输速度与更多的并行线程数量可以提高车辆OTA的传输速度。本发明提出的方法鼓励智能体尽可能的选择更高的传输速度与并行线程数量。传输质量：更低的丢包率与延迟可以避免车辆OTA过程中可能出现的数据丢失与传输中断等现象。因此本发明提出的方法鼓励智能体选择能够保持较低丢包率与较低延迟的动作，这里动作代表了智能体选择的传输速度与并行线程数量。

将驾驶场景的最后输出特征向量聚合特征通过2个多层感知器（MLPs）处理，计算当前时刻状态空间下每个动作的/>值。在部署过程中，/>值最高的动作将被用作车辆OTA的执行参数。以下，我们将介绍这部分的实施细节。

动作空间：在这项工作中，代理首先在动作空间并行线程数量中选择本次OTA进程中的并行线程数量。然后在基于并行线程数量动作空间/>的选择结果在满足稳定性边界约束的传输速度/>动作空间中选择一个值作为本次OTA进程的数据传输速度。

奖励设计：为了实现高效稳定的OTA过程，我们将奖励设定为-1，作为OTA中断事件的惩罚，其他则考虑传输速度大小、丢包率作为策略迭代的影响因素。传输速度：当并行线程数量为1时，传输速度大于或等于50M/s时，奖励设定为2，当传输速度小于50M/s时，奖励设定为-1；当并行线程数量为2时，传输速度大于或等于40M/s时，奖励设定为2，当传输速度小于40M/s时，奖励设定为-1；当并行线程数量为3时，传输速度大于或等于30M/s时，奖励设定为2，当传输速度小于30M/s时，奖励设定为-1；当并行线程数量为4时，传输速度大于或等于20M/s时，奖励设定为2，当传输速度小于20M/s时，奖励设定为-1。丢包率：该奖励由前后两个时刻对应的丢包率数据相减构成，当前后两个时刻丢包率的值差距大于5%，则设定奖励为-1，当前后两个时刻丢包率的值差距小于5%，则设定奖励为2。同时当丢包率大于20%时，奖励设定为-1，作为OTA传输不完全事件的惩罚。

可见，该基于马尔可夫决策过程的自适应深度强化学习模型实现了本专利的自适应网络环境的升级传输策略，能够根据网络环境的变化自动调整升级包的传输速率与并行线程数量，实现升级包的并行传输，确保升级过程的稳定性和高效性。

实施例2

该实施例基于上述方法实施例，主要用于实现方法实施例。

该实施例面向多子网多ECU的OTA并行升级系统，包括：

其中，自适应网络环境的升级传输决策模块引入了自适应网络环境的升级传输策略，该策略能够根据网络环境的变化自动调整升级包的传输速率与并行线程数量，实现升级包的并行传输，确保升级过程的稳定性和高效性。自适应网络环境的升级传输策略首先收集当前的网络环境信息，如带宽、延迟、丢包率等。然后，根据这些信息和预先设定的传输策略，动态地调整升级包的传输速率和传输顺序。这样，即使在网络环境变化的情况下，也能保证升级包的稳定、高效传输。下面对自适应网络环境的升级传输策略进行详细阐述。

“自适应网络环境的升级传输决策模块”包含了“①网络信息收集模块”、“②传输策略决策模块”、“③升级包传输进程管理模块”三个子模块，在车载控制器嵌入式QNX系统中部署基于python开发了“网络信息收集模块”、“传输策略决策模块”、“升级包传输进程管理模块”。

①网络信息收集模块

网络信息收集模块：该模块会定期收集并记录当前网络环境的信息，通过网络诊断工具ping、traceroute、mtr获取当前网络环境的带宽、延迟、丢包率信息。使用网络带宽测试脚本“脚本1”，

首先，基于通信IP地址，发送测试数据，测量当前网络环境的上行传输速度。其次，接收返回数据，测量当前网络环境的下行传输速度。最后基于网络上下行速度，得到当前网络环境的带宽。“脚本1”运行时会创建三个字典“dict_UTS”、“dict_DTS”、“dict_NBW”，分别为“UTS”、“DTS”、“NBW”三个变量名打上测试时的时间戳，与得到的具体测试数据一起组成键值对保存到“dict_UTS”、“dict_DTS”、“dict_NBW”三个字典中。

其次，使用ping工具来测量网络延迟，ping工具会发送一个ICMP回显请求数据包到目标服务器，并等待其回复，延迟的测量结果就是数据包往返的时间。连续发送多个数据包，计算平均延迟时间提高测量精度。为“NL”变量名打上时间戳，与得到的具体测试数据一起组成键值对保存到“dict_NL”字典中。

最后，ping工具来测量网络丢包率，在连续发送多个数据包的过程中，如果有数据包没有收到回复，那么这个数据包就被认为是丢失的。丢包率就是丢失的数据包数除以总的数据包数。通过连续发送多个数据包，计算平均丢包率以提高测量精度。为“PLA”变量名打上时间戳，与得到的具体测试数据一起组成键值对保存到“dict_PLA”字典中。

该模块还包含整车网络负载测试“脚本2”，通过调用工具Wireshark对整车多ECU的网络负载情况进行抓取，为“NLS”变量名打上时间戳，与得到的具体测试数据一起组成键值对保存到“dict_NLS”字典中，特别的，“dict_NLS”字典中包含了每个ECU的网络负载信息。

②传输策略决策模块

该模块的核心在于其能够根据实时的网络环境动态调整数据传输过程中的最大传输速度和数据传输并行线程数量。这种动态调整可能使得传输过程能够更好地应对网络环境的变化，如网络拥堵、信号强度弱、车载通信带宽负载高等情况。在这些情况下，如果使用固定的传输速度和线程数量，可能会导致数据丢失或下载失败，从而影响OTA升级的成功率和车载网联功能的正常运行。通过动态调整，该模型可能能够在各种网络环境下都保持较高的数据传输稳定性和效率，从而提高OTA升级的成功率和效率。为了提高数据传输过程的稳定性和传输速度，本发明提出了“传输稳定域下的传输效率边界模型”，该模型能够基于实时的网络环境，动态调整数据传输过程中的最大传输速度和数据传输并行线程数量，从而保证车辆OTA升级过程的稳定性。基于网络环境的信息输入，确定在保证数据传输稳定性的前提下，尽可能提高整车OTA的数据传输效率。

“传输稳定域下的传输速度边界模型”基于历史同款车辆OTA数据和深度学习模型拟合得到，该模型输入为一段时间内网络环境的带宽、延迟、丢包率和一段时间内的整车多子网多ECU的网络负载信息，输出为当前环境下保证数据传输稳定性的最大下行传输速度，和当前网络负载环境下的数据传输并行线程数量。在工程实践中发现数据驱动的机器学习方法特别适用于网络负载均衡和数据传输并行线程数量自适应等问题，因为车辆网络通信条件随环境变化，估计和训练涉及确定数据传输速度和传输并行线程数量，工程实践结果表明CNN在判断车辆OTA系统稳定性方面表现良好。CNN通常对图像作为输入可以取得更好的结果，本发明选择了卷积神经网络（CNN）方法，将传输速度估计问题建模为图像处理问题。基于CNN的深度学习方法在处理图像处理问题时被证明是有效的，因为它通过利用参数共享和连接的稀疏性，使得权重矩阵中的参数数量比完全连接的神经网络模型少。CNN模型使用卷积核作为特征检测器，利用估计器的输入学习实际车辆OTA传输特征。本发明介绍了一个基于深度学习驱动的“传输稳定域下的传输速度边界模型”，可以利用OTA过程中的环境信号来开发和测试用于OTA过程数据传输和传输并行线程数量估计的深度学习方法。我们考虑了一个基于CNN的估计器，它能够处理带宽、延迟、丢包率、网络负载等信号的时频排列。估计数据是通过使用连接到服务器云端的域控制器设备进行OTA传输和接收来收集的。本发明在各种车辆驾驶场景下收集了大量的OTA估计数据：1）城镇道路工况，2）高速公路道路工况，3）乡村道路工况。我们将收集到的数据转化为2D资源网格图像，并将其分为训练、测试和干扰部分。本发明针对整车多子网多ECU并行OTA升级系统在正常驾驶场景和相关衰落场景下构建了基于CNN的信道估计器。

本发明考虑一个基于CNN的信道估计模型，回归方法是一种可以对系统进行建模以遵循已知函数y = f(x)的方法，其中f(.)通过对输入x进行训练并与参考数据y进行对比进行建模。深度学习模型的输入是OTA过程中的环境信号，CNN模型可以根据可用的统计信息，基于一个完美或实际的传输速度和传输并行线程数量估计作为参考进行训练。CNN的基础是在不同尺寸的卷积核和图像之间进行卷积操作，以提取特征信息。CNN是一个多层系统，卷积操作的输出被应用于激活函数。激活函数是一个非线性函数，用于对输入的数据进行转换。对于回归问题，最后的输出层是一个回归层，计算半均方误差损失。最后，多层系统使用选择的优化函数进行优化。

本发明将数据传输速度和传输并行线程数量估计问题视为图像处理问题，将资源网格视为二维图像。本发明采集的带宽、延迟、丢包率、网络负载四种信号数据都是包含了时间序列，通过使用极坐标转化，将时间序列与数据值转换为对应角度之和的余弦，通过给定一组包含I个实值观测的时间序列数据S，通过上述方法将S进行归一化，使其范围在[-11]内，从而将已有数据转化为图像。资源网格生成的图像由N个资源块组成，形成一个复杂的612×14×N矩阵，其中N表示接收输入信号种类的数量。对于整车多子网多ECU并行OTA升级系统，N的值为4(包含了带宽、延迟、丢包率、网络负载四种信号)。CNN模型具有5个隐藏层，每个隐藏层与一个ReLU激活层关联。ReLU（修正线性单元）函数可以用数学方式表示为z= max(0, yi)。使用Adam优化算法对损失函数进行最小化。使用真实的OTA估计数据对CNN模型进行训练。为了减小均方误差，CNN模型的输入是通过基本插值降噪获得的估计值，基于训练数据完成CNN模型训练，基于干扰数据完成传输稳定域边界估计，基于测试数据完成该模型的性能验证。其中基于干扰数据完成传输稳定域边界估计是指，使用已训练完成的CNN模型在干扰数据中进行测试，通过多轮测试对比，得到数据干扰程度与模型估计结果稳定性之间的关系，通过计算带宽、延迟、丢包率、网络负载四种信号的数据丢失率，判断模型估计的结果是否能够满足传输稳定性要求，保证OTA过程顺利完成。

该模块的创新点有以下两点①“传输稳定域下的传输效率边界模型”基于同款型号车辆的历史数据和深度学习模型，准确地拟合在各种网络环境下应该使用的最大传输速度和线程数量，增强了车辆OTA升级过程的自适应能力；②该模型拟合的最大下行传输速度与并行线程数量满足车辆OTA升级的稳定性要求，在优先确保数据传输的稳定性前提下，提高数据的传输效率。该策略的稳定性与可靠性体现在上述两个创新点，首先创新点①带来的自适应能力可以避免因使用固定的传输速度和线程数量，可能会导致数据丢失或下载失败，其次创新点②保证了模型输出的最大下行数据传输速度与线程数量满足稳定性要求，即最大下行传输速度与线程数量满足基于历史数据的稳定性约束。综上所述，基于该策略的车辆OTA系统具备更强的稳定性与可靠性。

在控制器系统中“传输稳定域下的传输效率边界模型”是基于Python的“模型1”，该模型通过调取一定时间段内“dict_UTS”、“dict_DTS”、“dict_NBW”、“dict_PLA”四个字典中的数据，输出当前网络环境和整车网络负载下的最大下行传输速度和数据传输并行线程数量。

③升级包传输进程管理模块

该模块充分考虑了各个控制器分组的约束条件，通过并行升级矩阵动态调整升级任务的优先级和调度，实现了在满足实际约束条件的情况下进行并行升级。这一机制能够使升级任务更加智能、灵活，提高了整车升级效率。该模块主要通过控制器中的“OTA升级脚本”实现，“OTA升级脚本”包含以下①OTA平台设备管理、②OTA平台软件版本管理、③OTA平台整车基线管理、④OTA平台并行任务管理、⑤OTA车端任务执行五个功能。

①OTA平台设备管理：

OTA云端设备管理的主要作用及功能如下：

定义设备名称：定义车端控制器的名称，用以云端设备管理；通过云平台向车载控制器的OBD-II端口发送多个诊断请求，获取每个控制器返回的包含固件版本和硬件地址信息的CAN报文，在云平台内解析报文获得每个控制器对应的固件信息，将总的数据按照不同的控制器分为多组数据，为不同的控制器分配一个名称，格式为“该控制器对应的固件版本+该控制器对应的硬件地址”

设备编码管理：定义车端控制器的基础编码，实现与软件包间的关联匹配、车端升级阶段与实车设备的检验；将上一步中定义的设备名称作为车端控制器的基础编码，作为每个控制器唯一的标识符，用于识别特定的控制器和固件版本。创建一个数据库A，该数据库包含所有的控制器固件版本信息以及其对应的软件包版本信息，云平台通过调用该数据库API，可以实现不同控制器固件版本与不同软件版本之间的匹配。

设备特性管理：主要包含所有子网分组、升级前置约束（如高低压约束、顺序约束等）、升级优先级定义，这些特性用于并行升级中的控制器自动分组；创建一个数据库B，该数据库包含每个控制器对应的子网分组、升级前置约束（如高低压约束、顺序约束等）、升级优先级定义等信息，云平台通过调用数据库B的API即可获取不同控制器对应的特性。

设备诊断地址管理：定义控制器诊断刷写地址，用户车端升级序列执行；在云平台中创建“脚本3”，该脚本基于控制器名称为每个控制器定义一个诊断刷写地址用于升级序列执行。

设备兼容性管理：定义控制器软件与硬件之间的兼容关系，避免软件错刷硬件；在云平台中创建“脚本4”，该脚本通过调用数据库A和数据库B的API，获取控制器对应的特性与软件版本，通过对待更新软件的前置条件、软件版本等信息进行比较，判断软硬件是否兼容。

②OTA平台软件版本管理

OTA平台软件版本管理，在OTA系统中，软件版本管理配置该软件包兼容的软件基础编码及最低可升级的版本。车辆上控制器与配置的软件基础编码相同且当前软件版本大于等于配置的最低软件包版本，则可以升级到该软件包版本。其中，软件基础编码表征了控制器的硬件及软件特性。软件包管理模块管理流程如下图1所示。

③OTA平台整车软件基线版本管理模块：

OTA平台以车型维度制定整车基线版本，不区分车型配置,包含车型内的所有 ECUOTA 软件包版本的组合。该模块能够支持通过车型的版本控制对整车进行功能升级，如图下图5所示。

基于基线版本OTA升级可以一次性打包升级多个子网中多个ECU，适用于长期未进行OTA的车辆或者进行ECU维修更换后的车辆，每个基线版本都经过了内部多轮软硬件协同测试，保证车辆稳定性与可靠性。基线版本中对应的软件版本，都进行了兼容性测试，因此基于整车基线版本的OTA升级可以避免软件之间的不兼容导致刷写失败和整车功能崩溃等问题。

OTA平台基线版本发布后，通过下述方式更新车辆软件，车辆无基线场景中主要产线下线车辆无软件基线或者售后更换OTA主控节点控制器，需按下述流程匹配车辆基线。OTA升级成功后，车端更新为目标基线版本，如下图6所示。

④OTA平台并行任务管理

OTA平台并行任务管理，本系统在OTA任务创建后，针对ECU刷写顺序和关系进行校验，能够自动避免刷写冲突，根据当前基线与目标基线之间差异，通过创建“脚本5”调用数据库B的API，获得不同待升级ECU的子网分组、升级优先级和前置约束，按照各个ECU对应的功能和优先级生成“并行刷写矩阵”。通过并行分组间执行串行升级、并行分组内实现并行升级，解决了各类升级约束条件下的并行升级功能（多子网、多电源模式、多通信类型等）。升级失败后，按照功能组定义的功能关联关系实现软件版本的回滚。并行升级矩阵列表生成过程如下图7所示。

下表生成的并行升级矩阵参考事例，横排基于功能分组，纵列为并行升级分组，如下图8所示。

⑤OTA车端任务执行

OTA车端任务执行，按照OTA云端所下发的配置文件，执行并行升级策略。主要具备如下功能，升级条件判断：判断车速、挡位、电量、车辆防盗状态等条件，使车辆处于安全升级状态；软件包解密后的兼容性校验功能，基于基础编码，识别软件包与车辆实际控制器之间的兼容关系，避免售后更换车辆零件后，误刷导致的车辆抛锚问题；并行升级执行，车端集成标准的OTX序列引擎，按照云端定义的升级步骤和顺序，完成升级任务的执行；版本回读确认，升级完成后通过比对软件版本，输出升级结果并上报云端，如下图9所示。

实施例3

该实施例基于实施例2，不同之处在于，该实施例还包括智能监控模块。

该智能监控模块主要用于在整车多ECU的OTA升级过程中，实时收集整车系统参数、各个ECU的硬件状态参数及运行日志、车辆当前网络环境及网络负载，基于深度学习模型预测升级成功的可能性。

该智能监控模块具体实施步骤如下：

整车系统参数收集：通过“传感器1”收集车辆当前的行驶速度“v”，通过“传感器2”收集车辆当前的车辆加速度“a”，通过“传感器3”收集车辆当前的车辆转向盘角度“n”。使用“脚本6”接受三个传感器的测量值，在脚本中创建三个字典“dict_v”、“dict_a”、“dict_n”，在“v”、“a”、“n”三个变量后打上时间戳，结合实际传感器测量数据，组成键值对存储到相应的字典中。

多ECU硬件参数及运行日志获取：使用控制器中的“脚本7”，通过CAN网络的“CAN4”通道发送诊断报文，请求各个ECU的当前的硬件状态参数，包括温度、MCU负载率、电压、电流和内存剩余量，各个ECU通过“CAN4”通道将各个硬件状态参数反馈给控制器。使用控制器中的“脚本8”，抓取CAN网络各个ECU在一段时间内的报文日志，将各个ECU在一段时间内的报文分别保存为不同的log文件，每隔一段时间进行更新，新的log文件会直接覆盖旧的log文件。

基于深度学习模型预测升级成功的可能性：通过分析大量整车历史OTA升级数据，包括整车系统参数、各ECU的硬件状态参数、运行日志、车辆当前网络环境、网络负载及升级成功标签，我们开发了一个基于LSTM深度学习的预测模型。“模型2”利用LSTM的能力捕捉时间序列数据的长期依赖关系，对ECU运行日志进行深入分析。模型的结构包括三层LSTM和具有激活函数的输出层。我们对输入数据进行标准化和特征提取，以提高模型的性能。在预处理阶段，我们首先对输入数据进行标准化，我们对数值特征进行调整，使其均值为0，标准差为1，这有助于提高模型的收敛速度和精度。对于ECU的运行日志，我们进行特征提取，包括从日志中提取故障代码、操作持续时间和其他可能与OTA升级相关的指标。此外，对于类别变量如网络状态，我们使用编码脚本将其转换为二进制向量。这些预处理步骤能够将原始数据转换为模型可以更有效学习的格式。

对原始数据进行特征提取的输入通常是ECU的原始运行日志。这些日志是文本文件，包含时间戳、事件代码、状态信息、警告、错误等。类似于“2023-06-12 12:01:23, ECU1,EventCode: 200, Status: OK；2023-06-12 12:02:24, ECU2, EventCode: 500, Status:Error, ErrorDetails: Timeout；2023-06-12 12:03:25, ECU1, EventCode: 300,Status: Warning, WarningDetails: Low Memory”，经过日志解析、故障代码聚合、操作持续时间计算、数据提取、标签生成等步骤，输出为以下特征“Timestamp,ECU,NumOfErrors,AvgOperationDuration, MemoryUsage,NetworkStatus,Label；2023-06-12 12:01:00,ECU1,0,1.2s,80%,Connected,OK；2023-06-12 12:02:00,ECU2,1,3.5s,90%,Disconnected,Error”。

在模型评估阶段，我们使用准确度和AUC（Area Under the Curve，曲线下面积）作为评估标准。AUC的值在0到1之间，值越接近1，说明分类器的性能越好。一个完美的分类器的AUC为1，而一个随机猜测的分类器的AUC为0.5。在实际应用中，AUC被广泛用于评估模型对于不同阈值的分类能力。这些标准对于判断模型是否能准确预测OTA升级成功率非常重要。在验证数据集上，模型达到了较高的精度和AUC分数。

在实际应用中，我们将车辆的当前数据输入“模型2”并计算10次，以获得更稳定的预测结果。这种方法可以减少因模型波动造成的误判。我们开发了“脚本6”来计算这10次预测的平均值，并确定升级成功的概率。当概率大于60%时，“脚本6”将调用“OTA升级脚本”对整车进行OTA升级。这一流程旨在通过深度学习的方法提高OTA升级的成功率和可靠性。

实施例4

本申请还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质被处理器执行时实现方法实施例的面向多子网多ECU的车载OTA并行升级方法。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种面向多子网多ECU的车载OTA并行升级方法，其特征在于，包括以下步骤：

将网络环境聚合特征输入预先训练好的基于马尔可夫决策过程的自适应深度强化学习模型，生成最终动作；该深度强化学习模型将网络环境聚合特征用于描述状态空间，车辆OTA的传输速度与数据传输并行线程数量作为智能体所选择的动作，根据所生成的最终动作动态调整软件升级时车辆OTA的最大传输速度和数据传输并行线程数量，实现软件升级包的并行升级；

其中，该基于马尔可夫决策过程的自适应深度强化学习模型中，马尔可夫决策过程MDP被表述为包含五个元素的元组，五个元素分别表示状态空间、动作空间、即时奖励、状态转移模型以及折扣因子；具体在状态下智能体遵循策略/>从动作空间中选择传输速度与数据传输并行线程数量，/>状态受动作/>影响转移为状态/>，奖励函数基于状态/>与其他条件给予智能体奖励/>，策略/>基于智能体得到的奖励/>进行策略迭代，使智能体能够获得更多的奖励，以鼓励智能体选择能够保持较低丢包率与较低延迟的车辆OTA的传输速度与数据传输并行线程数量。

2.根据权利要求1所述的面向多子网多ECU的车载OTA并行升级方法，其特征在于，第二时间段为第一时间段的10倍。

3.根据权利要求1所述的面向多子网多ECU的车载OTA并行升级方法，其特征在于，具体将网络环境聚合特征通过2个多层感知器MLPs处理，计算当前时刻状态空间下每个动作的动作价值，在部署过程中，/>值最高的动作将被用作车辆OTA的执行参数。

4.根据权利要求1所述的面向多子网多ECU的车载OTA并行升级方法，其特征在于，软件升级时，对升级包传输进程进行管理，包括OTA平台设备管理、OTA平台软件版本管理、OTA平台整车软件基线版本管理、OTA平台并行任务管理、OTA车端任务执行管理。

5.根据权利要求4所述的面向多子网多ECU的车载OTA并行升级方法，其特征在于，其中OTA平台设备管理包括：

定义车端控制器的基础编码，实现与软件包间的关联匹配、车端升级阶段与实车设备的检验；将设备名称作为车端控制器的基础编码，作为每个控制器唯一的标识符，用于识别特定的控制器和固件版本；创建一个数据库A，该数据库A包含所有的控制器固件版本信息以及其对应的软件包版本信息，云平台通过调用该数据库A的API，实现不同控制器固件版本与不同软件版本之间的匹配；

6.根据权利要求5所述的面向多子网多ECU的车载OTA并行升级方法，其特征在于，OTA平台软件版本管理具体为配置待更新软件包兼容的软件基础编码及最低可升级的版本，车辆上控制器与配置的软件基础编码相同且当前软件版本大于等于配置的最低软件包版本，则可升级到当前软件版本；其中，软件基础编码表征了控制器的硬件及软件特性。

7.根据权利要求4所述的面向多子网多ECU的车载OTA并行升级方法，其特征在于，OTA平台整车软件基线版本管理具体以车型维度制定整车基线版本，不区分车型配置,包含车型内的所有 ECU OTA 软件包版本的组合，每个基线版本预先经过内部多轮软硬件协同测试以及软件版本兼容性测试，OTA升级成功后，车端更新为目标基线版本。

8.根据权利要求4所述的面向多子网多ECU的车载OTA并行升级方法，其特征在于，OTA平台并行任务管理具体在OTA任务创建后，针对ECU刷写顺序和关系进行校验，根据当前基线与目标基线之间差异，通过创建脚本调用数据库B的API，获得不同待升级ECU的子网分组、升级优先级和前置约束，按照各个ECU对应的功能和优先级生成“并行刷写矩阵”；通过并行分组间执行串行升级、并行分组内实现并行升级。

9.一种面向多子网多ECU的OTA并行升级系统，其特征在于，包括：

自适应网络环境的升级传输决策模块，用于将网络环境聚合特征输入预先训练好的基于马尔可夫决策过程的自适应深度强化学习模型，生成当前网络环境下车辆OTA的传输速度与数据传输并行线程数量，并根据其动态调整软件升级时车辆OTA的最大传输速度和数据传输并行线程数量，实现软件升级包的并行升级；