CN116915825B

CN116915825B - 车辆动态自适应通信方法、设备和介质

Info

Publication number: CN116915825B
Application number: CN202311181013.9A
Authority: CN
Inventors: 邓建明; 龚循飞; 于勤; 张俊; 罗锋; 廖程亮; 樊华春; 熊慧慧; 张萍
Original assignee: Jiangxi Isuzu Motors Co Ltd
Current assignee: Jiangxi Isuzu Motors Co Ltd
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2024-01-12
Anticipated expiration: 2043-09-14
Also published as: CN116915825A

Abstract

本发明公开了一种车辆动态自适应通信方法、设备和介质，应用于一车辆动态自适应通信系统，系统包括传感器功能域、控制器功能域、信息处理功能域、信息显示功能域、通信接口功能域，通信接口功能域用于实现内网连接和外网连接。方法包括：基于强化学习算法，定义有限的状态空间和动作空间，其中状态空间表示内网连接和外网连接的各种状态，动作空间表示可以采取的各种动作；初始化用于存储每种状态‑动作对应的Q值的Q表，Q值表示采取动作后所能获得的长期回报的期望值；根据探索‑控制策略，基于Q表，选择最佳状态‑动作，向每个功能域发送配置信息；根据公式，更新Q表。本申请能够实现高效率和低延迟的数据传输。

Description

车辆动态自适应通信方法、设备和介质

技术领域

本发明涉及车辆子系统的联合控制技术领域，尤其涉及一种车辆动态自适应通信方法、设备和介质。

背景技术

目前，基于“五域划分”的汽车电子电气架构，将全车的电子电气架构分为动力域、底盘域、车身域、座舱域和智能驾驶域，每个域由一个域控制器进行统一的控制。这种方式主要采用CAN总线作为通信技术，实现各个子系统之间的信息交换。

本申请发明人在实现本发明实施例技术方法的过程中，至少发现现有技术中存在如下技术问题：

“五域划分”的汽车通信网络架构按照子系统的物理结构划分，不是按照子系统之间的通信需求和目标划分，可能导致通信网络架构不够合理和高效，无法充分利用各种通信技术和协议的优势，造成通信资源的浪费和通信效率的降低。另外，“五域划分”的汽车通信网络架构是一种相对固定和封闭的架构，难以适应不同类型（如：燃油车、混合动力车和纯电动车）和等级（如L2级别和L4级别）的汽车的通信需求和变化，也难以实现与互联网之间的数据共享和协同优化，影响汽车的智能化和个性化水平。

综上，现有技术的车辆通信网络架构无法满足现有的通信需求。

发明内容

本发明实施例提供一种车辆动态自适应通信方法、设备和介质，解决了现有技术的车辆通信网络架构无法满足现有的通信需求的技术问题。

本发明实施例一方面提供了一种车辆动态自适应通信方法，应用于一车辆动态自适应通信系统，所述车辆动态自适应通信系统包括传感器功能域、控制器功能域、信息处理功能域、信息显示功能域、通信接口功能域，所述通信接口功能域包括用于实现内网连接和外网连接的通信接口模块，所述内网连接为所述传感器功能域、所述控制器功能域、所述信息处理功能域、所述信息显示功能域之间的连接，所述外网连接为互联网与所述传感器功能域、所述控制器功能域、所述信息处理功能域、所述信息显示功能域之间的连接，所述车辆动态自适应通信方法包括：基于强化学习算法，定义有限的状态空间和动作空间，其中所述状态空间表示所述内网连接和所述外网连接的各种状态，所述动作空间表示可以采取的各种动作；初始化用于存储每种状态-动作对应的Q值的Q表，所述Q值表示采取动作后所能获得的长期回报的期望值；根据探索-控制策略，基于所述Q表，选择最佳状态-动作，向每个功能域发送配置信息；根据公式，更新所述Q表，其中s和s′分别表示当前状态和下一个状态，a和a′分别表示当前动作和下一个动作，r表示即时回报，α表示学习率，γ表示折扣因子。

可选的，所述初始化用于存储每种状态-动作对应的Q值的Q表，具体为：将所述Q表中存储的每种状态-动作对应的Q值进行随机赋值或全零赋值。

可选的，所述根据探索-控制策略，基于所述Q表，选择最佳状态-动作，具体为：根据探索-控制策略，从所述Q表中选择Q值最大或有一定概率的状态-动作为最佳状态-动作。

可选的，所述状态包括：通信方式、通信协议、带宽、时延、丢包率。

可选的，所述动作包括：选择或切换通信方式、通信协议、通信参数。

可选的，在所述更新所述Q表之后，还包括：基于图论模型，将每个功能域和所述互联网视为节点，节点之间的通信连接视为边，每条边赋予权重值，所述权重值反映每条边的通信质量；根据通信需求，构建有向加权图，其中V表示节点集合，E表示边集合，W表示权重值集合；实时采集每条边的通信状态和质量信息，计算每条边的权重值，更新所述权重值集合W；根据各个节点和边的关系，分析通信方式之间的关系，调整通信连接和数据传输的优先级和策略；根据每条边的权重值，选择最优的通信方式，向每个功能域发送配置信息。

可选的，在所述更新所述Q表之后，还包括：S1：基于博弈论，将每个功能域和所述互联网视为玩家，将各种通信方式和通信协议视为策略，定义效用函数，所述效用函数表示每个玩家在采取一种策略所能获得的收益；S2：根据通信需求，构建非合作博弈，其中，N表示玩家集合，S表示策略集合，u表示效用函数；S3：根据每个玩家的效用函数，计算每个玩家在每种策略下的期望收益，根据期望收益分配每种策略的权重值；S4：根据每种策略的权重值，选择最优的通信方式和通信协议，向每个功能域发送配置信息；S5：根据每个玩家实际采取的策略和实际获得的收益，更新效用函数；S6：重复步骤S1-S5，直到达到纳什均衡状态。

可选的，所述传感器功能域，用于采集车辆内部和车辆外部的传感信息；所述控制器功能域，用于执行车辆控制操作；所述信息处理功能域，用于处理所述传感器功能域传输的传感信息或所述互联网传输的待处理信息；所述信息显示功能域，用于显示所述信息处理功能域或所述互联网的信息；所述通信接口功能域，用于实现所述内网连接和所述外网连接。

另一方面，本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现前述实施例中车辆动态自适应通信方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述实施例中车辆动态自适应通信方法的步骤。

本发明实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

一种车辆动态自适应通信方法，应用于一车辆动态自适应通信系统，所述车辆动态自适应通信系统包括传感器功能域、控制器功能域、信息处理功能域、信息显示功能域、通信接口功能域，所述通信接口功能域包括用于实现内网连接和外网连接的通信接口模块，所述内网连接为所述传感器功能域、所述控制器功能域、所述信息处理功能域、所述信息显示功能域之间的连接，所述外网连接为互联网与所述传感器功能域、所述控制器功能域、所述信息处理功能域、所述信息显示功能域之间的连接，所述车辆动态自适应通信方法包括：基于强化学习算法，定义有限的状态空间和动作空间，其中所述状态空间表示所述内网连接和所述外网连接的各种状态，所述动作空间表示可以采取的各种动作；初始化用于存储每种状态-动作对应的Q值的Q表，所述Q值表示采取动作后所能获得的长期回报的期望值；根据探索-控制策略，基于所述Q表，选择最佳状态-动作，向每个功能域发送配置信息；根据公式，更新所述Q表，其中s和s′分别表示当前状态和下一个状态，a和a′分别表示当前动作和下一个动作，r表示即时回报，α表示学习率，γ表示折扣因子。本申请按照子系统之间的通信需求和目标，将车辆动态自适应通信系统的通信网络架构划分为传感器功能域、控制器功能域、信息处理功能域、信息显示功能域、通信接口功能域，通信网络架构合理且高效，有利于高效利用通信资源、降低网络负载率和提高通信效率，另外该通信网络架构能够适应不同类型和等级的车辆内部以及车辆与互联网之间的通信需求和变化，提升车辆的智能化水平、兼容性、适应性和个性化水平；本申请能够根据内网连接和外网连接的当前状态，动态选择最佳的状态-动作，实现高效率和低延迟的数据传输。

进一步，所述初始化用于存储每种状态-动作对应的Q值的Q表，具体为：将所述Q表中存储的每种状态-动作对应的Q值进行随机赋值或全零赋值。能够根据实际应用需求，对每种状态-动作对应的Q值进行随机赋值或全零赋值。

再进一步，所述根据探索-控制策略，基于所述Q表，选择最佳状态-动作，具体为：根据探索-控制策略，从所述Q表中选择Q值最大或有一定概率的状态-动作为最佳状态-动作。能够根据实际应用需求，从Q表中选择Q值最大或有一定概率的状态-动作为最佳状态-动作，获得最优的通信效果。

又进一步，所述状态包括：通信方式、通信协议、带宽、时延、丢包率。能够综合考虑多种状态，有利于增加动态自适应通信的准确性。

还进一步，所述动作包括：选择或切换通信方式、通信协议、通信参数。能够从多种操作进行选择，以进行动态自适应操作。

再进一步，在所述更新所述Q表之后，还包括：基于图论模型，将每个功能域和所述互联网视为节点，节点之间的通信连接视为边，每条边赋予权重值，所述权重值反映每条边的通信质量；根据通信需求，构建有向加权图，其中V表示节点集合，E表示边集合，W表示权重值集合；实时采集每条边的通信状态和质量信息，计算每条边的权重值，更新所述权重值集合W；根据各个节点和边的关系，分析通信方式之间的关系，调整通信连接和数据传输的优先级和策略；根据每条边的权重值，选择最优的通信方式，向每个功能域发送配置信息。能够分析各个功能域或者通信方式之间是否有关系，有利于分析出各个功能域之间或者通信方式之间的依赖性、冲突性和协同性，并根据分析结果调整通信连接和数据传输的优先级和策略。

又进一步，在所述更新所述Q表之后，还包括：S1：基于博弈论，将每个功能域和所述互联网视为玩家，将各种通信方式和通信协议视为策略，定义效用函数，所述效用函数表示每个玩家在采取一种策略所能获得的收益；S2：根据通信需求，构建非合作博弈，其中，N表示玩家集合，S表示策略集合，u表示效用函数；S3：根据每个玩家的效用函数，计算每个玩家在每种策略下的期望收益，根据期望收益分配每种策略的权重值；S4：根据每种策略的权重值，选择最优的通信方式和通信协议，向每个功能域发送配置信息；S5：根据每个玩家实际采取的策略和实际获得的收益，更新效用函数；S6：重复步骤S1-S5，直到达到纳什均衡状态。权重值越高，权重值对应的策略越优，能够根据权重值，分配通信方式或优先级，有利于选择最优的通信方式和通信协议。

还进一步，所述传感器功能域，用于采集车辆内部和车辆外部的传感信息；所述控制器功能域，用于执行车辆控制操作；所述信息处理功能域，用于处理所述传感器功能域传输的传感信息或所述互联网传输的待处理信息；所述信息显示功能域，用于显示所述信息处理功能域或所述互联网的信息；所述通信接口功能域，用于实现所述内网连接和所述外网连接。通信网络架构的各个功能域相互配合，实现信息的采集、传输、处理、显示和执行，提高车辆的功能性和协调性。

附图说明

图1为本发明一实施例中车辆动态自适应通信方法的流程图；

图2为本发明一实施例中车辆动态自适应通信系统的架构图;

图3为本发明一实施例中动态选择通信方式的流程图。

具体实施方式

本发明一实施例的技术方案为解决上述的问题，总体思路如下：

一种车辆动态自适应通信方法，应用于一车辆动态自适应通信系统，车辆动态自适应通信系统包括传感器功能域、控制器功能域、信息处理功能域、信息显示功能域、通信接口功能域，通信接口功能域包括用于实现内网连接和外网连接的通信接口模块，内网连接为传感器功能域、控制器功能域、信息处理功能域、信息显示功能域之间的连接，外网连接为互联网与传感器功能域、控制器功能域、信息处理功能域、信息显示功能域之间的连接，车辆动态自适应通信方法包括：基于强化学习算法，定义有限的状态空间和动作空间，其中状态空间表示内网连接和外网连接的各种状态，动作空间表示可以采取的各种动作；初始化用于存储每种状态-动作对应的Q值的Q表，Q值表示采取动作后所能获得的长期回报的期望值；根据探索-控制策略，基于Q表，选择最佳状态-动作，向每个功能域发送配置信息；根据公式，更新Q表，其中s和s′分别表示当前状态和下一个状态，a和a′分别表示当前动作和下一个动作，r表示即时回报，α表示学习率，γ表示折扣因子。本申请按照子系统之间的通信需求和目标，将车辆动态自适应通信系统的通信网络架构划分为传感器功能域、控制器功能域、信息处理功能域、信息显示功能域、通信接口功能域，通信网络架构合理且高效，有利于高效利用通信资源、降低网络负载率和提高通信效率，另外该通信网络架构能够适应不同类型和等级的车辆内部以及车辆与互联网之间的通信需求和变化，提升车辆的智能化水平、兼容性、适应性和个性化水平；本申请能够根据内网连接和外网连接的当前状态，动态选择最佳的状态-动作，实现高效率和低延迟的数据传输。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。显然，本发明所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图2所示，本发明实施例提供一车辆动态自适应通信系统，用于实现车辆动态自适应通信方法。车辆动态自适应通信系统的通信网络架构包括传感器功能域、控制器功能域、信息处理功能域、信息显示功能域、通信接口功能域。通信接口功能域包括用于实现内网连接和外网连接的通信接口模块，内网连接为传感器功能域、控制器功能域、信息处理功能域、信息显示功能域之间的连接，外网连接为互联网与传感器功能域、控制器功能域、信息处理功能域、信息显示功能域之间的连接。

其中，功能域通过互联网能与其他车辆或者路测设备进行信息交互。

通信网络架构的各个功能域明确分工，相互配合，实现信息的采集、传输、处理、显示和执行，提高车辆的功能性和协调性，具体如下。

传感器功能域，用于采集车辆内部和车辆外部的传感信息。传感器功能域包括用于采集车辆内部和车辆外部的环境信息、驾驶员行为信息、乘客需求信息等多种类型信息的各种传感器模块，如摄像头、雷达、激光雷达、超声波、温度计、湿度计、加速度计、陀螺仪等。

控制器功能域，用于执行车辆控制操作。控制器功能域包括用于控制车辆各个子系统功能运行状态、执行驾驶指令、调节车辆姿态等多种类型任务的各种控制器模块，如动力控制器、底盘控制器、车身控制器、座舱控制器、智能驾驶控制器等。

信息处理功能域，用于处理传感器功能域传输的传感信息或互联网传输的待处理信息。信息处理功能域包括用于处理来自传感器功能域或互联网传输过来的各种类型信息、进行数据分析和优化、生成驾驶决策等多种类型操作的各种信息处理模块，如图像处理模块、语音处理模块、导航模块、规划模块、决策模块等。

信息显示功能域，用于显示信息处理功能域或互联网的信息。信息显示功能域包括用于显示来自信息处理功能域或互联网传输过来的各种类型信息、提供交互界面、反馈驾驶状态等多种类型功能的各种信息显示模块，如仪表盘、中控屏幕、投影仪、扬声器等。

通信接口功能域，用于实现内网连接和外网连接。通信接口功能域包括用于实现各个功能域之间以及功能域与互联网之间的通信连接、数据传输、数据安全等多种类型功能的各种通信接口模块，如CAN总线接口模块、以太网接口模块、V2X接口模块等。

如图3所示，各个功能域之间以及功能域与互联网之间进行动态自适应通信，能够满足不同的通信需求和目标，动态选择最合适的通信方式，如CAN总线、以太网、V2X等，实现高效率和低延迟的数据传输。具体包括以下步骤：

首先，根据各个功能域之间以及功能域与互联网之间的通信需求和目标，通过一个集中式或分布式的控制器进行统一的管理和调度。控制器根据各个功能域的功能特点和相互关系，以及功能域与互联网之间的数据交互情况，确定各个功能域之间以及功能域与互联网之间的通信优先级、带宽需求、时延要求等参数。

然后，控制器根据上述参数，动态地为各个功能域之间以及功能域与互联网之间的通信连接和数据传输分配合适的通信方式，如CAN总线、以太网、V2X等，并向各个功能域发送相应的配置信息。

最后，各个功能域根据控制器发送的配置信息，通过相应的通信接口模块，建立与其他功能域以及互联网之间的通信连接，并按照相应的通信技术和协议进行数据传输。例如，如果控制器为某个功能域与互联网之间的通信连接分配了V2X通信方式和通信协议，则该功能域通过V2X通信接口模块与互联网建立V2X连接，并按照V2X协议进行数据传输。

请参考图1，对本发明实施例中车辆动态自适应通信方法进行详细的描述。

步骤101：基于强化学习算法，定义有限的状态空间和动作空间，其中状态空间表示内网连接和外网连接的各种状态，动作空间表示可以采取的各种动作；

步骤102：初始化用于存储每种状态-动作对应的Q值的Q表，Q值表示采取动作后所能获得的长期回报的期望值；

步骤103：根据探索-控制策略，基于Q表，选择最佳状态-动作，向每个功能域发送配置信息；

步骤104：根据公式，更新Q表，其中s和s′分别表示当前状态和下一个状态，a和a′分别表示当前动作和下一个动作，r表示即时回报，α表示学习率，γ表示折扣因子。

当启动车辆动态自适应通信系统时，控制器开始执行步骤101：基于强化学习算法，定义有限的状态空间和动作空间，其中状态空间表示内网连接和外网连接的各种状态，动作空间表示可以采取的各种动作。

为了能够综合考虑多种状态，有利于增加动态自适应通信的准确性。状态包括：通信方式、通信协议、带宽、时延、丢包率。

为了能够从多种操作进行选择，以进行动态自适应操作。动作包括：选择或切换通信方式、通信协议、通信参数。

在步骤101之后，控制器开始执行步骤102：初始化用于存储每种状态-动作对应的Q值的Q表，Q值表示采取动作后所能获得的长期回报的期望值。

为了能够根据实际应用需求，对每种状态-动作对应的Q值进行随机赋值或全零赋值。步骤102中的初始化用于存储每种状态-动作对应的Q值的Q表，具体为：将Q表中存储的每种状态-动作对应的Q值进行随机赋值或全零赋值。

在步骤102之后，控制器开始执行步骤103：根据探索-控制策略，基于Q表，选择最佳状态-动作，向每个功能域发送配置信息。同时，控制器观察执行最佳状态-动作后所得到的即时回报和下一个状态。

为了能够根据实际应用需求，从Q表中选择Q值最大或有一定概率的状态-动作为最佳状态-动作，获得最优的通信效果。步骤103中的根据探索-控制策略，基于Q表，选择最佳状态-动作，具体为：根据探索-控制策略，从Q表中选择Q值最大或有一定概率的状态-动作为最佳状态-动作。

在步骤103之后，控制器开始执行步骤104：根据公式，更新Q表，其中s和s′分别表示当前状态和下一个状态，a和a′分别表示当前动作和下一个动作，r表示即时回报，α表示学习率，γ表示折扣因子。具体的，通过公式更新Q表中相应的Q值。公式/>是基于贝尔曼方程的迭代更新方法，能够使Q值逐渐收敛于最优策略。

为了能够分析各个功能域或者通信方式之间是否有关系，有利于分析出各个功能域之间或者通信方式之间的依赖性、冲突性和协同性，并根据分析结果调整通信连接和数据传输的优先级和策略。在步骤104的更新Q表之后，控制器还执行以下步骤：基于图论模型，将每个功能域和互联网视为节点，节点之间的通信连接视为边，每条边赋予权重值，权重值反映每条边的通信质量；根据通信需求，构建有向加权图，其中V表示节点集合，E表示边集合，W表示权重值集合；实时采集每条边的通信状态和质量信息，计算每条边的权重值，更新权重值集合W；根据各个节点和边的关系，分析通信方式之间的关系，调整通信连接和数据传输的优先级和策略；根据每条边的权重值，选择最优的通信方式，向每个功能域发送配置信息。其中，权重值集合W包括每条边对应的权重值。实时采集每条边的通信状态和质量信息，具体为：实时采集带宽、时延、丢包率等反映通信状态和质量信息的参数。

为了能够根据权重值，分配通信方式或优先级，有利于选择最优的通信方式和通信协议。在步骤104的更新Q表之后，控制器还执行以下步骤：

S1：基于博弈论，将每个功能域和互联网视为玩家，将各种通信方式和通信协议视为策略，定义效用函数，效用函数表示每个玩家在采取一种策略所能获得的收益；

S2：根据通信需求，构建非合作博弈，其中，N表示玩家集合，S表示策略集合，u表示效用函数；

S3：根据每个玩家的效用函数，计算每个玩家在每种策略下的期望收益，根据期望收益分配每种策略的权重值；权重值越高，说明权重值对应的策略越优；

S4：根据每种策略的权重值，选择最优的通信方式和通信协议，向每个功能域发送配置信息；

S5：根据每个玩家实际采取的策略和实际获得的收益，更新效用函数；

S6：重复步骤S1-S5，直到达到纳什均衡状态。达到纳什均衡状态时，没有任何一个玩家有动机改变自己的策略。

本发明另一实施例提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现前述实施例中车辆动态自适应通信方法的步骤。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现前述实施例中车辆动态自适应通信方法的步骤。

进一步，初始化用于存储每种状态-动作对应的Q值的Q表，具体为：将Q表中存储的每种状态-动作对应的Q值进行随机赋值或全零赋值。能够根据实际应用需求，对每种状态-动作对应的Q值进行随机赋值或全零赋值。

再进一步，根据探索-控制策略，基于Q表，选择最佳状态-动作，具体为：根据探索-控制策略，从Q表中选择Q值最大或有一定概率的状态-动作为最佳状态-动作。能够根据实际应用需求，从Q表中选择Q值最大或有一定概率的状态-动作为最佳状态-动作，获得最优的通信效果。

又进一步，状态包括：通信方式、通信协议、带宽、时延、丢包率。能够综合考虑多种状态，有利于增加动态自适应通信的准确性。

还进一步，动作包括：选择或切换通信方式、通信协议、通信参数。能够从多种操作进行选择，以进行动态自适应操作。

再进一步，在更新Q表之后，还包括：基于图论模型，将每个功能域和互联网视为节点，节点之间的通信连接视为边，每条边赋予权重值，权重值反映每条边的通信质量；根据通信需求，构建有向加权图，其中V表示节点集合，E表示边集合，W表示权重值集合；实时采集每条边的通信状态和质量信息，计算每条边的权重值，更新权重值集合W；根据各个节点和边的关系，分析通信方式之间的关系，调整通信连接和数据传输的优先级和策略；根据每条边的权重值，选择最优的通信方式，向每个功能域发送配置信息。能够分析各个功能域或者通信方式之间是否有关系，有利于分析出各个功能域之间或者通信方式之间的依赖性、冲突性和协同性，并根据分析结果调整通信连接和数据传输的优先级和策略。

又进一步，在更新Q表之后，还包括：S1：基于博弈论，将每个功能域和互联网视为玩家，将各种通信方式和通信协议视为策略，定义效用函数，效用函数表示每个玩家在采取一种策略所能获得的收益；S2：根据通信需求，构建非合作博弈，其中，N表示玩家集合，S表示策略集合，u表示效用函数；S3：根据每个玩家的效用函数，计算每个玩家在每种策略下的期望收益，根据期望收益分配每种策略的权重值；S4：根据每种策略的权重值，选择最优的通信方式和通信协议，向每个功能域发送配置信息；S5：根据每个玩家实际采取的策略和实际获得的收益，更新效用函数；S6：重复步骤S1-S5，直到达到纳什均衡状态。权重值越高，权重值对应的策略越优，能够根据权重值，分配通信方式或优先级，有利于选择最优的通信方式和通信协议。

还进一步，传感器功能域，用于采集车辆内部和车辆外部的传感信息；控制器功能域，用于执行车辆控制操作；信息处理功能域，用于处理传感器功能域传输的传感信息或互联网传输的待处理信息；信息显示功能域，用于显示信息处理功能域或互联网的信息；通信接口功能域，用于实现内网连接和外网连接。通信网络架构的各个功能域相互配合，实现信息的采集、传输、处理、显示和执行，提高车辆的功能性和协调性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种车辆动态自适应通信方法，应用于一车辆动态自适应通信系统，其特征在于，所述车辆动态自适应通信系统包括传感器功能域、控制器功能域、信息处理功能域、信息显示功能域、通信接口功能域，所述通信接口功能域包括用于实现内网连接和外网连接的通信接口模块，所述内网连接为所述传感器功能域、所述控制器功能域、所述信息处理功能域、所述信息显示功能域之间的连接，所述外网连接为互联网与所述传感器功能域、所述控制器功能域、所述信息处理功能域、所述信息显示功能域之间的连接，所述传感器功能域，用于采集车辆内部和车辆外部的传感信息；所述控制器功能域，用于执行车辆控制操作；所述信息处理功能域，用于处理所述传感器功能域传输的传感信息或所述互联网传输的待处理信息；所述信息显示功能域，用于显示所述信息处理功能域或所述互联网的信息；所述通信接口功能域，用于实现所述内网连接和所述外网连接，所述车辆动态自适应通信方法包括：

基于强化学习算法，定义有限的状态空间和动作空间，其中所述状态空间表示所述内网连接和所述外网连接的各种状态，所述动作空间表示可以采取的各种动作，所述状态包括：通信方式、通信协议、带宽、时延、丢包率，所述动作包括：选择或切换通信方式、通信协议、通信参数；

初始化用于存储每种状态-动作对应的Q值的Q表，所述Q值表示采取动作后所能获得的长期回报的期望值；

根据探索-控制策略，基于所述Q表，选择最佳状态-动作，向每个功能域发送配置信息；

根据公式，更新所述Q表，其中s和s′分别表示当前状态和下一个状态，a和a′分别表示当前动作和下一个动作，r表示即时回报，α表示学习率，γ表示折扣因子。

2.如权利要求1所述的方法，其特征在于，所述初始化用于存储每种状态-动作对应的Q值的Q表，具体为：

将所述Q表中存储的每种状态-动作对应的Q值进行随机赋值或全零赋值。

3.如权利要求1所述的方法，其特征在于，所述根据探索-控制策略，基于所述Q表，选择最佳状态-动作，具体为：

根据探索-控制策略，从所述Q表中选择Q值最大或有一定概率的状态-动作为最佳状态-动作。

4.如权利要求1所述的方法，其特征在于，在所述更新所述Q表之后，还包括：

基于图论模型，将每个功能域和所述互联网视为节点，节点之间的通信连接视为边，每条边赋予权重值，所述权重值反映每条边的通信质量；

根据通信需求，构建有向加权图，其中V表示节点集合，E表示边集合，W表示权重值集合；

实时采集每条边的通信状态和质量信息，计算每条边的权重值，更新所述权重值集合W；

根据各个节点和边的关系，分析通信方式之间的关系，调整通信连接和数据传输的优先级和策略；

根据每条边的权重值，选择最优的通信方式，向每个功能域发送配置信息。

5.如权利要求1所述的方法，其特征在于，在所述更新所述Q表之后，还包括：

S1：基于博弈论，将每个功能域和所述互联网视为玩家，将各种通信方式和通信协议视为策略，定义效用函数，所述效用函数表示每个玩家在采取一种策略所能获得的收益；

S3：根据每个玩家的效用函数，计算每个玩家在每种策略下的期望收益，根据期望收益分配每种策略的权重值；

S6：重复步骤S1-S5，直到达到纳什均衡状态。

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-5中任一项所述的方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5中任一项所述的方法的步骤。