CN112348201A - 一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法 - Google Patents

一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法 Download PDF

Info

Publication number
CN112348201A
CN112348201A CN202011251880.1A CN202011251880A CN112348201A CN 112348201 A CN112348201 A CN 112348201A CN 202011251880 A CN202011251880 A CN 202011251880A CN 112348201 A CN112348201 A CN 112348201A
Authority
CN
China
Prior art keywords
vehicle
automatic driving
model
group
computing server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011251880.1A
Other languages
English (en)
Other versions
CN112348201B (zh
Inventor
唐晓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou University
Original Assignee
Yangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou University filed Critical Yangzhou University
Priority to CN202011251880.1A priority Critical patent/CN112348201B/zh
Publication of CN112348201A publication Critical patent/CN112348201A/zh
Application granted granted Critical
Publication of CN112348201B publication Critical patent/CN112348201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Traffic Control Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)

Abstract

本发明公开了一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,包括:采用深度强化学习实现对自动驾驶群车的行驶环境以及周围车辆的行驶环境进行观测,在各自车辆的处理器内进行训练数据,将训练好的数据模型加密后发送给边缘计算服务器,边缘计算服务器综合训练边缘神经网络,将训练后的模型同时发送给云计算服务器,云计算服务器将综合各模型进行训练数据,将训练好的模型信息发送给边缘计算服务器和车辆终端,进行车辆终端的模型信息更新,采用联邦深度学习方法实现自动驾驶汽车的智能决策功能。本发明有助于减少大数据通信条件的影响,解决训练数据的不平衡问题,有助于实现计算负载和资源分配更加智能,也实现了自动驾驶汽车群体决策的强大环境认知能力。

Description

一种基于联邦深度强化学习的自动驾驶群车的智能决策实现 方法
技术领域
本发明涉及人工智能技术领域,涉及一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法。
背景技术
人工智能技术促进了自动驾驶汽车的发展,例如深度学习在自动驾驶汽车环境感知的应用,可以实现对复杂道路前方环境的目标识别和跟踪,深度强化学习在较为简单的道路环境中可以实现稳定的决策。随着道路环境的日益复杂,尤其多辆自动驾驶汽车在复杂道路环境行驶情况,要求车辆能适应环境变化的稳定性智能决策,以确保自动驾驶汽车的行驶安全性。然而在复杂道路环境下,采用强化学习算法实现自动驾驶的智能决策,并不能保证其正确性和准确性;尽管还有其余方法采用车辆与云计算服务器通信方式实现决策功能,但大批量数据传输会引起通信网络时延,大批量的数据信息也会引起深度学习网络层数和宽度不断增加,也增加了数据访问外存的时间延迟,同时每辆车的大批量重要数据的传输也会引起数据隐私问题,防止被其它用户窃取,尤其涉及到一些重要的数据信息是需要隐私保护的,以确保自动驾驶汽车的行驶安全性,因此,采用传统的云计算服务器与自动驾驶汽车的通信方式实现车辆的决策功能是存在一定局限性的。联邦学习是人工智能领域的一个新研究方向,其主要特点是将各个智能体的模型综合起来产生更为优化的学习型模型,并能实现大批量数据不必在车辆之间和车与服务器之间进行传输,就可以实现深度学习的训练数据,而是通过仅仅将更新的模型上传至响应的服务器,就可以解决实现智能体的优化运用模型,并保持各个智能体数据的隐私和安全。联邦学习方法不仅可以充分利用各个智能体的大数据进行模型训练,而且可以通过不同智能体在不同工作环境产生的不同模型,进一步可以产生更为完备的优化模型,能确保智能体在较短时间内的智能决策功能。通过在深度强化学习中引入联邦学习,有助于实现自动驾驶群车在复杂道路环境的智能决策。
发明内容
本发明的主要目的在于提供一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,旨在解决现有技术中自动驾驶决策的准确性和行驶安全性问题,难以建立保护自动驾驶汽车的重要数据隐私和数据安全问题,以及减少大数据信息在车辆之间和车辆与服务器之间的信息传输问题,以确保自动驾驶群车能在不同环境实现智能决策的功能。
为实现上述目的,本发明提供一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,所述自动驾驶群车是由Ni辆车组成,定义数组i∈{1,2,3,…,n},所述的联邦深度学习方法包含以下内容:
1、所述自动驾驶群车中的每辆自动驾驶汽车都是安装多种激光雷达、摄像头、毫米波雷达、定位系统和具有存内计算特点的处理器;采用云计算服务器用来进行综合训练数据进行优化模型,采用边缘计算服务器用来进行分布式训练数据,并且与车辆、云计算服务器进行并行优化模型功能,所述车辆安装具有训练深度学习的处理器;
2、采用通信装置,用来链接车与车之间、车与基础设施,如云计算服务器和边缘计算服务器的信息传输功能;
3、可选地,在同一路径较短路段的自动驾驶群车,每一车辆根据道路环境和周围行车情况,不断获取环境知识,通过改变行为策略,来选择合适的决策策略来适应环境;
4、可选地,在同一路段的自动驾驶汽车的行驶状态、道路环境数据、交通信息以及天气信息,尤其当车辆经过各种较为复杂的交叉路口或者在频繁多变天气下的湿滑道路环境时,自动驾驶群车的每辆车不断对环境进行观察,并且在车辆自身的神经网络内训练模型,与云计算服务器的模型协作优化模型,并将优化的模型不断解密和加密的过程,在车辆与服务器之间的模型发布,最终实现车辆的智能决策行为;
5、自动驾驶汽车根据智能决策对环境的观测和奖励,实时调整其路径规划方案,并可以根据决策行为,对路径规划进行稳定性和可靠性的重构设计;
6、可选地,在同一路径较长路段,例如:城市附带交通的十字交叉路口或者各种高架桥等复杂的道路环境,在适当的路段配置云计算服务器和边缘计算服务器,以进行群车的状态和行为预测;
7、可选地,每组自动驾驶群车不断感知周围环境,将获取的来自周围环境的各种数据信息采集完毕后,采用深度强化学习不断对环境进行观测,以获取自动驾驶汽车需要得到环境对应的观察和奖励,同时,采用联邦学习方法实现对每辆车的私有策略模型训练后的加密,并且发送给边缘计算服务器,并结合其边缘神经网络模型进行协作训练,并加密发送给云计算服务器,最终实现车辆终端、边缘计算服务器和云计算服务器三者之间的协作模型训练,从而将最终的训练模型发送给车辆终端,车辆可以迅速做出更为合适的行驶决策;当车辆以较低车速行驶时,只需要在车辆终端与边缘计算服务器之间协作模型训练;当车辆以较高车速行驶时,需要在车辆终端、边缘计算服务器和云计算服务器三者之间进行模型训练,并实时做出决策;
8、可选地,在同一路径较长路段,例如:高速公路或者各种高速高架桥等复杂的道路环境,在适当的路段配置云计算服务器和边缘计算服务器,以进行大规模群车的状态和行为预测;
9、可选地,每组自动驾驶群车的头车的车辆状态、道路环境和交通信息采集完毕后,采用深度强化学习实现对环境的观测,并且采用车车通信的方式实现状态信息交互,车辆可以根据车速和车间据进行实时重新调整组队,每组自动驾驶群车的每辆头车对道路环境进行感知,并且根据自身模型进行训练,然后采用联邦学习方法实现与边缘计算服务器、云计算服务器之间的模型解密和加密的协作训练和发送过程,最终实现头车的智能决策行为;其余群组内车辆的进行正常的自动驾驶汽车的决策行为,并且根据车联网通信的方式实现实时性的群体智能决策功能;
10、自动驾驶汽车根据智能决策对环境的观测和奖励,实时调整其路径规划方案,并可以根据决策行为,对路径规划进行稳定性和可靠性的重构设计。
本发明中,基于联邦深度强化学习方法的自动驾驶汽车群车的智能决策实现方法提供了一个可以用于多车行驶对复杂道路环境的智能决策行为,与现有技术相比,本发明具有如下优点:
1、通过联邦学习方法,通过在不同车辆终端和服务器之间交换模型,同一模型可分发于不同终端进行训练,提高了模型在整体道路环境的整体性和准确性,进而确保自动驾驶汽车在实时道路环境的智能决策行为;
2、通过联邦学习方法,可以保证数据在各自终端进行训练,可以有效解决训练数据的不平衡问题、降低通信条件的影响,不可预测的通信资源条件都会降低,并且在车辆终端上根据路况信息实时更新,保证了自动驾驶汽车的高效决策行驶;
3、同时联邦学习方法可以保证每辆车的数据信息不必在各终端中收发,而是单独在自身车辆中进行数据训练,提高了对隐私的保护能力。
附图说明
图1是基于同一较短路径的道路交通环境,采用联邦深度强化学习的自动驾驶群车的智能决策行为;
需要说明的是:
①车辆采用强化学习对环境进行观测,从而获得奖励;并进行各自的训练模型;
②将所有车辆训练好的模型信息发送给云计算综合训练模型,云计算综合训练模型对所有的模型信息进行训练;
③云计算综合训练模型将训练好的模型信息发送给所有车辆,并更新车辆的训练模型;
④车辆实时做出智能决策行为。
图2是基于同一较长路径的道路交通环境,采用联邦深度强化学习的自动驾驶群车的智能决策行为;
需要说明的是:
①车辆采用强化学习对环境进行观测,从而获得奖励;并进行各自的训练模型;
②将所有车辆训练好的模型信息发送给边缘计算服务器训练模型,边缘计算服务器训练模型对所有的模型信息进行训练;
③④⑤当车辆行驶环境较为简单时,边缘即使服务器将训练好的模型信息发送给车辆,并更新车辆的训练;当车辆行驶环境较为复杂时,需要周围边缘计算服务器的协作训练模型时,便将其发送到云计算服务器中,云计算服务器进行综合所有边缘计算服务器的模型训练,再将训练好的模型信息以此发送给各边缘计算服务器,边缘计算服务器再将信息发送给车辆;
⑥车辆实时做出智能决策行为。
图3是基于不同路径的道路交通环境,采用联邦深度强化学习的自动驾驶群车的智能决策行为;
①每辆自动驾驶汽车对环境进行观测,从而获得奖励;并进行各自的训练模型;并且每组群车的头车:车辆1、车辆4、车辆5、车辆7的训练数据后的模型,发送给边缘计算服务器进行边缘侧的综合训练数据;
③④⑤当车辆行驶环境较为简单时,边缘即使服务器将训练好的模型信息发送给车辆,并更新车辆的训练;当车辆行驶环境较为复杂时,需要周围边缘计算服务器的协作训练模型时,便将其发送到云计算服务器中,云计算服务器进行综合所有边缘计算服务器的模型训练,再将训练好的模型信息以此发送给各边缘计算服务器,边缘计算服务器再将信息发送给头车1、车辆4、车辆5、车辆7,然后再通过车联网通信的方式,将数据信息发送到其余车辆中;
⑥车辆实时做出智能决策行为。
具体实施方式
下面结合具体实施例对本发明进行详细说明。然而应当理解,实例的提供仅为了更好地理解本发明,它们不应该理解成对本发明的限制。
一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,其技术方案包括以下步骤:
步骤1、所述自动驾驶群车中的每辆自动驾驶汽车都是安装多种激光雷达、摄像头、毫米波雷达、定位系统和具有存内计算特点的处理器;采用云计算服务器用来进行综合训练数据进行优化模型,采用边缘计算服务器用来进行分布式训练数据,并且与车辆、云计算服务器进行并行优化模型功能,所述车辆安装具有训练深度学习的处理器;
步骤2、采用通信装置,用来链接车与车之间、车与基础设施,如云计算服务器和边缘计算服务器的信息传输功能;
步骤3、可选地,在同一路径较短路段的自动驾驶群车,每一车辆根据道路环境和周围行车情况,不断获取环境知识,通过改变行为策略,来选择合适的决策策略来适应环境;(即在同一路径较短路段的自动驾驶群车,采用深度强化学习方法将自动驾驶群车的每辆车不断对环境进行观察,并且采用联邦学习方法在车辆自身的神经网络内训练模型,与云计算服务器的模型协作优化模型,并将优化的模型不断解密和加密的过程,在车辆与服务器之间的模型发布,最终实现车辆的智能决策行为。)具体的:
步骤4、进一步,在同一路段的自动驾驶群车的车辆状态、道路环境数据、交通信息数据以及天气信息数据,不必发送给其余车辆和服务器;
步骤5、进一步,所有的自动驾驶汽车参与者根据当前环境的观察状态进行动作决策,尤其当车辆经过交叉路口和雾天、雨和雪天等环境下湿滑的道路环境时,每辆自动驾驶汽车需要得到环境对应的反馈结果,包括当前环境的观察和奖励;
步骤6、进一步,每辆自动驾驶汽车将观察内容在各自车载处理器进行深度强化学习的神经网络以获得其私有策略模型;
步骤7、进一步,采用联邦学习方法对每辆车的私有策略模型进行加密,并且发送给云计算服务器综合神经网络优化模型;
步骤8、进一步,云计算服务器综合神经网络优化模型对每辆车的私有策略模型进行解密,并使用当前的损失函数进行训练神经网络;
步骤9、进一步,云计算服务器将加密过的子模型发送给协作行驶的自动驾驶汽车,每一个自动驾驶汽车对其解密并各自更新网络模型,然后进行更新自动驾驶汽车的网络模型;
步骤10、进一步、每一辆自动驾驶汽车的网络模型更新完毕后,根据强化学习对周围实时性的环境道路的观测,进行智能决策,以实现自动驾驶汽车的实时安全性行驶;
步骤11、进一步,群车内的每辆自动驾驶汽车都可以预测周围车辆的行驶状态,并且可以根据周围车辆预测的行驶状态,采用深度强化学习方法实现自身车辆智能决策功能;
步骤12、自动驾驶汽车可以根据智能决策对环境的观测和奖励,实时调整其路径规划方案,并可以根据决策行为,对路径规划进行稳定性和可靠性的重构设计;
步骤13、可选地,在同一路径较长路段,例如:城市附带交通的十字交叉路口或者各种高架桥等复杂的道路环境,在适当的路段配置云计算服务器和边缘计算服务器,以进行群车的状态和行为预测;(即采用深度强化学习不断对环境进行观测,以获取自动驾驶汽车需要得到环境对应的观察和奖励,采用联邦学习方法实现对每辆车的私有策略模型训练后的加密,并且发送给边缘计算服务器,并结合其边缘神经网络模型进行协作训练,并加密发送给云计算服务器,最终实现车辆终端、边缘计算服务器和云计算服务器三者之间的协作模型训练,从而将最终的训练模型发送给车辆终端,车辆可以迅速做出更为合适的行驶决策)。具体的:
步骤14、进一步、每组自动驾驶群车每辆车的车辆状态、道路环境数据、交通信息数据以及天气信息数据采集完毕后,采用深度强化学习不断的对环境进行观测,每辆自动驾驶汽车需要得到环境对应的反馈结果,包括当前环境的观察和奖励;
步骤15、进一步,每组自动驾驶群车的每辆车根据收集的数据在各自的神经网络里进行训练数据,并且获得私有策略模型;
步骤16、进一步,边缘计算服务器获取每组自动驾驶群车的状态信息、道路环境信息、交通信息以及天气信息;
步骤17、进一步,采用联邦学习方法对每辆车的私有策略模型进行加密,并且发送给边缘计算服务器,边缘计算服务器综合边缘神经网络模型对每辆车的私有策略模型进行解密,并使用当前的损失函数进行训练神经网络;
步骤18、进一步,边缘计算服务器将训练好的数据模型进行加密,并发送给云计算服务器,云计算服务器对每个边缘计算服务器发送过来的数据模型。进行解密,并各自更新网络模型,然后进行更新边缘计算服务器的网络模型;
步骤19、进一步,边缘计算服务器将更新后的网络模型解密后,发送给每辆自动驾驶汽车,每辆自动驾驶汽车的网络模型更新完毕后,根据强化学习对周围实时性的环境道路的观测,进行全局道路的智能决策,以实现自动驾驶汽车的实时性道路安全行驶;如果每组自动驾驶群车中,有一辆或者几辆车辆脱离群组行驶,那么脱离群组行驶的车辆可以自身进行数据训练,并且与边缘计算服务器进行单独的分组模型训练,然后边缘计算服务器将数据模型发送给车辆;
步骤20、进一步,群车内的自动驾驶汽车都可以对周围车辆的行驶状态进行预测,并且可以根据车辆预测的行驶状态,采用深度强化学习方法实现自身车辆智能决策功能;
步骤21、进一步,群车内的自动驾驶汽车的网络数据模型、边缘计算服务器的网络数据模型以及云计算服务器的网络数据模型都是私密性的;
步骤22、进一步,群车内的自动驾驶汽车可以根据智能决策对周围环境的观测和奖励,实时调整各自的路径规划路线;
步骤22、可选地,在不同路径较长路段,例如:高速公路或者各种高速高架桥等复杂的道路环境,在适当的路段配置云计算服务器和边缘计算服务器,以进行大规模群车的状态和行为预测;(即采用深度强化学习实现对环境的观测,并且采用车车通信的方式实现状态信息交互,车辆可以根据车速和车间据进行实时重新调整组队,每组自动驾驶群车的每辆头车对道路环境进行感知,并且根据自身模型进行训练,然后采用联邦学习方法实现与边缘计算服务器、云计算服务器之间的模型解密和加密的协作训练和发送过程,最终实现头车的智能决策行为)。具体的:
步骤23、进一步,每组自动驾驶群车的车辆状态、道路环境数据、交通信息数据以及天气信息数据采集完毕后,采用深度强化学习不断的对环境进行观测,每辆自动驾驶汽车需要得到环境对应的反馈结果,包括当前环境的观察和奖励;
步骤24、进一步,每组自动驾驶群车内的车辆之间通过车车通信方式实现基本状态信息的交互,尤其是每组群车内的车速趋向于匀速情况下,将每组群车当作一辆自动驾驶汽车,就只需要对头车进行智能决策,其余群组内的车辆通过通信的方式实现车辆决策,进而确保群组的行驶;
步骤25、进一步,每组自动驾驶群车的每辆头车对道路环境进行感知,将车辆状态、道路环境数据、交通信息数据以及天气信息数据采集完毕后,采用深度强化学习不断的实现与环境的交互,将每辆自动驾驶汽车与环境交互得到的反馈结果,包括当前环境的观察和奖励;
步骤26、进一步,每组自动驾驶群车的头车根据收集的数据,采用神经网络进行训练数据,并且获得私有策略模型;
步骤27、进一步,采用联邦学习方法对每辆车的私有策略模型进行加密,并且发送给边缘计算服务器,边缘计算服务器综合边缘神经网络模型对每辆头车的私有策略模型进行解密,并使用当前的损失函数进行训练神经网络;
步骤28、进一步,边缘计算服务器获取每组自动驾驶群车的头车的私有网络模型,并采用当前的损失函数进行训练神经网络模型;
步骤29、进一步,边缘计算服务器将训练好的边缘数据模型进行加密,并发送给云计算服务器,云计算服务器对每个边缘计算服务器发送过来的加密的数据模型进行解密,并各自更新网络模型,然后进行更新边缘计算服务器的网络模型;
步骤30、进一步,边缘计算服务器将更新后的网络模型解密后,发送给自动驾驶群车的头车,每辆自动驾驶汽车的头车的网络模型更新完毕后,根据强化学习对周围实时性的环境道路的观测,进行全局道路的智能决策,以实现自动驾驶汽车的实时性道路安全行驶;
步骤31、进一步,群车内的自动驾驶汽车采用车联网通信的方式,将头车的决策信息,发送给后续群组内的自动驾驶汽车,后续的自动驾驶汽车根据车联网通信的数据信息、头车的决策信息以及自身车辆对周围环境的观测和奖励信息,进行自动驾驶汽车的智能决策;群车在行驶时候,可以根据行驶速度进行相应的群组调整,每组群车行驶时,都可以进行自身车辆的数据训练,然后与边缘计算服务器、云计算服务器进行协作训练模型;车辆行驶时,通过车车通信技术实时发布车速和车间距进行群车组队,脱离车队的单车或者多车,都可以单独通过自身车辆的数据训练模型,与边缘计算服务器、云计算服务器协作训练模型;
步骤32、进一步,通过车联网技术和联邦学习方法,群车内的自动驾驶汽车都可以对周围车辆的行驶状态进行预测,并且可以根据车辆预测的行驶状态,采用深度强化学习方法实现自身车辆智能决策功能;
步骤33、进一步,自动驾驶群车的头车的网络数据模型、边缘计算服务器的网络数据模型以及云计算服务器的网络数据模型都是私密性的;
步骤34、进一步、自动驾驶群车可以根据环境的变化,从道路的宏观全局和车辆自身微观局面进行环境的观测,实时调整决策行为。
本发明的自动驾驶群车主要研究在不同种道路交通环境的智能决策行为,采用深度强化学习实现对自动驾驶群车的行驶环境以及周围车辆的行驶环境进行观测,并且在各自车辆的处理器内进行训练数据,并且将训练好的数据模型加密后发送给边缘计算服务器,边缘计算服务器综合训练边缘神经网络,并且将训练后的模型同时发送给云计算服务器,云计算服务器将综合各模型进行训练数据,将训练好的模型信息发送给边缘计算服务器和车辆终端,进行车辆终端的模型信息更新,实现自动驾驶汽车的智能决策功能,采用联邦深度学习方法实现自动驾驶群车的智能决策行为,有助于减少大数据通信条件的影响,也可以解决训练数据的不平衡问题,尤其对于高速行驶的自动驾驶汽车,可以解决数据隐私和安全性问题,从而避免将敏感的隐私原始数据上传到服务器,有助于实现计算负载和资源分配更加智能,形成了功能强大的智能,也实现了自动驾驶汽车群体决策的强大环境认知能力。
上述各实例仅用于本发明的技术方案,而非对其限制。本领域的普通技术人员应当理解:可以对前述各实施例所记载的技术方案进行修改或者对其中部分技术特征进行等同替换;这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (4)

1.一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,其特征在于,内容包括:
(1)所述自动驾驶群车中的每辆自动驾驶汽车都是安装多种激光雷达、摄像头、毫米波雷达、定位系统和具有存内计算特点的处理器;采用云计算服务器用来进行综合训练数据进行优化模型,采用边缘计算服务器用来进行分布式训练数据,并且与车辆、云计算服务器进行并行优化模型功能,所述车辆安装具有训练深度学习的处理器;采用通信装置,用来链接车与车之间、车与基础设施;
(2)在同一路径较短路段的自动驾驶群车,采用深度强化学习方法将自动驾驶群车的每辆车不断对环境进行观察,并且采用联邦学习方法在车辆自身的神经网络内训练模型,与云计算服务器的模型协作优化模型,并将优化的模型不断解密和加密的过程,在车辆与服务器之间的模型发布,最终实现车辆的智能决策行为;
(3)在同一路径较长路段,采用深度强化学习不断对环境进行观测,以获取自动驾驶汽车需要得到环境对应的观察和奖励,采用联邦学习方法实现对每辆车的私有策略模型训练后的加密,并且发送给边缘计算服务器,并结合其边缘神经网络模型进行协作训练,并加密发送给云计算服务器,最终实现车辆终端、边缘计算服务器和云计算服务器三者之间的协作模型训练,从而将最终的训练模型发送给车辆终端,车辆可以迅速做出更为合适的行驶决策;
(4)在不同路径较长路段,采用深度强化学习实现对环境的观测,并且采用车车通信的方式实现状态信息交互,车辆可以根据车速和车间据进行实时重新调整组队,每组自动驾驶群车的每辆头车对道路环境进行感知,并且根据自身模型进行训练,然后采用联邦学习方法实现与边缘计算服务器、云计算服务器之间的模型解密和加密的协作训练和发送过程,最终实现头车的智能决策行为。
2.如权利要求1所述的一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,其特征在于,所述内容(2)的具体过程为:
①所有的自动驾驶汽车参与者根据当前环境的观察状态进行动作决策,尤其当车辆经过交叉路口和湿滑的道路环境时,每辆自动驾驶汽车需要得到环境对应的反馈结果,包括当前环境的观察和奖励;
②每辆自动驾驶汽车将观察内容在各自车载处理器进行深度强化学习的神经网络以获得其私有策略模型;采用联邦学习方法对每辆车的私有策略模型进行加密,并且发送给云计算服务器综合神经网络优化模型;
③云计算服务器综合神经网络优化模型对每辆车的私有策略模型进行解密,并使用当前的损失函数进行训练神经网络;云计算服务器将加密过的子模型发送给协作行驶的自动驾驶汽车,每一个自动驾驶汽车对其解密并各自更新网络模型,然后进行更新自动驾驶汽车的网络模型;每一辆自动驾驶汽车的网络模型更新完毕后,根据强化学习对周围实时性的环境道路的观测,进行智能决策,以实现自动驾驶汽车的实时安全性行驶;
④群车内的每辆自动驾驶汽车都可以预测周围车辆的行驶状态,并且可以根据周围车辆预测的行驶状态,采用深度强化学习方法实现自身车辆智能决策功能。
3.如权利要求1所述的一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,其特征在于,所述内容(3)的具体过程为:
①每组自动驾驶群车每辆车的车辆状态、道路环境数据、交通信息数据以及天气信息数据采集完毕后,采用深度强化学习不断的对环境进行观测,每辆自动驾驶汽车需要得到环境对应的反馈结果,包括当前环境的观察和奖励;
②每组自动驾驶群车的每辆车根据收集的数据在各自的神经网络里进行训练数据,并且获得私有策略模型;边缘计算服务器获取每组自动驾驶群车的状态信息、道路环境信息、交通信息以及天气信息;
③采用联邦学习方法对每辆车的私有策略模型进行加密,并且发送给边缘计算服务器,边缘计算服务器综合边缘神经网络模型对每辆车的私有策略模型进行解密,并使用当前的损失函数进行训练神经网络;边缘计算服务器将训练好的数据模型进行加密,并发送给云计算服务器,云计算服务器对每个边缘计算服务器发送过来的数据模型进行解密,并各自更新网络模型,然后进行更新边缘计算服务器的网络模型;
④边缘计算服务器将更新后的网络模型解密后,发送给每辆自动驾驶汽车,每辆自动驾驶汽车的网络模型更新完毕后,根据强化学习对周围实时性的环境道路的观测,进行全局道路的智能决策,以实现自动驾驶汽车的实时性道路安全行驶;如果每组自动驾驶群车中,有一辆或者几辆车辆脱离群组行驶,那么脱离群组行驶的车辆可以自身进行数据训练,并且与边缘计算服务器进行单独的分组模型训练,然后边缘计算服务器将数据模型发送给车辆;群车内的自动驾驶汽车都可以对周围车辆的行驶状态进行预测,并且可以根据车辆预测的行驶状态,采用深度强化学习方法实现自身车辆智能决策功能;
⑤群车内的自动驾驶汽车的网络数据模型、边缘计算服务器的网络数据模型以及云计算服务器的网络数据模型都是私密性的。
4.如权利要求1所述的一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法,其特征在于,所述内容(4)的具体过程为:
①每组自动驾驶群车的车辆状态、道路环境数据、交通信息数据以及天气信息数据采集完毕后,采用深度强化学习不断的对环境进行观测,每辆自动驾驶汽车需要得到环境对应的反馈结果,包括当前环境的观察和奖励;每组自动驾驶群车内的车辆之间通过车车通信方式实现基本状态信息的交互,尤其是每组群车内的车速趋向于匀速情况下,将每组群车当作一辆自动驾驶汽车,就只需要对头车进行智能决策,其余群组内的车辆通过通信的方式实现车辆决策,进而确保群组的行驶;
②每组自动驾驶群车的每辆头车对道路环境进行感知,将车辆状态、道路环境数据、交通信息数据以及天气信息数据采集完毕后,采用深度强化学习不断的实现与环境的交互,将每辆自动驾驶汽车与环境交互得到的反馈结果,包括当前环境的观察和奖励;每组自动驾驶群车的头车根据收集的数据,采用神经网络进行训练数据,并且获得私有策略模型;
③采用联邦学习方法对每辆车的私有策略模型进行加密,并且发送给边缘计算服务器,边缘计算服务器综合边缘神经网络模型对每辆头车的私有策略模型进行解密,并使用当前的损失函数进行训练神经网络;边缘计算服务器获取每组自动驾驶群车的头车的私有网络模型,并采用当前的损失函数进行训练神经网络模型;边缘计算服务器将训练好的边缘数据模型进行加密,并发送给云计算服务器,云计算服务器对每个边缘计算服务器发送过来的加密的数据模型进行解密,并各自更新网络模型,然后进行更新边缘计算服务器的网络模型;
④边缘计算服务器将更新后的网络模型解密后,发送给自动驾驶群车的头车,每辆自动驾驶汽车的头车的网络模型更新完毕后,根据强化学习对周围实时性的环境道路的观测,进行全局道路的智能决策,以实现自动驾驶汽车的实时性道路安全行驶;
⑤群车内的自动驾驶汽车采用车联网通信的方式,将头车的决策信息,发送给后续群组内的自动驾驶汽车,后续的自动驾驶汽车根据车联网通信的数据信息、头车的决策信息以及自身车辆对周围环境的观测和奖励信息,进行自动驾驶汽车的智能决策;群车在行驶时候,可以根据行驶速度进行相应的群组调整,每组群车行驶时,都可以进行自身车辆的数据训练,然后与边缘计算服务器、云计算服务器进行协作训练模型;车辆行驶时,通过车车通信技术实时发布车速和车间距进行群车组队,脱离车队的单车或者多车,都可以单独通过自身车辆的数据训练模型,与边缘计算服务器、云计算服务器协作训练模型;
⑥通过车联网技术和联邦学习方法,群车内的自动驾驶汽车都可以对周围车辆的行驶状态进行预测,并且可以根据车辆预测的行驶状态,采用深度强化学习方法实现自身车辆智能决策功能;自动驾驶群车的头车的网络数据模型、边缘计算服务器的网络数据模型以及云计算服务器的网络数据模型都是私密性的。
CN202011251880.1A 2020-11-11 2020-11-11 一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法 Active CN112348201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011251880.1A CN112348201B (zh) 2020-11-11 2020-11-11 一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011251880.1A CN112348201B (zh) 2020-11-11 2020-11-11 一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法

Publications (2)

Publication Number Publication Date
CN112348201A true CN112348201A (zh) 2021-02-09
CN112348201B CN112348201B (zh) 2024-03-12

Family

ID=74363188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011251880.1A Active CN112348201B (zh) 2020-11-11 2020-11-11 一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法

Country Status (1)

Country Link
CN (1) CN112348201B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836822A (zh) * 2021-02-26 2021-05-25 浙江工业大学 基于宽度学习的联邦学习策略优化方法和装置
CN112884163A (zh) * 2021-03-18 2021-06-01 中国地质大学(北京) 基于联邦机器学习算法与云端反馈的组合服务评估方法与系统
CN113240910A (zh) * 2021-07-12 2021-08-10 中国人民解放军国防科技大学 基于协同车辆的道路检测方法、系统、设备和存储介质
CN113255998A (zh) * 2021-05-25 2021-08-13 北京理工大学 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
CN113264060A (zh) * 2021-05-28 2021-08-17 东风汽车集团股份有限公司 一种基于云端训练模型的自动驾驶节能系统及方法
CN113515812A (zh) * 2021-07-09 2021-10-19 东软睿驰汽车技术(沈阳)有限公司 自动驾驶方法、装置、处理设备及存储介质
CN113609777A (zh) * 2021-08-11 2021-11-05 广东工业大学 一种基于车载感知设备的车辆行为分析方法与装置
CN113673696A (zh) * 2021-08-20 2021-11-19 山东鲁软数字科技有限公司 一种基于强化联邦学习的电力行业起重作业违章检测方法
CN113885491A (zh) * 2021-08-29 2022-01-04 北京工业大学 基于联邦深度强化学习的无人驾驶决策与控制方法
CN114581748A (zh) * 2022-05-06 2022-06-03 南京大学 基于机器学习的多智能体感知融合系统及其实现方法
CN114627648A (zh) * 2022-03-16 2022-06-14 中山大学·深圳 一种基于联邦学习的城市交通流诱导方法及系统
CN114973694A (zh) * 2022-05-19 2022-08-30 杭州中威电子股份有限公司 一种基于巡检机器人的隧道车流量监测系统及其方法
CN115100866A (zh) * 2022-07-18 2022-09-23 北京邮电大学 一种基于分层强化学习的车路协同自动驾驶决策方法
CN115776680A (zh) * 2022-11-30 2023-03-10 西部科学城智能网联汽车创新中心(重庆)有限公司 一种适用于边缘计算设备的计算模型动态部署方法及装置
CN116403174A (zh) * 2022-12-12 2023-07-07 深圳市大数据研究院 一种端到端自动驾驶方法、系统、仿真系统及存储介质
CN116994423A (zh) * 2023-07-19 2023-11-03 暨南大学 车辆编队中轻量级、隐私保护的领队车辆选择系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200005071A1 (en) * 2019-08-15 2020-01-02 Lg Electronics Inc. Method and apparatus for recognizing a business card using federated learning
CN111476139A (zh) * 2020-04-01 2020-07-31 同济大学 基于联邦迁移学习的驾驶员行为云边协同学习系统
CN111781933A (zh) * 2020-07-27 2020-10-16 扬州大学 一种基于边缘计算和空间智能的高速自动驾驶车辆实现系统及方法
CN111845754A (zh) * 2020-07-27 2020-10-30 扬州大学 一种基于边缘计算和群智算法的自动驾驶车辆的决策预测方法
CN111845773A (zh) * 2020-07-06 2020-10-30 北京邮电大学 基于强化学习的自动驾驶车辆微观决策方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200005071A1 (en) * 2019-08-15 2020-01-02 Lg Electronics Inc. Method and apparatus for recognizing a business card using federated learning
CN111476139A (zh) * 2020-04-01 2020-07-31 同济大学 基于联邦迁移学习的驾驶员行为云边协同学习系统
CN111845773A (zh) * 2020-07-06 2020-10-30 北京邮电大学 基于强化学习的自动驾驶车辆微观决策方法
CN111781933A (zh) * 2020-07-27 2020-10-16 扬州大学 一种基于边缘计算和空间智能的高速自动驾驶车辆实现系统及方法
CN111845754A (zh) * 2020-07-27 2020-10-30 扬州大学 一种基于边缘计算和群智算法的自动驾驶车辆的决策预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XINLE LIANG等: "Federated Transfer Reinforcement Learning for Autonomous Driving", 《ARXIV》, 14 October 2019 (2019-10-14), pages 1 - 7 *
ZHAOYANG DU等: "Federated Learning for Vehicular Internet of Things: Recent Advances and Open Issues", 《IEEE》, 9 April 2020 (2020-04-09), pages 45 - 61 *
雷峰网LEIPHONE: "联邦学习、Deepfake、无人驾驶……未来十年会发生什么?", 《HTTPS://BAIJIAHAO.BAIDU.COM/S?ID=1655039542438343693&WFR=SPIDER&FOR=PC》, 7 January 2020 (2020-01-07), pages 1 - 8 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836822B (zh) * 2021-02-26 2024-05-28 浙江工业大学 基于宽度学习的联邦学习策略优化方法和装置
CN112836822A (zh) * 2021-02-26 2021-05-25 浙江工业大学 基于宽度学习的联邦学习策略优化方法和装置
CN112884163A (zh) * 2021-03-18 2021-06-01 中国地质大学(北京) 基于联邦机器学习算法与云端反馈的组合服务评估方法与系统
CN112884163B (zh) * 2021-03-18 2023-06-23 中国地质大学(北京) 基于联邦机器学习算法与云端反馈的组合服务评估方法与系统
CN113255998B (zh) * 2021-05-25 2022-06-03 北京理工大学 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
CN113255998A (zh) * 2021-05-25 2021-08-13 北京理工大学 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
CN113264060A (zh) * 2021-05-28 2021-08-17 东风汽车集团股份有限公司 一种基于云端训练模型的自动驾驶节能系统及方法
CN113515812A (zh) * 2021-07-09 2021-10-19 东软睿驰汽车技术(沈阳)有限公司 自动驾驶方法、装置、处理设备及存储介质
CN113240910A (zh) * 2021-07-12 2021-08-10 中国人民解放军国防科技大学 基于协同车辆的道路检测方法、系统、设备和存储介质
CN113609777A (zh) * 2021-08-11 2021-11-05 广东工业大学 一种基于车载感知设备的车辆行为分析方法与装置
CN113609777B (zh) * 2021-08-11 2023-05-26 广东工业大学 一种基于车载感知设备的车辆行为分析方法与装置
CN113673696A (zh) * 2021-08-20 2021-11-19 山东鲁软数字科技有限公司 一种基于强化联邦学习的电力行业起重作业违章检测方法
CN113673696B (zh) * 2021-08-20 2024-03-22 山东鲁软数字科技有限公司 一种基于强化联邦学习的电力行业起重作业违章检测方法
CN113885491A (zh) * 2021-08-29 2022-01-04 北京工业大学 基于联邦深度强化学习的无人驾驶决策与控制方法
CN114627648A (zh) * 2022-03-16 2022-06-14 中山大学·深圳 一种基于联邦学习的城市交通流诱导方法及系统
CN114581748A (zh) * 2022-05-06 2022-06-03 南京大学 基于机器学习的多智能体感知融合系统及其实现方法
CN114973694A (zh) * 2022-05-19 2022-08-30 杭州中威电子股份有限公司 一种基于巡检机器人的隧道车流量监测系统及其方法
CN114973694B (zh) * 2022-05-19 2024-05-24 杭州中威电子股份有限公司 一种基于巡检机器人的隧道车流量监测系统及其方法
CN115100866B (zh) * 2022-07-18 2023-08-18 北京邮电大学 一种基于分层强化学习的车路协同自动驾驶决策方法
CN115100866A (zh) * 2022-07-18 2022-09-23 北京邮电大学 一种基于分层强化学习的车路协同自动驾驶决策方法
CN115776680A (zh) * 2022-11-30 2023-03-10 西部科学城智能网联汽车创新中心(重庆)有限公司 一种适用于边缘计算设备的计算模型动态部署方法及装置
CN116403174A (zh) * 2022-12-12 2023-07-07 深圳市大数据研究院 一种端到端自动驾驶方法、系统、仿真系统及存储介质
CN116994423A (zh) * 2023-07-19 2023-11-03 暨南大学 车辆编队中轻量级、隐私保护的领队车辆选择系统及方法
CN116994423B (zh) * 2023-07-19 2024-04-16 暨南大学 车辆编队中轻量级、隐私保护的领队车辆选择系统及方法

Also Published As

Publication number Publication date
CN112348201B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN112348201B (zh) 一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法
Tong et al. Artificial intelligence for vehicle-to-everything: A survey
Balkus et al. A survey of collaborative machine learning using 5G vehicular communications
Yuan et al. Toward efficient content delivery for automated driving services: An edge computing solution
Letter et al. Efficient control of fully automated connected vehicles at freeway merge segments
Jameel et al. Internet of autonomous vehicles: architecture, features, and socio-technological challenges
CN109387211A (zh) 用于改进使用v2x通信系统时的障碍物感知的系统和方法
US20220068122A1 (en) Systems and methods to group and move vehicles cooperatively to mitigate anomalous driving behavior
JP2021525681A (ja) 車両交通ネットワークを通り抜けるときに使用される方法と自律走行車両
Kamble et al. On road intelligent vehicle path predication and clustering using machine learning approach
Alsharif et al. Link duration estimation using neural networks based mobility prediction in vehicular networks
Adart et al. Vehicular ad-hoc network application for urban traffic management based on markov chains
DE102023112016A1 (de) Verteiltes verarbeitungssystem für fahrzeuge
Kulla et al. A survey on platooning techniques in vanets
Patankar et al. Comparative Study on Design Of AI-Based Communication Protocol For VANET
Kim Design of federated learning engagement method for autonomous vehicle privacy protection
Goel et al. Emerging Research in Connected Vehicles [Guest Editorial]
CN116245247A (zh) 基于联邦学习的安全预测方法、平台、设备及介质
Almazroi et al. Dynamic deployment of road side units for reliable connectivity in internet of vehicles
Kaur et al. An Overview of Ad Hoc Networks Routing Protocols and Its Design Effectiveness
Billot et al. Can C-ITS lead to the emergence of Traffic Management 2.0?
Selvaraj et al. A full-fledge simulation framework for the assessment of connected cars
Monteil et al. Towards cooperative traffic management: methodological issues and perspectives
Han et al. The road regional hazard level evaluation method based on ising model
Liu et al. Empowering autonomous systems with AI-enabled V2X communication based signal analysis using sliding window integrated ensemble machine learning model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant