CN110244728A - 确定无人驾驶控制策略的方法、装置、设备及存储介质 - Google Patents

确定无人驾驶控制策略的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110244728A
CN110244728A CN201910522966.4A CN201910522966A CN110244728A CN 110244728 A CN110244728 A CN 110244728A CN 201910522966 A CN201910522966 A CN 201910522966A CN 110244728 A CN110244728 A CN 110244728A
Authority
CN
China
Prior art keywords
environment
control strategy
target
target environment
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910522966.4A
Other languages
English (en)
Inventor
钱德恒
任冬淳
朱炎亮
付圣
王志超
丁曙光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910522966.4A priority Critical patent/CN110244728A/zh
Publication of CN110244728A publication Critical patent/CN110244728A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0253Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种确定无人驾驶控制策略的方法、装置、设备及存储介质,其中,所述方法包括:获取预先构建的各个目标环境对应的控制策略矩阵;确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度;基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵。本申请可以实现基于当前环境与各个目标环境之间的相似度以及各个目标环境对应的控制策略确定当前环境对应的控制策略,即可以实现为新环境确定良好的控制策略,增强控制策略算法的可扩展性,从而可以满足实际应用需求。

Description

确定无人驾驶控制策略的方法、装置、设备及存储介质
技术领域
本申请涉及无人驾驶技术领域,尤其涉及一种确定无人驾驶控制策略的方法、装置、设备及存储介质。
背景技术
无人驾驶的核心技术之一是要搭建一个驾驶模型,该驾驶模型相当于一个司机,能够感受周围环境,并做出相应地控制策略。其中,周围环境信息可以包括摄像头拍摄的周围环境视频及激光雷达获取的周围环境距离信号等,而控制策略可以包括方向盘的转角及刹车力度等。
目前,确定无人驾驶控制策略的方法大致分为两类:一类是基于规则的方法;另一类方法是基于学习的方法。目前的研究普遍认为,基于学习的方法比基于规则的方法更优。然而,现有的基于学习的方法的可扩展性较差,即只能适用于已知的环境,难以满足实际的需求。
发明内容
有鉴于此,本申请提供一种确定无人驾驶控制策略的方法、装置、设备及存储介质,以至少解决上述现有技术中的问题。
具体地,本申请是通过如下技术方案实现的:
根据本申请的第一方面,提出了一种确定无人驾驶控制策略的方法,包括:
获取预先构建的各个目标环境对应的控制策略矩阵;
确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度;
基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵。
在一实施例中,所述方法还包括基于以下步骤预先构建各个目标环境对应的控制策略矩阵:
获取人类驾驶员在多种环境下的控制信息;
标定各条所述控制信息对应的目标环境,得到各个所述目标环境的控制信息;
基于各个所述目标环境的控制信息,统计各个所述目标环境下的控制策略;
基于各个所述目标环境下的控制策略,构建各个目标环境对应的控制策略矩阵。
在一实施例中,所述确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度,包括:
确定所述当前环境的目标编码向量;
确定所述目标编码向量与各个所述目标环境的代表编码向量之间的距离;
基于所述距离确定所述当前环境与各个所述目标环境之间的相似度。
在一实施例中,所述确定所述当前环境的目标编码向量,包括:
获取所述当前环境的目标图像;
将所述目标图像输入预先训练的卷积神经网络中,得到所述当前环境的目标编码向量。
在一实施例中,所述方法还包括:
获取所述目标环境的多幅图像;
将所述多幅图像中的每幅图像分别输入预先训练的卷积神经网络中,得到所述目标环境的多个初始编码向量;
根据所述多个初始编码向量的均值确定所述目标环境的代表编码向量。
在一实施例中,所述方法还包括根据以下步骤预先训练所述卷积神经网络:
获取多幅样本图像;
标定每幅所述样本图像对应的环境以及编码向量;
将所述多幅样本图像和对应的环境以及编码向量作为训练集,训练卷积神经网络,所述编码向量与所述目标环境对应于所述卷积神经网络的不同层。
在一实施例中,所述基于所述相似度以及各个所述目标环境对应的控制策略确定所述当前环境对应的控制策略,包括:
对所述当前环境与各个所述目标环境之间的相似度进行归一化处理;
将各个所述目标环境对应的控制策略矩阵与归一化处理后的相似度进行加权求和,得到所述当前环境对应的控制策略矩阵。
根据本申请的第二方面,提出了一种确定无人驾驶控制策略的装置,包括:
控制策略获取模块,用于获取预先构建的各个目标环境对应的控制策略矩阵;
相似度确定模块,用于确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度;
控制策略确定模块,用于基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵。
根据本申请的第三方面,提出了一种确定无人驾驶控制策略的设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述任一所述的确定无人驾驶控制策略的方法。
根据本申请的第四方面,提出了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的确定无人驾驶控制策略的方法。
由以上技术方案可见,本申请通过获取预先构建的各个目标环境对应的控制策略矩阵,并确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度,进而基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵,可以实现基于当前环境与各个目标环境之间的相似度以及各个目标环境对应的控制策略确定当前环境对应的控制策略,即可以实现为新环境确定良好的控制策略,增强控制策略算法的可扩展性,从而可以满足实际应用需求。
附图说明
图1是本申请一示例性实施例示出的一种确定无人驾驶控制策略的方法的流程图;
图2是本申请一示例性实施例示出的如何构建目标环境对应的控制策略矩阵的流程图;
图3是本申请一示例性实施例示出的如何确定当前环境与各个目标环境之间的相似度的流程图;
图4是本申请一示例性实施例示出的如何确定当前环境的目标编码向量的流程图;
图5是本申请又一示例性实施例示出的如何确定当前环境与各个目标环境之间的相似度的流程图;
图6是本申请一示例性实施例示出的如何训练卷积神经网络的流程图;
图7是本申请一示例性实施例示出的如何确定当前环境对应的控制策略的流程图;
图8是本申请一示例性实施例示出的一种确定无人驾驶控制策略的装置的结构图;
图9是本申请又一示例性实施例示出的一种确定无人驾驶控制策略的装置的结构图;
图10是本申请一示例性实施例示出的一种确定无人驾驶控制策略的设备的结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
无人驾驶的核心技术之一是要搭建一个驾驶模型,该驾驶模型相当于一个司机,能够感受周围环境,并做出相应地控制策略。其中,周围环境信息可以包括摄像头拍摄的周围环境视频及激光雷达获取的周围环境距离信号等,而控制策略可以包括方向盘的转角及刹车力度等。
目前,确定无人驾驶控制策略的方法大致分为两类:一类是基于规则的方法,该类方法中,工程师需为无人车的行为定义规则,比如保持车道、远离障碍物等,以使无人车在驾驶过程中通过尽量遵守这些规则来完成驾驶任务。
另一类方法是基于学习的方法,该类方法中需令一个模型去学习人类驾驶员的驾驶方法。具体步骤包括:首先记录大量的人类驾驶员在各种不同情况下的驾驶操作数据,这些数据包含驾驶员的控制信号以及车辆(型号)、外部环境状态等信息;然后利用机器学习模型从这些数据中进行学习。其中,模型的输入是车辆(型号)、外部环境信息,而输出是对无人车的控制信号;然后将该控制信号和相应的人类驾驶员的控制信号进行对比,若两个信号不同,则通过调整模型的参数来修正模型的输出,使其与驾驶员的控制信号一致;进而当训练完成后,可以得到能够很好地模拟人类驾驶员驾驶无人车的模型。目前的研究普遍认为,基于学习的方法比基于规则的方法更优。然而,现有的基于学习的方法的可扩展性较差,即模型只能学会那些录制好的数据中包含的情形,且录制人类驾驶员的数据的成本高,且无法录制所有情况的数据,因而只能适用于已知的环境,难以满足实际的需求。
有鉴于此,本申请提供一种确定无人驾驶控制策略的方法、装置、设备及存储介质,以提高确定无人驾驶控制策略的模型泛化能力,加强无人车控制的安全性。
图1是本申请第一示例性实施例示出的一种确定无人驾驶控制策略的方法的流程图;该实施例可以用于控制无人驾驶设备的服务端(例如,一台服务器和多台服务器组成的服务器集群等),或者,可以用于无人驾驶设备(例如,无人车、无人机或机器人等)。如图1所示,该方法包括步骤S101-S103:
在步骤S101中:获取预先构建的各个目标环境对应的控制策略矩阵。
在一实施例中,为了确定当前无人驾驶设备的无人驾驶控制策略,可以获取预先构建的各个目标环境对应的控制策略矩阵。
在一实施例中,可以预先构建每个目标环境对应的控制策略矩阵,其中,目标环境可以由开发人员根据实际需求进行自由设置,如设置为高速公路、城市道路或乡村道路等,本实施例对此不进行限定。
在一实施例中,上述控制策略矩阵可以用于表征在相应的目标环境下实施的驾驶策略(例如,实施各种预设驾驶操作的概率)。
举例来说,若目标环境为高速公路,则对应的控制策略矩阵可以为[0.6,0.4,0.1],可以表示在该环境实施超车、打灯以及不鸣笛的概率分别为0.6、0.4和0.1。
在步骤S102中:确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度。
在一实施例中,当获取预先构建的各个目标环境对应的控制策略矩阵后,可以确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度。
在一实施例中,上述当前环境与各个目标环境之间的相似度可以包括通过预设算法计算出的目标参数,该参数可以用于表征无人驾驶设备所处的当前环境与各个目标环境之间的相似程度。
在一实施例中,可以通过预设编码方式将各个目标环境以及上述当前环境转化成预设编码,进而可以通过各个目标环境以及上述当前环境的预设编码之间的相似度来衡量当前环境与各个所述目标环境之间的相似度。
在一实施例中,上述确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度的方式可以参见下述图3或图5所示实施例,在此先不进行详述。
在步骤S103中:基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵。
在一实施例中,当确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度后,可以基于该相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵。
在一实施例中,可以基于当前环境与各个目标环境之间的相似度对各个目标环境对应的控制策略矩阵进行调整(例如,进行加权求和计算),以得到调整后的控制策略矩阵,进而可以将该调整后的控制策略矩阵确定为当前环境对应的控制策略矩阵。
在一实施例中,上述基于相似度以及各个目标环境对应的控制策略矩阵确定当前环境对应的控制策略矩阵的方式可以参见下述图7所示实施例,在此先不进行详述。
由上述描述可知,本实施例通过获取预先构建的各个目标环境对应的控制策略矩阵,并确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度,进而基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵,可以实现基于当前环境与各个目标环境之间的相似度以及各个目标环境对应的控制策略确定当前环境对应的控制策略,即可以实现为新环境确定良好的控制策略,增强控制策略算法的可扩展性,从而可以满足实际应用需求。
图2是本申请一示例性实施例示出的如何构建目标环境对应的控制策略矩阵的流程图;本实施例在上述实施例的基础上以如何构建目标环境对应的控制策略矩阵为例进行示例性说明。如图2所示,上述实施例的确定无人驾驶控制策略的方法还可以包括根据以下步骤S201-S204预先构建各个目标环境对应的控制策略矩阵:
在步骤S201中,获取人类驾驶员在多种环境下的控制信息。
在一实施例中,为了构建各个目标环境对应的控制策略矩阵,可以预先获取人类驾驶员在多种环境下的控制信息。
其中,目标环境可以为上述多种环境中具有代表性的环境,或者,可以为对上述多种环境进行分类/归纳得到的环境,本实施例对此不进行限定。
在一实施例中,上述控制信息可以为人类驾驶员在相应环境下的控制操作等,本实施例对此不进行限定。
在步骤S202中,标定各条所述控制信息对应的目标环境,得到各个所述目标环境的控制信息。
在一实施例中,当获取人类驾驶员在多种环境下的控制信息后,可以标定各条所述控制信息对应的目标环境,得到各个所述目标环境的控制信息。
在一实施例中,当得到上述多种环境下的控制信息后,可以分别标注每条控制信息对应的目标环境,进而可以反过来统计每个目标环境对应的多条控制信息。
在步骤S203中,基于各个所述目标环境的控制信息,统计各个所述目标环境下的控制策略。
在一实施例中,当标定各条所述控制信息对应的目标环境,得到各个所述目标环境的控制信息后,基于各个所述目标环境的控制信息,统计各个所述目标环境下的控制策略。
在一实施例中,当确定各个目标环境的控制信息后,可以通过计算控制信息中包含的各项预设驾驶操作的概率,得到目标环境下的控制策略,进而可以通过控制策略表征人类驾驶员在该目标环境下实施各种预设驾驶操作的概率。
在步骤S204中,基于各个所述目标环境下的控制策略,构建各个目标环境对应的控制策略矩阵。
在一实施例中,当基于各个所述目标环境的控制信息,统计各个所述目标环境下的控制策略后,可以基于各个所述目标环境下的控制策略,构建各个目标环境对应的控制策略矩阵。
在一实施例中,当得到目标环境下的控制策略后,可以基于控制信息中包含的各项预设驾驶操作的概率生成控制策略矩阵,具体生成矩阵的方式可以参见现有技术中的解释和说明,本实施例对此不进行限定。
由上述描述可知,本实施例通过获取人类驾驶员在多种环境下的控制信息,并标定各条所述控制信息对应的目标环境,得到各个所述目标环境的控制信息,然后基于各个所述目标环境的控制信息,统计各个所述目标环境下的控制策略,进而基于各个所述目标环境下的控制策略,构建各个目标环境对应的控制策略矩阵,可以实现准确地构建各个目标环境对应的控制策略矩阵,进而可以为后续基于该目标环境的控制策略矩阵确定无人驾驶设备所处的当前环境的控制策略矩阵奠定基础。
图3是本申请一示例性实施例示出的如何确定当前环境与各个目标环境之间的相似度的流程图;本实施例在上述实施例的基础上以如何确定当前环境与各个目标环境之间的相似度为例进行示例性说明。如图3所示,上述步骤S102中所述确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度,可以包括以下步骤S301-S302:
在步骤S301中,确定所述当前环境的目标编码向量。
在一实施例中,当确定无人驾驶设备所处的当前环境后,可以根据预设编码方式对当前环境的图像信息等进行编码,以得到当前环境的目标编码向量。
值得说明的是,上述预设编码方式可以由开发人员根据业务需要从现有技术中进行选取,本实施例对此不进行限定。
在一实施例中,上述确定所述当前环境的目标编码向量的方式还可以参加下述图4所示实施例,在此先不进行详述。
在步骤S302中,确定所述目标编码向量与各个所述目标环境的代表编码向量之间的距离。
在一实施例中,当确定所述当前环境的目标编码向量后,可以获取各个目标环境的代表编码向量,进而可以确定该目标编码向量与各个所述目标环境的代表编码向量之间的距离。
在一实施例中,每个目标环境可以具有一个代表编码向量,该代表编码向量可以基于目标环境的一幅或多幅图像进行确定。
在一实施例中,上述目标环境的代表编码向量的确定方式可以参见下述图5所示实施例,在此先不进行详述。
在一实施例中,上述目标编码向量与各个目标环境的代表编码向量之间的距离可以由开发人员根据实际需要进行设置,如设置为余弦距离、欧式距离、曼哈顿距离或马氏距离等,本实施例对此不进行限定。
在步骤S303中,基于所述距离确定所述当前环境与各个所述目标环境之间的相似度。
在一实施例中,当确定所述目标编码向量与各个所述目标环境的代表编码向量之间的距离后,可以基于该距离确定所述当前环境与各个所述目标环境之间的相似度。
在一实施例中,可以利用目标编码向量与各个目标环境的代表编码向量之间的距离来表征上述当前环境与各个所述目标环境之间的相似度。例如,若目标编码向量与各个目标环境的代表编码向量之间的距离越大,则当前环境与各个所述目标环境之间的相似度越低;反之,若目标编码向量与各个目标环境的代表编码向量之间的距离越小,则当前环境与各个所述目标环境之间的相似度越高。
值得说明的是,为了使上述编码向量能够更好地反映不同环境之间的相似度,可以令编码向量之间的距离与不同环境的控制策略矩阵之间的距离相当。
由上述描述可知,本实施例通过确定所述当前环境的目标编码向量,并确定所述目标编码向量与各个所述目标环境的代表编码向量之间的距离,进而基于所述距离确定所述当前环境与各个所述目标环境之间的相似度,可以实现基于当前环境与目标环境的编码向量准确地确定当前环境与各个所述目标环境之间的相似度,进而可以实现后续基于当前环境与各个所述目标环境之间的相似度准确地确定当前环境对应的控制策略矩阵,可以增强控制策略算法的可扩展性,从而可以满足实际应用需求。
图4是本申请一示例性实施例示出的如何确定当前环境的目标编码向量的流程图;本实施例在上述实施例的基础上以如何确定当前环境的目标编码向量为例进行示例性说明。如图4所示,上述步骤S301中所述确定所述当前环境的目标编码向量,可以包括以下步骤S401-S402:
在步骤S401中,获取所述当前环境的目标图像。
在一实施例中,为了确定所述当前环境的目标编码向量,可以获取该当前环境的目标图像。
在一实施例中,上述当前环境的目标图像可以通过无人驾驶设备上安装的图像获取装置进行采集,或者,可以通过无人驾驶设备关联的其他设备上安装的图像获取装置进行采集,本实施例对此不进行限定。
在步骤S402中,将所述目标图像输入预先训练的卷积神经网络中,得到所述当前环境的目标编码向量。
在一实施例中,当获取所述当前环境的目标图像后,可以将该目标图像输入至预先训练的卷积神经网络中,得到所述当前环境的目标编码向量。
在一实施例中,上述卷积神经网络可以预先基于样本图像进行训练,该卷积神经网络的输入可以为当前环境的目标图像,其输出可以为当前环境的目标编码向量。
在一实施例中,上述卷积神经网络的训练方式可以参见下述图6所示实施例,在此先不进行详述。
由上述描述可知,本实施例通过获取所述当前环境的目标图像,并将所述目标图像输入预先训练的卷积神经网络中,得到所述当前环境的目标编码向量,可以实现基于预先训练的卷积神经网络确定无人驾驶设备所处的当前环境的目标编码向量,进而可以实现后续基于该目标变量向量与目标环境的代表编码向量之间的距离确定当前环境对应的控制策略矩阵,可以提高确定控制策略矩阵的准确性,满足实际应用需求。
图5是本申请又一示例性实施例示出的如何确定当前环境与各个目标环境之间的相似度的流程图;本实施例在上述实施例的基础上以如何确定当前环境与各个目标环境之间的相似度为例进行示例性说明。如图5所示,上述步骤S102中所述确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度,可以包括以下步骤S501-S506:
在步骤S501中,获取所述目标环境的多幅图像。
在一实施例中,为了确定目标环境的代表编码向量,可以获取该目标环境的多幅图像。
在一实施例中,上述目标环境的多幅图像可以为数据库中预先存储的图像,也可以为在目标环境下实时采集的多幅图像,本实施例对此不进行限定。
在步骤S502中,将所述多幅图像中的每幅图像分别输入预先训练的卷积神经网络中,得到所述目标环境的多个初始编码向量。
在一实施例中,当获取所述目标环境的多幅图像后,可以将该多幅图像中的每幅图像分别输入预先训练的卷积神经网络中,以得到每幅图像对应的一个初始编码向量,进而可以得到该目标环境的多个初始编码向量。
在步骤S503中,根据所述多个初始编码向量的均值确定所述目标环境的代表编码向量。
在一实施例中,当得到所述目标环境的多个初始编码向量后,可以计算该多个初始编码向量的均值,进而可以基于该均值确定所述目标环境的代表编码向量。
在一实施例中,可以直接将上述多个初始编码向量的均值确定为目标环境的代表编码向量。
在步骤S504中,确定所述当前环境的目标编码向量。
在步骤S505中,确定所述目标编码向量与各个所述目标环境的代表编码向量之间的距离。
在步骤S506中,基于所述距离确定所述当前环境与各个所述目标环境之间的相似度。
其中,步骤S504-S506的相关解释和说明可以参见上述实施例,在此不进行赘述。
由上述描述可知,本实施例通过获取所述目标环境的多幅图像,并将所述多幅图像中的每幅图像分别输入预先训练的卷积神经网络中,得到所述目标环境的多个初始编码向量,进而可以根据所述多个初始编码向量的均值确定所述目标环境的代表编码向量,由于通过目标环境的多幅图像计算多个初始编码向量,进而基于多个初始编码向量的均值确定目标环境的代表编码向量的方式相对于基于单一图像确定目标环境的代表编码向量,可以提高确定目标环境的代表编码向量的准确性,因而可以提高后续确定当前环境与各个所述目标环境之间的相似度的准确性,进而可以实现后续基于该相似度以及各个所述目标环境对应的控制策略矩阵准确地确定所述当前环境对应的控制策略矩阵。
图6是本申请一示例性实施例示出的如何训练卷积神经网络的流程图;本实施例在上述实施例的基础上以如何训练卷积神经网络为例进行示例性说明。如图6所示,上述实施例的确定无人驾驶控制策略的方法还可以包括基于以下步骤S601-S603预先训练所述卷积神经网络:
在步骤S601中,获取多幅样本图像。
在一实施例中,为了训练用于确定各种环境(如,无人驾驶设备所处的当前环境或目标环境等)的编码向量的卷积神经网络,可以获取各种环境下采集的多幅样本图像。
在步骤S602中,标定每幅所述样本图像对应的环境以及编码向量。
在一实施例中,当获取多幅样本图像后,可以标定每幅所述样本图像对应的环境以及编码向量。
在一实施例中,上述样本图像对应的编码向量可以根据人类驾驶员在相应环境下的控制信息进行计算,具体计算方法可以参见图2所示实施例,在此不进行赘述。
在步骤S603中,将所述多幅样本图像和对应的环境以及编码向量作为训练集,训练卷积神经网络,所述编码向量与所述目标环境对应于所述卷积神经网络的不同层。
在一实施例中,当标定每幅所述样本图像对应的环境以及编码向量后,可以将上述多幅样本图像和对应的环境以及编码向量作为训练集,训练卷积神经网络。
在一实施例中,上述编码向量与目标环境可以对应于所述卷积神经网络的不同层。例如,全连接层可以对应于网络的倒数第二层,基于倒数第二层获取测试图像的编码向量,并基于网络的输出确定测试图像对应的当前环境。
由上述描述可知,本实施例通过获取多幅样本图像,并标定每幅所述样本图像对应的环境以及编码向量,可以将所述多幅样本图像和对应的环境以及编码向量作为训练集,训练卷积神经网络,因而可以实现后续基于训练的卷积神经网络准确的确定无人驾驶设备所处的当前环境或目标环境的编码向量。
图7是本申请一示例性实施例示出的如何确定当前环境对应的控制策略的流程图;本实施例在上述实施例的基础上以如何确定当前环境对应的控制策略为例进行示例性说明。如图7所示,上述步骤S103中所述基于所述相似度以及各个所述目标环境对应的控制策略确定所述当前环境对应的控制策略,可以包括以下步骤S701-S702:
在步骤S701中,对所述当前环境与各个所述目标环境之间的相似度进行归一化处理。
在一实施例中,当确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度后,可以对所述当前环境与各个所述目标环境之间的相似度进行归一化处理。
在一实施例中,上述对相似度进行归一化处理的方式可以参见现有技术中的解释和说明,本实施例对此不进行限定。
在步骤S702中,将各个所述目标环境对应的控制策略矩阵与归一化处理后的相似度进行加权求和,得到所述当前环境对应的控制策略矩阵。
在一实施例中,当对所述当前环境与各个所述目标环境之间的相似度进行归一化处理后,可以对各个所述目标环境对应的控制策略矩阵与归一化处理后的相似度进行加权求和,得到加权求和结果,进而可以基于该加权求和结果确定当前环境对应的控制策略矩阵。
在一实施例中,可以将上述加权求和结果直接确定为当前环境对应的控制策略矩阵。
由上述描述可知,本实施例通过对所述当前环境与各个所述目标环境之间的相似度进行归一化处理,并将各个所述目标环境对应的控制策略矩阵与归一化处理后的相似度进行加权求和,得到所述当前环境对应的控制策略矩阵,可以实现基于所述相似度以及各个所述目标环境对应的控制策略准确的确定所述当前环境对应的控制策略,可以增强控制策略算法的可扩展性,从而可以满足实际应用需求。
图8是本申请一示例性实施例示出的一种确定无人驾驶控制策略的装置的结构图;如图8所示,该装置包括:控制策略获取模块110、相似度确定模块120以及控制策略确定模块130,其中:
控制策略获取模块110,用于获取预先构建的各个目标环境对应的控制策略矩阵;
相似度确定模块120,用于确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度;
控制策略确定模块130,用于基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵。
由上述描述可知,本实施例通过获取预先构建的各个目标环境对应的控制策略矩阵,并确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度,进而基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵,可以实现基于当前环境与各个目标环境之间的相似度以及各个目标环境对应的控制策略确定当前环境对应的控制策略,即可以实现为新环境确定良好的控制策略,增强控制策略算法的可扩展性,从而可以满足实际应用需求。
图9是本申请又一示例性实施例示出的一种确定无人驾驶控制策略的装置的结构图;其中,控制策略获取模块210、相似度确定模块220以及控制策略确定模块230与前述图8所示实施例中的控制策略获取模块110、相似度确定模块120以及控制策略确定模块130的功能相同,在此不进行赘述。如图9所示,所述装置还可以包括策略矩阵构建模块240;
策略矩阵构建模块240,可以包括:
控制信息获取单元241,用于获取人类驾驶员在多种环境下的控制信息;
控制信息获取单元242,用于标定各条所述控制信息对应的目标环境,得到各个所述目标环境的控制信息;
控制策略统计单元243,用于基于各个所述目标环境的控制信息,统计各个所述目标环境下的控制策略;
策略矩阵构建单元244,用于基于各个所述目标环境下的控制策略,构建各个目标环境对应的控制策略矩阵。
在一实施例中,相似度确定模块220,可以包括:
编码向量确定单元221,用于确定所述当前环境的目标编码向量;
向量距离确定单元222,用于确定所述目标编码向量与各个所述目标环境的代表编码向量之间的距离;
相似度确定单元223,用于基于所述距离确定所述当前环境与各个所述目标环境之间的相似度。
在一实施例中,编码向量确定单元221,还可以用于:
获取所述当前环境的目标图像;
将所述目标图像输入预先训练的卷积神经网络中,得到所述当前环境的目标编码向量。
在一实施例中,相似度确定模块220,还可以包括代表向量确定单元224;代表向量确定单元224,还可以用于:
获取所述目标环境的多幅图像;
将所述多幅图像中的每幅图像分别输入预先训练的卷积神经网络中,得到所述目标环境的多个初始编码向量;
根据所述多个初始编码向量的均值确定所述目标环境的代表编码向量。
在一实施例中,装置还包括神经网络训练模块250;神经网络训练模块250,可以包括:
样本图像获取单元251,用于获取多幅样本图像;
样本图像标定单元252,用于标定每幅所述样本图像对应的环境以及编码向量;
神经网络训练单元253,用于将所述多幅样本图像和对应的环境以及编码向量作为训练集,训练卷积神经网络,所述编码向量与所述目标环境对应于所述卷积神经网络的不同层。
在一实施例中,控制策略确定模块230,可以包括:
相似度归一化单元231,用于对所述当前环境与各个所述目标环境之间的相似度进行归一化处理;
控制策略确定单元232,用于将各个所述目标环境对应的控制策略矩阵与归一化处理后的相似度进行加权求和,得到所述当前环境对应的控制策略矩阵。
值得说明的是,上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本发明的确定无人驾驶控制策略的装置的实施例可以应用在网络设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的,其中计算机程序用于执行上述图1~图7所示实施例提供的确定无人驾驶控制策略的方法。从硬件层面而言,如图10所示,为本发明的确定无人驾驶控制策略的设备的硬件结构图,除了图10所示的处理器、网络接口、内存以及非易失性存储器之外,所述设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等;从硬件结构上来讲该设备还可能是分布式的设备,可能包括多个接口卡,以便在硬件层面进行报文处理的扩展。另一方面,本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序用于执行上述图1~图7所示实施例提供的确定无人驾驶控制策略的方法。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种确定无人驾驶控制策略的方法,其特征在于,包括:
获取预先构建的各个目标环境对应的控制策略矩阵;
确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度;
基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括基于以下步骤预先构建各个目标环境对应的控制策略矩阵:
获取人类驾驶员在多种环境下的控制信息;
标定各条所述控制信息对应的目标环境,得到各个所述目标环境的控制信息;
基于各个所述目标环境的控制信息,统计各个所述目标环境下的控制策略;
基于各个所述目标环境下的控制策略,构建各个目标环境对应的控制策略矩阵。
3.根据权利要求1所述的方法,其特征在于,所述确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度,包括:
确定所述当前环境的目标编码向量;
确定所述目标编码向量与各个所述目标环境的代表编码向量之间的距离;
基于所述距离确定所述当前环境与各个所述目标环境之间的相似度。
4.根据权利要求3所述的方法,其特征在于,所述确定所述当前环境的目标编码向量,包括:
获取所述当前环境的目标图像;
将所述目标图像输入预先训练的卷积神经网络中,得到所述当前环境的目标编码向量。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述目标环境的多幅图像;
将所述多幅图像中的每幅图像分别输入预先训练的卷积神经网络中,得到所述目标环境的多个初始编码向量;
根据所述多个初始编码向量的均值确定所述目标环境的代表编码向量。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括根据以下步骤预先训练所述卷积神经网络:
获取多幅样本图像;
标定每幅所述样本图像对应的环境以及编码向量;
将所述多幅样本图像和对应的环境以及编码向量作为训练集,训练卷积神经网络,所述编码向量与所述目标环境对应于所述卷积神经网络的不同层。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述基于所述相似度以及各个所述目标环境对应的控制策略确定所述当前环境对应的控制策略,包括:
对所述当前环境与各个所述目标环境之间的相似度进行归一化处理;
将各个所述目标环境对应的控制策略矩阵与归一化处理后的相似度进行加权求和,得到所述当前环境对应的控制策略矩阵。
8.一种确定无人驾驶控制策略的装置,其特征在于,包括:
控制策略获取模块,用于获取预先构建的各个目标环境对应的控制策略矩阵;
相似度确定模块,用于确定无人驾驶设备所处的当前环境与各个所述目标环境之间的相似度;
控制策略确定模块,用于基于所述相似度以及各个所述目标环境对应的控制策略矩阵确定所述当前环境对应的控制策略矩阵。
9.一种确定无人驾驶控制策略的无人驾驶设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述权利要求1-7任一所述的确定无人驾驶控制策略的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一所述的确定无人驾驶控制策略的方法。
CN201910522966.4A 2019-06-17 2019-06-17 确定无人驾驶控制策略的方法、装置、设备及存储介质 Pending CN110244728A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910522966.4A CN110244728A (zh) 2019-06-17 2019-06-17 确定无人驾驶控制策略的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910522966.4A CN110244728A (zh) 2019-06-17 2019-06-17 确定无人驾驶控制策略的方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110244728A true CN110244728A (zh) 2019-09-17

Family

ID=67887488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910522966.4A Pending CN110244728A (zh) 2019-06-17 2019-06-17 确定无人驾驶控制策略的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110244728A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112829747A (zh) * 2021-02-23 2021-05-25 国汽(北京)智能网联汽车研究院有限公司 一种驾驶行为决策方法、装置及存储介质
CN113071524A (zh) * 2021-04-29 2021-07-06 深圳大学 决策控制方法、装置、自动驾驶车辆及存储介质
CN113212454A (zh) * 2021-05-20 2021-08-06 中国第一汽车股份有限公司 车辆行驶状态的调整方法、装置、计算机设备和存储介质
CN115900725A (zh) * 2023-01-06 2023-04-04 阿里巴巴达摩院(杭州)科技有限公司 路径规划装置、电子设备、存储介质和相关方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7920071B2 (en) * 2006-05-26 2011-04-05 Itt Manufacturing Enterprises, Inc. Augmented reality-based system and method providing status and control of unmanned vehicles
CN107577227A (zh) * 2016-07-05 2018-01-12 百度(美国)有限责任公司 操作无人驾驶车辆的方法、装置和数据处理系统
CN107609502A (zh) * 2017-09-05 2018-01-19 百度在线网络技术(北京)有限公司 用于控制无人驾驶车辆的方法和装置
CN108227710A (zh) * 2017-12-29 2018-06-29 商汤集团有限公司 自动驾驶控制方法和装置、电子设备、程序和介质
CN109886222A (zh) * 2019-02-26 2019-06-14 北京市商汤科技开发有限公司 人脸识别方法、神经网络训练方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7920071B2 (en) * 2006-05-26 2011-04-05 Itt Manufacturing Enterprises, Inc. Augmented reality-based system and method providing status and control of unmanned vehicles
CN107577227A (zh) * 2016-07-05 2018-01-12 百度(美国)有限责任公司 操作无人驾驶车辆的方法、装置和数据处理系统
CN107609502A (zh) * 2017-09-05 2018-01-19 百度在线网络技术(北京)有限公司 用于控制无人驾驶车辆的方法和装置
CN108227710A (zh) * 2017-12-29 2018-06-29 商汤集团有限公司 自动驾驶控制方法和装置、电子设备、程序和介质
CN109886222A (zh) * 2019-02-26 2019-06-14 北京市商汤科技开发有限公司 人脸识别方法、神经网络训练方法、装置及电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112829747A (zh) * 2021-02-23 2021-05-25 国汽(北京)智能网联汽车研究院有限公司 一种驾驶行为决策方法、装置及存储介质
CN113071524A (zh) * 2021-04-29 2021-07-06 深圳大学 决策控制方法、装置、自动驾驶车辆及存储介质
CN113212454A (zh) * 2021-05-20 2021-08-06 中国第一汽车股份有限公司 车辆行驶状态的调整方法、装置、计算机设备和存储介质
CN113212454B (zh) * 2021-05-20 2023-05-12 中国第一汽车股份有限公司 车辆行驶状态的调整方法、装置、计算机设备和存储介质
CN115900725A (zh) * 2023-01-06 2023-04-04 阿里巴巴达摩院(杭州)科技有限公司 路径规划装置、电子设备、存储介质和相关方法

Similar Documents

Publication Publication Date Title
CN110244728A (zh) 确定无人驾驶控制策略的方法、装置、设备及存储介质
CN111061277B (zh) 一种无人车全局路径规划方法和装置
McCallum Reinforcement learning with selective perception and hidden state
CN107479368A (zh) 一种基于人工智能的训练无人机控制模型的方法及系统
Zhao et al. Gisnet: Graph-based information sharing network for vehicle trajectory prediction
JP2022547611A (ja) 道路シーンにおける多様な長期将来軌道のシミュレーション
CN112241783A (zh) 具有条件标准化流的机器可学习系统
US20200166896A1 (en) Deep reinforcement learning based models for hard-exploration problems
CN111368943A (zh) 图像中对象的识别方法和装置、存储介质及电子装置
US11900244B1 (en) Attention-based deep reinforcement learning for autonomous agents
CN110246160A (zh) 视频目标的检测方法、装置、设备及介质
CN112651374B (zh) 一种基于社会信息的未来轨迹预测方法及自动驾驶系统
CN107832794A (zh) 一种卷积神经网络生成方法、车系识别方法及计算设备
CN109919110A (zh) 视频关注区域检测方法、装置及设备
Junior et al. A new approach for mobile robot localization based on an online IoT system
EP3751465A1 (en) Methods, apparatuses and computer programs for generating a reinforcement learning-based machine-learning model and for generating a control signal for operating a vehicle
WO2020092086A1 (en) Artificial neural networks having competitive reward modulated spike time dependent plasticity and methods of training the same
CN116740422A (zh) 基于多模态注意力融合技术的遥感图像分类方法及装置
CN110222838A (zh) 深度神经网络及其训练方法、装置、电子设备及存储介质
CN113238970A (zh) 自动驾驶模型的训练方法、评测方法、控制方法及装置
Gallistel Where meanings arise and how: Building on Shannon's foundations
Katyal et al. Occupancy map prediction using generative and fully convolutional networks for vehicle navigation
CN113534678A (zh) 一种操作问答任务的仿真到物理系统的迁移方法
CN115620122A (zh) 神经网络模型的训练方法、图像重识别方法及相关设备
CN115690592B (zh) 图像处理方法和模型训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190917

RJ01 Rejection of invention patent application after publication