CN113989782A - 一种多交通参与者交互行为识别方法、系统、设备及介质 - Google Patents
一种多交通参与者交互行为识别方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN113989782A CN113989782A CN202111310948.3A CN202111310948A CN113989782A CN 113989782 A CN113989782 A CN 113989782A CN 202111310948 A CN202111310948 A CN 202111310948A CN 113989782 A CN113989782 A CN 113989782A
- Authority
- CN
- China
- Prior art keywords
- neural network
- network model
- information
- traffic participants
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 107
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000003062 neural network model Methods 0.000 claims abstract description 104
- 238000012549 training Methods 0.000 claims abstract description 70
- 238000012795 verification Methods 0.000 claims abstract description 44
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims description 49
- 238000012545 processing Methods 0.000 claims description 28
- 230000003993 interaction Effects 0.000 claims description 27
- 238000013507 mapping Methods 0.000 claims description 27
- 239000000126 substance Substances 0.000 claims description 22
- 230000005540 biological transmission Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 230000002123 temporal effect Effects 0.000 claims description 8
- 238000012546 transfer Methods 0.000 claims description 8
- 230000033001 locomotion Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- 230000001537 neural effect Effects 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims description 3
- 241000287196 Asthenes Species 0.000 claims description 2
- 101100379079 Emericella variicolor andA gene Proteins 0.000 claims description 2
- 101150061215 outM gene Proteins 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种多交通参与者交互行为识别方法、系统、设备及介质,属于交通参与者行为识别领域,首先获取数据集;对数据集进行划分,得到训练集和验证集;建立图神经网络模型;图神经网络模型包括实例层和类别层;对训练集和验证集进行预处理,得到预处理后的训练集和验证集;将预处理后的训练集输入图神经网络模型中进行训练,得到训练后的图神经网络模型;最后将预处理后的验证集输入训练后的图神经网络模型中,得到多交通参与者交互行为的识别结果。通过全面考虑所有交通参与者之间的交互行为,可以提升对交通交互行为的识别精度。
Description
技术领域
本发明涉及交通参与者行为识别领域,特别是涉及一种多交通参与者交互行为识别方法、系统、设备及介质。
背景技术
目前,智能化交通的发展如火如荼,建设和发展智能交通可有效改善道路流动性。自动驾驶是智能化交通中一个主要的发展趋势,想要在复杂的动态场景中实现安全自动驾驶,那么对交通参与者行为的识别就显得尤为重要。
然而,现有的交通参与者行为识别方法通常只关注某一类交通参与者与主车之间的交互行为,例如只考虑电动车与主车之间的交互行为,或者行人与主车之间的交互行为。由于交通环境通常比较复杂,主车在交通环境中的交互行为一般会涉及到多方交通参与者,因此,仅考虑其中某一类交通参与者与主车之间的交互行为识别,而忽略多交通参与者之间的交互行为识别,那么最终得到的识别结果也就会不准确。因此,现有的交通交互行为识别方法普遍存在由于未考虑多交通参与者之间的交互行为识别而导致的识别精度较低的问题。
发明内容
本发明的目的是提供一种多交通参与者交互行为识别方法、系统、设备及介质,可以提升对多交通参与者的交互行为的识别精度,解决现有技术中因未考虑多交通参与者间的交互行为识别造成的识别精度低的问题。
为实现上述目的,本发明提供了如下方案:
一方面,本发明提供了一种多交通参与者交互行为识别方法,包括:
获取数据集;所述数据集内包括多种交通场景和多种交通参与者的交互行为;
对所述数据集进行划分,得到训练集和验证集;
建立图神经网络模型;所述图神经网络模型包括实例层和类别层;所述实例层中将不同时刻的各个交通参与者定义为结点,所述结点之间通过时间边和空间边相连;所述类别层中将同一时刻的不同种类的交通参与者定义为超结点,所述超结点与所述结点之间通过信息传递边相连;
根据所述图神经网络模型对所述训练集和所述验证集进行预处理,得到预处理后的训练集和预处理后的验证集;
将所述预处理后的训练集输入所述图神经网络模型中进行训练,得到训练后的图神经网络模型;
将所述预处理后的验证集输入所述训练后的图神经网络模型中,得到多交通参与者交互行为的识别结果。
另一方面,本发明还提供了一种多交通参与者交互行为识别系统,包括:
数据集获取模块,用于获取数据集;所述数据集内包括多种交通场景和多种交通参与者的交互行为;
数据集划分模块,用于对所述数据集进行划分,得到训练集和验证集;
图神经网络模型建立模块,用于建立图神经网络模型;所述图神经网络模型包括实例层和类别层;所述实例层中将不同时刻的各个交通参与者定义为结点,所述结点之间通过时间边和空间边相连;所述类别层中将同一时刻的不同种类的交通参与者定义为超结点,所述超结点与所述结点之间通过信息传递边相连;
数据集预处理模块,用于根据所述图神经网络模型对所述训练集和所述验证集进行预处理,得到预处理后的训练集和预处理后的验证集;
图神经网络模型训练模块,用于将所述预处理后的训练集输入所述图神经网络模型中进行训练,得到训练后的图神经网络模型;
交互行为识别结果输出模块,用于将所述预处理后的验证集输入所述训练后的图神经网络模型中,得到多交通参与者交互行为的识别结果。
另一方面,本发明还提供了一种多交通参与者交互行为识别设备,包括:存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,在所述计算机程序被所述处理器执行时实现如所述多交通参与者交互行为识别方法的各个步骤。
另一方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如所述多交通参与者交互行为识别方法的各个步骤。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提出了一种基于图神经网络的多交通参与者交互行为识别方法,该方法以具有多种交通场景和多种交通参与者的交互行为的数据集为数据基础,着眼于交通场景中各个交通参与者之间的相互作用,考虑到了多种类的交通参与者之间的交互行为,采用图神经网络模型作为交通参与者之间交互行为的识别模型,将该数据集与图神经网络模型进行结合,利用该数据集中的数据样本分别对图神经网络模型进行训练和验证,使数据集的多交通场景和多交通参与者的特点在图神经网络模型中体现出来,从而能够使训练后的图神经网络模型对多种类的交通参与者之间的交互行为的识别精度更高,能够显著提升复杂交通场景下多交通参与者交互行为的识别精度,得到更加准确、更加可靠的识别结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本发明的主旨。
图1为本发明实施例1提供的多交通参与者交互行为识别方法的流程图;
图2为本发明实施例1提供的图神经网络模型的结构示意图;
图3为本发明实施例2提供的多交通参与者交互行为识别系统的结构框图;
图4为本发明实施例3提供的多交通参与者交互行为识别设备的结构框图;
图5为本发明实施例4提供的计算机可读存储介质的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如本发明和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本发明对根据本发明的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本发明中使用了流程图用来说明根据本发明的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
本发明的目的是提供一种多交通参与者交互行为识别方法、系统、设备及介质,全面考虑到交通环境中的所有交通参与者,同时对多交通参与者与本车之间交互行为进行识别,以提升对交通交互行为的识别精度,解决现有技术中因未考虑多交通参与者间的交互行为识别造成的识别精度低的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
如图1所示,本实施例提出了一种多交通参与者交互行为识别方法,该方法具体包括以下步骤:
步骤S1、获取数据集;所述数据集内包括多种交通场景和多种交通参与者的交互行为。具体包括:
步骤S1.1、选定包含有多种交通场景和多种交通参与者的交互行为的视频图像形式的数据集作为所述数据集;
步骤S1.2、对所述数据集中每一段视频的每一帧图像中所有交通参与者的种类和坐标进行标注,并为每一个所述交通参与者均设置唯一的ID;所述交通参与者的种类包括行人、非机动车和机动车;
步骤S1.3、对所述数据集中每一段视频的每一帧图像中主车与所述主车周围的其它交通参与者之间的交互行为类别进行标注。
本实施例中采用的是BLVD数据集,将BLVD数据集作为多交通参与者之间的交互行为识别的数据基础。与以往静态检测、语义或者实例分割任务的数据集不同,BLVD数据集旨在为动态4D跟踪、5D交互事件识别以及意图预测等任务提供一个统一的验证平台。其中,4D指的是在传统3D空间的基础上加上“时间”,而5D指的是在4D的基础上加上“交互行为”。与以往的驾驶场景中的三维目标跟踪、行为理解与分析数据集相比,BLVD数据集具有更丰富的交通场景,包括不同驾驶场景(城市和高速公路)、多种光照条件(白天和晚上)以及多种个体密度。因此,基于BLVD数据集的上述优点,BLVD数据集很适合用于交通场景下的多交通参与者的交互行为识别情景中。
本实施例选择BLVD数据集作为图神经网络模型的训练和验证的数据集,所述BLVD数据集是一个包含多种交通场景的数据集,该数据集中包括654段校准后的视频图像,采样频率为10Hz,视频中的每一帧图像为一个时刻,对于每一帧图像,BLVD数据集都标注了当前时刻周围交通参与者的种类和坐标数据,并为每个交通参与者标注了唯一的ID。
其中,所述交通参与者的种类包括行人、非机动车和机动车等三种交通参与者,在BLVD数据集中标注编码1表示非机动车,2表示机动车,3表示行人。由于非机动车和机动车基本代表交通场景中所有类型的车辆,结合上行人这一种交通参与者,因此,这三种交通参与者实际上包含了交通场景中能够出现的所有种类的交通参与者。
并且,所述BLVD数据集中每一段视频的每一帧图像中还标注出了每一时刻主车与所述主车周围的其它交通参与者之间的交互行为类别,交互行为类别共有13类,分别为从主车左侧超车、从主车右侧超车、在主车前方直线加速、在主车前方直线减速、在主车前方匀速行驶、从右道并入主车车道、从左道并入主车车道、在主车前方向右变道、在主车前方向左变道、在主车左侧并行、在主车右侧并行、在主车前方停车和与主车会车,并采用数字1到13将上述13种交互行为类别对应进行标记。
本实施例中,行为识别指的就是对上述13种交互行为进行识别,对这13中交互行为类型对应标注的1到13的标签将作为图神经网络模型训练时的真值,对图神经网络模型进行训练。
本发明以具有多种交通场景和多种交通参与者的交互行为的BLVD数据集为数据基础,着眼于交通场景中各个交通参与者之间的相互作用,考虑到了多种类的交通参与者之间的交互行为,将BLVD数据集作为图神经网络模型的训练和验证的数据集,从而实现了对多交通参与者之间的多种交互行为的识别,进而提高了图神经网络模型对交通交互行为的识别精度。
应说明的是,本实施例不对具体的数据集进行限定,BLVD数据集仅仅是列举的一个优选的方案,不应作为对本发明保护范围的限定。除了优选的BLVD数据集之外,智能车辆领域中其它的数据集也可以使用,可视实际需求自行确定。
步骤S2、对所述数据集进行划分,得到训练集和验证集。具体包括:
将所述数据集中所有数据按照预设比例进行划分,得到所述训练集和所述验证集。其中,预设划分比例并不是固定的,训练集和样本集的比例可以是8:2,也可以是9:1等,可根据实际情况自行设定。
还需要说明的是,本实施例中,为了对图神经网络模型的训练效果进行测试,还可以划分出测试集。本实施例优选将所述BLVD数据集按照8:1:1的比例划分为训练集、验证集和测试集。或者,还可以按照6:2:2或者7:1.5:1.5等比例进行样本数据划分。一般情况下,训练集样本数据越多,则训练出的模型精度越高。因此,本实施例优选8:1:1的比例值对应得到训练集、验证集和测试集。
容易理解的是,本实施例采用的8:1:1的比例值仅仅是一个优选值,但这个值并不是固定的、唯一的,不应作为对本发明保护范围的限定,具体的比例值可根据实际情况自行设定。并且,是否划分出测试集可根据实际情况自行确定,至少需要划分出训练集和验证集,在保证模型训练和验证的基础上,还可以采用测试集对模型的识别精度进行测试,可以保证模型的识别效果。
步骤S3、建立图神经网络模型。
如图2所示,所述图神经网络模型包括实例层和类别层。其中,所述实例层中将不同时刻的各个交通参与者定义为结点,所述结点之间通过时间边和空间边相连;所述类别层中将同一时刻的不同种类的交通参与者定义为超结点,所述超结点与所述结点之间通过信息传递边相连。
本发明建立图神经网络模型的过程具体包括:
步骤S3.1、在所述实例层中,将每一时刻下每个交通参与者定义为一个结点,利用LSTM神经网络处理各个交通参与者的特征信息;利用LSTM神经网络处理每一条空间边中两个所述结点的相对位置信息;利用LSTM神经网络处理每一条时间边中两个所述结点在时间序列上的历史运动信息。其中,所述空间边具有双向性,表示同一时刻下的两个不同结点之间连接的边;所述时间边具有单向性,表示两个不同时刻下的同一个结点之间连接的边。
由于每一时刻交通场景中交通参与者的数目并不是恒定的,在当前时刻某一交通参与者还在该交通场景中与其它交通参与者进行交互,但下一时刻中可能该交通参与者就已经驶离了该交通场景,也有可能会新的交通参与者进入该交通场景,因此,图神经网络模型是一个动态模型,体现为旧结点的消失和新结点的建立。
步骤S3.2、在所述类别层中,将每一时刻下的不同种类的交通参与者定义为一个超结点,每个所述超结点与当前时刻所有对应类型的所述实例层中的各个结点之间存在信息传递边,所述信息传递边用于将同一种类的交通参与者的交互行为信息汇聚至所述超结点,再由所述超结点利用LSTM神经网络对所述交互行为信息进行处理并将所述交互行为信息对应返还至所述实例层中相应的结点,得到所述交互行为信息的识别结果;两个不同时刻下的同一所述超结点之间也存在所述时间边,利用LSTM神经网络处理每一条所述时间边中两个所述超结点在时间序列上的历史信息。
步骤S3.3、所述实例层和所述类别层通过结点与对应类别的超结点之间的所述信息传递边连接。
本发明利用图神经网络模型的实例层将场景中的交通参与者建模为结点,将空间和时间影响关系建模为边,即时间边和空间边,并且通过图神经网络模型的类别层来考虑不同种类交通参与者的运动模式,对交通参与者和主车之间的交互行为进行识别。将交通场景中的行人、机动车和非机动车等所有种类的交通参与者都考虑到图神经网络模型中,在图神经网络模型中表现出各个交通参与者之间的信息传递的交互关系,能够有效提高图神经网络模型对多交通参与者交互行为的识别精度,从而使得交互行为的识别结果更加准确、可靠。
步骤S4、所述根据所述图神经网络模型对所述训练集和所述验证集进行预处理,得到预处理后的训练集和预处理后的验证集。具体包括:
根据所述图神经网络模型中所需要的数据结构,对所述训练集和所述验证集中的数据进行预处理,得到能够输入至所述图神经网络模型的所述预处理后的训练集和所述预处理后的验证集。
本实施例中由于还设置有测试集,因此对所述训练集、所述验证集和所述测试集中的数据进行预处理,分别得到能够输入至所述图神经网络模型的预处理后的训练集、验证集和测试集。
步骤S4具体包括以下步骤:
步骤S4.1、将所述交通参与者的特征设置为,其中表示交通参与者的x,y坐标信息,表示交通参与者的种类信息,表示所述图神经网络模型中对结点进行LSTM神经网络处理时输入的交通参与者的特征信息。其中,构建图神经网络模型时需要使用到长短期记忆神经网络(LSTM)的处理过程。
步骤S4.2、由于所述空间边具有双向性,如图2所示,当考虑时,则表示结点在空间上对结点的影响,其特征为;其中,分别表示结点相对于结点的x,y坐标位置,表示两个结点之间的交互行为,通过所述BLVD数据集中两个结点的交通参与者的种类编码1-3得到;其中,1表示非机动车,2表示机动车,3表示行人;
步骤S4.3、不同于空间边,时间边具有单向性,表示信息在时间方向上的传递。当同一个结点A i 在t和t+1时刻下的相邻两帧图像中都出现时,则它们之间会被定义一个时间边,所述时间边表示为,其特征为,其中,分别表示同一结点A i 在t+1时刻相对于t时刻的x,y坐标位置,通过所述BLVD数据集中此结点的交通参与者种类编码得到;表示图神经网络中对时间边进行LSTM神经网络处理时的输入的交通参与者的特征信息。
步骤S5、将所述预处理后的训练集输入所述图神经网络模型中进行训练,得到训练后的图神经网络模型。具体包括:
步骤S5.1、数据集的结构按照步骤S4预处理完毕后,将所述预处理后的训练集排列成张量形式输入所述图神经网络模型中进行训练,在进行LSTM神经网络处理时,输入的所述结点、所述空间边和所述时间边的张量形式为M×N×3,其中,M表示一次输入样本数量,本实例中M取值为16;N表示观测时间长度,本实施例中N取值为1.6秒,即16帧;3为输入的特征信息的维度;
所述图神经网络模型中正向数据传递过程包括:
对于所述实例层中的每一个结点和每一条边,都设置有线性映射函数对输入信息进行预处理,预处理后进入LSTM神经网络:
其中,embed(·)表示线性映射函数,将输入编码为特定长度的向量,这里的特定长度是指128,即映射为128维的向量;表示空间边的输出,表示时间边的输出,空间边和时间边的输出是相应LSTM神经网络的输出隐藏状态;分别表示输入信息预处理时的线性映射层的权重参数,分别表示LSTM神经网络的神经元的权重参数。
步骤S5.2、对于同一个结点A i ,其周围所有的边的信息经过LSTM神经网络处理后,通过一个注意力机制被分配权重,权重表示该边对结点的影响程度的大小,表示为:
其中,表示相应空间边输出的权重;W ii 和W ij 分别表示注意力机制分配权重时的线性映射层的权重参数,Dot(·)表示点乘运算,表示比例因子;通过加权平均计算得到,表示结点A i 周围的交通参与者在时刻t对结点A i 在空间上的影响;
其中,n表示超结点对应的结点数量,表示提取到的t时刻的同一种类交通参与者的特征信息;综合考虑时刻t时某一类交通参与者的运动特征,作为对结点进行LSTM神经网络处理时输入的一部分,连续两帧的同一个超结点之间的时间边,与实例层相似,时间边以中间量为输入,获得包含时间序列信息的隐藏状态,其中,表示提取到的t-1时刻的同一种类交通参与者的特征信息,则有:
步骤S5.4、所述图神经网络模型训练时采用的损失函数为多分类交叉熵函数,通过数据反向传递的梯度下降算法更新整个神经网络的权重参数,实现图神经网络模型的训练,得到训练好的图神经网络模型训练。
本实施例中,由于预先还设置了测试集并对测试集也进行了预处理,因此,在步骤S5将所述预处理后的训练集输入所述图神经网络模型中进行训练,得到训练后的图神经网络模型之后,还可以包括以下步骤:
利用所述预处理后的测试集对所述训练后的图神经网络模型进行测试,得到测试后的图神经网络模型。
本实施例在图神经网络训练完毕后,利用测试集对该图神经网络模型的识别准确度进行测试,获得识别准确率结果为96%,从而证明了,训练后的图神经网络模型具有较高的识别精度,可满足不同交通场景下多交通参与者的交互行为的识别,均能得到准确、可靠的识别结果。
步骤S6、将所述预处理后的验证集输入所述训练后的图神经网络模型中,得到多交通参与者交互行为的识别结果。
本实施例在确定数据集并对数据集进行预处理后,使数据集中的数据可直接输入至图神经网络模型进行训练和测试,最终再利用验证集对训练后的图神经网络模型进行验证,这里的验证集就是待识别的视频数据,输入待识别的视频数据后即可通过图神经网络模型输出多交通参与者交互行为的识别结果。由于利用数据集对图神经网络模型进行训练时考虑到了各种不同场景下的多种类的交通参与者之间的多种交互行为,全面考虑到了所有类型的交通参与者之间的交互行为,因此,这个识别结果更加准确、真实,更能反映出实际的交通环境和多交通参与者之间的交互行为。
本发明提出了一种基于图神经网络的多交通参与者交互行为识别方法,该方法着眼于交通环境中交通参与者之间的相互作用,全面考虑到了所有类型的交通参与者之间的交互行为的显式定义,利用图神经网络模型的实例层将场景中的参与者建模为结点,将空间和时间影响关系建模为边,即时间边和空间边,并且通过图神经网络模型的类别层来考虑不同种类交通参与者的运动模式,对交通参与者和主车之间的交互行为进行识别。本发明将交通场景中的行人、机动车和非机动车等所有种类的交通参与者都考虑到图神经网络模型中,在图神经网络模型中表现出各个交通参与者之间的信息传递的交互关系,能够有效提高图神经网络模型对多交通参与者交互行为的识别精度,从而使得交互行为的识别结果更加准确、可靠。
现有的行为识别方法往往只单独考虑某一种交通参与者与主车之间的交互,例如只考虑车辆或只考虑行人的影响,而本发明将交通场景中所有种类的交通参与者都考虑到图神经网络模型中,包括了行人、机动车和非机动车所有类型的交通参与者,具有一定的创新意义,不仅提高了识别精度,还可广泛适用于各种复杂的交通场景中,具有普适性,对于识别交通参与者的运动轨迹、规划路线、自动驾驶等方面都具有重大意义。
实施例2
如图3所示,本实施例提供了一种多交通参与者交互行为识别系统,该系统具体包括:
数据集获取模块M1,用于获取数据集;所述数据集内包括多种交通场景和多种交通参与者的交互行为;
数据集划分模块M2,用于对所述数据集进行划分,得到训练集和验证集;
图神经网络模型建立模块M3,用于建立图神经网络模型;所述图神经网络模型包括实例层和类别层;所述实例层中将不同时刻的各个交通参与者定义为结点,所述结点之间通过时间边和空间边相连;所述类别层中将同一时刻的不同种类的交通参与者定义为超结点,所述超结点与所述结点之间通过信息传递边相连;
数据集预处理模块M4,用于根据所述图神经网络模型对所述训练集和所述验证集进行预处理,得到预处理后的训练集和预处理后的验证集;
图神经网络模型训练模块M5,用于将所述预处理后的训练集输入所述图神经网络模型中进行训练,得到训练后的图神经网络模型;
交互行为识别结果输出模块M6,用于将所述预处理后的验证集输入所述训练后的图神经网络模型中,得到多交通参与者交互行为的识别结果。
实施例3
如图4所示,本实施例提供了一种多交通参与者交互行为识别设备,具体包括:
存储器N1、处理器N2以及存储在所述存储器中并在所述处理器上运行的计算机程序N3。
在所述计算机程序N3被所述处理器N2执行时实现如实施例1中的识别方法所述的步骤。
此外,根据本发明实施例的方法也可以借助于图4所示的识别设备的架构来实现。图4示出了该识别设备的架构。如图4所示,识别设备可以包括存储器N1、处理器N2以及存储在所述存储器中并在所述处理器上运行的计算机程序N3等,还可以包括其他的硬件设备。识别设备中的存储器N1,可以为ROM、U盘,还可以是机械硬盘、固态硬盘,或者移动硬盘。可以存储本发明提供的多交通参与者交互行为识别方法的处理和/或通信使用的各种数据或文件以及处理器N2所执行的程序指令。当然,图4所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图4示出的识别设备中的一个或至少两个组件,或者在图4的识别设备的基础上,增加一个或至少两个组件,组件的具体类型包括但不限于上述所述的硬件。
实施例4
如图5所示,本实施例提供了一种计算机可读存储介质,其上存储有计算机程序P1。
所述计算机程序被处理器执行时实现如实施例1中的识别方法所述的步骤。
同理,所述存储介质可以为ROM、U盘,还可以是机械硬盘、固态硬盘,或者移动硬盘。其可读状态可以是被计算机、手机、平板电脑等其中的任一一种或多种移动终端进行读取并运行。当然,本实施例仅是给出了一种基础架构,在图5的存储介质的基础上,增加一个或至少两个组件,组件的具体类型包括但不限于上述所述的硬件。任意可实现实施例1中方法中的一个或多个步骤的硬件或软件,均在本发明的保护范围之内。
技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”,通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如,各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。
所有软件或其中的一部分有时可能会通过网络进行通信,如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如:从视频目标检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台,或其他实现系统的计算机环境,或与提供目标检测所需要的信息相关的类似功能的系统。因此,另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接,例如光波、电波、电磁波等,通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备,也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质,其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。
本发明使用了特定词语来描述本发明的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本发明至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本发明的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本发明的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本发明的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本发明的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。
Claims (10)
1.一种多交通参与者交互行为识别方法,其特征在于,包括:
获取数据集;所述数据集内包括多种交通场景和多种交通参与者的交互行为;
对所述数据集进行划分,得到训练集和验证集;
建立图神经网络模型;所述图神经网络模型包括实例层和类别层;所述实例层中将不同时刻的各个交通参与者定义为结点,所述结点之间通过时间边和空间边相连;所述类别层中将同一时刻的不同种类的交通参与者定义为超结点,所述超结点与所述结点之间通过信息传递边相连;
根据所述图神经网络模型对所述训练集和所述验证集进行预处理,得到预处理后的训练集和预处理后的验证集;
将所述预处理后的训练集输入所述图神经网络模型中进行训练,得到训练后的图神经网络模型;
将所述预处理后的验证集输入所述训练后的图神经网络模型中,得到多交通参与者交互行为的识别结果。
2.根据权利要求1所述的多交通参与者交互行为识别方法,其特征在于,所述获取数据集,具体包括:
选定包含有多种交通场景和多种交通参与者的交互行为的视频图像形式的数据集作为所述数据集;
对所述数据集中每一段视频的每一帧图像中所有交通参与者的种类和坐标进行标注,并为每一个所述交通参与者均设置唯一的ID;所述交通参与者的种类包括行人、非机动车和机动车;
对所述数据集中每一段视频的每一帧图像中主车与所述主车周围的其它交通参与者之间的交互行为类别进行标注。
3.根据权利要求2所述的多交通参与者交互行为识别方法,其特征在于,所述数据集为BLVD数据集。
4.根据权利要求1所述的多交通参与者交互行为识别方法,其特征在于,所述建立图神经网络模型,具体包括:
在所述实例层中,将每一时刻下每个交通参与者定义为一个结点,利用LSTM神经网络处理各个交通参与者的特征信息;利用LSTM神经网络处理每一条空间边中两个所述结点的相对位置信息;利用LSTM神经网络处理每一条时间边中两个所述结点在时间序列上的历史运动信息;其中,所述空间边具有双向性,表示同一时刻下的两个不同结点之间连接的边;所述时间边具有单向性,表示两个不同时刻下的同一个结点之间连接的边;
在所述类别层中,将每一时刻下的不同种类的交通参与者定义为一个超结点,每个所述超结点与当前时刻所有对应类型的所述实例层中的各个结点之间存在信息传递边,所述信息传递边用于将同一种类的交通参与者的交互行为信息汇聚至所述超结点,再由所述超结点利用LSTM神经网络对所述交互行为信息进行处理并将所述交互行为信息对应返还至所述实例层中相应的结点,得到所述交互行为信息的识别结果;两个不同时刻下的同一所述超结点之间也存在所述时间边,利用LSTM神经网络处理每一条所述时间边中两个所述超结点在时间序列上的历史信息;
所述实例层和所述类别层通过结点与对应类别的超结点之间的所述信息传递边连接。
5.根据权利要求4所述的多交通参与者交互行为识别方法,其特征在于,所述根据所述图神经网络模型对所述训练集和所述验证集进行预处理,得到预处理后的训练集和预处理后的验证集,具体包括:
根据所述图神经网络模型中所需要的数据结构,对所述训练集和所述验证集中的数据进行预处理,得到能够输入至所述图神经网络模型的所述预处理后的训练集和所述预处理后的验证集,包括:
6.根据权利要求5所述的多交通参与者交互行为识别方法,其特征在于,所述将所述预处理后的训练集输入所述图神经网络模型中进行训练,得到训练后的图神经网络模型,具体包括:
将所述预处理后的训练集排列成张量形式输入所述图神经网络模型中进行训练,在进行LSTM神经网络处理时,输入的所述结点、所述空间边和所述时间边的张量形式为M×N×3,其中,M表示一次输入样本数量,N表示观测时间长度,3为输入的特征信息的维度;
所述图神经网络模型中正向数据传递过程包括:
对于所述实例层中的每一个结点和每一条边,都设置有线性映射函数对输入信息进行预处理,预处理后进入LSTM神经网络:
其中,embed(·)表示线性映射函数,将输入编码为特定长度的向量;表示空间边的输出,表示时间边的输出,空间边和时间边的输出是相应LSTM神经网络的输出隐藏状态;分别表示输入信息预处理时的线性映射层的权重参数,分别表示LSTM神经网络的神经元的权重参数;
对于同一个结点A i ,其周围所有的边的信息经过LSTM神经网络处理后,通过一个注意力机制被分配权重,权重表示该边对结点的影响程度的大小,表示为:
其中,表示相应空间边输出的权重;W ii 和W ij 分别表示注意力机制分配权重时的线性映射层的权重参数,Dot(·)表示点乘运算,表示比例因子;通过加权平均计算得到,表示结点A i 周围的交通参与者在时刻t对结点A i 在空间上的影响;
其中,n表示超结点对应的结点数量,表示提取到的t时刻的同一种类交通参与者的特征信息;综合考虑时刻t时某一类交通参与者的运动特征,作为对结点进行LSTM神经网络处理时输入的一部分,连续两帧的同一个超结点之间的时间边以中间量为输入,获得包含时间序列信息的隐藏状态,其中,表示提取到的t-1时刻的同一种类交通参与者的特征信息,则有:
7.根据权利要求6所述的多交通参与者交互行为识别方法,其特征在于,所述图神经网络模型训练时采用的损失函数为多分类交叉熵函数,通过数据反向传递的梯度下降算法更新整个神经网络的权重参数。
8.一种多交通参与者交互行为识别系统,其特征在于,包括:
数据集获取模块,用于获取数据集;所述数据集内包括多种交通场景和多种交通参与者的交互行为;
数据集划分模块,用于对所述数据集进行划分,得到训练集和验证集;
图神经网络模型建立模块,用于建立图神经网络模型;所述图神经网络模型包括实例层和类别层;所述实例层中将不同时刻的各个交通参与者定义为结点,所述结点之间通过时间边和空间边相连;所述类别层中将同一时刻的不同种类的交通参与者定义为超结点,所述超结点与所述结点之间通过信息传递边相连;
数据集预处理模块,用于根据所述图神经网络模型对所述训练集和所述验证集进行预处理,得到预处理后的训练集和预处理后的验证集;
图神经网络模型训练模块,用于将所述预处理后的训练集输入所述图神经网络模型中进行训练,得到训练后的图神经网络模型;
交互行为识别结果输出模块,用于将所述预处理后的验证集输入所述训练后的图神经网络模型中,得到多交通参与者交互行为的识别结果。
9.一种多交通参与者交互行为识别设备,包括:存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,在所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111310948.3A CN113989782A (zh) | 2021-11-08 | 2021-11-08 | 一种多交通参与者交互行为识别方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111310948.3A CN113989782A (zh) | 2021-11-08 | 2021-11-08 | 一种多交通参与者交互行为识别方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113989782A true CN113989782A (zh) | 2022-01-28 |
Family
ID=79746959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111310948.3A Pending CN113989782A (zh) | 2021-11-08 | 2021-11-08 | 一种多交通参与者交互行为识别方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113989782A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3264391A1 (en) * | 2016-06-30 | 2018-01-03 | Honda Research Institute Europe GmbH | Method and system for assisting a driver in driving a vehicle and vehicle on which such system is mounted |
CN113420681A (zh) * | 2021-06-28 | 2021-09-21 | 北京百度网讯科技有限公司 | 行为识别及模型训练的方法、设备、存储介质和程序产品 |
CN113553954A (zh) * | 2021-07-23 | 2021-10-26 | 上海商汤智能科技有限公司 | 行为识别模型的训练方法及装置、设备、介质和程序产品 |
CN113561974A (zh) * | 2021-08-25 | 2021-10-29 | 清华大学 | 基于车辆行为交互与道路结构耦合的碰撞风险预测方法 |
-
2021
- 2021-11-08 CN CN202111310948.3A patent/CN113989782A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3264391A1 (en) * | 2016-06-30 | 2018-01-03 | Honda Research Institute Europe GmbH | Method and system for assisting a driver in driving a vehicle and vehicle on which such system is mounted |
CN113420681A (zh) * | 2021-06-28 | 2021-09-21 | 北京百度网讯科技有限公司 | 行为识别及模型训练的方法、设备、存储介质和程序产品 |
CN113553954A (zh) * | 2021-07-23 | 2021-10-26 | 上海商汤智能科技有限公司 | 行为识别模型的训练方法及装置、设备、介质和程序产品 |
CN113561974A (zh) * | 2021-08-25 | 2021-10-29 | 清华大学 | 基于车辆行为交互与道路结构耦合的碰撞风险预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109978893B (zh) | 图像语义分割网络的训练方法、装置、设备及存储介质 | |
US20210174537A1 (en) | Method and apparatus for detecting target object in image | |
CN112069868A (zh) | 一种基于卷积神经网络的无人机实时车辆检测方法 | |
CN112990211B (zh) | 一种神经网络的训练方法、图像处理方法以及装置 | |
CN111091708A (zh) | 车辆轨迹预测方法及装置 | |
CN113468978B (zh) | 基于深度学习的细粒度车身颜色分类方法、装置和设备 | |
CN112307978B (zh) | 目标检测方法、装置、电子设备及可读存储介质 | |
CN111310518B (zh) | 图片特征提取方法、目标重识别方法、装置及电子设备 | |
CN111368943A (zh) | 图像中对象的识别方法和装置、存储介质及电子装置 | |
CN111582559A (zh) | 一种到达时间的预估方法及装置 | |
CN112233428B (zh) | 车流量预测方法、装置、存储介质及设备 | |
CN113643532B (zh) | 一种区域交通的预测方法以及设备 | |
JP2024513596A (ja) | 画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体 | |
CN113326826A (zh) | 网络模型的训练方法、装置、电子设备及存储介质 | |
Saveliev et al. | Method for automated generation of road accident scene sketch based on data from mobile device camera | |
CN117456480B (zh) | 一种基于多源信息融合的轻量化车辆再辨识方法 | |
CN108932839B (zh) | 一种同行车辆判断方法及装置 | |
CN115620122A (zh) | 神经网络模型的训练方法、图像重识别方法及相关设备 | |
CN112288702A (zh) | 一种基于车联网的道路图像检测方法 | |
CN115984634A (zh) | 图像检测方法、装置、设备、存储介质和程序产品 | |
CN113989782A (zh) | 一种多交通参与者交互行为识别方法、系统、设备及介质 | |
Bai et al. | Cyber mobility mirror for enabling cooperative driving automation: A co-simulation platform | |
CN115576990A (zh) | 视觉真值数据与感知数据的评测方法、装置、设备及介质 | |
Saadeldin et al. | Real-time vehicle counting using custom YOLOv8n and DeepSORT for resource-limited edge devices | |
CN116194964A (zh) | 用于训练机器学习视觉注意力模型的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |