CN112800920B

CN112800920B - 一种基于多模态知识推理的公交主动安全预警方法

Info

Publication number: CN112800920B
Application number: CN202110084860.8A
Authority: CN
Inventors: 余建兴; 王世祺; 印鉴
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2024-02-23
Anticipated expiration: 2041-01-21
Also published as: CN112800920A

Abstract

本发明提供一种基于多模态知识推理的公交主动安全预警方法，该方法首先对公交车前置摄像头拍摄的视频提取关键帧；然后基于关键帧构建场景图谱，用于描述公交车所处场景细粒度信息；场景图谱是一种图形式的数据结构，其节点对应图像中的实体对象，描述了这些对象的相关属性，譬如“红灯状态的红绿灯”、“奔跑的行人”、“邻车”、“交通标志牌”等；边则描述了对象间的关系，譬如实体对象“小孩”和“足球”间存在的关系“踢”；以图谱池化的方式，抽取场景图谱的层级化信息，并最终输出一个表征场景图谱整体语义的分布式编码表示；最后，将场景图谱分布式编码表示与传感器模态数据融合，并基于融合结果判断是否需要向公交驾驶员发出安全预警。

Description

一种基于多模态知识推理的公交主动安全预警方法

技术领域

本发明涉及智能交通领域，更具体地，涉及一种基于多模态知识推理的公交主动安全预警方法。

背景技术

公交作为人们日常出行的主要交通工具，在发生交通事故时往往会严重威胁乘客生命安全。目前，随着城市化的发展和汽车的普及，城市交通已呈现出路况复杂，车辆多，行人密集的特点，交通事故发生率持续升高，公交运输安全形势日益严峻。公交主动安全预警系统用于实时监测公交行驶情况，及时向驾驶员发出安全预警，确保行车安全，降低交通事故发生率。针对该领域，已有许多方法被提出。根据输入数据的模态不同，主流的公交主动安全预警方法可分为两类，第一类方法以各类传感器结构化数据作为输入，通过预先设定的公式衡量当前行车安全性；第二类方法以公交前置摄像头拍摄的视频作为输入，通过图像处理技术获取邻车、行人与公交的相对距离和相对速度，基于这些信息判断是否需要发出安全预警。这些方法仅依靠单模态信息判断是否需要向驾驶员发出预警，存在判断依据不充分，预警可靠性不高的缺陷，当应用于实际场景中，无法向驾驶员提供高可靠的预警服务。具体来说，基于传感器的预警方法无法识别红绿灯、交通标志牌等有助于主动安全预警判断的视觉信息。譬如，对于场景“公交车正要穿过设有红绿灯的路口，前方无车，路边街道上有行人”，若当前为红灯，这类方法根据传感器传输的信息仅能判断前方无车，却无法识别红绿灯状态，因此将不会向公交驾驶员发出预警；基于视频图像的预警方法受拍摄图像质量的约束大，当遇到大雾大雨等恶劣天气，这类方法稳定性不强，无法满足高可靠的公交安全预警场景的业务需求。此外，基于视频图像的预警方法缺乏对公交所处场景视觉细粒度信息的认知与理解。譬如，在上述示例场景中，若当前为绿灯，且路边的行人中有小孩正在踢足球，这类方法仅能检测出行人，而无法认知与理解“小孩正在踢足球”这一信息，因此无法预见小孩突然冲出人行道的可能性，将不会向公交驾驶员发出预警。

在学术领域目前主流的方法可以归纳为两类。第一类方法通过处理雷达传感器数据获取行人和邻车的轮廓、距离和速度信息，并结合自车的GPS传感器和车速传感器数据衡量公交当前行车安全性。然而，传感器设备不足以对公交所处场景细粒度信息进行分析和建模，譬如红绿灯状态，交通标志牌内容，行人的状态，邻车的状态等；第二类方法以公交前置摄像头拍摄的视频作为输入，通过对象检测算法定位邻车和行人的所在区域，建模成像平面坐标系与现实世界坐标系间的转换关系，并在此基础上计算行人、邻车与公交的相对距离和相对速度，进而判断是否需要向驾驶员发出预警。然而，这类方法受拍摄图像质量的约束大，当遇到大雾大雨等恶劣天气，预警精度将会受到严重影响，无法满足高可靠的公交安全预警场景的业务需求。此外，这类方法仅从视频图像中提取了有限的视觉内容，并没有挖掘图像中的细粒度信息，这导致预警依据不充分，往往会错误地发出预警干扰驾驶员或是在需提醒驾驶员的时候不发出预警。

现有的工作主要聚焦基于传感器的主动安全预警方法，即在公交车上安装确定数量、确定种类的传感器，收集这些结构化数据，并通过固定的公式计算行车安全性。但由于缺乏对所处场景细粒度信息的感知能力，这些方法没有表现出优异的主动安全预警性能。上述各类方法仅使用单模态信息判断是否需要向驾驶员发出预警，存在预警依据少，预警稳定性不足的缺点，无法满足高可靠的公交安全预警场景的业务需求。

发明内容

本发明提供一种基于多模态知识推理的公交主动安全预警方法，该方法将场景图谱分布式编码表示与传感器模态数据融合，并基于融合结果判断是否需要向公交驾驶员发出安全预警。

为了达到上述技术效果，本发明的技术方案如下：

一种基于多模态知识推理的公交主动安全预警方法，包括以下步骤：

S1：采集公交前置摄像头拍摄的视觉模态数据和传感器模态结构化数据，并进行预处理：

S2：对步骤S1中的预处理后的视觉模态数据进行关键帧提取；

S3：对步骤S2提取出的关键帧进行细粒度场景表示；

S4：将步骤S3与预处理后的传感器模态结构化数据进行多模态知识融合；

S5：利用步骤S4得到的数据衡量当前行车安全性。

进一步地，所述步骤S1中对视觉模态数据进行预处理的过程是：

获取上一秒拍摄的视频，即一个图像序列F＝{f₁，...，f_Q}，图像尺寸为M×N，其中fi表示这一秒内拍摄的第i帧图像，Q表示摄像头在这一秒内拍摄的图像总帧数；Q设定在25至30帧范围内。

进一步地，所述步骤S2中，基于加权灰度直方图衡量每一帧图像的视觉内容差异，进而提取其中一帧图像作为关键帧kf，具体过程是：

S21：对于输入的视频数据中的每一帧图像f_i，通过式(1)计算对应的加权灰度图g_i，其中fr_i(x，y)、fg_i(x，y)、fb_i(x，y)分别为像素点(x，y)的R、G、B通道值，ω_r、ω_g、ω_b为预设的对应通道的权值；

S22：以长度len＝15将灰度值划分为K＝255/len＝17级，统计每一个加权灰度图g_i处于不同灰度级的像素点数，拼接统计结果作为表征对应图像f_i视觉信息的特征向量，表示为fv_i＝[r_i(1)，...，r_i(K)]，维度为K，其中r_i(j)为g_i中处于第j个灰度级的像素点个数；

S23：如式(2)获取图像特征向量均值然后计算每一帧图像特征向量fv_i与/>的欧氏距离，选取距离最小的特征向量所对应的图像作为关键帧kf：

进一步地，所述步骤S3的具体过程是：

S31：使用Fasrer-RCNN网络以关键帧图像kf作为输入，会定位图像中各实体对象，包括如“红绿灯”、“行人”、“轿车”；对于检测到的第i个实体对象，Faster-RCNN输出表征其相关属性的特征向量表示v_i，以及该对象基于预先设定的类别集合C＝{′小孩′，...，′轿车′}的实体类别分布p_i∈R^k，其中k为实体类别数；

S32：判断任意两个实体对象间是否存在关系，为存在关系的实体所对应的节点间添加有向边，从而构建场景图谱G＝(V，E，A)，用于描述关键帧图像的细粒度语义内容；

S33：以图谱池化的方式抽取场景图谱G的层级化信息，在每一个图谱池化层，将多个节点聚合到一个新节点中，进而生成一个节点和边的规模都更小的图谱。

进一步地，所述步骤S32的具体过程是：

1)、基于对象的实体类别分布评估两个对象间存在关系的可能性，如式(3)，利用两个多层感知机φ(·)和ψ(·)分别将对象i和j的实体类别分布映射到表征关系中主体和客体的语义空间中，并以它们映射后的特征向量的余弦相似度作为对象i关于j存在关系的可能性评分s_ij：

其中，对象i关于对象j的关系表示为e_ij＝v_i-v_j，而邻接矩阵A中相应位置a_ij＝1；

2)、将这些可能性评分按从大到小的顺序进行排序，选取前rm个实体对象组合，以主体实体对象的初始特征向量表示减去客体实体对象的初始特征向量表示作为关系的特征向量表示，从而获得表征关系语义信息的特征向量集合E＝{e_ij|i，j＝1，...，n}，并将邻接矩阵A中这些边的相应位置取值设为1；

3)、以这些实体对象作为节点，为存在关系的实体所对应的节点间添加有向边，从而构建场景图谱G＝(V，E，A)，用于描述关键帧图像的细粒度语义内容。

进一步地，所述步骤S33的具体过程是：

1)、每一个图谱池化层都包含两个相互独立的aGCN网络aGCN_embed和aGCN_pool，在第l个图谱池化层中，首先利用aGCN_embed获取图谱中n_l-1个节点基于邻居节点和边信息的嵌入表示集合如式(4)所示，

其中，为经过第(l-1)个图谱池化层后节点的特征向量集合，以特征向量集合V初始化X⁽⁰⁾；相应的，/>为经过第(l-1)个图谱池化层后m_l-1条边的特征向量集合，以特征向量集合E初始化ZR⁽⁰⁾；

2)、如式(5)所示，将aGCN_pool的结果输入到softmax函数中获取节点聚合矩阵其第i行表式节点i从属于聚合后的n₁个新节点的概率分布：

3)、基于聚合矩阵将当前的n_l-1个节点聚合到n_l个新节点中，并为这些新节点添加关系边，节点聚合和添加关系边的过程如式(6)、(7)所示，对于新的关系边，通过式(8)计算其特征向量表示：

以场景图谱G作为输入，经过L个图谱池化层后，图谱规模缩小至仅有一个节点，以该节点表征场景图谱整体语义信息，将其特征向量vg作为本模块的输出。

进一步地，所述步骤S1中对待预警的公交设置了7个传感器，包括车速传感器、毫米波雷达传感器、方向盘转角传感器、方向盘扭矩传感器、侧向加速度传感器、制动压力传感器以及轮速传感器。

进一步地，所述步骤S1中对传感器模态结构化数据进行与处理的过程是：

1)、在当前时刻，本单元接收这些传感器传输的结构化数据Sen＝{sen₁，...，sen_m}，并利用预设的间隔值Dist＝{dist₁，...，dist_m}分别对各类传感器传输数据的可能取值进行分组，进而用独热编码表示每一个数据，间隔值dist_i将第i个传感器数据的可能取值分为了rk_i组，若该传感器传输的数据值sen_i属于第j组，则其独热编码为一个维度为rk_i的向量，其中仅有第j位的值为1，其余位的值都为0；

2)、对于每一个传感器，利用独立的词嵌入向量生成工具word2vec将第一步获得的独热编码转换成分布式编码表示，第i个传感器对应的词嵌入向量生成工具将sen_i的独热编码转换成分布式编码表示dsen_i为对应传感器数据的分布式编码维度；

3)、依次拼接第2)步获得的各类传感器数据的分布式编码维度，获得表征传感器模态信息的分布式编码vs＝[vsen₁，...，vsen_m]∈R^d，其中操作[.，.]表示向量拼接，且

进一步地，所述步骤S4的过程是：

采用特征维度关联的方法对场景表示vg与传感器信息表示vs进行多模态知识融合，获得表征多模态融合信息的分布式编码vc∈R^dc，dc为分布式编码维度，如式(9)：

通过计算vg和vs的外积来建模这两个模态特征向量的维度关联，获得交互图O∈R^d×d，将交互图O输入到一个ResNet中，得到融合了视觉模态细粒度信息和传感器模态信息的分布式编码vc。

进一步地，所述步骤S5的过程是：

在获取表征多模态信息的分布式编码vc后，我们将其输入到sigmoid函数做分类，用于衡量当前行车安全性，预先设定参数θ，通过式(10)衡量行车安全性，所得结果h(vc)的值域为[0，1]，设定安全阈值λ，若h(vc)≤λ，则判定为当前存在危险情况，系统向驾驶员发出预警；反之则判定为当前行车状态安全，不向驾驶员发出预警：

与现有技术相比，本发明技术方案的有益效果是：

本融合从视频图像数据中提取的视觉模态细粒度信息和传感器模态信息，丰富主动安全预警的判断依据，提高预警准确度和可靠性；首先对公交车前置摄像头拍摄的视频提取关键帧；然后基于关键帧构建场景图谱，用于描述公交车所处场景细粒度信息；场景图谱是一种图形式的数据结构，其节点对应图像中的实体对象，描述了这些对象的相关属性，譬如“红灯状态的红绿灯”、“奔跑的行人”、“邻车”、“交通标志牌”等；边则描述了对象间的关系，譬如实体对象“小孩”和“足球”间存在的关系“踢”；以图谱池化的方式，抽取场景图谱的层级化信息，并最终输出一个表征场景图谱整体语义的分布式编码表示；最后，将场景图谱分布式编码表示与传感器模态数据融合，并基于融合结果判断是否需要向公交驾驶员发出安全预警。

附图说明

图1为本发明方法流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示，一种基于多模态知识推理的公交主动安全预警方法，包括以下步骤：

S2：对步骤S1中的预处理后的视觉模态数据进行关键帧提取；

S3：对步骤S2提取出的关键帧进行细粒度场景表示；

S5：利用步骤S4得到的数据衡量当前行车安全性。

步骤S1中对视觉模态数据进行预处理的过程是：

获取上一秒拍摄的视频，即一个图像序列F＝{f₁，...，f_Q}，图像尺寸为M×N，其中f_i表示这一秒内拍摄的第i帧图像，Q表示摄像头在这一秒内拍摄的图像总帧数；Q设定在25至30帧范围内。

步骤S2中，基于加权灰度直方图衡量每一帧图像的视觉内容差异，进而提取其中一帧图像作为关键帧kf，具体过程是：

步骤S3的具体过程是：

步骤S32的具体过程是：

步骤S33的具体过程是：

其中，为经过第(1-1)个图谱池化层后节点的特征向量集合，以特征向量集合V初始化X⁽⁰⁾；相应的，/>为经过第(l-1)个图谱池化层后m1-1条边的特征向量集合，以特征向量集合E初始化ZR⁽⁰⁾；

2)、如式(5)所示，将aGCN_pool的结果输入到softmax函数中获取节点聚合矩阵其第i行表式节点i从属于聚合后的n_l个新节点的概率分布：

步骤S1中对传感器模态结构化数据进行与处理的过程是：

步骤S4的过程是：

步骤S5的过程是：

本方法同时对多模态数据进行分析和挖掘，使得主动安全预警依据更加充分，能够满足高可靠的公交安全预警场景的业务需求；本方法构建场景图谱捕捉视觉模态细粒度信息，能够感知当前场景中实体对象的状态以及实体对象间的关系。譬如，本方法不仅可以识别出“小孩”这一实体对象，还能理解“小孩正在踢足球”这一信息，进而预见小孩突然冲出人行道的可能性，并向驾驶员发出预警；本方法设计了基于多模态的融合方法，能够同时发现模态特征向量之间的所有潜在语义关联。相比于将特征向量拼接的传统方法，本专利提出方法能够更高效地表示多个模态以及它们之间交互关联信息。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于多模态知识推理的公交主动安全预警方法，其特征在于，包括以下步骤：

S2：对步骤S1中的预处理后的视觉模态数据进行关键帧提取；

S3：对步骤S2提取出的关键帧进行细粒度场景表示；所述步骤S3的具体过程是：

S31：使用Fasrer-RCNN网络以关键帧图像作为输入，会定位图像中各实体对象，包括“红绿灯”、“行人”、“轿车”；对于检测到的第/>个实体对象，Faster-RCNN输出表征其相关属性的特征向量表示/>，以及该对象基于预先设定的类别集合/>的实体类别分布/>，其中/>为实体类别数；

S32：判断任意两个实体对象间是否存在关系，为存在关系的实体所对应的节点间添加有向边，从而构建场景图谱，用于描述关键帧图像的细粒度语义内容；

S33：以图谱池化的方式抽取场景图谱的层级化信息，在每一个图谱池化层，将多个节点聚合到一个新节点中，进而生成一个节点和边的规模都更小的图谱；

S5：利用步骤S4得到的数据衡量当前行车安全性。

2.根据权利要求1所述的基于多模态知识推理的公交主动安全预警方法，其特征在于，所述步骤S1中对视觉模态数据进行预处理的过程是：

获取上一秒拍摄的视频，即一个图像序列，图像尺寸为/>，其中/>表示这一秒内拍摄的第/>帧图像，/>表示摄像头在这一秒内拍摄的图像总帧数；/>设定在25至30帧范围内。

3.根据权利要求2所述的基于多模态知识推理的公交主动安全预警方法，其特征在于，所述步骤S2中，基于加权灰度直方图衡量每一帧图像的视觉内容差异，进而提取其中一帧图像作为关键帧，具体过程是：

S21：对于输入的视频数据中的每一帧图像，通过式（1）计算对应的加权灰度图/>，其中/>、/>、/>分别为像素点/>的/>、/>、/>通道值，/>、/>、/>为预设的对应通道的权值；

（1）

S22：以长度将灰度值划分为/>级，其中，/>，/>统计每一个加权灰度图/>处于不同灰度级的像素点数，拼接统计结果作为表征对应图像/>视觉信息的特征向量，表示为/>，维度为/>，其中/>为/>中处于第/>个灰度级的像素点个数；

S23：如式（2）获取图像特征向量均值，然后计算每一帧图像特征向量/>与/>的欧氏距离，选取距离最小的特征向量所对应的图像作为关键帧/>：

（2）。

4.根据权利要求3所述的基于多模态知识推理的公交主动安全预警方法，其特征在于，所述步骤S32的具体过程是：

1）、基于对象的实体类别分布评估两个对象间存在关系的可能性，如式（3），利用两个多层感知机和/>分别将对象/>和/>的实体类别分布映射到表征关系中主体和客体的语义空间中，并以它们映射后的特征向量的余弦相似度作为对象/>关于/>存在关系的可能性评分/>：

（3）

其中，对象关于对象/>的关系表示为/>，而邻接矩阵/>中相应位置/>；

2）、将这些可能性评分按从大到小的顺序进行排序，选取前个实体对象组合，以主体实体对象的初始特征向量表示减去客体实体对象的初始特征向量表示作为关系的特征向量表示，从而获得表征关系语义信息的特征向量集合/>，并将邻接矩阵/>中这些边的相应位置取值设为1；

3）、以这些实体对象作为节点，为存在关系的实体所对应的节点间添加有向边，从而构建场景图谱，用于描述关键帧图像的细粒度语义内容。

5.根据权利要求4所述的基于多模态知识推理的公交主动安全预警方法，其特征在于，所述步骤S33的具体过程是：

1）、每一个图谱池化层都包含两个相互独立的aGCN网络和/>，在第/>个图谱池化层中，首先利用/>获取图谱中/>个节点基于邻居节点和边信息的嵌入表示集合/>，如式（4）所示，

（4）

其中，为经过第/>个图谱池化层后节点的特征向量集合，以特征向量集合/>初始化/>；相应的，/>为经过第/>个图谱池化层后/>条边的特征向量集合，以特征向量集合/>初始化/>；

2）、如式（5）所示，将的结果输入到softmax函数中获取节点聚合矩阵/>，其第/>行表式节点/>从属于聚合后的/>个新节点的概率分布：

（5）；

3）、基于聚合矩阵将当前的个节点聚合到/>个新节点中，并为这些新节点添加关系边，节点聚合和添加关系边的过程如式（6）、（7）所示，对于新的关系边，通过式（8）计算其特征向量表示：

（6）

（7）

（8）

以场景图谱作为输入，经过/>个图谱池化层后，图谱规模缩小至仅有一个节点，以该节点表征场景图谱整体语义信息，将其特征向量/>作为本模块的输出。

6.根据权利要求5所述的基于多模态知识推理的公交主动安全预警方法，其特征在于，所述步骤S1中对待预警的公交设置了个传感器，包括车速传感器、毫米波雷达传感器、方向盘转角传感器、方向盘扭矩传感器、侧向加速度传感器、制动压力传感器以及轮速传感器。

7.根据权利要求6所述的基于多模态知识推理的公交主动安全预警方法，其特征在于，所述步骤S1中对传感器模态结构化数据进行与处理的过程是：

1）、在当前时刻，本单元接收这些传感器传输的结构化数据，并利用预设的间隔值/>分别对各类传感器传输数据的可能取值进行分组，进而用独热编码表示每一个数据，间隔值/>将第/>个传感器数据的可能取值分为了/>组，若该传感器传输的数据值/>属于第/>组，则其独热编码为一个维度为/>的向量，其中仅有第/>位的值为1，其余位的值都为0；

2）、对于每一个传感器，利用独立的词嵌入向量生成工具word2vec将第一步获得的独热编码转换成分布式编码表示，第个传感器对应的词嵌入向量生成工具将/>的独热编码转换成分布式编码表示/>，/>为对应传感器数据的分布式编码维度；

3）、依次拼接第2）步获得的各类传感器数据的分布式编码维度，获得表征传感器模态信息的分布式编码，其中操作/>表示向量拼接，且/>。

8.根据权利要求7所述的基于多模态知识推理的公交主动安全预警方法，其特征在于，所述步骤S4的过程是：

采用特征维度关联的方法对场景表示与传感器信息表示/>进行多模态知识融合，获得表征多模态融合信息的分布式编码/>，/>为分布式编码维度，如式（9）：

（9）

通过计算和/>的外积来建模这两个模态特征向量的维度关联，获得交互图/>，将交互图/>输入到一个ResNet中，得到融合了视觉模态细粒度信息和传感器模态信息的分布式编码/>。

9.根据权利要求8所述的基于多模态知识推理的公交主动安全预警方法，其特征在于，所述步骤S5的过程是：

在获取表征多模态信息的分布式编码后，我们将其输入到sigmoid函数做分类，用于衡量当前行车安全性，预先设定参数/>，通过式（10）衡量行车安全性，所得结果/>的值域为/>，设定安全阈值/>，若/>，则判定为当前存在危险情况，系统向驾驶员发出预警；反之则判定为当前行车状态安全，不向驾驶员发出预警：

（10）。