CN114998387A

CN114998387A - 一种物体距离监测方法、装置、电子设备和存储介质

Info

Publication number: CN114998387A
Application number: CN202210651115.1A
Authority: CN
Inventors: 江路铭; 王宇凡; 许际晗; 葛恒赫; 张达明; 宋楠楠
Original assignee: FAW Group Corp
Current assignee: FAW Group Corp
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-09-02

Abstract

本发明公开了一种物体距离监测方法、装置、电子设备和存储介质，其中，该方法包括：基于预设目标监测模型在视频数据的图像帧中识别目标物体；根据预设目标跟踪规则确定所述目标物体的识别标签并跟踪所述目标物体；根据所述图像帧的鸟瞰图监测所述目标物体对应的距离参数。本发明实施例通过对目标物体的跟踪并在鸟瞰图中对目标物体进行距离参数的监测，可减少目标物体距离监测结果的获取时间，从而提高监测结果的时效性，有助于基于距离监测结果进行决策，可提高车辆的智能化程度。

Description

一种物体距离监测方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种物体距离监测方法、装置、电子设备和存储介质。

背景技术

随着智能化时代的到来，智能车辆成为智能化技术应用的重要领域，智能车辆是一个集环境感知、规划决策、多等级辅助驾驶等功能于一体的综合系统，智能车辆中一般设置有先进的传感器、控制器和执行器，通过车载传感器感知环境实现人、车和路的信息交互，提升了用户的使用体验。在智能车辆的使用过程中往往会使用传感器对环境中的行人或车辆进行监测，以保障行车安全。

现有的物体距离监测往往需要识别出不同物体的特征，再基于特征对物体进行跟踪，导致物体距离监测结果的确定需要花费较长时间，不能满足智能车辆的时效要求，导致物体距离监测存在局限性。此外，由于物体距离监测的高时间复杂度，导致智能车辆无法对监测结果进行有效利用，降低了传感器数据的利用率，造成智能车辆的智能化程度较低。目前智能车辆亟需一种高效的物体距离监测方法，以减少距离监测结果的获取时间，提高监测结果的时效性，从而进一步提升车辆的智能化程度。

发明内容

本发明提供了一种物体距离监测方法、装置、电子设备和存储介质，以减少距离监测结果的获取时间，可提高距离监测结果的时效性，从而提升车辆智能决策的准确性，可提高车辆的智能化程度。

根据本发明实施例的一方面，提供了一种物体距离监测方法，其中，该方法包括：

基于预设目标监测模型在视频数据的图像帧中识别目标物体；

根据预设目标跟踪规则确定所述目标物体的识别标签并跟踪所述目标物体；

根据所述图像帧的鸟瞰图监测所述目标物体对应的距离参数。

根据本发明实施例的另一方面，提供了一种物体距离监测装置，其中，该装置包括：

物体识别模块，用于基于预设目标监测模型在视频数据的图像帧中识别目标物体；

标识生成模块，用于根据预设目标跟踪规则确定所述目标物体的识别标签并跟踪所述目标物体；

距离监测模块，用于根据所述图像帧的鸟瞰图监测所述目标物体对应的距离参数。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的物体距离监测方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的物体距离监测方法。

本发明实施例的技术方案，通过使用预设监测模型提取视频数据中各图像帧的目标物体，为目标物体生成识别标签并进行跟踪，按照图像帧对应的鸟瞰图确定跟踪的目标物体的距离参数，本发明实施例通过对目标物体的跟踪并在鸟瞰图中对目标物体进行距离参数的监测，可减少目标物体距离监测结果的获取时间，从而提高监测结果的时效性，有助于基于距离监测结果进行决策，可提高车辆的智能化程度。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种物体距离监测方法的流程图；

图2是根据本发明实施例二提供的一种物体距离监测方法的流程图；

图3是根据本发明实施例二提供的一种鸟瞰图转换的示例图；

图4是根据本发明实施例三提供的一种预设目标监测模型的训练流程图；

图5是根据本发明实施例三提供的一种行人社交距离监测的示例图；

图6是根据本发明实施例四提供的一种物体距离监测装置的结构示意图；

图7是实现本发明实施例的行人社交距离监测方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是根据本发明实施例一提供的一种物体距离监测方法的流程图，本实施例可适用于基于视频数据进行目标距离监测的情况，该方法可以由物体距离监测装置来执行，该物体距离监测装置可以采用硬件和/或软件的形式实现，该物体距离监测装置可配置于车辆终端或服务器中。如图1所示，该方法包括：

步骤110、基于预设目标监测模型在视频数据的图像帧中识别目标物体。

其中，预设目标监测模型可以是在视频数据中检测目标物体的处理规则，预设目标监测模型可以具体为经过预先训练的深度学习模型，预设目标监测模型可以具体为两阶段的目标检测模型或者单阶段的目标检测模型，例如，预设目标监测模型可以包括区域卷积神经网络模型(R-CNN)或YOLO神经网络模型。视频数据可以包括多帧图像帧，每个图像帧可以对应视频数据的不同时刻。而目标物体可以是需要进行距离监测物体，可以包括行人、车辆、指示灯、交通标识牌、广告牌等。

在本发明实施例中，可以预先使用海量的视频数据对预设目标监测模型进行训练，使得预设目标监测模型可以对目标物体进行识别，可以理解的是，训练预设目标监测模型的视频数据可以是标记处理的数据。在进行距离监测时，可以将视频数据中的图像帧分别输入到预设目标监测模型中，可以由预设目标监测模型对图像帧中的目标物体进行识别，判断视频数据中是否存在目标物体、判断各目标物体存在的位置以及判断各目标物体的种类等。

步骤120、根据预设目标跟踪规则确定目标物体的识别标签并跟踪目标物体。

其中，预设目标跟踪规则可以是对视频数据中一个或多个目标物体进行跟踪的处理规则，预设目标跟踪规则可以预先配置在执行本发明实施例方法的设备中，预设目标跟踪规则可以具体为多目标跟踪，预设目标跟踪规则可以包括全卷积网络跟踪器、多域卷积神经网络、卡尔曼滤波、粒子滤波等目标跟踪规则。识别标签可以用于在视频数据中跟踪目标物体的标识信息，每个目标物体可以具有唯一的识别标签，在目标物体出现在视频数据中可以生成该目标物体的识别标签，在目标物体移出视频数据时可以删除该目标物体的识别标签。

具体的，可以按照预先配置的预设目标跟踪规则对识别出的目标物体进行处理，使得每个目标物体存在唯一的识别标签，并基于该识别标签在视频数据中对目标物体进行跟踪。

步骤130、根据图像帧的鸟瞰图监测目标物体对应的距离参数。

其中，鸟瞰图可以是以视频数据的采集装置为起点生成的立体图，鸟瞰图中的像素点可以反映真实世界中的距离，距离参数可以是目标物体在真实世界中的实际距离。

在本发明实施例中，可以将各图像帧转换为鸟瞰图形式，将真实世界的坐标距离映射到二维平面中，使得鸟瞰图形式的图像帧中每个像素可以对应真实世界的实际距离，可以通过对图像帧中目标物体对应像素点的监测，从而实现真实距离参数的监测。

实施例二

图2是根据本发明实施例二提供的一种物体距离监测方法的流程图，本实施例是在上述发明实施例基础上的具体化。如图2所示，该方法包括：

步骤210、提取在yolov4架构下训练的Darknet网络框架的卷积神经网络模型作为预设目标监测模型。

其中，Darknet网络框架可以是基于yolov4架构的深度学习框架，该Darknet网络框架可以训练用于目标检测。

在本发明实施例中，可以预先按照yolov4架构的Darknet网络框架搭建卷积神经网络，使用海量的视频数据对搭建的卷积神经网络进行训练，使得经过训练的卷积神经网络可以用于目标检测，可以理解的是，训练好的卷积神经网络可以存储在执行本发明实施例的设备中，该设备可以配置有yolov4架构下Darknet网络框架的运行环境。

步骤220、将视频数据的至少一个图像帧输入到卷积神经网络以确定目标物体的检测结果。

其中，检测结果可以是判断图像帧内是否包括目标物体的结果，检测结果可以包括目标物体的数量、目标物体的位置以及是否具有目标物体等信息。

具体的，可以将视频数据的各图像帧输入到卷积神经网络进行目标检测，可以获取到各图像帧对应的检测结果，可以理解的是，各图像帧可以同时输入到卷积神经网络中，也可以分别输入到卷积神经网络中。在一个示例性的实施方式中，可以将各图像帧批量输入到卷积神经网络，卷积神经网络可以分别对图像帧中的目标物体进行检测，卷积神经网络可以将检测结果以矩阵的形式输出，该矩阵中每个元素可以为一个目标物体在图像矩阵中的坐标信息。

步骤230、按照预设边界框参数和检测结果内各目标物体的位置坐标在图像帧为目标物体生成边界框。

其中，预设边界框参数可以是在图像帧内框选目标物体的边框的配置参数，预设边界框参数可以包括边框长度、宽度、边框粗细、边框颜色、边框形状等参数，预设边界框参数可以由视频数据的属性信息确定或者由用户根据需要配置。位置坐标可以是标识目标物体的坐标信息，位置坐标具体可以为目标物体的中心点坐标、左下角坐标、右上角坐标等。

在本发明实施例中，针对各图像帧内的目标物体，可以提取各目标物体的位置坐标，可以按照该位置坐标以及预设边界框参数为各目标物体在其对应的图像帧内绘制边界框。在一个示例性的实施方式中，在各图像帧内提取被识别到的目标物体的中心点坐标，可以基于该中心点坐标以及边框的长和宽生成框选目标物体的边界框。

步骤240、提取当前图像帧的目标物体的边界框。

其中，当前图像帧可以是进行目标跟踪时需要进行处理的图像帧，当前图像帧可以按照时间顺序依次从视频数据中提取。

在本发明实施例中，可以选择出进行处理的图像帧作为当前图像帧，在该当前图像帧中提取出框选有目标物体的边界框，该提取可以包括获取边界框的位置坐标。

步骤250、基于边界框预测下一图像帧内目标物体的预测边界框。

其中，预设边界框可以是基于目标物体的运动模型预测出的边界框，预设边界框可以是在当前帧图像的下一图像帧内可能出现的边界框，预测边界框可以基于目标物体的运动模型确定，该运动模型可以包括匀速运动模型、高斯运动模型等。

具体的，可以当前帧图像中提取到的边界框进行预测确定出下一帧图像内目标物体对应的预测边界框，可以理解的是，基于边界框预测生成预测边界框的方式可以包括基于运动模型进行预测，例如，假定目标物体为匀速运动的物体，可以基于当前帧图像的边界框位置预测一帧图像中目标物体可能移动到的位置，可以将该位置生成预测边界框。

步骤260、提取下一图像帧的目标物体的边界框。

在本发明实施例中，可以按照时间顺序获取当前帧图像对应的下一图像帧，并采集下一图像帧中的边界框，可以理解的是，该边界框可以是下一图像帧内边界框的图像、位置坐标等信息。

步骤270、按照匈牙利算法规则对预测边界框和边界框进行重叠度匹配。

其中，匈牙利算法规则可以是用于将下一帧图像中预测边界框和边界框进行匹配的算法规则，匈牙利算法规则中确定预测边界框与边界框相似程度的方式可以包括欧式距离、外观相似度以及交并比(Intersection Over Union，IOU)匹配等。重叠度可以是边界框与预测边界框的相似程度，可以具体为边界框与预测边界框的欧式距离、外观相似度以及交并比等参数。

在本发明实施例中，可以按照预设设置的匈牙利算法规则对下一帧图像中各预测边界框与各边界框进行重叠度匹配，确定出不同预测边界框和边界框之间最匹配的重叠度。

步骤280、根据重叠度匹配结果调整目标物体的边界框。

其中，调整可以是对边界框的位置坐标的调整，可提高下一帧图像中目标物体跟踪的准确性。重叠度匹配结果可以是预测边界框与边界框的重叠度匹配关系，可以包括预测边界框存在匹配的边界框、预测边界框不存在匹配的边界框、边界框不存在匹配的预测边界框等重叠度匹配结果。

具体的，可以按照重叠度匹配结果的不同情况进行分类，可以包括按照预测边界框存在匹配的边界框、预测边界框不存在匹配的边界框、边界框不存在匹配的预测边界框等重叠度匹配结果等，可以针对不同重叠度匹配结果的情况采取不同的方式对目标物体的边界框进行调整，使得目标物体跟踪的准确率提升，例如，可以对于重叠度匹配的预测边界框和边界框，可以对两者进行卡尔曼滤波或者加权平均作为调整后的边界框，对于不存在重叠度匹配的预测边界框的边界框，可以将该边界框不进行调整，对于不存在重叠度匹配的边界框的预测边界框，可以将该预测边界框删除。

步骤290、在当前图像帧内为目标物体的边界框绘制标识标签。

在本发明实施例中，可以为当前图像帧内每个目标物体生成唯一的标识标签，可以在当前图像中将该标识标签位置在目标物体的边界框进行周围，例如，边界框的边角、边界框的上方、边界框的下方等，可以理解的是，每个目标物体的边角框可以具有唯一关联的标识标签，该标识标签可以用于表示不同的目标物体。

步骤2100、获取视频数据的对应采集设备标定的相机内外参数。

其中，采集设备可以是采集视频数据的设备，可以包括摄像头或摄像机等，采集设备可以存在其标定的相机内外参数，相机内外参数包括相机内参数以及相机外参数，相机内参数可以为相机自身特性相关的参数，比如相机的焦距、像素大小等，而相机外参数可以是世界坐标中的参数，比如相机位置、旋转方向等。

在本发明实施例中，可以获取与视频数据对应的采集设备标定的相机内外参数，例如，可以在视频数据的属性信息中提取相机内存参数，该相机内外参数可以用于调整视频数据的坐标系。

步骤2110、按照相机内外参数去除图像帧中的深度维度坐标以转换为鸟瞰图。

具体的，参见图3，可以使用相机内外参数对视频数据中的图像帧进行处理，将图像帧中的深度维度坐标消除，使得图像帧中的像素点可以反映真实的世界距离，将各图像帧转换为鸟瞰图。可以理解的是，使用相机内外参数去除深度维度坐标的方式可以为逆透视变换方法，将图像帧转换为鸟瞰图的逆透视变换的实现方式可以包括对应点对点的逆透视变换以及简化相机模型的逆透视变换等。

步骤2120、按照鸟瞰图与三维真实世界的距离比监测目标物体的距离参数。

其中，距离比可以是鸟瞰图中每个像素点与三维真实世界的距离之间的比例关系，该距离比可以在鸟瞰图的生成过程确定，例如，鸟瞰图中每10个像素可以对应三维真实世界中的98厘米。

在本发明实施例中，可以在基于鸟瞰图对目标物体之间的距离进行监测，可以通过将各目标物体之间的像素点转换为实际距离，从而实现对目标物体之间距离参数的监测。在一个示例性的实施方式中，可以在鸟瞰图中确定指示灯与车头的像素点，可以将该像素点基于鸟瞰图的距离比转换为真实世界的距离参数，以便智能车辆基于指示灯与车头的距离参数执行对应的决策；又例如，可以在鸟瞰图中确定路边行人之间的像素距离，可以将像素距离按照距离比确定出三维真实世界中行人之间的距离参数，智能车辆可以基于该距离参数推断行人之间的社交关系。

本发明实施例，通过获取yolov4架构下训练的Darknet网络框架实现卷积神经网络模型，将图像帧输入卷积神经网络中确定目标物体的检测结果，按照检测结果在图像帧内为目标物体生成边界框，提取当前图像帧内目标物体的边界框，基于该边界框预测出下一帧图像中的预测边界框，按照匈牙利算法规则对预测边界框和边界框进行重叠度匹配，按照重叠度匹配结果对调整目标物体的边界框，并绘制为边界框当前图像帧内绘制标识标签，获取视频数据的采集设备标定的相机内外参数，使用该相机内外参数去除各图像帧中的深度维度坐标以将图像帧转换为鸟瞰图，通过鸟瞰图中像素点与三维真实世界的距离比实现对目标物体的距离参数的监测，可减少目标物体距离监测结果的获取时间，从而提高监测结果的时效性，有助于基于距离监测结果进行决策，可提高车辆的智能化程度。

进一步的，在上述发明实施例的基础上，在所述确定所述目标物体的检测结果之后，还包括以下至少之一：

删除不存在所述目标物体的所述检测结果；确定各所述检测结果之间的重叠度，并删除其中重叠度大于阈值的所述检测结果。

在本发明实施例中，在获取目标物体的检测结果后，为了进一步降低数据处理量，可以对检测结果进行筛选，去除检测结果或者不存在目标物体的检测结果；又或者，还可以对检测结果进行去重，降低检测结果中的冗余结果。可以分别确定各检测结果之间的重叠度，该重叠度可以由两个检测结果之间的图像交并比或图像相似度确定，在存在至少两个检测结果的重叠度大于阈值情况下，可以保留其中一个检测结果删除另外一个检测结果以降低数据的冗余程度，可提高距离监测场景下的数据处理效率。

进一步的，在上述在根据所述重叠度匹配结果调整所述目标物体的边界框，包括：

若所述边界框与所述预测边界框满足重叠度匹配条件，则将所述边界框和所述预测边界框的卡尔曼滤波结果作为所述目标物体的边界框；若不存在与所述边界框满足重叠度匹配条件的所述预测边界框，则在所述边界框对应的所述目标物体至少阈值数量的所述当前图像帧出现时，将所述边界框作为所述目标物体的边界框；若不存在与所述预测边界框满足重叠匹配条件的所述边界框，则删除所述预测边界框。

其中，重叠度匹配条件可以是判断边界框与预测边界框的重叠度最小阈值，在边界框和预测边界框的重叠度大于或等于重叠度最小阈值时，可以确定边界框与预测边界框满足重叠度匹配条件。阈值数量可以是边界框在视频数据中连续出现的最小次数，该阈值数量可以预先配置。

在本发明实施例中，在边界框和预测边界框满足重叠度匹配条件的情况下，可以对边界框和预测边界框进行卡尔曼滤波，可以将卡尔曼滤波结果作为目标物体调整后的边界框。在不存在与边界框满足重叠度匹配条件的预测边界框的情况下，也即边界框为突然出现的边界框，这种情况下，可以不在当前帧图像中生成对应的标识标签，只有在该边界框出现至少三次的情况下，才将该边界框作为目标物体的边界框，此时才会为该边界框生成标识标签。在不存在与预测边界框满足重叠度匹配条件的边界框的情况下，预测边界框的生成无意义，这种情况下可以删除该预测边界框。

在一个示例性的实施方式中，目标物体可以为行人，按照所述鸟瞰图与三维真实世界的距离比监测各所述目标物体的距离参数，包括：

将至少两个所述目标物体之间的第一像素距离和所述距离比的乘积作为所述目标物体的社交距离；按照不同所述社交距离在所述视频数据的图像帧内绘制距离提示标记。

其中，第一像素距离可以是鸟瞰图内不同行人之间的像素点的个数，社交距离可以是不同行人之间的距离。距离提示标记可以是区分不同社交距离的标记，例如，当行人之间的距离大于2米时，距离提示标记为绿色框，当行人之间的距离小于2米时，距离提示标记为红色框，当行人可以为朋友或者家人时，距离提示标记可以为黄色框。

具体的，可以对提取各鸟瞰图中不同行人之间的像素点的个数作为第一像素距离，可以确定第一像素距离与距离比的乘积作为对应两个行人之间的社交距离，可以基于该社交距离判断行人之间的关系，可以按照该关系生成不同的距离提示标记，可以在视频数据的图像帧内为对应的行人绘制不同的距离提示标记，其中，该距离提示标记的形状、颜色以及标记方式在此不作限制，例如，可以在图像帧内为社交距离小于2米的行人绘制红色提示框，可为图像帧内社交距离大于2米的行人绘制绿色提示框。

实施例三

本发明实施例以行人的社交距离监测为例，通过车辆对摄像头采集到的图像数据进行处理实现周围行人的社交距离监测，该物体距离监测方法具体包括如下步骤：

第一步，参见图4，数据预处理所示：

步骤1，首先Darknet.py解析，判断os.name＝＝”nt”，如果是GPU环境则加载lib.CDLL，实现对yolov4架构下训练的Darknet网络框架使用。

步骤2，然后基于lib.copy_image_from_bytes函数定义了box类数据结构来表示行人的边界框坐标。

步骤3，定义检测器detection来表示进行行人检测以后的返回值信息，定义network_width以标识返回网络宽度。

步骤4，定义network_height返回网络高度，定义bbox2point表示边界框坐标值转化，从yolo格式转化成corner point格式。

步骤5，定义load_network加载网络模型，定义detect_image(network,class_names,image,thresh＝0.5，nms＝0.45)根据网络模型设定参数，返回具有最高置信度类别和边界框。

第二步，参见图4，训练预设目标监测模型：

步骤6，通过get_network_boxes返回detections，通过do_nms_sort进行非极大抑制，以去除无行人的检测结果以及重复的检测结果，然后通过remove_negative和decode_detections返回坐标值。

步骤7，test_yolov4.py解析，network，class_names,class_colors＝load_network()，deepsocial.weights可以进行80个类别检测。

步骤8，然后调用network_width和network_height，返回608*608的分辨率。

步骤9，然后调用darknet_helper在图像上执行detection，返回检测结果。

步骤10，修改数据加载过程，get_eval_loader加载网络结构初始化权重值。

步骤11，调用make_image(width，height,3)返回darknet_image，用cv2.cvColor进行色泽的转变，以实现不同社交距离的标记。

步骤12，然后将boundingbox宽高进行处理获得image ratios，调用copy_image_from_byte函数指针。

第三步，参见图5，感知评测，前向传播：

步骤13，调用detect_image，free_image调用darknet库函数进行处理。调用free_image，返回detectioons,width_ratio,height_ratio。

步骤14，解析Sort.py，定义linear_assighment，传入cost代价矩阵，从scipy.optimize导入linear_sum_assignment，定义convert_box算出边界框的x,y,w,h，定义F为状态转移矩阵，R为检测器噪声矩阵，H为测量矩阵，P为track在k-1时刻的协方差，Q为系统噪声矩阵。

步骤15，解析Deepsocial.py，从itertools导入combinations，创建一个迭代器返回iterable所有长度为r的子序列，定义find_zone(centroi d_dict，greenzone，redzone,criterial)划分红区和绿区。

步骤16，调用combinations函数，如果idx不在红区，则调用到绿区。然后定义find_redGroups，通过birds_eye实例化e的对象，通过逆透视变换得到鸟瞰图。

步骤17，如果是couples会构造yellowzone区域，下面是Apply_ellipticbound，调用cv2.addWeighted()，结果图像＝图像1*系数1+图像2*系数2+亮度调节量，通过cv2.rectangle画不同柱子的颜色。

步骤18，遍历centroid_dict.items()，找到center_bird(box[0]，box[1])，调用cv2.add(heat,new)。然后调用cv2.getPerspectiveTransform()，进行透视变换和逆透视变换。

第四步，参见图5，模型网络推理预测：

步骤19，定义convrt2Bird函数，调用cv2.warPerspective(transferT2B)，定义projection_on_bird，调用convertBack进行坐标值格式变化，转化成xmin，ymin，xmax，ymax，然后checkupArea，给定一个点是不是在特定区域，定义center_of_2box。

步骤20，解析Yolov4_deepsocial.py，Network,class_names,class_colors＝load_network()，然后通过width＝network_width()，height＝network_height()，通过mot_tracker＝sort(max_age,min_hits,iou_threshold)，实例化获得跟踪器，定义extract_humans，定义ColorGenerator，调用VisualiseResult，使用applyColorMap，使用伪彩色生成热力图。。

步骤21，使用cv2.addWeighted()使用图像加权融合，接着对视频处理，使用cv2.videocapture()，获得每一帧的宽和高，获得redzone和greenzone，看是否执行CouplesDetection，调用find_relation，find_couples，find_redgroups，调用apply_trackmap。最终每个人划分成三个类别，分别是Safe(由绿色框表示)，High-risk(由红色框表示)，Potencially risky(由黄圈表示)，采用逆透视映射和匈牙利目标跟踪算法，跟踪行人移动的规律。

本发明实施例实现了行人社交距离的多目标跟踪检测，将多目标跟踪问题转换为数据关联问题，采样卷积神经网络的检测器，基于卡尔曼滤波和匈牙利算法实现预测数据与检测数据的匹配，再将三维世界的三维坐标(x,y,z)变成二维坐标(x,y)，根据摄像头标定进行逆透视变换来去除z维值，要把二维的像素点(u,v)映射到世界坐标系(X,Y,Z)，使得行人社交距离的监测的准确性提高。

实施例四

图6是根据本发明实施例四提供的一种物体距离监测装置的结构示意图。如图6所示，该装置包括：

物体识别模块301，用于基于预设目标监测模型在视频数据的图像帧中识别目标物体.

标识生成模块302，用于根据预设目标跟踪规则确定所述目标物体的识别标签并跟踪所述目标物体。

距离监测模块303，用于根据所述图像帧的鸟瞰图监测所述目标物体对应的距离参数。

本发明实施例的技术方案，通过物体识别模块使用预设监测模型提取视频数据中各图像帧的目标物体，标识生成模块为目标物体生成识别标签并进行跟踪，距离监测模块按照图像帧对应的鸟瞰图确定跟踪的目标物体的距离参数，本发明实施例通过对目标物体的跟踪并在鸟瞰图中对目标物体进行距离参数的监测，可减少目标物体距离监测结果的获取时间，从而提高监测结果的时效性，有助于基于距离监测结果进行决策，可提高车辆的智能化程度。

进一步的，在上述发明实施例的基础上，物体识别模块301包括：

模型提取单元，用于提取在yolov4架构下训练的Darknet网络框架的卷积神经网络模型作为所述预设目标监测模型。

检测结果单元，用于将所述视频数据的至少一个所述图像帧输入到所述卷积神经网络以确定所述目标物体的检测结果。

边界框单元，用于按照预设边界框参数和所述检测结果内各所述目标物体的位置坐标在所述图像帧为所述目标物体生成边界框。

进一步的，在上述发明实施例的基础上，物体识别模块301还包括：

结果处理单元，用于删除不存在所述目标物体的所述检测结果；确定各所述检测结果之间的重叠度，并删除其中重叠度大于阈值的所述检测结果。

进一步的，在上述发明实施例的基础上，标识生成模块302包括：

第一边框提取单元，用于提取当前图像帧的所述目标物体的边界框。

边框预测单元，用于基于所述边界框预测下一图像帧内所述目标物体的预测边界框。

第二边框提取单元，用于提取所述下一图像帧的所述目标物体的边界框。

边框匹配单元，用于按照匈牙利算法规则对所述预测边界框和所述边界框进行重叠度匹配。

边框调整单元，用于根据所述重叠度匹配结果调整所述目标物体的边界框。

标签绘制单元，用于在所述当前图像帧内为所述目标物体的所述边界框绘制标识标签。

进一步的，在上述发明实施例的基础上，边框调整单元具体用于：若所述边界框与所述预测边界框满足重叠度匹配条件，则将所述边界框和所述预测边界框的卡尔曼滤波结果作为所述目标物体的边界框；若不存在与所述边界框满足重叠度匹配条件的所述预测边界框，则在所述边界框对应的所述目标物体至少阈值数量的所述当前图像帧出现时，将所述边界框作为所述目标物体的边界框；若不存在与所述预测边界框满足重叠匹配条件的所述边界框，则删除所述预测边界框。

进一步的，在上述发明实施例的基础上，距离监测模块303具体用于：

标定参数单元，用于获取所述视频数据的对应采集设备标定的相机内外参数。

图像映射单元，用于按照所述相机内外参数去除所述图像帧中的深度维度坐标以转换为所述鸟瞰图。

监测执行单元，用于按照所述鸟瞰图与三维真实世界的距离比监测所述目标物体的距离参数。

进一步的，在上述发明实施例的基础上，监测执行单元具体用于：将至少两个所述目标物体之间的第一像素距离和所述距离比的乘积作为所述目标物体的社交距离；按照不同所述社交距离在所述视频数据的图像帧内绘制距离提示标记。

本发明实施例所提供的物体距离检测装置可执行本发明任意实施例所提供的物体距离检测方法，具备执行方法相应的功能模块和有益效果。

实施例五

图7是实现本发明实施例的行人社交距离监测方法的电子设备的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图7所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如物体距离监测方法。

在一些实施例中，物体距离监测方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的物体距离监测方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行物体距离监测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种物体距离监测方法，其特征在于，包括：

2.根据权利要求1所述方法，其特征在于，所述基于预设目标监测模型在视频数据的图像帧中识别目标物体，包括：

提取在yolov4架构下训练的Darknet网络框架的卷积神经网络模型作为所述预设目标监测模型；

将所述视频数据的至少一个所述图像帧输入到所述卷积神经网络以确定所述目标物体的检测结果；

按照预设边界框参数和所述检测结果内各所述目标物体的位置坐标在所述图像帧为所述目标物体生成边界框。

3.根据权利要求2所述方法，其特征在于，在所述确定所述目标物体的检测结果之后，还包括以下至少之一：

删除不存在所述目标物体的所述检测结果；

确定各所述检测结果之间的重叠度，并删除其中重叠度大于阈值的所述检测结果。

4.根据权利要求1所述方法，其特征在于，所述根据预设目标跟踪规则确定所述目标物体的识别标签并跟踪所述目标物体，包括：

提取当前图像帧的所述目标物体的边界框；

基于所述边界框预测下一图像帧内所述目标物体的预测边界框；

提取所述下一图像帧的所述目标物体的边界框；

按照匈牙利算法规则对所述预测边界框和所述边界框进行重叠度匹配；

根据所述重叠度匹配结果调整所述目标物体的边界框；

在所述当前图像帧内为所述目标物体的所述边界框绘制标识标签。

5.根据权利要求4所述方法，其特征在于，在根据所述重叠度匹配结果调整所述目标物体的边界框，包括：

若所述边界框与所述预测边界框满足重叠度匹配条件，则将所述边界框和所述预测边界框的卡尔曼滤波结果作为所述目标物体的边界框；

若不存在与所述边界框满足重叠度匹配条件的所述预测边界框，则在所述边界框对应的所述目标物体至少阈值数量的所述当前图像帧出现时，将所述边界框作为所述目标物体的边界框；

若不存在与所述预测边界框满足重叠匹配条件的所述边界框，则删除所述预测边界框。

6.根据权利要求1所述方法，其特征在于，所述根根据所述图像帧的鸟瞰图监测所述目标物体对应的距离参数，包括：

获取所述视频数据的对应采集设备标定的相机内外参数；

按照所述相机内外参数去除所述图像帧中的深度维度坐标以转换为所述鸟瞰图；

按照所述鸟瞰图与三维真实世界的距离比监测所述目标物体的距离参数。

7.根据权利要求6所述方法，其特征在于，所述按照所述鸟瞰图与三维真实世界的距离比监测各所述目标物体的距离参数，包括：

将至少两个所述目标物体之间的第一像素距离和所述距离比的乘积作为所述目标物体的社交距离；

按照不同所述社交距离在所述视频数据的图像帧内绘制距离提示标记。

8.一种物体距离检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的物体距离监测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-4中任一项所述的物体距离监测方法。