CN111753757B

CN111753757B - 一种图像识别处理方法及装置

Info

Publication number: CN111753757B
Application number: CN202010598996.6A
Authority: CN
Inventors: 李冬冬; 李乾坤; 卢维; 殷俊; 沈达飞; 方勇军
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2021-06-18
Anticipated expiration: 2040-06-28
Also published as: CN111753757A

Abstract

本发明提供了一种图像识别处理方法及装置，其中，该方法包括：获取相同时间采集的视频图像和雷达数据；将所述雷达数据转换为虚拟雷达图像；将所述虚拟雷达图像与所述视频图像进行合并，得到合并后的目标图像；根据预先训练好的目标神经网络模型确定所述目标图像对应的目标识别结果，可以解决相关技术中基于摄像头采集的视频图像进行目标检测，对于远离摄像头的目标，检测和识别概率低的问题，结合雷达数据和视频数据，提高了远离摄像头的目标的检测概率和识别概率，还可以通过雷达数据获得目标的量测信息。

Description

一种图像识别处理方法及装置

技术领域

本发明涉及图像处理领域，具体而言，涉及一种图像识别处理方法及装置。

背景技术

安防越来越受到公众的重视，安防产品也层出不穷，安防应用领域也不断扩展，安防技术也迅速发展。基于毫米波雷达的区域监视技术是最近五年研究的一大热点。传统的安防终端器材主要是可见光摄像机，但是可见光摄像机在较远距离对目标的识别准确率相对于近距离目标准确率较低，即目标在监控区域内的准确度不一致(甚至存在显著差别)。此外光学传感器也受天气影响，大雾天或雨雪天，监控效果无法令人满意。如公园、工地、十字路口、道路、园区出入口、闸机等。描述园区出入口示意图，若突然间在稀疏树木后面出现一个行人，由于存在忽隐忽现的遮挡，视频图像的检测概率有所减低，也无法准确识别目标。

针对相关技术中基于摄像头采集的视频图像进行目标检测，对于远离摄像头的目标，检测和识别概率低的问题，尚未提出解决方案。

发明内容

本发明实施例提供了一种图像识别处理方法及装置，以至少解决相关技术中基于摄像头采集的视频图像进行目标检测，对于远离摄像头的目标，检测和识别概率低的问题。

根据本发明的一个实施例，提供了一种图像识别处理方法，包括：

获取相同时间采集的视频图像和雷达数据；

将所述雷达数据转换为虚拟雷达图像；

将所述虚拟雷达图像与所述视频图像进行合并，得到合并后的目标图像；

根据预先训练好的目标神经网络模型确定所述目标图像对应的目标识别结果。

可选地，将所述虚拟雷达图像与所述视频图像进行合并，得到合并后的目标图像包括：

对所述虚拟雷达图像进行检测，得到一个或多个目标；

对所述视频图像进行目标检测，得到多个疑似目标，并输出所述多个疑似目标的目标框，在所述视频图像中标记所述多个疑似目标；

将所述视频图像的多个疑似目标与所述虚拟雷达图像的一个或多个目标进行匹配；

根据匹配的结果将所述虚拟雷达图像与所述视频图像进行合并，得到合并后的所述目标图像。

可选地，将所述雷达数据转换为虚拟雷达图像包括：

将所述雷达数据的量测区域进行栅格化处理；

将所述雷达数据的雷达反射面积RCS类比于RGB图像中的R通道，径向速度类比于RGB图像中的G通道，转换为二通道的雷达数据图；

根据相机成像原理，将所述雷达数据图中的雷达量测点映射为所述虚拟雷达图像。

将所述虚拟雷达图像进行归一化处理，其中，将所述虚拟雷达图像的所述RCS与所述径向速度归一化到[0，255]区间；

将归一化后的所述虚拟雷达图像与所述视频图像进行合并，得到合并后的目标图像，其中，所述目标图像为五通道图像。

可选地，根据预先训练好的目标神经网络模型确定所述目标图像对应的目标识别结果包括：

将所述目标图像输入预先训练好的目标神经网络模型中，得到所述目标神经网络模型输出的所述目标图像对应每种识别结果的概率，其中，所述概率大于预设阈值的识别结果确定为目标识别结果。

可选地，在根据预先训练好的目标神经网络模型确定所述目标图像对应的目标识别结果之前，所述方法还包括：

获取预定数量的相同时间采集的视频图像和雷达数据；

分别将所述雷达数据转换为虚拟雷达图像；

分别将相同时间采集的所述虚拟雷达图像与所述视频图像进行合并，得到所述预定数量的合并图像，并获取所述合并图像实际对应的识别结果；

使用所述预定数量的合并图像、以及所述合并图像实际对应的识别结果对原始神经网络模型进行训练，得到所述目标神经网络模型，其中，所述预定数量的合并图像为所述原始神经网络模型的输入，训练好的所述目标神经网络模型输出的所述目标图像对应的目标识别结果与所述目标图像实际对应的识别结果满足目标函数。

可选地，所述目标识别结果包括：目标类型、强度信息、运动速度信息以及空间位置信息。

根据本发明的另一个实施例，还提供了一种图像识别处理装置，包括：

获取模块，用于获取相同时间采集的视频图像和雷达数据；

第一转换模块，用于将所述雷达数据转换为虚拟雷达图像；

第一合并模块，用于将所述虚拟雷达图像与所述视频图像进行合并，得到合并后的目标图像；

确定模块，用于根据预先训练好的目标神经网络模型确定所述目标图像对应的目标识别结果。

可选地，所述第一合并模块包括：

第一检测子模块，用于对所述虚拟雷达图像进行检测，得到一个或多个目标；

第二检测子模块，用于对所述视频图像进行目标检测，得到多个疑似目标，并输出所述多个疑似目标的目标框，在所述视频图像中标记所述多个疑似目标；

匹配子模块，用于将所述视频图像的多个疑似目标与所述虚拟雷达图像的一个或多个目标进行匹配；

第一合并子模块，用于根据匹配的结果将所述虚拟雷达图像与所述视频图像进行合并，得到合并后的所述目标图像。

可选地，所述第一转换模块包括：

处理子模块，用于将所述雷达数据的量测区域进行栅格化处理；

转换子模块，用于将所述雷达数据的雷达反射面积RCS类比于RGB图像中的R通道，径向速度类比于RGB图像中的G通道，转换为二通道的雷达数据图；

映射子模块，用于根据相机成像原理，将所述雷达数据图中的雷达量测点映射为所述虚拟雷达图像。

可选地，所述第一合并模块包括：

归一化子模块，用于将所述虚拟雷达图像进行归一化处理，其中，将所述虚拟雷达图像的所述RCS与所述径向速度归一化到[0，255]区间；

第二合并子模块，用于将归一化后的所述虚拟雷达图像与所述视频图像进行合并，得到合并后的目标图像，其中，所述目标图像为五通道图像。

可选地，所述确定模块，还用于

可选地，所述装置还包括：

获取模块，用于获取预定数量的相同时间采集的视频图像和雷达数据；

第二转换模块，用于分别将所述雷达数据转换为虚拟雷达图像；

第二合并模块，用于分别将相同时间采集的所述虚拟雷达图像与所述视频图像进行合并，得到所述预定数量的合并图像，并获取所述合并图像实际对应的识别结果；

训练模块，用于使用所述预定数量的合并图像、以及所述合并图像实际对应的识别结果对原始神经网络模型进行训练，得到所述目标神经网络模型，其中，所述预定数量的合并图像为所述原始神经网络模型的输入，训练好的所述目标神经网络模型输出的所述目标图像对应的目标识别结果与所述目标图像实际对应的识别结果满足目标函数。

根据本发明的又一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，获取相同时间采集的视频图像和雷达数据；将所述雷达数据转换为虚拟雷达图像；将所述虚拟雷达图像与所述视频图像进行合并，得到合并后的目标图像；根据预先训练好的目标神经网络模型确定所述目标图像对应的目标识别结果，可以解决相关技术中基于摄像头采集的视频图像进行目标检测，对于远离摄像头的目标，检测和识别概率低的问题，结合雷达数据和视频数据，提高了远离摄像头的目标的检测概率和识别概率，还可以通过雷达数据获得目标的量测信息。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的图像识别处理方法的移动终端的硬件结构框图；

图2是根据本发明实施例的图像识别处理方法的流程图；

图3是根据本发明实施例的基于视频和雷达数据的目标识别方法的流程图；

图4是根据本发明实施例的雷达数据的点云示意图；

图5是根据本发明实施例的雷达数据图的示意图；

图6是根据本发明实施例的图像识别处理装置的框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的图像识别处理方法的移动终端的硬件结构框图，如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的报文接收方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端或网络架构的图像识别处理方法，图2是根据本发明实施例的图像识别处理方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取相同时间采集的视频图像和雷达数据；

步骤S204，将所述雷达数据转换为虚拟雷达图像；

步骤S206，将所述虚拟雷达图像与所述视频图像进行合并，得到合并后的目标图像；

进一步的，上述步骤S206具体可以包括：对所述虚拟雷达图像进行检测，得到一个或多个目标；对所述视频图像进行目标检测，得到多个疑似目标，并输出所述多个疑似目标的目标框，在所述视频图像中标记所述多个疑似目标；将所述视频图像的多个疑似目标与所述虚拟雷达图像的一个或多个目标进行匹配；根据匹配的结果将所述虚拟雷达图像与所述视频图像进行合并，得到合并后的所述目标图像。

步骤S208，根据预先训练好的目标神经网络模型确定所述目标图像对应的目标识别结果。

进一步的，上述步骤S208具体可以包括：

本发明实施例中，上述的目标识别结果包括：目标类型、强度信息、运动速度信息以及空间位置信息。

通过上述步骤S202至S208，获取相同时间采集的视频图像和雷达数据；将所述雷达数据转换为虚拟雷达图像；将所述虚拟雷达图像与所述视频图像进行合并，得到合并后的目标图像；根据预先训练好的目标神经网络模型确定所述目标图像对应的目标识别结果，可以解决相关技术中基于摄像头采集的视频图像进行目标检测，对于远离摄像头的目标，检测和识别概率低的问题，结合雷达数据和视频数据，提高了远离摄像头的目标的检测概率和识别概率，还可以通过雷达数据获得目标的量测信息。

本发明实施例中，上述步骤S204具体可以包括：

将所述雷达数据的量测区域进行栅格化处理；

进一步的，上述步骤S206具体可以包括：

本发明实施例中，在根据预先训练好的目标神经网络模型确定所述目标图像对应的目标识别结果之前，获取预定数量的相同时间采集的视频图像和雷达数据；分别将所述雷达数据转换为虚拟雷达图像；分别将相同时间采集的所述虚拟雷达图像与所述视频图像进行合并，得到所述预定数量的合并图像，并获取所述合并图像实际对应的识别结果；使用所述预定数量的合并图像、以及所述合并图像实际对应的识别结果对原始神经网络模型进行训练，得到所述目标神经网络模型，其中，所述预定数量的合并图像为所述原始神经网络模型的输入，训练好的所述目标神经网络模型输出的所述目标图像对应的目标识别结果与所述目标图像实际对应的识别结果满足目标函数。

图3是根据本发明实施例的基于视频和雷达数据的目标识别方法的流程图，如图3所示，包括：

S301，采集视频帧和雷达帧数据，该采集过程数据延迟对自动标注结果存在显著影响。从设备终端(图像传感器和雷达传感器)到SOC(计算机处理器)中间节点尽可能少(提高数据传输效率，减小时间延迟)，跳转第2。

S302，时间同步，时间同步可分为软件时间同步和硬件时间同。软件时间同步方法，误差较大，但成本低、灵活可配置。硬件时间同步方法，误差较小，但成本高、需额外设计电路，不易修改。针对低速目标跟踪场景，建议采用软件时间同步方法；针对高速目标跟踪场景，建议采用硬件时间同步方法，跳转到步骤S303。

S303，雷达数据可视化，跳转到步骤S304步和到步骤S306。图4是根据本发明实施例的雷达数据的点云示意图，如图4所示，雷达量测的空间位置关系，RCS和RadialSpeed尚未在图中显示。雷达数据可视化即对量测区域栅格化，并将RCS类比于RGB图像中的红色通道，RadialSpeed类比于RGB图像中的绿色通道，进而构建2通道雷达数据图。RCS范围是0～2000，大部分集中在0～20之间，可采用对数缩放RCS数据，然后再min-max归一化RCS数据至0-255区间。RadialSpeed范围是-10～10之间，目标速度在此区间分布较均匀，因此可采用min-max归一化至0～255区间。

图5是根据本发明实施例的雷达数据图的示意图，如图5所示，由雷达点云数据转换为雷达数据图，雷达数据图可以用于识别目标对象。

S304，视频目标检测，基于纯视频图像，执行目标检测过程，基于现有的视频目标检测模块，设置较低阈值，获得多个疑似目标，跳转到步骤S305。

S305，输出视频疑似目标图像序列(对应上述的目标框)，假设到步骤S304步检测出多个疑似目标，则将多个疑似目标在原图中标记其位置(通常采用矩形框标记)，跳转到步骤S308。

S306，多帧目标检测，得到目标轨迹，身份类型，ID，目标的强度信息、空间位置(X,Y)、速度、估计误差)。针对雷达数据，采用轨迹起始方法，确定一个或多个目标(每一个目标附带空间位置信息、速度信息、强度信息以及各自误差)，跳转到步骤S307。

S307，雷达数据图转换成虚拟雷达图像(雷达数据图是等分辨率的，虚拟雷达图像是近大远小，从相机视角看雷达检测目标)。目的是服务于视频数据和雷达数据融合。依据相机成像原理，将世界坐标系下的雷达量测值(雷达数据图转换为虚拟雷达图像)形成一张虚拟雷达图像。需特别注意的是，一个雷达量测点是点信息，附加上雷达平面中的高斯椭圆误差，进而可映射为虚拟雷达图像中的一块区域，跳转到步骤S308。

S308，在虚拟雷达图像中标记。基于步骤S307所获得图像区域，在虚拟雷达图像中标记目标轨迹，一般采用椭圆形标记，跳转到步骤S309。

S309，图像中目标匹配，虚拟雷达图像和视频图像分辨率不同，首先需对虚拟雷达图像的差值(如，高斯平滑差值)，获得与视频图像分辨率相同的图像；然后将视频图像中的矩形目标框与虚拟雷达图像中的目标框匹配，匹配方法通常采用基于空间位置的匹配方法，跳转到步骤S310。

S310，针对雷达图像归一化，由于雷达数据图是二通道数据，分别存储的RCS图和RadialSpeed图。RCS的值区域是0-2000，RadialSpeed的值区域是-10～10。针对RCS首先进行对数运算，进而采用min-max归一化；针对RadialSpeed采用min-max归一化。归一化之后，RCS值和RadialSpeed的值均在[0，255]区间，跳转到步骤S311。

S311，雷达数据图像和视频图像合并，视频图像是3通道图像，雷达数据图是2通道图像，可将二者合并为一个5通道图像。跳转到步骤S312。

S312，深度学习网络进行目标识别，针对5通道图像，采用深度学习网络对目标识别，进而获得准确度更高，目标类别更细致的效果。跳转到步骤S313。

S313，输出目标识别结果，不仅仅可以输出目标的类别，还可以输出算法处理结果，包括目标类别、目标的强度信息RCS，运动速度信息和空间位置信息。

通过本发明实施例，雷达和视频高层次数据融合，更高精度的目标识别率，更全面的目标信息，如速度、位置、目标类别；适应于多种环境和情形，如光照不良、远距离识别目标、稀疏树木遮挡。

实施例2

根据本发明的另一个实施例，还提供了一种图像识别处理装置，图6是根据本发明实施例的图像识别处理装置的框图，如图6所示，包括：

获取模块62，用于获取相同时间采集的视频图像和雷达数据；

第一转换模块64，用于将所述雷达数据转换为虚拟雷达图像；

第一合并模块66，用于将所述虚拟雷达图像与所述视频图像进行合并，得到合并后的目标图像；

确定模块68，用于根据预先训练好的目标神经网络模型确定所述目标图像对应的目标识别结果。

可选地，所述第一合并模块66包括：

可选地，所述第一转换模块66包括：

可选地，所述第一合并模块66包括：

可选地，所述确定模块68，还用于

可选地，所述装置还包括：

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取相同时间采集的视频图像和雷达数据；

S2，将所述雷达数据转换为虚拟雷达图像；

S3，将所述虚拟雷达图像与所述视频图像进行合并，得到合并后的目标图像；

S4，根据预先训练好的目标神经网络模型确定所述目标图像对应的目标识别结果。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例4

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取相同时间采集的视频图像和雷达数据；

S2，将所述雷达数据转换为虚拟雷达图像；

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像识别处理方法，其特征在于，包括：

获取相同时间采集的视频图像和雷达数据；

将所述雷达数据转换为虚拟雷达图像，包括：将所述雷达数据的量测区域进行栅格化处理；将所述雷达数据的雷达反射面积RCS类比于RGB图像中的R通道，径向速度类比于RGB图像中的G通道，转换为二通道的雷达数据图；根据相机成像原理，将所述雷达数据图中的雷达量测点映射为所述虚拟雷达图像；

2.根据权利要求1所述的方法，其特征在于，将所述虚拟雷达图像与所述视频图像进行合并，得到合并后的目标图像包括：

对所述虚拟雷达图像进行检测，得到一个或多个目标；

3.根据权利要求1所述的方法，其特征在于，将所述虚拟雷达图像与所述视频图像进行合并，得到合并后的目标图像包括：

4.根据权利要求1所述的方法，其特征在于，根据预先训练好的目标神经网络模型确定所述目标图像对应的目标识别结果包括：

5.根据权利要求1所述的方法，其特征在于，在根据预先训练好的目标神经网络模型确定所述目标图像对应的目标识别结果之前，所述方法还包括：

获取预定数量的相同时间采集的视频图像和雷达数据；

分别将所述雷达数据转换为虚拟雷达图像；

6.根据权利要求1至5中任一项所述的方法，其特征在于，

所述目标识别结果包括：目标类型、强度信息、运动速度信息以及空间位置信息。

7.一种图像识别处理装置，其特征在于，包括：

获取模块，用于获取相同时间采集的视频图像和雷达数据；

第一转换模块，用于将所述雷达数据转换为虚拟雷达图像；

确定模块，用于根据预先训练好的目标神经网络模型确定所述目标图像对应的目标识别结果；

其中，所述第一转换模块包括：

8.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6中任一项所述的方法。