CN113963289A

CN113963289A - 目标检测方法、装置、电子设备及存储介质

Info

Publication number: CN113963289A
Application number: CN202111123569.3A
Authority: CN
Inventors: 陈海波
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2022-01-21

Abstract

本申请提供了一种目标检测方法、装置、电子设备及计算机可读存储介质。目标检测方法包括：获取用于进行图像识别训练的图像数据集；设计特征提取模型特征金字塔网络和一阶段的注意力机制模型；对特征金字塔网络和注意力机制模型进行模型融合得到目标检测模型，并通过利用数据集进行测试增强，完成目标检测模型的训练；以及利用目标检测模型对待检测的图像进行目标检测。由此能够更好对待检测的图像进行目标检测，在确保检测能力的同时降低计算量。即根据本发明能够在计算量较少的情况下更好地检测图片中的目标。

Description

目标检测方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术和工业检测技术领域，尤其涉及目标检测方法、装置、设备及计算机可读存储介质。

背景技术

目标检测具有很高的研究价值和广阔的应用前景，广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，通过计算机视觉减少对人力资本的消耗，具有重要的现实意义。因此，目标检测也就成为了近年来理论和应用的研究热点，它是图像处理和计算机视觉学科的重要分支，也是智能监控系统的核心部分，同时目标检测也是泛身份识别领域的一个基础性的算法，对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。

目标检测既是计算机视觉领域要解决的基础任务之一，同时它也是视频监控技术的基本任务。由于视频中的目标具有不同姿态且经常出现遮挡、其运动具有不规则性，同时考虑到监控视频的景深、分辨率、天气、光照等条件和场景的多样性，而且目标检测算法的结果将直接影响后续的跟踪、动作识别和行为描述的效果，故即使在技术发展的今天，目标检测这一基本任务仍然是非常具有挑战性的课题，存在很大的提升潜力和空间。

发明内容

本申请的目的在于提供目标检测方法、装置、电子设备及计算机可读存储介质，实现智能目标检测，操作简单。

本申请的目的采用以下技术方案实现：

第一方面，本申请提供了一种目标检测方法，所述方法包括：获取用于进行图像识别训练的图像数据集；

设计特征提取模型特征金字塔网络和一阶段的注意力机制模型；

对所述特征金字塔网络和注意力机制模型进行模型融合得到目标检测模型，并通过利用所述数据集进行测试增强，完成目标检测模型的训练；以及

利用所述目标检测模型对待检测的图像进行目标检测。

该技术方案的有益效果在于，在FPN中加入Transform模块来解决local操作无法看清全局的情况，为后面的层带去更丰富的信息，且本发明用多层transf ormer代替单层transformer，能够提供更强大的特征提取能力。由此能够更好对待检测的图像进行目标检测，在确保检测能力的同时降低计算量。即根据本发明能够在计算量较少的情况下更好地检测图片中的目标。

在一些可选的实施例中，在利用所述数据集完成所述目标检测模型的训练时，对所述图像数据集中的图像进行均一化。

该技术方案的有益效果在于，通过对图像数据集中的图像进行均一化，从而能够去除图片中光照和阴影的影响，能够避免目标检测时出现的问题，更好地对图片进行检测。

在一些可选的实施例中，对所述图像数据集中的图像做对比度增强，通过对图像进行镜像翻转来实现所述对比度增强；且/或通过对图像随机裁剪部分图像来实现所述对比度增强；且/或通过图像数据之间的复制粘贴来实现所述对比度增强。该技术方案的有益效果在于，通过对图像做对比度增强，从而能够更好地识别图片的特征，更好地对图片进行目标检测。

在一些可选的实施例中，所述特征金字塔网络包括自底向上的路径以及自顶向下的路径和侧向连接。

在一些可选的实施例中，所述自底向上的路径是前馈主干网络的一部分，每一级往上用step＝2的降采样。

在一些可选的实施例中，所述自顶向下的路径通过上采样的方式将顶层的小特征图放大到上一级的特征图的大小。

在一些可选的实施例中，所述图像数据集中的图像的最大边不超过1400像素、最短边不超过800像素，在对所述目标检测模型进行训练的过程中，随机地扩张图片。该技术方案的有益效果在于，能够更好地利用图片中的特征，更好地进行目标检测。

在一些可选的实施例中，所述方法还包括：通过车载摄像机获取车辆前方图像来作为所述待检测的图像。根据该技术方案，能够利用本发明的目标检测方法来更好地辅助车辆的驾驶，例如，在车辆为自动驾驶车辆的情况下，能够使车辆更好地检测车辆前方的物体。

第二方面，本申请提供了一种目标检测装置，所述装置包括：获取模块，用于获取用于进行图像识别训练的图像数据集；

模型设计模块，用于设计特征提取模型特征金字塔网络和一阶段的注意力机制模型；

训练模块，用于对所述特征金字塔网络和注意力机制模型进行模型融合得到目标检测模型，并通过利用所述数据集进行测试增强，完成目标检测模型的训练；以及

目标检测模块，用于利用所述目标检测模型对待检测的图像进行目标检测。

在一些可选的实施例中，在一些可选的实施例中，对所述图像数据集中的图像做对比度增强，通过对图像进行镜像翻转来实现所述对比度增强；且/或通过对图像随机裁剪部分图像来实现所述对比度增强；且/或通过图像数据之间的复制粘贴来实现所述对比度增强。

在一些可选的实施例中，所述图像数据集中的图像的最大边不超过1400像素、最短边不超过800像素，在对所述目标检测模型进行训练的过程中，随机地扩张图片。

在一些可选的实施例中，所述方法还包括：通过车载摄像机获取车辆前方图像来作为所述待检测的图像。

第三方面，本申请提供了一种电子设备，所述电子设备包括存储器、处理器以及用于执行任务的硬件模组，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项方法的步骤。

附图说明

下面结合附图和实施例对本申请进一步说明。

图1是本申请实施例提供的一种目标检测方法的流程示意图；

图2是特征提取模型特征金字塔网络的结构图；

图3是一阶段的注意力机制模型的结构图；

图4是本申请实施例提供的一种目标检测装置的结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图；

图6是本申请实施例提供的一种用于实现目标检测方法的程序产品的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本申请做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

本发明的目标检测方法例如可以应用于自动驾驶车辆，通过搭载于自动驾驶车辆的摄像机拍摄车辆前方的场景，并对摄像机得到的图像应用本发明的目标检测方法，从而能够掌握车辆前方的物体的存在。例如可以通过将本发明的目标检测装置、电子设备及存储介质安装于自动驾驶车辆从而对车载的摄像机拍摄的车辆前方图像进行目标检测分析。本发明的目标检测方法当然也可以应用于其他需要进行目标检测的领域。

具体地，参见图1，本申请实施例提供了一种目标检测方法，所述方法包括步骤S101～S104。

步骤S101：获取用于进行图像识别训练的图像数据集。在一具体实施方式中，该用于进行图像识别训练的图像数据集可以是COCO数据集(Common Objects in Context)。COCO数据集是微软团队提供的一个可以用来进行图像识别的数据集。该COCO数据集例如通过网络从服务器获取。可以理解，该用于进行图像识别训练的图像数据集也可以是其他数据集，例如，也可以是过往进行目标检测所积累的图片的数据集。

在一具体实施方式中，图像数据集中的图像的最大边不超过1400像素、最短边不超过800像素。在对所述目标检测模型进行训练的过程中，随机地扩张图片。

步骤S102：设计特征提取模型特征金字塔网络(FPN)和一阶段的注意力机制模型。

参见图2，在一具体实施方式中，FPN金字塔模型结构如包括：Bottom-uppathway(自底向上的路径)；以及Up-bottom pathway and lateral connections(自顶向下的路径和侧向连接)。

(1).关于Bottom-up pathway(自底向上的路径)

前馈Backbone(主干网络)的一部分，每一级往上用step＝2的降采样。

输出size相同的网络部分为一级(stage)，选择每一级的最后一层特征图，作为Up-bottom pathway(自顶向下的路径)的对应相应层数，经过1x1卷积过后element add的参考。

FPN用2～5级参与预测，{C2,C3,C4,C5}表示conv2，conv3，conv4和conv5的输出层(最后一个残差块层)作为FPN的特征，分别对应于输入图片的下采样倍数为{4，8，16，32}。

(2).关于Up-bottom pathway nd lateral connections(自顶向下的路径和侧向连接)

自顶向下的路径通过上采样(up-sampling)的方式将顶层的小特征图放大到上一个stage(级)的特征图一样的大小。

参见图3，在一具体实施方式中，一阶段的注意力机制模型Transformer(转换器)包括：Encoder(编码器)和Decoder(解码器)。

关于Encoder(编码器)

Encoder(编码器)由N＝6个相同的layer(层)组成。每个Layer(层)由两个sub-layer(子层)组成，分别是multi-head self-attention mechanism(多头自注意力模型)和fully connected feed-forward network(全连接神经网络)。其中每个sub-layer(子层)都加了residual connection(残差链接)和normalisation(标准化)。

multi-head attention mechanism(多头注意力模型)是通过h个不同的线性变换对Q，K，V三个向量进行投影，最后将不同的attention结果拼接起来。其中，Q(Querry)代表查询值，K(key)代表被询问的值序列，V(value)代表输入线性变换后的特征。

self-attention mechanism(自注意力)取Q，K，V相同。

关于Position-wise feed-forward networks(位置全链接前馈网络)，Attention输出的维度是[bsz*seq_len,num_heads*head_size]，第二个sub-layer(子层)是个全连接层，之所以是position-wise(位置全链接)是因为过线性层时每个位置i的变换参数是一样的。

关于Decoder(解码器)

Decoder(解码器)输出：对应i位置的输出词的概率分布，且输入：encoder的输出以及对应i-1位置decoder的输出。中间的attention的K，V来自encoder，Q来自上一位置decoder的输出。Decoder(解码器)进行编码并行计算，用上一个位置的输入当作attention的query(查询)。

步骤S103：对所述特征金字塔网络和注意力机制模型进行模型融合得到目标检测模型，并通过利用所述数据集进行测试增强，完成目标检测模型的训练。

测试增强共有四种方式：通过自适应的调节feature的融合方式，在测试时自动选择阈值进行输出目标检测预测结果。

在一具体实施方式中，例如，在基于上述获取到的COCO数据集来完成所述目标检测模型的训练时，对所述图像数据集中的图像进行均一化，去除图像中的光照和阴影等，以便更准确地进行目标检测。

更进一步地，还可以在对上述图像数据集中的图像进行均一化之后进一步做对比度增强。当然，也可以仅仅只对上述图像数据集中的图像做对比度增强。

在一具体实施方式中，通过对图像进行镜像翻转来实现所述对比度增强。但是，也可以通过对图像随机裁剪部分图像来实现所述对比度增强，或者通过图像数据之间的复制粘贴来实现所述对比度增强。当然，也可以同时使用上述方法中的任意集中来实现对比度增强。

步骤S104：利用所述目标检测模型对待检测的图像进行目标检测。

在一具体实施方式中，该待检测的图像例如为自动驾驶车辆的车载摄像机所拍摄到的图像，利用步骤S103中训练完成的目标检测模型对该车载摄像机所拍摄到的图像进行目标检测，例如在行人横穿车辆前方的情况下可以在图像中检测到行人，从而车辆能够更好地进行制动驾驶。

根据本发明的目标检测方法，在FPN中加入Transform模块来解决local操作无法看清全局的情况，为后面的层带去更丰富的信息，且本发明用多层transformer代替单层transformer，能够提供更强大的特征提取能力。由此能够更好对待检测的图像进行目标检测，在确保检测能力的同时降低计算量。

参见图4，本申请实施例还提供了一种目标检测装置，其具体实现方式与上述方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

所述装置包括：获取模块101，用于获取用于进行图像识别训练的图像数据集；模型设计模块102，用于设计特征提取模型特征金字塔网络和一阶段的注意力机制模型；训练模块103，用于对所述特征金字塔网络和注意力机制模型进行模型融合得到目标检测模型，并通过利用所述数据集进行测试增强，完成目标检测模型的训练；以及目标检测模块104，用于利用所述目标检测模型对待检测的图像进行目标检测。

在一些实施例中，在利用所述数据集完成所述目标检测模型的训练时，可以对所述图像数据集中的图像进行均一化。

在一些实施例中，可以对所述图像数据集中的图像做对比度增强，通过对图像进行镜像翻转来实现所述对比度增强；且/或通过对图像随机裁剪部分图像来实现所述对比度增强；且/或通过图像数据之间的复制粘贴来实现所述对比度增强。

在一些实施例中，所述特征金字塔网络包括自底向上的路径以及自顶向下的路径和侧向连接。

在一些实施例中，所述自底向上的路径是前馈主干网络的一部分，每一级往上用step＝2的降采样。

在一些实施例中，所述自顶向下的路径通过上采样的方式将顶层的小特征图放大到上一级的特征图的大小。

在一些实施例中，所述图像数据集中的图像的最大边不超过1400像素、最短边不超过800像素，在对所述目标检测模型进行训练的过程中，可以随机地扩张图片。

在一些实施例中，所述装置还可以包括图像采集模块，用于通过车载摄像机获取车辆前方图像来作为所述待检测的图像。

参见图5，本申请实施例还提供了一种电子设备200，电子设备200包括至少一个存储器210、至少一个处理器220以及连接不同平台系统的总线230。

存储器210可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)211和/或高速缓存存储器212，还可以进一步包括只读存储器(ROM)213。

其中，存储器210还存储有计算机程序，计算机程序可以被处理器220执行，使得处理器220执行本申请实施例中上述任一项方法的步骤，其具体实现方式与上述方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

存储器210还可以包括具有一组(至少一个)程序模块215的程序/实用工具214，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

相应的，处理器220可以执行上述计算机程序，以及可以执行程序/实用工具214。

总线230可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备240例如键盘、指向设备、蓝牙设备等通信，还可与一个或者多个能够与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，所述计算机程序被执行时实现本申请实施例中上述任一项方法的步骤，其具体实现方式与上述方法的实施例中记载的实施方式、所达到的技术效果一致，部分内容不再赘述。

图6示出了本实施例提供的用于实现上述方法的程序产品300，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品300不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。程序产品300可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言诸如Java、C++等，还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本申请从使用目的上，效能上，进步及新颖性等观点进行阐述，其设置有的实用进步性，已符合专利法所强调的功能增进及使用要件，本申请以上的说明及附图，仅为本申请的较佳实施例而已，并非以此局限本申请，因此，凡一切与本申请构造，装置，特征等近似、雷同的，即凡依本申请专利申请范围所作的等同替换或修饰等，皆应属本申请的专利申请保护的范围之内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

获取用于进行图像识别训练的图像数据集；

利用所述目标检测模型对待检测的图像进行目标检测。

2.根据权利要求1所述的目标检测方法，其特征在于，

在利用所述数据集完成所述目标检测模型的训练时，对所述图像数据集中的图像进行均一化。

3.根据权利要求1或2所述的目标检测方法，其特征在于，

对所述图像数据集中的图像做对比度增强，

通过对图像进行镜像翻转来实现所述对比度增强；且/或

通过对图像随机裁剪部分图像来实现所述对比度增强；且/或

通过图像数据之间的复制粘贴来实现所述对比度增强。

4.根据权利要求1或2所述的目标检测方法，其特征在于，

所述特征金字塔网络包括自底向上的路径以及自顶向下的路径和侧向连接。

5.根据权利要求4所述的目标检测方法，其特征在于，

所述自底向上的路径是前馈主干网络的一部分，每一级往上用step＝2的降采样。

6.根据权利要求4所述的目标检测方法，其特征在于，

所述自顶向下的路径通过上采样的方式将顶层的小特征图放大到上一级的特征图的大小。

7.根据权利要求1所述的目标检测方法，其特征在于，

通过车载摄像机获取车辆前方图像来作为所述待检测的图像。

8.一种目标检测装置，其特征在于，所述装置包括：

获取模块，用于获取用于进行图像识别训练的图像数据集；

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。