CN113989709A

CN113989709A - 目标检测方法及装置、存储介质、电子设备

Info

Publication number: CN113989709A
Application number: CN202111254346.0A
Authority: CN
Inventors: 王金波; 许盛宏; 原思平; 郑三强; 王秋森
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-01-28

Abstract

本公开属于人工智能技术领域，涉及一种目标检测方法及装置、存储介质、电子设备。该方法包括：获取待检测图像，并将待检测图像输入至预先训练好的图像优化模型中，以使预先训练好的图像优化模型输出优化图像；对优化图像进行语义信息提取得到图像语义信息，并对图像语义信息进行特征融合处理得到融合信息；对融合信息进行多尺度目标检测得到待检测图像中的检测目标。本公开从根源上解决了直接对低分辨率或者目标遮挡的待检测图像进行目标检测带来的目标检测准确率低，甚至漏检的情况发生，提高了目标检测对前景特征信息的提取速度和关注度，也提高了目标检测精度，并且，能够更进一步兼顾多尺寸的目标检测精度，丰富了目标检测的应用场景。

Description

目标检测方法及装置、存储介质、电子设备

技术领域

本公开涉及人工智能技术领域，尤其涉及一种目标检测方法与目标检测装置、计算机可读存储介质及电子设备。

背景技术

随着社会的发展，摄像头作为一种重要的图像信息采集工具应用越来越广泛。从楼宇电梯监控、商场到交通路口电子眼违章车辆抓拍和无人驾驶都离不开摄像头的身影。其中，监控摄像头每天都能采集到大量的图像信息，单纯靠人工对视频图像进行信息提取已经不可能完成，需要将研究方向转向如何让机器对视频内人类关注的目标进行自动识别、检测和追踪等。

目前，图像视频的目标检测主要是基于深度学习理论和深度网络模型。基于深度学习理论和深度网络模型的目标检测算法准确性、计算速度会受到图像分辨率和模型结构的影响。并且，现实生活中老旧的摄像头的分辨率普遍较低，大批量更换摄像头的成本很高，更换下来的老旧摄像头只能做报废处理，也会导致资源的浪费。因此，对低分辨率图像进行高分辨率重构和改变模型架构，以提高目标检测的准确性是非常有必要的。

当前，图像分辨率重构常用的是基于临近像素插值法、双线性插值法和深度学习反卷积进行图像重构的方法。但是，这三种方案都存在一定的问题。其中，基于临近像素插值法对图像进行重构处理得到的图像，在放大后会出现马赛克，在缩小后图像会严重失真。低分辨率图像进行进行双线性插值重构后可以快速放大图像，但并不会提高图像的清晰度。尤其是当图像放大4倍以上后，会导致图像边缘模糊化。基于深度学习的反卷积进行分辨率重构，图像的清晰度不高，且计算量大。

鉴于此，本领域亟需开发一种新的目标检测方法及装置。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种目标检测方法、目标检测装置、计算机可读存储介质及电子设备，进而至少在一定程度上克服由于相关技术的限制而导致的图像重构效果不佳和目标检测准确率低的技术问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本发明实施例的第一个方面，提供一种目标检测方法，所述方法包括：获取待检测图像，并将所述待检测图像输入至预先训练好的图像优化模型中，以使所述预先训练好的图像优化模型输出优化图像；

对所述优化图像进行语义信息提取得到图像语义信息，并对所述图像语义信息进行特征融合处理得到融合信息；

对所述融合信息进行多尺度目标检测得到所述待检测图像中的检测目标。

在本发明的一种示例性实施例中，在所述将所述待检测图像输入至预先训练好的图像优化模型中之前，所述方法还包括：

获取原始图像样本以及与所述原始图像样本对应的优化图像样本，并利用所述原始图像样本和所述优化图像样本对所述图像优化模型进行训练得到待评价模型；

计算所述待评价模型的生成器损失值和感知损失值，并根据所述生成器损失值和所述感知损失值对所述待评价模型继续进行训练，以得到预先训练好的图像优化模型。

在本发明的一种示例性实施例中，所述对所述优化图像进行语义信息提取得到图像语义信息，并对所述图像语义信息进行特征融合处理得到融合信息，包括：

将所述优化图像输入至构建好的特征提取模型中，以使所述特征提取模型对所述优化图像进行语义信息提取得到图像语义信息，并对所述图像语义信息进行特征融合处理得到融合信息。

在本发明的一种示例性实施例中，所述将所述优化图像输入至构建好的特征提取模型中，包括：

对所述优化图像进行特征提取处理得到所述优化图像的图像权重，并对所述图像权重进行计算得到所述优化图像的特征权重；

将所述特征权重与所述优化图像输入至构建好的特征提取模型中。

利用残差网络对所述优化图像进行语义信息提取得到图像语义信息；

利用特征金字塔网络对所述图像语义信息进行特征融合处理得到融合信息。

在本发明的一种示例性实施例中，所述利用残差网络对所述优化图像进行语义信息提取得到图像语义信息，包括：

按照所述优化图像的图像通道分别对所述优化图像进行卷积计算得到多种高层次语义信息，并按照所述图像通道对所述多种高层次语义信息进行语义拼接处理得到拼接语义信息；

对所述拼接语义信息进行卷积计算得到卷积语义信息，并对所述卷积语义信息和所述优化图像进行层次融合处理得到图像语义信息。

在本发明的一种示例性实施例中，所述利用特征金字塔网络对所述图像语义信息进行特征融合处理得到融合信息，包括：

获取所述图像语义信息的下一语义信息，并将所述图像语义信息与所述下一语义信息进行特征融合处理得到融合信息。

根据本发明实施例的第二个方面，提供一种目标检测装置，所述装置包括：图像优化模块，被配置为获取待检测图像，并将所述待检测图像输入至预先训练好的图像优化模型中，以使所述预先训练好的图像优化模型输出优化图像；

信息融合模块，被配置为对所述优化图像进行语义信息提取得到图像语义信息，并对所述图像语义信息进行特征融合处理得到融合信息；

目标检测模块，被配置为对所述融合信息进行多尺度目标检测得到所述待检测图像中的检测目标。

根据本发明实施例的第三个方面，提供一种电子设备，包括：处理器和存储器；其中，存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例中的目标检测方法。

根据本发明实施例的第四个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意示例性实施例中的目标检测方法。

由上述技术方案可知，本公开示例性实施例中的目标检测方法、目标检测装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

在本公开的示例性实施例提供的方法及装置中，利用预先训练好的图像优化模型对待检测图像进行优化，能够对低分辨率的待检测图像进行高分辨率重构，并对检测目标遮挡的待检测图像进行缺失信息补全，从根源上解决了直接对低分辨率或者目标遮挡的待检测图像进行目标检测带来的目标检测准确率低，甚至漏检的情况发生。继而，对优化图像进行语义信息提取和特征融合处理，提高了目标检测对前景特征信息的提取速度和关注度，也提高了目标检测精度。进而，对融合信息进行多尺度目标检测，能够更进一步兼顾多尺寸的目标检测精度，丰富了目标检测的应用场景。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种目标检测方法的流程示意图；

图2示意性示出本公开示例性实施例中GAN模型的模型结构图；

图3示意性示出本公开示例性实施例中训练图像优化模型的方法的流程示意图；

图4示意性示出本公开示例性实施例中将优化图像输入至特征提取模型的方法的流程示意图；

图5示意性示出本公开示例性实施例中构建好的特征提取模型的结构示意图；

图6示意性示出本公开示例性实施例中语义信息提取和特征融合处理的方法的流程示意图；

图7示意性示出本公开示例性实施例中语义信息提取的方法的流程示意图；

图8示意性示出本公开示例性实施例中相关技术中使用的残差网络的结构示意图；

图9示意性示出本公开示例性实施例中改进后的残差网络的结构示意图；

图10示意性示出本公开示例性实施例中相关技术中的特征金字塔网络的结构示意图；

图11示意性示出本公开示例性实施例中改进后的特征金字塔网络的结构示意图；

图12示意性示出本公开示例性实施例中应用场景下的目标检测方法的流程示意图；

图13示意性示出本公开示例性实施例中对待检测图像进行目标检测的效果示意图；

图14示意性示出本公开示例性实施例中对优化图像进行目标检测的效果示意图；

图15示意性示出本公开示例性实施例中一种目标检测装置的结构示意图；

图16示意性示出本公开示例性实施例中一种用于实现目标检测方法的电子设备；

图17示意性示出本公开示例性实施例中一种用于实现目标检测方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

当前，图像分辨率重构常用的是基于临近像素插值法、双线性插值法和深度学习反卷积进行图像重构的方法。但是，这三种方案都存在一定的问题如下。

其中，基于临近像素插值法对图像进行重构处理得到的图像，在放大后会出现马赛克，在缩小后图像会严重失真。

低分辨率图像进行进行双线性插值重构后可以快速放大图像，但并不会提高图像的清晰度。尤其是当图像放大4倍以上后，会导致图像边缘模糊化。

基于深度学习的反卷积进行分辨率重构，图像的清晰度不高，且计算量大。

针对相关技术中存在的问题，本公开提出了一种目标检测方法，图1 示出了目标检测方法的流程图，如图1所示，目标检测方法至少包括以下步骤：

步骤S110.获取待检测图像，并将待检测图像输入至预先训练好的图像优化模型中，以使预先训练好的图像优化模型输出优化图像。

步骤S120.对优化图像进行语义信息提取得到图像语义信息，并对图像语义信息进行特征融合处理得到融合信息。

步骤S130.对融合信息进行多尺度目标检测得到待检测图像中的检测目标。

在本公开的示例性实施例中，利用预先训练好的图像优化模型对待检测图像进行优化，能够对低分辨率的待检测图像进行高分辨率重构，并对检测目标遮挡的待检测图像进行缺失信息补全，从根源上解决了直接对低分辨率或者目标遮挡的待检测图像进行目标检测带来的目标检测准确率低，甚至漏检的情况发生。继而，对优化图像进行语义信息提取和特征融合处理，提高了目标检测对前景特征信息的提取速度和关注度，也提高了目标检测精度。进而，对融合信息进行多尺度目标检测，能够更进一步兼顾多尺寸的目标检测精度，丰富了目标检测的应用场景。

下面对目标检测方法的各个步骤进行详细说明。

在步骤S110中，获取待检测图像，并将待检测图像输入至预先训练好的图像优化模型中，以使预先训练好的图像优化模型输出优化图像。

在本公开的示例性实施例中，待检测图像可以是低分辨率摄像头采集的低分辨率图像。图像中的行人、车辆等目标被遮挡物遮挡，会出现对该待检测图像进行目标检测准确性低和漏检的问题。除此之外，待检测图像也可以是其他要进行目标检测图像，本示例性实施例对此不做特殊限定。

其中，预先训练好的图像优化模型可以是GAN(Generative AdversarialNetworks，对抗生成网络)模型。

针对当前对低分辨率和检测目标有遮挡的待检测图像进行目标检测之前，可以对GAN模型进行改进后用于离线训练模型，并使用训练好的 GAN模型对图像增强和缺失补全处理后，再进行目标检测。

具体的，GAN模型的目标函数如公式(1)所示：

其中，E(*)表示分布函数的期望值，p_data(x)表示真实样本的分布，p(z) 表示定义在低维噪声分布，D表示Discrimitor(判别器)，G表示Generator (生成器)。生成器G通过参数θ_g将低维空间信息映射到高维空间，并且映射关系为p_g＝G(Z,θ_g)。

GAN模型的框架中有两个模块，分别是生成模型(Generative Model) 和判别模型(Discriminative Model)。生成模型与判别模型之间互相博弈学习产生相当好的输出。

图2示出了GAN模型的模型结构图，如图2所示，对抗网络实际上提出了一种新的框架，这种框架利用了对抗性训练过程，同时训练两个网络，这两个网络即为生成模型和和判别模型。生成模型和和判别模型之间相互博弈，共同进步。

其中，生成模型定义为G，另一个判别模型定义为D。判别模型用于判断一个给定的图片是不是真实的图片，生成模型的任务是去创造一个看起来像真的图片一样的图片(这个图片是尽可能被判别器判断为真实图片的图片)。而在开始的时候这两个模型都是没有经过训练的，这两个模型一起对抗训练，生成模型产生一张图片去欺骗判别模型，然后判别模型去判断这张图片是真是假，最终在这两个模型训练的过程中，两个模型的能力越来越强，最终达到理想的纳什均衡状态。

在判别模型D参数不变的情况下，生成模型G的损失函数如公式(2)：

当p_g＝p_data时，生成模型G的损失为：

引入JS散度(Jensen–Shannon divergence)，生成模型G的代价函数等价为：

由于JS散度具有非负性。当两者分布相等时，JS散度为零。因此， D(x)训练得越好，G(z)就越接近最优，生成模型G的损失就越接近于生成样本分布和真实样本分布的JS散度。

而在生成模型G参数不变的情况下，优化判别模型D的参数，最大化maxV(D,G)等价于-minV(D,G)，因此，判别模型D的等价损失函数如公式(5)所示：

因此，在将待检测图像输入至预先训练好的图像优化模型之前，可以对例如GAN模型的图像优化模型进行训练。

在可选的实施例中，图3示出了训练图像优化模型的方法的流程示意图，如图3所示，该方法至少包括以下步骤：在步骤S310中，获取原始图像样本以及与原始图像样本对应的优化图像样本，并利用原始图像样本和优化图像样本对图像优化模型进行训练得到待评价模型。

进一步的，采用离线训练的方式对GAN模型进行改进。在训练过程中，I^LR表示经过下采样因子为r使用高斯分布处理后的低分辨率图片，亦即原始图像样本，并且，可以用W×H×C的方式描述训练时真实图片，亦即优化图像样本的张量信息，rW×rH×C描述生成模型产生的高分辨率图像。其中，W表示图像的宽度，H表示图像的高度，C表示图像的通道数。

使用原始图像样本和优化图像样本组成的两个域空间对生成网络和判别网络进行训练，结合GAN模型可以得到高分辨率图像生成的对抗生成网络，亦即待评价模型的结构如图(6)所示：

生成模型参数用θ_G表示，θ_G＝{W_1:L；b_1:L}表示L层网络的权重和偏差。

在步骤S320中，计算待评价模型的生成器损失值和感知损失值，并根据生成器损失值和感知损失值对待评价模型继续进行训练，以得到预先训练好的图像优化模型。

进一步的，还可以计算待评价模型的生成器损失值和感知损失值，对待评价模型是否训练完成进行判断。

其中，生成器损失值的计算如公式(7)所示：

并且，还可以使用感知损失函数来评价生成模型生成的图像与真实输入的优化图像样本之间的差异性。其中，感知损失函数可以包括内容损失函数和对抗损失函数两部分内容。

因此，感知损失值的计算如公式(8)所示：

其中，

为内容损失函数，

为对抗损失函数，

为正则损失函数。该正则损失函数相当于为待评价模型的感知损失值增加了一部分扰动，以对感知损失值的判断提供一定的浮动空间。

具体的，内容损失函数如公式(9)所示：

其中，X是使用的模型，该模型可以是VGG(Visual Geometry Group，视觉几何组)模型，也可以是其他模型，本示例性实施例对此不做特殊限定。W_i,j和H_i,j分别模型X模型中特征图的维度参数，即特征图的宽度和高度，I^HR是输入的高分辨率图像，I^LR是输入的低分辨率图像，

表示第i个最大池化，第j个卷积之后的特征图。

值得说明的是，内容损失函数并没有使用基于像素的均方误差 (mean-squareerror,MSE)。因为基于像素的均方误差会导致图片高度平滑。

对抗损失函数如公式(10)所示：

其中，n＝1,…,N。

表示输入为低分辨率图像，使用判别模型

对生成模型生成的图像判断该图像是否来自真实的高清图片库。该

越小越好。

正则损失函数倾向使生成的图像更加光滑。正则损失函数的表达式如公式(11)所示：

值得说明的是，生成器损失值用于判定待评价模型对图像中的目标的大范围轮廓是否训练完成，感知损失值用于判定待评价模型对图像中的目标的细节部分是否训练完成，因此，通过生成器损失值和感知损失值两部分损失值确定待评价模型是否训练完成。

当生成器损失值和感知损失值都较大，不符合要求时，确定待评价模型没有训练完成，可以进一步调整GAN模型的生成模型进行训练；当生成器损失值和感知损失值都较小，符合要求时，确定待评价模型训练完成，此时可以得到训练好的图像优化模型。

在本示例性实施例中，通过生成器损失值和感知损失值两部分内容对待评价模型是否训练完成进行评价，以得到预先训练好的图像优化模型，为对低分辨率的待检测图像的重构和目标遮挡的待检测图像的信息补全提供了优化模型，进一步提升对待检测图像的目标检测准确度，降低了目标检测的漏检概率。

在得到预先训练好的图像优化模型之后，可以将待检测模型输入至预先训练好的GAN模型中，以得到对低分辨率的待检测图像进行重构和对目标遮挡的待检测图像进行信息补全后的优化图像。

在步骤S120中，对优化图像进行语义信息提取得到图像语义信息，并对图像语义信息进行特征融合处理得到融合信息。

在本公开的示例性实施例中，得到优化图像之后，可以通过构建好的特征提取模型对优化图像进行语义信息提取和特征融合处理。

在可选的实施例中，将优化图像输入至构建好的特征提取模型中，以使特征提取模型对优化图像进行语义信息提取得到图像语义信息，并对图像语义信息进行特征融合处理得到融合信息。

在将优化图像输入至构建好的特征提取模型之前，还可以先计算出优化图像的特征权重，以共同输入至特征提取模型中。

在可选的实施例中，图4示出了将优化图像输入至特征提取模型的方法的流程示意图，如图4所示，该方法至少包括以下步骤：在步骤S4 10中，对优化图像进行特征提取处理得到优化图像的图像权重，并对图像权重进行计算得到优化图像的特征权重。

将优化图像输入至1×1的self-attention(自注意力网络)进行特征提取处理得到优化图像不同位置的不同图像权重。

其中，注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。注意力机制可以快速提取稀疏数据的重要特征，因而被广泛用于自然语言处理任务等人工智能领域。而自注意力机制是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。

利用自注意力机制，可以在模型训练和预测过程中实现全局参考。该模型具有良好的bias-variance(方差与偏差)权衡，因而更加合理。

进一步的，还可以将该图像权重与不同通道的特征值，亦即像素值进行乘法计算得到优化图像的特征权重，实现对优化图像的前景和背景的不同关注度。

在步骤S420中，将特征权重与优化图像输入至构建好的特征提取模型中。

在得到特征权重之后，可以将特征权重与优化图像一同输入至构建好的特征提取模型中。

该特征提取模型可以是Darknet53网络，也可以是其他网络模型，本示例性实施例对此不做特殊限定。

在本示例性实施例中，对优化图像进行特征提取处理和计算之后可以得到与优化图像对应的特征权重，以为特征提取模型进行语义信息提取和特征融合处理提供数据基础，提高了检测目标的关键特征的权重，降低了背景信息对目标检测的影响，也提升了目标检测的精度。

在将特征权重与优化图像一同输入至构建好的特征提取模型中之后，可以利用特征提取模型中包括的残差网络和特征金字塔网络进行语义信息提取和特征融合处理。当然，也可以直接使用残差网络(Residual Net work,ResNet)和特征金字塔网络(FeaturePyramid Networks，FPN) 进行语义信息提取和特征融合处理，本示例性实施例对此不做特殊限定。

图5示出了构建好的特征提取模型的结构示意图，如图5所示，该构件好的特征提取模型可以是Darknet53网络。因此，可以使用Darknet 53网络作为backbone(主干网络)进行特征提取。Darkenet53是Yolov3 网络中的一部分(backbone)。

其中，最左侧一列的1×、2×、8×、8×和4×为该模块重复执行1 次、2次、8次、8次和4次。操作类型一列为进行卷积操作或者残差连接操作的模型名称，分别有卷积模型和残差网络实现。卷积核个数一列和卷积核尺寸一列为卷积模型或残差网络中的卷积核参数。

在可选的实施例中，图6示出了语义信息提取和特征融合处理的方法的流程示意图，如图6所示，该方法至少包括以下步骤：在步骤S610 中，利用残差网络对优化图像进行语义信息提取得到图像语义信息。

在可选的实施例中，图7示出了语义信息提取的方法的流程示意图，如图7所示，该方法至少包括以下步骤：在步骤S710中，按照优化图像的图像通道分别对优化图像进行卷积计算得到多种高层次语义信息，并按照图像通道对多种高层次语义信息进行语义拼接处理得到拼接语义信息。

值得说明的是，图7涉及的残差网络是进行网络结构改进的残差网络。

图8示出了相关技术中使用的残差网络的结构示意图，如图8所示， ResNet(Residual Neural Network，残差神经网络)是由何凯明等人提出的神经网络，ResNet的结构可以避免由于神经网络层加深导致梯度消失或梯度爆炸导致模型退化，随着模型层增加目标检测的的准确率有所提升，至少不会变差。在图像处理领域，如何能够通过ResNet网络来实现最优的图像处理效果是目前亟待解决的技术问题。

ResNet的思想是假设涉及一个网络层，存在最优化的网络层次，那么往往设计的深层次网络是有很多网络层为冗余层的。那么，希望这些冗余层能够完成恒等映射，保证经过该恒等层的输入和输出完全相同。具体哪些层是恒等层，这个会有网络训练的时候自己判断出来。

该残差网络中仅包括两层串行的权重层。可X是这一层残差块的输入，也称作F(x)为残差，x为输入值，F(X)是经过第一层线性变化并激活后的输出。该图表示在残差网络中，第二层进行线性变化之后激活之前，F(x)加入了这一层输入值X，然后再进行激活后输出。在第二层输出值激活前加入X，这条路径称作shortcut连接。因此，语义信息提取的处理流程过于简单，无法保证目标检测的效果。

图9示出了改进后的残差网络的结构示意图，如图9所示，该残差网络的输入是按照优化图像的通道进行卷积计算的。

因此，根据残差网络并行的权重层分别对优化图像的各通道进行卷积计算，以提取更加高层次的语义信息。

其中，以优化图像中的目标是人为例，低层次的语义信息能够包括人的更多细节信息，例如包括眼睛和眉毛等；高层次的语义信息包括的是轮廓等大范围的信息，例如人脸的轮廓等。

基于图9所示的残差网络，在得到各个图像通道的高层次语义信息之后，可以对多种高层次语义信息进行语义拼接处理得到拼接语义信息。此时的语义拼接处理是按照图像通道进行的。

在步骤S720中，对拼接语义信息进行卷积计算得到卷积语义信息，并对卷积语义信息和优化图像进行层次融合处理得到图像语义信息。

基于图9所示的残差网络，在得到拼接语义信息之后，可以使用1 ×1的卷积核对拼接语义信息进行两次卷积计算得到卷积语义信息。

进一步的，将卷积语义信息和优化图像的特征进行层次融合处理得到图像语义信息。

具体的，层次融合处理是将卷积语义信息和优化图像的对应像素进行相加处理得到的。因此，该图像语义信息是能够使不同通道的高层次语义信息进行融合得到的。

在本示例性实施例中，通过改进后的残差网络对优化图像进行语义信息提取得到对应的图像语义信息，其中按照图像通道进行卷积计算减少了计算的权重参数，因此，在提高目标检测的准确率的同时也并不会增加计算量和推理时间。并且，通过对残差网络进行改进能够提高对前景特征信息的提取速度和关注度。

在特征提取模型中，得到图像语义信息之后，将该图像语义信息作为下一个卷积模块的输入。

在步骤S620中，利用特征金字塔网络对图像语义信息进行特征融合处理得到融合信息。

在可选的实施例中，获取图像语义信息的下一语义信息，并将图像语义信息与下一语义信息进行特征融合处理得到融合信息。

值得说明的是，该特征金字塔网络的网络结构也是改进得到的。

图10示出了相关技术中的特征金字塔网络的结构示意图，如图10 所示，特征金字塔网络是根据特征金字塔概念设计的特征提取器,目的是提高精度和速度，它替代了类如Faster R-CNN(一种目标检测算法)中的特征提取器,并且生成更高质量的特征图金字塔。

特征金字塔网络由自下而上和自上而下两部分构成。自下而上的就是传统的卷积网络做特征提取，随着卷积的深入，具体空间信息减少，空间信息丢失。但是，高级抽象信息被提取。

该特征金字塔网络将高层次语义信息传入低层次语义信息进行融合，但是无法将低层次语义信息融入高层次语义信息。并且，高层次语义信息与低层次语义信息的融合信息路程较长，导致特征融合处理的耗时较长。

图11示出了改进后的特征金字塔网络的结构示意图，如图11所示，除了可以获取图像语义信息的上一语义信息，将上一语义信息与该图像语义信息进行特征融合处理之外，还可以获取到该图像语义信息的下一语义信息，将该图像语义信息与下一语义信息进行特征融合处理得到对应的融合信息。

在本示例性实施例中，使底层语义特征层融入高层语义信息，提高了小目标检测的准确率。并且，改进后的特征金字塔网络在特征融合处理时缩短了图像语义信息与下一语义信息的路程，减少了特征融合处理的耗时，能够提高整个目标检测计算效率和速度，以及准确度。

在步骤S130中，对融合信息进行多尺度目标检测得到待检测图像中的检测目标。

在本公开的示例性实施例中，得到融合信息之后，还可以利用构建好的特征提取模型进行多尺度目标检测得到待检测图像中的检测目标。

当该特征提取模型为darknet53网络时，darknet53网络能够满足多头机制进行多尺寸目标检测的需求。因此，该darknet53网络的不同层负责不同尺寸的目标检测。

举例而言，darknet53网络的最后一层输出待检测图像中的大尺度目标，darknet53网络的倒数第三层输出待检测图像中的中尺度目标， darknet53网络的倒数第五层输出待检测图像中的小尺度目标。

因此，使用多头机制进行目标检测能够兼顾小尺度、中尺度和大尺度多种不同尺寸的目标检测精度。

下面结合一应用场景对本公开实施例中目标检测方法做出详细说明。

图12示出了应用场景下的目标检测方法的流程示意图，如图12所示，在步骤S1210中，输入图片。

将低分辨率的图像或者检测目标带有遮挡的图像作为待检测图像作为输入，按帧对待检测图像进行高分辨率图像重构生成和检测目标遮挡部位补全。

在步骤S1220中，基于改进GAN图像重构模块。

因此，可以将待检测图像输入至预先训练好的图像优化模型中，以使预先训练好的图像优化模型输出优化图像，亦即重构图像或补全图像。

其中，预先训练好的图像优化模型可以是模型。

针对当前对低分辨率和检测目标有遮挡的待检测图像进行目标检测之前，可以对GAN模型进行改进后用于离线训练模型，并使用训练好的 GAN模型对图像增强和缺失补全处理后，再进行目标检测。该GAN模型的目标函数如公式(1)所示。

GAN模型的框架中有两个模块，分别是生成模型和判别模型。生成模型与判别模型之间互相博弈学习产生相当好的输出。

对抗网络实际上提出了一种新的框架，这种框架利用了对抗性训练过程，同时训练两个网络，这两个网络即为生成模型和和判别模型。生成模型和和判别模型之间相互博弈，互相进步。

其中，生成模型定义为G，另一个判别模型定义为D。判别模型用于判断一个给定的图片是不是真实的图片，生成模型的任务是去创造一个看起来像真的图片一样的图片(这个图片是被判别器判断为真实图片的图片)。而在开始的时候这两个模型都是没有经过训练的，这两个模型一起对抗训练，生成模型产生一张图片去欺骗判别模型，然后判别模型去判断这张图片是真是假，最终在这两个模型训练的过程中，两个模型的能力越来越强，最终达到理想的纳什均衡状态。

在判别模型D参数不变的情况下，生成模型G的损失函数如公式(2)。

并且，当p_g＝p_data时，生成模型G的损失为公式(3)。

在引入JS散度之后，生成模型G的代价函数等价为公式(4)。

而在生成模型G参数不变的情况下，优化判别模型D的参数，最大化max V(D,G)等价于-min V(D,G)，因此，判别模型D的等价损失函数如公式(5)。

获取原始图像样本以及与原始图像样本对应的优化图像样本，并利用原始图像样本和优化图像样本对图像优化模型进行训练得到待评价模型。

使用原始图像样本和优化图像样本组成的两个域空间对生成网络和判别网络进行训练，结合GAN模型可以得到高分辨率图像生成的对抗生成网络，亦即待评价模型的结构如图6。

计算待评价模型的生成器损失值和感知损失值，并根据生成器损失值和感知损失值对待评价模型继续进行训练，以得到预先训练好的图像优化模型。

其中，生成器损失值的计算如公式(7)。

因此，感知损失值的计算如公式(8)。其中，内容损失函数如公式 (9)，对抗损失函数如公式(10)，正则损失函数倾向使生成的图像更加光滑。正则损失函数的表达式如公式(11)。

值得说明的是，内容损失函数并没有使用基于像素的均方误差。因为基于像素的均方误差会导致图片高度平滑。

生成器损失值用于判定待评价模型对图像中的目标的大范围轮廓是否训练完成，感知损失值用于判定待评价模型对图像中的目标的细节部分是否训练完成，因此，通过生成器损失值和感知损失值两部分损失值确定待评价模型是否训练完成。

通过生成器损失值和感知损失值两部分内容对待评价模型是否训练完成进行评价，以得到预先训练好的图像优化模型，为对低分辨率的待检测图像的重构和目标遮挡的待检测图像的信息补全提供了优化模型，进一步提升对待检测图像的目标检测准确度，降低了目标检测的漏检概率。

在步骤S1230中，基于self-attention，对不同的特征图赋予权重。

对优化图像进行特征提取处理得到优化图像的图像权重，并对图像权重进行计算得到优化图像的特征权重。

将优化图像输入至1×1的self-attention进行特征提取处理得到优化图像不同位置的不同图像权重。

利用自注意力机制，可以在模型训练和预测过程中实现全局参考。该模型具有良好的bias-variance权衡，因而更加合理。

在得到特征权重之后，可以将特征权重与优化图像一同输入至构建好的特征提取模型中。该特征提取模型可以是Darknet53网络。

对优化图像进行特征提取处理和计算之后可以得到与优化图像对应的特征权重，以为特征提取模型进行语义信息提取和特征融合处理提供数据基础，提高了检测目标的关键特征的权重，降低了背景信息对目标检测的影响，也提升了目标检测的精度。

其中，该构建好的Darknet53网络作为backbone(主干网络)进行特征提取。Darkenet53是Yolov3网络中的一部分(backbone)。

在将特征权重与优化图像一同输入至构建好的特征提取模型中之后，可以利用特征提取模型中包括的残差网络和特征金字塔网络进行语义信息提取和特征融合处理。当然，也可以直接使用残差网络和特征金字塔网络进行语义信息提取和特征融合处理，本示例性实施例对此不做特殊限定。

在步骤S1240中，改进版残差模块ResNet进行特征提取。

残差网络是由何凯明等人提出的神经网络，ResNet的结构可以极快地加速超深神经网络的训练，模型的准确率也有非常大的提升。在图像处理领域，如何能够通过ResNet网络来实现最优的图像处理效果是目前亟待解决的技术问题。

该残差网络中仅包括两层串行的权重层。可X是这一层残差块的输入，也称作F(x)为残差，x为输入值，F(X)是经过第一层线性变化并激活后的输出。该图表示在残差网络中，第二层进行线性变化之后激活之前，F(x)加入了这一层输入值X，然后再进行激活后输出。在第二层输出值激活前加入X，这条路径称作shortcut连接。

改进后的残差网络的输入是按照优化图像的图像通道进行卷积计算的。根据残差网络并行的权重层分别对优化图像的各图像通道进行卷积计算，以提取更加高层次的语义信息。

基于改进后的残差网络，在得到各个图像通道的高层次语义信息之后，可以对多种高层次语义信息进行语义拼接处理得到拼接语义信息。此时的语义拼接处理是按照图像通道进行的。

在得到拼接语义信息之后，可以使用1×1的卷积核对拼接语义信息进行两次卷积计算得到卷积语义信息。

通过改进后的残差网络对优化图像进行语义信息提取得到对应的图像语义信息，其中按照图像通道进行卷积计算减少了计算的权重参数，因此，在提高目标检测的准确率的同时也并不会增加计算量和推理时间。并且，通过对残差网络进行改进能够提高对前景特征信息的提取速度和关注度。

在特征提取模型中，得到图像语义信息之后，还可以将该图像语义信息作为下一个卷积模块的输入。

在步骤S1250中，使用跨层的双向FPN进行特征融合。

特征金字塔网络是根据特征金字塔概念设计的特征提取器,目的是提高精度和速度，它替代了类如Faster R-CNN中的特征提取器,并且生成更高质量的特征图金字塔。

特征金字塔网络由自下而上和自上而下两部分构成。自下而上的就是传统的卷积网络做特征提取，随着卷积的深入，空间分辨率减少，空间信息丢失。但是，高级语义信息被更多地检测到。

改进后的特征金字塔网络除了可以获取图像语义信息的上一语义信息，将上一语义信息与该图像语义信息进行特征融合处理之外，还可以获取到该图像语义信息的下一语义信息，将该图像语义信息与下一语义信息进行特征融合处理得到对应的融合信息。

对步骤S1240提取到的个层次语义特征使用改进的FPN进行高低层的语义特征信息融合，把高层语义信息融入到底层语义信息层，增加了小目标检测的精度，间接提高了前景的信息权重，也提高了目标检测点的准确率。

在步骤S1260中，基于多头机制目标检测。

得到融合信息之后，还可以利用构建好的特征提取模型进行多尺度目标检测得到待检测图像中的检测目标。

在步骤S1270中，输出检测结果。

图13示出了对待检测图像进行目标检测的效果示意图，如图13所示，其中的白色汽车的检测精度为0.84，女性行人的检测精度为0.75.

图14示出了对优化图像进行目标检测的效果示意图，如图14所示，其中的白色汽车的检测精度提升至0.90，女性行人的检测精度提升至0.79。相比较而言，对待检测图像进行重构或者信息补全之后，能够提升目标检测的准确率，降低目标漏检的概率。

在该应用场景下的目标检测方法，利用预先训练好的图像优化模型对待检测图像进行优化，能够对低分辨率的待检测图像进行高分辨率重构，并对检测目标遮挡的待检测图像进行缺失信息补全，从根源上解决了直接对低分辨率或者目标遮挡的待检测图像进行目标检测带来的目标检测准确率低，甚至漏检的情况发生。继而，对优化图像进行语义信息提取和特征融合处理，提高了目标检测对前景特征信息的提取速度和关注度，也提高了目标检测精度。进而，对融合信息进行多尺度目标检测，能够更进一步兼顾多尺寸的目标检测精度，丰富了目标检测的应用场景。

此外，在本公开的示例性实施例中，还提供一种目标检测装置。图 15示出了目标检测装置的结构示意图，如图15所示，目标检测装置1500 可以包括：图像优化模块1510、信息融合模块1520和目标检测模块1530。其中：

图像优化模块1510，被配置为获取待检测图像，并将待检测图像输入至预先训练好的图像优化模型中，以使预先训练好的图像优化模型输出优化图像；信息融合模块1520，被配置为对优化图像进行语义信息提取得到图像语义信息，并对图像语义信息进行特征融合处理得到融合信息；目标检测模块1530，被配置为对融合信息进行多尺度目标检测得到待检测图像中的检测目标。

计算所述待评价模型的生成器损失值和感知损失值，并根据所述生成器损失值和感知损失值对所述待评价模型继续进行训练，以得到预先训练好的图像优化模型。

上述目标检测装置1500的具体细节已经在对应的目标检测方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了目标检测装置1500的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

下面参照图16来描述根据本发明的这种实施例的电子设备1600。图 16显示的电子设备1600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图16所示，电子设备1600以通用计算设备的形式表现。电子设备1600的组件可以包括但不限于：上述至少一个处理单元1610、上述至少一个存储单元1620、连接不同系统组件(包括存储单元1620和处理单元1610)的总线1630、显示单元1640。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1610执行，使得所述处理单元1610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

存储单元1620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1621和/或高速缓存存储单元1622，还可以进一步包括只读存储单元(ROM)1623。

存储单元1620还可以包括具有一组(至少一个)程序模块1625的程序/实用工具1624，这样的程序模块1625包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1600也可以与一个或多个外部设备1800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1600交互的设备通信，和/或与使得该电子设备1600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1650进行。并且，电子设备1600还可以通过网络适配器1660与一个或者多个网络(例如局域网 (LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1660通过总线1630与电子设备1600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1600使用其它硬件和/ 或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是 CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等) 执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

参考图17所示，描述了根据本发明的实施例的用于实现上述方法的程序产品1700，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

获取待检测图像，并将所述待检测图像输入至预先训练好的图像优化模型中，以使所述预先训练好的图像优化模型输出优化图像；

2.根据权利要求1所述的目标检测方法，其特征在于，在所述将所述待检测图像输入至预先训练好的图像优化模型中之前，所述方法还包括：

3.根据权利要求1所述的目标检测方法，其特征在于，所述对所述优化图像进行语义信息提取得到图像语义信息，并对所述图像语义信息进行特征融合处理得到融合信息，包括：

4.根据权利要求3所述的目标检测方法，其特征在于，所述将所述优化图像输入至构建好的特征提取模型中，包括：

5.根据权利要求1或3所述的目标检测方法，其特征在于，所述对所述优化图像进行语义信息提取得到图像语义信息，并对所述图像语义信息进行特征融合处理得到融合信息，包括：

6.根据权利要求5所述的目标检测方法，其特征在于，所述利用残差网络对所述优化图像进行语义信息提取得到图像语义信息，包括：

7.根据权利要求5所述的目标检测方法，其特征在于，所述利用特征金字塔网络对所述图像语义信息进行特征融合处理得到融合信息，包括：

8.一种目标检测装置，其特征在于，包括：

图像优化模块，被配置为获取待检测图像，并将所述待检测图像输入至预先训练好的图像优化模型中，以使所述预先训练好的图像优化模型输出优化图像；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任意一项所述的目标检测方法。

10.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器被配置为经由执行所述可执行指令来执行权利要求1-7中任意一项所述的目标检测方法。