CN113920013B

CN113920013B - 一种基于超分辨率的小图像多目标检测方法

Info

Publication number: CN113920013B
Application number: CN202111198028.7A
Authority: CN
Inventors: 秦文健; 高帅强
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2023-06-16
Anticipated expiration: 2041-10-14
Also published as: WO2023060746A1; CN113920013A

Abstract

本发明公开了一种基于超分辨率的小图像多目标检测方法。该方法包括：获取原始场景的第一分辨率图像；利用可逆神经网络模型将第一分辨率图像转换为第二分辨率图像后进行传输，进而还原为第一分辨率图像，其中第二分辨率图像的分辨率低于第一分辨率图像；将还原的第一分辨率图像输入至经训练的超分辨率扩散模型，并通过随机迭代去噪过程执行超分辨率重建，输出超高分辨率图像；对所述超高分辨率图像执行目标检测，获得目标识别信息。本发明提高了低分辨率情景下的障碍物检测精度，并使得导盲设备可以长时间工作，减轻使用者负担。

Description

一种基于超分辨率的小图像多目标检测方法

技术领域

本发明涉及自然图像处理技术领域，更具体地，涉及一种基于超分辨率的小图像多目标检测方法。

背景技术

目前，视障群体出行有很多不便，智能导盲的设计不仅有助于他们在出行时能较好地识别障碍物，而且为他们的日常生活带来了极大的便利。随着人工智能开始爆发，深度学习、卷积神经网络的出现使得计算机视觉在导盲应用方面逐渐颠覆依赖超声波等避障的传统导盲技术，使得复杂难以处理障碍物检测的问题得到了解决。

在现有技术中，基于深度目标检测的导盲技术通常将采集的图像上传服务器，然后用有监督或半监督的方法训练网络进行处理，再结合其他传感信息进行导盲。这类方法充分利用了深度学习处理复杂图像的优势，在一般导盲情景下，有很不错的表现。尽管通过深度学习，导盲设备能对盲人生活场景中的常见物体，如垃圾桶，椅子，人等能进行较准确地识别。然而，对于低分辨率场景来说，这类方法的检测结果却不尽人意。基于视觉的导盲技术多数是应用高分辨率下的彩色图像训练网络实现，但受限于设备因素，难以采集到高分辨率图像信息，或对高分辨率图像的检测需要较高的算力和时间。在低分辨率场景下，图像的目标特征的有效性大打折扣，包含的信息很少，不易识别物体轮廓及类别。

目前的超分辨率技术一般都是学习低分辨率到高分辨率图像的对应关系，分为图像超分辨率，特征图超分辨率和目标超分辨率，将低分辨率图像或特征图作为输入，输出高分辨率图像或特征图，与真实高分辨率图像或特征图比较。

现有的图像目标检测通常被分为两类：一类是两阶段检测器，如Faster R-CNN。另一种是一阶段检测器，如YOLO、SSD。两阶段检测器具有较高的定位和目标识别精度，而一阶段检测器具有较高的推理速度。现有高性能目标检测算法，将高分辨率图片作为输入，输出目标的坐标及类别。

总体上，导盲设备的障碍物探测方法被分为传统无视觉、传统机器视觉和基于深度学习的机器视觉方法。传统无视觉只应用了超声、红外传感器，对障碍物的判断局限于方位距离，而且精度较低。传统机器视觉主要利用预先写好的算法，对图像中的目标进行特征识别，这种方法迁移能力不强，不具有智能性。基于深度学习的机器视觉方法通过数据集训练学习图像的特征，能够识别各种场景的图像，并进行目标检测，检测效果也十分不错，但这种方法需要高分辨率图像采集设备以及高性能信息传输及处理设备，在穿戴式导盲检测场景下，图像采集及处理都需考虑功耗，体积及重量等，并且由于低分辨率图像中包含的物体信息很少，这种方法难以有效检测出障碍物。

发明内容

本发明的目的是克服上述现有技术的缺陷，提供一种基于超分辨率的小图像多目标检测方法，该方法包括：获取原始场景的第一分辨率图像；利用可逆神经网络模型将第一分辨率图像转换为第二分辨率图像后进行传输，进而还原为第一分辨率图像，其中第二分辨率图像的分辨率低于第一分辨率图像；将还原的第一分辨率图像输入至经训练的超分辨率扩散模型，并通过随机迭代去噪过程执行超分辨率重建，输出超高分辨率图像；对所述超高分辨率图像执行目标检测，获得目标识别信息。

与现有技术相比，本发明的优点在于，在导盲辅助检测过程中引入超分辨率结构，丰富图片信息；引入扩散概率模型，添加高分辨率图像的特征，提高低分辨率情景下的障碍物检测精度。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的基于超分辨率的小图像多目标检测方法的流程图；

图2是根据本发明一个实施例的基于超分辨率的小图像多目标检测方法的空间结构示意图；

图3是根据本发明一个实施例的图像缩放模块网络结构图；

图4是根据本发明一个实施例的超分辨率模块网络结构图；

图5是根据本发明一个实施例的目标检测模块示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明提供的基于超分辨率的小图像多目标检测方法整体上包括图像获取、图像缩放、超分辨率(即从低分辨率图像重建出相应的高分辨率图像)、目标检测和后处理等过程。

具体地，结合图1和图2所示，所提供的基于超分辨率的小图像多目标检测方法包括以下步骤：

步骤S110，获取原始场景图像。

例如，由头戴设备中的相机获取场景的原始图像并传给图像缩放模块。在获取图像的同时，记录设备的高度，倾斜度等位置及状态信息，以便于后续与目标位置信息一同处理成盲人可以感受的信息。

步骤S120，降低原始图像的分辨率，并将降低分辨率后的图像传输到服务器还原为原始分辨率。

在该步骤中，将原始图像输入到缩放模块，输出低分辨率图像及潜变量，一同传输到服务器端，服务器端的缩放模块将低分辨率图像及潜变量还原为原始分辨率。通过降低图像分辨率，可以减少带宽及延迟，从而降低传输成本。

例如，归一化流是强大的生成概率模型，使用可逆神经网络来学习图像重新缩放的缩小和放大。可逆神经网络用于实现隐式参数到可测量值的映射，这种映射称为前向过程。逆向过程即根据测量值得到隐式参数。由于可逆神经网络模型是双射的，因此在降尺度后能以较高的精度恢复出高分辨率图像。

图像缩放的过程示意参见图2所示，包括M1、M2和M3，其中M1的结构如图3所示，M2为卷积特征提取网络，M3为P个flow-step，包括激活标准化层(Act-norm)、1×1卷积层(1×1conv)、仿射耦合层(affine coupling)，y表示降低分辨率后的图像，a表示中间特征层。

在一个实施例中，训练可逆神经网络的损失函数设置为：

其中x是原始分辨率输入，y为低分辨率输出，z是潜变量输出，x_τ-1是由y和z还原的高分辨率图像，y^*是x经过双三次线性插值得到的低分辨率图像；

是y^*和y的/>

像素损失，/>

是x和x_τ-1的/>

像素损失，/>

是潜变量z的/>

正则化，λ₁，λ₂，λ₃是相应项的权重。

在该步骤中，图像缩放模块将图像缩放到原始大小。

步骤S130，对缩放处理后的图像进行超分辨率重建，获得超高分辨率图像。

例如，将输出的恢复图像利用超分辨率扩散模型16倍超分辨到高分辨率大小，采用去噪扩散概率模型，通过随机迭代去噪过程执行超分辨率。

在一个实施例中，使用超分辨率模型SR3(Image Super-Resolution)或称条件扩散概率降噪模型进行图像超分辨率重建，工作原理是通过一系列的细化步骤学习将标准正态分布转换为经验数据分布。超分辨率网络结构如图4所示，采用U-Net架构，该架构通过去噪目标进行训练，以迭代地从输出中去除各种级别的噪声。

条件扩散概率降噪模型在T个细化步骤中生成目标图像y₀。该模型从一幅纯噪声图像y_T～N(0,I)开始，根据学习的条件转移分布p_θ(y_T-1|y_t,x)通过连续迭代(y_T-1,y_T-2,...,y₀)使得y₀～p(y|x)。

仍结合图4所示，以低分辨率图像大小8×8为例，为了使模型以输入x为条件，使用反卷积计算将低分辨率图像上采样到目标分辨率，结果与y_t连接在一起。

根据前向扩散过程来定义推理链中的中间图像的分布，该前向扩散过程经由表示为q(y_t|y_t-1)的固定马尔可夫链将高斯噪声逐渐添加到信号。模型的目标是通过以x(低分辨率图像)为条件的反向马尔可夫链迭代地从噪声中恢复信号，从而逆转高斯扩散过程。使用去噪模型f_θ来学习逆链，该模型以源图像和噪声目标图像作为输入，并估计噪声。训练目标函数例如设置为：

其中∈～N(0,I)，x表示低分辨率图像，y表示高分辨率图像，(x,y)从训练数据集中采样，y₀表示原始高分辨率图像，

表示x加入噪声之后的图像，γ表示噪声尺度，p(γ)表示γ的分布，即/>

p∈{1,2}，p取1时代表/>

损失，p取2时代表/>

损失的平方，T表示总扩散次数，t表示扩散次数索引，f_θ表示条件扩散概率降噪模型。

模型下的迭代求精的每次迭代都采用以下形式：

其中∈_t～N(0,I)，α_t是超参数，取值范围为0<α_t<1，其确定在每次迭代中添加的噪声的方差，

步骤S140，基于超高分辨率图像，检测目标的类别和位置。

在该步骤中，将超高分辨率图像输入到目标检测器中，输出目标的类别及坐标信息。

例如，参见图5所示，采用特征金字塔实现多尺度目标检测。特征金字塔是多尺度目标检测中的一个基本组成部分。高层的特征虽然包含了丰富的语义信息，但是由于低分辨率，很难准确地保存物体的位置信息。与之相反，低层的特征虽然语义信息较少，但是由于分辨率高，可以准确地包含物体位置信息。将低层的特征和高层的特征融合起来，构建特征金字塔，将每个特征图都输入到预测头中，从而实现识别和定位都准确的目标检测系统，检测出目标信息，例如，包括目标的类别和位置信息等。

优选地，由于简单的上采样也能使目标检测性能有很大提升，所以目标检测模块将超低分辨率图像进行插值，将其与高分辨率图像拼接，共同输入到特征提取模块，得到的结果进行加权排序。

步骤S150，将目标信息与设备状态信息融合，转化成可以感受的信息。

在该步骤中，利用后处理模块，将目标信息与设备状态信息融合，转化成盲人可以感受的信息。

为进一步理解本发明，以下具体说明超分辨率重建过程的实施例，以8*8→128*128为例进行说明。

1)、构建训练集

忽略短边小于128像素的图片，将其余图片中心裁剪为128*128大小，作为高分辨率图片y₀；将高分辨率图片应用双三次插值算法16倍下采样到8*8大小，作为低分辨率图片x，所有高低分辨率图像对构成训练集。

2)、训练超分辨率扩散模型

例如，实验设置如下：

批次大小：256；

优化器：Adam

学习率：1e-4

迭代次数：训练2000，推理100，α₀＝0.9，α_T＝-19。

在训练过程中，将低分辨率图片(256,3,8,8)应用反卷积计算16倍上采样到(256,3,128,128)，和噪声图像拼接为(256,6,128,128)，作为网络输入。由公式2得到网络损失，然后计算梯度并反向传播来更新网络权重。

3)、利用经训练的模型进行推理

具体地，推理过程是：将插值后的低分辨率图片x和y_T拼接，由公式3得到y_T-1，同理，由x和y_T-1得到y_T-2，经过T次迭代后得到y₀。

进一步地，将插值后的低分辨率图片x和y₀拼接，输入到目标检测器中，得到两组目标位置及类别，加权排序后进行非极大值抑制操作，得到最终结果。

本发明通过扩散概率模型对低分辨率图像进行超分辨率，实现将超低分辨率图像(如最低8*8像素)到高分辨率图像(如128*128像素)的16倍率下转换，再由目标检测模块对高分辨率图像进行检测，解决导盲技术面临的低分辨率情景下的目标检测鲁棒性差和准确度低难题，减少设备功耗。

综上所述，本发明设计了一种基于超分辨率的小图像多目标检测方法，解决了导盲技术中障碍物检测在超低分辨率情景下效果变差的问题；利用图像缩放技术，实现将原始图像缩放到低分辨率图像进行低成本传输，再将低分辨率图像还原到高质量原始图像；采用基于扩散概率模型的图像超分辨率技术，实现在导盲时对低分辨率下的盲人生活场景图像进行目标检测，从而为现有导盲技术提供一种解决方案；同时利用低分辨图像和高分辨率图像信息，提高检测精度。总之，本发明将较低分辨率图像作为原始输入，使得导盲设备可以容纳低分辨率摄像机，同时应用图像缩放技术在数据传输的过程中减少数据传送量，减轻功耗及减少设备体积，使得导盲设备可以长时间工作，减轻使用者负担。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。