CN113920013A - 一种基于超分辨率的小图像多目标检测方法 - Google Patents
一种基于超分辨率的小图像多目标检测方法 Download PDFInfo
- Publication number
- CN113920013A CN113920013A CN202111198028.7A CN202111198028A CN113920013A CN 113920013 A CN113920013 A CN 113920013A CN 202111198028 A CN202111198028 A CN 202111198028A CN 113920013 A CN113920013 A CN 113920013A
- Authority
- CN
- China
- Prior art keywords
- resolution
- image
- resolution image
- super
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000009792 diffusion process Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 13
- 230000002441 reversible effect Effects 0.000 claims abstract description 11
- 238000003062 neural network model Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 230000004888 barrier function Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000010813 municipal solid waste Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于超分辨率的小图像多目标检测方法。该方法包括:获取原始场景的第一分辨率图像;利用可逆神经网络模型将第一分辨率图像转换为第二分辨率图像后进行传输,进而还原为第一分辨率图像,其中第二分辨率图像的分辨率低于第一分辨率图像;将还原的第一分辨率图像输入至经训练的超分辨率扩散模型,并通过随机迭代去噪过程执行超分辨率重建,输出超高分辨率图像;对所述超高分辨率图像执行目标检测,获得目标识别信息。本发明提高了低分辨率情景下的障碍物检测精度,并使得导盲设备可以长时间工作,减轻使用者负担。
Description
技术领域
本发明涉及自然图像处理技术领域,更具体地,涉及一种基于超分辨率的小图像多目标检测方法。
背景技术
目前,视障群体出行有很多不便,智能导盲的设计不仅有助于他们在出行时能较好地识别障碍物,而且为他们的日常生活带来了极大的便利。随着人工智能开始爆发,深度学习、卷积神经网络的出现使得计算机视觉在导盲应用方面逐渐颠覆依赖超声波等避障的传统导盲技术,使得复杂难以处理障碍物检测的问题得到了解决。
在现有技术中,基于深度目标检测的导盲技术通常将采集的图像上传服务器,然后用有监督或半监督的方法训练网络进行处理,再结合其他传感信息进行导盲。这类方法充分利用了深度学习处理复杂图像的优势,在一般导盲情景下,有很不错的表现。尽管通过深度学习,导盲设备能对盲人生活场景中的常见物体,如垃圾桶,椅子,人等能进行较准确地识别。然而,对于低分辨率场景来说,这类方法的检测结果却不尽人意。基于视觉的导盲技术多数是应用高分辨率下的彩色图像训练网络实现,但受限于设备因素,难以采集到高分辨率图像信息,或对高分辨率图像的检测需要较高的算力和时间。在低分辨率场景下,图像的目标特征的有效性大打折扣,包含的信息很少,不易识别物体轮廓及类别。
目前的超分辨率技术一般都是学习低分辨率到高分辨率图像的对应关系,分为图像超分辨率,特征图超分辨率和目标超分辨率,将低分辨率图像或特征图作为输入,输出高分辨率图像或特征图,与真实高分辨率图像或特征图比较。
现有的图像目标检测通常被分为两类:一类是两阶段检测器,如Faster R-CNN。另一种是一阶段检测器,如YOLO、SSD。两阶段检测器具有较高的定位和目标识别精度,而一阶段检测器具有较高的推理速度。现有高性能目标检测算法,将高分辨率图片作为输入,输出目标的坐标及类别。
总体上,导盲设备的障碍物探测方法被分为传统无视觉、传统机器视觉和基于深度学习的机器视觉方法。传统无视觉只应用了超声、红外传感器,对障碍物的判断局限于方位距离,而且精度较低。传统机器视觉主要利用预先写好的算法,对图像中的目标进行特征识别,这种方法迁移能力不强,不具有智能性。基于深度学习的机器视觉方法通过数据集训练学习图像的特征,能够识别各种场景的图像,并进行目标检测,检测效果也十分不错,但这种方法需要高分辨率图像采集设备以及高性能信息传输及处理设备,在穿戴式导盲检测场景下,图像采集及处理都需考虑功耗,体积及重量等,并且由于低分辨率图像中包含的物体信息很少,这种方法难以有效检测出障碍物。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种基于超分辨率的小图像多目标检测方法,该方法包括:获取原始场景的第一分辨率图像;利用可逆神经网络模型将第一分辨率图像转换为第二分辨率图像后进行传输,进而还原为第一分辨率图像,其中第二分辨率图像的分辨率低于第一分辨率图像;将还原的第一分辨率图像输入至经训练的超分辨率扩散模型,并通过随机迭代去噪过程执行超分辨率重建,输出超高分辨率图像;对所述超高分辨率图像执行目标检测,获得目标识别信息。
与现有技术相比,本发明的优点在于,在导盲辅助检测过程中引入超分辨率结构,丰富图片信息;引入扩散概率模型,添加高分辨率图像的特征,提高低分辨率情景下的障碍物检测精度。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是根据本发明一个实施例的基于超分辨率的小图像多目标检测方法的流程图;
图2是根据本发明一个实施例的基于超分辨率的小图像多目标检测方法的空间结构示意图;
图3是根据本发明一个实施例的图像缩放模块网络结构图;
图4是根据本发明一个实施例的超分辨率模块网络结构图;
图5是根据本发明一个实施例的目标检测模块示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明提供的基于超分辨率的小图像多目标检测方法整体上包括图像获取、图像缩放、超分辨率(即从低分辨率图像重建出相应的高分辨率图像)、目标检测和后处理等过程。
具体地,结合图1和图2所示,所提供的基于超分辨率的小图像多目标检测方法包括以下步骤:
步骤S110,获取原始场景图像。
例如,由头戴设备中的相机获取场景的原始图像并传给图像缩放模块。在获取图像的同时,记录设备的高度,倾斜度等位置及状态信息,以便于后续与目标位置信息一同处理成盲人可以感受的信息。
步骤S120,降低原始图像的分辨率,并将降低分辨率后的图像传输到服务器还原为原始分辨率。
在该步骤中,将原始图像输入到缩放模块,输出低分辨率图像及潜变量,一同传输到服务器端,服务器端的缩放模块将低分辨率图像及潜变量还原为原始分辨率。通过降低图像分辨率,可以减少带宽及延迟,从而降低传输成本。
例如,归一化流是强大的生成概率模型,使用可逆神经网络来学习图像重新缩放的缩小和放大。可逆神经网络用于实现隐式参数到可测量值的映射,这种映射称为前向过程。逆向过程即根据测量值得到隐式参数。由于可逆神经网络模型是双射的,因此在降尺度后能以较高的精度恢复出高分辨率图像。
图像缩放的过程示意参见图2所示,包括M1、M2和M3,其中M1的结构如图3所示,M2为卷积特征提取网络,M3为P个flow-step,包括激活标准化层(Act-norm)、1×1卷积层(1×1conv)、仿射耦合层(affine coupling),y表示降低分辨率后的图像,a表示中间特征层。
在一个实施例中,训练可逆神经网络的损失函数设置为:
其中x是原始分辨率输入,y为低分辨率输出,z是潜变量输出,xτ-1是由y和z还原的高分辨率图像,y*是x经过双三次线性插值得到的低分辨率图像;是y*和y的像素损失,是x和xτ-1的像素损失,是潜变量z的正则化,λ1,λ2,λ3是相应项的权重。
在该步骤中,图像缩放模块将图像缩放到原始大小。
步骤S130,对缩放处理后的图像进行超分辨率重建,获得超高分辨率图像。
例如,将输出的恢复图像利用超分辨率扩散模型16倍超分辨到高分辨率大小,采用去噪扩散概率模型,通过随机迭代去噪过程执行超分辨率。
在一个实施例中,使用超分辨率模型SR3(Image Super-Resolution)或称条件扩散概率降噪模型进行图像超分辨率重建,工作原理是通过一系列的细化步骤学习将标准正态分布转换为经验数据分布。超分辨率网络结构如图4所示,采用U-Net架构,该架构通过去噪目标进行训练,以迭代地从输出中去除各种级别的噪声。
条件扩散概率降噪模型在T个细化步骤中生成目标图像y0。该模型从一幅纯噪声图像yT~N(0,I)开始,根据学习的条件转移分布pθ(yT-1|yt,x)通过连续迭代(yT-1,yT-2,...,y0)使得y0~p(y|x)。
仍结合图4所示,以低分辨率图像大小8×8为例,为了使模型以输入x为条件,使用反卷积计算将低分辨率图像上采样到目标分辨率,结果与yt连接在一起。
根据前向扩散过程来定义推理链中的中间图像的分布,该前向扩散过程经由表示为q(yt|yt-1)的固定马尔可夫链将高斯噪声逐渐添加到信号。模型的目标是通过以x(低分辨率图像)为条件的反向马尔可夫链迭代地从噪声中恢复信号,从而逆转高斯扩散过程。使用去噪模型fθ来学习逆链,该模型以源图像和噪声目标图像作为输入,并估计噪声。训练目标函数例如设置为:
其中∈~N(0,I),,x表示低分辨率图像,y表示高分辨率图像,(x,y)从训练数据集中采样,y0表示原始高分辨率图像,表示x加入噪声之后的图像,γ表示噪声尺度,p(γ)表示γ的分布,即p∈{1,2},p取1时代表损失,p取2时代表损失的平方,T表示总扩散次数,t表示扩散次数索引,fθ表示条件扩散概率降噪模型。
模型下的迭代求精的每次迭代都采用以下形式:
步骤S140,基于超高分辨率图像,检测目标的类别和位置。
在该步骤中,将超高分辨率图像输入到目标检测器中,输出目标的类别及坐标信息。
例如,参见图5所示,采用特征金字塔实现多尺度目标检测。特征金字塔是多尺度目标检测中的一个基本组成部分。高层的特征虽然包含了丰富的语义信息,但是由于低分辨率,很难准确地保存物体的位置信息。与之相反,低层的特征虽然语义信息较少,但是由于分辨率高,可以准确地包含物体位置信息。将低层的特征和高层的特征融合起来,构建特征金字塔,将每个特征图都输入到预测头中,从而实现识别和定位都准确的目标检测系统,检测出目标信息,例如,包括目标的类别和位置信息等。
优选地,由于简单的上采样也能使目标检测性能有很大提升,所以目标检测模块将超低分辨率图像进行插值,将其与高分辨率图像拼接,共同输入到特征提取模块,得到的结果进行加权排序。
步骤S150,将目标信息与设备状态信息融合,转化成可以感受的信息。
在该步骤中,利用后处理模块,将目标信息与设备状态信息融合,转化成盲人可以感受的信息。
为进一步理解本发明,以下具体说明超分辨率重建过程的实施例,以8*8→128*128为例进行说明。
1)、构建训练集
忽略短边小于128像素的图片,将其余图片中心裁剪为128*128大小,作为高分辨率图片y0;将高分辨率图片应用双三次插值算法16倍下采样到8*8大小,作为低分辨率图片x,所有高低分辨率图像对构成训练集。
2)、训练超分辨率扩散模型
例如,实验设置如下:
批次大小:256;
优化器:Adam
学习率:1e-4
迭代次数:训练2000,推理100,α0=0.9,αT=-19。
在训练过程中,将低分辨率图片(256,3,8,8)应用反卷积计算16倍上采样到(256,3,128,128),和噪声图像拼接为(256,6,128,128),作为网络输入。由公式2得到网络损失,然后计算梯度并反向传播来更新网络权重。
3)、利用经训练的模型进行推理
具体地,推理过程是:将插值后的低分辨率图片x和yT拼接,由公式3得到yT-1,同理,由x和yT-1得到yT-2,经过T次迭代后得到y0。
进一步地,将插值后的低分辨率图片x和y0拼接,输入到目标检测器中,得到两组目标位置及类别,加权排序后进行非极大值抑制操作,得到最终结果。
本发明通过扩散概率模型对低分辨率图像进行超分辨率,实现将超低分辨率图像(如最低8*8像素)到高分辨率图像(如128*128像素)的16倍率下转换,再由目标检测模块对高分辨率图像进行检测,解决导盲技术面临的低分辨率情景下的目标检测鲁棒性差和准确度低难题,减少设备功耗。
综上所述,本发明设计了一种基于超分辨率的小图像多目标检测方法,解决了导盲技术中障碍物检测在超低分辨率情景下效果变差的问题;利用图像缩放技术,实现将原始图像缩放到低分辨率图像进行低成本传输,再将低分辨率图像还原到高质量原始图像;采用基于扩散概率模型的图像超分辨率技术,实现在导盲时对低分辨率下的盲人生活场景图像进行目标检测,从而为现有导盲技术提供一种解决方案;同时利用低分辨图像和高分辨率图像信息,提高检测精度。总之,本发明将较低分辨率图像作为原始输入,使得导盲设备可以容纳低分辨率摄像机,同时应用图像缩放技术在数据传输的过程中减少数据传送量,减轻功耗及减少设备体积,使得导盲设备可以长时间工作,减轻使用者负担。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (10)
1.一种基于超分辨率的小图像多目标检测方法,包括以下步骤:
步骤S1:获取原始场景的第一分辨率图像;
步骤S2:利用可逆神经网络模型将第一分辨率图像转换为第二分辨率图像后进行传输,进而还原为第一分辨率图像,其中第二分辨率图像的分辨率低于第一分辨率图像;
步骤S4:将还原的第一分辨率图像输入至经训练的超分辨率扩散模型,并通过随机迭代去噪过程执行超分辨率重建,输出超高分辨率图像;
步骤S4:对所述超高分辨率图像执行目标检测,获得目标识别信息。
3.根据权利要求1所述的方法,其特征在于,所述超分辨率扩散模型采用Unet架构,通过T个细化步骤学习将标准正态分布转换为经验数据分布。
4.根据权利要求4所述的方法,其特征在于,在T个细化步骤中,所述超分辨率扩散模型从一幅纯噪声图像开始,根据学习的条件转移分布通过连续迭代使得生成的目标图像符合预设的概率分布。
6.根据权利要求1所述的方法,其特征在于,在步骤S4中,将低层特征和高层特征进行融合,构建特征金字塔,将每个特征图都输入到预测头中,获得目标的类别和位置信息。
7.根据权利要求1所述的方法,其特征在于,所述超分辨率扩散模型的训练集根据以下步骤构建:
将采集的图片裁剪为目标高分辨率大小,作为高分辨率图片;
将高分辨率图片应用双三次插值算法下采样到目标低分辨率大小,作为低分辨率图片;
所有高低分辨率图像对构成训练集。
8.根据权利要求1所述的方法,其特征在于,采用头戴设备中的相机获取原始场景的第一分辨率图像,并将获得的目标识别信息与设备状态信息融合,转化成使用者能够感受的信息。
9.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111198028.7A CN113920013B (zh) | 2021-10-14 | 2021-10-14 | 一种基于超分辨率的小图像多目标检测方法 |
PCT/CN2021/138098 WO2023060746A1 (zh) | 2021-10-14 | 2021-12-14 | 一种基于超分辨率的小图像多目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111198028.7A CN113920013B (zh) | 2021-10-14 | 2021-10-14 | 一种基于超分辨率的小图像多目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113920013A true CN113920013A (zh) | 2022-01-11 |
CN113920013B CN113920013B (zh) | 2023-06-16 |
Family
ID=79240553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111198028.7A Active CN113920013B (zh) | 2021-10-14 | 2021-10-14 | 一种基于超分辨率的小图像多目标检测方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113920013B (zh) |
WO (1) | WO2023060746A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114820398A (zh) * | 2022-07-01 | 2022-07-29 | 北京汉仪创新科技股份有限公司 | 基于扩散模型的图片字体替换方法、系统、设备和介质 |
CN115471398A (zh) * | 2022-08-31 | 2022-12-13 | 北京科技大学 | 图像超分辨率方法、系统、终端设备及存储介质 |
CN116012296A (zh) * | 2022-12-01 | 2023-04-25 | 浙江大学 | 一种基于超分辨率和半监督学习算法的装配式预制构件检测方法 |
CN116363090A (zh) * | 2023-03-21 | 2023-06-30 | 国网山东省电力公司莱芜供电公司 | 一种输电线路螺栓销针缺失生成方法及系统 |
CN116469047A (zh) * | 2023-03-20 | 2023-07-21 | 南通锡鼎智能科技有限公司 | 针对实验室教学的小目标检测方法及检测装置 |
CN116777906A (zh) * | 2023-08-17 | 2023-09-19 | 常州微亿智造科技有限公司 | 工业检测中的异常检测方法、异常检测装置 |
CN117078510A (zh) * | 2022-11-16 | 2023-11-17 | 电子科技大学 | 一种潜在特征的单幅图像超分辨重建方法 |
CN117746171A (zh) * | 2024-02-20 | 2024-03-22 | 成都信息工程大学 | 一种基于对偶学习和辅助信息的无监督气象降尺度方法 |
CN118297804A (zh) * | 2024-06-04 | 2024-07-05 | 南方海洋科学与工程广东省实验室(珠海) | 一种sst空间降尺度的智能方法、装置及电子设备 |
CN118338143A (zh) * | 2024-04-11 | 2024-07-12 | 四川新视创伟超高清科技有限公司 | 一种多目标的发现方法及发现系统 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409192B (zh) * | 2023-12-14 | 2024-03-08 | 武汉大学 | 一种基于数据增强的红外小目标检测方法及装置 |
CN117830800A (zh) * | 2024-03-04 | 2024-04-05 | 广州市仪美医用家具科技股份有限公司 | 一种基于yolo算法的衣物检测回收方法、系统、介质和设备 |
CN118411682B (zh) * | 2024-06-27 | 2024-09-27 | 中国人民解放军海军工程大学 | 基于条件扩散模型的可见光图像海上船舶目标识别方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136734A (zh) * | 2013-02-27 | 2013-06-05 | 北京工业大学 | POCS超分辨率图像重建时边缘Halo效应的抑制方法 |
CN106981046A (zh) * | 2017-03-21 | 2017-07-25 | 四川大学 | 基于多层梯度约束回归的单幅图像超分辨率重建方法 |
US20200111194A1 (en) * | 2018-10-08 | 2020-04-09 | Rensselaer Polytechnic Institute | Ct super-resolution gan constrained by the identical, residual and cycle learning ensemble (gan-circle) |
CN111062872A (zh) * | 2019-12-17 | 2020-04-24 | 暨南大学 | 一种基于边缘检测的图像超分辨率重建方法及系统 |
CN111353940A (zh) * | 2020-03-31 | 2020-06-30 | 成都信息工程大学 | 一种基于深度学习迭代上下采样的图像超分辨率重建方法 |
CN111369440A (zh) * | 2020-03-03 | 2020-07-03 | 网易(杭州)网络有限公司 | 模型训练、图像超分辨处理方法、装置、终端及存储介质 |
US20210027426A1 (en) * | 2019-07-26 | 2021-01-28 | Beijing Xiaomi Mobile Software Co., Ltd. | Method and device for processing image, and storage medium |
WO2021121108A1 (zh) * | 2019-12-20 | 2021-06-24 | 北京金山云网络技术有限公司 | 图像超分辨率和模型训练方法、装置、电子设备及介质 |
CN113177882A (zh) * | 2021-04-29 | 2021-07-27 | 浙江大学 | 一种基于扩散模型的单帧图像超分辨处理方法 |
CN113496465A (zh) * | 2020-03-20 | 2021-10-12 | 微软技术许可有限责任公司 | 图像缩放 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133916A (zh) * | 2017-04-21 | 2017-09-05 | 西安科技大学 | 图像缩放方法 |
CN107492070B (zh) * | 2017-07-10 | 2019-12-03 | 华北电力大学 | 一种双通道卷积神经网络的单图像超分辨率计算方法 |
CN111784624B (zh) * | 2019-04-02 | 2024-05-24 | 北京沃东天骏信息技术有限公司 | 目标检测方法、装置、设备及计算机可读存储介质 |
JP7469866B2 (ja) * | 2019-11-05 | 2024-04-17 | キヤノン株式会社 | 符号化装置および符号化方法、復号装置および復号方法 |
CN113139896A (zh) * | 2020-01-17 | 2021-07-20 | 波音公司 | 基于超分辨重建的目标检测系统及方法 |
CN113014927B (zh) * | 2021-03-02 | 2024-01-09 | 三星(中国)半导体有限公司 | 图像压缩方法和图像压缩装置 |
CN113298718A (zh) * | 2021-06-22 | 2021-08-24 | 云南大学 | 一种单幅图像超分辨率重建方法及系统 |
-
2021
- 2021-10-14 CN CN202111198028.7A patent/CN113920013B/zh active Active
- 2021-12-14 WO PCT/CN2021/138098 patent/WO2023060746A1/zh active Application Filing
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136734A (zh) * | 2013-02-27 | 2013-06-05 | 北京工业大学 | POCS超分辨率图像重建时边缘Halo效应的抑制方法 |
CN106981046A (zh) * | 2017-03-21 | 2017-07-25 | 四川大学 | 基于多层梯度约束回归的单幅图像超分辨率重建方法 |
US20200111194A1 (en) * | 2018-10-08 | 2020-04-09 | Rensselaer Polytechnic Institute | Ct super-resolution gan constrained by the identical, residual and cycle learning ensemble (gan-circle) |
US20210027426A1 (en) * | 2019-07-26 | 2021-01-28 | Beijing Xiaomi Mobile Software Co., Ltd. | Method and device for processing image, and storage medium |
CN111062872A (zh) * | 2019-12-17 | 2020-04-24 | 暨南大学 | 一种基于边缘检测的图像超分辨率重建方法及系统 |
WO2021121108A1 (zh) * | 2019-12-20 | 2021-06-24 | 北京金山云网络技术有限公司 | 图像超分辨率和模型训练方法、装置、电子设备及介质 |
CN111369440A (zh) * | 2020-03-03 | 2020-07-03 | 网易(杭州)网络有限公司 | 模型训练、图像超分辨处理方法、装置、终端及存储介质 |
CN113496465A (zh) * | 2020-03-20 | 2021-10-12 | 微软技术许可有限责任公司 | 图像缩放 |
CN111353940A (zh) * | 2020-03-31 | 2020-06-30 | 成都信息工程大学 | 一种基于深度学习迭代上下采样的图像超分辨率重建方法 |
CN113177882A (zh) * | 2021-04-29 | 2021-07-27 | 浙江大学 | 一种基于扩散模型的单帧图像超分辨处理方法 |
Non-Patent Citations (3)
Title |
---|
DONG C ET AL.: "Image super- resolution using deep convolutional networks", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》, vol. 38, no. 2, XP055572436, DOI: 10.1109/TPAMI.2015.2439281 * |
康士伟;孙水发;陈晓军;魏晓燕;: "单帧图像超分辨率重建的深度神经网络综述", no. 03 * |
朱泓宇: "基于可逆卷积神经网络的图像超分辨率重建方法", 《林业机械与木工设备》, vol. 49, no. 3 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114820398A (zh) * | 2022-07-01 | 2022-07-29 | 北京汉仪创新科技股份有限公司 | 基于扩散模型的图片字体替换方法、系统、设备和介质 |
CN115471398A (zh) * | 2022-08-31 | 2022-12-13 | 北京科技大学 | 图像超分辨率方法、系统、终端设备及存储介质 |
CN115471398B (zh) * | 2022-08-31 | 2023-08-15 | 北京科技大学 | 图像超分辨率方法、系统、终端设备及存储介质 |
CN117078510B (zh) * | 2022-11-16 | 2024-04-30 | 电子科技大学 | 一种潜在特征的单幅图像超分辨重建方法 |
CN117078510A (zh) * | 2022-11-16 | 2023-11-17 | 电子科技大学 | 一种潜在特征的单幅图像超分辨重建方法 |
CN116012296B (zh) * | 2022-12-01 | 2023-10-24 | 浙江大学 | 基于超分辨率和半监督学习的装配式预制构件检测方法 |
CN116012296A (zh) * | 2022-12-01 | 2023-04-25 | 浙江大学 | 一种基于超分辨率和半监督学习算法的装配式预制构件检测方法 |
CN116469047A (zh) * | 2023-03-20 | 2023-07-21 | 南通锡鼎智能科技有限公司 | 针对实验室教学的小目标检测方法及检测装置 |
CN116363090A (zh) * | 2023-03-21 | 2023-06-30 | 国网山东省电力公司莱芜供电公司 | 一种输电线路螺栓销针缺失生成方法及系统 |
CN116777906B (zh) * | 2023-08-17 | 2023-11-14 | 常州微亿智造科技有限公司 | 工业检测中的异常检测方法、异常检测装置 |
CN116777906A (zh) * | 2023-08-17 | 2023-09-19 | 常州微亿智造科技有限公司 | 工业检测中的异常检测方法、异常检测装置 |
CN117746171A (zh) * | 2024-02-20 | 2024-03-22 | 成都信息工程大学 | 一种基于对偶学习和辅助信息的无监督气象降尺度方法 |
CN117746171B (zh) * | 2024-02-20 | 2024-04-23 | 成都信息工程大学 | 一种基于对偶学习和辅助信息的无监督气象降尺度方法 |
CN118338143A (zh) * | 2024-04-11 | 2024-07-12 | 四川新视创伟超高清科技有限公司 | 一种多目标的发现方法及发现系统 |
CN118297804A (zh) * | 2024-06-04 | 2024-07-05 | 南方海洋科学与工程广东省实验室(珠海) | 一种sst空间降尺度的智能方法、装置及电子设备 |
CN118297804B (zh) * | 2024-06-04 | 2024-09-10 | 南方海洋科学与工程广东省实验室(珠海) | 一种sst空间降尺度的智能方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2023060746A1 (zh) | 2023-04-20 |
CN113920013B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113920013B (zh) | 一种基于超分辨率的小图像多目标检测方法 | |
US20200250436A1 (en) | Video object segmentation by reference-guided mask propagation | |
US11481869B2 (en) | Cross-domain image translation | |
CN113066017B (zh) | 一种图像增强方法、模型训练方法及设备 | |
CN112132959B (zh) | 数字岩心图像处理方法、装置、计算机设备及存储介质 | |
KR20220005432A (ko) | 이미지 처리를 이용한 장면 표현 | |
US11030750B2 (en) | Multi-level convolutional LSTM model for the segmentation of MR images | |
CN113222825B (zh) | 基于可见光图像训练的红外图像超分辨率重构方法及应用 | |
CN112258436A (zh) | 图像处理模型的训练方法、装置、图像处理方法及模型 | |
US20240119697A1 (en) | Neural Semantic Fields for Generalizable Semantic Segmentation of 3D Scenes | |
CN111242999A (zh) | 基于上采样及精确重匹配的视差估计优化方法 | |
CN116745813A (zh) | 室内环境的自监督式深度估计框架 | |
Pandey et al. | Segmentation of liver lesions with reduced complexity deep models | |
KR20220153667A (ko) | 특징 추출 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 | |
CN113592913A (zh) | 一种消除自监督三维重建不确定性的方法 | |
Zhang et al. | Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention | |
CN112529930A (zh) | 一种基于聚焦融合的上下文学习医学图像分割方法 | |
WO2024081778A1 (en) | A generalist framework for panoptic segmentation of images and videos | |
CN118382878A (zh) | 跨域图像扩散模型 | |
CN111507950B (zh) | 图像分割的方法和装置、电子设备及计算机可读存储介质 | |
US20230342890A1 (en) | High Resolution Inpainting with a Machine-learned Augmentation Model and Texture Transfer | |
CN112990215B (zh) | 图像去噪方法、装置、设备及存储介质 | |
Tomar et al. | ENHANCING IMAGE SUPER-RESOLUTION WITH DEEP CONVOLUTIONAL NEURAL NETWORKS. | |
Yan et al. | Monocular catadioptric panoramic depth estimation via improved end-to-end neural network model | |
US20240303897A1 (en) | Animating images using point trajectories |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |