CN113239782B - 一种融合多尺度gan和标签学习的行人重识别系统及方法 - Google Patents
一种融合多尺度gan和标签学习的行人重识别系统及方法 Download PDFInfo
- Publication number
- CN113239782B CN113239782B CN202110509019.9A CN202110509019A CN113239782B CN 113239782 B CN113239782 B CN 113239782B CN 202110509019 A CN202110509019 A CN 202110509019A CN 113239782 B CN113239782 B CN 113239782B
- Authority
- CN
- China
- Prior art keywords
- image
- network
- scale
- pedestrian
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 230000006870 function Effects 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 230000006872 improvement Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 abstract description 7
- 102100040160 Rabankyrin-5 Human genes 0.000 description 10
- 101710086049 Rabankyrin-5 Proteins 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000009499 grossing Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种融合多尺度GAN和标签学习的行人重识别系统及方法,本发明使用多尺度条件生成对抗网络和改进的多维正则化标签方法进行数据增强。多尺度条件生成网络融合了条件生成对抗网络和多尺度特征提取技术。使用修剪后的U‑Net作为生成网络,马尔可夫判别器和多尺度特征判别器作为判别网络。通过修复遮挡图像的方式扩充数据集,从而提高模型识别的能力,并且通过改进的MPRL方法进行在线标签学习,缓解了生成图像带来的噪音干扰,在多个数据集上显著提高了基准模型的mAP和Rank‑1指标。
Description
技术领域
本发明涉及行人重识别领域,特别是涉及一种融合多尺度GAN和标签 学习的行人重识别系统及方法。
背景技术
在早期的行人重识别研究中,研究者主要是通过人工构造的方式来进 行特征表示和度量函数选择。之后随着计算机性能的提高,基于深度网络 的研究在图像处理领域获得了巨大的成功。此后,基于深度学习的研究方 法成为了行人重识别领域的主流研究方法之一。
基于深度网络的模型可以自动地提取图像的高阶语义特征,使得识别 性能高效精准。近年来,计算机视觉领域提出了多种有效的技术来提高模 型的效果。在数据增强方面,生成对抗网络被广泛应用,许多学者根据不 同的数据特点和任务目标设计了多种网络框架。而在特征提取方面,随着 全局特征提取技术的不断成熟,学者们也意识到了仅使用全局特征的局限性,开始把注意力聚焦于局部特征上,通过多尺度学习,注意力机制等多种方式获取更有效的局部特征。
但是,如何在行人重识别任务中有效地使用这些方法仍然是一个具有 挑战的任务。将这些技术迁移到行人重识别领域有以下难点:(1)深度网 络需要大量的数据用于训练,而目前的行人重识别公开数据集都不能很好 地满足训练要求,容易使得模型出现过拟合现象。2)深度网络所提取的高 阶语义特征往往会特别关注某些局部信息,而行人图像可能出现遮挡的情 况影响这些特征的提取,从而影响模型的识别性能。
综上所述,针对行人重识别任务,研究能够缓解数据量不足带来的影 响并有效地使用局部特征的方法,对于提升行人重识别模型的性能具有十 分重要的价值。
基于GAN的数据增强方法已经在计算机领域中广泛使用。但是依然存 在一些问题:(1)由于GAN的生成器使用随机噪声图作为输入,所生成图像的风格类型无法控制,而且生成图像的质量也不高。(2)由于生成图像 与训练集中的样本没有直接关联,无法对其进行类别标注,多数时候只能 将其作为无监督数据辅助网络进行预训练。
故亟需一种能够解决现有技术中存在的问题的方法。
发明内容
本发明的目的是提供一种融合多尺度GAN和标签学习的行人重识别系 统及方法,以解决上述现有技术存在的问题。
为实现上述目的,本发明提供了如下方案:
本发明提供一种融合多尺度GAN和标签学习的行人重识别系统,所述 系统包括:生成网络、判别网络、损失函数模块和标签学习模块,所述生 成网络与所述判别网络连接;
其中所述生成网络包括U-Net子网络,用于修复遮挡图像,扩充数据 集;
所述判别网络包括马尔可夫判别器和多尺度判别器;
其中所述马尔科夫判别器用于提取区域特征;
所述多尺度判别器用于提取多尺度特征;
所述生成网络的输入为对原始图像添加遮挡的遮挡图像,输出为生成 图像;
所述判别网络的输入为所述生成图像和原始图像。
进一步地,所述生成网络采用Encoder-Decoder结构,其中Encoder 包括但不限于若干个第一卷积层,所述第一卷积层用于对输入进行下采样 编码;Decoder包括但不限于若干个反卷积层,所述反卷积层块用于对编 码信息进行上采样编码。
进一步地,所述U-Net子网络还用于在所述Encoder和所述Decoder 之间增加跳跃连接,且所述U-Net子网络删去前两层的跳跃连接。
进一步地,所述卷积层和所述反卷积层所采用的卷积核相同,所述卷 积核的大小为4,步长为2。
进一步地,所述马尔可夫判别器包括但不限于若干个第二卷积层、批 标准化层和激活函数,所述第二卷积层对所述原始图像进行下采样,缩小 特征图尺寸,增大每个位置的感受野;所述激活函数为Sigmoid;所述马 尔可夫判别器对同一区域进行判别的次数为:一次或多次。
进一步地,所述损失函数模块包括GAN损失、L1范数损失和特征匹配 损失;
其中所述GAN损失用于优化所述判别网络判别图像真伪的能力;所述 L1范数损失和所述特征匹配损失用于减小所述生成图像和目标图像在像 素维度和特征维度上的差异。
进一步地,所述标签学习模块采用改进的多维正则化标签方法进行标 签学习;所述改进的多维正则化标签方法,其中的改进在于:采用平滑的 方式构造标签分布;在预先设置好的训练轮次对标签进行更新,更新的同 时引入随机因素,基于所述随机因素保留部分原有标签。
一种融合多尺度GAN和标签学习的行人重识别方法,具体包括以下步 骤:
S1,构建多尺度条件生成对抗网络,所述多尺度条件生成对抗网络包 括生成器和判别器,采集原始行人图像,进行归一化处理,并对所述行人 原始图像添加遮挡,获得遮挡行人图像;
S2,对所述生成器输入所述遮挡行人图像,所述生成器对所述遮挡行 人图像进行修复,修复完成后输出的图像作为生成图像;对所述生成图像 添加标签,进行标签学习;
S3,将添加了标签的所述生成图像和所述原始行人图像输入所述判别 器中,所述判别器对输入添加了标签的所述生成图像进行特征区域和多尺 度特征的提取,基于损失函数计算提取出的所述特征区域、多尺度特征与 所述原始行人图像比对结果,获得损失值,并基于所述损失函数对所述生成器的参数进行优化、更新;
S4,对S3进行迭代,直到迭代轮次达到预设值则完成识别。
进一步地,所述标签学习的具体方法为:通过改进的MPRL方法进行在 线标签学习,对生成图像带来的噪音干扰进行降噪。
本发明公开了以下技术效果:
本申请针对现阶段生成图像质量较低的问题,提出了基于遮挡图像的 多尺度条件生成对抗网络,以对原始图像添加不同尺寸的遮挡块后进行修 复的方式进行数据增强,引入条件信息增强生成图像质量。并且提出了自 动化的标签学习方法,以减少错误的标注对模型带来的干扰;
基于条件生成对抗网络,引入多尺度判别分支,融合多尺度特征,并 分别计算不同尺度上的特征匹配损失,以提高生成图像质量;
对比多种标签学习方法,提出基于半监督学习的在线标签学习方法, 为生成图像标注合适的标签,减少标签噪音对识别模型的干扰。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对 实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附 图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出 创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本实施例中多尺度条件生成对抗网络的结构示意图;
图2为本实施例中卷积模块(上)与反卷积模块(下)的示意图;
图3为本实施例中生成网络的结构示意图;
图4为本实施例中马尔可夫判别分支的结构示意图;
图5为本实施例中多尺度判别分支的结构示意图;
图6为本实施例中参数M对识别结果影响示意图。
具体实施方式
现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对 本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更 详细的描述。
应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于 限制本发明。另外,对于本发明中的数值范围,应理解为还具体公开了该 范围的上限和下限之间的每个中间值。在任何陈述值或陈述范围内的中间 值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围 内。
除非另有说明,否则本发明使用的所有技术和科学术语具有本发明所 属领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的 方法和材料,但是在本发明的实施或测试中也可以使用与本发明所述相似 或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入,用 以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突 时,以本说明书的内容为准。
在不背离本发明的范围或精神的情况下,可对本发明说明书的具体实 施方式做多种改进和变化,这对本领域技术人员而言是显而易见的。由本 发明的说明书得到的其他实施方式对技术人员而言是显而易见的。本申请 说明书和实施例仅是示例性的。
关于本发明中所使用的“包含”、“包括”、“具有”、“含有”等等,均 为开放性的用语,即意指包含但不限于。
本发明中所述的“份”如无特别说明,均按质量份计。
本具体实施方式的内容包括基于多尺度GAN的图像生成和生成图像的 标签学习两方面。基于条件GAN的图像生成能够通过引入条件信息的方式, 控制生成图像的风格类型,并且提高图像质量。而标签学习则能够为生成图像赋予合适的标签,让其参与到网络的训练过程中。本发明首先探究了 基于条件信息的GAN网络结构,在此基础上提出了多尺度生成对抗网络, 构造遮挡图像作为条件信息输入网络,并使用恢复后的图像增强数据集。之后对比了多种标签学习的方式,为生成图像赋予合适的标签。最后,使用了基于多尺度GAN和标签学习的行人数据增强方法在多个数据集上进行 实验,证明了本发明的有效性。
实施例1
本发明所提出的多尺度生成对抗网络的结构如图1所示,该网络基于 条件生成对抗网络,使用遮挡行人图像作为条件信息,删去部分跳跃连接 U-Net网络作为生成器,修复遮挡图像。而判别器则包含两个分支:马尔 可夫判别器和多尺度判别器,马尔可夫判别器用于提取区域特征,计算L1 损失和区域损失。而多尺度判别器用于提取多尺度特征,计算特征匹配损 失。
Pixel-To-Pixel GAN(pix2pix)结构由Phillip Isola于2016年提出 的网络,提出目的是为了解决图像的成对编辑任务。所谓图像的成对编辑 任务,又被称为图像翻译任务,是指图像到图像的转化任务,即将输入图 像转化为目标图像,与风格迁移有些相似,但是要求更高。Pix2pix模型在条件生成对抗网络基础上做出改进,对于原本仅依赖L1/L2损失的任务, 通过L1/L2损失和GAN损失融合的方式将GAN结构引入,并在多个数据集 上实验证明了其有效性。而其最大的贡献在于根据任务要求调整损失函数, 重新构造输入对,将GAN结构引入到多种任务中。根据该思想,本发明为 行人图像添加遮挡块,将遮挡后的图像和原始图像一起输入网络训练,从而使用去遮挡后的图像增强数据集。
Pix2pix模型分别在多种任务上分别尝试了只使用L1/L2损失、只使 用GAN损失和L1/L2损失与GAN损失融合的策略。经过实验发现,只使用L1/L2损失会导致图像模糊,失去高频信息。相比之下,GAN损失能够较好 的保留高频信息,但是会导致生成图像和输入图像的差别较大。最优的方 案是将L1损失和GAN损失融合,可以使用L1损失捕获低频信息,并通过 GAN的判别网络对高频信息建模,以得到高质量输出。
生成网络方面,Pix2pix模型采用了Encoder-Decoder结构作为生成 网络。如同前文介绍,Encoder网络主要由卷积层组成,对输入进行下采 样编码,而Decoder网络由反卷积层组成,对编码信息进行上采样解码, 在这个过程中,关键的底层信息会被编码保留,从输入传达给输出。但是这个过程会损失大量的细节信息。对于图像翻译等精度要求较高的任务, 这些细节信息是十分重要的。因此,生成网络中还添加了U-NET结构,在 Encoder网络和Decoder网络之间增加跳跃连接,保留细节特征。具体来 说,对于n层的生成网络,会在第i层和第n-i层之间添加信息通道,直 接传递未被编码的特征。
而判别网络是由“卷积层-批标准化层-ReLU激活函数”模块搭建成的, 采用了基于马尔可夫判别器的PatchGAN结构。传统的判别网络直接输出对 图像真假判断,而PatchGAN通过卷积对图像进行下采样,输出N*N的特征图谱,其中的每个位置根据卷积感受野的大小,对应着原始输入(即生成 网络的输出)的一块区域,而特征图谱上的值就表示该位置的真假。 PatchGAN通过强制将网络注意力限制在局部区域的方式,强迫网络对高频特征结构建模。经过多次实验证明,即使用于建模的局部区域远小于原始 输入,PathGAN结构依然可以生成高质量的图片。基于小区域构建网络不 仅减少了计算量,提高了网络运行速度,而且可以推广到任意大小的图像上进行操作。
生成网络:
生成网络的任务是结合条件信息生成图像,即对被遮挡的图像的遮挡 部分进行恢复。本发明所使用生成网络采用的Encoder-Decoder结构,其 中Encoder由卷积模块构成,如图2所示,其中LeaklyReLU函数是激活函 数ReLU的变体,其表达式为:
其中α表示LeaklyReLU函数在负数部分的斜率,通常是一个较小的正 数。与ReLU函数的表达式对比不难发现,其改进主要在负数部分。相比于ReLU函数在负数部分之间输出0让梯度消失的做法,LeaklyReLU函数在负 数部分保留了较小的梯度,缓解了梯度消失的现象。
而批次标准化(Batch Normalizing)是为了解决内部协变量偏移现象。 对于深度网络,每一层的操作都会使得输入数据的分布发生变化,随着网 络层数的增加,分布变化会不断叠加,使得随着层数的增加,分布变化变 得越来越剧烈。因此,需外对每层的输出进行标准化操作,以维持分布的一致性。而批次标准化则是通过均值变量和方差变量,对每个批次的数据 上进行标准化操作,并对变量进行更新。
Decoder主要由反卷积模块构成,反卷积模块的结构和卷积层类似, 只是用反卷积层替代了卷积层,将下采样操作变成了上采样。
生成网络的结构如图3所示,它包含了N个卷积模块作为Encoder,N 个反卷积模块作为Decoder。其中各模块采用相同的卷积核,大小为4,步 长为2。本发明也将U-Net结构引入生成网络中,但是与传统U-Net结构 不同的是,本发明并未在Encoder和Decoder的所有层次之间都添加跳跃 连接。从图3中可以看到,为了避免标签信息的泄露导致模型过早收敛, 对U-Net进行了修建,删去了前两层的跳跃连接。
大部分图像翻译任务是类似内容生成、色彩变化这样整体风格变化的 任务,因此需要将原始图片特征完整地传递给图像。但是本发明的任务是 先对图像进行部分遮挡,希望生成网络对遮挡图像进行修复。当遮挡区域 较小时,输入图像和输出图像在大部分区域是一致的,如果直接将原始图 片的特征通过跳跃连接传递给Decoder,会导致模型倾向于直接使用原始 信息,过早收敛,网络的参数得不到充分训练更新。因此,删去了前两层 的跳跃连接,仅传递网络提取后的语义特征,增加训练难度,增强网络的性能,同时也引入了一部分随机因素,使得生成图像在整体风格上与原始 图像有一定区别。
判别网络:
传统GAN网络中,判别网络的目标是判断整个输入图像的真伪。在本 申请中,由于仅对图像中的部分区域进行了遮挡,相比于全局区域,更需 要网络能够判断每个局部区域的真伪。使用马尔可夫判别器,通过卷积对 原始图像进行特征提取,将其分为N*N个区域,分别判断每个区域的真伪。 同时,还加入了多尺度特征学习结构,以提取多尺度特征。
马尔可夫判别器由N个卷积模块组成,使用Sigmoid激活函数。同生 成网络一样,卷积模块也是由卷积层,LeakReLU还有BatchNorm组成。通 过多个卷积层连续对原始图像进行下采样,缩小特征图尺寸,增大每个位 置的感受野。此处沿用了pix2pix模型的参数选择,最终的特征图谱每个 位置对应的感受野大小为70*70。需要注意的是,最终得到的N*N个区域 的感受野并非相互独立的,而是有很大一部分的交集区域,因此该结构可 以对同一区域进行多次判别,使得网络参数得到充分训练。
由于马尔可夫判别器最终输出的特征图谱的感受野大小是固定的,所 以获取的信息尺度较为单一。而多尺度特征提取技术可以帮助网络获取不 同尺度上的特征信息,本发明在判别网络中加入了多尺度特征学习分支, 如图5所示,通过多组的1*1卷积核将马尔可夫判别器中第三个卷积模块 输出的特征图谱分割为四个特征图谱,并采用多组3*3卷积核对各特征图 谱进行特征提取不同尺度的损失,并且分离训练。具体来说,本发明定义 第i特征图谱为Fi,其对应特征为Mi,i∈{1,2,3,4}。则特征Mi的计算公式 为:
可以看到,在多尺度特征学习分支中,通过不同的卷积组合和特征融 合,输出了包含不同感受野的特征并将其分离。其中,本发明将特征M1和M2拼接得到特征M12,称为小尺度卷积特征,其感受野较小,包含了较 多行人的局部细节信息。而特征M3和M3拼接得到特征M34,本发明将其称 为大尺度卷积特征,经过了多组卷积后,拥有了较大的感受野,包含了全局尺度上的空间信息。通过大小尺度特征分离的方式,可以从不同的角度 对行人进行描述。
损失函数:
损失函数主要包括了三个部分:GAN损失、L1范数损失以及特征匹配 损失。正如前文所介绍的,损失函数代表了神经网络的优化目标。GAN损 失是为了优化判别器,让其能够更好地区分输入图像的真伪,从而间接地 优化生成器。一般来说,它是GAN网络结构的经典损失。而L1范数损失和 特征匹配损失都是为了让生成图像和目标图像更加接近,分别从像素维度 和特征维度衡量二者的差异。
首先介绍GAN损失,由于使用了条件生成对抗网络,对应的条件GAN 的损失函数如公式(3)所示,其中x,y,z分别表示真实图像,条件信息以 及随机噪音。G网络表示生成网络,希望最大化损失,而D网络表示判别 网络,希望最小化损失。
相比于原始的GAN损失,条件GAN损失的所有期望都是基于条件概率 计算的。而在图像翻译任务中,条件信息就是输入图像,图像标签则是目 标图像,而在上文提到,判别网络使用了马尔可夫判别器,最后输出的是 对N*N区域预测结果,因此计算损失时,需要在这些区域上分别计算,然 后取平均值作为最终结果。
在衡量生成图像和目标图像之间的差异时,最直观的方式就是比较二 者之间的像素差异,在衡量两个图像间的像素差异时,常用L1损失和L2 损失,相比L2损失,由L1损失训练产生的图像物体边缘更加明显,图像 的锐利度更高,因此最终采用了L1损失,其表达式如下:
L1损失虽然能够直观地衡量出图像的差异,但是其只能从整体衡量, 无法关注重要信息,而在行人图像中,行人区域比背景区域重要,而具体 到行人区域时,属性细节特征也比其他特征重要,而这些都是L1损失无法 衡量的。正是为了弥补L1损失的这些弊端,本发明在判别网络中引入了多尺度特征学习分支,并分离了小尺度特征和大尺度特征来分别提取行人图 像在不同尺度上的语义信息。并且通过特征匹配损失LF来衡量目标图像和 生成图像在对应尺度上的差异,其表示公式如下:
LW(p,q)=(p-q)TW(p-q) (6)
其中αs和αL为权重系数,其中D(y)SSF和D(G(x,z))SSF分别表示目标图 像和生成图像的小尺度特征,而D(y)LSF和D(G(x,z))LSF表示目标图像和生 成图像的大尺度特征。LW为不同尺度特征的距离度量函数,基于马氏距离。
所以,最终的目标函数为:
标签学习:
本发明首先介绍了一些传统的生成图像的标签分配方式,并提出了基 于半监督学习的标签学习框架。
上一节讨论了多尺度生成对抗网络的结构设计,由于目前使用的行人 重识别框架模型都是基于监督学习的,而要想将生成的图像扩充到数据集 中,还需要为生成图像标注上合适的标签。本发明先介绍了离线的标签学 习方法LSRO和LSR,之后介绍了基于在线学习的MPRL方法,并对其进行改 进。
(1)基于标签平滑的标签分配
早期的处理方式是将生成图像标记为同一类别或是随机地标注为某一 类别,考虑到这样的方式容易引入过多的噪音,Zheng等人提出了针对离 群的数据的标签正则化方法(Label Smoothing Regularization for Outliers,LSRO)。LSRO方法借鉴了标签平滑的思想,假设生成图像不属 于数据集中的任何类别,并且在所有类别上的分布服从均匀分布。因此为 生成样本在所有类别赋予相同的概率值,如公式(8)所示,假设一共有K 类样本,那生成图像在每类样本上的概率都是1/K。
相比于为生成图像随机分配标签或是标记于同一类别,LSRO方法通过 将生成图像视为离群样本的方式,让其在每个类别上均匀贡献,鼓励网络 寻找更多潜在的高频特征,并增强了网络的泛化能力,使得其不容易过拟 合,但是由于其假设较强,当生成图像数目较多时会引入过多的噪音,影 响网络收敛,因此比较适合于使用少量生成样本的场景。
随着条件生成对抗网络的流行,可以根据条件信息来控制生成图像的 内容和风格,分配标签时也可以参考条件信息的类别。在本发明之前的研 究中,认为生成图像和条件信息具有较强的关联性,故直接使用标签平滑 正则化(Label SmoothingRegularization,LSR)的方式,为生成图像分 配不同类别的概率,具体表达式如公式(9):
式中ε为超参数,取值范围是[0,1],控制平滑的程度。当ε为0时,等 价于one-hot标签,而当ε为1时,等价于qLSRO。相比于LSRO方法,LSR 方法由于考虑了条件信息,为其对应类别赋予了较高置信度,减轻了生成 样本带来的噪音,有利于网络的收敛。同时,考虑到生成图像引入了一定 的随机噪声,因此为其余类别保留一定程度的概率,保证网络具有一定的泛化能力。
(2)基于半监督学习的标签学习
根据上文可知,LSRO和LSR属于离线分配的方法,即都是通过一定的 假设,在训练前就为每类的生成图像分配好标签。但是这种为同一类生成 图像都赋予相同概率的做法往往和实际情况并不符合,特别是对于恢复后 的遮挡图像,由于遮挡区域的尺寸和遮挡位置的不同,其在不同类别上的 概率分布也应该不同,而离线分配的方法并没有考虑到这些差异。考虑到这 些因素,Yang等人提出了多维正则化标签方法(Multi-pseudoRegularized Label,MPRL)。在离线标签分配的基础上,MPRL方法在训练过程中不断更 新迭代生成样本的标签。具体做法是对每个生成样本,根据网络每次的输 出概率,对样本标签进行更新,多次迭代。而更新方法见公式(10):
(αk=Φ(p(Xk),sortmin→max(p(X))))
其中,p(Xk)表示对于类别的概率,sortmin→max(p(X))表示所有类别概 率的从小到大的排序序列,Φ(·)返回在列表中的索引位置。相比于离线分 配的方式,MPRL参考了半监督学习的思想,通过真实标注的数据来辅助生 成样本进行标注,考虑到了生成样本间的差异性,对不同样本都赋予不同 的标签。同时,也利用了真实标注数据,为生成样本赋予更合理的标签。
但是在实际实验过程中,MPRL方法存在着两个弊端:(1)通过公式(10) 对标签进行更新时,位于同一序数的类别概率是固定的,使得样本标签的 概率分布存在一定限制,并且各个类别间的概率差异变化并不明显。而对 于实际样本,90%以上的概率都是仅仅集中于几个类别中的。(2)通过网络 预测的结果更新标签虽然能够加速网络收敛,但是当网络出现过拟合现象 时,这样会使得网络的过拟合情况加重,特别是训练样本数目较多时。
针对着MPRL的这两个问题,本发明对其作出了改进,提出了随机平滑 更新的标签学习方法。首先,不再使用公式(10),而是通过平滑的方式, 重新构造标签分布。其次,仅在预先设置好的训练轮次对标签进行更新,同时更新时引入随机因素,以一定的概率保留原有标签。
实施例2
实验设置:
实验环境:代码使用Pytorch框架编写,在配置两块Nvidia TITAN Xp 显卡的服务器上运行。
生成网络:生成网络采用U-Net结构,Encoder部分由8个卷积模块 组成,对应地,Decoder部分由8个反卷积模块组成,其中卷积和反卷积 操作的卷积核大小为4*4,步长为2。由于U-Net结构加入了跳跃连接,所 以其通道数会对应地发生变化(未添加链接的模块不变化)。其中通道数设置如表1所示:
表1
模块序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
卷积模块 | 64 | 128 | 256 | 512 | 512 | 512 | 512 | 512 |
反卷积模块 | 512 | 1024 | 1024 | 1024 | 1024 | 512 | 256 | 64 |
判别网络:马尔可夫判别器由4个卷积模块组成,输出特征图谱的感 受野为70*70,卷积模块设置和生成模块类似,也采用卷积核大小为4*4, 步长为2的卷积操作,通道数依次为:64—>128—>256—>512。其中第一 个卷积模块没有加入BatchNorm结构。而多尺度判别器先使用1*1卷积将 输入特征的通道数增加到256,则每组特征的通道数为64,卷积操作的卷 积核大小为3*3*64,步长为1。
损失函数:损失函数部分,本发明取部分训练数据进行区间搜索,αs和αl分别取0.6和0.4,而λ1和λ2分别为0.05和0.3。
数据预处理:本发明将所有图像的像素归一化到[-1,1]区间上,图像 大小统一放缩为256*256。在遮挡块的设置上,遮挡块形状设置为矩形,长宽的比例系数在区间[0.1,0.4]上随机选取。遮挡部分的RGB通道值使用对应数据集的RGB通道上的平均值替换。
训练策略:在训练时,对GAN网络,BatchSize设为1,训练20个轮 次,使用Adam作为优化器,学习率为0.0002,动量参数β1=0.5,β2=0.999。
由于GAN网络仅仅生成图像,需要在行人识别模型才能进行数据增强。 本发明使用Densenet-121网络作为识别模型的基线,网络后接全连接层进 行分类。识别网络训练时,BatchSize设为64,训练60个轮次,使用带动量的SGD作为优化器,学习率为0.01,动量参数为0.9,学习率衰减参数 为0.0004。
在使用生成图像扩充数据集前,还需要确定扩充图像数量M的数值。 本发明在Market-1501数据集上,用single query的方式进行参数对照实 验,选择参数。
扩充图像数量M实验结果如表2和图6所示,Market-1501数据集包 含了12936张图像,本发明依次按照0、1、1.5、2、2.5的比例对原数据 集进行扩充。可以看到,当使用同等数量的图像(12936)进行扩充数据时,基线模型的识别效果最好,mAP为79.9%,Rank-1为92.7%。但随着扩充图 像数量的增加,识别效果反而会降低,本发明认为这是因为生成图像包含 了部分噪音,引入过多的噪音会影响模型的收敛。但是相比于基线模型, 仍然有明显的提升。
表2
M | mAP | Rank-1 |
0(baseline) | 73.6 | 89.7 |
12936 | 79.9 | 92.7 |
19404 | 79.6 | 92.2 |
25872 | 79.2 | 91.9 |
32340 | 78.5 | 91.6 |
确定了M=12936后,Marke-1501,CUHK03以及DukeMTMC-reID三个数 据集上进行对比实验。
Market-1501数据集上的实验结果如表3所示,其中Ours代表本发明 提出的方法。可以看到,加入了多尺度生成对抗网络生成的图像后,模型 识别效果有了明显提升,而且优于pix2pix网络。在Single Query测试模式下,相比于基线模型,mAP、Rank-1、Rank-5分别提升了6.3%、3.0%、 0.9%,而在在Multi Query测试模式下,mAP、Rank-1相比于基线模型, 分别提升了5.1%、3.6%。
表3
CUHK03(labeled)数据集上的实验结果如表4所示,在Single Query 测试模式下,相比于基线模型,mAP、Rank-1、Rank-5分别提升了7.6%、 8.2%、4.9%。
表4
方法 | mAP | Rank-1 | Rank-5 |
DenseNet(baseline) | 42.4 | 44.7 | 65.9 |
DenseNet+pix2pix | 48.1 | 51.2 | 70.2 |
Ours | 50.1 | 52.9 | 70.8 |
DukeMTMC-reID数据集上的实验结果如表5所示,在Single Query测 试模式下,相比于基线模型,mAP、Rank-1、Rank-5分别提升了7.0%、5.1%、 2.3%。
表5
方法 | mAP | Rank-1 | Rank-5 |
DenseNet(baseline) | 62.9 | 79.4 | 89.7 |
DenseNet+pix2pix | 67.9 | 82.2 | 91.4 |
Ours | 69.9 | 84.5 | 92.0 |
从以上实验结果可以看出,加入了多尺度生成对抗网络生成的图像后, 基线模型在各个数据集上的识别效果都有明显提升,而且相比于使用 pix2pix网络生成的图像,多尺度生成对抗网络生成的图像对模型的识别 效果提升更为明显。这是由于多尺度生成对抗网络优化了生成网络的结构, 并且增加了多尺度判别器结果,增强生成图像的质量。
标签学习实验结果:
实验参数设置与上文相同,超参数ε设置为0.15。
Market-1501数据集上的实验结果如表6所示,其中Ours表示本发明 提出的多尺度生成对抗网络结构。LSR和MPRL分别表示标签平滑方法和本 发明提出的改进后的MPRL方法。可以看到,引入了标签学习方法后,模型 识别效果有了一定提升,其中改进后的MPRL方法效果明显优于LSR方法, 相比于LSR方法,在Single Query测试模式下,mAP、Rank-1分别提升了 1.4%、0.8%,而在Multi Query测试模式下,mAP、Rank-1、Rank-5相比 于LSR方法,分别提升了1.9%、0.7%、0.3%。
表6
CUHK03(labeled)数据集上的实验结果如表7所示,改进后的MPRL 方法相比于LSR方法,在Single Query测试模式下,mAP、Rank-1、Rank-5 分别提升了2.1%、1.7%,0.7%。
表7
方法 | mAP | Rank-1 | Rank-5 |
DenseNet(baseline) | 42.4 | 44.7 | 65.9 |
DenseNet+pix2pix | 48.1 | 51.2 | 70.2 |
Ours | 50.1 | 52.9 | 70.8 |
Ours+LSR | 51.8 | 53.0 | 70.3 |
Ours+MPRL | 53.9 | 54.7 | 71.0 |
DukeMTMC-reID数据集上的实验结果如表8所示,改进后的MPRL方法 相比于LSR方法,在Single Query测试模式下,mAP、Rank-1、Rank-5分 别提升了2.1%、0.8%、0.6%。
表8
方法 | mAP | Rank-1 | Rank-5 |
DenseNet(baseline) | 62.9 | 79.4 | 89.7 |
DenseNet+pix2pix | 67.9 | 82.2 | 91.4 |
Ours | 69.9 | 84.5 | 92.0 |
Ours+LSR | 70.2 | 84.9 | 92.2 |
Ours+MPRL | 72.3 | 85.7 | 92.8 |
从以上实验结果得知,引入标签学习方法能够提升模型的识别效果。 相比于LSR方法,改进后的MPRL方法的效果更好,在所有数据集上的评价 指标都优于LSR方法。这是由于改进后的MPRL不再使用固定的离线分配的 标签,而是在训练时动态学习,随着网络的参数更新,优化标签的概率分 布。
本发明首先指出了目前生成对抗网络的常见问题,之后介绍了 pix2pix网络框架,并在其基础上,提出了多尺度条件生成对抗网络结构, 从生成网络、判别网络和损失函数三个方面说明网络原理。并在公开数据 集上进行实验,证明了该结构的有效性。然后介绍了两类标签分配的方式, 分别是基于离线学习的LSR方法和基于在线学习的MPRL方法,在多个数据 集上的实验结果证明了改进后的MPRL方法的优越性。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明 的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人 员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求 书确定的保护范围内。
Claims (5)
1.一种融合多尺度GAN和标签学习的行人重识别系统,其特征在于:所述系统包括:生成网络、判别网络、损失函数模块和标签学习模块,所述生成网络与所述判别网络连接;
其中所述生成网络包括U-Net子网络,用于修复遮挡图像,扩充数据集;
所述生成网络采用Encoder-Decoder结构,其中Encoder包括但不限于若干个第一卷积层,所述第一卷积层用于对输入进行下采样编码;Decoder包括但不限于若干个反卷积层,所述反卷积层块用于对编码信息进行上采样编码;
所述U-Net子网络还用于在所述Encoder和所述Decoder之间增加跳跃连接,且所述U-Net子网络删去前两层的跳跃连接;
所述判别网络包括马尔可夫判别器和多尺度判别器;
其中所述马尔可夫判别器用于提取区域特征;
所述马尔可夫判别器包括但不限于若干个第二卷积层、批标准化层和激活函数,所述第二卷积层对原始图像进行下采样,缩小特征图尺寸,增大每个位置的感受野;所述激活函数为Sigmoid;所述马尔可夫判别器对同一区域进行判别的次数为:一次或多次;
所述多尺度判别器用于提取多尺度特征;
所述生成网络的输入为对原始图像添加遮挡的遮挡图像,输出为生成图像;
所述判别网络的输入为所述生成图像和原始图像;
所述标签学习模块采用改进的多维正则化标签方法进行标签学习;所述改进的多维正则化标签方法,其中的改进在于:采用平滑的方式构造标签分布;在预先设置好的训练轮次对标签进行更新,更新的同时引入随机因素,基于所述随机因素保留部分原有标签。
2.根据权利要求1所述的融合多尺度GAN和标签学习的行人重识别系统,其特征在于:所述卷积层和所述反卷积层所采用的卷积核相同,所述卷积核的大小为4,步长为2。
3.根据权利要求1所述的融合多尺度GAN和标签学习的行人重识别系统,其特征在于:所述损失函数模块包括GAN损失、L1范数损失和特征匹配损失;
其中所述GAN损失用于优化所述判别网络判别图像真伪的能力;所述L1范数损失和所述特征匹配损失用于减小所述生成图像和目标图像在像素维度和特征维度上的差异。
4.一种融合多尺度GAN和标签学习的行人重识别方法,其特征在于:具体包括以下步骤:
S1,构建多尺度条件生成对抗网络,所述多尺度条件生成对抗网络包括生成器和判别器,采集原始行人图像,进行归一化处理,并对所述原始行人图像添加遮挡,获得遮挡行人图像;
S2,对所述生成器输入所述遮挡行人图像,所述生成器对所述遮挡行人图像进行修复,修复完成后输出的图像作为生成图像;对所述生成图像添加标签,进行标签学习;
S3,将添加了标签的所述生成图像和所述原始行人图像输入所述判别器中,所述判别器对输入添加了标签的所述生成图像进行特征区域和多尺度特征的提取,基于损失函数计算提取出的所述特征区域、多尺度特征与所述原始行人图像比对结果,获得损失值,并基于所述损失函数对所述生成器的参数进行优化、更新;
S4,对S3进行迭代,直到迭代轮次达到预设值则完成识别。
5.根据权利要求4所述的融合多尺度GAN和标签学习的行人重识别方法,其特征在于:所述标签学习的具体方法为:通过改进的MPRL方法进行在线标签学习,对生成图像带来的噪音干扰进行降噪。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110509019.9A CN113239782B (zh) | 2021-05-11 | 2021-05-11 | 一种融合多尺度gan和标签学习的行人重识别系统及方法 |
US17/401,681 US20220374630A1 (en) | 2021-05-11 | 2021-08-13 | Person re-identification system and method integrating multi-scale gan and label learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110509019.9A CN113239782B (zh) | 2021-05-11 | 2021-05-11 | 一种融合多尺度gan和标签学习的行人重识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113239782A CN113239782A (zh) | 2021-08-10 |
CN113239782B true CN113239782B (zh) | 2023-04-28 |
Family
ID=77133410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110509019.9A Active CN113239782B (zh) | 2021-05-11 | 2021-05-11 | 一种融合多尺度gan和标签学习的行人重识别系统及方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220374630A1 (zh) |
CN (1) | CN113239782B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639540B (zh) * | 2020-04-30 | 2023-08-04 | 中国海洋大学 | 基于相机风格和人体姿态适应的半监督人物重识别方法 |
CN114359773A (zh) * | 2021-11-10 | 2022-04-15 | 中国矿业大学 | 复杂地下空间轨迹融合的视频人员重识别方法 |
CN115587337B (zh) * | 2022-12-14 | 2023-06-23 | 中国汽车技术研究中心有限公司 | 车门异响识别方法、设备和存储介质 |
CN116630140A (zh) * | 2023-03-31 | 2023-08-22 | 南京信息工程大学 | 一种基于条件生成对抗网络的动漫人像真人化的实现方法、设备及介质 |
CN116434037B (zh) * | 2023-04-21 | 2023-09-22 | 大连理工大学 | 基于双层优化学习的多模态遥感目标鲁棒识别方法 |
CN116152578B (zh) * | 2023-04-25 | 2023-07-18 | 深圳湾实验室 | 一种降噪生成式模型的训练方法、装置、降噪方法及介质 |
CN117315354B (zh) * | 2023-09-27 | 2024-04-02 | 南京航空航天大学 | 基于多判别器复合编码gan网络的绝缘子异常检测方法 |
CN117036832B (zh) * | 2023-10-09 | 2024-01-05 | 之江实验室 | 一种基于随机多尺度分块的图像分类方法、装置及介质 |
CN117078921B (zh) * | 2023-10-16 | 2024-01-23 | 江西师范大学 | 一种基于多尺度边缘信息的自监督小样本汉字生成方法 |
CN117423111B (zh) * | 2023-12-18 | 2024-04-02 | 广州乐庚信息科技有限公司 | 基于计算机视觉和深度学习的纸稿提取、纠正方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018200493A1 (en) * | 2017-04-25 | 2018-11-01 | The Board Of Trustees Of The Leland Stanford Junior University | Dose reduction for medical imaging using deep convolutional neural networks |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017079568A1 (en) * | 2015-11-06 | 2017-05-11 | Google Inc. | Regularizing machine learning models |
US11030486B2 (en) * | 2018-04-20 | 2021-06-08 | XNOR.ai, Inc. | Image classification through label progression |
US11748851B2 (en) * | 2019-03-25 | 2023-09-05 | Korea Advanced Institute Of Science And Technology | Method of replacing missing image data by using neural network and apparatus thereof |
CN109961051B (zh) * | 2019-03-28 | 2022-11-15 | 湖北工业大学 | 一种基于聚类和分块特征提取的行人重识别方法 |
CN110321813B (zh) * | 2019-06-18 | 2023-06-20 | 南京信息工程大学 | 基于行人分割的跨域行人重识别方法 |
CN110688512A (zh) * | 2019-08-15 | 2020-01-14 | 深圳久凌软件技术有限公司 | 基于ptgan区域差距与深度神经网络的行人图像搜索算法 |
CN110689544A (zh) * | 2019-09-06 | 2020-01-14 | 哈尔滨工程大学 | 一种遥感图像细弱目标分割方法 |
CN112418028A (zh) * | 2020-11-11 | 2021-02-26 | 上海交通大学 | 一种基于深度学习的卫星图像中船舶识别与分割方法 |
CN112434599B (zh) * | 2020-11-23 | 2022-11-18 | 同济大学 | 一种基于噪声通道的随机遮挡恢复的行人重识别方法 |
-
2021
- 2021-05-11 CN CN202110509019.9A patent/CN113239782B/zh active Active
- 2021-08-13 US US17/401,681 patent/US20220374630A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018200493A1 (en) * | 2017-04-25 | 2018-11-01 | The Board Of Trustees Of The Leland Stanford Junior University | Dose reduction for medical imaging using deep convolutional neural networks |
Also Published As
Publication number | Publication date |
---|---|
CN113239782A (zh) | 2021-08-10 |
US20220374630A1 (en) | 2022-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113239782B (zh) | 一种融合多尺度gan和标签学习的行人重识别系统及方法 | |
WO2023077816A1 (zh) | 边界优化的遥感图像语义分割方法、装置、设备及介质 | |
CN110321813B (zh) | 基于行人分割的跨域行人重识别方法 | |
Zhao et al. | High-resolution image classification integrating spectral-spatial-location cues by conditional random fields | |
Byeon et al. | Scene labeling with lstm recurrent neural networks | |
CN107506761B (zh) | 基于显著性学习卷积神经网络的脑部图像分割方法及系统 | |
CN106940816B (zh) | 基于3d全卷积神经网络的ct图像肺结节检测系统 | |
Zhang et al. | Deep hierarchical guidance and regularization learning for end-to-end depth estimation | |
CN111191583B (zh) | 基于卷积神经网络的空间目标识别系统及方法 | |
Tang et al. | A multi-stage framework with context information fusion structure for skin lesion segmentation | |
CN106874921A (zh) | 图像分类方法和装置 | |
CN111160407B (zh) | 一种深度学习目标检测方法及系统 | |
Huang et al. | Deep and wide multiscale recursive networks for robust image labeling | |
CN114037674B (zh) | 一种基于语义上下文的工业缺陷图像分割检测方法及装置 | |
CN111738055A (zh) | 多类别文本检测系统和基于该系统的票据表单检测方法 | |
Liang et al. | Comparison detector for cervical cell/clumps detection in the limited data scenario | |
CN115017418A (zh) | 基于强化学习的遥感影像推荐系统及方法 | |
CN113498521A (zh) | 文本检测方法及装置、存储介质 | |
CN113505670A (zh) | 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法 | |
CN115205672A (zh) | 一种基于多尺度区域注意力的遥感建筑物语义分割方法及系统 | |
CN116363439A (zh) | 一种基于多头自注意力的点云分类方法、装置及设备 | |
Chen et al. | Histogram-based colour image fuzzy clustering algorithm | |
Naiemi et al. | Scene text detection using enhanced extremal region and convolutional neural network | |
CN107423771B (zh) | 一种两时相遥感图像变化检测方法 | |
Knöbelreiter et al. | Self-supervised learning for stereo reconstruction on aerial images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |