CN114648724A - 一种基于生成对抗网络的轻量化高效目标分割与计数方法 - Google Patents

一种基于生成对抗网络的轻量化高效目标分割与计数方法 Download PDF

Info

Publication number
CN114648724A
CN114648724A CN202210538605.0A CN202210538605A CN114648724A CN 114648724 A CN114648724 A CN 114648724A CN 202210538605 A CN202210538605 A CN 202210538605A CN 114648724 A CN114648724 A CN 114648724A
Authority
CN
China
Prior art keywords
feature map
matrix
layer
loss
discrimination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210538605.0A
Other languages
English (en)
Other versions
CN114648724B (zh
Inventor
邓力嘉
何先定
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Aeronautic Polytechnic
Original Assignee
Chengdu Aeronautic Polytechnic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Aeronautic Polytechnic filed Critical Chengdu Aeronautic Polytechnic
Priority to CN202210538605.0A priority Critical patent/CN114648724B/zh
Publication of CN114648724A publication Critical patent/CN114648724A/zh
Application granted granted Critical
Publication of CN114648724B publication Critical patent/CN114648724B/zh
Priority to GB2301554.8A priority patent/GB2618876B/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及视频图像处理技术领域,尤其涉及一种基于生成对抗网络的轻量化高效目标分割与计数方法;本申请在解码器阶段提出了折叠最近邻超越上采样方法,其极大的减少了计算量、加速了网络的运算、提升了网络运行效率,极大的优化了网络结构;在预测器阶段,本申请对每个任务设置了独立的预测器,以满足不同任务的独特需求;且对判别器进行了轻量化设计,简化了模型结构,加速的训练过程;基于密度图的目标数量统计任务拆分为了数量预测和位置预测两个任务,减轻了学习难度,也扩大了预训练时数据集的可使用范围;基于生成对抗网络的训练方法解决了对目标图像分割计数时所使用的多任务生成器训练速度慢、效率低,结构复杂的问题。

Description

一种基于生成对抗网络的轻量化高效目标分割与计数方法
技术领域
本发明涉及视频图像处理技术领域,尤其涉及一种基于生成对抗网络的轻量化高效目标分割与计数方法。
背景技术
目前,目标的计数主要采用的是密度图的方式;这种方法能够通过密度图显示目标的位置分布并且通过计算密度图的数值获得目标的总数。虽然这种方法同时做到目标的计数和分布,但是这种方法对网络的复杂程度和数据集的采集提出了较高的要求。采用密度图的方式时,数据集要求对图像中每个目标点进行标注以获得精确坐标位置的点图,这样的标注工作费时费力;再基于点图通过数学计算将点图计算为密度图,而这样的密度图计算通常有如下几种生成方式:1.使用固定大小的高斯核进行点图展开;2.使用自适应的高斯核进行点图展开;3.使用与场景相匹配的缩放矩阵进行点图展开。然而这些方法都有这各种各样的限制,对于固定大小高斯的方法来讲,没办法体现目标在图像的缩放变化,所以会导致展开后的区域与实际目标的重叠度不好;自适应的高斯核只能适用于高密度的场景,如果目标稀疏,自适应的高斯核很难获得合理的高斯核大小;而且缩放矩阵虽然能获得最准确的高斯核大小,但是绝大多数数据集都没有采集缩放矩阵,因为缩放矩阵需要精确匹配摄像头视角与地面的透视变化关系,采集计算很复杂。
除了以上的密度图数据集制作时的不足,密度图数据集本身数量也是比较稀少。当前的数据集大多数只有图片中目标的总数或者目标物的整体分割。使用密度图方式进行计数会使得网络在预训练时可以选择的数据集较少,网络的预训练容易出现过拟合,易导致预训练的网络迁移性不好。
在目标计数时,基于简单回归的方法可以使目标总数标记的数据集来直接预测目标的总数,扩大了数据集的可选择性,但是这种方法通常缺少了目标的位置信息,容易被人诟病预测的可信度。
而有时候对于一个复杂任务,可以将其解析为几个简单的任务来进行完成。而对于神经网络来说,如果不同的任务关联性很强,例如目标的识别和行为判断,是可以通过一个网络来进行特征的提取并完成结果的预测。但是如果任务间的关联性较差,例如,目标数量的预测和目标轮廓的分割,这时简单的单个网络的任务完成情况会相对较差。通常来说,对于多个任务,人们习惯于分别使用多个针对性较强的神经网络来分别完成各个任务。然而这种方法需要同时使用多个神经网络,会导致模型的总体体积过大,在分布式计算流行的当下,这种大体积的模型不利于实际中的部署。所以尽可能的使用单个网络来完成多任务功能以节省计算机资源是我们期望达到的目的。
目前,多任务生成器的训练主要是通过端到端的直接训练来完成的。虽然这种训练方法是先进绝大多数神经网络的训练方法,但是这种训练方式在训练多任务模型时,通常需要设计独特的多列式网络模型来分别应对多个任务和较为复杂的损失函数来协调多任务目标,而且训练速度通常较慢,需要更长的时间来完成多任务的训练。
发明内容
为了解决上述现有技术中存在的问题,本发明拟提供一种基于生成对抗网络的轻量化高效目标分割与计数方法,本申请将目标计数任务细化为目标数量预测和目标区域分割,通过使用只有目标总数标记和目标区域标记的数据集来训练,能够同时完成目标总数的预测和目标位置分割的预测,解决了密度图方法只能使用密度图数据集的局限性,以及简单回归方法缺失目标位置信息的缺陷。
本发明采用的技术方案如下:
一种基于生成对抗网络的轻量化高效目标分割与计数方法,包括以下步骤:
步骤1:获取输入图像:将所有输入图像处理为同一尺寸,并将输入图像的真值处理为与训练图像相同的尺寸,使输入图像与图像真值一一对应;
步骤2:将经过步骤1处理的输入图像送进下采样编码器进行特征提取,得到最深层特征图;
步骤3:将最深层特征图送入计数层预测整张输入图像中的目标数量;
步骤4:将最深层特征图送入折叠最近邻超越上采样模块,得到扩展特征图;
步骤5:对最深层特征图和扩展特征图进行特征融合,得到第一最终特征图;
步骤6:将第一最终特征图作为最深层特征图,并送入步骤4中,重复执行步骤4和步骤5直到得到符合要求的第二最终特征图,并将第二最终特征图送入到预测器中,得到预测分割特征图;
本申请中当第二最终特征图的尺寸为输入图像的1/2时,定义为符合要求的,该尺寸只是本申请所采用的最优选择,其并非是限定不能采用当第二最终特征图的尺寸为输入图像的1/3或3/2或4/1等。
步骤7:将预测分割特征图和图像真值同时送入协调判别器,利用协调判别器学习并判断两者的图像差距,获得生成器判别矩阵;
步骤8:生成与生成器判别矩阵同样大小且值为1的验证真矩阵和值为0的验证假矩阵;
步骤9:基于数据集自带的目标数量真值、步骤1获得的输入图像真值,步骤3得到的目标数量、步骤6得到的预测分割特征图、步骤7得到的生成器判别矩阵以及步骤8生成的验证真矩阵计算生成器的训练总损失;
步骤10:将生成器的训练总损失送回生成器网络进行网络迭代更新学习,完成一轮生成器的训练;
步骤11:将经过步骤1处理后的输入图像和步骤6中得到的预测分割特征图在图像通道上进行融合得到融合特征图,并将融合特征图送入协调判别器;
步骤12:融合特征图在协调判别器中经过4个特征提取卷积模块后,得到第一深层判别特征图;
步骤13:将步骤12得到的第一深层判别特征图输入到由一个卷积层组成的结构特征判断层,获得包含结构性差异的预测假判别矩阵;
步骤14:将经过步骤1处理后的输入图像和真值图像在图像通道上融合并送入协调判别器中,经过4个特征提取卷积模块后,得到第二深层判别特征图,再将第二深层判别特征图输入由一个卷积层组成的结构特征判断层,得到预测真判别矩阵;
步骤15:基于步骤8得到的验证真矩阵和验证假矩阵、步骤13得到的预测假判别矩阵和步骤14得到的预测真判别矩阵计算协调判别器的训练总损失;
步骤16:将步骤15得到的训练总损失送回网络进行网络迭代更新学习,完成一轮协调判别器的训练,得到经过一轮训练的协调判别器,并保存步骤10中得到的生成器以及本步骤得到的协调判别器;
步骤17:重复步骤2到步骤16,直至获得符合预定条件的生成器和协调判别器。
直到步骤3的预测的目标数量和步骤6预测分割特征图与所述图像真值非常接近甚至相同,或者步骤9与步骤15的两个训练总损失不再降低时,可以停止训练,即停止重复执行步骤2到步骤16。
基于上述技术方案本发明构建出了一种轻量级、高效的多尺度特征融合多任务生成器;该方法通过使用包含目标总数标记的数据集进行训练可以完成对目标数量的直接预测,通过使用包含目标位置标记的数据集来训练可以完成目标分布范围的直接生成。该生成器可以通过步骤2到步骤3来直接预测输入图像中目标的数量,同时通过步骤2,步骤4到步骤6直接预测输入图像的目标位置区域。该生成器能够同时完成目标总数的预测和目标位置分割的预测,解决了密度图计数方法只能使用密度图数据集的局限性,使网络可以使用只有简单的目标总数的数据集;该生成器对目标位置的预测解决了简单回归方法缺失目标位置信息的缺陷。
同时为了提高多任务目标的神经网络的训练效率,本技术基于生成对抗网络,通过生成器和判别器的互相对抗,提出了提高网络的训练效率的新型多任务生成器训练方法。本发明提出了一种辅助协调多任务训练的协调判别器,用以在生成对抗学习中提高多任务生成器的训练效率,改善多任务训练时的关注度分配问题,降低了训练过程中对损失函数的设计要求;同时本发明提出了一种模式化的方便使用的联合混合损失函数用于计数任务和图像分割任务的多任务生成器的训练。
优选的,步骤2中所述的下采样编码器包括6组下采样模块,前5个下采样模块的结构相同,均包括一个步长为2的卷积层、1个实例均一化层和1个带泄露线性整流函数激活层;最后一个下采样模块包括1个卷积层、1个随机失活层和和1个带泄露线性整流函数。
本申请使用了6个向下采样单元,其大小仅为经典特征提取模型VGG16(VisualGeometry Group 16, 以下简称VGG16)的不到一半。这为进一步添加解码器留下了大量内存冗余。下采样单元采用步长为2的卷积层,在提取特征的同时减小了特征映射的大小,避免了使用池化层造成的特征丢失。
优选的,步骤3中所述的计数层包括1个全局平均池化层和1个卷积层。
使用全局平均池化层将最深层特征图收拢为一个固定大小的特征图,使固定卷积层对其进行预测,这使网络能适应不同尺寸的输入图片,提高了模型的泛用性。
优选的,步骤4中所述的折叠最近邻超越上采样模块包括1个卷积层、2个矩阵展平计算和2个线性映射矩阵重构计算;
当最深层特征图被送入折叠最近邻超越上采样模块后,先通过卷积层运算,在图片通道中生成扩展图像所需的新增像素;
对获得新增像素的最深层特征图进行一次矩阵的展平,然后将展平后的拉伸为线性向量后进行线性映射矩阵重构计算;即将所述线性向量按照扩展后的高与原始的最深层特征图的宽进行排列,使新增像素转移到原始的最深层特征图的高上,得到扩展特征图。
优选的,步骤6中所述的预测器包括尺寸为4的卷积层、折叠最近邻超越上采样(Fold Beyond-nearest Up-sampling method,以下简称FBU)和双曲正切激活函数激活层;所述第二最终特征图经过尺寸为4的卷积层进行特征预测,在通过折叠最近邻超越上采样进行最终特征图的扩大,生成与步骤1中所述的输入图像同样尺寸的预测分割特征图,再通过双曲正切激活函数激活层对预测分割特征图进行激活加快训练收敛,得到训练后的预测分割特征图。
本发明通过双曲正切激活函数激活层对预测分割特征图进行激活加快训练收敛,使得训练后输出的预测分割特征图的质量更好。
优选的,所述步骤9中生成器的训练总损失的计算步骤如下所述:
所述步骤9中生成器的训练总损失的计算步骤如下所述:
通过L1损失函数计算预测分割特征图和图像真值间的损失,得到生成结果损失;
通过L2损失函数计算步骤3得目标数量和目标数量真值间的损失,得到生成器计数损失;
通过L2损失函数计算生成器判别矩阵和验证真矩阵间的损失,得到生成器的判别损失;
将生成结果损失、生成器计数损失和生成器的判别损失进行加权后相加得到所述生成器的训练总损失。
本发明通过L1和L2损失函数,可以根据具体使用环境调整计数和分割的权重来提升训练效果。
优选的,所述步骤12包括以下步骤:
步骤12.1:将融合特征图的周围进行大小为4的空白像素补充;避免了后续融合特征图中出现奇数边长导致特征丢失;
步骤12.2:对经过步骤12.1处理后的融合特征图送入1个大小为8*8且步长为2的卷积层中进行大感知度的特征提取并融合;
步骤12.3:对经过步骤12.2处理后的融合特征图的周围进行大小为3的空白像素补充; 避免了后续融合特征图中出现奇数边长导致特征丢失;
步骤12.4:将经过步骤12.3处理后的融合特征图送入1个大小为6*6且步长为2的卷积层中进行第二次特征提取;
步骤12.5:对经过步骤12.4处理后的融合特征图的周围进行大小为2的空白像素补充;避免了后续融合特征图中出现奇数边长导致特征丢失;
步骤12.6:将经过步骤12.5处理后的融合特征图送入两个连续的大小为4*4且步长为2的卷积层中进行第三次特征提取,得到第一深层判别特征图。
本发明的步骤12中包括了4个特征提取模块,每个模块由一个卷积层和相关的复杂功能层构成。这四个特征提取模块的感知域逐渐缩小,在前期能快速提取特征,获得更大范围的结构相关性同时快速缩小特征图大小,减少计算量,之后使特征的提取逐步细致化以获得更精确的特征值。
优选的,所述步骤13中将步骤12得到的第一深层判别特征图送入1个大小为3*3且步长为1的卷积层中进行结构特征判断,输出一个包含结构性差异的预测假判别矩阵。
进一步的,所述卷积层计算后,均需要将卷积层的计算结果分别进行一次实例均一化和泄露线性整流函数激活,防止训练过程中的梯度丢失或者梯度爆炸。
优选的,所述步骤15包括以下步骤:
通过L2损失函数分别计算预测真判别矩阵和验证真矩阵与验证假矩阵的损失,并求和,得到预测真判别损失;
通过L2损失函数分别计算预测假判别矩阵和验证真矩阵和验证假矩阵的损失,并求和,得到预测假判别损失;
计算预测真判别损失和预测假判别损失的平均值,将平均值作为协调判别器的训练总损失。
本发明的有益效果包括:
1、本申请提供了一种轻量级、快速的多尺度特征融合多任务生成器(Lightweightand Fast Multi-scale-feature-fusion Multitask Generator, 以下简称LFMMG),实现了不基于点标记的计数和清晰的目标的位置预测。与U型结构网络(U-Net)相比,本申请的LFMMG减少了50%以上的参数数量,其特征提取编码器的大小只有VGG16的37%。通过减少内插上采样层的数量和使用FBU(Fold Beyond-nearest Up-sampling method,以下简称FBU),本申请显著减少了解码器中的计算量和内存消耗。通过全局平均池化和卷积层的搭配,使本申请的生成器能够兼容任意尺寸的图像输入,而非如使用全连接层这样只能兼容固定的输入图像尺寸。
2、本发明优化了超分辨率测试序列16模型(Visual Geometry Group 16, 以下简称VGG16)的经典设计,只有VGG16的37%的体积。
3、本发明在预测器阶段,本申请对每个任务设置了独立的预测器,以满足不同任务的独特需求;同时,本申请的网络模型能够兼容不同大小的输入图像,提高了网络的泛用性。另一方面,本申请将基于密度图的目标数量统计任务拆分为了数量预测和位置预测两个任务,减轻了学习难度,也扩大了预训练时数据集的可使用范围。
4、在编码器中,本申请优化了模型的结构设计。本申请使用了8个向下采样单元,其大小仅为VGG16的一半。这为进一步添加解码器留下了大量内存。下采样单元采用步长为2的卷积层,在提取特征的同时减小了特征映射的大小,避免了使用池化层造成的特征丢失。
5、本申请提出了“折叠最近邻超越上采样方法”(FBU)来扩展特征图的大小。在研究和比较了各种上采样方法之后,本申请设计了FBU,这将在下一节中介绍。与传统的最近邻插值法相比,FBU法计算过程简单,可以加快模型的计算速度。此外,FBU不仅扩大了特征尺寸,还减少了插值上采样层的外部误差。此外,与传统的无学习上采样方法(如最近邻上采样和双线性插值上采样)相比,FBU具有可学习性。本申请添加了可学习的参数,使FBU更好地放大图像中的边界变化。
6、本发明提供了一整套完整的基于生成对抗网络的多任务生成器训练方法。该训练方法能够训练同时进行预测图像生成和数据预测的多任务生成器。该训练方法通过使用协调判别器和范数联合混合损失函数的使用,提高了生成器的训练速度,使网络的训练可以更快完成。
7、本发明使用了协调判别器来分别比较预测分割特征图与真值图像与原始图像的的差距,使生成器在学习了与数据预测的特征提取时也能进一步关注于图像的整体轮廓变化,使预测分割特征图像能够进一步的贴近真值图像。
8、本发明提供了针对预测图像生成和数据预测训练的模式化的范数联合混合损失函数,降低了对训练人员数学能力的要求,该损失函数可以很好的兼容计数和分割两个任务的训练,同时可以根据使用场景调整两个任务的权重以获得更好的训练效果。
附图说明
图1为本发明的轻量化高效多尺度特征融合多任务生成器的示意图。
图2为本发明的折叠最近邻超越上采样(FBU)方法的示意图。
图3为本发明的协调判别器的示意图。
图4为本发明的训练流程的网络迭代更新示意图。
图5为本发明的实施例的细胞显微镜图像。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图1、附图2、附图3、附图4和附图5对本发明的实施例作进一步的详细说明:
一种基于生成对抗网络的轻量化高效目标分割与计数方法,包括以下步骤:
步骤1:获取输入图像:将所有输入图像处理为同一尺寸,并将输入图像的真值处理为与训练图像相同的尺寸,使输入图像与图像真值一一对应;且在步骤1中可以适当的缩小输入图像的尺寸从而减小计算机运行的负担;
步骤2:将经过步骤1处理的输入图像送进下采样编码器进行特征提取,得到最深层特征图;
所述的下采样编码器包括6组下采样模块,前5个下采样模块的结构相同,均包括一个步长为2的卷积层、1个实例均一化层和1个带泄露线性整流函数激活层(LinearRectifier Function with Leak,以下简称Leaky ReLU);最后一个下采样模块包括1个卷积层、1个随机失活(dropout)层用于防止过拟合和1个带泄露线性整流函数。输入图像依次经过了6组下采样模块获得了被缩小了64倍的最深层特征图。
本申请使用了6个向下采样单元,其大小仅为经典特征提取模型VGG16(VisualGeometry Group 16, 以下简称VGG16)的不到一半。这为进一步添加解码器留下了大量内存冗余。下采样单元采用步长为2的卷积层,在提取特征的同时减小了特征映射的大小,避免了使用池化层造成的特征丢失。
步骤3:将最深层特征图送入计数层预测整张输入图像中的目标数量;
所述的计数层包括1个全局平均池化层和1个卷积层。
使用全局平均池化层将最深层特征图收拢为一个固定大小的特征图,使固定卷积层对其进行预测,这使网络能适应不同尺寸的输入图片,提高了模型的泛用性。
步骤4:将最深层特征图送入折叠最近邻超越上采样模块,得到扩展特征图;
步骤4中所述的折叠最近邻超越上采样模块包括1个卷积层、2个矩阵展平计算和2个线性映射矩阵重构计算;
当最深层特征图被送入折叠最近邻超越上采样模块后,先通过卷积层运算,在图片通道中生成扩展图像所需的新增像素;
对获得新增像素的最深层特征图进行一次矩阵的展平,然后将展平后的拉伸为线性向量后进行线性映射矩阵重构计算;即将所述线性向量按照扩展后的高与原始的最深层特征图的宽进行排列,使新增像素转移到原始的最深层特征图的高上,得到扩展特征图。
在进行图像宽上的运行时,将其他新增像素重构到图像的宽上,完成图像在尺寸上的扩大;对于一个尺寸为
Figure 782971DEST_PATH_IMAGE001
Figure 28007DEST_PATH_IMAGE002
Figure 542165DEST_PATH_IMAGE003
的图像
Figure 219265DEST_PATH_IMAGE004
,若需要将其扩大
Figure 564796DEST_PATH_IMAGE005
倍到
Figure 918417DEST_PATH_IMAGE006
Figure 716609DEST_PATH_IMAGE007
Figure 197400DEST_PATH_IMAGE008
,具体的步骤如下:
先将图像的通道数
Figure 397437DEST_PATH_IMAGE009
通过卷积层扩展为
Figure 187538DEST_PATH_IMAGE010
;然后扩展后的图像
Figure 207447DEST_PATH_IMAGE011
会从水平方向被展平为一个一维向量
Figure 491929DEST_PATH_IMAGE012
,然后向量
Figure 546472DEST_PATH_IMAGE012
会被重建为尺寸为
Figure 507475DEST_PATH_IMAGE013
Figure 280259DEST_PATH_IMAGE014
Figure 837274DEST_PATH_IMAGE015
的图像
Figure 11903DEST_PATH_IMAGE016
;然后
Figure 878228DEST_PATH_IMAGE016
会从竖直方向被展平为一个一维向量
Figure 138308DEST_PATH_IMAGE017
,然后向量
Figure 951543DEST_PATH_IMAGE018
会被重建为尺寸为
Figure 731411DEST_PATH_IMAGE019
Figure 34217DEST_PATH_IMAGE020
Figure 516014DEST_PATH_IMAGE021
的新图像,完成图像的扩大;其数学表达入下:
Figure 929677DEST_PATH_IMAGE023
其中
Figure 564052DEST_PATH_IMAGE024
为卷积核,
Figure 37759DEST_PATH_IMAGE001
Figure 6852DEST_PATH_IMAGE002
Figure 958627DEST_PATH_IMAGE003
分别为图像的宽、高、通道数,
Figure 713088DEST_PATH_IMAGE004
为原始图像,
Figure 357696DEST_PATH_IMAGE025
通道扩展的图像,
Figure 814085DEST_PATH_IMAGE026
为第一次展平的向量,
Figure 835131DEST_PATH_IMAGE027
Figure 924658DEST_PATH_IMAGE026
中的通道变换到图像的高后的图像,
Figure 5746DEST_PATH_IMAGE028
为第二次展平的向量,
Figure 949432DEST_PATH_IMAGE029
Figure 508589DEST_PATH_IMAGE030
中的通道变换到图像的宽后的图像。
步骤5:对最深层特征图和扩展特征图进行特征融合,得到第一最终特征图;在特征融合时,来自深层网络的高抽象特征会一步一步重新获得纹理、轮廓等低级特征,使图像的清晰度进一步提高;
步骤6:将第一最终特征图作为最深层特征图,并送入步骤4中,重复执行步骤4和步骤5直到得到符合要求的第二最终特征图,并将第二最终特征图送入到预测器中,得到预测分割特征图;
步骤6中所述的预测器包括尺寸为4的卷积层、折叠最近邻超越上采样(FoldBeyond-nearest Up-sampling method,以下简称FBU)和双曲正切激活函数激活层;所述第二最终特征图经过尺寸为4的卷积层进行特征预测,在通过折叠最近邻超越上采样进行最终特征图的扩大,生成与步骤1中所述的输入图像同样尺寸的预测分割特征图,再通过双曲正切激活函数激活层对预测分割特征图进行激活加快训练收敛,得到训练后的预测分割特征图。
本发明通过双曲正切激活函数激活层对预测分割特征图进行激活加快训练收敛,使得训练后输出的预测分割特征图的质量更好。
步骤7:将预测分割特征图和图像真值同时送入协调判别器,利用协调判别器学习并判断两者的图像差距,获得生成器判别矩阵;
步骤8:生成与生成器判别矩阵同样大小且值为1的验证真矩阵和值为0的验证假矩阵;
步骤9:基于步骤3得到的目标数量、步骤6得到的预测分割特征图、步骤7得到的生成器判别矩阵以及步骤8生成的验证真矩阵计算生成器的训练总损失;
所述步骤9中生成器的训练总损失的计算步骤如下所述:
通过L1损失函数计算预测分割特征图和图像真值间的损失,得到生成结果损失;具体表达式如下所述:
Figure 972063DEST_PATH_IMAGE031
Figure 692894DEST_PATH_IMAGE032
Figure 123875DEST_PATH_IMAGE033
式中:
Figure 221144DEST_PATH_IMAGE034
为图像数量,
Figure 257233DEST_PATH_IMAGE035
为图像序号,
Figure 899698DEST_PATH_IMAGE036
为图像的数据真值,
Figure 817976DEST_PATH_IMAGE037
为生成器生成的预测结果,
Figure 718936DEST_PATH_IMAGE038
为图像的图像真值,
Figure 140690DEST_PATH_IMAGE039
为第
Figure 219635DEST_PATH_IMAGE040
张图的预测分割特征图,
Figure 625209DEST_PATH_IMAGE041
为预测结果损失的权重,
Figure 329860DEST_PATH_IMAGE042
为预测分割特征图损失的权重。由于在生成器的前段就进行了特征到数据预测的预测,使用前段的数据预测结果对于生成器的特征提取方向有着更大的影响,为了平衡两种任务的权重,默认设计预测结果损失权重
Figure 871700DEST_PATH_IMAGE041
的值为0.5,而预测分割特征图损失的权重
Figure 121546DEST_PATH_IMAGE042
的值为100。该权重值可以根据任务的种类和需求进行微调,例如,图像特征不明显复杂度高生成作业较为困难的情况下,可以适当上调
Figure 748837DEST_PATH_IMAGE042
的值,或者下调
Figure 991599DEST_PATH_IMAGE041
的值。
考虑到判别器对生成器任务关注度分配的影响,在训练生成器时,需要假设生成的图片是完全真实可靠的分割图片来计算生成的判别损失。图像的像素值间差距通常使用L2损失函数进行计算,通过L2损失函数计算生成器判别矩阵与验证真矩阵间的损失,具体表达式如下所述:
Figure 387946DEST_PATH_IMAGE043
式中:
Figure 261224DEST_PATH_IMAGE044
为图像数量,
Figure 126543DEST_PATH_IMAGE045
为图像序号,
Figure 907417DEST_PATH_IMAGE046
Figure 423849DEST_PATH_IMAGE047
张图片的生成器判别矩阵,
Figure 264766DEST_PATH_IMAGE048
为验证真矩阵。
将生成结果损失和生成器的判别损失进行加权后相加得到所述生成器的训练总损失。具体表达式如下:
Figure 617381DEST_PATH_IMAGE050
式中:
Figure 201946DEST_PATH_IMAGE051
为图像数量,
Figure 572885DEST_PATH_IMAGE052
为图像序号,
Figure 584703DEST_PATH_IMAGE053
Figure 159035DEST_PATH_IMAGE054
张图片的生成器判别矩阵,valid为验证真矩阵,
Figure 547291DEST_PATH_IMAGE055
为图像的数据真值,
Figure 772736DEST_PATH_IMAGE056
为生成器生成的预测结果,
Figure 221035DEST_PATH_IMAGE057
为图像的图像真值,
Figure 282663DEST_PATH_IMAGE058
为第
Figure 474610DEST_PATH_IMAGE059
张图的预测分割特征图,
Figure 288982DEST_PATH_IMAGE060
为预测结果损失的权重,
Figure 173761DEST_PATH_IMAGE061
为预测分割特征图损失的权重。
本发明通过L1和L2损失函数,可以根据具体使用环境调整计数和分割的权重来提升训练效果。
步骤10:将生成器的训练总损失送回网络进行网络迭代更新学习,完成一轮生成器的训练;
步骤11:将经过步骤1处理后的输入图像和步骤6中得到的预测分割特征图在图像通道上进行融合得到融合特征图,并将融合特征图送入协调判别器;具体如下式所述:
输入图像
Figure 722685DEST_PATH_IMAGE062
和预测分割特征图
Figure 452744DEST_PATH_IMAGE063
在图像通道上进行特征融合来获得判别矩阵的输入特征图
Figure 387202DEST_PATH_IMAGE064
Figure 177303DEST_PATH_IMAGE065
式中:
Figure 213524DEST_PATH_IMAGE066
表示输入图像
Figure 481694DEST_PATH_IMAGE067
和预测分割特征图
Figure 536238DEST_PATH_IMAGE068
维持了图像的宽高不变,矩阵符合[]表示输入图像
Figure 497240DEST_PATH_IMAGE069
和预测分割特征图
Figure 755178DEST_PATH_IMAGE070
通道维度进行了相加。
步骤12:融合特征图在协调判别器中经过4个特征提取卷积模块后,得到第一深层判别特征图;
每个所述特征提取卷积模块一个卷积层和相关的复杂功能层构成。这四个特征提取模块的感知域逐渐缩小,在前期能快速提取特征,获得更大范围的结构相关性同时快速缩小特征图大小,减少计算量,之后使特征的提取逐步细致化以获得更精确的特征值。
步骤12.1:将融合特征图的周围进行大小为4的空白像素补充;避免了后续融合特征图中出现奇数边长导致特征丢失;
步骤12.2:对经过步骤12.1处理后的融合特征图送入1个大小为8*8且步长为2的卷积层中进行大感知度的特征提取并融合;
步骤12.3:对经过步骤12.2处理后的融合特征图的周围进行大小为3的空白像素补充; 避免了后续融合特征图中出现奇数边长导致特征丢失;
步骤12.4:将经过步骤12.3处理后的融合特征图送入1个大小为6*6且步长为2的卷积层中进行第二次特征提取;
步骤12.5:对经过步骤12.4处理后的融合特征图的周围进行大小为2的空白像素补充;避免了后续融合特征图中出现奇数边长导致特征丢失;
步骤12.6:将经过步骤12.5处理后的融合特征图送入两个连续的大小为4*4且步长为2的卷积层中进行第三次特征提取,得到第一深层判别特征图。
所述卷积层计算后,均需要将卷积层的计算结果分别进行一次实例均一化和泄露线性整流函数激活,防止训练过程中的梯度丢失或者梯度爆炸。
步骤13:将步骤12得到的第一深层判别特征图输入到结构特征判断层,获得包含结构性差异的预测假判别矩阵;
所述步骤13中将步骤12得到的第一深层判别特征图送入1个大小为3*3且步长为1的卷积层中进行结构特征判断,输出一个包含结构性差异的预测假判别矩阵。
所述卷积层计算后,均需要将卷积层的计算结果分别进行一次实例均一化和泄露线性整流函数激活,防止训练过程中的梯度丢失或者梯度爆炸。
步骤14:将经过步骤1处理后的输入图像和真值图像在图像通道上融合并送入协调判别器中,经过4个特征提取卷积模块后,得到第二深层判别特征图,再将第二深层判别特征图输入由一个卷积层组成的结构特征判断层,得到预测真判别矩阵;
步骤15:基于步骤8得到的验证真矩阵和验证假矩阵、步骤13得到的预测假判别矩阵和步骤14得到的预测真判别矩阵计算协调判别器的训练总损失;
具体的:
通过L2损失函数分别计算预测真判别矩阵和验证真矩阵与验证假矩阵的损失,并求和,得到预测真判别损失;具体表达式如下:
Figure 827039DEST_PATH_IMAGE072
式中:
Figure 1668DEST_PATH_IMAGE073
为图像数量,
Figure 867993DEST_PATH_IMAGE074
为图像序号,
Figure 331335DEST_PATH_IMAGE075
Figure 488778DEST_PATH_IMAGE076
张图片的预测真判别矩阵,
Figure 721177DEST_PATH_IMAGE077
为验证真矩阵,
Figure 587764DEST_PATH_IMAGE078
为验证假矩阵。
通过L2损失函数分别计算预测假判别矩阵和验证真矩阵和验证假矩阵的损失,并求和,得到预测假判别损失;具体表达式如下:
Figure 335140DEST_PATH_IMAGE080
式中:
Figure 748804DEST_PATH_IMAGE081
为图像数量,
Figure 632446DEST_PATH_IMAGE082
为图像序号,
Figure 845166DEST_PATH_IMAGE083
Figure 814259DEST_PATH_IMAGE084
张图片的预测真判别矩阵,
Figure 766035DEST_PATH_IMAGE077
为验证真矩阵,
Figure 769763DEST_PATH_IMAGE078
为验证假矩阵。
要使得协调判别器具备判断预测分割特征图质量的能力,所以协调判别器既不能只提取真值的特征,也不能只提取预测分割特征图的特征,需要做到两者同时兼顾,才能帮助我们在训练生成器时判断预测分割特征图的质量,辅助纠正生成器在数据预测时的学习注意力偏差。因此通过计算预测真判别损失和预测假判别损失的平均值,将平均值作为协调判别器的训练总损失;具体表达式如下:
Figure DEST_PATH_IMAGE085
其中
Figure DEST_PATH_IMAGE086
是预测真判别矩阵和验证真矩阵与验证假矩阵的
Figure DEST_PATH_IMAGE087
损失,
Figure DEST_PATH_IMAGE088
是预测假判别矩阵和验证真矩阵与验证假矩阵的
Figure 774890DEST_PATH_IMAGE087
损失。
步骤16:将步骤15得到的训练总损失送回网络进行网络迭代更新学习,完成一轮协调判别器的训练,得到经过一轮训练的协调判别器,并保存步骤10中得到的生成器以及本步骤得到的协调判别器;
步骤17:重复步骤2到步骤16,直至获得符合预定条件的生成器和协调判别器。
基于上述技术方案本发明构建出了一种轻量级、高效的多尺度特征融合多任务生成器;该生成器可以通过使用只有目标总数标记和目标区域标记的数据集来训练,能够同时完成目标总数的预测和目标位置分割的预测;解决了密度图方法只能使用密度图数据集的局限性,以及简单回归方法缺失目标位置信息的缺陷。
本申请的方法使用了编解码器的模型框架。虽然基于编解码器分割模型的多尺度特征融合能够很好地生成具有良好低层级特征的分割图像,但这种结构复杂,模型占用大量内存,不能满足本申请轻量级的目标。然而,如果没有编码器-解码器体系结构,这类模型的性能不能满足本发明的所需。但是,本发明注意到基于VGG16的特征提取网络已经具有良好的特征提取能力,并且在网络结构中有很多冗余。
因此,在编码器中,本申请优化了模型的结构设计。本申请使用了6个向下采样单元,其大小仅为经典特征提取模型VGG16的不到一半。这为进一步添加解码器留下了大量内存冗余。下采样单元采用步长为2的卷积层,在提取特征的同时减小了特征映射的大小,避免了使用池化层造成的特征丢失。
在解码器中,本申请总共通过步骤4和步骤6中的五个FBU块将图像放大36倍,每个FBU块可以将图像放大两倍。每个FBU块包含一个FBU层、一个实例归一化层和一个带泄露线性整流函数(Linear Rectifier Function with Leak, Leaky ReLU)激活层。然而,单独使用上采样方法容易使生成的图像模糊,而且深处的特征图因为对特征进行了高度抽象话所以会丢失很多图像轮廓纹路相关低级特征。本申请利用U-Net的成功经验,通过多尺度特征融合来缓解这一问题。FBU块放大深度的特征映射后,它将与编码器中相同大小的特征映射融合。通过逐级将下采样中的特征图融合回去,本申请逐步恢复了特征图中的低级特征,使图像的纹理轮廓更加准确。
本申请设计了另一个独立的输出层来预测细胞数量。基于全卷积网络的思想,本申请使用了1×1卷积层。同时,本申请建立了全局平均池层,这样网络克服了传统网络使用全连接层时只能使用固定大小的输入图片的缺陷,可以容纳不同大小的输入图像。这种直接预测方法克服了基于点标记的数据集计数的局限性,使本申请的网络可以使用只有目标总数标记的数据集进行训练。
为让本领域的技术人员更好的了解本发明,以下结合附图1和附图5对本实施例的具体使用流程进行讲解:
细胞显微镜图像中的细胞计数与分割:
步骤1,图像预处理;
将训练图像处理为同一尺寸,可适当缩小图像尺寸减少计算机运算负担。同理,将图像真值处理为训练图像同一尺寸,使输入图像与图像真值能够一一对应。为了简便运算,本申请将数据集的图像处理为了960×960的大小。
步骤2,将训练图像输入进编码器进行特征提取。
步骤3,在编码器中,图像依次经过了6组下采样模块获得了被缩小了64倍的最深层特征图。
步骤4,最深层特征图将被送入一个计数层,预测得到整张输入图片中的细胞数量。
步骤5,最深层特征图被送入折叠最近邻超越上采样(FBU)模块中。
步骤6,经过上采样模块扩展后的特征图,会与下采样过程中生成的尺寸相同的特征图进行特征融合。
步骤7,经过5组FBU和特征融合后生成的最终特征图会被送入到预测器中,在预测器中最终特征图会经过一个卷积层进行特征预测,然后通过一个FBU进行扩展生成与原始图像同样尺寸的预测分割特征图,最后通过双曲正切激活函数激活层,输出预测的细胞分割图像。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (10)

1.一种基于生成对抗网络的轻量化高效目标分割与计数方法,其特征在于,包括以下步骤:
步骤1:获取输入图像:将所有输入图像处理为同一尺寸,并将输入图像的真值处理为与训练图像相同的尺寸,使输入图像与图像真值一一对应;
步骤2:将经过步骤1处理的输入图像送进下采样编码器进行特征提取,得到最深层特征图;
步骤3:将最深层特征图送入计数层预测整张输入图像中的目标数量;
步骤4:将最深层特征图送入折叠最近邻超越上采样模块,得到扩展特征图;
步骤5:对最深层特征图和扩展特征图进行特征融合,得到第一最终特征图;
步骤6:将第一最终特征图作为最深层特征图,并送入步骤4中,重复执行步骤4和步骤5直到得到符合要求的第二最终特征图,并将第二最终特征图送入到预测器中,得到预测分割特征图;
步骤7:将预测分割特征图和图像真值同时送入协调判别器,利用协调判别器学习并判断两者的图像差距,获得生成器判别矩阵;
步骤8:生成与生成器判别矩阵同样大小且值为1的验证真矩阵和值为0的验证假矩阵;
步骤9:基于数据集自带的目标数量真值、步骤1获得的输入图像真值,步骤3得到的目标数量、步骤6得到的预测分割特征图、步骤7得到的生成器判别矩阵以及步骤8生成的验证真矩阵计算生成器的训练总损失;
步骤10:将生成器的训练总损失送回生成器网络进行网络迭代更新学习,完成一轮生成器的训练,得到经过一轮训练的生成器;
步骤11:将经过步骤1处理后的输入图像和步骤6中得到的预测分割特征图在图像通道上进行融合得到融合特征图,并将融合特征图送入协调判别器;
步骤12:融合特征图在协调判别器中经过4个特征提取卷积模块后,得到第一深层判别特征图;
步骤13:将步骤12得到的第一深层判别特征图输入到由一个卷积层组成的结构特征判断层,获得包含结构性差异的预测假判别矩阵;
步骤14:将经过步骤1处理后的输入图像和真值图像在图像通道上融合并送入协调判别器中,经过4个特征提取卷积模块后,得到第二深层判别特征图,再将第二深层判别特征图输入由一个卷积层组成的结构特征判断层,得到预测真判别矩阵;
步骤15:基于步骤8得到的验证真矩阵和验证假矩阵、步骤13得到的预测假判别矩阵和步骤14得到的预测真判别矩阵计算协调判别器的训练总损失;
步骤16:将步骤15得到的训练总损失送回网络进行网络迭代更新学习,完成一轮协调判别器的训练,得到经过一轮训练的协调判别器,并保存步骤10中得到的生成器以及本步骤得到的协调判别器;
步骤17:重复步骤2到步骤16,直至获得符合预定条件的生成器和协调判别器。
2.根据权利要求1所述的一种基于生成对抗网络的轻量化高效目标分割与计数方法,其特征在于,步骤2中所述的下采样编码器包括6组下采样模块,前5个下采样模块的结构相同,均包括一个步长为2的卷积层、1个实例均一化层和1个带泄露线性整流函数激活层;最后一个下采样模块包括1个卷积层、1个随机失活层和和1个带泄露线性整流函数。
3.根据权利要求1所述的一种基于生成对抗网络的轻量化高效目标分割与计数方法,其特征在于,步骤3中所述的计数层包括1个全局平均池化层和1个卷积层。
4.根据权利要求1所述的一种基于生成对抗网络的轻量化高效目标分割与计数方法,其特征在于,步骤4中所述的折叠最近邻超越上采样模块包括1个卷积层、2个矩阵展平计算和2个线性映射矩阵重构计算;
当最深层特征图被送入折叠最近邻超越上采样模块后,先通过卷积层运算,在图片通道中生成扩展图像所需的新增像素;
对获得新增像素的最深层特征图进行一次矩阵的展平,然后将展平后的拉伸为线性向量后进行线性映射矩阵重构计算;即将所述线性向量按照扩展后的高与原始的最深层特征图的宽进行排列,使新增像素转移到原始的最深层特征图的高上,得到扩展特征图。
5.根据权利要求1所述的一种基于生成对抗网络的轻量化高效目标分割与计数方法,其特征在于,步骤6中所述的预测器包括尺寸为4的卷积层、折叠最近邻超越上采样和双曲正切激活函数激活层;所述第二最终特征图经过尺寸为4的卷积层进行特征预测,在通过折叠最近邻超越上采样进行最终特征图的扩大,生成与步骤1中所述的输入图像同样尺寸的预测分割特征图,再通过双曲正切激活函数激活层对预测分割特征图进行激活加快训练收敛,得到训练后的预测分割特征图。
6.根据权利要求1所述的一种基于生成对抗网络的轻量化高效目标分割与计数方法,其特征在于,所述步骤9中生成器的训练总损失的计算步骤如下所述:
通过L1损失函数计算预测分割特征图和图像真值间的损失,得到生成结果损失;
通过L2损失函数计算步骤3的目标数量和目标数量真值间的损失,得到生成器计数损失;
通过L2损失函数计算生成器判别矩阵和验证真矩阵间的损失,得到生成器的判别损失;
将生成结果损失、生成器计数损失和生成器的判别损失进行加权后相加得到所述生成器的训练总损失。
7.根据权利要求1所述的一种基于生成对抗网络的轻量化高效目标分割与计数方法,其特征在于,所述步骤12包括以下步骤:
步骤12.1:将融合特征图的周围进行大小为4的空白像素补充;
步骤12.2:对经过步骤12.1处理后的融合特征图送入1个大小为8*8且步长为2的卷积层中进行大感知度的特征提取并融合;
步骤12.3:对经过步骤12.2处理后的融合特征图的周围进行大小为3的空白像素补充;
步骤12.4:将经过步骤12.3处理后的融合特征图送入1个大小为6*6且步长为2的卷积层中进行第二次特征提取;
步骤12.5:对经过步骤12.4处理后的融合特征图的周围进行大小为2的空白像素补充;
步骤12.6:将经过步骤12.5处理后的融合特征图送入两个连续的大小为4*4且步长为2的卷积层中进行第三次特征提取,得到第一深层判别特征图。
8.根据权利要求1所述的一种基于生成对抗网络的轻量化高效目标分割与计数方法,其特征在于,所述步骤13中将步骤12得到的第一深层判别特征图送入1个大小为3*3且步长为1的卷积层中进行结构特征判断,输出一个包含结构性差异的预测假判别矩阵。
9.根据权利要求7或8所述的一种基于生成对抗网络的轻量化高效目标分割与计数方法,其特征在于,所述卷积层计算后,均需要将卷积层的计算结果分别进行一次实例均一化和泄露线性整流函数激活。
10.根据权利要求1所述的一种基于生成对抗网络的轻量化高效目标分割与计数方法,其特征在于,所述步骤15包括以下步骤:
通过L2损失函数分别计算预测真判别矩阵和验证真矩阵与验证假矩阵的损失,并求和,得到预测真判别损失;
通过L2损失函数分别计算预测假判别矩阵和验证真矩阵和验证假矩阵的损失,并求和,得到预测假判别损失;
计算预测真判别损失和预测假判别损失的平均值,将平均值作为协调判别器的训练总损失。
CN202210538605.0A 2022-05-18 2022-05-18 一种基于生成对抗网络的轻量化高效目标分割与计数方法 Active CN114648724B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210538605.0A CN114648724B (zh) 2022-05-18 2022-05-18 一种基于生成对抗网络的轻量化高效目标分割与计数方法
GB2301554.8A GB2618876B (en) 2022-05-18 2023-02-03 Lightweight and efficient object segmentation and counting method based on generative adversarial network (GAN)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210538605.0A CN114648724B (zh) 2022-05-18 2022-05-18 一种基于生成对抗网络的轻量化高效目标分割与计数方法

Publications (2)

Publication Number Publication Date
CN114648724A true CN114648724A (zh) 2022-06-21
CN114648724B CN114648724B (zh) 2022-08-12

Family

ID=81997383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210538605.0A Active CN114648724B (zh) 2022-05-18 2022-05-18 一种基于生成对抗网络的轻量化高效目标分割与计数方法

Country Status (2)

Country Link
CN (1) CN114648724B (zh)
GB (1) GB2618876B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408893A (zh) * 2023-12-15 2024-01-16 青岛科技大学 一种基于浅层神经网络的水下图像增强方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117854009A (zh) * 2024-01-29 2024-04-09 南通大学 一种交叉协作融合的轻量化跨模态人群计数方法
CN117893413B (zh) * 2024-03-15 2024-06-11 博创联动科技股份有限公司 基于图像增强的车载终端人机交互方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563274A (zh) * 2017-07-10 2018-01-09 安徽四创电子股份有限公司 一种基于对抗网络学习的视频的车辆检测方法和计数方法
CN109543740A (zh) * 2018-11-14 2019-03-29 哈尔滨工程大学 一种基于生成对抗网络的目标检测方法
CN110807762A (zh) * 2019-09-19 2020-02-18 温州大学 一种基于gan的视网膜血管图像智能分割方法
CN111144243A (zh) * 2019-12-13 2020-05-12 江苏艾佳家居用品有限公司 基于对抗学习的户型图识别方法和装置
CN111191667A (zh) * 2018-11-15 2020-05-22 天津大学青岛海洋技术研究院 基于多尺度生成对抗网络的人群计数方法
CN111402118A (zh) * 2020-03-17 2020-07-10 腾讯科技(深圳)有限公司 图像替换方法、装置、计算机设备和存储介质
CN111583109A (zh) * 2020-04-23 2020-08-25 华南理工大学 基于生成对抗网络的图像超分辨率方法
CN111723693A (zh) * 2020-06-03 2020-09-29 云南大学 一种基于小样本学习的人群计数方法
CN111738230A (zh) * 2020-08-05 2020-10-02 深圳市优必选科技股份有限公司 一种人脸识别方法、人脸识别装置及电子设备
CN111754446A (zh) * 2020-06-22 2020-10-09 怀光智能科技(武汉)有限公司 一种基于生成对抗网络的图像融合方法、系统及存储介质
CN112184654A (zh) * 2020-09-24 2021-01-05 上海电力大学 一种基于生成对抗网络的高压线路绝缘子缺陷检测方法
CN112597941A (zh) * 2020-12-29 2021-04-02 北京邮电大学 一种人脸识别方法、装置及电子设备
CN112862792A (zh) * 2021-02-21 2021-05-28 北京工业大学 一种用于小样本图像数据集的小麦白粉病孢子分割方法
CN113077471A (zh) * 2021-03-26 2021-07-06 南京邮电大学 一种基于u型网络的医学图像分割方法
KR102286455B1 (ko) * 2020-03-31 2021-08-04 숭실대학교산학협력단 인공지능을 활용한 위조 홍채 생성 방법, 이를 수행하기 위한 기록 매체 및 장치

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563274A (zh) * 2017-07-10 2018-01-09 安徽四创电子股份有限公司 一种基于对抗网络学习的视频的车辆检测方法和计数方法
CN109543740A (zh) * 2018-11-14 2019-03-29 哈尔滨工程大学 一种基于生成对抗网络的目标检测方法
CN111191667A (zh) * 2018-11-15 2020-05-22 天津大学青岛海洋技术研究院 基于多尺度生成对抗网络的人群计数方法
CN110807762A (zh) * 2019-09-19 2020-02-18 温州大学 一种基于gan的视网膜血管图像智能分割方法
CN111144243A (zh) * 2019-12-13 2020-05-12 江苏艾佳家居用品有限公司 基于对抗学习的户型图识别方法和装置
CN111402118A (zh) * 2020-03-17 2020-07-10 腾讯科技(深圳)有限公司 图像替换方法、装置、计算机设备和存储介质
KR102286455B1 (ko) * 2020-03-31 2021-08-04 숭실대학교산학협력단 인공지능을 활용한 위조 홍채 생성 방법, 이를 수행하기 위한 기록 매체 및 장치
CN111583109A (zh) * 2020-04-23 2020-08-25 华南理工大学 基于生成对抗网络的图像超分辨率方法
CN111723693A (zh) * 2020-06-03 2020-09-29 云南大学 一种基于小样本学习的人群计数方法
CN111754446A (zh) * 2020-06-22 2020-10-09 怀光智能科技(武汉)有限公司 一种基于生成对抗网络的图像融合方法、系统及存储介质
CN111738230A (zh) * 2020-08-05 2020-10-02 深圳市优必选科技股份有限公司 一种人脸识别方法、人脸识别装置及电子设备
CN112184654A (zh) * 2020-09-24 2021-01-05 上海电力大学 一种基于生成对抗网络的高压线路绝缘子缺陷检测方法
CN112597941A (zh) * 2020-12-29 2021-04-02 北京邮电大学 一种人脸识别方法、装置及电子设备
CN112862792A (zh) * 2021-02-21 2021-05-28 北京工业大学 一种用于小样本图像数据集的小麦白粉病孢子分割方法
CN113077471A (zh) * 2021-03-26 2021-07-06 南京邮电大学 一种基于u型网络的医学图像分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S. HUANG, H. ZHOU, Y. LIU AND R. CHEN: "High-Resolution Crowd Density Maps Generation With Multi-Scale Fusion Conditional GAN", 《IEEE ACCESS》 *
张致华: "基于生成对抗网络的尿沉渣显微图像合成研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408893A (zh) * 2023-12-15 2024-01-16 青岛科技大学 一种基于浅层神经网络的水下图像增强方法
CN117408893B (zh) * 2023-12-15 2024-04-05 青岛科技大学 一种基于浅层神经网络的水下图像增强方法

Also Published As

Publication number Publication date
CN114648724B (zh) 2022-08-12
GB2618876A (en) 2023-11-22
GB2618876B (en) 2024-06-12

Similar Documents

Publication Publication Date Title
CN114648724B (zh) 一种基于生成对抗网络的轻量化高效目标分割与计数方法
CN110443842B (zh) 基于视角融合的深度图预测方法
CN111767979B (zh) 神经网络的训练方法、图像处理方法、图像处理装置
CN111160085A (zh) 一种人体图像关键点姿态估计方法
CN112507777A (zh) 一种基于深度学习的光学遥感图像舰船检测与分割方法
CN112418074A (zh) 一种基于自注意力的耦合姿态人脸识别方法
CN110059741A (zh) 基于语义胶囊融合网络的图像识别方法
CN109657583A (zh) 脸部关键点检测方法、装置、计算机设备和存储介质
CN103839223A (zh) 图像处理方法及装置
CN110853119B (zh) 一种鲁棒的基于参考图片的妆容迁移方法
CN113095254B (zh) 一种人体部位关键点的定位方法及系统
CN113112416B (zh) 一种语义引导的人脸图像修复方法
CN116309648A (zh) 一种基于多注意力融合的医学图像分割模型构建方法
CN112837234A (zh) 一种基于多列门控卷积网络的人脸图像修复方法
CN112132739A (zh) 3d重建以及人脸姿态归一化方法、装置、存储介质及设备
US20230153965A1 (en) Image processing method and related device
CN114463492B (zh) 一种基于深度学习的自适应通道注意力三维重建方法
CN113095251B (zh) 一种人体姿态估计方法及系统
Li et al. Detailed 3D human body reconstruction from multi-view images combining voxel super-resolution and learned implicit representation
CN114332070A (zh) 一种基于智能学习网络模型压缩的陨坑检测方法
CN110414516B (zh) 一种基于深度学习的单个汉字识别方法
CN113361378B (zh) 一种运用适应性数据增强的人体姿态估计方法
Zhang et al. Image extrapolation based on multi-column convolutional attention network
CN113344110A (zh) 一种基于超分辨率重建的模糊图像分类方法
Yu et al. MagConv: Mask-guided convolution for image inpainting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant