CN117475481A - 一种基于域迁移的夜间红外图像动物识别方法及系统 - Google Patents
一种基于域迁移的夜间红外图像动物识别方法及系统 Download PDFInfo
- Publication number
- CN117475481A CN117475481A CN202311810982.6A CN202311810982A CN117475481A CN 117475481 A CN117475481 A CN 117475481A CN 202311810982 A CN202311810982 A CN 202311810982A CN 117475481 A CN117475481 A CN 117475481A
- Authority
- CN
- China
- Prior art keywords
- image data
- domain
- image
- migration
- visible light
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013508 migration Methods 0.000 title claims abstract description 56
- 230000005012 migration Effects 0.000 title claims abstract description 56
- 241001465754 Metazoa Species 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 238000001514 detection method Methods 0.000 claims abstract description 9
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims description 2
- 238000013136 deep learning model Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 102100025901 D-dopachrome decarboxylase-like protein Human genes 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 101000720863 Homo sapiens D-dopachrome decarboxylase-like protein Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/70—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in livestock or poultry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于域迁移的夜间红外图像动物识别方法及系统,识别方法包括以下步骤:获取可见光图像数据和红外图像数据,并划分为训练集和测试集;建立用于域迁移的循环生成对抗网络模型;基于训练集对循环生成对抗网络模型进行训练,并得到域迁移网络;基于训练集对目标检测模型进行训练,并得到图像识别网络;将测试集中的红外图像数据输入到域迁移网络,并得到迁移可见光图像数据,再将迁移可见光图像数据输入图像识别网络,最终获得识别结果。识别系统包括采集模块、迁移模块、识别模块。本发明通过以上方案解决了深度学习模型中容易出现负迁移、稳定性较差等问题。
Description
技术领域
本发明涉及图像处理技术、深度学习技术等领域,具体涉及一种基于域迁移的夜间红外图像动物识别方法及系统。
背景技术
红外相机被广泛应用于野生动物的监测与保护,通过热触发来记录其前方出现的动物图像,基于这些图像可识别特定时间和地点出现的物种。相机技术的发展使得图像获取的成本降低,随着时间的发展,野外部署的红外相机增多,积累了海量的野生动物图像数据,需要耗费大量的时间进行数据筛选与挖掘。随着信息技术的发展,深度学习模型被用于红外相机图像的野生动物自动识别,提升了海量动物图像数据挖掘的速度。
红外相机夜间捕获照片时由补光灯产生特定频率的红外光,所拍摄图片为灰度图,相较于白天拍摄的彩色可见光图像,其对比度差,视觉效果模糊,使得研究人员难以辨认并标注;语义信息少,使得深度学习模型提取有用特征的难度较高。例如一种基于远域迁移学习的图像识别方法(公开号:CN114783072A),也采用了一种域迁移的方式,其为远域迁移学习(DDTL),可以提高差别较大的源域和目标域的迁移准确性,但是只适合在相关性较差的环境中使用,其本身稳定性较差,容易出现负迁移现象。
由于包含的语义信息较少,使得深度学习模型在提取有用特征方面面临一定的挑战。为了解决这一问题,本发明提出了使用循环生成对抗网络将红外图像迁移到可见光图像的方法,通过优化域迁移模型的性能,能够丰富图像特征,增强图像的轮廓表现力,从而显著提高红外场景下动物识别的准确率和稳定性。
发明内容
针对现有技术中存在未充分利用特征、检测与定位方法复杂耗时、精度不高等缺陷,本发明提出一种基于声音事件的动物识别与定位方法及系统,结合深度可分离卷积和残差注意力网络,对动物的声音事件进行检测,并进行分类识别与个体定位。
本发明技术方案及说明如下:
一种基于域迁移的夜间红外图像动物识别方法,包括以下步骤:获取可见光图像数据和红外图像数据,并划分为训练集和测试集;建立用于域迁移的循环生成对抗网络模型;基于所述训练集对所述循环生成对抗网络模型进行训练,并得到域迁移网络;基于所述训练集对目标检测模型进行训练,并得到图像识别网络;将所述测试集中的红外图像数据输入所述域迁移网络,并得到迁移可见光图像数据,再将所述迁移可见光图像数据输入图像识别网络,最终获得识别结果。
进一步的,所述目标检测模型采用YOLOv5架构的目标检测模型,YOLOv5在模型部署等方面非常有优势。
进一步的,所述的一种基于域迁移的夜间红外图像动物识别方法,还包括:
所述可见光图像数据和红外图像数据的内容为同种动物的图像数据;
所述训练集和测试集中包括有图像对,所述图像对为相对应的一组或多组可见光图像数据和红外图像数据;
所述循环生成对抗网络模型根据所述图像对进行训练,所述目标检测模型根据所述训练集中的可见光图像数据进行训练。
进一步的,所述循环生成对抗网络模型包括:生成器、判别器,其中,
所述生成器用于转换和生成图像;
所述判别器用于对所述图像进行判断,并反馈;
所述图像包括可见光图像数据和红外图像数据。
进一步的,所述循环生成对抗网络模型至少包括两个生成器和两个判别器,共四部分构成,形成两次前向传递并形成循环结构。将动物红外灰度图像作为域A,可见光图像作为域B,通过生成器和判别器的博弈训练使得域A和域B互相学习各自的分布特征,从而实现域A和域B的特征迁移。
再进一步地,所述生成器由编码模块、转换模块和解码模块三部分构成;编码模块通过各层卷积实现特征提取与压缩,转换模块将一个域的特征向量转换为另一个域的特征向量,解码模块将特征向量恢复为域迁移后的图像;
所述编码模块中,采用了跨精度卷积块来提取被输入图像的多尺度特征,跨精度卷积可动态处理输入数据在不同尺度或精度上的信息。在跨精度卷积中,卷积核的大小和步幅会自适应地根据输入图像的精度级别而变化,以便更好地捕捉不同尺度或精度下的特征。所述跨精度卷积块由4个不同尺度的卷积核并联、自适应注意力模块串联构成,实现多尺度特征动态提取;
进一步地,自适应注意力模块输出如式(1)所示:
(1)
式(1)中 为输入图像,/>为全局平均池化,/> 为尺度为1的卷积核,代表激活函数。
进一步地,跨精度卷积块动态输出融合后的多尺度特征如式(2)所示:
(2)
式(2)中为输入图像; />为多尺度卷积核,m为并联多尺度卷积核的数量,n为每个尺度卷积核的数量;/>为/>对应的自适应注意力权重系数。
所述转换模块中,由堆叠的瓶颈残差块进行深层特征提取,以及将源域图像域特征转换为目的域图像特征。
所述解码模块由两个反卷积块和一个卷积块构成。
进一步的,所述循环生成对抗网络模型的训练过程中根据损失函数更新模型参数,所述损失函数包括公式(3)、(4)、(5)、(6):
(3)
(4)
(5)
(6)
其中,公式(3)中代表判别器/>的对抗损失,公式(4)中/>代表判别器/>的对抗损失,/>代表图像B域中生成样本b的损失,/>代表图像A域中生成样本a的损失,D A 是判别生成图像是否属于A域的判别器;D B 是判别生成图像是否属于B域的判别器;P data(a) 和P data(b) 分别表示图像域A样本a的概率分布和图像域B样本b的概率分布;表示A域迁移到B域的生成器;/>表示B域迁移到A域的生成器;公式(5)表示原图像和经过两个生成器后得到的重构图像的平均误差损失;公式(6)为A域红外图像和A域重构图像在颜色和纹理结构上保持一致的约束损失,其中,a为样本图像。
总的损失函数如式(7)所示:
(7)
公式(7)中,表示原图像和经过两个生成器后得到的重构图像的平均误差损失;α和β为可调节的参数,表示平均误差损失和约束损失在总体损失中的权重。
进一步的,所述循环生成对抗网络模型中包括所述域迁移网络,该域迁移网络中包括迁移可见光图像数据的生成器,用于将所述红外图像数据转换为迁移可见光图像数据。
一种基于域迁移的夜间红外图像动物识别系统,该系统包括采集模块、迁移模块、识别模块,其中:
所述采集模块用于采集可见光图像数据和红外图像数据;
所述迁移模块用于对所述可见光图像数据和红外图像数据进行域迁移,并得到迁移后的图像数据;
所述识别模块用于对所述迁移后的图像数据进行识别,并获得识别结果。
本发明的有益效果包括有:
本发明通过采用跨精度卷积块和瓶颈结构,构建了一个循环生成对抗网络。在此网络中,通过引入约束损失,将原始红外图像与重构红外图像进行约束,通过在同一动物种类的夜间红外图像和白天可见光图像数据集的条件下进行训练,成功地实现了一种红外图像域迁移网络。该网络能够有效地生成高质量的可见光图像,从而显著提升动物夜间图像的视觉效果,并丰富图像的特征。这种改进不仅有助于研究人员更容易地进行图像辨认和标注,还能够显著提升在红外场景下的深度学习模型的动物识别率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明的流程原理示意图;
图2为本发明的循环生成对抗网络结构示意图;
图3为本发明生成器网络结构示意图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
如图1所示,本发明提供一种基于域迁移的夜间红外图像动物识别方法,包括以下步骤:
步骤一:收集同种动物的夜间红外图像以及白天彩色图像,构建红外域图像迁移和动物识别数据集,划分训练集和测试集;
步骤二:搭建基于跨精度卷积块和瓶颈结构的生成器网络、判别器网络;
步骤三:使用域迁移数据集对生成器和判别器进行训练。具体而言,将夜间红外图像输入到生成器中,从中获得生成的伪可见光图像;同时,将可见光图像输入到生成器中,得到生成的伪红外图像。通过损失函数计算误差,将误差通过反向传播反馈到网络,分别更新生成器和判别器网络的参数。这个过程不断迭代,直至生成的图像风格与输入图像相近;
步骤四:使用训练集中的可见光图像训练目标检测模型YOLOv5动物识别网络;
步骤五:将测试集中的红外图像输入到已经训练好的生成器中,得到经过域迁移后生成的可见光图像。随后,使用动物识别网络对这些图像进行动物夜间识别,得出识别结果。
在本实施例中,所述数据集经过裁剪缩放等处理,大小为256×256像素。
在本实施例中,如图2所示,所述生成器网络由编码模块、特征转换模块和解码模块组成。具体而言,在编码模块中,采用了跨精度卷积块的设计。这些跨精度卷积块由并行四个不同尺度的并联卷积核,及4个自适应注意力模块串联构成。
并联卷积核大小分别为1×1、3×3、5×5、7×7,每个尺度卷积核的数量n=7,即,/>。
通过自适应注意力模块输出不同尺度卷积核的权重系数如式(1)所示。其中,GAP (global average pooling)为全局平均池化模块,/>代表尺度为1的卷积核;
(1)
式中为输入图像,/>为全局平均池化,/>代表激活函数。
进而,在并联多尺度卷积核及自适应注意力模块输出的不同尺度卷积核的权重系数/>作用下,得到输入图像的跨精度卷积块的输出特征/>,如式(2)所示,实现自适应多尺度特征动态融合。
(2)
式中为输入图像,/>为多尺度卷积核,m为并联多尺度卷积核的数量,n为每个尺度卷积核的数量;/>为/>对应的自适应注意力权重系数。
在获得融合的多尺度特征后,通过步长为2、大小为3×3的卷积层‐实例归一化层‐ReLU层构成的卷积块对特征进行下采样,压缩特征并过滤特征中的冗余信息;特征转换模块由多个1×1卷积‐3×3卷积‐1×1卷积的瓶颈结构构成,学习输入图像的深层特征,并转换为目的域图像的特征;解码模块由两个反卷积块和一个卷积块构成,通过上采样将特征恢复为目的域图像尺寸;
在本实施例中,如图3所示,所述训练过程具体为:
首先将动物夜间红外灰度图像和可见光图像分别作为源域A、图像样本a和目标域B、图像样本b。用其对构建的多尺度循环生成对抗网络模型进行训练,获得红外域图像迁移网络,用于生成识别所用的伪可见光图像。多尺度循环生成对抗网络模型包括生成器和生成器/>,分别对应数据A到数据B和数据B到数据A的映射,二者结构相同,生成器/>为本发明所述的红外图像域迁移网络;两种判别器D B 和D A 分别对两个方向的生成数据进行判别。通过计算损失函数更新模型参数,迭代训练获得高质量的红外域图像迁移网络。
进一步地,所述总体损失函数如式(7)所示:
(7)
式(7)中,α和β为可调节的参数,表示平均误差损失和约束损失在总体损失中的权重。对抗损失L DB 核L DA 分别如式(3)和式(4)所示:
(3)
(4)
式(3)中,P data(a)和P data(b)分别表示图像域A样本a的概率分布和图像域B样本b的概率分布;G A->B 分别表示A域迁移到B域的生成器,D B 是判别图像是否属于B域的判别器。式(4)中含义相似。原图像和经过两个生成器后得到的重构图像的平均误差损失L cycle 如式(5)所示:
(5)
原始红外图像与红外域重构图像的约束损失如式(6)所示:
(6)。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此发明的原理和新颖的特征一致的最宽范围。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于域迁移的夜间红外图像动物识别方法,其特征在于,包括以下步骤:
获取可见光图像数据和红外图像数据,并划分为训练集和测试集;
建立用于域迁移的循环生成对抗网络模型;
基于所述训练集对所述循环生成对抗网络模型进行训练,并得到域迁移网络;
基于所述训练集对目标检测模型进行训练,并得到图像识别网络;
将所述测试集中的红外图像数据输入所述域迁移网络,并得到迁移可见光图像数据,再将所述迁移可见光图像数据输入图像识别网络,最终获得识别结果。
2.根据权利要求1所述的一种基于域迁移的夜间红外图像动物识别方法,其特征在于,
所述可见光图像数据和红外图像数据的内容为同种动物的图像数据;
所述训练集和测试集中包括有图像对,所述图像对为相对应的一组或多组可见光图像数据和红外图像数据;
所述循环生成对抗网络模型根据所述图像对进行训练,所述目标检测模型根据所述训练集中的可见光图像数据进行训练。
3.根据权利要求1所述的一种基于域迁移的夜间红外图像动物识别方法,其特征在于,所述循环生成对抗网络模型包括:生成器、判别器,其中,
所述生成器用于转换和生成图像;
所述判别器用于对所述图像进行判断,并反馈;
所述图像包括可见光图像数据和红外图像数据。
4.根据权利要求3所述的一种基于域迁移的夜间红外图像动物识别方法,其特征在于,所述循环生成对抗网络模型至少包括两个生成器和两个判别器,通过所述两个生成器和两个判别器构成两次前向传递并形成循环结构,所述两个生成器分别用于可见光图像数据和红外图像数据的相互转换,并获得可见光转换图像数据和红外转换图像数据,所述两个判别器分别用于对转换后的所述可见光转换图像数据和红外转换图像数据进行判断,获得判断结果并反馈。
5.根据权利要求3或权利要求4所述的一种基于域迁移的夜间红外图像动物识别方法,其特征在于,所述生成器包括:
编码模块,用于提取被输入图像的多尺度特征,所述编码模块包括并行四个不同尺度的并联卷积核构成的跨精度卷积块、四个串联的自适应注意力模块;
通过瓶颈结构堆叠进行特征转换,将压缩后的特征转换为目的图像域的特征;
通过上采样和反卷积对目的图像域的特征进行解码。
6.根据权利要求5所述的一种基于域迁移的夜间红外图像动物识别方法,其特征在于,所述自适应注意力模块的输出为 ,其公式(1)如下:
(1)
所述公式(1)中为输入图像,/>为全局平均池化,/>为尺度为1的卷积核,代表激活函数。
7.根据权利要求5所述的一种基于域迁移的夜间红外图像动物识别方法,其特征在于,所述跨精度卷积块的动态输出融合后的多尺度特征公式(2)如下:
(2)
公式(2)中为输入图像;/>为多尺度卷积核,m为并联多尺度卷积核的数量,n为每个尺度卷积核的数量;/>为/>对应的自适应注意力权重系数。
8.根据权利要求5所述的一种基于域迁移的夜间红外图像动物识别方法,其特征在于,所述循环生成对抗网络模型的训练过程中根据损失函数更新模型参数,所述损失函数包括:
A域红外图像和A域重构图像在颜色和纹理结构上保持一致的约束损失为,其公式(6)如下:
(6)
所述公式(6)中,a为样本图像,表示红外图像数据转换为可见光图像数据的生成器;/>表示可见光图像数据转换为红外图像数据的生成器;
所述网络的总损失函数L,其公式(7)如下:
(7)
所述公式(7)中,代表判别器/>的对抗损失,/>代表判别器/>的对抗损失,D A 是判别生成图像是否属于A域的判别器;D B 是判别生成图像是否属于B域的判别器;/>表示原图像和经过两个生成器后得到的重构图像的平均误差损失;α和β为可调节的参数,表示平均误差损失和约束损失在总体损失中的权重。
9.根据权利要求1所述的一种基于域迁移的夜间红外图像动物识别方法,其特征在于,所述循环生成对抗网络模型中包括所述域迁移网络,该域迁移网络中包括迁移可见光图像数据的生成器,用于将所述红外图像数据转换为迁移可见光图像数据。
10.一种基于域迁移的夜间红外图像动物识别系统,其特征在于,基于权利要求1-9任意一项所述的识别方法,该系统包括采集模块、迁移模块、识别模块,其中:
所述采集模块用于采集可见光图像数据和红外图像数据;
所述迁移模块用于对所述可见光图像数据和红外图像数据进行域迁移,并得到迁移后的图像数据;
所述识别模块用于对所述迁移后的图像数据进行识别,并获得识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311810982.6A CN117475481B (zh) | 2023-12-27 | 2023-12-27 | 一种基于域迁移的夜间红外图像动物识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311810982.6A CN117475481B (zh) | 2023-12-27 | 2023-12-27 | 一种基于域迁移的夜间红外图像动物识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117475481A true CN117475481A (zh) | 2024-01-30 |
CN117475481B CN117475481B (zh) | 2024-03-01 |
Family
ID=89629688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311810982.6A Active CN117475481B (zh) | 2023-12-27 | 2023-12-27 | 一种基于域迁移的夜间红外图像动物识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117475481B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102192211B1 (ko) * | 2020-06-23 | 2020-12-16 | 인하대학교 산학협력단 | 이미지 변환을 위한 깊이별 분리가능한 컨볼루션과 채널 어텐션을 이용한 효율적인 적대적 생성 신경망 |
CN113487503A (zh) * | 2021-07-01 | 2021-10-08 | 安徽大学 | 一种基于通道注意力生成对抗网络的pet超分辨率方法 |
US20210390339A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Depth estimation and color correction method for monocular underwater images based on deep neural network |
US20220208355A1 (en) * | 2020-12-30 | 2022-06-30 | London Health Sciences Centre Research Inc. | Contrast-agent-free medical diagnostic imaging |
CN115345773A (zh) * | 2022-08-15 | 2022-11-15 | 哈尔滨工业大学(深圳) | 基于生成对抗网络的妆容迁移方法 |
CN115546198A (zh) * | 2022-11-08 | 2022-12-30 | 长春理工大学 | 一种基于循环生成对抗网络的近红外图像彩色化方法 |
US20230162023A1 (en) * | 2021-11-25 | 2023-05-25 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Automated Transfer Learning with Domain Disentanglement |
CN116523916A (zh) * | 2023-07-03 | 2023-08-01 | 北京理工大学 | 产品表面缺陷检测方法、装置、电子设备及存储介质 |
CN116645586A (zh) * | 2023-05-30 | 2023-08-25 | 无锡学院 | 一种基于改进YOLOv5的港口集装箱损伤检测方法及系统 |
-
2023
- 2023-12-27 CN CN202311810982.6A patent/CN117475481B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210390339A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Depth estimation and color correction method for monocular underwater images based on deep neural network |
KR102192211B1 (ko) * | 2020-06-23 | 2020-12-16 | 인하대학교 산학협력단 | 이미지 변환을 위한 깊이별 분리가능한 컨볼루션과 채널 어텐션을 이용한 효율적인 적대적 생성 신경망 |
US20220208355A1 (en) * | 2020-12-30 | 2022-06-30 | London Health Sciences Centre Research Inc. | Contrast-agent-free medical diagnostic imaging |
CN113487503A (zh) * | 2021-07-01 | 2021-10-08 | 安徽大学 | 一种基于通道注意力生成对抗网络的pet超分辨率方法 |
US20230162023A1 (en) * | 2021-11-25 | 2023-05-25 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Automated Transfer Learning with Domain Disentanglement |
CN115345773A (zh) * | 2022-08-15 | 2022-11-15 | 哈尔滨工业大学(深圳) | 基于生成对抗网络的妆容迁移方法 |
CN115546198A (zh) * | 2022-11-08 | 2022-12-30 | 长春理工大学 | 一种基于循环生成对抗网络的近红外图像彩色化方法 |
CN116645586A (zh) * | 2023-05-30 | 2023-08-25 | 无锡学院 | 一种基于改进YOLOv5的港口集装箱损伤检测方法及系统 |
CN116523916A (zh) * | 2023-07-03 | 2023-08-01 | 北京理工大学 | 产品表面缺陷检测方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
戴天虹,刘超: "基于改进EfficientDet的雪豹红外相机图像检测方法", 《哈尔滨理工大学学报》, vol. 28, no. 2, 30 April 2023 (2023-04-30), pages 108 - 115 * |
Also Published As
Publication number | Publication date |
---|---|
CN117475481B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yeh et al. | Lightweight deep neural network for joint learning of underwater object detection and color conversion | |
CN107437096B (zh) | 基于参数高效的深度残差网络模型的图像分类方法 | |
CN105512289B (zh) | 基于深度学习和哈希的图像检索方法 | |
CN109523482B (zh) | 一种基于深度神经网络的对含纹理退化图像的复原方法 | |
CN109376589A (zh) | 基于卷积核筛选ssd网络的rov形变目标与小目标识别方法 | |
Zhao et al. | ADRN: Attention-based deep residual network for hyperspectral image denoising | |
CN111489304B (zh) | 一种基于注意机制的图像去模糊方法 | |
CN109919921B (zh) | 基于生成对抗网络的环境影响程度建模方法 | |
CN112037228A (zh) | 一种基于双倍注意力的激光雷达点云目标分割方法 | |
CN113688948A (zh) | 一种基于YOLO v5的附着海生物种类识别方法 | |
CN111861926B (zh) | 一种基于空域组增强机制与长短时记忆网络的图像去雨方法 | |
CN114037743A (zh) | 一种基于动态图注意力机制的秦俑三维点云鲁棒配准方法 | |
CN114926734B (zh) | 基于特征聚合和注意融合的固体废弃物检测装置及方法 | |
CN113988147A (zh) | 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置 | |
CN115170942A (zh) | 一种声音与视觉多级融合的鱼类行为识别方法 | |
CN114463176B (zh) | 基于改进esrgan的图像超分辨重建方法 | |
Chen et al. | Generalized face antispoofing by learning to fuse features from high-and low-frequency domains | |
CN116912674A (zh) | 基于改进的YOLOv5s网络模型复杂水环境下目标检测方法及系统 | |
CN115410047A (zh) | 基于改进YOLO v5s的红外图像电动自行车目标检测方法 | |
CN116385281A (zh) | 一种基于真实噪声模型与生成对抗网络的遥感图像去噪方法 | |
US20220245923A1 (en) | Image information detection method and apparatus and storage medium | |
CN110768864B (zh) | 一种网络流量批量生成图像的方法及装置 | |
CN117475481B (zh) | 一种基于域迁移的夜间红外图像动物识别方法及系统 | |
CN109583406B (zh) | 基于特征关注机制的人脸表情识别方法 | |
CN114821239B (zh) | 一种有雾环境下的病虫害检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |