CN116664990B - 伪装目标检测方法、模型训练方法、装置、设备及介质 - Google Patents

伪装目标检测方法、模型训练方法、装置、设备及介质 Download PDF

Info

Publication number
CN116664990B
CN116664990B CN202310958391.7A CN202310958391A CN116664990B CN 116664990 B CN116664990 B CN 116664990B CN 202310958391 A CN202310958391 A CN 202310958391A CN 116664990 B CN116664990 B CN 116664990B
Authority
CN
China
Prior art keywords
camouflage
target detection
image
camouflage target
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310958391.7A
Other languages
English (en)
Other versions
CN116664990A (zh
Inventor
张英杰
史宏志
温东超
赵健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310958391.7A priority Critical patent/CN116664990B/zh
Publication of CN116664990A publication Critical patent/CN116664990A/zh
Application granted granted Critical
Publication of CN116664990B publication Critical patent/CN116664990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及伪装目标检测技术领域,公开了伪装目标检测方法、模型训练方法、装置、设备及介质,伪装目标检测方法包括:获取伪装图像数据训练集;利用伪装图像数据训练集对伪装目标检测模型进行训练,生成训练完成后的伪装目标检测模型;其中,伪装目标检测模型包括浅层特征提取模块、至少一个频域感知模块、至少一个特征增强模块和特征对齐模块。本发明实现了图像中伪装物体与背景图像的分离以及对伪装目标的精准定位检测。

Description

伪装目标检测方法、模型训练方法、装置、设备及介质
技术领域
本发明涉及伪装目标检测技术领域,具体涉及伪装目标检测方法、模型训练方法、装置、设备及介质。
背景技术
伪装目标检测任务的目标不仅仅是在单个RGB(工业界的一种颜色标准)域中模拟人类的视觉能力,而是超越人类的生物视觉。伪装物体检测是指在复杂背景中识别并定位嵌入其中的物体,这些物体可能完全融入其周围环境而难以被肉眼察觉。这项技术在医学、艺术、农业等领域有广泛的应用前景,例如在医学诊断中检测隐蔽的肿瘤或病变,或在农业中检测隐蔽的害虫或病害。
然而,利用人眼的感知能力来识别伪装物体是一项极具挑战性的任务。伪装物体通常具有与周围环境相似的颜色、纹理、形状和大小等特征,而且在复杂的背景中难以分离和定位。
发明内容
有鉴于此,本发明提供了伪装目标检测方法、模型训练方法、装置、设备及介质,以解决伪装物体在复杂的背景中难以分离和定位的问题。
第一方面,本发明提供了一种伪装目标检测模型的训练方法,所述方法包括:
获取伪装图像数据训练集;伪装图像数据训练集包括多种类别的伪装目标图像和图像标注数据;
利用伪装图像数据训练集对伪装目标检测模型进行训练,生成训练完成后的伪装目标检测模型;
其中,伪装目标检测模型包括浅层特征提取模块、至少一个频域感知模块、至少一个特征增强模块和特征对齐模块;浅层特征提取模块,用于对伪装图像数据训练集中的伪装目标图像进行特征提取,生成伪装目标特征图;频域感知模块,用于对伪装目标特征图进行特征提取,生成伪装物体局部特征和伪装物体非局部特征,并将伪装物体局部特征和伪装物体非局部特征进行特征拼接,生成多尺度特征;特征增强模块,用于对多尺度特征进行增强处理,生成增强后的多尺度特征;特征对齐模块,用于对增强后的多尺度特征进行特征对齐处理和特征增强处理,生成伪装目标检测结果。
本实施例提供的一种伪装目标检测模型的训练方法,利用伪装目标图像中不同物体具有不同频域的特性,在伪装目标检测模型中设置频域感知模块,频域感知模块在挖掘伪装物体和背景之间频域信息的同时还可以利用频域内卷积实现更大的感受野,将频域信息作为区分背景和伪装目标之间的依据,实现了图像中伪装物体与背景图像的有效分离以及对伪装目标的精准定位检测。
在一种可选的实施方式中,频域感知模块,包括:
轻量化卷积分支网络,用于对伪装目标特征图进行特征提取,生成伪装物体局部特征;
非局部特征融合分支网络,用于利用频域内卷积对伪装目标特征图进行特征提取,生成伪装物体非局部特征;
特征拼接网络,用于将伪装物体局部特征和伪装物体非局部特征按照通道维度进行拼接融合,生成多尺度特征。
本实施例提供的一种伪装目标检测模型的训练方法,通过轻量化卷积分支网络和非局部特征融合分支网络提取了两种尺度的特征信息,并通过特征拼接网络将两种尺度的特征信息进行了融合,在进行特征提取的过程中保留了多种尺度的特征,使得伪装目标检测模型对不同尺度伪装物体都具有较好的检测能力。
在一种可选的实施方式中,轻量化卷积分支网络,包括:
第一平移卷积层,用于对在通道维度上对伪装目标特征图进行分组,并利用推移算子将分组后的伪装目标特征图进行平移操作;平移操作为无参操作;
激活层,用于利用激活函数对平移后的伪装目标特征图进行非线性映射处理;
第二平移卷积层,用于利用推移算子对非线性映射处理后的伪装目标特征图进行平移操作,生成伪装物体局部特征。
本实施例提供的一种伪装目标检测模型的训练方法,轻量化卷积分支网络采用了中间包含激活层的两个平移卷积层来构建高效的局部感受野,伪装目标检测模型明显的提升了对较大尺寸伪装目标的检测,对更深层的特征也起到增强作用。
在一种可选的实施方式中,第一平移卷积层,具体用于利用推移算子,将分组后的伪装目标特征图按照上下左右四个方向均分平移。
本实施例提供的一种伪装目标检测模型的训练方法,通过平移操作替代传统卷积,降低了模型参数,使得伪装目标检测模型可以在更小内存空间的设备中运行。
在一种可选的实施方式中,非局部特征融合分支网络,包括:
第一卷积层,用于对伪装目标特征图对应进行通道数降维处理;
频谱变换层,用于将通道数降维处理后的伪装目标特征图进行频谱变换;
第二卷积层,用于将频谱变换后的伪装目标特征图进行卷积操作,生成伪装物体非局部特征。
本实施例提供的一种伪装目标检测模型的训练方法,通过对伪装目标特征图进行频谱转换,引入了频域特性,可以在使得伪装目标检测模型获得图像在频域的特征,以此作为区分背景和伪装目标之间的依据。
在一种可选的实施方式中,频谱变换层,包括:
频域转换单元,用于利用快速傅里叶变换算法对通道数降维处理后的伪装目标特征图进行频域转换,生成频域特征;
卷积激活单元,用于对频域特征进行卷积处理和非线性映射处理;
空间域转换单元,用于利用反傅里叶变换算法,将卷积处理和非线性映射处理后的频域特征转换为伪装物体非局部特征;
卷积单元,用于对伪装物体非局部特征进行卷积操作,将卷积操作后的伪装物体非局部特征传输给特征拼接网络。
本实施例提供的一种伪装目标检测模型的训练方法,由于频域端的每个值都和空间域的所有值有关联,所以频域的局部卷积就相当于在空间域进行全局卷积,使得频域感知模块可以获得全局感受野。
在一种可选的实施方式中,特征拼接网络,还用于将多尺度特征进行卷积操作,以扩大模型感受野。
本实施例提供的一种伪装目标检测模型的训练方法,通过对多尺度特征进行卷积操作,扩大了模型感受野,提高了伪装目标检测模型对较大尺寸伪装目标的检测精度。
在一种可选的实施方式中,利用伪装图像数据训练集对伪装目标检测模型进行训练,生成训练完成后的伪装目标检测模型,包括:
基于伪装目标检测结果和图像标注数据分别计算交叉熵损失函数值、目标检测损失函数值和频域损失函数值;
基于交叉熵损失函数值、目标检测损失函数值和频域损失函数值计算总损失函数值;
基于总损失函数值,利用反向传播算法对伪装目标检测模型对应的模型参数进行迭代更新,直至达到预设条件,生成训练完成后的伪装目标检测模型。
本实施例提供的一种伪装目标检测模型的训练方法,现有的损失函数都是基于检测结果和真实标注之间的交叉熵等,都是基于图像空间域的,但是本实施例基于交叉熵损失函数值、目标检测损失函数值和频域损失函数值计算总损失函数值,利用背景和伪装物体之间的频域差异,提高了训练完成后的伪装目标检测模型的检测精度。
在一种可选的实施方式中,基于伪装目标检测结果和图像标注数据分别计算交叉熵损失函数值、目标检测损失函数值和频域损失函数值,包括:
基于伪装目标检测结果和图像标注数据分别计算交叉熵损失函数值和目标检测损失函数值;
基于伪装目标检测结果确定检测图像频谱坐标处的空间频率值;
基于伪装目标图像确定标注图像频谱坐标处的空间频域值;
基于检测图像频谱坐标处的空间频率值和标注图像频谱坐标处的空间频域值计算频域损失函数值。
本实施例提供的一种伪装目标检测模型的训练方法,为了适应模型对伪装物体和背景之间的区别的感知能力,通过计算频域感知损失函数值,可以自适应的关注伪装物体和背景之间的频域差异,提升伪装目标检测模型对不同物体频域的感知能力,与频域感知模块共同促进伪装目标检测模型达到高精度的稳定状态。
在一种可选的实施方式中,基于检测图像频谱坐标处的空间频率值和标注图像频谱坐标处的空间频域值计算频域损失函数值,频域损失函数值的计算公式如下所示:
上式中,FFL表示频域损失函数值,MN分别表示检测图像的尺寸,(uv)表示空间频率在频谱上的坐标,F ruv)表示检测图像频谱坐标(uv)处的空间频率值,F fuv)表示标注图像频谱坐标(uv)处的空间频域值。
在一种可选的实施方式中,基于交叉熵损失函数值、目标检测损失函数值和频域损失函数值计算总损失函数值,总损失函数值的计算公式如下所示:
上式中,L B表示总损失函数值,L BCE表示交叉熵损失函数值,L iou表示目标检测损失函数值,、/>分别表示预设系数。
在一种可选的实施方式中,利用反向传播算法对伪装目标检测模型对应的模型参数进行迭代更新,直至达到预设条件,生成训练完成后的伪装目标检测模型,包括:
利用反向传播算法对伪装目标检测模型对应的模型参数进行迭代更新,当总损失函数值和小于预设阈值时,得到训练完成后的伪装目标检测模型;
或,当迭代次数达到预设迭代次数时,得到训练完成后的伪装目标检测模型。
本实施例提供的一种伪装目标检测模型的训练方法,通过对预设条件的设置,实现了对伪装目标检测模型的有效训练。
在一种可选的实施方式中,在获取伪装图像数据训练集之前,还包括:
获取多种类别的伪装目标图像,对多种类别的伪装目标图像进行标注,生成图像标注数据;
基于多种类别的伪装目标图像和图像标注数据构建伪装目标图像数据集;
将伪装目标图像数据集按照预设比例进行划分,生成伪装图像数据训练集、伪装图像数据测试集和伪装图像验证集。
本实施例提供的一种伪装目标检测模型的训练方法,将伪装目标图像数据集划分为伪装图像数据训练集、伪装图像数据测试集和伪装图像验证集,为后续伪装目标检测模型的训练提供了数据基础。
在一种可选的实施方式中,对多种类别的伪装目标图像进行标注,生成图像标注数据,包括:
对多种类别的伪装目标图像对应的类别、范围和等级进行注释,生成注释数据;
对多种类别的伪装目标图像分别进行框级别的标注、或对象级别的标注、或实例级别的标注,生成级别标注数据;
基于注释数据和级别标注数据确定图像标注数据。
本实施例提供的一种伪装目标检测模型的训练方法,通过对多种类别的伪装目标图像进行标注,为后续伪装目标检测模型的损失函数的计算奠定了基础,提高了损失函数的计算精度。
在一种可选的实施方式中,还包括:
分别利用伪装图像数据测试集和伪装图像验证集对训练完成后的伪装目标检测模型进行测试验证,根据验证测试结果调整训练完成后的伪装目标检测模型对应的模型参数,生成测试验证后的伪装目标检测模型。
本实施例提供的一种伪装目标检测模型的训练方法,利用伪装图像数据测试集和伪装图像验证集对训练完成后的伪装目标检测模型进行测试验证,实现了对伪装目标检测模型精度的进一步提高。
第二方面,本发明提供了一种伪装目标检测方法,基于第一方面或其对应的任一实施方式的伪装目标检测模型的训练方法实现,方法包括:
采集待检测图像,对待检测图像进行预处理;
将预处理后的待检测图像输入训练完成后的伪装目标检测模型中,输出当前伪装目标检测结果。
本实施例提供的一种伪装目标检测方法,利用训练完成后的伪装目标检测模型对待检测图像进行检测,实现了对伪装目标的精准定位,提高了伪装目标检测的准确度。
第三方面,本发明提供了一种伪装目标检测模型的训练装置,装置包括:
获取模块,用于获取伪装图像数据训练集;伪装图像数据训练集包括多种类别的伪装目标图像和图像标注数据;
训练模块,用于利用伪装图像数据训练集对伪装目标检测模型进行训练,训练完成后的伪装目标检测模型;
其中,伪装目标检测模型包括浅层特征提取模块、至少一个频域感知模块、至少一个特征增强模块和特征对齐模块;浅层特征提取模块,用于对伪装图像数据训练集中的伪装目标图像进行特征提取,生成伪装目标特征图;频域感知模块,用于对伪装目标特征图进行特征提取,生成伪装物体局部特征和伪装物体非局部特征,并将伪装物体局部特征和伪装物体非局部特征进行特征拼接,生成多尺度特征;特征增强模块,用于对多尺度特征进行增强处理,生成增强后的多尺度特征;特征对齐模块,用于对增强后的多尺度特征进行特征对齐处理和特征增强处理,生成伪装目标检测结果。
第四方面,本发明提供了一种伪装目标检测装置,装置包括:
采集模块,用于采集待检测图像,对待检测图像进行预处理;
检测模块,用于将预处理后的待检测图像输入训练完成后的伪装目标检测模型中,输出当前伪装目标检测结果。
第五方面,本发明提供了一种计算机设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的伪装目标检测模型的训练方法,或者上述第二方面或其对应的任一实施方式的伪装目标检测方法。
第六方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的伪装目标检测模型的训练方法,或者上述第二方面或其对应的任一实施方式的伪装目标检测方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种伪装目标检测模型的训练方法的流程示意图;
图2是根据本发明实施例的对蝗虫图像进行框级别的标注的示意图;
图3是根据本发明实施例的对石头鱼图像进行对象级别的标注和实例级别的标注的示意图;
图4是根据本发明实施例的伪装目标检测模型的结构示意图;
图5是根据本发明实施例的特征对齐模块的结构示意图;
图6是根据本发明实施例的频域感知模块的结构示意图;
图7是根据本发明实施例的另一种伪装目标检测模型的训练方法的流程示意图;
图8是根据本发明实施例的一种伪装目标检测方法的流程示意图;
图9是根据本发明实施例的一种伪装目标检测模型的训练装置的结构框图;
图10是根据本发明实施例的一种伪装目标检测装置的结构框图;
图11是本发明实施例的计算机设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关的伪装物体检测需要使用先进的计算机视觉和机器学习技术,以从数据中学习伪装物体的特征和环境的背景信息。
传统方法通常使用手工制作的低级特征来检测伪装对象,因此在复杂场景中的性能往往不尽如人意。然而,近年来,随着深度卷积神经网络(Convolutional NeuralNetworks,CNN)的应用,基于CNN的方法已将伪装物体检测(Camouflaged ObjectDetection,COD)的性能提升到了一个新的水平。
一些基于CNN的方法尝试使用纹理增强模块或引入注意机制,以指导模型关注伪装区域。其他方法则试图借助额外的边缘信息来准确定位伪装对象。最近的研究工作则将分割伪装物体视为一个两阶段的过程,这些方法首先将整张图像分割为不同的区域,然后在每个区域内进行伪装物体检测。
总体来说COD技术主要分为以下几类:
1.基于手工特征的方法:通常使用一些手工制作的低级特征来检测伪装对象,如颜色、纹理和形状等。然而,这些方法在复杂场景中往往表现不佳。
2.基于深度学习的方法:近年来,随着深度学习技术的发展,基于深度卷积神经网络(CNN)的COD方法已经成为主流。这些方法通常使用卷积神经网络来提取图像特征,并使用分类或回归器来检测伪装对象。这些方法通常比传统方法具有更高的准确性和鲁棒性。
3.基于注意力机制的方法:这种方法试图通过增强伪装物体的纹理或引导模型关注伪装区域来提高COD性能。一些方法使用注意力机制来学习伪装物体的空间位置和形状等信息。
4.基于边缘信息的方法:这种方法试图借助额外的边缘信息准确定位伪装对象。一些方法将边缘检测算法与深度学习模型相结合,以提高COD性能。
5.基于分割的方法:最近的工作将分割伪装物体视为一个两阶段的过程。这些方法首先将整张图像分割为不同的区域,然后在每个区域内进行伪装物体检测。这种方法可以减少背景噪声的影响,并提高COD性能。
上述COD技术只是通过复杂的技术来增强图像的RGB域信息;然而,COD任务的目标不仅仅是在单个RGB域中模拟人类的视觉能力,而是应该模拟超越人类的生物视觉。
因此,为了更好地从背景中检测伪装物体,需要图像中的一些其他线索(例如,频域中的线索),并且需要更好的利用这些信息,本发明实施例提供了伪装目标检测方法、模型训练方法、装置、设备及介质。
根据本发明实施例,提供了一种伪装目标检测模型的训练方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种伪装目标检测模型的训练方法,可用于移动终端,如手机、平板电脑等,图1是根据本发明实施例的一种伪装目标检测模型的训练方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,获取伪装图像数据训练集;伪装图像数据训练集包括多种类别的伪装目标图像和图像标注数据。
具体地,在获取伪装图像数据训练集之前,还包括:获取多种类别的伪装目标图像(RGB格式),对多种类别的伪装目标图像进行标注,生成图像标注数据;基于多种类别的伪装目标图像和图像标注数据构建伪装目标图像数据集;将伪装目标图像数据集按照预设比例进行划分,生成伪装图像数据训练集、伪装图像数据测试集和伪装图像验证集。
例如,将伪装目标图像数据按照8:1:1的比例进行随机划分,其中8表示伪装图像数据训练集占所有伪装目标图像数据的比例,另外伪装图像数据测试集和伪装图像验证集各占所有伪装目标图像数据的比例为1。
进一步地,分别利用伪装图像数据测试集和伪装图像验证集对训练完成后的伪装目标检测模型进行测试验证,根据验证测试结果调整训练完成后的伪装目标检测模型对应的模型参数,生成测试验证后的伪装目标检测模型。
进一步地,对多种类别的伪装目标图像进行标注,生成图像标注数据,包括:对多种类别的伪装目标图像对应的类别、范围(即伪装对象在伪装目标图像中的位置)和等级(用于标记人员在标记的时候给标记物体的分辨程度打分)进行注释,生成注释数据;对多种类别的伪装目标图像分别进行框级别的标注、或对象级别的标注、或实例级别的标注,生成级别标注数据;基于注释数据和级别标注数据确定图像标注数据。
例如,如图2所示,以蝗虫图像为例,需要标注出该生物的类别:蝗虫;范围(即蝗虫在图像中的位置):(x,y,w,h),(x,y,w,h)为标注框的左上角坐标和长宽;等级:1表示容易分辨,2表示较难分辨,3表示很难分辨,在蝗虫图像中蝗虫是比较好分辨的,因此等级为1;并对蝗虫图像进行框级别标注;如图3所示,对石头鱼图像进行对象级别的标注和实例级别的标注,对象级别的标注和实例级别的标注为多边形标注,为相邻两个点的位置,格式为[x1,y1,x2,y2,x3,y3…]。
步骤S102,利用伪装图像数据训练集对伪装目标检测模型进行训练,训练完成后的伪装目标检测模型。
其中,伪装目标检测模型包括浅层特征提取模块、至少一个频域感知模块、至少一个特征增强模块(Calibration-free BEV Representation,简称CBR模块)和特征对齐模块(Feature Alignment Module模块,简称FAM模块);浅层特征提取模块,用于对伪装图像数据训练集中的伪装目标图像进行特征提取,生成伪装目标特征图;频域感知模块,用于对伪装目标特征图进行特征提取,生成伪装物体局部特征和伪装物体非局部特征,并将伪装物体局部特征和伪装物体非局部特征进行特征拼接,生成多尺度特征;特征增强模块,用于对多尺度特征进行增强处理,生成增强后的多尺度特征;特征对齐模块,用于对增强后的多尺度特征进行特征对齐处理和特征增强处理,生成伪装目标检测结果。
具体地,如图4所示,浅层特征提取模块采用Conv-3x3(卷积核为3x3的卷积),配置伪装目标检测模型的主干网络,主干网络由N个频域感知模块构成,频域感知模块置于主干网络的较前面层,可以让伪装目标检测模型在较浅层的网络中就具有较大的感受野,有助于检测到较大的伪装目标;而置于到主干网络的后面层数也可以提升对较小尺寸的伪装目标的检测;同时,频域感知模块数量越多,模型性能越高,但是相对应的参数量会变多,推理时间会变长。
进一步地,不同尺度大小的特征图(feature map)对不同尺度大小的伪装物体感知能力不同,为了保证对不同尺度伪装物体都具有较好的检测能力,需要提取各种尺度大小的特征图,最佳为第二层到第五层。
进一步地,特征增强模块采用链式结构,由卷积层(Conv)、正则化层(BatchNorm)和激活层(ReLU)组成,对频域感知模块输出的多尺度特征进行增强,并将增强后的多尺度特征f1、f2和f3输出到特征对齐模块。
进一步地,如图5所示,特征对齐模块首先对底层的多尺度特征f1进行上采样,然后再进行一次CBR增强,再将结果与更高一层的特征图进行乘法,这样可以使得相邻特征之间的差异减少,便于网络训练。
具体地,频域感知模块,包括:轻量化卷积分支网络,用于对伪装目标特征图进行特征提取,生成伪装物体局部特征;非局部特征融合分支网络,用于利用频域内卷积对伪装目标特征图进行特征提取,生成伪装物体非局部特征;特征拼接网络,用于将伪装物体局部特征和伪装物体非局部特征按照通道维度进行拼接融合,生成多尺度特征。
进一步地,特征拼接网络,还用于将多尺度特征进行卷积操作,以扩大模型感受野;其中,感受野为多尺度特征对应的输入空间中的区域。
进一步地,轻量化卷积分支网络采用带shift(推移)平移操作替代普通卷积,并添加残差结构,可以利用更小的计算量获得和普通卷积同样的感受野;非局部特征融合分支网络利用快速傅里叶变换将特征转换到频域,再对特征进行卷积,并添加残差结构,以此可以获得更大的感受野。
进一步地,获取轻量化卷积分支和基于频域的非局部特征提取分支的输出并按照通道维度拼接,再按照通道维度进入Conv-1x1(卷积核为1x1的卷积),使得两个分支的特征可以在通道维度进行信息交换。
具体地,如图6所示(虚线连接的各层为轻量化卷积分支网络的层级),轻量化卷积分支网络,包括:第一平移卷积层(shift-conv),用于对在通道维度上对伪装目标特征图进行分组,并利用推移算子将分组后的伪装目标特征图进行平移操作;平移操作为无参操作;激活层(ReLU),用于利用激活函数对平移后的伪装目标特征图进行非线性映射处理;第二平移卷积层(shift-conv),用于利用推移算子对非线性映射处理后的伪装目标特征图进行平移操作,生成伪装物体局部特征。
进一步地,第一平移卷积层,具体用于利用推移算子,将分组后的伪装目标特征图按照上下左右四个方向均分平移。
进一步地,轻量化卷积分支网络采用了中间包含ReLU激活函数的两个shift卷积来构建高效的局部感受野提取;其中,第一平移卷积层的功能描述如下:首先给定一个输入X(即伪装目标特征图),伪装目标特征图的形状宽高为W,H,通道数为C,其中设置W,H,C分别为256,256,64;然后将伪装目标特征图在通道维度上进行分组,由于只移动四个方向,因此分为四组,然后每一组为W,H,C/4;对每组输入进行不同方向的移位操作,以第一组为例子,在W维度上移一格,第二组在W操作反着移一格,同理另外两组在H维度上进行相同操作。
进一步地,第一平移卷积层的功能和第二平移卷积层的功能相同。
进一步地,轻量化卷积分支网络对输入X进行第一次shift卷积,然后在采用ReLU激活函数增加模型拟合非线性函数的能力,进而再进行第二次shift卷积;通过设置不同方向的shift卷积核,可以将输入特征不同通道进行平移,随后配合Conv-1x1卷积实现跨通道的信息融合,即可实现空间域和通道域的信息提取。
具体地,如图6所示(实线连接的各层为非局部特征融合分支网络的层级),非局部特征融合分支网络,包括:第一卷积层(Conv-1x1 ReLU),用于对伪装目标特征图对应进行通道数降维处理;频谱变换层(Spectral Transform),用于将通道数降维处理后的伪装目标特征图进行频谱变换;第二卷积层(Conv-1x1),用于将频谱变换后的伪装目标特征图进行卷积操作,生成伪装物体非局部特征。
进一步地,非局部特征融合分支网络的功能描述为:输入X先通过1x1卷积层(即第一卷积层),缩减通道数由64降到32;再采用快速傅里叶变换(real FFT2D),将特征转换到频域获得D1;再使用3x3卷积对D1进行卷积操作和使用激活函数获得D2;再使用反傅里叶变换(inv real FFT2D)将D2转换到空间域,生成伪装物体非局部特征。
具体地,频谱变换层,包括:频域转换单元(Real FFT2d),用于利用快速傅里叶变换算法对通道数降维处理后的伪装目标特征图进行频域转换,生成频域特征;卷积激活单元(Conv-ReLU),用于对频域特征进行卷积处理和非线性映射处理;空间域转换单元(InvReal FFT2d),用于利用反傅里叶变换算法,将卷积处理和非线性映射处理后的频域特征转换为伪装物体非局部特征;卷积单元(Conv-1x1),用于对伪装物体非局部特征进行卷积操作,将卷积操作后的伪装物体非局部特征传输给特征拼接网络。
本实施例提供的一种伪装目标检测模型的训练方法,利用伪装目标图像中不同物体具有不同频域的特性,在伪装目标检测模型中设置频域感知模块,频域感知模块在挖掘伪装物体和背景之间频域信息的同时还可以利用频域内卷积实现更大的感受野,将频域信息作为区分背景和伪装目标之间的依据,实现了图像中伪装物体与背景图像的有效分离以及对伪装目标的精准定位检测。
在本实施例中提供了一种伪装目标检测模型的训练方法,可用于上述的移动终端,如手机、平板电脑等,图7是根据本发明实施例的一种伪装目标检测模型的训练方法的流程图,如图7所示,该流程包括如下步骤:
步骤S701,获取伪装图像数据训练集;伪装图像数据训练集包括多种类别的伪装目标图像和图像标注数据。详细请参见图1所示实施例的步骤S101,在此不再赘述。
步骤S702,利用伪装图像数据训练集对伪装目标检测模型进行训练,训练完成后的伪装目标检测模型。
具体地,上述步骤S702包括:
步骤S7021,基于伪装目标检测结果和图像标注数据分别计算交叉熵损失函数值、目标检测损失函数值和频域损失函数值。
在一些可选的实施方式中,上述步骤S7021包括:
步骤a1,基于伪装目标检测结果和图像标注数据分别计算交叉熵损失函数值和目标检测损失函数值。
具体地,交叉熵损失函数值L CE的计算公式如下所示:
L CE=LRGT)(1)
上式中,R表示伪装目标检测结果,GT表示图像标注数据。
进一步地,目标检测损失函数值L iou的计算公式如下所示:
L iou=LRGT)(2)
步骤a2,基于伪装目标检测结果确定检测图像频谱坐标处的空间频率值。
具体地,为了将检测图像转换为其频率表示,进行二维离散傅里叶变换,具体计算公式如下所示:
(3)
上式中,(xy)为图像像素在空间域的坐标,M,N为检测图像的尺寸,fxy)为像素值,(uv)为空间频率在频谱上的坐标,F ruv)为复频率值,即检测图像频谱坐标处的空间频率值,ei分别为欧拉数和虚单位。
其中,公式(3)中的自然指数函数可以写成:
(4)
步骤a3,基于伪装目标图像确定标注图像频谱坐标处的空间频域值。
具体地,将伪装目标图像进行二维离散傅里叶变换,生成标注图像频谱坐标处的空间频域值,二维离散傅里叶变换的计算过程与上述公式(3)(4)相同。
步骤a4,基于检测图像频谱坐标处的空间频率值和标注图像频谱坐标处的空间频域值计算频域损失函数值。
具体地,通过一个距离度量量化伪装目标检测结果和图像标注数据在频域上的差异,为了支持随机梯度下降,这个距离必须是可微的,因此将每个频率值映射到二维空间(即平面)中的一个欧几里得向量,即,再根据图像中每个像素点求平均得到频域损失函数值,频域损失函数值的计算公式如下所示:
(5)
上式中,FFL表示频域损失函数值,MN分别表示检测图像的尺寸,(uv)表示空间频率在频谱上的坐标,F ruv)表示检测图像频谱坐标(uv)处的空间频率值,F fuv)表示标注图像频谱坐标(uv)处的空间频域值。
本实施例提供的一种伪装目标检测模型的训练方法,为了适应模型对伪装物体和背景之间的区别的感知能力,通过计算频域感知损失函数值,可以自适应的关注伪装物体和背景之间的频域差异,提升伪装目标检测模型对不同物体频域的感知能力,与频域感知模块共同促进伪装目标检测模型达到高精度的稳定状态。
步骤S7022,基于交叉熵损失函数值、目标检测损失函数值和频域损失函数值计算总损失函数值。
具体地,总损失函数值的计算公式如下所示:
(6)
上式中,L B表示总损失函数值,L BCE表示交叉熵损失函数值,L iou表示目标检测损失函数值,、/>分别表示预设系数,/>和/>设为1,也可以根据不同的情况进行调节。
步骤S7023,基于总损失函数值,利用反向传播算法对伪装目标检测模型对应的模型参数进行迭代更新,直至达到预设条件,生成训练完成后的伪装目标检测模型。
在一些可选的实施方式中,上述步骤S7023包括:
步骤b1,利用反向传播算法对伪装目标检测模型对应的模型参数进行迭代更新,当总损失函数值和小于预设阈值时,得到训练完成后的伪装目标检测模型。
步骤b2,或,当迭代次数达到预设迭代次数时,得到训练完成后的伪装目标检测模型。
具体地,选取优化器采用Adam(Adaptive Moment Estimation,自适应矩估计),初始学习率设为1e-4,在训练数据集上训练50轮,更新模型参数,得到训练好的伪装目标检测模型。
本实施例提供的一种伪装目标检测模型的训练方法,现有的损失函数都是基于检测结果和真实标注之间的交叉熵等,都是基于图像空间域的,但是本实施例基于交叉熵损失函数值、目标检测损失函数值和频域损失函数值计算总损失函数值,利用背景和伪装物体之间的频域差异,提高了训练完成后的伪装目标检测模型的检测精度。
下面通过一个具体的实施例来说明一种伪装目标检测模型的训练方法的步骤。
实施例1:
S1,构建伪装图像数据训练集,从网络收集包含1万张图像,涵盖80个被伪装的对象类别,例如自然界中的善于隐藏身形的水生,飞行,昆虫等。将所有被伪装的图像均按照类别,范围和等级进行注释,并对每个图像进行框,对象和实例级别的标注。
S2,构建伪装目标检测模型,输入图像(RGB格式)先被送入3x3卷积中,再输入到由频域感知模块组成的主干网络中。
S3,其中,频域感知模块,在此模块中输入X流入轻量化卷积分支,其中采用了中间包含ReLU激活函数的两个shift卷积来构建高效的局部感受野提取。
其中,shift-conv模块描述如下,
首先给定一个输入X(即伪装目标特征图),伪装目标特征图的形状宽高为W,H,通道数为C,其中设置W,H,C分别为256,256,64;然后将伪装目标特征图在通道维度上进行分组,由于只移动四个方向,因此分为四组,然后每一组为W,H,C/4;对每组输入进行不同方向的移位操作,以第一组为例子,在W维度上移一格,第二组在W操作反着移一格,同理另外两组在H维度上进行相同操作。
其中,shift算子的伪代码形式表达如下所示:
x[1:,:,:c/4]=x[:w-1,:,:c/4]#表示第一个c/4的特征图向左移一位
x[:w-1,:,c/4:c/2]=x[1:,:,c/4:c/2]#表示第二个c/4的特征图向右移一位
x[:,1:,c/2:c3/4]=x[:,:h-1,c/2:c/>3/4] #表示第三个c/4的特征图向上移一位
x[:,:h-1,3c/4:]=x[:,1:,3/>c/4:] #表示第四个c/4的特征图向下移一位
通过设置不同方向的shift卷积核,可以将输入特征不同通道进行平移,随后配合1x1卷积实现跨通道的信息融合,即可实现空间域和通道域的信息提取。
在此分支中,首先对输入X进行第一次shift卷积,然后再采用ReLU激活函数增加模型拟合非线性函数的能力,然后再进行第二次shift卷积。
在此模块中输入X流入非局部特征融合分支,首先对输入X进行了1x1卷积层,缩减通道数由64降到32,再采用了快速傅里叶变换,将特征转换到频域获得D1;再使用3x3卷积对D1进行卷积操作和使用激活函数ReLU获得D2,再使用反傅里叶变换将D2转换到空间域。
然后,将左边轻量化分支的输出和非局部特征融合模块按照通道维度进行拼接,并再进行1x1卷积,获得此模块的最终输出特征。
S4,使用损失函数对模型进行反向传播算法训练
具体地,离散傅里叶变换(Discrete Fourier transform,DFT)是一个复值函数,它的作用将一个离散的有限信号转换为其组成频率,即复指数波,一个图像可以被看作是一个只有实数的二维离散有限信号;因此,为了将检测图像转换为其频率表示,进行二维离散傅里叶变换,具体计算公式如下所示:
上式中,(xy)为图像像素在空间域的坐标,M,N为检测图像的尺寸,fxy)为像素值,(uv)为空间频率在频谱上的坐标,F ruv)为复频率值,即检测图像频谱坐标处的空间频率值,ei分别为欧拉数和虚单位。
其中,公式(3)中的自然指数函数可以写成:
根据上述公式(3)和公式(4),二维DFT后,将图像分解为正交的正弦和余弦函数,分别构成频率值的虚部和实部;每一个正弦或余弦都可以看作是(xy)的二值函数,其角频率由频谱位置(uv)决定,正弦和余弦的混合提供了图像的水平和垂直频率;因此,空间频率在图像中表现为二维正弦分量,光谱坐标(uv)也表示空间频率的角度方向,F ruv)表示检测图像对该频率的“响应”,由于三角函数的周期性,图像的频率表示也具有周期性。复频率值F ruv)可以作为每个波的权重,加权和在空间域对应于整个图像;因此,F ruv)是遍历空间域中每个图像像素的函数的和,因此频谱上特定的空间频率取决于所有图像像素(这也是为什么上个频域感知模块中在频域进行局部卷积(3x3卷积核)就可以获得全局感受野的原因,因为频域端的每个值都和空间域的所有值有关联,所以频域的局部卷积就相当于在空间域进行全局卷积)。
F ruv)是遍历空间域中每个图像像素的函数的和,因此频谱上特定的空间频率取决于所有图像像素,进而频域端的每个值都和空间域的所有值有关联,所以频域的局部卷积就相当于在空间域进行全局卷积,因此频域感知模块在频域进行局部卷积(3x3卷积核)时就可以获得全局感受野。
此外,通过一个距离度量量化伪装目标检测结果和图像标注数据在频域上的差异,为了支持随机梯度下降,这个距离必须是可微的,因此将每个频率值映射到二维空间(即平面)中的一个欧几里得向量,即,再根据图像中每个像素点求平均得到频域损失函数值,频域损失函数值的计算公式如下所示:
上式中,FFL表示频域损失函数值,MN分别表示检测图像的尺寸,(uv)表示空间频率在频谱上的坐标,F ruv)表示检测图像频谱坐标(uv)处的空间频率值,F fuv)表示标注图像频谱坐标(uv)处的空间频域值。
基于检测结果R和真实标注结果GT求交叉熵损失函数值、目标检测损失函数值和频域损失函数值,进而基于交叉熵损失函数值、目标检测损失函数值和频域损失函数值计算得到总损失函数值。
选取优化器采用Adam(Adaptive Moment Estimation,自适应矩估计),初始学习率设为1e-4,每训练10轮缩小10倍,所有输入图像被放缩尺寸到256x256,输入到伪装目标检测模型中计算梯度更新模型参数,每次迭代更新使用128个训练样本(batch size),在训练数据集上训练200轮,得到训练好的伪装目标检测模型。
上述实施例中,在伪装目标检测模型中设置频域感知模块的优点有:1)如果插入到模型的浅层,可以使得模型获得更大的感受野,可以使得模型明显的提升对较大尺寸伪装目标的检测,对更深层的特征也起到增强作用;2)如果插入到模型的深层,可以使得模型对小尺寸模型具备更高的关注度;3)引入了频域特性,可以在使得模型获得图像在频域的特征,以此作为区分背景和伪装目标之间的依据;4)为了更高效的运算,采用了shift操作(无参数)替代了传统卷积,降低了模型参数,使得模型可以在更小内存空间的设备中运行。
并且,在伪装目标检测中引入一种新的频域感知损失函数,以往的损失函数都是基于检测结果和真实标注之间的交叉熵等,都是基于图像空间域的,鉴于背景和伪装目标之间具备的频域差异,本发明使用频域损失函数值,有利于模型对背景和伪装目标之间频域的关注,和频域感知模块共同促进模型达到高精度的稳定状态。
在本实施例中还提供了一种伪装目标检测方法,基于上述实施例中的伪装目标检测模型的训练方法实现,可用于上述的移动终端,如手机、平板电脑等,图8是根据本发明实施例的一种伪装目标检测方法的流程图,如图8所示,该流程包括如下步骤:
步骤S801,采集待检测图像,对待检测图像进行预处理。
具体地,对检测图像进行归一化处理,或裁剪处理等。
步骤S802,将预处理后的待检测图像输入训练完成后的伪装目标检测模型中,输出当前伪装目标检测结果。
本实施例提供的一种伪装目标检测方法,利用训练完成后的伪装目标检测模型对待检测图像进行检测,实现了对伪装目标的精准定位,提高了伪装目标检测的准确度。
在本实施例中还提供了一种伪装目标检测模型的训练装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种伪装目标检测模型的训练装置,如图9所示,包括:
获取模块901,用于获取伪装图像数据训练集;伪装图像数据训练集包括多种类别的伪装目标图像和图像标注数据;
训练模块902,用于利用伪装图像数据训练集对伪装目标检测模型进行训练,训练完成后的伪装目标检测模型;
其中,伪装目标检测模型包括浅层特征提取模块、至少一个频域感知模块、至少一个特征增强模块和特征对齐模块;浅层特征提取模块,用于对伪装图像数据训练集中的伪装目标图像进行特征提取,生成伪装目标特征图;频域感知模块,用于对伪装目标特征图进行特征提取,生成伪装物体局部特征和伪装物体非局部特征,并将伪装物体局部特征和伪装物体非局部特征进行特征拼接,生成多尺度特征;特征增强模块,用于对多尺度特征进行增强处理,生成增强后的多尺度特征;特征对齐模块,用于对增强后的多尺度特征进行特征对齐处理和特征增强处理,生成伪装目标检测结果。
在一些可选的实施方式中,频域感知模块,包括:
轻量化卷积分支网络,用于对伪装目标特征图进行特征提取,生成伪装物体局部特征;
非局部特征融合分支网络,用于利用频域内卷积对伪装目标特征图进行特征提取,生成伪装物体非局部特征;
特征拼接网络,用于将伪装物体局部特征和伪装物体非局部特征按照通道维度进行拼接融合,生成多尺度特征。
在一些可选的实施方式中,轻量化卷积分支网络,包括:
第一平移卷积层,用于对在通道维度上对伪装目标特征图进行分组,并利用推移算子将分组后的伪装目标特征图进行平移操作;平移操作为无参操作;
激活层,用于利用激活函数对平移后的伪装目标特征图进行非线性映射处理;
第二平移卷积层,用于利用推移算子对非线性映射处理后的伪装目标特征图进行平移操作,生成伪装物体局部特征。
在一些可选的实施方式中,第一平移卷积层,具体用于利用推移算子,将分组后的伪装目标特征图按照上下左右四个方向均分平移。
在一些可选的实施方式中,非局部特征融合分支网络,包括:
第一卷积层,用于对伪装目标特征图对应进行通道数降维处理;
频谱变换层,用于将通道数降维处理后的伪装目标特征图进行频谱变换;
第二卷积层,用于将频谱变换后的伪装目标特征图进行卷积操作,生成伪装物体非局部特征。
在一些可选的实施方式中,频谱变换层,包括:
频域转换单元,用于利用快速傅里叶变换算法对通道数降维处理后的伪装目标特征图进行频域转换,生成频域特征;
卷积激活单元,用于对频域特征进行卷积处理和非线性映射处理;
空间域转换单元,用于利用反傅里叶变换算法,将卷积处理和非线性映射处理后的频域特征转换为伪装物体非局部特征;
卷积单元,用于对伪装物体非局部特征进行卷积操作,将卷积操作后的伪装物体非局部特征传输给特征拼接网络。
在一些可选的实施方式中,特征拼接网络,还用于将多尺度特征进行卷积操作,以扩大模型感受野。
在一些可选的实施方式中,训练模块902,包括:
第一计算子模块,用于基于伪装目标检测结果和图像标注数据分别计算交叉熵损失函数值、目标检测损失函数值和频域损失函数值;
第二计算子模块,用于基于交叉熵损失函数值、目标检测损失函数值和频域损失函数值计算总损失函数值;
迭代更新子模块,用于基于总损失函数值,利用反向传播算法对伪装目标检测模型对应的模型参数进行迭代更新,直至达到预设条件,生成训练完成后的伪装目标检测模型。
在一些可选的实施方式中,第一计算子模块,包括:
第一计算单元,用于基于伪装目标检测结果和图像标注数据分别计算交叉熵损失函数值和目标检测损失函数值;
第一确定单元,用于基于伪装目标检测结果确定检测图像频谱坐标处的空间频率值;
第二确定单元,用于基于伪装目标图像确定标注图像频谱坐标处的空间频域值;
第二计算单元,用于基于检测图像频谱坐标处的空间频率值和标注图像频谱坐标处的空间频域值计算频域损失函数值。
在一些可选的实施方式中,第二计算单元中频域损失函数值的计算公式如下所示:
上式中,FFL表示频域损失函数值,MN分别表示检测图像的尺寸,(uv)表示空间频率在频谱上的坐标,F ruv)表示检测图像频谱坐标(uv)处的空间频率值,F fuv)表示标注图像频谱坐标(uv)处的空间频域值。
在一些可选的实施方式中,第二计算子模块中总损失函数值的计算公式如下所示:
上式中,L B表示总损失函数值,L BCE表示交叉熵损失函数值,L iou表示目标检测损失函数值,、/>分别表示预设系数。
在一些可选的实施方式中,迭代更新子模块,具体用于:
利用反向传播算法对伪装目标检测模型对应的模型参数进行迭代更新,当总损失函数值和小于预设阈值时,得到训练完成后的伪装目标检测模型;
或,当迭代次数达到预设迭代次数时,得到训练完成后的伪装目标检测模型。
在一些可选的实施方式中,还包括:
标注模块,用于获取多种类别的伪装目标图像,对多种类别的伪装目标图像进行标注,生成图像标注数据;
构建模块,用于基于多种类别的伪装目标图像和图像标注数据构建伪装目标图像数据集;
划分模块,用于将伪装目标图像数据集按照预设比例进行划分,生成伪装图像数据训练集、伪装图像数据测试集和伪装图像验证集。
在一些可选的实施方式中,标注模块,包括:
注释子模块,用于对多种类别的伪装目标图像对应的类别、范围和等级进行注释,生成注释数据;
标注子模块,用于对多种类别的伪装目标图像分别进行框级别的标注、或对象级别的标注、或实例级别的标注,生成级别标注数据;
确定子模块,用于基于注释数据和级别标注数据确定图像标注数据。
在一些可选的实施方式中,还包括:
测试验证模块,用于分别利用伪装图像数据测试集和伪装图像验证集对训练完成后的伪装目标检测模型进行测试验证,根据验证测试结果调整训练完成后的伪装目标检测模型对应的模型参数,生成测试验证后的伪装目标检测模型。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
在本实施例中还提供了一种伪装目标检测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种伪装目标检测装置,如图10所示,包括:
采集模块1001,用于采集待检测图像,对待检测图像进行预处理;
检测模块1002,用于将预处理后的待检测图像输入训练完成后的伪装目标检测模型中,输出当前伪装目标检测结果。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本实施例中的伪装目标检测模型的训练装置和伪装目标检测装置是以功能单元的形式来呈现,这里的单元是指ASIC(Application Specific Integrated Circuit,专用集成电路)电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
本发明实施例还提供一种计算机设备,具有上述图9所示的伪装目标检测模型的训练装置或图10所示的伪装目标检测装置。
请参阅图11,图11是本发明可选实施例提供的一种计算机设备的结构示意图,如图11所示,该计算机设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算机设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图11中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,所述存储器20存储有可由至少一个处理器10执行的指令,以使所述至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该计算机设备还包括输入装置30和输出装置40。处理器10、存储器20、输入装置30和输出装置40可以通过总线或者其他方式连接,图11中以通过总线连接为例。
输入装置30可接收输入的数字或字符信息,以及产生与该计算机设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等。输出装置40可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。上述显示设备包括但不限于液晶显示器,发光二极管,显示器和等离子体显示器。在一些可选的实施方式中,显示设备可以是触摸屏。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (17)

1.一种伪装目标检测模型的训练方法,其特征在于,所述方法包括:
获取伪装图像数据训练集;所述伪装图像数据训练集包括多种类别的伪装目标图像和图像标注数据;
利用所述伪装图像数据训练集对伪装目标检测模型进行训练,生成训练完成后的伪装目标检测模型;
其中,所述伪装目标检测模型包括浅层特征提取模块、至少一个频域感知模块、至少一个特征增强模块和特征对齐模块;所述浅层特征提取模块,用于对所述伪装图像数据训练集中的伪装目标图像进行特征提取,生成伪装目标特征图;所述频域感知模块,用于对伪装目标特征图进行特征提取,生成伪装物体局部特征和伪装物体非局部特征,并将所述伪装物体局部特征和所述伪装物体非局部特征进行特征拼接,生成多尺度特征;所述特征增强模块,用于对所述多尺度特征进行增强处理,生成增强后的多尺度特征;所述特征对齐模块,用于对所述增强后的多尺度特征进行特征对齐处理和特征增强处理,生成所述伪装目标检测结果;
所述频域感知模块,包括:
轻量化卷积分支网络,用于对所述伪装目标特征图进行特征提取,生成所述伪装物体局部特征;
非局部特征融合分支网络,用于利用频域内卷积对所述伪装目标特征图进行特征提取,生成所述伪装物体非局部特征;
特征拼接网络,用于将所述伪装物体局部特征和所述伪装物体非局部特征按照通道维度进行拼接融合,生成所述多尺度特征;
所述非局部特征融合分支网络,包括:
第一卷积层,用于对所述伪装目标特征图对应进行通道数降维处理;
频谱变换层,用于将通道数降维处理后的伪装目标特征图进行频谱变换;
第二卷积层,用于将频谱变换后的伪装目标特征图进行卷积操作,生成所述伪装物体非局部特征;
所述频谱变换层,包括:
频域转换单元,用于利用快速傅里叶变换算法对所述通道数降维处理后的伪装目标特征图进行频域转换,生成频域特征;
卷积激活单元,用于对所述频域特征进行卷积处理和非线性映射处理;
空间域转换单元,用于利用反傅里叶变换算法,将卷积处理和非线性映射处理后的频域特征转换为所述伪装物体非局部特征;
卷积单元,用于对所述伪装物体非局部特征进行卷积操作,将卷积操作后的伪装物体非局部特征传输给所述特征拼接网络。
2.根据权利要求1所述的方法,其特征在于,所述轻量化卷积分支网络,包括:
第一平移卷积层,用于对在通道维度上对所述伪装目标特征图进行分组,并利用推移算子将分组后的伪装目标特征图进行平移操作;所述平移操作为无参操作;
激活层,用于利用激活函数对平移后的伪装目标特征图进行非线性映射处理;
第二平移卷积层,用于利用所述推移算子对所述非线性映射处理后的伪装目标特征图进行平移操作,生成所述伪装物体局部特征。
3.根据权利要求2所述的方法,其特征在于,所述第一平移卷积层,具体用于利用推移算子,将分组后的伪装目标特征图按照上下左右四个方向均分平移。
4.根据权利要求1所述的方法,其特征在于,所述特征拼接网络,还用于将所述多尺度特征进行卷积操作,以扩大模型感受野。
5.根据权利要求1所述的方法,其特征在于,所述利用所述伪装图像数据训练集对伪装目标检测模型进行训练,生成训练完成后的伪装目标检测模型,包括:
基于所述伪装目标检测结果和所述图像标注数据分别计算交叉熵损失函数值、目标检测损失函数值和频域损失函数值;
基于所述交叉熵损失函数值、所述目标检测损失函数值和所述频域损失函数值计算总损失函数值;
基于所述总损失函数值,利用反向传播算法对所述伪装目标检测模型对应的模型参数进行迭代更新,直至达到预设条件,生成所述训练完成后的伪装目标检测模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述伪装目标检测结果和所述图像标注数据分别计算交叉熵损失函数值、目标检测损失函数值和频域损失函数值,包括:
基于所述伪装目标检测结果和所述图像标注数据分别计算所述交叉熵损失函数值和所述目标检测损失函数值;
基于所述伪装目标检测结果确定检测图像频谱坐标处的空间频率值;
基于伪装目标图像确定标注图像频谱坐标处的空间频域值;
基于所述检测图像频谱坐标处的空间频率值和所述标注图像频谱坐标处的空间频域值计算所述频域损失函数值。
7.根据权利要求6所述的方法,其特征在于,所述基于所述检测图像频谱坐标处的空间频率值和所述标注图像频谱坐标处的空间频域值计算所述频域损失函数值,所述频域损失函数值的计算公式如下所示:
上式中,FFL表示频域损失函数值,MN分别表示检测图像的尺寸,(uv)表示空间频率在频谱上的坐标,F ruv)表示检测图像频谱坐标(uv)处的空间频率值,F fuv)表示标注图像频谱坐标(uv)处的空间频域值。
8.根据权利要求7所述的方法,其特征在于,所述基于所述交叉熵损失函数值、所述目标检测损失函数值和所述频域损失函数值计算总损失函数值,所述总损失函数值的计算公式如下所示:
上式中,L B表示总损失函数值,L BCE表示交叉熵损失函数值,L iou表示目标检测损失函数值,、/>分别表示预设系数。
9.根据权利要求5所述的方法,其特征在于,所述利用反向传播算法对所述伪装目标检测模型对应的模型参数进行迭代更新,直至达到预设条件,生成所述训练完成后的伪装目标检测模型,包括:
利用反向传播算法对所述伪装目标检测模型对应的模型参数进行迭代更新,当所述总损失函数值小于预设阈值时,得到训练完成后的伪装目标检测模型;
或,当迭代次数达到预设迭代次数时,得到训练完成后的伪装目标检测模型。
10.根据权利要求5所述的方法,其特征在于,在所述获取伪装图像数据训练集之前,还包括:
获取所述多种类别的伪装目标图像,对所述多种类别的伪装目标图像进行标注,生成所述图像标注数据;
基于所述多种类别的伪装目标图像和图像标注数据构建伪装目标图像数据集;
将所述伪装目标图像数据集按照预设比例进行划分,生成所述伪装图像数据训练集、伪装图像数据测试集和伪装图像验证集。
11.根据权利要求10所述的方法,其特征在于,所述对所述多种类别的伪装目标图像进行标注,生成所述图像标注数据,包括:
对所述多种类别的伪装目标图像对应的类别、范围和等级进行注释,生成注释数据;
对所述多种类别的伪装目标图像分别进行框级别的标注、或对象级别的标注、或实例级别的标注,生成级别标注数据;
基于所述注释数据和所述级别标注数据确定所述图像标注数据。
12.根据权利要求10所述的方法,其特征在于,还包括:
分别利用所述伪装图像数据测试集和所述伪装图像验证集对所述训练完成后的伪装目标检测模型进行测试验证,根据验证测试结果调整所述训练完成后的伪装目标检测模型对应的模型参数,生成测试验证后的伪装目标检测模型。
13.一种伪装目标检测方法,其特征在于,基于如权利要求1至12任一项所述的伪装目标检测模型的训练方法实现,所述方法包括:
采集待检测图像,对所述待检测图像进行预处理;
将预处理后的待检测图像输入训练完成后的伪装目标检测模型中,输出当前伪装目标检测结果。
14.一种伪装目标检测模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取伪装图像数据训练集;所述伪装图像数据训练集包括多种类别的伪装目标图像和图像标注数据;
训练模块,用于利用所述伪装图像数据训练集对伪装目标检测模型进行训练,训练完成后的伪装目标检测模型;
其中,所述伪装目标检测模型包括浅层特征提取模块、至少一个频域感知模块、至少一个特征增强模块和特征对齐模块;所述浅层特征提取模块,用于对所述伪装图像数据训练集中的伪装目标图像进行特征提取,生成伪装目标特征图;所述频域感知模块,用于对伪装目标特征图进行特征提取,生成伪装物体局部特征和伪装物体非局部特征,并将所述伪装物体局部特征和所述伪装物体非局部特征进行特征拼接,生成多尺度特征;所述特征增强模块,用于对所述多尺度特征进行增强处理,生成增强后的多尺度特征;所述特征对齐模块,用于对所述增强后的多尺度特征进行特征对齐处理和特征增强处理,生成所述伪装目标检测结果;
所述频域感知模块,包括:
轻量化卷积分支网络,用于对所述伪装目标特征图进行特征提取,生成所述伪装物体局部特征;
非局部特征融合分支网络,用于利用频域内卷积对所述伪装目标特征图进行特征提取,生成所述伪装物体非局部特征;
特征拼接网络,用于将所述伪装物体局部特征和所述伪装物体非局部特征按照通道维度进行拼接融合,生成所述多尺度特征;
所述非局部特征融合分支网络,包括:
第一卷积层,用于对所述伪装目标特征图对应进行通道数降维处理;
频谱变换层,用于将通道数降维处理后的伪装目标特征图进行频谱变换;
第二卷积层,用于将频谱变换后的伪装目标特征图进行卷积操作,生成所述伪装物体非局部特征;
所述频谱变换层,包括:
频域转换单元,用于利用快速傅里叶变换算法对所述通道数降维处理后的伪装目标特征图进行频域转换,生成频域特征;
卷积激活单元,用于对所述频域特征进行卷积处理和非线性映射处理;
空间域转换单元,用于利用反傅里叶变换算法,将卷积处理和非线性映射处理后的频域特征转换为所述伪装物体非局部特征;
卷积单元,用于对所述伪装物体非局部特征进行卷积操作,将卷积操作后的伪装物体非局部特征传输给所述特征拼接网络。
15.一种伪装目标检测装置,其特征在于,所述装置包括:
采集模块,用于采集待检测图像,对所述待检测图像进行预处理;
检测模块,用于将预处理后的待检测图像输入训练完成后的伪装目标检测模型中,输出当前伪装目标检测结果;其中,所述伪装目标检测模型基于如权利要求1至12任一项所述的方法得到。
16.一种计算机设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至12中任一项所述的伪装目标检测模型的训练方法或权利要求13所述的伪装目标检测方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至12中任一项所述的伪装目标检测模型的训练方法或权利要求13所述的伪装目标检测方法。
CN202310958391.7A 2023-08-01 2023-08-01 伪装目标检测方法、模型训练方法、装置、设备及介质 Active CN116664990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310958391.7A CN116664990B (zh) 2023-08-01 2023-08-01 伪装目标检测方法、模型训练方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310958391.7A CN116664990B (zh) 2023-08-01 2023-08-01 伪装目标检测方法、模型训练方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN116664990A CN116664990A (zh) 2023-08-29
CN116664990B true CN116664990B (zh) 2023-11-14

Family

ID=87721108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310958391.7A Active CN116664990B (zh) 2023-08-01 2023-08-01 伪装目标检测方法、模型训练方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116664990B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148425A (zh) * 2019-05-14 2019-08-20 杭州电子科技大学 一种基于完整局部二进制模式的伪装语音检测方法
CN114549567A (zh) * 2022-02-23 2022-05-27 大连理工大学 基于全方位感知的伪装目标图像分割方法
CN115471675A (zh) * 2022-10-09 2022-12-13 许昌三维测绘有限公司 一种基于频域增强的伪装对象检测方法
CN116228702A (zh) * 2023-02-23 2023-06-06 南京邮电大学 一种基于注意力机制和卷积神经网络的伪装目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750140B (zh) * 2021-01-21 2022-10-14 大连理工大学 基于信息挖掘的伪装目标图像分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148425A (zh) * 2019-05-14 2019-08-20 杭州电子科技大学 一种基于完整局部二进制模式的伪装语音检测方法
CN114549567A (zh) * 2022-02-23 2022-05-27 大连理工大学 基于全方位感知的伪装目标图像分割方法
CN115471675A (zh) * 2022-10-09 2022-12-13 许昌三维测绘有限公司 一种基于频域增强的伪装对象检测方法
CN116228702A (zh) * 2023-02-23 2023-06-06 南京邮电大学 一种基于注意力机制和卷积神经网络的伪装目标检测方法

Also Published As

Publication number Publication date
CN116664990A (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN109508681B (zh) 生成人体关键点检测模型的方法和装置
Bovik The essential guide to image processing
CN110570426B (zh) 使用深度学习的图像联合配准和分割
CN109635627A (zh) 图片信息提取方法、装置、计算机设备及存储介质
CN110148157B (zh) 画面目标跟踪方法、装置、存储介质及电子设备
CN111860398B (zh) 遥感图像目标检测方法、系统及终端设备
CN109191424B (zh) 一种乳腺肿块检测与分类系统、计算机可读存储介质
CN111340077B (zh) 基于注意力机制的视差图获取方法和装置
US20120027277A1 (en) Interactive iterative closest point algorithm for organ segmentation
CN110222641B (zh) 用于识别图像的方法和装置
US20220101034A1 (en) Method and system for segmenting interventional device in image
CN113920538B (zh) 目标检测方法、装置、设备、存储介质及计算机程序产品
EP3973508A1 (en) Sampling latent variables to generate multiple segmentations of an image
Singh et al. SEAM-an improved environmental adaptation method with real parameter coding for salient object detection
CN113516697A (zh) 图像配准的方法、装置、电子设备及计算机可读存储介质
CN116664990B (zh) 伪装目标检测方法、模型训练方法、装置、设备及介质
CN113191189A (zh) 人脸活体检测方法、终端设备及计算机可读存储介质
CN107945203A (zh) Pet图像处理方法及装置、电子设备、存储介质
CN110503110A (zh) 特征匹配方法和装置
CN113379691B (zh) 一种基于先验引导的乳腺病灶深度学习分割方法
CN110570417B (zh) 肺结节分类装置及图像处理设备
CN113822846A (zh) 医学图像中确定感兴趣区域的方法、装置、设备及介质
CN112102295A (zh) Dr图像配准方法、装置、终端和计算机可读存储介质
Schindler Geometry and construction of straight lines in log-polar images
KR20200041773A (ko) 암 영역 정보 보정 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant