CN116681921A - 一种基于多特征损失函数融合的目标标注方法及系统 - Google Patents

一种基于多特征损失函数融合的目标标注方法及系统 Download PDF

Info

Publication number
CN116681921A
CN116681921A CN202310504776.6A CN202310504776A CN116681921A CN 116681921 A CN116681921 A CN 116681921A CN 202310504776 A CN202310504776 A CN 202310504776A CN 116681921 A CN116681921 A CN 116681921A
Authority
CN
China
Prior art keywords
target
feature
loss function
image
source domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310504776.6A
Other languages
English (en)
Inventor
张文利
刘钰昕
郑超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202310504776.6A priority Critical patent/CN116681921A/zh
Publication of CN116681921A publication Critical patent/CN116681921A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多特征损失函数融合的目标标注方法,多特征损失函数为基于熵权法的多维损失函数,分别用于约束目标转换模型训练过程中多个类别目标的颜色、形状及纹理的生成方向。包括:获取单一类别最佳源域无背景目标图像;将单一类别最佳源域无背景目标图像进行特征图可视化,从而提取基于潜在空间的特征图;将基于潜在空间的特征图输入由基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集;将单一类别最佳源域无背景目标图像与基于潜在空间的特征图融合形成多模态输入信号,将多模态输入信号输入到目标转换网络中,并基于目标转换网络进行目标标注。本发明还公开系统、电子设备及计算机可读存储介质。

Description

一种基于多特征损失函数融合的目标标注方法及系统
技术领域
本发明涉及图像处理以及智能信息提取技术领域,尤其涉及一种基于多特征损失函数融合的目标标注方法及系统。
背景技术
随着传统农业与人工智能技术相结合,智慧果园的建设在果业发展中得到了更为广泛的关注,其中高精度果实检测技术是现代化智慧果园实际应用工作中的重要基础技术,在果实定位、果实分拣、果实产量预测、果实自动采摘等众多智慧果园智能化工作中有着广泛的应用价值。目标标注的通用方法以及在智慧果园上的应用越来越重要。
一方面,现阶段的目标检测技术大多采用深度学习的方法,需要依赖大量已标注数据集支撑深度学习模型的训练学习。因此需要人工对大量样本图像进行标注以便训练图像标注模型,耗费人力和时间,导致图像标注效率较低,进而导致图像检测模型的训练效率较低。因此,虽然现阶段基于深度学习的目标检测技术得到了广泛的应用,但是需要依赖大量已标注数据集才能支撑检测模型的训练学习,造成人工标注成本增高。
第二方面,真实场景中的果树分布密集,果实长势不规律,尺度小且遮挡严重,从而导致场景环境多样性很强。而由于现阶段深度学习模型泛化性能差的原因,研究人员需要针对不同场景环境和不同种类的果实制作新的果实数据集,导致数据集的标注工作的难度大大提升,更为费时费力。
第三方面,在选取最适合的源域数据时,由于有的聚类中只有一种目标,有时候可能无法选取到最适合的源域。由于原始CycleGAN网络只能训练生成器达到重新着色的效果,较难对形状以及纹理等特征进行精准描述,也就缺少真实目标图像的形状纹理特征信息进行网络的拟合训练。
目前的技术方向包括:(1)引入实例级损失约束从而更好地规范图像中前景目标的生成方向,但此类做法引入了额外的人工标注过程,并不适用于基于无监督学习的果实自动标注任务;(2)采用一种跨循环比较路径的果实转换模型Across-CycleGAN,通过引入结构相似性损失函数从而实现了圆形果实到椭圆形果实的转换;然而目标自动标注方法的泛化性不高,无法实现特征差异大尤其是形状存在很大差异目标域目标的自动标注任务。
因此对于如何建立一种泛化性更高、域适应性更强的目标数据集的自动标注方法,同时能够对生成模型进行优化,从而在形状颜色纹理变化很大时,能够实现逼真地转换,实现域差异的减小具有迫切的需求。
发明内容
为了解决现有技术中存在的问题,本发明提供了一种基于多特征损失函数融合的目标标注方法及系统,进一步提高无监督果实转换模型性能,增强算法对于果实表型特征的描述能力,从而控制模型在表型特征差异大的跨越式果实图像转换任务中能够精准控制果实生成方向。
本发明第一方面提供了一种基于多特征损失函数融合的目标标注方法,其中所述方法用于多个类别的目标标注任务,所述多特征损失函数为基于熵权法的多维损失函数,所述基于熵权法的多维损失函数分别用于约束目标转换模型训练过程中多个类别的所述目标的颜色、形状以及纹理的生成方向,包括:
S1,获取单一类别最佳源域无背景目标图像;所述单一类别最佳源域无背景目标图像采用原始RGB图像进行表征;
S2,将所述单一类别最佳源域无背景目标图像进行特征图可视化,从而提取基于潜在空间的特征图;
S3,将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集;
S4,将所述多类别目标域无背景目标图像的子集输入到目标检测模型中,并基于目标检测模型进行目标标注。
优选的,所述S2包括:
S21,利用预训练特征提取网络或预训练特征编码网络作为编码器挖掘目标图像的潜在空间;
S22,利用反向导向特征可视化映射作为解码器突出目标图像中的目标特征的解空间表示,从而利用无监督的方式发现目标图像中的潜在特征;
S23,基于所述潜在特征提取基于潜在空间的特征图。
优选的,所述编码器为序列化网络VGG16,所述S21包括:从VGG16最后一层的深层卷积层输出图像的矢量化表示提取其高级语义信息,所述矢量化表示为矢量值y;并将所述矢量值y利用潜在编码z进行特征解耦;
所述S22包括:通过解码器进行特征图映射,得到深层卷积层中各特征的梯度信息y',梯度信息y'表示为卷积层中每个通道对于y的贡献,贡献越大表示该通道越重要,针对特征层Conv中c个通道的权重占比记作weightc;weightc表示为:
所述S23包括:进行反向传播,通过ReLU激活函数并加权求和计算图像的激活梯度,对y'在特征图的宽和高求均值进行归一化获得每个通道的重要程度,最大化激活目标中高级语义特征图像,获得空间解耦后各类目标图像的形状纹理特征图FeatureMap,计算过程为:
其中weightc表示针对特征层Conv中c个通道的权重占比,y表示原始图像经过序列化网络VGG16编码器正向传播后得到的矢量值,w和h分别表示高级语义特征图像的宽和高,表示特征层在通道c中坐标位置为(i,j)处的数据。
优选的,所述S3包括:
S31,由多维损失函数监督目标转换模型的生成器,所述多维损失函数包含三类损失函数,分别为颜色特征损失函数LColor(),形状特征损失函数LShape()以及纹理特征损失函数LTexture();
S32,基于可量化目标表型特征的动态自适应权重方法配平多维损失函数的权重后获得基于熵权法的多维损失函数;
S33,将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由配平权重后的基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集。
优选的,所述S31中,所述颜色特征损失函数为CycleGAN网络中循环一致损失函数及自映射损失函数;所述颜色特征损失函数表示为:
LColor(GST+GTS)=LCycle(GST+GTS)+LIdentity(GST+GTS) (4)
所述循环一致损失表示为:
ICycle(GST+GTS)=Es~pdata(s)||GTS(GST(s))-s||1+Et~pdata(t)||GST(GTS(t))-t||1(5)
所述自映射损失函数表示为:
LIdentity(GST+GTS)=Es~pdata(t)||s-GST(s)||1+Es~pdata(t)||t-GTS(t)||1 (6)
其中GST表示源域特征,GTS表示目标域特征,Es~pdata(s)以及Et~pdata(t)分别表示源域以及目标域中的数据分布,t和s分别表示目标域以及源域的图像信息;
所述形状特征损失函数为基于多尺度结构相似性指数MS-SSIM,所述形状特征损失函数表示为:
LShape(GST+GTS)=(1-MS_SSIM(GST(s),t))+(1-MS_SSIM(GTS(t),s)) (7)
其中MS_SSIM表示基于多尺度结构相似性指数损失计算;
所述纹理特征损失函数为基于局部二值模式(LBP)描述子的纹理特征损失函数,所述纹理特征损失函数表示为:
LTexture(GST+GTS)=Pearson(LBP(GST(s),t)+Pearson(GTS(t),s)) (8)
LBP(X,Y)=N(LBP(xC,yC)) (9)
其中Pearson表示利用皮尔森相关系数计算目标纹理特征间的差异性大小,N表示遍历整幅图像中所有的像素值,xC,yC表示中心像素,ip和ic分别表示二值模式下的两个不同灰度值,s为符号函数,P表示选取自中心像素点的P邻域。
优选的,所述S32包括:
(1)依次计算源域和目标域中第i个目标的形状、颜色以及纹理特征的可量化描述子数值,并对其进行归一化处理,归一化后的第i个目标的形状、颜色以及纹理特征分别记作Si,Ci,Ti
(2)计算每个目标在不同特征值下的比重Pij,用于描述不同特征描述子数值的差异性大小,如公式(12)所示:
其中,Pij表示每个目标在不同特征值下的比重;Yij表示不同特征描述子数值,i为目标编号,j依次取形状、颜色以及纹理特征作为三个不同的指标;
(3)计算一组数据的信息熵如公式(13)所示:
(4)根据信息熵的计算公式得到各个指标的权重如公式(14)所示:
(5)基于熵权法的多维损失函数的整体损失函数LGuided-GAN表示为公式(3):
LGuided-GAN=Ws*LShape(GST+GTS)+Wc·LColor(GST+GTS)
+Wt·LTexture(GST+GTS) (3)
其中GTS表示源域映射到目标域的生成器,GTS表示目标域映射到源域的生成器,Ws,Wc以及Wt分别表示在模型训练过程中利用熵权法分配给形状、颜色以及纹理损失函数的权重比例。
优选的,所述方法还包括:获取所述单一类别最佳源域无背景目标图像中的所述最佳源域,其中所述最佳源域的获取方式包括:
从多类别的目标前景图像中分别提取每种类别的目标的外观特征;
将所述外观特征抽象为特定形状、颜色和纹理,基于多维特征定量化分析方法对于不同的目标特征计算特定形状、颜色和纹理的相对距离作为不同目标的外观特征的分析描述集;
基于对分析描述集进行多维特征空间重构和特征差异划分构建不同类别描述模型,并从中选取单一类别最佳源域目标图像;
基于所述单一类别描述模型获得目标的最佳源域,包括:基于所述单一类别描述模型对不同的目标按照所述外观特征进行分类;针对实际需求的目标域种类,从所述分类中选择最佳源域目标图像。
发明第二方面提供了一种基于多维空间特征模型最佳源域的目标标注系统,包括:
第一图像获取模块,用于获取单一类别最佳源域无背景目标图像;所述单一类别最佳源域无背景目标图像采用原始RGB图像表征;
特征图提取模块,用于将所述单一类别最佳源域无背景目标图像进行特征图可视化,从而提取基于潜在空间的特征图;
第二图像获取模块,用于将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集;
目标标注模块,用于将所述多类别目标域无背景目标图像的子集输入到目标检测模型中,并基于目标检测模型进行目标标注。
本发明的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。
本发明提供的基于多维空间特征模型最佳源域的目标标注方法、系统、电子设备以及计算机可读存储介质,具有如下有益的技术效果:
建立一种泛化性更高、域适应性更强,而且能够满足不同类别果实数据集的自动标注方法;能够自动获得目标域目标的标签,从而应用到下游的智慧农业项目中;并且大大减少了人工标注目标框时所产生的金钱成本和时间成本(相比现有技术中单个场景数据集标注中,市场上平均0.2元/标注框,每张图像平均30颗果实,每张图像平均耗费3分钟标注时间,每个数据集至少包含10000张图像)。
附图说明
图1为本发明所述的Guided-GAN整体网络架构图。
图2为本发明所述的基于潜在空间的多维表型特征提取方法流程图。
图3为本发明所述的Guided-GAN模型中多维损失函数示意图。
图4为本发明所述的基于多特征损失函数融合的目标标注方法流程图。
图5为本发明所述的基于多特征损失函数融合的目标标注系统架构图。
图6为本发明所述电子设备结构示意图。
具体实施方式
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
实施例一
参见图4,本实施例提供了一种基于多特征损失函数融合的目标标注方法,其中所述目标具有多个类别,所述多特征损失函数为基于熵权法的多维损失函数,所述基于熵权法的多维损失函数分别用于约束目标转换模型训练过程中多个类别的所述目标的颜色、形状以及纹理的生成方向,包括:S1,获取单一类别最佳源域无背景目标图像;本实施例中,单一类别最佳源域无背景目标图像采用原始RGB图像进行表征;S2,将所述单一类别最佳源域无背景目标图像进行特征图可视化,从而提取基于潜在空间的特征图;为了有效提取不同类别果实的多维表型特征,提高无监督网络模型的特征学习能力,使得转换得到的目标域果实图像更为逼真,本发明提出了一种基于潜在空间的多维表型特征提取方法,参见图1中序号②部分。利用潜在空间解耦的方式将所需目标特征从原始图像中进行分离,并输入到网络模型中进行训练,该方法实现流程如图2所示。
现阶段无监督学习由于使用未标注数据来进行训练和学习,因此网络难以提取重要的语义特征,导致无监督学习方法的目标特征表征能力较差。随着潜在空间技术在越来越多的领域中展现出强大的潜力,将其应用于生成网络中提取不同域中目标的重要特征可以进一步提高网络性能,从而实现一些更为复杂的任务。目前该方法在人脸图像的转换任务中应用较为广泛,Shen等人提出了一个InterFaceGAN框架来解释现有GAN模型所学习到的解纠缠人脸表征信息,并研究潜在空间中编码的人脸语义的性质,从而实现不同姿态下人脸图像的逼真转换;Sainburg等人提出了一种基于自动编码器(AE)和GAN生成网络结构,通过在潜在空间插值上进行对抗训练来促进凸潜在分布,从而控制目标中不同的属性达到人脸图像中更细致的变化。然而在大部分的目标自动标注领域,需要更多的关注目标的多维表型特征,通过潜在空间将目标的特征分解为多个可解释的属性,用于更好的提取形状和纹理特征。
作为优选的实施方式,所述S2包括:S21,利用预训练特征提取网络或预训练特征编码网络作为编码器挖掘目标图像的潜在空间;S22,利用反向导向特征可视化映射作为解码器突出目标图像中的目标特征的解空间表示,从而利用无监督的方式发现目标图像中的潜在特征;S23,基于所述潜在特征提取基于潜在空间的特征图。
由于原始CycleGAN网络只能训练生成器达到重新着色的效果,较难对形状以及纹理等特征进行精准描述,也就缺少真实目标(本实施例为果实)图像的形状纹理特征信息进行网络的拟合训练,因此本实施例中的所述基于潜在空间的特征图优选为形状纹理特征图,当然本领域技术人员也可以选择将基于潜在空间的特征图优选为颜色形状纹理均包含的全特征图。
本实施例中,在主干网络的选择方面,考虑到编码器要与解码器构造相对应,本实施例使用序列化网络VGG16作为编码器。为了更好地解耦图像形状纹理语义特征,本实施例从VGG16最后一层的深层卷积层输出图像的矢量化表示提取其高级语义信息,所述矢量化表示为矢量值y;并将所述矢量值y利用潜在编码z进行特征解耦,并通过解码器进行特征图映射,得到深层卷积层中各特征的梯度信息y',所述梯度信息y'表示为卷积层中每个通道对于y的贡献,贡献越大表示该通道越重要,每个通道的贡献值记作weightc;随后进行反向传播,通过ReLU激活函数并加权求和计算图像的激活梯度,这样做的好处是不需要对输入图像进行调节,对于深层的复杂特征信息也可以进行有效学习,同时对反向传播过程加以指导,限制了小于0的梯度的回传,对y'在特征图的宽和高求均值进行归一化即可得到每个通道的重要程度,这样做可以最大化激活目标中高级语义特征图像,最终得到空间解耦后各类目标图像的形状纹理特征图。获取形状纹理特征图FeatureMap的计算过程可以表示为:
其中weightc表示针对特征层Conv中c个通道的权重占比,y表示原始图像经过序列化网络VGG16编码器正向传播后得到的矢量值,w和h分别表示高级语义特征图像的宽和高,表示特征层在通道c中坐标位置为(i,j)处的数据。
S3,将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集。本实施例中,S3的实施是为了更精准地描述特征差异大的目标(本实施例为果实)的表型特征,解决损失函数功能单一性的问题,本发明提出了一种基于熵权法的多维损失函数,参见图1中序号③部分。在果实图像转换模型中更好地控制多维特征的生成方向,最终达到在特征差异大的跨越式果实转换任务中仍能取得较好的效果。
如前所述,由于原始CycleGAN网络只能训练生成器达到重新着色的效果,较难对形状以及纹理等特征进行精准描述,也就缺少真实果实图像的形状纹理特征信息进行网络的拟合训练;现有技术可能会通过引入实例级损失约束从而更好地规范图像中前景目标的生成方向,但此类做法由于引入了额外的人工标注过程,并不适用于基于无监督学习的果实自动标注任务;也有一种跨循环比较路径的果实转换模型Across-CycleGAN,通过引入结构相似性损失函数从而实现了圆形目标到椭圆形目标的转换,应用于例如果实标注的场景下,而为了更好地提高果实自动标注方法的泛化性,从而实现更多种类目标域果实的自动标注任务,需要进一步提高无监督果实转换模型性能,增强算法对于果实表型特征的描述能力,从而控制模型在表型特征差异大的跨越式果实图像转换任务中能够精准控制果实生成方向。
基于此,本发明实施例使用多维损失函数分别用于约束果实转换模型训练过程中果实的颜色、形状以及纹理的生成方向。该模型的生成器中多维损失函数设计示意图如图3所示,本发明实施例利用两个生成器和两个鉴别器分别构建了A和B两个循环训练结构,同时结合循环内训练(如图3内循环箭头方向)以及跨循环训练(如图3垂直双向箭头方向)两种损失函数比较方案分别对颜色、形状以及纹理特征进行精准描述。
作为优选的实施方式,所述S3包括:S31,由多维损失函数监督目标转换模型的生成器,所述多维损失函数包含三类损失函数,分别为LColor(),LShape()以及LTexture()。
如图3所示,区域Domain Cycle A和Domain Cycle B为源域到目标域以及目标域到源域的两个域循环方向,用于控制目标(本实施例为果实)的颜色特征的生成;区域Across Cycle表示跨循环损失函数比较路径,在网络不同域循环训练过程中,采用真实目标(本实施例为果实)的图像特征信息训练拟合网络生成仿真果实图像数据,帮助模型更好的学习和约束形状及纹理特征的生成。
本实施例中:
(1)对于颜色特征损失函数:本实施例采用CycleGAN网络中循环一致损失函数及自映射损失函数,着色效果可以帮助目标转换模型更好的控制颜色特征的生成,其中,所述颜色特征损失函数表示为:
LColor(GST+GTS)=LCycle(GST+GTS)+LIdenttity(GST+GTS) (4);
循环一致损失表示为:
LCycle(GST+GTS)=Es~pdata(s)||GTS(GST(s))-s||1+Et~psata(t)||GST(GTS(t))-t||1(5)
自映射损失函数表示为:
LIdentity(GST+GTS)=Es~psata(t)||s-GST(s)||1+Es~pdata(t)||t-GTS(t)||1 (6)
其中,s、GST表示源域特征,GTS表示目标域特征,Es~pdata(s以及Et~pdata(t)分别表示源域以及目标域中的数据分布,t和s分别表示目标域以及源域的图像信息。
(2)对于形状特征损失函数:本实施例采用基于多尺度结构相似性指数MS-SSIM,利用不同尺寸卷积核调整图像感受野大小并统计图像在不同尺度条件下相应区域的形状结构特征信息,从而有效区分不同类别果实图像的几何差异,训练模型更好适应不同类别目标(本实施例为果实)之间形状特征的差异变化。本实施例利用跨循环的比较方式,将原始图像与另一个循环中转换后的图像进行比较,从而更好地约束目标(本实施例为果实)形状特征的生成过程,形状特征损失函数表示为:
LShape(GST+GTS)=(1-MS_SSIM(GST(s),t))+(1-MS_SSIM(GTS(t),s)) (7)
其中MS_SSIM表示基于多尺度结构相似性指数损失计算。
(3)对于纹理特征损失函数:以果实作为目标进行目标标注的场景,由于果实图像中的纹理特征过于细节,如果只从原RGB图像中进行损失函数的比较无法充分表达纹理特征;而且数据集中果实的分辨率更小,纹理特征更加无法很好的表现出来,为图像转换模型增加了一定的难度。因此本实施例设计一种基于局部二值模式(LBP)描述子的纹理特征损失函数,使其更能凸显目标质地以及其规则性排列的纹理损失计算方法,精准描述其纹理特征,更好地发挥出图像转换模型的性能。纹理特征损失函数表示为:
LTexture(GST+GTS)=Pearson(LBP(GST(s),t)+Pearson(GTS(t),s)) (8)
LBP(X,Y)=N(LBP(xC,yC)) (9)
其中Pearson表示利用皮尔森相关系数计算目标(本实施例中为果实)纹理特征间的差异性大小,N表示遍历整幅图像中所有的像素值,xC,yC表示中心像素,ip和ic分别表示二值模式下的两个不同表示灰度值,s为符号函数,P表示选取自中心像素点的P邻域,经实验验证P取16时效果最好。
在没有成对监督信息约束的情况下两个图像域的分布是高度离散无规律的,而本文通过设计使用多维损失函数分别用于约束果实转换模型训练过程中果实的颜色、形状以及纹理等视觉属性的生成方向,可以更加精准的描述果实转换过程中的多维表型特征。
S32,基于可量化目标表型特征的动态自适应权重方法配平多维损失函数的权重后获得基于熵权法的多维损失函数。
步骤S31中,添加多维特征损失函数用于精准描述训练过程中目标(本实施例为果实)的特征,然而在生成对抗网络训练过程中,总损失值由各个维度的损失函数的损失值相加得到,所以各个损失函数的损失值进行相加时的权重影响着网络模型效果,如果权重设置不合理会导致训练阶段模型无法正常拟合,从而失去描述目标特征的生成方向。因此,为了平衡本发明实施例中所添加的多维损失函数,使其能够稳定收敛,精准描述多维果实表型特征,本发明实施例引入了基于可量化目标(本实施例为果实)表型特征的动态自适应权重方法,用于配平多维损失函数的权重。所述S32的具体流程如下:
(1)依次计算源域和目标域中第i个目标(本实施例为果实)的形状、颜色以及纹理特征的可量化描述子数值,并对其进行归一化处理,归一化后的第i个目标的形状、颜色以及纹理特征分别记作Si,Ci,Ti
(2)计算每个目标(本实施例为果实)样本在不同特征值标下的比重Pij,用于描述不同特征描述子数值的差异性大小,如公式(12)所示:
其中,Pij表示每个目标在不同特征值下的比重;Yij表示不同特征描述子数值,i为目标编号,j依次取形状、颜色以及纹理特征(S,C,T三种特征)作为三个不同的指标;
(3)根据信息论中信息熵的定义,不同目标(本实施例为果实)样本的描述子差异值越大,在训练GAN模型中可以提供的信息量也就越多,因此需要在模型训练过程中为其分配更多的权重。此时计算一组数据的信息熵如公式(13)所示:
(4)根据信息熵的计算公式得到各个指标的权重如公式(14)所示:
模型生成器生成的基于熵权法的多维损失函数的整体损失函数LGuided-GAN可以表示为公式(3):
LGuided-GAN=Ws·LShape(GST+GTS)+Wc·LColor(GST+GTS)
+Wt·LTexture(GST+GTS) (3)
其中GTS表示源域映射到目标域的生成器,GTS表示目标域映射到源域的生成器,Ws,Wc以及Wt分别表示在模型训练过程中利用熵权法分配给形状、颜色以及纹理损失函数的权重比例。
在果实标注应用场景下,在进行两类果实间转换时,直接比较两类果实所有样本的形状、颜色以及纹理描述子的差异性大小,自动计算其果实之间的差异性具体数值,并动态调整每一次训练时多维损失函数的权重比例Ws,Wc,Wt,从而更好地协助网络模型进行拟合,加速收敛过程,使得生成的目标域果实图像质量更佳。
S33,将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由配平权重后的基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集。
S4,将所述多类别目标域无背景目标图像的子集输入到目标检测模型中,并基于目标检测模型进行目标标注。
本实施例中,单一类别最佳源域无背景目标图像为单一类别最佳源域无背景果实图像。
作为优选的实施方式,所述单一类别最佳源域无背景目标图像均可以为计算机设备预先存储的图像,或者由计算机设备从其他设备中下载的图像,或者由其他设备上传至计算机设备中的图像,或者为该计算机设备当前采集到的图像。
作为优选的实施方式,所述方法还包括:获取所述单一类别最佳源域无背景目标图像中的所述最佳源域,其中所述最佳源域的获取方式包括:从多类别的目标前景图像中分别提取每种类别的目标的外观特征;将所述外观特征抽象为特定形状、颜色和纹理,基于多维特征定量化分析方法对于不同的目标特征计算特定形状、颜色和纹理的相对距离作为不同目标的外观特征的分析描述集;基于对分析描述集进行多维特征空间重构和特征差异划分构建不同类别描述模型,并从中选取单一类别最佳源域目标图像;基于所述单一类别描述模型获得目标的最佳源域。
作为优选的实施方式,所述基于所述单一类别描述模型获得目标的最佳源域包括:基于所述单一类别描述模型对不同的目标按照所述外观特征进行分类;针对实际需求的目标域种类,从所述分类中选择最佳源域目标图像。
实施例二
参见图5,本实施例提供了一种基于多维空间特征模型最佳源域的目标标注系统,包括:第一图像获取模块101,用于获取单一类别最佳源域无背景目标图像;本实施例中,单一类别最佳源域无背景目标图像采用原始RGB图像进行表征;特征图提取模块102,用于将所述单一类别最佳源域无背景目标图像进行特征图可视化,从而提取基于潜在空间的特征图;第二图像获取模块103,用于将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集;目标标注模块104,用于将所述多类别目标域无背景目标图像的子集输入到目标检测模型中,并基于目标检测模型进行目标标注。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的方法。
如图6所示,本发明还提供了一种电子设备,包括处理器301和与所述处理器301连接的存储器302,所述存储器302存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于多特征损失函数融合的目标标注方法,其特征在于,所述方法用于多个类别的目标标注任务,所述多特征损失函数为基于熵权法的多维损失函数,所述基于熵权法的多维损失函数分别用于约束目标转换模型训练过程中多个类别的目标的颜色、形状以及纹理的生成方向,包括:
S1,获取单一类别最佳源域无背景目标图像;所述单一类别最佳源域无背景目标图像采用原始RGB图像进行表征;
S2,将所述单一类别最佳源域无背景目标图像进行特征图可视化,从而提取基于潜在空间的特征图;
S3,将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集;
S4,将所述多类别目标域无背景目标图像的子集输入到目标检测模型中,并基于目标检测模型进行目标标注。
2.根据权利要求1所述的一种基于多特征损失函数融合的目标标注方法,其特征在于,所述S2包括:
S21,利用预训练特征提取网络或预训练特征编码网络作为编码器挖掘目标图像的潜在空间;
S22,利用反向导向特征可视化映射作为解码器突出目标图像中的目标特征的解空间表示,从而利用无监督的方式发现目标图像中的潜在特征;
S23,基于所述潜在特征提取基于潜在空间的特征图。
3.根据权利要求2所述的一种基于多特征损失函数融合的目标标注方法,其特征在于,所述编码器为序列化网络VGG16,所述S21包括:从VGG16最后一层的深层卷积层输出图像的矢量化表示提取高级语义信息,所述矢量化表示为矢量值y;并将所述矢量值y利用潜在编码z进行特征解耦;
所述S22包括:通过解码器进行特征图映射,得到深层卷积层中各特征的梯度信息y',所述梯度信息y'表示为卷积层中每个通道对于y的贡献,贡献越大表示该通道越重要,针对特征层Conv中c个通道的权重占比记作weightc;weightc表示为:
所述S23包括:进行反向传播,通过ReLU激活函数并加权求和计算图像的激活梯度,对y'在特征图的宽和高求均值进行归一化获得每个通道的重要程度,最大化激活目标中高级语义特征图像,获得空间解耦后各类目标图像的形状纹理特征图FeatureMap,计算过程为:
其中weightc表示针对特征层Conv中c个通道的权重占比,y表示原始图像经过序列化网络VGG16编码器正向传播后得到的矢量值,w和h分别表示高级语义特征图像的宽和高,表示特征层在通道c中坐标位置为(i,j)处的数据。
4.根据权利要求3所述的一种基于多特征损失函数融合的目标标注方法,其特征在于,所述S3包括:
S31,由多维损失函数监督目标转换模型的生成器,所述多维损失函数包含三类损失函数,分别为颜色特征损失函数LColor(),形状特征损失函数LShape()以及纹理特征损失函数LTexture();
S32,基于可量化目标表型特征的动态自适应权重方法配平多维损失函数的权重后,获得基于熵权法的多维损失函数;
S33,将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由配平权重后的基于熵权法的多维损失函数监督的目标转换模型中,获得多类别目标域无背景目标图像的子集。
5.根据权利要求4所述的一种基于多特征损失函数融合的目标标注方法,其特征在于,所述S31中,所述颜色特征损失函数为CycleGAN网络中循环一致损失函数及自映射损失函数;所述颜色特征损失函数表示为:
LColor(GST+GTS)=LCycle(GST+GTS)+LIdentity(GST+GTS) (4)
所述循环一致损失表示为:
LCycle(GST+GTS)=Es~pdata(s)||GTS(GST(s))-s||1+Et~pdata(t)||GST(GTS(t))-t||1 (5)
所述自映射损失函数表示为:
LIdentity(GST+GTS)=Es~pdata(t)||s-GST(s)||1+Es~pdata(t)||t-GTS(t)||1 (6)
其中,GST表示源域特征,GTS表示目标域特征,Es~pdata(s)以及Et~pdata(t)分别表示源域以及目标域中的数据分布,t和s分别表示目标域以及源域的图像信息;
所述形状特征损失函数为基于多尺度结构相似性指数MS-SSIM,所述形状特征损失函数表示为:
LShape(GST+GTS)=(1-MS_SSIM(GST(s),t))+(1-MS_SSIM(GTS(t),s)) (7)
其中MS_SSIM表示基于多尺度结构相似性指数损失计算;
所述纹理特征损失函数为基于局部二值模式LBP描述子的纹理特征损失函数,所述纹理特征损失函数表示为:
LTexture(GST+GTS)=Pearson(LBP(GST(s),t)+Pearson(GTS(t),s)) (8)
LBP(X,Y)=N(LBP(xC,yC)) (9)
其中Pearson表示利用皮尔森相关系数计算目标纹理特征间的差异性大小,N表示遍历整幅图像中所有的像素值,xC,yC表示中心像素,ip和ic分别表示二值模式下的两个不同灰度值,s为符号函数,P表示选取自中心像素点的P邻域。
6.根据权利要求5所述的一种基于多特征损失函数融合的目标标注方法,其特征在于,所述S32包括:
(1)依次计算源域和目标域中第i个目标的形状、颜色以及纹理特征的可量化描述子数值,并对其进行归一化处理,归一化后的第i个目标的形状、颜色以及纹理特征分别记作Si,Ci,Ti
(2)计算每个目标在不同特征值下的比重Pij,用于描述不同特征描述子数值的差异性大小,如公式(12)所示:
Pij=YijjYij (12)
其中,Pij表示每个目标在不同特征值下的比重;Yij表示不同特征描述子数值,i为目标编号,j依次取形状、颜色以及纹理特征作为三个不同的指标;
(3)计算一组数据的信息熵如公式(13)所示:
(4)根据信息熵的计算公式得到各个指标的权重如公式(14)所示:
(5)基于熵权法的多维损失函数的整体损失函数LGuided-GAN表示为公式(3):
LGuided-GAN=Ws·LShape(GST+GTS)+Wc·LColor(GST+GTS)+Wt·LTexture(GST+GST) (3)
其中GST表示源域映射到目标域的生成器,GST表示目标域映射到源域的生成器,Ws,Wc以及Wt分别表示在模型训练过程中利用熵权法分配给形状、颜色以及纹理损失函数的权重比例。
7.根据权利要求1所述的一种基于多特征损失函数融合的目标标注方法,其特征在于,所述方法还包括:
获取所述单一类别最佳源域无背景目标图像中的所述最佳源域,其中所述最佳源域的获取方式包括:
从多类别的目标前景图像中分别提取每种类别的目标的外观特征;
将所述外观特征抽象为特定形状、颜色和纹理,基于多维特征定量化分析方法对于不同的目标特征计算特定形状、颜色和纹理的相对距离作为不同目标的外观特征的分析描述集;
基于对分析描述集进行多维特征空间重构和特征差异划分构建不同类别描述模型,并从中选取单一类别最佳源域目标图像;
基于所述单一类别描述模型获得目标的最佳源域,包括:基于所述单一类别描述模型对不同的目标按照所述外观特征进行分类;针对实际需求的目标域种类,从所述分类中选择最佳源域目标图像。
8.一种基于多维空间特征模型最佳源域的目标标注系统,用于实施权利要求1-7任一所述的方法,其特征在于,包括:
第一图像获取模块,用于获取单一类别最佳源域无背景目标图像;所述单一类别最佳源域无背景目标图像采用原始RGB图像进行表征;
特征图提取模块,用于将所述单一类别最佳源域无背景目标图像进行特征图可视化,从而提取基于潜在空间的特征图;
第二图像获取模块,用于将所述原始RGB图像与基于潜在空间的特征图融合形成多模态输入信号,输入由基于熵权法的多维损失函数监督的目标转换模型中获得多类别目标域无背景目标图像的子集;
目标标注模块,用于将所述多类别目标域无背景目标图像的子集输入到目标检测模型中,并基于目标检测模型进行目标标注。
9.一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如权利要求1-7所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1-7所述的方法。
CN202310504776.6A 2023-05-06 2023-05-06 一种基于多特征损失函数融合的目标标注方法及系统 Pending CN116681921A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310504776.6A CN116681921A (zh) 2023-05-06 2023-05-06 一种基于多特征损失函数融合的目标标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310504776.6A CN116681921A (zh) 2023-05-06 2023-05-06 一种基于多特征损失函数融合的目标标注方法及系统

Publications (1)

Publication Number Publication Date
CN116681921A true CN116681921A (zh) 2023-09-01

Family

ID=87782709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310504776.6A Pending CN116681921A (zh) 2023-05-06 2023-05-06 一种基于多特征损失函数融合的目标标注方法及系统

Country Status (1)

Country Link
CN (1) CN116681921A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117456560A (zh) * 2023-12-22 2024-01-26 华侨大学 一种基于前景感知动态部件学习的行人再辨识方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117456560A (zh) * 2023-12-22 2024-01-26 华侨大学 一种基于前景感知动态部件学习的行人再辨识方法
CN117456560B (zh) * 2023-12-22 2024-03-29 华侨大学 一种基于前景感知动态部件学习的行人再辨识方法

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN110689086B (zh) 基于生成式对抗网络的半监督高分遥感图像场景分类方法
Yang et al. A survey of DNN methods for blind image quality assessment
Chen et al. Embedding attention and residual network for accurate salient object detection
CN108629367B (zh) 一种基于深度网络增强服装属性识别精度的方法
CN102314614B (zh) 一种基于类共享多核学习的图像语义分类方法
CN112347970B (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN113822951B (zh) 图像处理方法、装置、电子设备及存储介质
CN111914613B (zh) 一种多目标跟踪及面部特征信息识别方法
CN114998220B (zh) 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法
CN113761259A (zh) 一种图像处理方法、装置以及计算机设备
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN114220154A (zh) 一种基于深度学习的微表情特征提取与识别方法
CN110334584A (zh) 一种基于区域全卷积网络的手势识别方法
CN113705709A (zh) 一种改进的半监督图像分类方法、设备及存储介质
CN116681921A (zh) 一种基于多特征损失函数融合的目标标注方法及系统
CN115659254A (zh) 一种双模态特征融合的配电网电能质量扰动分析方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN116778223A (zh) 一种基于零标注的多类别目标域数据集标注方法及系统
Hammouch et al. A two-stage deep convolutional generative adversarial network-based data augmentation scheme for agriculture image regression tasks
CN114283289A (zh) 一种基于多模型融合的图像分类方法
CN113537339A (zh) 一种基于多标签图像分类的识别共生或伴生矿物的方法与系统
Zhao et al. A head pose estimation method based on multi-feature fusion
CN110751153A (zh) 一种室内场景rgb-d图像的语义标注方法
CN117690178B (zh) 一种基于计算机视觉的人脸图像识别方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination