CN116778223A - 一种基于零标注的多类别目标域数据集标注方法及系统 - Google Patents
一种基于零标注的多类别目标域数据集标注方法及系统 Download PDFInfo
- Publication number
- CN116778223A CN116778223A CN202310505349.XA CN202310505349A CN116778223A CN 116778223 A CN116778223 A CN 116778223A CN 202310505349 A CN202310505349 A CN 202310505349A CN 116778223 A CN116778223 A CN 116778223A
- Authority
- CN
- China
- Prior art keywords
- target
- target domain
- domain
- labeling
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 69
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 51
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 238000004445 quantitative analysis Methods 0.000 claims abstract description 11
- 238000003860 storage Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 57
- 230000006870 function Effects 0.000 claims description 52
- 238000006243 chemical reaction Methods 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 239000003086 colorant Substances 0.000 claims description 16
- 238000009826 distribution Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 7
- 238000011002 quantification Methods 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 abstract description 3
- 235000013399 edible fruits Nutrition 0.000 description 83
- 230000008569 process Effects 0.000 description 13
- 239000002420 orchard Substances 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004040 coloring Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/54—Extraction of image or video features relating to texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于零标注的多类别目标域数据集标注方法,包括:获取不同类别的目标域前景图像;基于不同类别的目标域前景图像进行多维空间特征定量化分析并基于分析后的多维空间特征构建跨类别共性描述模型;基于跨类别共性描述模型获得目标的最佳源域;对获得最佳源域的图像进行转换;基于转换后的图像构建目标域合成数据集;基于目标域合成数据集生成目标域标签,并基于目标域合成数据集及目标域标签训练检测模型;基于目标域标签训练检测模型进行目标标注获得已标注的目标域数据集。本发明还公开了系统、电子设备及计算机可读存储介质,无需人工成本的标注即可实现深度学习模型训练。
Description
技术领域
本发明涉及图像处理以及智能信息提取技术领域,尤其涉及一种基于零标注的多类别目标域数据集标注方法及系统。
背景技术
随着传统农业与人工智能技术相结合,智慧果园的建设在果业发展中得到了更为广泛的关注,其中高精度果实检测技术是现代化智慧果园实际应用工作中的重要基础技术,在果实定位、果实分拣、果实产量预测、果实自动采摘等众多智慧果园智能化工作中有着广泛的应用价值。
虽然现阶段基于深度学习的目标检测技术得到了广泛的应用,但是需要依赖大量已标注数据集才能支撑检测模型的训练学习,造成人工标注成本增高。并且由于现阶段深度学习模型泛化性能差的原因,针对模型在不同场景、不同环境、不同拍摄方式以及不同目标种类的应用工作中,需要独立制作新的目标数据集并训练学习新的检测模型,耗时耗力。
目前的技术方向包括:(1)引入实例级损失约束从而更好地规范图像中前景目标的生成方向,但此类做法由于引入了人工标注过程,并不适用于基于无监督学习的果实自动标注任务;(2)采用一种跨循环比较路径的果实转换模型Across-CycleGAN,通过引入结构相似性损失函数从而实现了圆形果实到椭圆形果实的转换;然而目标自动标注方法的泛化性不高,无法实现更多种类目标域目标的自动标注任务。
因此如何建立一种泛化性更高、域适应性更强的零成本数据自动标注方法,同时能够对生成模型进行优化,从而在多类别(表现在形状颜色纹理变化很大)的情况下,能够实现逼真的转换,实现域差异的减小具有迫切的需求。
发明内容
为了解决现有技术中存在的问题,本发明提供了一种基于零标注的多类别目标域数据集标注方法及系统,无需人工成本的标注即可实现深度学习模型的训练,进一步提高无监督目标转换模型性能,增强算法对于目标表型特征的描述能力,从而控制模型在表型特征差异大的跨越式目标图像转换任务中能够精准控制目标生成方向,可应用于多农场、多品种、多场景下的数据集快速标注。
本发明第一方面提供了一种基于零标注的多类别目标域数据集标注方法,包括:
S1,获取不同类别的目标域前景图像;
S2,基于所述不同类别的目标域前景图像进行多维空间特征定量化分析并基于定量化分析后的多维空间特征构建跨类别共性描述模型;基于跨类别共性描述模型获得目标的最佳源域;
S3,基于多类别目标生成模型对最佳源域的图像进行转换;
S4,基于转换后的图像构建目标域合成数据集;
S5,基于目标域合成数据集检测目标,得到目标的边界框信息,并基于所述目标域合成数据集及目标的边界框信息获得目标域标签训练检测模型;
S6,基于所述目标域标签训练检测模型进行自动的目标标注获得已标注的目标域数据集。
优选的,所述S2包括:
S21,从不同类别的目标域前景图像中提取目标的外观特征,所述外观特征包括边缘轮廓、全局颜色和局部细节;
S22,将所述外观特征抽象为特定形状、颜色和纹理,基于多维特征定量化分析方法对于不同目标的特征计算特定形状、颜色和纹理的相对距离作为不同目标个体的外观特征的分析描述集;
S23,基于对分析描述集进行多维特征空间重构和特征差异划分构建跨类别共性描述模型;
S24,基于所述跨类别共性描述模型获得目标的最佳源域;
优选的,所述S22包括:
S221,基于傅里叶描述子进行目标形状提取,并将傅里叶描述子离散化;
S222,提取目标前景中Lab颜色的空间分布及占比,并绘制CIELab空间颜色分布直方图;
S223,提取目标前景的像素值梯度以及方向导数信息获得基于LBP算法的纹理信息描述;
S224,基于傅里叶描述子离散化、所绘制的CIELab空间颜色分布直方图以及基于LBP算法的纹理信息描述进行基于相关性和空间分布的单一外观特征相对距离计算;
S225,基于所计算的单一外观特征相对距离值构建相对距离矩阵;
所述S23包括:
S231,多维特征空间重构:通过两两目标特征间的相对距离构建一个多维特征空间,从而将不同目标特征间的相对距离转换为同一特征空间中的绝对距离,便于通过一对二维平面的位置坐标简洁精准的描述每个目标图像的表型特征;
S232,特征差异划分:基于聚类算法对空间中的特征点进行划分,按照目标特征的相似程度进行聚类,从而得到不同聚类中的最佳源域目标;
所述S24包括:
S241,基于所述跨类别共性描述模型对不同目标按照所述外观特征进行分类;
S242,针对实际需求的目标域种类,从所述分类中选择最佳源域种类,输入到生成模型中进行目标转换,对生成模型进行优化;所述生成模型的优化包括通过基于潜在空间的特征图提取和基于导向梯度信息的可视化特征图提取获得多类别目标域无背景目标多模态图像。
优选的,所述S3包括将目标样本数据进行图像预处理和图像转换,获取目标域仿真目标、背景以及其他组件形成目标域图像合成组件,包括:
S31,由模型生成器生成多维损失函数,所述多维损失函数包含三类损失函数,分别为LColor(),LShape()以及LTexture();
S32,基于可量化目标表型特征的动态自适应权重方法配平多维损失函数的权重后获得基于熵权法的多维损失函数;
S33,将所述基于潜在空间的特征图输入配平权重后的基于熵权法的多维损失函数中获得多类别目标域无背景目标图像的子集。
优选的,所述S4包括:
基于目标域图像合成组件建立基于层级组件合成规则的知识图谱体系;
基于层级组件合成规则的知识图谱体系构建合成图像;
记录目标的位置信息、尺寸信息以及类别信息,将其形成标签数据信息;
基于合成图像以及标签数据信息形成目标域合成数据集。
优选的,所述S5包括:
基于目标域合成数据集检测目标,得到检测算法的预训练模型以及目标的边界框信息;
基于所检测到的目标的边界框信息进行伪标签自学习生成目标域标签,获得已标注目标域数据集。
优选的,所述S6中所述目标域标签训练检测模型基于多类别目标自动标注方法搭建,包括:
将所述目标域标签训练检测模型进行自动的目标标注获得已标注的目标域数据集。
本发明的第二方面在于提供一种基于多维空间特征模型最佳源域的目标标注系统,包括:
第一图像获取模块,用于获取不同类别的目标域前景图像;
最佳源域选取模块,用于基于所述不同类别的目标域前景图像进行多维空间特征定量化分析并基于定量化分析后的多维空间特征构建跨类别共性描述模型;基于跨类别共性描述模型获得目标的最佳源域;
图像转换模块,用于基于多类别目标生成模型对最佳源域的图像进行转换;
目标域合成数据集构建模块,用于基于转换后的图像构建目标域合成数据集;
目标域标签生成模块,用于基于目标域合成数据集检测目标,得到目标的边界框信息,并基于所述目标域合成数据集及目标的边界框信息获得目标域标签训练检测模型;
目标标注模块,用于基于所述目标域标签训练检测模型进行自动的目标标注获得已标注的目标域数据集。
本发明的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。
本发明提供的目标标注方法、系统、电子设备以及计算机可读存储介质,具有如下有益的技术效果:
建立一种泛化性更高、域适应性更强,而且能够满足不同类别果实数据集的自动标注方法;能够自动获得目标域目标的标签,从而应用到下游的智慧农业项目中;并且大大减少了人工标注目标框时所产生的金钱成本和时间成本(相比现有技术中单个场景数据集标注中,市场上平均0.2元/标注框,每张图像平均30颗果实,每张图像平均耗费3分钟标注时间,每个数据集至少包含10000张图像)。
附图说明
图1为本发明所述的一种基于零标注的多类别目标域数据集标注方法流程图。
图2为本发明所述的一种基于零标注的多类别目标域数据集标注方法数据逻辑图。
图3为本发明所述的图像生成模型整体流程图。
图4为本发明所述的一种基于零标注的多类别目标域数据集标注系统架构图。
图5为本发明所述电子设备结构示意图。
具体实施方式
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
实施例一
参见图1和图2,本实施例提供了一种基于零标注的多类别目标域数据集标注方法,包括:
S1,获取不同类别的目标域前景图像;
本实施例中,不同类别的目标域前景图像均可以为计算机设备预先存储的图像,或者由计算机设备从其他设备中下载的图像,或者由其他设备上传至计算机设备中的图像,或者该不同类别的目标域前景图像可以为该计算机设备当前采集到的图像,本申请实施例对此不做限定。例如,本实施例中,以果园内果实标注为具体应用场景,采用高清摄像设备辅助无人机等高空拍摄的方式获得广域的果园图像作为目标图像。并且目标图像和最终形成的标注图像尺寸相同,例如均为96px*96px。
S2,基于所述不同类别的目标域前景图像进行多维空间特征定量化分析并基于定量化分析后的多维空间特征构建跨类别共性描述模型;基于跨类别共性描述模型获得目标的最佳源域。
作为优选的实施方式,所述S2包括:S21,从不同类别的目标域前景图像中提取目标的外观特征,所述外观特征包括但不限于边缘轮廓、全局颜色和局部细节等;S22,将所述外观特征抽象为特定形状、颜色和纹理,基于多维特征定量化分析方法对于不同目标的特征计算特定形状、颜色和纹理的相对距离作为不同目标个体的外观特征的分析描述集;S23,基于对分析描述集进行多维特征空间重构和特征差异划分构建跨类别共性描述模型;S24,基于所述跨类别共性描述模型获得目标的最佳源域。
本实施例中,最佳源域选取模块用于设计描述和分析不同类别果实的表型特征。该模块主要通过计算其特征间的共性作为深度学习算法的先验知识,为深度学习的数据集选择以及训练参数的设置提供指导方针。该模块主要包含两部分内容:首先提出一种多维特征定量化分析方法对不同果实个体的外观特征进行分析描述;其次构建了跨类别共性描述模型对不同果实按照其表型特征进行分类,并从中选择最佳源域果实种类。
作为优选的实施方式,所述S22,将所述外观特征抽象为特定形状、颜色和纹理,基于多维特征定量化分析方法对于不同目标的特征计算特定形状、颜色和纹理的相对距离作为不同目标个体的外观特征的分析描述集包括:S221,基于傅里叶描述子进行目标(本实施例中为果实)形状提取,并将傅里叶描述子离散化;S222,提取目标(本实施例中为果实)前景中Lab颜色的空间分布及占比,并绘制CIELab空间颜色分布直方图;S223,提取目标(本实施例中为果实)前景的像素值梯度以及方向导数信息获得基于LBP算法的纹理信息描述;S224,基于傅里叶描述子离散化、所绘制的CIELab空间颜色分布直方图以及基于LBP算法的纹理信息描述进行基于相关性和空间分布的单一外观特征相对距离计算;S225,基于所计算的单一外观特征相对距离值构建相对距离矩阵。
作为优选的实施方式,所述S23,基于对分析描述集进行多维特征空间重构和特征差异划分构建跨类别共性描述模型包括:S231,多维特征空间重构:通过两两目标(本实施例为果实)特征间的相对距离构建一个多维特征空间,从而将不同目标(本实施例为果实)特征间的相对距离转换为同一特征空间中的绝对距离,便于通过一对二维平面的位置坐标简洁精准的描述每个目标(本实施例为果实)图像的表型特征。
本实施例中,所述多维特征空间重构采用MDS算法,包括:以距离为标准,将高维坐标中的点投影到低维坐标中,保持高位坐标中的点与低维坐标中的点之间的相对距离不变,并将低维坐标中的点投影到二维平面空间中,将相对距离转化为绝对距离。当然,本领域技术人员也可以采用其他算法,只要能够通过坐标投影和相对距离关系将相对距离转化为绝对距离均在本领域的保护范围内。
S232,特征差异划分:基于聚类算法对空间中的特征点进行划分,按照目标(本实施例为果实)特征的相似程度进行聚类,从而得到不同聚类中的最佳源域目标(本实施例为果实)。
本实施例中,所述特征差异划分采用的所述聚类算法为DBSCAN算法,包括:根据多维特征空间中样本的紧密程度进行聚类,自动划分并选取源域目标(本实施例为果实)的类别以及源域个数;根据目标(本实施例为果实)特征的分布差异自动确定聚类个数,每个聚类内部的几何中心处的目标(本实施例为果实)种类作为最佳源域目标(本实施例为果实)种类。
作为优选的实施方式,所述S24,基于所述跨类别共性描述模型获得目标的最佳源域包括:S241,基于所述跨类别共性描述模型对不同目标按照所述外观特征进行分类;S242,针对实际需求的目标域种类,从所述分类中选择最佳源域种类,输入到生成模型中进行目标转换,对生成模型进行优化。
作为优选的实施方式,对于步骤S242,由于选取最适合的源域数据时,有时候可能无法选取到最适合的源域(有的聚类中只有一种目标或果实),因此需要对生成模型进行了优化,在形状颜色纹理变化很大时,也能实现逼真的转换,实现域差异的减小。
所述生成模型的优化包括通过基于潜在空间的特征图提取和基于导向梯度信息的可视化特征图提取获得多类别目标域无背景目标多模态图像,从而解决单一类别最佳源域无背景目标图像的问题。
S3,基于多类别目标生成模型对最佳源域的图像进行转换;包括:将目标样本数据进行图像预处理和图像转换,获取目标域仿真目标(果实)、背景以及其他(叶子)组件形成目标域图像合成组件;
S31,由模型生成器生成多维损失函数,所述多维损失函数包含三类损失函数,分别为LColor(),LShape()以及LTexture()。
本实施例中:
(1)对于颜色特征损失函数:本实施例采用CycleGAN网络中循环一致损失函数及自映射损失函数(图中未示出),着色效果可以帮助目标转换模型更好的控制颜色特征的生成,其中循环一致损失表示为:
LColor(GST+GTS)=LCycle(GST+GTS)+LIdentity(GST+GTS) (1)
LCycle(GST+GTS=Es~pdata(s)||GTS(GST(s))-s||1+Et~pdata(t)||GST(GTS(t))-t||1(2)
自映射损失函数表示为:
LIdentity(GST+GTS)=Es~pdata(t)||s-GST(s)||1+Es~pdata(t)||t-GTS(t)||1 (3)
其中s~pdata(s)以及t~pdata(t)分别表示源域以及目标域中的数据分布,t和s分别表示目标域以及源域的图像信息。
(2)对于形状特征损失函数:本实施例采用基于多尺度结构相似性指数MS-SSIM,利用不同尺寸卷积核调整图像感受野大小并统计图像在不同尺度条件下相应区域的形状结构特征信息,从而有效区分不同类别果实图像的几何差异,训练模型更好适应不同类别目标(本实施例为果实)之间形状特征的差异变化。本实施例利用跨循环的比较方式,将原始图像与另一个循环中转换后的图像进行比较,从而更好地约束目标(本实施例为果实)形状特征的生成过程,形状特征损失函数表示为:
LShape(GST+GTS)=(1-MS_SSIM(GST(s),t))+(1-MS_SSIM(GTS(t),s)) (4)
其中MS_SSIM表示基于多尺度结构相似性指数损失计算。
(3)对于纹理特征损失函数:以果实作为目标进行目标标注的场景,由于果实图像中的纹理特征过于细节,如果只从原RGB图像中进行损失函数的比较无法充分表达纹理特征;而且数据集中果实的分辨率更小,纹理特征更加无法很好的表现出来,为图像转换模型增加了一定的难度。因此本实施例设计一种基于局部二值模式(LBP)描述子的纹理特征损失函数,使其更能凸显目标质地以及其规则性排列的纹理损失计算方法,精准描述其纹理特征,更好地发挥出图像转换模型的性能。纹理特征损失函数表示为:
LTexture(GST+GTS)=Pearson(LBP(GST(s),t)+Pearson(GTS(t),s)) (5)
LBP(X,Y)=N(LBP(xC,yC)) (6)
其中Pearson表示利用皮尔森相关系数计算果实纹理特征间的差异性大小,N表示遍历整幅图像中所有的像素值,xC,yC表示中心像素,g表示灰度值,s为符号函数,P表示选取自中心像素点的P邻域,经实验验证P取16时效果最好。
在没有成对监督信息约束的情况下两个图像域的分布是高度离散无规律的,而本发明通过设计使用多维损失函数分别用于约束果实转换模型训练过程中果实的颜色、形状以及纹理等视觉属性的生成方向,可以更加精准的描述果实转换过程中的多维表型特征。
S32,基于可量化目标表型特征的动态自适应权重方法配平多维损失函数的权重后获得基于熵权法的多维损失函数;步骤S32中,添加多维特征损失函数用于精准描述训练过程中目标(本实施例为果实)的特征,然而在生成对抗网络训练过程中,并非损失函数越多,网络模型效果越好,如果添加了过量的损失函数会导致训练阶段模型无法正常拟合,从而失去描述目标特征的生成方向。因此,为了平衡本发明实施例中所添加的多维损失函数,使其能够稳定收敛,精准描述多维果实表型特征,本发明实施例引入了基于可量化目标(本实施例为果实)表型特征的动态自适应权重方法,用于配平多维损失函数的权重。所述S32的具体流程如下:
(1)依次计算源域和目标域中第i个目标(本实施例为果实)的形状、颜色以及纹理特征的可量化描述子数值,并对其进行归一化处理,分别记作Si,Ci,Ti;
(2)计算每个目标(本实施例为果实)样本在不同特征值标下的比重Pij,用于描述不同特征描述子数值的差异性大小,如公式(9)所示:
其中j依次取形状、颜色以及纹理特征(S,C,T三种特征)作为三个不同的指标;Y表示果实样本,Yi表示每个不同的果实样本,Yij表示不同果实样本的不同表型特征;
(3)根据信息论中信息熵的定义,不同目标(本实施例为果实)样本的描述子差异值越大,在训练GAN模型中可以提供的信息量也就越多,因此需要在模型训练过程中为其分配更多的权重。此时计算一组数据的信息熵如公式(10)所示:
(4)根据信息熵的计算公式得到各个指标的权重如公式(11)所示:
模型生成器生成的基于熵权法的多维损失函数的整体损失函数LGuided-GAN可以表示为式(12):
LGuided-GAN=Ws·LShape(GST+GTS)+Wc·LColor(GST+GTS)Wt·LTexture(GST+GTS) (12)
其中GST表示源域映射到目标域的生成器,GTS表示目标域映射到源域的生成器,Ws,Wc以及Wt分别表示在模型训练过程中利用熵权法分配给形状、颜色以及纹理损失函数的权重比例。
在果实标注应用场景下,在进行两类果实间转换时,直接比较两类果实所有样本的形状、颜色以及纹理描述子的差异性大小,自动计算其果实之间的差异性具体数值,并动态调整每一次训练时多维损失函数的权重比例Ws,Wc,Wt,从而更好地协助网络模型进行拟合,加速收敛过程,使得生成的目标域果实图像质量更佳。
S33,将所述基于潜在空间的特征图输入配平权重后的基于熵权法的多维损失函数中获得多类别目标域无背景目标图像的子集。
其中S3中多类别目标生成模型采用基于多特征损失函数融合的方法搭建,目标具有多个类别,所述多特征损失函数为基于熵权法的多维损失函数,所述基于熵权法的多维损失函数分别用于约束目标转换模型训练过程中多个类别的所述目标的颜色、形状以及纹理的生成方向,从而更精准地描述特征差异大的目标(本实施例为果实)的表型特征,解决损失函数功能单一性的问题。在果实图像转换模型中更好地控制多维特征的生成方向,最终达到在特征差异大的跨越式果实转换任务中仍能取得较好的效果。
由于原始CycleGAN网络只能训练生成器达到重新着色的效果,较难对形状以及纹理等特征进行精准描述,也就缺少真实果实图像的形状纹理特征信息进行网络的拟合训练;现有技术可能会通过引入实例级损失约束从而更好地规范图像中前景目标的生成方向,但此类做法由于引入了人工标注过程,并不适用于基于无监督学习的果实自动标注任务;也有一种跨循环比较路径的果实转换模型Across-CycleGAN,通过引入结构相似性损失函数从而实现了圆形目标到椭圆形目标的转换,应用于例如果实标注的场景下,而为了更好地提高果实自动标注方法的泛化性,从而实现更多种类目标域果实的自动标注任务,需要进一步提高无监督果实转换模型性能,增强算法对于果实表型特征的描述能力,从而控制模型在表型特征差异大的跨越式果实图像转换任务中能够精准控制果实生成方向。
S4,基于转换后的图像构建目标域合成数据集,包括:基于目标域图像合成组件建立基于层级组件合成规则的知识图谱体系;本实施例中,知识图谱是指对每个组件按照自然语义结构、生长语义结构和目标域背景特征进行生长规则的规则设定,构建的一个基于层级组件合成规则的知识图谱体系;基于层级组件合成规则的知识图谱体系构建合成图像;记录目标的位置信息、尺寸信息以及类别信息,将其形成标签数据信息;基于合成图像以及标签数据信息形成目标域合成数据集。
作为优选的实施方式,所述基于目标域图像合成组件建立基于层级组件合成规则的知识图谱体系使得所构建的目标域合成数据集遵循一定的规则,包括:基于自然语义的构图规则、基于生长语义的构建规则以及基于场景环境的域适应规则形成的由组件到场景的构建过程。
在本实施例中,由于果园场景复杂、环境多变,完全依靠随机放置的方法实现自动化数据集合成十分困难,因此本方法将果园场景基于组件之间结构性以及规律性的关系,对每个组件按照不同情形进行更细致的分类,形成基于果园场景层级结构的知识图谱,以便对不同组件之间的合成权重进行合理划分。
基于场景环境的域适应规则组成果园场景分布的基础组件,包括土地、天空、骨架、叶子和果实;基于生长语义的构件规则组成果树生长态势的基础构建构件(包括树和被遮挡的果实)以及组成果树生长态势的组合构件(包括长有果实的树),其中通过果实基于场景环境的域适应子规则形成被遮挡的果实,通过骨架和叶子基于生长语义的构件子规则形成树,通过树和被遮挡的果实基于生长语义的构件子规则形成长有果实的树;基于自然语义的构图规则组成自然语义结构的果园场景,其中长有果实的树、天空和土地基于场景环境的域适应规则以及基于自然语义的构图规则最终形成目标域合成图像。
S5,基于目标域合成数据集检测目标,得到目标的边界框信息,并基于所述目标域合成数据集及目标的边界框信息获得目标域标签训练检测模型;包括:基于目标域合成数据集检测目标,得到检测算法的预训练模型以及目标的边界框信息;基于所检测到的目标的边界框信息进行伪标签自学习生成目标域标签,获得已标注目标域数据集。
S6,基于所述目标域标签训练检测模型进行自动的目标标注获得已标注的目标域数据集。S6中所述目标域标签训练检测模型基于多类别目标自动标注方法搭建,包括:将所述目标域标签训练检测模型进行自动的目标标注获得已标注的目标域数据集。
基于此,本发明实施例使用多维损失函数分别用于约束果实转换模型训练过程中果实的颜色、形状以及纹理的生成方向。该模型的生成器中多维损失函数设计示意图如图3所示。
S6包括:将所述目标域标签训练检测模型进行自动的目标标注获得已标注的目标域数据集。
本实施例中,单一类别最佳源域无背景目标图像为单一类别最佳源域无背景果实图像。并且会通过特征图可视化处理后进行损失函数计算,其中特征图可视化包括基于潜在空间的特征图提取以及基于导向梯度信息的可视化特征图获取。
作为优选的实施方式,所述单一类别最佳源域无背景目标图像均可以为计算机设备预先存储的图像,或者由计算机设备从其他设备中下载的图像,或者由其他设备上传至计算机设备中的图像,或者为该计算机设备当前采集到的图像。
作为优选的实施方式,所述单一类别最佳源域无背景目标图像中所述最佳源域的获取方式包括:从单一类别的目标域前景图像中提取目标的外观特征;将所述外观特征抽象为特定形状、颜色和纹理,基于多维特征定量化分析方法对于不同目标的特征计算特定形状、颜色和纹理的相对距离作为不同目标个体的外观特征的分析描述集;基于对分析描述集进行多维特征空间重构和特征差异划分构建单一类别描述模型;基于所述单一类别描述模型获得目标的最佳源域。
作为优选的实施方式,所述基于所述单一类别描述模型获得目标的最佳源域包括:基于所述单一类别描述模型对不同目标按照所述外观特征进行分类;针对实际需求的目标域种类,从所述分类中选择最佳源域种类,输入到所述单一类别描述模型中进行目标转换获得目标的最佳源域。
实施例二
参见图4,本实施例提供了一种基于多维空间特征模型最佳源域的目标标注系统,包括:第一图像获取模块101,用于获取不同类别的目标域前景图像;最佳源域选取模块102,用于基于所述不同类别的目标域前景图像进行多维空间特征定量化分析并基于定量化分析后的多维空间特征构建跨类别共性描述模型;基于跨类别共性描述模型获得目标的最佳源域;图像转换模块103,用于基于多类别目标生成模型对最佳源域的图像进行转换;目标域合成数据集构建模块104,用于基于转换后的图像构建目标域合成数据集;目标域标签生成模块105,用于基于目标域合成数据集检测目标,得到目标的边界框信息,并基于所述目标域合成数据集及目标的边界框信息获得目标域标签训练检测模型;目标标注模块106,用于基于所述目标域标签训练检测模型进行自动的目标标注获得已标注的目标域数据集。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的方法。
如图5所示,本发明还提供了一种电子设备,包括处理器301和与所述处理器301连接的存储器302,所述存储器302存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于零标注的多类别目标域数据集标注方法,其特征在于,包括:
S1,获取不同类别的目标域前景图像;
S2,基于所述不同类别的目标域前景图像进行多维空间特征定量化分析并基于定量化分析后的多维空间特征构建跨类别共性描述模型;基于跨类别共性描述模型获得目标的最佳源域;
S3,基于多类别目标生成模型对最佳源域的图像进行转换;
S4,基于转换后的图像构建目标域合成数据集;
S5,基于目标域合成数据集检测目标,得到目标的边界框信息,并基于所述目标域合成数据集及目标的边界框信息获得目标域标签训练检测模型;
S6,基于所述目标域标签训练检测模型进行自动的目标标注获得已标注的目标域数据集。
2.根据权利要求1所述的一种基于零标注的多类别目标域数据集标注方法,其特征在于,所述S2包括:
S21,从不同类别的目标域前景图像中提取目标的外观特征,所述外观特征包括边缘轮廓、全局颜色和局部细节;
S22,将所述外观特征抽象为特定形状、颜色和纹理,基于多维特征定量化分析方法对于不同目标的特征计算特定形状、颜色和纹理的相对距离作为不同目标个体的外观特征的分析描述集;
S23,基于对分析描述集进行多维特征空间重构和特征差异划分构建跨类别共性描述模型;
S24,基于所述跨类别共性描述模型获得目标的最佳源域。
3.根据权利要求2所述的一种基于零标注的多类别目标域数据集标注方法,其特征在于,所述S22包括:
S221,基于傅里叶描述子进行目标形状提取,并将傅里叶描述子离散化;
S222,提取目标前景中Lab颜色的空间分布及占比,并绘制CIELab空间颜色分布直方图;
S223,提取目标前景的像素值梯度以及方向导数信息获得基于LBP算法的纹理信息描述;
S224,基于傅里叶描述子离散化、所绘制的CIELab空间颜色分布直方图以及基于LBP算法的纹理信息描述进行基于相关性和空间分布的单一外观特征相对距离计算;
S225,基于所计算的单一外观特征相对距离值构建相对距离矩阵;
所述S23包括:
S231,多维特征空间重构:通过两两目标特征间的相对距离构建一个多维特征空间,从而将不同目标特征间的相对距离转换为同一特征空间中的绝对距离,便于通过一对二维平面的位置坐标简洁精准的描述每个目标图像的表型特征;
S232,特征差异划分:基于聚类算法对空间中的特征点进行划分,按照目标特征的相似程度进行聚类,从而得到不同聚类中的最佳源域目标;
所述S24包括:
S241,基于所述跨类别共性描述模型对不同目标按照所述外观特征进行分类;
S242,针对实际需求的目标域种类,从所述分类中选择最佳源域种类,输入到生成模型中进行目标转换,对生成模型进行优化;所述生成模型的优化包括通过基于潜在空间的特征图提取和基于导向梯度信息的可视化特征图提取获得多类别目标域无背景目标多模态图像。
4.根据权利要求1所述的一种基于零标注的多类别目标域数据集标注方法,其特征在于,所述S3包括将目标样本数据进行图像预处理和图像转换,获取目标域仿真目标、背景以及其他组件形成目标域图像合成组件,包括:
S31,由模型生成器生成多维损失函数,所述多维损失函数包含三类损失函数,分别为LColor()、LShape()以及LTexture();
S32,基于可量化目标表型特征的动态自适应权重方法配平多维损失函数的权重后获得基于熵权法的多维损失函数;
S33,将所述基于潜在空间的特征图输入配平权重后的基于熵权法的多维损失函数中获得多类别目标域无背景目标图像的子集。
5.根据权利要求1所述的一种基于零标注的多类别目标域数据集标注方法,其特征在于,所述S4包括:
基于目标域图像合成组件建立基于层级组件合成规则的知识图谱体系;
基于层级组件合成规则的知识图谱体系构建合成图像;
记录目标的位置信息、尺寸信息以及类别信息,将其形成标签数据信息;
基于合成图像以及标签数据信息形成目标域合成数据集。
6.根据权利要求1所述的一种基于零标注的多类别目标域数据集标注方法,其特征在于,所述S5包括:
基于目标域合成数据集检测目标,得到检测算法的预训练模型以及目标的边界框信息;
基于所检测到的目标的边界框信息进行伪标签自学习生成目标域标签,获得已标注目标域数据集。
7.根据权利要求1所述的一种基于零标注的多类别目标域数据集标注方法,其特征在于,所述S6中所述目标域标签训练检测模型基于多类别目标自动标注方法搭建,包括:
将所述目标域标签训练检测模型进行自动的目标标注获得已标注的目标域数据集。
8.一种基于多维空间特征模型最佳源域的目标标注系统,用于实施权利要求1-7任一所述的方法,其特征在于,包括:
第一图像获取模块,用于获取不同类别的目标域前景图像;
最佳源域选取模块,用于基于所述不同类别的目标域前景图像进行多维空间特征定量化分析并基于定量化分析后的多维空间特征构建跨类别共性描述模型;基于跨类别共性描述模型获得目标的最佳源域;
图像转换模块,用于基于多类别目标生成模型对最佳源域的图像进行转换;
目标域合成数据集构建模块,用于基于转换后的图像构建目标域合成数据集;
目标域标签生成模块,用于基于目标域合成数据集检测目标,得到目标的边界框信息,并基于所述目标域合成数据集及目标的边界框信息获得目标域标签训练检测模型;
目标标注模块,用于基于所述目标域标签训练检测模型进行自动的目标标注获得已标注的目标域数据集。
9.一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如权利要求1-7所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1-7所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310505349.XA CN116778223A (zh) | 2023-05-06 | 2023-05-06 | 一种基于零标注的多类别目标域数据集标注方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310505349.XA CN116778223A (zh) | 2023-05-06 | 2023-05-06 | 一种基于零标注的多类别目标域数据集标注方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116778223A true CN116778223A (zh) | 2023-09-19 |
Family
ID=88012313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310505349.XA Pending CN116778223A (zh) | 2023-05-06 | 2023-05-06 | 一种基于零标注的多类别目标域数据集标注方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116778223A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117891883A (zh) * | 2024-03-14 | 2024-04-16 | 山东观和集团有限公司 | 一种矿产勘查数据优化存储方法 |
-
2023
- 2023-05-06 CN CN202310505349.XA patent/CN116778223A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117891883A (zh) * | 2024-03-14 | 2024-04-16 | 山东观和集团有限公司 | 一种矿产勘查数据优化存储方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Fast and accurate green pepper detection in complex backgrounds via an improved Yolov4-tiny model | |
CN108830285B (zh) | 一种基于Faster-RCNN的加强学习的目标检测方法 | |
US20190318158A1 (en) | Multi-pose face feature point detection method based on cascade regression | |
CN111476219A (zh) | 智能家居环境中图像目标检测方法 | |
CN113449594B (zh) | 一种多层网络组合的遥感影像地类语义分割与面积计算方法 | |
CN109919177B (zh) | 基于层次化深度网络的特征选择方法 | |
EP3975135A1 (en) | Topographic data machine learning method and system | |
CN106446933A (zh) | 基于上下文信息的多目标检测方法 | |
CN106886995A (zh) | 多线性示例回归器聚合的图像显著对象分割方法 | |
CN105825511A (zh) | 一种基于深度学习的图片背景清晰度检测方法 | |
CN106570480B (zh) | 一种基于姿势识别的人体动作分类方法 | |
Shahab et al. | How salient is scene text? | |
CN110633708A (zh) | 一种基于全局模型和局部优化的深度网络显著性检测方法 | |
CN111311702B (zh) | 一种基于BlockGAN的图像生成和识别模块及方法 | |
CN108596195B (zh) | 一种基于稀疏编码特征提取的场景识别方法 | |
CN113761259A (zh) | 一种图像处理方法、装置以及计算机设备 | |
US20220132050A1 (en) | Video processing using a spectral decomposition layer | |
CN107798686A (zh) | 一种基于多特征判别学习的实时目标跟踪方法 | |
CN110223310A (zh) | 一种基于深度学习的线结构光中心线和箱体边缘检测方法 | |
CN112598031A (zh) | 一种蔬菜病害检测方法及系统 | |
CN113723492A (zh) | 一种改进主动深度学习的高光谱图像半监督分类方法及装置 | |
CN113435254A (zh) | 一种基于哨兵二号影像的耕地深度学习提取方法 | |
Sabri et al. | Nutrient deficiency detection in maize (Zea mays L.) leaves using image processing | |
CN116778223A (zh) | 一种基于零标注的多类别目标域数据集标注方法及系统 | |
CN113269182A (zh) | 一种基于变体transformer对小区域敏感的目标果实检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |