CN115205521B - 基于神经网络的厨余垃圾检测方法 - Google Patents

基于神经网络的厨余垃圾检测方法 Download PDF

Info

Publication number
CN115205521B
CN115205521B CN202210946678.3A CN202210946678A CN115205521B CN 115205521 B CN115205521 B CN 115205521B CN 202210946678 A CN202210946678 A CN 202210946678A CN 115205521 B CN115205521 B CN 115205521B
Authority
CN
China
Prior art keywords
kitchen waste
layer
sample
neural network
prototype
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210946678.3A
Other languages
English (en)
Other versions
CN115205521A (zh
Inventor
方乐缘
欧阳立韩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210946678.3A priority Critical patent/CN115205521B/zh
Publication of CN115205521A publication Critical patent/CN115205521A/zh
Application granted granted Critical
Publication of CN115205521B publication Critical patent/CN115205521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明公开了一种基于神经网络的厨余垃圾检测方法,包括获取已经进行标注后的厨余垃圾图像数据集并增强;基于Transformer神经网络和原型对比学习算法构建厨余垃圾检测初始模型并训练得到厨余垃圾检测模型;采用厨余垃圾检测模型进行实际的厨余垃圾检测。本发明具有较强的实际应用价值;通过引入原型对比学习,在模型学习分类任务和回归任务的同时学习类别原型特征,增大异类原型和样本特征间距,减小同类原型和样本特征间距,使网络能够提取更具有区分意义的类别特征;在类别原型学习的基础上,通过损失函数监督增大类别原型间距,使模型能够学习到更优的类别原型,提升生活厨余垃圾检测精度;而且可靠性高、精确性好。

Description

基于神经网络的厨余垃圾检测方法
技术领域
本发明属于数字图像处理领域,具体涉及一种基于神经网络的厨余垃圾检测方法。
背景技术
随着经济技术的发展和人们生活水平的提高,人们对于垃圾回收的关注度也越来越高。厨余垃圾是人们生活中产生的众多类垃圾中的一类;在垃圾回收处理过程中,对于厨余垃圾的分类也尤为重要。
目前,现有的厨余垃圾分类,一般还处于人工分拣的阶段。但是明显的,对厨余垃圾进行人工分拣的过程,不仅费时费力,而且效率极为低下。随着深度学习技术的发展,目前也已经有了部分采用目标检测算法来进行厨余垃圾分拣的研究。但是,目前的目标检测算法都是基于自然图像或者遥感图像数据集进行训练和测试,对于厨余垃圾图像而言,其适用性不强。而且,厨余垃圾具有自身的独特属性,比如在可见光图像中玻璃制品和塑料瓶轮廓相似度极高,这使得现有的目标检测算法在进行检测时,其可靠性和精确性均较差。
发明内容
本发明的目的在于提供一种适用于厨余垃圾分拣,而且可靠性高、精确性好的基于神经网络的厨余垃圾检测方法。
本发明提供的这种基于神经网络的厨余垃圾检测方法,包括如下步骤:
S1. 获取已经进行标注后的厨余垃圾图像数据集;
S2. 对步骤S1获取的数据集进行数据增强;
S3. 基于Transformer神经网络和原型对比学习算法,构建厨余垃圾检测初始模型;
S4. 采用步骤S2得到的增强后的数据集,对步骤S3构建的厨余垃圾检测初始模型进行训练,得到厨余垃圾检测模型;
S5. 采用步骤S4得到的厨余垃圾检测模型,进行实际的厨余垃圾检测。
步骤S1所述的已经进行标注后的厨余垃圾图像数据集,具体为按照国家生活垃圾种类定义和实际情况需求,将厨余垃圾标记为硬塑料、玻璃、利乐宝、塑料瓶、金属、规则软塑料或无规则软塑料。
步骤S2所述的对步骤S1获取的数据集进行数据增强,具体包括如下步骤:
首先,读取数据集中的图像;
然后,采用双线性插值算法将图像的大小调整到设定的大小值;
接下来,将统一大小的图像随机按照横轴、纵轴或对角线进行翻转,翻转概率依次为0.25、0.25和0.25;
最后,将得到的图像按照设定的均值和方差进行图像归一化操作,从而得到最终的厨余垃圾图像训练数据集。
步骤S3所述的厨余垃圾检测初始模型,具体为首先采用Transformer神经网络提取厨余垃圾图像中的特征,然后对得到的多尺度特征进行融合并进行正负样本采样,接下来对得到的样本进行级联和分类,最后采用增强了原型间距的原型对比学习算法对分类结果进行分类结果进行修正,从而完成厨余垃圾检测。
所述的步骤S3,具体包括如下步骤:
A. 采用Transformer神经网络提取厨余垃圾图像的特征。
B. 对步骤A提取的特征进行融合得到多层特征,采用卷积网络进行处理生成对应的目标候选框和分类结果,并进行正负样本采样。
C. 对步骤B采样的样本进行级联操作,修正候选框位置并对样本进行分类。
D. 采用增强了原型间距的原型对比学习算法对分类结果进行修正,从而完成厨余垃圾检测。
所述的步骤A,具体包括如下步骤:
采用构建的Transformer神经网络提取厨余垃圾图像的特征;构建的Transformer神经网络包括依次串接的图像切分模层、第一特征提取层、第二特征提取层、第三特征提取层和第四特征提取层;图像切分模层用于对输入的图像进行分块;第一特征提取层包括1层镶嵌模层和2个SwinTransformer块,用于浅层特征提取;第二特征提取层包括1层图像切分模层和2个SwinTransformer块,用于浅层特征提取;第三特征提取层包括1层图像切分模层和6个SwinTransformer块,用于深层特征提取;第四特征提取层包括1层图像切分模层和2个SwinTransformer块,用于深层特征提取;每一个SwinTransformer块均包括4层归一化层、2个多层感知机模块、1个窗口多头自注意力模块和1个移位窗口多头自注意力模块。
所述的步骤B,具体包括如下步骤:
B1. 构建金字塔特征融合模块,将步骤A中每个层输出的特征均与上阶段输出的特征进行融合,从而得到第i层输出的多层特征F i
B2. 构建候选框生成网络,将步骤B1得到的多层特征F i 输入到候选框生成网络,从而得到可能包含垃圾目标的候选框B p 和分类结果C p ;所述的候选框生成网络包括依次串联的1个3×3卷积层和2个1×1卷积层;
B3. 根据真实边界框、类别标签和步骤B2得到的候选框B p 、分类结果C p ,构建损失函数,并在训练时采用梯度下降法更新网络参数;
B4. 采用感兴趣区域对齐模块和候选框B p ,进行多层特征F i 的对齐;
B5. 采用样本提取模块,按照设定的正负样本比例提取对齐后的样本特征;其中正样本定义为候选框与真实边界框的交并比大于第一设定值,负样本定义为候选框与真实边界框的交并比小于第二设定值,且第二设定值小于第一设定值。
步骤B3所述的构建损失函数,具体包括如下步骤:
采用如下算式作为损失函数L rpn
式中L rpnreg 为回归损失函数,且x为回归损失函数L rpnreg 的自变量,表示候选框B p 与真实边界框B的差;L rpncls 为分类损失函数,且N为样本总量,/>为样本i为正样本的概率,y i 为二值函数,若样本i为正样本则/>,若样本i为负样本则/>
所述的步骤C,具体包括如下步骤:
(1). 将样本输入到三个依次串接的全连接层,得到第一阶段回归结果B1和第一阶段分类结果C1;然后,根据第一阶段回归结果B1与真实边界框B,计算回归损失函数;根据第一阶段分类结果C1和真实类别标签C,计算分类损失函数;并在训练时采用梯度下降法更新网络参数;
(2). 采用第一阶段回归结果B1和多层特征F i ,重新提取正负样本;
(3). 对步骤(2)提取的正负样本,再次输入到三个依次串接的全连接层,得到第二阶段回归结果B2和第二阶段分类结果C2;然后,根据第二阶段回归结果B2与真实边界框B,计算回归损失函数;根据第二阶段分类结果C2和真实类别标签C,计算分类损失函数;并在训练时采用梯度下降法更新网络参数。
所述的步骤D,具体包括如下步骤:
D1. 通过两个全连接层,对步骤C重新提取的样本进行特征提取,得到特征F p
D2. 将步骤D1得到的特征F p 通过构建的原型对比模块,从而增大特征F p 与其他类原型的间距,并缩小特征F p 与同类原型的间距;所述的原型对比模块,包括两个全连接层、两个relu层和一个进行了L2范数归一化的全连接层,其中两个全连接层用于组合特征,relu层用于函数激活,使模型具有非线性性,L2范数归一化的全连接层用于分类和对比;
D3. 最后,通过构建的原型间距增大模块,增大不同类别原型间的间距,完成分类结果的修正,从而完成厨余垃圾检测。
所述的步骤D2,处理过程包括如下步骤:
采用如下算式作为处理函数
式中N为样本总量;y kc 为符号函数,若样本k的真实类别为cy kc 为1,否则y kc 为0;L kc 为中间变量,且,其中LF i 为进行二范数归一化后的特征向量F i ,/>,/>为特征向量F i 的第j个值,LW i 为进行二范数归一化后的全连接层参数W i ,/>,/>为全连接层参数的第i行第j列值;
在训练过程中,采用梯度下降算法进行参数更新。
步骤D3所述的原型间距增大模块,具体包括一个进行了L2范数归一化的全连接层。
所述的步骤D3,处理过程包括如下步骤:
采用如下算式作为处理函数
式中y kc 为符号函数,若样本k的真实类别为cy kc 为1,否则y kc 为0;M kc 为中间变量,且LW i 为进行二范数归一化后的全连接层参数W i ,/>为全连接层参数的第i行第j列的值;
在训练过程中,采用梯度下降算法进行参数更新。
本发明提供的这种基于神经网络的厨余垃圾检测方法,只在训练时增加增强原型间距的原型对比学习模块,不增加推理速度,具有较强的实际应用价值;通过引入原型对比学习,在模型学习分类任务和回归任务的同时,学习类别原型特征,增大异类原型和样本特征间距,减小同类原型和样本特征间距,使网络能够提取更具有区分意义的类别特征;在类别原型学习的基础上,通过损失函数监督增大类别原型间距,使模型能够学习到更优的类别原型,提升生活厨余垃圾检测精度;因此本发明方法适用于厨余垃圾分类,而且可靠性高、精确性好。
附图说明
图1为本发明方法的方法流程示意图。
图2为本发明方法与现有方法在厨余垃圾图像数据集上的检测结果比较示意图。
具体实施方式
如图1所示为本发明方法的方法流程示意图:本发明提供的这种基于神经网络的厨余垃圾检测方法,包括如下步骤:
S1. 获取已经进行标注后的厨余垃圾图像数据集;具体为按照国家生活垃圾种类定义和实际情况需求,将厨余垃圾标记为硬塑料、玻璃、利乐宝、塑料瓶、金属、规则软塑料或无规则软塑料;
S2. 对步骤S1获取的数据集进行数据增强;具体包括如下步骤:
首先,读取数据集中的图像;
然后,采用双线性插值算法将图像的大小调整到设定的大小值(优选为(1024,1024));
接下来,将统一大小的图像随机按照横轴、纵轴或对角线进行翻转,翻转概率为0.25,0.25,0.25;
最后,将得到的图像按照设定的均值(优选为(123.675, 116.28, 103.53))和方差(优选为(58.395, 57.12, 57.375))进行图像归一化操作,从而得到最终的厨余垃圾图像训练数据集;
S3. 基于Transformer神经网络和原型对比学习算法,构建厨余垃圾检测初始模型;具体为首先采用Transformer神经网络提取厨余垃圾图像中的特征,然后对得到的多尺度特征进行融合并进行正负样本采样,接下来对得到的样本进行级联和分类,最后采用增强了原型间距的原型对比学习算法对分类结果进行分类结果进行修正,从而完成厨余垃圾检测;
具体实施时,包括如下步骤:
A. 采用Transformer神经网络提取厨余垃圾图像的特征;具体包括如下步骤:
采用构建的Transformer神经网络提取厨余垃圾图像的特征;构建的Transformer神经网络包括依次串接的图像切分模层、第一特征提取层、第二特征提取层、第三特征提取层和第四特征提取层;图像切分模层用于对输入的图像进行分块;第一特征提取层包括1层镶嵌模层和2个SwinTransformer块,用于浅层特征提取;第二特征提取层包括1层图像切分模层和2个SwinTransformer块,用于浅层特征提取;第三特征提取层包括1层图像切分模层和6个SwinTransformer块,用于深层特征提取;第四特征提取层包括1层图像切分模层和2个SwinTransformer块,用于深层特征提取;每一个SwinTransformer块均包括4层归一化层、2个多层感知机模块、1个窗口多头自注意力模块和1个移位窗口多头自注意力模块;
B. 对步骤A提取的特征进行融合得到多层特征,采用卷积网络进行处理生成对应的目标候选框和分类结果,并进行正负样本采样;具体包括如下步骤:
B1. 构建金字塔特征融合模块,将步骤A中每个层输出的特征均与上阶段输出的特征进行融合,从而得到第i层输出的多层特征F i
B2. 构建候选框生成网络,将步骤B1得到的多层特征F i 输入到候选框生成网络,从而得到可能包含垃圾目标的候选框B p 和分类结果C p ;所述的候选框生成网络包括依次串联的1个3×3卷积层和2个1×1卷积层;
B3. 根据真实边界框、类别标签和步骤B2得到的候选框B p 、分类结果C p ,构建损失函数,并在训练时采用梯度下降法更新网络参数;构建损失函数具体包括如下步骤:
采用如下算式作为损失函数L rpn
式中L rpnreg 为回归损失函数,且x为回归损失函数L rpnreg 的自变量,表示候选框B p 与真实边界框B的差;L rpncls 为分类损失函数,且N为样本总量,/>为样本i为正样本的概率,y i 为二值函数,若样本i为正样本则/>,若样本i为负样本则/>
B4. 采用感兴趣区域对齐模块和候选框B p ,进行多层特征F i 的对齐;
B5. 采用样本提取模块,按照设定的正负样本比例提取对齐后的样本特征;其中正样本定义为候选框与真实边界框的交并比大于第一设定值(优选为0.7),负样本定义为候选框与真实边界框的交并比小于第二设定值(优选为0.3),且第二设定值小于第一设定值;
C. 对步骤B采样的样本进行级联操作,修正候选框位置并对样本进行分类;具体包括如下步骤:
(1). 将样本输入到三个依次串接的全连接层,得到第一阶段回归结果B1和第一阶段分类结果C1;然后,根据第一阶段回归结果B1与真实边界框B,计算回归损失函数;根据第一阶段分类结果C1和真实类别标签C,计算分类损失函数;并在训练时采用梯度下降法更新网络参数;
(2). 采用第一阶段回归结果B1和多层特征F i ,重新提取正负样本;
(3). 对步骤(2)提取的正负样本,再次输入到三个依次串接的全连接层,得到第二阶段回归结果B2和第二阶段分类结果C2;然后,根据第二阶段回归结果B2与真实边界框B,计算回归损失函数;根据第二阶段分类结果C2和真实类别标签C,计算分类损失函数;并在训练时采用梯度下降法更新网络参数;
D. 采用增强了原型间距的原型对比学习算法对分类结果进行修正,从而完成厨余垃圾检测;具体包括如下步骤:
D1. 通过两个全连接层,对步骤C重新提取的正本样本进行特征提取,得到特征F p
D2. 将步骤D1得到的特征F p 通过构建的原型对比模块,从而增大特征F p 与其他类原型的间距,并缩小特征F p 与同类原型的间距;所述的原型对比模块,包括两个全连接层、两个relu层和一个进行了L2范数归一化的全连接层,其中两个全连接层起组合特征作用,relu层起到函数激活作用,使模型具有非线性性,L2范数归一化的全连接层起到分类和对比作用;处理过程包括如下步骤:
采用如下算式作为处理函数
式中N为样本总量;y kc 为符号函数,若样本k的真实类别为cy kc 为1,否则y kc 为0;L kc 为中间变量,且,其中LF i 为进行二范数归一化后的特征向量F i ,/>,/>为特征向量F i 的第j个值,LW i 为进行二范数归一化后的全连接层参数W i ,/>,/>为全连接层参数的第i行第j列值;
在训练过程中,采用梯度下降算法进行参数更新;
D3. 最后,通过构建的原型间距增大模块,增大不同类别原型间的间距,完成分类结果的修正,从而完成厨余垃圾检测;所述的原型间距增大模块,具体包括一个进行了L2范数归一化的全连接层;步骤D3的处理过程包括如下步骤:
采用如下算式作为处理函数
式中y kc 为符号函数,若样本k的真实类别为cy kc 为1,否则y kc 为0;M kc 为中间变量,且LW i 为进行二范数归一化后的全连接层参数W i ,/>为全连接层参数的第i行第j列的值;
在训练过程中,采用梯度下降算法进行参数更新;
S4. 采用步骤S2得到的增强后的数据集,对步骤S3构建的厨余垃圾检测初始模型进行训练,得到厨余垃圾检测模型;
S5. 采用步骤S4得到的厨余垃圾检测模型,进行实际的厨余垃圾检测。
以下结合一个实施例,对本发明方法的优点进行说明:
采用的数据集为生活厨余垃圾目标检测数据集。数据集包含图像13873张,其中训练集11098张,测试集2775张。
将本发明方法与3种现有方法进行对比;现有方法包括ReDet(Rotation-equivariant Detector)、R3Det(Refined Rotation RetinaNet)与S2ANet(Single-shotAlignment Network)。
采用本发明方法与3种现有方法处理同一厨余垃圾图像,处理结果如表1所示:
表1 厨余垃圾图像处理结果的精度对比示意表
从表1可以看到,本发明方法表现出比其他方法更优的量化结果。本发明方法和其他方法的可视化对比结果如图2所示(图2中,图2(a)为S2ANet方法的检测结果,图2(b)为R3Det方法的检测结果,图2(c)为ReDet方法的检测结果,图2(d)为本发明方法的检测结果,图2(e)为真实标签的结果)。从可视化结果和量化结果均可以看出,本发明方法的检测效果最好。

Claims (9)

1.一种基于神经网络的厨余垃圾检测方法,其特征在于包括如下步骤:
S1. 获取已经进行标注后的厨余垃圾图像数据集;
S2. 对步骤S1获取的数据集进行数据增强;
S3. 基于Transformer神经网络和原型对比学习算法,构建厨余垃圾检测初始模型;具体为首先采用Transformer神经网络提取厨余垃圾图像中的特征,然后对得到的特征进行融合并进行正负样本采样,接下来对得到的样本进行级联和分类,最后采用增强了原型间距的原型对比学习算法对分类结果进行分类结果进行修正,从而完成厨余垃圾检测;
S4. 采用步骤S2得到的增强后的数据集,对步骤S3构建的厨余垃圾检测初始模型进行训练,得到厨余垃圾检测模型;
S5. 采用步骤S4得到的厨余垃圾检测模型,进行实际的厨余垃圾检测。
2.根据权利要求1所述的基于神经网络的厨余垃圾检测方法,其特征在于步骤S1所述的已经进行标注后的厨余垃圾图像数据集,具体为将厨余垃圾标记为硬塑料、玻璃、利乐宝、塑料瓶、金属、规则软塑料或无规则软塑料;
步骤S2所述的对步骤S1获取的数据集进行数据增强,具体包括如下步骤:
首先,读取数据集中的图像;
然后,采用双线性插值算法将图像的大小调整到设定的大小值;
接下来,将统一大小的图像随机按照横轴、纵轴或对角线进行翻转,翻转概率依次为0.25、0.25和0.25;
最后,将得到的图像按照设定的均值和方差进行图像归一化操作,从而得到最终的厨余垃圾图像训练数据集。
3.根据权利要求2所述的基于神经网络的厨余垃圾检测方法,其特征在于所述的步骤S3,具体包括如下步骤:
A. 采用Transformer神经网络提取厨余垃圾图像的特征;
B. 对步骤A提取的特征进行融合得到多层特征,采用卷积网络进行处理生成对应的目标候选框和分类结果,并进行正负样本采样;
C. 对步骤B采样的样本进行级联操作,修正候选框位置并对样本进行分类;
D. 采用增强了原型间距的原型对比学习算法对分类结果进行修正,从而完成厨余垃圾检测。
4.根据权利要求3所述的基于神经网络的厨余垃圾检测方法,其特征在于所述的步骤A,具体包括如下步骤:
采用构建的Transformer神经网络提取厨余垃圾图像的特征;构建的Transformer神经网络包括依次串接的图像切分模层、第一特征提取层、第二特征提取层、第三特征提取层和第四特征提取层;图像切分模层用于对输入的图像进行分块;第一特征提取层包括1层镶嵌模层和2个SwinTransformer块,用于浅层特征提取;第二特征提取层包括1层图像切分模层和2个SwinTransformer块,用于浅层特征提取;第三特征提取层包括1层图像切分模层和6个SwinTransformer块,用于深层特征提取;第四特征提取层包括1层图像切分模层和2个SwinTransformer块,用于深层特征提取;每一个SwinTransformer块均包括4层归一化层、2个多层感知机模块、1个窗口多头自注意力模块和1个移位窗口多头自注意力模块。
5.根据权利要求4所述的基于神经网络的厨余垃圾检测方法,其特征在于所述的步骤B,具体包括如下步骤:
B1. 构建金字塔特征融合模块,将步骤A中每个层输出的特征均与上阶段输出的特征进行融合,从而得到第i层输出的多层特征F i
B2. 构建候选框生成网络,将步骤B1得到的多层特征F i 输入到候选框生成网络,从而得到可能包含垃圾目标的候选框B p 和分类结果C p ;所述的候选框生成网络包括依次串联的1个3×3卷积层和2个1×1卷积层;
B3. 根据真实边界框、类别标签和步骤B2得到的候选框B p 、分类结果C p ,构建损失函数,并在训练时采用梯度下降法更新网络参数;
B4. 采用感兴趣区域对齐模块和候选框B p ,进行多层特征F i 的对齐;
B5. 采用样本提取模块,按照设定的正负样本比例提取对齐后的样本特征;其中正样本定义为候选框与真实边界框的交并比大于第一设定值,负样本定义为候选框与真实边界框的交并比小于第二设定值,且第二设定值小于第一设定值。
6.根据权利要求5所述的基于神经网络的厨余垃圾检测方法,其特征在于步骤B3所述的构建损失函数,具体包括如下步骤:
采用如下算式作为损失函数L rpn 式中L rpnreg 为回归损失函数,且x为回归损失函数L rpnreg 的自变量,表示候选框B p 与真实边界框B的差;L rpncls 为分类损失函数,且/>N为样本总量,/>为样本i为正样本的概率,y i 为二值函数,若样本i为正样本则/>,若样本i为负样本则/>
7.根据权利要求6所述的基于神经网络的厨余垃圾检测方法,其特征在于所述的步骤C,具体包括如下步骤:
(1). 将样本输入到三个依次串接的全连接层,得到第一阶段回归结果B1和第一阶段分类结果C1;然后,根据第一阶段回归结果B1与真实边界框B,计算回归损失函数;根据第一阶段分类结果C1和真实类别标签C,计算分类损失函数;并在训练时采用梯度下降法更新网络参数;
(2). 采用第一阶段回归结果B1和多层特征F i ,重新提取正负样本;
(3). 对步骤(2)提取的正负样本,再次输入到三个依次串接的全连接层,得到第二阶段回归结果B2和第二阶段分类结果C2;然后,根据第二阶段回归结果B2与真实边界框B,计算回归损失函数;根据第二阶段分类结果C2和真实类别标签C,计算分类损失函数;并在训练时采用梯度下降法更新网络参数。
8.根据权利要求7所述的基于神经网络的厨余垃圾检测方法,其特征在于所述的步骤D,具体包括如下步骤:
D1. 通过两个全连接层,对步骤C重新提取的正本样本进行特征提取,得到特征F p
D2. 将步骤D1得到的特征F p 通过构建的原型对比模块,从而增大特征F p 与其他类原型的间距,并缩小特征F p 与同类原型的间距;所述的原型对比模块,包括两个全连接层、两个relu层和一个进行了L2范数归一化的全连接层,其中两个全连接层用于组合特征,relu层用于函数激活,使模型具有非线性性,L2范数归一化的全连接层用于分类和对比;
D3. 最后,通过构建的原型间距增大模块,增大不同类别原型间的间距,完成分类结果的修正,从而完成厨余垃圾检测。
9.根据权利要求8所述的基于神经网络的厨余垃圾检测方法,其特征在于所述的步骤D2,处理过程包括如下步骤:
采用如下算式作为处理函数:/>式中N为样本总量;y kc 为符号函数,若样本k的真实类别为cy kc 为1,否则y kc 为0;L kc 为中间变量,且,其中LF i 为进行二范数归一化后的特征向量F i ,/>为特征向量F i 的第j个值,LW i 为进行二范数归一化后的全连接层参数W i ,/>,/>为全连接层参数的第i行第j列值;
在训练过程中,采用梯度下降算法进行参数更新;
步骤D3所述的原型间距增大模块,具体包括一个进行了L2范数归一化的全连接层;
所述的步骤D3,处理过程包括如下步骤:
采用如下算式作为处理函数:/>式中y kc 为符号函数,若样本k的真实类别为cy kc 为1,否则y kc 为0;M kc 为中间变量,且LW i 为进行二范数归一化后的全连接层参数W i ,/>为全连接层参数的第i行第j列的值;
在训练过程中,采用梯度下降算法进行参数更新。
CN202210946678.3A 2022-08-09 2022-08-09 基于神经网络的厨余垃圾检测方法 Active CN115205521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210946678.3A CN115205521B (zh) 2022-08-09 2022-08-09 基于神经网络的厨余垃圾检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210946678.3A CN115205521B (zh) 2022-08-09 2022-08-09 基于神经网络的厨余垃圾检测方法

Publications (2)

Publication Number Publication Date
CN115205521A CN115205521A (zh) 2022-10-18
CN115205521B true CN115205521B (zh) 2024-03-26

Family

ID=83586737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210946678.3A Active CN115205521B (zh) 2022-08-09 2022-08-09 基于神经网络的厨余垃圾检测方法

Country Status (1)

Country Link
CN (1) CN115205521B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761259B (zh) * 2022-11-14 2023-11-24 湖南大学 基于类别平衡损失函数的厨余垃圾目标检测方法和系统
CN116777843B (zh) * 2023-05-26 2024-02-27 湖南大学 一种基于动态非极大值抑制的厨余垃圾检测方法及系统
CN116704293B (zh) * 2023-06-30 2024-02-02 北京建筑大学 基于对比学习的生活垃圾图像分类模型训练方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652214A (zh) * 2020-05-26 2020-09-11 佛山市南海区广工大数控装备协同创新研究院 一种基于深度学习的垃圾瓶分选方法
CN111814860A (zh) * 2020-07-01 2020-10-23 浙江工业大学 一种面向垃圾分类的多目标检测方法
CN113158861A (zh) * 2021-04-12 2021-07-23 杭州电子科技大学 一种基于原型对比学习的运动分析方法
CN114491036A (zh) * 2022-01-25 2022-05-13 四川启睿克科技有限公司 一种基于自监督和有监督联合训练的半监督文本分类方法及系统
CN114548268A (zh) * 2022-02-16 2022-05-27 南通大学 基于原型网络的小样本垃圾图像分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11263476B2 (en) * 2020-03-19 2022-03-01 Salesforce.Com, Inc. Unsupervised representation learning with contrastive prototypes
US20220164600A1 (en) * 2020-11-20 2022-05-26 Nec Laboratories America, Inc. Unsupervised document representation learning via contrastive augmentation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652214A (zh) * 2020-05-26 2020-09-11 佛山市南海区广工大数控装备协同创新研究院 一种基于深度学习的垃圾瓶分选方法
CN111814860A (zh) * 2020-07-01 2020-10-23 浙江工业大学 一种面向垃圾分类的多目标检测方法
CN113158861A (zh) * 2021-04-12 2021-07-23 杭州电子科技大学 一种基于原型对比学习的运动分析方法
CN114491036A (zh) * 2022-01-25 2022-05-13 四川启睿克科技有限公司 一种基于自监督和有监督联合训练的半监督文本分类方法及系统
CN114548268A (zh) * 2022-02-16 2022-05-27 南通大学 基于原型网络的小样本垃圾图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"ContrastNet: Unsupervised feature learning by autoencoder and prototypical contrastive learning for hyperspectral imagery classification";Zeyu Cao 等;《Neurocomputing》;第460卷;第71-83页 *
"基于深层卷积神经网络的垃圾检测方法研究";邵文杰;《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》;全文 *

Also Published As

Publication number Publication date
CN115205521A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN115205521B (zh) 基于神经网络的厨余垃圾检测方法
Li et al. Automatic fabric defect detection with a wide-and-compact network
CN105184312B (zh) 一种基于深度学习的文字检测方法及装置
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN107368831A (zh) 一种自然场景图像中的英文文字和数字识别方法
CN110533024B (zh) 基于多尺度roi特征的双二次池化细粒度图像分类方法
CN108898138A (zh) 基于深度学习的场景文本识别方法
CN111161244B (zh) 基于FCN+FC-WXGBoost的工业产品表面缺陷检测方法
CN112364791B (zh) 一种基于生成对抗网络的行人重识别方法和系统
CN110929665A (zh) 一种自然场景曲线文本检测方法
Hossain et al. Recognition and solution for handwritten equation using convolutional neural network
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN112749675A (zh) 一种基于卷积神经网络的马铃薯病害识别方法
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN107545281B (zh) 一种基于深度学习的单一有害气体红外图像分类识别方法
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN111882000A (zh) 一种应用于小样本细粒度学习的网络结构及方法
CN111833282A (zh) 一种基于改进的DDcGAN模型的图像融合方法
CN109902751B (zh) 融合卷积神经网络和半字模板匹配的表盘数字字符识别法
CN115019133A (zh) 基于自训练和标签抗噪的图像中弱目标的检测方法及系统
CN111209886B (zh) 一种基于深度神经网络的快速行人再识别方法
CN113191361A (zh) 一种形状识别方法
CN109543716B (zh) 一种基于深度学习的k线形态图像识别方法
CN117011274A (zh) 自动化玻璃瓶检测系统及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant