CN115496936A - 一种基于图像切割和残差结构的蔬菜识别方法 - Google Patents

一种基于图像切割和残差结构的蔬菜识别方法 Download PDF

Info

Publication number
CN115496936A
CN115496936A CN202211003844.2A CN202211003844A CN115496936A CN 115496936 A CN115496936 A CN 115496936A CN 202211003844 A CN202211003844 A CN 202211003844A CN 115496936 A CN115496936 A CN 115496936A
Authority
CN
China
Prior art keywords
image
vegetable
cutting
segmentation
residual error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211003844.2A
Other languages
English (en)
Inventor
代琦
刘嫚嫚
郭湘婷
刘晓庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Sci Tech University ZSTU
Original Assignee
Zhejiang Sci Tech University ZSTU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Sci Tech University ZSTU filed Critical Zhejiang Sci Tech University ZSTU
Priority to CN202211003844.2A priority Critical patent/CN115496936A/zh
Publication of CN115496936A publication Critical patent/CN115496936A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • G06V10/85Markov-related models; Markov random fields

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图像切割和残差结构的蔬菜识别方法。为了克服现有技术无法兼顾速度与蔬菜图像识别精度的问题;本发明包括以下步骤:S1:获取若干种类蔬菜的图像,构建蔬菜图像数据库;S2:将蔬菜图像按照分割规则切割为若干张包含蔬菜主体的子图像;将切割获得的子图像加入到蔬菜图像数据库中,划分预测数据集和训练数据集;S3:采用基于残差结构的神经网络模型对蔬菜图像数据库中的训练数据集进行训练;S4:利用训练好的模型对蔬菜图像数据库中的预测数据集进行预测。兼顾速度的同时提高了识别精度。

Description

一种基于图像切割和残差结构的蔬菜识别方法
技术领域
本发明涉及一种图像识别领域,尤其涉及一种通过Gibbs采样和残差结构的蔬菜识别方法。
背景技术
近年来,我国农业的发展模式正在从传统农业向现代智能农业转变,农产品中蔬菜的产量在增加,人们生活中对蔬菜的多样性需求增大,不再局限于单一的蔬菜。就目前而言,我国的蔬菜采摘、分拣、销售、称重等任务都是依赖人工完成,这不仅工作效率很低,而且消耗大量的劳动力,对于蔬菜的商品化发展有一定影响,而蔬菜的自动识别与分类的研究为解决上述问题提供了重要的技术支持。
目前,国内外在图像识别领域已经开展了很多研究工作。传统的模式识别方法考虑到图像的颜色、纹理、形状等特征,并且采集的图像主要是背景较为单一、干扰较小的蔬果图像,在技术上并不能达到鲁棒性强、应用广泛的要求。后有学者提出以蔬菜图像的分割为主线,对分割后的蔬菜图像进行特征提取,但是样本量比较少,而且针对的主要是具有封闭外层轮廓的图像。对于其他叶子类图像,如果图像分割中背景过于相似的时候,容易导致分割误差,没有一定的容错率,这对结果的影响就比较大,从而降低了准确率。
由于深度神经网络的参数较多,使得其具有强大的表征能力,这导致计算速度过慢。所以深度神经网络,也面临着如何降低参数量,如何学习更加丰富的特征,如何加快训练速度等问题。例如,一种在中国专利文献上公开的“一种蔬菜图像的分类识别方法及系统”,其公告号CN108491765B,包括:将待识别蔬菜图像输入至训练好的目标卷积神经网络模型,获取所述待识别蔬菜图像的分类识别结果;其中,所述训练好的目标卷积神经网络模型通过以下步骤获取:在卷积神经网络模型中添加全连接层,搭建所述目标卷积神经网络模型;通过蔬菜图像训练集,对所述目标卷积神经网络模型进行训练,获取所述训练好的目标卷积神经网络模型。该方案的神经网络参数较多,计算速度过慢。
发明内容
本发明主要解决现有技术无法兼顾速度与蔬菜图像识别精度的问题;提供一种基于图像切割和残差结构的蔬菜识别方法。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于图像切割和残差结构的蔬菜识别方法,包括以下步骤:
S1:获取若干种类蔬菜的图像,构建蔬菜图像数据库;
S2:将蔬菜图像按照分割规则切割为若干张包含蔬菜主体的子图像;将切割获得的子图像加入到蔬菜图像数据库中,划分预测数据集和训练数据集;
S3:采用基于残差结构的神经网络模型对蔬菜图像数据库中的训练数据集进行训练;
S4:利用训练好的模型对蔬菜图像数据库中的预测数据集进行预测。
本方案对蔬菜图像的切割得到具有蔬菜主体特征的训练集和预测集,即能够扩充数据库,又能够体现出蔬菜的局部特征,有足够的样本集和一定的容错率。然后通过残差连接和全连接层将得到的特征直接输入Softmax分类器中,实现了兼顾速度的同时提高了识别精度。
作为优选,所述的基于残差结构的神经网络模型为改进的Alexnet卷积神经网络模型;神经网络模型采用PRelu激活函数;
PRelu激活函数为:
Figure BDA0003807253770000021
其中,a>0为可变斜率。
通过使用PRelu激活函数作为改进的Relu激活函数,将Relu函数的负轴斜率从0改为可变参数a,在模型训练上取得了较好的结果。
作为优选,所述的分割规则包括基于吉布斯采样的图像分割法、顺序切割图像法、基于grabcut算法的图像分割法和随机抽样切割法。
对蔬菜图像的切割得到具有蔬菜主体特征的训练集和预测集,即能够扩充数据库,又能够体现出蔬菜的局部特征,有足够的样本集和一定的容错率。
作为优选,所述的基于吉布斯采样的图像分割法包括:
通过马尔科夫随机场构建概率模型,通过吉布斯采样分别获得各图像上的坐标点集合;
在坐标点集合中随机取若干坐标点,分别作为图像的中心点进行图像切割。
作为优选,对于图像S中的各像素点s,通过马尔科夫随机场处理,将所有像素点s分类,像素点的分类标签为w,分类结果的标签集合为W;
图像的概率模型P(W|S)为:
Figure BDA0003807253770000022
其中,P(W)为分类标签w的先验概率;
P(S|W)为图像S的条件概率分布;(也称似然函数);看结构为在已知像素点标记w情况下,它是真实的观察像素点s概率,所以是一个似然函数,表示观察像素点s和真实的像素点标记w的类似程度。
P(S)为图像S的先验概率。由于图像S在分割前就已经确定,故此P(S)为定值。所要求P(W|S)的最大值,即P(S|W)P(W)的最大值。
作为优选,所述的分类标签w的先验概率P(W)的求解过程为:
Figure BDA0003807253770000031
其中,
Figure BDA0003807253770000032
是归一化常数;
参数T控制P(W)的形状;
U2(W)=∑c∈CVc(Wc)
C为所有势团集合;
Vc(WC)为势团势能;
对VC(WC)的定义如下:
Figure BDA0003807253770000033
其中,β为耦合系数;s,t为相邻的像素点;
Ws、Wt为是不同子势团中相邻像素的标号。
表示图像的先验概率。
作为优选,所述的图像S的条件概率分布P(S|W)求解过程为:
对于每一分类标签,分别建立高斯密度函数;
将属于各分类标签的像素点,分别代入到对应的高斯密度函数中计算。
表示图像的似然概率。
作为优选,所述的吉布斯采样过程为:
通过训数据集得到所需的条件概率分布的参数集合;
对每一个像素点s,取最优化能量函数,遍历整个图像得到整个图像的初始分割;
根据目标函数计算当前的分割结果,每次迭代更新所有的像素点的分类标签;新的分类标签作为下一次迭代的分类标签;
依此反复,当达到设置的迭代次数或类中心不再变化则停止迭代。
通过吉布斯采样的方法,求最大后验概率,通过迭代每个变量来生成后验样本,取得最优解。
作为优选,通过吉布斯采样,采集到图像中落在蔬菜主体上的坐标点集合;
在坐标点集合中随机获取若干个点的坐标,以点为中心坐标点,切割尺寸为L*D像素大小的图片,得到不同位置特征的蔬菜图片;扩大了数据集的同时,蔬菜的特征也更为显著。
作为优选,若图像切割时长度或宽度小于需求的切割尺寸,则丢弃对应图片,继续进行迭代循环切割,直到找到额定数量的切割的结果。保证扩展数据的正常使用。
作为优选,所述的顺序切割图像法包括:
以额定的切割尺寸L*D像素,将蔬菜图像分别沿横向、纵向顺序切割。
作为优选,所述的基于grabcut算法的图像分割法包括:
在蔬菜图像中定义出包含目标的矩形,矩形外的区域被自动认为是背景,利用背景中的数据来区分定义的矩形区域内的前景和背景;
用高斯混合模型对前景和背景进行建模,将未定义的像素标记为可能的前景或背景;
基于图像每个像素之间的边与周围像素颜色上的相似性,给定其属于前景或背景的概率;前景和背景的分割将每个像素与一个前或背景节点相连接,若节点之间的边的前景或背景属性不同,则切断边,完成将蔬菜图像的前景与背景分割。
作为优选,所述的随机抽样切割法包括:
采用grabcut去除背景,用阈值法框选蔬菜主体,框定随机取点的范围在主体区域上;
在一张蔬菜图像中,随机取点并且按照切割尺寸为L*D像素大小进行切割。
图像的局部特征被放大,这使得卷积神经网络在提取特征的时候效果更好。
本发明的有益效果是:
1.通过吉布斯采样的方法,求最大后验概率,通过迭代每个变量来生成后验样本,取得最优解。
2.通过随机取点进行切割即可得到具有图片主体特征的训练集和预测集,有足够的样本集和一定的容错率。
3.通过残差连接和全连接层将得到的特征直接输入Softmax分类器中,实现了兼顾速度的同时提高了识别精度。
附图说明
图1是本发明的蔬菜识别方法流程图。
图2是本发明的基于残差结构的神经网络的结构示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例一:
本实施例的一种基于图像切割和残差结构的蔬菜识别方法,如图1所示,包括以下步骤:
S1:获取若干种类蔬菜的图像,构建蔬菜图像数据库。
通过爬虫、自己拍摄获取数据集,构建蔬菜图像数据库。在本实施例中,选择40种常见的蔬菜,通过拍摄、从网络上批量爬取图片、构建蔬菜图像数据库。
S2:将蔬菜图像按照分割规则切割为若干张包含蔬菜主体的子图像;将切割获得的子图像加入到蔬菜图像数据库中,划分预测数据集和训练数据集。
分割规则包括但不限于基于吉布斯采样的图像分割法、顺序切割图像法、基于grabcut算法的图像分割法和随机抽样切割法。
对蔬菜图像的切割得到具有蔬菜主体特征的训练集和预测集,即能够扩充数据库,又能够体现出蔬菜的局部特征,有足够的样本集和一定的容错率。
分割完之后我们把数据集按照1∶10分为预测数据集和训练数据集。
S3:采用添加了残差结构的神经网络模型对蔬菜图像数据库中的训练数据集进行训练。
基于残差结构的Alexnet神经网络训练数据集。
为了构建计算准确率高和收敛速度快神经网络模型,本实施例中采用一类改进的Alexnet卷积神经网络模型,该模型采用批归一化与全局平均池化算法。
普通的直连卷积神经网络和ResNet卷积神经网络的最大区别在于,ResNet有很多旁路的支线将输入直接连到后面的层,使得后面的层可以直接学习残差。传统的卷积层或全连接层在信息传递时,或多或少会存在信息丢失、损耗等问题,因此,蔬菜图像信息会丢失或者损耗,降低了算法的识别效率。然而,ResNet在某种程度上解决了这个问题,通过直接将输入信息绕道传导至输出层,从而,确保不同蔬菜图像信息的完整性,整个网络只需要学习输入、输出差别的两个环节,简化学习目标和难度,提升学习速率,进而提高不同蔬菜识别准确率。
由于不同尺寸的卷积核提取低层特征能力不同,因此,本实施例考虑卷积层1的不同卷积核尺寸,分别为7×7dpi,9×9dpi,11×11dpi,为了保证全局池化后的特征图大小为1×1dpi,全局池化层应使用13×13dpi大小的池化尺寸。传统的Alexnet采用的激活函数为修正线性单元激活函数,该网络在反向传播时能够防止梯度弥散的问题,加速卷积神经网络训练。通过使用PRelu激活函数作为改进的Relu激活函数,将Relu函数的负轴斜率从0改为可变参数a,在模型训练上取得了较好的结果。
Relu激活函数为:
Figure BDA0003807253770000051
PRelu激活函数为:
Figure BDA0003807253770000061
其中,a>0为可变斜率。
本实施例提出的基于残差连接的Alexnet卷积神经网络将选用PRelu激活函数,观察不同卷积核尺寸对模型识别准确率的影响。模型的全局池化算法采用全局最大池化和全局平均池化,用于比较不同池化类型对模型识别性能的影响。
S4:利用训练好的模型对蔬菜图像数据库中的预测数据集进行预测。
对预测数据集进行分割,对于预测的数据集,把每张蔬菜图像都可以分割成50张图片进行预测,本实施例通过对每一张分割的图片进行预测,求得是某种蔬菜的准确率,通过求50个结果中出现次数最多的作为本张蔬菜图像的最终准确率。这使得本发明的蔬菜识别有一定的容错率,而且准确率和识别效率都得到了提高。
实施例二:
本实施例的一种基于图像切割和残差结构的蔬菜识别方法,采用的图像切割的分割规则为基于吉布斯采样的图像分割法,具体包括以下过程:
通过马尔科夫随机场(MRF)构建概率模型,通过吉布斯(Gibbs)采样器分别获得各图像中前景上的坐标点集合,即在本实施例中一张图片中蔬菜主体上的坐标点集合。
构建概率模型,通过马尔科夫随机场(MRF)和吉布斯随机场(GRF)的等价性获得先验概率和似然概率。
对于一幅图像来说,每个像素点都有一个灰度值,这个灰度值可以用随机变量的实现来表示,以此类推,所有像素点灰度值的联合分布也可以被一个准则所表示,这个准则就是随机场。
马尔科夫随机场用于定义图像中的相关模式时,把具有相同性质的像素点设置为一类。
在本实施例中,把一幅图像分为2类,每一个像素点必定属于这2类中的某一类,假设2类为1类和2类,那么马尔科夫随机场就是给每个像素点找一个标签类。
假设我们图像是S,大小m*n,把每个观察像素点s放到图像S中,经过马尔科夫随机场处理过的图像就是把每个像素点都分了类,像素点的分类标签为w,把最终的分类结果的标签集合称为W。
显然W大小与S一样大,其中所有的W取值都在1和2之间,2是最大的分类数。转化为概率就是求取P(W|S),求取这个概率的最大值,即根据S算出这个图像的最有可能的标签。基于此,由贝叶斯理论得到:
Figure BDA0003807253770000071
因此只要定义出先验概率P(W)和似然函数P(S|W)就可以把上述的图像标记问题转化为如下求最大后验概率的问题:
Figure BDA0003807253770000072
其中,W为分类结果标签集合。
P(W)为分类标签w的先验概率。
P(S|W)是图像S的条件概率分布(也称似然函数);看结构为在已知像素点分类标签w情况下,它是真实的像素点s概率,所以是一个似然函数,表示像素点s和真实的像素点分类标签w的类似程度。
P(S)为图像S的先验概率,由于图像S在分割前就已经确定,故此P(S)为定值。所要求P(W|S)的最大值,即P(S|W)P(W)的最大值。
关于分类标签w的先验概率P(W)的求解步骤:
马尔科夫随机场是以其局部特性(马尔科夫性)为特征的性质,表明这个像素点的分类情况只与附近一些邻域分类情况有关,而与另一些邻域没有关系;图像中某一点特征(一般指灰度值、RGB值等)只与其附近的一小块邻域有关,而与其他的邻域无关。
求一个像素点是1类或者2类的概率,假设一个初始的标签,求一个像素点是标签1或者标签2的概率,由于马尔科夫性根据已知的像素点附近领域的分类情况决定这个像素点在下一次的迭代中属于哪一类标签,马尔科夫随机场可以与一个吉布斯随机场等价,吉布斯随机场也有一个概率密度函数,用求图像的吉布斯随机场的概率P代替P(W),吉布斯随机场的概率P为:
Figure BDA0003807253770000073
其中,
Figure BDA0003807253770000074
是归一化常数;
参数T控制P(W)的形状,T越大越平坦。参数T为温度常量,自定义。
U2(W)=∑c∈CVc(Wc)
C为所有势团集合;
Vc(Wc)为势团势能。
为了刻画像素之间的结构关系,引入了势团来说明目标像素点和周围像素点的相似程度,而这些势团就是要比较的对象。势团C是领域中(目标像素点相邻的像素点的集合)像素点的集合,这些点都是彼此相邻的。
对Vc(Wc)的定义如下:
Figure BDA0003807253770000081
其中,β为耦合系数,通常为0.5-1。
s,t分别为相邻的两个像素点;Ws、Wt为是不同子团中相邻像素的标号。
本实施例中,考虑的是8领域像素,随机初始化标签类,通过检测中心的像素和周围领域的相似程度,在不断的迭代中判断属于一个像素点属于1、2中的每一类的概率。
关于P(S|W)的求解步骤:
即求图像S的条件概率分布(似然函数),在已知像素点标记w的情况下,它是真实的观察像素点s的概率。
已知分类标签,则像素值(灰度)是s的概率。假设w=1,某个像素点灰度为s,即在第一类里面像素灰度为s的概率。每次迭代的时候均有一个分类标签,由于每个点都是独立的,并且认为每一类里面的所有点服从高斯分布(正态分布),则在每一类里面,根据这一类里面的这些点建立一个属于这一类的高斯密度函数。之后的像素点值,把其带到高斯密度函数中去就可以得到概率。
本实施例对于2类,每一类都可以建立一个高斯密度函数,这样就有2个高斯密度函数,那么每一个点属于这2类的概率就可以分别带到这2个高斯密度函数中计算。高斯密度函数一般形式为:
Figure BDA0003807253770000082
其中,P(x|wi)为目标像素点的高斯密度函数;
σ为图像中对应目标像素点的方差;
u为图像中对应目标像素点的均值。
通过吉布斯(Gibbs)采样得到样本的最优解,获取样本的点集合。
Gibbs采样是从高维空间中的每一维分别采样,逐步逼近高维采样点,其优点是采样难度低,但采样次数增加。基于此,本实施例采用基于Gibbs采样的方法。该方法可以简单描述为:
通过训练样本得到所需的似然函数的参数集合,初始化势函数中的耦合系数β,通常0.5-1。得到参数集合。
根据似然概率最大化的准则选取初始的标记场合,即对每一个像素点s,取最优化能量函数,遍历整个图像得到整个图像的初始分割。
通过吉布斯分布于马尔科夫随机场的等效性,把最大化后验概率可以转化为求最小能量函数,一般来说,认为这两部分的每一部分都组成了一个能量,换个说法就是最优化能量函数,表示如下:
W=arg min(U1(w,S)+U2(w))
根据目标函数计算当前的分割结果,一次迭代,所有的点所属于的类更新一遍,新的类标签作为下一次迭代的类标签,依此反复,程序结束的条件可以是设置迭代次数,也可以是观察类中心不在变化为止。
本实施例中,设置k=1000为最大的迭代次数,随机或者按照固定的扫描方式选取一个像素点,到迭代结束,即可得到样本的最优解。
在坐标点集合中随机取若干坐标点,分别作为图像的中心点进行图像切割,将切割获得的图像加入到蔬菜图像数据库中,划分预测数据集和训练数据集。
通过Gibbs采样,采集到图像中落在蔬菜主体上的坐标点集合,通过在坐标点集合中随机获取50个点的坐标,以点为中心坐标点,切割230*230像素大小的图片,得到不同位置特征的蔬菜图片,扩大了数据集的同时,蔬菜的特征也更为显著。
如果切割的时候遇到长度或者宽度不够的图片,则丢弃对应图片,继续进行迭代循环切割,直到找到50张切割的结果即可。通过分类分成训练集和预测集。
本实施例仅对分割规则中基于吉布斯采样的图像分割法进行详细描述,其他内容同实施例一。
实施例三:
本实施例的一种基于图像切割和残差结构的蔬菜识别方法,采用的图像切割的分割规则为顺序切割图像法,具体包括以下过程:
以额定的切割尺寸L*D像素,将蔬菜图像分别沿横向、纵向顺序切割。
在本实施例中,一张蔬菜图像,按照从左到右,从上到下顺序切割成230*230大小的图片。在横向切割时,如果最后一张图片尺寸不够时,则以右侧边缘为依据向左切割图片;在纵向切割时,若底部尺寸不够时,则以底部为边缘向上切割图片,最后把一张图片按照顺序切割成若干张图片。
本实施例仅对分割规则中顺序切割法进行详细描述,其他内容同实施例一。
实施例四:
本实施例的一种基于图像切割和残差结构的蔬菜识别方法,采用的图像切割的分割规则为基于grabcut算法的图像分割法,具体包括以下过程:
1)定义目标矩形,划分前景和背景:在蔬菜图像中定义出包含目标的矩形,矩形外的区域被自动认为是背景,并用背景中的数据来区分定义的矩形区域内的前景和背景。
2)前景和背景的建模及标记:用高斯混合模型对前景和背景进行建模,将未定义的像素标记为可能的前景或背景。
3)前景和背景的概率设定:基于图像每个像素之间的边与周围像素颜色上的相似性,给定其属于前景或背景的概率。
4)前景和背景的分割将每个像素与一个前或背景节点相连接,若节点之间的边的前景或背景属性不同,则切断边,即可将蔬菜图像的前景与背景分割。
使用GrabCut去背景后的图像,可能存在较多冗余背景,且蔬菜所在图像部不尽相同,为了减小上述情况对蔬菜识别准确率的影响,通过阈值法确定蔬菜的范围,选取包含蔬菜的最小矩形对图像进行剪裁;通过填充部分背景将最小矩形图片调整为方形,在去除多余黑色背景的同时确保图像被resize时害虫形状不会发生扭曲变形;通过resize处得到分辨率大小为250像素×250像素×3的模型输入图像。
本实施例仅对分割规则中基于grabcut算法的图像分割法进行详细描述,其他内容同实施例一。
实施例五:
本实施例的一种基于图像切割和残差结构的蔬菜识别方法,采用的图像切割的分割规则为随机抽样切割法,具体包括以下过程:
采用grabcut去除背景,用阈值法框选蔬菜主体,框定随机取点的范围在主体区域上;
在一张蔬菜图像中,随机取点并且按照切割尺寸为L*D像素大小进行切割。
图像分类中,在深度学习的训练时将图片的随机剪裁(random crop)已经成为很普遍的数据扩充(data augmentation)方法,随机剪裁不但提高了模型精度,也增强了模型稳定性。
本实施例通过随机抽样切割的思想,在一张蔬菜图像中,随机取点并且按照模型的输入大小230*230的大小进行切割,经过随机抽样切割,图像的局部特征被放大,使得卷积神经网络在提取特征的时候效果更好。
在预测的文件中,也采用随机切割的思想,随机切割出若干图片进行预测,在一定程度上取到了一张蔬菜图片的尽可能多的特征,从各个角度去预测蔬菜的概率,留下最好的结果,作为最终的识别精度。
在图像的切割过程中,当出现空白或者背景较多的图像时,会切割到空白的区域,对结果产生很大的影响。所以采用grabcut去除背景、并用阈值法框选,随机取点的范围在主体区域上,这样就避免取点在主体外,导致训练预测有误。
本实施例仅对分割规则中随机抽样切割法进行详细描述,其他内容同实施例一。
应理解,实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (10)

1.一种基于图像切割和残差结构的蔬菜识别方法,其特征在于,包括以下步骤:
S1:获取若干种类蔬菜的图像,构建蔬菜图像数据库;
S2:将蔬菜图像按照分割规则切割为若干张包含蔬菜主体的子图像;将切割获得的子图像加入到蔬菜图像数据库中,划分预测数据集和训练数据集;
S3:采用基于残差结构的神经网络模型对蔬菜图像数据库中的训练数据集进行训练;
S4:利用训练好的模型对蔬菜图像数据库中的预测数据集进行预测。
2.根据权利要求1所述的一种基于图像切割和残差结构的蔬菜识别方法,其特征在于,所述的基于残差结构的神经网络模型为改进的Alexnet卷积神经网络模型;神经网络模型采用PRelu激活函数;
PRelu激活函数为:
Figure FDA0003807253760000011
其中,a>0为可变斜率。
3.根据权利要求1或2所述的一种基于图像切割和残差结构的蔬菜识别方法,其特征在于,所述的分割规则包括基于吉布斯采样的图像分割法、顺序切割图像法、基于grabcut算法的图像分割法和随机抽样切割法。
4.根据权利要求3所述的一种基于图像切割和残差结构的蔬菜识别方法,其特征在于,所述的基于吉布斯采样的图像分割法包括:
通过马尔科夫随机场构建概率模型,通过吉布斯采样分别获得各图像上的坐标点集合;
在坐标点集合中随机取若干坐标点,分别作为图像的中心点进行图像切割。
5.根据权利要求4所述的一种基于图像切割和残差结构的蔬菜识别方法,其特征在于,对于图像S中的各像素点s,通过马尔科夫随机场处理,将所有像素点s分类,像素点的分类标签为w,分类结果的标签集合为W;
图像的概率模型P(W|S)为:
Figure FDA0003807253760000012
其中,P(W)为分类标签w的先验概率;
P(S|W)为图像S的条件概率分布;
P(S)为图像S的先验概率。
6.根据权利要求4或5所述的一种基于图像切割和残差结构的蔬菜识别方法,其特征在于,所述的吉布斯采样过程为:
通过训数据集得到所需的条件概率分布的参数集合;
对每一个像素点s,取最优化能量函数,遍历整个图像得到整个图像的初始分割;
根据目标函数计算当前的分割结果,每次迭代更新所有的像素点的分类标签;新的分类标签作为下一次迭代的分类标签;
依此反复,当达到设置的迭代次数或类中心不再变化则停止迭代。
7.根据权利要求6所述的一种基于图像切割和残差结构的蔬菜识别方法,其特征在于,通过吉布斯采样,采集到图像中落在蔬菜主体上的坐标点集合;
在坐标点集合中随机获取若干个点的坐标,以点为中心坐标点,切割尺寸为L*D像素大小的图片,得到不同位置特征的蔬菜图片。
8.根据权利要求3所述的一种基于图像切割和残差结构的蔬菜识别方法,其特征在于,所述的顺序切割图像法包括:
以额定的切割尺寸L*D像素,将蔬菜图像分别沿横向、纵向顺序切割。
9.根据权利要求3所述的一种基于图像切割和残差结构的蔬菜识别方法,其特征在于,所述的基于grabcut算法的图像分割法包括:
在蔬菜图像中定义出包含目标的矩形,矩形外的区域被自动认为是背景,利用背景中的数据来区分定义的矩形区域内的前景和背景;
用高斯混合模型对前景和背景进行建模,将未定义的像素标记为可能的前景或背景;
基于图像每个像素之间的边与周围像素颜色上的相似性,给定其属于前景或背景的概率;
前景和背景的分割将每个像素与一个前或背景节点相连接,若节点之间的边的前景或背景属性不同,则切断边,完成将蔬菜图像的前景与背景分割。
10.根据权利要求3所述的一种基于图像切割和残差结构的蔬菜识别方法,其特征在于,所述的随机抽样切割法包括:
采用grabcut去除背景,用阈值法框选蔬菜主体,框定随机取点的范围在主体区域上;
在一张蔬菜图像中,随机取点并且按照切割尺寸为L*D像素大小进行切割。
CN202211003844.2A 2022-08-19 2022-08-19 一种基于图像切割和残差结构的蔬菜识别方法 Pending CN115496936A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211003844.2A CN115496936A (zh) 2022-08-19 2022-08-19 一种基于图像切割和残差结构的蔬菜识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211003844.2A CN115496936A (zh) 2022-08-19 2022-08-19 一种基于图像切割和残差结构的蔬菜识别方法

Publications (1)

Publication Number Publication Date
CN115496936A true CN115496936A (zh) 2022-12-20

Family

ID=84467211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211003844.2A Pending CN115496936A (zh) 2022-08-19 2022-08-19 一种基于图像切割和残差结构的蔬菜识别方法

Country Status (1)

Country Link
CN (1) CN115496936A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116859174A (zh) * 2023-09-05 2023-10-10 深圳市鸿明机电有限公司 一种高压变电机柜电气部件在线状态监控系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116859174A (zh) * 2023-09-05 2023-10-10 深圳市鸿明机电有限公司 一种高压变电机柜电气部件在线状态监控系统

Similar Documents

Publication Publication Date Title
CN109614985B (zh) 一种基于密集连接特征金字塔网络的目标检测方法
CN108154192B (zh) 基于多尺度卷积与特征融合的高分辨sar地物分类方法
CN109961049B (zh) 一种复杂场景下香烟品牌识别方法
CN107016677B (zh) 一种基于fcn和cnn的云图分割方法
CN106845510B (zh) 基于深度层级特征融合的中国传统视觉文化符号识别方法
CN108830326B (zh) 一种mri图像的自动分割方法及装置
CN109448015B (zh) 基于显著图融合的图像协同分割方法
CN108537102B (zh) 基于稀疏特征与条件随机场的高分辨sar图像分类方法
US7983486B2 (en) Method and apparatus for automatic image categorization using image texture
CN111652317B (zh) 基于贝叶斯深度学习的超参数图像分割方法
CN112347970B (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN106340016A (zh) 一种基于细胞显微镜图像的dna定量分析方法
JP2008217706A (ja) ラベリング装置、ラベリング方法及びプログラム
CN111860330A (zh) 基于多特征融合和卷积神经网络的苹果叶部病害识别方法
CN111611972B (zh) 基于多视图多任务集成学习的作物叶片种类识别方法
WO2024021413A1 (zh) 一种结合超像素和多尺度分层特征识别的图像分割方法
CN114492619B (zh) 一种基于统计和凹凸性的点云数据集构建方法及装置
CN111161244B (zh) 基于FCN+FC-WXGBoost的工业产品表面缺陷检测方法
CN107194929B (zh) 一种对肺部ct图像感兴趣区域的追踪方法
CN110717531A (zh) 一种基于不确定性分析和贝叶斯融合的分类后变化类型检测方法
CN115240024A (zh) 一种联合自监督学习和半监督学习的地外图片分割方法和系统
CN112837320A (zh) 一种基于并行空洞卷积的遥感影像语义分割方法
CN116071339A (zh) 一种基于改进鲸鱼算法优化svm的产品缺陷识别方法
CN115496936A (zh) 一种基于图像切割和残差结构的蔬菜识别方法
CN107423771B (zh) 一种两时相遥感图像变化检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination