CN109063735A - 一种基于昆虫生物学参数的昆虫分类方案设计方法 - Google Patents

一种基于昆虫生物学参数的昆虫分类方案设计方法 Download PDF

Info

Publication number
CN109063735A
CN109063735A CN201810708373.2A CN201810708373A CN109063735A CN 109063735 A CN109063735 A CN 109063735A CN 201810708373 A CN201810708373 A CN 201810708373A CN 109063735 A CN109063735 A CN 109063735A
Authority
CN
China
Prior art keywords
insect
classification
class
parameter
insects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810708373.2A
Other languages
English (en)
Inventor
胡程
王锐
孔少洋
龙腾
曾涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201810708373.2A priority Critical patent/CN109063735A/zh
Publication of CN109063735A publication Critical patent/CN109063735A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于昆虫生物学参数的昆虫分类方案设计方法;该发明可以用于多类迁飞昆虫分类辨识研究;该方法获取多种类型迁飞昆虫的多维生物学参数,基于聚类中心构建昆虫的类间可分性测度,然后根据类间可分性测度通过反复的基于排序的合并,形成由l‑1个分支构成的二叉树,得到分类方案;最后基于训练样本,训练出l‑1个二分类器,用二分类器支持向量机搭建分类模型,完成分类方案设计过程。本发明还提出了基于昆虫体重、振翅频率、体长等生物学参数进行昆虫分类研究,给出了数据处理和构造的方法。本发明给出了合理的分类辨识方案,最终以高概率实现迁飞昆虫的种类辨识,提高迁飞昆虫种类的辨识精确度。

Description

一种基于昆虫生物学参数的昆虫分类方案设计方法
技术领域
本发明属于昆虫雷达技术领域,具体一种基于昆虫生物学参数的昆虫分类方案设计方法。
背景技术
昆虫迁飞是造成农作物病虫害和人畜疫病流行的重要原因,其中昆虫迁飞造成的害虫异地暴发等现象严重威胁着农作物的生产,已成为制约农业稳定发展的关键问题,目前害虫的主要防治途径是化学农药,但是每年都会因为化学农药的残留问题造成很多人畜中毒事件。因此,实现迁飞昆虫个体及群体的有效监测,对农业病虫害的预防,揭示昆虫特定行为习惯机理,阐明昆虫迁飞与当地生态系统的互作关系等方面都有重要的意义。
对昆虫迁飞现象的监测有许多手段,如空中网捕、地面诱捕、电子标签追踪以及雷达探测等。其中雷达探测作为一种重要的监测手段,具有探测距离远,空中目标定位及工作时间长等优势。监测主要目的之一是迁飞昆虫种类的识别。传统的昆虫识别的流程一般是对训练样本进行数码图像获取、图像预处理、特征提取和特征汰选后构建分类器,实现昆虫的辨识。但是远距离高空迁迁飞昆虫不能获得实时的数码图像,为了实现远距离迁飞昆虫种类的辨识,传统的分类辨识方法将不适用。
迁飞昆虫的形状、尺寸、体重和振翅频率等信息可作为种类辨识的特征量,其中形状尺寸等信息主要可以通过质量、体长等具体参数进行量化表示。已有研究表明,现有的垂直昆虫雷达可以测得昆虫体重、振翅等参数,为昆虫个体种类辨识提供了依据,但目前所能做到的种类辨识仍需要借助一些先验知识的参考,并只能在大类层面上进行识别,无法实现迁飞昆虫种类的精确辨识。如果基于机器学习的方法,利用昆虫质量、体长和振翅频率等参数,设计分类辨识方案,能够以高辨识率实现迁飞昆虫种类的辨识,则可以为雷达生物目标辨识提供思路。
发明内容
有鉴于此,本发明提供了一种基于昆虫生物学参数的昆虫分类方案设计方法,给出合理的分类辨识方案,最终以高概率实现迁飞昆虫的种类辨识,提高迁飞昆虫种类的辨识精确度。
本发明提供的基于昆虫生物学参数的昆虫分类方案设计方法,包括如下步骤:
步骤一、获取迁飞昆虫多维生物学参数,作为训练样本;
步骤二、制定分类方案:
S21、对训练样本进行聚类,获得每类昆虫的聚类中心mi,i=1,…l;计算任意两类昆虫的类间可分性测度dmij
其中,d(mi,mj)为第i类昆虫和第j类昆虫的聚类中心的欧氏距离,σi和σj分别表示第i类昆虫和第j类昆虫的生物学参数方差,l为类别的总数;
S22、对所有类昆虫的类间可分性测度大到小排列,找到最小的类间可分性测度,将对应的两类昆虫合并为一类;重复步骤S21和S22,直到所有种类合并为一类,得到一个二叉树;将所述二叉树翻转,即可得到分类方案;
步骤三、搭建分类模型:
依照所述分类方案,二叉树的每一个二叉分支对应一个二分类器,基于训练样本,训练出l-1个二分类器,用二分类器支持向量机搭建分类模型,完成分类方案设计过程。
优选地,步骤一中,所述迁飞昆虫多维生物学参数为体重、振翅频率和体长的三维生物学参数。
优选地,步骤一中,对获取的迁飞昆虫多维生物学参数进行预处理:
步骤11、基于拉伊达准则,剔除异常值:如果某测量值与平均值之差大于标准差的三倍,则予以剔除;
步骤12、进行样本扩充:计算各类昆虫剩余样本数据的均值、方差、协方差,构建联合高斯分布,从分布曲线中提取数据,实现对每类昆虫的扩充;
步骤13、将扩充后的样本数据归一化。
优选地,步骤一获取的迁飞昆虫多维生物学参数分为两部分,一部分作为训练样本,一部分用来测试分类模型的效果。
本发明具有如下有益效果:
(1)为了解决昆虫种类过多,难以实现正确辨识的问题,本发明根据昆虫类别间的关系将它们分级合并成多个两类分类的问题,构建多个两类分类器,然后基于支持向量机依次进行辨识。支持向量机在解决非线性及高维模式识别中有很大的优势,可以通过有限训练样本集可以得到误差较小的分类器,因此可以在有限样本的情况下,提高辨识概率。
(2)本发明采用聚类的方法对样本进行分类,获得样本中心。与通过采用均值得到的样本中心相比,通过聚类得到的样本中心有助于提高最终的辨识概率。
(3)本发明基于样本聚类中心,提出了任意两类昆虫的可分性可定义——昆虫类间可分性测度,可以直观、准确的刻画任意两类昆虫之间的可分性,为二叉树的构建提供依据。
(4)本发明利用体重、振翅频率、体长三维信息作为生物学参数,构建样本数据,这三种参数可通过万分之一天平、频闪仪和游标卡尺测得,测量方便且测量精度较高,有利于实现高辨识率。另外,已有研究表明,现有昆虫雷达可测得昆虫体重和振翅频率,振翅频率与昆虫体长具有一定对应关系,选取这三种参数将有利于本方法的实际应用。
附图说明
图1为分类方案设计示意图;
图2为分类实现的具体步骤;
图3为23种迁飞昆虫分类辨识的分类方案。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
迁飞昆虫种类辨识为多类分类问题,可以设计多类分类器来实现不同种类昆虫的辨识,但是因为昆虫种类过多,难以实现大部分种类昆虫的正确辨识率均维持在一个较高的水平。为了解决这个问题,可以根据昆虫类别间的关系将它们分级合并成多个两类分类的问题,构建多个两类分类器,依次进行辨识。
为评价任意两类昆虫的可分性,需要定义昆虫类间可分性测度。假设昆虫的多维生物学参数为{(x1,y1),…,(xl,yl)},xi为多维样本数据,xi∈Rn,i=1,…l,yi为类别标签,通过聚类的方法计算出每类昆虫的聚类中心:mi,然后任意两类昆虫的可分性可定义为:
其中,d(mi,mj)为第i类昆虫和第j类昆虫聚类中心的欧氏距离,σi表示昆虫i的方差。本发明基于样本聚类中心,提出了上述昆虫类间可分性测度,可以直观、准确的刻画任意两类昆虫之间的可分性,为二叉树的构建提供依据。
dmij越大,表示昆虫i和昆虫j的可分性越好;dmij越小,表示昆虫i和昆虫j的可分性越差。基于可分性测度,可以制定分类方案,将多分类问题转化为级联的多个二分类问题,以实现多类昆虫的分类辨识。
实际上,多数迁飞昆虫体型相近,振翅频率相似,种类之间线性不可分,而支持向量机在解决非线性及高维模式识别中有很大的优势,可以通过有限训练样本集可以得到误差较小的分类器,可广泛地应用于统计分类问题。基于上述原因,我们选择通过支持向量机来解决二分类问题。
对于两分类模型,若线性可分,可通过支持向量机构造一个超平面或者多个超平面,使两类样本中离超平面最近的样本与超平面的距离是最大的;若线性不可分,通过非线性映射,可将低维输入空间转化成高维特征空间,在高维特征空间求解分类器。
采用不同的核函数可以实现不同的非线性分类器,其中,径向基核函数应用最为广泛,在低维、高维、小样本、大样本等情况下均具有较好的学习能力。本实验在处理数据时,选择了径向基核函数。
因此,本发明提供了基于昆虫生物学参数的机器学习分类方法。假设有a-f六种昆虫,可将它们分级合并成多个两类分类的问题,分类辨识主要步骤如下:
步骤一:收集样本,进行数据预处理
1)首先搜集昆虫多维样本数据,基于拉伊达准则,剔除异常值。如果某测量值xi与平均值之差大于标准差Sx的三倍,则予以剔除。
其中,样本均值和标准差分别为:
2)进行样本扩充,计算各类昆虫剩余样本数据的均值、方差、协方差,构建联合高斯分布,从分布曲线中提取数据,对每类昆虫进行扩充。本实施例是将每类昆虫扩充到5000头。
3)将扩充后的样本数据归一化,然后均分为两部分一部分用来训练,一部分用来测试。
步骤二:分类方案制定
1)对训练数据进行分析,通过聚类计算出每类昆虫的聚类中心:mi,基于上述公式(1)定义的类间可分性测度,计算出任两类昆虫的类间可分性测度,将类间可分性测度从大到小排列;
2)找到最小的类间可分性测度,将对应的两类昆虫合并为一类;这里类别总数减少1。
3)重复本步骤二的第1)步和第2)步,直到所有种类合并为一类,我们可以得到如图1(a)所示的二叉树;
4)将上述二叉树翻转,得到如图1(b)所示的二叉树,图1(b)即为分类方案,将六分类问题转化为五个二分类问题;
步骤三:分类实现
具体步骤如图2所示,依照上述分类方案,二叉树的每一个二叉分支对应一个二分类器,基于训练样本,训练出五个二分类器,依照图1(b)所示分类方案,用二分类器支持向量机搭建分类模型。
步骤四:测试
将测试样本导入到分类模型中,将输出类别,与实际类别进行比较,统计正确辨识率,对分类效果给出评价。
上述过程完成了分类方案设计过程。
在实际分类时,将待分类昆虫样本导入分类模型中,即可输出类别,实现昆虫分类辨识。
实施例:
为验证前述基于生物学参数的昆虫分类方法,对15种昆虫,基于体重、振翅频率和体长三维生物学参数,采用本发明所述的一种基于昆虫生物学参数的机器学习分类方法,完成这15种迁飞昆虫种类分类辨识,具体流程如下:
1)基于15组昆虫原始数据,采用联合高斯分布,将所有昆虫都扩充为5000头,将数据均分为训练数据和测试数据;
表1:实验昆虫参数
2)按照上述分类方案制定方法,设计分类方案,如图3所示。然后搭建分类模型;
3)将测试数据导入分类模型中,然后统计正确辨识率,如表1所示:
表1:迁飞昆虫分类辨识结果
基于上述实测数据反演结果可以得到以下结论:
所选取的15种昆虫的辨识率均高于85%,平均辨识率高达98%,验证了体重、振翅频率和体长等生物学参数可用于迁飞昆虫种类辨识,本发明提出的分类方法的有效性也得到了证实。
综上所述,本发明优选方案提出的昆虫分类方案设计方法,可以利用体重、振翅频率、体长等生物学参数,基于决策树和聚类的方法,设计昆虫辨识方案,然后基于支持向量机,实现迁飞昆虫种类的辨识。
以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于昆虫生物学参数的昆虫分类方案设计方法,其特征在于,包括如下步骤:
步骤一、获取多种类型迁飞昆虫的多维生物学参数,作为训练样本;
步骤二、制定分类方案:
S21、对训练样本进行聚类,获得每类昆虫的聚类中心mi,i=1,…l;计算任意两类昆虫的类间可分性测度dmij
其中,d(mi,mj)为第i类昆虫和第j类昆虫的聚类中心的欧氏距离,σi和σj分别表示第i类昆虫和第j类昆虫的生物学参数方差,l为类别的总数;
S22、对所有类昆虫的类间可分性测度大到小排列,找到最小的类间可分性测度,将对应的两类昆虫合并为一类;重复步骤S21~S22,直到所有种类合并为一类,得到一个二叉树;将所述二叉树翻转,即可得到分类方案;
步骤三、搭建分类模型:
依照所述分类方案,二叉树的每一个二叉分支对应一个二分类器,基于训练样本,训练出l-1个二分类器,用二分类器支持向量机搭建分类模型,完成分类方案设计过程。
2.如权利要求1所述的一种基于昆虫生物学参数的昆虫分类方案设计方法,其特征在于,步骤一中,所述迁飞昆虫多维生物学参数为体重、振翅频率和体长的三维生物学参数。
3.如权利要求1所述的一种基于昆虫生物学参数的昆虫分类方案设计方法,其特征在于,步骤一中,对获取的迁飞昆虫多维生物学参数进行预处理:
步骤11、基于拉伊达准则,剔除异常值:如果某测量值与平均值之差大于标准差的三倍,则予以剔除;
步骤12、进行样本扩充:计算各类昆虫剩余样本数据的均值、方差、协方差,构建联合高斯分布,从分布曲线中提取数据,实现对每类昆虫的扩充;
步骤13、将扩充后的样本数据归一化。
4.如权利要求1所述的一种基于昆虫生物学参数的昆虫分类方案设计方法,其特征在于,步骤一获取的迁飞昆虫多维生物学参数分为两部分,一部分作为训练样本,一部分用来测试分类模型的效果。
5.如权利要求1所述的一种基于昆虫生物学参数的昆虫分类方案设计方法,其特征在于,所述支持向量机采用径向基核函数。
CN201810708373.2A 2018-07-02 2018-07-02 一种基于昆虫生物学参数的昆虫分类方案设计方法 Pending CN109063735A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810708373.2A CN109063735A (zh) 2018-07-02 2018-07-02 一种基于昆虫生物学参数的昆虫分类方案设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810708373.2A CN109063735A (zh) 2018-07-02 2018-07-02 一种基于昆虫生物学参数的昆虫分类方案设计方法

Publications (1)

Publication Number Publication Date
CN109063735A true CN109063735A (zh) 2018-12-21

Family

ID=64818362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810708373.2A Pending CN109063735A (zh) 2018-07-02 2018-07-02 一种基于昆虫生物学参数的昆虫分类方案设计方法

Country Status (1)

Country Link
CN (1) CN109063735A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113030949A (zh) * 2021-03-06 2021-06-25 河南省农业科学院植物保护研究所 基于昆虫雷达的昆虫生物流测算方法
CN113759361A (zh) * 2020-06-05 2021-12-07 珠海格力电器股份有限公司 植物生长柜雷达监测方法、系统、存储介质及生长柜

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329734A (zh) * 2008-07-31 2008-12-24 重庆大学 基于k-l变换和ls-svm的车牌字符识别方法
CN101980251A (zh) * 2010-11-23 2011-02-23 中国矿业大学 二叉树多类支持向量机遥感分类方法
US8750573B2 (en) * 2010-08-02 2014-06-10 Sony Corporation Hand gesture detection
CN106803099A (zh) * 2016-12-29 2017-06-06 东软集团股份有限公司 一种数据处理方法和装置
US9773210B2 (en) * 2013-11-08 2017-09-26 Electronics And Telecommunications Research Institute System and method for providing information

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101329734A (zh) * 2008-07-31 2008-12-24 重庆大学 基于k-l变换和ls-svm的车牌字符识别方法
US8750573B2 (en) * 2010-08-02 2014-06-10 Sony Corporation Hand gesture detection
CN101980251A (zh) * 2010-11-23 2011-02-23 中国矿业大学 二叉树多类支持向量机遥感分类方法
US9773210B2 (en) * 2013-11-08 2017-09-26 Electronics And Telecommunications Research Institute System and method for providing information
CN106803099A (zh) * 2016-12-29 2017-06-06 东软集团股份有限公司 一种数据处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHENG HU等: "Identification of Migratory Insects from their Physical Features using a Decision-Tree Support Vector Machine and its Application to Radar Entomology", 《SCIENTIFIC REPORTS》 *
NGOC SAN HA等: "Relationship between wingbeat frequency and resonant frequency of the wing in insects", 《BIOINSPIRATION & BIOMIMETICS》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113759361A (zh) * 2020-06-05 2021-12-07 珠海格力电器股份有限公司 植物生长柜雷达监测方法、系统、存储介质及生长柜
CN113030949A (zh) * 2021-03-06 2021-06-25 河南省农业科学院植物保护研究所 基于昆虫雷达的昆虫生物流测算方法
CN113030949B (zh) * 2021-03-06 2023-12-15 河南省农业科学院植物保护研究所 基于昆虫雷达的昆虫生物流测算方法

Similar Documents

Publication Publication Date Title
Pandey et al. Comparative analysis of KNN algorithm using various normalization techniques
Xiao et al. Classification and recognition scheme for vegetable pests based on the BOF-SVM model
CN102324038B (zh) 一种基于数字图像的植物种类识别方法
CN109190665A (zh) 一种基于半监督生成对抗网络的通用图像分类方法和装置
CN107239514A (zh) 一种基于卷积神经网络的植物识别方法及系统
Zhang et al. Unsupervised difference representation learning for detecting multiple types of changes in multitemporal remote sensing images
Zeng et al. Identification of maize leaf diseases by using the SKPSNet-50 convolutional neural network model
CN109767312A (zh) 一种信用评估模型训练、评估方法与装置
CN109753874A (zh) 一种基于机器学习的低慢小雷达目标分类方法
CN111738138B (zh) 一种耦合气象特征区域尺度的小麦条绣病严重度遥感监测方法
CN110059713A (zh) 一种基于降水粒子多特征参量的降水类型识别方法
CN113392748A (zh) 一种基于卷积神经网络的遥感影像耕地信息提取方法
CN110533100A (zh) 一种基于机器学习进行cme检测和跟踪的方法
CN109063735A (zh) 一种基于昆虫生物学参数的昆虫分类方案设计方法
CN107424174A (zh) 基于局部约束非负矩阵分解的运动显著区域提取方法
CN104573745A (zh) 基于磁共振成像的实蝇分类方法
Lin et al. Looking from shallow to deep: Hierarchical complementary networks for large scale pest identification
Obayya et al. Optimal deep transfer learning based ethnicity recognition on face images
Hu et al. Multi-level trajectory learning for traffic behavior detection and analysis
Li et al. Identification of Crop Diseases Based on Improved Genetic Algorithm and Extreme Learning Machine.
Gao et al. Adaptive cow movement detection using evolving spiking neural network models
CN104573727A (zh) 一种手写体数字图像降维方法
Bhurtel et al. Deep learning based seed quality tester
Paudel et al. Comparative study of machine learning algorithms for rainfall prediction-a case study in Nepal
Suresh et al. Design an efficient disease monitoring system for paddy leaves based on big data mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181221