CN111914599A - 一种基于语义信息多层特征融合的细粒度鸟类识别方法 - Google Patents

一种基于语义信息多层特征融合的细粒度鸟类识别方法 Download PDF

Info

Publication number
CN111914599A
CN111914599A CN201910386030.3A CN201910386030A CN111914599A CN 111914599 A CN111914599 A CN 111914599A CN 201910386030 A CN201910386030 A CN 201910386030A CN 111914599 A CN111914599 A CN 111914599A
Authority
CN
China
Prior art keywords
local
network
feature
layer
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910386030.3A
Other languages
English (en)
Other versions
CN111914599B (zh
Inventor
何小海
李国瑞
吴晓红
卿粼波
滕奇志
王正勇
吴小强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201910386030.3A priority Critical patent/CN111914599B/zh
Publication of CN111914599A publication Critical patent/CN111914599A/zh
Application granted granted Critical
Publication of CN111914599B publication Critical patent/CN111914599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语义信息多层特征融合的细粒度鸟类识别方法。该方法由区域定位网络,特征提取网络和一种跨层特征融合网络(Cross‑layer Feature Fusion Network,CFF‑Net)组成。首先,区域定位网络在没有局部语义标注的情况下,自动定位出局部有效信息区域;然后,特征提取网络提取局部区域图像特征和全局图像特征;最后,CFF‑Net对多个局部和全局的向量进行融合,提高最终分类性能。结果表明,本方法在Caltech‑UCSD Birds200‑2011(CUB200‑2011)鸟类公共数据集上,分类准确率高于目前主流的细粒度鸟类识别方法,表现出优异的分类性能。

Description

一种基于语义信息多层特征融合的细粒度鸟类识别方法
技术领域
本发明设计一种基于语义信息多层特征融合的细粒度鸟类识别方法。涉及计算机视觉,深度学习领域。
背景技术
细粒度图像识别已成为目前计算机视觉领域的重要研究方向,其目的是对属于同一基础类别的图像(如鸟,鱼,汽车等)进行更加细致的从属类别划分。由于从属类别内部之间差别细微,细粒度图像识别任务相较于传统通用图像识别任务难度更高。近年来,随着我国生态保护事业的蓬勃发展,物种监控图像视频剧增,生物种类识别的需求也剧增。细粒度鸟类种类识别成为其中重要的任务之一,其识别结果可以帮助生物学家有效监控鸟类种群分布及生态环境的变迁。
目前,针对细粒度图像识别任务,大多数研究都以卷积神经网络(convolutionalneural networks,CNN)为基础,主要分为两大类。基于强监督学习的细粒度图像识别任务,在模型训练时,为了获得更好的分类精度,除了使用图像的类别标注外,还使用了目标标注框和局部部位标注点等局部语义标注信息。主要方法包括Part-based R-CNNs、Mask-CNN等,相较于传统CNN方法,检测精度明显提高,模型泛化性能也明显提升。基于强监督学习的分类模型虽然取得了较为满意的分类精度,但由于标注信息代价昂贵,且不能保证局部语义标注是模型所需的有效信息,在一定程度上局限了算法的实际应用。因此,目前大多数研究基于弱监督学习的思想。其难点在于,模型训练时仅使用图像类别标注,不再使用局部语义标注,也能准确定位到局部关键区域,取得与基于强监督学习模型可比的分类精度。主要方法包括双线性模型(Bilinear-CNN)、HBP模型、NTS-Net等。但上述方法对局部图像和全局图像特征提取后,将特征向量简单进行级联后接全连接层进行分类,不能充分利用局部区域特征所表达信息,一定程度上局限了算法的实际应用。
发明内容
本发明旨在为解决上述问题而提供一种基于语义信息多层特征融合的细粒度鸟类识别方法。
本发明通过以下技术方案来实现上述目的:
一种基于语义信息多层特征融合的细粒度鸟类识别方法,包括以下步骤:
(1)在输入网络前对图像进行随机裁剪,随机水平翻转,归一化,得到448*448大小的输入图像数据;
(2)局部区域定位,从步骤(1)的全局图像中,定位出具有有效信息的关键局部区域,并为每一个区域信息量含量打分,经过非极大值抑制(Non-Maximum Suppression,NMS)方法选择后,保留得分最高的前Top-n个局部区域;
(3)特征提取,将ResNet-50作为基本特征提取网络,提取步骤(1)得到的全局图像特征和步骤(2)得到的局部区域图像特征;
(4)特征融合,将步骤(3)得到的全局图像特征和局部区域图像特征进行跨层特征融合,对融合后的特征图谱采用全局均值池化进行降维,将降维后的特征向量进行级联,接全连接层后进行分类。
附图说明
图1基于语义信息多层特征融合的细粒度鸟类识别方法模型图
图2区域定位网络核心原理图
图3跨层特征融合网络模型图
具体实施方式
下面结合附图对本发明做进一步说明:
图1中,基于语义信息多层特征融合的细粒度鸟类识别方法,包括以下步骤:
(1)在输入网络前对图像进行随机裁剪,随机水平翻转,归一化,得到448*448大小的输入图像数据;
(2)区域定位网络,从步骤(1)的全局图像中,定位出具有有效信息的关键局部区域,并为每一个区域信息量含量打分,经过非极大值抑制(Non-Maximum Suppression,NMS)方法选择后,保留得分最高的前Top-n个局部区域;
(3)特征提取网络,将ResNet-50作为基本特征提取网络,提取步骤(1)得到的全局图像特征和步骤(2)得到的局部区域图像特征;
(4)跨层特征融合网络(Cross-layer Feature Fusion Network,CFF-Net),将步骤(3)得到的全局图像特征和局部区域图像特征进行跨层特征融合,对融合后的特征图谱采用全局均值池化进行降维,将降维后的特征向量进行级联,接全连接层后进行分类。
具体地,所述步骤(1)中,图像归一化时采用的均值和标准差分别为0.485、0.456、0.406和0.229、0.224、0.225。
所述步骤(2)中,区域定位网络核心原理图如图2所示。锚点是RPN网络卷积层输出的特征图上的一个像素,每个锚点对应于原图有一组规定好的k1个面积缩放比和k2个宽高比。首先,以相应锚点为中心,生成k个锚点框,其中k为k1和k2乘积;然后将每一个以锚点为中心的3*3大小的窗口,输入到中间卷积层,卷积核大小为3*3*256,得到256维向量;接着将256维向量输入到分类卷积层,卷积核大小为1*1*256*2k,得到2k个置信度,分别代表每个锚点框是前景和背景的概率大小;最后将256维向量输入到回归卷积层,卷积核大小为1*1*256*4k,得到4k个锚点框的位置数据,每个锚点框的坐标由矩形框的左上角点的横坐标、纵坐标和矩形框的长、宽共4个数据组成。在本发明中,由于没有局部语义标注信息,删除网络回归层,不做位置的精细修正;修改分类层卷积核大小为1*1*256*k,得到k个置信度分数,将其定义为每个锚点框内所含有效信息的丰富程度。在网络的14*14、7*7、和4*4特征图谱层分别使用改进后的RPN网络,选定的基准锚点框大小分别修改为64*64、128*128、256*256。对每一层特征图谱,单独设置锚点框的面积比和宽高比,共产生1614个候选框坐标与对应的信息量得分。经NMS算法后,选取前4个得分最高的候选区域,作为局部区域,将其上采样到224*224大小,送入后续的特征提取网络,其中,NMS算法中IoU取值为0.3。
所述步骤(3)中,修改ResNet-50全局均值池化层输出参数为1,使其输出特征图谱大小为1*1*2048大小,最后调整成2048维向量;GAP层后增加一个dropout层,dropoutradio设为0.5,防止过拟合现象发生;修改FC层输出参数为200,使其最终输出为200维向量。特征提取网络层在训练时,加载在ImageNet图像库预训练好的模型参数,对网络进行微调(fine-tuning),有效减少网络训练时间。
所述步骤(4)中,跨层特征融合网络模型如图3所示。区域定位网络定位出前M个局部信息区域,经特征提取网络后,形成局部特征图谱层,与全局特征图谱分别进行点乘操作,该过程可用以下公式表示:
Fk=Ak⊙F(k=1,2,...,M)
若点乘操作得到的是特征图谱层,则经全局均值池化层后得到特征向量,接着进行向量级联,最后接FC层进行分类,该过程可定义如下公式表示:
Figure BDA0002054876570000031
CFF-Net特征融合过程可用如下公式表示:
Figure BDA0002054876570000032
定量实验分析
为了验证CFF-Net的性能,本方法对ResNet不同特征图谱层和特征向量层分别做特征融合操作,融合方式如表1所示。方式1将全局图像输入的Conv_4层特征图谱和局部区域输入的Conv_3层特征图谱做特征做融合操作,得到的特征图谱大小为1048*28*28;方式3和方式4直接对特征向量做融合操作,得到的也是特征向量。
表1特征融合组合方式
Figure BDA0002054876570000041
表2展示了不同特征融合方式分类准确率比较:
表2不同融合方式准确率 %
Figure BDA0002054876570000042
表3展示了不同方法在在鸟类数据集上的分类准确率,通过实验可以得出,使用本发明所描述的方法在鸟类数据集上表现优异的分类性能。
表3不同方法准确率 %
Figure BDA0002054876570000043

Claims (6)

1.一种基于语义信息多层特征融合的细粒度鸟类识别方法,其特征在于包括以下步骤:
(1)在输入网络前对图像进行随机裁剪,随机水平翻转,归一化,得到448*448大小的输入图像数据;
(2)局部区域定位,从步骤(1)的全局图像中,定位出具有有效信息的关键局部区域,并为每一个区域信息量含量打分,经过非极大值抑制(Non-Maximum Suppression,NMS)方法选择后,保留得分最高的前Top-n个局部区域;
(3)特征提取,将ResNet-50作为基本特征提取网络,提取步骤(1)得到的全局图像特征和步骤(2)得到的局部区域图像特征;
(4)特征融合,将步骤(3)得到的全局图像特征和局部区域图像特征进行跨层特征融合,对融合后的特征图谱采用全局均值池化进行降维,将降维后的特征向量进行级联,接全连接层后进行分类。
2.根据权利要求1所述的一种局部区域定位方法,其特征在于没有人工局部语义标注的情况下,自动定位出局部有效信息区域。
3.根据权利要求1所述的一种局部区域定位方法,其特征在于区域定位网络共享特征提取网络的前Conv_5层。
4.根据权利要求1所述的NMS方法,其重叠面积阈值取0.3,Top-n取值为4。
5.根据权利要求1所述的一种特征提取方法,其特征在于所有特征提取网络层共享网络训练参数。
6.根据权利要求1所述的一种跨层特征融合网络(Cross-layer Feature FusionNetwork,CFF-Net),其特征在于包括以下步骤:
(1)CFF-Net网络定位出前Top-n个局部信息区域,经特征提取网络后,形成Top-n个局部特征图谱层,与全局特征图谱分别进行点乘;
(2)若点乘操作得到的是特征图谱层,则经全局均值池化层后得到融合后的特征向量;
(3)将步骤(2)得到的特征向量进行级联,结合全局图像与局部区域特征信息,接全连接层后进行分类。
CN201910386030.3A 2019-05-09 2019-05-09 一种基于语义信息多层特征融合的细粒度鸟类识别方法 Active CN111914599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910386030.3A CN111914599B (zh) 2019-05-09 2019-05-09 一种基于语义信息多层特征融合的细粒度鸟类识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910386030.3A CN111914599B (zh) 2019-05-09 2019-05-09 一种基于语义信息多层特征融合的细粒度鸟类识别方法

Publications (2)

Publication Number Publication Date
CN111914599A true CN111914599A (zh) 2020-11-10
CN111914599B CN111914599B (zh) 2022-09-02

Family

ID=73242221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910386030.3A Active CN111914599B (zh) 2019-05-09 2019-05-09 一种基于语义信息多层特征融合的细粒度鸟类识别方法

Country Status (1)

Country Link
CN (1) CN111914599B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749760A (zh) * 2021-01-22 2021-05-04 淮阴师范学院 一种基于深度卷积网络的水鸟图像识别特征融合模型系统及方法
CN113420738A (zh) * 2021-08-24 2021-09-21 中国地质大学(武汉) 自适应网络遥感图像分类方法、计算机设备及存储介质
CN114842510A (zh) * 2022-05-27 2022-08-02 澜途集思生态科技集团有限公司 基于ScratchDet算法的生态生物识别方法
CN115272763A (zh) * 2022-07-27 2022-11-01 四川大学 一种基于细粒度特征融合的鸟类识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631469A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种多层稀疏编码特征的鸟类图像识别方法
CN107341517A (zh) * 2017-07-07 2017-11-10 哈尔滨工业大学 一种基于深度学习层级间特征融合的多尺度小物体检测方法
CN108009637A (zh) * 2017-11-20 2018-05-08 天津大学 基于跨层特征提取的像素级台标识别网络的台标分割方法
CN108171257A (zh) * 2017-12-01 2018-06-15 百度在线网络技术(北京)有限公司 细粒度图像识别模型训练及识别方法、装置及存储介质
CN108229444A (zh) * 2018-02-09 2018-06-29 天津师范大学 一种基于整体和局部深度特征融合的行人再识别方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN109447115A (zh) * 2018-09-25 2019-03-08 天津大学 基于多层语义监督式注意力模型的细粒度零样本分类方法
CN109685115A (zh) * 2018-11-30 2019-04-26 西北大学 一种双线性特征融合的细粒度概念模型及学习方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631469A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种多层稀疏编码特征的鸟类图像识别方法
CN107341517A (zh) * 2017-07-07 2017-11-10 哈尔滨工业大学 一种基于深度学习层级间特征融合的多尺度小物体检测方法
CN108009637A (zh) * 2017-11-20 2018-05-08 天津大学 基于跨层特征提取的像素级台标识别网络的台标分割方法
CN108171257A (zh) * 2017-12-01 2018-06-15 百度在线网络技术(北京)有限公司 细粒度图像识别模型训练及识别方法、装置及存储介质
CN108229444A (zh) * 2018-02-09 2018-06-29 天津师范大学 一种基于整体和局部深度特征融合的行人再识别方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN109344821A (zh) * 2018-08-30 2019-02-15 西安电子科技大学 基于特征融合和深度学习的小目标检测方法
CN109447115A (zh) * 2018-09-25 2019-03-08 天津大学 基于多层语义监督式注意力模型的细粒度零样本分类方法
CN109685115A (zh) * 2018-11-30 2019-04-26 西北大学 一种双线性特征融合的细粒度概念模型及学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
石学超; 周亚同; 池越: "基于多层特征融合可调监督函数卷积神经网络的人脸性别识别", 《计算机应用研究》 *
罗建豪,吴建鑫: "基于深度卷积特征的细粒度图像分类研究综述", 《基于语义信息跨层特征融合的细粒度鸟类识别》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749760A (zh) * 2021-01-22 2021-05-04 淮阴师范学院 一种基于深度卷积网络的水鸟图像识别特征融合模型系统及方法
CN113420738A (zh) * 2021-08-24 2021-09-21 中国地质大学(武汉) 自适应网络遥感图像分类方法、计算机设备及存储介质
CN113420738B (zh) * 2021-08-24 2021-11-09 中国地质大学(武汉) 自适应网络遥感图像分类方法、计算机设备及存储介质
CN114842510A (zh) * 2022-05-27 2022-08-02 澜途集思生态科技集团有限公司 基于ScratchDet算法的生态生物识别方法
CN115272763A (zh) * 2022-07-27 2022-11-01 四川大学 一种基于细粒度特征融合的鸟类识别方法

Also Published As

Publication number Publication date
CN111914599B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN111914599B (zh) 一种基于语义信息多层特征融合的细粒度鸟类识别方法
KR102516360B1 (ko) 타겟 검출 방법 및 장치
WO2020221298A1 (zh) 文本检测模型训练方法、文本区域、内容确定方法和装置
CN107145889B (zh) 基于具有RoI池化的双CNN网络的目标识别方法
Bautista et al. Convolutional neural network for vehicle detection in low resolution traffic videos
CN110738125B (zh) 利用Mask R-CNN选择检测框的方法、装置及存储介质
US20210158699A1 (en) Method, device, readable medium and electronic device for identifying traffic light signal
CN111027493A (zh) 一种基于深度学习多网络软融合的行人检测方法
CN111160407A (zh) 一种深度学习目标检测方法及系统
CN112926654A (zh) 预标注模型训练、证件预标注方法、装置、设备及介质
CN111931581A (zh) 一种基于卷积神经网络农业害虫识别方法、终端及可读存储介质
CN111161244B (zh) 基于FCN+FC-WXGBoost的工业产品表面缺陷检测方法
CN111126127A (zh) 一种多级空间上下文特征指导的高分辨率遥感影像分类方法
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN110929099A (zh) 一种基于多任务学习的短视频帧语义提取方法及系统
CN111104973B (zh) 一种基于知识注意力的细粒度图像分类方法
CN115240024A (zh) 一种联合自监督学习和半监督学习的地外图片分割方法和系统
Lou et al. Smoke root detection from video sequences based on multi-feature fusion
CN111091122A (zh) 一种多尺度特征卷积神经网络的训练和检测方法、装置
CN111738237B (zh) 一种基于异构卷积的多核迭代rpn的目标检测方法
CN113177965A (zh) 基于改进U-net网络的煤岩全组分提取方法及其应用
Wang et al. Color names learning using convolutional neural networks
CN110750673B (zh) 图像处理方法、装置、设备及存储介质
CN116542962A (zh) 一种基于改进Yolov5m模型光伏电池缺陷检测方法
CN116958729A (zh) 对象分类模型的训练、对象分类方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant