CN113221935A - 基于环境感知深度卷积神经网络的图像识别方法及系统 - Google Patents

基于环境感知深度卷积神经网络的图像识别方法及系统 Download PDF

Info

Publication number
CN113221935A
CN113221935A CN202110144814.2A CN202110144814A CN113221935A CN 113221935 A CN113221935 A CN 113221935A CN 202110144814 A CN202110144814 A CN 202110144814A CN 113221935 A CN113221935 A CN 113221935A
Authority
CN
China
Prior art keywords
classifier
shallow
deep
neural network
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110144814.2A
Other languages
English (en)
Other versions
CN113221935B (zh
Inventor
马恺声
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Arctic Xiongxin Information Technology Xi'an Co ltd
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110144814.2A priority Critical patent/CN113221935B/zh
Publication of CN113221935A publication Critical patent/CN113221935A/zh
Application granted granted Critical
Publication of CN113221935B publication Critical patent/CN113221935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明一种基于环境感知深度卷积神经网络的图像识别方法及系统,设计合理,能够切换环境实现识别,分类识别精度高,利用环境知识实现更好的性能和加速。所述方法包括输入包含环境信息的图像样本;通过预训练的环境感知深度卷积神经网络对所述图像样本进行阶段处理;所述的环境感知深度卷积神经网络,包括进行阶段处理识别图像并输出的深层分类器和按照环境信息分类识别图像并输出的浅层分类器;所述的浅层分类器分别布置在相邻阶段的下采样处理后;根据浅层分类器的环境信息分类,提取上级下采样处理后包含对应环境信息的图像样本子集,分流到该浅层分类器中进行图像识别;未分流的图像样本子集进入下一阶段进行处理,直至图像样本全部识别。

Description

基于环境感知深度卷积神经网络的图像识别方法及系统
技术领域
本发明涉及边缘设备的图像识别,具体为基于环境感知深度卷积神经网 络的图像识别方法及系统。
背景技术
卷积神经网络(CNNs)在图像识别、目标检测和图像分割等复杂任务 中取得了令人瞩目的效果,这些领域中的成功应用的一个关键特性是神经网 络的深度。然而,叠加更多层的代价是需要更多的推理时间和参数计数,这 使得在手机和自动驾驶汽车等边缘设备上部署此类模型存在着重大的障碍。
为了能够减少上述的计算负担,现有技术中提出了许多用于动态推理的 方法。在较深的层次上,选择特定设置的策略,这些自适应计算策略的方法 可以分为两类。一种方法是当样本比较简单时,基于逐个样本进行评估来忽 略一组层或块,但是对于复杂样本的计算量并没有实质的减少。另一种方法 是根据计算需求使用几个预定义阶段,并且相应地在不同的宽度或深度上执 行神经网络。虽然使用预定义阶段可以得到非常简单的运行时策略,但是需 要对预定义阶段也进行训练、存储和分类,预定义的精度也影响了整体计算的精度。
实际中,对在不同环境中操作的边缘设备在执行上述的方法和策略时, 往往采用的是如图1所示的非环境感知的架构,就是由通用的深层分类器对 样本进行分类,或者是如图2所示的使用对应的独立分类器对来自不同环境 的样本进行分类,实际上就是对样本先进行环境分类,然后对应不同的分类 器进行不同深度和宽度上的分类,相当于对每个环境分类执行图1所示的通 用分类;如图2所示的架构,虽然在为数据的环境相关子集训练不同的小模 型时存在一种利用这种机载环境信息的初步方式,但这种方法还存在如下的 问题,在这种设置中,当设备切换环境时,需要加载完全不同的模型。当设 备不确定它当前所处的环境并因此不知道加载哪个模型时,会造成设备的宕 机或者错误选择,导致分类的失败或完全错误。
发明内容
针对现有技术中存在的问题,本发明提供一种基于环境感知深度卷积神 经网络的图像识别方法及系统,设计合理,能够切换环境实现识别,分类识 别精度高,利用环境知识实现更好的性能和加速。
本发明是通过以下技术方案来实现:
基于环境感知深度卷积神经网络的图像识别方法,包括:
输入包含环境信息的图像样本;
通过预训练的环境感知深度卷积神经网络对所述图像样本进行阶段处理; 所述的环境感知深度卷积神经网络,包括进行阶段处理识别图像并输出的深 层分类器和按照环境信息分类识别图像并输出的浅层分类器;所述的浅层分 类器分别布置在相邻阶段的下采样处理后;
根据浅层分类器的环境信息分类,提取上级下采样处理后包含对应环境 信息的图像样本子集,分流到该浅层分类器中进行图像识别;未分流的图像 样本子集进入下一阶段进行处理,直至图像样本全部识别;
获取浅层分类器的识别结果和深层分类器的识别结果,得到基于环境感 知深度卷积神经网络的图像识别输出。
优选的,所述的浅层分类器包括至少一层卷积层和一层全连接层;所述 的浅层分类器中卷积层的数量,根据其布置在深层分类器中的深度由浅到深 逐阶段减少。
进一步,所述的浅层分类器中的所有卷积层,采用深度智能可分离卷积。
优选的,所述提取上级下采样处理后包含对应环境信息的图像样本子集 之后,分流到该浅层分类器中进行图像识别之前,还包括将该图像样本子集 进行降采样处理。
优选的,所述的浅层分类器设置有多个时,均匀布置在深度分类器的各 阶段之间。
优选的,所述的预训练的环境感知深度卷积神经网络,进行预训练时, 包括,
对浅层分类器和深层分类器采用自蒸馏进行联合训练;
联合训练后冻结深层分类器,利用带标签的简单交叉熵损失分别对浅层 分类器所分配的环境信息进行优化,完成微调训练。
进一步,所述对浅层分类器和深层分类器采用自蒸馏进行联合训练,采 用如下总损失的自蒸馏,使每个浅层分类器由其较深层的相邻浅层分类器进 行教学;
Figure BDA0002929694560000031
其中,C表示分类器的数量,即浅层分类器和深层分类器的数量之和; LSD为第j个分类器预测结果qj、中间特征图Fj和标签y的自蒸馏损失;LCE和LKL分别为交叉熵损失和相对熵损失;α和λ为用于平衡以上三个损失的平 衡超参数。
基于环境感知深度卷积神经网络的图像识别系统,包括:
输入模块,用于输入包含环境信息的图像样本;
主处理模块,用于通过预训练的环境感知深度卷积神经网络对所述图像 样本进行阶段处理;所述的环境感知深度卷积神经网络,包括进行阶段处理 识别图像并输出的深层分类器和按照环境信息分类识别图像并输出的浅层分 类器;所述的浅层分类器分别布置在相邻阶段的下采样处理后;
专家处理模块,用于根据浅层分类器的环境信息分类,提取上级下采样 处理后包含对应环境信息的图像样本子集,分流到该浅层分类器中进行图像 识别;未分流的图像样本子集进入下一阶段进行处理,直至图像样本全部识 别;
输出模块,用于获取浅层分类器的识别结果和深层分类器的识别结果, 得到基于环境感知深度卷积神经网络的图像识别输出。
一种计算机设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述的基于环境感 知深度卷积神经网络的图像识别方法。
一种可读存储介质,所述计算机可读存储介质上存储有计算机程序,所 述计算机程序被处理器执行时实现如上任一项所述的基于环境感知深度卷积 神经网络的图像识别方法。
与现有技术相比,本发明具有以下有益的技术效果:
本发明通过布置在下采用样后且按照环境信息分类识别图像并输出的浅 层分类器,能够在深层分类器进行阶段处理中,将图像样本按照环境信息分 类划分为与环境对应的图像样本子集,分别进行在对应环境信息分类下的图 像识别,从而能够通过与位置相关的环境信息对图像识别进行引导,利用对 环境知识和信息的感知,通过深层的卷积神经网络对图像识别实现更好的性 能和加速;按照环境信息分类对图像样本子集分别进行处理,不仅提高了处 理的精度和速度,而且降低了后续阶段的计算量,能够达到更好的性能,并且适用于各个环境下的图像分类,能够切换环境实现识别。
进一步的,本发明通过联合训练和微调训练,使其能够进行动态推理, 构建可部署的集成,允许即时切换环境并且通过学习特定环境特征来利用环 境感知。
附图说明
图1为现有技术中无环境感知的深度卷积神经网络架构示意图。
图2为现有技术中针对不同环境的深度卷积神经网络架构示意图。
图3为本发明实施例中所述的环境感知深度卷积神经网络架构示意图。
图4为本发明实施例中所述方法的流程示意图。
图5现有技术中不同环境分类的记录统计。
图6本发明实例中所述按照环境分类后利用ResNet18、ResNet101和三 个ResNet18模型的分别对应识别的性能和参数统计。
图7a为本发明实例中在CIFAR-100上的精度和在ResNet-50上、EA- CNN主干与其他多出口方法的存储需求。
图7b为本发明实例中在ImageNet上的精度对应的集成策略与专家策略 的加速对比。
图8为本发明实例中所述系统的结构示意图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明 的解释而不是限定。
本发明基于环境感知深度卷积神经网络的图像识别方法,如图4所示, 其包括:
输入包含环境信息的图像样本;
通过预训练的环境感知深度卷积神经网络对所述图像样本进行阶段处理; 所述的环境感知深度卷积神经网络,包括进行阶段处理识别图像并输出的深 层分类器和按照环境信息分类识别图像并输出的浅层分类器;所述的浅层分 类器分别布置在相邻阶段的下采样处理后;
根据浅层分类器的环境信息分类,提取上级下采样处理后包含对应环境 信息的图像样本子集,分流到该浅层分类器中进行图像识别;未分流的图像 样本子集进入下一阶段进行处理,直至图像样本全部识别;
获取浅层分类器的识别结果和深层分类器的识别结果,得到基于环境感 知深度卷积神经网络的图像识别输出。
其中,在整个图像识别过程中,根据环境信息分类的图像样本子集,在 对应的浅层分类器上分别进行识别,也就是在不同的网络阶段进行了分流识 别,通过对浅层分类器对应的环境信息进行不同的定义,能够实现对样本的 自适应推理,从而在准确性和加速度上达到更好的权衡。
对图像具体的环境分类,我们可以采用现有的统计结果或者自定义的环 境信息进行分类,例如,现有技术中,如图5所示,基于位置的社交网络中 对环境信息分类的一组统计结果,其中前七大类分别是餐饮环境、交通环境、 商店环境、夜景环境、工作环境、居住环境和大学环境。
通过对在不同环境中操作的边缘设备进行了观察,这些环境与卷积申请 网络CNN需要能够分类的不同样本子集相对应。更具体地,在图5中说明 了部署在智能手机上的模型多种环境,包括餐饮环境、交通环境、商店环境、 夜景环境、工作环境、居住环境和大学环境,并且进行了两项重要观察:i) 不同的环境有不同的子任务,例如:相较于由居住环境定义的任务,对应于 夜景环境的图像识别任务可能由不同的样本组成。ii)一些环境比其他环境 更受欢迎:因此,优化“餐饮环境”子任务以加速将能产生更可观的效率提 升,而为“大学环境”子任务进行的优化则与之相反。
通过这两项观察结果,能够得到将原始的图像识别任务重新表述为一组 子任务,通过一个独立的分类器来解决每个子任务,就可以解决完整的图像 识别任务。更具体地说,我们按照本发明所述的方法通过将CIFAR-100数 据集划分到三个ResNet-18模型上来展示这种方法,从而实现如图6所示的 设置,并且因此在指定的环境中微调每个模型。结果明显的,如图6所示, 与单一的ResNet-18相比,该方法可以将整个CIFAR-100数据集的准确性提 高超过4%,只要我们确定本发明所述方法中卷积神经网络运行的目标环境 即可,如图2所示。而这种环境感知可以通过GPS提供的位置信息与环境 信息匹配而轻松获得,因为GPS在能从这种方法获益的设备,例如自动驾 驶汽车、智能手机等中是普遍存在的。
虽然上述的在为数据的环境相关子集训练不同的小模型时存在一种利用 机载环境信息的初步方式,但这种方法存在着明显的问题。当设备切换环境 时,需要加载完全不同的模型。当设备不确定它当前所处的环境并因此不知 道加载哪个模型时,情况会变得更加难以解决。
为了解决上述问题,本发明提供了环境感知深度卷积神经网络(EA- CNN),通过利用附加到共享主干上的特定环境分类器来采用环境知识以实 现更好性能和加速的轻量化集成。共享主干采用深度分类器,特定环境分类 器采用浅层分类器。
与如图2所述的初步方法(naive approach)相比,即使在我们不了解 目标环境的情况下,EA-CNN也可以即时切换环境,并为我们带来显著的性 能提升。此外,EA-CNN利用我们的第二项重要观察,将最常用的环境指定 给最浅层的分类器以实现最优加速,如图3所示,将该实例中影响更大的城 市分类配置到最浅层分类器,然后依次按照由浅至深分别配置为自然分类器 和海洋分类器。环境信息也是根据地理位置数据GPS进行环境信息分类,或者对图像样本中的数据赋予环境信息或者与其对应的位置数据。
从而使得本发明通过在不同浅层分类器上划分与位置相关的环境对应的 图像数据集的子集,环境知识可以用于实现更好的性能和加速。
通过动态推理框架EA-CNN,其构建可部署的集成,从而允许即时切 换环境并且通过学习特定环境特征来利用环境感知。
对所提出的框架进行了基准测试。结果显示,本框架可以在CIFAR-100 和ImageNet两个数据集上至少提高4.71%和3.91%的预测准确率。同时, 实验显示本框架在多种网络结构下均有效。
本发明所述的方法中,所述的浅层分类器包括至少一层卷积层和一层全 连接层;所述的浅层分类器中卷积层的数量,根据其布置在深层分类器中的 深度由浅到深逐阶段减少。如图3所示,所述的浅层分类器中卷积层的数量, 与其布置在深层分类器中后续处理阶段的数量相等。
其中,所述的浅层分类器中的所有卷积层,采用深度智能可分离卷积。 在所述提取上级下采样处理后包含对应环境信息的图像样本子集之后,分流 到该浅层分类器中进行图像识别之前,还包括将该图像样本子集进行降采样 处理。
所述的浅层分类器设置有多个时,可以按照优先等级进行设置,也可以 均匀布置在深度分类器的各阶段之间。
具体的,本发明所述的环境感知深度卷积神经网络的架构,通过在预定 义架构部分之后附加浅层分类器,也就是主干网络的不同阶段之间的下采样 过程后,附加浅层分类器,构造强大的多出口架构。同时为了更好的实现本 发明的目的,对浅层分类器进行三个方面的改进。由于深度是精确模型的关 键需求,按照浅层分类器附加的位置,向最浅层的分类器添加层,越浅则可 添加越多的层。因此,如图3所示,最浅层的城市浅层分类器由四个阶段的 块组成,包括三个卷积层和一个全连接层。其次,为了平衡这种额外的深度 带来的更高的计算负荷,我们在进入浅层分类器之前对中间特征输出进行降 采样从而进行瘦身,并相应地调整分类器。最后,通过深度智能可分离卷积 代替了浅层分类器中的所有卷积,使得本发明所述的模型架构能够广泛高效 的应用并且取得成功。
本发明所述的环境感知深度卷积神经网络在预训练时可以分为对深度分 类器训练的主干训练阶段和对浅层分类器分别进行训练的专家微调阶段。在 主干训练阶段,通过对高性能多出口架构的网络进行整体训练。在专家微调 阶段,将浅层分类器微调到特定配置的环境,并且在此过程中学习特定环境 特征。
所述的预训练的环境感知深度卷积神经网络,包括,对浅层分类器和深 层分类器采用自蒸馏进行联合训练;联合训练后冻结深层分类器,利用带标 签的简单交叉熵损失分别对浅层分类器所分配的环境信息进行优化,完成微 调训练。
具体的,在主管训练阶段,使用自蒸馏来联合训练浅层分类器和主干网 络。通过结合标签交叉熵损失、特征提示和对数蒸馏对完整数据集上的所有 分类器进行训练,这种对网络所有阶段进行严格监督的框架确保可以得到一 个非常强大的骨干网络。在自蒸馏的设置中,对数蒸馏一直以最深层的分类 器的形式实现,并对所有较浅层分类器进行教学。然而,当教师和学生之间 的差距太大时,学生不能有效地提取知识,所以可以采用多步方式,使用中 等规模的模型来缓解这一问题。因此,本发明对自蒸馏进行了修改,使每个浅层分类器由其较深层的相邻分类器来教学。改进自蒸馏的总损失如下:
Figure BDA0002929694560000091
其中,C表示分类器的数量,即浅层分类器和深层分类器的数量之和; LSD为第j个分类器预测结果qj、中间特征图Fj和标签y的自蒸馏损失;LCE和LKL分别为交叉熵损失和相对熵损失;α和λ为用于平衡以上三个损失的平 衡超参数。
在专家微调阶段,浅层分类器在开始实际的专家微调训练过程之前,必 须先确定原始数据集在不同环境中的特定分区。因此,出现最频繁的环境被 分配给最浅层的分类器等等,这样我们就能得到有效的资源分配。我们指出, 分类器数量C和对应环境数量E是可自由定制的超参数,其中E=C-1, 因为最深层的分类器是与环境无关的。一旦决定了环境分类并对环境进行了 分配,微调阶段就可以开始了。为了保证与环境无关的深度分类器的性能, 先将主干完全冻结,这也是迁移学习领域的一种常见做法。在此基础上,利 用带标签的简单交叉熵损失分别对所分配的环境进行优化。这种方法将确保 通用主干能够生成通用的、包含环境的特征,同时浅层分类器能够学习特定 环境的、粒度更细的特征。
与环境信息分类对应的多种浅层分类器,结合到主干网络中,形成了多 种集成的专家模型系统,与专家模型共享的主干确保了集成的多样化。为了 利用本发明所述的多种集成的提升,如图3所示,深度分类器采用通用分类 器(4),所述架构中,采用3个浅层分类器作为专家模型,分别为城市分类 器(1)、自然分类器(2)和海洋分类器(3);本发明所述的EA-CNN采用 两种运行时策略:i)专家:在这种策略中,专家完成其指定环境中的所有 分类工作,并且只在环境不确定时使用通用分类器(4)。ii)集成:在这种 策略中,通过对指定专家和通用分类器(4)的对数进行累计来得到预测。 当环境不确定时,只使用分类器(4)。
本发明中所述环境感知深度卷积神经网络的有效性和性能,通过如下试 验进行验证。
试验设置。
在CIFAR-100和ImageNet(ILSVRC2012)上对多个使用EA-CNN框 架进行训练的各种热门架构进行了评估,包括VGG,ResNet,WideRes- Net和ResNeXt。使用了应用广泛的数据增加方案,即随机裁剪,随机水平 翻转,标准化,并且使用了相当标准的实践训练超参数,即随机梯度下降优 化器的学习率为0.1,动量为0.9,在主干训练阶段,采用了5e-4(le-4)的权 值衰减,并在CIFAR-100(ImageNet)上以128(256)批量处理进行训练。 根据之前的研究,总损失公式中的平衡超参数λ和α别为5e-7和0.5。为了与 本发明所述的多出口方法进行比较,对CIFAR-100进行了250个周期的训 练实践,并且在第[80,160,240]个周期时将学习率除以10。另一方面,对于 ImageNet,使用标准方法进行了100个周期的训练,并且每隔30个周期衰 减10学习率。在微调阶段,使用了与上面所提到的相同的学习参数,除了 在CIFAR-100和ImageNet上以0.02的学习速率分别进行了50个和20个周 期的训练。由于只有少量的微调周期,采用了余弦学习速率衰减来相反地削 减学习速率。我们分别在GTX2080-Ti和Tesla VI00 GPU上运行CIFAR-100 和ImageNet实验。
环境结构。
CIFAR-100和ImageNet都由各种各样的类别(分别为100和1000)组 成并且预定义了超类别,允许将它们分解为三个不同的环境子集。我们将 CIFAR-100数据集的超类重新组合成城市、自然和海洋环境,因为这些子集 具有直观的地理意义。为了对WideResNet架构(只包含三个阶段)进行基 准测试,通过将城市和自然子集上的海洋环境划分为两个数据集来构建了第 二个CIFAR-100分割。另一方面,对于ImageNet,使用了包容的WordNet 超类别动物和设备并且构建了第三个超类别其他,其包括ImageNet中既不 属于动物超类别也不属于设备超类别的所有子类别。与CIFAR-100环境划 分相比,这些超类别并不明显地对应于不同的地理环境,但是依据它们能否 在子类别计数上达到平衡而选择的,并且其包含了ImageNet中的所有内容。 我们将环境子集的一些属性分组列在了表1中。
表1:每个数据集的环境名称、超类别示例和样本数量
Figure BDA0002929694560000111
其中,Val(K)为验证(K)。
分类器结果。
在CIFAR-100和ImageNe数据集上对EA-CNN进行了评估,在相同的 超参数设置和环境分割下,作为CIFAR-100的基线,以定期交叉熵的形式报 告了与主干训练前阶段相同的学习参数和周期(250个)下训练的架构的准 确性。另一方面,对于ImageNet,报告了官方PyTorch预训练模型的准确性 以作为基线。假设一个特定的环境分割会导致6(3!)个环境分类器的组合, 对每个组合进行了微调,并报告了总体的平均准确率。注意到,报告的浅层分类器的准确性是针对所分配的环境报告的,而不是针对完整的数据集。另 一方面,我们的通用分类器(4)在全数据集的设置下运行,由于采用了蒸 馏训练方法,在CIFAR-100上平均提高了2.26%的准确率,在跨架构的 ImageNet上平均提高了1.27%的准确率,尽管它与从头训练的基线模型有相 同的计算需求。我们还将我们的结果与图7a中先前的多出口方法进行了比 较,并且结果表明,不仅大大减少了计算需求,而且的主干在全数据集设置 上显著优于其他模型。
集成策略结果。
集成策略的平均性能增量随着数据集的大小和复杂性的增大而增大。也 就是说,在CIFAR-100上,集成策略在所有架构上的绝对精度提升为4.71%, 而在ImageNet上的绝对精度提升为3.91%,其相对精度提升非常相近。另 一方面,在CIFAR-100上,专家策略的平均性能比本发明中基线架构高出 了2.71%,同时大大减少了计算量。在图7b中说明了ImageNet上的这些集 成的适度计算需求和令人印象深刻的性能,其中性能较差且计算量较少的结 果对应于专家策略,而不是集成策略。相对于集成策略,专家策略所需的计 算量较少,但性能也较低。
本发明所述的方法,由于观察到部署中的模型将其大部分时间都花费在 单个环境中,我们提出了CNN的环境感知动态推理框架(EA-CNN),该框 架利用环境信息以实现更高的准确性和更短的响应时间。所提出的方法采用 了初始架构作为主干,浅层分类器附加于其上并且被微调至特定环境,这使 得浅层分类器可以学习粒度更细的、特定环境的特征。通过设计,本发明的 框架将CNN转化为一种轻量化集成,其允许即时切换环境,并且即使在没 有可用环境数据的情况下也能显著提升性能。在本发明精心挑选的环境下, 本发明的两阶段框架在CIFAR-100和ImageNet上分别实现了平均4.71%和 平均3.91%的绝对精度提升。本发明的环境分割结果说明可以达到的性能提 升的下限。并且论证了本发明在随机环境分割初始化的情况下,使用 ResNet-50基线架构,在CIFAR-100和ImageNet上分别实现9.85%和10.06% 的精度提升。
总的来说,本发明介绍了环境感知CNN、轻量化和可部署的集成,这 些集成通过利用附加到共享主干上的特定环境的分类器来利用环境知识以来 实现更好的性能。此外,本发明所述的方法在相同环境中度过大部分时间的 普遍场景非常有利于提高方法的资源效率,并且当数据集的大小和复杂性增 加时,本发明的方法能够通过对浅层分类则增加从而很好地进行扩展。
本发明还提供基于环境感知深度卷积神经网络的图像识别系统,与上述 的方法对应,进行基于环境感知深度卷积神经网络的图像识别,包括:
输入模块801,用于输入包含环境信息的图像样本;
主处理模块802,用于通过预训练的环境感知深度卷积神经网络对所述 图像样本进行阶段处理;所述的环境感知深度卷积神经网络,包括进行阶段 处理识别图像并输出的深层分类器和按照环境信息分类识别图像并输出的浅 层分类器;所述的浅层分类器分别布置在相邻阶段的下采样处理后;
专家处理模块802,用于根据浅层分类器的环境信息分类,提取上级下 采样处理后包含对应环境信息的图像样本子集,分流到该浅层分类器中进行 图像识别;未分流的图像样本子集进入下一阶段进行处理,直至图像样本全 部识别;
输出模块804,用于获取浅层分类器的识别结果和深层分类器的识别结 果,得到基于环境感知深度卷积神经网络的图像识别输出。
本发明还提供一种计算机设备,包括:存储器,用于存储计算机程序; 处理器,用于执行所述计算机程序时实现如上任一项所述的基于环境感知深 度卷积神经网络的图像识别方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存 储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的基 于环境感知深度卷积神经网络的图像识别方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或 计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、 或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个 其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘 存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序 产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程 图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流 程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算 机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使 得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现 在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功 能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器 中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或 多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的 处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图 一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其 限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技 术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱 离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权 利要求保护范围之内。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征 的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举 例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的 改变均被本发明包含。

Claims (10)

1.基于环境感知深度卷积神经网络的图像识别方法,其特征在于,包括:
输入包含环境信息的图像样本;
通过预训练的环境感知深度卷积神经网络对所述图像样本进行阶段处理;所述的环境感知深度卷积神经网络,包括进行阶段处理识别图像并输出的深层分类器和按照环境信息分类识别图像并输出的浅层分类器;所述的浅层分类器分别布置在相邻阶段的下采样处理后;
根据浅层分类器的环境信息分类,提取上级下采样处理后包含对应环境信息的图像样本子集,分流到该浅层分类器中进行图像识别;未分流的图像样本子集进入下一阶段进行处理,直至图像样本全部识别;
获取浅层分类器的识别结果和深层分类器的识别结果,得到基于环境感知深度卷积神经网络的图像识别输出。
2.根据权利要求1所述的基于环境感知深度卷积神经网络的图像识别方法,其特征在于,所述的浅层分类器包括至少一层卷积层和一层全连接层;所述的浅层分类器中卷积层的数量,根据其布置在深层分类器中的深度由浅到深逐阶段减少。
3.根据权利要求2所述的基于环境感知深度卷积神经网络的图像识别方法,其特征在于,所述的浅层分类器中的所有卷积层,采用深度智能可分离卷积。
4.根据权利要求1所述的基于环境感知深度卷积神经网络的图像识别方法,其特征在于,所述提取上级下采样处理后包含对应环境信息的图像样本子集之后,分流到该浅层分类器中进行图像识别之前,还包括将该图像样本子集进行降采样处理。
5.根据权利要求1所述的基于环境感知深度卷积神经网络的图像识别方法,其特征在于,所述的浅层分类器设置有多个时,均匀布置在深度分类器的各阶段之间。
6.根据权利要求1所述的基于环境感知深度卷积神经网络的图像识别方法,其特征在于,所述的预训练的环境感知深度卷积神经网络,进行预训练时,包括,
对浅层分类器和深层分类器采用自蒸馏进行联合训练;
联合训练后冻结深层分类器,利用带标签的简单交叉熵损失分别对浅层分类器所分配的环境信息进行优化,完成微调训练。
7.根据权利要求6所述的基于环境感知深度卷积神经网络的图像识别方法,其特征在于,所述对浅层分类器和深层分类器采用自蒸馏进行联合训练,采用如下总损失的自蒸馏,使每个浅层分类器由其较深层的相邻浅层分类器进行教学;
Figure FDA0002929694550000021
其中,C表示分类器的数量,即浅层分类器和深层分类器的数量之和;LSD为第j个分类器预测结果qj、中间特征图Fj和标签y的自蒸馏损失;LCE和LKL分别为交叉熵损失和相对熵损失;α和λ为用于平衡以上三个损失的平衡超参数。
8.基于环境感知深度卷积神经网络的图像识别系统,其特征在于,包括:
输入模块,用于输入包含环境信息的图像样本;
主处理模块,用于通过预训练的环境感知深度卷积神经网络对所述图像样本进行阶段处理;所述的环境感知深度卷积神经网络,包括进行阶段处理识别图像并输出的深层分类器和按照环境信息分类识别图像并输出的浅层分类器;所述的浅层分类器分别布置在相邻阶段的下采样处理后;
专家处理模块,用于根据浅层分类器的环境信息分类,提取上级下采样处理后包含对应环境信息的图像样本子集,分流到该浅层分类器中进行图像识别;未分流的图像样本子集进入下一阶段进行处理,直至图像样本全部识别;
输出模块,用于获取浅层分类器的识别结果和深层分类器的识别结果,得到基于环境感知深度卷积神经网络的图像识别输出。
9.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7中任一项所述的基于环境感知深度卷积神经网络的图像识别方法。
10.一种可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于环境感知深度卷积神经网络的图像识别方法。
CN202110144814.2A 2021-02-02 2021-02-02 基于环境感知深度卷积神经网络的图像识别方法及系统 Active CN113221935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110144814.2A CN113221935B (zh) 2021-02-02 2021-02-02 基于环境感知深度卷积神经网络的图像识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110144814.2A CN113221935B (zh) 2021-02-02 2021-02-02 基于环境感知深度卷积神经网络的图像识别方法及系统

Publications (2)

Publication Number Publication Date
CN113221935A true CN113221935A (zh) 2021-08-06
CN113221935B CN113221935B (zh) 2023-05-02

Family

ID=77084537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110144814.2A Active CN113221935B (zh) 2021-02-02 2021-02-02 基于环境感知深度卷积神经网络的图像识别方法及系统

Country Status (1)

Country Link
CN (1) CN113221935B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792822A (zh) * 2021-11-16 2021-12-14 南京信息工程大学 一种高效的动态图像分类方法
CN114596546A (zh) * 2022-01-12 2022-06-07 盛视科技股份有限公司 车辆重识别方法、装置及计算机、可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245655A (zh) * 2019-05-10 2019-09-17 天津大学 一种基于轻量级图像金字塔网络的单阶段物体检测方法
CN110472730A (zh) * 2019-08-07 2019-11-19 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法
CN110516670A (zh) * 2019-08-26 2019-11-29 广西师范大学 基于场景级与区域建议自注意模块的目标检测方法
CN110570492A (zh) * 2019-09-11 2019-12-13 清华大学 神经网络训练方法和设备、图像处理方法和设备以及介质
WO2020024584A1 (zh) * 2018-08-03 2020-02-06 华为技术有限公司 一种训练物体检测模型的方法、装置以及设备
CN111506728A (zh) * 2020-04-16 2020-08-07 太原科技大学 基于hd-mscnn的层次结构文本自动分类框架

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020024584A1 (zh) * 2018-08-03 2020-02-06 华为技术有限公司 一种训练物体检测模型的方法、装置以及设备
CN110245655A (zh) * 2019-05-10 2019-09-17 天津大学 一种基于轻量级图像金字塔网络的单阶段物体检测方法
CN110472730A (zh) * 2019-08-07 2019-11-19 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法
CN110516670A (zh) * 2019-08-26 2019-11-29 广西师范大学 基于场景级与区域建议自注意模块的目标检测方法
CN110570492A (zh) * 2019-09-11 2019-12-13 清华大学 神经网络训练方法和设备、图像处理方法和设备以及介质
CN111506728A (zh) * 2020-04-16 2020-08-07 太原科技大学 基于hd-mscnn的层次结构文本自动分类框架

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792822A (zh) * 2021-11-16 2021-12-14 南京信息工程大学 一种高效的动态图像分类方法
CN113792822B (zh) * 2021-11-16 2022-04-01 南京信息工程大学 一种高效的动态图像分类方法
CN114596546A (zh) * 2022-01-12 2022-06-07 盛视科技股份有限公司 车辆重识别方法、装置及计算机、可读存储介质

Also Published As

Publication number Publication date
CN113221935B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
US10275688B2 (en) Object detection with neural network
KR102641116B1 (ko) 데이터 증강에 기초한 인식 모델 트레이닝 방법 및 장치, 이미지 인식 방법 및 장치
US20230089380A1 (en) Neural network construction method and apparatus
CN110633745B (zh) 一种基于人工智能的图像分类训练方法、装置及存储介质
US10275719B2 (en) Hyper-parameter selection for deep convolutional networks
US11640518B2 (en) Method and apparatus for training a neural network using modality signals of different domains
US9928213B2 (en) Event-driven spatio-temporal short-time fourier transform processing for asynchronous pulse-modulated sampled signals
US10970619B1 (en) Method and system for hierarchical weight-sparse convolution processing
CN109840531A (zh) 训练多标签分类模型的方法和装置
Isa et al. Optimizing the hyperparameter tuning of YOLOv5 for underwater detection
CN112561027A (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
EP4152154A1 (en) Adaptive artificial neural network selection techniques
CN111882040A (zh) 基于通道数量搜索的卷积神经网络压缩方法
US11551076B2 (en) Event-driven temporal convolution for asynchronous pulse-modulated sampled signals
Xia et al. Fully dynamic inference with deep neural networks
WO2022007867A1 (zh) 神经网络的构建方法和装置
US11126894B2 (en) Method and apparatus for analysing an image
CN113221935A (zh) 基于环境感知深度卷积神经网络的图像识别方法及系统
CN112215332A (zh) 神经网络结构的搜索方法、图像处理方法和装置
CN113627389A (zh) 一种目标检测的优化方法及设备
Guan et al. Energy-efficient amortized inference with cascaded deep classifiers
CN111091147B (zh) 一种图像分类方法、装置及设备
CN116438570A (zh) 用于图像分割的方法和装置
CN111008631A (zh) 图像的关联方法及装置、存储介质和电子装置
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211119

Address after: 710000, floor 6, building B2, phase 2, Xi'an software new town R & D base, No. 156, Tiangu 8th Road, high tech Zone, Xi'an, Shaanxi Province

Applicant after: Arctic xiongxin information technology (Xi'an) Co.,Ltd.

Address before: 100084 Tsinghua Yuan, Beijing, Haidian District

Applicant before: TSINGHUA University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant