CN111126494A - 基于各向异性卷积的图像分类方法及系统 - Google Patents

基于各向异性卷积的图像分类方法及系统 Download PDF

Info

Publication number
CN111126494A
CN111126494A CN201911360305.2A CN201911360305A CN111126494A CN 111126494 A CN111126494 A CN 111126494A CN 201911360305 A CN201911360305 A CN 201911360305A CN 111126494 A CN111126494 A CN 111126494A
Authority
CN
China
Prior art keywords
image
convolution
anisotropic
sub
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911360305.2A
Other languages
English (en)
Other versions
CN111126494B (zh
Inventor
李文娟
李兵
胡卫明
潘健
原春锋
吴昊昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201911360305.2A priority Critical patent/CN111126494B/zh
Publication of CN111126494A publication Critical patent/CN111126494A/zh
Application granted granted Critical
Publication of CN111126494B publication Critical patent/CN111126494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及深度学习与图像分类领域,具体涉及一种基于各向异性卷积的图像分类方法及系统,目的在于解决当图像分辨率低、物体尺度和形态多变等情况下难以保证物体分类识别的精度的问题。本发明的图像分类方法包括:步骤A1,根据设定的标准图像大小,将训练图像与待分类图像都进行预处理;步骤A2,利用利用损失函数与预处理后的训练样本对神经网络进行训练优化,其中,神经网络包括各向异性卷积层;步骤A3,利用训练好的神经网络对预处理后的待分类图像进行特征提取与图像分类。本发明的神经网络能快速提取判别性特征因子,准确锁定图像中的物体轮廓,较好应对小图像、多形变等分类难题,从而充分挖掘了图像的空间信息,提高了物体分类的准确度。

Description

基于各向异性卷积的图像分类方法及系统
技术领域
本发明涉及深度学习与图像分类领域,具体涉及一种基于各向异性卷积的图像分类方法及系统。
背景技术
随着计算机视觉的发展,尤其是深度学习网络模型的推广,图像分类技术取得了很大的进步,而且在现实中得到了很广泛的应用。但是图像分类技术仍会遇到很大的困难,例如当图像分辨率低、物体尺度和形态多变等情况下,难以保证物体分类识别的精度。
因此,希望提出一种新的深度学习网络结构,该网络配备高性能特征提取模块,能快速提取判别性特征因子,准确锁定图像中的物体轮廓,较好应对小图像、多形变等分类难题。
发明内容
为了解决现有技术中的上述问题,本发明提出了一种基于各向异性卷积的图像分类方法及系统,提高了物体分类的准确度。
本发明的一方面,涉及一种基于各向异性卷积的图像分类方法,所述方法包括:
步骤A1,根据设定的标准图像大小,将训练图像与待分类的图像进行预处理;
步骤A2,利用损失函数与预处理后的训练图像对神经网络进行训练优化,其中,所述神经网络包括各向异性卷积层;
步骤A3,利用训练好的神经网络对预处理后的待分类图像进行特征提取与图像分类。
优选地,所述神经网络的训练步骤包括:
步骤B1,对网络参数进行初始化操作;
步骤B2,将预处理后的训练图像输入所述神经网络,提取图像的特征信息,进而得到图像对应的分类标签;
步骤B3,基于所述损失函数计算所述分类标签和训练图像的实际类别标签之间的误差;
步骤B4,若误差不在预期范围内,则进行参数更新,转至步骤B2,直至将误差控制在所述预期范围内,得到训练好的所述神经网络。
优选地,所述各向异性卷积层用于根据下式实现图像或特征图X到特征图Y的线性变换:
Figure BDA0002337005240000021
其中,W代表卷积权重;p0表示图像或特征图X中的任意一点0的坐标;l0为该点对应的最优尺度因子;Δpn为所述最优尺度因子对应的形状因子,为偏置项;{pn|n=1,2,…,N},枚举Q中的N个位置,N=|Q|,一个3×3的卷积中,Q定义为:
Q={(a,b)|a∈[-1,0,1],b∈[-1,0,1]}
其中,a和b为坐标值。
优选地,训练时p0点的所述最优尺度因子与对应的形状因子的获取方法包括:
在不同尺度基础上获取对应的形状因子,由对应多种尺度的卷积变换提取多尺度关键特征,探测当前尺度下物体的轮廓响应,根据最大激活响应来选择p0点的所述最优尺度因子与对应的形状因子;
其中,p0表示图像或特征图X中的任意一点0的坐标。
优选地,“在不同尺度基础上获取对应的形状因子,由对应多种尺度的卷积变换提取多尺度关键特征,探测当前尺度下物体的轮廓响应,根据最大激活响应来选择p0点的所述最优尺度因子与对应的形状因子”的步骤具体包括:
根据下式遍历尺度因子与形状因子在一定范围内的所有取值组合,进而获取所述最优尺度因子与形状因子:
Figure BDA0002337005240000022
其中,
Figure BDA0002337005240000023
为尺度因子l的候选集;s为预设的尺度因子个数;max代表最大值融合变换,用于根据各种尺度下提取得到的特征图,选取极大值激活得到输入图像中的目标物体位置与轮廓;Δpnl为与尺度因子l对应的形状因子,且
Δpnl∈{(c,d)|0≤c<l,0≤d<l}
其中,c和d为坐标值。
优选地,所述预设的尺度因子个数为s=3;
采用1、2、4三个尺度因子作为预设序列来提取输入层不同尺度的特征信息,尺度因子1、2和4对应的卷积核感受野大小分别为3×3、5×5和9×9。
优选地,所述预处理包括:
对图像进行数据扩增处理;
对数据扩增处理后的图像进行裁剪,规范成设定的标准图像大小。
优选地,所述损失函数为softmax。
优选地,所述形状因子设置为八边形,用于探测从中间点出发往八个方向的轮廓边界,探测范围在当前尺度到两倍尺度的区域环内。
优选地,所述神经网络包括:
一个普通的3×3卷积层、四个子网络、一个平均池化层,以及一个全连接层;
其中一个所述子网络包括:两个普通的3×3卷积层、一个各向异性卷积层以及一个最大池化层;其余三个所述子网络均包括:三个普通的3×3卷积层和一个最大池化层;
优选地,四个所述子网络按照数据输出的方向依次为:第一子网络、第二子网络、第三子网络和第四子网络;
其中,所述第一子网络、所述第二子网络和所述第四子网络均包括:三个普通的3×3卷积层和一个最大池化层;所述第三子网络包括:两个普通的3×3卷积层、一个各向异性卷积层以及一个最大池化层。
本发明的另一方面,提出一种基于各向异性卷积的图像分类系统,所述系统包括:
预处理模块,用于根据设定的标准图像大小,将训练图像与待分类的图像进行预处理;
训练模块,用于利用损失函数与预处理后的训练图像对神经网络进行训练优化,其中,所述神经网络包括各向异性卷积层;
分类模块,用于利用训练好的神经网络对预处理后的待分类图像进行特征提取与图像分类。
优选地,所述训练模块包括:
初始化单元,用于对网络参数进行初始化操作;
特征提取与分类单元,用于将预处理后的训练图像输入所述神经网络,提取图像的特征信息,进而得到图像对应的分类标签;
损失计算单元,用于基于所述损失函数计算所述分类标签和训练图像的实际类别标签之间的误差;
控制与参数更新单元,用于判断误差是否在预期范围内,若不在所述预期范围内则进行参数更新,并依次调用所述特征提取与分类单元以及所述损失计算单元,直至将误差控制在所述预期范围内,得到训练好的所述神经网络。
优选地,所述各向异性卷积层用于根据下式实现图像或特征图X到特征图Y的线性变换:
Figure BDA0002337005240000041
其中,W代表卷积权重;p0表示图像或特征图X中的任意一点0的坐标;l0为该点对应的最优尺度因子;Δpn为所述最优尺度因子对应的形状因子,为偏置项;{pn|n=1,2,…,N},枚举Q中的N个位置,N=|Q|,一个3×3的卷积中,Q定义为:
Q={(a,b)|a∈[-1,0,1],b∈[-1,0,1]}
其中,a和b为坐标值。
优选地,所述训练模块还包括:
最优值获取单元:配置为在不同尺度基础上获取对应的形状因子,由对应多种尺度的卷积变换提取多尺度关键特征,探测当前尺度下物体的轮廓响应,根据最大激活响应来选择p0点的所述最优尺度因子与对应的形状因子;
其中,p0表示图像或特征图X中的任意一点0的坐标。
优选地,所述最优值获取单元具体配置为:
根据下式遍历尺度因子与形状因子的所有取值组合,进而获取所述最优尺度因子与形状因子:
Figure BDA0002337005240000051
其中,
Figure BDA0002337005240000052
为尺度因子l的候选集;s为预设的尺度因子个数;max代表最大值融合变换,用于根据各种尺度下提取得到的特征图,选取极大值激活得到输入图像中的目标物体位置与轮廓;Δpnl为与尺度因子l对应的形状因子,且
Δpnl∈{(c,d)|0≤c<l,0≤d<l}
其中,c和d为坐标值。
优选地,所述预设的尺度因子个数为s=3;
采用1、2、4三个尺度因子作为预设序列来提取输入层不同尺度的特征信息,尺度因子1、2和4对应的卷积核感受野大小分别为3×3、5×5和9×9。
优选地,所述神经网络包括:
一个普通的3×3卷积层、四个子网络、一个平均池化层,以及一个全连接层;
其中一个所述子网络包括:两个普通的3×3卷积层、一个各向异性卷积层以及一个最大池化层;其余三个所述子网络均包括:三个普通的3×3卷积层和一个最大池化层;
优选地,四个所述子网络按照数据输出的方向依次为:第一子网络、第二子网络、第三子网络和第四子网络;
其中,所述第一子网络、所述第二子网络和所述第四子网络均包括:三个普通的3×3卷积层和一个最大池化层;所述第三子网络包括:两个普通的3×3卷积层、一个各向异性卷积层以及一个最大池化层。
与最接近的现有技术相比,本发明具有如下有益效果:
本发明提出的基于各向异性卷积的图像分类方法,利用了一种新的深度学习网络结构,即文中提到的“神经网络”,该网络能快速提取判别性特征因子,准确锁定图像中的物体轮廓,较好应对小图像、多形变等分类难题。充分了挖掘图像的空间信息,提高了物体分类的准确度。
附图说明
图1是本发明的基于各向异性卷积的图像分类方法实施例的主要步骤示意图;
图2是本发明实施例中对神经网络进行训练的主要步骤示意图;
图3是本发明实施例中各向异性卷积层的结构示意图;
图4是本发明实施例中用于图像分类的神经网络的主要结构示意图;
图5是本发明的基于各向异性卷积的图像分类系统实施例的主要结构示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅仅是为了便于描述,而不是指示或暗示所述装置、元件或参数的相对重要性,因此不能理解为对本发明的限制。
本发明在Caffe框架下实现,整个网络的训练过程采用一个NVIDIA TITAN X GPU。基本设计思路如下:
根据尺度探测作用,构造不同尺度因子的卷积形式,相当于设置不同膨胀系数的膨胀卷积,以实现感受野的快速无损失变化;通常根据输入图像或特征图的大小,可选择设置尺度因子个数为2或者3,即尺度因子序列为1和2或者1、2和4。根据形状因子作用,在不同尺度基础上,构造形状因子,来寻找感受野领域规定范围内的轮廓响应,相当于当前尺度的可变形边缘学习;尺度因子变化和形状因子学习共同实现对整个图像点的遍历,即感受野覆盖整个图像。避免关键信息的丢失;最终的特征提取实现是由多个尺度形状探测图的非极大值抑制实现,相当于多个尺度特征通道的最大值融合。取最大值保证重要特征信息及学习方法的流通,删减了作用较小的激活响应。保证了输入和输出的大小匹配,这使得各向异性卷积可嵌入使用到任何一个网络中。
图1是本发明的基于各向异性卷积的图像分类方法实施例的主要步骤示意图。如图1所示,本实施例的图像分类方法包括步骤A1至A3:
在步骤A1中,根据设定的标准图像大小,将训练图像与待分类的图像进行预处理。
其中,预处理包括:对图像进行数据扩增处理;对数据扩增处理后的图像进行裁剪,规范成设定的标准图像大小。
在步骤A2中,利用损失函数与预处理后的训练图像对神经网络进行训练优化,其中,神经网络包括各向异性卷积层。
在步骤A3中,利用训练好的神经网络对预处理后的待分类图像进行特征提取与图像分类。
本实施例中,损失函数为softmax。
图2是本发明实施例中对神经网络进行训练的主要步骤示意图。本发明在Caffe框架下实现,整个网络的训练过程采用一个NVIDIA TITAN X GPU。如图2所示,该训练过程包括步骤B1至B4:
步骤B1,对网络参数进行初始化操作;
步骤B2,将预处理后的训练图像输入神经网络,提取图像的特征信息,进而得到图像对应的分类标签;
步骤B3,基于损失函数计算分类标签和训练图像的实际类别标签之间的误差;
步骤B4,若误差不在预期范围内,则进行参数更新,转至步骤B2,直至损失函数收敛,即误差控制在预期范围内,得到训练好的神经网络。
图3是本发明实施例中各向异性卷积层的结构示意图。如图3所示,各向异性卷积层通过将不同尺度的卷积分支结合,实现对图像的多尺度多形状探测分析。本实施例中,预设的尺度因子个数为s=3;采用1、2、4三个尺度因子作为预设序列来提取输入层不同尺度的特征信息,尺度因子l=1、l=2、l=4对应的卷积核感受野大小分别为3×3、5×5和9×9。
具体地,本实施例中各向异性卷积层用于实现图像或特征图X到特征图Y的线性变换,如公式(1)所示:
Figure BDA0002337005240000081
其中,W代表卷积权重;p0表示图像或特征图X中的任意一点0的坐标;l0为该点对应的最优尺度因子;Δpn为最优尺度因子对应的形状因子,为偏置项;{pn|n=1,2,…,N},枚举Q中的N个位置,N=|Q|,一个3×3的卷积中,Q的定义如公式(2)所示:
Q=[(a,b)|a∈[-1,0,1],b∈[-1,0,1]} (2)
其中,a和b为坐标值。
进一步地,训练时p0点的最优尺度因子与对应的形状因子的获取方法包括:
在不同尺度基础上获取对应的形状因子,由对应多种尺度的卷积变换提取多尺度关键特征,探测当前尺度下物体的轮廓响应,根据最大激活响应来选择p0点的最优尺度因子与对应的形状因子。即根据公式(3)所示方法遍历尺度因子与形状因子的所有取值组合,进而获取最优尺度因子与形状因子:
Figure BDA0002337005240000082
其中,
Figure BDA0002337005240000083
为尺度因子l的候选集;s为预设的尺度因子个数;max代表最大值融合变换,用于根据各种尺度下提取得到的特征图,选取极大值激活得到输入图像中的目标物体位置与轮廓;Δpnl为与尺度因子l对应的形状因子,且Δpnl的取值范围如公式(4)所示:
Δpnl∈{(c,d)|0≤c<l,0≤d<l} (4)
其中,c和d为坐标值。
形状因子设置为八边形,用于探测从中间点出发往八个方向的轮廓边界,探测范围在当前尺度到两倍尺度的区域环内。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
图4是本发明实施例中用于图像分类的神经网络的主要结构示意图。如图4所示,本实施例的神经网络为结合各向异性卷积的VGG网络,即其中一层的普通卷积被改为各向异性卷积。本实施例中涉及的VGG基础网络结构与常用的结构略有差异,去掉了开始的一个最大池化层(Global Max Pooling),将最后一个最大池化层改为全局平均池化层(GlobalAverage Pooling),并且去掉了后三个全连接层的前两个,只保留最后一个全连接层来得到最终特征向量,这种修改使其更适合各向异性卷积与当前任务。
按照数据输出的方向,本实施例的神经网络从前到后依次包括:一个普通的3×3卷积层、四个子网络、一个平均池化层,以及一个全连接层。
本实施例中,四个子网络依次为:第一子网络、第二子网络、第三子网络和第四子网络;其中,第一子网络、第二子网络和第四子网络均包括:三个普通的3×3卷积层和一个最大池化层。第三子网络包括:两个普通的3×3卷积层、一个各向异性卷积层(即图4中用虚线框围起来的部分)以及一个最大池化层。
需要说明的是,各向异性卷积网络可以替换网络中的任意一个普通的卷积层,根据性质,一般设置在中后位置较好,有利于保存空间重要信息。本实施例中将各向异性卷积层设置在第三子网络中是经测试后确定的一种优选的实施方式。
基于与方法实施例相同的技术构思,本发明还提供了一种基于各向异性卷积的图像分类系统,下面进行具体说明。
图5是本发明的基于各向异性卷积的图像分类系统实施例的主要结构示意图。如图5所示,本实施例的图像分类系统1包括:预处理模块10、训练模块20和分类模块30。
其中,预处理模块10用于根据设定的标准图像大小,将训练图像与待分类的图像进行预处理;训练模块20用于利用损失函数与预处理后的训练图像对神经网络进行训练优化,其中,神经网络包括各向异性卷积层;分类模块30用于利用训练好的神经网络对预处理后的待分类图像进行特征提取与图像分类。
具体地,训练模块20包括:初始化单元21、特征提取与分类单元22、损失计算单元23、控制与参数更新单元24、最优值获取单元25。
其中,初始化单元21用于对参数进行初始化操作;特征提取与分类单元22用于将预处理后的训练图像输入神经网络,提取图像的特征信息,进而得到图像对应的分类标签;损失计算单元23用于根据损失函数计算分类标签和训练图像的实际类别标签之间的误差;控制与参数更新单元24用于判断误差是否在预期范围内,若否则进行参数更新,继续提取特征和分类,直至损失函数收敛,得到训练好的神经网络;最优值获取单元25配置为在不同尺度基础上获取对应的形状因子,由对应多种尺度的卷积变换提取多尺度关键特征,探测当前尺度下物体的轮廓响应,根据最大激活响应来选择p0点的最优尺度因子与对应的形状因子。其中,p0表示图像或特征图X中的任意一点0的坐标。
具体地,最优值获取单元25根据公式(3)遍历尺度因子与形状因子的所有取值组合,进而获取所述最优尺度因子与形状因子。
本实施例中,各向异性卷积层用于根据公式(1)实现图像或特征图X到特征图Y的线性变换。
本实施例中,预设的尺度因子个数为s=3;采用1、2、4三个尺度因子作为预设序列来提取输入层不同尺度的特征信息,尺度因子1、2和4对应的卷积核感受野大小分别为3×3、5×5和9×9。
本实施例中的神经网络包括:一个普通的3×3卷积层、四个子网络、一个平均池化层,以及一个全连接层。其中一个子网络包括:两个普通的3×3卷积层、一个各向异性卷积层以及一个最大池化层;其余三个子网络均包括:三个普通的3×3卷积层和一个最大池化层;
具体地,四个子网络按照数据输出的方向依次为:第一子网络、第二子网络、第三子网络和第四子网络。其中,第一子网络、第二子网络和第四子网络均包括:三个普通的3×3卷积层和一个最大池化层;第三子网络包括:两个普通的3×3卷积层、一个各向异性卷积层以及一个最大池化层。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (19)

1.一种基于各向异性卷积的图像分类方法,其特征在于,所述方法包括:
步骤A1,根据设定的标准图像大小,将训练图像与待分类的图像进行预处理;
步骤A2,利用损失函数与预处理后的训练图像对神经网络进行训练优化,其中,所述神经网络包括各向异性卷积层;
步骤A3,利用训练好的神经网络对预处理后的待分类图像进行特征提取与图像分类。
2.根据权利要求1所述的基于各向异性卷积的图像分类方法,其特征在于,所述神经网络的训练步骤包括:
步骤B1,对网络参数进行初始化操作;
步骤B2,将预处理后的训练图像输入所述神经网络,提取图像的特征信息,进而得到图像对应的分类标签;
步骤B3,基于所述损失函数计算所述分类标签和训练图像的实际类别标签之间的误差;
步骤B4,若误差不在预期范围,则进行参数更新,并转至步骤B2,直至将误差控制在所述预期范围内,得到训练好的所述神经网络。
3.根据权利要求2所述的基于各向异性卷积的图像分类方法,其特征在于,所述各向异性卷积层用于根据下式实现图像或特征图X到特征图Y的线性变换:
Figure FDA0002337005230000011
其中,W代表卷积权重;p0表示图像或特征图X中的任意一点0的坐标;l0为该点对应的最优尺度因子;Δpn为所述最优尺度因子对应的形状因子,为偏置项;{pn|n=1,2,…,N},枚举Q中的N个位置,N=|Q|,一个3×3的卷积中,Q定义为:
Q={(a,b)|a∈[-1,0,1],b∈[-1,0,1]}
其中,a和b为坐标值。
4.根据权利要求3所述的基于各向异性卷积的图像分类方法,其特征在于,训练时p0点的所述最优尺度因子与对应的形状因子的获取方法包括:
在不同尺度基础上获取对应的形状因子,由对应多种尺度的卷积变换提取多尺度关键特征,探测当前尺度下物体的轮廓响应,根据最大激活响应来选择p0点的所述最优尺度因子与对应的形状因子;
其中,p0表示图像或特征图X中的任意一点0的坐标。
5.根据权利要求4所述的基于各向异性卷积的图像分类方法,其特征在于,“在不同尺度基础上获取对应的形状因子,由对应多种尺度的卷积变换提取多尺度关键特征,探测当前尺度下物体的轮廓响应,根据最大激活响应来选择p0点的所述最优尺度因子与对应的形状因子”的步骤具体包括:
根据下式遍历尺度因子与形状因子的所有取值组合,进而获取所述最优尺度因子与形状因子:
Figure FDA0002337005230000021
其中,
Figure FDA0002337005230000022
为尺度因子l的候选集;s为预设的尺度因子个数;max代表最大值融合变换,用于根据各种尺度下提取得到的特征图,选取极大值激活得到输入图像中的目标物体位置与轮廓;Δpnl为与尺度因子l对应的形状因子,且
Δpnl∈{(c,d)|0≤c<l,0≤d<l}
其中,c和d为坐标值。
6.根据权利要求5所述的基于各向异性卷积的图像分类方法,其特征在于,所述预设的尺度因子个数为s=3;
采用1、2、4三个尺度因子作为预设序列来提取输入层不同尺度的特征信息,尺度因子1、2和4对应的卷积核感受野大小分别为3×3、5×5和9×9。
7.根据权利要求1-6中任一项所述的基于各向异性卷积的图像分类方法,其特征在于,所述预处理包括:
对图像进行数据扩增处理;
对数据扩增处理后的图像进行裁剪,规范成设定的标准图像大小。
8.根据权利要求1-6中任一项所述的基于各向异性卷积的图像分类方法,其特征在于,所述损失函数为softmax。
9.根据权利要求3-6中任一项所述的基于各向异性卷积的图像分类方法,其特征在于,所述形状因子设置为八边形,用于探测从中间点出发往八个方向的轮廓边界,探测范围在当前尺度到两倍尺度的区域环内。
10.根据权利要求1-6中任一项所述的基于各向异性卷积的图像分类方法,其特征在于,所述神经网络包括:
一个普通的3×3卷积层、四个子网络、一个平均池化层,以及一个全连接层;
其中一个所述子网络包括:两个普通的3×3卷积层、一个各向异性卷积层以及一个最大池化层;其余三个所述子网络均包括:三个普通的3×3卷积层和一个最大池化层。
11.根据权利要求10所述的基于各向异性卷积的图像分类方法,其特征在于,四个所述子网络按照数据输出的方向依次为:第一子网络、第二子网络、第三子网络和第四子网络;
其中,所述第一子网络、所述第二子网络和所述第四子网络均包括:三个普通的3×3卷积层和一个最大池化层;所述第三子网络包括:两个普通的3×3卷积层、一个各向异性卷积层以及一个最大池化层。
12.一种基于各向异性卷积的图像分类系统,其特征在于,所述系统包括:
预处理模块,用于根据设定的标准图像大小,将训练图像与待分类的图像进行预处理;
训练模块,用于利用损失函数与预处理后的训练图像对神经网络进行训练优化,其中,所述神经网络包括各向异性卷积层;
分类模块,用于利用训练好的神经网络对预处理后的待分类图像进行特征提取与图像分类。
13.根据权利要求12所述的基于各向异性卷积的图像分类系统,其特征在于,所述训练模块包括:
初始化单元,用于对网络参数进行初始化操作;
特征提取与分类单元,用于将预处理后的训练图像输入所述神经网络,提取图像的特征信息,进而得到图像对应的分类标签;
损失计算单元,用于基于所述损失函数计算所述分类标签和训练图像的实际类别标签之间的误差;
控制与参数更新单元,用于判断误差是否在预期范围内,若不在所述预期范围内则进行参数更新,并依次调用所述特征提取与分类单元以及所述损失计算单元,直至将误差控制在所述预期范围内,得到训练好的所述神经网络。
14.根据权利要求13所述的基于各向异性卷积的图像分类系统,其特征在于,所述各向异性卷积层用于根据下式实现图像或特征图X到特征图Y的线性变换:
Figure FDA0002337005230000041
其中,W代表卷积权重;p0表示图像或特征图X中的任意一点0的坐标;l0为该点对应的最优尺度因子;Δpn为所述最优尺度因子对应的形状因子,为偏置项;{pn|n=1,2,…,N},枚举Q中的N个位置,N=|Q|,一个3×3的卷积中,Q定义为:
Q={(a,b)|a∈[-1,0,1],b∈[-1,0,1]}
其中,a和b为坐标值。
15.根据权利要求14所述的基于各向异性卷积的图像分类系统,其特征在于,所述训练模块还包括:
最优值获取单元:配置为在不同尺度基础上获取对应的形状因子,由对应多种尺度的卷积变换提取多尺度关键特征,探测当前尺度下物体的轮廓响应,根据最大激活响应来选择p0点的所述最优尺度因子与对应的形状因子;
其中,p0表示图像或特征图X中的任意一点0的坐标。
16.根据权利要求15所述的基于各向异性卷积的图像分类系统,其特征在于,所述最优值获取单元具体配置为:
根据下式遍历尺度因子与形状因子的所有取值组合,进而获取所述最优尺度因子与形状因子:
Figure FDA0002337005230000051
其中,
Figure FDA0002337005230000052
为尺度因子l的候选集;s为预设的尺度因子个数;max代表最大值融合变换,用于根据各种尺度下提取得到的特征图,选取极大值激活得到输入图像中的目标物体位置与轮廓;Δpnl为与尺度因子l对应的形状因子,且
Δpnl∈{(c,d)|0≤c<l,0≤d<l}
其中,c和d为坐标值。
17.根据权利要求16所述的基于各向异性卷积的图像分类系统,其特征在于,所述预设的尺度因子个数为s=3;
采用1、2、4三个尺度因子作为预设序列来提取输入层不同尺度的特征信息,尺度因子1、2和4对应的卷积核感受野大小分别为3×3、5×5和9×9。
18.根据权利要求12-17中任一项所述的基于各向异性卷积的图像分类系统,其特征在于,所述神经网络包括:
一个普通的3×3卷积层、四个子网络、一个平均池化层,以及一个全连接层;
其中一个所述子网络包括:两个普通的3×3卷积层、一个各向异性卷积层以及一个最大池化层;其余三个所述子网络均包括:三个普通的3×3卷积层和一个最大池化层。
19.根据权利要求18所述的基于各向异性卷积的图像分类系统,其特征在于,四个所述子网络按照数据输出的方向依次为:第一子网络、第二子网络、第三子网络和第四子网络;
其中,所述第一子网络、所述第二子网络和所述第四子网络均包括:三个普通的3×3卷积层和一个最大池化层;所述第三子网络包括:两个普通的3×3卷积层、一个各向异性卷积层以及一个最大池化层。
CN201911360305.2A 2019-12-25 2019-12-25 基于各向异性卷积的图像分类方法及系统 Active CN111126494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911360305.2A CN111126494B (zh) 2019-12-25 2019-12-25 基于各向异性卷积的图像分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911360305.2A CN111126494B (zh) 2019-12-25 2019-12-25 基于各向异性卷积的图像分类方法及系统

Publications (2)

Publication Number Publication Date
CN111126494A true CN111126494A (zh) 2020-05-08
CN111126494B CN111126494B (zh) 2023-09-26

Family

ID=70502554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911360305.2A Active CN111126494B (zh) 2019-12-25 2019-12-25 基于各向异性卷积的图像分类方法及系统

Country Status (1)

Country Link
CN (1) CN111126494B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784653A (zh) * 2020-06-28 2020-10-16 西安电子科技大学 基于形状约束的多尺度网络mri胰腺轮廓定位方法
CN112418090A (zh) * 2020-11-23 2021-02-26 中国科学院西安光学精密机械研究所 一种天空背景下红外弱小目标实时检测方法
CN113705361A (zh) * 2021-08-03 2021-11-26 北京百度网讯科技有限公司 活体检测模型的方法、装置及电子设备
CN117542048A (zh) * 2024-01-05 2024-02-09 中信戴卡股份有限公司 一种亚共晶铝硅合金显微组织特征、缺陷特征的自动识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050507A (zh) * 2014-06-30 2014-09-17 南京理工大学 基于多层神经网络的超光谱图像分类方法
CN107316013A (zh) * 2017-06-14 2017-11-03 西安电子科技大学 基于nsct变换和dcnn的高光谱图像分类方法
CN107341518A (zh) * 2017-07-07 2017-11-10 东华理工大学 一种基于卷积神经网络的图像分类方法
CN109360210A (zh) * 2018-10-16 2019-02-19 腾讯科技(深圳)有限公司 图像分割方法、装置、计算机设备及存储介质
CN109903301A (zh) * 2019-01-28 2019-06-18 杭州电子科技大学 一种基于多级特征信道优化编码的图像轮廓检测方法
US20190220746A1 (en) * 2017-08-29 2019-07-18 Boe Technology Group Co., Ltd. Image processing method, image processing device, and training method of neural network
CN110084159A (zh) * 2019-04-15 2019-08-02 西安电子科技大学 基于联合多级空谱信息cnn的高光谱图像分类方法
US20190261860A1 (en) * 2018-02-26 2019-08-29 Washington University Small form factor detector module for high density diffuse optical tomography

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050507A (zh) * 2014-06-30 2014-09-17 南京理工大学 基于多层神经网络的超光谱图像分类方法
CN107316013A (zh) * 2017-06-14 2017-11-03 西安电子科技大学 基于nsct变换和dcnn的高光谱图像分类方法
CN107341518A (zh) * 2017-07-07 2017-11-10 东华理工大学 一种基于卷积神经网络的图像分类方法
US20190220746A1 (en) * 2017-08-29 2019-07-18 Boe Technology Group Co., Ltd. Image processing method, image processing device, and training method of neural network
US20190261860A1 (en) * 2018-02-26 2019-08-29 Washington University Small form factor detector module for high density diffuse optical tomography
CN109360210A (zh) * 2018-10-16 2019-02-19 腾讯科技(深圳)有限公司 图像分割方法、装置、计算机设备及存储介质
CN109903301A (zh) * 2019-01-28 2019-06-18 杭州电子科技大学 一种基于多级特征信道优化编码的图像轮廓检测方法
CN110084159A (zh) * 2019-04-15 2019-08-02 西安电子科技大学 基于联合多级空谱信息cnn的高光谱图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李刚 等: "基于多尺度融合的高分辨率遥感图像分类" *
路强 等: "基于体素特征重组网络的三维物体识别" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784653A (zh) * 2020-06-28 2020-10-16 西安电子科技大学 基于形状约束的多尺度网络mri胰腺轮廓定位方法
CN111784653B (zh) * 2020-06-28 2023-08-01 西安电子科技大学 基于形状约束的多尺度网络mri胰腺轮廓定位方法
CN112418090A (zh) * 2020-11-23 2021-02-26 中国科学院西安光学精密机械研究所 一种天空背景下红外弱小目标实时检测方法
CN113705361A (zh) * 2021-08-03 2021-11-26 北京百度网讯科技有限公司 活体检测模型的方法、装置及电子设备
CN117542048A (zh) * 2024-01-05 2024-02-09 中信戴卡股份有限公司 一种亚共晶铝硅合金显微组织特征、缺陷特征的自动识别方法
CN117542048B (zh) * 2024-01-05 2024-03-22 中信戴卡股份有限公司 一种亚共晶铝硅合金显微组织特征、缺陷特征的自动识别方法

Also Published As

Publication number Publication date
CN111126494B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN110210463B (zh) 基于Precise ROI-Faster R-CNN的雷达目标图像检测方法
CN111126494B (zh) 基于各向异性卷积的图像分类方法及系统
CN107657279B (zh) 一种基于少量样本的遥感目标检测方法
CN107506761B (zh) 基于显著性学习卷积神经网络的脑部图像分割方法及系统
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN106778605B (zh) 导航数据辅助下的遥感影像道路网自动提取方法
CN105825502B (zh) 一种基于显著性指导的词典学习的弱监督图像解析方法
CN109118528A (zh) 基于区域分块的奇异值分解图像匹配算法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN109871823B (zh) 一种结合旋转框和上下文信息的卫星图像舰船检测方法
CN103903013A (zh) 一种无标记平面物体识别的优化算法
CN110135438B (zh) 一种基于梯度幅值预运算的改进surf算法
CN106910202B (zh) 一种遥感图像地物的图像分割方法及系统
Ecabert et al. Adaptive Hough transform for the detection of natural shapes under weak affine transformations
CN106408030A (zh) 基于中层语义属性和卷积神经网络的sar图像分类方法
CN108171119B (zh) 基于残差网络的sar图像变化检测方法
CN109344713A (zh) 一种姿态鲁棒的人脸识别方法
CN114155397B (zh) 一种小样本图像分类方法及系统
CN106846367A (zh) 一种基于运动约束光流法的复杂动态场景的运动物体检测方法
CN111091071B (zh) 基于探地雷达双曲波拟合的地下目标检测方法及系统
CN112131969A (zh) 基于全卷积神经网络的遥感图像变化检测方法
CN112381730B (zh) 一种遥感影像数据扩增方法
CN109658523A (zh) 利用ar增强现实应用实现车辆各功能使用说明的方法
CN113239828A (zh) 一种基于tof摄像模组的人脸识别方法及装置
KR20220080341A (ko) 비지도 6d 포즈 추정을 위한 3d 대조학습 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant