CN113449784A

CN113449784A - 基于先验属性图谱的图像多分类方法、装置、设备及介质

Info

Publication number: CN113449784A
Application number: CN202110677278.2A
Authority: CN
Inventors: 王永斌; 张忠平; 肖益珊; 刘廉如; 丁雷; 季文翀; 丛煜华
Original assignee: Eastone Century Technology Co ltd
Current assignee: Eastone Century Technology Co ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2021-09-28
Anticipated expiration: 2041-06-18
Also published as: CN113449784B

Abstract

本发明公开了基于先验属性图谱的图像多分类方法、装置、设备及介质，方法包括：根据粗特征提取网络和残差属性网络对原始图像进行多尺度特征提取，得到多尺度特征；对所述多尺度特征中的低频特征图谱、高频特征图谱以及先验属性图谱进行特征融合，得到特征融合结果；根据所述特征融合结果训练得到分类模型；根据所述分类模型确定分类结果。本发明降低了对训练样本的需求并提高扩展性，可广泛应用于计算机视觉技术领域。

Description

基于先验属性图谱的图像多分类方法、装置、设备及介质

技术领域

本发明涉及计算机视觉技术领域，尤其是基于先验属性图谱的图像多分类方法、装置、设备及介质。

背景技术

随着深度学习领域的快速发展，图像多分类技术有着极大的应用前景。由于一般实际生产中难以提供大规模的图像训练样本，因此如何利用有限的样本得到所需要的特征进行训练，构建出合适的模型达到较高的精度是首要解决的问题。传统的基于手工标准特征提取的视觉分类检测方法不如深度学习相关方法有效。对源图像领域的有标记数据实例进行有效的权重分配，让源图像域实例分布接近目标图像域的实例分布，从而在目标领域中建立一个分类精度较高的、可靠的学习模型，可以在少样本的训练中得到灵活性高、准确率高的分类结果。本发明旨在利用有限的图像样本的结合深度卷积神经网络、权重自适应迁移学习，提出一种稳定性好、识别率高、泛化能力强的图像多分类方法。

图像分辨率指的是图像中存储的信息量，一般用“水平像素数×垂直像素数”来表示成像或显示系统对细节的分辨能力。其中分辨率的单位叫做像素每英寸(Pixels PerInch，简称PPI)，为分辨率的像素，用来表示每英寸图像内由多少个像素点。图像的大小有像素的数量决定，分辨率的高低并不等同于像素数量的多少，分辨率代表图像的单位像素密度。相同像素数量的图片，分辨率越高，图像的面积越小。通常情况下，图像的分辨率越高表示图像包含的细节越多，提供的信息量越大。处理图像分类任务可以从样本图片处理着手，对图片的处理即为对像素的操作。并且可以在对样本筛选时，筛选出高分辨率的图像，这样一来可以大大节约成本，重点处理图像的高频信息，有效提高后续实验的进程。

传统的图像分类方法通过频域滤波检测将样本图像首先变换到频域下进行处理，提取图像特征分量后再次反变换到时域，通过Blob分析获得物体对象的具体位置，在依靠帧差或者背景差的基础上进一步细化图像分类结果。步骤包括创建合适的带通滤波，将输入图像在频域中进行傅立叶变化和滤波分析，通过在频域中滤波增强轮廓，增强样本图像中的高频信息，生成具有正弦形状的带通滤波器，对样本图像的实部进行快速傅里叶变换计算和卷积计算，将图像转为傅里叶图像，最后进行傅立叶反变化转换回空间域，增强的图像轮廓通过形态学进行处理，得到物体的分类结果。LBP(Local Binary Pattern，局部二值模式)是一种用来描述图像局部纹理特征的算子，由于其的旋转不变性和灰度不变性，常用来进行纹理特征的提取。根据稀疏矩阵表示的理论基础在于图像块可以由适当的超完备字典的稀疏线性组合进行表示。基于稀疏表示的方法采用对低分辨率输入图像块进行稀疏表示，通过对提取的LBP算子的联合训练，每一个像素点都可以得到一个对应的LBP编码，采用凸优化理论方法来求解出低分辨率与LBP算子系数的映射关系。常采用LBP模式的统计直方图来表达图像的信息，而较多的模式种类将使得数据量过大，且直方图过于稀疏。因此，需要对原始的LBP模式进行降维，使得数据量减少的情况下能最好的代表图像的信息。LBP特征提取方法可以得到样本图像的LBP纹理特征向量，对噪声具有自适应鲁棒性，但是算法计算复杂量大。

近年来，深度学习在多媒体处理领域快速发展，基于神经网络的方法来完成图像处理逐渐成为主流。其中，基于卷积神经网络的方法逐渐取代传统提取图像特征的方式RCNN在图像上直接生成检测窗口并在神经网络中提取图像特征，最后使用SVM来分类提取到的特征，RCNN虽然检测效果进步大，但是效率低、速度慢。SPPNet在神经网络提取特征的基础上，创新性地提出了空间金字塔池化层，并将此操作设置在卷基层和全连阶层间，可以对图像中任意特征的提取，有效解决了计算冗余的问题，但精度会有所下降。

发明内容

有鉴于此，本发明实施例提供一种基于先验属性图谱的图像多分类方法、装置、设备及介质，以降低对训练样本的需求并提高扩展性。

本发明的一方面提供了一种基于先验属性图谱的图像多分类方法，包括：

根据粗特征提取网络和残差属性网络对原始图像进行多尺度特征提取，得到多尺度特征；

对所述多尺度特征中的低频特征图谱、高频特征图谱以及先验属性图谱进行特征融合，得到特征融合结果；

根据所述特征融合结果训练得到分类模型；

根据所述分类模型确定分类结果。

优选地，所述粗特征提取网络包括第一卷积层和第二卷积层；

所述根据粗特征提取网络和残差属性网络对原始图像进行多尺度特征提取，得到多尺度特征，包括：

根据所述第一卷积层和所述第二卷积层，对所述原始图像进行第一特征提取，得到低频粗糙特征；

其中，所述第一特征提取的表达式为：

F₀＝W₀₂(W₀₁(P))

其中，W₀₁是所述第一卷积层的权重；W₀₂是所述第二卷积层的权重；P代表原始图像；F₀代表提取到的低频粗糙特征。

优选地，所述根据粗特征提取网络和残差属性网络对原始图像进行多尺度特征提取，得到多尺度特征，还包括：

将所述低频粗糙特征输入多个残差属性模块，得到高频特征和先验属性图谱。

优选地，

所述先验属性图谱的计算公式为：

M_i＝σ(W_i3(δ(W_i2(AvgPool(δ(W_i1(F_i-1)))))))，

其中，σ表示Sigmoid函数，δ表示ReLU函数，W_ij表示第i个残差属性模块中的第j个卷积层通过模型训练学习到的权重，AvgPool表示池化计算，F_i-1为上一个残差属性模块计算得到的高频特征；

所述高频特征的计算公式为：

其中，δ表示ReLU函数，W_i1表示第i个残差属性模块中的第1个卷积层通过模型训练学习到的权重，F_i-1为上一个残差属性模块计算得到的高频特征，

表示点乘运算，+表示按点位加法运算。

优选地，所述对所述多尺度特征中的低频特征图谱、高频特征图谱以及先验属性图谱进行特征融合，得到特征融合结果，包括：

将所述多尺度特征输入concat层和卷积层进行特征重塑，所述卷积层用于对特征的通道数进行降低。

优选地，所述特征重塑的计算公式：

其中，F_c为重塑后的特征；Concat表示Concat层所进行的计算；F_r为最后一个残差属性模块输出的高频特征；M_i为第i个残差属性模块生成的属性图谱，W_r为重塑卷积层经过模型训练学习得到的权重。

优选地，所述根据所述分类模型确定分类结果，包括：

通过两个全连接层计算得到多维张量，确定分类结果；

其中，所述分类结果的计算过程的表达式为：

Y＝W_fc1(W_fc2(F_c))

Y代表分类结果；W_fc1和W_fc2分别表示第1、2个全连接层通过模型训练得到的权重参数；F_c为重塑后的特征。

本发明实施例的另一方面提供了一种基于先验属性图谱的图像多分类装置，包括：

多尺度特征提取模块，用于根据粗特征提取网络和残差属性网络对原始图像进行多尺度特征提取，得到多尺度特征；

特征融合模块，用于对所述多尺度特征中的低频特征图谱、高频特征图谱以及先验属性图谱进行特征融合，得到特征融合结果；

训练模块，用于根据所述特征融合结果训练得到分类模型；

分类模块，用于根据所述分类模型确定分类结果。

本发明实施例的另一方面提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例的另一方面提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例首先根据粗特征提取网络和残差属性网络对原始图像进行多尺度特征提取，得到多尺度特征；接着对所述多尺度特征中的低频特征图谱、高频特征图谱以及先验属性图谱进行特征融合，得到特征融合结果；然后根据所述特征融合结果训练得到分类模型；最后根据所述分类模型确定分类结果；本发明降低了对训练样本的需求并提高扩展性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的整体步骤流程图；

图2为本发明实施例提供的网络模型框架结构示意图；

图3为本发明实施例提供的残差属性模块的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本发明实施例提供了一种基于先验属性图谱的图像多分类方法，包括：

根据所述特征融合结果训练得到分类模型；

根据所述分类模型确定分类结果。

其中，所述第一特征提取的表达式为：

F₀＝W₀₂(W₀₁(P))

优选地，所述先验属性图谱的计算公式为：

M_i＝σ(W_i3(δ(W_i2(AvgPool(δ(W_i1(F_i-1)))))))，

所述高频特征的计算公式为：

表示点乘运算，+表示按点位加法运算。

优选地，所述特征重塑的计算公式：

优选地，所述根据所述分类模型确定分类结果，包括：

通过两个全连接层计算得到多维张量，确定分类结果；

其中，所述分类结果的计算过程的表达式为：

Y＝W_fc1(W_fc2(F_c))

下面对本发明实施例的实现过程进行完整描述：

本发明提出了一种基于先验属性图谱的图像多分类方法，其中，本发明设计的网络结构主要分为三部分：多尺度特征提取部分、特征融合部分和分类部分。

其中，多尺度特征提取部分由粗特征提取网络网路和残差属性网络构成；

粗特征提取网络由两个卷积层构成；

残差属性网络由多个残差属性模块(RAB，Residual Attribute Block)以级联的方式构成。

特征融合部分则是对上一步多尺度特征提取部分提取出的低/高频特征图谱、先验属性图谱等进行融合，由一个Concat层和一个卷积层构成，其中卷积层的作用是以降维的方式进行特征重塑。

最后分类部分由两个全连接层(FC)构成，目的是计算一个多维张量，此张量反映了最终的分类结果。

具体地，对于属性图谱生成与特征融合的过程：

本发明设计了一个可生成先验属性图谱的网络，目的在于从原始图像中学习到特定的先验属性知识，这种知识在同类图像中具有相近的表现模式，而在不同类图像中则具有差异。对第j个残差属性模块(RAB，Residual Attribute Block)，生成的属性图谱可以表示如下：

M_attr(j)＝σ(W₃(δ(W₂(AvgPool(δ(W₁(α_j-1)))))))

其中，σ表示Sigmoid函数，δ表示ReLU计算，W表示学习得到的卷积层的权重，AvgPool表示池化计算，α_j-1为第j-1个残差属性模块的输出。

为了将生产的属性图谱的影响施加到最终结果，本方法将多层次多尺度的不同特征融合起来，经过特征融合部分后的结果可表示为：

其中，Concat表示Concat层所进行的计算，β为最后一个残差属性模块的横向输出，M_attr(i)为第i个残差属性模块生成的属性图谱，W_r为学习得到的重塑卷积层的权重。

对于损失函数

当下大多数基于卷积神经网络的方法中的损失函数采用均方误差来定义。为了避免构造出过度平滑的图像，在该发明中，损失函数定义由平均绝对误差(Mean AbsoluteError，MAE)来定义。本发明的损失函数表示如下：

其中，L(Θ)代表构造模型的平均损失，G(Y_i，Θ)代表模型的预测情况，X_i代表原始图像的真实值，Θ代表神经网络参数，Y_i表示预测的图像分类结果。

综上所述，本发明实施例从针对样本少，特征少，图像分辨率低，如何标注等实际问题出发，通过少样本、高精度的训练，结合卷积神经网络构造自己的的网络模型，经过实验结果表明，设计出的整体网络比常规的训练网络更适合解决图像分类问题。

另外，由于不同数据集的数据分布具有很大差异，因此同一个方法在不同数据集下的性能表现有较大差异。本发明同时设计了残差属性网络，可以生成先验属性图谱。实验结果表明，该图谱对数据集不敏感，只与图像的基本模式(pattern)相关，因此本方法在不同数据集上的性能表现具有同等高效性，可任意扩展到别的图像集。

下面，选取Python语言和基于Tensorflow的深度学习框架来实现本发明的技术方案，网络的训练和测试环境为Ubuntu，使用英伟达公司Titan XP GPU完成实验过程。Tensorflow框架支持Linux平台、Windows平台和Mac平台。

本发明的编程软件采用PyCharm和Matlab，图像预处理是通过Matlab软件实现，选用PyCharm来编写Python脚本实现本发明提出的网络模型。为更好的实现算法，便于对图像的处理操作，还需熟练使用slim框架和Python的OpenCV包和Numpy包等。由于GPU的显存限制，本发明实施例的网络批量处理数据大小设置为16。实验训练过程数据读入内存的处理采用文件队列的方法，可以有效减少对内存的依赖。

图2为本发明实施例提供的网络模型框架结构示意图，如图2所示，本发明的网络模型框架结构的整个网络由三个部分组成：多尺度特征提取部分、特征融合部分和分类部分。

其中，多尺度特征提取部分由粗特征提取网路和残差属性网络构成，如图2所示，最左侧两个竖立的矩形分别表示两个卷积核大小为3×3的卷积层，它们共同构成粗特征提取网络，用以提取低频粗糙特征。

原始输入图像可以表示成一个3通道的张量

经过粗特征提取网络的两个卷积层的计算后可得到低频粗糙特和

具体过程可表示如下：

F₀＝W₀₂(W₀₁(P))

其中，W₀₁和W₀₂分别是粗特征提取网络的第1个和第2个卷积层通过模型训练学习到的权重。

在样本图片经过卷积层的处理后可以将图像中较粗糙的特征提取出来，并作为下一模块的输入。

粗糙特征被输入到残差属性网络用以提取高频特征和先验属性图谱，残差属性网络由多个残差属性模块(RAB，Residual Attribute Block)以级联的方式构成，RAB的具体结构如图3所示。

每个残差属性模块(RAB，Residual Attribute Block)经过计算可得到高频特征和先验属性图谱，对每个残差属性模块，先验属性图谱的计算过程如下：

M_i＝σ(W_i3(δ(W_i2(AvgPool(δ(W_i1(F_i-1)))))))

其中，σ表示Sigmoid函数，δ表示ReLU函数，W_ij表示第i个残差属性模块中的第j个卷积层通过模型训练学习到的权重，AvgPool表示池化计算，F_i-1为上一个残差属性模块计算得到的高频特征。

对每个残差属性模块，高频特征的计算过程如下：

表示点乘运算，+表示按点位加法运算。

然后，残差属性网络输出的多尺度特征被输入到特征融合部分，特征融合部分由一个Concat层和一个卷积层构成，其中卷积层把特征的通道数从N*M层降为M层，实现特征的重塑。

重塑后得到的特征F_c的计算过程如下：

其中，Concat表示Concat层所进行的计算，F_r为最后一个残差属性模块输出的高频特征，M_i为第i个残差属性模块生成的属性图谱，W_r为重塑卷积层经过模型训练学习得到的权重。

最后分类部分由两个全连接层(FC)构成，经过计算得到了一个多维的张量

此张量即为最终的分类结果。

分类结果Y的计算过程如下：

Y＝W_fc1(W_fc2(F_c))

其中，W_fc1和W_fc2分别表示第1、2个全连接层通过模型训练得到的权重参数。

图3详细介绍残差属性模块(RAB，Residual Attribute Block)的组成结构。如图3所示，最左侧竖立的立方体表示图像经过粗特征提取网路后得到的低频特征图谱。

之后特征图谱经过图示的多个卷积层、ReLU层、池化层后再对其进行Sigmoid计算即得到了属性图谱(Attribute Map)。

表示属性图谱和原始特征的点乘所得结果。

该模块对外有两个层面的输出，一个是属性图谱，其直接对外输出；另一个为施加属性图谱过滤得到的特征图谱，其被输出到下一个残差属性模块进行计算。

训练模块，用于根据所述特征融合结果训练得到分类模型；

分类模块，用于根据所述分类模型确定分类结果。

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于先验属性图谱的图像多分类方法，其特征在于，包括：

根据所述特征融合结果训练得到分类模型；

根据所述分类模型确定分类结果。

2.根据权利要求1所述的基于先验属性图谱的图像多分类方法，其特征在于，所述粗特征提取网络包括第一卷积层和第二卷积层；

其中，所述第一特征提取的表达式为：

F₀＝W₀₂(W₀₁(P))

3.根据权利要求2所述的基于先验属性图谱的图像多分类方法，其特征在于，所述根据粗特征提取网络和残差属性网络对原始图像进行多尺度特征提取，得到多尺度特征，还包括：

4.根据权利要求3所述的基于先验属性图谱的图像多分类方法，其特征在于，

所述先验属性图谱的计算公式为：

M_i＝σ(W_i3(δ(W_i2(AvgPool(δ(W_i1(F_i-1)))))))，

所述高频特征的计算公式为：

表示点乘运算，+表示按点位加法运算。

5.根据权利要求1所述的基于先验属性图谱的图像多分类方法，其特征在于，所述对所述多尺度特征中的低频特征图谱、高频特征图谱以及先验属性图谱进行特征融合，得到特征融合结果，包括：

6.根据权利要求5所述的基于先验属性图谱的图像多分类方法，其特征在于，所述特征重塑的计算公式：

7.根据权利要求6所述的基于先验属性图谱的图像多分类方法，其特征在于，所述根据所述分类模型确定分类结果，包括：

通过两个全连接层计算得到多维张量，确定分类结果；

其中，所述分类结果的计算过程的表达式为：

Y＝W_fc1(W_fc2(F_c))

8.一种基于先验属性图谱的图像多分类装置，其特征在于，包括：

训练模块，用于根据所述特征融合结果训练得到分类模型；

分类模块，用于根据所述分类模型确定分类结果。

9.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。