CN111325221A

CN111325221A - 基于图像深度信息的图像特征提取方法

Info

Publication number: CN111325221A
Application number: CN202010117286.7A
Authority: CN
Inventors: 魏志强; 贾东宁; 刘安安; 聂为之; 苏育挺
Original assignee: Qingdao National Laboratory for Marine Science and Technology Development Center
Current assignee: Qingdao National Laboratory for Marine Science and Technology Development Center
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-06-23
Anticipated expiration: 2040-02-25
Also published as: CN111325221B

Abstract

本发明公开了一种基于图像深度信息的图像特征提取方法，包括以下步骤：多流深度网络模型训练步骤，所述多流深度网络模型由样本图像的

个模态训练形成，

为不小于2的整数，所述模态至少包括图像的平面模态和三维结构模态；提取待处理图像的所述

个模态的信息；将待处理图像的

个模态的信息输入至所述多流深度网络进行融合处理，输出得到待处理图像的深度图像融合特征。本发明利用多流深度网络，整合图片的多种信息，至少包括平面模态信息和三维结构模态信息两种不同类型的信息，使得对立体模型的描述更加全面，进而对深度图像的描述更加全面，在图片特征提取方面更加丰富和准确，可重复性好，所提取的特征对图像的表征能力好。

Description

基于图像深度信息的图像特征提取方法

技术领域

本发明属于图像处理技术领域，具体地说，涉及一种基于图像深度信息的图像特征提取方法。

背景技术

由于图像采集设备、计算机技术和网络的快速发展，图像的检索分类已广泛应用于各种各样的应用中，例如：计算机图形学、医疗行业以及虚拟现实领域。图像的大规模数据库正在迅速增加，这导致人们对高效的图像检索分类算法的要求逐渐增加，至今为止特征没有万能和精确的定义。特征的精确定义往往由问题或者应用类型决定。特征是一个数字图像中精髓的部分，它最能表征数字图像特点，它是许多计算机图像分析算法的起点。因此一个算法是否成功往往由它使用和定义的特征决定。因此特征提取最重要的一个特性是“可重复性”：同一场景的不同图像所提取的特征应该是相同的。

特征提取属于图象处理中的初级运算，也就是说它是对图像进行的第一个运算处理。它检查每个像素来确定该像素是否代表一个特征。假如它是一个更大的算法的一部分，那么这个算法一般只检查图像的特征区域。作为特征提取的一个初级运算，输入图像一般通过高斯模糊核在尺度空间中被平滑。此后通过局部导数运算来计算图像的一个或多个特征。假如特征提取需要许多的计算时间，而可以使用的时间有限制，一个高层次算法可以用来控制特征提取阶层，这样仅图像的部分被用来寻找特征。由于许多计算机图像算法使用特征提取作为其初级计算步骤，因此有大量特征提取算法被发展，其提取的特征各种各样，它们的计算复杂性高，可重复性差。

此外，现有的特征的提取方法，往往针对图像的颜色特征、纹理特征、形状特征、空间关系特征，所包含的信息类型单一，对图像的表征性能差。

发明内容

本发明针对现有图像处理的特征提取运算中所提取的特征可重复性差，包含的信息类型单一的技术问题，提出了一种基于图像深度信息的图像特征提取方法，可以解决上述问题。

为实现上述发明目的，本发明采用下述技术方案予以实现：

一种基于图像深度信息的图像特征提取方法，包括以下步骤：

多流深度网络模型训练步骤，所述多流深度网络模型由样本图像的K个模态训练形成，K为不小于2的整数，所述模态至少包括图像的平面模态和三维结构模态；

提取待处理图像的所述K个模态的信息；

将待处理图像的K个模态的信息输入至所述多流深度网络进行融合处理，输出得到待处理图像的深度图像融合特征。

进一步的，多流深度网络模型训练步骤包括：

(11)、分别提取样本图像K个模态的信息X_i，i＝1,2,…,K；

(12)、建立多流深度网络模型框架：

其中，f_i(X_i)为X_i的独特特征，g(X)为X_i的可共享特征，α_i为独特特征f_i(X_i)的权重系数，β为可共享特征g(X)的权重系数，h(X)为样本图像的融合特征；

(13)、将h(X)与样本图像的先验特征比较，调整权重系数α_i和β，使得h(X)与样本图像的先验特征误差小于设定值，α_i和β需满足：

进一步的，可共享特征g(X)的获取方法为：

σ₁为非线性函数，

是第i个模态信息X_i的加权矩阵，

是第i个模态信息X_i的偏差项。

进一步的，σ₁为tanh函数。

进一步的，独特特征f_i(X_i)的获取方法为：

σ₂为非线性函数，

是第i个模态信息X_i的加权矩阵，

是第i个模态信息X_i的偏差项。

进一步的，步骤(13)中，还包括设定目标函数，并采用标准反向传播方法来学习多流深度网络模型的其他参数θ，其中，目标函数为：

λ₁和λ₂是两个超参数，为设定值，J_cls为识别的分类损失，通过分类交叉熵损失计算得到，J_s表示用不同形式的可共享特征，通过Cauchy估计量测量可共享特征分量g_i(X_i)之间的相关性并将其最小化获得，J_d为每种模态的独特特征，对

和

强制执行正交性约束获得。

进一步的，

当预测y＝l为真时等于1，否则为0，学习多流深度网络模型的其他参数θ过程中，输入到网络模型中数据包含多个不同类别的图像，y和l表示预测的类别和图像真实类别，L是图像类别的数量，s_l表示输入图像为第l个类别的概率。

进一步的，J_s＝∑_{1≤i≤j≤K}Φ_s(g_i(X_i),g_j(X_j))；

进一步的，

Φ_d(f_i(X_i),f_j(X_j))＝|f_i(X_i)⊙f_j(X_j)|；

Φ_d(f_i(X_i),g_j(X_j))＝|f_i(X_i)⊙g_j(X_j)|；

其中，⊙是元素Hadamard乘积。

进一步的，采用2D CNN神经网络提取待处理图像或者样本图像的平面模态的信息，采用3DPointNet神经网络提取待处理图像或者样本图像的三维结构模态的信息。

与现有技术相比，本发明的优点和积极效果是：本发明利用多流深度网络，利用图片的多种信息，至少包括平面模态信息和三维结构模态信息两种不同类型的信息，使得对立体模型的描述更加全面，进而对深度图像的描述更加全面，在图片特征提取方面更加丰富和准确，可重复性好，所提取的特征对图像的表征能力好。

结合附图阅读本发明的具体实施方式后，本发明的其他特点和优点将变得更加清楚。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提出的基于图像深度信息的图像特征提取方法的一种实施例流程图；

图2是本发明提出的基于图像深度信息的图像特征提取方法的一种实施例原理框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下将结合附图和实施例，对本发明作进一步详细说明。

实施例一，本实施例提出了一种基于图像深度信息的图像特征提取方法，如图1、图2所示，包括以下步骤：

提取待处理图像的所述K个模态的信息；

本实施例的图像特征提取方法，首先利用样本图像的多个模态训练多流深度网络模型，该多个模态至少包括平面模态信息和三维结构模态信息两种不同类型的信息，使得对立体模型的描述更加全面，进而对深度图像的描述更加全面，在图片特征提取方面更加丰富和准确，可重复性好，分别从平面和立体结构等多种信息表征深度图像，所提取的特征对图像的表征能力好。

作为一个优选的实施例，多流深度网络模型训练步骤包括：

S11、分别提取样本图像K个模态的信息X_i，i＝1,2,…,K；

S12、建立多流深度网络模型框架，生成初始的权重系数：

其中，f_i(X_i)为X_i的独特特征，g(X)为X_i的可共享特征，α_i为独特特征f_i(X_i)的权重系数，β为可共享特征g(X)的权重系数，h(X)为样本图像的深度图像融合特征；

根据提取的不同的特征，将这些特征转移到一些新的空间中，这些空间可以弥合模态的差距，以便对它们进行比较，由于不同形式的特征反映了来自不同方面的特定行为的特性，它们既不是完全独立的也不是完全相关的。因此寻求的空间应该包含不同形式的可共享的信息和独特特征。通过将融合函数定义为：X→h(X)，它将输入样本图像K个模态的信息X_i进行融合计算，输出深度图像融合特征h(X)。为了充分探索不同形态的可共享特征和独特特征，引入了两种类型的中间特征

S13、将h(X)与样本图像的先验特征比较，调整权重系数α_i和β，使得h(X)与样本图像的先验特征误差小于设定值，α_i和β需满足：

每个特征对于结果的贡献不同，通过调节权重值，比对出最优权重值。

一方面，g(X)包含不同形态的可共享信息:

其中

是可共享组件。为了更好地模拟X_i和g(X_i)的特征之间的非线性关系，执行线性映射，然后执行非线性激活函数:

σ₁为非线性函数，优选采用tanh函数实现，

是第i个模态信息X_i的加权矩阵，

是第i个模态信息X_i的偏差项。传统的元素和，级联等特征融合的方法缺少了物理意义，故通过

这样的形式引入新的融合方法提供基础。

另一方面，f_i(X_i)保留了在每种模态中专门存在的辨别特征，也即独特特征。

与g_i(X_i)类似，通过另一个非线性变换得到，独特特征f_i(X_i)的获取方法为：

σ₂为非线性函数，

是第i个模态信息X_i的加权矩阵，

是第i个模态信息X_i的偏差项。

通过σ₁₂和σ₂非线性的结构，能够增加网络的拟合能力。

本实施例的多流深度网络模型的基本思想保留每种模态的独特特征，同时探索其可共享的信息。

中间特征g(X)和

对于动作识别可能不是同等重要的。因此，我们通过分配不同的权重来集成它们以获得目标特征h(X)，如下所示:

获得融合特征h(X)后，将其接入全连接的层，然后使用softmax函数来预测动作标签。将进行实验以分析后续实验中的超参数

和β。

步骤S13中，还包括设定目标函数，并采用标准反向传播方法来学习多流深度网络模型的其他参数θ，其中，目标函数为：

λ₁和λ₂是两个超参数，为设定值，以平衡不同项的影响以做出良好的权衡。J_cls为识别的分类损失，通过分类交叉熵损失计算得到，J_s表示用不同形式的可共享特征，通过Cauchy估计量测量可共享特征分量g_i(X_i)之间的相关性并将其最小化获得，J_d为每种模态的独特特征，对

和

强制执行正交性约束获得。

其中1是指标函数，当预测y＝l为真时等于1，否则为0，学习多流深度网络模型的其他参数θ过程中，输入到网络模型中数据包含多个不同类别的图像，y和l表示预测的类别和图像真实类别，L是图像类别的数量，s_l表示输入图像是第l类别的概率。

J_s旨在利用不同形式的可共享信息。这里，a是超参数，并且J_s如下导出：

J_s＝∑_{1≤i≤j≤K}Φ_s(g_i(X_i),g_j(X_j))；

通常，计算L₁或L₂距离以估计可共享分量

之间的相关性更为直接。而L₁和L₂距离对异常值都不稳健。为了进一步说明这一点，考虑估计量ρ(x)的影响函数ψ(x)，其在数学上定义为

对于绝对值估计量(即，L₁距离)ρ(x)＝|x|，其影响函数没有截止，而最小二乘估计量(即L₂距离)ρ(x)＝x²/2影响函数ψ₂(x)＝x，它随x线性增加。相比之下，Cauchy估计的影响函数是

其中x>0的上限为1/a且更平滑，因此对异常值更具鲁棒性。在实践中，我们将超参数a设置为1.我们还进行实验以证明Cauchy估计器与后一部分中的L₁和L₂距离相比的优势。

J_d试图保持每种模态的独特特征。为实现这一目标，我们对

和

强制执行正交性约束，如下所示：

Φ_d(f_i(X_i),f_j(X_j))＝|f_i(X_i)⊙f_j(X_j)|；

Φ_d(f_i(X_i),g_j(X_j))＝|f_i(X_i)⊙g_j(X_j)|；

其中，⊙是元素Hadamard乘积。

通过正交性约束，区别组件

被强制为彼此独立。此外，f_i(X_i)被规则化为与其相应的可共享组件(X_i)无关。因此，通过最小化J_d，可以保证不同模态的特定。采用标准反向传播方法来学习多流深度网络的参数θ。

2D CNN神经网络可以很好的提取深度图像的高维抽象的图像平面信息，本方案中优选采用2D CNN神经网络提取待处理图像或者样本图像的平面模态的信息，采用3DPointNet神经网络提取待处理图像或者样本图像的三维结构模态的信息。3DPointNet网络结构直接使用原始点云数据作为输入，并用了一些方法使得网络能对输入点云的扰动具有鲁棒性。整个网络结构很简单却能有效的处理数据，并在数据集上有着不错的表现，很好的挖掘深度图像的结构信息。

当然，针对图像的2DCNN和3DPointNet可以使用不同的网络作为基础的网络结构，如还可以采用AlexNet,ResNet等网络模型。

以上实施例仅用以说明本发明的技术方案，而非对其进行限制；尽管参照前述实施例对本发明进行了详细的说明，对于本领域的普通技术人员来说，依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。