CN112232261A

CN112232261A - 图像序列融合的方法及设备

Info

Publication number: CN112232261A
Application number: CN202011165963.9A
Authority: CN
Inventors: 赵佳男
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-01-15

Abstract

本申请提供了一种图像序列融合的方法及设备，能够对图像序列进行特征提取，确定该图像序列对应的特征张量，并进一步对该特征张量进行仿射变换，确定该图像序列对应的矢量化张量，最后将该矢量化张量输入特征融合算法，获取该图像序列对应的融合向量，该融合向量代表整个图像序列的特征，可用于后续的神经网络处理，从而实现了动态提取和组合图像序列中单张图像特征图上像素点的矢量，有助于缓解遮挡或清晰度不高等引起的图像质量不高的问题，实现了性能更好的图像序列特征融合。

Description

图像序列融合的方法及设备

技术领域

本申请涉及人工智能领域，尤其涉及一种图像序列融合的方法及设备。

背景技术

随着深度学习技术的愈发成熟，该技术在计算机视觉等领域得到了广泛的应用，使用深度学习技术对视频数据进行处理也得了越来越多的关注。视频数据往往是图像序列，且序列内部存在视觉维度的相关性，与图像数据相比具有信息互补性和时序性，往往能提供更为丰富的信息。因此，视频分类、视频理解、视频分割，视频重新识别等计算机视觉中子领域逐渐成为近年来的研究热点。

使用深度学习对视频数据进行处理的关键技术之一是图像序列的融合，目前图像序列的融合方法可包括如下几种：池化方法、注意力加权方法、RNN网络融合方法、3D卷积融合方法等。池化方法例如可以为最大池化或平均池化。在这几种方法中，池化方法和注意力加权方法的综合性能较好，但是这两种方法非常依赖图像序列中单张图像的质量，如果图像中有部分区域清晰度不高或存在遮挡，池化和注意力加权方法的图像序列融合效果不佳。

发明内容

本申请的一个目的是提供一种图像序列融合的方法及设备，用以解决现有技术下质量不高的图像序列融合效果不佳的问题。

为实现上述目的，本申请提供了一种图像序列融合的方法，其中，该方法包括：

对图像序列进行特征提取，确定所述图像序列对应的特征张量；

对所述特征张量进行仿射变换，确定所述图像序列对应的矢量化张量；

将所述矢量化张量输入特征融合算法，获取所述图像序列对应的融合向量，其中，所述特征融合算法以迭代方式从胶囊神经网络的下层矢量神经元中动态选择若干重要矢量神经元组合为所述胶囊神经网络的上层矢量神经元。

进一步地，对图像序列进行特征提取，确定所述图像序列对应的特征张量，包括：

通过卷积神经网络提取图像序列S中图像对应的特征向量，其中，所述特征向量的维度为C，所述图像序列S表示为[x₁，x₂，…，x_i，…x_T]，x_i为S中第i张图像，T为图像数量；

将多张图像对应的特征向量组合为二维矩阵，其中，所述二维矩阵的维度为(C，T)；

根据所述二维矩阵和批量输入的图像数量B，确定所述图像序列对应的特征张量，其中，所述特征张量的维度为(B，C，T)。

进一步地，对所述特征张量进行仿射变换，确定所述图像序列对应的矢量化张量，包括：

根据预设维度和复制次数对所述特征张量进行复制，并将得到的多个复制特征张量合并为第一中间张量，其中，所述第一中间张量的维度为(B，C，N_next，T)，N_next为所述胶囊神经网络中下层矢量神经元数量；

对所述第一中间张量进行维度扩展，获取扩展后的第二中间张量，其中，所述第二中间张量的维度为(B，C，N_next，T，1)；

根据所述第一中间张量获取仿射变换张量，其中，所述仿射变换张量的维度为(B，C，N_next，D_next，T)，D_next为所述胶囊神经网络中下层矢量神经元的维度；

将所述第二中间张量与所述仿射变换张量进行矩阵相乘，获取矩阵相乘结果张量，其中，所述矩阵相乘结果张量的维度为(B，C，N_next，D_next，1)；

对所述矩阵相乘结果张量进行维度压缩，将压缩后的张量确定为所述图像序列对应的矢量化张量，其中，所述矢量化张量的维度为(B，C，N_next，D_next)。

进一步地，根据预设维度和复制次数对所述特征张量进行复制，并将得到的多个复制特征张量合并为第一中间张量，包括：

将所述特征张量沿着第三个维度复制N_next次，将得到的N_next个复制特征张量拼接成为第一中间张量。

进一步地，将所述第二中间张量与所述仿射变换张量进行矩阵相乘，获取矩阵相乘结果张量，包括：

将所述第二中间张量与所述仿射变换张量按照第四个和第五个维度做矩阵乘法，获取矩阵相乘结果张量，表示为如下公式：

(B，C，N_next，D_next，T)·(B，C，N_next，T，1)＝(B，C，N_next，D_next，1)。

进一步地，所述特征融合算法包括EMRA算法。

进一步地，将所述矢量化张量输入特征融合算法，获取所述图像序列对应的融合向量，包括：

将所述矢量化张量输入EMRA算法，获取输出的第三中间张量，其中，所述第三中间张量的维度为(B，N_next，D_next)；

根据所述第三中间张量的最后一个维度，对所述第三中间张量通过取L2范数的方式进行归一化，获取所述图像序列对应的融合向量，其中，所述融合向量的维度为(B，N_next)。

进一步地，所述EMRA算法的运行步骤，包括：

初始化P_i，其中，P_i为所述胶囊神经网络中下层第i个向量(i＝1，2，…C)；

迭代r次计算胶囊神经网络中的网络参数，其中，使用的公式描述如下：

a_j←sigmoid(λ(β_a-cost_j))，

其中，P_ij为系数，

为期望为μ_j，标准差为σ_j的正态分布，R_ij为所述胶囊神经网络中上层向量对下层向量得到的类的分布，r_ij为权重系数，a_j为激活值，

为所述胶囊神经网络中第i层的激活值，Q_j为所述胶囊神经网络中上层第j个向量(j＝1，2，…N_next)，cost_j为熵，d为向量维度，β_u，β_a和λ为训练参数；

返回最终得到的Q_j和a_j。

基于本申请的另一方面，本申请还提供了一种设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，使该设备执行前述图像序列融合的方法。

本申请还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述图像序列融合的方法。

与现有技术相比，本申请提供的方案能够对图像序列进行特征提取，确定该图像序列对应的特征张量，并进一步对该特征张量进行仿射变换，确定该图像序列对应的矢量化张量，最后将该矢量化张量输入特征融合算法，获取该图像序列对应的融合向量，该融合向量代表整个图像序列的特征，可用于后续的神经网络处理，从而实现了动态提取和组合图像序列中单张图像特征图上像素点的矢量，有助于缓解遮挡或清晰度不高等引起的图像质量不高的问题，实现了性能更好的图像序列特征融合。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本申请的一些实施例提供的一种图像序列融合的方法的流程示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中，终端、网络设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

图1示出了本申请的一些实施例提供的一种图像序列融合的方法，该方法具体可包括如下步骤：

步骤S101，对图像序列进行特征提取，确定所述图像序列对应的特征张量；

步骤S102，对所述特征张量进行仿射变换，确定所述图像序列对应的矢量化张量；

步骤S103，将所述矢量化张量输入特征融合算法，获取所述图像序列对应的融合向量，其中，所述特征融合算法以迭代方式从胶囊神经网络的下层矢量神经元中动态选择若干重要矢量神经元组合为所述胶囊神经网络的上层矢量神经元。

该方案尤其适合用于希望对视频数据中的图像序列进行融合的场景，能够对图像序列进行特征提取，确定该图像序列对应的特征张量，并进一步对该特征张量进行仿射变换，确定该图像序列对应的矢量化张量，最后将该矢量化张量输入特征融合算法，获取该图像序列对应的融合向量。

在步骤S101中，首先对图像序列进行特征提取，确定该图像序列对应的特征张量。在此，图像序列是由多张图像组成的序列，图像序列可由视频数据中提取，视频数据在播放时让用户看到的是连续的画面，实际上视频数据通常是由很多张静态的图像组成，一般每秒对应24帧，即24张图像。张量(tensor)这一术语起源于力学，它最初是用来表示弹性介质中各点应力状态，后来张量理论发展成为力学和物理学的一个有力的数学工具。张量概念是矢量概念的推广，标量是零阶张量，矢量是一阶张量，矩阵是二阶张量等，张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。

本申请的一些实施例中，对图像序列进行特征提取，确定图像序列对应的特征张量，具体可包括如下步骤：

1)通过卷积神经网络提取图像序列S中图像对应的特征向量，其中，特征向量的维度为C，图像序列S表示为[x₁，x₂，…，x_i，…x_T]，x_i为S中第i张图像，T为图像数量；

2)将多张图像对应的特征向量组合为二维矩阵，该二维矩阵的维度为(C，T)；

3)根据该二维矩阵和批量输入的图像数量B，确定图像序列对应的特征张量，该特征张量的维度为(B，C，T)。

在此，首先通过卷积神经网络对x_i的特征向量进行提取，卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，因此也被称为“平移不变人工神经网络”。卷积神经网络仿造生物的视知觉机制构建，可以进行监督学习和非监督学习，其隐藏层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征如像素和音频进行学习，效果稳定且对数据没有额外的特征工程要求。

卷积神经网络目前有很多成熟的实现框架，如ResNet、SeNet、GoogleNet等，本申请对使用的卷积神经网络框架不做具体限定。例如，可采用ResNet50网络来实现图像的特征向量提取，每张输入的图像可在该网络的输出层得到一个维度为C的特征向量。再将每张图像的特征向量组合为一个维度为(C，T)的二维矩阵。另外，卷积神经网络的输入是批量输入，即一次性输入多张图像，设定批量输入的图像数量为B，则最终每次输入得到的输出特征张量的维度为(B，C，T)，该特征张量为一个三维的张量。

在步骤S102中，对该特征张量进行仿射变换，确定图像序列对应的矢量化张量。在此，首先将该维度为(B，C，T)的特征张量中每个通道C看成是胶囊神经网络中的矢量神经元(即胶囊)，每个特征矢量的初始维度为T。胶囊神经网络(Capsual Network)由深度学习的开创者之一、反向传播等神经网络经度算法的发明者Geoffrey Hinton于2017年提出，胶囊神经网络是一种基于胶囊(capsule)的神经网络，根据胶囊间动态路由算法来训练网络中的胶囊。胶囊神经网络包括多层矢量神经元，根据具体任务不同一般可分为两到三层，上一层神经元可对下一层神经元的特征进行整合和优化，逐步获取并提炼原始输入中重要的信息。与传统的神经网络如卷积神经网络不同的是，胶囊神经网络的输入是一个向量，输出同样是一个特征向量，该特征向量具有方向性。然后，对该特征张量进行一个仿射变换，变换之后，图像序列的特征维度发生了变化：(B，C，T)→(B，C，N_next，D_next)。

本申请的一些实施例中，对特征张量进行仿射变换，确定图像序列对应的矢量化张量，具体可包括如下步骤：

1)根据预设维度和复制次数对该特征张量进行复制，并将得到的多个复制特征张量合并为第一中间张量，在此第一中间张量的维度为(B，C，N_next，T)，N_next为胶囊神经网络中下层矢量神经元数量；

2)对该第一中间张量进行维度扩展，获取扩展后的第二中间张量，在此第二中间张量的维度为(B，C，N_next，T，1)；

3)根据该第一中间张量获取仿射变换张量，在此仿射变换张量的维度为(B，C，N_next，D_next，T)，D_next为胶囊神经网络中下层矢量神经元的维度；

4)将该第二中间张量与该仿射变换张量进行矩阵相乘，获取矩阵相乘结果张量，在此矩阵相乘结果张量的维度为(B，C，N_next，D_next，1)；

5)对该矩阵相乘结果张量进行维度压缩，将压缩后的张量确定为图像序列对应的矢量化张量，在此矢量化张量的维度为(B，C，N_next，D_next)。

本申请的一些实施例中，根据预设维度和复制次数对该特征张量进行复制，并将得到的多个复制特征张量合并为第一中间张量，具体可将特征张量沿着第三个维度T复制N_next次，将得到的N_next个复制特征张量拼接成为第一中间张量。

本申请的一些实施例中，将第二中间张量与仿射变换张量进行矩阵相乘，获取矩阵相乘结果张量，具体可将该第二中间张量与该仿射变换张量按照第四个和第五个维度做矩阵乘法，获取矩阵相乘结果张量，表示为如下公式：

本申请的一些实施例中，对该矩阵相乘结果张量进行维度压缩，将压缩后的张量确定为图像序列对应的矢量化张量，可表示如下：

(B，C，N_next，D_next，1)→(B，C，N_next，D_next)。

通过上述方法，可将图像序列中的单张图像每个通道上的二维特征图扩展为三维特征图，即把二维特征图上每个像素点的标量值扩展为矢量，矢量每个维度上的特征值为图像序列对应位置的特征值标量。

在步骤S103中，将矢量化张量输入特征融合算法，获取图像序列对应的融合向量。在此，该特征融合算法以迭代方式从胶囊神经网络的下层矢量神经元中动态选择若干重要矢量神经元组合为胶囊神经网络的上层矢量神经元。

本申请的一些实施例中，该特征融合算法可以为EMRA算法。EMRA(ExpectationMaximization Routing Algorithm，EMRA)算法采用一种迭代的思想来动态地从胶囊神经网络的下层矢量神经元中挑选出对下游任务较为重要的神经元，组合为上层的神经元，从而实现了特征的精炼和优化。EMRA算法本质上采用了聚类方法，对每个类别的特征以加权平均的方式从胶囊神经网络下层神经元中挑选出对后续任务较重要的神经元，在网络中，对于上层神经元比较重要的下层神经元会被分配一个较大的权重，不重要的神经元被分配一个较小的权重，从而过滤掉对上层神经元贡献较小的下层神经元，实现联合优化的目的，权重通过胶囊神经网络学习得到。

EMRA算法具有特征筛选的特性，上层特征可以动态地选取所需要的下层特征。EMRA算法的主要步骤包括：初始化下层特征，进行迭代，返回上层特征。例如，下层神经元同时提取到了“猫”和“狗”的特征，而对于任务来说，只需要“狗”的特征，那么上层神经元会赋予下层神经元中“狗”的特征一个较大的权重，“猫”的特征一个较小的权重，从而过滤掉不重要的信息(即“猫”的特征)。

本申请的一些实施例中，将矢量化张量输入特征融合算法，获取图像序列对应的融合向量，具体可包括如下步骤：

1)将矢量化张量输入EMRA算法，获取输出的第三中间张量，在此该第三中间张量的维度为(B，N_next，D_next)；

2)根据该第三中间张量的最后一个维度，对第三中间张量通过取L2范数的方式进行归一化，获取图像序列对应的融合向量，在此融合向量的维度为(B，N_next)。

在此，将经过仿射变换后得到的四维张量(B，C，N_next，D_next)作为EMRA算法的输入，输出的第三中级张量的维度为(B，N_next，D_next)，可表示如下：

(B，C，N_next，D_next)→(B，N_next，D_next)。

本申请的一些实施例中，EMRA算法的运行步骤，具体可包括如下：

1)初始化P_i，其中，P_i为所述胶囊神经网络中下层第i个向量(i＝1，2，…C)；

2)迭代r次计算胶囊神经网络中的网络参数，其中，使用的公式描述如下：

a_j←sigmoid(λ(β_a-cost_j))，

其中，p_ij为系数，

为期望为μ_j，标准差为σ_j的正态分布，R_ij为胶囊神经网络中上层向量对下层向量得到的类的分布，r_ij为权重系数，a_j为激活值，

为胶囊神经网络中第i层的激活值，Q_j为胶囊神经网络中上层第j个向量(j＝1，2，…N_next)，cost_j为熵，d为向量维度，β_u，β_a和λ为训练参数；

3)返回最终得到的Q_j和a_j。

最后，针对第三中间张量(B，N_next，D_next)的最后一个维度，进行一个归一化操作，即取L2范数，L2范数是指先计算向量各元素的平方和再求平方根，可以防止过拟合，提升模型的泛化能力。归一化操作可表示如下：

(B，N_next，D_next)→(B，N_next)。

得到最后的融合向量之后，就可以使用该融合向量作为图像序列的融合特征向量进行后续的处理。

本申请的一些实施例还提供了一种设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，使该设备执行前述图像序列融合的方法。

本申请的一些实施例还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述图像序列融合的方法。

综上所述，本申请提供的方案能够对图像序列进行特征提取，确定该图像序列对应的特征张量，并进一步对该特征张量进行仿射变换，确定该图像序列对应的矢量化张量，最后将该矢量化张量输入特征融合算法，获取该图像序列对应的融合向量，该融合向量代表整个图像序列的特征，可用于后续的神经网络处理，从而实现了动态提取和组合图像序列中单张图像特征图上像素点的矢量，有助于缓解遮挡或清晰度不高等引起的图像质量不高的问题，实现了性能更好的图像序列特征融合。

需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。