CN112232261A - 图像序列融合的方法及设备 - Google Patents
图像序列融合的方法及设备 Download PDFInfo
- Publication number
- CN112232261A CN112232261A CN202011165963.9A CN202011165963A CN112232261A CN 112232261 A CN112232261 A CN 112232261A CN 202011165963 A CN202011165963 A CN 202011165963A CN 112232261 A CN112232261 A CN 112232261A
- Authority
- CN
- China
- Prior art keywords
- tensor
- feature
- image sequence
- vector
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 87
- 230000004927 fusion Effects 0.000 claims abstract description 55
- 238000013528 artificial neural network Methods 0.000 claims abstract description 44
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 28
- 230000009466 transformation Effects 0.000 claims abstract description 28
- 239000002775 capsule Substances 0.000 claims description 42
- 210000002569 neuron Anatomy 0.000 claims description 39
- 239000011159 matrix material Substances 0.000 claims description 34
- 230000015654 memory Effects 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 5
- 239000010410 layer Substances 0.000 description 33
- 238000005516 engineering process Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000005291 magnetic effect Effects 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 230000004438 eyesight Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种图像序列融合的方法及设备,能够对图像序列进行特征提取,确定该图像序列对应的特征张量,并进一步对该特征张量进行仿射变换,确定该图像序列对应的矢量化张量,最后将该矢量化张量输入特征融合算法,获取该图像序列对应的融合向量,该融合向量代表整个图像序列的特征,可用于后续的神经网络处理,从而实现了动态提取和组合图像序列中单张图像特征图上像素点的矢量,有助于缓解遮挡或清晰度不高等引起的图像质量不高的问题,实现了性能更好的图像序列特征融合。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种图像序列融合的方法及设备。
背景技术
随着深度学习技术的愈发成熟,该技术在计算机视觉等领域得到了广泛的应用,使用深度学习技术对视频数据进行处理也得了越来越多的关注。视频数据往往是图像序列,且序列内部存在视觉维度的相关性,与图像数据相比具有信息互补性和时序性,往往能提供更为丰富的信息。因此,视频分类、视频理解、视频分割,视频重新识别等计算机视觉中子领域逐渐成为近年来的研究热点。
使用深度学习对视频数据进行处理的关键技术之一是图像序列的融合,目前图像序列的融合方法可包括如下几种:池化方法、注意力加权方法、RNN网络融合方法、3D卷积融合方法等。池化方法例如可以为最大池化或平均池化。在这几种方法中,池化方法和注意力加权方法的综合性能较好,但是这两种方法非常依赖图像序列中单张图像的质量,如果图像中有部分区域清晰度不高或存在遮挡,池化和注意力加权方法的图像序列融合效果不佳。
发明内容
本申请的一个目的是提供一种图像序列融合的方法及设备,用以解决现有技术下质量不高的图像序列融合效果不佳的问题。
为实现上述目的,本申请提供了一种图像序列融合的方法,其中,该方法包括:
对图像序列进行特征提取,确定所述图像序列对应的特征张量;
对所述特征张量进行仿射变换,确定所述图像序列对应的矢量化张量;
将所述矢量化张量输入特征融合算法,获取所述图像序列对应的融合向量,其中,所述特征融合算法以迭代方式从胶囊神经网络的下层矢量神经元中动态选择若干重要矢量神经元组合为所述胶囊神经网络的上层矢量神经元。
进一步地,对图像序列进行特征提取,确定所述图像序列对应的特征张量,包括:
通过卷积神经网络提取图像序列S中图像对应的特征向量,其中,所述特征向量的维度为C,所述图像序列S表示为[x1,x2,…,xi,…xT],xi为S中第i张图像,T为图像数量;
将多张图像对应的特征向量组合为二维矩阵,其中,所述二维矩阵的维度为(C,T);
根据所述二维矩阵和批量输入的图像数量B,确定所述图像序列对应的特征张量,其中,所述特征张量的维度为(B,C,T)。
进一步地,对所述特征张量进行仿射变换,确定所述图像序列对应的矢量化张量,包括:
根据预设维度和复制次数对所述特征张量进行复制,并将得到的多个复制特征张量合并为第一中间张量,其中,所述第一中间张量的维度为(B,C,Nnext,T),Nnext为所述胶囊神经网络中下层矢量神经元数量;
对所述第一中间张量进行维度扩展,获取扩展后的第二中间张量,其中,所述第二中间张量的维度为(B,C,Nnext,T,1);
根据所述第一中间张量获取仿射变换张量,其中,所述仿射变换张量的维度为(B,C,Nnext,Dnext,T),Dnext为所述胶囊神经网络中下层矢量神经元的维度;
将所述第二中间张量与所述仿射变换张量进行矩阵相乘,获取矩阵相乘结果张量,其中,所述矩阵相乘结果张量的维度为(B,C,Nnext,Dnext,1);
对所述矩阵相乘结果张量进行维度压缩,将压缩后的张量确定为所述图像序列对应的矢量化张量,其中,所述矢量化张量的维度为(B,C,Nnext,Dnext)。
进一步地,根据预设维度和复制次数对所述特征张量进行复制,并将得到的多个复制特征张量合并为第一中间张量,包括:
将所述特征张量沿着第三个维度复制Nnext次,将得到的Nnext个复制特征张量拼接成为第一中间张量。
进一步地,将所述第二中间张量与所述仿射变换张量进行矩阵相乘,获取矩阵相乘结果张量,包括:
将所述第二中间张量与所述仿射变换张量按照第四个和第五个维度做矩阵乘法,获取矩阵相乘结果张量,表示为如下公式:
(B,C,Nnext,Dnext,T)·(B,C,Nnext,T,1)=(B,C,Nnext,Dnext,1)。
进一步地,所述特征融合算法包括EMRA算法。
进一步地,将所述矢量化张量输入特征融合算法,获取所述图像序列对应的融合向量,包括:
将所述矢量化张量输入EMRA算法,获取输出的第三中间张量,其中,所述第三中间张量的维度为(B,Nnext,Dnext);
根据所述第三中间张量的最后一个维度,对所述第三中间张量通过取L2范数的方式进行归一化,获取所述图像序列对应的融合向量,其中,所述融合向量的维度为(B,Nnext)。
进一步地,所述EMRA算法的运行步骤,包括:
初始化Pi,其中,Pi为所述胶囊神经网络中下层第i个向量(i=1,2,…C);
迭代r次计算胶囊神经网络中的网络参数,其中,使用的公式描述如下:
aj←sigmoid(λ(βa-costj)),
其中,Pij为系数,为期望为μj,标准差为σj的正态分布,Rij为所述胶囊神经网络中上层向量对下层向量得到的类的分布,rij为权重系数,aj为激活值,为所述胶囊神经网络中第i层的激活值,Qj为所述胶囊神经网络中上层第j个向量(j=1,2,…Nnext),costj为熵,d为向量维度,βu,βa和λ为训练参数;
返回最终得到的Qj和aj。
基于本申请的另一方面,本申请还提供了一种设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,使该设备执行前述图像序列融合的方法。
本申请还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述图像序列融合的方法。
与现有技术相比,本申请提供的方案能够对图像序列进行特征提取,确定该图像序列对应的特征张量,并进一步对该特征张量进行仿射变换,确定该图像序列对应的矢量化张量,最后将该矢量化张量输入特征融合算法,获取该图像序列对应的融合向量,该融合向量代表整个图像序列的特征,可用于后续的神经网络处理,从而实现了动态提取和组合图像序列中单张图像特征图上像素点的矢量,有助于缓解遮挡或清晰度不高等引起的图像质量不高的问题,实现了性能更好的图像序列特征融合。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请的一些实施例提供的一种图像序列融合的方法的流程示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、网络设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
图1示出了本申请的一些实施例提供的一种图像序列融合的方法,该方法具体可包括如下步骤:
步骤S101,对图像序列进行特征提取,确定所述图像序列对应的特征张量;
步骤S102,对所述特征张量进行仿射变换,确定所述图像序列对应的矢量化张量;
步骤S103,将所述矢量化张量输入特征融合算法,获取所述图像序列对应的融合向量,其中,所述特征融合算法以迭代方式从胶囊神经网络的下层矢量神经元中动态选择若干重要矢量神经元组合为所述胶囊神经网络的上层矢量神经元。
该方案尤其适合用于希望对视频数据中的图像序列进行融合的场景,能够对图像序列进行特征提取,确定该图像序列对应的特征张量,并进一步对该特征张量进行仿射变换,确定该图像序列对应的矢量化张量,最后将该矢量化张量输入特征融合算法,获取该图像序列对应的融合向量。
在步骤S101中,首先对图像序列进行特征提取,确定该图像序列对应的特征张量。在此,图像序列是由多张图像组成的序列,图像序列可由视频数据中提取,视频数据在播放时让用户看到的是连续的画面,实际上视频数据通常是由很多张静态的图像组成,一般每秒对应24帧,即24张图像。张量(tensor)这一术语起源于力学,它最初是用来表示弹性介质中各点应力状态,后来张量理论发展成为力学和物理学的一个有力的数学工具。张量概念是矢量概念的推广,标量是零阶张量,矢量是一阶张量,矩阵是二阶张量等,张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。
本申请的一些实施例中,对图像序列进行特征提取,确定图像序列对应的特征张量,具体可包括如下步骤:
1)通过卷积神经网络提取图像序列S中图像对应的特征向量,其中,特征向量的维度为C,图像序列S表示为[x1,x2,…,xi,…xT],xi为S中第i张图像,T为图像数量;
2)将多张图像对应的特征向量组合为二维矩阵,该二维矩阵的维度为(C,T);
3)根据该二维矩阵和批量输入的图像数量B,确定图像序列对应的特征张量,该特征张量的维度为(B,C,T)。
在此,首先通过卷积神经网络对xi的特征向量进行提取,卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络”。卷积神经网络仿造生物的视知觉机制构建,可以进行监督学习和非监督学习,其隐藏层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征如像素和音频进行学习,效果稳定且对数据没有额外的特征工程要求。
卷积神经网络目前有很多成熟的实现框架,如ResNet、SeNet、GoogleNet等,本申请对使用的卷积神经网络框架不做具体限定。例如,可采用ResNet50网络来实现图像的特征向量提取,每张输入的图像可在该网络的输出层得到一个维度为C的特征向量。再将每张图像的特征向量组合为一个维度为(C,T)的二维矩阵。另外,卷积神经网络的输入是批量输入,即一次性输入多张图像,设定批量输入的图像数量为B,则最终每次输入得到的输出特征张量的维度为(B,C,T),该特征张量为一个三维的张量。
在步骤S102中,对该特征张量进行仿射变换,确定图像序列对应的矢量化张量。在此,首先将该维度为(B,C,T)的特征张量中每个通道C看成是胶囊神经网络中的矢量神经元(即胶囊),每个特征矢量的初始维度为T。胶囊神经网络(Capsual Network)由深度学习的开创者之一、反向传播等神经网络经度算法的发明者Geoffrey Hinton于2017年提出,胶囊神经网络是一种基于胶囊(capsule)的神经网络,根据胶囊间动态路由算法来训练网络中的胶囊。胶囊神经网络包括多层矢量神经元,根据具体任务不同一般可分为两到三层,上一层神经元可对下一层神经元的特征进行整合和优化,逐步获取并提炼原始输入中重要的信息。与传统的神经网络如卷积神经网络不同的是,胶囊神经网络的输入是一个向量,输出同样是一个特征向量,该特征向量具有方向性。然后,对该特征张量进行一个仿射变换,变换之后,图像序列的特征维度发生了变化:(B,C,T)→(B,C,Nnext,Dnext)。
本申请的一些实施例中,对特征张量进行仿射变换,确定图像序列对应的矢量化张量,具体可包括如下步骤:
1)根据预设维度和复制次数对该特征张量进行复制,并将得到的多个复制特征张量合并为第一中间张量,在此第一中间张量的维度为(B,C,Nnext,T),Nnext为胶囊神经网络中下层矢量神经元数量;
2)对该第一中间张量进行维度扩展,获取扩展后的第二中间张量,在此第二中间张量的维度为(B,C,Nnext,T,1);
3)根据该第一中间张量获取仿射变换张量,在此仿射变换张量的维度为(B,C,Nnext,Dnext,T),Dnext为胶囊神经网络中下层矢量神经元的维度;
4)将该第二中间张量与该仿射变换张量进行矩阵相乘,获取矩阵相乘结果张量,在此矩阵相乘结果张量的维度为(B,C,Nnext,Dnext,1);
5)对该矩阵相乘结果张量进行维度压缩,将压缩后的张量确定为图像序列对应的矢量化张量,在此矢量化张量的维度为(B,C,Nnext,Dnext)。
本申请的一些实施例中,根据预设维度和复制次数对该特征张量进行复制,并将得到的多个复制特征张量合并为第一中间张量,具体可将特征张量沿着第三个维度T复制Nnext次,将得到的Nnext个复制特征张量拼接成为第一中间张量。
本申请的一些实施例中,将第二中间张量与仿射变换张量进行矩阵相乘,获取矩阵相乘结果张量,具体可将该第二中间张量与该仿射变换张量按照第四个和第五个维度做矩阵乘法,获取矩阵相乘结果张量,表示为如下公式:
(B,C,Nnext,Dnext,T)·(B,C,Nnext,T,1)=(B,C,Nnext,Dnext,1)。
本申请的一些实施例中,对该矩阵相乘结果张量进行维度压缩,将压缩后的张量确定为图像序列对应的矢量化张量,可表示如下:
(B,C,Nnext,Dnext,1)→(B,C,Nnext,Dnext)。
通过上述方法,可将图像序列中的单张图像每个通道上的二维特征图扩展为三维特征图,即把二维特征图上每个像素点的标量值扩展为矢量,矢量每个维度上的特征值为图像序列对应位置的特征值标量。
在步骤S103中,将矢量化张量输入特征融合算法,获取图像序列对应的融合向量。在此,该特征融合算法以迭代方式从胶囊神经网络的下层矢量神经元中动态选择若干重要矢量神经元组合为胶囊神经网络的上层矢量神经元。
本申请的一些实施例中,该特征融合算法可以为EMRA算法。EMRA(ExpectationMaximization Routing Algorithm,EMRA)算法采用一种迭代的思想来动态地从胶囊神经网络的下层矢量神经元中挑选出对下游任务较为重要的神经元,组合为上层的神经元,从而实现了特征的精炼和优化。EMRA算法本质上采用了聚类方法,对每个类别的特征以加权平均的方式从胶囊神经网络下层神经元中挑选出对后续任务较重要的神经元,在网络中,对于上层神经元比较重要的下层神经元会被分配一个较大的权重,不重要的神经元被分配一个较小的权重,从而过滤掉对上层神经元贡献较小的下层神经元,实现联合优化的目的,权重通过胶囊神经网络学习得到。
EMRA算法具有特征筛选的特性,上层特征可以动态地选取所需要的下层特征。EMRA算法的主要步骤包括:初始化下层特征,进行迭代,返回上层特征。例如,下层神经元同时提取到了“猫”和“狗”的特征,而对于任务来说,只需要“狗”的特征,那么上层神经元会赋予下层神经元中“狗”的特征一个较大的权重,“猫”的特征一个较小的权重,从而过滤掉不重要的信息(即“猫”的特征)。
本申请的一些实施例中,将矢量化张量输入特征融合算法,获取图像序列对应的融合向量,具体可包括如下步骤:
1)将矢量化张量输入EMRA算法,获取输出的第三中间张量,在此该第三中间张量的维度为(B,Nnext,Dnext);
2)根据该第三中间张量的最后一个维度,对第三中间张量通过取L2范数的方式进行归一化,获取图像序列对应的融合向量,在此融合向量的维度为(B,Nnext)。
在此,将经过仿射变换后得到的四维张量(B,C,Nnext,Dnext)作为EMRA算法的输入,输出的第三中级张量的维度为(B,Nnext,Dnext),可表示如下:
(B,C,Nnext,Dnext)→(B,Nnext,Dnext)。
本申请的一些实施例中,EMRA算法的运行步骤,具体可包括如下:
1)初始化Pi,其中,Pi为所述胶囊神经网络中下层第i个向量(i=1,2,…C);
2)迭代r次计算胶囊神经网络中的网络参数,其中,使用的公式描述如下:
aj←sigmoid(λ(βa-costj)),
其中,pij为系数,为期望为μj,标准差为σj的正态分布,Rij为胶囊神经网络中上层向量对下层向量得到的类的分布,rij为权重系数,aj为激活值,为胶囊神经网络中第i层的激活值,Qj为胶囊神经网络中上层第j个向量(j=1,2,…Nnext),costj为熵,d为向量维度,βu,βa和λ为训练参数;
3)返回最终得到的Qj和aj。
最后,针对第三中间张量(B,Nnext,Dnext)的最后一个维度,进行一个归一化操作,即取L2范数,L2范数是指先计算向量各元素的平方和再求平方根,可以防止过拟合,提升模型的泛化能力。归一化操作可表示如下:
(B,Nnext,Dnext)→(B,Nnext)。
得到最后的融合向量之后,就可以使用该融合向量作为图像序列的融合特征向量进行后续的处理。
本申请的一些实施例还提供了一种设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,使该设备执行前述图像序列融合的方法。
本申请的一些实施例还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述图像序列融合的方法。
综上所述,本申请提供的方案能够对图像序列进行特征提取,确定该图像序列对应的特征张量,并进一步对该特征张量进行仿射变换,确定该图像序列对应的矢量化张量,最后将该矢量化张量输入特征融合算法,获取该图像序列对应的融合向量,该融合向量代表整个图像序列的特征,可用于后续的神经网络处理,从而实现了动态提取和组合图像序列中单张图像特征图上像素点的矢量,有助于缓解遮挡或清晰度不高等引起的图像质量不高的问题,实现了性能更好的图像序列特征融合。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (10)
1.一种图像序列融合的方法,其中,该方法包括:
对图像序列进行特征提取,确定所述图像序列对应的特征张量;
对所述特征张量进行仿射变换,确定所述图像序列对应的矢量化张量;
将所述矢量化张量输入特征融合算法,获取所述图像序列对应的融合向量,其中,所述特征融合算法以迭代方式从胶囊神经网络的下层矢量神经元中动态选择若干重要矢量神经元组合为所述胶囊神经网络的上层矢量神经元。
2.根据权利要求1所述的方法,其中,对图像序列进行特征提取,确定所述图像序列对应的特征张量,包括:
通过卷积神经网络提取图像序列S中图像对应的特征向量,其中,所述特征向量的维度为C,所述图像序列S表示为[x1,x2,…,xi,…xT],xi为S中第i张图像,T为图像数量;
将多张图像对应的特征向量组合为二维矩阵,其中,所述二维矩阵的维度为(C,T);
根据所述二维矩阵和批量输入的图像数量B,确定所述图像序列对应的特征张量,其中,所述特征张量的维度为(B,C,T)。
3.根据权利要求1所述的方法,其中,对所述特征张量进行仿射变换,确定所述图像序列对应的矢量化张量,包括:
根据预设维度和复制次数对所述特征张量进行复制,并将得到的多个复制特征张量合并为第一中间张量,其中,所述第一中间张量的维度为(B,C,Nnext,T),Nnext为所述胶囊神经网络中下层矢量神经元数量;
对所述第一中间张量进行维度扩展,获取扩展后的第二中间张量,其中,所述第二中间张量的维度为(B,C,Nnext,T,1);
根据所述第一中间张量获取仿射变换张量,其中,所述仿射变换张量的维度为(B,C,Nnext,Dnext,T),Dnext为所述胶囊神经网络中下层矢量神经元的维度;
将所述第二中间张量与所述仿射变换张量进行矩阵相乘,获取矩阵相乘结果张量,其中,所述矩阵相乘结果张量的维度为(B,C,Nnext,Dnext,1);
对所述矩阵相乘结果张量进行维度压缩,将压缩后的张量确定为所述图像序列对应的矢量化张量,其中,所述矢量化张量的维度为(B,C,Nnext,Dnext)。
4.根据权利要求3所述的方法,其中,根据预设维度和复制次数对所述特征张量进行复制,并将得到的多个复制特征张量合并为第一中间张量,包括:
将所述特征张量沿着第三个维度复制Nnext次,将得到的Nnext个复制特征张量拼接成为第一中间张量。
5.根据权利要求3所述的方法,其中,将所述第二中间张量与所述仿射变换张量进行矩阵相乘,获取矩阵相乘结果张量,包括:
将所述第二中间张量与所述仿射变换张量按照第四个和第五个维度做矩阵乘法,获取矩阵相乘结果张量,表示为如下公式:
(B,C,Nnext,Dnext,T)·(B,C,Nnext,T,1)=(B,C,Nnext,Dnext,1)。
6.根据权利要求1所述的方法,其中,所述特征融合算法包括EMRA算法。
7.根据权利要求6所述的方法,其中,将所述矢量化张量输入特征融合算法,获取所述图像序列对应的融合向量,包括:
将所述矢量化张量输入EMRA算法,获取输出的第三中间张量,其中,所述第三中间张量的维度为(B,Nnext,Dnext);
根据所述第三中间张量的最后一个维度,对所述第三中间张量通过取L2范数的方式进行归一化,获取所述图像序列对应的融合向量,其中,所述融合向量的维度为(B,Nnext)。
8.根据权利要求6所述的方法,其中,所述EMRA算法的运行步骤,包括:
初始化Pi,其中,Pi为所述胶囊神经网络中下层第i个向量(i=1,2,...C);
迭代r次计算胶囊神经网络中的网络参数,其中,使用的公式描述如下:
aj←sigmoid(λ(βa-costj)),
其中,pij为系数,为期望为μj,标准差为σj的正态分布,Rij为所述胶囊神经网络中上层向量对下层向量得到的类的分布,rij为权重系数,aj为激活值,为所述胶囊神经网络中第i层的激活值,Qj为所述胶囊神经网络中上层第j个向量(j=1,2,...Nnext),costj为熵,d为向量维度,βu,βa和λ为训练参数;
返回最终得到的Qj和aj。
9.一种设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,使该设备执行权利要求1至8中任一项所述的方法。
10.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011165963.9A CN112232261A (zh) | 2020-10-27 | 2020-10-27 | 图像序列融合的方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011165963.9A CN112232261A (zh) | 2020-10-27 | 2020-10-27 | 图像序列融合的方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112232261A true CN112232261A (zh) | 2021-01-15 |
Family
ID=74109054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011165963.9A Pending CN112232261A (zh) | 2020-10-27 | 2020-10-27 | 图像序列融合的方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232261A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187294A (zh) * | 2023-04-24 | 2023-05-30 | 开元华创科技(集团)有限公司 | 信息化检测实验室电子文件快速生成方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345575A (zh) * | 2018-09-17 | 2019-02-15 | 中国科学院深圳先进技术研究院 | 一种基于深度学习的图像配准方法及装置 |
CN110032925A (zh) * | 2019-02-22 | 2019-07-19 | 广西师范大学 | 一种基于改进胶囊网络与算法的手势图像分割与识别方法 |
CN110991563A (zh) * | 2019-12-23 | 2020-04-10 | 青岛大学 | 一种基于特征融合的胶囊网络随机路由算法 |
CN111241958A (zh) * | 2020-01-06 | 2020-06-05 | 电子科技大学 | 一种基于残差-胶囊网络的视频图像鉴别方法 |
-
2020
- 2020-10-27 CN CN202011165963.9A patent/CN112232261A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345575A (zh) * | 2018-09-17 | 2019-02-15 | 中国科学院深圳先进技术研究院 | 一种基于深度学习的图像配准方法及装置 |
CN110032925A (zh) * | 2019-02-22 | 2019-07-19 | 广西师范大学 | 一种基于改进胶囊网络与算法的手势图像分割与识别方法 |
CN110991563A (zh) * | 2019-12-23 | 2020-04-10 | 青岛大学 | 一种基于特征融合的胶囊网络随机路由算法 |
CN111241958A (zh) * | 2020-01-06 | 2020-06-05 | 电子科技大学 | 一种基于残差-胶囊网络的视频图像鉴别方法 |
Non-Patent Citations (1)
Title |
---|
BOHAN JIA 等: "DE-CapsNet: A Diverse Enhanced Capsule Network with Disperse Dynamic Routing", APPLIED SCIENCES, 29 January 2020 (2020-01-29) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187294A (zh) * | 2023-04-24 | 2023-05-30 | 开元华创科技(集团)有限公司 | 信息化检测实验室电子文件快速生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021093620A1 (en) | Method and system for high-resolution image inpainting | |
US11645835B2 (en) | Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications | |
US20220230276A1 (en) | Generative Adversarial Networks with Temporal and Spatial Discriminators for Efficient Video Generation | |
Xie et al. | Generative VoxelNet: Learning energy-based models for 3D shape synthesis and analysis | |
WO2022104281A1 (en) | A multi-resolution attention network for video action recognition | |
Zou et al. | Unsupervised learning of visual invariance with temporal coherence | |
Ramirez et al. | Bayesian capsule networks for 3D human pose estimation from single 2D images | |
CN115222998B (zh) | 一种图像分类方法 | |
CN112183602B (zh) | 一种带有并行卷积块的多层特征融合细粒度图像分类方法 | |
CN113158861A (zh) | 一种基于原型对比学习的运动分析方法 | |
CN114549913A (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN111723759B (zh) | 基于加权张量稀疏图映射的非约束人脸识别方法 | |
Shrivastava et al. | Multiple kernel-based dictionary learning for weakly supervised classification | |
Sun et al. | Two-stage deep regression enhanced depth estimation from a single RGB image | |
WO2022213623A1 (zh) | 图像生成、三维人脸模型生成的方法、装置、电子设备及存储介质 | |
Qin et al. | Depth estimation by parameter transfer with a lightweight model for single still images | |
CN115169548A (zh) | 基于张量的持续学习方法和装置 | |
Sun et al. | Joint transferable dictionary learning and view adaptation for multi-view human action recognition | |
CN113239866B (zh) | 一种时空特征融合与样本注意增强的人脸识别方法及系统 | |
CN112232261A (zh) | 图像序列融合的方法及设备 | |
US20230206515A1 (en) | Automatic caricature generating method and apparatus | |
CN114078149A (zh) | 一种图像估计方法、电子设备及存储介质 | |
CN111667495A (zh) | 一种图像场景解析方法和装置 | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 | |
Carreira-Perpinán et al. | Dimensionality reduction by unsupervised regression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |