CN112906609A - 基于双路交叉注意力网络的视频重要区域预测方法和装置 - Google Patents

基于双路交叉注意力网络的视频重要区域预测方法和装置 Download PDF

Info

Publication number
CN112906609A
CN112906609A CN202110244995.6A CN202110244995A CN112906609A CN 112906609 A CN112906609 A CN 112906609A CN 202110244995 A CN202110244995 A CN 202110244995A CN 112906609 A CN112906609 A CN 112906609A
Authority
CN
China
Prior art keywords
feature
video
reconstruction
preset
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110244995.6A
Other languages
English (en)
Other versions
CN112906609B (zh
Inventor
鲁继文
周杰
马程
饶永铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202110244995.6A priority Critical patent/CN112906609B/zh
Publication of CN112906609A publication Critical patent/CN112906609A/zh
Application granted granted Critical
Publication of CN112906609B publication Critical patent/CN112906609B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于双路交叉注意力网络的视频重要区域预测方法和装置,其中,方法包括:将第一视频流输入短时通路特征提取器,获取第一参考特征;将第二视频流输入长时通路特征提取器,获取第二参考特征,其中,第一视频流和第二视频流的最后一帧视频帧的时间t相同;确定与预设的预测间隔m对应的初始矩阵,并融合初始矩阵、第一参考特征和第二参考特征获取中间特征;将第一参考特征和中间特征输入预设的第一交叉注意力模型获取第一重建特征将第二参考特征和中间特征输入预设的第二交叉注意力模型获取第二重建特征;根据第一重建特征和第二重建特征获取融合特征,并根据融合特征获取t+m帧视频帧。提高了视频帧的预测准确性。

Description

基于双路交叉注意力网络的视频重要区域预测方法和装置
技术领域
本发明涉及计算机视觉与机器学习技术领域,尤其涉及一种基于双路交叉注意力网络的视频重要区域预测方法和装置。
背景技术
人们在看到图片或视频的时候通常会有相似的视觉特性,会关注到图片或视频的同一个区域,目前研究人员已经试图去对人类的视觉注意力机制进行建模,也就是视频重要区域估计(Video Saliency Prediction,VSP)。
一些方法已经被提出,从而推动了这个领域的发展,这些方法大部分将视频的一系列帧作为输入并输出其中一帧或多帧的重要度图,所以这些方法只能用于处理过去获得的信息的任务,比如视频监控,视频压缩,视频分割等等。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于双路交叉注意力网络的视频重要区域预测方法,以实现对视频帧的精确预测。
本发明的第二个目的在于提出一种基于双路交叉注意力网络的视频重要区域预测装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种基于双路交叉注意力网络的视频重要区域预测方法,包括:将第一视频流输入短时通路特征提取器,获取第一参考特征;将第二视频流输入长时通路特征提取器,获取第二参考特征,其中,所述第一视频流和所述第二视频流的最后一帧视频帧的时间t相同;确定与预设的预测间隔m对应的初始矩阵,并融合所述初始矩阵、所述第一参考特征和所述第二参考特征获取中间特征;将所述第一参考特征和所述中间特征输入预设的第一交叉注意力模型获取第一重建特征;将所述第二参考特征和所述中间特征输入预设的第二交叉注意力模型获取第二重建特征;根据所述第一重建特征和所述第二重建特征获取融合特征,并根据所述融合特征获取t+m帧视频帧。
为达上述目的,本发明第二方面实施例提出了一种基于双路交叉注意力网络的视频重要区域预测装置,包括:第一获取模块,用于将第一视频流输入短时通路特征提取器,获取第一参考特征;第二获取模块,用于将第二视频流输入长时通路特征提取器,获取第二参考特征,其中,所述第一视频流和所述第二视频流的最后一帧视频帧的时间t相同;第三获取模块,用于确定与预设的预测间隔m对应的初始矩阵,并融合所述初始矩阵、所述第一参考特征和所述第二参考特征获取中间特征;第四获取模块,用于将所述第一参考特征和所述中间特征输入预设的第一交叉注意力模型获取第一重建特征;第五获取模块,用于将所述第二参考特征和所述中间特征输入预设的第二交叉注意力模型获取第二重建特征;第六获取模块,用于根据所述第一重建特征和所述第二重建特征获取融合特征,并根据所述融合特征获取t+m帧视频帧。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述第一方面实施例所述的基于双路交叉注意力网络的视频重要区域预测方法。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面实施例所述的基于双路交叉注意力网络的视频重要区域预测方法。
本发明的实施例,至少具有如下的技术效果:
本发明输入的两个通路可以分别捕捉两个时序分辨率的运动信息,两个通路的信息进行融合之后会得到目标帧的中间特征。中间特征通过和两个通路的交叉注意力模块分别运算可以得到两个不同的特征,这两个特征分别包含了两个通路输入的过去视频信息的线索,从而对未来目标帧的重要区域预测提供丰富的指导。最后通过重建模块,网络就能够得到目标帧的重要度预测结果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种基于双路交叉注意力网络的视频重要区域预测方法的流程示意图;
图2为本发明实施例所提供的一种具体的基于双路交叉注意力网络的视频重要区域预测方法的流程示意图;
图3为本发明实施例所提供的一种交叉注意力模型的计算逻辑示意图;以及
图4为本发明实施例所提供的一种基于双路交叉注意力网络的视频重要区域预测装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于双路交叉注意力网络的视频重要区域预测方法和装置。
为了解决视频帧预测的问题,本发明试图挖掘视频重要度估计任务的潜在价值,第一次尝试将视频重要区域估计(VSP)扩展到视频重要区域预测(Video SaliencyForecasting,VSF),从而对未来不可见的视频帧预测对应的重要度图。VSF在手机或相机的智能摄像中有着重要的价值,如果设备能在智能摄影中提前预知未来场景的重要区域,那么内建算法就可以自动地提前调整相机的设置并且做好摄像计划,例如调焦、曝光、光圈等增强手段。因此和以往VSP任务不同的是,VSF的输出帧与输入帧在时序上有一定的间隔,所以算法需要对时序信息有一定的分析能力。
为了解决这个问题,本发明提出了双路交叉注意力网络来进行准确且灵活的视频重要度预测。不同于以往只处理单一时序间隔的方法,本网络包含两个通路,可以分别处理不同的时序分辨率信息。长时通路可以捕捉较长维度的语义信息和动作信息,而短时通路可以捕捉到微小的、突变的动作。由两个通路提取到的特征可以互相协同共同提高预测的能力,每个通路包含一个特征提取器和一个循环网络来整合给定的未来预测间隔并且生成目标视频帧的中间特征。预测间隔是一个用户可以定义的变量,用来提高算法的应用灵活性。此外,网络中还包含交叉注意力模块来建立获取到的过去视频帧和未来目标帧之间的时空关联。通过这个模块,网络可以通过过去帧为未来的重要区域预测提供有效的指导和线索
图1为本发明实施例所提供的一种基于双路交叉注意力网络的视频重要区域预测方法的流程示意图。
如图1所示,该基于双路交叉注意力网络的视频重要区域预测方法包括以下步骤:
步骤101,将第一视频流输入短时通路特征提取器,获取第一参考特征。
步骤102,将第二视频流输入长时通路特征提取器,获取第二参考特征,其中,第一视频流和第二视频流的最后一帧视频帧的时间t相同。
在本实施例中,第一视频流的视频帧之间的时间间隔为1,所述第二视频流的视频帧之间的时间间隔为τ,其中,τ不等于1。
在本实施例中,长时通路的输入帧在时序上间隔为τ,而短时通路的输入帧在时序上间隔为1,两个输入的视频流对应的视频帧序列具有相同的长度和空间尺寸,因此可以使用完全相同但参数不共享的网络结构。为了进行特征提取,我们使用S3D模型作为主框架,利用该网络可以获取整个视频序列的高维语义信息。接着我们仿照U-Net的网络结构,采用一系列的上采样层和卷积层来处理这些特征,从而融合低层的具有更丰富空间细节信息的特征,得到具有一定空间尺寸的高维特征,这些高维特征的空间尺度是输入视频的1/8,而具备更多的通道数。
步骤103,确定与预设的预测间隔m对应的初始矩阵,并融合初始矩阵、第一参考特征和第二参考特征获取中间特征。
在本实施例中,每个通路都包含有一个循环网络,可以融合输入的预测间隔m并输出未来目标帧的中间特征,参照图2,我们使用GRU的模块来挖掘连续视频帧特征之间的时序信息。和以往方法不同的是,我们并不通过GRU得到每一帧的输出特征,我们只是利用GRU来整合所获特征之间的时序关系并且让目标特征掌握时序变化。因此我们使用最后一次循环得到的特征作为目标帧(第t+m帧)的中间特征,为了融合m的信息,我们定义M为归一化参数,并由m生成一个(m-M)/M的通道数仅为1的矩阵(初始矩阵),并将这个矩阵和输入到GRU模块的特征矩阵(即对应的参考特征对应的矩阵)合并。通过以上步骤,我们可以得到双路的中间特征,因此可以用一个卷积层来将两个特征合并为一个后续提到的重建特征
Figure BDA0002963779810000041
步骤104,将第一参考特征和中间特征输入预设的第一交叉注意力模型获取第一重建特征。
步骤105,将第二参考特征和中间特征输入预设的第二交叉注意力模型获取第二重建特征。
在本实施例中,可以根据预设的第一公式计算所述第一参考特征和所述中间特征的相似度,根据预设的第二公式对所述相似度计算,获取所述第一重建特征,根据预设的第一公式计算所述第二参考特征和所述中间特征的相似度,根据预设的第二公式对所述相似度计算,获取所述第二重建特征。
其中,第一公式为如下公式(1)所示:
Figure BDA0002963779810000051
第二公式为如下公式(2)和(3)所示:
Figure BDA0002963779810000052
Figure BDA0002963779810000053
其中,
Figure BDA0002963779810000054
是所述中间特征,
Figure BDA0002963779810000055
是所述第一参考特征或者第二参考特征,i和j表示时间和空间维度的坐标,其中,T表示矩阵转置,θ表示非线性映射,f、g和w都是卷积操作,
Figure BDA0002963779810000056
是所述第一重建特征或第二重建特征。
也可以理解,在本实施例中,基于交叉注意力模型建立特征间的时空关联。其中,参照图3,本实施例中的交叉注意力模型基于注意力机制工作,注意力机制在视觉任务中起着十分重要的作用,我们设计了双路交叉注意力模块来探索输入帧特征和未来目标特征之间的时空关联。由以上叙述中得到的中间特征和双路视频帧得到的每一帧的特征会分别计算出相关度,并由这个相关度重建出包含着过去信息线索的未来帧特征。交叉注意力模块的示意图如附图3所示,其中,图3中的T、H、W、C、C'为对应的特征的维度。对于两个通路来说,输入的未来帧中间特征为
Figure BDA0002963779810000057
长时通路的输入帧特征和短时通路的输入帧特征分别作为参考特征,记为FR。因此两个特征矩阵之间的相似度可以由上述公式(1)求得。
进一步的,可以通过softmax函数和加法得到重建特征,具体参照上述公式(2)和(3)。
由此我们可以得到两个特征,长时通路的
Figure BDA0002963779810000058
Figure BDA0002963779810000059
经过卷积层融合之后得到目标视频帧的融合特征
Figure BDA00029637798100000510
步骤106,根据第一重建特征和第二重建特征获取融合特征,并根据融合特征获取t+m帧视频帧(图2中的
Figure BDA00029637798100000511
)。
在本实施例中,在从特征提取器得到了长时通路和短时通路输入帧的对应特征后,我们可以用上采样层和卷积层堆叠起的重建模块(图2中的R模块)得到对应帧的重要区域估计图,而根据前面几个模块得到的目标帧特征也可以重建出目标帧的重要区域预测图。因为这三部分特征有相同的维度,因此这三个重建模块可以利用完全相同的网络结构,而保持不同的网络参数来保证每一个模态的独特性。
为了进一步提高本发明实施例中的视频帧的预测的准确性,参照图2,在训练阶段,还可以获取与第一视频流对应的预测视频帧
Figure BDA0002963779810000061
和第二视频流对应的预测视频帧
Figure BDA0002963779810000062
在训练时,可以使用KL散度(Kullback-Leibler Divergence),CC损失(LinearCorrelation Coefficient),NSS损失(Normalized Scanpath Saliency)和SIM损失(Similarity)来监督网络的训练。对于长时通路、短时通路和最终预测帧的输出结果,我们采用相同的权重来进行监督。
综上,本发明实施例的基于双路交叉注意力网络的视频重要区域预测方法,输入两个不同时序分辨率的视频序列以及预测间隔m,两个输入的视频序列最后一帧的时间均为t,网络输出第t+m帧的重要区域预测图。其中两个输入视频序列会分别由长时通路和短时通路来处理,每个通路先对输入的每一个视频帧提取时空特征,接下来由一个循环神经网络来提取目标帧的中间特征并融合未来预测间隔的信息。在将两个通路获取的特征融合之后,我们用双路交叉注意力模块来建立获取的特征和输入过去帧信息之间的时空关联。最后,重建模块会输出目标帧的重要区域预测图和输入视频帧的重要区域估计图,这几部分的输出都会得到监督信号的监督,从而完成整体网络结构的优化,提升了对视频帧预测的准确性。
为了实现上述实施例,本发明还提出一种基于双路交叉注意力网络的视频重要区域预测装置。
图4为本发明实施例提供的一种基于双路交叉注意力网络的视频重要区域预测装置的结构示意图。
如图4所示,该基于双路交叉注意力网络的视频重要区域预测装置包括:第一获取模块410、第二获取模块420、第三获取模块430、第四获取模块440、第五获取模块450、第六获取模块460。
其中,第一获取模块410,用于将第一视频流输入短时通路特征提取器,获取第一参考特征;
第二获取模块420,用于将第二视频流输入长时通路特征提取器,获取第二参考特征,其中,所述第一视频流和所述第二视频流的最后一帧视频帧的时间t相同;
第三获取模块430,用于确定与预设的预测间隔m对应的初始矩阵,并融合所述初始矩阵、所述第一参考特征和所述第二参考特征获取中间特征;
第四获取模块440,用于将所述第一参考特征和所述中间特征输入预设的第一交叉注意力模型获取第一重建特征;
第五获取模块450,用于将所述第二参考特征和所述中间特征输入预设的第二交叉注意力模型获取第二重建特征;
第六获取模块460,用于根据所述第一重建特征和所述第二重建特征获取融合特征,并根据所述融合特征获取t+m帧视频帧。
需要说明的是,前述对基于双路交叉注意力网络的视频重要区域预测方法实施例的解释说明也适用于该实施例的基于双路交叉注意力网络的视频重要区域预测装置,此处不再赘述。
为了实现上述实施例,本发明还提出一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述实施例所描述的基于双路交叉注意力网络的视频重要区域预测方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例所描述的基于双路交叉注意力网络的视频重要区域预测方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于双路交叉注意力网络的视频重要区域预测方法,其特征在于,包括以下步骤:
将第一视频流输入短时通路特征提取器,获取第一参考特征;
将第二视频流输入长时通路特征提取器,获取第二参考特征,其中,所述第一视频流和所述第二视频流的最后一帧视频帧的时间t相同;
确定与预设的预测间隔m对应的初始矩阵,并融合所述初始矩阵、所述第一参考特征和所述第二参考特征获取中间特征;
将所述第一参考特征和所述中间特征输入预设的第一交叉注意力模型获取第一重建特征;
将所述第二参考特征和所述中间特征输入预设的第二交叉注意力模型获取第二重建特征;
根据所述第一重建特征和所述第二重建特征获取融合特征,并根据所述融合特征获取t+m帧视频帧。
2.如权利要求1所述的方法,其特征在于,所述第一视频流的视频帧之间的时间间隔为1,所述第二视频流的视频帧之间的时间间隔为τ,其中,τ不等于1。
3.如权利要求2所述的方法,其特征在于,所述将所述第一参考特征和所述中间特征输入预设的第一交叉注意力模型获取第一重建特征,包括:
根据预设的第一公式计算所述第一参考特征和所述中间特征的相似度;
根据预设的第二公式对所述相似度计算,获取所述第一重建特征。
4.如权利要求3所述的方法,其特征在于,所述将所述第二参考特征和所述中间特征输入预设的第二交叉注意力模型获取第二重建特征,包括:
根据预设的第一公式计算所述第二参考特征和所述中间特征的相似度;
根据预设的第二公式对所述相似度计算,获取所述第二重建特征。
5.如权利要求1所述的方法,其特征在于,所述根据所述第一重建特征和所述第二重建特征获取融合特征,包括:
对所述第一重建特征和所述第二重建特征卷积融合,得到所述融合特征。
6.如权利要求3所述的方法,其特征在于,所述第一公式为:
Figure FDA0002963779800000011
其中,
Figure FDA0002963779800000012
是所述中间特征,
Figure FDA0002963779800000013
是所述第一参考特征,i和j表示时间和空间维度的坐标,其中T表示矩阵转置,θ表示非线性映射;
所述第二公式为:
Figure FDA0002963779800000021
Figure FDA0002963779800000022
其中,f、g和w都是卷积操作,
Figure FDA0002963779800000023
是所述第一重建特征。
7.如权利要求4所述的方法,其特征在于,所述第一公式为:
Figure FDA0002963779800000024
其中,
Figure FDA0002963779800000025
是所述中间特征,
Figure FDA0002963779800000026
是所述第二参考特征,i和j表示时间和空间维度的坐标,其中,T表示矩阵转置,θ表示非线性映射;
所述第二公式为:
Figure FDA0002963779800000027
Figure FDA0002963779800000028
其中,f、g和w都是卷积操作,
Figure FDA0002963779800000029
是所述第二重建特征。
8.一种基于双路交叉注意力网络的视频重要区域预测装置,其特征在于,包括以下步骤:
第一获取模块,用于将第一视频流输入短时通路特征提取器,获取第一参考特征;
第二获取模块,用于将第二视频流输入长时通路特征提取器,获取第二参考特征,其中,所述第一视频流和所述第二视频流的最后一帧视频帧的时间t相同;
第三获取模块,用于确定与预设的预测间隔m对应的初始矩阵,并融合所述初始矩阵、所述第一参考特征和所述第二参考特征获取中间特征;第四获取模块,用于将所述第一参考特征和所述中间特征输入预设的第一交叉注意力模型获取第一重建特征;
第五获取模块,用于将所述第二参考特征和所述中间特征输入预设的第二交叉注意力模型获取第二重建特征;
第六获取模块,用于根据所述第一重建特征和所述第二重建特征获取融合特征,并根据所述融合特征获取t+m帧视频帧。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7中任一所述的方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202110244995.6A 2021-03-05 2021-03-05 基于双路交叉注意力网络的视频重要区域预测方法和装置 Active CN112906609B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110244995.6A CN112906609B (zh) 2021-03-05 2021-03-05 基于双路交叉注意力网络的视频重要区域预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110244995.6A CN112906609B (zh) 2021-03-05 2021-03-05 基于双路交叉注意力网络的视频重要区域预测方法和装置

Publications (2)

Publication Number Publication Date
CN112906609A true CN112906609A (zh) 2021-06-04
CN112906609B CN112906609B (zh) 2022-06-07

Family

ID=76107791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110244995.6A Active CN112906609B (zh) 2021-03-05 2021-03-05 基于双路交叉注意力网络的视频重要区域预测方法和装置

Country Status (1)

Country Link
CN (1) CN112906609B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591868A (zh) * 2021-07-30 2021-11-02 南开大学 一种基于全双工策略的视频目标分割方法及系统
CN113743244A (zh) * 2021-08-13 2021-12-03 清华大学 基于反事实样本的视频人体意外动作定位方法和装置
CN115984739A (zh) * 2022-12-20 2023-04-18 中国科学院空天信息创新研究院 一种用于视频预测的基于全局注意力指导的特征融合方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN110334213A (zh) * 2019-07-09 2019-10-15 昆明理工大学 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
US20200334457A1 (en) * 2019-04-16 2020-10-22 Boe Technology Group Co., Ltd. Image recognition method and apparatus
CN112016406A (zh) * 2020-08-07 2020-12-01 青岛科技大学 一种基于全卷积网络的视频关键帧提取方法
CN112149459A (zh) * 2019-06-27 2020-12-29 哈尔滨工业大学(深圳) 一种基于交叉注意力机制的视频显著性物体检测模型及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
US20200334457A1 (en) * 2019-04-16 2020-10-22 Boe Technology Group Co., Ltd. Image recognition method and apparatus
CN112149459A (zh) * 2019-06-27 2020-12-29 哈尔滨工业大学(深圳) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
CN110334213A (zh) * 2019-07-09 2019-10-15 昆明理工大学 基于双向交叉注意力机制的汉越新闻事件时序关系识别方法
CN112016406A (zh) * 2020-08-07 2020-12-01 青岛科技大学 一种基于全卷积网络的视频关键帧提取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GUANGYI CHEN ET AL.: "《Spatial-Temporal Attention-Aware Learning for Video-Based Person Re-Identification》", 《 IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
GUANGYI CHEN ET AL.: "《Spatial-Temporal Attention-Aware Learning for Video-Based Person Re-Identification》", 《 IEEE TRANSACTIONS ON IMAGE PROCESSING》, vol. 28, no. 09, 28 March 2019 (2019-03-28) *
解怀奇 等: "《基于通道注意力机制的视频人体行为识别》", 《电子技术与软件工程》 *
解怀奇 等: "《基于通道注意力机制的视频人体行为识别》", 《电子技术与软件工程》, 15 February 2020 (2020-02-15) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591868A (zh) * 2021-07-30 2021-11-02 南开大学 一种基于全双工策略的视频目标分割方法及系统
CN113591868B (zh) * 2021-07-30 2023-09-01 南开大学 一种基于全双工策略的视频目标分割方法及系统
CN113743244A (zh) * 2021-08-13 2021-12-03 清华大学 基于反事实样本的视频人体意外动作定位方法和装置
CN113743244B (zh) * 2021-08-13 2022-10-18 清华大学 基于反事实样本的视频人体意外动作定位方法和装置
CN115984739A (zh) * 2022-12-20 2023-04-18 中国科学院空天信息创新研究院 一种用于视频预测的基于全局注意力指导的特征融合方法
CN115984739B (zh) * 2022-12-20 2023-06-16 中国科学院空天信息创新研究院 一种用于视频预测的基于全局注意力指导的特征融合方法

Also Published As

Publication number Publication date
CN112906609B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN112906609B (zh) 基于双路交叉注意力网络的视频重要区域预测方法和装置
Linardos et al. Simple vs complex temporal recurrences for video saliency prediction
CN112308200B (zh) 神经网络的搜索方法及装置
RU2417548C2 (ru) Фиксация и создание стереоизображений и стереовидео в реальном времени моноскопическим маломощным мобильным устройством
CN111402130B (zh) 数据处理方法和数据处理装置
Neoral et al. Continual occlusion and optical flow estimation
US8903139B2 (en) Method of reconstructing three-dimensional facial shape
CN111079507B (zh) 一种行为识别方法及装置、计算机装置及可读存储介质
US10096114B1 (en) Determining multiple camera positions from multiple videos
CN114862732B (zh) 一种融合事件相机与传统光学相机的合成孔径成像方法
KR102093577B1 (ko) 학습네트워크를 이용한 예측 영상 생성 방법 및 예측 영상 생성 장치
CN110992401A (zh) 目标跟踪方法、装置、计算机设备和存储介质
CN113711276A (zh) 尺度感知单目定位和地图构建
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN112862023B (zh) 对象密度确定方法、装置、计算机设备和存储介质
Papa et al. Meter: a mobile vision transformer architecture for monocular depth estimation
CN113298707B (zh) 图像帧拼接方法、视频巡检方法、装置、设备及存储介质
CN116797505A (zh) 图像融合方法、电子设备及存储介质
Babu V et al. A deeper insight into the undemon: Unsupervised deep network for depth and ego-motion estimation
US11659135B2 (en) Slow or fast motion video using depth information
CN114119678A (zh) 光流估计方法、计算机程序产品、存储介质及电子设备
CN114581316A (zh) 图像重建方法、电子设备、存储介质及程序产品
CN112818743A (zh) 图像识别的方法、装置、电子设备及计算机存储介质
Guraya et al. A novel visual saliency model for surveillance video compression
CN114882405B (zh) 一种基于时空双流金字塔网络架构的视频显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant