CN110163196A - 显著特征检测方法和装置 - Google Patents
显著特征检测方法和装置 Download PDFInfo
- Publication number
- CN110163196A CN110163196A CN201810404837.0A CN201810404837A CN110163196A CN 110163196 A CN110163196 A CN 110163196A CN 201810404837 A CN201810404837 A CN 201810404837A CN 110163196 A CN110163196 A CN 110163196A
- Authority
- CN
- China
- Prior art keywords
- frame
- video
- image
- reference frame
- light stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 90
- 210000005036 nerve Anatomy 0.000 claims abstract description 104
- 238000012545 processing Methods 0.000 claims description 99
- 238000012163 sequencing technique Methods 0.000 claims description 71
- 230000009466 transformation Effects 0.000 claims description 48
- 239000013598 vector Substances 0.000 claims description 47
- 239000011159 matrix material Substances 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 28
- 230000006835 compression Effects 0.000 claims description 18
- 238000007906 compression Methods 0.000 claims description 18
- 238000003062 neural network model Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 13
- 238000002203 pretreatment Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 description 39
- 230000008859 change Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 14
- 241000208340 Araliaceae Species 0.000 description 9
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 9
- 235000003140 Panax quinquefolius Nutrition 0.000 description 9
- 235000008434 ginseng Nutrition 0.000 description 9
- 230000002787 reinforcement Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 244000086443 Craterellus fallax Species 0.000 description 1
- 235000007926 Craterellus fallax Nutrition 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请涉及一种显著特征检测方法和装置,所述方法包括:获取视频帧序列,视频帧序列包括目标帧和多个参考帧;计算目标帧与各参考帧之间的光流图;通过第一神经网络模型,对各光流图进行编码,分别得到各参考帧对应的图像变换特征;通过第二神经网络模型,根据各图像变换特征对目标帧的图像特征进行编码,得到目标帧的协同编码图像特征;将协同编码图像特征输入像素级别分类器进行检测,输出目标帧的显著图。本申请提供的方案可以提升对视频进行显著特征检测的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种显著特征检测方法和装置。
背景技术
图像的显著性检测(Saliency Detection)是计算机视觉(ComputationalVision)研究中的基本任务。显著图(Saliency Map)是指对原图片进行显著性检测后得到的图片,即,是计算机依据算法通过模拟人的视觉特点,标注出图像中的显著区域所得到的图片。
通常,在对静态图像进行显著性检测时,采用的方式是首先对图像进行特征提取,然后将提取的特征输入像素级别的预测模型中,得到该静态图像的显著图。与基于静态图像的显著性检测任务相比,由于视频本身的复杂性和多样性,导致针对视频的显著性检测更具难度。
目前,在获取视频的显著图时,通常采用的方法是,直接将静态图像的显著性检测方法应用于视频的显著性检测上,即将视频中每一视频帧作为静态图像以进行显著性检测后得到显著图。显然,这种方式没有考虑连续的视频帧之间的联系,导致获得的显著图不够准确。
发明内容
基于此,有必要针对现有的对视频进行显著图检测的方式不够准确的技术问题,提供一种显著特征检测方法、装置、计算机可读存储介质和计算机设备。
一种显著特征检测方法,包括:
获取视频帧序列;所述视频帧序列包括目标帧和多个参考帧;
计算所述目标帧与各所述参考帧之间的光流图;
通过第一神经网络模型,对各所述光流图进行编码,分别得到各所述参考帧对应的图像变换特征;
通过第二神经网络模型,根据各所述图像变换特征对所述目标帧的图像特征进行编码,得到所述目标帧的协同编码图像特征;
将所述协同编码图像特征输入像素级别分类器进行检测,输出所述目标帧的显著图。
一种显著特征检测装置,包括:
视频帧序列获取模块,用于获取视频帧序列;所述视频帧序列包括目标帧和多个参考帧;
光流图计算模块,用于计算所述目标帧与各所述参考帧之间的光流图;
光流图编码模块,用于通过第一神经网络模型,对各所述光流图进行编码,分别得到各所述参考帧对应的图像变换特征;
图像特征编码模块,用于通过第二神经网络模型,根据各所述图像变换特征对所述目标帧的图像特征进行编码,得到所述目标帧的协同编码图像特征;
显著图检测模块,用于将所述协同编码图像特征输入像素级别分类器进行检测,输出所述目标帧的显著图。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述显著特征检测方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述显著特征检测方法的步骤。
上述显著特征检测方法、装置、计算机可读存储介质和计算机设备,利用视频帧序列中参考帧的特征对目标帧的图像特征进行加强,得到目标帧的协同编码图像特征,这样,根据协同编码图像特征进行显著性检测得到的显著图就参考了视频帧序列中各帧之间的联系,能够提升检测的准确度。其中,参考帧的特征是对光流图进行编码得到的图像变换特征,这样,参考帧的图像变换特征就携带了视频帧序列的图像变化信息和动作变化信息,从而,就可以基于各参考帧的图像变换特征对目标帧的图像特征编码以实现对目标帧的图像特征的加强,使得通过像素级别分类器对目标帧加强后的图像特征进行检测得到的显著图的准确性更强。
附图说明
图1为一个实施例中显著特征检测方法的应用环境图;
图2为一个实施例中显著特征检测方法的流程示意图;
图3为一个实施例中像素点移动形成光流的示意图;
图4为一个实施例中待检测像素点在目标帧与参考帧间移动的示意图;
图5为一个实施例中通过第一神经网络模型,对各光流图进行编码,分别得到各参考帧对应的图像变换特征的流程示意图;
图6为一个实施例中对视频帧序列中目标帧进行显著图检测的架构示意图;
图7为一个实施例中对静态图像进行显著图检测的架构示意图;
图8为一个实施例中通过第一神经网络模型对各光流图进行编码,得到各光流图对应的编码光流图的流程示意图;
图9为一个实施例中在第二神经网络模型的隐层中,按照视频帧序列中各视频帧的先后顺序,对各参考帧对应的图像变换特征进行依次处理得到第二神经网络模型对应各图像变换特征的隐藏状态的流程示意图;
图10为一个实施例中对视频帧中的目标帧进行显著图检测后得到的显著图的示意图;
图11为一个具体的实施例中显著特征检测方法的流程示意图;
图12为一个实施例中显著特征检测装置的结构框图;
图13为另一个实施例中显著特征检测装置的结构框图;
图14为又一个实施例中显著特征检测装置的结构框图;
图15为再一个实施例中显著特征检测装置的结构框图;
图16为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中显著特征检测方法的应用环境图。参照图1,该显著特征检测方法应用于显著特征检测系统。该显著特征检测系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种显著特征检测方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2,该显著特征检测方法具体包括如下步骤:
S202,获取视频帧序列,视频帧序列包括目标帧和多个参考帧。
其中,视频帧序列是视频流中连续的视频帧所构成序列。比如,视频流的帧率为24,即1秒对应24个视频帧,那么视频帧序列就可以是由这一秒对应的24个视频帧中第4个视频帧至第8个视频帧所构成的,即,视频帧序列包括5个连续的视频帧。
目标帧是视频帧序列中待进行显著图检测的视频帧。参考帧是视频帧序列中的、在对目标帧进行显著图检测时所需参考的视频帧。比如,参考帧可以是视频帧序列中除确定的目标帧之外的视频帧。
可以理解,在视频帧序列所包含的视频帧的数量较少时,视频帧序列中各视频帧所表达的图像信息之间的差异不大。尤其,相邻视频帧所表达的图像信息之间的差异更小。即,视频帧序列中各视频帧所表达的图像信息有一定的相关性。
在一个实施例中,服务器可获取视频流,以预设的序列长度从视频流中截取连续的视频帧得到视频帧序列,在截取的视频帧序列中确定目标帧和参考帧。
在一个实施例中,视频流可以是实时获取的直播视频流,也可以是预先缓存的视频流。
在一个实施例中,服务器可确定视频流中的目标帧;按照视频帧序列中目标帧和参考帧间的预设先后顺序,从视频流中选取作为参考帧的视频帧,得到包括目标帧和参考帧的视频帧序列。
其中,视频帧序列中目标帧与参考帧间的预设先后顺序,是预先设定的在一个视频帧序列中目标帧对应的位置以及参考帧对应的位置。比如,服务器可预先设定视频帧序列中的首个视频帧为目标帧,其余视频帧为参考帧。又比如,服务器可预先设定视频帧序列中最后一个视频帧为目标帧,其余视频帧为参考帧。服务器还可以预先设定视频帧序列中处于中间位置的任一个视频帧为目标帧,相应的其余视频帧为参考帧,等等。
在一个实施例中,服务器可依次对视频流中各个视频帧进行显著图检测。假定当前进行检测的目标帧为第i个帧,那么服务器可将当前视频帧的前k个视频帧作为参考帧,即,第i-k个、第i-(k+1)个、…、以及第i-1个视频帧为参考帧。可以理解,在当前进行检测的目标帧变化时,目标帧对应的参考帧的也是相对变化的。比如,当前检测的目标帧为视频流中的第8个帧,那么服务器可将视频流中第4个视频帧至第7个视频帧作为参考帧;在当前检测的目标帧为视频流中的第9个帧,那么服务器可将视频流中第5个视频帧至第8个视频帧作为参考帧。即,上次检测时目标帧会成为当次检测的参考帧。
在一个实施例中,目标帧可以是视频流中待进行压缩处理以得到关键帧的视频帧,那么,参考帧可以是在该目标帧之后、且待参考该目标帧进行压缩处理以得到预测帧的视频帧。其中,关键帧可以是I帧(Intra-coded Frame,帧内编码帧),预测帧可以是P帧(Predicted-coded Frame,前向预测帧)和/或B帧(Bidirectionally Predicted Frame,双向预测帧)。在一个实施例中,视频帧序列可以是视频流中一个GOP(Group of Pictures,画面组)。
S204,计算目标帧与各参考帧之间的光流图。
其中,光流(Optical Flow)是由观测对象或摄像机自身的移动造成观测对象在两帧图像中的移动所形成的。光流图(Optical Flow Map)是视频帧序列中各像素点在连续的视频帧中的变化所形成的位置偏移图。光流图表达了视频帧序列中各视频帧的变化信息,包含了视频画面中观测对象的动作变化信息。
如图3所示,在一个实施例中,示出了一个像素点在连续的5个视频帧中的移动。在这5个连续视频帧中,该像素点的灰度值没有发生变化,并且,在该像素点邻域内的所有点都有相似的移动。
具体地,服务器可在获取了视频帧序列后,确定视频帧序列中的目标帧和各个参考帧,计算目标帧与各个参考帧之间的光流图。可以理解,两个视频帧之间的光流图表达了这两个视频帧画面中目标的动作变化信息。
在一个实施例中,服务器可将目标帧与各参考帧构成的一对帧,输入至预训练的光流图模型,通过该光流图模型计算出这一对帧所对应的光流图。比如,视频帧序列中除目标帧之前有k个参考帧,那么计算出的视频帧序列中的目标帧与各参考帧的光流图就有k个。光流图模型可以是FlowNet或EpicFlow等。
在一个实施例中,服务器可确定目标帧中的待检测像素点,将目标帧及其中的待检测像素点位置、参考帧输入至光流图模型,通过光流图模型对待检测像素点进行跟踪,以确定参考帧中是否还存在相应的待检测像素点,若存在,则确定参考帧中相应的待检测像素点的位置,以记录待检测像素点的运动信息,并输出待检测像素点的位置偏移。
如图4所示,在一个实施例中,示出了待检测像素点在目标帧和参考帧间移动的示意图。待检测像素点A在目标帧Ii中的位置是(xi,yi),在参考帧Ij中找到A点,A点对应的位置是(xj,yj),根据目标帧Ii中A点相对于参考帧Ij中A点的位置偏移(uA,vA)可得到A点在这两个视频帧中的运动变化信息。
在一个实施例中,步骤S204具体包括:确定目标帧中各像素点的第一位置;在各参考帧中查找与目标帧中各像素点相应的像素点;确定查找的各像素点的第二位置;根据第一位置和第二位置的偏移计算得到目标帧与各参考帧之间的光流图。
具体地,服务器可对目标帧中各个像素点的位置偏移进行检测。其中,第一位置是各个像素点在目标帧中的位置。第二位置是各个像素点在参考帧中的位置。在一个实施例中,第一位置和第二位置具体可以是预设的坐标系中的坐标。服务器可根据目标帧中各个像素点的第一位置相对于参考帧相应像素点的第二位置的偏移,得到各个像素点在这两个视频帧中的运动变化信息,作为目标帧与参考帧之间的光流图。
在一个实施例中,根据第一位置和第二位置的偏移计算得到目标帧与各参考帧之间的光流图,具体包括:将第一位置的水平位置和第二位置的水平位置作差,获得目标帧中各像素点相对于各参考帧中相应的像素点的水平位置偏移;将第一位置的竖直位置和第二位置的竖直位置作差,获得目标帧中各像素点相对于各参考帧中相应的像素点的竖直位置偏移;根据水平位置偏移和竖直位置偏移构建二通道矩阵向量,以获得目标帧与各参考帧之间的光流图。
具体地,各像素点的位置可包括水平位置和竖直位置。以图4所示的实施例来举例说明:服务器可将目标帧中各像素点的第一位置的水平位置与参考帧中相应像素点的第二位置的水平位置作差得到各像素点的水平位置偏移,将目标帧中各像素点的第二位置的竖直位置与参考帧中相应像素点的第二位置的竖直位置作差得到各像素点的竖直位置偏移,即,(uA,vA)=(xj,yj)-(xi,yi),uA为A点的水平位置偏移,vA为A点的竖直位置偏移。可以理解,水平位置偏移表达了目标帧的各个像素点相对于参考帧中相应像素点在水平方向的运动变化信息,竖直位置偏移表达了目标帧的各个像素点相对于参考帧中相应像素点在竖直方向的运动变化信息。
进一步地,服务器可将与各个像素点对应的水平位置偏移和竖直位置偏移分别存储于与输入的目标帧、参考帧大小相同的两个通道的矩阵向量中,构建二通道矩阵向量,以获得目标帧与各参考帧之间的光流图。比如,视频帧序列中各视频帧的大小为w×h,其中w表示图像宽度,h表示图像高度,那么构建的二通道矩阵向量的大小就为2×w×h,将构建的二通道矩阵向量作为目标帧与各参考帧之间的光流图。
S206,通过第一神经网络模型,对各光流图进行编码,分别得到各参考帧对应的图像变换特征。
其中,第一神经网络模型是经过训练后具有特征编码能力的机器学习模型。机器学习模型是可通过对样本学习具备特征编码能力。第一神经网络模型可以是层系结构的机器学习模型,包括输入层、中间层和输出层。其中,中间层即为隐层。第一神经网络模型可通过中间层对输入层传递的数据进行线性或者非线性变换。隐层的数量可以是多个,每层隐层都有对应的模型参数,每层的模型参数可以是多个,每层隐层中一个模型参数对输入的数据进行线性或非线性变化,得到运算结果。每个隐层接受前一层的运算结果,经过自身的运算,对下一层输出本层的运算结果。其中,模型参数是模型结构中的各个参数,能反应模型输出和输入的对应关系。在一个实施例中,第一神经网络模型可以采用ConvLSTM网络模型,即卷积长短时记忆神经网络模型(Convolutional Long Short Time MemoryNetwork)。
第一神经网络模型的隐层可包括多个ConvLSTM记忆单元。每一个ConvLSTM记忆单元都由输入门(input gate)、遗忘门(forget gate)、记忆细胞状态(cell state)、输出门(output gate)以及隐层(hidden)五个模块组成。这里的“门”是一种使信息选择性通过的结构,由一个sigmoid函数和一个点乘操作组成。sigmoid函数的输出值在[0,1]区间,0代表完全丢弃,1代表完全通过。这五个模块之间的关系可以由以下公式表示:
xt=Xt;
Ht=ottanh(Ct);
在上述公式中,“σ”代表sigmoid函数;“*”代表卷积运算;表示乘法运算,即向量矩阵中对应元素相乘;“tanh”为tanh函数,其取值在[-1,1]之间。xt表示输入门当前时刻t所接受的输入;it表示输入门当前时刻t的输出;ft表示遗忘门当前时刻t的输出;Ct表示当前时刻t隐层的记忆细胞状态;ot表示输出门当前时刻t的输出;Ht表示隐层当前时刻t的隐藏状态。Wxi、Whi、Wci、bi表示已训练好的输入门的模型参数,Wxf、Whf、Wcf、bf表示已训练好的遗忘门的模型参数,Wxc、Whc、bc表示已训练好的记忆细胞状态的模型参数,Wxo、Who、Wco、bo表示已训练好的输出门的模型参数。这些模型参数中的W表示相应的权重矩阵,b表示相应的损失偏置矩阵。
输入门用于与tanh函数配合以控制有哪些新的信息被加入至本记忆单元;遗忘门是以隐层前一时刻的隐层状态Ht-1和当前时刻的输入Xt为输入的sigmoid函数,用于控制前一时刻隐层的记忆细胞状态被遗忘的程度;记忆细胞状态用于对隐层的记忆细胞状态进行更新;输出门用于控制隐层当前时刻的记忆细胞状态被过滤的程度。隐藏状态用于表达隐层当前时刻的输出状态。
经过上述公式可推出,第一神经网络机器学习模型当前时刻的隐藏状态与前一时刻的隐藏状态、前一时刻的记忆细胞状态以及当前时刻的输入有关,即:Ht=ConvLSTM(Ht-1,Ct-1,Xt)。
当然,第一神经网络模型还可以采用其它具有记忆单元的机器学习模型,比如,循环神经网络模型(Recurrent neural network,RNN)、基于门控循环单元(Gated RecurrentUnit,GRU)的神经网络模型等。
如图5所示,在一个实施例中,步骤S206具体包括以下步骤:
S502,通过第一神经网络模型,对光流图进行编码,得到各光流图对应的编码光流图。
具体地,服务器可通过第一神经网络模型的输入层,将目标帧与各个参考帧之间的光流图依次传递至第一神经网络模型的隐层中,依次经过第一神经网络模型的隐层对其进行特征编码,通过输出层输出特征编码后的光流图,即,各光流图对应的编码光流图。可以理解,目标帧与各参考帧之间的光流图实质是二通道矩阵向量,第一神经网络模型对各个光流图进行特征编码的过程就是对各二通道矩阵向量进行特征变换后得到另一个特征向量的过程。
比如,在视频帧序列中,目标帧Ii的前k个视频帧为参考帧,将各参考帧与目标帧Ii之间的各光流图依次输入第一神经网络模型,用X表示第一神经网络模型的输入,O表示光流图,RO表示编码光流图,则X1=Oi→(i-1)、X2=Oi→(i-2)、X3=Oi→(i-3)、…、Xk=Oi→(i-k),通过模型的隐层对各个输入进行特征编码,得到目标帧与每个参考帧之间的编码光流图ROi→i-1、ROi→i-2、ROi→i-3、…、ROi→i-k。
S504,获取目标帧的图像特征及各参考帧的图像特征。
其中,图像特征(image features)是从视频帧中提取的用于将视频帧中的显著信息与背景信息区分开的特征向量。将视频帧的特征向量化,以使服务器能够“理解”视频帧,并对视频帧进行进一步的处理。对于各个参考帧及目标帧而言,都具有能够区别于彼此的图像特征。在一个实施例中,图像特征可以包括颜色特征、亮度特征和方向特征等等。多个特征对应的特征向量的组合可用于共同表达该视频帧。
在一个实施例中,对于视频帧序列中每个视频帧,即,各个参考帧以及目标帧,服务器获取与各视频帧相应的不同尺度的视频帧,分别提取各个尺度的视频帧的图像特征,包括颜色特征、亮度特征和方向特征,形成对应该视频帧的图像特征金字塔。
其中,颜色特征可以是视频帧中每个像素点的红色特征、绿色特征、蓝色特征以及黄色特征;亮度特征可以是红色特征、绿色特征、蓝色特征的平均值;方向特征可以是视频帧中每个像素点在0°、45°、90°、135°四个方向上的方向特征。
比如,服务器可先将视频帧表示成9层的高斯金字塔(Gaussian Pyramid)。具体地,服务器可利用高斯滤波器对视频帧进行卷积运算得到该视频帧的低通滤波结果,以对视频帧进行去噪处理,得到视频帧对应的高斯金字塔。其中,高斯金字塔的第0层即为该视频帧,第1层至第8层分别是高斯滤波器对视频帧进行去噪处理后得到的不同尺度的视频帧,大小分别是视频帧的1/2到1/256。服务器可对高斯金字塔每一层分别提取颜色特征、亮度特征和方向特征,形成该视频帧对应的图像特征金字塔。
在一个实施例中,步骤S504,获取目标帧的图像特征及各参考帧的图像特征,具体包括:将目标帧和各参考帧输入预训练的特征提取器;通过特征提取器的隐层,对输入的目标帧和各参考帧进行特征提取,获得特征提取器输出的相应图像特征。
在一个实施例中,特征提取器可以是基于DSS(Decision Support System,决策支持系统)的特征提取器。基于DSS的特征提取器是基于卷积神经网络的特征提取器。服务器可将各视频帧输入至特征提取器,通过特征提取器的隐层对输入的视频帧进行一系列的特征变换,得到各视频帧的图像特征。比如,根据特征提起器获得的针对视频帧Ii的图像特征可以用Nfea(Ii)来表示,具体形式是c×w×h(c为通道数,w为特征宽度,h为特征高度)的向量,c、w、h的大小由特征提取器的网络参数决定。
S506,基于各编码光流图,对各参考帧对应的图像特征进行线性变换,分别得到各参考帧对应的图像变换特征。
具体地,图像变换特征是携带了参考帧本身的特征以及与视频帧序列中其它帧之间的联系的特征向量。具体地,服务器可基于得到的各参考帧与目标帧之间的编码光流图,对各参考帧的图像特征进行线性变换,得到各个参考帧对应的图像变换特征。基于目标帧Ii与参考帧Ij之间的编码光流图ROi→j对该参考帧Ij的图像特征Nfea(Ij)进行线性变换得到该参考帧的图像变换特征WarpFi→j可采用以下公式来表示:
WarpFi→j=W(Nfea(Ij),ROi→j),其中W是双线性变换函数。
在一个实施例中,参考帧对应的图像特征为多通道向量矩阵;步骤S506,基于各编码光流图,对各参考帧对应的图像特征进行线性变换,分别得到各参考帧对应的图像变换特征,具体包括:通过双线性变换函数,对各参考帧对应的图像特征中各通道的向量矩阵与相应的编码光流图进行计算,得到各参考帧对应的图像特征中各通道的向量变换矩阵;根据计算的各通道的向量变换矩阵得到参考帧对应的图像变换特征。
比如,服务器在步骤S504中获得的各个参考帧的图像特征的大小为512×16×16向量矩阵,代表提取的图像特征是512通道的16×16大小的向量矩阵,服务器可通过双线性变换函数对这512个通道的向量矩阵与相应的编码光流图进行计算,得到这512个通道的向量变换矩阵,根据这512个通道的向量变换矩阵得到一个三维的向量矩阵,作为参考帧对应的图像变换特征。
S208,通过第二神经网络模型,根据各图像变换特征对目标帧的图像特征进行编码,得到目标帧的协同编码图像特征。
其中,第二神经网络模型是经过训练后具有特征编码能力的机器学习模型。第二神经网络模型是具有记忆单元的机器学习模型。在一个实施例中,第二神经网络模型可以采用ConvLSTM网络模型。
目标帧的协同编码图像特征,是携带了视频帧序列中各视频帧之间的运动变化信息以及各视频帧本身的图像特征之间的联系的特征向量。协同编码图像特征相比于在步骤S504中获取的目标帧的图像特征,是考虑了视频帧序列中各视频帧之间的动作变化信息和图像特征之间的联系后加强的特征。
具体地,服务器可通过第二神经网络模型的输入层,将目标帧的图像特征、各个参考帧对应的图像变换特征依次传递至第二神经网络模型的隐层中,依次经过第二神经网络模型的隐层对各个参考帧对应的图像变换特征进行特征编码,通过输出层输出目标帧对应的协同编码图像特征。可以理解,各参考帧对应的图像变换特征以及目标帧的图像特征都以特征向量矩阵的形式来表达,第二神经网络模型对各个图像变换特征、目标帧的图像特征进行特征编码的过程就是基于参考帧的特征向量矩阵对目标帧的特征向量矩阵进行特征变换后得到另一个特征向量矩阵的过程。
比如,在视频帧序列中,目标帧Ii的图像特征为Nfea(Ii),前k个视频帧为参考帧,各参考帧对应的图像变换特征为WarpFi→(i-1)、WarpFi→(i-2)、WarpFi→(i-3)、…、WarpFi→(i-k),将各参考帧对应的各图像变换特征、目标帧的图像特征Nfea(Ii)依次输入第二神经网络模型,以通过模型的隐层对目标帧的图像特征进行特征编码,得到第二神经网络模型最终的隐藏状态Hk+1,作为目标帧的协同编码图像特征。
S210,将协同编码图像特征输入像素级别分类器进行检测,输出目标帧的显著图。
其中,像素级别分类器是用于对视频帧序列中各像素点的像素级别进行分类的机器学习模型。具体地,服务器可通过像素级别分类器对获得的目标帧的协同编码图像特征进行检测,得到目标帧对应的显著图。比如,若设定的检测出的像素级别包括0和1两种,其中0代表显著区域像素,1代表非显著区域像素,通过像素级别分类器检测后目标帧中所有像素级别为0的各像素所构成的区域为显著区域,所有像素级别为1的各像素所构成的区域为非显著区域,显著区域和非显著区域构成了目标帧对应的显著图。
在一个实施例中,像素级别分类器可以是用于对静态图像进行显著性检测的像素级别分类器。比如可以是基于卷积神经网络的像素级别分类器。
如图6所示,为一个实施例中对视频帧序列中目标帧进行显著图检测的架构示意图。参照图6,服务器可将视频帧序列602输入至光流图计算模块604和特征提取器606,通过光流图计算模块604计算视频帧序列中目标帧t与各参考帧t-1、t-2、t-3、t-4之间的各光流图O,将各光流图逆序地输入至第一个ConvLSTM模型中进行编码,得到编码光流图RO;通过特征提取器606对视频帧序列中的目标帧以及参考帧进行图像特征提取,得到各视频帧对应的图像特征Nfea;然后基于得到的各光流图,对各参考帧的图像特征进行特征变换,得到各参考帧对应的图像变换特征WarpF;最后,将各参考帧对应的图像变换特征以及目标帧对应的图像特征输入至第二个ConvLSTM模型中进行编码,得到该模型最终的隐藏状态H,即为目标帧对应的协同编码图像特征,将协同编码图像特征输入至像素级别分类器608进行像素级别的检测,就得到了目标帧对应的显著图610。
如图7所示,为一个实施例中采用全卷积模型对静态图像进行显著图检测的架构示意图。参照图7,服务器通过基于全卷积的特征提取器702从静态图像中提取图像特征,然后将提取的特征输入至像素级别分类器704中进行检测,输出该静态图像的显著图706。
将图6和图7进行对比可知,图7中对静态图像进行显著图检测的过程仅基于该静态图像本身的图像特征进行检测。而对于视频帧序列中的目标帧进行显著图检测的方式,不仅依赖于目标帧本身的图像特征,还依赖与视频帧序列中各参考帧的图像特征,以及各视频帧的运动信息,可以有效地利用视频帧之间的动作变化信息以及各个视频帧的图像特征之间的联系,以对目标帧的特征进行加强,进而在加强的特征上进行像素级别的预测,能够明显提高显著图检测的准确性。
上述显著特征检测方法,利用视频帧序列中参考帧的特征对目标帧的图像特征进行加强,得到目标帧的协同编码图像特征,这样,根据协同编码图像特征进行显著性检测得到的显著图就参考了视频帧序列中各帧之间的联系,能够提升检测的准确度。其中,参考帧的特征是对光流图进行编码得到的图像变换特征,这样,参考帧的图像变换特征就携带了视频帧序列的图像变化信息和动作变化信息,从而,就可以基于各参考帧的图像变换特征对目标帧的图像特征编码以实现对目标帧的图像特征的加强,使得通过像素级别分类器对目标帧加强后的图像特征进行检测得到的显著图的准确性更强。
在一个实施例中,如图8所示,步骤S502,通过第一神经网络模型,对各光流图进行编码,得到各光流图对应的编码光流图,具体包括:
S802,将各光流图输入第一神经网络模型。
S804,在第一神经网络模型的隐层中,按照视频帧序列中各参考帧的先后顺序,对各光流图进行依次处理得到第一神经网络模型对应各光流图的隐藏状态。
具体地,服务器可将各光流图输入第一神经网络模型,按视频帧序列中各参考帧的先后顺序,利用第一神经网络模型隐层的模型参数对各光流图依次进行运算,得到运算结果,也就是该模型对应各个光流图的隐藏状态。其中,利用隐层的模型参数对光流图进行的运算可以是线性变换、非线性变换或者卷积变换等。即,第一神经网络模型在当前时刻t对应目标帧Ii与参考帧Ij之间的光流图Oi→j的隐藏状态Ht可用公式表示为:Ht=ConvLSTM(Ht-1,Ct-1,Oi→j)。
在一个实施例中,服务器可以按照视频帧序列中各参考帧的先后顺序,通过第一神经网络模型的隐层依次地对目标帧与各参考帧之间的各光流图进行运算,循环地将前次的运算结果和当前光流图作为当次运算的输入,进行当次运算,直至最后一次运算为止,依次得到第一神经网络模型对应各光流图的隐藏状态。可以理解,由于第一次处理时不存在前次运算结果,所以第一次运算时的输入的运算结果可以是各光流图之和的平均值。
举例说明:视频帧序列中各帧为I4、I5、I6、I7、I8,其中,I4、I5、I6、I7为参考帧,I8为目标帧。参考帧I4、I5、I6、I7与目标帧I8之间的光流图分别为O8→4、O8→5、O8→6、O8→7。服务器可通过第一神经网络模型的隐层,按照I7、I6、I5、I4顺序或者I4、I5、I6、I7的顺序,依次地对目标帧I8与各参考帧之间光流图进行运算。比如,根据O8→4、O8→5、O8→6、O8→7的平均值计算得到初始的隐藏状态H0,先将H0和I7与I8之间的光流图O8→7作为输入进行运算,得到O8→7相应的运算结果H1,然后将H1和I6与I8之间的光流图O8→6作为输入进行运算,得到O8→6相应的运算结果H2,然后将H2和I5与I8之间的光流图O8→5作为输入进行运算,得到O8→5相应的运算结果H3,依次类推,直至得到最后一个光流图O8→4相应的运算结果H4。
在一个实施例中,服务器可将得到的第一神经网络模型对应各光流图的隐藏状态作为各光流图对应的编码光流图。
S806,通过第一神经网络模型的卷积层,对得到的各隐藏状态进行降维处理,得到各光流图对应的编码光流图。
其中,卷积层用于进一步对第一神经网络模型对应各个光流图的隐藏状态进行降维处理。在一个实施例中,卷积层的权重参数矩阵可以是1×1大小的权重矩阵,服务器通过该卷积层对各隐藏状态进行卷积运算,得到各光流图对应的编码光流图,使得该编码光流图的大小和目标帧的图像大小一致。具体地,服务器在获取到第一神经网络模型对应各光流图的隐藏状态后,将各个隐藏状态输入第一神经网络模型的卷积层,得到各光流图对应的编码光流图。
举例说明:参考帧I4、I5、I6、I7与目标帧I8之间的光流图分别为O8→4、O8→5、O8→6、O8→7,第一神经网络模型对应各光流图的隐藏状态分别为H1、H2、H3、H4,则通过卷积层处理后的编码光流图分别为RO8→4、RO8→5、RO8→6、RO8→7,RO8→4=Conv1×1(H1)、RO8→5=Conv1×1(H2)、RO8→6=Conv1×1(H3)、RO8→7=Conv1×1(H4)。
在本实施例中,基于视频帧序列中各参考帧的先后顺序,通过第一神经网络模型的隐层依次地对各光流图进行编码,可以有效地利用视频帧序列中各帧之间在先后顺序上的动作变化规律,以对每一参考帧的特征进行加强。
在一个实施例中,步骤S804,在第一神经网络模型的隐层中,按照视频帧序列中各参考帧的先后顺序,对各光流图进行依次处理得到第一神经网络模型对应各光流图的隐藏状态,具体包括:按照视频帧序列中各参考帧的先后顺序,逆序地将各光流图作为第一神经网络模型的隐层当前处理的光流图;在当前处理的光流图是目标帧与视频帧序列中末尾的参考帧之间的光流图时,则通过隐层根据目标帧与各参考帧之间的光流图得到初始的隐藏状态;在当前处理的光流图不是目标帧与视频帧序列中末尾的参考帧之间的光流图时,则通过隐层根据当前处理的光流图、前次处理的光流图相应的隐藏状态得到当前处理的光流图相应的隐藏状态。
具体地,服务器可以按照视频帧序列中各参考帧的先后顺序,通过第一神经网络模型的隐层,逆序地对目标帧与各参考帧之间的各光流图进行运算,循环地将前次的运算结果和当前光流图作为当次处理的输入,进行当次处理,直至最后一次处理为止,依次得到第一神经网络模型对应各光流图的隐藏状态。
以k=4、目标帧Ii为I8来举例说明:视频帧序列中参考帧为I4、I5、I6、I7,末尾的参考帧为I7,第一神经网络初始的隐藏状态服务器将目标帧与各参考帧的各光流图输入第一神经网络模型后,通过第一神经网络模型的隐层,按照视频帧序列中各参考帧的先后顺序,先对逆序第一个光流图O8→7进行处理,根据初始的隐藏状态H0和O8→7得到O8→7相应的运算结果H1,再对H1和逆序第二个光流图O8→6进行处理,得到O8→6相应的运算结果H2,再对H2和逆序第三个光流图O8→5进行处理,得到O8→5相应的运算结果H3…直至得到最后一个光流图O8→4相应的运算结果H4。
在本实施例中,基于视频帧序列中各参考帧的先后顺序的逆序,循环地将前次运算结果和当前参考帧与目标帧的光流图作为当次运算的输入值,使得当前得到的隐藏状态既能反映当前参考帧所携带的运动变化信息,还能反映在后的参考帧所携带的运动变化信息,从而能够更加充分、完整地反映当前参考帧与其它参考帧以及目标帧之间的动作演化规律,进而使得基于该隐藏状态所进行的针对目标帧的显著图检测更加准确。
在一个实施例中,步骤S804,在第一神经网络模型的隐层中,按照视频帧序列中各参考帧的先后顺序,对各光流图进行依次处理得到第一神经网络模型对应各光流图的隐藏状态,具体包括:按照视频帧序列中各参考帧的先后顺序,顺序地将各光流图作为第一神经网络模型的隐层当前处理的光流图;在当前处理的光流图是目标帧与视频帧序列中首个参考帧之间的光流图时,则通过隐层根据目标帧与各参考帧之间的光流图得到初始的隐藏状态;在当前处理的光流图不是目标帧与视频帧序列中首个参考帧之间的光流图时,则通过隐层根据当前处理的光流图、前次处理的光流图相应的隐藏状态得到当前处理的光流图相应的隐藏状态。
具体地,服务器可以按照视频帧序列中各参考帧的先后顺序,通过第一神经网络模型的隐层,顺序地对目标帧与各参考帧之间的各光流图进行运算,循环地将前次的运算结果和当前光流图作为当次处理的输入,进行当次处理,直至最后一次处理为止,依次得到第一神经网络模型对应各光流图的隐藏状态。
以k=4、目标帧Ii为I8来举例说明:视频帧序列中参考帧为I4、I5、I6、I7,首个参考帧为I4,第一神经网络模型初始的隐藏状态服务器将目标帧与各参考帧的各光流图输入第一神经网络模型后,通过第一神经网络模型的隐层,按照视频帧序列中各参考帧的先后顺序,先对顺序第一个光流图O8→4进行处理,根据初始的隐藏状态H0和O8→4得到O8→4相应的运算结果H1,再对H1和顺序第二个光流图O8→5进行处理,得到O8→5相应的运算结果H2,再对H2和顺序第三个光流图O8→6进行处理,得到O8→5相应的运算结果H3…直至得到最后一个光流图O8→7相应的运算结果H4。
在本实施例中,基于视频帧序列中各参考帧的先后顺序的顺序,循环地将前次运算结果和当前参考帧与目标帧的光流图作为当次运算的输入值,使得当前得到的隐藏状态既能反映当前参考帧所携带的运动变化信息,还能反映在先的参考帧所携带的运动变化信息,从而能够更加充分、完整地反映当前参考帧与其它参考帧以及目标帧之间的动作演化规律,进而使得基于该隐藏状态所进行的针对目标帧的显著图检测更加准确。
在一个实施例中,如图9所示,步骤S208,通过第二神经网络模型,根据各图像变换特征对目标帧的图像特征进行编码,得到目标帧的协同编码图像特征,具体包括:
S902,将各参考帧对应的图像变换特征、目标帧的图像特征输入第二神经网络模型。
S904,在第二神经网络模型的隐层中,按照视频帧序列中各视频帧的先后顺序,对各参考帧对应的图像变换特征进行依次处理得到第二神经网络模型对应各图像变换特征的隐藏状态。
具体地,服务器可将各参考帧对应的图像变换特征、目标帧的图像特征输入第二神经网络模型,按视频帧序列中各参考帧的先后顺序,利用第二神经网络模型隐层的模型参数对各图像变换特征依次进行运算,得到运算结果,也就是该模型对应各个图像变换特征的隐藏状态。其中,利用隐层的模型参数对图像变换特征进行的运算可以是线性变换、非线性变换或者卷积变换等。即,第二神经网络模型在当前时刻t对应参考帧Ij所对应的图像变换特征WarpFi→j的隐藏状态Ht可用公式表示为:Ht=ConvLSTM(Ht-1,Ct-1,WarpFi→j),在处理的对象为目标帧时,公式中的WarpFi→j就可用目标帧的图像特征Nfea(Ii)代替。
在一个实施例中,服务器可以按照视频帧序列中各参考帧的先后顺序,通过第二神经网络模型的隐层依次地对参考帧的图像变换特征进行运算,循环地将前次的运算结果和当前参考帧的图像变换特征作为当次运算的输入,进行当次运算,直至最后一次运算为止,依次得到第二神经网络模型对应各图像变换特征的隐藏状态。可以理解,由于第一次处理时不存在前次运算结果,所以第一次运算时的输入的运算结果可以是各参考帧的图像变换特征、目标帧的图像特征之和的平均值。
S906,根据目标帧的图像特征以及第二神经网络模型对应末次处理的图像变换特征的隐藏状态,计算得到目标帧的协同编码图像特征。
具体地,服务器可根据第二神经网络模型对应末次处理的参考帧的图像变换特征所对应的隐藏状态、记忆细胞状态对目标帧的图像特征进行编码,得到第二神经网络模型最终的隐藏状态,作为目标帧的协同编码特征。可以理解,最终的隐藏状态从时序上反映了视频帧序列各视频帧之间的协同性,也就是目标帧的协同编码特征所包含的信息更为丰富和多样。
在本实施例中,基于视频帧序列中各参考帧的先后顺序,通过第二神经网络模型的隐层依次地对视频帧序列中各参考帧的图像变换特征进行编码,可以有效地利用视频帧序列中各帧之间在时序性的特征演变规律,从而最终实现对目标帧的特征进行加强。
在一个实施例中,步骤S904,在第二神经网络模型的隐层中,按照视频帧序列中各视频帧的先后顺序,对各参考帧对应的图像变换特征进行依次处理得到第二神经网络模型对应各图像变换特征的隐藏状态,具体包括:按照视频帧序列中各参考帧的先后顺序,顺序地将各图像变换特征作为第二神经网络模型的隐层当前处理的图像变换特征;在当前处理的图像变换特征是视频帧序列中首个参考帧对应的图像变换特征时,则通过隐层根据各参考帧对应的图像变换特征、目标帧的图像特征得到初始的隐藏状态;在当前处理的图像变换特征不是视频帧序列中首个参考帧对应的图像变换特征时,则通过隐层根据当前处理的图像变换特征、前次处理的图像变换特征相应的隐藏状态得到当前处理的图像变换特征相应的隐藏状态。
具体地,服务器可以按照视频帧序列中各参考帧的先后顺序,通过第二神经网络模型的隐层,顺序地对目标帧对应的图像变换特征进行运算,循环地将前次的运算结果和当前参考帧对应的图像变换特征作为当次处理的输入,进行当次处理,直至最后一次处理为止,依次得到第二神经网络模型对应各图像变换特征的隐藏状态。
仍以k=4、目标帧Ii为I8来举例说明:视频帧序列中参考帧为I4、I5、I6、I7,首个参考帧为I4,各个参考帧对应的图像变换特征分别为WarpF8→4、WarpF8→5、WarpF8→6、WarpF8→7,目标帧I8的图像特征为Nfea(I8),第二神经网络模型初始的隐藏状态为:服务器将目标帧的图像特征、各参考帧对应的图像变换特征输入第二神经网络模型后,通过第二神经网络模型的隐层,按照视频帧序列中各参考帧的先后顺序,先对顺序第一个图像变换特征WarpF8→4进行处理,根据初始的隐藏状态H0和WarpF8→4得到WarpF8→4相应的运算结果H1,再对H1和顺序第二个图像变换特征WarpF8→5进行处理,得到WarpF8→5相应的运算结果H2,再对H2和顺序第三个图像变换特征WarpF8→6进行处理,得到WarpF8→6相应的运算结果H3,直至得到最后一个图像变换特征WarpF8→7相应的运算结果H4,再对H4和目标帧的图像特征Nfea(I8)进行处理,得到第二神经网络模型最终的隐藏状态,作为目标帧的协同编码图像特征。
在本实施例中,基于视频帧序列中各参考帧的先后顺序的顺序,循环地将前次运算结果和当前参考帧对应的图像变换特征作为当次运算的输入值,使得当前得到的隐藏状态既能反映当前参考帧所携带的图像特征和运动变换信息,还能反映在先的参考帧在时序上所携带的运动变化信息,以增加目标帧的特征与在线的参考帧特征之间的时序协同性。
在一个实施例中,步骤S904,在第二神经网络模型的隐层中,按照视频帧序列中各视频帧的先后顺序,对各参考帧对应的图像变换特征进行依次处理得到第二神经网络模型对应各图像变换特征的隐藏状态,具体包括:在第二神经网络模型的隐层中,按照视频帧序列中各视频帧的先后顺序,对各参考帧对应的图像变换特征进行依次处理得到第二神经网络模型对应各图像变换特征的隐藏状态,包括:按照视频帧序列中各参考帧的先后顺序,逆序地将各图像变换特征作为第二神经网络模型的隐层当前处理的图像变换特征;在当前处理的图像变换特征为视频帧序列中末尾的参考帧对应的图像变换特征时,则通过隐层根据各参考帧对应的图像变换特征、目标帧的图像特征得到初始的隐藏状态;在当前处理的图像变换特征不为视频帧序列中末尾的参考帧对应的图像变换特征时,则通过隐层根据当前处理的图像变换特征、前次处理的图像变换特征相应的隐藏状态得到当前处理的图像变换特征相应的隐藏状态。
具体地,服务器可以按照视频帧序列中各参考帧的先后顺序,通过第二神经网络模型的隐层,逆序地对目标帧对应的图像变换特征进行运算,循环地将前次的运算结果和当前参考帧对应的图像变换特征作为当次处理的输入,进行当次处理,直至最后一次处理为止,依次得到第二神经网络模型对应各图像变换特征的隐藏状态。
仍以k=4、目标帧Ii为I8来举例说明:视频帧序列中参考帧为I4、I5、I6、I7,末尾的参考帧为I7,各个参考帧对应的图像变换特征分别为WarpF8→4、WarpF8→5、WarpF8→6、WarpF8→7,目标帧I8的图像特征为Nfea(I8),第二神经网络模型初始的隐藏状态为H0。服务器将目标帧的图像特征、各参考帧对应的图像变换特征输入第二神经网络模型后,通过第二神经网络模型的隐层,按照视频帧序列中各参考帧的先后顺序,先对逆序第一个图像变换特征WarpF8→7进行处理,根据初始的隐藏状态H0和WarpF8→7得到WarpF8→7相应的运算结果H1,再对H1和逆序第二个图像变换特征WarpF8→6进行处理,得到WarpF8→6相应的运算结果H2,再对H2和逆序第三个图像变换特征WarpF8→5进行处理,得到WarpF8→5相应的运算结果H3,直至得到最后一个图像变换特征WarpF8→4相应的运算结果H4,再对H4和目标帧的图像特征Nfea(I8)进行处理,得到第二神经网络模型最终的隐藏状态,作为目标帧的协同编码图像特征。
在本实施例中,基于视频帧序列中各参考帧的先后顺序的顺序,循环地将前次运算结果和当前参考帧对应的图像变换特征作为当次运算的输入值,使得当前得到的隐藏状态既能反映当前参考帧所携带的图像特征和运动变换信息,还能反映在后的参考帧在时序上所携带的运动变化信息,以增加目标帧的特征与在后的参考帧特征之间的时序协同性。
在一个实施例中,步骤S210,将协同编码图像特征输入像素级别分类器进行检测,输出目标帧的显著图,具体包括:将目标帧的协同编码图像特征输入像素级别分类器;通过像素级别分类器的隐层,对协同编码图像特征进行像素级别检测,得到目标帧中各像素点的像素级别;依据目标帧中各像素点的像素级别,输出目标帧对应的显著图。
如图10所示,为一个实施例中对视频帧中的目标帧进行显著图检测后得到的显著图的示意图。参考图10,从人的视角来看,显然画面中的蝴蝶为目标帧中的值得注意的部分,而除了蝴蝶之外到的背景区域通常是不令人感兴趣的。从该目标帧对应的显著图可以看出,显著图中的显著部分正是蝴蝶。
在一个实施例中,服务器可采用对静态图像进行图像特征提取的特征提取器来对视频帧序列中的目标帧以及各参考帧进行特征提取。
在本实施例中,在得到了目标帧加强后的特征,即协同编码图像特征后,就可以采用像素级别分类器对加强的特征进行显著性检测,以预测出目标帧中各个像素点的像素级别,从而得到的显著图更为准确。
在一个实施例中,显著特征检测方法还包括:根据视频帧的显著图确定视频帧中的显著区域和非显著区域;对视频帧中的显著区域和非显著区域分别按不同的压缩比进行压缩。
其中,视频帧中的显著区域即为需要投入较大注意力的画面区域;非显著区域即为不需要投入较大注意力的画面区域。显著区域比如一个视频帧中的人像区域,而非显著区域为该视频帧中人像所在的背景区域。
具体地,服务器可根据得到的视频帧的显著图确定视频帧中的显著区域和非显著区域后,获取预设的显著区域和非显著区域相应的压缩比,按照相应的压缩比对视频帧中的显著区域和非显著区域进行压缩处理。可以理解,压缩比越大,画质损失越严重。在不同的应用场景中,显著区域的压缩比和非显著区域的压缩比可以按需设置。比如,为了既能保证显著区域的画面质量,又能减小视频帧的大小以便于传输或存储,就可以为视频帧的非显著区域设置较大的压缩比,为视频帧的显著区域设置较小的压缩比。
在本实施例中,在获取到视频帧的显著图后可以自动分析出视频帧中值得关注的显著区域和不令人感兴趣的非显著区域,从而可以按照不同的压缩比对视频帧的不同区域进行压缩,适用于多种应用场景。
在一个实施例中,显著特征检测方法还包括:根据视频帧的显著图定位视频帧中的待增强区域;对待增强区域进行图像增强处理。
其中,待增强区域是视频帧中待进行图像增强处理的区域。图像增强处理比如可以是图像美化处理、图像滤镜处理、图像抠图处理等。
在一个具体的应用场景中,服务器可对视频流中每个视频帧进行图像美化处理。具体地,服务器获取视频流中每个视频帧的显著图,根据每个视频帧的显著图定位各视频帧中的待美化区域,对待美化区域进行美化处理,从而根据美化处理后的每个视频帧得到美化后的视频流,以提升用户观看视频流的体验。
进一步地,服务器可在定位到视频帧中的待美化区域后,自动地在视频帧中标注待美化区域,进而对标注的待美化区域进行美化处理。相比于用户手工标注待美化区域而言,根据视频帧的显著图标注的待美化区域更为精准。
在本实施例中,在获取到视频帧的显著图后可自动地为用户定位出视频帧中待增强区域,是用户最可能进一步处理的区域,可帮助用户自动标注该区域或进行图像增强处理,提升用户体验。
如图11所示,在一个具体地实施例中,显著特征检测方法具体包括以下步骤:
S1102,确定视频流中的目标帧。
S1104,按照视频帧序列中目标帧和参考帧间的预设先后顺序,从视频流中选取作为参考帧的视频帧,得到包括目标帧和参考帧的视频帧序列。
S1106,确定目标帧中各像素点的第一位置;
S1108,在各参考帧中查找与目标帧中各像素点相应的像素点;
S1110,确定查找的各像素点的第二位置;
S1112,将第一位置的水平位置和第二位置的水平位置作差,获得目标帧中各像素点相对于各参考帧中相应的像素点的水平位置偏移;
S1114,将第一位置的竖直位置和第二位置的竖直位置作差,获得目标帧中各像素点相对于各参考帧中相应的像素点的竖直位置偏移;
S1116,根据水平位置偏移和竖直位置偏移构建二通道矩阵向量,以获得目标帧与各参考帧之间的光流图。
S1118,将各光流图输入第一神经网络模型。
S1120,按照视频帧序列中各参考帧的先后顺序,逆序地将各光流图作为第一神经网络模型的隐层当前处理的光流图。
S1122,在当前处理的光流图是目标帧与视频帧序列中末尾的参考帧之间的光流图时,则通过隐层根据目标帧与各参考帧之间的光流图得到初始的隐藏状态。
S1124,在当前处理的光流图不是目标帧与视频帧序列中末尾的参考帧之间的光流图时,则通过隐层根据当前处理的光流图、前次处理的光流图相应的隐藏状态得到当前处理的光流图相应的隐藏状态。
S1126,通过第一神经网络模型的卷积层,对得到的各隐藏状态进行降维处理,得到各光流图对应的编码光流图。
S1128,将目标帧和各参考帧输入预训练的特征提取器。
S1130,通过特征提取器的隐层,对输入的目标帧和各参考帧进行特征提取,获得特征提取器输出的相应图像特征。
S1132,通过双线性变换函数,对各参考帧对应的图像特征中各通道的向量矩阵与相应的编码光流图进行计算,得到各参考帧对应的图像特征中各通道的向量变换矩阵。
S1134,根据计算的各通道的向量变换矩阵得到参考帧对应的图像变换特征。
S1136,将各参考帧对应的图像变换特征、目标帧的图像特征输入第二神经网络模型;
S1138,按照视频帧序列中各参考帧的先后顺序,顺序地将各图像变换特征作为第二神经网络模型的隐层当前处理的图像变换特征;
S1140,在当前处理的图像变换特征是视频帧序列中首个参考帧对应的图像变换特征时,则通过隐层根据各参考帧对应的图像变换特征、目标帧的图像特征得到初始的隐藏状态;
S1142,在当前处理的图像变换特征不是视频帧序列中首个参考帧对应的图像变换特征时,则通过隐层根据当前处理的图像变换特征、前次处理的图像变换特征相应的隐藏状态得到当前处理的图像变换特征相应的隐藏状态。
S1144,根据目标帧的图像特征以及第二神经网络模型对应末次处理的图像变换特征的隐藏状态,计算得到目标帧的协同编码图像特征。
S1146,将目标帧的协同编码图像特征输入像素级别分类器;
S1148,通过像素级别分类器的隐层,对协同编码图像特征进行像素级别检测,得到目标帧中各像素点的像素级别;
S1150,依据目标帧中各像素点的像素级别,输出目标帧对应的显著图。
上述显著特征检测方法,利用视频帧序列中参考帧的特征对目标帧的图像特征进行加强,得到目标帧的协同编码图像特征,这样,根据协同编码图像特征进行显著性检测得到的显著图就参考了视频帧序列中各帧之间的联系,能够提升检测的准确度。其中,参考帧的特征是对光流图进行编码得到的图像变换特征,这样,参考帧的图像变换特征就携带了视频帧序列的图像变化信息和动作变化信息,从而,就可以基于各参考帧的图像变换特征对目标帧的图像特征编码以实现对目标帧的图像特征的加强,使得通过像素级别分类器对目标帧加强后的图像特征进行检测得到的显著图的准确性更强。
图11为一个实施例中显著特征检测方法的流程示意图。应该理解的是,虽然图11的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图11中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图12所示,在一个实施例中,提供了一种显著特征检测装置1200,该装置包括:视频帧序列获取模块1202、光流图计算模块1204、光流图编码模块1206、图像特征编码模块1208和显著图检测模块1210,其中:
视频帧序列获取模块1202,用于获取视频帧序列,视频帧序列包括目标帧和多个参考帧。
光流图计算模块1204,用于计算目标帧与各参考帧之间的光流图;
光流图编码模块1206,用于通过第一神经网络模型,对各光流图进行编码,分别得到各参考帧对应的图像变换特征。
图像特征编码模块1208,用于通过第二神经网络模型,根据各图像变换特征对目标帧的图像特征进行编码,得到目标帧的协同编码图像特征。
显著图检测模块1210,用于将协同编码图像特征输入像素级别分类器进行检测,输出目标帧的显著图。
在一个实施例中,光流图计算模块1204还用于确定目标帧中各像素点的第一位置;在各参考帧中查找与目标帧中各像素点相应的像素点;确定查找的各像素点的第二位置;根据第一位置和第二位置的偏移计算得到目标帧与各参考帧之间的光流图。
在一个实施例中,光流图计算模块1204还用于将第一位置的水平位置和第二位置的水平位置作差,获得目标帧中各像素点相对于各参考帧中相应的像素点的水平位置偏移;将第一位置的竖直位置和第二位置的竖直位置作差,获得目标帧中各像素点相对于各参考帧中相应的像素点的竖直位置偏移;根据水平位置偏移和竖直位置偏移构建二通道矩阵向量,以获得目标帧与各参考帧之间的光流图。
在一个实施例中,如图13所示,光流图编码模块1206具体包括编码模块1302、图像特征获取模块1304和图像特征变换模块1306,其中:编码模块1302用于通过第一神经网络模型,对光流图进行编码,得到各光流图对应的编码光流图;图像特征获取模块1304用于获取目标帧的图像特征及各参考帧的图像特征;图像特征变换模块1306用于基于各编码光流图,对各参考帧对应的图像特征进行线性变换,得到各参考帧对应的图像变换特征。
在一个实施例中,如图14所示,编码模块1302具体包括第一输入模块1402、第一隐藏状态计算模块1404和降维处理模块1406,其中:
第一输入模块1402,用于将各光流图输入第一神经网络模型。
第一隐藏状态计算模块1404,用于在第一神经网络模型的隐层中,按照视频帧序列中各参考帧的先后顺序,对各光流图进行依次处理得到第一神经网络模型对应各光流图的隐藏状态。
降维处理模块1406,用于通过第一神经网络模型的卷积层,对得到的各隐藏状态进行降维处理,得到各光流图对应的编码光流图。
在一个实施例中,隐藏状态计算模块1404还用于按照视频帧序列中各参考帧的先后顺序,逆序地将各光流图作为第一神经网络模型的隐层当前处理的光流图;在当前处理的光流图是目标帧与视频帧序列中末尾的参考帧之间的光流图时,则通过隐层根据目标帧与各参考帧之间的光流图得到初始的隐藏状态;在当前处理的光流图不是目标帧与视频帧序列中末尾的参考帧之间的光流图时,则通过隐层根据当前处理的光流图、前次处理的光流图相应的隐藏状态得到当前处理的光流图相应的隐藏状态。
在一个实施例中,隐藏状态计算模块1404还用于按照视频帧序列中各参考帧的先后顺序,顺序地将各光流图作为第一神经网络模型的隐层当前处理的光流图;在当前处理的光流图是目标帧与视频帧序列中首个参考帧之间的光流图时,则通过隐层根据目标帧与各参考帧之间的光流图得到初始的隐藏状态;在当前处理的光流图不是目标帧与视频帧序列中首个参考帧之间的光流图时,则通过隐层根据当前处理的光流图、前次处理的光流图相应的隐藏状态得到当前处理的光流图相应的隐藏状态。
在一个实施例中,图像特征获取模块1304还用于将目标帧和各参考帧输入预训练的特征提取器;通过特征提取器的隐层,对输入的目标帧和各参考帧进行特征提取,获得特征提取器输出的相应图像特征。
在一个实施例中,参考帧对应的图像特征为多通道向量矩阵;图像特征变换模块1306还用于通过双线性变换函数,对各参考帧对应的图像特征中各通道的向量矩阵与相应的编码光流图进行计算,得到各参考帧对应的图像特征中各通道的向量变换矩阵;根据计算的各通道的向量变换矩阵得到参考帧对应的图像变换特征。
在一个实施例中,如图15所示,图像特征编码模块1208具体包括第二输入模块1502、第二隐藏状态计算模块1504和协同编码图像特征计算模块1506,其中:
第二输入模块1502,用于将各参考帧对应的图像变换特征、目标帧的图像特征输入第二神经网络模型。
第二隐藏状态计算模块1504,用于在第二神经网络模型的隐层中,按照视频帧序列中各视频帧的先后顺序,对各参考帧对应的图像变换特征进行依次处理得到第二神经网络模型对应各图像变换特征的隐藏状态。
协同编码图像特征计算模块1506,用于根据目标帧的图像特征以及第二神经网络模型对应末次处理的图像变换特征的隐藏状态,计算得到目标帧的协同编码图像特征。
在一个实施例中,第二隐藏状态计算模块1504还用于按照视频帧序列中各参考帧的先后顺序,顺序地将各图像变换特征作为第二神经网络模型的隐层当前处理的图像变换特征;在当前处理的图像变换特征是视频帧序列中首个参考帧对应的图像变换特征时,则通过隐层根据各参考帧对应的图像变换特征、目标帧的图像特征得到初始的隐藏状态;在当前处理的图像变换特征不是视频帧序列中首个参考帧对应的图像变换特征时,则通过隐层根据当前处理的图像变换特征、前次处理的图像变换特征相应的隐藏状态得到当前处理的图像变换特征相应的隐藏状态。
在一个实施例中,第二隐藏状态计算模块1504还用于按照视频帧序列中各参考帧的先后顺序,逆序地将各图像变换特征作为第二神经网络模型的隐层当前处理的图像变换特征;在当前处理的图像变换特征为视频帧序列中末尾的参考帧对应的图像变换特征时,则通过隐层根据各参考帧对应的图像变换特征、目标帧的图像特征得到初始的隐藏状态;在当前处理的图像变换特征不为视频帧序列中末尾的参考帧对应的图像变换特征时,则通过隐层根据当前处理的图像变换特征、前次处理的图像变换特征相应的隐藏状态得到当前处理的图像变换特征相应的隐藏状态。
在一个实施例中,显著图检测模块1210还用于将目标帧的协同编码图像特征输入像素级别分类器;通过像素级别分类器的隐层,对协同编码图像特征进行像素级别检测,得到目标帧中各像素点的像素级别;依据目标帧中各像素点的像素级别,输出目标帧对应的显著图。
在一个实施例中,视频帧序列获取模块1202还用于确定视频流中的目标帧;按照视频帧序列中目标帧和参考帧间的预设先后顺序,从视频流中选取作为参考帧的视频帧,得到包括目标帧和参考帧的视频帧序列。
在一个实施例中,显著特征检测装置1200还包括视频帧压缩处理模块,视频帧压缩处理模块用于根据视频帧的显著图确定视频帧中的显著区域和非显著区域;对视频帧中的显著区域和非显著区域分别按不同的压缩比进行压缩。
上述显著特征检测装置,利用视频帧序列中参考帧的特征对目标帧的图像特征进行加强,得到目标帧的协同编码图像特征,这样,根据协同编码图像特征进行显著性检测得到的显著图就参考了视频帧序列中各帧之间的联系,能够提升检测的准确度。其中,参考帧的特征是对光流图进行编码得到的图像变换特征这样,参考帧的图像变换特征就携带了视频帧序列的图像变化信息和动作变化信息,从而,就可以基于各参考帧的图像变换特征对目标帧的图像特征编码以实现对目标帧的图像特征的加强,使得通过像素级别分类器对目标帧加强后的图像特征进行检测得到的显著图的准确性更强。
图16示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图16所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现显著特征检测方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行显著特征检测方法。
本领域技术人员可以理解,图16中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的显著特征检测装置可以实现为一种计算机程序的形式,计算机程序可在如图16所示的计算机设备上运行。计算机设备的存储器中可存储组成该显著特征检测装置的各个程序模块,比如,图11所示的视频帧序列获取模块、光流图计算模块、光流图编码模块、图像特征获取模块、图像特征变换模块、图像特征编码模块和显著图检测模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的显著特征检测方法中的步骤。
例如,图16所示的计算机设备可以通过如图12所示的显著特征检测装置中的视频帧序列获取模块1202执行步骤S202。计算机设备可通过光流图计算模块1204执行步骤S204。计算机设备可通过光流图编码模块1206执行步骤S206。计算机设备可通过图像特征编码模块1208执行步骤S208。计算机设备可通过显著图检测模块1210执行步骤S210。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取视频帧序列,视频帧序列包括目标帧和多个参考帧;计算目标帧与各参考帧之间的光流图;通过第一神经网络模型,对各光流图进行编码,分别得到各参考帧对应的图像变换特征;通过第二神经网络模型,根据各图像变换特征对目标帧的图像特征进行编码,得到目标帧的协同编码图像特征;将协同编码图像特征输入像素级别分类器进行检测,输出目标帧的显著图。
在一个实施例中,计算机程序被处理器执行计算目标帧与各参考帧之间的光流图的步骤时,使得处理器具体执行以下步骤:确定目标帧中各像素点的第一位置;在各参考帧中查找与目标帧中各像素点相应的像素点;确定查找的各像素点的第二位置;根据第一位置和第二位置的偏移计算得到目标帧与各参考帧之间的光流图。
在一个实施例中,计算机程序被处理器执行根据第一位置和第二位置的偏移计算得到目标帧与各参考帧之间的光流图的步骤时,使得处理器具体执行以下步骤:将第一位置的水平位置和第二位置的水平位置作差,获得目标帧中各像素点相对于各参考帧中相应的像素点的水平位置偏移;将第一位置的竖直位置和第二位置的竖直位置作差,获得目标帧中各像素点相对于各参考帧中相应的像素点的竖直位置偏移;根据水平位置偏移和竖直位置偏移构建二通道矩阵向量,以获得目标帧与各参考帧之间的光流图。
在一个实施例中,计算机程序被处理器执行通过第一神经网络模型,对各光流图进行编码,分别得到各参考帧对应的图像变换特征的步骤时,使得处理器具体执行以下步骤:通过第一神经网络模型,对光流图进行编码,得到各光流图对应的编码光流图;获取目标帧的图像特征及各参考帧的图像特征;基于各编码光流图,对各参考帧对应的图像特征进行线性变换,得到各参考帧对应的图像变换特征。
在一个实施例中,计算机程序被处理器执行通过第一神经网络模型,对各光流图进行编码,得到各光流图对应的编码光流图的步骤时,使得处理器具体执行以下步骤:将各光流图输入第一神经网络模型;在第一神经网络模型的隐层中,按照视频帧序列中各参考帧的先后顺序,对各光流图进行依次处理得到第一神经网络模型对应各光流图的隐藏状态;通过第一神经网络模型的卷积层,对得到的各隐藏状态进行降维处理,得到各光流图对应的编码光流图。
在一个实施例中,计算机程序被处理器执行在第一神经网络模型的隐层中,按照视频帧序列中各参考帧的先后顺序,对各光流图进行依次处理得到第一神经网络模型对应各光流图的隐藏状态的步骤时,使得处理器具体执行以下步骤:按照视频帧序列中各参考帧的先后顺序,逆序地将各光流图作为第一神经网络模型的隐层当前处理的光流图;在当前处理的光流图是目标帧与视频帧序列中末尾的参考帧之间的光流图时,则通过隐层根据目标帧与各参考帧之间的光流图得到初始的隐藏状态;在当前处理的光流图不是目标帧与视频帧序列中末尾的参考帧之间的光流图时,则通过隐层根据当前处理的光流图、前次处理的光流图相应的隐藏状态得到当前处理的光流图相应的隐藏状态。
在一个实施例中,计算机程序被处理器执行在第一神经网络模型的隐层中,按照视频帧序列中各参考帧的先后顺序,对各光流图进行依次处理得到第一神经网络模型对应各光流图的隐藏状态的步骤时,使得处理器具体执行以下步骤:按照视频帧序列中各参考帧的先后顺序,顺序地将各光流图作为第一神经网络模型的隐层当前处理的光流图;在当前处理的光流图是目标帧与视频帧序列中首个参考帧之间的光流图时,则通过隐层根据目标帧与各参考帧之间的光流图得到初始的隐藏状态;在当前处理的光流图不是目标帧与视频帧序列中首个参考帧之间的光流图时,则通过隐层根据当前处理的光流图、前次处理的光流图相应的隐藏状态得到当前处理的光流图相应的隐藏状态。
在一个实施例中,计算机程序被处理器执行获取目标帧的图像特征及各参考帧的图像特征的步骤时,使得处理器具体执行以下步骤:将目标帧和各参考帧输入预训练的特征提取器;通过特征提取器的隐层,对输入的目标帧和各参考帧进行特征提取,获得特征提取器输出的相应图像特征。
在一个实施例中,参考帧对应的图像特征为多通道向量矩阵;计算机程序被处理器执行基于各编码光流图,对各参考帧对应的图像特征进行线性变换,分别得到各参考帧对应的图像变换特征的步骤时,使得处理器具体执行以下步骤:通过双线性变换函数,对各参考帧对应的图像特征中各通道的向量矩阵与相应的编码光流图进行计算,得到各参考帧对应的图像特征中各通道的向量变换矩阵;根据计算的各通道的向量变换矩阵得到参考帧对应的图像变换特征。
在一个实施例中,计算机程序被处理器执行通过第二神经网络模型,根据各图像变换特征对目标帧的图像特征进行编码,得到目标帧的协同编码图像特征的步骤时,使得处理器具体执行以下步骤:将各参考帧对应的图像变换特征、目标帧的图像特征输入第二神经网络模型;在第二神经网络模型的隐层中,按照视频帧序列中各视频帧的先后顺序,对各参考帧对应的图像变换特征进行依次处理得到第二神经网络模型对应各图像变换特征的隐藏状态;根据目标帧的图像特征以及第二神经网络模型对应末次处理的图像变换特征的隐藏状态,计算得到目标帧的协同编码图像特征。
在一个实施例中,计算机程序被处理器执行在第二神经网络模型的隐层中,按照视频帧序列中各视频帧的先后顺序,对各参考帧对应的图像变换特征进行依次处理得到第二神经网络模型对应各图像变换特征的隐藏状态的步骤时,使得处理器具体执行以下步骤:按照视频帧序列中各参考帧的先后顺序,顺序地将各图像变换特征作为第二神经网络模型的隐层当前处理的图像变换特征;在当前处理的图像变换特征是视频帧序列中首个参考帧对应的图像变换特征时,则通过隐层根据各参考帧对应的图像变换特征、目标帧的图像特征得到初始的隐藏状态;在当前处理的图像变换特征不是视频帧序列中首个参考帧对应的图像变换特征时,则通过隐层根据当前处理的图像变换特征、前次处理的图像变换特征相应的隐藏状态得到当前处理的图像变换特征相应的隐藏状态。
在一个实施例中,计算机程序被处理器执行在第二神经网络模型的隐层中,按照视频帧序列中各视频帧的先后顺序,对各参考帧对应的图像变换特征进行依次处理得到第二神经网络模型对应各图像变换特征的隐藏状态的步骤时,使得处理器具体执行以下步骤:按照视频帧序列中各参考帧的先后顺序,逆序地将各图像变换特征作为第二神经网络模型的隐层当前处理的图像变换特征;在当前处理的图像变换特征为视频帧序列中末尾的参考帧对应的图像变换特征时,则通过隐层根据各参考帧对应的图像变换特征、目标帧的图像特征得到初始的隐藏状态;在当前处理的图像变换特征不为视频帧序列中末尾的参考帧对应的图像变换特征时,则通过隐层根据当前处理的图像变换特征、前次处理的图像变换特征相应的隐藏状态得到当前处理的图像变换特征相应的隐藏状态。
在一个实施例中,计算机程序被处理器执行将协同编码图像特征输入像素级别分类器进行检测,输出目标帧的显著图的步骤时,使得处理器具体执行以下步骤:将目标帧的协同编码图像特征输入像素级别分类器;通过像素级别分类器的隐层,对协同编码图像特征进行像素级别检测,得到目标帧中各像素点的像素级别;依据目标帧中各像素点的像素级别,输出目标帧对应的显著图。
在一个实施例中,计算机程序被处理器执行获取视频帧序列的步骤时,使得处理器具体执行以下步骤:确定视频流中的目标帧;按照视频帧序列中目标帧和参考帧间的预设先后顺序,从视频流中选取作为参考帧的视频帧,得到包括目标帧和参考帧的视频帧序列。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:根据视频帧的显著图确定视频帧中的显著区域和非显著区域;对视频帧中的显著区域和非显著区域分别按不同的压缩比进行压缩。
上述计算机设备,利用视频帧序列中参考帧的特征对目标帧的图像特征进行加强,得到目标帧的协同编码图像特征,这样,根据协同编码图像特征进行显著性检测得到的显著图就参考了视频帧序列中各帧之间的联系,能够提升检测的准确度。其中,参考帧的特征是对光流图进行编码得到的图像变换特征,这样,参考帧的图像变换特征就携带了视频帧序列的图像变化信息和动作变化信息,从而,就可以基于各参考帧的图像变换特征对目标帧的图像特征编码以实现对目标帧的图像特征的加强,使得通过像素级别分类器对目标帧加强后的图像特征进行检测得到的显著图的准确性更强。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取视频帧序列,视频帧序列包括目标帧和多个参考帧;计算目标帧与各参考帧之间的光流图;通过第一神经网络模型,对各光流图进行编码,分别得到各参考帧对应的图像变换特征;通过第二神经网络模型,根据各图像变换特征对目标帧的图像特征进行编码,得到目标帧的协同编码图像特征;将协同编码图像特征输入像素级别分类器进行检测,输出目标帧的显著图。
在一个实施例中,计算机程序被处理器执行计算目标帧与各参考帧之间的光流图的步骤时,使得处理器具体执行以下步骤:确定目标帧中各像素点的第一位置;在各参考帧中查找与目标帧中各像素点相应的像素点;确定查找的各像素点的第二位置;根据第一位置和第二位置的偏移计算得到目标帧与各参考帧之间的光流图。
在一个实施例中,计算机程序被处理器执行根据第一位置和第二位置的偏移计算得到目标帧与各参考帧之间的光流图的步骤时,使得处理器具体执行以下步骤:将第一位置的水平位置和第二位置的水平位置作差,获得目标帧中各像素点相对于各参考帧中相应的像素点的水平位置偏移;将第一位置的竖直位置和第二位置的竖直位置作差,获得目标帧中各像素点相对于各参考帧中相应的像素点的竖直位置偏移;根据水平位置偏移和竖直位置偏移构建二通道矩阵向量,以获得目标帧与各参考帧之间的光流图。
在一个实施例中,计算机程序被处理器执行通过第一神经网络模型,对各光流图进行编码,分别得到各参考帧对应的图像变换特征的步骤时,使得处理器具体执行以下步骤:通过第一神经网络模型,对光流图进行编码,得到各光流图对应的编码光流图;获取目标帧的图像特征及各参考帧的图像特征;基于各编码光流图,对各参考帧对应的图像特征进行线性变换,得到各参考帧对应的图像变换特征。
在一个实施例中,计算机程序被处理器执行通过第一神经网络模型,对各光流图进行编码,得到各光流图对应的编码光流图的步骤时,使得处理器具体执行以下步骤:将各光流图输入第一神经网络模型;在第一神经网络模型的隐层中,按照视频帧序列中各参考帧的先后顺序,对各光流图进行依次处理得到第一神经网络模型对应各光流图的隐藏状态;通过第一神经网络模型的卷积层,对得到的各隐藏状态进行降维处理,得到各光流图对应的编码光流图。
在一个实施例中,计算机程序被处理器执行在第一神经网络模型的隐层中,按照视频帧序列中各参考帧的先后顺序,对各光流图进行依次处理得到第一神经网络模型对应各光流图的隐藏状态的步骤时,使得处理器具体执行以下步骤:按照视频帧序列中各参考帧的先后顺序,逆序地将各光流图作为第一神经网络模型的隐层当前处理的光流图;在当前处理的光流图是目标帧与视频帧序列中末尾的参考帧之间的光流图时,则通过隐层根据目标帧与各参考帧之间的光流图得到初始的隐藏状态;在当前处理的光流图不是目标帧与视频帧序列中末尾的参考帧之间的光流图时,则通过隐层根据当前处理的光流图、前次处理的光流图相应的隐藏状态得到当前处理的光流图相应的隐藏状态。
在一个实施例中,计算机程序被处理器执行在第一神经网络模型的隐层中,按照视频帧序列中各参考帧的先后顺序,对各光流图进行依次处理得到第一神经网络模型对应各光流图的隐藏状态的步骤时,使得处理器具体执行以下步骤:按照视频帧序列中各参考帧的先后顺序,顺序地将各光流图作为第一神经网络模型的隐层当前处理的光流图;在当前处理的光流图是目标帧与视频帧序列中首个参考帧之间的光流图时,则通过隐层根据目标帧与各参考帧之间的光流图得到初始的隐藏状态;在当前处理的光流图不是目标帧与视频帧序列中首个参考帧之间的光流图时,则通过隐层根据当前处理的光流图、前次处理的光流图相应的隐藏状态得到当前处理的光流图相应的隐藏状态。
在一个实施例中,计算机程序被处理器执行获取目标帧的图像特征及各参考帧的图像特征的步骤时,使得处理器具体执行以下步骤:将目标帧和各参考帧输入预训练的特征提取器;通过特征提取器的隐层,对输入的目标帧和各参考帧进行特征提取,获得特征提取器输出的相应图像特征。
在一个实施例中,参考帧对应的图像特征为多通道向量矩阵;计算机程序被处理器执行基于各编码光流图,对各参考帧对应的图像特征进行线性变换,分别得到各参考帧对应的图像变换特征的步骤时,使得处理器具体执行以下步骤:通过双线性变换函数,对各参考帧对应的图像特征中各通道的向量矩阵与相应的编码光流图进行计算,得到各参考帧对应的图像特征中各通道的向量变换矩阵;根据计算的各通道的向量变换矩阵得到参考帧对应的图像变换特征。
在一个实施例中,计算机程序被处理器执行通过第二神经网络模型,根据各图像变换特征对目标帧的图像特征进行编码,得到目标帧的协同编码图像特征的步骤时,使得处理器具体执行以下步骤:将各参考帧对应的图像变换特征、目标帧的图像特征输入第二神经网络模型;在第二神经网络模型的隐层中,按照视频帧序列中各视频帧的先后顺序,对各参考帧对应的图像变换特征进行依次处理得到第二神经网络模型对应各图像变换特征的隐藏状态;根据目标帧的图像特征以及第二神经网络模型对应末次处理的图像变换特征的隐藏状态,计算得到目标帧的协同编码图像特征。
在一个实施例中,计算机程序被处理器执行在第二神经网络模型的隐层中,按照视频帧序列中各视频帧的先后顺序,对各参考帧对应的图像变换特征进行依次处理得到第二神经网络模型对应各图像变换特征的隐藏状态的步骤时,使得处理器具体执行以下步骤:按照视频帧序列中各参考帧的先后顺序,顺序地将各图像变换特征作为第二神经网络模型的隐层当前处理的图像变换特征;在当前处理的图像变换特征是视频帧序列中首个参考帧对应的图像变换特征时,则通过隐层根据各参考帧对应的图像变换特征、目标帧的图像特征得到初始的隐藏状态;在当前处理的图像变换特征不是视频帧序列中首个参考帧对应的图像变换特征时,则通过隐层根据当前处理的图像变换特征、前次处理的图像变换特征相应的隐藏状态得到当前处理的图像变换特征相应的隐藏状态。
在一个实施例中,计算机程序被处理器执行在第二神经网络模型的隐层中,按照视频帧序列中各视频帧的先后顺序,对各参考帧对应的图像变换特征进行依次处理得到第二神经网络模型对应各图像变换特征的隐藏状态的步骤时,使得处理器具体执行以下步骤:按照视频帧序列中各参考帧的先后顺序,逆序地将各图像变换特征作为第二神经网络模型的隐层当前处理的图像变换特征;在当前处理的图像变换特征为视频帧序列中末尾的参考帧对应的图像变换特征时,则通过隐层根据各参考帧对应的图像变换特征、目标帧的图像特征得到初始的隐藏状态;在当前处理的图像变换特征不为视频帧序列中末尾的参考帧对应的图像变换特征时,则通过隐层根据当前处理的图像变换特征、前次处理的图像变换特征相应的隐藏状态得到当前处理的图像变换特征相应的隐藏状态。
在一个实施例中,计算机程序被处理器执行将协同编码图像特征输入像素级别分类器进行检测,输出目标帧的显著图的步骤时,使得处理器具体执行以下步骤:将目标帧的协同编码图像特征输入像素级别分类器;通过像素级别分类器的隐层,对协同编码图像特征进行像素级别检测,得到目标帧中各像素点的像素级别;依据目标帧中各像素点的像素级别,输出目标帧对应的显著图。
在一个实施例中,计算机程序被处理器执行获取视频帧序列的步骤时,使得处理器具体执行以下步骤:确定视频流中的目标帧;按照视频帧序列中目标帧和参考帧间的预设先后顺序,从视频流中选取作为参考帧的视频帧,得到包括目标帧和参考帧的视频帧序列。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:根据视频帧的显著图确定视频帧中的显著区域和非显著区域;对视频帧中的显著区域和非显著区域分别按不同的压缩比进行压缩。
上述计算机可读存储介质,利用视频帧序列中参考帧的特征对目标帧的图像特征进行加强,得到目标帧的协同编码图像特征,这样,根据协同编码图像特征进行显著性检测得到的显著图就参考了视频帧序列中各帧之间的联系,能够提升检测的准确度。其中,参考帧的特征是对光流图进行编码得到的图像变换特征,这样,参考帧的图像变换特征就携带了视频帧序列的图像变化信息和动作变化信息,从而,就可以基于各参考帧的图像变换特征对目标帧的图像特征编码以实现对目标帧的图像特征的加强,使得通过像素级别分类器对目标帧加强后的图像特征进行检测得到的显著图的准确性更强。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种显著特征检测方法,包括:
获取视频帧序列,所述视频帧序列包括目标帧和多个参考帧;
计算所述目标帧与各所述参考帧之间的光流图;
通过第一神经网络模型,对各所述光流图进行编码,分别得到各所述参考帧对应的图像变换特征;
通过第二神经网络模型,根据各所述图像变换特征对所述目标帧的图像特征进行编码,得到所述目标帧的协同编码图像特征;
将所述协同编码图像特征输入像素级别分类器进行检测,输出所述目标帧的显著图。
2.根据权利要求1所述的方法,其特征在于,所述计算所述目标帧与各所述参考帧之间的光流图,包括:
确定所述目标帧中各像素点的第一位置;
在各所述参考帧中查找与所述目标帧中各像素点相应的像素点,确定查找的各像素点的第二位置;
根据所述第一位置和所述第二位置的偏移计算得到所述目标帧与各所述参考帧之间的光流图。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一位置和所述第二位置的偏移计算得到所述目标帧与各所述参考帧之间的光流图,包括:
将所述第一位置的水平位置和所述第二位置的水平位置作差,获得所述目标帧中各像素点相对于各所述参考帧中相应的像素点的水平位置偏移;
将所述第一位置的竖直位置和所述第二位置的竖直位置作差,获得所述目标帧中各像素点相对于各所述参考帧中相应的像素点的竖直位置偏移;
根据所述水平位置偏移和所述竖直位置偏移构建二通道矩阵向量,以获得所述目标帧与各所述参考帧之间的光流图。
4.根据权利要求1所述的方法,其特征在于,所述通过第一神经网络模型,对各所述光流图进行编码,分别得到各所述参考帧对应的图像变换特征,包括:
通过所述第一神经网络模型,对所述光流图进行编码,得到各所述光流图对应的编码光流图;
获取所述目标帧的图像特征及各所述参考帧的图像特征;
基于各所述编码光流图,对各所述参考帧对应的图像特征进行线性变换,得到各所述参考帧对应的图像变换特征。
5.根据权利要求4所述的方法,其特征在于,所述通过第一神经网络模型,对各所述光流图进行编码,得到各所述光流图对应的编码光流图,包括:
将各所述光流图输入所述第一神经网络模型;
在所述第一神经网络模型的隐层中,按照所述视频帧序列中各所述参考帧的先后顺序,对各所述光流图进行依次处理得到所述第一神经网络模型对应各所述光流图的隐藏状态;
通过所述第一神经网络模型的卷积层,对得到的各所述隐藏状态进行降维处理,得到各所述光流图对应的编码光流图。
6.根据权利要求5所述的方法,其特征在于,所述在所述第一神经网络模型的隐层中,按照所述视频帧序列中各所述参考帧的先后顺序,对各所述光流图进行依次处理得到所述第一神经网络模型对应各所述光流图的隐藏状态,包括:
按照所述视频帧序列中各所述参考帧的先后顺序,逆序地将各所述光流图作为所述第一神经网络模型的隐层当前处理的光流图;
在当前处理的光流图是所述目标帧与所述视频帧序列中末尾的参考帧之间的光流图时,则通过所述隐层根据所述目标帧与各所述参考帧之间的光流图得到初始的隐藏状态;
在当前处理的光流图不是所述目标帧与所述视频帧序列中末尾的参考帧之间的光流图时,则通过所述隐层根据当前处理的光流图、前次处理的光流图相应的隐藏状态得到当前处理的光流图相应的隐藏状态。
7.根据权利要求5所述的方法,其特征在于,所述在所述第一神经网络模型的隐层中,按照所述视频帧序列中各所述参考帧的先后顺序,对各所述光流图进行依次处理得到所述第一神经网络模型对应各所述光流图的隐藏状态,包括:
按照所述视频帧序列中各所述参考帧的先后顺序,顺序地将各所述光流图作为所述第一神经网络模型的隐层当前处理的光流图;
在当前处理的光流图是所述目标帧与所述视频帧序列中首个参考帧之间的光流图时,则通过所述隐层根据所述目标帧与各所述参考帧之间的光流图得到初始的隐藏状态;
在当前处理的光流图不是所述目标帧与所述视频帧序列中首个参考帧之间的光流图时,则通过所述隐层根据当前处理的光流图、前次处理的光流图相应的隐藏状态得到当前处理的光流图相应的隐藏状态。
8.根据权利要求4所述的方法,其特征在于,所述获取所述目标帧的图像特征及各所述参考帧的图像特征,包括:
将所述目标帧和各所述参考帧输入特征提取器;
通过所述特征提取器的隐层,对输入的所述目标帧和各所述参考帧进行特征提取,获得所述特征提取器输出的相应图像特征。
9.根据权利要求4所述的方法,其特征在于,所述参考帧对应的图像特征为多通道向量矩阵;所述基于各所述编码光流图,对各所述参考帧对应的图像特征进行线性变换,分别得到各所述参考帧对应的图像变换特征,包括:
通过双线性变换函数,对各所述参考帧对应的图像特征中各通道的向量矩阵与相应的编码光流图进行计算,得到各所述参考帧对应的图像特征中各通道的向量变换矩阵;
根据计算的各通道的向量变换矩阵得到所述参考帧对应的图像变换特征。
10.根据权利要求1所述的方法,其特征在于,所述通过第二神经网络模型,根据各所述图像变换特征对所述目标帧的图像特征进行编码,得到所述目标帧的协同编码图像特征,包括:
将各所述参考帧对应的图像变换特征、所述目标帧的图像特征输入第二神经网络模型;
在所述第二神经网络模型的隐层中,按照所述视频帧序列中各视频帧的先后顺序,对各所述参考帧对应的图像变换特征进行依次处理得到所述第二神经网络模型对应各所述图像变换特征的隐藏状态;
根据所述目标帧的图像特征以及所述第二神经网络模型对应末次处理的图像变换特征的隐藏状态,计算得到所述目标帧的协同编码图像特征。
11.根据权利要求10所述的方法,其特征在于,所述在所述第二神经网络模型的隐层中,按照所述视频帧序列中各视频帧的先后顺序,对各所述参考帧对应的图像变换特征进行依次处理得到所述第二神经网络模型对应各所述图像变换特征的隐藏状态,包括:
按照所述视频帧序列中各所述参考帧的先后顺序,顺序地将各所述图像变换特征作为所述第二神经网络模型的隐层当前处理的图像变换特征;
在当前处理的图像变换特征是所述视频帧序列中首个参考帧对应的图像变换特征时,则通过所述隐层根据各所述参考帧对应的图像变换特征、所述目标帧的图像特征得到初始的隐藏状态;
在当前处理的图像变换特征不是所述视频帧序列中首个参考帧对应的图像变换特征时,则通过所述隐层根据当前处理的图像变换特征、前次处理的图像变换特征相应的隐藏状态得到当前处理的图像变换特征相应的隐藏状态。
12.根据权利要求10所述的方法,其特征在于,所述在所述第二神经网络模型的隐层中,按照所述视频帧序列中各视频帧的先后顺序,对各所述参考帧对应的图像变换特征进行依次处理得到所述第二神经网络模型对应各所述图像变换特征的隐藏状态,包括:
按照所述视频帧序列中各所述参考帧的先后顺序,逆序地将各所述图像变换特征作为所述第二神经网络模型的隐层当前处理的图像变换特征;
在当前处理的图像变换特征为所述视频帧序列中末尾的参考帧对应的图像变换特征时,则通过所述隐层根据各所述参考帧对应的图像变换特征、所述目标帧的图像特征得到初始的隐藏状态;
在当前处理的图像变换特征不为所述视频帧序列中末尾的参考帧对应的图像变换特征时,则通过所述隐层根据当前处理的图像变换特征、前次处理的图像变换特征相应的隐藏状态得到当前处理的图像变换特征相应的隐藏状态。
13.根据权利要求1所述的方法,其特征在于,所述将所述协同编码图像特征输入像素级别分类器进行检测,输出所述目标帧的显著图,包括:
将所述目标帧的协同编码图像特征输入像素级别分类器;
通过所述像素级别分类器的隐层,对所述协同编码图像特征进行像素级别检测,得到所述目标帧中各像素点的像素级别;
依据所述目标帧中各像素点的像素级别,输出所述目标帧对应的显著图。
14.根据权利要求1至13中任一项所述的方法,其特征在于,所述方法还包括:
根据所述视频帧的显著图确定所述视频帧中的显著区域和非显著区域;
对所述视频帧中的显著区域和非显著区域分别按不同的压缩比进行压缩。
15.一种显著特征检测装置,包括:
视频帧序列获取模块,用于获取视频帧序列;所述视频帧序列包括目标帧和多个参考帧;
光流图计算模块,用于计算所述目标帧与各所述参考帧之间的光流图;
光流图编码模块,用于通过第一神经网络模型,对各所述光流图进行编码,分别得到各所述参考帧对应的图像变换特征;
图像特征编码模块,用于通过第二神经网络模型,根据各所述图像变换特征对所述目标帧的图像特征进行编码,得到所述目标帧的协同编码图像特征;
显著图检测模块,用于将所述协同编码图像特征输入像素级别分类器进行检测,输出所述目标帧的显著图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810404837.0A CN110163196B (zh) | 2018-04-28 | 2018-04-28 | 显著特征检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810404837.0A CN110163196B (zh) | 2018-04-28 | 2018-04-28 | 显著特征检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110163196A true CN110163196A (zh) | 2019-08-23 |
CN110163196B CN110163196B (zh) | 2023-12-08 |
Family
ID=67644953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810404837.0A Active CN110163196B (zh) | 2018-04-28 | 2018-04-28 | 显著特征检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163196B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610489A (zh) * | 2019-08-30 | 2019-12-24 | 西安电子科技大学 | 基于注意力机制的光学喉镜图像病变区标注方法 |
CN111160237A (zh) * | 2019-12-27 | 2020-05-15 | 智车优行科技(北京)有限公司 | 头部姿态估计方法和装置、电子设备和存储介质 |
CN111935487A (zh) * | 2020-08-12 | 2020-11-13 | 汪礼君 | 一种基于视频流检测的图像压缩方法及系统 |
CN112508959A (zh) * | 2020-12-15 | 2021-03-16 | 清华大学 | 视频目标分割方法、装置、电子设备及存储介质 |
CN112598043A (zh) * | 2020-12-17 | 2021-04-02 | 杭州电子科技大学 | 一种基于弱监督学习的协同显著性检测方法 |
CN113610900A (zh) * | 2021-10-11 | 2021-11-05 | 深圳佑驾创新科技有限公司 | 车尾序列尺度变化预测方法、装置和计算机设备 |
CN114257818A (zh) * | 2020-09-22 | 2022-03-29 | 阿里巴巴集团控股有限公司 | 视频的编、解码方法、装置、设备和存储介质 |
WO2022062344A1 (zh) * | 2020-09-24 | 2022-03-31 | 苏州科达科技股份有限公司 | 压缩视频的显著性目标检测方法、系统、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170262996A1 (en) * | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Action localization in sequential data with attention proposals from a recurrent network |
CN107194948A (zh) * | 2017-04-17 | 2017-09-22 | 上海大学 | 基于集成式预测与时空域传播的视频显著性检测方法 |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
-
2018
- 2018-04-28 CN CN201810404837.0A patent/CN110163196B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170262996A1 (en) * | 2016-03-11 | 2017-09-14 | Qualcomm Incorporated | Action localization in sequential data with attention proposals from a recurrent network |
CN107194948A (zh) * | 2017-04-17 | 2017-09-22 | 上海大学 | 基于集成式预测与时空域传播的视频显著性检测方法 |
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
Non-Patent Citations (2)
Title |
---|
QUANBIN LI ET.AL.: "Contrast-Oriented_Deep_Neural_Networks_for_Salient_Object_Detection", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS 》, pages 6038 - 6051 * |
曾婧;吴宏刚;张翔;: "一种融合预测过采样的运动目标检测算法", 电讯技术, no. 11, pages 122 - 126 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110610489A (zh) * | 2019-08-30 | 2019-12-24 | 西安电子科技大学 | 基于注意力机制的光学喉镜图像病变区标注方法 |
CN110610489B (zh) * | 2019-08-30 | 2021-11-23 | 西安电子科技大学 | 基于注意力机制的光学喉镜图像病变区标注方法 |
CN111160237A (zh) * | 2019-12-27 | 2020-05-15 | 智车优行科技(北京)有限公司 | 头部姿态估计方法和装置、电子设备和存储介质 |
CN111935487A (zh) * | 2020-08-12 | 2020-11-13 | 汪礼君 | 一种基于视频流检测的图像压缩方法及系统 |
CN114257818A (zh) * | 2020-09-22 | 2022-03-29 | 阿里巴巴集团控股有限公司 | 视频的编、解码方法、装置、设备和存储介质 |
WO2022062344A1 (zh) * | 2020-09-24 | 2022-03-31 | 苏州科达科技股份有限公司 | 压缩视频的显著性目标检测方法、系统、设备及存储介质 |
CN112508959A (zh) * | 2020-12-15 | 2021-03-16 | 清华大学 | 视频目标分割方法、装置、电子设备及存储介质 |
CN112508959B (zh) * | 2020-12-15 | 2022-11-11 | 清华大学 | 视频目标分割方法、装置、电子设备及存储介质 |
CN112598043A (zh) * | 2020-12-17 | 2021-04-02 | 杭州电子科技大学 | 一种基于弱监督学习的协同显著性检测方法 |
CN112598043B (zh) * | 2020-12-17 | 2023-08-18 | 杭州电子科技大学 | 一种基于弱监督学习的协同显著性检测方法 |
CN113610900A (zh) * | 2021-10-11 | 2021-11-05 | 深圳佑驾创新科技有限公司 | 车尾序列尺度变化预测方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110163196B (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163196A (zh) | 显著特征检测方法和装置 | |
CN109271933B (zh) | 基于视频流进行三维人体姿态估计的方法 | |
CN108399373B (zh) | 人脸关键点的模型训练及其检测方法和装置 | |
Liu et al. | An attention-based approach for single image super resolution | |
CN112052886A (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN107273800A (zh) | 一种基于注意机制的卷积递归神经网络的动作识别方法 | |
CN108492319A (zh) | 基于深度全卷积神经网络的运动目标检测方法 | |
CN111695457B (zh) | 一种基于弱监督机制的人体姿态估计方法 | |
CN109464803A (zh) | 虚拟对象控制、模型训练方法、装置、存储介质和设备 | |
CN106981080A (zh) | 基于红外图像和雷达数据的夜间无人车场景深度估计方法 | |
CN110473284A (zh) | 一种基于深度学习的运动物体三维模型重建方法 | |
CN112288627A (zh) | 一种面向识别的低分辨率人脸图像超分辨率方法 | |
CN110334589A (zh) | 一种基于空洞卷积的高时序3d神经网络的动作识别方法 | |
CN107146237A (zh) | 一种基于在线状态学习与估计的目标跟踪方法 | |
CN112734644A (zh) | 一种多个注意力结合光流的视频超分辨模型及方法 | |
CN112651360B (zh) | 一种小样本下骨架动作识别方法 | |
CN110348383A (zh) | 一种基于卷积神经网络回归的道路中心线和双线提取方法 | |
CN109344822A (zh) | 一种基于长短期记忆网络的场景文本检测方法 | |
CN114117259A (zh) | 一种基于双重注意力机制的轨迹预测方法及装置 | |
CN115171052B (zh) | 基于高分辨率上下文网络的拥挤人群姿态估计方法 | |
CN115019303A (zh) | 基于自注意力机制的草莓病害图像识别方法 | |
CN110246171A (zh) | 一种实时单目视频深度估计方法 | |
CN111738092B (zh) | 一种基于深度学习的恢复被遮挡人体姿态序列方法 | |
CN110163864A (zh) | 图像分割方法、装置、计算机设备和存储介质 | |
CN114333002A (zh) | 基于图深度学习和人脸三维重建的微表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment |