CN111246217B - 基于八度卷积的压缩视频动作识别方法 - Google Patents

基于八度卷积的压缩视频动作识别方法 Download PDF

Info

Publication number
CN111246217B
CN111246217B CN202010057457.1A CN202010057457A CN111246217B CN 111246217 B CN111246217 B CN 111246217B CN 202010057457 A CN202010057457 A CN 202010057457A CN 111246217 B CN111246217 B CN 111246217B
Authority
CN
China
Prior art keywords
segments
compressed video
frame
video
octave convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010057457.1A
Other languages
English (en)
Other versions
CN111246217A (zh
Inventor
张俊三
程俏俏
王晓敏
冯叶棋
常益浩
朱瑞
余勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202010057457.1A priority Critical patent/CN111246217B/zh
Publication of CN111246217A publication Critical patent/CN111246217A/zh
Application granted granted Critical
Publication of CN111246217B publication Critical patent/CN111246217B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Abstract

本发明实施例公开一种基于八度卷积的压缩视频动作识别方法,能够减少卷积特征映射和稠密模型参数的冗余度。该方法包括:S1、将待识别视频压缩为压缩视频,对所述压缩视频进行编码,将所述压缩视频划分为k个片段;S2、构建八度卷积模型;S3、对所述k个片段进行取样并输入所述八度卷积模型,根据交叉熵损失训练所述八度卷积模型,得到所述k段的片段级结果;S4、融合所述k个片段的片段级结果,得到所述待识别视频预测结果。本发明实施例用于压缩视频动作识别。

Description

基于八度卷积的压缩视频动作识别方法
技术领域
本发明涉及视频处理领域,尤其涉及一种基于八度卷积的压缩视频动作识别方法。
背景技术
视频动作识别技术的目标是识别出给定视频中的不同的动作类别。在实际应用中,精确的动作识别有助于舆情监控,广告投放,以及很多其他视频理解相关的任务。由于视频内容和背景更加复杂多变,不同的动作类别之间具有相似性,而相同的类别在不同环境下又有着不同的特点,加之由于拍摄造成的遮挡、抖动、视角变化,影响动作识别。
相关的一种方法以卷积神经网络作为核心,实现压缩视频动作识别。但通过卷积神经网络进行压缩视频动作识别,存在卷积特征映射和稠密模型参数的冗余度问题。
发明内容
本发明实施例提供一种基于八度卷积的压缩视频动作识别方法,能够减少卷积特征映射和稠密模型参数的冗余度。
本发明实施例采用如下技术方案:
一种基于八度卷积的压缩视频动作识别方法,包括:
S1、将待识别视频压缩为压缩视频,对所述压缩视频进行编码,将所述压缩视频划分为k个片段;
S2、构建八度卷积模型;
S3、对所述k个片段进行取样并输入所述八度卷积模型,根据交叉熵损失训练所述八度卷积模型,得到所述k段的片段级结果;
S4、融合所述k个片段的片段级结果,得到所述待识别视频预测结果。
可选的,所述将待识别视频压缩为压缩视频,对所述压缩视频进行编码,将所述压缩视频划分为k个片段包括:
根据MPEG-4Part2将所述压缩视频分割为I帧、P帧和零个或多个B帧;其中,I帧为内部编码帧、P帧为预测帧、B帧为由运动矢量和残差组成的双向帧,I帧为常规图像,P帧编码前一帧到当前帧的变化,P帧由运动矢量和残差向量组成;
所述压缩视频包含I帧RGB图像、运动矢量和残差向量三种数据模式;其中,像素块从原始帧到目标帧的移动为所述运动矢量,所述运动矢量在所述待识别视频压缩过程中分为多个宏块,所述残差向量为当前帧与参考I帧之间去除运动矢量之后的RGB差,所述运动矢量为m,所述残差向量为r,Ii为所述压缩视频中的I帧,Pi+1为所述压缩视频中的P帧;
所述压缩视频为序列{Ii,Pi+1,K},对所述压缩视频进行编码得到的编码视频为{Ii,Ii+1,...},所述P帧重构为Ii+1
Ii+1=Pi+1+Ii
Pi+1=m+r
其中,I帧、残差向量和P帧的大小为3*H*W,m的大小为2*H*W。
可选的,所述运动矢量在所述待识别视频压缩过程中分为8x8或者16x16 或者32x32个宏块。
可选的,所述将所述压缩视频划分为k段包括:
将所述压缩视频均匀划分为K个片段,并对所述K个片段序列进行建模获取长期运动的信息。
可选的,所述构建八度卷积模型包括:
根据下式构建所述八度卷积模型:
H=fH→H(H)+upsample(fL→H(L))
L=fH→L(pool(H))+fL→L(L)
其中unsample和pool对应于上采样和池化操作,fH→H,fL→L表示信息更新, H为高频,L为低频,fH→L,fL→H表示高频与低频两个频率之间的信息交换。
可选的,所述根据交叉熵损失训练所述八度卷积模型包括:
对所述八度卷积的不同的信道分配给低频的比例α值设置为0.5。
可选的,所述根据交叉熵损失训练所述八度卷积模型包括:
根据深度学习编译器TVM训练所述八度卷积模型。
可选的,训练所述八度卷积模型过程中,用交叉熵损失进行反向传播,更新优化所述八度卷积模型参数。
可选的,所述对所述k个片段进行取样并输入所述八度卷积模型,根据交叉熵损失训练所述八度卷积模型,得到所述k段的片段级结果包括:
根据MPEG-4压缩视频的三种数据模式作为输入:RGB、运动矢量、残差向量,RGB、运动矢量、残差向量分别表示为Rrgb,Rmv,Rres,Oct Resnet被表示为O()用于为每个输入建模:
or=O(r),r∈R,R={Rrgb,Rmv,Rres}
Figure BDA0002373292330000031
其中,段的总数表示为K,t用于表示K段中的第h段,输入由RGB、运动矢量、残差向量三种模式的输入组成,表示为r,Ot r表示不同片段不同模态作为输入时网络的预测结果,W表示权重集合。
可选的,所述融合所述k个片段的片段级结果,得到所述待识别视频预测结果包括:
将所述k个片段的中相邻片段的片段结果相加融合,得到所述待识别视频的预测结果。
基于上述技术方案的基于八度卷积的压缩视频动作识别方法,通过将待识别视频压缩为压缩视频,对所述压缩视频进行编码,将所述压缩视频划分为k 个片段,构建八度卷积模型,对k个片段进行取样并输入所述八度卷积模型,根据交叉熵损失训练八度卷积模型,得到k段的片段级结果,融合所述k个片段的片段级结果,得到所述待识别视频预测结果,从而实现根据八度卷积模型进行动作识别,以减少卷积特征映射和稠密模型参数的冗余度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明实施例提供的基于八度卷积的压缩视频动作识别方法的流程图;
图2为本发明实施例提供的构建的模型总架构示意图;
图3为本发明实施例提供的压缩视频、解码视频和可选流的组件和源结构示意图;
图4为本发明实施例提供的八度卷积模型结构示意图;
图5为本发明实施例提供的八度卷积在压缩视频上的效率示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本发明实施例解决基于卷积神经网络的视频动作识别方法中卷积特征映射和稠密模型参数的冗余度问题以及基于双流网络方法的收益不平衡问题。
本发明实施例利用MPEG-4、H.264等编码的压缩视频中的运动信息来代替消耗很高的光流进行动作识别。本发明实施例将cnn直接作用于运动矢量、残差和完整图像,能够去除两个数量级的多余信息,同时从压缩视频的残差和运动向量中捕获到运动信息。
同时,在CNNs(卷积神经网络,Convolutional Neural Networks)所产生的特征映射的空间维度中也存在大量冗余。基于CNN的动作识别在减少空间上的冗余方面可能会带来存储和计算成本的进一步优化。OctConv(八度卷积) 是一个通用的、即插即用的卷积单元,可以直接代替普通的卷积。本发明实施例着重于减少卷积特征映射和稠密模型参数的冗余度,通过频率间的信息交换,在图像分类方面取得了较好的精度和效率。八倍卷积能否有效地捕获运动矢量上的运动信息和压缩视频的残差需要验证。
本发明实施例视频编码使用MPEG-4第2部分作为视频编码器,与原始的八度卷积不同的是,在三个独立的cnn(卷积神经网络,Convolutional Neural Network)中使用共角卷积来操作压缩视频中的三种模式。在此基础上,对压缩视频执行八度卷积,在压缩视频中的不同模式上操作,以实现高效和有效的动作识别,从而去除时间和空间维度上的多余信息。
本发明实施例的八度卷积与原始的八度卷积不同之处在于,本发明实施例在三个独立的cnn中使用共角卷积来操作压缩视频中的三种模式。对压缩视频执行八度卷积,并在压缩视频中的不同模式上操作,以实现高效和有效的动作识别,从而去除时间和空间维度上的多余信息,提升了训练速度;同时,八度卷积高低频进行划分,并使高频分量和低频分量之间进行有效的通信,加大高低频间的交互作用,提高压缩视频动作识别的准确率。
如图1所示,本发明实施例提供一种基于八度卷积的压缩视频动作识别方法,包括:
S1、将待识别视频压缩为压缩视频,对所述压缩视频进行编码,将所述压缩视频划分为k个片段。
S2、构建八度卷积模型。
S3、对所述k个片段进行取样并输入所述八度卷积模型,根据交叉熵损失训练所述八度卷积模型,得到所述k段的片段级结果。
具体的,对所述k个片段进行取样,将取样结果输入到八度卷积模型。在训练八度卷积模型过程中,根据交叉熵损失得到的损失进行反向传播,以优化模型。
S4、融合所述k个片段的片段级结果,得到所述待识别视频预测结果。
具体的,本发明实施例中预测结果即为识别出的待识别视频中的动作,即得到预测结果即完成动作预测。动作识别,即观察出待识别视频中的一个动作,例如打羽毛球、踢球动作。
图2为本实施例构建的模型总架构示意图。将视频分为K个片段,并对片段序列进行建模,获取长期运动的信息(long-range information)。根据MPEG-4 压缩视频的三种数据模式作为输入:RGB(红(R)、绿(G)、蓝(B))、运动矢量、残差向量,RGB、运动矢量、残差向量分别表示为Rrgb,Rmv,Rres,Oct Resnet表示为O(),其用于为每个输入建模:
or=O(r),r∈R,R={Rrgb,Rmv,Rres}
Figure BDA0002373292330000061
其中,段的总数表示为K,t用于表示K段中的第h段,输入由RGB、运动矢量、残差向量三种模式的输入组成,表示为r,Ot r表示不同片段不同模态作为输入时网络的预测结果,通过加权求和进行融合得到最终结果,W表示权重集合。
上述基于八度卷积的压缩视频动作识别方法,通过将待识别视频压缩为压缩视频,对所述压缩视频进行编码,将所述压缩视频划分为k个片段,构建八度卷积模型,对k个片段进行取样并输入所述八度卷积模型,根据交叉熵损失训练八度卷积模型,得到k段的片段级结果,融合所述k个片段的片段级结果,得到所述待识别视频预测结果,从而实现根据八度卷积模型进行动作识别,以减少卷积特征映射和稠密模型参数的冗余度。
在一个实施例中,可选的,如图3所示的压缩视频、解码视频和可选流的组件和源结构示意图,所述获取压缩视频,将所述压缩视频划分为k个片段包括:
根据MPEG-4Part2将所述待识别视频分割为I帧、P帧和零个或多个B 帧;其中,I帧为内部编码帧、P帧为预测帧、B帧为由运动矢量和残差组成的双向帧,I帧为常规图像,P帧只编码前一帧到当前帧的变化,P帧由运动矢量和残差向量组成;
所述压缩视频包含I帧RGB图像、运动矢量和残差向量三种数据模式;其中,像素块从原始帧到目标帧的移动为所述运动矢量,所述运动矢量在所述待识别视频压缩过程中分为多个宏块,所述残差向量为当前帧与参考I帧之间去除运动矢量之后的RGB差,所述运动矢量为m,所述残差向量为r,Ii为所述压缩视频中的I帧,Pi+1为所述压缩视频中的P帧。其中,从某一个动作开始时的帧到该动作结束时的帧为原始帧和目标帧。即原始帧可以为一动作的开始帧,目标帧可以为该动作的结束帧。
所述压缩视频为序列{Ii,Pi+1,K},对所述压缩视频进行编码得到的编码视频为{Ii,Ii+1,...},所述P帧重构为Ii+1
Ii+1=Pi+1+Ii
Pi+1=m+r
其中,I帧、残差向量和P帧的大小为3*H*W,m的大小为2*H*W。
其中,所述运动矢量在所述待识别视频压缩过程中可以分为8x 8或者 16x16或者32x32个宏块。
本实施例中,视频压缩去除了大量多余的信息,使感兴趣的内容更加突出。压缩视频的运动矢量和残差为动作识别提供了必要的动作信息。
在一个实施例中,可选的,所述将所述压缩视频划分为k段包括:
将所述压缩视频均匀划分为K个片段,并对所述K个片段序列进行建模获取长期运动的信息。
在一个实施例中,可选的,所述构建八度卷积模型包括:
根据下式构建所述八度卷积模型:
H=fH→H(H)+upsample(fL→H(L))
L=fH→L(pool(H))+fL→L(L)
其中unsample和pool对应于上采样和池化操作,fH→H,fL→L表示信息更新, H为高频,L为低频,fH→L,fL→H表示高频与低频两个频率之间的信息交换。其中,上采样采用内插值方法将图像放大,即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素;池化操作,将图像缩小。
如图4所示的八度卷积模型结构示意图,八度卷积是一个单一的、通用的、即插即用的卷积单元,可以直接代替传统卷积,能够有效处理相应频率张量中的低频和高频,实现高频和低频分量之间的有效通信,将八度卷积被应用于 ResNet(残差网络,ResidualNetwork)中,以其频率和过程的顺序来因子混合特征图。如图3所示,八度卷积应用于ResNet中的每个卷积,到最后一个卷积层时将alpha设置为零以获得单个全高频的输出,进行全连接层。
在一个实施例中,可选的,所述根据交叉熵损失训练所述八度卷积模型包括:
对所述八度卷积的不同的信道分配给低频的比例α值(信道分配给低频的比例)设置为0.5。本发明实施例对八度卷积的不同的α值进行尝试和评估,α是固定到0.5最后才能达到更好的效果。
下表为当alpha=0.5时,网络的输出特征图的大小。对八度卷积的不同的α值(信道分配给低频的比例)进行尝试和评估,α是固定到0.5能达到更好的效果。
Figure BDA0002373292330000091
在一个实施例中,可选的,所述S3包括:
使用TVM(深度学习编译器)训练所述八度卷积模型。
在一个实施例中,可选的,所述S3包括:
根据MPEG-4压缩视频的三种数据模式作为输入:RGB、运动矢量、残差向量,RGB、运动矢量、残差向量分别表示为Rrgb,Rmv,Rres,Oct Resnet表示为 O(),用于为每个输入建模:
or=O(r),r∈R,R={Rrgb,Rmv,Rres}
Figure BDA0002373292330000092
其中,段的总数表示为K,t用于表示K段中的第h段,输入由RGB、运动矢量、残差向量三种模式的输入组成,表示为r,Ot r表示不同片段不同模态作为输入时网络的预测结果,R为实数集,R加上不同的右上标代表不同的数据模式,W表示权重集合。例如,函数:f(x)=w1x+w2x+...+wnx,w1,w2...即为为权重,w为权重集合。
在一个实施例中,可选的,所述融合所述k个片段的片段级结果,得到所述待识别视频预测结果包括:
将所述k个片段的片段级结果中相邻片段的片段结果相加融合,得到所述待识别视频的预测结果。
本发明实施例中预测结果即为识别出的待识别视频中的动作,即得到预测结果即完成动作预测。动作识别,即观察出待识别视频中的一个动作,例如打羽毛球、踢球动作。
通常,在用于动作识别的压缩视频方面,Oct-ResNet50比ResNet50高出 1.34%。表明八度卷积还可以用于压缩视频以及图像分类和解码视频。此外,对于UCF-101上的iframe,残差和运动矢量,Oct-ResNet50的精度分别比 ResNet50高1.11%,1.16%和0.76%。八度卷积通过有效地在低频和高频之间进行通信,扩大了接收场的大小并捕获了全局信息,从而减少空间冗余。
图5为八度卷积在压缩视频上的效率示意图。如图5所示,Resnet50和 Resnet152用于评估测试期间的速度。本实施例的方法具有良好的准确性和效率,比resnet50快38%,比resnet152快78%。准确性方面,仅50层即可达到 152层ResNet的效果。同时,与ResNet50相比,将低频功能使用的信道比率设置为0.5时,Oct-ResNet50可以节省37%的内存成本。
实验结果如下表所示:
mode Resnet50 Oct-Resnet50
iframe 83.00% 84.11%(1.11%up)
residual 78.32% 79.48%(1.16%up)
motion vector 49.38% 50.14%(0.76%up)
fusion 88.98% 90.32%(1.34%up)
本发明实施例对压缩视频执行八度卷积,与原始的八度卷积不同之处在于,在三个独立的cnn中使用共角卷积来操作压缩视频中的三种模式,以实现高效和有效的动作识别,从而去除时间空间维度上的多余信息,以提升训练速度。
本发明实施例提出的对八度卷积高低频进行划分,并使高频分量和低频分量之间进行有效的通信,加大了高低频间的交互作用,提高了压缩视频动作识别的准确率。
本发明实施例的基于八度卷积的压缩视频动作识别方法,通过将待识别视频压缩为压缩视频,对所述压缩视频进行编码,将所述压缩视频划分为k个片段,构建八度卷积模型,对k个片段进行取样并输入所述八度卷积模型,根据交叉熵损失训练八度卷积模型,得到k段的片段级结果,融合所述k个片段的片段级结果,得到所述待识别视频预测结果,从而实现根据八度卷积模型进行动作识别,以减少卷积特征映射和稠密模型参数的冗余度。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种基于八度卷积的压缩视频动作识别方法,其特征在于,包括:
S1、将待识别视频压缩为压缩视频,对所述压缩视频进行编码,将所述压缩视频划分为k个片段;
S2、构建八度卷积模型;
S3、对所述k个片段进行取样并输入所述八度卷积模型,根据交叉熵损失训练所述八度卷积模型,得到所述k段的片段级结果;
S4、融合所述k个片段的片段级结果,得到所述待识别视频预测结果;所述将待识别视频压缩为压缩视频,对所述压缩视频进行编码,将所述压缩视频划分为k个片段包括:
根据MPEG-4Part2将所述压缩视频分割为I帧、P帧和零个或多个B帧;其中,I帧为内部编码帧、P帧为预测帧、B帧为由运动矢量和残差组成的双向帧,I帧为常规图像,P帧编码前一帧到当前帧的变化,P帧由运动矢量和残差向量组成;
所述压缩视频包含I帧RGB图像、运动矢量和残差向量三种数据模式;其中,像素块从原始帧到目标帧的移动为所述运动矢量,所述运动矢量在所述待识别视频压缩过程中分为多个宏块,所述残差向量为当前帧与参考I帧之间去除运动矢量之后的RGB差,所述运动矢量为m,所述残差向量为r,Ii为所述压缩视频中的I帧,Pi+1为所述压缩视频中的P帧;
所述压缩视频为序列{Ii,Pi+1,K},对所述压缩视频进行编码得到的编码视频为{Ii,Ii+1,...},所述P帧重构为Ii+1
Ii+1=Pi+1+Ii
Pi+1=m+r
其中,I帧、残差向量和P帧的大小为3*H*W,m的大小为2*H*W。
2.根据权利要求1所述的方法,其特征在于,所述运动矢量在所述待识别视频压缩过程中分为8x 8或者16x16或者32x32个宏块。
3.根据权利要求1至2中任一项所述的方法,其特征在于,所述将所述压缩视频划分为k段包括:
将所述压缩视频均匀划分为K个片段,并对所述K个片段序列进行建模获取长期运动的信息。
4.根据权利要求1所述的方法,其特征在于,所述构建八度卷积模型包括:
根据下式构建所述八度卷积模型:
H=fH→H(H)+upsample(fL→H(L))
L=fH→L(pool(H))+fL→L(L)
其中unsample和pool对应于上采样和池化操作,fH→H,fL→L表示信息更新,H为高频,L为低频,fH→L,fL→H表示高频与低频两个频率之间的信息交换。
5.根据权利要求1或2所述的方法,其特征在于,所述根据交叉熵损失训练所述八度卷积模型包括:
对所述八度卷积的不同的信道分配给低频的比例α值设置为0.5。
6.根据权利要求5所述的方法,其特征在于,所述根据交叉熵损失训练所述八度卷积模型包括:
根据深度学习编译器TVM训练所述八度卷积模型。
7.根据权利要求6所述的方法,其特征在于,训练所述八度卷积模型过程中,用交叉熵损失进行反向传播,更新优化所述八度卷积模型参数。
8.根据权利要求1或4所述的方法,其特征在于,所述对所述k个片段进行取样并输入所述八度卷积模型,根据交叉熵损失训练所述八度卷积模型,得到所述k段的片段级结果包括:
根据MPEG-4压缩视频的三种数据模式作为输入:RGB、运动矢量、残差向量,RGB、运动矢量、残差向量分别表示为Rrgb,Rmv,Rres,Oct Resnet表示为O(),用于为每个输入建模:
or=O(r),r∈R,R={Rrgb,Rmv,Rres}
Figure FDA0003408837680000031
其中,段的总数表示为K,t用于表示K段中的第h段,输入由RGB、运动矢量、残差向量三种模式的输入组成,表示为r,Ot r表示不同片段不同模态作为输入时网络的预测结果,W表示权重集合。
9.根据权利要求1或2或4所述的方法,其特征在于,所述融合所述k个片段的片段级结果,得到所述待识别视频预测结果包括:
将所述k个片段的中相邻片段的片段结果相加融合,得到所述待识别视频的预测结果。
CN202010057457.1A 2020-01-19 2020-01-19 基于八度卷积的压缩视频动作识别方法 Active CN111246217B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010057457.1A CN111246217B (zh) 2020-01-19 2020-01-19 基于八度卷积的压缩视频动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010057457.1A CN111246217B (zh) 2020-01-19 2020-01-19 基于八度卷积的压缩视频动作识别方法

Publications (2)

Publication Number Publication Date
CN111246217A CN111246217A (zh) 2020-06-05
CN111246217B true CN111246217B (zh) 2022-02-01

Family

ID=70865934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010057457.1A Active CN111246217B (zh) 2020-01-19 2020-01-19 基于八度卷积的压缩视频动作识别方法

Country Status (1)

Country Link
CN (1) CN111246217B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750175B (zh) * 2021-01-12 2022-07-08 山东师范大学 基于八度卷积和语义分割的图像压缩方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423725A (zh) * 2017-08-11 2017-12-01 深圳市唯特视科技有限公司 一种基于混合时间卷积和循环网络的视频动作分割方法
CN107454413A (zh) * 2017-08-25 2017-12-08 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种保留特征的视频编码方法
CN108764128A (zh) * 2018-05-25 2018-11-06 华中科技大学 一种基于稀疏时间分段网络的视频动作识别方法
CN110072107A (zh) * 2019-04-25 2019-07-30 南京理工大学 一种基于运动估计共享的雾霾视频压缩方法
CN110619309A (zh) * 2019-09-19 2019-12-27 天津天地基业科技有限公司 一种基于八度卷积和YOLOv3的嵌入式平台人脸检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7561620B2 (en) * 2004-08-03 2009-07-14 Microsoft Corporation System and process for compressing and decompressing multiple, layered, video streams employing spatial and temporal encoding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423725A (zh) * 2017-08-11 2017-12-01 深圳市唯特视科技有限公司 一种基于混合时间卷积和循环网络的视频动作分割方法
CN107454413A (zh) * 2017-08-25 2017-12-08 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种保留特征的视频编码方法
CN108764128A (zh) * 2018-05-25 2018-11-06 华中科技大学 一种基于稀疏时间分段网络的视频动作识别方法
CN110072107A (zh) * 2019-04-25 2019-07-30 南京理工大学 一种基于运动估计共享的雾霾视频压缩方法
CN110619309A (zh) * 2019-09-19 2019-12-27 天津天地基业科技有限公司 一种基于八度卷积和YOLOv3的嵌入式平台人脸检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Compressed Video Action Recognition;Chao-Yuan Wu;《 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181217;第2节-第4节 *

Also Published As

Publication number Publication date
CN111246217A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN110415172B (zh) 一种面向混合分辨率码流中人脸区域的超分辨率重建方法
Wu et al. Learned block-based hybrid image compression
KR20110107827A (ko) 차동 움직임 벡터들의 개선된 공간적인 필터링을 갖는 다중-후보 움직임 추정
CN103826125B (zh) 用于已压缩监控视频的浓缩分析方法和装置
CN101009835A (zh) 基于背景的运动估计编码方法
CN111479110B (zh) 针对h.266/vvc的快速仿射运动估计方法
CN114286093A (zh) 一种基于深度神经网络的快速视频编码方法
CN111246217B (zh) 基于八度卷积的压缩视频动作识别方法
Wu et al. Memorize, then recall: a generative framework for low bit-rate surveillance video compression
CN111246292B (zh) 基于片段一致性的压缩视频动作识别方法及装置
CN112601095A (zh) 一种视频亮度和色度分数插值模型的创建方法及系统
Yasin et al. Review and evaluation of end-to-end video compression with deep-learning
CN113902000A (zh) 模型训练、合成帧生成、视频识别方法和装置以及介质
Yin et al. A co-prediction-based compression scheme for correlated images
Crandall et al. Lossless image compression using causal block matching and 3d collaborative filtering
CN117097898A (zh) 基于点云属性预测的解码、编码方法、解码器及编码器
Iwai et al. Self texture transfer networks for low bitrate image compression
Li et al. You Can Mask More For Extremely Low-Bitrate Image Compression
Zheng et al. End-to-End RGB-D Image Compression via Exploiting Channel-Modality Redundancy
WO2024083100A1 (en) Method and apparatus for talking face video compression
Meng et al. Learned Image Compression with Large Capacity and Low Redundancy of Latent Representation
CN113556551B (zh) 一种编码、解码方法、装置及设备
US11546614B1 (en) Encoder and decoder for encoding and decoding images
CN114501031B (zh) 一种压缩编码、解压缩方法以及装置
WO2021095245A1 (ja) 画像処理方法、データ処理方法、画像処理装置、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant