CN111246292B - 基于片段一致性的压缩视频动作识别方法及装置 - Google Patents

基于片段一致性的压缩视频动作识别方法及装置 Download PDF

Info

Publication number
CN111246292B
CN111246292B CN202010057459.0A CN202010057459A CN111246292B CN 111246292 B CN111246292 B CN 111246292B CN 202010057459 A CN202010057459 A CN 202010057459A CN 111246292 B CN111246292 B CN 111246292B
Authority
CN
China
Prior art keywords
frame
video
consistency
loss
compressed video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010057459.0A
Other languages
English (en)
Other versions
CN111246292A (zh
Inventor
张俊三
冯叶棋
王晓敏
程俏俏
余勇
朱瑞
常益浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202010057459.0A priority Critical patent/CN111246292B/zh
Publication of CN111246292A publication Critical patent/CN111246292A/zh
Application granted granted Critical
Publication of CN111246292B publication Critical patent/CN111246292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/573Motion compensation with multiple frame prediction using two or more reference frames in a given prediction direction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开一种基于片段一致性的压缩视频动作识别方法及装置,能够减少压缩视频动作识别过程中不同阶段行为的差异。该方法包括:S1、对待识别视频进行压缩构建压缩视频,将所述压缩视频划分为k个片段;S2、基于所述压缩视频构建动作一致性模型;S3、对所述动作一致性模型进行训练,得到训练模型;S4、根据所述动作一致性模型和所述训练模型,融合所述k个片段。本发明实施例用于压缩视频动作识别。

Description

基于片段一致性的压缩视频动作识别方法及装置
技术领域
本发明涉及图像处理领域,尤其涉及一种基于片段一致性的压缩视频动作识别方法及装置。
背景技术
视频包含了大量连续帧之间的短暂动作信息(temporal motion information),对于2D卷积神经网络来说,仅用RGB图像来学习时间运动信息是困难的,3D卷积网络和RNNs是一种有效的获取连续帧时空信息的工具,但收效甚微。目前,获得最新结果的方法通常遵循双流网络,光流能大大提高性能,但成本超过了它的收益。
为了解决上述问题,相关技术利用MPEG-4、H.264等编码的压缩视频中的动作信息来代替消耗很高的光流进行动作识别。但相关技术忽略了如何学习不同片段之间的相关性来捕获长时间的信息(long-range temporal information)。有些动作有很高相似度,例如,跳绳和跳远在早期都表现为屈膝,在大多数情况下,很难区分屈膝属于跳绳或跳远的片段,不利于最终的分类结果。
发明内容
本发明实施例提供一种基于片段一致性的压缩视频动作识别方法及装置,能够减少压缩视频动作识别过程中不同阶段行为的差异。
本发明实施例采用如下技术方案:
一种基于片段一致性的压缩视频动作识别方法,包括:
S1、对待识别视频进行压缩构建压缩视频,将所述压缩视频划分为k个片段;
S2、基于所述压缩视频构建动作一致性模型;
S3、对所述动作一致性模型进行训练,得到训练模型;
S4、根据所述动作一致性模型和所述训练模型,学习所述k个片段中不同片段之间的相关性捕获长时间的信息,融合所述k个片段,对融合所述k个片段后的视频进行动作识别。
可选的,所述S1包括:
根据MPEG-4第2部分编码所述待识别视频,将所述压缩视频分成I帧、P帧和零个或多个B帧;其中,I帧为内部编码帧、P帧为预测帧、B帧为由运动矢量和残差组成的双向帧,所述I帧为常规图像,所述P帧帧编码前一帧到当前帧的变化,所述P帧由动量和残差组成。
可选的,所述压缩视频包含I帧RGB图像、动量和残差三种数据模式,其中,像素块从原始帧到目标帧的移动表示为动量,所述动量在视频压缩过程中分为多个宏块,残差是当前帧与其相关的I帧之间的RGB差,动量表示为M,残差表示为R,Ij是j时刻压缩视频中的I帧,Pj+1是压缩视频中的P帧;
压缩视频表示为序列{Ij,Pj+1Pj+1},编码视频表示为{Ij,Ij+1},P帧重构为Ij+1
Ij+1=Pj+1+Ij
Pj+1=M+R
其中,I帧,残差和P帧的大小为3*H*W,m的大小为2*H*W。
可选的,所述S2包括:
对所述K个片段序列进行建模,将动作一致性损失添加到模型中,获取更有效的长期信息;
动作一致性损失Lcon定义为:
Lcon(t)=|f(xt+1)-f(xt)|
其中t表示模型的第t个片段一致性损失,f(xt)和f(xt+1)表示第t段和第t+1段的预测值,Lcon(t)表示第t段和第t+1段之间的动作一致性损失。
可选的,所述S3包括:
将交叉熵损失作为动作分类损失,表示为Lcls(t),总损失函数为L:
Figure GDA0003434723120000031
式中Lcon(t)表示第t段和第t+1段之间的动作一致性损失,Lcls(t)表示第t段的动作分类损失,将所有K个片段视频的一致性损失和分类损失相加得到总损失,λ是一致性损失所占的权重。
可选的,所述S4包括:
根据所述动作一致性模型和所述训练模型,融合所述k个片段,学习不同片段之间的相关性来捕获长时间的信息,通过充分利用不同时间段中动作的一致性来获得更有效的动作信息,融合所述k个片段,对融合后的视频进行动作识别。
一种基于片段一致性的压缩视频动作识别装置,包括:
压缩模块,用于对待识别视频进行压缩构建压缩视频,将所述压缩视频划分为k个片段;
模型构建模块,用于基于所述压缩视频构建动作一致性模型;
训练模块,用于对所述动作一致性模型进行训练,得到训练模型;
融合模块,用于根据所述动作一致性模型和所述训练模型,融合所述k个片段。
可选的,所述压缩模块,用于应用MPEG-4第2部分编码所述待识别视频,将所述待识别视频分成I帧、P帧和零个或多个B帧;其中,I帧为内部编码帧、P帧为预测帧、B帧为双向帧,所述I帧是常规图像,而P帧编码前一帧到当前帧的变化,所述P帧由动量和残差组成;
所述压缩视频包含I帧RGB图像、动量和残差三种数据模式,其中,像素块从原始帧到目标帧的移动表示为动量,所述动量在视频压缩过程中分为多个宏块,残差是当前帧与其相关的I帧之间的RGB差,动量表示为M,残差表示为R,Ij是j时刻压缩视频中的I帧,Pj+1是压缩视频中的P帧;
压缩视频表示为序列{Ij,Pj+1Pj+1},编码视频表示为{Ij,Ij+1},P帧重构为Ij+1
Jj+1=Pj+1+Ij
Pj+1=M+R
其中,I帧,残差和P帧的大小为3*H*W,m的大小为2*H*W。
可选的,所述模型构建模块,用于对所述K个片段序列进行建模,将动作一致性损失添加到模型中,获取更有效的长期信息;
动作一致性损失Lcon定义为:
Lcon(t)=|f(xt+1)-f(xt)|
其中t表示模型的第t个片段一致性损失,f(xt)和f(xt+1)表示第t段和第t+1段的预测值,Lcon(t)表示第t段和第t+1段之间的动作一致性损失。
可选的,所述训练模块,用于将交叉熵损失作为动作分类损失,表示为Lcls(t),总损失函数表示为L:
Figure GDA0003434723120000041
式中Lcon(t)表示第t段和第t+1段之间的动作一致性损失,Lcls(t)表示第t段的动作分类损失,将所有K个片段视频的一致性损失和分类损失相加得到总损失,λ是一致性损失所占的权重。
基于上述技术方案的基于片段一致性的压缩视频动作识别方法及装置,对待识别视频进行压缩构建压缩视频,将压缩视频划分为k个片段,基于压缩视频构建动作一致性模型,对动作一致性模型进行训练,得到训练模型,根据动作一致性模型和训练模型,融合k个片段,从而减少压缩视频动作识别过程中不同阶段行为的差异。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本发明实施例提供的基于片段一致性的压缩视频动作识别方法的流程图;
图2为本发明实施例提供的压缩视频解码视频模型结构示意图;
图3为本发明实施例提供的不同片段之间动作一致性结构示意图;
图4为本发明实施例提供的不同权重对分类损失和一致性损失的影响示意图;
图5为本发明实施例提供的基于片段一致性的压缩视频动作识别装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本发明实施例的基于片段一致性的压缩视频动作识别方法,视频使用MPEG-4第2部分编码作为CoViAR压缩视频动作识别视频编码,用一致性损失保持不同片段内部的动作一致性,通过后期融合将三个独立的CNNs的预测结果结合起来。从而构建内部动作一致性损失,以减少来自不同片段的变化。动作识别的构造捕获了具有较好泛化能力的特征。在具有挑战性的UCF-101和HMDB数据集上的结果表明,与相关的动作识别方法相比,本发明实施例取得了更好的性能。为了有效、准确地进行动作识别,通过对HMDB-51和UCF-101的广泛评价(Extensive evaluations)证实了本发明实施例的有效性。
如图1所示,本发明实施例提供一种基于片段一致性的压缩视频动作识别方法,包括:
S1、对待识别视频进行压缩构建压缩视频,将所述压缩视频划分为k个片段。
S2、基于所述压缩视频构建动作一致性模型。
S3、对所述动作一致性模型进行训练,得到训练模型。
S4、根据所述动作一致性模型和所述训练模型,学习所述k个片段中不同片段之间的相关性捕获长时间的信息(long-range temporal information)(不同片段中相同的信息,比如动作的分类),融合所述k个片段,对融合所述k个片段后的视频进行动作识别。
本发明实施例视频压缩去除大量冗余的信息,使有趣的信息更加突出,为压缩视频的动量和残差为动作识别提供必要的动作信息。
上述基于片段一致性的压缩视频动作识别方法,对待识别视频进行压缩构建压缩视频,将压缩视频划分为k个片段,基于压缩视频构建动作一致性模型,对动作一致性模型进行训练,得到训练模型,根据动作一致性模型和训练模型,融合k个片段,从而减少压缩视频动作识别过程中不同阶段行为的差异。
在一个实施例中,可选的,所述S1包括:
根据MPEG-4第2部分编码所述待识别视频,将所述待识别视频分成I帧、P帧和零个或多个B帧;其中,I帧为内部编码帧、P帧为预测帧、B帧为双向帧,所述I帧是常规图像,所述P帧帧编码前一帧到当前帧的变化,所述P帧由动量和残差组成。其中,像素块从原始帧到目标帧的移动表示为动量,残差存储块移动补偿后当前帧与其相关的I帧之间的RGB差。
在一个实施例中,可选的,如图2所示的识别示意图,所述压缩视频包含I帧RGB图像、动量和残差三种数据模式,其中,像素块从原始帧到目标帧(前一视频片段的这一帧和后一视频片段的这一帧)的移动表示为动量,所述动量在视频压缩过程中分为多个宏块,残差是当前帧与其相关的I帧之间的RGB差,动量表示为M,残差表示为R,是j时刻压缩视频中的I帧,是压缩视频中的P帧。其中,从某一个动作开始时的帧到该动作结束时的帧为原始帧和目标帧。即原始帧可以为一动作的开始帧,目标帧可以为该动作的结束帧。
压缩视频表示为序列{Ij,Pj+1Pj+1},编码视频表示为{Ij,Ij+1},P帧重构为Ij+1
Ij+1=Pj+1+Ij
Pj+1=M+R
其中,I帧,残差和P帧的大小为3*H*W,m的大小为2*H*W。
在一个实施例中,可选的,所述S2包括:
对所述K个片段序列进行建模,将动作一致性损失添加到模型中,获取更有效的长期信息;
动作一致性损失Lcon定义为:
Lcon(t)=|f(xt+1)-f(xt)|
其中t表示模型的第t个片段一致性损失,f(xt)和f(xt+1)表示第t段和第t+1段的预测值,Lcon(t)表示第t段和第t+1段之间的动作一致性损失。
如图3所示。
例如,基于TSN(long-range temporal structure,长范围时间结构)建模,结合稀疏时间采样策略(sparse temporal sampling strategy)和视频级监督(video-levelsupervision)保证使用整段视频时学习得有效和高效,即,将压缩视频分段。
在一个实施例中,可选的,所述S3包括:
将交叉熵损失作为动作分类损失,表示为Lcls(t),总损失函数为L:
Figure GDA0003434723120000071
式中Lcon(t)表示第t段和第t+1段之间的动作一致性损失(视频级动作识别中相同动作在不同片段间的语义概念不一致,对于同一个视频的同一动作,不同的片段应该是一致的),Lcls(t)表示第t段的动作分类损失(这一动作识别为跳绳还是打球,看识别的对不对)(视频级动作识别方法平均不同片段的分类得分),将所有K个片段视频的一致性损失和分类损失相加得到总损失,λ是一致性损失所占的权重。
在一个实施例中,可选的,所述S4包括:
根据所述动作一致性模型和所述训练模型,融合所述k个片段。学习不同片段之间的相关性来捕获长时间的信息(long-range temporal information),通过充分利用不同时间段中动作的一致性来获得更有效的动作信息,融合所述k个片段,对融合后的视频进行动作识别。
本发明实施例,加入一致性损失使得网络能够通过充分利用不同时间段中动作的一致性来获得更有效的动作信息。评价了一致性损失的影响。相比之下,使用单一的分类损失仅在融合阶段根据不同片段的预测结果进行加权融合能获得长期信息。动作一致性损失对于这种方法获取长期动作信息来说更有意义。在训练过程中,通过网络可以学习一个动作在不同时间的不同特征。由于距离较远片段的动作表现差异较大,一致性损失仅用于每两个相邻片段之间。
本发明实施例,UCF-101在压缩视频上使用一致性损失,为证明一致性损失的有效性,表1的实验采用Resnet152,区别为是否添加一致性损失。在所有模式(iframe,动量和残差)下,具有一致性损失的方法都优于没有一致性损失的方法。一致性损失为UCF-101的最终结果贡献了0.64%的明显改进。特别是,它分别为UCF-101上的帧、残差和运动矢量提供1.41%、1.34%和2.99%。值得注意的是,一致性损失对动量的影响比帧和残差更大。iframes描述了空间信息(例如背景),这些信息在修剪后的视频片段中几乎是不变的。相比之下,动量提供的信息与静止图像提供的信息(例如运动)正交,而静止图像在片段之间有明显的差异。
表1:动作一致性损失对UCF-101 split1的影响。Resnet152
Figure GDA0003434723120000091
因此,一致性约束对动量有显著影响。实验结果证明了一致性对于剪辑后的视频片段之间动作识别的有效性。同时,评估了不同值(一致性损失权重)对准确率的影响。不同值的效果如图4所示,经过对比分析,最后对iframe取1.0,对残差和动量取0.5。此外,在一致性损失实验中,发现一致性损失也有加速收敛的作用。
本发明实施例采用MPEG-4、H.264等编码的压缩视频中的动作信息来代替消耗很高的光流进行动作识别,去除两个数量级的多余信息,同时从压缩视频中的动量和残差中捕获动作信息。能够有效提升动作识别的准确率,提高收敛速度。
本发明实施例基于片段一致性的压缩视频动作识别方法,对待识别视频进行压缩构建压缩视频,将压缩视频划分为k个片段,基于压缩视频构建动作一致性模型,对动作一致性模型进行训练,得到训练模型,根据动作一致性模型和训练模型,融合k个片段,从而减少压缩视频动作识别过程中不同阶段行为的差异。
如图5所示,本发明实施例提供一种基于片段一致性的压缩视频动作识别装置,包括:
压缩模块51,用于对待识别视频进行压缩构建压缩视频,将所述压缩视频划分为k个片段;
模型构建模块52,用于基于所述压缩视频构建动作一致性模型;
训练模块53,用于对所述动作一致性模型进行训练,得到训练模型;
融合模块54,用于根据所述动作一致性模型和所述训练模型,融合所述k个片段。
在一个实施例中,可选的,所述压缩模块,用于应用MPEG-4第2部分编码所述待识别视频,将所述待识别视频分成I帧、P帧和零个或多个B帧;其中,I帧为内部编码帧、P帧为预测帧、B帧为双向帧,所述I帧是常规图像,所述P帧编码前一帧到当前帧的变化,所述P帧由动量和残差组成;像素块从原始帧到目标帧的移动表示为动量,残差存储块移动补偿后当前帧与其相关的I帧之间的RGB差。
所述压缩视频包含I帧RGB图像、动量和残差三种数据模式,其中,像素块从原始帧到目标帧的移动表示为动量,所述动量在视频压缩过程中分为多个宏块,残差是当前帧与其相关的I帧之间的RGB差,动量表示为M,残差表示为R,Ij是j时刻压缩视频中的I帧,Pj+1是压缩视频中的P帧;
压缩视频表示为序列{Ij,Pj+1Pj+1},编码视频表示为{Ij,Ij+1},P帧重构为Ij+1
Ij+1=Pj+1+Ij
Pj+1=M+R
其中,I帧,残差和P帧的大小为3*H*W,m的大小为2*H*W。
在一个实施例中,可选的,所述模型构建模块,用于自TSN被提出以来,所述压缩视频被分成K个片段,并对所述K个片段序列进行建模,将动作一致性损失添加到模型中,获取更有效的长期信息;
动作一致性损失Lcon定义为:
Lcon(t)=|f(xt+1)-f(xt)|
其中t表示模型的第t个片段一致性损失,f(xt)和f(xt+1)表示第t段和第t+1段的预测值,Lcon(t)表示第t段和第t+1段之间的动作一致性损失。
在一个实施例中,可选的,所述训练模块,用于将交叉熵损失作为动作分类损失,表示为Lcls(t),总损失函数表示为L:
Figure GDA0003434723120000111
式中Lcon(t)表示第t段和第t+1段之间的动作一致性损失,Lcls(t)表示第t段的动作分类损失,将所有K个片段视频的一致性损失和分类损失相加得到总损失,λ是一致性损失所占的权重。
本发明实施例的基于片段一致性的压缩视频动作识别装置仅为简要描述,详细描述可以参照上述方法实施例对应部分。
基于上述技术方案的基于片段一致性的压缩视频动作识别装置,对待识别视频进行压缩构建压缩视频,将压缩视频划分为k个片段,基于压缩视频构建动作一致性模型,对动作一致性模型进行训练,得到训练模型,根据动作一致性模型和训练模型,融合k个片段,从而减少压缩视频动作识别过程中不同阶段行为的差异。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本实用新型揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本实用新型的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (2)

1.一种基于片段一致性的压缩视频动作识别方法,其特征在于,包括:
S1、对待识别视频进行压缩构建压缩视频,将所述压缩视频划分为k个片段;
S2、基于所述压缩视频,构建动作一致性模型;
S3、对所述动作一致性模型进行训练,得到训练模型;
S4、根据所述训练模型,分别将待识别视频所述各个模式的k个片段的数据输入至所述训练模型,得到所述各个模式k个片段的模型输出结果,融合所述各个模式中k个片段的识别结果得到所述各个模式的视频级识别结果,最后对所述各个模式的识别结果进行融合,得到最终的识别结果;
根据MPEG-4第2部分编码所述待识别视频,将所述压缩视频分成I帧、P帧和零个或多个B帧;其中,I帧为内部编码帧、P帧为预测帧、B帧为由运动矢量和残差组成的双向帧,所述I帧为常规图像,所述P帧帧编码前一帧到当前帧的变化,所述P帧由动量和残差组成;
所述压缩视频包含I帧RGB图像、动量和残差三种数据模式,其中,像素块从原始帧到目标帧的移动表示为动量,所述动量在视频压缩过程中分为多个宏块,残差是当前帧与其相关的I帧之间的RGB差,动量表示为M,残差表示为R,Ij是j时刻压缩视频中的I帧,Pj+1是压缩视频中的P帧;
压缩视频表示为序列{Ij,Pj+1Pj+2....},解码视频表示为{Ij,Ij+1,Ij+2…},P帧重构为Ij+1
Ij+1=Pj+1+Ij
Pj+1=M+R
其中,I帧,残差和P帧的大小为3*H*W,m的大小为2*H*W;所述S2包括:
对所述K个片段序列进行建模,将动作一致性损失添加到模型中,获取更有效的长期信息;
所述S3包括:
将交叉熵损失作为动作分类损失,表示为Lcls(t),总损失函数为L:
Figure FDA0003580386840000021
式中Lcon(t)表示第t段和第t+1段之间的动作一致性损失,Lcls(t)表示第t段的动作分类损失,将所有K个片段视频的一致性损失和分类损失相加得到总损失,λ是一致性损失所占的权重。
2.一种基于片段一致性的压缩视频动作识别装置,其特征在于,包括:
压缩模块,用于识别视频进行压缩构建压缩视频,将所述压缩视频划分为k个片段;
模型构建模块,用于压缩视频,构建动作一致性模型;
训练模块,用于对所述动作一致性模型进行训练,得到训练模型;
融合模块,用于根据所述训练模型,分别将待识别视频所述各个模式的k个片段的数据输入至所述训练模型,得到所述各个模式k个片段的模型输出结果,融合所述各个模式中k个片段的识别结果得到所述各个模式的视频级识别结果,最后对所述各个模式的识别结果进行融合,得到最终的识别结果;
所述压缩模块,用于应用MPEG-4第2部分编码所述待识别视频,将所述待识别视频分成I帧、P帧和零个或多个B帧;其中,I帧为内部编码帧、P帧为预测帧、B帧为双向帧,所述I帧是常规图像,而P帧编码前一帧到当前帧的变化,所述P帧由动量和残差组成;
所述压缩视频包含I帧RGB图像、动量和残差三种数据模式,其中,像素块从原始帧到目标帧的移动表示为动量,所述动量在视频压缩过程中分为多个宏块,残差是当前帧与其相关的I帧之间的RGB差,动量表示为M,残差表示为R,Ij是j时刻压缩视频中的I帧,Pj+1是压缩视频中的P帧;
压缩视频表示为序列{Ij,Pj+1Pj+2....},编码视频表示为{Ij,Ij+1,Ij+2…},P帧重构为Ij+1
Ij+1=Pj+1+Ij
Pj+1=M+R
其中,I帧,残差和P帧的大小为3*H*W,m的大小为2*H*W;
所述模型构建模块,用于对所述K个片段序列进行建模,将动作一致性损失添加到模型中,获取更有效的长期信息;
动作一致性损失Lcon定义为:
Lcon(t)=|f(xt+1)-f(xt)|
其中t表示模型的第t个片段一致性损失,f(xt)和f(xt+1)表示第t段和第t+1段的预测值,Lcon(t)表示第t段和第t+1段之间的动作一致性损失;
所述训练模块,用于将交叉熵损失作为动作分类损失,表示为Lcls(t),总损失函数表示为L:
Figure FDA0003580386840000031
式中Lcon(t)表示第t段和第t+1段之间的动作一致性损失,Lcls(t)表示第t段的动作分类损失,将所有K个片段视频的一致性损失和分类损失相加得到总损失,λ是一致性损失所占的权重。
CN202010057459.0A 2020-01-19 2020-01-19 基于片段一致性的压缩视频动作识别方法及装置 Active CN111246292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010057459.0A CN111246292B (zh) 2020-01-19 2020-01-19 基于片段一致性的压缩视频动作识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010057459.0A CN111246292B (zh) 2020-01-19 2020-01-19 基于片段一致性的压缩视频动作识别方法及装置

Publications (2)

Publication Number Publication Date
CN111246292A CN111246292A (zh) 2020-06-05
CN111246292B true CN111246292B (zh) 2022-05-24

Family

ID=70879582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010057459.0A Active CN111246292B (zh) 2020-01-19 2020-01-19 基于片段一致性的压缩视频动作识别方法及装置

Country Status (1)

Country Link
CN (1) CN111246292B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115588235B (zh) * 2022-09-30 2023-06-06 河南灵锻创生生物科技有限公司 一种宠物幼崽行为识别方法及系统
CN116170638B (zh) * 2023-02-01 2024-04-30 山东大学 用于在线动作检测任务的自注意力视频流压缩方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647903A (zh) * 2019-06-20 2020-01-03 杭州趣维科技有限公司 一种短视频分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305820A (ja) * 1995-04-28 1996-11-22 Fujitsu Ltd 能動的物体認識方法および装置
CN108764128A (zh) * 2018-05-25 2018-11-06 华中科技大学 一种基于稀疏时间分段网络的视频动作识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647903A (zh) * 2019-06-20 2020-01-03 杭州趣维科技有限公司 一种短视频分类方法

Also Published As

Publication number Publication date
CN111246292A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
Wang et al. End-to-end video instance segmentation with transformers
Wu et al. Compressed video action recognition
Zhao et al. Learning to forecast and refine residual motion for image-to-video generation
CN102067601B (zh) 视频编码和解码中模板匹配预测(tmp)的方法和装置
TWI445411B (zh) 在譯碼單元之視頻譯碼中執行局部運動向量推導之方法與相應裝置
CN111246292B (zh) 基于片段一致性的压缩视频动作识别方法及装置
CN105426883B (zh) 视频分类快速识别的方法及装置
Lin et al. Reconstruction algorithm for lost frame of multiview videos in wireless multimedia sensor network based on deep learning multilayer perceptron regression
CN113132727B (zh) 可伸缩机器视觉编码方法和运动引导图像生成网络的训练方法
CN103141092B (zh) 针对视频压缩使用运动补偿的基于示例的超分辨率来编码视频信号的方法和设备
CN112001308A (zh) 一种采用视频压缩技术和骨架特征的轻量级行为识别方法
Fan et al. Motion adaptive pose estimation from compressed videos
CN113132735A (zh) 一种基于视频帧生成的视频编码方法
CN111246217B (zh) 基于八度卷积的压缩视频动作识别方法
Girase et al. Latency matters: Real-time action forecasting transformer
Wang et al. Team-net: Multi-modal learning for video action recognition with partial decoding
Lin et al. Multiple hypotheses based motion compensation for learned video compression
Wang et al. End-to-end facial deep learning feature compression with teacher-student enhancement
Huang et al. End-to-end video matting with trimap propagation
CN115499666A (zh) 视频的压缩方法、解压缩方法、装置、设备和存储介质
CN114501031B (zh) 一种压缩编码、解压缩方法以及装置
CN113902000A (zh) 模型训练、合成帧生成、视频识别方法和装置以及介质
CN114708646A (zh) 基于光流蒸馏的压缩视频人体行为识别算法
Li et al. Fast Fourier inception networks for occluded video prediction
Nag et al. How far can i go?: A self-supervised approach for deterministic video depth forecasting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant