CN110879952B - 一种视频帧序列的处理方法及装置 - Google Patents
一种视频帧序列的处理方法及装置 Download PDFInfo
- Publication number
- CN110879952B CN110879952B CN201811037225.9A CN201811037225A CN110879952B CN 110879952 B CN110879952 B CN 110879952B CN 201811037225 A CN201811037225 A CN 201811037225A CN 110879952 B CN110879952 B CN 110879952B
- Authority
- CN
- China
- Prior art keywords
- frame sequence
- node
- video
- shot
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种视频帧序列的处理方法及装置。其中视频帧序列的处理方法,包括:获取待处理的视频帧序列;将所述视频帧序列进行镜头分割,获取镜头帧序列;以所述镜头帧序列中的每一帧作为第一节点,根据所述镜头帧序列的帧间相似度连接第一节点,构建所述镜头帧序列的图;针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构,所述第二节点通过针对所述第一节点执行卷积计算获得;根据所述第一特征向量和第一拓扑结构,获取由所述视频帧序列组成的第一视频在镜头层的第一特征表达。采用本申请提供的方法,解决了现有视频建模技术中,无法对复杂视频进行建模,而且对时长较长的视频建模效果不好的问题。
Description
技术领域
本申请涉及视频信息挖掘领域,具体涉及一种视频帧序列的处理方法及装置。
背景技术
视频占据了互联网流量的80%,对视频进行理解和结构化,越来越受到学术界和工业界的关注。
当前的技术方案中,常使用LSTM针对视频建模。LSTM(Long Short-Term Memory)是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。但是,LSTM无法对复杂视频进行建模,而且LSTM的表达能力有限,对时长较长的视频建模效果不好。
发明内容
本申请提供一种视频帧序列的处理方法及装置,以解决现有视频建模技术中,无法对复杂视频进行建模,而且对时长较长的视频建模效果不好的问题。
根据本申请另一个方面,提供一种数据处理方法,生成相似度满足预设要求的片段帧序列。
本申请提供一种视频帧序列的处理方法,包括:
获取待处理的视频帧序列;
将所述视频帧序列进行镜头分割,获取镜头帧序列;
以所述镜头帧序列中的每一帧作为第一节点,根据所述镜头帧序列的帧间相似度连接所述第一节点,构建所述镜头帧序列的图;
针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构,所述第二节点通过针对所述第一节点执行卷积计算获得;
根据所述第一特征向量和第一拓扑结构,获取由所述视频帧序列组成的第一视频在镜头层的第一特征表达。
可选的,所述将所述视频帧序列进行镜头分割,获取镜头帧序列,包括:
利用深度卷积网络对所述视频帧序列进行图像特征提取,获取所述视频帧序列中帧的第二特征向量;
根据所述第二特征向量,构建所述视频帧序列的帧间相似矩阵;
在所述帧间相似矩阵的对角线上确定连续帧,所述连续帧作为所述镜头帧序列。
可选的,所述针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构,包括:
利用平均池化算法针对所述图中的第一节点执行卷积计算,获取第二节点的第一特征向量。
可选的,所述针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构,包括:
利用基于自注意力机制的池化方法针对所述图中的第一节点执行池化计算,获取第二节点的第一拓扑结构。
可选的,还包括:
针对所述第二节点执行卷积计算和池化计算,获取第三节点的第三特征向量和第二拓扑结构;
根据所述第三特征向量和第二拓扑结构,获取所述第一视频在事件层的第二特征表达。
可选的,还包括:
针对所述第三节点执行卷积计算和池化计算,获取第四节点的第四特征向量和第三拓扑结构;
根据所述第四特征向量和第三拓扑结构,获取所述第一视频在视频层的第三特征表达。
可选的,还包括:
将所述第四特征向量输入MoE模型进行训练,获取所述第一视频的类标签;
所述MoE模型的损失函数采用交叉熵实现。
本申请提供一种视频帧序列的处理装置,其特征在于,包括:
帧序列获取单元,用于获取待处理的视频帧序列;
分割单元,用于将所述视频帧序列进行镜头分割,获取镜头帧序列;
构建单元,用于以所述镜头帧序列中的每一帧作为第一节点,根据所述镜头帧序列的帧间相似度连接所述第一节点,构建所述镜头帧序列的图;
计算单元,用于针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构,所述第二节点通过针对所述第一节点执行卷积计算获得;
特征表达获取单元,用于根据所述第一特征向量和第一拓扑结构,获取由所述视频帧序列组成的第一视频在镜头层的第一特征表达。
可选的,所述分割单元,具体用于:
利用深度卷积网络对所述视频帧序列进行图像特征提取,获取所述视频帧序列中帧的第二特征向量;
根据所述第二特征向量,构建所述视频帧序列的帧间相似矩阵;
在所述帧间相似矩阵的对角线上确定连续帧,所述连续帧作为所述镜头帧序列。
可选的,所述计算单元,具体用于:
利用平均池化算法针对所述图中的第一节点执行卷积计算,获取第二节点的第一特征向量。
可选的,所述计算单元,具体用于:
利用基于自注意力机制的池化方法针对所述图中的第一节点执行池化计算,获取第二节点的第一拓扑结构。
可选的,还包括:
事件层计算单元,用于针对所述第二节点执行卷积计算和池化计算,获取第三节点的第三特征向量和第二拓扑结构;
事件层获取单元,用于根据所述第三特征向量和第二拓扑结构,获取所述第一视频在事件层的第二特征表达。
可选的,还包括:
视频层计算单元,用于针对所述第三节点执行卷积计算和池化计算,获取第四节点的第四特征向量和第三拓扑结构;
视频层获取单元,用于根据所述第四特征向量和第三拓扑结构,获取所述第一视频在视频层的第三特征表达。
可选的,还包括:
训练单元,用于将所述第四特征向量输入MoE模型进行训练,获取所述第一视频的类标签;
交叉熵单元,用于将所述MoE模型的损失函数采用交叉熵实现。
本申请提供一种电子设备,所述电子设备包括:
处理器;
存储器,用于存储程序,所述程序在被所述处理器读取执行时,执行如下操作:
获取待处理的视频帧序列;
将所述视频帧序列进行镜头分割,获取镜头帧序列;
以所述镜头帧序列中的每一帧作为第一节点,根据所述镜头帧序列的帧间相似度连接所述第一节点,构建所述镜头帧序列的图;
针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构,所述第二节点通过针对所述第一节点执行卷积计算获得;
根据所述第一特征向量和第一拓扑结构,获取由所述视频帧序列组成的第一视频在镜头层的第一特征表达。
本申请提供一种计算机可读取存储介质,其上存储有计算机程序,该程序被处理器执行时,实现以下步骤:
获取待处理的视频帧序列;
将所述视频帧序列进行镜头分割,获取镜头帧序列;
以所述镜头帧序列中的每一帧作为第一节点,根据所述镜头帧序列的帧间相似度连接所述第一节点,构建所述镜头帧序列的图;
针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构,所述第二节点通过针对所述第一节点执行卷积计算获得;
根据所述第一特征向量和第一拓扑结构,获取由所述视频帧序列组成的第一视频在镜头层的第一特征表达。
本申请提供一种数据处理方法,包括:
获取图像帧序列;
获取所述图像帧序列中帧的特征向量;
根据所述特征向量,构建所述图像帧序列的帧间相似矩阵;
基于所述帧间相似矩阵,获取连续帧,生成片段帧序列。
采用本申请提供的方法,根据视频的分层结构,针对每一层进行卷积计算和池化计算,获取每一层的特征表达,解决了现有视频建模技术中,无法对复杂视频进行建模,而且对时长较长的视频建模效果不好,从而导致建模后获取的视频分类结果精确度不高的问题。
附图说明
图1是本申请提供的一种视频帧序列的处理方法的第一实施例的流程图。
图2是本申请第一实施例涉及的获取镜头帧序列的第一实例的示意图。
图3是本申请第一实施例涉及的获取镜头帧序列的第二实例的示意图。
图4是本申请第一实施例涉及的卷积计算和池化计算的示意图。
图5是本申请第一实施例涉及的多层图网络的示意图。
图6是本申请第一实施例涉及的采用本申请方案的深度卷积图神经网络(DCGN)架构图。
图7是本申请提供的一种视频帧序列的处理装置的第二实施例的流程图。
图8是本申请提供的一种获取镜头帧序列的方法的第五实施例的流程图。
图9是本申请提供的一种数据处理方法的第六实施例的流程图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请第一实施例提供一种视频帧序列的处理方法。请参看图1,该图为本申请第一实施例的流程图。以下结合图1对本申请第一实施例进行详细说明。所述方法包括如下步骤:
步骤S101:获取待处理的视频帧序列。
本步骤用于获取待处理的视频帧序列。
视频是由视频帧序列组成的,针对视频以一定的频率采样,获取视频帧序列。
步骤S102:将所述视频帧序列进行镜头分割,获取镜头帧序列。
本步骤用于将所述视频帧序列进行镜头分割,获取镜头帧序列。
将视频帧序列进行镜头分割有很多种方法,本实例提供一种利用动态算法,获取镜头帧序列的方法。
本实施例中,所述将所述视频帧序列进行镜头分割,获取镜头帧序列,包括:
利用Inception-V3深度卷积网络对所述视频帧序列进行图像特征提取,获取所述视频帧序列中帧的第二特征向量;
根据所述第二特征向量,构建所述视频帧序列的帧间相似矩阵;
利用动态规划算法,在所述相似矩阵对角线上获取所述镜头帧序列。
对许多任务而言,卷积网络是目前最新的计算机视觉解决方案的核心。从2014年开始,深度卷积网络开始变成主流,在各种基准数据集上都取得了实质性成果。对于大多数任务而言,虽然增加的模型大小和计算成本都趋向于转化为直接的质量收益(只要提供足够的标注数据去训练),但计算效率和低参数计数仍是各种应用场景的限制因素,例如移动视觉和大数据场景。Inception-V3深度卷积网络探索增大网络的方法,目标是通过适当的分解卷积和积极的正则化来尽可能地有效利用增加的计算。在ILSVRC 2012分类挑战赛的验证集上评估了Inception-V3深度卷积网络的方法,结果证明该方法超过了目前最先进的方法并取得了实质性收益:对于单一框架评估错误率为:21.2%top-1和5.6%top-5,使用的网络计算代价为每次推断需要进行50亿次乘加运算并使用不到2500万的参数。通过四个模型组合和多次评估,报告了3.5%top-5和17.3%top-1的错误率。
本实施例以1秒1帧的频率对视频进行帧图像的inception-V3 CNN(Convolutional Neural Networks)特征提取,为每幅图像生成一个由1024个浮点数组成的向量。
本实施例基于上述CNN特征提取获得的CNN特征,构建一个帧间相似矩阵,并通过动态规划算法,寻找该矩阵对角线上m个“局部块”,如图2和图3所示。
图2和图3是基于CNN特征序列的镜头分割示例。图2中展示了一个厨艺秀节目中获取镜头帧的示意图,图3中展示了一个体操节目中获取镜头帧的示意图。每个例子中,左边为基于CNN特征构建的帧间相似矩阵(这里用热度图进行可视化),矩阵中每个框标记了一个镜头,即框的左边(上边)表示镜头的起点,右边(下边)表示镜头的终点。
帧间相似矩阵用下面的公式进行构造,即矩阵每个元素的值为:
其中,i和j分别表示镜头帧中的第i帧和第j帧,f是一个二维矢量,用来描述镜头帧中帧的特征向量,D是特征向量的维度,d表示是第几维度的特征,d的取值范围从0到D,f[i][d]代表第i帧的第d维特征,f[j][d]代表第j帧的第d维特征。
本实施例采用动态规划算法进行m个镜头的搜索,即最小化如下值:
其中,m是待分割镜头的个数,n是视频的总帧数,J是关于m,n的一个待优化的目标函数,g是目标函数J的惩罚项,g(m,n)=m(log(n/m)+1),C是惩罚项的系数,一般为0.1,
其中,ti是第i个镜头的起点所在的时间点,ft是t时间点对应帧的特征向量,μi是组成第i个镜头的所有帧f的均值,v[ti][ti+1]是段[ti,ti+1]内核方差。
步骤S103:以所述镜头帧序列中的每一帧作为第一节点,根据所述镜头帧序列的帧间相似度连接第一节点,构建所述镜头帧序列的图。
本步骤用于以所述镜头帧序列中的帧作为第一节点,以所述镜头帧序列的帧间相似度作为所述第一节点间的连接依据,构建所述镜头帧序列的图。
本实施例中,帧间相似度可以使用公式上面公式来获取。根据帧间相似度,将相似度比较大的帧进行连接。
步骤S104:针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构,所述第二节点通过针对所述第一节点执行卷积计算获得。
本步骤用于针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构。
本实施例中,所述针对所述第一图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构,包括:
利用下面的公式
针对所述第一图中的第一节点执行卷积计算,其中,cl是第l层的节点卷积结果,Wl是卷积核,所述卷积核的大小为K,hl-1是第l-1层节点的融合特征,i是第l层节点的序数。图4展示了卷积是如何进行的。
为了对由帧(或镜头)构成的图进行抽象和浓缩,可以采用池化的方法。本实施例采用了下面的两种池化的方法。
本实施例中,所述针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构,包括:
利用平均池化针对所述图中的第一节点执行卷积计算;
所述平均池化通过平均化计算获取K个连续的第三节点的中心,将所述中心作为下一层的第四节点,其中,所述K为池化核的大小。
平均池化(average pooling),该方法计算K个连续的节点的中心并将该中心作为下一层的节点。中心计算采用如下公式:
其中,hl-1是l-1层的输出特征序列,i是特征序列h中标号,D是每个特征的维度,d是维度标号,K为池化核的大小,p/是第I层池化结果。通过/层后,图的大小为原图的1/K/。图4展示了平均池化是如何进行的。
本实施例中,所述针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构,包括:
利用基于自注意力机制的池化执行池化计算;
所述基于自注意力机制的池化,利用局部自注意力获得局部连续序列的特征的权重,利用所述权重,获得特征序列的局部加权和融合输出。
基于自注意力机制的池化(self-attention based poolings),这种方法进行局部自注意力以获得局部连续序列的每个特征的权重,从而获得特征序列的局部加权和融合输出。与平均池相比,它可以更好地获得下一层图的拓扑,这对于特征信息的传播是有益的。可以将其表述为:
其中K是进行自注意力机制的局部序列的长度,α是特征的权重。α是通过一个由线性操作和一个softmax操作组成的小神经网络获得的,其中Watt是获得该小网络的模型参数。图4下部展示了基于自注意力机制池化是如何进行的。
至此,本实施例已经为每个节点获得了新的特征向量cl,和新的图拓扑。为了在更高层次上获得更完整的表示,本实施例在整个图中执行特征传播,以便从全局视角生成每个节点的融合特征:
其中,D(上划线)是p的对角元素之和,W是模型参数向量。
步骤S105:根据所述第一特征向量和第一拓扑结构,获取由所述视频帧序列组成的第一视频在镜头层的第一特征表达。
本步骤用于根据所述第一特征向量和第一拓扑结构,获取由所述视频帧序列组成的第一视频在镜头层的第一特征表达。
这里的特征表达即video shot level embedding。
这里第一特征向量描述了镜头节点的特征,第一拓扑结构描述了镜头节点之间的关系。通过这些信息,可以获取由所述视频帧序列组成的第一视频在镜头层的第一特征表达。
本实施例中,所述视频帧序列的处理方法,还包括:
针对所述第二节点执行卷积计算和池化计算,获取第三节点的第三特征向量和第二拓扑结构;
根据所述第三特征表达和第二拓扑结构,获取所述第一视频在事件层的第二特征表达。
所述第二节点即为镜头节点,针对所述第二节点执行卷积计算和池化计算,获取第三节点(即事件节点)的特征向量以及第三节点之间的拓扑结构。根据所述第三特征表达和第二拓扑结构,可以获取所述第一视频在事件层的特征表达。
针对所述第二节点执行卷积计算和池化计算,可以使用上面的公式来实现,前面对于这些公式的使用方法已经进行了详细说明,这里就不再赘述了。
本实施例中,所述视频帧序列的处理方法,还包括:
针对所述第三节点执行卷积计算和池化计算,获取第四节点的第四特征向量和第三拓扑结构;
根据所述第四特征向量和第三拓扑结构,获取所述第一视频在视频层的第三特征表达。
所述第三节点即事件节点,视频可以分为若干层,最底层即为帧层,即原始的静态图像,若干个帧可以构成镜头,镜头是视频中一系列相互关联的连续图片,一般是通过单个摄像机连续拍摄的,表示了在时间和空间的连续动作;若干个镜头构成视频的事件,事件用于描述一个具有一定意义的镜头组合。若干个事件构成视频。第四节点即视频节点。根据所述第四特征向量和第三拓扑结构,获取所述第一视频在视频层的第三特征表达。
针对所述第三节点执行卷积计算和池化计算,可以使用上面的公式来实现,前面对于这些公式的使用方法已经进行了详细说明,这里就不再赘述了。
图5是采用多层图网络进行帧间、镜头间、事件间的关系表达,相似的节点被边链接在一起的示意图。在图5中,最终获得视频级的表达(video level embedding),进而进行分类(video classification)。
本实施例中,所述的视频帧序列的处理方法,还包括:
MoE(the mixture of experts)模型,即多专家模型,该模型的思想是训练多个神经网络(也就是多个专家),每个神经网络(专家)被指定(specialize)应用于数据集的不同部分。这就是说,数据集可能有着多个不同的来源(different regimes,意思是说数据集中的数据的产生方式不同,不同来源提供的数据差距较大(但真实),因此为每一个来源的数据一个指定的神经网络来处理,而且模型还有一个managing neural net用来判断一个输入应该交给哪一个神经网络来处理。
对于较小的数据集,该模型的表现可能不太好,但随着数据集规模的增大,该模型的表现会有明显的提高。更重要的是,单个的模型往往善于处理一部分数据,不擅长处理另外一部分数据(在这部分数据上犯错多),而多专家系统则很好的解决了这个问题:系统中的每一个神经网络,也就是每一个专家都会有一个擅长的数据区域,在这组区域上其要比其他专家表现得好。
表1列出了各种方法的测试结果。测试集采用YouTube-2018数据集,该数据集包括了5百万个视频,和3862个标签。
其中,LSTM(Long Short-Term Memory Networks),GRU(Gated recurrentunits),DCoF(Deep Bag of Frame pooling),是常用的视频建模方法。
表1
从表1中可以看出,average pooling,即简单的在视频帧序列的帧间进行平均池化,表现最差。DBoF的表现要差于RNN为基础的模型。最后两行是采用本申请方案的测试效果。通过对比,可以看出,使用本申请提供的建模方法,测试效果要优于其他方法。
图6是采用本申请方案的深度卷积图神经网络(DCGN)架构图。
在上述的实施例中,提供了一种视频帧序列的处理方法,与之相对应的,本申请还提供一种视频帧序列的处理装置。请参看图7,其为本申请的一种视频帧序列的处理装置实施例的流程图。由于本实施例,即第二实施例,基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例的一种视频帧序列的处理装置,包括:
帧序列获取单元701,用于获取待处理的视频帧序列;
分割单元702,用于将所述视频帧序列进行镜头分割,获取镜头帧序列;
构建单元703,用于以所述镜头帧序列中的每一帧作为第一节点,根据所述镜头帧序列的帧间相似度连接所述第一节点,构建所述镜头帧序列的图;
计算单元704,用于针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构,所述第二节点通过针对所述第一节点执行卷积计算获得;
特征表达获取单元705,用于根据所述第一特征向量和第一拓扑结构,获取由所述视频帧序列组成的第一视频在镜头层的第一特征表达。
本实施例中,所述分割单元,具体用于:
利用深度卷积网络对所述视频帧序列进行图像特征提取,获取所述视频帧序列中帧的第二特征向量;
根据所述第二特征向量,构建所述视频帧序列的帧间相似矩阵;
在所述帧间相似矩阵的对角线上确定连续帧,所述连续帧作为所述镜头帧序列。
本实施例中,所述计算单元,具体用于:
利用平均池化算法针对所述图中的第一节点执行卷积计算,获取第二节点的第一特征向量。
本实施例中,所述计算单元,具体用于:
利用基于自注意力机制的池化方法针对所述图中的第一节点执行池化计算,获取第二节点的第一拓扑结构。
本实施例中,还包括:
事件层计算单元,用于针对所述第二节点执行卷积计算和池化计算,获取第三节点的第三特征向量和第二拓扑结构;
事件层获取单元,用于根据所述第三特征向量和第二拓扑结构,获取所述第一视频在事件层的第二特征表达。
本实施例中,还包括:
视频层计算单元,用于针对所述第三节点执行卷积计算和池化计算,获取第四节点的第四特征向量和第三拓扑结构;
视频层获取单元,用于根据所述第四特征向量和第三拓扑结构,获取所述第一视频在视频层的第三特征表达。
本实施例中,还包括:
训练单元,用于将所述第四特征向量输入MoE模型进行训练,获取所述第一视频的类标签:
交叉熵单元,用于将所述MoE模型的损失函数采用交叉熵实现。
本申请第三实施例提供一种电子设备,所述电子设备包括:
处理器;
存储器,用于存储程序,所述程序在被所述处理器读取执行时,执行如下操作:
获取待处理的视频帧序列;
将所述视频帧序列进行镜头分割,获取镜头帧序列;
以所述镜头帧序列中的每一帧作为第一节点,根据所述镜头帧序列的帧间相似度连接所述第一节点,构建所述镜头帧序列的图;
针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构,所述第二节点通过针对所述第一节点执行卷积计算获得;
根据所述第一特征向量和第一拓扑结构,获取由所述视频帧序列组成的第一视频在镜头层的第一特征表达。
本申请第四实施例提供一种计算机可读取存储介质,其上存储有计算机程序,所述程序被处理器执行时,实现以下步骤:
获取待处理的视频帧序列;
将所述视频帧序列进行镜头分割,获取镜头帧序列;
以所述镜头帧序列中的每一帧作为第一节点,根据所述镜头帧序列的帧间相似度连接所述第一节点,构建所述镜头帧序列的图;
针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构,所述第二节点通过针对所述第一节点执行卷积计算获得;
根据所述第一特征向量和第一拓扑结构,获取由所述视频帧序列组成的第一视频在镜头层的第一特征表达。
本申请第五实施例,提供一种获取镜头帧序列的方法,包括:
本申请第五实施例提供一种获取镜头帧序列的方法。请参看图8,该图为本申请第五实施例的流程图。以下结合图8对本申请第五实施例进行详细说明。所述方法包括如下步骤:
步骤801:利用深度卷积网络对所述视频帧序列进行图像特征提取,获取所述视频帧序列中帧的特征向量。
本步骤用于利用Inception-V3深度卷积网络对视频帧序列进行图像特征提取,获取所述视频帧序列中帧的特征向量。
对许多任务而言,卷积网络是目前最新的计算机视觉解决方案的核心。从2014年开始,深度卷积网络开始变成主流,在各种基准数据集上都取得了实质性成果。对于大多数任务而言,虽然增加的模型大小和计算成本都趋向于转化为直接的质量收益(只要提供足够的标注数据去训练),但计算效率和低参数计数仍是各种应用场景的限制因素,例如移动视觉和大数据场景。Inception-V3深度卷积网络探索增大网络的方法,目标是通过适当的分解卷积和积极的正则化来尽可能地有效利用增加的计算。在ILSVRC 2012分类挑战赛的验证集上评估了Inception-V3深度卷积网络的方法,结果证明该方法超过了目前最先进的方法并取得了实质性收益:对于单一框架评估错误率为:21.2%top-1和5.6%top-5,使用的网络计算代价为每次推断需要进行50亿次乘加运算并使用不到2500万的参数。通过四个模型组合和多次评估,报告了3.5%top-5和17.3%top-1的错误率。
本实施例以1秒1帧的频率对视频进行帧图像的inception-V3 CNN(Convolutional Neural Networks)特征提取,为每幅图像生成一个由1024个浮点数组成的向量。
步骤802:根据所述特征向量,构建所述视频帧序列的帧间相似矩阵。
本步骤用于根据所述特征向量,构建所述视频帧序列的帧间相似矩阵。
帧间相似矩阵用公式1进行构造,即矩阵每个元素的值为:
其中,i和j分别表示镜头帧中的第i帧和第j帧,f是一个二维矢量,用来描述镜头帧中帧的特征向量,D是特征向量的维度,d表示是第几维度的特征,d的取值范围从0到D,f[i][d]代表第i帧的第d维特征,f[j][d]代表第j帧的第d维特征。
步骤803:在所述帧间相似矩阵的对角线上确定连续帧,所述连续帧作为所述镜头帧序列。
本步骤用于利用动态规划算法,在所述相似矩阵对角线上获取镜头帧序列。
本实施例采用动态规划算法进行m个镜头的搜索,即最小化如下值:
其中,m是待分割镜头的个数,n是视频的总帧数,J是关于m,n的一个待优化的目标函数,g是目标函数J的惩罚项,g(m,n)=m(log(n/m)+1),C是惩罚项的系数,一般为0.1,
其中,ti是第i个镜头的起点所在的时间点,ft是t时间点对应帧的特征向量,μi是组成第i个镜头的所有帧f的均值,v[ti][ti+1]是段[ti,ti+1]内核方差。
本申请第六实施例提供一种数据处理方法,请参看图9,该图为本申请第六实施例的流程图。以下结合图9对本申请第六实施例进行详细说明。所述方法包括如下步骤:包括:
步骤S901:获取图像帧序列。
本步骤用于获取图像帧序列。
可以使用固定频率对视频进行采样获取。
步骤S902:获取所述图像帧序列中帧的特征向量。
本步骤用于获取所述图像帧序列中帧的特征向量。
可以利用Inception-V3深度卷积网络对所述图像帧序列进行图像特征提取,获取所述图像帧序列中帧的特征向量。
步骤S903:根据所述特征向量,构建所述图像帧序列的帧间相似矩阵。
本步骤用于根据所述特征向量,构建所述图像帧序列的帧间相似矩阵。
本步骤可以采用与步骤S802相同的方法来实施。
步骤S904:基于所述帧间相似矩阵,获取连续帧,生成片段帧序列。
本步骤用于基于所述帧间相似矩阵,获取连续帧,生成片段帧序列。
本步骤可以采用与步骤S803相同的方法来实施。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (17)
1.一种视频帧序列的处理方法,其特征在于,包括:
获取待处理的视频帧序列;
将所述视频帧序列进行镜头分割,获取镜头帧序列;
以所述镜头帧序列中的每一帧作为第一节点,根据所述镜头帧序列的帧间相似度连接所述第一节点,构建所述镜头帧序列的图;
针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构;
根据所述第一特征向量和第一拓扑结构,获取由所述视频帧序列组成的第一视频在镜头层的第一特征表达。
2.根据权利要求1所述的视频帧序列的处理方法,其特征在于,所述将所述视频帧序列进行镜头分割,获取镜头帧序列,包括:
利用深度卷积网络对所述视频帧序列进行图像特征提取,获取所述视频帧序列中帧的第二特征向量;
根据所述第二特征向量,构建所述视频帧序列的帧间相似矩阵;
在所述帧间相似矩阵的对角线上确定连续帧,所述连续帧作为所述镜头帧序列。
3.根据权利要求1所述的视频帧序列的处理方法,其特征在于,所述针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构,包括:
针对所述图中的第一节点执行卷积计算,获取第二节点的第一特征向量。
4.根据权利要求1所述的视频帧序列的处理方法,其特征在于,所述针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构,包括:
利用基于自注意力机制的池化方法针对所述图中的第一节点执行池化计算,获取第二节点的第一拓扑结构。
5.根据权利要求1所述的视频帧序列的处理方法,其特征在于,还包括:
针对所述第二节点执行卷积计算和池化计算,获取第三节点的第三特征向量和第二拓扑结构;
根据所述第三特征向量和第二拓扑结构,获取所述第一视频在事件层的第二特征表达。
6.根据权利要求5所述的视频帧序列的处理方法,其特征在于,还包括:针对所述第三节点执行卷积计算和池化计算,获取第四节点的第四特征向量和第三拓扑结构;
根据所述第四特征向量和第三拓扑结构,获取所述第一视频在视频层的第三特征表达。
7.根据权利要求6所述的视频帧序列的处理方法,其特征在于,还包括:
将所述第四特征向量输入MoE模型进行训练,获取所述第一视频的类标签,所述类标签用于针对所述第一视频进行分类。
8.根据权利要求1所述的视频帧序列的处理方法,其特征在于,所述获取镜头帧序列,包括:
利用深度卷积网络对所述视频帧序列进行图像特征提取,获取所述视频帧序列中帧的特征向量;
根据所述特征向量,构建所述视频帧序列的帧间相似矩阵;
在所述帧间相似矩阵的对角线上确定连续帧,所述连续帧作为所述镜头帧序列。
9.一种视频帧序列的处理装置,其特征在于,包括:
帧序列获取单元,用于获取待处理的视频帧序列;
分割单元,用于将所述视频帧序列进行镜头分割,获取镜头帧序列;
构建单元,用于以所述镜头帧序列中的每一帧作为第一节点,根据所述镜头帧序列的帧间相似度连接所述第一节点,构建所述镜头帧序列的图;
计算单元,用于针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构;
特征表达获取单元,用于根据所述第一特征向量和第一拓扑结构,获取由所述视频帧序列组成的第一视频在镜头层的第一特征表达。
10.根据权利要求9所述的视频帧序列的处理装置,其特征在于,所述分割单元,具体用于:
利用深度卷积网络对所述视频帧序列进行图像特征提取,获取所述视频帧序列中帧的第二特征向量;
根据所述第二特征向量,构建所述视频帧序列的帧间相似矩阵;
在所述帧间相似矩阵的对角线上确定连续帧,所述连续帧作为所述镜头帧序列。
11.根据权利要求9所述的视频帧序列的处理装置,其特征在于,所述计算单元,具体用于:
利用平均池化算法针对所述图中的第一节点执行卷积计算,获取第二节点的第一特征向量。
12.根据权利要求9所述的视频帧序列的处理装置,其特征在于,所述计算单元,具体用于:
利用基于自注意力机制的池化方法针对所述图中的第一节点执行池化计算,获取第二节点的第一拓扑结构。
13.根据权利要求9所述的视频帧序列的处理装置,其特征在于,还包括:
事件层计算单元,用于针对所述第二节点执行卷积计算和池化计算,获取第三节点的第三特征向量和第二拓扑结构;
事件层获取单元,用于根据所述第三特征向量和第二拓扑结构,获取所述第一视频在事件层的第二特征表达。
14.根据权利要求13所述的视频帧序列的处理装置,其特征在于,还包括:
视频层计算单元,用于针对所述第三节点执行卷积计算和池化计算,获取第四节点的第四特征向量和第三拓扑结构;
视频层获取单元,用于根据所述第四特征向量和第三拓扑结构,获取所述第一视频在视频层的第三特征表达。
15.根据权利要求14所述的视频帧序列的处理装置,其特征在于,还包括:
训练单元,用于将所述第四特征向量输入MoE模型进行训练,获取所述第一视频的类标签,所述类标签用于针对所述第一视频进行分类。
16.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,用于存储程序,所述程序在被所述处理器读取执行时,执行如下操作:
获取待处理的视频帧序列;
将所述视频帧序列进行镜头分割,获取镜头帧序列;
以所述镜头帧序列中的每一帧作为第一节点,根据所述镜头帧序列的帧间相似度连接所述第一节点,构建所述镜头帧序列的图;
针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构;
根据所述第一特征向量和第一拓扑结构,获取由所述视频帧序列组成的第一视频在镜头层的第一特征表达。
17.一种计算机可读取存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现以下步骤:
获取待处理的视频帧序列;
将所述视频帧序列进行镜头分割,获取镜头帧序列;
以所述镜头帧序列中的每一帧作为第一节点,根据所述镜头帧序列的帧间相似度连接所述第一节点,构建所述镜头帧序列的图;
针对所述图中的第一节点执行卷积计算和池化计算,获取第二节点的第一特征向量和第一拓扑结构;
根据所述第一特征向量和第一拓扑结构,获取由所述视频帧序列组成的第一视频在镜头层的第一特征表达。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811037225.9A CN110879952B (zh) | 2018-09-06 | 2018-09-06 | 一种视频帧序列的处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811037225.9A CN110879952B (zh) | 2018-09-06 | 2018-09-06 | 一种视频帧序列的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110879952A CN110879952A (zh) | 2020-03-13 |
CN110879952B true CN110879952B (zh) | 2023-06-16 |
Family
ID=69727231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811037225.9A Active CN110879952B (zh) | 2018-09-06 | 2018-09-06 | 一种视频帧序列的处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110879952B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115578583B (zh) * | 2022-09-29 | 2024-03-19 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备和存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308501A (zh) * | 2008-06-30 | 2008-11-19 | 腾讯科技(深圳)有限公司 | 生成视频摘要的方法、系统及设备 |
CN101872346A (zh) * | 2009-04-22 | 2010-10-27 | 中国科学院自动化研究所 | 一种自动生成视频导航系统的方法 |
CN102685398A (zh) * | 2011-09-06 | 2012-09-19 | 天脉聚源(北京)传媒科技有限公司 | 一种新闻视频场景生成方法 |
CN102930553A (zh) * | 2011-08-10 | 2013-02-13 | 中国移动通信集团上海有限公司 | 不良视频内容识别方法及装置 |
EP2642487A1 (en) * | 2012-03-23 | 2013-09-25 | Thomson Licensing | Personalized multigranularity video segmenting |
CN103854014A (zh) * | 2014-02-25 | 2014-06-11 | 中国科学院自动化研究所 | 一种基于上下文稀疏表示的恐怖视频识别方法及装置 |
CN104318208A (zh) * | 2014-10-08 | 2015-01-28 | 合肥工业大学 | 一种基于图分割和实例学习的视频场景检测方法 |
JP2017112448A (ja) * | 2015-12-15 | 2017-06-22 | 日本放送協会 | 映像シーン分割装置及び映像シーン分割プログラム |
CN107590442A (zh) * | 2017-08-22 | 2018-01-16 | 华中科技大学 | 一种基于卷积神经网络的视频语义场景分割方法 |
CN107657228A (zh) * | 2017-09-25 | 2018-02-02 | 中国传媒大学 | 视频场景相似性分析方法及系统、视频编解码方法及系统 |
CN108182421A (zh) * | 2018-01-24 | 2018-06-19 | 北京影谱科技股份有限公司 | 视频分割方法和装置 |
CN108205657A (zh) * | 2017-11-24 | 2018-06-26 | 中国电子科技集团公司电子科学研究院 | 视频镜头分割的方法、存储介质和移动终端 |
CN108228915A (zh) * | 2018-03-29 | 2018-06-29 | 华南理工大学 | 一种基于深度学习的视频检索方法 |
-
2018
- 2018-09-06 CN CN201811037225.9A patent/CN110879952B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308501A (zh) * | 2008-06-30 | 2008-11-19 | 腾讯科技(深圳)有限公司 | 生成视频摘要的方法、系统及设备 |
CN101872346A (zh) * | 2009-04-22 | 2010-10-27 | 中国科学院自动化研究所 | 一种自动生成视频导航系统的方法 |
CN102930553A (zh) * | 2011-08-10 | 2013-02-13 | 中国移动通信集团上海有限公司 | 不良视频内容识别方法及装置 |
CN102685398A (zh) * | 2011-09-06 | 2012-09-19 | 天脉聚源(北京)传媒科技有限公司 | 一种新闻视频场景生成方法 |
EP2642487A1 (en) * | 2012-03-23 | 2013-09-25 | Thomson Licensing | Personalized multigranularity video segmenting |
CN103854014A (zh) * | 2014-02-25 | 2014-06-11 | 中国科学院自动化研究所 | 一种基于上下文稀疏表示的恐怖视频识别方法及装置 |
CN104318208A (zh) * | 2014-10-08 | 2015-01-28 | 合肥工业大学 | 一种基于图分割和实例学习的视频场景检测方法 |
JP2017112448A (ja) * | 2015-12-15 | 2017-06-22 | 日本放送協会 | 映像シーン分割装置及び映像シーン分割プログラム |
CN107590442A (zh) * | 2017-08-22 | 2018-01-16 | 华中科技大学 | 一种基于卷积神经网络的视频语义场景分割方法 |
CN107657228A (zh) * | 2017-09-25 | 2018-02-02 | 中国传媒大学 | 视频场景相似性分析方法及系统、视频编解码方法及系统 |
CN108205657A (zh) * | 2017-11-24 | 2018-06-26 | 中国电子科技集团公司电子科学研究院 | 视频镜头分割的方法、存储介质和移动终端 |
CN108182421A (zh) * | 2018-01-24 | 2018-06-19 | 北京影谱科技股份有限公司 | 视频分割方法和装置 |
CN108228915A (zh) * | 2018-03-29 | 2018-06-29 | 华南理工大学 | 一种基于深度学习的视频检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110879952A (zh) | 2020-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10970619B1 (en) | Method and system for hierarchical weight-sparse convolution processing | |
US10565518B2 (en) | Collaborative feature learning from social media | |
Hii et al. | Multigap: Multi-pooled inception network with text augmentation for aesthetic prediction of photographs | |
CN111783713B (zh) | 基于关系原型网络的弱监督时序行为定位方法及装置 | |
US11113601B1 (en) | Method and system for balanced-weight sparse convolution processing | |
CN112749666B (zh) | 一种动作识别模型的训练及动作识别方法与相关装置 | |
CN111047078B (zh) | 交通特征预测方法、系统及存储介质 | |
CN112801063B (zh) | 神经网络系统和基于神经网络系统的图像人群计数方法 | |
CN111639230B (zh) | 一种相似视频的筛选方法、装置、设备和存储介质 | |
WO2022095984A1 (en) | Method and system for convolution with workload-balanced activation sparsity | |
CN113780584A (zh) | 标签预测方法、设备、存储介质及程序产品 | |
KR20210093875A (ko) | 비디오 분석 방법 및 연관된 모델 훈련 방법, 기기, 장치 | |
CN115098732B (zh) | 数据处理方法及相关装置 | |
CN113705598A (zh) | 数据分类方法、装置及电子设备 | |
CN115062779A (zh) | 基于动态知识图谱的事件预测方法及装置 | |
CN113742580B (zh) | 目标类型数据的召回方法、装置、电子设备及存储介质 | |
Liu et al. | Student behavior recognition from heterogeneous view perception in class based on 3-D multiscale residual dense network for the analysis of case teaching | |
CN110879952B (zh) | 一种视频帧序列的处理方法及装置 | |
Li et al. | HoloSeg: An efficient holographic segmentation network for real-time scene parsing | |
CN104899232B (zh) | 协同聚类的方法和设备 | |
Martı́nez Carrillo et al. | A compact and recursive Riemannian motion descriptor for untrimmed activity recognition | |
Truong et al. | Unsupervised learning for maximum consensus robust fitting: A reinforcement learning approach | |
CN116467466A (zh) | 基于知识图谱的编码推荐方法、装置、设备及介质 | |
CN112131995A (zh) | 一种动作分类方法、装置、计算设备、以及存储介质 | |
Jin et al. | Deep deformable Q-Network: an extension of deep Q-Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |