CN116385917A

CN116385917A - 基于cnn-rakel算法的标准视频流分类识别方法

Info

Publication number: CN116385917A
Application number: CN202211590986.3A
Authority: CN
Inventors: 杨会轩; 苏明; 李欣; 王桂斌; 张瑞照; 刘金会
Original assignee: Beijing Huaqing Future Energy Technology Research Institute Co ltd; Huake Inno Jiangsu Energy Technology Co ltd; Huake Inno Qingdao Energy Technology Co ltd; Shandong Huake Information Technology Co ltd
Current assignee: Beijing Huaqing Future Energy Technology Research Institute Co ltd; Huake Inno Jiangsu Energy Technology Co ltd; Huake Inno Qingdao Energy Technology Co ltd; Shandong Huake Information Technology Co ltd
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-07-04

Abstract

本发明公开一种基于CNN‑RAKEL算法的标准视频流分类识别方法，包括：根据视频帧图像特征采用卷积神经网络得到预测输出，基于预测输出与期望输出的极小化误差为优化目标，对卷积神经网络进行训练；对帧图像特征经最大池化操作的降维处理后，根据视频标签有无重叠的特性，选择不相交的标签幂集法和有重叠的标签幂集法对RAKEL多标签分类器进行训练；对待识别视频流采用训练后的卷积神经网络进行卷积特征提取和最大池化操作后，采用训练后的RAKEL多标签分类器得到分类识别结果。提高特征间的独立性和表示能力，避免分类器训练过程的过拟合现象，提高分类识别的准确率。

Description

基于CNN-RAKEL算法的标准视频流分类识别方法

技术领域

本发明涉及视频分类技术领域，特别是涉及一种基于CNN-RAKEL算法的标准视频流分类识别方法。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着移动互联网时代的发展，图像和视频数据急剧增长，由此单一视频流分析技术无法满足对复杂视频流分类分析识别技术的需求。

随着视频数据的大量增加，视频流具有大小不一、类型不一、明暗度差异、像素差异之间具有很强的相关性及高维度等特性，以及对比度的差异等均会对视频流特征的提取过程产生影响，导致分类误差。

而且对视频经特征提取后，具有特征量大、存在一些与给定任务无关的特征或与类别仅有微弱相关度的特征，对于给定的任务特征之间存在冗余性，某些特征之间具有较强的相关性，以及特征中存在噪声等问题。

RAKEL(random K-latekets)算法是一种集成技术，能有效解决多标签分类问题，将原始标签集随机选用一小部分标签子集构成的数据集来训练每个分类器，但是，由于RAKEL算法构造标签空间的随机性，并未充分考察到样本多个标签之间的相关性，从而造成分类精度不高，泛化性能受到一定影响。

发明内容

为了解决上述问题，本发明提出了一种基于CNN-RAKEL算法的标准视频流分类识别方法，基于CNN进行视频深层次特征提取，基于RAKEL多标签分类器进行分类识别，在CNN网络中包含卷积特征提取、特征映射和最大池化处理，从而输出低维度特征向量训练RAKEL多标签分类器；提高特征间的独立性和表示能力，避免分类器训练过程的过拟合现象，提高分类识别的准确率。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于CNN-RAKEL算法的标准视频流分类识别方法，包括：

获取视频帧图像训练集，并对视频帧图像训练集进行预处理；

对预处理后视频帧图像训练集进行卷积特征提取后，根据帧图像特征采用卷积神经网络得到预测输出，基于预测输出与期望输出的极小化误差为优化目标，对卷积神经网络进行训练；

对帧图像特征经最大池化操作的降维处理后，根据视频标签有无重叠的特性，选择不相交的标签幂集法和有重叠的标签幂集法对RAKEL多标签分类器进行训练；

对待识别视频流采用训练后的卷积神经网络进行卷积特征提取和最大池化操作后，采用训练后的RAKEL多标签分类器得到分类识别结果。

作为可选择的实施方式，所述预处理包括大小、亮度和对比度的归一化和白化处理；其中，通过大小归一化为将视频流帧图像的大小尺寸进行统一后，通过每个像素减去像素均值以归一化亮度，通过每个像素除以该像素的标准差来归一化对比度，在相邻像素之间通过白化处理降低冗余度。

作为可选择的实施方式，对卷积神经网络进行训练过程包括：最小化预测输出与期望输出的误差，通过极小化误差反向传播使BP权值矩阵进行调整，通过不断循环直到达到最优训练状态。

作为可选择的实施方式，最小化预测输出与期望输出的误差：

其中，l为输出层含有l个神经元；_k为卷积神经网络隐含层到输出层的过程，展开为

w为输出向量的权值，y_j为输入层到隐含层的过程，展开为

v为隐含层的权值。

作为可选择的实施方式，通过对每个输入参数求E的偏导，以达到最优训练状态：

其中，

为E对w_kj的梯度，对应w_kj发生变化时E的变化率；η是学习率。

作为可选择的实施方式，不相交的标签幂集法的过程包括：

对于标签数目为M的标签集L，给定子标签集大小为k，随机拆分标签集L为

个不交叉子标签集，子标签集R_j,(j＝1...m-1)含有k个标签；如果M/k是整数，那么标签集R_m是一个k标签集，否则R_m包含M模k余下的部分，从而训练m个LP多标签分类器h_j,(j＝1...m)。

作为可选择的实施方式，有重叠的标签幂集法的过程包括：

对于标签数目为M的标签集L，用L^k表示L中所有有差别的含有k个标签的标签集，给定标签集大小k和所需分类器的数目m≤|L^k|，从L^k个有差别的标签集中随机无替换的抽取m个k标签集R_j,(j＝1...m-1)。当mk>M时，使用LP算法训练m个多标签分类器h_i,(i＝1...m)。

第二方面，本发明提供一种基于CNN-RAKEL算法的标准视频流分类识别系统，包括：

预处理模块，被配置为获取视频帧图像训练集，并对视频帧图像训练集进行预处理；

CNN训练模块，被配置为对预处理后视频帧图像训练集进行卷积特征提取后，根据帧图像特征采用卷积神经网络得到预测输出，基于预测输出与期望输出的极小化误差为优化目标，对卷积神经网络进行训练；

RAKEL训练模块，被配置为对帧图像特征经最大池化操作的降维处理后，根据视频标签有无重叠的特性，选择不相交的标签幂集法和有重叠的标签幂集法对RAKEL多标签分类器进行训练；

分类识别模块，被配置为对待识别视频流采用训练后的卷积神经网络进行卷积特征提取和最大池化操作后，采用训练后的RAKEL多标签分类器得到分类识别结果。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明提出了一种基于CNN-RAKEL算法的标准视频流分类识别方法，通过对视频帧图像的大小、亮度和对比度的归一化和白化处理，解决视频流大小不一、类型不一、明暗度差异、像素差异之间具有很强的相关性以及对比度差异的问题，降低冗余度，提供分类精度。

本发明提出了一种基于CNN-RAKEL算法的标准视频流分类识别方法，通过对提取后的视频帧图像经最大池化操作的降维处理，解决对视频特征的特征量大、无关特征、弱相关度特征等噪声问题，同时降低特征维度，减少计算量，提高特征间的独立性和表示能力，避免分类器训练过程的过拟合现象，提高分类识别的效率和准确率。

本发明提出了一种基于CNN-RAKEL算法的标准视频流分类识别方法，根据视频标签有无重叠的特性，将RAKEL多标签分类器的训练过程分为不相交的标签幂集法和有重叠的标签幂集法，充分考虑到样本多个标签之间的相关性，同时弥补数据偏斜问题。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于CNN-RAKEL算法的标准视频流分类识别方法流程图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

本实施例提供一种基于CNN-RAKEL算法的标准视频流分类识别方法，基于CNN进行视频深层次特征提取，基于RAKEL多标签分类器进行分类识别，其中视频流在进入CNN网络之前先进行预处理操作，在CNN网络中包含卷积特征提取、特征映射和最大池化处理，在视频深层特征输出之间还会进行最大池化处理，最后输出低维度特征向量来训练RAKEL多标签分类器。如图1所示，具体包括：

在本实施例中，对获取的视频流进行预处理，所述预处理包括：归一化和白化处理；

具体地，所述归一化包括大小、亮度和对比度的归一化；其中，大小归一化为将视频流的每帧图像的大小尺寸进行统一，然后大小归一化后获取每个像素，通过每个像素减去像素均值以归一化亮度，通过每个像素除以该像素的标准差来归一化对比度。

在相邻像素之间做所述白化处理；白化处理包括：

1)求像素的协方差矩阵：

假设输入数据集是x(1),x(2),…,x(m)，数据的维度是2，m为模型个数，i为次数，T为多标签测试集。

2)对协方差矩阵进行SVD分解得出的U向量中的每一列就是这些数据样本的新方向向量，排在前面的向量代表的是主方向，以此类推，求解维度降低后的样本值x_rot为：

其中，u₁是主特征向量(对应最大的特征值)，u₂是次特征向量；U^Tx表示旋转到基u₁、u₂下各个分量的大小，

是在u₁分量下x的幅度。

3)将以上获得的数据的每一维都除以标准差得到每一维的方差为1，也就是说方差相等；公式为：

其中，λi是相应的特征值；xPCAwh是数据经过PCA白化后的版本，xPCAwh中不同的特征之间不相关并且具有单位方差。

经预处理后，得到大小、亮度、对比度均归一化且冗余度低的素材。

在本实施例中，基于CNN-RAKEL的视频流特征提取与分类过程分为两阶段：第一阶段FP阶段，第二阶段BP阶段；

FP阶段中：从PASCAL VOC多标签视频集中获取样本集(X,Y_p)，首先对视频帧图像X进行预处理，然后将预处理后的帧图像输入CNN网络中，得到分类预测结果O_p。

通过正向传播计算输出值，在卷积层数据都是以三维形式存在的，在输入层如果是灰度视频流，就只存在一个特征；如果是丰富视频流，一般会有三个标准特征，上一层的特征会与对应的卷积核进行卷积运算，输出新的特征，假定：输入层是l-1层，他的输入的特征就是X^(l-1)(m×m)，特征对应的卷积核是K^(l)(n×n)，给每个输出都加上一个偏置单元(bias term)B^(l)，卷积层输出(m-n+1)×(m-n+1)阶矩阵Z^(l)为：

其中，l-1是输入层第l-1层，

是输入特征图，/>

为特征对应的卷积核，b⁽⁾为偏置单元。

BP阶段：计算分类预测结果O_p与分类实际结果Y_p的差，基于极小化误差进行BP权值矩阵调整。经过以上过程学习到CNN各个网络层的参数和视频特征。

具体地，CNN网络训练过程采用Back Propagation(BP)反向传播算法，经典的BP网络是三层结构：输入层X、输出层O和隐含层Y。

输入向量：X＝(x₁,x₂,...x_n)^T；

隐含层输出：Y＝(y₁,y₂,...y_m)^T，权值：V＝(v₁,v₂,...v_m)^T；

输出向量：O＝(o₁,o₂,...o_l)^T，权值：W＝(w₁,w₂,...w_l)^T；

期望输出：D＝(d₁,d₂,...d_n)^T。

BP算法学习过程

包括：

计算输入层到隐含层的过程：

y_j＝f(net_j),(j＝1,2,...m)

v为隐含层权值,x为输入向量，i为输入节点数、j为隐含节点数。

计算隐含层到输出层的过程：

oj＝f(netk),(k＝1,2,...l)

其中，w为输出向量的权值，y为计算输入层到隐含层的过程，j表示层，k表示第k个节点。

网络输出层误差函数为：

其中，d表示期望输出，o表示网络输出，E表示误差，d_k表示神经网络的输出，o_k表示监督数据，k表示数据的维度。

展开误差函数到隐含层，结果为：

其中，n表示输入层的n个输入，m表示隐藏层含有m个神经元，l表示输出层含有l个神经元；

是卷积神经网络层误差函数表达式，o_k为卷积神经网络隐含层到输出层的过程，展开为/>

w为输出向量的权值，y_j为输入层到隐含层的过程，展开为/>

v为隐含层的权值。

网络训练过程以最小化E为目标，从而获得最优值，所以通过对每一个输入参数求E的偏导，达到最优状态。所以：

其中，

为E对w_kj的梯度，对应w_kj发生变化时E的变化率；η是学习率，对应调节的步长大小，其值介于0-0.1，经过计算上式可化成：

其中，d_k表示神经网络的输出，o_k表示监督数据；η是学习率，对应调节的步长大小；w为输出向量的权值，y为计算输入层到隐含层的过程，j表示层，k表示第k个节点；δ表示误差，又称灵敏度。

之后通过极小化误差反向传播使得权值矩阵得以调整，最后不断循环直到最佳。

在本实施例中，经过神经网络的特征学习和特征提取，输出的特征可能在10⁵数量级以上，还需要经过浅层学习机的特征降维处理，才能输出正确的标签值。

特征降维(FDR)就是从初始高维特征集合筛选出低维特征集合，可以根据一定的评估准则来缩小特征空间的过程；其通常辅助机器学习对样本进行预处理或后处理步骤，能有效地提高机器学习的效率，提高识别和分类的精度。

深层神经网络学习出的图像特征具有以下几点特征：

(1)特征量大；

(2)存在一些与给定任务无关的特征，或与类别仅有微弱相关度；

(3)对于给定的任务，特征之间存在冗余性，即某些特征之间具有较强的相关性；

(4)特征中存在噪声。

针对以上可能出现的问题，首先对池化(pooling)算法进行分析。之后，在神经网络的DBN特征输出部分中添加稀疏性(Sparsity)约束，以进一步降低特征数量，提高特征间的独立性和表示能力，同时避免分类器训练过程的过拟合现象。最终稀疏特征与浅层分类器相结合，设计适合视频分类的这正低维度化策略和降为模型，提高图像分类精度。

视频流图像这种数据，本身具有一种叫做“适应性”的属性。这说明图像中某个特征在某个区域有用那么也可能同样适用于另一个区域。因此，如果想描述一个比较大的视频，自然就想到聚合技术统计不同位置的特征。这些概要统计特征不仅具有低得多的维度，同时还会改善结果面部容易过拟合现象。这种经过聚合技术操作的过程就叫做池化，根据具体计算池化方法的不同，有时也称池化为平均池化或最大池化。

平均池化为直接计算图像局部地区的平均值以此作为改区域池化后低维度值；最大池化为选择视频局部区域的最大值作为该区域池化后低纬度值；经多次试验验证，本实施例采用最大池化作为特征降维算法。

在本实施例中，在训练样本充足条件下，通过子标签集大小、模型个数阈值等参数的内部交叉验证，RAKEL算法能接近最优性能。RAKEL多标签分类器训练过程以机器学习为基础的多标签数据分类，利用机器学习技术将数据转化为信息，更进一步的是将信息转化为方便使用的知识。现有的多标签分类算法主要分为两大类：1)问题转化法(PT)；2)算法适用法(AA)。如果转化多标签分类问题使之能够用单标签分类算法解决，那么成熟的单标签分类算法就可以继续使用，这就是问题转化的思想。由于现在已经有很多成熟的单标签分类算法，比如：决策树和提升法、支持向量机、k均值等。有一些成熟的单标签分类算法，通过修改算法本身或者算法的评价指标，使之能够直接作用于多标签数据集而可以直接完成标签的分类任务，这就是算法适应法的思想。

RAKEL多标签分类算法将标签之间相关性应用到分类训练过程中，同时也弥补了LP方法产生的数据偏斜缺陷，因而可以提高分类性能。RAKEL对待预测样本的预测过程大致分为以下几个步骤，1)子分类器对应的标签投票，统计其结果；2)对标签集中每一个标签进行相关程度排序，该过程基于投票支持率；3)判断那些事最相关的类别并且将其作为带预测样本的最终预测结果，该过程是基于阈值筛选技术的。

根据标签集的构造方法的不同，将RAKEL分为：

a)不相交的标签幂集法RAKEL_d

标签数目为M的多标签图像训练样本集L，样本数目为D，给定子标签集大小为k，RAKEL_d算法首先随机拆分标签集L为

个不交叉子标签集，即

其中子标签集R_j,(j＝1...m-1)含有k个标签；如果M/k是整数，那么标签集R_m也是一个k标签集，否则R_m包含M模k余下的部分；最后RAKEL_d算法训练m个LP多标签分类器h_j,(j＝1...m)。

b)有重叠的标签幂集法RAKEL_o

对于标签数目为M，样本数目为D的多标签图像训练样本集L，用L^k表示L中所有有差别的含有k个标签的标签集，L^k的大小用二项式系数

表示，给定标签集大小k和所需分类器的数目m≤|L^k|；

RAKEL_o算法从L^k个有差别的标签集中随机无替换的抽取m个k标签集R_j,(j＝1...m-1)。需要注意的是，这种情况下，标签集可能有重叠，而当mk>M时，重叠是一定的；然后，就像RAKEL_d算法一样，RAKEL_o算法使用LP算法训练m个多标签分类器h_i,(i＝1...m)。

实施例2

本实施例提供一种基于CNN-RAKEL算法的标准视频流分类识别系统，包括：

此处需要说明的是，上述模块对应于实施例1中所述的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于CNN-RAKEL算法的标准视频流分类识别方法，其特征在于，包括：

2.如权利要求1所述的基于CNN-RAKEL算法的标准视频流分类识别方法，其特征在于，所述预处理包括大小、亮度和对比度的归一化和白化处理；其中，通过大小归一化为将视频流帧图像的大小尺寸进行统一后，通过每个像素减去像素均值以归一化亮度，通过每个像素除以该像素的标准差来归一化对比度，在相邻像素之间通过白化处理降低冗余度。

3.如权利要求1所述的基于CNN-RAKEL算法的标准视频流分类识别方法，其特征在于，对卷积神经网络进行训练过程包括：最小化预测输出与期望输出的误差，通过极小化误差反向传播使BP权值矩阵进行调整，通过不断循环直到达到最优训练状态。

4.如权利要求3所述的基于CNN-RAKEL算法的标准视频流分类识别方法，其特征在于，最小化预测输出与期望输出的误差：