CN116385917A - 基于cnn-rakel算法的标准视频流分类识别方法 - Google Patents

基于cnn-rakel算法的标准视频流分类识别方法 Download PDF

Info

Publication number
CN116385917A
CN116385917A CN202211590986.3A CN202211590986A CN116385917A CN 116385917 A CN116385917 A CN 116385917A CN 202211590986 A CN202211590986 A CN 202211590986A CN 116385917 A CN116385917 A CN 116385917A
Authority
CN
China
Prior art keywords
label
rakel
training
video stream
cnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211590986.3A
Other languages
English (en)
Inventor
杨会轩
苏明
李欣
王桂斌
张瑞照
刘金会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huaqing Future Energy Technology Research Institute Co ltd
Huake Inno Jiangsu Energy Technology Co ltd
Huake Inno Qingdao Energy Technology Co ltd
Shandong Huake Information Technology Co ltd
Original Assignee
Beijing Huaqing Future Energy Technology Research Institute Co ltd
Huake Inno Jiangsu Energy Technology Co ltd
Huake Inno Qingdao Energy Technology Co ltd
Shandong Huake Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huaqing Future Energy Technology Research Institute Co ltd, Huake Inno Jiangsu Energy Technology Co ltd, Huake Inno Qingdao Energy Technology Co ltd, Shandong Huake Information Technology Co ltd filed Critical Beijing Huaqing Future Energy Technology Research Institute Co ltd
Priority to CN202211590986.3A priority Critical patent/CN116385917A/zh
Publication of CN116385917A publication Critical patent/CN116385917A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于CNN‑RAKEL算法的标准视频流分类识别方法,包括:根据视频帧图像特征采用卷积神经网络得到预测输出,基于预测输出与期望输出的极小化误差为优化目标,对卷积神经网络进行训练;对帧图像特征经最大池化操作的降维处理后,根据视频标签有无重叠的特性,选择不相交的标签幂集法和有重叠的标签幂集法对RAKEL多标签分类器进行训练;对待识别视频流采用训练后的卷积神经网络进行卷积特征提取和最大池化操作后,采用训练后的RAKEL多标签分类器得到分类识别结果。提高特征间的独立性和表示能力,避免分类器训练过程的过拟合现象,提高分类识别的准确率。

Description

基于CNN-RAKEL算法的标准视频流分类识别方法
技术领域
本发明涉及视频分类技术领域,特别是涉及一种基于CNN-RAKEL算法的标准视频流分类识别方法。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着移动互联网时代的发展,图像和视频数据急剧增长,由此单一视频流分析技术无法满足对复杂视频流分类分析识别技术的需求。
随着视频数据的大量增加,视频流具有大小不一、类型不一、明暗度差异、像素差异之间具有很强的相关性及高维度等特性,以及对比度的差异等均会对视频流特征的提取过程产生影响,导致分类误差。
而且对视频经特征提取后,具有特征量大、存在一些与给定任务无关的特征或与类别仅有微弱相关度的特征,对于给定的任务特征之间存在冗余性,某些特征之间具有较强的相关性,以及特征中存在噪声等问题。
RAKEL(random K-latekets)算法是一种集成技术,能有效解决多标签分类问题,将原始标签集随机选用一小部分标签子集构成的数据集来训练每个分类器,但是,由于RAKEL算法构造标签空间的随机性,并未充分考察到样本多个标签之间的相关性,从而造成分类精度不高,泛化性能受到一定影响。
发明内容
为了解决上述问题,本发明提出了一种基于CNN-RAKEL算法的标准视频流分类识别方法,基于CNN进行视频深层次特征提取,基于RAKEL多标签分类器进行分类识别,在CNN网络中包含卷积特征提取、特征映射和最大池化处理,从而输出低维度特征向量训练RAKEL多标签分类器;提高特征间的独立性和表示能力,避免分类器训练过程的过拟合现象,提高分类识别的准确率。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种基于CNN-RAKEL算法的标准视频流分类识别方法,包括:
获取视频帧图像训练集,并对视频帧图像训练集进行预处理;
对预处理后视频帧图像训练集进行卷积特征提取后,根据帧图像特征采用卷积神经网络得到预测输出,基于预测输出与期望输出的极小化误差为优化目标,对卷积神经网络进行训练;
对帧图像特征经最大池化操作的降维处理后,根据视频标签有无重叠的特性,选择不相交的标签幂集法和有重叠的标签幂集法对RAKEL多标签分类器进行训练;
对待识别视频流采用训练后的卷积神经网络进行卷积特征提取和最大池化操作后,采用训练后的RAKEL多标签分类器得到分类识别结果。
作为可选择的实施方式,所述预处理包括大小、亮度和对比度的归一化和白化处理;其中,通过大小归一化为将视频流帧图像的大小尺寸进行统一后,通过每个像素减去像素均值以归一化亮度,通过每个像素除以该像素的标准差来归一化对比度,在相邻像素之间通过白化处理降低冗余度。
作为可选择的实施方式,对卷积神经网络进行训练过程包括:最小化预测输出与期望输出的误差,通过极小化误差反向传播使BP权值矩阵进行调整,通过不断循环直到达到最优训练状态。
作为可选择的实施方式,最小化预测输出与期望输出的误差:
Figure BDA0003994325820000031
其中,l为输出层含有l个神经元;k为卷积神经网络隐含层到输出层的过程,展开为
Figure BDA0003994325820000032
w为输出向量的权值,yj为输入层到隐含层的过程,展开为
Figure BDA0003994325820000033
v为隐含层的权值。
作为可选择的实施方式,通过对每个输入参数求E的偏导,以达到最优训练状态:
Figure BDA0003994325820000034
Figure BDA0003994325820000035
其中,
Figure BDA0003994325820000036
为E对wkj的梯度,对应wkj发生变化时E的变化率;η是学习率。
作为可选择的实施方式,不相交的标签幂集法的过程包括:
对于标签数目为M的标签集L,给定子标签集大小为k,随机拆分标签集L为
Figure BDA0003994325820000037
个不交叉子标签集,子标签集Rj,(j=1...m-1)含有k个标签;如果M/k是整数,那么标签集Rm是一个k标签集,否则Rm包含M模k余下的部分,从而训练m个LP多标签分类器hj,(j=1...m)。
作为可选择的实施方式,有重叠的标签幂集法的过程包括:
对于标签数目为M的标签集L,用Lk表示L中所有有差别的含有k个标签的标签集,给定标签集大小k和所需分类器的数目m≤|Lk|,从Lk个有差别的标签集中随机无替换的抽取m个k标签集Rj,(j=1...m-1)。当mk>M时,使用LP算法训练m个多标签分类器hi,(i=1...m)。
第二方面,本发明提供一种基于CNN-RAKEL算法的标准视频流分类识别系统,包括:
预处理模块,被配置为获取视频帧图像训练集,并对视频帧图像训练集进行预处理;
CNN训练模块,被配置为对预处理后视频帧图像训练集进行卷积特征提取后,根据帧图像特征采用卷积神经网络得到预测输出,基于预测输出与期望输出的极小化误差为优化目标,对卷积神经网络进行训练;
RAKEL训练模块,被配置为对帧图像特征经最大池化操作的降维处理后,根据视频标签有无重叠的特性,选择不相交的标签幂集法和有重叠的标签幂集法对RAKEL多标签分类器进行训练;
分类识别模块,被配置为对待识别视频流采用训练后的卷积神经网络进行卷积特征提取和最大池化操作后,采用训练后的RAKEL多标签分类器得到分类识别结果。
第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本发明的有益效果为:
本发明提出了一种基于CNN-RAKEL算法的标准视频流分类识别方法,通过对视频帧图像的大小、亮度和对比度的归一化和白化处理,解决视频流大小不一、类型不一、明暗度差异、像素差异之间具有很强的相关性以及对比度差异的问题,降低冗余度,提供分类精度。
本发明提出了一种基于CNN-RAKEL算法的标准视频流分类识别方法,通过对提取后的视频帧图像经最大池化操作的降维处理,解决对视频特征的特征量大、无关特征、弱相关度特征等噪声问题,同时降低特征维度,减少计算量,提高特征间的独立性和表示能力,避免分类器训练过程的过拟合现象,提高分类识别的效率和准确率。
本发明提出了一种基于CNN-RAKEL算法的标准视频流分类识别方法,根据视频标签有无重叠的特性,将RAKEL多标签分类器的训练过程分为不相交的标签幂集法和有重叠的标签幂集法,充分考虑到样本多个标签之间的相关性,同时弥补数据偏斜问题。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1提供的基于CNN-RAKEL算法的标准视频流分类识别方法流程图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1
本实施例提供一种基于CNN-RAKEL算法的标准视频流分类识别方法,基于CNN进行视频深层次特征提取,基于RAKEL多标签分类器进行分类识别,其中视频流在进入CNN网络之前先进行预处理操作,在CNN网络中包含卷积特征提取、特征映射和最大池化处理,在视频深层特征输出之间还会进行最大池化处理,最后输出低维度特征向量来训练RAKEL多标签分类器。如图1所示,具体包括:
获取视频帧图像训练集,并对视频帧图像训练集进行预处理;
对预处理后视频帧图像训练集进行卷积特征提取后,根据帧图像特征采用卷积神经网络得到预测输出,基于预测输出与期望输出的极小化误差为优化目标,对卷积神经网络进行训练;
对帧图像特征经最大池化操作的降维处理后,根据视频标签有无重叠的特性,选择不相交的标签幂集法和有重叠的标签幂集法对RAKEL多标签分类器进行训练;
对待识别视频流采用训练后的卷积神经网络进行卷积特征提取和最大池化操作后,采用训练后的RAKEL多标签分类器得到分类识别结果。
在本实施例中,对获取的视频流进行预处理,所述预处理包括:归一化和白化处理;
具体地,所述归一化包括大小、亮度和对比度的归一化;其中,大小归一化为将视频流的每帧图像的大小尺寸进行统一,然后大小归一化后获取每个像素,通过每个像素减去像素均值以归一化亮度,通过每个像素除以该像素的标准差来归一化对比度。
在相邻像素之间做所述白化处理;白化处理包括:
1)求像素的协方差矩阵:
Figure BDA0003994325820000071
假设输入数据集是x(1),x(2),…,x(m),数据的维度是2,m为模型个数,i为次数,T为多标签测试集。
2)对协方差矩阵进行SVD分解得出的U向量中的每一列就是这些数据样本的新方向向量,排在前面的向量代表的是主方向,以此类推,求解维度降低后的样本值xrot为:
Figure BDA0003994325820000081
其中,u1是主特征向量(对应最大的特征值),u2是次特征向量;UTx表示旋转到基u1、u2下各个分量的大小,
Figure BDA0003994325820000082
是在u1分量下x的幅度。
3)将以上获得的数据的每一维都除以标准差得到每一维的方差为1,也就是说方差相等;公式为:
Figure BDA0003994325820000083
其中,λi是相应的特征值;xPCAwh是数据经过PCA白化后的版本,xPCAwh中不同的特征之间不相关并且具有单位方差。
经预处理后,得到大小、亮度、对比度均归一化且冗余度低的素材。
在本实施例中,基于CNN-RAKEL的视频流特征提取与分类过程分为两阶段:第一阶段FP阶段,第二阶段BP阶段;
FP阶段中:从PASCAL VOC多标签视频集中获取样本集(X,Yp),首先对视频帧图像X进行预处理,然后将预处理后的帧图像输入CNN网络中,得到分类预测结果Op
通过正向传播计算输出值,在卷积层数据都是以三维形式存在的,在输入层如果是灰度视频流,就只存在一个特征;如果是丰富视频流,一般会有三个标准特征,上一层的特征会与对应的卷积核进行卷积运算,输出新的特征,假定:输入层是l-1层,他的输入的特征就是X(l-1)(m×m),特征对应的卷积核是K(l)(n×n),给每个输出都加上一个偏置单元(bias term)B(l),卷积层输出(m-n+1)×(m-n+1)阶矩阵Z(l)为:
Figure BDA0003994325820000091
Figure BDA0003994325820000092
Figure BDA0003994325820000093
其中,l-1是输入层第l-1层,
Figure BDA0003994325820000094
是输入特征图,/>
Figure BDA0003994325820000095
为特征对应的卷积核,b()为偏置单元。
BP阶段:计算分类预测结果Op与分类实际结果Yp的差,基于极小化误差进行BP权值矩阵调整。经过以上过程学习到CNN各个网络层的参数和视频特征。
具体地,CNN网络训练过程采用Back Propagation(BP)反向传播算法,经典的BP网络是三层结构:输入层X、输出层O和隐含层Y。
输入向量:X=(x1,x2,...xn)T
隐含层输出:Y=(y1,y2,...ym)T,权值:V=(v1,v2,...vm)T
输出向量:O=(o1,o2,...ol)T,权值:W=(w1,w2,...wl)T
期望输出:D=(d1,d2,...dn)T
BP算法学习过程
包括:
计算输入层到隐含层的过程:
Figure BDA0003994325820000101
yj=f(netj),(j=1,2,...m)
v为隐含层权值,x为输入向量,i为输入节点数、j为隐含节点数。
计算隐含层到输出层的过程:
Figure BDA0003994325820000102
oj=f(netk),(k=1,2,...l)
其中,w为输出向量的权值,y为计算输入层到隐含层的过程,j表示层,k表示第k个节点。
网络输出层误差函数为:
Figure BDA0003994325820000103
其中,d表示期望输出,o表示网络输出,E表示误差,dk表示神经网络的输出,ok表示监督数据,k表示数据的维度。
展开误差函数到隐含层,结果为:
Figure BDA0003994325820000104
其中,n表示输入层的n个输入,m表示隐藏层含有m个神经元,l表示输出层含有l个神经元;
Figure BDA0003994325820000105
是卷积神经网络层误差函数表达式,ok为卷积神经网络隐含层到输出层的过程,展开为/>
Figure BDA0003994325820000111
w为输出向量的权值,yj为输入层到隐含层的过程,展开为/>
Figure BDA0003994325820000112
v为隐含层的权值。
网络训练过程以最小化E为目标,从而获得最优值,所以通过对每一个输入参数求E的偏导,达到最优状态。所以:
Figure BDA0003994325820000113
Figure BDA0003994325820000114
其中,
Figure BDA0003994325820000115
为E对wkj的梯度,对应wkj发生变化时E的变化率;η是学习率,对应调节的步长大小,其值介于0-0.1,经过计算上式可化成:
Figure BDA0003994325820000116
Figure BDA0003994325820000117
其中,dk表示神经网络的输出,ok表示监督数据;η是学习率,对应调节的步长大小;w为输出向量的权值,y为计算输入层到隐含层的过程,j表示层,k表示第k个节点;δ表示误差,又称灵敏度。
之后通过极小化误差反向传播使得权值矩阵得以调整,最后不断循环直到最佳。
在本实施例中,经过神经网络的特征学习和特征提取,输出的特征可能在105数量级以上,还需要经过浅层学习机的特征降维处理,才能输出正确的标签值。
特征降维(FDR)就是从初始高维特征集合筛选出低维特征集合,可以根据一定的评估准则来缩小特征空间的过程;其通常辅助机器学习对样本进行预处理或后处理步骤,能有效地提高机器学习的效率,提高识别和分类的精度。
深层神经网络学习出的图像特征具有以下几点特征:
(1)特征量大;
(2)存在一些与给定任务无关的特征,或与类别仅有微弱相关度;
(3)对于给定的任务,特征之间存在冗余性,即某些特征之间具有较强的相关性;
(4)特征中存在噪声。
针对以上可能出现的问题,首先对池化(pooling)算法进行分析。之后,在神经网络的DBN特征输出部分中添加稀疏性(Sparsity)约束,以进一步降低特征数量,提高特征间的独立性和表示能力,同时避免分类器训练过程的过拟合现象。最终稀疏特征与浅层分类器相结合,设计适合视频分类的这正低维度化策略和降为模型,提高图像分类精度。
视频流图像这种数据,本身具有一种叫做“适应性”的属性。这说明图像中某个特征在某个区域有用那么也可能同样适用于另一个区域。因此,如果想描述一个比较大的视频,自然就想到聚合技术统计不同位置的特征。这些概要统计特征不仅具有低得多的维度,同时还会改善结果面部容易过拟合现象。这种经过聚合技术操作的过程就叫做池化,根据具体计算池化方法的不同,有时也称池化为平均池化或最大池化。
平均池化为直接计算图像局部地区的平均值以此作为改区域池化后低维度值;最大池化为选择视频局部区域的最大值作为该区域池化后低纬度值;经多次试验验证,本实施例采用最大池化作为特征降维算法。
在本实施例中,在训练样本充足条件下,通过子标签集大小、模型个数阈值等参数的内部交叉验证,RAKEL算法能接近最优性能。RAKEL多标签分类器训练过程以机器学习为基础的多标签数据分类,利用机器学习技术将数据转化为信息,更进一步的是将信息转化为方便使用的知识。现有的多标签分类算法主要分为两大类:1)问题转化法(PT);2)算法适用法(AA)。如果转化多标签分类问题使之能够用单标签分类算法解决,那么成熟的单标签分类算法就可以继续使用,这就是问题转化的思想。由于现在已经有很多成熟的单标签分类算法,比如:决策树和提升法、支持向量机、k均值等。有一些成熟的单标签分类算法,通过修改算法本身或者算法的评价指标,使之能够直接作用于多标签数据集而可以直接完成标签的分类任务,这就是算法适应法的思想。
RAKEL多标签分类算法将标签之间相关性应用到分类训练过程中,同时也弥补了LP方法产生的数据偏斜缺陷,因而可以提高分类性能。RAKEL对待预测样本的预测过程大致分为以下几个步骤,1)子分类器对应的标签投票,统计其结果;2)对标签集中每一个标签进行相关程度排序,该过程基于投票支持率;3)判断那些事最相关的类别并且将其作为带预测样本的最终预测结果,该过程是基于阈值筛选技术的。
根据标签集的构造方法的不同,将RAKEL分为:
a)不相交的标签幂集法RAKELd
标签数目为M的多标签图像训练样本集L,样本数目为D,给定子标签集大小为k,RAKELd算法首先随机拆分标签集L为
Figure BDA0003994325820000141
个不交叉子标签集,即
Figure BDA0003994325820000142
其中子标签集Rj,(j=1...m-1)含有k个标签;如果M/k是整数,那么标签集Rm也是一个k标签集,否则Rm包含M模k余下的部分;最后RAKELd算法训练m个LP多标签分类器hj,(j=1...m)。
b)有重叠的标签幂集法RAKELo
对于标签数目为M,样本数目为D的多标签图像训练样本集L,用Lk表示L中所有有差别的含有k个标签的标签集,Lk的大小用二项式系数
Figure BDA0003994325820000143
表示,给定标签集大小k和所需分类器的数目m≤|Lk|;
RAKELo算法从Lk个有差别的标签集中随机无替换的抽取m个k标签集Rj,(j=1...m-1)。需要注意的是,这种情况下,标签集可能有重叠,而当mk>M时,重叠是一定的;然后,就像RAKELd算法一样,RAKELo算法使用LP算法训练m个多标签分类器hi,(i=1...m)。
实施例2
本实施例提供一种基于CNN-RAKEL算法的标准视频流分类识别系统,包括:
预处理模块,被配置为获取视频帧图像训练集,并对视频帧图像训练集进行预处理;
CNN训练模块,被配置为对预处理后视频帧图像训练集进行卷积特征提取后,根据帧图像特征采用卷积神经网络得到预测输出,基于预测输出与期望输出的极小化误差为优化目标,对卷积神经网络进行训练;
RAKEL训练模块,被配置为对帧图像特征经最大池化操作的降维处理后,根据视频标签有无重叠的特性,选择不相交的标签幂集法和有重叠的标签幂集法对RAKEL多标签分类器进行训练;
分类识别模块,被配置为对待识别视频流采用训练后的卷积神经网络进行卷积特征提取和最大池化操作后,采用训练后的RAKEL多标签分类器得到分类识别结果。
此处需要说明的是,上述模块对应于实施例1中所述的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。
实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.基于CNN-RAKEL算法的标准视频流分类识别方法,其特征在于,包括:
获取视频帧图像训练集,并对视频帧图像训练集进行预处理;
对预处理后视频帧图像训练集进行卷积特征提取后,根据帧图像特征采用卷积神经网络得到预测输出,基于预测输出与期望输出的极小化误差为优化目标,对卷积神经网络进行训练;
对帧图像特征经最大池化操作的降维处理后,根据视频标签有无重叠的特性,选择不相交的标签幂集法和有重叠的标签幂集法对RAKEL多标签分类器进行训练;
对待识别视频流采用训练后的卷积神经网络进行卷积特征提取和最大池化操作后,采用训练后的RAKEL多标签分类器得到分类识别结果。
2.如权利要求1所述的基于CNN-RAKEL算法的标准视频流分类识别方法,其特征在于,所述预处理包括大小、亮度和对比度的归一化和白化处理;其中,通过大小归一化为将视频流帧图像的大小尺寸进行统一后,通过每个像素减去像素均值以归一化亮度,通过每个像素除以该像素的标准差来归一化对比度,在相邻像素之间通过白化处理降低冗余度。
3.如权利要求1所述的基于CNN-RAKEL算法的标准视频流分类识别方法,其特征在于,对卷积神经网络进行训练过程包括:最小化预测输出与期望输出的误差,通过极小化误差反向传播使BP权值矩阵进行调整,通过不断循环直到达到最优训练状态。
4.如权利要求3所述的基于CNN-RAKEL算法的标准视频流分类识别方法,其特征在于,最小化预测输出与期望输出的误差:
Figure FDA0003994325810000021
其中,l为输出层含有l个神经元;ok为卷积神经网络隐含层到输出层的过程,展开为
Figure FDA0003994325810000022
w为输出向量的权值,yj为输入层到隐含层的过程,展开为
Figure FDA0003994325810000023
v为隐含层的权值。
5.如权利要求4所述的基于CNN-RAKEL算法的标准视频流分类识别方法,其特征在于,通过对每个输入参数求E的偏导,以达到最优训练状态:
Figure FDA0003994325810000024
Figure FDA0003994325810000025
其中,
Figure FDA0003994325810000026
为E对wkj的梯度,对应wkj发生变化时E的变化率;η是学习率。
6.如权利要求1所述的基于CNN-RAKEL算法的标准视频流分类识别方法,其特征在于,不相交的标签幂集法的过程包括:
对于标签数目为M的标签集L,给定子标签集大小为k,随机拆分标签集L为
Figure FDA0003994325810000027
个不交叉子标签集,子标签集Rj,(j=1...m-1)含有k个标签;如果M/k是整数,那么标签集Rm是一个k标签集,否则Rm包含M模k余下的部分,从而训练m个LP多标签分类器hj,(j=1...m)。
7.如权利要求1所述的基于CNN-RAKEL算法的标准视频流分类识别方法,其特征在于,有重叠的标签幂集法的过程包括:
对于标签数目为M的标签集L,用Lk表示L中所有有差别的含有k个标签的标签集,给定标签集大小k和所需分类器的数目m≤|Lk|,从Lk个有差别的标签集中随机无替换的抽取m个k标签集Rj,(j=1...m-1)。当mk>M时,使用LP算法训练m个多标签分类器hi,(i=1...m)。
8.基于CNN-RAKEL算法的标准视频流分类识别系统,其特征在于,包括:
预处理模块,被配置为获取视频帧图像训练集,并对视频帧图像训练集进行预处理;
CNN训练模块,被配置为对预处理后视频帧图像训练集进行卷积特征提取后,根据帧图像特征采用卷积神经网络得到预测输出,基于预测输出与期望输出的极小化误差为优化目标,对卷积神经网络进行训练;
RAKEL训练模块,被配置为对帧图像特征经最大池化操作的降维处理后,根据视频标签有无重叠的特性,选择不相交的标签幂集法和有重叠的标签幂集法对RAKEL多标签分类器进行训练;
分类识别模块,被配置为对待识别视频流采用训练后的卷积神经网络进行卷积特征提取和最大池化操作后,采用训练后的RAKEL多标签分类器得到分类识别结果。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。
CN202211590986.3A 2022-12-12 2022-12-12 基于cnn-rakel算法的标准视频流分类识别方法 Pending CN116385917A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211590986.3A CN116385917A (zh) 2022-12-12 2022-12-12 基于cnn-rakel算法的标准视频流分类识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211590986.3A CN116385917A (zh) 2022-12-12 2022-12-12 基于cnn-rakel算法的标准视频流分类识别方法

Publications (1)

Publication Number Publication Date
CN116385917A true CN116385917A (zh) 2023-07-04

Family

ID=86973710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211590986.3A Pending CN116385917A (zh) 2022-12-12 2022-12-12 基于cnn-rakel算法的标准视频流分类识别方法

Country Status (1)

Country Link
CN (1) CN116385917A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117092917A (zh) * 2023-09-26 2023-11-21 山东华科信息技术有限公司 一种电源效率自适应调节装置和调节方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117092917A (zh) * 2023-09-26 2023-11-21 山东华科信息技术有限公司 一种电源效率自适应调节装置和调节方法

Similar Documents

Publication Publication Date Title
Wang et al. Time series classification from scratch with deep neural networks: A strong baseline
US10275719B2 (en) Hyper-parameter selection for deep convolutional networks
US10332028B2 (en) Method for improving performance of a trained machine learning model
US9400918B2 (en) Compact face representation
US20200104721A1 (en) Neural network image search
Dou et al. Band selection of hyperspectral images using attention-based autoencoders
González-Rufino et al. Exhaustive comparison of colour texture features and classification methods to discriminate cells categories in histological images of fish ovary
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN113408605A (zh) 基于小样本学习的高光谱图像半监督分类方法
CN114332621A (zh) 一种基于多模型特征融合的病虫害识别方法及系统
CN109711442B (zh) 无监督逐层生成对抗特征表示学习方法
CN116385917A (zh) 基于cnn-rakel算法的标准视频流分类识别方法
CN113642445A (zh) 一种基于全卷积神经网络的高光谱影像分类方法
CN114255371A (zh) 一种基于组件监督网络的小样本图像分类方法
CN111291807A (zh) 一种细粒度图像分类方法、装置及存储介质
CN114359972A (zh) 一种基于注意力机制的遮挡行人检测方法
US8015131B2 (en) Learning tradeoffs between discriminative power and invariance of classifiers
CN110210412B (zh) 一种基于深度学习和多示例学习的高光谱影像分类方法
US11494613B2 (en) Fusing output of artificial intelligence networks
CN116543250A (zh) 一种基于类注意力传输的模型压缩方法
Sangamesh et al. A Novel Approach for Recognition of Face by Using Squeezenet Pre-Trained Network
CN113011163A (zh) 基于深度学习模型的复合文本多分类方法及系统
CN111666956A (zh) 一种多尺度特征提取及融合方法及装置
Xing et al. Learning by Erasing: Conditional Entropy Based Transferable Out-of-Distribution Detection
CN115100432B (zh) 一种小样本目标检测方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination