CN113033283B

CN113033283B - 一种改进的视频分类系统

Info

Publication number: CN113033283B
Application number: CN202011499364.0A
Authority: CN
Inventors: 席道亮; 许野平; 刘辰飞; 陈英鹏; 张朝瑞; 高朋
Original assignee: Synthesis Electronic Technology Co Ltd
Current assignee: Synthesis Electronic Technology Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2022-11-22
Anticipated expiration: 2040-12-18
Also published as: CN113033283A

Abstract

本发明公开了一种改进的视频分类系统，涉及视频分类领域。基于系统的视频分类过程如下：利用嵌入式设备的视频解码模块将获取的视频流解码为RGB图像；通过RGB图像帧组合建模模块对数据预处理完成后对数据进行指定数量的序列建模；将处理后的图像输入到时序特征提取子单元1，通过时序特征提取子单元1对第二步提取的特征图R只在时间维度方向提取运动特征；在每两个时序特征提取子单元之间增加全局特征补充单元，全局特征补充单元用于计算当前图像数据与其他图像的相似度，变相增加了运动的时序信息；将时序特征提取单元输出的特征图Yn根据预测类别进行线性变换，预测输出；建立一个稳定输出的损失函数不断优化参数，对样本数据不断的优化。

Description

一种改进的视频分类系统

技术领域

本发明涉及视频分类领域，具体涉及一种改进的视频分类系统。

背景技术

视频分类一直是计算机视觉的研究热点问题，通过分析视频内容理解视频中人与物和人与人之间的动作，分析预测正在发生的异常行为如打砸设备、人员聚集等等。随着人工智能落地产品越来越多，将智能检测视频分类算法集成到边缘计算端的要求愈加迫切。目前基于深度学习的视频分类算法在多目标复杂场景下能够实时准确地预测出视频内容。

专利号为202010737337.6的中国专利公开了一种视频分类模型训练方法、视频分类方法、装置及电子设备，将至少一个视频样本输入到视频分类模型，将至少一张图片对应的特征向量输入到图片分类模型，两个特征向量经过分类模型的预测至少预测两个输出，然后每个输出与各自的真正的标签值做差作为总损失值作为权重参数的更新。该专利的缺点是训练中需要标定的样本过多，方法过于繁琐，训练出的模型权重泛化能力较差，出现过拟合现象无法应用到实际场景当中。

专利号为201910838607.X的中国专利提出了一种视频分类的方法，方法包括从待分类视频中获取目标视频帧所对应的L个前瞻视频帧，通过视频分类模型中的跳帧器获取L个前瞻视频帧所对应的计划跳帧向量，计划跳帧向量包括每个前瞻视频帧对应的分值元素，根据计划跳帧向量确定待分类视频所对应的待分类视频帧；根据待分类视频帧，通过视频分类模型中的分类器确定待分类视频的分类结果。该方法的的缺点在于使用一种跳帧器只能从待检测的视频中取出部分视频帧，虽然可以减少了冗余信息的干扰提高网络的运行速度，但是通过跳帧丢失了部分的连续帧间的细节运动信息，从而降低了分类的准确率，鲁棒性也大大降低。

论文《Two-Stream Convolutional Networks for Action Recognition inVideos》针对视频分类采用双网络预测的方法，分支1网络将RGB图片或者灰度图输入到二维卷积提取空间特征，分支2网络将提前计算好的光流信息在x和y两个方向上提取时间的运动信息，其中光流是针对图像中关键点的运动信息生成的。该网络的不足之处在于只能预测离线视频，提前根据获取到的内容计算光流信息，无法获取实时的信息，此外网络的训练也需要将两个网络分开训练，增加了训练难度。

论文《Temporal Segment Networks:Towards Good Practices for Deep ActionRecognition》旨在设计有效的卷积网络体系结构用于视频中的动作识别，并在有限的训练样本下进行模型学习。该方法实际上是Two-Stream网络的升级版，主要解决了两个问题：1.解决了长时间视频的行为判断问题2.解决在少量数据的前提下如何训练出可以应用的模型权重，防止训练出现过拟合现象。该论文的不足之处在于在当前边缘计算端的计算能力下不能满足TSN的实时计算的要求，对复杂场景下的多目标运行无法准确的完成预测。

论文《Quo Vadis,Action Recognition A New Model and the KineticsDataset》针对视频理解数据量较少这一问题提出了一个与IMAGENET相当的数据集kinetics，这样就能像图像分类一样在大数据集上训练出可以应用到小数据集的预训练模型，提高分类的准确率。此外该论文通过比较当前流行的动作识别网络架构2D卷积+LSTM、Two-Stream和3D卷积，取长补短提出了双流3D卷积网络大大的提高了识别率。该方法的不足之处双流网络和3D卷积均为参数较多的网络架构，在带来高精度的前提下也对边缘的计算成本提出了更高的要求，该网络同样也面临Two-Stream双流网络无法同时训练，训练难度大的问题。

发明内容

本发明的目的是针对上述不足，提出了一种基于硬件解码装置的视频分类系统，该系统通过数据的前处理阶段将样本数据轻量化输入到特征提取单元模块，在特征提取单元模块中增加了全局特征补充单元用于增加识别的准确度。

本发明具体采用如下技术方案：

一种改进的视频分类系统，包括视频流处理模块、RGB图像帧组合建模模块、若干时序特征提取子单元和全局特征补充单元，视频分类过程如下：

(1)利用嵌入式设备的视频解码模块将获取的视频流解码为RGB图像；

(2)通过RGB图像帧组合建模模块对数据预处理完成后对数据进行指定数量的序列建模；

(3)将处理后的图像输入到时序特征提取子单元1，通过时序特征提取子单元1对第二步提取的特征图R只在时间维度方向提取运动特征；

(4)在每两个时序特征提取子单元之间增加全局特征补充单元，全局特征补充单元用于计算当前图像数据与其他图像的相似度，变相增加了运动的时序信息；

(5)将时序特征提取单元输出的特征图Yn根据预测类别进行线性变换，预测输出；

(6)建立一个稳定输出的损失函数不断优化参数，对样本数据不断的优化。

优选地，对数据预处理完成后对数据进行指定数量的序列建模的过程如下：

(1)连续采样多张连续图片x(x1,x2,x3······x15,x16),其中x代表每一帧RGB 图像的数据；

(2)相邻图片对应通道做差操作，然后合成一张新的RGB图片，16张RGB图像帧两两相减生成8张RGB图片，具体操作步骤如下：

a.图像x1的R通道与图像x2的R通道做差形成x1与x2的R通道数据：R_x12＝|Rx1–Rx2|；

b.图像x1的G通道与图像x2的G通道做差形成x1与x2的G通道数据：G_x12＝|Gx1–Gx2|；

c.图像x1的B通道与图像x2的B通道做差形成x1与x2的B通道数据：B_x12＝|Bx1–Bx2|；

d.为了减少计算量，增加嵌入式端的运行速度，对每一通道的二维图像数据X(x,y)，设定固定阈值减少对背景等冗余数据的计算量，该计算函数为式(1)所示：

e.将新的RGB图像数据合成新的图像数据x12，如式(2)所示：

X₁₂＝f(R，G，B) (2)

f.生成对应的其他新的数据样本，则新的数据样本为式(3)所示：

X(x₁₂，x₃₄，x₅₆，·······x₁₅₁₆)∈R^CxDxHxW (3)。

优选地，将处理后的图像输入到时序特征提取子单元1，该单元对第二步提取的特征图R 只在时间维度方向提取运动特征，为了增加多维度的特征表示，设计数据在训练的参数更新中不再以32浮点数位表示，而是采用典型分布表示，对每个计算核心参数应用式(4)：

更新的参数以该分布表示后将学习到的参数与数据趋向与同分布，这样对数据的表示更加多维化，增加了特征与特征之间的辨识度。

优选地，全局特征补充单元用于计算当前图像数据与其他图像的相似度，计算步骤为：

(1)对时序特征提取子单元输出的特征Y∈R′^CxDxHxW，进行特征提取计算，计算核心单元同样采取第三步中的新的参数更新方式，通过通道压缩单元将Y变成α、β、γ三个特征图，特征图在各个维度上维数相同，将α、β、γ分别执行维度压缩和压缩变换操作，则每个特征图的维度为：

(2)对β执行空间位置置换操作，将β维度按照式(6)顺序变换：

β(c*N)→β(N*c) (6)

(3)α与β数据融合后输出特征图Y1如式(7)所示

f_fusion＝(α，β)＝Y1(N*N) (7)

Y1表示相邻图像中样本的相似程度；

(4)对矩阵Y1数据进行数据的归一化操作，如式(8)所示

Y2(N*N)＝f_normalize(Y1) (8)

假设Y1矩阵中一共包含有m个参数，则对Y1矩阵中的每个元素执行如式(9)所示的归一化操作：

(5)将特征图Y2与γ输入到数据融合单元输出特征图Y3，如式(10)

f_fusion＝(γ，Y2)＝Y3(c*N) (10)

(6)将Y3进行维度展开操作生成Yout

与时序特征提取单元1的输出Y进行信息迭代操作输入到时序特征提取单元2

Y3(c*N)→Y4(c*d*h*w) (11)

Y_out1＝Y+Y4 (12)

(7)根据具体硬件要求增加时序提取单元的数量，每两个时序提取单元间增加一个全局特征补充单元，起到增强时序特征的作用。

优选地，建立一个稳定输出的损失函数不断优化参数，对样本数据不断的优化，损失函数如式(13)所示，

其中，y′表示网络的预测输出，y表示标签的真实值，α是固定参数，该分类函数可以根据类别不平衡度调节α这个参数解决使预测效果更佳。

本发明具有如下有益效果：

该系统可以使视频分类算法比较容易的集成迁移到边缘计算端，相对于原始的two-stream 方法可以达到实时的计算要求无需提前计算视频的光流，相对于3DCovnet方法，本设计无需大量的参数计算，对边缘计算设备的GPU要求较低，在保证预测准确率的前提下能够对场景内发生的动作进行实时预测。

附图说明

图1为改进的视频分类系统框图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

结合图1，一种改进的视频分类系统，包括视频流处理模块、RGB图像帧组合建模模块、若干时序特征提取子单元和全局特征补充单元，视频分类过程如下：

(1)利用嵌入式设备的视频解码模块将获取的视频流解码为RGB图像。

(2)通过RGB图像帧组合建模模块对数据预处理完成后对数据进行指定数量的序列建模。

(3)将处理后的图像输入到时序特征提取子单元1，通过时序特征提取子单元1对第二步提取的特征图R只在时间维度方向提取运动特征。

(4)在每两个时序特征提取子单元之间增加全局特征补充单元，全局特征补充单元用于计算当前图像数据与其他图像的相似度，变相增加了运动的时序信息。

(5)将时序特征提取单元输出的特征图Yn根据预测类别进行线性变换，预测输出。

对数据预处理完成后对数据进行指定数量的序列建模的过程如下：

e.将新的RGB图像数据合成新的图像数据x12，如式(2)所示：

X₁₂＝f(R，G，B) (2)

X(x₁₂，x₃₄，x₅₆，·······x₁₅₁₆)∈R^CxDxHxW (3)。

将处理后的图像输入到时序特征提取子单元1，该单元对第二步提取的特征图R只在时间维度方向提取运动特征，为了增加多维度的特征表示，设计数据在训练的参数更新中不再以32浮点数位表示，而是采用典型分布表示，对每个计算核心参数应用式(4)：

全局特征补充单元用于计算当前图像数据与其他图像的相似度，计算步骤为：

(1)对时序特征提取子单元输出的特征Y∈R^CxDxHxW，进行特征提取计算，计算核心单元同样采取第三步中的新的参数更新方式，通过通道压缩单元将Y变成α、β、γ三个特征图，特征图在各个维度上维数相同，将α、β、γ分别执行维度压缩和压缩变换操作，则每个特征图的维度为：

(2)对β执行空间位置置换操作，将β维度按照式(6)顺序变换：

β(c*N)→β(N*c) (6)

(3)α与β数据融合后输出特征图Y1如式(7)所示

f_fusion＝(α，β)＝Y1(N*N) (7)

Y1表示相邻图像中样本的相似程度；

(4)对矩阵Y1数据进行数据的归一化操作，如式(8)所示

Y2(N*N)＝f_normalize(Y1) (8)

(5)将特征图Y2与γ输入到数据融合单元输出特征图Y3，如式(10)

f_fusion＝(γ，Y2)＝Y3(c*N) (10)

(6)将Y3进行维度展开操作生成Yout

Y3(c*N)→Y4(c*d*h*w) (11)

Y_out1＝Y+Y4 (12)

建立一个稳定输出的损失函数不断优化参数，对样本数据不断的优化，损失函数如式(13) 所示，

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种改进的视频分类系统，其特征在于，包括视频流处理模块、RGB图像帧组合建模模块、若干时序特征提取子单元和全局特征补充单元，视频分类过程如下：

(2)通过RGB图像帧组合建模模块对数据预处理完成后对数据进行指定数量的序列建模；对数据预处理完成后对数据进行指定数量的序列建模的过程如下：

(1)连续采样多张连续图片x(x1,x2,x3······x15,x16),其中x代表每一帧RGB图像的数据；

d.为了减少计算量，增加嵌入式端的运行速度，对每一通道的二维图像数据X(x,y)，设定固定阈值减少对背景等冗余数据的计算量，计算函数为式(1)所示：

(e)将新的RGB图像数据合成新的图像数据x12，如式(2)所示：

X₁₂＝f(R，G，B) (2)

(f)生成对应的其他新的数据样本，则新的数据样本为式(3)所示：

X'(x₁₂，x₃₄，x₅₆，……·x₁₅₁₆)∈R^CxDxHxW (3)

2.如权利要求1所述的一种改进的视频分类系统，其特征在于，将处理后的图像输入到时序特征提取子单元1，该单元对第二步提取的特征图R只在时间维度方向提取运动特征，为了增加多维度的特征表示，设计数据在训练的参数更新中不再以32浮点数位表示，而是采用典型分布表示，对每个计算核心参数应用式(4)：

3.如权利要求1所述的一种改进的视频分类系统，其特征在于，全局特征补充单元用于计算当前图像数据与其他图像的相似度，计算步骤为：

(2)对β执行空间位置置换操作，将β维度按照式(6)顺序变换：

β(c*N)→β(N*c) (6)

(3)α与β数据融合后输出特征图Y1如式(7)所示

f_fusion＝(α，β)＝Y1(N*N) (7)

Y1表示相邻图像中样本的相似程度；

(4)对矩阵Y1数据进行数据的归一化操作，如式(8)所示

Y2(N*N)＝f_normalize(Y1) (8)

(5)将特征图Y2与γ输入到数据融合单元输出特征图Y3，如式(10)

f_fusion＝(γ，Y2)＝Y3(c*N) (10)

(6)将Y3进行维度展开操作生成Yout

Y3(c*N)→Y4(c*d*h*w) (11)

Y_out1＝Y+Y4 (12)

4.如权利要求1所述的一种改进的视频分类系统，其特征在于，建立一个稳定输出的损失函数不断优化参数，对样本数据不断的优化，损失函数如式(13)所示，

其中，y′表示网络的预测输出，y表示标签的真实值，α是固定参数，分类函数可以根据类别不平衡度调节α这个参数解决使预测效果更佳。