CN113239728A

CN113239728A - 一种用于互联网视频识别算法加速的方法

Info

Publication number: CN113239728A
Application number: CN202110375568.1A
Authority: CN
Inventors: 缪亚男; 李扬曦; 王佩
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2021-04-03
Filing date: 2021-04-03
Publication date: 2021-08-10

Abstract

本发明公开了一种用于互联网视频识别算法加速的方法，适用于视频识别技术领域，具体包括获取视频数据；对所述视频数据进行预处理；将预处理后的视频数据输入优化后的网络模型中；所述优化后的网络模型输出视频分类结果；所述网络模型的优化过程包括残差网络ResNet50模型优化过程和/或TensorRT模型优化过程，残差网络ResNet50模型优化过程包括改变下采样位置、卷积替换、卷积步长替换；TensorRT模型优化过程包括对网络结构进行垂直整合；对网络结构进行水平整合；减少网络结构中的concat层；解析网络结构，将网络结构中无用的输出层消除。本发明对视频具有较高的识别准确度，并且识别的速度更快。

Description

一种用于互联网视频识别算法加速的方法

技术领域

本发明涉及视频识别技术领域，更具体的说是涉及一种用于互联网视频识别算法加速的方法。

背景技术

随着互联网的发展，互联网上的视频也日益增多，但是同样也会带来一些安全问题，对社会稳定造成较大的隐患，因此很有必要对互联网上的视频进行审核。

已有的方法是通过人工审核来识别视频，不仅效率低，而且需要较大的人力成本。现有技术中的识别模型一般用CNN模型，比如ResNet，作为一个图像分类器，对输入的视频进行抽帧，下采样，经过一系列预处理后输入到ResNet中，得出视频和正常视频的分类结果，一般为了提高准确率，模型都比较复杂，但同时也会使得推理较慢、模型较大。模型占用显存较大，不利于部署，消耗太多机器资源，很难大规模进行部署应用。

因此提供一种视频识别速度快、精确度高的视频识别算法加速方法，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种用于互联网视频识别算法加速的方法，通过网络结构优化和TensorRT加速优化对网络模型进行加速。

为了实现上述目的，本发明提供如下技术方案：

一种用于互联网视频识别算法加速的方法，包括：

获取视频数据；

对所述视频数据进行预处理，具体包括抽帧和下采样；

将预处理后的视频数据输入优化后的网络模型中；

所述优化后的网络模型输出视频分类结果，所述视频分类结果包括和正常；

所述网络模型的优化过程包括残差网络ResNet50模型优化过程和/或TensorRT模型优化过程。

所述残差网络ResNet50模型优化过程包括改变下采样位置、卷积替换、卷积步长替换，

残差网络ResNet50中的skip-connection结构分为Path A路径和 Path B路径，所述改变下采样位置，具体为，改变所述skip-connection 结构的Path A路径中下采样的位置，将下采样的位置由第一个1x1 卷积改动到第二个3x3卷积，避免在第一个卷积丢失比较多的信息；

所述卷积替换，具体为，将输入图像后的7x7卷积改成3个3x3 的卷积，在不改变初始感受野的情况下有更好的性能；

所述卷积步长替换，具体为，在所述skip-connection结构的Path B路径中每个残差模块的1x1卷积前做一个2x2的Avg-Pool，替换所述1x1卷积的s＝2，在不增加计算量的同时可以避免有效信息丢失。

所述TensorRT模型优化过程具体步骤为：

对网络模型的网络结构进行垂直整合，具体为，将conv层、BN 层、Relu层共三个层融合为一个CBR层

对网络结构进行水平整合，具体为，将输入为相同张量和执行相同操作的模块进行融合；

减少网络结构中的concat层，具体为，将concat层的输入直接送到所述concat层的下一层操作中；

解析网络结构，将网络结构中无用的输出层消除。

本发明的有益效果为：

1.本发明能够快速有效地对图像分类网络进行加速。

2.本发明具有较高的识别精确度。

经由上述的技术方案可知，与现有技术相比，本发明针对已有的识别模型比较慢、模型大的问题进行优化，提供了一种用于互联网视频识别算法加速的方法，通过残差网络ResNet50模型优化和 TensorRT模型优化等方法，在确保识别准确率的前提下，使得模型识别的速度更快，在实际部署应用中有着重大的意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明整体流程图；

图2为本发明残差网络ResNet50模型优化过程流程图；

图3为本发明TensorRT模型优化过程流程图；

图4为传统残差网络ResNet50模型结构示意图；

图5(a)为本发明改变Path A路径下采样位置后的skip-connection 结构示意图；

图5(b)为本发明改变7x7卷积后的对应结构示意图；

图5(c)为本发明对Path B路径进行下采样替换后的 skip-connection结构示意图；

图6为传统网络结构示意图；

图7为本发明conv、BN、Relu三层融合后的TensorRT模型结构示意图；

图8为本发明TensorRT模型优化后的网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种用于互联网视频识别算法加速的方法，图1为整体流程图，具体包括：

获取视频数据；

对所述视频数据进行预处理；

将预处理后的视频数据输入优化后的网络模型中；

所述优化后的网络模型输出视频分类结果；

具体的，残差网络ResNet50是一种经典的图像分类网络，能够加速收敛，训练深层网络，防止网络退化现象，其结构如图4所示，由多个Block结构组成，其中右侧部分为skip-connection结构，分为 Path A路径和Path B路径。

图2为本发明残差网络ResNet50模型优化过程流程图，具体优化过程包括：

步骤101、改变skip-connection结构中下采样的位置，具体的，将Path A路径中下采样的位置由第一个1x1卷积改动到第二个3x3 卷积，避免在第一个卷积丢失比较多的信息，如图5(a)所示的为改变Path A路径下采样位置后的skip-connection结构示意图；

步骤102、将输入图像后的7x7卷积改成3个3x3的卷积，在不改变初始感受野的情况下有更好的性能，图5(b)所示的为改变7x7 卷积后的对应结构示意图；

步骤103、对skip-connection结构进行下采样替换，具体的，在 skip-connection结构的Path B路径中每个残差模块的1x1卷积前做一个2x2的Avg-Pool来替换所述1x1卷积的s＝2，所述s＝2即为strid＝2，为卷积的步长，s＝2时会对图像进行下采样。采取这种方案，在不增加计算量的同时可以避免有效信息丢失，图5(c)为在步骤101基础上，对Path B路径进行下采样替换后的skip-connection结构示意图。

通常的网络模型训练完直接用于推理，在推理速度上会有一定的影响，所以再通过TensorRT优化技术进行优化，传统网络结构示意图如图6所示，图3为本发明TensorRT模型优化过程流程图，具体的优化过程包括：

步骤201、对网络结构进行垂直整合，将图6中的conv层、BN 层、Relu层共三个层融合为一个CBR层，融合结果如图7所示，其中BN为Batch-Normalization批标准化，一般用在卷积后，bias是BN 的主要参数，Relu是激活函数；

步骤202、对网络结构进行水平整合，将输入为相同张量和执行相同操作的模块进行融合；

步骤203、减少网络结构中的concat层，将concat层的输入直接送到concat层的下一层操作中，减少传输吞吐，在一种实施例中，将图7中3个1x1 CBR张量大小相同，进行合并，并减少concat层，结果如图8所示。

步骤204、解析网络结构，将网络结构中无用的输出层消除，减少计算量。

本发明在经过网络结构优化和TensorRT加速后，能够将网络的单张推理速度在p40达到20ms以内，满足实时性的需求。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用于互联网视频识别算法加速的方法，其特征在于，包括：

获取视频数据；

对所述视频数据进行预处理；

将预处理后的视频数据输入优化后的网络模型中；

所述优化后的网络模型输出视频分类结果；

所述网络模型的优化过程包括残差网络ResNet50模型优化过程和/或TensorRT模型优化过程；

所述残差网络ResNet50模型优化过程包括改变下采样位置、卷积替换、卷积步长替换；

所述TensorRT模型优化过程包括对网络结构进行垂直整合；对网络结构进行水平整合；减少网络结构中的concat层；解析网络结构，将网络结构中无用的输出层消除。

2.根据权利要求1所述的一种用于互联网视频识别算法加速的方法，其特征在于，残差网络ResNet50中的skip-connection结构分为Path A路径和Path B路径，所述改变下采样位置，具体为，改变所述skip-connection结构的Path A路径中下采样的位置，将下采样的位置由第一个1x1卷积改动到第二个3x3卷积；

所述卷积替换，具体为，将输入图像后的7x7卷积改成3个3x3的卷积；

所述卷积步长替换，具体为，在所述skip-connection结构的Path B路径中每个残差模块的1x1卷积前做一个2x2的Avg-Pool，替换所述1x1卷积的s＝2。

3.根据权利要求1所述的一种用于互联网视频识别算法加速的方法，其特征在于，所述对网络结构进行垂直整合，具体为，将conv层、BN层、Relu层共三个层融合为一个CBR层。

4.根据权利要求1所述的一种用于互联网视频识别算法加速的方法，其特征在于，所述对网络结构进行水平整合，具体为，将输入为相同张量和执行相同操作的模块进行融合。

5.根据权利要求1所述的一种用于互联网视频识别算法加速的方法，其特征在于，所述减少网络结构中的concat层，具体为，将所述concat层的输入直接送到所述concat层的下一层操作中。

6.根据权利要求1所述的一种用于互联网视频识别算法加速的方法，其特征在于，对所述视频数据进行预处理，具体包括抽帧和下采样。

7.根据权利要求1所述的一种用于互联网视频识别算法加速的方法，其特征在于，所述视频分类结果包括和正常。