CN111104553B

CN111104553B - 一种高效运动互补神经网络系统

Info

Publication number: CN111104553B
Application number: CN202010012178.3A
Authority: CN
Inventors: 张一帆; 程科; 程健
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2023-12-12
Anticipated expiration: 2040-01-07
Also published as: CN111104553A

Abstract

本发明公开了一种高效运动互补神经网络系统，包括视频读取单元、视频类别单元和神经网络补充单元；所述视频读取单元对输入的视频进行读取，同时对视频的描述信息等文字辅助信息进行提取；所述视频类别单元根据网络等视频提取源对视频的描述信息对视频的类别进行初步判定，并将视频划分到神经网络中已有的类别分区中；所述神经网络补充单元分成两个模块，对视频分类的方法进行优化，缩短视频分类的时间。本发明针对双流法和3D卷积法分别做出提高计算光流效率和缩小网络计算量的优化方法，提升了视频提取和分类的速度。

Description

一种高效运动互补神经网络系统

技术领域

本发明涉及一种深度学习技术，尤其是一种高效运动互补神经网络系统。

背景技术

如今网络上存在大规模的视频数据，占到了整个互联网信息的70%，而对这些数据进行自动分类有很大的意义。视频分类任务不仅需要高的精度，还需要尽可能快的速度，以应对海量的数据。

近年来，随着深度学习在图像分类任务上大获成功，有很多研究者将深度学习引入视频分类任务中。视频分类的深度学习模型和图像分类的最大区别在于运动信息的捕捉，也就是帧间的运动信息的建模。目前常用的运动信息建模方法有两种：双流卷积网络和3D卷积网络。

双流卷积网络利用光流来获取运动信息，光流是空间运动物体在观察成像平面上的像素运动的瞬时速度所构成的图像。双流法提取视频的光流模态，与RGB模态构成两路输入，然后将RGB流和光流两路的结果进行融合得到最终结果。3D卷积神经网络将2D的卷积拓展到3D，也就是将空间卷积拓展到时空。卷积核的大小也从二维变为三维。上述两种建模时序运动信息的方法虽然能取得比较高的精度，但是其速度很慢，难以进行高效的部署。双流法的时间主要消耗在提取光流，例如用CPU提取光流每帧需要360ms，即使用K80 GPU每帧也需要60ms。3D卷积的时间主要消耗在卷积的过程，这是由于3D卷积的网络计算量远远大于2D卷积。

发明内容

发明目的：提供一种高效运动互补神经网络系统，以解决上述问题。

技术方案：

一种高效运动互补神经网络系统，

定长累计运动矢量模块，用于将运动矢量的累计到它所对应的原始帧，而累计的帧数固定长度，以提高运动矢量的清晰度和表达能力；

均衡运动策略模块，用于将视频分成原始帧和运动矢量两部分，所述原始帧存储少量图像，所述运动矢量存储帧间运动信息，根据用户对视频提取的精度要求确定运动矢量的提取长度，对视频进行分段，提取长度越短视频处理的精度越高，将运动矢量累计到视频对应的原始帧的位置上，同时对累计的帧数进行长度固定，在视频编码格式中自动保存运动矢量信息；在原始帧流上采用较大的分辨率，在运动矢量流上采用较小的分辨率。

一种高效运动互补神经网络系统，包括视频读取单元、视频类别单元和神经网络补充单元，针对双流法和3D卷积法两种视频提取的方法进行了优化，可以做到提高计算光流的效率，缩小网络计算量，提升视频分类的效率；

视频读取单元，对输入的视频进行读取，进一步获取网络等输入源中对视频的文字描述信息，为视频的初步分类进行数据搜集；

视频类别单元，在视频提取源的描述信息下，对输入的视频的类别进行初步的判定，在扩充视频类别的数据库的同时，可以通过视频类别的最终判定，修正神经网络的判定结果，提高神经网络的学习能力；

神经网络补充单元，其特征在于，内部的两个模块分别针对计算光流的效率和网络计算量进行优化，缩短视频分类的时间，具体步骤为：

步骤1、将视频转化成编码格式；

步骤2、使用定长累计运动矢量法加速光流计算；

步骤3、使用均衡运动法加速网络计算。

根据本发明的一个方面，所述神经网络补充单元通过定长累计运动矢量法来加速光流计算，通过均衡运动法来加速网络计算，这两种方法在使用小计算量的前提下，可以提取到具有很强表达能力和互补性的运动信息；将二者结合，可以实现运动信息的互补建模，缩短视频分类的计算时间，提高视频分类的计算精度。

根据本发明的一个方面，所述神经网络补充单元的定长累计运动矢量法可以通过设置定长对视频进行分段提取数据，加速光流计算的过程，具体步骤为：

步骤S1、将视频分成原始帧和运动矢量两部分，所述原始帧存储少量图像，所述运动矢量存储帧间运动信息；

步骤S2、根据用户对视频提取的精度要求确定运动矢量的提取长度，对视频进行分段，提取长度越短视频处理的精度越高；

步骤S3、将运动矢量累计到视频对应的原始帧的位置上，同时对累计的帧数进行长度固定；

步骤S4、在视频编码格式中自动保存运动矢量信息。

根据本发明的一个方面，所述神经网络补充单元的均衡运动法针对所述原始帧和所述运动矢量两部分使用不同分辨率进行提取，从而缩小网络计算量，具体步骤为：

步骤1、使用均衡运动法来调节原始帧流和运动矢量流之间的比例关系，提高网络计算的效率；

步骤11、降低运动矢量流的分辨率；

步骤12、保持对原始帧流较大的分辨率，从而保证视频的识别精度；

步骤2、保证运动矢量流的数据计算量占用整个视频的数据计算量的百分之十及以下，对网络贡献量达到百分之三到百分之四的精度水平。

根据本发明的一个方面，所述视频读取单元针对输入的视频进行长度和精度上的预处理，保证后续光流计算和视频分帧的流畅性。

根据本发明的一个方面，所述视频读取单元对输入的视频相关的文字描述信息进行录入，进一步在神经网络中学习并提取关键字，根据关键字、关键词对视频进行初步分类。

根据本发明的一个方面，所述视频类别单元得到输入视频的初步类别判定之后，扩充对应类别的视频数据库，如果初步判定结果和最终视频划分类别不同，则以最终的类别划分为主，神经网络学习并记录这一修正过程。

有益效果：本发明能够实现在视频分类的数据处理中提高光流计算速度和缩小网络计算量，通过这两种小计算量的方法实现了运动信息的互补建模，从而实现理论计算量和实测计算时间在双流法和3D卷积法上的优化，进一步提高了数据处理精度。

附图说明

图1是本发明的系统控制示意图。

图2是本发明的神经网络补充单元的定长累计运动矢量法计算过程示意图。

图3是本发明的神经网络补充单元的均衡运动法的分辨率分配示意图。

图4是本发明神经网络补充单元的工作流程示意图。

图5是本发明加速光流计算的工作流程示意图。

具体实施方式

如图1所示，在该实施例中，一种高效运动互补神经网络系统，包括视频读取单元、视频类别单元和神经网络补充单元，针对双流法和3D卷积法两种视频提取的方法进行了优化，可以做到提高计算光流的效率，缩小网络计算量，提升视频分类的效率；

步骤1、将视频转化成编码格式；

步骤2、使用定长累计运动矢量法加速光流计算；

步骤3、使用均衡运动法加速网络计算。

在进一步的实施例中，所述神经网络补充单元通过定长累计运动矢量法来加速光流计算，通过均衡运动法来加速网络计算，这两种方法在使用小计算量的前提下，可以提取到具有很强表达能力和互补性的运动信息；将二者结合，可以实现运动信息的互补建模，缩短视频分类的计算时间，提高视频分类的计算精度。

在进一步的实施例中，所述神经网络补充单元的定长累计运动矢量法可以通过设置定长对视频进行分段提取数据，加速光流计算的过程，具体步骤为：

步骤S4、在视频编码格式中自动保存运动矢量信息。

在更进一步的实施例中，如图2所示，述累计运动矢量法通过将运动矢量直接累计到对应的原始帧上，解决了因为运动矢量信息粗糙和模糊导致数据提取效果不佳的问题，提高了运动矢量的清晰度和表达能力。

在进一步的实施例中，所述神经网络补充单元的均衡运动法针对所述原始帧和所述运动矢量两部分使用不同分辨率进行提取，从而缩小网络计算量，具体步骤为：

步骤11、降低运动矢量流的分辨率；

在更进一步的实施例中，如图3所示，所述均衡运动法对运动矢量流进行低分辨率的提取，足够保留相当的识别精度，因为运动矢量流对分辨率非常不敏感，这种均衡方法较好地完成了网络计算量的分配。

在进一步的实施例中，所述视频读取单元针对输入的视频进行长度和精度上的预处理，保证后续光流计算和视频分帧的流畅性。

在进一步的实施例中，所述视频读取单元对输入的视频相关的文字描述信息进行录入，进一步在神经网络中学习并提取关键字，根据关键字、关键词对视频进行初步分类。

在进一步的实施例中，所述视频类别单元得到输入视频的初步类别判定之后，扩充对应类别的视频数据库，如果初步判定结果和最终视频划分类别不同，则以最终的类别划分为主，神经网络学习并记录这一修正过程。

总之，本发明具有以下优点：使用定长累计运动矢量的方法，可以解决因为运动矢量信息粗糙模糊而造成数据精确度低的问题，提高了视频提取时运动矢量的清晰度和表达能力；进一步，针对运动矢量流和原始帧流采用不同分辨率，合理分配了网络计算的比重，提高了网络计算的速率。本发明整体上针对目前通用的双流法和3D卷积法进行了两方面的提升，二者计算小，但互补程度高，完成了视频分类的优化，提升了视频提取和分类的速度。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

Claims

1.一种高效运动互补神经网络系统，其特征在于，包括：视频读取单元、视频类别单元和神经网络补充单元，针对双流法和3D卷积法两种视频提取的方法进行了优化，可以做到提高计算光流的效率，缩小网络计算量，提升视频分类的效率；

神经网络补充单元，其内部的定长累计运动矢量模块和均衡运动策略模块分别针对计算光流的效率和网络计算量进行优化，缩短视频分类的时间，具体步骤为：

步骤1、将视频转化成编码格式；

步骤2、使用定长累计运动矢量法加速光流计算；

步骤3、使用均衡运动法加速网络计算；

所述定长累计运动矢模块，用于将运动矢量的累计到它所对应的原始帧，而累计的帧数固定长度，以提高运动矢量的清晰度和表达能力；

所述均衡运动策略模块，用于将视频分成原始帧和运动矢量两部分，所述原始帧存储少量图像，所述运动矢量存储帧间运动信息，根据用户对视频提取的精度要求确定运动矢量的提取长度，对视频进行分段，提取长度越短视频处理的精度越高，将运动矢量累计到视频对应的原始帧的位置上，同时对累计的帧数进行长度固定，在视频编码格式中自动保存运动矢量信息；在原始帧流上采用较大的分辨率，在运动矢量流上采用较小的分辨率；

所述神经网络补充单元的均衡运动法针对所述原始帧和所述运动矢量两部分使用不同分辨率进行提取，从而缩小网络计算量，具体步骤为：

步骤3.1、使用均衡运动法来调节原始帧流和运动矢量流之间的比例关系，提高网络计算的效率；

步骤3.11、降低运动矢量流的分辨率；

步骤3.12、保持对原始帧流较大的分辨率，从而保证视频的识别精度；

步骤3.2、保证运动矢量流的数据计算量占用整个视频的数据计算量的百分之十及以下，对网络贡献量达到百分之三到百分之四的精度水平。

2.根据权利要求1所述的一种高效运动互补神经网络系统，其特征在于，所述神经网络补充单元的定长累计运动矢量法可以通过设置定长对视频进行分段提取数据，加速光流计算的过程，具体步骤为：

步骤2.1、将视频分成原始帧和运动矢量两部分，所述原始帧存储少量图像，所述运动矢量存储帧间运动信息；

步骤2.2、根据用户对视频提取的精度要求确定运动矢量的提取长度，对视频进行分段，提取长度越短视频处理的精度越高；

步骤2.3、将运动矢量累计到视频对应的原始帧的位置上，同时对累计的帧数进行长度固定；

步骤2.4、在视频编码格式中自动保存运动矢量信息。

3.根据权利要求1所述的一种高效运动互补神经网络系统，其特征在于，所述视频读取单元针对输入的视频进行长度和精度上的预处理，保证后续光流计算和视频分帧的流畅性。

4.根据权利要求1所述的一种高效运动互补神经网络系统，其特征在于，所述视频读取单元对输入的视频相关的文字描述信息进行录入，进一步在神经网络中学习并提取关键字，根据关键字、关键词对视频进行初步分类。

5.根据权利要求1所述的一种高效运动互补神经网络系统，其特征在于，所述视频类别单元得到输入视频的初步类别判定之后，扩充对应类别的视频数据库，如果初步判定结果和最终视频划分类别不同，则以最终的类别划分为主，神经网络学习并记录这一修正过程。