CN111104553B - 一种高效运动互补神经网络系统 - Google Patents

一种高效运动互补神经网络系统 Download PDF

Info

Publication number
CN111104553B
CN111104553B CN202010012178.3A CN202010012178A CN111104553B CN 111104553 B CN111104553 B CN 111104553B CN 202010012178 A CN202010012178 A CN 202010012178A CN 111104553 B CN111104553 B CN 111104553B
Authority
CN
China
Prior art keywords
video
motion vector
neural network
length
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010012178.3A
Other languages
English (en)
Other versions
CN111104553A (zh
Inventor
张一帆
程科
程健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202010012178.3A priority Critical patent/CN111104553B/zh
Publication of CN111104553A publication Critical patent/CN111104553A/zh
Application granted granted Critical
Publication of CN111104553B publication Critical patent/CN111104553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种高效运动互补神经网络系统,包括视频读取单元、视频类别单元和神经网络补充单元;所述视频读取单元对输入的视频进行读取,同时对视频的描述信息等文字辅助信息进行提取;所述视频类别单元根据网络等视频提取源对视频的描述信息对视频的类别进行初步判定,并将视频划分到神经网络中已有的类别分区中;所述神经网络补充单元分成两个模块,对视频分类的方法进行优化,缩短视频分类的时间。本发明针对双流法和3D卷积法分别做出提高计算光流效率和缩小网络计算量的优化方法,提升了视频提取和分类的速度。

Description

一种高效运动互补神经网络系统
技术领域
本发明涉及一种深度学习技术,尤其是一种高效运动互补神经网络系统。
背景技术
如今网络上存在大规模的视频数据,占到了整个互联网信息的70%,而对这些数据进行自动分类有很大的意义。视频分类任务不仅需要高的精度,还需要尽可能快的速度,以应对海量的数据。
近年来,随着深度学习在图像分类任务上大获成功,有很多研究者将深度学习引入视频分类任务中。视频分类的深度学习模型和图像分类的最大区别在于运动信息的捕捉,也就是帧间的运动信息的建模。目前常用的运动信息建模方法有两种:双流卷积网络和3D卷积网络。
双流卷积网络利用光流来获取运动信息,光流是空间运动物体在观察成像平面上的像素运动的瞬时速度所构成的图像。双流法提取视频的光流模态,与RGB模态构成两路输入,然后将RGB流和光流两路的结果进行融合得到最终结果。3D卷积神经网络将2D的卷积拓展到3D,也就是将空间卷积拓展到时空。卷积核的大小也从二维变为三维。上述两种建模时序运动信息的方法虽然能取得比较高的精度,但是其速度很慢,难以进行高效的部署。双流法的时间主要消耗在提取光流,例如用CPU提取光流每帧需要360ms,即使用K80 GPU每帧也需要60ms。3D卷积的时间主要消耗在卷积的过程,这是由于3D卷积的网络计算量远远大于2D卷积。
发明内容
发明目的:提供一种高效运动互补神经网络系统,以解决上述问题。
技术方案:
一种高效运动互补神经网络系统,
定长累计运动矢量模块,用于将运动矢量的累计到它所对应的原始帧,而累计的帧数固定长度,以提高运动矢量的清晰度和表达能力;
均衡运动策略模块,用于将视频分成原始帧和运动矢量两部分,所述原始帧存储少量图像,所述运动矢量存储帧间运动信息,根据用户对视频提取的精度要求确定运动矢量的提取长度,对视频进行分段,提取长度越短视频处理的精度越高,将运动矢量累计到视频对应的原始帧的位置上,同时对累计的帧数进行长度固定,在视频编码格式中自动保存运动矢量信息;在原始帧流上采用较大的分辨率,在运动矢量流上采用较小的分辨率。
一种高效运动互补神经网络系统,包括视频读取单元、视频类别单元和神经网络补充单元,针对双流法和3D卷积法两种视频提取的方法进行了优化,可以做到提高计算光流的效率,缩小网络计算量,提升视频分类的效率;
视频读取单元,对输入的视频进行读取,进一步获取网络等输入源中对视频的文字描述信息,为视频的初步分类进行数据搜集;
视频类别单元,在视频提取源的描述信息下,对输入的视频的类别进行初步的判定,在扩充视频类别的数据库的同时,可以通过视频类别的最终判定,修正神经网络的判定结果,提高神经网络的学习能力;
神经网络补充单元,其特征在于,内部的两个模块分别针对计算光流的效率和网络计算量进行优化,缩短视频分类的时间,具体步骤为:
步骤1、将视频转化成编码格式;
步骤2、使用定长累计运动矢量法加速光流计算;
步骤3、使用均衡运动法加速网络计算。
根据本发明的一个方面,所述神经网络补充单元通过定长累计运动矢量法来加速光流计算,通过均衡运动法来加速网络计算,这两种方法在使用小计算量的前提下,可以提取到具有很强表达能力和互补性的运动信息;将二者结合,可以实现运动信息的互补建模,缩短视频分类的计算时间,提高视频分类的计算精度。
根据本发明的一个方面,所述神经网络补充单元的定长累计运动矢量法可以通过设置定长对视频进行分段提取数据,加速光流计算的过程,具体步骤为:
步骤S1、将视频分成原始帧和运动矢量两部分,所述原始帧存储少量图像,所述运动矢量存储帧间运动信息;
步骤S2、根据用户对视频提取的精度要求确定运动矢量的提取长度,对视频进行分段,提取长度越短视频处理的精度越高;
步骤S3、将运动矢量累计到视频对应的原始帧的位置上,同时对累计的帧数进行长度固定;
步骤S4、在视频编码格式中自动保存运动矢量信息。
根据本发明的一个方面,所述神经网络补充单元的均衡运动法针对所述原始帧和所述运动矢量两部分使用不同分辨率进行提取,从而缩小网络计算量,具体步骤为:
步骤1、使用均衡运动法来调节原始帧流和运动矢量流之间的比例关系,提高网络计算的效率;
步骤11、降低运动矢量流的分辨率;
步骤12、保持对原始帧流较大的分辨率,从而保证视频的识别精度;
步骤2、保证运动矢量流的数据计算量占用整个视频的数据计算量的百分之十及以下,对网络贡献量达到百分之三到百分之四的精度水平。
根据本发明的一个方面,所述视频读取单元针对输入的视频进行长度和精度上的预处理,保证后续光流计算和视频分帧的流畅性。
根据本发明的一个方面,所述视频读取单元对输入的视频相关的文字描述信息进行录入,进一步在神经网络中学习并提取关键字,根据关键字、关键词对视频进行初步分类。
根据本发明的一个方面,所述视频类别单元得到输入视频的初步类别判定之后,扩充对应类别的视频数据库,如果初步判定结果和最终视频划分类别不同,则以最终的类别划分为主,神经网络学习并记录这一修正过程。
有益效果:本发明能够实现在视频分类的数据处理中提高光流计算速度和缩小网络计算量,通过这两种小计算量的方法实现了运动信息的互补建模,从而实现理论计算量和实测计算时间在双流法和3D卷积法上的优化,进一步提高了数据处理精度。
附图说明
图1是本发明的系统控制示意图。
图2是本发明的神经网络补充单元的定长累计运动矢量法计算过程示意图。
图3是本发明的神经网络补充单元的均衡运动法的分辨率分配示意图。
图4是本发明神经网络补充单元的工作流程示意图。
图5是本发明加速光流计算的工作流程示意图。
具体实施方式
如图1所示,在该实施例中,一种高效运动互补神经网络系统,包括视频读取单元、视频类别单元和神经网络补充单元,针对双流法和3D卷积法两种视频提取的方法进行了优化,可以做到提高计算光流的效率,缩小网络计算量,提升视频分类的效率;
视频读取单元,对输入的视频进行读取,进一步获取网络等输入源中对视频的文字描述信息,为视频的初步分类进行数据搜集;
视频类别单元,在视频提取源的描述信息下,对输入的视频的类别进行初步的判定,在扩充视频类别的数据库的同时,可以通过视频类别的最终判定,修正神经网络的判定结果,提高神经网络的学习能力;
神经网络补充单元,其特征在于,内部的两个模块分别针对计算光流的效率和网络计算量进行优化,缩短视频分类的时间,具体步骤为:
步骤1、将视频转化成编码格式;
步骤2、使用定长累计运动矢量法加速光流计算;
步骤3、使用均衡运动法加速网络计算。
在进一步的实施例中,所述神经网络补充单元通过定长累计运动矢量法来加速光流计算,通过均衡运动法来加速网络计算,这两种方法在使用小计算量的前提下,可以提取到具有很强表达能力和互补性的运动信息;将二者结合,可以实现运动信息的互补建模,缩短视频分类的计算时间,提高视频分类的计算精度。
在进一步的实施例中,所述神经网络补充单元的定长累计运动矢量法可以通过设置定长对视频进行分段提取数据,加速光流计算的过程,具体步骤为:
步骤S1、将视频分成原始帧和运动矢量两部分,所述原始帧存储少量图像,所述运动矢量存储帧间运动信息;
步骤S2、根据用户对视频提取的精度要求确定运动矢量的提取长度,对视频进行分段,提取长度越短视频处理的精度越高;
步骤S3、将运动矢量累计到视频对应的原始帧的位置上,同时对累计的帧数进行长度固定;
步骤S4、在视频编码格式中自动保存运动矢量信息。
在更进一步的实施例中,如图2所示,述累计运动矢量法通过将运动矢量直接累计到对应的原始帧上,解决了因为运动矢量信息粗糙和模糊导致数据提取效果不佳的问题,提高了运动矢量的清晰度和表达能力。
在进一步的实施例中,所述神经网络补充单元的均衡运动法针对所述原始帧和所述运动矢量两部分使用不同分辨率进行提取,从而缩小网络计算量,具体步骤为:
步骤1、使用均衡运动法来调节原始帧流和运动矢量流之间的比例关系,提高网络计算的效率;
步骤11、降低运动矢量流的分辨率;
步骤12、保持对原始帧流较大的分辨率,从而保证视频的识别精度;
步骤2、保证运动矢量流的数据计算量占用整个视频的数据计算量的百分之十及以下,对网络贡献量达到百分之三到百分之四的精度水平。
在更进一步的实施例中,如图3所示,所述均衡运动法对运动矢量流进行低分辨率的提取,足够保留相当的识别精度,因为运动矢量流对分辨率非常不敏感,这种均衡方法较好地完成了网络计算量的分配。
在进一步的实施例中,所述视频读取单元针对输入的视频进行长度和精度上的预处理,保证后续光流计算和视频分帧的流畅性。
在进一步的实施例中,所述视频读取单元对输入的视频相关的文字描述信息进行录入,进一步在神经网络中学习并提取关键字,根据关键字、关键词对视频进行初步分类。
在进一步的实施例中,所述视频类别单元得到输入视频的初步类别判定之后,扩充对应类别的视频数据库,如果初步判定结果和最终视频划分类别不同,则以最终的类别划分为主,神经网络学习并记录这一修正过程。
总之,本发明具有以下优点:使用定长累计运动矢量的方法,可以解决因为运动矢量信息粗糙模糊而造成数据精确度低的问题,提高了视频提取时运动矢量的清晰度和表达能力;进一步,针对运动矢量流和原始帧流采用不同分辨率,合理分配了网络计算的比重,提高了网络计算的速率。本发明整体上针对目前通用的双流法和3D卷积法进行了两方面的提升,二者计算小,但互补程度高,完成了视频分类的优化,提升了视频提取和分类的速度。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。

Claims (5)

1.一种高效运动互补神经网络系统,其特征在于,包括:视频读取单元、视频类别单元和神经网络补充单元,针对双流法和3D卷积法两种视频提取的方法进行了优化,可以做到提高计算光流的效率,缩小网络计算量,提升视频分类的效率;
视频读取单元,对输入的视频进行读取,进一步获取网络等输入源中对视频的文字描述信息,为视频的初步分类进行数据搜集;
视频类别单元,在视频提取源的描述信息下,对输入的视频的类别进行初步的判定,在扩充视频类别的数据库的同时,可以通过视频类别的最终判定,修正神经网络的判定结果,提高神经网络的学习能力;
神经网络补充单元,其内部的定长累计运动矢量模块和均衡运动策略模块分别针对计算光流的效率和网络计算量进行优化,缩短视频分类的时间,具体步骤为:
步骤1、将视频转化成编码格式;
步骤2、使用定长累计运动矢量法加速光流计算;
步骤3、使用均衡运动法加速网络计算;
所述定长累计运动矢模块,用于将运动矢量的累计到它所对应的原始帧,而累计的帧数固定长度,以提高运动矢量的清晰度和表达能力;
所述均衡运动策略模块,用于将视频分成原始帧和运动矢量两部分,所述原始帧存储少量图像,所述运动矢量存储帧间运动信息,根据用户对视频提取的精度要求确定运动矢量的提取长度,对视频进行分段,提取长度越短视频处理的精度越高,将运动矢量累计到视频对应的原始帧的位置上,同时对累计的帧数进行长度固定,在视频编码格式中自动保存运动矢量信息;在原始帧流上采用较大的分辨率,在运动矢量流上采用较小的分辨率;
所述神经网络补充单元的均衡运动法针对所述原始帧和所述运动矢量两部分使用不同分辨率进行提取,从而缩小网络计算量,具体步骤为:
步骤3.1、使用均衡运动法来调节原始帧流和运动矢量流之间的比例关系,提高网络计算的效率;
步骤3.11、降低运动矢量流的分辨率;
步骤3.12、保持对原始帧流较大的分辨率,从而保证视频的识别精度;
步骤3.2、保证运动矢量流的数据计算量占用整个视频的数据计算量的百分之十及以下,对网络贡献量达到百分之三到百分之四的精度水平。
2.根据权利要求1所述的一种高效运动互补神经网络系统,其特征在于,所述神经网络补充单元的定长累计运动矢量法可以通过设置定长对视频进行分段提取数据,加速光流计算的过程,具体步骤为:
步骤2.1、将视频分成原始帧和运动矢量两部分,所述原始帧存储少量图像,所述运动矢量存储帧间运动信息;
步骤2.2、根据用户对视频提取的精度要求确定运动矢量的提取长度,对视频进行分段,提取长度越短视频处理的精度越高;
步骤2.3、将运动矢量累计到视频对应的原始帧的位置上,同时对累计的帧数进行长度固定;
步骤2.4、在视频编码格式中自动保存运动矢量信息。
3.根据权利要求1所述的一种高效运动互补神经网络系统,其特征在于,所述视频读取单元针对输入的视频进行长度和精度上的预处理,保证后续光流计算和视频分帧的流畅性。
4.根据权利要求1所述的一种高效运动互补神经网络系统,其特征在于,所述视频读取单元对输入的视频相关的文字描述信息进行录入,进一步在神经网络中学习并提取关键字,根据关键字、关键词对视频进行初步分类。
5.根据权利要求1所述的一种高效运动互补神经网络系统,其特征在于,所述视频类别单元得到输入视频的初步类别判定之后,扩充对应类别的视频数据库,如果初步判定结果和最终视频划分类别不同,则以最终的类别划分为主,神经网络学习并记录这一修正过程。
CN202010012178.3A 2020-01-07 2020-01-07 一种高效运动互补神经网络系统 Active CN111104553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010012178.3A CN111104553B (zh) 2020-01-07 2020-01-07 一种高效运动互补神经网络系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010012178.3A CN111104553B (zh) 2020-01-07 2020-01-07 一种高效运动互补神经网络系统

Publications (2)

Publication Number Publication Date
CN111104553A CN111104553A (zh) 2020-05-05
CN111104553B true CN111104553B (zh) 2023-12-12

Family

ID=70425584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010012178.3A Active CN111104553B (zh) 2020-01-07 2020-01-07 一种高效运动互补神经网络系统

Country Status (1)

Country Link
CN (1) CN111104553B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966104A (zh) * 2015-06-30 2015-10-07 孙建德 一种基于三维卷积神经网络的视频分类方法
WO2017107188A1 (zh) * 2015-12-25 2017-06-29 中国科学院深圳先进技术研究院 视频分类快速识别的方法及装置
WO2018019126A1 (zh) * 2016-07-29 2018-02-01 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN110110143A (zh) * 2019-04-15 2019-08-09 厦门网宿有限公司 一种视频分类方法及装置
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966104A (zh) * 2015-06-30 2015-10-07 孙建德 一种基于三维卷积神经网络的视频分类方法
WO2017107188A1 (zh) * 2015-12-25 2017-06-29 中国科学院深圳先进技术研究院 视频分类快速识别的方法及装置
WO2018019126A1 (zh) * 2016-07-29 2018-02-01 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN110188239A (zh) * 2018-12-26 2019-08-30 北京大学 一种基于跨模态注意力机制的双流视频分类方法和装置
CN110110143A (zh) * 2019-04-15 2019-08-09 厦门网宿有限公司 一种视频分类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Du Tran等.Learning Spatiotemporal Features with 3D Convolutional Networks.《Computer Vision and Pattern Recognition》.2015,全文. *
Karen Simonyan等.Two-Stream Convolutional Networks for Action Recognition in Videos.《Computer Vision and Pattern Recognition》.2014,全文. *
Limin Wang等.Temporal Segment Networks: Towards Good Practices for Deep Action Recognition.《Conference: ECCV 2016》.2016,正文第3节,图1. *

Also Published As

Publication number Publication date
CN111104553A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
Casser et al. Unsupervised monocular depth and ego-motion learning with structure and semantics
CN107679462B (zh) 一种基于小波的深度多特征融合分类方法
CN111126472A (zh) 一种基于ssd改进的目标检测方法
CN106875437B (zh) 一种面向rgbd三维重建的关键帧提取方法
CN112733919B (zh) 基于空洞卷积和多尺度多分支的图像语义分割方法及系统
CN113657560B (zh) 基于节点分类的弱监督图像语义分割方法及系统
CN110706269B (zh) 一种基于双目视觉slam的动态场景密集建模方法
CN111768388A (zh) 一种基于正样本参考的产品表面缺陷检测方法及系统
CN109614933B (zh) 一种基于确定性拟合的运动分割方法
CN107657625A (zh) 融合时空多特征表示的无监督视频分割方法
CN110598698B (zh) 基于自适应区域建议网络的自然场景文本检测方法和系统
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN109657538B (zh) 基于上下文信息指导的场景分割方法和系统
CN114140672A (zh) 一种应用于雨雪天气场景下多传感器数据融合的目标检测网络系统及方法
CN112183649A (zh) 一种用于对金字塔特征图进行预测的算法
CN112686233B (zh) 基于轻量化边缘计算的车道线识别方法及装置
CN113033283B (zh) 一种改进的视频分类系统
CN110580462B (zh) 一种基于非局部网络的自然场景文本检测方法和系统
CN113901928A (zh) 一种基于动态超分辨率的目标检测方法、输电线路部件检测方法及系统
CN111291663B (zh) 一种利用时空信息的快速视频目标物体分割方法
CN111104553B (zh) 一种高效运动互补神经网络系统
CN112085767A (zh) 一种基于深度光流跟踪的客流统计方法及系统
CN110853040B (zh) 一种基于超分辨率重建的图像协同分割方法
CN113469254A (zh) 基于目标检测模型的目标检测方法及系统
CN113469286A (zh) 一种基于区域卷积神经网络的航天器多局部构件检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant