CN112651346A - 一种基于深度学习的流媒体视频识别与检测方法 - Google Patents
一种基于深度学习的流媒体视频识别与检测方法 Download PDFInfo
- Publication number
- CN112651346A CN112651346A CN202011592568.9A CN202011592568A CN112651346A CN 112651346 A CN112651346 A CN 112651346A CN 202011592568 A CN202011592568 A CN 202011592568A CN 112651346 A CN112651346 A CN 112651346A
- Authority
- CN
- China
- Prior art keywords
- network
- deep learning
- convolution
- streaming media
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 43
- 238000013135 deep learning Methods 0.000 title claims abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000005070 sampling Methods 0.000 claims abstract description 23
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 3
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000009466 transformation Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及深度学习与人工智能领域,特别涉及流视频监测方法。本发明将可变形卷积网络应用到基于one-stage的目标检测网络中,提出多尺度特征融合与可变形卷积的目标检测网络结构,使用可变形的卷积结构代替普通的卷积操作,增加模型对物体几何形变的学习能力,还釆用多尺度特征图进行上釆样与低级特征图融合提取目标位置的技巧,增加模型对小目标物体和密集型物体的检测能力,极大改进了其它目标检测模型在检测精度与速度上的缺陷。
Description
技术领域
本发明涉及深度学习与人工智能领域,特别涉及流视频监测方法。
背景技术
目标检测是计算机视觉领域的一个经典的任务,是进行场景内容分析和理解等高级视觉任务的基本前提。设备巡检中,视频中的目标检测任务更是和业务需求贴近,现实巡检过程中,无人机智能视频监控、机器人导航等应用场景都需要对视频进行处理,对视频中的目标进行检测。视频中的目标检测需要在静态图像目标检测的基础上对目标因运动产生的各种变化进行处理,这是其中的难点。
传统的目标检测方法主要使用方向梯度直方图(Histogram of OrientedGradient,HOG)、尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)特征对滑动窗口进行判别,主要代表方法为部位形变模型(Deformable Part Model,DPM)及其扩展。由于滑动窗口需要大量的计算开销,基于候选窗口的目标检测方法后来居上,目前较通用的候选窗口产生方法包括选择提取(Selective Search)、边缘窗口(Edge-Box)等。
基于视频的目标检测任务相比于静态图像的目标检测任务,目标的外观、形状、尺度等属性会随着目标的运动发生变化,在检测过程中如何保持时间顺序上目标的一致性从而不会使目标在中间某帧丢失,这是视频目标检测任务的主要难点。由于视频比静态图像多了一个时间维度上的信息,所以很多视频目标检测算法利用该信息来增强检测性能。
发明内容
本发明基于YOLO模型对视频中每一帧进行目标检测,然后在使用跟踪算法对目标框进行跟踪,使用跟踪的结果对之前的检测结果进行修正,保证了检测的准确性和鲁棒性。为了实现上述目的,本发明采用以下技术方案:可变形卷积网络应用到基于one-stage的目标检测网络中,打破传统卷积网络中卷积核固定的几何形状,増强卷积结构对图像特征几何变换的建模能力。
用带有偏移的采样代替原来的固定位置,该偏移的偏移量可以通过最终端到端的网络训练得到,不需要额外的特定变换规律的监督。普通的卷积操作用规则的网格R在输入特征映射X上进行采样,并对w加权的采样值求和,其中网格式定义了感受野的大小和扩张。
一个扩张大小为1的3*3卷积核可以定义如公式:
R={(-1,-1),(-1,0)(0,1),(1,1)}
对于每个输出Y(Po),都要从X上采样9个位置,这9个位置都在中心位置可向四周扩散得到的规则的网格形状,其中(-1,-1)代表左上角,(1,1)代表右下角。在该卷积下,对于输出特征映射X上的每个位置P。输出特征映射函数P如公式:
Y(Po)=(Pn')·X(Po+Pn)
变形卷积则支持在原本的上釆样位置上,以同样大小的输出向四周自由扩散,得到不规则形状的釆样点,如公式:
R(Po)=(Pn)-X(Po+Pn+△Pn)
因为低层卷积特征对图像的位置信息不够敏感,所以在网络结构相对靠后的,需要多尺度特征提取的网络层次上,即res9、resl7和res21层上分别增加了一层可变形的卷积网络结构。目的是为了在特征图上进行目标检测时,除了卷积结构本身对位置信息的贡献外,通过可变形卷积的方式改变釆样点的位置并学习釆样点的偏置,使得采样点位置能够随着图像内容的变化而变化。本发明应用可变形卷积网络提高了目标检测的精度,而且促进模型自己学习几何变换能力。
进一步的,本发明基于FPN(Feature Pyramid Network,FPN)网络的研究思路采用了高层特征通过上釆样和低层特征做融合,然后对每层进行独立预测的方法,追求在减少计算量的同时,更好的利用卷积神经网络下多尺度的特征图信息来精细化目标检测结果。
经过多层卷积网络的迭代运算,特征图会随着池化层的操作而逐渐变小。控制部分网络层特征的输出和输入大小一致,且分别将该部分网络定义为一个金字塔级别,然后选择每个阶段的最后一层输出作为特征图的参考。将每个等输出网络阶段的最后一残差结构的输出表示为{C3、C4、C5),对应于conv3、conv4和conv5的输出,并且输出尺度具有(52,26,13)倍关系的不同像素大小。考虑到内存占用和底层特征图含有较差的语义信息,放弃将convl、conv2层的输出包含在金字塔中。
自上而下的特征融合与横向连接:本步骤的目的是把更抽象、语义更强的高层特征图进行上取样,然后横向连接至上一层特征。通过采用最近邻上采样法或双线性插值法对高层特征做2倍的上釆样进行像素融合,在通道数方面,则可以使用1*1的卷积核保证通道大小一致性。在FPN网络中,这种特征结合的方式就是对应像素间的直接相加。
同构釆用卷积特征级联(concatenate)的方法对上采样操作后的特征进行融合。它通过增加与扩充通道数量的方式来扩展特征信息,而不是直接在像素之间进行加操作。
实际上,级联操作是信息通道的组合,这意味着图像本身的特征维数增加了。
在新增的特征中找到更多关于物体位置特征的信息。然而,直接在像素之间进行相加并不会改变特征的数量,只会向每个原始维度添加更多的信息。相比而言,特征级联的方式可以跳过这个过程(使用1*1卷积核来改变通道数,为特征图之间的像素加法做准备),但是像素之间直接进行加操作在后续的卷积操作中可能计算量更少。最后,实验证明,级联方式效果并不比直接相加法好多少(只提高了0.02的MAP值),但它使得网络结构更简单,更容易理解,本发明最后使用特征级联方法来构建目标检测网络。
对于残差深度网络结构,首先使用加法操作进行特征融合,通过添加1*1卷积核,生成双通道特征映射,与C4和C5层最后一层的前一层进行像素到像素的加和操作,就像FPN一样。然后尝试利用上釆样操作后的前一层与后一层C4或C5层的串联来实现特征通道级联操作。
基于FPN网络和可变形卷积网络的技巧,本发明提出多尺度特征融合与可变形卷积的目标检测网络结构,使用可变形的卷积结构代替普通的卷积操作,增加模型对物体几何形变的学习能力,还釆用多尺度特征图进行上釆样与低级特征图融合提取目标位置的技巧,增加模型对小目标物体和密集型物体的检测能力,极大改进了其它目标检测模型在检测精度与速度上的缺陷。
附图说明
图1为本发明的一种具体实施例数据处理流程图。
具体实施方式
下面结合附图,对本发明的技术方案做进一步解释说明。
本发明基于YOLO模型对视频中每一帧进行目标检测,然后在使用跟踪算法对目标框进行跟踪,使用跟踪的结果对之前的检测结果进行修正,保证了检测的准确性和鲁棒性。本发明的技术方案包括:可变形卷积网络应用到基于one-stage的目标检测网络中,用带有偏移的采样代替原来的固定位置,该偏移的偏移量可以通过最终端到端的网络训练得到,不需要额外的特定变换规律的监督。普通的卷积操作用规则的网格R在输入特征映射X上进行采样,并对w加权的采样值求和,其中网格式定义了感受野的大小和扩张。
一个扩张大小为1的3*3卷积核可以定义如公式:
R={(-1,-1),(-1,0)(0,1),(1,1)}
对于每个输出Y(Po),都要从X上采样9个位置,这9个位置都在中心位置可向四周扩散得到的规则的网格形状,其中(-1,-1)代表左上角,(1,1)代表右下角。在该卷积下,对于输出特征映射X上的每个位置P。输出特征映射函数P如公式:
Y(Po)=(Pn')·X(Po+Pn)
变形卷积则支持在原本的上釆样位置上,以同样大小的输出向四周自由扩散,得到不规则形状的釆样点,如公式:
R(Po)=(Pn)-X(Po+Pn+△Pn)
因为低层卷积特征对图像的位置信息不够敏感,所以在网络结构相对靠后的,需要多尺度特征提取的网络层次上,即res9、resl7和res21层上分别增加了一层可变形的卷积网络结构。目的是为了在特征图上进行目标检测时,除了卷积结构本身对位置信息的贡献外,通过可变形卷积的方式改变釆样点的位置并学习釆样点的偏置,使得采样点位置能够随着图像内容的变化而变化。本发明应用可变形卷积网络提高了目标检测的精度,而且促进模型自己学习几何变换能力。
进一步的,本发明基于FPN(Feature Pyramid Network,FPN)网络的研究思路采用了高层特征通过上釆样和低层特征做融合,然后对每层进行独立预测的方法,追求在减少计算量的同时,更好的利用卷积神经网络下多尺度的特征图信息来精细化目标检测结果。
经过多层卷积网络的迭代运算,特征图会随着池化层的操作而逐渐变小。控制部分网络层特征的输出和输入大小一致,且分别将该部分网络定义为一个金字塔级别,然后选择每个阶段的最后一层输出作为特征图的参考。将每个等输出网络阶段的最后一残差结构的输出表示为{C3、C4、C5),对应于conv3、conv4和conv5的输出,并且输出尺度具有(52,26,13)倍关系的不同像素大小。考虑到内存占用和底层特征图含有较差的语义信息,放弃将convl、conv2层的输出包含在金字塔中。
自上而下的特征融合与横向连接:本步骤的目的是把更抽象、语义更强的高层特征图进行上取样,然后横向连接至上一层特征。通过采用最近邻上采样法或双线性插值法对高层特征做2倍的上釆样进行像素融合,在通道数方面,则可以使用1*1的卷积核保证通道大小一致性。在FPN网络中,这种特征结合的方式就是对应像素间的直接相加。
同构釆用卷积特征级联(concatenate)的方法对上采样操作后的特征进行融合。它通过增加与扩充通道数量的方式来扩展特征信息,而不是直接在像素之间进行加操作。
实际上,级联操作是信息通道的组合,这意味着图像本身的特征维数增加了。在新增的特征中找到更多关于物体位置特征的信息。使用特征级联方法来构建目标检测网络。
对于残差深度网络结构,首先使用加法操作进行特征融合,通过添加1*1卷积核,生成双通道特征映射,与C4和C5层最后一层的前一层进行像素到像素的加和操作,就像FPN一样。然后尝试利用上釆样操作后的前一层与后一层C4或C5层的串联来实现特征通道级联操作。
基于FPN网络和可变形卷积网络的技巧,本发明提出多尺度特征融合与可变形卷积的目标检测网络结构,使用可变形的卷积结构代替普通的卷积操作,增加模型对物体几何形变的学习能力,还釆用多尺度特征图进行上釆样与低级特征图融合提取目标位置的技巧,增加模型对小目标物体和密集型物体的检测能力,极大改进了其它目标检测模型在检测精度与速度上的缺陷。
Claims (4)
1.一种基于深度学习的流媒体视频识别与检测方法,其特征在于:将可变形卷积网络应用到基于one-stage的目标检测网络中。
2.如权利要求1所述的一种基于深度学习的流媒体视频识别与检测方法,其特征在于:用偏移的采样代替传统卷积网络的固定采用,该偏移的采样的偏移量可以通过最终端到端的网络训练得到。
3.如权利要求2所述的一种基于深度学习的流媒体视频识别与检测方法,其特征在于:还包括多尺度特征融合。
4.如权利要求3所述的一种基于深度学习的流媒体视频识别与检测方法,其特征在于:所述多尺度特征融合的方法包括:经过多层卷积网络的迭代运算,特征图会随着池化层的操作而逐渐变小,控制部分网络层特征的输出和输入大小一致,且分别将该部分网络定义为一个金字塔级别,然后选择每个阶段的最后一层输出作为特征图的参考,将每个等输出网络阶段的最后一残差结构的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011592568.9A CN112651346A (zh) | 2020-12-29 | 2020-12-29 | 一种基于深度学习的流媒体视频识别与检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011592568.9A CN112651346A (zh) | 2020-12-29 | 2020-12-29 | 一种基于深度学习的流媒体视频识别与检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112651346A true CN112651346A (zh) | 2021-04-13 |
Family
ID=75363734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011592568.9A Pending CN112651346A (zh) | 2020-12-29 | 2020-12-29 | 一种基于深度学习的流媒体视频识别与检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112651346A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108564025A (zh) * | 2018-04-10 | 2018-09-21 | 广东电网有限责任公司 | 一种基于可变形卷积神经网络的红外图像物体识别方法 |
CN109409443A (zh) * | 2018-11-28 | 2019-03-01 | 北方工业大学 | 一种基于深度学习的多尺度可变形卷积网络目标检测方法 |
CN110264466A (zh) * | 2019-06-28 | 2019-09-20 | 广州市颐创信息科技有限公司 | 一种基于深度卷积神经网络的钢筋检测方法 |
CN110751214A (zh) * | 2019-10-21 | 2020-02-04 | 山东大学 | 一种基于轻量级可变形卷积的目标检测方法及系统 |
CN111126385A (zh) * | 2019-12-13 | 2020-05-08 | 哈尔滨工程大学 | 一种可变形活体小目标的深度学习智能识别方法 |
CN111738045A (zh) * | 2020-01-19 | 2020-10-02 | 中国科学院上海微系统与信息技术研究所 | 一种图像检测方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-29 CN CN202011592568.9A patent/CN112651346A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108564025A (zh) * | 2018-04-10 | 2018-09-21 | 广东电网有限责任公司 | 一种基于可变形卷积神经网络的红外图像物体识别方法 |
CN109409443A (zh) * | 2018-11-28 | 2019-03-01 | 北方工业大学 | 一种基于深度学习的多尺度可变形卷积网络目标检测方法 |
CN110264466A (zh) * | 2019-06-28 | 2019-09-20 | 广州市颐创信息科技有限公司 | 一种基于深度卷积神经网络的钢筋检测方法 |
CN110751214A (zh) * | 2019-10-21 | 2020-02-04 | 山东大学 | 一种基于轻量级可变形卷积的目标检测方法及系统 |
CN111126385A (zh) * | 2019-12-13 | 2020-05-08 | 哈尔滨工程大学 | 一种可变形活体小目标的深度学习智能识别方法 |
CN111738045A (zh) * | 2020-01-19 | 2020-10-02 | 中国科学院上海微系统与信息技术研究所 | 一种图像检测方法、装置、电子设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
包壮壮 等: "脱离预训练的多尺度目标检测网络模型", 计算机工程, vol. 46, no. 06, 15 June 2020 (2020-06-15), pages 248 - 255 * |
包壮壮 等: "脱离预训练的多尺度目标检测网络模型", 计算机工程, vol. 46, no. 06, pages 248 - 255 * |
范红超 等: "基于Anchor-free的交通标志检测", 地球信息科学学报, vol. 22, no. 01, 25 January 2020 (2020-01-25), pages 88 - 99 * |
谢颍晓 等: "基于时空采样网络的相关滤波目标跟踪算法", 国外电子测量技术, vol. 39, no. 01, pages 88 - 92 * |
邓睿哲 等: "遥感影像船舶检测的特征金字塔网络建模方法", 测绘学报, vol. 49, no. 06, pages 787 - 797 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111768432B (zh) | 基于孪生深度神经网络的动目标分割方法及系统 | |
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
CN111696110B (zh) | 场景分割方法及系统 | |
CN107633526B (zh) | 一种图像跟踪点获取方法及设备、存储介质 | |
CN113822314B (zh) | 图像数据处理方法、装置、设备以及介质 | |
CN108647694B (zh) | 基于上下文感知和自适应响应的相关滤波目标跟踪方法 | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN110163271B (zh) | 一种基于球面投影网格和球面卷积的全景影像目标检测方法 | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
CN107564009B (zh) | 基于深度卷积神经网络的室外场景多目标分割方法 | |
CN113076871A (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
CN111768415A (zh) | 一种无量化池化的图像实例分割方法 | |
CN110781980B (zh) | 目标检测模型的训练方法、目标检测方法及装置 | |
CN110310305B (zh) | 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置 | |
CN108734109B (zh) | 一种面向图像序列的视觉目标跟踪方法及系统 | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN112541491A (zh) | 基于图像字符区域感知的端到端文本检测及识别方法 | |
CN113516126A (zh) | 一种基于注意力特征融合的自适应阈值场景文本检测方法 | |
CN115410030A (zh) | 目标检测方法、装置、计算机设备及存储介质 | |
CN114742799A (zh) | 基于自监督异构网络的工业场景未知类型缺陷分割方法 | |
CN111444923A (zh) | 自然场景下图像语义分割方法和装置 | |
CN113850135A (zh) | 一种基于时间移位框架的动态手势识别方法及系统 | |
CN114170231A (zh) | 基于卷积神经网络的图像语义分割方法、装置及电子设备 | |
CN111914596A (zh) | 车道线检测方法、装置、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |