CN110458115A - 一种基于时序的多帧集成目标检测算法 - Google Patents
一种基于时序的多帧集成目标检测算法 Download PDFInfo
- Publication number
- CN110458115A CN110458115A CN201910749550.6A CN201910749550A CN110458115A CN 110458115 A CN110458115 A CN 110458115A CN 201910749550 A CN201910749550 A CN 201910749550A CN 110458115 A CN110458115 A CN 110458115A
- Authority
- CN
- China
- Prior art keywords
- characteristic tensor
- timing
- neural network
- target detection
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于时序的多帧集成目标检测算法,包括:S1、输入连续若干帧图片,得到包含若干张图片的序列;S2、提取步骤S1中所得序列的图像特征,得到待检测对象空间信息的特征张量;S3、根据步骤S2中所得特征张量,提取若干帧图片中蕴含的时序信息,得到新的蕴含时序信息的特征张量;S4、基于特征金字塔网络,对步骤S3中所得特征张量进行训练,输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度;S5、根据输出的包围盒位置以及置信度,在每帧图片中画出包围待检测对象的包围盒、类标签和置信度。本发明充分利用连续的多帧图像间存在的时序信息来提高目标检测的准确率,并结合FPN网络解决了小目标难以识别的问题。
Description
技术领域
本发明属于计算机视觉的技术领域,具体涉及一种基于时序的多帧集成目标检测算法。
背景技术
目标检测一直是计算机视觉中的一个重要问题,目标检测就是讲目标定位与目标分类结合起来,利用图像处理技术、机器学习等多方面的知识,从图像(视频)中定位感兴趣的对象。目标分类负责判断输入的图像中是否包含所需物体(object),目标定位则负责表示目标物体的位置,并用外接矩形框定位。这需要计算机在准确判断目标类别的同时,还要给出每个目标相对精确的位置。随着计算机技术的迅猛发展,目标检测已在人脸识别、行人跟踪、车牌识别、无人驾驶等领域获得了广泛的应用。
目前主流的目标检测算法都是基于CNN的,目前主流的算法主要存在以下几方面的问题:
1、不能很好的解决目标检测中的多尺度问题,使得对小目标的识别率很低。
2、较少的考虑图像前后帧之间的时序关系,大多是只考虑了待检测物体在图像中的位置信息。
3、模型训练时间太长,对硬件要求太高。
发明内容
本发明的目的在于针对现有技术中的上述不足,提供一种基于时序的多帧集成目标检测算法,以解决小目标难以识别的问题。
为达到上述目的,本发明采取的技术方案是:
一种基于时序的多帧集成目标检测算法,其包括:
S1、输入连续若干帧图片,得到包含若干张图片的序列;
S2、提取步骤S1中所得序列的图像特征,得到待检测对象空间信息的特征张量;
S3、根据步骤S2中所得特征张量,提取若干帧图片中蕴含的时序信息,得到新的蕴含时序信息的特征张量;
S4、基于特征金字塔网络,对步骤S3中所得特征张量进行训练,输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度;
S5、根据输出的包围盒位置以及置信度,在每帧图片中画出包围待检测对象的包围盒、类标签和置信度。
优选地,步骤S2具体包括:
将得到的若干张图片序列输入ResNet-50神经网络中提取图像特征,得到包含待检测对象的空间信息的C3、C4、C5层特征张量。
优选地,步骤S2中,输入为n*m*m*3的张量,其中,第一维表示图片数量,第二、三维表示图片分辨率,第四维表示通道数。
优选地,步骤S3的具体包括:
将C3、C4、C5层的特征张量分别输入到1个双向CLSTM神经网络中,提取若干帧图片中蕴含的时序信息,得到新的蕴含时序信息的C3、C4、C5层特征张量。
优选地,每一个双向LSTM神经网络包括一个前向神经网络和一个反向神经网络,前向和反向神经网络均包括若干个神经元。
优选地,前向神经网络中,第1,2…n帧图像特征作为对应的第1,2…n个神经元的输入;反向神经网络中,第n,n-1…1帧图像特征作为对应的第1,2…n个神经元的输入;正向神经网络和反向神经网络输出的特征张量的通道数为输入的一半,再将正向和反向神经网络的特征张量进行通道拼接,得到和输入的特征张量一样的通道数,不改变输入的特征张量的维度。
优选地,步骤S4具体包括:
将经过双向CLSTM计算出的C3、C4、C5层特征张量输入到特征金字塔网络中进行训练,输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度。
本发明提供的基于时序的多帧集成目标检测算法,具有以下有益效果:
本发明充分利用连续的多帧图像间存在的时序信息来提高目标检测的准确率,并结合FPN网络解决了小目标难以识别的问题。除此,本发明在检测时同时考虑图像之间的时序信息和空间位置信息,大幅度提高目标检测识别的正确率和减少模型训练的时间。
附图说明
图1为提取图像时序特征。
图2为双向LSTM提取图像时序特征。
图3为目标检测框架。
图4为目标检测总体框架
图5为目标检测效果图
图6为流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
根据本申请的一个实施例,参考图6,本方案的基于时序的多帧集成目标检测算法,包括:
S1、输入连续8帧图片,得到包含8张图片的序列;
S2、提取步骤S1中所得序列的图像特征,得到待检测对象空间信息的特征张量;
S3、根据步骤S2中所得特征张量,提取8帧图片中蕴含的时序信息,得到新的蕴含时序信息的特征张量;
S4、基于特征金字塔网络,对步骤S3中所得特征张量进行训练,输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度;
S5、根据输出的包围盒位置以及置信度,在每帧图片中画出包围待检测对象的包围盒、类标签和置信度。
根据本申请的一个实施例,以下对步骤S1至S5进行详细描述。
S1、参考图1,输入包含待检测对象且具备时序关系的连续8帧图片,得到包含8张图片的序列,其具体步骤包括:
首先输入包含待检测图像且具备时序关系(即存在前后关系)的连续8帧图片,8张图片的分辨率均为288*288,分辨率可改变。每张图片的通道数为3,8帧图片即可转变为8*288*288*3的张量,其中第一维表示图片数量,第二、三维表示图片分辨率,第四维表示图片通道数。
S2、参考图1,将得到的图片序列输入到一个ResNet-50神经网络中提取图像特征,得到包含待检测对象的空间信息的C3、C4、C5层(即ResNet-50神经网络中第三、第四、第五层)特征张量,其具体步骤包括:
将步骤S1中所得张量输入到ResNet-50神经网络中提取每张图像的空间信息,得到包含待检测对象的空间信息的C3、C4、C5层(即ResNet-50神经网络中第三、第四、第五层)特征张量,C3、C4、C5层特征张量维度为8*36*36*512、8*18*18*1024和8*9*9*2048。
S3、参考图2,把C3、C4、C5层的特征张量分别输入到3个双向CLSTM神经网络中提取8帧图片中蕴含的时序信息,得到新的蕴含时序信息的C3、C4、C5层特征张量,其具体步骤包括:
将包含时序信息的C3、C4、C5层特征张量分别输入到一个双向LSTM神经网络中提取连续8帧图像间的时序特征。每一个双向LSTM神经网络由一个前向神经网络和一个反向神经网络组成,前向和反向神经网络均由8个神经元组成,其区别在于输入的顺序不同。
在前向神经网络中,第1,2…8帧图像特征作为对应的第1,2…8个神经元的输入;而在反向神经网络中,第8,7…1帧图像特征作为对应的第1,2…8个神经元的输入。正向神经网络和反向神经网络输出的特征张量的通道数为输入的一半(如输入8*9*9*2048的特征张量,输出为8*9*9*1024),再将正向和反向神经网络的特征张量进行通道拼接,得到和输入的特征张量一样的通道数,从而不改变输入的特征张量的维度。
S4、参考图3和图4,将经过双向CLSTM计算出的C3、C4、C5层特征张量输入到一个特征金字塔网络(FPN)中进行训练,输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度。
S5、根据输出的包围盒位置以及置信度,在每帧图片中画出包围待检测对象的包围盒、类标签和置信度。
参考图5,本发明充分利用连续的多帧图像间存在的时序信息来提高目标检测的准确率,并结合FPN网络解决了小目标难以识别的问题。除此,本发明在检测时同时考虑图像之间的时序信息和空间位置信息,大幅度提高目标检测识别的正确率和减少模型训练的时间。
虽然结合附图对发明的具体实施方式进行了详细地描述,但不应理解为对本专利的保护范围的限定。在权利要求书所描述的范围内,本领域技术人员不经创造性劳动即可做出的各种修改和变形仍属本专利的保护范围。
Claims (7)
1.一种基于时序的多帧集成目标检测算法,其特征在于,包括:
S1、输入连续若干帧图片,得到包含若干张图片的序列;
S2、提取步骤S1中所得序列的图像特征,得到待检测对象空间信息的特征张量;
S3、根据步骤S2中所得特征张量,提取若干帧图片中蕴含的时序信息,得到新的蕴含时序信息的特征张量;
S4、基于特征金字塔网络,对步骤S3中所得特征张量进行训练,输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度;
S5、根据输出的包围盒位置以及置信度,在每帧图片中画出包围待检测对象的包围盒、类标签和置信度。
2.根据权利要求1所述的基于时序的多帧集成目标检测算法,其特征在于:所述步骤S2具体包括:
将得到的若干张图片序列输入ResNet-50神经网络中提取图像特征,得到包含待检测对象的空间信息的C3、C4、C5层特征张量。
3.根据权利要求2所述的基于时序的多帧集成目标检测算法,其特征在于:所述步骤S2中,输入为n*m*m*3的张量,其中,第一维表示图片数量,第二、三维表示图片分辨率,第四维表示通道数。
4.根据权利要求1所述的基于时序的多帧集成目标检测算法,其特征在于:所述步骤S3的具体包括:
将C3、C4、C5层的特征张量分别输入到1个双向CLSTM神经网络中,提取若干帧图片中蕴含的时序信息,得到新的蕴含时序信息的C3、C4、C5层特征张量。
5.根据权利要求4所述的基于时序的多帧集成目标检测算法,其特征在于:所述每一个双向LSTM神经网络包括一个前向神经网络和一个反向神经网络,前向和反向神经网络均包括若干个神经元。
6.根据权利要求5所述的基于时序的多帧集成目标检测算法,其特征在于:所述前向神经网络中,第1,2…n帧图像特征作为对应的第1,2…n个神经元的输入;反向神经网络中,第n,n-1…1帧图像特征作为对应的第1,2…n个神经元的输入;正向神经网络和反向神经网络输出的特征张量的通道数为输入的一半,再将正向和反向神经网络的特征张量进行通道拼接,得到和输入的特征张量一样的通道数,不改变输入的特征张量的维度。
7.根据权利要求1所述的基于时序的多帧集成目标检测算法,其特征在于:所述步骤S4具体包括:
将经过双向CLSTM计算出的C3、C4、C5层特征张量输入到特征金字塔网络中进行训练,输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910749550.6A CN110458115B (zh) | 2019-08-14 | 2019-08-14 | 一种基于时序的多帧集成目标检测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910749550.6A CN110458115B (zh) | 2019-08-14 | 2019-08-14 | 一种基于时序的多帧集成目标检测算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110458115A true CN110458115A (zh) | 2019-11-15 |
CN110458115B CN110458115B (zh) | 2021-08-31 |
Family
ID=68486565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910749550.6A Active CN110458115B (zh) | 2019-08-14 | 2019-08-14 | 一种基于时序的多帧集成目标检测算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110458115B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539458A (zh) * | 2020-04-02 | 2020-08-14 | 咪咕文化科技有限公司 | 特征图处理方法、装置、电子设备及存储介质 |
CN111860442A (zh) * | 2020-07-31 | 2020-10-30 | 浙江工业大学 | 一种基于时序特征共享结构的视频目标检测方法 |
CN113255761A (zh) * | 2021-05-21 | 2021-08-13 | 深圳共形咨询企业(有限合伙) | 反馈神经网络系统及其训练方法、装置及计算机设备 |
CN114379544A (zh) * | 2021-12-31 | 2022-04-22 | 北京华玉通软科技有限公司 | 一种基于多传感器前融合的自动泊车系统、方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875456A (zh) * | 2017-05-12 | 2018-11-23 | 北京旷视科技有限公司 | 目标检测方法、目标检测装置和计算机可读存储介质 |
CN108875763A (zh) * | 2017-05-17 | 2018-11-23 | 北京旷视科技有限公司 | 目标检测方法和目标检测装置 |
CN109800689A (zh) * | 2019-01-04 | 2019-05-24 | 西南交通大学 | 一种基于时空特征融合学习的目标跟踪方法 |
-
2019
- 2019-08-14 CN CN201910749550.6A patent/CN110458115B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875456A (zh) * | 2017-05-12 | 2018-11-23 | 北京旷视科技有限公司 | 目标检测方法、目标检测装置和计算机可读存储介质 |
CN108875763A (zh) * | 2017-05-17 | 2018-11-23 | 北京旷视科技有限公司 | 目标检测方法和目标检测装置 |
CN109800689A (zh) * | 2019-01-04 | 2019-05-24 | 西南交通大学 | 一种基于时空特征融合学习的目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
TSUNG-YI LIN ETC.: ""Feature Pyramid Network for Object Detection"", 《ARXIV:1612.03144V2[CS.CV]》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111539458A (zh) * | 2020-04-02 | 2020-08-14 | 咪咕文化科技有限公司 | 特征图处理方法、装置、电子设备及存储介质 |
CN111539458B (zh) * | 2020-04-02 | 2024-02-27 | 咪咕文化科技有限公司 | 特征图处理方法、装置、电子设备及存储介质 |
CN111860442A (zh) * | 2020-07-31 | 2020-10-30 | 浙江工业大学 | 一种基于时序特征共享结构的视频目标检测方法 |
CN111860442B (zh) * | 2020-07-31 | 2022-11-11 | 浙江工业大学 | 一种基于时序特征共享结构的视频目标检测方法 |
CN113255761A (zh) * | 2021-05-21 | 2021-08-13 | 深圳共形咨询企业(有限合伙) | 反馈神经网络系统及其训练方法、装置及计算机设备 |
CN114379544A (zh) * | 2021-12-31 | 2022-04-22 | 北京华玉通软科技有限公司 | 一种基于多传感器前融合的自动泊车系统、方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110458115B (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110458115A (zh) | 一种基于时序的多帧集成目标检测算法 | |
CN109508671B (zh) | 一种基于弱监督学习的视频异常事件检测系统及其方法 | |
CN109284733B (zh) | 一种基于yolo和多任务卷积神经网络的导购消极行为监控方法 | |
WO2021238019A1 (zh) | 基于Ghost卷积特征融合神经网络实时车流量检测系统及方法 | |
CN107527337B (zh) | 一种基于深度学习的视频对象移除篡改检测方法 | |
CN111242127B (zh) | 基于非对称卷积的具有粒度级多尺度特性的车辆检测方法 | |
US20120288189A1 (en) | Image processing method and image processing device | |
CN105354581B (zh) | 融合颜色特征与卷积神经网络的彩色图像特征提取方法 | |
CN109993269B (zh) | 基于注意力机制的单张图像人群计数方法 | |
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN111738344A (zh) | 一种基于多尺度融合的快速目标检测方法 | |
Savardi et al. | Shot scale analysis in movies by convolutional neural networks | |
CN111507275B (zh) | 一种基于深度学习的视频数据时序信息提取方法及装置 | |
US20240265703A1 (en) | Method and system for recognizing human action in apron based on thermal infrared vision | |
CN107948586A (zh) | 基于视频拼接的跨区域运动目标检测方法和装置 | |
CN112446308B (zh) | 基于语义增强的多尺度特征金字塔融合的行人检测方法 | |
Zhang et al. | Training efficient saliency prediction models with knowledge distillation | |
Liu et al. | D-CenterNet: An anchor-free detector with knowledge distillation for industrial defect detection | |
CN117409481A (zh) | 一种基于2dcnn和3dcnn的动作检测方法 | |
CN110147724B (zh) | 用于检测视频中的文本区域的方法、装置、设备以及介质 | |
Wang et al. | SLMS-SSD: Improving the balance of semantic and spatial information in object detection | |
CN105404682B (zh) | 一种基于数字图像内容的图书检索方法 | |
CN107133964A (zh) | 一种基于Kinect的抠像方法 | |
CN111881914A (zh) | 一种基于自学习阈值的车牌字符分割方法及系统 | |
CN115578364A (zh) | 基于混合注意力与调和因子的微弱目标检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |