CN110717430A - 基于目标检测与rnn的长物体识别方法及识别系统 - Google Patents

基于目标检测与rnn的长物体识别方法及识别系统 Download PDF

Info

Publication number
CN110717430A
CN110717430A CN201910926985.3A CN201910926985A CN110717430A CN 110717430 A CN110717430 A CN 110717430A CN 201910926985 A CN201910926985 A CN 201910926985A CN 110717430 A CN110717430 A CN 110717430A
Authority
CN
China
Prior art keywords
video
target object
time sequence
target
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910926985.3A
Other languages
English (en)
Inventor
尹俊奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jushi Technology (shanghai) Co Ltd
Original Assignee
Jushi Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jushi Technology (shanghai) Co Ltd filed Critical Jushi Technology (shanghai) Co Ltd
Priority to CN201910926985.3A priority Critical patent/CN110717430A/zh
Publication of CN110717430A publication Critical patent/CN110717430A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于目标检测与RNN的长物体识别方法及识别系统,所述识别方法包括以下步骤:获取目标物体的视频,该视频包含所述目标物体从头至尾移动的影像;遍历所述视频的所有帧,采用基于深度学习的目标检测算法对每一帧进行目标物体的关键位置检测,按顺序依次保存每一帧的检测结果;根据所述检测结果生成一包含所述目标物体的设定的时间序列长度的时间序列;基于所述时间序列,采用RNN网络获得所述目标物体的分类结果。与现有技术相比,本发明具有能够精确识别长物体、成本低等优点。

Description

基于目标检测与RNN的长物体识别方法及识别系统
技术领域
本发明属于人工智能领域,主要涉及视频分析和目标检测方法,尤其是涉及一种基于目标检测与RNN的长物体识别方法及识别系统。
背景技术
近年来,随着人工智能的不断发展,目标检测与识别技术越来越成熟,应用越来越广泛。目前主流的物体检测与识别方法是对包含目标的单张图片进行检测与识别,但是这种设计对于物体长度很大的场景(如港口的集装箱运载车检测)并不适用。近距离拍摄情况下,无法用单张图片拍下完整的长目标物体。远距离拍摄情况下,可以用单张图片拍下完整的长目标物体,但得到的图片局部清晰度不够高,导致识别精度差。采用超高清摄像头拍摄能一定程度提高清晰度,但同时也带来成本的大幅提升和计算量的大幅增加。
以港口的集装箱运载车检测为例,其集装箱装载方式分为单长箱、双短箱、单短箱前置、单短箱中置、单短箱后置、空车等,从人工智能的角度分析,集装箱装载方式的判断可以归为分类任务。如果拍摄到完整而清晰的全车图片,可以使用Resnet、Inception等卷积神经网络对集装箱装载方式进行分类。但是,实际情况下运输集装箱的货车车身很长,很难拍摄到完整而清晰的全车图片,因而只能考虑在道口以较近的距离下拍摄车辆通过的视频,而从得到完整而清晰的全车信息。
由于道口拍摄下来的车辆通过视频每一帧都只是部分车身的图像,虽然具体细节较清晰,但如何对视频进行分析和理解,从而得到集装箱的装载方式是一个难题。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷而提供一种能够精确识别长物体的基于目标检测与RNN的长物体识别方法及识别系统。
本发明的目的可以通过以下技术方案来实现:
一种基于目标检测与RNN的长物体识别方法,所述长物体指在近距离拍摄下无法在一张图片中获得全貌的物体,包括以下步骤:
获取目标物体的视频,该视频包含所述目标物体从头至尾移动的影像;
遍历所述视频的所有帧,采用基于深度学习的目标检测算法对每一帧进行目标物体的关键位置检测,按顺序依次保存每一帧的检测结果;以集装箱装载方式判断为例,其需要检测的关键位置有集装箱箱体、集装箱编号区域、两箱之间的缝隙、挂车的车架等,这些关键位置与集装箱的装载方式判断密切相关;
根据所述检测结果生成一包含所述目标物体的设定的时间序列长度的时间序列;
基于所述时间序列,采用RNN网络获得所述目标物体的分类结果。
所述长物体的范围是长度与高度的比值大于4的物体。
进一步地,所述视频由摄像头获取,所述摄像头能够恰好拍摄到目标物体侧面的顶部边界和底部边界。
进一步地,所述时间序列为一t×c的矩阵,其中,t为设定的时间序列长度,c为目标检测的总类别数量。
进一步地,生成所述时间序列时,若视频的所有帧中,包含目标物体的帧的帧数小于设定的时间序列长度,则以补0的方式填充所述时间序列,此处的0是一个c维0向量;若视频的所有帧中,包含目标物体的帧的帧数大于设定的时间序列长度,则按时间顺序取前设定的时间序列长度的帧。
进一步地,所述包含目标物体的帧是指该帧中至少存在一个关键位置。
本发明还提供一种基于目标检测与RNN的长物体识别系统,包括:
视频获取模块,用于获取目标物体的视频,该视频包含所述目标物体从头至尾移动的影像;
目标检测模块,用于遍历所述视频的所有帧,采用基于深度学习的目标检测算法对每一帧进行目标物体的关键位置检测,按顺序依次保存每一帧的检测结果;
时间序列生成模块,用于根据所述检测结果生成一包含所述目标物体的设定的时间序列长度的时间序列;
分类模块,用于基于所述时间序列,采用RNN网络获得所述目标物体的分类结果。
进一步地,所述视频获取模块包括摄像头,该摄像头能够恰好拍摄到目标物体侧面的顶部边界和底部边界。
进一步地,所述时间序列为一t×c的矩阵,其中,t为设定的时间序列长度,c为目标检测的总类别数量。
进一步地,时间序列生成模块中,生成所述时间序列时,若视频的所有帧中,包含目标物体的帧的帧数小于设定的时间序列长度,则以补0的方式填充所述时间序列;若视频的所有帧中,包含目标物体的帧的帧数大于设定的时间序列长度,则按时间顺序取前设定的时间序列长度的帧。
进一步地,所述包含目标物体的帧是指该帧中至少存在一个关键位置。
与现有技术相比,本发明具有如下有益效果:
1、本发明基于视频进行长物体的识别,且视频包含所述目标物体从头至尾移动的影像,能够精确有效地获得识别结果。
2、本发明不需要设置价格昂贵的高清相机,不需要远距离拍摄,只需安装普通摄像机即可,硬件设施易于搭建。
3、本发明进行目标检测时采用关键位置检测方式,检测效率高。
4、本发明以一时间序列作为RNN网络的输入,包含多帧图像的信息,有效提高识别精度。
5、本发明采用RNN网络进行分类处理,具有更强的鲁棒性,对目标检测的容错性更强。
6、可以满足实时检测的要求,且能够同时并发检测多个物体。
7、可以实现完全自动化,无需人工干预。
附图说明
图1为本发明的原理示意图;
图2为本发明采用的RNN网络示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
如图1所示,本实施例实现一种基于目标检测与RNN的长物体识别方法,包括以下步骤:
获取目标物体的视频,该视频包含目标物体从头至尾移动的影像;
遍历视频的所有帧,采用基于深度学习的目标检测算法对每一帧进行目标物体的关键位置检测,关键位置是指对最终物体识别与分类起决定性作用的位置,按顺序依次保存每一帧的检测结果;
根据检测结果生成一包含目标物体的设定的时间序列长度的时间序列;
基于时间序列,采用RNN网络获得目标物体的分类结果。
在目标物体的视频获取过程中,将摄像头与物体间的距离调整到合适,使摄像头能够恰好拍摄到目标物体侧面的顶部边界和底部边界,水平移动摄像头或物体,录制完整包含物体首尾的视频。
时间序列为一t×c的矩阵,其中,t为设定的时间序列长度,c为目标检测的总类别数量。生成时间序列时,若视频的所有帧中,包含目标物体的帧的帧数小于t,则以补0的方式填充时间序列;若视频的所有帧中,包含目标物体的帧的帧数大于t,则按时间顺序取前t个帧。包含目标物体的帧是指该帧中至少存在一个关键位置。
以港口的集装箱运载车检测为例进行上述识别方法的说明,具体实施步骤如下:
步骤1:获取港口处视频数据。
步骤2:遍历视频所有帧,对视频每一帧用目标检测算法分别进行关键位置检测。本实施例中,关键位置包括每个集装箱的前段、中段、尾段,并排两个集装箱之间的间隙,集装箱编号区域以及挂车的车架,其目标检测类别标签分别为head,center,rear,gap,id,tray。对视频进行逐帧目标检测,按顺序依次保存每一帧的检测结果。
步骤3:生成时间序列。
将每一帧的检测结果处理成如下形式的张量
[n1,n2,n3,n4,n5,n6]
其中n1,n2,n3,n4,n5,n6分别表示head,center,rear,gap,id,tray在该帧被检出的目标个数。
删除n1,n2,n3,n4,n5,n6均为0的张量,然后将剩下的张量依次存入数组A中。若数组A的长度不足t,则以补0的方式将数组A补充至t的长度。若数组A的长度大于t,则只取前t个数据。最终得到一个t×c的矩阵,其中t代表t个时间序列长度,c是目标检测的类别数量。
步骤4:将步骤3获得的矩阵作为RNN网络的输入,获得分类识别结果。
本实施例中,RNN的网络结构如图2所示。RNN网络由输入层,隐藏层和softmax层组成。其中隐藏层含有50个LSTM单元。Softmax层的输入是RNN网络最后一个时间步上的输出,softmax的输出是i维的one-hot向量。
视频是由一系列有先后顺序的图片所组成,那么可以把视频理解为时间序列数据,用RNN来分析处理这样的时间序列数据。RNN的输入为t个时间步数的c维张量,输出为t个时间步数的s维张量。然后将RNN的所有输出接入softmax层,得到i维的one-hot张量,i是目标物的类别数量。
本实施例中,Softmax层损失函数如下:
其中yi是神经元的输出也可以作为预测结果,
Figure BDA0002219176140000052
是第i个类别的真实值,只能取值0或1。
实施例2
本实施例提供一种与实施例1相对应的基于目标检测与RNN的长物体识别系统,包括视频获取模块、目标检测模块、时间序列生成模块和分类模块,其中,视频获取模块用于获取目标物体的视频,该视频包含目标物体从头至尾移动的影像;目标检测模块用于遍历视频的所有帧,采用基于深度学习的目标检测算法对每一帧进行目标物体的关键位置检测,按顺序依次保存每一帧的检测结果;时间序列生成模块用于根据检测结果生成一包含目标物体的设定的时间序列长度的时间序列;分类模块用于基于时间序列,采用RNN网络获得目标物体的分类结果。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于目标检测与RNN的长物体识别方法,其特征在于,包括以下步骤:
获取目标物体的视频,该视频包含所述目标物体从头至尾移动的影像;
遍历所述视频的所有帧,采用基于深度学习的目标检测算法对每一帧进行目标物体的关键位置检测,按顺序依次保存每一帧的检测结果;
根据所述检测结果生成一包含所述目标物体的设定的时间序列长度的时间序列;
基于所述时间序列,采用RNN网络获得所述目标物体的分类结果。
2.根据权利要求1所述的基于目标检测与RNN的长物体识别方法,其特征在于,所述视频由摄像头获取,所述摄像头能够恰好拍摄到目标物体侧面的顶部边界和底部边界。
3.根据权利要求1所述的基于目标检测与RNN的长物体识别方法,其特征在于,所述时间序列为一t×c的矩阵,其中,t为设定的时间序列长度,c为目标检测的总类别数量。
4.根据权利要求1所述的基于目标检测与RNN的长物体识别方法,其特征在于,生成所述时间序列时,若视频的所有帧中,包含目标物体的帧的帧数小于设定的时间序列长度,则以补0的方式填充所述时间序列;若视频的所有帧中,包含目标物体的帧的帧数大于设定的时间序列长度,则按时间顺序取前设定的时间序列长度的帧。
5.根据权利要求4所述的基于目标检测与RNN的长物体识别方法,其特征在于,所述包含目标物体的帧是指该帧中至少存在一个关键位置。
6.一种基于目标检测与RNN的长物体识别系统,其特征在于,包括:
视频获取模块,用于获取目标物体的视频,该视频包含所述目标物体从头至尾移动的影像;
目标检测模块,用于遍历所述视频的所有帧,采用基于深度学习的目标检测算法对每一帧进行目标物体的关键位置检测,按顺序依次保存每一帧的检测结果;
时间序列生成模块,用于根据所述检测结果生成一包含所述目标物体的设定的时间序列长度的时间序列;
分类模块,用于基于所述时间序列,采用RNN网络获得所述目标物体的分类结果。
7.根据权利要求6所述的基于目标检测与RNN的长物体识别系统,其特征在于,所述视频获取模块包括摄像头,该摄像头能够恰好拍摄到目标物体侧面的顶部边界和底部边界。
8.根据权利要求6所述的基于目标检测与RNN的长物体识别系统,其特征在于,所述时间序列为一t×c的矩阵,其中,t为设定的时间序列长度,c为目标检测的总类别数量。
9.根据权利要求6所述的基于目标检测与RNN的长物体识别系统,其特征在于,时间序列生成模块中,生成所述时间序列时,若视频的所有帧中,包含目标物体的帧的帧数小于设定的时间序列长度,则以补0的方式填充所述时间序列;若视频的所有帧中,包含目标物体的帧的帧数大于设定的时间序列长度,则按时间顺序取前设定的时间序列长度的帧。
10.根据权利要求9所述的基于目标检测与RNN的长物体识别系统,其特征在于,所述包含目标物体的帧是指该帧中至少存在一个关键位置。
CN201910926985.3A 2019-09-27 2019-09-27 基于目标检测与rnn的长物体识别方法及识别系统 Pending CN110717430A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910926985.3A CN110717430A (zh) 2019-09-27 2019-09-27 基于目标检测与rnn的长物体识别方法及识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910926985.3A CN110717430A (zh) 2019-09-27 2019-09-27 基于目标检测与rnn的长物体识别方法及识别系统

Publications (1)

Publication Number Publication Date
CN110717430A true CN110717430A (zh) 2020-01-21

Family

ID=69211092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910926985.3A Pending CN110717430A (zh) 2019-09-27 2019-09-27 基于目标检测与rnn的长物体识别方法及识别系统

Country Status (1)

Country Link
CN (1) CN110717430A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101119442A (zh) * 2007-08-10 2008-02-06 浙江大学 基于全景图拼接的视频编辑方法
CN103400386A (zh) * 2013-07-30 2013-11-20 清华大学深圳研究生院 一种用于视频中的交互式图像处理方法
US20140093164A1 (en) * 2012-10-01 2014-04-03 Microsoft Corporation Video scene detection
CN106127170A (zh) * 2016-07-01 2016-11-16 重庆中科云丛科技有限公司 一种融合关键特征点的训练方法、识别方法及系统
CN108615241A (zh) * 2018-04-28 2018-10-02 四川大学 一种基于光流的快速人体姿态估计方法
CN109145927A (zh) * 2017-06-16 2019-01-04 杭州海康威视数字技术股份有限公司 一种对形变图像的目标识别方法及装置
US20190034734A1 (en) * 2017-07-28 2019-01-31 Qualcomm Incorporated Object classification using machine learning and object tracking
CN109376608A (zh) * 2018-09-26 2019-02-22 中国计量大学 一种人脸活体检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101119442A (zh) * 2007-08-10 2008-02-06 浙江大学 基于全景图拼接的视频编辑方法
US20140093164A1 (en) * 2012-10-01 2014-04-03 Microsoft Corporation Video scene detection
CN103400386A (zh) * 2013-07-30 2013-11-20 清华大学深圳研究生院 一种用于视频中的交互式图像处理方法
CN106127170A (zh) * 2016-07-01 2016-11-16 重庆中科云丛科技有限公司 一种融合关键特征点的训练方法、识别方法及系统
CN109145927A (zh) * 2017-06-16 2019-01-04 杭州海康威视数字技术股份有限公司 一种对形变图像的目标识别方法及装置
US20190034734A1 (en) * 2017-07-28 2019-01-31 Qualcomm Incorporated Object classification using machine learning and object tracking
CN108615241A (zh) * 2018-04-28 2018-10-02 四川大学 一种基于光流的快速人体姿态估计方法
CN109376608A (zh) * 2018-09-26 2019-02-22 中国计量大学 一种人脸活体检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
赵亮;王晓峰;袁逸涛;: "基于深度卷积神经网络的船舶识别方法研究", no. 15, pages 119 - 123 *
郭李云;: "一种含运动物体的长视频拼接技术", no. 01, pages 44 - 48 *
陈怀琛编著: "MATLAB及其在理工课程中的应用指南 第3版", 31 July 2007, 西安电子科技大学出版社, pages: 253 - 254 *
高延鹏;李小平;张晓康;孙艳春;: "铁路货场智能大门集装箱全景图像采集方法研究", no. 05, pages 47 - 51 *

Similar Documents

Publication Publication Date Title
Luo et al. MIO-TCD: A new benchmark dataset for vehicle classification and localization
Srivastava et al. A survey of deep learning techniques for vehicle detection from UAV images
Xie et al. Detecting trees in street images via deep learning with attention module
CN112800838A (zh) 一种基于深度学习的航道船舶检测与识别方法
Yao et al. When, where, and what? A new dataset for anomaly detection in driving videos
Yao et al. Inspection of exterior substance on high-speed train bottom based on improved deep learning method
Duerr et al. Lidar-based recurrent 3d semantic segmentation with temporal memory alignment
Huo et al. Vehicle type classification and attribute prediction using multi-task RCNN
CN113077491B (zh) 基于跨模态共享和特定表示形式的rgbt目标跟踪方法
CN107316016A (zh) 一种基于Hadoop和监控视频流的车辆轨迹统计方法
Pavel et al. Recurrent convolutional neural networks for object-class segmentation of RGB-D video
Wu et al. Automatic railroad track components inspection using hybrid deep learning framework
Xiaomeng et al. Vehicle detection in traffic monitoring scenes based on improved YOLOV5s
Deng et al. Enet-CRF-LiDAR: LiDAR and camera fusion for multi-scale object recognition
CN114494248B (zh) 基于点云和不同视角下的图像的三维目标检测系统及方法
Singha et al. FANet: Feature aggregation network for semantic segmentation
Kheder et al. Transfer learning based traffic light detection and recognition using CNN inception-V3 model
Bhandary et al. Robust classification of city roadway objects for traffic related applications
Yang et al. Real-time pedestrian detection for autonomous driving
Zhang et al. Small target detection based on squared cross entropy and dense feature pyramid networks
CN110717430A (zh) 基于目标检测与rnn的长物体识别方法及识别系统
Elnashar et al. Automatic multi-style Egyptian license plate detection and classification using deep learning
Xia et al. Unsupervised optical flow estimation with dynamic timing representation for spike camera
Shvai et al. Optimal ensemble classifiers based classification for automatic vehicle type recognition
CN116612398A (zh) 基于ctpn算法的无人机巡检照片杆塔号牌文字识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination