CN117522925A - 注意力机制下移动相机中判断物体运动状态方法及系统 - Google Patents
注意力机制下移动相机中判断物体运动状态方法及系统 Download PDFInfo
- Publication number
- CN117522925A CN117522925A CN202410015759.0A CN202410015759A CN117522925A CN 117522925 A CN117522925 A CN 117522925A CN 202410015759 A CN202410015759 A CN 202410015759A CN 117522925 A CN117522925 A CN 117522925A
- Authority
- CN
- China
- Prior art keywords
- target
- image
- images
- tracking
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000007246 mechanism Effects 0.000 title claims abstract description 32
- 238000000926 separation method Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000003068 static effect Effects 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种注意力机制下移动相机中判断物体运动状态方法及系统,基于deepstream框架的检测到对应目标后,将目标检测框像素分辨率扩大至M*N像素,然后使用针对分离的时空自注意力模块学习在一定连续时间t上检测扩大得到的M*N图像的时空连续性特征,最后接入一个MLP‑Head对学到的时空特征分类得到其运动状态。可以在移动相机情形下,结合深度学习自注意力机制在复杂场景下判断物体的运动与否。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种注意力机制下移动相机中判断物体运动状态方法及系统。
背景技术
目前,对于相机安装在一些移动平台上,比如车载人工智能(ArtificialIntelligence,AI),机器智能设备,手持移动设备等,由于平台移动造成相机本身也存在运动,简单的基于静止相机的移动目标检测方法就不再适用。诞生的很多技术方法都是基于传统图像算法的判断检测方法,并且这些基于传统图像算法的方法只能检测出运动目标,并不能直接判断出检测目标的运动状态。
基于几何约束的方法通过某一约束关系构建出一个背景模型区分内外点来检测运动目标;基于运动补偿的方法通过对相机产生运动失量进行补偿,使其等效为静止背景的情况后来进行运动目标的检测;基于占用网格的方法利用占用网格的特性进行运动目标检测。在复杂的双向运动场景下,没有办法直接用到单一的目前在智能视觉领域中学习能力最强,泛化能力也最强的深度模型来直接实现目标的检测并进行运动状态的判断。并且这些基于传统图像算法的方案,每一个步骤所用的传统图像算法都会消耗大量的内存和硬件资源;同时因为传统算法的局限性,相比于经过大量数据训练得到的深度学习模型在检测准确度也相差比较大,同时在复杂场景下要么所需传统算法的步骤很复杂和麻烦,要么效果很差,最重要的是只能检测出运动的目标,无法对目标运动状态做精准的判断。现有的有将基于运动补偿的传统光流算法结合进卷积神经网络中的深度学习技术方法,但依然整体繁琐。
发明内容
本发明的目的在于提供了一种注意力机制下移动相机中判断物体运动状态方法及系统,用以解决现有技术中存在的上述问题。
第一方面,本发明实施例提供了一种注意力机制下移动相机中判断物体运动状态方法,包括:
获得多张待测图像;所述多张待测图像为移动的摄像设备在连续时间拍摄的按时间顺序排列的多张图像;所述待测图像包含待测目标;
基于多张待测图像,通过跟踪算法,跟踪待测目标,得到多个目标跟踪框;一个目标跟踪框对应一张待测图像对应一个待测目标;
基于待测图像和目标跟踪框,扩大像素,得到跟踪目标图像;多个目标跟踪框对应获得多个跟踪目标图像;
将所述多个跟踪目标图像输入针对分离的时空自注意力模块,得到目标时空特征;所述目标时空特征包含多个跟踪目标图像在连续时间和空间上的特征;
将所述目标时空特征输入分类器进行分类,判断待测目标是否运动。
可选的,所述将所述多个跟踪目标图像输入针对分离的时空自注意力模块,得到目标时空特征,包括:
基于跟踪目标图像,得到分块编号图像;多个跟踪目标图像对应获得多个分块编号图像;一个分块编号图像包括9个分块,每个分块对应一个编号;
基于所述多个分块编号图像,通过针对分离的时空自注意力模块,进行时间维度的自注意,得到多个目标时间特征;一个编号对应一个目标时间特征;
根据所述目标时间特征,更新针对分离的时空自注意力模块的参数;
基于所述多个分块编号图像,通过更新的针对分离的时空自注意力模块,进行空间维度的自注意,得到多个目标空间特征;一个分块编号图像对应一个目标空间特征;
基于所述多个目标时间特征和多个目标空间特征,通过权重矩阵进行编码,得到时空特征。
可选的,所述基于所述多个分块编号图像,通过针对分离的时空自注意力模块,进行时间维度的自注意,得到多个目标时间特征,包括:
将多个分块编号图像中相同编号的分块输入针对分离的时空自注意力模块,得到目标时间特征;多个编号对应获得多个目标时间特征。
可选的,基于所述多个分块编号图像,通过更新的针对分离的时空自注意力模块,进行空间维度的自注意,得到多个目标空间特征,包括:
将分块编号图像中的9个分块输入更新的针对分离的时空自注意力模块,进行空间维度的自注意,得到目标空间特征;
多个分块编号图像对应获得多个目标空间特征。
可选的,所述基于跟踪目标图像,得到分块编号图像,包括:
将所述跟踪目标图像竖直进行三等分,水平进行三等分,平均分为9个分块,得到分块图像;多个跟踪目标图像对应获得多个分块图像;
将分块图像中每个分块进行编号,得到分块编号图像;所述分块编号图像包含9个编号,多个分块图像中的相同位置的分块的编号相同。
可选的,所述基于待测图像和目标跟踪框,扩大像素,得到跟踪目标图像,包括:
将待测图像中目标跟踪框内的图像进行提取,得到第一图像;
将第一图像进行像素扩张,固定像素大小,得到跟踪目标图像。
可选的,训练过程中,采用训练集训练针对分离的时空自注意力模块和分类器,得到训练好的时空自注意力模块和训练好的分类器。
可选的,其特征在于,所述训练集包括多张训练图像和对应的多个标注数据;
所述训练图像表示对目标识别跟踪后,只包含目标所在位置的图像;
所述标注数据表示运动状态;所述运动状态为运动或静止。
可选的,其特征在于,所述多个分块编号图像按时间顺序依次送入针对分离的时空自注意力模块。
第二方面,本发明实施例提供了一种注意力机制下移动相机中判断物体运动状态系统,包括:
车载人工智能设备上部署deepstream框架;
所述车载人工智能设备用于执行下述方法:
获得多张待测图像;所述多张待测图像为移动的摄像设备在连续时间拍摄的按时间顺序排列的多张图像;所述待测图像包含待测目标;
基于多张待测图像,通过跟踪算法,跟踪待测目标,得到多个目标跟踪框;一个目标跟踪框对应一张待测图像对应一个待测目标;
基于待测图像和目标跟踪框,扩大像素,得到跟踪目标图像;多个目标跟踪框对应获得多个跟踪目标图像;
将所述多个跟踪目标图像输入针对分离的时空自注意力模块,得到目标时空特征;所述目标时空特征包含多个跟踪目标图像在连续时间和空间上的特征;
将所述目标时空特征输入分类器进行分类,判断待测目标是否运动。
相较于现有技术,本发明实施例达到了以下有益效果:
本发明实施例还提供了一种注意力机制下移动相机中判断物体运动状态方法及系统,所述方法包括:获得多张待测图像;所述多张待测图像为移动的摄像设备在连续时间拍摄的按时间顺序排列的多张图像;所述待测图像包含待测目标; 基于多张待测图像,通过跟踪算法,跟踪待测目标,得到多个目标跟踪框;一个目标跟踪框对应一张待测图像对应一个待测目标;基于待测图像和目标跟踪框,扩大像素,得到跟踪目标图像;多个目标跟踪框对应获得多个跟踪目标图像;将所述多个跟踪目标图像输入针对分离的时空自注意力模块,得到目标时空特征;所述目标时空特征包含多个跟踪目标图像在连续时间和空间上的特征;将所述目标时空特征输入分类器进行分类,判断待测目标是否运动。
采用本发明的方法,可以在移动相机情形下,结合深度学习自注意力机制(self-attention)在复杂场景下判断物体的运动与否。在车载边缘端设备的移动场景与低性能arm边缘计算平台下,基于deepstream框架的检测到对应目标后,将目标检测框像素分辨率扩大至M*N像素,然后使用针对分离的时空自注意力模块(divided space-timeattention)学习在一定连续时间t上检测扩大得到的M*N图像的时空连续性特征,最后接入一个MLP-Head对学到的时空特征分类得到其运动状态。本发明尝试在完全不涉及传统图像算法的情况下,对目标识别跟踪后的对象进行提取后,做像素扩张处理以囊括其周围空间信息,将目标跟踪后的目标对象完全结合进针对分离的时空自注意力模块(dividedspace-time attention)进行深度学习训练。自注意力机制(self-attention)改造后能学习连续时空特征的针对分离的时空自注意力模块(divided space-time attention)去学习被监测到的对象在连续时间内的时空特征再分类进而判断它是否在运动状态。
附图说明
图1是本发明实施例提供的一种注意力机制下移动相机中判断物体运动状态方法流程图。
图2是本发明实施例提供的一种注意力机制下移动相机中判断物体运动状态方法的算法执行过程示意图。
图3是本发明实施例提供的一种注意力机制下移动相机中判断物体运动状态方法中针对分离的时空自注意力模块的网络结构示意图。
具体实施方式
下面结合附图,对本发明作详细的说明。
实施例1
如图1、图2和图3所示,本发明实施例提供了一种注意力机制下移动相机中判断物体运动状态方法,所述方法包括:
S101:获得多张待测图像;所述多张待测图像为移动的摄像设备在连续时间拍摄的按时间顺序排列的多张图像;所述待测图像包含待测目标。
其中,所述待测目标为在移动的摄像设备判断是否移动的物体。
其中,所述摄像设备为相机,相机的高清摄像头的参数为200万像素(1920*1080)的高清摄像头,布防检测区域距离摄像头距离小于10米,大于1米,ipx6级防水。
其中,本实施例计算平台为Nvidia NX、TX边缘计算设备,内存和显存不少于4G,处理器主频不低于2.3GHz。
S102:基于多张待测图像,通过跟踪算法,跟踪待测目标,得到多个目标跟踪框;一个目标跟踪框对应一张待测图像对应一个待测目标。
其中,一个目标跟踪框中存在一个跟踪的目标;一张待测图像中可能存在多个不同的目标,从而跟踪过程可能存在不同目标对应的目标跟踪框。但本发明的目标跟踪框表示一个待测目标的用于判断是否运动的一个目标对应在不同待测图像中的目标框,一张待测目标含有一个目标跟踪框。
其中,本实施例中采用deepstream框架下的多目标跟踪(deep Simple OnlineAnd Realtime Tracking,deepsort)深度学习进行跟踪。
S103:基于待测图像和目标跟踪框,扩大像素,得到跟踪目标图像;多个目标跟踪框对应获得多个跟踪目标图像。
其中,将各个像素尺寸的目标跟踪框内的图像,扩大为一个M*N大小的目标像素图。M和N为人工固定设置的值。
S104:将所述多个跟踪目标图像输入针对分离的时空自注意力模块,得到目标时空特征;所述目标时空特征包含多个跟踪目标图像在连续时间和空间上的特征。
其中,针对分离的时空自注意力模块(divided space-time attention),针对分离的时空自注意力模块的网络结构示意图如图3所示。
S105:将所述目标时空特征图输入分类器进行分类,判断待测目标是否运动。
其中,本实施例中的分类器为MLP,将时空连续特征Z接入MLP-Head分类头得到最终是否为运动状态结果y,具体公式如下:
其中,本发明分为模型跟踪监测和时空特征判断两个板块。模型跟踪监测板块通过在车载边缘计算AI设备上部署的deepstream框架下,采用deepsort深度学习来跟踪监测对象并做m*n像素扩展后rect出来得到如下所示对象如图2。其中rect对象为存储目标框的中心点坐标、宽度和高度。
可选的,所述将所述多个跟踪目标图像输入针对分离的时空自注意力模块,得到目标时空特征,包括:
基于所述多个分块编号图像,通过针对分离的时空自注意力模块,进行时间维度的自注意,得到多个目标时间特征;一个编号对应一个目标时间特征。
其中,拿到跟踪监测对象一段连续时间t的图像后,用针对分离的时空自注意力模块(divided space-time attention)学习这段连续时间t图像的时空连续性特征。
根据所述目标时间特征,更新针对分离的时空自注意力模块的参数。
其中,在此时序特征基础上更新针对分离的时空自注意力模块的参数得到新的k/q/v,以此来学习连续时间t每一帧的空间特征。k/q/v这三个值是计算注意力值的抽象概念。
基于所述多个分块编号图像,通过更新的针对分离的时空自注意力模块,进行空间维度的自注意,得到多个目标空间特征;一个分块编号图像对应一个目标空间特征。
基于所述多个目标时间特征和多个目标空间特征,通过权重矩阵进行编码,得到时空特征。
其中,所述权重矩阵中的值为多个目标时间特征和多个目标空间特征赋予不同的权重。将所述多个目标时间特征和多个目标空间特征与权重矩阵对应相乘,得到时空特征。
可选的,所述基于所述多个分块编号图像,通过针对分离的时空自注意力模块,进行时间维度的自注意,得到多个目标时间特征,包括:
基于跟踪目标图像,得到分块编号图像;多个跟踪目标图像对应获得多个分块编号图像;一个分块编号图像包括9个分块;
将多个分块编号图像中相同编号的分块输入针对分离的时空自注意力模块,得到目标时间特征;多个编号对应获得多个目标时间特征。
其中,所述针对分离的时空自注意力模块的公式如下述所示:
。
其中,由于针对分离的时空自注意力模块是多头注意力机制。上述公式结果为连续时间t对象图像中学到的时序特征。/>表示/>时间点对应的分块编号图像在针对分离的时空自注意力模块中的q值,/>表示/>时间点对应的分块编号图像在针对分离的时空自注意力模块中的k值,F表示分块编号图像的个数,/>表示当前多头注意力机制的头的输出,所述/>表示对应编号的分块,/>表示每个attention的维度。/>和/>是点乘操作,需要对q进行转置,SM表示softmax公式计算方法。
可选的,所述基于所述多个分块编号图像,通过更新的针对分离的时空自注意力模块,进行空间维度的自注意,得到多个目标空间特征,包括:
将分块编号图像中的9个分块输入更新的针对分离的时空自注意力模块,进行空间维度的自注意,得到目标空间特征;
多个分块编号图像对应获得多个目标空间特征。
其中,用上述学习时许特征后得到的新参数根据上述公式类比可学习得每一帧的空间特征
其中,所述针对分离的时空自注意力模块的公式如下述所示
其中,由于针对分离的时空自注意力模块是多头注意力机制。上述公式结果为连续时间t对象图像中学到的时序特征。/>表示/>时间点对应的分块编号图像在针对分离的时空自注意力模块中的q值,/>表示/>时间点对应的分块编号图像在针对分离的时空自注意力模块中的k值,N表示分块编号图像中分块的个数,所述/>表示对应编号的分块,/>表示当前多头注意力机制的头的输出。/>表示每个attention的维度。/>和/>是点乘操作,需要对q进行转置,SM表示softmax公式计算方法。
可选的,所述基于跟踪目标图像,得到分块编号图像,包括:
将所述跟踪目标图像竖直进行三等分,水平进行三等分,平均分为9个分块,得到分块图像;多个跟踪目标图像对应获得多个分块图像;
其中,每个分块的尺寸相同。
将分块图像中每个分块进行编号,得到分块编号图像;所述分块编号图像包含9个编号,多个分块图像中的相同位置的分块的编号相同。
其中,如左上角的分块的编号为1,右上角的分块的编号为3,左上角和右上角中间的分块的编号为2,左下角的分块的编号为7,右下角的分块的编号为9,左下角和右下角的分块的编号为8,左上角和左下角的分块的编号为4,右上角和右下角的分块的编号为6,中心的分块的编码为5。
其中,连续时间t的每一帧图片分为9个patch,对这9个patch输入自注意力机制(self-attention)。
可选的,所述基于待测图像和目标跟踪框,扩大像素,得到跟踪目标图像,包括:
将待测图像中目标跟踪框内的图像进行提取,得到第一图像;
将第一图像进行像素扩张,固定像素大小,得到跟踪目标图像。
其中,将目标跟踪框内的图像进行像素扩张以囊括其周围空间信息。
其中,因为不同时间中待测目标在拍摄的图像中的大小不一定相同,所以目标跟踪框的大小也不一定相同,第一图像的大小也不一定相同。将不同大小的第一图像进行像素扩张,全部扩展为m*n大小。所述m和n人工设定的固定数字。
可选的,训练过程中,采用训练集训练针对分离的时空自注意力模块和分类器,得到训练好的时空自注意力模块和训练好的分类器。
其中,上述所有方法都是采用训练好的时空自注意力模块和训练好的分类器进行测试或检测。
可选的,所述训练集包括多张训练图像和对应的多个标注数据;
所述训练图像表示对目标识别跟踪后,只包含目标所在位置的图像;
所述标注数据表示运动状态;所述运动状态为运动或静止。
可选的,所述多个分块编号图像按时间顺序依次送入针对分离的时空自注意力模块。
实施例2
基于上述的注意力机制下移动相机中判断物体运动状态方法,本发明实施例还提供了一种注意力机制下移动相机中判断物体运动状态系统,所述系统包括:
车载人工智能设备上部署deepstream框架;
所述车载人工智能设备用于执行下述方法:
获得多张待测图像;所述多张待测图像为移动的摄像设备在连续时间拍摄的按时间顺序排列的多张图像;所述待测图像包含待测目标;
基于多张待测图像,通过跟踪算法,跟踪待测目标,得到多个目标跟踪框;一个目标跟踪框对应一张待测图像对应一个待测目标;
基于待测图像和目标跟踪框,扩大像素,得到跟踪目标图像;多个目标跟踪框对应获得多个跟踪目标图像;
将所述多个跟踪目标图像输入针对分离的时空自注意力模块,得到目标时空特征;所述目标时空特征包含多个跟踪目标图像在连续时间和空间上的特征;
将所述目标时空特征输入分类器进行分类,判断待测目标是否运动。
可选的,添加跟踪插件;所述跟踪插件用于进行目标跟踪。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
Claims (10)
1.一种注意力机制下移动相机中判断物体运动状态方法,其特征在于,包括:
获得多张待测图像;所述多张待测图像为移动的摄像设备在连续时间拍摄的按时间顺序排列的多张图像;所述待测图像包含待测目标;
基于多张待测图像,通过跟踪算法,跟踪待测目标,得到多个目标跟踪框;一个目标跟踪框对应一张待测图像对应一个待测目标;
基于待测图像和目标跟踪框,扩大像素,得到跟踪目标图像;多个目标跟踪框对应获得多个跟踪目标图像;
将所述多个跟踪目标图像输入针对分离的时空自注意力模块,得到目标时空特征;所述目标时空特征包含多个跟踪目标图像在连续时间和空间上的特征;
将所述目标时空特征输入分类器进行分类,判断待测目标是否运动。
2.根据权利要求1所述的注意力机制下移动相机中判断物体运动状态方法,其特征在于,所述将所述多个跟踪目标图像输入针对分离的时空自注意力模块,得到目标时空特征,包括:
基于跟踪目标图像,得到分块编号图像;多个跟踪目标图像对应获得多个分块编号图像;一个分块编号图像包括9个分块,每个分块对应一个编号;
基于所述多个分块编号图像,通过针对分离的时空自注意力模块,进行时间维度的自注意,得到多个目标时间特征;一个编号对应一个目标时间特征;
根据所述目标时间特征,更新针对分离的时空自注意力模块的参数;
基于所述多个分块编号图像,通过更新的针对分离的时空自注意力模块,进行空间维度的自注意,得到多个目标空间特征;一个分块编号图像对应一个目标空间特征;
基于所述多个目标时间特征和多个目标空间特征,通过权重矩阵进行编码,得到时空特征。
3.根据权利要求2所述的注意力机制下移动相机中判断物体运动状态方法,其特征在于,所述基于所述多个分块编号图像,通过针对分离的时空自注意力模块,进行时间维度的自注意,得到多个目标时间特征,包括:
将多个分块编号图像中相同编号的分块输入针对分离的时空自注意力模块,得到目标时间特征;
多个编号对应获得多个目标时间特征。
4.根据权利要求2所述的注意力机制下移动相机中判断物体运动状态方法,其特征在于,基于所述多个分块编号图像,通过更新的针对分离的时空自注意力模块,进行空间维度的自注意,得到多个目标空间特征,包括:
将分块编号图像中的9个分块输入更新的针对分离的时空自注意力模块,进行空间维度的自注意,得到目标空间特征;
多个分块编号图像对应获得多个目标空间特征。
5.根据权利要求2所述的注意力机制下移动相机中判断物体运动状态方法,其特征在于,所述基于跟踪目标图像,得到分块编号图像,包括:
将所述跟踪目标图像竖直进行三等分,水平进行三等分,平均分为9个分块,得到分块图像;多个跟踪目标图像对应获得多个分块图像;
将分块图像中每个分块进行编号,得到分块编号图像;所述分块编号图像包含9个编号,多个分块图像中的相同位置的分块的编号相同。
6.根据权利要求1所述的注意力机制下移动相机中判断物体运动状态方法,其特征在于,所述基于待测图像和目标跟踪框,扩大像素,得到跟踪目标图像,包括:
将待测图像中目标跟踪框内的图像进行提取,得到第一图像;
将第一图像进行像素扩张,固定像素大小,得到跟踪目标图像。
7.根据权利要求1所述的注意力机制下移动相机中判断物体运动状态方法,其特征在于,训练过程中,采用训练集训练针对分离的时空自注意力模块和分类器,得到训练好的时空自注意力模块和训练好的分类器。
8.根据权利要求7所述的注意力机制下移动相机中判断物体运动状态方法,其特征在于,所述训练集包括多张训练图像和对应的多个标注数据;
所述训练图像表示对目标识别跟踪后,只包含目标所在位置的图像;
所述标注数据表示运动状态;所述运动状态为运动或静止。
9.根据权利要求2所述的注意力机制下移动相机中判断物体运动状态方法,其特征在于,多个分块编号图像按时间顺序依次送入针对分离的时空自注意力模块。
10.一种注意力机制下移动相机中判断物体运动状态系统,其特征在于,车载人工智能设备上部署deepstream框架;
所述车载人工智能设备用于执行下述方法:
获得多张待测图像;所述多张待测图像为移动的摄像设备在连续时间拍摄的按时间顺序排列的多张图像;所述待测图像包含待测目标;
基于多张待测图像,通过跟踪算法,跟踪待测目标,得到多个目标跟踪框;一个目标跟踪框对应一张待测图像对应一个待测目标;
基于待测图像和目标跟踪框,扩大像素,得到跟踪目标图像;多个目标跟踪框对应获得多个跟踪目标图像;
将所述多个跟踪目标图像输入针对分离的时空自注意力模块,得到目标时空特征;所述目标时空特征包含多个跟踪目标图像在连续时间和空间上的特征;
将所述目标时空特征输入分类器进行分类,判断待测目标是否运动。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410015759.0A CN117522925B (zh) | 2024-01-05 | 2024-01-05 | 注意力机制下移动相机中判断物体运动状态方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410015759.0A CN117522925B (zh) | 2024-01-05 | 2024-01-05 | 注意力机制下移动相机中判断物体运动状态方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117522925A true CN117522925A (zh) | 2024-02-06 |
CN117522925B CN117522925B (zh) | 2024-04-16 |
Family
ID=89746020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410015759.0A Active CN117522925B (zh) | 2024-01-05 | 2024-01-05 | 注意力机制下移动相机中判断物体运动状态方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117522925B (zh) |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105976401A (zh) * | 2016-05-20 | 2016-09-28 | 河北工业职业技术学院 | 基于分块多示例学习算法的目标跟踪方法和系统 |
JP2016194779A (ja) * | 2015-03-31 | 2016-11-17 | セコム株式会社 | 物体検出装置 |
CN111340842A (zh) * | 2020-02-17 | 2020-06-26 | 江南大学 | 一种基于联合模型的相关滤波目标跟踪算法 |
CN111738218A (zh) * | 2020-07-27 | 2020-10-02 | 成都睿沿科技有限公司 | 人体异常行为识别系统及方法 |
CN112419317A (zh) * | 2020-12-15 | 2021-02-26 | 东北大学 | 一种基于自编码网络的视觉回环检测方法 |
CN113393496A (zh) * | 2021-07-05 | 2021-09-14 | 中国电子科技集团公司第二十八研究所 | 一种基于时空注意力机制的目标跟踪方法 |
CN113657150A (zh) * | 2021-07-07 | 2021-11-16 | 浙江大华技术股份有限公司 | 一种跌倒检测方法、装置和计算机可读存储介质 |
CN113763431A (zh) * | 2021-09-15 | 2021-12-07 | 深圳大学 | 一种目标跟踪方法、系统、电子装置及存储介质 |
US20220012502A1 (en) * | 2020-07-07 | 2022-01-13 | Hitachi, Ltd. | Activity detection device, activity detection system, and activity detection method |
CN114444599A (zh) * | 2022-01-27 | 2022-05-06 | 杭州网易智企科技有限公司 | 图像处理方法、装置、介质和计算设备 |
CN114627163A (zh) * | 2022-03-23 | 2022-06-14 | 青岛根尖智能科技有限公司 | 一种基于快速场景拼接的全局图像目标跟踪方法及系统 |
CN114708295A (zh) * | 2022-04-02 | 2022-07-05 | 华南理工大学 | 一种基于Transformer的物流包裹分离方法 |
CN114782691A (zh) * | 2022-04-20 | 2022-07-22 | 安徽工程大学 | 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备 |
CN114913162A (zh) * | 2022-05-25 | 2022-08-16 | 广西大学 | 一种基于轻量级Transformer的桥梁混凝土裂缝检测方法及装置 |
CN115690152A (zh) * | 2022-10-18 | 2023-02-03 | 南京航空航天大学 | 一种基于注意力机制的目标追踪方法 |
CN116309725A (zh) * | 2023-03-30 | 2023-06-23 | 中国矿业大学 | 基于多尺度可形变注意力机制的多目标跟踪方法 |
CN116309707A (zh) * | 2023-03-02 | 2023-06-23 | 长春理工大学 | 一种基于自校准与异构网络的多目标跟踪算法 |
CN116402811A (zh) * | 2023-06-05 | 2023-07-07 | 长沙海信智能系统研究院有限公司 | 一种打架斗殴行为识别方法及电子设备 |
CN116563355A (zh) * | 2023-05-10 | 2023-08-08 | 长春理工大学 | 一种基于时空交互注意力机制的目标跟踪方法 |
CN117036417A (zh) * | 2023-09-12 | 2023-11-10 | 南京信息工程大学 | 基于时空模板更新的多尺度Transformer目标跟踪方法 |
CN117292321A (zh) * | 2023-09-27 | 2023-12-26 | 深圳市正通荣耀通信科技有限公司 | 基于视频监控的运动检测方法、装置及计算机设备 |
-
2024
- 2024-01-05 CN CN202410015759.0A patent/CN117522925B/zh active Active
Patent Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016194779A (ja) * | 2015-03-31 | 2016-11-17 | セコム株式会社 | 物体検出装置 |
CN105976401A (zh) * | 2016-05-20 | 2016-09-28 | 河北工业职业技术学院 | 基于分块多示例学习算法的目标跟踪方法和系统 |
CN111340842A (zh) * | 2020-02-17 | 2020-06-26 | 江南大学 | 一种基于联合模型的相关滤波目标跟踪算法 |
US20220012502A1 (en) * | 2020-07-07 | 2022-01-13 | Hitachi, Ltd. | Activity detection device, activity detection system, and activity detection method |
CN111738218A (zh) * | 2020-07-27 | 2020-10-02 | 成都睿沿科技有限公司 | 人体异常行为识别系统及方法 |
CN112419317A (zh) * | 2020-12-15 | 2021-02-26 | 东北大学 | 一种基于自编码网络的视觉回环检测方法 |
CN113393496A (zh) * | 2021-07-05 | 2021-09-14 | 中国电子科技集团公司第二十八研究所 | 一种基于时空注意力机制的目标跟踪方法 |
CN113657150A (zh) * | 2021-07-07 | 2021-11-16 | 浙江大华技术股份有限公司 | 一种跌倒检测方法、装置和计算机可读存储介质 |
CN113763431A (zh) * | 2021-09-15 | 2021-12-07 | 深圳大学 | 一种目标跟踪方法、系统、电子装置及存储介质 |
CN114444599A (zh) * | 2022-01-27 | 2022-05-06 | 杭州网易智企科技有限公司 | 图像处理方法、装置、介质和计算设备 |
CN114627163A (zh) * | 2022-03-23 | 2022-06-14 | 青岛根尖智能科技有限公司 | 一种基于快速场景拼接的全局图像目标跟踪方法及系统 |
CN114708295A (zh) * | 2022-04-02 | 2022-07-05 | 华南理工大学 | 一种基于Transformer的物流包裹分离方法 |
CN114782691A (zh) * | 2022-04-20 | 2022-07-22 | 安徽工程大学 | 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备 |
US11763485B1 (en) * | 2022-04-20 | 2023-09-19 | Anhui University of Engineering | Deep learning based robot target recognition and motion detection method, storage medium and apparatus |
CN114913162A (zh) * | 2022-05-25 | 2022-08-16 | 广西大学 | 一种基于轻量级Transformer的桥梁混凝土裂缝检测方法及装置 |
CN115690152A (zh) * | 2022-10-18 | 2023-02-03 | 南京航空航天大学 | 一种基于注意力机制的目标追踪方法 |
CN116309707A (zh) * | 2023-03-02 | 2023-06-23 | 长春理工大学 | 一种基于自校准与异构网络的多目标跟踪算法 |
CN116309725A (zh) * | 2023-03-30 | 2023-06-23 | 中国矿业大学 | 基于多尺度可形变注意力机制的多目标跟踪方法 |
CN116563355A (zh) * | 2023-05-10 | 2023-08-08 | 长春理工大学 | 一种基于时空交互注意力机制的目标跟踪方法 |
CN116402811A (zh) * | 2023-06-05 | 2023-07-07 | 长沙海信智能系统研究院有限公司 | 一种打架斗殴行为识别方法及电子设备 |
CN117036417A (zh) * | 2023-09-12 | 2023-11-10 | 南京信息工程大学 | 基于时空模板更新的多尺度Transformer目标跟踪方法 |
CN117292321A (zh) * | 2023-09-27 | 2023-12-26 | 深圳市正通荣耀通信科技有限公司 | 基于视频监控的运动检测方法、装置及计算机设备 |
Non-Patent Citations (5)
Title |
---|
RUI ZHU 等: "Transformer-based target tracking algorithm for space-based optoelectronic detection", 《FRONTIERS IN PHYSICS》, 1 September 2023 (2023-09-01), pages 1 - 10 * |
XIAOLONG ZHOU 等: "Multi-Target Tracking Based on a Combined Attention Mechanism and Occlusion Sensing in a Behavior-Analysis System", 《SENSORS (BASEL)》, 8 March 2023 (2023-03-08), pages 1 - 17 * |
周丽娟: "基于DeepSort的行人多目标跟踪系统设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 September 2022 (2022-09-15), pages 138 - 178 * |
皮任东: "基于路侧激光雷达和摄像头融合的目标轨迹追踪方法研究", 《中国优秀硕士学位论文全文数据库 工程科技II辑》, 15 February 2023 (2023-02-15), pages 035 - 703 * |
褚昭晨 等: "基于视觉图像的空对空多无人机目标跟踪", 《航空学报》, 8 December 2023 (2023-12-08), pages 1 - 16 * |
Also Published As
Publication number | Publication date |
---|---|
CN117522925B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210042556A1 (en) | Pixel-level based micro-feature extraction | |
CN107851318A (zh) | 用于对象跟踪的系统和方法 | |
CN107408303A (zh) | 用于对象跟踪的系统和方法 | |
CN113052876B (zh) | 一种基于深度学习的视频接力跟踪方法及系统 | |
US11900676B2 (en) | Method and apparatus for detecting target in video, computing device, and storage medium | |
CN110659391A (zh) | 一种视频侦查方法及装置 | |
CN111368634B (zh) | 基于神经网络的人头检测方法、系统及存储介质 | |
CN112036381B (zh) | 视觉跟踪方法、视频监控方法及终端设备 | |
CN111161309B (zh) | 一种车载视频动态目标的搜索与定位方法 | |
CN110827320B (zh) | 基于时序预测的目标跟踪方法和装置 | |
CN107993256A (zh) | 动态目标跟踪方法、装置及存储介质 | |
Cao et al. | Learning spatial-temporal representation for smoke vehicle detection | |
CN118096815B (zh) | 一种基于机器视觉的道路非常态事件检测系统 | |
CN110728700B (zh) | 一种运动目标追踪方法、装置、计算机设备及存储介质 | |
Funde et al. | Object detection and tracking approaches for video surveillance over camera network | |
CN115880260A (zh) | 基站施工的检测方法、装置、设备及计算机可读存储介质 | |
CN113505643B (zh) | 违章目标物检测方法及相关装置 | |
CN114707604A (zh) | 一种基于时空注意力机制的孪生网络跟踪系统及方法 | |
CN117522925B (zh) | 注意力机制下移动相机中判断物体运动状态方法及系统 | |
Gao et al. | Airline baggage appearance transportability detection based on A novel dataset and sequential hierarchical sampling CNN model | |
CN113496501B (zh) | 基于视频预测的动态场景中的入侵物检测方法和系统 | |
Sun et al. | An improved anchor-free object detection method applied in complex scenes based on SDA-DLA34 | |
CN112197747B (zh) | 利用无线定位辅助目标检测的方法和装置 | |
Wang et al. | Tiny drone object detection in videos guided by the bio-inspired magnocellular computation model | |
Li et al. | RFID tag group recognition based on motion blur estimation and YOLOv2 improved by Gaussian algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |