CN112784756B - 人体识别跟踪方法 - Google Patents
人体识别跟踪方法 Download PDFInfo
- Publication number
- CN112784756B CN112784756B CN202110095729.1A CN202110095729A CN112784756B CN 112784756 B CN112784756 B CN 112784756B CN 202110095729 A CN202110095729 A CN 202110095729A CN 112784756 B CN112784756 B CN 112784756B
- Authority
- CN
- China
- Prior art keywords
- human body
- training
- network
- centernet
- tracking method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种人体识别跟踪方法,包括如下步骤:步骤100:采集原始视频流数据,并将原始视频流数据转化为图片建立初始数据集;步骤200:对初始数据集进行增强处理及筛选,获得训练集、验证集及测试集;步骤300:搭建由主干网络、上采路径和顶端卷积组成的Centernet网络结构,其中顶端卷积使采用深度可分离卷积;步骤400:设计BOX匹配机制和损失函数构建完整的Centernet网络结构;步骤500:使用训练集、验证集及测试集对完整的Centernet网络结构进行训练、验证及测试获得Centernet网络模型;步骤600:利用Centernet网络模型识别跟踪实时视频流数据中的人体。上述人体识别跟踪方法,优化了Centernet网络结构,在不降低检测精确度的情况下提升检测速度,优化了精确度和速度之间的平衡。
Description
技术领域
本发明涉及机器视觉领域,特别涉及一种人体识别跟踪方法。
背景技术
多目标跟踪(Multi-Object tracking,MOT)是当前计算机视觉领域的一个研究热点,其内容指在特定或实时的视频序列中确定符合要求或具有某种视觉特征的独立目标的位置、大小和每个目标完整的运动轨迹等信息。近年来,随着数据处理能力的快速增长及图像分析技术的发展,目标监测和实时跟踪技术脱颖而出,并在视频监控、定位导航、智能人机交互、虚拟现实等领域有着非常重要的实用价值,基于视频流的多目标跟踪技术已成为各路专家学者研究的热门方向。
Centernet网络作为一种目标跟踪算法,不需要区域建立感兴趣区域,在速度上有很大的提升,但在检测准确度和检测速度的平衡上还有优化空间。
发明内容
发明目的:本发明的目的是提出一种人体识别跟踪方法,在保证检测准确率的同时,进一步提升检测速度,并扩大感受野。
技术方案:本发明所述的人体识别跟踪方法,具体包括如下步骤:
步骤100:采集原始视频流数据,并将原始视频流数据转化为图片建立初始数据集;
步骤200:对初始数据集进行增强处理及筛选,获得训练集、验证集及测试集;
步骤300:搭建由主干网络、上采路径和顶端卷积组成的Centernet网络结构,其中顶端卷积使采用深度可分离卷积;
步骤400:设计BOX匹配机制和损失函数构建完整的Centernet网络结构;
步骤500:使用训练集、验证集及测试集对完整的Centernet网络结构进行训练、验证及测试获得Centernet网络模型;
步骤600:利用Centernet网络模型识别跟踪实时视频流数据中的人体。
进一步的,所述步骤400中的BOX匹配机制为:若包含特征点预测的对象的中心点的Bbox被占用,则选择离该对象的中心点最近的Bbox为Anchor。
进一步的,所述步骤400中的损失函数表示为:
Ldel=Lk+Lsize+Loff
其中,Ldel为总损失,Lk为置信度损失,Lsize为目标框大小损失,Loff为中心偏移损失,设定预测的Bbox参数为(bx,by,bw,bh),其中bx和by分别为Box中心点的位置,bw和bh代表Box的宽和高,在置信度损失中加入ξ、δ、ζ三个影响因子,即:
Lk=ξ1Lnt+ξ2Lpt
Lnt=-(1-by^)δ 1*log(by^+ζ)
Lpt=-(1-by^)δ 2*log(by^)
其中Lnt为负样本损失,Lpt为正样本损失,ξ1、ξ2、δ1、δ2、ζ由网格搜索得到最佳值。
进一步的,所述步骤100中的原始视频流数据通过摄像头实时录像辅以互联网爬虫的方式获得。
进一步的,所述步骤200中的增强处理包括几何变换及颜色变换。
进一步的,所述步骤300中的主干网络为ResNet-18、MobileNet、Xception、ShuffleNet、ResNet101和DenseNet中的一种。
进一步的,所述步骤300中的上采路径包括CBAM模块和特征融合模块,所述CBAM模块用于优化提取的图像特征,所述特征融合模块用于融合浅层特征即深层特征。
进一步的,所述步骤300中的Centernet网络的激活函数为h-swish和h-sigmoid。
所述步骤500包括:
步骤510:给定模型训练方式及参数,将训练集送入到完整的Centernet网络结构训练获得第一特征数据集;
步骤520:在载体设备上进行训练,获得Centernet网络模型。
有益效果:与现有技术相比,本发明具有如下优点:
1、将Centernet网络的主干网络替换为轻量级的网络,适用于嵌入式设备,提升了检测速度。
2、在上采过程中引入特征融合模块,融合低层空间信息和高层语义信息,克服行人相互遮挡、由于光照和视角变化所带来的漏检和误检。
3、引入了注意力模块,并替换了计算量较小的激活函数,在快速计算的同时保证算法的实用性。
4、将Centernet网络中的卷积操作替换为深度可分离卷积,在不降分辨率且不增加计算量的基础上扩大感受野,更好地检测定位分割大目标。
附图说明
图1为本发明的人体识别跟踪方法的流程图;
图2为本发明的Centernet网络结构与传统Centernet网络结构的比较图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
参照图1,根据本发明实施例的人体识别跟踪方法,包括如下步骤:
步骤100:采集原始视频流数据,并将原始视频流数据转化为图片建立初始数据集;
步骤200:对初始数据集进行增强处理及筛选,获得训练集、验证集及测试集;
步骤300:搭建由主干网络、上采路径和顶端卷积组成的Centernet网络结构,其中顶端卷积使采用深度可分离卷积;
步骤400:设计BOX匹配机制和损失函数构建完整的Centernet网络结构;
步骤500:使用训练集、验证集及测试集对完整的Centernet网络结构进行训练、验证及测试获得Centernet网络模型;
步骤600:利用Centernet网络模型识别跟踪实时视频流数据中的人体。
根据上述技术方案的人体识别跟踪方法,采用深度可分离卷积作为Centernet网络结构的,能够显著压缩参数和计算量,提升模型的运算性能,同时可以在不降低图像分辨率且不增加额外计算量的基础上,扩大感受野,进而实现检测分割大目标,实现精确定位目标。同时采用不同卷积率的卷积,可以获得不同感受野的特征,即可获得多尺度的行人特征。设计的Box匹配机制和损失函数可以分别解决行人检测中经常出现的中心点重合问题和正负样本不平衡的问题。
在Centernet网络中,特征图中一系列固定的BBox通过计算交并比来判断是否为正样本,若交并比大于0.7则标记为正样本,小于0.3则标记为负样本。正样本的BBox包含对象的中心点,且中心点在低分辨率上,每一个中心点仅能检测一个对象,网络仅需要预测在某一单元格内的偏移即可预测BBox。在这种设计下,一个特征点仅能预测一个对象,若一张图像中有超过一个对象中心点重合,则会导致漏检,而在行人检测中这种问题比较常见。所以在一些实施例中,步骤400的Box匹配机制为:在Anchor选择时,如果包含特征点对应的中心点BBox被占用,则选择离该中心点最近的BBox为Anchor来预测对象,这样就避免了中心点重复的问题。
在一些实施例中,损失函数由三部分组成,总体可以表示为下式:
Ldel=Lk+Lsize+Loff
其中,Ldel为总损失,Lk为置信度损失,Lsize为目标框大小损失,Loff为中心偏移损失。设定预测的Bbox参数为(bx,by,bw,bh),其中bx和by分别为Box中心点的位置,bw和bh代表Box的宽和高,在输入模型的尺寸为512×512,输出为28×28的特征图时,由于一个特征点仅预测一个对象,极端情况下会出现正负样本的极度不平衡。为了解决这个问题,在置信度损失中加入ξ、δ、ζ三个影响因子提高正样本的损失和减小负样本的损失以解决正负样本不平衡的问题,即:
Lk=ξ1Lnt+ξ2Lpt
Lnt=-(1-by^)δ 1*log(by^+ζ)
Lpt=-(1-by^)δ 2*log(by^)
在负样本损失Lnt中通过设置ζ和δ1两个因子来减小负样本的损失,在正样本损失Lpt中通过δ2进行调节,最后通过ξ因子来控制正样本和负样本损失所占的比例。通过对损失函数中的ξ1、ξ2、δ1、δ2、ζ使用网格搜索得到最佳的一组参数。在本实施例中,取ξ1为0.25、ξ2为1、δ1为3、δ2为1.5、ζ为0.2。
在一些实施例中,步骤100中的原始视频流数据,可以通过实时录像的方式对地面行人的场景进行数据采集,同时辅以互联网爬虫来扩充数据库。目前许多例如MIT和ImageNet等行人检测公开数据集,大部分都是平视视角,不适用于俯视视角设置的监控摄像头,所以需要自行实地拍摄获得俯视角的行人数据,再配合互联网爬虫去补充数据量。
在一些实施例中,原始视频流数据通过脚本转化为图片,可以通过调用CV2中的imencode函数循环读取视频,每隔若干帧进行存储操作,将视频流转化成一组图片。
在一些实施例中,步骤200中的数据增强主要包括集合变换和颜色变换两种手段,其中几何变换包括随机翻转、旋转、裁剪、变形、缩放等各类操作,颜色变换包括包括噪声、高斯模糊、颜色变换、擦除、填充等。在本实施例中,主要采用几何变换中的随机旋转和缩放以及颜色变换中的高斯模糊。
在一些实施例中,需要对增强后的图片进行人工筛选,通过人工筛选控制场景类型和行人数量,使不同类型的数据尽量做到平均分布,这样才能够提高模型的泛化性能,防止其过拟合。在本实施例中,通过手工标注的方式按照PASCAL VOC格式对样本进行标记。采用PASCAL VOC格式是因为目前大多数数据库都是按照这个格式,方便训练其它类型的数据特征。标注工具为LabelImg,它是一款采用Python语言编写的多平台图像标注工具,通过可视化界面交互方式标记样本信息,得到与样本一一对应的xml脚本文件,标注所需对象信息为行人类别属性(Person)和目标行人边界框坐标信息,最终得到一套完整的包含训练集、验证集及测试集的训练集。
图2中的左图为传统的Centernet网络结构,采用hourglass网络结构,图2中的右图为本发明的实施例的Centernet网络结构。在一些实施例中,步骤300中的Centernet网络结构采用更适合于嵌入式设备的轻量化网络,如ResNet-18、MobileNet、Xception、ShuffleNet等,可以理解的是,主干网络也可以切换为ResNet101、DenseNet等较大的网络来获取更高的准确度。
在本实施例中,Centernet网络的主干网络采用轻量化的残差网络ResNet-18,以提升检测速度,其网络结构列表如表1所示。
表1 ResNet-18网络结构表
在本实施例汇总,先通过转置卷积进行上下采样操作,先使用可变形卷积更改卷积核数目,再使用转置卷积对特征图进行上采样。选取ResNet网络中“layer2”、“layer3”和“layer4”的输出分别作为“8x”、“16x”和“32x”的特征图,然后通过特征融合模块来对这三个特征图进行融合,接着在融合后“8x”倍的特征图上通过反卷积上采到“4x”,最后通过网络顶端的两个卷积来进行类别置信度和BBox预测。
由于经过多次卷积和池化操作会丢失大量的特征信息,降低检测的精度。同时又因为浅层特征图的尺寸普遍较大,大量地引入浅层特征会降低网络的实时性,而在特征表示的层面上,低层的和高层的特征表示不同,仅仅以通道来连接低层和高层特征,则就会带来很多噪音。所以为解决上述问题,在一些实施例中,在上采路径中加入特征融合模块,特征融合模块将浅层特征与深层特征进行融合,融合了低层丰富的空间信息和高层的语义信息,从而可以增加小目标及被遮挡目标检测的精度,这一点在对较大人流的检测跟踪上有着很大的优势。
在一些实施例中,为了优化提取的图像特征,避免大量冗余特征,进一步加快检测速度的同时获得更好的特征表达,在上采路径中加入注意力模块(CBAM)。
在一些实施例中,Centernet网络结构在增加了注意力模块的基础上还采用h-swish和h-sigmoid激活函数,替换传统的ReLU和Sigmoid激活函数,进一步减少计算量的同时,还能有效避免模型计算时的精度损失。
在一些实施例中,步骤500包括:
步骤510:给定模型训练方式及参数,将训练集送入到完整的Centernet网络结构训练获得第一特征数据集;
步骤520:在载体设备上进行训练,获得Centernet网络模型。
在本实施例中,训练过程依次为全部网络结构-部分结构-头部结构-全部网络结构。步骤510中具体的训练方式及参数如下:训练前期损失较大,采用步长型的学习率策略,通过较大的学习率来加快模型的收敛;训练后期使用余弦函数型的学习率衰减来提供较小的学习率,保证模型的收敛稳定。整个训练过程中,稀疏率为0.01,学习率中γ为0.1,学习率为0.0001,步长大小为100,每迭代100步,学习率下降为之前的学习率的十分之一,迭代周期为140次,批量训练的批次大小为16。
在步骤520中,每一个迭代周期,保存一次模型的权重文件,通过选择继续训练模式,继承选定迭代周期的权重文件继续训练。
Claims (9)
1.一种人体识别跟踪方法,其特征在于,包括如下步骤:
步骤100:采集原始视频流数据,并将原始视频流数据转化为图片建立初始数据集;
步骤200:对初始数据集进行增强处理及筛选,获得训练集、验证集及测试集;
步骤300:搭建由主干网络、上采路径和顶端卷积组成的Centernet网络结构,其中顶端卷积使采用深度可分离卷积;
步骤400:设计BOX匹配机制和损失函数构建完整的Centernet网络结构;
步骤500:使用训练集、验证集及测试集对完整的Centernet网络结构进行训练、验证及测试获得Centernet网络模型;
步骤600:利用Centernet网络模型识别跟踪实时视频流数据中的人体。
2.根据权利要求1所述的人体识别跟踪方法,其特征在于,所述步骤400中的BOX匹配机制为:若包含特征点预测的对象的中心点的Bbox被占用,则选择离该对象的中心点最近的Bbox为Anchor。
3.根据权利要求1所述的人体识别跟踪方法,其特征在于,所述步骤400中的损失函数表示为:
Ldel=Lk+Lsize+Loff
其中,Ldel为总损失,Lk为置信度损失,Lsize为目标框大小损失,Loff为中心偏移损失,设定预测的Bbox参数为(bx,by,bw,bh),其中bx和by分别为Box中心点的位置,bw和bh代表Box的宽和高,在置信度损失中加入ξ、δ、ζ三个影响因子,即:
Lk=ξ1Lnt+ξ2Lpt
Lnt=--(1-by^)δ1*log(by^+ζ)
Lpt=-(1-by^)δ2*log(by^)
其中Lnt为负样本损失,Lpt为正样本损失,ξ1、ξ2、δ1、δ2、ζ由网格搜索得到最佳值。
4.根据权利要求1所述的人体识别跟踪方法,其特征在于,所述步骤100中的原始视频流数据通过摄像头实时录像辅以互联网爬虫的方式获得。
5.根据权利要求1所述的人体识别跟踪方法,其特征在于,所述步骤200中的增强处理包括几何变换及颜色变换。
6.根据权利要求1所述的人体识别跟踪方法,其特征在于,所述步骤300中的主干网络为ResNet-18、MobileNet、Xception、ShuffleNet、ResNet101和DenseNet中的一种。
7.根据权利要求1所述的人体识别跟踪方法,其特征在于,所述步骤300中的上采路径包括CBAM模块和特征融合模块,所述CBAM模块用于优化提取的图像特征,所述特征融合模块用于融合浅层特征即深层特征。
8.根据权利要求7所述的人体识别跟踪方法,其特征在于,所述步骤300中的Centernet网络的激活函数为h-swish和h-sigmoid。
9.根据权利要求1所述的人体识别跟踪方法,其特征在于,所述步骤500包括:
步骤510:给定模型训练方式及参数,将训练集送入到完整的Centernet网络结构训练获得第一特征数据集;
步骤520:在载体设备上进行训练,获得Centernet网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110095729.1A CN112784756B (zh) | 2021-01-25 | 2021-01-25 | 人体识别跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110095729.1A CN112784756B (zh) | 2021-01-25 | 2021-01-25 | 人体识别跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112784756A CN112784756A (zh) | 2021-05-11 |
CN112784756B true CN112784756B (zh) | 2022-08-26 |
Family
ID=75758905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110095729.1A Active CN112784756B (zh) | 2021-01-25 | 2021-01-25 | 人体识别跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112784756B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191334B (zh) * | 2021-05-31 | 2022-07-01 | 广西师范大学 | 一种基于改进CenterNet的植物冠层密集叶片计数方法 |
CN113313736B (zh) * | 2021-06-10 | 2022-05-17 | 厦门大学 | 统一目标运动感知和重识别网络的在线多目标跟踪方法 |
CN113569727B (zh) * | 2021-07-27 | 2022-10-21 | 广东电网有限责任公司 | 遥感影像中施工场地的识别方法、系统、终端及介质 |
CN113808170B (zh) * | 2021-09-24 | 2023-06-27 | 电子科技大学长三角研究院(湖州) | 一种基于深度学习的反无人机跟踪方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321874A (zh) * | 2019-07-12 | 2019-10-11 | 南京航空航天大学 | 一种轻量化的卷积神经网络行人识别方法 |
CN111582213A (zh) * | 2020-05-15 | 2020-08-25 | 北京铁科时代科技有限公司 | 一种基于Centernet的汽车识别方法 |
-
2021
- 2021-01-25 CN CN202110095729.1A patent/CN112784756B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321874A (zh) * | 2019-07-12 | 2019-10-11 | 南京航空航天大学 | 一种轻量化的卷积神经网络行人识别方法 |
CN111582213A (zh) * | 2020-05-15 | 2020-08-25 | 北京铁科时代科技有限公司 | 一种基于Centernet的汽车识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112784756A (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112784756B (zh) | 人体识别跟踪方法 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN110533041B (zh) | 基于回归的多尺度场景文本检测方法 | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN112036447A (zh) | 零样本目标检测系统及可学习语义和固定语义融合方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN111882620A (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN112070040A (zh) | 一种用于视频字幕的文本行检测方法 | |
CN113239753A (zh) | 基于YOLOv4改进的交通标志检测与识别方法 | |
CN114782798A (zh) | 一种基于注意力融合的水下目标检测方法 | |
CN112507904A (zh) | 一种基于多尺度特征的教室人体姿态实时检测方法 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN110633706B (zh) | 一种基于金字塔网络的语义分割方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN117079163A (zh) | 一种基于改进yolox-s的航拍图像小目标检测方法 | |
CN115908793A (zh) | 一种基于位置注意力机制的编解码结构语义分割模型 | |
CN114662605A (zh) | 基于改进的YOLOv5模型的火焰检测方法 | |
CN117710841A (zh) | 一种无人机航拍图像的小目标检测方法、装置 | |
CN116597267B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN117011515A (zh) | 基于注意力机制的交互式图像分割模型及其分割方法 | |
CN116403133A (zh) | 一种基于YOLO v7改进的车辆检测算法 | |
CN116524596A (zh) | 一种基于动作粒度分组结构的体育视频动作识别方法 | |
CN111339950A (zh) | 一种遥感图像目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |