CN114879891A - 一种自监督多目标跟踪下的多模态人机互动方法 - Google Patents
一种自监督多目标跟踪下的多模态人机互动方法 Download PDFInfo
- Publication number
- CN114879891A CN114879891A CN202210543589.4A CN202210543589A CN114879891A CN 114879891 A CN114879891 A CN 114879891A CN 202210543589 A CN202210543589 A CN 202210543589A CN 114879891 A CN114879891 A CN 114879891A
- Authority
- CN
- China
- Prior art keywords
- mask
- supervision
- target
- self
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000003993 interaction Effects 0.000 title claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 34
- 230000000694 effects Effects 0.000 claims abstract description 9
- 238000003058 natural language processing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 claims description 11
- 238000013135 deep learning Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 7
- 238000000691 measurement method Methods 0.000 claims description 7
- 230000000873 masking effect Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 210000000988 bone and bone Anatomy 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 8
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 abstract 1
- 238000007689 inspection Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04845—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种自监督多目标跟踪下的多模态人机互动方法,包括以下步骤:改进目标检测Yolov5,增加了MASK自监督模块。具体的,采用卷积结构的自监督机制MASK模块替换自然语言处理中的transformer模块,Focus和自监督结合的方式,掩码机制的设计使得图像可以自监督训练,在数据增强得同时,使得模型拥有了更好的泛化能力;将基于自监督的Yolov5‑MASK目标检测模型与Deep‑SORT相结合,使其更加适应于实际应用的场所;将改进后的Deep‑SORT多目标跟踪算法模型与语音识别相结合;并在VisDrone2021上进行测试;本发明采用多模态的人机互动,提高目标检测跟踪效果,添加语音识别功能,丰富应用场景。
Description
技术领域
本发明属于目标检测技术领域,涉及目标检测方法,具体涉及一种自监督多目标跟踪下的多模态人机互动方法。
背景技术
随着计算机技术和硬件的不断革新和大数据时代的来临,停滞发展很久的计算机视觉技术在近几年逐渐成为了国内外各大科研院所的研究热门,计算机视觉技术中的目标跟踪算法是一项具有挑战性和应用前景的研究方向。目标跟踪旨在只有目标的初始状态(视频帧)的情况下,可以估计未知视觉目标的轨迹。目标跟踪因其研究的开放性和发展性,具有广泛的类别和应用,包括了自动驾驶汽车、视频监控、人群行为分析和无人机侦察等。目标跟踪按照追踪目标数量不同可以分为单目标跟踪(single object tracking,SOT)和多目标跟踪(multiple object tracking,MOT)。
传统的多目标跟踪算法中一般通过手动定义一些规则进行数据关联,深度学习实现了自动化寻找规则,一系列现代检验框架应运而生。这些新的检验框架相比以前在数据关联上面改动最为频繁和效果最好,因为现在有很多多目标跟踪数据集,这些数据集使得算法可以跳过检验阶段,直接在数据关联阶段比较实际性能。从多目标跟踪方法来看,近年来已经有了一批效果较好的算法,例如Yolov5+Deep-SORT,该算法已经应用于了很多领域,但是还存在一些问题,检测效果并不理想,数据集需求量大。从实际应用来看,单一的模态很难实际利用,例如视频的目标跟踪仅仅从视觉的领域解决问题与现实实际的问题解决存在差距。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种自监督多目标跟踪下的多模态人机互动方法,采用多模态的人机互动,提高目标检测跟踪效果,添加语音识别功能,丰富应用场景。
为了实现上述目的,本发明采用以下技术方案予以实现:
一种自监督多目标跟踪下的多模态人机互动方法,包括以下步骤:
步骤一:从视频中获取帧图像;
步骤二:改进目标检测Yolov5,增加了MASK自监督模块:采用卷积结构的自监督机制MASK模块替换自然语言处理中的基于transformer的自监督模块-Backbone部分,将视频序列输入的帧图像进行掩码处理;
步骤三:采用Focus-MASK替换原有的Focus,实现Focus切片处理和自监督相结合,Focus-MASK通过输入经步骤二掩码处理的遮掩图像的方式进行自监督训练;
步骤四:通过基于卷积的Cross-Stage-Partial-Network来增强神经网络提取特征性能,采用改进后的backbone神经网络提取视频序列输入的三层不同深度的特征图;
步骤五:将基于自监督的Yolov5-MASK目标检测模型与Deep-SORT相结合:将Yolov5-MASK输出的三层特征图作为输入,在检测到目标时通过卡尔曼滤波对目标轨迹进行预测,采用Mahalanobis距离作为信息间的度量方法,具体公式为:
式(1)中,dMahalanobis为检测目标位置与预测目标位置的Mahalanobis距离,x为检测第i个目标框的位置,μ为预测第i个目标的位置,S为两者之间的协方差矩阵;
并且与深度学习相结合,利用目标的外观特征计算目标间的最小余弦距离,然后利用匈牙利算法进行整体规划;通过融合度量的方法,对相同的目标进行串行的判断,当满足全部条件时判断为同一目标;
步骤六:将改进后的Deep-SORT多目标跟踪算法模型与语音识别相结合:对收音设备所收集的语音进行语音转文字,然后运用基于深度学习的命名实体识别技术,对语音中关键字进行提取,将提取后的关键字与多目标跟踪技术相结合,对提取的关键字在后台数据库设定特定的指令,实现语音与视频的人机互动;
步骤七:采用VisDrone2021的目标检测数据集作为训练和评估的数据集。
本发明还具有以下技术特征:
优选的,步骤一中所述的自监督机制MASK模块设计为通用模块Focus-MASK,采用全卷积结构。
优选的,步骤三中所述的Focus-MASK结构,在训练阶段,mask ratio为0.15,对输入图像进行遮挡,并对其切片处理;在测试阶段,mask ratio为0,不进行遮挡,可以真实反映算法的检测效果。
进一步的,步骤三中所述的Focus-MASK结构,采取Mask strategy的策略对于输入图像的W、H,设置相同W、H的遮掩图像,该部分设计遮盖输入图像的方式和区域,最终使遮掩后的图像输出,并且作为图像的首次下采样操作,确保图像信息不丢失的情况下,使维度增加。
优选的,步骤五中所述的目标轨迹预测中,若相同目标连续距离大于预测的dMahalanobis时,判定两目标不为同一目标,自动进行ID切换。
进一步的,步骤五中为了加快跟踪速度和适应实际场景,设计最大检测帧数为64。
本发明与现有技术相比,具有如下技术效果:
本发明设计了多模态的解决方法,采用了基于自然语言处理的语音识别控制多目标跟踪切换,在大量数据的支持下,直接用神经网络可以从输入的音频或音频对应的特征直接预测出与之对应的单词,而不需要拆分成声学模型和语言模型。将语音识别模型与多目标跟踪模型相结合实现一种自监督多目标跟踪下的多模态人机互动,丰富了未来多目标跟踪模型的应用前景,解决了模态单一,操作复杂的问题;
本发明采用了自监督的方式改进Yolov5检测器,提高了其在复杂场景中的检测效果,在本专利中将改进后的Deep-SORT多目标跟踪算法模型与语音识别相结合,以常见的车和人的目标跟踪为例,默认跟踪为全部目标,当模型识别出检测车辆的关键词语音时,画面中只显示车辆的跟踪结果;当模型识别出检测行人的关键词语音时,画面中只显示行人的跟踪结果。
附图说明
图1为目标跟踪流程;
图2为本发明的Focus-MASK结合自监督机制的简单通用模块;
图3为本发明的YOLOv5-MASK的Backbone结构;
图4为本发明的Focus-MASK的具体结构。
具体实施方式
以下结合实施例对本发明的具体内容做进一步详细解释说明。
如图1至图4所示,本实施例给出一种自监督多目标跟踪下的多模态人机互动方法,包括以下步骤:
步骤一:从视频中获取帧图像;
步骤二:改进目标检测Yolov5,增加了MASK自监督模块:采用全卷积结构的自监督机制MASK模块替换自然语言处理中的基于transformer的自监督模块-Backbone部分,将视频序列输入的帧图像进行掩码处理;Focus和自监督结合的方式,掩码机制的设计使得图像可以自监督训练,在数据增强得同时,使得模型拥有了更好的泛化能力;将视频序列输入的帧图像进行掩码处理,这种方式提高了模型对于图像中小目标的学习能力,防止了小目标容易过拟合的弊端;
步骤三:采用Focus-MASK替换原有的Focus,实现Focus切片处理和自监督相结合,Focus-MASK通过输入经步骤二掩码处理的遮掩图像的方式进行自监督训练;采取Maskstrategy的策略对于输入图像的W、H,我设置相同W、H的遮掩图像,该部分设计遮盖输入图像的方式和区域,最终使遮掩后的图像输出,并且作为图像的首次下采样操作,确保图像信息不丢失的情况下,使维度增加;
Focus-MASK结构在训练阶段,mask ratio为0.15,对输入图像进行遮挡,并对其切片处理;在测试阶段,mask ratio为0,不进行遮挡,可以真实反映算法的检测效果;
掩码机制的设计使得图像可以自监督训练,在数据增强得同时,使得模型拥有了更好的泛化能力;
步骤四:通过基于卷积的Cross-Stage-Partial-Network(CSPNet)来增强神经网络提取特征性能,采用改进后的backbone神经网络提取视频序列输入的不同深度的特征;如图三所示,分别输出第4,6,9层的特征图,实现了不同深度的特征提取;在保证检测高精度的同时,也减少了计算量;
步骤五:将基于自监督的Yolov5-MASK目标检测模型与Deep-SORT相结合,使其更加适应于实际应用的场所;
DeepSORT是一个基于深度学习的外观特征模型和运动信息模型相关联的跟踪框架;将Yolov5-MASK输出的三层特征图作为输入,在检测到目标时通过卡尔曼滤波对目标轨迹进行预测,采用Mahalanobis距离作为信息间的度量方法,具体公式为,若相同目标连续距离大于预测的dMahalanobis时,判定两目标不为同一目标,自动进行ID切换;其中,dMahalanobis为检测目标位置与预测目标位置的Mahalanobis距离,x为检测第i个目标框的位置,μ为预测第i个目标的位置,S为两者之间的协方差矩阵;
并且与深度学习相结合,利用目标的外观特征计算目标间的最小余弦距离,然后利用匈牙利算法进行整体规划,达到了24FPS以上的跟踪速度;为了加快跟踪速度和适应实际场景,设计最大检测帧数为64;
下表显示了外观特征算法流程,其中f(i)时原始信号,f(u)是离线余弦变换后的信号,N是原始信号的个数,c(U)是补偿系数,Reid代表特征提取算法;
通过融合度量的方法,对外观特征模型和运动信息模型的输出计算相似性,对相同的目标进行串行的判断,当满足全部条件时判断为同一目标;
步骤六:将改进后的Deep-SORT多目标跟踪算法模型与语音识别相结合;
对收音设备所收集的语音进行语音转文字,然后运用基于深度学习的命名实体识别技术,对语音中关键字进行提取,例如:车、人、5号目标等,将提取后的关键字与多目标跟踪技术相结合,对提取的关键字在后台数据库设定特定的指令,实现了语音与视频的人机互动。
步骤七:采用VisDrone2021的目标检测数据集作为训练和评估的数据集;
VisDrone2021数据集包换了城市中各种场景,具有10个标注目标;本发明的模型都在训练集上训练,测试集上评估。DeepSORT采用通用的osnet_x1_0作为行人重识别模型的权重,可以突出我们设计的检测器的优越,突出跟踪器的改进点。
将本发明的多模态的自监督多目标跟踪方法布置在马路上监控视像头,可以提高监控者的警报准确率和及时性,具体包括以下步骤:
步骤一:从视频中获取帧图像;
步骤二:改进目标检测Yolov5,增加了MASK自监督模块:采用全卷积结构的自监督机制MASK模块替换自然语言处理中的基于transformer的自监督模块-Backbone部分,将视频序列输入的帧图像进行掩码处理;
步骤三:采用Focus-MASK替换原有的Focus,实现Focus切片处理和自监督相结合,Focus-MASK通过输入经步骤二掩码处理的遮掩图像的方式进行自监督训练;采取Maskstrategy的策略对于输入图像的W、H,我设置相同W、H的遮掩图像,该部分设计遮盖输入图像的方式和区域,最终使遮掩后的图像输出,并且作为图像的首次下采样操作,确保图像信息不丢失的情况下,使维度增加;
Focus-MASK结构在训练阶段,mask ratio为0.15,对输入图像进行遮挡,并对其切片处理;在测试阶段,mask ratio为0,不进行遮挡,可以真实反映算法的检测效果;
步骤四:通过基于卷积的Cross-Stage-Partial-Network(CSPNet)来增强神经网络提取特征性能,采用改进后的backbone神经网络提取视频序列输入的不同深度的特征;如图三所示,分别输出第4,6,9层的特征图;
步骤五:将基于自监督的Yolov5-MASK目标检测模型与Deep-SORT相结合;
将Yolov5-MASK输出的三层特征图作为输入,通过融合度量的方法,对外观特征模型和运动信息模型的输出计算相似性;
在检测到目标时通过卡尔曼滤波对目标轨迹进行预测,采用了Mahalanobis距离作为一种信息间的度量,当距离过远时,自动进行ID切换。并且与深度学习相结合,利用目标的外观特征计算目标间的最小余弦距离,然后利用匈牙利算法进行整体规划,达到了24FPS以上的跟踪速度。为了加快跟踪速度和适应实际场景,设计最大检测帧数为64。
将本发明的多模态的自监督多目标跟踪方法布置在智能机器人上,可以提高人与智能机器人之间的协同,通过人类的语言控制智能机器人识别和跟踪特定物体,具体包括以下步骤:
步骤一:从视频中获取帧图像;
步骤二:改进目标检测Yolov5,增加了MASK自监督模块:采用全卷积结构的自监督机制MASK模块替换自然语言处理中的基于transformer的自监督模块-Backbone部分,将视频序列输入的帧图像进行掩码处理;
步骤三:采用Focus-MASK替换原有的Focus,实现Focus切片处理和自监督相结合,Focus-MASK通过输入经步骤二掩码处理的遮掩图像的方式进行自监督训练;采取Maskstrategy的策略对于输入图像的W、H,我设置相同W、H的遮掩图像,该部分设计遮盖输入图像的方式和区域,最终使遮掩后的图像输出,并且作为图像的首次下采样操作,确保图像信息不丢失的情况下,使维度增加;
Focus-MASK结构在训练阶段,mask ratio为0.15,对输入图像进行遮挡,并对其切片处理;在测试阶段,mask ratio为0,不进行遮挡,可以真实反映算法的检测效果;
步骤四:通过基于卷积的Cross-Stage-Partial-Network(CSPNet)来增强神经网络提取特征性能,采用改进后的backbone神经网络提取视频序列输入的不同深度的特征;如图三所示,分别输出第4,6,9层的特征图;
步骤五:将改进后的Deep-SORT多目标跟踪算法模型与语音识别相结合;
对收音设备所收集的语音进行语音转文字,然后运用基于深度学习的命名实体识别技术,对语音中关键字进行提取,例如:车、人、5号目标等,将提取后的关键字与多目标跟踪技术相结合,对提取的关键字在后台数据库设定特定的指令,实现了语音与视频的人机互动。
Claims (6)
1.一种自监督多目标跟踪下的多模态人机互动方法,其特征在于,包括以下步骤:
步骤一:从视频中获取帧图像;
步骤二:改进目标检测Yolov5,增加了MASK自监督模块:采用卷积结构的自监督机制MASK模块替换自然语言处理中的基于transformer的自监督模块-Backbone部分,将视频序列输入的帧图像进行掩码处理;
步骤三:采用Focus-MASK替换原有的Focus,实现Focus切片处理和自监督相结合,Focus-MASK通过输入经步骤二掩码处理的遮掩图像的方式进行自监督训练;
步骤四:通过基于卷积的Cross-Stage-Partial-Network来增强神经网络提取特征性能,采用改进后的backbone神经网络提取视频序列输入的三层不同深度的特征图;
步骤五:将基于自监督的Yolov5-MASK目标检测模型与Deep-SORT相结合:将Yolov5-MASK输出的三层特征图作为输入,在检测到目标时通过卡尔曼滤波对目标轨迹进行预测,采用Mahalanobis距离作为信息间的度量方法,具体公式为:
式(1)中,dMahalanobis为检测目标位置与预测目标位置的Mahalanobis距离,x为检测第i个目标框的位置,μ为预测第i个目标的位置,S为两者之间的协方差矩阵;
并且与深度学习相结合,利用目标的外观特征计算目标间的最小余弦距离,然后利用匈牙利算法进行整体规划;通过融合度量的方法,对相同的目标进行串行的判断,当满足全部条件时判断为同一目标;
步骤六:将改进后的Deep-SORT多目标跟踪算法模型与语音识别相结合:对收音设备所收集的语音进行语音转文字,然后运用基于深度学习的命名实体识别技术,对语音中关键字进行提取,将提取后的关键字与多目标跟踪技术相结合,对提取的关键字在后台数据库设定特定的指令,实现语音与视频的人机互动;
步骤七:采用VisDrone2021的目标检测数据集作为训练和评估的数据集。
2.如权利要求1所述的自监督多目标跟踪下的多模态人机互动方法,其特征在于,步骤一中所述的自监督机制MASK模块设计为通用模块Focus-MASK,采用全卷积结构。
3.如权利要求1所述的自监督多目标跟踪下的多模态人机互动方法,其特征在于,步骤三中所述的Focus-MASK结构,在训练阶段,mask ratio为0.15,对输入图像进行遮挡,并对其切片处理;在测试阶段,mask ratio为0,不进行遮挡,可以真实反映算法的检测效果。
4.如权利要求3所述的自监督多目标跟踪下的多模态人机互动方法,其特征在于,步骤三中所述的Focus-MASK结构,采取Mask strategy的策略对于输入图像的W、H,设置相同W、H的遮掩图像,该部分设计遮盖输入图像的方式和区域,最终使遮掩后的图像输出,并且作为图像的首次下采样操作,确保图像信息不丢失的情况下,使维度增加。
5.如权利要求1所述的自监督多目标跟踪下的多模态人机互动方法,其特征在于,步骤五中所述的目标轨迹预测中,若相同目标连续距离大于预测的dMahalanobis时,判定两目标不为同一目标,自动进行ID切换。
6.如权利要求5所述的自监督多目标跟踪下的多模态人机互动方法,其特征在于,步骤五中为了加快跟踪速度和适应实际场景,设计最大检测帧数为64。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210543589.4A CN114879891B (zh) | 2022-05-19 | 2022-05-19 | 一种自监督多目标跟踪下的多模态人机互动方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210543589.4A CN114879891B (zh) | 2022-05-19 | 2022-05-19 | 一种自监督多目标跟踪下的多模态人机互动方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114879891A true CN114879891A (zh) | 2022-08-09 |
CN114879891B CN114879891B (zh) | 2024-04-26 |
Family
ID=82676490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210543589.4A Active CN114879891B (zh) | 2022-05-19 | 2022-05-19 | 一种自监督多目标跟踪下的多模态人机互动方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114879891B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116012650A (zh) * | 2023-01-03 | 2023-04-25 | 北京百度网讯科技有限公司 | 文字识别模型训练及其识别方法、装置、设备和介质 |
CN116091551A (zh) * | 2023-03-14 | 2023-05-09 | 中南大学 | 一种基于多模态融合的目标检索跟踪方法及系统 |
CN117079245A (zh) * | 2023-07-05 | 2023-11-17 | 浙江工业大学 | 一种基于无线信号的交通道路目标识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307921A (zh) * | 2020-10-22 | 2021-02-02 | 桂林电子科技大学 | 一种车载端多目标识别跟踪预测方法 |
CN112836639A (zh) * | 2021-02-03 | 2021-05-25 | 江南大学 | 基于改进YOLOv3模型的行人多目标跟踪视频识别方法 |
CN113435336A (zh) * | 2021-06-28 | 2021-09-24 | 安徽一视科技有限公司 | 一种基于人工智能的跑步智能计时系统及方法 |
US20220076431A1 (en) * | 2020-09-09 | 2022-03-10 | Tata Consultancy Services Limited | System and method for forecasting location of target in monocular first person view |
-
2022
- 2022-05-19 CN CN202210543589.4A patent/CN114879891B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220076431A1 (en) * | 2020-09-09 | 2022-03-10 | Tata Consultancy Services Limited | System and method for forecasting location of target in monocular first person view |
CN112307921A (zh) * | 2020-10-22 | 2021-02-02 | 桂林电子科技大学 | 一种车载端多目标识别跟踪预测方法 |
CN112836639A (zh) * | 2021-02-03 | 2021-05-25 | 江南大学 | 基于改进YOLOv3模型的行人多目标跟踪视频识别方法 |
CN113435336A (zh) * | 2021-06-28 | 2021-09-24 | 安徽一视科技有限公司 | 一种基于人工智能的跑步智能计时系统及方法 |
Non-Patent Citations (2)
Title |
---|
GUO SHAOZHE等: "A Asymmetric Attention Siamese Network for Visual Object Tracking", 2021 2ND INTERNATIONAL CONFERENCE ON BIG DATA AND INFORMATIZATION EDUCATION (ICBDIE), 21 June 2021 (2021-06-21) * |
张楚楚;吕学斌;: "基于改进YOLOv2网络的密集人群场景行人检测", 现代计算机(专业版), no. 28, 5 October 2018 (2018-10-05) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116012650A (zh) * | 2023-01-03 | 2023-04-25 | 北京百度网讯科技有限公司 | 文字识别模型训练及其识别方法、装置、设备和介质 |
CN116012650B (zh) * | 2023-01-03 | 2024-04-23 | 北京百度网讯科技有限公司 | 文字识别模型训练及其识别方法、装置、设备和介质 |
CN116091551A (zh) * | 2023-03-14 | 2023-05-09 | 中南大学 | 一种基于多模态融合的目标检索跟踪方法及系统 |
CN116091551B (zh) * | 2023-03-14 | 2023-06-20 | 中南大学 | 一种基于多模态融合的目标检索跟踪方法及系统 |
CN117079245A (zh) * | 2023-07-05 | 2023-11-17 | 浙江工业大学 | 一种基于无线信号的交通道路目标识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114879891B (zh) | 2024-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114879891B (zh) | 一种自监督多目标跟踪下的多模态人机互动方法 | |
CN108629288B (zh) | 一种手势识别模型训练方法、手势识别方法及系统 | |
CN112257569B (zh) | 一种基于实时视频流的目标检测和识别方法 | |
CN111862145B (zh) | 一种基于多尺度行人检测的目标跟踪方法 | |
CN110796679B (zh) | 一种面向航拍影像的目标跟踪方法 | |
Krishna et al. | Object detection and tracking using Yolo | |
CN112116593A (zh) | 一种基于基尼指数的领域自适应语义分割方法 | |
CN108830170A (zh) | 一种基于分层特征表示的端到端目标跟踪方法 | |
CN114283355A (zh) | 一种基于小样本学习的多目标濒危动物跟踪方法 | |
CN116665095B (zh) | 一种运动舰船检测方法、系统、存储介质和电子设备 | |
Ma et al. | AVS-YOLO: Object detection in aerial visual scene | |
CN115239765A (zh) | 基于多尺度可形变注意力的红外图像目标跟踪系统及方法 | |
CN108664918B (zh) | 基于背景感知相关滤波器的智能车辆前方行人跟踪方法 | |
CN114266805A (zh) | 一种用于无人机目标跟踪的孪生区域建议网络模型 | |
CN111914625B (zh) | 基于检测器与跟踪器数据关联的多目标车辆跟踪装置 | |
CN114067359B (zh) | 融合人体关键点与可见部位注意力特征的行人检测方法 | |
Li et al. | Long short-term memory improved Siamese network for robust target tracking | |
CN116109667A (zh) | 一种基于孪生网络的单目标跟踪方法及系统 | |
CN109684954B (zh) | 在无人设备上实现目标检测的在线训练方法 | |
Yu et al. | Improved traffic signal light recognition algorithm based on YOLO v3 | |
Jiang et al. | Face detection based on improved YOLOv5 algorithm | |
Fan et al. | Pose recognition for dense vehicles under complex street scenario | |
Guo et al. | Multiple Object Tracking in aerial vehicle overhead video | |
Gui et al. | Research on student group tracking algorithm based on teaching scene | |
Zhang et al. | Learning multi-layer interactive residual feature fusion network for real-time traffic sign detection with stage routing attention |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |