CN114879891A - 一种自监督多目标跟踪下的多模态人机互动方法 - Google Patents

一种自监督多目标跟踪下的多模态人机互动方法 Download PDF

Info

Publication number
CN114879891A
CN114879891A CN202210543589.4A CN202210543589A CN114879891A CN 114879891 A CN114879891 A CN 114879891A CN 202210543589 A CN202210543589 A CN 202210543589A CN 114879891 A CN114879891 A CN 114879891A
Authority
CN
China
Prior art keywords
mask
supervision
target
self
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210543589.4A
Other languages
English (en)
Other versions
CN114879891B (zh
Inventor
郭少哲
崔翛龙
李永
高志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Engineering University of Chinese Peoples Armed Police Force
Original Assignee
Engineering University of Chinese Peoples Armed Police Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Engineering University of Chinese Peoples Armed Police Force filed Critical Engineering University of Chinese Peoples Armed Police Force
Priority to CN202210543589.4A priority Critical patent/CN114879891B/zh
Publication of CN114879891A publication Critical patent/CN114879891A/zh
Application granted granted Critical
Publication of CN114879891B publication Critical patent/CN114879891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种自监督多目标跟踪下的多模态人机互动方法,包括以下步骤:改进目标检测Yolov5,增加了MASK自监督模块。具体的,采用卷积结构的自监督机制MASK模块替换自然语言处理中的transformer模块,Focus和自监督结合的方式,掩码机制的设计使得图像可以自监督训练,在数据增强得同时,使得模型拥有了更好的泛化能力;将基于自监督的Yolov5‑MASK目标检测模型与Deep‑SORT相结合,使其更加适应于实际应用的场所;将改进后的Deep‑SORT多目标跟踪算法模型与语音识别相结合;并在VisDrone2021上进行测试;本发明采用多模态的人机互动,提高目标检测跟踪效果,添加语音识别功能,丰富应用场景。

Description

一种自监督多目标跟踪下的多模态人机互动方法
技术领域
本发明属于目标检测技术领域,涉及目标检测方法,具体涉及一种自监督多目标跟踪下的多模态人机互动方法。
背景技术
随着计算机技术和硬件的不断革新和大数据时代的来临,停滞发展很久的计算机视觉技术在近几年逐渐成为了国内外各大科研院所的研究热门,计算机视觉技术中的目标跟踪算法是一项具有挑战性和应用前景的研究方向。目标跟踪旨在只有目标的初始状态(视频帧)的情况下,可以估计未知视觉目标的轨迹。目标跟踪因其研究的开放性和发展性,具有广泛的类别和应用,包括了自动驾驶汽车、视频监控、人群行为分析和无人机侦察等。目标跟踪按照追踪目标数量不同可以分为单目标跟踪(single object tracking,SOT)和多目标跟踪(multiple object tracking,MOT)。
传统的多目标跟踪算法中一般通过手动定义一些规则进行数据关联,深度学习实现了自动化寻找规则,一系列现代检验框架应运而生。这些新的检验框架相比以前在数据关联上面改动最为频繁和效果最好,因为现在有很多多目标跟踪数据集,这些数据集使得算法可以跳过检验阶段,直接在数据关联阶段比较实际性能。从多目标跟踪方法来看,近年来已经有了一批效果较好的算法,例如Yolov5+Deep-SORT,该算法已经应用于了很多领域,但是还存在一些问题,检测效果并不理想,数据集需求量大。从实际应用来看,单一的模态很难实际利用,例如视频的目标跟踪仅仅从视觉的领域解决问题与现实实际的问题解决存在差距。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种自监督多目标跟踪下的多模态人机互动方法,采用多模态的人机互动,提高目标检测跟踪效果,添加语音识别功能,丰富应用场景。
为了实现上述目的,本发明采用以下技术方案予以实现:
一种自监督多目标跟踪下的多模态人机互动方法,包括以下步骤:
步骤一:从视频中获取帧图像;
步骤二:改进目标检测Yolov5,增加了MASK自监督模块:采用卷积结构的自监督机制MASK模块替换自然语言处理中的基于transformer的自监督模块-Backbone部分,将视频序列输入的帧图像进行掩码处理;
步骤三:采用Focus-MASK替换原有的Focus,实现Focus切片处理和自监督相结合,Focus-MASK通过输入经步骤二掩码处理的遮掩图像的方式进行自监督训练;
步骤四:通过基于卷积的Cross-Stage-Partial-Network来增强神经网络提取特征性能,采用改进后的backbone神经网络提取视频序列输入的三层不同深度的特征图;
步骤五:将基于自监督的Yolov5-MASK目标检测模型与Deep-SORT相结合:将Yolov5-MASK输出的三层特征图作为输入,在检测到目标时通过卡尔曼滤波对目标轨迹进行预测,采用Mahalanobis距离作为信息间的度量方法,具体公式为:
Figure BDA0003651184430000021
式(1)中,dMahalanobis为检测目标位置与预测目标位置的Mahalanobis距离,x为检测第i个目标框的位置,μ为预测第i个目标的位置,S为两者之间的协方差矩阵;
并且与深度学习相结合,利用目标的外观特征计算目标间的最小余弦距离,然后利用匈牙利算法进行整体规划;通过融合度量的方法,对相同的目标进行串行的判断,当满足全部条件时判断为同一目标;
步骤六:将改进后的Deep-SORT多目标跟踪算法模型与语音识别相结合:对收音设备所收集的语音进行语音转文字,然后运用基于深度学习的命名实体识别技术,对语音中关键字进行提取,将提取后的关键字与多目标跟踪技术相结合,对提取的关键字在后台数据库设定特定的指令,实现语音与视频的人机互动;
步骤七:采用VisDrone2021的目标检测数据集作为训练和评估的数据集。
本发明还具有以下技术特征:
优选的,步骤一中所述的自监督机制MASK模块设计为通用模块Focus-MASK,采用全卷积结构。
优选的,步骤三中所述的Focus-MASK结构,在训练阶段,mask ratio为0.15,对输入图像进行遮挡,并对其切片处理;在测试阶段,mask ratio为0,不进行遮挡,可以真实反映算法的检测效果。
进一步的,步骤三中所述的Focus-MASK结构,采取Mask strategy的策略对于输入图像的W、H,设置相同W、H的遮掩图像,该部分设计遮盖输入图像的方式和区域,最终使遮掩后的图像输出,并且作为图像的首次下采样操作,确保图像信息不丢失的情况下,使维度增加。
优选的,步骤五中所述的目标轨迹预测中,若相同目标连续距离大于预测的dMahalanobis时,判定两目标不为同一目标,自动进行ID切换。
进一步的,步骤五中为了加快跟踪速度和适应实际场景,设计最大检测帧数为64。
本发明与现有技术相比,具有如下技术效果:
本发明设计了多模态的解决方法,采用了基于自然语言处理的语音识别控制多目标跟踪切换,在大量数据的支持下,直接用神经网络可以从输入的音频或音频对应的特征直接预测出与之对应的单词,而不需要拆分成声学模型和语言模型。将语音识别模型与多目标跟踪模型相结合实现一种自监督多目标跟踪下的多模态人机互动,丰富了未来多目标跟踪模型的应用前景,解决了模态单一,操作复杂的问题;
本发明采用了自监督的方式改进Yolov5检测器,提高了其在复杂场景中的检测效果,在本专利中将改进后的Deep-SORT多目标跟踪算法模型与语音识别相结合,以常见的车和人的目标跟踪为例,默认跟踪为全部目标,当模型识别出检测车辆的关键词语音时,画面中只显示车辆的跟踪结果;当模型识别出检测行人的关键词语音时,画面中只显示行人的跟踪结果。
附图说明
图1为目标跟踪流程;
图2为本发明的Focus-MASK结合自监督机制的简单通用模块;
图3为本发明的YOLOv5-MASK的Backbone结构;
图4为本发明的Focus-MASK的具体结构。
具体实施方式
以下结合实施例对本发明的具体内容做进一步详细解释说明。
如图1至图4所示,本实施例给出一种自监督多目标跟踪下的多模态人机互动方法,包括以下步骤:
步骤一:从视频中获取帧图像;
步骤二:改进目标检测Yolov5,增加了MASK自监督模块:采用全卷积结构的自监督机制MASK模块替换自然语言处理中的基于transformer的自监督模块-Backbone部分,将视频序列输入的帧图像进行掩码处理;Focus和自监督结合的方式,掩码机制的设计使得图像可以自监督训练,在数据增强得同时,使得模型拥有了更好的泛化能力;将视频序列输入的帧图像进行掩码处理,这种方式提高了模型对于图像中小目标的学习能力,防止了小目标容易过拟合的弊端;
步骤三:采用Focus-MASK替换原有的Focus,实现Focus切片处理和自监督相结合,Focus-MASK通过输入经步骤二掩码处理的遮掩图像的方式进行自监督训练;采取Maskstrategy的策略对于输入图像的W、H,我设置相同W、H的遮掩图像,该部分设计遮盖输入图像的方式和区域,最终使遮掩后的图像输出,并且作为图像的首次下采样操作,确保图像信息不丢失的情况下,使维度增加;
Focus-MASK结构在训练阶段,mask ratio为0.15,对输入图像进行遮挡,并对其切片处理;在测试阶段,mask ratio为0,不进行遮挡,可以真实反映算法的检测效果;
掩码机制的设计使得图像可以自监督训练,在数据增强得同时,使得模型拥有了更好的泛化能力;
步骤四:通过基于卷积的Cross-Stage-Partial-Network(CSPNet)来增强神经网络提取特征性能,采用改进后的backbone神经网络提取视频序列输入的不同深度的特征;如图三所示,分别输出第4,6,9层的特征图,实现了不同深度的特征提取;在保证检测高精度的同时,也减少了计算量;
步骤五:将基于自监督的Yolov5-MASK目标检测模型与Deep-SORT相结合,使其更加适应于实际应用的场所;
DeepSORT是一个基于深度学习的外观特征模型和运动信息模型相关联的跟踪框架;将Yolov5-MASK输出的三层特征图作为输入,在检测到目标时通过卡尔曼滤波对目标轨迹进行预测,采用Mahalanobis距离作为信息间的度量方法,具体公式为,
Figure BDA0003651184430000051
若相同目标连续距离大于预测的dMahalanobis时,判定两目标不为同一目标,自动进行ID切换;其中,dMahalanobis为检测目标位置与预测目标位置的Mahalanobis距离,x为检测第i个目标框的位置,μ为预测第i个目标的位置,S为两者之间的协方差矩阵;
并且与深度学习相结合,利用目标的外观特征计算目标间的最小余弦距离,然后利用匈牙利算法进行整体规划,达到了24FPS以上的跟踪速度;为了加快跟踪速度和适应实际场景,设计最大检测帧数为64;
下表显示了外观特征算法流程,其中f(i)时原始信号,f(u)是离线余弦变换后的信号,N是原始信号的个数,c(U)是补偿系数,Reid代表特征提取算法;
Figure BDA0003651184430000052
Figure BDA0003651184430000061
通过融合度量的方法,对外观特征模型和运动信息模型的输出计算相似性,对相同的目标进行串行的判断,当满足全部条件时判断为同一目标;
步骤六:将改进后的Deep-SORT多目标跟踪算法模型与语音识别相结合;
对收音设备所收集的语音进行语音转文字,然后运用基于深度学习的命名实体识别技术,对语音中关键字进行提取,例如:车、人、5号目标等,将提取后的关键字与多目标跟踪技术相结合,对提取的关键字在后台数据库设定特定的指令,实现了语音与视频的人机互动。
步骤七:采用VisDrone2021的目标检测数据集作为训练和评估的数据集;
VisDrone2021数据集包换了城市中各种场景,具有10个标注目标;本发明的模型都在训练集上训练,测试集上评估。DeepSORT采用通用的osnet_x1_0作为行人重识别模型的权重,可以突出我们设计的检测器的优越,突出跟踪器的改进点。
将本发明的多模态的自监督多目标跟踪方法布置在马路上监控视像头,可以提高监控者的警报准确率和及时性,具体包括以下步骤:
步骤一:从视频中获取帧图像;
步骤二:改进目标检测Yolov5,增加了MASK自监督模块:采用全卷积结构的自监督机制MASK模块替换自然语言处理中的基于transformer的自监督模块-Backbone部分,将视频序列输入的帧图像进行掩码处理;
步骤三:采用Focus-MASK替换原有的Focus,实现Focus切片处理和自监督相结合,Focus-MASK通过输入经步骤二掩码处理的遮掩图像的方式进行自监督训练;采取Maskstrategy的策略对于输入图像的W、H,我设置相同W、H的遮掩图像,该部分设计遮盖输入图像的方式和区域,最终使遮掩后的图像输出,并且作为图像的首次下采样操作,确保图像信息不丢失的情况下,使维度增加;
Focus-MASK结构在训练阶段,mask ratio为0.15,对输入图像进行遮挡,并对其切片处理;在测试阶段,mask ratio为0,不进行遮挡,可以真实反映算法的检测效果;
步骤四:通过基于卷积的Cross-Stage-Partial-Network(CSPNet)来增强神经网络提取特征性能,采用改进后的backbone神经网络提取视频序列输入的不同深度的特征;如图三所示,分别输出第4,6,9层的特征图;
步骤五:将基于自监督的Yolov5-MASK目标检测模型与Deep-SORT相结合;
将Yolov5-MASK输出的三层特征图作为输入,通过融合度量的方法,对外观特征模型和运动信息模型的输出计算相似性;
在检测到目标时通过卡尔曼滤波对目标轨迹进行预测,采用了Mahalanobis距离作为一种信息间的度量,当距离过远时,自动进行ID切换。并且与深度学习相结合,利用目标的外观特征计算目标间的最小余弦距离,然后利用匈牙利算法进行整体规划,达到了24FPS以上的跟踪速度。为了加快跟踪速度和适应实际场景,设计最大检测帧数为64。
将本发明的多模态的自监督多目标跟踪方法布置在智能机器人上,可以提高人与智能机器人之间的协同,通过人类的语言控制智能机器人识别和跟踪特定物体,具体包括以下步骤:
步骤一:从视频中获取帧图像;
步骤二:改进目标检测Yolov5,增加了MASK自监督模块:采用全卷积结构的自监督机制MASK模块替换自然语言处理中的基于transformer的自监督模块-Backbone部分,将视频序列输入的帧图像进行掩码处理;
步骤三:采用Focus-MASK替换原有的Focus,实现Focus切片处理和自监督相结合,Focus-MASK通过输入经步骤二掩码处理的遮掩图像的方式进行自监督训练;采取Maskstrategy的策略对于输入图像的W、H,我设置相同W、H的遮掩图像,该部分设计遮盖输入图像的方式和区域,最终使遮掩后的图像输出,并且作为图像的首次下采样操作,确保图像信息不丢失的情况下,使维度增加;
Focus-MASK结构在训练阶段,mask ratio为0.15,对输入图像进行遮挡,并对其切片处理;在测试阶段,mask ratio为0,不进行遮挡,可以真实反映算法的检测效果;
步骤四:通过基于卷积的Cross-Stage-Partial-Network(CSPNet)来增强神经网络提取特征性能,采用改进后的backbone神经网络提取视频序列输入的不同深度的特征;如图三所示,分别输出第4,6,9层的特征图;
步骤五:将改进后的Deep-SORT多目标跟踪算法模型与语音识别相结合;
对收音设备所收集的语音进行语音转文字,然后运用基于深度学习的命名实体识别技术,对语音中关键字进行提取,例如:车、人、5号目标等,将提取后的关键字与多目标跟踪技术相结合,对提取的关键字在后台数据库设定特定的指令,实现了语音与视频的人机互动。

Claims (6)

1.一种自监督多目标跟踪下的多模态人机互动方法,其特征在于,包括以下步骤:
步骤一:从视频中获取帧图像;
步骤二:改进目标检测Yolov5,增加了MASK自监督模块:采用卷积结构的自监督机制MASK模块替换自然语言处理中的基于transformer的自监督模块-Backbone部分,将视频序列输入的帧图像进行掩码处理;
步骤三:采用Focus-MASK替换原有的Focus,实现Focus切片处理和自监督相结合,Focus-MASK通过输入经步骤二掩码处理的遮掩图像的方式进行自监督训练;
步骤四:通过基于卷积的Cross-Stage-Partial-Network来增强神经网络提取特征性能,采用改进后的backbone神经网络提取视频序列输入的三层不同深度的特征图;
步骤五:将基于自监督的Yolov5-MASK目标检测模型与Deep-SORT相结合:将Yolov5-MASK输出的三层特征图作为输入,在检测到目标时通过卡尔曼滤波对目标轨迹进行预测,采用Mahalanobis距离作为信息间的度量方法,具体公式为:
Figure FDA0003651184420000011
式(1)中,dMahalanobis为检测目标位置与预测目标位置的Mahalanobis距离,x为检测第i个目标框的位置,μ为预测第i个目标的位置,S为两者之间的协方差矩阵;
并且与深度学习相结合,利用目标的外观特征计算目标间的最小余弦距离,然后利用匈牙利算法进行整体规划;通过融合度量的方法,对相同的目标进行串行的判断,当满足全部条件时判断为同一目标;
步骤六:将改进后的Deep-SORT多目标跟踪算法模型与语音识别相结合:对收音设备所收集的语音进行语音转文字,然后运用基于深度学习的命名实体识别技术,对语音中关键字进行提取,将提取后的关键字与多目标跟踪技术相结合,对提取的关键字在后台数据库设定特定的指令,实现语音与视频的人机互动;
步骤七:采用VisDrone2021的目标检测数据集作为训练和评估的数据集。
2.如权利要求1所述的自监督多目标跟踪下的多模态人机互动方法,其特征在于,步骤一中所述的自监督机制MASK模块设计为通用模块Focus-MASK,采用全卷积结构。
3.如权利要求1所述的自监督多目标跟踪下的多模态人机互动方法,其特征在于,步骤三中所述的Focus-MASK结构,在训练阶段,mask ratio为0.15,对输入图像进行遮挡,并对其切片处理;在测试阶段,mask ratio为0,不进行遮挡,可以真实反映算法的检测效果。
4.如权利要求3所述的自监督多目标跟踪下的多模态人机互动方法,其特征在于,步骤三中所述的Focus-MASK结构,采取Mask strategy的策略对于输入图像的W、H,设置相同W、H的遮掩图像,该部分设计遮盖输入图像的方式和区域,最终使遮掩后的图像输出,并且作为图像的首次下采样操作,确保图像信息不丢失的情况下,使维度增加。
5.如权利要求1所述的自监督多目标跟踪下的多模态人机互动方法,其特征在于,步骤五中所述的目标轨迹预测中,若相同目标连续距离大于预测的dMahalanobis时,判定两目标不为同一目标,自动进行ID切换。
6.如权利要求5所述的自监督多目标跟踪下的多模态人机互动方法,其特征在于,步骤五中为了加快跟踪速度和适应实际场景,设计最大检测帧数为64。
CN202210543589.4A 2022-05-19 2022-05-19 一种自监督多目标跟踪下的多模态人机互动方法 Active CN114879891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210543589.4A CN114879891B (zh) 2022-05-19 2022-05-19 一种自监督多目标跟踪下的多模态人机互动方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210543589.4A CN114879891B (zh) 2022-05-19 2022-05-19 一种自监督多目标跟踪下的多模态人机互动方法

Publications (2)

Publication Number Publication Date
CN114879891A true CN114879891A (zh) 2022-08-09
CN114879891B CN114879891B (zh) 2024-04-26

Family

ID=82676490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210543589.4A Active CN114879891B (zh) 2022-05-19 2022-05-19 一种自监督多目标跟踪下的多模态人机互动方法

Country Status (1)

Country Link
CN (1) CN114879891B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012650A (zh) * 2023-01-03 2023-04-25 北京百度网讯科技有限公司 文字识别模型训练及其识别方法、装置、设备和介质
CN116091551A (zh) * 2023-03-14 2023-05-09 中南大学 一种基于多模态融合的目标检索跟踪方法及系统
CN117079245A (zh) * 2023-07-05 2023-11-17 浙江工业大学 一种基于无线信号的交通道路目标识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307921A (zh) * 2020-10-22 2021-02-02 桂林电子科技大学 一种车载端多目标识别跟踪预测方法
CN112836639A (zh) * 2021-02-03 2021-05-25 江南大学 基于改进YOLOv3模型的行人多目标跟踪视频识别方法
CN113435336A (zh) * 2021-06-28 2021-09-24 安徽一视科技有限公司 一种基于人工智能的跑步智能计时系统及方法
US20220076431A1 (en) * 2020-09-09 2022-03-10 Tata Consultancy Services Limited System and method for forecasting location of target in monocular first person view

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220076431A1 (en) * 2020-09-09 2022-03-10 Tata Consultancy Services Limited System and method for forecasting location of target in monocular first person view
CN112307921A (zh) * 2020-10-22 2021-02-02 桂林电子科技大学 一种车载端多目标识别跟踪预测方法
CN112836639A (zh) * 2021-02-03 2021-05-25 江南大学 基于改进YOLOv3模型的行人多目标跟踪视频识别方法
CN113435336A (zh) * 2021-06-28 2021-09-24 安徽一视科技有限公司 一种基于人工智能的跑步智能计时系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUO SHAOZHE等: "A Asymmetric Attention Siamese Network for Visual Object Tracking", 2021 2ND INTERNATIONAL CONFERENCE ON BIG DATA AND INFORMATIZATION EDUCATION (ICBDIE), 21 June 2021 (2021-06-21) *
张楚楚;吕学斌;: "基于改进YOLOv2网络的密集人群场景行人检测", 现代计算机(专业版), no. 28, 5 October 2018 (2018-10-05) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012650A (zh) * 2023-01-03 2023-04-25 北京百度网讯科技有限公司 文字识别模型训练及其识别方法、装置、设备和介质
CN116012650B (zh) * 2023-01-03 2024-04-23 北京百度网讯科技有限公司 文字识别模型训练及其识别方法、装置、设备和介质
CN116091551A (zh) * 2023-03-14 2023-05-09 中南大学 一种基于多模态融合的目标检索跟踪方法及系统
CN116091551B (zh) * 2023-03-14 2023-06-20 中南大学 一种基于多模态融合的目标检索跟踪方法及系统
CN117079245A (zh) * 2023-07-05 2023-11-17 浙江工业大学 一种基于无线信号的交通道路目标识别方法

Also Published As

Publication number Publication date
CN114879891B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN114879891B (zh) 一种自监督多目标跟踪下的多模态人机互动方法
CN108629288B (zh) 一种手势识别模型训练方法、手势识别方法及系统
CN111862145B (zh) 一种基于多尺度行人检测的目标跟踪方法
CN112257569B (zh) 一种基于实时视频流的目标检测和识别方法
CN110765906A (zh) 一种基于关键点的行人检测算法
Krishna et al. Object detection and tracking using Yolo
CN112116593A (zh) 一种基于基尼指数的领域自适应语义分割方法
CN108830170A (zh) 一种基于分层特征表示的端到端目标跟踪方法
CN114283355A (zh) 一种基于小样本学习的多目标濒危动物跟踪方法
CN116665095B (zh) 一种运动舰船检测方法、系统、存储介质和电子设备
Ma et al. AVS-YOLO: Object detection in aerial visual scene
CN108664918B (zh) 基于背景感知相关滤波器的智能车辆前方行人跟踪方法
CN114266805A (zh) 一种用于无人机目标跟踪的孪生区域建议网络模型
CN117576149A (zh) 一种基于注意力机制的单目标跟踪方法
CN114067359B (zh) 融合人体关键点与可见部位注意力特征的行人检测方法
CN115239765A (zh) 基于多尺度可形变注意力的红外图像目标跟踪系统及方法
Li et al. Long short-term memory improved Siamese network for robust target tracking
CN116109667A (zh) 一种基于孪生网络的单目标跟踪方法及系统
CN109684954B (zh) 在无人设备上实现目标检测的在线训练方法
CN111914625B (zh) 基于检测器与跟踪器数据关联的多目标车辆跟踪装置
Jiang et al. Face detection based on improved YOLOv5 algorithm
Fan et al. Pose recognition for dense vehicles under complex street scenario
Guo et al. Multiple Object Tracking in aerial vehicle overhead video
Gui et al. Research on student group tracking algorithm based on teaching scene
Han et al. Infrared small target detection based on coarse-to-fine feature extraction network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant