CN109035297A - 一种基于双重暹罗网络的实时追踪方法 - Google Patents
一种基于双重暹罗网络的实时追踪方法 Download PDFInfo
- Publication number
- CN109035297A CN109035297A CN201810797669.6A CN201810797669A CN109035297A CN 109035297 A CN109035297 A CN 109035297A CN 201810797669 A CN201810797669 A CN 201810797669A CN 109035297 A CN109035297 A CN 109035297A
- Authority
- CN
- China
- Prior art keywords
- branch
- semantic
- network
- target
- net
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/223—Analysis of motion using block-matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明中提出的一种基于双重暹罗网络的实时追踪方法,其主要内容包括:双重暹罗网络架构、语义分支的通道注意力模块和网络设计方案选择,其过程为,先将目标图像块和搜索区域图像块输入到网络中;然后,将每个图像块的语义特征和表观特征分别在网络的语义分支(运用了通道注意力机制)和表观分支中进行训练和融合,以得到语义分支和表观分支的响应图;最后,将上述两个响应图通过加权平均法合并起来即为本方法的追踪响应图。本方法采用了双重网络设计并且引入了注意力机制,实现了异相追踪和目标自适应,相比现有的追踪方法在追踪的目标类别数量和追踪准确性方面都有显著的提升。
Description
技术领域
本发明涉及图像处理领域,尤其是涉及了一种基于双重暹罗网络的实时追踪方法。
背景技术
随着计算机技术和视觉图像处理技术的发展,目标追踪技术日渐成为国内外学者热衷研究的一门课题。目标追踪技术主要研究视频图像序列中运动目标的检测、提取、识别和追踪,涉及到机器视觉、图像处理和模式识别等专业领域,有着广阔的应用前景。在人机交互中,目标追踪技术可用于追踪人的姿态、动作、手势等以理解人的意图;在虚拟现实技术中,通过目标追踪技术可对人体动作进行追踪分析,以实现在虚拟环境中的3D交互和虚拟角色动作模拟;在医学诊断中,目标追踪技术可用于超声波和核磁序列图像变化的追踪,从而进行内部器官的病情分析;另外,目标追踪技术还广泛应用于无人飞行器、精确制导、空中预警、战场监视、移动机器人和智能视频监控等方面。然而,现有的追踪方法存在追踪的目标类别数量不多和追踪准确性不高等问题。
本发明中提出的一种基于双重暹罗网络的实时追踪方法,先将目标图像块和搜索区域图像块输入到网络中;然后,将每个图像块的语义特征和表观特征分别在网络的语义分支(运用了通道注意力机制)和表观分支中进行训练和融合,以得到语义分支和表观分支的响应图;最后,将上述两个响应图通过加权平均法合并起来即为本方法的追踪响应图。本方法采用了双重网络设计并且引入了注意力机制,实现了异相追踪和目标自适应,相比现有的追踪方法在追踪的目标类别数量和追踪准确性方面都有显著的提升。
发明内容
针对现有的追踪方法存在追踪的目标类别数量不多和追踪准确性不高等问题,本发明的目的在于提供一种基于双重暹罗网络的实时追踪方法,先将目标图像块和搜索区域图像块输入到网络中;然后,将每个图像块的语义特征和表观特征分别在网络的语义分支(运用了通道注意力机制)和表观分支中进行训练和融合,以得到语义分支和表观分支的响应图;最后,将上述两个响应图通过加权平均法合并起来即为本方法的追踪响应图。
为解决上述问题,本发明提供一种基于双重暹罗网络的实时追踪方法,其主要内容包括:
(一)双重暹罗网络架构;
(二)语义分支的通道注意力模块;
(三)网络设计方案选择。
其中,所述的双重暹罗网络架构,该网络的输入是从视频序列的第一帧(目标帧)以及用于跟踪的当前帧获取的一对图像块;用符号z,zs和X分别表示目标、目标周围的环境和搜索区域;双重暹罗网络包括了表观分支和语义分支;每个分支的输出都是一个响应图,能够显示目标z和搜索区域X中的候选块x之间的相似性。
进一步地,所述的符号z,zs和X,zs和X的尺寸均为Ws×Hs×3;而目标z的尺寸为Wt×Ht×3(Wt<Ws,Ht<Hs),位于zs的中心;X可被视为搜索区域中的候选图像块x的集合,与z具有相同的尺寸。
进一步地,所述的表观分支,以(z,X)作为输入,卷积网络A-Net用于提取表观特征fa(·);表观分支的响应图可用下式表示:
ha(z,X)=corr(fa(z),fa(X)) (1)
其中,corr(·)表示互相关运算,fa(z)为目标的表观特征,fa(X)为搜索区域的表观特征;在相似性学习问题中,A-Net中的所有参数都是从头开始训练的。
进一步地,所述的语义分支,以(zs,X)作为输入,直接在图像分类任务中使用预训练的卷积网络作为S-Net,并在训练和测试期间修复其所有参数;令S-Net输出最后两个卷积层(卷积层4和卷积层5)的特征,因为这两个卷积层能够提供不同程度的抽象化结果;来自不同卷积层的特征具有不同的空间分辨率,用fs(·)表示串联的多级特征;为了使语义特征能用于互相关运算,在特征提取之后嵌入一个1×1的ConvNet融合模块;融合在同一卷积层中进行,融合后搜索区域的特征向量X可表示为g(fs(X));语义分支的目标处理过程与表观分支略有不同:S-Net将zs作为目标输入,zs中心有目标z,包含目标的周围的环境信息;由于S-Net是全卷积,通过简单的裁剪过程可从fs(zs)获得fs(z);注意力模块令fs(zs)作为输入并输出通道权重ξ,并在融合之前,将特征与权重ξ相乘;这样,语义分支的响应图可表达为:
hs(zs,X)=corr(ξ·g(fs(z)),g(fs(X))) (2)
其中,ξ与fs(z)的通道数有相同的维度,fs(z)为目标的语义特征,fs(X)为搜索区域的语义特征。
进一步地,所述的通道注意力模块,增强语义分支的判别力,主要利用通道运行来实现,将通道重要性适应于跟踪目标,以便实现目标自适应的最小功能;用卷积层5的特征映射作为例子,空间尺度为22×22,将特征映射分割为3×3网格,则中心的6×6网格即为追踪目标z;在每个网格内执行最大池化层,然后使用两层多层感知器(MLP)为该通道生成系数;最后,使用具有偏差的Sigmoid函数来生成最终输出权重ξ;MLP模块在从相同卷积层提取的通道之间共享权重;将通道重要性适应于跟踪目标,以便实现目标自适应的最小功能。
其中,所述的网络设计方案选择,主要包括:分别训练两个分支、不对S-Net进行微调和对A-Net网络不作修改。
进一步地,所述的分别训练两个分支,对于一些训练样本,使用语义线索进行追踪可能比使用表观线索更容易,如果两个分支是联合训练的,当语义分支具有判别热图并且表观分支具有非信息热图时,整体损失可能很小,这样这些训练样本就不能在优化表观分支中发挥作用,所以需要对两个分支进行分别训练。
进一步地,所述的不对S-Net进行微调,主要目的是为了使得两个分支保持相似性;因为对S-Net进行微调仅能提升语义分支的性能,但这样会造成两个分支的性能不平衡从而影响整体的性能。
进一步地,所述的对A-Net网络不作修改,其特征在于,与语义分支不同,对于表观分支,不使用多级特征和添加通道注意力,因为来自不同卷积层的表观特征在表现力方面没有显着差异;相同的注意力模块不能应用于表观分支,因为高级语义特征非常稀疏而表观特征非常密集;简单的最大池化层运行可以生成语义特征的描述性概要,但不能生成表观特征。
附图说明
图1是本发明一种基于双重暹罗网络的实时追踪方法的系统框架图。
图2是本发明一种基于双重暹罗网络的实时追踪方法的网络架构图。
图3是本发明一种基于双重暹罗网络的实时追踪方法的追踪结果对比图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于双重暹罗网络的实时追踪方法的系统框架图。主要包括双重暹罗网络架构、语义分支的通道注意力模块和网络设计方案选择。
通道注意力模块,增强语义分支的判别力,主要利用通道运行来实现,将通道重要性适应于跟踪目标,以便实现目标自适应的最小功能;用卷积层5的特征映射作为例子,空间尺度为22×22,将特征映射分割为3×3网格,则中心的6×6网格即为追踪目标z;在每个网格内执行最大池化层,然后使用两层多层感知器(MLP)为该通道生成系数;最后,使用具有偏差的Sigmoid函数来生成最终输出权重ξ;MLP模块在从相同卷积层提取的通道之间共享权重;将通道重要性适应于跟踪目标,以便实现目标自适应的最小功能。
网络设计方案选择,主要包括:分别训练两个分支、不对S-Net进行微调和对A-Net网络不作修改。
其中,分别训练两个分支,对于一些训练样本,使用语义线索进行追踪可能比使用表观线索更容易,如果两个分支是联合训练的,当语义分支具有判别热图并且表观分支具有非信息热图时,整体损失可能很小,这样这些训练样本就不能在优化表观分支中发挥作用,所以需要对两个分支进行分别训练。
其中,不对S-Net进行微调,主要目的是为了使得两个分支保持相似性;因为对S-Net进行微调仅能提升语义分支的性能,但这样会造成两个分支的性能不平衡从而影响整体的性能中。
其中,对A-Net网络不作修改,与语义分支不同,对于表观分支,不使用多级特征和添加通道注意力,这是因为来自不同卷积层的表观特征在表现力方面没有显着差异;相同的注意力模块不能应用于表观分支,因为高级语义特征非常稀疏而表观特征非常密集;简单的最大池化层运行可以生成语义特征的描述性概要,但不能生成表观特征。
图2是本发明一种基于双重暹罗网络的实时追踪方法的网络架构图。该网络的输入是从视频序列的第一帧(目标帧)以及用于跟踪的当前帧获取的一对图像块;用符号z,zs和X分别表示目标、目标周围的环境和搜索区域;双重暹罗网络包括了表观分支和语义分支;每个分支的输出都是一个响应图,能够显示目标z和搜索区域X中的候选块x之间的相似性。
其中,符号z,zs和X,zs和X的尺寸均为Ws×Hs×3;而目标z的尺寸为Wt×Ht×3(Wt<Ws,Ht<Hs),位于zs的中心;X可被视为搜索区域中的候选图像块x的集合,与z具有相同的尺寸。
其中,表观分支,表观分支以(z,X)作为输入,卷积网络A-Net用于提取表观特征fa(·);表观分支的响应图可用下式表示:
ha(z,X)=corr(fa(z),fa(X)) (1)
其中,corr(·)表示互相关运算,fa(z)为目标的表观特征,fa(X)为搜索区域的表观特征;在相似性学习问题中,A-Net中的所有参数都是从头开始训练的。
其中,语义分支,语义分支以(zs,X)作为输入,直接在图像分类任务中使用预训练的卷积网络作为S-Net,并在训练和测试期间修复其所有参数;令S-Net输出最后两个卷积层(卷积层4和卷积层5)的特征,因为这两个卷积层能够提供不同程度的抽象化结果;来自不同卷积层的特征具有不同的空间分辨率,用fs(·)表示串联的多级特征;为了使语义特征能用于互相关运算,在特征提取之后嵌入一个1×1的ConvNet融合模块;融合在同一卷积层中进行,融合后搜索区域的特征向量X可表示为g(fs(X));语义分支的目标处理过程与表观分支略有不同:S-Net将zs作为目标输入,zs中心有目标z,包含目标的周围的环境信息;由于S-Net是全卷积,通过简单的裁剪过程可从fs(zs)获得fs(z);注意力模块令fs(zs)作为输入并输出通道权重ξ,并在融合之前,将特征与权重ξ相乘;这样,语义分支的响应图可表达为:
hs(zs,X)=corr(ξ·g(fs(z)),g(fs(X))) (2)
其中,ξ与fs(z)的通道数有相同的维度,fs(z)为目标的语义特征,fs(X)为搜索区域的语义特征。
图3是本发明一种基于双重暹罗网络的实时追踪方法的追踪结果对比图。本方法采用了双重网络设计并且引入了注意力机制,实现了异相追踪和目标自适应,相比现有的追踪方法在追踪的目标类别数量和追踪准确性方面都有显著的提升。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种基于双重暹罗网络的实时追踪方法,其特征在于,主要包括双重暹罗网络架构(一);语义分支的通道注意力模块(二);网络设计方案选择(三)。
2.基于权利要求书1所述的双重暹罗网络架构(一),其特征在于,该网络的输入是从视频序列的第一帧(目标帧)以及用于跟踪的当前帧获取的一对图像块;用符号z,zs和X分别表示目标、目标周围的环境和搜索区域;双重暹罗网络包括了表观分支和语义分支;每个分支的输出都是一个响应图,能够显示目标z和搜索区域X中的候选块x之间的相似性。
3.基于权利要求书2所述的符号z,zs和X,其特征在于,zs和X的尺寸均为Ws×Hs×3;而目标z的尺寸为Wt×Ht×3(Wt<Ws,Ht<Hs),位于zs的中心;X可被视为搜索区域中的候选图像块x的集合,与z具有相同的尺寸。
4.基于权利要求书2所述的表观分支,其特征在于,表观分支以(z,X)作为输入,卷积网络A-Net用于提取表观特征fa(·);表观分支的响应图可用下式表示:
ha(z,X)=corr(fa(z),fa(X)) (1)
其中,corr(·)表示互相关运算,fa(z)为目标的表观特征,fa(X)为搜索区域的表观特征;在相似性学习问题中,A-Net中的所有参数都是从头开始训练的。
5.基于权利要求书2所述的语义分支,其特征在于,语义分支以(zs,X)作为输入,直接在图像分类任务中使用预训练的卷积网络作为S-Net,并在训练和测试期间修复其所有参数;令S-Net输出最后两个卷积层(卷积层4和卷积层5)的特征,因为这两个卷积层能够提供不同程度的抽象化结果;来自不同卷积层的特征具有不同的空间分辨率,用fs(·)表示串联的多级特征;为了使语义特征能用于互相关运算,在特征提取之后嵌入一个1×1的ConvNet融合模块;融合在同一卷积层中进行,融合后搜索区域的特征向量X可表示为g(fs(X));语义分支的目标处理过程与表观分支略有不同:S-Net将zs作为目标输入,zs中心有目标z,包含目标的周围的环境信息;由于S-Net是全卷积,通过简单的裁剪过程可从fs(zs)获得fs(z);注意力模块令fs(zs)作为输入并输出通道权重ξ,并在融合之前,将特征与权重ξ相乘;这样,语义分支的响应图可表达为:
hs(zs,X)=corr(ξ·g(fs(z)),g(fs(X))) (2)
其中,ξ与fs(z)的通道数有相同的维度,fs(z)为目标的语义特征,fs(X)为搜索区域的语义特征。
6.基于权利要求书1所述的语义分支的通道注意力模块(二),其特征在于,增强语义分支的判别力,主要利用通道运行来实现,将通道重要性适应于跟踪目标,以便实现目标自适应的最小功能;用卷积层5的特征映射作为例子,空间尺度为22×22,将特征映射分割为3×3网格,则中心的6×6网格即为追踪目标z;在每个网格内执行最大池化层,然后使用两层多层感知器(MLP)为该通道生成系数;最后,使用具有偏差的Sigmoid函数来生成最终输出权重ξ;MLP模块在从相同卷积层提取的通道之间共享权重;将通道重要性适应于跟踪目标,以便实现目标自适应的最小功能。
7.基于权利要求书1所述的网络设计方案选择(三),其特征在于,主要包括:分别训练两个分支、不对S-Net进行微调和对A-Net网络不作修改。
8.基于权利要求书7所述的分别训练两个分支,其特征在于,对于一些训练样本,使用语义线索进行追踪可能比使用表观线索更容易,如果两个分支是联合训练的,当语义分支具有判别热图并且表观分支具有非信息热图时,整体损失可能很小,这样这些训练样本就不能在优化表观分支中发挥作用,所以需要对两个分支进行分别训练。
9.基于权利要求书7所述的不对S-Net进行微调,其特征在于,主要目的是为了使得两个分支保持相似性;因为对S-Net进行微调仅能提升语义分支的性能,但这样会造成两个分支的性能不平衡从而影响整体的性能。
10.基于权利要求书7所述的对A-Net网络不作修改,其特征在于,与语义分支不同,对于表观分支,不使用多级特征和添加通道注意力,这是因为来自不同卷积层的表观特征在表现力方面没有显着差异;相同的注意力模块不能应用于表观分支,因为高级语义特征非常稀疏而表观特征非常密集;简单的最大池化层运行可以生成语义特征的描述性概要,但不能生成表观特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810797669.6A CN109035297A (zh) | 2018-07-19 | 2018-07-19 | 一种基于双重暹罗网络的实时追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810797669.6A CN109035297A (zh) | 2018-07-19 | 2018-07-19 | 一种基于双重暹罗网络的实时追踪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109035297A true CN109035297A (zh) | 2018-12-18 |
Family
ID=64643632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810797669.6A Withdrawn CN109035297A (zh) | 2018-07-19 | 2018-07-19 | 一种基于双重暹罗网络的实时追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109035297A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685805A (zh) * | 2019-01-09 | 2019-04-26 | 银河水滴科技(北京)有限公司 | 一种图像分割方法及装置 |
CN109993774A (zh) * | 2019-03-29 | 2019-07-09 | 大连理工大学 | 基于深度交叉相似匹配的在线视频目标跟踪方法 |
CN110070562A (zh) * | 2019-04-02 | 2019-07-30 | 西北工业大学 | 一种上下文相关的深度目标跟踪方法 |
CN110287874A (zh) * | 2019-06-25 | 2019-09-27 | 北京市商汤科技开发有限公司 | 目标追踪方法及装置、电子设备和存储介质 |
CN110335290A (zh) * | 2019-06-04 | 2019-10-15 | 大连理工大学 | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 |
CN110443852A (zh) * | 2019-08-07 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种图像定位的方法及相关装置 |
CN110555405A (zh) * | 2019-08-30 | 2019-12-10 | 北京迈格威科技有限公司 | 目标跟踪方法及装置、存储介质和电子设备 |
CN111914726A (zh) * | 2020-07-28 | 2020-11-10 | 联芯智能(南京)科技有限公司 | 基于多通道自适应注意力机制的行人检测方法 |
CN113283407A (zh) * | 2021-07-22 | 2021-08-20 | 南昌工程学院 | 一种基于通道与空间注意力机制的孪生网络目标跟踪方法 |
CN117574259A (zh) * | 2023-10-12 | 2024-02-20 | 南京工业大学 | 适用于高端装备的注意力孪生智能迁移可解释性诊断方法 |
CN117934551A (zh) * | 2024-01-27 | 2024-04-26 | 北京天工异彩影视科技有限公司 | 一种混合现实跟踪交互系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679572A (zh) * | 2017-09-29 | 2018-02-09 | 深圳大学 | 一种图像判别方法、存储设备及移动终端 |
CN107766794A (zh) * | 2017-09-22 | 2018-03-06 | 天津大学 | 一种特征融合系数可学习的图像语义分割方法 |
-
2018
- 2018-07-19 CN CN201810797669.6A patent/CN109035297A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766794A (zh) * | 2017-09-22 | 2018-03-06 | 天津大学 | 一种特征融合系数可学习的图像语义分割方法 |
CN107679572A (zh) * | 2017-09-29 | 2018-02-09 | 深圳大学 | 一种图像判别方法、存储设备及移动终端 |
Non-Patent Citations (1)
Title |
---|
ANFENG HE: "A Twofold Siamese Network for Real-Time Object Tracking", 《ARXIV:1802.08817V1》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685805A (zh) * | 2019-01-09 | 2019-04-26 | 银河水滴科技(北京)有限公司 | 一种图像分割方法及装置 |
CN109993774A (zh) * | 2019-03-29 | 2019-07-09 | 大连理工大学 | 基于深度交叉相似匹配的在线视频目标跟踪方法 |
CN110070562A (zh) * | 2019-04-02 | 2019-07-30 | 西北工业大学 | 一种上下文相关的深度目标跟踪方法 |
CN110335290B (zh) * | 2019-06-04 | 2021-02-26 | 大连理工大学 | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 |
CN110335290A (zh) * | 2019-06-04 | 2019-10-15 | 大连理工大学 | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 |
CN110287874A (zh) * | 2019-06-25 | 2019-09-27 | 北京市商汤科技开发有限公司 | 目标追踪方法及装置、电子设备和存储介质 |
CN110443852A (zh) * | 2019-08-07 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种图像定位的方法及相关装置 |
CN110443852B (zh) * | 2019-08-07 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 一种图像定位的方法及相关装置 |
CN110555405A (zh) * | 2019-08-30 | 2019-12-10 | 北京迈格威科技有限公司 | 目标跟踪方法及装置、存储介质和电子设备 |
CN110555405B (zh) * | 2019-08-30 | 2022-05-06 | 北京迈格威科技有限公司 | 目标跟踪方法及装置、存储介质和电子设备 |
CN111914726A (zh) * | 2020-07-28 | 2020-11-10 | 联芯智能(南京)科技有限公司 | 基于多通道自适应注意力机制的行人检测方法 |
CN111914726B (zh) * | 2020-07-28 | 2024-05-07 | 联芯智能(南京)科技有限公司 | 基于多通道自适应注意力机制的行人检测方法 |
CN113283407A (zh) * | 2021-07-22 | 2021-08-20 | 南昌工程学院 | 一种基于通道与空间注意力机制的孪生网络目标跟踪方法 |
CN117574259A (zh) * | 2023-10-12 | 2024-02-20 | 南京工业大学 | 适用于高端装备的注意力孪生智能迁移可解释性诊断方法 |
CN117574259B (zh) * | 2023-10-12 | 2024-05-07 | 南京工业大学 | 适用于高端装备的注意力孪生智能迁移可解释性诊断方法 |
CN117934551A (zh) * | 2024-01-27 | 2024-04-26 | 北京天工异彩影视科技有限公司 | 一种混合现实跟踪交互系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109035297A (zh) | 一种基于双重暹罗网络的实时追踪方法 | |
Tu et al. | Joint-bone fusion graph convolutional network for semi-supervised skeleton action recognition | |
Dubey et al. | A comprehensive survey on human pose estimation approaches | |
CN107423398A (zh) | 交互方法、装置、存储介质和计算机设备 | |
Avola et al. | Deep temporal analysis for non-acted body affect recognition | |
CN105051755A (zh) | 用于姿势识别的部位和状态检测 | |
CN109886356A (zh) | 一种基于三分支神经网络的目标追踪方法 | |
CN103336967B (zh) | 一种手部运动轨迹检测方法及装置 | |
CN111222486A (zh) | 手部姿态识别模型的训练方法、装置、设备及存储介质 | |
CN110472532A (zh) | 一种视频对象行为识别方法和装置 | |
Liu et al. | Target recognition of sport athletes based on deep learning and convolutional neural network | |
Fei et al. | Flow-pose Net: An effective two-stream network for fall detection | |
Nan et al. | Learning to infer human attention in daily activities | |
Ding et al. | Current status and trends of technology, methods, and applications of Human–Computer Intelligent Interaction (HCII): A bibliometric research | |
Balachandar et al. | Deep learning technique based visually impaired people using YOLO V3 framework mechanism | |
CN108108648A (zh) | 一种新型的手势识别系统装置及方法 | |
Kwolek | GAN-based data augmentation for visual finger spelling recognition | |
Huang et al. | Human pose estimation and LSTM-based diver heading prediction for AUV navigation guidance | |
Zhao et al. | Simulation of sports training recognition system based on internet of things video behavior analysis | |
Sanjeewa et al. | Understanding the hand gesture command to visual attention model for mobile robot navigation: service robots in domestic environment | |
Li et al. | Application of human body gesture recognition algorithm based on deep learning in non-contact human body measurement | |
Hu et al. | Behavioral Feature Description Method Based on the Vector Module Ratio and Vector Angle of Human Body Structure | |
Tseng et al. | Learning-Based Visual Acuity Test System with Pepper Robot for User Behavior Research | |
Lu et al. | Research on behavior recognition method based on machine learning and fisher vector coding | |
Han et al. | Sign language recognition based on skeleton and SK3D-Residual network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20181218 |