CN113920583A - 细粒度行为识别模型构建方法及系统 - Google Patents

细粒度行为识别模型构建方法及系统 Download PDF

Info

Publication number
CN113920583A
CN113920583A CN202111197488.8A CN202111197488A CN113920583A CN 113920583 A CN113920583 A CN 113920583A CN 202111197488 A CN202111197488 A CN 202111197488A CN 113920583 A CN113920583 A CN 113920583A
Authority
CN
China
Prior art keywords
fine
key point
grained
prediction
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111197488.8A
Other languages
English (en)
Inventor
王海滨
纪文峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Root Sports Science And Technology Beijing Co ltd
Original Assignee
Root Sports Science And Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Root Sports Science And Technology Beijing Co ltd filed Critical Root Sports Science And Technology Beijing Co ltd
Priority to CN202111197488.8A priority Critical patent/CN113920583A/zh
Publication of CN113920583A publication Critical patent/CN113920583A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了细粒度行为识别模型构建方法及系统,包括:对获得的视频数据的帧序列进行关键点预测,每帧中包含人体的多个关键点坐标信息;针对帧序列,按照得到的关键点坐标为中心进行裁剪,每帧图像得到多个图像分块;将同一关键点对应的图像分块按照时序进行拼接操作,将拼接后的图像分块,按照每个图像分块对应的关键点坐标作为位置嵌入,得到处理结果;将处理结果输入至深度自注意变换网络中,通过损失函数测量真实分类结果与预测分类结果之间的误差大小,然后基于该误差对网络权值进行优化和修正,获得细粒度行为识别模型。本发明实现了更精确地预测。

Description

细粒度行为识别模型构建方法及系统
技术领域
本发明属于计算机视觉技术领域,尤其涉及基于姿态位置和表观编码 的细粒度行为识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构 成在先技术。
随着深度自注意变换网络(Transformer)在自然语言处理领域的成功 应用,人们开始尝试将其应用到计算机视觉任务中。其中,一些工作尝试 将标准Transformer直接应用于图像,即将图像拆分为小块,并提供这些小 块的线性嵌入序列作为transformer的输入。以监督方式对模型进行图像分 类训练。
目前的细粒度行为识别存在的技术问题是:细粒度行为识别属于行为 识别的一个分支,当前基于视觉信息的行为识别技术例如:Temporal Shift Module(TSM),Action-net等方法的粒度都在于行为类别,而对执行行为的个 体区别不予关注。因此最先进的方法在识别一些具有细微差别的行为时的 精度远低于人类的水平。当前的基于视觉信息的行为识别技术由于粒度在 行为类别上,可能在分类过程中过于依赖视频背景,从而忽略了个体才是 行为识别任务中最应该关注的。
发明内容
为克服上述现有技术的不足,本发明提供了细粒度行为识别模型构建 方法及系统,实现了对视频数据中人体行为的准确预测。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
第一方面,公开了细粒度行为识别模型构建方法,包括:
对获得的视频数据的帧序列进行关键点预测,每帧中包含人体的多个 关键点坐标信息;
针对帧序列,按照得到的关键点坐标为中心进行裁剪,每帧图像得到 多个图像分块;
将同一关键点对应的图像分块按照时序进行拼接操作,将拼接后的图 像分块,按照每个图像分块对应的关键点坐标作为位置嵌入,得到处理结 果;
将处理结果输入至深度自注意变换网络中,通过损失函数测量真实分 类结果与预测分类结果之间的误差大小,然后基于该误差对网络权值进行 优化和修正,获得细粒度行为识别模型。
在一些实施例子中,对获得的视频数据首先进行预处理得到帧序列, 帧序列中的元素调整为统一大小。
在一些实施例子中,将拼接后的图像分块之后,还包括利用线性投影 模块处理为线性向量。
在一些实施例子中,将处理结果输入至深度自注意变换网络中之后, 利用softmax作为最后的分类输出,优化交叉熵损失函数。
在一些实施例子中,对网络权值进行优化和修正的过程中,利用现有 的细粒度行为数据集作为模型的训练数据,利用数据集视频的行为类别作 为分类真值标签,采用反向传播算法和随机梯度下降法来减小误差以训练 模型,经过多次迭代训练得到最终的预测模型。
第二方面,公开了视频数据中人体行为识别方法,包括:
将待识别视频数据输入至细粒度行为识别模型,预测视频数据中人的 行为,继而得到视频数据中人的行为预测标签。
第三方面,公开了细粒度行为识别模型构建系统,包括:
关键点预测模块,被配置为:对获得的视频数据的帧序列进行关键点 预测,每帧中包含人体的多个关键点坐标信息;
图像分块模块,被配置为:针对帧序列,按照得到的关键点坐标为中 心进行裁剪,每帧图像得到多个图像分块;
将同一关键点对应的图像分块按照时序进行拼接操作,将拼接后的图 像分块,按照每个图像分块对应的关键点坐标作为位置嵌入,得到处理结 果;
模型优化模块,被配置为:将处理结果输入至深度自注意变换网络中, 通过损失函数测量真实分类结果与预测分类结果之间的误差大小,然后基 于该误差对网络权值进行优化和修正,获得细粒度行为识别模型。
以上一个或多个技术方案存在以下有益效果:
本发明为更精确地预测细粒度行为,利用人体姿态位置对行为进行建 模,另一方面引入了Transformer网络,扩充基于骨架预测行为的网路,最 后,为更好的建模,以姿态估计得到的关键点坐标为中心裁剪图片,得到 的图像分块作为网络的输入,实现了更精确地预测。
本发明首先利用人体姿态估计技术对输入的视频数据进行预处理,得 到带有人体关键点位置的帧序列,然后将每帧图像以人体关键点为中心取 固定大小的裁剪区块,裁剪区块经过线性投影后,结合关键点坐标,输入 到Transformer网络中,得到输入视频中人体的细粒度行为预测结果。
本发明方法具有通用性并且兼顾了精确度的要求。通过测试实验中的 应用验证了上述方法的有效性。
本发明的方法采用人体姿态关节点信息对行为进行识别,基于关节点 信息的关注点就在个体,因此,该方法更容易关注到个体行为之间的细微 差异。其次,本发明的方法结合了最新的Transformer技术,为后续细粒度 行为识别的研究提供了新的思路。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的 描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解, 本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不 当限定。
图1为本发明实施例基于姿态位置和表观编码的细粒度行为识别方法 示意图;
图2为本发明实施例算法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的 说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属 技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非 意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组 合。
实施例一
基于深度学习的方法的测试实验利用公开数据集,对模型进行训练以 及测试,获得测试效果。本发明公开了具体的网络模型架构示意图,如图1。
参见附图1、2所示,本实施例公开了细粒度行为识别模型构建方法, 以细粒度行为数据集A为例,共包含个6000多个视频,99类行为。本发 明具体包括如下步骤:
步骤S0,视频数据预处理,得到帧序列,共T帧,记为∑{ft},t∈ [1,2,…,T-1,T],ft均调整为统一大小,记为w×h×c,实际选择为256× 256×3;
步骤S1,利用OpenPose姿态估计算法对步骤S0得到的帧序列进行关 键点预测,得到每帧中人体的N个关键点坐标信息,记为
Figure BDA0003303620550000051
步骤S2,将步骤S0中得到的帧序列,按照步骤S1中得到的关键点坐 标为中心进行裁剪,大小为p×p×c,具体为60×60×3,最终每帧图像 得到18个图像分块,所有图像分块记为
Figure BDA0003303620550000052
Figure BDA0003303620550000053
需要说明的是,将图片分块是因为Transformer最先是用于NLP(自然 语言处理)领域的方法,在NLP里面,Transformer的输入是一个序列,每 个元素是一个“单词嵌入”。因此将Transformer用于图像时也要在图像输入 种找出“单词”的概念,于是就有了图像分块。只有这样,才可以在计算机视 觉任务中应用Transformer方法。
步骤S3,假定选取连续M帧作为网络的输入,M=6,将6帧中同一关 键点对应的图像分块按照时序进行拼接(Concat)操作,记为
Figure BDA0003303620550000054
Figure BDA0003303620550000055
x∈R18×60×60×18
基于动作是有时序性的,时序改变,动作可能完全不一样。将图像分块 进行拼接作为网络输入可以使网络学习到行为的时序信息,可以更精确的 进行行为识别。
步骤S4,将步骤S3得到的拼接后的图像分块,利用线性投影模块处理 为线性向量;
在该步骤中,利用线性投影模块将图像分块处理成线性向量,即“词嵌 入”,这是得到Transformer编码器输入的基本步骤。
步骤S5,将步骤S4得到的拼接后的图像分块,按照对应的关键点坐标 作为步骤S4种得到的图像分块线性向量的嵌入,得到:
Figure BDA0003303620550000056
其中:E∈R360×18×1,Epos为位置嵌入,Epos∈R6×2,y为输入视频的细粒度 行为类别标签,作为Transformer编码器输入;
步骤S6,将步骤S5得到的z0输入到Transformer网络中,输出记为
Figure BDA0003303620550000057
zt=MSA(LN(zt-1))+zt-1
zt=MLP(LN(zt′))+zt
Figure BDA0003303620550000061
其中MSA表示多头注意力机制,MLP表示多层感知机,LN表示层归一 化操作。
步骤S7,利用softmax作为最后的分类输出,优化交叉熵损失函数,见 公式(1),其中y表示当前样本的行为类别标签,Zi表示网络提取到的属 于第i类的特征值,通过损失函数可以测量真实分类结果与预测分类结果之 间的误差大小,然后基于该误差对网络权值进行优化和修正;
Figure BDA0003303620550000062
步骤S8,利用现有的细粒度行为数据集作为模型的训练数据,利用数据 集视频的行为类别作为分类真值标签,采用反向传播算法和随机梯度下降 法来减小误差Loss以训练模型,经过多次迭代训练得到最终的预测模型。
在具体实施数据集中,行为类别有99种,例如:splitjump,stagjump, split leapforward等。
在模型的训练过程种,每个类别用一个标签表示,比如,用0表示split jump,1表示stag jump,2表示split leap forward。
该模型一方面可应用到任意的人体细粒度行为预测任务中,另一方面该 模型利用Transformer网络,将人体关键点信息与图像数据结合,扩充了可 用于基于骨架的细粒度行为预测这一任务的网络,具有创新性。
实施例二
本实施例公开了细粒度行为识别方法,如图2所示,基于实施例一中 的模型,还包括:
步骤S9,利用训练好的细粒度行为预测模型预测视频数据中人的行为;
步骤S10,得到视频数据中人的行为预测标签。
考虑如何将Transformer应用于细粒度行为识别领域,考虑到行为识别 包含两个分支:基于姿态位置的行为识别和基于视频的行为识别,为保证 对人体细粒度行为的精确性,考虑将姿态位置信息与Transformer网络进行 结合,实现对视频数据中人体细粒度行为的预测。扩充了基于姿态的行为 识别的方法,为细粒度行为识别提供了新的可行思路,对利用姿态位置和 表征编码的结合解决细粒度行为识别任务进行了探索,其中包括:利用姿 态位置信息进行图像分块,利用位置坐标作为位置嵌入,对带时序的分块 进行拼接(Concat)操作,实现了对视频数据中人体行为的预测。
需要说明的是,上述步骤S5所述的将分块的图像对应的关节点坐标作 为位置嵌入即为“表征编码”。
结合方式见步骤S5,即利用对应的关节点坐标将姿态关节点的图像分块 编码作为Transformer模型的输入。
本发明利用了当下广泛研究的Transformer网络,结合人体关键点定位 技术,用于视频中人体细粒度行为的预测。
Transformer网络的引入扩充了基于骨架的细粒度行为识别的方法,且该 方法具有通用性,可应用于任意视频细粒度行为预测任务中,具有良好的 泛化性。
本发明提出以人体关键点为中心裁剪得到网络输入的图像分块,使得网 络能够更好的对人体信息进行建模,因此,模型具有较强的实用性。
实施例三
本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存 储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实 现上述实施例一或二中的方法的步骤。
实施例四
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器 执行时执行上述实施例一或二中的方法的步骤。
实施例四
本实施例的目的是提供了细粒度行为识别模型构建系统,包括:
关键点预测模块,被配置为:对获得的视频数据的帧序列进行关键点 预测,每帧中包含人体的多个关键点坐标信息;
图像分块模块,被配置为:针对帧序列,按照得到的关键点坐标为中 心进行裁剪,每帧图像得到多个图像分块;
将同一关键点对应的图像分块按照时序进行拼接操作,将拼接后的图 像分块,按照每个图像分块对应的关键点坐标作为位置嵌入,得到处理结 果;
模型优化模块,被配置为:将处理结果输入至深度自注意变换网络中, 通过损失函数测量真实分类结果与预测分类结果之间的误差大小,然后基 于该误差对网络权值进行优化和修正,获得细粒度行为识别模型。
基于同样的构思,公开了细粒度行为识别系统,包括:
利用训练好的细粒度行为预测模型预测视频数据中人的行为;
得到视频数据中人的行为预测标签。
为更精确地预测细粒度行为,利用人体姿态位置对行为进行建模,另 一方面引入了Transformer网络,扩充基于骨架预测行为的网路,最后,为 更好的建模,以姿态估计得到的关键点坐标为中心裁剪图片,得到的图像 分块作为网络的输入,实现了更精确地预测。
具体的,利用人体姿态估计技术对输入的视频数据进行预处理,得到 带有人体关键点位置的帧序列,然后将每帧图像以人体关键点为中心取固 定大小的裁剪区块,裁剪区块经过线性投影后,结合关键点坐标,输入到 Transformer网络中,得到输入视频中人体的细粒度行为预测结果。
本发明解决在预测视频中的人体细粒度行为任务中,考虑到高成本细 粒度行为视频数据以及方法局限性的问题,利用人体姿态估计与深度自注 意变换网络(Transformer)结合的技术来实现细粒度的行为识别。人体姿 态估计技术预测人体的关节点位置,以关键点坐标为中心的裁剪区块作为 深度自注意变换网络的图像分块输入,结合每个分块对应的关键点坐标信 息作为位置嵌入输入到Transformer网络中,实现对细粒度行为的分类。首 先,利用人体姿态估计技术对输入的视频数据进行预处理,得到带有人体关键点位置的帧序列,然后将每帧图像以人体关键点为中心取固定大小的 裁剪区块,裁剪区块经过线性投影后,结合关键点坐标,输入到Transformer 网络中,最后得到输入视频中人体的细粒度行为预测结果。该方法具有通 用、高效、新颖和预测高精度的特点。该方法在对细粒度行为预测任务上 具有较高的预测精度。通过在现有细粒度行为数据集上进行实验,验证了 本发明提出方法的准确性。
以上实施例装置中涉及的各步骤与方法实施例一相对应,具体实施方 式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理 解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括 任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令 集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用 的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来 实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它 们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成 单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本 发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案 的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或 变形仍在本发明的保护范围以内。

Claims (10)

1.细粒度行为识别模型构建方法,其特征是,包括:
对获得的视频数据的帧序列进行关键点预测,每帧中包含人体的多个关键点坐标信息;
针对帧序列,按照得到的关键点坐标为中心进行裁剪,每帧图像得到多个图像分块;
将同一关键点对应的图像分块按照时序进行拼接操作,将拼接后的图像分块,按照每个图像分块对应的关键点坐标作为位置嵌入,得到处理结果;
将处理结果输入至深度自注意变换网络中,通过损失函数测量真实分类结果与预测分类结果之间的误差大小,然后基于该误差对网络权值进行优化和修正,获得细粒度行为识别模型。
2.如权利要求1所述的细粒度行为识别模型构建方法,其特征是,对获得的视频数据首先进行预处理得到帧序列,帧序列中的元素调整为统一大小。
3.如权利要求1所述的细粒度行为识别模型构建方法,其特征是,将拼接后的图像分块之后,还包括利用线性投影模块处理为线性向量。
4.如权利要求1所述的细粒度行为识别模型构建方法,其特征是,将处理结果输入至深度自注意变换网络中之后,利用softmax作为最后的分类输出,优化交叉熵损失函数。
5.如权利要求1所述的细粒度行为识别模型构建方法,其特征是,对网络权值进行优化和修正的过程中,利用现有的细粒度行为数据集作为模型的训练数据,利用数据集视频的行为类别作为分类真值标签,采用反向传播算法和随机梯度下降法来减小误差以训练模型,经过多次迭代训练得到最终的预测模型。
6.视频数据中人体行为识别方法,其特征是,包括:
将待识别视频数据输入至细粒度行为识别模型,预测视频数据中人的行为,继而得到视频数据中人的行为预测标签,细粒度行为识别模型采用权利要求1-5任一所述的方法获得。
7.细粒度行为识别模型构建系统,其特征是,包括:
关键点预测模块,被配置为:对获得的视频数据的帧序列进行关键点预测,每帧中包含人体的多个关键点坐标信息;
图像分块模块,被配置为:针对帧序列,按照得到的关键点坐标为中心进行裁剪,每帧图像得到多个图像分块;
将同一关键点对应的图像分块按照时序进行拼接操作,将拼接后的图像分块,按照每个图像分块对应的关键点坐标作为位置嵌入,得到处理结果;
模型优化模块,被配置为:将处理结果输入至深度自注意变换网络中,通过损失函数测量真实分类结果与预测分类结果之间的误差大小,然后基于该误差对网络权值进行优化和修正,获得细粒度行为识别模型。
8.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现上述权利要求1-5任一所述方法或权利要求6所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时执行上述权利要求1-5任一所述方法或权利要求6所述的方法的步骤。
10.细粒度行为识别系统,其特征是,包括:
利用训练好的细粒度行为预测模型预测视频数据中人的行为;
得到视频数据中人的行为预测标签,预测模型采用权利要求1-5任一所述的方法获得。
CN202111197488.8A 2021-10-14 2021-10-14 细粒度行为识别模型构建方法及系统 Pending CN113920583A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111197488.8A CN113920583A (zh) 2021-10-14 2021-10-14 细粒度行为识别模型构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111197488.8A CN113920583A (zh) 2021-10-14 2021-10-14 细粒度行为识别模型构建方法及系统

Publications (1)

Publication Number Publication Date
CN113920583A true CN113920583A (zh) 2022-01-11

Family

ID=79240307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111197488.8A Pending CN113920583A (zh) 2021-10-14 2021-10-14 细粒度行为识别模型构建方法及系统

Country Status (1)

Country Link
CN (1) CN113920583A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100745A (zh) * 2022-07-05 2022-09-23 北京甲板智慧科技有限公司 基于Swin Transformer模型的运动实时计数方法和系统
CN115205737A (zh) * 2022-07-05 2022-10-18 北京甲板智慧科技有限公司 基于Transformer模型的运动实时计数方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388876A (zh) * 2018-03-13 2018-08-10 腾讯科技(深圳)有限公司 一种图像识别方法、装置以及相关设备
CN108985259A (zh) * 2018-08-03 2018-12-11 百度在线网络技术(北京)有限公司 人体动作识别方法和装置
CN111382624A (zh) * 2018-12-28 2020-07-07 杭州海康威视数字技术股份有限公司 动作识别方法、装置、设备及可读存储介质
CN112183478A (zh) * 2020-10-28 2021-01-05 深圳数联天下智能科技有限公司 人脸关键点定位方法、装置及存储介质
WO2021190296A1 (zh) * 2020-03-27 2021-09-30 华为技术有限公司 一种动态手势识别方法及设备
CN113469283A (zh) * 2021-07-23 2021-10-01 山东力聚机器人科技股份有限公司 一种图像分类方法、图像分类模型的训练方法及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388876A (zh) * 2018-03-13 2018-08-10 腾讯科技(深圳)有限公司 一种图像识别方法、装置以及相关设备
CN108985259A (zh) * 2018-08-03 2018-12-11 百度在线网络技术(北京)有限公司 人体动作识别方法和装置
CN111382624A (zh) * 2018-12-28 2020-07-07 杭州海康威视数字技术股份有限公司 动作识别方法、装置、设备及可读存储介质
WO2021190296A1 (zh) * 2020-03-27 2021-09-30 华为技术有限公司 一种动态手势识别方法及设备
CN112183478A (zh) * 2020-10-28 2021-01-05 深圳数联天下智能科技有限公司 人脸关键点定位方法、装置及存储介质
CN113469283A (zh) * 2021-07-23 2021-10-01 山东力聚机器人科技股份有限公司 一种图像分类方法、图像分类模型的训练方法及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100745A (zh) * 2022-07-05 2022-09-23 北京甲板智慧科技有限公司 基于Swin Transformer模型的运动实时计数方法和系统
CN115205737A (zh) * 2022-07-05 2022-10-18 北京甲板智慧科技有限公司 基于Transformer模型的运动实时计数方法和系统

Similar Documents

Publication Publication Date Title
CN113792113A (zh) 视觉语言模型获得及任务处理方法、装置、设备及介质
US11651214B2 (en) Multimodal data learning method and device
JP7286013B2 (ja) ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス
CN112308237B (zh) 一种问答数据增强方法、装置、计算机设备及存储介质
RU2665273C2 (ru) Обучаемые визуальные маркеры и способ их продуцирования
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN113920583A (zh) 细粒度行为识别模型构建方法及系统
CN111553267A (zh) 图像处理方法、图像处理模型训练方法及设备
CN111460876B (zh) 用于识别视频的方法和装置
CN109447096B (zh) 一种基于机器学习的扫视路径预测方法和装置
CN110163052B (zh) 视频动作识别方法、装置和机器设备
CN112597984B (zh) 图像数据处理方法、装置、计算机设备和存储介质
CN113902256A (zh) 训练标签预测模型的方法、标签预测方法和装置
CN116229530A (zh) 图像处理方法、装置、存储介质及电子设备
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
WO2022222854A1 (zh) 一种数据处理方法及相关设备
CN116543351A (zh) 一种基于时空串并联关系编码的自监督群体行为识别方法
CN114925320B (zh) 一种数据处理方法及相关装置
CN113850012B (zh) 数据处理模型生成方法、装置、介质及电子设备
CN115115828A (zh) 数据处理方法、装置、程序产品、计算机设备和介质
CN113822282A (zh) 图像语义分割方法、装置、计算机设备及存储介质
CN111557010A (zh) 学习装置和方法以及程序
CN117113270A (zh) 一种基于改进对齐方法的知识融合多模态交互方法及装置
CN114170484B (zh) 图片属性预测方法、装置、电子设备和存储介质
CN116975347A (zh) 图像生成模型训练方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination