CN113920583A - 细粒度行为识别模型构建方法及系统 - Google Patents
细粒度行为识别模型构建方法及系统 Download PDFInfo
- Publication number
- CN113920583A CN113920583A CN202111197488.8A CN202111197488A CN113920583A CN 113920583 A CN113920583 A CN 113920583A CN 202111197488 A CN202111197488 A CN 202111197488A CN 113920583 A CN113920583 A CN 113920583A
- Authority
- CN
- China
- Prior art keywords
- fine
- key point
- grained
- prediction
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims description 10
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 16
- 230000009466 transformation Effects 0.000 claims abstract description 11
- 230000006399 behavior Effects 0.000 claims description 96
- 230000006870 function Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 230000000903 blocking effect Effects 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了细粒度行为识别模型构建方法及系统,包括:对获得的视频数据的帧序列进行关键点预测,每帧中包含人体的多个关键点坐标信息;针对帧序列,按照得到的关键点坐标为中心进行裁剪,每帧图像得到多个图像分块;将同一关键点对应的图像分块按照时序进行拼接操作,将拼接后的图像分块,按照每个图像分块对应的关键点坐标作为位置嵌入,得到处理结果;将处理结果输入至深度自注意变换网络中,通过损失函数测量真实分类结果与预测分类结果之间的误差大小,然后基于该误差对网络权值进行优化和修正,获得细粒度行为识别模型。本发明实现了更精确地预测。
Description
技术领域
本发明属于计算机视觉技术领域,尤其涉及基于姿态位置和表观编码 的细粒度行为识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构 成在先技术。
随着深度自注意变换网络(Transformer)在自然语言处理领域的成功 应用,人们开始尝试将其应用到计算机视觉任务中。其中,一些工作尝试 将标准Transformer直接应用于图像,即将图像拆分为小块,并提供这些小 块的线性嵌入序列作为transformer的输入。以监督方式对模型进行图像分 类训练。
目前的细粒度行为识别存在的技术问题是:细粒度行为识别属于行为 识别的一个分支,当前基于视觉信息的行为识别技术例如:Temporal Shift Module(TSM),Action-net等方法的粒度都在于行为类别,而对执行行为的个 体区别不予关注。因此最先进的方法在识别一些具有细微差别的行为时的 精度远低于人类的水平。当前的基于视觉信息的行为识别技术由于粒度在 行为类别上,可能在分类过程中过于依赖视频背景,从而忽略了个体才是 行为识别任务中最应该关注的。
发明内容
为克服上述现有技术的不足,本发明提供了细粒度行为识别模型构建 方法及系统,实现了对视频数据中人体行为的准确预测。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
第一方面,公开了细粒度行为识别模型构建方法,包括:
对获得的视频数据的帧序列进行关键点预测,每帧中包含人体的多个 关键点坐标信息;
针对帧序列,按照得到的关键点坐标为中心进行裁剪,每帧图像得到 多个图像分块;
将同一关键点对应的图像分块按照时序进行拼接操作,将拼接后的图 像分块,按照每个图像分块对应的关键点坐标作为位置嵌入,得到处理结 果;
将处理结果输入至深度自注意变换网络中,通过损失函数测量真实分 类结果与预测分类结果之间的误差大小,然后基于该误差对网络权值进行 优化和修正,获得细粒度行为识别模型。
在一些实施例子中,对获得的视频数据首先进行预处理得到帧序列, 帧序列中的元素调整为统一大小。
在一些实施例子中,将拼接后的图像分块之后,还包括利用线性投影 模块处理为线性向量。
在一些实施例子中,将处理结果输入至深度自注意变换网络中之后, 利用softmax作为最后的分类输出,优化交叉熵损失函数。
在一些实施例子中,对网络权值进行优化和修正的过程中,利用现有 的细粒度行为数据集作为模型的训练数据,利用数据集视频的行为类别作 为分类真值标签,采用反向传播算法和随机梯度下降法来减小误差以训练 模型,经过多次迭代训练得到最终的预测模型。
第二方面,公开了视频数据中人体行为识别方法,包括:
将待识别视频数据输入至细粒度行为识别模型,预测视频数据中人的 行为,继而得到视频数据中人的行为预测标签。
第三方面,公开了细粒度行为识别模型构建系统,包括:
关键点预测模块,被配置为:对获得的视频数据的帧序列进行关键点 预测,每帧中包含人体的多个关键点坐标信息;
图像分块模块,被配置为:针对帧序列,按照得到的关键点坐标为中 心进行裁剪,每帧图像得到多个图像分块;
将同一关键点对应的图像分块按照时序进行拼接操作,将拼接后的图 像分块,按照每个图像分块对应的关键点坐标作为位置嵌入,得到处理结 果;
模型优化模块,被配置为:将处理结果输入至深度自注意变换网络中, 通过损失函数测量真实分类结果与预测分类结果之间的误差大小,然后基 于该误差对网络权值进行优化和修正,获得细粒度行为识别模型。
以上一个或多个技术方案存在以下有益效果:
本发明为更精确地预测细粒度行为,利用人体姿态位置对行为进行建 模,另一方面引入了Transformer网络,扩充基于骨架预测行为的网路,最 后,为更好的建模,以姿态估计得到的关键点坐标为中心裁剪图片,得到 的图像分块作为网络的输入,实现了更精确地预测。
本发明首先利用人体姿态估计技术对输入的视频数据进行预处理,得 到带有人体关键点位置的帧序列,然后将每帧图像以人体关键点为中心取 固定大小的裁剪区块,裁剪区块经过线性投影后,结合关键点坐标,输入 到Transformer网络中,得到输入视频中人体的细粒度行为预测结果。
本发明方法具有通用性并且兼顾了精确度的要求。通过测试实验中的 应用验证了上述方法的有效性。
本发明的方法采用人体姿态关节点信息对行为进行识别,基于关节点 信息的关注点就在个体,因此,该方法更容易关注到个体行为之间的细微 差异。其次,本发明的方法结合了最新的Transformer技术,为后续细粒度 行为识别的研究提供了新的思路。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的 描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解, 本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不 当限定。
图1为本发明实施例基于姿态位置和表观编码的细粒度行为识别方法 示意图;
图2为本发明实施例算法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的 说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属 技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非 意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组 合。
实施例一
基于深度学习的方法的测试实验利用公开数据集,对模型进行训练以 及测试,获得测试效果。本发明公开了具体的网络模型架构示意图,如图1。
参见附图1、2所示,本实施例公开了细粒度行为识别模型构建方法, 以细粒度行为数据集A为例,共包含个6000多个视频,99类行为。本发 明具体包括如下步骤:
步骤S0,视频数据预处理,得到帧序列,共T帧,记为∑{ft},t∈ [1,2,…,T-1,T],ft均调整为统一大小,记为w×h×c,实际选择为256× 256×3;
需要说明的是,将图片分块是因为Transformer最先是用于NLP(自然 语言处理)领域的方法,在NLP里面,Transformer的输入是一个序列,每 个元素是一个“单词嵌入”。因此将Transformer用于图像时也要在图像输入 种找出“单词”的概念,于是就有了图像分块。只有这样,才可以在计算机视 觉任务中应用Transformer方法。
基于动作是有时序性的,时序改变,动作可能完全不一样。将图像分块 进行拼接作为网络输入可以使网络学习到行为的时序信息,可以更精确的 进行行为识别。
步骤S4,将步骤S3得到的拼接后的图像分块,利用线性投影模块处理 为线性向量;
在该步骤中,利用线性投影模块将图像分块处理成线性向量,即“词嵌 入”,这是得到Transformer编码器输入的基本步骤。
步骤S5,将步骤S4得到的拼接后的图像分块,按照对应的关键点坐标 作为步骤S4种得到的图像分块线性向量的嵌入,得到:
zt=MSA(LN(zt-1))+zt-1
zt=MLP(LN(zt′))+zt′
其中MSA表示多头注意力机制,MLP表示多层感知机,LN表示层归一 化操作。
步骤S7,利用softmax作为最后的分类输出,优化交叉熵损失函数,见 公式(1),其中y表示当前样本的行为类别标签,Zi表示网络提取到的属 于第i类的特征值,通过损失函数可以测量真实分类结果与预测分类结果之 间的误差大小,然后基于该误差对网络权值进行优化和修正;
步骤S8,利用现有的细粒度行为数据集作为模型的训练数据,利用数据 集视频的行为类别作为分类真值标签,采用反向传播算法和随机梯度下降 法来减小误差Loss以训练模型,经过多次迭代训练得到最终的预测模型。
在具体实施数据集中,行为类别有99种,例如:splitjump,stagjump, split leapforward等。
在模型的训练过程种,每个类别用一个标签表示,比如,用0表示split jump,1表示stag jump,2表示split leap forward。
该模型一方面可应用到任意的人体细粒度行为预测任务中,另一方面该 模型利用Transformer网络,将人体关键点信息与图像数据结合,扩充了可 用于基于骨架的细粒度行为预测这一任务的网络,具有创新性。
实施例二
本实施例公开了细粒度行为识别方法,如图2所示,基于实施例一中 的模型,还包括:
步骤S9,利用训练好的细粒度行为预测模型预测视频数据中人的行为;
步骤S10,得到视频数据中人的行为预测标签。
考虑如何将Transformer应用于细粒度行为识别领域,考虑到行为识别 包含两个分支:基于姿态位置的行为识别和基于视频的行为识别,为保证 对人体细粒度行为的精确性,考虑将姿态位置信息与Transformer网络进行 结合,实现对视频数据中人体细粒度行为的预测。扩充了基于姿态的行为 识别的方法,为细粒度行为识别提供了新的可行思路,对利用姿态位置和 表征编码的结合解决细粒度行为识别任务进行了探索,其中包括:利用姿 态位置信息进行图像分块,利用位置坐标作为位置嵌入,对带时序的分块 进行拼接(Concat)操作,实现了对视频数据中人体行为的预测。
需要说明的是,上述步骤S5所述的将分块的图像对应的关节点坐标作 为位置嵌入即为“表征编码”。
结合方式见步骤S5,即利用对应的关节点坐标将姿态关节点的图像分块 编码作为Transformer模型的输入。
本发明利用了当下广泛研究的Transformer网络,结合人体关键点定位 技术,用于视频中人体细粒度行为的预测。
Transformer网络的引入扩充了基于骨架的细粒度行为识别的方法,且该 方法具有通用性,可应用于任意视频细粒度行为预测任务中,具有良好的 泛化性。
本发明提出以人体关键点为中心裁剪得到网络输入的图像分块,使得网 络能够更好的对人体信息进行建模,因此,模型具有较强的实用性。
实施例三
本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存 储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实 现上述实施例一或二中的方法的步骤。
实施例四
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器 执行时执行上述实施例一或二中的方法的步骤。
实施例四
本实施例的目的是提供了细粒度行为识别模型构建系统,包括:
关键点预测模块,被配置为:对获得的视频数据的帧序列进行关键点 预测,每帧中包含人体的多个关键点坐标信息;
图像分块模块,被配置为:针对帧序列,按照得到的关键点坐标为中 心进行裁剪,每帧图像得到多个图像分块;
将同一关键点对应的图像分块按照时序进行拼接操作,将拼接后的图 像分块,按照每个图像分块对应的关键点坐标作为位置嵌入,得到处理结 果;
模型优化模块,被配置为:将处理结果输入至深度自注意变换网络中, 通过损失函数测量真实分类结果与预测分类结果之间的误差大小,然后基 于该误差对网络权值进行优化和修正,获得细粒度行为识别模型。
基于同样的构思,公开了细粒度行为识别系统,包括:
利用训练好的细粒度行为预测模型预测视频数据中人的行为;
得到视频数据中人的行为预测标签。
为更精确地预测细粒度行为,利用人体姿态位置对行为进行建模,另 一方面引入了Transformer网络,扩充基于骨架预测行为的网路,最后,为 更好的建模,以姿态估计得到的关键点坐标为中心裁剪图片,得到的图像 分块作为网络的输入,实现了更精确地预测。
具体的,利用人体姿态估计技术对输入的视频数据进行预处理,得到 带有人体关键点位置的帧序列,然后将每帧图像以人体关键点为中心取固 定大小的裁剪区块,裁剪区块经过线性投影后,结合关键点坐标,输入到 Transformer网络中,得到输入视频中人体的细粒度行为预测结果。
本发明解决在预测视频中的人体细粒度行为任务中,考虑到高成本细 粒度行为视频数据以及方法局限性的问题,利用人体姿态估计与深度自注 意变换网络(Transformer)结合的技术来实现细粒度的行为识别。人体姿 态估计技术预测人体的关节点位置,以关键点坐标为中心的裁剪区块作为 深度自注意变换网络的图像分块输入,结合每个分块对应的关键点坐标信 息作为位置嵌入输入到Transformer网络中,实现对细粒度行为的分类。首 先,利用人体姿态估计技术对输入的视频数据进行预处理,得到带有人体关键点位置的帧序列,然后将每帧图像以人体关键点为中心取固定大小的 裁剪区块,裁剪区块经过线性投影后,结合关键点坐标,输入到Transformer 网络中,最后得到输入视频中人体的细粒度行为预测结果。该方法具有通 用、高效、新颖和预测高精度的特点。该方法在对细粒度行为预测任务上 具有较高的预测精度。通过在现有细粒度行为数据集上进行实验,验证了 本发明提出方法的准确性。
以上实施例装置中涉及的各步骤与方法实施例一相对应,具体实施方 式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理 解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括 任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令 集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用 的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来 实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它 们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成 单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本 发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案 的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或 变形仍在本发明的保护范围以内。
Claims (10)
1.细粒度行为识别模型构建方法,其特征是,包括:
对获得的视频数据的帧序列进行关键点预测,每帧中包含人体的多个关键点坐标信息;
针对帧序列,按照得到的关键点坐标为中心进行裁剪,每帧图像得到多个图像分块;
将同一关键点对应的图像分块按照时序进行拼接操作,将拼接后的图像分块,按照每个图像分块对应的关键点坐标作为位置嵌入,得到处理结果;
将处理结果输入至深度自注意变换网络中,通过损失函数测量真实分类结果与预测分类结果之间的误差大小,然后基于该误差对网络权值进行优化和修正,获得细粒度行为识别模型。
2.如权利要求1所述的细粒度行为识别模型构建方法,其特征是,对获得的视频数据首先进行预处理得到帧序列,帧序列中的元素调整为统一大小。
3.如权利要求1所述的细粒度行为识别模型构建方法,其特征是,将拼接后的图像分块之后,还包括利用线性投影模块处理为线性向量。
4.如权利要求1所述的细粒度行为识别模型构建方法,其特征是,将处理结果输入至深度自注意变换网络中之后,利用softmax作为最后的分类输出,优化交叉熵损失函数。
5.如权利要求1所述的细粒度行为识别模型构建方法,其特征是,对网络权值进行优化和修正的过程中,利用现有的细粒度行为数据集作为模型的训练数据,利用数据集视频的行为类别作为分类真值标签,采用反向传播算法和随机梯度下降法来减小误差以训练模型,经过多次迭代训练得到最终的预测模型。
6.视频数据中人体行为识别方法,其特征是,包括:
将待识别视频数据输入至细粒度行为识别模型,预测视频数据中人的行为,继而得到视频数据中人的行为预测标签,细粒度行为识别模型采用权利要求1-5任一所述的方法获得。
7.细粒度行为识别模型构建系统,其特征是,包括:
关键点预测模块,被配置为:对获得的视频数据的帧序列进行关键点预测,每帧中包含人体的多个关键点坐标信息;
图像分块模块,被配置为:针对帧序列,按照得到的关键点坐标为中心进行裁剪,每帧图像得到多个图像分块;
将同一关键点对应的图像分块按照时序进行拼接操作,将拼接后的图像分块,按照每个图像分块对应的关键点坐标作为位置嵌入,得到处理结果;
模型优化模块,被配置为:将处理结果输入至深度自注意变换网络中,通过损失函数测量真实分类结果与预测分类结果之间的误差大小,然后基于该误差对网络权值进行优化和修正,获得细粒度行为识别模型。
8.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现上述权利要求1-5任一所述方法或权利要求6所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时执行上述权利要求1-5任一所述方法或权利要求6所述的方法的步骤。
10.细粒度行为识别系统,其特征是,包括:
利用训练好的细粒度行为预测模型预测视频数据中人的行为;
得到视频数据中人的行为预测标签,预测模型采用权利要求1-5任一所述的方法获得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111197488.8A CN113920583A (zh) | 2021-10-14 | 2021-10-14 | 细粒度行为识别模型构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111197488.8A CN113920583A (zh) | 2021-10-14 | 2021-10-14 | 细粒度行为识别模型构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113920583A true CN113920583A (zh) | 2022-01-11 |
Family
ID=79240307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111197488.8A Pending CN113920583A (zh) | 2021-10-14 | 2021-10-14 | 细粒度行为识别模型构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113920583A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100745A (zh) * | 2022-07-05 | 2022-09-23 | 北京甲板智慧科技有限公司 | 基于Swin Transformer模型的运动实时计数方法和系统 |
CN115205737A (zh) * | 2022-07-05 | 2022-10-18 | 北京甲板智慧科技有限公司 | 基于Transformer模型的运动实时计数方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388876A (zh) * | 2018-03-13 | 2018-08-10 | 腾讯科技(深圳)有限公司 | 一种图像识别方法、装置以及相关设备 |
CN108985259A (zh) * | 2018-08-03 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 人体动作识别方法和装置 |
CN111382624A (zh) * | 2018-12-28 | 2020-07-07 | 杭州海康威视数字技术股份有限公司 | 动作识别方法、装置、设备及可读存储介质 |
CN112183478A (zh) * | 2020-10-28 | 2021-01-05 | 深圳数联天下智能科技有限公司 | 人脸关键点定位方法、装置及存储介质 |
WO2021190296A1 (zh) * | 2020-03-27 | 2021-09-30 | 华为技术有限公司 | 一种动态手势识别方法及设备 |
CN113469283A (zh) * | 2021-07-23 | 2021-10-01 | 山东力聚机器人科技股份有限公司 | 一种图像分类方法、图像分类模型的训练方法及设备 |
-
2021
- 2021-10-14 CN CN202111197488.8A patent/CN113920583A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388876A (zh) * | 2018-03-13 | 2018-08-10 | 腾讯科技(深圳)有限公司 | 一种图像识别方法、装置以及相关设备 |
CN108985259A (zh) * | 2018-08-03 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 人体动作识别方法和装置 |
CN111382624A (zh) * | 2018-12-28 | 2020-07-07 | 杭州海康威视数字技术股份有限公司 | 动作识别方法、装置、设备及可读存储介质 |
WO2021190296A1 (zh) * | 2020-03-27 | 2021-09-30 | 华为技术有限公司 | 一种动态手势识别方法及设备 |
CN112183478A (zh) * | 2020-10-28 | 2021-01-05 | 深圳数联天下智能科技有限公司 | 人脸关键点定位方法、装置及存储介质 |
CN113469283A (zh) * | 2021-07-23 | 2021-10-01 | 山东力聚机器人科技股份有限公司 | 一种图像分类方法、图像分类模型的训练方法及设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100745A (zh) * | 2022-07-05 | 2022-09-23 | 北京甲板智慧科技有限公司 | 基于Swin Transformer模型的运动实时计数方法和系统 |
CN115205737A (zh) * | 2022-07-05 | 2022-10-18 | 北京甲板智慧科技有限公司 | 基于Transformer模型的运动实时计数方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113792113A (zh) | 视觉语言模型获得及任务处理方法、装置、设备及介质 | |
US11651214B2 (en) | Multimodal data learning method and device | |
JP7286013B2 (ja) | ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス | |
CN112308237B (zh) | 一种问答数据增强方法、装置、计算机设备及存储介质 | |
RU2665273C2 (ru) | Обучаемые визуальные маркеры и способ их продуцирования | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN113920583A (zh) | 细粒度行为识别模型构建方法及系统 | |
CN111553267A (zh) | 图像处理方法、图像处理模型训练方法及设备 | |
CN111460876B (zh) | 用于识别视频的方法和装置 | |
CN109447096B (zh) | 一种基于机器学习的扫视路径预测方法和装置 | |
CN110163052B (zh) | 视频动作识别方法、装置和机器设备 | |
CN112597984B (zh) | 图像数据处理方法、装置、计算机设备和存储介质 | |
CN113902256A (zh) | 训练标签预测模型的方法、标签预测方法和装置 | |
CN116229530A (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN114283352A (zh) | 一种视频语义分割装置、训练方法以及视频语义分割方法 | |
WO2022222854A1 (zh) | 一种数据处理方法及相关设备 | |
CN116543351A (zh) | 一种基于时空串并联关系编码的自监督群体行为识别方法 | |
CN114925320B (zh) | 一种数据处理方法及相关装置 | |
CN113850012B (zh) | 数据处理模型生成方法、装置、介质及电子设备 | |
CN115115828A (zh) | 数据处理方法、装置、程序产品、计算机设备和介质 | |
CN113822282A (zh) | 图像语义分割方法、装置、计算机设备及存储介质 | |
CN111557010A (zh) | 学习装置和方法以及程序 | |
CN117113270A (zh) | 一种基于改进对齐方法的知识融合多模态交互方法及装置 | |
CN114170484B (zh) | 图片属性预测方法、装置、电子设备和存储介质 | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |