CN110378281A - 基于伪3d卷积神经网络的组群行为识别方法 - Google Patents
基于伪3d卷积神经网络的组群行为识别方法 Download PDFInfo
- Publication number
- CN110378281A CN110378281A CN201910645623.7A CN201910645623A CN110378281A CN 110378281 A CN110378281 A CN 110378281A CN 201910645623 A CN201910645623 A CN 201910645623A CN 110378281 A CN110378281 A CN 110378281A
- Authority
- CN
- China
- Prior art keywords
- human body
- artis
- activity recognition
- group
- people
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000694 effects Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 16
- 230000003993 interaction Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 29
- 239000000284 extract Substances 0.000 claims abstract description 16
- 230000006399 behavior Effects 0.000 claims description 49
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 38
- 239000013598 vector Substances 0.000 claims description 26
- 230000003542 behavioural effect Effects 0.000 claims description 18
- 230000002452 interceptive effect Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000008859 change Effects 0.000 abstract description 2
- 230000037081 physical activity Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 27
- 210000003414 extremity Anatomy 0.000 description 24
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 210000001981 hip bone Anatomy 0.000 description 2
- 210000003127 knee Anatomy 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101100272669 Aromatoleum evansii boxA gene Proteins 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- MDJRZSNPHZEMJH-MTMZYOSNSA-N artisone acetate Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H](C(=O)COC(=O)C)[C@@]1(C)CC2 MDJRZSNPHZEMJH-MTMZYOSNSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 150000001875 compounds Chemical group 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 210000001699 lower leg Anatomy 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Abstract
本发明公开一种基于伪3D卷积神经网络的组群行为识别方法,包括:(1)利用OpenPose姿态估计算法进行人体姿态估计与目标跟踪;(2)利用P3D ResNet(伪3D残差网络)提取每个人的时空特征,使用softmax分类器对时空特征进行分类,完成单人行为识别;(3)利用人体目标的位置信息和外观特征,构建人体目标交互图,并利用图卷积网络进行图推理和训练;(4)根据人体目标交互图进行组群行为识别。本方案基于P3D卷积网络提取特征,即减少了模型的参数又提高了识别精度,并结合人体目标的位置信息和外观特征,构建人体目标交互图以提高群组行为识别率,通过该技术,计算机可以实时判断公共区域中感兴趣人体目标的状态变化,进行自动人体行为识别,识别精度高,应用领域广。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于伪3D卷积神经网络的组群行为识别方法。
背景技术
随着硬件技术的不断发展,监控摄像头已无处不在,如机场、超市、银行、医院和学校等各种公共场所;面对如此大规模的摄像监控网络,单纯依靠人力已无法胜任监控视频这一工作。群组行为识别是计算机视觉领域中的重要研究内容,其主要应用于智能监控系统、视频检索以及人机交互等领域;群组行为识别是指通过某种算法,从视频图像中自动识别出多个人共同完成的活动,群组行为识别方法分为基于图模型和无图模型两种方法。
现有技术中关于组群行为识别方案多种多样,比如申请公布号为【CN106991384A】的发明专利公开了一种“行人组群行为识别方法及装置”,通过获取带识别图像序列中行人的运动轨迹来获得行人的步态周期信息,进而构造与所述行人速度变化信息对应的特征向量,最后根据所述特征向量识别图像序列中的行人组群行为;2017年11月《计算机学报》第40卷第11期的论文“基于流密度的多重交互集体行为识别算法”,采用基于流密度的方法对复杂视频场景中的集体行为识别问题;申请公布号为【CN108764011A】的发明专利公开一种基于图形化交互关系建模的组群识别方法,该方案首先进行人体目标的识别与跟踪;然后通过多粒度信息融合模型构建人体目标低层特征基础模型;再基于基础模型进行深度学习,构建底层特征的深度学习模型;然后基于底层基础模型和底层特征深度学习模型构建人体目标交互关系;最后基于交互关系进行组群行为识别。
目前的组群行为识别方法由于各种各样的原因,比如,在单人行为分析方面分类效果显著,但是缺乏对组群行为中人与人之间的重要的交互关系的考虑,大都面临着识别精度差的问题,或者是没有子组群检测环节,即默认场景中只存在一种组群行为,而限定了其使用范围。比如,对于申请公布号为【CN108764011A】的发明专利来说,该方案就存在如下缺陷:
(1)第一步中采用基于可变形部件模型的粒子滤波快速行人检测与跟踪算法识别并跟踪视频图像中的人体目标,存在粒子退化问题和重采样所导致的粒子匮乏问题,往往会导致检测到的人体区域有较大误差,为后续人体行为识别埋下隐患,从而导致整体算法性能降低;
(2)第二步中获取人体目标底层特征基础模型,采用的是传统的基于HOG与HOF特征融合的方法,该方法对噪声较为敏感、光谱信息损失多且对文理特征的旋转不变性差,另外对于存在行人部分或全部遮挡的情况,特征提取效果不好;
(3)第三步中在传统方法提取底层特征的基础上,增加循环神经网络RNN进行地递推学习,获取目标底层特征的深度学习模型,无法提取视频底层信息之间的联系,容易丢失上下文信息。
发明内容
本发明提出一种基于伪3D卷积神经网络的组群行为识别方法,以解决视频监控中的群组行为识别精度差问题,为实时判断公共区域中感兴趣人体目标的状态变化、进行自动人体行为识别提供技术支持。
本发明是采用以下的技术方案实现的:一种基于伪3D卷积神经网络的组群行为识别方法,包括以下步骤:
步骤A、对待识别视频图像进行人体姿态估计与目标跟踪;
步骤B、基于P3D ResNet进行单人行为识别,具体包括:
步骤B1、根据步骤A中得到的人体目标跟踪结果,构建单人行为识别数据集;
步骤B2、构建P3D ResNet网络并对其进行训练;
其中,关于P3D ResNet网络的定义如下:
(1)输入层:根据步骤B1得到的单人行为识别数据集,以特定采样率生成训练样本;
(2)时空特征提取层:时空特征提取层包含多个时空特征提取模块,运行流程为:将输入层或时空特征提取层的输出经过一个1*1*1的卷积层调整特征维度,然后输入1*3*3的空间卷积层提取空间特征,进一步输入3*1*1的时间卷积层得到时空特征,最后使用1*1*1的卷积核进行特征融合得到时空特征表示;
(3)行为分类层:将时空特征提取层得到的表示时空特征的向量,经过softmax函数后得到每个人在不同行为上的概率值;
步骤B3、单人行为识别:
基于步骤B2的训练结果,获得单人行为特征N为步骤A中跟踪到的人体总数;
使用softmax分类器对单人行为特征进行分类,获得在每个行为上的概率值,将最大的概率值所对应的行为标签作为人体目标的预测标签,用变量T表示;
步骤C、基于步骤A得到的人体位置信息和步骤B得到的人体行为特征,构建人体目标交互图,并利用图卷积网络进行图推理和训练;
步骤D、根据人体目标交互图进行组群行为识别,并将场景中包含人数最多子组群的行为作为最终的组群行为。
进一步的,所述步骤C具体包括以下步骤:
步骤C1、构建人体目标交互图:
根据人体位置信息和人体行为特征构建人体目标交互图G=(V,E),V表示人体目标交互图中的节点,每个节点代表一个人的信息集合,包括人体的行为特征和人体目标的预测标签;E是人体目标交互图中的边,用来表示成对人的交互关系;
步骤C2、利用图卷积网络(GCN)对人体目标交互图进行图推理和训练:
经过图推理所得到新的交互图被分成多组交互子图,且每组交互子图对应一种行为类别;通过多层图卷积网络进行训练后得到目标子交互图G‘=G1,G2,…,GM,M表示一个场景中所包含的子组群的数量;
最后,将经过图卷积网络后输出的目标子交互图G′的每个子图用一个一维向量X′进行表示,将X′作为softmax分类器的输入,得到每个子组群的行为得分以及预测的子组群行为标签
步骤C3、基于图卷积网络模型进行训练:
模型训练时,所用的交叉熵损失函数为:
其中yG表示群组活动的真实标签,通过与步骤C2中得到的子组群行为标签进行对比,以使模型训练时所用的交叉熵损失函数值最小。
进一步的,所述步骤A中对人体姿态估计与目标跟踪时基于OpenPose姿态估计算法实现,具体包括:
步骤A1、构建网络结构:
对输入的待识别图像进行人体特征提取,得到特征图F;并将得到的特征图F分成两个分支,分别进行人体关节点检测和关节点的亲和域检测,以对应的得到关节点置信图集合S和关节点亲和域集合L;
步骤A2、训练网络结构:
由于关节点置信图和亲和域存在本质区别,训练过程中需要分别进行;设定关节点位置和亲和域的损失函数分别如下:
其中,j表示关节点,c表示肢体,每个肢体对应两个关节点,为置信图的真实值,为亲和区域的真实值,W为掩膜函数,W(P)表示在位置P处的标注,整个网络的最终损失为每个阶段两个损失之和的累加:
步骤A3、多人姿态估计与跟踪。
进一步的,所述步骤A1中,对关节点置信图集合S进行预测时,采用以下方式:
对于多人姿态估计,用高斯核函数确定每个位置的置信度,首先对第K个人,生成他的所有置信图用xj,k表示第k个人的第j个关节点所对应的实际位置,设P点的置信度被定义为:
其中,σ为标准差,目的是控制置信度的分布范围,对于多人的姿态估计,每个人特定关节点的实际置信图为高斯核范围内的最大值:
进一步的,所述步骤A1中,对关节点亲和域集合L进行预测时采用以下方式:
设xj1,k和xj2,k分别表示第k个人在肢体C上的两个关节点,如果点P在肢体C上,则的值为j1指向j2的单位向量,若不在则为零,即:
其中v=(xj2,k-xj1,k)/||xj2,k-xj1,k||2表示肢体方向的单位向量,在0≤V·(p-xj1,k)≤lc,k和|V⊥·(P-xj1,k)|≤σl范围内的点P被定义为在肢体C上,其中σl表示肢体的宽度,lc,k=||xj2,k-xj1,k||2表示肢体的长度,V⊥表示垂直于肢体的向量,点P处的部分亲和域真实值为所有人在此点上的部分亲和域矢量场的平均值:
其中nc(p)表示位置P处不同人的亲和域在该处的叠加次数,即在该处将所有人的非零向量进行叠加;
在预测阶段,对于两个候选关节点位置dj1和dj2,在两关节点组成的线段上对亲和域Lc进行采样,则两关节点之间的关联置信度为在该线段上亲和域的积分:
其中p(μ)表示两个节点之间的位置,p(μ)=(1-μ)dj1+μdj2,实际预测时对μ区间进行均匀间隔采样求和来求解近似的积分值。
进一步的,所述步骤A3中,对多人姿态估计与跟踪具体采用以下方式:
(1)根据预测置信图得到离散的候选关节点:其中Nj表示关节点j的个数,表示关节点j的第m个候选点的位置;
(2)定义变量用来表示两个候选关节点和之间是否有连接,关节点之间相互连接形成二分图,并对二分图进行最优化使连接权重最大化;
(3)考虑多个人的全身姿态估计,最优化的目标函数表示为:
将优化之后各个二分图中共同的关节点进行整合,最终得到多人的人体姿态估计;分别取人体i所有关节点中x和y的最大值和最小值,确定目标i的边界框,将边界框的中心坐标位置作为目标i的位置信息进行跟踪。
进一步的,所述步骤B2中,对P3D ResNet网络进行训练时,采用以下方式:
(B21)构建损失函数
根据所构建的P3D ResNet网络得到每个人不同行为的概率值,构建交叉熵损失函数,表达式如下:
其中,M表示行为类别的数量;yc为指示变量,取值为0或1,如果该类别和样本的类别相同则为1,否则为0;pc表示对于观测样本属于类别c的预测概率;
(B22)构建优化函数
采用Adam算法作为模型的优化函数,使步骤(B21)中构建的损失函数损失值最小,以实现对P3D ResNet网络的训练。
与现有技术相比,本发明的优点和积极效果在于:
(1)在进行单人行为识别时,本方案基于P3D卷积网络提取特征,即减少了模型的参数,又提高了识别精度:采用P3D的方法进行特征提取,即用(1×3×3)的空间卷积和(3×1×1)的时间卷积来近似代替(3×3×3)的3D卷积;即可以利用3D结构来提取视频的时空信息,又能够利用原来在其他数据集上预训练的参数做模型的初始化,保证人体行为识别精度更高;
(2)基于人体目标的位置信息和外观特征,构建人体目标交互图来提高群组行为识别率:在群组行为识别任务中,本方案不仅要考虑单人行为特征,还考虑了人与人之间的交互关系;基于图卷积网络来自动学习人体目标交互图的特征信息及结构信息,以提高组群行为识别率。可应用在智能监控系统、视频检索以及人机交互等领域中对群体异常行为的识别,以起到有效预警和主动防御等作用。
附图说明
图1为本发明实施例所构建的网络结构示意图;
图2为本发明实施例中肢体坐标示意图;
图3为本发明实施例人体i的关节点示意图;
图4为本发明实施例OpenPose姿态估计与跟踪结果示意图;
图5为本发明实施例单人行为识别数据集原理示意图;
图6为本发明实施例时空特征提取模块结构原理示意图;
图7为本发明实施例所述组群识别原理示意图;
图8为本发明实施例所述方案与C3D和RestNet两种方案的单人行为识别精度对比示意图;
图9为本发明实施例所述方案在组群行为识别精度与其他方法的识别精度对比示意图。
具体实施方式
为了能够更清楚的理解本发明的上述目的和优点,下面结合附图对本发明的具体实施方式做详细地描述:
实施例,一种基于伪3D卷积神经网络的组群行为识别方法,如图7所示,包括以下步骤:
第一步:基于OpenPose姿态估计算法进行人体姿态估计与目标跟踪;
第二步:利用P3D ResNet进行单人行为识别;
第三步:构建人体目标交互图,并利用图卷积网络进行图推理和训练;
第四步:根据人体目标交互图进行组群行为识别。
具体的:
第一步、基于OpenPose姿态估计算法进行人体姿态估计与目标跟踪;
1.1构建网络结构
如图1所示,整个网络结构分为七个阶段两个分支,上分支预测关节点的位置,下分支预测各关节点之间的亲和域。前一个阶段的预测结果与原始特征相结合一起作为下一个阶段的输入,经过多个阶段的卷积操作以提高关节点的预测精度。
输入一幅H×W×3的图像,经过VGG-19卷积神经网络提取人体特征,得到一组特征图F,然后分成两个分支,一个分支用来进行人体关节点检测,以得到预测关节点置信图集合S;另一个分支用来进行关节点的亲和域检测,以得到亲和域集合L。每个分支都是一个迭代预测结构,总共分为T个阶段。经过第一阶段后产生的置信图为S1=ρ1(F),亲和域向量为之后每一个阶段的输入都来自前一个阶段的输出St-1和Lt-1与特征F,用来得到更精确的预测,其中:
其中ρt和分别表示第t个阶段的卷积操作,先用7×7的卷积核进行五次卷积,然后用1×1的卷积核做两次卷积,最终得到第t个阶段的关节点置信图和亲和区域。
本实施例中,需要重点说明的是:
(1)对关节点置信图S进行预测时,采用如下方式:
关节点置信图由一系列二维点组成,目的是为了衡量关节点在图像中某个位置出现的置信度,而置信度最高的位置为关节点的最终位置。对于多人姿态估计,用高斯核函数确定每个位置的置信度,首先对第K个人,生成他的所有置信图用xj,k表示第k个人的第j个关节点所对应的实际位置,设在P点的置信度被定义为:
其中,σ为标准差,目的是控制置信度的分布范围,对于多人的姿态估计,每个人特定关节点的实际置信图为高斯核范围内的最大值:
(2)对关节点亲和区域L进行预测时采用如下方式:
关节点亲和域由一系列单位向量组成,每段肢体对应一个亲和域,肢体上的所有像素点用一个单位向量进行表示,其中包含位置信息和方向信息,所有肢体单位向量的集合构成人体的总亲和域。
如图2所示,xj1,k和xj2,k分别表示第k个人在肢体C上的两个关节点,如果点P在肢体C上,则的值为j1指向j2的单位向量,若不在则为零。
其中v=(xj2,k-xj1,k)/||xj2,k-xj1,k||2表示肢体方向的单位向量,在0≤V·(p-xj1,k)≤lc,k和|V⊥·(P-xj1,k)|≤σl范围内的点P被定义为在肢体C上,其中σl表示肢体的宽度,lc,k=||xj2,k-xj1,k||2表示肢体的长度,V⊥表示垂直于肢体的向量,点P处的部分亲和域真实值为所有人在此点上的部分亲和域矢量场的平均值:
其中nc(p)表示位置P处不同人的亲和域在该处的叠加次数,即在该处将所有人的非零向量进行叠加。
在预测阶段,对于两个候选关节点位置dj1和dj2,在两关节点组成的线段上对亲和域Lc进行采样,则两关节点之间的关联置信度为在该线段上亲和域的积分:
其中p(μ)表示两个节点之间的位置p(μ)=(1-μ)dj1+μdj2,实际预测时对μ区间进行均匀间隔采样求和来求解近似的积分值。
1.2训练网络结构
由于关节点置信图和亲和域有本质的区别,因此在训练过程中需要分别进行。为了避免梯度消失问题,损失函数均采用L2损失;另外,为了避免数据样本由于标注时出现的错误对损失函数造成影响,对损失函数在各个位置处进行掩模操作。因此,关节点位置和亲和域的损失函数分别如下:
其中,j表示关节点,c表示肢体,每个肢体对应两个关节点,为置信图的真实值,为亲和区域的真实值,W为掩膜函数,W(P)表示在位置P处的标注,整个网络的最终损失为每个阶段两个损失之和的累加:
训练结果保证损失值最小。
1.3多人姿态估计与跟踪
对预测的置信图进行非极大值抑制操作后可以得到一组离散的候选关节点。由于是多人检测,对于每一类型的关节点都会存在多个候选关节点。根据这些关节点可以定义一个肢体集合,通过step2的积分公式计算每个候选肢体的分数。
Step1.首选根据预测置信图得到离散的候选关节点: 其中Nj表示关节点j的个数,表示关节点j的第m个候选点的位置。
Step2.本实施例中,匹配目标是要求候选关节点和同一个人的其他候选关节点建立连接,则定义变量用来表示两个候选关节点和之间是否有连接,关节点之间相互连接形成二分图,并对二分图进行最优化使连接权重最大化。
Step3.当考虑多个人的全身姿态估计时,最优化的目标函数表示成:
将优化之后各个二分图中共同的关节点进行整合,最终得到多人的人体姿态估计。每个人取14个关节点连成人体骨架,骨架信息如表1所示。
表1.每个人体骨架的14个关节点信息
头 | 脖子 | 左肩 | 右肩 | 左肘 | 右肘 | 左手腕 |
(x1,y1) | (x2,y2) | (x3,y3) | (x4,y4) | (x5,y5) | (x6,y6) | (x7,y7) |
右手腕 | 左胯骨 | 右胯骨 | 左膝盖 | 右膝盖 | 左脚 | 右脚 |
(x8,y8) | (x9,y9) | (x10,y10) | (x11,y11) | (x12,y12) | (x13,y13) | (x14,y14) |
例如人体i,人体i的关节点示意图如图3所示,分别取人体i所有关节点中x和y的最大值和最小值,确定目标i的边界框,将边界框的中心坐标位置作为目标i的位置信息进行跟踪,姿态估计及跟踪结果如图4所示。
第二步、利用P3D ResNet(伪3D残差网络)提取每个人的时空特征,使用softmax分类器对时空特征进行分类,完成单人行为识别;
2.1构建单人行为识别数据集;
根据步骤1.2中得到的人体跟踪结果将视频中的每个人进行单独切分,构建单人行为识别数据集,如图5所示。
2.2构建P3D ResNet网络
·输入层:使用步骤2.1生成的单人行为数据集,以16帧作为采样率生成训练样本,每帧图片的尺寸为100*200。
·时空特征提取层:该层共包含33个时空特征提取模块,模块结构如图6所示,运行流程为:将上一层的输出先经过一个1*1*1的卷积层调整特征维度,然后送入1*3*3的空间卷积层提取空间特征,进一步送入3*1*1的时间卷积层得到时空特征,最后使用1*1*1的卷积核进行特征融合得到时空特征表示。在经过33个时空特征提取模块后,使用平均池化和全联接层得到一个1000维的时空特征向量。
·行为分类层:将时空特征提取层得到的向量,经过softmax函数后得到每个人在不同行为上的概率值。
本方案中,首先在Kinetics-600视频分类数据集上进行预训练,然后再应用到CAD数据集中。Kinetics-600数据集包含600种运动视频,每段视频有10秒左右,共计约50万个视频片段。CAD数据集包含44个视频片段,由低分辨率手持相机拍摄。视频包含5种不同类型的单人行为标签:Crossing,Queuing,Walking,Talking和Waiting;5种群组活动标签:Crossing,Queuing,Walking,Talking和Waiting。所有视频序列,每10帧标注一次,标注的信息包括人体的边界框以及行为标签。本方案按照7:2:1的比例划分数据集,70%用来做训练集,20%用来做测试集,10%用来做验证集。
2.3训练P3D ResNet网络
Step1.构建损失函数
根据步骤2.2得到的每个人不同行为的概率值,构建交叉熵损失函数,表达式如下:
其中,M表示行为类别的数量;yc为指示变量,取值为0或1,如果该类别和样本的类别相同则为1,否则为0;pc表示对于观测样本属于类别c的预测概率。
Step2.构建优化函数
使用Adam算法作为模型的优化函数,使Step1中损失值最小,本实施例中,设置学习率为0.01,其他超参数使用PyTorch中的默认值。
比如,在PyTorch中,定义Adam优化函数可用如下代码实现:
Optim=torch.optim.Adam(lr=0.001)
2.4单人行为识别
从测试集中随机选择一个视频片段作为输入样本,送入步骤2.3中,通P3D ResNet获得单人行为特征N为步骤1.3中跟踪到的人体总数。然后使用softmax分类器对行为特征进行分类,获得在每个行为上的概率值,将最大的概率值所对应的行为标签作为人体目标的预测标签,用变量T示。
第三步、利用人体目标的位置信息和外观特征,构建人体目标交互图,并利用图卷积网络进行图推理和训练;
3.1根据步骤1.3得到的人体位置信息Xposition和步骤2.4得到的单人行为特征Xobject构建人体目标交互图G=(V,E);
其中,V是图中的节点,每个节点代表一个人的信息集合,包括人体的行为特征Xobject和预测的行为标签T。E是图中的边,用来表示成对人的交互关系,本实施例中用一个关系值Eij表示节点i与节点j之间关系的强弱;i,j∈N,N为1.2中检测到的人体目标总数;关系值计算表达式如下:
其中,表示目标i与j之间观测特征的关系;表示目标i与j之间的位置关系,F是一个复合函数,作用是将外观特征和位置信息进行融合。
Step1.计算特征之间的相似性
本实施例使用向量点积的方法计算两个目标之间的观测特征关系,因为外观特征点积的相似性可以被认为是观测值之间的简单表达形式,其计算公式如下:
Step2.计算人体目标之间的欧氏距离
本实施例采用欧式距离来计算人与人之间的位置关系。通常来说,在进行人体行为识别时,局部位置信号要比远距离信号更加重要,并且相比全局关系信息来说,局部范围的关系信息对群组行为的建模更加重要。基于这两种先验知识,本实施例通过设定阈值μ来判断目标之间的关系。将距离大于μ的两个目标之间的位置关系置为零,即两个目标之间没有连接线,μ的值通过网络自学得到,具体的位置计算公式如下:
Step3.计算两个人体目标之间的关系值Eij
关系值具体计算公式如下:
3.2利用图卷积网络对人体目标交互图进行图推理得到一个新的交互图;
本实施例采用图卷积网络(Graph Convolutional Networks,GCN)进行图推理,将人体目标交互图G作为GCN的输入,通过判断两个节点之间的关系值Eij是否为零来确定两个目标节点之间是否存在连接边。若两个节点之间的关系值Eij=0,则认为i和j是相互独立的,不属于同一种行为类别;相反,若Eij>0,则认为i和j属于同一种行为类别,将一个交互图分成多个交互子图,每个子图包含一种行为,通过多层GCN后输出子目标交互图G‘=G1,G2,…,GM,M表示一个场景中所包含的子组群的数量。
对于图中的一个目标节点i,根据相邻边权重的大小,将聚集所有相邻节点的特征。形式上,一层GCN结构可以用如下公式来表示:
Z(l+1)=σ(GZ(l)W(l)) (19)
其中,G∈RN×N是图的矩阵表示;Z(l)∈RN×d是第i层节点的特征表示,且Z(0)=X;W(l)∈Rd×d是第l层可学习到的权重矩阵;σ(·)是一个激活函数,本实施例采用ReLU函数。分层传播结构可以堆叠多层GCN,为了简单起见,优选使用50层GCN结构。
最后,将经过GCN后输出的子交互图G′的每个子图用一个一维向量X′进行表示,将X′作为softmax分类器的输入,得到每个子组群的行为得分以及预测的子组群行为标签
3.3基于图卷积网络模型训练
该过程与步骤2.3原理相似,不同点在于交叉熵损失函数的公式不同,然后利用Adam优化器对网络进行训练,其中,交叉熵损失函数为:
其中yG表示群组活动的真实标签。
第四步、根据人体目标交互图进行组群行为识别
利用成对交互关系图进行组群行为识别,根据步骤3.2所得到的G‘=G1,G2,…,GM判断每个子组群中所包含的人体个数,最后,将所有场景中包含人数最多子组群的行为作为最终的组群行为。
为了进一步验证本方案的有效性和优势,本实施例将P3D ResNet与C3D和ResNet两种网络结构在单人行为数据集上进行了对比,实验精度结果如图8所示。
在群组行为识别任务中,不仅要进行单人行为识别,还要考虑人与人之间的交互关系。因为,如果仅考虑单人行为,必将失去很多隐蔽而复杂的组群内部交互关系。然而大部分工作通常会忽略这一重要信息。因此本实施例选用图卷积网络来自动学习人体目标交互图的特征信息及结构信息,从而提高群组行为的识别率;并对比了有无人体目标交互关系图对最终群组行为识别的影响,以及在同样使用交互关系图时,P3D ResNet网络与普通CNN的区别,实验精度结果如图9所示。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例应用于其它领域,但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (7)
1.基于伪3D卷积神经网络的组群行为识别方法,其特征在于,包括以下步骤:
步骤A、对待识别视频图像进行人体姿态估计与目标跟踪;
步骤B、基于P3D ResNet进行单人行为识别,具体包括:
步骤B1、根据步骤A中得到的人体目标跟踪结果,构建单人行为识别数据集;
步骤B2、构建P3D ResNet网络并对其进行训练;
其中,关于P3D ResNet网络的定义如下:
(1)输入层:根据步骤B1得到的单人行为识别数据集,以特定采样率生成训练样本;
(2)时空特征提取层:时空特征提取层包含多个时空特征提取模块,运行流程为:将输入层或时空特征提取层的输出经过一个1*1*1的卷积层调整特征维度,然后输入1*3*3的空间卷积层提取空间特征,进一步输入3*1*1的时间卷积层得到时空特征,最后使用1*1*1的卷积核进行特征融合得到时空特征表示;
(3)行为分类层:将时空特征提取层得到的表示时空特征的向量,经过softmax函数后得到每个人在不同行为上的概率值;
步骤B3、单人行为识别:
基于步骤B2的训练结果,获得单人行为特征N为步骤A中跟踪到的人体总数;
使用softmax分类器对单人行为特征进行分类,获得在每个行为上的概率值,将最大的概率值所对应的行为标签作为人体目标的预测标签,用变量T表示;
步骤C、基于步骤A得到的人体位置信息和步骤B得到的人体行为特征,构建人体目标交互图,并利用图卷积网络进行图推理和训练;
步骤D、根据人体目标交互图进行组群行为识别,并将场景中包含人数最多子组群的行为作为最终的组群行为。
2.根据权利要求1所述的基于伪3D卷积神经网络的组群行为识别方法,其特征在于:所述步骤C具体包括以下步骤:
步骤C1、构建人体目标交互图:
根据人体位置信息和人体行为特征构建人体目标交互图G=(V,E),V表示人体目标交互图中的节点,每个节点代表一个人的信息集合,包括人体的行为特征和人体目标的预测标签;E是人体目标交互图中的边,用来表示成对人的交互关系;
步骤C2、利用图卷积网络(GCN)对人体目标交互图进行图推理和训练:
经过图推理所得到新的交互图被分成多组交互子图,且每组交互子图对应一种行为类别;通过多层图卷积网络进行训练后得到目标子交互图G‘=G1,G2,…,GM,M表示一个场景中所包含的子组群的数量;
最后,将经过图卷积网络后输出的目标子交互图G′的每个子图用一个一维向量X′进行表示,将X′作为softmax分类器的输入,得到每个子组群的行为得分以及预测的子组群行为标签
步骤C3、基于图卷积网络模型进行训练:
模型训练时,所用的交叉熵损失函数为:
其中yG表示群组活动的真实标签,通过与步骤C2中得到的子组群行为标签进行对比,以使模型训练时所用的交叉熵损失函数值最小。
3.根据权利要求1所述的基于伪3D卷积神经网络的组群行为识别方法,其特征在于:所述步骤A中对人体姿态估计与目标跟踪时基于OpenPose姿态估计算法实现,具体包括:
步骤A1、构建网络结构:
对输入的待识别图像进行人体特征提取,得到特征图F;并将得到的特征图F分成两个分支,分别进行人体关节点检测和关节点的亲和域检测,以对应的得到关节点置信图集合S和关节点亲和域集合L;
步骤A2、训练网络结构:
由于关节点置信图和亲和域存在本质区别,训练过程中需要分别进行;设定关节点位置和亲和域的损失函数分别如下:
其中,j表示关节点,c表示肢体,每个肢体对应两个关节点,为置信图的真实值,为亲和区域的真实值,W为掩膜函数,W(P)表示在位置P处的标注,整个网络的最终损失为每个阶段两个损失之和的累加:
步骤A3、多人姿态估计与跟踪。
4.根据权利要求3所述的基于伪3D卷积神经网络的组群行为识别方法,其特征在于:所述步骤A1中,对关节点置信图集合S进行预测时,采用以下方式:
对于多人姿态估计,用高斯核函数确定每个位置的置信度,首先对第K个人,生成他的所有置信图用xj,k表示第k个人的第j个关节点所对应的实际位置,设P点的置信度被定义为:
其中,σ为标准差,目的是控制置信度的分布范围,对于多人的姿态估计,每个人特定关节点的实际置信图为高斯核范围内的最大值:
5.根据权利要求3所述的基于伪3D卷积神经网络的组群行为识别方法,其特征在于:所述步骤A1中,对关节点亲和域集合L进行预测时采用以下方式:
设xj1,k和xj2,k分别表示第k个人在肢体C上的两个关节点,如果点P在肢体C上,则的值为j1指向j2的单位向量,若不在则为零,即:
其中v=(xj2,k-xj1,k)/||xj2,k-xj1,k||2表示肢体方向的单位向量,在0≤V·(p-xj1,k)≤lc,k和|V⊥·(P-xj1,k)|≤σl范围内的点P被定义为在肢体C上,其中σl表示肢体的宽度,lc,k=||xj2,k-xj1,k||2表示肢体的长度,V⊥表示垂直于肢体的向量,点P处的部分亲和域真实值为所有人在此点上的部分亲和域矢量场的平均值:
其中nc(p)表示位置P处不同人的亲和域在该处的叠加次数,即在该处将所有人的非零向量进行叠加;
在预测阶段,对于两个候选关节点位置dj1和dj2,在两关节点组成的线段上对亲和域Lc进行采样,则两关节点之间的关联置信度为在该线段上亲和域的积分:
其中p(μ)表示两个节点之间的位置,p(μ)=(1-μ)dj1+μdj2,实际预测时对μ区间进行均匀间隔采样求和来求解近似的积分值。
6.根据权利要求3所述的基于伪3D卷积神经网络的组群行为识别方法,其特征在于:所述步骤A3中,对多人姿态估计与跟踪具体采用以下方式:
(1)根据预测置信图得到离散的候选关节点:其中Nj表示关节点j的个数,表示关节点j的第m个候选点的位置;
(2)定义变量用来表示两个候选关节点和之间是否有连接,关节点之间相互连接形成二分图,并对二分图进行最优化使连接权重最大化;
(3)考虑多个人的全身姿态估计,最优化的目标函数表示为:
将优化之后各个二分图中共同的关节点进行整合,最终得到多人的人体姿态估计;分别取人体i所有关节点中x和y的最大值和最小值,确定目标i的边界框,将边界框的中心坐标位置作为目标i的位置信息进行跟踪。
7.根据权利要求1所述的基于伪3D卷积神经网络的组群行为识别方法,其特征在于:所述步骤B2中,对P3D ResNet网络进行训练时,采用以下方式:
(B21)构建损失函数
根据所构建的P3D ResNet网络得到每个人不同行为的概率值,构建交叉熵损失函数,表达式如下:
其中,M表示行为类别的数量;yc为指示变量,取值为0或1,如果该类别和样本的类别相同则为1,否则为0;pc表示对于观测样本属于类别c的预测概率;
(B22)构建优化函数
采用Adam算法作为模型的优化函数,使步骤(B21)中构建的损失函数损失值最小,以实现对P3D ResNet网络的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910645623.7A CN110378281A (zh) | 2019-07-17 | 2019-07-17 | 基于伪3d卷积神经网络的组群行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910645623.7A CN110378281A (zh) | 2019-07-17 | 2019-07-17 | 基于伪3d卷积神经网络的组群行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110378281A true CN110378281A (zh) | 2019-10-25 |
Family
ID=68253644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910645623.7A Pending CN110378281A (zh) | 2019-07-17 | 2019-07-17 | 基于伪3d卷积神经网络的组群行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110378281A (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929584A (zh) * | 2019-10-28 | 2020-03-27 | 九牧厨卫股份有限公司 | 网络训练方法、监控方法、系统、存储介质和计算机设备 |
CN111027427A (zh) * | 2019-11-29 | 2020-04-17 | 大连理工大学 | 一种用于小型无人机竞速比赛的目标门检测方法 |
CN111062326A (zh) * | 2019-12-02 | 2020-04-24 | 北京理工大学 | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 |
CN111160294A (zh) * | 2019-12-31 | 2020-05-15 | 西安理工大学 | 基于图卷积网络的步态识别方法 |
CN111176309A (zh) * | 2019-12-31 | 2020-05-19 | 北京理工大学 | 一种基于球面成像的多无人机自组群互感理解方法 |
CN111199207A (zh) * | 2019-12-31 | 2020-05-26 | 华南农业大学 | 基于深度残差神经网络的二维多人体姿态估计方法 |
CN111310689A (zh) * | 2020-02-25 | 2020-06-19 | 陕西科技大学 | 潜在信息融合的家庭安防系统中的人体行为识别的方法 |
CN111428699A (zh) * | 2020-06-10 | 2020-07-17 | 南京理工大学 | 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统 |
CN111461172A (zh) * | 2020-03-04 | 2020-07-28 | 哈尔滨工业大学 | 基于二维点组卷积的高光谱遥感数据的轻量级特征融合方法 |
CN111462049A (zh) * | 2020-03-09 | 2020-07-28 | 西南交通大学 | 一种乳腺超声造影视频中病灶区形态自动标注方法 |
CN111553403A (zh) * | 2020-04-23 | 2020-08-18 | 山东大学 | 基于伪3d卷积神经网络的烟雾检测方法及系统 |
CN111626121A (zh) * | 2020-04-24 | 2020-09-04 | 上海交通大学 | 基于视频中多层次交互推理的复杂事件识别方法及系统 |
CN112464835A (zh) * | 2020-12-03 | 2021-03-09 | 北京工商大学 | 一种基于时序增强模块的视频人体行为识别方法 |
CN112712019A (zh) * | 2020-12-28 | 2021-04-27 | 湖南大学 | 一种基于图卷积网络的三维人体姿态估计方法 |
CN112733679A (zh) * | 2020-12-31 | 2021-04-30 | 南京视察者智能科技有限公司 | 一种基于案件逻辑推理的预警系统及训练方法 |
CN112818787A (zh) * | 2021-01-23 | 2021-05-18 | 福州视驰科技有限公司 | 融合卷积神经网络和特征相似度学习的多目标跟踪方法 |
EP3869477A1 (en) * | 2020-02-18 | 2021-08-25 | Hitachi, Ltd. | Video surveillance system and video surveillance method |
CN113361417A (zh) * | 2021-06-09 | 2021-09-07 | 陕西理工大学 | 一种基于可变时序的人体行为识别方法 |
CN113688864A (zh) * | 2021-07-14 | 2021-11-23 | 淮阴工学院 | 一种基于分裂注意力的人-物交互关系分类方法 |
CN114022960A (zh) * | 2022-01-05 | 2022-02-08 | 阿里巴巴达摩院(杭州)科技有限公司 | 模型训练和行为识别方法、装置、电子设备以及存储介质 |
CN116363566A (zh) * | 2023-06-02 | 2023-06-30 | 华东交通大学 | 一种基于关系知识图的目标交互关系识别方法 |
EP4207096A1 (en) * | 2021-12-28 | 2023-07-05 | Fujitsu Limited | Information processing program, information processing method, and information processing apparatus |
EP4207097A1 (en) * | 2021-12-28 | 2023-07-05 | Fujitsu Limited | Information processing program, information processing method, and information processing apparatus |
CN117058627A (zh) * | 2023-10-13 | 2023-11-14 | 阳光学院 | 一种公共场所人群安全距离监测方法、介质及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854027A (zh) * | 2013-10-23 | 2014-06-11 | 北京邮电大学 | 一种人群行为识别方法 |
CN104966052A (zh) * | 2015-06-09 | 2015-10-07 | 南京邮电大学 | 基于属性特征表示的群体行为识别方法 |
CN107341452A (zh) * | 2017-06-20 | 2017-11-10 | 东北电力大学 | 基于四元数时空卷积神经网络的人体行为识别方法 |
WO2018126323A1 (en) * | 2017-01-06 | 2018-07-12 | Sportlogiq Inc. | Systems and methods for behaviour understanding from trajectories |
CN108280435A (zh) * | 2018-01-25 | 2018-07-13 | 盛视科技股份有限公司 | 一种基于人体姿态估计的旅客异常行为识别方法 |
CN108304795A (zh) * | 2018-01-29 | 2018-07-20 | 清华大学 | 基于深度强化学习的人体骨架行为识别方法及装置 |
CN108764011A (zh) * | 2018-03-26 | 2018-11-06 | 青岛科技大学 | 基于图形化交互关系建模的组群识别方法 |
CN109446927A (zh) * | 2018-10-11 | 2019-03-08 | 西安电子科技大学 | 基于先验知识的双人交互行为识别方法 |
CN109635764A (zh) * | 2018-12-19 | 2019-04-16 | 荆楚理工学院 | 一种基于多特征线性时序编码的人体行为识别方法及系统 |
-
2019
- 2019-07-17 CN CN201910645623.7A patent/CN110378281A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103854027A (zh) * | 2013-10-23 | 2014-06-11 | 北京邮电大学 | 一种人群行为识别方法 |
CN104966052A (zh) * | 2015-06-09 | 2015-10-07 | 南京邮电大学 | 基于属性特征表示的群体行为识别方法 |
WO2018126323A1 (en) * | 2017-01-06 | 2018-07-12 | Sportlogiq Inc. | Systems and methods for behaviour understanding from trajectories |
CN107341452A (zh) * | 2017-06-20 | 2017-11-10 | 东北电力大学 | 基于四元数时空卷积神经网络的人体行为识别方法 |
CN108280435A (zh) * | 2018-01-25 | 2018-07-13 | 盛视科技股份有限公司 | 一种基于人体姿态估计的旅客异常行为识别方法 |
CN108304795A (zh) * | 2018-01-29 | 2018-07-20 | 清华大学 | 基于深度强化学习的人体骨架行为识别方法及装置 |
CN108764011A (zh) * | 2018-03-26 | 2018-11-06 | 青岛科技大学 | 基于图形化交互关系建模的组群识别方法 |
CN109446927A (zh) * | 2018-10-11 | 2019-03-08 | 西安电子科技大学 | 基于先验知识的双人交互行为识别方法 |
CN109635764A (zh) * | 2018-12-19 | 2019-04-16 | 荆楚理工学院 | 一种基于多特征线性时序编码的人体行为识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
J. WU ET AL.: "Learning Actor Relation Graphs for Group Activity Recognition", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
M. WANG ET AL.: "Abnormal Behavior Detection of ATM Surveillance Videos Based on Pseudo-3D Residual Network", 《2019 IEEE 4TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTING AND BIG DATA ANALYSIS (ICCCBDA)》 * |
Z. CAO ET AL.: "Realtime Multi-person 2D Pose Estimation Using Part Affinity Fields", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
Cited By (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929584A (zh) * | 2019-10-28 | 2020-03-27 | 九牧厨卫股份有限公司 | 网络训练方法、监控方法、系统、存储介质和计算机设备 |
WO2021082112A1 (zh) * | 2019-10-28 | 2021-05-06 | 九牧厨卫股份有限公司 | 神经网络训练、骨骼图构建、异常行为监控方法和系统 |
CN111027427A (zh) * | 2019-11-29 | 2020-04-17 | 大连理工大学 | 一种用于小型无人机竞速比赛的目标门检测方法 |
CN111027427B (zh) * | 2019-11-29 | 2023-07-18 | 大连理工大学 | 一种用于小型无人机竞速比赛的目标门检测方法 |
CN111062326A (zh) * | 2019-12-02 | 2020-04-24 | 北京理工大学 | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 |
CN111062326B (zh) * | 2019-12-02 | 2023-07-25 | 北京理工大学 | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 |
CN111176309B (zh) * | 2019-12-31 | 2021-01-12 | 北京理工大学 | 一种基于球面成像的多无人机自组群互感理解方法 |
CN111160294A (zh) * | 2019-12-31 | 2020-05-15 | 西安理工大学 | 基于图卷积网络的步态识别方法 |
CN111176309A (zh) * | 2019-12-31 | 2020-05-19 | 北京理工大学 | 一种基于球面成像的多无人机自组群互感理解方法 |
CN111199207A (zh) * | 2019-12-31 | 2020-05-26 | 华南农业大学 | 基于深度残差神经网络的二维多人体姿态估计方法 |
CN111160294B (zh) * | 2019-12-31 | 2022-03-04 | 西安理工大学 | 基于图卷积网络的步态识别方法 |
CN111199207B (zh) * | 2019-12-31 | 2023-06-20 | 华南农业大学 | 基于深度残差神经网络的二维多人体姿态估计方法 |
EP3869477A1 (en) * | 2020-02-18 | 2021-08-25 | Hitachi, Ltd. | Video surveillance system and video surveillance method |
CN113347387A (zh) * | 2020-02-18 | 2021-09-03 | 株式会社日立制作所 | 影像监视系统和影像监视方法 |
US11270562B2 (en) | 2020-02-18 | 2022-03-08 | Hitachi, Ltd. | Video surveillance system and video surveillance method |
CN111310689B (zh) * | 2020-02-25 | 2023-04-07 | 陕西科技大学 | 潜在信息融合的家庭安防系统中的人体行为识别的方法 |
CN111310689A (zh) * | 2020-02-25 | 2020-06-19 | 陕西科技大学 | 潜在信息融合的家庭安防系统中的人体行为识别的方法 |
CN111461172A (zh) * | 2020-03-04 | 2020-07-28 | 哈尔滨工业大学 | 基于二维点组卷积的高光谱遥感数据的轻量级特征融合方法 |
CN111462049A (zh) * | 2020-03-09 | 2020-07-28 | 西南交通大学 | 一种乳腺超声造影视频中病灶区形态自动标注方法 |
CN111462049B (zh) * | 2020-03-09 | 2022-05-17 | 西南交通大学 | 一种乳腺超声造影视频中病灶区形态自动标注方法 |
CN111553403A (zh) * | 2020-04-23 | 2020-08-18 | 山东大学 | 基于伪3d卷积神经网络的烟雾检测方法及系统 |
CN111553403B (zh) * | 2020-04-23 | 2023-04-18 | 山东大学 | 基于伪3d卷积神经网络的烟雾检测方法及系统 |
CN111626121A (zh) * | 2020-04-24 | 2020-09-04 | 上海交通大学 | 基于视频中多层次交互推理的复杂事件识别方法及系统 |
CN111626121B (zh) * | 2020-04-24 | 2022-12-20 | 上海交通大学 | 基于视频中多层次交互推理的复杂事件识别方法及系统 |
WO2021248687A1 (zh) * | 2020-06-10 | 2021-12-16 | 南京理工大学 | 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统 |
US11783601B2 (en) | 2020-06-10 | 2023-10-10 | Nanjing University Of Science And Technology | Driver fatigue detection method and system based on combining a pseudo-3D convolutional neural network and an attention mechanism |
CN111428699A (zh) * | 2020-06-10 | 2020-07-17 | 南京理工大学 | 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统 |
CN112464835A (zh) * | 2020-12-03 | 2021-03-09 | 北京工商大学 | 一种基于时序增强模块的视频人体行为识别方法 |
CN112712019A (zh) * | 2020-12-28 | 2021-04-27 | 湖南大学 | 一种基于图卷积网络的三维人体姿态估计方法 |
CN112712019B (zh) * | 2020-12-28 | 2023-08-01 | 湖南大学 | 一种基于图卷积网络的三维人体姿态估计方法 |
CN112733679B (zh) * | 2020-12-31 | 2023-09-01 | 南京视察者智能科技有限公司 | 一种基于案件逻辑推理的预警系统及训练方法 |
CN112733679A (zh) * | 2020-12-31 | 2021-04-30 | 南京视察者智能科技有限公司 | 一种基于案件逻辑推理的预警系统及训练方法 |
CN112818787A (zh) * | 2021-01-23 | 2021-05-18 | 福州视驰科技有限公司 | 融合卷积神经网络和特征相似度学习的多目标跟踪方法 |
CN112818787B (zh) * | 2021-01-23 | 2024-01-19 | 福州视驰科技有限公司 | 融合卷积神经网络和特征相似度学习的多目标跟踪方法 |
CN113361417A (zh) * | 2021-06-09 | 2021-09-07 | 陕西理工大学 | 一种基于可变时序的人体行为识别方法 |
CN113361417B (zh) * | 2021-06-09 | 2023-10-31 | 陕西理工大学 | 一种基于可变时序的人体行为识别方法 |
CN113688864B (zh) * | 2021-07-14 | 2022-05-27 | 淮阴工学院 | 一种基于分裂注意力的人-物交互关系分类方法 |
CN113688864A (zh) * | 2021-07-14 | 2021-11-23 | 淮阴工学院 | 一种基于分裂注意力的人-物交互关系分类方法 |
EP4207097A1 (en) * | 2021-12-28 | 2023-07-05 | Fujitsu Limited | Information processing program, information processing method, and information processing apparatus |
EP4207096A1 (en) * | 2021-12-28 | 2023-07-05 | Fujitsu Limited | Information processing program, information processing method, and information processing apparatus |
CN114022960A (zh) * | 2022-01-05 | 2022-02-08 | 阿里巴巴达摩院(杭州)科技有限公司 | 模型训练和行为识别方法、装置、电子设备以及存储介质 |
CN114022960B (zh) * | 2022-01-05 | 2022-06-14 | 阿里巴巴达摩院(杭州)科技有限公司 | 模型训练和行为识别方法、装置、电子设备以及存储介质 |
CN116363566A (zh) * | 2023-06-02 | 2023-06-30 | 华东交通大学 | 一种基于关系知识图的目标交互关系识别方法 |
CN116363566B (zh) * | 2023-06-02 | 2023-10-17 | 华东交通大学 | 一种基于关系知识图的目标交互关系识别方法 |
CN117058627A (zh) * | 2023-10-13 | 2023-11-14 | 阳光学院 | 一种公共场所人群安全距离监测方法、介质及系统 |
CN117058627B (zh) * | 2023-10-13 | 2023-12-26 | 阳光学院 | 一种公共场所人群安全距离监测方法、介质及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378281A (zh) | 基于伪3d卷积神经网络的组群行为识别方法 | |
Roy et al. | Real-time growth stage detection model for high degree of occultation using DenseNet-fused YOLOv4 | |
CN108052896B (zh) | 基于卷积神经网络与支持向量机的人体行为识别方法 | |
Oliveira et al. | Deep learning for human part discovery in images | |
Tao et al. | Smoke detection based on deep convolutional neural networks | |
CN109858390A (zh) | 基于端到端时空图学习神经网络的人体骨架的行为识别方法 | |
CN111709310B (zh) | 一种基于深度学习的手势跟踪与识别方法 | |
CN106845499A (zh) | 一种基于自然语言语义的图像目标检测方法 | |
Ravi et al. | Multi modal spatio temporal co-trained CNNs with single modal testing on RGB–D based sign language gesture recognition | |
KR102462934B1 (ko) | 디지털 트윈 기술을 위한 영상 분석 시스템 | |
CN109341703A (zh) | 一种全周期采用CNNs特征检测的视觉SLAM算法 | |
CN104281853A (zh) | 一种基于3d卷积神经网络的行为识别方法 | |
CN106548194B (zh) | 二维图像人体关节点定位模型的构建方法及定位方法 | |
Sun et al. | Modeling and recognizing human trajectories with beta process hidden Markov models | |
Yang et al. | HCNN-PSI: A hybrid CNN with partial semantic information for space target recognition | |
Shuang et al. | Scale-balanced loss for object detection | |
CN114463837A (zh) | 基于自适应时空卷积网络的人体行为识别方法及系统 | |
Duan et al. | Multi-person pose estimation based on a deep convolutional neural network | |
Usmani et al. | A reinforced active learning algorithm for semantic segmentation in complex imaging | |
Ansar et al. | Robust hand gesture tracking and recognition for healthcare via Recurent neural network | |
Memon et al. | On multi-class aerial image classification using learning machines | |
Abdullah et al. | Vehicle counting using deep learning models: a comparative study | |
Xu et al. | Representative feature alignment for adaptive object detection | |
Wu et al. | Self-learning and explainable deep learning network toward the security of artificial intelligence of things | |
Liu et al. | Sparse pose regression via componentwise clustering feature point representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191025 |