CN111291695B

CN111291695B - 人员违章行为识别模型训练方法、识别方法及计算机设备

Info

Publication number: CN111291695B
Application number: CN202010097916.9A
Authority: CN
Inventors: 张国梁; 吴鹏; 甘津瑞; 赵婷
Original assignee: State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; Global Energy Interconnection Research Institute
Current assignee: State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; Global Energy Interconnection Research Institute
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2023-05-23
Anticipated expiration: 2040-02-17
Also published as: CN111291695A

Abstract

本发明公开了一种人员违章行为识别模型训练方法、识别方法及计算机设备。该模型训练方法主要是对训练集样本的局部时空特征和人体姿态特征进行视频片段的全局语义表达，而后基于视频片段的全局语义表达训练得到与特征类型数量相等的第一多分类器，将验证集样本送入多分类器得到相应的三维概率得分矩阵，根据各三维概率得分矩阵生成各行为类别的DS证据理论的证据源，并结合预设证据合成策略计算属于各行为类别的各特征的识别灵敏度权重向量；然后对所有视频样本的局部时空特征和人体姿态特征进行视频片段的全局语义表达，基于视频片段的全局语义表达训练得到第二多分类器；根据识别灵敏度权重向量及第二多分类器构建人员违章行为识别模型。

Description

人员违章行为识别模型训练方法、识别方法及计算机设备

技术领域

本发明涉及行为识别技术领域，具体涉及一种人员违章行为识别模型训练方法、识别方法及计算机设备。

背景技术

鉴于行为识别技术在工农业生产、人民生活和国防科技等领域的迫切需求，国内外专家学者针对相关难点问题提出了众多卓有成效的实现方案。目前的行为识别方法按照特征提取方式的不同可划分为基于手工制作特征的方法和基于深度学习的方法。前者致力于从视频中提取鲁棒的行为特征，通过训练具有强判别性的分类器完成识别任务，考虑特征来源的不同该类方法又可划分为基于人体姿态的行为识别、基于全局特征的行为识别和基于局部特征的行为识别；后者得益于深度学习在图像表示方面的成功应用，已经衍生出了三种主流网络，即基于双流网络的方法、基于3D卷积神经网络的方法和基于循环神经网络的方法。

其中，基于局部时空特征的行为识别是当前的主流方法。然而基于局部时空特征的行为识别通常采用的轨迹特征仅对人体的外观和运动信息进行描述，忽视了人体关节结构的时空演化对于识别的重要价值，由于人体行为通常具备多重属性，仅依赖人体的外观和运动信息这些时空特征并不足以描述行为的全部特性。因此，基于局部时空特征的行为识别的准确率不是很高。

发明内容

有鉴于此，本发明实施例提供了一种人员违章行为识别模型训练方法、识别方法及计算机设备，以解决现有局部时空特征的行为识别的准确率不是很高的问题。

根据第一方面，本发明实施例提供了一种人员违章行为识别模型训练方法，包括：获取多个视频样本，将视频样本进行划分为训练视频、验证视频；分别获取训练视频和验证视频的多种局部时空特征和人体姿态特征；利用视觉词袋模型分别将训练视频和验证视频的多种局部时空特征和人体姿态特征进行编码；根据编码后的训练视频的多种局部时空特征和人体姿态特征进行训练得到第一多分类器；根据编码后的验证视频的多种局部时空特征、人体姿态特征及第一多分类器得到相应的各三维概率得分矩阵；根据各三维概率得分矩阵生成各行为类别的DS证据理论的证据源；根据各行为类别的DS证据理论的证据源、预设证据合成策略计算属于各行为类别的各局部时空特征和人体姿态特征的识别灵敏度权重向量；利用视觉词袋模型将视频样本的多种局部时空特征和人体姿态特征进行编码；根据视频样本频编码后的多种局部时空特征和人体姿态特征进行训练，得到第二多分类器；根据识别灵敏度权重向量及第二多分类器构建人员违章行为识别模型。

可选地，利用视觉词袋模型将训练视频的多种局部时空特征进行编码，包括：对训练视频的多种局部时空特征进行降维及白化处理；从处理后的训练视频中抽取第一预设数量的训练视频训练具有K个分量的高斯混合模型，得到第一高斯混合模型；基于第一高斯混合模型，采用Fisher编码对处理后的训练视频的多种局部时空特征进行编码。

可选地，利用视觉词袋模型将验证视频的多种局部时空特征进行编码，包括：对验证视频的多种局部时空特征进行降维及白化处理；从处理后的验证视频中抽取第二预设数量的验证视频训练具有K个分量的高斯混合模型，得到第二高斯混合模型；基于第二高斯混合模型，采用Fisher编码对处理后的验证视频的多种局部时空特征进行编码。

可选地，利用视觉词袋模型将训练视频的人体姿态特征进行编码，包括：构建关于人体关节的树图结构；将带有关节标注信息的训练数据作为隐藏变量，基于隐结构SVM框架，通过坐标下降法训练用于人体姿态估计的检测模型；根据人体关节的树图结构、人体姿态估计的检测模型、训练视频的人体姿态特征，提取训练视频的人体关节坐标数据；根据训练视频的人体关节坐标数据，提取训练视频的关节位置描述符、坐标位移描述符及时空位移矢量角描述符；通过K－means算法分别将包含关节位置描述符、坐标位移描述符及时空位移矢量角描述符的训练视频生成第一码本；使用特征矢量编码策略将各第一码本进行特征编码。

可选地，利用视觉词袋模型将验证视频的人体姿态特征进行编码，包括：构建关于人体关节的树图结构；将带有关节标注信息的训练数据作为隐藏变量，基于隐结构SVM框架，通过坐标下降法训练用于人体姿态估计的检测模型；根据人体关节的树图结构、人体姿态估计的检测模型、验证视频的人体姿态特征，提取验证视频的人体关节坐标数据；根据验证视频的人体关节坐标数据，提取验证视频的关节位置描述符、坐标位移描述符及时空位移矢量角描述符；通过K－means算法分别将包含关节位置描述符、坐标位移描述符及时空位移矢量角描述符的验证视频生成第二码本；使用特征矢量编码策略将各第二码本进行特征编码。

可选地，根据各三维概率得分矩阵生成各行为类别的DS证据理论的证据源，包括：将各三维概率得分矩阵拆分成二维得分矩阵；根据各二维得分矩阵计算各局部时空特征和人体姿态特征对于各行为类别的识别有效性；根据各局部时空特征和人体姿态特征对各行为类别的识别有效性得到各行为类型关于局部时空特征和人体姿态特征的平均概率向量；通过预设公式对平均概率向量进行归一化处理，生成各行为类别的DS证据理论的证据源。

可选地，通过以下公式计算各特征对于各行为类别的识别有效性：

其中，j为行为类别，h为特征，i为样本，s_ih表示样本i具有特征h的概率得分，T_r为所有验证视频中真正属于行为类别j的样本数量，F_r为所有验证视频中不属于类别j的样本数量，/>

表示具有特征h的所有验证视频中真正属于行为类别j的样本被正确分类的平均概率得分值，/>

表示具有特征h的所有验证视频中不属于行为类别j的样本被正确分类的平均概率得分值。

可选地，各行为类型关于局部时空特征和人体姿态特征的平均概率向量包括：

预设公式包括：

其中，S_Tavg表示所有验证视频中真正属于行为类别j的样本的各局部时空特征和人体姿态特征被正确分类的平均概率得分值，S_Favg表示所有验证视频中不属于行为类别j的样本的各局部时空特征和人体姿态特征被正确分类的平均概率得分值，P_jh表示所有验证视频中属于行为类别j的样本的特征h的DS证据理论的证据源，Q_jh表示所有验证视频中不属于行为类别j的样本的特征h的DS证据理论的证据源，P_j表示所有验证视频中属于行为类别j的样本的各局部时空特征和人体姿态特征的DS证据理论的证据源，Q_j表示所有验证视频中不属于行为类别j的样本的各局部时空特征和人体姿态特征的DS证据理论的证据源。

根据第二方面，本发明实施例提供了一种人员违章行为识别方法，包括：获取待测试视频的多种局部时空特征和人体姿态特征；利用视觉词袋模型将待测试视频的多种局部时空特征和人体姿态特征进行编码；将待测试视频编码后的多种局部时空特征和人体姿态特征输入至如第一方面或第一方面任意实施方式中的人员违章行为识别模型训练方法构建的人员违章行为识别模型中，根据待测试视频编码后的多种局部时空特征和人体姿态特征及第二多分类器得到相应的各特征得分矩阵；根据各特征得分矩阵、属于各行为类别的不同特征的识别灵敏度权重向量进行加权求和，得到待测试视频的各行为类别的得分向量；根据待测试视频的各行为类别的得分向量确定待测试视频中目标对象的违章行为类别。

根据第三方面，本发明实施例提供了一种计算机设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行如第一方面或第一方面任意实施方式中的人员违章行为识别模型训练方法或如第二方面或第二方面任意实施方式中的人员违章行为识别方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行如第一方面或第一方面任意实施方式中的人员违章行为识别模型训练方法或如第二方面或第二方面任意实施方式中的人员违章行为识别方法。

本发明实施例具有如下有益效果：

1.本发明实施例提供的人员违章行为识别模型训练方法及识别方法，通过计算视频样本中各局部时空特征和人体姿态特征关于特定行为的权重向量，从而在对人员违章行为识别中可以将多种局部时空特征和人体姿态特征进行融合，能够充分利用不同特征之间的互补性，不仅能够提高算法对于行为的识别性能，而且能够有效地抑制相对低效特征对于决策结果的干扰；且通过对视频样本的多种局部时空特征和人体姿态进行编码后训练得到第二多分类器，根据第二多分类器、各局部时空特征和人体姿态特征关于特定行为的权重向量构建人员违章行为识别模型，从而待测试视频中的各局部时空特征和人体姿态特征可以输入该人员违章行为识别模型，得到待测试视频中目标对象的违章行为类别，检测快速，且人员违章行为识别模型中融合了多种局部时空特征和人体姿态特征，检测结果更加准确。

2.本发明实施例提供的人员违章行为识别方法中将多种局部时空特征和人体姿态特征进行融合的方法，可以嵌入到与多分类器结合的不同改进版本的词袋模型中，并且嵌入过程中只需要建立相应的验证视频，以获取各局部时空特征和人体姿态特征关于每种行为类型的权重向量。

3.本发明实施例提供的人员违章行为识别模型具有可扩展性，当需要在模型中加入新的特征时，可以通过人员违章行为识别模型训练方法分析新的特征对于每种行为类别的有效性，进而更新各局部时空特征和人体姿态特征关于每种行为类型的权重向量，就可以对人员违章行为识别模型进行扩展。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例的人员违章行为识别模型训练方法的流程图；

图2a示出了本发明实施例的人体关节的树图结构；

图2b示出了本发明实施例的精简后的人体关节的树图结构；

图3示出了本发明实施例的人员违章行为识别方法的流程图；

图4示出了本发明实施例提供的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种人员违章行为识别模型训练方法，如图1所示，包括：

S101.获取多个视频样本，将视频样本进行划分为训练视频、验证视频；具体地，为了获得能够反映不同特征对于特定行为存在识别敏感度差异的可靠证据，将所有视频样本划分成数量近似相等的四个部分，而后从中挑选出视频序列的行为场景和人体外观都与另外三个部分具有明显差异的子集作为验证视频，另外的那三个部分的子集作为训练视频，以确保证据信息的有效性。

S102.分别获取训练视频和验证视频的多种局部时空特征和人体姿态特征；具体地，可通过分别对训练视频和验证视频的每个视频样本提取改进的密集轨迹特征(Improved Dense Trajectories，IDTs)，并围绕密集轨迹采用并选用轨迹形状、图像梯度方向直方图、光流方向直方图和运动边界直方图4种描述符对轨迹特征进行描述，分别得到训练视频和验证视频的4种局部时空特征。可通过人体姿态估计的检测模型分别对训练视频和验证视频的每个视频样本的人体姿态特征进行提取，分别得到训练视频和验证视频的人体姿态特征。

S103.利用视觉词袋模型分别将训练视频和验证视频的多种局部时空特征和人体姿态特征进行编码；具体地，利用视觉词袋模型分别将训练视频和验证视频的多种局部时空特征进行编码是利用视觉词袋模型分别将训练视频和验证视频的多种局部时空特征编码成为关于视频片段的全局语义表达。利用视觉词袋模型分别将训练视频和验证视频的人体姿态特征进行编码是利用视觉词袋模型分别将训练视频和验证视频的人体姿态特征编码成为关于视频片段的全局语义表达。

S104.根据编码后的训练视频的多种局部时空特征和人体姿态特征进行训练得到第一多分类器；具体地，将训练视频的各局部时空特征和人体姿态特征的关于视频片段的全局语义表达进行训练，可以得到与特征类型数量相等的第一多分类器。

S105.根据编码后的验证视频的多种局部时空特征、人体姿态特征及第一多分类器得到相应的各三维概率得分矩阵；具体地，将验证视频的所有样本送入第一多分类器，可以得到相应的各三维概率得分矩阵。

S106.根据各三维概率得分矩阵生成各行为类别的DS证据理论的证据源；具体地，可以将三维的概率得分矩阵S拆分成M个二维得分矩阵，通过二维得分矩阵计算各特征对于各行为类别的识别有效性，对各特征对于各行为类别的识别有效性进行归一化处理，生成各行为类别的DS证据理论的证据源。

S107.根据各行为类别的DS证据理论的证据源、预设证据合成策略计算属于各行为类别的各局部时空特征和人体姿态特征的识别灵敏度权重向量。

S108.利用视觉词袋模型将视频样本的多种局部时空特征和人体姿态特征进行编码；具体地，分别获取训练视频和验证视频的多种局部时空特征和人体姿态特征之后，将训练视频和验证视频合在一起，利用视觉词袋模型将视频样本的多种局部时空特征和人体姿态特征进行编码成为关于视频片段的全局语义表达。

S109.根据视频样本频编码后的多种局部时空特征和人体姿态特征进行训练，得到第二多分类器；具体地，将视频样本的各局部时空特征和人体姿态特征的关于视频片段的全局语义表达进行训练，可以得到与特征类型数量相等的第二多分类器。

S110.根据识别灵敏度权重向量及第二多分类器构建人员违章行为识别模型。

本发明实施例提供的人员违章行为识别模型训练方法，通过计算视频样本中各局部时空特征和人体姿态特征关于特定行为的权重向量，从而在对人员违章行为识别中可以将多种局部时空特征和人体姿态特征进行融合，能够充分利用不同特征之间的互补性，不仅能够提高算法对于行为的识别性能，而且能够有效地抑制相对低效特征对于决策结果的干扰；且通过对视频样本的多种局部时空特征和人体姿态进行编码后训练得到第二多分类器，根据第二多分类器、各局部时空特征和人体姿态特征关于特定行为的权重向量构建人员违章行为识别模型，从而待测试视频中的各局部时空特征和人体姿态特征可以输入该人员违章行为识别模型，得到待测试视频中目标对象的违章行为类别，检测快速，且人员违章行为识别模型中融合了多种局部时空特征和人体姿态特征，检测结果更加准确。并且，本发明实施例提供的人员违章行为识别模型具有可扩展性，当需要在模型中加入新的特征时，可以通过人员违章行为识别模型训练方法分析新的特征对于每种行为类别的有效性，进而更新各局部时空特征和人体姿态特征关于每种行为类型的权重向量，就可以对人员违章行为识别模型进行扩展。

在可选的实施例中，步骤S103，利用视觉词袋模型将训练视频的多种局部时空特征进行编码，包括：对训练视频的多种局部时空特征进行降维及白化处理；从处理后的训练视频中抽取第一预设数量的训练视频训练具有K个分量的高斯混合模型，得到第一高斯混合模型；基于第一高斯混合模型，采用Fisher编码对处理后的训练视频的多种局部时空特征进行编码。

具体地，步骤一：对每种局部时空特征执行降维及白化(PCA－Whiten)操作，在实现特征降维的同时可以消除各维度之间的相关性。具体过程如公式(1)所示：

x＝ΛD^Tf (1)

其中f∈R^H，表示原始特征向量。Λ为用于白化的对角矩阵，其对角线元素依次按照从大到小次序排列，可以表示为

λ_i表示特征协方差矩阵的第i个特征值。D∈R^H×F，是降维矩阵，则x∈R^F，即为经过处理后输出的特征向量。

步骤二：从训练视频中随机抽取出一个特征子集，用于训练具有K个分量的高斯混合模型。随后，基于所得到的第一高斯混合模型，采用Fisher编码对处理后的多种局部时空特征进行编码，以生成关于视频片段的全局语义表达。

本发明实施例中，提出了一种融合PCA－Whiten和Fisher编码的局部时空特征建模方法，对局部时空特征的编码更加准确、合理。

在可选的实施例中，步骤S103，利用视觉词袋模型将验证视频的多种局部时空特征进行编码，包括：对验证视频的多种局部时空特征进行降维及白化处理；从处理后的验证视频中抽取第二预设数量的验证视频训练具有K个分量的高斯混合模型，得到第二高斯混合模型；基于第二高斯混合模型，采用Fisher编码对处理后的验证视频的多种局部时空特征进行编码。

x＝ΛD^Tf (1)

步骤二：从验证视频中随机抽取出一个特征子集，用于训练具有K个分量的高斯混合模型。随后，基于所得到的第二高斯混合模型，采用Fisher编码对处理后的多种局部时空特征进行编码，以生成关于视频片段的全局语义表达。

在可选的实施例中，步骤S103，利用视觉词袋模型将训练视频的人体姿态特征进行编码，包括：

步骤一，构建关于人体关节的树图结构；具体地，所构建的人体树图结构如图2a及图2b所示。图2a为包含26个关节点的人体树图结构，图2b为精简后包含15个关节点的人体树图结构。

步骤二，将带有关节标注信息的训练数据作为隐藏变量，基于隐结构SVM框架，通过坐标下降法训练用于人体姿态估计的检测模型。

步骤三，根据人体关节的树图结构、人体姿态估计的检测模型、训练视频的人体姿态特征，提取训练视频的人体关节坐标数据；具体地，凭借所构建的人体树图结构及人体姿态估计的检测模型，所有训练视频帧中的人体关节位置可以通过动态规划算法结合非极大值抑制处理得到。

步骤四，根据训练视频的人体关节坐标数据，提取训练视频的关节位置描述符、坐标位移描述符及时空位移矢量角描述符；具体地，在空间层面，将关节坐标数据拆分为x和y两种描述符，由此可以得到关于15个关节点的30种描述符；在时间层面，设置帧步长为s，如果将关节点横纵坐标随时间的变化分别表示为dx和dy，则相应的时空位移矢量角即可表示为arctan(dy/dx)。最终，每个视频序列可以提取出75种类型的姿态描述符，包括30种关节点位置描述符、30种坐标位移描述符以及15种时空位移矢量角描述符。

步骤五，通过K－means算法分别将包含关节位置描述符、坐标位移描述符及时空位移矢量角描述符的训练视频生成第一码本；具体地，可以利用特定类型描述符的所有训练视频样本通过K－means算法生成大小为20的第一码本。

步骤六，使用特征矢量编码策略将各第一码本进行特征编码。具体地，使用特征矢量编码策略完成特征编码，最后，将编码生成的经过归一化处理的特征向量进行级联生成关于视频的1500维人体姿态特征。

通过采用基于模板匹配的人体姿态估计方法提取视频帧中的人体关节信息，人体姿态特征编码更加合理。

在可选的实施例中，步骤S103，利用视觉词袋模型将验证视频的人体姿态特征进行编码，包括：

步骤三，根据人体关节的树图结构、人体姿态估计的检测模型、验证视频的人体姿态特征，提取验证视频的人体关节坐标数据；具体地，凭借所构建的人体树图结构及人体姿态估计的检测模型，所有验证视频帧中的人体关节位置可以通过动态规划算法结合非极大值抑制处理得到。

步骤四，根据验证视频的人体关节坐标数据，提取验证视频的关节位置描述符、坐标位移描述符及时空位移矢量角描述符；具体地，在空间层面，将关节坐标数据拆分为x和y两种描述符，由此可以得到关于15个关节点的30种描述符；在时间层面，设置帧步长为s，如果将关节点横纵坐标随时间的变化分别表示为dx和dy，则相应的时空位移矢量角即可表示为arctan(dy/dx)。最终，每个视频序列可以提取出75种类型的姿态描述符，包括30种关节点位置描述符、30种坐标位移描述符以及15种时空位移矢量角描述符。

步骤五，通过K－means算法分别将包含关节位置描述符、坐标位移描述符及时空位移矢量角描述符的验证视频生成第二码本；具体地，可以利用特定类型描述符的所有验证视频样本通过K－means算法生成大小为20的第二码本。

步骤六，使用特征矢量编码策略将各第二码本进行特征编码。具体地，使用特征矢量编码策略完成特征编码，最后，将编码生成的经过归一化处理的特征向量进行级联生成关于视频的1500维人体姿态特征。

在可选的实施例中，步骤S106，根据各三维概率得分矩阵生成各行为类别的DS证据理论的证据源，包括：

步骤一，将各三维概率得分矩阵拆分成二维得分矩阵；具体地，将三维的得分矩阵S拆分成M个二维得分矩阵，若任一子矩阵为S_j，则其中元素s_ih即为样本i经过分类器(对应特征h)预测得到的概率得分。

步骤二，根据各二维得分矩阵计算各局部时空特征和人体姿态特征对于各行为类别的识别有效性；具体地，假设验证视频中真正属于行为类别j的样本数量为T_r，不属于类别j的样本数量为F_r，则特征h对于行为类别j的识别有效性可以通过

和/>

来表示：

其中，

步骤三，根据各局部时空特征和人体姿态特征对各行为类别的识别有效性得到各行为类型关于局部时空特征和人体姿态特征的平均概率向量；具体地，对行为类别j可以定义两个关于全部特征类型的平均概率向量，即

和

其中，S_Tavg表示所有验证视频中真正属于行为类别j的样本的各局部时空特征和人体姿态特征被正确分类的平均概率得分值，S_Favg表示所有验证视频中不属于行为类别j的样本的各局部时空特征和人体姿态特征被正确分类的平均概率得分值。

步骤四，通过预设公式对平均概率向量进行归一化处理，生成各行为类别的DS证据理论的证据源。具体地，通过公式(4)和(5)对两者进行归一化处理，生成DS证据理论的两个证据源：

其中，P_jh表示所有验证视频中属于行为类别j的样本的特征h的DS证据理论的证据源，Q_jh表示所有验证视频中不属于行为类别j的样本的特征h的DS证据理论的证据源，P_j表示所有验证视频中属于行为类别j的样本的各局部时空特征和人体姿态特征的DS证据理论的证据源，Q_j表示所有验证视频中不属于行为类别j的样本的各局部时空特征和人体姿态特征的DS证据理论的证据源。

本发明实施例还提供了一种人员违章行为识别方法，如图3所示，包括：

S201.获取待测试视频的多种局部时空特征和人体姿态特征；具体地，可通过对待测试视频的每个视频样本提取改进的密集轨迹特征(Improved Dense Trajectories，IDTs)，并围绕密集轨迹采用并选用轨迹形状、图像梯度方向直方图、光流方向直方图和运动边界直方图4种描述符对轨迹特征进行描述，得到待测试视频的4种局部时空特征。可通过人体姿态估计的检测模型对待测试视频的每个视频样本的人体姿态特征进行提取，得到待测试视频的人体姿态特征。

S202.利用视觉词袋模型将待测试视频的多种局部时空特征和人体姿态特征进行编码；具体地，获取待测试视频的多种局部时空特征和人体姿态特征之后，利用视觉词袋模型将视频样本的多种局部时空特征和人体姿态特征进行编码成为关于视频片段的全局语义表达。

S203.将待测试视频编码后的多种局部时空特征和人体姿态特征输入至上述任意实施方式中的人员违章行为识别模型训练方法构建的人员违章行为识别模型中，根据待测试视频编码后的多种局部时空特征和人体姿态特征及第二多分类器得到相应的各特征得分矩阵；具体的，将待测试视频编码后的多种局部时空特征和人体姿态特征输入人员违章行为识别模型的第二多分类器中，可以的得到相应的各特征得分矩阵。

S204.根据各特征得分矩阵、属于各行为类别的不同特征的识别灵敏度权重向量进行加权求和，得到待测试视频的各行为类别的得分向量；具体地，通过将每种特征的得分矩阵基于上述权重向量进行加权求和，即可生成待测试样本的各行为类别的得分向量。

S205.根据待测试视频的各行为类别的得分向量确定待测试视频中目标对象的违章行为类别。具体地，根据待测试样本的各行为类别的得分向量，进而推断出当前的违章行为类别标签。

本发明实施例提供的人员违章行为识别方法，通过计算视频样本中各局部时空特征和人体姿态特征关于特定行为的权重向量，从而在对人员违章行为识别中可以将多种局部时空特征和人体姿态特征进行融合，能够充分利用不同特征之间的互补性，不仅能够提高算法对于行为的识别性能，而且能够有效地抑制相对低效特征对于决策结果的干扰；且通过对视频样本的多种局部时空特征和人体姿态进行编码后训练得到第二多分类器，根据第二多分类器、各局部时空特征和人体姿态特征关于特定行为的权重向量构建人员违章行为识别模型，从而待测试视频中的各局部时空特征和人体姿态特征可以输入该人员违章行为识别模型，得到待测试视频中目标对象的违章行为类别，检测快速，且人员违章行为识别模型中融合了多种局部时空特征和人体姿态特征，检测结果更加准确。并且，本发明实施例提供的人员违章行为识别方法中将多种局部时空特征和人体姿态特征进行融合的方法，可以嵌入到与多分类器结合的不同改进版本的词袋模型中，并且嵌入过程中只需要建立相应的验证视频，以获取各局部时空特征和人体姿态特征关于每种行为类型的权重向量。

本发明实施例提供了一种计算机设备，包括：至少一个处理器31；以及与至少一个处理器通信连接的存储器32；图4中以一个处理器31为例。

处理器31、存储器32可以通过总线或者其他方式连接，图4中以通过总线连接为例。

处理器31可以为中央处理器(Central Processing Unit，CPU)。处理器31还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器32作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的人员违章行为识别模型训练方法或人员违章行为识别方法对应的程序指令/模块。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的人员违章行为识别模型训练方法或人员违章行为识别方法。

存储器32可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器31所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器32可选包括相对于处理器31远程设置的存储器，这些远程存储器可以通过网络连接至处理器31。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的一个或者多个模块存储在所述存储器32中，当被所述处理器31执行时，执行如图1或图3所示实施例中的人员违章行为识别模型训练方法或违章行为识别方法。

上述计算机设备具体细节可以对应参阅图1或图3所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read－Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid－State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种人员违章行为识别模型训练方法，其特征在于，包括：

获取多个视频样本，将所述视频样本进行划分为训练视频、验证视频；

分别获取所述训练视频和所述验证视频的多种局部时空特征和人体姿态特征；

利用视觉词袋模型分别将所述训练视频和所述验证视频的多种局部时空特征和人体姿态特征进行编码；

根据编码后的所述训练视频的多种局部时空特征和人体姿态特征进行训练得到第一多分类器；

根据编码后的所述验证视频的多种局部时空特征、人体姿态特征及所述第一多分类器得到相应的各三维概率得分矩阵；

根据各所述三维概率得分矩阵生成各行为类别的DS证据理论的证据源；

根据所述各行为类别的DS证据理论的证据源、预设证据合成策略计算属于各行为类别的各所述局部时空特征和所述人体姿态特征的识别灵敏度权重向量；

利用视觉词袋模型将所述视频样本的多种局部时空特征和人体姿态特征进行编码；

根据所述视频样本频编码后的多种局部时空特征和人体姿态特征进行训练，得到第二多分类器；

根据所述识别灵敏度权重向量及第二多分类器构建人员违章行为识别模型；

所述利用视觉词袋模型将所述训练视频的多种局部时空特征进行编码，包括：

对所述训练视频的多种局部时空特征进行降维及白化处理；

从处理后的所述训练视频中抽取第一预设数量的训练视频训练具有K个分量的高斯混合模型，得到第一高斯混合模型；

基于所述第一高斯混合模型，采用Fisher编码对处理后的所述训练视频的多种局部时空特征进行编码；

所述利用视觉词袋模型将所述验证视频的多种局部时空特征进行编码，包括：

对所述验证视频的多种局部时空特征进行降维及白化处理；

从处理后的所述验证视频中抽取第二预设数量的验证视频训练具有K个分量的高斯混合模型，得到第二高斯混合模型；

基于所述第二高斯混合模型，采用Fisher编码对处理后的所述验证视频的多种局部时空特征进行编码；

所述利用视觉词袋模型将所述训练视频的人体姿态特征进行编码，包括：

构建关于人体关节的树图结构；

将带有关节标注信息的训练数据作为隐藏变量，基于隐结构SVM框架，通过坐标下降法训练用于人体姿态估计的检测模型；

根据所述人体关节的树图结构、所述人体姿态估计的检测模型、所述训练视频的人体姿态特征，提取所述训练视频的人体关节坐标数据；

根据所述训练视频的人体关节坐标数据，提取所述训练视频的关节位置描述符、坐标位移描述符及时空位移矢量角描述符；

通过K－means算法分别将包含所述关节位置描述符、坐标位移描述符及时空位移矢量角描述符的训练视频生成第一码本；

使用特征矢量编码策略将各所述第一码本进行特征编码；

所述利用视觉词袋模型将所述验证视频的人体姿态特征进行编码，包括：

构建关于人体关节的树图结构；

根据所述人体关节的树图结构、所述人体姿态估计的检测模型、所述验证视频的人体姿态特征，提取所述验证视频的人体关节坐标数据；

根据所述验证视频的人体关节坐标数据，提取所述验证视频的关节位置描述符、坐标位移描述符及时空位移矢量角描述符；

通过K－means算法分别将包含所述关节位置描述符、坐标位移描述符及时空位移矢量角描述符的验证视频生成第二码本；

使用特征矢量编码策略将各所述第二码本进行特征编码。

2.根据权利要求1所述的人员违章行为识别模型训练方法，其特征在于，所述根据各所述三维概率得分矩阵生成各行为类别的DS证据理论的证据源，包括：

将各所述三维概率得分矩阵拆分成二维得分矩阵；

根据各二维得分矩阵计算各所述局部时空特征和所述人体姿态特征对于各行为类别的识别有效性；

根据各所述局部时空特征和所述人体姿态特征对各行为类别的识别有效性得到各行为类型关于所述局部时空特征和所述人体姿态特征的平均概率向量；

通过预设公式对所述平均概率向量进行归一化处理，生成各行为类别的DS证据理论的证据源。

3.根据权利要求2所述的人员违章行为识别模型训练方法，其特征在于，通过以下公式计算各特征对于各行为类别的识别有效性：

其中，j为行为类别，h为特征，i为样本，s_ih表示样本i具有特征h的概率得分，T_r为所有验证视频中真正属于行为类别j的样本数量，F_r为所有验证视频中不属于类别j的样本数量，

4.根据权利要求3所述的人员违章行为识别模型训练方法，其特征在于，

所述各行为类型关于所述局部时空特征和所述人体姿态特征的平均概率向量包括：

所述预设公式包括：

其中，S_Tavg表示所有验证视频中真正属于行为类别j的样本的各所述局部时空特征和所述人体姿态特征被正确分类的平均概率得分值，S_Favg表示所有验证视频中不属于行为类别j的样本的各所述局部时空特征和所述人体姿态特征被正确分类的平均概率得分值，P_jh表示所有验证视频中属于行为类别j的样本的特征h的DS证据理论的证据源，Q_jh表示所有验证视频中不属于行为类别j的样本的特征h的DS证据理论的证据源，P_j表示所有验证视频中属于行为类别j的样本的各所述局部时空特征和所述人体姿态特征的DS证据理论的证据源，所述Q_j表示所有验证视频中不属于行为类别j的样本的各所述局部时空特征和所述人体姿态特征的DS证据理论的证据源。

5.一种人员违章行为识别方法，其特征在于，包括：

获取待测试视频的多种局部时空特征和人体姿态特征；

利用视觉词袋模型将所述待测试视频的多种局部时空特征和人体姿态特征进行编码；

将所述待测试视频编码后的多种局部时空特征和人体姿态特征输入至如权利要求1－4任一项所述的人员违章行为识别模型训练方法构建的人员违章行为识别模型中，根据所述待测试视频编码后的多种局部时空特征和人体姿态特征及所述第二多分类器得到相应的各特征得分矩阵；

根据所述各特征得分矩阵、所述属于各行为类别的不同特征的识别灵敏度权重向量进行加权求和，得到所述待测试视频的各行为类别的得分向量；

根据所述待测试视频的各行为类别的得分向量确定所述待测试视频中目标对象的违章行为类别。

6.一种计算机设备，其特征在于，包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1－4任意一项所述的人员违章行为识别模型训练方法或如权利要求5所述的人员违章行为识别方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行如权利要求1－4任意一项所述的人员违章行为识别模型训练方法或如权利要求5所述的人员违章行为识别方法。