CN114937245A

CN114937245A - 基于多监控视频的工作行为检测方法、装置、设备及介质

Info

Publication number: CN114937245A
Application number: CN202210709717.8A
Authority: CN
Inventors: 刘兴廷
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-08-23

Abstract

本申请的基于多监控视频的工作行为检测方法、装置、设备及介质，从不同摄像头拍摄的监控视频中提取所有待识别目标的人物图像集合，以获取该监控视频下所有待识别目标的特征集合，将不同摄像头拍摄的监控视频下的待识别目标进行重识别，能够准确汇总同一待识别目标的所有人物图像，进而得到同一拍摄时间下多个人物图像，再根据多个人物图像进行工作行为检测以得到该拍摄时间的工作行为，提高了工作行为检测的准确性，同时，可以实现针对同一目标的所有工作行为进行梳理，有利于提高监控视频数据利用率。

Description

基于多监控视频的工作行为检测方法、装置、设备及介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于多监控视频的工作行为检测方法、装置、设备及介质。

背景技术

行为检测是视频理解和计算机视觉领域非常热门的研究内容，在智能监控、人机交互等领域中被广泛应用。在人工智能技术飞速发展的背景下，深度学习成为推动图像识别、视频检测的关键因素。基于这些有利条件，深度学习被广泛应用到行为检测技术中。通过训练检测模型，对场景中的人体行为状态进行实时检测和分析，更加智能化的实现动作行为分析。日常生活中，人们的工作行为状态是企业管理者关注的重要指标，通过分析和观察员工的工作状态，可以合理的分配工作，提升工作效率和帮助企业发展。

为了全面采集办公区域内每个员工的工作行为，通常在该办公区域的不同位置设置多个摄像头，对于同一个员工，在同一个拍摄时间，不同摄像头所采集的画面中该员工的拍摄角度不同。现有技术中工作行为状态检测方法大多采用对监控视频图像提取特征，借助检测器从视频图像中寻找关键特征点，然后将特征输入到分类器进行分类的方式，没有充分利用同一拍摄时间不同拍摄头采集的同一检测对象的拍摄画面，不利于提高工作行为检测的准确性。

发明内容

本申请的目的在于提供一种基于多监控视频的工作行为检测方法、装置、设备及介质，以解决现有技术中不利于提高工作行为检测的准确性的技术问题。

本申请的技术方案如下：提供一种基于多监控视频的工作行为检测方法，包括：

根据第一监控视频获取至少一个待识别目标的人物图像集合，对每个所述待识别目标的人物图像集合进行特征提取，获取所述待识别目标的特征集合，其中，所述人物图像集合包括多个人物图像，每个所述人物图像包括所述待识别目标、对所述待识别目标的拍摄角度、拍摄时间以及摄像头标识，多个所述人物图像至少包括两个所述拍摄角度，所述特征集合包括所述待识别目标的不同拍摄角度的特征；

根据所述待识别目标的特征集合以及从第二监控视频中提取的多个待识别对象的特征集合，获取与所述待识别目标匹配的所述待识别对象；

将所述待识别目标的人物图像集合以及匹配的至少一个所述待识别对象的人物图像集合中多个所述人物图像按照拍摄时间进行聚类，获取所述待识别目标在不同拍摄时间的待处理图像集合，每个所述待处理图像集合包括同一拍摄时间的多个所述人物图像；

将所述待识别目标的所述待处理图像集合输入预先训练好的工作行为检测模型中，输出所述待识别目标在所述拍摄时间的工作行为结果，其中，所述工作行为检测模型是根据标注有行为类别的样本图像集合训练得到的，所述样本图像集合包括相同拍摄时间的多个不同拍摄角度的样本对象。

在一些实施方式中，所述行为检测模块包括对应不同图像尺寸范围的多个特征提取通道，不同的特征提取通道对应不同的膨胀因子；

所述将所述待识别目标的所述待处理图像集合输入预先训练好的工作行为检测模型中，输出所述待识别目标在所述拍摄时间的工作行为结果，包括：

将所述待识别目标的所述待处理图像集合中所述人物图像输入卷积模块，输出每个所述人物图像的特征图；

获取每个所述特征图的图像尺寸；

根据所述图像尺寸所在的尺寸范围将所述特征图输入至对应的所述特征提取通道，根据所述特征提取通道的膨胀系数对所述特征图进行卷积操作，输出所述特征图的特征矩阵；

根据所述待识别目标的不同所述特征矩阵对所述待识别目标进行工作行为检测，输出概率向量，其中，所述概率向量包括所述待识别目标为每个预设行为类别的概率，将所述概率向量中概率最大的行为类别作为所述工作行为结果。

在一些实施方式中，所述卷积模块包括具有第一卷积核的第一卷积层、具有第二卷积核的第二卷积层以及分别具有第三卷积核的第三卷积层和第四卷积层；

所述将所述待识别目标的所述待处理图像集合中所述人物图像输入卷积模块，输出每个所述人物图像的特征图，包括：

所述将所述待识别目标的所述待处理图像集合中所述人物图像输入第一卷积层，输出每个所述人物图像的第一特征图；

将所述第一特征图输入至第二卷积层，输出每个所述人物图像的第二特征图；

将所述第二特征图输入至第三卷积层，输出每个所述人物图像的第三特征图；

将所述第三特征图输入至第四卷积层，输出每个所述人物图像的第四特征图；

将所述第三特征图和所述第四特征图进行特征融合，输出每个所述人物图像的所述特征图。

在一些实施方式中，所述根据所述待识别目标的特征集合以及从第二监控视频中提取的多个待识别对象的特征集合，获取与所述待识别目标匹配的所述待识别对象，包括：

根据所述待识别目标的特征集合以及所述待识别对象的特征集合，将所述待识别目标和所述待识别对象进行特征比对，得到对应的比对值；

将所述比对值最高的所述待识别对象作为与所述待识别目标匹配的所述待识别对象。

在一些实施方式中，所述根据所述待识别目标的特征集合以及所述待识别对象的特征集合，将所述待识别目标和所述待识别对象进行特征比对，得到对应的比对值，包括：

计算所述待识别目标的特征集合以及所述待识别对象的特征集合的距离，将所述距离作为所述比对值。

在一些实施方式中，所述对每个所述待识别目标的人物图像集合进行特征提取，获取所述待识别目标的特征集合，包括：

按照预设的划分方式将所述人物图像划分为不同网格区域，分别提取所述人物图像中不同网格区域的第一特征，得到所述人物图像的第一特征矩阵；

将所述拍摄角度相同的所述人物图像的所述第一特征矩阵进行特征融合，得到所述拍摄角度的融合特征矩阵；

将不同所述拍摄角度的所述融合特征矩阵进行拼接，得到所述待识别目标的所述特征集合。

在一些实施方式中，所述将所述待识别目标的所述待处理图像集合输入预先训练好的工作行为检测模型中，输出所述待识别目标在所述拍摄时间的工作行为结果之后，还包括：

若所述工作行为结果为异常行为类型，则根据所述待识别目标的特征集合以及多个标准对象的特征集合，获取与所述待识别目标匹配的所述标准对象，其中，所述标准对象的特征集合是根据所述标准对象的人物图像集合进行特征提取得到的，所述标准对象的每个所述人物图像是预先采集得到的。

本申请的另一技术方案如下：提供一种基于多监控视频的工作行为检测装置，包括：

人物特征模块，用于根据第一监控视频获取至少一个待识别目标的人物图像集合，对每个所述待识别目标的人物图像集合进行特征提取，获取所述待识别目标的特征集合，其中，所述人物图像集合包括多个人物图像，每个所述人物图像包括所述待识别目标、对所述待识别目标的拍摄角度、拍摄时间以及摄像头，多个所述人物图像至少包括两个所述拍摄角度，所述特征集合包括所述待识别目标的不同拍摄角度的特征；

人物重识别模块，用于根据所述待识别目标的特征集合以及从第二监控视频中提取的多个待识别对象的特征集合，获取与所述待识别目标匹配的所述待识别对象；

聚类获取模块，用于将所述待识别目标的人物图像集合以及匹配的至少一个所述待识别对象的人物图像集合中多个所述人物图像按照拍摄时间进行聚类，获取所述待识别目标在不同拍摄时间的待处理图像集合，每个所述待处理图像集合包括同一拍摄时间的多个所述人物图像；

行为检测模块，用于将所述待识别目标的所述待处理图像集合输入预先训练好的工作行为检测模型中，输出所述待识别目标在所述拍摄时间的工作行为结果，其中，所述工作行为检测模型是根据标注有行为类别的样本图像集合训练得到的，所述样本图像集合包括相同拍摄时间的多个不同拍摄角度的样本对象。

本申请的另一技术方案如下：提供一种电子设备，包括处理器、以及与所述处理器耦接的存储器，所述存储器存储有可被所述处理器执行的程序指令；所述处理器执行所述存储器存储的所述程序指令时实现上述的基于多监控视频的工作行为检测方法。

本申请的另一技术方案如下：提供一种存储介质，所述存储介质内存储有程序指令，所述程序指令被处理器执行时实现能够实现上述的基于多监控视频的工作行为检测方法。

本申请的基于多监控视频的工作行为检测方法、装置、设备及介质，根据第一监控视频获取至少一个待识别目标的人物图像集合，对每个所述待识别目标的人物图像集合进行特征提取，获取所述待识别目标的特征集合，其中，所述人物图像集合包括多个人物图像，每个所述人物图像包括所述待识别目标、对所述待识别目标的拍摄角度、拍摄时间以及摄像头，多个所述人物图像至少包括两个所述拍摄角度，所述特征集合包括所述待识别目标的不同拍摄角度的特征；根据所述待识别目标的特征集合以及从第二监控视频中提取的多个待识别对象的特征集合，获取与所述待识别目标匹配的所述待识别对象；将所述待识别目标的人物图像集合以及匹配的至少一个所述待识别对象的人物图像集合中多个所述人物图像按照拍摄时间进行聚类，获取所述待识别目标在不同拍摄时间的待处理图像集合，每个所述待处理图像集合包括同一拍摄时间的多个所述人物图像；将所述待识别目标的所述待处理图像集合输入预先训练好的工作行为检测模型中，输出所述待识别目标在所述拍摄时间的工作行为结果，其中，所述工作行为检测模型是根据标注有行为类别的样本图像集合训练得到的，所述样本图像集合包括相同拍摄时间的多个不同拍摄角度的样本对象；通过上述方式，从不同摄像头拍摄的监控视频中提取所有待识别目标的人物图像集合，以获取该监控视频下所有待识别目标的特征集合，将不同摄像头拍摄的监控视频下的待识别目标进行重识别，能够准确汇总同一待识别目标的所有人物图像，进而得到同一拍摄时间下多个人物图像，再根据多个人物图像进行工作行为检测以得到该拍摄时间的工作行为，提高了工作行为检测的准确性，同时，可以实现针对同一目标的所有工作行为进行梳理，有利于提高监控视频数据利用率。

附图说明

图1为本申请一实施例的基于多监控视频的工作行为检测方法的流程示意图；

图2为本申请一实施例中工作行为检测模型的结构示意图；

图3为本申请一实施例中图像划分方式的原理示意图；

图4为本申请一实施例的基于多监控视频的工作行为检测装置的结构示意图；

图5为本申请一实施例的电子设备的结构示意图；

图6为本申请一实施例的存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请一实施例提供一种基于多监控视频的工作行为检测方法。所述基于多监控视频的工作行为检测方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该基于多监控视频的工作行为检测方法的电子设备中的至少一种。换言之，所述基于多监控视频的工作行为检测方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。

请参阅图1所示，为本申请一实施例提供的基于多监控视频的工作行为检测方法的流程示意图。需注意的是，若有实质上相同的结果，本申请的方法并不以图1所示的流程顺序为限。在本实施例中，所述基于多监控视频的工作行为检测方法包括如下步骤：

S10，根据第一监控视频获取至少一个待识别目标的人物图像集合，对每个所述待识别目标的人物图像集合进行特征提取，获取所述待识别目标的特征集合。

其中，所述人物图像集合包括多个人物图像，每个所述人物图像包括所述待识别目标、对所述待识别目标的拍摄角度、拍摄时间以及摄像头标识，多个所述人物图像至少包括两个所述拍摄角度，所述特征集合包括所述待识别目标的不同拍摄角度的特征。

作为一种实施方式，第一监控视频是第一摄像头拍摄的，人物图像是从第监控视频的视频帧中截取的部分图像区域，第一监控视频可以包括多个连续的视频帧，可以采用现有技术中目标检测跟踪算法从第一监控视频中获取多个待识别目标所在的视频帧，多个待识别目标所在的视频帧形成该待识别目标的轨迹，在待识别目标所在的视频帧中，该待识别目标被一矩形的边界框框选出来，在边界框中对应的区域即待识别目标所在的图像区域，根据所述边界框对所述视频帧进行裁剪，得到对应的所述人物图像，根据多个所述人物图像构建所述待识别目标的所述人物图像集合，待识别目标的人物图像上出现的人物只有该待识别目标本身。不同待识别目标距离第一摄像头的距离不同，导致不同待识别目标在视频帧中的大小不同，所得人物图像是按照边界框进行裁剪的，不同人物图像的大小可能不同，同一待识别目标的人物图像大小可能不同。

并且，在第一摄像头拍摄形成第一监控视频期间，同一待识别目标朝向第一摄像头的角度是不断变化的，例如，待识别目标可能正对第一摄像头或背对第一摄像头或侧向面对第一摄像头，因此，待识别目标的多个人物图像包括不同的拍摄角度，例如，不同的拍摄角度可以包括正面角度、背面角度、左侧角度或右侧角度。在本实施例中，按照预设的拍摄角度、拍摄时间以及摄像头标识对人物图像进行标记，人物图像的拍摄时间为对应视频帧的拍摄时间，摄像头标识可以为摄像头编号。在一些实施方式中，有的拍摄角度可能对应多个人物图像，有的拍摄角度没有人物图像。

作为一种实施方式，在步骤S10中，所述对每个所述待识别目标的人物图像集合进行特征提取，获取所述待识别目标的特征集合，具体包括如下步骤：

S21，按照预设的划分方式将所述人物图像划分为不同网格区域，分别提取所述人物图像中不同网格区域的第一特征，得到所述人物图像的第一特征矩阵；

在一些实施方式中，预设的划分方式可以为图3所示，将人物图像划分为大小相同的图像块，每个图像块对应一个网格区域，在对人物图像进行特征提取时，分别针对每个图像块进行特征提取，得到每个图像块的第一特征，人物图像t的第一图像特征矩阵Ft_i＝[Ft_i ¹，Ft_i ²，…，Ft_i ^j，…，Ft_i ^N]，N为图像块的数量，F_i ^j为对应区域的第一特征，1≤j≤N，该人物图像对应第i个拍摄角度，1≤i≤M，M为拍摄角度的数量。

S22，将所述拍摄角度相同的所述人物图像的所述第一特征矩阵进行特征融合，得到所述拍摄角度的融合特征矩阵；

其中，若至少两个人物图像均为第i个拍摄角度，则进行特征融合，将不同第一图像特征矩阵中同一图像块对应的特征取算术平均值，得到该图像块的融合特征。例如，人物图像t的第一图像特征矩阵Ft_i＝[Ft_i ¹，Ft_i ²，…，Ft_i ^j，…，Ft_i ^N]，人物图像k的第一图像特征矩阵Fk_i＝[Fk_i ¹，Fk_i ²，…，Fk_i ^j，…，Fk_i ^N]，人物图像g的第一图像特征矩阵Fg_i＝[Fg_i ¹，Fg_i ²，…，Fg_i ^j，…，Fg_i ^N]，融合特征矩阵中对应元素F_i ^j为(Ft_i ^j+Fk_i ^j+Fg_i ^j)/3。

S23，将不同所述拍摄角度的所述融合特征矩阵进行拼接，得到所述待识别目标的所述特征集合。

在一些实施方式中，可以根据拍摄角度的排列顺便直接将各融合特征矩阵进行拼接，若某个拍摄角度没有对应的融合特征矩阵，则用0值或空值填充，例如，第1个拍摄角度的融合特征矩阵F₁＝[F₁ ¹，F₁ ²，…，F₁ ^j，…，F₁ ^N]，第2个拍摄角度的融合特征矩阵F₂＝[F₂ ¹，F₂ ²，…，F₂ ^j，…，F₂ ^N]，第3个拍摄角度的融合特征矩阵F₃＝[F₃ ¹，F₃ ²，…，F₃ ^j，…，F₃ ^N]，第4个拍摄角度没有融合特征矩阵，则构建F₄＝[0，0，…，0，…，0]，所述待识别目标的所述特征集合F＝[F₁ ¹，F₁ ²，…，F₁ ^j，…，F₁ ^N，F₂ ¹，F₂ ²，…，F₂ ^j，…，F₂ ^N，F₃ ¹，F₃ ²，…，F₃ ^j，…，F₃ ^N，0，0，…，0，…，0]。每个特征集合中相同位置的特征对应相同拍摄角度相同图像块。

在一些实施方式中，特征提取可以通过卷积神经网络构建的特征提取模型实现。

S20，根据所述待识别目标的特征集合以及从第二监控视频中提取的多个待识别对象的特征集合，获取与所述待识别目标匹配的所述待识别对象。

其中，第二监控视频中待识别对象的特征集合的获取方式与步骤S10中待识别目标的特征集合的获取方式相同，请参见上述，在此不进行一一赘述。

在本实施例中，第二监控视频是第二摄像头拍摄的，在同一拍摄时间，第二摄像头和第一摄像头针对相同的拍摄对象的拍摄角度一定是不同的。

在一些实施方式中，步骤S20具体包括如下步骤：

S31，根据所述待识别目标的特征集合以及所述待识别对象的特征集合，将所述待识别目标和所述待识别对象进行特征比对，得到对应的比对值；

其中，可以计算所述待识别目标的特征集合以及所述待识别对象的特征集合的距离，将所述距离作为所述比对值。具体地，将所述待识别目标的特征集合和所述待识别对象的特征集合中，相同排列位置的两个特征相乘得到特征乘积，计算所有特征乘积的平均值，该平均值即为距离。

S32，将所述比对值最高的所述待识别对象作为与所述待识别目标匹配的所述待识别对象。

其中，按照比对值从大到小的顺序进行排列，选择排序第一位的待识别对象作为匹配对象。

在一些实施方式中，还可以设置第三摄像头拍摄得到第三监控视频，从第三监控视频中获取与所述待识别目标匹配的待识别对象。

S30，将所述待识别目标的人物图像集合以及匹配的至少一个所述待识别对象的人物图像集合中多个所述人物图像按照拍摄时间进行聚类，获取所述待识别目标在不同拍摄时间的待处理图像集合，每个所述待处理图像集合包括同一拍摄时间的多个所述人物图像。

在本实施例中，将来自于多个监控视频的同一拍摄时间得到的待识别目标的人物图像，构建得到待处理图像集合，可以多拍摄角度呈现拍摄时间下待识别目标的动作姿态，有利于提高工作行为检测的准确性。

S40，将所述待识别目标的所述待处理图像集合输入预先训练好的工作行为检测模型中，输出所述待识别目标在所述拍摄时间的工作行为结果。

其中，所述工作行为检测模型是根据标注有行为类别的样本图像集合训练得到的，所述样本图像集合包括相同拍摄时间的多个不同拍摄角度的样本对象。

在一些实施方式中，工作行为检测模型为可以卷积神经网络(ConvolutionalNeural Network，CNN)，工作行为检测模型可以包括若干卷积层和若干全连接层，其中，卷积层(Convolutional layer，Conv)是指卷积神经网络层中由若干卷积单元组成的层状结构，卷积神经网络是一种前馈神经网络，卷积神经网络中包括至少两个神经网络层，其中，每一个神经网络层包含若干个神经元，各个神经元分层排列，同一层的神经元之间没有互相连接，层间信息的传送只沿一个方向进行。全连接层(Fully Connected layer，FC)是指该层状结构中的每一个结点均与上一层的所有结点相连，可用于将上一层的神经网络层提取的特征进行综合处理，在神经网络模型中起到“分类器”的作用。

在一些实施方式中，该工作行为检测模型还可以包括批量标准化层、激活函数层和池化层，其中，批量标准化层(Batch Normalization layer，BN)是指能够实现将分散的数据统一的一种层状结构，使得输入神经网络模型中的数据具有统一规格，神经网络模型更易于从数据中寻找规律，并且可以优化神经网络模型。激活函数层(ActivationFunction layer，AF)是指由在神经网络模型的神经元上运行的函数的层状结构，能够将神经元的输入映射到输出端。通过在神经网络模型中引入非线性函数，使得神经网络模型的输出值可以任意逼近非线性函数。池化层(Pooling layer)又被命名为取样层，在卷积层之后，是指能够从输入值中二次提取特征的层状结构，池化层可保证上一层数值的主要特征，还可减少下一层的参数和计算量。池化层由多个特征面组成，卷积层的一个特征面与池化层中的一个特征面对应，不会改变特征面的个数，通过降低特征面的分辨率来获得具有空间不变性的特征。

具体地，图2为本申请一个示例性实施例提供的工作行为检测模型的结构示意图，请参阅图2所示，该行为检测模块包括输入层、卷积模块以及多通道网络层，其中，多通道网络层包括对应不同图像尺寸范围的多个特征提取通道，不同的特征提取通道对应不同的膨胀因子。作为一种实施方式，步骤S40具体包括如下步骤：

S41，将所述待识别目标的所述待处理图像集合中所述人物图像输入卷积模块，输出每个所述人物图像的特征图；

其中，卷积模块可以又若干卷积层组成，分别依次对输入进行卷积操作，得到每个人物图像的特征图。

S42，获取每个所述特征图的图像尺寸；

如前述，由于每个人物图像的大小是不一致的，对应特征图的大小也是不一致的，因此，本实施方式引入不同尺度通道，增强复杂环境下的目标特征，进一步提升模型的泛化能力，进而实现检测准确性的提高。

S43，根据所述图像尺寸所在的尺寸范围将所述特征图输入至对应的所述特征提取通道，根据所述特征提取通道的膨胀系数对所述特征图进行卷积操作，输出所述特征图的特征矩阵；

在一些实施方式中，一个特征提取通道对应一个空洞卷积层，膨胀系数即为空洞卷积的卷积扩张率(dilation rate)，每个特征提取通道的原始卷积核的尺寸与卷积模块中最后一层卷积层的卷积核大小一致。对于尺寸相对较小的特征图对应较小的膨胀系数，对于尺寸相对较大的特征图对应较大的膨胀系数。

S44，根据所述待识别目标的不同所述特征矩阵对所述待识别目标进行工作行为检测，输出概率向量，其中，所述概率向量包括所述待识别目标为每个预设行为类别的概率，将所述概率向量中概率最大的行为类别作为所述工作行为结果。

在一些实施方式中，预设行为类别可以包括但不限于玩手机、打瞌睡、思考、看文档、闲聊、睡觉、打字、打电话等。

在一些实施方式中，所述卷积模块包括具有第一卷积核的第一卷积层、具有第二卷积核的第二卷积层以及分别具有第三卷积核的第三卷积层和第四卷积层；步骤S41具体包括如下步骤：S51，将所述待识别目标的所述待处理图像集合中所述人物图像输入第一卷积层，输出每个所述人物图像的第一特征图；S52，将所述第一特征图输入至第二卷积层，输出每个所述人物图像的第二特征图；S53，将所述第二特征图输入至第三卷积层，输出每个所述人物图像的第三特征图；S54，将所述第三特征图输入至第四卷积层，输出每个所述人物图像的第四特征图；S55，将所述第三特征图和所述第四特征图进行特征融合，输出每个所述人物图像的所述特征图。

在本实施方式中，通过将第三特征图和第四特征图进行融合，以增加所得特征图的分辨率。

作为一种实施方式，步骤S40之后还包括如下步骤：

S60，若所述工作行为结果为异常行为类型，则根据所述待识别目标的特征集合以及多个标准对象的特征集合，获取与所述待识别目标匹配的所述标准对象，其中，所述标准对象的特征集合是根据所述标准对象的人物图像集合进行特征提取得到的，所述标准对象的每个所述人物图像是预先采集得到的。

其中，标准对象为员工，为每个员工采集标准各拍摄角度的人物图像，得到员工的特征集合，检测到异常行为类型时，可以识别出异常行为类型的员工，便于管理。异常行为类型可以包括但不限于玩手机、打瞌睡、思考、闲聊、睡觉等。

如图4所示，本申请一实施例提供一种基于多监控视频的工作行为检测装置，该装置40包括人物特征模块41、人物重识别模块42、聚类获取模块43以及行为检测模块44，其中，人物特征模块41，用于根据第一监控视频获取至少一个待识别目标的人物图像集合，对每个所述待识别目标的人物图像集合进行特征提取，获取所述待识别目标的特征集合，其中，所述人物图像集合包括多个人物图像，每个所述人物图像包括所述待识别目标、对所述待识别目标的拍摄角度、拍摄时间以及摄像头，多个所述人物图像至少包括两个所述拍摄角度，所述特征集合包括所述待识别目标的不同拍摄角度的特征；人物重识别模块42，用于根据所述待识别目标的特征集合以及从第二监控视频中提取的多个待识别对象的特征集合，获取与所述待识别目标匹配的所述待识别对象；聚类获取模块43，用于将所述待识别目标的人物图像集合以及匹配的至少一个所述待识别对象的人物图像集合中多个所述人物图像按照拍摄时间进行聚类，获取所述待识别目标在不同拍摄时间的待处理图像集合，每个所述待处理图像集合包括同一拍摄时间的多个所述人物图像；行为检测模块44，用于将所述待识别目标的所述待处理图像集合输入预先训练好的工作行为检测模型中，输出所述待识别目标在所述拍摄时间的工作行为结果，其中，所述工作行为检测模型是根据标注有行为类别的样本图像集合训练得到的，所述样本图像集合包括相同拍摄时间的多个不同拍摄角度的样本对象。

在一些实施方式中，所述行为检测模块包括对应不同图像尺寸范围的多个特征提取通道，不同的特征提取通道对应不同的膨胀因子；行为检测模块44还用于：将所述待识别目标的所述待处理图像集合中所述人物图像输入卷积模块，输出每个所述人物图像的特征图；获取每个所述特征图的图像尺寸；根据所述图像尺寸所在的尺寸范围将所述特征图输入至对应的所述特征提取通道，根据所述特征提取通道的膨胀系数对所述特征图进行卷积操作，输出所述特征图的特征矩阵；根据所述待识别目标的不同所述特征矩阵对所述待识别目标进行工作行为检测，输出概率向量，其中，所述概率向量包括所述待识别目标为每个预设行为类别的概率，将所述概率向量中概率最大的行为类别作为所述工作行为结果。

在一些实施方式中，所述卷积模块包括具有第一卷积核的第一卷积层、具有第二卷积核的第二卷积层以及分别具有第三卷积核的第三卷积层和第四卷积层；行为检测模块44还用于：将所述待识别目标的所述待处理图像集合中所述人物图像输入第一卷积层，输出每个所述人物图像的第一特征图；将所述第一特征图输入至第二卷积层，输出每个所述人物图像的第二特征图；将所述第二特征图输入至第三卷积层，输出每个所述人物图像的第三特征图；将所述第三特征图输入至第四卷积层，输出每个所述人物图像的第四特征图；将所述第三特征图和所述第四特征图进行特征融合，输出每个所述人物图像的所述特征图。

在一些实施方式中，人物重识别模块42还用于：根据所述待识别目标的特征集合以及所述待识别对象的特征集合，将所述待识别目标和所述待识别对象进行特征比对，得到对应的比对值；将所述比对值最高的所述待识别对象作为与所述待识别目标匹配的所述待识别对象。

在一些实施方式中，人物重识别模块42还用于：计算所述待识别目标的特征集合以及所述待识别对象的特征集合的距离，将所述距离作为所述比对值。

在一些实施方式中，人物特征模块41还用于：按照预设的划分方式将所述人物图像划分为不同网格区域，分别提取所述人物图像中不同网格区域的第一特征，得到所述人物图像的第一特征矩阵；将所述拍摄角度相同的所述人物图像的所述第一特征矩阵进行特征融合，得到所述拍摄角度的融合特征矩阵；将不同所述拍摄角度的所述融合特征矩阵进行拼接，得到所述待识别目标的所述特征集合。

在一些实施方式中，行为检测模块44还用于：若所述工作行为结果为异常行为类型，则根据所述待识别目标的特征集合以及多个标准对象的特征集合，获取与所述待识别目标匹配的所述标准对象，其中，所述标准对象的特征集合是根据所述标准对象的人物图像集合进行特征提取得到的，所述标准对象的每个所述人物图像是预先采集得到的。

图5是本申请一实施例的电子设备的结构示意图。如图5所示，该电子设备50包括处理器51及和处理器51耦接的存储器52。

存储器52存储有用于实现上述任一实施例的基于多监控视频的工作行为检测方法的程序指令。

处理器51用于执行存储器52存储的程序指令以进行基于多监控视频的工作行为检测。

其中，处理器51还可以称为CPU(Central Processing Unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

参阅图6，图6为本申请一实施例的存储介质的结构示意图。本申请实施例的存储介质60存储有能够实现上述所有方法的程序指令61，其中，该程序指令61可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围。

以上所述的仅是本申请的实施方式，在此应当指出，对于本领域的普通技术人员来说，在不脱离本申请创造构思的前提下，还可以做出改进，但这些均属于本申请的保护范围。

Claims

1.一种基于多监控视频的工作行为检测方法，其特征在于，包括：

2.根据权利要求1所述的基于多监控视频的工作行为检测方法，其特征在于，所述行为检测模块包括对应不同图像尺寸范围的多个特征提取通道，不同的特征提取通道对应不同的膨胀因子；

获取每个所述特征图的图像尺寸；

3.根据权利要求2所述的基于多监控视频的工作行为检测方法，其特征在于，所述卷积模块包括具有第一卷积核的第一卷积层、具有第二卷积核的第二卷积层以及分别具有第三卷积核的第三卷积层和第四卷积层；

4.根据权利要求1所述的基于多监控视频的工作行为检测方法，其特征在于，所述根据所述待识别目标的特征集合以及从第二监控视频中提取的多个待识别对象的特征集合，获取与所述待识别目标匹配的所述待识别对象，包括：

5.根据权利要求4所述的基于多监控视频的工作行为检测方法，其特征在于，所述根据所述待识别目标的特征集合以及所述待识别对象的特征集合，将所述待识别目标和所述待识别对象进行特征比对，得到对应的比对值，包括：

6.根据权利要求1所述的基于多监控视频的工作行为检测方法，其特征在于，所述对每个所述待识别目标的人物图像集合进行特征提取，获取所述待识别目标的特征集合，包括：

7.根据权利要求1所述的基于多监控视频的工作行为检测方法，其特征在于，所述将所述待识别目标的所述待处理图像集合输入预先训练好的工作行为检测模型中，输出所述待识别目标在所述拍摄时间的工作行为结果之后，还包括：

8.一种基于多监控视频的工作行为检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、以及与所述处理器耦接的存储器，所述存储器存储有可被所述处理器执行的程序指令；所述处理器执行所述存储器存储的所述程序指令时实现如权利要求1～7中任一项所述的基于多监控视频的工作行为检测方法。

10.一种存储介质，其特征在于，所述存储介质内存储有程序指令，所述程序指令被处理器执行时实现能够实现如权利要求1～7中任一项所述的基于多监控视频的工作行为检测方法。