CN112347893A

CN112347893A - 用于视频行为识别的模型训练方法、装置和计算机设备

Info

Publication number: CN112347893A
Application number: CN202011202120.1A
Authority: CN
Inventors: 石大明; 刘露; 刘玉坤; 杨淑玲
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-02-09
Anticipated expiration: 2040-11-02
Also published as: CN112347893B

Abstract

本申请涉及一种用于视频行为识别的模型训练方法、装置和计算机设备。所述方法包括：确定视频行为识别模型的输入层、隐含层和输出层。针对每一个隐含层，采用与隐含层的感受野尺寸相同的滑动窗口对样本视频图像进行滑动截取，获得对应隐含层的基本模式集。对基本模式集进行聚类后，确定聚类得到的多个基本模式类各自的代表模式，构成每个隐含层对应的训练模式集。对视频行为识别模型进行从前向后逐层的局部特征训练，且在每一个隐含层进行局部特征训练时，采用对应的训练模式集进行训练。在输出层，采用反向传播的训练方式，对视频行为识别模型进行全局训练。采用本方法能够提升视频行为识别率。

Description

用于视频行为识别的模型训练方法、装置和计算机设备

技术领域

本申请涉及机器学习技术领域，特别是涉及一种用于视频行为识别的模型训练方法、装置和计算机设备。

背景技术

随着机器学习技术的发展，出现了深度学习技术，深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。通过深度神经网络，可对视频中的人类行为进行识别和分类。

然而，传统技术中，深度神经网络是“端到端”的“全自动”黑盒子的网络结构，只能对网络的输入和输出可视，网络内部具有不可解释性，领域专家无法对网络做精确的改进，造成了人机交互的瓶颈，从而导致无法有效提升视频行为识别率。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升视频行为识别率的用于视频行为识别的模型训练方法、装置和计算机设备。

一种用于视频行为识别的模型训练方法，所述方法包括：

确定视频行为识别模型的输入层、隐含层和输出层；

针对每一个隐含层，采用与所述隐含层的感受野尺寸相同的滑动窗口对样本视频图像进行滑动截取，获得对应隐含层的基本模式集；

对所述基本模式集进行聚类后，确定聚类得到的多个基本模式类各自的代表模式，构成每个隐含层对应的训练模式集；

对所述视频行为识别模型进行从前向后逐层的局部特征训练，且在每一个隐含层进行局部特征训练时，采用对应的训练模式集进行训练；

在所述输出层，采用反向传播的训练方式，对所述视频行为识别模型进行全局训练。

在其中一个实施例中，所述对所述基本模式集进行聚类后，确定聚类得到的多个基本模式类各自的代表模式，构成每个隐含层对应的训练模式集，包括：

确定所述基本模式集中的各基本模式之间的相似度；

根据所述各基本模式之间的相似度，对所述基本模式集进行聚类，获得多个基本模式类；其中，每一个基本模式类中的各基本模式之间的相似度大于等于第一预设相似度阈值，不同基本模式类中的各基本模式之间的相似度小于第一预设相似度阈值；

针对每一个基本模式类，对所述基本模式类中的基本模式进行加权平均处理，获得所述基本模式类的代表模式；

将所述代表模式进行组合处理，获得每个隐含层对应的训练模式集。

在其中一个实施例中，所述针对每一个基本模式类，对所述基本模式类中的基本模式进行加权平均处理，获得所述基本模式类的代表模式，包括：

针对每一个基本模式类，对所述基本模式类中的基本模式进行加权平均处理，获得所述基本模式类的初始代表模式；

针对每一个基本模式类，确定所述基本模式类的初始代表模式与所述基本模式类中的基本模式之间的相似度；

当所述基本模式类的初始代表模式与所述基本模式类中的基本模式之间的相似度小于第二预设相似度阈值时，调整所述基本模式类中的基本模式，返回所述针对每一个基本模式类，对所述基本模式类中的基本模式进行加权平均处理，获得所述基本模式类的初始代表模式的步骤，直至所述基本模式类的初始代表模式与所述基本模式类中的基本模式之间的相似度大于等于第二预设相似度阈值时，获得所述基本模式类的目标代表模式。

在其中一个实施例中，所述方法还包括：

通过所述视频行为识别模型提取所述样本视频图像中个体行为的空间特征；

将所述空间特征按照时间顺序，输入至长短时记忆网络进行时序分析，获得所述样本视频图像中个体行为的时序特征。

在其中一个实施例中，所述方法还包括：

确定所述样本视频图像的目标个体的数量；

针对每一个目标个体，将所述目标个体对应的空间特征和时序特征进行拼接，获得与所述目标个体对应的个体特征；

根据所述个体特征在所述样本视频图像的目标群体中的贡献程度，确定每一个个体特征对应的特征权值；

根据所述个体特征和所述特征权值，采用注意力池化机制对所述个体特征进行特征聚合处理，获得所述目标群体的特征向量。

在其中一个实施例中，所述方法还包括：

获取上线阶段的待识别视频图像；

将所述待识别视频图像输入至所述视频行为识别模型，获得奇异视频图像；

针对每一个隐含层，采用与所述隐含层的感受野尺寸相同的滑动窗口对所述奇异视频图像进行滑动截取，获得对应隐含层的初始奇异模式集；

将所述初始奇异模式集和所述基本模式集进行相似度匹配，获得目标奇异模式集；

通过所述目标奇异模式集和所述奇异视频图像，对所述视频行为识别模型进行在线训练。

在其中一个实施例中，所述对所述视频行为识别模型进行从前向后逐层的局部特征训练，包括：

确定所述视频行为识别模型中每一个隐含层中的每一个模式所对应的模式激活阈值；

按照所述视频行为识别模型中隐含层从前向后的顺序，采用对应的训练模式集逐层对每一个隐含层进行局部特征训练，获得所述隐含层中的每一个模式所对应的模式识别值；

针对每一个隐含层，当所述隐含层中的每一个模式所对应的模式识别值大于等于各自所对应的模式激活阈值时，判定所述隐含层的局部特征训练完成。

在其中一个实施例中，所述在所述输出层，采用反向传播的训练方式，对所述视频行为识别模型进行全局训练，包括：

将所述样本视频图像输入至所述视频行为识别模型，在所述输出层获得输出值；

确定所述输出值与实际值之间的识别误差；

采用反向传播的训练方式，将所述识别误差从输出层向隐含层反向传播直至传播至输入层，以完成对所述视频行为识别模型的全局训练。

在其中一个实施例中，所述隐含层包括简单层和复杂层；每一个隐含层由简单层和复杂层串接得到；所述简单层用于提取所述样本视频图像中个体行为的空间特征；所述复杂层用于调整所述训练模式集。

一种用于视频行为识别的模型训练装置，所述装置包括：

确定模块，用于确定视频行为识别模型的输入层、隐含层和输出层；

截取模块，用于针对每一个隐含层，采用与所述隐含层的感受野尺寸相同的滑动窗口对样本视频图像进行滑动截取，获得对应隐含层的基本模式集；

所述确定模块还用于对所述基本模式集进行聚类后，确定聚类得到的多个基本模式类各自的代表模式，构成每个隐含层对应的训练模式集；

训练模块，用于对所述视频行为识别模型进行从前向后逐层的局部特征训练，且在每一个隐含层进行局部特征训练时，采用对应的训练模式集进行训练；在所述输出层，采用反向传播的训练方式，对所述视频行为识别模型进行全局训练。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

确定视频行为识别模型的输入层、隐含层和输出层；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

确定视频行为识别模型的输入层、隐含层和输出层；

上述用于视频行为识别的模型训练方法、装置和计算机设备，确定视频行为识别模型的输入层、隐含层和输出层，使得视频行为识别模型的基本结构得以确定。针对每一个隐含层，采用与隐含层的感受野尺寸相同的滑动窗口对样本视频图像进行滑动截取，保证了模式在任意位置均可以被准确识别，获得对应隐含层的基本模式集。对基本模式集进行聚类后，确定聚类得到的多个基本模式类各自的代表模式，构成每个隐含层对应的训练模式集，使得训练模式集可以代表整个基本模式集的基本模式。对视频行为识别模型进行从前向后逐层的局部特征训练，且在每一个隐含层进行局部特征训练时，采用对应的训练模式集进行训练。在输出层，采用反向传播的训练方式，对视频行为识别模型进行全局训练，以对局部特征训练所得到的模型参数进行精细更正。这样，通过在逐层训练每一个隐含层时，采用对应的训练模式集进行训练，从而，每一个隐含层的训练模式集均为可解释的，使得网络内部具有解释性，便于可对网络做进一步的改进，从而提升了视频行为识别率。

附图说明

图1为一个实施例中用于视频行为识别的模型训练方法的应用场景图；

图2为一个实施例中用于视频行为识别的模型训练方法的流程示意图；

图3为一个实施例中视频行为识别模型的框架图；

图4为一个实施例中基于LSTM的时空特征提取示意图；

图5为一个实施例中基于注意力池化机制的特征聚合示意图；

图6为一个实施例中用于视频行为识别的模型训练方法的总体结构框图；

图7为一个实施例中用于视频行为识别的模型训练装置的结构框图；

图8为另一个实施例中用于视频行为识别的模型训练装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的用于视频行为识别的模型训练方法，可以应用于如图1所示的应用环境中。该应用环境包括终端102和服务器104。终端102与服务器104通过网络进行通信。其中，终端102具体可以包括台式终端或移动终端。移动终端具体可以包括手机、平板电脑和笔记本电脑等中的至少一种。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本领域技术人员可以理解，图1中示出的应用环境，仅仅是与本申请方案相关的部分场景，并不构成对本申请方案应用环境的限定。

终端102确定视频行为识别模型的输入层、隐含层和输出层。终端102针对每一个隐含层，采用与隐含层的感受野尺寸相同的滑动窗口对从服务器104中获取到的样本视频图像进行滑动截取，获得对应隐含层的基本模式集。终端102对基本模式集进行聚类后，确定聚类得到的多个基本模式类各自的代表模式，构成每个隐含层对应的训练模式集。终端102对视频行为识别模型进行从前向后逐层的局部特征训练，且在每一个隐含层进行局部特征训练时，采用对应的训练模式集进行训练。在输出层，终端102采用反向传播的训练方式，对视频行为识别模型进行全局训练。

在一个实施例中，如图2所示，提供了一种用于视频行为识别的模型训练方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

S202，确定视频行为识别模型的输入层、隐含层和输出层。

其中，行为识别是指识别出视频中人类行为的行为类别。行为类别可包括打排球、打篮球、跑步和喝水等中的至少一种。视频行为识别模型是用于识别视频中人类行为的行为类别的模型。输入层是视频行为识别模型的第一层，用于输入样本视频图像。隐含层是视频行为识别模型的中间层，用于提取样本视频图像的特征。输出层是视频行为识别模型的最后一层，用于输出识别分类结果。

具体地，终端可确定视频行为识别模型的基本层次结构，即，确定视频行为识别模型的输入层、隐含层和输出层。在一个实施例中，隐含层的数量为至少一个。

S204，针对每一个隐含层，采用与隐含层的感受野尺寸相同的滑动窗口对样本视频图像进行滑动截取，获得对应隐含层的基本模式集。

其中，感受野(Receptive Field)是视频行为识别模型的每一层输出的特征图上的像素点在输入的样本视频图像上映射的区域大小。基本模式集是每一层隐含层输出的特征图的集合。可以理解，模式即特征。

具体地，针对每一个隐含层，终端可确定隐含层的感受野的尺寸，进而根据隐含层的感受野的尺寸，确定滑动窗口的尺寸，使得滑动窗口的尺寸与隐含层的感受野的尺寸相同。终端可采用与隐含层的感受野尺寸相同的滑动窗口对样本视频图像进行滑动截取，以保证模式在任意位置均可被准确识别，从而获得对应隐含层的基本模式集。可以理解，每一个隐含层的感受野的尺寸可不同，感受野的尺寸大小随着网络的深度而增大。比如，在视频行为识别模型的输入层，其感受野的尺寸设置得很小，然后随着深度而增大，在输出层，其感受野的尺寸为整个样本视频图像。

S206，对基本模式集进行聚类后，确定聚类得到的多个基本模式类各自的代表模式，构成每个隐含层对应的训练模式集。

其中，基本模式类是经过分类后的基本模式的集合，可以理解，同一个基本模式类中的基本模式所对应的行为类别相同。代表模式是可代表基本模式类中各基本模式的模式。训练模式集是用于训练视频行为识别模型的数据集。

具体地，终端可对基本模式集进行聚类，得到的多个基本模式类。每一个基本模式类中包括能代表整个基本模式类的所有模式的代表模式。终端可确定聚类得到的多个基本模式类各自的代表模式，并将得到的各代表模式类进行组合，构成每个隐含层对应的训练模式集。

S208，对视频行为识别模型进行从前向后逐层的局部特征训练，且在每一个隐含层进行局部特征训练时，采用对应的训练模式集进行训练。

其中，从前向后是指从视频行为识别模型的输入层，经隐含层至输出层的方向。

具体地，视频行为识别模型的每一个层，均包括样本视频图像的局部特征。终端可对视频行为识别模型进行从前向后逐层的局部特征训练。每一个隐含层对应的训练模式集不同，在每一个隐含层进行局部特征训练时，终端可采用对应的训练模式集进行训练。

S210，在输出层，采用反向传播的训练方式，对视频行为识别模型进行全局训练。

具体地，针对输出层的训练，终端可将样本视频图像输入至视频行为识别模型，采用反向传播的训练方式，对视频行为识别模型进行全局训练。

在一个实施例中，如图3所示，视频行为识别模型是一种深度神经认知机(Deepcognition)模型，包括输入层U₀、隐含层和输出层F。其中，隐含层包括简单层U_S(Simple-layer)和复杂层U_C(Complex-layer)，每一个隐含层由简单层和复杂层串接得到。每一个简单层由多个简单面组成，每一个简单面由多个简单元组成。每一个复杂层由多个复杂面组成，每一个复杂面由多个复杂元组成。简单层用于提取样本视频图像中个体行为的空间特征，复杂层用于调整训练模式集。这样，通过复杂层不断调整训练模式集，使得简单层可以学习到各自各模式的变化形的特征，从而只需要输入少量的样本视频图像，就可以完成对视频行为识别模型的训练。

上述用于视频行为识别的模型训练方法中，确定视频行为识别模型的输入层、隐含层和输出层，使得视频行为识别模型的基本结构得以确定。针对每一个隐含层，采用与隐含层的感受野尺寸相同的滑动窗口对样本视频图像进行滑动截取，保证了模式在任意位置均可以被准确识别，获得对应隐含层的基本模式集。对基本模式集进行聚类后，确定聚类得到的多个基本模式类各自的代表模式，构成每个隐含层对应的训练模式集，使得训练模式集可以代表整个基本模式集的基本模式。对视频行为识别模型进行从前向后逐层的局部特征训练，且在每一个隐含层进行局部特征训练时，采用对应的训练模式集进行训练。在输出层，采用反向传播的训练方式，对视频行为识别模型进行全局训练，以对局部特征训练所得到的模型参数进行精细更正。这样，通过在逐层训练每一个隐含层时，采用对应的训练模式集进行训练，从而，每一个隐含层的训练模式集均为可解释的，使得网络内部具有解释性，便于可对网络做进一步的改进，从而提升了视频行为识别率。

在一个实施例中，步骤S206，也就是对基本模式集进行聚类后，确定聚类得到的多个基本模式类各自的代表模式，构成每个隐含层对应的训练模式集的步骤，具体包括：确定基本模式集中的各基本模式之间的相似度；根据各基本模式之间的相似度，对基本模式集进行聚类，获得多个基本模式类；其中，每一个基本模式类中的各基本模式之间的相似度大于等于第一预设相似度阈值，不同基本模式类中的各基本模式之间的相似度小于第一预设相似度阈值；针对每一个基本模式类，对基本模式类中的基本模式进行加权平均处理，获得基本模式类的代表模式；将代表模式进行组合处理，获得每个隐含层对应的训练模式集。

具体地，基本模式集中包括多个基本模式，各基本模式之间具有相似度。终端可确定基本模式集中的各基本模式之间的相似度，并将各基本模式之间的相似度与第一预设相似度阈值进行比对，根据比对结果对基本模式集进行聚类，获得多个基本模式类。其中，每一个基本模式类中的各基本模式之间的相似度大于等于第一预设相似度阈值，不同基本模式类中的各基本模式之间的相似度小于第一预设相似度阈值。针对每一个基本模式类，终端可对基本模式类中的基本模式进行加权平均处理，获得基本模式类的代表模式。终端可将多个基本模式类对应的代表模式进行组合处理，获得每个隐含层对应的训练模式集。

上述实施例中，通过各基本模式之间的相似度，对基本模式集进行聚类，使得模式之间相似度较高的基本模式可以聚为一类，构成基本模式类，便于对基本模式的分类。通过对基本模式类中的基本模式进行加权平均处理，获得基本模式类的代表模式，以使得代表模式可以代表基本模式类中的各基本模式。通过将代表模式进行组合处理，获得每个隐含层对应的训练模式集，使得训练模式集在数量较小的前提下，包括较多的模式，从而，进一步提升视频行为识别率。

在一个实施例中，针对每一个基本模式类，对基本模式类中的基本模式进行加权平均处理，获得基本模式类的代表模式的步骤，具体包括：针对每一个基本模式类，对基本模式类中的基本模式进行加权平均处理，获得基本模式类的初始代表模式；针对每一个基本模式类，确定基本模式类的初始代表模式与基本模式类中的基本模式之间的相似度；当基本模式类的初始代表模式与基本模式类中的基本模式之间的相似度小于第二预设相似度阈值时，调整基本模式类中的基本模式，返回针对每一个基本模式类，对基本模式类中的基本模式进行加权平均处理，获得基本模式类的初始代表模式的步骤，直至基本模式类的初始代表模式与基本模式类中的基本模式之间的相似度大于等于第二预设相似度阈值时，获得基本模式类的目标代表模式。

其中，初始代表模式是初始代表基本模式类的代表模式。目标代表模式是最终代表基本模式类的代表模式，即，将目标代表模式进行组合处理，获得每个隐含层对应的训练模式集。

具体地，基本模式类中包括多个基本模式，针对每一个基本模式类，终端可对基本模式类中的基本模式进行加权平均处理，获得基本模式类的初始代表模式。基本模式类的初始代表模式与基本模式类中的基本模式之间具有相似度。针对每一个基本模式类，终端可确定基本模式类的初始代表模式与基本模式类中的基本模式之间的相似度。终端可将基本模式类的初始代表模式与基本模式类中的基本模式之间的相似度与第二预设相似度阈值进行比对。当基本模式类的初始代表模式与基本模式类中的基本模式之间的相似度小于第二预设相似度阈值时，领域专家可基于终端针对基本模式类中的基本模式发起调整操作，终端可响应于调整操作，调整基本模式类中的基本模式，并返回针对每一个基本模式类，对基本模式类中的基本模式进行加权平均处理，获得基本模式类的初始代表模式的步骤，直至基本模式类的初始代表模式与基本模式类中的基本模式之间的相似度大于等于第二预设相似度阈值时，获得基本模式类的目标代表模式。

上述实施例中，通过在训练过程中迭代调整基本模式类中的基本模式，使得训练模式集能涵盖更多的模式，使得视频行为识别模型能学习到更多样本视频图像的特征，从而进一步提升视频行为识别率。

在一个实施例中，用于视频行为识别的模型训练方法还包括：通过视频行为识别模型提取样本视频图像中个体行为的空间特征；将空间特征按照时间顺序，输入至长短时记忆网络进行时序分析，获得样本视频图像中个体行为的时序特征。

其中，空间特征是样本视频图像中每一帧图像各自的特征。时序特征是样本视频图像中序列帧图像之间的特征。长短时记忆网络(LSTM，Long Short-Term Memory)是一种时间循环神经网络，用于提取样本视频图像中个体行为的时序特征。

在一个实施例中，如图4所示，终端可将样本视频图像输入至视频行为识别模型，即DeepCognitron(深度认知机模型)，通过视频行为识别模型提取样本视频图像中个体行为的空间特征。终端可将提取到的样本视频图像中个体行为的空间特征，按照时间顺序输入至长短时记忆网络(LSTM)进行时序分析，获得样本视频图像中个体行为的时序特征。

上述实施例中，通过将空间特征按照时间顺序，输入至长短时记忆网络进行时序分析，获得样本视频图像中个体行为的时序特征，使得一个序列的样本视频图像帧中每一帧图像的时序文关系得以确定，进一步提升视频行为识别率。

在一个实施例中，用于视频行为识别的模型训练方法还包括：确定样本视频图像的目标个体的数量；针对每一个目标个体，将目标个体对应的空间特征和时序特征进行拼接，获得与目标个体对应的个体特征；根据个体特征在样本视频图像的目标群体中的贡献程度，确定每一个个体特征对应的特征权值；根据个体特征和特征权值，采用注意力池化机制对个体特征进行特征聚合处理，获得目标群体的特征向量。

可以理解，目标个体是单个人类，目标群体是由多个人类组成的人群。

具体地，样本视频图像中包括多个目标个体，终端可确定样本视频图像的目标个体的数量。目标个体具备对应的空间特征和时序特征，针对每一个目标个体，终端可将目标个体对应的空间特征和时序特征进行拼接，获得与目标个体对应的个体特征，可以理解，个体特征包括空间特征和时序特征。每一个目标个体对应的个体特征对样本视频图像的目标群体的贡献程度可不相同。终端可根据个体特征在样本视频图像的目标群体中的贡献程度，确定每一个个体特征对应的特征权值，即，贡献程度越大的个体特征，分配越大的特征权值，贡献程度越小的个体特征，分配越小的特征权值。终端可根据个体特征和特征权值，采用注意力池化机制对个体特征进行特征聚合处理，获得目标群体的特征向量。

在一个实施例中，如图5所示，n表示目标群体中包括的目标个体的数量，i表示目标群体中的第i个目标个体，P表示个体特征，α表示个体特征对应的特征权值，G表示目标群体的特征向量，采用注意力池化机制对个体特征进行特征聚合处理，获得目标群体的特征向量，可表示为如下公式：

G＝∑_iα_iP_i

上述实施例中，通过根据个体特征在样本视频图像的目标群体中的贡献程度，确定每一个个体特征对应的特征权值，进而采用注意力池化机制对个体特征进行特征聚合处理，获得目标群体的特征向量。这样，提升视频行为识别模型对群体行为的识别效率。

在一个实施例中，用于视频行为识别的模型训练方法还包括：获取上线阶段的待识别视频图像；将待识别视频图像输入至视频行为识别模型，获得奇异视频图像；针对每一个隐含层，采用与隐含层的感受野尺寸相同的滑动窗口对奇异视频图像进行滑动截取，获得对应隐含层的初始奇异模式集；将初始奇异模式集和基本模式集进行相似度匹配，获得目标奇异模式集；通过目标奇异模式集和奇异视频图像，对视频行为识别模型进行在线训练。

其中，奇异视频图像是待识别视频图像输入至视频行为识别模型，没有识别出来的视频图像。初始奇异模式集是对奇异视频图像进行模式提取所得到的模式集。目标奇异模式集是满足与基本模式集的相似度匹配的初始奇异模式集。

具体地，终端可将视频行为识别模型与相应的训练模式集打包发布上线。终端可获取上线阶段的待识别视频图像，并将待识别视频图像输入至视频行为识别模型，视频行为识别模型可对输入的待识别视频图像进行识别分类。终端可将未识别分类成功的视频图像作为奇异视频图像。针对每一个隐含层，终端可采用与隐含层的感受野尺寸相同的滑动窗口对奇异视频图像进行滑动截取，获得对应隐含层的初始奇异模式集。初始奇异模式集和基本模式集具有相似度，终端可将初始奇异模式集和基本模式集进行相似度匹配，并将相似度低于预设相似度匹配阈值的初始奇异模式集作为目标奇异模式集。终端可通过目标奇异模式集和奇异视频图像，对视频行为识别模型进行在线训练，即通过目标奇异模式集对视频行为识别模型进行局部特征训练，通过奇异视频图像对视频行为识别模型进行全局训练。

上述实施例中，在上线阶段，通过获取奇异视频图像，并针对每一个隐含层，采用与隐含层的感受野尺寸相同的滑动窗口对奇异视频图像进行滑动截取，获得对应隐含层的初始奇异模式集，以保证初始奇异模式集满足每一个隐含层的局部特征训练。通过将初始奇异模式集和基本模式集进行相似度匹配，获得目标奇异模式集，保证视频行为识别模型可以学习到新的特征，从而进一步提升视频行为识别效率。

在一个实施例中，步骤S208中对视频行为识别模型进行从前向后逐层的局部特征训练的步骤，具体包括：确定视频行为识别模型中每一个隐含层中的每一个模式所对应的模式激活阈值；按照视频行为识别模型中隐含层从前向后的顺序，采用对应的训练模式集逐层对每一个隐含层进行局部特征训练，获得隐含层中的每一个模式所对应的模式识别值；针对每一个隐含层，当隐含层中的每一个模式所对应的模式识别值大于等于各自所对应的模式激活阈值时，判定隐含层的局部特征训练完成。

其中，模式激活阈值是激活模式所达到的值。模式识别值是训练过程中模式学习程度值。

具体地，每一个隐含层包括多个每一个模式，每一个模式各自对应的有模式激活阈值。终端可确定视频行为识别模型中每一个隐含层中的每一个模式所对应的模式激活阈值，并按照视频行为识别模型中隐含层从前向后的顺序，采用对应的训练模式集逐层对每一个隐含层进行局部特征训练，获得隐含层中的每一个模式所对应的模式识别值。针对每一个隐含层，当隐含层中的每一个模式所对应的模式识别值大于等于各自所对应的模式激活阈值时，表示隐含层中的每一个模式均可被识别，此时，终端可判定隐含层的局部特征训练完成。可以理解，针对每一个隐含层，当隐含层中存在任一个模式所对应的模式识别值小于所对应的模式激活阈值时，表示隐含层中的该模式未可被识别，此时，终端可判定隐含层的局部特征训练未完成，终端可对该隐含层继续进行局部特征训练。

上述实施例中，通过给每一个隐含层设置各自对应的模式激活阈值，当隐含层中的每一个模式所对应的模式识别值大于等于各自所对应的模式激活阈值时，判定隐含层的局部特征训练完成。这样，可保证每一个隐含层充分学习到样本视频图像的局部特征，从而提升每一个隐含层对视频行为识别的准确性。

在一个实施例中，步骤S210，也就是在输出层，采用反向传播的训练方式，对视频行为识别模型进行全局训练的步骤，具体包括：将样本视频图像输入至视频行为识别模型，在输出层获得输出值；确定输出值与实际值之间的识别误差；采用反向传播的训练方式，将识别误差从输出层向隐含层反向传播直至传播至输入层，以完成对视频行为识别模型的全局训练。

具体地，终端可将样本视频图像输入至视频行为识别模型，并在输出层获得输出值，输出值即为对样本视频图像的分类识别结果。终端确定输出值与实际值之间的识别误差，并采用反向传播的训练方式，将识别误差从输出层向隐含层反向传播直至传播至输入层，对模型参数进行调整，以完成对视频行为识别模型的全局训练。

上述实施例中，通过反向传播的训练方式，将识别误差从输出层向隐含层反向传播直至传播至输入层，以进一步调整模型参数，从而提升视频行为识别准确性。

在一个实施例中，如图6所示，用于视频行为识别的模型训练包括空间特征提取、时序特征提取、时空特征聚合和网络在线学习四部分。针对空间特征提取部分，即可直观解释的模式提取与训练部分和深度认知机的模式训练部分，终端可确定模型的基本层次，即确定输入层、隐含层和输出层。领域专家可选取最高阶模式，即选取未识别的样本视频图像，终端可获取领域专家所选取的样本视频图像，并对样本视频图像进行切割，获得多个基本模式集。终端可将多个基本模式集进行聚类，得到多种基本模式类。终端可对基本模式类中的各模式进行加权处理，得到每个基本模式类的代表模式，并将代表模式组合为训练模式集。终端将训练模式集输入至视频行为识别模型，即深度认知机模型，并对模型进行初始化。终端可在视频行为识别模型的每一层引入抑制信号，以防止过度拟合。进而，终端可对隐含层进行逐层训练，并在输出层借助反向传播算法进行全局训练。终端可通过训练完成的视频行为识别模型提取空间特征。针对时序特征提取部分，即基于LSTM的时序特征提取部分，终端可将空间特征输入至LSTM进行时序分析，获得时序特征。针对时空特征聚合部分，即基于注意力池化的特征聚合部分，终端可将目标个体的空间特征和时序特征输入至注意力池化网络，并借助注意力池化机制对目标个体的个体特征进行聚合，得到群体特征向量。针对网络在线学习部分，即基于结合领域知识的在线学习部分，终端获取最高阶的奇异视频图像，即上线阶段未识别的视频图像，并对奇异视频图像进行滑动特征提取。终端可通过相似度匹配获取低阶的奇异模式集，即奇异视频图像的特征图的集合。终端可通过奇异模式集和奇异视频图像对视频行为识别模型进行在线训练。

应该理解的是，虽然图2的各个步骤按照顺序依次显示，但是这些步骤并不是必然按照顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种用于视频行为识别的模型训练装置700，包括：确定模块701、截取模块702和训练模块703，其中：

确定模块701，用于确定视频行为识别模型的输入层、隐含层和输出层。

截取模块702，用于针对每一个隐含层，采用与隐含层的感受野尺寸相同的滑动窗口对样本视频图像进行滑动截取，获得对应隐含层的基本模式集。

确定模块701还用于对基本模式集进行聚类后，确定聚类得到的多个基本模式类各自的代表模式，构成每个隐含层对应的训练模式集。

训练模块703，用于对视频行为识别模型进行从前向后逐层的局部特征训练，且在每一个隐含层进行局部特征训练时，采用对应的训练模式集进行训练；在输出层，采用反向传播的训练方式，对视频行为识别模型进行全局训练。

在一个实施例中，确定模块701还用于确定基本模式集中的各基本模式之间的相似度；根据各基本模式之间的相似度，对基本模式集进行聚类，获得多个基本模式类；其中，每一个基本模式类中的各基本模式之间的相似度大于等于第一预设相似度阈值，不同基本模式类中的各基本模式之间的相似度小于第一预设相似度阈值；针对每一个基本模式类，对基本模式类中的基本模式进行加权平均处理，获得基本模式类的代表模式；将代表模式进行组合处理，获得每个隐含层对应的训练模式集。

在一个实施例中，确定模块701还用于针对每一个基本模式类，对基本模式类中的基本模式进行加权平均处理，获得基本模式类的初始代表模式；针对每一个基本模式类，确定基本模式类的初始代表模式与基本模式类中的基本模式之间的相似度；当基本模式类的初始代表模式与基本模式类中的基本模式之间的相似度小于第二预设相似度阈值时，调整基本模式类中的基本模式，返回针对每一个基本模式类，对基本模式类中的基本模式进行加权平均处理，获得基本模式类的初始代表模式的步骤，直至基本模式类的初始代表模式与基本模式类中的基本模式之间的相似度大于等于第二预设相似度阈值时，获得基本模式类的目标代表模式。

在一个实施例中，训练模块703还用于获取上线阶段的待识别视频图像；将待识别视频图像输入至视频行为识别模型，获得奇异视频图像；针对每一个隐含层，采用与隐含层的感受野尺寸相同的滑动窗口对奇异视频图像进行滑动截取，获得对应隐含层的初始奇异模式集；将初始奇异模式集和基本模式集进行相似度匹配，获得目标奇异模式集；通过目标奇异模式集和奇异视频图像，对视频行为识别模型进行在线训练。

在一个实施例中，训练模块703还用于确定视频行为识别模型中每一个隐含层中的每一个模式所对应的模式激活阈值；按照视频行为识别模型中隐含层从前向后的顺序，采用对应的训练模式集逐层对每一个隐含层进行局部特征训练，获得隐含层中的每一个模式所对应的模式识别值；针对每一个隐含层，当隐含层中的每一个模式所对应的模式识别值大于等于各自所对应的模式激活阈值时，判定隐含层的局部特征训练完成。

在一个实施例中，训练模块703还用于将样本视频图像输入至视频行为识别模型，在输出层获得输出值；确定输出值与实际值之间的识别误差；采用反向传播的训练方式，将识别误差从输出层向隐含层反向传播直至传播至输入层，以完成对视频行为识别模型的全局训练。

在一个实施例中，隐含层包括简单层和复杂层；每一个隐含层由简单层和复杂层串接得到；简单层用于提取样本视频图像中个体行为的空间特征；复杂层用于调整训练模式集。

参考图8，在一个实施例中，用于视频行为识别的模型训练装置700还包括：提取模块704和聚合模块705，其中：

提取模块704，用于通过视频行为识别模型提取样本视频图像中个体行为的空间特征；将空间特征按照时间顺序，输入至长短时记忆网络进行时序分析，获得样本视频图像中个体行为的时序特征。

聚合模块705，用于确定样本视频图像的目标个体的数量；针对每一个目标个体，将目标个体对应的空间特征和时序特征进行拼接，获得与目标个体对应的个体特征；根据个体特征在样本视频图像的目标群体中的贡献程度，确定每一个个体特征对应的特征权值；根据个体特征和特征权值，采用注意力池化机制对个体特征进行特征聚合处理，获得目标群体的特征向量。

上述用于视频行为识别的模型训练装置，确定视频行为识别模型的输入层、隐含层和输出层，使得视频行为识别模型的基本结构得以确定。针对每一个隐含层，采用与隐含层的感受野尺寸相同的滑动窗口对样本视频图像进行滑动截取，保证了模式在任意位置均可以被准确识别，获得对应隐含层的基本模式集。对基本模式集进行聚类后，确定聚类得到的多个基本模式类各自的代表模式，构成每个隐含层对应的训练模式集，使得训练模式集可以代表整个基本模式集的基本模式。对视频行为识别模型进行从前向后逐层的局部特征训练，且在每一个隐含层进行局部特征训练时，采用对应的训练模式集进行训练。在输出层，采用反向传播的训练方式，对视频行为识别模型进行全局训练，以对局部特征训练所得到的模型参数进行精细更正。这样，通过在逐层训练每一个隐含层时，采用对应的训练模式集进行训练，从而，每一个隐含层的训练模式集均为可解释的，使得网络内部具有解释性，便于可对网络做进一步的改进，从而提升了视频行为识别率。

关于用于视频行为识别的模型训练装置的具体限定可以参见上文中对于用于视频行为识别的模型训练方法的限定，在此不再赘述。上述用于视频行为识别的模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是上述图1中的终端102，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用于视频行为识别的模型训练方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述用于视频行为识别的模型训练方法的步骤。此处用于视频行为识别的模型训练方法的步骤可以是上述各个实施例的用于视频行为识别的模型训练方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述用于视频行为识别的模型训练方法的步骤。此处用于视频行为识别的模型训练方法的步骤可以是上述各个实施例的用于视频行为识别的模型训练方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种用于视频行为识别的模型训练方法，其特征在于，所述方法包括：

确定视频行为识别模型的输入层、隐含层和输出层；

2.根据权利要求1所述的方法，其特征在于，所述对所述基本模式集进行聚类后，确定聚类得到的多个基本模式类各自的代表模式，构成每个隐含层对应的训练模式集，包括：

确定所述基本模式集中的各基本模式之间的相似度；

3.根据权利要求2所述的方法，其特征在于，所述针对每一个基本模式类，对所述基本模式类中的基本模式进行加权平均处理，获得所述基本模式类的代表模式，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

确定所述样本视频图像的目标个体的数量；

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取上线阶段的待识别视频图像；

7.根据权利要求1所述的方法，其特征在于，所述对所述视频行为识别模型进行从前向后逐层的局部特征训练，包括：

8.根据权利要求1所述的方法，其特征在于，所述在所述输出层，采用反向传播的训练方式，对所述视频行为识别模型进行全局训练，包括：

确定所述输出值与实际值之间的识别误差；

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述隐含层包括简单层和复杂层；每一个隐含层由简单层和复杂层串接得到；所述简单层用于提取所述样本视频图像中个体行为的空间特征；所述复杂层用于调整所述训练模式集。

10.一种用于视频行为识别的模型训练装置，其特征在于，所述装置包括：