CN110516599A

CN110516599A - 基于渐进式关系学习的群体行为识别模型及其训练方法

Info

Publication number: CN110516599A
Application number: CN201910798505.XA
Authority: CN
Inventors: 胡古月; 余山; 崔波; 何媛
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-11-29

Abstract

本发明属于行为识别领域，具体涉及一种基于渐进式关系学习的群体行为识别模型及其训练方法，旨在通过挖掘群体行为中的关键关系来解决现有技术中群体行为识别准确度不高的问题。本发明群体行为识别模型包括语义关系图生成网络、强化学习网络和softmax分类层；并对所述语义关系图网络、所述强化学习网络两个网络，轮替的保持其中一个网络的网络参数不变/移除该网络的基础上训练另外一个网络的网络参数，直至达到预设的训练结束条件，获得训练后的所述群体行为识别模型。通过本发明得到的群体行为识别模型的具有更高的识别准确度。

Description

基于渐进式关系学习的群体行为识别模型及其训练方法

技术领域

本发明属于行为识别领域，具体涉及一种基于渐进式关系学习的群体行为识别模型及其训练方法。

背景技术

行为识别在智能监控、人机交互和自动驾驶等领域有着广泛的应用。依照参与的个体数目，行为识别可以分为单个体行为识别、双个体行为识别和群体行为识别。群体行为识别具有参数个体较多的特点，不但需要建模每个个体的时空动力学，而且需要建模个体间复杂的相互作用关系。同时，群体行为视频中富含大量的语义噪声，群体行为的类别通常仅由少数的关键人物和关键的语义关系决定。因此，群体行为识别是一个既有广泛应用价值又极具挑战性的任务。

现有的群体行为识别方法，主要通过启发式先验设定或者利用“自注意”机制来选择群体中重要的个体，但这种选择停留在较粗的个体粒度上，没有探究在更细的关系粒度上，到底哪些关系是与群体行为有关的语义关系哪些是噪声诱导的无效关系。同时，现有方法主要依托长短时程记忆网络(LSTM)或者消息传播网络(MPNN)隐式的建模视频中的关系，因此难以对某个特定的关系进行选择性的放大或者抑制。因此造成了现有群体行为识别准确度不高的问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有技术中群体行为识别准确度不高的问题，本发明的第一方面，一种基于渐进式关系学习的群体行为识别模型，其特征在于，所述群体行为识别模型包括语义关系图生成网络、强化学习网络和softmax分类层；

所述语义关系图生成网络，用于获取待识别视频片段的选定视频帧中多个个体的语义关系图；

所述强化学习网络，用于获取所述语义关系图中各边的门控值，基于得到的各边的门控值对所述语义关系图进行门控调整；

所述softmax分类层，用于基于所述强化学习网络得到的所述待识别视频片段各选定视频帧的语义关系图，对待识别视频片段进行群体行为分类。

在一些优选的实施方式中，所述强化学习网络为基于马尔科夫决策过程的强化学习模型。

在一些优选的实施方式中，所述强化学习网络的输入包括语义关系图的局部关系组状态S_l、整体关系组状态S_g、全局属性状态S_u，获取语义关系图中的每条关系对应的门控值，并输出基于得到的各边的门控值调整后的语义关系图。

在一些优选的实施方式中，所述语义关系图生成网络中获取视频帧中个体们的语义关系图的方法为：

步骤S110，基于视频帧中个体的时空特征和个体间的交互关系，构建的初始语义关系图；

步骤S120，基于步骤S110中构建的初始语义关系图中编码的上下文信息，对当前语义关系图进行更新，获得更新后的语义关系图。

在一些优选的实施方式中，步骤S110中“基于视频帧中个体的时空特征和个体间的交互关系，构建的初始的语义关系图”，其方法为：

步骤S111，将所述训练样本中个体的时空特征通过全连接层以获取时空特征的低维嵌入；

步骤S112，将所述训练样本中个体间的交互关系通过全连接层以获取交互关系的高维嵌入；

步骤S113，将所述时空特征的低维嵌入、所述交互关系的高维嵌入分别作为初始的节点属性和关系属性构建初始语义关系图。

在一些优选的实施方式中，步骤S120中“基于步骤S110中构建的初始语义关系图中编码的上下文信息，对当前语义关系图进行更新”，为通过预设轮次迭代的语义关系图内的信息传播进行更新，每一轮更新过程为：

步骤S121，对上一轮更新后的语义关系图中节点进行更新，得到节点对应更新后的节点

其中，φ_v为共享的节点更新函数，为节点所有邻居节点上下文信息的整合，Ψ_v为整合函数，为节点邻居节点上下文信息的集合，N(v_i)为节点的邻居节点个数，为节点与邻居节点的上下文信息，φ_ve为共享的收集函数，为节点与邻居节点的边；

步骤S122，基于步骤S121更新后的节点对上一轮更新后的语义关系图中的边进行更新，得到边对应更新后的边

其中，为上一轮更新后的语义关系图中节点与节点的边，φ_e为共享的边更新函数；

步骤S123，基于步骤S122更新后的边对上一轮更新后的语义关系图中的全局属性进行更新，得到更新后的全局属性u′，

其中，W_u和b_u分别是参数矩阵和偏置，N_v为语义关系图中节点数目。

在一些优选的实施方式中，“基于得到的各边的门控值对所述语义关系图进行门控调整”，其方法为：

基于得到的各边的门控值对各边进行门控调整，获取门控调整后的边其中为门控调整前节点与节点的边，g_ij为边的门控值；

基于门控调整后的边对语义关系图中全局属性进行更新。

在一些优选的实施方式中，所述待识别视频片段的选定视频帧为连续的视频帧序列，或者按照设定间隔选取的视频帧序列，或者按照预设间隔规则选取的视频帧序列。

本发明的第二方面，提出了一种基于渐进式关系学习的群体行为识别模型的训练方法，基于上述的基于渐进式关系学习的群体行为识别模型，其训练方法为：

步骤A100，获取训练样本集，所述训练样本集包括多个视频片段以及各视频片段对应的群体行为标签；

步骤A200，从所述群体行为识别模型移除所述强化学习网络，并基于所述训练样本对保留的所述语义关系图生成网络、所述softmax分类层进行训练，得到训练后所述语义关系图生成网络的参数，作为第一网络参数；

步骤A300，对所述群体行为识别模型，将所述语义关系图生成网络保持为所述第一网络参数，通过所述训练样本进行训练，获得训练后所述强化学习网络的参数，作为第二网络参数；

步骤A400，对所述群体行为识别模型，将所述强化学习网络的参数保持为所述第二网络参数，通过所述训练样本进行训练，获得训练后所述语义关系图生成网络的参数，更新第一网络参数；

步骤A500，对所述群体行为识别模型，将所述语义关系图生成网络保持为所述第一网络参数，通过所述训练样本进行训练，获得训练后所述强化学习网络的参数，更新第二网络参数；

步骤A600，重复迭代执行步骤A400、步骤A500，轮替地训练所述语义关系图生成网络和所述强化学习网络，直至达到预设的训练结束条件。

在一些优选的实施方式中，所述第一网络参数包括共享的边更新函数φ_e中参数、共享的节点更新函数φ_v中的参数、收集函数φ_ve中的参数、参数矩阵和偏置W_u和b_u。

在一些优选的实施方式中，所述强化学习网络为一种Actor-Critic框架下的强化学习模型，除了输出动作(门控值)，还用于获取每个动作对应的状态价值；所述强化学习网络在训练过程中的奖励函数为结构化稀疏奖励、轨迹升序奖励和类别翻转奖励的加权函数；所述强化学习网络基于所述状态价值和所述奖励函数进行网络优化。

在一些优选的实施方式中，结构化稀疏奖励r_sparse为r_sparse＝-sgn(L_2，1(G^τ)-L_2，1(G^τ-1))

其中，sgn为符号函数，L_2，1(G^τ)为门控矩阵G在第τ步的L_2，1范数；

轨迹升序奖励r_ascend为

其中，是在第τ步时语义关系图经过所述强化学习网络门控调整后，经由softmax分类层输出的对应于真实群体行为类别的预测概率；

类别翻转奖励r_shift定义为：当语义关系图经过所述强化学习网络门控调整后，经由softmax分类层输出的预测类别出现由错误到正确的正翻转时，施加预设的大的正奖励Ω；当语义关系图经过所述强化学习网络门控调整后，经由softmax分类层输出的预测类别出现由正确到错误的负翻转时，施加预设的大的负奖励-Ω；其他时候，类别翻转奖励恒等于0。

在一些优选的实施方式中，步骤A600中所述的预设的训练结束条件，为预设的轮替训练轮数和/或预设的收敛条件。

本发明的第三方面，提出了一种群体行为识别方法，该方法包括：

通过训练好的群体行为识别模型获取待识别视频片段的群体行为分类信息；

所述群体行为识别模型为上述的基于渐进式关系学习的群体行为识别模型；

所述群体行为识别模型通过上述的基于渐进式关系学习的群体行为识别模型的训练方法进行训练。

本发明的第四方面，提成出了一种基于渐进式关系学习的群体行为识别模型的训练系统，该系统用于上述的基于渐进式关系学习的群体行为识别模型的训练，该系统包括训练样本获取单元、第一网络参数获取单元、第二网络参数获取单元、第一网络参数更新单元、第二网络参数更新单元、迭代控制单元；

所述训练样本获取单元，配置为获取训练样本集，所述训练样本集包括多个视频片段以及各视频片段对应的群体行为标签；

所述第一网络参数获取单元，配置为从所述群体行为识别模型移除所述强化学习网络，并基于所述训练样本对保留的所述语义关系图生成网络、所述softmax分类层进行训练，得到训练后所述语义关系图生成网络的参数，作为第一网络参数；

所述第二网络参数获取单元，配置为对所述群体行为识别模型，将所述语义关系图生成网络保持为所述第一网络参数，通过所述训练样本进行训练，获得训练后所述强化学习网络的参数，作为第二网络参数；

所述第一网络参数更新单元，配置为对所述群体行为识别模型，将所述强化学习网络的参数保持为所述第二网络参数，通过所述训练样本进行训练，获得训练后所述语义关系图生成网络的参数，更新第一网络参数；

所述第二网络参数更新单元，配置为对所述群体行为识别模型，将所述语义关系图生成网络保持为所述第一网络参数，通过所述训练样本进行训练，获得训练后所述强化学习网络的参数，更新第二网络参数；

所述迭代控制单元，配置为通过所述第一网络参数更新单元、所述第二网络参数更新单元的重复迭代，轮替地训练所述语义关系图生成网络和所述强化学习网络，直至达到预设的训练结束条件。

本发明的第五方面，提出了一种群体行为识别系统，该识别系统包括输入单元、分类单元；

所述输入单元，配置为获取待识别视频片段作为输入数据；

所述分类单元，配置为基于所述输入数据，通过训练好的群体行为识别模型获取待识别视频片段的群体行为分类信息；

本发明的第六方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于渐进式关系学习的群体行为识别模型的训练方法，或者上述的群体行为识别方法。

本发明的第七方面，提出了一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于渐进式关系学习的群体行为识别模型的训练方法，或者上述的群体行为识别方法。

本发明的有益效果：

本方发明的基于渐进式关系学习的群体行为识别模型将语义关系图生成网络、强化学习网络结合，利用深度强化学习的方法渐进式的发掘与群体相关的语义关系，有效的抑制噪声诱导的无效关系，提高了对视频片段中群体行为识别的准确度；

本发明对群体行为识别模型中语义关系图生成网络、强化学习网络进行轮替训练，使得语义关系图生成网络、强化学习网络可以在训练过程中互助提升，更有利于挖掘语义关系图中与群体行为相关的语义关系并抑制噪声诱导的语义关系；

本发明的语义关系图生成网络可以更好的模拟群体行为中复杂的相互作用关系，从而使群体行为识别模型具备了精细调整群体行为中任何特定关系重要程度的能力；

本发明突破先前在较粗的个体粒度上发掘重要个体的范式，深挖到更精细的关系粒度上，发掘与群体行为相关的语义关系并抑制噪声诱导的语义关系；

本发明首次将深度强化学习的方法引入群体行为识别的任务中，并以结构化稀疏奖励、轨迹升序奖励和类别翻转奖励三者的加权函数构建强化学习的奖励函数，使得训练后的群体行为识别模型的具有更高的识别准确度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的基于渐进式关系学习的群体行为识别模型框架示意图；

图2是本发明一种实施例中关系图的构造过程及其传播过程示意图；

图3是本发明一种实施例中强化学习网络的网络结构示意图；

图4为本发明一种实施例的基于渐进式关系学习的群体行为识别模型示例图；

图5为本发明一种实施例的基于渐进式关系学习的群体行为识别模型的训练方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明将行为视频的上下文关系显式地模拟在一个由完全图网络(Full GraphNetwork)构成的语义关系图中，并利用深度强化学习的方法渐进式的发掘与群体相关的语义关系，并抑制噪声诱导的无效关系，从而精炼语义关系图。

本发明的一种基于渐进式关系学习的群体行为识别模型，包括语义关系图生成网络、强化学习网络和softmax分类层；

本发明的一种基于渐进式关系学习的群体行为识别模型的训练方法，基于上述的基于渐进式关系学习的群体行为识别模型，其训练方法为：

为了更清晰地对本发明进行说明，下面结合附图对本发明内容分别进行展开详述。

实施例一：基于渐进式关系学习的群体行为识别模型

结合图1-图4对本实施例的基于渐进式关系学习的群体行为识别模型进行说明，本实施例的基于渐进式关系学习的群体行为识别模型如图1所示包括语义关系图生成网络、强化学习网络和softmax分类层。

1、语义关系图生成网络

语义关系图生成网络用于获取待识别视频片段的选定视频帧中个体们的语义关系图。

语义关系图生成网络中获取视频帧中个体们的语义关系图的方法为：

步骤S110，基于视频帧中个体的时空特征和个体间的交互关系，构建的初始语义关系图。

本实施例中，视频帧中个体的时空特征和个体间的交互关系的获取方法为：

步骤S101，对每个个体的空间特征(如：外貌、姿态和动作等)和时间动态特征的提取。

本实施例中空间特征的提取可以采用深度卷积网络(CNN)实现，对时间特征提取可以采用将提取的空间特征按照时序依次送入循环神经网络(RNN)实现。

步骤S102，个体间的初始交互关系可以用个体位置信息和个体对间的方向信息拼接而成的向量表示。

本实施例中，个体位置信息可以表示为表达式(1)：

个体对间的方向信息可以表示为表达式(2)：

{arctan(dy，dx)，arctan2(dy，dx)} (2)

其中，dx、dy分别是两个检测框的中心坐标在水平坐标轴上和垂直坐标轴上的位移。

个体的时空特征和个体间的交互关系除了上述的方法，还可以采用其他提取方法，现有技术中有较多成熟方案，此处不再一一描述。另外，上述的提取方法的描述仅为了方便对技术方案的理解，不能理解为对本发明技术方案的限定。

本实施例中语义关系图构建的步骤具体包括步骤S111至步骤S113：

步骤S111，将所述训练样本中个体的时空特征x_p输入全连接层，以混合个体的空间视觉特征和时间动态特征，同时起到压缩特征维度的作用，从而获取时空特征的低维嵌入h_v；

步骤S112，将所述训练样本中个体间的交互关系x_e输入全连接层，以扩展交互关系的表示维度，获取交互关系的高维嵌入h_e；

步骤S113，将步骤S111得到的时空特征的低维嵌入h_v、步骤S112得到的交互关系的高维嵌入h_e分别作为初始的节点属性和关系属性构建初始语义关系图。

该步骤中“基于步骤S110中构建的初始语义关系图中编码的上下文信息，对当前语义关系图进行更新”，为通过预设轮次迭代的语义关系图内的信息传播进行更新，每一轮更新过程为：

每一个节点从它的每一个邻居节点收集上下文信息，以节点为例，其与邻居节点的上下文信息如公式(3)所示，

其中，φ_ve为共享的收集函数，为节点与邻居节点的边。

整合函数整合收集的来自所有邻居的上下文信息，得到节点所有邻居节点上下文信息的整合如公式(4)所示，

其中，Ψ_v为整合函数，为节点邻居节点上下文信息的集合，N(v_i)为节点的邻居节点个数。

用整合后的上下文信息更新节点得到更新后的节点如公式(5)所示，

其中，φ_v为共享的节点更新函数。

步骤S122，基于步骤S121更新后的节点对上一轮更新后的语义关系图中的边进行更新，得到边对应更新后的边如公式(6)所示，

步骤S123，基于步骤S122更新后的边对上一轮更新后的语义关系图中的全局属性进行更新，得到更新后的全局属性u′如公式(7)所示，

其中，W_u和b_u分别是待学习的参数矩阵和偏置，通过训练过程进行参数优化，N_v为语义关系图中节点数目。

本实施例中步骤S120中语义关系图内的信息传播中迭代的预设轮次m为大于1的整数，本实施例中取值为3。在m次迭代过程中，第一次迭代时步骤S121中“上一轮更新后的语义关系图”为步骤S110中得到的初始语义关系图，在第二次及之后的迭代过程中为均为上一轮次更新后的语义关系图。

本实施例中初始语义关系图的构建示例如图2所示，构建前的信息包括x_e为所有个体对初始的交互关系的集合，x_p为所有个体时空特征的集合。h_e对应的交互关系的集合x_e的高维嵌入，h_v为对应的时空特征集合x_p的低纬嵌入，FC为全连接层；构建后的初始语义关系图包括节点边全局属性u，通过m轮迭代对边、节点、全局属性进行m次更新。从而获得更新后的语义关系图。

本实施例中，待识别视频片段的选定视频帧为连续的视频帧序列，或者按照设定间隔选取的视频帧序列，或者按照预设间隔规则选取的视频帧序列。

2、强化学习网络

强化学习网络用于获取所述语义关系图中各边的门控值，基于得到的各边的门控值对所述语义关系图进行门控调整。

本实施例中强化学习网络为基于马尔科夫决策过程的强化学习模型，为一种Actor-Critic框架下的强化学习模型。如图3所示，该模型包括关系池化模块、拼接模块、LSTM模块以及一系列不同的全连接层。关系池化模块是沿着关系维度的平均池化操作；拼接模块用于拼接不同源的特征；LSTM模块使得模型决策时不仅将当前观测信息而且将历史经验纳入考虑；所有的全连接模块都是用来实现不同的特征变化。强化学习模型的动作设计为给语义图中的每一个关系输出一个门控值g_ij，用该门控去自适应地关注与群体行为相关的关系并抑制那些噪声诱导的关系。

该模型的输入包括语义关系图的局部关系组状态S_l、整体关系组状态S_g、全局属性状态S_u，获取语义关系图中的每条关系对应的门控值(动作)，基于得到的各边的门控值调整语义关系图。在训练过程中该模型还输出每个动作对应的状态价值，用于与预设的奖励函数一起优化强化学习网络。局部关系组状态S_l可以由特定关系的三元组(“发送者”，“关系”，“接收者”)作为局部信息表示，即图3中所示整体关系组状态S_g可由关系图中所有的三元关系组堆叠而成的整体信息表示，即图3中(h_v，h_e，h_v)所示；关系图全局属性状态S_u可以用全局属性u来表示，即可以由关系图在当前状态的分类分数信息表示。

整体关系组状态(即图中的整体信息)S_g依次通过全连接层1、关系池化、全连接层2到达第一个拼接模块；局部关系组状态(即图中局部信息)S_l依次通过全连接层3、全连接层4到达第一个拼接模块；S_g、S_l经处理后的数据在第一个拼接模块处进行拼接，然后通过全连接层5到达第二个拼接单元，与全局属性状态(即图中分数信息)S_u经全连接层6后的数据进行拼接，拼接后的数据经全连接层7后输送至LSTM模块，并分别通过两个全连接层输出动作g_ij和状态价值

本实施例中“基于得到的各边的门控值对所述语义关系图进行门控调整”，其方法为：

基于得到的各边的门控值对各边进行门控调整，获取调整后的边如公式(8)所示，

其中为调整前节点与节点的边，g_ij为边的门控值；

基于门控调整后的边对语义关系图中全局属性进行更新，更新方法与上述的全局属性更新方法一致，此处不再赘述。

门控值用于调节边的重要程度，状态价值用来评估边对应动作的价值。

3、softmax分类层

softmax分类层，用于基于所述强化学习网络调整得到的所述待识别视频片段各选定视频帧的语义关系图，对待识别视频片段进行群体行为分类。

如图4所示，为本发明实施例的基于渐进式关系学习的群体行为识别模型示例图，以排球竞技场景视频片段作为待识别的对象，作为示例，仅选取其中左侧一队中三人进行说明：

将视频片段基于时间维度t提取多个视频帧，首先进行个体的时空特征X_p的提取和个体的交互关系X_e的提取，通过现有成熟的跟踪算法，跟踪视频帧中每个人(个体)在每帧的边界框，把边界框内容的图像送入个体的特征提取网络(CNN、LSTM)中提取每个人的时空特征x_p，其中空间视觉特征，为时间动态特征；将每个视频帧将每两个人之间的距离(Distances)和方向(Directions)信息作为初始的交互关系x_e；其中X_p共包含T个时刻视频帧的时空特征x_p，每个时刻视频帧的时空特征包含N个个人的时空特征，N为检测到的人数，图4的示例中N＝3，同理，X_e也包含T个时刻的交互关系x_e，x_e共包含N(N-1)/2条关系。

对于任一时刻视频帧，基于所有个体时空特征x_p和初始的交互关系x_e构建初始的语义关系图，基于步骤S110(即图传播，Graph Passing)获取更新后的语义关系图，并基于强化学习网络Relation-gating Agent(RG Agent)获取最终门控调整后的语义关系图。

将视频片段中各视频帧对应的最终调整后的语义关系图的全局属性相加经softmax分类层即可得到视频片段的对应各种群体行为分类的预测概率，选取最大概率对应的群体行为输出，如图4中输出的群体行为为“left pass”(左队传球)。

实施例二：基于渐进式关系学习的群体行为识别模型的训练方法

基于上述实施例的基于渐进式关系学习的群体行为识别模型，下面对本发明一种实施例的基于渐进式关系学习的群体行为识别模型的训练方法进行详细描述。

本发明实施例的基于渐进式关系学习的群体行为识别模型的训练方法，用于对上述的基于渐进式关系学习的群体行为识别模型进行训练，以获得训练后的群体行为识别模型，从而实现对视频片段中群体行为的识别分类。其具体训练方法如图5所示，包括：

步骤A100，获取训练样本集，所述训练样本集包括多个视频片段以及各视频片段对应的群体行为标签。

步骤A200，从所述群体行为识别模型移除所述强化学习网络，并基于所述训练样本对保留的所述语义关系图生成网络、所述softmax分类层进行训练，得到训练后所述语义关系图生成网络的参数，作为第一网络参数。

本步骤将上述基于渐进式关系学习的群体行为识别模型中的强化学习网络去掉，只保留语义关系生成网络和softmax分类层构成简化的群体行为识别模型，基于训练样本对该简化的群体行为识别模型进行训练，获取训练后的语义关系生成网络的参数组，作为第一网络参数。

步骤A300，对所述群体行为识别模型，将所述语义关系图生成网络保持为所述第一网络参数，通过所述训练样本进行训练，获得训练后所述强化学习网络的参数，作为第二网络参数。

本步骤的训练对象为完整的基于渐进式关系学习的群体行为识别模型，包括上述实施例中的语义关系生成网络、强化学习网络、softmax分类层，并在训练过程中将第一网络参数赋给语义关系生成网络，并保持参数不变，仅对强化学习网络进行训练，获取训练后的参数集，作为第二网络参数。

步骤A400，对所述群体行为识别模型，将所述强化学习网络的参数保持为所述第二网络参数，通过所述训练样本进行训练，获得训练后所述语义关系图生成网络的参数，更新第一网络参数。

本步骤中训练对象为完整的基于渐进式关系学习的群体行为识别模型，在训练过程中将第二网络参数赋给强化学习网络，并保持参数不变，仅对语义关系生成网络的参数进行训练，获取训练后的参数集，并以此更新第一网络参数。

步骤A500，对所述群体行为识别模型，将所述语义关系图生成网络保持为所述第一网络参数，通过所述训练样本进行训练，获得训练后所述强化学习网络的参数，更新第二网络参数。

本步骤中训练对象为完整的基于渐进式关系学习的群体行为识别模型，在训练过程中将更新后的第一网络参数赋给语义关系生成网络，并保持参数不变，仅对强化学习网络的参数进行训练，获取训练后的参数集，并以此更新第二网络参数。

本步骤中，预设的训练结束条件为预设的轮替训练轮数和/或预设的收敛条件。

本实施例中，第一网络参数包括共享的边更新函数φ_e中参数、共享的节点更新函数φ_v中的参数、收集函数φ_ve中的参数，以及用于全局属性更新的参数矩阵和偏置W_u和b_u。

本实施例中，强化学习网络为一种Actor-Critic框架下的强化学习模型，在强化学习网络的训练过程中，在获得语义关系图中各边的门控值的同时，还获取每个动作对应的状态价值，该状态价值用于与奖励函数值一起作为强化学习网络优化的依据；强化学习网络在训练过程中的奖励函数为结构化稀疏奖励、轨迹升序奖励和类别翻转奖励的加权函数，三个奖励的权重为预先设定的超参数，例如三个奖励的权重可以分别为：1/3、1/3、1/3。

结构化稀疏奖励r_sparse，可以定义为：门控矩阵G在当前步τ相对于上一步τ-1的L_2，1范数的改变量的符号的相反数，如式(9)所示，

r_sparse＝-sgn(L_2，1(G^τ)-L_2，1(G^τ-1)) (9)

门控矩阵G的L_2，1范数具体由式(10)计算，

其中，g_ij为G的第i行第j列的元素。结构化稀疏趋向于将门控矩阵的行稀疏化，从而使得网络尽可能关注少数关键的个体及其耦合的关系。

轨迹升序奖励r_ascend如式(11)所示，

其中，是第τ步时语义关系图经过所述强化学习网络门控调整后，识别模型经由softmax分类层输出的对应于真实群体行为的预测概率；

类别翻转奖励r_shift定义为：当语义关系图经过所述强化学习网络门控调整后，识别模型经由softmax分类层输出的预测类别出现由错误到正确的正翻转时，施加预设的大的正奖励Ω；当语义关系图经过所述强化学习网络门控调整后，识别模型经由softmax分类层输出的预测类别出现由正确到错误的负翻转时，施加预设的大的负奖励-Ω；其他时候，类别翻转奖励恒等于0。

在训练过程中，在构建语义关系图之前需要获取视频片段选定视频帧中个体的时空特征和个体间的交互关系并构建初始的语义关系图，获取方法可以参考前述基于渐进式关系学习的群体行为识别模型实施例中的步骤S110、步骤S120，需要说明的是，本实施例的训练方法主要为了获取训练好的第一网络参数、第二网络参数，因此优选的还可以预先获取训练样本的视频片段中个体的时空特征和交互特征以构建选定视频帧的初始语义关系图，并基于视频片段的群体行为标签以及对应视频帧的初始语义关系图集合构建新的训练样本，并基于新的训练样本对上述基于渐进式关系学习的群体行为识别模型进行训练，以避免训练过程中重复进行个体的时空特征和交互特征提取以及初始语义关系图构建，从而减少训练过程得中的计算量，提高训练效率的。

实施例三：群体行为识别方法

本发明实施例的群体行为识别方法，包括：

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的群体行为识别方法中群体行为识别模型及其训练方法的工作过程及有关说明，可以参考前述基于渐进式关系学习的群体行为识别模型、基于渐进式关系学习的群体行为识别模型的训练方法的具体实施例中的对应过程，在此不再赘述。

实施例四：基于渐进式关系学习的群体行为识别模型的训练系统

本发明实施例的一种基于渐进式关系学习的群体行为识别模型的训练系统，用于上述的基于渐进式关系学习的群体行为识别模型的训练，该系统包括训练样本获取单元、第一网络参数获取单元、第二网络参数获取单元、第一网络参数更新单元、第二网络参数更新单元、迭代控制单元；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的基于渐进式关系学习的群体行为识别模型的训练系统的具体工作过程及有关说明，可以参考前述实施例中的对应过程，在此不再赘述。

实施例五：群体行为识别系统

本发明实施例的一种群体行为识别系统，其特征在于，该识别系统包括输入单元、分类单元；

所述输入单元，配置为获取待识别视频片段作为输入数据；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的群体行为识别系统的具体工作过程及有关说明，可以参考前述实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于渐进式关系学习的群体行为识别模型的训练系统、群体行为识别系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

实施例六：存储装置

本发明施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的基于渐进式关系学习的群体行为识别模型的训练方法，或者上述的群体行为识别方法。

实施例七：处理装置

本发明实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于渐进式关系学习的群体行为识别模型的训练方法，或者上述的群体行为识别方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述实施例描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于渐进式关系学习的群体行为识别模型，其特征在于，所述群体行为识别模型包括语义关系图生成网络、强化学习网络和softmax分类层；

2.根据权利要求1所述的基于渐进式关系学习的群体行为识别模型，其特征在于，所述强化学习网络为基于马尔科夫决策过程的强化学习模型。

3.根据权利要求2所述的基于渐进式关系学习的群体行为识别模型，其特征在于，所述强化学习网络的输入包括语义关系图的局部关系组状态S_l、整体关系组状态S_g、全局属性状态S_u，获取语义关系图中的每条关系对应的门控值，并输出基于得到的各边的门控值调整后的语义关系图。

4.根据权利要求1所述的基于渐进式关系学习的群体行为识别模型，其特征在于，所述语义关系图生成网络中获取视频帧中多个个体的语义关系图的方法为：

5.根据权利要求4所述的基于渐进式关系学习的群体行为识别模型，其特征在于，步骤S110中“基于视频帧中个体的时空特征和个体间的交互关系，构建的初始的语义关系图”，其方法为：

6.根据权利要求4所述的基于渐进式关系学习的群体行为识别模型，其特征在于，步骤S120中“基于步骤S110中构建的初始语义关系图中编码的上下文信息，对当前语义关系图进行更新”，为通过预设轮次迭代的语义关系图内的信息传播进行更新，每一轮更新过程为：

其中，φ_v为共享的节点更新函数，节点为所有邻居节点上下文信息的整合，Ψ_v为整合函数，为节点邻居节点上下文信息的集合，N(v_i)为节点的邻居节点个数，为节点与邻居节点的上下文信息，φ_ve为共享的收集函数，为节点与邻居节点的边；

7.根据权利要求1-6任一项所述的基于渐进式关系学习的群体行为识别模型，其特征在于，“基于得到的各边的门控值对所述语义关系图进行门控调整”，其方法为：

基于得到的各边的门控值对各边进行门控调整，获取更新后的边其中为调整前节点与节点的边，g_ij为边的门控值；

基于门控调整后的边对语义关系图中的全局属性进行更新。

8.根据权利要求1-6任一项所述的基于渐进式关系学习的群体行为识别模型，其特征在于，所述待识别视频片段的选定视频帧为连续的视频帧序列，或者按照设定间隔选取的视频帧序列，或者按照预设间隔规则选取的视频帧序列。

9.一种基于渐进式关系学习的群体行为识别模型的训练方法，其特征在于，基于权利要求1-8任一项所述的基于渐进式关系学习的群体行为识别模型，其训练方法为：

10.根据引用权利要求6的权利要求9所述的基于渐进式关系学习的群体行为识别模型的训练方法，其特征在于，所述第一网络参数包括共享的边更新函数φ_e中参数、共享的节点更新函数φ_v中的参数、收集函数φ_ve中的参数以及用于全局属性更新的参数矩阵和偏置W_u和b_u。

11.根据权利要求9所述的基于渐进式关系学习的群体行为识别模型的训练方法，其特征在于，所述强化学习网络为一种Actor-Critic框架下的强化学习模型，除了输出门控值，还用于获取每个动作对应的状态价值；所述强化学习网络在训练过程中的奖励函数为结构化稀疏奖励、轨迹升序奖励和类别翻转奖励的加权函数；所述强化学习网络基于所述状态价值和所述奖励函数进行网络优化。

12.根据权利要求11所述的基于渐进式关系学习的群体行为识别模型的训练方法，其特征在于，

结构化稀疏奖励r_sparse为

r_sparse＝-sgn(L_2，1(G^τ)-L_2，1(G^τ-1))

轨迹升序奖励r_ascend为

13.根据权利要求9-12任一项所述的基于渐进式关系学习的群体行为识别模型的训练方法，其特征在于，步骤A600中所述的预设的训练结束条件，为预设的轮替训练轮数和/或预设的收敛条件。

14.一种群体行为识别方法，其特征在于，该方法包括：

所述群体行为识别模型为权利要求1-8任一项所述的基于渐进式关系学习的群体行为识别模型；

所述群体行为识别模型通过权利要求9-13任一项所述的基于渐进式关系学习的群体行为识别模型的训练方法进行训练。

15.一种基于渐进式关系学习的群体行为识别模型的训练系统，其特征在于，该系统用于权利要求1-8任一项所述的基于渐进式关系学习的群体行为识别模型的训练，该系统包括训练样本获取单元、第一网络参数获取单元、第二网络参数获取单元、第一网络参数更新单元、第二网络参数更新单元、迭代控制单元；

16.一种群体行为识别系统，其特征在于，该识别系统包括输入单元、分类单元；

所述输入单元，配置为获取待识别视频片段作为输入数据；

17.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求9-13任一项所述的基于渐进式关系学习的群体行为识别模型的训练方法，或者权利要求14所述的群体行为识别方法。

18.一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；其特征在于，所述程序适于由处理器加载并执行以实现权利要求9-13任一项所述的基于渐进式关系学习的群体行为识别模型的训练方法，或者权利要求14所述的群体行为识别方法。