CN108537128B

CN108537128B - 基于视频的群体属性识别方法和装置

Info

Publication number: CN108537128B
Application number: CN201810209595.XA
Authority: CN
Inventors: 黄凯奇; 赵鑫; 李乔哲
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2020-09-22
Anticipated expiration: 2038-03-14
Also published as: CN108537128A

Abstract

本发明涉及视频图像处理技术领域，具体提供了一种基于视频的群体属性识别方法和装置，旨在解决如何提高群体属性识别的准确率的技术问题。为此目的，本发明中的基于视频的群体属性识别方法，包括下述步骤：利用预设深度神经网络获取目标视频的连续单帧图像的图像特征；利用预设卷积递归网络依次对所获取的连续单帧图像的图像特征进行序列化的编码，得到目标视频的视频特征；根据所获取的视频特征，利用预设注意力模型预测不同时刻的注意特征；根据所获取的注意特征，利用预设双向长短时记忆网络预测群体属性。通过本发明可以提高群体属性识别的准确率。

Description

基于视频的群体属性识别方法和装置

技术领域

本发明涉及视频图像处理技术领域，具体涉及一种基于视频的群体属性识别方法和装置。

背景技术

群体行为和动态属性对群体的研究有着重要的作用。理想情况下，对群体活动的分析和研究首先需要对群体或者个体进行分割，然后利用行人检测器对群体进行相应的分类，并进一步根据群体的行为轨迹建立模型进行分析。但是，这需要大量的标注和复杂的运算，在现有条件下无法实现。

群体视频属性包括背景、人群身份和人群行为三类，每类属性通常被用来描述特定的区域。群体属性之间的相关性对于属性识别来说非常重要。在其他领域，尽管有一系列基于标签相关性的属性识别方法被提出，但是这类建模方法通常关注于属性自身的语义相关性，忽略了视频时空特性和属性的相关性，因此该类方法并不适用基于视频的群体属性识别。

发明内容

为了解决现有技术中的上述问题，即为了解决如何提高群体属性识别的准确率的技术问题，本发明提供了一种基于视频的群体属性识别方法和装置。

在第一方面，本发明中的基于视频的群体属性识别方法，包括：

利用预设深度神经网络获取目标视频的连续单帧图像的图像特征：

X_t＝f_cnn(M_t；θcnn)

其中，所述X_t为t时刻单帧图像M_t的图像特征，且

所述S₁和S₂分别为连续单帧图像的卷积特征图的宽度和长度，所述C为所述预设深度神经网络中卷积特征图的层数；所述θ_cnn为所述预设深度神经网络的预设参数；

利用预设卷积递归网络依次对所述连续单帧图像的图像特征进行序列化的编码，得到所述目标视频的视频特征：

V＝[v₁,...,v_l,...,v_L]

其中，所述V为所述目标视频的视频特征，且V∈R^L×C，所述L为卷积特征图空间位置的个数，且L＝S₁×S₂；

根据所获取的视频特征，利用预设注意力模型预测不同时刻的注意特征；

根据所获取的注意特征，利用预设双向长短时记忆网络预测群体属性：

其中，所述

为在k时刻预测的群体属性类别，所述U_k和n_k分别为分类器的参数，所述

为前向LSTM在k时刻的隐层表达，所述

为反向LSTM在k时刻的隐层表达，所述

为所述预设双向长短时记忆网络在k时刻的特征融合；所述预设双向长短时记忆网络为：

其中，所述

为前向LSTM在k时刻的输入，所述

为反向LSTM在k时刻的输入，所述

为前向LSTM在k-1时刻的隐层表达，所述

为反向LSTM在k-1时刻的隐层表达。

优选地，所述方法中“利用预设深度神经网络获取目标视频的连续单帧图像的图像特征”的步骤具体包括：

将所述目标视频分解成连续单帧图像；

利用所述预设深度神经网络从所获取的连续单帧图像中，获取连续单帧图像的图像特征。

优选地，所述方法中“根据所获取的视频特征，利用预设注意力模型预测不同时刻的注意特征”的步骤具体包括：

根据预设双向长短时记忆网络的隐层特征和视频特征获取注意力系数：

α_k＝Φ_att(V,h_k-1)

其中，函数Φ_att的计算公式为：

其中，所述α_k为注意力系数，所述j_k为中间的计算结果，所述E_v、E_s和E_e为相应的线性操作的权重，所述d_v和d_e表示相应的偏置，所述h_k-1为所述双向长短时记忆网络的隐层特征；

根据所获取的注意力系数和视频特征，利用预设注意力模型预测不同时刻的注意特征：

优选地，所述预设卷积递归网络包括隐藏层和记忆单元，所述预设卷积递归网络的更新策略为：

I_t＝σ(W_xi*X_t+W_hi*H_t-1+b_i)

F_t＝σ(W_xf*X_t+W_hf*H_t-1+b_f)

O_t＝σ(W_xo*X_t+W_ho*H_t-1+b_o)

G_t＝tanh(W_xg*X_t+W_hg*H_t-1+b_g)

C_t＝F_t⊙C_t-1+I_t⊙G_t

H_t＝O_t⊙tanhC_t

其中，所述X_t为t时刻单帧图像的图像特征，所述I_t、F_t、O_t和G_t分别表示预设卷积递归网络t时刻的门函数，所述W_xi、W_xf、W_xo、W_xg、W_hi、W_hf、W_ho和W_hg为二维的卷积核，所述b_i、b_f、b_o和b_g为相应的偏置项，所述H_t为t时刻的隐层特征，所述C_t为t时刻记忆单元，所述σ表示sigmoid激活函数，所述*表示卷积操作，所述⊙表示点乘。

在第二方面，本发明中的基于视频的群体属性识别装置包括：

第一获取模块，配置为利用预设深度神经网络获取目标视频的连续单帧图像的图像特征：

X_t＝f_cnn(M_t；θ_cnn)

其中，所述X_t为t时刻单帧图像M_t的图像特征，且

第二获取模块，配置为利用预设卷积递归网络依次对所述第一获取模块所获取的连续单帧图像的图像特征进行序列化的编码，得到所述目标视频的视频特征：

V＝[v₁,...,v_l,...,v_L]

注意特征计算模块，配置为根据所述第二获取模块所获取的视频特征，利用预设注意力模型预测不同时刻的注意特征；

群体属性预测模块，配置为根据所述注意特征计算模块所获取的注意特征，利用预设双向长短时记忆网络预测群体属性：

其中，所述

为在k时刻预测的群体属性类别，所述U_k和n_k分别为预设分类器的参数，所述

为前向LSTM在k时刻的隐层表达，所述

为反向LSTM在k时刻的隐层表达，所述

其中，所述

为前向LSTM在k时刻的输入，所述

为反向LSTM在k时刻的输入，所述

为前向LSTM在k-1时刻的隐层表达，所述

为反向LSTM在k-1时刻的隐层表达。

优选地，所述第一获取模块包括分解单元和第一获取单元；

所述分解单元，配置为将所述目标视频分解成连续单帧图像；

所述第一获取单元，配置为利用所述预设深度神经网络从所述分解单元所获取的连续单帧图像中，获取连续单帧图像的图像特征。

优选地，所述注意特征计算模块包括注意力系数获取单元和注意特征计算单元；

所述注意力系数获取单元，配置为根据预设双向长短时记忆网络的隐层特征和视频特征获取注意力系数：

α_k＝Φ_att(V,h_k-1)

其中，函数Φ_att的计算公式为：

所述注意特征计算单元，配置为根据所述视频特征和所述注意力系数获取单元所获取的注意力系数，利用预设注意力模型预测不同时刻的注意特征：

在第三方面，本发明中的存储装置，其中存储有多条程序，适用于由处理器加载并执行以实现上述技术方案所述的基于视频的群体属性识别方法。

在第四方面，本发明中的处理装置，包括

处理器，适于执行各条程序；以及

存储设备，适于存储多条程序；

所述程序适于由处理器加载并执行以实现上述技术方案所述的基于视频的群体属性识别方法。

与最接近的现有技术相比，上述技术方案至少具有以下有益效果：

本发明的基于视频的群体属性识别方法中，利用预设卷积递归网络对所获取的连续的单帧图像特征进行序列化的编码可以有效的提取视频的时空信息，也可以有效的刻画视频局部的空间拓扑关系和长时间的动态变化，从而可以得到有效的视频表达，提升群体属性预测的准确率；利用预设双向长短时记忆网络预测群体属性，可以对群里场景的时空特征和语义属性的上下文关系进行有效的描述，从而提升属性预测的准确率。

附图说明

图1是本发明实施例的基于视频的群体属性识别方法的主要步骤示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

下面结合附图，对本发明实施例中基于视频的群体属性识别方法进行说明。

参阅附图1，图1示例性的示出了本发明实施例的基于视频的群体属性识别方法的主要步骤。如图1所示，本实施例中基于视频的群体属性识别方法可以包括步骤S1、步骤S2、步骤S3和步骤S4。

步骤S1，利用预设深度神经网络获取目标视频的连续单帧图像的图像特征，如下式(1)所示：

X_t＝f_cnn(M_t；θ_cnn) (1)

其中，X_t为t时刻单帧图像M_t的图像特征，且

S₁和S₂分别为连续单帧图像的图像特征的宽度和长度，C为预设深度神经网络中卷积层的层数；θ_cnn为预设深度神经网络的预设参数，包括预设深度神经网络每一层的卷积核和偏置项。通过该步骤可以得到连续帧的图像特征卷积图的序列表示Ω＝{X₁,X₂,...,X_T}。

进一步地，本实施例中步骤S1可以包括步骤S11和步骤S12。

步骤S11，将目标视频分解成连续单帧图像。

步骤S12，利用预设深度神经网络从所获取的连续单帧图像中，获取连续单帧图像的图像特征。

步骤S2，利用预设卷积递归网络依次对连续单帧图像的图像特征进行序列化的编码，即按照公式(3)进行编码，得到目标视频的视频特征，如下式(2)所示：

V＝[v₁,...,v_l,...,v_L] (2)

其中，V为整段视频的特征表达，且V∈R^L×C，L为空间的位置个数，且L＝S₁×S₂。每一个位置都有经过时空编码的特征表达。

具体地，本实施例中预设卷积递归网络包括隐藏层(hidden state of therecurrent network)和记忆单元，在每一时刻，当给定输入X_t，预设卷积递归网络的更新策略如下式(3)所示：

X_t为t时刻单帧图像的图像特征，I_t、F_t、O_t和G_t分别表示预设卷积递归网络t时刻的门函数，W_xi、W_xf、W_xo、W_xg、W_hi、W_hf、W_ho和W_hg为二维的卷积核，b_i、b_f、b_o和b_g为相应的偏置项，H_t为t时刻隐层特征，C_t为t时刻记忆单元，σ表示sigmoid激活函数，*表示卷积操作，⊙表示点乘。预设卷积递归网络最后时刻的隐层特征用来表征整段视频。

本实施例中在预测群体属性的每一步，都需要计算相应的注意特征。通过和产生的注意力系数加权求和，得到当前时刻的注意特征。在预测不同子类别属性的时候，都需要计算一次注意力系数。

步骤S3，根据所获取的视频特征，利用预设注意力模型预测不同时刻的注意特征；

进一步地，本实施例中步骤S3可以包括步骤S31和步骤S32。

步骤S31，根据预设双向长短时记忆网络的隐层特征和视频特征获取注意力系数，如下式(4)所示：

α_k＝Φ_att(V,h_k-1) (4)

其中，每一步中注意力系数由前一步预设双向长短期记忆网络的隐层特征h_k-1和视频特征V共同决定。函数Φ_att的计算公式如下式(5)所示：

其中，α_k为注意力系数，j_k为中间的计算结果，E_v、E_s和E_e为相应的线性操作的权重，d_v和d_e表示相应的偏置，h_k-1为双向长短时记忆网络的隐层特征。

通常情况下，如果当前位置和属性有着较强的对应关系时，预设注意力模型就会为它分配较大的权重。注意力系数是通过softmax函数归一化的。当计算得出注意力系数α_k时，可以通过计算求出当前时刻的注意特征。

步骤S32，根据所获取的注意力系数和视频特征，利用预设注意力模型预测不同预设时刻的注意特征，如下式(6)所示：

注意特征可以描述不同时刻属性和时空关系的对应关系。

可以通过预设双向长短时记忆网络来实现群体属性的序列化预测。通过注意力机制的计算的注意特征用来作为预设双向长短时记忆网络的输入，并更新该网络的状态。对于单向的长短时记忆网络，当给出每一步的注意特征时，单向的长短时记忆网络的更新策略如下式(7)所示：

其中，z_k为公式(6)计算得到的注意特征，i_k、f_k、o_k和g_k分别表示预设卷积递归网络在k时刻的门函数，q_zi、q_zf、q_zo、q_zg、q_hi、q_hf、q_ho和q_hg为全连接的权重系数，p_i、p_f、p_o和p_g为相应的偏置项，h_k为k时刻的隐层特征，c_k为k时刻的记忆单元，σ表示sigmoid激活函数,⊙表示点乘。

为了更好的描述属性和时空特性的对应关系，双向的序列化预测模型被建立。双向长短时记忆网络的实现方法和单向的长短时记忆网络的实现方法类似。区别在于双向长短时记忆网络通过相反的顺序来融合注意特征。

双向网络中的任意一条流中的注意力系数和注意特征的计算方式都需要用公式(4)-(7)计算。

步骤S4，依据所获取的注意特征，利用预设双向长短时记忆网络预测群体属性，如下式(8)所示：

其中，

为在k时刻预测的群体属性类别，U_k和n_k分别为分类器的参数，

为前向LSTM在k时刻的隐层表达，

为反向LSTM在k时刻的隐层表达，

为预设双向长短时记忆网络在k时刻的隐层表达的拼接；预设视频属性预测模型如下式(9)所示：

其中，

为前向LSTM在k时刻的输入，

为反向LSTM在k时刻的输入，所述

为前向LSTM在k-1时刻的隐层表达，所述

为反向LSTM在k-1时刻的隐层表达。整个网络通过端到端的方式来训练，整个网络为所有的网络部件组成的一个大网络，包括所有可训练的参数。

基于与基于视频的群体属性识别方法实施例相同的技术构思，本发明实施例还提供了一种基于视频的群体属性识别装置。下面对该基于视频的群体属性识别装置进行具体说明。

本实施中基于视频的群体属性识别装置还可以包括第一获取模块、第二获取模块、注意特征计算模块和群体属性预测模块。

其中，第一获取模块可以配置为利用预设深度神经网络获取目标视频的连续单帧图像的图像特征，如公式(1)所示。

进一步地，本实施例中第一获取模块可以包括分解单元和第一获取单元。

其中，分解单元可以配置为将目标视频分解成连续单帧图像。

第一获取单元可以配置为利用预设深度神经网络从分解单元所获取的连续单帧图像中，获取连续单帧图像的图像特征，如公式(1)所示。

第二获取模块可以配置为利用预设卷积递归网络对第一获取模块所获取的连续单帧图像的图像特征进行序列化的编码，得到目标视频的视频特征，如公式(2)所示。

注意特征计算模块可以配置为依据第二获取模块所获取的视频特征，利用预设注意力模型预测不同时刻的注意特征。

进一步地，本实施例中注意特征计算模块包括注意力系数获取单元和注意特征计算单元。

其中，注意力系数获取单元可以配置为根据预设双向长短时记忆网络中的任意一向长短时记忆网络的隐层特征和视频特征获取注意力系数，如公式(4)-(5)所示。

注意特征计算单元可以配置为根据视频特征和注意力系数获取单元所获取的注意力系数，利用预设注意力模型预测不同时刻的注意特征，如公式(6)所示。

群体属性预测模块可以配置为根据注意特征计算模块所获取的注意特征，利用预设双向长短时记忆网络预测群体属性，如公式(8)所示；其中，预设双向长短时记忆网络如公式(9)所示。

上述基于视频的群体属性识别方法的实施例，其技术原理、所解决的技术问题及产生的技术效果相似，所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的基于视频的群体属性识别装置的具体工作过程及有关说明，可以参考前述基于视频的群体属性识别方法，在此不再赘述。

本领域技术人员可以理解，上述基于视频的群体属性识别方法还包括一些其他公知结构，例如处理器、控制器、存储器等，其中，存储器包括但不限于随机存储器、闪存、只读存储器、可编程只读存储器、易失性存储器、非易失性存储器、串行存储器、并行存储器或寄存器等，处理器包括但不限于CPLD/FPGA、DSP、ARM处理器、MIPS处理器等，为了不必要地模糊本公开的实施例，这些公知的结构未示出。

本领域技术人员可以理解，可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

基于上述基于视频的群体属性识别方法的实施例，本发明还提供了一种存储装置。本实施例中存储装置中存储有多条程序，该程序适用于由处理器加载并执行以实现上述基于视频的群体属性识别方法。

基于上述基于视频的群体属性识别方法的实施例，本发明还提供了一种处理装置。本实施例中处理装置可以包括处理器和存储设备。其中，处理器适于执行各条程序，存储设备适于存储多条程序，并且这些程序适于由处理器加载并执行以实现上述基于视频的群体属性识别方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述基于视频的群体属性识别方法实施例中的对应过程，在此不再赘述。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的服务器、客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，PC程序和PC程序产品)。这样的实现本发明的程序可以存储在PC可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在本发明的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的PC来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于视频的群体属性识别方法，其特征在于，所述方法包括：

X_t＝f_cnn(M_t；θ_cnn)

其中，所述X_t为t时刻单帧图像M_t的图像特征，且

V＝[v₁,...,v_l,...,v_L]

其中，所述

为前向LSTM在k时刻的隐层表达，所述

为反向LSTM在k时刻的隐层表达，所述

其中，所述

为前向LSTM在k时刻的输入，所述

为反向LSTM在k时刻的输入，所述

为前向LSTM在k-1时刻的隐层表达，所述

为反向LSTM在k-1时刻的隐层表达；

其中，所述预设卷积递归网络包括隐藏层和记忆单元，所述预设卷积递归网络的更新策略为：

其中，所述X_t为t时刻单帧图像的图像特征，所述I_t、F_t、O_t和G_t分别表示预设卷积递归网络t时刻的门函数，所述W_xi、W_xf、W_xo、W_xg、W_hi、W_hf、W_ho和W_hg为二维的卷积核，所述b_i、b_f、b_o和b_g为相应的偏置项，所述H_t为t时刻的隐层特征，所述C_t为t时刻的记忆单元，所述σ表示sigmoid激活函数，所述*表示卷积操作，所述⊙表示点乘。

2.根据权利要求1所述的基于视频的群体属性识别方法，其特征在于，所述方法中“利用预设深度神经网络获取目标视频的连续单帧图像的图像特征”的步骤具体包括：

将所述目标视频分解成连续单帧图像；

3.根据权利要求1所述的基于视频的群体属性识别方法，其特征在于，所述方法中“根据所获取的视频特征，利用预设注意力模型预测不同时刻的注意特征”的步骤具体包括：

α_k＝Φ_att(V,h_k-1)

其中，函数Φ_att的计算公式为：