CN108537128B - 基于视频的群体属性识别方法和装置 - Google Patents

基于视频的群体属性识别方法和装置 Download PDF

Info

Publication number
CN108537128B
CN108537128B CN201810209595.XA CN201810209595A CN108537128B CN 108537128 B CN108537128 B CN 108537128B CN 201810209595 A CN201810209595 A CN 201810209595A CN 108537128 B CN108537128 B CN 108537128B
Authority
CN
China
Prior art keywords
time
preset
video
attention
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810209595.XA
Other languages
English (en)
Other versions
CN108537128A (zh
Inventor
黄凯奇
赵鑫
李乔哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201810209595.XA priority Critical patent/CN108537128B/zh
Publication of CN108537128A publication Critical patent/CN108537128A/zh
Application granted granted Critical
Publication of CN108537128B publication Critical patent/CN108537128B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及视频图像处理技术领域,具体提供了一种基于视频的群体属性识别方法和装置,旨在解决如何提高群体属性识别的准确率的技术问题。为此目的,本发明中的基于视频的群体属性识别方法,包括下述步骤:利用预设深度神经网络获取目标视频的连续单帧图像的图像特征;利用预设卷积递归网络依次对所获取的连续单帧图像的图像特征进行序列化的编码,得到目标视频的视频特征;根据所获取的视频特征,利用预设注意力模型预测不同时刻的注意特征;根据所获取的注意特征,利用预设双向长短时记忆网络预测群体属性。通过本发明可以提高群体属性识别的准确率。

Description

基于视频的群体属性识别方法和装置
技术领域
本发明涉及视频图像处理技术领域,具体涉及一种基于视频的群体属性识别方法和装置。
背景技术
群体行为和动态属性对群体的研究有着重要的作用。理想情况下,对群体活动的分析和研究首先需要对群体或者个体进行分割,然后利用行人检测器对群体进行相应的分类,并进一步根据群体的行为轨迹建立模型进行分析。但是,这需要大量的标注和复杂的运算,在现有条件下无法实现。
群体视频属性包括背景、人群身份和人群行为三类,每类属性通常被用来描述特定的区域。群体属性之间的相关性对于属性识别来说非常重要。在其他领域,尽管有一系列基于标签相关性的属性识别方法被提出,但是这类建模方法通常关注于属性自身的语义相关性,忽略了视频时空特性和属性的相关性,因此该类方法并不适用基于视频的群体属性识别。
发明内容
为了解决现有技术中的上述问题,即为了解决如何提高群体属性识别的准确率的技术问题,本发明提供了一种基于视频的群体属性识别方法和装置。
在第一方面,本发明中的基于视频的群体属性识别方法,包括:
利用预设深度神经网络获取目标视频的连续单帧图像的图像特征:
Xt=fcnn(Mt;θcnn)
其中,所述Xt为t时刻单帧图像Mt的图像特征,且
Figure GDA0001673936570000011
所述S1和S2分别为连续单帧图像的卷积特征图的宽度和长度,所述C为所述预设深度神经网络中卷积特征图的层数;所述θcnn为所述预设深度神经网络的预设参数;
利用预设卷积递归网络依次对所述连续单帧图像的图像特征进行序列化的编码,得到所述目标视频的视频特征:
V=[v1,...,vl,...,vL]
其中,所述V为所述目标视频的视频特征,且V∈RL×C,所述L为卷积特征图空间位置的个数,且L=S1×S2
根据所获取的视频特征,利用预设注意力模型预测不同时刻的注意特征;
根据所获取的注意特征,利用预设双向长短时记忆网络预测群体属性:
Figure GDA0001673936570000021
其中,所述
Figure GDA0001673936570000022
为在k时刻预测的群体属性类别,所述Uk和nk分别为分类器的参数,所述
Figure GDA0001673936570000023
为前向LSTM在k时刻的隐层表达,所述
Figure GDA0001673936570000024
为反向LSTM在k时刻的隐层表达,所述
Figure GDA0001673936570000025
为所述预设双向长短时记忆网络在k时刻的特征融合;所述预设双向长短时记忆网络为:
Figure GDA0001673936570000026
其中,所述
Figure GDA0001673936570000027
为前向LSTM在k时刻的输入,所述
Figure GDA0001673936570000028
为反向LSTM在k时刻的输入,所述
Figure GDA0001673936570000029
为前向LSTM在k-1时刻的隐层表达,所述
Figure GDA00016739365700000210
为反向LSTM在k-1时刻的隐层表达。
优选地,所述方法中“利用预设深度神经网络获取目标视频的连续单帧图像的图像特征”的步骤具体包括:
将所述目标视频分解成连续单帧图像;
利用所述预设深度神经网络从所获取的连续单帧图像中,获取连续单帧图像的图像特征。
优选地,所述方法中“根据所获取的视频特征,利用预设注意力模型预测不同时刻的注意特征”的步骤具体包括:
根据预设双向长短时记忆网络的隐层特征和视频特征获取注意力系数:
αk=Φatt(V,hk-1)
其中,函数Φatt的计算公式为:
Figure GDA0001673936570000031
其中,所述αk为注意力系数,所述jk为中间的计算结果,所述Ev、Es和Ee为相应的线性操作的权重,所述dv和de表示相应的偏置,所述hk-1为所述双向长短时记忆网络的隐层特征;
根据所获取的注意力系数和视频特征,利用预设注意力模型预测不同时刻的注意特征:
Figure GDA0001673936570000032
优选地,所述预设卷积递归网络包括隐藏层和记忆单元,所述预设卷积递归网络的更新策略为:
It=σ(Wxi*Xt+Whi*Ht-1+bi)
Ft=σ(Wxf*Xt+Whf*Ht-1+bf)
Ot=σ(Wxo*Xt+Who*Ht-1+bo)
Gt=tanh(Wxg*Xt+Whg*Ht-1+bg)
Ct=Ft⊙Ct-1+It⊙Gt
Ht=Ot⊙tanhCt
其中,所述Xt为t时刻单帧图像的图像特征,所述It、Ft、Ot和Gt分别表示预设卷积递归网络t时刻的门函数,所述Wxi、Wxf、Wxo、Wxg、Whi、Whf、Who和Whg为二维的卷积核,所述bi、bf、bo和bg为相应的偏置项,所述Ht为t时刻的隐层特征,所述Ct为t时刻记忆单元,所述σ表示sigmoid激活函数,所述*表示卷积操作,所述⊙表示点乘。
在第二方面,本发明中的基于视频的群体属性识别装置包括:
第一获取模块,配置为利用预设深度神经网络获取目标视频的连续单帧图像的图像特征:
Xt=fcnn(Mt;θcnn)
其中,所述Xt为t时刻单帧图像Mt的图像特征,且
Figure GDA0001673936570000041
所述S1和S2分别为连续单帧图像的卷积特征图的宽度和长度,所述C为所述预设深度神经网络中卷积特征图的层数;所述θcnn为所述预设深度神经网络的预设参数;
第二获取模块,配置为利用预设卷积递归网络依次对所述第一获取模块所获取的连续单帧图像的图像特征进行序列化的编码,得到所述目标视频的视频特征:
V=[v1,...,vl,...,vL]
其中,所述V为所述目标视频的视频特征,且V∈RL×C,所述L为卷积特征图空间位置的个数,且L=S1×S2
注意特征计算模块,配置为根据所述第二获取模块所获取的视频特征,利用预设注意力模型预测不同时刻的注意特征;
群体属性预测模块,配置为根据所述注意特征计算模块所获取的注意特征,利用预设双向长短时记忆网络预测群体属性:
Figure GDA0001673936570000042
其中,所述
Figure GDA0001673936570000051
为在k时刻预测的群体属性类别,所述Uk和nk分别为预设分类器的参数,所述
Figure GDA0001673936570000052
为前向LSTM在k时刻的隐层表达,所述
Figure GDA0001673936570000053
为反向LSTM在k时刻的隐层表达,所述
Figure GDA0001673936570000054
为所述预设双向长短时记忆网络在k时刻的特征融合;所述预设双向长短时记忆网络为:
Figure GDA0001673936570000055
其中,所述
Figure GDA0001673936570000056
为前向LSTM在k时刻的输入,所述
Figure GDA0001673936570000057
为反向LSTM在k时刻的输入,所述
Figure GDA0001673936570000058
为前向LSTM在k-1时刻的隐层表达,所述
Figure GDA0001673936570000059
为反向LSTM在k-1时刻的隐层表达。
优选地,所述第一获取模块包括分解单元和第一获取单元;
所述分解单元,配置为将所述目标视频分解成连续单帧图像;
所述第一获取单元,配置为利用所述预设深度神经网络从所述分解单元所获取的连续单帧图像中,获取连续单帧图像的图像特征。
优选地,所述注意特征计算模块包括注意力系数获取单元和注意特征计算单元;
所述注意力系数获取单元,配置为根据预设双向长短时记忆网络的隐层特征和视频特征获取注意力系数:
αk=Φatt(V,hk-1)
其中,函数Φatt的计算公式为:
Figure GDA00016739365700000510
其中,所述αk为注意力系数,所述jk为中间的计算结果,所述Ev、Es和Ee为相应的线性操作的权重,所述dv和de表示相应的偏置,所述hk-1为所述双向长短时记忆网络的隐层特征;
所述注意特征计算单元,配置为根据所述视频特征和所述注意力系数获取单元所获取的注意力系数,利用预设注意力模型预测不同时刻的注意特征:
Figure GDA0001673936570000061
在第三方面,本发明中的存储装置,其中存储有多条程序,适用于由处理器加载并执行以实现上述技术方案所述的基于视频的群体属性识别方法。
在第四方面,本发明中的处理装置,包括
处理器,适于执行各条程序;以及
存储设备,适于存储多条程序;
所述程序适于由处理器加载并执行以实现上述技术方案所述的基于视频的群体属性识别方法。
与最接近的现有技术相比,上述技术方案至少具有以下有益效果:
本发明的基于视频的群体属性识别方法中,利用预设卷积递归网络对所获取的连续的单帧图像特征进行序列化的编码可以有效的提取视频的时空信息,也可以有效的刻画视频局部的空间拓扑关系和长时间的动态变化,从而可以得到有效的视频表达,提升群体属性预测的准确率;利用预设双向长短时记忆网络预测群体属性,可以对群里场景的时空特征和语义属性的上下文关系进行有效的描述,从而提升属性预测的准确率。
附图说明
图1是本发明实施例的基于视频的群体属性识别方法的主要步骤示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
下面结合附图,对本发明实施例中基于视频的群体属性识别方法进行说明。
参阅附图1,图1示例性的示出了本发明实施例的基于视频的群体属性识别方法的主要步骤。如图1所示,本实施例中基于视频的群体属性识别方法可以包括步骤S1、步骤S2、步骤S3和步骤S4。
步骤S1,利用预设深度神经网络获取目标视频的连续单帧图像的图像特征,如下式(1)所示:
Xt=fcnn(Mt;θcnn) (1)
其中,Xt为t时刻单帧图像Mt的图像特征,且
Figure GDA0001673936570000071
S1和S2分别为连续单帧图像的图像特征的宽度和长度,C为预设深度神经网络中卷积层的层数;θcnn为预设深度神经网络的预设参数,包括预设深度神经网络每一层的卷积核和偏置项。通过该步骤可以得到连续帧的图像特征卷积图的序列表示Ω={X1,X2,...,XT}。
进一步地,本实施例中步骤S1可以包括步骤S11和步骤S12。
步骤S11,将目标视频分解成连续单帧图像。
步骤S12,利用预设深度神经网络从所获取的连续单帧图像中,获取连续单帧图像的图像特征。
步骤S2,利用预设卷积递归网络依次对连续单帧图像的图像特征进行序列化的编码,即按照公式(3)进行编码,得到目标视频的视频特征,如下式(2)所示:
V=[v1,...,vl,...,vL] (2)
其中,V为整段视频的特征表达,且V∈RL×C,L为空间的位置个数,且L=S1×S2。每一个位置都有经过时空编码的特征表达。
Figure GDA0001673936570000081
具体地,本实施例中预设卷积递归网络包括隐藏层(hidden state of therecurrent network)和记忆单元,在每一时刻,当给定输入Xt,预设卷积递归网络的更新策略如下式(3)所示:
Xt为t时刻单帧图像的图像特征,It、Ft、Ot和Gt分别表示预设卷积递归网络t时刻的门函数,Wxi、Wxf、Wxo、Wxg、Whi、Whf、Who和Whg为二维的卷积核,bi、bf、bo和bg为相应的偏置项,Ht为t时刻隐层特征,Ct为t时刻记忆单元,σ表示sigmoid激活函数,*表示卷积操作,⊙表示点乘。预设卷积递归网络最后时刻的隐层特征用来表征整段视频。
本实施例中在预测群体属性的每一步,都需要计算相应的注意特征。通过和产生的注意力系数加权求和,得到当前时刻的注意特征。在预测不同子类别属性的时候,都需要计算一次注意力系数。
步骤S3,根据所获取的视频特征,利用预设注意力模型预测不同时刻的注意特征;
进一步地,本实施例中步骤S3可以包括步骤S31和步骤S32。
步骤S31,根据预设双向长短时记忆网络的隐层特征和视频特征获取注意力系数,如下式(4)所示:
αk=Φatt(V,hk-1) (4)
其中,每一步中注意力系数由前一步预设双向长短期记忆网络的隐层特征hk-1和视频特征V共同决定。函数Φatt的计算公式如下式(5)所示:
Figure GDA0001673936570000091
其中,αk为注意力系数,jk为中间的计算结果,Ev、Es和Ee为相应的线性操作的权重,dv和de表示相应的偏置,hk-1为双向长短时记忆网络的隐层特征。
通常情况下,如果当前位置和属性有着较强的对应关系时,预设注意力模型就会为它分配较大的权重。注意力系数是通过softmax函数归一化的。当计算得出注意力系数αk时,可以通过计算求出当前时刻的注意特征。
步骤S32,根据所获取的注意力系数和视频特征,利用预设注意力模型预测不同预设时刻的注意特征,如下式(6)所示:
Figure GDA0001673936570000092
注意特征可以描述不同时刻属性和时空关系的对应关系。
可以通过预设双向长短时记忆网络来实现群体属性的序列化预测。通过注意力机制的计算的注意特征用来作为预设双向长短时记忆网络的输入,并更新该网络的状态。对于单向的长短时记忆网络,当给出每一步的注意特征时,单向的长短时记忆网络的更新策略如下式(7)所示:
Figure GDA0001673936570000093
其中,zk为公式(6)计算得到的注意特征,ik、fk、ok和gk分别表示预设卷积递归网络在k时刻的门函数,qzi、qzf、qzo、qzg、qhi、qhf、qho和qhg为全连接的权重系数,pi、pf、po和pg为相应的偏置项,hk为k时刻的隐层特征,ck为k时刻的记忆单元,σ表示sigmoid激活函数,⊙表示点乘。
为了更好的描述属性和时空特性的对应关系,双向的序列化预测模型被建立。双向长短时记忆网络的实现方法和单向的长短时记忆网络的实现方法类似。区别在于双向长短时记忆网络通过相反的顺序来融合注意特征。
双向网络中的任意一条流中的注意力系数和注意特征的计算方式都需要用公式(4)-(7)计算。
步骤S4,依据所获取的注意特征,利用预设双向长短时记忆网络预测群体属性,如下式(8)所示:
Figure GDA0001673936570000101
其中,
Figure GDA0001673936570000102
为在k时刻预测的群体属性类别,Uk和nk分别为分类器的参数,
Figure GDA0001673936570000103
为前向LSTM在k时刻的隐层表达,
Figure GDA0001673936570000104
为反向LSTM在k时刻的隐层表达,
Figure GDA0001673936570000105
为预设双向长短时记忆网络在k时刻的隐层表达的拼接;预设视频属性预测模型如下式(9)所示:
Figure GDA0001673936570000106
其中,
Figure GDA0001673936570000107
为前向LSTM在k时刻的输入,
Figure GDA0001673936570000108
为反向LSTM在k时刻的输入,所述
Figure GDA0001673936570000109
为前向LSTM在k-1时刻的隐层表达,所述
Figure GDA00016739365700001010
为反向LSTM在k-1时刻的隐层表达。整个网络通过端到端的方式来训练,整个网络为所有的网络部件组成的一个大网络,包括所有可训练的参数。
基于与基于视频的群体属性识别方法实施例相同的技术构思,本发明实施例还提供了一种基于视频的群体属性识别装置。下面对该基于视频的群体属性识别装置进行具体说明。
本实施中基于视频的群体属性识别装置还可以包括第一获取模块、第二获取模块、注意特征计算模块和群体属性预测模块。
其中,第一获取模块可以配置为利用预设深度神经网络获取目标视频的连续单帧图像的图像特征,如公式(1)所示。
进一步地,本实施例中第一获取模块可以包括分解单元和第一获取单元。
其中,分解单元可以配置为将目标视频分解成连续单帧图像。
第一获取单元可以配置为利用预设深度神经网络从分解单元所获取的连续单帧图像中,获取连续单帧图像的图像特征,如公式(1)所示。
第二获取模块可以配置为利用预设卷积递归网络对第一获取模块所获取的连续单帧图像的图像特征进行序列化的编码,得到目标视频的视频特征,如公式(2)所示。
注意特征计算模块可以配置为依据第二获取模块所获取的视频特征,利用预设注意力模型预测不同时刻的注意特征。
进一步地,本实施例中注意特征计算模块包括注意力系数获取单元和注意特征计算单元。
其中,注意力系数获取单元可以配置为根据预设双向长短时记忆网络中的任意一向长短时记忆网络的隐层特征和视频特征获取注意力系数,如公式(4)-(5)所示。
注意特征计算单元可以配置为根据视频特征和注意力系数获取单元所获取的注意力系数,利用预设注意力模型预测不同时刻的注意特征,如公式(6)所示。
群体属性预测模块可以配置为根据注意特征计算模块所获取的注意特征,利用预设双向长短时记忆网络预测群体属性,如公式(8)所示;其中,预设双向长短时记忆网络如公式(9)所示。
上述基于视频的群体属性识别方法的实施例,其技术原理、所解决的技术问题及产生的技术效果相似,所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的基于视频的群体属性识别装置的具体工作过程及有关说明,可以参考前述基于视频的群体属性识别方法,在此不再赘述。
本领域技术人员可以理解,上述基于视频的群体属性识别方法还包括一些其他公知结构,例如处理器、控制器、存储器等,其中,存储器包括但不限于随机存储器、闪存、只读存储器、可编程只读存储器、易失性存储器、非易失性存储器、串行存储器、并行存储器或寄存器等,处理器包括但不限于CPLD/FPGA、DSP、ARM处理器、MIPS处理器等,为了不必要地模糊本公开的实施例,这些公知的结构未示出。
本领域技术人员可以理解,可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
基于上述基于视频的群体属性识别方法的实施例,本发明还提供了一种存储装置。本实施例中存储装置中存储有多条程序,该程序适用于由处理器加载并执行以实现上述基于视频的群体属性识别方法。
基于上述基于视频的群体属性识别方法的实施例,本发明还提供了一种处理装置。本实施例中处理装置可以包括处理器和存储设备。其中,处理器适于执行各条程序,存储设备适于存储多条程序,并且这些程序适于由处理器加载并执行以实现上述基于视频的群体属性识别方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述基于视频的群体属性识别方法实施例中的对应过程,在此不再赘述。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的服务器、客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,PC程序和PC程序产品)。这样的实现本发明的程序可以存储在PC可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在本发明的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的PC来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (8)

1.一种基于视频的群体属性识别方法,其特征在于,所述方法包括:
利用预设深度神经网络获取目标视频的连续单帧图像的图像特征:
Xt=fcnn(Mt;θcnn)
其中,所述Xt为t时刻单帧图像Mt的图像特征,且
Figure FDA0002496442390000016
所述S1和S2分别为连续单帧图像的卷积特征图的宽度和长度,所述C为所述预设深度神经网络中卷积特征图的层数;所述θcnn为所述预设深度神经网络的预设参数;
利用预设卷积递归网络依次对所述连续单帧图像的图像特征进行序列化的编码,得到所述目标视频的视频特征:
V=[v1,...,vl,...,vL]
其中,所述V为所述目标视频的视频特征,且V∈RL×C,所述L为卷积特征图空间位置的个数,且L=S1×S2
根据所获取的视频特征,利用预设注意力模型预测不同时刻的注意特征;
根据所获取的注意特征,利用预设双向长短时记忆网络预测群体属性:
Figure FDA0002496442390000011
其中,所述
Figure FDA0002496442390000012
为在k时刻预测的群体属性类别,所述Uk和nk分别为预设分类器的参数,所述
Figure FDA0002496442390000013
为前向LSTM在k时刻的隐层表达,所述
Figure FDA0002496442390000014
为反向LSTM在k时刻的隐层表达,所述
Figure FDA0002496442390000015
为所述预设双向长短时记忆网络在k时刻的特征融合;所述预设双向长短时记忆网络为:
Figure FDA0002496442390000021
其中,所述
Figure FDA0002496442390000022
为前向LSTM在k时刻的输入,所述
Figure FDA0002496442390000023
为反向LSTM在k时刻的输入,所述
Figure FDA0002496442390000024
为前向LSTM在k-1时刻的隐层表达,所述
Figure FDA0002496442390000025
为反向LSTM在k-1时刻的隐层表达;
其中,所述预设卷积递归网络包括隐藏层和记忆单元,所述预设卷积递归网络的更新策略为:
Figure FDA0002496442390000026
其中,所述Xt为t时刻单帧图像的图像特征,所述It、Ft、Ot和Gt分别表示预设卷积递归网络t时刻的门函数,所述Wxi、Wxf、Wxo、Wxg、Whi、Whf、Who和Whg为二维的卷积核,所述bi、bf、bo和bg为相应的偏置项,所述Ht为t时刻的隐层特征,所述Ct为t时刻的记忆单元,所述σ表示sigmoid激活函数,所述*表示卷积操作,所述⊙表示点乘。
2.根据权利要求1所述的基于视频的群体属性识别方法,其特征在于,所述方法中“利用预设深度神经网络获取目标视频的连续单帧图像的图像特征”的步骤具体包括:
将所述目标视频分解成连续单帧图像;
利用所述预设深度神经网络从所获取的连续单帧图像中,获取连续单帧图像的图像特征。
3.根据权利要求1所述的基于视频的群体属性识别方法,其特征在于,所述方法中“根据所获取的视频特征,利用预设注意力模型预测不同时刻的注意特征”的步骤具体包括:
根据预设双向长短时记忆网络的隐层特征和视频特征获取注意力系数:
αk=Φatt(V,hk-1)
其中,函数Φatt的计算公式为:
Figure FDA0002496442390000031
其中,所述αk为注意力系数,所述jk为中间的计算结果,所述Ev、Es和Ee为相应的线性操作的权重,所述dv和de表示相应的偏置,所述hk-1为所述双向长短时记忆网络的隐层特征;
根据所获取的注意力系数和视频特征,利用预设注意力模型预测不同时刻的注意特征:
Figure FDA0002496442390000032
4.一种基于视频的群体属性识别装置,其特征在于,所述装置包括:
第一获取模块,配置为利用预设深度神经网络获取目标视频的连续单帧图像的图像特征:
Xt=fcnn(Mt;θcnn)
其中,所述Xt为t时刻单帧图像Mt的图像特征,且
Figure FDA0002496442390000033
所述S1和S2分别为连续单帧图像的卷积特征图的宽度和长度,所述C为所述预设深度神经网络中卷积特征图的层数;所述θcnn为所述预设深度神经网络的预设参数;
第二获取模块,配置为利用预设卷积递归网络依次对所述第一获取模块所获取的连续单帧图像的图像特征进行序列化的编码,得到所述目标视频的视频特征:
V=[v1,...,vl,...,vL]
其中,所述V为所述目标视频的视频特征,且V∈RL×C,所述L为卷积特征图空间位置的个数,且L=S1×S2
注意特征计算模块,配置为根据所述第二获取模块所获取的视频特征,利用预设注意力模型预测不同时刻的注意特征;
群体属性预测模块,配置为根据所述注意特征计算模块所获取的注意特征,利用预设双向长短时记忆网络预测群体属性:
Figure FDA0002496442390000041
其中,所述
Figure FDA0002496442390000042
为在k时刻预测的群体属性类别,所述Uk和nk分别为预设分类器的参数,所述
Figure FDA0002496442390000043
为前向LSTM在k时刻的隐层表达,所述
Figure FDA0002496442390000044
为反向LSTM在k时刻的隐层表达,所述
Figure FDA0002496442390000045
为所述预设双向长短时记忆网络在k时刻的特征融合;所述预设双向长短时记忆网络为:
Figure FDA0002496442390000046
其中,所述
Figure FDA0002496442390000047
为前向LSTM在k时刻的输入,所述
Figure FDA0002496442390000048
为反向LSTM在k时刻的输入,所述
Figure FDA0002496442390000049
为前向LSTM在k-1时刻的隐层表达,所述
Figure FDA00024964423900000410
为反向LSTM在k-1时刻的隐层表达;
其中,所述预设卷积递归网络包括隐藏层和记忆单元,所述预设卷积递归网络的更新策略为:
Figure FDA0002496442390000051
其中,所述Xt为t时刻单帧图像的图像特征,所述It、Ft、Ot和Gt分别表示预设卷积递归网络t时刻的门函数,所述Wxi、Wxf、Wxo、Wxg、Whi、Whf、Who和Whg为二维的卷积核,所述bi、bf、bo和bg为相应的偏置项,所述Ht为t时刻的隐层特征,所述Ct为t时刻的记忆单元,所述σ表示sigmoid激活函数,所述*表示卷积操作,所述⊙表示点乘。
5.根据权利要求4所述的群体属性识别装置,其特征在于,所述第一获取模块包括分解单元和第一获取单元;
所述分解单元,配置为将所述目标视频分解成连续单帧图像;
所述第一获取单元,配置为利用所述预设深度神经网络从所述分解单元所获取的连续单帧图像中,获取连续单帧图像的图像特征。
6.根据权利要求4所述的群体属性识别装置,其特征在于,所述注意特征计算模块包括注意力系数获取单元和注意特征计算单元;
所述注意力系数获取单元,配置为根据预设双向长短时记忆网络中的任意一向长短时记忆网络的隐层特征和视频特征获取注意力系数:
αk=Φatt(V,hk-1)
其中,函数Φatt的计算公式为:
Figure FDA0002496442390000061
其中,所述αk为注意力系数,所述jk为中间的计算结果,所述Ev、Es和Ee为相应的线性操作的权重,所述dv和de表示相应的偏置,所述hk-1为所述双向长短时记忆网络的隐层特征;
所述注意特征计算单元,配置为根据所述视频特征和所述注意力系数获取单元所获取的注意力系数,利用预设注意力模型预测不同时刻的注意特征:
Figure FDA0002496442390000062
7.一种存储装置,其中存储有多条程序,其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-3任一项所述的基于视频的群体属性识别方法。
8.一种处理装置,包括
处理器,适于执行各条程序;以及
存储设备,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:权利要求1-3任一项所述的基于视频的群体属性识别方法。
CN201810209595.XA 2018-03-14 2018-03-14 基于视频的群体属性识别方法和装置 Active CN108537128B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810209595.XA CN108537128B (zh) 2018-03-14 2018-03-14 基于视频的群体属性识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810209595.XA CN108537128B (zh) 2018-03-14 2018-03-14 基于视频的群体属性识别方法和装置

Publications (2)

Publication Number Publication Date
CN108537128A CN108537128A (zh) 2018-09-14
CN108537128B true CN108537128B (zh) 2020-09-22

Family

ID=63483957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810209595.XA Active CN108537128B (zh) 2018-03-14 2018-03-14 基于视频的群体属性识别方法和装置

Country Status (1)

Country Link
CN (1) CN108537128B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109493166B (zh) * 2018-10-23 2021-12-28 深圳智能思创科技有限公司 一种针对电子商务导购场景任务型对话系统的构建方法
CN110175425B (zh) * 2019-05-31 2023-02-21 重庆大学 一种基于mmalstm的齿轮剩余寿命的预测方法
CN113704511B (zh) * 2021-07-30 2022-11-22 北京达佳互联信息技术有限公司 多媒体资源的推荐方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11055537B2 (en) * 2016-04-26 2021-07-06 Disney Enterprises, Inc. Systems and methods for determining actions depicted in media contents based on attention weights of media content frames
US11409791B2 (en) * 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
CN106709461B (zh) * 2016-12-28 2019-09-17 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
CN107609460B (zh) * 2017-05-24 2021-02-02 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法

Also Published As

Publication number Publication date
CN108537128A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
Lu et al. Few-shot scene-adaptive anomaly detection
CN110073369B (zh) 时间差分模型的无监督学习技术
CN108537128B (zh) 基于视频的群体属性识别方法和装置
CN111506820B (zh) 推荐模型、方法、装置、设备及存储介质
CN112000819A (zh) 多媒体资源推荐方法、装置、电子设备及存储介质
Kumar et al. ESUMM: event summarization on scale-free networks
Połap et al. Is the colony of ants able to recognize graphic objects?
Wang et al. Multi-objective path finding in stochastic networks using a biogeography-based optimization method
Bilal et al. A transfer learning-based efficient spatiotemporal human action recognition framework for long and overlapping action classes
Xiao et al. Anomaly detection via local coordinate factorization and spatio-temporal pyramid
CN111052128A (zh) 用于检测和定位视频中的对象的描述符学习方法
Roqueiro et al. Counting people using video cameras
CN113868466A (zh) 视频推荐的方法、装置、设备和存储介质
Kumaran et al. Classification of human activity detection based on an intelligent regression model in video sequences
Yadav et al. Implicit regularization of a deep augmented neural network model for human motion prediction
Uzun et al. Deep learning based classification of time series of chaotic systems over graphic images
Cho et al. An image generation approach for traffic density classification at large-scale road network
Kao et al. An efficient and resource-aware hashtag recommendation using deep neural networks
Sivanandam et al. A novel light GBM-optimized long short-term memory for enhancing quality and security in web service recommendation system
Singh et al. Chaotic whale-atom search optimization-based deep stacked auto encoder for crowd behaviour recognition
Shatnawi et al. Memory-Based Bees Algorithm with Lévy Flights for Multilevel Image Thresholding
Xu et al. Deep Neural Network‐Based Sports Marketing Video Detection Research
Aljuaid et al. Postures anomaly tracking and prediction learning model over crowd data analytics
Vo et al. Regression-aware classification feature for pedestrian detection and tracking in video surveillance systems
Sudhakar et al. Video super resolution using non-linear regression and deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant