CN113255557B

CN113255557B - 一种基于深度学习的视频人群情绪分析方法及系统

Info

Publication number: CN113255557B
Application number: CN202110634734.5A
Authority: CN
Inventors: 汪知礼
Original assignee: Suzhou Youshi Psychological Consulting Technology Co ltd
Current assignee: Huijiawang Tianjin Technology Co ltd; Suzhou Youshi Psychological Consulting Technology Co ltd
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2023-08-15
Anticipated expiration: 2041-06-08
Also published as: CN113255557A

Abstract

本发明涉及一种情绪分析的技术领域，公开了一种基于深度学习的视频人群情绪分析方法，包括：获取待分析的视频流数据，利用高斯降噪方法对视频流中的每一帧图片进行降噪处理，并利用鬼影消除算法对视频帧图片进行鬼影消除处理；利用尺度自适应的人群姿态获取算法提取视频帧图片中人群的姿态特征；利用人脸检测算法检测视频帧图片的人脸，并对检测到的人脸进行裁剪，得到人脸图像；利用表情识别算法对人脸图像进行特征提取，提取到人脸表情特征；根据提取的人群姿态特征以及人脸表情特征，利用情绪识别模型对视频中人群进行情绪分析处理。本发明还提供了一种基于深度学习的视频人群情绪分析系统。本发明实现了视频中的人群情绪分析。

Description

一种基于深度学习的视频人群情绪分析方法及系统

技术领域

本发明涉及情绪识别的技术领域，尤其涉及一种基于深度学习的视频人群情绪分析方法及系统。

背景技术

随着这些年来大数据的爆发和计算能力的提升，人工智能是相对火热的一个研究方向，在计算机方面它是一个重要的领域。21世纪是属于计算机的，人们对计算机计算能力的要求也更加精细化，其逐渐变成人类生活里面必不可少的要素。随之而来的变化是人们对人机交互的迫切要求，如何利用人工智能技术实现视频中人群情绪的识别，成为当前研究领域的热门话题。

在视频序列中，各个片段之间的表情强度存在很大差异，直接去测量每一帧的容错率是很难执行并产生令人满意的结果；同时大多数情绪识别方法比较重视识别表情峰值高的图像，而忽略了细微的低强度表情，从而具有一定的识别误差。

鉴于此，如何提取视频序列中的不同情绪特征，并准确对人群情绪进行识别，成为本领域技术人员亟待解决的问题。

发明内容

本发明提供一种基于深度学习的视频人群情绪分析方法，通过利用尺度自适应的人群姿态获取算法提取人群的姿态特征，并利用人脸检测算法检测视频帧画面的人脸图像，利用表情识别算法提取人脸表情特征，从而根据人群姿态特征和人脸表情特征，分析视频中人群的情绪。

为实现上述目的，本发明提供的一种基于深度学习的视频人群情绪分析方法，包括：

获取待分析的视频流数据，利用高斯降噪方法对视频流中的每一帧图片进行降噪处理，并利用鬼影消除算法对视频帧图片进行鬼影消除处理；

利用尺度自适应的人群姿态获取算法提取视频帧图片中人群的姿态特征；

利用人脸检测算法检测视频帧图片的人脸，并对检测到的人脸进行裁剪，得到人脸图像；

利用表情识别算法对人脸图像进行特征提取，提取到人脸表情特征；

根据提取的人群姿态特征以及人脸表情特征，利用情绪识别模型对视频中人群进行情绪分析处理。

可选地，所述利用鬼影消除算法对视频帧图片进行鬼影消除处理，包括：

1)选取视频中无运动物体的帧图片作为参考图片，参考图片的灰度级概率密度为p_r(r)，非参考图片的灰度级概率密度为p_z(z)，计算参考图片与非参考图片的映射关系为：

其中：

z表示参考图片像素；

r表示非参考图片像素；

H(·)表示直方图匹配操作；

对非参考图片中的每个像素进行直方图匹配处理，得到曝光调整后的视频帧图片，使得非参考图片和参考图片具有相似的曝光度；

2)计算参考图片和非参考图片之间的差分图像：

D^k＝|I_k-I|

其中：

I_k表示曝光调整后的第k张视频帧图片；

I表示参考图片；

D^k表示第k张非参考图片与参考图片之间的差分图像；

3)计算差分图像的信息熵：

其中：

f(i,j)表示差分图像的像素值，i和j分别表示像素点的行和列；

M×N像素表示差分图像的大小；

4)利用阈值识别差分图像像素：

其中：

F_k(x,y)表示消除鬼影权重图，当F_k(x,y)＝0时，该像素为动态像素，当F_k(x,y)＝1时，该像素为静态像素；

T为像素划分阈值，将其设置为2；

对于视频帧图片中的每个像素：

I′_k(x,y)＝I_k(x,y)×F_k(x,y)

其中：

I_k(x,y)表示第k张非参考图片的像素(x,y)；

I'_k(x,y)表示第k张非参考图片的鬼影消除后的像素(x,y)。

可选地，所述利用尺度自适应的人群姿态获取算法提取视频帧图片中的姿态特征，包括：

1)将连续的视频帧图片作为基于时序的LSTM模型输入，其中LSTM模型的输入为x_i,t，i∈{1,2,…,K}，K表示骨骼关键点总数，t∈{1,2,…,T}表示时间帧；

2)利用前向传播算法进行LSTM参数更新：

c_i,t＝x_i,t⊙c_i,t-1

h_i,t＝tanh(c_i,t)

其中：

c_i,t表示t时刻的单元状态；

h_i,t表示t时刻的单元隐藏层；

3)计算LSTM模型的初始全局上下文存储信息M₀：

4)重复n次2)-3)，得到n次前向传播的存储信息M_n-1；计算每个h_i,t的信息得分：

选取得分最高的H个单元隐藏层h_i,t作为人群中的姿态特征；将H设置为100。

可选地，所述利用人脸检测算法检测视频帧图片的人脸，包括：

1)获取训练样本集S＝{(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}，其中x_i为图像数据，y_i表示图像标签，y_i＝-1表示当前图像不存在人脸，y_i＝+1表示当前图像存在人脸；其中不存在人脸的样本数为m，存在人脸的样本数为n，N＝n+m；

2)初始化训练样本权重：

W₁＝(w₁₁,w₁₂,…,w_1N)

3)利用Adaboost算法对待权重的样本进行训练，得到若干弱分类器O_c(x)；计算弱分类器的分类误差率：

e_c＝P(O_c(x_i)≠y_i)

并计算弱分类器O_c(x)的权重：

4)将弱分类器通过线性组合方式进行组合，生成一个强分类器O(x)：

其中：

K表示生成的弱分类器数量，将其设置为20；

5)将待检测视频帧图片输入到强分类器O(x)中，若O(x)值为1，则说明待检测视频帧图片为存在人脸，则对检测到的人脸进行裁剪，得到人脸图像，在本发明一个具体实施例中，本发明将人脸图像的大小调整为50*50像素大小。

可选地，所述利用表情识别算法对人脸图像进行特征提取，包括：

网络上支路输入第一帧中的人脸图像，作为模板输入；网络下支路输入后续帧的人脸图像，作为待检测输入；两个输入分别通过权值共享的全卷积神经网络操作做特征映射；

使用3×3像素大小的卷积核对模板输入进行卷积处理，并将卷积通道数调整为k倍，得到尺度为3×3×k像素大小的模板特征

使用3×3像素大小的卷积核对待检测输入进行卷积处理，得到尺度为3×3×1像素大小的待检测特征τ(x)；

将模板特征在卷积通道上按序等分为k份，将其看作是k个大小为3×3×1的卷积核；将k个卷积核与待检测特征τ(x)进行卷积处理，生成卷积通道数为k的特征图，并将生成特征图作为人脸表情特征。

可选地，所述利用情绪识别模型对视频中人群进行情绪分析处理，包括：

1)将人群姿态特征和人脸表情特征拼接为情绪特征F：

F＝{(x₁,y₁,t₁),(x₂,y₂,t₂),…}

其中：

x_i表示在t_i时刻的人群姿态特征；

y_i表示在t_i时刻的人脸表情特征；

2)利用情绪识别模型提取训练的情绪识别特征；

3)将情绪特征F输入到情绪识别模型中：

其中：

N表示情绪识别模型中卷积层的数量；

W_i表示第i层卷积层的权重；

b_i表示第i层卷积层的偏置向量；

y表示情绪识别特征，将情绪识别特征与预提取到的训练情绪识别特征进行特征匹配，选取匹配度最高的训练情绪识别特征所对应的情绪标签作为识别到的情绪，所述特征匹配算法为余弦相似度算法，所述情绪标签包括喜、怒、哀、乐、惧等；

在本发明一个具体实施例中，本发明将情绪识别模型转换为卡尔曼滤波模型：

其中：

F(k)表示卡尔曼滤波系统的N个状态；

X(k-1)表示状态转移矩阵；

r(k)表示系统噪声；

1)由k-1时刻的估计值和状态转移矩阵X(k-1)估计下一时刻预测值/>

2)由k-1时刻误差协方差矩阵P(k-1|k-1)和噪声方差矩阵Q(k-1)计算得到下一时刻预测误差协方差矩阵P(k|k-1)：

P(k|k-1)＝X(k-1)P(k-1|k-1)X^T(k-1)+Q(k-1)

3)计算增益矩阵：

M(k)＝P(k|k-1)[P(k|k-1)+X(k-1)]^T

4)计算得到时刻k的状态估计值

重复上述步骤，最终计算得到的状态估计值即为情绪识别特征。

此外，为实现上述目的，本发明还提供一种基于深度学习的视频人群情绪分析系统，所述系统包括：

视频获取装置，用于获取待分析的视频流数据；

数据处理器，用于利用高斯降噪方法对视频流中的每一帧图片进行降噪处理，并利用鬼影消除算法对视频帧图片进行鬼影消除处理；利用人脸检测算法检测视频帧图片的人脸，并对检测到的人脸进行裁剪，得到人脸图像；

视频人群情绪分析装置，用于利用尺度自适应的人群姿态获取算法提取视频帧图片中人群的姿态特征；利用表情识别算法对人脸图像进行特征提取，提取到人脸表情特征；根据提取的人群姿态特征以及人脸表情特征，利用情绪识别模型对视频中人群进行情绪分析处理。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有视频人群情绪分析程序指令，所述视频人群情绪分析程序指令可被一个或者多个处理器执行，以实现如上所述的基于深度学习的视频人群情绪分析的实现方法的步骤。

本发明首先提出一种鬼影消除算法对视频帧图片进行鬼影消除处理，所述鬼影消除算法流程为：选取视频中无运动物体的帧图片作为参考图片，参考图片的灰度级概率密度为p_r(r)，非参考图片的灰度级概率密度为p_z(z)，计算参考图片与非参考图片的映射关系为：

其中：z表示参考图片像素；r表示非参考图片像素；H(·)表示直方图匹配操作；对非参考图片中的每个像素进行直方图匹配处理，得到曝光调整后的视频帧图片，使得非参考图片和参考图片具有相似的曝光度；计算参考图片和非参考图片之间的差分图像：

D^k＝|I_k-I|

其中：I_k表示曝光调整后的第k张视频帧图片；I表示参考图片；D^k表示第k张非参考图片与参考图片之间的差分图像；计算差分图像的信息熵：

其中：f(i,j)表示差分图像的像素值，i和j分别表示像素点的行和列；

M×N像素表示差分图像的大小；利用阈值识别差分图像像素：

其中：F_k(x,y)表示消除鬼影权重图，当F_k(x,y)＝0时，该像素为动态像素，当F_k(x,y)＝1时，该像素为静态像素；T为像素划分阈值，将其设置为2；对于视频帧图片中的每个像素：

I′_k(x,y)＝I_k(x,y)×F_k(x,y)

其中：I_k(x,y)表示第k张非参考图片的像素(x,y)；I'_k(x,y)表示第k张非参考图片的鬼影消除后的像素(x,y)。相较于传统算法，本发明通过直方图匹配算法调整非参考视频帧图片的曝光度，使其与参考图片曝光一致，再利用图像差分得到相应非参考图片与参考图片的差分图；通过差分图像的信息熵划分动态和静态像素得到消除鬼影权重图，将消除鬼影权重图与原始图片像素进行乘积操作，消除了原始视频帧图片中存在的鬼影。

同时，本发明提出一种情绪识别模型，通过将人群姿态特征和人脸表情特征拼接为情绪特征F：

F＝{(x₁,y₁,t₁),(x₂,y₂,t₂),…}

其中：x_i表示在t_i时刻的人群姿态特征；y_i表示在t_i时刻的人脸表情特征；利用情绪识别模型提取训练的情绪识别特征；将情绪特征F输入到情绪识别模型中：

其中：N表示情绪识别模型中卷积层的数量；W_i表示第i层卷积层的权重；b_i表示第i层卷积层的偏置向量；y表示情绪识别特征，将情绪识别特征与预提取到的训练情绪识别特征进行特征匹配，选取匹配度最高的训练情绪识别特征所对应的情绪标签作为识别到的情绪，所述特征匹配算法为余弦相似度算法，所述情绪标签包括喜、怒、哀、乐、惧等；具体而言，本发明将情绪识别模型转换为卡尔曼滤波模型：

其中：F(k)表示卡尔曼滤波系统的N个状态；X(k-1)表示状态转移矩阵；r(k)表示系统噪声；由k-1时刻的估计值和状态转移矩阵X(k-1)估计下一时刻预测值/>

由k-1时刻误差协方差矩阵P(k-1|k-1)和噪声方差矩阵Q(k-1)计算得到下一时刻预测误差协方差矩阵P(k|k-1)：

P(k|k-1)＝X(k-1)P(k-1|k-1)X^T(k-1)+Q(k-1)

计算增益矩阵：

M(k)＝P(k|k-1)[P(k|k-1)+X(k-1)]^T

计算得到时刻k的状态估计值

重复上述步骤，最终计算得到的状态估计值即为情绪识别特征。相较于传统深度学习技术，本发明将卷积神经网络转换为卡尔曼滤波系统，用状态转移矩阵估计不同时刻模型的状态，在不需要重新训练模型的基础上实时更新模型参数，从而在保证情绪识别效率的基础上提高情绪识别的准确率。

附图说明

图1为本发明一实施例提供的一种基于深度学习的视频人群情绪分析方法的流程示意图；

图2为本发明一实施例提供的一种基于深度学习的视频人群情绪分析系统的结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

通过利用尺度自适应的人群姿态获取算法提取人群的姿态特征，并利用人脸检测算法检测视频帧画面的人脸图像，利用表情识别算法提取人脸表情特征，从而根据人群姿态特征和人脸表情特征，分析视频中人群的情绪。参照图1所示，为本发明一实施例提供的基于深度学习的视频人群情绪分析方法示意图。

在本实施例中，基于深度学习的视频人群情绪分析方法包括：

S1、获取待分析的视频流数据，利用高斯降噪方法对视频流中的每一帧图片进行降噪处理，并利用鬼影消除算法对视频帧图片进行鬼影消除处理。

首先，本发明获取待分析的人群视频流数据，并将视频流数据逐帧分割，得到若干视频帧图片，在本发明一个具体实施例中，本发明利用摄像头等监控装置采集到人群视频流数据；对视频帧图片中每一个像素的三个分量求最大值，并将该最大值设置为该像素点的灰度值，得到视频帧图片的灰度图，所述灰度化处理的公式为：

G(i,j)＝max{R(i,j),G(i,j),B(i,j)}

其中：

(i,j)为视频帧图片中的一个像素点；

R(i,j),G(i,j),B(i,j)分别为像素点(i,j)在R、G、B三个颜色通道中的值；

G(i,j)为像素点(i,j)的灰度值；

本发明利用高斯降噪方法对视频帧图片进行降噪处理，所述高斯降噪方法流程为：

构建高斯滤波核函数矩阵，将高斯滤波核函数矩阵与视频帧灰度图像进行卷积运算，得到高斯滤波后的视频帧灰度图像；在本发明一个具体实施例中，所构建的高斯滤波核函数矩阵为：

进一步地，对于高斯滤波后的视频帧灰度图像，本发明利用鬼影消除算法对视频帧图片进行鬼影消除处理，所述鬼影消除算法流程为：

其中：

z表示参考图片像素；

r表示非参考图片像素；

H(·)表示直方图匹配操作；

2)计算参考图片和非参考图片之间的差分图像：

D^k＝|I_k-I|

其中：

I_k表示曝光调整后的第k张视频帧图片；

I表示参考图片；

D^k表示第k张非参考图片与参考图片之间的差分图像；

3)计算差分图像的信息熵：

其中：

M×N像素表示差分图像的大小；

4)利用阈值识别差分图像像素：

其中：

T为像素划分阈值，将其设置为2；

对于视频帧图片中的每个像素：

I′_k(x,y)＝I_k(x,y)×F_k(x,y)

其中：

I_k(x,y)表示第k张非参考图片的像素(x,y)；

I'_k(x,y)表示第k张非参考图片的鬼影消除后的像素(x,y)。

S2、利用尺度自适应的人群姿态获取算法提取视频帧图片中人群的姿态特征。

进一步地，本发明利用尺度自适应的人群姿态获取算法处理人群视频流数据，得到人群姿态特征，所述尺度自适应的人群姿态获取算法流程为：

2)利用前向传播算法进行LSTM参数更新：

c_i,t＝x_i,t⊙c_i,t-1

h_i,t＝tanh(c_i,t)

其中：

c_i,t表示t时刻的单元状态；

h_i,t表示t时刻的单元隐藏层；

3)计算LSTM模型的初始全局上下文存储信息M₀：

S3、利用人脸检测算法检测视频帧图片的人脸，并对检测到的人脸进行裁剪，得到人脸图像。

进一步地，本发明利用人脸检测算法检测视频帧图片中的人脸，所述人脸检测算法流程为：

2)初始化训练样本权重：

W₁＝(w₁₁,w₁₂,…,w_1N)

e_c＝P(O_c(x_i)≠y_i)

并计算弱分类器O_c(x)的权重：

其中：

K表示生成的弱分类器数量，将其设置为20；

S4、利用表情识别算法对人脸图像进行特征提取，提取到人脸表情特征。

进一步地，本发明利用表情识别算法对人脸图像进行特征提取处理，提取得到人脸表情特征，所述表情识别算法流程为：

S5、根据提取的人群姿态特征以及人脸表情特征，利用情绪识别模型对视频中人群进行情绪分析处理。

根据提取到的人群姿态特征以及人脸表情特征，将人群姿态特征以及人脸表情特征作为情绪识别模型的输入，所述情绪识别模型为卷积神经网络模型；

进一步地，本发明利用情绪识别模型对视频中的人群进行情绪分析，所述利用情绪识别模型对视频中的人群进行情绪分析的流程为：

1)将人群姿态特征和人脸表情特征拼接为情绪特征F：

F＝{(x₁,y₁,t₁),(x₂,y₂,t₂),…}

其中：

x_i表示在t_i时刻的人群姿态特征；

y_i表示在t_i时刻的人脸表情特征；

2)利用情绪识别模型提取训练的情绪识别特征；

3)将情绪特征F输入到情绪识别模型中：

其中：

N表示情绪识别模型中卷积层的数量；

W_i表示第i层卷积层的权重；

b_i表示第i层卷积层的偏置向量；

其中：

F(k)表示卡尔曼滤波系统的N个状态；

X(k-1)表示状态转移矩阵；

r(k)表示系统噪声；

P(k|k-1)＝X(k-1)P(k-1|k-1)X^T(k-1)+Q(k-1)

3)计算增益矩阵：

M(k)＝P(k|k-1)[P(k|k-1)+X(k-1)]^T

4)计算得到时刻k的状态估计值

下面通过一个算法实验来说明本发明的具体实施方式，并对发明的处理方法进行测试。本发明算法的硬件测试环境为：Inter(R)Core(TM)i7-6700K CPU，软件为Matlab2018b；对比方法为基于GAN的视频人群情绪分析方法以及基于CNN的视频人群情绪分析方法。

在本发明所述算法实验中，数据集为15G的视频流数据。本实验通过将视频流数据输入到算法模型中，将情绪分析的准确率作为算法可行性的评价指标，其中情绪分析的准确率越高，则说明算法的有效性、可行性越高。

根据实验结果，基于GAN的视频人群情绪分析方法的情绪分析准确率为86.19％，基于CNN的视频人群情绪分析方法的视频人群情绪分析准确率为83.95％，本发明所述方法的情绪分析准确率为89.38％，相较于对比算法，本发明所提出的基于深度学习的视频人群情绪分析方法能够实现更高的情绪分析准确性。

发明还提供一种基于深度学习的视频人群情绪分析系统。参照图2所示，为本发明一实施例提供的基于深度学习的视频人群情绪分析系统的内部结构示意图。

在本实施例中，所述基于深度学习的视频人群情绪分析系统1至少包括视频获取装置11、数据处理器12、视频人群情绪分析装置13，通信总线14，以及网络接口15。

其中，视频获取装置11可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。

数据处理器12至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。数据处理器12在一些实施例中可以是基于深度学习的视频人群情绪分析系统1的内部存储单元，例如该基于深度学习的视频人群情绪分析系统1的硬盘。数据处理器12在另一些实施例中也可以是基于深度学习的视频人群情绪分析系统1的外部存储设备，例如基于深度学习的视频人群情绪分析系统1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，数据处理器12还可以既包括基于深度学习的视频人群情绪分析系统1的内部存储单元也包括外部存储设备。数据处理器12不仅可以用于存储安装于基于深度学习的视频人群情绪分析系统1的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

视频人群情绪分析装置13在一些实施例中可以是一中央处理器(CentralProcessing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，包括监控单元，用于运行数据处理器12中存储的程序代码或处理数据，例如视频人群情绪分析程序指令16等。

通信总线14用于实现这些组件之间的连接通信。

网络接口15可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该系统1与其他电子设备之间建立通信连接。

可选地，基于深度学习的视频人群情绪分析系统1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在基于深度学习的视频人群情绪分析系统1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-15以及基于深度学习的视频人群情绪分析系统1，本领域技术人员可以理解的是，图1示出的结构并不构成对基于深度学习的视频人群情绪分析系统1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的基于深度学习的视频人群情绪分析系统1实施例中，数据处理器12中存储有视频人群情绪分析程序指令16；视频人群情绪分析装置13执行数据处理器12中存储的视频人群情绪分析程序指令16的步骤，与基于深度学习的视频人群情绪分析方法的实现方法相同，在此不作类述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有视频人群情绪分析程序指令，所述视频人群情绪分析程序指令可被一个或多个处理器执行，以实现如下操作：

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度学习的视频人群情绪分析方法，其特征在于，所述方法包括：

根据提取的人群姿态特征以及人脸表情特征，利用情绪识别模型对视频中人群进行情绪分析处理；

所述利用情绪识别模型对视频中人群进行情绪分析处理，包括：

1)将人群姿态特征和人脸表情特征拼接为情绪特征F：

F＝{(x₁,y₁,t₁),(x₂,y₂,t₂),…}

其中：

x_i表示在t_i时刻的人群姿态特征；

y_i表示在t_i时刻的人脸表情特征；

2)利用情绪识别模型提取训练的情绪识别特征；

3)将情绪特征F输入到情绪识别模型中：

其中：

N表示情绪识别模型中卷积层的数量；

W_i表示第i层卷积层的权重；

b_i表示第i层卷积层的偏置向量；

y表示情绪识别特征；

将情绪识别模型转换为卡尔曼滤波模型：

其中：

F(k)表示卡尔曼滤波系统的N个状态；

X(k-1)表示状态转移矩阵；

r(k)表示系统噪声；

由k-1时刻的估计值和状态转移矩阵X(k-1)估计下一时刻预测值

P(k|k-1)＝X(k-1)P(k-1|k-1)X^T(k-1)+Q(k-1)

计算增益矩阵：

M(k)＝P(k|k-1)[P(k|k-1)+X(k-1)]^T

计算得到时刻k的状态估计值

重复上述步骤，最终计算得到的状态估计值即为情绪识别特征；

4)将情绪识别特征与预提取到的训练情绪识别特征进行特征匹配，选取匹配度最高的训练情绪识别特征所对应的情绪标签作为识别到的情绪，所述特征匹配算法为余弦相似度算法。

2.如权利要求1所述的一种基于深度学习的视频人群情绪分析方法，其特征在于，所述利用鬼影消除算法对视频帧图片进行鬼影消除处理，包括：

其中：

z表示参考图片像素；

r表示非参考图片像素；

H(·)表示直方图匹配操作；

对非参考图片中的每个像素进行直方图匹配处理，得到曝光调整后的视频帧图片；

2)计算参考图片和非参考图片之间的差分图像：

D^k＝|I_k-I|

其中：

I_k表示曝光调整后的第k张视频帧图片；

I表示参考图片；

D^k表示第k张非参考图片与参考图片之间的差分图像；

3)计算差分图像的信息熵：

其中：

M×N像素表示差分图像的大小；

4)利用阈值识别差分图像像素：

其中：

T为像素划分阈值，将其设置为2；

对于视频帧图片中的每个像素：

I′_k(x，y)＝I_k(x，y)×F_k(x，y)

其中：

I_k(x,y)表示第k张非参考图片的像素(x,y)；

I'_k(x,y)表示第k张非参考图片的鬼影消除后的像素(x,y)。

3.如权利要求2所述的一种基于深度学习的视频人群情绪分析方法，其特征在于，所述利用尺度自适应的人群姿态获取算法提取视频帧图片中的姿态特征，包括：

1)将连续的视频帧图片作为基于时序的LSTM模型输入，其中LSTM模型的输入为x_i,t，i∈{1,2，...，K}，K表示骨骼关键点总数，t∈{1，2，...,T}表示时间帧；

2)利用前向传播算法进行LSTM参数更新：

c_i，t＝x_i，t⊙c_i，t-1

h_i，t＝tanh(c_i，t)

其中：

c_i,t表示t时刻的单元状态；

h_i,t表示t时刻的单元隐藏层；

3)计算LSTM模型的初始全局上下文存储信息M₀：

4.如权利要求3所述的一种基于深度学习的视频人群情绪分析方法，其特征在于，所述利用人脸检测算法检测视频帧图片的人脸，包括：

1)获取训练样本集S＝{(x₁,y₁),(x₂,y₂),...,(x_N,y_N)}，其中x_i为图像数据，y_i表示图像标签，y_i＝-1表示当前图像不存在人脸，y_i＝+1表示当前图像存在人脸；其中不存在人脸的样本数为m，存在人脸的样本数为n，N＝n+m；

2)初始化训练样本权重：

W₁＝(w₁₁，w₁₂,...，w_1N)

e_c＝P(O_c(x_i)≠y_i)

并计算弱分类器O_c(x)的权重：

其中：

K表示生成的弱分类器数量，将其设置为20；

5)将待检测视频帧图片输入到强分类器O(x)中，若O(x)值为1，则说明待检测视频帧图片为存在人脸，则对检测到的人脸进行裁剪，得到人脸图像。

5.如权利要求4所述的一种基于深度学习的视频人群情绪分析方法，其特征在于，所述利用表情识别算法对人脸图像进行特征提取，包括：

6.一种基于深度学习的视频人群情绪分析系统，其特征在于，所述系统实现如权利要求1所述的基于深度学习的视频人群情绪分析的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频人群情绪分析程序指令，所述视频人群情绪分析程序指令可被一个或者多个处理器执行，以实现如权利要求1所述的基于深度学习的视频人群情绪分析的方法的步骤。