CN111091102B

CN111091102B - 一种视频分析装置、服务器、系统及保护身份隐私的方法

Info

Publication number: CN111091102B
Application number: CN201911334789.3A
Authority: CN
Inventors: 丁晓锋; 金海�; 方宏彪
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2022-05-24
Anticipated expiration: 2039-12-20
Also published as: CN111091102A

Abstract

本发明公开了一种视频分析装置、服务器、系统及保护身份隐私的方法，属于隐私保护技术领域。包括：固定第一卷积神经网络的选定池化层及之前层的参数，训练第二卷积神经网络，使得预测身份与真实身份差异尽可能小；调整第一卷积神经网络的选定池化层及之前层的参数，使得预测身份与真实身份差异尽可能大；训练参数调整后的第一卷积神经网络，使得预测结果与真实结果的差异尽可能小；判断是否同时满足第一卷积神经网络的差异值小于阈值且第二卷积神经网络的差异值大于阈值，若是，则结束。本发明通过引入隐私网络，不对原有神经网络结构大幅修改，保证了用户数据隐私的同时,允许根据对隐私性和实用性的需求动态地平衡。

Description

一种视频分析装置、服务器、系统及保护身份隐私的方法

技术领域

本发明属于隐私保护技术领域，更具体地，涉及一种视频分析装置、服务器、系统及保护身份隐私的方法。

背景技术

随着大规模数据的累积，深度学习基础理论的发展和硬件计算能力的巨大提升，无论是学术界还是工业界，深度学习都成为数据挖掘和人工智能领域的主流技术，尤其是对于图像、语音、文本这样的复杂数据。

基于深度学习的视频分析技术，例如，基于深度学习的智能跌倒检测、帕金森病运动功能智能评估、异常行为识别等，普遍采用的处理流程如下：(1)使用图像收集设备在收集图像数据；(2)将图像数据发送到云端服务器；(3)服务器利用强大的算力通过规则或者模型进行视频分析；(4)将视频分析结果返回给用户设备。深度学习能够有效提取针对目标任务的特征，但是不能保证该特征只能用于特定任务，也就是说深度学习提取到的特征除了能够完成目标任务，也有可能很好的完成其他非目标任务，包括敏感信息挖掘任务，挖掘到了与当前目标任务无关的用户隐私信息，这就隐含了巨大的隐私风险。恶意攻击者完全有能力从用户上传的图像数据中准确得识别出人物身份信息。因此，如何保护基于深度学习的视频分析下的用户身份隐私问题成为现有技术中亟待解决的问题之一。

目前，针对深度学习推理阶段的用户数据隐私保护方式主要包括加密和数据编码。加密方法可以保证数据隐私，但是带来了巨大的加解密开销和模型训练的复杂度，同时影响到准确度。而基于数据编码的方式，通过将原始数据做一次转化，在计算资源消耗上远小于加密，同时不要求对传统的模型结构和训练流程进行大幅修改，具有明显的优势。但是现有基于数据编码的隐私保护方案存在以下突出问题：1、存在潜在隐私泄露风险：现有保护方案没有考虑编码数据存在的潜在的隐私泄露风险，即对编码数据进行深度的数据挖掘可能暴露隐私信息；2、忽略了上下文信息：对数据编码时没有考虑下游具体的数据挖掘任务，该方案可能得到了较为通用的隐私保护编码，但是并不是具体场景下最优的；3、复杂性高：为了得到高质量的隐私保护的编码，引入了过多的复杂性，比如使用了更复杂的网络结构和训练方法。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种视频分析装置、服务器、系统及保护身份隐私的方法，其目的在于通过仅引入第二卷积神经网络来约束第一卷积神经网络的特征提取过程，从而得到隐私保护的池化层特征图，保证了用户数据隐私的同时，允许根据对隐私性和实用性的需求动态地平衡，以达到给定约束下模型的最佳效果。

为实现上述目的，按照本发明的第一方面，提供了一种基于深度学习的视频分析中保护身份隐私的方法，该方法包括以下步骤：

S1.选择用于视频分析任务的第一卷积神经网络的一个池化层，将该池化层输出的特征图作为用于身份识别的第二卷积神经网络的输入，其中，所述第一卷积神经网络的输入为包含人物的场景图像，输出为视频分析结果；

S2.分别初始化第一卷积神经网络和第二卷积神经网络各层参数；

S3.固定第一卷积神经网络的选定池化层及之前层的参数，使用包含人物的场景图像训练集训练第二卷积神经网络，使得各训练样本的预测身份与真实身份差异尽可能小；

S4.固定第二卷积神经网络各层参数，调整第一卷积神经网络的选定池化层及之前层的参数，使得各训练样本的预测身份与真实身份差异尽可能大；

S5.使用包含人物的场景图像训练集训练参数调整后的第一卷积神经网络，使得各训练样本的预测结果与真实结果的差异尽可能小；

S6.判断是否同时满足第一卷积神经网络的差异值小于第一设定阈值且第二卷积神经网络的差异值大于第二设定阈值，若是，则结束，否则，进入步骤S3。

优选地，步骤S2中参数初始化的方式如下：

使用ImageNet图像数据集预训练第一卷积神经网络后，再使用ImageNet图像数据集预训练第二卷积神经网络；或者，全零初始化，或者，随机初始化，或者，Xavier初始化。

优选地，第一卷积神经网络的网络结构为卷积神经网络AlexNet、VGGNet或者ResNet，并将原始的输出层替换为Sigmoid输出层，激活函数为Relu；第二卷积神经网络的网络结构为卷积神经网络结构AlexNet、VGGNet或者ResNet，并将原始的输出层替换为Softmax输出层，激活函数为Relu。

优选地，池化层选择第一卷积神经网络的第2个最大池化层，或者，第3个最大池化层。

优选地，步骤S3中，损失函数为：

其中，

s分别为预测身份的概率向量与真实身份标签的one-hot编码，

s_i分别为对应向量中第i个维度的取值，k为训练集中不同身份的数量；

各层参数更新方式如下：

利用反向传播算法计算

对第二卷积神经网络各个网络层参数的梯度，将第二卷积神经网络各个层参数向负梯度方向更新，即

其中，μ₂为第二卷积神经网络的学习率，θ_h为第二卷积神经网络各个网络层参数。

优选地，步骤S4中，损失函数为：

其中，

s分别为预测身份的概率向量与真实身份标签的one-hot编码，

各层参数更新方式如下：

利用反向传播算法计算

对第一卷积神经网络的选定池化层及之前层参数的梯度，将第一卷积神经网络的选定池化层及之前层参数向正梯度方向更新，即

其中，μ₁为第一卷积神经网络的学习率，θ_g为第一卷积神经网络的选定池化层及之前层参数，0≤λ≤1负责调节使用loss_p和loss_t对第一卷积神经网络的参数进行更新时对最终参数的影响，用于隐私性-实用性控制。

优选地，步骤S5中，损失函数为：

其中，

y分别为预测结果与真实结果；

各层参数更新方式如下：

利用反向传播算法计算

对第一卷积神经网络参数的梯度，将第一卷积神经网络的参数向负梯度方向更新，即

其中，θ_f为第一卷积神经网络各个网络层参数，μ₁为第一卷积神经网络的学习率，0≤λ≤1负责调节使用loss_p和loss_t对第一卷积神经网络的参数进行更新时对最终参数的影响，用于隐私性-实用性控制。

为实现上述目的，按照本发明的第二方面，提供了一种视频分析装置，该装置包括：

输入模块，用于接收包含人物的场景图像，将其转换为第一卷积神经网络所要求的输入大小；

图像特征提取模块，用于采用第一方面所述的基于深度学习的视频分析中保护身份隐私的方法的训练好的第一卷积神经网络的选定池化层及之前层，对转换后的包含人物的场景图像进行特征提取，得到特征图；

网络传输模块，用于对特征图进行二进制编码，传输给服务器，用于视频分析，接收服务器返回的视频分析结果。

为实现上述目的，按照本发明的第三方面，提供了一种视频分析服务器，该服务器采用第一方面所述的基于深度学习的视频分析中保护身份隐私的方法的训练好的第一卷积神经网络的选定池化层之后的所有层，对接收到的编码特征图进行视频分析，并将视频分析结果发送给视频分析装置。

为实现上述目的，按照本发明的第四方面，提供了一种视频分析系统，该系统包括：

图像采集装置，用于采集包含人物的场景图像；

视频分析装置，其用于接收包含人物的场景图像，将其转换为第一卷积神经网络所要求的输入大小，采用第一方面所述的基于深度学习的视频分析中保护身份隐私的方法的训练好的第一卷积神经网络的选定池化层及之前层，对转换后的包含人物的场景图像进行特征提取，得到特征图，对特征图进行二进制编码，传输给服务器，接收服务器返回的视频分析结果；

视频分析服务器，其采用第一方面所述的基于深度学习的视频分析中保护身份隐私的方法的训练好的第一卷积神经网络的选定池化层之后的所有层，对接收到的编码特征图进行视频分析，并将视频分析结果发送给视频分析装置。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明通过引入用于身份识别的第二卷积神经网络来约束用于视频分析的第一卷积神经网络的特征提取过程，得到隐私保护的池化层特征，用于进行视频分析，保证了用户身份信息隐私的同时，允许根据对隐私性和实用性的需求动态地平衡隐私性和实用性，以达到给定约束下模型的最佳效果。

(2)本发明使用预训练参数初始化网络的前面部分层参数，用于提取浅层特征，剩余层使用基于正态分布的随机初始化方式，然后对模型进行微调，能有效提高网络训练效率。

(3)本发明选择第2池化层，或者第3个池化层特征作为中间层用于实现隐私保护，由于第一卷积神经网络的选定池化层及之前层将会作为视频分析装置的一部分部署在客户端，选择相对靠前的池化层能有效降低客户端的存储和计算资源，同时池化层特征图相对较小，从而有效提高网络传输效率。

(4)本发明的训练流程中，先训练第二卷积神经网络，再调整第一卷积神经网络的选定池化层及之前层的参数，最后训练参数调整后的第一卷积神经网络，该流程保证了训练过程的稳定性和模型最终的收敛性。

(5)本发明使用视频分析装置作为连接原始场景图像数据和服务器的中间装置，通过该装置得到原始场景图像数据的隐私保护的特征图，以隐私保护的中间特征图与服务器交互，能有效保护用户原始数据的隐私性。

附图说明

图1为本发明提供的一种基于深度学习的视频分析中保护身份隐私的方法流程图；

图2为本发明提供的基于AlexNet的训练阶段网络结构示意图：

图3为本发明提供的一种视频分析装置示意图；

图4为本发明提供的一种视频分析系统示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明提供了一种基于深度学习的视频分析中保护身份隐私的方法，该方法包括以下步骤：

步骤S1.选择用于视频分析任务的第一卷积神经网络的一个池化层，将该池化层输出的特征图作为用于身份识别的第二卷积神经网络的输入，其中，所述第一卷积神经网络的输入为包含人物的场景图像，输出为视频分析结果。

基于深度学习的视频分析任务包括：智能跌倒检测、帕金森病运动功能智能评估、异常行为识别等，本实施例以智能跌倒检测为目标任务来说明整个过程。

如图2所示，本实施例中，第一卷积神经网络选择AlexNet网络，AlexNet网络由5个卷积层和3个全连接层构成，如图2上半部分所示所示，具体的网络结构为：conv1→mpool1→conv2→mpool2→conv3→conv4→conv5→mpool3→fc1→fc2→fc3，其中，conv表示卷积层，mpool表示最大池化层，fc表示全连接层。需要说明的是，卷积层conv和全连接层fc后都会加上relu激活函数做非线性变换，在图2和上述描述中省略了这一变换。AlexNet要求的输入图像大小为227*227*3，因此需要将输入的包含人物的场景图像转换为该大小，作为第一卷积神经网络的输入。另外，由于标准的AlexNet最后一层fc3有1000个神经元，而该实施例中的跌倒检测任务为二分类任务，因此将最后输出层替换成一个神经元，并使用Sigmoid函数进行非线性变换，输出该输入图像预测结果为跌倒的概率。

然后，选择上述的第一卷积神经网络的第2个池化层mpool2作为目标池化层，以该池化层输出的特征图作为用于身份识别的第二卷积神经网络的输入。同样，假设使用AlexNet作为第二卷积神经网络的网络结构，由于上述第二卷积神经网络的输入为上述第一卷积神经网络的mpool2层输出，而第一卷积神经网络也是利用相同的AlexNet作为网络结构，因此使用AlexNet作为第二卷积神经网络时，可以省去输入特征大小的调整，只需要基于mpool2层开始构建，如图2下半部分所示，即第二卷积神经网络结构为：conv3’→conv4’→conv5’→mpool3’→fc1’→fc2’→fc3’。由于标准的AlexNet输出层fc3’有1000个神经元，而该实施例中的第二卷积神经网络的身份识别任务为多分类任务，需要调整输出的神经元个数，设置为训练样本集中不同身份的数量k，并使用Softmax进行非线性变换，输出该包含人体特征的场景图像预测身份的概率向量，概率向量中的最大值对应的身份标签即为预测身份结果。

可选地，对于中间池化层的选取并不严格要求选择第2个池化层mpool2，选择其他池化层也是可以的，选择的时候主要考虑隐私保护的效果和池化层特征图的大小。对于神经网络来说，浅层的层捕获通用的特征，深层的层捕获更加抽象且与任务相关的特征，从浅层特征中移除其他隐私特征是相对困难的，因此选择时考虑跳过第一个池化层。对于AlexNet来说，一共存在3个池化层，其特征图大小分别为：27*27*96(mpool1)、13*13*256(mpool2)、6*6*256(mpool3)，mpool2、mpool3的特征图相对较小，更方便网络传输。其次，由于第一卷积神经网络的选定池化层及之前层将会作为智能跌倒检测装置的一部分部署在客户端，为了节省客户端的存储和计算资源，中间池化层也不宜选择过于靠后的池化层。通常第2或第3个最大池化层是合理的，既能满足隐私保护要求，又能有效地控制额外的计算和通信开销。

步骤S2.分别初始化第一卷积神经网络和第二卷积神经网络各层参数。

优选地，步骤S2中参数初始化的方式如下：

对于大型网络，使用预训练参数初始化网络的前面部分层参数，用于提取浅层特征，剩余层使用基于正态分布的随机初始化方式，然后对模型进行微调，能有效提高网络训练效率。

本实施例中，对于上述基于AlexNet构建的第一卷积神经网络和第二卷积神经网络，可以利用ImageNet图像数据进行预训练参数。具体实施方式为：

构建用于图像分类的AlexNet网络，在大规模ImageNet数据集上，使用该AlexNet网络完成图像分类任务。为了使预训练参数具有很好的通用性，从ImageNet中挑选最常见的1000个类别图像作为训练集，训练AlexNet。当在ImageNet数据集上的AlexNet训练完成，将部分层的参数赋值给第一卷积神经网络和第二卷积神经网络，完成使用预训练参数初始化的目标。具体地，将第一卷积神经网络conv1到mpool3层，使用在ImageNet上预训练的AlexNet对应层的参数进行初始化，剩余的fc1到fc3使用基于正态分布的随机初始化方式。同理，对于第二卷积神经网络的conv3’到mpool3’层也是用预训练的AlexNet对应层的参数进行初始化，剩余的fc1’到fc3’使用基于正态分布的随机初始化方式。

步骤S3.固定第一卷积神经网络的选定池化层及之前层的参数，使用包含人物的场景图像训练集训练第二卷积神经网络，使得各训练样本的预测身份与真实身份差异尽可能小。

首先，获取包含人物的场景图像作为训练数据，该图像经过第一卷积神经网络进行前向传播计算，得到选定池化层mpool2的特征图，该特征图作为第二卷积神经网络的输入，经过第二卷积神经网络进行前向传播计算，根据第二卷积神经网络的预测输出与训练数据的身份标签计算训练样本的预测身份与真实身份差异，由于第二卷积神经网络的身份识别任务是一个典型的多分类问题，故此处使用的用于计算差异的损失函数为交叉熵损失函数。

优选地，步骤S3中，损失函数为：

其中，

s分别为预测身份的概率向量与真实身份标签的one-hot编码，

s_i分别为对应向量中第i个维度的取值，k为训练集中不同身份的数量。

此时第二卷积神经网络参数更新方式如下：利用反向传播算法计算

步骤S4.固定第二卷积神经网络各层参数，调整第一卷积神经网络的选定池化层及之前层的参数，使得各训练样本的预测身份与真实身份差异尽可能大。

由于第二卷积神经网络的输入来自第一卷积神经网络的选定池化层，在上述实施例中即AlexNet第2个池化层mpool2，而第二卷积神经网络是用于学习隐私属性的身份识别任务，可以视为是第一卷积神经网络池化层mpool2特征图隐私泄露风险的度量。因此，为了提高隐私保护效果，需要调整包含第一卷积神经网络的选定池化层及之前层的参数，使得各训练样本的预测身份与真实身份差异尽可能大，即使第二卷积神经网络的损失函数值增大。

优选地，步骤S4中，损失函数为：

其中，

s分别为预测身份的概率向量与真实身份标签的one-hot编码，

但是与步骤S3不同，该步骤利用此损失函数去更新第一卷积神经网络的选定池化层及之前层的参数，各层参数更新方式如下：

利用反向传播算法计算

步骤S5.使用包含人物的场景图像训练集训练参数调整后的第一卷积神经网络，使得各训练样本的预测结果与真实结果的差异尽可能小。

经过上述S4步骤对第一卷积神经网络的调整，在选定池化层mpool2处的特征图已经有隐私保护效果，因为基于该特征图的用于身份识别的第二卷积神经网络预测效果变差。但是该调整也会影响到第一卷积神经网络在跌倒检测任务上的预测效果，因此需要整体调整第一神卷积神经网络的参数，使得各训练样本的预测跌倒结果与真实跌倒结果的差异尽可能小。由于第一卷积神经网络用于跌倒检测，这是一个典型的二分类问题，因此该过程使用的损失函数为二元交叉熵损失函数。

优选地，步骤S5中，损失函数为：

其中，

y分别为预测结果与真实结果；

为了使各训练样本的预测跌倒结果与真实跌倒结果的差异尽可能小，需要让损失函数值尽可能得小，因此需要将第一卷积神经网络的参数向负梯度方向更新。各层参数更新方式如下：

利用反向传播算法计算

步骤S6.判断是否同时满足第一卷积神经网络的差异值小于第一设定阈值且第二卷积神经网络的差异值大于第二设定阈值，若是，则结束，否则，进入步骤S3。

如图3所示，本发明提供了一种视频分析装置，该装置包括：

输入模块，用于接收包含人物的场景图像，将其转换为第一卷积神经网络所要求的输入大小。对于上述基于AlexNet的实施例，需要将原始图像大小调整为227*227*3。

图像特征提取模块，用于采用上述基于深度学习的视频分析中保护身份隐私的方法的训练好的第一卷积神经网络的选定池化层及之前层，对转换后的包含人物的场景图像进行特征提取，得到特征图。

具体到本实施例，视频分析装置为智能跌倒检测装置。

本发明提供了一种视频分析服务器，该服务器采用上述基于深度学习的视频分析中保护身份隐私的方法的训练好的第一卷积神经网络的选定池化层之后的所有层，对接收到的编码特征图进行视频分析，并将视频分析结果发送给视频分析装置。

如图4所示，本发明提供了一种视频分析系统，该系统包括：

图像采集装置，用于采集包含人物的场景图像；

视频分析装置，其用于接收包含人物的场景图像，将其转换为第一卷积神经网络所要求的输入大小，采用上述基于深度学习的视频分析中保护身份隐私的方法的训练好的第一卷积神经网络的选定池化层及之前层，对转换后的包含人物的场景图像进行特征提取，得到特征图，对特征图进行二进制编码，传输给服务器，接收服务器返回的视频分析结果；

视频分析服务器，其采用上述基于深度学习的视频分析中保护身份隐私的方法的训练好的第一卷积神经网络的选定池化层之后的所有层，对接收到的编码特征图进行视频分析，并将视频分析结果发送给视频分析装置。

具体到本实施例，视频分析系统为智能跌倒检测系统。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的视频分析中保护身份隐私的方法，其特征在于，该方法包括以下步骤：

2.如权利要求1所述的方法，其特征在于，步骤S2中参数初始化的方式如下：

3.如权利要求1所述的方法，其特征在于，第一卷积神经网络的网络结构为卷积神经网络AlexNet、VGGNet或者ResNet，并将原始的输出层替换为Sigmoid输出层，激活函数为Relu；第二卷积神经网络的网络结构为卷积神经网络结构AlexNet、VGGNet或者ResNet，并将原始的输出层替换为Softmax输出层，激活函数为Relu。

4.如权利要求3所述的方法，其特征在于，池化层选择第一卷积神经网络的第2个最大池化层，或者，第3个最大池化层。

5.如权利要求1所述的方法，其特征在于，步骤S3中，损失函数为：

其中，

s分别为预测身份的概率向量与真实身份标签的one-hot编码，

各层参数更新方式如下：

利用反向传播算法计算

6.如权利要求1所述的方法，其特征在于，步骤S4中，损失函数为：

其中，

s分别为预测身份的概率向量与真实身份标签的one-hot编码，

各层参数更新方式如下：

利用反向传播算法计算

其中，μ₁为第一卷积神经网络的学习率，θ_g为第一卷积神经网络的选定池化层及之前层参数，0≤λ≤1，负责调节使用loss_p和loss_t对第一卷积神经网络的参数进行更新时对最终参数的影响，用于隐私性-实用性控制；

步骤S5中，损失函数为：

其中，

y分别为预测结果与真实结果；

各层参数更新方式如下：

利用反向传播算法计算

其中，θ_f为第一卷积神经网络各个网络层参数。

7.一种视频分析装置，其特征在于，该装置包括：

图像特征提取模块，用于采用权利要求1至6任一项所述的基于深度学习的视频分析中保护身份隐私的方法的训练好的第一卷积神经网络的选定池化层及之前层，对转换后的包含人物的场景图像进行特征提取，得到特征图；

8.一种视频分析服务器，其特征在于，该服务器采用权利要求1至6任一项所述的基于深度学习的视频分析中保护身份隐私的方法的训练好的第一卷积神经网络的选定池化层之后的所有层，对接收到的编码特征图进行视频分析，并将视频分析结果发送给视频分析装置。

9.一种视频分析系统，其特征在于，该系统包括：

图像采集装置，用于采集包含人物的场景图像；

视频分析装置，其用于接收包含人物的场景图像，将其转换为第一卷积神经网络所要求的输入大小，采用权利要求1至6任一项所述的基于深度学习的视频分析中保护身份隐私的方法的训练好的第一卷积神经网络的选定池化层及之前层，对转换后的包含人物的场景图像进行特征提取，得到特征图，对特征图进行二进制编码，传输给服务器，接收服务器返回的视频分析结果；

视频分析服务器，其采用权利要求1至6任一项所述的基于深度学习的视频分析中保护身份隐私的方法的训练好的第一卷积神经网络的选定池化层之后的所有层，对接收到的编码特征图进行视频分析，并将视频分析结果发送给视频分析装置。