CN113283545B

CN113283545B - 一种针对视频识别场景的物理干扰方法及系统

Info

Publication number: CN113283545B
Application number: CN202110797548.3A
Authority: CN
Inventors: 刘小垒; 李璐璇; 胡腾; 王玉龙; 杨润; 辛邦洲
Original assignee: COMPUTER APPLICATION RESEARCH INST CHINA ACADEMY OF ENGINEERING PHYSICS
Current assignee: COMPUTER APPLICATION RESEARCH INST CHINA ACADEMY OF ENGINEERING PHYSICS
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-11-02
Anticipated expiration: 2041-07-14
Also published as: CN113283545A

Abstract

本发明公开了一种针对视频识别场景的物理干扰方法及系统，属于信息安全测试技术领域，解决现有技术在网络层面对视频进行干扰，干扰效果差的问题。本发明基于获取的已授权的摄像设备的视频、白盒分类系统和对抗样本生成系统在网络层获取初始的视频对抗样本；基于初始化的视频对抗样本，利用白盒分类系统对干扰进行优化，生成网络层面最终的视频对抗样本，即视频的通用干扰值；获取视频前，基于最终的视频对抗样本调节摄像设备在RGB通道的可调节滤镜，形成物理干扰。本发明用于对视频识别场景的物理干扰。

Description

一种针对视频识别场景的物理干扰方法及系统

技术领域

本发明涉及信息安全测试技术领域，提供了一种针对视频识别场景的物理干扰方法及系统，用于对视频识别场景的物理干扰。

背景技术

随着DNN（深度神经网络）在图像、视频识别领域的快速发展，一系列实用性技术成果已经开始投入使用，便利人民生活。但是，此类技术也给不良商家恶意收集他人信息提供了途径，例如增设私人监视设备获取大众行为数据、黑入私人计算机获取个人摄像头权限以获得个人信息等一系列损害个人隐私安全的行为。因此，如何保护个人隐私安全成为了当前时代迫切和必须解决的问题。

解决此问题最有效的方法是：在视频识别时能够有效地进行对外干扰，从而使得识别系统无法获取有效数据。该方法的前提是生成视频对抗样本以形成干扰。而目前对于视频对抗样本的研究较少，且其主要干扰方式是在获取到的视频上增加干扰以形成对抗样本，即在获取到视频数据后，在网络层面形成干扰效果，例如加入黑点噪声干扰技术和随机噪声干扰技术。这种方式存在明显的滞后性问题。

综上所述，现有技术存在如下技术问题：

1. 干扰都是在网络层面形成的，每进行一次干扰都需要计算，而计算过程需要算力；

2.在网络层生成干扰存在滞后性，并且干扰是基于传输的视频流，在传输时不存有干扰效果；

3.无法实时的在摄像设备上形成干扰，是因为针对保护个人隐私这一场景，摄像设备一定不是随时都开着的，所以无法在未启动的设备上形成干扰。

发明内容

针对上述研究的问题，本发明的目的在于提供一种针对视频识别场景的物理干扰方法及系统，解决现有技术在网络层面对视频进行干扰，干扰效果差的问题。

为了达到上述目的，本发明采用如下技术方案：

一种针对视频识别场景的物理干扰方法，包括：

步骤1：基于获取的已授权的摄像设备的视频、白盒分类系统和对抗样本生成系统在网络层获取初始的视频对抗样本；

步骤2：基于初始化的视频对抗样本，利用白盒分类系统对干扰进行优化，优化后生成网络层面最终的视频对抗样本，即视频的通用干扰值；

步骤3：获取视频前，基于最终的视频对抗样本调节摄像设备在RGB通道的可调节滤镜，形成物理干扰。

进一步，所述步骤 1的具体步骤为：

步骤1.1：从已授权的摄像设备中获取一段视频

，其中，

表示视频，

表示视频

的帧数，

表示视频

的高度，

表示视频

的宽度，

表示视频的颜色通道数，R表示实数域；

步骤1.2：将视频

输入白盒分类系统，得到视频中各帧图像的分类结果的集合

，其中，

表示视频

中第

帧图像的分类结果，

表示视频

中第

帧图像的分类结果；

步骤1.3：将视频

和集合

输入到对抗样本生成系统，使每帧图像生成作用在RGB通道的对应像素点上的干扰，即扰动

，将该扰动添加到视频上，得到初始化的视频对抗样本，其中，

表示视频

中第

帧图像和分类结果

输入到对抗样本生成系统得到的扰动，

表示视频

中第

帧图像和分类结果

输入到对抗样本生成系统得到的扰动。

进一步，所述步骤 2的具体步骤为：

S2.1：基于视频

的每帧图像的分类结果

对

进行更新；

更新方式：

其中，

为损失函数，即Lossfuction，

指损失函数沿每帧图片的颜色通道值梯度方向反向传播，

为步长，

，

表示对

的第几轮更新，

为视频内的帧数，

为视频内第

帧图像的分类结果，

为视频内的第

帧；

S2.2：固定循环轮数

后得到的差值的绝对值小于给定的误差值eps，则不再更新，在所有循环结果中选出损失函数最大的一例对应的结果作为网络层面最终的视频对抗样本

，即视频的通用干扰值

。

进一步，所述步骤 3的具体步骤为：

获取视频前，将网络层面生成的通用干扰值

传输给可调节滤镜,实现物理干扰。

一种针对视频识别场景的物理干扰系统，包括：

干扰模块：基于获取的已授权的摄像设备的视频、白盒分类系统和对抗样本生成系统在网络层获取初始的视频对抗样本；

优化模块：基于初始化的视频对抗样本，利用白盒分类系统对干扰进行优化，生成最终的视频对抗样本，即视频的通用干扰值；

物理干扰模块：获取视频前，基于最终的视频对抗样本调节摄像设备在RGB通道的可调节滤镜，形成物理干扰。

进一步，干扰模块从已授权的摄像设备中获取一段视频

，其中，

表示视频，

表示视频

的帧数，

表示视频

的高度，

表示视频

的宽度，

表示视频的颜色通道数，R表示实数域；

将视频

输入白盒分类系统，得到视频中各帧图像的分类结果的集合

，其中，

表示视频

中第

帧图像的分类结果，

表示视频

中第

帧图像的分类结果；

将视频

和集合

表示视频

中第

帧图像和分类结果

输入到对抗样本生成系统得到的扰动，

表示视频

中第

帧图像和分类结果

输入到对抗样本生成系统得到的扰动。

进一步，优化模块基于视频

的每帧图像的分类结果

对

进行更新；

更新方式：

其中，

为损失函数，即Lossfuction，

指损失函数沿每帧图片的颜色通道值梯度方向反向传播，

为步长，

，

表示对

的第几轮更新，

为视频内的帧数，

为视频内第

帧图像的分类结果，

为视频内的第

帧；

固定循环轮数

，即视频的通用干扰值

。

进一步，物理干扰模块在获取视频前，将网络层面生成的通用干扰值

传输给可调节滤镜,实现物理干扰。

本发明同现有技术相比，其有益效果表现在：

本发明用现有的对抗样本生成系统在图片上生成干扰，并将此类干扰在物理层面实现（把最终的视频对抗样本部署到可调节滤镜上，即给监控设备增加滤镜以保证行为识别失败），即在物理层对视频进行干扰，使得视频识别系统无法正确识别个人行为，从而达到防止恶意收集个人隐私和保障个人隐私安全的目的。

本发明在干扰数据传输给可调节滤镜后即形成通用模型（干扰模型）后，只需与可调节滤镜通信一次，就可以不再改变可调节滤镜与计算机进行通信，自调节滤镜可以自动运行传输的干扰模型（即不改变干扰模型），拥有低成本优势，节省了后续计算的时间和算力成本。

三、本发明提出的这种物理干扰方式不需要改变整个场景的色彩，在保障个人隐私的同时，也不会影响个人正常行为。

附图说明

图1为本发明的流程示意图，其中，图中的视频识别模型包括白盒分类系统和对抗样本生成系统，最终的对抗样本即指最终的视频对抗样本。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

本发明旨在获取视频数据前，通过物理层面的有效干扰，影响识别系统的正常功能。针对固定式摄像设备，在不影响个人正常生活的前提下，采用增加位于摄像设备前端的可调节滤镜从而改变视频RGB值的方式，使得通过监视设备获取的视频数据在识别系统中不能正确识别个人行为。

一种针对视频识别场景的物理干扰方法，包括：

步骤1：如图1中所示，基于获取的已授权的摄像设备的视频、白盒分类系统和对抗样本生成系统在网络层获取初始的视频对抗样本；

具体步骤为：

步骤1.1：从已授权的摄像设备中获取到了一段视频

，其中，

表示视频，

表示视频

的帧数，

表示视频

的高度，

表示视频

的宽度，

表示视频的颜色通道数，R表示实数域；

步骤1.2：将视频

输入白盒分类系统，得到视频中各帧图像的分类结果的集合

，其中，

表示视频

中第

帧图像的分类结果，

表示视频

中第

帧图像的分类结果；

步骤1.3：将视频

和集合

表示视频

中第

帧图像和分类结果

输入到对抗样本生成系统得到的扰动，

表示视频

中第

帧图像和分类结果

输入到对抗样本生成系统得到的扰动。

步骤2：基于初始化的视频对抗样本，利用白盒分类系统对干扰进行优化，优化后生成最终的视频对抗样本，即视频的通用干扰值；

具体步骤为：

S2.1：基于视频

的每帧图像的分类结果

对

进行更新；

更新方式：

其中，

为损失函数，即Lossfuction，

指损失函数沿每帧图片的颜色通道值梯度方向反向传播，

为步长，

，

表示对

的第几轮更新，

为视频内的帧数，

为视频内第

帧图像的分类结果，

为视频内的第

帧；

S2.2：固定循环轮数

，即视频的通用干扰值

。

步骤3：获取视频前，基于最终的视频对抗样本调节摄像设备在RGB通道的可调节滤镜，形成物理干扰，即获取视频前，将网络层面生成的通用干扰值

传输给可调节滤镜,实现物理干扰。

一种针对视频识别场景的物理干扰系统，包括：

干扰模块：基于获取的已授权的摄像设备的视频、白盒分类系统和对抗样本生成系统在网络层获取初始的视频对抗样本；具体为：

干扰模块从已授权的摄像设备中获取一段视频

，其中，

表示视频，

表示视频

的帧数，

表示视频

的高度，

表示视频

的宽度，

表示视频的颜色通道数，R表示实数域；

将视频

输入白盒分类系统，得到视频中各帧图像的分类结果的集合

，其中，

表示视频

中第

帧图像的分类结果，

表示视频

中第

帧图像的分类结果；

将视频

和集合

表示视频

中第

帧图像和分类结果

输入到对抗样本生成系统得到的扰动，

表示视频

中第

帧图像和分类结果

输入到对抗样本生成系统得到的扰动。

优化模块：基于初始化的视频对抗样本，利用白盒分类系统对干扰进行优化，生成最终的视频对抗样本，即视频的通用干扰值；具体为：

优化模块基于视频

的每帧图像的分类结果

对

进行更新；

更新方式：

其中，

为损失函数，即Lossfuction，

指损失函数沿每帧图片的颜色通道值梯度方向反向传播，

为步长，

，

表示对

的第几轮更新，

为视频内的帧数，

为视频内第

帧图像的分类结果，

为视频内的第

帧；

固定循环轮数

，即视频的通用干扰值

。

物理干扰模块：获取视频前，基于最终的视频对抗样本调节摄像设备在RGB通道的可调节滤镜，形成物理干扰。具体为：物理干扰模块在获取视频前，将网络层面生成的通用干扰值

传输给可调节滤镜,实现物理干扰。

实施例

现从如图1中所示的已授权的摄像设备中获取到了一段个人视频

，帧数

取值为100。

视频通过现有行为识别系统得出的识别结果是“熨衣服”，即将视频

输入白盒分类系统，得到视频中各帧图像的分类结果的集合

,得到各分类结果为“熨衣服”。

将视频

和集合

输入到对抗样本生成系统，使每帧图像生成作用在RGB通道对应像素点上的干扰，即扰动

，将该扰动添加到视频上，得到初始化的视频对抗样本，其中，常用的对抗样本生成系统为FGSM、DeepFool或GAN。

基于白盒分类系统，调整每一帧的扰动

，利用框架的梯度方向进行优化（即指损失函数沿每帧图片的颜色通道值梯度方向进行优化），从而使得分类损失最大化，可得到最终的视频对抗样本，即视频的通用干扰值，使得白盒分类系统产生误分类，即在该行为分类的结果不是“熨衣服”。

根据网络层面生成的最终的视频对抗样本，将该扰动应用于摄像设备获取视频前的可调节滤镜上，完成RGB干扰部署工作，从而实现有效干扰。

如：原视频尺寸是2*2的，那么在各帧的这4个像素点上生成的干扰必是一个2*2的矩阵形式（矩阵上的元素代表在每一个像素点需要增加的RGB值），如得到获取某帧图像的通用干扰值为

，然后将其传输到可调节滤镜上。若原调节滤镜的像素点值为

（即原本不会增加任何RGB干扰），接收到电脑传输的数据（通用干扰值）后，可调节滤镜上的像素点值就变为

，若物理世界中在该时刻四个像素点的值为

，那么在通过可调节滤镜，呈现在摄像设备的RGB矩阵为

，从而达到有效干扰的目的。

综上所述，在用于训练的视频数目为100个时，该对抗样本生成系统的视频对抗样本能够有44.37%的误导率，并且误导率会根据视频数的增大而增大，直到视频数达到10000时趋于平稳（因为训练大量的视频耗费时间，所以选取的视频集数目最大值为15000个）达到92.5%的误导率。

以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种针对视频识别场景的物理干扰方法，其特征在于，包括：

步骤3：获取视频前，基于最终的视频对抗样本调节摄像设备在RGB通道的可调节滤镜，形成物理干扰，其中，最终的视频对抗样本为矩阵形式，获取视频前，将网络层面生成的通用干扰值θ′_i传输给可调节滤镜,实现物理干扰。

2.根据权利要求1所述的一种针对视频识别场景的物理干扰方法，其特征在于：所述步骤1的具体步骤为：

步骤1.1：从已授权的摄像设备中获取一段视频

其中，X表示视频，N表示视频X的帧数，H表示视频X的高度，W表示视频X的宽度，C表示视频的颜色通道数，R表示实数域；

步骤1.2：将视频X输入白盒分类系统，得到视频中各帧图像的分类结果的集合Y＝{y₁,y₂,..,y_i,...,y_N}，其中，y_i表示视频X中第i帧图像的分类结果，y_N表示视频X中第N帧图像的分类结果；

步骤1.3：将视频X和集合Y输入到对抗样本生成系统，使每帧图像生成作用在RGB通道的对应像素点上的干扰，即扰动θ＝{θ₁,θ₂,..,θ_i,...,θ_N}，将该扰动添加到视频上，得到初始化的视频对抗样本，其中，θ_i表示视频X中第i帧图像和分类结果y_i输入到对抗样本生成系统得到的扰动，θ_N表示视频X中第N帧图像和分类结果y_N输入到对抗样本生成系统得到的扰动。

3.根据权利要求2所述的一种针对视频识别场景的物理干扰方法，其特征在于：所述步骤2的具体步骤为：

S2.1：基于视频X的每帧图像的分类结果y_i对θ_i进行更新；

更新方式：

其中，L为损失函数，即Lossfuction，

指损失函数沿每帧图片的颜色通道值梯度方向反向传播，λ为步长，

n表示对θ_i的第几轮更新，N为视频内的帧数，y_i为视频内第i帧图像的分类结果，x_i为视频内的第i帧；

S2.2：固定循环轮数n后得到的差值的绝对值小于给定的误差值eps，则不再更新，在所有循环结果中选出损失函数最大的一例对应的结果作为网络层面最终的视频对抗样本θ′_i，即视频的通用干扰值θ′_i。

4.一种针对视频识别场景的物理干扰系统，其特征在于，包括：

物理干扰模块：获取视频前，基于最终的视频对抗样本调节摄像设备在RGB通道的可调节滤镜，形成物理干扰，其中，最终的视频对抗样本为矩阵形式，获取视频前，将网络层面生成的通用干扰值θ′_i传输给可调节滤镜,实现物理干扰。

5.根据权利要求4所述的一种针对视频识别场景的物理干扰系统，其特征在于：

干扰模块从已授权的摄像设备中获取一段视频

将视频X输入白盒分类系统，得到视频中各帧图像的分类结果的集合Y＝{y₁,y₂,..,y_i,...,y_N}，其中，y_i表示视频X中第i帧图像的分类结果，y_N表示视频X中第N帧图像的分类结果；

将视频X和集合Y输入到对抗样本生成系统，使每帧图像生成作用在RGB通道的对应像素点上的干扰，即扰动θ＝{θ₁,θ₂,..,θ_i,...,θ_N}，将该扰动添加到视频上，得到初始化的视频对抗样本，其中，θ_i表示视频X中第i帧图像和分类结果y_i输入到对抗样本生成系统得到的扰动，θ_N表示视频X中第N帧图像和分类结果y_N输入到对抗样本生成系统得到的扰动。

6.根据权利要求5所述的一种针对视频识别场景的物理干扰系统，其特征在于：

优化模块基于视频X的每帧图像的分类结果y_i对θ_i进行更新；

更新方式：

其中，L为损失函数，即Lossfuction，

固定循环轮数n后得到的差值的绝对值小于给定的误差值eps，则不再更新，在所有循环结果中选出损失函数最大的一例对应的结果作为网络层面最终的视频对抗样本θ′_i，即视频的通用干扰值θ′_i。