CN117150551B

CN117150551B - 基于大数据的用户隐私保护方法和系统

Info

Publication number: CN117150551B
Application number: CN202311126567.9A
Authority: CN
Inventors: 罗土生; 江连丰; 裴雁平
Original assignee: Dongfang Soul Digital Technology Beijing Co ltd
Current assignee: Dongfang Soul Digital Technology Beijing Co ltd
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2024-02-27
Anticipated expiration: 2043-09-04
Also published as: CN117150551A

Abstract

本发明属于信息安全技术领域，具体涉及一种基于大数据的用户隐私保护方法和系统，本发明基于上下文推测环境信息或用户提供的上下文环境信息获取替代环境信息；基于替代环境信息获取匹配的图像编码器；使用图像编码器处理第一图像，获取具有和第一图像不一致内容呈现的第二图像；根据第二图像文件和第一图像的差异获取图像解码器，将图像解码器写入第二图像；所述上下文推测环境信息基于第一图像包含的隐私信息获取；所述隐私信息和所述替代环境信息不一致，所述第二图像中除人物外的图像包含和隐私信息提示不一致的图像内容。本发明的方法和系统可以提供对于用户隐私信息的保护。

Description

基于大数据的用户隐私保护方法和系统

技术领域

本发明属于信息安全技术领域，具体涉及一种基于大数据的用户隐私保护方法和系统。

背景技术

随着信息技术的快速发展和包括手机、计算机大量应用，可联网的用户设备信息可能被访问，相关的信息会被APP或者本地的可执行程序进行访问，这中间会带来个人隐私信息的泄露问题。

进一步的，由于用户端的资源满足不了个人需求时，用户的相关信息会被存储至云端，用来解决个人移动设备或者个人电脑运算速度慢和存储资源不足的问题，但是此过程可能带来账号安全隐患以及信息被三方访问的风险。

无论是本地手机或者云端存储的数据，当用户数据上传至第三方服务器后，用户就失去了对数据的直接控制。此外，通过对用户数据的特征提取，通过和其他数据进行交叉比对可以获取二次数据，通过此类数据可以获取关于用户的更多信息，从而提升了非用户掌控信息的风险等级。

发明内容

本发明的目的为克服现有技术中一个或者多个缺陷，提供一种基于大数据的用户隐私保护方法。

根据本发明的第一个方面，本发明公开了基于大数据的用户隐私保护方法，包括：

基于上下文推测环境信息或用户提供的上下文环境信息获取替代环境信息；

基于替代环境信息获取匹配的图像编码器；

使用图像编码器对第一图像分割后得到的子图像组进行编码，并对编码后的图像进行组合，获取具有和第一图像不一致内容呈现的第二图像文件；

根据第二图像文件和第一图像的差异获取图像解码器，将图像解码器写入第二图像；

所述上下文推测环境信息基于第一图像包含的隐私信息获取；

所述隐私信息和所述替代环境信息不一致，所述第二图像中除人物外的图像包含和隐私信息提示不一致的图像内容。

根据本发明的第二个方面，本发明公开了基于大数据的用户隐私保护系统，包括：

上下文环境获取单元，用于基于第一图像包含的隐私信息获取推测的上下文环境或用于获得用户提供的上下文环境信息；

替代环境信息获取单元，用于基于上下文推测环境信息或用户提供的上下文环境信息获取替代环境信息；

图像编码器获取单元，基于替代环境信息获取匹配的图像编码器；

第二图像生成单元，用于使用图像编码器对第一图像分割后得到的子图像组进行编码，并对编码后的图像进行组合，获取具有和第一图像不一致内容呈现的第二图像文件；

根据本发明的第三个方面，本发明公开了基于大数据的用户隐私保护系统，还包括：

解码器获取单元，用于从图像文件获得压缩后的图像解码器；

凭据获取单元，用于根据用户的凭据获得解压后的图像解码器；

图像还原单元，用于根据解压后的图像解码器对第二图像进行还原获得原始图像。

本发明具有如下的有益效果：

本发明针对原始的图像数据以及二次数据进行保护，通过提供混淆信息，将不一致的内容写入图像文件内，并通过图像内容的改写，实现了文件的可逆还原、隐私信息冲突内容的添加和防伪造。

附图说明

图1.本发明一个实施例中基于大数据的用户隐私保护方法示意图；

图2.本发明另一个实施例中基于大数据的用户隐私保护方法示意图；

图3.本发明一个实施例中对上文环境信息替换过程示意图。

具体实施方式

下面结合实施例并参照附图对本发明作进一步描述。

首先，对本发明涉及的一种实现进行说明。本发明的方法在用户端的设备所实施，用户通过这些设备进行图像的获取或处理。本发明的用户端的设备和服务器通过网络连接，服务器运行用于提供服务的程序。

在本发明中，服务器是在网络上提供、管理网络资源的设备，用户端的设备可指各种类型的装置，包括(但不限于)无线电话、笔记本电脑和台式机。不同用户端可接入一个系统中，实现用户数据的获取和共享。

请参考图1，在本发明的一个实施例内，基于大数据的用户隐私保护方法，包括：

基于上下文推测环境信息获取替代环境信息；

基于替代环境信息获取匹配的图像编码器；

根据第二图像文件和第一图像的差异获取图像解码器，将图像解码器写入第二图像文件；

请参考图2，在本发明的一个实施例内，基于大数据的用户隐私保护方法，包括：

基于用户提供的上下文环境信息获取替代环境信息；

基于替代环境信息获取匹配的图像编码器；

将图像解码器写入第二图像；

本发明针对原始的图像数据以及二次数据进行保护，通过提供混淆信息，将不一致的内容写入图像文件内，并通过图像内容的改写，实现了文件的可逆还原、和隐私信息冲突内容的添加和防伪造。

在本发明的一个实施例内，所述隐私信息通过文件的属性信息获得，所述图像的属性信息包括如下字段标题、描述、创建时间、关键字、语言、文件名称、文件路径、文件地址、修改时间、文件大小、相机制造商、相机型号、焦距、白平衡、纬度、经度、海拔和GPS方位中的一种或多种。

可以根据图像的上述信息获得一个或多个隐私信息，例如，根据创建时间可以选择季节，在用户区域确定时，例如时区和维度确定，则根据图库内图片的创建时间可以获得一个或者多个图片，所述的图库包含有多张图片，且每张图片和一个或者多个环境标签对应；这些环境标签在本地或者云数据库中属于一定的环境类别对应，同一环境类别下可以包括多个环境标签，例如，一个环境类别为乔木，其包括银杏、枫树等环境标签。由于本发明的目标是对原始的第一图像依据差异信息进行改写，因此，使用基于云端训练的超大参数模型显然可以满足本发明的需求，但是其对于客户端本地的需求过高，而针对隐私保护的需求，避免将客户的资源全部或者部分在脱离用户端进行处理，我们选用了具有代表性的图像编码器以进行处理，即在本地获取隐私信息，之后基于推测的上下文环境获得图像编码器和对应的图像解码器。为了进一步降低本地的工作量，本地对图像信息进行处理时，处理的对象为分割后的图像，而不是高分辨率的原图。

所述图像编码器可以根据关键字或类别在数据库内检索获得，在进行检索时，一个图像编码器和一个以上的关键字或者标识符进行关联，通过检索关键字或标识符以获得预训练的图像编码器。以前文的乔木信息为例，请参考图3，其过程为：

一个包含银杏树的图片经对象识别后，其包含银杏，“银杏”即为用户照片内包含的隐私信息，即用户到访的位置包含银杏树，图片或者图片的子图像和银杏树关联，即，本领域技术人员可以理解，基于多个图片和包含的对象上下文推测信息；

仍以银杏为例，在本地或者云端数据库检索获得银杏对应的环境类别，为乔木；而乔木为一个大的类别，其还包括多个如枫树、水杉、桃树等数目，选择“枫树”作为替代环境标签时，在本地或云数据库获得枫树作为替代环境信息，并在数据库内获得图像编码器。

所述图像编码器为在服务器侧基于对具有近似风格的图片进行机器学习获得，获得图像编码器用于对图片进行风格迁移。

如下为针对不同来源的隐私信息进行对应的编码器的提取。

第一个示例，编码器用于判断是否存在树木，来源为本地配置的关键字和图形特征；在使用本地配置的关键字时，一个实施方式为根据文件名称、GPS信息、海拔信息、色彩信息进行匹配，在考虑通用场景的境况下，只考虑是否为植物的识别任务与传统的图像识别具体类型的识别任务相比，无需考虑具体植物叶片的形状和间距的问题，从而将模型简化。一种实现方式为将图片按照像素进行划分为固定的大小（如30*30像素），使用本地模型判断对应的图片内是否存在树木。使用本地模型判断图片的分类并输出1时，这表明相应的图片包含树木，进而可以提供一个上下文描述的矩阵。如一个图片划分为M*N个子区域，则可以得到了树木特征序列A={A11，A12，A13……Aij……Amn},式中的i和j为脚标，用于标识特征的索引，该特征序列可以用于获取替代的树木信息；应当注意，此处的序列可能并不连续，因部分图像中不包含风格迁移的需求。

第二个示例，编码器用于判断背景是否包括天空，来源为白平衡和成片的色彩区域。可以通过本地的模型进行上下文的分析或者通过深度学习的方式进行。

例如，通过本地模型进行时，对图像进行分割，基于分割后图像中天空的颜色和位置信息，进行阈值判断，进而判断是否为天空。

通过深度学习的方式进行时，以常见的天气情况为例，按照常见的天气配置多个训练集，训练集中包括天空图像，由于天空图像内形状、边缘、颜色分布和普通的图像存在较大的差异，因此可以通过机器学习进行训练并进行模型压缩，得到可以用于图片分类的模型。对于图片背景中天空的识别相较于具有目标天气类型的判断简化了任务，可以减少模型的大小，进一步，通过控制准确率在可以接受的范围内，如96%，则可以进一步压缩模型。

近似的，可将图片按照像素进行划分为固定的大小（如30*30像素），使用本地模型判断是否对应的图片内是否包含天空。使用本地模型判断图片的分类并输出1时，这表明相应的图片包含树木，进而可以提供一个上下文描述的矩阵。如一个图片划分为M*N个子区域，则可以得到了天空特征序列A={A11，A12，A13……Aij……Amn},式中的i和j为脚标，该特征序列可以用于获取替代的天空信息。

第三个示例，选取根据分辨率进行。由于图像来源不一致，图像分辨率信息也不一致，通过获取分辨率可以获得图像大小信息的上下文信息，即使通过如资源管理器删除了创建程序的信息，但是仍然可以通过分辨率获得有用的信息，进一步获得针对不同分辨率的图像编码器。

在所属的上下文环境标签通过用户提供时，后文获取的图像编码器为根据用户提供的标签的同级别标签获得，其获取过程可以参考前文。

在采用不同的方式获得隐私信息时，获得了不同的上下文信息，例如前述的三个示例分别获得了树木在图片内的分布信息、天空在图片内的分布信息以及图片的尺寸信息，基于上述的信息可以推测对应的上下文信息，例如，图片内容中包含树木、室外以及使用高分辨率相机获得。

在获得推测的上下文环境后，可以基于本地预置的模型或者服务器根据标签匹配的模型进行替代环境和图像编码器的获取。此处的替代环境为和隐私信息对应上下文环境不一致的环境信息，例如，原始图像是在低纬度地区获得，但是通过提供在图像中置入不属于地域的干扰图像，通过此方式形成图像中不一致内容的表达或具备歧义的表达，从而防止图像在泄露后被非法利用。

替代环境的获取过程包括根据上下文环境得到一个或者多个标签，根据标签在本地嵌入的数据库内或者在服务器侧进行检索，获得上下文环境对应的环境类别，之后根据对应的环境类别获得和标签对应的一个或者多个环境标签。

本发明中，环境类别和环境标签通过大数据处理获得，大数据依赖大量输入的图像数据和图像数据的标签，通过机器学习的方式训练图像识别网络，之后部署于本地或者服务器；而图像类别被存储于服务器侧或者在安装程序时，设置于本地客户端的数据库内。所述的大数据模型为预训练的模型，所述的预训练为根据原始数据集进行训练的用于根据推测的上下文环境转换为替代环境信息的风格。

此处，所述的风格为图像的多种样式的呈现，基于风格转换算法可以实现图片中天空颜色的变化、修饰物的变化、植物品种的变化等，常见的风格变化如常见的修图软件提供的如年龄变化、风景风格变化、滤镜等，本发明使用的图像编码器用于根据原始图像生成具有和目标图像具有近似外观的图像。生成近似图像的目的为不改变原有图像的上下文合理性，但图像并不是在真实环境中所获得，且在信息进行分析时，具有不一致性。

转换可能发生如下，服务器侧通过公开数据集获得多组图像，每组图像都具有标签，对网络进行训练时，主要基于：

提供目标图片，用于形成编码器，将所述目标图片输入预先训练的卷积神经网络，所述卷积神经网络用于提取图像特征；

将所述卷积神经网络中至少一个卷积层输出的矩阵，作为所述待处理图片的内容特征；所述训练好的卷积神经网络可以用对输入图像进行风格转换，定义损失函数欧式距离为风格的距离，即目标图像经过编码器所提取的特征与输出的图之间的欧氏距离损失，通过最小化欧氏距离来实现风格的转换。

在进行转换时，由于所处理的对象具有近似的标签，从而使得，在原图和目标风格质检转换通过有限次的转换即可实现。

已有国产开源的项目如飞桨提供了模型的训练和优化套件，上述的方案可以参考相应的开发文档。所述的训练可以于GPU、CPU或者专用芯片上进行，通过进行训练来获取可用的模型，在通过对模型进行压缩，提供的模型可以在用户侧进行图片的压缩。

本发明针对的图像为小尺寸的图像，其降低了计算机处理的负荷。对于个人计算机，在显存满足2G时，已经可以较快的实施一些风格变化图像的生成。而本发明的应用场景并不是从关键字或者上下文获取一个全新的图像，而是在现有图像基础上形成新的风格的图像，基于此图像的关注点进行新的局部区域的重绘，绘图区域的大小和模型大小均和目前的AIGC有较大的差异，且所处理的图像分辨率均较低，因此，对应硬件和CPU的要求较低。

在进行替代环境信息获取时，可以由本地发起执行对于替代环境信息的需求，或者由本地发起包含推测上下文环境的请求。

当由本地发起执行对于替代环境信息的需时，服务器返回对应训练好的模型；而由本地发起包含推测上下文环境的请求时，服务器接受的参数可能为多个特征序列A，对特征序列A进行解析，并在数据库内检索获得替代环境信息，并返回训练好的模型。

客户端在接收到服务器返回的用于对图像进行编码的训练好的模型，基于选用的图像编码器对图像进行处理，从而实现改变图像的实际呈现效果。

所述第二图像为在画布上对第一图像进行重绘获得，在完成重绘后，隐私信息在一定程度上被消除；或者经过对第一图像分割后的子图像分别重绘后按照其在第一图像内的排布重新组合后得到。将原始图像和第二图像进行对比，可以获得一个差值图像，基于此图像可以实现对于第二图像向第一图像的还原和解码。

所述的差值图像可以被写入图像内，在图像被攻击后，如果差值图像丢失，则图像无法被还原，进而防止了真实图像的泄露。

根据本发明的一个实施例，所述图像包含的隐私信息为图像属性信息或者通过对图像的内容进行识别获得。

通过图像属性信息获得时，所述文档的属性信息包括如下字段：标题、描述、创建时间、关键字、语言、文件名称、文件路径、文件地址、修改时间、文件大小、相机制造商、相机型号、焦距、白平衡、纬度、经度、海拔和gps方位中的一种或多种。

通过上述的属性可以在不使用机器学习的模型下获得图像生成时的上下文环境。

尽管操作系统提供了操作属性的方式，例如可以通过资源管理器来删除属性和个人信息，如果用户具备相应的意识和能力，则其具备更好的个人信息管理的策略和更高的风险意识，则本发明因在缺少必要的文档属性的条件和排除模型识别介入时，仅可以提供有限的协助。在大多数情况下，用户在文件被保存至便携式计算机后，不对文件进行属性的操作，从而使得获取原始的信息成为可能。

在使用图像的内容进行识别获得隐私信息时，基于对图像进行分割，并针对分割后的图像使用预制的模型进行匹配，对于常规图像，如4k、8k图像的识别需要消耗大量的资源，但是对于小尺寸的图像，例如64*64或者36*36，并通过选择常用的场景以缩小计算任务的量，可使在个人计算机侧不依赖较高的算例即可以实现上下文信息的提取。

其具体可以包括，基于图像分割获取得到的若干个对象图像，遍历分割得到的若干个图像对象，至少获得一个上下文环境的标签，所述上下文环境的标签和至少一个分割得到的图像对象关联，所述的上下文环境的标签用于获得本地预置的替代环境信息，所述替代环境信息和上下文环境的语义近似度低于预设值；或所述的上下文环境用于服务器侧的替代环境信息，其和上下文标签的语义近似度不一致。

例如，图像被分割并使用天气分类器对其进行分类，获得照片内呈现的天气，则天气信息对应的标签为图像包含的隐私信息，并且作为原始数据，其语义呈现和上下文提示信息一致性为100%。

植物的树干和植物的树叶、花朵以及其他绿植呈现一定的相关性，通过切割的图像具有原始上下文提示信息的一致性，但是通过风格迁移使得一个图像内的树木的细节看起来更像另外一种植物，则上下文提示信息一致性会发生下降，真实信息被隐藏。

照片分割后，得到的图像分辨dpi信息和原图一致，整体具有一致性，但是按照规则对像素进行合并降低实际的分辨率，虽然整体上和原图具有一致性，但是其解析度发生了变化，出现了上下文的不一致。

根据本发明的一个实施例，对第一图像进行分割，获得待分类的图像列表；

对待分类的图像列表中的每一子图像进行上下文信息提取，获得和子图像对应上下文推测环境信息；

根据子图像和与子图像对应上下文推测环境信息获得替代环境信息，

根据替代环境信息获得对应的图像编码器；

根据图像编码器对和替代环境信息对应的子图像进行编码，获得第二图像。

在本发明的一个实施例中，一个图像被分割若干个100*100像素区域的图像，对于尺寸不满足此尺寸大小的图像不进行处理，例如对于一个5000万像素的相机，图像传感器获得图像分辨率为8192*6144，对其分割可以获得81*61个图像尺寸为100*100像素的区域，这些子图片将会被分析以获得上下文推测环境信息；而不满幅的子图像被原样写入第二图像。

客户端可以配置为保存若干常用的用于推测上下文环境的分类模型，例如上文提及的针对常见物体、背景、植物的预训练的神经网络模型，所述的预训练为在服务器端训练，并在本地部署使用，预训练模型时，对于准确度的需求可以降低，以降低资源的消耗，使得分类过程可以在客户端被执行。

匹配的图像编码器可以基于用户的配置、指示获得或者自动获得。

基于用户的配置获得时，可以在一个可执行程序的配置文件内设置常用的上下文获取模型，并使得其中部分或者全部上下文获取模型是使能的状态，根据当前使能的上下文获取模型生成上下文获取模型列表，对第一图像进行分割，获得待分类的图像列表M，遍历待分类的图像列表中的每一张图像Mi∈M，使用上下文获取模型列表包含的上下文获取模型处理对图像Mi进行分类，如果存在对应的分类则加入图像Mi对应的标签列表，并得到和每一张图像Mi对应的上下文标签列表，基于上下文标签列表可以获得标签和标签的数目，所述的标签在本地的SQLite数据库内和一个环境类别对应，且一个环境类别和两个以上的标签对应，在本地数据库内进行检索，获得标签所属的类别，根据标签所属的类别获得属于统一环境类别但不同于原始标签的其他标签N作为替代环境信息，根据替代环境信息选取对应的图像编码器，获得和每一张图像Mi对应的替代环境信息列表；分别对每一张图像Mi使用替代环境信息进行编码，从而第一图像中的内容被替换，得到和第一图像原始内容不一致呈现的第二图像；在应用编码过程中，每一张图像Mi被替代环境信息对应的编码器进行编码，得到风格迁移的新图像。

上述的执行方法也可以更改为基于用户的指示获得，可以在一个可执行程序的配置文件内设置常用的上下文获取模型，并使得其中部分或者全部上下文获取模型是使能的状态，根据当前使能的上下文提示选择选用一个或者多个分类模型，并获取用户选择的模型生成上下文获取模型列表，对第一图像进行分割，获得待分类的图像列表M，遍历待分类的图像列表中的每一张图像Mi∈M，使用上下文获取模型列表包含的上下文获取模型处理对图像Mi进行分类，如果存在对应的分类则加入图像Mi对应的标签列表，并得到和每一张图像Mi对应的上下文标签列表，基于上下文标签列表可以获得标签和标签的数目，所述的标签在本地的SQLite数据库内和一个环境类别对应，且一个环境类别和两个以上的标签对应，在本地数据库内进行检索，获得标签所属的类别，根据标签所属的类别获得属于统一环境类别但不同于原始标签的其他标签N作为替代环境信息，根据替代环境信息选取对应的图像编码器，获得和每一张图像Mi对应的替代环境信息列表；分别对每一张图像Mi使用替代环境信息进行编码，从而第一图像中的内容被替换，得到和第一图像原始内容不一致呈现的第二图像；在应用编码过程中，每一张图像Mi被替代环境信息对应的编码器进行编码，得到风格迁移的新图像。

上述的执行方法也可以更改为基于自动匹配获得，可以在一个可执行程序的配置文件内设置常用的上下文获取模型，并通过更新或者用户手工下载的方式维护本地的模型，并使得其中部分或者全部上下文获取模型是使能的状态或者全部使能，获取所有使能的得到分类模型列表，对第一图像进行分割，获得待分类的图像列表M，遍历待分类的图像列表中的每一张图像Mi∈M，使用上下文获取模型列表包含的上下文获取模型处理对图像Mi进行分类，如果存在对应的分类则加入图像Mi对应的标签列表，并得到和每一张图像Mi对应的上下文标签列表，基于上下文标签列表可以获得标签和标签的数目，所述的标签在本地的SQLite数据库内和一个环境类别对应，且一个环境类别和两个以上的标签对应，在本地数据库内进行检索，获得标签所属的类别，根据标签所属的类别获得属于统一环境类别但不同于原始标签的其他标签N作为替代环境信息，根据替代环境信息选取对应的图像编码器，获得和每一张图像Mi对应的替代环境信息列表；分别对每一张图像Mi使用替代环境信息进行编码，从而第一图像中的内容被替换，得到和第一图像原始内容不一致呈现的第二图像；在应用编码过程中，每一张图像Mi被替代环境信息对应的编码器进行编码，得到风格迁移的新图像。

根据本发明的一个实施例，在子图像发生内容变更，且基于内容变更后的子图像获取的上下文推测环境信息未发生变化时，对更新后的子图像进行编码。

通过此方式可以避免在存在多个图像编码器时，因在先的风格迁移的图像引起了上下文发生了明显变化时，使用在后的图像编码器对图像进行编码时造成图像明显不一致的缺点。

此时对于图像的遍历风格转换步骤具体可为：

对第一图像进行分割，获得待分类的图像列表M，遍历待分类的图像列表中的每一张图像Mi∈M，使用上下文获取模型列表包含的上下文获取模型处理对图像Mi进行分类，如果存在对应的分类则加入图像Mi对应的标签列表，并得到和每一张图像Mi对应的上下文标签列表，基于上下文标签列表可以获得标签和标签的数目，所述的标签在本地的SQLite数据库内和一个环境类别对应，且一个环境类别和两个以上的标签对应，在本地数据库内进行检索，获得标签所属的类别，根据标签所属的类别获得属于统一环境类别但不同于原始标签的其他标签N作为替代环境信息，根据替代环境信息选取对应的图像编码器，获得和每一张图像Mi对应的替代环境信息列表；

每一张图像Mi使用替代环境信息列表内的编码器进行编码，在进行编码前，判断子图像Mi是否被更改，如果未更改，应用编码器，子图像Mi被替代环境信息对应的编码器进行编码，得到风格迁移的新图像；如果子图像Mi已经被更改，获取当前待应用的编码器对应的替换环境信息对应的k个标签类别N={N1,N2,N3...Nk}，使用上下文获取模型列表包含的上下文获取模型处理对图像Mi进行分类，在分类结果包含N中的元素时，对该子图像进行风格迁移处理；遍历所有的子图像直至所有的子图像被替换为风格迁移的图像。

根据本发明的一个实施例，根据第二图像文件和第一图像的差异获取图像解码器包括将第二图像文件和第一图像进行比较，以获取图像之间的差异，基于差异可以将第二图像文件还原为第一图像，在进行解码器的构建时，可以按照划分后的各个子图像进行，或者按照整张图片进行处理。

根据本发明的一个实施例，所述图像解码器存储于图片压缩对象的文件末尾。

本发明中图像解码器可以和图片一起被存储，或者被单独的存储。在被单独的存储时，可以避免暴力破解的风险，在和图片一起被保存时，可以避免解码器丢失的风险。

由于图像文件中多数协议格式中，数据的长度在文件头中被规定。在数据长度后的内容不会被解析，因此可以通过此方式将解码器保存在图片文件内而不影响图像数据的解析。

在本发明的一个实施例中，所述图像解码器为替换前的子图像，在进行图像还原时，将相应的图像写入对应位置即可获得原始图像。

在本发明的另外一个实施例中，所述图像解码器为替换后子图像Mi'和原子图像Mi的RGB值的差值矩阵，在进行图像还原时，将相应的图像对应位置的rgb值分别和解码器进行加和即可以获得原始图像。

在本发明的一个实施例中，所述图像解码器为替换后子图像Mi'和原图像Mi的RGB值的差值矩阵，通过对图像进行尺寸变换，并进行重绘去除隐藏信息，得到的图像无法通过原始的解码器还原。即在一个程序执行预期外的图像操作时，由于发生了对原始内容的攻击，图像的真实信息会被消除。

根据本发明的一个实施例，使用用户提供的凭据对图像解码器进行压缩。

通过此方式可以避免用户外的操作者对数据进行还原。压缩使用的算法应用于经重新布置的解码器序列，使用诸如LZMA、bzip2、Snappy、Gzip、Lempel-Ziv-Oberhumer(LZO)等编码器进行。

进行压缩时，可以通过提示用户使用凭据，例如输入密文来实现加密存储图像解码器。

用户提供的密钥可是固定的，用户可以基于固定密钥对加密的图像进行解密，固定的密钥可以被凭据管理器所储存。

在执行解密时，从图像文件的文件头读取文件的有效图像数据长度，在图像数据后的区域为解码器区域，根据加密后的二进制文件的头获取加密信息，并通过API对其进行解密获得原始的信息。

根据本发明的一个实施例，基于大数据的用户隐私保护系统，包括：

根据本发明的另一个实施例，提供的基于大数据的用户隐私保护系统，还包括：

解码器获取单元，用于从图像文件获得压缩后的解码器；

在本发明的一个实施例中，首先根据图像的头信息获得图像数据文件的长度，并根据数据文件的起始偏移和获得压缩后的解码器；如果压缩后的解码器长度为0，则代表原始数据已经被更改，无法还原；

凭据获取单元，用于根据用户的凭据获得解压后的图像解码器；由于不同的压缩文件具有不同的文件头，如7z固定为0x377A，首先尝试无密码的情况下进行解压，如果解压失败，则提示用户输入凭据；输入凭据方式为通过对话框或者选择文件的方式进行；

图像还原单元，用于根据解压后的图像解码器对第二图像进行还原获得原始图像；在进行还原时，使用解压后的图像解码器，在对应的位置分别和图像解码器包含的矩阵中的值相加减，从而使图像被还原。

已依据计算机存储器内的数据位的操作的算法和符号表示呈现了先前详细描述的一些部分。这些算法描述和表示是数据处理领域的技术人员用以将其工作的主旨最有效地传达给所属领域的其他技术人员的方式。算法在这里并且通常被认为是引起所要结果的操作的自洽序列。操作是要求对物理量进行物理操纵的操作。这些量通常但未必呈能够被存储、组合、比较和以其它方式操纵的电或磁信号的形式。主要出于常见使用的原因，有时将此些信号称为位、值、要素、符号、字符、项、数字等已证实是方便的。

然而，应牢记，所有这些和类似术语应与适当物理量相关联，且仅是应用于这些量的方便的标签。本公开可参考将表示为计算机系统的寄存器和存储器内的物理(电子)量的数据操纵和变换为类似地表示为计算机系统存储器或寄存器或其它此类信息存储系统内的物理量的其它数据的计算机系统或类似电子计算系统的动作和过程。

本公开还涉及一种用于执行本文中的操作的设备。此设备可以出于既定目的而专门构造，或其可包含由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机。此计算机程序可存储在计算机可读存储媒体中，例如(但不限于)任何类型的盘(包含软盘、光盘、CD-ROM和磁光盘)、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡，或适合于存储电子指令的任何类型的媒体，它们各自耦合到计算机系统总线。

本文中呈现的算法和显示并不与任何特定计算机或其它设备在本质上相关。各种通用系统可根据本文中的教示与程序一起使用，或可证明构造更专用的设备来执行所述方法是方便的。将如下文描述中所阐述的那样来呈现多种这些系统的结构。另外，不参考任何特定编程语言来描述本公开。应了解，可使用多种编程语言来实施本文中所描述的本公开的教示。

本公开可以提供为计算机程序产品或软件，其可包含在其上存储有指令的机器可读媒体，所述指令可以用于编程计算机系统(或其它电子装置)以执行根据本公开的过程。机器可读媒体包含用于以机器(例如，计算机)可读的形式存储信息的任何机制。在一些实施例中，机器可读(例如，计算机可读)媒体包含机器(例如，计算机)可读存储媒体，例如只读存储器(“ROM”)、随机存取存储器(“RAM”)、磁盘存储媒体、光学存储媒体、快闪存储器组件等。

在以上说明书中，本公开的实施例已经参考其特定的实例实施例进行描述。将显而易见的是，可以在不脱离如所附权利要求书中阐述的本公开的实施例的更广精神和范围的情况下对本公开做出各种修改。因此，应在说明性意义上而非限制性意义上看待说明书和图式。

Claims

1.一种基于大数据的用户隐私保护方法，其特征在于，包括：

基于替代环境信息获取匹配的图像编码器；

所述隐私信息和所述替代环境信息不一致，第二图像中除人物外的图像包含和隐私信息提示不一致的图像内容；

所述上下文推测环境信息基于第一图像包含的隐私信息获取具体包括：

对第一图像进行分割，获得待分类的图像列表；

所述基于替代环境信息获取匹配的图像编码器具体包括：

获取上下文推测环境信息或用户提供的上下文环境信息对应的环境标签和环境类别；

根据环境类别获得不同于环境标签的替代环境标签；

根据替代环境标签获得替代环境信息和对应的图像编码器。

2.如权利要求1所述的基于大数据的用户隐私保护方法，其特征在于，所述图像包含的隐私信息为图像属性信息或者通过对图像的内容进行识别获得。

3.如权利要求1所述的基于大数据的用户隐私保护方法，其特征在于，在对子图像进行编码前，判断子图像是否发生了内容的变更；

在子图像发生内容变更，且基于内容变更后的子图像获取的上下文推测环境信息未发生变化时，对更新后的子图像进行编码。

4.如权利要求1所述的基于大数据的用户隐私保护方法，其特征在于，所述图像解码器被压缩后存储于第二图像文件的末尾。

5.一种基于大数据的用户隐私保护系统，其特征在于，包括：

所述隐私信息和所述替代环境信息不一致，所述第二图像中除人物外的图像包含和隐私信息提示不一致的图像内容；

所述的上下文推测环境信息基于第一图像包含的隐私信息获取具体包括：

对第一图像进行分割，获得待分类的图像列表；

所述的基于替代环境信息获取匹配的图像编码器具体包括：

根据环境类别获得不同于环境标签的替代环境标签；

根据替代环境标签获得替代环境信息和对应的图像编码器。