CN114662157A

CN114662157A - 社交文本数据流的块压缩感知不可区分性保护方法及装置

Info

Publication number: CN114662157A
Application number: CN202210573648.2A
Authority: CN
Inventors: 魏建好; 叶松涛; 李小龙; 李闯; 吴鑫
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-06-24
Anticipated expiration: 2042-05-25
Also published as: CN114662157B

Abstract

本发明提供了一种社交文本数据流的块压缩感知不可区分性保护方法及装置，包括：步骤1，对社交文本数据流进行采集和预处理，构建一个包含多属性的数值型矩阵；步骤2，采用多属性社交数据流自适应分块压缩方法对多属性数值型矩阵进行自适应分块和压缩处理；步骤3，构建面向压缩属性块矩阵的HST动态索引树；步骤4，对压缩属性块矩阵进行本地化扰动隐私保护，外包扰动的社交文本数据流给服务器进行挖掘分析；实现社交文本数据流的本地隐私保护和数据可用性之间的平衡。此外，本发明还提供了相应的保护装置，推动社交网络平台高质量安全应用推广。

Description

社交文本数据流的块压缩感知不可区分性保护方法及装置

技术领域

本发明涉及信息安全领域与社交网络领域，特别涉及一种社交文本数据流的块压缩感知不可区分性保护方法及装置。

背景技术

随着物联网和社交网络的兴起，社交用户在社交网络上持续发布大规模的社交文本数据给社交网络服务器，形成多属性社交文本数据流，包括社交用户的个人属性和兴趣爱好等信息。例如，作为世界上最大的社交平台，Facebook的月活动用户为22.3亿人次，每天发布600TB的社交文本数据流；流行的Twitter社交服务平台每月活动用户数高达3.26亿，每天产生5亿条社交推文数据。当前，面向社交文本数据流的服务已经广泛应用到各种社交领域中，如Facebook、Twitter、领英、微博、微信等平台。社交网络服务器根据社交用户外包的多属性社交文本数据流，可以执行各种挖掘分析，如朋友推荐、热点话题推荐、广告推送等服务。

然而，社交用户的多属性社交文本数据流包含用户较多的个人敏感隐私（如：年龄、位置、社交关系等），社交服务器受到攻击或谋求私利会将敏感隐私数据泄露给攻击者，造成严重的隐私泄露问题。通过获取的公开社交数据，攻击者可以执行身份盗窃和目标跟踪。此外，基于属性链接攻击，社交用户的兴趣爱好和位置信息隐私将被泄露，这导致他们将不再参与社交网络服务。因此，为实现社交网络服务高质量推广应用，保护多属性社交文本数据流隐私已成为社交用户非常关注和急需解决的热点问题。

为保护社交数据隐私，传统的隐私保护方法主要关注社交图结构数据的顶点隐私和边隐私保护。然而这些社交图数据隐私保护方法不能抵御用户链接攻击，攻击者可以获取社交文本数据以推断社交用户隐私。为了保护社交文本数据流隐私，已有匿名方法不能阻止推理攻击和最大背景知识攻击。加密方法只能允许具有密钥的用户获取密文数据，限制了可信但无密钥用户对数据的可获取性。已有差分隐私方法采用可信第三方收集和扰动所有用户的社交数据。然而，一旦可信第三方被攻击，所有社交用户的数据隐私将被泄露，因此社交用户更愿意在本地保护个人数据隐私。尽管本地差分隐私可以在本地添加或者删除数据，以允许社交用户在本地保护数据隐私，然而添加或删除数据会导致数据可用性不高。此外，社交用户通过社交平台持续发布社交文本数据流，会泄露更多的用户隐私。现有隐私保护方法主要关注静态社交文本数据隐私，没有考虑多属性社交文本数据流的隐私保护问题，存在隐私泄露风险。

发明内容

本发明提供了一种社交文本数据流的块压缩感知不可区分性保护方法及装置，其目的是为了解决现有隐私保护方法存在的没有考虑多属性社交文本数据流的问题，实现多属性社交文本数据流的本地隐私保护，提高社交网络平台应用的安全有效性。

为了达到上述目的，本发明提供了一种社交文本数据流的块压缩感知不可区分性保护方法，包括：

步骤1，对社交文本数据流进行采集和预处理，构建一个包含多属性的数值型矩阵；

步骤2，基于多属性社交数据流自适应分块压缩方法对多属性数值型矩阵进行自适应分块和压缩处理；

步骤3，构建面向压缩属性块矩阵的HST动态索引树；

步骤4，计算压缩属性块矩阵在HST动态索引树中具有公共祖先的叶子节点的扰动概率

和

，扰动概率需满足下式，

其中，

和

为任意两个压缩属性块矩阵

和

映射的叶子节点，与所述节点节点

的具有公共祖先的叶子节点集为

，设定

为公共祖先距离，给所述节点

扰动的叶子节点

赋予权重

，所述公共祖先叶子节点集

有

个叶子节点，则与节点

具有公共祖先的所有叶子节点的总权重为

，

为隐私预算。社交用户在本地根据属性块矩阵的扰动概率选择具有高可用性的扰动叶子节点，并外包给社交服务器执行挖掘分析。

其中，步骤1包括：

采用n-grams算法提取单个时间点的属性关键词，并计算属性关键词权重，产生数值型矩阵中该时间点的属性行向量,将整个社交文本型数据转化为数值型矩阵，构建一个包含多属性的数值型矩阵。

其中，步骤2包括：

基于块压缩感知方法，计算数值型矩阵的稀疏度均值偏差，并动态调整阈值，根据计算出的稀疏度均值偏差进行自适应分块构造块测量矩阵，基于块测量矩阵将高维的多属性数值型矩阵压缩成低维的属性块矩阵。

其中，步骤3包括：

根据属性块矩阵之间的欧式距离对其进行聚类，构建HST动态索引树结构，基于HST动态索引树，社交用户在本地实现将个人社交文本数据映射到HST动态索引树的叶子节点中。

本发明还提供了一种社交文本数据流的块压缩感知不可区分性保护装置，包括文本处理模块、数据流自适应分块压缩模块、HST动态索引模块以及基于PC机搭建的社交服务器；

其中，文本处理模块，用于对社交文本数据流进行采集和预处理，构建一个包含多属性的数值型矩阵；

数据流自适应分块压缩模块，采用多属性社交文本数据流自适应分块压缩方法对多属性数值型矩阵进行自适应分块和压缩得到属性块矩阵；

HST动态索引模块基于聚类算法，根据欧式距离，将历史的压缩属性块矩阵流进行聚类，构建HST动态索引树，用于将个人的压缩属性块矩阵映射到HST动态索引树的叶子节点中，构建和更新本地索引。

社交用户通过个人移动设备对社交APP客户端产生的多属性社交文本数据流进行采集，通过所述文本处理模块、数据流自适应分块压缩模块产生压缩属性块矩阵，基于历史的压缩属性块矩阵，构造HST动态索引模块后，基于所述HST动态索引模块的块压缩感知将压缩属性块矩阵映射的叶子节点进行扰动，并外包扰动的叶子节点给社交服务器进行挖掘并分析，所述社交服务器将挖掘分析结果推荐给社交用户。

本发明的上述方案有如下有益效果：

基于块压缩感知技术，对高维稀疏的数值型矩阵进行自适应分块和压缩，获得低维的压缩属性块矩阵，从而降低了系统开销。将历史的压缩属性块矩阵构造成HST动态索引树结构，提高了社交数据的查询效率。设计基于HST动态索引树的块压缩感知不可区分性机制来保护隐私，最终，实现社交文本数据流本地化隐私保护的同时，取得高数据可用性。此外，本发明还提供了相应的保护装置，促进社交网络平台高质量安全应用推广。

附图说明

图1为本发明社交文本数据流的块压缩感知不可区分性保护方法的流程图；

图2为本发明社交文本数据流的块压缩感知不可区分性保护装置的框架图；

图3中的（a）为本发明实施例稀疏度-测量矩阵维度曲线；图3中的（b）为测量矩阵维度-信号恢复的正确性曲线；

图4中的（a）为本发明实施例在不同隐私预算下的准确度曲线；图4中的（b）为本发明实施例在不同属性关键词个数下与现有技术的准确度对比曲线；图4中的（c）为本发明实施例在不同均值偏差阈值下与现有技术的准确度对比曲线。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是锁定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明针对现有的问题，提供了一种社交文本数据流的块压缩感知不可区分性保护方法。

如图1所示，本发明的实施例提供一种社交文本数据流的块压缩感知不可区分性保护方法，包括：

步骤3，构建面向压缩属性块矩阵的HST动态索引树；

步骤4，对压缩属性块矩阵进行本地化扰动保护，供数据用户对扰动的多属性社交文本数据流进行挖掘分析。

具体来说，步骤1中多属性社交文本数据流的特点是：仅匿名化的多属性社交文本数据不能抵御用户链接攻击；社交服务器不能直接对噪杂、无结构的文本数据进行挖掘分析；因此本实施例对社交文本数据流进行如下处理：

（1）删除社交文本数据流中的一般词和停顿词；例如，社交用户

在时刻

发布文本数据流“我喜欢从事软件开发、系统设计或网页制作等工作。”，基于停顿词列表，{"我"、"喜欢"、"从事"、"或"}被删除；

（2）采用2-grams技术将数据流分割为连续2-grams序列{"软件开发"、"系统设计"、"网页制作"}，基于PID思想和w-event差分隐私技术，将每个2-grams作为一个属性关键词，得到用户

在w窗口内的文本属性流；为降低计算和存储开销，选择出现次数最多的Top-m个属性2-grams；

（3）基于IF×IDF方法，计算时刻

的社交属性

的权重

。

具体用

表示社交属性

在时刻

出现的次数，

表示包含属性

的时间点个数：用

表示数值型矩阵

的第

行属性向量。给定参数

，计算数值型矩阵

中的权重元素

如下：

(1)

步骤2中基于多属性社交数据流自适应分块压缩方法对多属性数值型矩阵进行自适应分块和压缩处理。由于将文本属性数据流转化为数值型矩阵仍会遭到用户链接攻击而泄露隐私。实际中，社交用户发布的社交文本数据流一般仅包含少数属性关键词，即数值型矩阵

具有稀疏性，如果直接对

的每个元素添加噪声，会带来高维数据的低可用性问题。为降低开销，基于块压缩感知，对社交数据流矩阵进行压缩，包括：稀疏度计算、自适应分块和测量矩阵构造压缩。采用一维离散余弦变换方法计算正交基矩阵

，对每行属性向量

，根据压缩感知性质，

，则稀疏信号

，得到稀疏度

。

将属性数据流数值型矩阵

自适应分块，由于不同属性流向量的稀疏度不同，直接将数值型矩阵划分为

的块矩阵(

)，将导致划分的矩阵块稀疏度不平衡，数据可用性低。考虑属性流向量实时动态性和稀疏度变化，采用均值偏差

评估当前

时刻属性流向量

的稀疏度

与其

时间窗口内稀疏度平均值的误差，即：

（2）

当均值偏差

较大时，认为属性流向量

的稀疏度

变化较大，具有更强的敏感性。当新属性流向量

到来时，执行如下两种情形操作：

（1）若均值偏差

大于阈值

，对

进行采样和自适应分块。为自适应划分属性流向量，基于自适应分块方法计算块向量的维度：

（3）

其中参数

为分配的隐私预算和

为常数。则属性向量

划分

块。将划分的属性块向量构造成

的属性块矩阵

；

（2）若均值偏差

小于阈值

，认为属性数据流向量

变化比较平稳，敏感性不强，不进行采样，以提高隐私预算分配率。

为满足多属性社交文本数据流的自适应性，基于w-event差分隐私思想，结合均值偏差

和隐私预算

自适应更新阈值

。当

较大或者

较小时，则扰动数据流添加的噪声较多。因此，减小阈值以增加采样数据集的大小，平滑过多的噪声，这符合实际情况。

接着，通过自适应分块构造块测量矩阵，并压缩属性块矩阵。由于Toeplitz矩阵的计算和存储开销较低且满足RIP条件，针对

时刻的属性块矩阵

，采用Toeplitz矩阵构造

的块测量矩阵

。为准确恢复属性块矩阵，块测量矩阵

的维度

需要满足:

，其中

是常数，

为块矩阵的第

列属性向量稀疏度。当

时，通过下图3性能评估发现：

随着

的增大而增大，较高的压缩信号恢复正确性要求较小的

。因此，在相同恢复正确性下，为降低存储开销，

应尽可能小，设定

。基于块压缩感知性质，计算压缩属性块矩阵

。

为提高多属性社交文本数据流的查询效率，对压缩的属性块矩阵数据流建立HST动态索引树。为满足社交用户端本地构建数据索引和降低开销，利用社交服务器收集的历史多属性数据流压缩属性块矩阵，按照从根节点到叶子节点的顺序依次构造HST动态索引树结构，具体如下：

1）设定根节点为第

层，叶子节点为第1层，根节点包含

个历史压缩属性块矩阵集

，叶子节点包含一个压缩属性块矩阵；

2）计算HST动态索引树的深度为：

（4）

其中，

为压缩属性块矩阵之间的最大切比雪夫距离;

3）在第

（

）层，基于欧式距离

，以数据集的第一个属性块矩阵为中心进行聚类，直至所有的块矩阵都聚类到相应类别中,将该层节点为父节点按照此步骤继续构造下一层。

基于上述步骤，给定压缩属性块矩阵集

，在第

层中，将与

欧式距离小于

的压缩属性块矩阵聚类为

。剩下的块矩阵集

以

为中心，以

为距离进行聚类得到

；在第

层，分别以

和

为父节点，继续进行下一层聚类操作。

为支持多属性压缩块矩阵数据流的动态更新，以添加噪声的方式对空节点进行填充，将HST动态索引树构造成完全树，完全树中第

层孩子节点和第

层父节点之间的距离为

。当有压缩属性块矩阵更新时，只需更新对应的叶子节点和父节点，降低了系统更新开销。每个社交用户可以从社交服务器下载HST完全索引树用于本地数据流块矩阵隐私保护和索引构建。

为本地保护社交文本数据流隐私，提出基于HST动态索引树的块压缩感知，在本地对压缩属性块矩阵进行扰动。首先，将

时刻采样的压缩属性块矩阵

映射到与它欧式距离最小的HST动态索引树的叶子节点

中。基于最近公共祖先思想，针对叶子节点

，在第

层中(

)与其具有共同祖先的叶子节点有

个，记为

。则

中任意叶子节点和

的公共祖先距离为

。受地理不可区分性机制启发：对任意两个压缩属性块矩阵

和

映射的叶子节点

和

，定义隐私预算

，

是节点

和

可能扰动的具有公共祖先的叶子节点，若算法取得

块压缩感知不可区分性，当且仅当扰动概率

和

满足：

（5）

本实施例需计算扰动概率

和

来实现基于HST动态索引树的块压缩感知不可区分性机制。

具体对公共祖先叶子节点集

中扰动的叶子节点

赋予权重

，以提高数据可用性。由于公共祖先叶子节点集

有

个叶子节点，与节点

具有公共祖先的所有叶子节点的总权重为

。所以

。

通过上述过程可得出扰动概率比：

即满足块压缩感知不可区分性机制；社交用户可以在本地根据属性块矩阵的扰动概率选择具有高可用性的扰动叶子节点，并外包给社交服务器执行挖掘分析。

当

较大时，由于隐私预算

，压缩属性块矩阵流隐私将被泄露。

因此给出

有上界：

，

。

的上界由压缩属性块矩阵

和

的欧式距离

上界决定。

给定

和

，

（

为块矩阵第

列向量)。基于块压缩感知，压缩权重

，其中

是块测量矩阵

的第

行向量，元素

。原始属性块向量

，根据前面公式（1），

，则计算：

即得到

，有上界。实际中，每个属性向量包含的属性值个数远小于

个所有属性关键词，因此

。社交用户可以选择合适的

，确保扰动的多属性社交文本数据流不能被区分。

为评估本实施例设计方案的性能，基于真实的Twitter社交推文数据流集，采用不同的参数：如隐私预算

和

、属性关键词个数

和均值偏差阈值

，评估本实施例对扰动的多属性社交文本数据流进行挖掘分析中的正确性，实验结果如图4所示。

基于不同参数下的实验评估结果对比，本实施例对扰动的多属性社交文本数据流进行挖掘分析的正确性高达93.27%，优于已有先进的文本不可区分性机制对静态文本数据的正确性。因此，本实施例在本地保护多属性社交文本数据流隐私的情况下，可以取得挖掘分析的高数据可用性。

本发明的另一个实施例提供了一种社交文本数据流的块压缩感知不可区分性保护方法装置，包括文本处理模块、数据流自适应分块压缩模块、HST动态索引模块以及基于PC机搭建的社交服务器；

数据流自适应分块压缩模块，基于多属性社交数据流自适应分块压缩方法对多属性数值型矩阵进行自适应分块和压缩得到属性块矩阵；

社交用户通过个人移动设备对社交APP客户端产生的多属性社交文本数据流进行采集，通过所述文本处理模块、数据流自适应分块压缩模块产生压缩属性块矩阵，基于历史的压缩属性块矩阵，构造HST动态索引模块后，基于所述HST索引模块的块压缩感知不可区分性机制将压缩属性块矩阵映射的叶子节点进行扰动，并外包扰动的叶子节点给社交服务器进行挖掘并分析，所述社交服务器将挖掘分析结果推荐给社交用户，实现了多属性社交文本数据流的本地隐私保护和数据可用性之间的平衡。

本实施例基于块压缩感知技术，对高维稀疏的数值型矩阵进行自适应分块和压缩，获得低维的压缩属性块矩阵，从而降低了系统开销。将历史的压缩属性块矩阵构造成HST动态索引树结构，提高了社交数据的查询效率。设计基于HST动态索引树的块压缩感知不可区分性机制来保护隐私，最终，实现社交文本数据流的本地隐私保护和数据可用性之间的平衡。此外，本发明还提供了相应的保护装置，促进社交网络平台高质量安全应用推广。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种社交文本数据流的块压缩感知不可区分性保护方法，其特征在于，包括：

步骤3，构建面向压缩属性块矩阵的HST动态索引树；

和

，扰动概率需满足下式，

其中，

和

为任意两个压缩属性块矩阵

和

映射的叶子节点，与所述节点

的具有公共祖先的叶子节点集为

，设定

为公共祖先距离，给所述节点

扰动的叶子节点

赋予权重

，所述公共祖先叶子节点集

有

个叶子节点，则与节点

具有公共祖先的所有叶子节点的总权重为

，

为隐私预算,社交用户在本地根据属性块矩阵的扰动概率选择具有高可用性的扰动叶子节点，并外包给社交服务器执行挖掘分析。

2.根据权利要求1所述的社交文本数据流的块压缩感知不可区分性保护方法，其特征在于，所述步骤1包括：

采用n-grams算法提取单个时间点的属性关键词，并计算属性关键词权重，产生该时间点的属性行向量,则整个社交文本型数据流转化为数值型矩阵，构建一个包含多属性的数值型矩阵。

3.根据权利要求1所述的社交文本数据流的块压缩感知不可区分性保护方法，其特征在于，所述步骤2包括：

4.根据权利要求1所述的社交文本数据流的块压缩感知不可区分性保护方法，其特征在于，所述步骤3包括：

根据属性块矩阵之间的欧式距离对其进行聚类，构建HST动态索引树结构，基于所述HST动态索引树，在本地实现将个人社交文本数据映射到HST动态索引树的叶子节点中。

5.一种社交文本数据流的块压缩感知不可区分性保护装置，其特征在于，包括文本处理模块、数据流自适应分块压缩模块、HST动态索引模块以及基于PC机搭建的社交服务器；

所述文本处理模块，用于对社交文本数据流进行采集和预处理，构建一个包含多属性的数值型矩阵；

所述数据流自适应分块压缩模块，基于多属性社交数据流自适应分块压缩方法对多属性数值型矩阵进行自适应分块和压缩得到属性块矩阵；

所述HST动态索引模块，基于聚类算法，根据欧式距离，将历史的压缩属性块矩阵流进行聚类，构建HST动态索引树，用于将个人的压缩属性块矩阵映射到HST动态索引树的叶子节点中，构建和更新本地索引。

6.根据权利要求5所述的社交文本数据流的块压缩感知不可区分性保护装置，其特征在于，社交用户通过个人移动设备对社交APP客户端产生的多属性社交文本数据流进行采集，通过所述文本处理模块、数据流自适应分块压缩模块产生压缩属性块矩阵，基于历史的压缩属性块矩阵，构造HST动态索引模块后，基于所述HST动态索引模块的块压缩感知将压缩属性块矩阵映射的叶子节点进行扰动，并外包扰动的叶子节点给社交服务器进行挖掘并分析，所述社交服务器将挖掘分析结果推荐给社交用户。