CN114662157A - 社交文本数据流的块压缩感知不可区分性保护方法及装置 - Google Patents

社交文本数据流的块压缩感知不可区分性保护方法及装置 Download PDF

Info

Publication number
CN114662157A
CN114662157A CN202210573648.2A CN202210573648A CN114662157A CN 114662157 A CN114662157 A CN 114662157A CN 202210573648 A CN202210573648 A CN 202210573648A CN 114662157 A CN114662157 A CN 114662157A
Authority
CN
China
Prior art keywords
social
attribute
block
matrix
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210573648.2A
Other languages
English (en)
Other versions
CN114662157B (zh
Inventor
魏建好
叶松涛
李小龙
李闯
吴鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University of Technology
Original Assignee
Hunan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University of Technology filed Critical Hunan University of Technology
Priority to CN202210573648.2A priority Critical patent/CN114662157B/zh
Publication of CN114662157A publication Critical patent/CN114662157A/zh
Application granted granted Critical
Publication of CN114662157B publication Critical patent/CN114662157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种社交文本数据流的块压缩感知不可区分性保护方法及装置,包括:步骤1,对社交文本数据流进行采集和预处理,构建一个包含多属性的数值型矩阵;步骤2,采用多属性社交数据流自适应分块压缩方法对多属性数值型矩阵进行自适应分块和压缩处理;步骤3,构建面向压缩属性块矩阵的HST动态索引树;步骤4,对压缩属性块矩阵进行本地化扰动隐私保护,外包扰动的社交文本数据流给服务器进行挖掘分析;实现社交文本数据流的本地隐私保护和数据可用性之间的平衡。此外,本发明还提供了相应的保护装置,推动社交网络平台高质量安全应用推广。

Description

社交文本数据流的块压缩感知不可区分性保护方法及装置
技术领域
本发明涉及信息安全领域与社交网络领域,特别涉及一种社交文本数据流的块压缩感知不可区分性保护方法及装置。
背景技术
随着物联网和社交网络的兴起,社交用户在社交网络上持续发布大规模的社交文本数据给社交网络服务器,形成多属性社交文本数据流,包括社交用户的个人属性和兴趣爱好等信息。例如,作为世界上最大的社交平台,Facebook的月活动用户为22.3亿人次,每天发布600TB的社交文本数据流;流行的Twitter社交服务平台每月活动用户数高达3.26亿,每天产生5亿条社交推文数据。当前,面向社交文本数据流的服务已经广泛应用到各种社交领域中,如Facebook、Twitter、领英、微博、微信等平台。社交网络服务器根据社交用户外包的多属性社交文本数据流,可以执行各种挖掘分析,如朋友推荐、热点话题推荐、广告推送等服务。
然而,社交用户的多属性社交文本数据流包含用户较多的个人敏感隐私(如:年龄、位置、社交关系等),社交服务器受到攻击或谋求私利会将敏感隐私数据泄露给攻击者,造成严重的隐私泄露问题。通过获取的公开社交数据,攻击者可以执行身份盗窃和目标跟踪。此外,基于属性链接攻击,社交用户的兴趣爱好和位置信息隐私将被泄露,这导致他们将不再参与社交网络服务。因此,为实现社交网络服务高质量推广应用,保护多属性社交文本数据流隐私已成为社交用户非常关注和急需解决的热点问题。
为保护社交数据隐私,传统的隐私保护方法主要关注社交图结构数据的顶点隐私和边隐私保护。然而这些社交图数据隐私保护方法不能抵御用户链接攻击,攻击者可以获取社交文本数据以推断社交用户隐私。为了保护社交文本数据流隐私,已有匿名方法不能阻止推理攻击和最大背景知识攻击。加密方法只能允许具有密钥的用户获取密文数据,限制了可信但无密钥用户对数据的可获取性。已有差分隐私方法采用可信第三方收集和扰动所有用户的社交数据。然而,一旦可信第三方被攻击,所有社交用户的数据隐私将被泄露,因此社交用户更愿意在本地保护个人数据隐私。尽管本地差分隐私可以在本地添加或者删除数据,以允许社交用户在本地保护数据隐私,然而添加或删除数据会导致数据可用性不高。此外,社交用户通过社交平台持续发布社交文本数据流,会泄露更多的用户隐私。现有隐私保护方法主要关注静态社交文本数据隐私,没有考虑多属性社交文本数据流的隐私保护问题,存在隐私泄露风险。
发明内容
本发明提供了一种社交文本数据流的块压缩感知不可区分性保护方法及装置,其目的是为了解决现有隐私保护方法存在的没有考虑多属性社交文本数据流的问题,实现多属性社交文本数据流的本地隐私保护,提高社交网络平台应用的安全有效性。
为了达到上述目的,本发明提供了一种社交文本数据流的块压缩感知不可区分性保护方法,包括:
步骤1,对社交文本数据流进行采集和预处理,构建一个包含多属性的数值型矩阵;
步骤2,基于多属性社交数据流自适应分块压缩方法对多属性数值型矩阵进行自适应分块和压缩处理;
步骤3,构建面向压缩属性块矩阵的HST动态索引树;
步骤4,计算压缩属性块矩阵在HST动态索引树中具有公共祖先的叶子节点的扰动概率
Figure 522473DEST_PATH_IMAGE001
Figure 439613DEST_PATH_IMAGE002
,扰动概率需满足下式,
Figure 219350DEST_PATH_IMAGE004
其中,
Figure 565624DEST_PATH_IMAGE005
Figure 848838DEST_PATH_IMAGE006
为任意两个压缩属性块矩阵
Figure 140142DEST_PATH_IMAGE007
Figure 876017DEST_PATH_IMAGE008
映射的叶子节点,与所述节点节点
Figure 527447DEST_PATH_IMAGE009
的具有公共祖先的叶子节点集为
Figure 665168DEST_PATH_IMAGE010
,设定
Figure 284630DEST_PATH_IMAGE011
为公共祖先距离,给所述节点
Figure 38959DEST_PATH_IMAGE012
扰动的叶子节点
Figure 713654DEST_PATH_IMAGE013
赋予权重
Figure 237040DEST_PATH_IMAGE014
,所述公共祖先叶子节点集
Figure 666884DEST_PATH_IMAGE015
Figure 908509DEST_PATH_IMAGE016
个叶子节点,则与节点
Figure 370584DEST_PATH_IMAGE012
具有公共祖先的所有叶子节点的总权重为
Figure 14054DEST_PATH_IMAGE017
Figure 349221DEST_PATH_IMAGE018
为隐私预算。社交用户在本地根据属性块矩阵的扰动概率选择具有高可用性的扰动叶子节点,并外包给社交服务器执行挖掘分析。
其中,步骤1包括:
采用n-grams算法提取单个时间点的属性关键词,并计算属性关键词权重,产生数值型矩阵中该时间点的属性行向量,将整个社交文本型数据转化为数值型矩阵,构建一个包含多属性的数值型矩阵。
其中,步骤2包括:
基于块压缩感知方法,计算数值型矩阵的稀疏度均值偏差,并动态调整阈值,根据计算出的稀疏度均值偏差进行自适应分块构造块测量矩阵,基于块测量矩阵将高维的多属性数值型矩阵压缩成低维的属性块矩阵。
其中,步骤3包括:
根据属性块矩阵之间的欧式距离对其进行聚类,构建HST动态索引树结构,基于HST动态索引树,社交用户在本地实现将个人社交文本数据映射到HST动态索引树的叶子节点中。
本发明还提供了一种社交文本数据流的块压缩感知不可区分性保护装置,包括文本处理模块、数据流自适应分块压缩模块、HST动态索引模块以及基于PC机搭建的社交服务器;
其中,文本处理模块,用于对社交文本数据流进行采集和预处理,构建一个包含多属性的数值型矩阵;
数据流自适应分块压缩模块,采用多属性社交文本数据流自适应分块压缩方法对多属性数值型矩阵进行自适应分块和压缩得到属性块矩阵;
HST动态索引模块基于聚类算法,根据欧式距离,将历史的压缩属性块矩阵流进行聚类,构建HST动态索引树,用于将个人的压缩属性块矩阵映射到HST动态索引树的叶子节点中,构建和更新本地索引。
社交用户通过个人移动设备对社交APP客户端产生的多属性社交文本数据流进行采集,通过所述文本处理模块、数据流自适应分块压缩模块产生压缩属性块矩阵,基于历史的压缩属性块矩阵,构造HST动态索引模块后,基于所述HST动态索引模块的块压缩感知将压缩属性块矩阵映射的叶子节点进行扰动,并外包扰动的叶子节点给社交服务器进行挖掘并分析,所述社交服务器将挖掘分析结果推荐给社交用户。
本发明的上述方案有如下有益效果:
基于块压缩感知技术,对高维稀疏的数值型矩阵进行自适应分块和压缩,获得低维的压缩属性块矩阵,从而降低了系统开销。将历史的压缩属性块矩阵构造成HST动态索引树结构,提高了社交数据的查询效率。设计基于HST动态索引树的块压缩感知不可区分性机制来保护隐私,最终,实现社交文本数据流本地化隐私保护的同时,取得高数据可用性。此外,本发明还提供了相应的保护装置,促进社交网络平台高质量安全应用推广。
附图说明
图1为本发明社交文本数据流的块压缩感知不可区分性保护方法的流程图;
图2为本发明社交文本数据流的块压缩感知不可区分性保护装置的框架图;
图3中的(a)为本发明实施例稀疏度-测量矩阵维度曲线;图3中的(b)为测量矩阵维度-信号恢复的正确性曲线;
图4中的(a)为本发明实施例在不同隐私预算下的准确度曲线;图4中的(b)为本发明实施例在不同属性关键词个数下与现有技术的准确度对比曲线;图4中的(c)为本发明实施例在不同均值偏差阈值下与现有技术的准确度对比曲线。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是锁定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明针对现有的问题,提供了一种社交文本数据流的块压缩感知不可区分性保护方法。
如图1所示,本发明的实施例提供一种社交文本数据流的块压缩感知不可区分性保护方法,包括:
步骤1,对社交文本数据流进行采集和预处理,构建一个包含多属性的数值型矩阵;
步骤2,基于多属性社交数据流自适应分块压缩方法对多属性数值型矩阵进行自适应分块和压缩处理;
步骤3,构建面向压缩属性块矩阵的HST动态索引树;
步骤4,对压缩属性块矩阵进行本地化扰动保护,供数据用户对扰动的多属性社交文本数据流进行挖掘分析。
具体来说,步骤1中多属性社交文本数据流的特点是:仅匿名化的多属性社交文本数据不能抵御用户链接攻击;社交服务器不能直接对噪杂、无结构的文本数据进行挖掘分析;因此本实施例对社交文本数据流进行如下处理:
(1)删除社交文本数据流中的一般词和停顿词;例如,社交用户
Figure 15826DEST_PATH_IMAGE019
在时刻
Figure 94640DEST_PATH_IMAGE020
发布文本数据流“我喜欢从事软件开发、系统设计或网页制作等工作。”,基于停顿词列表,{"我"、"喜欢"、"从事"、"或"}被删除;
(2)采用2-grams技术将数据流分割为连续2-grams序列{"软件开发"、"系统设计"、"网页制作"},基于PID思想和w-event差分隐私技术,将每个2-grams作为一个属性关键词,得到用户
Figure 592617DEST_PATH_IMAGE019
w窗口内的文本属性流;为降低计算和存储开销,选择出现次数最多的Top-m个属性2-grams;
(3)基于IF×IDF方法,计算时刻
Figure 55610DEST_PATH_IMAGE020
的社交属性
Figure 6248DEST_PATH_IMAGE021
的权重
Figure 888753DEST_PATH_IMAGE022
具体用
Figure 178920DEST_PATH_IMAGE023
表示社交属性
Figure 121469DEST_PATH_IMAGE021
在时刻
Figure 559403DEST_PATH_IMAGE020
出现的次数,
Figure 104654DEST_PATH_IMAGE024
表示包含属性
Figure 577224DEST_PATH_IMAGE021
的时间点个数:用
Figure 690673DEST_PATH_IMAGE025
表示数值型矩阵
Figure 304319DEST_PATH_IMAGE026
的第
Figure 528627DEST_PATH_IMAGE020
行属性向量。给定参数
Figure 527807DEST_PATH_IMAGE027
,计算数值型矩阵
Figure 812158DEST_PATH_IMAGE028
中的权重元素
Figure 411636DEST_PATH_IMAGE029
如下:
Figure 439635DEST_PATH_IMAGE030
(1)
步骤2中基于多属性社交数据流自适应分块压缩方法对多属性数值型矩阵进行自适应分块和压缩处理。由于将文本属性数据流转化为数值型矩阵仍会遭到用户链接攻击而泄露隐私。实际中,社交用户发布的社交文本数据流一般仅包含少数属性关键词,即数值型矩阵
Figure 621217DEST_PATH_IMAGE031
具有稀疏性,如果直接对
Figure 545311DEST_PATH_IMAGE032
的每个元素添加噪声,会带来高维数据的低可用性问题。为降低开销,基于块压缩感知,对社交数据流矩阵进行压缩,包括:稀疏度计算、自适应分块和测量矩阵构造压缩。采用一维离散余弦变换方法计算正交基矩阵
Figure 445134DEST_PATH_IMAGE033
,对每行属性向量
Figure 11244DEST_PATH_IMAGE034
,根据压缩感知性质,
Figure 201661DEST_PATH_IMAGE035
,则稀疏信号
Figure 562235DEST_PATH_IMAGE036
,得到稀疏度
Figure 949354DEST_PATH_IMAGE037
将属性数据流数值型矩阵
Figure 256839DEST_PATH_IMAGE032
自适应分块,由于不同属性流向量的稀疏度不同,直接将数值型矩阵划分为
Figure 147434DEST_PATH_IMAGE038
的块矩阵(
Figure 944489DEST_PATH_IMAGE039
),将导致划分的矩阵块稀疏度不平衡,数据可用性低。考虑属性流向量实时动态性和稀疏度变化,采用均值偏差
Figure 537013DEST_PATH_IMAGE040
评估当前
Figure 710505DEST_PATH_IMAGE020
时刻属性流向量
Figure 721187DEST_PATH_IMAGE034
的稀疏度
Figure 830088DEST_PATH_IMAGE037
与其
Figure 926220DEST_PATH_IMAGE041
时间窗口内稀疏度平均值的误差,即:
Figure 637824DEST_PATH_IMAGE042
(2)
当均值偏差
Figure 988165DEST_PATH_IMAGE043
较大时,认为属性流向量
Figure 127023DEST_PATH_IMAGE034
的稀疏度
Figure 851396DEST_PATH_IMAGE037
变化较大,具有更强的敏感性。当新属性流向量
Figure 101112DEST_PATH_IMAGE034
到来时,执行如下两种情形操作:
(1)若均值偏差
Figure 273336DEST_PATH_IMAGE040
大于阈值
Figure 583095DEST_PATH_IMAGE044
,对
Figure 388240DEST_PATH_IMAGE034
进行采样和自适应分块。为自适应划分属性流向量,基于自适应分块方法计算块向量的维度:
Figure 441646DEST_PATH_IMAGE045
(3)
其中参数
Figure 281426DEST_PATH_IMAGE046
为分配的隐私预算和
Figure 644975DEST_PATH_IMAGE047
为常数。则属性向量
Figure 937416DEST_PATH_IMAGE034
划分
Figure 528934DEST_PATH_IMAGE048
块。将划分的属性块向量构造成
Figure 223221DEST_PATH_IMAGE049
的属性块矩阵
Figure 874782DEST_PATH_IMAGE050
(2)若均值偏差
Figure 107049DEST_PATH_IMAGE040
小于阈值
Figure 502259DEST_PATH_IMAGE044
,认为属性数据流向量
Figure 51052DEST_PATH_IMAGE051
变化比较平稳,敏感性不强,不进行采样,以提高隐私预算分配率。
为满足多属性社交文本数据流的自适应性,基于w-event差分隐私思想,结合均值偏差
Figure 139093DEST_PATH_IMAGE043
和隐私预算
Figure 547072DEST_PATH_IMAGE052
自适应更新阈值
Figure 745972DEST_PATH_IMAGE053
。当
Figure 149272DEST_PATH_IMAGE043
较大或者
Figure 893368DEST_PATH_IMAGE052
较小时,则扰动数据流添加的噪声较多。因此,减小阈值以增加采样数据集的大小,平滑过多的噪声,这符合实际情况。
接着,通过自适应分块构造块测量矩阵,并压缩属性块矩阵。由于Toeplitz矩阵的计算和存储开销较低且满足RIP条件,针对
Figure 647697DEST_PATH_IMAGE020
时刻的属性块矩阵
Figure 384709DEST_PATH_IMAGE050
,采用Toeplitz矩阵构造
Figure 49040DEST_PATH_IMAGE054
的块测量矩阵
Figure 478884DEST_PATH_IMAGE055
。为准确恢复属性块矩阵,块测量矩阵
Figure 454930DEST_PATH_IMAGE055
的维度
Figure 979321DEST_PATH_IMAGE056
需要满足:
Figure 622792DEST_PATH_IMAGE057
,其中
Figure 957959DEST_PATH_IMAGE058
是常数,
Figure 624564DEST_PATH_IMAGE059
为块矩阵的第
Figure 703378DEST_PATH_IMAGE060
列属性向量稀疏度。当
Figure 201355DEST_PATH_IMAGE061
时,通过下图3性能评估发现:
Figure 707423DEST_PATH_IMAGE062
随着
Figure 812389DEST_PATH_IMAGE063
的增大而增大,较高的压缩信号恢复正确性要求较小的
Figure 694894DEST_PATH_IMAGE062
。因此,在相同恢复正确性下,为降低存储开销,
Figure 47378DEST_PATH_IMAGE062
应尽可能小,设定
Figure 724347DEST_PATH_IMAGE064
。基于块压缩感知性质,计算压缩属性块矩阵
Figure 162282DEST_PATH_IMAGE065
为提高多属性社交文本数据流的查询效率,对压缩的属性块矩阵数据流建立HST动态索引树。为满足社交用户端本地构建数据索引和降低开销,利用社交服务器收集的历史多属性数据流压缩属性块矩阵,按照从根节点到叶子节点的顺序依次构造HST动态索引树结构,具体如下:
1)设定根节点为第
Figure 582899DEST_PATH_IMAGE066
层,叶子节点为第1层,根节点包含
Figure 242419DEST_PATH_IMAGE067
个历史压缩属性块矩阵集
Figure 90289DEST_PATH_IMAGE068
,叶子节点包含一个压缩属性块矩阵;
2)计算HST动态索引树的深度为:
Figure 15520DEST_PATH_IMAGE069
(4)
其中,
Figure 177511DEST_PATH_IMAGE070
为压缩属性块矩阵之间的最大切比雪夫距离;
3)在第
Figure 504587DEST_PATH_IMAGE071
Figure 788938DEST_PATH_IMAGE072
层,基于欧式距离
Figure 889880DEST_PATH_IMAGE073
,以数据集的第一个属性块矩阵为中心进行聚类,直至所有的块矩阵都聚类到相应类别中,将该层节点为父节点按照此步骤继续构造下一层。
基于上述步骤,给定压缩属性块矩阵集
Figure 652300DEST_PATH_IMAGE074
,在第
Figure 833883DEST_PATH_IMAGE075
层中,将与
Figure 289135DEST_PATH_IMAGE076
欧式距离小于
Figure 329903DEST_PATH_IMAGE077
的压缩属性块矩阵聚类为
Figure 896014DEST_PATH_IMAGE078
。剩下的块矩阵集
Figure 932103DEST_PATH_IMAGE079
Figure 541945DEST_PATH_IMAGE080
为中心,以
Figure 929064DEST_PATH_IMAGE081
为距离进行聚类得到
Figure 33286DEST_PATH_IMAGE082
;在第
Figure 127144DEST_PATH_IMAGE083
层,分别以
Figure 924199DEST_PATH_IMAGE078
Figure 533034DEST_PATH_IMAGE084
为父节点,继续进行下一层聚类操作。
为支持多属性压缩块矩阵数据流的动态更新,以添加噪声的方式对空节点进行填充,将HST动态索引树构造成完全树,完全树中第
Figure 397872DEST_PATH_IMAGE085
层孩子节点和第
Figure 408553DEST_PATH_IMAGE086
层父节点之间的距离为
Figure 376509DEST_PATH_IMAGE087
。当有压缩属性块矩阵更新时,只需更新对应的叶子节点和父节点,降低了系统更新开销。每个社交用户可以从社交服务器下载HST完全索引树用于本地数据流块矩阵隐私保护和索引构建。
为本地保护社交文本数据流隐私,提出基于HST动态索引树的块压缩感知,在本地对压缩属性块矩阵进行扰动。首先,将
Figure 410324DEST_PATH_IMAGE020
时刻采样的压缩属性块矩阵
Figure 856349DEST_PATH_IMAGE088
映射到与它欧式距离最小的HST动态索引树的叶子节点
Figure 987116DEST_PATH_IMAGE089
中。基于最近公共祖先思想,针对叶子节点
Figure 312924DEST_PATH_IMAGE089
,在第
Figure 896352DEST_PATH_IMAGE090
层中(
Figure 146068DEST_PATH_IMAGE091
)与其具有共同祖先的叶子节点有
Figure 131342DEST_PATH_IMAGE092
个,记为
Figure 378783DEST_PATH_IMAGE093
。则
Figure 449508DEST_PATH_IMAGE093
中任意叶子节点和
Figure 502914DEST_PATH_IMAGE094
的公共祖先距离为
Figure 31110DEST_PATH_IMAGE095
。受地理不可区分性机制启发:对任意两个压缩属性块矩阵
Figure 511770DEST_PATH_IMAGE096
Figure 804211DEST_PATH_IMAGE097
映射的叶子节点
Figure 598991DEST_PATH_IMAGE089
Figure 293278DEST_PATH_IMAGE098
,定义隐私预算
Figure 944839DEST_PATH_IMAGE099
Figure 177106DEST_PATH_IMAGE100
是节点
Figure 572315DEST_PATH_IMAGE089
Figure 121108DEST_PATH_IMAGE098
可能扰动的具有公共祖先的叶子节点,若算法取得
Figure 146833DEST_PATH_IMAGE101
块压缩感知不可区分性,当且仅当扰动概率
Figure 99352DEST_PATH_IMAGE001
Figure 32673DEST_PATH_IMAGE102
满足:
Figure 639235DEST_PATH_IMAGE103
(5)
本实施例需计算扰动概率
Figure 22812DEST_PATH_IMAGE001
Figure 511562DEST_PATH_IMAGE102
来实现基于HST动态索引树的块压缩感知不可区分性机制。
具体对公共祖先叶子节点集
Figure 514153DEST_PATH_IMAGE104
中扰动的叶子节点
Figure 725954DEST_PATH_IMAGE105
赋予权重
Figure 890219DEST_PATH_IMAGE106
,以提高数据可用性。由于公共祖先叶子节点集
Figure 131845DEST_PATH_IMAGE107
Figure 610230DEST_PATH_IMAGE108
个叶子节点,与节点
Figure 988122DEST_PATH_IMAGE089
具有公共祖先的所有叶子节点的总权重为
Figure 588868DEST_PATH_IMAGE017
。所以
Figure 708002DEST_PATH_IMAGE109
通过上述过程可得出扰动概率比:
Figure 255658DEST_PATH_IMAGE110
即满足块压缩感知不可区分性机制;社交用户可以在本地根据属性块矩阵的扰动概率选择具有高可用性的扰动叶子节点,并外包给社交服务器执行挖掘分析。
Figure 488057DEST_PATH_IMAGE111
较大时,由于隐私预算
Figure 87401DEST_PATH_IMAGE112
,压缩属性块矩阵流隐私将被泄露。
因此给出
Figure 569198DEST_PATH_IMAGE113
有上界:
Figure 654966DEST_PATH_IMAGE114
Figure 476291DEST_PATH_IMAGE115
Figure 418840DEST_PATH_IMAGE113
的上界由压缩属性块矩阵
Figure 60036DEST_PATH_IMAGE116
Figure 11812DEST_PATH_IMAGE117
的欧式距离
Figure 172797DEST_PATH_IMAGE118
上界决定。
给定
Figure 755088DEST_PATH_IMAGE119
Figure 945898DEST_PATH_IMAGE120
Figure 373468DEST_PATH_IMAGE121
Figure 169386DEST_PATH_IMAGE122
为块矩阵第
Figure 60594DEST_PATH_IMAGE123
列向量)。基于块压缩感知,压缩权重
Figure 676383DEST_PATH_IMAGE124
,其中
Figure 907645DEST_PATH_IMAGE125
是块测量矩阵
Figure 354806DEST_PATH_IMAGE126
的第
Figure 278900DEST_PATH_IMAGE127
行向量,元素
Figure 631253DEST_PATH_IMAGE128
。原始属性块向量
Figure 462943DEST_PATH_IMAGE129
,根据前面公式(1),
Figure 702294DEST_PATH_IMAGE130
,则计算:
Figure 43627DEST_PATH_IMAGE131
Figure 430746DEST_PATH_IMAGE133
即得到
Figure 3810DEST_PATH_IMAGE134
,有上界。实际中,每个属性向量包含的属性值个数远小于
Figure 425564DEST_PATH_IMAGE135
个所有属性关键词,因此
Figure 439263DEST_PATH_IMAGE136
。社交用户可以选择合适的
Figure 251361DEST_PATH_IMAGE137
,确保扰动的多属性社交文本数据流不能被区分。
为评估本实施例设计方案的性能,基于真实的Twitter社交推文数据流集,采用不同的参数:如隐私预算
Figure 424853DEST_PATH_IMAGE138
Figure 638797DEST_PATH_IMAGE137
、属性关键词个数
Figure 75595DEST_PATH_IMAGE135
和均值偏差阈值
Figure 437306DEST_PATH_IMAGE139
,评估本实施例对扰动的多属性社交文本数据流进行挖掘分析中的正确性,实验结果如图4所示。
基于不同参数下的实验评估结果对比,本实施例对扰动的多属性社交文本数据流进行挖掘分析的正确性高达93.27%,优于已有先进的文本不可区分性机制对静态文本数据的正确性。因此,本实施例在本地保护多属性社交文本数据流隐私的情况下,可以取得挖掘分析的高数据可用性。
本发明的另一个实施例提供了一种社交文本数据流的块压缩感知不可区分性保护方法装置,包括文本处理模块、数据流自适应分块压缩模块、HST动态索引模块以及基于PC机搭建的社交服务器;
其中,文本处理模块,用于对社交文本数据流进行采集和预处理,构建一个包含多属性的数值型矩阵;
数据流自适应分块压缩模块,基于多属性社交数据流自适应分块压缩方法对多属性数值型矩阵进行自适应分块和压缩得到属性块矩阵;
HST动态索引模块基于聚类算法,根据欧式距离,将历史的压缩属性块矩阵流进行聚类,构建HST动态索引树,用于将个人的压缩属性块矩阵映射到HST动态索引树的叶子节点中,构建和更新本地索引。
社交用户通过个人移动设备对社交APP客户端产生的多属性社交文本数据流进行采集,通过所述文本处理模块、数据流自适应分块压缩模块产生压缩属性块矩阵,基于历史的压缩属性块矩阵,构造HST动态索引模块后,基于所述HST索引模块的块压缩感知不可区分性机制将压缩属性块矩阵映射的叶子节点进行扰动,并外包扰动的叶子节点给社交服务器进行挖掘并分析,所述社交服务器将挖掘分析结果推荐给社交用户,实现了多属性社交文本数据流的本地隐私保护和数据可用性之间的平衡。
本实施例基于块压缩感知技术,对高维稀疏的数值型矩阵进行自适应分块和压缩,获得低维的压缩属性块矩阵,从而降低了系统开销。将历史的压缩属性块矩阵构造成HST动态索引树结构,提高了社交数据的查询效率。设计基于HST动态索引树的块压缩感知不可区分性机制来保护隐私,最终,实现社交文本数据流的本地隐私保护和数据可用性之间的平衡。此外,本发明还提供了相应的保护装置,促进社交网络平台高质量安全应用推广。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种社交文本数据流的块压缩感知不可区分性保护方法,其特征在于,包括:
步骤1,对社交文本数据流进行采集和预处理,构建一个包含多属性的数值型矩阵;
步骤2,基于多属性社交数据流自适应分块压缩方法对多属性数值型矩阵进行自适应分块和压缩处理;
步骤3,构建面向压缩属性块矩阵的HST动态索引树;
步骤4,计算压缩属性块矩阵在HST动态索引树中具有公共祖先的叶子节点的扰动概率
Figure 69317DEST_PATH_IMAGE001
Figure 970146DEST_PATH_IMAGE002
,扰动概率需满足下式,
Figure 218725DEST_PATH_IMAGE004
其中,
Figure 348355DEST_PATH_IMAGE005
Figure 897148DEST_PATH_IMAGE006
为任意两个压缩属性块矩阵
Figure 188452DEST_PATH_IMAGE007
Figure 189906DEST_PATH_IMAGE008
映射的叶子节点,与所述节点
Figure 701108DEST_PATH_IMAGE009
的具有公共祖先的叶子节点集为
Figure 104407DEST_PATH_IMAGE010
,设定
Figure 832192DEST_PATH_IMAGE011
为公共祖先距离,给所述节点
Figure 55363DEST_PATH_IMAGE012
扰动的叶子节点
Figure 526795DEST_PATH_IMAGE013
赋予权重
Figure 784601DEST_PATH_IMAGE014
,所述公共祖先叶子节点集
Figure 932555DEST_PATH_IMAGE015
Figure 908601DEST_PATH_IMAGE016
个叶子节点,则与节点
Figure 918145DEST_PATH_IMAGE012
具有公共祖先的所有叶子节点的总权重为
Figure 30458DEST_PATH_IMAGE017
Figure 100045DEST_PATH_IMAGE018
为隐私预算,社交用户在本地根据属性块矩阵的扰动概率选择具有高可用性的扰动叶子节点,并外包给社交服务器执行挖掘分析。
2.根据权利要求1所述的社交文本数据流的块压缩感知不可区分性保护方法,其特征在于,所述步骤1包括:
采用n-grams算法提取单个时间点的属性关键词,并计算属性关键词权重,产生该时间点的属性行向量,则整个社交文本型数据流转化为数值型矩阵,构建一个包含多属性的数值型矩阵。
3.根据权利要求1所述的社交文本数据流的块压缩感知不可区分性保护方法,其特征在于,所述步骤2包括:
基于块压缩感知方法,计算数值型矩阵的稀疏度均值偏差,并动态调整阈值,根据计算出的稀疏度均值偏差进行自适应分块构造块测量矩阵,基于块测量矩阵将高维的多属性数值型矩阵压缩成低维的属性块矩阵。
4.根据权利要求1所述的社交文本数据流的块压缩感知不可区分性保护方法,其特征在于,所述步骤3包括:
根据属性块矩阵之间的欧式距离对其进行聚类,构建HST动态索引树结构,基于所述HST动态索引树,在本地实现将个人社交文本数据映射到HST动态索引树的叶子节点中。
5.一种社交文本数据流的块压缩感知不可区分性保护装置,其特征在于,包括文本处理模块、数据流自适应分块压缩模块、HST动态索引模块以及基于PC机搭建的社交服务器;
所述文本处理模块,用于对社交文本数据流进行采集和预处理,构建一个包含多属性的数值型矩阵;
所述数据流自适应分块压缩模块,基于多属性社交数据流自适应分块压缩方法对多属性数值型矩阵进行自适应分块和压缩得到属性块矩阵;
所述HST动态索引模块,基于聚类算法,根据欧式距离,将历史的压缩属性块矩阵流进行聚类,构建HST动态索引树,用于将个人的压缩属性块矩阵映射到HST动态索引树的叶子节点中,构建和更新本地索引。
6.根据权利要求5所述的社交文本数据流的块压缩感知不可区分性保护装置,其特征在于,社交用户通过个人移动设备对社交APP客户端产生的多属性社交文本数据流进行采集,通过所述文本处理模块、数据流自适应分块压缩模块产生压缩属性块矩阵,基于历史的压缩属性块矩阵,构造HST动态索引模块后,基于所述HST动态索引模块的块压缩感知将压缩属性块矩阵映射的叶子节点进行扰动,并外包扰动的叶子节点给社交服务器进行挖掘并分析,所述社交服务器将挖掘分析结果推荐给社交用户。
CN202210573648.2A 2022-05-25 2022-05-25 社交文本数据流的块压缩感知不可区分性保护方法及装置 Active CN114662157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210573648.2A CN114662157B (zh) 2022-05-25 2022-05-25 社交文本数据流的块压缩感知不可区分性保护方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210573648.2A CN114662157B (zh) 2022-05-25 2022-05-25 社交文本数据流的块压缩感知不可区分性保护方法及装置

Publications (2)

Publication Number Publication Date
CN114662157A true CN114662157A (zh) 2022-06-24
CN114662157B CN114662157B (zh) 2022-08-26

Family

ID=82038198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210573648.2A Active CN114662157B (zh) 2022-05-25 2022-05-25 社交文本数据流的块压缩感知不可区分性保护方法及装置

Country Status (1)

Country Link
CN (1) CN114662157B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117371036A (zh) * 2023-10-19 2024-01-09 湖南工商大学 多模态交通流查询的格雷码差分隐私保护方法及装置
CN117540106A (zh) * 2024-01-09 2024-02-09 湖南工商大学 一种多模态数据隐私保护的社交活动推荐方法及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140236953A1 (en) * 2009-02-11 2014-08-21 Jeffrey A. Rapaport Methods using social topical adaptive networking system
US20180268015A1 (en) * 2015-09-02 2018-09-20 Sasha Sugaberry Method and apparatus for locating errors in documents via database queries, similarity-based information retrieval and modeling the errors for error resolution
US20190303464A1 (en) * 2018-03-29 2019-10-03 Entit Software Llc Directed Data Indexing Based on Conceptual Relevance
CN112052940A (zh) * 2020-08-26 2020-12-08 西安电子科技大学 基于向量压缩与重构的社交网络特征动态提取方法
CN112084333A (zh) * 2020-08-31 2020-12-15 杭州电子科技大学 一种基于情感倾向分析的社交用户生成方法
CN113408016A (zh) * 2021-05-24 2021-09-17 荣耀终端有限公司 保存密文的方法和装置
CN113450232A (zh) * 2021-07-15 2021-09-28 上海理工大学 一种基于压缩感知的回声壁社交网络结构预测方法
CN113987105A (zh) * 2021-10-28 2022-01-28 南开大学 基于滑动窗口的标签感知图形流草图构建方法及应用
US20220070194A1 (en) * 2017-08-07 2022-03-03 Microsoft Technology Licensing, Llc Techniques for detecting domain threats

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140236953A1 (en) * 2009-02-11 2014-08-21 Jeffrey A. Rapaport Methods using social topical adaptive networking system
US20180268015A1 (en) * 2015-09-02 2018-09-20 Sasha Sugaberry Method and apparatus for locating errors in documents via database queries, similarity-based information retrieval and modeling the errors for error resolution
US20220070194A1 (en) * 2017-08-07 2022-03-03 Microsoft Technology Licensing, Llc Techniques for detecting domain threats
US20190303464A1 (en) * 2018-03-29 2019-10-03 Entit Software Llc Directed Data Indexing Based on Conceptual Relevance
CN112052940A (zh) * 2020-08-26 2020-12-08 西安电子科技大学 基于向量压缩与重构的社交网络特征动态提取方法
CN112084333A (zh) * 2020-08-31 2020-12-15 杭州电子科技大学 一种基于情感倾向分析的社交用户生成方法
CN113408016A (zh) * 2021-05-24 2021-09-17 荣耀终端有限公司 保存密文的方法和装置
CN113450232A (zh) * 2021-07-15 2021-09-28 上海理工大学 一种基于压缩感知的回声壁社交网络结构预测方法
CN113987105A (zh) * 2021-10-28 2022-01-28 南开大学 基于滑动窗口的标签感知图形流草图构建方法及应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
林玉婷等: ""互联网+"社区养老模型构建研究――以天心区社工机构的项目为例", 《科技与创新》 *
陈晓红等: "社会网络环境下基于犹豫度和一致性的大群体决策方法", 《系统工程理论与实践》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117371036A (zh) * 2023-10-19 2024-01-09 湖南工商大学 多模态交通流查询的格雷码差分隐私保护方法及装置
CN117371036B (zh) * 2023-10-19 2024-04-30 湖南工商大学 多模态交通流查询的格雷码差分隐私保护方法及装置
CN117540106A (zh) * 2024-01-09 2024-02-09 湖南工商大学 一种多模态数据隐私保护的社交活动推荐方法及设备
CN117540106B (zh) * 2024-01-09 2024-04-02 湖南工商大学 一种多模态数据隐私保护的社交活动推荐方法及设备

Also Published As

Publication number Publication date
CN114662157B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
CN114662157B (zh) 社交文本数据流的块压缩感知不可区分性保护方法及装置
Mireshghallah et al. Shredder: Learning noise distributions to protect inference privacy
Zhu et al. Differential privacy and applications
CN112836130B (zh) 一种基于联邦学习的上下文感知推荐系统及方法
CN102970289B (zh) 基于Web用户行为模式的身份认证方法
CN109842628A (zh) 一种异常行为检测方法及装置
CN110874488A (zh) 一种基于混合差分隐私的流数据频数统计方法、装置、系统及存储介质
US9674210B1 (en) Determining risk of malware infection in enterprise hosts
CN106209821B (zh) 基于可信云计算的信息安全大数据管理系统
Zhang et al. Comprehensive privacy analysis on federated recommender system against attribute inference attacks
CN105843829B (zh) 一种基于分层模型的大数据可信性度量方法
Zhou et al. A lightweight matrix factorization for recommendation with local differential privacy in big data
CN117540106B (zh) 一种多模态数据隐私保护的社交活动推荐方法及设备
Yuan et al. Privacy‐preserving mechanism for mixed data clustering with local differential privacy
Shen et al. Finding mnemon: Reviving memories of node embeddings
CN108268762B (zh) 基于行为建模的移动社交网络用户身份识伪方法
CN113746780B (zh) 基于主机画像的异常主机检测方法、装置、介质和设备
Dey et al. Secure decision tree twin support vector machine training and classification process for encrypted IoT data via blockchain platform
Zhao et al. A Privacy‐Preserving Trajectory Publication Method Based on Secure Start‐Points and End‐Points
Yao et al. Topic-based rank search with verifiable social data outsourcing
CN108111968B (zh) 一种基于泛化的位置隐私保护方法
CN110929171A (zh) 一种基于场景和社交网络位置的兴趣点推荐方法
CN103336865B (zh) 一种动态通信网络构建方法及装置
Lu et al. A novel method for location privacy protection in LBS applications
Eltarjaman et al. Location privacy for rank-based geo-query systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant