CN111882449A

CN111882449A - 社交网络去匿名方法、装置、计算机设备和存储介质

Info

Publication number: CN111882449A
Application number: CN202010742424.0A
Authority: CN
Inventors: 赵晓娟; 王培�; 常春喜; 陈恺; 王昌海; 马锶霞; 李晨晨
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2020-11-03
Anticipated expiration: 2040-07-29
Also published as: CN111882449B

Abstract

本申请涉及一种社交网络去匿名方法、装置、计算机设备和存储介质。所述方法包括：对预先获取的社交网络进行匿名处理，得到匿名网络；采用随机游走策略，获取匿名网络中预设步数的用户节点序列，根据用户节点序列，构建用户语料库；利用预先设置的词向量模型对用户语料库中的用户进行嵌入，得到用户节点向量；获取预先设置的辅助网络，根据辅助网络中用户节点和匿名网络中用户节点，构建种子节点对；将种子节点对对应的向量对输入预先设置的全连接神经网络，得到训练好的全连接神经网络；将匿名网络中待预测的用户节点向量输入训练好的全连接神经网络，输出所述辅助网络中去匿名的匹配结果。采用本方法能够对匿名处理效果进行检测。

Description

社交网络去匿名方法、装置、计算机设备和存储介质

技术领域

本申请涉及图数据处理技术领域，特别是涉及一种社交网络去匿名方法、装置、计算机设备和存储介质。

背景技术

社交网络时刻产生海量的数据，这些数据中蕴含着无数的应用价值。数据挖掘技术是在这种背景下出现和发展的。随着数据挖掘技术的发展，数据挖掘给各个领域带了巨大的价值，包括商业领域，工程领域，医药领域等诸多领域。

伴随社交网络数据挖掘而来的是用户的隐私问题。一份调查显示，网上用户随时面临着财产信息、身份信息、出行信息泄露的风险，同时还会受到软件病毒的威胁，而且，威胁程度与日俱增。社交网络俨然已经成为黑客的巨大目标。社交网络数据可以抽象为图结构数据，图中的节点代表社交网络的用户，边代表社交网络用户之间的关系，对社交网络结构的研究可以抽象为对图结构的研究，类似的结构还有WIFI，蓝牙，即时消息等。数据发布中隐私保护主要针对的是用户的敏感数据、人物身份以及人物关系，现有的手段一般包括删除标志符，K匿名，差分隐私等手段。所有匿名数据都需要通过去匿名技术的检测，去匿名技术可以检测匿名效果，同时逆向提高匿名技术，促进匿名技术的发展，更好的保护用户的隐私。

发明内容

基于此，有必要针对上述技术问题，提供一种社交网络去匿名方法、装置、计算机设备和存储介质。

一种社交网络去匿名方法，所述方法包括：

对预先获取的社交网络进行匿名处理，得到匿名网络；

采用随机游走策略，获取所述匿名网络中预设步数的用户节点序列，根据所述用户节点序列，构建用户语料库；

利用预先设置的词向量模型对所述用户语料库中的用户进行嵌入，得到用户节点向量；

获取预先设置的辅助网络，根据所述辅助网络中用户节点和所述匿名网络中用户节点，构建种子节点对；

将所述种子节点对对应的向量对输入预先设置的全连接神经网络，得到训练好的全连接神经网络；

将匿名网络中待预测的用户节点向量输入训练好的全连接神经网络，输出所述辅助网络中去匿名的匹配结果。

在其中一个实施例中，还包括：获取社交网络中的连边信息；根据预先设置的噪声率，删除所述社交网络中的n％条边，得到剩余连边集合；随机添加n％条边，得到新增连边集合；根据所述剩余连边集合和所述新增连边集合，得到匿名网络。

在其中一个实施例中，还包括：随机生成一条检测边，当所述检测边不在剩余连边集合和所述新增连边集合中时，将所述检测边加入所述新增连边集合；以及，删除所述新增连边集合中与所述剩余连边集合相同的边。

在其中一个实施例中，还包括：对所述用户语料库中的用户节点序列进行one-hot编码，得到N维向量；利用N维向量训练预先设置的Skip-Gram模型，得到训练好的Skip-Gram模型；通过训练好的Skip-Gram模型输出用户节点向量。

在其中一个实施例中，还包括：设置损失函数为：

其中，cos(*)表示余弦相似函数，

表示从匿名网络到辅助网络的映射，V_a表示匿名网络中用户节点向量，V_x表示辅助网络中用户节点对应的向量；将所述种子节点对对应的向量对输入预先设置的全连接神经网络，通过所述损失函数进行反向训练，得到训练好的全连接神经网络。

在其中一个实施例中，还包括：将匿名网络中待预测的用户节点向量输入训练好的全连接神经网络，输出匹配向量；根据所述匹配向量在所述辅助网络中进行搜索，确定最接近的用户节点作为去匿名结果。

一种社交网络去匿名装置，所述装置包括：

网络匿名模块，用于对预先获取的社交网络进行匿名处理，得到匿名网络；

结构采样模块，用于采用随机游走策略，获取所述匿名网络中预设步数的用户节点序列，根据所述用户节点序列，构建用户语料库；

向量嵌入模块，用于利用预先设置的词向量模型对所述用户语料库中的用户进行嵌入，得到用户节点向量；

学习模块，用于获取预先设置的辅助网络，根据所述辅助网络中用户节点和所述匿名网络中用户节点，构建种子节点对；将所述种子节点对对应的向量对输入预先设置的全连接神经网络，得到训练好的全连接神经网络；

输出模块，用于将匿名网络中待预测的用户节点向量输入训练好的全连接神经网络，输出所述辅助网络中去匿名的匹配结果。

在其中一个实施例中，网络匿名模块还用于获取社交网络中的连边信息；根据预先设置的噪声率，删除所述社交网络中的n％条边，得到剩余连边集合；随机添加n％条边，得到新增连边集合；根据所述剩余连边集合和所述新增连边集合，得到匿名网络。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

对预先获取的社交网络进行匿名处理，得到匿名网络；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

对预先获取的社交网络进行匿名处理，得到匿名网络；

上述社交网络去匿名方法、装置、计算机设备和存储介质，通过对社交网络进行匿名，得到匿名网络，然后采用随机游走的方式，可以获取匿名网络中节点的结构信息，从而构建用户语料库，通过用户语料库进行学习，可以学习到用户向量空间中，用户的节点向量，然后通过辅助网络以及全连接申请网络进行深度学习，从而输出去匿名的匹配结果。通过去匿名的匹配结果，可以检测匿名算法的效果。

附图说明

图1为一个实施例中社交网络去匿名方法的流程示意图；

图2为一个实施例中社交网络去匿名装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种社交网络去匿名方法，包括以下步骤：

步骤102，对预先获取的社交网络进行匿名处理，得到匿名网络。

匿名处理可以采用删除标志符，K匿名，差分隐私等方式，在此不再限制。

步骤104，采用随机游走策略，获取匿名网络中预设步数的用户节点序列，根据用户节点序列，构建用户语料库。

随机游走指的是，在节点网络中进行不重复的游走预设步数，根据游走所经过的节点，可以形成用户节点序列。

值得说明的是，随机游走是从当前节点沿着随机选择的边进行的，因此通过大量的随机游走，可以反映出匿名网络的网络结构信息。

步骤106，利用预先设置的词向量模型对用户语料库中的用户进行嵌入，得到用户节点向量。

词向量模型可以是word2vec、BERT等，通过上述用户节点序列，可以学习出用户节点向量。

步骤108，获取预先设置的辅助网络，根据辅助网络中用户节点和匿名网络中用户节点，构建种子节点对。

辅助网络指的是针对社交网络，采用不同的匿名算法匿名处理得到的，即匿名的原始数据相同。在实际场景中，数据拥有者和发布者会对同一份数据进行不同程度的加密，从而适用不同的场景以保护隐私。

辅助网络中可以采用与匿名网络相同的结构采样和向量嵌入方式，以得到与匿名网络相同的向量空间中的向量表示，至于辅助网络的处理方式，在此不做具体限定。

辅助网络也包含用户节点以及用户节点对应的用户节点向量。

种子节点对指的是分别从辅助网络和匿名网络中取出一个节点组合成的节点对。

步骤110，将种子节点对对应的向量对输入预先设置的全连接神经网络，得到训练好的全连接神经网络。

全连接神经网络可以进行深度学习，通过深度学习，以获得匿名网络到辅助网络之间向量转换的映射。

步骤112，将匿名网络中待预测的用户节点向量输入训练好的全连接神经网络，输出辅助网络中去匿名的匹配结果。

具体的，在进行匹配时，可以采用TOP k算法对匹配结果进行排序，从而根据最接近的一个或者多个用户为正确匹配用户。

上述社交网络去匿名方法中，通过对社交网络进行匿名，得到匿名网络，然后采用随机游走的方式，可以获取匿名网络中节点的结构信息，从而构建用户语料库，通过用户语料库进行学习，可以学习到用户向量空间中，用户的节点向量，然后通过辅助网络以及全连接申请网络进行深度学习，从而输出去匿名的匹配结果。通过去匿名的匹配结果，可以检测匿名算法的效果。

在其中一个实施例中，获取社交网络中的连边信息，根据预先设置的噪声率，删除社交网络中的n％条边，得到剩余连边集合，随机添加n％条边，得到新增连边集合，根据剩余连边集合和新增连边集合，得到匿名网络。本实施例中，可以采用不同的噪声率，分别处理得到匿名网络和辅助网络。值得说明的是，噪声率用百分比表示，删除社交网络中n％条边以及添加n％条边，则得到的匿名网络的噪声率是n％。

在另一个实施例中，随机生成一条检测边，当检测边不在剩余连边集合和新增连边集合中时，将所述检测边加入新增连边集合；以及，删除新增连边集合中与剩余连边集合相同的边。通过这种方式，可以对生成的匿名网络进行完善。

在其中一个实施例中，随机游走可以从匿名网络中任意一个用户节点开始，在多次随机游走时，从匿名网络中选择随机用户节点作为起点，通过随机游走得到的用户节点序列，可以反映出匿名网络的结构信息。

在其中一个实施例中，对用户语料库中的用户节点序列进行one-hot编码，得到N维向量；利用N维向量训练预先设置的Skip-Gram模型，得到训练好的Skip-Gram模型；通过训练好的Skip-Gram模型输出用户节点向量。本实施例中，通过Skip-Gram模型可以将用户节点嵌入到向量空间。

具体的，输入用户节点序列中用户采用One-hot编码表示，即将所有用户均表示成一个N维向量，其中N为用户表中用户的总数。然后将One-hot编码输入Skip-Gram模型，输出层输出N维向量，每个维度对应一个用户，然后对输出层输出的N维向量应用softmax激活函数，计算每个用户的生成概率。本步骤中，训练网络的权重，使得语料库中所有用户的整体生成概率最大化，也就是Skip-Gram模型可以预测所有用户的预测信息。

进一步的，为了提高训练的效率，可以采用负采样的方式优化训练过程。

在其中一个实施例中，设置损失函数为：

其中，cos(*)表示余弦相似函数，

表示从匿名网络到辅助网络的映射，V_a表示匿名网络中用户节点向量，V_x表示辅助网络中用户节点对应的向量；将种子节点对对应的向量对输入预先设置的全连接神经网络，通过损失函数进行反向训练，得到训练好的全连接神经网络。本实施例中，由于匿名网络和辅助网络的数据源相同，均采用向量进行嵌入，因此可以通过深度学习，得到二者的映射关系。

另外，全连接神经网络可以是多层全连接神经网络。

具体的，由于采用了余弦相似函数，因此，loss介于0-2之间，0表示两个输入向量完全相同，2表示两个输入的向量完全相反。对于N对种子节点对的情况，其向量矩阵表示为A∈R^d×N,B∈R^d×N，d表示用户嵌入向量的维度。网络的损失函数为：

其中，A和B分别是匿名网络和辅助网络的用户节点向量。b表示全连接神经网络的偏置向量，W表示全连接神经网络的权重矩阵。

在其中一个实施例中，将匿名网络中待预测的用户节点向量输入训练好的全连接神经网络，输出匹配向量；根据匹配向量在辅助网络中进行搜索，确定最接近的用户节点作为去匿名结果。本实施例中，通过匿名网络中节点与辅助网络中节点的匹配关系，可以推理到社交网络的节点关系，并通过去匿名化的准确程度，确定匿名处理是否安全。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图2所示，提供了一种社交网络去匿名装置，包括：网络匿名模块202、结构采样模块204、向量嵌入模块206、学习模块208和输出模块210，其中：

网络匿名模块202，用于对预先获取的社交网络进行匿名处理，得到匿名网络；

结构采样模块204，用于采用随机游走策略，获取所述匿名网络中预设步数的用户节点序列，根据所述用户节点序列，构建用户语料库；

向量嵌入模块206，用于利用预先设置的词向量模型对所述用户语料库中的用户进行嵌入，得到用户节点向量；

学习模块208，用于获取预先设置的辅助网络，根据所述辅助网络中用户节点和所述匿名网络中用户节点，构建种子节点对；将所述种子节点对对应的向量对输入预先设置的全连接神经网络，得到训练好的全连接神经网络；

输出模块210，用于将匿名网络中待预测的用户节点向量输入训练好的全连接神经网络，输出所述辅助网络中去匿名的匹配结果。

在其中一个实施例中，网络匿名模块202还用于获取社交网络中的连边信息；根据预先设置的噪声率，删除所述社交网络中的n％条边，得到剩余连边集合；随机添加n％条边，得到新增连边集合；根据所述剩余连边集合和所述新增连边集合，得到匿名网络。

在其中一个实施例中，网络匿名模块202还用于随机生成一条检测边，当所述检测边不在剩余连边集合和所述新增连边集合中时，将所述检测边加入所述新增连边集合；以及，删除所述新增连边集合中与所述剩余连边集合相同的边。

在其中一个实施例中，向量嵌入模块206还用于对所述用户语料库中的用户节点序列进行one-hot编码，得到N维向量；利用N维向量训练预先设置的Skip-Gram模型，得到训练好的Skip-Gram模型；通过训练好的Skip-Gram模型输出用户节点向量。

在其中一个实施例中，学习模块208还用于设置损失函数为：

其中，cos(*)表示余弦相似函数，

在其中一个实施例中，输出模块210还用于将匿名网络中待预测的用户节点向量输入训练好的全连接神经网络，输出匹配向量；根据所述匹配向量在所述辅助网络中进行搜索，确定最接近的用户节点作为去匿名结果。

关于社交网络去匿名装置的具体限定可以参见上文中对于社交网络去匿名方法的限定，在此不再赘述。上述社交网络去匿名装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种社交网络去匿名方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种社交网络去匿名方法，其特征在于，所述方法包括：

对预先获取的社交网络进行匿名处理，得到匿名网络；

2.根据权利要求1所述的方法，其特征在于，所述对预先获取的社交网络进行匿名处理，得到匿名网络，包括：

获取社交网络中的连边信息；

根据预先设置的噪声率，删除所述社交网络中的n％条边，得到剩余连边集合；

随机添加n％条边，得到新增连边集合；

根据所述剩余连边集合和所述新增连边集合，得到匿名网络。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

随机生成一条检测边，当所述检测边不在剩余连边集合和所述新增连边集合中时，将所述检测边加入所述新增连边集合；

以及，删除所述新增连边集合中与所述剩余连边集合相同的边。

4.根据权利要求1所述的方法，其特征在于，所述利用预先设置的词向量模型对所述用户语料库中的用户进行嵌入，得到用户节点向量，包括：

对所述用户语料库中的用户节点序列进行one-hot编码，得到N维向量；

利用N维向量训练预先设置的Skip-Gram模型，得到训练好的Skip-Gram模型；

通过训练好的Skip-Gram模型输出用户节点向量。

5.根据权利要求1所述的方法，其特征在于，将所述种子节点对对应的向量对输入预先设置的全连接神经网络，得到训练好的全连接神经网络，包括：

设置损失函数为：

其中，cos(*)表示余弦相似函数，

表示从匿名网络到辅助网络的映射，V_a表示匿名网络中用户节点向量，V_x表示辅助网络中用户节点对应的向量；

将所述种子节点对对应的向量对输入预先设置的全连接神经网络，通过所述损失函数进行训练，得到训练好的全连接神经网络。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述将匿名网络中待预测的用户节点向量输入训练好的全连接神经网络，输出所述辅助网络中去匿名的匹配结果，包括：

将匿名网络中待预测的用户节点向量输入训练好的全连接神经网络，输出匹配向量；

根据所述匹配向量在所述辅助网络中进行搜索，确定最接近的用户节点作为去匿名结果。

7.一种社交网络去匿名装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，网络匿名模块还用于获取社交网络中的连边信息；根据预先设置的噪声率，删除所述社交网络中的n％条边，得到剩余连边集合；随机添加n％条边，得到新增连边集合；根据所述剩余连边集合和所述新增连边集合，得到匿名网络。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。