CN111475838B

CN111475838B - 基于深度神经网络的图数据匿名方法、装置、存储介质

Info

Publication number: CN111475838B
Application number: CN202010255405.5A
Authority: CN
Inventors: 方俊斌; 贾焰; 李爱平; 周斌; 喻承; 蒋千越; 宋怡晨; 王培�; 刘运璇; 郑新萍; 王浩; 王昌海; 李晨晨
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2023-09-26
Anticipated expiration: 2040-04-02
Also published as: CN111475838A

Abstract

本发明提供了基于深度神经网络的图数据匿名方法、装置、存储介质，可以产生具有高匿名性和高数据可用性的匿名图用于数据发布，方法包括以下步骤：步骤1：使用node2vec算法的随机游走策略进行采样，得到图数据中真实的节点序列，节点序列中的节点通过One‑hot的方式表示为向量；步骤2：基于深度神经网络构建图数据特征的学习模型，将真实的节点序列作为输入训练学习模型，优化模型参数，得到训练好的学习模型；步骤3：将真实的节点序列输入训练好的学习模型，输出仿真的节点的随机游走序列；步骤4：将得到的仿真的节点的随机游走序列，添加满足差分隐私的机制的噪声，然后进行合成，得到匿名图。

Description

基于深度神经网络的图数据匿名方法、装置、存储介质

技术领域

本发明涉及机器学习中的神经网络领域，具体涉及基于深度神经网络的图数据匿名方法、装置、存储介质。

背景技术

在互联网大数据研究与应用飞速发展的今天，经常要在不同企业、研究机构等之间共享大量数据集，甚至有许多数据集以公开发布的形式提供给研究人员，以充分挖掘数据在科学研究、公共服务和商业应用等方面的价值。数据的内容涉及社会生活的方方面面，包括交易数据、合作网络数据、社交网络数据、位置轨迹数据、医疗数据、电话通信数据、商品购买数据等。这些数据集中最常见的是以网络形式存在的图数据集，节点和边中包含着丰富的用户属性和关联特征，适合用于数据挖掘等任务。

上述发布的图数据集中包含许多不希望被公开的个人敏感信息，需要在发布之前进行脱敏处理。传统的加密、访问控制等方法在公开发布的场景下不适用，因为获取数据的一方不能保证不会对数据进行恶意使用，且加密等方法在大数据上的计算效率很低，因此一般采用数据匿名化技术来实现数据发布的隐私保护。当前主流的图数据匿名技术，主要有基于属性删除或替换、泛化聚类、k匿名、差分隐私等方法。其中，对节点的身份信息(如用户ID)、属性特征等标识信息进行直接删除或替换，在先进的机器学习等数据挖掘技术面前显得十分脆弱。例如在隐藏节点属性的匿名社交网络中，攻击者知晓关键节点拥有的邻居数量和特征，直接通过邻居攻击即可识别出改关键节点，在结合外部信息即可获取该节点的个人隐私。此外，从传统关系型数据的匿名技术演化而来的聚类、k匿名、差分隐私等方法在一定程度上能保护节点的关系特征。

现有技术中的图数据上的聚类隐私保护技术，其通过对图上指定的节点进行处理，将在某个维度内具有相似特征的节点聚类泛化为超级节点，超级节点内部信息对外隐藏，只显示超级节点之间的连接关系以及其泛化信息，并将超级节点组成的图数据用于共享和发布，从而原始节点的特征信息得到保护。例如将一个社会关系网络中的职务为小学老师和中学老师都聚类，对外显示为教师。该方法能有效抵抗针对节点局部特征识别的攻击，但对于超级节点内部的信息损失十分巨大，仅保留了超级节点之间的连接信息，且无法抵御基于背景知识的等价类攻击。例如攻击者仅需要知道该节点属于教师大类的超级节点，不需要知道具体的个体特征，就能关联获取其职务性质等个人信息。

现有技术中的图数据上该方法能有效抵抗针对节点局部特征识别的攻击，但对于超级节点内部的信息损失十分巨大，仅保留了超级节点之间的连接信息，且无法抵御基于背景知识的等价类攻击。例如攻击者仅需要知道该节点属于教师大类的超级节点，不需要知道具体的个体特征，就能关联获取其职务性质等个人信息，该方法能有效抵抗针对指定维度特征识别的攻击，但对于多维度联合的等价类攻击仍然无法抵抗。且为了取得较好的效果，需要将k值设定的很大，即需要添加较多边作为噪声，严重影响数据的可用性价值。

这些方法需要指定图数据中的某些维度特征(如图的度分布)，并对该特征实施添加噪声、信息泛化等处理。但是图数据的潜在特征维度十分庞大，人工指定的特征有限，攻击者利用机器学习等先进的挖掘方法很容易找到潜在的关联特征，且为了取得好的匿名效果，需要添加大量的噪声信息，牺牲数据的可用价值。针对社交网络等图结构数据的关系结构匿名问题，现有的匿名技术都只能指定特征维度进行隐私保护，无法抵抗多维度的关联攻击。且现有技术在对图中特征进行添加噪声、特征泛化、扰动等操作的时候，难以在数据匿名性和可用性之间取得一个很好的权衡。即匿名性高的时候，往往数据可用性低。因此，图数据发布的隐私保护问题十分严峻，需要一种能全面保护结构特征，且能保持匿名后数据价值不被严重破坏的匿名方法。

发明内容

针对上述问题，本发明提供了基于深度神经网络的图数据匿名方法、装置、存储介质，可以产生具有高匿名性和高数据可用性的匿名图用于数据发布。

其技术方案是这样的：一种基于深度神经网络的图数据匿名方法，其特征在于，包括以下步骤：

步骤1：使用node2vec算法的随机游走策略进行采样，得到图数据中真实的节点序列，节点序列中的节点通过One-hot的方式表示为向量；

步骤2：基于深度神经网络构建图数据特征的学习模型，将真实的节点序列作为输入训练学习模型，优化模型参数，得到训练好的学习模型；

步骤3：将真实的节点序列输入训练好的学习模型，输出仿真的节点的随机游走序列；

步骤4：将得到的仿真的节点的随机游走序列，添加满足差分隐私的机制的噪声，然后进行合成，得到匿名图。

进一步的，步骤1具体如下：在对图数据中真实的节点序列进行采样时，使用node2vec算法的偏置二阶游走策略，通过参数p和q控制节点的转移概率，假设经过随机游走，上一步从节点t转移到当前节点v，在选择下一个节点x时，其转移概率π_vx的计算公式如下：

π_vx＝α_pq(t，x)·w_vx

其中，w_vx为节点v和节点x之间的边的权重，且：

其中的d_tx表示上一个节点t与下一个节点x的最短路径长度，d_tx的值为0表示节点从x回到t，d_tx的值为1表示节点x和t直接相连，d_tx的值为2表示x和t之间存在中间节点，因此，参数p用于控制节点的回溯概率，减小p值使得游走过程容易回溯到上一个节点，p值变大的时候节点更倾向转移到新节点；参数q控制节点游走的深浅，q＞1时倾向于宽度优先的局部游走策略，q＜1时倾向于深度优先的全局游走策略。

进一步的，在步骤2中，使用生成对抗网络GAN构建图数据特征的学习模型，生成对抗网络GAN包括生成器和判别器，生成器用于将输入的真实的节点序列生成仿真的节点的随机游走序列，判别器用于鉴别输入的真实的节点序列和仿真的节点序列。

进一步的，在步骤2中，判别器对于真实的节点序列输入得到的输出记为D_real，对于仿真的节点序列输入得到的输出记为D_fake，在模型训练过程中，生成器的训练目标是产生接近真实的节点序列的仿真的节点序列，使得判别器无法鉴别该序列是真实采样还是仿真生成，生成器的训练目标要使得D_fake尽可能大，其损失函数定义为D_fake的平均相反数；判别器的训练目标是能够正确区分输入是真实采样还是仿真生成，判别器的训练目标是要使得的D_fake值尽可能小，D_real尽可能大，则损失函数定义为D_fake-D_real的平均值；

在每一轮迭代训练过程中，使用神经网络的Adam优化器最小化生成器和判别器的损失函数，并利用优化器自动调整生成器和判别器模型中对应的参数，使得生成器和判别器朝着目标优化，当生成器和判别器的损失函数值趋于稳定不再变化时表示模型趋于稳定，训练停止。

进一步的，在步骤4具体包括以下步骤：

步骤4-1：根据仿真的节点的随机游走序列，统计节点之间的边出现概率，构建边的概率分布邻接矩阵；

步骤4-2：对于边的概率分布邻接矩阵的每一行，添加满足差分隐私要求的噪声数据，得到满足差分隐私要求的匿名概率分布矩阵；

步骤4-3：根据原始图中边的数量M，依概率不放回的从匿名概率矩阵中抽取M条不重复的边，得到合成的匿名图。

进一步的，步骤4-1具体如下：从步骤3得到的仿真的节点的随机游走序列中，根据每个游走路径上每个节点的连接关系，统计节点之间的边出现概率，假设图中共有n个节点，n为自然数，构建n×n计数邻接矩阵，矩阵中的每一行表示一个节点与其他n-1个节点的边的连接数量分布，假设矩阵中第i行的每个元素e_ij的值表示节点i和节点j的在随机游走序列中出现连接边的数量，利用归一化方法，每个元素e_ij除以该行所有元素之和，得到一个小于1的值，即为节点i和j之间存在边的概率值，从而将计数邻接矩阵转化为边的概率分布邻接矩阵，所述概率分布邻接矩阵用于指示每个边存在的概率大小，用于作为合成匿名图时的依据。

进一步的，步骤4-2具体如下：对于边的概率分布矩阵中的每一行，添加满足差分隐私要求的噪声数据，具体的，第i行中的每个元素e_ij，为其加上一个满足特定概率分布的随机值k，即可得到一个具有一定程度随机性的新的e_ij值，对整个边的概率分布矩阵进行相同操作，从而得到一个满足差分隐私要求的匿名概率分布矩阵。

一种基于深度神经网络的图数据匿名装置，其特征在于，其包括：包括处理器、存储器以及程序；

所述程序存储在所述存储器中，所述处理器调用存储器存储的程序，以执行上述的基于深度神经网络的图数据匿名方法。

一种计算机可读存储介质，其特征在于：所述计算机可读存储介质被配置成存储程序，所述程序被配置成执行上述的基于深度神经网络的图数据匿名方法。

当前主流的图数据结构特征匿名方法无法同时满足高匿名性和高数据可用性，且大量研究表明，目前的匿名技术在基于机器学习等数据挖掘技术的攻击下十分脆弱，针对以上问题，本发明提供了基于深度神经网络的图数据匿名方法、装置、存储介质，通过大量的随机游走采样，获取原始图的连接信息和特征，利用深度神经网络的图表示学习方法，具体使用生成对抗网络这种最新的深度学习模型，经过多轮的迭代训练，能充分学习原始图数据中的潜在关联信息和特征分布信息，不依赖人工指定特定的特征维度，保证合成匿名图具有与原始图相似的统计特征分布，保持了高数据可用性，最后利用这些学到的特征信息，合成图中的边由深度学习模型的特征表示构建而成，添加满足差分隐私的扰动噪声，从数学原理上保证了合成图的匿名效果，即保证了高匿名性。

附图说明

图1为本发明的基于深度神经网络的图数据匿名方法的流程图；

图2为步骤2中节点随机游走策略的示意图。

具体实施方式

见图1，本发明的一种基于深度神经网络的图数据匿名方法，包括以下步骤：

本发明利用仿真的合成图数据来替代原始数据进行发布，该合成的图数据能充分保留原始数据中的关联特征和统计特征分布，确保其能满足科学研究领域数据挖掘任务的需求，同时又不包含真实节点信息，避免个体隐私的泄露。

在本实施例中，步骤1具体如下：在对图数据中真实的节点序列进行采样时，使用node2vec算法的偏置二阶游走策略，通过参数p和q控制节点的转移概率，见图2，假设经过随机游走，上一步从节点t转移到当前节点v，在选择下一个节点x时，其转移概率π_vx的计算公式如下：

π_vx＝α_pq(t,x)·w_vx

其中，w_vx为节点v和节点x之间的边的权重，且：

其中的d_tx表示上一个节点t与下一个节点x的最短路径长度，d_tx的值为0表示节点从x回到t，d_tx的值为1表示节点x和t直接相连，d_tx的值为2表示x和t之间存在中间节点，因此，参数p用于控制节点的回溯概率，减小p值使得游走过程容易回溯到上一个节点，p值变大的时候节点更倾向转移到新节点；参数q控制节点游走的深浅，q＞1时倾向于宽度优先的局部游走策略，q＜1时倾向于深度优先的全局游走策略，适当调整p和q的值，即可使得节点游走序列充分覆盖图中的节点和路径，且能捕获远距离的相似特征，使得图中相似的局部结构特征可以产生相似的节点序列，节点序列中的节点通过One-hot的方式表示为向量。游走结束后，该组游走序列可以作为图的特征表示序列，输入神经网络模型。

在本实施例中，在步骤2中，使用生成对抗网络GAN构建图数据特征的学习模型，生成对抗网络GAN包括生成器和判别器，生成器用于将输入的真实的节点序列生成仿真的节点的随机游走序列，判别器用于鉴别输入的真实的节点序列和仿真的节点序列。

具体的，判别器对于真实的节点序列输入得到的输出记为D_real，对于仿真的节点序列输入得到的输出记为D_fake，在模型训练过程中，生成器的训练目标是产生接近真实的节点序列的仿真的节点序列，使得判别器无法鉴别该序列是真实采样还是仿真生成，生成器的训练目标要使得D_fake尽可能大，其损失函数定义为D_fake的平均相反数；判别器的训练目标是能够正确区分输入是真实采样还是仿真生成，判别器的训练目标是要使得的D_fake值尽可能小，D_real尽可能大，则损失函数定义为D_fake-D_real的平均值；

在每一轮迭代训练过程中，使用神经网络的Adam优化器最小化生成器和判别器的损失函数，并利用优化器自动调整生成器和判别器模型中对应的参数，使得生成器和判别器朝着目标优化，当生成器和判别器的损失函数值趋于稳定不再变化时表示模型趋于稳定，训练停止。生成器和判别器的模型目标是对立的，两者在不断朝着各自目标优化参数的博弈对抗的过程中，分别都能取得较好的模型训练效果。此时，生成器最终可以生成接近真实的仿真的节点的随机游走序列，其可作为对图数据特征表示。

在本实施例中，在步骤4具体包括以下步骤：

具体的，步骤4-1具体如下：从步骤3得到的仿真的节点的随机游走序列中，根据每个游走路径上每个节点的连接关系，统计节点之间的边出现概率，假设图中共有n个节点，n为自然数，构建n×n计数邻接矩阵，矩阵中的每一行表示一个节点与其他n-1个节点的边的连接数量分布，假设矩阵中第i行的每个元素e_ij的值表示节点i和节点j的在随机游走序列中出现连接边的数量，利用归一化方法，每个元素e_ij除以该行所有元素之和，得到一个小于1的值，即为节点i和j之间存在边的概率值，从而将计数邻接矩阵转化为边的概率分布邻接矩阵，概率分布邻接矩阵用于指示每个边存在的概率大小，用于作为合成匿名图时的依据。

具体的，步骤4-2具体如下：对于边的概率分布矩阵中的每一行，添加满足差分隐私要求的噪声数据，具体的，第i行中的每个元素e_ij，为其加上一个满足特定概率分布的随机值k，即可得到一个具有一定程度随机性的新的e_ij值，对整个边的概率分布矩阵进行相同操作，从而得到一个满足差分隐私要求的匿名概率分布矩阵。

本发明的基于深度神经网络的图数据匿名方法，通过大量的随机游走采样，获取原始图的连接信息和特征，利用深度神经网络的图表示学习方法，具体使用生成对抗网络这种最新的深度学习模型，经过多轮的迭代训练，能充分学习原始图数据中的潜在关联信息和特征分布信息，不依赖人工指定特定的特征维度，保证合成匿名图具有与原始图相似的统计特征分布，保持了高数据可用性，最后利用这些学到的特征信息，合成图中的边由深度学习模型的特征表示构建而成，添加满足差分隐私的扰动噪声，从数学原理上保证了合成图的匿名效果，即保证了高匿名性。

在本发明的实施例中，还提供了一种基于深度神经网络的图数据匿名装置，其特征在于，其包括：包括处理器、存储器以及程序；

程序存储在存储器中，处理器调用存储器存储的程序，以执行上述的基于深度神经网络的图数据匿名方法。

在上述基于深度神经网络的图数据匿名装置的实现中，存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线连接。存储器中存储有实现数据访问控制方法的计算机执行指令，包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理。

存储器可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的实施例中，还提供了一种计算机可读存储介质，计算机可读存储介质被配置成存储程序，程序被配置成执行上述的基于深度神经网络的图数据匿名方法。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图中指定的功能的步骤。

以上对本发明所提供的基于深度神经网络的图数据匿名方法、基于深度神经网络的图数据匿名裝置和一种计算机可读存储介质的应用进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度神经网络的图数据匿名方法，其特征在于，包括以下步骤：

步骤4：将得到的仿真的节点的随机游走序列，添加满足差分隐私的机制的噪声，然后进行合成，得到匿名图；

在步骤4中，具体包括以下步骤：

步骤4-1:根据仿真的节点的随机游走序列，统计节点之间的边出现概率，构建边的概率分布邻接矩阵；

步骤4-3：根据原始图中边的数量M，依概率不放回的从匿名概率分布矩阵中抽取M条不重复的边，得到合成的匿名图。

2.根据权利要求1所述的一种基于深度神经网络的图数据匿名方法，其特征在于，步骤1具体如下：在对图数据中真实的节点序列进行采样时，使用node2vec算法的偏置二阶游走策略，通过参数p和q控制节点的转移概率，假设经过随机游走，上一步从节点t转移到当前节点v，在选择下一个节点x时，其转移概率π_vx的计算公式如下：

π_vx＝α_pq(t,x)·w_vx

其中，w_vx为节点v和节点x之间的边的权重，且：

其中的d_tx表示上一个节点t与下一个节点x的最短路径长度，d_tx的值为0表示节点从x回到t，d_tx的值为1表示节点x和t直接相连，d_tx的值为2表示x和t之间存在中间节点，因此，参数p用于控制节点的回溯概率，减小p值使得游走过程容易回溯到上一个节点，p值变大的时候节点更倾向转移到新节点；参数q控制节点游走的深浅，q>1时倾向于宽度优先的局部游走策略，q<1时倾向于深度优先的全局游走策略。

3.根据权利要求2所述的一种基于深度神经网络的图数据匿名方法，其特征在于，在步骤2中，使用生成对抗网络GAN构建图数据特征的学习模型，生成对抗网络GAN包括生成器和判别器，生成器用于将输入的真实的节点序列生成仿真的节点的随机游走序列，判别器用于鉴别输入的真实的节点序列和仿真的节点序列。

4.根据权利要求3所述的一种基于深度神经网络的图数据匿名方法，其特征在于，在步骤2中，判别器对于真实的节点序列输入得到的输出记为D_real，对于仿真的节点序列输入得到的输出记为D_fake，在模型训练过程中，生成器的训练目标是产生接近真实的节点序列的仿真的节点序列，使得判别器无法鉴别该序列是真实采样还是仿真生成，生成器的训练目标要使得D_fake尽可能大，其损失函数定义为D_fake的平均相反数；判别器的训练目标是能够正确区分输入是真实采样还是仿真生成，判别器的训练目标是要使得的D_fake值尽可能小，D_real尽可能大，则损失函数定义为D_fake-D_real的平均值；

5.根据权利要求1所述的一种基于深度神经网络的图数据匿名方法，其特征在于，步骤4-1具体如下：从步骤3得到的仿真的节点的随机游走序列中，根据每个游走路径上每个节点的连接关系，统计节点之间的边出现概率，假设图中共有n个节点，n为自然数，构建n×n计数邻接矩阵，矩阵中的每一行表示一个节点与其他n-1个节点的边的连接数量分布，假设矩阵中第i行的每个元素e_ij的值表示节点i和节点j的在随机游走序列中出现连接边的数量，利用归一化方法，每个元素e_ij除以该行所有元素之和，得到一个小于1的值，即为节点i和j之间存在边的概率值，从而将计数邻接矩阵转化为边的概率分布邻接矩阵，所述概率分布邻接矩阵用于指示每个边存在的概率大小，用于作为合成匿名图时的依据。

6.根据权利要求1所述的一种基于深度神经网络的图数据匿名方法，其特征在于，步骤4-2具体如下：对于边的概率分布邻接矩阵中的每一行，添加满足差分隐私要求的噪声数据，具体的，第i行中的每个元素e_ij，为其加上一个满足特定概率分布的随机值k，即可得到一个具有一定程度随机性的新的e_ij值，对整个边的概率分布邻接矩阵进行相同操作，从而得到一个满足差分隐私要求的匿名概率分布矩阵。

7.一种基于深度神经网络的图数据匿名装置，其特征在于，其包括：包括处理器、存储器以及程序；

所述程序存储在所述存储器中，所述处理器调用存储器存储的程序，以执行权利要求1所述的基于深度神经网络的图数据匿名方法。

8.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质被配置成存储程序，所述程序被配置成执行权利要求1所述的基于深度神经网络的图数据匿名方法。