CN113486395A

CN113486395A - 一种采用多元信息融合的科研数据匿名化方法及系统

Info

Publication number: CN113486395A
Application number: CN202110748781.2A
Authority: CN
Inventors: 李文中; 余泽鹏; 叶保留; 陆桑璐
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2021-10-08

Abstract

本发明公开了一种采用多元信息融合的科研数据匿名化方法及系统。所述方法包括：通过学者基本学术行为、同行评议和项目评审多元数据获取学者交互列表，并学习学者交互列表向量表示；利用学得的学者交互向量序列，使用自注意力机制获取学者交互序列之间关系，提取学者交互所包含敏感特征的特征敏感度向量；根据学者个人信息、学术影响力特征信息的不同，自适应的调整特征敏感度向量；将调整后的特征敏感度向量，连同项目信息和论文信息一起作为全连接预测层输入向量，给出基于K‑匿名的多维敏感度最佳K值。本发明增加了模型在预测敏感度过程和模型训练过程中的可利用信息，提升科研数据的匿名效果，实现科研数据多维敏感度和细粒度的匿名化方法。

Description

一种采用多元信息融合的科研数据匿名化方法及系统

技术领域

本发明涉及数据匿名化技术领域，具体涉及一种采用多元信息融合的科研数据匿名化方法及系统。

背景技术

在学术搜索推荐系统和学术画像系统中，需要集成融合学者人口学特征、基本科研信息、学术影响力、学术行为、同行评议和项目评审评估行为数据等多种异构数据源，在关键科研行为数据的集成融合汇聚过程中易造成敏感信息及用户个体隐私泄露。一种广泛采用的数据匿名化技术为K-匿名算法，该方法采用隐匿和泛化等技术，使得数据集中的每条记录至少与数据集中其他K-1条记录拥有相同的标识符属性值。然而，针对科研数据集融合学者个人信息、学术影响力特征信息、项目信息、论文信息、学术行为、同行评议和项目评审评估行为等多元数据，不同维度的特征具有不同的敏感度，如学者的详细通讯信息和他们在同行评议中的观点敏感度相对较高；而学者所发表的论文和获得授权的专利信息则敏感度较低。传统的K-匿名方法难以实现细粒度和个性化的科研数据匿名化，导致成本过高或者匿名化效果不好。

发明内容

针对上述现有技术的不足，本发明的目的在于提出一种采用多元信息融合的科研数据匿名化方法及系统，将学者基本信息和学者基本学术行文信息引入到网络表示学习模型中，利用网络表示学习的原理和自动编解码器的强表达能力，找到基于K匿名的多维特征敏感度最佳K值预测，实现科研数据多维敏感度和细粒度的匿名化方法，从而提升科研数据匿名化效果。

为了达到上述目的，本发明采用如下技术方案：

第一方面，一种采用多元信息融合的科研数据匿名化方法，包括以下步骤：

S1、从多种异构数据源中获取学者交互列表，并学习学者交互列表向量表示；

S2、利用学得的学者交互向量序列，使用自注意力机制获取学者交互序列之间关系，提取学者交互所包含敏感特征的特征敏感度向量；

S3、根据学者个人信息、学术影响力特征信息的不同，自适应的调整特征敏感度向量；

S4、将动态调整的特征敏感度向量，连同项目信息论文信息、学者信息以及学术影响力特征信息一起作为全连接预测层的输入向量，给出基于K-匿名的多维敏感度最佳K值。

于本发明第一方面的一些实施例中，所述步骤S1包括：

从学者基本学术行为、同行评议和项目评审原始数据集中提取出学者交互特征，构建学者交互列表集合，构建学者基本信息的独热编码；

将学者基本信息稀疏的独热编码表示转换为稠密的向量形式，再把异构的学者交互列表结构转换为维度统一的向量形式。

于本发明第一方面的一些实施例中，所述步骤S1包括：

根据原始数据集，提取学者基本信息的独热编码V，将每个学者视为一个节点，当两个节点在交互列表中连续出现时，通过有向边连接它们，得到初始序列；

建立最大化平均对数概率的目标函数：

其中N(a_i)表示节点a_i的邻居，s＝{a₁,a₂,…,a_n}∈S中s表示学术交互行为，a₁,a₂,…,a_n表示一次学术交互行为涉及到的学者，S则表示一段时间所有学术交互行为列表；P(c|f(a_i))是观察给定节点a_i的上下文邻域的条件概率，定义为：

其中v_a和v′_a分别为节点a的输入和输出向量表示，v′_c表示a_i任意邻居节点c的输出向量表示，v′_n表示图中任意节点n对应的输出向量表示；

采用随机梯度下降法对所述目标函数进行优化，得到一组固定长度的特征向量。

于本发明第一方面的一些实施例中，所述步骤S2中使用自注意力机制获取学者交互序列之间关系通过基于编码器和解码器的序列到序列映射模型来完成，其中编码器部分由六组完全相同的编码器首尾相接堆叠而成，解码器部分也由六组完全相同的解码器首尾相接堆叠而成，堆叠的编码器和解码器虽然结构完全相同，但是彼此之间并不共享参数，编码器的输入为一组学者交互向量，解码器的输出为每个交互向量对应多维特征敏感度的向量表示。

于本发明第一方面的一些实施例中，每一个编码器包含自注意力层和前馈神经网络层，编码器的输入部分首先经过自注意力层，这一层使得在编码一个序列中特定的某个交互信息表示时，也能同时注意到该学者交互序列中其他的交互信息表示，计算过程形式化为：

其中d_k表示查询向量的维度，Q、L、V分别为每一组输入构成的查询矩阵、键矩阵和值矩阵；

对多组查询矩阵、键矩阵和值矩阵，每组权重矩阵随机初始化，经过训练后，将输入向量映射到不同的表示子空间，通过不同的注意力头计算，得到多个不同的自注意力表示矩阵，将所有的矩阵首尾拼接并乘上一个额外的权重矩阵，最终得到一个压缩的多注意力头输出矩阵作为自注意力层的输出：

Z＝Concat(Z₀,Z₁,…,Z₇)W

其中Z为最终的输出矩阵，Z_i表示第i个自注意力的输出矩阵，W为额外的权重矩阵；

经过自注意力层的输出被进一步输入到一个前馈神经网络中，输入序列中每一个位置对应的前馈神经网络都彼此独立，当数据经过前馈神经网络层时，对模型进行并行训练，对于每一个位置的向量，都进行两次线性变换，并使用ReLu作为激活函数；

每一个解码器也包含上述的自注意力层和前馈神经网络层，经过解码器得到每个学者交互向量对应的特征敏感度向量。

于本发明第一方面的一些实施例中，所述步骤S3包括如下计算过程：

其中x_i表示待预测特征的向量表示，W为权重矩阵，z_j表示多维特征敏感度序列中第j个向量，ω_j表示权重矩阵W中的第j行向量，m表示权重矩阵的行数，v_u(i)表示当待预测特征为i时学者u的特征敏感度向量。

第二方面，一种采用多元信息融合的科研数据匿名化系统，包括：

学者交互向量学习模块，通过学者基本学术行为、同行评议和项目评审等多元数据获取学者交互列表，并学习学者交互列表向量表示；

特征敏感度表示模块，利用学得的学者交互向量序列，使用自注意力机制获取学者交互序列之间关系，提取学者交互所包含的敏感特征；

动态特征敏感度调整模块，根据学者个人信息、学术影响力特征信息的不同，自适应的调整特征敏感度向量；

匿名化处理模块，将动态调整的特征敏感度向量，连同项目信息论文信息、学者信息以及学术影响力特征信息一起作为全连接预测层的输入向量，给出基于K-匿名的多维敏感度最佳K值。

本发明具有以下有益效果：本发明提出了一种采用多元信息融合的科研数据匿名化方法，基于网络表示学习技术和自动编解码器模型，同时将基本学术行为、同行评议和项目评审评估行为等多元融合数据引入到模型当中，增加了模型在预测敏感度过程和模型训练过程中的可利用信息，从而提升科研数据的匿名效果，实现科研数据多维敏感度和细粒度的匿名化方法。

附图说明

图1为本发明实施例提供的采用多元信息融合的科研数据匿名化方法总体流程图；

图2为本发明实施例提供的学者交互序列到特征敏感度序列流程图；

图3为本发明实施例提供的多头自注意力计算流程图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

参考图1，在一个实施例中，采用多元信息融合的科研数据匿名化方法利用基于K-匿名技术、多元信息融合、网络表示学习、自注意力机制、自动编解码器、特征敏感度评估、全连接神经网络、全局上下文信息提取等方法，实现了多维敏感度最佳K值预测算法。具体地，所述方法包括以下步骤：

步骤S1，学者交互向量学习，通过学者基本学术行为、同行评议和项目评审等多元数据获取学者交互列表，使用修改后的skip-gram算法学习学者交互列表向量表示。

由于从数据集中提取的学者交互信息具有可变长度且包含异构语义和上下文信息，为了形成统一的特征表示，需要一种基于学者交互的嵌入方法来将异构的交互信息映射到固定长度的特征向量。

在基于学者交互的嵌入问题中，将每个学者视为一个节点。如果两个节点在交互列表中连续出现，则通过有向边连接它们。这样，就得到了嵌入阶段所需的序列。这里的嵌入过程即学者交互数据的预处理过程，即将学者交互列表数据转化成一组特征向量表示。由于节点交互信息已经转化为图来表示，因此上述过程的关键目标是找到一个映射函数f:V→R^d，将图中的节点表示为低维向量的同时，尽可能保留原始节点之间的拓扑关系以及属性信息，其中V表示节点交互信息图中的节点，是提取出的学者基本信息的独热编码，R^d表示d维向量，是学者交互信息的向量表示。

为了保留图中的结构信息，需要最大化如下目标函数，即基于skim-gram算法最大化平均对数概率：

其中N(a_i)表示节点a_i的邻居，也就是节点a_i的上下文，s＝{a₁,a₂,…,a_n}∈S中s表示学术交互行为，如论文合作、同行评议等，a₁,a₂,…,a_n表示一次学术交互行为涉及到的学者，S则表示一段时间所有学术交互行为列表。P(c|f(a_i))是观察给定节点a_i的上下文邻域的条件概率，定义为：

其中v_a和v′_a为节点a的输入和输出向量表示，v′_c表示a_i任意邻居节点c的输出向量表示，v′_n表示图中任意节点n对应的输出向量表示。

从公式(1)和公式(2)可以看到梯度的计算是非常耗时的，因为梯度和|V|的大小成正比。这里的梯度指目标函数

对于任意a_i的偏导数。当面对大规模数据集时，这是不切实际的。为了降低梯度计算的成本，本发明采用了负样本法。负样本法的核心思想是，当训练一个节点a_i的向量时，使用它们的上下文节点c∈N(a_i)作为正样本，并从整个图中随机选择N个节点作为负样本，则概率可表示为：

其中σ为sigmoid函数，采用随机梯度下降法进行优化目标函数

随机梯度下降算法最终将给出一个函数形式f:V→R^d。其中R^d为学者交互的向量表示，既包含了原始交互列表中的交互信息，也包含一定的预测信息，即根据节点上下文信息学习出的未来可能的交互信息。经过这一过程，即可将多维数据的独热编码V转化为一组d维的稠密向量表示。

步骤S2，特征敏感度表示，利用学得的学者交互向量序列，使用自注意力机制获取学者交互序列之间关系，提取学者交互所包含的敏感特征。

参考图2，特征敏感度表示主要由基于编码器和解码器的序列到序列映射模型来完成。其输入为一组学者交互向量，输出为每个学者交互向量对应的特征敏感度的向量表示。

编码器的输入部分首先经过自注意力层，这一层使得在编码一个序列中特定的某个交互信息表示时，也能同时注意到该学者交互序列中其他的交互信息表示。计算过程可形式化为：

为了计算自注意力向量，编码器基于每一个输入，即学者交互向量，创建查询向量、键向量、和值向量三个向量，其中d_k表示查询向量的维度，Q、L、V分别为每一组输入构成的查询矩阵、键矩阵和值矩阵。每一组输入当作键值存储内容，注意力的计算则可以通过查询过程中的寻址操作来计算。具体来说，通过计算查询向量和键向量的相似度决定该键向量所对应值向量的权重，并采用加权求和的方式计算最终的注意力值。

特征的敏感度受到诸多因素的影响，所以不能仅计算一次自注意力分数，而需要计算多次，在不同的向量子空间中捕获关系，这就是本发明所使用的多头注意力机制。多头注意力机制在两个方面提高了注意力层的表示效果：1)它扩展了注意力层关注不同位置的能力；2)它将多个表示子空间带入到注意力层中。使用多头注意力机制，将有多组查询/键/值的权重矩阵，每组权重矩阵随机初始化，经过训练后，将输入向量映射到不同的表示子空间。通过不同的注意力头计算，会得到八个不同的自注意力表示矩阵，将所有的矩阵首尾拼接并乘上一个额外的权重矩阵，最终得到一个压缩的多注意力头输出矩阵作为自注意力层的输出。

Z＝Concat(Z₀,Z₁,…，Z₇)W (5)

其中Z为最终的输出矩阵，Z_i表示第i个自注意力的输出矩阵，W为额外的权重矩阵，整体计算流程如图3所示。

经过自注意力层的输出被进一步输入到一个前馈神经网络中，输入序列中每一个位置对应的前馈神经网络都彼此独立，互不干扰，此时前馈神经网络层中不存在输入序列中不同位置的向量间的依赖关系，因此当数据经过前馈神经网络层时，可以对模型进行并行训练。对于每一个位置的向量，都进行两次线性变换，并使用ReLu作为激活函数。

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (6)

这里，FFN表示两次线性变换的函数表示，max(0,xW₁+b₁)表示ReLu激活函数，W₁和W₂表示神经网络第1和第2层的权重。b₁和b₂为常数，分别表示两次线性变换中的偏移。

每一个解码器也包含上述的自注意力层和前馈神经网络层。在解码阶段，每一步都会输出结果序列中的一个向量，直到一个特殊标识指示输出序列的结束。解码过程中每一步的输出都会更新到最底层的解码器，作为下一个时间步的输入。与编码阶段相同，序列中每一个位置的向量都会被附加上一个位置编码，用于标识该向量在序列中的位置。另外，解码器部分每一层解码器的自注意力层，与编码器中的自注意力层有些区别。在解码器中，通过掩蔽之后位置的向量，自注意力层只会看到当前输入向量之前位置的序列向量，并用它们计算自注意力层的输出。不同于编码器部分的是，在自注意力层和前馈神经网络层之间，还有一层编码解码注意力层，帮助解码器注意到输入的学者交互序列表示中的相关部分。编码解码注意力层的计算机制与多头注意力机制相同，该层从下层的输出计算查询向量矩阵Q，不同的是，计算过程中所需要的键矩阵L和值矩阵V是由编码器部分最顶层编码器的输出转换而成的。在编码器部分和解码器部分中，每一个子网的输出部分都会进行层归一化操作，以减少训练时间。具体的计算过程为：

LayerNorm(X+Sublayer(X)),

其中LayerNorm表示归一化函数，X表示输入矩阵，Sublayer(X)表示输入矩阵的每一层。经过解码器即可得到每个学者交互向量对应的特征敏感度向量。

步骤S3，动态特征敏感度调整：根据学者个人信息、学术影响力特征信息的不同，自适应的调整特征敏感度向量。

对多维特征敏感度序列做加权求和操作，只需要根据待预测特征的不同，动态调整加和权重就可以改变特征敏感度的向量表示。

其中x_i表示待预测特征的向量表示，W为权重矩阵，Z_j表示解码器输出矩阵即多维特征敏感度序列中第j个向量，ω_j表示权重矩阵W中的第j行向量，m表示权重矩阵的行数，v_u(i)表示当待预测特征为i时学者u的特征敏感度向量。

步骤S4，将项目信息和论文信息嵌入到全连接预测层输入向量，给出基于K-匿名的多维敏感度最佳K值。其中全连接层的输入为特征敏感度向量、项目信息、论文信息、学者信息、学术影响力特征信息拼接构成的高维特征向量，输出向量为一组预设特征对应的敏感指标，如地址、电话、研究兴趣、参与评审方向、评审打分等。对输出向量中所有元素进行排序并划分为K_max区间，按照敏感度从低到高分别对预设特征对应的信息实现不同K值的匿名化处理(K＝1,2,…,K_max)。

根据本发明的另一实施例，提供一种采用多元信息融合的科研数据匿名化系统，包括：

学者交互向量学习模块，通过学者基本学术行为、同行评议和项目评审等多元数据获取学者交互列表，使用修改后的skip-gram算法学习学者交互列表向量表示；

匿名化处理模块，将项目信息和论文信息嵌入到全连接预测层输入向量，给出基于K-匿名的多维敏感度最佳K值，对特征敏感度向量中所有元素进行排序并划分为K_max区间，按照敏感度从低到高分别实现不同K值的匿名化处理(K＝1,2,…,K_max)。

应当理解，本实施例中采用多元信息融合的科研数据匿名化系统可以实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，未详尽描述的各功能模块的具体实现过程可参照上述方法实施例中的相关描述，此处不再赘述。

本发明使用针对学者交互列表的嵌入算法，将多元信息融合的学者交互结构嵌入成统一维度的学者交互向量。为了获得特征敏感度的向量表示，使用基于编码器和解码器的序列到序列映射模型，将学者交互向量序列转换为一组特征敏感度表示序列。同时引入一种动态的特征敏感度调整方式，根据学者基本信息和学术影响力特征信息，自适应的调整特征敏感度表示向量。基于学者交互向量学习、特征敏感度向量学习、动态特征敏感度向量调整找到基于K匿名的多维特征敏感度最佳K值预测，实现科研数据多维敏感度和细粒度的匿名化方法。

本领域普通技术人员可以理解，实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中。用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

Claims

1.一种采用多元信息融合的科研数据匿名化方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的采用多元信息融合的科研数据匿名化方法，其特征在于，所述步骤S1包括：

3.根据权利要求2所述的采用多元信息融合的科研数据匿名化方法，其特征在于，所述步骤S1包括：

建立最大化平均对数概率的目标函数：

其中N(a_i)表示节点a_i的邻居，s＝{a₁，a₂，...，a_n}∈S中s表示学术交互行为，a₁，a₂，...，a_n表示一次学术交互行为涉及到的学者，S则表示一段时间所有学术交互行为列表；P(c|f(a_i))是观察给定节点a_i的上下文邻域的条件概率，定义为：

4.根据权利要求1所述的采用多元信息融合的科研数据匿名化方法，其特征在于，所述步骤S2中使用自注意力机制获取学者交互序列之间关系通过基于编码器和解码器的序列到序列映射模型来完成，其中编码器部分由六组完全相同的编码器首尾相接堆叠而成，解码器部分也由六组完全相同的解码器首尾相接堆叠而成，堆叠的编码器和解码器虽然结构完全相同，但是彼此之间并不共享参数，编码器的输入为一组学者交互向量，解码器的输出为每个交互向量对应多维特征敏感度的向量表示。

5.根据权利要求4所述的采用多元信息融合的科研数据匿名化方法，其特征在于，每一个编码器包含自注意力层和前馈神经网络层，编码器的输入部分首先经过自注意力层，这一层使得在编码一个序列中特定的某个交互信息表示时，也能同时注意到该学者交互序列中其他的交互信息表示，计算过程形式化为：

Z＝Concat(Z₀，Z₁，...，Z₇)W

6.根据权利要求5所述的采用多元信息融合的科研数据匿名化方法，其特征在于，在编码器部分和解码器部分中，每一个子网的输出部分都进行层归一化操作，具体的计算过程为：

LayerNorm(X+Sublayer(X))，

其中LayerNorm表示归一化函数，X表示输入矩阵，Sublayer(X)表示输入矩阵的每一层。

7.根据权利要求1所述的采用多元信息融合的科研数据匿名化方法，其特征在于，所述步骤S3包括如下计算过程：

8.根据权利要求1所述的采用多元信息融合的科研数据匿名化方法，其特征在于，所述步骤S4中全连接预测层的输入向量为特征敏感度向量、项目信息、论文信息、学者信息、学术影响力特征信息拼接构成的高维特征向量，输出向量为一组预设特征对应的敏感指标，对输出向量中所有元素进行排序并划分为多个区间，按照敏感度从低到高分别对预设特征对应的信息实现不同K值的匿名化处理。

9.一种采用多元信息融合的科研数据匿名化系统，其特征在于，包括：