CN113486395A - 一种采用多元信息融合的科研数据匿名化方法及系统 - Google Patents
一种采用多元信息融合的科研数据匿名化方法及系统 Download PDFInfo
- Publication number
- CN113486395A CN113486395A CN202110748781.2A CN202110748781A CN113486395A CN 113486395 A CN113486395 A CN 113486395A CN 202110748781 A CN202110748781 A CN 202110748781A CN 113486395 A CN113486395 A CN 113486395A
- Authority
- CN
- China
- Prior art keywords
- vector
- information
- interaction
- sensitivity
- student
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000011160 research Methods 0.000 title claims abstract description 31
- 230000004927 fusion Effects 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 133
- 230000003993 interaction Effects 0.000 claims abstract description 86
- 230000035945 sensitivity Effects 0.000 claims abstract description 73
- 238000012552 review Methods 0.000 claims abstract description 24
- 230000006399 behavior Effects 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 42
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000002452 interceptive effect Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000000844 transformation Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种采用多元信息融合的科研数据匿名化方法及系统。所述方法包括:通过学者基本学术行为、同行评议和项目评审多元数据获取学者交互列表,并学习学者交互列表向量表示;利用学得的学者交互向量序列,使用自注意力机制获取学者交互序列之间关系,提取学者交互所包含敏感特征的特征敏感度向量;根据学者个人信息、学术影响力特征信息的不同,自适应的调整特征敏感度向量;将调整后的特征敏感度向量,连同项目信息和论文信息一起作为全连接预测层输入向量,给出基于K‑匿名的多维敏感度最佳K值。本发明增加了模型在预测敏感度过程和模型训练过程中的可利用信息,提升科研数据的匿名效果,实现科研数据多维敏感度和细粒度的匿名化方法。
Description
技术领域
本发明涉及数据匿名化技术领域,具体涉及一种采用多元信息融合的科研数据匿名化方法及系统。
背景技术
在学术搜索推荐系统和学术画像系统中,需要集成融合学者人口学特征、基本科研信息、学术影响力、学术行为、同行评议和项目评审评估行为数据等多种异构数据源,在关键科研行为数据的集成融合汇聚过程中易造成敏感信息及用户个体隐私泄露。一种广泛采用的数据匿名化技术为K-匿名算法,该方法采用隐匿和泛化等技术,使得数据集中的每条记录至少与数据集中其他K-1条记录拥有相同的标识符属性值。然而,针对科研数据集融合学者个人信息、学术影响力特征信息、项目信息、论文信息、学术行为、同行评议和项目评审评估行为等多元数据,不同维度的特征具有不同的敏感度,如学者的详细通讯信息和他们在同行评议中的观点敏感度相对较高;而学者所发表的论文和获得授权的专利信息则敏感度较低。传统的K-匿名方法难以实现细粒度和个性化的科研数据匿名化,导致成本过高或者匿名化效果不好。
发明内容
针对上述现有技术的不足,本发明的目的在于提出一种采用多元信息融合的科研数据匿名化方法及系统,将学者基本信息和学者基本学术行文信息引入到网络表示学习模型中,利用网络表示学习的原理和自动编解码器的强表达能力,找到基于K匿名的多维特征敏感度最佳K值预测,实现科研数据多维敏感度和细粒度的匿名化方法,从而提升科研数据匿名化效果。
为了达到上述目的,本发明采用如下技术方案:
第一方面,一种采用多元信息融合的科研数据匿名化方法,包括以下步骤:
S1、从多种异构数据源中获取学者交互列表,并学习学者交互列表向量表示;
S2、利用学得的学者交互向量序列,使用自注意力机制获取学者交互序列之间关系,提取学者交互所包含敏感特征的特征敏感度向量;
S3、根据学者个人信息、学术影响力特征信息的不同,自适应的调整特征敏感度向量;
S4、将动态调整的特征敏感度向量,连同项目信息论文信息、学者信息以及学术影响力特征信息一起作为全连接预测层的输入向量,给出基于K-匿名的多维敏感度最佳K值。
于本发明第一方面的一些实施例中,所述步骤S1包括:
从学者基本学术行为、同行评议和项目评审原始数据集中提取出学者交互特征,构建学者交互列表集合,构建学者基本信息的独热编码;
将学者基本信息稀疏的独热编码表示转换为稠密的向量形式,再把异构的学者交互列表结构转换为维度统一的向量形式。
于本发明第一方面的一些实施例中,所述步骤S1包括:
根据原始数据集,提取学者基本信息的独热编码V,将每个学者视为一个节点,当两个节点在交互列表中连续出现时,通过有向边连接它们,得到初始序列;
建立最大化平均对数概率的目标函数:
其中N(ai)表示节点ai的邻居,s={a1,a2,…,an}∈S中s表示学术交互行为,a1,a2,…,an表示一次学术交互行为涉及到的学者,S则表示一段时间所有学术交互行为列表;P(c|f(ai))是观察给定节点ai的上下文邻域的条件概率,定义为:
其中va和v′a分别为节点a的输入和输出向量表示,v′c表示ai任意邻居节点c的输出向量表示,v′n表示图中任意节点n对应的输出向量表示;
采用随机梯度下降法对所述目标函数进行优化,得到一组固定长度的特征向量。
于本发明第一方面的一些实施例中,所述步骤S2中使用自注意力机制获取学者交互序列之间关系通过基于编码器和解码器的序列到序列映射模型来完成,其中编码器部分由六组完全相同的编码器首尾相接堆叠而成,解码器部分也由六组完全相同的解码器首尾相接堆叠而成,堆叠的编码器和解码器虽然结构完全相同,但是彼此之间并不共享参数,编码器的输入为一组学者交互向量,解码器的输出为每个交互向量对应多维特征敏感度的向量表示。
于本发明第一方面的一些实施例中,每一个编码器包含自注意力层和前馈神经网络层,编码器的输入部分首先经过自注意力层,这一层使得在编码一个序列中特定的某个交互信息表示时,也能同时注意到该学者交互序列中其他的交互信息表示,计算过程形式化为:
其中dk表示查询向量的维度,Q、L、V分别为每一组输入构成的查询矩阵、键矩阵和值矩阵;
对多组查询矩阵、键矩阵和值矩阵,每组权重矩阵随机初始化,经过训练后,将输入向量映射到不同的表示子空间,通过不同的注意力头计算,得到多个不同的自注意力表示矩阵,将所有的矩阵首尾拼接并乘上一个额外的权重矩阵,最终得到一个压缩的多注意力头输出矩阵作为自注意力层的输出:
Z=Concat(Z0,Z1,…,Z7)W
其中Z为最终的输出矩阵,Zi表示第i个自注意力的输出矩阵,W为额外的权重矩阵;
经过自注意力层的输出被进一步输入到一个前馈神经网络中,输入序列中每一个位置对应的前馈神经网络都彼此独立,当数据经过前馈神经网络层时,对模型进行并行训练,对于每一个位置的向量,都进行两次线性变换,并使用ReLu作为激活函数;
每一个解码器也包含上述的自注意力层和前馈神经网络层,经过解码器得到每个学者交互向量对应的特征敏感度向量。
于本发明第一方面的一些实施例中,所述步骤S3包括如下计算过程:
其中xi表示待预测特征的向量表示,W为权重矩阵,zj表示多维特征敏感度序列中第j个向量,ωj表示权重矩阵W中的第j行向量,m表示权重矩阵的行数,vu(i)表示当待预测特征为i时学者u的特征敏感度向量。
第二方面,一种采用多元信息融合的科研数据匿名化系统,包括:
学者交互向量学习模块,通过学者基本学术行为、同行评议和项目评审等多元数据获取学者交互列表,并学习学者交互列表向量表示;
特征敏感度表示模块,利用学得的学者交互向量序列,使用自注意力机制获取学者交互序列之间关系,提取学者交互所包含的敏感特征;
动态特征敏感度调整模块,根据学者个人信息、学术影响力特征信息的不同,自适应的调整特征敏感度向量;
匿名化处理模块,将动态调整的特征敏感度向量,连同项目信息论文信息、学者信息以及学术影响力特征信息一起作为全连接预测层的输入向量,给出基于K-匿名的多维敏感度最佳K值。
本发明具有以下有益效果:本发明提出了一种采用多元信息融合的科研数据匿名化方法,基于网络表示学习技术和自动编解码器模型,同时将基本学术行为、同行评议和项目评审评估行为等多元融合数据引入到模型当中,增加了模型在预测敏感度过程和模型训练过程中的可利用信息,从而提升科研数据的匿名效果,实现科研数据多维敏感度和细粒度的匿名化方法。
附图说明
图1为本发明实施例提供的采用多元信息融合的科研数据匿名化方法总体流程图;
图2为本发明实施例提供的学者交互序列到特征敏感度序列流程图;
图3为本发明实施例提供的多头自注意力计算流程图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
参考图1,在一个实施例中,采用多元信息融合的科研数据匿名化方法利用基于K-匿名技术、多元信息融合、网络表示学习、自注意力机制、自动编解码器、特征敏感度评估、全连接神经网络、全局上下文信息提取等方法,实现了多维敏感度最佳K值预测算法。具体地,所述方法包括以下步骤:
步骤S1,学者交互向量学习,通过学者基本学术行为、同行评议和项目评审等多元数据获取学者交互列表,使用修改后的skip-gram算法学习学者交互列表向量表示。
由于从数据集中提取的学者交互信息具有可变长度且包含异构语义和上下文信息,为了形成统一的特征表示,需要一种基于学者交互的嵌入方法来将异构的交互信息映射到固定长度的特征向量。
在基于学者交互的嵌入问题中,将每个学者视为一个节点。如果两个节点在交互列表中连续出现,则通过有向边连接它们。这样,就得到了嵌入阶段所需的序列。这里的嵌入过程即学者交互数据的预处理过程,即将学者交互列表数据转化成一组特征向量表示。由于节点交互信息已经转化为图来表示,因此上述过程的关键目标是找到一个映射函数f:V→Rd,将图中的节点表示为低维向量的同时,尽可能保留原始节点之间的拓扑关系以及属性信息,其中V表示节点交互信息图中的节点,是提取出的学者基本信息的独热编码,Rd表示d维向量,是学者交互信息的向量表示。
为了保留图中的结构信息,需要最大化如下目标函数,即基于skim-gram算法最大化平均对数概率:
其中N(ai)表示节点ai的邻居,也就是节点ai的上下文,s={a1,a2,…,an}∈S中s表示学术交互行为,如论文合作、同行评议等,a1,a2,…,an表示一次学术交互行为涉及到的学者,S则表示一段时间所有学术交互行为列表。P(c|f(ai))是观察给定节点ai的上下文邻域的条件概率,定义为:
其中va和v′a为节点a的输入和输出向量表示,v′c表示ai任意邻居节点c的输出向量表示,v′n表示图中任意节点n对应的输出向量表示。
从公式(1)和公式(2)可以看到梯度的计算是非常耗时的,因为梯度和|V|的大小成正比。这里的梯度指目标函数对于任意ai的偏导数。当面对大规模数据集时,这是不切实际的。为了降低梯度计算的成本,本发明采用了负样本法。负样本法的核心思想是,当训练一个节点ai的向量时,使用它们的上下文节点c∈N(ai)作为正样本,并从整个图中随机选择N个节点作为负样本,则概率可表示为:
其中σ为sigmoid函数,采用随机梯度下降法进行优化目标函数随机梯度下降算法最终将给出一个函数形式f:V→Rd。其中Rd为学者交互的向量表示,既包含了原始交互列表中的交互信息,也包含一定的预测信息,即根据节点上下文信息学习出的未来可能的交互信息。经过这一过程,即可将多维数据的独热编码V转化为一组d维的稠密向量表示。
步骤S2,特征敏感度表示,利用学得的学者交互向量序列,使用自注意力机制获取学者交互序列之间关系,提取学者交互所包含的敏感特征。
参考图2,特征敏感度表示主要由基于编码器和解码器的序列到序列映射模型来完成。其输入为一组学者交互向量,输出为每个学者交互向量对应的特征敏感度的向量表示。
编码器的输入部分首先经过自注意力层,这一层使得在编码一个序列中特定的某个交互信息表示时,也能同时注意到该学者交互序列中其他的交互信息表示。计算过程可形式化为:
为了计算自注意力向量,编码器基于每一个输入,即学者交互向量,创建查询向量、键向量、和值向量三个向量,其中dk表示查询向量的维度,Q、L、V分别为每一组输入构成的查询矩阵、键矩阵和值矩阵。每一组输入当作键值存储内容,注意力的计算则可以通过查询过程中的寻址操作来计算。具体来说,通过计算查询向量和键向量的相似度决定该键向量所对应值向量的权重,并采用加权求和的方式计算最终的注意力值。
特征的敏感度受到诸多因素的影响,所以不能仅计算一次自注意力分数,而需要计算多次,在不同的向量子空间中捕获关系,这就是本发明所使用的多头注意力机制。多头注意力机制在两个方面提高了注意力层的表示效果:1)它扩展了注意力层关注不同位置的能力;2)它将多个表示子空间带入到注意力层中。使用多头注意力机制,将有多组查询/键/值的权重矩阵,每组权重矩阵随机初始化,经过训练后,将输入向量映射到不同的表示子空间。通过不同的注意力头计算,会得到八个不同的自注意力表示矩阵,将所有的矩阵首尾拼接并乘上一个额外的权重矩阵,最终得到一个压缩的多注意力头输出矩阵作为自注意力层的输出。
Z=Concat(Z0,Z1,…,Z7)W (5)
其中Z为最终的输出矩阵,Zi表示第i个自注意力的输出矩阵,W为额外的权重矩阵,整体计算流程如图3所示。
经过自注意力层的输出被进一步输入到一个前馈神经网络中,输入序列中每一个位置对应的前馈神经网络都彼此独立,互不干扰,此时前馈神经网络层中不存在输入序列中不同位置的向量间的依赖关系,因此当数据经过前馈神经网络层时,可以对模型进行并行训练。对于每一个位置的向量,都进行两次线性变换,并使用ReLu作为激活函数。
FFN(x)=max(0,xW1+b1)W2+b2 (6)
这里,FFN表示两次线性变换的函数表示,max(0,xW1+b1)表示ReLu激活函数,W1和W2表示神经网络第1和第2层的权重。b1和b2为常数,分别表示两次线性变换中的偏移。
每一个解码器也包含上述的自注意力层和前馈神经网络层。在解码阶段,每一步都会输出结果序列中的一个向量,直到一个特殊标识指示输出序列的结束。解码过程中每一步的输出都会更新到最底层的解码器,作为下一个时间步的输入。与编码阶段相同,序列中每一个位置的向量都会被附加上一个位置编码,用于标识该向量在序列中的位置。另外,解码器部分每一层解码器的自注意力层,与编码器中的自注意力层有些区别。在解码器中,通过掩蔽之后位置的向量,自注意力层只会看到当前输入向量之前位置的序列向量,并用它们计算自注意力层的输出。不同于编码器部分的是,在自注意力层和前馈神经网络层之间,还有一层编码解码注意力层,帮助解码器注意到输入的学者交互序列表示中的相关部分。编码解码注意力层的计算机制与多头注意力机制相同,该层从下层的输出计算查询向量矩阵Q,不同的是,计算过程中所需要的键矩阵L和值矩阵V是由编码器部分最顶层编码器的输出转换而成的。在编码器部分和解码器部分中,每一个子网的输出部分都会进行层归一化操作,以减少训练时间。具体的计算过程为:
LayerNorm(X+Sublayer(X)),
其中LayerNorm表示归一化函数,X表示输入矩阵,Sublayer(X)表示输入矩阵的每一层。经过解码器即可得到每个学者交互向量对应的特征敏感度向量。
步骤S3,动态特征敏感度调整:根据学者个人信息、学术影响力特征信息的不同,自适应的调整特征敏感度向量。
对多维特征敏感度序列做加权求和操作,只需要根据待预测特征的不同,动态调整加和权重就可以改变特征敏感度的向量表示。
其中xi表示待预测特征的向量表示,W为权重矩阵,Zj表示解码器输出矩阵即多维特征敏感度序列中第j个向量,ωj表示权重矩阵W中的第j行向量,m表示权重矩阵的行数,vu(i)表示当待预测特征为i时学者u的特征敏感度向量。
步骤S4,将项目信息和论文信息嵌入到全连接预测层输入向量,给出基于K-匿名的多维敏感度最佳K值。其中全连接层的输入为特征敏感度向量、项目信息、论文信息、学者信息、学术影响力特征信息拼接构成的高维特征向量,输出向量为一组预设特征对应的敏感指标,如地址、电话、研究兴趣、参与评审方向、评审打分等。对输出向量中所有元素进行排序并划分为Kmax区间,按照敏感度从低到高分别对预设特征对应的信息实现不同K值的匿名化处理(K=1,2,…,Kmax)。
根据本发明的另一实施例,提供一种采用多元信息融合的科研数据匿名化系统,包括:
学者交互向量学习模块,通过学者基本学术行为、同行评议和项目评审等多元数据获取学者交互列表,使用修改后的skip-gram算法学习学者交互列表向量表示;
特征敏感度表示模块,利用学得的学者交互向量序列,使用自注意力机制获取学者交互序列之间关系,提取学者交互所包含的敏感特征;
动态特征敏感度调整模块,根据学者个人信息、学术影响力特征信息的不同,自适应的调整特征敏感度向量;
匿名化处理模块,将项目信息和论文信息嵌入到全连接预测层输入向量,给出基于K-匿名的多维敏感度最佳K值,对特征敏感度向量中所有元素进行排序并划分为Kmax区间,按照敏感度从低到高分别实现不同K值的匿名化处理(K=1,2,…,Kmax)。
应当理解,本实施例中采用多元信息融合的科研数据匿名化系统可以实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,未详尽描述的各功能模块的具体实现过程可参照上述方法实施例中的相关描述,此处不再赘述。
本发明使用针对学者交互列表的嵌入算法,将多元信息融合的学者交互结构嵌入成统一维度的学者交互向量。为了获得特征敏感度的向量表示,使用基于编码器和解码器的序列到序列映射模型,将学者交互向量序列转换为一组特征敏感度表示序列。同时引入一种动态的特征敏感度调整方式,根据学者基本信息和学术影响力特征信息,自适应的调整特征敏感度表示向量。基于学者交互向量学习、特征敏感度向量学习、动态特征敏感度向量调整找到基于K匿名的多维特征敏感度最佳K值预测,实现科研数据多维敏感度和细粒度的匿名化方法。
本领域普通技术人员可以理解,实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中。用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。
Claims (9)
1.一种采用多元信息融合的科研数据匿名化方法,其特征在于,所述方法包括以下步骤:
S1、从多种异构数据源中获取学者交互列表,并学习学者交互列表向量表示;
S2、利用学得的学者交互向量序列,使用自注意力机制获取学者交互序列之间关系,提取学者交互所包含敏感特征的特征敏感度向量;
S3、根据学者个人信息、学术影响力特征信息的不同,自适应的调整特征敏感度向量;
S4、将动态调整的特征敏感度向量,连同项目信息论文信息、学者信息以及学术影响力特征信息一起作为全连接预测层的输入向量,给出基于K-匿名的多维敏感度最佳K值。
2.根据权利要求1所述的采用多元信息融合的科研数据匿名化方法,其特征在于,所述步骤S1包括:
从学者基本学术行为、同行评议和项目评审原始数据集中提取出学者交互特征,构建学者交互列表集合,构建学者基本信息的独热编码;
将学者基本信息稀疏的独热编码表示转换为稠密的向量形式,再把异构的学者交互列表结构转换为维度统一的向量形式。
3.根据权利要求2所述的采用多元信息融合的科研数据匿名化方法,其特征在于,所述步骤S1包括:
根据原始数据集,提取学者基本信息的独热编码V,将每个学者视为一个节点,当两个节点在交互列表中连续出现时,通过有向边连接它们,得到初始序列;
建立最大化平均对数概率的目标函数:
其中N(ai)表示节点ai的邻居,s={a1,a2,...,an}∈S中s表示学术交互行为,a1,a2,...,an表示一次学术交互行为涉及到的学者,S则表示一段时间所有学术交互行为列表;P(c|f(ai))是观察给定节点ai的上下文邻域的条件概率,定义为:
其中va和v′a分别为节点a的输入和输出向量表示,v′c表示ai任意邻居节点c的输出向量表示,v′n表示图中任意节点n对应的输出向量表示;
采用随机梯度下降法对所述目标函数进行优化,得到一组固定长度的特征向量。
4.根据权利要求1所述的采用多元信息融合的科研数据匿名化方法,其特征在于,所述步骤S2中使用自注意力机制获取学者交互序列之间关系通过基于编码器和解码器的序列到序列映射模型来完成,其中编码器部分由六组完全相同的编码器首尾相接堆叠而成,解码器部分也由六组完全相同的解码器首尾相接堆叠而成,堆叠的编码器和解码器虽然结构完全相同,但是彼此之间并不共享参数,编码器的输入为一组学者交互向量,解码器的输出为每个交互向量对应多维特征敏感度的向量表示。
5.根据权利要求4所述的采用多元信息融合的科研数据匿名化方法,其特征在于,每一个编码器包含自注意力层和前馈神经网络层,编码器的输入部分首先经过自注意力层,这一层使得在编码一个序列中特定的某个交互信息表示时,也能同时注意到该学者交互序列中其他的交互信息表示,计算过程形式化为:
其中dk表示查询向量的维度,Q、L、V分别为每一组输入构成的查询矩阵、键矩阵和值矩阵;
对多组查询矩阵、键矩阵和值矩阵,每组权重矩阵随机初始化,经过训练后,将输入向量映射到不同的表示子空间,通过不同的注意力头计算,得到多个不同的自注意力表示矩阵,将所有的矩阵首尾拼接并乘上一个额外的权重矩阵,最终得到一个压缩的多注意力头输出矩阵作为自注意力层的输出:
Z=Concat(Z0,Z1,...,Z7)W
其中Z为最终的输出矩阵,Zi表示第i个自注意力的输出矩阵,W为额外的权重矩阵;
经过自注意力层的输出被进一步输入到一个前馈神经网络中,输入序列中每一个位置对应的前馈神经网络都彼此独立,当数据经过前馈神经网络层时,对模型进行并行训练,对于每一个位置的向量,都进行两次线性变换,并使用ReLu作为激活函数;
每一个解码器也包含上述的自注意力层和前馈神经网络层,经过解码器得到每个学者交互向量对应的特征敏感度向量。
6.根据权利要求5所述的采用多元信息融合的科研数据匿名化方法,其特征在于,在编码器部分和解码器部分中,每一个子网的输出部分都进行层归一化操作,具体的计算过程为:
LayerNorm(X+Sublayer(X)),
其中LayerNorm表示归一化函数,X表示输入矩阵,Sublayer(X)表示输入矩阵的每一层。
8.根据权利要求1所述的采用多元信息融合的科研数据匿名化方法,其特征在于,所述步骤S4中全连接预测层的输入向量为特征敏感度向量、项目信息、论文信息、学者信息、学术影响力特征信息拼接构成的高维特征向量,输出向量为一组预设特征对应的敏感指标,对输出向量中所有元素进行排序并划分为多个区间,按照敏感度从低到高分别对预设特征对应的信息实现不同K值的匿名化处理。
9.一种采用多元信息融合的科研数据匿名化系统,其特征在于,包括:
学者交互向量学习模块,通过学者基本学术行为、同行评议和项目评审等多元数据获取学者交互列表,并学习学者交互列表向量表示;
特征敏感度表示模块,利用学得的学者交互向量序列,使用自注意力机制获取学者交互序列之间关系,提取学者交互所包含的敏感特征;
动态特征敏感度调整模块,根据学者个人信息、学术影响力特征信息的不同,自适应的调整特征敏感度向量;
匿名化处理模块,将动态调整的特征敏感度向量,连同项目信息论文信息、学者信息以及学术影响力特征信息一起作为全连接预测层的输入向量,给出基于K-匿名的多维敏感度最佳K值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110748781.2A CN113486395A (zh) | 2021-07-02 | 2021-07-02 | 一种采用多元信息融合的科研数据匿名化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110748781.2A CN113486395A (zh) | 2021-07-02 | 2021-07-02 | 一种采用多元信息融合的科研数据匿名化方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113486395A true CN113486395A (zh) | 2021-10-08 |
Family
ID=77939362
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110748781.2A Pending CN113486395A (zh) | 2021-07-02 | 2021-07-02 | 一种采用多元信息融合的科研数据匿名化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486395A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113870259A (zh) * | 2021-12-02 | 2021-12-31 | 天津御锦人工智能医疗科技有限公司 | 多模态医学数据融合的评估方法、装置、设备及存储介质 |
CN116896512A (zh) * | 2023-09-08 | 2023-10-17 | 之江实验室 | 一种云边协同系统评估方法、装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209822A (zh) * | 2019-06-11 | 2019-09-06 | 中译语通科技股份有限公司 | 基于深度学习的学术领域数据相关性预测方法、计算机 |
CN112115352A (zh) * | 2020-08-28 | 2020-12-22 | 齐鲁工业大学 | 基于用户兴趣的会话推荐方法及系统 |
CN112148776A (zh) * | 2020-09-29 | 2020-12-29 | 清华大学 | 基于引入语义信息的神经网络的学术关系预测方法和装置 |
CN112231582A (zh) * | 2020-11-10 | 2021-01-15 | 南京大学 | 一种基于变分自编码数据融合的网站推荐方法和设备 |
WO2021064907A1 (ja) * | 2019-10-02 | 2021-04-08 | 日本電信電話株式会社 | 文生成装置、文生成学習装置、文生成方法、文生成学習方法及びプログラム |
-
2021
- 2021-07-02 CN CN202110748781.2A patent/CN113486395A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209822A (zh) * | 2019-06-11 | 2019-09-06 | 中译语通科技股份有限公司 | 基于深度学习的学术领域数据相关性预测方法、计算机 |
WO2021064907A1 (ja) * | 2019-10-02 | 2021-04-08 | 日本電信電話株式会社 | 文生成装置、文生成学習装置、文生成方法、文生成学習方法及びプログラム |
CN112115352A (zh) * | 2020-08-28 | 2020-12-22 | 齐鲁工业大学 | 基于用户兴趣的会话推荐方法及系统 |
CN112148776A (zh) * | 2020-09-29 | 2020-12-29 | 清华大学 | 基于引入语义信息的神经网络的学术关系预测方法和装置 |
CN112231582A (zh) * | 2020-11-10 | 2021-01-15 | 南京大学 | 一种基于变分自编码数据融合的网站推荐方法和设备 |
Non-Patent Citations (4)
Title |
---|
GAO K等: ""Dual Transformer Based Prediction for Lane Change Intentions and Trajectories in Mixed Traffic Environment"", IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, vol. 24, no. 6, 27 March 2023 (2023-03-27), pages 6203 - 6216 * |
WENZHONG LI等: ""Website Recommendation with Side Information Aided Variational Autoencoder"", 2020 IEEE 39TH INTERNATIONAL PERFORMANCE COMPUTING AND COMMUNICATIONS CONFERENCE, 5 April 2021 (2021-04-05), pages 1 - 6 * |
夏鹤珑;严丹丹;: "基于多头注意力机制的人物关系抽取方法", 成都工业学院学报, no. 01, 15 March 2020 (2020-03-15), pages 32 - 36 * |
张志扬;张凤荔;陈学勤;王瑞锦;: "基于分层注意力的信息级联预测模型", 计算机科学, no. 06, 15 June 2020 (2020-06-15), pages 201 - 209 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113870259A (zh) * | 2021-12-02 | 2021-12-31 | 天津御锦人工智能医疗科技有限公司 | 多模态医学数据融合的评估方法、装置、设备及存储介质 |
CN113870259B (zh) * | 2021-12-02 | 2022-04-01 | 天津御锦人工智能医疗科技有限公司 | 多模态医学数据融合的评估方法、装置、设备及存储介质 |
CN116896512A (zh) * | 2023-09-08 | 2023-10-17 | 之江实验室 | 一种云边协同系统评估方法、装置、存储介质及电子设备 |
CN116896512B (zh) * | 2023-09-08 | 2024-01-09 | 之江实验室 | 一种云边协同系统评估方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110196946B (zh) | 一种基于深度学习的个性化推荐方法 | |
CN107480261B (zh) | 一种基于深度学习细粒度人脸图像快速检索方法 | |
CN112529168B (zh) | 一种基于gcn的属性多层网络表示学习方法 | |
CN112508085B (zh) | 基于感知神经网络的社交网络链路预测方法 | |
CN110929164A (zh) | 一种基于用户动态偏好与注意力机制的兴趣点推荐方法 | |
US20180341862A1 (en) | Integrating a memory layer in a neural network for one-shot learning | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN109272332B (zh) | 一种基于递归神经网络的客户流失预测方法 | |
CN112819023A (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN113177141B (zh) | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 | |
CN113486395A (zh) | 一种采用多元信息融合的科研数据匿名化方法及系统 | |
CN113569001A (zh) | 文本处理方法、装置、计算机设备及计算机可读存储介质 | |
CN111461175A (zh) | 自注意与协同注意机制的标签推荐模型构建方法及装置 | |
Zhang et al. | Deep unsupervised self-evolutionary hashing for image retrieval | |
CN114298122A (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
JP5297451B2 (ja) | 抑制性ニューラルネットワークに基づいて連想メモリを実現するための方法および装置 | |
CN116228368A (zh) | 一种基于深度多行为网络的广告点击率预测方法 | |
CN113505307B (zh) | 一种基于弱监督增强的社交网络用户地域识别方法 | |
CN116561272A (zh) | 开放域视觉语言问答方法、装置、电子设备及存储介质 | |
CN114863949A (zh) | 情绪识别方法、装置、计算机设备及存储介质 | |
CN114329181A (zh) | 一种题目推荐方法、装置及电子设备 | |
Jie et al. | Progressive framework for deep neural networks: from linear to non-linear | |
CN113205175A (zh) | 一种基于互信息最大化的多层属性网络表征学习方法 | |
Chung et al. | Filter pruning by image channel reduction in pre-trained convolutional neural networks | |
Qiang et al. | Large-scale multi-label image retrieval using residual network with hash layer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |