CN113779520A

CN113779520A - 基于多层属性分析的跨空间目标虚拟身份关联方法

Info

Publication number: CN113779520A
Application number: CN202111042520.5A
Authority: CN
Inventors: 田华臣; 刘俊涛; 张毅; 饶子昀; 王军伟; 王元斌; 黄志刚; 周莹
Original assignee: 709th Research Institute of CSIC
Current assignee: 709th Research Institute of CSIC
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-10
Anticipated expiration: 2041-09-07
Also published as: CN113779520B

Abstract

本发明公开了一种基于多层属性分析的跨空间目标虚拟身份关联方法：使用赋权法计算用户基础信息相似度，其中用户基础信息包括用户名、性别、地址和年龄；运用双向长短期记忆网络模型计算用户观点相似度，其中用户观点隐藏于用户发布的文本中；采用基于图神经网络的方法计算用户社交关系相似度，其中用户社交关系以用户间链接信息及互动信息表征；综合考虑用户基础信息相似度、用户观点相似度以及用户社交关系相似度，计算用户相似度。与传统的身份关联方法相比，本发明方法采用基于深度学习的多属性相似度计算，综合考虑了用户的基础信息、用户观点信息以及用户的社交关系，能够提高身份关联的准确度，实现了目标多重虚拟身份关联。

Description

基于多层属性分析的跨空间目标虚拟身份关联方法

技术领域

本发明属于数据挖掘技术领域，更具体地，涉及一种基于多层属性分析的跨空间目标虚拟身份关联方法。

背景技术

虚拟身份关联技术在公共安全领域具有重要的应用价值，虚拟身份关联技术可以发现互联网用户的真实身份，进而挖掘用户的异常行为，有助于帮助公安机关对犯罪分子进行定位甚至对犯罪行为进行预测，从而阻止违法犯罪行为的发生。采用机器学习等方法发现不同互联网账户的关联，有助于识别互联网用户的真实身份。通过挖掘互联网用户特征来构建用户画像，进而通过用户画像计算用户相似性，从而实现虚拟身份关联。

由于网络虚拟空间中用户的身份信息具有虚假性、不完整性等特点，导致进行虚实映射所用的用户关键信息较少且缺乏准确性，因此用户的多重虚拟身份难以建立对应关系。现有的虚拟身份关联技术往往从用户的基础信息或用户社交关系出发，根据用户基础信息相似性或用户社交相似性实现虚拟身份关联。然而，当用户的信息不全或者不真实时，仅利用单一属性的身份关联效果不佳。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于多层属性分析的跨空间目标虚拟身份关联方法，对网络空间中用户在不同平台的虚拟身份进行关联，对用户的身份背景信息、政治观点、社交关系等多层属性进行分析，综合考虑不同维度的用户信息，从而提高用户身份关联的准确性。

为实现上述目的，本发明提供了一种基于多层属性分析的跨空间目标虚拟身份关联方法，包括：

步骤S1：使用赋权法计算用户基础信息相似度，其中用户基础信息包括用户名、性别、地址和年龄；

步骤S2：运用双向长短期记忆网络模型计算用户观点相似度，其中用户观点隐藏于用户发布的文本中；

步骤S3：采用基于图神经网络的方法计算用户社交关系相似度，其中用户社交关系以用户间链接信息及互动信息表征；

步骤S4：综合考虑用户基础信息相似度、用户观点相似度以及用户社交关系相似度，计算用户相似度。

本发明的一个实施例中，所述步骤S1包括：

用户的基础信息包括用户名、性别、年龄、地址，以(属性，值)的形式存在，用户i的属性信息表示为

其中每个用户包含L个属性；

针对a、b两个用户分别计算其每个属性的相似度

用户各属性相似度表示为

采用熵权法计算各属性的权重w_k，用户的基础信息相似度表示为：

本发明的一个实施例中，进行属性相似度计算时，针对不同类型的属性，分别采用不同方式计算其相似性，具体为：

针对数值型属性，采用数值匹配方式计算其相似度；

针对字符型属性，采用Levenshein距离计算其相似度。

本发明的一个实施例中，所述步骤S2包括：

设包含用户a的观点的文本为T_a，提取的整体特征向量为θ_a；包含用户b的观点的文本为T_b，提取的整体特征向量为θ_b；计算用户a、b的观点相似度：

本发明的一个实施例中，对文本提取整体特征向量的方式为：

将词语i的嵌入向量和特征向量进行拼接得到其局部特征；

将文本的局部特征输入双向LSTM以得到文本的整体特征；

采用平均池化方法对LSTM的输出特征进行处理得到文本的整体特征向量。

本发明的一个实施例中，将词语i的嵌入向量和特征向量进行拼接得到其局部特征，具体为：

已知包含用户观点的社交平台词汇数据库集合为W＝(w₁,w₂,…,w_N}，其中，N表示词汇库中的词语数目，选择包含用户观点的文本T进行分词，得到文本T的one-hot编码c_T＝{c₁,c₂,…,c_t,…,c_n}，运用word2vec方法得到第t个词语的嵌入向量v_t，运用特征抽取方法对文本进行特征抽取，得到t个词语的特征向量

将词语i的嵌入向量和特征向量进行拼接得到其局部特征

本发明的一个实施例中，将文本的局部特征输入双向LSTM以得到文本的整体特征，具体为：

前向LSTM更新过程如下：

f_i_t＝σ(W_xix_t+W_hif_h_t-1+W_cif_c_t-1+b_i)

f_f_t＝σ(W_xfx_t+W_hff_h_t-1+W_cff_c_t-1+b_f)

f_o_t＝σ(W_xox_t+W_hof_h_t-1+W_cof_c_t-1+b_o)

式中，σ表示sigmoid函数，f_i_t、f_i_t、f_o_t分别表示输入门、遗忘门和输出门，W表示权重矩阵，b_i、b_f、b_o、b_g表示偏置项，f_c_t-1、f_c_t分别表示t-1、t个单元的细胞状态，f_h_t表示第t个单元的输出。

反向LSTM的更新过程与前向LSTM更新过程相似，反向LSTM第t个单元的输出以及细胞状态分别为b_h_t、b_c_t，将前向LSTM与反向LSTM的细胞状态及输出进行融合得到第t个词语的特征向量f_t＝[f_h_t,f_c_t,b_h_t,b_c_t]，整个文本的输出特征为F＝{f₁,f₂,…,f_t,…,f_n}。

本发明的一个实施例中，采用平均池化方法对LSTM的输出特征进行处理得到文本的整体特征向量，具体为：文本的整体特征向量θ＝mean(F)。

本发明的一个实施例中，所述步骤S3包括：

在基于图神经网络的社交模型中，以用户作为图节点，用户之间的关注信息、粉丝信息社交关系以网络的边表示，用户的转发、评论、点赞、@社交行为作为图节点的属性信息，基于用户的社交关系及社交行为构建的图神经网络为G＝{V,E,L_v,L_E}，其中具体定义如下：

用户：V＝{v₁,v₂,……,v_M}表示含有M个用户的用户集合，v_i表示其中第i个用户；

社交属性：L_V＝{l₁,l₂,……l_N}表示用户节点特征向量集合，其中l_i为第i个用户节点的特征向量，表示第i个用户的社交属性信息，社交属性信息包括用户的转发、评论、点赞、@社交行为；

社交关系：E＝{l_(i,j)|(i,j∈N}表示边集，其中l_(i,j)表示用户i和用户j的社交关系，l_(i,j)＝1表示用户i对用户j存在关注行为，用户i是j的粉丝；l_(i,j)＝0表示用户i对用户j不存在关注行为，i不是j的粉丝，L_E＝{l_(i,j)|(i,j∈N)}表示边的特征向量的集合。

根据上述定义构建社交图神经网络G，神经网络中节点v的状态嵌入h_v及节点输出o_v分别表示为：h_v＝f(x_v,x_ne|v|,h_ne|v|,l_co|v|)，o_v＝g(h_v,x_v)，式中，x_v表示节点v的特征，即用户的社交属性信息；x_ne|v|表示节点v的邻居节点的特征；l_co|v|表示节点v的边的特征，即用户之间的社交关系；h_ne|v|表示节点v的邻居节点的状态嵌入；f(·)表示局部聚合函数；g(·)表示局部输出函数。

从训练集d₁中选取训练样本输入模型，通过迭代训练学习f和g的参数，使得预测

尽量接近样本h，模型训练好后，将用户a和b的数据输入模型，得到用户的嵌入向量x_a和x_b，计算用户社交关系相似度：

本发明的一个实施例中，所述步骤S4包括：

根据用户基础信息相似度

用户观点相似度

用户社交关系相似度

计算用户a、b综合相似度

式中，w₁、w₂、w₃分别为基础信息相似度、用户观点相似度、用户社交关系相似度的权重，且满足

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

与传统的身份关联方法相比，本发明方法采用基于深度学习的多属性相似度计算，综合考虑了用户的基础信息、用户观点信息以及用户的社交关系，能够提高身份关联的准确度，实现了目标多重虚拟身份关联。

附图说明

图1为本发明基于多层属性分析的跨空间目标虚拟身份关联方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明提供了一种基于多层属性分析的跨空间目标虚拟身份关联方法，包括以下步骤：

步骤S1：使用赋权法计算用户基础信息相似度，用户基础信息包括用户名、性别、地址、年龄等信息；

步骤S1包括：用户的基础信息包括用户名、性别、年龄、地址等基础身份信息，通常以(属性，值)的形式存在，用户i的属性信息可以表示为

其中每个用户包含L个属性。首先，针对a、b两个用户分别计算其每个属性的相似度

首先，进行属性相似度计算，针对不同类型的属性，分别采用不同方式计算其相似性。针对数值型属性，采用数值匹配方式计算其相似度，如性别“男”与性别“女”相似度为0，性别“男”与性别“男”相似度为1。针对字符型属性，如用户名等，采用Levenshein距离计算其相似度。则用户各属性相似度可表示为

采用熵权法计算各属性的权重w_k，用户的基础信息相似度可表示为：

步骤S2：运用双向长短期记忆网络(LSTM，Long Short-Term Memory)模型计算用户观点相似度，用户观点隐藏于用户发布的文本中；

步骤S2包括：

已知包含用户观点的社交平台词汇数据库集合为W＝(w₁,w₂,…,w_N}，其中，N表示词汇库中的词语数目。选择包含用户观点的文本T进行分词，得到文本T的one-hot编码c_T＝{c₁,c₂,…,c_t,…,…c_n}。运用word2vec方法得到第t个词语的嵌入向量v_t。运用特征抽取方法对文本进行特征抽取，得到个词语的特征向量

将词语i的嵌入向量和特征向量进行拼接得到其局部特征

将文本的局部特征输入双向LSTM以得到文本的整体特征，其中，前向LSTM更新过程如下：

f_i_t＝σ(W_xix_t+W_hif_h_t-1+W_cif_c_t-1+b_i)

f_f_t＝σ(W_xfx_t+W_hff_h_t-1+W_cff_c_t-1+b_f)

f_o_t＝σ(W_xox_t+W_hof_h_t-1+W_cof_c_t-1+b_o)

反向LSTM的更新过程与前向LSTM更新过程相似，反向LSTM第t个单元的输出以及细胞状态分别为b_h_t、b_c_t。将前向LSTM与反向LSTM的细胞状态及输出进行融合得到第t个词语的特征向量f_t＝[f_h_t,f_c_t,b_h_t,b_c_t]，整个文本的输出特征为F＝{f₁,f₂,…,f_t,…,f_n}；

然后，采用平均池化方法对LSTM的输出特征进行处理得到文本的整体特征：θ＝mean(F)；

设包含用户a的观点的文本为T_a，采用上述方法提取的特征向量为θ_a。包含用户b的观点的文本为T_b，采用上述方法提取的特征向量为θ_b。计算用户a、b的观点相似度：

步骤S3：采用基于图神经网络的方法计算用户社交关系相似度，用户社交关系以用户间链接信息及互动信息表征；

步骤S3包括：

在基于图神经网络的社交模型中，以用户作为图节点，用户之间的关注信息、粉丝信息等社交关系以网络的边表示，用户的转发、评论、点赞、@等社交行为作为图节点的属性信息。基于用户的社交关系及社交行为构建的图神经网络为G＝{V,E,L_v,L_E}，其中具体定义如下：

(1)用户

V＝{v₁,v₂,……,v_M}表示含有M个用户的用户集合，v_i表示其中第i个用户。

(2)社交属性

L_V＝{l₁,l₂,……l_N}表示用户节点特征向量集合。其中，l_i为第i个用户节点的特征向量，表示第i个用户的社交属性信息，社交属性信息包括用户的转发、评论、点赞、@等社交行为。

(3)社交关系

E＝{l_(i,j)|(i,j∈N}表示边集，其中l_(i,j)表示用户i和用户j的社交关系，l_(i,j)＝1表示用户i对用户j存在关注行为，用户i是j的粉丝；l_(i,j)＝0表示用户i对用户j不存在关注行为，i不是j的粉丝。L_E＝{l_(i,j)|(i,j∈N)}表示边的特征向量的集合。

根据上述定义构建社交图神经网络G，神经网络中节点v的状态嵌入h_v及节点输出o_v可分别表示为：

h_v＝f(x_v,x_ne|v|,h_ne|v|,l_co|v|)

o_v＝g(h_v,x_v)

式中，x_v表示节点v的特征，即用户的社交属性信息；x_ne|v|表示节点v的邻居节点的特征；l_co|v|表示节点v的边的特征，即用户之间的社交关系；h_ne|v|表示节点v的邻居节点的状态嵌入；f(·)表示局部聚合函数；g(·)表示局部输出函数。

尽量接近样本h。模型训练好后，将用户a和b的数据输入模型，得到用户的嵌入向量x_a和x_b，计算用户社交关系相似度：

步骤S4：综合考虑用户基础信息相似度、用户观点相似度以及用户社交关系相似度，计算用户相似度；

步骤S4包括：

根据用户基础信息相似度

用户观点相似度

用户社交关系相似度

计算用户a、b综合相似度

以下结合一具体实例说明本发明基于多层属性分析的跨空间目标虚拟身份关联方法，包括：

(1)数据采集

基于多属性的跨空间目标关联所用信息主要包括用户基础信息、用户观点信息以及用户社交信息。用户基础信息D₁可以通过收集用户在各平台的注册信息获取，用户观点信息D₂可以通过收集用户在社交平台上发布的文字信息获取，用户社交行为信息D₃包含用户社交关系信息以及用户社交行为信息，用户社交关系信息可以通过收集用户的关注信息及粉丝信息获取，用户的社交行为信息可以通过收集用户的评论行为、点赞行为、分享行为及@等行为获取。

(2)用户基础信息相似度计算

用户的基础信息包括用户名、性别、年龄、地址等基础身份信息，通常以(属性，值)的形式存在，用户i的属性信息可以表示为

首先，进行属性相似度计算，针对不同类型的属性，分别采用不同方式计算其相似性。针对数值型属性，采用数值匹配方式计算其相似度，如性别“男”与性别“女”相似度为0，性别“男”与性别“男”相似度为1。对于字符型属性，如用户名等，采用Levenshein距离计算其相似度。则用户各属性相似度可表示为

(3)用户观点相似度计算

已知包含用户观点的社交平台词汇数据库集合为W＝(w₁,w₂,…,w_N}，其中，N表示词汇库中的词语数目。从D₂中选择包含用户观点的文本T进行分词，得到文本T的one-hot编码c_T＝{c₁,c₂,…,c_t,…,…c_n}。运用word2vec方法得到第t个词语的嵌入向量：

v_t＝W^wordc_t

式中，W^word表示词向量矩阵词语文本T的嵌入向量v_T＝(v₁,v₂,…,v_i,…,…,v_n)。其中，v_i∈R^1×K表示第i个词语的嵌入向量，K表示嵌入向量特征维数。例：词汇库为[小张，小李，喜欢，吃，苹果，橘子]，文本“小张喜欢吃苹果”分词结果为[小张，喜欢，吃，苹果]，其嵌入向量为(v₁,v₂,v₃,v₄)。

对文本T进行预处理和特征抽取，抽取的特征包括位置特征，词性标注特征，名实体标注特征、依赖关系特征、上下位标志特征等K类特征，对各文本特征进行向量化处理得到第t个词语的特征向量：

式中，

表示第i个特征的特征向量矩阵，将词语i的嵌入向量和特征向量进行拼接得到其局部特征

f_i_t＝σ(W_xix_t+W_hif_h_t-1+W_cif_c_t-1+b_i)

f_f_t＝σ(W_xfx_t+W_hff_h_t-1+W_cff_c_t-1+b_f)

f_o_t＝σ(W_xox_t+W_hof_h_t-1+W_cof_c_t-1+b_o)

反向LSTM的更新过程与前向LSTM更新过程相似，反向LSTM第t个单元的输出以及细胞状态分别为b_h_t、b_c_t。将前向LSTM与反向LSTM的细胞状态及输出进行融合得到第t个词语的特征向量f_t＝[f_h_t,f_c_t,b_h_t,b_c_t]，整个文本的输出特征为F＝{f₁,f₂,…,f_t,…,f_n}。

然后，采用平均池化方法对LSTM的输出特征进行处理得到文本的整体特征：

θ＝mean(F)

(4)用户社交关系相似度计算

利用D₃中用户关注信息、粉丝信息、用户点赞行为、评论行为、转发及@等行为构建用户社交关系数据集D。从D中随机选取30％数据作为训练集d₁，其余数据作为测试集d₂。

(4.1)用户

(4.2)社交属性

(4.3)社交关系

h_v＝f(x_v,x_ne|v|,h_ne|v|,l_co|v|)

o_v＝g(h_v,x_v)

(5)用户相似度计算

根据用户基础信息相似度

用户观点相似度

用户社交关系相似度

综合计算用户a、b相似度：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多层属性分析的跨空间目标虚拟身份关联方法，其特征在于，包括：

2.如权利要求1所述的基于多层属性分析的跨空间目标虚拟身份关联方法，其特征在于，所述步骤S1包括：

其中每个用户包含L个属性；

针对a、b两个用户分别计算其每个属性的相似度

用户各属性相似度表示为

3.如权利要求2所述的基于多层属性分析的跨空间目标虚拟身份关联方法，其特征在于，进行属性相似度计算时，针对不同类型的属性，分别采用不同方式计算其相似性，具体为：

针对数值型属性，采用数值匹配方式计算其相似度；

针对字符型属性，采用Levenshein距离计算其相似度。

4.如权利要求1所述的基于多层属性分析的跨空间目标虚拟身份关联方法，其特征在于，所述步骤S2包括：

5.如权利要求4所述的基于多层属性分析的跨空间目标虚拟身份关联方法，其特征在于，对文本提取整体特征向量的方式为：

将词语i的嵌入向量和特征向量进行拼接得到其局部特征；

将文本的局部特征输入双向LSTM以得到文本的整体特征；

6.如权利要求5所述的基于多层属性分析的跨空间目标虚拟身份关联方法，其特征在于，将词语i的嵌入向量和特征向量进行拼接得到其局部特征，具体为：

已知包含用户观点的社交平台词汇数据库集合为W＝(w₁,w₂,…,w_N}，其中，N表示词汇库中的词语数目，选择包含用户观点的文本T进行分词，得到文本T的one-hot编码c_T＝{c₁,c₂,…,c_t,…,…c_n}，运用word2vec方法得到第t个词语的嵌入向量v_t，运用特征抽取方法对文本进行特征抽取，得到t个词语的特征向量

将词语i的嵌入向量和特征向量进行拼接得到其局部特征

7.如权利要求5所述的基于多层属性分析的跨空间目标虚拟身份关联方法，其特征在于，将文本的局部特征输入双向LSTM以得到文本的整体特征，具体为：

前向LSTM更新过程如下：

f_i_t＝σ(W_xix_t+W_hif_h_t-1+W_cif_c_t-1+b_i)

f_f_t＝σ(W_xfx_t+W_hff_h_t-1+W_cff_c_t-1+b_f)

f_o_t＝σ(W_xox_t+W_hof_h_t-1+W_cof_c_t-1+b_o)

式中，σ表示sigmoid函数，f_i_t、f_i_t、f_o_t分别表示输入门、遗忘门和输出门，W表示权重矩阵，b_i、b_f、b_o、b_g表示偏置项，f_c_t-1、f_c_t分别表示t-1、t个单元的细胞状态，f_h_t表示第t个单元的输出；

8.如权利要求5所述的基于多层属性分析的跨空间目标虚拟身份关联方法，其特征在于，采用平均池化方法对LSTM的输出特征进行处理得到文本的整体特征向量，具体为：文本的整体特征向量θ＝mean(F)。

9.如权利要求1所述的基于多层属性分析的跨空间目标虚拟身份关联方法，其特征在于，所述步骤S3包括：

根据上述定义构建社交图神经网络G，神经网络中节点v的状态嵌入h_v及节点输出o_v分别表示为：h_v＝f(x_v,x_ne|v|,h_ne|v|,l_co|v|)，o_v＝g(h_v,x_v)，式中，x_v表示节点v的特征，即用户的社交属性信息；x_ne|v|表示节点v的邻居节点的特征；l_co|v|表示节点v的边的特征，即用户之间的社交关系；h_ne|v|表示节点v的邻居节点的状态嵌入；f(·)表示局部聚合函数；g(·)表示局部输出函数；

10.如权利要求1所述的基于多层属性分析的跨空间目标虚拟身份关联方法，其特征在于，所述步骤S4包括：

根据用户基础信息相似度

用户观点相似度

用户社交关系相似度

计算用户a、b综合相似度