CN113779520A - 基于多层属性分析的跨空间目标虚拟身份关联方法 - Google Patents

基于多层属性分析的跨空间目标虚拟身份关联方法 Download PDF

Info

Publication number
CN113779520A
CN113779520A CN202111042520.5A CN202111042520A CN113779520A CN 113779520 A CN113779520 A CN 113779520A CN 202111042520 A CN202111042520 A CN 202111042520A CN 113779520 A CN113779520 A CN 113779520A
Authority
CN
China
Prior art keywords
user
similarity
users
social
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111042520.5A
Other languages
English (en)
Other versions
CN113779520B (zh
Inventor
田华臣
刘俊涛
张毅
饶子昀
王军伟
王元斌
黄志刚
周莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
709th Research Institute of CSIC
Original Assignee
709th Research Institute of CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 709th Research Institute of CSIC filed Critical 709th Research Institute of CSIC
Priority to CN202111042520.5A priority Critical patent/CN113779520B/zh
Publication of CN113779520A publication Critical patent/CN113779520A/zh
Application granted granted Critical
Publication of CN113779520B publication Critical patent/CN113779520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Molecular Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Security & Cryptography (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Primary Health Care (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多层属性分析的跨空间目标虚拟身份关联方法:使用赋权法计算用户基础信息相似度,其中用户基础信息包括用户名、性别、地址和年龄;运用双向长短期记忆网络模型计算用户观点相似度,其中用户观点隐藏于用户发布的文本中;采用基于图神经网络的方法计算用户社交关系相似度,其中用户社交关系以用户间链接信息及互动信息表征;综合考虑用户基础信息相似度、用户观点相似度以及用户社交关系相似度,计算用户相似度。与传统的身份关联方法相比,本发明方法采用基于深度学习的多属性相似度计算,综合考虑了用户的基础信息、用户观点信息以及用户的社交关系,能够提高身份关联的准确度,实现了目标多重虚拟身份关联。

Description

基于多层属性分析的跨空间目标虚拟身份关联方法
技术领域
本发明属于数据挖掘技术领域,更具体地,涉及一种基于多层属性分析的跨空间目标虚拟身份关联方法。
背景技术
虚拟身份关联技术在公共安全领域具有重要的应用价值,虚拟身份关联技术可以发现互联网用户的真实身份,进而挖掘用户的异常行为,有助于帮助公安机关对犯罪分子进行定位甚至对犯罪行为进行预测,从而阻止违法犯罪行为的发生。采用机器学习等方法发现不同互联网账户的关联,有助于识别互联网用户的真实身份。通过挖掘互联网用户特征来构建用户画像,进而通过用户画像计算用户相似性,从而实现虚拟身份关联。
由于网络虚拟空间中用户的身份信息具有虚假性、不完整性等特点,导致进行虚实映射所用的用户关键信息较少且缺乏准确性,因此用户的多重虚拟身份难以建立对应关系。现有的虚拟身份关联技术往往从用户的基础信息或用户社交关系出发,根据用户基础信息相似性或用户社交相似性实现虚拟身份关联。然而,当用户的信息不全或者不真实时,仅利用单一属性的身份关联效果不佳。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于多层属性分析的跨空间目标虚拟身份关联方法,对网络空间中用户在不同平台的虚拟身份进行关联,对用户的身份背景信息、政治观点、社交关系等多层属性进行分析,综合考虑不同维度的用户信息,从而提高用户身份关联的准确性。
为实现上述目的,本发明提供了一种基于多层属性分析的跨空间目标虚拟身份关联方法,包括:
步骤S1:使用赋权法计算用户基础信息相似度,其中用户基础信息包括用户名、性别、地址和年龄;
步骤S2:运用双向长短期记忆网络模型计算用户观点相似度,其中用户观点隐藏于用户发布的文本中;
步骤S3:采用基于图神经网络的方法计算用户社交关系相似度,其中用户社交关系以用户间链接信息及互动信息表征;
步骤S4:综合考虑用户基础信息相似度、用户观点相似度以及用户社交关系相似度,计算用户相似度。
本发明的一个实施例中,所述步骤S1包括:
用户的基础信息包括用户名、性别、年龄、地址,以(属性,值)的形式存在,用户i的属性信息表示为
Figure BDA0003249880060000021
其中每个用户包含L个属性;
针对a、b两个用户分别计算其每个属性的相似度
Figure BDA0003249880060000022
用户各属性相似度表示为
Figure BDA0003249880060000023
采用熵权法计算各属性的权重wk,用户的基础信息相似度表示为:
Figure BDA0003249880060000024
本发明的一个实施例中,进行属性相似度计算时,针对不同类型的属性,分别采用不同方式计算其相似性,具体为:
针对数值型属性,采用数值匹配方式计算其相似度;
针对字符型属性,采用Levenshein距离计算其相似度。
本发明的一个实施例中,所述步骤S2包括:
设包含用户a的观点的文本为Ta,提取的整体特征向量为θa;包含用户b的观点的文本为Tb,提取的整体特征向量为θb;计算用户a、b的观点相似度:
Figure BDA0003249880060000031
本发明的一个实施例中,对文本提取整体特征向量的方式为:
将词语i的嵌入向量和特征向量进行拼接得到其局部特征;
将文本的局部特征输入双向LSTM以得到文本的整体特征;
采用平均池化方法对LSTM的输出特征进行处理得到文本的整体特征向量。
本发明的一个实施例中,将词语i的嵌入向量和特征向量进行拼接得到其局部特征,具体为:
已知包含用户观点的社交平台词汇数据库集合为W=(w1,w2,…,wN},其中,N表示词汇库中的词语数目,选择包含用户观点的文本T进行分词,得到文本T的one-hot编码cT={c1,c2,…,ct,…,cn},运用word2vec方法得到第t个词语的嵌入向量vt,运用特征抽取方法对文本进行特征抽取,得到t个词语的特征向量
Figure BDA0003249880060000032
将词语i的嵌入向量和特征向量进行拼接得到其局部特征
Figure BDA0003249880060000033
本发明的一个实施例中,将文本的局部特征输入双向LSTM以得到文本的整体特征,具体为:
前向LSTM更新过程如下:
Figure BDA0003249880060000034
f_it=σ(Wxixt+Whif_ht-1+Wcif_ct-1+bi)
f_ft=σ(Wxfxt+Whff_ht-1+Wcff_ct-1+bf)
Figure BDA0003249880060000035
f_ot=σ(Wxoxt+Whof_ht-1+Wcof_ct-1+bo)
Figure BDA0003249880060000036
式中,σ表示sigmoid函数,f_it、f_it、f_ot分别表示输入门、遗忘门和输出门,W表示权重矩阵,bi、bf、bo、bg表示偏置项,f_ct-1、f_ct分别表示t-1、t个单元的细胞状态,f_ht表示第t个单元的输出。
反向LSTM的更新过程与前向LSTM更新过程相似,反向LSTM第t个单元的输出以及细胞状态分别为b_ht、b_ct,将前向LSTM与反向LSTM的细胞状态及输出进行融合得到第t个词语的特征向量ft=[f_ht,f_ct,b_ht,b_ct],整个文本的输出特征为F={f1,f2,…,ft,…,fn}。
本发明的一个实施例中,采用平均池化方法对LSTM的输出特征进行处理得到文本的整体特征向量,具体为:文本的整体特征向量θ=mean(F)。
本发明的一个实施例中,所述步骤S3包括:
在基于图神经网络的社交模型中,以用户作为图节点,用户之间的关注信息、粉丝信息社交关系以网络的边表示,用户的转发、评论、点赞、@社交行为作为图节点的属性信息,基于用户的社交关系及社交行为构建的图神经网络为G={V,E,Lv,LE},其中具体定义如下:
用户:V={v1,v2,……,vM}表示含有M个用户的用户集合,vi表示其中第i个用户;
社交属性:LV={l1,l2,……lN}表示用户节点特征向量集合,其中li为第i个用户节点的特征向量,表示第i个用户的社交属性信息,社交属性信息包括用户的转发、评论、点赞、@社交行为;
社交关系:E={l(i,j)|(i,j∈N}表示边集,其中l(i,j)表示用户i和用户j的社交关系,l(i,j)=1表示用户i对用户j存在关注行为,用户i是j的粉丝;l(i,j)=0表示用户i对用户j不存在关注行为,i不是j的粉丝,LE={l(i,j)|(i,j∈N)}表示边的特征向量的集合。
根据上述定义构建社交图神经网络G,神经网络中节点v的状态嵌入hv及节点输出ov分别表示为:hv=f(xv,xne|v|,hne|v|,lco|v|),ov=g(hv,xv),式中,xv表示节点v的特征,即用户的社交属性信息;xne|v|表示节点v的邻居节点的特征;lco|v|表示节点v的边的特征,即用户之间的社交关系;hne|v|表示节点v的邻居节点的状态嵌入;f(·)表示局部聚合函数;g(·)表示局部输出函数。
从训练集d1中选取训练样本输入模型,通过迭代训练学习f和g的参数,使得预测
Figure BDA0003249880060000051
尽量接近样本h,模型训练好后,将用户a和b的数据输入模型,得到用户的嵌入向量xa和xb,计算用户社交关系相似度:
Figure BDA0003249880060000052
本发明的一个实施例中,所述步骤S4包括:
根据用户基础信息相似度
Figure BDA0003249880060000053
用户观点相似度
Figure BDA0003249880060000054
用户社交关系相似度
Figure BDA0003249880060000055
计算用户a、b综合相似度
Figure BDA0003249880060000056
式中,w1、w2、w3分别为基础信息相似度、用户观点相似度、用户社交关系相似度的权重,且满足
Figure BDA0003249880060000057
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
与传统的身份关联方法相比,本发明方法采用基于深度学习的多属性相似度计算,综合考虑了用户的基础信息、用户观点信息以及用户的社交关系,能够提高身份关联的准确度,实现了目标多重虚拟身份关联。
附图说明
图1为本发明基于多层属性分析的跨空间目标虚拟身份关联方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明提供了一种基于多层属性分析的跨空间目标虚拟身份关联方法,包括以下步骤:
步骤S1:使用赋权法计算用户基础信息相似度,用户基础信息包括用户名、性别、地址、年龄等信息;
步骤S1包括:用户的基础信息包括用户名、性别、年龄、地址等基础身份信息,通常以(属性,值)的形式存在,用户i的属性信息可以表示为
Figure BDA0003249880060000061
其中每个用户包含L个属性。首先,针对a、b两个用户分别计算其每个属性的相似度
Figure BDA0003249880060000062
首先,进行属性相似度计算,针对不同类型的属性,分别采用不同方式计算其相似性。针对数值型属性,采用数值匹配方式计算其相似度,如性别“男”与性别“女”相似度为0,性别“男”与性别“男”相似度为1。针对字符型属性,如用户名等,采用Levenshein距离计算其相似度。则用户各属性相似度可表示为
Figure BDA0003249880060000063
采用熵权法计算各属性的权重wk,用户的基础信息相似度可表示为:
Figure BDA0003249880060000064
步骤S2:运用双向长短期记忆网络(LSTM,Long Short-Term Memory)模型计算用户观点相似度,用户观点隐藏于用户发布的文本中;
步骤S2包括:
已知包含用户观点的社交平台词汇数据库集合为W=(w1,w2,…,wN},其中,N表示词汇库中的词语数目。选择包含用户观点的文本T进行分词,得到文本T的one-hot编码cT={c1,c2,…,ct,…,…cn}。运用word2vec方法得到第t个词语的嵌入向量vt。运用特征抽取方法对文本进行特征抽取,得到个词语的特征向量
Figure BDA0003249880060000065
将词语i的嵌入向量和特征向量进行拼接得到其局部特征
Figure BDA0003249880060000066
将文本的局部特征输入双向LSTM以得到文本的整体特征,其中,前向LSTM更新过程如下:
Figure BDA0003249880060000067
f_it=σ(Wxixt+Whif_ht-1+Wcif_ct-1+bi)
f_ft=σ(Wxfxt+Whff_ht-1+Wcff_ct-1+bf)
Figure BDA0003249880060000071
f_ot=σ(Wxoxt+Whof_ht-1+Wcof_ct-1+bo)
Figure BDA0003249880060000072
式中,σ表示sigmoid函数,f_it、f_it、f_ot分别表示输入门、遗忘门和输出门,W表示权重矩阵,bi、bf、bo、bg表示偏置项,f_ct-1、f_ct分别表示t-1、t个单元的细胞状态,f_ht表示第t个单元的输出。
反向LSTM的更新过程与前向LSTM更新过程相似,反向LSTM第t个单元的输出以及细胞状态分别为b_ht、b_ct。将前向LSTM与反向LSTM的细胞状态及输出进行融合得到第t个词语的特征向量ft=[f_ht,f_ct,b_ht,b_ct],整个文本的输出特征为F={f1,f2,…,ft,…,fn};
然后,采用平均池化方法对LSTM的输出特征进行处理得到文本的整体特征:θ=mean(F);
设包含用户a的观点的文本为Ta,采用上述方法提取的特征向量为θa。包含用户b的观点的文本为Tb,采用上述方法提取的特征向量为θb。计算用户a、b的观点相似度:
Figure BDA0003249880060000073
步骤S3:采用基于图神经网络的方法计算用户社交关系相似度,用户社交关系以用户间链接信息及互动信息表征;
步骤S3包括:
在基于图神经网络的社交模型中,以用户作为图节点,用户之间的关注信息、粉丝信息等社交关系以网络的边表示,用户的转发、评论、点赞、@等社交行为作为图节点的属性信息。基于用户的社交关系及社交行为构建的图神经网络为G={V,E,Lv,LE},其中具体定义如下:
(1)用户
V={v1,v2,……,vM}表示含有M个用户的用户集合,vi表示其中第i个用户。
(2)社交属性
LV={l1,l2,……lN}表示用户节点特征向量集合。其中,li为第i个用户节点的特征向量,表示第i个用户的社交属性信息,社交属性信息包括用户的转发、评论、点赞、@等社交行为。
(3)社交关系
E={l(i,j)|(i,j∈N}表示边集,其中l(i,j)表示用户i和用户j的社交关系,l(i,j)=1表示用户i对用户j存在关注行为,用户i是j的粉丝;l(i,j)=0表示用户i对用户j不存在关注行为,i不是j的粉丝。LE={l(i,j)|(i,j∈N)}表示边的特征向量的集合。
根据上述定义构建社交图神经网络G,神经网络中节点v的状态嵌入hv及节点输出ov可分别表示为:
hv=f(xv,xne|v|,hne|v|,lco|v|)
ov=g(hv,xv)
式中,xv表示节点v的特征,即用户的社交属性信息;xne|v|表示节点v的邻居节点的特征;lco|v|表示节点v的边的特征,即用户之间的社交关系;hne|v|表示节点v的邻居节点的状态嵌入;f(·)表示局部聚合函数;g(·)表示局部输出函数。
从训练集d1中选取训练样本输入模型,通过迭代训练学习f和g的参数,使得预测
Figure BDA0003249880060000081
尽量接近样本h。模型训练好后,将用户a和b的数据输入模型,得到用户的嵌入向量xa和xb,计算用户社交关系相似度:
Figure BDA0003249880060000082
步骤S4:综合考虑用户基础信息相似度、用户观点相似度以及用户社交关系相似度,计算用户相似度;
步骤S4包括:
根据用户基础信息相似度
Figure BDA0003249880060000091
用户观点相似度
Figure BDA0003249880060000092
用户社交关系相似度
Figure BDA0003249880060000093
计算用户a、b综合相似度
Figure BDA0003249880060000094
式中,w1、w2、w3分别为基础信息相似度、用户观点相似度、用户社交关系相似度的权重,且满足
Figure BDA0003249880060000095
以下结合一具体实例说明本发明基于多层属性分析的跨空间目标虚拟身份关联方法,包括:
(1)数据采集
基于多属性的跨空间目标关联所用信息主要包括用户基础信息、用户观点信息以及用户社交信息。用户基础信息D1可以通过收集用户在各平台的注册信息获取,用户观点信息D2可以通过收集用户在社交平台上发布的文字信息获取,用户社交行为信息D3包含用户社交关系信息以及用户社交行为信息,用户社交关系信息可以通过收集用户的关注信息及粉丝信息获取,用户的社交行为信息可以通过收集用户的评论行为、点赞行为、分享行为及@等行为获取。
(2)用户基础信息相似度计算
用户的基础信息包括用户名、性别、年龄、地址等基础身份信息,通常以(属性,值)的形式存在,用户i的属性信息可以表示为
Figure BDA0003249880060000096
其中每个用户包含L个属性。首先,针对a、b两个用户分别计算其每个属性的相似度
Figure BDA0003249880060000097
首先,进行属性相似度计算,针对不同类型的属性,分别采用不同方式计算其相似性。针对数值型属性,采用数值匹配方式计算其相似度,如性别“男”与性别“女”相似度为0,性别“男”与性别“男”相似度为1。对于字符型属性,如用户名等,采用Levenshein距离计算其相似度。则用户各属性相似度可表示为
Figure BDA0003249880060000101
采用熵权法计算各属性的权重wk,用户的基础信息相似度可表示为:
Figure BDA0003249880060000102
(3)用户观点相似度计算
已知包含用户观点的社交平台词汇数据库集合为W=(w1,w2,…,wN},其中,N表示词汇库中的词语数目。从D2中选择包含用户观点的文本T进行分词,得到文本T的one-hot编码cT={c1,c2,…,ct,…,…cn}。运用word2vec方法得到第t个词语的嵌入向量:
vt=Wwordct
式中,Wword表示词向量矩阵词语文本T的嵌入向量vT=(v1,v2,…,vi,…,…,vn)。其中,vi∈R1×K表示第i个词语的嵌入向量,K表示嵌入向量特征维数。例:词汇库为[小张,小李,喜欢,吃,苹果,橘子],文本“小张喜欢吃苹果”分词结果为[小张,喜欢,吃,苹果],其嵌入向量为(v1,v2,v3,v4)。
对文本T进行预处理和特征抽取,抽取的特征包括位置特征,词性标注特征,名实体标注特征、依赖关系特征、上下位标志特征等K类特征,对各文本特征进行向量化处理得到第t个词语的特征向量:
Figure BDA0003249880060000103
式中,
Figure BDA0003249880060000104
表示第i个特征的特征向量矩阵,将词语i的嵌入向量和特征向量进行拼接得到其局部特征
Figure BDA0003249880060000105
将文本的局部特征输入双向LSTM以得到文本的整体特征,其中,前向LSTM更新过程如下:
Figure BDA0003249880060000106
f_it=σ(Wxixt+Whif_ht-1+Wcif_ct-1+bi)
f_ft=σ(Wxfxt+Whff_ht-1+Wcff_ct-1+bf)
Figure BDA0003249880060000111
f_ot=σ(Wxoxt+Whof_ht-1+Wcof_ct-1+bo)
Figure BDA0003249880060000112
式中,σ表示sigmoid函数,f_it、f_it、f_ot分别表示输入门、遗忘门和输出门,W表示权重矩阵,bi、bf、bo、bg表示偏置项,f_ct-1、f_ct分别表示t-1、t个单元的细胞状态,f_ht表示第t个单元的输出。
反向LSTM的更新过程与前向LSTM更新过程相似,反向LSTM第t个单元的输出以及细胞状态分别为b_ht、b_ct。将前向LSTM与反向LSTM的细胞状态及输出进行融合得到第t个词语的特征向量ft=[f_ht,f_ct,b_ht,b_ct],整个文本的输出特征为F={f1,f2,…,ft,…,fn}。
然后,采用平均池化方法对LSTM的输出特征进行处理得到文本的整体特征:
θ=mean(F)
设包含用户a的观点的文本为Ta,采用上述方法提取的特征向量为θa。包含用户b的观点的文本为Tb,采用上述方法提取的特征向量为θb。计算用户a、b的观点相似度:
Figure BDA0003249880060000113
(4)用户社交关系相似度计算
利用D3中用户关注信息、粉丝信息、用户点赞行为、评论行为、转发及@等行为构建用户社交关系数据集D。从D中随机选取30%数据作为训练集d1,其余数据作为测试集d2
在基于图神经网络的社交模型中,以用户作为图节点,用户之间的关注信息、粉丝信息等社交关系以网络的边表示,用户的转发、评论、点赞、@等社交行为作为图节点的属性信息。基于用户的社交关系及社交行为构建的图神经网络为G={V,E,Lv,LE},其中具体定义如下:
(4.1)用户
V={v1,v2,……,vM}表示含有M个用户的用户集合,vi表示其中第i个用户。
(4.2)社交属性
LV={l1,l2,……lN}表示用户节点特征向量集合。其中,li为第i个用户节点的特征向量,表示第i个用户的社交属性信息,社交属性信息包括用户的转发、评论、点赞、@等社交行为。
(4.3)社交关系
E={l(i,j)|(i,j∈N}表示边集,其中l(i,j)表示用户i和用户j的社交关系,l(i,j)=1表示用户i对用户j存在关注行为,用户i是j的粉丝;l(i,j)=0表示用户i对用户j不存在关注行为,i不是j的粉丝。LE={l(i,j)|(i,j∈N)}表示边的特征向量的集合。
根据上述定义构建社交图神经网络G,神经网络中节点v的状态嵌入hv及节点输出ov可分别表示为:
hv=f(xv,xne|v|,hne|v|,lco|v|)
ov=g(hv,xv)
式中,xv表示节点v的特征,即用户的社交属性信息;xne|v|表示节点v的邻居节点的特征;lco|v|表示节点v的边的特征,即用户之间的社交关系;hne|v|表示节点v的邻居节点的状态嵌入;f(·)表示局部聚合函数;g(·)表示局部输出函数。
从训练集d1中选取训练样本输入模型,通过迭代训练学习f和g的参数,使得预测
Figure BDA0003249880060000121
尽量接近样本h。模型训练好后,将用户a和b的数据输入模型,得到用户的嵌入向量xa和xb,计算用户社交关系相似度:
Figure BDA0003249880060000122
(5)用户相似度计算
根据用户基础信息相似度
Figure BDA0003249880060000123
用户观点相似度
Figure BDA0003249880060000124
用户社交关系相似度
Figure BDA0003249880060000131
综合计算用户a、b相似度:
Figure BDA0003249880060000132
式中,w1、w2、w3分别为基础信息相似度、用户观点相似度、用户社交关系相似度的权重,且满足
Figure BDA0003249880060000133
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多层属性分析的跨空间目标虚拟身份关联方法,其特征在于,包括:
步骤S1:使用赋权法计算用户基础信息相似度,其中用户基础信息包括用户名、性别、地址和年龄;
步骤S2:运用双向长短期记忆网络模型计算用户观点相似度,其中用户观点隐藏于用户发布的文本中;
步骤S3:采用基于图神经网络的方法计算用户社交关系相似度,其中用户社交关系以用户间链接信息及互动信息表征;
步骤S4:综合考虑用户基础信息相似度、用户观点相似度以及用户社交关系相似度,计算用户相似度。
2.如权利要求1所述的基于多层属性分析的跨空间目标虚拟身份关联方法,其特征在于,所述步骤S1包括:
用户的基础信息包括用户名、性别、年龄、地址,以(属性,值)的形式存在,用户i的属性信息表示为
Figure FDA0003249880050000011
其中每个用户包含L个属性;
针对a、b两个用户分别计算其每个属性的相似度
Figure FDA0003249880050000012
用户各属性相似度表示为
Figure FDA0003249880050000013
采用熵权法计算各属性的权重wk,用户的基础信息相似度表示为:
Figure FDA0003249880050000014
3.如权利要求2所述的基于多层属性分析的跨空间目标虚拟身份关联方法,其特征在于,进行属性相似度计算时,针对不同类型的属性,分别采用不同方式计算其相似性,具体为:
针对数值型属性,采用数值匹配方式计算其相似度;
针对字符型属性,采用Levenshein距离计算其相似度。
4.如权利要求1所述的基于多层属性分析的跨空间目标虚拟身份关联方法,其特征在于,所述步骤S2包括:
设包含用户a的观点的文本为Ta,提取的整体特征向量为θa;包含用户b的观点的文本为Tb,提取的整体特征向量为θb;计算用户a、b的观点相似度:
Figure FDA0003249880050000021
5.如权利要求4所述的基于多层属性分析的跨空间目标虚拟身份关联方法,其特征在于,对文本提取整体特征向量的方式为:
将词语i的嵌入向量和特征向量进行拼接得到其局部特征;
将文本的局部特征输入双向LSTM以得到文本的整体特征;
采用平均池化方法对LSTM的输出特征进行处理得到文本的整体特征向量。
6.如权利要求5所述的基于多层属性分析的跨空间目标虚拟身份关联方法,其特征在于,将词语i的嵌入向量和特征向量进行拼接得到其局部特征,具体为:
已知包含用户观点的社交平台词汇数据库集合为W=(w1,w2,…,wN},其中,N表示词汇库中的词语数目,选择包含用户观点的文本T进行分词,得到文本T的one-hot编码cT={c1,c2,…,ct,…,…cn},运用word2vec方法得到第t个词语的嵌入向量vt,运用特征抽取方法对文本进行特征抽取,得到t个词语的特征向量
Figure FDA0003249880050000022
将词语i的嵌入向量和特征向量进行拼接得到其局部特征
Figure FDA0003249880050000023
7.如权利要求5所述的基于多层属性分析的跨空间目标虚拟身份关联方法,其特征在于,将文本的局部特征输入双向LSTM以得到文本的整体特征,具体为:
前向LSTM更新过程如下:
Figure FDA0003249880050000024
f_it=σ(Wxixt+Whif_ht-1+Wcif_ct-1+bi)
f_ft=σ(Wxfxt+Whff_ht-1+Wcff_ct-1+bf)
Figure FDA0003249880050000031
f_ot=σ(Wxoxt+Whof_ht-1+Wcof_ct-1+bo)
Figure FDA0003249880050000032
式中,σ表示sigmoid函数,f_it、f_it、f_ot分别表示输入门、遗忘门和输出门,W表示权重矩阵,bi、bf、bo、bg表示偏置项,f_ct-1、f_ct分别表示t-1、t个单元的细胞状态,f_ht表示第t个单元的输出;
反向LSTM的更新过程与前向LSTM更新过程相似,反向LSTM第t个单元的输出以及细胞状态分别为b_ht、b_ct,将前向LSTM与反向LSTM的细胞状态及输出进行融合得到第t个词语的特征向量ft=[f_ht,f_ct,b_ht,b_ct],整个文本的输出特征为F={f1,f2,…,ft,…,fn}。
8.如权利要求5所述的基于多层属性分析的跨空间目标虚拟身份关联方法,其特征在于,采用平均池化方法对LSTM的输出特征进行处理得到文本的整体特征向量,具体为:文本的整体特征向量θ=mean(F)。
9.如权利要求1所述的基于多层属性分析的跨空间目标虚拟身份关联方法,其特征在于,所述步骤S3包括:
在基于图神经网络的社交模型中,以用户作为图节点,用户之间的关注信息、粉丝信息社交关系以网络的边表示,用户的转发、评论、点赞、@社交行为作为图节点的属性信息,基于用户的社交关系及社交行为构建的图神经网络为G={V,E,Lv,LE},其中具体定义如下:
用户:V={v1,v2,……,vM}表示含有M个用户的用户集合,vi表示其中第i个用户;
社交属性:LV={l1,l2,……lN}表示用户节点特征向量集合,其中li为第i个用户节点的特征向量,表示第i个用户的社交属性信息,社交属性信息包括用户的转发、评论、点赞、@社交行为;
社交关系:E={l(i,j)|(i,j∈N}表示边集,其中l(i,j)表示用户i和用户j的社交关系,l(i,j)=1表示用户i对用户j存在关注行为,用户i是j的粉丝;l(i,j)=0表示用户i对用户j不存在关注行为,i不是j的粉丝,LE={l(i,j)|(i,j∈N)}表示边的特征向量的集合。
根据上述定义构建社交图神经网络G,神经网络中节点v的状态嵌入hv及节点输出ov分别表示为:hv=f(xv,xne|v|,hne|v|,lco|v|),ov=g(hv,xv),式中,xv表示节点v的特征,即用户的社交属性信息;xne|v|表示节点v的邻居节点的特征;lco|v|表示节点v的边的特征,即用户之间的社交关系;hne|v|表示节点v的邻居节点的状态嵌入;f(·)表示局部聚合函数;g(·)表示局部输出函数;
从训练集d1中选取训练样本输入模型,通过迭代训练学习f和g的参数,使得预测
Figure FDA0003249880050000041
尽量接近样本h,模型训练好后,将用户a和b的数据输入模型,得到用户的嵌入向量xa和xb,计算用户社交关系相似度:
Figure FDA0003249880050000042
10.如权利要求1所述的基于多层属性分析的跨空间目标虚拟身份关联方法,其特征在于,所述步骤S4包括:
根据用户基础信息相似度
Figure FDA0003249880050000043
用户观点相似度
Figure FDA0003249880050000044
用户社交关系相似度
Figure FDA0003249880050000045
计算用户a、b综合相似度
Figure FDA0003249880050000046
式中,w1、w2、w3分别为基础信息相似度、用户观点相似度、用户社交关系相似度的权重,且满足
Figure FDA0003249880050000047
CN202111042520.5A 2021-09-07 2021-09-07 基于多层属性分析的跨空间目标虚拟身份关联方法 Active CN113779520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111042520.5A CN113779520B (zh) 2021-09-07 2021-09-07 基于多层属性分析的跨空间目标虚拟身份关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111042520.5A CN113779520B (zh) 2021-09-07 2021-09-07 基于多层属性分析的跨空间目标虚拟身份关联方法

Publications (2)

Publication Number Publication Date
CN113779520A true CN113779520A (zh) 2021-12-10
CN113779520B CN113779520B (zh) 2023-06-13

Family

ID=78841452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111042520.5A Active CN113779520B (zh) 2021-09-07 2021-09-07 基于多层属性分析的跨空间目标虚拟身份关联方法

Country Status (1)

Country Link
CN (1) CN113779520B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817757A (zh) * 2022-04-02 2022-07-29 广州大学 基于图卷积网络的跨社交网络虚拟身份关联方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017211051A1 (zh) * 2016-06-06 2017-12-14 腾讯科技(深圳)有限公司 目标对象的社交账号挖掘方法、服务器和存储介质
WO2018195691A1 (en) * 2017-04-24 2018-11-01 Microsoft Technology Licensing, Llc New connection recommendations based on data attributes
CN108984767A (zh) * 2018-07-20 2018-12-11 珠海宏桥高科技有限公司 一种虚拟身份核实的方法
CN110210540A (zh) * 2019-05-22 2019-09-06 山东大学 基于注意力机制的跨社交媒体用户身份识别方法及系统
CN111242218A (zh) * 2020-01-13 2020-06-05 河南科技大学 融合用户多属性信息的跨社交网络用户身份识别方法
CN112084373A (zh) * 2020-08-05 2020-12-15 国家计算机网络与信息安全管理中心 一种基于图嵌入的多源异构网络用户对齐方法
CN113095948A (zh) * 2021-03-24 2021-07-09 西安交通大学 一种基于图神经网络的多源异构网络用户对齐方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017211051A1 (zh) * 2016-06-06 2017-12-14 腾讯科技(深圳)有限公司 目标对象的社交账号挖掘方法、服务器和存储介质
WO2018195691A1 (en) * 2017-04-24 2018-11-01 Microsoft Technology Licensing, Llc New connection recommendations based on data attributes
CN108984767A (zh) * 2018-07-20 2018-12-11 珠海宏桥高科技有限公司 一种虚拟身份核实的方法
CN110210540A (zh) * 2019-05-22 2019-09-06 山东大学 基于注意力机制的跨社交媒体用户身份识别方法及系统
CN111242218A (zh) * 2020-01-13 2020-06-05 河南科技大学 融合用户多属性信息的跨社交网络用户身份识别方法
CN112084373A (zh) * 2020-08-05 2020-12-15 国家计算机网络与信息安全管理中心 一种基于图嵌入的多源异构网络用户对齐方法
CN113095948A (zh) * 2021-03-24 2021-07-09 西安交通大学 一种基于图神经网络的多源异构网络用户对齐方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
AHMED ABBASI: "Writeprints:A Stylometric approach to identity-level identification and similarity detection in cyberspace", ACM TRANSACTIONS ON INFORMATION SYSTEM, vol. 26, no. 02 *
CHANG LIANG: "Review of recommendation systems based on knowledge graph", CAAI TRANSACTIONS ON INTELLIGENT SYSTEMS *
DANIELLE H.LEE: "How to measure information similarity in online social networks:A case study of Citeulike", INFORMATION SCIENCE, vol. 418, pages 46 - 60, XP085190531, DOI: 10.1016/j.ins.2017.07.034 *
吴铮: "跨社交网络用户多重身份识别算法研究", 中国优秀硕士学位论文全文数据库 *
吴铮;于洪涛;刘树新;朱宇航;: "基于信息熵的跨社交网络用户身份识别方法", 计算机应用, no. 08 *
文?琪;周安民;: "跨社交平台的用户识别方法研究", 现代计算机, no. 08 *
齐金山;梁循;李志宇;陈燕方;许媛;: "大规模复杂信息网络表示学习:概念、方法与挑战", 计算机学报, no. 10 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817757A (zh) * 2022-04-02 2022-07-29 广州大学 基于图卷积网络的跨社交网络虚拟身份关联方法

Also Published As

Publication number Publication date
CN113779520B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN111737495B (zh) 基于领域自分类的中高端人才智能推荐系统及其方法
Farnadi et al. User profiling through deep multimodal fusion
WO2022041979A1 (zh) 一种信息推荐模型的训练方法和相关装置
CN111783474B (zh) 一种评论文本观点信息处理方法、装置及存储介质
US9009134B2 (en) Named entity recognition in query
CN111582409A (zh) 图像标签分类网络的训练方法、图像标签分类方法及设备
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN114298122B (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN111783903B (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN108304479B (zh) 一种基于图结构过滤的快速密度聚类双层网络推荐方法
CN113806582B (zh) 图像检索方法、装置、电子设备和存储介质
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
CN113593661A (zh) 临床术语标准化方法、装置、电子设备及存储介质
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
CN114548099A (zh) 基于多任务框架的方面词和方面类别联合抽取和检测方法
CN115687760A (zh) 一种基于图神经网络的用户学习兴趣标签预测方法
CN115310589A (zh) 一种基于深度图自监督学习的群体识别方法及系统
CN112861474B (zh) 一种信息标注方法、装置、设备及计算机可读存储介质
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN113779520A (zh) 基于多层属性分析的跨空间目标虚拟身份关联方法
CN112613451A (zh) 一种跨模态文本图片检索模型的建模方法
Ahan et al. Social network analysis using data segmentation and neural networks
CN116089644A (zh) 一种融合多模态特征的事件检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant