CN112989218B - 基于多级属性嵌入和约束典型相关分析的身份链接方法 - Google Patents

基于多级属性嵌入和约束典型相关分析的身份链接方法 Download PDF

Info

Publication number
CN112989218B
CN112989218B CN202110269377.7A CN202110269377A CN112989218B CN 112989218 B CN112989218 B CN 112989218B CN 202110269377 A CN202110269377 A CN 202110269377A CN 112989218 B CN112989218 B CN 112989218B
Authority
CN
China
Prior art keywords
user
network
users
matrix
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110269377.7A
Other languages
English (en)
Other versions
CN112989218A (zh
Inventor
陈晓亮
陈白杨
李显勇
杜亚军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xihua University
Original Assignee
Xihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xihua University filed Critical Xihua University
Priority to CN202110269377.7A priority Critical patent/CN112989218B/zh
Publication of CN112989218A publication Critical patent/CN112989218A/zh
Application granted granted Critical
Publication of CN112989218B publication Critical patent/CN112989218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Human Resources & Organizations (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于多级属性嵌入和约束典型相关分析的身份链接方法,该方法先将社交网络用户数据进行数据预处理,并构建无向无权图,再嵌入多级文本属性形成相应的用户特征矩阵;再进行网络结构嵌入和用户特征聚合,然后再基于约束典型相关分析的线性投影将两个社交网络投影到同一个潜在向量空间中,从而使得匹配用户在空间中的距离最近;最终通过比较任意用户与另一网络中所有用户在同一潜在向量空间中的距离,进而确定该用户的匹配用户;本发明适用于用户属性缺失或网络结构稀疏的情况;且大大减少了运行所需的先验信息量,解决了先验信息匮乏情况下的实际问题,节约了数据采集和方法训练的成本。

Description

基于多级属性嵌入和约束典型相关分析的身份链接方法
技术领域
本发明涉及用户身份链接的技术领域,具体涉及基于多级属性嵌入和约束典型相关分析的身份链接方法。
背景技术
用户身份链接(User Identity Linkage),又可以称为“用户对齐(UserAlignment)”、“用户识别(User Identification)”等,旨在识别不同社交网络上的同一自然人,在商业推荐、舆论监督、网络安全等领域中越来越重要;大量社交网络应用,包括朋友推荐、信息扩散、链路预测、网络动态分析等表明了用户身份链接的必要性和益处。
早期的跨社交网络用户身份链接研究主要通过利用公开的用户属性信息来获取用户特征,包括用户基本资料(如用户名、性别、位置)、用户生成的内容(如微博、帖子、文章)和用户行为(如地理位置轨迹、用词习惯);基于用户属性的解决方案主要通过启发式的字符串模式或文本相似性比较函数来实现,这些方法有以下两个显著缺点:
(1)难以统一应对多种类型的属性文本。例如,用户名通常有很大比例的自定义词汇(如流浪的蛤蟆ヽ( ̄▽ ̄)
Figure BDA0002973604170000011
、§春哥的哥§、Tommy996等);职业通常是由一些常规词组成的短语(如XX大学教授、XX助理);用户发布的博客则可以包含多个段落或较长的一段文本,其中蕴含了高级语义特征(如帖子主题、用户的观点等);传统的启发式属性建模方法只能涵盖某部分属性类型,而不能涵盖所有类型,缺乏处理多种属性文本的通用方法。
(2)难以捕捉不同用户属性之间的隐含联系;例如,出现在某用户职业属性中的“老师”和“教授”两个词语,如果仅从字符串模式或者相似性上进行比较,则两者之间很难产生联系。然而,“老师”和“教授”在语义上是高度相关的,大部分情况下“教授”往往同时是一名“老师”;传统的启发式方法不适用于这种情况。
发明内容
本发明的目的在于:针对目前用户身份链接存在难以统一应对多种类型的属性文本和难以捕捉不同用户属性之间的隐含联系的问题,提供了基于多级属性嵌入和约束典型相关分析的身份链接方法,解决了上述问题。
本发明的技术方案如下:
基于多级属性嵌入和约束典型相关分析的身份链接方法,所述方法包括以下步骤:
(a)将社交网络用户数据进行数据预处理,并构建无向无权图G=(V,E,A);其中V表示网络中的用户集合,E表示用户之间的关系的集合,A表示用户属性集合;
(b)嵌入多级文本属性;将每个用户属性集合分为三个部分A=(Ac,Aw,At),其中Ac表示字符级属性,Aw表示词级属性,At表示主题级属性;然后分别采用三种无监督表示学习方法生成三个相应的用户特征矩阵Pc、Pw和Pt
(c)网络结构嵌入和用户特征聚合;网络结构嵌入的目标是将社交网络中的用户映射到一个潜在向量空间,使得具有相似拓扑结构特性的用户之间距离最小。
(d)基于约束典型相关分析的线性投影将两个社交网络投影到同一个潜在向量空间Z中,从而使得匹配用户在空间中的距离最近;
(e)识别匹配用户对;对于来自网络GX中的任意一个用户Vi,通过比较用户Vi与另一网络GY中所有用户在同一潜在向量空间Z中的距离,进而确定用户Vi的匹配用户:距离越小,说明两个用户更可能是同一个自然人。
进一步地,所述步骤(b)中生成用户特征矩阵Pc包括以下步骤:
(b1)将网络中所有用户的字符级属性
Figure BDA0002973604170000021
通过词袋模型转化为矩阵
Figure BDA0002973604170000022
(b2)采用自编码器对矩阵
Figure BDA0002973604170000023
进行降维,最终得到字符级属性Ac的特征矩阵
Figure BDA0002973604170000024
进一步地,所述步骤(b)中生成用户特征矩阵Pw包括以下步骤:
(b3)采用词嵌入技术训练词向量,从而得到词语wik的向量表达形式
Figure BDA0002973604170000025
(b4)再将用户词级属性
Figure BDA0002973604170000026
中所有词语的词向量进行求和,即可得到该用户的词级属性向量
Figure BDA0002973604170000027
(b5)根据网络同质性原理,将单个用户的词级属性和其邻居进行平滑;用户的词级属性Aw最终被转换为一个特征矩阵
Figure BDA0002973604170000028
进一步地,所述步骤(b)中生成用户特征矩阵Pt包括以下步骤:
(b6)采用LDA主题模型构建主题级属性文本的特征表示,并通过吉布斯采样进行参数估计;从而得到用户vi的主题概率向量
Figure BDA0002973604170000029
主题概率向量
Figure BDA00029736041700000210
即代表了该用户主题级属性的特征向量;由此网络中所有用户的主题级属性At转换为矩阵
Figure BDA00029736041700000211
进一步地,所述步骤(c)的详细步骤为:
(c1)采用网络嵌入模型LINE将待匹配的社交网络转换为一个特征矩阵
Figure BDA00029736041700000212
其中ds表示网络结构特征的维度;
(c2)将(b)中的用户特征矩阵Pc、Pw、Pt和网络结构特征矩阵
Figure BDA0002973604170000031
进行拼接,得到最终的用户特征矩阵。
(c3)在最终的用户特征矩阵上进行0-1标准化操作,将每一行的平均值转化为0,标准差转化为1。
进一步地,所述步骤(d)的详细步骤为:通过构建两个线性投影矩阵
Figure BDA0002973604170000032
Figure BDA0002973604170000033
来分别将两个网络的特征矩阵X和Y投影到同一个潜在向量空间Z中,并使得HTX和MTY之间的相关性最大化
与现有的技术相比本发明的有益效果是:
1、本发明公开了一种通过多级用户属性文本嵌入方法来处理多种类型的用户属性文本,并结合用户属性特征和网络结构特征来进行社交网络用户建模;该方法适用于用户属性缺失或网络结构稀疏的情况,具有很强的鲁棒性,并且在不依赖任何标记数据的情况下,捕获多种类型用户属性文本特征及高层语义特征。
2、本发明在多级属性嵌入的基础上,还公开了一种基于约束典型相关分析的线性投影方法,将不同社交网络中用户的特征矩阵投影到同一个潜在向量空间中,使得不同网络中的相同用户在潜在向量空间中的距离最小,并通过向量距离的比较来识别不同网络中的同一用户;基于多层属性嵌入和约束典型相关分析的用户身份链接方法是一种半监督的方法,与传统监督方法相比,大大减少了运行所需的先验信息量,能用于解决先验信息匮乏情况下的实际问题,节约了数据采集成本与方法训练成本。
附图说明
图1为基于多级属性嵌入和约束典型相关分析的身份链接方法的流程图。
具体实施方式
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面结合实施例对本发明的特征和性能作进一步的详细描述。
实施例一
请参阅图1,基于多级属性嵌入和约束典型相关分析的身份链接方法,包括以下步骤:
(a)将社交网络用户数据进行预处理;将社交网络的用户表示为节点,用户之间关系(如好友、关注/粉丝等)表示为边,构建无向无权图G=(V,E,A),其中V表示网络中的用户集合,E表示用户之间关系(如朋友关系、关注/粉丝关系等)的集合,A表示用户属性集合,例如用户姓名、职业和教育经历等。
(b)嵌入多级文本属性;首先将每个网络的文本属性分为三个部分A=(Ac,Aw,At),其中Ac表示字符级属性,Aw表示词级属性,At表示主题级属性;然后分别采用三种无监督表示学习方法生成三个相应的用户特征矩阵Pc,Pw和Pt;具体包括以下六个子步骤:
(b1)用户属性文本中包含大量自定义词汇的属性(如用户名、昵称等)被划分为字符级属性,任意用户vi的字符级属性
Figure BDA0002973604170000041
可以看作是由一个符号序列w=w1,w2,…,wk,…,wm来构成的,其中wk表示
Figure BDA0002973604170000042
的组成元素,包括字母、字、数字、标点符号、表情符号、特殊符号或者q-gram(即q个符号组成的子串)等,m表示所有元素的总计数量;采用词袋模型将
Figure BDA0002973604170000043
转换为向量形式
Figure BDA0002973604170000044
其中k∈{1,2,…,m},
Figure BDA0002973604170000045
对应
Figure BDA0002973604170000046
中符号wk出现的次数;由此,网络中所有用户的字符级属性
Figure BDA0002973604170000047
被转化为一个矩阵
Figure BDA0002973604170000048
(b2)再采用一个自编码器对矩阵
Figure BDA0002973604170000049
进行降维;该自编码器首先用一个映射函数
Figure BDA00029736041700000410
将输入向量
Figure BDA00029736041700000411
表示为一个隐含向量表示
Figure BDA00029736041700000412
其中
Figure BDA00029736041700000413
Figure BDA00029736041700000414
分别表示权重矩阵和偏置向量;然后再用另一个映射函数
Figure BDA00029736041700000415
Figure BDA00029736041700000416
重构为
Figure BDA00029736041700000417
使得
Figure BDA00029736041700000418
Figure BDA00029736041700000419
之间距离最小,其中
Figure BDA00029736041700000420
Figure BDA00029736041700000421
分别表示权重矩阵和偏置向量;自编码器的参数通过以下目标函数进行优化;
Figure BDA00029736041700000422
由此得到字符级属性Ac的特征矩阵
Figure BDA00029736041700000423
其中W和b为自编码器的参数。
(b3)用户属性文本中主要由常规词汇组成的属性(如性别、地点、职业、教育背景等)被划分为词级属性,任意用户vi的词级属性
Figure BDA00029736041700000424
可以看作是由一个词语序列wi=wi1,wi2,…,wik,…,wim来构成的,其中wik表示对应词汇表中的第k个词语,m表示词汇表的长度;网络中所有用户的词级属性
Figure BDA00029736041700000425
可以看作一个语料库,每个用户vi的词级属性
Figure BDA00029736041700000426
对应着语料库中的一个文档;采用自然语言处理中的词嵌入技术CBOW来训练词向量,从而得到词语wik的向量表达形式
Figure BDA00029736041700000427
(b4)再将用户词级属性
Figure BDA00029736041700000428
中所有词语的词向量通过(式2)进行求和即可得到该用户的词级属性向量
Figure BDA00029736041700000429
Figure BDA00029736041700000430
(b5)因为在实践中,用户数据往往存在缺失或无法识别的现象;对此,根据网络同质性原理,再将单个用户的词级属性和其邻居通过(式3)进行平滑;
Figure BDA0002973604170000051
其中参数λ∈[0,1]代表邻居的重要性,
Figure BDA0002973604170000052
代表用户vi的邻居集合,
Figure BDA0002973604170000053
表示邻居的数量;由此,用户的词级属性Aw被转换为一个特征矩阵
Figure BDA0002973604170000054
Figure BDA0002973604170000055
(b6)用户属性文本中由大篇幅的段落或篇章组成的属性(如微博、博客、文章等)被划分为主题级属性,任意用户vi的主题级属性
Figure BDA0002973604170000056
可以看作是一个文档wi,网络中所有用户的主题级属性
Figure BDA0002973604170000057
则构成一个语料库;然后采用LDA主题模型来构建主题级属性文本的特征表示,并通过吉布斯采样(Gibbs Sampling)进行参数估计;任意文档wi对应的主题分布
Figure BDA0002973604170000058
进行参数估计;最后通过计算(式4)可得到每个文档wi的主题概率向量
Figure BDA0002973604170000059
Figure BDA00029736041700000510
其中DT表示文档对应主题的计数矩阵,
Figure BDA00029736041700000511
表示文档wi中所有单词的分配给主题j的总次数,dt表示主题数量,α为主题模型的超参数,代表主题分布的特性;从而可以得到用户vi的主题概率向量
Figure BDA00029736041700000512
该向量即代表了该用户主题级属性的特征向量;由此,网络中所有用户的主题级属性At被转换为一个矩阵
Figure BDA00029736041700000513
(c)网络结构嵌入和用户特征聚合;网络结构嵌入的目标是将社交网络中的用户映射到一个潜在向量空间,使得具有相似拓扑结构特性的用户之间距离最小,具体包括以下三个步骤:
(c1)采用当前比较流行的网络嵌入模型LINE来将待匹配的社交网络转换为一个特征矩阵
Figure BDA00029736041700000514
其中ds表示网络结构特征的维度。
(c2)将步骤(b)中的用户特征矩阵Pc、Pw、Pt和网络结构特征矩阵
Figure BDA00029736041700000515
进行拼接,得到最终的用户特征矩阵;
对任意待匹配的两个社交网络GX/GY,其特征矩阵表示为:
Figure BDA00029736041700000516
其中d=dc+dw+dt+ds表示特征的维度。
(c3)在最终的用户特征矩阵上进行0-1标准化操作,即将每一行的平均值转化为0,标准差转化为1。
(d)通过上述步骤,已将待匹配的任意两个社交网络映射到了两个不同的向量空间中,接下来再将两个社交网络投影到同一个潜在向量空间中,从而使得匹配用户在空间中的距离最近。
假设两个网络之间的映射是线性的,并采用典型相关分析方法来进行投影;典型相关分析(Canonical Correlation Analysis,CCA)方法通常用于研究两个变量之间的相关性,其目标在于为两个变量找到一对投影函数,从而使它们之间的相关性最大化;经典的典型相关分析方法假设特征维数小于观测样本数,当观测样本数较少时,算法则无法收敛。因此,本发明通过引入约束项使之适用于社交网络用户身份链接问题。
约束典型相关分析通过构建两个线性投影矩阵
Figure BDA0002973604170000061
Figure BDA0002973604170000062
来分别将两个网络的特征矩阵X/Y投影到同一个潜在向量空间Z中,并使得HTX和MTY之间的相关性最大化。
对任意一对典型变量
Figure BDA0002973604170000063
Figure BDA0002973604170000064
其相关性通过(式6)进行计算:
Figure BDA0002973604170000065
其中,
Figure BDA0002973604170000066
Figure BDA0002973604170000067
中的上标T表示向量的转置操作,CXY,CXX和CYY是特征矩阵X/Y的协方差矩阵;由于X/Y的均值都为0,这三个协方差矩阵可以通过(式7)进行计算:
Figure BDA0002973604170000068
由于任意一组典型变量hi和mj都与系数无关,(式6)的优化目标等价于:
Figure BDA0002973604170000069
通过对协方差矩阵添加约束项rX>0及rY>0可以确保以上优化目标在观察样本数量较小时能够收敛,即:
Figure BDA00029736041700000610
其中I为单位矩阵;由此,投影矩阵H和M可以通过广义特征值分解进行求解,即:
Figure BDA00029736041700000611
由此,两个网络在潜在向量空间Z中分别表示为:ZX=HTX和ZY=MTY。
(e)识别匹配用户对;对于来自网络GX中的任意一个用户vi,通过比较它与另一网络GY中所有用户的在同一潜在向量空间Z中的距离,进而确定它的匹配用户,距离越小,说明两个用户更可能是同一个自然人;向量距离通过(式11)进行计算:
Figure BDA0002973604170000071
实施例二
下面将结合具体的实例来对本发明进行进一步说明,本实例为从互联网上采集的两个真实社交网络,新浪微博和豆瓣网,其具体信息如表1所示。
表1微博-豆瓣网络数据统计表
Figure BDA0002973604170000072
步骤(a):社交网络用户数据进行预处理。;
将待匹配的微博和豆瓣两个社交网络中的用户看作网络GX/GY=(V,E,A)中的节点V,并用不同的数字来区分不同的用户,如微博网络中用户对应数字0到9713,豆瓣网络用户则对应数字9714到19239。
将用户之间关系关注/粉丝关系看作网络中的边E,即如果两个用户之间有关注或粉丝关系,则他们之间构建一条边(ui,uj)∈E。
将两个网络中用户各自的网名(即昵称)作为该用户的字符级属性文本Ac,将两个网络中用户的地址作为该用户的词级属性文本Aw,将微博网络用户发表的最近10条微博以及豆瓣网络用户最近发表的10条帖子分别进行合并,作为该用户的主题级属性文本。
步骤(b)嵌入多级文本属性;将待匹配的微博和豆瓣两个社交网络中用户各自的字符级、词级、主题级属性文本分别采用三种无监督表示学习方法生成三个相应的用户特征矩阵Pc,Pw和Pt;具体步骤如下:
字符级属性文本Ac由一系列字符串
Figure BDA0002973604170000073
构成,将每个字符串分割为由单一字符构成的列表,每个字符可能表示一个字母、字、数字、标点符号、表情符号、特殊符号或者q-gram(即q个符号组成的子串)等;对于中文字符,用其对应的拼音符号进行替换;文本中所有字符构成一个字符表,如V={1,2,…,a,b,..,!,@,#},其长度为m;由此,每个字符串
Figure BDA0002973604170000074
可以表示为一个长度为m的向量:
Figure BDA0002973604170000075
其中
Figure BDA0002973604170000076
对应
Figure BDA0002973604170000077
中符号wk出现的次数;待匹配的两个网络中各自用户的字符级属性
Figure BDA0002973604170000078
进而被转化为一个矩阵
Figure BDA0002973604170000081
举例来说,对于字符串“流浪的蛤蟆”,其对应字符序列表示为:[l,i,u,l,a,n,g,d,e,h,a,m,a],其中各个字符出现的次数为{a:3,d:1,e:1,g:1,h:1,i:1,l:2,m:1,n:1,u:1,其他:0},因此其对应的向量表示为:[3,0,0,1,1,0,1,1,1,0,0,2,1,1,0,0,0,0,0,0,1,…]。
(b2)采用自编码器对矩阵
Figure BDA0002973604170000082
进行降维;该自编码器首先用一个映射函数
Figure BDA0002973604170000083
将输入向量
Figure BDA0002973604170000084
表示为一个隐含向量表示
Figure BDA0002973604170000085
其中
Figure BDA0002973604170000086
Figure BDA0002973604170000087
分别表示权重矩阵和偏置向量;然后用另一个映射函数
Figure BDA0002973604170000088
Figure BDA0002973604170000089
重构为
Figure BDA00029736041700000810
使得
Figure BDA00029736041700000811
Figure BDA00029736041700000812
之间距离最小,其中
Figure BDA00029736041700000813
Figure BDA00029736041700000814
分别表示权重矩阵和偏置向量;将Ac的向量表示Xc作为自编码器的训练数据,进而得到字符级属性Ac的特征矩阵
Figure BDA00029736041700000815
其中W和b为自编码器的参数;微博网络和豆瓣网络各自用户的字符级属性特征矩阵分别表示为
Figure BDA00029736041700000816
Figure BDA00029736041700000817
(b3)嵌入词级属性;词级属性文本Aw由一系列字符串
Figure BDA00029736041700000818
构成,通过分词技术将每个字符串分割为由单一词语构成的列表,文本中所有词语构成一个词汇表,如V={你,我,…,中国,美国today,Monday,...},其长度为m;由此,任意用户vi的词级属性
Figure BDA00029736041700000819
可以看作是由一个词语序列wi=wi1,wi2,…,wik,…,wim来构成的,其中wik表示对应词汇表中的第k个词语;两个待匹配的网络中所有用户的词级属性
Figure BDA00029736041700000820
可以看作一个语料库,每个用户vi的词级属性
Figure BDA00029736041700000821
对应着语料库中的一个文档;采用自然语言处理中的词嵌入技术CBOW来训练词向量,进而通过(式2)得到词语wik的向量表达形式
Figure BDA00029736041700000822
举例来说,对于某用户的词级属性字符串“四川成都”,其对应词语列表为:[四川,成都],每个词语通过词嵌入都对应一个维度相同的实数向量,如{四川:0.11,0.22,0.3,0.7,…},{成都:0.31,0.25,0.33,0.17,…}。
(b4)再将用户词级属性
Figure BDA00029736041700000823
中所有词语的词向量进行求和即可得到该用户的词级属性向量
Figure BDA00029736041700000824
如字符串“四川成都”对应的向量表示为:[0.42,0.47,0.63,0.87,…]。
(b5)再根据网络同质性原理,将单个用户的词级属性和他的邻居进行平滑。
例如上文中某用户的邻居的词级属性文本为“四川绵阳”,且词语“绵阳”对应的词向量为{绵阳:0.32,0.24,0.31,0.11,…},邻居权重λ取0.5,则用户的词级属性向量表示为:[0.425,0.465,0.62,0.84,…]。
由此,用户的词级属性Aw被转换为一个特征矩阵
Figure BDA00029736041700000825
微博网络和豆瓣网络各自用户的词级属性特征矩阵分别表示为
Figure BDA0002973604170000091
Figure BDA0002973604170000092
(b6)嵌入主题级属性;主题级属性文本At由一系列长文本
Figure BDA0002973604170000093
组成,每个
Figure BDA0002973604170000094
首先需要通过分词技术转换为由单一词语构成的列表,这个词语列表即看作是一个文档wi,网络中所有用户的主题级属性
Figure BDA0002973604170000095
则构成一个语料库;接下来,采用LDA主题模型来计算每个用户主题级属性文本的主题分布,并通过吉布斯采样进行参数估计,最后通过计算(式4)可得到每个文档wi的主题概率向量
Figure BDA0002973604170000096
由此,网络中所有用户的主题级属性At被转换为一个矩阵
Figure BDA0002973604170000097
微博网络和豆瓣网络各自用户的字符级属性特征矩阵分别表示为
Figure BDA0002973604170000098
Figure BDA0002973604170000099
(c)采用网络嵌入模型LINE来将待匹配的社交网络转换为一个特征矩阵
Figure BDA00029736041700000910
其中ds表示网络结构特征的维度;将步骤(b)中的用户属性特征Pc,Pw,Pt以及网络结构特征Ps进行拼接,得到最终的用户特征矩阵。
微博网络和豆瓣网络各自用户的特征矩阵分别表示为X和Y;接下来,在用户特征矩阵上进行0-1标准化操作,即将每一行的平均值转化为0,标准差转化为1。
(d)基于约束典型相关分析的线性投影;通过上述步骤,已将待匹配的两个社交网络(微博网络和豆瓣网络)映射到了两个不同的向量空间中,接下来将两个网络投影到同一个潜在向量空间中,从而使得匹配用户在空间中的距离最近。
在微博-豆瓣网络数据中,已知部分用户的真实身份,即两个网络中有少量预先匹配的用户对(即观察到的样本数据);首先将这部分用户对应的特征向量从矩阵X和Y中提取出来,形成新的特征矩阵Xtrain和Ytrain;再采用约束典型相关分析方法构建优化目标:ρ=maxcorr(HTXtrain,MTYtrain)。
再根据(式6)-(式10)进行广义特征值分解即可求得两个线性投影矩阵
Figure BDA00029736041700000911
Figure BDA00029736041700000912
Figure BDA00029736041700000913
由此,微博网络和豆瓣网络各自在潜在向量空间Z中分别表示为:ZX=HTX和ZY=MTY。
(e)识别匹配用户;对于来自微博网络GX中的任意一个用户vi,通过比较它与豆瓣网络GY中所有用户的在同一潜在向量空间Z中的距离,可以确定它的匹配用户:距离越小,说明两个用户更可能是同一个自然人。
本实例采用Top-k精确度(Precision@top-k)指标来评估所提出方法的性能。
命中精确度即真实样例在预测结果中排前k(k≥1)名的加权平均分数,命中精确度对排名靠前的样例赋予了较高的权重,其计算公式为:
Figure BDA00029736041700000914
其中hit(x)表示真实样例在前k个候选样例评分列表中的位置,当真实样例不在top-k列表中时,返回k+1。
在实验中,将用户特征维度设置为dc=dw=dt=ds=100,投影矩阵H/M的维度设置为k=25,约束项rX=rY=105,训练样本数量设置为200个,测试样本数量设置为500个。
为说明本发明的优越性,选取了三个网络对齐的经典算法IONE、REGAL、ABNE来进行对比,每个方法进行10次随机重复实验,并取平均值作为最后结果,实验结果如表2所示。
表2在微博-豆瓣网络数据上的实验结果
Figure BDA0002973604170000101
实验结果表明本发明相比经典算法具有显著优越性。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (6)

1.基于多级属性嵌入和约束典型相关分析的身份链接方法,其特征在于,所述方法包括以下步骤:
(a)将社交网络用户数据进行数据预处理,并构建无向无权图G=(V,E,A);其中V表示网络中的用户集合,E表示用户之间的关系的集合,A表示用户属性集合;
(b)嵌入多级文本属性;将每个用户属性集合分为三个部分A=(Ac,Aw,At),其中Ac表示字符级属性,Aw表示词级属性,At表示主题级属性;然后分别采用三种无监督表示学习方法生成三个相应的用户特征矩阵Pc、Pw和Pt
(c)网络结构嵌入和用户特征聚合;网络结构嵌入的目标是将社交网络中的用户映射到一个潜在向量空间,使得具有相似拓扑结构特性的用户之间距离最小;
(d)基于约束典型相关分析的线性投影将两个社交网络投影到同一个潜在向量空间Z中,从而使得匹配用户在空间中的距离最近,所述约束典型相关分析是通过引入约束项使典型相关分析适用于社交网络用户身份链接问题的算法;
约束典型相关分析通过构建两个线性投影矩阵
Figure FDA0003613865720000011
Figure FDA0003613865720000012
来分别将两个网络的特征矩阵X/Y投影到同一个潜在向量空间Z中,并使得HTX和MTY之间的相关性最大化;
对任意一对典型变量
Figure FDA0003613865720000013
Figure FDA0003613865720000014
其相关性通过(式6)进行计算:
Figure FDA0003613865720000015
其中,
Figure FDA0003613865720000016
Figure FDA0003613865720000017
中的上标T表示向量的转置操作,CXY,CXx和CYY是特征矩阵X/Y的协方差矩阵;由于X/Y的均值都为0,这三个协方差矩阵可以通过(式7)进行计算:
Figure FDA0003613865720000018
由于任意一组典型变量hi和mj都与系数无关,(式6)的优化目标等价于:
Figure FDA0003613865720000019
通过对协方差矩阵添加约束项rX>0及rY>0可以确保以上优化目标在观察样本数量较小时能够收敛,即:
Figure FDA0003613865720000021
其中I为单位矩阵;由此,投影矩阵H和M可以通过广义特征值分解进行求解,即:
Figure FDA0003613865720000022
由此,两个网络在潜在向量空间Z中分别表示为:ZX=HTX和ZY=MTY;
(e)识别匹配用户对;对于来自网络GX中的任意一个用户Vi,通过比较用户Vi与另一网络GY中所有用户在同一潜在向量空间Z中的距离,进而确定用户Vi的匹配用户,距离越小,说明两个用户更可能是同一个自然人。
2.根据权利要求1所述的基于多级属性嵌入和约束典型相关分析的身份链接方法,其特征在于,所述步骤(b)中生成用户特征矩阵Pc包括以下步骤:
(b1)将网络中所有用户的字符级属性
Figure FDA0003613865720000023
通过词袋模型转化为矩阵
Figure FDA0003613865720000024
(b2)采用自编码器对矩阵
Figure FDA0003613865720000025
进行降维,最终得到字符级属性Ac的特征矩阵
Figure FDA0003613865720000026
3.根据权利要求2所述的基于多级属性嵌入和约束典型相关分析的身份链接方法,其特征在于,所述步骤(b)中生成用户特征矩阵Pw包括以下步骤:
(b3)采用词嵌入技术训练词向量,从而得到词语wik的向量表达形式
Figure FDA0003613865720000027
(b4)再将用户词级属性
Figure FDA0003613865720000028
中所有词语的词向量进行求和,即可得到该用户的词级属性向量
Figure FDA0003613865720000029
(b5)根据网络同质性原理,将单个用户的词级属性和其邻居进行平滑;用户的词级属性Aw最终被转换为一个特征矩阵
Figure FDA00036138657200000210
4.根据权利要求3所述的基于多级属性嵌入和约束典型相关分析的身份链接方法,其特征在于,所述步骤(b)中生成用户特征矩阵Pt包括以下步骤:
(b6)采用LDA主题模型构建主题级属性文本的特征表示,并通过吉布斯采样进行参数估计;从而得到用户vi的主题概率向量
Figure FDA00036138657200000211
主题概率向量
Figure FDA00036138657200000212
即代表了该用户主题级属性的特征向量;由此网络中所有用户的主题级属性At转换为矩阵
Figure FDA00036138657200000213
5.根据权利要求4所述的基于多级属性嵌入和约束典型相关分析的身份链接方法,其特征在于,所述步骤(c)的详细步骤为:
(c1)采用网络嵌入模型LINE将待匹配的社交网络转换为一个特征矩阵
Figure FDA00036138657200000214
其中ds表示网络结构特征的维度;
(c2)将步骤(b)中的用户特征矩阵Pc、Pw、Pt和网络结构特征矩阵
Figure FDA0003613865720000031
进行拼接,得到最终的用户特征矩阵;
(c3)在最终的用户特征矩阵上进行0-1标准化操作,将每一行的平均值转化为0,标准差转化为1。
6.根据权利要求5所述的基于多级属性嵌入和约束典型相关分析的身份链接方法,其特征在于,所述步骤(d)的详细步骤为:通过构建两个线性投影矩阵
Figure FDA0003613865720000032
Figure FDA0003613865720000033
Figure FDA0003613865720000034
来分别将两个网络的特征矩阵X和Y投影到同一个潜在向量空间Z中,并使得HTX和MTY之间的相关性最大化。
CN202110269377.7A 2021-03-12 2021-03-12 基于多级属性嵌入和约束典型相关分析的身份链接方法 Active CN112989218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110269377.7A CN112989218B (zh) 2021-03-12 2021-03-12 基于多级属性嵌入和约束典型相关分析的身份链接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110269377.7A CN112989218B (zh) 2021-03-12 2021-03-12 基于多级属性嵌入和约束典型相关分析的身份链接方法

Publications (2)

Publication Number Publication Date
CN112989218A CN112989218A (zh) 2021-06-18
CN112989218B true CN112989218B (zh) 2022-06-28

Family

ID=76335078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110269377.7A Active CN112989218B (zh) 2021-03-12 2021-03-12 基于多级属性嵌入和约束典型相关分析的身份链接方法

Country Status (1)

Country Link
CN (1) CN112989218B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166982A (zh) * 2014-06-30 2014-11-26 复旦大学 基于典型相关性分析的图像优化聚类方法
CN107273825A (zh) * 2017-05-25 2017-10-20 西安电子科技大学 基于改进典型相关分析的生理信号融合身份识别方法
CN108132968A (zh) * 2017-12-01 2018-06-08 西安交通大学 网络文本与图像中关联语义基元的弱监督学习方法
CN111340103A (zh) * 2020-02-24 2020-06-26 安徽大学 一种基于图嵌入典型相关分析的特征层融合方法及其装置
CN111611963A (zh) * 2020-05-29 2020-09-01 扬州大学 一种基于近邻保持典型相关分析的人脸识别方法
CN111783837A (zh) * 2020-06-05 2020-10-16 西安电子科技大学 一种基于多核学习的特征融合方法
CN112100410A (zh) * 2020-08-13 2020-12-18 中国科学院计算技术研究所 一种基于语义条件关联学习的跨模态检索方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933525A (en) * 1996-04-10 1999-08-03 Bbn Corporation Language-independent and segmentation-free optical character recognition system and method
EP2088536B1 (en) * 2008-02-08 2021-08-11 Nokia Technologies Oy Text input system and method involving finger-based handwriting recognition and word prediction
WO2015135600A1 (en) * 2014-03-10 2015-09-17 Wyrwoll Claudia Method and computer product for automatically generating a sorted list from user generated input and / or metadata derived form social media platforms
US10049103B2 (en) * 2017-01-17 2018-08-14 Xerox Corporation Author personality trait recognition from short texts with a deep compositional learning approach
US11853903B2 (en) * 2017-09-28 2023-12-26 Siemens Aktiengesellschaft SGCNN: structural graph convolutional neural network
CN110321436B (zh) * 2019-07-04 2020-06-16 中国人民解放军国防科技大学 一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法
CN110532436B (zh) * 2019-07-17 2021-12-03 中国人民解放军战略支援部队信息工程大学 基于社区结构的跨社交网络用户身份识别方法
US11138382B2 (en) * 2019-07-30 2021-10-05 Intuit Inc. Neural network system for text classification
CN111368197B (zh) * 2020-03-04 2022-05-27 哈尔滨理工大学 一种基于深度学习的评论推荐系统及方法
CN112084335B (zh) * 2020-09-09 2022-04-12 电子科技大学 一种基于信息融合的社交媒体用户账号分类方法
CN112100356A (zh) * 2020-09-17 2020-12-18 武汉纺织大学 一种基于相似性的知识库问答实体链接方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166982A (zh) * 2014-06-30 2014-11-26 复旦大学 基于典型相关性分析的图像优化聚类方法
CN107273825A (zh) * 2017-05-25 2017-10-20 西安电子科技大学 基于改进典型相关分析的生理信号融合身份识别方法
CN108132968A (zh) * 2017-12-01 2018-06-08 西安交通大学 网络文本与图像中关联语义基元的弱监督学习方法
CN111340103A (zh) * 2020-02-24 2020-06-26 安徽大学 一种基于图嵌入典型相关分析的特征层融合方法及其装置
CN111611963A (zh) * 2020-05-29 2020-09-01 扬州大学 一种基于近邻保持典型相关分析的人脸识别方法
CN111783837A (zh) * 2020-06-05 2020-10-16 西安电子科技大学 一种基于多核学习的特征融合方法
CN112100410A (zh) * 2020-08-13 2020-12-18 中国科学院计算技术研究所 一种基于语义条件关联学习的跨模态检索方法及系统

Also Published As

Publication number Publication date
CN112989218A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN108492200B (zh) 一种基于卷积神经网络的用户属性推断方法和装置
CN108874997A (zh) 一种面向电影评论的人名命名实体识别方法
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN109960763B (zh) 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
CN110532379B (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
CN104778256B (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN113553429B (zh) 一种规范化标签体系构建及文本自动标注方法
CN111680488B (zh) 基于知识图谱多视角信息的跨语言实体对齐方法
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN109871504B (zh) 一种基于异构信息网络与深度学习的课程推荐系统
CN110580281A (zh) 一种基于语义相似度的相似案件匹配方法
CN109446414A (zh) 一种基于神经网络分类的软件信息站点快速标签推荐方法
CN109145083A (zh) 一种基于深度学习的候选答案选取方法
CN114881161A (zh) 面向多社交网络平台的机器人检测方法
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN113590810A (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN112163607A (zh) 基于多维度和多层次联合建模的网络社会媒体情感分类方法
Ansari et al. Language Identification of Hindi-English tweets using code-mixed BERT
Liu et al. Identifying experts in community question answering website based on graph convolutional neural network
CN106097113B (zh) 一种社交网络用户动静兴趣挖掘方法
CN117235108A (zh) 一种基于图神经网络的nl2sql生成方法
CN104615685A (zh) 一种面向网络话题的热度评价方法
CN112989218B (zh) 基于多级属性嵌入和约束典型相关分析的身份链接方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant