CN112989218B - 基于多级属性嵌入和约束典型相关分析的身份链接方法 - Google Patents
基于多级属性嵌入和约束典型相关分析的身份链接方法 Download PDFInfo
- Publication number
- CN112989218B CN112989218B CN202110269377.7A CN202110269377A CN112989218B CN 112989218 B CN112989218 B CN 112989218B CN 202110269377 A CN202110269377 A CN 202110269377A CN 112989218 B CN112989218 B CN 112989218B
- Authority
- CN
- China
- Prior art keywords
- user
- network
- users
- matrix
- embedding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000010219 correlation analysis Methods 0.000 title claims abstract description 28
- 239000013598 vector Substances 0.000 claims abstract description 71
- 239000011159 matrix material Substances 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 8
- 230000002776 aggregation Effects 0.000 claims abstract description 4
- 238000004220 aggregation Methods 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 244000046052 Phaseolus vulgaris Species 0.000 description 11
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 11
- 238000013507 mapping Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 240000006677 Vicia faba Species 0.000 description 1
- 235000010749 Vicia faba Nutrition 0.000 description 1
- 235000002098 Vicia faba var. major Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Human Resources & Organizations (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于多级属性嵌入和约束典型相关分析的身份链接方法,该方法先将社交网络用户数据进行数据预处理,并构建无向无权图,再嵌入多级文本属性形成相应的用户特征矩阵;再进行网络结构嵌入和用户特征聚合,然后再基于约束典型相关分析的线性投影将两个社交网络投影到同一个潜在向量空间中,从而使得匹配用户在空间中的距离最近;最终通过比较任意用户与另一网络中所有用户在同一潜在向量空间中的距离,进而确定该用户的匹配用户;本发明适用于用户属性缺失或网络结构稀疏的情况;且大大减少了运行所需的先验信息量,解决了先验信息匮乏情况下的实际问题,节约了数据采集和方法训练的成本。
Description
技术领域
本发明涉及用户身份链接的技术领域,具体涉及基于多级属性嵌入和约束典型相关分析的身份链接方法。
背景技术
用户身份链接(User Identity Linkage),又可以称为“用户对齐(UserAlignment)”、“用户识别(User Identification)”等,旨在识别不同社交网络上的同一自然人,在商业推荐、舆论监督、网络安全等领域中越来越重要;大量社交网络应用,包括朋友推荐、信息扩散、链路预测、网络动态分析等表明了用户身份链接的必要性和益处。
早期的跨社交网络用户身份链接研究主要通过利用公开的用户属性信息来获取用户特征,包括用户基本资料(如用户名、性别、位置)、用户生成的内容(如微博、帖子、文章)和用户行为(如地理位置轨迹、用词习惯);基于用户属性的解决方案主要通过启发式的字符串模式或文本相似性比较函数来实现,这些方法有以下两个显著缺点:
(1)难以统一应对多种类型的属性文本。例如,用户名通常有很大比例的自定义词汇(如流浪的蛤蟆ヽ( ̄▽ ̄)、§春哥的哥§、Tommy996等);职业通常是由一些常规词组成的短语(如XX大学教授、XX助理);用户发布的博客则可以包含多个段落或较长的一段文本,其中蕴含了高级语义特征(如帖子主题、用户的观点等);传统的启发式属性建模方法只能涵盖某部分属性类型,而不能涵盖所有类型,缺乏处理多种属性文本的通用方法。
(2)难以捕捉不同用户属性之间的隐含联系;例如,出现在某用户职业属性中的“老师”和“教授”两个词语,如果仅从字符串模式或者相似性上进行比较,则两者之间很难产生联系。然而,“老师”和“教授”在语义上是高度相关的,大部分情况下“教授”往往同时是一名“老师”;传统的启发式方法不适用于这种情况。
发明内容
本发明的目的在于:针对目前用户身份链接存在难以统一应对多种类型的属性文本和难以捕捉不同用户属性之间的隐含联系的问题,提供了基于多级属性嵌入和约束典型相关分析的身份链接方法,解决了上述问题。
本发明的技术方案如下:
基于多级属性嵌入和约束典型相关分析的身份链接方法,所述方法包括以下步骤:
(a)将社交网络用户数据进行数据预处理,并构建无向无权图G=(V,E,A);其中V表示网络中的用户集合,E表示用户之间的关系的集合,A表示用户属性集合;
(b)嵌入多级文本属性;将每个用户属性集合分为三个部分A=(Ac,Aw,At),其中Ac表示字符级属性,Aw表示词级属性,At表示主题级属性;然后分别采用三种无监督表示学习方法生成三个相应的用户特征矩阵Pc、Pw和Pt;
(c)网络结构嵌入和用户特征聚合;网络结构嵌入的目标是将社交网络中的用户映射到一个潜在向量空间,使得具有相似拓扑结构特性的用户之间距离最小。
(d)基于约束典型相关分析的线性投影将两个社交网络投影到同一个潜在向量空间Z中,从而使得匹配用户在空间中的距离最近;
(e)识别匹配用户对;对于来自网络GX中的任意一个用户Vi,通过比较用户Vi与另一网络GY中所有用户在同一潜在向量空间Z中的距离,进而确定用户Vi的匹配用户:距离越小,说明两个用户更可能是同一个自然人。
进一步地,所述步骤(b)中生成用户特征矩阵Pc包括以下步骤:
进一步地,所述步骤(b)中生成用户特征矩阵Pw包括以下步骤:
进一步地,所述步骤(b)中生成用户特征矩阵Pt包括以下步骤:
(b6)采用LDA主题模型构建主题级属性文本的特征表示,并通过吉布斯采样进行参数估计;从而得到用户vi的主题概率向量主题概率向量即代表了该用户主题级属性的特征向量;由此网络中所有用户的主题级属性At转换为矩阵
进一步地,所述步骤(c)的详细步骤为:
(c3)在最终的用户特征矩阵上进行0-1标准化操作,将每一行的平均值转化为0,标准差转化为1。
与现有的技术相比本发明的有益效果是:
1、本发明公开了一种通过多级用户属性文本嵌入方法来处理多种类型的用户属性文本,并结合用户属性特征和网络结构特征来进行社交网络用户建模;该方法适用于用户属性缺失或网络结构稀疏的情况,具有很强的鲁棒性,并且在不依赖任何标记数据的情况下,捕获多种类型用户属性文本特征及高层语义特征。
2、本发明在多级属性嵌入的基础上,还公开了一种基于约束典型相关分析的线性投影方法,将不同社交网络中用户的特征矩阵投影到同一个潜在向量空间中,使得不同网络中的相同用户在潜在向量空间中的距离最小,并通过向量距离的比较来识别不同网络中的同一用户;基于多层属性嵌入和约束典型相关分析的用户身份链接方法是一种半监督的方法,与传统监督方法相比,大大减少了运行所需的先验信息量,能用于解决先验信息匮乏情况下的实际问题,节约了数据采集成本与方法训练成本。
附图说明
图1为基于多级属性嵌入和约束典型相关分析的身份链接方法的流程图。
具体实施方式
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面结合实施例对本发明的特征和性能作进一步的详细描述。
实施例一
请参阅图1,基于多级属性嵌入和约束典型相关分析的身份链接方法,包括以下步骤:
(a)将社交网络用户数据进行预处理;将社交网络的用户表示为节点,用户之间关系(如好友、关注/粉丝等)表示为边,构建无向无权图G=(V,E,A),其中V表示网络中的用户集合,E表示用户之间关系(如朋友关系、关注/粉丝关系等)的集合,A表示用户属性集合,例如用户姓名、职业和教育经历等。
(b)嵌入多级文本属性;首先将每个网络的文本属性分为三个部分A=(Ac,Aw,At),其中Ac表示字符级属性,Aw表示词级属性,At表示主题级属性;然后分别采用三种无监督表示学习方法生成三个相应的用户特征矩阵Pc,Pw和Pt;具体包括以下六个子步骤:
(b1)用户属性文本中包含大量自定义词汇的属性(如用户名、昵称等)被划分为字符级属性,任意用户vi的字符级属性可以看作是由一个符号序列w=w1,w2,…,wk,…,wm来构成的,其中wk表示的组成元素,包括字母、字、数字、标点符号、表情符号、特殊符号或者q-gram(即q个符号组成的子串)等,m表示所有元素的总计数量;采用词袋模型将转换为向量形式其中k∈{1,2,…,m},对应中符号wk出现的次数;由此,网络中所有用户的字符级属性被转化为一个矩阵
(b2)再采用一个自编码器对矩阵进行降维;该自编码器首先用一个映射函数将输入向量表示为一个隐含向量表示其中和分别表示权重矩阵和偏置向量;然后再用另一个映射函数将重构为使得和之间距离最小,其中和分别表示权重矩阵和偏置向量;自编码器的参数通过以下目标函数进行优化;
(b3)用户属性文本中主要由常规词汇组成的属性(如性别、地点、职业、教育背景等)被划分为词级属性,任意用户vi的词级属性可以看作是由一个词语序列wi=wi1,wi2,…,wik,…,wim来构成的,其中wik表示对应词汇表中的第k个词语,m表示词汇表的长度;网络中所有用户的词级属性可以看作一个语料库,每个用户vi的词级属性对应着语料库中的一个文档;采用自然语言处理中的词嵌入技术CBOW来训练词向量,从而得到词语wik的向量表达形式
(b5)因为在实践中,用户数据往往存在缺失或无法识别的现象;对此,根据网络同质性原理,再将单个用户的词级属性和其邻居通过(式3)进行平滑;
(b6)用户属性文本中由大篇幅的段落或篇章组成的属性(如微博、博客、文章等)被划分为主题级属性,任意用户vi的主题级属性可以看作是一个文档wi,网络中所有用户的主题级属性则构成一个语料库;然后采用LDA主题模型来构建主题级属性文本的特征表示,并通过吉布斯采样(Gibbs Sampling)进行参数估计;任意文档wi对应的主题分布进行参数估计;最后通过计算(式4)可得到每个文档wi的主题概率向量
其中DT表示文档对应主题的计数矩阵,表示文档wi中所有单词的分配给主题j的总次数,dt表示主题数量,α为主题模型的超参数,代表主题分布的特性;从而可以得到用户vi的主题概率向量该向量即代表了该用户主题级属性的特征向量;由此,网络中所有用户的主题级属性At被转换为一个矩阵
(c)网络结构嵌入和用户特征聚合;网络结构嵌入的目标是将社交网络中的用户映射到一个潜在向量空间,使得具有相似拓扑结构特性的用户之间距离最小,具体包括以下三个步骤:
对任意待匹配的两个社交网络GX/GY,其特征矩阵表示为:
其中d=dc+dw+dt+ds表示特征的维度。
(c3)在最终的用户特征矩阵上进行0-1标准化操作,即将每一行的平均值转化为0,标准差转化为1。
(d)通过上述步骤,已将待匹配的任意两个社交网络映射到了两个不同的向量空间中,接下来再将两个社交网络投影到同一个潜在向量空间中,从而使得匹配用户在空间中的距离最近。
假设两个网络之间的映射是线性的,并采用典型相关分析方法来进行投影;典型相关分析(Canonical Correlation Analysis,CCA)方法通常用于研究两个变量之间的相关性,其目标在于为两个变量找到一对投影函数,从而使它们之间的相关性最大化;经典的典型相关分析方法假设特征维数小于观测样本数,当观测样本数较少时,算法则无法收敛。因此,本发明通过引入约束项使之适用于社交网络用户身份链接问题。
由于任意一组典型变量hi和mj都与系数无关,(式6)的优化目标等价于:
通过对协方差矩阵添加约束项rX>0及rY>0可以确保以上优化目标在观察样本数量较小时能够收敛,即:
其中I为单位矩阵;由此,投影矩阵H和M可以通过广义特征值分解进行求解,即:
由此,两个网络在潜在向量空间Z中分别表示为:ZX=HTX和ZY=MTY。
(e)识别匹配用户对;对于来自网络GX中的任意一个用户vi,通过比较它与另一网络GY中所有用户的在同一潜在向量空间Z中的距离,进而确定它的匹配用户,距离越小,说明两个用户更可能是同一个自然人;向量距离通过(式11)进行计算:
实施例二
下面将结合具体的实例来对本发明进行进一步说明,本实例为从互联网上采集的两个真实社交网络,新浪微博和豆瓣网,其具体信息如表1所示。
表1微博-豆瓣网络数据统计表
步骤(a):社交网络用户数据进行预处理。;
将待匹配的微博和豆瓣两个社交网络中的用户看作网络GX/GY=(V,E,A)中的节点V,并用不同的数字来区分不同的用户,如微博网络中用户对应数字0到9713,豆瓣网络用户则对应数字9714到19239。
将用户之间关系关注/粉丝关系看作网络中的边E,即如果两个用户之间有关注或粉丝关系,则他们之间构建一条边(ui,uj)∈E。
将两个网络中用户各自的网名(即昵称)作为该用户的字符级属性文本Ac,将两个网络中用户的地址作为该用户的词级属性文本Aw,将微博网络用户发表的最近10条微博以及豆瓣网络用户最近发表的10条帖子分别进行合并,作为该用户的主题级属性文本。
步骤(b)嵌入多级文本属性;将待匹配的微博和豆瓣两个社交网络中用户各自的字符级、词级、主题级属性文本分别采用三种无监督表示学习方法生成三个相应的用户特征矩阵Pc,Pw和Pt;具体步骤如下:
字符级属性文本Ac由一系列字符串构成,将每个字符串分割为由单一字符构成的列表,每个字符可能表示一个字母、字、数字、标点符号、表情符号、特殊符号或者q-gram(即q个符号组成的子串)等;对于中文字符,用其对应的拼音符号进行替换;文本中所有字符构成一个字符表,如V={1,2,…,a,b,..,!,@,#},其长度为m;由此,每个字符串可以表示为一个长度为m的向量:其中对应中符号wk出现的次数;待匹配的两个网络中各自用户的字符级属性进而被转化为一个矩阵
举例来说,对于字符串“流浪的蛤蟆”,其对应字符序列表示为:[l,i,u,l,a,n,g,d,e,h,a,m,a],其中各个字符出现的次数为{a:3,d:1,e:1,g:1,h:1,i:1,l:2,m:1,n:1,u:1,其他:0},因此其对应的向量表示为:[3,0,0,1,1,0,1,1,1,0,0,2,1,1,0,0,0,0,0,0,1,…]。
(b2)采用自编码器对矩阵进行降维;该自编码器首先用一个映射函数将输入向量表示为一个隐含向量表示其中和分别表示权重矩阵和偏置向量;然后用另一个映射函数将重构为使得和之间距离最小,其中和分别表示权重矩阵和偏置向量;将Ac的向量表示Xc作为自编码器的训练数据,进而得到字符级属性Ac的特征矩阵其中W和b为自编码器的参数;微博网络和豆瓣网络各自用户的字符级属性特征矩阵分别表示为和
(b3)嵌入词级属性;词级属性文本Aw由一系列字符串构成,通过分词技术将每个字符串分割为由单一词语构成的列表,文本中所有词语构成一个词汇表,如V={你,我,…,中国,美国today,Monday,...},其长度为m;由此,任意用户vi的词级属性可以看作是由一个词语序列wi=wi1,wi2,…,wik,…,wim来构成的,其中wik表示对应词汇表中的第k个词语;两个待匹配的网络中所有用户的词级属性可以看作一个语料库,每个用户vi的词级属性对应着语料库中的一个文档;采用自然语言处理中的词嵌入技术CBOW来训练词向量,进而通过(式2)得到词语wik的向量表达形式
举例来说,对于某用户的词级属性字符串“四川成都”,其对应词语列表为:[四川,成都],每个词语通过词嵌入都对应一个维度相同的实数向量,如{四川:0.11,0.22,0.3,0.7,…},{成都:0.31,0.25,0.33,0.17,…}。
如字符串“四川成都”对应的向量表示为:[0.42,0.47,0.63,0.87,…]。
(b5)再根据网络同质性原理,将单个用户的词级属性和他的邻居进行平滑。
例如上文中某用户的邻居的词级属性文本为“四川绵阳”,且词语“绵阳”对应的词向量为{绵阳:0.32,0.24,0.31,0.11,…},邻居权重λ取0.5,则用户的词级属性向量表示为:[0.425,0.465,0.62,0.84,…]。
(b6)嵌入主题级属性;主题级属性文本At由一系列长文本组成,每个首先需要通过分词技术转换为由单一词语构成的列表,这个词语列表即看作是一个文档wi,网络中所有用户的主题级属性则构成一个语料库;接下来,采用LDA主题模型来计算每个用户主题级属性文本的主题分布,并通过吉布斯采样进行参数估计,最后通过计算(式4)可得到每个文档wi的主题概率向量由此,网络中所有用户的主题级属性At被转换为一个矩阵微博网络和豆瓣网络各自用户的字符级属性特征矩阵分别表示为和
微博网络和豆瓣网络各自用户的特征矩阵分别表示为X和Y;接下来,在用户特征矩阵上进行0-1标准化操作,即将每一行的平均值转化为0,标准差转化为1。
(d)基于约束典型相关分析的线性投影;通过上述步骤,已将待匹配的两个社交网络(微博网络和豆瓣网络)映射到了两个不同的向量空间中,接下来将两个网络投影到同一个潜在向量空间中,从而使得匹配用户在空间中的距离最近。
在微博-豆瓣网络数据中,已知部分用户的真实身份,即两个网络中有少量预先匹配的用户对(即观察到的样本数据);首先将这部分用户对应的特征向量从矩阵X和Y中提取出来,形成新的特征矩阵Xtrain和Ytrain;再采用约束典型相关分析方法构建优化目标:ρ=maxcorr(HTXtrain,MTYtrain)。
(e)识别匹配用户;对于来自微博网络GX中的任意一个用户vi,通过比较它与豆瓣网络GY中所有用户的在同一潜在向量空间Z中的距离,可以确定它的匹配用户:距离越小,说明两个用户更可能是同一个自然人。
本实例采用Top-k精确度(Precision@top-k)指标来评估所提出方法的性能。
命中精确度即真实样例在预测结果中排前k(k≥1)名的加权平均分数,命中精确度对排名靠前的样例赋予了较高的权重,其计算公式为:
其中hit(x)表示真实样例在前k个候选样例评分列表中的位置,当真实样例不在top-k列表中时,返回k+1。
在实验中,将用户特征维度设置为dc=dw=dt=ds=100,投影矩阵H/M的维度设置为k=25,约束项rX=rY=105,训练样本数量设置为200个,测试样本数量设置为500个。
为说明本发明的优越性,选取了三个网络对齐的经典算法IONE、REGAL、ABNE来进行对比,每个方法进行10次随机重复实验,并取平均值作为最后结果,实验结果如表2所示。
表2在微博-豆瓣网络数据上的实验结果
实验结果表明本发明相比经典算法具有显著优越性。
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。
Claims (6)
1.基于多级属性嵌入和约束典型相关分析的身份链接方法,其特征在于,所述方法包括以下步骤:
(a)将社交网络用户数据进行数据预处理,并构建无向无权图G=(V,E,A);其中V表示网络中的用户集合,E表示用户之间的关系的集合,A表示用户属性集合;
(b)嵌入多级文本属性;将每个用户属性集合分为三个部分A=(Ac,Aw,At),其中Ac表示字符级属性,Aw表示词级属性,At表示主题级属性;然后分别采用三种无监督表示学习方法生成三个相应的用户特征矩阵Pc、Pw和Pt;
(c)网络结构嵌入和用户特征聚合;网络结构嵌入的目标是将社交网络中的用户映射到一个潜在向量空间,使得具有相似拓扑结构特性的用户之间距离最小;
(d)基于约束典型相关分析的线性投影将两个社交网络投影到同一个潜在向量空间Z中,从而使得匹配用户在空间中的距离最近,所述约束典型相关分析是通过引入约束项使典型相关分析适用于社交网络用户身份链接问题的算法;
由于任意一组典型变量hi和mj都与系数无关,(式6)的优化目标等价于:
通过对协方差矩阵添加约束项rX>0及rY>0可以确保以上优化目标在观察样本数量较小时能够收敛,即:
其中I为单位矩阵;由此,投影矩阵H和M可以通过广义特征值分解进行求解,即:
由此,两个网络在潜在向量空间Z中分别表示为:ZX=HTX和ZY=MTY;
(e)识别匹配用户对;对于来自网络GX中的任意一个用户Vi,通过比较用户Vi与另一网络GY中所有用户在同一潜在向量空间Z中的距离,进而确定用户Vi的匹配用户,距离越小,说明两个用户更可能是同一个自然人。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110269377.7A CN112989218B (zh) | 2021-03-12 | 2021-03-12 | 基于多级属性嵌入和约束典型相关分析的身份链接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110269377.7A CN112989218B (zh) | 2021-03-12 | 2021-03-12 | 基于多级属性嵌入和约束典型相关分析的身份链接方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112989218A CN112989218A (zh) | 2021-06-18 |
CN112989218B true CN112989218B (zh) | 2022-06-28 |
Family
ID=76335078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110269377.7A Active CN112989218B (zh) | 2021-03-12 | 2021-03-12 | 基于多级属性嵌入和约束典型相关分析的身份链接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989218B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104166982A (zh) * | 2014-06-30 | 2014-11-26 | 复旦大学 | 基于典型相关性分析的图像优化聚类方法 |
CN107273825A (zh) * | 2017-05-25 | 2017-10-20 | 西安电子科技大学 | 基于改进典型相关分析的生理信号融合身份识别方法 |
CN108132968A (zh) * | 2017-12-01 | 2018-06-08 | 西安交通大学 | 网络文本与图像中关联语义基元的弱监督学习方法 |
CN111340103A (zh) * | 2020-02-24 | 2020-06-26 | 安徽大学 | 一种基于图嵌入典型相关分析的特征层融合方法及其装置 |
CN111611963A (zh) * | 2020-05-29 | 2020-09-01 | 扬州大学 | 一种基于近邻保持典型相关分析的人脸识别方法 |
CN111783837A (zh) * | 2020-06-05 | 2020-10-16 | 西安电子科技大学 | 一种基于多核学习的特征融合方法 |
CN112100410A (zh) * | 2020-08-13 | 2020-12-18 | 中国科学院计算技术研究所 | 一种基于语义条件关联学习的跨模态检索方法及系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5933525A (en) * | 1996-04-10 | 1999-08-03 | Bbn Corporation | Language-independent and segmentation-free optical character recognition system and method |
EP2088536B1 (en) * | 2008-02-08 | 2021-08-11 | Nokia Technologies Oy | Text input system and method involving finger-based handwriting recognition and word prediction |
WO2015135600A1 (en) * | 2014-03-10 | 2015-09-17 | Wyrwoll Claudia | Method and computer product for automatically generating a sorted list from user generated input and / or metadata derived form social media platforms |
US10049103B2 (en) * | 2017-01-17 | 2018-08-14 | Xerox Corporation | Author personality trait recognition from short texts with a deep compositional learning approach |
US11853903B2 (en) * | 2017-09-28 | 2023-12-26 | Siemens Aktiengesellschaft | SGCNN: structural graph convolutional neural network |
CN110321436B (zh) * | 2019-07-04 | 2020-06-16 | 中国人民解放军国防科技大学 | 一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法 |
CN110532436B (zh) * | 2019-07-17 | 2021-12-03 | 中国人民解放军战略支援部队信息工程大学 | 基于社区结构的跨社交网络用户身份识别方法 |
US11138382B2 (en) * | 2019-07-30 | 2021-10-05 | Intuit Inc. | Neural network system for text classification |
CN111368197B (zh) * | 2020-03-04 | 2022-05-27 | 哈尔滨理工大学 | 一种基于深度学习的评论推荐系统及方法 |
CN112084335B (zh) * | 2020-09-09 | 2022-04-12 | 电子科技大学 | 一种基于信息融合的社交媒体用户账号分类方法 |
CN112100356A (zh) * | 2020-09-17 | 2020-12-18 | 武汉纺织大学 | 一种基于相似性的知识库问答实体链接方法及系统 |
-
2021
- 2021-03-12 CN CN202110269377.7A patent/CN112989218B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104166982A (zh) * | 2014-06-30 | 2014-11-26 | 复旦大学 | 基于典型相关性分析的图像优化聚类方法 |
CN107273825A (zh) * | 2017-05-25 | 2017-10-20 | 西安电子科技大学 | 基于改进典型相关分析的生理信号融合身份识别方法 |
CN108132968A (zh) * | 2017-12-01 | 2018-06-08 | 西安交通大学 | 网络文本与图像中关联语义基元的弱监督学习方法 |
CN111340103A (zh) * | 2020-02-24 | 2020-06-26 | 安徽大学 | 一种基于图嵌入典型相关分析的特征层融合方法及其装置 |
CN111611963A (zh) * | 2020-05-29 | 2020-09-01 | 扬州大学 | 一种基于近邻保持典型相关分析的人脸识别方法 |
CN111783837A (zh) * | 2020-06-05 | 2020-10-16 | 西安电子科技大学 | 一种基于多核学习的特征融合方法 |
CN112100410A (zh) * | 2020-08-13 | 2020-12-18 | 中国科学院计算技术研究所 | 一种基于语义条件关联学习的跨模态检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112989218A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108492200B (zh) | 一种基于卷积神经网络的用户属性推断方法和装置 | |
CN108874997A (zh) | 一种面向电影评论的人名命名实体识别方法 | |
CN105183833B (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN109960763B (zh) | 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 | |
CN110532379B (zh) | 一种基于lstm的用户评论情感分析的电子资讯推荐方法 | |
CN104778256B (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN113553429B (zh) | 一种规范化标签体系构建及文本自动标注方法 | |
CN111680488B (zh) | 基于知识图谱多视角信息的跨语言实体对齐方法 | |
CN111143672B (zh) | 基于知识图谱的专业特长学者推荐方法 | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
CN107239512B (zh) | 一种结合评论关系网络图的微博垃圾评论识别方法 | |
CN109871504B (zh) | 一种基于异构信息网络与深度学习的课程推荐系统 | |
CN110580281A (zh) | 一种基于语义相似度的相似案件匹配方法 | |
CN109446414A (zh) | 一种基于神经网络分类的软件信息站点快速标签推荐方法 | |
CN109145083A (zh) | 一种基于深度学习的候选答案选取方法 | |
CN114881161A (zh) | 面向多社交网络平台的机器人检测方法 | |
CN111090994A (zh) | 一种面向中文网络论坛文本的事件地点归属省份识别方法 | |
CN113590810A (zh) | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 | |
CN112163607A (zh) | 基于多维度和多层次联合建模的网络社会媒体情感分类方法 | |
Ansari et al. | Language Identification of Hindi-English tweets using code-mixed BERT | |
Liu et al. | Identifying experts in community question answering website based on graph convolutional neural network | |
CN106097113B (zh) | 一种社交网络用户动静兴趣挖掘方法 | |
CN117235108A (zh) | 一种基于图神经网络的nl2sql生成方法 | |
CN104615685A (zh) | 一种面向网络话题的热度评价方法 | |
CN112989218B (zh) | 基于多级属性嵌入和约束典型相关分析的身份链接方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |