CN109635201A - 异质社交网络跨平台关联用户账户挖掘方法 - Google Patents

异质社交网络跨平台关联用户账户挖掘方法 Download PDF

Info

Publication number
CN109635201A
CN109635201A CN201811552993.8A CN201811552993A CN109635201A CN 109635201 A CN109635201 A CN 109635201A CN 201811552993 A CN201811552993 A CN 201811552993A CN 109635201 A CN109635201 A CN 109635201A
Authority
CN
China
Prior art keywords
social networks
user account
heterogeneous
user
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811552993.8A
Other languages
English (en)
Other versions
CN109635201B (zh
Inventor
周经亚
樊建席
王进
李领治
贾俊铖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201811552993.8A priority Critical patent/CN109635201B/zh
Publication of CN109635201A publication Critical patent/CN109635201A/zh
Application granted granted Critical
Publication of CN109635201B publication Critical patent/CN109635201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种异质社交网络跨平台关联用户账户挖掘方法。本发明一种异质社交网络跨平台关联用户账户挖掘方法,包括:针对不同社交网络特点,建立各自社交网络结构,任一社交网络OSNi的结构用图G(i)=(V(i),R(i))表示,其中V(i)表示顶点集合,由社交网络OSNi内多种不同类型的顶点集合构成,R(i)表示顶点间的关系集合。本发明的异质社交网络跨平台关联用户挖掘方法包括四个步骤:社交网络结构构建、用户交互元路径提取、单个社交网络迁移嵌入和跨社交网络迁移嵌入与关联用户账户挖掘。本发明所带来的有益效果包括实现跨平台的统一嵌入,避免了现有技术无法实现高效跨网络平台嵌入问题。

Description

异质社交网络跨平台关联用户账户挖掘方法
技术领域
本发明涉及社交网络领域,具体涉及一种异质社交网络跨平台关联用户账户挖掘方法。
背景技术
诸如Twitter、新浪微博和微信等在线社交网络(Online Social Networks,简称OSNs),正在不断融入我们的日常生活,吸引着全球几十亿用户的参与,人们通过社交网络结交朋友、发表观点和分享信息。近年来,出现了许多功能各异、类型不同的社交网络平台,用户可以根据自己的喜好选择加入一个或多个。例如,加入twitter后用户可以发布推文(tweets)来更新状态和想法,Foursquare鼓励用户记录和分享位置签到信息,Instagram则给用户带来随时随地分享图片的最佳体验。
多种社交网络的出现,可以满足人们在社会生活中多样化的需求,给用户带来了多样化的社交服务体验,调查显示69%的社交网络用户拥有超过3个以上社交平台的账户。同一用户在多个社交平台拥有的账户称之为关联用户账户,由于关联用户账户的存在,社交网络从整体上呈现多样化和融合化并存的局面,而其中关联用户账户正是作为融合的桥梁,对社交网络及其应用的发展和研究起到关键的作用。然而,各社交平台具有相对独立性,同一用户在多个社交平台注册账户时一般不会显示声明其他平台账户,这使得跨平台的关联用户账户挖掘极具挑战。
现有社交网络平台总体上可分为同质和异质两种类别。所谓同质社交网络,是指这些网络拥有着相似的功能和结构,数据多源同构且共享语义空间。例如,Facebook上的博文和Twitter上的推文可以在两个网络上转发,其内容的语义空间一致。而异质社交网络无论从功能和结构还是用户参与方式和数据内容来看都各不相同,数据多源异构、语义空间难以共享,彼此之间较少存在显示关联,例如,Twitter、Foursquare、Instagram即互为异质社交网络。鉴于异质社交网络上述特征,异质社交网络跨平台关联用户账户挖掘变得尤为困难。
对于多平台的关联用户账户挖掘问题,通常以每两个平台为一个单位,可将其分解为若干两两平台间的关联用户账户挖掘问题,其中一个作为源网络,另一个作为目标网络,针对源网络中的任一用户,查找其在目标网络中是否有关联账户存在,若存在,则在两个账户间标注一条锚链接。因此,跨平台关联用户账户挖掘问题又被归结为锚链接发现问题。现有挖掘方法以用户账户的属性特征为依据进行匹配,属性特征的提取通常采用嵌入的方法获得。如图1所示,分别将两个社交网络中的用户账户嵌入到一个低维向量空间,嵌入后每个账户可由一个低维向量表示,该向量能够反映用户账户在其所在社交网络中的某些方面属性。假设已知一部分用户在两个网络上的关联账户,以这些已知关联账户作为训练集来训练映射函数,再以训练好的映射函数为工具对两个社交网络上的账户进行匹配,进而挖掘出存在锚链接的潜在关联用户账户。
传统技术存在以下技术问题:
首先,目前挖掘方法适用的场景仅限于同质社交网络平台之间,因为同质社交网络语义空间相近,易于嵌入到统一向量空间,而对于异质社交网络,由于在功能、网络结构、用户参与方式和数据内容等方面存在较大差异,很难将两个孤立网络的用户账户嵌入到统一的向量空间进行表示;
其次,用户账户信息在不同社交网络平台中通常是稀疏和不完整的,表现为高度的非结构化数据,例如,用户在一个社交网络平台上的某些属性在另一个平台上很可能缺乏与之对应的属性描述,这使得单纯依靠具体属性信息的嵌入难以在挖掘中发挥作用;
再次,现有挖掘方法广泛采用监督或半监督学习的方式,其效果在很大程度上依赖于由已知关联用户账户构成的训练集,然而,已知关联用户账户并不容易得到,目前通过人工方式可以较准确地识别出关联账户,但面对数十亿记的庞大社交用户群体,显然这种方式无法提供足够大的训练样本集。
发明内容
针对现有方法存在的适用范围窄、数据稀疏不完整以及对训练集要求高的问题,本发明提供一种不仅适用于同质社交网络还适用于异质社交网络跨平台的关联用户挖掘方法。首先,从异质社交网络分别提取用户交互元路径;然后,基于迁移学习定义三元组对两个用户及其交互元路径进行嵌入,一方面可以避免不同语义空间的差异问题,达到统一向量空间嵌入,另一方面利用元路径可以避免数据稀疏不完整对嵌入的影响;最后,采用迭代式挖掘,可以有效解决小规模训练集挖掘效果差的问题。
为了解决上述技术问题,本发明提供了一种异质社交网络跨平台关联用户账户挖掘方法,包括:
针对不同社交网络特点,建立各自社交网络结构,任一社交网络OSNi的结构用图G(i)=(V(i),R(i))表示,其中V(i)表示顶点集合,由社交网络OSNi内多种不同类型的顶点集合构成,R(i)表示顶点间的关系集合;
根据上述步骤得到各异质社交网络的网络结构,分别提取各异质社交网络的用户交互元路径,任一社交网络OSNi的交互元路径集合用P(i)={pab}表示,其中pab表示任意一对交互用户间的元路径;
根据上述步骤得到的各异质社交网络的交互元路径集合,分别对各自网络中的用户及交互元路径进行迁移嵌入,将单个社交网络中用户账户及交互元路径嵌入到统一向量空间;
根据上述步骤的结果,利用已知关联用户训练集进行监督学习,在异质社交网络间进行迁移嵌入,将异质社交网络用户账户和锚链接嵌入统一向量空间,基于嵌入结果进行关联用户账户挖掘,在挖掘出的关联用户账户间建立锚链接,并采用迭代式策略挖掘更多潜在关联用户账户。
在其中一个实施例中,“针对不同社交网络特点,建立各自社交网络结构,任一社交网络OSNi的结构用图G(i)=(V(i),R(i))表示,其中V(i)表示顶点集合,由社交网络OSNi内多种不同类型的顶点集合构成,R(i)表示顶点间的关系集合;”具体包括:
对任一社交网络OSNi,根据该网络平台所属类别,抽象出其网络结构中顶点的类型;所述网络顶点类型包括用户、博文、时间戳、文字、位置、图片、语音和视频,将这些类型的顶点集合并在一起构成顶点集合V(i);
其次,根据OSNi的功能和用户参与方式,抽象出该网络平台顶点间的关系类型;已知社交网络的关系类型主要包括关注/关注-1、发布/发布-1、包含/包含-1、发布于/发布于-1、附带/附带-1、签到/签到-1、签到于/签到于-1、转发/转发-1和评论/评论-1,其中关系r-1与r互为逆向关系,将这些类型的关系集合并在一起构成关系集合R(i)
在其中一个实施例中,“根据上述步骤得到各异质社交网络的网络结构,分别提取各异质社交网络的用户交互元路径,任一社交网络OSNi的交互元路径集合用P(i)={pab}表示,其中pab表示任意一对交互用户间的元路径;”中,
交互元路径是指在发生交互行为的一对用户之间,用一条包含网络结构中的顶点和关系边的路径来表示该对用户间的交互;对于社交网络OSNi中任意一对有交互的用户ua和ub,根据该网络存在的交互方式,可从上述步骤获得的网络结构中提取出对应的交互元路径。
在其中一个实施例中,“根据上述步骤得到的各异质社交网络的交互元路径集合,分别对各自网络中的用户及交互元路径进行迁移嵌入,将单个社交网络中用户账户及交互元路径嵌入到统一向量空间;”中迁移嵌入针对单个社交网络,具体为:
用户账户与元路径分属不同语义空间,利用迁移嵌入进行统一;定义三元组(ua,pab,ub),其中ua和ub是一对交互用户账户,pab是他们之间的交互元路径;根据迁移模型,该三元组表示在低维向量空间存在交互元路径向量pab,使得账户ua向量能够近似转化为账户ub向量,即ua+pab≈ub
利用单个社交网络内用户及其交互信息构造三元组,交互元路径向量pab可由路径上关系边向量r组合得到;
在嵌入过程中,用E(ua,pab,ub)表示嵌入后利用pab实现从ua到ub转变的能量函数(Energy function),该函数定义为:E(ua,pab,ub)=||ua+p-ub||,则从ua到ub转变的能量函数可表示为:
其中R(pab|ua,ub)表示用户ua和ub间存在路径pab的置信水平(reliability),Pab是ua和ub间所有元路径的集合,Г为归一化因子,即利用单个社交网络内用户账户信息以及交互信息,对迁移模型进行训练,获得嵌入向量,引入边际得分函数(margin-based score function):
其中P(i)表示任一社交网络OSNi的交互元路径集合,L(ua,r,ub)和L(pab,r)分别表示(ua,r,ub)和(pab,r)的边际损失函数,具体定义如下:
P-={(u′a,r,ub)|u′a∈V}∪{(ua,r,u′b)|u′b∈V}∪{(ua,r′,ub)|r′∈R},(ua,r,ub)∈P
P-为P的负样本集合,该集合通过任意替换三元组中一个元素得到。
在其中一个实施例中,“根据上述步骤的结果,利用已知关联用户训练集进行半监督学习,在异质社交网络间进行迁移嵌入,将异质社交网络用户账户和锚链接嵌入统一向量空间,基于嵌入结果进行关联用户账户挖掘,在挖掘出的关联用户账户间建立锚链接,并采用迭代式策略挖掘更多潜在关联用户账户。”中迁移嵌入与关联用户账户挖掘在两个异质社交网络间展开,具体方法为:
根据迁移模型,若存在锚链接边r(ij)使得ua (i)能近似转变为ux (j),即ua (i)+r(ij)≈ux (j),锚链接对应的迁移为线性关系,定义一个转化矩阵M(ij),使得M(ij)ua (i)≈ux (j)成立,由此定义跨异质网络嵌入的能量函数为:E(ua (i),ux (j))=||M(ij)ua (i)-ux (j)||.(4)
相应的得分函数定义为所有锚链接迁移的能量函数之和,即
其中A表示由已知关联用户构成的锚链接集合,λ为权值;
其次,利用已知锚链接集合A为训练集,以SP/L为目标函数进行半监督学习,获得转化矩阵;社交网络OSNi内当前每个非关联用户账户ua (i),求解arg min E(ua (i),ub (j))得到在网络OSNj中最近似的账户ux (j),通过引入超参数θ作为阈值判断账户是否关联,若超过阈值则判定ua (i)和ux (j)是一对关联账户,在账户间建立锚链接;
再次,将上述挖掘过程迭代执行,每执行一轮将该轮新挖掘的关联用户账户间锚链接添加到已知锚链接集合A,从而为下一轮挖掘提供更大训练集,该迭代过程一直执行直到没有新关联用户被发现为止。
在其中一个实施例中,具体的迭代方法如下:
将每一轮新关联的账户锚链接(ua (i),ux (j))放入集合A,定义锚链接的综合置信度为R(ua (i),ux (j))=φ(α(θ-E(ua (i),ux (j)))),(6)
其中φ(·)是一个Sigmoid函数,α为超参数。集合A中所有锚链接的综合置信度计算如下:
其中Φ(ua (i),ux (j))表示添加锚链接(ua (i),ux (j))的损失函数,而L’(ua,r,ub)则表示三元组(ua,r,ub)的损失函数,具体定义为
每一轮结束后计算综合置信度,若置信度显著下降(比如超过预设的阈值δ),则说明本轮产生较多错误关联,退回至上一轮结束处,更新集合A,重新执行,直到置信度不再显著下降才继续迭代执行挖掘。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
本发明的异质社交网络跨平台关联用户挖掘方法包括四个步骤:社交网络结构构建、用户交互元路径提取、单个社交网络迁移嵌入和跨社交网络迁移嵌入与关联用户账户挖掘。相比现有技术,本发明针对目前普遍存在的各种异质社交网络平台,考虑其在功能结构、用户参与方式和数据内容等方面存在的差异,利用迁移嵌入思想,将用户账户与用户间交互的元路径一同嵌入到统一的低维向量空间,并结合已知关联用户账户构成的锚链接集合,实现跨平台的统一嵌入,避免了现有技术无法实现高效跨网络平台嵌入问题,从而为异质网络平台间关联用户账户识别提供有力支持,同时,本发明所提出的迭代式挖掘方法,能够以较小的已知关联用户账户集合,挖掘大量潜在的关联用户账户,适用于真实的大规模社交网络应用场景。
附图说明
图1现有跨平台关联用户账户挖掘方法示意图。
图2异质社交网络主要用户交互元路径集合。
图3异质社交网络迁移嵌入与关联用户账户挖掘方法示意图。
图4异质社交网络跨平台关联用户账户挖掘方法流程图。
图5不同方法在准确率方面的实验比较结果图。
图6不同方法在召回率方面的实验比较结果图。
图7不同方法在平均排名方面的实验比较结果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
下面结合附图,以任意两个异质社交网络平台OSNi和OSNj为例对本发明的技术方案进行详细的说明。
本发明的异质社交网络跨平台关联用户挖掘方法,用于发现跨社交网络平台的关联用户账户,是多社交网络融合的前提和基础,为跨社交网络平台的应用场景如舆情监控、热点事件跟踪和产品营销推广等提供有力支持,方法执行流程如图4所示,包括步骤:
步骤1、针对不同社交网络特点,建立各自社交网络结构,任一社交网络OSNi的结构用图G(i)=(V(i),R(i))表示,其中V(i)表示顶点集合,由社交网络OSNi内多种不同类型的顶点集合构成,R(i)表示顶点间的关系集合;
步骤2、根据步骤1中得到各异质社交网络的网络结构,分别提取各异质社交网络的用户交互元路径,任一社交网络OSNi的交互元路径集合用P(i)={pab}表示,其中pab表示任意一对交互用户间的元路径;
步骤3、根据步骤2中得到的各异质社交网络的交互元路径集合,分别对各自网络中的用户及交互元路径进行迁移嵌入,将单个社交网络中用户账户及交互元路径嵌入到统一向量空间;
步骤4、根据步骤3的结果,利用已知关联用户训练集进行监督学习,在异质社交网络间进行迁移嵌入,将异质社交网络用户账户和锚链接嵌入统一向量空间,基于嵌入结果进行关联用户账户挖掘,在挖掘出的关联用户账户间建立锚链接,并采用迭代式策略挖掘更多潜在关联用户账户。
进一步的,所述步骤1中社交结构的构建方法为:
首先,对任一社交网络OSNi,根据该网络平台所属类别,抽象出其网络结构中顶点的类型。在目前已知社交网络中,若该网络为博客类,其用户会发布博文、博文包含文字并有发布时间戳,发布的博文也可附带位置和图片,用户间可以相互关注,关注用户可以评论和转发博文;若该网络为位置相关类,其用户会分享签到位置信息;若该网络为图片、语音和视频分享类,其用户则会发布图片、语音和视频等多媒体信息。由此可知,目前网络顶点类型主要包括用户、博文、时间戳、文字、位置、图片、语音和视频,将这些类型的顶点集合并在一起构成顶点集合V(i)
其次,根据OSNi的功能和用户参与方式,抽象出该网络平台顶点间的关系类型。目前已知社交网络的关系类型主要包括关注/关注-1、发布/发布-1、包含/包含-1、发布于/发布于-1、附带/附带-1、签到/签到-1、签到于/签到于-1、转发/转发-1和评论/评论-1,其中关系r-1与r互为逆向关系,例如,用户u关注用户v,可看成用户v被用户u关注(即v关注-1u),将这些类型的关系集合并在一起构成关系集合R(i)
进一步的,所述步骤2中用户交互元路径提取方法为:
交互元路径是指在发生交互行为的一对用户之间,用一条包含网络结构中的顶点和关系边的路径来表示该对用户间的交互。对于社交网络OSNi中任意一对有交互的用户ua和ub,根据该网络存在的交互方式,可从步骤1获得的网络结构中提取出对应的交互元路径,例如用户ua被用户ub关注,则对应一条交互元路径pab,即用户ua-关注-1→用户ub。目前社交网络的主要用户交互元路径集合,如图2所示。
进一步的,所述步骤3中迁移嵌入针对单个社交网络,其方法为:
首先,用户账户与元路径分属不同语义空间,利用迁移嵌入进行统一。定义三元组(ua,pab,ub),其中ua和ub是一对交互用户账户,pab是他们之间的交互元路径。根据迁移模型,该三元组表示在低维向量空间存在交互元路径向量pab,使得账户ua向量能够近似转化为账户ub向量,即ua+pab≈ub
其次,利用单个社交网络内用户及其交互信息构造三元组,交互元路径向量pab可由路径上关系边向量r组合得到,具体组合计算方式有多种,例如向量求和pab=r1+r2+…+rh,向量乘法pab=r1·r2·…·rh,其中h为路径上关系边的数目。
再次,在嵌入过程中,用E(ua,pab,ub)表示嵌入后利用pab实现从ua到ub转变的能量函数(Energy function),该函数定义为:E(ua,pab,ub)=||ua+p-ub||,则从ua到ub转变的能量函数可表示为:
其中R(pab|ua,ub)表示用户ua和ub间存在路径pab的置信水平(reliability),Pab是ua和ub间所有元路径的集合,Г为归一化因子,即利用单个社交网络内用户账户信息以及交互信息,对迁移模型进行训练,获得嵌入向量,为了衡量嵌入效果,此处引入边际得分函数(margin-based score function):
其中P(i)表示任一社交网络OSNi的交互元路径集合,L(ua,r,ub)和L(pab,r)分别表示(ua,r,ub)和(pab,r)的边际损失函数,具体定义如下:
P-={(u′a,r,ub)|u′a∈V}∪{(ua,r,u′b)|u′b∈V}∪{(ua,r′,ub)|r′∈R},(ua,r,ub)∈P
P-为P的负样本集合,该集合通过任意替换三元组中一个元素得到。
通过对SP的优化获得用户账户和交互元路径的向量表示,从而达到单个社交网络在向量空间的统一。
进一步的,所述步骤4中迁移嵌入与关联用户账户挖掘在两个异质社交网络间展开,其方法为:
以任意两个异质社交网络OSNi和OSNj为例,其迁移嵌入与锚链接挖掘过程如图3所示。
首先,根据迁移模型,若存在锚链接边r(ij)使得ua (i)能近似转变为ux (j),即ua (i)+r(ij)≈ux (j),锚链接对应的迁移为线性关系,定义一个转化矩阵M(ij),使得M(ij)ua (i)≈ux (j)成立,由此定义跨异质网络嵌入的能量函数为:E(ua (i),ux (j))=||M(ij)ua (i)-ux (j)||.(4)
相应的得分函数定义为所有锚链接迁移的能量函数之和,即
其中A表示由已知关联用户构成的锚链接集合,λ为权值。
其次,利用已知锚链接集合A为训练集,以SP/L为目标函数进行半监督学习,获得转化矩阵。对社交网络OSNi内当前每个非关联用户账户ua (i),求解arg min E(ua (i),ub (j))得到在网络OSNj中最近似的账户ux (j),通过引入超参数θ作为阈值判断账户是否关联,若超过阈值则判定ua (i)和ux (j)是一对关联账户,在账户间建立锚链接。
再次,将上述挖掘过程迭代执行,每执行一轮将该轮新挖掘的关联用户账户间锚链接添加到已知锚链接集合A,从而为下一轮挖掘提供更大训练集,该迭代过程一直执行直到没有新关联用户被发现为止。为防止迭代过程中产生错误扩散,即上一轮的关联结果有误,通过迭代方式学习了错误的特征,从而导致更多的错误关联。本发明提出基于置信度的迭代方法,具体方法如下:
将每一轮新关联的账户锚链接(ua (i),ux (j))放入集合A,定义锚链接的综合置信度为R(ua (i),ux (j))=φ(α(θ-E(ua (i),ux (j)))),(6)
其中φ(·)是一个Sigmoid函数,α为超参数。集合A中所有锚链接的综合置信度计算如下:
其中Φ(ua (i),ux (j))表示添加锚链接(ua (i),ux (j))的损失函数,而L’(ua,r,ub)则表示三元组(ua,r,ub)的损失函数,具体定义为
每一轮结束后计算综合置信度,若置信度显著下降(比如超过预设的阈值δ),则说明本轮产生较多错误关联,退回至上一轮结束处,更新集合A,重新执行,直到置信度不再显著下降才继续迭代执行挖掘。
为了验证本方法的有效性,通过仿真实验提供一具体实施例。实验做如下设置:
异质社交网络数据集由网络爬虫程序分别对Twitter和Foursquare抓取获得,Twitter数据集包含5223个用户和164920条关系边,Foursquare数据集包含5392个用户和76972条关系边,通过人工标注获得两个网络间3388个关联用户账户的锚链接,由此可见,在Twitter和Foursquare两个社交网络平台上同时拥有账户的用户比例均比较高(分别占Twitter数据集的64.8%,Foursquare数据集的62.8%)。将已知3388个锚链接分为训练集和测试集两部分,训练集所占份额默认设为0.8,其他超参数设置为:α=1,θ=3,δ=10。输入输出网络嵌入方法IONE(Input Output Network Embedding)是目前用于关联用户账户挖掘的一类嵌入式方法的代表,它采用网络嵌入的方法(Network embedding)将用户间的关注与被关注关系用输入输出上下文向量来表示,并以此来进行关联用户账户挖掘。在实验中对IONE方法进行了实现,并将其与本发明所提方法进行比较,比较主要针对三方面性能指标:第一,准确率precision@n,所有挖掘出的锚链接账户中真正锚链接账户所占比例,此处n表示返回规模,即对每个用户都会返回top-n个锚链接账户;第二,召回率recall@n,挖掘出的真正锚链接账户占所有锚链接账户的比例;第三,平均排名rank,挖掘出的真正锚链接账户在返回的top-n个账户中的排名的平均。
与本发明方法比较的实验结果如图5至图7所示。图5对比了两种方法在不同返回规模n下获得的准确率,随着更多的候选锚链接账户被返回,这其中包含的真正锚链接账户也随之增加,因此,准确率也随之增长,但增长趋势随着n变大逐渐放缓。实验中本发明所提出的方法最高可获得76.5%的准确率,比IONE方法平均高出1.53倍。图6对比了两种方法在不同返回规模下的召回率,随着更多的候选锚链接账户被返回,挖掘出的真正锚链接账户也逐渐增加,从而使得召回率随之增长。实验中本发明所提出的方法最高可获得90.3%的召回率,比IONE方法平均高出1.48倍。图7对比了两种方法的平均排名,实验中本发明所提出的方法返回的真正锚链接账户排名较IONE更靠前。实验结果表明,本发明所提方法通过迁移学习异质社交网络平台账户与锚链接特征,嵌入统一低维向量空间,能够获得更好的挖掘效果。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (9)

1.一种异质社交网络跨平台关联用户账户挖掘方法,其特征在于,包括:
针对不同社交网络特点,建立各自社交网络结构,任一社交网络OSNi的结构用图G(i)=(V(i),R(i))表示,其中V(i)表示顶点集合,由社交网络OSNi内多种不同类型的顶点集合构成,R(i)表示顶点间的关系集合;
根据上述步骤得到各异质社交网络的网络结构,分别提取各异质社交网络的用户交互元路径,任一社交网络OSNi的交互元路径集合用P(i)={pab}表示,其中pab表示任意一对交互用户间的元路径;
根据上述步骤得到的各异质社交网络的交互元路径集合,分别对各自网络中的用户及交互元路径进行迁移嵌入,将单个社交网络中用户账户及交互元路径嵌入到统一向量空间;
根据上述步骤的结果,利用已知关联用户训练集进行半监督学习,在异质社交网络间进行迁移嵌入,将异质社交网络用户账户和锚链接嵌入统一向量空间,基于嵌入结果进行关联用户账户挖掘,在挖掘出的关联用户账户间建立锚链接,并采用迭代式策略挖掘更多潜在关联用户账户。
2.如权利要求1所述的异质社交网络跨平台关联用户账户挖掘方法,其特征在于,“针对不同社交网络特点,建立各自社交网络结构,任一社交网络OSNi的结构用图G(i)=(V(i),R(i))表示,其中V(i)表示顶点集合,由社交网络OSNi内多种不同类型的顶点集合构成,R(i)表示顶点间的关系集合;”具体包括:
对任一社交网络OSNi,根据该网络平台所属类别,抽象出其网络结构中顶点的类型;所述网络顶点类型包括用户、博文、时间戳、文字、位置、图片、语音和视频,将这些类型的顶点集合并在一起构成顶点集合V(i);
其次,根据OSNi的功能和用户参与方式,抽象出该网络平台顶点间的关系类型;已知社交网络的关系类型主要包括关注/关注-1、发布/发布-1、包含/包含-1、发布于/发布于-1、附带/附带-1、签到/签到-1、签到于/签到于-1、转发/转发-1和评论/评论-1,其中关系r-1与r互为逆向关系,将这些类型的关系集合并在一起构成关系集合R(i)
3.如权利要求1所述的异质社交网络跨平台关联用户账户挖掘方法,其特征在于,“根据上述步骤得到各异质社交网络的网络结构,分别提取各异质社交网络的用户交互元路径,任一社交网络OSNi的交互元路径集合用P(i)={pab}表示,其中pab表示任意一对交互用户间的元路径;”中,
交互元路径是指在发生交互行为的一对用户之间,用一条包含网络结构中的顶点和关系边的路径来表示该对用户间的交互;对于社交网络OSNi中任意一对有交互的用户ua和ub,根据该网络存在的交互方式,可从上述步骤获得的网络结构中提取出对应的交互元路径。
4.如权利要求1所述的异质社交网络跨平台关联用户账户挖掘方法,其特征在于,“根据上述步骤得到的各异质社交网络的交互元路径集合,分别对各自网络中的用户及交互元路径进行迁移嵌入,将单个社交网络中用户账户及交互元路径嵌入到统一向量空间;”中迁移嵌入针对单个社交网络,具体为:
用户账户与元路径分属不同语义空间,利用迁移嵌入进行统一;定义三元组(ua,pab,ub),其中ua和ub是一对交互用户账户,pab是他们之间的交互元路径;根据迁移模型,该三元组表示在低维向量空间存在交互元路径向量pab,使得账户ua向量能够近似转化为账户ub向量,即ua+pab≈ub
利用单个社交网络内用户及其交互信息构造三元组,交互元路径向量pab可由路径上关系边向量r组合得到;
在嵌入过程中,用E(ua,pab,ub)表示嵌入后利用pab实现从ua到ub转变的能量函数(Energy function),该函数定义为:E(ua,pab,ub)=||ua+p-ub||,则从ua到ub转变的能量函数可表示为:
其中R(pab|ua,ub)表示用户ua和ub间存在路径pab的置信水平(reliability),Pab是ua和ub间所有元路径的集合,Г为归一化因子,即利用单个社交网络内用户账户信息以及交互信息,对迁移模型进行训练,获得嵌入向量,引入边际得分函数(margin-based score function):
其中P(i)表示任一社交网络OSNi的交互元路径集合,L(ua,r,ub)和L(pab,r)分别表示(ua,r,ub)和(pab,r)的边际损失函数,具体定义如下:
P-={(u′a,r,ub)|u′a∈V}∪{(ua,r,u′b)|u′b∈V}∪{(ua,r′,ub)|r′∈R},(ua,r,ub)∈P
P-为P的负样本集合,该集合通过任意替换三元组中一个元素得到。
5.如权利要求1所述的异质社交网络跨平台关联用户账户挖掘方法,其特征在于,“根据上述步骤的结果,利用已知关联用户训练集进行半监督学习,在异质社交网络间进行迁移嵌入,将异质社交网络用户账户和锚链接嵌入统一向量空间,基于嵌入结果进行关联用户账户挖掘,在挖掘出的关联用户账户间建立锚链接,并采用迭代式策略挖掘更多潜在关联用户账户。”中迁移嵌入与关联用户账户挖掘在两个异质社交网络间展开,具体方法为:
根据迁移模型,若存在锚链接边r(ij)使得ua (i)能近似转变为ux (j),即ua (i)+r(ij)≈ux (j),锚链接对应的迁移为线性关系,定义一个转化矩阵M(ij),使得M(ij)ua (i)≈ux (j)成立,由此定义跨异质网络嵌入的能量函数为:
E(ua (i),ux (j))=||M(ij)ua (i)-ux (j)||. (4)
相应的得分函数定义为所有锚链接迁移的能量函数之和,即
其中A表示由已知关联用户构成的锚链接集合,λ为权值;
其次,利用已知锚链接集合A为训练集,以SP/L为目标函数进行半监督学习,获得转化矩阵;社交网络OSNi内当前每个非关联用户账户ua (i),求解arg min E(ua (i),ub (j))得到在网络OSNj中最近似的账户ux (j),通过引入超参数θ作为阈值判断账户是否关联,若超过阈值则判定ua (i)和ux (j)是一对关联账户,在账户间建立锚链接;
再次,将上述挖掘过程迭代执行,每执行一轮将该轮新挖掘的关联用户账户间锚链接添加到已知锚链接集合A,从而为下一轮挖掘提供更大训练集,该迭代过程一直执行直到没有新关联用户被发现为止。
6.如权利要求5所述的异质社交网络跨平台关联用户账户挖掘方法,其特征在于,具体的迭代方法如下:
将每一轮新关联的账户锚链接(ua (i),ux (j))放入集合A,定义锚链接的综合置信度为
R(ua (i),ux (j))=φ(α(θ-E(ua (i),ux (j)))), (6)
其中φ(·)是一个Sigmoid函数,α为超参数。集合A中所有锚链接的综合置信度计算如下:
其中Φ(ua (i),ux (j))表示添加锚链接(ua (i),ux (j))的损失函数,而L’(ua,r,ub)则表示三元组(ua,r,ub)的损失函数,具体定义为
每一轮结束后计算综合置信度,若置信度显著下降(比如超过预设的阈值δ),则说明本轮产生较多错误关联,退回至上一轮结束处,更新集合A,重新执行,直到置信度不再显著下降才继续迭代执行挖掘。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到6任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到6任一项所述方法的步骤。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到6任一项所述的方法。
CN201811552993.8A 2018-12-18 2018-12-18 异质社交网络跨平台关联用户账户挖掘方法 Active CN109635201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811552993.8A CN109635201B (zh) 2018-12-18 2018-12-18 异质社交网络跨平台关联用户账户挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811552993.8A CN109635201B (zh) 2018-12-18 2018-12-18 异质社交网络跨平台关联用户账户挖掘方法

Publications (2)

Publication Number Publication Date
CN109635201A true CN109635201A (zh) 2019-04-16
CN109635201B CN109635201B (zh) 2020-07-31

Family

ID=66075048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811552993.8A Active CN109635201B (zh) 2018-12-18 2018-12-18 异质社交网络跨平台关联用户账户挖掘方法

Country Status (1)

Country Link
CN (1) CN109635201B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083766A (zh) * 2019-04-26 2019-08-02 北京邮电大学 一种基于元路径引导嵌入的查询推荐方法及装置
CN110097125A (zh) * 2019-05-07 2019-08-06 郑州轻工业学院 一种基于嵌入表示的跨网络账户关联方法
CN110210988A (zh) * 2019-05-31 2019-09-06 北京理工大学 一种基于深度哈希的符号社交网络嵌入方法
CN110457404A (zh) * 2019-08-19 2019-11-15 电子科技大学 基于复杂异质网络的社交媒体账户分类方法
CN110515986A (zh) * 2019-08-27 2019-11-29 腾讯科技(深圳)有限公司 一种社交网络图的处理方法、装置及存储介质
CN110599358A (zh) * 2019-07-10 2019-12-20 杭州师范大学钱江学院 一种基于概率因子图模型的跨社交网络用户身份关联方法
CN111475739A (zh) * 2020-05-22 2020-07-31 哈尔滨工程大学 一种基于元路径的异质社交网络用户锚链接识别方法
CN111475738A (zh) * 2020-05-22 2020-07-31 哈尔滨工程大学 一种基于元路径的异质社交网络位置锚链接识别方法
CN112036959A (zh) * 2020-09-11 2020-12-04 杭州米雅信息科技有限公司 数据处理方法、装置、设备及介质
CN112528450A (zh) * 2021-01-15 2021-03-19 博智安全科技股份有限公司 网络拓扑结构构建方法、终端设备和计算机可读存储介质
CN114461930A (zh) * 2022-04-13 2022-05-10 四川大学 社交网络数据采集方法、装置及储存介质
CN117494147A (zh) * 2023-12-29 2024-02-02 戎行技术有限公司 基于网络空间行为数据的多平台虚拟用户数据对齐方法
CN112036959B (zh) * 2020-09-11 2024-06-07 杭州米雅信息科技有限公司 数据处理方法、装置、设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105913125A (zh) * 2016-04-12 2016-08-31 北京邮电大学 异质信息网络元路径确定、链路预测方法及装置
CN106354862A (zh) * 2016-09-06 2017-01-25 山东大学 一种异构网络中多维个性化推荐方法
CN106372239A (zh) * 2016-09-14 2017-02-01 电子科技大学 一种基于异质网络的社交网络事件关联分析方法
WO2017215385A1 (zh) * 2016-06-16 2017-12-21 华为技术有限公司 一种路径确定方法、装置和系统
CN107688605A (zh) * 2017-07-26 2018-02-13 平安科技(深圳)有限公司 跨平台数据匹配方法、装置、计算机设备和存储介质
CN108304496A (zh) * 2018-01-11 2018-07-20 上海交通大学 异构信息网中基于组合元路径的节点相似关系检测方法
US20180293713A1 (en) * 2017-04-06 2018-10-11 Pixar Denoising monte carlo renderings using machine learning with importance sampling
CN108846422A (zh) * 2018-05-28 2018-11-20 中国人民公安大学 跨社交网络的账号关联方法及系统
CN109002488A (zh) * 2018-06-26 2018-12-14 北京邮电大学 一种基于元路径上下文的推荐模型训练方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105913125A (zh) * 2016-04-12 2016-08-31 北京邮电大学 异质信息网络元路径确定、链路预测方法及装置
WO2017215385A1 (zh) * 2016-06-16 2017-12-21 华为技术有限公司 一种路径确定方法、装置和系统
CN106354862A (zh) * 2016-09-06 2017-01-25 山东大学 一种异构网络中多维个性化推荐方法
CN106372239A (zh) * 2016-09-14 2017-02-01 电子科技大学 一种基于异质网络的社交网络事件关联分析方法
US20180293713A1 (en) * 2017-04-06 2018-10-11 Pixar Denoising monte carlo renderings using machine learning with importance sampling
CN107688605A (zh) * 2017-07-26 2018-02-13 平安科技(深圳)有限公司 跨平台数据匹配方法、装置、计算机设备和存储介质
CN108304496A (zh) * 2018-01-11 2018-07-20 上海交通大学 异构信息网中基于组合元路径的节点相似关系检测方法
CN108846422A (zh) * 2018-05-28 2018-11-20 中国人民公安大学 跨社交网络的账号关联方法及系统
CN109002488A (zh) * 2018-06-26 2018-12-14 北京邮电大学 一种基于元路径上下文的推荐模型训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JING LIU 等: "What’s in a Name? An Unsupervised Approach to Link", 《PROCEEDINGS OF THE SIXTH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING》 *
尹劼: "基于元路径的对齐异构社交网络中的链路预测", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083766A (zh) * 2019-04-26 2019-08-02 北京邮电大学 一种基于元路径引导嵌入的查询推荐方法及装置
CN110097125A (zh) * 2019-05-07 2019-08-06 郑州轻工业学院 一种基于嵌入表示的跨网络账户关联方法
CN110097125B (zh) * 2019-05-07 2022-10-14 郑州轻工业学院 一种基于嵌入表示的跨网络账户关联方法
CN110210988A (zh) * 2019-05-31 2019-09-06 北京理工大学 一种基于深度哈希的符号社交网络嵌入方法
CN110599358A (zh) * 2019-07-10 2019-12-20 杭州师范大学钱江学院 一种基于概率因子图模型的跨社交网络用户身份关联方法
CN110599358B (zh) * 2019-07-10 2021-05-04 杭州师范大学钱江学院 一种基于概率因子图模型的跨社交网络用户身份关联方法
CN110457404A (zh) * 2019-08-19 2019-11-15 电子科技大学 基于复杂异质网络的社交媒体账户分类方法
CN110457404B (zh) * 2019-08-19 2021-11-02 电子科技大学 基于复杂异质网络的社交媒体账户分类方法
CN110515986B (zh) * 2019-08-27 2023-01-06 腾讯科技(深圳)有限公司 一种社交网络图的处理方法、装置及存储介质
CN110515986A (zh) * 2019-08-27 2019-11-29 腾讯科技(深圳)有限公司 一种社交网络图的处理方法、装置及存储介质
CN111475739B (zh) * 2020-05-22 2022-07-29 哈尔滨工程大学 一种基于元路径的异质社交网络用户锚链接识别方法
CN111475738B (zh) * 2020-05-22 2022-05-17 哈尔滨工程大学 一种基于元路径的异质社交网络位置锚链接识别方法
CN111475738A (zh) * 2020-05-22 2020-07-31 哈尔滨工程大学 一种基于元路径的异质社交网络位置锚链接识别方法
CN111475739A (zh) * 2020-05-22 2020-07-31 哈尔滨工程大学 一种基于元路径的异质社交网络用户锚链接识别方法
CN112036959A (zh) * 2020-09-11 2020-12-04 杭州米雅信息科技有限公司 数据处理方法、装置、设备及介质
CN112036959B (zh) * 2020-09-11 2024-06-07 杭州米雅信息科技有限公司 数据处理方法、装置、设备及介质
CN112528450A (zh) * 2021-01-15 2021-03-19 博智安全科技股份有限公司 网络拓扑结构构建方法、终端设备和计算机可读存储介质
CN114461930A (zh) * 2022-04-13 2022-05-10 四川大学 社交网络数据采集方法、装置及储存介质
CN117494147A (zh) * 2023-12-29 2024-02-02 戎行技术有限公司 基于网络空间行为数据的多平台虚拟用户数据对齐方法
CN117494147B (zh) * 2023-12-29 2024-03-22 戎行技术有限公司 基于网络空间行为数据的多平台虚拟用户数据对齐方法

Also Published As

Publication number Publication date
CN109635201B (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN109635201A (zh) 异质社交网络跨平台关联用户账户挖掘方法
Durand et al. Categorizing institutional logics, institutionalizing categories: A review of two literatures
Ratten et al. Future research directions for cultural entrepreneurship and regional development
Falanga et al. Participatory budgets in Brazil and Portugal: comparing patterns of dissemination
Engel et al. Global clusters of innovation: the case of Israel and Silicon Valley
McEvily et al. Not all bridging ties are equal: Network imprinting and firm growth in the Nashville legal industry, 1933–1978
Lalkaka Business incubators in developing countries: characteristics and performance
WO2017211051A1 (zh) 目标对象的社交账号挖掘方法、服务器和存储介质
Cohendet et al. From business ecosystems to ecosystems of innovation: the case of the video game industry in Montréal
KatonánéKovács et al. Understanding the process of social innovation in rural regions: some Hungarian case studies.
Madichie et al. Entrepreneurship development in Africa: Insights from Nigeria’s and Zimbabwe’s telecoms
Cao et al. Adaptive governance, loose coupling, forward-looking strategies and responsible innovation
Glötzl et al. Pluralism in the Market of Science? A citation network analysis of economic research at universities in Vienna
Shakeel Commercialization of Renewable Energy Technologies: A study of Socio-economic, Technical and Regulatory factors in Finland and Pakistan
Weihe Public-private partnerships: Meaning and practice
Fuli et al. Rural Elite Flow and Protection of Intangible Cultural Heritage in the Social Transformation Period.
Judit et al. Understanding the process of social innovation in rural regions: some Hungarian case studies
Huang et al. Understanding the social integration process of rural–urban migrants in urban china: A bibliometrics review
Bhanver Pichai: The Future of Google
Bogers Orchestrating public-private R&D networks: government-affiliated intermediary organizations as a policy intervention
Chong et al. A proposed theoretical framework on strategies for Klang Valley Malaysian quantity surveying consultancy firms to achieve profitability
Webster et al. Introduction: situating Singapore’s success
Nguyen et al. Farmers as knowledge brokers: Analysing three cases from Vietnam's Mekong Delta
Joseph et al. Can the Mauritian miracle continue
ESCAP Bangladesh startup ecosystem assessment report

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant