CN114663245A - 一种跨社交网络身份匹配方法 - Google Patents

一种跨社交网络身份匹配方法 Download PDF

Info

Publication number
CN114663245A
CN114663245A CN202210257148.8A CN202210257148A CN114663245A CN 114663245 A CN114663245 A CN 114663245A CN 202210257148 A CN202210257148 A CN 202210257148A CN 114663245 A CN114663245 A CN 114663245A
Authority
CN
China
Prior art keywords
social
account
cross
social network
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210257148.8A
Other languages
English (en)
Inventor
马廷淮
黄锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210257148.8A priority Critical patent/CN114663245A/zh
Publication of CN114663245A publication Critical patent/CN114663245A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种跨社交网络身份匹配方法,包括采集不同社交网络的账户数据,进行数据清洗;基于双向模型搭建跨社交网络身份匹配框架;将数据清洗后的账户数据通过跨社交网络身份匹配框架划分为训练集和测试集;加载训练集对跨社交网络身份匹配框架中的参数进行训练得到网络模型;采用测试集对网络模型进行测试,得到最优网络模型,将待匹配账户数据通过最优网络模型进行身份匹配,提高精准匹配效率。

Description

一种跨社交网络身份匹配方法
技术领域
本发明涉及一种跨社交网络身份匹配方法,属于社交网络分析技术领域。
背景技术
目前,社交网络广泛使用以及社交账号实名制度的不完全覆盖给不法分子提供了可乘之机。为了确定某个已经构成犯罪的用户在现实中的真实身份,跨社交网络身份匹配技术发展为匹配不同社交网络之间属于同一个真实用户的不同账号来挖掘该用户更多信息,从而确定犯罪者身份的有效方法。
现有的与之相关的技术可以分为两类:身份匹配的框架及身份关联算法。申请号为CN202010376438.5,专利名称为“一种身份匹配方法和装置”的中国专利,公开了获取与目标人物相关的多个联系方式的社交网络数据,并进行训练,获取每个联系方式的向量来进行身份匹配。但该方法只是提出了一种抽象的框架,并没有为具体的账户特征信息进行处理。由于账户的特征信息类型繁杂,需要针对每一种不同的数据提出模型进行处理。申请号为CN202110607064.8,专利名称为“融合多模态信息及权重张量的用户身份关联方法”以及申请号为CN202110148895.3专利名称为“融合用户特征和嵌入学习的跨社交网络用户身份关联方法”,都采用了多个用户特征对不同社交网络中的账户进行身份关联,但是,使用的特征越多,存在匹配速度变慢的问题。
现有技术的匹配过程中,庞大的用户数量和复杂的网络结构增加了匹配消耗的时间并且提高精准匹配的难度。因此亟需设计一种能够降低网络身份匹配消耗时间,且能够精准匹配的方法,为打击网络违法犯罪活动提供便利。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种跨社交网络身份匹配方法,快速进行网络身份匹配。
为达到上述目的,本发明所采用的技术方案是:
提供一种跨社交网络身份匹配方法,包括如下步骤:
采集不同社交网络的账户数据,进行数据清洗;
基于双向模型搭建跨社交网络身份匹配框架;
将数据清洗后的账户数据通过跨社交网络身份匹配框架划分为训练集和测试集;
加载训练集对跨社交网络身份匹配框架中的参数进行训练得到网络模型;
采用测试集对网络模型进行测试,得到最优网络模型;
将待匹配账户数据通过最优网络模型进行身份匹配。
进一步的,所述跨社交网络身份匹配框架包括:预处理模块,用户空间向量生成模块及社区分类模块;
所述预处理模块根据数据清洗后的账户数据构建社交网络拓扑图,得到账户节点;
所述用户空间向量生成模块生成账户节点中的社交结构信息及互动值向量;
所述社区分类模块采用社区中心感知策略,使用社交网络拓扑图及账户节点的空间向量,将账户节点进行分类。
进一步的,所述社交结构信息是社交网络拓扑图使用已知标签账户补充账户数据之间的结构向量;所述互动值向量是社交网络拓扑图根据账户数据之间的亲密程度赋予。
进一步的,所述用户空间向量生成模块处理过程如下:
使用随机游走策略对账户节点的社交结构信息进行采样;
使用Skip-gram处理采样后社交结构信息中的节点序列,生成嵌入向量;
使用过滤器处理嵌入向量,筛选出对账户节点影响最大的账户作为该账户节点的核心社交圈,根据互动值进行计算得到互动值向量。
进一步的,所述随机游走策略基于互动值权重进行采样,所述互动值权重采用单社交网络互动值局部调整和跨社交网络互动值全局调整;
所述单社交网络互动值局部调整,采用一种无差别的注意力机制重新计算每个账户之间的互动值权重;
所述跨社交网络互动值全局调整,同时使用标签账户对与非标签账户对优化每个账户之间的互动值权重,所述标签账户对为一对在两个不同社交网络的已知账户。
进一步的,所述社区分类模块中使用上下文信息与属性信息按照一定比例结合方式,测定一个账户在整个社交网络中的影响力。
进一步的,所述双向模型包括训练源社交网络中的账户节点匹配到目标社交网络中的账户节点的正向模型,以及匹配目标社交网络中的账户节点到源社交网络中的账户节点的逆向模型。
进一步的,若源社交网络中的账户节点和目标社交网络中的账户节点为同一社区,所述社区分类模块根据正向模型及反向模型,将账户节点进行双向匹配;反之,进行点对点匹配机制。
进一步的,采用Hits@N作为网络模型精准度的评测指标,采用测试集对网络模型进行测试,保留Hits@N指标最好的网络模型作为最优网络模型。
本发明还提供一种计算机设备,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行上述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明将基于社区的聚类方法作为优化匹配速度的要素使用到跨社交网络身份匹配任务中,通过同时使用账户节点的社交结构信息与账户节点之间的互动值信息来计算每个账户结点的影响力,进而筛选出符合条件的社区中心,并社区优先匹配机制,核心社交圈优先匹配机制和点对点匹配机制,优化匹配的速度和提高匹配精度。
该跨社交网络身份匹配方法,能够快速判断两个不同的社交网络中的账号是否属于同一个自然人的问题,进而在更短的时间内确认电信犯罪的违法分子的真实信息,解决使用朴素匹配方式匹配速度慢,精准率低的问题,提高了身份匹配的效率与准确率。
附图说明
图1是本发明实施例提供的一种跨社交网络身份匹配方法流程图;
图2是本发明实施例提供的一种跨社交网络身份匹配的框架结构图;
图3是跨社交网络身份匹配中基于权重的随机游走策略的框架结构图;
图4是跨社交网络身份匹配正向与逆向模型的框架结构图;
图5是本发明实施例提供的一种跨社交网络身份匹配应用场景图;
图6是本发明实施例提供的不同匹配结果范围个数精度对比折线图;
图7a是本发明实施例提供的hits@30不同训练率下的精度对比折线图;
图7b是本发明实施例提供的hits@1不同训练率下的精度对比折线图;
图8是本发明实施例提供的平均匹配次数对比树状图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,为一种基于社区结构的跨社交网络身份匹配方法流程图,包括以下步骤:
S1、采集不同的社交网络的账户数据并进行进行数据清洗;
S2、如图2所示,基于TensorFlow搭建一个基于双向模型的跨社交网络身份匹配框架;
S2.1对清洗后的账户数据构建社交网络拓扑图,并使用已知的标签账户节点对补充账户节点之间的社交结构得到完整的社交网络拓扑图,作为预处理模块;
S2.2使用了账户之间的社交结构信息和互动值信息生成每个账户的向量空间;
S2.2.1如图3所示,使用了基于权重的随机游走策略对账户结点的社交结构进行采样;
S2.2.2使用Skip-gram处理社交结构的节点序列,生成账户节点的嵌入向量;
S2.2.3单社交网络互动值局部调整,采用一种无差别的注意力机制来重新计算账户与账户之间的互动值权重;
S2.2.4跨社交网络互动值全局调整,同时使用标签账户对与非标签账户对来优化参数向量,使其能基于统一标准为不同的社交网络赋予权重;
S2.2.5基于核心社交圈的互动值嵌入向量生成,设置一个过滤器,筛选出对账户结点影响力最大,即处在其核心社交圈的好友,只有这些好友参与互动值嵌入向量生成。
具体实施时,搭建一个基于社区结构的跨社交网络身份框架,包含预处理模块,账户结点向量空间生成模块,基于社区中心感知策略的社区分类模块。
预处理模块采用了已知的标签账户对来补充网络结构信息,并生成完整的社交网络拓扑图。给定两个社交网络GX,GY(X,Y∈N),GX是源网络,GY是目标网络,假设
Figure BDA0003549120200000071
Figure BDA0003549120200000072
是好友关系,并且,
Figure BDA0003549120200000073
是一对标签好友对,
Figure BDA0003549120200000074
是一对标签好友对,但是,在目标网络GY中,
Figure BDA0003549120200000075
Figure BDA0003549120200000076
不具有好友关系,此时将
Figure BDA0003549120200000077
Figure BDA0003549120200000078
相连,扩展社交结构拓扑图。该模块需对每个已知的标签账户对完成此过程。
账户结点向量空间生成模块生成的向量空间包含两种向量,分别是,以该账户结点为原点,根据其周围的社交网络结构组成的结点序列所生成的嵌入向量
Figure BDA0003549120200000079
以及基于注意力机制使用账户结点
Figure BDA00035491202000000710
的核心社交圈
Figure BDA00035491202000000711
与该结点的权重
Figure BDA00035491202000000712
生成的互动值向量。
其中,对于账户结点的社交结构的采样使用带权重的随机游走策略。给定一个账户结点
Figure BDA00035491202000000713
对于其连接的边
Figure BDA00035491202000000714
具有p的概率选择这条边上的好友结点
Figure BDA00035491202000000715
也有(1-p)的概率选择其他结点,概率p的计算方法为:
Figure BDA00035491202000000716
重复上述选择过程,直到好友结点序列的长度达到设置的阈值。为了获得相对完整的信息,社交网络中的每个账户具有多条不同的好友结点序列。同时使用多个随机游走线程,并行的产生好友序列,来缩短采样时间。
基于带权重的随机游走策略获得的账户结点社交序列
Figure BDA0003549120200000081
Skip-gram可以最大化上下文结点的共同发生概率,以确定其中心结点。其最大化的对数函数的计算方法为:
Figure BDA0003549120200000082
其中,w是滑动窗口,代表选择围绕中心结点的参与训练样本结点数量。
Figure BDA0003549120200000083
是账户结点
Figure BDA0003549120200000084
第j跳邻居出现的概率。n是社交网络中GN的结点数量|UN|。
对于互动值向量,首先进行单社交网络互动值局部调整,采用一种无差别的注意力机制来重新计算
Figure BDA0003549120200000085
Figure BDA0003549120200000086
权重
Figure BDA0003549120200000087
即:
Figure BDA0003549120200000088
其中,
Figure BDA0003549120200000089
是注意力机制中的一个参数向量,用来调整哈姆达乘积
Figure BDA00035491202000000810
达到使这个乘积参数化的效果。
对于互动值向量,其次进行跨社交网络互动值全局调整。依次给其邻居
Figure BDA00035491202000000811
的账户结点向量
Figure BDA00035491202000000812
乘以互动值权重
Figure BDA00035491202000000813
来实现加权的操作。账户结点
Figure BDA00035491202000000814
的注意力向量
Figure BDA00035491202000000815
计算方法为:
Figure BDA00035491202000000816
然后使用方差损失函数来对参数向量
Figure BDA00035491202000000817
进行优化,其计算方法为:
Figure BDA0003549120200000091
其中,
Figure BDA0003549120200000092
是使用和计算
Figure BDA0003549120200000093
相同的方法得出的在社交网络GY中注意力向量。σ是sigmoid激活函数,目的是将
Figure BDA0003549120200000094
限制在(0,1)范围内。y∈{0,1}表示
Figure BDA0003549120200000095
Figure BDA0003549120200000096
是否是标签账户对。
对于基于核心社交圈的互动值嵌入向量生成,通过对互动值权重
Figure BDA0003549120200000097
设置一个过滤器,目的是筛选出对账户结点
Figure BDA0003549120200000098
影响力最大,即处在其核心社交圈的好友。其核心社交圈好友
Figure BDA0003549120200000099
的计算方法为:
Figure BDA00035491202000000910
其中,
Figure BDA00035491202000000911
表示好友互动值的过滤器,其阈值的计算方法为:
Figure BDA00035491202000000912
互动值向量的计算函数的计算方法为:
Figure BDA00035491202000000913
所述的基于社区中心感知策略的社区分类模块,使用了上下文信息与属性信息相结合的方式测定一个账户结点在整个社交网络中的影响力。属性信息选用了该账户结点的邻居数量,上下文信息选取了结点与结点之间的互动值权重进行求和运算。将这两种信息进行一定比例的组合,以实现计算某个结点在整个网络中的影响力,影响力的计算方法为:
Figure BDA0003549120200000101
其中,
Figure BDA0003549120200000102
的求和运算是账户结点
Figure BDA0003549120200000103
与其核心社交圈集合中的每一个账户结点
Figure BDA0003549120200000104
之间的互动值权重。
其匹配过程是,从源社交网络中取出待匹配的账户结点,然后通过模型挖掘出目标社交网络中与待匹配的账户节点最相似的账户节点。
S3、将社交账户数据分为训练集和测试集两部分,已知的标签账户作为正样本,并且根据标签用户将不属于同一个用户的账户进行组合,作为负样本。
S4、加载训练集对跨社交网络身份匹配框架中的参数进行训练得到网络模型;
训练时,同时训练正向映射函数Φ以及逆向映射函数Φ-1,即:
Figure BDA0003549120200000105
其中,
Figure BDA0003549120200000106
是已知的标签账户对,作为正样本放入模型训练,θ,b,θ-1,b-1分别为MLP和MLP-1的权重和偏置值。损失函数的定义包括了三个部分,分别是基于社交结构嵌入向量的损失函数lossu,互动值嵌入向量的损失函数lossf,以及S2中的损失函数lossatt,即:
Figure BDA0003549120200000107
同理,可获取逆向目标函数,即:
Figure BDA0003549120200000111
设置的实验参数如下:
核心社交圈中的好友数量λ设置为5,基于社交结构嵌入向量的损失函数lossu所占权重ω设置为0.2,并且数据集中90%的数据作为训练集,剩余10%的数据作为测试集。
S5、采用测试集对训练得到的模型进行测试,寻找最优模型;
如果通过模型在目标网络GY中挑选出了N个账户结点作为源网络GX中账户结点
Figure BDA0003549120200000112
匹配结果,这N个账户中,存在正确的匹配结果,即一个真实的用户拥有的两个不同社交平台的账号
Figure BDA0003549120200000113
Figure BDA0003549120200000114
Figure BDA0003549120200000115
存在于挑选出的N个账户结点中。N表示通过模型得出的匹配结果范围的个数,在得出正确匹配结果的情况下,对模型设置的N越小,代表模型匹配得越精准。正确的正例预测率Hits@N的计算方法为:
Figure BDA0003549120200000116
其中,LU是预测结果中正确匹配账户对集合,ULU是预测结果中未匹配账户对集合,|LU@N|N表示对集合LU@N作模运算。
S6、在不同的社交网络中获取待匹配的账户,基于点对点匹配、社区优先匹配机制和核心社交圈优先匹配机制,判断这些账户是否属于同一个自然人;
采用颗粒细度由粗到细的匹配策略,首先执行社区优先匹配机制,也即首先获取待匹配
Figure BDA0003549120200000121
所属的社区,然后在GY对应社区中的账户进行匹配。如果当前进行匹配的
Figure BDA0003549120200000122
不属于社区中心集合C中的任何一个社区,在这种情况下,直接执行核心社交圈优先匹配机制。在社区优先匹配机制如果没有成功匹配到目标账户,则进入核心社交圈优先匹配机制。该匹配机制是让
Figure BDA0003549120200000123
的核心社交圈
Figure BDA0003549120200000124
Figure BDA0003549120200000125
的核心社交圈
Figure BDA0003549120200000126
的账户进行优先匹配。执行完这两种匹配机制之后,使用最细粒度的匹配策略,点到点匹配策略,对非标签账户结点集合NLY中的账户进行尝试匹配。其匹配过程是,从源社交网络中取出待匹配的账户结点,然后通过模型挖掘出目标社交网络中与待匹配的账户节点最相似的账户节点。
如图4所示,匹配时,给定账户结点
Figure BDA0003549120200000127
Figure BDA0003549120200000128
需同时满足从源网络GX出发,
Figure BDA0003549120200000129
能匹配到目标网络的
Figure BDA00035491202000001210
以及从源网络GY出发,
Figure BDA00035491202000001211
能匹配到目标网络的
Figure BDA00035491202000001212
才能将
Figure BDA00035491202000001213
作为新的标签账户对,说明这是同一个用户的两个不同账号,即:
Figure BDA00035491202000001214
如图5所示,对各个不同的社交网络的数据进行采集,由针对于不同社交平台的爬虫实现。爬虫采集到的数据实时得上传到云端服务器和本地存储器中。系统利用云端服务器和本地计算机进行计算和存储。将获取到的信息进行关键信息提取,比如各个社交网络中,账户的资料,如用户名,邮箱;账户的社交结构信息;社区结构信息等。将获取到的信息训练神经网络模型。公安部门侦查到有网络犯罪时,将信息缺失的实施犯罪活动的账户与信息丰富的,如在强制进行实名制的网络中的账户进行匹配,最终定位到犯罪嫌疑人的真实信息,根据这些信息进行打击犯罪活动。
与当前较为先进的跨社交网络身份匹配模型IONE,ABNE,INE在不同的N,相同的训练率的对比试验结果如图6所示,为不同匹配结果范围个数N下精度的对比,在相同的N,不同的训练率下,对比试验结果如图7a、7b所示。
本发明不仅使用用户的上下文信息和用户结点和其核心社交圈用户间的互动值,而且还使用社区结构进行进一步优化,而相比于ABNE,IONE和INE,过滤掉的用户结点是这些方法无法识别的具有相似上下文信息,但是社区结构特征不同的用户结点。从图中可以看出,本发明提供的匹配方法精度相比于其他模型均有较大的提升。
如图8所示,每个精度范围N以IMCS的匹配次数作为单倍基准,将统计得到其他方法的匹配次数除以IMCS的匹配次数即为纵坐标“倍数”的值。从图中可以看出本发明的匹配次数与ABNE,IONE与INE相比明显减少,说明本发明使用社交平台中用户的社区结构来优化匹配次数是行之有效的。
本发明提供的一种跨社交网络身份匹配方法,基于社区结构的跨社交网络身份匹配算法,使用了社区和核心社交圈进行了多层优先匹配机制,大大减少匹配的次数,在提高匹配精度的同时降低匹配的时间。
本发明将基于社区的聚类方法作为优化匹配速度的要素使用到跨社交网络身份匹配任务中,该方法主要通过同时使用账户节点的社交结构信息信息与账户节点之间的互动值信息来计算每个账户结点的影响力,进而筛选出符合条件的社区中心,并使用社区中心实现了基于从粗粒度匹配到细粒度匹配的机制,即社区优先匹配机制,核心社交圈优先匹配机制和点对点匹配机制,优化匹配的速度和提高匹配精度。
本发明提供的一种跨社交网络身份匹配方法,能够快速判断两个不同的社交网络中的账号是否属于同一个自然人的问题,进而在更短的时间内确认电信犯罪的违法分子的真实信息,解决了使用朴素匹配方式匹配速度慢,精准率低的问题,提高了身份匹配的效率与准确率,为打击网络违法犯罪活动带来巨大的便利。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种跨社交网络身份匹配方法,其特征在于,包括如下步骤:
采集不同社交网络的账户数据,进行数据清洗;
基于双向模型搭建跨社交网络身份匹配框架;
将数据清洗后的账户数据通过跨社交网络身份匹配框架划分为训练集和测试集;
加载训练集对跨社交网络身份匹配框架中的参数进行训练得到网络模型;
采用测试集对网络模型进行测试,得到最优网络模型;
将待匹配账户数据通过最优网络模型进行身份匹配。
2.根据权利要求1所述的一种跨社交网络身份匹配方法,其特征在于,所述跨社交网络身份匹配框架包括:预处理模块,用户空间向量生成模块及社区分类模块;
所述预处理模块根据数据清洗后的账户数据构建社交网络拓扑图,得到账户节点;
所述用户空间向量生成模块生成账户节点中的社交结构信息及互动值向量;
所述社区分类模块采用社区中心感知策略,使用社交网络拓扑图及账户节点的空间向量,将账户节点进行分类。
3.根据权利要求2所述的一种跨社交网络身份匹配方法,其特征在于:所述社交结构信息是社交网络拓扑图使用已知标签账户补充账户数据之间的结构向量;所述互动值向量是社交网络拓扑图根据账户数据之间的亲密程度赋予。
4.根据权利要求2所述的一种跨社交网络身份匹配方法,其特征在于:所述用户空间向量生成模块处理过程如下:
使用随机游走策略对账户节点的社交结构信息进行采样;
使用Skip-gram处理采样后社交结构信息中的节点序列,生成嵌入向量;
使用过滤器处理嵌入向量,筛选出对账户节点影响最大的账户作为该账户节点的核心社交圈,根据互动值进行计算得到互动值向量。
5.根据权利要求4所述的一种跨社交网络身份匹配方法,其特征在于:所述随机游走策略基于互动值权重进行采样,所述互动值权重采用单社交网络互动值局部调整和跨社交网络互动值全局调整。
6.根据权利要求2所述的一种跨社交网络身份匹配方法,其特征在于:所述社区分类模块中使用上下文信息与属性信息按照一定比例结合方式,测定一个账户在整个社交网络中的影响力。
7.根据权利要求2所述的一种跨社交网络身份匹配方法,其特征在于:所述双向模型包括训练源社交网络中的账户节点匹配到目标社交网络中的账户节点的正向模型,以及匹配目标社交网络中的账户节点到源社交网络中的账户节点的逆向模型。
8.根据权利要求7所述的一种跨社交网络身份匹配方法,其特征在于:若源社交网络中的账户节点和目标社交网络中的账户节点为同一社区,所述社区分类模块根据正向模型及反向模型,将账户节点进行双向匹配;反之,进行点对点匹配机制。
9.根据权利要求1所述的一种跨社交网络身份匹配方法,其特征在于:采用Hits@N作为对网络模型进行测试的评测指标,保留Hits@N指标最好的网络模型作为最优网络模型。
10.一种计算机设备,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~9任一项所述方法的步骤。
CN202210257148.8A 2022-03-16 2022-03-16 一种跨社交网络身份匹配方法 Pending CN114663245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210257148.8A CN114663245A (zh) 2022-03-16 2022-03-16 一种跨社交网络身份匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210257148.8A CN114663245A (zh) 2022-03-16 2022-03-16 一种跨社交网络身份匹配方法

Publications (1)

Publication Number Publication Date
CN114663245A true CN114663245A (zh) 2022-06-24

Family

ID=82030153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210257148.8A Pending CN114663245A (zh) 2022-03-16 2022-03-16 一种跨社交网络身份匹配方法

Country Status (1)

Country Link
CN (1) CN114663245A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776193A (zh) * 2023-05-17 2023-09-19 广州大学 基于注意力机制的跨社交网络虚拟身份关联方法及装置
CN117892019A (zh) * 2024-03-14 2024-04-16 南京信息工程大学 一种跨社交网络身份链接方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978020A (zh) * 2019-03-07 2019-07-05 武汉大学 一种基于多维特征的社交网络账号马甲身份辨识方法
CN112069416A (zh) * 2020-08-21 2020-12-11 河南科技大学 基于社区发现的跨社交网络用户身份识别方法
CN113095948A (zh) * 2021-03-24 2021-07-09 西安交通大学 一种基于图神经网络的多源异构网络用户对齐方法
CN113434782A (zh) * 2021-06-28 2021-09-24 杭州师范大学钱江学院 基于联合嵌入学习模型的跨社交网络用户身份识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978020A (zh) * 2019-03-07 2019-07-05 武汉大学 一种基于多维特征的社交网络账号马甲身份辨识方法
CN112069416A (zh) * 2020-08-21 2020-12-11 河南科技大学 基于社区发现的跨社交网络用户身份识别方法
CN113095948A (zh) * 2021-03-24 2021-07-09 西安交通大学 一种基于图神经网络的多源异构网络用户对齐方法
CN113434782A (zh) * 2021-06-28 2021-09-24 杭州师范大学钱江学院 基于联合嵌入学习模型的跨社交网络用户身份识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116776193A (zh) * 2023-05-17 2023-09-19 广州大学 基于注意力机制的跨社交网络虚拟身份关联方法及装置
CN117892019A (zh) * 2024-03-14 2024-04-16 南京信息工程大学 一种跨社交网络身份链接方法及装置
CN117892019B (zh) * 2024-03-14 2024-05-14 南京信息工程大学 一种跨社交网络身份链接方法及装置

Similar Documents

Publication Publication Date Title
CN111784502B (zh) 异常交易账户群体识别方法及装置
CN110084151B (zh) 基于非局部网络深度学习的视频异常行为判别方法
Wang et al. Weakly supervised person re-id: Differentiable graphical learning and a new benchmark
CN114663245A (zh) 一种跨社交网络身份匹配方法
Sun et al. An intrusion detection model for wireless sensor networks with an improved V-detector algorithm
Yin et al. An anomaly detection model based on deep auto-encoder and capsule graph convolution via sparrow search algorithm in 6G internet-of-everything
CN113269228B (zh) 一种图网络分类模型的训练方法、装置、系统及电子设备
CN107368534A (zh) 一种预测社交网络用户属性的方法
CN113314188B (zh) 图结构增强的小样本学习方法、系统、设备及存储介质
CN112905905A (zh) 一种位置社交网络中兴趣点-区域联合推荐方法
Taha Disjoint community detection in networks based on the relative association of members
Su et al. Fgcrec: Fine-grained geographical characteristics modeling for point-of-interest recommendation
Sheng et al. Network traffic anomaly detection method based on chaotic neural network
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
He et al. Evolutionary community detection in social networks
Zhou et al. HID: Hierarchical multiscale representation learning for information diffusion
CN115481215A (zh) 一种基于时态合作者知识图谱的合作者预测方法和预测系统
CN116633639B (zh) 基于无监督与有监督融合强化学习的网络入侵检测方法
Chen et al. Joint learning with keyword extraction for event detection in social media
CN115643153A (zh) 基于图神经网络的报警关联分析方法
Tao et al. Structural identity representation learning of blockchain transaction network for metaverse
CN114861766A (zh) 一种基于多粒度演化的动态链路预测方法和系统
Munikoti et al. Bayesian graph neural network for fast identification of critical nodes in uncertain complex networks
Zhang et al. A crowd-driven dynamic neural architecture searching approach to quality-aware streaming disaster damage assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220624

RJ01 Rejection of invention patent application after publication