CN114169449A - 一种跨社交网络用户身份匹配的方法 - Google Patents
一种跨社交网络用户身份匹配的方法 Download PDFInfo
- Publication number
- CN114169449A CN114169449A CN202111505497.9A CN202111505497A CN114169449A CN 114169449 A CN114169449 A CN 114169449A CN 202111505497 A CN202111505497 A CN 202111505497A CN 114169449 A CN114169449 A CN 114169449A
- Authority
- CN
- China
- Prior art keywords
- sample pair
- data
- layer
- user name
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims description 27
- 238000013527 convolutional neural network Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000011160 research Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种跨社交网络用户身份匹配的方法,其特征在于,包括以下步骤:步骤S1,对已知用户名数据进行匹配,得到正样本对,再打乱对应的用户名顺序,随机抽取数据并得到负样本对,构成用户名样本对数据集。步骤S2,利用字母表对用户名样本对数据集中的每一个用户名样本对进行向量化表示。步骤S3,构建用户身份匹配网络模型。步骤S4,将样本对训练数据集输入到用户身份匹配网络模型,利用交叉熵损失函数进行监督训练,当训练次数满足结束条件,得到训练完成的用户身份匹配网络模型。步骤S5,将两个待测用户名数据进行配对,得到待测样本对数据。步骤S6,将待测样本对数据输入到训练完成的用户身份匹配网络模型,得到用户名匹配结果。
Description
技术领域
本发明涉及一种跨社交网络用户身份匹配的方法。
背景技术
近年来,随着信息技术的发展,人们已逐步进入互联网时代。在线社交网络作为一种在线的网络服务形式,为人们提供了除了现实生活之外的新型社交渠道,也代表了一种新的信息传播和交互的方式。社交网络的多样化使每一个互联网用户在不同的社交平台中留下了用户行为信息的蛛丝马迹,各大社交网络平台中隐藏着价值巨大的用户行为数据。但目前即使在大数据平台数据分析的支撑下,大多数社交网络分析研究也都是针对单一社交平台展开的,同一平台下的数据具有用户群体范围局限性和行为内容局限性,各个社交网络平台之间缺乏信息共享机制。
跨社交网络用户身份匹配是指对多个在线社交网络平台的用户账号进行匹配,以识别现实世界中不同账号下的自然人用户身份。跨社交网络的信息挖掘研究有利于人们科学地认识到在线社交网络平台中社交关系的内在规律,将对复杂网络科学的发展起到积极的促进作用。目前,例如链接预测、信息传播、社区检测等方面的研究工作,在单一复杂网络环境下已经取得了一定的研究成果,但是对于多网络间联合信息挖掘的工作并不多,原因是多网络信息融合的基础是跨网络的用户身份匹配问题,如何解决该问题仍是一项具有挑战的研究课题。目前已经有相关研究工作证明,跨社交网络用户身份匹配在诸如多个网络间的信息传播模型研究、多网络动态分析等问题中发挥了重要的作用。同时,由于跨社交网络平台的用户匹配研究涉及用户属性信息以及社交网络结构等不同来源和类型的信息融合,这为多源异构数据融合的研究也提供了参考。
在实际情况中,用户在选择用户名时通常会表现出某些行为模式,他们在注册的多个社交网络平台中倾向于使用具有个人特点的相同或相似的用户名显示自己的取名偏好,同时应尽量保持用户名的独特性,因此最简单、直观的用户身份匹配方法就是直接根据用户名的相似程度来衡量。因此,在目前研究中比较常见的方法就是从用户名字符串中提取各种字符统计特征,通过计算特征向量之间的相似性来进行用户身份匹配。基于用户名的跨网络用户身份匹配方法通过挖掘用户名中隐含的用户取名行为习惯特征进行匹配建模,取得了一定的研究成果。但是随着数据规模的增大,用户名的重复率会增加,这为仅凭借用户名信息的匹配算法研究增加了难度。另外,基于用户名的用户身份匹配的前提假设是用户倾向于在不同的社交网络中使用相同或相似的用户名,若存在该假设不成立的情况,算法的召回率就会降低。因此,亟需设计一种能够克服上述缺陷的技术方案。
发明内容
为解决上述问题,提供一种跨社交网络用户身份匹配的方法,本发明采用了如下技术方案:
本发明提供了一种跨社交网络用户身份匹配的方法,其特征在于,包括以下步骤:步骤S1,利用两个社交网络数据对已知用户名数据进行匹配,将每一对匹配的用户名数据用空格连接起来,得到正样本对,再打乱两个社交网络数据对所对应的用户名顺序,随机抽取数据并得到负样本对,正样本对数量和负样本对数量相等,构成用户名样本对数据集。步骤S2,利用字母表对用户名样本对数据集中的每一个用户名样本对进行向量化表示,得到样本对训练数据集。步骤S3,构建用户身份匹配网络模型。步骤S4,将样本对训练数据集输入到用户身份匹配网络模型,利用交叉熵损失函数loss(x,class)进行监督训练,当训练次数满足结束条件,得到训练完成的用户身份匹配网络模型。步骤S5,将两个待测用户名数据进行配对,得到待测样本对数据。步骤S6,将待测样本对数据输入到训练完成的用户身份匹配网络模型,得到用户名匹配结果。其中,用户身份匹配网络模型为卷积神经网络模型,包括输入层、隐含层和输出层,输出层包括softmax分类器和多个全连接层,每两个全连接层之间有dropout层。
本发明提供的一种跨社交网络用户身份匹配的方法,还可以具有这样的技术特征,其中,交叉熵损失函数loss(x,class)的具体表达式为:式中,x[class]表示样本的标签,x[j]表示样本对数据j的匹配结果为正的概率。
本发明提供的一种跨社交网络用户身份匹配的方法,还可以具有这样的技术特征,其中,隐含层包括多个卷积层,多个池化层。输出层包括三个全连接层,两个dropout层分别在三个全连接层的两两之间。
本发明提供的一种跨社交网络用户身份匹配的方法,还可以具有这样的技术特征,其中,卷积层的计算公式为:
本发明提供的一种跨社交网络用户身份匹配的方法,还可以具有这样的技术特征,其中,池化层的计算公式为:
式中,WCNN和bCNN为训练的参数,T表示转置运算,ke为卷积核的大小,max1≤j≤l表示最大池化操作,l为样本对训练数据集中的数据特征向量的长度,为每一个用户名样本对生成的向量,ec()为每一个用户样本对中的词的嵌入向量,为每个字符的嵌入向量。
本发明提供的一种跨社交网络用户身份匹配的方法,还可以具有这样的技术特征,其中,全连接层的计算公式为:z=WTew+b,式中,z为全连接层的输出,W表示全连接层的权重,ew表示样本通过卷积神经网络模型得到的嵌入向量表示,b表示偏置项。
本发明提供的一种跨社交网络用户身份匹配的方法,还可以具有这样的技术特征,其中,softmax分类器的计算公式为:式中,softmax(zi)为输出用户身份匹配概率,C为维度,为某一个样本对通过全连接层的输出向量,为所有样本对通过全连接层的输出向量。
本发明提供的一种跨社交网络用户身份匹配的方法,还可以具有这样的技术特征,其中,训练结束条件是训练次数达到预定迭代次数或者用户身份匹配网络模型的损失值收敛到预定阈值。
发明作用与效果
根据本发明的一种跨社交网络用户身份匹配的方法。本发明通过构建卷积神经网络模型为用户身份匹配网络模型,并利用卷积神经网络进行用户名文本特征的提取,为了捕获用户名字符组合的特殊语义和构成规则,采用了字符级的嵌入方式,并根据用户名的特点扩展了用户名嵌入的字母表,完成对卷积神经网络模型的训练。本发明整合了用户关键信息,避免了复杂的特征提取过程,提高了用户身份匹配的准确性,增强了对不同语种的泛化能力,在净化网络环境、提供个性化推荐服务、提高网络监管,为用户提供更优质的平台服务都具有重要意义。
附图说明
图1是本发明实施例中的跨社交网络用户身份匹配的方法流程图;
图2是本发明实施例中的跨社交网络用户身份匹配的框架示意图;
图3是本发明实施例中基于卷积神经网络的字符级用户名嵌入示意图;
图4是本发明实施例中数据集中节点度分布示意图;
图5是本发明实施例中m=96时不同训练集大小下的模型预测结果对比示意图;
图6是本发明实施例中m=70时不同训练集大小下的模型预测结果对比示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的一种跨社交网络用户身份匹配的方法作具体阐述。
<实施例>
图1是本发明实施例中的跨社交网络用户身份匹配的方法流程图;图2是本发明实施例中的跨社交网络用户身份匹配的框架示意图。
如图1及图2所示,本实施例中的一种跨社交网络用户身份匹配的方法包括以下步骤:
步骤S1,利用两个社交网络数据对已知用户名数据进行匹配,将每一对匹配的用户名数据用空格连接起来,得到正样本对,再打乱两个社交网络数据对所对应的用户名顺序,随机抽取数据并得到负样本对,使正负样本对的数量比例达到1:1,构成用户名样本对数据集。
本实施例中选择了一个在线社交网络数据集:Foursquare-Twitter数据集(摘自“Zhang J,Yu PS.Integrated anchor and social link predictions across socialnetworks[C]//Proceedings of the 24th International Joint Conference onArtificial Intelligence.2015:2125-2131.”)来自真实的在社交媒体中采集数据,数据集包含5311个Foursquare用户名和5120个Twitter用户名,对两个网络进行用户名匹配,得到3148个匹配用户名。
步骤S2,利用字母表对用户名样本对数据集中的每一个用户名样本对进行向量化表示,得到样本对训练数据集。
利用字母表对每一个用户名样本对进行用户名嵌入。在传统的字母表(m=70)基础上引入了26个大写字母,将其扩充为一个拓宽字母表(m=96)。将样本中每一个输入的字符初始嵌入转化为m维one-hot向量,将用户名字符序列转变为固定长度为l的m维序列,少数不在字母表中的特殊字符和空字符转化为维度m的全零向量,得到为二维文本字符特征矩阵,实现了用户名样本对的向量化表示。
步骤S3,构建用户身份匹配网络模型。
本实施例中的用户身份匹配网络模型为卷积神经网络模型,包括输入层、隐含层和输出层。
隐含层包括三个卷积层和三个池化层,其中,三个卷积层当中的前两个卷积层中卷积核大小为3,第三层卷积层中卷积核大小为1。
输出层包括三个全连接层和softmax分类器。
其中,三个全连接层的两两之间分别含有两个dropout层。
步骤S4,将样本对训练数据集输入到用户身份匹配网络模型,利用交叉熵损失函数loss(x,class)进行监督训练,当训练次数满足结束条件,得到训练完成的用户身份匹配网络模型。
用户名样本对向量作为神经网络的输入,其特征个数m分别为70和96,用户名文本特征向量的长度为该数据集中最大样本长度的字符数l,则输入的矩阵大小为m×l。再利用卷积神经网络进行嵌入表示。
一方面卷积神经网络中的卷积层通过与卷积核做卷积操作,提取输入文本的局部特征,得到若干个特征图,卷积计算公式为:
式中,Mij表示输入层与滤波器相对应的矩阵元素值输入的矩阵元,Fij表示卷积层输出后的特征图矩阵元,Kij表示窗口大小为n×n的滤波器,b表示偏置值,α表示卷积层的激活函数。
本实施例中的三个卷积层通过两种不同的卷积核大小来提取不同深度的特征,其中前两个卷积层中卷积核大小为3,第三层卷积层中卷积核大小为1。
图3是本发明实施例中基于卷积神经网络的字符级用户名嵌入示意图。
如图3所示,卷积神经网络网络的池化层对卷积层的输出进行保留压缩,利用一维的最大值池化策略,从卷积层获得的特征图中选择最大特征值作为模型下一步的输入。以卷积层和池化层相互交替的方式来减少参数数量,并采用下采样方法来生成子抽样矩阵,得到每一个用户名对样本的用户名字符级的嵌入向量表示,具体计算公式为:
式中,WCNN和bCNN为训练的参数,T表示转置运算,ke为卷积核的大小,max1≤j≤l表示最大池化操作,l为样本对训练数据集中的数据特征向量的长度,为每一个用户名样本对生成的向量,ec()为每一个用户样本对中的词的嵌入向量,为每个字符的嵌入向量。
将卷积池化层提取到的所有特征作为输入,加入全连接层来模拟非线性变换,实现了卷积池化阶段提取的不同深度的特征信息的整合,得到了一维空间下关于特征的分布式表示,计算方法如公式为:
z=WTew+b
式中,z为全连接层的输出,W表示全连接层的权重,ew表示样本通过卷积神经网络模型得到的嵌入向量表示,b表示偏置项。
将上述得到的关于特征的表示作为输出层的输入,再利用输出层的一个softmax分类器,输出预测用户身份匹配概率,softmax分类器的计算公式:
利用样本对训练数据集对用户身份匹配网络模型进行训练,并采用交叉熵损失作为损失函数,其计算公式为:
式中,x[class]表示样本的标签,x[j]表示样本对数据j的匹配结果为正的概率。
在训练集上利用监督信息不断最小化损失函数,根据损失函数反向传播更新模型参数,直到模型满足训练结束条件。训练结束条件是训练次数达到预定迭代次数或者用户身份匹配网络模型的损失值收敛到预定阈值。
步骤S5,将两个待测用户名数据进行配对,得到待测样本对数据。
步骤S6,将待测样本对数据输入到训练完成的用户身份匹配网络模型,得到用户名匹配结果。
本实施例中对每一个社交网络进行了网络统计特征计算,计算结果如表1所示。
表1社交网络数据集的统计特征
图4是本发明实施例中数据集中节点度分布示意图。
如图4所示,本实施例对两个网络数据集中节点度分布进行了可视化。由表1及图4所示,从两个社交网络的网络结构特征中发现,节点的度服从幂律分布,少数的节点往往拥有大量的连接,而大部分节点却很少,具有无标度特性,图密度接近于0,恰恰说明了社交网络结构的稀疏性与现实情况一致。
本实施例中分别在字母表大小为96个字符和70个字符两种设置下进行了对比实验,每个设置下分别在不同比例的训练集数据下进行模型训练。
用户名字符级嵌入的卷积神经网络模型中的卷积层使用高斯分布初始化权重,均值为0,方差为0.05。在三个全连接层之间加入两个dropout层以实现模型正则化,dropout的概率设置为0.5,随机梯度下降作为模型优化器。模型的超参数学习率设置为0.005;训练轮次设置为150,小批量数据大小batch size为64。在训练过程中,训练集与测试集的比例分别为0.2、0.4、0.6、0.8和0.9。对比实验评价指标分别为准确率(Accuracy)、精确率(Precious)、召回率(Recall)、F1(F-measure)。
图5是本发明实施例中m=96时不同训练集大小下的模型预测结果对比示意图;图6是本发明实施例中m=70时不同训练集大小下的模型预测结果对比示意图。
如图5及图6所示,当训练数据集越大的时候效果越好,而且随着数据集的增大,模型的性能越趋向于稳定。当训练数据充足的时候,模型可以获得较好的预测结果。学习数据覆盖的范围越广,可以学习到的用户名字符组合特征越显著,以此验证该方法的稳定性。
本实施例利用跨社交网络用户身份匹配的方法与其他用户名嵌入匹配方法进行对比实验。
本实施例中的跨社交网络用户身份匹配的方法主要采用的CharCNN Alignment-96方法和CharCNN Alignment-70方法。
CharCNN Alignment-96方法。字符级用户名嵌入的卷积神经网络字母表采用加入大写字母的96个字符,全连接网络作为预测输出层。
CharCNN Alignment-70方法。字符级卷积神经网络字母表采用原始的70个字符,全连接网络作为预测输出层。
其他的用户名嵌入匹配方法包括word2vec+Full Connected Layers方法、word2vec+Random Forest方法、word2vec+SVM方法和word2vec+GBDT方法。
word2vec+Full Connected Layers方法。首先将用户名通过word2vec进行嵌入表示,采用与CharCNN模型中全连接部分相同的网络架构进行匹配预测。
word2vec+Random Forest方法。用户名通过word2vec进行嵌入表示,随机森林(Random Forest)作为预测模型。
word2vec+SVM方法。用户名通过word2vec进行嵌入表示,支持向量机(SVM)作为预测模型。
word2vec+GBDT方法。用户名通过word2vec进行嵌入表示,梯度提升树(GBDT)作为预测模型。
在对比实验中,数据集中的80%作为训练集,20%作为测试集,对比实验评价指标分别为精确率(Precious)、召回率(Recall)、F1(F-measure)。
对比实验结果如表2所示。
表2基于用户名的身份匹配结果
由表2所示,字符级用户名嵌入模型当采用96个字符作为字母表时,其中,Precision,Recall和F1值分别提升了2.2%、3.09%和2.62%。表明了在用户名嵌入研究问题下,由于用户名字符组成结构的特异性,大写字母对于字符组合语义特征的表达具有积极作用,因此在嵌入过程中加入对大写字母特征的捕捉,可以显著提高端到端跨社交网络用户身份匹配的性能。除此以外,与经典的word2vec文本嵌入方法做对比,无论是采用与本实施例中中提出模型的输出层相同的全连接网络结构,还是采用经典的机器学习分类模型,都无法在基于用户名嵌入的身份匹配这一问题上获得比较好的结果。以此验证了本实施例中提出的字符级用户名嵌入匹配算法的有效性。
实施例作用与效果
根据本实施例提供的一种跨社交网络用户身份匹配的方法。本发明通过构建卷积神经网络模型为用户身份匹配网络模型,并利用卷积神经网络进行用户名文本特征的提取,为了捕获用户名字符组合的特殊语义和构成规则,采用了字符级的嵌入方式,并根据用户名的特点扩展了用户名嵌入的字母表,完成对卷积神经网络模型的训练。本发明整合了用户关键信息,避免了复杂的特征提取过程,提高了用户身份匹配的准确性,增强了对不同语种的泛化能力,在净化网络环境、提供个性化推荐服务、提高网络监管和为用户提供更优质的平台服务都具有重要意义。
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
Claims (8)
1.一种跨社交网络用户身份匹配的方法,其特征在于,包括以下步骤:
步骤S1,利用两个社交网络数据对已知用户名数据进行匹配,将每一对匹配的用户名数据用空格连接起来,得到正样本对,再打乱所述两个社交网络数据对所对应的用户名顺序,随机抽取数据并得到负样本对,所述正样本对数量和所述负样本对数量相等,构成用户名样本对数据集;
步骤S2,利用字母表对所述用户名样本对数据集中的每一个用户名样本对进行向量化表示,得到所述样本对训练数据集;
步骤S3,构建用户身份匹配网络模型;
步骤S4,将所述样本对训练数据集输入到所述用户身份匹配网络模型,利用交叉熵损失函数loss(x,class)进行监督训练,当训练次数满足结束条件,得到训练完成的用户身份匹配网络模型;
步骤S5,将两个待测用户名数据进行配对,得到待测样本对数据;
步骤S6,将所述待测样本对数据输入到所述训练完成的用户身份匹配网络模型,得到用户名匹配结果,
其中,所述用户身份匹配网络模型为卷积神经网络模型,包括输入层、隐含层和输出层,
所述输出层包括softmax分类器和多个全连接层,每两个所述全连接层之间有dropout层。
3.根据权利要求1所述的一种跨社交网络用户身份匹配的方法,其特征在于:
其中,所述隐含层包括多个卷积层,多个池化层,
所述输出层包括三个所述全连接层,两个所述dropout层分别在所述三个全连接层的两两之间。
6.根据权利要求5所述的一种跨社交网络用户身份匹配的方法,其特征在于:
其中,所述全连接层的计算公式为:
z=WTew+b
式中,z为所述全连接层的输出,W表示全连接层的权重,ew表示样本通过所述卷积神经网络模型得到的嵌入向量表示,b表示偏置项。
8.根据权利要求1所述的一种跨社交网络用户身份匹配的方法,其特征在于:
其中,所述训练结束条件是训练次数达到预定迭代次数或者所述用户身份匹配网络模型的损失值收敛到预定阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111505497.9A CN114169449A (zh) | 2021-12-10 | 2021-12-10 | 一种跨社交网络用户身份匹配的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111505497.9A CN114169449A (zh) | 2021-12-10 | 2021-12-10 | 一种跨社交网络用户身份匹配的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114169449A true CN114169449A (zh) | 2022-03-11 |
Family
ID=80485294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111505497.9A Pending CN114169449A (zh) | 2021-12-10 | 2021-12-10 | 一种跨社交网络用户身份匹配的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114169449A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117892019A (zh) * | 2024-03-14 | 2024-04-16 | 南京信息工程大学 | 一种跨社交网络身份链接方法及装置 |
-
2021
- 2021-12-10 CN CN202111505497.9A patent/CN114169449A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117892019A (zh) * | 2024-03-14 | 2024-04-16 | 南京信息工程大学 | 一种跨社交网络身份链接方法及装置 |
CN117892019B (zh) * | 2024-03-14 | 2024-05-14 | 南京信息工程大学 | 一种跨社交网络身份链接方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yin et al. | DHNE: Network representation learning method for dynamic heterogeneous networks | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN111428147A (zh) | 结合社交和兴趣信息的异源图卷积网络的社交推荐方法 | |
CN109753602B (zh) | 一种基于机器学习的跨社交网络用户身份识别方法和系统 | |
CN105868773A (zh) | 一种基于层次随机森林的多标签分类方法 | |
CN113297429B (zh) | 一种基于神经网络架构搜索的社交网络链路预测方法 | |
CN113422761B (zh) | 基于对抗学习的恶意社交用户检测方法 | |
CN112966091A (zh) | 一种融合实体信息与热度的知识图谱推荐系统 | |
CN111078876A (zh) | 一种基于多模型集成的短文本分类方法和系统 | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN107392392A (zh) | 基于深度学习的微博转发预测方法 | |
CN109949174A (zh) | 一种异构社交网络用户实体锚链接识别方法 | |
CN117237559A (zh) | 面向数字孪生城市的三维模型数据智能分析方法及系统 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
CN110851733A (zh) | 基于网络拓扑和文档内容的社团发现和情感解释方法 | |
CN109948242A (zh) | 基于特征哈希的网络表示学习方法 | |
CN112860977A (zh) | 一种基于卷积神经网络的链路预测方法 | |
CN112488316A (zh) | 事件意图推理方法、装置、设备及存储介质 | |
CN116403231A (zh) | 基于双视图对比学习与图剪枝的多跳阅读理解方法及系统 | |
CN114169449A (zh) | 一种跨社交网络用户身份匹配的方法 | |
CN107807919A (zh) | 一种利用循环随机游走网络进行微博情感分类预测的方法 | |
CN115131058A (zh) | 账号识别方法、装置、设备及存储介质 | |
CN113312479B (zh) | 跨领域虚假新闻检测方法 | |
CN106911512B (zh) | 在可交换图中基于博弈的链接预测方法及系统 | |
CN115526293B (zh) | 一种顾及语义和结构信息的知识图谱推理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |