CN110909777A - 一种多维特征图嵌入方法、装置、设备及介质 - Google Patents

一种多维特征图嵌入方法、装置、设备及介质 Download PDF

Info

Publication number
CN110909777A
CN110909777A CN201911095383.4A CN201911095383A CN110909777A CN 110909777 A CN110909777 A CN 110909777A CN 201911095383 A CN201911095383 A CN 201911095383A CN 110909777 A CN110909777 A CN 110909777A
Authority
CN
China
Prior art keywords
node
matrix
nodes
vector
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911095383.4A
Other languages
English (en)
Inventor
刘浩
陈旺林
齐雅婷
冯淦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911095383.4A priority Critical patent/CN110909777A/zh
Publication of CN110909777A publication Critical patent/CN110909777A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供的多维特征图嵌入方法,包括:根据服务器各节点之间的第一特征的相似度构建第一矩阵,第一矩阵记录了各个节点间关于第一特征的相似度;根据服务器各节点之间的第二特征的相似度构建第二矩阵,第二矩阵记录了各个节点间关于第二特征的相似度,第二特征为与第一特征不同的特征;根据第一矩阵与第二矩阵进行模型训练,得到第一模型;根据第一模型获取服务器中各个节点的节点向量。本申请实施例还提供一种装置、设备及介质,在生成向量的过程中,通过引入额外特征的约束,使得最终生成的向量不仅能够反映出图的拓扑信息,而且还能够融入节点自身的属性特征。

Description

一种多维特征图嵌入方法、装置、设备及介质
技术领域
本发明涉及计算机技术领域,更具体地说,涉及一种多维特征图嵌入方法、装置、设备及介质。
背景技术
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
其中,图嵌入(graph embedding,network embedding)是一种将图数据 (通常为高维稠密的矩阵)映射为低微稠密向量的过程,能够很好地解决图数据难以高效输入机器学习算法的问题。
在现有的图嵌入技术中,都只考虑了图拓扑节点的向量表征,忽略了节点自身的特征,普遍的做法是直接将人工提取的节点特征和节点生成向量 Node2vec生成的向量简单的拼接在一起,这种做法不利于后续的模型学习,另一种做法是通过将节点的信息通过人工经验融入到边的权重中,这种做法主观意识干预比较大,可能不能反映真实的图拓扑结构。
因此,现有技术中存在的问题还有待于改进。
发明内容
有鉴于此,为解决上述问题,本发明提供的技术方案如下:
一种多维特征图嵌入方法,包括:
根据服务器各节点之间的第一特征的相似度构建第一矩阵,所述第一矩阵记录了所述各个节点间关于所述第一特征的相似度;
根据所述服务器各节点之间的第二特征的相似度构建第二矩阵,所述第二矩阵记录了所述各个节点间关于所述第二特征的相似度,所述第二特征为与所述第一特征不同的特征;
根据所述第一矩阵与所述第二矩阵进行模型训练,得到第一模型;
根据所述第一模型获取所述服务器中各个节点的节点向量。
一种多维特征图嵌入装置,包括:
第一构建单元,所述第一构建单元用于根据服务器各节点之间的第一特征的相似度构建第一矩阵,所述第一矩阵记录了所述各个节点间关于所述第一特征的相似度;
第二构建单元,所述第二构建单元用于根据所述服务器各节点之间的第二特征的相似度构建第二矩阵,所述第二矩阵记录了所述各个节点间关于所述第二特征的相似度,所述第二特征为与所述第一特征不同的特征;
训练单元,所述训练单元用于根据所述第一构建单元构建的所述第一矩阵与所述第二构建单元构建的所述第二矩阵进行模型训练,得到第一模型;
获取单元,所述获取单元用于根据所述训练单元训练的所述第一模型获取所述服务器中各个节点的节点向量。
可选地,所述第一构建单元还用于:
当第一节点i与第二节点j之间的第一子特征相同时,获取第一分值;
当所述第一节点i与所述第二节点j之间的第二子特征相同时,获取第二分值;
其中,所述第一节点i与所述第二节点j为所述服务器中的任意两个节点,所述第一子特征与所述第二子特征为所述第一特征下的子特征;
获取所述第一分值与所述第二分值的加和作为第一元素值,所述第一矩阵中的元素ai,j等于所述第一元素值,所述ai,j在所述第一矩阵的横行对应所述第一节点i,所述的ai,j在所述第一矩阵的纵列对应所述第二节点j。
可选地,所述第一构建单元还用于:
将所述第一元素值进行归一化得到第二元素值,所述ai,j等于所述第二元素值。
可选地,所述第二构建单元还用于:
根据第一节点i与第二节点j之间收发的第一数据值构建所述第二矩阵,其中,所述第二矩阵的元素bi,j等于所述第一数据值,所述bi,j在所述第二矩阵的横行对应所述第一节点i,所述的bi,j在所述第二矩阵的纵列对应所述第二节点j。
可选地,所述训练单元,还用于:
获取所述第二矩阵中所述第一节点i的节点向量ui及所述第二节点的节点向量uj;
在所述第一模型中执行以下目标函数:
Figure BDA0002268170960000031
其中,所述
Figure BDA0002268170960000032
为词生成向量Word2vec为最大似然估计部分,所述f(u)为任意一个节点向量的函数映射,所述Ns(u)为与所述f(u)相邻节点的函数映射,通过计算Pr()任意一个节点与相邻节点间相似度的条件概率,之后通过取对数求得一个节点与相邻节点的最大似然估计,所述节点u属于节点集合V中的任意一个节点,求和后得到所有节点的最大似然估计;
Figure BDA0002268170960000033
为自定义函数部分,所述ai,j为所述第一矩阵中的元素;
所述根据所述第一模型获取所述服务器中各个节点的节点向量,包括:
基于负采样的Skip-gram模型和所述目标函数获取所述服务器中各个节点的节点向量。
可选地,所述训练单元还用于:
根据随机游走生成的上下文节点序列计算所述最大似然估计部分:
Figure BDA0002268170960000034
根据所述第一矩阵及所述第二矩阵计算所述自定义函数部分:
ui:=ui+[aij-ui·uj]·uj
其中,所述ui+[aij-ui·uj]·uj为所述
Figure 2
求导之后的结果,即,节点向量ui在更新之后等于原有第一节点向量ui加上原有第二节点向量 uj乘以所述元素ai,j减去原有第一节点向量ui乘以原有第二节点向量uj的差;
uj乘以所述元素ai,j减去原有第一节点向量ui乘以原有第二节点向量uj的差;
将所述最大似然估计部分与所述自定义函数部分相加得到最终的更新向量:
v(w):=v(w)+ui
可选地,所述装置还包括聚类单元,所述聚类单元用于:
通过聚类算法对所述节点向量进行聚类,得到多个簇;
根据所述每个簇的恶意度来判断每个簇中的节点向量所对应节点的恶意度。
可选地,所述装置还包括分类单元,所述分类单元用于:
通过已知的黑白标签和所述节点向量作为输入,输出为二分类概率值;
对于所述二分类概率值大于阈值的节点,判定为具有恶意的黑节点;
对于所述二分类概率值小于阈值的节点,判定为无恶意的白节点。
一种计算机存储介质,包括指令,当该指令在计算机设备上运行时,使得该计算机设备执行上述任意一项所述的方法。
一种计算机可读存储介质,包括指令,当所述指令在计算机设备上运行时,使得所述计算机设备执行上述任意一项所述的方法。
本申请提供的多维特征图嵌入方法,包括:根据服务器各节点之间的第一特征的相似度构建第一矩阵,第一矩阵记录了各个节点间关于第一特征的相似度;根据服务器各节点之间的第二特征的相似度构建第二矩阵,第二矩阵记录了各个节点间关于第二特征的相似度,第二特征为与第一特征不同的特征;根据第一矩阵与第二矩阵进行模型训练,得到第一模型;根据第一模型获取服务器中各个节点的节点向量。本申请实施例还提供一种装置、设备及介质,在生成向量的过程中,通过引入额外特征的约束,使得最终生成的向量不仅能够反映出图的拓扑信息,而且还能够融入节点自身的属性特征。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的多维特征图嵌入方法的一个实施例的流程图;
图2为本申请实施例所提供的多维特征图嵌入方法的另一个实施例的流程图;
图3为本申请实施例所提供的多维特征图嵌入方法中的第一矩阵的示意图;
图4为本申请实施例所提供的多维特征图嵌入方法中的第二矩阵的示意图;
图5为本申请实施例所提供的多维特征图嵌入方法的聚类方法的示意图;
图6为本申请实施例所提供的多维特征图嵌入方法的分类方法的示意图;
图7为本申请实施例所提供的多维特征图嵌入方法与现有技术中的方法的效果对比图;
图8为本申请实施例所提供的计算机设备的示意图;
图9为本申请实施例所提供的多维特征图嵌入装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
其中,图嵌入(graph embedding,network embedding)是一种将图数据(通常为高维稠密的矩阵)映射为低微稠密向量的过程,能够很好地解决图数据难以高效输入机器学习算法的问题。
在游戏安全业务或金融安全业务等对业务安全有需要的领域,需要通过图嵌入技术来构建关系网络,以对非法用户进行筛选,例如在游戏安全领域中,通过大量注册小号来获取游戏补贴的账户,将会影响游戏的收入;或者在游戏中通过团伙组团进行有预谋的作弊行为。这些行为不仅会给正常玩家带来不好的游戏体验,同时也会影响游戏的收入,甚至带来未知的风险。因此需要通过机器学习的方式,对服务器中各个游戏用户的行为进行分析,从而实现非法用户的筛选。
在现有的图嵌入技术中,都只考虑了图拓扑节点的向量表征,忽略了节点自身的特征,普遍的做法是直接将人工提取的节点特征和节点生成向量 Node2vec生成的向量简单的拼接在一起,这种做法不利于后续的模型学习,另一种做法是通过将节点的信息通过人工经验融入到边的权重中,这种做法主观意识干预比较大,可能不能反映真实的图拓扑结构。
因此,针对上述问题,本申请实施例提供了一种多维特征图嵌入方法,需要说明的是,本申请实施例所提供的多维特征图嵌入方法可以对各种类型的数据进行实现,包括游戏安全业务或金融安全业务等,对此本申请实施例并不进行限定。为便于理解,以下对本申请实施例所提供的方法进行详细说明。
请参阅图1,如图1所示,本申请实施例所提供的多维特征图嵌入方法包括以下步骤。
101、根据服务器各节点之间的第一特征的相似度构建第一矩阵。
本实施例,第一矩阵记录了各个节点间关于第一特征的相似度,例如,在金融安全领域中,用户通过手机端app登录网上银行实现操作,第一特征可以为用户所使用的设备,用户名等用户信息。该第一矩阵为相似度矩阵,记录了服务器的所有节点中,两两之间关于用户信息的相似程度。
102、根据服务器各节点之间的第二特征的相似度构建第二矩阵。
本实施例中,第二矩阵记录了各个节点间关于第二特征的相似度,第二特征为与第一特征不同的特征,例如,同样以金融安全领域为例,用户通过手机端app登录网上银行实现操作,第二特征可以为用户的转账金额等交易信息,第二矩阵为相似度矩阵,其中,服务器两个节点之间交易信息的交易额越大,则该两个节点间的相似程度就越高。
103、根据第一矩阵与第二矩阵进行模型训练,得到第一模型。
本实施例中,模型训练是构建服务器各个节点之间图拓扑结构的过程,其中,节点是指登录服务器的各个账户,在模型训练的过程中,通过引入第一矩阵与第二矩阵,使得第一模型的训练过程中,可以通过一个特征对另一个特征进行约束,以贴近真实的图拓扑结构。在金融安全领域中,第一特征可以为用户信息,第二特征为可以交易信息,例如,服务器中具有A账户、B 账户和C账户3个账户,其中,根据用户信息的记载,A账户与B账户的登录设备同为甲设备,C账户的登录设备为乙设备,则此时,以用户信息构建的相似度矩阵:第一矩阵中,A账户与B账户之间的相似度要大于A账户与C账户之间的相似度;根据交易信息的记载,A账户向B账户转账100元,A账户向C账户转账一万元,则以交易信息构建的相似度矩阵:第二矩阵中,A账户与B账户之间的相似度要小于A账户与C账户之间的相似度。此时,无论是单独以第一矩阵还是单独以第二矩阵来进行模型训练,均不能客观地反应A账户、B账户及C账户之间的特征关系,而本申请实施例所提供的步骤中,同时根据第一矩阵与第二矩阵进行模型训练,得到第一模型,从而能够客观地根据账户之间的特征,反应真实的图拓扑结构。
104、根据第一模型获取服务器中各个节点的节点向量。
本实施例中,通过第一模型训练节点向量的方式具体可以为:将服务器中的各个节点视为一个自然语言,例如,服务器中具有A账户、B账户和C账户3个节点,则将其转化为自然语句A+B+C,之后通过第一模型对该自然语句进行切词、向量化训练等操作,得到的每个词向量即为每个节点所对应的节点向量,其中,具体的向量训练方法可以为现有技术中的任意一种向量训练方法,本申请实施例不再赘述。
上述多维特征图嵌入方法,包括:根据服务器各节点之间的第一特征的相似度构建第一矩阵,第一矩阵记录了各个节点间关于第一特征的相似度;根据服务器各节点之间的第二特征的相似度构建第二矩阵,第二矩阵记录了各个节点间关于第二特征的相似度,第二特征为与第一特征不同的特征;根据第一矩阵与第二矩阵进行模型训练,得到第一模型;根据第一模型获取服务器中各个节点的节点向量。在生成向量的过程中,通过引入额外特征的约束,使得最终生成的向量不仅能够反映出图的拓扑信息,而且还能够融入节点自身的属性特征。
可选地,作为一种更详细的实施方式,以下对本申请实施例所提供的多维特征图嵌入方法做更进一步的说明。
请参阅图2,如图2所示,本申请实施例所提供的多维特征图嵌入方法的另一个实施例包括以下步骤。
201、当第一节点i与第二节点j之间的第一子特征相同时,获取第一分值。
本实施例中,第一节点i与第二节点j为服务器中的任意两个节点,一子特征与第二子特征为第一特征下的子特征,例如,第一子特征为登录设备,第一分值为0.8分,若第一节点i与第二节点j均通过同一设备登录服务器,则获取第一分值为0.8分。
202、当第一节点i与第二节点j之间的第二子特征相同时,获取第二分值。
本实施例中,第二子特征为第一特征中与第一子特征不同的特征,例如,第二子特征为用户名,第二分值为0.5分,若第一节点i与第二节点j的登录用户名相同,则获取第二分值为0.5分。
203、获取第一分值与第二分值的加和作为第一元素值。
本实施例中,第一节点i与第二节点j加和所获得的分值,例如,第一子特征与第二子特征均相同,则获取第一元素值等于第一分值+第二分值;若第一节点i与第二节点j之间仅第一子特征相同,则获取第一元素值等于第一分值;若第一节点i与第二节点j之间仅第二子特征相同,则获取第一元素值等于第二分值。最终所得到的第一矩阵如图3所示,第一矩阵记录了服务器中任意两个节点之间归一化之后的的得分关系,其中,第一节点i和第二节点j在第一矩阵中所对应的元素ai,j等于第一元素值,例如,第一节点i与第二节点j之间登录设备相同,且用户名相同则此时第一元素值=0.8+0.5=1.3分,经过归一化之后, 1.3=1,在第一矩阵中,ai,j=1。
204、将第一元素值进行归一化得到第二元素值,ai,j等于第二元素值。
本实施例中,归一化是一种无量纲处理手段,使物理系统数值的绝对值变成某种相对值关系。简化计算,缩小量值的有效办法。本步骤中将第一元素值归一化到[0,1]之间,使得第一矩阵内的元素通过归一化之后的数值表达简化了第一矩阵。
205、根据第一节点i与第二节点j之间收发的第一数据值构建第二矩阵。
本实施例中,第二矩阵的元素bi,j等于第一数据值,bi,j在第二矩阵的横行对应第一节点i,的bi,j在第二矩阵的纵列对应第二节点j,例如,如图4所示,在第二矩阵中,第一节点i向第二节点j转账1万元,则第一节点i与第二节点j 所共同对应的元素bi,j=10000,可选地,对于第二矩阵中的元素,同样可以通过归一化处理到[0,1]之间,使得第二矩阵内的元素通过归一化之后的数值表达第二矩阵,例如bi,j=10000,归一化后bi,j=0.8。
206、获取第二矩阵中第一节点i的节点向量ui及第二节点的节点向量uj
本实施例中,通过对第二矩阵中节点的向量化,即可获取到第二矩阵中每个节点所对应的向量,该向量可以通过训练获得,并且在训练的过程中逐渐收敛。
207、执行目标函数。
本实施例中,目标函数为:
Figure BDA0002268170960000091
其中,所述
Figure BDA0002268170960000092
为词生成向量Word2vec为最大似然估计部分,所述f(u)为任意一个节点向量的函数映射,所述Ns(u)为与所述f(u)相邻节点的函数映射,通过计算Pr()任意一个节点与相邻节点间相似度的条件概率,之后通过取对数求得一个节点与相邻节点的最大似然估计,所述节点u属于节点集合V中的任意一个节点,求和后得到所有节点的最大似然估计;
Figure BDA0002268170960000093
为自定义函数部分,所述ai,j为所述第一矩阵中的元素。例如,在第一矩阵中,第一节点i与第二节点j之间登录设备相同且用户名相同,则在归一化后ai,j为最大值:1;在第二矩阵中,第一节点i向第二节点j转账100元,金额较小,则在第二矩阵中第一节点i与第二节点j 之间的相似度较小,ui与uj的乘积的值较小。此时,若单纯考虑第一特征(第一矩阵),则所得出的结果会偏大,若单纯考虑第二特征(第二矩阵),则所得出的结果会偏小。本申请实施例所定义的目标函数在原有目标函数后加上了
Figure BDA0002268170960000094
通过相减的方式在两个特征之间进行约束,从而在考虑了两个特征的基础上体现了节点之间的相似度,更加符合真实的图拓扑结构。
进一步地,所述根据所述第一模型获取所述服务器中各个节点的节点向量,包括:
基于负采样的Skip-gram模型和所述目标函数获取所述服务器中各个节点的节点向量。
更进一步地,所述根据所述第一模型获取所述服务器中各个节点的节点向量,包括:
根据所述目标函数获取所述各个节点的更新向量,包括:
根据随机游走生成的上下文节点序列计算所述最大似然估计部分:
Figure BDA0002268170960000101
根据所述第一矩阵及所述第二矩阵计算所述自定义函数部分:
ui:=ui+[aij-ui·uj]·uj
其中,所述ui+[aij-ui·uj]·uj为所述
Figure 3
求导之后的结果,即,节点向量ui在更新之后等于原有第一节点向量ui加上原有第二节点向量 uj乘以所述元素ai,j减去原有第一节点向量ui乘以原有第二节点向量uj的差;
将所述最大似然估计部分与所述自定义函数部分相加得到最终的更新向量:
v(w):=v(w)+ui
208、根据第一模型获取服务器中各个节点的节点向量。
本实施例中,根据训练好的第一模型获取节点向量的步骤可参阅上述步骤104,可选地,该第一模型可以为基于负采样的Skip-gram模型,目标函数为上述目标函数。
经过上述步骤101至104或步骤201至208,得到了服务器中各个节点的节点向量,从而能够供后续步骤对所获得的节点向量进行聚类或者分类操作。作为一种优选的实施方式,本申请实施例分别提供一种聚类和一种分类方案的具体实施方式,为便于理解,以下结合附图进行具体说明。
一、聚类。
请参阅图5,如图5所示,本申请实施例所提供的一种聚类算法包括以下步骤。
501、通过聚类算法对所述节点向量进行聚类,得到多个簇。
本实施例中,该聚类算法可以是现有技术中的任意一种算法,对此本申请实施例并不进行限定。所得到的多个簇为根据聚类算法对节点向量进行聚类后,根据特征聚类在一起的集合。
502、根据每个簇的恶意度来判断每个簇中的节点向量所对应节点的恶意度。
本实施例中,在完成聚类后,每个簇内的节点向量具有类似的特征,当一个簇中判定为黑节点的数量大于阈值时,可判定这个簇的恶意程度较高,具体的恶意度可以根据每个簇内所包括黑节点的数量来设定,此处不进行限定,该黑节点指的是非法的、或者是具有恶意操作行为的节点,例如游戏中通过频繁注册小号来换取游戏积分等福利的恶意操作节点。
二、分类。
请参阅图6,如图6所示,本申请实施例所提供的一种分类算法包括以下步骤。
601、通过已知的黑白标签和所述节点向量作为输入,输出为二分类概率值。
本实施例中,已知的黑白标签是指:已经判定为恶意黑节点或已经判定为无恶意白节点的节点向量,从而通过分类操作可以得知,与已知黑节点更接近的节点向量为黑节点,与已知白节点更接近节点向量为白节点。
602、对于二分类概率值大于阈值的节点,判定为具有恶意的黑节点。
本实施例中,当二分类概率值大于阈值时,即可判定当前节点向量更接近黑节点。从而即可判定当前节点向量为黑节点。
603、对于二分类概率值小于阈值的节点,判定为无恶意的白节点。
本实施例中,当二分类概率值小于阈值时,即可判定当前节点向量更接近白节点。从而即可判定当前节点向量为白节点。
在上述工作过程中,由于节点向量的生成过程经过了第二特征对第一特征进行限定,从而引入额外特征的约束,使得最终生成的向量不仅能够反映出图的拓扑信息,而且还能够融入节点自身的属性特征。需要说明的是,还可以根据需要加入更多的特征对第一特征进行限定,具体实现方式与上述相同,因此此处不再限定。
需要进一步说明的是,通过上述方式得到的节点向量与现有技术中节点算法向量的对比如图7所示,各个点表示不同的节点,点之间的距离表示节点之间的相似度,上方是现有技术中的Node2vec算法过程,下方是本申请实施例所提供的方法的过程。在图7中,一组节点向量701经过Node2vec算法的处理得到702中的向量,由于只考虑单一特征所产生的影响,因此各个节点向量之间的距离并没有发生变化。而在下方,节点向量703经过本申请实施例所提供的方法得到了704中的向量,可以看到,在704中,由于节点1、6和8之间的登录城市相同,因此1、6和8三个节点之间由于有了登录城市这个特征的限定,互相之间的距离比原来更近了一些。节点0和2之间也是同理,用于0和2之间登录设备相同,距离相较原来更近了。又例如,在节点5和节点9之间,由于性别不同,节点5和节点9之间的距离较原来更远了一些,在加入了性别这个特征后,节点5与9之间的距离发生了变化,上述变化使得所得到的拓扑结构更贴近原本的拓扑结构。
综上所述,本申请提供的多维特征图嵌入方法,包括:根据服务器各节点之间的第一特征的相似度构建第一矩阵,第一矩阵记录了各个节点间关于第一特征的相似度;根据服务器各节点之间的第二特征的相似度构建第二矩阵,第二矩阵记录了各个节点间关于第二特征的相似度,第二特征为与第一特征不同的特征;根据第一矩阵与第二矩阵进行模型训练,得到第一模型;根据第一模型获取服务器中各个节点的节点向量。本申请实施例还提供一种装置、设备及介质,在生成向量的过程中,通过引入额外特征的约束,使得最终生成的向量不仅能够反映出图的拓扑信息,而且还能够融入节点自身的属性特征。
上述对本申请实施例提供的方案进行了介绍。可以理解的是,计算机设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
从硬件结构上来描述,上述方法可以由一个实体设备实现,也可以由多个实体设备共同实现,还可以是一个实体设备内的一个逻辑功能模块,本申请实施例对此不作具体限定。
例如,上述方法均可以通过图8中的计算机设备来实现。图8为本申请实施例提供的计算机设备的硬件结构示意图。该计算机设备包括至少一个处理器801,通信线路802,存储器803以及至少一个通信接口804。
处理器801可以是一个通用中央处理器(central processing unit,CPU),微处理器,特定应用集成电路(application-specific integrated circuit,服务器 IC),或一个或多个用于控制本申请方案程序执行的集成电路。
通信线路802可包括一通路,在上述组件之间传送信息。
通信接口804,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。
存储器803可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyer服务器able programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM) 或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过通信线路802与处理器相连接。存储器也可以和处理器集成在一起。
其中,存储器803用于存储执行本申请方案的计算机执行指令,并由处理器801来控制执行。处理器801用于执行存储器803中存储的计算机执行指令,从而实现本申请上述实施例提供的方法。
可选的,本申请实施例中的计算机执行指令也可以称之为应用程序代码,本申请实施例对此不作具体限定。
在具体实现中,作为一种实施例,处理器801可以包括一个或多个CPU,例如图8中的CPU0和CPU1。
在具体实现中,作为一种实施例,计算机设备可以包括多个处理器,例如图8中的处理器801和处理器807。这些处理器中的每一个可以是一个单核 (single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,计算机设备还可以包括输出设备805 和输入设备806。输出设备805和处理器801通信,可以以多种方式来显示信息。例如,输出设备805可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备,阴极射线管(cathode ray tube, CRT)显示设备,或投影仪(projector)等。输入设备806和处理器801通信,可以以多种方式接收用户的输入。例如,输入设备806可以是鼠标、键盘、触摸屏设备或传感设备等。
上述的计算机设备可以是一个通用设备或者是一个专用设备。在具体实现中,计算机设备可以是台式机、便携式电脑、网络服务器、掌上电脑(personal digitalassistant,PDA)、移动手机、平板电脑、无线终端设备、嵌入式设备或有图8中类似结构的设备。本申请实施例不限定计算机设备的类型。
本申请实施例可以根据上述方法示例对存储设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
比如,以采用集成的方式划分各个功能单元的情况下,图9示出了一种多维特征图嵌入装置的示意图。
如图9所示,本申请实施例提供的多维特征图嵌入装置,包括:
第一构建单元901,所述第一构建单元901用于根据服务器各节点之间的第一特征的相似度构建第一矩阵,所述第一矩阵记录了所述各个节点间关于所述第一特征的相似度;
第二构建单元902,所述第二构建单元902用于根据所述服务器各节点之间的第二特征的相似度构建第二矩阵,所述第二矩阵记录了所述各个节点间关于所述第二特征的相似度,所述第二特征为与所述第一特征不同的特征;
训练单元903,所述训练单元903用于根据所述第一构建单元901构建的所述第一矩阵与所述第二构建单元902构建的所述第二矩阵进行模型训练,得到第一模型;
获取单元904,所述获取单元904用于根据所述训练单元903训练的所述第一模型获取所述服务器中各个节点的节点向量。
可选地,所述第一构建单元901还用于:
当第一节点i与第二节点j之间的第一子特征相同时,获取第一分值;
当所述第一节点i与所述第二节点j之间的第二子特征相同时,获取第二分值;
其中,所述第一节点i与所述第二节点j为所述服务器中的任意两个节点,所述第一子特征与所述第二子特征为所述第一特征下的子特征;
获取所述第一分值与所述第二分值的加和作为第一元素值,所述第一矩阵中的元素ai,j等于所述第一元素值,所述ai,j在所述第一矩阵的横行对应所述第一节点i,所述的ai,j在所述第一矩阵的纵列对应所述第二节点j。
可选地,所述第一构建单元901还用于:
将所述第一元素值进行归一化得到第二元素值,所述ai,j等于所述第二元素值。
可选地,所述第二构建单元902还用于:
根据第一节点i与第二节点j之间收发的第一数据值构建所述第二矩阵,其中,所述第二矩阵的元素bi,j等于所述第一数据值,所述bi,j在所述第二矩阵的横行对应所述第一节点i,所述的bi,j在所述第二矩阵的纵列对应所述第二节点j。
可选地,所述训练单元903,还用于:
获取所述第二矩阵中所述第一节点i的节点向量ui及所述第二节点的节点向量uj;
在所述第一模型中执行以下目标函数:
Figure BDA0002268170960000151
其中,
Figure BDA0002268170960000152
为词生成向量Word2vec中用于计算最大似然估计的算法,所述ai,j为所述第一矩阵中的元素。
可选地,所述装置还包括聚类单元905,所述聚类单元905用于:
通过聚类算法对所述节点向量进行聚类,得到多个簇;
根据所述每个簇的恶意度来判断每个簇中的节点向量所对应节点的恶意度。
可选地,所述装置还包括分类单元906,所述分类单元906用于:
通过已知的黑白标签和所述节点向量作为输入,输出为二分类概率值;
对于所述二分类概率值大于阈值的节点,判定为具有恶意的黑节点;
对于所述二分类概率值小于阈值的节点,判定为无恶意的白节点。
进一步的,本发明实施例还提供一种计算机存储介质,包括指令,当该指令在计算机设备上运行时,使得该计算机设备执行上述方法。
有关本申请实施例提供的计算机存储介质中存储的程序的详细描述可参照上述实施例,在此不做赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种多维特征图嵌入方法,其特征在于,包括:
根据服务器各节点之间的第一特征的相似度构建第一矩阵,所述第一矩阵记录了所述各个节点间关于所述第一特征的相似度;
根据所述服务器各节点之间的第二特征的相似度构建第二矩阵,所述第二矩阵记录了所述各个节点间关于所述第二特征的相似度,所述第二特征为与所述第一特征不同的特征;
根据所述第一矩阵与所述第二矩阵进行模型训练,得到第一模型;
根据所述第一模型获取所述服务器中各个节点的节点向量。
2.根据权利要求1所述的方法,其特征在于,所述根据服务器各节点之间的第一特征的相似度构建第一矩阵,包括:
当第一节点i与第二节点j之间的第一子特征相同时,获取第一分值;
当所述第一节点i与所述第二节点j之间的第二子特征相同时,获取第二分值;
其中,所述第一节点i与所述第二节点j为所述服务器中的任意两个节点,所述第一子特征与所述第二子特征为所述第一特征的子特征;
获取所述第一分值与所述第二分值的加和作为第一元素值,所述第一矩阵中的元素ai,j等于所述第一元素值,所述ai,j在所述第一矩阵的横行对应所述第一节点i,所述的ai,j在所述第一矩阵的纵列对应所述第二节点j。
3.根据权利要求2所述的方法,其特征在于,所述获取所述第一分值与所述第二分值的加和作为第一元素值之后,还包括:
将所述第一元素值进行归一化得到第二元素值,所述ai,j等于所述第二元素值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述服务器各节点之间的第二特征的相似度构建第二矩阵,包括:
根据第一节点i与第二节点j之间收发的第一数据值构建所述第二矩阵,其中,所述第二矩阵的元素bi,j等于所述第一数据值,所述bi,j在所述第二矩阵的横行对应所述第一节点i,所述的bi,j在所述第二矩阵的纵列对应所述第二节点j。
5.根据权利要求4所述的方法,其特征在于,根据所述第一矩阵与所述第二矩阵进行模型训练,得到第一模型,包括:
获取所述第二矩阵中所述第一节点i的节点向量ui及所述第二节点j的节点向量uj
在所述第一模型中执行以下目标函数:
Figure FDA0002268170950000021
其中,
Figure FDA0002268170950000022
为词生成向量Word2vec为最大似然估计部分,所述f(u)为任意一个节点向量的函数映射,所述Ns(u)为与所述f(u)相邻节点的函数映射,通过计算Pr()任意一个节点与相邻节点间相似度的条件概率,之后通过取对数求得一个节点与相邻节点的最大似然估计,所述节点u属于节点集合V中的任意一个节点,求和后得到所有节点的最大似然估计;
Figure FDA0002268170950000023
为自定义函数部分,所述ai,j为所述第一矩阵中的元素;
所述根据所述第一模型获取所述服务器中各个节点的节点向量,包括:
基于负采样的Skip-gram模型和所述目标函数获取所述服务器中各个节点的节点向量。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一模型获取所述服务器中各个节点的节点向量,包括:
根据所述目标函数获取所述各个节点的更新向量,包括:
根据随机游走生成的上下文节点序列计算所述最大似然估计部分:
Figure RE-FDA0002368045780000024
根据所述第一矩阵及所述第二矩阵计算所述自定义函数部分:
ui:=ui+[aij-ui·uj]·uj
其中,所述ui+[aij-ui·uj]·uj为所述
Figure 1
求导之后的结果,即,节点向量ui在更新之后等于原有第一节点向量ui加上原有第二节点向量uj乘以所述元素ai,j减去原有第一节点向量ui乘以原有第二节点向量uj的差;
将所述最大似然估计部分与所述自定义函数部分相加得到最终的更新向量:
v(w):=v(w)+ui
7.根据权利要求1至6任一所述的方法,其特征在于,所述方法还包括:
通过聚类算法对所述节点向量进行聚类,得到多个簇;
根据所述每个簇的恶意度来判断每个簇中的节点向量所对应节点的恶意度,包括:
通过已知的黑白标签和所述节点向量作为输入,输出为二分类概率值;
对于所述二分类概率值大于阈值的节点,判定为具有恶意的黑节点;
对于所述二分类概率值小于阈值的节点,判定为无恶意的白节点。
8.一种多维特征图嵌入装置,其特征在于,包括:
第一构建单元,所述第一构建单元用于根据服务器各节点之间的第一特征的相似度构建第一矩阵,所述第一矩阵记录了所述各个节点间关于所述第一特征的相似度;
第二构建单元,所述第二构建单元用于根据所述服务器各节点之间的第二特征的相似度构建第二矩阵,所述第二矩阵记录了所述各个节点间关于所述第二特征的相似度,所述第二特征为与所述第一特征不同的特征;
训练单元,所述训练单元用于根据所述第一构建单元构建的所述第一矩阵与所述第二构建单元构建的所述第二矩阵进行模型训练,得到第一模型;
获取单元,所述获取单元用于根据所述训练单元训练的所述第一模型获取所述服务器中各个节点的节点向量。
9.一种计算机设备,其特征在于,所述计算机设备包括:交互装置、输入/输出(I/O)接口、处理器和存储器,所述存储器中存储有程序指令;
所述交互装置用于获取用户输入的操作指令;
所述处理器用于执行存储器中存储的程序指令,执行如权利要求1-7中任意一项所述的方法。
10.一种计算机可读存储介质,包括指令,其特征在于,当所述指令在计算机设备上运行时,使得所述计算机设备执行如权利要求1-7中任意一项所述的方法。
CN201911095383.4A 2019-11-11 2019-11-11 一种多维特征图嵌入方法、装置、设备及介质 Pending CN110909777A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911095383.4A CN110909777A (zh) 2019-11-11 2019-11-11 一种多维特征图嵌入方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911095383.4A CN110909777A (zh) 2019-11-11 2019-11-11 一种多维特征图嵌入方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN110909777A true CN110909777A (zh) 2020-03-24

Family

ID=69817138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911095383.4A Pending CN110909777A (zh) 2019-11-11 2019-11-11 一种多维特征图嵌入方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN110909777A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460234A (zh) * 2020-03-26 2020-07-28 平安科技(深圳)有限公司 图查询方法、装置、电子设备及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460234A (zh) * 2020-03-26 2020-07-28 平安科技(深圳)有限公司 图查询方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN111177569B (zh) 基于人工智能的推荐处理方法、装置及设备
Akimushkin et al. Text authorship identified using the dynamics of word co-occurrence networks
US11190562B2 (en) Generic event stream processing for machine learning
US11501080B2 (en) Sentence phrase generation
US20230102337A1 (en) Method and apparatus for training recommendation model, computer device, and storage medium
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
CN111371767B (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN110909165A (zh) 数据处理方法、装置、介质及电子设备
WO2023023379A1 (en) Semantic map generation from natural-language text documents
US11003950B2 (en) System and method to identify entity of data
US20230236892A1 (en) Apparatus for resource enhacement
CN113011889A (zh) 账号异常识别方法、系统、装置、设备及介质
Aralikatte et al. Fault in your stars: an analysis of android app reviews
CN113204643B (zh) 一种实体对齐方法、装置、设备及介质
CN110688540A (zh) 一种作弊账户筛选方法、装置、设备及介质
CN113378090B (zh) 一种互联网网站相似度分析方法、装置以及可读存储介质
CN113626576A (zh) 远程监督中关系特征抽取方法、装置、终端及存储介质
CN112364198A (zh) 一种跨模态哈希检索方法、终端设备及存储介质
CN110909777A (zh) 一种多维特征图嵌入方法、装置、设备及介质
JP7236501B2 (ja) 文書類似度学習に基づくディープラーニングモデルの転移学習方法およびコンピュータ装置
CN115186096A (zh) 针对特定类型分词的识别方法、装置、介质及电子设备
CN113420127A (zh) 威胁情报处理方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40022011

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination