CN116975809A - 一种数据处理方法、装置、计算机设备及存储介质 - Google Patents
一种数据处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN116975809A CN116975809A CN202211590029.0A CN202211590029A CN116975809A CN 116975809 A CN116975809 A CN 116975809A CN 202211590029 A CN202211590029 A CN 202211590029A CN 116975809 A CN116975809 A CN 116975809A
- Authority
- CN
- China
- Prior art keywords
- account
- service
- sample
- service account
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 289
- 238000012512 characterization method Methods 0.000 claims abstract description 144
- 238000012545 processing Methods 0.000 claims abstract description 98
- 238000011156 evaluation Methods 0.000 claims description 77
- 238000000034 method Methods 0.000 claims description 66
- 238000013210 evaluation model Methods 0.000 claims description 57
- 238000012549 training Methods 0.000 claims description 49
- 238000013507 mapping Methods 0.000 claims description 44
- 230000003993 interaction Effects 0.000 claims description 43
- 230000002776 aggregation Effects 0.000 claims description 37
- 238000004220 aggregation Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 15
- 238000004088 simulation Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 12
- 238000013209 evaluation strategy Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims 2
- 238000001514 detection method Methods 0.000 abstract description 16
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 13
- 230000009286 beneficial effect Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007789 sealing Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/45—Structures or tools for the administration of authentication
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种数据处理方法、装置、计算机设备及存储介质,可应用于人工智能场景,包括:在获取到待检测的业务账号时,确定业务粗标签以及业务账号对应的业务账号关系;业务账号关系包括第一业务账号关系和第二业务账号关系;基于第一业务账号关系所关联的对象以及第二业务账号关系所关联的虚拟群组,建立业务账号对应的业务异构图,基于业务异构图,生成第一业务表征向量;基于业务粗标签以及业务账号对应的原始特征,确定原始业务表征向量,对第一业务表征向量以及原始业务表征向量进行拼接处理,得到第二业务表征向量;第二业务表征向量用于预测业务账号的合法性。采用本申请实施例,可以提升账号检测的准确度。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术的发展,越来越多的用户通过在应用客户端上注册账号来更加便捷的获取网络信息,但非法用户为了谋取暴利,往往会恶意注册一些帐号(即非法账号)来传播非法信息流,从而极大程度的影响了正常用户的用户体验,因此,如何有效、准确地检测此类非法账号显得尤为重要。然而,在传统恶意的检测方法中,往往通过获取待检测的账号的真实物理关系(例如,好友关系、相同设备关系)等,来构建该账号的社交拓扑结构图。其中,这里的社交拓扑结构图可以用于检测该账号是否为恶意注册的账号。但是,对于新注册的账号而言,由于新注册的账号使用时间短,留下的足迹少,因此仅靠这种真实物理关系构建的社交拓扑结构图还是比较稀疏的,这将造成后续采用该社交拓扑结构图所得到的账号检测结果不够准确。
发明内容
本申请实施例提供一种数据处理方法、装置、计算机设备及存储介质,可以提升账号检测的准确度。
本申请实施例一方面提供一种数据处理方法,包括:
在获取到待检测的业务账号时,确定业务账号的业务粗标签以及业务账号对应的业务账号关系;业务账号关系包括第一业务账号关系和第二业务账号关系;第一业务账号关系用于关联与业务账号具有相同属性的对象;第二业务账号关系用于关联业务账号的虚拟群组;虚拟群组中的账号与业务账号具有关联属性,且虚拟群组不属于在应用客户端中进行通讯的公共群组;
基于第一业务账号关系所关联的对象以及第二业务账号关系所关联的虚拟群组,建立业务账号对应的业务异构图,基于业务异构图,生成业务账号对应的第一业务表征向量;
基于业务粗标签以及业务账号对应的原始特征,确定业务账号对应的原始业务表征向量,对第一业务表征向量以及原始业务表征向量进行拼接处理,得到业务账号对应的第二业务表征向量;第二业务表征向量用于预测业务账号的合法性。
本申请实施例一方面提供一种数据处理方法,包括:
获取用于对初始注册评估模型进行训练的样本账号,确定样本账号的样本账号关系以及样本账号的样本标签;样本标签包括样本粗标签以及样本细标签;初始注册评估模型包括目标编码子模型和初始分类子模型;目标编码子模型是基于样本粗标签以及样本账号对应的样本异构图,对初始编码子模型进行训练后所得到的;样本异构图是基于样本账号关系所构建的;样本账号关系包括第一样本账号关系和第二样本账号关系;第一样本账号关系用于关联与样本账号具有相同属性的对象;第二样本账号关系用于关联样本账号的虚拟群组;
通过目标编码子模型以及样本异构图,对样本账号进行编码处理,得到用于表征样本账号的第一样本表征向量,基于样本粗标签、样本账号对应的原始特征以及第一样本表征向量,得到样本账号对应的第二样本表征向量;
基于第二样本表征向量以及样本细标签,对初始分类子模型进行训练,得到目标分类子模型;
将包括目标分类子模型和目标编码子模型的初始注册评估模型确定为目标注册评估模型;目标注册评估模型用于预测业务账号的合法性。
本申请实施例一方面提供一种数据处理装置,包括:
业务关系确定模块,用于在获取到待检测的业务账号时,确定业务账号的业务粗标签以及业务账号对应的业务账号关系;业务账号关系包括第一业务账号关系和第二业务账号关系;第一业务账号关系用于关联与业务账号具有相同属性的对象;第二业务账号关系用于关联业务账号的虚拟群组;虚拟群组中的账号与业务账号具有关联属性,且虚拟群组不属于在应用客户端中进行通讯的公共群组;
第一业务向量生成模块,用于基于第一业务账号关系所关联的对象以及第二业务账号关系所关联的虚拟群组,建立业务账号对应的业务异构图,基于业务异构图,生成业务账号对应的第一业务表征向量;
第二业务向量生成模块,用于基于业务粗标签以及业务账号对应的原始特征,确定业务账号对应的原始业务表征向量,对第一业务表征向量以及原始业务表征向量进行拼接处理,得到业务账号对应的第二业务表征向量;第二业务表征向量用于预测业务账号的合法性。
其中,该业务关系确定模块包括:
粗标签确定单元,用于在获取到待检测的业务账号时,基于针对业务账号的注册评估策略,确定业务账号的业务粗标签;
第一关系确定单元,用于基于应用客户端,确定业务账号对应的第一业务账号关系;
第二关系确定单元,用于查找与业务账号具有相似属性的账号,将具有同一相似属性的账号进行群组模拟构建,得到X1个虚拟群组,分别建立每个虚拟群组与业务账号之间的账号关系,将X1个账号关系作为业务账号对应的第二业务账号关系;X1为正整数;
业务关系确定单元,用于将第一业务账号关系和第二业务账号关系确定为业务账号对应的业务账号关系。
其中,注册评估策略包括第一评估策略;第一评估策略包括非法信息流以及次数阈值;
该粗标签确定单元包括:
第一获取子单元,用于在获取到待检测的业务账号时,从业务账号对应的原始特征中,获取业务账号在评估周期内的第一交互特征;
第一确定子单元,用于若第一交互特征指示业务账号发送过非法信息流,且信息流发送次数达到次数阈值,则将用于表征不具备合法性的第一标签作为业务账号的业务粗标签;
第二确定子单元,用于若第一交互特征指示业务账号发送过非法信息流,且信息流发送次数未达到次数阈值,则将用于表征不确定性的第二标签作为业务账号的业务粗标签;
第三确定子单元,用于若第一交互特征指示业务账号未发送过非法信息流,则将用于表征具备合法性的第三标签作为业务账号的业务粗标签。
其中,注册评估策略包括第二评估策略;第二评估策略包括在单位时长内所设定的第一频率阈值和第二频率阈值,第一频率阈值大于第二频率阈值;
该粗标签确定单元还包括:
第二获取子单元,用于在获取到待检测的业务账号时,从业务账号对应的原始特征中,获取业务账号在评估周期内的第二交互特征,基于第二交互特征,确定业务账号在单位时长内执行账号添加操作的添加频率;
第四确定子单元,用于若添加频率达到第一频率阈值,则将用于表征不具备合法性的第一标签作为业务账号的业务粗标签;
第五确定子单元,用于若添加频率未达到第二频率阈值,则将用于表征不确定性的第二标签作为业务账号的业务粗标签;
第六确定子单元,用于若添加频率大于第二频率阈值,且未达到第一频率阈值,则将用于表征具备合法性的第三标签作为业务账号的业务粗标签。
其中,该第一关系确定单元包括:
第一建立子单元,用于若应用客户端为社交客户端,则获取业务账号对应的X2个地址标识,分别建立每个地址标识与业务账号之间的账号关系,得到X2个账号关系;X2为正整数;
第二建立子单元,用于获取包含业务账号的X3个公共群组,分别建立每个公共群组与业务账号之间的账号关系,得到X3个账号关系;X3为正整数;
第一关系确定子单元,用于将X2个账号关系和X3个账号关系确定为业务账号对应的第一业务账号关系。
其中,该第二关系确定单元包括:
属性选择子单元,用于从业务账号的属性集合中选择M个属性,基于M个属性,生成X1个待匹配属性;M为正整数;X1个待匹配属性中的任意两个待匹配属性所包含的属性互不相同;X1个待匹配属性包括待处理属性;
模拟建群子单元,用于从应用客户端所注册的原始账号集合中,获取与待处理属性相匹配的账号集合,对获取到的账号集合中的账号进行群组模拟构建,得到待处理属性对应的虚拟群组;
第二关系确定子单元,用于当获取到X1个待匹配属性分别对应的虚拟群组时,分别建立每个虚拟群组与业务账号之间的账号关系,将X1个账号关系作为业务账号对应的第二业务账号关系。
其中,业务账号中的属性集合包括与账号名称相关联的第一属性、与账号头像相关联的第二属性、与注册信息相关联的第三属性以及与交互特征相关联的第四属性;待匹配属性包括第一属性、第二属性、第三属性以及第四属性中的至少一个。
其中,该第一业务向量生成模块包括:
异构图建立单元,用于基于第一业务账号关系所关联的对象以及第二业务账号关系所关联的虚拟群组,建立业务账号对应的业务异构图;业务异构图中包括Y个节点;Y为正整数;
初始向量确定单元,用于基于业务异构图,确定Y个节点中的每个节点的初始向量;初始向量用于表征对应节点的节点信息;
模型获取单元,用于获取到针对业务账号的目标注册评估模型;目标注册评估模型包括目标编码子模型;
编码处理单元,用于将Y个初始向量输入至目标编码子模型,通过目标编码子模型,对业务账号进行编码处理,得到业务账号对应的第一业务表征向量。
其中,该编码处理单元包括:
特征映射子单元,用于在目标编码子模型中,基于Y个初始向量以及用于进行维度对齐的映射矩阵,分别对Y个节点中的每个节点进行特征映射,得到Y个映射向量;目标编码子模型包括第一隐藏层和第二隐藏层;
邻居节点确定子单元,用于基于业务异构图,确定业务账号在目标节点类型下的第一邻居节点和第二邻居节点;第一邻居节点为业务账号在目标节点类型下的邻居节点;第二邻居节点为第一邻居节点下所包含的账号对应的节点;
第一聚合子单元,用于通过第一隐藏层以及Y个映射向量,对业务账号的第二邻居节点进行特征聚合处理,得到第一邻居节点的邻居隐藏向量;
第二聚合子单元,用于通过第二隐藏层以及第一邻居节点的邻居隐藏向量,对业务账号的第一邻居节点进行特征聚合处理,得到业务账号对应的第一业务表征向量。
其中,第一邻居节点包括邻居节点Vi;i为小于或者等于Z的正整数;Z用于表示第一邻居节点的节点总数量;
该第一聚合子单元还具体用于:
将Y个映射向量输入至第一隐藏层中,获取与第一隐藏层相关联的权重系数;
从Y个映射向量中,确定邻居节点Vi对应的第二邻居节点的映射向量,对确定的映射向量以及Y个映射向量进行聚合处理,得到聚合向量;
基于聚合向量以及权重系数,生成邻居节点Vi对应的隐藏向量,直到得到Z个第一邻居节点分别对应的隐藏向量;
对Z个隐藏向量进行拼接处理,得到第一邻居节点的邻居隐藏向量。
其中,该装置还包括:
评估参数确定模块,用于将第二业务表征向量输入至目标注册评估模型中的目标分类子模型,通过目标分类子模型,确定业务账号的评估参数;
第一合法性确定模块,用于若评估参数达到与目标分类子模型相关联的评估阈值,则确定业务账号不具备合法性,将业务账号确定为非法账号;
第二合法性确定模块,用于若评估参数未达到与评估阈值,则确定业务账号具备合法性,将业务账号确定为合法账号。
本申请实施例一方面提供一种数据处理装置,包括:
样本获取模块,用于获取用于对初始注册评估模型进行训练的样本账号,确定样本账号的样本账号关系以及样本账号的样本标签;样本标签包括样本粗标签以及样本细标签;初始注册评估模型包括目标编码子模型和初始分类子模型;目标编码子模型是基于样本粗标签以及样本账号对应的样本异构图,对初始编码子模型进行训练后所得到的;样本异构图是基于样本账号关系所构建的;样本账号关系包括第一样本账号关系和第二样本账号关系;第一样本账号关系用于关联与样本账号具有相同属性的对象;第二样本账号关系用于关联样本账号的虚拟群组;
样本表征模块,用于通过目标编码子模型以及样本异构图,对样本账号进行编码处理,得到用于表征样本账号的第一样本表征向量,基于样本粗标签、样本账号对应的原始特征以及第一样本表征向量,得到样本账号对应的第二样本表征向量;
模型训练模块,用于基于第二样本表征向量以及样本细标签,对初始分类子模型进行训练,得到目标分类子模型;
模型确定模块,用于将包括目标分类子模型和目标编码子模型的初始注册评估模型确定为目标注册评估模型;目标注册评估模型用于预测业务账号的合法性。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,存储器用于存储计算机程序,处理器用于调用计算机程序,以使得计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行本申请实施例中的方法。
在本申请实施例中,计算机设备在获取到待检测的业务账号时,可以确定业务账号的业务粗标签以及业务账号对应的业务账号关系。其中,这里的业务账号关系并非仅为该业务账号的真实存在关系,而是可以包括业务账号在应用客户端中的真实存在关系(即第一业务账号关系)和虚拟关系(即第二业务账号关系)。其中,这里的第一业务账号关系可以用于关联与业务账号具有相同属性的对象;第二业务账号关系可以用于关联业务账号的虚拟群组,该虚拟群组中的账号与业务账号具有关联属性,且虚拟群组不属于在社交应用中进行通讯的公共群组。进一步地,该计算机设备可以基于业务账号关系所关联的对象(例如,第一业务账号关系所关联的对象、第二业务账号关系所关联的虚拟群组),建立该业务账号对应的业务异构图。可以理解的是,虚拟群组的引入,大大增加了业务异构图的稠密性,使得该业务异构图可以包含该业务账号更加丰富的特征,这意味着后续根据该业务异构图所生成的第一业务表征向量,能够更加有效地表征该业务账号的节点结构信息和节点属性信息。进一步地,该计算机设备可以基于业务粗标签以及业务账号对应的原始特征,确定用于与第一业务表征向量进行拼接的原始业务表征向量,进而使得拼接处理后的第二业务表征向量能够更加准确的表征该业务账号。由于该第二业务表征向量可以用于预测业务账号的合法性,因此,本申请实施例涉及的这种账号检测方法能够有效提升账号检测的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种用于进行账号检测的场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种用于建立业务异构图的场景示意图;
图5是本申请实施例提供的一种数据处理方法的流程示意图;
图6是本申请实施例提供的一种融合粗细标签的模型训练场景示意图;
图7是本申请实施例提供的一种数据处理装置的结构示意图;
图8是本申请实施例提供的一种数据处理装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的示意图;
图10是本申请实施例提供的一种数据处理系统的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,本申请实施例提出了一种融合粗细标签的账号检测方法,该方法可以涉及人工智能领域中的机器学习方向。可以理解的是,所谓人工智能(ArtificialIntelligence,简称AI)是利用数字计算机或者数字计算机控制的计算模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
其中,深度学习中的图神经网络(Graph Neural Networks,简称GNN)是一种直接作用于图结构的神经网络,GNN可以通过图结构所指示的邻居节点的特征,来更新当前节点的隐藏状态。这里的图(Graph)是指由节点和边两部分所组成的一种数据结构。其中,这里的图可以包括同构图和异构图。该同构图中的节点均属于同一类型,异构图中的节点可以存在多种类型。本申请实施例在检测某一应用客户端所注册的账号(即业务账号)时,可以应用异构的图神经网络(即编码子模型),基于为该业务账号所建立的业务异构图,对待检测的业务账号进行嵌入表示,从而可以得到能够用于表征该业务账号的节点结构信息和节点属性信息的第一业务表征向量。
其中,机器学习中的集成学习算法(例如,Extreme Gradient Boosting,简称XGBoost)是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为XGBoost是一种提升树模型,所以它是将许多树模型集成在一起,形成一个很强的分类器。本申请实施例在检测某一应用客户端所注册的业务账号时,可以应用XGBoost机器学习模型(即分类子模型),预测该业务账号的合法性,即判断业务账号是否属于恶意注册的非法账号,进而在确定该业务账号属于非法账号时,可以对其进行封号处理,比如,本申请实施例可以对非法账号进行惩罚,在某一时间段内禁止其登录,从而可以有效提升正常用户在该应用客户端的用户体验。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括服务器10F和终端设备集群。该终端设备集群可以包括一个或者多个终端设备。如图1所示,该终端设备集群具体可以包括终端设备100a、终端设备100b、终端设备100c、…、终端设备100n。如图1所示,终端设备100a、终端设备100b、终端设备100c、…、终端设备100n可以分别与上述服务器10F进行网络连接,以便于每个终端设备可以通过该网络连接与服务器10F进行数据交互。其中,这里的网络连接不限定连接方式,可以通过有线通信方式进行直接或间接地连接,也可以通过无线通信方式进行直接或间接地连接,还可以通过其他方式,本申请在此不做限制。
其中,该终端设备集群中的每个终端设备均可以包括:智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等具有数据处理功能的智能终端。应当理解,如图1所示的终端设备集群中的每个终端设备均可以安装有应用客户端,当该应用客户端运行于各终端设备中时,可以分别与上述图1所示的服务器10F之间进行数据交互。其中,该应用客户端可以包括社交客户端、多媒体客户端(例如,视频客户端)、娱乐客户端(例如,游戏客户端)、信息流客户端、教育客户端、直播客户端等应用客户端。其中,该应用客户端可以为独立的客户端,也可以为集成在某客户端(例如,社交客户端、教育客户端以及多媒体客户端等)中的嵌入式子客户端,在此不做限定。
如图1所示,本申请实施例中的服务器10F可以为该应用客户端对应的服务器。该服务器10F可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。其中,本申请实施例将不对终端设备和服务器的数量进行限制。
为便于理解,本申请实施例可以在图1所示的多个终端设备中选择一个终端设备作为目标终端设备。例如,本申请实施例可以将图1所示的终端设备100a作为目标终端设备,该目标终端设备中可以集成有应用客户端。此时,该目标终端设备可以通过该应用客户端对应的业务数据平台与服务器10F之间实现数据交互。其中,这里的应用客户端可以运行有已经训练完成的目标注册评估模型,该目标注册评估模型是一种融合粗细标签(即粗标签和细标签)的注册评估模型,粗细标签的融合运用使得该目标注册评估模型具有泛化能力,能够更加准确的对该应用客户端中的某一待检测的业务账号的合法性进行预测。
在模型训练过程中,本申请实施例可以将样本账号的粗标签称之为样本粗标签,将样本账号的细标签称之为样本细标签。其中,这里的样本粗标签可以为是指通过用于进行标签评估的机器学习模型或注册评估策略等方法对样本账号进行可疑程度检测的审计后所得到的标签,该样本粗标签可以包括第一标签、第二标签和第三标签。其中,第一标签是指用于表征不具备合法性的标签(例如,黑标签),该第一标签可以用于指示恶意注册的非法账号;第二标签是指用于表征不确定性的第二标签(例如,灰标签),该第二标签可以用于指示未知账号;第三标签是指用于表征具备合法性的第三标签(例如,白标签),该第三标签可以用于指示正常注册的账号。其中,这里的样本细标签可以是指通过业务标记对象(例如,具有从业经验的业务人员)对样本账号进行审计后所得到的标签,即该样本细标签可以明确指示样本账号是否属于恶意注册的非法账号,即包括第一标签和第三标签。
其中,这里的目标注册评估模型可以包括目标编码子模型和目标分类子模型。在模型应用过程中,该目标编码子模型可以用于对业务账号进行嵌入表示,以得到能够用于有效表征该业务账号的节点结构信息和节点属性信息的低维向量(即第一业务表征向量)。这里的目标分类子模型可以用于预测该业务账号的合法性,即通过目标分类子模型输出的评估参数来确定业务账号是否属于恶意注册的非法账号。
在本申请实施例中,具有模型应用功能的计算机设备可以为图1所示的服务器10F,也可以为图1所示的终端设备集群中的任意一个终端设备,例如,终端设备100a,这里将不对计算机设备的具体形式进行限定。应当理解,该计算机设备在对应用客户端中注册的某一账号(即业务账号)进行检测时,可以确定该业务账号的粗标签(即业务粗标签)以及该业务账号的业务账号关系。
这里的业务账号关系不仅包括了第一业务账号关系(即用于关联与业务账号具有相同属性的对象),还包括了第二业务账号关系(即用于关联该业务账号的虚拟群组)。其中,这里的第一业务账号关系所关联的对象可以包括与业务账号属于同一地址标识的账号、与业务账号属于同一公共群组的账号等。
这里的第二业务账号关系所关联的虚拟群组中的账号与该业务账号具有关联属性(即相似属性或相似行为)。其中,一个账号的属性集合可以包括多种,例如,具体可以包括与账号名称相关联的属性、与账号头像相关联的属性、与注册信息(例如,注册时填写的资料属性、注册时的设备环境属性信息等)相关联的属性、与交互特征(又称行为特征)相关联的属性、与签名信息相关联的属性、与注册对象相关联的属性等等。基于此,这里的虚拟群组的账号与业务账号具有相似性的属性可以包括与这属性集合中的至少一个属性。
由于业务账号对应的业务异构图是该计算机设备基于第一业务账号关系所关联的对象以及第二业务账号关系所关联的虚拟群组所建立的,这意味着该业务异构图的稠密性大大增加了,从而使得该业务异构图中包含了该业务账号更加丰富的特征,进而使得后续根据该业务异构图所生成的用于表征业务账号的业务表征向量(即第一业务表征向量),能够更加有效地表征该业务账号的节点结构信息和节点属性信息。进一步地,该计算机设备可以基于业务粗标签以及业务账号对应的原始特征,确定该业务账号对应的原始业务表征向量,并对原始业务表征向量以及第一业务表征向量进行拼接处理,从而能够得到更加准确的用于表征业务账号的业务表征向量(即第二业务表征向量)。由于该第二业务表征向量可以用于预测业务账号的合法性,因此,本申请实施例涉及的这种账号检测方法能够有效提升账号检测的准确度。
为便于理解,进一步地,请参见图2,图2是本申请实施例提供的一种用于进行账号检测的场景示意图。如图2所示,本申请实施例中的计算机设备可以为具备数据处理功能的计算机设备,该计算机设备可以为上述图1所示的终端设备集群中的任意一个终端设备,例如,终端设备100a,该计算机设备也可以为上述图1所示的服务器10F,这里将不对计算机设备进行限定。
其中,本申请实施例可以将需要进行检测的账号称之为业务账号,例如,图2所示账号20P。该账号20P可以为某一业务对象(例如,用户a)在应用客户端(例如,社交客户端)中注册的账号。
如图2所示,注册评估模型200W可以为已经训练完成的用于对账号20P的合法性进行预测的目标注册评估模型,该注册评估模型200W可以包括编码子模型200W1和分类子模型200W2。其中,该编码子模型200W1可以为一种异构的图神经网络(即异构图注意力网络)所构成的模型。这里的异构图注意力网络可以为第一异构图神经网络(例如,Heterogeneousgraph attention network,简称HAN)、第二异构图神经网络(例如,一种基于两级注意力机制的异构图注意力网络,简称HGAT)以及第三异构图神经网络(例如,HGraphSAGE)中的任意一种。其中,HGraphSAGE是一种对图样本聚合网络(例如,Graph SAmple and aggregate,简称GraphSAGE)进行改进后所得到的异构图神经网络。当然,该编码子模型200W1还可以为其他类型的异构图神经网络所构成的,这里将不再一一进行举例。其中,这里的分类子模型200W2可以用于预测该账号20P的合法性,即通过分类子模型200W2输出的评估参数,来确定业务账号是否属于恶意注册的非法账号。例如,该分类子模型200W2可以为XGBoost机器学习模型。
应当理解,计算机设备在对账号20P进行检测时,可以确定该账号20P的业务粗标签以及该账号20P的业务账号关系。如图2所示,这里的业务账号关系可以包括账号关系21x(即第一业务账号关系)和账号关系22x(即第二业务账号关系)。其中,这里的账号关系21x可以用于关联与账号20P具有相同属性的对象(例如,与账号20P具有同一地址标识的账号、与账号20P具有同一公共群组的账号);账号关系22x可以用于关联账号20P的虚拟群组,这里的虚拟群组中的账号与账号20P具有关联属性,且虚拟群组不属于在应用客户端中进行通讯的公共群组。
其中,账号关系21x可以包括多个属性,这里可以以2个为例,具体可以包括属性1和属性2。应当理解,属性1与属性2可以为同一类型的属性(比如,均为地址标识),也可以为不同类型的属性(比如,属性1为地址标识,属性2为公共群组),这里将不对其进行限定。比如,在应用客户端为社交客户端时,该账号关系21x中的属性1可以为账号20P的某一地址标识(例如,地址标识1),则这意味着该属性1包括的账号与该账号20P具有同一地址标识,即均属于地址标识1下的账号;该账号关系21x中的属性2可以为包含账号20P的某一公共群组(例如,公共群组1),则这意味着该属性2包含的账号与该账号20P具有同一公共群组,即均属于公共群组1所包括的账号。
其中,账号关系22x可以包括多个虚拟群组,这里可以以2个为例,具体可以包括虚拟群组1和虚拟群组2。比如,虚拟群组1中的账号可以为与账号20P的账号名称和账号20P的账号头像均具有相似性的账号。虚拟群组2中的账号可以为与账号20P的注册信息(例如,注册时填写的资料属性、注册时的设备环境属性信息等)具有相似性的账号。
进一步地,该计算机设备可以基于账号关系21x所关联的对象以及账号关系22x所关联的虚拟群组,建立账号20P对应的业务异构图,进而可以基于业务异构图,生成用于表征账号20P的第一业务表征向量(例如,图2所示的表征向量210f)。比如,该计算机设备可以通过编码子模型200W1以及业务异构图,对账号20P进行编码处理,从而可以得到表征向量210f。由于这里的业务异构图不仅可以包括该账号20P的真实存在的物理关系或拓扑关系,还可以包括该账号20P中具有关联属性的虚拟关系,这种构图方式能够大大增加业务异构图的稠密性,使得该业务异构图能够包含账号20P更加丰富的特征,进而使得后续得到的表征向量210f能够更加有效地表征账号20P的节点结构信息和节点属性信息,从而提升编码准确度。
可以理解的是,该计算机设备在获取到账号20P时,还可以基于账号20P的业务粗标签以及账号20P的原始特征(例如,属性特征、对象特征、交互特征以及统计特征等),确定该账号20P的原始业务表征向量(例如,图2所示的表征向量200f),进而可以对表征向量210f和表征向量200f进行拼接处理,以得到账号20P对应的第二业务表征向量(例如,图2所示的表征向量220f)。其中,该表征向量220f可以用于预测账号20P的合法性,比如,该计算机设备可以将表征向量220f输入至分类子模型200W2中,由该分类子模型200W2输出该账号20P的评估参数,进而可以基于该账号20P的评估参数以及与分类子模型200W2相关联的评估阈值(例如,80%),确定账号20P的合法性。这里的评估阈值可以根据实际业务需求进行动态调整,这里将不对其进行限定。
由此可见,本申请实施例中的计算机设备在检测账号20P时,可以通过账号20P的业务账号关系中的真实存在关系(即账号关系21x)和虚拟关系(即账号关系22x),建立账号20P对应的业务异构图,以使后续能够基于该业务异构图,得到用于有效地表征该业务账号的节点结构信息和节点属性信息的表征向量210f。这意味着后续对表征向量210f和表征向量200f进行拼接处理后所得到的表征向量220f也更加准确,以至于能够更加精准的预测账号20P的合法性。
其中,具备数据处理功能的计算机设备通过一种融合粗细标签的目标注册评估模型以及针对业务账号建立的业务异构图,对业务账号的合法性进行预测的具体实现方式可以参见下述图3-图6所对应的实施例。
进一步地,请参见图3,图3是本申请实施例提供的一种数据处理方法的流程示意图。如图3所示,该方法可以由具备数据处理功能的计算机设备执行,该计算机设备可以为终端设备(例如,上述图1所示的终端设备集群中的任意一个终端设备,例如,具备模型应用功能的终端设备100a),也可以为服务器(例如,上述图1所示的服务器10F),在此不做限定。为便于理解,本申请实施例以该方法由具备数据处理功能的服务器执行为例进行说明,该方法至少可以包括以下步骤S101-步骤S103:
步骤S101,在获取到待检测的业务账号时,确定业务账号的业务粗标签以及业务账号对应的业务账号关系。
具体地,在获取到待检测的业务账号时,该计算机设备可以基于针对业务账号的注册评估策略,确定业务账号的业务粗标签。进一步地,该计算机设备可以基于应用客户端,确定业务账号对应的第一业务账号关系,与此同时,还可以查找与业务账号具有相似属性的账号,将具有同一相似属性的账号进行群组模拟构建,得到X1个虚拟群组,进而可以分别建立每个虚拟群组与业务账号之间的账号关系,将X1个账号关系作为业务账号对应的第二业务账号关系;X1为正整数。这时,该计算机设备可以将第一业务账号关系和第二业务账号关系确定为业务账号对应的业务账号关系。
换言之,业务账号对应的业务账号关系可以包括第一业务账号关系和第二业务账号关系;第一业务账号关系可以用于关联与业务账号具有相同属性的对象;第二业务账号关系可以用于关联业务账号的虚拟群组;虚拟群组中的账号与业务账号具有关联属性,且虚拟群组不属于在应用客户端中进行通讯的公共群组。
应当理解,在获取到待检测的业务账号时,该计算机设备可以获取业务账号对应的原始特征,其中,这里的原始特征可以包括属性特征、对象特征、交互特征以及统计特征。该属性特征可以是包括该业务账号的账号名称、业务账号的账号头像、业务账号的注册信息(例如,注册时填写的资料属性、注册时的设备环境属性信息等)、业务账号的签名信息、业务账号的注册对象等等。该对象特征可以是指该业务账号对应的注册对象的基本信息(例如,性别、年龄等)。交互特征可以是指业务账号注册之后在应用客户端中的进行交互的特征(例如,添加好友,转发消息等),统计特征可以是指对该业务账号进行统计的特征(例如,统计业务账号的好友、黑名单、好友数量、公共群组数量等)。可以理解的是,在本申请的具体实施方式中,涉及到业务账号的原始特征等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理均遵守相关国家和地区的相关法律法规和标准。
该原始特征可以用于确定该业务账号的业务粗标签。比如,业务账号的业务粗标签可以是该计算机设备基于用于进行标签评估的机器学习模型所确定的,比如,计算机设备将该业务账号的原始特征输入至该机器学习模型,通过该机器学习模型对业务账号进行可疑程度检测的审计,进而将输出的标签作为该业务账号的业务粗标签。
可选的,该业务粗标签还可以是该计算机设备基于针对业务账号的注册评估策略所确定的。其中,这里的注册评估策略可以包括多个不同角度进行评估的策略,具体可以包括第一注册评估策略、第二注册评估策略、第三注册评估策略。比如,第一注册评估策略可以是以转发非法信息流的角度进行评估的策略,这里的非法信息流可以是该计算机设备已经标记的违反相关国家和地区的相关法律法规和标准的信息流,例如,赌博、诈骗等链接。第二注册评估策略可以是以添加好友的角度进行评估的策略。第三注册评估策略可以是以业务账号对应的注册对象在应用客户端中已注册的账号数量进行评估的策略。
其中,第一注册评估策略可以非法信息流以及次数阈值(例如,20次)。该计算机设备在以第一注册评估策略进行评估时,可以从业务账号对应的原始特征中,获取业务账号在评估周期(例如,两周内)内的交互特征(即第一交互特征),进而可以基于该第一交互特征以及次数阈值,确定业务账号的业务粗标签。
比如,若第一交互特征指示业务账号发送过非法信息流,且信息流发送次数(例如,23次)达到次数阈值,则该计算机设备可以将用于表征不具备合法性的第一标签(例如,黑标签)作为业务账号的业务粗标签。可选的,若第一交互特征指示业务账号发送过非法信息流,且信息流发送次数(例如,10次)未达到次数阈值,则该计算机设备可以将用于表征不确定性的第二标签(例如,灰标签)作为业务账号的业务粗标签。可选的,若第一交互特征指示业务账号未发送过非法信息流,则该计算机设备可以将用于表征具备合法性的第三标签(例如,白标签)作为业务账号的业务粗标签。
其中,第二评估策略包括在单位时长内所设定的第一频率阈值和第二频率阈值,第一频率阈值大于第二频率阈值。其中,这里的单位时长可以为一分钟,也可以为一小时,这里将不对其进行限定。比如,第一频率阈值可以为用于限定一分钟内执行账号添加操作的最大频率(例如,10次),第二频率阈值可以为用于限定一分钟内执行账号添加操作的最小频率(例如,1次)。该计算机设备在以第二注册评估策略进行评估时,可以从业务账号对应的原始特征中,获取业务账号在评估周期内的交互特征(即第二交互特征),进而可以基于该第二交互特征,确定业务账号在单位时长内执行账号添加操作的添加频率,并基于该添加频率、第一频率阈值以及第二频率阈值,确定业务账号的业务粗标签。
比如,若添加频率(例如,15次)达到第一频率阈值,则该计算机设备可以将用于表征不具备合法性的第一标签作为业务账号的业务粗标签。可选的,若添加频率(例如,0)未达到第二频率阈值,则该计算机设备可以将用于表征不确定性的第二标签作为业务账号的业务粗标签;若添加频率(例如,5)大于第二频率阈值,且未达到第一频率阈值,则该计算机设备可以将用于表征具备合法性的第三标签作为业务账号的业务粗标签。
进一步地,该计算机设备可以基于业务账号所在的应用客户端,确定该业务账号对应的第一业务账号关系。比如,若应用客户端为不包括公共群组的应用客户端(例如,视频客户端),则该计算机设备可以获取业务账号对应的多个地址标识,进而可以分别建立每个地址标识与业务账号之间的账号关系,将建立的多个账号关系直接作为业务账号的第一业务账号关系,这意味着此时的业务账号的第一业务账号关系可以用于关联与业务账号具有同一地址标识的账号。
可选的,若应用客户端为包括公共群组的应用客户端(例如,社交客户端),则该计算机设备可以获取业务账号对应的X2个地址标识,分别建立每个地址标识与业务账号之间的账号关系,得到X2个账号关系;X2为正整数,与此同时,还可以获取包含业务账号的X3个公共群组,分别建立每个公共群组与业务账号之间的账号关系,得到X3个账号关系;X3为正整数,进而可以将X2个账号关系和X3个账号关系确定为业务账号对应的第一业务账号关系,这意味着此时的业务账号的第一业务账号关系不仅可以用于关联与业务账号具有同一地址标识的账号,还可以用于关联与业务账号具有同一公共群组的账号。
进一步地,为了更加准确的表征业务账号,该计算机设备在获取第一业务账号关系(即业务账号的真实存在关系)之后,还可以获取由配置对象(例如,业务人员)自己定义的一些有聚集意义的虚拟关系(即基于待匹配属性所确定的第二业务账号关系)。其中,业务账号中的属性集合可以包括与账号名称相关联的第一属性、与账号头像相关联的第二属性、与注册信息相关联的第三属性以及与交互特征相关联的第四属性,待匹配属性包括第一属性、第二属性、第三属性以及第四属性中的至少一个。
该计算机设备可以从业务账号的属性集合中选择M个属性,进而可以基于M个属性,生成X1个待匹配属性;M为正整数;X1个待匹配属性中的任意两个待匹配属性所包含的属性互不相同。这里的X1个待匹配属性可以包括待处理属性。进一步地,该计算机设备可以从应用客户端所注册的原始账号集合(即在应用客户端所注册的所有账号所组成的账号集合)中,获取与待处理属性相匹配的账号集合,进而可以对获取到的账号集合中的账号进行群组模拟构建,得到待处理属性对应的虚拟群组。
为了提升匹配效率,该计算机设备可以事先根据业务账号的属性集合中的每个属性,从原始账号集合中分别确定出对每个属性进行匹配后所得到的集合,具体可以包括第一账号集合、第二账号集合、第三账号集合以及第四账号集合。比如,第一账号集合中的账号可以是对业务账号的账号名称进行文本匹配后所获取到的;第二账号集合中的账号可以是对业务账号的账号头像进行图像匹配后所获取到的;第三账号集合中的账号可以是对业务账号的注册信息进行匹配后所获取到的;第四账号集合中的账号可以是对业务账号的交互特征进行匹配后所获取到的。
可以理解的是,在M为1时,该计算机设备可以从业务账号的属性集合中选择1个属性直接作为第一待匹配属性。例如,该计算机设备可以选择与注册信息相关联的属性直接作为待匹配属性1,进而在后续将待匹配属性1作为待处理属性时,该计算机设备可以从应用客户端所注册的原始账号集合中,获取与待匹配属性1相匹配的账号集合(即第三账号集合,包含与业务账号的注册信息具有相似性的账号),进而可以对第三账号集合中的账号进行群组模拟构建,得到待匹配属性1对应的虚拟群组(例如,虚拟群组1)。
在M为2时,该计算机设备可以从业务账号的属性集合中选择2个属性作为第二待匹配属性。例如,该计算机设备可以选择与账号名称相关联的属性和与账号头像相关联的属性,作为待匹配属性2,进而在后续将待匹配属性2作为待处理属性时,该计算机设备可以从应用客户端所注册的原始账号集合中,获取与待匹配属性2相匹配的账号集合,即第一账号集合(即包含与业务账号的账号名称具有相似性的账号)和第二账号集合(即包含与业务账号的账号头像具有相似性的账号)。进一步地,该计算机设备可以确定第一账号集合和第二账号集合之间的交集集合(即第一交集集合),并对该第一交集集合中的账号进行群组模拟构建,得到待匹配属性2对应的虚拟群组(例如,虚拟群组2)。
在M为3时,该计算机设备可以从业务账号的属性集合中选择3个属性作为第三待匹配属性。例如,该计算机设备可以选择与账号名称相关联的属性、与账号头像相关联的属性以及与交互特征相关联的属性,作为待匹配属性3,进而在后续将待匹配属性3作为待处理属性时,该计算机设备可以从应用客户端所注册的原始账号集合中,获取与待匹配属性3相匹配的账号集合,即第一账号集合(即包含与业务账号的账号名称具有相似性的账号)、第二账号集合(即包含与业务账号的账号头像具有相似性的账号)以及第四账号集合(即包含与业务账号的交互特征具有相似性的账号)。进一步地,该计算机设备可以确定第一账号集合、第二账号集合以及第四账号集合之间的交集集合(即第二交集集合),并对该第二交集集合中的账号进行群组模拟构建,得到待匹配属性3对应的虚拟群组(例如,虚拟群组3)。
当获取到X1个待匹配属性分别对应的虚拟群组时,该计算机设备可以分别建立每个虚拟群组与业务账号之间的账号关系,将X1个账号关系作为业务账号对应的第二业务账号关系。这时,该计算机设备可以将第一业务账号关系和第二业务账号关系确定为业务账号对应的业务账号关系。
步骤S102,基于第一业务账号关系所关联的对象以及第二业务账号关系所关联的虚拟群组,建立业务账号对应的业务异构图,基于业务异构图,生成业务账号对应的第一业务表征向量。
具体地,该计算机设备可以基于第一业务账号关系所关联的对象以及第二业务账号关系所关联的虚拟群组,建立业务账号对应的业务异构图。其中,这里的业务异构图中包括Y个节点;Y为正整数。进一步地,该计算机设备可以基于业务异构图,确定Y个节点中的每个节点的初始向量。其中,这里的初始向量可以用于表征对应节点的节点信息。此时,该计算机设备可以获取到针对业务账号的目标注册评估模型,其中,该目标注册评估模型可以包括目标编码子模型。进一步地,该计算机设备可以将Y个初始向量输入至目标编码子模型,进而可以通过目标编码子模型,对业务账号进行编码处理,以得到业务账号对应的第一业务表征向量。
为便于理解,进一步地,请参见图4,图4是本申请实施例提供的一种用于建立业务异构图的场景示意图。如图4所示,本申请实施例中的计算机设备可以为具备数据处理功能的计算机设备,该计算机设备可以为上述图1所示的终端设备集群中的任意一个终端设备,例如,终端设备100a,该计算机设备也可以为上述图1所示的服务器10F,这里将不对计算机设备进行限定。
如图4所示,该计算机设备获取到的待检测的业务账号可以为账号40P,该账号40P的业务账号关系可以包括真实存在的账号关系41x(即第一业务账号关系)和虚拟的账号关系42x(即第二业务账号关系)。
其中,这里的账号关系41x可以用于关联与账号40P具有相同属性的对象,具体可以包括两种属性类型,一种是与账号40P具有同一地址标识的账号,另一种是与账号40P具有同一公共群组的账号,其中,地址标识的数量和公共群组的数量均可以为一个或多个,这里将不对其进行限定。如图4所示,账号关系41x可以包括两个地址标识(例如,地址标识1、地址标识2)和一个公共群组(公共群组a)。例如,与账号40P的地址标识1相同的账号可以包括账号42P和账号43P;与账号40P的地址标识2相同的账号可以包括账号41P和账号44P;与账号40P同属于公共群组a的账号可以包括账号41P、账号42P和账号43P。
其中,这里的账号关系42x可以用于关联账号40P的虚拟群组,这里的虚拟群组中的账号与账号40P具有关联属性,且虚拟群组不属于在应用客户端中进行通讯的公共群组。其中,虚拟群组的数量可以为一个或多个,这里将不对其进行限定。如图4所示,该账号关系42x可以包括两个虚拟群组(例如,虚拟群组1和虚拟群组2)。例如,与账号40P同属于虚拟群组1的账号可以包括账号41P和账号43P;与账号40P同属于虚拟群组2的账号可以包括账号43P和账号44P。
进一步地,该计算机设备可以基于账号关系41x所关联的对象以及账号关系42X所关联的虚拟群组,建立账号40P的业务异构图(例如,区域4T所包括的业务异构图)。比如,该计算机设备可以分别连接每个账号与对应地址标识,得到一种类型的边(例如,图4所示的边B1);分别连接每个账号与对应公共群组,得到另一种类型的边(例如,图4所示的边B2);分别连接每个账号与虚拟群组,得到另一种类型的边(例如,图4所示的边B3),进而可以在连接完成时,得到业务异构图。
其中,这里的业务异构图可以包括4种节点类型,具体可以包括第一节点类型(账号类型)、第二节点类型(例如,地址标识类型)、第三节点类型(例如,公共群组类型)以及第四节点类型(例如,虚拟群组类型)。如图4所示,业务异构图中可以包括10个节点,具体可以包括5个属于第一节点类型的节点(例如,账号40P、账号41P、账号42P、账号43P以及账号44P分别对应的节点)、2个属于第二节点类型的节点(例如,地址标识1对应的节点、地址标识2对应的节点)、1个属于第三节点类型的节点(例如,公共群组a对应的节点)和2个属于第四节点类型的节点(例如,虚拟群组1对应的节点和虚拟群组2对应的节点)。其中,本申请实施例可以将虚拟群组对应的虚拟节点称之为虚拟节点,该虚拟节点是一种关系构成多元化的节点,是基于业务场景的先验知识归纳出来的能充当具有团伙聚集性质的节点。
此时,该计算机设备可以基于该业务异构图,确定这10个节点中的每个节点的初始向量,进而可以将这10个初始向量输入至目标注册评估模型中的目标编码子模型(例如,上述图2所示的编码子模型200W1),进而可以通过该目标编码子模型,对账号40P进行编码处理,以得到该账号40P对应的第一业务表征向量,即能够用于有效地表征该账号40P在业务异构图中的节点结构信息和节点属性信息的表征向量。
具体地,该计算机设备对业务异构图中的某个节点(例如,节点v)进行特征映射的具体方式可以参见下述公式(1):
其中,r可以用于表示某种节点类型(例如,账号类型、地址标识类型、公共群组类型以及虚拟群组类型);用于表示属于节点类型r的节点v的初始向量;Fr可以表示属于节点类型r的节点v的初始向量的特征维度;/>用于对该节点类型r这一类型下的节点进行维度对齐的映射矩阵;F可以用于表示该节点v最终映射的映射向量对应的维度。
具体地,该计算机设备确定某一节点(例如,节点v)在当前隐藏层(例如,隐藏层l)的隐藏向量的具体方式可以参见下述公式(2):
其中,Wl-1可以用于表示与隐藏层l的上一隐藏层相关联的权重系数;AGGREGATE可以用于表示聚合函数的类型,其中,这里的聚合函数可以包括但不限于平均聚合函数、求和聚合函数;可以用于表示上一隐藏层所输出的隐藏向量,即输入至当前隐藏层的输入向量;N(v)可以是指采样得到的节点v的邻居节点。
可以理解的是,在目标编码子模型中,该计算机设备可以按照上述公式(1)、基于Y个初始向量以及用于进行维度对齐的映射矩阵,分别对Y个节点中的每个节点进行特征映射,得到Y个映射向量。其中,这里的目标编码子模型可以包括多个隐藏层,为便于阐述,本申请实施例可以以2个为例,该目标编码子模型(例如,2-layer attention SAGEConv)具体可以包括第一隐藏层和第二隐藏层。进一步地,该计算机设备可以基于业务异构图,确定业务账号在目标节点类型下的第一邻居节点和第二邻居节点。其中,这里的第一邻居节点可以为业务账号在目标节点类型下的邻居节点;这里的第二邻居节点为该第一邻居节点下所包含的账号对应的节点。
由于这里的第一隐藏层属于该目标编码子模型中的首个隐藏层,因此,该计算机设备可以获取上述公式(2),进而可以通过第一隐藏层以及输入至第一隐藏层的Y个映射向量,对业务账号的第二邻居节点进行特征聚合处理,得到第一邻居节点的邻居隐藏向量,进而可以通过第二隐藏层以及第一邻居节点的邻居隐藏向量,对业务账号的第一邻居节点进行特征聚合处理,得到业务账号对应的第一业务表征向量。
比如,这里的第一邻居节点可以包括邻居节点Vi;i为小于或者等于Z的正整数。Z可以用于表示业务账号的第一邻居节点的节点总数量。在将Y个映射向量输入至第一隐藏层中,该计算机设备可以获取与第一隐藏层相关联的权重系数,进而可以从Y个映射向量中,确定邻居节点Vi对应的第二邻居节点的映射向量,对确定的映射向量以及Y个映射向量进行聚合处理,得到聚合向量。此时,该计算机设备可以基于聚合向量以及权重系数,生成邻居节点Vi对应的隐藏向量,直到得到Z个第一邻居节点分别对应的隐藏向量,该计算机设备可以对Z个隐藏向量进行拼接处理,得到第一邻居节点的邻居隐藏向量。
如图4所示,该计算机设备可以确定账号40P的第一邻居节点的节点总数量为5个,具体可以包括邻居节点V1(例如,地址标识1对应的节点)、邻居节点V2(例如,地址标识2对应的节点)、邻居节点V3(例如,公共群组a对应的节点)、邻居节点V4(例如,虚拟群组1对应的节点)以及邻居节点V5(例如,虚拟群组2对应的节点)。
例如,在第一邻居节点为邻居节点V1时,该账号40P的第二邻居节点可以为地址标识1下所包含的账号42P对应的节点和账号43P对应的节点。在第一邻居节点为地址标识2对应的节点时,该账号40P的第二邻居节点可以为地址标识2下所包含的账号41P对应的节点和账号44P对应的节点。在第一邻居节点为公共群组a对应的节点时,该账号40P的第二邻居节点可以为公共群组a下所包含的账号41P对应的节点、账号42P对应的节点和账号43P对应的节点。在第一邻居节点为虚拟群组1对应的节点时,该账号40P的第二邻居节点可以为虚拟群组1下所包含的账号41P对应的节点和账号43P对应的节点。在第一邻居节点为虚拟群组2对应的节点时,该账号40P的第二邻居节点可以为虚拟群组2下所包含的账号43P对应的节点和账号44P对应的节点。
对于邻居节点V1而言,该计算机设备可以获取与第一隐藏层相关联的权重系数,进而可以从10个节点分别对应的映射向量中,确定账号42P对应的节点的映射向量以及账号43P对应的节点的映射向量,进而可以基于确定的这两个映射向量以及输入至第一隐藏层的10个映射向量进行聚合处理,进而可以按照上述公式(2),基于聚合处理后的聚合向量以及第一隐藏层相关联的权重系数,生成邻居节点V1对应的隐藏向量。
同理,该计算机设备可以参见邻居节点V1对应的隐藏向量的生成方式,得到邻居节点V2对应的隐藏向量、邻居节点V3对应的隐藏向量、邻居节点V4对应的隐藏向量以及邻居节点V5对应的隐藏向量。此时,该计算机设备可以基于对这5个隐藏向量,生成账号40P的第一邻居节点对应的邻居隐藏向量,进而可以将其作为下一隐藏层(即第二隐藏层)的输入向量。
这时,该计算机设备可以在第二隐藏层中,获取与第二隐藏层相关联的权重系数,进而可以对输入至第二隐藏层的输入向量(即账号40P的第一邻居节点对应的邻居隐藏向量)以及第一隐藏层中所确定的账号40P的5个第一邻居节点分别对应的隐藏向量(邻居节点V1对应的隐藏向量、邻居节点V2对应的隐藏向量、邻居节点V3对应的隐藏向量、邻居节点V4对应的隐藏向量以及邻居节点V5对应的隐藏向量)进行聚合处理,进而可以按照上述公式(2),基于聚合处理后的聚合向量以及与第二隐藏层相关联的权重系数,生成账号40P对应的节点的隐藏向量,进而可以将生成的账号40P对应的节点的隐藏向量作为账号40P对应的第一业务表征向量。
步骤S103,基于业务粗标签以及业务账号对应的原始特征,确定业务账号对应的原始业务表征向量,对第一业务表征向量以及原始业务表征向量进行拼接处理,得到业务账号对应的第二业务表征向量。
具体地,该计算机设备在获取到业务账号时,可以基于业务账号的业务粗标签以及业务账号的原始特征(例如,属性特征、对象特征、交互特征以及统计特征等),对业务账号进行特征提取处理,以得到该业务账号对应的原始业务表征向量(例如,图2所示的表征向量200f),进而可以对第一业务表征向量(例如,图2所示的表征向量210f)以及原始业务表征向量进行拼接处理,以便于得到业务账号对应的第二业务表征向量(例如,图2所示的表征向量220f)。其中,第二业务表征向量可以用于预测业务账号的合法性。
在本申请实施例中,计算机设备在检测业务账号时,可以通过业务账号的业务账号关系中的真实存在关系(即第一业务账号关系)和虚拟关系(即第二业务账号关系),建立业务账号对应的业务异构图。虚拟群组的引入,大大增加了业务异构图的稠密性,使得该业务异构图可以包含该业务账号更加丰富的特征,这意味着后续根据该业务异构图所生成的第一业务表征向量,能够更加有效地表征该业务账号的节点结构信息和节点属性信息。这意味着后续对第一业务表征向量和原始业务表征向量进行拼接处理后所得到的第二业务表征向量也更加准确,以至于能够更加精准的预测业务账号的合法性,从而有效提升账号检测的准确度。
进一步地,请参见图5,图5是本申请实施例提供的一种数据处理方法的流程示意图。该方法可以由具备数据处理功能的终端设备(例如,上述图1所示的终端设备集群中的任意一个终端设备,例如,终端设备100a)执行,也可以由具备数据处理功能的服务器(例如,上述图1所示的服务器10F)执行,还可以由具备模型应用功能的终端设备和具备模型训练功能的服务器交互执行。在此不做限定。该方法至少可以包括以下步骤S201-步骤S208:
步骤S201,在获取到待检测的业务账号时,确定业务账号的业务粗标签以及业务账号对应的业务账号关系。
其中,业务账号对应的业务账号关系可以包括第一业务账号关系和第二业务账号关系;第一业务账号关系可以用于关联与业务账号具有相同属性的对象;第二业务账号关系可以用于关联业务账号的虚拟群组;虚拟群组中的账号与业务账号具有关联属性,且虚拟群组不属于在应用客户端中进行通讯的公共群组。
步骤S202,基于第一业务账号关系所关联的对象以及第二业务账号关系所关联的虚拟群组,建立业务账号对应的业务异构图,基于业务异构图,生成业务账号对应的第一业务表征向量。
具体地,该计算机设备可以基于第一业务账号关系所关联的对象以及第二业务账号关系所关联的虚拟群组,建立业务账号对应的业务异构图。其中,这里的业务异构图中包括Y个节点;Y为正整数。进一步地,该计算机设备可以基于业务异构图,确定Y个节点中的每个节点的初始向量。其中,这里的初始向量可以用于表征对应节点的节点信息。此时,该计算机设备可以获取到针对业务账号的目标注册评估模型,其中,该目标注册评估模型可以包括目标编码子模型。进一步地,该计算机设备可以将Y个初始向量输入至目标编码子模型,进而可以通过目标编码子模型,对业务账号进行编码处理,以得到业务账号对应的第一业务表征向量。
步骤S203,基于业务粗标签以及业务账号对应的原始特征,确定业务账号对应的原始业务表征向量,对第一业务表征向量以及原始业务表征向量进行拼接处理,得到业务账号对应的第二业务表征向量。
步骤S204,基于第二业务表征向量,预测业务账号的合法性。
具体地,该计算机设备可以将第二业务表征向量输入至目标注册评估模型中的目标分类子模型,进而可以通过目标分类子模型,确定业务账号的评估参数。若评估参数达到与目标分类子模型相关联的评估阈值,则该计算机设备可以确定业务账号不具备合法性,进而可以将该业务账号确定为非法账号;若评估参数未达到与评估阈值,则该计算机设备可以确定业务账号具备合法性,进而可以将业务账号确定为合法账号。
如图2所示,该计算机设备可以将表征向量220f输入至分类子模型200W2中,由该分类子模型200W2输出该账号20P的评估参数,进而可以基于该账号20P的评估参数以及与分类子模型200W2相关联的评估阈值(例如,80%),确定账号20P的合法性。可选的,若账号20P的评估参数(例如,20%)未达到与评估阈值,则该计算机设备可以确定账号20P具备合法性,进而可以将账号20P确定为合法账号。
可选的,若账号20P的评估参数(例如,90%)达到与分类子模型200W2相关联的评估阈值,则该计算机设备可以确定账号20P不具备合法性,进而可以将该账号20P确定为非法账号。这时,该计算机设备可以对该账号20P进行惩罚,比如,在某一时间段内禁止其登录。与此同时,该计算机设备还可以生成用于指示账号20P不具备合法性的提示信息,进而在获取到与账号20P具有好友关系的关联账号时,将该提示信息发送至关联账号,以提示关联账号对应的注册对象,有效减少其上当受骗的情况,从而提升用户体验。
其中,本申请实施例中的数据处理方法可以包括模型训练过程以及模型应用过程。可以理解的是,该步骤S201-步骤S204阐述了模型应用过程,该模型应用过程的具体实施方式可参见上述图3所对应实施例中对步骤S101-步骤S103的描述,这里将不再继续进行赘述。
其中,该模型训练过程具体可以参见下述步骤S205-步骤S208的描述。
步骤S205,获取用于对初始注册评估模型进行训练的样本账号,确定样本账号的样本账号关系以及样本账号的样本标签。
其中,这里的样本标签可以包括样本粗标签以及样本细标签。这里的初始注册评估模型可以包括目标编码子模型和初始分类子模型。该目标编码子模型是基于样本粗标签以及样本账号对应的样本异构图,对初始编码子模型进行训练后所得到的,这里的样本异构图是基于样本账号关系所构建的。样本账号关系可以包括第一样本账号关系和第二样本账号关系;第一样本账号关系可以用于关联与样本账号具有相同属性的对象;第二样本账号关系可以用于关联样本账号的虚拟群组。
其中,这里的样本账号的样本标签可以包括属于第一标签(例如,黑标签)和第三标签(例如,白标签),即本申请实施例可以用已知账号的粗标签,通过异构图神经网络对可疑账号进行有监督的节点分类任务,即判断后续业务账号是否为恶意注册的非法账号。
应当理解,在该计算机设备对初始编码子模型进行训练时,可以先获取样本账号的样本账号关系,并基于第一样本账号关系所关联的对象以及第二样本账号关系所关联的虚拟群组,建立该样本账号的样本异构图。其中,样本异构图的建立方式可以参见上述步骤S102中描述的业务异构图的建立方式,这里将不再继续进行赘述。
此时,该计算机设备可以基于该样本异构图确定样本账号的样本初始向量,进而可以将该样本初始向量输入至初始编码子模型,由该初始编码子模型对样本账号进行编码处理,得到该样本账号对应的预测样本表征向量。其中,这里的样本初始向量用于表征样本账号在样本异构图中的节点信息。进一步地,该计算机设备可以基于样本账号对应的样本粗标签以及预测样本表征向量,确定初始编码子模型的模型损失,进而可以基于该初始编码子模型的模型损失,对初始编码子模型进行训练,以得到模型训练结果(即第一模型训练结果)。此时,该计算机设备可以基于第一模型训练结果以及与初始编码子模型相关联的模型收敛条件(即第一模型收敛条件),确定目标编码子模型。
步骤S206,通过目标编码子模型以及样本异构图,对样本账号进行编码处理,得到用于表征样本账号的第一样本表征向量,基于样本粗标签、样本账号对应的原始特征以及第一样本表征向量,得到样本账号对应的第二样本表征向量。
具体地,该计算机设备将基于样本异构图所生成的样本账号的样本初始向量,输入至目标编码子模型,进而可以通过目标编码子模型对样本账号进行编码处理,以得到用于表征样本账号的第一样本表征向量。进一步地,该计算机设备可以获取样本账号的原始特征,基于样本账号的样本粗标签以及样本账号的原始特征,对样本账号进行特征提取处理,从而可以得到该样本账号对应的原始样本表征向量。此时,该计算机设备可以将原始样本表征向量以及第一样本表征向量进行拼接处理,得到该样本账号对应的第二样本表征向量。
可以理解的是,在本申请的具体实施方式中,涉及到样本账号的原始特征等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理均遵守相关国家和地区的相关法律法规和标准。
步骤S207,基于第二样本表征向量以及样本细标签,对初始分类子模型进行训练,得到目标分类子模型。
具体地,该计算机设备可以将第二样本表征向量输入至初始分类子模型,进而可以通过初始分类子模型,确定样本账号的评估参数,进而可以基于评估参数所指示的合法性,生成样本账号对应的预测细标签。进一步地,该计算机设备可以基于样本细标签以及预测细标签,确定初始分类子模型的模型损失,进而可以基于该初始分类子模型的模型损失,对初始分类子模型进行训练,以得到模型训练结果(即第二模型训练结果)。此时,该计算机设备可以基于第二模型训练结果以及与初始分类子模型的模型收敛条件(即第二模型收敛条件),确定目标分类子模型。
步骤S208,将包括目标分类子模型和目标编码子模型的初始注册评估模型确定为目标注册评估模型。
其中,目标注册评估模型用于预测业务账号的合法性。可以理解的是,该步骤S205-步骤S208的具体实施方式可参见上述图3所对应实施例中对步骤S101-步骤S103的描述,这里将不再继续进行赘述。
为便于理解,进一步地,请参见图6,图6是本申请实施例提供的一种融合粗细标签的模型训练场景示意图。如图6所示,本申请实施例中的计算机设备可以为具备数据处理功能的计算机设备,该计算机设备可以为上述图1所示的终端设备集群中的任意一个终端设备,例如,终端设备100a,该计算机设备也可以为上述图1所示的服务器10F,这里将不对计算机设备进行限定。
其中,本申请实施例中的注册评估模型600W可以为需要进行训练的初始注册评估模型,该注册评估模型600W可以包括编码子模型600W1(已经训练完成的目标编码子模型)和分类子模型600W2。可以理解的是,该编码子模型600W1可以为已经训练完成的目标编码子模型。应当理解,该计算机设备可以在对编码子模型600W1进行训练时,可以先获取样本账号的样本账号关系(例如,账号关系61x、账号关系62x以及账号关系63x)。其中,这里的账号关系61x可以用于关联与样本账号具有同一地址标识的账号,账号关系62x可以用于关联与样本账号具有同一公共群组的账号,本申请实施例可以将这两个账号关系作为样本账号的第一样本账号关系。这里的账号关系63x(即第二样本账号关系)可以用于关联样本账号的虚拟群组;虚拟群组中的账号与样本账号具有关联属性,且虚拟群组不属于在应用客户端中进行通讯的公共群组。
此时,该计算机设备可以基于这三个账号关系所关联的对象(例如,第一样本账号关系所关联的地址标识和公共群组、以及第二样本账号关系所关联的虚拟群组),建立样本账号的样本异构图,进而可以基于该样本异构图,确定样本账号的样本初始向量。其中,这里的样本初始向量用于表征样本账号在样本异构图中的节点信息。然后,该计算机设备可以将该样本初始向量输入至编码子模型600W1,由该编码子模型600W1对样本账号进行编码处理,得到该样本账号对应的预测样本表征向量。进一步地,该计算机设备可以基于样本账号对应的样本粗标签以及预测样本表征向量,确定编码子模型600W1的模型损失,进而可以基于该编码子模型600W1的模型损失以及与编码子模型W1相关联的第一模型收敛条件,对编码子模型600W1进行训练,进而将训练后的编码子模型600W1确定为目标编码子模型。
其中,该第一模型收敛条件可以为模型损失持续N轮(例如,10轮)未继续下降,即停止模型训练。可选的,该第一模型收敛条件还可以为模型损失小于模型收敛条件中的损失阈值,即停止模型训练。这里将不对其进行限定。
可以理解的是,若对编码子模型600W1进行训练后所得到的第一模型训练结果指示训练后的编码子模型600W1满足第一模型收敛条件,则将满足第一模型收敛条件的编码子模型600W1作为目标编码子模型。可选的,若第一模型训练结果指示训练后的编码子模型600W1不满足第一模型收敛条件,则该计算机设备可以基于不满足第一模型收敛条件的模型损失函数,对编码子模型600W1的模型参数进行调整。进一步地,该计算机设备可以将调整模型参数后的编码子模型600W1作为过渡编码子模型,对过渡编码子模型进行训练,直到训练后的过渡编码子模型满足第一模型收敛条件时,将满足第一模型收敛条件的过渡编码子模型作为目标编码子模型。
这时,该计算机设备可以根据训练完成的编码子模型600W1,对样本账号进行编码处理,得到用于表征样本账号的第一样本表征向量(例如,图6所示的样本表征向量610f)。进一步地,该计算机设备可以基于样本账号的样本粗标签以及样本账号的原始特征,对样本账号进行特征提取处理,从而可以得到该样本账号对应的原始样本表征向量。此时,该计算机设备可以将原始样本表征向量以及第一样本表征向量进行拼接处理,得到该样本账号对应的第二样本表征向量。
在对分类子模型600W2进行训练时,该计算机设备可以将第二样本表征向量输入至分类子模型600W2,进而可以通过分类子模型600W2,确定样本账号的评估参数,进而可以基于评估参数所指示的合法性,生成样本账号对应的预测细标签。进一步地,该计算机设备可以基于样本细标签以及预测细标签,确定分类子模型600W2的模型损失,进而可以基于该分类子模型600W2的模型损失以及与分类子模型600W2相关联的第二模型收敛条件,对分类子模型600W2进行训练,进而将训练后的分类子模型600W2确定为目标分类子模型。其中,对分类子模型600W2进行训练的具体实施方式可以参见上述对编码子模型600W1进行训练的具体实施方式,这里将不再对其进行赘述。本申请实施例可以将已经训练好的编码子模型600W1和已经训练好的分类子模型600W2所构成的注册评估模型600W确定为目标注册评估模型。
在本申请实施例的模型应用过程中,由于目标编码子模型可以使用图神经网络算法(例如,半监督的HGraphSAGE算法),来同时结合业务账号在业务异构图中的网络结构信息以及节点属性信息,来对业务帐号进行低维节点表征(即第一业务表征向量),而非直接使用节点特征作为表征向量,这可以额外带来信息增益,去除冗余信息,使得最终用于表征业务帐号的第二业务表征向量更加准确,从而有效提升账号检测的准确度。此外,使用异构图算法,基于业务账号的业务账号关系,建立业务账号的业务异构图,能够同时利用多种结构关系(例如,业务账号与地址标识的账号关系、业务账号与公共群组的账号关系以及业务账号与虚拟群组的账号关系),这意味着在账号检测场景中,引进了虚拟群组对应的节点的构图方法,使得获得的社交图更加稠密,从而可以提高准确率与覆盖率。在本申请实施例的模型训练过程中,该计算机设备可以合理运用已知标签的样本账号的粗细标签,使得模型更具有泛化能力。
进一步地,请参见图7,图7是本申请实施例提供的一种数据处理装置的结构示意图。如图7所示,该数据处理装置1可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如,该数据处理装置1为一个应用软件;该数据处理装置1可以用于执行本申请实施例提供的方法中的相应步骤。如图7所示,该数据处理装置1可以运行于具有数据处理功能的计算机设备,该计算机设备可以为上述图1所对应实施例中的服务器10F,也可以为上述图1所对应实施例中的终端设备集群中的任意一个运行有目标注册评估模型的终端设备,例如,终端设备100a。该数据处理装置1可以包括:业务关系确定模块10,第一业务向量生成模块20,第二业务向量生成模块30,评估参数确定模块40,第一合法性确定模块50以及第二合法性确定模块60。
该业务关系确定模块10,用于在获取到待检测的业务账号时,确定业务账号的业务粗标签以及业务账号对应的业务账号关系;业务账号关系包括第一业务账号关系和第二业务账号关系;第一业务账号关系用于关联与业务账号具有相同属性的对象;第二业务账号关系用于关联业务账号的虚拟群组;虚拟群组中的账号与业务账号具有关联属性,且虚拟群组不属于在应用客户端中进行通讯的公共群组。
其中,该业务关系确定模块10包括:粗标签确定单元101,第一关系确定单元102,第二关系确定单元103以及业务关系确定单元104。
该粗标签确定单元101,用于在获取到待检测的业务账号时,基于针对业务账号的注册评估策略,确定业务账号的业务粗标签。
其中,注册评估策略包括第一评估策略;第一评估策略包括非法信息流以及次数阈值;
该粗标签确定单元101包括:第一获取子单元1011,第一确定子单元1012,第二确定子单元1013,第三确定子单元1014,第二获取子单元1015,第四确定子单元1016,第五确定子单元1017以及第六确定子单元1018。
该第一获取子单元1011,用于在获取到待检测的业务账号时,从业务账号对应的原始特征中,获取业务账号在评估周期内的第一交互特征;
该第一确定子单元1012,用于若第一交互特征指示业务账号发送过非法信息流,且信息流发送次数达到次数阈值,则将用于表征不具备合法性的第一标签作为业务账号的业务粗标签;
该第二确定子单元1013,用于若第一交互特征指示业务账号发送过非法信息流,且信息流发送次数未达到次数阈值,则将用于表征不确定性的第二标签作为业务账号的业务粗标签;
该第三确定子单元1014,用于若第一交互特征指示业务账号未发送过非法信息流,则将用于表征具备合法性的第三标签作为业务账号的业务粗标签。
其中,注册评估策略包括第二评估策略;第二评估策略包括在单位时长内所设定的第一频率阈值和第二频率阈值,第一频率阈值大于第二频率阈值;
该第二获取子单元1015,用于在获取到待检测的业务账号时,从业务账号对应的原始特征中,获取业务账号在评估周期内的第二交互特征,基于第二交互特征,确定业务账号在单位时长内执行账号添加操作的添加频率;
该第四确定子单元1016,用于若添加频率达到第一频率阈值,则将用于表征不具备合法性的第一标签作为业务账号的业务粗标签;
该第五确定子单元1017,用于若添加频率未达到第二频率阈值,则将用于表征不确定性的第二标签作为业务账号的业务粗标签;
该第六确定子单元1018,用于若添加频率大于第二频率阈值,且未达到第一频率阈值,则将用于表征具备合法性的第三标签作为业务账号的业务粗标签。
其中,该第一获取子单元1011,第一确定子单元1012,第二确定子单元1013,第三确定子单元1014,第二获取子单元1015,第四确定子单元1016,第五确定子单元1017以及第六确定子单元1018的具体实现方式可以参见上述图3所对应实施例中对业务粗标签的描述,这里将不再继续进行赘述。
该第一关系确定单元102,用于基于应用客户端,确定业务账号对应的第一业务账号关系。
其中,该第一关系确定单元102包括:第一建立子单元1021,第二建立子单元1022以及第一关系确定子单元1023。
该第一建立子单元1021,用于若应用客户端为社交客户端,则获取业务账号对应的X2个地址标识,分别建立每个地址标识与业务账号之间的账号关系,得到X2个账号关系;X2为正整数;
该第二建立子单元1022,用于获取包含业务账号的X3个公共群组,分别建立每个公共群组与业务账号之间的账号关系,得到X3个账号关系;X3为正整数;
该第一关系确定子单元1023,用于将X2个账号关系和X3个账号关系确定为业务账号对应的第一业务账号关系。
其中,该第一建立子单元1021,第二建立子单元1022以及第一关系确定子单元1023的具体实现方式可以参见上述图3所对应实施例中对第一业务账号关系的描述,这里将不再继续进行赘述。
该第二关系确定单元103,用于查找与业务账号具有相似属性的账号,将具有同一相似属性的账号进行群组模拟构建,得到X1个虚拟群组,分别建立每个虚拟群组与业务账号之间的账号关系,将X1个账号关系作为业务账号对应的第二业务账号关系;X1为正整数。
其中,该第二关系确定单元103包括:属性选择子单元1031,模拟建群子单元1032以及第二关系确定子单元1033。
该属性选择子单元1031,用于从业务账号的属性集合中选择M个属性,基于M个属性,生成X1个待匹配属性;M为正整数;X1个待匹配属性中的任意两个待匹配属性所包含的属性互不相同;X1个待匹配属性包括待处理属性;
该模拟建群子单元1032,用于从应用客户端所注册的原始账号集合中,获取与待处理属性相匹配的账号集合,对获取到的账号集合中的账号进行群组模拟构建,得到待处理属性对应的虚拟群组;
该第二关系确定子单元1033,用于当获取到X1个待匹配属性分别对应的虚拟群组时,分别建立每个虚拟群组与业务账号之间的账号关系,将X1个账号关系作为业务账号对应的第二业务账号关系。
其中,该属性选择子单元1031,模拟建群子单元1032以及第二关系确定子单元1033的具体实现方式可以参见上述图3所对应实施例中对第二业务账号关系的描述,这里将不再继续进行赘述。
该业务关系确定单元104,用于将第一业务账号关系和第二业务账号关系确定为业务账号对应的业务账号关系。
其中,该粗标签确定单元101,第一关系确定单元102,第二关系确定单元103以及业务关系确定单元104的具体实现方式可以参见上述图3所对应实施例中对步骤S101的描述,这里将不再继续进行赘述。
该第一业务向量生成模块20,用于基于第一业务账号关系所关联的对象以及第二业务账号关系所关联的虚拟群组,建立业务账号对应的业务异构图,基于业务异构图,生成业务账号对应的第一业务表征向量。
其中,该第一业务向量生成模块20包括:异构图建立单元201,初始向量确定单元202,模型获取单元203以及编码处理单元204。
该异构图建立单元201,用于基于第一业务账号关系所关联的对象以及第二业务账号关系所关联的虚拟群组,建立业务账号对应的业务异构图;业务异构图中包括Y个节点;Y为正整数;
该初始向量确定单元202,用于基于业务异构图,确定Y个节点中的每个节点的初始向量;初始向量用于表征对应节点的节点信息;
该模型获取单元203,用于获取到针对业务账号的目标注册评估模型;目标注册评估模型包括目标编码子模型;
该编码处理单元204,用于将Y个初始向量输入至目标编码子模型,通过目标编码子模型,对业务账号进行编码处理,得到业务账号对应的第一业务表征向量。
其中,该编码处理单元204包括:特征映射子单元2041,邻居节点确定子单元2042,第一聚合子单元2043以及第二聚合子单元2044。
该特征映射子单元2041,用于在目标编码子模型中,基于Y个初始向量以及用于进行维度对齐的映射矩阵,分别对Y个节点中的每个节点进行特征映射,得到Y个映射向量;目标编码子模型包括第一隐藏层和第二隐藏层;
该邻居节点确定子单元2042,用于基于业务异构图,确定业务账号在目标节点类型下的第一邻居节点和第二邻居节点;第一邻居节点为业务账号在目标节点类型下的邻居节点;第二邻居节点为第一邻居节点下所包含的账号对应的节点;
该第一聚合子单元2043,用于通过第一隐藏层以及Y个映射向量,对业务账号的第二邻居节点进行特征聚合处理,得到第一邻居节点的邻居隐藏向量。
其中,第一邻居节点包括邻居节点Vi;i为小于或者等于Z的正整数;Z用于表示第一邻居节点的节点总数量;
该第一聚合子单元2043还具体用于:
将Y个映射向量输入至第一隐藏层中,获取与第一隐藏层相关联的权重系数;
从Y个映射向量中,确定邻居节点Vi对应的第二邻居节点的映射向量,对确定的映射向量以及Y个映射向量进行聚合处理,得到聚合向量;
基于聚合向量以及权重系数,生成邻居节点Vi对应的隐藏向量,直到得到Z个第一邻居节点分别对应的隐藏向量;
对Z个隐藏向量进行拼接处理,得到第一邻居节点的邻居隐藏向量。
该第二聚合子单元2044,用于通过第二隐藏层以及第一邻居节点的邻居隐藏向量,对业务账号的第一邻居节点进行特征聚合处理,得到业务账号对应的第一业务表征向量。
其中,该特征映射子单元2041,邻居节点确定子单元2042,第一聚合子单元2043以及第二聚合子单元2044的具体实现方式可以参见上述图3所对应实施例中对业务账号进行编码处理的描述,这里将不再继续进行赘述。
其中,该异构图建立单元201,初始向量确定单元202,模型获取单元203以及编码处理单元204的具体实现方式可以参见上述图3所对应实施例中对步骤S102的描述,这里将不再继续进行赘述。
该第二业务向量生成模块30,用于基于业务粗标签以及业务账号对应的原始特征,确定业务账号对应的原始业务表征向量,对第一业务表征向量以及原始业务表征向量进行拼接处理,得到业务账号对应的第二业务表征向量;第二业务表征向量用于预测业务账号的合法性。
其中,业务账号中的属性集合包括与账号名称相关联的第一属性、与账号头像相关联的第二属性、与注册信息相关联的第三属性以及与交互特征相关联的第四属性;待匹配属性包括第一属性、第二属性、第三属性以及第四属性中的至少一个。
该评估参数确定模块40,用于将第二业务表征向量输入至目标注册评估模型中的目标分类子模型,通过目标分类子模型,确定业务账号的评估参数;
该第一合法性确定模块50,用于若评估参数达到与目标分类子模型相关联的评估阈值,则确定业务账号不具备合法性,将业务账号确定为非法账号;
该第二合法性确定模块60,用于若评估参数未达到与评估阈值,则确定业务账号具备合法性,将业务账号确定为合法账号。
其中,该业务关系确定模块10,第一业务向量生成模块20,第二业务向量生成模块30,评估参数确定模块40,第一合法性确定模块50以及第二合法性确定模块60的具体实现方式可以参见上述图5所对应实施例中对步骤S201-步骤S204的描述,这里将不再继续进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图8,图8是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置2可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如,该数据处理装置2为一个应用软件;该数据处理装置2可以用于执行本申请实施例提供的方法中的相应步骤。如图8所示,该数据处理装置2可以运行于具有数据处理功能的计算机设备,该计算机设备可以为上述图1所对应实施例中的服务器10F,也可以为上述图1所对应实施例中的终端设备集群中的任意一个运行有目标注册评估模型的终端设备,例如,终端设备100a。该数据处理装置2可以包括:样本获取模块100,样本表征模块200,模型训练模块300以及模型确定模块400。
该样本获取模块100,用于获取用于对初始注册评估模型进行训练的样本账号,确定样本账号的样本账号关系以及样本账号的样本标签;样本标签包括样本粗标签以及样本细标签;初始注册评估模型包括目标编码子模型和初始分类子模型;目标编码子模型是基于样本粗标签以及样本账号对应的样本异构图,对初始编码子模型进行训练后所得到的;样本异构图是基于样本账号关系所构建的;样本账号关系包括第一样本账号关系和第二样本账号关系;第一样本账号关系用于关联与样本账号具有相同属性的对象;第二样本账号关系用于关联样本账号的虚拟群组;
该样本表征模块200,用于通过目标编码子模型以及样本异构图,对样本账号进行编码处理,得到用于表征样本账号的第一样本表征向量,基于样本粗标签、样本账号对应的原始特征以及第一样本表征向量,得到样本账号对应的第二样本表征向量;
该模型训练模块300,用于基于第二样本表征向量以及样本细标签,对初始分类子模型进行训练,得到目标分类子模型;
该模型确定模块400,用于将包括目标分类子模型和目标编码子模型的初始注册评估模型确定为目标注册评估模型;目标注册评估模型用于预测业务账号的合法性。
其中,该样本获取模块100,样本表征模块200,模型训练模块300以及模型确定模块400的具体实现方式可以参见上述图5所对应实施例中对步骤S204-步骤S208的描述,这里将不再继续进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图9,图9是本申请实施例提供的一种计算机设备的示意图。如图9所示,该计算机设备1000可以为具备数据处理功能的计算机设备,该计算机设备1000可以包括:至少一个处理器1001,例如,CPU,至少一个网络接口1004,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。其中,在一些实施例中,该计算机设备还可以包括图9所示的用户接口1003,比如,若该计算机设备为图1所示的具有数据处理功能的终端设备(例如,终端设备100a),则该计算机设备还可以包括该用户接口1003,其中,该用户接口1003可以包括显示屏(Display)、键盘(Keyboard)等。
在图9所示的计算机设备1000中,网络接口1004主要用于进行网络通信;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3和图5所对应实施例中对该数据处理方法的描述,也可执行前文图7所对应实施例中对该数据处理装置1或者图8所对应实施例中对该数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且该计算机可读存储介质中存储有前文提及的数据处理装置1或者数据处理装置2所执行的计算机程序,且该计算机程序包括程序指令,当该处理器执行该程序指令时,能够执行前文图3或者图5所对应实施例中对该数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图3和图5中各个步骤所提供的数据处理方法,具体可参见图3以及图5各个步骤所提供的实现方式,在此不再赘述。
进一步的,请参见图10,图10是本申请实施例提供的一种数据处理系统的结构示意图。该数据处理系统3可以包含数据处理装置1a和数据处理装置2a。其中,数据处理装置1a可以为上述图7所对应实施例中的数据处理装置1,可以理解的是,该数据处理装置1a可以集成在上述具有模型应用功能的计算机设备,该计算机设备可以为上述图1所对应实施例中的服务器10F,也可以为上述图1所对应实施例中的终端设备集群中的任意一个运行有目标注册评估模型的终端设备,例如,终端设备100a,因此,这里将不再进行赘述。其中,数据处理装置2a可以为上述图8所对应实施例中的数据处理装置2,可以理解的是,该数据处理装置2a可以集成在上述具有数据训练功能的计算机设备,该计算机设备可以为上述图1所对应实施例中的服务器10F,也可以为上述图1所对应实施例中的终端设备集群中的任意一个运行有目标注册评估模型的终端设备,例如,终端设备100a,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的数据处理系统实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (17)
1.一种数据处理方法,其特征在于,包括:
在获取到待检测的业务账号时,确定所述业务账号的业务粗标签以及所述业务账号对应的业务账号关系;所述业务账号关系包括第一业务账号关系和第二业务账号关系;所述第一业务账号关系用于关联与所述业务账号具有相同属性的对象;所述第二业务账号关系用于关联所述业务账号的虚拟群组;所述虚拟群组中的账号与所述业务账号具有关联属性,且所述虚拟群组不属于在应用客户端中进行通讯的公共群组;
基于所述第一业务账号关系所关联的对象以及所述第二业务账号关系所关联的虚拟群组,建立所述业务账号对应的业务异构图,基于所述业务异构图,生成所述业务账号对应的第一业务表征向量;
基于所述业务粗标签以及所述业务账号对应的原始特征,确定所述业务账号对应的原始业务表征向量,对所述第一业务表征向量以及所述原始业务表征向量进行拼接处理,得到所述业务账号对应的第二业务表征向量;所述第二业务表征向量用于预测所述业务账号的合法性。
2.根据权利要求1所述的方法,其特征在于,所述在获取到待检测的业务账号时,确定所述业务账号的业务粗标签以及所述业务账号对应的业务账号关系,包括:
在获取到待检测的业务账号时,基于针对所述业务账号的注册评估策略,确定所述业务账号的业务粗标签;
基于所述应用客户端,确定所述业务账号对应的第一业务账号关系;
查找与所述业务账号具有相似属性的账号,将具有同一相似属性的账号进行群组模拟构建,得到X1个虚拟群组,分别建立每个虚拟群组与所述业务账号之间的账号关系,将X1个账号关系作为所述业务账号对应的第二业务账号关系;X1为正整数;
将所述第一业务账号关系和所述第二业务账号关系确定为所述业务账号对应的业务账号关系。
3.根据权利要求2所述的方法,其特征在于,所述注册评估策略包括第一评估策略;所述第一评估策略包括非法信息流以及次数阈值;
所述在获取到待检测的业务账号时,基于针对所述业务账号的注册评估策略,确定所述业务账号的业务粗标签,包括:
在获取到待检测的业务账号时,从所述业务账号对应的原始特征中,获取所述业务账号在评估周期内的第一交互特征;
若所述第一交互特征指示所述业务账号发送过所述非法信息流,且信息流发送次数达到次数阈值,则将用于表征不具备合法性的第一标签作为所述业务账号的业务粗标签;
若所述第一交互特征指示所述业务账号发送过所述非法信息流,且信息流发送次数未达到次数阈值,则将用于表征不确定性的第二标签作为所述业务账号的业务粗标签;
若所述第一交互特征指示所述业务账号未发送过所述非法信息流,则将用于表征具备合法性的第三标签作为所述业务账号的业务粗标签。
4.根据权利要求2所述的方法,其特征在于,所述注册评估策略包括第二评估策略;所述第二评估策略包括在单位时长内所设定的第一频率阈值和第二频率阈值,所述第一频率阈值大于所述第二频率阈值;
所述在获取到待检测的业务账号时,基于针对所述业务账号的注册评估策略,确定所述业务账号的业务粗标签,包括:
在获取到待检测的业务账号时,从所述业务账号对应的原始特征中,获取所述业务账号在评估周期内的第二交互特征,基于所述第二交互特征,确定所述业务账号在所述单位时长内执行账号添加操作的添加频率;
若所述添加频率达到所述第一频率阈值,则将用于表征不具备合法性的第一标签作为所述业务账号的业务粗标签;
若所述添加频率未达到所述第二频率阈值,则将用于表征不确定性的第二标签作为所述业务账号的业务粗标签;
若所述添加频率大于所述第二频率阈值,且未达到所述第一频率阈值,则将用于表征具备合法性的第三标签作为所述业务账号的业务粗标签。
5.根据权利要求2所述的方法,其特征在于,所述基于所述应用客户端,确定所述业务账号对应的第一业务账号关系,包括:
若所述应用客户端为社交客户端,则获取所述业务账号对应的X2个地址标识,分别建立每个地址标识与所述业务账号之间的账号关系,得到X2个账号关系;X2为正整数;
获取包含所述业务账号的X3个公共群组,分别建立每个公共群组与所述业务账号之间的账号关系,得到X3个账号关系;X3为正整数;
将所述X2个账号关系和所述X3个账号关系确定为所述业务账号对应的第一业务账号关系。
6.根据权利要求2所述的方法,其特征在于,所述查找与所述业务账号具有相似属性的账号,将具有同一相似属性的账号进行群组模拟构建,得到X1个虚拟群组,分别建立每个虚拟群组与所述业务账号之间的账号关系,将X1个账号关系作为所述业务账号对应的第二业务账号关系,包括:
从所述业务账号的属性集合中选择M个属性,基于所述M个属性,生成X1个待匹配属性;M为正整数;所述X1个待匹配属性中的任意两个待匹配属性所包含的属性互不相同;所述X1个待匹配属性包括待处理属性;
从所述应用客户端所注册的原始账号集合中,获取与所述待处理属性相匹配的账号集合,对获取到的账号集合中的账号进行群组模拟构建,得到所述待处理属性对应的虚拟群组;
当获取到所述X1个待匹配属性分别对应的虚拟群组时,分别建立每个虚拟群组与所述业务账号之间的账号关系,将X1个账号关系作为所述业务账号对应的第二业务账号关系。
7.根据权利要求6所述的方法,其特征在于,所述业务账号中的属性集合包括与账号名称相关联的第一属性、与账号头像相关联的第二属性、与注册信息相关联的第三属性以及与交互特征相关联的第四属性;所述待匹配属性包括所述第一属性、所述第二属性、所述第三属性以及所述第四属性中的至少一个。
8.根据权利要求1所述的方法,其特征在于,所述基于所述第一业务账号关系所关联的对象以及所述第二业务账号关系所关联的虚拟群组,建立所述业务账号对应的业务异构图,基于所述业务异构图,生成所述业务账号对应的第一业务表征向量,包括:
基于所述第一业务账号关系所关联的对象以及所述第二业务账号关系所关联的虚拟群组,建立所述业务账号对应的业务异构图;所述业务异构图中包括Y个节点;Y为正整数;
基于所述业务异构图,确定所述Y个节点中的每个节点的初始向量;所述初始向量用于表征所述对应节点的节点信息;
获取到针对所述业务账号的目标注册评估模型;所述目标注册评估模型包括目标编码子模型;
将所述Y个初始向量输入至所述目标编码子模型,通过所述目标编码子模型,对所述业务账号进行编码处理,得到所述业务账号对应的第一业务表征向量。
9.根据权利要求8所述的方法,其特征在于,所述将所述Y个初始向量输入至所述目标编码子模型,通过所述目标编码子模型,对所述业务账号进行编码处理,得到所述业务账号对应的第一业务表征向量,包括:
在所述目标编码子模型中,基于所述Y个初始向量以及用于进行维度对齐的映射矩阵,分别对所述Y个节点中的每个节点进行特征映射,得到Y个映射向量;所述目标编码子模型包括第一隐藏层和第二隐藏层;
基于所述业务异构图,确定所述业务账号在目标节点类型下的第一邻居节点和第二邻居节点;所述第一邻居节点为所述业务账号在目标节点类型下的邻居节点;所述第二邻居节点为所述第一邻居节点下所包含的账号对应的节点;
通过所述第一隐藏层以及所述Y个映射向量,对所述业务账号的第二邻居节点进行特征聚合处理,得到所述第一邻居节点的邻居隐藏向量;
通过所述第二隐藏层以及所述第一邻居节点的邻居隐藏向量,对所述业务账号的第一邻居节点进行特征聚合处理,得到所述业务账号对应的第一业务表征向量。
10.根据权利要求9所述的方法,其特征在于,所述第一邻居节点包括邻居节点Vi;i为小于或者等于Z的正整数;Z用于表示所述第一邻居节点的节点总数量;
所述通过所述第一隐藏层以及所述Y个映射向量,对所述业务账号的第二邻居节点进行特征聚合处理,得到所述第一邻居节点的邻居隐藏向量,包括:
将所述Y个映射向量输入至所述第一隐藏层中,获取与所述第一隐藏层相关联的权重系数;
从所述Y个映射向量中,确定所述邻居节点Vi对应的第二邻居节点的映射向量,对确定的映射向量以及所述Y个映射向量进行聚合处理,得到聚合向量;
基于所述聚合向量以及所述权重系数,生成所述邻居节点Vi对应的隐藏向量,直到得到Z个第一邻居节点分别对应的隐藏向量;
对Z个隐藏向量进行拼接处理,得到所述第一邻居节点的邻居隐藏向量。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述第二业务表征向量输入至目标注册评估模型中的目标分类子模型,通过所述目标分类子模型,确定所述业务账号的评估参数;
若所述评估参数达到与所述目标分类子模型相关联的评估阈值,则确定所述业务账号不具备合法性,将所述业务账号确定为非法账号;
若所述评估参数未达到与所述评估阈值,则确定所述业务账号具备合法性,将所述业务账号确定为合法账号。
12.一种数据处理方法,其特征在于,包括:
获取用于对初始注册评估模型进行训练的样本账号,确定所述样本账号的样本账号关系以及所述样本账号的样本标签;所述样本标签包括样本粗标签以及样本细标签;所述初始注册评估模型包括目标编码子模型和初始分类子模型;所述目标编码子模型是基于所述样本粗标签以及所述样本账号对应的样本异构图,对初始编码子模型进行训练后所得到的;所述样本异构图是基于所述样本账号关系所构建的;所述样本账号关系包括第一样本账号关系和第二样本账号关系;所述第一样本账号关系用于关联与所述样本账号具有相同属性的对象;所述第二样本账号关系用于关联所述样本账号的虚拟群组;
通过所述目标编码子模型以及所述样本异构图,对所述样本账号进行编码处理,得到用于表征所述样本账号的第一样本表征向量,基于所述样本粗标签、所述样本账号对应的原始特征以及所述第一样本表征向量,得到所述样本账号对应的第二样本表征向量;
基于所述第二样本表征向量以及所述样本细标签,对所述初始分类子模型进行训练,得到目标分类子模型;
将包括所述目标分类子模型和所述目标编码子模型的初始注册评估模型确定为目标注册评估模型;所述目标注册评估模型用于预测所述业务账号的合法性。
13.一种数据处理装置,其特征在于,包括:
业务关系确定模块,用于在获取到待检测的业务账号时,确定所述业务账号的业务粗标签以及所述业务账号对应的业务账号关系;所述业务账号关系包括第一业务账号关系和第二业务账号关系;所述第一业务账号关系用于关联与所述业务账号具有相同属性的对象;所述第二业务账号关系用于关联所述业务账号的虚拟群组;所述虚拟群组中的账号与所述业务账号具有关联属性,且所述虚拟群组不属于在应用客户端中进行通讯的公共群组;
第一业务向量生成模块,用于基于所述第一业务账号关系所关联的对象以及所述第二业务账号关系所关联的虚拟群组,建立所述业务账号对应的业务异构图,基于所述业务异构图,生成所述业务账号对应的第一业务表征向量;
第二业务向量生成模块,用于基于所述业务粗标签以及所述业务账号对应的原始特征,确定所述业务账号对应的原始业务表征向量,对所述第一业务表征向量以及所述原始业务表征向量进行拼接处理,得到所述业务账号对应的第二业务表征向量;所述第二业务表征向量用于预测所述业务账号的合法性。
14.一种数据处理装置,其特征在于,包括:
样本获取模块,用于获取用于对初始注册评估模型进行训练的样本账号,确定所述样本账号的样本账号关系以及所述样本账号的样本标签;所述样本标签包括样本粗标签以及样本细标签;所述初始注册评估模型包括目标编码子模型和初始分类子模型;所述目标编码子模型是基于所述样本粗标签以及所述样本账号对应的样本异构图,对初始编码子模型进行训练后所得到的;所述样本异构图是基于所述样本账号关系所构建的;所述样本账号关系包括第一样本账号关系和第二样本账号关系;所述第一样本账号关系用于关联与所述样本账号具有相同属性的对象;所述第二样本账号关系用于关联所述样本账号的虚拟群组;
样本表征模块,用于通过所述目标编码子模型以及所述样本异构图,对所述样本账号进行编码处理,得到用于表征所述样本账号的第一样本表征向量,基于所述样本粗标签、所述样本账号对应的原始特征以及所述第一样本表征向量,得到所述样本账号对应的第二样本表征向量;
模型训练模块,用于基于所述第二样本表征向量以及所述样本细标签,对所述初始分类子模型进行训练,得到目标分类子模型;
模型确定模块,用于将包括所述目标分类子模型和所述目标编码子模型的初始注册评估模型确定为目标注册评估模型;所述目标注册评估模型用于预测所述业务账号的合法性。
15.一种计算机设备,其特征在于,包括:处理器和存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1至12任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1至12任一项所述的方法。
17.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,所述计算机程序适于由处理器读取并执行,以使得具有所述处理器的计算机设备执行权利要求1至12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211590029.0A CN116975809A (zh) | 2022-12-12 | 2022-12-12 | 一种数据处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211590029.0A CN116975809A (zh) | 2022-12-12 | 2022-12-12 | 一种数据处理方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116975809A true CN116975809A (zh) | 2023-10-31 |
Family
ID=88473716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211590029.0A Pending CN116975809A (zh) | 2022-12-12 | 2022-12-12 | 一种数据处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116975809A (zh) |
-
2022
- 2022-12-12 CN CN202211590029.0A patent/CN116975809A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111401447B (zh) | 一种基于人工智能的流量作弊识别方法、装置、电子设备 | |
CN112231592A (zh) | 基于图的网络社团发现方法、装置、设备以及存储介质 | |
CN112395515B (zh) | 一种信息推荐方法、装置、计算机设备及存储介质 | |
CN110929806A (zh) | 基于人工智能的图片处理方法、装置及电子设备 | |
CN112989065A (zh) | 应用于大数据用户画像分析的信息处理方法和云计算平台 | |
CN112258250A (zh) | 基于网络热点的目标用户识别方法、装置和计算机设备 | |
CN114282059A (zh) | 视频检索的方法、装置、设备及存储介质 | |
CN114529765A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN113128526B (zh) | 图像识别方法、装置、电子设备和计算机可读存储介质 | |
CN112817563A (zh) | 目标属性配置信息确定方法、计算机设备和存储介质 | |
CN105721467B (zh) | 社交网络Sybil群体检测方法 | |
CN114692007A (zh) | 表示信息的确定方法、装置、设备及存储介质 | |
CN111597361B (zh) | 多媒体数据处理方法、装置、存储介质及设备 | |
CN115049397A (zh) | 识别社交网络中的风险账户的方法及装置 | |
CN116935170A (zh) | 视频处理模型的处理方法、装置、计算机设备和存储介质 | |
CN113962417A (zh) | 一种视频处理方法、装置、电子设备和存储介质 | |
CN116522131A (zh) | 对象表示方法、装置、电子设备及计算机可读存储介质 | |
CN116975809A (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN115328786A (zh) | 一种基于区块链的自动化测试方法、装置和存储介质 | |
CN113076963B (zh) | 一种图像识别方法、装置和计算机可读存储介质 | |
JP6706397B1 (ja) | 学習システム、学習方法、及びプログラム | |
CN113656927A (zh) | 数据处理方法、相关设备及计算机程序产品 | |
CN112231571A (zh) | 资讯数据的处理方法、装置、设备及存储介质 | |
CN115082873A (zh) | 基于通路融合的图像识别方法、装置及存储介质 | |
CN114820085B (zh) | 用户筛选方法、相关装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |