CN114611081A - 账号类型识别方法、装置、设备、存储介质及产品 - Google Patents
账号类型识别方法、装置、设备、存储介质及产品 Download PDFInfo
- Publication number
- CN114611081A CN114611081A CN202210217851.6A CN202210217851A CN114611081A CN 114611081 A CN114611081 A CN 114611081A CN 202210217851 A CN202210217851 A CN 202210217851A CN 114611081 A CN114611081 A CN 114611081A
- Authority
- CN
- China
- Prior art keywords
- account
- processed
- type
- training set
- graph structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本申请的实施例揭示了一种账号类型识别方法、装置、设备、存储介质及产品,该方法包括:根据待处理账号之间的关联关系生成待处理账号对应的图结构的边,并根据待处理账号的类型特征生成待处理账号对应的图结构的节点;根据图结构的边和图结构的节点,生成待处理账号对应的图结构;根据待处理账号对应的图结构进行特征提取,得到待处理账号对应的嵌入向量;根据待处理账号对应的嵌入向量,对待处理账号进行类型识别。本申请实施例的技术方案结合账号间的关联属性和账号的类型特征属性对待处理账号的类型进行识别,提高了账号类型识别结果的准确性。
Description
技术领域
本申请涉及计算机及通信技术领域,具体而言,涉及一种账号类型识别方法、账号类型识别装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
随着计算机和互联网技术的迅速发展,很多业务可以在网上进行办理,在使用这些业务时,往往需要注册相应的账号,比如电商平台账号、第三方支付平台账号、论坛平台账号等。
但是,一些使用对象或者组织出于不良目的,会通过各种方式注册大量虚假账号,这些账号可能威胁交易安全,给其他使用对象的资金或者其他利益造成损失,给平台带来危害。
发明内容
为解决上述技术问题,本申请的实施例提供了一种账号类型识别方法、账号类型识别装置、电子设备、计算机可读存储介质及计算机程序产品,可以提高账号类型识别的准确性。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种账号类型识别方法,包括:根据待处理账号之间的关联关系生成所述待处理账号对应的图结构的边,并根据所述待处理账号的类型特征生成所述待处理账号对应的图结构的节点;根据所述图结构的边和所述图结构的节点,生成所述待处理账号对应的图结构;根据所述待处理账号对应的图结构进行特征提取,得到所述待处理账号对应的嵌入向量;根据所述待处理账号对应的嵌入向量,对所述待处理账号进行类型识别。
根据本申请实施例的一个方面,提供了一种账号类型识别装置,包括:生成模块,用于根据待处理账号待处理账号之间的关联关系生成所述待处理账号对应的图结构的边,并根据所述待处理账号的类型特征生成所述待处理账号对应的图结构的节点;图结构模块,用于根据所述图结构的边和所述图结构的节点,生成所述待处理账号对应的图结构;特征提取模块,用于根据所述待处理账号对应的图结构进行特征提取,得到所述待处理账号对应的嵌入向量;类型识别模块,用于根据所述待处理账号对应的嵌入向量,对所述待处理账号进行类型识别。
在本申请的一实施例中,所述特征提取模块具体用于获取预训练的图神经网络模型,所述预训练的图神经网络模型是通过训练集进行训练得到的;将所述待处理账号对应的图结构与所述训练集对应的图结构进行整合,得到整体图结构;将所述整体图结构输入到所述图神经网络模型,以获得所述待处理账号的嵌入向量。
在本申请的一实施例中,所述账号类型识别装置还包括模型训练模块,所述模型训练模块包括:构造单元,用于根据所述训练集中账号间的关联关系构造所述训练集的边集合,并根据所述训练集中各账号的类型特征构造所述训练集的节点集合;图生成单元,用于根据所述训练集的边集合和所述训练集的节点集合生成所述训练集对应的图结构;训练单元,用于根据所述训练集对应的图结构训练得到所述图神经网络模型。
在本申请的一实施例中,所述训练单元具体用于基于所述训练集中各账号的类型确定所述训练集所包含的正样本和负样本;根据所述训练集对应的图结构、所述正样本和负样本训练得到所述图神经网络模型。
在本申请的一实施例中,所述训练单元进一步用于根据所述训练集对应的图结构无监督的训练初始图神经网络模型,以获得模型参数;根据所述正样本和所述负样本对所述模型参数进行调整,以得到所述图神经网络模型。
在本申请的一实施例中,所述构造单元,还用于将所述训练集对应的图结构输入到所述图神经网络模型,以获取所述训练集的嵌入向量,所述训练单元还用于根据所述训练集的嵌入向量、所述正样本和所述负样本对初始类型预测模型进行训练,得到类型预测模型,所述类型预测模型用于基于所述待处理账号对应的嵌入向量对所述待处理账号的类型进行识别。
在本申请的一实施例中,所述构造单元进一步用于将根据所述训练集中账号间的关联关系构造得到的以下至少一个边集合作为所述训练集的边集合:根据所述训练集中账号间的邀请关系,构造得到的所述训练集的第一边集合;根据所述训练集中账号间的设备共享情况,构造得到的所述训练集的第二边集合;根据所述训练集中账号间的互联网协议地址共享情况,构造得到的所述训练集的第三边集合;根据所述训练集中账号间的操作行为相似性,构造得到的所述训练集的第四边集合。
在本申请的一实施例中,若所述训练集的边集合包括所述第四边集合,所述账号类型识别装置还包括处理模块,用于获取被邀请账号在被邀请后的操作行为路径集,所述操作行为路径集用于表征所述被邀请账号在被邀请后的行为路径;对所述操作行为路径集中的不同行为路径进行分桶处理,得到分桶处理结果;根据所述分桶处理结果和所述账号间的邀请关系确定所述训练集中账号间的操作行为相似性。
在本申请的一实施例中,所述构造单元进一步用于将根据所述训练集中各账号的类型特征构造得到的以下至少一个特征集作为所述训练集的节点集合:根据所述训练集中各账号的互联网协议地址特征,构建得到的第一特征集;根据所述训练集中的各账号的设备特征,构建得到的第二特征集;根据所述训练集中的各账号的登录特征,构建得到的第三特征集。
在本申请的一实施例中,所述类型识别模块进一步用于将所述待处理账号的嵌入向量输入到所述类型预测模型,以预测得到所述待处理账号的类型概率值;获取所述待处理账号中负样本比例和正样本比例;当所述待处理账号中负样本比例与正样本比例的差值达到差值阈值时,将所述类型概率值作为所述待处理账号的类型占比,并根据所述类型占比对所述待处理账号进行类型识别。
在本申请的一实施例中,所述类型识别模块进一步还用于当所述待处理账号中负样本比例与正样本比例的差值未达到所述差值阈值时,根据所述类型概率值确定所述待处理账号的几率;将所述待处理账号的几率转换为类型分值,将所述类型分值作为所述待处理账号的类型占比,并根据所述类型占比对所述待处理账号进行类型识别。
在本申请的一实施例中,所述类型识别模块进一步用于若所述类型占比大于占比阈值,则将所述待处理账号的类型识别为负样本所对应的账号类型。
根据本申请实施例的一个方面,提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如上所述的账号类型识别方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被电子设备的处理器执行时,使电子设备执行如上所述的账号类型识别方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质读取并执行所述计算机程序,使得所述电子设备执行如上所述的账号类型识别方法。
在本申请的实施例所提供的技术方案中,通过根据待处理账号之间的关联关系生成待处理账号对应的图结构的边,并根据待处理账号的类型特征生成图结构的节点,可以从账号个体纬度上考虑到账号的类型特征属性,同时考虑账号间存在的关联属性,使得生成的待处理账号对应的图结构能更准确的反应出待处理账号的特征,进而通过对图结构进行特征提取,可准确得到待处理账号对应的嵌入向量,最后根据待处理账号对应的嵌入向量,对待处理账号进行类型识别,通过结合账号间的关联属性和账号的类型特征属性对待处理账号的类型进行识别,提高了对账号类型识别结果的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。在附图中:
图1是本申请涉及的一种实施环境的示意图;
图2是本申请的一示例性实施例示出的一种账号类型识别方法的流程图;
图3是图2所示实施例中的步骤S130在一示例性实施例中的流程图;
图4为本申请的一示例性实施例示出的一种图神经网络模型训练的流程示意图;
图5为图4所示实施例中的步骤S430在一示例性实施例中的流程图;
图6为图5所示实施例中的步骤S432在一示例性实施例中的流程图;
图7为本申请一示例性实施例示出的一种类型预测模型的训练流程示意图;
图8为图4所示实施例中的步骤S410在一示例性实施例中的示意图;
图9为本申请一示例性实施例示出的一种确定操作行为相似的流程示意图;
图10为图4所示实施例中的步骤S410在另一示例性实施例中的示意图;
图11是图2所示实施例中的步骤S140在一示例性实施例中的流程图;
图12是图2所示实施例中的步骤S140在另一示例性实施例中的流程图;
图13是本申请的另一示例性实施例示出的一种账号类型识别方法的流程图;
图14是本申请的一示例性实施例示出的一种账号类型识别装置的示意图;
图15示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
还需要说明的是:在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在相关技术中,对账号进行识别时,由于正负样本的稀缺性的要求,通常采用专家规则、树模型、异常检测算法、社区发现算法等识别账号类型。其中,专家规则主要利用账号历史类型标签,设备历史类型标签和邀请关系构造策略;特点是业务熟练的专家可以快速构建出多种组合策略,不需要构造正负样本。常用的树模型包括随机森林,XGBoost(eXtreme Gradient Boosting,分布式梯度增强库),LightGBM(Light Gradient BoostingMachine,轻量的梯度提升机),特点是熟练的算法工程师可以快速训练出可用的模型。常用的异常检测算法包括高斯异常检测,iForest(Isolation Forest,独立森林),LSTM(LongShort-Term Memory,长短期记忆神经网络)等,这些算法的特点是训练过程中无需构造正负样本标签,线上可以及时发现异常账号,召回率高。常用的社区发现算法包括LPA(LabelPropagation Algorithm,标签传播算法),SLPA(speaker-listener label propagation,是一种对LPA算法标签传播算法的拓展),Infomap(一种高效的发现非重叠社区发现算法),HANP(Hop Attenuation&Node Preference,一种通过添加节点偏好和衰减因子的方式,控制标签的传播过程的算法),Louvain(一种是基于模块度(Modularity)的社区发现算法),Copra(一种基于标签传递的社区发现算法)等,特点是可以无监督训练,并且能够对大量账号的类型进行识别。
专家规则的缺点是依赖熟练的业务专家,对业务不熟练很难在短期内构造出准确率高的策略,并且已有策略很容易被破解绕过,进而需要专家持续不断的投入时间和精力升级相关策略。
随机森林,XGBoost等树模型的缺点是单纯从个体维度看待账号的类型,忽略了账号间的关系;同时,由于正负样本标签的稀缺性,很容易导致训练的模型过拟合,很难兼顾识别的准确率和召回率。
高斯异常检测,iForest,LSTM等异常检测算法的缺点是对账号识别的准确率不高,模型识别出的具有某些异常行为的账号不一定是作弊账号;同时,与树模型一样单纯从个体纬度上看待账号的类型,没有考虑账号间存在的关联性。
LPA,Louvain,Infomap等社区发现算法考虑到了账号间的关系,但是在模型的构造过程中忽略了节点的属性,不能充分利用账号,设备的特征属性和已有的类型和标签;同时,由于无监督训练的原因,通过社区发现算法识别的账号不一定是作弊账号,还需要类型标签的辅助才能够提升识别账号识别的准确性。
基于此,本申请实施例提供一种新的账号类型识别方案,可以结合账号间的关联属性和账号的类型特征属性对待处理账号的类型进行识别,提高了对账号类型识别结果准确性。
由于本申请实施例的技术方案涉及人工智能(Artificial Intelligence,AI)技术领域,在介绍本申请实施例的技术方案之前,先简单介绍AI技术,AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,AI是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心,是使计算机具有智能的根本途径,其应用遍及AI的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。本申请可以基于机器学习实现账号类型识别方法。
需要说明的是,本申请的实施例的技术方案也涉及区块链(Blockchain)技术。区块链技术是利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来生成和更新数据、利用密码学的方式保证数据传输和访问的安全、利用由自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算方式。区块链是指一套去中心化、具备分布式存储特点的基础架构,具体是一种按照时间顺序将数据区块用类似链表的方式组成的数据结构,能够安全存储有先后关系的、能在系统内进行验证的数据,并以密码学方式保证数据不可篡改和不可伪造。简单的讲,区块链就是去中心化的分布式账本,每一条链相当于一个独立的账本。
本申请实施例涉及的实施环境可以是由多个节点(接入网络中的任意形式的计算设备,如服务器、终端)通过网络通信的形式连接形成的分布式系统。以分布式系统为区块链系统为例,由多个节点(接入网络中的任意形式的计算设备,如服务器、终端)形成,节点之间形成组成的点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作系统层和应用层。
区块链系统中各节点的功能,涉及的功能至少包括:1)路由,节点具有的基本功能,用于支持节点之间的通信。节点除具有路由功能外,还可以具有以下功能:2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
基于区块链技术,在本申请的实施例中,服务器节点可以将训练完成的图神经网络模型和/或类型预测模型形成记录数据,记录数据中携带数字签名以表示数据的来源,将记录数据发送到区块链系统中的其他节点;其他节点如其他服务器或移动终端在验证记录数据来源以及完整性成功时,可获取到图神经网络模型和类型预测模型,进而其他服务器可完成对账号的类型识别;其中多个服务器、终端可组成一区块链系统,而服务器、终端为区块链系统上的节点。
请参阅图1,图1是本申请涉及的一种实施环境的示意图。该实施环境包括终端10、服务器20,终端10和服务器20之间通过有线或者无线网络进行通信。
其中,终端10可运行应用程序,以将应用程序的应用活动推送给使用对象,进而可将参与该应用活动的使用对象的账号发送给服务器。
服务器20可以根据待处理账号之间的关联关系生成待处理账号对应的图结构的边,并根据待处理账号的类型特征生成待处理账号对应的图结构的节点;根据图结构的边和图结构的节点,生成待处理账号对应的图结构;根据待处理账号对应的图结构进行特征提取,得到待处理账号对应的嵌入向量;根据待处理账号对应的嵌入向量,对待处理账号进行类型识别,进而根据待处理账号的类型识别结果对待处理账号进行控制。
当然在一些实施例中,该服务器20可以是终端10上运行的应用程序所对应的服务器,进而该服务器可以直接获取到参与应用活动的账号,进而对待处理账号进行类型识别。
其中,本申请实施例的技术方案可以对各平台中的账号类型进行识别,具体比如可以是云技术、AI、智慧交通、辅助驾驶等各种场景中的账号类型,或者也可以是对如即时通讯应用程序、购物网站应用程序、内容平台应用程序中的账号进行类型识别,终端10可以是智能手机、平板、笔记本电脑、计算机、智能语音交互设备、智能家电、车载终端、飞行器等电子设备;服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和智能平台等基础云计算服务的云服务器,本处不对此进行限制。
如图2所示,图2是根据一示例性实施例示出的一种账号类型识别的流程图,该方法可以应用于图1所示的实施环境,该方法可以由终端或服务器执行,也可以由终端和服务器共同执行,在本申请实施例中,以该方法由服务器执行为例进行说明,该账号类型识别方法可以包括步骤S110至步骤S140,详细介绍如下:
S110、根据待处理账号之间的关联关系生成待处理账号对应的图结构的边,并根据待处理账号的类型特征生成待处理账号对应的图结构的节点。
在本申请的一个实施例中,账号可以是在对应平台上的账号,而平台上存在大量的账号,为了避免给其他使用对象和平台造成不好影响,需要对平台上的账号进行类型识别,以确定账号是否为虚假账号、异常账号、非安全账号等。本申请实施例中的平台比如可以是即时通讯应用程序、购物网站应用程序、内容平台应用程序等。
可选的,可以将平台上的所有账号都设为待处理账号,也可以将新注册的账号设为待处理账号,还可以一段时间内登陆平台上所有账号设为待处理账号,在此不进行限定。
需要说明的是,根据待处理账号之间的关联关系生成待处理账号对应的图结构的边,其中账号之间的关联关系表示两个账号之间存在关联,包括但不限于邀请关系,共享关系等;根据待处理账号的类型特征生成待处理账号对应的图结构的节点;其中,图结构的节点可以为账号,各账号的类型特征为描述账号的类型的特征,包括但不限于账号对应的设备特征、账号本身对应的账号特征等。
S120、根据图结构的边和图结构的节点,生成待处理账号对应的图结构。
在本申请一实施例中,在得到图结构的节点和边之后,通过边将各个节点连接起,以生成待处理账号对应的图结构,进而该图结构可以反映待处理账号之间的关系,以及每个账号的类型特征。
可选的,该待识别账号组的图结构的边可以为有向的,例如当关联关系包括邀请关系时,根据邀请与被邀请的关系可以确定边的方向;当然该待识别账号组的图结构的边也可以是无向的。
S130、根据待处理账号对应的图结构进行特征提取,得到待处理账号对应的嵌入向量。
如前所述,图结构可以反映待处理账号之间的关系,以及每个账号的类型特征,因此可以对待处理账号对应的图结构进行特征提取得到待处理账号对应的嵌入向量,该嵌入向量用于表示待处理账号的类型的特征信息。
S140、根据待处理账号对应的嵌入向量,对待处理账号进行类型识别。
在本申请的一个实施例中,通过待处理账号对应的嵌入向量所表示的类型的特征信息,以此确定出待处理账号的类型。可选的,可通过预先训练得到类型预测模型,将待处理账号的嵌入向量输入到类型预测模型中,进而通过类型预测模型可预测出该待处理账号所属的类型。
在本实施例中,同时考虑账号的类型特征和账号间存在的关联性,生成待处理账号的图结构,能够准确地通过待处理账号的图结构确定待处理账号的嵌入向量实现对待处理账号的类型识别,提高了识别结果的准确性。
如图3所示,图3是图2所示实施例中的步骤S130在一示例性实施例中的流程图,根据待处理账号对应的图结构进行特征提取,得到待处理账号对应的嵌入向量包括:
S131、获取预训练的图神经网络模型,预训练的图神经网络模型是通过训练集进行训练得到的。
可以理解的是,本申请一实施例中需要先通过训练集训练得到图神经网络模型,该训练集也是在平台上注册的账号,进而可获取训练完成的图神经网络模型。
可选的,该训练集在时间上位于待处理账号前的账号数据,例如训练集为4个月内平台上登录过的账号,则待处理账号为训练集后1个月内登录过平台的账号。
S132、将待处理账号对应的图结构与训练集对应的图结构进行整合,得到整体图结构。
在本申请一实施例中,需要根据训练集中的待处理账号构建得到训练集的图结构,将待处理账号对应的图结构并入训练集对应的图结构,得到整体图结构;由于待处理账号与训练集中的待处理账号在时间上连接,则待处理账号和训练集中的账号之间可能存在关联关系,进而并入后得到的整体图结构会包括待处理账号和训练集中的账号之间可能存在关联属性。
S133、将整体图结构输入到图神经网络模型,以获得待处理账号的嵌入向量。
在得到整体图结构之后,将整体图结构输入到预训练的图神经网络模型中,模型输出时会考虑待处理账号和训练集中的账号之间可能存在关联属性,使得待处理账号的嵌入向量更加准确。
可选的,该预训练图的神经网络模型为GraphSAGE(Graph SAmple andaggreGatE),GraphSAGE会对图中每个顶点邻居顶点进行采样,采用节点的1阶邻居,2邻居,一直到k阶领域,从第k阶领域采样的节点开始,做聚合操作,先聚合k邻居的特征,生成k-1邻居的embedding(嵌入向量),一直聚合k次,得到每个节点的embedding。
在本申请的另一实施例中,也可以将待处理账号的图结构直接输入到预训练的图神经网络模型中,以获取待处理账号的嵌入向量。
在本实施例中,通过将待处理账号对应的图结构与训练集对应的图结构进行整合,使得整合后的整体图结构包括待处理账号和训练集中的账号之间可能存在关联属性,进而通过图神经网络模型时,得到待处理账号的嵌入向量更加准确。
值得注意的是,如图4所示,图4为本申请的一示例性实施例示出的一种图神经网络模型训练的流程示意图,该图神经网络模型训练可以由终端或服务器执行,也可以由终端和服务器共同执行,在本申请实施例中,以该方法由服务器执行为例进行说明,图神经网络模型通过如下步骤训练得到:
S410、根据训练集中账号间的关联关系构造训练集的边集合,并根据训练集中各账号的类型特征构造训练集的节点集合。
如前所述,训练集中账号间的关联关系也包括但不限于邀请关系、共享关系等,根据训练集中账号间的关联关系构造训练集的边集合具体请参见图8所示,各账号的类型特征包括但不限于设备特征,账号特征等,根据训练集中各账号的类型特征构造训练集的节点集合体请参见图10所示。
S420、根据训练集的边集合和训练集的节点集合构造训练集对应的图结构。
如前所述,在得到图结构的节点集合和边集合之后,通过边集合将各个节点集合连接起,以生成训练集对应的图结构,进而该图结构可以反映训练集中待处理账号之间的关系,以及每个账号的类型特征。例如训练集的边集合为E,节点集合为V,则训练集的图结构为G=(V,E)。
S430、根据训练集对应的图结构训练得到图神经网络模型。
在本申请一实施例中,在得到训练集的图结构之后,根据训练集的图结构对初始图神经网络模型进行训练,得到该图神经网络模型,其中,可采用无监督方式将训练集对应的图结构输入到对初始图神经网络模型进行训练,该图神经网络模型可以直接应用,进而得到待处理账号对应的嵌入向量。
在本实施例中,从个体纬度上考虑了账号的类型特征,以得到节点集合,同时考虑账号间存在的关联性,以得到边集合,进而节点集合和边集合生成的待处理账号对应的图结构能更准确的反映出待处理账号的特征,从而更加准确可靠的训练图神经网络模型。
在本申请一实施例中,如图5所示,图5为图4所示实施例中的步骤S430在一示例性实施例中的流程图,包括:
S431、根据类型识别策略对训练集中各账号的类型进行识别,以确定训练集的正样本和负样本。
在本申请一实施例中,需要先确定训练集所包含的正样本和负样本,具体是根据训练集中各账号的类型确定,其中,训练集中各账号的类型可以事先通过对象确定的,也可以是通过类型识别策略确定的;在本申请实施例的一示例中,可根据账号历史类型标签,设备历史类型标签和账号邀请关系构造类型识别策略,进而通过类型识别策略可以是训练集中各账号的类型进行初步识别;在另一示例中,该类型识别策略还可以是随机森林,XGBoost,LightGBM等树模型,高斯异常检测,iForest,LSTM等检测算法,LPA,SLPA,Infomap,HANP,Louvain,Copra等社区发现算法等。
在本申请的一实施例中,通过类型识别策略对账号进行识别,当类型识别策略识别账号为异常账号,将异常账号作为正样本,当类型识别策略识别账号为正常账号,则将该账号作为负样本。
可选的,当类型识别策略识别账号为正常账号,且该账号为使用对象常用的账号,则将该账号作为负样本;其中,可以通过该账号是否具有缴费行为,或/和,该账号的活跃度来确定账号为使用对象常用的账号,如该账号具有缴费行为,则表示该账号为使用对象常用的账号。
S432、根据训练集对应的图结构、正样本和负样本训练得到图神经网络模型。
在本申请一实施例中,在训练集对应的图结构的基础上,进一步结合训练集所包含的正样本和负样本训练得到图神经网络模型,使得训练得到的图神经网络模型更加稳定。
在本申请一实施例中,如图6所示,图6为图5所示实施例中的步骤S432在一示例性实施例中的流程图,得到图神经网络模型包括:
S4321、根据训练集对应的图结构无监督的训练初始图神经网络模型,以获得模型参数。
可以理解的是,无监督训练指的是根据类型未知(没有被标记)的训练样本进行模型训练,即将训练集的图结构输入到初始图神经网络模型中,通过无监督训练,可以训练聚合节点邻居的函数,使GCN(图卷积网络)扩展成归纳学习任务,对未知节点起到泛化作用。为了以完全无监督的方式学习顶点的表示向量,在初始图神经网络模型中应用了一个基于图的损失函数,并通过随机梯度下降(SGD)来调整权重矩阵和每个聚合函数的参数,因此在本申请实施例中,将训练集的图结构输入到初始图神经网络模型中,初始图神经网络模型进行无监督学习时,获取初始图神经网络模型的损失函数中的模型参数,该模型参数可包括权重矩阵和每个聚合函数的参数。
S4322、根据正样本和负样本对模型参数进行调整,以得到图神经网络模型。
在本申请的一实施例中,通过正样本和负样本以监督方式对模型参数进行调整,其中,为正样本设置正样本标签,为负样本设置了负样本标签,可以是将正样本标签和负样本标签输入到无监督训练后的初始图神经网络模型中,初始图神经网络结合标签可以得到每个节点的embedding信息,对得到的embedding用有监督的损失函数计算loss,应用梯度下降算法更新参数,当模型的损失函数收敛时,则得到训练好的预训练的图神经网络模型。
在本实施例中,在少量正、负样本的情况下,半监督训练图神经模型,模型识别的准确率和召回率均较高。
值得注意的是,本申请实施例提供的账号类型识别方法还包括类型预测模型的训练过程,如图7所示,图7为本申请一示例性实施例示出的一种类型预测模型的训练流程示意图,该类型预测模型的训练可以由终端或服务器执行,也可以由终端和服务器共同执行。
具体而言,图7所示实施例的技术方案主要是通过预训练得到类型预测模型,然后基于类型预测模型来对待处理账号对应的嵌入向量进行处理,进而得到待处理帐号的类型。预训练得到类型预测模型的过程具体包括以下步骤:
S710、将训练集对应的图结构输入到图神经网络模型,以获取训练集的嵌入向量。
在本申请的一实施例中,在得到训练好的图神经网络模型之后,将训练集对应的图结构输入到该图神经网络模型,该图神经网络模型可输出训练集的嵌入向量。
S720、根据训练集的嵌入向量、正样本和负样本对初始类型预测模型进行训练,得到类型预测模型,类型预测模型用于基于待处理账号对应的嵌入向量对待处理账号的类型进行识别。
在本申请实施例中,为正样本设置正样本标签,为负样本设置负样本标签,由于嵌入向量用于表示训练集中的账号的类型的特征信息,将训练集中具有正、负标签的样本的嵌入向量,以及正标签、负标签输入到初始类型预测模型进行训练,该初始类型预测模型可以学习样本,以及正标签、负标签的映射关系。
可选的,该初始类型预测模型为GBDT(Gradient Boosting Decision Tree),GBDT是一种迭代的决策树模型,由多棵决策树组成,所有树的结论累加起来作为最终答案。
可选的,若训练集中的具有正、负标签的样本小于预设样本数量时,可以将具有正、负标签的样本分为若干等份,进行多折交叉训练校验,例如将正、负标签的样本分为10等份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验;当然还可以进行多次10折交叉训练校验。
可选的,若训练集中的具有正、负标签的样本比例不均衡时,在对初始类型预测模型进行训练,对于模型效果可以采用AUC(Area Under Curve,ROC曲线(受试者工作特征曲线)下方的面积大小)进行评估,以得到稳定的类型预测模型。
在本实施例中,通过训练好的图神经网络模型以获得准确表示的训练集的嵌入向量,进而根据该嵌入向量和对应的正、负样本标签使得训练出来的类型预测模型更加准确。
如图8所示,图8为图4所示实施例中的步骤S410在一示例性实施例中的示意图,其中构造训练集的边集合包括:将根据训练集中账号间的关联关系构造得到的以下至少一个边集合作为训练集的边集合:
根据训练集中账号间的邀请关系,构造训练集的第一边集合;
根据训练集中账号间的设备共享情况,构造训练集的第二边集合;
根据训练集中账号间的互联网协议地址共享情况,构造训练集的第三边集合;
根据训练集中账号间的操作行为相似性,构造训练集的第四边集合。
其中,训练集的第一边集合为:其中, vi表示账号i,N表示邀请关系数量。也就是说,若账号i邀请账号j登陆该平台,则将账号i和账号j之间的邀请关系设为1,若未邀请,则将邀请关系设为0,进而将训练集中的每个账号之间的邀请关系进行量化,得到邀请关系集合。
其中,训练集的第二边集合为:其中, vi表示账号i,M表示共享设备的关系数量。其中共享设备指的是两个不同的账号使用同一个终端设备登陆,也就是说,若账号j与账号i共享设备,则将账号j和账号i的共享设备关系设为1,若未共享设备,则共享设备关系设备为0,进而将训练集中每个账号之间的设备共享情况进行量化得到共享设备的关系集合。
其中,训练集的第三边集合为:其中, vi表示账号i,U表示共享ip的关系数量。共享ip指的是两个不同的账号使用同一个网络地址登陆平台,也就是说,若账号j与账号i共享ip,则将账号j和账号i的共享IP关系设为1,若未共享设备,则共享ip关系设备为0,进而将训练集中每个账号之间的ip共享情况进行量化得到共享ip的关系集合。
其中,训练集的第四边集合为:其中, vi表示账号i,V表示具有行为相似性的关系数量,该操作行为相似指的是两个账号在参与应用活动之后的操作行为相似,也就是说,若账号j与账号i操作行为相似,则将账号j和账号i的操作行为相似性设为1,若操作行为不相似,则操作行为相似性为0,进而将训练集中每个账号之间的操作行为相似性进行量化得到行为相似性的关系集合。
值得注意的是,若训练集的边集合包括第四边集合,则本申请提供的账号类型识别方法还包括确定操作行为相似性,如图9所示,图9为本申请一示例性实施例示出的一种确定操作行为相似的流程示意图,该确定操作行为相似的步骤可以由终端或服务器执行,也可以由终端和服务器共同执行,在本申请实施例中,以该方法由服务器执行为例进行说明,包括:
S910、获取被邀请账号在被邀请后的操作行为路径集,操作行为路径集用于表征被邀请账号在被邀请后的行为路径。
可以理解的是,当两个账号存在邀请关系时,邀请账号可以发送邀请信息给被邀请账号,当被邀请账号打开邀请信息时,则确定邀请账号邀请了被邀请账号,进而被邀请账号对应的终端可以检测被邀请账号在被邀请后的操作行为路径集,该操作行为路径集包括多个被邀请账号在被邀请后的行为路径,该行为路径指的是被邀请账号在各个时刻的行为,例如被邀请账号在被邀请后进行了打开应用、登陆应用对应的平台、点击平台的举行的活动,则该行为路径为打开应用、登陆、点击应用活动。
可选的,还可以为被邀请账号在各个时刻的行为设置行为编号,即每个时刻的行为对应一个的行为编号,若多个被邀请账号中在存在相同的行为,则对应的行为编号也相同,进而通过行为编号更加方便的确定待处理账号之间的操作行为是否相似。
S920、对操作行为路径集中的不同行为路径进行分桶处理,得到分桶处理结果。
如前所述,操作行为路径集包括多个被邀请账号在被邀请后的行为路径,而不同的被邀请账号的行为路径可能不同,需要对操作行为路径集中的不同行为路径进行分桶处理,即相同的行为路径处于同一个桶内,进而可以确定哪几个被邀请账号的行为路径相同,则得到的分桶处理结果为哪几个被邀请账号为相同分桶,哪几个被邀请账号为不同分桶,这样每一个被邀请账号的“备选相似被邀请账号集”就会相对较小,可降低寻找其相似被邀请账号的计算复杂度。
可选的,可以采用LSH(locality sensitivity Hashing,局部敏感性哈希)对操作行为路径集中的不同行为路径进行分桶处理。
S930、根据分桶处理结果和账号间的邀请关系确定训练集中账号间的操作行为相似性。
在本申请一实施例中,在得到分桶处理结果之后,还需要结合账号间的邀请关系确定训练集中账号间的操作行为相似性,其中,当账号j与账号i位于相同分桶且被相同账号a邀请,则表示账号j与账号i具有操作行为相似性,当账号j与账号i位于不同分桶或被不同账号邀请,则表示账号j与账号i不具有操作行为相似性。
如图10所示,图10为图4所示实施例中的步骤S410在另一示例性实施例中的示意图,根据训练集中的各账号的类型特征构造训练集的节点集合包括:将根据训练集中各账号的类型特征构造得到的以下至少一个特征集作为训练集的节点集合:
根据训练集中各账号的互联网协议地址特征,构建得到的第一特征集;
根据训练集中的各账号的设备特征,构建得到的第二特征集;
根据训练集中的各账号的登录特征,构建得到的第三特征集。
其中,各账号的互联网协议地址(ip)特征指的是与账号的ip相关的特征,包括但不限于代理ip,秒拨ip,ip质量分,ip活跃度,互联网数据中心(Internet Data Center,简称IDC)判定,邮箱ip判定等,即确定代理ip是什么,ip质量分可以是该ip的可信度,以确定ip是否异常,秒拨ip指的是短时间内切换ip的秒拨,idc判定指的是判定idc机房等级,则构建得到第一特征集。
账号的设备特征指的是与账号的设备相关的特征,包括但不限于异常分值、异常类型,异常APP(应用程序)运行情况,定位开启判定,多开判定,模拟器判定,hook判定等,其中,异常分值和异常类型可以根据第三方异常判定服务获取,多开判定指的是判定设备是否运行了可以同时登陆待处理账号的APP,模拟器判定指的是判定当前设备是否为模拟器,hook判定指的是判定是否运行hook函数,该hook函数是一种通过将账号设为登陆状态的函数,则构建得到第二特征集。
账号的登录特征指的是账号登录后的相关特征,包括但不限于账号活跃分,账号质量分,账号安全级别,账号众包判定,账号登陆频率判定等特征,其中账号众包判定指的判定是否通过众包平台登陆,则构建得到第三特征集。
在本实施例中,充分利用账号间的邀请关系,设备共享关系,ip共享关系和行为相似性构造图结构的边,充分考虑了账号本身的属性,利用了账号、IP、设备的特征属性构造图结构的节点,进而后续可准确生成图结构,以真实反映账号的类型信息。
值得注意的是,如图11所示,图11是图2所示实施例中的步骤S140在一示例性实施例中的流程图,包括:
S141、将待处理账号的嵌入向量输入到类型预测模型,以预测得到待处理账号的类型概率值。
在本申请一实施例中,将待处理账号的嵌入向量输入到类型预测模型,该类型预测模型通过如图7所示的步骤得到,类型预测模型可预测该待处理账号的所属的类型标签,以及对应的类型概率值p∈[0,1],例如类型标签为异常账号,对应的类型概率值为0.7。
S142、获取待处理账号中负样本比例和正样本比例。
应当理解的是,可通过类型识别策略对待处理账号中的类型进行初始识别,以确定待处理账号中负样本比例和正样本比例,根据类型识别策略对待处理账号中的类型进行初始识别的具体过程参加上述S431,在此不再一一赘述。
S143、当待处理账号中负样本比例与正样本比例的差值达到差值阈值时,将类型概率值作为待处理账号的类型占比,并根据类型占比对待处理账号进行类型识别。
在本申请的一实施例中,当待处理账号中负样本比例与正样本比例的差值达到差值阈值时,表示负样本与正样本均衡,则预测得到的概率值较为准确的反映待处理账号的类型,差值阈值可以根据实际情况进行灵活调整,例如差值阈值为10%,当待处理账号中负样本比例与正样本比例的差值小于或等于10%,可将类型概率值作为待处理账号的类型占比,其中,该类型占比指的是该待处理账号的类型是什么,其对应的占比是多少,例如待处理账号的类型为异常,占比为70%;待处理账号的类型为正常,占比为30%等,因此可通过该待处理账号的类型占比对待处理账号进行类型识别。
如图12所示,图12是图2所示实施例中的步骤S140在另一示例性实施例中的流程图,方法还包括:
S144、当待处理账号中负样本比例与正样本比例的差值未达到差值阈值时,根据类型概率值确定待处理账号的几率。
在本申请的一实施例中,当待处理账号中负样本比例与正样本比例的差值未达到差值阈值时,表示负样本与正样本不均衡,则预测得到的概率值会偏向于负样本,因此需要对得到的类型概率值进行转换,以确定待处理账号的几率,其中,几率表示某件事发生的可能性大小的一个量,odds(几率)=p/(1-p),p为模型预测出的类型概率值。
S145、将待处理账号的几率转换为类型分值,将类型分值作为待处理账号的类型占比,并根据类型占比对待处理账号进行类型识别。
在本申请一实施例中,可以通过评分卡模型将待处理账号的几率转换为类型分值,可选的,可采用以下转换公式将待处理账号的几率转换为类型分值:
在本申请一实施例中,将待处理账号的几率转换为类型分值,实现对类型概率值的概率校准。
在本实施例中,待处理账号中负样本比例与正样本比例的差值未达到差值阈值时,通过将预测的概率值转换为类型分值,以避免因样本的不均衡,导致模型预测的概率值的偏差,提高类型预测的准确性。
需要说明的是,根据类型占比对待处理账号进行类型识别,包括:若类型占比大于占比阈值,则将待处理账号的类型识别为负样本所对应的账号类型。
在本申请一实施例中,占比阈值可以根据实际情况进行调整,例如占比阈值为75%,当负样本的类型占比大于占比阈值75%,则将待处理账号的类型识别为负样本所对应的账号类型,若负样本所对应的账号类型为正常账号,此时,不对待处理账号进行干预。
若负样本的类型占比小于或等于占比阈值,则将待处理账号的类型识别为正样本所对应的账号类型,即异常账号,则将待处理账号的类型识别为异常账号,进而可对待处理账号进行控制,如禁止待处理账号登陆平台。
为了便于理解,本申请的一实施例中,以一个具体的例子对账号类型识别方法进行说明。如图13所示,图13是本申请的另一示例性实施例示出的一种账号类型识别方法的流程图,该方法可以由终端或服务器执行,也可以由终端和服务器共同执行,在本申请实施例中,以该方法由服务器执行为例进行说明,该账号类型识别方法包括:
S1301、划分样本集合,以确定训练集和待处理账号,并构造训练集的正样本和负样本标签,待处理账号的正样本和负样本标签。
其中,可以按照时间先后对登陆的账号进行划分,训练集包含1-5月在平台登陆的账号,待处理账号为6-7月在平台登陆的账号。
正样本和负样本标签构造方式:正样本为类型识别策略识别为异常的账号,负样本为类型识别策略识别为正常且具有缴费行为的账号,标签y∈{0,1},0表示负样本标签,1表示正样本标签。
S1302、根据账号间的邀请关系,账号共享设备情况,账号共享ip的情况和账号操作行为相似性,分别构造训练集和待处理账号的边集合。
其中,根据账号间的邀请关系,分别构造训练集的边集Einvite_train和待处理账号的边集Einvite_test:
根据账号操作行为相似性,分别构造训练集的边集Eacsim_train和待处理账号的边集Eacsim_test:首先,获取所有被邀请账号被邀请当天的操作行为路径集R={R1,R2,…,Ri,…,Rn},其中Ri表示第i个账号被邀请当天的行为路径,n表示被邀请的账号数量。Ri={a1,a2,…,at,…,am},at表示时刻t的行为编号,m表示第i个账号当天的行为数量;然后,利用LSH算法将行为路径集R中的不同路径进行分桶;最后,利用分桶的结果,结合邀请关系进行构边。
在本申请实施例中,对上述得到的边集求并集,分别获得训练集的边集合Etrain和待处理账号的边集合Etest。
S1303、利用账号对应的ip类型特征,设备类型特征,登陆账号类型特征,分别构造训练集和待处理账号的节点集合。
获取账号对应的设备类型特征:异常分值、异常类型,异常app运行情况,定位开启判定,多开判定,模拟器判定,hook判定等,分别构造训练集的特征集Vdevice_train={V异常分值,V异常类型……Vhook}和待处理账号的特征集Vdevice_test={V异常分值,V异常类型……Vhook}。
获取登陆账号类型特征:登陆账号活跃分,登陆账号质量分,登陆账号安全级别,登陆账号众包判定,登陆账号登陆频率判定等特征,分别构造训练集的特征集Vuid_train={V活跃度,V质量分……V登陆频率}和待处理账号的特征集Vuid_test={V活跃度,V质量分……V登陆频率}。
分别将训练集和待处理账号的上述特征集融合在一起,构成训练集的节点集合Vtrain={Vip_train,Vdevice_train,uid_train}和待处理账号的节点集合Vtest={Vip_test,Vdevice_test,Vuid_test}。
S1304、结合节点集合和边集合,分别构造训练集和待处理账号的同构图。
利用步骤S1302构造的边集合和步骤S1303构造的节点集合分别构造训练集的同构图Gtiain和待处理账号的同构图Gtest:
G=(V,E),其中V表示节点集合,E表示边集合。
S1305、通过训练集的同构图无监督训练GraphSAGE。
在本实施例中,通过训练集的同构图Gtrain无监督的训练GraphSAGE,获得模型参数Wtrain_unsup;模型的损失函数为:
其中,zu表示节点u的embedding,zv表示节点v的embedding,v是节点u附近的节点,通过从节点u出发以固定长度随机游走获得,σ表示sigmoid函数,Pn是一个负采样分布,Q表示负采样的数量,表示负采样节点的embedding表示。
S1306、通过训练集的正、负样本标签,以监督方式微调GraphSAGE模型参数。
微调过程中模型的损失函数为:
其中,N表示样本数量,yi表示第i个样本的标签,yi∈{0,1},p(yi)表示输出属于标签yi的概率。
S1307、将训练集的同构图输入到训练好的GraphSAGE模型,以获取训练集的embedding特征Embeddingtrain。
S1308、将待处理账号的同构图并入训练集的同构图,利用训练好的GraphSAGE模型获取待处理账号的embedding特征。
在本实施例中,将步骤S1304中获取的待处理账号同构图Gtest并入训练集同构图Gtrain中,获得同构图Gall=Gtrain∪Gtest。
将获得整体同构图输入到训练好的GraphSAGE模型,以获取待处理账号的embedding特征Embeddingtest。
S1309、利用训练集的embedding特征训练GBDT模型。
利用步骤S1305获取的训练集中具有正、负标签的样本的Embeddingtrain和正、负标签训练GBDT模型。
在本实施例中,由于标签样本较少,将训练集分为10等份,进行10折交叉训练校验;可选的,由于正负样本标签比例极度不均衡,模型效果采用AUC进行评估。
S1310、将待处理账号embedding特征Embeddingtest输入到GBDT模型,以预测待处理账号的类型标签和类型概率值。
在本实施例中,将待处理账号embedding特征Embeddingtest输入到训练好的GBDT模型,以预测待处理账号的类型标签和类型概率值p∈[0,1]。
当由于负样本比例远大于正样本,需要对类型概率值p进行调整,同时将类型概率值转换成类型分score∈[0,100]。转换公式为:
在本实施例中,当获取到预测待处理账号的类型分后,可以根据类型分的大小对待处理账号进行分类。如下表1所示,表1为本申请实施例提的方法与相关技术中的方法在应用程序数据集上的对比结果。
表1
其中,F1分数(F1-score)是分类问题的一个衡量指标,它是精确率和召回率的调和平均数,最大为1,最小为0;从表1可以看出,在账号类型识别时,相比于相关技术中的方法,本申请实施例提的方法在只有少量标记样本的情况下,准确率、召回率和F1-score均优于相关技术中的方法,取得较好的分类效果,证明了本申请实施例提的方法的有效性和准确性。
本申请实施例提供的方法,根据账号的特点,利用账号间的邀请关系,设备,ip共享关系,行为相似性等构造同构图,图中节点特征综合考虑了设备,账号的固有属性特征,多种类型特征;在少量正负样本的情况下,半监督训练GraphSAGE-GBDT模型,模型识别的准确率和召回率均优于以上方案,提高了识别结果的准确性。
介绍本申请的装置实施例,可以用于执行本申请上述实施例中的账号类型识别方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的账号类型识别方法的实施例。
本申请实施例提供了一种账号类型识别装置,如图14所示,包括生成模块1410、图结构模块1420、特征提取模块1430和类型识别模块1440;
生成模块1410,用于根据待处理账号之间的关联关系生成待处理账号对应的图结构的边,并根据待处理账号的类型特征生成待处理账号对应的图结构的节点;
图结构模块1420,用于根据图结构的边和图结构的节点,生成待处理账号对应的图结构;
特征提取模块1430,用于根据待处理账号对应的图结构进行特征提取,得到待处理账号对应的嵌入向量;
类型识别模块1440,用于根据待处理账号对应的嵌入向量,对待处理账号进行类型识别。
在本申请的一个实施例中,基于前述方案,特征提取模块1430具体用于获取预训练的图神经网络模型,预训练的图神经网络模型是通过训练集进行训练得到的;将待处理账号对应的图结构与训练集对应的图结构进行整合,得到整体图结构;将整体图结构输入到图神经网络模型,以获得待处理账号的嵌入向量。
在本申请的一个实施例中,基于前述方案,账号类型识别装置还包括模型训练模块,模型训练模块包括:构造单元,用于根据训练集中账号间的关联关系构造训练集的边集合,并根据训练集中各账号的类型特征构造训练集的节点集合;图生成单元,用于根据训练集的边集合和训练集的节点集合生成训练集对应的图结构;训练单元,用于根据训练集对应的图结构训练得到图神经网络模型。
在本申请的一个实施例中,基于前述方案,训练单元具体用于基于训练集中各账号的类型确定训练集所包含的正样本和负样本;根据训练集对应的图结构、正样本和负样本训练得到图神经网络模型。
在本申请的一个实施例中,基于前述方案,训练单元进一步用于根据训练集对应的图结构无监督的训练初始图神经网络模型,以获得模型参数;根据正样本和负样本对模型参数进行调整,以得到图神经网络模型。
在本申请的一个实施例中,基于前述方案,构造单元,还用于将训练集对应的图结构输入到图神经网络模型,以获取训练集的嵌入向量,训练单元还用于根据训练集的嵌入向量、正样本和负样本对初始类型预测模型进行训练,得到类型预测模型,类型预测模型用于基于待处理账号对应的嵌入向量对待处理账号的类型进行识别。
在本申请的一个实施例中,基于前述方案,构造单元进一步用于将根据训练集中账号间的关联关系构造得到的以下至少一个边集合作为训练集的边集合:根据训练集中账号间的邀请关系,构造得到的训练集的第一边集合;根据训练集中账号间的设备共享情况,构造得到的训练集的第二边集合;根据训练集中账号间的互联网协议地址共享情况,构造得到的训练集的第三边集合;根据训练集中账号间的操作行为相似性,构造得到的训练集的第四边集合。
在本申请的一个实施例中,基于前述方案,若训练集的边集合包括第四边集合,账号类型识别装置还包括处理模块,用于获取被邀请账号在被邀请后的操作行为路径集,操作行为路径集用于表征被邀请账号在被邀请后的行为路径;对操作行为路径集中的不同行为路径进行分桶处理,得到分桶处理结果;根据分桶处理结果和账号间的邀请关系确定训练集中账号间的操作行为相似性。
在本申请的一个实施例中,基于前述方案,构造单元进一步用于将根据训练集中各账号的类型特征构造得到的以下至少一个特征集作为训练集的节点集合:根据训练集中各账号的互联网协议地址特征,构建得到的第一特征集;根据训练集中的各账号的设备特征,构建得到的第二特征集;根据训练集中的各账号的登录特征,构建得到的第三特征集。
在本申请的一个实施例中,基于前述方案,类型识别模块1440进一步用于将待处理账号的嵌入向量输入到类型预测模型,以预测得到待处理账号的类型概率值;获取待处理账号中负样本比例和正样本比例;当待处理账号中负样本比例与正样本比例的差值达到差值阈值时,将类型概率值作为待处理账号的类型占比,并根据类型占比对待处理账号进行类型识别。
在本申请的一个实施例中,基于前述方案,类型识别模块1440进一步还用于当待处理账号中负样本比例与正样本比例的差值未达到差值阈值时,根据类型概率值确定待处理账号的几率;将待处理账号的几率转换为类型分值,将类型分值作为待处理账号的类型占比,并根据类型占比对待处理账号进行类型识别。
在本申请的一个实施例中,基于前述方案,类型识别模块1440进一步用于若类型占比大于占比阈值,则将待处理账号的类型识别为负样本所对应的账号类型。
本实施例提供的账号类型识别装置,通过待处理账号之间的关联关系生成待处理账号对应的图结构的边,通过待处理账号的类型特征生成图结构的节点,从个体纬度上考虑了账号的类型特征,同时考虑账号间存在的关联性,使得生成的待处理账号对应的图结构能更准确的反映出待处理账号的特征,进而通过对图结构进行特征提取,可得到准确得到待处理账号对应的嵌入向量,最后根据待处理账号对应的嵌入向量,对待处理账号进行类型识别,实现对待处理账号的类型识别,提高了识别结果的准确性。
需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
本申请的实施例还提供了一种电子设备,包括一个或多个处理器,以及存储装置,其中,存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得所述电子设备实现如上所述的账号类型识别方法。
图15示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图15示出的电子设备的计算机系统1500仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制,其中,该电子设备可以是终端或服务器。
如图15所示,计算机系统1500包括处理器(Central Processing Unit,CPU)1501,其可以根据存储在只读存储器(Read-Only Memory,ROM)1502中的程序或者从储存部分1508加载到随机访问存储器(Random Access Memory,RAM)1503中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1503中,还存储有系统操作所需的各种程序和数据。CPU 1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(Input/Output,I/O)接口1505也连接至总线1504。
在一些实施例中,以下部件连接至I/O接口1505:包括键盘、鼠标等的输入部分1506;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid CrystalDisplay,LCD)等以及扬声器等的输出部分1507;包括硬盘等的储存部分1508;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至I/O接口1505。可拆卸介质1511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1510上,以便于从其上读出的计算机程序根据需要被安装入储存部分1508。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1509从网络上被下载和安装,和/或从可拆卸介质1511被安装。在该计算机程序被处理器(CPU)1501执行时,执行本申请的系统中限定的各种功能。
可以理解的是,在本申请的具体实施方式中,涉及到使用对象账号相关的使用对象数据,当本申请以上实施例运用到具体产品或技术中时,需要获得使用对象许可或者同意,且相关的使用对象数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机程序的组合来实现。
描述于本申请实施例中所涉及到的单元或者模块可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元或者模块也可以设置在处理器中。其中,这些单元或者模块的名称在某种情况下并不构成对该单元或者模块本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述的方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该电子设备执行上述各个实施例中提供如前所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。
Claims (16)
1.一种账号类型识别方法,其特征在于,包括:
根据待处理账号之间的关联关系生成所述待处理账号对应的图结构的边,并根据所述待处理账号的类型特征生成所述待处理账号对应的图结构的节点;
根据所述图结构的边和所述图结构的节点,生成所述待处理账号对应的图结构;
根据所述待处理账号对应的图结构进行特征提取,得到所述待处理账号对应的嵌入向量;
根据所述待处理账号对应的嵌入向量,对所述待处理账号进行类型识别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待处理账号对应的图结构进行特征提取,得到所述待处理账号对应的嵌入向量,包括:
获取预训练的图神经网络模型,所述预训练的图神经网络模型是通过训练集进行训练得到的;
将所述待处理账号对应的图结构与所述训练集对应的图结构进行整合,得到整体图结构;
将所述整体图结构输入到所述图神经网络模型,以获得所述待处理账号的嵌入向量。
3.根据权利要求2所述的方法,其特征在于,所述图神经网络模型通过如下步骤训练得到:
根据所述训练集中账号间的关联关系构造所述训练集的边集合,并根据所述训练集中各账号的类型特征构造所述训练集的节点集合;
根据所述训练集的边集合和所述训练集的节点集合生成所述训练集对应的图结构;
根据所述训练集对应的图结构训练得到所述图神经网络模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述训练集对应的图结构训练得到所述图神经网络模型,包括:
基于所述训练集中各账号的类型确定所述训练集所包含的正样本和负样本;
根据所述训练集对应的图结构、所述正样本和负样本训练得到所述图神经网络模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述训练集对应的图结构、所述正样本和负样本训练得到所述图神经网络模型包括:
根据所述训练集对应的图结构无监督的训练初始图神经网络模型,以获得模型参数;
根据所述正样本和所述负样本对所述模型参数进行调整,以得到所述图神经网络模型。
6.根据权利要求4所述的方法,其特征在于,在根据所述待处理账号对应的嵌入向量,对所述待处理账号进行类型识别之前,所述方法还包括:
将所述训练集对应的图结构输入到所述图神经网络模型,以获取所述训练集的嵌入向量;
根据所述训练集的嵌入向量、所述正样本和所述负样本对初始类型预测模型进行训练,得到类型预测模型,所述类型预测模型用于基于所述待处理账号对应的嵌入向量对所述待处理账号的类型进行识别。
7.根据权利要求3所述的方法,其特征在于,所述根据所述训练集中账号间的关联关系构造所述训练集的边集合,包括:
将根据所述训练集中账号间的关联关系构造得到的以下至少一个边集合作为所述训练集的边集合:
根据所述训练集中账号间的邀请关系,构造得到的所述训练集的第一边集合;
根据所述训练集中账号间的设备共享情况,构造得到的所述训练集的第二边集合;
根据所述训练集中账号间的互联网协议地址共享情况,构造得到的所述训练集的第三边集合;
根据所述训练集中账号间的操作行为相似性,构造得到的所述训练集的第四边集合。
8.根据权利要求7所述的方法,其特征在于,若所述训练集的边集合包括所述第四边集合,则所述方法还包括:
获取被邀请账号在被邀请后的操作行为路径集,所述操作行为路径集用于表征所述被邀请账号在被邀请后的行为路径;
对所述操作行为路径集中的不同行为路径进行分桶处理,得到分桶处理结果;
根据所述分桶处理结果和所述账号间的邀请关系确定所述训练集中账号间的操作行为相似性。
9.根据权利要求3所述的方法,其特征在于,所述根据所述训练集中的各账号的类型特征构造所述训练集的节点集合,包括:
将根据所述训练集中各账号的类型特征构造得到的以下至少一个特征集作为所述训练集的节点集合:
根据所述训练集中各账号的互联网协议地址特征,构建得到的第一特征集;
根据所述训练集中的各账号的设备特征,构建得到的第二特征集;
根据所述训练集中的各账号的登录特征,构建得到的第三特征集。
10.根据权利要求6所述的方法,其特征在于,所述根据所述待处理账号对应的嵌入向量,对所述待处理账号进行类型识别,包括:
将所述待处理账号的嵌入向量输入到所述类型预测模型,以预测得到所述待处理账号的类型概率值;
获取所述待处理账号中负样本比例和正样本比例;
当所述待处理账号中负样本比例与正样本比例的差值达到差值阈值时,将所述类型概率值作为所述待处理账号的类型占比,并根据所述类型占比对所述待处理账号进行类型识别。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
当所述待处理账号中负样本比例与正样本比例的差值未达到所述差值阈值时,根据所述类型概率值确定所述待处理账号的几率;
将所述待处理账号的几率转换为类型分值,将所述类型分值作为所述待处理账号的类型占比,并根据所述类型占比对所述待处理账号进行类型识别。
12.根据权利要求10或权利要求11所述的方法,其特征在于,所述根据所述类型占比对所述待处理账号进行类型识别,包括:
若所述类型占比大于占比阈值,则将所述待处理账号的类型识别为负样本所对应的账号类型。
13.一种账号类型识别装置,其特征在于,包括:
生成模块,用于根据待处理账号之间的关联关系生成所述待处理账号对应的图结构的边,并根据所述待处理账号的类型特征生成所述待处理账号对应的图结构的节点;
图结构模块,用于根据所述图结构的边和所述图结构的节点,生成所述待处理账号对应的图结构;
特征提取模块,用于根据所述待处理账号对应的图结构进行特征提取,得到所述待处理账号对应的嵌入向量;
类型识别模块,用于根据所述待处理账号对应的嵌入向量,对所述待处理账号进行类型识别。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现权利要求1-12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序被电子设备的处理器执行时,使电子设备执行权利要求1-12中的任一项所述的方法。
16.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质读取并执行所述计算机程序,使电子设备执行权利要求1-12中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210217851.6A CN114611081A (zh) | 2022-03-04 | 2022-03-04 | 账号类型识别方法、装置、设备、存储介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210217851.6A CN114611081A (zh) | 2022-03-04 | 2022-03-04 | 账号类型识别方法、装置、设备、存储介质及产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114611081A true CN114611081A (zh) | 2022-06-10 |
Family
ID=81861250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210217851.6A Pending CN114611081A (zh) | 2022-03-04 | 2022-03-04 | 账号类型识别方法、装置、设备、存储介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114611081A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881711A (zh) * | 2022-07-11 | 2022-08-09 | 荣耀终端有限公司 | 基于请求行为进行异常分析的方法及电子设备 |
CN115423639A (zh) * | 2022-09-07 | 2022-12-02 | 四川大学 | 一种面向社交网络的安全社区发现方法 |
-
2022
- 2022-03-04 CN CN202210217851.6A patent/CN114611081A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881711A (zh) * | 2022-07-11 | 2022-08-09 | 荣耀终端有限公司 | 基于请求行为进行异常分析的方法及电子设备 |
CN114881711B (zh) * | 2022-07-11 | 2023-06-30 | 荣耀终端有限公司 | 基于请求行为进行异常分析的方法及电子设备 |
CN115423639A (zh) * | 2022-09-07 | 2022-12-02 | 四川大学 | 一种面向社交网络的安全社区发现方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200372225A1 (en) | System and method for controllable machine text generation architecture | |
WO2021179834A1 (zh) | 基于异构图进行业务处理的方法及装置 | |
CN114611081A (zh) | 账号类型识别方法、装置、设备、存储介质及产品 | |
CN112700252B (zh) | 一种信息安全性检测方法、装置、电子设备和存储介质 | |
CN110874648A (zh) | 联邦模型的训练方法、系统和电子设备 | |
CN115511501A (zh) | 一种数据处理方法、计算机设备以及可读存储介质 | |
US11423307B2 (en) | Taxonomy construction via graph-based cross-domain knowledge transfer | |
CN112231570A (zh) | 推荐系统托攻击检测方法、装置、设备及存储介质 | |
US20210256368A1 (en) | Training a neural network to create an embedding for an unlabeled vertex in a hypergraph | |
CN114692007B (zh) | 表示信息的确定方法、装置、设备及存储介质 | |
US11475297B2 (en) | Cross-domain homophily quantification for transfer learning | |
WO2022188534A1 (zh) | 信息推送的方法和装置 | |
CN115168720A (zh) | 内容交互预测方法以及相关设备 | |
CN115293235A (zh) | 建立风险识别模型的方法及对应装置 | |
CN115114329A (zh) | 数据流异常检测的方法、装置、电子设备和存储介质 | |
US11928049B2 (en) | Blockchain system for source code testing and script generation with artificial intelligence | |
CN114462582A (zh) | 基于卷积神经网络模型的数据处理方法及装置、设备 | |
US20210279824A1 (en) | Property Valuation Model and Visualization | |
US20160063392A1 (en) | Method and system for identifying dependent components | |
CN112231571A (zh) | 资讯数据的处理方法、装置、设备及存储介质 | |
CN113935738A (zh) | 交易数据处理方法、装置、存储介质及设备 | |
CN111523639A (zh) | 用于训练超网络的方法和装置 | |
CN116109381B (zh) | 电商平台数据处理方法及系统 | |
CN111786937B (zh) | 用于识别恶意请求的方法、装置,电子设备和可读介质 | |
CN117290611B (zh) | 基于多层次知识图谱的仪器推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |