CN116032665A - 一种网络群体的发现方法、装置、设备及存储介质 - Google Patents
一种网络群体的发现方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116032665A CN116032665A CN202310309332.7A CN202310309332A CN116032665A CN 116032665 A CN116032665 A CN 116032665A CN 202310309332 A CN202310309332 A CN 202310309332A CN 116032665 A CN116032665 A CN 116032665A
- Authority
- CN
- China
- Prior art keywords
- data
- node
- user account
- processed
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种网络群体的发现方法、装置、设备及存储介质,通过将原始数据进行预处理,得到满足输入节点分类模型条件的待处理数据;由所述待处理数据和特定标签数据构建邻接矩阵和节点属性矩阵;将所述邻接矩阵和所述节点属性矩阵输入节点分类模型,得到所述待处理数据内各个用户账号的预测标签信息,其中,所述节点分类模型为基于图卷积神经网络和标签传播算法相结合的神经网络模型,能够通过LPA增强拓扑图中节点间的属性,再结合GCN协同训练更新参数值,以提高模型预测的准确率,以及提高模型的鲁棒性并防止模型过平滑现象。
Description
技术领域
本公开涉及计算机领域的网络安全领域,尤其涉及一种网络群体的发现方法、装置、设备及存储介质。
背景技术
在线欺诈已具备规模化特点,且已经将金融行业被列为攻击的重要目标。在线欺诈表面上看起来是一个真实存在的人,可以具有分散的IP、分散的设备、无关联手机号、有真实的朋友圈社交关系、有真实信用信息和真实地址等,但实际上,这很可能是黑灰产团队后端业务系统伪造出来的虚假人员信息。
现有的风控反欺诈大多数是人工审核以及以专家规则为标准,但是银行交易流水错综复杂,并且每日交易量在百万甚至千万级别,这不仅增加了工作人员的压力,而且审核效率低、漏检概率也高。除此之外,现有技术也存在一些经典机器学习算法来检测在线欺诈的虚拟人员,虽然提高了对黑产用户的挖掘能力,也相对提高了检测效率,但由于机器学习以处理小数据量为主,面对海量数据还是存在检测效率低、挖掘潜在黑产用户能力有限等缺陷。
发明内容
本公开提供了一种网络群体的发现方法、装置、设备及存储介质,以至少解决现有技术中存在的以上技术问题。
根据本公开的第一方面,提供了一种网络群体的发现方法,其特征在于,所述方法包括:
将原始数据进行预处理,得到满足输入节点分类模型条件的待处理数据;其中,所述原始数据为银行在预设时间段内的用户账号与其对应的交易数据;
由所述待处理数据和特定标签数据构建邻接矩阵和节点属性矩阵,其中,所述节点属性矩阵包括各个用户账号根据自身的交易数据所生成的多个节点属性;所述邻接矩阵为各个用户账号与其关联的对手用户账号;所述特定标签数据为具有特定属性的用户账号及其标签信息;
将所述邻接矩阵和所述节点属性矩阵输入节点分类模型,得到所述待处理数据内各个用户账号的预测标签信息,其中,所述节点分类模型为基于图卷积神经网络和标签传播算法相结合的神经网络模型。
在一可实施方式中,所述将原始数据进行预处理,得到满足输入节点分类模型条件的待处理数据,包括:
将所述原始数据进行编码和分割,得到整理后的原始数据;
根据预设过滤规则对所述整理后的原始数据进行筛选,得到待处理数据,其中,所述预设过滤规则包括所述交易数据的缺失值和白名单关键字段。在一可实施方式中,所述由所述待处理数据和特定标签数据构建邻接矩阵和节点属性矩阵,包括:
将所述待处理数据和特定标签数据中的各个用户账号和其关联的对手用户账号作为节点,各个用户账号和其关联的对手用户账号的相连关系作为边,来构建所述邻接矩阵;
根据所述待处理数据和特定标签数据中的各个用户账号与其对应的交易数据,构建各个用户账号的属性与属性值,并组成用户账号的节点属性矩阵。
在一可实施方式中,所述将所述邻接矩阵和所述节点属性矩阵输入节点分类模型,得到所述待处理数据内各个用户账号的预测标签信息,包括:
通过所述节点分类模型内的标签传播算法学习所述邻接矩阵内带有初始标签信息的各个节点与其相邻节点的无标签信息的影响力,以确定所述各个节点的边权重;其中,所述初始标签信息为所述特定标签数据内所包含的标签信息;
通过所述各个节点的边权重优化所述邻接矩阵,形成新的邻接矩阵;
将所述新的邻接矩阵输入所述节点分类模型内的图卷积神经网络,以预测所述待处理数据内各个节点的标签信息,作为所述待处理数据内各个用户账号的预测标签信息。
在一可实施方式中,在所述将原始数据进行预处理,得到待处理数据之前,还包括:
获取训练数据,其中,所述训练数据包括:邻接矩阵数据、特定标签数据以及节点属性矩阵数据,其中,所述特定标签数据包括黑名单账号及其标签信息;
根据所述训练数据,训练初始的节点分类模型,并通过标签传播损失函数和图卷积损失函数调节所述节点分类模型的参数。
根据本公开的第二方面,提供了一种网络群体的发现装置,所述装置包括:
数据获取模块,用于将原始数据进行预处理,得到满足输入节点分类模型条件的待处理数据;其中,所述原始数据为银行在预设时间段内的用户账号与其对应的交易数据;
构建模块,由所述待处理数据和特定标签数据构建邻接矩阵和节点属性矩阵,其中,所述节点属性矩阵包括各个用户账号根据自身的交易数据所生成的多个节点属性;所述邻接矩阵为各个用户账号与其关联的对手用户账号;所述特定标签数据为具有特定属性的用户账号及其标签信息;
节点分类模块,将所述邻接矩阵和所述节点属性矩阵输入节点分类模型,得到所述待处理数据内各个用户账号的预测标签信息,其中,所述节点分类模型为基于图卷积神经网络和标签传播算法相结合的神经网络模型。
在一可实施方式中,所述数据获取模块,具体用于:
将所述原始数据进行编码和分割,得到整理后的原始数据;
根据预设过滤规则对所述整理后的原始数据进行筛选,得到待处理数据,其中,所述预设过滤规则包括所述交易数据的缺失值和白名单关键字段。在一可实施方式中,所述构建模块,具体用于:
将所述待处理数据和特定标签数据中的各个用户账号和其关联的对手用户账号作为节点,各个用户账号和其关联的对手用户账号的相连关系作为边,来构建所述邻接矩阵;
根据所述待处理数据和特定标签数据中的各个用户账号与其对应的交易数据,构建各个用户账号的属性与属性值,并组成用户账号的节点属性矩阵。
在一可实施方式中,所述节点分类模块,具体用于:
通过所述节点分类模型内的标签传播算法学习所述邻接矩阵内带有初始标签信息的各个节点与其相邻节点的无标签信息的影响力,以确定所述各个节点的边权重;其中,所述初始标签信息为所述特定标签数据内所包含的标签信息;
通过所述各个节点的边权重优化所述邻接矩阵,形成新的邻接矩阵;
将所述新的邻接矩阵输入所述节点分类模型内的图卷积神经网络,以预测所述待处理数据内各个节点的标签信息,作为所述待处理数据内各个用户账号的预测标签信息。在一可实施方式中,还包括:模型训练模块,
用于获取训练数据,其中,所述训练数据包括:邻接矩阵数据、特定标签数据以及节点属性矩阵数据,其中,所述特定标签数据包括黑名单账号及其标签信息;
根据所述训练数据,训练初始的节点分类模型,并通过标签传播损失函数和图卷积损失函数调节所述节点分类模型的参数。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开所述的方法。
本公开的网络群体的发现方法、装置、设备及存储介质,通过将原始数据进行预处理,得到满足输入节点分类模型条件的待处理数据;由所述待处理数据和特定标签数据构建邻接矩阵和节点属性矩阵;将所述邻接矩阵和所述节点属性矩阵输入节点分类模型,得到所述待处理数据内各个用户账号的预测标签信息,其中,所述节点分类模型为基于图卷积神经网络和标签传播算法相结合的神经网络模型,能够通过LPA增强拓扑图中节点间的属性,再结合GCN协同训练更新参数值,以提高模型预测的准确率,以及提高模型的鲁棒性并防止模型过平滑现象。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本公开实施例一提供的一种网络群体的发现方法的实现流程示意图;
图2示出了本公开实施例二提供的一种节点分类模型工作的过程示意图;
图3示出了本公开实施例三提供的一种网络群体的发现装置的结构示意图;
图4示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
目前,大量线下业务搬到线上,越来越多的实体产业开始加速“触网”,尤其在金融领域,大量涉及身份认证、资料审核的业务场景,如信用卡、交易业务等也转移到了线上,正是如此,黑灰产团队也盯上了这种变化。
如今,在线欺诈已经成为全球主要的网络犯罪形式之一。世界经济论坛(WEF)曾在《2020年全球风险报告》指出,网络犯罪将是未来十年(至2030年)全球商业中第二大最受关注的风险。到2021年,互联网黑灰产将给全球造成高达6万亿美元的损失。很多国内外企业正利用自身的大数据优势入场,纷纷推出反欺诈解决方案。
现有银行的欺诈黑产用户挖掘主要依靠人工审核或专家规则。人工审核首先要看银行专员的经验,还有就是依赖第三方征信名单,在海量的交易记录中筛选,增加了银行专员的任务压力并且很容易漏报。专家规则一般根据欺诈、洗钱等常见的犯罪规律总结的一些指定规则,在一定程度上能够实现对黑产用户的过滤。不同的规则制定标准不一,产生的效果也大有不同,现有的黑产用户更加狡猾,手段更是多种多样,利用现有的经验很难挖掘潜在的黑产用户。
相对于人工审核与专家规则,机器学习利用相关的数据挖掘算法能够处理较大规模数据,如Node2Vec将图的一些拓扑特征进行学习,将高维的节点向量映射到低维特征空间作向量表示(Embedding)。这些向量可以作为其他任务的输入特征,即将无监督的表征学习任务单独抽出来。louvain是目前市面上提到的和使用过的最常用的社区发现算法之一,利用模块度(Modularity)用来衡量一个社区的划分是否优良。一个好的划分结果其表现形式是:在社区内部的节点相似度较高,而在社区外部节点的相似度较低。标签传递技术(Label Propagation Algorithm,LPA)核心利用的传统随机游走模型,每次运行完都有很大的不确定性,难以收敛等。传统的一些经典数据挖掘模型,存在处理海量数据效率低、挖掘潜在黑产用户能力有限等缺陷。深度学习的兴起有效解决了这些问题,比如利用GPU加速提高模型的执行效率,更深层模型提取更抽象的特征可拟合任意的潜在特征空间,提高挖掘黑产用户的能力。
在现有技术中,深度学习与图结构数据相结合,虽然研究人员提出了图神经网络,以图卷积神经网络(Graph Convolutional Network,GCN)为例,将空域信息转换到谱域,在谱域中做卷积操作再逆转到空域。但是GCN为半监督学习,权重为度的平均,不区分邻居节点的重要性,因此挖掘潜在黑产用户的能力较弱。
本实施例针对现有黑产挖掘存在的问题,提出了边权重增强的图卷积神经网络GCN黑产挖掘模型,通过用户指定时间内的交易流水,根据规则构建每个用户的属性向量。根据用户和对手用户之间的交易连接,构建拓扑图。利用LPA算法预测标签与真实标签的节点内部影响,以学习边的权重,通过带标签节点对无标签节点影响越大,边权重越大,以及利用GCN传播更多节点的相关信息,最终确定节点的标签进而得到最后的节点分类,找到潜在的黑产用户。
实施例一
图1为本公开实施例一提供的一种网络群体的发现方法的流程图,该方法可以由本公开实施例提供的网络群体的发现装置来执行,该装置可采用软件和/或硬件的方式实现。该方法具体包括:
S110、将原始数据进行预处理,得到满足输入节点分类模型条件的待处理数据。
其中,原始数据为银行在预设时间段内的用户账号与其对应的交易数据。
其中,预设时间段可以是根据银行实际需求而设定的任意时间段,例如可以是近三年或几个月。原始数据一般为银行在预设时间段内的用户账号与其对应的交易数据,数量规模一般在亿或千万级别,通常是parquet数据格式文件。待处理数据为不清楚是否为黑产用户的用户账号及其对应的交易数据。
在本公开实施例中,将原始数据进行预处理,得到满足输入节点分类模型条件的待处理数据,包括:将原始数据进行编码和分割,得到整理后的原始数据;根据预设过滤规则对整理后的原始数据进行筛选,得到待处理数据。
其中,预设过滤规则为根据银行实际需求而设定的明显不属于黑产用户的规则,包括交易数据的缺失值和白名单关键字段。待处理数据为经过初步筛选后的剩余待处理数据。
其中,各个用户账号的属性包括以下至少之一:月交易次数,月转入笔数,月转出笔数,月交易最大金额,月交易最小金额,月交易平均金额,月交易总金额,月转入金额,月转入最大金额,月转入最小金额,月转入平均金额,月转出金额,月转出最大金额,月转出最小金额,月转出平均金额,月转入笔数/转出笔数,月转入金额/转出金额,月对手账号数去重数量,月转入账号去重数量,月转出账户去重数量,月出账关联对私他行账号去重数量,月出账关联对公他行账号去重数量,月入账关联对私他行账号去重数量,月入账关联对公他行账号去重数量,月敏感时间段交易总次数,月敏感时间段交易总金额,月小额转账交易总次数,10元以下小金额交易次数等。各个用户账号的属性则是各个属性对应的具体数值。
由于本实施例的原始数据可以是特殊的parquet数据格式文件,若不进行编码则会是乱码,且数据文件中的各个字段都以字符串形式拼接在一起,根据特定的分割符将各列数据分离才能获得整理后的原始数据,以方便进行数据处理。由于银行提供的原始交易数据中的“备注”项都是中文,内容包括了“公积金”、“存息”、“批量代收”等字段,因此本实施例在将原始数据进行编码和分割,得到整理后的原始数据之后,可以根据预设过滤规则对整理后的原始数据进行筛选,比如说把明显不是黑产用户的“公积金”、“存息”、“批量代收”等字段作为预设过滤规则进行筛除;又例如,将用户账号的对手账号为空、交易金额为空、余额为负等交易数据的缺失值,作为预设过滤规则进行筛除,从而得到待处理数据。
本实施例通过筛选,能够排除明显不是黑产用户的数据,减少输入后续节点分类模型的数据量,以提高模型的执行效率。
S120、由待处理数据和特定标签数据构建邻接矩阵和节点属性矩阵。
节点属性矩阵包括各个用户账号根据自身的交易数据所生成的多个节点属性;邻接矩阵为各个用户账号与其关联的对手用户账号;特定标签数据为具有特定属性的用户账号及其标签信息,例如可以包括黑户账号及其标签信息,或者是根据用户需求而设定具有某类属性特征的账号及其标签数据,本实施例不对其具体内容进行限定。
在本公开实施例中,由待处理数据和特定标签数据构建邻接矩阵和节点属性矩阵,包括:将待处理数据和特定标签数据中的各个用户账号和其关联的对手用户账号作为节点,各个用户账号和其关联的对手用户账号的相连关系作为边,来构建邻接矩阵;根据待处理数据和特定标签数据中的各个用户账号与其对应的交易数据,构建各个用户账号的属性与属性值,并组成用户账号的节点属性矩阵。
具体的,本实施例中的图神经网络(即后文内的节点分类模型)有两个输入条件,一个是拓扑图,即邻接矩阵,也叫权重矩阵,默认值为1;另一个为节点属性矩阵。其中,邻接矩阵是本实施例根据账户和其关联的对手账户以及特定标签数据内的账号及其已知标签信息所构建的矩阵,节点为所有账户和其关联的对手账户,边为账户和其关联的对手账户之间的影响关系,用户账号标记有的特定标签数据内的节点所对应的已知标签信息作为已知节点的初始标签信息。节点属性矩阵为账户账号相关的所有属性与其属性值所构建的矩阵。特定标签数据为具有特定属性的用户账号及其标签信息,也是辅助节点分类模型能够预测待处理数据内其他各个节点的标签信息。需要说明的是,本实施例中的节点分类模型为半监督神经网络模型,因此在预测待处理数据中各个节点的标签信息的过程中,需要通过输入特定标签数据进行辅助判别。
本实施例通过构建邻接矩阵和节点属性矩阵,方便后续输入节点分类模型进行分类。
S130、将邻接矩阵和节点属性矩阵输入节点分类模型,得到待处理数据内各个用户账号的预测标签信息。
其中,节点分类模型为基于图卷积神经网络和标签传播算法相结合的神经网络模型。
具体的,本实施例中的节点分类模型为以图卷积神经网络为基础的模型,由于图卷积神经网络GCN内权重为度的平均,不区分邻居节点的重要性,因此本实施例为了解决这一问题,结合标签传播算法LPA增强邻接矩阵中节点间的属性,与GCN协同训练以更新模型参数值。
具体的,本实施例中的图卷积神经网络可以用来表示进行说明。其中,表示节点集合,表示邻接矩阵,表示实数,表示节点个数,表示节点和节点的边权重,表示节点度,表示节点属性的特征矩阵,表示有关黑户账号的标签矩阵。
在本公开实施例中,将邻接矩阵和节点属性矩阵输入节点分类模型,得到待处理数据内各个用户账号的预测标签信息,包括:通过节点分类模型内的标签传播算法学习邻接矩阵内带有初始标签信息的各个节点与其相邻节点的无标签信息的影响力,以确定各个节点的边权重;通过各个节点的边权重优化邻接矩阵,形成新的不同权重的邻接矩阵;将新的邻接矩阵输入节点分类模型内的图卷积神经网络,以预测待处理数据内各个节点的标签信息,作为待处理数据内各个用户账号的预测标签信息。
由于在训练节点分类模型中有输入黑户账号的相关信息,因此,本实施例在将邻接矩阵和节点属性矩阵输入节点分类模型之后,可以通过结合标签传播算法LPA学习邻接矩阵内特定标签数据的已知标签信息与相邻节点的无标签信息的影响力,以确定各个无标签信息节点的边权重,再通过各个无标签信息节点的边权重优化邻接矩阵,形成新的具有不同边权重的邻接矩阵,最后通过GCN的传播功能,传播新的邻接矩阵,以预测各个无标签信息节点的标签信息,作为待处理数据内各个用户账号的预测标签信息。
本实施例中的邻接矩阵包含有待处理数据和特定标签数据,其中,待处理数据内的各个节点未标记标签信息,特定标签数据内的各个节点标记有标签信息,因此,本实施例通过半监督学习的方式,利用已知标签信息的节点来预测未知标签的节点,从而能够确定待处理数据内各个账号的预测标签信息。
图2为本公开实施例一提供的一种节点分类模型工作的过程示意图,示例性的以已知的两类节点为例进行说明,包括第一类节点10和第二类节点20,为初始标签信息。其中,(1)表示初始状态的邻接矩阵的示意图;(2)表示通过LPA传播时的内部标签相互影响,以增强边权重值的示意图;(3)表示通过GCN模型的卷积操作将原来无标签数据,更新为对应的确定标签值的示意图。
具体的,本实施例利用LPA算法,经过轮迭代初始标签节点,对无标签节点的影响为相对于的梯度,也被称为雅可比矩阵公式,公式(1)如下所示:
(1)
其中,表示为初始标签节点对无标签节点的影响值,代表单词label的缩写;表示节点在传播至k层的预测标签,表示初始标签节点的标签,也即节点的初始标签信息。k表示节点分类模型的传播层数。
由于梯度比较难求,而LPA算法在本实施例所起的作用等同于梯度,因此为了简化运算,本实施例利用LPA算法来简化运算,给定节点的总类内标签影响与LPA正确分类的概率成正比,公式(2)如下所示:
其中,为概率,表示节点在LPA内的预测标签。值越大表示节点对节点的影响越大,说明节点与节点之间的边权重越大,即标签更大概率就是节点的标签。本实施例通过边权重概率最大化,也意味着无标签节点被LPA正确分类的概率越高。
本实施例利用初始节点标签对预测标签的影响力,优化边权重。如此与黑产用户行为越相似,相邻节点之间的边权重越大,随之影响力越大,能够有效传播更多关于节点的相关信息,以提高模型预测的准确率。随后,再通过GCN模型的卷积操作将原来无标签信息的节点,更新为对应的确定标签信息的节点。
在本公开实施例中,在将原始数据进行预处理,得到待处理数据之前,还包括:获取训练数据,其中,训练数据包括:邻接矩阵数据、特定标签数据以及节点属性矩阵数据,其中,特定标签数据包括黑名单账号及其标签信息;根据训练数据,训练初始的节点分类模型,并通过标签传播损失函数和图卷积损失函数调节节点分类模型的参数。
其中,特定标签数据包括黑名单账号及其标签信息,黑名单账号可以是官方组织下发的黑产用户账号以及标签信息。
本实施例将训练数据根据(0.7,0.15,0.15)的比例分别划分为训练子数据、验证子数据和测试子数据,其中,训练子数据、验证子数据和测试子数据内的数据各不相同。
具体的,本实施例可以根据训练子数据,训练初始的节点分类模型,并通过标签传播损失函数和图卷积损失函数调节初始的节点分类模型的模型参数,得到几组候选的、具有不同模型参数的节点分类模型;再通过验证子数据来验证上述候选的节点分类模型,筛选出预测结果最为准确的一组模型参数,作为目标模型参数;最后再通过测试子数据来测试上述具有目标模型参数的节点分类模型,若测试结果准确,则作为最后成熟的节点分类模型。
具体的,本实施例通过训练数据来训练节点分类模型,训练数据包括:邻接矩阵数据(包含有节点集合数据)、标签矩阵数据以及节点属性矩阵数据,通过标记有黑户账号信息的训练数据来训练节点分类模型,使得节点分类模型具有预测节点的预测标签信息的能力,从而能够得到待处理数据内各个用户账号的预测标签信息。
为了提高节点分类模型的预测准确性,本实施例通过增加标签传播损失函数和图卷积损失函数来调节初始的节点分类模型的模型参数,总损失函数公式(3)如下表示:
其中,表示优化后的GCN模型权重;为GCN内新的邻接矩阵;表示GCN模型损失函数,表示LPA模型损失函数;是平衡超参数;lpa是标签传播模型的缩写。
其中,LPA模型损失函数的计算公式(4)如下表示:
(4)
其中,为交叉熵损失函数;为节点个数。
其中,GCN模型损失函数的计算公式(5)如下表示:
(5)
其中,表示节点在GCN内的预测标签。
除此之外,本实施例通过优化边权重,增加了内部标签的影响,从而也优化了度矩阵,由于度矩阵并非本实施例所涉及到的发明点,因此本实施例省略其具体公式,仅对此进行说明。同时,由于优化了度矩阵,进而增强了GCN的信息传播能力,节点分类模型内传播过程中的第k+1层时的节点属性的特征矩阵公式为如下公式(6)所示:
其中,为节点分类模型内由第k层传播至第k+1层时的节点属性的特征矩阵;为节点分类模型内传播第k+1层时的GCN模型权重;为节点分类模型内第k层的嵌入特征,为激活函数。
由于过度拟合,GCN很难同时学习和本实施例不修改GCN的基本结构(即不添加或删除边),只调整现有边的权重,使用用作辅助学习边权重的正则化项,该模型方法也可以看作是学习边缘的重要性,可用于通过LPA准确重建节点标签,然后将这些知识从标签空间转移到GCN的特征空间。同时,本实施例通过LPA模型损失函数和GCN模型损失函数共同约束节点分类模型,更新节点分类模型的模型参数,能够提高模型的判断准确性。
现有的属性增强大多基于自注意力机制,比如GTN等模型,这些模型都是应用在拓扑图的空域上。若单独使用LPA,LPA只是利用属性相互影响节点的标签,如公式(1)-(2),并没有很好的利用拓扑结构信息;若单独使用GTN,GCN边权重为度的平均值,做卷积操作时并没有考虑不同节点间的不同重要性,如公式(6),本实施例提出的基于边权重增强的图卷积神经网络黑产挖掘模型,在谱域中对拓扑图的节点间属性增强。具体为,利用LPA标签传播增强各个节点的链接属性,与GCN协同训练得到嵌入特征,最后做节点分类。需要说明的是,LPA的标签传播做属性增强,将拓扑图的不同邻居赋予不同的权重值,与GCN相互协同训练提高模型的鲁棒性并防止模型过平滑现象,同时提高节点分类的准确率,如公式(3)和公式(5)。
实施例二
图3是本公开实施例提供的一种网络群体的发现装置的结构示意图,该装置具体包括:
数据获取模块310,用于将原始数据进行预处理,得到满足输入节点分类模型条件的待处理数据;其中,原始数据为银行在预设时间段内的用户账号与其对应的交易数据;
构建模块320,用于由待处理数据和特定标签数据构建邻接矩阵和节点属性矩阵,其中,节点属性矩阵包括各个用户账号根据自身的交易数据所生成的多个节点属性;邻接矩阵为各个用户账号与其关联的对手用户账号;特定标签数据为具有特定属性的用户账号及其标签信息;
节点分类模块330,用于将邻接矩阵和节点属性矩阵输入节点分类模型,得到待处理数据内各个用户账号的预测标签信息,其中,节点分类模型为基于图卷积神经网络和标签传播算法相结合的神经网络模型。
在一可实施方式中,数据获取模块310,具体用于:将原始数据进行编码和分割,得到整理后的原始数据;根据预设过滤规则对整理后的原始数据进行筛选,得到待处理数据,其中,预设过滤规则包括交易数据的缺失值和白名单关键字段。
在一可实施方式中,构建模块320,具体用于:将待处理数据和特定标签数据中的各个用户账号和其关联的对手用户账号作为节点,各个用户账号和其关联的对手用户账号的相连关系作为边,来构建邻接矩阵;根据待处理数据和特定标签数据中的各个用户账号与其对应的交易数据,构建各个用户账号的属性与属性值,并组成用户账号的节点属性矩阵。
在一可实施方式中,节点分类模块330,具体用于:通过节点分类模型内的标签传播算法学习邻接矩阵内带有初始标签信息的各个节点与其相邻节点的无标签信息的影响力,以确定各个节点的边权重;通过各个节点的边权重优化邻接矩阵,形成新的邻接矩阵;将新的邻接矩阵输入节点分类模型内的图卷积神经网络,以预测待处理数据内各个节点的标签信息,作为待处理数据内各个用户账号的预测标签信息。
在一可实施方式中,模型训练模块,用于获取训练数据,其中,训练数据包括:邻接矩阵数据、特定标签数据以及节点属性矩阵数据,其中,特定标签数据包括黑名单账号及其标签信息;根据训练数据,训练初始的节点分类模型,并通过标签传播损失函数和图卷积损失函数调节节点分类模型的参数。
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图4所示,设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如网络群体的发现方法。例如,在一些实施例中,网络群体的发现方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM403并由计算单元401执行时,可以执行上文描述的网络群体的发现方法的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行网络群体的发现方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种网络群体的发现方法,其特征在于,所述方法包括:
将原始数据进行预处理,得到满足输入节点分类模型条件的待处理数据;其中,所述原始数据为银行在预设时间段内的用户账号与其对应的交易数据;
由所述待处理数据和特定标签数据构建邻接矩阵和节点属性矩阵,其中,所述节点属性矩阵包括各个用户账号根据自身的交易数据所生成的多个节点属性;所述邻接矩阵为各个用户账号与其关联的对手用户账号;所述特定标签数据为具有特定属性的用户账号及其标签信息;
将所述邻接矩阵和所述节点属性矩阵输入节点分类模型,得到所述待处理数据内各个用户账号的预测标签信息,其中,所述节点分类模型为基于图卷积神经网络和标签传播算法相结合的神经网络模型。
2.根据权利要求1所述的方法,其特征在于,所述将原始数据进行预处理,得到满足输入节点分类模型条件的待处理数据,包括:
将所述原始数据进行编码和分割,得到整理后的原始数据;
根据预设过滤规则对所述整理后的原始数据进行筛选,得到待处理数据,其中,所述预设过滤规则包括所述交易数据的缺失值和白名单关键字段。
3.根据权利要求2所述的方法,其特征在于,所述由所述待处理数据和特定标签数据构建邻接矩阵和节点属性矩阵,包括:
将所述待处理数据和特定标签数据中的各个用户账号和其关联的对手用户账号作为节点,各个用户账号和其关联的对手用户账号的相连关系作为边,来构建所述邻接矩阵;
根据所述待处理数据和特定标签数据中的各个用户账号与其对应的交易数据,构建各个用户账号的属性与属性值,并组成用户账号的节点属性矩阵。
4.根据权利要求3所述的方法,其特征在于,所述将所述邻接矩阵和所述节点属性矩阵输入节点分类模型,得到所述待处理数据内各个用户账号的预测标签信息,包括:
通过所述节点分类模型内的标签传播算法学习所述邻接矩阵内带有初始标签信息的各个节点与其相邻节点的无标签信息的影响力,以确定所述各个节点的边权重;其中,所述初始标签信息为所述特定标签数据内所包含的标签信息;
通过所述各个节点的边权重优化所述邻接矩阵,形成新的邻接矩阵;
将所述新的邻接矩阵输入所述节点分类模型内的图卷积神经网络,以预测所述待处理数据内各个节点的标签信息,作为所述待处理数据内各个用户账号的预测标签信息。
5.根据权利要求1所述的方法,其特征在于,在所述将原始数据进行预处理,得到满足输入节点分类模型条件的待处理数据之前,还包括:
获取训练数据,其中,所述训练数据包括:邻接矩阵数据、特定标签数据以及节点属性矩阵数据,其中,所述特定标签数据包括黑名单账号及其标签信息;
根据所述训练数据,训练初始的节点分类模型,并通过标签传播损失函数和图卷积损失函数调节所述节点分类模型的参数。
6.一种网络群体的发现装置,其特征在于,所述装置包括:
数据获取模块,用于将原始数据进行预处理,得到满足输入节点分类模型条件的待处理数据;其中,所述原始数据为银行在预设时间段内的用户账号与其对应的交易数据;
构建模块,由所述待处理数据和特定标签数据构建邻接矩阵和节点属性矩阵,其中,所述节点属性矩阵包括各个用户账号根据自身的交易数据所生成的多个节点属性;所述邻接矩阵为各个用户账号与其关联的对手用户账号;所述特定标签数据为具有特定属性的用户账号及其标签信息;
节点分类模块,将所述邻接矩阵和所述节点属性矩阵输入节点分类模型,得到所述待处理数据内各个用户账号的预测标签信息,其中,所述节点分类模型为基于图卷积神经网络和标签传播算法相结合的神经网络模型。
7.根据权利要求6所述的装置,其特征在于,所述数据获取模块,具体用于:
将所述原始数据进行编码和分割,得到整理后的原始数据;
根据预设过滤规则对所述整理后的原始数据进行筛选,得到待处理数据,其中,所述预设过滤规则包括所述交易数据的缺失值和白名单关键字段。
8.根据权利要求7所述的装置,其特征在于,所述构建模块,具体用于:
将所述待处理数据和特定标签数据中的各个用户账号和其关联的对手用户账号作为节点,各个用户账号和其关联的对手用户账号的相连关系作为边,来构建所述邻接矩阵;
根据所述待处理数据和特定标签数据中的各个用户账号与其对应的交易数据,构建各个用户账号的属性与属性值,并组成用户账号的节点属性矩阵。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行根据权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310309332.7A CN116032665B (zh) | 2023-03-28 | 2023-03-28 | 一种网络群体的发现方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310309332.7A CN116032665B (zh) | 2023-03-28 | 2023-03-28 | 一种网络群体的发现方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116032665A true CN116032665A (zh) | 2023-04-28 |
CN116032665B CN116032665B (zh) | 2023-06-30 |
Family
ID=86074324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310309332.7A Active CN116032665B (zh) | 2023-03-28 | 2023-03-28 | 一种网络群体的发现方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116032665B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112465226A (zh) * | 2020-11-27 | 2021-03-09 | 上海交通大学 | 一种基于特征交互和图神经网络的用户行为预测方法 |
CN113361627A (zh) * | 2021-06-23 | 2021-09-07 | 中国科学技术大学 | 一种面向图神经网络的标签感知协同训练方法 |
CN113780584A (zh) * | 2021-09-28 | 2021-12-10 | 京东科技信息技术有限公司 | 标签预测方法、设备、存储介质及程序产品 |
CN113850412A (zh) * | 2021-08-18 | 2021-12-28 | 华建数创(上海)科技有限公司 | 基于bim模型和图卷积神经网络的建筑内区域能耗预测方法 |
CN113989544A (zh) * | 2021-09-29 | 2022-01-28 | 中国计量大学 | 一种基于深度图卷积网络的群体发现方法 |
US20220101103A1 (en) * | 2020-09-25 | 2022-03-31 | Royal Bank Of Canada | System and method for structure learning for graph neural networks |
CN114329232A (zh) * | 2022-01-06 | 2022-04-12 | 河海大学 | 一种基于科研网络的用户画像构建方法和系统 |
CN115309931A (zh) * | 2022-08-10 | 2022-11-08 | 齐鲁工业大学 | 一种基于图神经网络的论文文本分类方法及系统 |
CN115631057A (zh) * | 2022-10-24 | 2023-01-20 | 齐鲁工业大学 | 一种基于图神经网络的社交用户分类方法及系统 |
-
2023
- 2023-03-28 CN CN202310309332.7A patent/CN116032665B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220101103A1 (en) * | 2020-09-25 | 2022-03-31 | Royal Bank Of Canada | System and method for structure learning for graph neural networks |
CN112465226A (zh) * | 2020-11-27 | 2021-03-09 | 上海交通大学 | 一种基于特征交互和图神经网络的用户行为预测方法 |
CN113361627A (zh) * | 2021-06-23 | 2021-09-07 | 中国科学技术大学 | 一种面向图神经网络的标签感知协同训练方法 |
CN113850412A (zh) * | 2021-08-18 | 2021-12-28 | 华建数创(上海)科技有限公司 | 基于bim模型和图卷积神经网络的建筑内区域能耗预测方法 |
CN113780584A (zh) * | 2021-09-28 | 2021-12-10 | 京东科技信息技术有限公司 | 标签预测方法、设备、存储介质及程序产品 |
CN113989544A (zh) * | 2021-09-29 | 2022-01-28 | 中国计量大学 | 一种基于深度图卷积网络的群体发现方法 |
CN114329232A (zh) * | 2022-01-06 | 2022-04-12 | 河海大学 | 一种基于科研网络的用户画像构建方法和系统 |
CN115309931A (zh) * | 2022-08-10 | 2022-11-08 | 齐鲁工业大学 | 一种基于图神经网络的论文文本分类方法及系统 |
CN115631057A (zh) * | 2022-10-24 | 2023-01-20 | 齐鲁工业大学 | 一种基于图神经网络的社交用户分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116032665B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022121145A1 (zh) | 一种基于图分类的以太坊网络钓鱼诈骗检测方法及装置 | |
Chang et al. | Digital payment fraud detection methods in digital ages and Industry 4.0 | |
CN110414780B (zh) | 一种基于生成对抗网络的金融交易数据的欺诈检测方法 | |
CN111325619A (zh) | 一种基于联合学习的信用卡欺诈检测模型更新方法及装置 | |
CN109858930A (zh) | 基于关联图谱表征学习的线上交易欺诈检测方法 | |
CN109934698A (zh) | 一种基于标签传播的欺诈关联网络特征提取方法 | |
CN110084609B (zh) | 一种基于表征学习的交易欺诈行为深度检测方法 | |
CN113360580A (zh) | 基于知识图谱的异常事件检测方法、装置、设备及介质 | |
CN109754258A (zh) | 一种基于个体行为建模的面向线上交易欺诈检测方法 | |
CN108492001A (zh) | 一种用于担保贷款网络风险管理的方法 | |
CN111047428B (zh) | 基于少量欺诈样本的银行高风险欺诈客户识别方法 | |
Li et al. | Theory and application of artificial intelligence in financial industry | |
CN116485406A (zh) | 账户的检测方法及装置、存储介质和电子设备 | |
CN110930242B (zh) | 一种可信度预测方法、装置、设备和存储介质 | |
CN113537960A (zh) | 一种异常资源转移链路的确定方法、装置和设备 | |
CN116032665B (zh) | 一种网络群体的发现方法、装置、设备及存储介质 | |
CN112966728A (zh) | 一种交易监测的方法及装置 | |
CN116541792A (zh) | 一种基于图神经网络节点分类进行团伙识别的方法 | |
Zhao et al. | Network-based feature extraction method for fraud detection via label propagation | |
Chao et al. | Research on network intrusion detection technology based on dcgan | |
CN116861226A (zh) | 一种数据处理的方法以及相关装置 | |
CN114943608A (zh) | 一种欺诈风险评估方法、装置、设备及存储介质 | |
CN115238773A (zh) | 异质图元路径自动评估的恶意账号检测方法及装置 | |
CN113538126A (zh) | 基于gcn的欺诈风险预测方法及装置 | |
Yang et al. | Automatic Feature Engineering‐Based Optimization Method for Car Loan Fraud Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |