CN115545467A

CN115545467A - 一种基于图神经网络的风险商品识别模型

Info

Publication number: CN115545467A
Application number: CN202211211721.8A
Authority: CN
Inventors: 邵长城
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2022-12-30
Anticipated expiration: 2042-09-30
Also published as: CN115545467B

Abstract

现如今，图计算尤其是图神经网络等技术获得了快速的发展以及广泛的应用。而在电商平台上的风险商品检测场景中，黑灰产和风控系统之间存在着激烈的对抗，黑灰产通过蓄意掩饰风险信息来躲避平台管控，从而会导致线上交易风险不断升高。本发明公开一种基于图神经网络的风险商品识别模型，通过将场景中的图数据引入图神经网络中，从而缓解因黑灰产对抗带来的检测效果下降，有效地降低线上交易过程中的风险。步骤包括：步骤1、将电商平台的商品数据进行预处理并转化为图数据；步骤2、将步骤1中的图数据输入到图神经网络中训练来学习每个节点(商品)的嵌入表示；步骤3、根据步骤2图神经网络的输出结果进行节点分类，从而完成识别任务。

Description

一种基于图神经网络的风险商品识别模型

技术领域

本发明涉及金融风控领域，主要涉及一种基于图神经网络的风险商品识别模型。

背景技术

随着互联网的飞速发展，各种电商平台相继涌现。在电商平台上，商品是最主要的内容之一。风险商品检测旨在识别平台上存在的假货商品、违禁商品等，对维护平台内容信息健康、保护消费者权益起着至关重要的作用。然而，部分恶意卖家会对商品内容中的文本、图片等进行变异，躲避平台风控，严重侵扰线上平台商品的洁净度。面对伪装后的风险商品，平台很难从商品内容本身判断是否有风险，风险对抗非常激烈。

在当下深度学习中，图计算尤其是图神经网络技术有着非常广泛的应用。专家研究发现，使用广泛存在的各类图关系数据，可以按图索骥，摸清风险商品上下游以及同类风险商品的关系，就像编织了一张严密的“风险关系网”，为风险商品的检测提供更多验证，用于对抗黑灰产。

图神经网络(Graph Neural Networks,GNNs)是一种基于图结构的深度学习方法。近期被广泛应用到各类图像、自然语言处理等任务上。图神经网络作为神经网络扩展，可以处理以图结构表示的数据格式。在图中，每个节点都由本身的特性以及其相邻的节点和关系所定义，网络通过递归地聚合和转换相邻节点的表示向量来计算节点的表示向量。图神经网络主要针对非欧几里得空间结构(图结构)的数据进行处理。具有以下特点：

(1)忽略节点的输入顺序；

(2)在计算过程中，节点的表示受其周围邻居节点的影响，而图本身连接不变；

(3)图结构的表示，使得可以进行基于图的推理。

图神经网络有灵活的结构和更新方式，可以很好的表达一些数据本身的结构特性，除了一些自带图结构的数据集(如Cora，Citeseer等)以外，图神经网络目前也被应用在更多的任务上，比如文本摘要，文本分类和序列标注任务等。图神经网络以及其变种在很多任务上都取得了目前最好的结果。比较常见的图神经网络算法主要有图卷积网络(GraphConvolutional Network，GCN)和图注意力网络(Graph Attention Network，GAT)等网络及其变种。

图模型的一般设计流程如下：(1)提取图结构(2)指定图的类别和规模(3)设计损失函数(4)使用计算模块构建模型。

图神经网络的应用有：

(1)节点分类：GNN的强大应用之一是向节点添加新信息或填补信息缺失的空白。

(2)边的预测：另一种使用GNN的方法是找到可以为图形增加价值的新边。

(3)聚类：GNN可以从图中收集新的结构信息。

发明内容

本发明的目的在于针对常规的规则模型和有监督的机器学习模型对风险商品的识别都存在着局限性，创造性地提出一种基于图神经网络的风险商品识别模型。

本发明的创新点在于有效采用图神经网络的方法，将商品数据转化为图数据，输入图神经网络模型进行训练，并获得商品的在图数据下的嵌入表示。在风险识别阶段，将商品的嵌入表示输入到sigmoid函数中进行分类预测。本发明使用广泛存在的各类图关系数据，为风险商品的检测提供更多验证信息，从而提高了风险商品的检测准确率。

本发明公开了一种基于图神经网络的风险商品识别模型，包含以下步骤：

步骤1、将电商平台的商品数据进行预处理，对其进行清洗，包括对不利于模型训练的数据中的缺失值，异常值等进行清理，同时对时间特征统一格式。将处理好的数据转化为图数据。

步骤2、训练每个节点(商品)的嵌入表示，将步骤(1)处理后的商品数据输入到图神经网络中进行训练。

步骤3、进行节点分类并进行风险识别。得到每个节点的嵌入表示后，通过sigmoid函数进行分类，识别该节点所表示的商品是否有风险。

进一步地，所述步骤1中，进行数据预处理的具体方法包括：

(1)获取电商平台数据并进行预处理，样本特征集合是X_i商品的基本属性和交易记录等集合，即第i个样本特征集合为X_i＝{x_i1,x_i2,...,x_in},i＝1,2,...,m，表示有m个样本，n个特征。对销售量等跨度较大的数据进行min-max归一化处理：

(2)商品风险类别Y_i是指该商品是否为风险商品，1表示该商品为风险商品，0表示该商品为正常商品。即Y_i＝{y_i},i＝1,2,...,m，y_i为0-1变量。

(3)将商品数据转化为图数据表示。构建异构图G＝(V,E)，P个节点(包括用户和商品)，Q个边，如果用户购买了商品或者商品之间有关联，则有一条边相连。

进一步地，所述步骤2中，训练每个节点(商品)的嵌入表示具体包括：

(1)将步骤1中的商品图数据输入到图神经网络中。

(2)每个节点的初始embedding表示为：

经过K层(K为整数)的邻居信息聚合之后,该节点embedding表示如下：

其中，k表示GNN层数，W_k,Q_k∈R^P×k为第k层的权重矩阵。N(p)为节点p的邻居节点集合，u为节点p的邻居节点。Relu为激活函数。

最终节点的embedding表示为：

进一步地，所述步骤3中，进行节点分类并进行风险识别过程包括：

(1)将商品的embedding向量作为sigmoid函数的输入向量。

(2)其损失函数为：

其中ω是权重矩阵，b是偏置。

本发明有效采用图神经网络的方法，将商品数据转化为图数据，输入图神经网络模型进行训练，并获得商品的在图数据下的嵌入表示。在风险识别阶段，将商品的嵌入表示输入到sigmoid函数中进行分类预测。本发明使用广泛存在的各类图关系数据，摸清风险商品上下游以及同类风险商品的关系，为风险商品的检测提供更多验证，从而提高了风险商品的检测准确率。

附图说明

图1是本发明的流程图；

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面通过实例具体结合附图对本发明作进一步详细描述。

如图1所示，一种基于图神经网络的风险商品识别模型，包含以下步骤：

步骤1：获取电商平台数据并进行预处理，样本特征集合X_i是商品的基本属性和交易记录等集合，即第i个样本特征集合为X_i＝{x_i1,x_i2,...,x_in},i＝1,2,...,m，表示有m个样本，n个特征。对销售量等跨度较大的数据进行min-max归一化处理：

商品风险类别Y_i是指该商品是否为风险商品，1表示该商品为风险商品，0表示该商品为正常商品。即Y_i＝{y_i},i＝1,2,...,m，y_i为0-1变量。

将商品数据转化为图数据表示。构建异构图G＝(V,E)，P个节点(包括用户和商品)，Q个边，如果用户购买了商品或者商品之间有关联，则有一条边相连。

步骤2：将步骤1中的商品图数据输入到图神经网络中。每个节点的初始embedding表示为：

最终节点的embedding表示为：

步骤3：将商品的embedding向量作为sigmoid函数的输入向量。

其损失函数为：

其中ω是权重矩阵，b是偏置。