CN115545467A - 一种基于图神经网络的风险商品识别模型 - Google Patents
一种基于图神经网络的风险商品识别模型 Download PDFInfo
- Publication number
- CN115545467A CN115545467A CN202211211721.8A CN202211211721A CN115545467A CN 115545467 A CN115545467 A CN 115545467A CN 202211211721 A CN202211211721 A CN 202211211721A CN 115545467 A CN115545467 A CN 115545467A
- Authority
- CN
- China
- Prior art keywords
- commodity
- data
- risk
- graph
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 8
- 230000008569 process Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 10
- 238000012795 verification Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003749 cleanliness Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Finance (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
现如今,图计算尤其是图神经网络等技术获得了快速的发展以及广泛的应用。而在电商平台上的风险商品检测场景中,黑灰产和风控系统之间存在着激烈的对抗,黑灰产通过蓄意掩饰风险信息来躲避平台管控,从而会导致线上交易风险不断升高。本发明公开一种基于图神经网络的风险商品识别模型,通过将场景中的图数据引入图神经网络中,从而缓解因黑灰产对抗带来的检测效果下降,有效地降低线上交易过程中的风险。步骤包括:步骤1、将电商平台的商品数据进行预处理并转化为图数据;步骤2、将步骤1中的图数据输入到图神经网络中训练来学习每个节点(商品)的嵌入表示;步骤3、根据步骤2图神经网络的输出结果进行节点分类,从而完成识别任务。
Description
技术领域
本发明涉及金融风控领域,主要涉及一种基于图神经网络的风险商品识别模型。
背景技术
随着互联网的飞速发展,各种电商平台相继涌现。在电商平台上,商品是最主要的内容之一。风险商品检测旨在识别平台上存在的假货商品、违禁商品等,对维护平台内容信息健康、保护消费者权益起着至关重要的作用。然而,部分恶意卖家会对商品内容中的文本、图片等进行变异,躲避平台风控,严重侵扰线上平台商品的洁净度。面对伪装后的风险商品,平台很难从商品内容本身判断是否有风险,风险对抗非常激烈。
在当下深度学习中,图计算尤其是图神经网络技术有着非常广泛的应用。专家研究发现,使用广泛存在的各类图关系数据,可以按图索骥,摸清风险商品上下游以及同类风险商品的关系,就像编织了一张严密的“风险关系网”,为风险商品的检测提供更多验证,用于对抗黑灰产。
图神经网络(Graph Neural Networks,GNNs)是一种基于图结构的深度学习方法。近期被广泛应用到各类图像、自然语言处理等任务上。图神经网络作为神经网络扩展,可以处理以图结构表示的数据格式。在图中,每个节点都由本身的特性以及其相邻的节点和关系所定义,网络通过递归地聚合和转换相邻节点的表示向量来计算节点的表示向量。图神经网络主要针对非欧几里得空间结构(图结构)的数据进行处理。具有以下特点:
(1)忽略节点的输入顺序;
(2)在计算过程中,节点的表示受其周围邻居节点的影响,而图本身连接不变;
(3)图结构的表示,使得可以进行基于图的推理。
图神经网络有灵活的结构和更新方式,可以很好的表达一些数据本身的结构特性,除了一些自带图结构的数据集(如Cora,Citeseer等)以外,图神经网络目前也被应用在更多的任务上,比如文本摘要,文本分类和序列标注任务等。图神经网络以及其变种在很多任务上都取得了目前最好的结果。比较常见的图神经网络算法主要有图卷积网络(GraphConvolutional Network,GCN)和图注意力网络(Graph Attention Network,GAT)等网络及其变种。
图模型的一般设计流程如下:(1)提取图结构(2)指定图的类别和规模(3)设计损失函数(4)使用计算模块构建模型。
图神经网络的应用有:
(1)节点分类:GNN的强大应用之一是向节点添加新信息或填补信息缺失的空白。
(2)边的预测:另一种使用GNN的方法是找到可以为图形增加价值的新边。
(3)聚类:GNN可以从图中收集新的结构信息。
发明内容
本发明的目的在于针对常规的规则模型和有监督的机器学习模型对风险商品的识别都存在着局限性,创造性地提出一种基于图神经网络的风险商品识别模型。
本发明的创新点在于有效采用图神经网络的方法,将商品数据转化为图数据,输入图神经网络模型进行训练,并获得商品的在图数据下的嵌入表示。在风险识别阶段,将商品的嵌入表示输入到sigmoid函数中进行分类预测。本发明使用广泛存在的各类图关系数据,为风险商品的检测提供更多验证信息,从而提高了风险商品的检测准确率。
本发明公开了一种基于图神经网络的风险商品识别模型,包含以下步骤:
步骤1、将电商平台的商品数据进行预处理,对其进行清洗,包括对不利于模型训练的数据中的缺失值,异常值等进行清理,同时对时间特征统一格式。将处理好的数据转化为图数据。
步骤2、训练每个节点(商品)的嵌入表示,将步骤(1)处理后的商品数据输入到图神经网络中进行训练。
步骤3、进行节点分类并进行风险识别。得到每个节点的嵌入表示后,通过sigmoid函数进行分类,识别该节点所表示的商品是否有风险。
进一步地,所述步骤1中,进行数据预处理的具体方法包括:
(1)获取电商平台数据并进行预处理,样本特征集合是Xi商品的基本属性和交易记录等集合,即第i个样本特征集合为Xi={xi1,xi2,...,xin},i=1,2,...,m,表示有m个样本,n个特征。对销售量等跨度较大的数据进行min-max归一化处理:
(2)商品风险类别Yi是指该商品是否为风险商品,1表示该商品为风险商品,0表示该商品为正常商品。即Yi={yi},i=1,2,...,m,yi为0-1变量。
(3)将商品数据转化为图数据表示。构建异构图G=(V,E),P个节点(包括用户和商品),Q个边,如果用户购买了商品或者商品之间有关联,则有一条边相连。
进一步地,所述步骤2中,训练每个节点(商品)的嵌入表示具体包括:
(1)将步骤1中的商品图数据输入到图神经网络中。
(2)每个节点的初始embedding表示为:
经过K层(K为整数)的邻居信息聚合之后,该节点embedding表示如下:
其中,k表示GNN层数,Wk,Qk∈RP×k为第k层的权重矩阵。N(p)为节点p的邻居节点集合,u为节点p的邻居节点。Relu为激活函数。
最终节点的embedding表示为:
进一步地,所述步骤3中,进行节点分类并进行风险识别过程包括:
(1)将商品的embedding向量作为sigmoid函数的输入向量。
(2)其损失函数为:
其中ω是权重矩阵,b是偏置。
本发明有效采用图神经网络的方法,将商品数据转化为图数据,输入图神经网络模型进行训练,并获得商品的在图数据下的嵌入表示。在风险识别阶段,将商品的嵌入表示输入到sigmoid函数中进行分类预测。本发明使用广泛存在的各类图关系数据,摸清风险商品上下游以及同类风险商品的关系,为风险商品的检测提供更多验证,从而提高了风险商品的检测准确率。
附图说明
图1是本发明的流程图;
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面通过实例具体结合附图对本发明作进一步详细描述。
如图1所示,一种基于图神经网络的风险商品识别模型,包含以下步骤:
步骤1:获取电商平台数据并进行预处理,样本特征集合Xi是商品的基本属性和交易记录等集合,即第i个样本特征集合为Xi={xi1,xi2,...,xin},i=1,2,...,m,表示有m个样本,n个特征。对销售量等跨度较大的数据进行min-max归一化处理:
商品风险类别Yi是指该商品是否为风险商品,1表示该商品为风险商品,0表示该商品为正常商品。即Yi={yi},i=1,2,...,m,yi为0-1变量。
将商品数据转化为图数据表示。构建异构图G=(V,E),P个节点(包括用户和商品),Q个边,如果用户购买了商品或者商品之间有关联,则有一条边相连。
步骤2:将步骤1中的商品图数据输入到图神经网络中。每个节点的初始embedding表示为:
经过K层(K为整数)的邻居信息聚合之后,该节点embedding表示如下:
其中,k表示GNN层数,Wk,Qk∈RP×k为第k层的权重矩阵。N(p)为节点p的邻居节点集合,u为节点p的邻居节点。Relu为激活函数。
最终节点的embedding表示为:
步骤3:将商品的embedding向量作为sigmoid函数的输入向量。
其损失函数为:
其中ω是权重矩阵,b是偏置。
Claims (4)
1.本发明公开了一种基于图神经网络的风险商品识别方法,包含以下步骤:
步骤1、将电商平台的商品数据进行预处理,对其进行清洗,包括对不利于模型训练的数据中的缺失值,异常值等进行清理,同时对时间特征统一格式,然后将处理好的数据转化为图数据;
步骤2、训练每个节点(商品)的嵌入表示,将步骤1处理后的商品数据输入到图神经网络中进行训练;
步骤3、进行节点分类并进行风险识别,得到每个节点的嵌入表示后,通过sigmoid函数进行分类,识别该节点所表示的商品是否有风险。
2.根据权利要求1所述的种基于图神经网络的风险商品识别模型,其特征在于步骤1中,所述数据预处理的具体步骤为:
(1)获取电商平台数据并进行预处理,样本特征集合Xi是商品的基本属性和交易记录等集合,即第i个样本特征集合为Xi={xi1,xi2,...,xin},i=1,2,...,m,表示有m个样本,n个特征;对销售量等跨度较大的数据进行min-max归一化处理:
(2)商品风险类别Yi是指该商品是否为风险商品,1表示该商品为风险商品,0表示该商品为正常商品,即Yi={yi},i=1,2,...,m,yi为0-1变量;
(3)将商品数据转化为图数据表示;构建异构图G=(V,E),P个节点(包括用户和商品),Q个边,如果用户购买了商品或者商品之间有关联,则有一条边相连。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211211721.8A CN115545467B (zh) | 2022-09-30 | 2022-09-30 | 一种基于图神经网络的风险商品识别模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211211721.8A CN115545467B (zh) | 2022-09-30 | 2022-09-30 | 一种基于图神经网络的风险商品识别模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115545467A true CN115545467A (zh) | 2022-12-30 |
CN115545467B CN115545467B (zh) | 2024-01-23 |
Family
ID=84730749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211211721.8A Active CN115545467B (zh) | 2022-09-30 | 2022-09-30 | 一种基于图神经网络的风险商品识别模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115545467B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200202219A1 (en) * | 2017-12-15 | 2020-06-25 | Alibaba Group Holding Limited | Graphical structure model-based transaction risk control |
CN112395466A (zh) * | 2020-11-27 | 2021-02-23 | 上海交通大学 | 一种基于图嵌入表示和循环神经网络的欺诈节点识别方法 |
CN113240490A (zh) * | 2021-05-18 | 2021-08-10 | 中国人民大学 | 一种基于图神经网络的智能服务交易推荐方法及系统 |
CN113420190A (zh) * | 2021-08-23 | 2021-09-21 | 连连(杭州)信息技术有限公司 | 一种商户风险识别方法、装置、设备及存储介质 |
CN114513367A (zh) * | 2021-12-10 | 2022-05-17 | 西安电子科技大学 | 基于图神经网络的蜂窝网络异常检测方法 |
CN114626890A (zh) * | 2022-03-21 | 2022-06-14 | 烟台大学 | 一种基于图结构学习的异常用户检测方法 |
CN114943543A (zh) * | 2022-04-11 | 2022-08-26 | 阿里巴巴(中国)有限公司 | 模型训练方法、异常商品识别方法、电子设备及存储介质 |
CN114998005A (zh) * | 2022-04-24 | 2022-09-02 | 北京理工大学 | 一种基于联邦图神经网络技术的比特币异常交易识别方法 |
CN115034305A (zh) * | 2022-06-09 | 2022-09-09 | 浙江大学 | 利用人在回路图神经网络在通话网络中识别诈骗用户的方法、系统和存储介质 |
-
2022
- 2022-09-30 CN CN202211211721.8A patent/CN115545467B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200202219A1 (en) * | 2017-12-15 | 2020-06-25 | Alibaba Group Holding Limited | Graphical structure model-based transaction risk control |
CN112395466A (zh) * | 2020-11-27 | 2021-02-23 | 上海交通大学 | 一种基于图嵌入表示和循环神经网络的欺诈节点识别方法 |
CN113240490A (zh) * | 2021-05-18 | 2021-08-10 | 中国人民大学 | 一种基于图神经网络的智能服务交易推荐方法及系统 |
CN113420190A (zh) * | 2021-08-23 | 2021-09-21 | 连连(杭州)信息技术有限公司 | 一种商户风险识别方法、装置、设备及存储介质 |
CN114513367A (zh) * | 2021-12-10 | 2022-05-17 | 西安电子科技大学 | 基于图神经网络的蜂窝网络异常检测方法 |
CN114626890A (zh) * | 2022-03-21 | 2022-06-14 | 烟台大学 | 一种基于图结构学习的异常用户检测方法 |
CN114943543A (zh) * | 2022-04-11 | 2022-08-26 | 阿里巴巴(中国)有限公司 | 模型训练方法、异常商品识别方法、电子设备及存储介质 |
CN114998005A (zh) * | 2022-04-24 | 2022-09-02 | 北京理工大学 | 一种基于联邦图神经网络技术的比特币异常交易识别方法 |
CN115034305A (zh) * | 2022-06-09 | 2022-09-09 | 浙江大学 | 利用人在回路图神经网络在通话网络中识别诈骗用户的方法、系统和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115545467B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khan et al. | CNN with depthwise separable convolutions and combined kernels for rating prediction | |
CN111259140B (zh) | 一种基于lstm多实体特征融合的虚假评论检测方法 | |
Naz et al. | Intelligent routing between capsules empowered with deep extreme machine learning technique | |
Gao et al. | Small sample classification of hyperspectral image using model-agnostic meta-learning algorithm and convolutional neural network | |
Devika et al. | A novel approach for book recommendation systems | |
CN112801762B (zh) | 基于商品感知的多模态视频高光检测方法及其系统 | |
CN116468460B (zh) | 基于人工智能的消费金融客户画像识别系统及其方法 | |
CN113761250A (zh) | 模型训练方法、商户分类方法及装置 | |
CN112905739A (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 | |
CN112417167A (zh) | 保险知识图谱的构建方法、装置、计算机设备及存储介质 | |
Bouzidi et al. | Deep learning-based automated learning environment using smart data to improve corporate marketing, business strategies, fraud detection in financial services, and financial time series forecasting | |
Jayanthi et al. | Leaf disease segmentation from agricultural images via hybridization of active contour model and OFA | |
Lee | Deep learning-based detection of tax frauds: an application to property acquisition tax | |
Joshi | Python machine learning cookbook | |
CN116823321B (zh) | 一种电商用经济管理数据分析方法及系统 | |
Li et al. | Zero-shot learning for intrusion detection via attribute representation | |
CN117435982A (zh) | 一种多维度快速识别网络水军的方法 | |
Huynh et al. | An efficient model for copy-move image forgery detection | |
CN115545467B (zh) | 一种基于图神经网络的风险商品识别模型 | |
CN115187066A (zh) | 风险识别方法、装置、电子设备及存储介质 | |
CN115687620A (zh) | 一种基于三模态表征学习的用户属性检测方法 | |
CN115344794A (zh) | 一种基于知识图谱语义嵌入的旅游景点推荐方法 | |
İş et al. | A Profile Analysis of User Interaction in Social Media Using Deep Learning. | |
CN115114851A (zh) | 基于五折交叉验证的评分卡建模方法及装置 | |
Raman et al. | Multigraph attention network for analyzing company relations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Jiapeng Inventor after: Shao Changcheng Inventor before: Shao Changcheng |
|
GR01 | Patent grant | ||
GR01 | Patent grant |