CN112381547A - 一种基于异构图卷积神经网络的营销作弊监测方法 - Google Patents

一种基于异构图卷积神经网络的营销作弊监测方法 Download PDF

Info

Publication number
CN112381547A
CN112381547A CN202011391273.5A CN202011391273A CN112381547A CN 112381547 A CN112381547 A CN 112381547A CN 202011391273 A CN202011391273 A CN 202011391273A CN 112381547 A CN112381547 A CN 112381547A
Authority
CN
China
Prior art keywords
user
neural network
graph
convolution neural
graph convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011391273.5A
Other languages
English (en)
Inventor
徐德华
汤敏伟
李�真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Electronic Commerce Co Ltd
Original Assignee
Tianyi Electronic Commerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Electronic Commerce Co Ltd filed Critical Tianyi Electronic Commerce Co Ltd
Priority to CN202011391273.5A priority Critical patent/CN112381547A/zh
Publication of CN112381547A publication Critical patent/CN112381547A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于异构图卷积神经网络的营销作弊监测方法,包括以下步骤:S1:基于用户历史消费特征、行为序列,构建待检测用户的特征向量,简称为特征;S2:基于用户‑设备的登录关系和用户‑商户的消费关系,构建异构用户关联图谱;S3:使用图卷积神经网络模型,对用户的各类子图进行训练,得到用户基于不同图结构的特征向量;本发明有益效果如下:本发明采用了异构的图数据结构,相比同构的图结构,进一步丰富了关系类型,引入更多拓扑结构信息,并解决了不同关系信息具有不同权重的问题,具有很好的扩展性。

Description

一种基于异构图卷积神经网络的营销作弊监测方法
技术领域
本发明涉及电子信息技术领域,特别涉及一种基于异构图卷积神经网络的营销作弊监测方法。
背景技术
营销作弊是指在营销活动中,黑产通过批量操纵账号的方式,恶意侵占营销补贴,并用刷空单、转卖等方式实现套利,严重影响和侵害正常用户的权益。目前主要的管控手段是通过规则和模型对黑产账号进行识别,限制或禁止其参与营销活动。规则主要通过对单一主体的多项统计指标设置阈值的方式,高于或低于阈值的主体判定为异常。例如共用一个IP、设备的大量用户。模型主要使用基于有监督的分类机器学习模型,例如xgboost、lightgbm等。此类方法主要针对单一主体,即只能对黑产掌握的大量账号中的一小部分进行有效识别,且较容易通过ip秒拨、修改设备指纹等方式绕过。对于黑产大规模的薅羊毛行为,难以由点及面,挖掘出隐藏的黑产账户。检测覆盖率较低,且鲁棒性较差。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种基于异构图卷积神经网络的营销作弊监测方法。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种基于异构图卷积神经网络的营销作弊监测方法,包括以下步骤:
S1:基于用户历史消费特征、行为序列,构建待检测用户的特征向量,简称为特征;其中S1步骤中还包含:
S1.1:基于用户近7天的交易金额、频率、资金类型、商户情况维度,计算用户特征向量;
S1.2:基于用户7天的时序行为记录,得到用户操作特征向量,同S1.1中的向量拼接,得到用户的特征向量;
S2:基于用户-设备的登录关系和用户-商户的消费关系,构建异构用户关联图谱;其中S2步骤中还包含:
S2.1:抽取近7天的全量用户-设备,用户-商户关系,构建图谱;
S3:使用图卷积神经网络模型,对用户的各类子图进行训练,得到用户基于不同图结构的特征向量;其中S3步骤中还包含:
S3.1:将步骤2.1得到的用户-设备子图,送入图卷积神经网络,得到用户的特征;
S3.2:将步骤2.1得到的用户-商户子图,送入图卷积神经网络,得到用户的特征;
S4:使用Attention机制,对用户多个图特征向量进行融合,随后进行预测,给出用户是羊毛账号的概率,最后判断用户是否是羊毛账号;其中S4步骤中还包含:
S4.1:将步骤3.1和步骤3.2的用户特征送入注意力神经网络,经计算之后得到用户的预测概率。
与现有技术相比,本发明的有益效果如下:
1.本发明不仅可有效使用用户的消费、行为等统计类特征,通过图卷积也可有效使用用户所在关联图谱的拓扑结构信息,丰富特征维度,提升识别的准确率;
2.同时,本发明所采用的的图谱信息,能够起到标签信息传播的效果,能够更为有效的对黑产团伙而非单一账号进行识别,具有更高的覆盖率;
3.最后,本发明采用了异构的图数据结构,相比同构的图结构,进一步丰富了关系类型,引入更多拓扑结构信息,并解决了不同关系信息具有不同权重的问题,具有很好的扩展性。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的模型整体模块示意图;
图2是本发明的图卷积模块示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本发明实施例提供一种基于异构图卷积神经网络的营销作弊监测方法,将用户是否为黑产操纵的羊毛账号看成是一个分类问题,提出一种异构图卷积神经网络预测用户是否为羊毛党用户的概率,并最终确定认定结果。具体实施时,通过构建用户特征向量与用户异构关联图谱,再用多个图神经网络基于用户多类关联图谱分别在隐空间进行特征投影和表征,然后对多个隐特征基于注意力机制进行融合,随后对相应的预测概率进行阈值划分,分成正常用户和羊毛党用户,将预测概率与阈值进行比较,最终判定用户是否为营销作弊的羊毛党用户。
图1是根据实施例标示出的基于异构图卷积神经网络的营销作弊检测方法的流程图,参照图1所示,该方法包括如下步骤:
S1:基于用户历史消费特征、行为序列等,构建待检测用户的特征向量,简称为特征;
具体的,构建用户的特征向量是一个非常重要的过程。特征直接影响模型效果的好坏。特征过多会引入噪音以及模型过拟合的可能行,降低鲁棒性;特征过少会使模型缺乏区分度,无法达到预期效果。因此构建合适的特征,能够提升模型的有效性。
S1.1:基于用户近7天的交易金额、频率、资金类型、商户情况等维度,计算用户特征向量;
具体的,在模型训练阶段,基于用户最近7天的风控数据集市,衍生例如交易平均金额,交易笔数,累计交易金额,交易金额最大值,方差等静态、动态特征。随后经过特征工程,筛选出区分度高(高IV值),稳定性好的特征,作为进入模型的特征向量。在随后的模型训练、优化以及投产环节,保持筛选出的特征不变。
S1.2:基于用户7天的时序行为记录,得到用户操作特征向量。同S1.1中的向量拼接,得到用户的特征向量;
具体的,由于黑产使用群控设备或脚本,大规模操作的特点,其用户时序行为轨迹会不可避免的出现一定的相似性痕迹。因此用户的操作行为时序序列,对于区分正常用户和黑产用户具有极高的价值,然而传统的统计方法难以表征时间序列所隐含的信息。在本实施例中,我们使用sequence-to-sequence模型,训练得到用户操作行为的embedding向量,对用户的行为序列所有embedding加权平均,得到用户行为序列的embedding表达。将此特征向量与S1.1中得到的特征向量拼接,作为用户最终的特征向量。
S2:基于用户-设备的登录关系和用户-商户的消费关系,构建异构用户关联图谱;
具体的,可通过抽取不同的关系数据,例如用户-设备,用户-商户,用户-IP等,构建复杂的异构关联图谱。每一类关联关系可抽取子图,生成独立的链接矩阵,作为图卷积模型输入。基于风控知识图谱,抽取最近7天的用户-设备登陆关系和用户-商户消费关系的。
S2.1:抽取近7天的全量用户-设备,用户-商户关系,构建图谱;
具体的,在本实施例中我们使用用户-设备,用户-商户两类关联关系作为图谱结构特征。基于自建的风控知识图谱,抽取最近7天用户-设备,用户-商户两个图谱,计算得到相应链接矩阵作为后续模型输入。
S3:使用图卷积神经网络模型,对用户的各类子图进行训练,得到用户基于不同图结构的特征向量;
具体的,首先对数据集处理。其中,数据集是指包含已知正常用户、已知黑产用户和未知用户三部分的数据,标签也相应的标记为白用户,黑用户,未知用户。其中,白用户和黑用户的比例大致为9:1。在获取数据集后,将其划分为训练集,验证集和测试集,三者比例约为7:2:1。其次对未知用户进行处理,设置遮蔽矩阵,标记出未知用户在链接矩阵中的索引位置。此类用户在模型训练、验证、测试时均不参与计算损失函数以及准确率。分别对训练数据、验证数据、测试数据的用户在链接矩阵中的索引位置进行标记。在训练时,全量数据(包括训练、验证、测试及未知数据)参与梯度更新的计算,但仅训练数据参与到损失函数以及准确率的计算。在验证时,仅验证数据参与到损失函数及准确率的计算。在测试时,仅测试数据参与到损失函数及准确率的计算。在训练过程中,将上述数据输入到预设一定参数的初始模型,通过梯度下降法更新模型的参数,最后在达到一定的预设条件之后停止梯度下降。随后,将验证集输入到更新参数后的模型中,根据模型给出的预测结果对参数进行微调,微调参数后的模型即为最终具体实施过程中采用的模型。模型在测试集上的表现即为模型的性能表现。
S3.1:将步骤2.1得到的用户-设备子图,送入图卷积神经网络,得到用户的特征V1;
具体的,将用户特征向量与基于用户-设备图谱的链接矩阵作为输入,送入图卷积神经网络。在本实施例中,采用3层图卷积神经网络。在其他实施例中,也可采用其他层数的图卷积神经网络,或GraphSage,GraphAttentionNetwork等其他形式的图神经网络。
S3.2:将步骤2.1得到的用户-商户子图,送入图卷积神经网络,得到用户的特征V2;
具体的,将用户特征向量与基于用户-商户图谱的链接矩阵作为输入,送入图卷积神经网络。详细步骤见步骤3.1。
S4:使用Attention机制,对特征向量V1和V2进行融合,随后进行预测,给出用户是羊毛账号的概率,最后判断用户是否是羊毛账号;
具体的,将步骤S3中的结果输入attentionlayer。对于不同的用户,不同的图谱关系带来的影响是不一样的,注意力机制可以有效的对异构数据进行加权融合,提升模型的可解释性与有效性。
S4.1:将步骤3.1和步骤4.1的用户特征送入注意力神经网络,经计算之后得到用户的预测概率;
具体的,在本实施例中,输入注意力神经网络的是同一用户经过两个图卷积得到的向量。这是在考虑模型复杂度,计算时效以及有效性的情况下,综合权衡以及测试后做出的设置。在其他实施例中,也可根据实际业务场景需求增加输入的图结构特征向量,或使用多头注意力机制。
具体的,在本实施例中,通过概率预测模块的全连接网络,将特征向量经过softmax激活转化为最终的预测概率。并根据训练模型过程中选择的使得训练数据预测结果的相等错误率最小的一个数值,与预测概率比较,给出用户是否为黑产用户的预测结果。
在本实施例中,作为一种较优的实施方式选取阈值以相等错误率最小作为评价标准。在其他实施例中,也可以根据实际业务需求,采用其他评价标准。
本发明的主要工作模块为使用了注意力机制的异构图神经网络模块,这是本发明有别于其他类似发明的核心,也是本发明检测性能优于其他类似发明的根本所在。
本发明主要针对营销场景下的黑产作弊账号检测,融合使用了传统机器学习模型、时序模型、知识图谱、图计算等技术进行检测,是其它类似发明所不具备的。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于异构图卷积神经网络的营销作弊监测方法,其特征在于,包括以下步骤:
S1:基于用户历史消费特征、行为序列,构建待检测用户的特征向量,简称为特征;其中S1步骤中还包含:
S1.1:基于用户近7天的交易金额、频率、资金类型、商户情况维度,计算用户特征向量;
S1.2:基于用户7天的时序行为记录,得到用户操作特征向量,同S1.1中的向量拼接,得到用户的特征向量;
S2:基于用户-设备的登录关系和用户-商户的消费关系,构建异构用户关联图谱;其中S2步骤中还包含:
S2.1:抽取近7天的全量用户-设备,用户-商户关系,构建图谱;
S3:使用图卷积神经网络模型,对用户的各类子图进行训练,得到用户基于不同图结构的特征向量;其中S3步骤中还包含:
S3.1:将步骤2.1得到的用户-设备子图,送入图卷积神经网络,得到用户的特征;
S3.2:将步骤2.1得到的用户-商户子图,送入图卷积神经网络,得到用户的特征;
S4:使用Attention机制,对用户多个图特征向量进行融合,随后进行预测,给出用户是羊毛账号的概率,最后判断用户是否是羊毛账号;其中S4步骤中还包含:
S4.1:将步骤3.1和步骤3.2的用户特征送入注意力神经网络,经计算之后得到用户的预测概率。
CN202011391273.5A 2020-12-02 2020-12-02 一种基于异构图卷积神经网络的营销作弊监测方法 Pending CN112381547A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011391273.5A CN112381547A (zh) 2020-12-02 2020-12-02 一种基于异构图卷积神经网络的营销作弊监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011391273.5A CN112381547A (zh) 2020-12-02 2020-12-02 一种基于异构图卷积神经网络的营销作弊监测方法

Publications (1)

Publication Number Publication Date
CN112381547A true CN112381547A (zh) 2021-02-19

Family

ID=74589583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011391273.5A Pending CN112381547A (zh) 2020-12-02 2020-12-02 一种基于异构图卷积神经网络的营销作弊监测方法

Country Status (1)

Country Link
CN (1) CN112381547A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023029324A1 (zh) * 2021-09-06 2023-03-09 天翼电子商务有限公司 一种基于动态注意力图网络的营销套利黑产的识别方法
CN116453141A (zh) * 2023-06-13 2023-07-18 平安银行股份有限公司 票据潜客的识别方法、装置和电子设备
CN117709967A (zh) * 2023-12-19 2024-03-15 深圳前海微众银行股份有限公司 反洗钱检测方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023029324A1 (zh) * 2021-09-06 2023-03-09 天翼电子商务有限公司 一种基于动态注意力图网络的营销套利黑产的识别方法
CN116453141A (zh) * 2023-06-13 2023-07-18 平安银行股份有限公司 票据潜客的识别方法、装置和电子设备
CN116453141B (zh) * 2023-06-13 2023-10-13 平安银行股份有限公司 票据潜客的识别方法、装置和电子设备
CN117709967A (zh) * 2023-12-19 2024-03-15 深圳前海微众银行股份有限公司 反洗钱检测方法和系统

Similar Documents

Publication Publication Date Title
CN112381547A (zh) 一种基于异构图卷积神经网络的营销作弊监测方法
US20230316076A1 (en) Unsupervised Machine Learning System to Automate Functions On a Graph Structure
CN108648074B (zh) 基于支持向量机的贷款评估方法、装置及设备
US20190378051A1 (en) Machine learning system coupled to a graph structure detecting outlier patterns using graph scanning
US20190378049A1 (en) Ensemble of machine learning engines coupled to a graph structure that spreads heat
WO2020077682A1 (zh) 一种服务质量评估模型的训练方法及装置
CN109086799A (zh) 一种基于改进卷积神经网络模型AlexNet的作物叶片病害识别方法
CN109727246A (zh) 一种基于孪生网络的对比学习图像质量评估方法
CN109034194B (zh) 基于特征分化的交易欺诈行为深度检测方法
CN107545245A (zh) 一种年龄估计方法及设备
CN111444951B (zh) 样本识别模型的生成方法、装置、计算机设备和存储介质
CN110162970A (zh) 一种程序处理方法、装置以及相关设备
CN108563755A (zh) 一种基于双向循环神经网络的个性化推荐系统及方法
CN111178319A (zh) 基于压缩奖惩机制的视频行为识别方法
CN110288199A (zh) 产品质量预测的方法
CN109214444B (zh) 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
CN114723522A (zh) 一种面向评论文本的图神经网络推荐方法
CN113110398A (zh) 基于动态时间归整和图卷积网络的工业过程故障诊断方法
CN110059126B (zh) 基于lkj异常值数据的复杂关联网络分析方法及系统
CN116340524A (zh) 一种基于关系自适应网络的小样本时态知识图谱补全方法
US20240184678A1 (en) Deep Learning Method Integrating Prior Knowledge for Fault Diagnosis
CN103281555B (zh) 基于半参考评估的视频流业务QoE客观评估方法
CN114997476A (zh) 一种融合商品关联关系的商品预测方法
CN117669384A (zh) 基于物联网的温度传感器生产智能监测方法及系统
CN117216376A (zh) 一种基于深度图神经网络的公平感知推荐系统及推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210219

WD01 Invention patent application deemed withdrawn after publication