CN117114705A - 一种基于持续学习的电商欺诈识别方法与系统 - Google Patents

一种基于持续学习的电商欺诈识别方法与系统 Download PDF

Info

Publication number
CN117114705A
CN117114705A CN202310972921.3A CN202310972921A CN117114705A CN 117114705 A CN117114705 A CN 117114705A CN 202310972921 A CN202310972921 A CN 202310972921A CN 117114705 A CN117114705 A CN 117114705A
Authority
CN
China
Prior art keywords
sample
model
risk
new
old
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310972921.3A
Other languages
English (en)
Inventor
周水庚
顾天涵
薛晖
李裕宏
柯力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202310972921.3A priority Critical patent/CN117114705A/zh
Publication of CN117114705A publication Critical patent/CN117114705A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)

Abstract

本发明属于数据挖掘技术领域,具体为基于持续学习的电商欺诈识别方法与系统。本发明电商欺诈识别方法包括:样本特征提取:通过预训练词表和文本特征提取器,对商家交易过程中产生的文本信息进行编码,并和商家的行为特征拼接得到样本特征;样本风险识别:通过二分类器对模型学习到的样本特征进行打分,获取最终分类结果;基于持续学习的模型迭代;通过知识蒸馏法和样本重演法使新模型参数在训练过程中向线上模型参数靠拢,在学习新风险点特征信息的同时尽可能保留新模型对历史风险的识别能力。本发明在阿里巴巴的电商欺诈数据集上取得满意的效果。本发明能够有效地缓解因风险点变化导致的灾难性遗忘问题,增强模型对于历史知识的记忆能力。

Description

一种基于持续学习的电商欺诈识别方法与系统
技术领域
本发明属于数据挖掘技术领域,具体涉及基于持续学习的电商欺诈识别方法与系统。
背景技术
随着互联网的发展,网络中的信息不断累积,这其中蕴含了大量的违规信息。在电子商业领域,商家虚假介绍商品、出售假货甚至不发货等欺诈现象层出不穷,因此需要对商家和交易过程进行严格监督。现阶段,企业投入大量人力对每条信息进行审核。为了节约人力成本并降低审核需要的时间,深度学习模型尤其是Bert类的自然语言处理模型被用于对商家言行数据中潜在的风险进行挖掘。然而,已有的方法存在以下一些问题。在不法商家和平台监管的博弈过程中,欺诈手法会不断地更新变化。此时业务正在使用的模型(可称为“线上模型”或“旧模型”)不具备识别最新欺诈手段的能力,因此需要使用最新的欺诈案例来更新模型(我们将更新得到的模型称为“新模型”)。由于保存数据需要占用大量存储空间,模型在训练时通常只使用最新一段时间内的数据,所以其并不能够充分接触和学习到历史风险点的特征。当一些历史的欺诈手段在未来再次出现时,当前运行的线上模型就无法有效地进行识别,从而导致大量违规信息被忽略,模型的整体分类准确率降低,这就是深度学习模型面对数据分布变化时产生的灾难性遗忘问题。在实际应用场景中,每日产生大量的电商相关数据(最新的欺诈手法对应的样本称为“新风险点数据”,已被模型学习过的风险样本称为“旧风险点数据”,此外还有大量无风险样本),将历史所有数据均保留并用于训练需要消耗极大的计算资源和时间,是不现实的。因此,亟需设计一种能克服上述缺陷的技术方案,以实现模型在更新之后既可以有效识别新的欺诈手段,也可以最大程度地保留学习到的历史知识,提高模型整体的风险识别能力。
发明内容
本发明的目的是提供一种基于持续学习的电商欺诈识别方法及装置,能够尽可能缓解模型灾难性遗忘问题,加强模型更新后对历史风险点的记忆能力,提高模型在新旧风险点上的整体识别性能。
本发明提供的基于持续学习的电商欺诈识别方法,具体步骤为:
(1)样本特征提取;通过已有的预训练词表(单词对应的向量表示的集合)和文本特征提取器(这里选择Transformer模型中的编码器模块),对商家交易过程中产生的文本信息进行编码,并和商家的行为特征拼接得到样本特征;
(2)样本风险识别;通过二分类器对模型学习到的样本特征进行打分,并设定适合的阈值以获取最终分类结果;
(3)基于持续学习的模型迭代;通过知识蒸馏法和样本重演法使新模型参数在训练过程中向线上模型参数靠拢,在学习新风险点特征信息的同时尽可能保留新模型对历史风险的识别能力。
进一步地,步骤(1)所述样本特征提取,具体包括:对商家行为特征进行提取,对商品介绍文本信息进行特征提取,对商家商品介绍与消费者聊天信息进行特征提取;最终,将各类特征向量拼接并进行非线性变换。
其中,对于商家行为数据wide_x,采用两个全连接神经网络f1、f2和一个Relu激活函数提取行为特征wide_output:
wide_output=f2.Relu(f1(wide_x))) (1)
对于商品介绍与买卖双方聊天信息这些文本数据,主要通过两种方式进行特征提取:一是使用Word2vec模型将文本转化为词向量,二是通过词的索引从已有的预训练词表中直接获取每个词对应的向量表示。在此基础上给词向量加入位置编码position_embeddings,并通过编码器进行编码,编码器由若干自注意力层和正则化层构成。然后对编码器的输出矩阵encoder_outputL进行两次池化操作,分别是取首位的编码结果cls_token,以及取每一位编码结果中的最大值bert_output:
cls_token=encoder_outputL[0] (2)
bert_output=max(encoder_outputL,dim=1) (3)
这样对同一单词得到的两个不同的特征向量表示。最终将商家行为的特征向量、商品介绍的两个文本特征向量以及聊天记录的两个文本特征向量进行拼接,并使用全连接神经网络进行非线性变换,得到一个综合的样本特征向量output_emb。
进一步地,步骤(2)所述样本风险识别,具体包括:考虑到期望模型,将样本分为无风险样本和风险样本两类,需将步骤(1)中提取出的样本特征向量output_emb的维度通过全连接神经网络转换为二维。之后对二维向量使用Softmax函数,计算该样本属于无风险类和风险类的概率,即模型对样本的分类分数。在训练过程中采用交叉熵损失函数CE_Loss:
LCE(x)=-∑ylabellog(σ(fθ(x)) (4)
其中,ylabel为样本对应的真实标签。最终比较人为设定的阈值和样本的分类分数,若样本在风险类上的分数大于阈值,则判定样本存在欺诈风险。
进一步地,步骤(3)所述基于持续学习的模型迭代,具体包括:两部分持续学习:
第一部分,所有的新风险点样本分别通过线上模型和新模型向前传播,得到各自对应的综合特征向量以及模型对样本的分类分数。再通过过滤器,筛选出在风险类上得分大于阈值(人为设定)的新样本进行知识蒸馏。知识蒸馏包括综合特征向量层面和分类分数层面的对齐操作:
首先,对于样本的新旧综合特征向量,我们计算其之间的余弦距离,并以此构建损失函数KF_Loss,使新模型提取出来的综合特征向量与旧模型提取的向量尽可能相近。损失函数为:
其中,和/>分别为新样本在新模型和旧模型中提取的特征向量。
其次,对于模型的分类器输出进行温度调节,将输出除以温度T(T为超参数,可以设为0.8),之后再通过Softmax函数得到分类分数score:
用旧模型对样本的分类分数作为标签、新模型的分数作为预测值来构建交叉熵损失函数KD_Loss,以调整新模型参数的更新向旧模型靠拢。交叉熵损失函数的具体形式为:
其中和/>分别为新样本在在新模型和旧模型中获得的分类分数。
第二部分,根据旧风险点数据在旧模型中的分类分数,筛选出对应风险类得分高于阈值(人为设定)的风险样本,从中进行随机采样。将采样结果balck_sample′old与新风险点数据black_samplenew、无风险数据white_new混合组成新的训练集train_setnew
train_setnew=balck_sample′old∪black_samplenew∪white_new (8)
使用新训练集来更新模型,使模型直接学习到历史风险的信息。
最终,模型训练时使用的损失函数L为:
L=LCE1LKF2LKD (9)
其中,LCE包含了新旧数据的分类误差,LKF和LKD为新风险点数据在新旧模型上的对齐损失,λ1和λ2分别为LKF和LKD对应的权重,通过人为设定。
基于上述电商欺诈识别方法,本发明还提供电商欺诈识别系统,具体包括样本特征提取模块、风险识别模块、知识蒸馏模块和样本重演模块。其中,样本特征提取模块执行步骤(1)的样本特征提取的操作;风险识别模块执行步骤(2)的风险识别操作;知识蒸馏模块和样本重演模块执行步骤(3)的基于持续学习的模型迭代操作。
所述样本特征提取模块,包括若干独立的Bert模型,分别对商家行为、聊天记录等进行特征提取。
所述风险识别模块,包括一个全连接神经网络,用于判别样本是否存在欺诈风险,并给出对应的概率分数。
所述知识蒸馏模块,包括以下几个子模块:对新风险点数据的筛选模块,对线上模型和新模型提取特征的对齐模块,对线上模型和新模型分类打分的对齐模块。
所述样本重演模块,包括选取部分历史风险点数据与最新风险点样本混合进行训练,使新模型直接学习历史风险信息的装置。
本发明至少包括以下有益效果:
本发明设计的基于持续学习的电商欺诈识别方法,将持续学习框架引入到欺诈识别模型中去。对商家行为特征、商品介绍文本特征以及聊天文本数据特征的组合能够充分挖掘出交易过程所包含的信息。温度调节机制可以平滑模型训练时的输出分数,增加分布的熵,从而让模型获取更多信息。通过知识蒸馏的方法可以使新模型参数在更新过程中受到线上模型参数的引导,令其在推理过程中参照旧模型对样本的处理方式,这是保留历史知识的一种手段;而样本重演方法在占用有限额外存储资源的情况下,让模型直接接触到历史数据信息。以上两点可以提高新模型对历史风险点的识别准确率,有效缓解模型更新导致的灾难性遗忘问题。本发明中的持续学习框架可以通过简单调整应用于其它实际场景,使得本发明具备良好的通用性。
本发明的其他优点、目标和特征将部分通过下面的说明体现,部分还将通过对发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明基于持续学习的电商欺诈识别方法框图。
图2示出了样本特征提取示意图。
图3示出了过滤器筛选流程图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施,并给出本发明方法的性能测试与分析。
如图1所示,本发明实施例提供了基于持续学习的电商欺诈识别方法,包括4个重要组成部分:样本特征提取模块从商家行为数据、商品描述和买卖双方聊天记录中抽取与该次交易相关的信息,样本风险识别模块整合模型提取的特征信息并检测样本是否含有欺诈风险,知识蒸馏模块对经过筛选的样本在新旧模型中的输出结果进行对齐,样本重演模块按条件存储历史风险点数据用于最新的训练。
对于商家行为,先通过统计方法转换为数值向量的格式,再通过行为特征层wide_layer抽取得到其中的信息wide_output。行为特征层由两个全连接神经网络组成,中间通过Relu激活函数相连。
wide_output=f2(Relu(f1(wide_x))) (1)
商品描述以及商家与消费者的聊天记录为文本数据,通过两种方式处理。一种是直接将文本转换为词向量chat_vec和prod_vec,另一种是保留文本中词的索引chat_ids和prod_ids,在已有的词表中获取对应的词向量。在现实中,每句话的长度不一致,因此需要对文本数据进行截断或者补全操作。具体而言,设置统一句子长度为30时,对于句子{w1,...,wn},若n≥30则保留{w1,...,w30},若n<30则补全为{w1,...,wn,0,…,0}使总长为30。给处理完毕的文本向量添加位置编码position_embeddings,之后通过包含多层自注意力机制和正则化的编码器结构得到文本信息的编码结果。具体地,第l层的文本编码结果ht为:
hl=BertEncoder(f(BertSelfAttention(hl-1))) (2)
其中f为一系列正则化操作的组合。然后对该结果在文本序列维度进行池化操作得到cls_token作为后面的分类依据;同时也在特征维度进行池化操作,得到文本特征提取模块的输出bert_output:
cls_token=encoder_outputL[0] (3)
bert_output=max(encoder_outputL,dim=1) (4)
其中L为编码器的层数。
以上从商家行为、商品描述以及聊天记录中提取出的特征向量经过拼接后,通过一层全连接神经网络,得到样本在模型里的中间层向量表示output_emb。
在获取样本中间层向量表示后,通过全连接神经网络将其转换为二维向量,对应于分类类别的个数。然后使用Softmax函数得到样本是否含有欺诈风险的概率,也就是分类分数score:
score=Softmax(WToutput_emb+b) (5)
在训练过程中,在模型输出概率分数与样本真实标签之间计算交叉熵损失函数CE_Loss用以更新模型参数,具体形式为:
LCE(x)=-∑ylabellog(σ(fθ(x)) (6)
在训练模型时,通过额外引入两个损失函数来实现知识蒸馏操作。令样本数据通过线上模型(旧模型)向前传播,得到其中间层特征向量和线上模型对其的分类分数。为了剔除线上模型蕴含的噪声信息,需要筛选出每个batch中分数大于阈值(此处设为0.9)且真实标签为1的样本。该部分样本包含了欺诈风险,且被线上模型识别,这说明其所含信息可以被线上模型正确反映出来,而新模型应该学习这一识别过程。对于筛选后的样本,计算其在新旧模型上的中间层特征向量的余弦相似度,并以此构造损失函数KF_Loss:
其中,和/>分别为新样本在新模型和旧模型中提取的特征向量。通过最小化KF_Loss损失函数,使得样本的新模型中间层输出向线上模型靠拢,即新模型获取了线上模型的部分知识。
在得到新模型的分类器输出后,首先使用温度调节机制对输出进行处理。具体操作是将输出向量除以温度T之后再计算分类分数,即
一般设置T为大于1的实数,用以减小不同类别对应的分类器输出之间的差距。这样可以提高负信息的权重,增加分布的熵。在推理阶段无需使用温度调节,相应的推理分类分数会更加靠近0或者1,有利于后期阈值划分以及模型得出最终分类结果。进一步地,在经过筛选后的样本在新旧模型上的分类分数之间构建损失函数KD_Loss:
其中,和/>分别为新样本在在新模型和线上模型中获得的分类分数。该函数和交叉熵损失函数在形式上相近,通过最小化该损失函数可以对齐线上模型和新模型的分数分布,从而达到获取历史风险点信息的效果。
除了新风险点样本数据,本实例有条件地保留了部分历史风险点样本用以直接训练新模型。在筛选过程中,由于每日产生的数据中绝大部分为无风险样本,风险样本所占比例极小,且模型应该把注意力重点放在风险点特征上,因此无需保留历史无风险样本。对于历史风险样本,先剔除以往训练过程中在风险类上得分低于阈值(实验时设为0.9)的部分,这部分样本无法有效反应出旧模型的正确信息。之后再从剩余样本中按一定的比例进行随机抽取,保证抽取的历史样本数量较少,无需消耗大量存储资源。最后,将抽取的历史风险点样本和新数据集混合形成新的训练集train_setnew共同训练新模型。
综合以上所述,模型训练时使用的损失函数为:
L=LCE1LKF2LKD (10)
其中,λ1和λ2分别为KF_Loss和KD_Loss对应的权重,可根据实验效果进行调整。
本申请的实施例还提供了基于持续学习的电商欺诈识别装置,包括:样本特征提取模块,其包括处理行为特征的全连接神经网络以及处理聊天记录和商品介绍等文本信息的Bert网络,提取的特征相互拼接构成样本特征向量;
知识蒸馏模块,其包括对分类器输出进行温度调节的结构,筛选高分样本的过滤器结构,并且构建损失函数,即在新旧模型的样本中间层特征向量以及样本分类分数之间分别进行对齐操作的结构。
样本重演模块,其包括筛选历史风险点样本的过滤器结构,此模块将高分历史风险点样本与新风险点样本进行混合,构建全新的综合训练集,共同训练新模型;
样本风险识别模块,其包含一个全连接神经网络,用于训练样本提取后的拼接特征与数据标签的映射关系,并通过Softmax激活函数和设定的阈值输出信息分类结果。
本申请的实施例还提供了跨语多模态信息融合装置,包括:
大规模处理器及计算单元与存储服务器,以执行基于持续学习的电商欺诈识别方法;大规模处理器及计算单元,用于进行网络的搭建、训练、测试及应用;大规模存储服务器,用于实现对基于持续学习的电商欺诈识别方法所需数据的存储与调用。
为了验证本方法在电商欺诈数据集上的性能,选取阿里巴巴集团内部的电商欺诈风险数据集。
电商欺诈数据集中的数据主要来自于闲鱼平台,主要由商家行为、商品介绍、买卖双方聊天记录等内容组成,其中商家行为已经转化为向量格式,而文本信息对应于各自的词向量格式、词表索引格式以及掩码。由于持续学习任务需要,还向其中加入了emb和score字段,分别表示新风险点样本在线上模型中的中间层特征向量和分类分数。每日产生大量的样本数据,其中无风险样本占比在98%以上,风险样本极少,因此在训练模型时按照1:4的比例抽取黑白样本,总计约70万条。除此之外,需要抽取一定数量的历史风险点样本加入最新的训练集,总计约75万条。测试集方面也使用业务场景的真实数据,分为两部分。测试数据一由线上模型可以正确识别的历史风险样本构成,即全部为黑样本,总计约2万条,要求新模型对于这类历史风险的识别率尽可能高,以确保新模型对历史知识的记忆。测试数据二则为某一日全量的真实业务数据,包含大量的无风险样本和少量风险样本,观察新模型此数据集上的识别准确率。
为验证本方法的优越性,在阿里巴巴集团的电商欺诈数据集上本实施例与以下几种常见的持续学习方法对比:LWF(摘自“Z.Li and D.Hoiem,“Learning withoutforgetting,”in ECCV.Springer,2016,pp.614-629.”),MIR(摘自“R.Aljundi,E.Belilovsky,T.Tuytelaars,L.Charlin,M.Caccia,M.Lin,L.Page-Caccia,Onlinecontinual learning with maximal interfered retrieval,in:Advances in NeuralInformation Processing Systems 32,2019,pp.11849-11860.”),DER++(摘自“BuzzegaP,Boschini M,Porrello A,et al.Dark experience for general continual learning:a strong,simple baseline[J].Advances in neural information processingsystems,2020,33:15920-15930.”)。本实施例采用召回率Recall和精确率Precision作为评估指标以衡量各算法的性能。其中,召回率Recall衡量新模型能够识别出历史风险点的比例,针对测试数据一。而精确率Precision考察模型识别风险的精度,计算公式为:
其针对测试数据二。由于测试数据二中无风险样本数量远超过风险样本,即使新模型在无风险样本中的误识别率较低,误识别成风险样本的绝对数量相比于风险样本的数量仍然偏高,因此精确率不要过低即可。
模型对比实验结果见表1。LWF方法主要通过知识蒸馏实现对历史信息的学习,其对历史风险点的记忆能力最弱。MIR和DER++都属于样本重演方法,前者通过临时更新模型筛选受到影响较大的旧样本用于重演,后者则通过缩小历史样本在新旧模型上的输出差距来进行优化。两者在召回率上分别比LWF方法高出了3.46和7.78个百分点。这表明相较于知识蒸馏,样本重演可以使新模型在训练过程中直接接触到历史样本,从而可以更好地保留对历史风险信息的记忆。而本发明提出的框架结合了知识蒸馏方法和样本重演方法,并使用过滤器筛选出更合理的样本用于训练,其在历史样本上的召回率明显高于现有的持续学习方法。四种方法的识别精确率均达到了0.5以上,符合实际业务要求。
表2给出了消融实验结果对比,分类阈值划分为0.9。其中实验CL*表示添加了KF_Loss和KD_Loss的持续学习方法,相比于完全重新训练得到的模型,其在历史风险点上的召回率提升了0.0223,这表明了持续学习的优势。实验CL*(temperature)和CL*(replay)分别表示在知识蒸馏基础上,单独使用温度调节机制或者样本重演进行实验,结果表明了两者的有效性。最终对所有持续学习模块融合进行测试,在历史风险点数据上获得了最高的召回率。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
表1,不同持续学习框架实验结果对比。
表2,消融实验结果对比。

Claims (6)

1.一种基于持续学习的电商欺诈识别方法,其特征在于,具体步骤为:
(1)样本特征提取;通过已有的预训练词表和文本特征提取器,对商家交易过程中产生的文本信息进行编码,并和商家的行为特征拼接得到样本特征;这里,预训练词表即单词对应的向量表示的集合;文本特征提取器选择Transformer模型中的编码器模块;
(2)样本风险识别;通过二分类器对模型学习到的样本特征进行打分,并设定适合的阈值以获取最终分类结果;
(3)基于持续学习的模型迭代;通过知识蒸馏法和样本重演法使新模型参数在训练过程中向线上模型参数靠拢,在学习新风险点特征信息的同时尽可能保留新模型对历史风险的识别能力。
2.根据权利要求1所述的电商欺诈识别方法,其特征在于,步骤(1)中所述样本特征提取,具体包括:对商家行为特征进行提取,对商品介绍文本信息进行特征提取,对商家商品介绍与消费者聊天信息进行特征提取;最终,将各类特征向量拼接并进行非线性变换;其中:
对于商家行为数据wide_x,采用两个全连接神经网络f1、f2和一个Relu激活函数提取行为特征wide_output:
wide_output=f2(Relu(f1(wide_x))), (1)
对于商品介绍与买卖双方聊天信息这些文本数据,通过两种方式进行特征提取:一是使用Word2vec模型将文本转化为词向量,二是通过词的索引从已有的预训练词表中直接获取每个词对应的向量表示;在此基础上给词向量加入位置编码position_embeddings,并通过编码器进行编码,编码器由若干自注意力层和正则化层构成;然后对编码器的输出矩阵encoder_outputL进行两次池化操作,分别是取首位的编码结果cls_token,以及取每一位编码结果中的最大值bert_output:
cls_token=encoder_outputL[0] (2)
bert_output=max(encoder_outputL,dim=1), (3)
这样对同一单词得到的两个不同的特征向量表示;
最终将商家行为的特征向量、商品介绍的两个文本特征向量以及聊天记录的两个文本特征向量进行拼接,并使用全连接神经网络进行非线性变换,得到一个综合的样本特征向量output_emb。
3.根据权利要求2所述的电商欺诈识别方法,其特征在于,步骤(2)中所述样本风险识别,具体包括:考虑到期望模型,将样本分为无风险样本和风险样本两类;将步骤(1)中提取出的样本特征向量output_emb的维度通过全连接神经网络转换为二维;之后对二维向量使用Softmax函数,计算该样本属于无风险类和风险类的概率,即模型对样本的分类分数;在训练过程中采用交叉熵损失函数CE_Loss:
LCE(x)=-∑ylabellog(σ(fθ(x)), (4)
其中,ylabel为样本对应的真实标签;最终比较设定的阈值和样本的分类分数,若样本在风险类上的分数大于阈值,则判定样本存在欺诈风险。
4.根据权利要求3所述的电商欺诈识别方法,其特征在于,其特征在于,步骤(3)中所述基于持续学习的模型迭代,具体包括:两部分持续学习:
第一部分,所有的新风险点样本分别通过线上模型和新模型向前传播,得到各自对应的综合特征向量以及模型对样本的分类分数;再通过过滤器,筛选出在风险类上得分大于阈值的新样本进行知识蒸馏;知识蒸馏包括综合特征向量层面和分类分数层面的对齐操作:
首先,对于样本的新旧综合特征向量,计算其之间的余弦距离,并以此构建损失函数,使新模型提取出来的综合特征向量与旧模型提取的向量尽可能相近;损失函数为:
其中,和/>分别为新样本在新模型和旧模型中提取的特征向量;
其次,对于模型的分类器输出进行温度调节,将输出除以温度T,之后再通过Softmax函数得到分类分数score:
用旧模型对样本的分类分数作为标签、新模型的分数作为预测值来构建交叉熵损失函数,以调整新模型参数的更新向旧模型靠拢;交叉熵损失函数的形式为:
其中,和/>分别为新样本在在新模型和旧模型中获得的分类分数;
第二部分,根据旧风险点数据在旧模型中的分类分数,筛选出对应风险类得分高于阈值的风险样本,从中进行随机采样;将采样结果balck_sample′old与新风险点数据black_samplenew、无风险数据white_new混合组成新的训练集train_setnew
train_setnew=balck_sample′old∪black_samplenew∪white_new (8)
使用新训练集来更新模型,使模型直接学习到历史风险的信息。
最终,模型训练时使用的损失函数L为:
L=LCE1LKF2LKD (9)
其中,LCE包含新旧数据的分类误差,LKF和LKD为新风险点数据在新旧模型上的对齐损失,λ1和λ2分别为LKF和LKD对应的权重,通过人为设定。
5.基于权利要求4所述的电商欺诈识别方法的电商欺诈识别系统,其特征在于,具体包括样本特征提取模块、风险识别模块、知识蒸馏模块和样本重演模块;其中,样本特征提取模块执行步骤(1)的样本特征提取的操作;风险识别模块执行步骤(2)的风险识别操作;知识蒸馏模块和样本重演模块执行步骤(3)的基于持续学习的模型迭代操作。
6.根据权利要求5所述的电商欺诈识别系统,其特征在于:
所述样本特征提取模块,包括若干独立的Bert模型,分别对商家行为、聊天记录等进行特征提取;
所述风险识别模块,包括一个全连接神经网络,用于判别样本是否存在欺诈风险,并给出对应的概率分数;
所述知识蒸馏模块,包括以下几个子模块:对新风险点数据的筛选模块,对线上模型和新模型提取特征的对齐模块,对线上模型和新模型分类打分的对齐模块;
所述样本重演模块,包括选取部分历史风险点数据与最新风险点样本混合进行训练,使新模型直接学习历史风险信息的装置。
CN202310972921.3A 2023-08-03 2023-08-03 一种基于持续学习的电商欺诈识别方法与系统 Pending CN117114705A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310972921.3A CN117114705A (zh) 2023-08-03 2023-08-03 一种基于持续学习的电商欺诈识别方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310972921.3A CN117114705A (zh) 2023-08-03 2023-08-03 一种基于持续学习的电商欺诈识别方法与系统

Publications (1)

Publication Number Publication Date
CN117114705A true CN117114705A (zh) 2023-11-24

Family

ID=88801211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310972921.3A Pending CN117114705A (zh) 2023-08-03 2023-08-03 一种基于持续学习的电商欺诈识别方法与系统

Country Status (1)

Country Link
CN (1) CN117114705A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118052577A (zh) * 2024-04-16 2024-05-17 问策师信息科技南京有限公司 基于云平台的数据采集处理分析系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118052577A (zh) * 2024-04-16 2024-05-17 问策师信息科技南京有限公司 基于云平台的数据采集处理分析系统及方法

Similar Documents

Publication Publication Date Title
CN109255506B (zh) 一种基于大数据的互联网金融用户贷款逾期预测方法
CN109739844B (zh) 基于衰减权重的数据分类方法
CN112819604A (zh) 基于融合神经网络特征挖掘的个人信用评估方法与系统
CN111047193A (zh) 一种基于信用大数据标签的企业信用评分模型生成算法
CN117114705A (zh) 一种基于持续学习的电商欺诈识别方法与系统
CN111754317A (zh) 一种金融投资数据测评方法及系统
CN115470354A (zh) 基于多标签分类识别嵌套和重叠风险点的方法及系统
CN115099310A (zh) 训练模型、对企业进行行业分类的方法和装置
CN114971294A (zh) 数据采集方法、装置、设备及存储介质
Bier et al. Variable-length multivariate time series classification using ROCKET: A case study of incident detection
Sarang Thinking Data Science: A Data Science Practitioner’s Guide
CN112508684A (zh) 一种基于联合卷积神经网络的催收风险评级方法及系统
CN116011623A (zh) 一种基于混合比例估计的企业进销项税收风险预测方法
CN115618926A (zh) 一种面向纳税人企业分类的重要因子提取方法及装置
CN109635289A (zh) 词条分类方法及审计信息抽取方法
CN115345248A (zh) 一种面向深度学习的数据去偏方法及装置
Chen et al. Predicting a corporate financial crisis using letters to shareholders
CN114764913A (zh) 融入标签信息的案情要素识别方法
CN114495224A (zh) 一种信贷风险确定方法及装置
CN117291740B (zh) 一种基于大数据的应收账款资料真实性智能识别审核系统
CN117009883B (zh) 对象分类模型构建方法、对象分类方法、装置和设备
CN108520042B (zh) 实现经侦工作中嫌疑人涉案角色标定和角色评估的系统及方法
CN111402012B (zh) 一种基于迁移学习的电商缺陷产品识别方法
Davalos et al. Deriving rules for forecasting air carrier financial stress and insolvency: A genetic algorithm approach
Fei et al. Mechanical and Electrical Engineering Institute, Zhengzhou University of Light Industry, Zhengzhou, Henan, China

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination