CN111242744A - 低频交易的个体行为建模与欺诈检测方法 - Google Patents

低频交易的个体行为建模与欺诈检测方法 Download PDF

Info

Publication number
CN111242744A
CN111242744A CN202010045152.9A CN202010045152A CN111242744A CN 111242744 A CN111242744 A CN 111242744A CN 202010045152 A CN202010045152 A CN 202010045152A CN 111242744 A CN111242744 A CN 111242744A
Authority
CN
China
Prior art keywords
transaction
user
behavior
current
transactions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010045152.9A
Other languages
English (en)
Other versions
CN111242744B (zh
Inventor
章昭辉
蒋昌俊
王鹏伟
陈立功
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN202010045152.9A priority Critical patent/CN111242744B/zh
Publication of CN111242744A publication Critical patent/CN111242744A/zh
Application granted granted Critical
Publication of CN111242744B publication Critical patent/CN111242744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种低频交易的个体行为建模与欺诈检测方法,首先是低频交易的个体行为建模方法,通过迁移当前交易群体的共性行为去补充低频用户的交易行为。由三个部分组成:一是考虑用户自身仅有的历史交易,结合最佳风险阈值确定算法,构成用户自身交易行为基准;二是通过DBSCAN聚类算法提取出当前所有黑样本与白样本的行为特征,构成当前交易群体共性行为;三是根据历史交易记录,利用滑动窗口机制提取交易变化行为,三者组合构成用户新的交易行为。其次,在此基础之上,提出一种基于朴素贝叶斯模型的检测方法,根据每种行为的结果利用朴素贝叶斯公式计算当前交易属于欺诈的概率,最终确定当前交易是否正常,为解决欺诈交易检测提供了技术支持。

Description

低频交易的个体行为建模与欺诈检测方法
技术领域
本发明涉及一种网络交易检测方法,属于信息技术领域。
背景技术
随着电子商务的飞速发展,在线支付也变得也越来越流行。但是,网络交易安全问题日益严重,严重威胁着普通用户的财产安全。据北京市公安局网络全保卫总队与360公司的猎网平台报告,网络欺诈的不法分子数量超过160万人,网络诈骗市场规模高达1100亿元。根据相关部门对现有的欺诈案例进行分析,发现欺诈犯罪的主要手段有盗号、盗卡、信用卡套现、钓鱼网站、木马病毒等,都是间接或者直接盗取用户信息,从而盗取用户金钱。如何有效地防范交易欺诈风险已经成为一个待解决的问题。针对上述现象,从用户行为认证角度去解决此类问题能够取得很好的效果。因为用户行为具有独特性和不可模拟性,它可用于判别当前交易系统中用户行为的可信度。
在金融交易领域,根据用户历史行为数据,分析用户行为模式,建立模型实现用户的行为检测成为一个主流的趋势。在交互行为方面,姬炳帅等提出一种面向电子商务的用户异常行为检测研究的方法,根据用户历史行为数据建立用户的正常行为模式,最后使用模式比较方法判断该用户的交易行为是否异常。J.Zhong等提出一种基于浏览行为认证的方法,从Web日志中构建了个性化用户浏览行为模型,从而识别用户在访问的网页中的真实身份。Zhao P等提出两种通过浏览序列建模验证用户身份的方法,第一个是基于马尔可夫序列的身份认证,第二个是基于序列和偏好的身份认证。Hongbo Zhang等提出一种基于触摸屏虚拟击键动态行为的认证方法,该方法根据用户的虚拟击键动态行为,利用模型检查当前用户的动态行为是否与预期用户的行为匹配,进而验证用户的身份。Lei Ma等提出一种基于动态软键盘上的鼠标行为认证方法,通过收集鼠标行为数据特征,获得行为特征向量,采用支持向量机算法构建模型,通过多数表决机制实现用户认证。
在交易行为方面,
Figure BDA0002369083560000011
Kültür等提出一种用于信用卡诈骗检测的新型持卡人行为模型,利用该模型结合用户历史消费行为对异常交易进行检测。L.Zheng等提出了一种新的基于行为证书的信用卡欺诈检测系统,根据持卡人的交易记录中提取行为特征,构建持卡人的行为证书,利用行为证书判断当前交易是否正常。同时L.Zheng等又提出了一种基于总秩序关系和行为多样性的交易欺诈检测方法,定义了用户交易逻辑图、交易属性之间的转换概率、基于信息熵的多样性系数以及状态转移概率矩阵,从而为每个用户构建一个行为概要,然后使用它来验证传入的交易是否是欺诈。Sanaz N等提出一种基于动态随机森林和k近邻的成本敏感型支付卡欺诈检测方法,包括持卡人行为模式匹配和动态随机森林检测两个阶段。C.Jiang等提出一种利用聚合策略和反馈机制的新方法,首先将所有持卡人分成不同的组,然后提取每组的行为模式,为每个群体训练分类器。最后,使用分类器集来在线检测欺诈。Ligong Chen等人提出一种超球体模型来检测用户当前交易,根据用户历史交易提取用户交易行为,再提出算法确定用户最佳阈值,之后构建超球体模型,用来检测当前交易。
上述工作中,虽然从用户的个体行为展开了较多的研究,但是目前的研究都是建立在用户拥有充足的历史数据基础之上,但是用户交易频次对用户行为的刻画会产生很大的影响,交易量少的低频用户很难准确刻画其用户行为,而现有方法并没有针对低频用户提出解决方案,导致此类方法对低频用户的检测准确率较低。同时由于缺乏真实交易数据,上述部分工作都是在模拟数据上进行,与实际情况有所偏差,适用性有待评估。
发明内容
本发明的目的是:针对低频用户交易量不足的情况,提出一种方法,能够提升低频用户交易检测准确率并且降低误判率。
为了达到上述目的,本发明的技术方案是提供了一种低频交易的个体行为建模与欺诈检测方法,其特征在于,包括以下步骤:
步骤1、用户行为提取,包括以下步骤
S101:提取用户自身行为:
从历史交易数据库中提取用户u的历史正常交易数据,从多个维度对用户u的历史正常交易数据进行处理,得到用户u的自身交易行为,再通过最佳风险阈值算法确定用户的最佳风险阈值,从而构建出用户u的自身行为基准UBBu
S102:提取当前交易群体行为:
对历史发生的全部交易进行处理,利用基于密度的聚类算法对历史正常交易和欺诈交易进行分类,得到若干类别,再分别对每一类别进行处理,得到当前若干条群体交易行为GBB;
S103:计算当前交易状态
根据历史发生的全部交易序列,提出滑动窗后机制,对交易序列进行聚合,得到历史交易状态序列,将交易状态序列中的均值作为临界值,记为历史交易状态临界值St,包括以下步骤:
S1031:提取历史全部交易:
从历史交易数据库中提取用户u截止当前日期的全部历史交易;
S1032:滑动窗口集合机制:
在t时刻的交易记为rt,在t时刻之前发生的交易序列记为Lt={r1,…,rt},设滑动窗口为h,长度为k,即nh=k,滑动窗口中交易序列记为Lht={rt-k,…,rt};
S1033:计算每一时刻的交易状态:
在t时刻的滑动窗口ht中,中提取出异常交易Fht={r∈Lht|label=fraud},其中,label表示交易类别,fraud表示交易类别为欺诈;将当前时间段内交易状态记为St,表示当前时间段中前k个交易中欺诈交易占据的比例,其计算方式如下所示:
Figure BDA0002369083560000031
式中,
Figure BDA0002369083560000032
S1034:构建当前交易状态:
利用滑动窗口h对已经发生的全部交易集合
Figure BDA0002369083560000033
进行聚合,求出每一窗口中欺诈交易的占比,得到n-nh个比值序列s=[s1,…,sn-nh],将比值序列的均值作为历史交易状态的一个临界值Thresholds,若交易状态si大于这个临界值时,视si为异常状态,记为St=1,否则当前交易状态为正常状态,记St=0;
S104:构建用户u新的交易行为
用户新的交易行为由用户u的自身行为基准UBBu、当前群体交易行为GBB、历史交易状态临界值St组成,用一个三元组表示,则用户u新的交易行为New_UBBu=(UBBu,GBB,St),将其存入用户行为基准库中;
步骤2、根据行为用户u新的交易行为New_UBBu,构建针对低频用户的欺诈检测模型,包括以下步骤:
S201:数据输入
将当前待检测交易作为输入输入检测模型中;
S202:提取用户行为基准
从用户行为基准库中提取当前用户的行为基准New_UBBu,作为检测模型的输入;
S203:提取用户自身交易行为:
从用户的行为基准New_UBBu中提取用户自身交易行为基准UBBu,在其中取出用户自身交易行为TBu
S204:提取用户最佳风险阈值:
在用户自身交易行为基准中提取该用户最佳风险阈值Thresholdu
S205:计算用户交易结果:
根据超球体模型,将TBu作为多为空间中的一个点,将Thresholdu作为多维空间中的半径,将交易检测转化为多维空间中点的映射问题,利用以下公式去判断当前交易是否正常:
Figure BDA0002369083560000041
式中,xi为用户当前交易ru映射到当前多维空间中点的每一个维度值,tbi为用户自身交易行为各个维度的值,上述公式将空间划分为两个部分,f1(x)表示超球体模型计算公式,若f1(x)>0,说明当前交易不在用户正常行为空间中,记为欺诈交易,反之记为正常交易,得到用户当前交易结果URt
Figure BDA0002369083560000042
S206:提取当前群体行为:
从用户行为基准库中提取当前交易群体的行为基准GBB;
S207:与当前交易进行匹配:
对于当前进入系统中的交易ru,将其转化为矩阵rT=[x1,x2,x3,x4,x5,x6],对于矩阵rT,利用公式计算该交易与正常行为TBB和异常行为FBB中每一条行为基准的偏离距离,得到以下两个距离集合DTBB和DFBB,其中DTBB=[d1,…,dq],DFBB=[d1,…,dP];之后通过公式判断当前交易偏向那种行为,若交易更偏向黑样本行为,则该交易可疑程度较高:
Figure BDA0002369083560000051
上述公式代表计算当前交易与TBB和FBB中每一条行为基准之前的偏离距离,式中
Figure BDA0002369083560000052
代表当前交易转化为矩阵后的矩阵向量,
Figure BDA0002369083560000053
代表TBB或FBB中每一条行为的行为向量,其中1≤j1≤Q,Q表示正常交易,1≤j2≤P,P表示欺诈交易;
S208:计算群体交易结果:
Figure BDA0002369083560000054
上公式代表当前交易倾向程度,式中
Figure BDA0002369083560000055
为当前交易ru与异常行为的偏离程度均值,式中
Figure BDA0002369083560000056
为当前交易ru与正常行为的偏离程度均值,两者之差为f2(x),若f2(x)过于小,说明当前交易ru与黑样本的距离更近,可疑程度增加;反之,可疑程度降低,得到用户当前ru交易结果GRt,如下式所示,其中ThresholdG则是通过最佳风险阈值算法计算出的最佳阈值:
Figure BDA0002369083560000057
S209:提取当前交易状态:
从用户行为基准库中提取当前交易状态St
S210:计算历史交易状态:
利用滑动窗口h对已经发生的全部交易集合
Figure BDA0002369083560000058
进行聚合,求出每一窗口中欺诈交易的占比,得到n-nh个比值序列s=[s1,…,sn-nh]。
S211:得到交易状态结果:
将序列的均值作为历史交易状态的一个临界值ThresholdS,若交易状态si大于这个临界值时,视si为异常状态,记为St=1,否则当前交易状态为正常状态,记St=0;
S212:利用贝叶斯计算当前交易属于欺诈概率:
对于当前交易ru,根据用户自身行为和当前群体行为对此交易的判断结果URt和GRt,以及交易状态St,记输入x=(URt,GRt,St),对于当前输入,利用以下公式计算交易ru属于欺诈交易概率P(Y=1|X=x)和正常交易的概率P(Y=0|X=x):
Figure BDA0002369083560000061
Figure BDA0002369083560000062
若P(Y=1|X=x)>P(Y=0|X=x),交易ru属于欺诈交易,否则为正常交易,式中,P(X=x|Y=1)表示当前交易为欺诈交易时X=x的概率,P(Y=1)表示当前交易为欺诈交易的概率,P(X=x|Y=k)表示当前交易类别为k,正常或欺诈,时X=x的概率,P(Y=k)表示当前交易类别为k,正常或欺诈,的概率,P(X(j)=x(j)|Y=k)表示当前交易类别为k,正常或欺诈,时X中每一项出现概率的概率,P(X=x|Y=0)表示当前交易为正常交易时X=x的概率,P(Y=0)表示当前交易为正常交易的概率。
优选地,步骤S101包括以下步骤:
S1011:提取历史交易:
从历史交易数据库中提取用户u截止当前日期的全部历史交易;
S1012:提取用户u的历史正常交易数据:
从步骤S1011获得的全部历史交易记录中提取出用户u的全部历史正常交易数据;
S1013:用户交易行为提取:
通过对用户u的历史正常交易数据进行处理,从交易金额、交易时间、交易地点进行分析,考虑用户交易变化情况,将得到用户u的自身交易行为TBu=(TARu,TACu,TIWu,TTRu,TFAu,TIPu,PTSu),式中:
TARu代表用户u交易金额属性;
TACu代表用户u交易金额变化属性;
TIWu代表用户u交易是否为工作日属性;
TTRu代表用户u交易时间属性;
TFAu代表用户u交易频率属性;
TIPu代表用户u交易IP属性;
PTSu代表用户u交易前一笔状态属性;
S1014:计算用户最佳风险阈值:
根据用户u的自身交易行为TBu和用户u历史全部交易,利用最佳风险阈值算法计算出用户u的最佳风险阈值Thresholdu
S1015:构建用户u的自身行为基准:
通过用户u的自身交易行为TBu和用户u的最佳风险阈值Thresholdu,构建出用户u的自身交易行为基准UBBu=[TBu,Thresholdu]。
优选地,步骤S102包括以下步骤:
S1021:提取全部历史交易
将步骤S1011中提取的全部历史交易作此处的数据输入;
S1022:利用DBSCAN进行聚类处理:
利用基于密度的聚类算法DBSCAN对历史全部交易中和欺诈交易和正常交易分别进行聚类处理,得到每一笔交易的类别,并为其打上标签{B1,…,BP}和{W1,…,WQ},{B1,…,BP}表示当前历史交易中欺诈交易分为P类,{W1,…,WQ}表示当前历史交易中正常交易分为Q类,记录如下:
Figure BDA0002369083560000071
式中,
Figure BDA0002369083560000072
表示记录交易的一种方式,表示当前交易编号为k1,该交易的用户为uj
Figure BDA0002369083560000073
表示当前交易编号为n,该交易的用户为ui,label表示交易类别,normal表示交易类别为正常交易,fraud表示交易类别为欺诈交易,target表示标签;
S1023:提取每一类交易行为:
对于算法得到的结果,按照欺诈属性以及类分别处理,得到P+Q个交易集合,记为TB1,…,TBP,TW1,…,TWQ,其中TB1,…,TBP属于欺诈交易,而TW1,…,TWQ属于正常交易,对于每一种交易集合,利用步骤S1013中的行为提取方法确定每一类交易的交易行为;
S1024:构建当前交易群体行为:
得到当前交群体的行为GBB=[TBB,FBB],其中TBB和FBB分别是正常交易行为矩阵和异常交易行为矩阵:
Figure BDA0002369083560000081
Figure BDA0002369083560000082
本发明设计一种针对低频用户个体行为建模与欺诈交易检测的方法,其针对低频用户交易量不足的问题,导致低频用户交易误判率较高的情况,提出一种低频交易的个体行为建模与欺诈检测方法。本发明的创新之处在于以下几点:一是发现了模型难以学习低频用户的行为特征,以及模型对低频用户误判较高的问题。二是提出了一种新的低频用户交易行为构建方法,利用聚类算法提取当前群体用户行为去补充低频用户行为,并且考虑当前交易状态,能够更加充分刻画低频用户的行为。三是提出一种基于朴素贝叶斯模型的检测方法,并且根据每种行为检测结果,将三种行为集合起来综合考虑,朴素贝叶斯公式判断当前交易是否属于欺诈交易。
附图说明
图1是针对低频用户提出的在线欺诈交易检测方法的整体框架,主要由用户新的行为构建和在线交易检测两个部份组成,其中用户新的行为构建由三个部分组成,分别是用户自身行为、当前群体行为和当前交易状态;
图2是本发明的具体流程图;
图3是用户新的行为构建的流程图;
图4是基于用户新行为的在线欺诈交易检测方法的流程图;
图5是在线交易模拟流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明提出一种新的低频用户行为构建和交易检测方法,通过迁移当前交易群体的共性行为去补充低频用户的交易行为。该方法由两个步骤组成,一是低频用户的个体交易行为构建方法,交易行为由三个部分组成:分别是用户自身行为、当前交易群体行为和当前交易状态。第二部分则是在此基础之上,提出一种基于朴素贝叶斯模型的检测方法,根据每种行为的结果利用朴素贝叶斯公模型算当前交易属于欺诈的概率,最终确定当前交易是否正常。
具体而言,本发明涉及的针对低频用户的在线交易欺诈检测模型主要包括以下两个部分内容:
(1)低频交易的个体行为建模。因为低频用户没有充足的历史交易记录,因此仅仅根据用户历史交易记录无法准确提取用户行为,所以需要从其他角度去丰富用户的交易行为。本发明从两个角度去丰富用户交易行为,一是通过当前交易群体行为去补充用户自身行为,二是计算当前交易状态。因此用户新的行为由三个部分组成,分别是用户自身交易行为、当前交易群体行为和当前交易状态。
(2)根据用户行为提出一种基于朴素贝叶斯模型的检测方法,该方法包括以下几个部分。一是利用用户自身行为给出对当前交易的判断结果,二是根据当前全体行为给出当前交易的检测结果,三是根据前两个结果和当前交易状态利用朴素贝叶斯模型计算当前交易属于欺诈和正常的概率,从而判断当前交易是否属于欺诈交易。
在针对低频用户交易检测模型中,关键技术在于如何丰富低频用户的交易行为和如何根据丰富后的新行为提出检测方案。主要在以下几点:一是如何构建个体行为模型,二是如何提出交易检测方案。针对上述问题,本发明提出一种新的低频交易的个体行为建模方法,通过迁移当前交易群体的共性行为去补充低频用户的交易行为。该方法由三个部分组成:一是考虑用户自身仅有的历史交易,结合最佳风险阈值确定算法,构成用户自身交易行为基准;二是通过DBSCAN聚类算法提取出当前所有黑样本与白样本的行为特征,构成当前交易群体共性行为;三是根据历史交易记录,利用滑动窗口机制提取交易变化行为,三者组合构成用户新的交易行为。在此基础之上,提出一种基于朴素贝叶斯模型的检测方法,根据每种行为的结果利用朴素贝叶斯公式计算当前交易属于欺诈的概率,最终确定当前交易是否正常。
根据上述思想,本发明的在线欺诈交易检测方法的框架如图1所示:
(1)低频交易的个体行为建模部分,在此部分中充分考虑了用户行为不足的情况,通过迁移当前交易群体的共性行为和当前交易状态共同构建低频用户胡新的交易行为。
S101:提取用户自身行为:
历史交易数据库中提取用户u的历史正常交易数据,从多个维度对用户u的历史正常交易数据进行处理,得到用户u的自身行为,再通过最佳风险阈值算法确定用户的最佳阈值,从而构建出用户u的自身行为基准UBBu
S102:提取当前交易群体行为:
对历史发生的全部交易进行处理,利用基于密度的聚类算法对历史正常交易和欺诈交易进行分类,得到若干类别。再分别对每一类别进行处理,得到当前若干条群体交易行为GBB。
S103:计算当前交易状态
根据历史发生的全部交易序列,提出滑动窗后机制,对交易序列进行聚合,得到历史交易状态序列,将交易状态序列中的均值作为临界值,记为历史交易状态临界值St
S104:构建用户新的行为
用户新的交易行为由用户自身行为基准、当前交易群体行为、当前交易状态祖正,用一个三元组表示,New_UBBu=(UBBu,GBB,St),将其存入用户行为基准库中。
用户新的交易行为New_UBBu=(UBBu,GBB,St)由三个部分组成,分别表示用户自身行为基准、当前交易群体行为和当前交易状态,则所述用户新的交易行为通过以下详细步骤得到。
S301:提取历史交易:
从历史交易数据库中提取截止当前日期的全部历史交易。
S302:提取该用户历史正常交易:
从全部历史交易记录中提取出所需要用户的全部正常交易。
S303:用户交易行为提取:
通过对用户历史交易记录进行处理,从交易金额、交易时间、交易地点等维度进行分析,考虑用户交易变化情况,将得到用户自身的交易行为TBu=(TARu,TACu,TIWu,TTRu,TFAu,TIPu,PTSu)。
TARu代表用户交易金额属性。
TACu代表用户交易金额变化属性。
TIWu代表用户交易是否为工作日属性。
TTRu代表用户交易时间属性。
TFAu代表用户交易频率属性。
TIPu代表用户交易IP属性。
PTSu代表用户交易前一笔状态属性。
S304:计算用户最佳风险阈值:
根据用户自身交易行为TBu和用户历史全部交易,利用最佳风险阈值算法计算出该用户的最佳风险阈值Thresholdu
S305:构建用户自身行为基准:
通过用户自身行为和用户最佳风险阈值,构建出用户自身交易行为基准UBBu=[TBu,Thresholdu],最为用户新的交易行为的第一部分。
S306:提取全部历史交易
将S301中提取的全部历史交易作此处的数据输入。
S307:利用DBSCAN进行聚类处理:
利用基于密度的聚类算法——DBSCAN对历史全部交易中和欺诈交易和正常交易分别进行聚类处理,将会得到每一笔交易的类别,并为其打上标签{B1,…,BP}和{W1,…,WQ},代表着当前历史交易中欺诈交易分为P类,正常交易分为Q类,记录如下:
Figure BDA0002369083560000111
S308:提取每一类交易行为:
对于算法得到的结果,本发明按照欺诈属性以及类分别处理,得到P+Q个交易集合,记为TB1,…,TBP,TW1,…,TWQ,其中TB1,…,TBP属于欺诈交易,而TW1,…,TWQ属于正常交易。对于每一种交易集合,利用S303中的行为提取方法确定每一类交易的交易行为。
S309:构建当前交易群体行为:
因此将得到当前交群体的行为GBB=[TBB,FBB],其中TBB和FBB分别是正常交易行为矩阵和异常交易行为矩阵。
Figure BDA0002369083560000121
Figure BDA0002369083560000122
S310:提取历史全部交易:
将S301中提取的全部历史交易作此处的数据输入。
S311:滑动窗口集合机制:
在t时刻的交易记为rt,在t时刻之前发生的交易序列记为Lt={r1,…,rt},设滑动窗口为h,长度为k,即nh=k,滑动窗口中交易序列记为Lht={rt-k,…,rt}。
S312:计算每一时刻的交易状态:
在t时刻的滑动窗口ht中,中提取出异常交易Fht={r∈Lht|label=fraud},其中
Figure BDA0002369083560000126
当前时间段内交易状态记为St,表示当前时间段中前k个交易中欺诈交易占据的比例,其计算方式如下所示:
Figure BDA0002369083560000123
S313:构建当前交易状态:
利用滑动窗口h对已经发生的全部交易集合
Figure BDA0002369083560000124
进行聚合,求出每一窗口中欺诈交易的占比,会得到n-nh个比值序列
Figure BDA0002369083560000125
将序列的均值作为历史交易状态的一个临界值Thresholds,若交易状态si大于这个临界值时,视si为异常状态,记为St=1,否则当前交易状态为正常状态,记St=0。
S314:构建用户新的行为基准:
通过上述工作,得到了用户的自身行为UBBu、当前交易群体行为GBB以及当前交易状态St。因此将补充后的低频用户行为用一个三元组表示,记为New_UBBu=(UBBu,GBB,St),存入用户行为基准库中。
(2)构建针对低频用户的欺诈检测模型,实现在线交易欺诈检测,根据用户行为基准(UBBu,GBB,St),提出一种新的欺诈检测模型,包括以下步骤:
S201:数据输入
将当前发生的交易依次输入检测模型中。
S201:提取用户行为基准
从用户行为基准库中提取当前用户的行为基准,作为检测模型的输入。
S203:构建检测模型
根据用户行为基准,构建一种新的检测模型,通过用户自身行为、当前群体行为和当前交易状态,分别给出对用户当前交易的判断结果,在利用贝叶斯模型根据结果计算当前交易属于欺诈的概率,若属于欺诈的概率大于属于正常的概率,则交易被拦截。
本发明提出一种基于朴素贝叶斯模型的检测方法,根据每种行为的结果利用朴素贝叶斯公式计算当前交易属于欺诈的概率,最终确定当前交易是否正常,具体步骤如下:
S401:输入当前交易:
将当前待检测交易作为输入进入检测模型中。
S402:提取用户行为基准:
从用户行为基准库中提取当前用户的行为基准New_UBBu
S403:提取用户自身交易行为:
从用户行为基准中提取用户自身交易行为基准UBBu,在其中取出用户自身交易行为TBu
S404:提取用户最佳风险阈值:
在用户自身交易行为基准中提取该用户最佳风险阈值Thresholdu
S405:计算用户交易结果:
根据超球体模型,将TBu作为多为空间中的一个点,将Thresholdu作为多维空间中的半径,将交易检测转化为多维空间中点的映射问题,利用以下公式去判断当前交易是否正常。
Figure BDA0002369083560000131
式中xi为用户当前交易ru映射到当前多维空间中点的每一个维度值,tbi为用户自身交易行为各个维度的值,上述公式将空间划分为两个部分,若f1(x)>0,说明当前交易不在用户正常行为空间中,记为欺诈交易,反之记为正常交易,因此得到用户当前交易结果URt
Figure BDA0002369083560000141
S406:提取当前群体行为:
从用户行为基准库中提取当前交易群体的行为基准GBB。
S407:与当前交易进行匹配:
对于当前进入系统中的交易ru,将其转化为矩阵rT=[x1,x2,x3,x4,x5,x6]。对于矩阵rT,利用公式计算该交易与正常行为TBB和异常行为FBB中每一条行为基准的偏离距离,将得到以下两个距离集合DTBB和DFBB,其中DTBB=[d1,…,dq],DFBB=[d1,…,dP]。之后将通过公式判断当前交易偏向那种行为,若交易更偏向黑样本行为,则该交易可疑程度较高。
Figure BDA0002369083560000142
上述公式代表计算当前交易与TBB和FBB中每一条行为基准之前的偏离距离。式中
Figure BDA0002369083560000143
代表当前交易转化为矩阵后的矩阵向量,
Figure BDA0002369083560000144
代表TBB或FBB中每一条行为的行为向量,其中1≤j1≤Q,1≤j2≤P。
S408:计算群体交易结果:
Figure BDA0002369083560000145
该公式代表当前交易倾向程度,式中第一部分为当前交易ru与异常行为的偏离程度均值,式中第二部分为当前交易ru与正常行为的偏离程度均值,两者之差为f2(x)。若f2(x)过于小,说明当前交易ru与黑样本的距离更近,可疑程度增加;反之,可疑程度降低。因此可以得到用户当前ru交易结果GRt,如下式所示,其中ThresholdG则是通过最佳风险阈值算法计算出的最佳阈值。
Figure BDA0002369083560000146
S409:提取当前交易状态:
从用户行为基准库中提取当前交易状态St
S410:计算历史交易状态:
利用滑动窗口h对已经发生的全部交易集合
Figure BDA0002369083560000151
进行聚合,求出每一窗口中欺诈交易的占比,会得到n-nh个比值序列
Figure BDA0002369083560000152
S411:得到交易状态结果:
将序列的均值作为历史交易状态的一个临界值ThresholdS,若交易状态si大于这个临界值时,视si为异常状态,记为St=1,否则当前交易状态为正常状态,记St=0。
S412:利用贝叶斯计算当前交易属于欺诈概率:
对于当前交易ru,根据用户自身行为和当前群体行为对此交易的判断结果URt和GRt,以及交易状态St,记输入x=(URt,GRt,St)。对于当前输入,利用一下公式计算交易ru属于欺诈交易概率P(Y=1|X=x)和正常交易的概率P(Y=0|X=x)。
Figure BDA0002369083560000153
Figure BDA0002369083560000154
若P(Y=1|X=x)>P(Y=0|X=x),交易ru属于欺诈交易,否则为正常交易。
本发明所述的针对低频用户的在线欺诈交易检测方法及系统可以应用到某银行等在线网络交易系统之中,本发明所述的方法得到了国内某行数据的实验验证,通过该模型方法实现了在线欺诈交易检测,具体过程如图5所示。
以国内某家主流银行提供的真实电子交易数据为例,数据均脱敏处理。数据集包含了三个月的B2C交易数据,其中包含92133个用户3502048条交易记录,每一笔交易记录都被银行打上了标签,白样本数据占交易数据集的96.82%,黑样本数据占交易数据集的1.86%,灰样本数据占交易数据集的1.32%。
S1:选取前两个月的数据做为训练集,用于构建检测模型,最后一个月的数据作为测试集,模拟实时交易场景,验证模型的性能;
S2:在前两个月的数据中,通过用户行为构建部分,分别构建用户自身交易行为、当前交易群体行为和当前交易状态,三者组合成用户新的交易行为,将其存入交易行为库中;
S3:根据用户新的交易行为,提出一种基于朴素贝叶斯模型的检测方法,根据每种行为的结果利用朴素贝叶斯公式计算当前交易属于欺诈的概率,最终确定当前交易是否正常;
S4:模拟测试实时交易数据输入建立好的检测模型之中,按照图5所示模拟交易流程进行交易检测,判断用户当前交易是否为欺诈交易。

Claims (3)

1.一种低频交易的个体行为建模与欺诈检测方法,其特征在于,包括以下步骤:
步骤1、用户行为提取,包括以下步骤
S101:提取用户自身行为:
从历史交易数据库中提取用户u的历史正常交易数据,从多个维度对用户u的历史正常交易数据进行处理,得到用户u的自身交易行为,再通过最佳风险阈值算法确定用户的最佳风险阈值,从而构建出用户u的自身行为基准UBBu
S102:提取当前交易群体行为:
对历史发生的全部交易进行处理,利用基于密度的聚类算法对历史正常交易和欺诈交易进行分类,得到若干类别,再分别对每一类别进行处理,得到当前若干条群体交易行为GBB;
S103:计算当前交易状态
根据历史发生的全部交易序列,提出滑动窗后机制,对交易序列进行聚合,得到历史交易状态序列,将交易状态序列中的均值作为临界值,记为历史交易状态临界值St,包括以下步骤:
S1031:提取历史全部交易:
从历史交易数据库中提取用户u截止当前日期的全部历史交易;
S1032:滑动窗口集合机制:
在t时刻的交易记为rt,在t时刻之前发生的交易序列记为Lt={r1,…,rt},设滑动窗口为h,长度为k,即nh=k,滑动窗口中交易序列记为Lht={rt-k,…,rt};
S1033:计算每一时刻的交易状态:
在t时刻的滑动窗口ht中,中提取出异常交易Fht={r∈Lht|label=fraud},其中,label表示交易的类别,fraud表示该交易属于欺诈交易;将当前时间段内交易状态记为St,表示当前时间段中前k个交易中欺诈交易占据的比例,其计算方式如下所示:
Figure FDA0002369083550000011
式中,
Figure FDA0002369083550000012
S1034:构建当前交易状态:
利用滑动窗口h对已经发生的全部交易集合
Figure FDA0002369083550000013
进行聚合,求出每一窗口中欺诈交易的占比,得到n-nh个比值序列
Figure FDA0002369083550000014
将比值序列的均值作为历史交易状态的一个临界值ThresholdS,若交易状态St大于这个临界值时,视St为异常状态,记为St=1,否则当前交易状态为正常状态,记St=0;
S104:构建用户u新的交易行为
用户新的交易行为由用户u的自身行为基准UBBu、当前群体交易行为GBB、历史交易状态临界值St组成,用一个三元组表示,则用户u新的交易行为New_UBBu=(UBBu,GBB,St),将其存入用户行为基准库中;
步骤2、根据行为用户u新的交易行为New_UBBu,构建针对低频用户的欺诈检测模型,包括以下步骤:
S201:数据输入
将当前待检测交易作为输入输入检测模型中;
S202:提取用户行为基准
从用户行为基准库中提取当前用户的行为基准New_UBBu,作为检测模型的输入;
S203:提取用户自身交易行为:
从用户的行为基准New_UBBu中提取用户自身交易行为基准UBBu,在其中取出用户自身交易行为TBu
S204:提取用户最佳风险阈值:
在用户自身交易行为基准中提取该用户最佳风险阈值Thresholdu
S205:计算用户交易结果:
根据超球体模型,将TBu作为多为空间中的一个点,将Thresholdu作为多维空间中的半径,将交易检测转化为多维空间中点的映射问题,利用以下公式去判断当前交易是否正常:
Figure FDA0002369083550000021
式中,xi为用户当前交易ru映射到当前多维空间中点的每一个维度值,tbi为用户自身交易行为各个维度的值,上述公式将空间划分为两个部分,f1(x)表示超球体模型的计算公式,若f1(x)>0,说明当前交易不在用户正常行为空间中,记为欺诈交易,反之记为正常交易,得到用户当前交易结果URt
Figure FDA0002369083550000031
S206:提取当前群体行为:
从用户行为基准库中提取当前交易群体的行为基准GBB;
S207:与当前交易进行匹配:
对于当前进入系统中的交易ru,将其转化为矩阵rT=[x1,x2,x3,x4,x5,x6],对于矩阵rT,利用公式计算该交易与正常行为TBB和异常行为FBB中每一条行为基准的偏离距离,得到以下两个距离集合DTBB和DFBB,其中DTBB=[d1,…,dq],DFBB=[d1,…,dP];之后通过公式判断当前交易偏向那种行为,若交易更偏向黑样本行为,则该交易可疑程度较高:
Figure FDA0002369083550000032
上述公式代表计算当前交易与TBB和FBB中每一条行为基准之前的偏离距离,式中
Figure FDA0002369083550000033
代表当前交易转化为矩阵后的矩阵向量,
Figure FDA0002369083550000034
代表TBB或FBB中每一条行为的行为向量,其中1≤j1≤Q,Q表示正常交易,1≤j2≤P,P表示欺诈交易;
S208:计算群体交易结果:
Figure FDA0002369083550000035
上公式代表当前交易倾向程度,式中
Figure FDA0002369083550000036
为当前交易ru与异常行为的偏离程度均值,式中
Figure FDA0002369083550000037
为当前交易ru与正常行为的偏离程度均值,两者之差为f2(x),若f2(x)过于小,说明当前交易ru与黑样本的距离更近,可疑程度增加;反之,可疑程度降低,得到用户当前ru交易结果GRt,如下式所示,其中ThresholdG则是通过最佳风险阈值算法计算出的最佳阈值:
Figure FDA0002369083550000038
S209:提取当前交易状态:
从用户行为基准库中提取当前交易状态St
S210:计算历史交易状态:
利用滑动窗口h对已经发生的全部交易集合
Figure FDA0002369083550000041
进行聚合,求出每一窗口中欺诈交易的占比,得到n-nh个比值序列
Figure FDA0002369083550000042
S211:得到交易状态结果:
将序列的均值作为历史交易状态的一个临界值ThresholdS,若交易状态St大于这个临界值时,视St为异常状态,记为St=1,否则当前交易状态为正常状态,记St=0;
S212:利用贝叶斯计算当前交易属于欺诈概率:
对于当前交易ru,根据用户自身行为和当前群体行为对此交易的判断结果URt和GRt,以及交易状态St,记输入x=(URt,GRt,St),对于当前输入,利用以下公式计算交易ru属于欺诈交易概率P(Y=1|X=x)和正常交易的概率P(Y=0|X=x):
Figure FDA0002369083550000043
Figure FDA0002369083550000044
若P(Y=1|X=x)>P(Y=0|X=x),交易ru属于欺诈交易,否则为正常交易,式中,P(X=x|Y=1)表示当前交易为欺诈交易时X=x的概率,P(Y=1)表示当前交易为欺诈交易的概率,P(X=x|Y=k)表示当前交易类别为k,正常或欺诈,时X=x的概率,P(Y=k)表示当前交易类别为k,正常或欺诈,的概率,P(X(j)=x(j)|Y=k)表示当前交易类别为k,正常或欺诈,时X中每一项出现概率的概率,P(X=x|Y=0)表示当前交易为正常交易时X=x的概率,P(Y=0)表示当前交易为正常交易的概率。
2.如权利要求1所述的一种低频交易的个体行为建模与欺诈检测方法,其特征在于,步骤S101包括以下步骤:
S1011:提取历史交易:
从历史交易数据库中提取用户u截止当前日期的全部历史交易;
S1012:提取用户u的历史正常交易数据:
从步骤S1011获得的全部历史交易记录中提取出用户u的全部历史正常交易数据;
S1013:用户交易行为提取:
通过对用户u的历史正常交易数据进行处理,从交易金额、交易时间、交易地点进行分析,考虑用户交易变化情况,将得到用户u的自身交易行为TBu=(TARu,TACu,TIWu,TTRu,TFAu,TIPu,PTSu),式中:
TARu代表用户u交易金额属性;
TACu代表用户u交易金额变化属性;
TIWu代表用户u交易是否为工作日属性;
TTRu代表用户u交易时间属性;
TFAu代表用户u交易频率属性;
TIPu代表用户u交易IP属性;
PTSu代表用户u交易前一笔状态属性;
S1014:计算用户最佳风险阈值:
根据用户u的自身交易行为TBu和用户u历史全部交易,利用最佳风险阈值算法计算出用户u的最佳风险阈值Thresholdu
S1015:构建用户u的自身行为基准:
通过用户u的自身交易行为TBu和用户u的最佳风险阈值Thresholdu,构建出用户u的自身交易行为基准UBBu=[TBu,Thresholdu]。
3.如权利要求2所述的一种低频交易的个体行为建模与欺诈检测方法,其特征在于,步骤S102包括以下步骤:
S1021:提取全部历史交易
将步骤S1011中提取的全部历史交易作此处的数据输入;
S1022:利用DBSCAN进行聚类处理:
利用基于密度的聚类算法DBSCAN对历史全部交易中和欺诈交易和正常交易分别进行聚类处理,得到每一笔交易的类别,并为其打上标签{B1,…,BP}和{W1,…,WQ},{B1,…,BP}表示当前历史交易中欺诈交易分为P类,{W1,…,WQ}表示当前历史交易中正常交易分为Q类,记录如下:
Figure FDA0002369083550000061
式中,
Figure FDA0002369083550000062
表示记录交易的一种方式,表示当前交易编号为k1,该交易的用户为uj
Figure FDA0002369083550000063
表示当前交易编号为n,该交易的用户为ui,label表示交易类别,normal表示交易类别为正常交易,fraud表示交易类别为欺诈交易,target表示标签;
S1023:提取每一类交易行为:
对于算法得到的结果,按照欺诈属性以及类分别处理,得到P+Q个交易集合,记为TB1,…,TBP,TW1,…,TWQ,其中TB1,…,TBP属于欺诈交易,而TW1,…,TWQ属于正常交易,对于每一种交易集合,利用步骤S1013中的行为提取方法确定每一类交易的交易行为;
S1024:构建当前交易群体行为:
得到当前交群体的行为GBB=[TBB,FBB],其中TBB和FBB分别是正常交易行为矩阵和异常交易行为矩阵:
Figure FDA0002369083550000064
Figure FDA0002369083550000065
CN202010045152.9A 2020-01-16 2020-01-16 低频交易的个体行为建模与欺诈检测方法 Active CN111242744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010045152.9A CN111242744B (zh) 2020-01-16 2020-01-16 低频交易的个体行为建模与欺诈检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010045152.9A CN111242744B (zh) 2020-01-16 2020-01-16 低频交易的个体行为建模与欺诈检测方法

Publications (2)

Publication Number Publication Date
CN111242744A true CN111242744A (zh) 2020-06-05
CN111242744B CN111242744B (zh) 2022-11-11

Family

ID=70871180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010045152.9A Active CN111242744B (zh) 2020-01-16 2020-01-16 低频交易的个体行为建模与欺诈检测方法

Country Status (1)

Country Link
CN (1) CN111242744B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001788A (zh) * 2020-08-21 2020-11-27 东北大学 一种基于rf-dbscan算法的信用卡违约欺诈识别方法
CN112906301A (zh) * 2021-02-18 2021-06-04 同济大学 金融交易的可信欺诈检测方法、系统、介质及终端
CN112967061A (zh) * 2021-03-02 2021-06-15 东华大学 具有交易性格的用户行为识别方法
CN114358922A (zh) * 2022-01-10 2022-04-15 中国银行股份有限公司 一种信用卡欺诈行为预测方法及装置
CN117934139A (zh) * 2024-01-29 2024-04-26 中国人民警察大学(公安部国际执法合作学院、中国维和警察培训中心) 基于Stacking融合算法的银行卡诈骗预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190028557A1 (en) * 2015-08-28 2019-01-24 Ankur MODI Predictive human behavioral analysis of psychometric features on a computer network
US10311442B1 (en) * 2007-01-22 2019-06-04 Hydrojoule, LLC Business methods and systems for offering and obtaining research services

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311442B1 (en) * 2007-01-22 2019-06-04 Hydrojoule, LLC Business methods and systems for offering and obtaining research services
US20190028557A1 (en) * 2015-08-28 2019-01-24 Ankur MODI Predictive human behavioral analysis of psychometric features on a computer network

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
董祥千等: "一种高效安全的去中心化数据共享模型", 《计算机学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001788A (zh) * 2020-08-21 2020-11-27 东北大学 一种基于rf-dbscan算法的信用卡违约欺诈识别方法
CN112001788B (zh) * 2020-08-21 2024-02-09 东北大学 一种基于rf-dbscan算法的信用卡违约欺诈识别方法
CN112906301A (zh) * 2021-02-18 2021-06-04 同济大学 金融交易的可信欺诈检测方法、系统、介质及终端
CN112906301B (zh) * 2021-02-18 2022-08-09 同济大学 金融交易的可信欺诈检测方法、系统、介质及终端
CN112967061A (zh) * 2021-03-02 2021-06-15 东华大学 具有交易性格的用户行为识别方法
CN114358922A (zh) * 2022-01-10 2022-04-15 中国银行股份有限公司 一种信用卡欺诈行为预测方法及装置
CN117934139A (zh) * 2024-01-29 2024-04-26 中国人民警察大学(公安部国际执法合作学院、中国维和警察培训中心) 基于Stacking融合算法的银行卡诈骗预测方法

Also Published As

Publication number Publication date
CN111242744B (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN111242744B (zh) 低频交易的个体行为建模与欺诈检测方法
CN110837931B (zh) 客户流失预测方法、装置及存储介质
CN112990294B (zh) 行为判别模型的训练方法、装置、电子设备及存储介质
CN109829721B (zh) 基于异质网络表征学习的线上交易多主体行为建模方法
CN111046184B (zh) 文本的风险识别方法、装置、服务器和存储介质
CN112581265A (zh) 一种基于AdaBoost的互联网金融客户申请欺诈检测方法
WO2019061664A1 (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
US11694208B2 (en) Self learning machine learning transaction scores adjustment via normalization thereof accounting for underlying transaction score bases relating to an occurrence of fraud in a transaction
CN110992041A (zh) 在线欺诈检测的个体行为超球体构建方法
CN110930242B (zh) 一种可信度预测方法、装置、设备和存储介质
EP4075363A1 (en) Self learning machine learning scores adjustment via normalization thereof
Reddy et al. CNN-Bidirectional LSTM based Approach for Financial Fraud Detection and Prevention System
Zhu et al. Sequential adversarial anomaly detection for one-class event data
CN114139931A (zh) 企业数据评估方法、装置、计算机设备及存储介质
CN111625555B (zh) 一种订单匹配方法、装置、设备及存储介质
CN111245815B (zh) 数据处理方法、装置、存储介质及电子设备
CN117575595A (zh) 支付风险识别方法、装置、计算机设备及存储介质
CN110766547A (zh) 一种可信度等级的确定方法、装置、设备和存储介质
CN116245630A (zh) 一种反欺诈检测方法、装置、电子设备及介质
CN115641198A (zh) 用户运营方法、装置、电子设备和存储介质
CN108629506A (zh) 风控模型的建模方法、装置、计算机设备和存储介质
US20220027916A1 (en) Self Learning Machine Learning Pipeline for Enabling Binary Decision Making
Wang Anti-Fraud Engineering for Digital Finance
Alamsyah et al. A stacking ensemble model with SMOTE for improved imbalanced classification on credit data
US11915313B2 (en) Using email history to estimate creditworthiness for applicants having insufficient credit history

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant