CN112488716B - 一种异常事件检测系统 - Google Patents

一种异常事件检测系统 Download PDF

Info

Publication number
CN112488716B
CN112488716B CN202011515832.9A CN202011515832A CN112488716B CN 112488716 B CN112488716 B CN 112488716B CN 202011515832 A CN202011515832 A CN 202011515832A CN 112488716 B CN112488716 B CN 112488716B
Authority
CN
China
Prior art keywords
data
user
abnormal event
behavior
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011515832.9A
Other languages
English (en)
Other versions
CN112488716A (zh
Inventor
张军欢
董海彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202011515832.9A priority Critical patent/CN112488716B/zh
Publication of CN112488716A publication Critical patent/CN112488716A/zh
Application granted granted Critical
Publication of CN112488716B publication Critical patent/CN112488716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/382Payment protocols; Details thereof insuring higher security of transaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Computer Hardware Design (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种异常事件检测系统,包括数据获取单元、集成转换单元、特征标签生成单元、业务规则单元、权重调整单元、验证单元以及规则确定单元。规则确定单元接收验证单元的输出结果,并根据输出结果生成AUC(Area Under Curve)曲线,规则确定单元根据AUC曲线确定业务规则单元的子单元,从而确定异常事件检测系统的技术状态,得到最优的异常事件检测系统。

Description

一种异常事件检测系统
技术领域
本发明涉及数据处理技术领域和移动支付安全领域,具体一种异常事件检测系统。
背景技术
随着智能移动终端不断发展和技术不断更新,以手机支付为主的移动金融产品正逐渐成为主流金融服务方式,并渗透到人们平日生活中衣食住行等各种方面,用户选择使用移动支付的原因是简单方便。2019年移动支付的用户数已经突破7亿,平均每天使用移动支付次数达到3.25次。用户认为在支付过程中遇到的安全问题排名第一位是个人信息被泄露,占比为80.3%;排名第二位是账户资金被盗用,占比为67.2%。移动支付的快速发展和巨大市场利润激发了支付领域新一波改革和发展浪潮,同时,移动支付作为一个快速发展的新兴支付手段,在风险防范等保障方面明显滞后,安全漏洞、技术风险等问题也日益突出。
发明内容
本发明旨在解决现有技术中移动支付的安全、技术风险问题。
为解决上述问题,本发明提供一种移动支付异常事件检测系统,同时采用业务规则模型和异常事件检测模型对用户行为操作数据进行风险检测,所述异常事件检测系统包括业务规则单元、验证单元、规则确定单元和用户画像检测单元,其中:
所述业务规则单元接收特征标签数据,所述特征标签数据为交易数据和行为数据,所述业务规则单元包括至少一个业务规则子单元,至少一个所述业务规则子单元根据所述特征标签数据输出异常事件检测结果;
所述验证单元接收至少一个所述异常事件检测结果,并根据所述异常事件检测结果得到与其对应的业务规则子单元的判断值;
所述规则确定单元根据所述判断值确定最优业务规则子单元。
用户画像检测单元,对所述行为数据进行画像检测,快速锁定嫌疑人,所述行为数据和用户行为习惯特征相关,由移动终端进行采集,所述用户行为习惯特征通过用户标签反映,所述用户标签信息生成和用户使用移动支付功能的时间、地点、操作行为以及功能点有关,采用如下公式生成:
用户标签信息=位置时间+设备指纹+用户信息+功能点+行为类型
为所述用户标签信息设置权重公式如下:
用户标签权重=操作行为权重*行为线性加权值*时间衰减值。
可选地,上述异常事件检测系统中:
所述判断值为AUC值。
可选地,上述异常事件检测系统中:
所述规则确定单元,将AUC值最高的所述业务规则子单元作为最优业务规则子单元。
可选地,上述异常事件检测系统还包括数据获取单元、集成转换单元和特征构建单元;
所述数据获取单元获取用户行为数据,并对所述用户行为数据中的重复数据、不完整数据和脏数据进行清洗得到清理数据;
所述集成转换单元接收所述清理数据,将不同数据源的清理数据整理、集成至一个统一的数据集;
所述特征构建单元接收所述数据集,根据所述数据集生成特征标签数据,并将所述特征标签数据输出至所述业务规则单元。
可选地,上述异常事件检测系统中:
所述业务规则单元包括三个所述业务规则子单元,三个所述业务规则子单元根据所述特征标签数据分别进行模型构建,所述模型包括LOF模型、孤立森林模型和XGBoost模型。
可选地,上述异常事件检测系统中:
所述业务规则单元包括三个所述业务规则子单元。
可选地,上述异常事件检测系统中:
所述特征标签数据包括交易信息数据和行为信息数据,所述交易信息数据包括操作类型、交易状态、订单信息中的至少一种,所述行为信息数据包括设备类型、设备信息、登陆时间中的至少一种。
本发明提供一种异常事件检测系统,采用数据处理模型结合业务规则模型进行最终风险判定,通过数据处理过程对模型进行训练,提升数据模型的精确度,当数据模型判断出现异常时再结合用户画像、业务规则子单元的异常事件检测结果作为最终结果,使得检测结果更加准确,支付更加安全。
附图说明
图1为本发明一个实施例所述的异常事件检测系统的结构示意图;
图2为本发明一个实施例中LOF模型ROC曲线;
图3为本发明一个实施例中iForest模型ROC曲线;
图4为本发明一个实施例中XGBoost模型ROC曲线;
图5为本发明一个实施例所述的异常事件检测模型训练方法的流程示意图;
图6为本发明一个实施例所述的异常事件检测方法的流程示意图;
图7为本发明一个实施例所述的电子设备的原理结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
如图1所示,本实施例提供一种异常事件检测系统,包括业务规则单元101、验证单元102和规则确定单元103,所述业务规则单元101接收特征标签数据,所述业务规则单元101包括至少一个业务规则子单元,至少一个所述业务规则子单元根据所述特征标签数据输出异常事件检测结果。所述验证单元102接收至少一个所述异常事件检测结果,并根据所述异常事件检测结果得到与其对应的业务规则子单元的判断值。所述规则确定单元103根据所述判断值确定最优业务规则子单元。本实施例根据判断值选择最优业务规则子单元的异常事件检测结果作为最终结果,使得检测结果更加准确,支付更加安全。
本实施例提供一种异常事件检测模型训练方法,如图2所示,可应用于电子设备中,具体包括:
S101,获取特征标签数据。
S102,利用所述特征标签数据训练基础模型,得到异常事件检测模型。
其中基础模型包括LOF模型、孤立森林模型和XGBoost模型中的至少一种。步骤S102中,具体包括:将特征标签数据随机分成K+1份,在K份数据中,K-1份作为训练集,1份作为验证集,第K+1份为测试集;在K份数据中,利用所述训练集训练所述基础模型得到待定模型,将所述验证集输入所述待定模型,得到第一判断值;执行上述步骤K次,得到K个所述第一判断值,若K个所述第一判断值的平均值大于设定阈值,则将所述测试集输入所述待定模型得到第二判断值;若所述第二判断值大于设定阈值,则将所述待定模型作为异常事件检测模型。其中第一判断值和第二判断值均为AUC值,所述设定阈值可设定为0.85-1之间的任意值。本实施例所述的训练方法,采用轮次的方式训练模型,并当AUC值大于设定阈值时又单独进行测试集的测试,使得模型更加准确。其中获取特征标签数据步骤中,具体包括获取用户行为数据,并对所述用户行为数据中的重复数据、不完整数据和脏数据进行清洗得到清理数据;将不同数据源的清理数据整理、集成至一个统一的数据集;根据所述数据集生成特征标签数据。
具体来说,用户行为数据可由移动应用客户端采集得到,如进行前端埋点采集,由于采集渠道和方式的不同,以及不同的渠道系统导致数据的一致问题突出,同时通过网络传输,存在数据重复传输、数据不完整等情况,脏数据需要处理清洗才能进入正式使用,即需要对所述用户行为数据中的重复数据、不完整数据和脏数据进行清洗得到清理数据。如果将脏数据直接使用会导致数据模型对训练数据的过拟合,使用正式测试数据或实际验证取得的效果往往达不到目标。所以为了保证模型的分析效果,对原始数据的清洗是第一步工作,数据清洗的具体工作包括:
(1)清除数据中无效的脏数据,主要删除那些来源无法一致、重复的或者确实严重无法恢复的数据;
(2)数据缺失值的修复,采集到的数据集通常都会出现数据缺失的问题,处理机制通常采用均值替换、删除、频数替换和虚拟替换几种策略;
(3)针对错误数据的需要进行纠正,修复此类数据可以采用均值填充的方式。
在得到清理数据后,需要把从多个数据源收集到的清理数据集整理到一起形成一个统一的数据集,主要是将存储在多数据库和多文件中的混杂数据、异构数据进行合并整合处理,统一语义解释,消除语义的模糊性。主要的工作是相关数据的选择、冲突数据的解决以及消除不一致数据,如字段中存在的字段名和含义不一致问题、数据统计单位不统一等问题。
进行数据集成的过程中,比较重要的数据比如交易数据和行为数据中都有的手机号字段、客户号字段、账户信息字段,因此必须将这些字段相统一。由于行为数据和交易数据是从不同数据源进行的获取,用户行为与交易数据中有着大量数据字段,提取出与当前应用模型不相关的数据,提高数据的质量。
将客户信息表、行为信息和业务交易信息三张表进行集成,得到一张总表,其中包含客户信息、交易信息和用户行为信息:
客户资料信息包括:性别、出生年月、学历、婚姻状况、职业、收入、家庭住址、账户类型、账户信息。
交易信息包括:账户信息、操作类型、交易金额、交易状态、订单信息等。
行为信息包括:设备类型、设备信息、操作渠道、登录时间、操作时间、联网方式、活跃时段、地理位置、IP地址等信息。
在用户行为分析的过程中,把单条的用户行为记录作为孤立的记录来看,无法体现用户的使用行为的连续性,考虑增加一些使用情况的统计字段,对交易数据和行为数据进行统计计算,增加用户标签字段信息:常驻地、日使用次数、操作偏好、消费额度区间、使用时段、使用频度、周期偏好等。
由于选取的数据分析模型参数只支持数值型属性,所以进行数据转换时需要将原有数据进行转换,非数值型字段必须进行数据规格化,将特征信息字段转换为对应的数字内容,达到可以进行数据分析的目的。数据转换常用的方法有:
Max-Min规范化:线性的将值转换到一个0-1的区间。最小值0,最大值,公式如下:
Z-score规范化:根据数据的均值和方差归一化,利用数据平均值的差除以数据的方差。特征标准化使得数据具有0均值(即当减去分子中的均值是)和标准方差,计算公式如下:
小数定标规范化:通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值,计算公式如下:
数据特征构建
数据特征构建是将分散在原始的数据集不同字段中的信息加以组合,找出有意义、有价值的数据特征,这个是需要找出的数据特征也存在隐含的知识和联系,通常属性数据的分割和合并也是常用的构建数据特征的方法,具有关联性的数据可以进行组合形成新的特征,也可以把时间相关的数据特征进行分类构建,获取到的数据的转换策略表如下:
表1数据转换策略
经过数据转换,得到一个包含多项属性的数据样本集(表中所列为部分属性,并不能作为属性种类的限定)。其中,最后一项″欺诈交易″项作为类标签,对应于支持模型输出y。当数据不平衡时,可采用包括欠抽样和过抽样两种方式,欠抽样是通过删除正样本来降低数据集的比例,使数据集达到平衡;过抽样的方法是通过增加负样本的数量来使数据集达到平衡。或者采用合成少数过采样技术,通过使用线性方式生成新的样本的方式来为负样本合成新的样本,从负样本中随机获取一个数据子集后接着创建类似的新生成的数据,新生成的数据被加入原有的数据集中,以有效解决使用简单随机抽样造成的过拟合现象。
本实施例中,异常事件检测模型可选用多种,如逻辑回归模型、决策树模型、GBDT模型等,除此之外,还可包括LOF模型、孤立森林模型以及XGBoost模型等。
LOF模型
群体性行为往往表现出极大的共性,利用聚类模型可以将共性的群体划分到同一集合中。针对个人的多项涉及交易的行为,借助交易时间、频度、额度信息等,抽取相应的维度,进行K-Means聚类,公共群体即可归到同一集合;进而根据距离过滤各集合的数据集;然后对过滤出的数据集通过局部离群因子LOF(Local Outlier Factor)模型进行细化识别,即可得到异常的行为记录。
LOF算法原理是通过比较每个点p和相邻近域点的密度来判断该点是否属于异常:点p的密度越低,异常点的可能性就越大。而点的密度是通过计算点之间的距离得到的,点之间距离越远,则密度越低;距离越近,表示密度越高。也就是说,LOF算法中点的密度是通过计算点的k邻域得到的,而不是通过全局计算得到,这里的″k邻域″也就是该算法中″局部″的概念。LOF模型的相关计算步骤如下:
(1)d(p,o),两点p和o之间的距离;
(2)计算第k距离,对于点p的第k距离dk(p)定义dk(p)=d(p,o),并且满足:在集合中至少有不包括p在内的k个点o′∈C{x≠p},满足d(p,o′)≤d(p,o);在集合中最多有不包括p在内的k-1个点o′∈C{x≠p},满足d(p,o′)≤d(p,o);p的第k距离,也就是距离p第k远的点的距离,不包括p。
(3)第k距离邻域,点p的第k距离邻域Nk(p),就是p的第k距离即以内的所有点,包括第k距离。因此p的第k邻域点的个数|Nk(p)|≥k。
(4)计算可达距离,点o到点p的第k可达距离定义为:
reach-distanceK(p,o)=max{k-distance(o),d(p,o)}
(5)计算每个点局部可达密度,点p的局部可达密度表示为:
表示点p的第k邻域内点到p的平均可达距离的倒数。
(6)计算每个点的局部离群因子,点p的局部离群因子表示为:
表示点p的邻域点Nk(p)的局部可达密度与点p的局部可达密度之比的平均数。
因此,LOF将样本点p的局部密度定义为第k个最近邻居的距离的倒数。
孤立森林模型
孤立森林(Isolation Forest)算法是一种适用于连续数据的无监督异常检测方法,通过对样本点的孤立来检测异常值。具体来说,该算法利用一种名为孤立树iTree的二叉搜索树结构来孤立样本。由于异常值的数量较少且与大部分样本的疏离性,因此,异常值会被更早的孤立出来,也即异常值会距离iTree的根节点更近,而正常值则会距离根节点有更远的距离。
先给出孤立树(Isolation Tree)和样本点x在孤立树中的路径长度h(x)的定义。该算法大致可以分为两个阶段:
第一个阶段:训练出t颗孤立树,组成孤立森林。随后将每个样本点带入森林中的每棵孤立树,计算平均高度,之后再计算每个样本点的异常值分数。
Step1:X={x1,...,xn}为给定数据集,xi=(xi1,...,xid)从X中随机抽取个样本点构成X的子集X′放入根节点。
Step2:从d个维度中随机指定一个维度q,在当前数据中随机产生一个切割点p,min(xij,j=q,xij∈X′)<p<max(xij,j=q,xij∈X′)。
Step3:此切割点p生成了一个超平面,将当前数据空间划分为两个子空间:指定维度小于p的样本点放入左子节点,大于或等于p的放入右子节点。
Step4:递归Step2和Step3,直至所有的叶子节点都只有一个样本点或者孤立树(iTree)已经达到指定的高度。
Step5:循环Step1至Step4,直至生成t个孤立树(iTree)。
第二阶段:对于每一个数据点xi,令其遍历每一颗孤立树(iTree),计算点xi在森林中的平均高度h(xi),对所有点的平均高度做归一化处理。异常值分数的计算公式如下所示:
其中:
XGBoost模型
XGBoost(Extreme Gradient Boosting)是一种构建分类模型的Boosting集成提升方法,其基本原理是通过串行迭代的方式生成多棵分类回归树(CART树),满足判别标准时停止迭代,用所有CART树叶子结点的预测分数加和得到对样本的预测总分数。
对于包含N个节点的给定训练集
XGBoost算法每轮训练生成一棵新的CART树fi(x),经过K轮训练后,组成决策树集合F={f1(x),f2(x),f3(x),...fK(x)}。在每棵树中,所有样本被根据属性值引入分隔,从而分配到不同的叶子结点。每个样本对应着其所在叶子结点的分数ftj(j表示树中叶子结点的编号),ftj在每次迭代中得到求解和优化。迭代结束后,对于给定样本,K棵树中预测分数的总和即为最终预测结果。该过程形式化表示如公式,其中Yi表示对xi的预测结果,ft(xi)为每棵树对xi的预测分数,F表示所有CART树的集合。
XGBoost模型的总体目标函数构造如公式:
XGBoost模型是梯度提升树模型的一种,同样是串行地生成模型,取所有模型的和为输出。
模型的训练采用K折交叉验证的方式,将特征标签数据随机分成数据量相近的K+1份数据,在K份数据中,K-1份作为训练集使用,1份作为验证集使用。重复K轮后,根据得到的模型性能进行平均后进行评价,同时调节参数进行调优,这样的目的是可以使模型经过更多的样本测试从而得到最优的数值。最后基于最优参数在全部训练集上重新进行模型训练,使用独立的K+1份数据测试集来做出最终的评价。通常情况下根据数据量设定K值,如果数据量小,则K值应该设置较大,这样的模型最后的效果要比单一数据测试好;如果数据量大,则K值应设置相对小,这样能模型的评估效果更均衡。本申请的数据集数据量相对较小,将K值设置为10。
在分类型模型评判的指标中,常见的方法有如下三种:混淆矩阵(ConfusionMatrix)、ROC曲线和AUC面积。
混淆矩阵是评判模型结果的指标,模型最终需要判断样本的结果是0还是1,或者说是positive还是negative。通过样本的数据和模型结果,能得到这样四个基础指标:
TP:true positive(被正确分类的正例)
FN:false negative(本来是正例,错判为负例)
TN:true negative(被正确分类的负例)
FP:false positive(本来是负例,被错判为正例)
这四个指标一起呈现在表格中,就能得到如下这样一个矩阵,我们称它为混淆矩阵,如表2所示:
表2混淆矩阵
训练集和测试集分别对模型进行测试我们称之为交叉验证。同时使用训练集和测试集进行模型的建立与测试,如果在两个集合上模型的表现存在比较明显的差异的话,那么可能存在过拟合等问题,就需要怀疑模型的稳健性。为评估模型的优劣,在混淆矩阵的基础上增加了多种测评指标,包括召回率、精确率、准确率、F1,相关指标计算公式如表3所示:
表3模型评价指标
ROC(Receiver Operating Characteristic Curve)接受者操作特性曲线,简称ROC曲线,又称为感受性曲线(Sensitivity Curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,接受者操作特性曲线就是以假正例率FPR为横轴,真正例率TPR为纵轴所组成的坐标图,和被试在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线。AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个模型的效果更好,而作为一个数值,对应AUC更大的模型效果更好。
通过上述K折交叉验证,得到LOF模型的最优参数如下:
离样本点p的距离:n_neighbors=60
内部算法实现:algorithm=′auto′
叶节点规模:leaf_size=30
样本中异常点比例:contamination=0.1
度量距离方法:metric=minkowski
闵氏距离各种不同的距离参数:p=2
得到孤立森林模型的最优参数如下:
学习率:learning_rate=0.1
构建树的个数:n_estimators=15
采样数:max_samples=256
是否替换采样:bootstrap=True
混合度:Contamination=0.1
得到XGBoost模型的最优参数如下:
学习率:learning_rate=0.1
构建树的深度:max_depth=15
生成树时进行的列采样:colsample_bytree=0.7
控制模型复杂度的权重值:reg_lambda=0.8
树的个数:n_estimators=400。
本申请采用10折交叉验证(10-fold cross-validation)的方式对样本数据集进行评估,10折交叉验证是将整个数据集划分为10个大小相似的互斥子数据集。每个子数据集都尽可能保持数据分布的一致性。之后轮流用其中9个子数据集的并集作为训练集,余下的1个子数据集作为测试集,最终的测试评估结果是这10次测试评估结果的均值。交叉验证的目的是为了对测试评估结果更有稳定性和准确性,最终各个模型验证得到的混合矩阵见下表4-6所示:
表4LOF混淆矩阵
表5iForest混淆矩阵
表6XGBoost混淆矩阵
最终各个模型验证的效果如下表7所示:
表7模型验证结果
对应得到的ROC曲线如图3-5所示。AUC(Area Under ROC Curve)越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个模型的效果更好,而作为一个数值,对应AUC更大的模型效果更好。根据AUC值确定最优模型。
AUC是对机器学习模型的一种性能度量,其直观的意义是ROC(ReceiverOperating Characteristic)围成的面积。有了混淆矩阵的概念以及对测试集上样本分类的概念之后,我们就可以绘制ROC曲线,在某个阈值下进行分类得到TP、FN、FP、TN,计算真正例率TPR(True Positive Rate)和假正例率FPR(False Positive Rate)。
TPR的直观理解就是在所有正例中被模型预测为正例的样本所占比率,FPR就是在所有反例中被模型误判为正例的样本所占比率,例如在所有10个正例样本,4个被判定为正例,6个被判定为反例,于是有4个真正例,则TPR=0.4,在所有10个反例样本中,3个被判断为正例,7个被判断为反例,于是有3个假反例,则FPR=0.3。针对不同的阈值k,我们都有一个点(FPRk,TPRk),于是以FPR为横坐标,TPR为纵坐标,将所有的点画在坐标系上,我们就能得到ROC曲线。AUC是ROC曲线与x轴围成的面积,越大说明分类器的效果越好。以下公式中,D+为所有正例组成的集合,x+是其中的一个正例,D-为所有反例组成的集合,x-是其中的一个反例,f(x)是模型对样本x的预测结果,在0-1之间,W(x)仅在x为真时取1,否则取0。计算公式为:
利用AUC评价模型效果时,当AUC值小于0.85时,模型效果一般,因此需要对模型重新进行训练。
本实施例提供一种异常事件检测方法,即利用上述训练后的异常事件检测模型进行用户操作的检测,如图6所示,可应用于电子设备中,具体包括:
S201,获取用户的行为操作数据。
S202,利用规则模型对所述行为操作数据进行风险评分。
S203,当所述风险评分大于风险设定阈值时,将所述行为操作数据输入所述异常事件检测模型,得到异常事件检测结果。
S204,当异常事件检测结果为异常时,则将所述行为操作数据输入画像检测模型中,得到欺诈嫌疑对象。
该方法通过规则模型和异常事件检测模型同时对用户行为操作数据进行风险检测,使得检测结果更加准确,同时当存在风险时,对行为操作数据进行画像检测,能更快速地锁定嫌疑人。其中风险设定阈值可根据经验设定。
通过对主要交易场景的业务数据进行分析,形成具有指导意义的专家业务规则,根据不同的业务场景的系统风控要求,配置对应的规则模型,对业务活动或者交易进行实时风险评分。
规则模型包括各种各样的业务规则,都是基于已有的业务经验进行的分析总结,常用有如下的规则:
设备规则:交易使用的设备是否有风险。当发生使用模拟器进行交易、设备信息被篡改、使用代理、设备越狱或ROOT等试图绕过风险识别的情况时,通过设备类规则可以进行有效识别和防控;
黑白名单规则:设备信息、用户账号、IP地址是否在对应的黑白名单中;
操作统计规则:根据用户的操作行为触发的设定的操作阈值的限制性规则,例如单一设备开通使用的用户数超过阈值;多个设备短期内的IP地址相同等。
业务关联规则:业务关联规则指的用户操作的行为存在异常关联关系,比如修改手机号后通过手机号进行密码重置,然后进行大额交易等异常业务行为等;业务关联规则主要与设置类操作紧密相关,例如修改手机号、重置密码、更换设备、修改密码、修改敏感信息等。
操作异常规则:操作异常是指用户的异常行为形成的限制性规则。比如,同一设备短期内进行不同账户间的进行频繁的登陆转账操作。
用户习惯规则:分析用户使用的智能设备、常驻地址、常用浏览器,用户行为是否符合原有的行为习惯。
地理位置规则:同一用户在短时间内是否可达两个地理位置,计算时段内的移动距离和速度。
基于业务规则的异常检测模型使用规则学习来检测异常值。使用规则学习的目标是生成一个尽可能全面覆盖的规则样例集,最直接的方法是使用序贯覆盖的模式。通过在训练集上每覆盖一条规则,就将该规则的训练样例去除掉,然后以剩下的训练样例组成训练集再重复以上过程。由于每次只处理一部分规则和数据,因此也称为分治策略。依赖于专家知识库设计异常检测规则,并进行有效组合。当一条交易信息触碰某条规则的时候,根据该条规则的重要性给出合适的风险得分,如果触碰多条规则,则根据设计的算法进行加权,得出该条交易的最终风险得分。专家规则需要支持可扩展,规则权重支持动态调整。
画像检测模型,在设备硬件信息和行为数据的基础上,使用聚类和关联模型进行分析,将用户的操作行为,例如每次登陆后的功能使用顺序以及针对功能的偏好、操作的时间周期等分类,利用交易类型、渠道、位置、时段、额度、频度等信息,建立基于位置、域控、使用习惯等维度的个性化用户画像。分析欺诈用户的共同行为特征,提取用户行为数据的特征变化,构建画像检测模型。用户的操作行为包括用户标识的主体、用户操作的具体时间信息、用户的操作时间长度、用户操作时的位置信息(包括IP地址、地理位置信息)、用户操作的功能接触点(定位到具体某个页面/屏幕的功能按钮,或者某个产品的特定页面)以及用户的行为操作类型(包括系统注册、登陆、浏览查询、加入购物车、支付订单、添加收藏、取消订单等操作)。用户画像的数据标签,可以用以下公式生成:
用户标签信息=位置时间+设备指纹+用户信息+功能点+行为类型
可以理解为用户的标签信息生成和用户使用移动支付功能的时间、地点、操作行为以及功能点有关,用户标签可以反映用户的行为习惯特征。同时可以给用户的标签设置权重值,可以定义为用户的操作内容决定了标签的属性,操作的功能点以及行为决定了标签的权重,同时标签的权重值会随着时间的延长而衰减。用户标签权重的计算公式为:
用户标签权重=操作行为权重*行为线性加权值*时间衰减值
不同的行为对风险的贡献不一样,用词给予不同的行为不同的行为权重,如转账的权重应该大于修改信息的权重。不同行为随着时间的衰减程度也不一样,贡献大的行为随时间衰减的慢,对比修改信息,消费行为的影响随时间消逝的比较慢,关于业务动作的权重设置,采用专家经验打分,设置权重值。
根据用户的行为数据,可以生成用户行为特征指标,具体指标定义如下:
用户性别、手机号、是否新注册用户、用户年龄段、联网方式、常用时段、使用时长、使用偏好、是否常用区域、系统运营商、是否常用设备、用户行为序列、操作步骤数。
同时可以提取基于IP地址、手机号、邮箱、地址等风险画像,包含薅羊毛、垃圾注册等多累标签,全方位刻画欺诈分子画像,在追踪欺诈分子、欺诈团伙,识别新型作弊手段方面具有优势,根据IP历史上发生的欺诈行为、风险行为分析得出的标签,分析归属地、网络类型、代理、秒拨,以及业务沉淀的风险标签,有效识别在特定的业务场景中垃圾注册、刷单、薅羊毛、垃圾短信风险;通过分析手机号的基本属性、手机号历史上发生的风险行为、关联设备发生的风险行为等,对一个手机号进行综合评价,能有效识别虚假号码在业务场景中对风险行为有效拦截。
通过用户行为数据分析和指标提取,形成个性化的用户画像标识,标注用户特征,可以更好地识别客户,系统风控行为更加合理,用户画像标签有:用户性别、年龄段、常驻地、操作偏好、消费额度区间、使用时段、使用频度、周期偏好。
本实施例提供一种计算机可读存储介质,所述存储介质中存储有程序指令,计算机读取所述程序指令执行上述异常事件检测模型训练方法和/或异常事件检测方法。
本实施例提供一种电子设备,如图7所示,其包括至少一个处理器201;以及,与所述至少一个处理器201通信连接的存储器202;其中,所述存储器202存储有可被所述一个处理器201执行的指令,所述指令被所述至少一个处理器201执行,以使所述至少一个处理器201能够执行上述异常事件检测模型训练方法和/或异常事件检测方法,并且具备执行该方法相应的有益效果。
图7中以一个处理器201为例,电子设备还可以包括:输入装置203和输出装置204。处理器201、存储器202、输入装置203和输出装置204可以通过总线或者其他方式连接,图7中以通过总线连接为例。
最后应说明的是,以上所述仅为本发明的优选实施例,并不能限制本发明,尽管参照前述实施例对本发明进行了详尽的说明,对本领域技术人员而言,其依然可以对前述实施例所记载的方案进行修改,或对其中部分技术特征进行等同替换。凡在本发明的精神和原则范围之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种移动支付异常事件检测系统,其特征在于,同时采用业务规则模型和异常事件检测模型对用户行为操作数据进行风险检测,所述异常事件检测系统包括业务规则单元、验证单元、规则确定单元和用户画像检测单元,其中:
所述业务规则单元接收用户触发操作产生的特征标签数据,所述特征标签数据为交易数据和行为数据,所述业务规则单元包括至少一个业务规则子单元,至少一个所述业务规则子单元利用所述业务规则模型对所述行为数据进行风险评分,当所述风险评分大于风险设定阈值时,将所述行为数据输入异常事件检测模型,输出异常事件检测结果;
所述验证单元接收至少一个所述异常事件检测结果,并根据所述异常事件检测结果得到与其对应的业务规则子单元的判断值;
所述规则确定单元根据所述判断值确定最优业务规则子单元;
用户画像检测单元,对所述行为数据进行画像检测,快速锁定嫌疑人,所述行为数据和用户行为习惯特征相关,由移动终端进行采集,所述用户行为习惯特征通过用户标签反映,所述用户标签信息生成和用户使用移动支付功能的时间、地点、操作行为以及功能点有关,采用如下公式生成:
用户标签信息=位置时间+设备指纹+用户信息+功能点+行为类型
为所述用户标签信息设置权重公式如下:
用户标签权重=操作行为权重*行为线性加权值*时间衰减值。
2.如权利要求1所述的异常事件检测系统,其特征在于:
所述判断值为AUC值。
3.如权利要求2所述的异常事件检测系统,其特征在于:
所述规则确定单元,将AUC值最高的所述业务规则子单元作为最优业务规则子单元。
4.如权利要求2所述的异常事件检测系统,其特征在于,还包括数据获取单元、集成转换单元和特征构建单元;
所述数据获取单元获取用户行为数据,并对所述用户行为数据中的重复数据、不完整数据和脏数据进行清洗得到清理数据;
所述集成转换单元接收所述清理数据,将不同数据源的清理数据整理、集成至一个统一的数据集;
所述特征构建单元接收所述数据集,根据所述数据集生成特征标签数据,并将所述特征标签数据输出至所述业务规则单元。
5.如权利要求1所述的异常事件检测系统,其特征在于:
所述业务规则单元包括三个所述业务规则子单元,三个所述业务规则子单元根据所述特征标签数据分别进行模型构建,所述模型包括LOF模型、孤立森林模型和XGBoost模型。
6.如权利要求1-5任一项所述的异常事件检测系统,其特征在于:
所述业务规则单元包括三个所述业务规则子单元。
7.如权利要求1-5任一项所述的异常事件检测系统,其特征在于:
所述特征标签数据包括交易信息数据和行为信息数据,所述交易信息数据包括操作类型、交易状态、订单信息中的至少一种,所述行为信息数据包括设备类型、设备信息、登陆时间中的至少一种。
CN202011515832.9A 2020-12-21 2020-12-21 一种异常事件检测系统 Active CN112488716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011515832.9A CN112488716B (zh) 2020-12-21 2020-12-21 一种异常事件检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011515832.9A CN112488716B (zh) 2020-12-21 2020-12-21 一种异常事件检测系统

Publications (2)

Publication Number Publication Date
CN112488716A CN112488716A (zh) 2021-03-12
CN112488716B true CN112488716B (zh) 2023-08-01

Family

ID=74914934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011515832.9A Active CN112488716B (zh) 2020-12-21 2020-12-21 一种异常事件检测系统

Country Status (1)

Country Link
CN (1) CN112488716B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700252B (zh) * 2021-03-25 2021-07-27 腾讯科技(深圳)有限公司 一种信息安全性检测方法、装置、电子设备和存储介质
CN113641772B (zh) * 2021-08-12 2024-01-12 亿景智联(苏州)科技有限公司 一种海量地理数据异常检测场景中的检测方法
CN113762976A (zh) * 2021-09-15 2021-12-07 中国银行股份有限公司 诈骗短信的识别方法、装置、电子设备及计算机存储介质
CN115409433B (zh) * 2022-11-02 2023-04-07 成都宏恒信息科技有限公司 基于深度nlp的社区重点人员画像分析方法及装置
CN115860579B (zh) * 2023-02-27 2023-05-09 山东金利康面粉有限公司 一种用于面粉加工的生产质量监测系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109509093A (zh) * 2018-10-18 2019-03-22 中信网络科技股份有限公司 一种基于主体画像的交易安全控制方法及系统
CN111768285A (zh) * 2019-04-01 2020-10-13 杭州金智塔科技有限公司 信贷风控模型构建系统、方法、风控系统及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109509093A (zh) * 2018-10-18 2019-03-22 中信网络科技股份有限公司 一种基于主体画像的交易安全控制方法及系统
CN111768285A (zh) * 2019-04-01 2020-10-13 杭州金智塔科技有限公司 信贷风控模型构建系统、方法、风控系统及存储介质

Also Published As

Publication number Publication date
CN112488716A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN112488716B (zh) 一种异常事件检测系统
US11528290B2 (en) Systems and methods for machine learning-based digital content clustering, digital content threat detection, and digital content threat remediation in machine learning-based digital threat mitigation platform
CN109033200B (zh) 事件抽取的方法、装置、设备及计算机可读介质
CN107633444B (zh) 基于信息熵与模糊c均值聚类的推荐系统噪声过滤方法
JP4920023B2 (ja) オブジェクト間競合指標計算方法およびシステム
Bologa et al. Big data and specific analysis methods for insurance fraud detection.
CN111612038B (zh) 异常用户检测方法及装置、存储介质、电子设备
CN111614690A (zh) 一种异常行为检测方法及装置
Rathore et al. Identifying groups of fake reviewers using a semisupervised approach
CN110781308A (zh) 一种基于大数据构建知识图谱的反欺诈系统
CN105488211A (zh) 基于特征分析的用户群确定方法
CN106803039B (zh) 一种恶意文件的同源判定方法及装置
CN108319672A (zh) 基于云计算的移动终端不良信息过滤方法及系统
CN114692593B (zh) 一种网络信息安全监测预警方法
Bhati et al. A new ensemble based approach for intrusion detection system using voting
CN108830106A (zh) 一种隐私数据提供方法及装置
Sharma et al. Construction of large-scale misinformation labeled datasets from social media discourse using label refinement
CN112685272B (zh) 一种具备可解释性的用户行为异常检测方法
CN111277433B (zh) 基于属性网络表征学习的网络服务异常检测方法及装置
CN105589935A (zh) 社交群组识别方法
Khatun et al. Data mining technique to analyse and predict crime using crime categories and arrest records
CN117240632A (zh) 一种基于知识图谱的攻击检测方法和系统
CN113010884A (zh) 一种入侵检测系统中的实时特征过滤方法
CN115392351A (zh) 风险用户识别方法、装置、电子设备及存储介质
CN114519605A (zh) 广告点击欺诈检测方法、系统、服务器和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant