CN113129028A - 一种基于时序神经网络模型的欺诈用户检测系统 - Google Patents
一种基于时序神经网络模型的欺诈用户检测系统 Download PDFInfo
- Publication number
- CN113129028A CN113129028A CN202010030012.4A CN202010030012A CN113129028A CN 113129028 A CN113129028 A CN 113129028A CN 202010030012 A CN202010030012 A CN 202010030012A CN 113129028 A CN113129028 A CN 113129028A
- Authority
- CN
- China
- Prior art keywords
- user
- behavior
- data
- neural network
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003062 neural network model Methods 0.000 title claims abstract description 39
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000010295 mobile communication Methods 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000000694 effects Effects 0.000 claims abstract description 7
- 238000004891 communication Methods 0.000 claims abstract description 5
- 238000012937 correction Methods 0.000 claims abstract description 3
- 230000006399 behavior Effects 0.000 claims description 81
- 238000000034 method Methods 0.000 claims description 32
- 238000002156 mixing Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 12
- 238000012952 Resampling Methods 0.000 claims description 11
- 238000007637 random forest analysis Methods 0.000 claims description 11
- 238000003066 decision tree Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000004880 explosion Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 239000000284 extract Substances 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于时序神经网络模型的欺诈用户检测系统,包括:处理模块,用于面向用户上网行为的数据处理;提取模块,基于历史通话行为数据的特征提取;检测模块,基于时序神经网络模型的欺诈用户检测;修正模块,用于欺诈用户检测及修正。本发明的有益效果为:本发明考虑了用户上网行为序列和移动通话用户网络的拓扑关联,充分利用了用户历史上网行为、用户通话行为、用户地理位置等数据,提出了一种基于时序神经网络模型的欺诈用户检测方法,有效提升了预测效果。
Description
技术领域
本发明涉及互联网金融领域反欺诈领域,具体来说,涉及一种基于时序神经网络模型的欺诈用户检测系统。
背景技术
随着互联网的发展和普及,与互联网相结合的新兴产业也呈现出快速发展的态势。尤其是近年出现的互联网金融行业发展更是迅速。与此相伴的各种互联网金融平台和互联网金融系统也应运而生,蓬勃发展。像P2P互联网金融平台、众筹金融平台、电商小贷互联网金融平台、供应链金融互联网金融平台等等,这些平台对于优化金融游资配置,提高游资配置效率,解决中小企业融资难、融资贵的问题和中低收入散户的资产配置问题都起到了一定的积极作用。由于互联网金融平台的风险控制体系不规范、欺诈用户识别模块效果不佳,就给了“黑产”伪装成正常用户的机会。“黑产”借此来欺诈互联网金融平台,造成平台的巨大损失。
目前传统的欺诈用户识别方法大致可分为逻辑回归、GBDT、GBDT+LR 三类。上述模型将用户属性信息视为对象,将用户欺诈与否视为预测变量,提取用户年龄、用户职业情况、用户年平均收入、用户固定资产数额、以及分箱后的weight of evidence值等作为特征,然后选择随机森林、支持向量机、神经网络等构建模型。概括而言,现有方法主要基于客户的信用属性和基于专家经验的构造特征训练模型。然而,在互联网金融领域,存在着大量用户上网行为数据和通话行为数据。这些数据组成部分复杂,且所包含的信息量巨大,有产品页面停留时间、国际移动设备识别码、产品查看停留时间、IP地址、地理位置等等。面对这么大量且复杂的数据,传统的机器学习模型要想取得更好的效果,不仅需要耗费大量的时间和人力物力进行数据分析进而生成特征,而且也无法有效地学习用户行为之间的关联信息。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种基于时序神经网络模型的欺诈用户检测系统及其挖掘方法,以克服现有相关技术所存在的上述技术问题。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种基于时序神经网络模型的欺诈用户检测系统,包括:
处理模块,用于面向用户上网行为的数据处理;
提取模块,基于历史通话行为数据的特征提取;
检测模块,基于时序神经网络模型的欺诈用户检测;
修正模块,用于欺诈用户检测及修正。
优选的,上述面向用户上网行为的数据处理包括构建用户点击产品行为序列和提取反欺诈领域的传统特征。
优选的,所述构建用户点击产品行为序列基于存储于数据库的用户上网行为中,提取原始用户点击行为序列,同时丢弃最后行为不是点击产品的用户点击行为序列;
需要注意的是,每个用户点击序列的序列长度k必须是一致的(长度 k=50),对于长度小于k的点击序列在序列后面补上空点击,对于长度小于k的点击序列截取最后的k次点击行为。
优选的,所述提取反欺诈领域的传统特征基于存储于数据库的用户上网行为中,提取反欺诈领域的传统特征,特征如下:
数值型特征:页面停留时长,页面加载时长;
类别型特征:浏览器语言,文本编码设置,操作系统,设备识别码。处理方法是做one-hot和提取相对应的weight of evidence特征;
IP:找到IP对应的地理位置,对IP和位置信息做one-hot并提取相对应的K-foldmean-target编码特征;
设备识别码:提取imei码的前2、前4、前6、前8位,并进行one-hot 化;
地理信息:GPS坐标,GPS坐标聚类结果,GPS坐标与聚类中心GPS 坐标之间的欧式距离、马氏距离;
URL信息:将URL分成6块,分别是URL类型,三级类别和产品以及请求http协议头携带的IP,这有可能是下游服务器的IP;
产品类别:产品类别可能过多,one-hot会导致维度爆炸。因此,本专利先对产品类别进行one-hot化之后使用PCA、NMF、LDA等方法压缩产品类别信息。
优选的,上述基于历史通话行为数据的特征提取包括构建移动通话用户行为网络、构建移动通话用户行为矩阵和基于复杂网络理论提取特征。
优选的,所述基于时序神经网络模型的欺诈用户检测包括数据集重采样、特征选择;
所述数据集重采样由于反欺诈领域常见的正负样本不平衡,同时对样本使用过采样与欠采样来减轻数据的不平衡程度和生产新的训练集;
所述特征选择本专利对那些传统反欺诈特征的特征选择的思路是“劣汰优胜”,先基于独立性检验剔除关联弱的特征,再从剩余特征中选择重要性高的特征;
对于数值型特征,本专利使用[Cui,Hengjian&Zhong,Wei.(2018).ADistribution-Free Test of Independence and Its Application to VariableSelection.]所提出的Mean Variance Test做“劣汰”;该方法可检验一个离散型变量与一个连续型变量间是否独立,对变量的分布无假定。对于类别型特征,本专利使用卡方拟合优度检验进行特征选择。该方法可检验一个离散型变量与一个离散型变量间是否独立,同样对变量的分布无假定。
根据本发明的另一方面,提供了一种基于时序神经网络模型的欺诈用户检测方法。
包括以下步骤:
步骤S201,基于存储于数据库的用户上网行为中,提取固定序列长度k 的用户点击产品行为序列和页面停留时长和加载时长等特征。在所提取序列中,最后的行为应当为点击产品;
步骤S203,以移动通话用户为节点,基于历史通话行为数据构建动态移动通话用户行为网络。根据复杂网络理论和提取的移动通话用户行为网络,生成特征;
步骤S205,由于正负样本的不平衡,对样本进行重采样和特征选择生产训练集。基于多种时序神经网络模型学习历史数据,从而检测欺诈用户;
步骤S207,为了提高稳健性,依次采用了调和平均值、几何平均值、算数平均值、Blending(模型混合)等方法对多个时序神经网络模型结果进行模型融合。
进一步的,上述检测欺诈用户中为了提高稳健性和模型效果,本专利步骤S105得到的多种预测概率依次采用了调和平均值、几何平均值、算数平均值、Blending(模型混合)等方法对进行模型融合。
进一步的,对于“优胜”,本专利采用随机森林模型进行特征选择;随机森林模型通过bootstrap重抽样和随机特征选择机制生成多棵决策树,基于投票、加权平均等方式进行集成多棵决策树的预测结果;在进行特征选择时,具体步骤如下:
评估特征j在第i棵决策树中的重要性;先选择袋外数据评估决策树的预测错误率为ei,j oob1,然后随机对袋外数据的特征j加入噪声干扰,再次计算袋外数据误差为ei,j oob2,最后可得两次预测错误率的差值为ei,j=|ei,j oob2-ei,j oob2|;
数据归一化,将步骤S101和步骤S103的数据进行归一化处理,得到归一化后的历史数据,以便于通过归一化数据对时序神经网络进行训练。
其中,对特征X1对一化的公式为:
时序神经网络模型,本专利采取了六种时序神经网络模型进行建模。其中一种时序神经网络模型包含输入层、输出层和隐含层,输入层节点数为50,输出层包含2个节点;输出层包含的2个节点分别输出欺诈用户和正常用户的概率;隐含层包含一个将点击序列encoding的Encoding层、再将Encoding的特征采用FC层embedding成1000维向量和一个RNN层;本专利选取batch size=128,将128×50×1000维矩阵输入一个LSTM层,最终通过Softmax激活函数输出欺诈概率。
其中,使用的损失函数是交叉熵损失函数:
本发明的有益效果为:考虑到欺诈用户的点击序列和正常用户的点击序列之间的显著区别,本专利提取数据库中的用户上网行为,生成固定序列长度的用户点击网页序列。为了学习历史通话行为中的信息,本发明根据复杂网络理论从历史通话行为数据提取相应的特征。进而,基于多种时序神经网络模型预测用户欺诈的概率。最终,依次采用了模型混合、调和平均值、几何平均值和算数平均值等方法对多个时序神经网络模型结果进行模型融合。克服现有技术存在的缺陷,本发明考虑了用户上网行为序列和移动通话用户网络的拓扑关联,充分利用了用户历史上网行为、用户通话行为、用户地理位置等数据,提出了一种基于时序神经网络模型的欺诈用户检测方法,有效提升了预测效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于时序神经网络模型的欺诈用户检测系统的系统框图;
图2是根据本发明实施例的一种基于时序神经网络模型的欺诈用户检测方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明的实施例,提供了一种基于时序神经网络模型的欺诈用户检测系统,包括:
处理模块101,用于面向用户上网行为的数据处理;
提取模块103,基于历史通话行为数据的特征提取;
检测模块105,基于时序神经网络模型的欺诈用户检测;
修正模块107,用于欺诈用户检测及修正。
另外,在一个实施例中,对于上述面向用户上网行为的数据处理来说,上述面向用户上网行为的数据处理包括构建用户点击产品行为序列和提取反欺诈领域的传统特征。所述构建用户点击产品行为序列基于存储于数据库的用户上网行为中,提取原始用户点击行为序列,同时丢弃最后行为不是点击产品的用户点击行为序列;
需要注意的是,每个用户点击序列的序列长度k必须是一致的(长度k=50),对于长度小于k的点击序列在序列后面补上空点击,对于长度小于k的点击序列截取最后的k次点击行为。
所述提取反欺诈领域的传统特征基于存储于数据库的用户上网行为中,提取反欺诈领域的传统特征,特征如下:
数值型特征:页面停留时长,页面加载时长;
类别型特征:浏览器语言,文本编码设置,操作系统,设备识别码。处理方法是做one-hot和提取相对应的weight of evidence特征;
IP:找到IP对应的地理位置,对IP和位置信息做one-hot并提取相对应的K-foldmean-target编码特征;
设备识别码:提取imei码的前2、前4、前6、前8位,并进行one-hot 化;
地理信息:GPS坐标,GPS坐标聚类结果,GPS坐标与聚类中心GPS 坐标之间的欧式距离、马氏距离;
URL信息:将URL分成6块,分别是URL类型,三级类别和产品以及请求http协议头携带的IP,这有可能是下游服务器的IP;
产品类别:产品类别可能过多,one-hot会导致维度爆炸。因此,本专利先对产品类别进行one-hot化之后使用PCA、NMF、LDA等方法压缩产品类别信息。
另外,在一个实施例中,对于基于历史通话行为数据来说,上述基于历史通话行为数据的特征提取包括构建移动通话用户行为网络、构建移动通话用户行为矩阵和基于复杂网络理论提取特征。
构建移动通话用户行为网络
首先,从历史通话行为数据提取移动通话用户作为节点,并依据历史通话行为连接节点,具体可使用网络G=(V,L)描述。其中,V代表移动通话用户集合,V={v1,v2,…vn},n=|V|是用户总数;L代表用户间存在的通话行为集合,L={<vh,vl>|vh,vl∈V,1<h,l<n}。其中,G的邻接矩阵为A=(aij)∈RN×N,当 <vh,vl>∈L,aij=1,反之aij=0。
构建移动通话用户行为矩阵
将所抽取数据的初始时刻作为起始时间,并按固定时段为间隔划分时段,假定有T个时段。
基于复杂网络理论提取特征包括动态移动通话用户行为网络的周期性特征、动态型移动通话用户行为网络的临时型特征、拓扑型特征反应了建模对象受阈值交互用户的影响程度和传统反欺诈特征。
动态移动通话用户行为网络的周期性特征,周期型特征体现建模对象的周期型规律,具体包括如下特征:
用户i与相关联用户在前m天内t时段通话时长的均值mean1;
用户i与相关联用户在前m天内t时段通话次数的均值mean2;
用户i与相关联用户在前m天内t时段平均通话时长的均值mean3;
用户i与相关联用户在前m天内t时段通话时长的中位数值median1;
用户i与相关联用户在前m天内t时段通话次数的中位数值median2;
用户i与相关联用户在前m天内t时段平均通话时长的中位数值median2;
用户i的median1与所有用户在前m天内t时段通话时长的中位数的比值;
用户i的median2与所有用户在前m天内t时段通话时长的中位数的比值;
用户i的median3与所有用户在前m天内t时段通话时长的中位数的比值;
动态型移动通话用户行为网络的临时型特征,临时型特征为建模对象较短时间内关注的变量,具体包括如下特征:
用户i与相关联用户在从t-a时段(a=1,2,…,q)到t时段通话时长的均值,共包含q个特征;
用户i与相关联用户在从t-a时段(a=1,2,…,q)到t时段通话次数的均值,共包含q个特征;
用户i与相关联用户在从t-a时段(a=1,2,…,q)到t时段平均通话时长的均值,共包含q个特征;
用户i与相关联用户在从t-a时段(a=1,2,…,q)到t时段通话时长的中位数,共包含q个特征;
用户i与相关联用户在从t-a时段(a=1,2,…,q)到t时段通话次数的中位数,共包含q个特征;
用户i与相关联用户在从t-a时段(a=1,2,…,q)到t时段平均通话时长的中位数,共包含q个特征。
用户i的median1与用户i相关联用户在从t-a时段(a=1,2,…,q)到t 时段通话时长中位数的比值,共包含q个特征;
用户i的median2与用户i相关联用户在从t-a时段(a=1,2,…,q)到t 时段通话次数中位数的比值,共包含q个特征;
用户i的median3与用户i相关联用户在从t-a时段(a=1,2,…,q)到t 时段平均通话时长中位数的比值,共包含q个特征;
拓扑型特征反应了建模对象受阈值交互用户的影响程度:
用户i的聚类系数;
用户i与之相关联的用户个数;
群体检测后,用户i所处社团个数;
动态移动通话用户行为网络的密度;
动态移动通话用户行为网络的直径;
动态移动通话用户行为网络的平均路径长度。
传统反欺诈特征:
用户i的学历;
用户i的年收入;
用户i的职业状况;
用户i的身体情况;
用户i的固定资产;
用户i所在公司的经营状况;
以上所有特征的weight of evidence值
另外,在一个实施例中,对于所述基于时序神经网络模型的欺诈用户检测来说,所述基于时序神经网络模型的欺诈用户检测包括数据集重采样、特征选择;
所述数据集重采样由于反欺诈领域常见的正负样本不平衡,同时对样本使用过采样与欠采样来减轻数据的不平衡程度和生产新的训练集;
所述特征选择本专利对那些传统反欺诈特征的特征选择的思路是“劣汰优胜”,先基于独立性检验剔除关联弱的特征,再从剩余特征中选择重要性高的特征;
对于数值型特征,本专利使用[Cui,Hengjian&Zhong,Wei.(2018).ADistribution-Free Test of Independence and Its Application to VariableSelection.]所提出的Mean Variance Test做“劣汰”;该方法可检验一个离散型变量与一个连续型变量间是否独立,对变量的分布无假定。对于类别型特征,本专利使用卡方拟合优度检验进行特征选择。该方法可检验一个离散型变量与一个离散型变量间是否独立,同样对变量的分布无假定。
如图2所示,根据本发明的实施例,还提供了一种基于复杂网络模型的欺诈团伙挖掘方法。
包括以下步骤:
步骤S201,基于存储于数据库的用户上网行为中,提取固定序列长度k 的用户点击产品行为序列和页面停留时长和加载时长等特征。在所提取序列中,最后的行为应当为点击产品;
步骤S203,以移动通话用户为节点,基于历史通话行为数据构建动态移动通话用户行为网络。根据复杂网络理论和提取的移动通话用户行为网络,生成特征;
步骤S205,由于正负样本的不平衡,对样本进行重采样和特征选择生产训练集。基于多种时序神经网络模型学习历史数据,从而检测欺诈用户;
步骤S207,为了提高稳健性,依次采用了调和平均值、几何平均值、算数平均值、Blending(模型混合)等方法对多个时序神经网络模型结果进行模型融合。
另外在具体应用的时候,上述检测欺诈用户中为了提高稳健性和模型效果,本专利步骤S105得到的多种预测概率依次采用了调和平均值、几何平均值、算数平均值、Blending(模型混合)等方法对进行模型融合。
如图2所示,根据本发明的实施例,还提供了在进行特征选择方法。
包括以下步骤:
评估特征j在第i棵决策树中的重要性;先选择袋外数据评估决策树的预测错误率为ei,j oob1,然后随机对袋外数据的特征j加入噪声干扰,再次计算袋外数据误差为ei,j oob2,最后可得两次预测错误率的差值为ei,j=|ei,j oob2-ei,j oob2|;
数据归一化,将步骤S101和步骤S103的数据进行归一化处理,得到归一化后的历史数据,以便于通过归一化数据对时序神经网络进行训练。
其中,对特征X1对一化的公式为:
时序神经网络模型,本专利采取了六种时序神经网络模型进行建模。其中一种时序神经网络模型包含输入层、输出层和隐含层,输入层节点数为50,输出层包含2个节点;输出层包含的2个节点分别输出欺诈用户和正常用户的概率;隐含层包含一个将点击序列encoding的Encoding层、再将Encoding的特征采用FC层embedding成1000维向量和一个RNN层;本专利选取batch size=128,将128×50×1000维矩阵输入一个LSTM层,最终通过Softmax激活函数输出欺诈概率。
其中,使用的损失函数是交叉熵损失函数:
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于时序神经网络模型的欺诈用户检测系统,其特征在于,包括:
处理模块,用于面向用户上网行为的数据处理;
提取模块,基于历史通话行为数据的特征提取;
检测模块,基于时序神经网络模型的欺诈用户检测;
修正模块,用于欺诈用户检测及修正。
2.根据权利要求1所述的一种基于时序神经网络模型的欺诈用户检测系统,其特征在于,上述面向用户上网行为的数据处理包括构建用户点击产品行为序列和提取反欺诈领域的传统特征。
3.根据权利要求2所述的一种基于时序神经网络模型的欺诈用户检测系统,其特征在于,所述构建用户点击产品行为序列基于存储于数据库的用户上网行为中,提取原始用户点击行为序列,同时丢弃最后行为不是点击产品的用户点击行为序列;
需要注意的是,每个用户点击序列的序列长度k必须是一致的(长度k=50),对于长度小于k的点击序列在序列后面补上空点击,对于长度小于k的点击序列截取最后的k次点击行为。
4.根据权利要求3所述的一种基于时序神经网络模型的欺诈用户检测系统,其特征在于,所述提取反欺诈领域的传统特征基于存储于数据库的用户上网行为中,提取反欺诈领域的传统特征,特征如下:
数值型特征:页面停留时长,页面加载时长;
类别型特征:浏览器语言,文本编码设置,操作系统,设备识别码。处理方法是做one-hot和提取相对应的weight of evidence特征;
IP:找到IP对应的地理位置,对IP和位置信息做one-hot并提取相对应的K-fold mean-target编码特征;
设备识别码:提取imei码的前2、前4、前6、前8位,并进行one-hot化;
地理信息:GPS坐标,GPS坐标聚类结果,GPS坐标与聚类中心GPS坐标之间的欧式距离、马氏距离;
URL信息:将URL分成6块,分别是URL类型,三级类别和产品以及请求http协议头携带的IP,这有可能是下游服务器的IP;
产品类别:产品类别可能过多,one-hot会导致维度爆炸。因此,本专利先对产品类别进行one-hot化之后使用PCA、NMF、LDA等方法压缩产品类别信息。
5.根据权利要求4所述的一种基于时序神经网络模型的欺诈用户检测系统,其特征在于,上述基于历史通话行为数据的特征提取包括构建移动通话用户行为网络、构建移动通话用户行为矩阵和基于复杂网络理论提取特征。
6.根据权利要求5所述的一种基于时序神经网络模型的欺诈用户检测系统,其特征在于,所述基于时序神经网络模型的欺诈用户检测包括数据集重采样、特征选择;
所述数据集重采样由于反欺诈领域常见的正负样本不平衡,同时对样本使用过采样与欠采样来减轻数据的不平衡程度和生产新的训练集;
所述特征选择本专利对那些传统反欺诈特征的特征选择的思路是“劣汰优胜”,先基于独立性检验剔除关联弱的特征,再从剩余特征中选择重要性高的特征;
对于数值型特征,本专利使用[Cui,Hengjian&Zhong,Wei.(2018).A Distribution-Free Test of Independence and Its Application to Variable Selection.]所提出的Mean Variance Test做“劣汰”;该方法可检验一个离散型变量与一个连续型变量间是否独立,对变量的分布无假定。对于类别型特征,本专利使用卡方拟合优度检验进行特征选择。该方法可检验一个离散型变量与一个离散型变量间是否独立,同样对变量的分布无假定。
7.一种基于时序神经网络模型的欺诈用户检测方法,其特征在于,用于权利要求6所述的基于时序神经网络模型的欺诈用户检测系统的使用,包括以下步骤:
步骤S201,基于存储于数据库的用户上网行为中,提取固定序列长度k的用户点击产品行为序列和页面停留时长和加载时长等特征。在所提取序列中,最后的行为应当为点击产品;
步骤S203,以移动通话用户为节点,基于历史通话行为数据构建动态移动通话用户行为网络。根据复杂网络理论和提取的移动通话用户行为网络,生成特征;
步骤S205,由于正负样本的不平衡,对样本进行重采样和特征选择生产训练集。基于多种时序神经网络模型学习历史数据,从而检测欺诈用户;
步骤S207,为了提高稳健性,依次采用了调和平均值、几何平均值、算数平均值、Blending(模型混合)等方法对多个时序神经网络模型结果进行模型融合。
8.根据权利要求7所述的一种基于时序神经网络模型的欺诈用户检测方法,其特征在于,上述检测欺诈用户中为了提高稳健性和模型效果,本专利步骤S105得到的多种预测概率依次采用了调和平均值、几何平均值、算数平均值、Blending(模型混合)等方法对进行模型融合。
9.根据权利要求7所述的一种基于时序神经网络模型的欺诈用户检测方法,其特征在于,对于“优胜”,本专利采用随机森林模型进行特征选择;随机森林模型通过bootstrap重抽样和随机特征选择机制生成多棵决策树,基于投票、加权平均等方式进行集成多棵决策树的预测结果;在进行特征选择时,具体步骤如下:
评估特征j在第i棵决策树中的重要性;先选择袋外数据评估决策树的预测错误率为ei,j oob1,然后随机对袋外数据的特征j加入噪声干扰,再次计算袋外数据误差为ei,j oob2,最后可得两次预测错误率的差值为ei,j=|ei,j oob2-ei,j oob2|;
数据归一化,将步骤S101和步骤S103的数据进行归一化处理,得到归一化后的历史数据,以便于通过归一化数据对时序神经网络进行训练。
其中,对特征X1对一化的公式为:
时序神经网络模型,本专利采取了六种时序神经网络模型进行建模。其中一种时序神经网络模型包含输入层、输出层和隐含层,输入层节点数为50,输出层包含2个节点;输出层包含的2个节点分别输出欺诈用户和正常用户的概率;隐含层包含一个将点击序列encoding的Encoding层、再将Encoding的特征采用FC层embedding成1000维向量和一个RNN层;本专利选取batch size=128,将128×50×1000维矩阵输入一个LSTM层,最终通过Softmax激活函数输出欺诈概率。
其中,使用的损失函数是交叉熵损失函数:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010030012.4A CN113129028A (zh) | 2020-01-10 | 2020-01-10 | 一种基于时序神经网络模型的欺诈用户检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010030012.4A CN113129028A (zh) | 2020-01-10 | 2020-01-10 | 一种基于时序神经网络模型的欺诈用户检测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113129028A true CN113129028A (zh) | 2021-07-16 |
Family
ID=76771070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010030012.4A Pending CN113129028A (zh) | 2020-01-10 | 2020-01-10 | 一种基于时序神经网络模型的欺诈用户检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113129028A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114549026A (zh) * | 2022-04-26 | 2022-05-27 | 浙江鹏信信息科技股份有限公司 | 基于算法组件库分析的未知诈骗的识别方法及系统 |
WO2023086022A3 (en) * | 2021-11-15 | 2023-06-22 | Grabtaxi Holdings Pte. Ltd. | System and method for early fake account detection |
CN117164103A (zh) * | 2023-07-03 | 2023-12-05 | 广西智碧达智慧环境科技有限公司 | 生活污水处理系统的智能控制方法、终端及系统 |
CN117407800A (zh) * | 2023-09-11 | 2024-01-16 | 北京工商大学 | 一种基于随机森林和XGBoost模型的社交媒体机器人检测方法及系统 |
CN117978497A (zh) * | 2024-02-01 | 2024-05-03 | 天津大学 | 一种基于区块链的绿色技术联合研发方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182634A (zh) * | 2018-01-31 | 2018-06-19 | 国信优易数据有限公司 | 一种借贷预测模型的训练方法、借贷预测方法和装置 |
CN108596434A (zh) * | 2018-03-23 | 2018-09-28 | 卫盈联信息技术(深圳)有限公司 | 欺诈检测和风险评估方法、系统、设备及存储介质 |
CN109035003A (zh) * | 2018-07-04 | 2018-12-18 | 北京玖富普惠信息技术有限公司 | 基于机器学习的反欺诈模型建模方法和反欺诈监控方法 |
CN110458684A (zh) * | 2019-06-25 | 2019-11-15 | 广东工业大学 | 一种基于双向长短期记忆神经网络的金融反欺诈检测方法 |
CN110619540A (zh) * | 2019-08-13 | 2019-12-27 | 浙江工业大学 | 一种神经网络的点击流预估方法 |
-
2020
- 2020-01-10 CN CN202010030012.4A patent/CN113129028A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182634A (zh) * | 2018-01-31 | 2018-06-19 | 国信优易数据有限公司 | 一种借贷预测模型的训练方法、借贷预测方法和装置 |
CN108596434A (zh) * | 2018-03-23 | 2018-09-28 | 卫盈联信息技术(深圳)有限公司 | 欺诈检测和风险评估方法、系统、设备及存储介质 |
CN109035003A (zh) * | 2018-07-04 | 2018-12-18 | 北京玖富普惠信息技术有限公司 | 基于机器学习的反欺诈模型建模方法和反欺诈监控方法 |
CN110458684A (zh) * | 2019-06-25 | 2019-11-15 | 广东工业大学 | 一种基于双向长短期记忆神经网络的金融反欺诈检测方法 |
CN110619540A (zh) * | 2019-08-13 | 2019-12-27 | 浙江工业大学 | 一种神经网络的点击流预估方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023086022A3 (en) * | 2021-11-15 | 2023-06-22 | Grabtaxi Holdings Pte. Ltd. | System and method for early fake account detection |
CN114549026A (zh) * | 2022-04-26 | 2022-05-27 | 浙江鹏信信息科技股份有限公司 | 基于算法组件库分析的未知诈骗的识别方法及系统 |
CN117164103A (zh) * | 2023-07-03 | 2023-12-05 | 广西智碧达智慧环境科技有限公司 | 生活污水处理系统的智能控制方法、终端及系统 |
CN117407800A (zh) * | 2023-09-11 | 2024-01-16 | 北京工商大学 | 一种基于随机森林和XGBoost模型的社交媒体机器人检测方法及系统 |
CN117978497A (zh) * | 2024-02-01 | 2024-05-03 | 天津大学 | 一种基于区块链的绿色技术联合研发方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113129028A (zh) | 一种基于时序神经网络模型的欺诈用户检测系统 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
US8676726B2 (en) | Automatic variable creation for adaptive analytical models | |
CN107423442A (zh) | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 | |
US20140052684A1 (en) | System and method for forming predictions using event-based sentiment analysis | |
CN109766454A (zh) | 一种投资者分类方法、装置、设备及介质 | |
CN113011889B (zh) | 账号异常识别方法、系统、装置、设备及介质 | |
CN107071193A (zh) | 互动应答系统接入用户的方法和装置 | |
US12072895B2 (en) | Contact graph scoring system | |
CN111798244B (zh) | 交易欺诈行为监测方法及装置 | |
CN110689359A (zh) | 对模型进行动态更新的方法及装置 | |
CN113724039A (zh) | Ota网站的酒店推荐方法、系统、设备及可读存储介质 | |
CN113011884A (zh) | 账户特征的提取方法、装置、设备及可读存储介质 | |
CN115018190A (zh) | 逾期行为预测方法及装置、存储介质及电子设备 | |
CN116996325A (zh) | 一种基于云计算的网络安全检测方法及系统 | |
Negi et al. | Cryptocurrency Price Analysis using Deep Learning | |
CN115130542A (zh) | 模型训练方法、文本处理方法、装置及电子设备 | |
CN118134630A (zh) | 信用风险等级评估方法、装置及电子设备 | |
CN113457167A (zh) | 用户分类网络的训练方法、用户分类方法及装置 | |
CN115687754B (zh) | 一种基于智能对话的主动式网络信息挖掘方法 | |
CN115731030A (zh) | 一种银行消费贷款客户需求挖掘方法、装置及存储介质 | |
CN115600818A (zh) | 多维评分方法、装置、电子设备和存储介质 | |
CN113128597B (zh) | 一种用户行为特征的提取和分类预测的方法及装置 | |
CN117556264B (zh) | 一种评估模型的训练方法、装置及电子设备 | |
CN113887214B (zh) | 基于人工智能的意愿推测方法、及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |