CN110232473A - 一种基于大数据金融的黑产用户预测方法 - Google Patents

一种基于大数据金融的黑产用户预测方法 Download PDF

Info

Publication number
CN110232473A
CN110232473A CN201910430445.6A CN201910430445A CN110232473A CN 110232473 A CN110232473 A CN 110232473A CN 201910430445 A CN201910430445 A CN 201910430445A CN 110232473 A CN110232473 A CN 110232473A
Authority
CN
China
Prior art keywords
user
feature
black production
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910430445.6A
Other languages
English (en)
Other versions
CN110232473B (zh
Inventor
王进
郝守迪
罗杰
孙开伟
邓欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yami Technology Guangzhou Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910430445.6A priority Critical patent/CN110232473B/zh
Publication of CN110232473A publication Critical patent/CN110232473A/zh
Application granted granted Critical
Publication of CN110232473B publication Critical patent/CN110232473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • G06Q30/0225Avoiding frauds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明请求保护一种基于大数据金融的黑产用户预测方法,包括:101对用户的历史操作数据和历史交易数据进行预处理操作;102对经过预处理的数据进行特征工程构建;103对特征工程构造的特征进行筛选;104建立多个机器学习模型,通过模型融合提高模型的泛化性能;105通过建立的模型,对用户是否是黑产用户进行预测。本发明主要是通过用户30天的操作数据和交易数据以及黑产用户信息,构建特征工程,建立机器学习模型,从而能够在未来通过用户行为预测用户是否是黑产用户,来识别交易风险,切实结合当下的技术发展需求。

Description

一种基于大数据金融的黑产用户预测方法
技术领域
本发明属于机器学习、金融大数据处理、人工智能技术领域,尤其是金融领域的黑产用户预测方法。
背景技术
随着互联网+这一概念的不断发展,电商、出行、外卖等行业近些年也持续发展壮大,越来越多的商家进入这一市场。为了在激烈的竞争中拉取新用户,培养用户的消费习惯,各种类型的营销活动和补贴活动也是层出不穷。在为正常用户带来福利的同时,也催生了一批专注于营销活动的黑产用户,也就是所谓的“羊毛党”。黑产用户即个人注册大量账号,找规则漏洞,找营销套路,赚取商家大量补贴的用户。目前,羊毛党的行为越发专业化,团伙化和地域化,同套利黑产团伙的斗争,是一场永无止境的攻防战。
通过数据监控可以构筑第一道防线,但是在巨大的利益诱惑下,黑产的作案手法、作案技术升级速度越来越快;传统的基于专家规则的风控体系已经很难跟上黑产作案手法的迭代,往往仅能在黑产已经获利后才能针对性的上线规则进行风险防控。这样容易形成“黑产获利-布控规则-黑产变化手法再次获利-跟进调整规则”的恶性循环,不能从根本上对黑产完成有效的打击。
机器学习模型是风控系统中实时识别和对抗黑产攻击的有效手段。面对黑产攻击手段快速多变,黑样本数据标签缺失等问题,目前除了LR,RF等耳熟能详的机器学习模型,基于RNN的深度学习模型,无监督学习模型等技术也被应用到同黑产的对抗中。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种识别交易风险的基于大数据金融的黑产用户预测方法。本发明的技术方案如下:
一种基于大数据金融的黑产用户预测方法,其包括以下步骤:
101、对用户的历史操作数据和历史交易数据进行包括缺失值填充、对低基数定性字段进行独热编码、对高基数定性字段进行平均值编码在内的预处理操作;
102、对步骤101经过预处理的数据进行特征工程构建,构建特征工程主要包括两个方面的特征,对应于两种黑产用户:一种是根据用户的身份标识信息和商户、设备标识信息就可以识别的黑产用户,这是初级黑产用户,他们使用相同的终端设备登录多个账号,没有掩饰自身的身份,包括统计特征;第二种是根据用户的行为模式才可以识别的黑产用户,这是高级黑产用户,他们已经学会隐瞒身份,包括时间特征、时序特征、社交特征;
103、对特征工程构造的特征进行筛选,筛选掉无用的特征。采用的方法是基于树的特征选取方法;
104、建立四个机器学习模型,包括建立CatBoost、QRNN准循环神经网络、LightGBM和逻辑斯特回归四个子模型,使用设定比例进行模型融合提高模型的泛化性能;
105、通过步骤104建立的模型,对用户是否是黑产用户进行预测。
进一步的,所述步骤101用户的历史操作数据和历史交易数据具体包括:历史操作数据中的操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、地理位置,历史交易数据包括:商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、交易资金源类型、资金类型、营销活动号编码、营销活动标识、交易金额和账户余额,这些数据信息和操作日期和交易日期时间信息。
进一步的,所述步骤101进行包括缺失值填充、对低基数定性字段进行独热编码、对高基数定性字段进行平均值编码在内的预处理操作。具体处理步骤如下:
(1)缺失值填充:对不同类型的字段采用不同的填充方法。对操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、交易资金源类型、营销活动号编码、营销活动标识这13个定性字段,使用-1填充,对交易金额和账户余额这2个定量字段,使用众数填充;
(2)对低基数定性字段进行独热编码:对操作状态、交易资金源类型、资金类型这3个取值少的属性,进行独热编码;
(3)对高基数定性字段进行平均值编码:对客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、营销活动号编码、营销活动标识这10个字段采用平均值编码。
进一步的,所述对高基数定性字段进行平均值编码采用经验贝叶斯的方法,使用已有数据估算字段每个取值的后验概率,将每个取值的后验概率作为它的编码值,字段取值为k的后验概率计算方法如下:
其中,M表示黑产用户中字段取值为k的用户数量,N表示所有的黑产用户的数量。
进一步的,对于测试集中出现的新的字段取值,使用先验概率作为其编码值。先验概率即训练集中黑产用户数量与所有用户数量的比值。
进一步的,所述步骤102对经过预处理的数据进行特征工程构建。具体包括:
(1)统计特征:对操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、交易资金源类型、营销活动号编码、营销活动标识这13个定性字段,提取以下特征:以用户ID为键,提取每个字段的唯一值计数特征,表示用户在这个字段有多少种取值;以用户ID为键,提取每个字段的平均值编码的最大值、平均值特征。对交易金额和账户余额字段,提取用户每一天的累加和特征,用户每天的交易金额之和的平均绝对偏差特征;
(2)时间特征:对操作数据表和交易数据表,以用户ID为键,统计用户最活跃即数据记录最多的天和时段;
(3)时序特征:对所有字段,以用户ID为键,以每一天为时间窗口,统计用户所有的统计特征,用于时序模型的训练;
(4)社交特征:从数据中挖掘出社交网络,从而由点及面地找出黑产用户;
根据交易数据表中的每一笔交易的用户交易账户号和转入、转出账户号,建立带权无向图G(V,E):每个用户的账户号是结点集V中的结点vi,E中结点之间的边表示账户之间存在交易,账户之间的交易次数是边的权重,根据带权无向图计算账户vi社交特征值的公式如下:
其中V′表示黑产用户的结点集。F(vi)越大,表示用户vi与黑产用户的交易越密切,是黑产用户的可能性越大。
进一步的,所述步骤103对特征工程构造的特征进行筛选,采用的是基于树的特征选取方法,具体描述如下。
使用CART分类与回归树,将所有特征输入CART分类与回归树模型模型:分类与回归树模型在构建树的过程中,在每一个分支结点计算所使用特征vi进行划分得到左右子结点的基尼值的减少量作为特征vi的贡献;
将特征在每个分支节点的贡献相加,得到特征的重要度,再对所有特征的重要度作归一化处理,最后按照阈值0.02筛选,将特征重要度小于阈值的特征丢弃。
进一步的,所述步骤104建立多个机器学习模型,通过模型融合提高模型的泛化性能:建立CatBoost、QRNN准循环神经网络、LightGBM和逻辑斯特回归四个子模型,使用设定比例进行模型融合,具体步骤如下:
(1)训练子模型:使用训练集训练CatBoost、QRNN、LightGBM和逻辑斯特回归四个机器学习模型作为子模型,四个子模型使用不同的特征训练:CatBoost和LightGBM模型使用统计特征、ID特征和时间特征来训练;逻辑斯特回归模型使用统计特征和社交特征来训练;QRNN模型使用时序特征来训练。
(2)使用子模型对测试集进行预测;
(3)使CatBoost模型的权重系数w1为0.27、QRNN模型的权重系数w2为0.29、LightGBM模型的权重系数w3为0.33、逻辑斯特回归模型的权重系数w4为0.11,将四个模型对测试集的预测结果y1、y2、y3、y4进行融合,得到最终的预测结果。
进一步的,所述步骤105通过建立的模型,对用户是否是黑产用户进行预测,具体方法如下:
通过步骤104得到最终的预测结果,即每一个用户是黑产用户的概率,再使用阈值0.715进行筛选,将预测概率大于0.715的用户判定为黑产用户。
本发明的优点及有益效果如下:
本发明对高基数定性字段,采用了平均值编码的方法,把原始字符串转换成了与预测标签相关的定量值,使其能够直接用于模型训练,有效利用了数据。
本发明针对金融领域中黑产用户难以识别的问题,提出了构造社交特征的方法,通过从数据中挖掘出的社交网络,由点及面地识别黑产用户。
本发明针对金融用户的时序特征,创新性地采用了QRNN模型(结合了CNN和RNN的网络结构),更好地利用了用户的随时间变化的局部特征。
本发明的模型融合方法,是采用了特定领域的设定比例系数,融合多个处理了不同特征的模型。因为不同的模型适合处理的特征不同,因此本发明使用不同类型的特征训练了多个模型,并且使用特定的比例系数进行融合。
附图说明
图1是本发明提供优选实施例提供一种基于大数据金融的黑产用户预测方法的流程图。
图2为本发明实施例一提供一种基于大数据金融的黑产用户预测方法中独热编码示意图。
图3为本发明实施例一提供一种基于大数据金融的黑产用户预测方法中特征筛选示意图。
图4为本发明实施例一提供一种基于大数据金融的黑产用户预测方法中的模型融合图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明解决上述技术问题的技术方案是:
参考图1,图1为本发明实施例一提供一种基于大数据金融的黑产用户预测方法的流程图,具体包括:
101对用户的历史操作数据和历史交易数据进行预处理操作,具体如下:
(1)缺失值填充:对不同类型的字段采用不同的填充方法。对操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、交易资金源类型、营销活动号编码、营销活动标识这13个定性字段,使用-1填充。对交易金额和账户余额这2个定量字段,使用众数填充。
(2)对低基数定性字段进行独热编码:对操作状态、交易资金源类型、资金类型这3个取值少的属性,进行独热编码。
(3)对高基数定性字段进行平均值编码:对客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、营销活动号编码、营销活动标识这10个字段采用平均值编码,具体方法如下:
采用经验贝叶斯的方法,使用已有数据估算字段每个取值的后验概率,将每个取值的后验概率作为它的编码值。字段取值为k的后验概率计算方法如下:
其中,M表示黑产用户中字段取值为k的用户数量,N表示所有的黑产用户的数量。
特别地,对于测试集中出现的新的字段取值,使用先验概率作为其编码值。先验概率即训练集中黑产用户数量与所有用户数量的比值。
102对经过预处理的数据进行特征工程构建。构建特征工程主要包括两个方面的特征,对应于两种黑产用户:一种是根据用户的身份标识信息和商户、设备标识信息就可以识别的黑产用户,这是初级黑产用户,他们使用相同的终端设备登录多个账号,没有掩饰自身的身份,包括统计特征;第二种是根据用户的行为模式才可以识别的黑产用户,这是高级黑产用户,他们已经学会隐瞒身份,包括时间特征、时序特征、社交特征。
(1)统计特征:对13个定性字段(操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、交易资金源类型、营销活动号编码、营销活动标识),提取以下特征:以用户ID为键,提取每个字段的唯一值计数特征,表示用户在这个字段有多少种取值;以用户ID为键,提取每个字段的平均值编码的最大值、平均值特征。对交易金额和账户余额字段,提取用户每一天的累加和特征,用户每天的交易金额之和的平均绝对偏差特征。
(2)时间特征:对操作数据表和交易数据表,以用户ID为键,统计用户最活跃即数据记录最多的天和时段。
(3)时序特征:对所有字段,以用户ID为键,以每一天为时间窗口,统计用户所有的统计特征,方便时序模型的训练。
(4)社交特征:从数据中挖掘出社交网络,从而由点及面地找出黑产用户。
根据交易数据表中的每一笔交易的用户交易账户号和转入、转出账户号,可以建立带权无向图G(V,E):每个用户的账户号是结点集V中的结点vi,E中结点之间的边表示账户之间存在交易,账户之间的交易次数是边的权重。根据带权无向图计算账户vi社交特征值的公式如下:
其中V′表示黑产用户的结点集。F(vi)越大,表示用户vi与黑产用户的交易越密切,是黑产用户的可能性越大。
103对特征工程构造的特征进行筛选:特征工程构造了大量的特征,尤其是统计特征。为了降低模型的复杂度,提高模型的应用性能,需要筛选无用的特征。采用的方法是基于树的特征选取方法。具体描述如下:
使用CART分类与回归树,将所有特征输入CART模型:分类与回归树模型在构建树的过程中,在每一个分支结点会计算所使用特征vi进行划分得到左右子结点的基尼值的减少量作为特征vi的贡献。
将特征在每个分支节点的贡献相加,就得到特征的重要度,再对所有特征的重要度作归一化处理。最后按照阈值0.02筛选,将特征重要度小于阈值的特征丢弃。
104建立多个机器学习模型,通过模型融合提高模型的泛化性能:建立CatBoost、QRNN、LightGBM和逻辑斯特回归四个子模型,使用基于岭回归的方法进行模型融合,具体步骤如下:
(1)训练子模型:使用训练集训练CatBoost、QRNN、LightGBM和逻辑斯特回归四个机器学习模型作为子模型。四个子模型使用不同的特征训练:CatBoost和LightGBM模型使用统计特征、ID特征和时间特征来训练;逻辑斯特回归模型使用统计特征和社交特征来训练;QRNN模型使用时序特征来训练。
(2)使用子模型对测试集进行预测。
(3)使CatBoost模型的权重系数w1为0.27、QRNN模型的权重系数w2为0.29、LightGBM模型的权重系数w3为0.33、逻辑斯特回归模型的权重系数w4为0.11,将四个模型对测试集的预测结果y1、y2、y3、y4进行融合,得到最终的预测结果,公式如下:
y=y1×w1+y2×w2+y3×w3+y4×w4
105通过建立的模型,对用户是否是黑产用户进行预测。具体方法如下:
通过步骤104得到最终的预测结果,即每一个用户是黑产用户的概率。再使用阈值0.7进行筛选,将预测概率大于0.7的用户判定为黑产用户。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (9)

1.一种基于大数据金融的黑产用户预测方法,其特征在于,包括以下步骤:
101、对用户的历史操作数据和历史交易数据进行包括缺失值填充、对低基数定性字段进行独热编码、对高基数定性字段进行平均值编码在内的预处理操作;
102、对步骤101经过预处理的数据进行特征工程构建,构建特征工程主要包括两个方面的特征,对应于两种黑产用户:一种是根据用户的身份标识信息和商户、设备标识信息就可以识别的黑产用户,这是初级黑产用户,他们使用相同的终端设备登录多个账号,没有掩饰自身的身份,包括统计特征;第二种是根据用户的行为模式才可以识别的黑产用户,这是高级黑产用户,他们已经学会隐瞒身份,包括时间特征、时序特征、社交特征;
103、对特征工程构造的特征进行筛选,筛选掉无用的特征。采用的方法是基于树的特征选取方法;
104、建立四个机器学习模型,包括建立CatBoost、QRNN准循环神经网络、LightGBM和逻辑斯特回归四个子模型,使用设定比例进行模型融合提高模型的泛化性能;
105、通过步骤104建立的模型,对用户是否是黑产用户进行预测。
2.根据权利要求1所述的一种基于大数据金融的黑产用户预测方法,其特征在于,所述步骤101用户的历史操作数据和历史交易数据具体包括:历史操作数据中的操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、地理位置,历史交易数据包括:商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、交易资金源类型、资金类型、营销活动号编码、营销活动标识、交易金额和账户余额,这些数据信息和操作日期和交易日期时间信息。
3.根据权利要求2所述的一种基于大数据金融的黑产用户预测方法,其特征在于,所述步骤101进行包括缺失值填充、对低基数定性字段进行独热编码、对高基数定性字段进行平均值编码在内的预处理操作。具体处理步骤如下:
(1)缺失值填充:对不同类型的字段采用不同的填充方法。对操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、交易资金源类型、营销活动号编码、营销活动标识这13个定性字段,使用-1填充,对交易金额和账户余额这2个定量字段,使用众数填充;
(2)对低基数定性字段进行独热编码:对操作状态、交易资金源类型、资金类型这3个取值少的属性,进行独热编码;
(3)对高基数定性字段进行平均值编码:对客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、营销活动号编码、营销活动标识这10个字段采用平均值编码。
4.根据权利要求3所述的一种基于大数据金融的黑产用户预测方法,其特征在于,所述对高基数定性字段进行平均值编码采用经验贝叶斯的方法,使用已有数据估算字段每个取值的后验概率,将每个取值的后验概率作为它的编码值,字段取值为k的后验概率计算方法如下:
其中,M表示黑产用户中字段取值为k的用户数量,N表示所有的黑产用户的数量。
5.根据权利要求4所述的一种基于大数据金融的黑产用户预测方法,其特征在于,对于测试集中出现的新的字段取值,使用先验概率作为其编码值。先验概率即训练集中黑产用户数量与所有用户数量的比值。
6.根据权利要求2-5之一所述的一种基于大数据金融的黑产用户预测方法,其特征在于,所述步骤102对经过预处理的数据进行特征工程构建。具体包括:
(1)统计特征:对操作状态、客户端版本号、操作设备唯一标识码、WiFi名称、地理位置、商户终端设备标识、操作设备唯一标识、用户交易账户号、转出转入账户号、交易资金源类型、营销活动号编码、营销活动标识这13个定性字段,提取以下特征:以用户ID为键,提取每个字段的唯一值计数特征,表示用户在这个字段有多少种取值;以用户ID为键,提取每个字段的平均值编码的最大值、平均值特征。对交易金额和账户余额字段,提取用户每一天的累加和特征,用户每天的交易金额之和的平均绝对偏差特征;
(2)时间特征:对操作数据表和交易数据表,以用户ID为键,统计用户最活跃即数据记录最多的天和时段;
(3)时序特征:对所有字段,以用户ID为键,以每一天为时间窗口,统计用户所有的统计特征,用于时序模型的训练;
(4)社交特征:从数据中挖掘出社交网络,从而由点及面地找出黑产用户;
根据交易数据表中的每一笔交易的用户交易账户号和转入、转出账户号,建立带权无向图G(V,E):每个用户的账户号是结点集V中的结点vi,E中结点之间的边表示账户之间存在交易,账户之间的交易次数是边的权重,根据带权无向图计算账户vi社交特征值的公式如下:
其中V′表示黑产用户的结点集,F(vi)越大,表示用户vi与黑产用户的交易越密切,是黑产用户的可能性越大。
7.根据权利要求6所述的一种基于大数据金融的黑产用户预测方法,其特征在于,所述步骤103对特征工程构造的特征进行筛选,采用的是基于树的特征选取方法,具体描述如下。
使用CART分类与回归树,将所有特征输入CART分类与回归树模型模型:分类与回归树模型在构建树的过程中,在每一个分支结点计算所使用特征vi进行划分得到左右子结点的基尼值的减少量作为特征vi的贡献;
将特征在每个分支节点的贡献相加,得到特征的重要度,再对所有特征的重要度作归一化处理,最后按照阈值0.02筛选,将特征重要度小于阈值的特征丢弃。
8.根据权利要求7所述的一种基于大数据金融的黑产用户预测方法,其特征在于,所述步骤104建立多个机器学习模型,通过模型融合提高模型的泛化性能:建立CatBoost、QRNN准循环神经网络、LightGBM和逻辑斯特回归四个子模型,使用设定比例进行模型融合,具体步骤如下:
(1)训练子模型:使用训练集训练CatBoost、QRNN、LightGBM和逻辑斯特回归四个机器学习模型作为子模型,四个子模型使用不同的特征训练:
CatBoost和LightGBM模型使用统计特征、ID特征和时间特征来训练;逻辑斯特回归模型使用统计特征和社交特征来训练;QRNN模型使用时序特征来训练。
(2)使用子模型对测试集进行预测;
(3)使CatBoost模型的权重系数w1为0.27、QRNN模型的权重系数w2为0.29、LightGBM模型的权重系数w3为0.33、逻辑斯特回归模型的权重系数w4为0.11,将四个模型对测试集的预测结果y1、y2、y3、y4进行融合,得到最终的预测结果。
9.根据权利要求8所述的一种基于大数据金融的黑产用户预测方法,其特征在于,所述步骤105通过建立的模型,对用户是否是黑产用户进行预测,具体方法如下:
通过步骤104得到最终的预测结果,即每一个用户是黑产用户的概率,再使用阈值0.715进行筛选,将预测概率大于0.715的用户判定为黑产用户。
CN201910430445.6A 2019-05-22 2019-05-22 一种基于大数据金融的黑产用户预测方法 Active CN110232473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910430445.6A CN110232473B (zh) 2019-05-22 2019-05-22 一种基于大数据金融的黑产用户预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910430445.6A CN110232473B (zh) 2019-05-22 2019-05-22 一种基于大数据金融的黑产用户预测方法

Publications (2)

Publication Number Publication Date
CN110232473A true CN110232473A (zh) 2019-09-13
CN110232473B CN110232473B (zh) 2022-12-27

Family

ID=67861482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910430445.6A Active CN110232473B (zh) 2019-05-22 2019-05-22 一种基于大数据金融的黑产用户预测方法

Country Status (1)

Country Link
CN (1) CN110232473B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110620770A (zh) * 2019-09-19 2019-12-27 微梦创科网络科技(中国)有限公司 一种分析网络黑产账号的方法及装置
CN111024898A (zh) * 2019-12-30 2020-04-17 中国科学技术大学 一种基于CatBoost模型的车辆尾气浓度超标判别方法
CN111046027A (zh) * 2019-11-25 2020-04-21 北京百度网讯科技有限公司 时间序列数据的缺失值填充方法和装置
CN111080305A (zh) * 2019-12-16 2020-04-28 中国建设银行股份有限公司 一种风险识别方法、装置及电子设备
CN111091408A (zh) * 2019-10-30 2020-05-01 北京天元创新科技有限公司 用户识别模型创建方法、装置与识别方法、装置
CN111835561A (zh) * 2020-06-29 2020-10-27 中国平安财产保险股份有限公司 基于用户行为数据的异常用户群体检测方法、装置、设备
CN112101950A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 可疑交易监测模型特征提取方法及装置
CN112215616A (zh) * 2020-11-30 2021-01-12 四川新网银行股份有限公司 一种基于网络的自动识别资金异常交易的方法和系统
CN116596532A (zh) * 2022-11-07 2023-08-15 北京天德科技有限公司 一种基于实时可疑交易识别和监管区块链钱包的监管方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130046717A1 (en) * 2011-08-19 2013-02-21 Bank Of America Corporation Predicting future travel based on a user's historical financial institution transaction data and providing offers based on the predicted future travel
CN105808988A (zh) * 2014-12-31 2016-07-27 阿里巴巴集团控股有限公司 一种识别异常账户的方法及装置
CN107704734A (zh) * 2017-07-10 2018-02-16 深圳市金立通信设备有限公司 一种用户账户的识别方法及其设备
CN107958382A (zh) * 2017-12-06 2018-04-24 北京小度信息科技有限公司 异常行为识别方法、装置、电子设备及存储介质
CN109147949A (zh) * 2018-08-16 2019-01-04 辽宁大学 一种基于分类回归树来用于检测教师亚健康状态的方法
CN109255506A (zh) * 2018-11-22 2019-01-22 重庆邮电大学 一种基于大数据的互联网金融用户贷款逾期预测方法
CN109255391A (zh) * 2018-09-30 2019-01-22 武汉斗鱼网络科技有限公司 一种识别恶意用户的方法、装置及存储介质
CN109495378A (zh) * 2018-12-28 2019-03-19 广州华多网络科技有限公司 检测异常帐号的方法、装置、服务器及存储介质
CN109525595A (zh) * 2018-12-25 2019-03-26 广州华多网络科技有限公司 一种基于时间流特征的黑产账号识别方法及设备
CN109714301A (zh) * 2017-10-25 2019-05-03 北京京东尚科信息技术有限公司 注册风险识别方法、装置、电子设备及存储介质
CN109740764A (zh) * 2019-01-10 2019-05-10 博拉网络股份有限公司 一种基于大数据的小型企业失信预测方法
CN109784015A (zh) * 2018-12-27 2019-05-21 腾讯科技(深圳)有限公司 一种身份鉴别方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130046717A1 (en) * 2011-08-19 2013-02-21 Bank Of America Corporation Predicting future travel based on a user's historical financial institution transaction data and providing offers based on the predicted future travel
CN105808988A (zh) * 2014-12-31 2016-07-27 阿里巴巴集团控股有限公司 一种识别异常账户的方法及装置
CN107704734A (zh) * 2017-07-10 2018-02-16 深圳市金立通信设备有限公司 一种用户账户的识别方法及其设备
CN109714301A (zh) * 2017-10-25 2019-05-03 北京京东尚科信息技术有限公司 注册风险识别方法、装置、电子设备及存储介质
CN107958382A (zh) * 2017-12-06 2018-04-24 北京小度信息科技有限公司 异常行为识别方法、装置、电子设备及存储介质
CN109147949A (zh) * 2018-08-16 2019-01-04 辽宁大学 一种基于分类回归树来用于检测教师亚健康状态的方法
CN109255391A (zh) * 2018-09-30 2019-01-22 武汉斗鱼网络科技有限公司 一种识别恶意用户的方法、装置及存储介质
CN109255506A (zh) * 2018-11-22 2019-01-22 重庆邮电大学 一种基于大数据的互联网金融用户贷款逾期预测方法
CN109525595A (zh) * 2018-12-25 2019-03-26 广州华多网络科技有限公司 一种基于时间流特征的黑产账号识别方法及设备
CN109784015A (zh) * 2018-12-27 2019-05-21 腾讯科技(深圳)有限公司 一种身份鉴别方法及装置
CN109495378A (zh) * 2018-12-28 2019-03-19 广州华多网络科技有限公司 检测异常帐号的方法、装置、服务器及存储介质
CN109740764A (zh) * 2019-01-10 2019-05-10 博拉网络股份有限公司 一种基于大数据的小型企业失信预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SANJIN PAJO等: "Automated feature extraction from social media for systematic lead user identification", 《TECHNOLOGY ANALYSIS & STRATEGIC MANAGEMENT》 *
方匡南 等: "信贷信息不对称下的信用卡信用风险研究", 《经济研究》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110620770A (zh) * 2019-09-19 2019-12-27 微梦创科网络科技(中国)有限公司 一种分析网络黑产账号的方法及装置
CN110620770B (zh) * 2019-09-19 2021-11-09 微梦创科网络科技(中国)有限公司 一种分析网络黑产账号的方法及装置
CN111091408A (zh) * 2019-10-30 2020-05-01 北京天元创新科技有限公司 用户识别模型创建方法、装置与识别方法、装置
CN111046027A (zh) * 2019-11-25 2020-04-21 北京百度网讯科技有限公司 时间序列数据的缺失值填充方法和装置
CN111080305A (zh) * 2019-12-16 2020-04-28 中国建设银行股份有限公司 一种风险识别方法、装置及电子设备
CN111024898A (zh) * 2019-12-30 2020-04-17 中国科学技术大学 一种基于CatBoost模型的车辆尾气浓度超标判别方法
CN111024898B (zh) * 2019-12-30 2021-07-06 中国科学技术大学 一种基于CatBoost模型的车辆尾气浓度超标判别方法
CN111835561A (zh) * 2020-06-29 2020-10-27 中国平安财产保险股份有限公司 基于用户行为数据的异常用户群体检测方法、装置、设备
CN112101950A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 可疑交易监测模型特征提取方法及装置
CN112215616A (zh) * 2020-11-30 2021-01-12 四川新网银行股份有限公司 一种基于网络的自动识别资金异常交易的方法和系统
CN112215616B (zh) * 2020-11-30 2021-04-30 四川新网银行股份有限公司 一种基于网络的自动识别资金异常交易的方法和系统
CN116596532A (zh) * 2022-11-07 2023-08-15 北京天德科技有限公司 一种基于实时可疑交易识别和监管区块链钱包的监管方法

Also Published As

Publication number Publication date
CN110232473B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN110232473A (zh) 一种基于大数据金融的黑产用户预测方法
Ma et al. Financial credit risk prediction in internet finance driven by machine learning
US20190311428A1 (en) Credit risk and default prediction by smart agents
CN109166030A (zh) 一种反欺诈解决方法及系统
CN107423442A (zh) 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN106547838B (zh) 基于资金网络监测可疑资金交易的方法
CN110717816A (zh) 一种基于人工智能技术的全域金融风险知识图谱构建方法
CN109003089A (zh) 风险识别方法及装置
CN109472610A (zh) 一种银行交易反欺诈方法及系统、设备和存储介质
Zhan et al. A loan application fraud detection method based on knowledge graph and neural network
Lu et al. Telecom fraud identification based on ADASYN and random forest
CN106354783A (zh) 一种基于信任关系隐含相似度的社会化推荐方法
CN114358912A (zh) 一种基于联邦学习的风险权重融合的异常检测方法
CN107688997A (zh) 一种基于通话记录实现微贷用户风险评分的算法
Zhang et al. Non-tradable shares pricing and optimal default point based on hybrid KMV models: Evidence from China
Wei et al. Calibrating network traffic with one-dimensional convolutional neural network with autoencoder and independent recurrent neural network for mobile malware detection
Maji et al. Data warehouse based analysis on CDR to retain and acquire customers by targeted marketing
Selma Predicting the success of bank telemarketing using Artificial Neural Network
Yang et al. Whales, dolphins, or minnows? towards the player clustering in free online games based on purchasing behavior via data mining technique
Sharifi et al. Banks credit risk prediction with optimized ANN based on improved owl search algorithm
CN107908673A (zh) 社交平台用户的现实关系匹配方法、装置及可读存储介质
CN116541755A (zh) 一种基于时序图表征学习的金融行为模式分析预测方法
CN107222319A (zh) 一种通信操作分析方法及装置
Li et al. The study on preventing click fraud in internet advertising
CN112581177A (zh) 结合自动特征工程及残差神经网络的营销预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230802

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right