CN110956503B - 基于用户网络行为的具有借贷需求的用户识别方法及装置 - Google Patents
基于用户网络行为的具有借贷需求的用户识别方法及装置 Download PDFInfo
- Publication number
- CN110956503B CN110956503B CN201911201625.3A CN201911201625A CN110956503B CN 110956503 B CN110956503 B CN 110956503B CN 201911201625 A CN201911201625 A CN 201911201625A CN 110956503 B CN110956503 B CN 110956503B
- Authority
- CN
- China
- Prior art keywords
- data
- calling number
- training
- xgboost model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 85
- 238000012360 testing method Methods 0.000 claims abstract description 54
- 238000012216 screening Methods 0.000 claims abstract description 6
- 230000000875 corresponding effect Effects 0.000 claims description 60
- 238000003066 decision tree Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 5
- 230000002596 correlated effect Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 description 8
- 238000010276 construction Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000001276 controlling effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000003405 preventing effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/12—Detection or prevention of fraud
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/08—Testing, supervising or monitoring using real traffic
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Evolutionary Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Economics (AREA)
- Marketing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Technology Law (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Computer Security & Cryptography (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明一种基于用户网络行为的具有借贷需求的用户识别方法及装置,方法包括:1)、获取运营商记录的用户数据,得到关联后的第一特征宽表;2)、针对第一特征宽表中的每一条用户数据中的每一个主叫号码,建立主叫号码与金融机构之间的关联特征;3)、得到对应于主叫号码的样本数据,并为样本数据增加标签,将增加标签后的样板数据的集合作为第二特征宽表;4)、将第二特征宽表划分为训练集和测试集,利用训练集训练Xgboost模型,并使用测试集测试训练后的目标Xgboost模型的准确率;5)、使用目标Xgboost模型筛选出待识别数据中存在借贷需求的用户。应用本发明实施例,可以识别出具有借贷需求的用户。
Description
技术领域
本发明涉及金融安全领域,具体涉及一种基于用户网络行为的具有借贷需求的用户识别方法及装置。
背景技术
随着通讯和网络的发展及普及,越来越多的交易通过互联网进行。互联网交易行为的大量应用也给了电信网络诈骗分子可乘之机,导致电信网络诈骗日益成为威胁公众财产和社会安定的一大危害。随着刑事打击和普法宣传力度的不断加大,电信网络诈骗得到了一定程度上的遏制。但是,近几年一种新的诈骗方式出现了:贷款诈骗,其通过在网站中发布借贷信息,且一般以无抵押、不要求征信等条件引诱受害者上钩。尤其近年来较流行的“套路贷”诈骗方式,就是通过发布借贷信息来招揽受害者,从而通过一系列的“套路”来不断增加高额利息,最终致使受害者无力偿还贷款。“套路贷”犯罪的发展蔓延,不仅直接侵害被害人的合法财产权益,而且其中掺杂的暴力、威胁、虚假诉讼等索款手段又容易诱发其他犯罪,甚至造成被害人卖车、卖房抵债等严重后果,带来一系列社会问题。“套路贷”诱导不明真相的群众参与借贷行为,造成了个人和家庭财产损失,严重侵害了人民群众合法权益。因此,如何识别出有借贷需求的用户,是对借贷诈骗进行预防与管控的第一步。因此,如何识别出具有借贷需求的用户是亟待解决的技术问题。
发明内容
本发明所要解决的技术问题在于如何提供一种基于用户网络行为的具有借贷需求的用户识别方法以识别出具有借贷需求的用户。
本发明通过以下技术手段实现解决上述技术问题的:
本发明实施例提供了一种基于用户网络行为的具有借贷需求的用户识别方法,所述方法包括:
1)、获取运营商记录的用户数据,并将所述用户数据以用户手机号码和日期为关联媒介进行关联,得到关联后的第一特征宽表,其中,所述用户数据包括:话单数据、短信数据以及dpi数据;
2)、针对第一特征宽表中的每一条用户数据中的每一个主叫号码,建立所述主叫号码与金融机构之间的关联特征;
3)、将所述主叫号码对应的各个关联特征进行拼接得到对应于所述主叫号码的样本数据,并为所述样本数据增加标签,将增加标签后的样板数据的集合作为第二特征宽表,其中,所述标签的值为表征该行数据是否有资金需求的符号;
4)、将第二特征宽表划分为训练集和测试集,利用所述训练集训练Xgboost模型,并使用测试集测试训练后的Xgboost模型的准确率,将准确率最高的训练后的Xgboost模型作为目标Xgboost模型;
5)、使用目标Xgboost模型筛选出待识别数据中存在借贷需求的用户。
应用本发明实施例,从运营商记录的用户数据中筛选出根据用户与金融机构之间的关联特征,并使用这些关联特征训练Xgboost模型,利用训练号的Xgboost模型可以识别出具有借贷需求的用户。
可选的,所述建立所述主叫号码与金融机构之间的关联特征,包括:
建立所述主叫号码呼叫金融机构的行为的金融机构通话行为特征,建立所述主叫号码与金融机构进行短信通信的金融机构短信特征;建立所述主叫号码对应的设备浏览借贷网页的借贷网页浏览行为特征;建立所述主叫号码对应的设备搜索借贷关键字的搜索关键字行为特征;建立所述主叫号码对应的设备使用金融类APP的金融类App使用行为特征。
可选的,所述将所述主叫号码对应的各个关联特征进行拼接得到对应于所述主叫号码的样本数据,并为所述样本数据增加标签,包括:
将所述主叫号码对应的各个关联特征拼接为一行,并在所述行尾增加标签列,标签列中存储有所述主叫号码对应的用户是否存在资金需求的符号,其中,所述符号包括:0、1、Y以及N中的一种或组合。
可选的,所述利用所述训练集训练Xgboost模型,并使用测试集测试训练后的Xgboost模型的准确率,直至训练后的Xgboost模型的准确率达到预期目标,包括:
a、在当前次训练中,利用所述训练集训练Xgboost模型;使用当前次训练后的Xgboost模型识别测试集中的各条数据,得到每条数据对应的识别结果;根据测试集中各条数据中标签的实际值与识别结果之间的差异,计算当前次训练后的Xgboost模型的准确率;
b、通过网格搜索调参的方法调节所述当前次训练后的Xgboost模型的模型参数,并返回执行步骤a,直至所有参数都被选择,选取准确率最高的模型作为目标Xgboost模型,其中,所述模型参数包括:决策树数量、模型的最大深度、最小分裂参数及学习速率中的一种或组合。
可选的,所述将第二特征宽表划分为训练集和测试集,包括:
在每一次迭代中,将第二特征宽表划分为K等份,随机将其中的一份作为测试集,将除测试集之外的K-1份数据作为训练集,其中,所述K大于等于2。
本发明实施例还提供了一种基于用户网络行为的具有借贷需求的用户识别装置,所述装置包括:
获取模块,用于获取运营商记录的用户数据,并将所述用户数据以用户手机号码和日期为关联媒介进行关联,得到关联后的第一特征宽表,其中,所述用户数据包括:话单数据、短信数据以及dpi数据;
建立模块,用于针对第一特征宽表中的每一条用户数据中的每一个主叫号码,建立所述主叫号码与金融机构之间的关联特征;
拼接模块,用于将所述主叫号码对应的各个关联特征进行拼接得到对应于所述主叫号码的样本数据,并为所述样本数据增加标签,将增加标签后的样板数据的集合作为第二特征宽表,其中,所述标签的值为表征该行数据是否有资金需求的符号;
训练模块,用于将第二特征宽表划分为训练集和测试集,利用所述训练集训练Xgboost模型,并使用测试集测试训练后的Xgboost模型的准确率,将准确率最高的训练后的Xgboost模型作为目标Xgboost模型;
识别模块,用于使用目标Xgboost模型筛选出待识别数据中存在借贷需求的用户。
可选的,所述建立模块,用于:
建立所述主叫号码呼叫金融机构的行为的金融机构通话行为特征,建立所述主叫号码与金融机构进行短信通信的金融机构短信特征;建立所述主叫号码对应的设备浏览借贷网页的借贷网页浏览行为特征;建立所述主叫号码对应的设备搜索借贷关键字的搜索关键字行为特征;建立所述主叫号码对应的设备使用金融类APP的金融类App使用行为特征。
可选的,所述拼接模块,用于:
将所述主叫号码对应的各个关联特征拼接为一行,并在所述行尾增加标签列,标签列中存储有所述主叫号码对应的用户是否存在资金需求的符号,其中,所述符号包括:0、1、Y以及N中的一种或组合。
可选的,所述训练模块,用于:
a、在当前次训练中,利用所述训练集训练Xgboost模型;使用当前次训练后的Xgboost模型识别测试集中的各条数据,得到每条数据对应的识别结果;根据测试集中各条数据中标签的实际值与识别结果之间的差异,计算当前次训练后的Xgboost模型的准确率;
b、通过网格搜索调参的方法调节所述当前次训练后的Xgboost模型的模型参数,并返回执行步骤a,直至所有参数都被选择,选取准确率最高的模型作为目标Xgboost模型,其中,所述模型参数包括:决策树数量、模型的最大深度、最小分裂参数及学习速率中的一种或组合。
可选的,所述训练模块,用于:
在每一次迭代中,将第二特征宽表划分为K等份,随机将其中的一份作为测试集,将除测试集之外的K-1份数据作为训练集,其中,所述K大于等于2。
本发明的优点在于:
应用本发明实施例,从运营商记录的用户数据中筛选出根据用户与金融机构之间的关联特征,并使用这些关联特征训练Xgboost模型,利用训练号的Xgboost模型可以识别出具有借贷需求的用户。
附图说明
图1为本发明实施例提供的一种基于用户网络行为的具有借贷需求的用户识别方法的流程示意图;
图2为本发明实施例提供的一种基于用户网络行为的具有借贷需求的用户识别方法中Xgboost模型的决策树的结构示意图;
图3为本发明实施例提供的一种基于用户网络行为的具有借贷需求的用户识别装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1为本发明实施例提供的一种基于用户网络行为的具有借贷需求的用户识别方法的流程示意图,如图1所示,所述方法包括:
S101:获取运营商记录的用户数据,并将所述用户数据以用户手机号码和日期为关联媒介进行关联,得到关联后的第一特征宽表,其中,所述用户数据包括:话单数据、短信数据以及dpi数据。
示例性的,可以获取运营商话单数据,包含但不限于用户的手机号码、金融机构号码、通话开始时间、通话结束时间、通话时长等;
获取运营商短信数据,包含但不限于用户的手机号码、短信接收时间、接收短信的对端发送号码、是否回复等;
获取运营商dpi(Deep Packet Inspection,深度报文检测)数据,包含但不限于用户手机号码、搜索关键字内容、浏览网页是否为借贷网站、安装金融类App的名称、金融类App的安装时间、金融类App的使用时长、金融类App的使用流量等。
将以上三部分数据以用户手机号码和日期作为关联媒介,整合成宽表T1,例如,手机号码135XXX的若干条通话记录可以作为对应条数的用户数据;
使用该号码的手机浏览网页时产生的网页浏览数据,将这些网页浏览数据与手机号码手机号码135XXX进行关联;
使用该号码的手机发送的短信产生的通信记录,将这些通信记录与手机号码135XXX关联;
使用该号码的办理的宽带产生的网页浏览记录以及搜索记录,将这些记录与手机号码135XXX关联;
还可以将使用该号码的手机使用的金融类APP的相关数据与手机号码135XXX关联。
需要强调的是,关联的数据包括但不仅限于上述数据,而且关联方式包括但不仅限于手机号码,还可以为用户的身份证号等数据。
在使用手机号码数据进行关联时,还可以加入时间作为辅助的关联媒介。
S102:针对第一特征宽表中的每一条用户数据中的每一个主叫号码,建立所述主叫号码与金融机构之间的关联特征。
具体的,可以建立所述主叫号码呼叫金融机构的行为的金融机构通话行为特征,建立所述主叫号码与金融机构进行短信通信的金融机构短信特征;建立所述主叫号码对应的设备浏览借贷网页的借贷网页浏览行为特征;建立所述主叫号码对应的设备搜索借贷关键字的搜索关键字行为特征;建立所述主叫号码对应的设备使用金融类APP的金融类App使用行为特征。
示例性的,将S101步骤中得到的第一特征宽表中包含金融机构对应关键词的数据筛选出来,并以主叫电话号码为单位,取当月数据进行关联特征构建;主要从以下五个部分进行关联特征构建:
金融机构通话行为特征;可以通过提取出主叫号码有拨打金融机构行为的通话数据,构建主叫号码与金融机构的通话次数、平均时长、通话次数或者平均时长与历史相比变化系数、主被叫占比等通话特征的方法进行特征构建,其中,如主被叫占比=该号码作为主叫的次数/该号码作为被叫的次数;通话次数变化系数是通过当前数据与历史数据计算得到的,用于表示用户该行为特征与历史平均水平相比的变化情况,如主叫号码拨打金融机构电话次数与历史相比变化系数指标=该号码当月拨打金融机构电话次数/半年内该号码拨打金融机构电话次数的平均值。
金融机构短信特征:可以通过提取出主叫号码有与金融机构短信发送行为的数据,构建主叫号码与金融机构短信发送、接收的次数、发送量占比、接受量占比、与历史相比变化系数等特征的方法进行特征构建;
借贷网页浏览行为特征:可以通过提取主叫号码浏览借贷网页行为数据,构建借贷网页浏览次数、平均浏览时长、浏览借贷网页个数、浏览借贷网页个数占比、与历史相比变化系数等特征的方法进行特征构建;
搜索关键字行为特征:可以通过提取主叫号码网页搜索关键字行为数据,构建主叫号码搜索与借贷相关的关键字个数、与历史相比变化系数等特征的方法进行特征构建;
金融类App使用行为特征:可以通过提取主叫号码使用金融类App行为的数据,构建主叫号码金融类App安装次数、App个数、使用次数、平均使用时长、使用流量、使用流量占比、使用时长占比、与历史相比变化系数等特征的方法进行特征构建其中,金融类App使用流量占比=金融类App使用流量/所有App使用流量。
S103:将所述主叫号码对应的各个关联特征进行拼接得到对应于所述主叫号码的样本数据,并为所述样本数据增加标签,将增加标签后的样板数据的集合作为第二特征宽表,其中,所述标签的值为表征该行数据是否有资金需求的符号。
具体的,可以将所述主叫号码对应的各个关联特征拼接为一行,并在所述行尾增加标签列,标签列中存储有所述主叫号码对应的用户是否存在资金需求的符号,其中,所述符号包括:0、1、Y以及N中的一种或组合。
示例性的,在关联特征构建完成后,以主叫号码为主键,拼接各个特征作为数据列,并增加标签列,其值为0或者1,其中,0表示无资金需求用户,1表示有资金需求用户,最终形成特征宽表T2,表1为本发明实施例提供的使用标签列标记后的拼接后的关联特征汇总表:
表2
将若干个号码的数据汇总在一起就可以得到了第二特征宽表。
S104:将第二特征宽表划分为训练集和测试集,利用所述训练集训练Xgboost模型,并使用测试集测试训练后的Xgboost模型的准确率,将准确率最高的训练后的Xgboost模型作为目标Xgboost模型。
具体的,训练过程可以包括:
首先,通过k折交叉验证法(在此k取10,k的值根据需要进行调整,k大于等于2)对训练样本集进行拆分,其中一份作为测试集,剩下k-1份作为训练集;即,可以将第二特征宽表划分为10等份,随机将第2份作为测试集,将除测试集之外的9份数据作为训练集。
将训练集中的每一条数据作为一个样本,将样板中的每个特征指标作为模型训练阶段的输入参数,标签列中的字段或者值作为用户的分类标签。
对所构建的Xgboost模型,其训练过程如下:
a、在当前次训练中,利用所述训练集训练Xgboost模型;使用当前次训练后的Xgboost模型识别测试集中的各条数据,得到每条数据对应的识别结果;根据测试集中各条数据中标签的实际值与识别结果之间的差异,计算当前次训练后的Xgboost模型的准确率。
b、通过网格搜索调参的方式,即通过修改当前参数中的一个或多个,固定其他参数,
使用训练集对Xgboost模型进行训练,并利用网格搜索法对模型的参数进行调优处理。具体方法是:修改所需要调整的参数中的一个或多个的值,固定其他所需要调整的参数的值不变进行模型的训练,并比较模型的输出结果与标签数据,选择模型准确率最高的参数。比如:设定树的最大深度max_depth范围为(1,2,3,4,5,6,7,8,9),固定其他参数的值不变,依次选择max_depth=1,2,3…,9进行模型的训练,选择模型准确率最高的max_depth值记为该参数调优后的值。依次对其他参数进行同样处理,最终得到最优模型,需要进行调优的参数有:决策树数量、模型的最大深度、最小分裂参数集学习速率等。
c、按步骤a、b再次进行模型的训练与效果评估,直至各个参数都被选择,所述模型参数包括:决策树数量、模型的最大深度、最小分裂参数及学习速率等。
示例性的,Xgboost是boosting算法的一种,它是将许多CART回归树模型集合在一起,形成一个分类性能很强的分类器,从而提升分类效果。该算法的核心思想是不断地添加树,不断地进行特征分类来生长一个树,每次添加一个树实际上是学习一个新函数,去拟合上次预测的残差。其最终预测样本所得到的分数,就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点上,每个叶子节点对应一个分数,最后将每颗树的分数加起来就是该样本的预测值。
在决策树算法中,其对样例的划分是通过对其特征值进行判断从而向左或者向右划分,最终达到叶子节点。
Xgboost就是使用了集成的思想,通过使用多棵树来组成一个强分类器。
然后,对Xgboost第一次迭代过程中的添加树的过程进行介绍:
初始阶段树是0,可表示为:
添加第一棵树:其中,/>为第一棵树的输出结果;f1(xi)为第一棵树对应的拟合函数;i为第二特征宽表中的数据的条数。
添加第二棵树:其中,/>为第一棵树的输出结果;f2(xi)为第一棵树对应的拟合函数。
以此类推,最终第t轮的模型预测:
添加树的过程需要保证加入的新的树能够提升整体的表达效果,即新的树添加之后,目标函数的值会下降。进一步的,本发明实施例中为了在当叶子节点过多时,降低过拟合的风险增加了惩罚项。
Xgboost的目标函数可以表示为:
其中,
Ω(ft)为Xgboost惩罚项,且λ为惩罚力度,T为叶子的个数;w为叶子节点的得分;y′为整个累加模型的输出,/>为正则化项,表示树的复杂度的函数,复杂度越低,表示模型的泛化能力越强。
将本轮迭代中t棵树添加完成后,使用测试集测试本轮迭代中训练的Xgboost模型的预测结果,如果本轮迭代中得到的预测结果的准确性大于或者等于预设阈值,则结束迭代。如果本轮迭代中得到的预测结果的准确性小于预设阈值,则调节决策树数量、模型的最大深度、最小分裂参数及学习速率等参数,得到调节后的Xgboost模型,并进行下一轮迭代,直至迭代结束。
需要强调的是,模型最终输出的结果可以是用户的分类结果,其值为0/1,也可以输出用户的分类概率值,默认概率值大于或等于0.5的认为是有借贷需求的用户,可根据实际需求进行阈值的调节。另外,不同次迭代中第二特征宽表被划分的份数可以不同,也可以相同。
在本发明实施例中,在使用验证集对Xgboost模型进行验证时,是使用交叉验证法对Xgboost模型进行测试。可以选择平均效果最好的模型。
S105:使用目标Xgboost模型筛选出待识别数据中存在借贷需求的用户。
应用本发明实施例,从运营商记录的用户数据中筛选出根据用户与金融机构之间的关联特征,并使用这些关联特征训练Xgboost模型,利用训练号的Xgboost模型可以识别出具有借贷需求的用户。
进一步的,本发明实施例通过完善的特征构造以及结合Xgboost机器学习算法,能够准确地识别出哪些用户具有借贷需求,这对电信诈骗地防控与管制起到了很大的指导作用,通过本发明所识别出的用户,可根据对其下一步行为进行分析,判断其是否可能遭受到电信诈骗,从而对其进行短信或电话提醒。
另外,本发明实施例构建了较为完善的特征工程;本发明所展示的特征部分,是基于对有借贷需求的用户的行为进行深入分析得来的。其中包含用户的借贷网页浏览、金融类APP的使用、搜索关键字以及用户的通话、短信等行为特征。
实施例2
与本发明图1所示实施例相对应,本发明实施例还提供了一种基于用户网络行为的具有借贷需求的用户识别装置。
图3为本发明实施例提供的一种基于用户网络行为的具有借贷需求的用户识别装置的结构示意图,如图3所示,所述装置包括:
获取模块301,用于获取运营商记录的用户数据,并将所述用户数据以用户手机号码和日期为关联媒介进行关联,得到关联后的第一特征宽表,其中,所述用户数据包括:话单数据、短信数据以及dpi数据;
建立模块302,用于针对第一特征宽表中的每一条用户数据中的每一个主叫号码,建立所述主叫号码与金融机构之间的关联特征;
拼接模块303,用于将所述主叫号码对应的各个关联特征进行拼接得到对应于所述主叫号码的样本数据,并为所述样本数据增加标签,将增加标签后的样板数据的集合作为第二特征宽表,其中,所述标签的值为表征该行数据是否有资金需求的符号;
训练模块304,用于将第二特征宽表划分为训练集和测试集,利用所述训练集训练Xgboost模型,并使用测试集测试训练后的Xgboost模型的准确率,将准确率最高的训练后的Xgboost模型作为目标Xgboost模型;
识别模块305,用于使用目标Xgboost模型筛选出待识别数据中存在借贷需求的用户。
应用本发明实施例,从运营商记录的用户数据中筛选出根据用户与金融机构之间的关联特征,并使用这些关联特征训练Xgboost模型,利用训练号的Xgboost模型可以识别出具有借贷需求的用户。
在本发明实施例的一种具体实施方式中,所述建立模块302,用于:
建立所述主叫号码呼叫金融机构的行为的金融机构通话行为特征,建立所述主叫号码与金融机构进行短信通信的金融机构短信特征;建立所述主叫号码对应的设备浏览借贷网页的借贷网页浏览行为特征;建立所述主叫号码对应的设备搜索借贷关键字的搜索关键字行为特征;建立所述主叫号码对应的设备使用金融类APP的金融类App使用行为特征。
在本发明实施例的一种具体实施方式中,所述拼接模块303,用于:
将所述主叫号码对应的各个关联特征拼接为一行,并在所述行尾增加标签列,标签列中存储有所述主叫号码对应的用户是否存在资金需求的符号,其中,所述符号包括:0、1、Y以及N中的一种或组合。
在本发明实施例的一种具体实施方式中,所述训练模块304,用于:
a、在当前次训练中,利用所述训练集训练Xgboost模型;使用当前次训练后的Xgboost模型识别测试集中的各条数据,得到每条数据对应的识别结果;根据测试集中各条数据中标签的实际值与识别结果之间的差异,计算当前次训练后的Xgboost模型的准确率;
b、通过网格搜索调参的方法调节所述当前次训练后的Xgboost模型的模型参数,并返回执行步骤a,直至所有参数都被选择,选取准确率最高的模型作为目标Xgboost模型,其中,所述模型参数包括:决策树数量、模型的最大深度、最小分裂参数及学习速率中的一种或组合。
在本发明实施例的一种具体实施方式中,所述训练模块304,用于:
在每一次迭代中,将第二特征宽表划分为K等份,随机将其中的一份作为测试集,将除测试集之外的K-1份数据作为训练集,其中,所述K大于等于2。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种基于用户网络行为的具有借贷需求的用户识别方法,其特征在于,所述方法包括:
1)、获取运营商记录的用户数据,并将所述用户数据以用户手机号码和日期为关联媒介进行关联,得到关联后的第一特征宽表,其中,所述用户数据包括:话单数据、短信数据以及dpi数据;
2)、针对第一特征宽表中的每一条用户数据中的每一个主叫号码,建立所述主叫号码与金融机构之间的关联特征;
3)、将所述主叫号码对应的各个关联特征进行拼接得到对应于所述主叫号码的样本数据,并为所述样本数据增加标签,将增加标签后的样本数据的集合作为第二特征宽表,其中,所述标签的值为表征主叫号码对应的用户数据是否有资金需求的符号;
4)、将第二特征宽表划分为训练集和测试集,利用所述训练集训练Xgboost模型,并使用测试集测试训练后的Xgboost模型的准确率,将准确率最高的训练后的Xgboost模型作为目标Xgboost模型;
5)、使用目标Xgboost模型筛选出待识别数据中存在借贷需求的用户;
其中,建立所述主叫号码与金融机构之间的关联特征,包括:
建立所述主叫号码呼叫金融机构的行为的金融机构通话行为特征,建立所述主叫号码与金融机构进行短信通信的金融机构短信特征;建立所述主叫号码对应的设备浏览借贷网页的借贷网页浏览行为特征;建立所述主叫号码对应的设备搜索借贷关键字的搜索关键字行为特征;建立所述主叫号码对应的设备使用金融类APP的金融类App使用行为特征;
所述将所述主叫号码对应的各个关联特征进行拼接得到对应于所述主叫号码的样本数据,并为所述样本数据增加标签,包括:
将所述主叫号码对应的各个关联特征拼接为一行,并在行尾增加标签列,标签列中存储有所述主叫号码对应的用户是否存在资金需求的符号,其中,所述符号包括:0、1、Y以及N中的一种或组合。
2.根据权利要求1所述的一种基于用户网络行为的具有借贷需求的用户识别方法,其特征在于,利用所述训练集训练Xgboost模型,并使用测试集测试训练后的Xgboost模型的准确率,直至训练后的Xgboost模型的准确率达到预期目标,包括:
a、在当前次训练中,利用所述训练集训练Xgboost模型;使用当前次训练后的Xgboost模型识别测试集中的各条数据,得到每条数据对应的识别结果;根据测试集中各条数据中标签的实际值与识别结果之间的差异,计算当前次训练后的Xgboost模型的准确率;
b、通过网格搜索调参的方法调节所述当前次训练后的Xgboost模型的模型参数,并返回执行步骤a,直至所有参数都被选择,选取准确率最高的模型作为目标Xgboost模型,其中,所述模型参数包括:决策树数量、模型的最大深度、最小分裂参数及学习速率中的一种或组合。
3.根据权利要求2所述的一种基于用户网络行为的具有借贷需求的用户识别方法,其特征在于,所述将第二特征宽表划分为训练集和测试集,包括:
在每一次迭代中,将第二特征宽表划分为K等份,随机将其中的一份作为测试集,将除测试集之外的K-1份数据作为训练集,其中,K大于等于2。
4.一种基于用户网络行为的具有借贷需求的用户识别装置,其特征在于,所述装置包括:
获取模块,用于获取运营商记录的用户数据,并将所述用户数据以用户手机号码和日期为关联媒介进行关联,得到关联后的第一特征宽表,其中,所述用户数据包括:话单数据、短信数据以及dpi数据;
建立模块,用于针对第一特征宽表中的每一条用户数据中的每一个主叫号码,建立所述主叫号码与金融机构之间的关联特征;
拼接模块,用于将所述主叫号码对应的各个关联特征进行拼接得到对应于所述主叫号码的样本数据,并为所述样本数据增加标签,将增加标签后的样本数据的集合作为第二特征宽表,其中,所述标签的值为表征主叫号码对应的用户数据是否有资金需求的符号;
训练模块,用于将第二特征宽表划分为训练集和测试集,利用所述训练集训练Xgboost模型,并使用测试集测试训练后的Xgboost模型的准确率,将准确率最高的训练后的Xgboost模型作为目标Xgboost模型;
识别模块,用于使用目标Xgboost模型筛选出待识别数据中存在借贷需求的用户;
其中,所述建立模块,用于:
建立所述主叫号码呼叫金融机构的行为的金融机构通话行为特征,建立所述主叫号码与金融机构进行短信通信的金融机构短信特征;建立所述主叫号码对应的设备浏览借贷网页的借贷网页浏览行为特征;建立所述主叫号码对应的设备搜索借贷关键字的搜索关键字行为特征;建立所述主叫号码对应的设备使用金融类APP的金融类App使用行为特征;
所述拼接模块,用于:
将所述主叫号码对应的各个关联特征拼接为一行,并在行尾增加标签列,标签列中存储有所述主叫号码对应的用户是否存在资金需求的符号,其中,所述符号包括:0、1、Y以及N中的一种或组合。
5.根据权利要求4所述的一种基于用户网络行为的具有借贷需求的用户识别装置,其特征在于,所述训练模块,用于:
a、在当前次训练中,利用所述训练集训练Xgboost模型;使用当前次训练后的Xgboost模型识别测试集中的各条数据,得到每条数据对应的识别结果;根据测试集中各条数据中标签的实际值与识别结果之间的差异,计算当前次训练后的Xgboost模型的准确率;
b、通过网格搜索调参的方法调节所述当前次训练后的Xgboost模型的模型参数,并返回执行步骤a,直至所有参数都被选择,选取准确率最高的模型作为目标Xgboost模型,其中,所述模型参数包括:决策树数量、模型的最大深度、最小分裂参数及学习速率中的一种或组合。
6.根据权利要求5所述的一种基于用户网络行为的具有借贷需求的用户识别装置,其特征在于,所述训练模块,用于:
在每一次迭代中,将第二特征宽表划分为K等份,随机将其中的一份作为测试集,将除测试集之外的K-1份数据作为训练集,其中,K大于等于2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911201625.3A CN110956503B (zh) | 2019-11-29 | 2019-11-29 | 基于用户网络行为的具有借贷需求的用户识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911201625.3A CN110956503B (zh) | 2019-11-29 | 2019-11-29 | 基于用户网络行为的具有借贷需求的用户识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110956503A CN110956503A (zh) | 2020-04-03 |
CN110956503B true CN110956503B (zh) | 2024-02-23 |
Family
ID=69979060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911201625.3A Active CN110956503B (zh) | 2019-11-29 | 2019-11-29 | 基于用户网络行为的具有借贷需求的用户识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110956503B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861487A (zh) * | 2020-07-10 | 2020-10-30 | 中国建设银行股份有限公司 | 金融交易数据处理方法、欺诈行为的监测方法和装置 |
CN112464058B (zh) * | 2020-11-30 | 2024-08-20 | 上海欣方智能系统有限公司 | 一种基于XGBoost算法的电信互联网诈骗识别方法 |
CN113362156B (zh) * | 2021-05-26 | 2023-10-17 | 哈尔滨工业大学重庆研究院 | 基于物联网的金融欺诈检测识别系统 |
CN113535817B (zh) * | 2021-07-13 | 2024-05-14 | 浙江网商银行股份有限公司 | 特征宽表生成及业务处理模型的训练方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106600369A (zh) * | 2016-12-09 | 2017-04-26 | 广东奡风科技股份有限公司 | 基于朴素贝叶斯分类的银行金融产品实时推荐系统和方法 |
WO2018090657A1 (zh) * | 2016-11-18 | 2018-05-24 | 同济大学 | 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统 |
CN109165983A (zh) * | 2018-09-04 | 2019-01-08 | 中国平安人寿保险股份有限公司 | 保险产品推荐方法、装置、计算机设备和存储介质 |
CN109272408A (zh) * | 2018-10-31 | 2019-01-25 | 平安科技(深圳)有限公司 | 车贷款金融产品智能推荐方法、装置、设备及介质 |
CN109978680A (zh) * | 2019-03-18 | 2019-07-05 | 杭州绿度信息技术有限公司 | 一种细分客群信贷业务风控差异化定价的风控方法和系统 |
CN110363650A (zh) * | 2019-06-27 | 2019-10-22 | 上海淇毓信息科技有限公司 | 一种存量用户动支意愿预测方法、装置和系统 |
CN110490646A (zh) * | 2019-08-01 | 2019-11-22 | 北京东方国信科技股份有限公司 | 汽车品牌目标用户的确定方法及装置 |
-
2019
- 2019-11-29 CN CN201911201625.3A patent/CN110956503B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018090657A1 (zh) * | 2016-11-18 | 2018-05-24 | 同济大学 | 基于BP_Adaboost模型的信用卡用户违约的预测方法及系统 |
CN106600369A (zh) * | 2016-12-09 | 2017-04-26 | 广东奡风科技股份有限公司 | 基于朴素贝叶斯分类的银行金融产品实时推荐系统和方法 |
CN109165983A (zh) * | 2018-09-04 | 2019-01-08 | 中国平安人寿保险股份有限公司 | 保险产品推荐方法、装置、计算机设备和存储介质 |
CN109272408A (zh) * | 2018-10-31 | 2019-01-25 | 平安科技(深圳)有限公司 | 车贷款金融产品智能推荐方法、装置、设备及介质 |
CN109978680A (zh) * | 2019-03-18 | 2019-07-05 | 杭州绿度信息技术有限公司 | 一种细分客群信贷业务风控差异化定价的风控方法和系统 |
CN110363650A (zh) * | 2019-06-27 | 2019-10-22 | 上海淇毓信息科技有限公司 | 一种存量用户动支意愿预测方法、装置和系统 |
CN110490646A (zh) * | 2019-08-01 | 2019-11-22 | 北京东方国信科技股份有限公司 | 汽车品牌目标用户的确定方法及装置 |
Non-Patent Citations (4)
Title |
---|
CDR analysis using Big Data technology;Sara B. Elagib等;《 2015 International Conference on Computing, Control, Networking, Electronics and Embedded Systems Engineering (ICCNEEE)》;全文 * |
Heterogeneous Ensemble for Default Prediction of Peer-to-Peer Lending in China;Wei Li等;《IEEE Access》;第06卷;全文 * |
一种用于构建用户画像的二级融合算法框架;李恒超等;《计算机科学》;20180115(第01期);全文 * |
运营商大数据引入方案分析;赵东晖等;《移动通信》(第21期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110956503A (zh) | 2020-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110956503B (zh) | 基于用户网络行为的具有借贷需求的用户识别方法及装置 | |
CN105306495B (zh) | 用户识别方法和装置 | |
CN109670937A (zh) | 风险用户识别方法、用户设备、存储介质及装置 | |
CN109831459B (zh) | 安全访问的方法、装置、存储介质和终端设备 | |
CN111428217B (zh) | 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质 | |
CN110598982B (zh) | 基于智能交互的主动风控方法和系统 | |
CN111061948B (zh) | 一种用户标签推荐方法、装置、计算机设备及存储介质 | |
CN112464058B (zh) | 一种基于XGBoost算法的电信互联网诈骗识别方法 | |
CN110609908A (zh) | 案件串并方法及装置 | |
CN111127185A (zh) | 信贷欺诈识别模型构建方法及装置 | |
CN110796269A (zh) | 一种生成模型的方法、装置、信息处理的方法及装置 | |
CN114915468A (zh) | 基于知识图谱的网络犯罪智能分析检测方法 | |
CN112016850A (zh) | 业务评估方法以及装置 | |
CN111062422B (zh) | 一种套路贷体系化识别方法及装置 | |
CN113887214B (zh) | 基于人工智能的意愿推测方法、及其相关设备 | |
CN112468444B (zh) | 互联网域名滥用识别方法和装置,电子设备,存储介质 | |
CN111105064A (zh) | 确定欺诈事件的嫌疑信息的方法及装置 | |
CN109658277B (zh) | 一种学术社交网络好友推荐方法、系统和存储介质 | |
CN116595486A (zh) | 风险识别方法、训练风险识别模型的方法及对应装置 | |
CN113806555B (zh) | 用于app的运营异常识别方法、系统、装置及存储介质 | |
CN117993910A (zh) | 异常交易应对策略的验证方法及相关装置 | |
CN115134808B (zh) | 网络流量检测方法及系统 | |
Blue et al. | This is me: A Bayesian approach to weighting digital identity sources | |
CN113259150B (zh) | 一种数据处理方法、系统以及存储介质 | |
CN117614748B (zh) | 一种基于大语言模型的钓鱼邮件检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |