CN111861699B - 一种基于运营商数据的反欺诈指数生成方法 - Google Patents

一种基于运营商数据的反欺诈指数生成方法 Download PDF

Info

Publication number
CN111861699B
CN111861699B CN202010634142.9A CN202010634142A CN111861699B CN 111861699 B CN111861699 B CN 111861699B CN 202010634142 A CN202010634142 A CN 202010634142A CN 111861699 B CN111861699 B CN 111861699B
Authority
CN
China
Prior art keywords
data
fraud
behavior
customer
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010634142.9A
Other languages
English (en)
Other versions
CN111861699A (zh
Inventor
陈建
龙泳先
何侃
廖博帆
程金旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruizhi Tuyuan Technology Co ltd
Original Assignee
Beijing Ruizhi Tuyuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruizhi Tuyuan Technology Co ltd filed Critical Beijing Ruizhi Tuyuan Technology Co ltd
Priority to CN202010634142.9A priority Critical patent/CN111861699B/zh
Publication of CN111861699A publication Critical patent/CN111861699A/zh
Application granted granted Critical
Publication of CN111861699B publication Critical patent/CN111861699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供了一种基于运营商数据的反欺诈指数生成方法,包括获取客户还款行为,根据预设的欺诈判断规则,定义客户的欺诈行为;根据所述欺诈行为,提取客户的运营商数据,并确定客户的行为数据;将所述客户的行为数据进行处理,并提取数据特征;根据所述数据特征,搭建欺诈指数模型;根据所述欺诈指数模型,对客户的欺诈行为进行线上预测,并确定反欺诈指数。本发明的有益效果在于:形成全方位、立体化、多维度的判断和识别机制,提高反欺诈命中率,更贴近真实的电子银行市场交易场景。提高暴露风险筛选的准精度和准度,并使运维人员能够从大量信息中准确提取有价值的风险信息,便于管理人员进行决策和维护。

Description

一种基于运营商数据的反欺诈指数生成方法
技术领域
本发明涉及信贷技术领域,特别涉及一种基于运营商数据的反欺诈指数生成方法。
背景技术
目前,随着社会的发展,国家信贷市场规模急剧扩大,银行的发展前景也在不断变化。与此同时,防止个人信用欺诈和降低不良信用率已成为商业银行的重要研究课题。尽管国内信贷市场的规模已大大增加,但相应服务的质量并未显着改善,特别是商业银行面临各种问题,例如贷款逾期和不良贷款等,给商业银行造成了重大损失。
商业银行面临的最常见欺诈风险是逾期风险。相关主要风险有信贷风险、运营风险、流动性风险和市场风险。信用风险是信用合作伙伴固有的风险,也是银行面临的最大风险。操作风险主要是指由于内部银行系统故障或外部事件而造成的损失风险。操作风险并不常发生,但是一旦出现可能带来毁灭性打击。流动性风险意味着尽管商业银行有偿付能力,但仍可能无法及时提供充足的资金或不能以合理的成本及时筹集足够的资金来应对资产增长和偿还债务的风险。银行通常会采取一系列措施来避免融资风险,例如银行通常具有专门的风控人员,负责管理从总部到分支机构的各种风险管理。可以对贷款风险进行量化,并为信贷人员的决策提供基准,通过使用信用评级对逾期进行预测或基于风险模型可以计算出违约概率。定量分析可以为银行提供客观的基准,但当前市场仍广泛使用定性分析。与大公司相比,中小型企业及个人业务面临着更多的困难。因为缺乏标准化的财务报表,具有较低的风险防范功能。
此外,由于缺乏安全系统,一些大型商业银行的网上银行系统遭受了严重的经济损失和影响。例如,最广泛使用的网上银行服务允许客户通过开放的网络环境平台与他们进行通信,然而客户没有真正意义上地接触银行实体。自从开始网上银行以来,网络攻击变得越来越普遍,由于服务器防火墙的技术和功能正在稳步增长,因而对服务器的攻击逐渐转向脆弱的用户。攻击的手段和目的是获得客户的身份信息和认证信息(用户名、账号、密码等)并窃取资金。
现有技术的欺诈方式包括:复制、伪造银行的官方网站,并从银行账户和客户密码中窃取信息,然后实施欺诈;计算机病毒植入客户端计算机或设备终端,盗取客户的银行账户和密码信息。利用银行系统中的漏洞,开发“中间人”程序并进行盗窃。使用录音设备窃取信用卡账户和密码信息。犯罪分子利用商业银行电子银行系统投产时间短、客户与银行交互通讯等特点,研究系统漏洞以窃取客户的信息和资金。
发明内容
本发明提供一种基于运营商数据的反欺诈指数生成方法,用以解决复制、伪造银行的官方网站,并从银行账户和客户密码中窃取信息,然后实施欺诈;计算机病毒植入客户端计算机或设备终端,盗取客户的银行账户和密码信息。利用银行系统中的漏洞,开发“中间人”程序并进行盗窃。使用录音设备窃取信用卡账户和密码信息。犯罪分子利用商业银行电子银行系统投产时间短、客户与银行交互通讯等特点,研究系统漏洞以窃取客户的信息和资金的情况。
一种基于运营商数据的反欺诈指数生成方法,其特征在于,包括:
获取客户还款行为,根据预设的欺诈判断规则,定义客户的欺诈行为;
根据所述欺诈行为,提取客户的运营商数据,并确定客户的行为数据;
将所述客户的行为数据进行处理,并提取数据特征;
根据所述数据特征,搭建欺诈指数模型;
根据所述欺诈指数模型,对客户的欺诈行为进行线上预测,并确定反欺诈指数。
作为本发明的一种实施例,所述方法还包括:
获取反欺诈指数生成任务,确定任务信息;
将所述任务信息通过预设的规则策略进行处理,确定预测结果;其中,所述规则策略包括:进件规则、反欺诈规则、严拒规则、客群判定、可变规则和评分规则。
作为本发明的一种实施例,所述获取客户还款行为,根据预设的欺诈规则,定义客户的欺诈行为,包括:
获取放贷机构的业务行为;
根据所述业务行为,设置欺诈判断规则;其中,
所述欺诈判断规则包括:还款行为结果规则、人工干预结果规则和权威机构判断结果规则;
获取客户的还款行为,判断所述还款行为是否符合欺诈规则;
当所述还款行为符合欺诈规则时,设置所述客户的还款行为的欺诈标签;
根据所述欺诈标签,定义所述客户的业务行为是欺诈行为。
作为本发明的一种实施例,所述根据所述欺诈行为,提取客户的运营商数据,并确定客户的行为数据,包括:
根据所述欺诈行为,获取客户信息;
根据所述客户信息,通过运营商网络获取客户的运营商数据;
根据所述运营商数据,确定客户的贷款申请行为:其中,
所述贷款申请行为包括本地贷款申请和渠道贷款申请行为;
根据所述本地贷款申请和渠道贷款申请行为,获取客户的贷款申请单;
根据所述贷款申请单,确定所述客户的个人申请行为和交易信息;其中,
所述交易信息包括贷款申请数据和历史交易数据;
根据所述客户的个人申请行为和交易信息,确定客户的行为数据。
作为本发明的一种实施例,所述将所述客户的行为数据进行处理,并提取数据特征,包括:
获取所述行为数据,确定数据变量;
根据所述数据变量,确定所述行为数据中的异常数据;
所述异常数据包括缺失值占比大数据、数值异常数据、长度异常数据、关联异常数据、脱敏异常数据和时效性异常数据;
将所述行为数据中的异常数据通过增删或替换处理,得到处理数据;
根据所述处理数据,确定数据特征;其中,
所述数据特征包括网络特征和非网络特征。
作为本发明的一种实施例,所述将所述客户的行为数据进行处理,并提取数据特征,还包括:
步骤1:基于所述行为数据,确定数据类型A、类型权重ξ和数据类型数m,通过聚类处理,确定数据变量的变量合集s:
Figure BDA0002567278960000051
其中,所述si表示第i类的行为数据的数据变量;所述Ai表示第i类的行为数据;所述ξi表示第i类的行为数据的权重;
步骤2:根据所述变量集合,构建所述行为数据得到处理模型H:
Figure BDA0002567278960000052
其中,所述
Figure BDA0002567278960000053
表示数据变量的均值;所述ci表示第i类的行为数据的缺失数据;所述
Figure BDA0002567278960000054
表示数据变量的均值,所述fi表示数值的阀值参数;所述di表示第i类的行为数据的长度,所述k表示空格数;所述z(di,k)表示字符串长度函数;所述g表示加密参数;所述J1,J2表示解密参数;所述sicosθ表示第i类的行为数据加密后的余弦参数;所述sisinθ表示第i类的行为数据加密后的正弦参数;所述θ表示行为数据在加密后与加密前的偏差角度;所述Ti表示第i类的行为数据的发生时间;所述ti表示第i类的行为数据的入库时间;
步骤3:将所述行为数据代入处理模型,进行处理,得到处理数据Hi,并通过处理数据,提取行为数据的数据特征;
Figure BDA0002567278960000061
其中,所述Hi表示第i类行为数据的处理数据的数据参数;所述w表示数据特征;所述N表示数据特征的数量,所述H表示处理数据的均值。
作为本发明的一种实施例,所述数据特征中的网络特征和非网络特征通过以下步骤区分:
根据所述处理数据,获取客户个人信息和申请行为,并构建网络社交图;
根据所述网络社交图,将所述网络社交图中的点作为网络特征;
根据客户个人信息和申请行为,确定所述处理数据中的非客户个人信息和非申请行为,并将所述非客户个人信息和非申请行为定义为非网络特征。
作为本发明的一种实施例,所述根据所述数据特征,搭建欺诈指数模型,包括:
预设欺诈行为的证据规则,并确定证据权重;
预设欺诈行为的信息量规则,并确定信息量阀值;
通过所述证据权重和信息量阀值,过滤所述数据特征,确定建模特征;
基于决策树模型,构建所述欺诈指数模型的建模规则生成模型;
将所述建模特征代入所述建模规则生成模型,确定所述欺诈指数模型。
作为本发明的一种实施例,所述根据所述欺诈指数模型,对客户的欺诈行为进行线上预测,并确定反欺诈指数,包括:
根据所述欺诈指数模型,确定所述客户的欺诈行为的ROC曲线和KS曲线;
根据所述ROC曲线,确定所述客户的欺诈行为的查准率;
根据所述KS曲线,定所述客户的欺诈行为的查全率;
根据所述查准率和查全率,确定最终的反欺诈指数。
作为本发明的一种实施例,所述方法还包括:
根据所述运营商数据,确定客户所有交易行为;
根据所述客户所有交易行为,构建客户的交易关系网络;
根据所述交易关系网络,设置不同的时间周期,并将所述交易关系网络内的交易数据按照时间周期进行阶梯式划分,确定阶梯式数据;
确定所述阶梯式数据中不同阶梯之间的关联特征;
根据所述关联特征和预设的skip-gram模型,将所述关联特征嵌入向量空间后,确定向量指数;
获取所述向量指数与所述反欺诈指数之间的马氏距离;
当所述向量指数与所述反欺诈指数之间的马氏距离为小于等于1时,表示所述反欺诈指数可信;
当所述向量指数与所述反欺诈指数之间的马氏距离大于1时,表示所述反欺诈指数不可信。
本发明的有益效果在于:对电子财务欺诈预防程序的外部决策环境进行系统的全局描述,并考虑影响欺诈预防的有效性和水平的环境支持,包括客户价值信息筛选、客户属性以及客户行为数据的综合分析,以系统性、全面性地判断真实欺诈行为。这项研究的结论明显不同于根据特定规则和规则集合识别风险的观点和做法,反欺诈系统的应用需要置于对宏观的多种环境、多种因素和多种判断方法的综合分析中,通过判断及筛选以进一步提高真实性和使用效果。将系统工具本身的应用与日常应用、管理、运行维护有机结合,形成全方位、立体化、多维度的判断和识别机制,提高反欺诈命中率,更贴近真实的电子银行市场交易场景。
本发明创新地提出了系统应用程序与日常操作、维护的结合,提取了可能影响风险水平和规模判断的重要因素,以切实提高对风险和欺诈的预测能力和水平。例如,某人的账户一段时间内在异地多种渠道上被频繁使用,包括取现、消费和汇款等,但这不符合客户的正常行为。系统只能是给出高水平的风险警告,但在与客户联系后发现客户似乎有不同的工作方式,并且由于职业的性质、现金上的不便使他只能选择电子渠道来满足工作的需求。此时,运维人员应使用运维得到的价值信息来创建用于反欺诈系统的参数,以防止该客户被误认为是高风险级别。创造性地将规则模型与客户的行为习惯相结合,以提高暴露风险筛选的准精度和准度,并使运维人员能够从大量信息中准确提取有价值的风险信息,便于管理人员进行决策和维护。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1为本发明实施例中一种基于运营商数据的反欺诈指数生成方法的方法流程图;
图2为本发明实施例中决策树模型图;
图3为本发明实施例中ROC曲线图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
运营商数据集电信/移动/联通三大运营商数据资源,以通讯网络中的用户手机数据为采集源,在大数据领域具备数据优势、渠道优势和资源整合优势,经过多年发展已经建立起以通话类、位置类、上网类数据为主的用户标签库,并形成以PaaS模式为主的对外服务体系。常用于话单、流量分析及异常监测,一些推荐业务也需要用到用户行为数据。反欺诈特征是指通过对已有的风险人群数据对运营商等数据进行筛选及提炼,得到能够用来判断高欺诈风险水平群体的特征。实际使用中的反欺诈特征主要包括:身份特征、地理特征及流量特征等。
在反欺诈建模过程中,挖掘出历史数据中的规律规则是对欺诈识别的重要且有效的方式。为了能最大限度的发挥运营商历史数据的价值,在软件设计及实践过程中,具体设计流程可以分为四步:问题定义、明确目的、数据挖掘和线上预测。在这四个步骤中,问题定义是从业务出发考虑反欺诈的范围;明确模型目标是从建模的角度、数据逻辑上出发确定反欺诈的标签;数据挖掘指的是根据运营商提供的历史数据,完成反欺诈模型搭建的过程;线上预测则涉及大量的实时计算,需要一个流式计算引擎和建模后的规则系统。
如附图1所示的一种基于运营商数据的反欺诈指数生成方法的方法流程图,包括:
步骤100:获取客户还款行为,根据预设的欺诈判断规则,定义客户的欺诈行为;从建模的角度来讲,模型假设样本有相似的行为模式,逾期符合该假设,然而欺诈不符合此类假设,如果混合在一起建模,对模型效果有着十分严重的影响。因此,为了保证反欺诈模型的效果,首先要明确欺诈的含义,也就是模型的y标签,在逾期中将欺诈行为识别出来。
步骤101:根据所述欺诈行为,提取客户的运营商数据,并确定客户的行为数据;本步骤时数据清洗的步骤,是指对原始数据做最初的处理,将其中明显的异常、错误和重复的数据进行合理修正。这一步通常在数据融合之后进行,因为高维度、变量数量大的数据被拼合在一起之后,可以更容易地识别出数据的异常所在,从而进行有效的清洗。在具体的操作过程中,数据清洗也可能出现在数据拼合之前,因为这样可以减少数据拼合时的计算量,从而降低出错的风险,优化其效率。
步骤102:将所述客户的行为数据进行处理,并提取数据特征;从原始的运营商数据中提取和衍生出对预测欺诈效果有帮助的变量,而这些变量被称为特征。由于模型将直接使用特征,因此特征提取是建模过程中重要的一步,很大程度上决定了模型的预测能力。特征提取是将业务知识和行业经验转化为数学公式的过程,根据反欺诈的业务逻辑和行业经验,我们将提取的特征分为两类:网络特征和非网络特征。
步骤103:根据所述数据特征,搭建欺诈指数模型;
步骤104:根据所述欺诈指数模型,对客户的欺诈行为进行线上预测,并确定反欺诈指数。
本发明的有益效果在于:对电子财务欺诈预防程序的外部决策环境进行系统的全局描述,并考虑影响欺诈预防的有效性和水平的环境支持,包括客户价值信息筛选、客户属性以及客户行为数据的综合分析,以系统性、全面性地判断真实欺诈行为。这项研究的结论明显不同于根据特定规则和规则集合识别风险的观点和做法,反欺诈系统的应用需要置于对宏观的多种环境、多种因素和多种判断方法的综合分析中,通过判断及筛选以进一步提高真实性和使用效果。将系统工具本身的应用与日常应用、管理、运行维护有机结合,形成全方位、立体化、多维度的判断和识别机制,提高反欺诈命中率,更贴近真实的电子银行市场交易场景。
本发明创新地提出了系统应用程序与日常操作、维护的结合,提取了可能影响风险水平和规模判断的重要因素,以切实提高对风险和欺诈的预测能力和水平。例如,某人的账户一段时间内在异地多种渠道上被频繁使用,包括取现、消费和汇款等,但这不符合客户的正常行为。系统只能是给出高水平的风险警告,但在与客户联系后发现客户似乎有不同的工作方式,并且由于职业的性质、现金上的不便使他只能选择电子渠道来满足工作的需求。此时,运维人员应使用运维得到的价值信息来创建用于反欺诈系统的参数,以防止该客户被误认为是高风险级别。创造性地将规则模型与客户的行为习惯相结合,以提高暴露风险筛选的准精度和准度,并使运维人员能够从大量信息中准确提取有价值的风险信息,便于管理人员进行决策和维护。
实施例2:
作为本发明的一种实施例,所述方法还包括:
获取反欺诈指数生成任务,确定任务信息;
将所述任务信息通过预设的规则策略进行处理,确定预测结果;其中,所述规则策略包括:进件规则、反欺诈规则、严拒规则、客群判定、可变规则和评分规则。进件规则的主要作用是用来定义信贷产品特定的目标客群,比如,房屋抵押贷款的进件规则一般就是客户只要要有房吧;助学贷款的进件规则是客户至少要是学生;手机分期贷款的话,客户总要是在买手机吧。进件规则一般是所有风险策略中最公开的部分,这个规则一般都会涉及到线上和线下的渠道推广,如果这个不明确的话,会给后面的审核带来很大的困扰;同时,尤其是线下渠道,进件规则其实也是进场被攻击的地方,因为很对进件规则涉及到的材料审核都会被别有用心的人加以利用。欺诈一般分两类,即申请欺诈和交易欺诈,其中交易欺诈多发生在支付、信用卡及类信用卡等产品中,一般贷款类产品主要会涉及到申请欺诈。申请欺诈通常分四类,但其实它们之间有时界限并不是非常清晰,甚至有可能是同时发生,我的分类依据主要是反欺诈所使用的防控手段。这几类欺诈分别是:身份冒用:被第三方冒用身份;恶意骗贷:把自己豁出去了;资料造假:通过资料造假提升自己获得授信的可能性;用途篡改:部分类型的信贷是指明借款用途的,如果私自改变借款通途,就属于此类欺诈。在进件规则设计到的风险,通常在反欺诈规则中会有相应的对策,但是实际操作中,可能会发生由于某些信息核实的成本过高,在计算过投入产出比后,放弃相应策略的情况。严拒规则通常是指那些信贷机构完全不能容忍或防止合规性风险的规则,比如说,前段时间银监会明确了校园市场,只能由持牌的金融机构来运营的规定,那么在绝大多数户金机构的策略里,大概率会有“if职业为学生,then拒绝”类似的规则;再比如,为了不向未成年人提供贷款,那么就会有“if年龄<18,then拒绝”类似的规则。
实时例3:
作为本发明的一种实施例,所述获取客户还款行为,根据预设的欺诈规则,定义客户的欺诈行为,包括:
获取放贷机构的业务行为;
根据所述业务行为,设置欺诈判断规则;其中,
所述欺诈判断规则包括:还款行为结果规则、人工干预结果规则和权威机构判断结果规则;由于搭建模型具有一定的滞后性,人工干预和外部监管的方法往往在建模已经失效了,因此通常会使用与还款行为相关的方法来定义欺诈行为。
获取客户的还款行为,判断所述还款行为是否符合欺诈规则;
当所述还款行为符合欺诈规则时,设置所述客户的还款行为的欺诈标签;
根据所述欺诈标签,定义所述客户的业务行为是欺诈行为。
本发明一方面会将一些逾期误判为欺诈,另一方面也会遗漏一些欺诈,比如有的欺诈者为了获取更大的额度,会在前期还款时进行伪装。但整体来说,这两种情况所占的比例都在可接受范围内。
实施例4:
作为本发明的一种实施例,所述根据所述欺诈行为,提取客户的运营商数据,并确定客户的行为数据,包括:
根据所述欺诈行为,获取客户信息;
根据所述客户信息,通过运营商网络获取客户的运营商数据;
根据所述运营商数据,确定客户的贷款申请行为:其中,
所述贷款申请行为包括本地贷款申请和渠道贷款申请行为;
根据所述本地贷款申请和渠道贷款申请行为,获取客户的贷款申请单;
根据所述贷款申请单,确定所述客户的个人申请行为和交易信息;其中,
所述交易信息包括贷款申请数据和历史交易数据;
根据所述客户的个人申请行为和交易信息,确定客户的行为数据。
实施例5:
作为本发明的一种实施例,所述将所述客户的行为数据进行处理,并提取数据特征,包括:
获取所述行为数据,确定数据变量;
根据所述数据变量,确定所述行为数据中的异常数据;
所述异常数据包括缺失值占比大数据、数值异常数据、长度异常数据、关联异常数据、脱敏异常数据和时效性异常数据;缺失值占比:相应变量的缺失率;数值异常:相应变量所填写的值有明显错误,比如,年龄为负;长度异常:变量值长度明显错误,比如身份证号、手机号的位数;关联异常:相同多主键匹配时出现了异常的一对多的情况,比如,同一个申请人对应了多条重复的申请信息;脱敏异常:出于对用户隐私的考虑,数据中的某些敏感变量被脱敏处理MD5或SHA256加密过了,如有未脱敏情况出现,定为异常;时效性异常:数据进入数据库的时间和发生的时间存在较大差距和异常。经过以上步骤之后,原始的数据集被加工成了干净的、可以用于建模的数据。在这些数据的基础上,可以进行特征提取以及最终的模型搭建。
将所述行为数据中的异常数据通过增删或替换处理,得到处理数据;
根据所述处理数据,确定数据特征;其中,
所述数据特征包括网络特征和非网络特征。在反欺诈建模中,会根据用户的个人信息将不同的申请行为组成一张社交网络,在这个网络中被提取出的特征称为网络特征;其他与欺诈相关的特征全部被归为非网络特征,对于这一类特征,通常可分为如下的几类:
与申请设备相关的特征,比如,是否刷机、是否为模拟器等风险特征;与申请渠道相关的特征;与申请的贷款产品相关的特征;与申请人相关的特征,比如,近期所在的地理位置等。
实施例6:
作为本发明的一种实施例,所述将所述客户的行为数据进行处理,并提取数据特征,还包括:
步骤1:基于所述行为数据,确定数据类型A、类型权重ξ和数据类型数m,通过聚类处理,确定数据变量的变量合集s:
Figure BDA0002567278960000151
其中,所述si表示第i类的行为数据的数据变量;所述Ai表示第i类的行为数据;所述ξi表示第i类的行为数据的权重;
步骤2:根据所述变量集合,构建所述行为数据得到处理模型H:
Figure BDA0002567278960000161
其中,所述
Figure BDA0002567278960000162
表示数据变量的均值;所述ci表示第i类的行为数据的缺失数据;所述
Figure BDA0002567278960000163
表示数据变量的均值,所述fi表示数值的阀值参数;所述di表示第i类的行为数据的长度,所述k表示空格数;所述z(di,k)表示字符串长度函数;所述g表示加密参数;所述J1,J2表示解密参数;所述sicosθ表示第i类的行为数据加密后的余弦参数;所述sisinθ表示第i类的行为数据加密后的正弦参数;所述θ表示行为数据在加密后与加密前的偏差角度;所述Ti表示第i类的行为数据的发生时间;所述ti表示第i类的行为数据的入库时间;
步骤3:将所述行为数据代入处理模型,进行处理,得到处理数据Hi,并通过处理数据,提取行为数据的数据特征;
Figure BDA0002567278960000164
其中,所述Hi表示第i类行为数据的处理数据的数据参数;所述w表示数据特征;所述N表示数据特征的数量,所述
Figure BDA0002567278960000165
表示处理数据的均值。
实施例7:
作为本发明的一种实施例,所述数据特征中的网络特征和非网络特征通过以下步骤区分:
根据所述处理数据,获取客户个人信息和申请行为,并构建网络社交图;
根据所述网络社交图,将所述网络社交图中的点作为网络特征;
根据客户个人信息和申请行为,确定所述处理数据中的非客户个人信息和非申请行为,并将所述非客户个人信息和非申请行为定义为非网络特征。
如附图2所示本发明的决策树图:对于IV值大于0.5的特征,虽然不适合用于模型的搭建,但他们却能很好的用于指定反欺诈规则策略。在机器学习中,决策树是一个很好的规则生成模型。在这次的软件开发中,我们使用决策树模型对备用的规则特征进行建模。得到如下的决策树模型。
树中特征1-特征3-叶子3的路径对应着一条反欺诈规则,特征1大于等于10且特征3小于15。与反欺诈指数模型类似,反欺诈规则也是用查准查全来评估,其中更加注重反欺诈规则的准确率。
实施例8:
作为本发明的一种实施例,所述根据所述数据特征,搭建欺诈指数模型,包括:
预设欺诈行为的证据规则,并确定证据权重;
预设欺诈行为的信息量规则,并确定信息量阀值;
通过所述证据权重和信息量阀值,过滤所述数据特征,确定建模特征;
基于决策树模型,构建所述欺诈指数模型的建模规则生成模型;
将所述建模特征代入所述建模规则生成模型,确定所述欺诈指数模型。
Figure BDA0002567278960000181
Figure BDA0002567278960000182
查准率和查全率是一对矛盾的概念。通俗来讲,要想查准率高,要把标准卡的严苛一些(模型的分数阈值取的高些,让绝大多数申请人都判断为坏人,只有极少数特别好的人判断为好人)。但同时,因为通过的人较少,占总的好人的比例必然降低。
实施例9:
作为本发明的一种实施例,所述根据所述欺诈指数模型,对客户的欺诈行为进行线上预测,并确定预测结果,包括:
根据所述欺诈指数模型,确定所述客户的欺诈行为的ROC曲线和KS曲线;
根据所述ROC曲线,确定所述客户的欺诈行为的查准率;
根据所述KS曲线,定所述客户的欺诈行为的查全率;
根据所述查准率和查全率,确定最终的反欺诈指数。
如附图3所示,ROC曲线的X轴是假阳性率(FP),Y轴为真阳性率(TP)。从这里也可以看出,AUC只能用于二分类模型的评估。AUC(ROC曲线下的面积),就可以用来评价ROC曲线的上凸程度。一般,AUC的值是要大于0.5的,因为直接使用正负样本的自然概率来预测,得到的KS曲线与ROC曲线非常的类似。其指标的计算方法与混淆矩阵、ROC基本一致。它只是用另一种方式呈现分类模型的准确性。KS值是KS图中两条线之间最大的距离,其能反映出分类器的划分能力。
KS曲线是两条线,其横轴是阈值,纵轴是TPR与FPR。两条曲线之间相距最远的地方对应的阈值,就是最能划分模型的阈值。KS值是MAX(TPR-FPR),即两曲线相距最远的距离。
AUC就是0.5。
作为本发明的一种实施例,所述方法还包括:
根据所述运营商数据,确定客户所有交易行为;
根据所述客户所有交易行为,构建客户的交易关系网络;
根据所述交易关系网络,设置不同的时间周期,并将所述交易关系网络内的交易数据按照时间周期进行阶梯式划分,确定阶梯式数据;
确定所述阶梯式数据中不同阶梯之间的关联特征;
根据所述关联特征和预设的skip-gram模型,将所述关联特征嵌入向量空间后,确定向量指数;
获取所述向量指数与所述反欺诈指数之间的马氏距离;
当所述向量指数与所述反欺诈指数之间的马氏距离为小于等于1时,表示所述反欺诈指数可信;
当所述向量指数与所述反欺诈指数之间的马氏距离大于1时,表示所述反欺诈指数不可信。
上述技术方案的原理在于:本发明通过在运营商数据中获取交易数据,根据不同的事件周期进行划分,可以确定用户的交易频率、交易额度大小等信息以此确定交易是否正常,最后基于个交易阶段和skip-gram模型引入空间向量,使得数据向量化,得到最终的向量指数,而向量指数就代表了交易的风险程度,交易的风险程度在一定程度上能够代表用户是不是欺诈贷款。最终通过向量指数与所述反欺诈指数之间的马氏距离判断是否是欺诈。
上述技术方案的有益效果在于:
通过运营商数据中的交易数据转化,建模得到的向量指数,对反欺诈指数进行验证,进而确定反欺诈指数的正确率,进而提高对风险和欺诈的预测能力和水平。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于运营商数据的反欺诈指数生成方法,其特征在于,包括:
获取客户还款行为,根据预设的欺诈判断规则,定义客户的欺诈行为;
根据所述欺诈行为,提取客户的运营商数据,并确定客户的行为数据;
将所述客户的行为数据进行处理,并提取数据特征;
根据所述数据特征,搭建欺诈指数模型;
根据所述欺诈指数模型,对客户的欺诈行为进行线上预测,并确定反欺诈指数;
所述方法还包括:
根据所述运营商数据,确定客户所有交易行为;
根据所述客户所有交易行为,构建客户的交易关系网络;
根据所述交易关系网络,设置不同的时间周期,并将所述交易关系网络内的交易数据按照时间周期进行阶梯式划分,确定阶梯式数据;
确定所述阶梯式数据中不同阶梯之间的关联特征;
根据所述关联特征和预设的skip-gram模型,将所述关联特征嵌入向量空间后,确定向量指数;
获取所述向量指数与所述反欺诈指数之间的马氏距离;
当所述向量指数与所述反欺诈指数之间的马氏距离为小于等于1时,表示所述反欺诈指数可信;
当所述向量指数与所述反欺诈指数之间的马氏距离大于1时,表示所述反欺诈指数不可信。
2.根据权利要求1所述的一种基于运营商数据的反欺诈指数生成方法,其特征在于,所述方法还包括:
获取反欺诈指数生成任务,确定任务信息;
将所述任务信息通过预设的规则策略进行处理,确定预测结果;其中,所述规则策略包括:进件规则、反欺诈规则、严拒规则、客群判定、可变规则和评分规则。
3.根据权利要求1所述的一种基于运营商数据的反欺诈指数生成方法,其特征在于,所述获取客户还款行为,根据预设的欺诈规则,定义客户的欺诈行为,包括:
获取放贷机构的业务行为;
根据所述业务行为,设置欺诈判断规则;其中,
所述欺诈判断规则包括:还款行为结果规则、人工干预结果规则和权威机构判断结果规则;
获取客户的还款行为,判断所述还款行为是否符合欺诈规则;
当所述还款行为符合欺诈规则时,设置所述客户的还款行为的欺诈标签;
根据所述欺诈标签,定义所述客户的业务行为是欺诈行为。
4.根据权利要求1所述的一种基于运营商数据的反欺诈指数生成方法,其特征在于,所述根据所述欺诈行为,提取客户的运营商数据,并确定客户的行为数据,包括:
根据所述欺诈行为,获取客户信息;
根据所述客户信息,通过运营商网络获取客户的运营商数据;
根据所述运营商数据,确定客户的贷款申请行为:其中,
所述贷款申请行为包括本地贷款申请和渠道贷款申请行为;
根据所述本地贷款申请和渠道贷款申请行为,获取客户的贷款申请单;
根据所述贷款申请单,确定所述客户的个人申请行为和交易信息;其中,
所述交易信息包括贷款申请数据和历史交易数据;
根据所述客户的个人申请行为和交易信息,确定客户的行为数据。
5.根据权利要求1所述的一种基于运营商数据的反欺诈指数生成方法,其特征在于,所述将所述客户的行为数据进行处理,并提取数据特征,包括:
获取所述行为数据,确定数据变量;
根据所述数据变量,确定所述行为数据中的异常数据;
所述异常数据包括缺失值占比大数据、数值异常数据、长度异常数据、关联异常数据、脱敏异常数据和时效性异常数据;
将所述行为数据中的异常数据通过增删或替换处理,得到处理数据;
根据所述处理数据,确定数据特征;其中,
所述数据特征包括网络特征和非网络特征。
6.根据权利要求5所述的一种基于运营商数据的反欺诈指数生成方法,其特征在于,所述数据特征中的网络特征和非网络特征通过以下步骤区分:
根据所述处理数据,获取客户个人信息和申请行为,并构建网络社交图;
根据所述网络社交图,将所述网络社交图中的点作为网络特征;
根据客户个人信息和申请行为,确定所述处理数据中的非客户个人信息和非申请行为,并将所述非客户个人信息和非申请行为定义为非网络特征。
7.根据权利要求1所述的一种基于运营商数据的反欺诈指数生成方法,其特征在于,所述根据所述数据特征,搭建欺诈指数模型,包括:
预设欺诈行为的证据规则,并确定证据权重;
预设欺诈行为的信息量规则,并确定信息量阀值;
通过所述证据权重和信息量阀值,过滤所述数据特征,确定建模特征;
基于决策树模型,构建所述欺诈指数模型的建模规则生成模型;
将所述建模特征代入所述建模规则生成模型,确定所述欺诈指数模型。
8.根据权利要求1所述的一种基于运营商数据的反欺诈指数生成方法,其特征在于,所述根据所述欺诈指数模型,对客户的欺诈行为进行线上预测,并确定反欺诈指数,包括:
根据所述欺诈指数模型,确定所述客户的欺诈行为的ROC曲线和KS曲线;
根据所述ROC曲线,确定所述客户的欺诈行为的查准率;
根据所述KS曲线,确定所述客户的欺诈行为的查全率;
根据所述查准率和查全率,确定最终的反欺诈指数。
CN202010634142.9A 2020-07-02 2020-07-02 一种基于运营商数据的反欺诈指数生成方法 Active CN111861699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010634142.9A CN111861699B (zh) 2020-07-02 2020-07-02 一种基于运营商数据的反欺诈指数生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010634142.9A CN111861699B (zh) 2020-07-02 2020-07-02 一种基于运营商数据的反欺诈指数生成方法

Publications (2)

Publication Number Publication Date
CN111861699A CN111861699A (zh) 2020-10-30
CN111861699B true CN111861699B (zh) 2021-06-22

Family

ID=73152121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010634142.9A Active CN111861699B (zh) 2020-07-02 2020-07-02 一种基于运营商数据的反欺诈指数生成方法

Country Status (1)

Country Link
CN (1) CN111861699B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561713A (zh) * 2020-12-15 2021-03-26 中国人寿保险股份有限公司 一种保险行业理赔反欺诈识别方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1543631A (zh) * 2001-08-22 2004-11-03 �ʼҷ����ֵ��ӹɷ����޹�˾ 零售环境中检测欺诈性事件的基于图像的方法和装置
CN106682067A (zh) * 2016-11-08 2017-05-17 浙江邦盛科技有限公司 一种基于交易数据的机器学习反欺诈监测系统
CN106851633A (zh) * 2017-02-15 2017-06-13 上海交通大学 基于用户隐私保护的电信欺诈检测系统及方法
CN107196953A (zh) * 2017-06-14 2017-09-22 上海丁牛信息科技有限公司 一种基于用户行为分析的异常行为检测方法
CN108985583A (zh) * 2018-06-27 2018-12-11 中国银行股份有限公司 基于人工智能的金融数据风险控制方法及装置
CN109035003A (zh) * 2018-07-04 2018-12-18 北京玖富普惠信息技术有限公司 基于机器学习的反欺诈模型建模方法和反欺诈监控方法
CN109191282A (zh) * 2018-08-23 2019-01-11 北京玖富普惠信息技术有限公司 一种基于行为模型的贷中监测评分方法以及系统
CN109992578A (zh) * 2019-01-07 2019-07-09 平安科技(深圳)有限公司 基于无监督学习的反欺诈方法、装置、计算机设备及存储介质
CN110827036A (zh) * 2019-11-07 2020-02-21 深圳乐信软件技术有限公司 一种欺诈交易的检测方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102013084A (zh) * 2010-12-14 2011-04-13 江苏大学 用于检测医疗保险门诊欺诈性交易的系统和方法
CN102867129B (zh) * 2012-10-11 2015-01-28 西北工业大学 基于可变数据长度最大信息量-可信度准则的飞行器建模方法
CN110097278B (zh) * 2019-04-28 2021-06-08 广东省科技基础条件平台中心 一种科技资源智能共享融合训练系统和应用系统
CN110704739B (zh) * 2019-09-30 2022-07-15 汉海信息技术(上海)有限公司 资源推荐方法、装置及计算机存储介质
CN111340614B (zh) * 2020-02-28 2021-05-18 深圳前海微众银行股份有限公司 基于联邦学习的样本采样方法、设备及可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1543631A (zh) * 2001-08-22 2004-11-03 �ʼҷ����ֵ��ӹɷ����޹�˾ 零售环境中检测欺诈性事件的基于图像的方法和装置
CN106682067A (zh) * 2016-11-08 2017-05-17 浙江邦盛科技有限公司 一种基于交易数据的机器学习反欺诈监测系统
CN106851633A (zh) * 2017-02-15 2017-06-13 上海交通大学 基于用户隐私保护的电信欺诈检测系统及方法
CN107196953A (zh) * 2017-06-14 2017-09-22 上海丁牛信息科技有限公司 一种基于用户行为分析的异常行为检测方法
CN108985583A (zh) * 2018-06-27 2018-12-11 中国银行股份有限公司 基于人工智能的金融数据风险控制方法及装置
CN109035003A (zh) * 2018-07-04 2018-12-18 北京玖富普惠信息技术有限公司 基于机器学习的反欺诈模型建模方法和反欺诈监控方法
CN109191282A (zh) * 2018-08-23 2019-01-11 北京玖富普惠信息技术有限公司 一种基于行为模型的贷中监测评分方法以及系统
CN109992578A (zh) * 2019-01-07 2019-07-09 平安科技(深圳)有限公司 基于无监督学习的反欺诈方法、装置、计算机设备及存储介质
CN110827036A (zh) * 2019-11-07 2020-02-21 深圳乐信软件技术有限公司 一种欺诈交易的检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111861699A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
KR102032924B1 (ko) 클라우드 환경에서 개인정보 보호를 지원하는 p2p 중개 보안 시스템
US8458069B2 (en) Systems and methods for adaptive identification of sources of fraud
CN110706090A (zh) 信用欺诈识别方法及装置、电子设备、存储介质
US20060236395A1 (en) System and method for conducting surveillance on a distributed network
KR20180060005A (ko) 클라우드 환경에서 개인정보 보호를 지원하는 p2p 중개 보안 시스템
Alimolaei An intelligent system for user behavior detection in Internet Banking
Berdyugin et al. Approaches to measuring the risk of cyberattacks in remote banking services of Russia
CN111861699B (zh) 一种基于运营商数据的反欺诈指数生成方法
Gautam The evaluating the impact of artificial intelligence on risk management and fraud detection in the banking sector
Barker Knowledge management to prevent fraudulant e-banking transactions
US20160019479A1 (en) Interactive and Iterative Behavioral Model, System, and Method for Detecting Fraud, Waste, and Abuse
Reddy et al. Utilization of AI for streamlining and optimizing credit decision process and security access loan risks in the banking sector
CN114066624A (zh) 基于图计算的黑名单关联图谱挖掘方法及系统
Dhashanamoorthi Artificial Intelligence in combating cyber threats in Banking and Financial services
Amanze et al. An enhanced model for bank fraud detection in nigerian
Gombiro et al. A conceptual framework for detecting financial crime in mobile money transactions
Saeed Enhancing Fraud Detection in Fintech: Harnessing the Power of Machine Learning and Behavioral Analytics
Edu et al. An impact and risk assessment framework for national electronic identity (eID) systems
Julisch Risk-based payment fraud detection
KR102616570B1 (ko) 고위험 가상자산 지갑주소 관리장치 및 이를 이용한 고위험 지갑주소 조회 서비스 제공방법
EP4280142A1 (en) System and method for automated feature generation and usage in identity decision making
Elena et al. Cybersecurity elements in remote payment systems: research models
Liu et al. Big Data Analysis with No Digital Footprints Available: Evidence from Cyber-Telecom Fraud
CN117114681A (zh) 盗刷风险分析方法、装置、电子设备和介质
Xiaonian et al. Behavior trust computation model based on risk evaluation in the grid environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant