CN112150261A - 基于用户通信行为的金融反欺诈方法及系统 - Google Patents

基于用户通信行为的金融反欺诈方法及系统 Download PDF

Info

Publication number
CN112150261A
CN112150261A CN202011009005.2A CN202011009005A CN112150261A CN 112150261 A CN112150261 A CN 112150261A CN 202011009005 A CN202011009005 A CN 202011009005A CN 112150261 A CN112150261 A CN 112150261A
Authority
CN
China
Prior art keywords
data
fraud
wind control
module
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011009005.2A
Other languages
English (en)
Inventor
金家芳
李宁
李萌
匡文豪
蔡云云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vision Credit Financial Technology Co ltd
Original Assignee
Vision Credit Financial Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vision Credit Financial Technology Co ltd filed Critical Vision Credit Financial Technology Co ltd
Priority to CN202011009005.2A priority Critical patent/CN112150261A/zh
Publication of CN112150261A publication Critical patent/CN112150261A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于用户通信行为的金融反欺诈方法及系统,其中方法包括如下步骤:包括如下步骤:S1用于对设备风控数据采集的步骤;S2用于将采集风控数据进行传输存储的步骤;S3用于对风控数据进行归并演绎处理的步骤;S4用于将处理后的风控数据自动化特征生成的步骤;S5用于通过特征搭建模型并将模型融合输出的步骤。这样,本发明所提供的一种基于用户通信行为的金融反欺诈方法及系统,对多个数据进行欺诈风险判断时,自动化特征生成,提高数据处理效率,从而使完成欺诈评分模型的效率提高。

Description

基于用户通信行为的金融反欺诈方法及系统
技术领域
本发明涉及计算机软件技术领域,尤其涉及基于用户通信行为的金融反欺诈方法及系统。
背景技术
随着互联网金融时代的来临,深刻的影响了传统信贷领域,同时也伴随着巨大的风险,如多头借贷,身份欺诈,团伙作案,羊毛党等欺诈风险。互联网用户通常采用风险控制方法来识别风险,现有技术中反欺诈方法,需要对如判断用户的设备信息、登录行为、访问特征、信用状况等数据判断是否存在欺诈风险,存在多达近百项的特征需实时计算,数据处理困难且速度较慢,从而使完成欺诈评分模型的效率降低。
发明内容
本发明的目的是提供一种基于用户通信行为的金融反欺诈方法及系统。
本发明提供了一种基于用户通信行为的金融反欺诈方法,包括如下步骤:S1用于对设备风控数据采集的步骤;S2用于将采集风控数据进行传输存储的步骤;S3用于对风控数据进行归并演绎处理的步骤;S4用于将处理后的风控数据自动化特征生成的步骤;S5用于通过特征搭建模型并将模型融合输出的步骤。
所述S1用于对设备风控数据采集的步骤包括:S11用于对基于嵌入在APP中的SDK建立数据采集器的步骤;S12用于通过数据采集器进行风控数据采集的步骤。所述S12用于通过数据采集器进行数据采集的步骤包括:S121用于根据需求建立用户接口组件并触发调用的初始化接口的步骤;S122用于通过业务模块组件和控制模块组件异步加载并进行初始化操作的步骤;S123用于对初始化操作中的数据进行采集并进行封装、打包及上报的步骤。所述S2用于将采集数据进行传输存储的步骤包括:S21用于通过APP初始化网络连接配置,获取并调用所采集的风控数据的步骤;S22用于将采集的风控数据通过数据传输器实行延时上报机制并即时分析的步骤。所述S3用于对存储的数据进行归并及演绎处理的步骤包括:S31用于通过数据处理器对风控数据进行数据预处理的步骤;S32用于对动态数据进行人机判断的步骤。所述S31用于通过数据处理器对风控数据进行预处理的步骤:S311用于通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来进行数据清理的步骤;S312用于将多个数据源中的数据结合起来并统一存储,建立数据仓库的步骤;S313用于通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘形式的步骤;S314用于通过网络爬虫技术模块对数据进行数据归约处理的步骤。所述S4用于将处理的数据自动化特征生成的步骤包括:S41用于授权并抓取数据进行欺诈风险判断的步骤;S42用于将抓取到的数据根据维度进行分析并统一清洗的步骤。所述S5用于通过特征搭建模型并将模型融合输出的步骤包括:S51用于调用特征生成相对应的模型并将多个模型集成反欺诈模型的步骤;S52用于根据反欺诈模型生成欺诈概率的步骤。
本发明提供了一种基于用户通信行为的金融反欺诈系统,包括:用于对设备风控数据采集的模块;用于将采集风控数据进行传输存储的模块;用于对风控数据进行归并演绎处理的模块;用于将处理后的风控数据自动化特征生成的模块;用于通过特征搭建模型并将模型融合输出的模块。
所述用于对设备风控数据采集的模块包括:用于对基于嵌入在APP中的SDK建立数据采集器的子模块;用于通过数据采集器进行风控数据采集的子模块。所述用于通过数据采集器进行数据采集的子模块包括:用于根据需求建立用户接口组件并触发调用的初始化接口的单元;用于通过业务模块组件和控制模块组件异步加载并进行初始化操作的单元;用于对初始化操作中的数据进行采集并进行封装、打包及上报的单元。所述用于将采集数据进行传输存储的模块包括:用于通过APP初始化网络连接配置,获取并调用所采集的风控数据的子模块;用于将采集的风控数据通过数据传输器实行延时上报机制并即时分析的子模块。所述用于对存储的数据进行归并及演绎处理的模块包括:用于通过数据处理器对风控数据进行数据预处理的子模块;用于对动态数据进行人机判断的子模块。所述用于通过数据处理器对风控数据进行预处理的子模块:用于通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来进行数据清理的单元;用于将多个数据源中的数据结合起来并统一存储,建立数据仓库的单元;用于通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘形式的单元;用于通过网络爬虫技术模块对数据进行数据归约处理的单元。所述用于将处理的数据自动化特征生成的模块包括:用于授权并抓取数据进行欺诈风险判断的子模块;用于将抓取到的数据根据维度进行分析并统一清洗的子模块。所述用于通过特征搭建模型并将模型融合输出的模块包括:用于调用特征生成相对应的模型并将多个模型集成反欺诈模型的子模块;用于根据反欺诈模型生成欺诈概率的子模块。
本发明所提供的一种基于用户通信行为的金融反欺诈方法及系统,对多个数据进行欺诈风险判断时,自动化特征生成,提高数据处理效率,从而使完成欺诈评分模型的效率提高。
附图说明
图1、2为本发明实施例一所提供的基于用户通信行为的金融反欺诈方法的步骤示意图;
图3为本发明实施例一所述S1用于对设备风控数据采集的步骤示意图;
图4为本发明实施例一所述S12用于通过数据采集器进行数据采集的步骤示意图;
图5为本发明实施例一所述S2用于将采集数据进行传输存储的步骤示意图;
图6为本发明实施例一所述S3用于对存储的数据进行归并及演绎处理的步骤示意图;
图7为本发明实施例一所述S31用于通过数据处理器对风控数据进行预处理的步骤示意图;
图8为本发明实施例一所述S4用于将演绎处理后的数据自动化特征生成的步骤示意图;
图9为本发明实施例一所述S5用于通过特征搭建模型并将模型融合输出的步骤示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1、2所示,本实施例提供一种基于用户通信行为的金融反欺诈方法,包括如下步骤:
S1用于对设备风控数据采集的步骤;
S2用于将采集风控数据进行传输存储的步骤;
S3用于对风控数据进行归并演绎处理的步骤;
S4用于将处理后的风控数据自动化特征生成的步骤;
S5用于通过特征搭建模型并将模型融合输出的步骤。
本领域技术人员可以理解,用户通信行为即数据采集器收集的风控数据包括但并不限于以下7种:设备信息、联系人信息、通话记录、短信记录、动态数据、APP信息、用户行为。所述设备信息包括:不同的SDK版本,载体手机的APP,操作系统及设备号,数据上传时机,电池信息,上次启动手机时间的时间戳,root信息,陀螺仪数据等。所述联系人信息采集的内容为手机联系人中的姓名和电话数组;所述通话记录采集内容为通话记录中的姓名、电话、通话时间、通话时长、类型为来电/去电/拒接/未接等。所述短信记录采集内容为短信的姓名、电话号码、短信文本内容、发送或接收时间、类型为收件箱/已发送/草稿/发送失败等。所述动态数据采集分为陀螺仪和GPS两个方式,第一种,启动app时进行陀螺仪数据监控,间隔时间为10秒一次,总监控时长为5分钟,最终记录动态数组;第二种,启动app时进行,若拥有gps权限,则会进行gps定位信息(经度、纬度、海拔)进行获取,只监控一次,获取到gps定位信息后,会自动关闭gps监控。所述APP信息采集内容为设备上安装的所有APP列表、采集正在运行或最近运行的APP信息、采集用户的账户信息。所述用户行为采集内容为用户页面跳转,即记录跳转时间及页面的标识;挂起及唤回,即记录APP切到后台和切换到前台的时间;用户按钮点击,即点击事件,点击按钮上的文本,所在的页面标识,按钮点击时触摸区域的大小等;输入框精准行为,即用户在输入框的所有增删改操作。
本领域技术人员可以理解,本实施例提供一种基于用户通信行为的金融反欺诈方法,对多个数据进行欺诈风险判断时,自动化特征生成,提高数据处理效率,从而使完成欺诈评分模型的效率提高。
如图3所示,所述S1用于对设备风控数据采集的步骤包括:
S11用于对基于嵌入在APP中的SDK建立数据采集器的步骤;
S12用于通过数据采集器进行风控数据采集的步骤。
本领域技术人员可以理解,数据收集是开发数据能源,建立有效反欺诈系统的第一步。基于嵌入在APP中的SDK(Software Development Kit)建立数据采集器,数据采集器能够支持海量数据的采集、甄别和传输。
如图4所示,所述S12用于通过数据采集器进行数据采集的步骤包括:
S121用于根据需求建立用户接口组件并触发调用的初始化接口的步骤;
S122用于通过业务模块组件和控制模块组件异步加载并进行初始化操作的步骤;
S123用于对初始化操作中的数据进行采集并进行封装、打包及上报的步骤。
本领域技术人员可以理解,数据采集器的SDK架构主要由三部分组成:用户接口组件、业务模块组件和控制模块组件。组件的颗粒度可以根据业务需求或者产品需求来划分,组件颗粒细化到功能层,就会更加灵活,可满足更多场景的需求。组件化的架构改变了以前业务逻辑与基础功能深度耦合的状况,业务开发人员可以专注于业务逻辑的实现,而不需要考虑如网络通信、消息队列管理、设备信息采集等基础功能的实现。业务逻辑代码的任何改动,不会影响基础功能逻辑,加强了代码的健壮性,同时在回归测试周期上也大大缩短。
用户接口组件是用户启动App的时候,触发了开发者调用的初始化接口,业务模块组件和控制模块组件会异步的进行一些初始化的操作:创建会话控制、加载设备信息等。业务模块组件的功能是当用户在APP中有点击、滑动屏幕的行为,触发开发者在APP中预设置埋点事件。业务模块组件会生成相应的事件数据,调用控制模块组件的接口检查发送策略和安全策略,之后业务模块组件会将事件数据放到缓存队列中待发送。当用户退出APP后,数据采集器还会在短暂的瞬间完成很多操作:结束会话控制、持久化保存数据,在iOS机器中还会直接完成数据封装、打包、上报的工作。
如图5所示,所述S2用于将采集数据进行传输存储的步骤包括:
S21用于通过APP初始化网络连接配置,获取并调用所采集的风控数据的步骤;
S22用于将采集的风控数据通过数据传输器实行延时上报机制并即时分析的步骤。
本领域技术人员可以理解,在用户使用APP初始化网络连接进行相关配置后,可获取对此设备加密生成的唯一ID,并在设备内存和设备本地中各存储一份。此SDK模块在初次配置后,可自动识别设备,保证不会因卸载重装或其他行为造成前后ID不一致。
嵌入SDK模块的APP可对与风控相关的所有信息进行数据采集,采集的数据通过数据传输器实行延时上报机制,即用户每次发生行为都会存储在本地,每隔两分钟自动上报一次。在APP下次启动时,自动上报上一次未完成上报的数据,当数据上报完成后,清除已上报数据。特别当授信流程结束后,以上所有收集的数据,都需要上报一份最新的给后端,用于即时分析。
针对数据采集器收集的不同数据,数据传输器会采取不同的上报行为。如联系人信息、通话记录、短信记录、APP信息的上报,是当用户授权APP拥有相应权限后,下次启动APP时,数据传输器会自动进行相关记录上报,当上报成功过一次记录后,30天内不会再进行上报,即每30天全量上报一次。而设备信息、动态数据、用户行为,在数据采集器收集数据后暂存于设备本地,在app下次启动时,数据传输器会将这些信息通过设备接口上报。
如图6所示,所述S3用于对存储的数据进行归并及演绎处理的步骤包括:
S31用于通过数据处理器对风控数据进行数据预处理的步骤;
S32用于对动态数据进行人机判断的步骤。
如图7所示,所述S31用于通过数据处理器对风控数据进行预处理的步骤包括:
S311用于通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来进行数据清理的步骤;
S312用于将多个数据源中的数据结合起来并统一存储,建立数据仓库的步骤;
S313用于通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘形式的步骤;
S314用于通过网络爬虫技术模块对数据进行数据归约处理的步骤。
本领域技术人员可以理解,数据预处理技术包括数据清理、数据集成、数据变换及数据归约;数据清理采取的步骤包括:空缺值处理、格式标准化、异常数据清除、错误纠正、重复数据的清除等方式,用于数据清洗,去噪声和无关数据;数据集成则将多个数据源中的数据结合起来存放在一个一致的数据存储中;数据变换则将原始数据转换成为适合数据挖掘的形式。噪声数据处理采用主要策略包括数据平滑技术,一、风分箱处理:箱的深度表示不同的箱里有相同个数的数据;箱的宽度每个箱值的取值区间是个常数。二、平滑方法:按箱平均值平滑、按箱中值平滑、按箱边界值平滑。三、聚类技术:每个簇中的数据用其中心值代替、识别检测并忽略孤立点。四、回归技术:通过构造函数来符合数据变化的趋势,这样可以用一个变量预测另一个变量。数据变换即对数据进行规范化处理,以便于后续的信息挖掘。常见的数据变换包括:特征二值化、特征归一化、连续特征变化,定性特征编码等。
数据传输器将采集到的所有数据存储至数据库中,首先由数据处理器对这些数据进行预处理,结构化数据。数据处理器包括三个例程:数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来清理数据,主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除,使其呈现建模基本可用状态;数据集成例程将多次数据采集的数据结合起来并统一存储,建立数据仓库;数据变换例程通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。
其次,使用数据归约器数对APP信息进行处理。数据归约技术可以用来得到数据集的归约表示,在降低数据量的同时保持原数据的完整性,并结果与归约前结果相同或几乎相同。对APP信息的处理,通过网络爬虫技术模块,捕捉现行各大应用市场上的所有APP信息,再结合数据采集器收集到设备的APP信息,清楚了解用户设备中安装的各类APP信息、日启动次数及时长等,由此得知设备用户的喜好;并推算出每款APP应用的市场占有率、各类竞品APP的情况,衍生出一些用户画像类的特征。
另外,设备判断组件可以进行人机判断,一是通过动态数据的陀螺仪信息,辅助判断是否该设备为模拟器,二是通过用户行为数据,对用户的点击强度、点击时间、点击尺寸等综合分析,辅助判断是否该设备为模拟器,三是通过设备信息电池信息,无电池信息可以判断为模拟器。设备判断组件还可以进行高危用户识别,如越狱手机可能为高危用户,挂VPN手机可能为高危用户。
如图8所示,所述S4用于将演绎处理后的数据自动化特征生成的步骤包括:
S41用于授权并抓取数据进行欺诈风险判断的步骤;
S42用于将抓取到的数据根据维度进行分析并统一清洗的步骤。
本领域技术人员可以理解,本实施例采用SDK反欺诈大数据风控评估系统,主要利用用户授权抓取的手机行为数据,通过识别设备的一些操作行为,用于判断欺诈风险。这部分数据有数据量特别大、数据结构复杂和数据价值稀薄的特点,在抓取完后,有利于统一清洗转化成结构数据格式存储在搭建好的大数据中。
欺诈风险包括:1)逾期超过T天,这个定义中的T即可以通过滚动率等量化的手段来预估,也可以根据业务经验来确定,比如在互联网金融行业通常将T定为180天。2)首期不还款,首期不还款指的是从第一期开始,客户就没有还过款,在互联网金融领域,通常会在在逾期超过T天的基础上加上首期不还款这个条件来进一步筛选欺诈。3)首期失联,当客户发生首期逾期后,互联网金融企业通常会通过电话联系客户,当联系失败或者客户明确表示不还款时,则定义客户为首期失联。4)回访失踪,即在客户发生逾期后,有的互联网公司会通过客户提供的地址实地回访客户,如果找不到客户,则定义客户为回访失踪。5)权威部门确认,客户是否欺诈还可以通过权威部门来确认。在实际的应用中,不同的企业会将上述的5种方法进行组合,得到各自的欺诈风险的定义。比如有的企业会使用方法1)和方法2),即逾期超过T天且首期不还款为欺诈;而有的企业会使用方法1)、方法2)和方法3)来定义欺诈,即逾期超过T天且首期不还款且首期失联为欺诈。
首先,在上一步APP列表上层将app进行多分类的基础上,可以从安装时间维度、app类别、占总app比重等维度构造一些特征变量。构造出单变量和组合变量如:系统/非系统自带app占比、所有app中能爬取到类别的数量占比、近X月匹配到爬虫信息的app安装数量占比、历史X类app安装总数量等。根据用户不同类别app的数量和占比,可以获取客户行为信息和共债情况,对欺诈有一定的识别意义。例如贷款类app占比过高的用户可能共债情况严重,该用户为欺诈用户可能性较大。
除此之外,数据仓库还包含用户授权抓取的手机端的通讯录、通话记录、短信记录、埋点信息数据等。对这些信息,可以从主/被叫、通话时间长短、最常联系人、产生通话的时间等维度,构造特征。如变量:近X月最常联系人是否申请过我司贷款、近X月通话总时长、近X月主/被叫次数、近X月夜间通话次数等。通过对用户社交关系的收集,可以用机器学习建立用户间的关系网络,从社交图谱中学习及训练算法模型及规则。例如,根据调查认定了某用户为欺诈用户,则与其联系紧密的用户团体很可能也为用户团体。
数据在特征工程阶段,主要会针对用户各个维度进行深度分析挖掘清洗。将SDK反欺诈大数据风控评估系统将用户的数据拆分成三大维度:用户app安装数据,用户社交关系数据、用户设备信息,在每个大的数据维度下,我们细分成百上千个重要核心指标,特征工程就是完成所有原始数据的清洗,转化。在这里,所有的数据处理程序ETL都会统一进行调度和定时管理,所有的程序都具有自动验证纠错功能,只要任何一个程序跑出的过程中出错,都会进行预计,记录日志并且重跑。
如图9所示,所述S5用于通过特征搭建模型并将模型融合输出的步骤包括:
S51用于调用特征生成相对应的模型并将多个模型集成反欺诈模型的步骤;
S52用于根据反欺诈模型生成欺诈概率的步骤。
本领域技术人员可以理解,随着市场上的很多欺诈行为越来越隐蔽,原来的那种黑名单式的静态规则已经非常缺乏对欺诈用户的辨别能力,必须要采用有监督式的机器学习来代替。常见的分类建模有:决策树、支持向量机、逻辑回归等。但往往单个学习器的泛化性能不够显著,需要将多个学习器进行结合,进行集成学习。
传统的集成算法已经有相当好的效率,但是在如今的大样本和高维度的环境下,传统的集成似乎在效率和可扩展性上不能满足现在的需求了,主要的原因就是传统的集成算法需要对每一个特征都要扫描所有的样本点来选择最好的切分点,这非常的耗时。
为了解决这种在大样本高纬度数据的环境下耗时的问题,我们采用了高性能的集成分类器,在不损失精度的情况下,大大的降低的处理样本的时间复杂度。分类器对一个样本的预测结果,是一个介于区间[0,1]的违约概率,为了更直观的为业务所用,需要使用融合评估转换器对模型输出概率分数的转化为整数,并且分值越小,用户风险程度越高。
实施例二
本实施例提供一种基于用户通信行为的金融反欺诈系统,包括:
用于对设备风控数据采集的模块;
用于将采集风控数据进行传输存储的模块;
用于对风控数据进行归并演绎处理的模块;
用于将处理后的风控数据自动化特征生成的模块;
用于通过特征搭建模型并将模型融合输出的模块。
本领域技术人员可以理解,用户通信行为即数据采集器收集的风控数据包括但并不限于以下7种:设备信息、联系人信息、通话记录、短信记录、动态数据、APP信息、用户行为。所述设备信息包括:不同的SDK版本,载体手机的APP,操作系统及设备号,数据上传时机,电池信息,上次启动手机时间的时间戳,root信息,陀螺仪数据等。所述联系人信息采集的内容为手机联系人中的姓名和电话数组;所述通话记录采集内容为通话记录中的姓名、电话、通话时间、通话时长、类型为来电/去电/拒接/未接等。所述短信记录采集内容为短信的姓名、电话号码、短信文本内容、发送或接收时间、类型为收件箱/已发送/草稿/发送失败等。所述动态数据采集分为陀螺仪和GPS两个方式,第一种,启动app时进行陀螺仪数据监控,间隔时间为10秒一次,总监控时长为5分钟,最终记录动态数组;第二种,启动app时进行,若拥有gps权限,则会进行gps定位信息(经度、纬度、海拔)进行获取,只监控一次,获取到gps定位信息后,会自动关闭gps监控。所述APP信息采集内容为设备上安装的所有APP列表、采集正在运行或最近运行的APP信息、采集用户的账户信息。所述用户行为采集内容为用户页面跳转,即记录跳转时间及页面的标识;挂起及唤回,即记录APP切到后台和切换到前台的时间;用户按钮点击,即点击事件,点击按钮上的文本,所在的页面标识,按钮点击时触摸区域的大小等;输入框精准行为,即用户在输入框的所有增删改操作。
本领域技术人员可以理解,本实施例提供一种基于用户通信行为的金融反欺诈系统,对多个数据进行欺诈风险判断时,自动化特征生成,提高数据处理效率,从而使完成欺诈评分模型的效率提高。
进一步,所述用于对设备风控数据采集的模块包括:
用于对基于嵌入在APP中的SDK建立数据采集器的子模块;
用于通过数据采集器进行风控数据采集的子模块。
本领域技术人员可以理解,数据收集是开发数据能源,建立有效反欺诈系统的第一步。基于嵌入在APP中的SDK(Software Development Kit)建立数据采集器,数据采集器能够支持海量数据的采集、甄别和传输。
进一步,所述用于通过数据采集器进行数据采集的子模块包括:
用于根据需求建立用户接口组件并触发调用的初始化接口的单元;
用于通过业务模块组件和控制模块组件异步加载并进行初始化操作的单元;
用于对初始化操作中的数据进行采集并进行封装、打包及上报的单元。
本领域技术人员可以理解,数据采集器的SDK架构主要由三部分组成:用户接口组件、业务模块组件和控制模块组件。组件的颗粒度可以根据业务需求或者产品需求来划分,组件颗粒细化到功能层,就会更加灵活,可满足更多场景的需求。组件化的架构改变了以前业务逻辑与基础功能深度耦合的状况,业务开发人员可以专注于业务逻辑的实现,而不需要考虑如网络通信、消息队列管理、设备信息采集等基础功能的实现。业务逻辑代码的任何改动,不会影响基础功能逻辑,加强了代码的健壮性,同时在回归测试周期上也大大缩短。
用户接口组件是用户启动App的时候,触发了开发者调用的初始化接口,业务模块组件和控制模块组件会异步的进行一些初始化的操作:创建会话控制、加载设备信息等。业务模块组件的功能是当用户在APP中有点击、滑动屏幕的行为,触发开发者在APP中预设置埋点事件。业务模块组件会生成相应的事件数据,调用控制模块组件的接口检查发送策略和安全策略,之后业务模块组件会将事件数据放到缓存队列中待发送。当用户退出APP后,数据采集器还会在短暂的瞬间完成很多操作:结束会话控制、持久化保存数据,在iOS机器中还会直接完成数据封装、打包、上报的工作。
进一步,所述用于将采集数据进行传输存储的模块包括:
用于通过APP初始化网络连接配置,获取并调用所采集的风控数据的子模块;
用于将采集的风控数据通过数据传输器实行延时上报机制并即时分析的子模块。
本领域技术人员可以理解,在用户使用APP初始化网络连接进行相关配置后,可获取对此设备加密生成的唯一ID,并在设备内存和设备本地中各存储一份。此SDK模块在初次配置后,可自动识别设备,保证不会因卸载重装或其他行为造成前后ID不一致。
嵌入SDK模块的APP可对与风控相关的所有信息进行数据采集,采集的数据通过数据传输器实行延时上报机制,即用户每次发生行为都会存储在本地,每隔两分钟自动上报一次。在APP下次启动时,自动上报上一次未完成上报的数据,当数据上报完成后,清除已上报数据。特别当授信流程结束后,以上所有收集的数据,都需要上报一份最新的给后端,用于即时分析。
针对数据采集器收集的不同数据,数据传输器会采取不同的上报行为。如联系人信息、通话记录、短信记录、APP信息的上报,是当用户授权APP拥有相应权限后,下次启动APP时,数据传输器会自动进行相关记录上报,当上报成功过一次记录后,30天内不会再进行上报,即每30天全量上报一次。而设备信息、动态数据、用户行为,在数据采集器收集数据后暂存于设备本地,在app下次启动时,数据传输器会将这些信息通过设备接口上报。
进一步,所述用于对存储的数据进行归并及演绎处理的模块包括:
用于通过数据处理器对风控数据进行数据预处理的子模块;
用于对动态数据进行人机判断的子模块。
进一步,所述用于通过数据处理器对风控数据进行预处理的子模块:
用于通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来进行数据清理的单元;
用于将多个数据源中的数据结合起来并统一存储,建立数据仓库的单元;
用于通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘形式的单元;
用于通过网络爬虫技术模块对数据进行数据归约处理的单元。
本领域技术人员可以理解,数据预处理技术包括数据清理、数据集成、数据变换及数据归约;数据清理采取的步骤包括:空缺值处理、格式标准化、异常数据清除、错误纠正、重复数据的清除等方式,用于数据清洗,去噪声和无关数据;数据集成则将多个数据源中的数据结合起来存放在一个一致的数据存储中;数据变换则将原始数据转换成为适合数据挖掘的形式。噪声数据处理采用主要策略包括数据平滑技术,一、风分箱处理:箱的深度表示不同的箱里有相同个数的数据;箱的宽度每个箱值的取值区间是个常数。二、平滑方法:按箱平均值平滑、按箱中值平滑、按箱边界值平滑。三、聚类技术:每个簇中的数据用其中心值代替、识别检测并忽略孤立点。四、回归技术:通过构造函数来符合数据变化的趋势,这样可以用一个变量预测另一个变量。数据变换即对数据进行规范化处理,以便于后续的信息挖掘。常见的数据变换包括:特征二值化、特征归一化、连续特征变化,定性特征编码等。
数据传输器将采集到的所有数据存储至数据库中,首先由数据处理器对这些数据进行预处理,结构化数据。数据处理器包括三个例程:数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来清理数据,主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除,使其呈现建模基本可用状态;数据集成例程将多次数据采集的数据结合起来并统一存储,建立数据仓库;数据变换例程通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。其次,使用数据归约器数对APP信息进行处理。数据归约技术可以用来得到数据集的归约表示,在降低数据量的同时保持原数据的完整性,并结果与归约前结果相同或几乎相同。对APP信息的处理,通过网络爬虫技术模块,捕捉现行各大应用市场上的所有APP信息,再结合数据采集器收集到设备的APP信息,清楚了解用户设备中安装的各类APP信息、日启动次数及时长等,由此得知设备用户的喜好;并推算出每款APP应用的市场占有率、各类竞品APP的情况,衍生出一些用户画像类的特征。
另外,设备判断组件可以进行人机判断,一是通过动态数据的陀螺仪信息,辅助判断是否该设备为模拟器,二是通过用户行为数据,对用户的点击强度、点击时间、点击尺寸等综合分析,辅助判断是否该设备为模拟器,三是通过设备信息电池信息,无电池信息可以判断为模拟器。设备判断组件还可以进行高危用户识别,如越狱手机可能为高危用户,挂VPN手机可能为高危用户。
进一步,所述用于将处理的数据自动化特征生成的模块包括:
用于授权并抓取数据进行欺诈风险判断的子模块;
用于将抓取到的数据根据维度进行分析并统一清洗的子模块。
本领域技术人员可以理解,本实施例采用SDK反欺诈大数据风控评估系统,主要利用用户授权抓取的手机行为数据,通过识别设备的一些操作行为,用于判断欺诈风险。这部分数据有数据量特别大、数据结构复杂和数据价值稀薄的特点,在抓取完后,统一清洗转化成结构数据格式存储在我们搭建好的大数据中非常重要。
欺诈风险包括:1)逾期超过T天,这个定义中的T即可以通过滚动率等量化的手段来预估,也可以根据业务经验来确定,比如在互联网金融行业通常将T定为180天。2)首期不还款,首期不还款指的是从第一期开始,客户就没有还过款,在互联网金融领域,通常会在在逾期超过T天的基础上加上首期不还款这个条件来进一步筛选欺诈。3)首期失联,当客户发生首期逾期后,互联网金融企业通常会通过电话联系客户,当联系失败或者客户明确表示不还款时,则定义客户为首期失联。4)回访失踪,即在客户发生逾期后,有的互联网公司会通过客户提供的地址实地回访客户,如果找不到客户,则定义客户为回访失踪。5)权威部门确认,客户是否欺诈还可以通过权威部门来确认。在实际的应用中,不同的企业会将上述的5种方法进行组合,得到各自的欺诈风险的定义。比如有的企业会使用方法1)和方法2),即逾期超过T天且首期不还款为欺诈;而有的企业会使用方法1)、方法2)和方法3)来定义欺诈,即逾期超过T天且首期不还款且首期失联为欺诈。
首先,在上一步APP列表上层将app进行多分类的基础上,可以从安装时间维度、app类别、占总app比重等维度构造一些特征变量。构造出单变量和组合变量如:系统/非系统自带app占比、所有app中能爬取到类别的数量占比、近X月匹配到爬虫信息的app安装数量占比、历史X类app安装总数量等。根据用户不同类别app的数量和占比,可以获取客户行为信息和共债情况,对欺诈有一定的识别意义。例如贷款类app占比过高的用户可能共债情况严重,该用户为欺诈用户可能性较大。
除此之外,数据仓库还包含用户授权抓取的手机端的通讯录、通话记录、短信记录、埋点信息数据等。对这些信息,可以从主/被叫、通话时间长短、最常联系人、产生通话的时间等维度,构造特征。如变量:近X月最常联系人是否申请过我司贷款、近X月通话总时长、近X月主/被叫次数、近X月夜间通话次数等。通过对用户社交关系的收集,可以用机器学习建立用户间的关系网络,从社交图谱中学习及训练算法模型及规则。例如,根据调查认定了某用户为欺诈用户,则与其联系紧密的用户团体很可能也为用户团体。
数据在特征工程阶段,主要会针对用户各个维度进行深度分析挖掘清洗。SDK反欺诈大数据风控评估系统将用户的数据拆分成三大维度:用户app安装数据,用户社交关系数据、用户设备信息,在每个大的数据维度下,我们细分成百上千个重要核心指标,特征工程就是完成所有原始数据的清洗,转化。在这里,所有的数据处理程序ETL都会统一进行调度和定时管理,所有的程序都具有自动验证纠错功能,只要任何一个程序跑出的过程中出错,都会进行预计,记录日志并且重跑。
进一步,所述用于通过特征搭建模型并将模型融合输出的模块包括:
用于调用特征生成相对应的模型并将多个模型集成反欺诈模型的子模块;
用于根据反欺诈模型生成欺诈概率的子模块。
本领域技术人员可以理解,随着市场上的很多欺诈行为越来越隐蔽,原来的那种黑名单式的静态规则已经非常缺乏对欺诈用户的辨别能力,必须要采用有监督式的机器学习来代替。常见的分类建模有:决策树、支持向量机、逻辑回归等。但往往单个学习器的泛化性能不够显著,需要将多个学习器进行结合,进行集成学习。
传统的集成算法已经有相当好的效率,但是在如今的大样本和高维度的环境下,传统的集成似乎在效率和可扩展性上不能满足现在的需求了,主要的原因就是传统的集成算法需要对每一个特征都要扫描所有的样本点来选择最好的切分点,这非常的耗时。
为了解决这种在大样本高纬度数据的环境下耗时的问题,我们采用了高性能的集成分类器,在不损失精度的情况下,大大的降低的处理样本的时间复杂度。分类器对一个样本的预测结果,是一个介于区间[0,1]的违约概率,为了更直观的为业务所用,需要使用融合评估转换器对模型输出概率分数的转化为整数,并且分值越小,用户风险程度越高。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (16)

1.一种基于用户通信行为的金融反欺诈方法,其特征在于,包括如下步骤:
S1用于对设备风控数据采集的步骤;
S2用于将采集风控数据进行传输存储的步骤;
S3用于对风控数据进行归并演绎处理的步骤;
S4用于将处理后的风控数据自动化特征生成的步骤;
S5用于通过特征搭建模型并将模型融合输出的步骤。
2.如权利要求1所述的基于用户通信行为的金融反欺诈方法,其特征在于,所述S1用于对设备风控数据采集的步骤包括:S11用于对基于嵌入在APP中的SDK建立数据采集器的步骤;S12用于通过数据采集器进行风控数据采集的步骤。
3.如权利要求2所述的基于用户通信行为的金融反欺诈方法,其特征在于,所述S12用于通过数据采集器进行数据采集的步骤包括:
S121用于根据需求建立用户接口组件并触发调用的初始化接口的步骤;
S122用于通过业务模块组件和控制模块组件异步加载并进行初始化操作的步骤;
S123用于对初始化操作中的数据进行采集并进行封装、打包及上报的步骤。
4.如权利要求3所述的基于用户通信行为的金融反欺诈方法,其特征在于,所述S2用于将采集数据进行传输存储的步骤包括:
S21用于通过APP初始化网络连接配置,获取并调用所采集的风控数据的步骤;
S22用于将采集的风控数据通过数据传输器实行延时上报机制并即时分析的步骤。
5.如权利要求4所述的基于用户通信行为的金融反欺诈方法,其特征在于,所述S3用于对存储的数据进行归并及演绎处理的步骤包括:
S31用于通过数据处理器对风控数据进行数据预处理的步骤;
S32用于对动态数据进行人机判断的步骤。
6.如权利要求5所述的基于用户通信行为的金融反欺诈方法,其特征在于,所述S31用于通过数据处理器对风控数据进行预处理的步骤:
S311用于通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来进行数据清理的步骤;
S312用于将多个数据源中的数据结合起来并统一存储,建立数据仓库的步骤;
S313用于通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘形式的步骤;
S314用于通过网络爬虫技术模块对数据进行数据归约处理的步骤。
7.如权利要求6所述的基于用户通信行为的金融反欺诈方法,其特征在于,所述S4用于将处理的数据自动化特征生成的步骤包括:
S41用于授权并抓取数据进行欺诈风险判断的步骤;
S42用于将抓取到的数据根据维度进行分析并统一清洗的步骤。
8.如权利要求7所述的基于用户通信行为的金融反欺诈方法,其特征在于,所述S5用于通过特征搭建模型并将模型融合输出的步骤包括:
S51用于调用特征生成相对应的模型并将多个模型集成反欺诈模型的步骤;
S52用于根据反欺诈模型生成欺诈概率的步骤。
9.一种基于用户通信行为的金融反欺诈系统,其特征在于,包括:
用于对设备风控数据采集的模块;
用于将采集风控数据进行传输存储的模块;
用于对风控数据进行归并演绎处理的模块;
用于将处理后的风控数据自动化特征生成的模块;
用于通过特征搭建模型并将模型融合输出的模块。
10.如权利要求9所述的基于用户通信行为的金融反欺诈系统,其特征在于,所述用于对设备风控数据采集的模块包括:
用于对基于嵌入在APP中的SDK建立数据采集器的子模块;
用于通过数据采集器进行风控数据采集的子模块。
11.如权利要求10所述的基于用户通信行为的金融反欺诈系统,其特征在于,所述用于通过数据采集器进行数据采集的子模块包括:
用于根据需求建立用户接口组件并触发调用的初始化接口的单元;
用于通过业务模块组件和控制模块组件异步加载并进行初始化操作的单元;
用于对初始化操作中的数据进行采集并进行封装、打包及上报的单元。
12.如权利要求11所述的基于用户通信行为的金融反欺诈系统,其特征在于,所述用于将采集数据进行传输存储的模块包括:
用于通过APP初始化网络连接配置,获取并调用所采集的风控数据的子模块;
用于将采集的风控数据通过数据传输器实行延时上报机制并即时分析的子模块。
13.如权利要求12所述的基于用户通信行为的金融反欺诈系统,其特征在于,所述用于对存储的数据进行归并及演绎处理的模块包括:
用于通过数据处理器对风控数据进行数据预处理的子模块;
用于对动态数据进行人机判断的子模块。
14.如权利要求13所述的基于用户通信行为的金融反欺诈系统,其特征在于,所述用于通过数据处理器对风控数据进行预处理的子模块:
用于通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来进行数据清理的单元;
用于将多个数据源中的数据结合起来并统一存储,建立数据仓库的单元;
用于通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘形式的单元;
用于通过网络爬虫技术模块对数据进行数据归约处理的单元。
15.如权利要求14所述的基于用户通信行为的金融反欺诈系统,其特征在于,所述用于将处理的数据自动化特征生成的模块包括:
用于授权并抓取数据进行欺诈风险判断的子模块;
用于将抓取到的数据根据维度进行分析并统一清洗的子模块。
16.如权利要求15所述的基于用户通信行为的金融反欺诈系统,其特征在于,所述用于通过特征搭建模型并将模型融合输出的模块包括:
用于调用特征生成相对应的模型并将多个模型集成反欺诈模型的子模块;
用于根据反欺诈模型生成欺诈概率的子模块。
CN202011009005.2A 2020-09-23 2020-09-23 基于用户通信行为的金融反欺诈方法及系统 Pending CN112150261A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011009005.2A CN112150261A (zh) 2020-09-23 2020-09-23 基于用户通信行为的金融反欺诈方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011009005.2A CN112150261A (zh) 2020-09-23 2020-09-23 基于用户通信行为的金融反欺诈方法及系统

Publications (1)

Publication Number Publication Date
CN112150261A true CN112150261A (zh) 2020-12-29

Family

ID=73897849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011009005.2A Pending CN112150261A (zh) 2020-09-23 2020-09-23 基于用户通信行为的金融反欺诈方法及系统

Country Status (1)

Country Link
CN (1) CN112150261A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713288A (zh) * 2016-12-08 2017-05-24 同盾科技有限公司 一种欺诈风险识别、防范方法和系统
CN108681908A (zh) * 2018-05-17 2018-10-19 广州爱九游信息技术有限公司 反作弊方法、装置、计算设备及存储介质
CN108985048A (zh) * 2017-05-31 2018-12-11 腾讯科技(深圳)有限公司 模拟器识别方法及相关装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106713288A (zh) * 2016-12-08 2017-05-24 同盾科技有限公司 一种欺诈风险识别、防范方法和系统
CN108985048A (zh) * 2017-05-31 2018-12-11 腾讯科技(深圳)有限公司 模拟器识别方法及相关装置
CN108681908A (zh) * 2018-05-17 2018-10-19 广州爱九游信息技术有限公司 反作弊方法、装置、计算设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周彬: ""移动应用分析管理平台的设计与实现"", 《硕士电子期刊》 *
王鑫尘等: ""集成学习在互联网借贷反欺诈中的应用研究"", 《福建电脑》 *
陈思迎: ""大数据背景下机动车辆保险欺诈风险及其防范研究"", 《中国优秀博硕士学位论文全文数据库(硕士)经济与管理科学辑》 *

Similar Documents

Publication Publication Date Title
US11526889B2 (en) Resource transferring monitoring method and device
US10387536B2 (en) Computerized data-aware agent systems for retrieving data to serve a dialog between human user and computerized system
CN110347719A (zh) 一种基于大数据的企业外贸风险预警方法及系统
CN1545674A (zh) 商业处理策略对象
Vajgel et al. Development of intelligent robotic process automation: A utility case study in Brazil
WO2021022790A1 (zh) 基于智能交互的主动风控方法和系统
CN111931189B (zh) Api接口转用风险检测方法、装置和api服务系统
CN110728301A (zh) 一种个人用户的信用评分方法、装置、终端及存储介质
CN113570468A (zh) 一种企业支付风控服务平台
CN110543565A (zh) 基于卷积神经网络模型的审计方法、系统和可读存储介质
CN110310028B (zh) 用于众包的方法和装置
CN111639916A (zh) 一种基于区块链技术及深度学习的在线审计方法、系统和可读存储介质
CN116645134A (zh) 一种信用卡分期的推荐方法、装置、设备及介质
CN112150261A (zh) 基于用户通信行为的金融反欺诈方法及系统
CN113327111A (zh) 一种网络金融交易风险的评估方法及系统
CN115712662B (zh) 用于验证房源信息的方法、系统、设备和介质
CN111008078A (zh) 数据的批量处理方法、装置、设备及计算机存储介质
CN110674197A (zh) 一种业务操作的可视化配置与抓取系统
CN116720731B (zh) 一种煤矿金融全要素风险防控预警方法和预警系统
CN113282561B (zh) 链路生成方法及装置
EP4060539A1 (en) Real-time malicious activity detection using non-transaction data
CN113159901B (zh) 融资租赁业务会话的实现方法和装置
CN115271722A (zh) 一种账户监测处理方法及装置
CN110298669B (zh) 一种基于图形结构的iOS代充风险控制系统
CN115099478A (zh) 用户用电行为预测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201229

WD01 Invention patent application deemed withdrawn after publication