CN106548350A - 一种数据处理方法及服务器 - Google Patents
一种数据处理方法及服务器 Download PDFInfo
- Publication number
- CN106548350A CN106548350A CN201611026758.8A CN201611026758A CN106548350A CN 106548350 A CN106548350 A CN 106548350A CN 201611026758 A CN201611026758 A CN 201611026758A CN 106548350 A CN106548350 A CN 106548350A
- Authority
- CN
- China
- Prior art keywords
- variable
- derivative
- feature
- target
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据处理方法及服务器,其中,所述方法包括:接收请求数据,从所述请求数据中得到待处理的特征变量,所述待处理的特征变量具备第一特征属性;获取衍生策略,根据所述衍生策略对所述待处理的特征变量进行可组合特征的交叉组合,得到衍生变量,所述衍生变量具备第二特征属性,所述第二特征属性相比所述第一特征属性更接近于目标预期需求;获取筛选策略,根据所述筛选策略对所述衍生变量进行筛选,得到候选的目标变量;将候选的目标变量加入用于存储所述待处理的特征变量的变量池,以根据所述衍生策略和所述筛选策略进行下一轮的变量衍生和变量筛选,直至符合目标预期需求。
Description
技术领域
本发明涉及互联网技术,尤其涉及一种数据处理方法及服务器。
背景技术
随着互联网技术的发展,智能终端的大量普及,数据传输和交互越来越便捷。移动互联网时代的传输和交互比传统的互联网时代更加方便。比如,用户现在可以用手机终端缴水、电或煤气费、购买理财产品等,这些都需要用到移动支付,给人们的生活带来便利的同时,也容易带来数据安全隐患。为了提高安全性,需要对数据进行分析,以从中区分出哪些是会带来数据安全隐患的风险数据。采用现有的风险控制策略进行分析时,由于其自身的局限性,对获取到的原始数据进行分析后得到的大多是弱变量,而弱变量不足以反映出数据所要表达的用户真实意图,也就是说,通过弱变量无法区分出数据中哪些是需要屏蔽或限制的风险数据,即恶意用户触发的数据,很有可能把本无恶意的用户所触发的数据进行了屏蔽或限制,影响到用户正常的使用需求。然而,相关技术中,对于该问题,尚无有效解决方案。
发明内容
有鉴于此,本发明实施例提供了一种数据处理方法及服务器,至少解决了现有技术存在的问题。
本发明实施例的技术方案是这样实现的:
本发明实施例的一种数据处理方法,所述方法包括:
接收请求数据,从所述请求数据中得到待处理的特征变量,所述待处理的特征变量具备第一特征属性;
获取衍生策略,根据所述衍生策略对所述待处理的特征变量进行可组合特征的交叉组合,得到衍生变量,所述衍生变量具备第二特征属性,所述第二特征属性相比所述第一特征属性更接近于目标预期需求;
获取筛选策略,根据所述筛选策略对所述衍生变量进行筛选,得到候选的目标变量;
将候选的目标变量加入用于存储所述待处理的特征变量的变量池,以根据所述衍生策略和所述筛选策略进行下一轮的变量衍生和变量筛选,直至符合目标预期需求。
上述方案中,所述根据所述衍生策略对所述待处理的特征变量进行可组合特征的交叉组合,得到衍生变量,包括:
从所述衍生策略中提取用于特征分析的经验值;
根据所述经验值判断所述待处理的特征变量中的至少一个变量间是否具备可组合特征,如果具备可组合特征,则根据所述可组合特征进行交叉组合,得到至少一个特征组合;
将所述至少一个特征组合与从所述变量池中获取的变量及备选的训练样本进行指定的特征衍生,得到所述衍生变量。
上述方案中,所述将所述至少一个特征组合与从所述变量池中获取的变量及备选的训练样本进行指定的特征衍生,得到所述衍生变量,包括:
从用于存储所述至少一个特征组合的特征组合池中随机选择一个第一特征组合;
从所述第一特征组合中随机选取指定数量的特征;
从所述备选的训练样本中随机选取指定数量的训练样本;
根据所述指定数量的特征、所述获取的变量和所述指定数量的训练样本构建新的训练样本;
根据所述新的训练样本生成决策树,所述决策树的输出变量为所述衍生变量。
上述方案中,根据所述新的训练样本生成决策树,所述决策树的输出变量为所述衍生变量,包括:
根据所述新的训练样本同时训练至少一个RDT,将每个RDT的训练作为一个决策树输出,每一个决策树对应一个新的衍生变量。
上述方案中,所述方法还包括:所述得到候选的目标变量之后,
从所述衍生策略中提取用于特征分析的经验值;
根据所述经验值判断所述候选的目标变量是否具备强解释性,如果具备强解释性,则根据所述衍生策略对具备强解释性的目标变量进行可组合特征的交叉组合,得到新的衍生变量。
本发明实施例的一种服务器,所述服务器包括:
接收单元,用于接收请求数据,从所述请求数据中得到待处理的特征变量,所述待处理的特征变量具备第一特征属性;
衍生处理单元,用于获取衍生策略,根据所述衍生策略对所述待处理的特征变量进行可组合特征的交叉组合,得到衍生变量,所述衍生变量具备第二特征属性,所述第二特征属性相比所述第一特征属性更接近于目标预期需求;
筛选处理单元,用于获取筛选策略,根据所述筛选策略对所述衍生变量进行筛选,得到候选的目标变量;
多轮迭代单元,用于将候选的目标变量加入用于存储所述待处理的特征变量的变量池,以根据所述衍生策略和所述筛选策略进行下一轮的变量衍生和变量筛选,直至符合目标预期需求。
上述方案中,所述衍生处理单元,进一步用于:
从所述衍生策略中提取用于特征分析的经验值;
根据所述经验值判断所述待处理的特征变量中的至少一个变量间是否具备可组合特征,如果具备可组合特征,则根据所述可组合特征进行交叉组合,得到至少一个特征组合;
将所述至少一个特征组合与从所述变量池中获取的变量及备选的训练样本进行指定的特征衍生,得到所述衍生变量。
上述方案中,所述衍生处理单元,进一步用于:
从用于存储所述至少一个特征组合的特征组合池中随机选择一个第一特征组合;
从所述第一特征组合中随机选取指定数量的特征;
从所述备选的训练样本中随机选取指定数量的训练样本;
根据所述指定数量的特征、所述获取的变量和所述指定数量的训练样本构建新的训练样本;
根据所述新的训练样本生成决策树,所述决策树的输出变量为所述衍生变量。
上述方案中,所述衍生处理单元,进一步用于:
根据所述新的训练样本同时训练至少一个RDT,将每个RDT的训练作为一个决策树输出,每一个决策树对应一个新的衍生变量。
上述方案中,所述服务器还包括:新的衍生变量生成单元,用于:
从所述衍生策略中提取用于特征分析的经验值;
根据所述经验值判断所述候选的目标变量是否具备强解释性,如果具备强解释性,则根据所述衍生策略对具备强解释性的目标变量进行可组合特征的交叉组合,得到新的衍生变量。
本发明实施例的数据处理方法包括:接收请求数据,从所述请求数据中得到待处理的特征变量,所述待处理的特征变量具备第一特征属性;获取衍生策略,根据所述衍生策略对所述待处理的特征变量进行可组合特征的交叉组合,得到衍生变量,所述衍生变量具备第二特征属性,所述第二特征属性相比所述第一特征属性更接近于目标预期需求;获取筛选策略,根据所述筛选策略对所述衍生变量进行筛选,得到候选的目标变量;将候选的目标变量加入用于存储所述待处理的特征变量的变量池,以根据所述衍生策略和所述筛选策略进行下一轮的变量衍生和变量筛选,直至符合目标预期需求。
采用本发明实施例,由于通过衍生策略可以对所述待处理的特征变量进行可组合特征的交叉组合,得到衍生变量,所述衍生变量具备第二特征属性,所述第二特征属性相比所述第一特征属性更接近于目标预期需求,则数据更趋近需求,通过筛选策略对所述衍生变量进行筛选,得到候选的目标变量,则数据更趋于精确,且缩小了范围,通过所述衍生策略和所述筛选策略进行下一轮的变量衍生和变量筛选,直至符合目标预期需求,多轮的迭代处理使得数据与目标预期需求相符合,最终,通过多轮的迭代处理得到的数据,能区分出数据中哪些是需要屏蔽或限制的风险数据,以避免请求方把本无恶意的用户所触发的数据进行屏蔽或限制而影响到用户正常的使用需求,同时把恶意的用户所触发的数据进行屏蔽或限制,提高了数据安全性。
附图说明
图1为本发明实施例中进行信息交互的各方硬件实体的示意图;
图2为本发明实施例一方法实现流程示意图;
图3为本发明实施例又一方法实现流程示意图;
图4为本发明实施例一系统架构组成示意图;
图5为应用本发明实施例一特征衍生的示意图;
图6为应用本发明实施例又一特征衍生的示意图;
图7为应用本发明实施例一特征衍生和筛选的示意图;
图8为应用本发明实施例一防欺诈服务的系统架构组成示意图;
图9为应用本发明实施例一防欺诈服务的方法流程示意图。
具体实施方式
下面结合附图对技术方案的实施作进一步的详细描述。
现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明实施例的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。
在下面的详细说明中,陈述了众多的具体细节,以便彻底理解本发明。不过,对于本领域的普通技术人员来说,显然可在没有这些具体细节的情况下实践本发明。在其他情况下,没有详细说明公开的公知方法、过程、组件、电路和网络,以避免不必要地使实施例的各个方面模糊不清。
另外,本文中尽管多次采用术语“第一”、“第二”等来描述各种元件(或各种阈值或各种应用或各种指令或各种操作)等,不过这些元件(或阈值或应用或指令或操作)不应受这些术语的限制。这些术语只是用于区分一个元件(或阈值或应用或指令或操作)和另一个元件(或阈值或应用或指令或操作)。例如,第一操作可以被称为第二操作,第二操作也可以被称为第一操作,而不脱离本发明的范围,第一操作和第二操作都是操作,只是二者并不是相同的操作而已。
本发明实施例中的步骤并不一定是按照所描述的步骤顺序进行处理,可以按照需求有选择的将步骤打乱重排,或者删除实施例中的步骤,或者增加实施例中的步骤,本发明实施例中的步骤描述只是可选的顺序组合,并不代表本发明实施例的所有步骤顺序组合,实施例中的步骤顺序不能认为是对本发明的限制。
本发明实施例中的术语“和/或”指的是包括相关联的列举项目中的一个或多个的任何和全部的可能组合。还要说明的是:当用在本说明书中时,“包括/包含”指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但是不排除一个或多个其他特征、整数、步骤、操作、元件和/或组件和/或它们的组群的存在或添加。
本发明实施例的智能终端(如移动终端)可以以各种形式来实施。例如,本发明实施例中描述的移动终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA,Personal Digital Assistant)、平板电脑(PAD)、便携式多媒体播放器(PMP,Portable Media Player)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面,假设终端是移动终端。然而,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
图1为本发明实施例中进行信息交互的各方硬件实体的示意图,图1中包括:终端设备1,服务器2。其中,终端设备1由终端设备11-14构成,终端设备通过有线网络或者无线网络与服务器进行信息交互。终端设备包括手机、台式机、PC机、一体机等类型。在一个实际应用中,用手机终端缴水、电或煤气费、购买理财产品等,这些都需要用到移动支付,给人们的生活带来便利的同时,也容易带来数据安全隐患。为了提高安全性,需要对数据进行分析,以从中区分出哪些是会带来数据安全隐患的风险数据。采用现有的风险模型进行分析时,由于其自身的局限性,对获取到的原始数据进行分析后得到的大多是弱变量,而弱变量不足以反映出数据所要表达的用户真实意图。最好的建模变量是尽量少的强解释性变量。如何从原始变量中加工出强解释性变量成为成功的关键,且强解释变量尽量少,则对于分析的精度会更加精确,数据分析(或称数据挖掘)的效率也越高。针对需要得到尽量少的强解释变量的需求,采用本发明实施例,终端设备作为请求方向服务器发起请求,将请求数据提供给服务器进行数据挖掘分析,服务器通过处理逻辑10的风控模型对请求数据进行数据挖掘分析后得到符合目标预期的数据,服务器将该符合目标预期的数据反馈给终端设备。由于该符合目标预期的数据可以反映出数据所要表达的用户真实意图,因此,据此能精确和快捷的区分出请求数据中哪些是需要屏蔽或限制的风险数据,即恶意用户触发的数据,哪些是本无恶意的用户所触发的数据,无需进行屏蔽或限制。当然,服务器也可以直接将该风控模型反馈给终端设备,终端设备通过该风控模型对请求数据进行数据挖掘分析后得到符合目标预期的数据,以便根据该符合目标预期的数据能精确和快捷的区分出请求数据中哪些是需要屏蔽或限制的风险数据,即恶意用户触发的数据,哪些是本无恶意的用户所触发的数据,无需进行屏蔽或限制。
该风控模型,是由处理逻辑10中的衍生策略和筛选策略得到的。由于通过衍生策略和筛选策略建模得到的变量是尽量少的强解释性变量,因此,才具备上述数据挖掘分析描述中提及的精确和快捷性。处理逻辑10包括:S1、接收请求数据,从所述请求数据中得到待处理的特征变量,所述待处理的特征变量具备第一特征属性,比如为弱变量;S2、获取衍生策略,根据所述衍生策略对所述待处理的特征变量进行可组合特征的交叉组合,得到衍生变量,所述衍生变量具备第二特征属性,所述第二特征属性相比所述第一特征属性更接近于目标预期需求,即具备更强的解释性,比如为强变量且具备解释性;S3、获取筛选策略,根据所述筛选策略对所述衍生变量进行筛选,得到候选的目标变量;S4、将候选的目标变量加入用于存储所述待处理的特征变量的变量池,以根据所述衍生策略和所述筛选策略进行下一轮的变量衍生和变量筛选,直至符合目标预期需求。
上述图1的例子只是实现本发明实施例的一个系统架构实例,本发明实施例并不限于上述图1所述的系统结构,基于上述图1所述的系统架构,提出本发明方法各个实施例。
首先对本文中涉及的技术用语汇总描述如下:
特征变量:事物在某个特征上的表现,例如年龄是用户的一个特征变量,30岁是这个特征变量对应的特征值;
可组合特征:组合在一起仍然具有解释性的特征,例如年龄和消费组合具有一定的解释性,但是用户打车和发红包直接进行组合即使衍生出的新变量具有很好的统计结果也无法解释;
RDT:restricted decision tree,受限决策树;
RF:random forest,随机森林;
RRF:restricted random forest,受限随机森林;
LR:logistic regression,逻辑回归;
SLR:Stepwise LR,分步式逻辑回归,一种线性变量的筛选方法;
弱变量:从数据层面来看,该变量对于目标变量的预测能力较弱;
强变量:从数据层面来看,该变量对于目标变量的预测能力较强;
可解释性:因变量和目标变量之间的关系具有经济学含义,建模需要可解释性变量的原因是避免因为样本问题导致的统计错误被当成了结论,例如:40-50岁人的还款能力要比70+的人的还款能力强是具有经济学含义的,因为具有稳定的收入,但是如果通过统计分析得到相反的结论,则这个结论从经济学意义上无法解释,很可能是样本问题导致的统计错误;
弱解释性变量:从经济学角度,该变量对于目标变量不具有很好的解释性;
强解释性变量:从经济学角度,该变量对于目标变量具有很好的解释性,而且从数据层面该变量对于目标变量的预测能力也很强;
变量衍生:通过对多个变量进行变换,组合等操作得到新变量的过程;
道德风险:用户不承认是自己的过失造成的损失,或是自己故意造成损失并要求服务提供方对损失进行赔偿;
过拟合:由于数据的样本有偏导致模型过度的挖掘了某些无法解释的特征而提高了精度。例如:建模数据中坏样本的账号长度都是8位的,就推断出账号是8位的账号是坏样本的概率很高的结论。
本发明实施例的一种数据处理方法,如图2所示,所述方法包括:接收请求数据,从所述请求数据中得到待处理的特征变量,所述待处理的特征变量具备第一特征属性(101),初始变量为弱变量,其特征属性即为弱变量。获取衍生策略,根据所述衍生策略对所述待处理的特征变量进行可组合特征的交叉组合,得到衍生变量,所述衍生变量具备第二特征属性,所述第二特征属性相比所述第一特征属性更接近于目标预期需求,即具备更强的解释性(102),通过衍生策略(如结合专家经验和特征工程机制)将该弱变量变为强变量,且为具备“强解释性的变量”。获取筛选策略,根据所述筛选策略对所述衍生变量进行筛选,得到候选的目标变量(103)。通过一轮的变量衍生可以得到新的衍生变量,即为:可能的“强解释性的变量”,为了更加精准,将该可能的“强解释性的变量”进行筛选,将筛选得到的更接近目标预期的“强解释性的变量”放入变量池中,将候选的目标变量加入用于存储所述待处理的特征变量的变量池,以根据所述衍生策略和所述筛选策略进行下一轮的变量衍生和变量筛选,直至符合目标预期需求(104)。也就是说,从变量池重新提取数据,进行上述步骤102-103的多轮变量衍生和变量筛选,最终得到最符合目标预期的“强解释性的变量”,即为尽量少,解释性最强的“强解释性的变量”。这里需要指出的是,针对“尽量少”的含义而言,尽量采用数量较少、解释性最强的“强解释性的变量”的原因为:1)在结果相同的情况下,减少建模变量的个数可以显著增加模型的稳定性和可维护性;2)在反欺诈领域可以减少客服和用户之间的沟通成本,使客服的同事快速的理解系统做出判断的依据。
就上述符合目标预期需求而言,根据所述衍生策略和所述筛选策略进行多轮的变量衍生和变量筛选,能更精准的反映出发起用户行为的用户真实意图,比如是移动支付的欺诈行为,还是正常的移动支付行为,从这个层面上来看是否符合目标预期需求。在一个实例中,由于与所述目标预期需求匹配,是为了得到最符合目标预期的“强解释性的变量”,也就是说,将新生成的强可解释性变量加入变量池中进行下一轮的变量衍生和变量筛选,经多轮变量衍生和变量筛选,一直迭代到无法找出新的强可解释性变量为止,此时,符合所述目标预期需求。
对于上述实施例中步骤101-104构成的处理过程,以一个实例进行说明如下:
step 1:对请求数据进行特征选择以得到待处理的特征变量,之后,在系统中输入n个变量x1,x2,...xn,构成原始变量池,该n个变量为待处理的特征变量。
step 2:RRF变量衍生模块从n个变量中随机挑选变量进行衍生,产生出m个新变量d1,d2,...,dm(例如x1,x15,x34三个变量衍生出新的变量d1)。m个新变量为衍生变量。
step3:SLR模块从m个新变量中随机选择p个衍生变量,从p个衍生变量中进行随机筛选以挑选出q个强变量e1,e2,...eq(q个变量在数据统计上和目标变量具有很好相关性)。q个强变量为对所述衍生变量进行筛选所得到的候选目标变量。
执行完step 1-3后,会进行下一轮的变量衍生和变量筛选,直至符合目标预期需求,具体如后续step4-6所示。
step4:依据专家经验对q个强变量进行解释性判断,筛选出z个强解释性变量f1,f2,...,fz(z个变量具有解释性)。
step5:将z个变量加入原始变量池中构成新的变量池x1,x2,...,xn,f1,f2,...,fz。
step6:转入重复执行step1,继续这个处理流程,直到在当前处理流程中无法找到强解释性变量为止。
经过step1-6,最终输出的结果为:符合所述目标预期需求的尽可能少的“强解释性的变量”。
采用本发明实施例,可以通过上述衍生策略和筛选策略得到新的风控模型,新的风控模型的输出结果即为上述最符合目标预期的“强解释性的变量”。在移动支付和互联网金融的发展给人们的生活带来便利的同时,也容易成为恶意用户进行数据诈骗的工具。电信诈骗手段层出不穷及移动设备病毒不断翻新都对互联网条件下的风控模型提出了新的要求。风控模型必须具备很好的精度和可解释性。例如,当用户投诉被电信诈骗,转账给对方时,如果风控模型可以评估出转账的接受方是微商的可能性很高的话,这笔投诉很有可能只是交易纠纷而不是真的电信诈骗。由此可见,模型及变量的可解释性对于数据安全的判定,提高系统中请求方(如系统客服)甄选风险数据的处理速度都是至关重要的。同时,由于数据诈骗对于正常的交易来说只占非常小的比例,导致坏样本的数量有限,在这种情况下非常容易出现过拟合的情况,这也导致风控模型对于变量的可解释性要求极高,而本发明实施例最终得到的新风控模型,建模变量是尽量少的强解释性变量,符合目标预期需求,对获取到的原始变量采用新风控模型进行处理以加工出强解释性变量后,无论从数据层面还是从经济意义上都具备很强的可解释性,从而对数据安全的判定,甄选风险数据上起到至关重要的作用。
本发明实施例的一种数据处理方法,如图3所示,所述方法包括:接收请求数据,从所述请求数据中得到待处理的特征变量,所述待处理的特征变量具备第一特征属性(201),初始变量为弱变量,其特征属性即为弱变量。获取衍生策略,从所述衍生策略中提取用于特征分析的经验值(202)。该经验值可以为专家经验值,通过该专家经验值进行处理的目的是:为了对变量的衍生范围进行干预;该专家经验值进行处理一方面是为了对变量的衍生范围进行干预,另一方面,还可以对是否具备可解释性进行判断。对变量的衍生范围进行干预的过程中,根据所述经验值判断所述待处理的特征变量中的至少一个变量间是否具备可组合特征,当具备可组合特征时,则根据所述可组合特征进行交叉组合,得到至少一个特征组合(203);将所述至少一个特征组合与从所述变量池中获取的变量及备选的训练样本进行指定的特征衍生,得到所述衍生变量(204)。这里,所述指定的特征衍生有很多策略,在一个实际应用中,可以采取受限随机森林(RRF)特征衍生,则结合上述专家经验值和所述RRF特征衍生得到的衍生变量具备第二特征属性,所述第二特征属性相比所述第一特征属性更接近于目标预期需求,即具备更强的解释性,即通过衍生策略(如结合专家经验和RRF特征衍生)将该弱变量变为强变量,且为具备“强解释性的变量”。获取筛选策略,根据所述筛选策略对所述衍生变量进行筛选,得到候选的目标变量(205),所述筛选策略有很多种,在一个实际应用中,可以采取分步式逻辑回归(SLR)筛选。通过一轮的变量衍生可以得到新的衍生变量,即为:可能的“强解释性的变量”,为了更加精准,将该可能的“强解释性的变量”进行筛选,将筛选得到的更接近目标预期的“强解释性的变量”放入变量池中,将候选的目标变量加入用于存储所述待处理的特征变量的变量池,以根据所述衍生策略和所述筛选策略进行下一轮的变量衍生和变量筛选,直至符合目标预期需求(206)。也就是说,从变量池重新提取数据,进行上述步骤202-205的多轮变量衍生和变量筛选,最终得到最符合目标预期的“强解释性的变量”,即为尽量少,解释性最强的“强解释性的变量”。所述最符合目标预期的“强解释性的变量”即为:将新生成的强可解释性变量加入变量池中进行下一轮的变量衍生和变量筛选,经多轮变量衍生和变量筛选,一直迭代到无法找出新的强可解释性变量为止。这里需要指出的是,针对“尽量少”的含义而言,尽量采用数量较少、解释性最强的“强解释性的变量”的原因为:1)在结果相同的情况下,减少建模变量的个数可以显著增加模型的稳定性和可维护性;2)在反欺诈领域可以减少客服和用户之间的沟通成本,使客服的同事快速的理解系统做出判断的依据。
就上述符合目标预期需求而言,根据所述衍生策略和所述筛选策略进行多轮的变量衍生和变量筛选,能更精准的反映出发起用户行为的用户真实意图,比如是移动支付的欺诈行为,还是正常的移动支付行为,从这个层面上来看是否符合目标预期需求。在一个实例中,由于与所述目标预期需求匹配,是为了得到最符合目标预期的“强解释性的变量”,也就是说,将新生成的强可解释性变量加入变量池中进行下一轮的变量衍生和变量筛选,经多轮变量衍生和变量筛选,一直迭代到无法找出新的强可解释性变量为止,此时,符合所述目标预期需求。
采用本发明实施例,可以通过上述衍生策略和筛选策略得到新的风控模型,新的风控模型的输出结果即为上述最符合目标预期的“强解释性的变量”。在一个实际应用中,基于上述专家经验值、上述RRF和上述SLR来得到该新的风控模型,该新的风控模型是为了得到强解释性变量进行的数据挖掘。采用一轮一轮衍生筛选的方式,在每轮中基于RRF的办法构造可能的强解释性变量,然后使用SLR的办法对这些变量进行筛选,随后将筛选出来的变量再次加入到变量池中进行下一轮的衍生和筛选。通过一轮一轮的迭代,不断的提升变量的预测能力,并且保存变量的可解释性,即:将一轮变量的可解释性延续到下一轮中。其中,就专家经验值而言,数据分析人员根据对业务和问题的理解,基于个人的经验对原始变量进行衍生(均值,方差,woe变换,变量交叉等),然后在使用变量筛选方法(IV值等)对衍生的变量进行筛选。对于RRF衍生的特征工程而言,使用具有特征工程能力的机器学习算法对原始特征进行衍生,衍生的目标就是提高变量对于目标的预测能力。
本发明实施例的一种数据处理方法,所述方法包括:接收请求数据,从所述请求数据中得到待处理的特征变量,所述待处理的特征变量具备第一特征属性,初始变量为弱变量,其特征属性即为弱变量。获取衍生策略,从所述衍生策略中提取用于特征分析的经验值。该经验值可以为专家经验值,通过该专家经验值进行处理的目的是:为了对变量的衍生范围进行干预;该专家经验值进行处理一方面是为了对变量的衍生范围进行干预,另一方面,还可以对是否具备可解释性进行判断。对变量的衍生范围进行干预的过程中,根据所述经验值判断所述待处理的特征变量中的至少一个变量间是否具备可组合特征,当具备可组合特征时,则根据所述可组合特征进行交叉组合,得到至少一个特征组合。从用于存储所述至少一个特征组合的特征组合池中随机选择一个第一特征组合,从所述第一特征组合中随机选取指定数量的特征,从所述备选的训练样本中随机选取指定数量的训练样本,根据所述指定数量的特征、所述获取的变量和所述指定数量的训练样本构建新的训练样本,根据所述新的训练样本生成决策树,所述决策树的输出变量为所述衍生变量,从而通过将所述至少一个特征组合与从所述变量池中获取的变量及备选的训练样本进行指定的特征衍生,得到所述衍生变量。这里,所述指定的特征衍生有很多策略,在一个实际应用中,可以采取受限随机森林(RRF)特征衍生,则结合上述专家经验值和所述RRF特征衍生得到的衍生变量具备第二特征属性,所述第二特征属性相比所述第一特征属性更接近于目标预期需求,即具备更强的解释性,即通过衍生策略(如结合专家经验和RRF特征衍生)将该弱变量变为强变量,且为具备“强解释性的变量”。获取筛选策略,根据所述筛选策略对所述衍生变量进行筛选,得到候选的目标变量,所述筛选策略有很多种,在一个实际应用中,可以采取分步式逻辑回归(SLR)筛选。通过一轮的变量衍生可以得到新的衍生变量,即为:可能的“强解释性的变量”,为了更加精准,将该可能的“强解释性的变量”进行筛选,将筛选得到的更接近目标预期的“强解释性的变量”放入变量池中,将候选的目标变量加入用于存储所述待处理的特征变量的变量池,以根据所述衍生策略和所述筛选策略进行下一轮的变量衍生和变量筛选,直至符合目标预期需求。也就是说,从变量池重新提取数据,进行上述多轮的变量衍生和变量筛选,最终得到最符合目标预期的“强解释性的变量”,即为尽量少,解释性最强的“强解释性的变量”。所述最符合目标预期的“强解释性的变量”即为:将新生成的强可解释性变量加入变量池中进行下一轮的变量衍生和变量筛选,经多轮变量衍生和变量筛选,一直迭代到无法找出新的强可解释性变量为止。这里需要指出的是,针对“尽量少”的含义而言,尽量采用数量较少、解释性最强的“强解释性的变量”的原因为:1)在结果相同的情况下,减少建模变量的个数可以显著增加模型的稳定性和可维护性;2)在反欺诈领域可以减少客服和用户之间的沟通成本,使客服的同事快速的理解系统做出判断的依据。
就上述符合目标预期需求而言,根据所述衍生策略和所述筛选策略进行多轮的变量衍生和变量筛选,能更精准的反映出发起用户行为的用户真实意图,比如是移动支付的欺诈行为,还是正常的移动支付行为,从这个层面上来看是否符合目标预期需求。在一个实例中,由于与所述目标预期需求匹配,是为了得到最符合目标预期的“强解释性的变量”,也就是说,将新生成的强可解释性变量加入变量池中进行下一轮的变量衍生和变量筛选,经多轮变量衍生和变量筛选,一直迭代到无法找出新的强可解释性变量为止,此时,符合所述目标预期需求。
本发明实施例在根据构建的新训练样本构建决策树的过程中,输入为训练样本,变量池和可选的特征组合,输出即为决策树,而该决策树的输出就是生成的衍生变量。由于对于小样本数据特征工程容易产生严重的过拟合的问题,因此,采用本发明实施例,除了在每一轮的特征衍生过程中限制了衍生的深度和范围,同时引入随机性,可以极大的减少过拟合问题的产生。可选的特征组合是基于专家经验值构造的,以表示哪些特征可以在同一颗决策树出现。基于专家经验值的特征衍生策略虽然具有很好的可解释性,但是这种策略需要分析人员对于业务和数据都非常的了解,而且所有的特征都采用专家分析的方法也会存在耗时巨大,人工成本高等问题。当问题的复杂度升高时,基于专家经验构造的变量往往没有很好的显著性,即不是强变量。而基于特征工程构造的变量虽然具有很好的显著性,但是当样本量比较小的时候会存在严重的过拟合。而且衍生的变量对于问题的理解深度不够。导致变量仅仅是对数据的拟合而无法挖掘问题的本质。
本发明实施例将专家经验值、基于RRF的特征工程结合在了一起,同时加入随机性来减少过拟合,解决了基于专家经验进行特征衍生得到的变量不够显著的特点,对特征变量的衍生考虑到了对目标变量的预测能力。本发明实施例采用了决策树对变量进行多轮衍生,避免了在特征变换后完全没有解释性的问题,采用决策树的衍生方案可以极大的保留基础变量的可解释性,将可解释性一轮一轮的保留下来,在衍生的过程中对衍生的范围基于专家经验做了人工的干预。同时,采用多轮的衍生方案可以将上一轮衍生变量的可解释性带到下一轮,解决了特征工程生成的变量解释性不够的问题。除了在每一轮的特征衍生过程中限制了衍生的深度和范围,在本发明实施例中引入随机性,解决了对于小样本数据特征工程容易产生严重的过拟合的问题,可以极大的减少过拟合的产生。
本发明实施例的一种数据处理方法,所述方法包括:接收请求数据,从所述请求数据中得到待处理的特征变量,所述待处理的特征变量具备第一特征属性,初始变量为弱变量,其特征属性即为弱变量。获取衍生策略,从所述衍生策略中提取用于特征分析的经验值。该经验值可以为专家经验值,通过该专家经验值进行处理的目的是:为了对变量的衍生范围进行干预;该专家经验值进行处理一方面是为了对变量的衍生范围进行干预,另一方面,还可以对是否具备可解释性进行判断。对变量的衍生范围进行干预的过程中,根据所述经验值判断所述待处理的特征变量中的至少一个变量间是否具备可组合特征,当具备可组合特征时,则根据所述可组合特征进行交叉组合,得到至少一个特征组合。从用于存储所述至少一个特征组合的特征组合池中随机选择一个第一特征组合,从所述第一特征组合中随机选取指定数量的特征,从所述备选的训练样本中随机选取指定数量的训练样本,根据所述指定数量的特征、所述获取的变量和所述指定数量的训练样本构建新的训练样本,根据所述新的训练样本生成决策树的过程中,可以根据所述新的训练样本同时训练至少一个RDT,将每个RDT的训练作为一个决策树输出,得到多个决策树。其中,每一个决策树对应一个新的衍生变量,每一个决策树的输出变量为所述衍生变量,从而通过将所述至少一个特征组合与从所述变量池中获取的变量及备选的训练样本进行指定的特征衍生,得到所述衍生变量。这里,所述指定的特征衍生有很多策略,在一个实际应用中,可以采取受限随机森林(RRF)特征衍生,则结合上述专家经验值和所述RRF特征衍生得到的衍生变量具备第二特征属性,所述第二特征属性相比所述第一特征属性更接近于目标预期需求,即具备更强的解释性,即通过衍生策略(如结合专家经验和RRF特征衍生)将该弱变量变为强变量,且为具备“强解释性的变量”。获取筛选策略,根据所述筛选策略对所述衍生变量进行筛选,得到候选的目标变量,所述筛选策略有很多种,在一个实际应用中,可以采取分步式逻辑回归(SLR)筛选。得到候选的目标变量之后,从所述衍生策略中提取用于特征分析的经验值,根据所述经验值判断所述候选的目标变量是否具备强解释性,如果具备强解释性,则根据所述衍生策略对具备强解释性的目标变量进行可组合特征的交叉组合,得到新的衍生变量,以实现基于专家经验值对是否具备可解释性进行判断的功能。通过一轮的变量衍生可以得到新的衍生变量,即为:可能的“强解释性的变量”,为了更加精准,将该可能的“强解释性的变量”进行筛选,将筛选得到的更接近目标预期的“强解释性的变量”放入变量池中,将候选的目标变量加入用于存储所述待处理的特征变量的变量池,以根据所述衍生策略和所述筛选策略进行下一轮的变量衍生和变量筛选,直至符合目标预期需求。也就是说,从变量池重新提取数据,进行上述多轮的变量衍生和变量筛选,最终得到最符合目标预期的“强解释性的变量”,即为尽量少,解释性最强的“强解释性的变量”。所述最符合目标预期的“强解释性的变量”即为:将新生成的强可解释性变量加入变量池中进行下一轮的变量衍生和变量筛选,经多轮变量衍生和变量筛选,一直迭代到无法找出新的强可解释性变量为止。这里需要指出的是,针对“尽量少”的含义而言,尽量采用数量较少、解释性最强的“强解释性的变量”的原因为:1)在结果相同的情况下,减少建模变量的个数可以显著增加模型的稳定性和可维护性;2)在反欺诈领域可以减少客服和用户之间的沟通成本,使客服的同事快速的理解系统做出判断的依据。
就上述符合目标预期需求而言,根据所述衍生策略和所述筛选策略进行多轮的变量衍生和变量筛选,能更精准的反映出发起用户行为的用户真实意图,比如是移动支付的欺诈行为,还是正常的移动支付行为,从这个层面上来看是否符合目标预期需求。在一个实例中,由于与所述目标预期需求匹配,是为了得到最符合目标预期的“强解释性的变量”,也就是说,将新生成的强可解释性变量加入变量池中进行下一轮的变量衍生和变量筛选,经多轮变量衍生和变量筛选,一直迭代到无法找出新的强可解释性变量为止,此时,符合所述目标预期需求。
本发明实施例在根据构建的新训练样本构建决策树的过程中,输入为训练样本,变量池和可选的特征组合,输出为多颗决策树,区别于上述实施例输出为一颗决策树。该决策树的输出就是生成的衍生变量。由于对于小样本数据特征工程容易产生严重的过拟合的问题,因此,采用本发明实施例,除了在每一轮的特征衍生过程中限制了衍生的深度和范围,同时引入随机性,可以极大的减少过拟合问题的产生。可选的特征组合是基于专家经验值构造的,以表示哪些特征可以在同一颗决策树出现。基于专家经验值的特征衍生策略虽然具有很好的可解释性,但是这种策略需要分析人员对于业务和数据都非常的了解,而且所有的特征都采用专家分析的方法也会存在耗时巨大,人工成本高等问题。当问题的复杂度升高时,基于专家经验构造的变量往往没有很好的显著性,即不是强变量。而基于特征工程构造的变量虽然具有很好的显著性,但是当样本量比较小的时候会存在严重的过拟合。而且衍生的变量对于问题的理解深度不够。导致变量仅仅是对数据的拟合而无法挖掘问题的本质。
本发明实施例将专家经验值、基于RRF的特征工程结合在了一起,同时加入随机性来减少过拟合,解决了基于专家经验进行特征衍生得到的变量不够显著的特点,对特征变量的衍生考虑到了对目标变量的预测能力。本发明实施例采用了决策树对变量进行多轮衍生,避免了在特征变换后完全没有解释性的问题,采用决策树的衍生方案可以极大的保留基础变量的可解释性,将可解释性一轮一轮的保留下来,在衍生的过程中对衍生的范围基于专家经验做了人工的干预。同时,采用多轮的衍生方案可以将上一轮衍生变量的可解释性带到下一轮,解决了特征工程生成的变量解释性不够的问题。除了在每一轮的特征衍生过程中限制了衍生的深度和范围,在本发明实施例中引入随机性,解决了对于小样本数据特征工程容易产生严重的过拟合的问题,可以极大的减少过拟合的产生。
在衍生的过程中,对变量衍生的范围基于专家经验做了人工的干预,通过该专家经验值进行处理的目的是:为了对变量的衍生范围进行干预;该专家经验值进行处理一方面是为了对变量的衍生范围进行干预,另一方面,还可以对是否具备可解释性进行判断。由于衍生和筛选是多轮迭代,因此,采用本发明实施例多轮迭代的衍生方案可以将上一轮得到的衍生变量的可解释性带到下一轮中,从而强化衍生变量的解释性,始终得到当前具备“最强解释性的变量”,且经过多轮的处理,可以将不具备“最强解释性的变量”的变量筛选掉,以得到尽可能少和尽可能精确的“最强解释性的变量”,这样,将尽可能少和尽可能精确的“最强解释性的变量”提供给请求方使用,会很容易区分出哪些是需要屏蔽或限制的风险数据,采用本发明实施例基于专家经验值、RRF特征衍生中决策树的形式、SLR筛选得到的新风控模型,通过每一轮中基于专家经验、RRF特征衍生、SLR筛选及多轮的处理,得到尽可能少和尽可能精确的“最强解释性的变量”,能提高数据挖掘的准确性,也能提高整体系统的安全性,稳定性和处理效率。
本发明实施例的一种数据处理系统,如图4所示,包括终端41和服务器42,终端41作为请求方向服务器42发起请求,将请求数据提供给服务器42进行数据挖掘分析,服务器42对请求数据进行数据挖掘分析后得到符合目标预期的数据,服务器42将该符合目标预期的数据反馈给终端41。由于该符合目标预期的数据可以反映出数据所要表达的用户真实意图,因此,据此能精确和快捷的区分出请求数据中哪些是需要屏蔽或限制的风险数据,即恶意用户触发的数据,哪些是本无恶意的用户所触发的数据,无需进行屏蔽或限制。其中,服务器42包括:接收单元421,用于接收请求数据,从所述请求数据中得到待处理的特征变量,所述待处理的特征变量具备第一特征属性;衍生处理单元422,用于获取衍生策略,根据所述衍生策略对所述待处理的特征变量进行可组合特征的交叉组合,得到衍生变量,所述衍生变量具备第二特征属性,所述第二特征属性相比所述第一特征属性更接近于目标预期需求,即具备更强的解释性;筛选处理单元423,用于获取筛选策略,根据所述筛选策略对所述衍生变量进行筛选,得到候选的目标变量;多轮迭代单元424,用于将候选的目标变量加入用于存储所述待处理的特征变量的变量池,以根据所述衍生策略和所述筛选策略进行下一轮的变量衍生和变量筛选,直至符合目标预期需求。
采用本发明实施例,从请求数据中得到待处理的特征变量,所述待处理的特征变量具备第一特征属性,初始变量为弱变量,其特征属性即为弱变量。根据所述衍生策略对所述待处理的特征变量进行可组合特征的交叉组合,得到衍生变量,所述衍生变量具备第二特征属性,所述第二特征属性相比所述第一特征属性更接近于目标预期需求,即具备更强的解释性,通过衍生策略(如结合专家经验和特征工程机制)将该弱变量变为强变量,且为具备“强解释性的变量”。获取筛选策略,根据所述筛选策略对所述衍生变量进行筛选,得到候选的目标变量。通过一轮的变量衍生可以得到新的衍生变量,即为:可能的“强解释性的变量”,为了更加精准,将该可能的“强解释性的变量”进行筛选,将筛选得到的更接近目标预期的“强解释性的变量”放入变量池中,将候选的目标变量加入用于存储所述待处理的特征变量的变量池,以根据所述衍生策略和所述筛选策略进行下一轮的变量衍生和变量筛选,直至符合目标预期需求。也就是说,从变量池重新提取数据,进行多轮变量衍生和变量筛选,最终得到最符合目标预期的“强解释性的变量”,即为尽量少,解释性最强的“强解释性的变量”。所述最符合目标预期的“强解释性的变量”即为:将新生成的强可解释性变量加入变量池中进行下一轮的变量衍生和变量筛选,经多轮变量衍生和变量筛选,一直迭代到无法找出新的强可解释性变量为止。这里需要指出的是,针对“尽量少”的含义而言,尽量采用数量较少、解释性最强的“强解释性的变量”的原因为:1)在结果相同的情况下,减少建模变量的个数可以显著增加模型的稳定性和可维护性;2)在反欺诈领域可以减少客服和用户之间的沟通成本,使客服的同事快速的理解系统做出判断的依据。
就上述符合目标预期需求而言,根据所述衍生策略和所述筛选策略进行多轮的变量衍生和变量筛选,能更精准的反映出发起用户行为的用户真实意图,比如是移动支付的欺诈行为,还是正常的移动支付行为,从这个层面上来看是否符合目标预期需求。在一个实例中,由于与所述目标预期需求匹配,是为了得到最符合目标预期的“强解释性的变量”,也就是说,将新生成的强可解释性变量加入变量池中进行下一轮的变量衍生和变量筛选,经多轮变量衍生和变量筛选,一直迭代到无法找出新的强可解释性变量为止,此时,符合所述目标预期需求。
通过上述衍生策略和筛选策略得到新的风控模型,新的风控模型的输出结果即为上述最符合目标预期的“强解释性的变量”。在移动支付和互联网金融的发展给人们的生活带来便利的同时,也容易成为恶意用户进行数据诈骗的工具。电信诈骗手段层出不穷及移动设备病毒不断翻新都对互联网条件下的风控模型提出了新的要求。风控模型必须具备很好的精度和可解释性。例如,当用户投诉被电信诈骗,转账给对方时,如果风控模型可以评估出转账的接受方是微商的可能性很高的话,这笔投诉很有可能只是交易纠纷而不是真的电信诈骗。由此可见,模型及变量的可解释性对于数据安全的判定,提高系统中请求方(如系统客服)甄选风险数据的处理速度都是至关重要的。同时,由于数据诈骗对于正常的交易来说只占非常小的比例。导致坏样本的数量有限,在这种情况下非常容易出现过拟合的情况,这也导致风控模型对于变量的可解释性要求极高,而本发明实施例最终得到的新风控模型,建模变量是尽量少的强解释性变量,符合目标预期需求,对获取到的原始变量采用新风控模型进行处理以加工出强解释性变量后,无论从数据层面还是从经济意义上都具备很强的可解释性,从而对数据安全的判定,甄选风险数据上起到至关重要的作用。
在本发明实施例一实施方式中,所述衍生处理单元,进一步用于:从所述衍生策略中提取用于特征分析的经验值;根据所述经验值判断所述待处理的特征变量中的至少一个变量间是否具备可组合特征,如果具备可组合特征,则根据所述可组合特征进行交叉组合,得到至少一个特征组合;将所述至少一个特征组合与从所述变量池中获取的变量及备选的训练样本进行指定的特征衍生,得到所述衍生变量。
在本发明实施例一实施方式中,所述衍生处理单元,进一步用于:从用于存储所述至少一个特征组合的特征组合池中随机选择一个第一特征组合;从所述第一特征组合中随机选取指定数量的特征;从所述备选的训练样本中随机选取指定数量的训练样本;根据所述指定数量的特征、所述获取的变量和所述指定数量的训练样本构建新的训练样本;根据所述新的训练样本生成决策树,所述决策树的输出变量为所述衍生变量。
在本发明实施例一实施方式中,所述衍生处理单元,进一步用于:根据所述新的训练样本同时训练至少一个RDT,将每个RDT的训练作为一个决策树输出,每一个决策树对应一个新的衍生变量。
在本发明实施例一实施方式中,所述服务器还包括:新的衍生变量生成单元,用于:从所述衍生策略中提取用于特征分析的经验值;根据所述经验值判断所述候选的目标变量是否具备强解释性,如果具备强解释性,则根据所述衍生策略对具备强解释性的目标变量进行可组合特征的交叉组合,得到新的衍生变量。
其中,对于用于数据处理的处理器而言,在执行处理时,可以采用微处理器、中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digital SingnalProcessor)或可编程逻辑阵列(FPGA,Field-Programmable Gate Array)实现;对于存储介质来说,包含操作指令,该操作指令可以为计算机可执行代码,通过所述操作指令来实现上述本发明实施例数据处理方法流程中的各个步骤。
这里需要指出的是:以上涉及终端和服务器项的描述,与上述方法描述是类似的,同方法的有益效果描述,不做赘述。对于本发明终端和服务器实施例中未披露的技术细节,请参照本发明方法流程描述的实施例所描述内容。
以一个现实应用场景为例对本发明实施例阐述如下:
在移动支付和金融领域的应用场景中,风控模型必须具备很好的精度和可解释性,通过风控模型得到的最好的建模变量,是尽量少的强解释性变量。然而,采用现有风险模型,对获取到的原始变量无论从数据层面还是从经济意义上都很弱。如何从原始变量中加工出强解释性变量至关重要。采用本发明实施例,是一种基于RRF和SLR的强解释性变量挖掘方案。采用一轮一轮衍生筛选的方式,在每轮中基于RRF的办法构造可能的强解释性变量,然后使用SLR的办法对这些变量进行筛选,随后将筛选出来的变量再次加入到变量池中进行下一轮的衍生和筛选。通过一轮一轮的迭代,不断的提升变量的预测能力,并且保存变量的可解释性,可以逐步提升变量对于业务的理解。
本发明实施例中,新的风险模型通过专家经验、RRF和SLR构建得到。对于专家经验来说,基于专家经验的特征衍生方法虽然具有很好的可解释性,但是这种方法需要分析人员对于业务和数据都非常的了解,而且所有的特征都采用专家分析的方法也会存在耗时巨大,人工成本高等问题。当问题的复杂度升高时,基于专家经验构造的变量往往没有很好的显著性,即不是强变量。基于RRF特征衍生的特征工程构造的变量虽然具有很好的显著性,但是当样本量比较小的时候会存在严重的过拟合。而且衍生的变量对于问题的理解深度不够。导致变量仅仅是对数据的拟合而无法挖掘问题的本质。将二者结合,摒弃了两个方案的缺点。具体来说:1)解决了基于专家经验进行特征衍生得到的变量不够显著的特点。本发明实施例的特征衍生方案采用创新的特征工程方法,特征变量的衍生考虑到了对目标变量的预测能力。2)解决了特征工程生成的变量解释性不够的问题。本发明实施例采用了决策树对变量进行多轮衍生,决策树的衍生方案可以极大的保留基础变量的可解释性。在衍生的过程中对衍生的范围基于专家经验做了人工的干预。同时,采用多轮的衍生方案可以将上一轮衍生变量的可解释性带到下一轮。3)解决了对于小样本数据特征工程容易产生严重的过拟合的问题。本发明实施例在每一轮的特征衍生过程中限制了衍生的深度和范围,同时引入随机性,可以极大的减少过拟合的产生。4)本发明实施例阐述了一种新的特征衍生方法,该方法摒弃了传统的特征工程(例如PCA、LDAWOE变换等)方法在特征变换后完全没有解释性的问题,将可解释性一轮一轮的保留下来。5)本发明实施例可以采用人机交互的方式进行特征衍生,算法负责特征的衍生和筛选,分析人员基于专家经验判断衍生出的变量的可解释性。之前的两种方案都无法做到人机交互。
一个实际应用中,本发明实施例应用于微信支付,QQ钱包,腾讯征信反欺诈产品中。并且正在拓展到微信支付用户画像,微信商户评级等应用场景中。风控产品每天会面临用户的投诉,审核的同事仅仅通过用户的描述和风控模型返回的分数是无法做出准确的判断。而通过强解释性变量的挖掘,风控模型不但可以把分数返回,同时还可以返回模型用到的强解释性变量。这些变量对于审核同事分析投诉具有极大的帮助。对强解释性变量挖掘的一个例子为:输入的原始的变量只有用户的基本交易行为包括红包收发,转账收发,商业支付和社交行为。通过初步几轮的迭代可以生成出一个强变量V1描述一个用户每天不停的收发转账,这个变量表示这个用户对于转账这个产品有很强的使用需求。在下一轮中这个变量V1和社交行为中的发朋友圈等社交变量衍生,可以生成出这个用户对转账需求强烈又有很高的社交活跃度的变量V2,这个变量基本可以表示这是一个微商用户。如果被投诉的用户是微商用户,这笔投诉是交易纠纷的概率会非常高。审核的同事可以根据这个数据再次和用户确认交易细节,做出判断。
采用本发明实施例的应用场景一:基于RDT的特征衍生。如图5所示,包括:一,在特征组合池中随机选择一个特征组合;二,在随机选出的特征组合中,随机的选取一定数量的特征;三,随机的选取一定的训练样本;四,根据选取的训练样本和特征构建新的训练样本;五,使用第四步中构建的训练样本构建决策树。可见:输入为训练样本,变量池和可选的特征组合,输出为决策树。该决策树的输出就是生成的衍生变量。可选的特征组合是基于专家经验构造的,表示哪些特征可以在同一颗决策树出现。
采用本发明实施例的应用场景二:基于RRF的特征衍生。如图6所示,输入为训练样本,变量池和可选的特征组合,输出为衍生变量。根据输入,同时训练多个RDT,将每个RDT的训练的输出作为一个新的衍生变量,这样,在一轮衍生中可以得到多个新的衍生变量。区别于上述应用场景一,可以得到多颗决策树,而应用场景一,是得到一颗决策树的具体实现。应用场景一和应用场景二都是基于RRF进行特征衍生的不同具体实现。
采用本发明实施例的应用场景三:基于RRF+SLR的强解释性变量挖掘。如图7所示,包括:一,在初始化阶段,首先根据专家经验,对原始的特征变量进行分组(例如账号变量组,用户基本信息变量组,社交金融变量组,商业支付变量组,信用履约变量组),然后根据专家经验构建可能有解释含义的可组合特征组,例如用户基本信息变量组和商业支付变量组直接交叉组合可能产生可解释变量,而社交金融变量组和信用履约变量组之间交叉产生的变量不会有很好的解释性。二,在每轮的训练过程中,将变量池,训练样本和可组合特征输入到RRF中进行变量衍生。由于在变量衍生过程中既考虑了目标变量,也引入了随机性,所以得到的衍生变量过拟合的概率较小,同时显著性较强。三,将RRF输出的候选强变量输入到SLR中进行变量筛选,该筛选方法可以得到和目标变量线性相关的强变量,得到的输出为强可解释性候选变量。四,通过专家经验对候选的强解释性变量进行筛选,只保留下专家认为具有很好解释性的变量,将这些变量加入到强可解释性变量池中,同时根据解释性将衍生的变量加入到某个变量组中或是新建变量组。更新可组合变量组。五,将新生成的强可解释性变量加入变量池中进行下一轮的衍生和筛选,一直迭代到无法找出新的强可解释性变量为止。
将上述基于RRF+SLR的强解释性变量挖掘方法应用于一个具体的反欺诈服务中,其系统架构如图8所示,其方法流程如图9所示。图8中,包括:请求方51,可以为系统中审核同事所在的终端,用于发出请求数据;接口服务器52,用于在请求方51和云数据服务器53间作为通信接口使用,传输二者间的交互信息;云数据服务器53,其处理逻辑即为基于RRF+SLR的强解释性变量挖掘算法,通过云数据服务器的处理逻辑可以得到新的风控模型,并最终输出尽可能少的“强解释性变量”。本发明实施例可以采用C/C++、Java等编程语言写成单独的应用程序运行于后台的该云数据服务器上。将接收到请求与云端服务器上数据进行整合计算,返回结果。也可以进行离线的计算,然后将离线计算的结果存储到云数据服务器,待后续查询。
基于上述图8的系统架构,一个方法流程如图9所示,包括:
步骤401、将日志数据与投诉数据作为初始数据,将初始数据作为训练数据并在云数据服务器进行处理。
步骤402、在云数据服务器进行处理时,得到训练模型,即基于RRF+SLR的强解释性变量挖掘算法,通过云数据服务器的处理逻辑得到的新的风控模型。
步骤403、根据该训练模型进行全量数据评分,对数据的风险程度进行评级,以确定是否需要对其进行屏蔽或限制。
步骤404、将进行全量数据评分,即对数据的风险程度进行评级得到的结果上传到云数据服务器进行存储。
采用本实施例,极大的提高了模型的可解释性,可以使应用方更好的理解模型的输出;更好的避免过拟合,极大提高了模型的稳定性;给客服同事提供了可解释性的变量,减少了道德风控带来的损失,同时提高了客服同事处理工单的速度;将专家经验和特征工程完美的结合在了一起,既减少了专家经验的人工工作量,又提高了挖掘的变量的可解释性;对变量进行多轮的衍生挖掘,得到的变量对业务理解的深度上升了一个新的高度,比如,可以从普通的交易数据中衍生出微商,套现等强变量。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
接收请求数据,从所述请求数据中得到待处理的特征变量,所述待处理的特征变量具备第一特征属性;
获取衍生策略,根据所述衍生策略对所述待处理的特征变量进行可组合特征的交叉组合,得到衍生变量,所述衍生变量具备第二特征属性,所述第二特征属性相比所述第一特征属性更接近于目标预期需求;
获取筛选策略,根据所述筛选策略对所述衍生变量进行筛选,得到候选的目标变量;
将候选的目标变量加入用于存储所述待处理的特征变量的变量池,以根据所述衍生策略和所述筛选策略进行下一轮的变量衍生和变量筛选,直至符合目标预期需求。
2.根据权利要求1所述的方法,其特征在于,所述根据所述衍生策略对所述待处理的特征变量进行可组合特征的交叉组合,得到衍生变量,包括:
从所述衍生策略中提取用于特征分析的经验值;
根据所述经验值判断所述待处理的特征变量中的至少一个变量间是否具备可组合特征,如果具备可组合特征,则根据所述可组合特征进行交叉组合,得到至少一个特征组合;
将所述至少一个特征组合与从所述变量池中获取的变量及备选的训练样本进行指定的特征衍生,得到所述衍生变量。
3.根据权利要求2所述的方法,其特征在于,所述将所述至少一个特征组合与从所述变量池中获取的变量及备选的训练样本进行指定的特征衍生,得到所述衍生变量,包括:
从用于存储所述至少一个特征组合的特征组合池中随机选择一个第一特征组合;
从所述第一特征组合中随机选取指定数量的特征;
从所述备选的训练样本中随机选取指定数量的训练样本;
根据所述指定数量的特征、所述获取的变量和所述指定数量的训练样本构建新的训练样本;
根据所述新的训练样本生成决策树,所述决策树的输出变量为所述衍生变量。
4.根据权利要求3所述的方法,其特征在于,根据所述新的训练样本生成决策树,所述决策树的输出变量为所述衍生变量,包括:
根据所述新的训练样本同时训练至少一个RDT,将每个RDT的训练作为一个决策树输出,每一个决策树对应一个新的衍生变量。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:所述得到候选的目标变量之后,
从所述衍生策略中提取用于特征分析的经验值;
根据所述经验值判断所述候选的目标变量是否具备强解释性,如果具备强解释性,则根据所述衍生策略对具备强解释性的目标变量进行可组合特征的交叉组合,得到新的衍生变量。
6.一种服务器,其特征在于,所述服务器包括:
接收单元,用于接收请求数据,从所述请求数据中得到待处理的特征变量,所述待处理的特征变量具备第一特征属性;
衍生处理单元,用于获取衍生策略,根据所述衍生策略对所述待处理的特征变量进行可组合特征的交叉组合,得到衍生变量,所述衍生变量具备第二特征属性,所述第二特征属性相比所述第一特征属性更接近于目标预期需求;
筛选处理单元,用于获取筛选策略,根据所述筛选策略对所述衍生变量进行筛选,得到候选的目标变量;
多轮迭代单元,用于将候选的目标变量加入用于存储所述待处理的特征变量的变量池,以根据所述衍生策略和所述筛选策略进行下一轮的变量衍生和变量筛选,直至符合目标预期需求。
7.根据权利要求6所述的服务器,其特征在于,所述衍生处理单元,进一步用于:
从所述衍生策略中提取用于特征分析的经验值;
根据所述经验值判断所述待处理的特征变量中的至少一个变量间是否具备可组合特征,如果具备可组合特征,则根据所述可组合特征进行交叉组合,得到至少一个特征组合;
将所述至少一个特征组合与从所述变量池中获取的变量及备选的训练样本进行指定的特征衍生,得到所述衍生变量。
8.根据权利要求7所述的服务器,其特征在于,所述衍生处理单元,进一步用于:
从用于存储所述至少一个特征组合的特征组合池中随机选择一个第一特征组合;
从所述第一特征组合中随机选取指定数量的特征;
从所述备选的训练样本中随机选取指定数量的训练样本;
根据所述指定数量的特征、所述获取的变量和所述指定数量的训练样本构建新的训练样本;
根据所述新的训练样本生成决策树,所述决策树的输出变量为所述衍生变量。
9.根据权利要求8所述的服务器,其特征在于,所述衍生处理单元,进一步用于:
根据所述新的训练样本同时训练至少一个RDT,将每个RDT的训练作为一个决策树输出,每一个决策树对应一个新的衍生变量。
10.根据权利要求6至9任一项所述的服务器,其特征在于,所述服务器还包括:新的衍生变量生成单元,用于:
从所述衍生策略中提取用于特征分析的经验值;
根据所述经验值判断所述候选的目标变量是否具备强解释性,如果具备强解释性,则根据所述衍生策略对具备强解释性的目标变量进行可组合特征的交叉组合,得到新的衍生变量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611026758.8A CN106548350B (zh) | 2016-11-17 | 2016-11-17 | 一种数据处理方法及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611026758.8A CN106548350B (zh) | 2016-11-17 | 2016-11-17 | 一种数据处理方法及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106548350A true CN106548350A (zh) | 2017-03-29 |
CN106548350B CN106548350B (zh) | 2020-07-14 |
Family
ID=58394846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611026758.8A Active CN106548350B (zh) | 2016-11-17 | 2016-11-17 | 一种数据处理方法及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106548350B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808098A (zh) * | 2017-09-07 | 2018-03-16 | 阿里巴巴集团控股有限公司 | 一种模型安全检测方法、装置以及电子设备 |
CN108768982A (zh) * | 2018-05-17 | 2018-11-06 | 江苏通付盾信息安全技术有限公司 | 钓鱼网站的检测方法、装置、计算设备及计算机存储介质 |
CN108921369A (zh) * | 2018-05-08 | 2018-11-30 | 阿里巴巴集团控股有限公司 | 冲突规则生成方法及装置和电子设备 |
CN109801151A (zh) * | 2019-01-07 | 2019-05-24 | 平安科技(深圳)有限公司 | 财务造假风险监控方法、装置、计算机设备和存储介质 |
CN110059952A (zh) * | 2019-04-12 | 2019-07-26 | 中国人民财产保险股份有限公司 | 车险风险评估方法、装置、设备和存储介质 |
CN111738819A (zh) * | 2020-06-15 | 2020-10-02 | 中国建设银行股份有限公司 | 表征数据筛选方法、装置和设备 |
CN111861750A (zh) * | 2020-07-22 | 2020-10-30 | 北京睿知图远科技有限公司 | 一种基于决策树方法的特征衍生系统及可读存储介质 |
CN111951027A (zh) * | 2020-08-14 | 2020-11-17 | 上海冰鉴信息科技有限公司 | 具有欺诈风险的企业识别方法及装置 |
WO2020233360A1 (zh) * | 2019-05-22 | 2020-11-26 | 深圳壹账通智能科技有限公司 | 一种产品测评模型的生成方法及设备 |
CN112102074A (zh) * | 2020-10-14 | 2020-12-18 | 深圳前海弘犀智能科技有限公司 | 一种评分卡建模方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095942A (zh) * | 2016-06-12 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 强变量提取方法及装置 |
WO2016178225A1 (en) * | 2015-05-06 | 2016-11-10 | Forter Ltd. | Gating decision system and methods for determining whether to allow material implications to result from online activities |
-
2016
- 2016-11-17 CN CN201611026758.8A patent/CN106548350B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016178225A1 (en) * | 2015-05-06 | 2016-11-10 | Forter Ltd. | Gating decision system and methods for determining whether to allow material implications to result from online activities |
CN106095942A (zh) * | 2016-06-12 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 强变量提取方法及装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808098A (zh) * | 2017-09-07 | 2018-03-16 | 阿里巴巴集团控股有限公司 | 一种模型安全检测方法、装置以及电子设备 |
CN107808098B (zh) * | 2017-09-07 | 2020-08-21 | 阿里巴巴集团控股有限公司 | 一种模型安全检测方法、装置以及电子设备 |
CN108921369A (zh) * | 2018-05-08 | 2018-11-30 | 阿里巴巴集团控股有限公司 | 冲突规则生成方法及装置和电子设备 |
CN108768982A (zh) * | 2018-05-17 | 2018-11-06 | 江苏通付盾信息安全技术有限公司 | 钓鱼网站的检测方法、装置、计算设备及计算机存储介质 |
CN108768982B (zh) * | 2018-05-17 | 2021-04-27 | 江苏通付盾信息安全技术有限公司 | 钓鱼网站的检测方法、装置、计算设备及计算机存储介质 |
CN109801151A (zh) * | 2019-01-07 | 2019-05-24 | 平安科技(深圳)有限公司 | 财务造假风险监控方法、装置、计算机设备和存储介质 |
CN109801151B (zh) * | 2019-01-07 | 2023-09-05 | 平安科技(深圳)有限公司 | 财务造假风险监控方法、装置、计算机设备和存储介质 |
CN110059952A (zh) * | 2019-04-12 | 2019-07-26 | 中国人民财产保险股份有限公司 | 车险风险评估方法、装置、设备和存储介质 |
WO2020233360A1 (zh) * | 2019-05-22 | 2020-11-26 | 深圳壹账通智能科技有限公司 | 一种产品测评模型的生成方法及设备 |
CN111738819A (zh) * | 2020-06-15 | 2020-10-02 | 中国建设银行股份有限公司 | 表征数据筛选方法、装置和设备 |
CN111861750A (zh) * | 2020-07-22 | 2020-10-30 | 北京睿知图远科技有限公司 | 一种基于决策树方法的特征衍生系统及可读存储介质 |
CN111951027A (zh) * | 2020-08-14 | 2020-11-17 | 上海冰鉴信息科技有限公司 | 具有欺诈风险的企业识别方法及装置 |
CN112102074A (zh) * | 2020-10-14 | 2020-12-18 | 深圳前海弘犀智能科技有限公司 | 一种评分卡建模方法 |
CN112102074B (zh) * | 2020-10-14 | 2024-01-30 | 深圳前海弘犀智能科技有限公司 | 一种评分卡建模方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106548350B (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106548350A (zh) | 一种数据处理方法及服务器 | |
Wu et al. | Defiranger: Detecting price manipulation attacks on defi applications | |
CN107730262A (zh) | 一种欺诈识别方法和装置 | |
Demetis | Technology and anti-money laundering: A systems theory and risk-based approach | |
CN106326248B (zh) | 数据库数据的存储方法和装置 | |
CN112600810B (zh) | 一种基于图分类的以太坊网络钓鱼诈骗检测方法及装置 | |
Didimo et al. | Combining network visualization and data mining for tax risk assessment | |
CN108932585A (zh) | 一种商户运营管理方法及其设备、存储介质、电子设备 | |
CN108537671A (zh) | 一种交易风险评估方法及系统 | |
Sayjadah et al. | Credit card default prediction using machine learning techniques | |
CN108961032A (zh) | 借贷处理方法、装置以及服务器 | |
CN108492001A (zh) | 一种用于担保贷款网络风险管理的方法 | |
Li et al. | Theory and application of artificial intelligence in financial industry | |
CN110084468A (zh) | 一种风险识别方法及装置 | |
Rasi et al. | A literature review on blockchain technology: risk in supply chain management | |
Khodabakhshi et al. | Fraud detection in banking using knn (k-nearest neighbor) algorithm | |
Huang et al. | A deep dive into nft rug pulls | |
CN110457009B (zh) | 基于数据分析的软件安全需求推荐模型的实现方法 | |
Reddy et al. | Utilization of AI for streamlining and optimizing credit decision process and security access loan risks in the banking sector | |
Jin et al. | Ethereum’s Ponzi Scheme Detection Work Based on Graph Ideas | |
Samet | Introduction to online payments risk management | |
Shortland et al. | Data mining applications in BT | |
Shaykhzade | Future analysis to define guidelines for Iran's e-commerce: scenario planning | |
Qin et al. | Bytecode Ponzi Contract Detection Based on Cross-modal Mutual Learning | |
CN117611309A (zh) | 适用于父子权限账户的异常金融交易识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |