CN111429003B - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN111429003B
CN111429003B CN202010209507.3A CN202010209507A CN111429003B CN 111429003 B CN111429003 B CN 111429003B CN 202010209507 A CN202010209507 A CN 202010209507A CN 111429003 B CN111429003 B CN 111429003B
Authority
CN
China
Prior art keywords
data
model
risk
application
aode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010209507.3A
Other languages
English (en)
Other versions
CN111429003A (zh
Inventor
丁炜
霍文虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hujin Xinrong Technology Co ltd
Original Assignee
Beijing Hujin Xinrong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hujin Xinrong Technology Co ltd filed Critical Beijing Hujin Xinrong Technology Co ltd
Priority to CN202010209507.3A priority Critical patent/CN111429003B/zh
Publication of CN111429003A publication Critical patent/CN111429003A/zh
Application granted granted Critical
Publication of CN111429003B publication Critical patent/CN111429003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/02Reservations, e.g. for tickets, services or events
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/12Hotels or restaurants

Abstract

本发明公开了一种数据处理方法及装置。其中,该方法包括:在用户授权条件下,获取终端设备上运行的应用程序;在上述应用程序为多个的情况下,分别确定多个上述应用程序所属的集合,并依据每个上述集合中包含的上述应用程序的数量,将每个上述集合划分为多个子集;将上述多个子集中的应用程序数据输入至平均单依赖估计AODE模型,其中,上述AODE模型用于挖掘上述应用程序数据中隐含的风险数据;接收上述AODE模型输出的上述风险数据。本发明解决了现有技术中难以有效利用应用程序数据挖掘隐含的风险数据,导致无法为风险识别模型提供区分度更好的变量数据的技术问题。

Description

数据处理方法及装置
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据处理方法及装置。
背景技术
随着市场上信用产品的不断丰富和普及,越来越多的人从中享受到了便利,但是有些消费习惯不好的用户,在享受到了权益后却不履行相应的义务,做出一些不守信的行为,给市场带来了一定的风险,例如,秉承客户至上的理念,在酒店预订场景下,许多的酒店预订平台为用户推出“闪住”服务,即先住酒店后付钱的服务,给客户带来更好的体验。客户在使用闪住之前需要开通银行卡、支付宝或微信等免密支付方式,酒店预订平台可以在客户离店后自动扣出房费,但是,闪住在提升客户体验的同时,会带来一定的风险。当酒店预订平台不能从客户的授权免密支付方式中扣出房费,并且客户自身也没有支付意愿时,就会发生逾期,给市场的信用环境带来不良影响,同时平台也会产生一定的资损。
因此,需要尽可能在这些用户或者交易中识别出风险较低的部分,为市场保驾护航。随着手机应用的普及,各大公司针对自己的产品也会推出app端,例如携程、淘宝、微信等等。app信息可以综合反映一个人的需求、偏好和身份等信息,例如手机里安装旅游类的app较多,可能是一个爱好旅行的人;手机里安装商务办公类的app,可能是一个工作人士;手机里有安装借贷类的app,可能是一个急需资金的人,等等。在风控场景下,如果用户授权访问手机上的app信息,一方面增加了数据的丰富性,另一方面补充了用户不限于酒店预订平台的整体财富能力和身份特质等信息,例如,若一个用户安装了很多不正规的借贷类app,可能身份偏差,财富水平偏低;若一个用户安装了很多赌博类app,可能存在一定的信用风险。
若用户授权,我们可以通过applist数据衍生出一些常见的特征,来反映用户的风险。但是想要充分挖掘app包含的信息,常用方法很难满足这一点,如何全面利用applist数据,挖掘隐含的风险规律,进而为风险识别模型提供区分度更好的变量,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法及装置,以至少解决现有技术中难以有效利用应用程序数据挖掘隐含的风险数据,导致无法为风险识别模型提供区分度更好的变量数据的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,其特征在于,包括:在用户授权条件下,获取终端设备上运行的应用程序;在上述应用程序为多个的情况下,分别确定多个上述应用程序所属的集合,并依据每个上述集合中包含的上述应用程序的数量,将每个上述集合划分为多个子集;将上述多个子集中的应用程序数据输入至平均单依赖估计AODE模型,其中,上述AODE模型用于挖掘上述应用程序数据中隐含的风险数据;接收上述AODE模型输出的上述风险数据。
可选地,在接收上述AODE模型输出的上述风险数据之后,上述方法还包括:将上述风险数据作为输入变量输入至风险识别模型,其中,上述风险识别模型用于通过识别上述处理后应用程序数据,确定与上述终端设备对应的用户信用特征信息;接收上述风险识别模型输出的上述用户信用特征信息。
可选地,在将上述风险数据输入至风险识别模型之前,上述方法还包括:采用拉普拉斯平滑算法,对上述风险数据进行平滑处理。
可选地,依据每个上述集合中包含的上述应用程序的数量,将每个上述集合划分为多个子集,包括:通过对每个上述集合中包含的上述应用程序的数量进行分箱处理,得到多个属性区间,其中,每个上述属性区间表示一个特征取值范围,其中,上述分箱处理的算法包括以下至少之一:等频分箱、等距分箱、卡方分箱、决策树分箱;依据上述属性区间,将每个上述集合划分为多个子集。
可选地,若所有上述子集的数量为k,则采用除每个子集之外的k-1个子集训练上述AODE模型,得到与每个上述子集对应的上述风险数据的预测概率。
根据本发明实施例的另一方面,还提供了一种数据处理装置,包括:获取模块,用于在用户授权条件下,获取终端设备上运行的应用程序;预处理模块,用于在上述应用程序为多个的情况下,分别确定多个上述应用程序所属的集合,并依据每个上述集合中包含的上述应用程序的数量,将每个上述集合划分为多个子集;第一输入模块,用于将上述多个子集中的应用程序数据输入至平均单依赖估计AODE模型,其中,上述AODE模型用于挖掘上述应用程序数据中隐含的风险数据;第一接收模块,用于接收上述AODE模型输出的上述风险数据。
可选地,上述装置还包括:第二输入模块,用于将上述风险数据作为输入变量输入至风险识别模型,其中,上述风险识别模型用于通过识别上述处理后应用程序数据,确定与上述终端设备对应的用户信用特征信息;第二接收模块,用于接收上述风险识别模型输出的上述用户信用特征信息。
可选地,上述装置还包括:平滑处理模块,用于采用拉普拉斯平滑算法,对上述风险数据进行平滑处理。
可选地,上述预处理模块,包括:分箱处理模块,用于通过对每个上述集合中包含的上述应用程序的数量进行分箱处理,得到多个属性区间,其中,每个上述属性区间表示一个特征取值范围,其中,上述分箱处理的算法包括以下至少之一:等频分箱、等距分箱、卡方分箱、决策树分箱;划分处理模块,用于依据上述属性区间,将每个上述集合划分为多个子集。
可选地,若所有上述子集的数量为k,则采用除每个子集之外的k-1个子集训练上述AODE模型,得到与每个上述子集对应的上述风险数据的预测概率。
根据本发明实施例的另一方面,还提供了一种存储介质,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行任意一项上述的数据处理方法。
根据本发明实施例的另一方面,还提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行任意一项上述的数据处理方法。
在本发明实施例中,通过在用户授权条件下,获取终端设备上运行的应用程序;在上述应用程序为多个的情况下,分别确定多个上述应用程序所属的集合,并依据每个上述集合中包含的上述应用程序的数量,将每个上述集合划分为多个子集;将上述多个子集中的应用程序数据输入至平均单依赖估计AODE模型,其中,上述AODE模型用于挖掘上述应用程序数据中隐含的风险数据;接收上述AODE模型输出的上述风险数据,达到了有效利用应用程序数据挖掘隐含的风险数据的目的,从而实现了为风险识别模型提供区分度更好的变量数据的技术效果,进而解决了现有技术中难以有效利用应用程序数据挖掘隐含的风险数据,导致无法为风险识别模型提供区分度更好的变量数据的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种数据处理方法的流程图;
图2是根据本发明实施例的一种数据处理装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,为方便理解本发明实施例,下面将对本发明中所涉及的部分术语或名词进行解释说明:
平均单依赖估计模型(Averaged One-Dependence Estimators,简称AODE模型):是指一种弱化了条件独立的假设,考虑属性间的相互依赖信息的估计模型,假设每个属性都会依赖于除它之外的其他属性,进而提升模型的泛化性能。
实施例1
根据本发明实施例,提供了一种数据处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种数据处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,在用户授权条件下,获取终端设备上运行的应用程序;
步骤S104,在上述应用程序为多个的情况下,分别确定多个上述应用程序所属的集合,并依据每个上述集合中包含的上述应用程序的数量,将每个上述集合划分为多个子集;
步骤S106,将上述多个子集中的应用程序数据输入至平均单依赖估计AODE模型,其中,上述AODE模型用于挖掘上述应用程序数据中隐含的风险数据;
步骤S108,接收上述AODE模型输出的上述风险数据。
在本发明实施例中,通过在用户授权条件下,获取终端设备上运行的应用程序;在上述应用程序为多个的情况下,分别确定多个上述应用程序所属的集合,并依据每个上述集合中包含的上述应用程序的数量,将每个上述集合划分为多个子集;将上述多个子集中的应用程序数据输入至平均单依赖估计AODE模型,其中,上述AODE模型用于挖掘上述应用程序数据中隐含的风险数据;接收上述AODE模型输出的上述风险数据,达到了有效利用应用程序数据挖掘隐含的风险数据的目的,从而实现了为风险识别模型提供区分度更好的变量数据的技术效果,进而解决了现有技术中难以有效利用应用程序数据挖掘隐含的风险数据,导致无法为风险识别模型提供区分度更好的变量数据的技术问题。
需要说明的是,在本申请实施例中,在用户授权条件下,即在用户授权访问智能手机上的应用程序信息的情况下,获取终端设备上运行的应用程序,具体获取的是该应用程序的信息。
可选的,在需要获取一个任意账户所对应的风险数据时,上述终端设备即为登录该任意账户的设备,例如,智能手机、智能可穿戴设备、ipad、笔记本电脑等用户终端设备,上述应用程序即为该终端设备上运行的应用程序,例如,携程、去哪儿等旅游类APP;淘宝、京东购物类APP;今日头条、网易新闻等新闻类APP,等等。
在该终端设备上运行有多个APP的情况下,若使用one-hot编码会使得特征空间变得非常大,不利于分类器的学习。若仅仅基于业务,使用常见的变量衍生方法,难以表达应用程序数据(即applist数据)隐含的风险数据。
因此,在本申请实施例中,可以参照变量衍生方式或者one-hot编码方式,通过分别确定多个上述应用程序所属的集合,确定每个应用程序所属的类别,通过统计每个类别下应用程序的数量,即每个集合中包含的应用程序的数量,将每个集合划分为多个子集。
作为一种可选的实施例,由于风控场景下的模型通常可以理解为一个二分类的问题,在这两个类别中,如果能分别学习到所有app属性在高维空间上的联合分布,那么根据每个用户的app信息都可以得到一个预测为好样本的概率和预测为坏样本的概率。例如,可以将预测为坏样本的概率除以预测为好样本的概率,当这个值越大,app数据反映用户的风险越高。因此,要达到充分利用应用程序数据,尽量减少传统特征构造方式带来信息损失的目的,在特征衍生时可以借鉴stacking思想,采用AODE模型去逼近上述联合分布,即将上述多个子集中的应用程序数据输入至平均单依赖估计AODE模型,采用上述AODE模型用于挖掘上述应用程序数据中隐含的风险数据;并接收上述AODE模型输出的上述风险数据,将AODE模型输出的风险数据作为风险识别模型的输入数据,得到区分度更好的变量。
由于贝叶斯的思想刚好满足这样的情形,常见的朴素贝叶斯算法正是一种生成式模型,它可以学习不同类别下应用程序的联合分布,但是朴素贝叶斯方法存在很强的条件独立假设,不论好坏类别的条件下,实际的应用程序之间并不一定是独立的。AODE模型弱化了条件独立的假设,考虑属性间的相互依赖信息,假设每个属性都会依赖于除它之外的其他属性,进而提升模型的泛化性能。实际应用中也可以考虑属性间的高阶依赖关系,假设一个属性会依赖于除它之外的两个、三个或者更多个属性的组合,来进一步提升模型的泛化能力。
并且,由于当下应用程序的数量是非常多的,直接将每个应用程序单独看成一个属性会导致在训练时先验概率和条件概率的运算过于复杂,由于要存储的概率值过多,也会给后续预测带来一定的麻烦。因此,通常需要对这些应用程序进行归类处理,每个类别看成一个属性,例如携程、去哪儿等应用程序可以归成旅游类;淘宝、京东等应用程序归成购物类;今日头条、网易新闻等应用程序归成新闻类,等等。
在确定多个应用程序所属的类别之后,可以对每个用户分别统计不同类别下应用程序的数量,但是由于整体客群非常庞大,用户安装某个类别的应用程序的数量取值会非常多,即每个属性的取值会非常多。举个例子,共有三个属性,每个属性下都有1000个取值,在计算条件概率的时候会分别枚举所有的值,即一个属性分别依赖其他两个属性需要计算2000000次,三个属性就需要计算6000000个条件概率,导致运算量过大。而且,当某些用户安装某种类别的应用程序的数量过多时,则会出现一些异常值的情况,这种数据不稳定会造成模型的不稳定。如果能对每个类别下的应用程序的数量进行分箱处理,可以减少整体的运算量,降低AODE模型过拟合的风险,提高AODE模型的泛化能力。
在一种可选的实施例中,在接收上述AODE模型输出的上述风险数据之后,上述方法还包括:
步骤S202,将上述风险数据作为输入变量输入至风险识别模型,其中,上述风险识别模型用于通过识别上述处理后应用程序数据,确定与上述终端设备对应的用户信用特征信息;
步骤S204,接收上述风险识别模型输出的上述用户信用特征信息。
可选的,上述风险数据为风险规律数据;在本申请实施例中,在基于AODE模型确定风险数据之后,可以将上述风险数据作为输入变量输入至风险识别模型,进而上述风险识别模型通过识别上述处理后应用程序数据,确定与上述终端设备对应的用户信用特征信息。
在风控场景下,如果用户授权访问智能手机上的应用程序信息,则充分挖掘应用程序数据中隐含的风险数据,将该风险数据加入风险识别模型中,扩张输入变量的维度,使得该风险识别模型对于风险数据的识别能力更佳。AODE算法基于贝叶斯的思想,拟合app在高维空间上的联合分布,同时弱化了条件独立的假设,这与现实中应用程序之间无法满足条件独立是相符合的,采用上述方法挖掘出应用程序数据隐含的风险数据,将该风险数据作为风险识别模型的输入变量,可以为风险识别模型提供更有效的输入变量,提升识别风险数据的准确性。
在一种可选的实施例中,在将上述风险数据输入至风险识别模型之前,上述方法还包括:
步骤S302,采用拉普拉斯平滑算法,对上述风险数据进行平滑处理。
作为一种可选的实施例,上述AODE模型的算法公式如下:
由于上述算法是一种基于先验信息的统计学习方法,因此,有时会遇到零概率的问题。例如在旅游类应用程序的数量为2,且是黑样本的条件下,训练集中没有出现过借贷类应用程序的数量为0的样本,那么这个条件概率计算值是0,如果测试集中出现了这样的样本,经过连乘运算后AODE模型预测该样本为黑的概率就是0。这显然是不合理的,不能因为一个事件没有观察到就武断的认为该事件的概率是0,因此,在计算先验概率和条件概率时,需要进行平滑处理,具体的,本申请实施例中,可以利用拉普拉斯平滑的方法,在分母上加上取值范围的大小,分子上加1,来避免这个问题。
在一种可选的实施例中,依据每个上述集合中包含的上述应用程序的数量,将每个上述集合划分为多个子集,包括:
步骤S402,通过对每个上述集合中包含的上述应用程序的数量进行分箱处理,得到多个属性区间,其中,每个上述属性区间表示一个特征取值范围,其中,上述分箱处理的算法包括以下至少之一:等频分箱、等距分箱、卡方分箱、决策树分箱;
步骤S404,依据上述属性区间,将每个上述集合划分为多个子集。
在一种可选的实施例中,若所有上述子集的数量为k,则采用除每个子集之外的k-1个子集训练上述AODE模型,得到与每个上述子集对应的上述风险数据的预测概率。
作为一种可选的实施例,通过对每个上述集合中包含的上述应用程序的数量进行分箱处理,得到多个属性区间,依据上述属性区间,将每个上述集合划分为多个子集。可选的,本申请实施例中的分箱方法包括但不限于等频分箱、等距分箱、卡方分箱和决策树分箱等等,最终每个属性会被分成几个区间,每个区间代表特征的一个取值范围,例如,旅游类的应用程序可以但不限于被划分为0个,1至5个,5个以上这三个区间,那么旅游类应用程序这个属性下就会有三种类别,用特征分箱后的数据集作为AODE算法的输入。
作为一种可选的实施例,可以将训练集拆分成k个子集,每个子集的预测概率用除它之外的k-1个子集训练AODE模型得到,对于测试集用训练好的k个AODE模型进行预测,所得结果求平均得到最终预测概率,其中,将AODE模型输出的风险数据作为风险识别模型的输入变量的方法,还可以但不限于参照上述stacking的方法。
通过AODE模型自动挖掘应用程序数据中的风险数据,相对于人工构造一系列特征,不仅提高了数据处理效率,还充分利用了应用程序数据,并且可以学习挖掘到一些人工难以发现的隐含的风险规律数据,如果用户授权访问智能手机上的应用程序数据,本申请实施例可以为风险识别模型提供更有效的输入变量,并且,本申请实施例相较于现有技术中的one-hot方法,可以有效避免维度灾难,将应用程序数据加工整合成一个风险识别模型的输入变量。
实施例2
根据本发明实施例,还提供了一种用于实施上述数据处理方法的装置实施例,图2是根据本发明实施例的一种数据处理装置的结构示意图,如图2所示,上述数据处理装置,包括:获取模块20、预处理模块24、第一输入模块26和第一接收模块28,其中:
获取模块20,用于在用户授权条件下,获取终端设备上运行的应用程序;预处理模块24,用于在上述应用程序为多个的情况下,分别确定多个上述应用程序所属的集合,并依据每个上述集合中包含的上述应用程序的数量,将每个上述集合划分为多个子集;第一输入模块26,用于将上述多个子集中的应用程序数据输入至平均单依赖估计AODE模型,其中,上述AODE模型用于挖掘上述应用程序数据中隐含的风险数据;第一接收模块28,用于接收上述AODE模型输出的上述风险数据。
可选地,上述装置还包括:第二输入模块,用于将上述风险数据作为输入变量输入至风险识别模型,其中,上述风险识别模型用于通过识别上述处理后应用程序数据,确定与上述终端设备对应的用户信用特征信息;第二接收模块,用于接收上述风险识别模型输出的上述用户信用特征信息。
可选地,上述装置还包括:平滑处理模块,用于采用拉普拉斯平滑算法,对上述风险数据进行平滑处理。
可选地,上述预处理模块,包括:分箱处理模块,用于通过对每个上述集合中包含的上述应用程序的数量进行分箱处理,得到多个属性区间,其中,每个上述属性区间表示一个特征取值范围,其中,上述分箱处理的算法包括以下至少之一:等频分箱、等距分箱、卡方分箱、决策树分箱;划分处理模块,用于依据上述属性区间,将每个上述集合划分为多个子集。
可选地,若所有上述子集的数量为k,则采用除每个子集之外的k-1个子集训练上述AODE模型,得到与每个上述子集对应的上述风险数据的预测概率。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。
此处需要说明的是,上述获取模块20、预处理模块24、第一输入模块26和第一接收模块28对应于实施例1中的步骤S102至步骤S108,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在计算机终端中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
上述的数据处理装置还可以包括处理器和存储器,上述获取模块20、预处理模块24、第一输入模块26和第一接收模块28等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元,上述内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本申请实施例,还提供了一种存储介质实施例。可选地,在本实施例中,上述存储介质包括存储的程序,其中,在上述程序运行时控制上述存储介质所在设备执行上述任意一种数据处理方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中,上述存储介质包括存储的程序。
可选地,在程序运行时控制存储介质所在设备执行以下功能:在用户授权条件下,获取终端设备上运行的应用程序;在上述应用程序为多个的情况下,分别确定多个上述应用程序所属的集合,并依据每个上述集合中包含的上述应用程序的数量,将每个上述集合划分为多个子集;将上述多个子集中的应用程序数据输入至平均单依赖估计AODE模型,其中,上述AODE模型用于挖掘上述应用程序数据中隐含的风险数据;接收上述AODE模型输出的上述风险数据。
根据本申请实施例,还提供了一种处理器实施例。可选地,在本实施例中,上述处理器用于运行程序,其中,上述程序运行时执行上述任意一种数据处理方法。
本申请实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:在用户授权条件下,获取终端设备上运行的应用程序;在上述应用程序为多个的情况下,分别确定多个上述应用程序所属的集合,并依据每个上述集合中包含的上述应用程序的数量,将每个上述集合划分为多个子集;将上述多个子集中的应用程序数据输入至平均单依赖估计AODE模型,其中,上述AODE模型用于挖掘上述应用程序数据中隐含的风险数据;接收上述AODE模型输出的上述风险数据。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:在用户授权条件下,获取终端设备上运行的应用程序;在上述应用程序为多个的情况下,分别确定多个上述应用程序所属的集合,并依据每个上述集合中包含的上述应用程序的数量,将每个上述集合划分为多个子集;将上述多个子集中的应用程序数据输入至平均单依赖估计AODE模型,其中,上述AODE模型用于挖掘上述应用程序数据中隐含的风险数据;接收上述AODE模型输出的上述风险数据。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
在用户授权条件下,获取终端设备上运行的应用程序;
在所述应用程序为多个的情况下,分别确定多个所述应用程序所属的集合,并依据每个所述集合中包含的所述应用程序的数量,将每个所述集合划分为多个子集;
将所述多个子集中的应用程序数据输入至平均单依赖估计AODE模型,其中,所述AODE模型用于挖掘所述应用程序数据中隐含的风险数据;
接收所述AODE模型输出的所述风险数据;
依据每个所述集合中包含的所述应用程序的数量,将每个所述集合划分为多个子集,包括:
通过对每个所述集合中包含的所述应用程序的数量进行分箱处理,得到多个属性区间,其中,每个所述属性区间表示一个特征取值范围,其中,所述分箱处理的算法包括以下至少之一:等频分箱、等距分箱、卡方分箱、决策树分箱;
依据所述属性区间,将每个所述集合划分为多个子集。
2.根据权利要求1所述的方法,其特征在于,在接收所述AODE模型输出的所述风险数据之后,所述方法还包括:
将所述风险数据作为输入变量输入至风险识别模型,其中,所述风险识别模型用于通过识别所述处理后应用程序数据,确定与所述终端设备对应的用户信用特征信息;
接收所述风险识别模型输出的所述用户信用特征信息。
3.根据权利要求1所述的方法,其特征在于,在将所述风险数据输入至风险识别模型之前,所述方法还包括:
采用拉普拉斯平滑算法,对所述风险数据进行平滑处理。
4.根据权利要求1所述的方法,其特征在于,若所有所述子集的数量为k,则采用除每个子集之外的k-1个子集训练所述AODE模型,得到与每个所述子集对应的所述风险数据的预测概率。
5.一种数据处理装置,其特征在于,包括:
获取模块,用于在用户授权条件下,获取终端设备上运行的应用程序;
预处理模块,用于在所述应用程序为多个的情况下,分别确定多个所述应用程序所属的集合,并依据每个所述集合中包含的所述应用程序的数量,将每个所述集合划分为多个子集;
第一输入模块,用于将所述多个子集中的应用程序数据输入至平均单依赖估计AODE模型,其中,所述AODE模型用于挖掘所述应用程序数据中隐含的风险数据;
第一接收模块,用于接收所述AODE模型输出的所述风险数据;
所述预处理模块,包括:
分箱处理模块,用于通过对每个所述集合中包含的所述应用程序的数量进行分箱处理,得到多个属性区间,其中,每个所述属性区间表示一个特征取值范围,其中,所述分箱处理的算法包括以下至少之一:等频分箱、等距分箱、卡方分箱、决策树分箱;
划分处理模块,用于依据所述属性区间,将每个所述集合划分为多个子集。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
第二输入模块,用于将所述风险数据作为输入变量输入至风险识别模型,其中,所述风险识别模型用于通过识别所述处理后应用程序数据,确定与所述终端设备对应的用户信用特征信息;
第二接收模块,用于接收所述风险识别模型输出的所述用户信用特征信息。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
平滑处理模块,用于采用拉普拉斯平滑算法,对所述风险数据进行平滑处理。
8.根据权利要求5所述的装置,其特征在于,若所有所述子集的数量为k,则采用除每个子集之外的k-1个子集训练所述AODE模型,得到与每个所述子集对应的所述风险数据的预测概率。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的数据处理方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至4中任意一项所述的数据处理方法。
CN202010209507.3A 2020-03-23 2020-03-23 数据处理方法及装置 Active CN111429003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010209507.3A CN111429003B (zh) 2020-03-23 2020-03-23 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010209507.3A CN111429003B (zh) 2020-03-23 2020-03-23 数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN111429003A CN111429003A (zh) 2020-07-17
CN111429003B true CN111429003B (zh) 2023-11-03

Family

ID=71549358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010209507.3A Active CN111429003B (zh) 2020-03-23 2020-03-23 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN111429003B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908020A (zh) * 2010-08-27 2010-12-08 南京大学 一种基于分类挖掘和版本变更的测试用例优先化方法
CN106776316A (zh) * 2016-12-15 2017-05-31 中国电力科学研究院 一种电力信息软件缺陷预防方法
WO2017129032A1 (zh) * 2016-01-29 2017-08-03 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN107368918A (zh) * 2017-06-27 2017-11-21 国网北京市电力公司 数据处理方法和装置
CN107908688A (zh) * 2017-10-31 2018-04-13 温州大学 一种基于改进灰狼优化算法的数据分类预测方法及系统
CN108806699A (zh) * 2018-05-30 2018-11-13 Oppo广东移动通信有限公司 语音反馈方法、装置、存储介质及电子设备
CN108984790A (zh) * 2018-07-31 2018-12-11 蜜小蜂智慧(北京)科技有限公司 一种数据分箱方法及装置
CN109360084A (zh) * 2018-09-27 2019-02-19 平安科技(深圳)有限公司 征信违约风险的评估方法及装置、存储介质、计算机设备
CN110197315A (zh) * 2018-04-08 2019-09-03 腾讯科技(深圳)有限公司 风险评估方法、装置及其存储介质
CN110210858A (zh) * 2019-05-31 2019-09-06 上海观安信息技术股份有限公司 一种基于智能终端识别的风控防护系统设计方法
CN110348472A (zh) * 2019-05-24 2019-10-18 中国平安财产保险股份有限公司 数据检测规则生成方法、装置、计算机设备及存储介质
CN110796542A (zh) * 2019-09-26 2020-02-14 北京淇瑀信息科技有限公司 金融风险控制方法、金融风险控制装置和电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170185904A1 (en) * 2015-12-29 2017-06-29 24/7 Customer, Inc. Method and apparatus for facilitating on-demand building of predictive models
JP2019526851A (ja) * 2016-07-18 2019-09-19 ナント ホールディングス アイピー エルエルシーNant Holdings IP, LLC 分散型機械学習システム、装置、および方法
US20190295684A1 (en) * 2018-03-22 2019-09-26 The Regents Of The University Of Michigan Method and apparatus for analysis of chromatin interaction data

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908020A (zh) * 2010-08-27 2010-12-08 南京大学 一种基于分类挖掘和版本变更的测试用例优先化方法
WO2017129032A1 (zh) * 2016-01-29 2017-08-03 阿里巴巴集团控股有限公司 磁盘的故障预测方法和装置
CN106776316A (zh) * 2016-12-15 2017-05-31 中国电力科学研究院 一种电力信息软件缺陷预防方法
CN107368918A (zh) * 2017-06-27 2017-11-21 国网北京市电力公司 数据处理方法和装置
CN107908688A (zh) * 2017-10-31 2018-04-13 温州大学 一种基于改进灰狼优化算法的数据分类预测方法及系统
CN110197315A (zh) * 2018-04-08 2019-09-03 腾讯科技(深圳)有限公司 风险评估方法、装置及其存储介质
CN108806699A (zh) * 2018-05-30 2018-11-13 Oppo广东移动通信有限公司 语音反馈方法、装置、存储介质及电子设备
CN108984790A (zh) * 2018-07-31 2018-12-11 蜜小蜂智慧(北京)科技有限公司 一种数据分箱方法及装置
CN109360084A (zh) * 2018-09-27 2019-02-19 平安科技(深圳)有限公司 征信违约风险的评估方法及装置、存储介质、计算机设备
CN110348472A (zh) * 2019-05-24 2019-10-18 中国平安财产保险股份有限公司 数据检测规则生成方法、装置、计算机设备及存储介质
CN110210858A (zh) * 2019-05-31 2019-09-06 上海观安信息技术股份有限公司 一种基于智能终端识别的风控防护系统设计方法
CN110796542A (zh) * 2019-09-26 2020-02-14 北京淇瑀信息科技有限公司 金融风险控制方法、金融风险控制装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
电信客户细分中基于聚类算法的数据挖掘技术研究;梁霄波;;现代电子技术(第15期);全文 *

Also Published As

Publication number Publication date
CN111429003A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN110197280B (zh) 一种知识图谱构建方法、装置及系统
CN110502608A (zh) 基于知识图谱的人机对话方法及人机对话装置
CN110688974B (zh) 一种身份识别方法及装置
CN110322349B (zh) 一种数据的处理方法、装置及设备
CN110827033A (zh) 信息处理方法、装置及电子设备
CN110674188A (zh) 一种特征提取方法、装置及设备
CN112529584A (zh) 交易纠纷数据处理方法、装置、设备及存储介质
CN110163245A (zh) 业务类别预测方法及系统
CN113449011A (zh) 基于大数据预测的信息推送更新方法及大数据预测系统
CN116933252A (zh) 一种安全监测方法、装置、设备及介质
CN107038165B (zh) 一种业务参数获取方法及装置
CN111429003B (zh) 数据处理方法及装置
CN107623715B (zh) 一种身份信息获取方法和装置
CN110163482B (zh) 确定活动方案的安全方案数据的方法、终端设备及服务器
CN113159937A (zh) 识别风险的方法、装置和电子设备
CN110020035A (zh) 数据识别方法和装置、存储介质及电子装置
CN112967044A (zh) 一种支付业务的处理方法及装置
CN113221717A (zh) 一种基于隐私保护的模型构建方法、装置及设备
CN113240424A (zh) 支付业务的身份认证方法及装置、处理器和存储介质
JP2021018466A (ja) ルール抽出装置、情報処理装置、ルール抽出方法及びルール抽出プログラム
CN116911304B (zh) 一种文本推荐方法及装置
CN117093715B (zh) 词库扩充方法、系统、计算机设备及存储介质
CN109146660B (zh) 数据处理方法及装置
CN113449198B (zh) 特征提取模型的训练方法、装置、设备及存储介质
CN112905987B (zh) 账号识别方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant