CN110147389A - 帐号处理方法和装置、存储介质及电子装置 - Google Patents

帐号处理方法和装置、存储介质及电子装置 Download PDF

Info

Publication number
CN110147389A
CN110147389A CN201910194346.2A CN201910194346A CN110147389A CN 110147389 A CN110147389 A CN 110147389A CN 201910194346 A CN201910194346 A CN 201910194346A CN 110147389 A CN110147389 A CN 110147389A
Authority
CN
China
Prior art keywords
account number
probability
model
tree
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910194346.2A
Other languages
English (en)
Other versions
CN110147389B (zh
Inventor
李志颖
葛至富
滕彬
胡嘉伟
董振冉
胡麟
赵大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910194346.2A priority Critical patent/CN110147389B/zh
Publication of CN110147389A publication Critical patent/CN110147389A/zh
Application granted granted Critical
Publication of CN110147389B publication Critical patent/CN110147389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Abstract

本发明公开了一种帐号处理方法和装置、存储介质及电子装置。该方法包括:获取待处理的帐号的特征信息;使用目标集成树模型对待处理的帐号的特征信息进行处理,得到目标集成树模型输出的概率结果,其中,概率结果用于表示待处理的帐号为第二目标类型的帐号的概率,第二目标类型的帐号为预估的执行目标事件的帐号,属于第一目标类型的操作用于使得目标集成树模型输出的概率降低;输出待处理的帐号对应的概率结果。本发明解决了相关帐号处理技术存在处理效率较低的技术问题。

Description

帐号处理方法和装置、存储介质及电子装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种帐号处理方法和装置、存储介质及电子装置。
背景技术
目前,市面上有很多渠道供应商提供用户引流能力,将用户引导到对应的应用平台上。可是引流过来的用户存在各种问题:如是否有购买需求?是否有转化潜质?是否属于定点投放的目标群?也就是说,通过各个渠道的引流获取到的用户数据,不仅数量有限,而且结构数据贫乏,无法实现对用户数据对应的用户帐号的特性进行有效区分。
换言之,申请人发现,基于相关技术提供的帐号处理分析方法,由于帐号处理技术存在处理效率较低的问题,从而使得难以针对不同的用户帐号确定出在应用平台中对应产生的应用数据,无法确定出帐号的有效转化率。
目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种帐号处理方法和装置、存储介质及电子装置,以至少解决相关帐号处理技术存在处理效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种帐号处理方法,包括:获取待处理的帐号的特征信息,其中,上述特征信息包括:身体状态特征、虚拟资源状态特征和逆选择特征,上述身体状态特征用于表示上述帐号所对应的人的身体状态,上述虚拟资源状态特征用于表示上述帐号所对应的人具有和/或使用虚拟资源的状态,上述逆选择特征用于表示上述帐号所对应的人在第一预定时间段内执行的属于第一目标类型的操作;使用目标集成树模型对上述待处理的帐号的特征信息进行处理,得到上述目标集成树模型输出的概率结果,其中,上述概率结果用于表示上述待处理的帐号为第二目标类型的帐号的概率,上述第二目标类型的帐号为预估的执行目标事件的帐号,上述属于第一目标类型的操作用于使得上述目标集成树模型输出的上述概率降低;输出上述待处理的帐号对应的上述概率结果。
根据本发明实施例的一方面,还提供了一种帐号处理装置,包括:第一获取单元,用于获取待处理的帐号的特征信息,其中,上述特征信息包括:身体状态特征、虚拟资源状态特征和逆选择特征,上述身体状态特征用于表示上述帐号所对应的人的身体状态,上述虚拟资源状态特征用于表示上述帐号所对应的人具有和/或使用虚拟资源的状态,上述逆选择特征用于表示上述帐号所对应的人在第一预定时间段内执行的属于第一目标类型的操作;处理单元,用于使用目标集成树模型对上述待处理的帐号的特征信息进行处理,得到上述目标集成树模型输出的概率结果,其中,上述概率结果用于表示上述待处理的帐号为第二目标类型的帐号的概率,上述第二目标类型的帐号为预估的执行目标事件的帐号,上述属于第一目标类型的操作用于使得上述目标集成树模型输出的上述概率降低;输出单元,用于输出上述待处理的帐号对应的上述概率结果。
根据本发明实施例的一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述帐号处理方法。
根据本发明实施例的一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的帐号处理方法。
在本发明实施例中,在获取到待处理的帐号的特征信息之后,使用目标集成树模型对上述待处理的帐号的特征信息进行处理,以得到目标集成树模型输出的概率结果,该概率结果用于表示待处理的帐号为预估的执行目标事件的帐号的概率,并输出上述待处理的帐号对应的概率结果。也就是说,利用目标集成树模型对获取到的待处理的帐号的特征信息进行处理,以确定待处理的帐号为预估的执行目标事件的帐号的概率,从而实现对待处理的帐号进行准确地分类处理,便于针对大量的帐号可以快速确定出对应的有效转化率。换言之,通过目标集成树模型可以提高对获取到的待处理的帐号的特征信息进行处理的效率,进而解决了相关帐号处理技术存在处理效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的帐号处理方法的硬件环境的示意图;
图2是根据本发明实施例的一种可选的帐号处理方法的流程图;
图3是根据本发明实施例的一种可选的帐号处理方法的应用场景的示意图;
图4是根据本发明实施例的一种可选的帐号处理方法的示意图;
图5是根据本发明实施例的一种可选的帐号处理方法的示意图;
图6是根据本发明实施例的一种可选的帐号处理方法的示意图;
图7是根据本发明实施例的一种可选的帐号处理方法的特征信息的示意图;
图8是根据本发明实施例的一种可选的帐号处理方法的离线训练系统的示意图;
图9是根据本发明实施例的一种可选的帐号处理方法的在线训练系统的示意图;
图10是根据本发明实施例的一种可选的帐号处理方法的结果示意图;
图11是根据本发明实施例的一种可选的帐号处理装置的结构示意图;
图12是根据本发明实施例的一种可选的电子装置的结构示意图;
图13是根据本发明实施例的另一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种帐号处理方法,可选地,作为一种可选的实施方式,上述帐号处理方法可以但不限于应用于如图1 所示的硬件环境中。假设用户设备102中安装有使用待处理的帐号所登录的客户端,如该客户端为用户对象A提供相应的服务。如步骤S102,用户设备102中的显示器108用于呈现上述客户端的界面,处理器106用于获取上述待处理的帐号的特征信息,该特征信息包括:身体状态特征、虚拟资源状态特征和逆选择特征,身体状态特征用于表示帐号所对应的人的身体状态,虚拟资源状态特征用于表示帐号所对应的人具有和/或使用虚拟资源的状态,逆选择特征用于表示帐号所对应的人在第一预定时间段内执行的属于第一目标类型的操作。而存储器104用于存储在客户端中执行操作所产生的操作数据及上述帐号的特征信息。然后,如步骤S102-S104,用户设备102将获取到的待处理的帐号的特征信息,通过网络110发送给服务器112。服务器112调用数据库114中的目标集成树模型,通过处理引擎116执行步骤S106,使用上述目标集成树模型对待处理的帐号的特征信息进行处理,得到目标集成树模型输出的概率结果。并执行步骤S108 输出待处理的帐号对应的所述概率结果。最后将该待处理的帐号对应的所述概率结果发送给用户设备102,如步骤S110。
需要说明的是,在本实施例中,在获取到待处理的帐号的特征信息之后,使用目标集成树模型对上述待处理的帐号的特征信息进行处理,以得到目标集成树模型输出的概率结果,该概率结果用于表示待处理的帐号为预估的执行目标事件的帐号的概率,并输出上述待处理的帐号对应的概率结果。也就是说,利用目标集成树模型对获取到的待处理的帐号的特征信息进行处理,以确定待处理的帐号为预估的执行目标事件的帐号的概率,从而实现对待处理的帐号进行准确地分类处理,便于针对大量的帐号可以快速确定出对应的有效转化率。换言之,通过目标集成树模型可以提高对获取到的待处理的帐号的特征信息进行处理的效率,进而克服相关帐号处理技术存在的处理效率较低的问题。
可选地,上述用户设备102可以但不限于为可以计算数据的终端,如移动终端(例如手机、平板电脑)、笔记本电脑、PC机等终端上,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、 WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器可以包括但不限于任何可以进行计算的硬件设备。
此外,在本实施例中,上述帐号处理方法还可以但不限于应用于处理能力较强大的独立的处理设备中,而无需进行数据交互。例如,该处理设备可以但不限于为处理能力较强大的终端设备,即,上述获取、处理、输出等操作集成在一个独立的处理设备中。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,作为一种可选的实施方式,如图2所示,上述帐号处理方法包括:
S202,获取待处理的帐号的特征信息,其中,特征信息包括:身体状态特征、虚拟资源状态特征和逆选择特征,身体状态特征用于表示帐号所对应的人的身体状态,虚拟资源状态特征用于表示帐号所对应的人具有和 /或使用虚拟资源的状态,逆选择特征用于表示帐号所对应的人在第一预定时间段内执行的属于第一目标类型的操作;
S204,使用目标集成树模型对待处理的帐号的特征信息进行处理,得到目标集成树模型输出的概率结果,其中,概率结果用于表示待处理的帐号为第二目标类型的帐号的概率,第二目标类型的帐号为预估的执行目标事件的帐号,属于第一目标类型的操作用于使得目标集成树模型输出的概率降低;
S206,输出待处理的帐号对应的概率结果。
可选地,在本实施例中,上述帐号处理方法可以但不限于应用于如图 3所示的保险金融领域的应用场景中。如在获取到通过保险渠道/第三方推广渠道供应商采集到的关于保险帐号的特征信息(如图3(a)所示)之后,调用目标集成树模型(如图3(b)所示)对上述保险帐号的特征信息进行处理,以得到输出的概率结果,该概率结果用于指示上述保险帐号为预估的执行目标事件的帐号的概率。从而实现在利用目标集成树模型对保险帐号的特征信息进行处理后,根据处理结果达到对保险帐号进行准确分类 (如图3(c)所示)的目的,然后,利用该分类的结果实现执行目标事件,如按照对应策略投放保险广告,以帮助保险行业提升网点产能(如图3(d) 所示)。
需要说明的是,在获取到待处理的帐号的特征信息之后,使用目标集成树模型对上述待处理的帐号的特征信息进行处理,以得到目标集成树模型输出的概率结果,该概率结果用于表示待处理的帐号为预估的执行目标事件的帐号的概率,并输出上述待处理的帐号对应的概率结果。也就是说,利用目标集成树模型对获取到的待处理的帐号的特征信息进行处理,以确定待处理的帐号为预估的执行目标事件的帐号的概率,从而实现对待处理的帐号进行准确地分类处理,便于针对大量的帐号可以快速确定出对应的有效转化率。换言之,通过目标集成树模型可以提高对获取到的待处理的帐号的特征信息进行处理的效率,进而克服相关帐号处理技术存在的处理效率较低的问题。
可选地,在本实施例中,上述目标集成树模型可以但不限于为一组分类和回归树(classification and regression trees,简称为CART),是一组决策树的算法耦合。上述决策树可以但不限于是一系列条件耦合的逻辑决策路径。通常情况下,往往需要把多决策树的预测结果综合起来,得到集成树模型。需要说明的是,上述目标集成树模型可以包括但不限于以下之一:逻辑回归(Logistic Regression,简称LR)模型、梯度提升树(GradientBoosting Decision Tree,简称GBDT)模型、轻量梯度增强机(Light Gradient BoostingMachine,简称Light GBM)支持向量机(Support Vector Machine,简称SVM)模型、深度神经网络(Deep Neural Network,简称DNN)模型等。
此外,上述目标集成树模型的训练过程可以包括但不限于为离线模型训练,也可以但不限于为在线模型训练。其中,上述离线训练可以包括但不限于数据筛选和清洗、特征抽取、模型训练和模型优化等环节;上述在线训练可以但不限于是通过模型部署实现的,该在线训练过程可以包括但不限于对需要预估的数据进行特征抽取,再采用离线训练进行预估,得到预估值以应用于实际场景中。
需要说明的是,上述用于离线训练的模型,可以包括但不限于学习引擎中加载的lightGBM算法选型,也可以根据具体其他应用场景采用GBDT 等集成树模型或者深度学习模型进行特征衍生再进行LR算法训练,同样也可以直接使用其他集成树模型、LR模型、深度学习模型进行训练。上述用于在线训练的模型,可以包括但不限于部署模型文件、刷入缓存特征的线上部署方式,也可以根据具体场景选择采用离线计算全盘用户模型分、直接将模型分输入缓存的线上部署方式。对目标集成树模型进行的机器学习过程可以包括无监督学习和有监督学习,例如,如图4所示在本实施例中可以采用有监督机器学习的方式来训练集成树模型。
进一步,在本实施例中,在使用目标集成树模型对所述待处理的帐号的特征信息进行处理之前,还可以包括但不限于:确定出用于得到目标集成树模型的初始集成树模型,并对该初始集成树模型进行训练和优化。
例如,极简模式下上述初始集成树模型可以设置两棵决策树组成的集成树。每棵决策树上的分数相加即可得到最终的分数。集成树模型,可以认为是是由K个基模型组成的一个加法运算式,表达如下:
其中,K表示决策树的数目,F是指所有基模型组成的函数空间,f是函数空间F中的一个函数。在训练过程中,训练的目标函数可以表达如下:
其中,ι代表了损失函数,Ω代表了基模型的复杂度,这一部分来源于统计学习中的Bais-Variance Trade Off原则,可以将其描述为损失和正则两个部分。误差函数,代表着模型有多拟合数据;正则化项,可以理解为现实情况下,通过调整模型的复杂程度来提升模型的泛化能力,若基模型是树模型,则树的深度、叶子节点数等指标可以反应树的复杂程度。所以,公式(2)中的第一项是损失函数,用于衡量模型拟合训练数据的好坏程度;第二项为正则项,用来衡量学习到的模型的复杂度。需要说明的是,优化上述损失函数可以但不限于尽量使模型走出欠拟合的状态,优化正则项可以但不限于尽量使模型避免过拟合。
例如,如图5(a)所示,假设获取到5个帐号的特征信息,如该特征信息包括年龄、性别、职业等,利用上述目标集成树模型对上述帐号的特征信息进行处理,如图5(b)所示,判断年龄是否<15?性别是否为男性?…最终得到输出的预测分值:如男孩得到分值为+2,女孩得到分值为+0.1,其他人得到分值为-1。最后,利用上述各个叶子节点对应的预测分值得到上述概率结果。
需要说明的是,上述lightGBM是具备light(即轻量级)和GBM梯度提升机两方面特点的集成树模型。LightGBM采用Leaf-wise生长策略,如图6所示,每次从当前所有叶子中找到分裂增益最大(可以但不限于为数据量最大)的一个叶子,然后分裂,如此循环。在分裂次数相同的情况下,以降低更多的误差,得到更好的精度。进一步,为了避免采用Leaf-wise长出比较深的决策树导致的过拟合问题,可以但不限于在Leaf-wise之上增加一个决策树最大深度的限制,从而实现在保证高效率的同时防止过拟合。
具体的,lightGBM使用了基于histogram的决策树算法,在内存和计算代价上存在很大优势:
1)内存上优势:直方图算法的内存消耗为(#data*#features* 1Bytes)(因为对特征分桶后只需保存特征离散化之后的值),lightgbm中对每个特征都有一个直方图。而相关技术中xgboost的exact算法内存消耗为:(2*#data*#features*4Bytes),由于xgboost既要保存原始feature的值,也要保存这个值的顺序索引,这些值需要32位的浮点数来保存。
2)计算上的优势:预排序算法在选择好分裂特征计算分裂收益时需要遍历所有样本的特征值,时间为(#data),而直方图算法只需要遍历桶就行了,时间为(#bin)。
3)直方图做差加速:一个子节点的直方图可以通过父节点的直方图减去兄弟节点的直方图得到,从而加速计算。
4)lightGBM支持直接输入特征分类。在对离散特征分裂时,每个取值都当作一个桶,分裂时的增益算的是“是否属于某个分类category”的增益gain。
可选地,在本实施例中,上述获取待处理的帐号的特征信息可以包括但不限于:对获取到的帐号数据进行脱敏处理及去噪处理,然后从获取到的数据中提取上述特征信息并进行加工处理。该加工处理可以包括但不限于:特征归一化及缺省值处理;特征降维处理;特征选择处理等。其中,上述去噪处理可以但不限于使得采集到的特征信息的分布保持一致。例如,剔除节假日等非常规时间的影响,去除不同城市、不同品类的差别的影响。上述特征归一化处理可以包括答案不限于以下之一:线性归一化 (Rescaling)、均值方差归一法(standardization)、单位长度归一化(Scaling to unit length)、非线性归一化/函数归一化、排序归一化等。
此外,在本实施例中,上述特征信息可以包括但不限于与帐号关联的用户信息,如身体状态特征、虚拟资源状态特征和逆选择特征,身体状态特征用于表示帐号所对应的人的身体状态,虚拟资源状态特征用于表示帐号所对应的人具有和/或使用虚拟资源的状态,逆选择特征用于表示帐号所对应的人在第一预定时间段内执行的属于第一目标类型的操作。其中,第一目标类型的操作可以包括但不限于上述帐号曾出现过的欺诈或隐瞒的操作。
可选地,在本实施例中,在输出待处理的帐号对应的概率结果之后,还可以包括但不限于:向待处理的帐号发送与概率结果对应的用于邀请执行目标事件的信息,其中,概率结果所表示的概率被划分为多个概率组,不同的概率组对应于不同的目标事件,或者,对应于相同的目标事件的不同信息。例如,上述不同的目标事件可以包括但不限于:根据概率向不同帐号推送不同的保险信息,例如,概率较大的,推送保险广告;概率位于中间的,推送优惠券和保险广告,概率较低的,推送保费高的保险广告。上述仅是一种示例,本实施例中对此不做任何限定。
通过本申请提供的实施例,在获取到待处理的帐号的特征信息之后,使用目标集成树模型对上述待处理的帐号的特征信息进行处理,以得到目标集成树模型输出的概率结果,该概率结果用于表示待处理的帐号为预估的执行目标事件的帐号的概率,并输出上述待处理的帐号对应的概率结果。也就是说,利用目标集成树模型对获取到的待处理的帐号的特征信息进行处理,以确定待处理的帐号为预估的执行目标事件的帐号的概率,从而实现对待处理的帐号进行准确地分类处理,便于针对大量的帐号可以快速确定出对应的有效转化率。换言之,通过目标集成树模型可以提高对获取到的待处理的帐号的特征信息进行处理的效率,进而克服相关帐号处理技术存在的处理效率较低的问题。
作为一种可选的方案,在输出待处理的帐号对应的概率结果之后,还包括:
S1,向待处理的帐号发送与概率结果对应的用于邀请执行目标事件的信息,其中,概率结果所表示的概率被划分为多个概率组,不同的概率组对应于不同的目标事件,或者,对应于相同的目标事件的不同信息。
可选地,在本实施例中,在待处理的帐号的特征信息为通过保险渠道供应商提供的保险帐号的特征信息的情况下,上述目标事件可以包括但不限于为保险帐号可执行的不同保险等级的保险业务,对应的信息可以包括但不限于:保险业务的广告、保险业务的优惠券等。
可选地,在本实施例中,向待处理的帐号发送与概率结果对应的用邀请执行目标事件的信息包括:
1)将概率结果所表示的概率中的至少部分概率划分为第一概率组,其中,第一概率组包括概率结果所表示的概率中按从大到小排列后的前N 个概率,N为自然数;向待处理的帐号中与前N个概率对应的帐号发送用于邀请执行第一目标事件的第一信息,其中,目标事件包括第一目标事件;和/或
2)将概率结果所表示的概率中的至少部分概率划分为第二概率组,其中,第二概率组中的概率均小于第一概率组中的概率;向待处理的帐号中与第二概率组中的概率对应的帐号发送用于邀请执行第一目标事件的第二信息,或者,发送用于邀请执行第二目标事件的第三信息,其中,目标事件包括第二目标事件。
例如,假设上述帐号处理方法应用于保险应用场景,通过保险渠道的数据采集接口来获取待处理的保险帐号的特征信息,以便于对该保险帐号进行处理,得到目标集成树模型输出的概率结果。其中,不同的概率结果所表示的概率可以但不限于划分为多个概率组,不同的概率组可以对应不同的目标事件或相同目标事件的不同信息。
进一步,假设将概率按照从大到小划分为多个概率组,其中包括第一概率组和第二概率组,第二概率组中的概率均小于第一概率组中的概率。假设为不同概率组发送用于邀请执行不同目标事件的信息信息,如向第一概率组中前N个概率对应的帐号,发送用于邀请参加高额保险业务(如第一目标事件)的邀请信息Info1,其中,该邀请信息Info1可以但不限于携带有优惠信息,如优惠1000元。而向第二概率组中的概率对应的帐号,发送的也是用于邀请参加高额保险业务(如第一目标事件)的邀请信息 Info2,其中,该邀请信息Info1可以但不限于携带有优惠信息,如优惠500 元。又例如,也可以向第二概率组中的概率对应的帐号,发送的是用于推荐介绍保险业务(如第二目标事件)的广告信息Info3,其中,该广告信息Info3可以但不限于携带有上述保险业务的相关投保具体的业务信息,如回报率、风险率等。
通过本申请提供的实施例,在输出待处理的帐号对应的概率结果之后,可以向待处理的帐号发送与概率结果所表示的不同的概率组对应不同的目标事件,或者与概率结果所表示的不同的概率组对应的相同的目标事件的不同信息。从而实现利用目标集成树模型输出的概率结果,针对不同帐号的特征信息,实现对帐号的精准分类,提高帐号的有效转化率,增加产能。
作为一种可选的方案,使用目标集成树模型对待处理的帐号的特征信息进行处理包括:
S1,对待处理的帐号的特征信息进行归一化处理,得到归一化信息;
S2,使用目标集成树模型对归一化信息进行概率确定,得到概率结果,其中,目标集成树模型中包括多个决策树,概率结果是根据多个决策树中的叶子节点对应的预测分值得到的。
可选地,为了降低不同特征的取值范围相差很大所带来的影响,加快梯度下降求得最优解的速度或者提高精度,在本实施例中可以但不限于对待处理的帐号的特征信息进行归一化处理可,处理方式包括以下之一:
1)线性归一化(Rescaling):归一化到[0,1]或[-1,1],用类似方式:
其中,max代表着变量值x的最大值,min代表着变量值x的最小值。通过利用变量值x的最大值和最小值,将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级影响,改变变量在分析中的权重来解决不同度量的问题。这种归一化方法比较适用在数值比较集中的情况。在本实施例中,可以但不限于利用经验常量值来替代上述公开(3)中的max 和min。
2)均值方差归一法(standardization):
其中,μ为所有样本数据的均值,α为所有样本数据的标准差。即每一变量值与其平均值之差,除以该变量值的标准差。虽然该方法在无量纲化过程中利用了所有的数据信息,但是该方法在无量纲化后,不仅使得转换后的各变量均值相同,且标准差也相同,即无量纲化的同时还消除了各变量在变异程度上的差异,从而转换后的各变量在聚类分析中的重要性程度是同等看待的。经过处理的数据符合标准正态分布,即均值为0,标准差为1。适用于数据分布没有明显边界,有可能存在极端数据值。
3)单位长度归一化(Scaling to unit length):归一化到单位长度向量
其中,||x||为向量的欧拉长度(the Euclidean length of the vector),二维范数。
4)非线性归一化/函数归一化:
经常用在数据分化比较大的场景。通过一些数学函数,将原始值进行映射。该数学函数可以包括但不限于以下函数:log、指数、正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如log(V,2)、log(V,10) 等。
5)排序归一化:
将特征按大小排序,根据特征所对应的序给予一个新的值。
可选地,在本实施例中,步骤S2使用目标集成树模型对归一化信息进行概率确定包括:
S21,将待处理的帐号中的每个帐号的特征信息对应的归一化信息输入到多个决策树,以获取每个帐号在多个决策树中的叶子节点上对应的预测分值;
S22,将预测分值进行预定的逻辑运算,得到每个帐号为第二目标类型的帐号的概率。
例如,假设上述目标集成树模型采用集成树模型lightGBM。该集成树模型lightGBM包括多个决策树,根据多个决策树中的叶子节点对应的预测分值得到上述概率结果。如图5(a)所示,假设获取到5个帐号的特征信息,如该特征信息包括年龄、性别、职业等,利用上述目标集成树模型对上述帐号的特征信息进行处理,如图5(b)所示,判断年龄是否<15?性别是否为男性?…最终得到输出的预测分值:如男孩得到分值为+2,女孩得到分值为+0.1,其他人得到分值为-1。进一步,利用上述各个叶子节点对应的预测分值进行预定的逻辑运算,从而得到对应的概率结果。
需要说明的是,在本实施例中,集成树模型LightGBM支持类别特征。相关技术中大多数机器学习工具都无法直接支持类别特征,往往需要把类别特征,转化one-hotting特征,但却降低了空间和时间的效率。而类别特征的使用是在实践中很常用的。基于这一点,本实施例中采用的集成树模型LightGBM优化了对类别特征的支持,可以直接输入类别特征。并在决策树算法上增加了类别特征的决策规则。
此外,在本实施例中,集成树模型LightGBM可以但不限于调整以下参数:
1)num_leaves(叶子节点数量):
集成树模型LightGBM使用的是Leaf-wise的算法,因此在调节树的复杂程度时,使用的是num_leaves(叶子节点数量)而不是max_depth(最大深度)。
2)样本分布非平衡数据集:可以param[‘is_unbalance’]=’true’;
3)Bagging参数:
bagging_fraction+bagging_freq(必须同时设置)、feature_fraction。bagging_fraction可以使bagging的更快的运行出结果,
feature_fraction设置在每次迭代中使用特征的比例;
4)min_data_in_leaf、min_sum_hessian_in_leaf:调大值可以防止过拟合,它的值通常设置的比较大。
再者,在本实施例中,采用sklearn接口形式的集成树模型LightGBM。这里主要以sklearn的使用形式来使用lightgbm算法,包含建模、训练、预测、网格参数优化等。
通过本申请提供的实施例,在对帐号的特征信息进行归一化处理之后,将其输入到目标集成树模型中的多个决策树,利用决策树的一系列条件耦合的逻辑决策路径来分析上述特征信息,得到预测分值,进一步,根据预测分值的逻辑运算结果,来得到帐号为执行目标事件的帐号的概率,而无需再经过复杂的处理操作,从而达到提高帐号处理效率的效果。
作为一种可选的方案,在获取待处理的帐号的特征信息之前,上述方法还包括:
S1,获取样本帐号的特征信息和概率信息,其中,样本帐号的特征信息包括的身体状态特征用于表示样本帐号所对应的人的身体状态,样本帐号的特征信息包括的虚拟资源状态特征用于表示样本帐号所对应的人具有和/或使用虚拟资源的状态,样本帐号的特征信息包括的逆选择特征用于表示样本帐号所对应的人在第二预定时间段内执行的属于第一目标类型的操作,概率信息用于表示样本帐号为第二目标类型的帐号的概率;
S2,使用样本帐号的特征信息和概率信息对初始集成树模型进行训练,得到目标集成树模型,其中,目标集成树模型用于确定待处理的帐号为第二目标类型的帐号的概率。
可选地,在本实施例中,获取样本帐号的特征信息可以包括但不限于:通过渠道供应商的数据采集提取接口,获取各个待处理的样本帐号的帐号数据,其中,对加密数据再进行脱敏处理,最后经过去噪处理后传递至后台,以便于后台提取出样本帐号的特征信息。其中,上述处理过程可以包括但不限于:
(1)按照预定周期收集各个渠道的引流数据(x)及相应成交率(y);
(2)剔除节假日等非常规时间(保持分布一致);
(3)只收集触达次数<=T的处理数据(减少噪音);
(4)去除不同城市、不同商圈、不同品类的差别的影响。
也就是说,通过上述处理过程来使得特征信息本身的分布尽量一致,针对不一致的特征信息可以进行归一化处理,也可以将分布不一致的因素作为特征,也可以根据场景拆分为不同问题,然后对各类别问题单独训练模型。
需要说明的是,为了保证训练的准确性,在本实施例中,用于训练的训练集中的样本帐号可以尽量用近期的帐号数据进行训练预测,而历史数据可以但不限于配置不同权重来应用到初始集成树模型进行训练,其中,距离当前越远的历史数据可以但不限于配置越小的权重。
此外,在本实施例中,可以但不限于采用一些简单规则来剔除样本帐号中出现的噪音负例。例如,将样本帐号中没有看到或者取关的业务内容作为负例。
进一步,由于采样有使实际数据分布发生变化的可能。比如,仍以保险业务为例进行说明:A、转化率问题中,如果只取只有一个险种的数据进行预估,则对于多险种的问题无法很好预估。应该保证一个险种的和多个险种的数据都有;B、无客观数据的二分类问题,用规则来获得正/负例,而规则对正/负例的覆盖不全面。这时,应该随机抽样数据,进行人工标注,实现合理采样,确保样本数据和实际数据分布一致。
可选地,在本实施例中,在使用所述样本帐号的特征信息和概率信息对初始集成树模型进行训练之前,还可以包括:构建初始集成树模型。
需要说明的是,数据和特征决定了机器学习的上限,而模型和算法用于逼近这个上限。所以提取和业务相关的特征是模型构建的重中之重。完成样本数据的提取后,就需要抽取特征并做特征的二次加工,即,完成输入空间到特征空间的转换。例如,仍以保险业务为例进行说明,图7中的特征信息就是基于互金数据制作的保险行业特征库。
上述初始集成树模型的构建过程可以包括但不限于如下内容:
模型,是机器学习中的一个重要概念,简单的讲,指特征空间到输出空间的映射;一般由模型的假设函数和参数ω组成(下方公式(6)就是 LR模型的一种表达);一个模型的假设空间(hypothesis space),指给定模型所有可能ω对应的输出空间组成的集合。工业界常用的模型有逻辑回归 (Logistic Regression,简称LR)模型、梯度提升树(GradientBoosting Decision Tree,简称GBDT)模型、轻量梯度增强机(Light Gradient BoostingMachine,简称Light GBM)支持向量机(Support Vector Machine,简称 SVM)模型、深度神经网络(Deep Neural Network,简称DNN)模型等。
这里模型训练就是基于训练数据,获得一组参数ω,使得特定目标最优,即获得了特征空间到输出空间的最优映射。
为了确定本实施例中的模型,可以但不限于考虑以下条件:“1)可以解决排序或回归问题;2)已经自己实现了算法,经常使用,而且效果很好;3)支持海量数据;4)工业界广泛使用”。针对满足上述条件的LR 模型和lightGBM模型进行了以下对比:
I.LR是广义线性模型,使用了Logit变换将函数值映射到0~1区间,映射后的函数值就是问题预估值。LR可解释性强,是金融领域惯用的评分算法。此外,这种线性模型很容易并行化,可以很轻松的处理上亿条训练样本。但线性模型学习能力有限,需要大量特征工程预先分析出有效的特征、特征组合,以便间接增强LR的非线性学习能力。由于LR模型中的特征组合很关键,但又无法直接通过特征笛卡尔积解决,只能依靠人工经验,耗时耗力同时并不一定会带来效果提升。
II.GBDT是一种常用的非线性模型,它基于集成学习中的boosting 思想,每次迭代都在减少残差的梯度方向新建立一颗决策树,迭代多少次就会生成多少颗决策树。GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。然而对于这类基于树的模型,最耗时的部分就是在进行特征选择结点分裂时,需要遍历所有可能的划分点,计算信息增益,从而找到最优的划分点。如集成树模型LightGBM,极大地提升了计算效率。在模型精度和GBDT模型差不多的情况下,其训练速度比 GBDT模型快了20倍。LightGBM最大的优点,就是在解决了GBDT计算效率的问题的同时,还能保证模型的精度。
在本实施例中,为了实现保险行业网点产能提升场景下,需要面向各公司各场景定制化建模,关注模型效果和模型构建速度,但不太关注模型可解释性。因而,为了满足多场景多产品的灵活建模,缩短建模周期,降低模型过拟合,最终确定采用集成树模型LightGBM作为本实施例中的初始集成树模型。
可选地,在本实施例中,对初始集成树模型进行训练可以但不限于采用离线训练系统,也可以线上训练系统。
例如,如图8所示为离线训练系统,该系统由数据层和模型层两部分组成。鉴于互联网数据具有高覆盖和高频性,传统数据库已经无法满足存储要求,T级P级的互金数据存储于Hadoop分布式服务器。离线训练的流程为,首先通过Hive引擎从Hadoop分布式服务器中提取并加工训练、测试、验证及盲测样本的千维历史特征数据;对数据进行去重处理、缺失值处理、归一化处理后,输入到离线的初始集成树模型训练引擎进行模型训练;在初始集成树模型训练的同时加入人工参数调优,并根据场景确定适用的模型评估标准,选择该标准下的最优模型。
又例如,如图9所示为线上训练系统,该系统由模型层和应用层组成,模型层包括模型部署平台、队列管理平台和kv(key-value,简称kv)缓存存储服务器,应用层主要是负责商户管理、应用管理和模型管理的服务接入系统。具体线上应用部署内容包括:搭建模型部署平台,部署离线训练的模型文件,并将模型需要的用户特征刷入kv服务器,搭建服务接入应用系统以便实现商户管理、模型管理以及实时访问查询时的多线程队列应用管理,根据访问时的任务流打通从商户接入、服务接入到模型部署到 kv服务器的模型查询全流程。
可选地,在本实施例中,在构建完初始集成树模型之后,在采用在线训练的情况下,需进行模型部署,再开始使用样本帐号的特征信息和概率信息对初始集成树模型进行训练,得到目标集成树模型。其中,上述模型部署方式可以包括但不限于以下两种方式:
1)离线计算出全盘用户的模型分,将全盘用户的模型分刷入线上的 kv(key-value,简称kv)缓存存储服务器,数据接口访问的时候,根据查询key直接回吐用户的模型分,这种方式可以节省kv服务器的存储空间。但是每次模型迭代优化都需要全盘用户跑一次模型,然后将全盘用户的模型分重新刷入kv服务器。这种方式适用于模型迭代调整不频繁、对kv缓存存储服务成本更敏感的场景;
2)将用户模型需要的特征刷入kv缓存存储服务器,搭建模型部署平台部署模型文件,数据接口访问的时候,根据用户输入的key来查询各维特征信息,根据部署的模型文件实时计算回吐模型分。此种方式适用于模型需要频繁调优迭代、对kv服务器的存储空间不敏感的场景。
比对上述两种鉴于模型部署方式,针对保险场景需要持续优化迭代模型的需求,本实施例可以但不限于采用第2)中模型部署方式。
进一步,在本实施例中,可以但不限于采用ABTest灰度上线的方式来对比评测模型效果。ABTest本身其实是物理学的“控制变量法”,通过只改变一个因素来确定其变化对转化率(conversion rate,简称CR)或者收益的影响。如图10所示,可以理解为将一群人分成两类,通过展示新旧版本A/版本B来测试哪种版本效果好,差异是多少。
通过本申请提供的实施例,在合理采集到样本帐号的特征信息和预先标注的概率信息之后,再使用样本帐号的特征信息和概率信息对初始集成树模型进行训练,以得到目标集成树模型,从而实现利用该目标集成树模型来待处理的帐号进行处理,以提高帐号处理的效率和准确性。
作为一种可选的方案,获取待处理的帐号的特征信息包括:
S1,获取第三方设备发送的帐号处理请求,其中,帐号处理请求中携带有待处理的帐号的帐号标识;
S2,在数据库中获取与帐号标识对应的待处理的帐号的特征信息,其中,第三方设备被设置为不允许对数据库进行操作,或者,数据库被设置为对第三方设备不可见。
需要说明的是,在本实施例中,很多帐号数据中携带的特征信息往往涉及用户的私密信息,常常是加密处理的信息。为了便于在本实施例中应用,在提高帐号处理效率的同时,保障用户的数据安全,可以但不限于对获取到的特征信息进行脱敏处理。例如,在指定的数据库中存储,去除用户敏感信息,而对渠道供应商屏蔽,使其无法看见或无法操作。
例如,图11示出帐号A采用帐号处理方法之后的效果图。以3个月转化周期的10万投放用户样本作为盲测数据,采用上述模型获取输出的概率结果。图11所示为帐号A采用上述模型得到的混淆矩阵分析结果,有效提高网点产能,使其投放的网点效率改进至约2.5倍。
通过本申请提供的实施例,在获取到第三方设备发送的帐号处理请求之后,在数据库中对上述装好处理请求所指示的帐号标识对应的待处理帐号进行脱敏处理,使其被设置为不允许对数据库进行操作,或者,数据库被设置为对第三方设备不可见。从而达到保证帐号处理安全性的目的。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述帐号处理方法的帐号处理装置。如图12所示,该装置包括:
1)第一获取单元1202,用于获取待处理的帐号的特征信息,其中,特征信息包括:身体状态特征、虚拟资源状态特征和逆选择特征,身体状态特征用于表示帐号所对应的人的身体状态,虚拟资源状态特征用于表示帐号所对应的人具有和/或使用虚拟资源的状态,逆选择特征用于表示帐号所对应的人在第一预定时间段内执行的属于第一目标类型的操作;
2)处理单元1204,用于使用目标集成树模型对待处理的帐号的特征信息进行处理,得到目标集成树模型输出的概率结果,其中,概率结果用于表示待处理的帐号为第二目标类型的帐号的概率,第二目标类型的帐号为预估的执行目标事件的帐号,属于第一目标类型的操作用于使得目标集成树模型输出的概率降低;
3)输出单元1206,用于输出待处理的帐号对应的概率结果。
可选地,在本实施例中,上述帐号处理方法可以但不限于应用于如图 3所示的保险金融领域的应用场景中。如在获取到通过保险渠道供应商采集到的关于保险帐号的特征信息(如图3(a)所示)之后,调用目标集成树模型(如图3(b)所示)对上述保险帐号的特征信息进行处理,以得到输出的概率结果,该概率结果用于指示上述保险帐号为预估的执行目标事件的帐号的概率。从而实现在利用目标集成树模型对保险帐号的特征信息进行处理后,根据处理结果达到对保险帐号进行准确分类(如图3(c)所示)的目的,以帮助保险行业提升网点产能(如图3(d)所示)。
需要说明的是,在获取到待处理的帐号的特征信息之后,使用目标集成树模型对上述待处理的帐号的特征信息进行处理,以得到目标集成树模型输出的概率结果,该概率结果用于表示待处理的帐号为预估的执行目标事件的帐号的概率,并输出上述待处理的帐号对应的概率结果。也就是说,利用目标集成树模型对获取到的待处理的帐号的特征信息进行处理,以确定待处理的帐号为预估的执行目标事件的帐号的概率,从而实现对待处理的帐号进行准确地分类处理,便于针对大量的帐号可以快速确定出对应的有效转化率。换言之,通过目标集成树模型可以提高对获取到的待处理的帐号的特征信息进行处理的效率,进而克服相关帐号处理技术存在的处理效率较低的问题。
可选地,在本实施例中,上述目标集成树模型可以但不限于为一组分类和回归树(classification and regression trees,简称为CART),是一组决策树的算法耦合。上述决策树可以但不限于是一系列条件耦合的逻辑决策路径。通常情况下,往往需要把多决策树的预测结果综合起来,得到集成树模型。需要说明的是,上述目标集成树模型可以包括但不限于以下之一:逻辑回归(Logistic Regression,简称LR)模型、梯度提升树(GradientBoosting Decision Tree,简称GBDT)模型、轻量梯度增强机(Light Gradient BoostingMachine,简称Light GBM)支持向量机(Support Vector Machine,简称SVM)模型、深度神经网络(Deep Neural Network,简称DNN)模型等。
此外,上述目标集成树模型的训练过程可以包括但不限于为离线模型训练,也可以但不限于为在线模型训练。其中,上述离线训练可以包括但不限于数据筛选和清洗、特征抽取、模型训练和模型优化等环节;上述在线训练可以但不限于是通过模型部署实现的,该在线训练过程可以包括但不限于对需要预估的数据进行特征抽取,再采用离线训练进行预估,得到预估值以应用于实际场景中。
需要说明的是,上述用于离线训练的模型,可以包括但不限于学习引擎中加载的lightGBM算法选型,也可以根据具体其他应用场景采用GBDT 等集成树模型或者深度学习模型进行特征衍生再进行LR算法训练,同样也可以直接使用其他集成树模型、LR模型、深度学习模型进行训练。上述用于在线训练的模型,可以包括但不限于部署模型文件、刷入缓存特征的线上部署方式,也可以根据具体场景选择采用离线计算全盘用户模型分、直接将模型分输入缓存的线上部署方式。对目标集成树模型进行的机器学习过程可以包括无监督学习和有监督学习,例如,如图4所示在本实施例中可以采用有监督机器学习的方式来训练集成树模型。
进一步,在本实施例中,在使用目标集成树模型对所述待处理的帐号的特征信息进行处理之前,还可以包括但不限于:确定出用于得到目标集成树模型的初始集成树模型,并对该初始集成树模型进行训练和优化。
例如,极简模式下上述初始集成树模型可以设置两棵决策树组成的集成树。每棵决策树上的分数相加即可得到最终的分数。集成树模型,可以认为是是由K个基模型组成的一个加法运算式,表达如下:
其中,K表示决策树的数目,F是指所有基模型组成的函数空间,f是函数空间F中的一个函数。在训练过程中,训练的目标函数可以表达如下:
其中,ι代表了损失函数,Ω代表了基模型的复杂度,这一部分来源于统计学习中的Bais-Variance Trade Off原则,可以将其描述为损失和正则两个部分。误差函数,代表着模型有多拟合数据;正则化项,可以理解为现实情况下,通过调整模型的复杂程度来提升模型的泛化能力,若基模型是树模型,则树的深度、叶子节点数等指标可以反应树的复杂程度。所以,公式(8)中的第一项是损失函数,用于衡量模型拟合训练数据的好坏程度;第二项为正则项,用来衡量学习到的模型的复杂度。需要说明的是,优化上述损失函数可以但不限于尽量使模型走出欠拟合的状态,优化正则项可以但不限于尽量使模型避免过拟合。
例如,如图5(a)所示,假设获取到5个帐号的特征信息,如该特征信息包括年龄、性别、职业等,利用上述目标集成树模型对上述帐号的特征信息进行处理,如图5(b)所示,判断年龄是否<15?性别是否为男性?…最终得到输出的预测分值:如男孩得到分值为+2,女孩得到分值为+0.1,其他人得到分值为-1。最后,利用上述各个叶子节点对应的预测分值得到上述概率结果。
需要说明的是,上述lightGBM是具备light(即轻量级)和GBM梯度提升机两方面特点的集成树模型。LightGBM采用Leaf-wise生长策略,如图6所示,每次从当前所有叶子中找到分裂增益最大(可以但不限于为数据量最大)的一个叶子,然后分裂,如此循环。在分裂次数相同的情况下,以降低更多的误差,得到更好的精度。进一步,为了避免采用Leaf-wise长出比较深的决策树导致的过拟合问题,可以但不限于在Leaf-wise之上增加一个决策树最大深度的限制,从而实现在保证高效率的同时防止过拟合。
具体的,lightGBM使用了基于histogram的决策树算法,在内存和计算代价上存在很大优势:
1)内存上优势:直方图算法的内存消耗为(#data*#features* 1Bytes)(因为对特征分桶后只需保存特征离散化之后的值),lightgbm中对每个特征都有一个直方图。而相关技术中xgboost的exact算法内存消耗为: (2*#data*#features*4Bytes),由于xgboost既要保存原始feature的值,也要保存这个值的顺序索引,这些值需要32位的浮点数来保存。
2)计算上的优势:预排序算法在选择好分裂特征计算分裂收益时需要遍历所有样本的特征值,时间为(#data),而直方图算法只需要遍历桶就行了,时间为(#bin)。
3)直方图做差加速:一个子节点的直方图可以通过父节点的直方图减去兄弟节点的直方图得到,从而加速计算。
4)lightGBM支持直接输入特征分类。在对离散特征分裂时,每个取值都当作一个桶,分裂时的增益算的是“是否属于某个分类category”的增益gain。
可选地,在本实施例中,上述获取待处理的帐号的特征信息可以包括但不限于:对获取到的帐号数据进行脱敏处理及去噪处理,然后从获取到的数据中提取上述特征信息并进行加工处理。该加工处理可以包括但不限于:特征归一化及缺省值处理;特征降维处理;特征选择处理等。其中,上述去噪处理可以但不限于使得采集到的特征信息的分布保持一致。例如,剔除节假日等非常规时间的影响,去除不同城市、不同品类的差别的影响。上述特征归一化处理可以包括答案不限于以下之一:线性归一化 (Rescaling)、均值方差归一法(standardization)、单位长度归一化(Scaling to unit length)、非线性归一化/函数归一化、排序归一化等。
此外,在本实施例中,上述特征信息可以包括但不限于与帐号关联的用户信息,如身体状态特征、虚拟资源状态特征和逆选择特征,身体状态特征用于表示帐号所对应的人的身体状态,虚拟资源状态特征用于表示帐号所对应的人具有和/或使用虚拟资源的状态,逆选择特征用于表示帐号所对应的人在第一预定时间段内执行的属于第一目标类型的操作。其中,第一目标类型的操作可以包括但不限于上述帐号曾出现过的欺诈或隐瞒的操作。
可选地,在本实施例中,在输出待处理的帐号对应的概率结果之后,还可以包括但不限于:向待处理的帐号发送与概率结果对应的用于邀请执行目标事件的信息,其中,概率结果所表示的概率被划分为多个概率组,不同的概率组对应于不同的目标事件,或者,对应于相同的目标事件的不同信息。例如,上述不同的目标事件可以包括但不限于:根据概率向不同帐号推送不同的保险信息,例如,概率较大的,推送保险广告;概率位于中间的,推送优惠券和保险广告,概率较低的,推送保费高的保险广告。上述仅是一种示例,本实施例中对此不做任何限定。
通过本申请提供的实施例,在获取到待处理的帐号的特征信息之后,使用目标集成树模型对上述待处理的帐号的特征信息进行处理,以得到目标集成树模型输出的概率结果,该概率结果用于表示待处理的帐号为预估的执行目标事件的帐号的概率,并输出上述待处理的帐号对应的概率结果。也就是说,利用目标集成树模型对获取到的待处理的帐号的特征信息进行处理,以确定待处理的帐号为预估的执行目标事件的帐号的概率,从而实现对待处理的帐号进行准确地分类处理,便于针对大量的帐号可以快速确定出对应的有效转化率。换言之,通过目标集成树模型可以提高对获取到的待处理的帐号的特征信息进行处理的效率,进而克服相关帐号处理技术存在的处理效率较低的问题。
作为一种可选的方案,还包括:
1)发送单元,用于在输出待处理的帐号对应的概率结果之后,向待处理的帐号发送与概率结果对应的用于邀请执行目标事件的信息,其中,概率结果所表示的概率被划分为多个概率组,不同的概率组对应于不同的目标事件,或者,对应于相同的目标事件的不同信息。
可选地,在本实施例中,在待处理的帐号的特征信息为通过保险渠道供应商提供的保险帐号的特征信息的情况下,上述目标事件可以包括但不限于为保险帐号可执行的不同保险等级的保险业务,对应的信息可以包括但不限于:保险业务的广告、保险业务的优惠券等。
可选地,在本实施例中,发送单元包括:
(1)第一划分模块,用于将概率结果所表示的概率中的至少部分概率划分为第一概率组,其中,第一概率组包括概率结果所表示的概率中按从大到小排列后的前N个概率,N为自然数;向待处理的帐号中与前N 个概率对应的帐号发送用于邀请执行第一目标事件的第一信息,其中,目标事件包括第一目标事件;和/或
(2)第二划分模块,用于将概率结果所表示的概率中的至少部分概率划分为第二概率组,其中,第二概率组中的概率均小于第一概率组中的概率;向待处理的帐号中与第二概率组中的概率对应的帐号发送用于邀请执行第一目标事件的第二信息,或者,发送用于邀请执行第二目标事件的第三信息,其中,目标事件包括第二目标事件。
例如,假设上述帐号处理方法应用于保险应用场景,通过保险渠道的数据采集接口来获取待处理的保险帐号的特征信息,以便于对该保险帐号进行处理,得到目标集成树模型输出的概率结果。其中,不同的概率结果所表示的概率可以但不限于划分为多个概率组,不同的概率组可以对应不同的目标事件或相同目标事件的不同信息。
进一步,假设将概率按照从大到小划分为多个概率组,其中包括第一概率组和第二概率组,第二概率组中的概率均小于第一概率组中的概率。假设为不同概率组发送用于邀请执行不同目标事件的信息信息,如向第一概率组中前N个概率对应的帐号,发送用于邀请参加高额保险业务(如第一目标事件)的邀请信息Info1,其中,该邀请信息Info1可以但不限于携带有优惠信息,如优惠1000元。而向第二概率组中的概率对应的帐号,发送的也是用于邀请参加高额保险业务(如第一目标事件)的邀请信息 Info2,其中,该邀请信息Info1可以但不限于携带有优惠信息,如优惠500 元。又例如,也可以向第二概率组中的概率对应的帐号,发送的是用于推荐介绍保险业务(如第二目标事件)的广告信息Info3,其中,该广告信息Info3可以但不限于携带有上述保险业务的相关投保具体的业务信息,如回报率、风险率等。
通过本申请提供的实施例,在输出待处理的帐号对应的概率结果之后,可以向待处理的帐号发送与概率结果所表示的不同的概率组对应不同的目标事件,或者与概率结果所表示的不同的概率组对应的相同的目标事件的不同信息。从而实现利用目标集成树模型输出的概率结果,针对不同帐号的特征信息,实现对帐号的精准分类,提高帐号的有效转化率,增加产能。
作为一种可选的方案,处理单元1204包括:
1)处理模块,用于对待处理的帐号的特征信息进行归一化处理,得到归一化信息;
2)确定模块,用于使用目标集成树模型对归一化信息进行概率确定,得到概率结果,其中,目标集成树模型中包括多个决策树,概率结果是根据多个决策树中的叶子节点对应的预测分值得到的。
可选地,为了降低不同特征的取值范围相差很大所带来的影响,加快梯度下降求得最优解的速度或者提高精度,在本实施例中可以但不限于对待处理的帐号的特征信息进行归一化处理可,处理方式包括以下之一:
1)线性归一化(Rescaling):归一化到[0,1]或[-1,1],用类似方式:
其中,max代表着变量值x的最大值,min代表着变量值x的最小值。通过利用变量值x的最大值和最小值,将原始数据转换为界于某一特定范围的数据,从而消除量纲和数量级影响,改变变量在分析中的权重来解决不同度量的问题。这种归一化方法比较适用在数值比较集中的情况。在本实施例中,可以但不限于利用经验常量值来替代上述公开(9)中的max 和min。
2)均值方差归一法(standardization):
其中,μ为所有样本数据的均值,α为所有样本数据的标准差。即每一变量值与其平均值之差,除以该变量值的标准差。虽然该方法在无量纲化过程中利用了所有的数据信息,但是该方法在无量纲化后,不仅使得转换后的各变量均值相同,且标准差也相同,即无量纲化的同时还消除了各变量在变异程度上的差异,从而转换后的各变量在聚类分析中的重要性程度是同等看待的。经过处理的数据符合标准正态分布,即均值为0,标准差为1。适用于数据分布没有明显边界,有可能存在极端数据值。
3)单位长度归一化(Scaling to unit length):归一化到单位长度向量
其中,||x||为向量的欧拉长度(the Euclidean length of the vector),二维范数。
4)非线性归一化/函数归一化:
经常用在数据分化比较大的场景。通过一些数学函数,将原始值进行映射。该数学函数可以包括但不限于以下函数:log、指数、正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如log(V,2)、log(V,10) 等。
5)排序归一化:
将特征按大小排序,根据特征所对应的序给予一个新的值。
可选地,在本实施例中,确定模块包括:
(1)输入子模块,用于将待处理的帐号中的每个帐号的特征信息对应的归一化信息输入到多个决策树,以获取每个帐号在多个决策树中的叶子节点上对应的预测分值;
(2)运算子模块,用于将预测分值进行预定的逻辑运算,得到每个帐号为第二目标类型的帐号的概率。
例如,假设上述目标集成树模型采用集成树模型lightGBM。该集成树模型lightGBM包括多个决策树,根据多个决策树中的叶子节点对应的预测分值得到上述概率结果。如图5(a)所示,假设获取到5个帐号的特征信息,如该特征信息包括年龄、性别、职业等,利用上述目标集成树模型对上述帐号的特征信息进行处理,如图5(b)所示,判断年龄是否<15?性别是否为男性?…最终得到输出的预测分值:如男孩得到分值为+2,女孩得到分值为+0.1,其他人得到分值为-1。进一步,利用上述各个叶子节点对应的预测分值进行预定的逻辑运算,从而得到对应的概率结果。
需要说明的是,在本实施例中,集成树模型LightGBM支持类别特征。相关技术中大多数机器学习工具都无法直接支持类别特征,往往需要把类别特征,转化one-hotting特征,但却降低了空间和时间的效率。而类别特征的使用是在实践中很常用的。基于这一点,本实施例中采用的集成树模型LightGBM优化了对类别特征的支持,可以直接输入类别特征。并在决策树算法上增加了类别特征的决策规则。
此外,在本实施例中,集成树模型LightGBM可以但不限于调整以下参数:
1)num_leaves(叶子节点数量):
集成树模型LightGBM使用的是Leaf-wise的算法,因此在调节树的复杂程度时,使用的是num_leaves(叶子节点数量)而不是max_depth(最大深度)。
2)样本分布非平衡数据集:可以param[‘is_unbalance’]=’true’;
3)Bagging参数:
bagging_fraction+bagging_freq(必须同时设置)、feature_fraction。bagging_fraction可以使bagging的更快的运行出结果,
feature_fraction设置在每次迭代中使用特征的比例;
4)min_data_in_leaf、min_sum_hessian_in_leaf:调大值可以防止过拟合,它的值通常设置的比较大。
再者,在本实施例中,采用sklearn接口形式的集成树模型LightGBM。这里主要以sklearn的使用形式来使用lightgbm算法,包含建模、训练、预测、网格参数优化等。
通过本申请提供的实施例,在对帐号的特征信息进行归一化处理之后,将其输入到目标集成树模型中的多个决策树,利用决策树的一系列条件耦合的逻辑决策路径来分析上述特征信息,得到预测分值,进一步,根据预测分值的逻辑运算结果,来得到帐号为执行目标事件的帐号的概率,而无需再经过复杂的处理操作,从而达到提高帐号处理效率的效果。
作为一种可选的方案,上述装置还包括:
1)第二获取单元,用于在获取待处理的帐号的特征信息之前,获取样本帐号的特征信息和概率信息,其中,样本帐号的特征信息包括的身体状态特征用于表示样本帐号所对应的人的身体状态,样本帐号的特征信息包括的虚拟资源状态特征用于表示样本帐号所对应的人具有和/或使用虚拟资源的状态,样本帐号的特征信息包括的逆选择特征用于表示样本帐号所对应的人在第二预定时间段内执行的属于第一目标类型的操作,概率信息用于表示样本帐号为第二目标类型的帐号的概率;
2)训练单元,用于使用样本帐号的特征信息和概率信息对初始集成树模型进行训练,得到目标集成树模型,其中,目标集成树模型用于确定待处理的帐号为第二目标类型的帐号的概率。
可选地,在本实施例中,获取样本帐号的特征信息可以包括但不限于:通过渠道供应商的数据采集提取接口,获取各个待处理的样本帐号的帐号数据,其中,对加密数据再进行脱敏处理,最后经过去噪处理后传递至后台,以便于后台提取出样本帐号的特征信息。其中,上述处理过程可以包括但不限于:
(1)按照预定周期收集各个渠道的引流数据(x)及相应成交率(y);
(2)剔除节假日等非常规时间(保持分布一致);
(3)只收集触达次数<=T的处理数据(减少噪音);
(4)去除不同城市、不同商圈、不同品类的差别的影响。
也就是说,通过上述处理过程来使得特征信息本身的分布尽量一致,针对不一致的特征信息可以进行归一化处理,也可以将分布不一致的因素作为特征,也可以根据场景拆分为不同问题,然后对各类别问题单独训练模型。
需要说明的是,为了保证训练的准确性,在本实施例中,用于训练的训练集中的样本帐号可以尽量用近期的帐号数据进行训练预测,而历史数据可以但不限于配置不同权重来应用到初始集成树模型进行训练,其中,距离当前越远的历史数据可以但不限于配置越小的权重。
此外,在本实施例中,可以但不限于采用一些简单规则来剔除样本帐号中出现的噪音负例。例如,将样本帐号中没有看到或者取关的业务内容作为负例。
进一步,由于采样有使实际数据分布发生变化的可能。比如,仍以保险业务为例进行说明:A、转化率问题中,如果只取只有一个险种的数据进行预估,则对于多险种的问题无法很好预估。应该保证一个险种的和多个险种的数据都有;B、无客观数据的二分类问题,用规则来获得正/负例,而规则对正/负例的覆盖不全面。这时,应该随机抽样数据,进行人工标注,实现合理采样,确保样本数据和实际数据分布一致。
可选地,在本实施例中,在使用所述样本帐号的特征信息和概率信息对初始集成树模型进行训练之前,还可以包括:构建初始集成树模型。
需要说明的是,数据和特征决定了机器学习的上限,而模型和算法用于逼近这个上限。所以提取和业务相关的特征是模型构建的重中之重。完成样本数据的提取后,就需要抽取特征并做特征的二次加工,即,完成输入空间到特征空间的转换。例如,仍以保险业务为例进行说明,图7中的特征信息就是基于互金数据制作的保险行业特征库。
上述初始集成树模型的构建过程可以包括但不限于如下内容:
模型,是机器学习中的一个重要概念,简单的讲,指特征空间到输出空间的映射;一般由模型的假设函数和参数ω组成(下方公式(6)就是 LR模型的一种表达);一个模型的假设空间(hypothesis space),指给定模型所有可能ω对应的输出空间组成的集合。工业界常用的模型有逻辑回归 (Logistic Regression,简称LR)模型、梯度提升树(GradientBoosting Decision Tree,简称GBDT)模型、轻量梯度增强机(Light Gradient BoostingMachine,简称Light GBM)支持向量机(Support Vector Machine,简称 SVM)模型、深度神经网络(Deep Neural Network,简称DNN)模型等。
这里模型训练就是基于训练数据,获得一组参数ω,使得特定目标最优,即获得了特征空间到输出空间的最优映射。
为了确定本实施例中的模型,可以但不限于考虑以下条件:“1)可以解决排序或回归问题;2)已经自己实现了算法,经常使用,而且效果很好;3)支持海量数据;4)工业界广泛使用”。针对满足上述条件的LR 模型和lightGBM模型进行了以下对比:
I.LR是广义线性模型,使用了Logit变换将函数值映射到0~1区间,映射后的函数值就是问题预估值。LR可解释性强,是金融领域惯用的评分算法。此外,这种线性模型很容易并行化,可以很轻松的处理上亿条训练样本。但线性模型学习能力有限,需要大量特征工程预先分析出有效的特征、特征组合,以便间接增强LR的非线性学习能力。由于LR模型中的特征组合很关键,但又无法直接通过特征笛卡尔积解决,只能依靠人工经验,耗时耗力同时并不一定会带来效果提升。
II.GBDT是一种常用的非线性模型,它基于集成学习中的boosting 思想,每次迭代都在减少残差的梯度方向新建立一颗决策树,迭代多少次就会生成多少颗决策树。GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。然而对于这类基于树的模型,最耗时的部分就是在进行特征选择结点分裂时,需要遍历所有可能的划分点,计算信息增益,从而找到最优的划分点。如集成树模型LightGBM,极大地提升了计算效率。在模型精度和GBDT模型差不多的情况下,其训练速度比 GBDT模型快了20倍。LightGBM最大的优点,就是在解决了GBDT计算效率的问题的同时,还能保证模型的精度。
在本实施例中,为了实现保险行业网点产能提升场景下,需要面向各公司各场景定制化建模,关注模型效果和模型构建速度,但不太关注模型可解释性。因而,为了满足多场景多产品的灵活建模,缩短建模周期,降低模型过拟合,最终确定采用集成树模型LightGBM作为本实施例中的初始集成树模型。
可选地,在本实施例中,对初始集成树模型进行训练可以但不限于采用离线训练系统,也可以线上训练系统。
例如,如图8所示为离线训练系统,该系统由数据层和模型层两部分组成。鉴于互联网数据具有高覆盖和高频性,传统数据库已经无法满足存储要求,T级P级的互金数据存储于Hadoop分布式服务器。离线训练的流程为,首先通过Hive引擎从Hadoop分布式服务器中提取并加工训练、测试、验证及盲测样本的千维历史特征数据;对数据进行去重处理、缺失值处理、归一化处理后,输入到离线的初始集成树模型训练引擎进行模型训练;在初始集成树模型训练的同时加入人工参数调优,并根据场景确定适用的模型评估标准,选择该标准下的最优模型。
又例如,如图9所示为线上训练系统,该系统由模型层和应用层组成,模型层包括模型部署平台、队列管理平台和kv(key-value,简称kv)缓存存储服务器,应用层主要是负责商户管理、应用管理和模型管理的服务接入系统。具体线上应用部署内容包括:搭建模型部署平台,部署离线训练的模型文件,并将模型需要的用户特征刷入kv服务器,搭建服务接入应用系统以便实现商户管理、模型管理以及实时访问查询时的多线程队列应用管理,根据访问时的任务流打通从商户接入、服务接入到模型部署到 kv服务器的模型查询全流程。
可选地,在本实施例中,在构建完初始集成树模型之后,在采用在线训练的情况下,需进行模型部署,再开始使用样本帐号的特征信息和概率信息对初始集成树模型进行训练,得到目标集成树模型。其中,上述模型部署方式可以包括但不限于以下两种方式:
1)离线计算出全盘用户的模型分,将全盘用户的模型分刷入线上的 kv(key-value,简称kv)缓存存储服务器,数据接口访问的时候,根据查询key直接回吐用户的模型分,这种方式可以节省kv服务器的存储空间。但是每次模型迭代优化都需要全盘用户跑一次模型,然后将全盘用户的模型分重新刷入kv服务器。这种方式适用于模型迭代调整不频繁、对kv缓存存储服务成本更敏感的场景;
2)将用户模型需要的特征刷入kv缓存存储服务器,搭建模型部署平台部署模型文件,数据接口访问的时候,根据用户输入的key来查询各维特征信息,根据部署的模型文件实时计算回吐模型分。此种方式适用于模型需要频繁调优迭代、对kv服务器的存储空间不敏感的场景。
比对上述两种鉴于模型部署方式,针对保险场景需要持续优化迭代模型的需求,本实施例可以但不限于采用第2)中模型部署方式。
进一步,在本实施例中,可以但不限于采用ABTest灰度上线的方式来对比评测模型效果。ABTest本身其实是物理学的“控制变量法”,通过只改变一个因素来确定其变化对转化率(conversion rate,简称CR)或者收益的影响。如图10所示,可以理解为将一群人分成两类,通过展示新旧版本A/版本B来测试哪种版本效果好,差异是多少。
通过本申请提供的实施例,在合理采集到样本帐号的特征信息和预先标注的概率信息之后,再使用样本帐号的特征信息和概率信息对初始集成树模型进行训练,以得到目标集成树模型,从而实现利用该目标集成树模型来待处理的帐号进行处理,以提高帐号处理的效率和准确性。
作为一种可选的方案,第一获取单元1202包括:
1)第一获取模块,用于获取第三方设备发送的帐号处理请求,其中,帐号处理请求中携带有待处理的帐号的帐号标识;
2)第二获取模块,用于在数据库中获取与帐号标识对应的待处理的帐号的特征信息,其中,第三方设备被设置为不允许对数据库进行操作,或者,数据库被设置为对第三方设备不可见。
需要说明的是,在本实施例中,很多帐号数据中携带的特征信息往往涉及用户的私密信息,常常是加密处理的信息。为了便于在本实施例中应用,在提高帐号处理效率的同时,保障用户的数据安全,可以但不限于对获取到的特征信息进行脱敏处理。例如,在指定的数据库中存储,去除用户敏感信息,而对渠道供应商屏蔽,使其无法看见或无法操作。
例如,图11示出帐号A采用帐号处理方法之后的效果图。以3个月转化周期的10万投放用户样本作为盲测数据,采用上述模型获取输出的概率结果。图11所示为帐号A采用上述模型得到的混淆矩阵分析结果,有效提高网点产能,使其投放的网点效率改进至约2.5倍。
通过本申请提供的实施例,在获取到第三方设备发送的帐号处理请求之后,在数据库中对上述装好处理请求所指示的帐号标识对应的待处理帐号进行脱敏处理,使其被设置为不允许对数据库进行操作,或者,数据库被设置为对第三方设备不可见。从而达到保证帐号处理安全性的目的。
根据本发明实施例的又一个方面,还提供了一种用于实施上述帐号处理方法的电子装置,如图13所示,该电子装置包括存储器1302和处理器 1304,该存储器1302中存储有计算机程序,该处理器1304被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待处理的帐号的特征信息,其中,特征信息包括:身体状态特征、虚拟资源状态特征和逆选择特征,身体状态特征用于表示帐号所对应的人的身体状态,虚拟资源状态特征用于表示帐号所对应的人具有和/ 或使用虚拟资源的状态,逆选择特征用于表示帐号所对应的人在第一预定时间段内执行的属于第一目标类型的操作;
S2,使用目标集成树模型对待处理的帐号的特征信息进行处理,得到目标集成树模型输出的概率结果,其中,概率结果用于表示待处理的帐号为第二目标类型的帐号的概率,第二目标类型的帐号为预估的执行目标事件的帐号,属于第一目标类型的操作用于使得目标集成树模型输出的概率降低;
S3,输出待处理的帐号对应的概率结果。
可选地,本领域普通技术人员可以理解,图13所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图13其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图13中所示更多或者更少的组件(如网络接口等),或者具有与图13所示不同的配置。
其中,存储器1302可用于存储软件程序以及模块,如本发明实施例中的帐号处理方法和装置对应的程序指令/模块,处理器1304通过运行存储在存储器1302内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的帐号处理方法。存储器1302可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1302可进一步包括相对于处理器1304远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1302具体可以但不限于用于存储待处理的帐号的特征信息和概率结果等信息。作为一种示例,如图13所示,上述存储器1302中可以但不限于包括上述帐号处理装置中的第一获取单元1202、处理单元1204及输出单元1206。此外,还可以包括但不限于上述帐号处理装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1306包括一个网络适配器(NetworkInterfaceController,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1306为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器1308,用于显示上述待处理的帐号的特征信息和概率结果;和连接总线1310,用于连接上述电子装置中的各个模块部件。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待处理的帐号的特征信息,其中,特征信息包括:身体状态特征、虚拟资源状态特征和逆选择特征,身体状态特征用于表示帐号所对应的人的身体状态,虚拟资源状态特征用于表示帐号所对应的人具有和/ 或使用虚拟资源的状态,逆选择特征用于表示帐号所对应的人在第一预定时间段内执行的属于第一目标类型的操作;
S2,使用目标集成树模型对待处理的帐号的特征信息进行处理,得到目标集成树模型输出的概率结果,其中,概率结果用于表示待处理的帐号为第二目标类型的帐号的概率,第二目标类型的帐号为预估的执行目标事件的帐号,属于第一目标类型的操作用于使得目标集成树模型输出的概率降低;
S3,输出待处理的帐号对应的概率结果。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-OnlyMemory,ROM)、随机存取器 (RandomAccessMemory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种帐号处理方法,其特征在于,包括:
获取待处理的帐号的特征信息,其中,所述特征信息包括:身体状态特征、虚拟资源状态特征和逆选择特征,所述身体状态特征用于表示所述帐号所对应的人的身体状态,所述虚拟资源状态特征用于表示所述帐号所对应的人具有和/或使用虚拟资源的状态,所述逆选择特征用于表示所述帐号所对应的人在第一预定时间段内执行的属于第一目标类型的操作;
使用目标集成树模型对所述待处理的帐号的特征信息进行处理,得到所述目标集成树模型输出的概率结果,其中,所述概率结果用于表示所述待处理的帐号为第二目标类型的帐号的概率,所述第二目标类型的帐号为预估的执行目标事件的帐号,所述属于第一目标类型的操作用于使得所述目标集成树模型输出的所述概率降低;
输出所述待处理的帐号对应的所述概率结果。
2.根据权利要求1所述的方法,其特征在于,在输出所述待处理的帐号对应的所述概率结果之后,还包括:
向所述待处理的帐号发送与所述概率结果对应的用于邀请执行所述目标事件的信息,其中,所述概率结果所表示的概率被划分为多个概率组,不同的所述概率组对应于不同的所述目标事件,或者,对应于相同的所述目标事件的不同所述信息。
3.根据权利要求2所述的方法,其特征在于,向所述待处理的帐号发送与所述概率结果对应的用于邀请执行所述目标事件的信息包括:
将所述概率结果所表示的概率中的至少部分概率划分为第一概率组,其中,所述第一概率组包括所述概率结果所表示的概率中按从大到小排列后的前N个概率,N为自然数;向所述待处理的帐号中与所述前N个概率对应的帐号发送用于邀请执行第一目标事件的第一信息,其中,所述目标事件包括所述第一目标事件;和/或
将所述概率结果所表示的概率中的至少部分概率划分为第二概率组,其中,所述第二概率组中的概率均小于所述第一概率组中的概率;向所述待处理的帐号中与所述第二概率组中的概率对应的帐号发送用于邀请执行所述第一目标事件的第二信息,或者,发送用于邀请执行第二目标事件的第三信息,其中,所述目标事件包括所述第二目标事件。
4.根据权利要求1所述的方法,其特征在于,使用目标集成树模型对所述待处理的帐号的特征信息进行处理包括:
对所述待处理的帐号的特征信息进行归一化处理,得到归一化信息;
使用所述目标集成树模型对所述归一化信息进行概率确定,得到所述概率结果,其中,所述目标集成树模型中包括多个决策树,所述概率结果是根据所述多个决策树中的叶子节点对应的预测分值得到的。
5.根据权利要求4所述的方法,其特征在于,使用所述目标集成树模型对所述归一化信息进行概率确定包括:
将所述待处理的帐号中的每个帐号的特征信息对应的所述归一化信息输入到所述多个决策树,以获取所述每个帐号在所述多个决策树中的叶子节点上对应的预测分值;
将所述预测分值进行预定的逻辑运算,得到所述每个帐号为所述第二目标类型的帐号的概率。
6.根据权利要求1所述的方法,其特征在于,在获取待处理的帐号的特征信息之前,所述方法还包括:
获取样本帐号的特征信息和概率信息,其中,所述样本帐号的特征信息包括的身体状态特征用于表示所述样本帐号所对应的人的身体状态,所述样本帐号的特征信息包括的虚拟资源状态特征用于表示所述样本帐号所对应的人具有和/或使用虚拟资源的状态,所述样本帐号的特征信息包括的逆选择特征用于表示所述样本帐号所对应的人在第二预定时间段内执行的属于所述第一目标类型的操作,所述概率信息用于表示所述样本帐号为所述第二目标类型的帐号的概率;
使用所述样本帐号的特征信息和概率信息对初始集成树模型进行训练,得到所述目标集成树模型,其中,所述目标集成树模型用于确定所述待处理的帐号为所述第二目标类型的帐号的概率。
7.根据权利要求1至6中任一项所述的方法,其特征在于,获取待处理的帐号的特征信息包括:
获取第三方设备发送的帐号处理请求,其中,所述帐号处理请求中携带有所述待处理的帐号的帐号标识;
在数据库中获取与所述帐号标识对应的所述待处理的帐号的特征信息,其中,所述第三方设备被设置为不允许对所述数据库进行操作,或者,所述数据库被设置为对所述第三方设备不可见。
8.一种帐号处理装置,其特征在于,包括:
第一获取单元,用于获取待处理的帐号的特征信息,其中,所述特征信息包括:身体状态特征、虚拟资源状态特征和逆选择特征,所述身体状态特征用于表示所述帐号所对应的人的身体状态,所述虚拟资源状态特征用于表示所述帐号所对应的人具有和/或使用虚拟资源的状态,所述逆选择特征用于表示所述帐号所对应的人在第一预定时间段内执行的属于第一目标类型的操作;
处理单元,用于使用目标集成树模型对所述待处理的帐号的特征信息进行处理,得到所述目标集成树模型输出的概率结果,其中,所述概率结果用于表示所述待处理的帐号为第二目标类型的帐号的概率,所述第二目标类型的帐号为预估的执行目标事件的帐号,所述属于第一目标类型的操作用于使得所述目标集成树模型输出的所述概率降低;
输出单元,用于输出所述待处理的帐号对应的所述概率结果。
9.根据权利要求8所述的装置,其特征在于,还包括:
发送单元,用于在输出所述待处理的帐号对应的所述概率结果之后,向所述待处理的帐号发送与所述概率结果对应的用于邀请执行所述目标事件的信息,其中,所述概率结果所表示的概率被划分为多个概率组,不同的所述概率组对应于不同的所述目标事件,或者,对应于相同的所述目标事件的不同所述信息。
10.根据权利要求9所述的装置,其特征在于,所述发送单元包括:
第一划分模块,用于将所述概率结果所表示的概率中的至少部分概率划分为第一概率组,其中,所述第一概率组包括所述概率结果所表示的概率中按从大到小排列后的前N个概率,N为自然数;第一发送模块,用于向所述待处理的帐号中与所述前N个概率对应的帐号发送用于邀请执行第一目标事件的第一信息,其中,所述目标事件包括所述第一目标事件;和/或
第二划分模块,用于将所述概率结果所表示的概率中的至少部分概率划分为第二概率组,其中,所述第二概率组中的概率均小于所述第一概率组中的概率;第二发送模块,用于向所述待处理的帐号中与所述第二概率组中的概率对应的帐号发送用于邀请执行所述第一目标事件的第二信息,或者,发送用于邀请执行第二目标事件的第三信息,其中,所述目标事件包括所述第二目标事件。
11.根据权利要求8所述的装置,其特征在于,所述处理单元包括:
处理模块,用于对所述待处理的帐号的特征信息进行归一化处理,得到归一化信息;
确定模块,用于使用所述目标集成树模型对所述归一化信息进行概率确定,得到所述概率结果,其中,所述目标集成树模型中包括多个决策树,所述概率结果是根据所述多个决策树中的叶子节点对应的预测分值得到的。
12.根据权利要求11所述的装置,其特征在于,所述确定模块包括:
输入子模块,用于将所述待处理的帐号中的每个帐号的特征信息对应的所述归一化信息输入到所述多个决策树,以获取所述每个帐号在所述多个决策树中的叶子节点上对应的预测分值;
运算子模块,用于将所述预测分值进行预定的逻辑运算,得到所述每个帐号为所述第二目标类型的帐号的概率。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于在获取待处理的帐号的特征信息之前,获取样本帐号的特征信息和概率信息,其中,所述样本帐号的特征信息包括的身体状态特征用于表示所述样本帐号所对应的人的身体状态,所述样本帐号的特征信息包括的虚拟资源状态特征用于表示所述样本帐号所对应的人具有和/或使用虚拟资源的状态,所述样本帐号的特征信息包括的逆选择特征用于表示所述样本帐号所对应的人在第二预定时间段内执行的属于所述第一目标类型的操作,所述概率信息用于表示所述样本帐号为所述第二目标类型的帐号的概率;
训练单元,用于使用所述样本帐号的特征信息和概率信息对初始集成树模型进行训练,得到所述目标集成树模型,其中,所述目标集成树模型用于确定所述待处理的帐号为所述第二目标类型的帐号的概率。
14.一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的方法。
15.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
CN201910194346.2A 2019-03-14 2019-03-14 帐号处理方法和装置、存储介质及电子装置 Active CN110147389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910194346.2A CN110147389B (zh) 2019-03-14 2019-03-14 帐号处理方法和装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910194346.2A CN110147389B (zh) 2019-03-14 2019-03-14 帐号处理方法和装置、存储介质及电子装置

Publications (2)

Publication Number Publication Date
CN110147389A true CN110147389A (zh) 2019-08-20
CN110147389B CN110147389B (zh) 2023-09-26

Family

ID=67588166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910194346.2A Active CN110147389B (zh) 2019-03-14 2019-03-14 帐号处理方法和装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN110147389B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728317A (zh) * 2019-09-30 2020-01-24 腾讯科技(深圳)有限公司 决策树模型的训练方法、系统、存储介质及预测方法
CN110910257A (zh) * 2019-11-15 2020-03-24 泰康保险集团股份有限公司 信息预测方法、装置、电子设备和计算机可读介质
CN110991789A (zh) * 2019-10-17 2020-04-10 腾讯科技(深圳)有限公司 置信区间的确定方法和装置、存储介质及电子装置
CN111737575A (zh) * 2020-06-19 2020-10-02 北京字节跳动网络技术有限公司 内容分发方法、装置、可读介质及电子设备
CN111932147A (zh) * 2020-09-02 2020-11-13 平安国际智慧城市科技股份有限公司 指标统筹的可视化方法、装置、电子设备及存储介质
CN113011886A (zh) * 2021-02-19 2021-06-22 腾讯科技(深圳)有限公司 帐号类型的确定方法和装置及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091550A1 (en) * 2000-06-29 2002-07-11 White Mitchell Franklin System and method for real-time rating, underwriting and policy issuance
JP2013109702A (ja) * 2011-11-24 2013-06-06 Sumitomo Mitsui Banking Corp 資金を移動するためのデータを生成する方法、システム及びプログラム
US20170083920A1 (en) * 2015-09-21 2017-03-23 Fair Isaac Corporation Hybrid method of decision tree and clustering technology
US20170316514A1 (en) * 2016-04-27 2017-11-02 Linkedin Corporation Job applicant quality model
CN107885889A (zh) * 2017-12-13 2018-04-06 聚好看科技股份有限公司 搜索结果的反馈方法、展示方法及装置
CN108335008A (zh) * 2017-12-13 2018-07-27 腾讯科技(深圳)有限公司 网络信息处理方法和装置、存储介质及电子装置
CN109165983A (zh) * 2018-09-04 2019-01-08 中国平安人寿保险股份有限公司 保险产品推荐方法、装置、计算机设备和存储介质
CN109447658A (zh) * 2018-09-10 2019-03-08 平安科技(深圳)有限公司 反欺诈模型的生成及应用方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091550A1 (en) * 2000-06-29 2002-07-11 White Mitchell Franklin System and method for real-time rating, underwriting and policy issuance
JP2013109702A (ja) * 2011-11-24 2013-06-06 Sumitomo Mitsui Banking Corp 資金を移動するためのデータを生成する方法、システム及びプログラム
US20170083920A1 (en) * 2015-09-21 2017-03-23 Fair Isaac Corporation Hybrid method of decision tree and clustering technology
US20170316514A1 (en) * 2016-04-27 2017-11-02 Linkedin Corporation Job applicant quality model
CN107885889A (zh) * 2017-12-13 2018-04-06 聚好看科技股份有限公司 搜索结果的反馈方法、展示方法及装置
CN108335008A (zh) * 2017-12-13 2018-07-27 腾讯科技(深圳)有限公司 网络信息处理方法和装置、存储介质及电子装置
CN109165983A (zh) * 2018-09-04 2019-01-08 中国平安人寿保险股份有限公司 保险产品推荐方法、装置、计算机设备和存储介质
CN109447658A (zh) * 2018-09-10 2019-03-08 平安科技(深圳)有限公司 反欺诈模型的生成及应用方法、装置、设备及存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728317A (zh) * 2019-09-30 2020-01-24 腾讯科技(深圳)有限公司 决策树模型的训练方法、系统、存储介质及预测方法
CN110991789A (zh) * 2019-10-17 2020-04-10 腾讯科技(深圳)有限公司 置信区间的确定方法和装置、存储介质及电子装置
CN110991789B (zh) * 2019-10-17 2021-09-24 腾讯科技(深圳)有限公司 置信区间的确定方法和装置、存储介质及电子装置
CN110910257A (zh) * 2019-11-15 2020-03-24 泰康保险集团股份有限公司 信息预测方法、装置、电子设备和计算机可读介质
CN111737575A (zh) * 2020-06-19 2020-10-02 北京字节跳动网络技术有限公司 内容分发方法、装置、可读介质及电子设备
CN111737575B (zh) * 2020-06-19 2023-11-14 北京字节跳动网络技术有限公司 内容分发方法、装置、可读介质及电子设备
CN111932147A (zh) * 2020-09-02 2020-11-13 平安国际智慧城市科技股份有限公司 指标统筹的可视化方法、装置、电子设备及存储介质
CN113011886A (zh) * 2021-02-19 2021-06-22 腾讯科技(深圳)有限公司 帐号类型的确定方法和装置及电子设备
CN113011886B (zh) * 2021-02-19 2023-07-14 腾讯科技(深圳)有限公司 帐号类型的确定方法和装置及电子设备

Also Published As

Publication number Publication date
CN110147389B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CA3092306C (en) Method and system of dynamic model selection for time series forecasting
CN110147389A (zh) 帐号处理方法和装置、存储介质及电子装置
CN107766929B (zh) 模型分析方法及装置
KR102046501B1 (ko) 창업 기업 진단에 기반한 가치 평가 및 육성 지원을 위한 서비스 제공 장치 및 방법
CN108898476A (zh) 一种贷款客户信用评分方法和装置
CN110956273A (zh) 融合多种机器学习模型的征信评分方法及系统
CN108629413A (zh) 神经网络模型训练、交易行为风险识别方法及装置
CN103514566A (zh) 一种风险控制系统及方法
CN108388974A (zh) 基于随机森林和决策树的优质客户优化识别方法及装置
CN108921702A (zh) 基于大数据的园区招商方法及装置
CN104346698A (zh) 基于云计算和数据挖掘的餐饮会员大数据分析和考核系统
CN110310114A (zh) 对象分类方法、装置、服务器及存储介质
CN111192133A (zh) 用户贷后风险模型生成方法、装置及电子设备
CN111199469A (zh) 用户还款模型生成方法、装置及电子设备
CN113469730A (zh) 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置
CN114078050A (zh) 贷款逾期预测方法、装置、电子设备及计算机可读介质
CN111882420A (zh) 响应率的生成方法、营销方法、模型训练方法及装置
CN108459997A (zh) 基于深度学习和神经网络的高偏态数据价值概率预测方法
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
Velu et al. Performance analysis for visual data mining classification techniques of decision tree, ensemble and SOM
CN109767333A (zh) 选基方法、装置、电子设备及计算机可读存储介质
Jiao et al. An integration model for generating and selecting product configuration plans
CN113449923A (zh) 一种多模型标的物行情预测方法和装置
CN114757786A (zh) 数据的预测方法、装置、电子设备及计算机可读介质
Akbaş et al. Predicting newspaper sales by using data mining techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant