CN116976618A - 数据处理方法、装置、计算机设备及计算机可读存储介质 - Google Patents
数据处理方法、装置、计算机设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116976618A CN116976618A CN202310956656.XA CN202310956656A CN116976618A CN 116976618 A CN116976618 A CN 116976618A CN 202310956656 A CN202310956656 A CN 202310956656A CN 116976618 A CN116976618 A CN 116976618A
- Authority
- CN
- China
- Prior art keywords
- priority
- classification model
- target object
- sample
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 24
- 238000003672 processing method Methods 0.000 title abstract description 23
- 238000013145 classification model Methods 0.000 claims abstract description 149
- 238000000034 method Methods 0.000 claims abstract description 76
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims description 65
- 238000004590 computer program Methods 0.000 claims description 17
- 238000002790 cross-validation Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 description 61
- 241000283153 Cetacea Species 0.000 description 53
- 238000012360 testing method Methods 0.000 description 18
- 238000004422 calculation algorithm Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 6
- 238000007635 classification algorithm Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000013468 resource allocation Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000037351 starvation Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种数据处理方法、装置、计算机设备及计算机可读存储介质,其中,所述方法包括:一种数据处理方法,其中,包括:获取资源池的资源信息及至少一个目标对象的指定属性信息;利用目标分类模型,确定每一所述目标对象的指定属性信息对应的权重,并基于所述指定属性信息对应的权重确定每一所述目标对象对应的优先级;基于每一所述目标对象的指定属性信息和对应的优先级,从所述资源池的资源信息中确定为每一所述目标对象分配的资源信息。
Description
技术领域
本申请涉及但不限于计算机技术领域,尤其涉及一种数据处理方法、装置、计算机设备及计算机可读存储介质。
背景技术
在为属于同一用户标识(Identity document,ID)下的多个任务对象分配该用户ID下的资源时,合理的分配方案能够提高用户资源的利用率和整体的任务处理效率。相关技术中,针对用户资源的分配方案较为单一,造成资源利用率低等问题。
发明内容
有鉴于此,本申请实施例至少提供一种数据处理方法、装置、计算机设备及计算机可读存储介质。
本申请实施例的技术方案是这样实现的:
一方面,本申请实施例提供一种数据处理方法,所述方法包括:
获取资源池的资源信息及至少一个目标对象的指定属性信息;
利用目标分类模型,确定每一所述目标对象的指定属性信息对应的权重,并基于所述指定属性信息对应的权重确定每一所述目标对象对应的优先级;
基于每一所述目标对象的指定属性信息和对应的优先级,从所述资源池的资源信息中确定为每一所述目标对象分配的资源信息。
在一些实施例中,所述方法还包括:
获取第一样本集合和第一分类模型;
利用交叉验证的方式,基于所述第一样本集合,对所述第一分类模型进行优化,得到所述目标分类模型。
在一些实施例中,所述方法还包括:
获取第一样本集合、第二样本集合和第一分类模型;其中,所述第一样本集合和所述第二样本集合中的每一样本携带样本优先级;
基于所述第一样本集合,对所述第一分类模型进行优化,得到第二分类模型;
利用所述第二分类模型,对所述第二样本集合中的每一样本进行优先级分类,得到每一样本对应的预测优先级;
基于所述样本优先级和所述预测优先级,对所述第一分类模型的超参数进行优化,得到所述目标分类模型。
在一些实施例中,所述基于所述样本优先级和所述预测优先级,对所述第一分类模型的超参数进行优化,得到所述目标分类模型,包括:
基于所述样本优先级和所述预测优先级,构造适应度函数;
基于所述适应度函数,对所述第一分类模型的超参数进行优化,得到所述目标分类模型。
在一些实施例中,所述基于所述样本优先级和所述预测优先级,构造适应度函数,包括:
基于所述样本优先级和所述预测优先级的方差,构造所述适应度函数。
在一些实施例中,所述基于所述适应度函数,对所述第一分类模型的超参数进行优化,得到所述目标分类模型,包括:
获取至少一个超参数组合;其中,每一所述超参数组合为所述第一分类模型的一组超参数的集合;
基于所述适应度函数,确定针对每一所述超参数组合的更新策略;
基于确定的所述更新策略,对每一所述超参数组合进行更新,得到更新后的至少一个超参数组合;
确定更新后的每一超参数组合对应的适应度函数值;
在针对所述至少一个超参数组合执行指定的更新次数后,确定适应度函数值最小的超参数组合;
基于所述适应度函数值最小的超参数组合,确定所述目标分类模型。
在一些实施例中,所述基于每一所述目标对象的属性信息和对应的优先级,从所述资源池的资源信息中确定为每一所述目标对象分配的资源信息,包括:
基于每一所述目标对象的属性信息和对应的优先级,从所述资源池的资源信息中确定为所述优先级较高的目标对象分配的第一资源信息和所述资源池中的剩余资源信息;
基于所述剩余资源信息和所述优先级较低的目标对象的属性信息,确定所述剩余资源信息满足所述优先级较低的目标对象的需求的情况下,为所述优先级较低的目标对象分配第二资源信息。
另一方面,本申请实施例提供一种数据处理装置,所述装置包括:
获取模块,用于获取资源池的资源信息和至少一个目标对象的指定属性信息;
第一确定模块,用于利用目标分类模型,确定每一所述目标对象的指定属性信息对应的权重,并基于所述指定属性信息对应的权重确定每一所述目标对象对应的优先级;
第二确定模块,用于基于每一所述目标对象的属性信息和对应的优先级,从所述资源池的资源信息中确定为每一所述目标对象分配的资源信息。
再一方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
又一方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。
本申请实施例中,通过利用目标分类模型,确定每一目标对象的指定属性信息对应的权重,并基于指定属性信息对应的权重确定每一目标对象对应的优先级,基于每一目标对象的属性信息和对应的优先级,从资源池的资源信息中确定为每一目标对象分配的资源信息。这样,将资源信息汇总到资源池,作为至少一个目标对象的共享资源,使目标对象与资源的匹配关系更加灵活,从而可以提高资源的利用率,及为目标对象分配资源信息的及时性;同时,基于每一目标对象对应的优先级确定为每一目标对象分配的资源信息,可以兼顾目标对象的优先级,使资源信息的分配更加合理;另外,利用目标分类模型自动确定每一目标对象对应的优先级,可以减少由人工确定优先级带来的人工成本较高的问题,同时也降低了基于经验主观确定优先级而带来的偏差;最后,目标分类模型是基于每一目标对象的指定属性信息对应的权重来确定每一目标对象对应的优先级的,因此,在确定优先级时,可以兼顾目标对象的至少一个影响因子,从而得到更加准确的优先级。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开的技术方案。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1为本申请实施例提供的一种数据处理方法的实现流程示意图;
图2为本申请实施例提供的一种数据处理方法中的目标分类模型的训练流程示意图;
图3为本申请实施例提供的一种数据处理方法中的目标分类模型的训练流程示意图;
图4为基于多种机器学习分类算法搭建的优先级分类模型的优先级预测准确率示意图;
图5为本申请实施例提供的一个应用实施例中目标分类模型的训练流程示意图;
图6为本申请实施例提供的一个应用实施例中基于改进的极限梯度提升模型得到的订单样本测试集的优先级预测值示意图;
图7为本申请实施例提供的一个应用实施例中改进的极限梯度提升模型对应的混淆矩阵;
图8为本申请实施例提供的数据处理方法的一个应用实施例的实现流程示意图;
图9为本申请实施例提供的一种数据处理装置的组成结构示意图;
图10为本申请实施例提供的一种计算机设备的硬件实体示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本申请的技术方案进一步详细阐述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
所涉及的术语“第一/第二/第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请的目的,不是旨在限制本申请。
相关技术中,在为同一个用户ID下的多个任务分配该用户ID下的资源时(例如,为同一用户ID下的多个订单分配该用户ID下的信用金额,或者,为同一用户ID下的多个发货任务分配该用户ID下的物流资源),存在两种分配方案,下面以订单信用金额分配为例进行说明:
方案一:将订单号码与信用金额直接绑定,使得该部分信用金额只能用于支付该订单号码;
方案二:将同一用户ID下的信用金额统一放入该用户ID下的资金池中,该资金池中的信用金额可以支付该用户ID下的任何一张订单。
针对上述两种资源分配方案,其中:
方案一的优点是:能够精准地按照用户指定的付款方式使用信用金额。方案一的缺点是:由于制造业的订单周期较长且经常面临库存不足的问题,因此,该方案会导致特定信用金额被一张订单长期占用,资金利用率较低。可见,方案一的资金分配方式比较适用于零售客户、电商平台,对于大客户和生产周期较长的大规模零散制造企业并不适用。
方案二的优点是:解决了方案一中资金利用率较低、分配方式不够灵活的问题。方案二的缺点是:资金池中的信用金额与当前存在的所有订单随机进行匹配,导致无法满足亟需处理的订单的付款需求。
基于此,本申请实施例提供了一种数据处理方法,该方法可以基于每一目标对象对应的优先级,从资源池的资源信息中确定为每一目标对象分配的资源信息,从而提高资源池中的资源信息的利用率和分配的灵活性,同时兼顾每一目标对象的优先级特征,提高资源分配的准确性。
本申请实施例提供的数据处理方法可以由计算机设备的处理器执行。其中,计算机设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备数据处理能力的设备。
图1为本申请实施例提供的一种数据处理方法的实现流程示意图,如图1所示,该方法包括如下步骤S101至步骤S103:
步骤S101,获取资源池的资源信息及至少一个目标对象的指定属性信息。
这里,资源池可以包含各类资源的集合。例如,在订单信用金额分配场景中,资源池可以是买方ID下可用于支付订单的信用金额的汇总;在物流场景下,资源池可以是卖方ID下的可用于寄送商品的物流资源的汇总。
目标对象可以是待分配上述资源信息的对象。例如,在上述订单信用金额分配场景中,目标对象可以是待支付的订单;在物流场景下,目标对象可以是待发货的订单,等等。
目标对象的指定属性信息是影响该目标对象的资源信息分配情况的属性。例如,在订单信用金额分配场景中,目标对象的指定属性信息可以包括订单渠道、产品分组、客户升级订单状态、订单毛利、客户分层标签、售达方类型、销售备货状态、大单采购类型、客户类型、订单类型、信用金额、促销活动类型、订单交付时间,等等。在物流场景下,目标对象的指定属性信息可以包括运输距离、指定的运输方式、指定运达时间、货物重量和体积、客户等级,等等。
步骤S102,利用目标分类模型,确定每一所述目标对象的指定属性信息对应的权重,并基于所述指定属性信息对应的权重确定每一所述目标对象对应的优先级。
这里,目标分类模型是基于足够的样本数据对初始模型进行训练后得到的分类模型。利用该目标分类模型,可以基于每一目标对象的指定属性信息,确定目标对象对应的优先级。
实际应用中,针对每一目标对象,目标分类模型首先确定目标对象的每一指定属性信息对应的权重,然后基于每一指定属性信息对应的权重确定每一目标对象对应的优先级。例如,在订单信用金额分配场景中,将第一订单作为目标对象,则,利用目标分类模型确定第一订单的优先级的方法可以包括:首先,目标分类模型确定第一订单的订单渠道、产品分组、客户升级订单状态、订单毛利、客户分层标签、售达方类型、销售备货状态、大单采购类型、客户类型、订单类型、信用金额、促销活动类型、订单交付时间中的每一项对应的权重;然后,目标分类模型将各项对应的权重相加,得到第一订单对应的权重;最后,目标分类模型基于第一订单对应的权重,确定第一订单对应的优先级。
步骤S103,基于每一所述目标对象的指定属性信息和对应的优先级,从所述资源池的资源信息中确定为每一所述目标对象分配的资源信息。
这里,在确定每一目标对象对应的优先级之后,即可按照每一目标对象对应的优先级及每一目标对象的属性信息中用于指示资源需求信息的特定属性信息,来确定为目标对象分配的资源信息。
实际应用中,例如,在订单信用金额分配场景中,将第一订单作为目标对象,则在为第一订单分配资源信息的过程中:首先,确定第一订单中用于指示资源需求信息的特定属性信息,例如,订单金额信息,以及第一订单对应的优先级;然后,基于第一订单对应的订单金额信息和第一订单对应的优先级,确定从资金池中的信用金额确定为第一订单分配的信用金额。
由上可知,本申请实施例中,通过利用目标分类模型,确定每一目标对象的指定属性信息对应的权重,并基于指定属性信息对应的权重确定每一目标对象对应的优先级,基于每一目标对象的属性信息和对应的优先级,从资源池的资源信息中确定为每一目标对象分配的资源信息。这样,首先,将资源信息汇总到资源池,作为至少一个目标对象的共享资源,使目标对象与资源信息的匹配关系更加灵活,从而可以提高资源的利用率,及为目标对象分配资源信息的及时性;其次,基于每一目标对象对应的优先级确定为每一目标对象分配的资源信息,可以兼顾目标对象的优先级,使资源信息的分配更加合理;再次,利用目标分类模型自动确定每一目标对象对应的优先级,可以减少由人工确定优先级带来的人工成本较高的问题,同时也降低了基于经验主观确定优先级而带来的偏差;最后,目标分类模型是基于每一目标对象的指定属性信息对应的权重来确定每一目标对象对应的优先级的,因此,在确定优先级时兼顾目标对象的至少一个属性,可以获得更加准确的优先级。
在一些实施例中,上述步骤S103可以通过以下步骤S1031至步骤S1032实现:
步骤S1031,基于每一所述目标对象的属性信息和对应的优先级,从所述资源池的资源信息中确定为所述优先级较高的目标对象分配的第一资源信息和所述资源池中的剩余资源信息。
这里,在为至少一个目标对象分配资源信息时,首先为优先级较高的目标对象分配资源信息,同时确认资源池中的剩余资源信息。
以订单信用金额分配场景为例,假设当前存在两个订单对象,即,第二订单和第三订单,其中,第三订单对应的优先级高于第二订单对应的优先级。此时,在为该两个订单对象分配资金池中的信用金额时,将第三订单确定为优先级较高的目标对象,基于第三订单的属性信息中的订单金额,从资金池中的信用金额中为第三订单分配第三订单对应的信用金额,同时,确定资金池中的剩余信用金额。
步骤S1032,基于所述剩余资源信息和所述优先级较低的目标对象的属性信息,确定所述剩余资源信息满足所述优先级较低的目标对象的需求的情况下,为所述优先级较低的目标对象分配第二资源信息。
这里,为优先级较高的目标对象分配第一资源信息之后,基于资源池中的剩余资源信息和优先级较低的目标对象的属性信息,确定为优先级较低的目标对象的资源分配情况。具体地,在剩余资源信息可以满足优先级较低的目标对象的需求的情况下,为优先级较低的目标对象分配第二资源信息,在剩余资源信息不满足优先级较低的目标对象的需求的情况下,可以停止对剩余资源信息的分配。
在一些实施例中,同一优先级可以对应至少一个目标对象。这样,可以同时为具有相同优先级的至少一个目标对象分配资源池中的资源信息,使资源分配的灵活性更高。
继续以订单信用金额分配场景为例,当为优先级较高的第三订单分配第一资源信息,同时确定资金池中的剩余金额之后,基于第二订单的属性信息中的订单金额,确定剩余金额是否大于或等于第二订单对应的订单金额。在资金池中的剩余金额大于或等于第二订单对应的订单金额的情况下,为第二订单分配第二订单对应的订单金额的金额数量;在资金池中的剩余金额小于第二订单对应的订单金额的情况下,停止为第二订单分配信用金额。
在一个应用实施例中,按照由高到低的顺序将订单优先级分为10、20、30三级,利用目标分类模型对第四订单进行信用金额分配时,可以通过以下步骤实现:
首先,系统获取第四订单,该第四订单为满足指定信用资质条件的订单,并且携带指定的属性信息;
然后,利用目标分类模型确定第四订单的优先级,并根据优先级从资金池的信用金额中确定为第四订单分配的信用金额:
在第四订单对应的优先级为10的情况下:判断资金池的信用金额是否大于或等于第四订单对应的付款金额,若判断结果为是,则为第四订单分配所需的信用金额,若判断结果为否,则停止为第四订单分配信用金额;
在第四订单对应的优先级为20的情况下:先判断资金池中的信用金额是否大于优先级为10的全部订单所需的信用金额的总和;若判断结果为是,则从资金池中的信用金额中减去优先级为10的全部订单所需的信用金额,确定资金池中剩余的信用金额,若判断结果为否,则停止为第四订单分配信用金额;判断剩余的信用金额是否大于或等于第四订单对应的付款金额;若判断结果为是,则为第四订单分配所需的信用金额,若判断结果为否,则停止为第四订单分配信用金额;
在第四订单对应的优先级为30的情况下:先判断资金池中的信用金额是否大于优先级为10和20的全部订单所需的信用金额的总和;若判断结果为是,则从资金池中的信用金额中减去优先级为10和20的全部订单所需的信用金额,确定资金池中剩余的信用金额,若判断结果为否,则停止为第四订单分配信用金额;判断剩余的信用金额是否大于或等于第四订单对应的付款金额;若判断结果为是,则为第四订单分配所需的信用金额,若判断结果为否,则停止为第四订单分配信用金额。
由上可知,本申请实施例提供的数据处理方法中,按照优先级从高到低的顺序,为目标对象分配所需的资源信息,既提高了资源池中的资源信息分配的灵活性,又兼顾了目标对象的优先程度,可以更合理地完成用户的资源分配需求。
本申请实施例提供的数据处理方法中,将优先级问题映射为分类问题,利用目标分类模型确定每一目标对象对应的优先级,下面结合图2,对本申请实施例提供的数据处理方法中的目标分类模型的训练方法做详细说明。
步骤S201,获取第一样本集合和第一分类模型。
这里,第一样本集合包括至少一个样本对象,每一样本对象携带样本属性信息和样本优先级。例如,在订单信用金额分配场景中,第一样本集合可以包括至少一个样本订单,每一样本订单携带样本属性信息和样本优先级;其中,样本属性信息包括订单渠道、产品分组、客户升级订单状态、订单毛利、客户分层标签、售达方类型、销售备货状态、大单采购类型、客户类型、订单类型、信用金额、促销活动类型、订单交付时间等;样本优先级为预先为每一样本订单标注的优先级信息,例如,样本优先级包括10、20、30。
在一些实施例中,获取第一样本集合之后,对第一样本集合中每一样本对象携带的样本属性信息进行预处理。
实际应用中,对样本属性信息的预处理包括以下至少之一:
对样本属性信息进行数据结构化处理。这里,由于获取的样本属性信息为字符或者枚举值数据,因此,为了适应第一分类模型的数据输入要求,需要对这些属性信息进行结构化处理。在一些实施例中,通过独热编码(one-hot编码)的方式对样本属性信息进行处理,得到符合第一分类模型要求的输入数据,例如,二进制编码数据。
对样本属性信息进行缺失值处理。这里,可能由于机械或人为操作失误等原因导致样本属性信息的收集或保存失败,因此,需要遍历结构化后的样本属性信息,查找缺失值,并对缺失值进行填充处理。在一些实施例中,利用正向填充策略对缺失值进行填充处理。
对样本属性信息进行异常值处理。这里,异常值处理可以包括三种方式:一是设为缺失值,利用缺失值处理的方法进行处理,这样,可以利用现有数据信息对异常值进行填补;二是删除含有异常值的记录;三是不处理,利用该异常值进行模型训练。
上述针对样本属性信息的预处理步骤,可以使第一分类模型的训练数据集符合模型的数据输入要求,且降低缺失值、异常值等对模型训练结果的影响,获得更加精确的目标分类模型。
第一分类模型是未经训练的初始模型。在一些实施例中,第一分类模型为极限梯度提升模型(XGBoost模型)。
步骤S202,利用交叉验证的方式,基于所述第一样本集合,对所述第一分类模型进行优化,得到所述目标分类模型。
这里,交叉验证的方式,是指将模型的训练数据集分为k个训练子集(K-Fold),将每个训练子集分别做一次验证集,其余的k-1的训练子集作为训练集,分别对初始模型进行训练,从而得到k个训练后的分类模型。
实际应用中,上述步骤S202可以通过以下步骤S2021至步骤S2204实现:
步骤S2021,将第一样本集合划分为第一训练集和第一测试集;
这里,第一训练集和第一测试集的样本数量的比值可以为但不限于8:2。
步骤S2022,将第一训练集划分为k个第一训练子集;
实际应用中,将第一训练集划分为5个第一训练子集。
步骤S2023,将每个第一训练子集轮流用作内部验证集,其他k-1个第一训练子集作为内部训练集,对第一分类模型进行优化,得到k个训练后的分类模型;
步骤S2024,利用第一测试集对k个训练后的分类模型进行测试,将测试误差最小的一个训练后的分类模型作为目标分类模型。
这里,首先,利用k个训练后的分类模型分别对第一测试集中的每一样本对象进行优先级预测,得到每一样本对象对应的预测优先级;然后,将每一样本对象对应的预测优先级与样本优先级进行比对,确定每一样本对象的预测优先级与样本优先级之间的误差;最后,计算每一训练后的分类模型对应的误差总量,并将误差纵向最小的一个训练后的分类模型作为目标分类模型。
本申请实施例中,利用交叉验证的方式,基于第一样本集合对第一分类模型进行训练,得到目标分类模型,可以有效利用第一样本集合中的样本数据;同时,由于针对每一个训练模型的内部验证集与内部训练集的数据不同,使得在内部验证集上的评估结果可以尽可能接近在第一测试集上的测试结果。
在初始分类模型的训练中,超参数的确定会影响训练后的目标分类模型的准确性。以初始分类模型为XGBoost模型为例,XGBoost模型的超参数是根据经验设定的,可能会存在误差。因此,在本申请的一些实施例中,在初始分类模型的训练过程中增加了对分类模型进行超参数优化的步骤,下面结合图3,对本申请实施例提供的数据处理方法中的目标分类模型的训练方法做详细说明。
参照图3,本申请实施例提供的数据处理方法中的目标分类模型的训练方法包括以下步骤S301至步骤S304:
步骤S301,获取第一样本集合、第二样本集合和第一分类模型;其中,所述第一样本集合和所述第二样本集合中的每一样本携带样本优先级;
这里,第一样本集合和第二样本集合的内容及预处理方式与步骤S201中的第一样本集合的内容及预处理方式基本相同,第一分类模型与步骤S201中的第一分类模型的类型基本相同,在此不再赘述。
在实际应用中,将第一样本集合作为第一分类模型的训练集,将第二样本集合作为第一分类模型的测试集,并且第一样本集合与第二样本集合的数据量的比值为8:2。
步骤S302,基于所述第一样本集合,对所述第一分类模型进行优化,得到第二分类模型;
这里,利用第一样本集合对第一分类模型进行优化,可以是利用上述交叉验证的方式实现,也可以采用其他模型训练方式对第一分类模型进行训练,以得到第二分类模型。
步骤S303,利用所述第二分类模型,对所述第二样本集合中的每一样本进行优先级分类,得到每一样本对应的预测优先级;
这里,第二分类模型中的样本数据与第一分类模型中的样本数据不同,因此,可以基于第二样本集合获得针对第二分类模型的较为真实的预测结果。
步骤S304,基于所述样本优先级和所述预测优先级,对所述第一分类模型的超参数进行优化,得到所述目标分类模型。
这里,第一分类模型的超参数可以包括基学习器(Base Learner)的数量,树的最大深度,学习率,指定属性信息的最小划分损失阈值G_min,以及控制模型复杂度的超参数λ和γ等。
这里,基于第二样本集合中每一样本对象对应的样本优先级和预测优先级,可以确定第二分类模型的预测误差,从而可以基于该预测误差从可用于第一分类模型的多个超参数组合中筛选出预测误差较小的超参数组合,得到超参数优化后的目标分类模型。
在本申请实施例中,通过对第一分类模型进行训练得到第二分类模型,利用第二分类模型对第二样本集合中的每一样本对象进行优先级分类,得到每一样本对应的预测优先级,并基于该预测优先级与样本优先级对第一分类模型的超参数进行优化,从而可以得到更加准确的目标分类模型。
在一些实施例中,上述步骤S304可以通过以下步骤S3041值步骤S3042实现:
步骤S3041,基于所述样本优先级和所述预测优先级,构造适应度函数。
这里,在一些实施例中,基于所述样本优先级和所述预测优先级的方差,构造所述适应度函数。在一些实施例中,可以将样本优先级和预测优先级的方差作为适应度函数的重要的影响因子来构造该适应度函数。
步骤S3042,基于所述适应度函数,对所述第一分类模型的超参数进行优化,得到所述目标分类模型。
这里,将适应度函数作为从第一分类模型的多个超参数组合中筛选出最佳超参数组合的指标,即,将适应度函数值最小的一组超参数组合作为最佳的超参数组合应用到第一分类模型,以得到目标分类模型。
在一些实施例中,上述步骤S3042可以通过以下步骤S3043至步骤S3048实现:
步骤S3043,获取至少一个超参数组合;其中,每一所述超参数组合为所述第一分类模型的一组超参数的集合;
这里,获取的至少一个超参数组合为初始的超参数组合,并且每一超参数组合均可带入第一分类模型、为第一分类模型的超参数赋值。
步骤S3044,基于所述适应度函数,确定针对每一所述超参数组合的更新策略。
这里,可以基于适应度函数的值,确定针对每一超参数组合的更新策略。
在一些实施例中,利用鲸鱼算法中的捕食策略对至少一个超参数组合进行更新。
鲸鱼算法是模仿自然界中鲸鱼捕食行为的新型群体智能优化算法。鲸鱼算法搜索问题解的过程可以看做是若干个鲸鱼个体不断更新个体位置,直至搜索到满意的解位置。鲸鱼的捕食行为分为三类:全局随机搜索捕食机制、包围网搜索机制、气泡网捕食机制。在不同条件下,选择不同的捕猎方式,直至获取最优解。
本申请实施例既是根据基于适应度函数,将鲸鱼算法中的一种捕食策略确定为针对至少一个超参数组合的更新策略。
步骤S3045,基于确定的所述更新策略,对每一所述超参数组合进行更新,得到更新后的至少一个超参数组合;
基于特定的更新策略,对每一超参数组合进行更新,即,对每一超参数组合中的至少一个超参数的值进行更新,从而得到更新后的至少一个超参数组合。
步骤S3046,确定更新后的每一超参数组合对应的适应度函数值;
这里,可以将每一超参数组合带入适应度函数中,得到每一超参数组合对应的适应度函数值。
步骤S3047,在针对所述至少一个超参数组合执行指定的更新次数后,确定适应度函数值最小的超参数组合;
这里,基于确定的更新策略,对所述至少一个超参数组合执行特定的更新次数。这里,在针对至少一个超参数组合的一次更新中:首先,确定更新后的每一超参数组合对应的适应度函数值后,将适应度函数值最小的一个超参数组合带入第一分类模型进行训练;其次,确定训练后的第一分类模型对应的预测误差;再次,基于该预测误差重新确定针对至少一个超参数组合的更新策略;最后,基于确定的更新策略,对至少一个超参数再次执行更新。当针对至少一个超参数组合执行指定的更新次数之后,确定最后一次更新之后适应度函数值最小的超参数组合。
步骤S3048,基于所述适应度函数值最小的超参数组合,确定所述目标分类模型。
这里,可以将适应度函数值最小的超参数组合作为第一分类模型的超参数组合,并利用训练数据对该第一分类模型进行训练,得到目标分类模型。这样,经过多次的超参数组合更新,可以确定最佳的超参数组合,从而帮助目标分类模型对目标对象进行优先级分类时得到更加准确的分类结果。
在选择用于优先级分类的模型时,通过搭建多种机器学习算法数据模型,利用样本数据进行模拟训练,确定了多种机器学习算法数学模型的优先级预测的准确率,结果如图4所示。
从图4中可以看出,基于传统的XGBoost分类算法搭建的机器学习模型在订单信用金额分配场景中对优先级预测的准确率可以达到91%左右,相对于基于随机森林分类算法、自适应增强分类算法(Adaptive Boosting,简称AdaBoost)、朴素贝叶斯分类算法、反向传播(Back-propagation,简称bp)神经网络分类算法及支持向量机分类算法具有较准确的分类效果。同时,基于本申请提出的超参数优化方法对XGBoost分类模型进行优化后得到的改进的XGBoost分类模型的准确率可以达到97%。
因此,下面结合图5,以改进的XGBoost分类模型为例,对本申请提出的数据处理方法中的分类模型的训练过程进行详细说明。
步骤S501,获取订单样本,对每一订单样本的属性信息执行预处理;之后,执行步骤S502;
这里,订单样本的属性信息可以包括单渠道、产品分组、客户升级订单状态、订单毛利、客户分层标签、售达方类型、销售备货状态、大单采购类型、客户类型、订单类型、信用金额、促销活动类型、订单交付时间及样本优先级等。
针对订单样本的属性信息执行的预处理可以包括以下处理中的至少之一:对订单样本数据进行数据结构化处理、对订单样本数据进行缺失值处理及对订单样本数据进行异常值处理。
步骤S502,对XGBoost模型进行超参数赋值;之后,执行步骤S503;
这里,XGBoost模型的超参数可以包括基学习器(Base Learner)的数量,树的最大深度,学习率,指定属性信息的最小划分损失阈值G_min,以及控制模型复杂度的超参数λ和γ。
在对XGBoost模型进行第一次超参数赋值,即,对XGBoost模型进行超参数初始化时,可以将基学习器的数量的初始值设为100;将树的最大深度的初始值设为10,以防止出现过拟合问题;将学习率的初始值为设为0.1;将订单样本的属性信息的最小划分损失阈值G_min的初始值设为0.8;将控制模型复杂度的超参数λ和γ的初始值均设为1。
步骤S503,构建XGBoost模型;之后,执行步骤S504;
这里,基于初始化的超参数值,构建XGBoost模型。
XGBoost模型的目标函数obj如下述公式(1)所示:
其中,l(y′i-yi)为XGBoost模型的损失函数;y′i表示第i个订单样本对应的预测优先级;yi表示第i个订单样本对应的样本优先级;为控制XGBoost模型复杂度的权重值的正则项;Ω(ft)表示第t棵树的模型复杂度。
设置经验损失函数,通过以下公式(2)计算订单样本训练集中每一个订单样本在当前树的目标函数Obj:
其中,U表示训练集中订单样本的数量;表示经验损失函数;yi表示第i个订单样本的真实优先级;fk(Xi)表示第k棵树对第i个订单样本的预测优先级;/>表示控制XGBoost模型复杂度的正则函数;T表示叶子结点数;wj表示第j个叶子结点值。
对损失函数进行泰勒展开后得到公式(3):
其中,gi表示表示损失函数的一阶导数;hi表示损失函数的二阶导数。
接下来,通过贪婪算法建树,针对每个订单样本,每棵树都得到一个预测优先级。将每棵树计算得到的预测优先级累加,即得到每个订单样本对应的预测优先级。
利用贪婪算法不断建树,使订单样本对应的预测优先级逼近该订单样本对应的样本优先级。
步骤S504,利用订单样本集中的训练集优化XGBoost模型;之后,执行步骤S505;
这里,将订单样本集划分为训练集和预测集,利用订单样本集中的训练集对XGBoost模型进行训练,得到训练后的XGBoost模型。
在利用训练集优化XGBoost模型时,将训练集随机划分为5个训练子集,利用该5个训练子集,采用交叉验证的方式对XGBoost模型进行训练。其中,交叉验证的训练方式已再上文做详细说明,此处不再赘述。
步骤S505,利用订单样本集中的测试集对训练后的XGBoost模型进行测试;之后,执行步骤S506;
这里,利用训练后的XGBoost模型对测试集中的每一订单样本进行优先级分类,确定每一订单样本对应的预测优先级。
步骤S506,计算测试集中每一订单样本对应的预测优先级与样本优先级的方差,确定XGBoost模型对应的误差;之后,执行步骤S508;
这里,将该方差作为训练后的XGBoost模型对应的适应度函数值,将适应度函数值最小的一个XGBoost模型对应的超参数组合作为最佳超参数组合,并将该超参数组合对应的XGBoost模型作为目标分类模型。
步骤S507,初始化鲸鱼群体位置;之后,执行步骤S508;
这里,采用鲸鱼算法对XGBoost模型进行超参数优化。
在初始化鲸鱼群体位置时,将鲸鱼数量M的初始值设置为30,鲸鱼算法的最大迭代次数Tmax设为10;每个鲸鱼个体的位置代表一个XGBoost模型的参数组合,该参数组合包括基学习器的数量、树的最大深度、学习率、订单属性的最小划分损失阈值Gmin,以及控制模块复杂度的超参数λ和γ。
步骤S508,设计适应度函数,确定适应度函数值;之后,执行步骤S509;
基于鲸鱼算法,设计适应度函数MSE,如下公式(4)所示:
其中,L表示用于测试集中的订单样本数量;yi′表示第i个订单样本对应的预测优先级;yi表示第i个订单样本对应的样本优先级。
基于步骤S506中确定的测试集中每一订单样本对应的预测优先级与样本优先级的方差,确定适应度函数值。
步骤S509,判断p是否小于0.5;若否,则执行步骤S510;若是,则执行步骤S511;
这里,p是[0,1]之间的随机数,并且p的取值可以基于步骤S508中计算的适应度函数值确定。
步骤S510,基于气泡网捕食法更新鲸鱼群体的位置;之后,执行步骤S514;
这里,鲸鱼的气泡网捕食机制是以螺旋方式向猎物游走,螺旋式更新位置,使当前鲸鱼个体以螺旋式向最佳鲸鱼个体靠近。
这里,最佳鲸鱼个体是指步骤S502中XGBoost模型的超参数组合对应的鲸鱼个体位置。
设当前最佳鲸鱼个体X*的位置为鲸鱼j的位置为则在最佳鲸鱼个体的影响下,鲸鱼j的下一个位置可以用公式(5)表示:
其中,表示第j个鲸鱼到猎物的距离;b为对数螺旋形状常数,l为[-1,1]之间的随机数。
步骤S511,判断A的绝对值是否小于1;若否,则执行步骤S512;若是,则执行步骤S513;
这里,A为逐渐收敛的线性函数,并且,|A|的取值范围在[0,2]之间。
在鲸鱼算法中,当|A|>1时,采用全局随机搜索机制进行捕食,当|A|≤1时,采用包围网搜索法进行捕食。
步骤S512,基于全局随机搜索法更新鲸鱼群体位置;之后,执行步骤S514;
全局随机搜索法是指当前鲸鱼个体随机从当前鲸鱼群体中选择一条鲸鱼个体靠近。虽然该搜索法可能会使当前鲸鱼个体偏离猎物,但是会增强鲸鱼群体的全局搜索能力。
同样,设当前最佳鲸鱼个体X*的位置为鲸鱼j的位置为则在最佳鲸鱼个体的影响下,鲸鱼j的下一个位置可Xj+1可以用公式(6)表示:
其中,表示空间坐标Xj+1的第k个分量;/>表示第j个鲸鱼与猎物的距离;C1=2r2;A1=2a*r1-a;a随着迭代次数的增加,从2至0线性递减;r1和r2均是[0,1]之间的随机数。
步骤S513,基于包围网搜索法更新鲸鱼群体位置;之后,执行步骤S514;
这里,包围网搜索法是指当前位置的鲸鱼个体向当前最佳位置的鲸鱼个体靠近,因此,包围网搜索法的数学表达式与全局随机搜索法相同(如公式(6)所示),但是,A1的取值范围是[-1,1]。
步骤S514,基于更新后的鲸鱼群体位置,确定每个鲸鱼对应的适应度函数值;之后执行步骤S515;
这里,基于适应度函数,重新计算位置更新后的每个鲸鱼对应的适应度函数值。
步骤S515,确定最佳鲸鱼个体;之后执行步骤S516;
这里,将适应度函数值最小的鲸鱼个体作为最佳鲸鱼个体。
步骤S516,判断是否满足终止条件;若是,执行步骤S517;若否,执行步骤S502;
这里,基于对鲸鱼群体位置更新的次数,确定是否满足终止条件。
步骤S517,将确定的最佳鲸鱼个体对应的超参数组合作为XGBoost模型的最佳超参数组合,得到目标XGBoost模型;
在鲸鱼群体位置更新次数达到次数阈值Tmax的情况下,将步骤S515确定的最佳鲸鱼个体对应的超参数值作为XGBoost模型的最佳超参数组合,并基于该最佳超参数组合得到目标XGBoost模型。
步骤S502,对XGBoost模型进行超参数赋值;
在鲸鱼群体位置更新次数小于次数阈值Tmax的情况下,利用本次更新得到的最佳鲸鱼个体对应的超参数组合为XGBoost模型进行超参数赋值,并利用订单样本集对该重新赋值的XGBoost模型进行训练。
通过上述模型训练方法得到改进的XGBoost模型,在利用上述改进的XGBoost模型对订单的属性信息进行分析后,可以得到每一属性信息对应的权重值。实际应用中,可以用百分比的方式表示权重值,例如,第一属性对应的权重值为30%,第二属性对应的权重值为10%,第三属性对应的权重值为2%,等等,并且,全部属性的权重值的和为1。
其中,渠道的总权重值为31%、订单原因的总权重值为12.3%,产品分组对应的总权重值为8.30%,等等。可见,订单区域和订单原因是对订单优先级影响最大的两个属性信息。
在一些实施例中,利用改进的XGBoost模型对目标订单进行优先级分类时,可以包括以下步骤:
首先,确定该目标订单中的每一指定属性信息对应的权重值,例如,目标订单对应的渠道权重值为20%、对应的订单原因权重值为1%、对应的产品分组权重值为2%,等等;
然后,将目标订单的所有指定属性信息对应的权重值相加,得到该目标订单对应的权重值,例如,28%;
之后,基于目标订单对应的权重值,对目标订单的优先级进行预测,例如,该目标订单的优先级为10的概率为0.005、优先级为20的概率为0.99、优先级为30的概率为0.005。图6示出了部分订单样本测试集的优先级的预测值截图,其中,将优先级分为10、20和30三个级别,针对每一订单样本,分别确定其对应的优先级为10的概率、优先级为20的概率及优先级为30的概率。以优先级预测结果为20的订单样本为例,其中,预测结果概率为10、20和30的概率依次为A2、B2和C2,其中,A2、B2和C2的和为1,并且B2的值大于A2和C2,因此,判断最终的优先级预测结果为20;
最后,对各优先级的概率预测结果进行归一化处理(例如,可以利用softmax激活函数对概率预测结果进行归一化处理),选择概率最大的一个作为目标订单最终的预测优先级,例如,在上例中将20作为该目标订单最终的预测优先级。
在一些实施例中,将利用上述改进的XGBoost模型确定的每一订单样本对应的预测优先级与样本优先级结合,得到基于改进的XGBoost模型的样本订单分类模型的混淆矩阵,如图7所示。从图7中可以看出,改进的XGBoost模型的准确度高于97%。
同时,下表1中示出了利用上述改进的XGBoost模型分别对订单样本训练集、验证集和测试集进行优先级分类的结果,从表中可以看到,通过上述模型训练方法获得改进的XGBoost模型具有较高的准确率、召回率、精准率和F1(精确率和召回率的调和平均值)值。
准确率 | 召回率 | 精准率 | F1 | |
训练集 | 0.99 | 0.99 | 0.99 | 0.99 |
验证集 | 0.981 | 0.985 | 0.981 | 0.980 |
测试集 | 0.971 | 0.975 | 0.971 | 0.973 |
表1
下面,结合图8,对本申请实施例提供的数据处理方法的一个应用实施例作详细说明。
步骤S801,获取订单样本集合;其中,每一订单样本携带属性信息;之后,执行步骤F02;
这里,订单样本集合携带的属性信息包括:渠道、订单原因、销售组织、产品分组、信用金额、客户分层标签、售达方、库存周转、营销备货、前置时间(Lead Time)、订单毛利以及样本优先级等。
步骤S802,对每一订单样本的属性信息进行预处理;之后,执行步骤S903;
这里,对每一订单样本的属性信息的预处理过程可以参照上文关于对样本属性信息的预处理方法,此处不在赘述。
步骤S803,基于每一订单样本的属性信息,构建XGBoost模型;之后,执行步骤S904;
这里,基于每一订单样本的属性信息对XGBoost模型进行训练,得到训练后的XGBoost模型。
步骤S804,利用鲸鱼算法优化XGBoost模型的超参数,得到最佳超参数组合的改进XGBoost模型;之后,执行步骤S905;
这里,对XGBoost模型的训练过程,以及利用鲸鱼算法优化XGBoost模型的超参数的方法,可以参见上文结合图5做的详细说明,此处不再赘述。
步骤S805,基于改进的XGBoost模型,对目标订单进行优先级分类;之后,执行步骤S906;
步骤S806,从资金池的信用金额中确定为优先级较高的目标订单分配的信用金额,以及资金池中剩余的信用金额;之后,执行步骤S907;
步骤S807,从剩余的信用金额中为优先级较低的目标订单分配信用金额,直到完成全部订单的信用金额分配,或者剩余的信用金额不足。
基于前述的实施例,本申请实施例提供一种数据处理装置,该装置包括所包括的各单元、以及各单元所包括的各模块,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(Central ProcessingUnit,CPU)、微处理器(Microprocessor Unit,MPU)、数字信号处理器(Digital SignalProcessor,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等。
图9为本申请实施例提供的一种数据处理装置的组成结构示意图,如图9所示,数据处理装置900包括:获取模块910、第一确定模块920和第二确定模块930,其中:
获取模块910,用于获取资源池的资源信息和至少一个目标对象的指定属性信息;
第一确定模块920,用于利用目标分类模型,确定每一所述目标对象的指定属性信息对应的权重,并基于所述指定属性信息对应的权重确定每一所述目标对象对应的优先级;
第二确定模块930,用于基于每一所述目标对象的属性信息和对应的优先级,从所述资源池的资源信息中确定为每一所述目标对象分配的资源信息。
在一些实施例中,所述装置900还包括训练模块,其中,所述训练模块,用于:
获取第一样本集合和第一分类模型;
利用交叉验证的方式,基于所述第一样本集合,对所述第一分类模型进行优化,得到所述目标分类模型。
在一些实施例中,所述装置900还包括训练模块,其中,所述训练模块,用于:
获取第一样本集合、第二样本集合和第一分类模型;其中,所述第一样本集合和所述第二样本集合中的每一样本携带样本优先级;
基于所述第一样本集合,对所述第一分类模型进行优化,得到第二分类模型;
利用所述第二分类模型,对所述第二样本集合中的每一样本进行优先级分类,得到每一样本对应的预测优先级;
基于所述样本优先级和所述预测优先级,对所述第一分类模型的超参数进行优化,得到所述目标分类模型。
在一些实施例中,所述训练模块,还用于:
基于所述样本优先级和所述预测优先级,构造适应度函数;
基于所述适应度函数,对所述第一分类模型的超参数进行优化,得到所述目标分类模型。
在一些实施例中,所述训练模块,还用于:
基于所述样本优先级和所述预测优先级的方差,构造所述适应度函数。
在一些实施例中,所述训练模块,还用于:
获取至少一个超参数组合;其中,每一所述超参数组合为所述第一分类模型的一组超参数的集合;
基于所述适应度函数,确定针对每一所述超参数组合的更新策略;
基于确定的所述更新策略,对每一所述超参数组合进行更新,得到更新后的至少一个超参数组合;
确定更新后的每一超参数组合对应的适应度函数值;
在针对所述至少一个超参数组合执行指定的更新次数后,确定适应度函数值最小的超参数组合;
基于所述适应度函数值最小的超参数组合,确定所述目标分类模型。
在一些实施例中,所述第二确定模块930,还用于:
基于每一所述目标对象的属性信息和对应的优先级,从所述资源池的资源信息中确定为所述优先级较高的目标对象分配的第一资源信息和所述资源池中的剩余资源信息;
基于所述剩余资源信息和所述优先级较低的目标对象的属性信息,确定所述剩余资源信息满足所述优先级较低的目标对象的需求的情况下,为所述优先级较低的目标对象分配第二资源信息。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法,对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的数据处理方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件、软件或固件,或者硬件、软件、固件三者之间的任意结合。
本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的,也可以是非瞬时性的。
本申请实施例提供一种计算机程序,包括计算机可读代码,在所述计算机可读代码在计算机设备中运行的情况下,所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一些实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
这里需要指出的是:上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,图10为本申请实施例中计算机设备的一种硬件实体示意图,如图10所示,该计算机设备1000的硬件实体包括:处理器1001、通信接口1002和存储器1003,其中:
处理器1001通常控制计算机设备1000的总体操作。
通信接口1002可以使计算机设备通过网络与其他终端或服务器通信。
存储器1003配置为存储由处理器1001可执行的指令和应用,还可以缓存待处理器1001以及计算机设备1000中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory,RAM)实现。处理器1001、通信接口1002和存储器1003之间可以通过总线1004进行数据传输。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各步骤/过程的序号的大小并不意味着执行顺序的先后,各步骤/过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种数据处理方法,其中,包括:
获取资源池的资源信息及至少一个目标对象的指定属性信息;
利用目标分类模型,确定每一所述目标对象的指定属性信息对应的权重,并基于所述指定属性信息对应的权重确定每一所述目标对象对应的优先级;
基于每一所述目标对象的指定属性信息和对应的优先级,从所述资源池的资源信息中确定为每一所述目标对象分配的资源信息。
2.根据权利要求1所述的方法,其中,所述方法还包括:
获取第一样本集合和第一分类模型;
利用交叉验证的方式,基于所述第一样本集合,对所述第一分类模型进行优化,得到所述目标分类模型。
3.根据权利要求1至2任一项所述的方法,其中,所述方法还包括:
获取第一样本集合、第二样本集合和第一分类模型;其中,所述第一样本集合和所述第二样本集合中的每一样本携带样本优先级;
基于所述第一样本集合,对所述第一分类模型进行优化,得到第二分类模型;
利用所述第二分类模型,对所述第二样本集合中的每一样本进行优先级分类,得到每一样本对应的预测优先级;
基于所述样本优先级和所述预测优先级,对所述第一分类模型的超参数进行优化,得到所述目标分类模型。
4.根据权利要求3所述的方法,其中,所述基于所述样本优先级和所述预测优先级,对所述第一分类模型的超参数进行优化,得到所述目标分类模型,包括:
基于所述样本优先级和所述预测优先级,构造适应度函数;
基于所述适应度函数,对所述第一分类模型的超参数进行优化,得到所述目标分类模型。
5.根据权利要求4所述的方法,其中,所述基于所述样本优先级和所述预测优先级,构造适应度函数,包括:
基于所述样本优先级和所述预测优先级的方差,构造所述适应度函数。
6.根据权利要求4所述的方法,其中,所述基于所述适应度函数,对所述第一分类模型的超参数进行优化,得到所述目标分类模型,包括:
获取至少一个超参数组合;其中,每一所述超参数组合为对应于所述第一分类模型中的超参数的集合;
基于所述适应度函数,确定针对每一所述超参数组合的更新策略;
基于确定的所述更新策略,对每一所述超参数组合进行更新,得到更新后的至少一个超参数组合;
确定更新后的每一超参数组合对应的适应度;
在针对所述至少一个超参数组合执行指定的更新次数后,确定适应度值最小的超参数组合;
基于所述适应度值最小的超参数组合,确定所述目标分类模型。
7.根据权利要求1至6任一项所述的方法,其中,所述基于每一所述目标对象的属性信息和对应的优先级,从所述资源池的资源信息中确定为每一所述目标对象分配的资源信息,包括:
基于每一所述目标对象的属性信息和对应的优先级,从所述资源池的资源信息中确定为所述优先级较高的目标对象分配的第一资源信息和所述资源池中的剩余资源信息;
基于所述剩余资源信息和所述优先级较低的目标对象的属性信息,确定所述剩余资源信息满足所述优先级较低的目标对象的需求的情况下,为所述优先级较低的目标对象分配第二资源信息。
8.一种数据处理装置,其中,所述装置包括:
获取模块,用于获取资源池的资源信息和至少一个目标对象的指定属性信息;
第一确定模块,用于利用目标分类模型,确定每一所述目标对象的指定属性信息对应的权重,并基于所述指定属性信息对应的权重确定每一所述目标对象对应的优先级;
第二确定模块,用于基于每一所述目标对象的属性信息和对应的优先级,从所述资源池的资源信息中确定为每一所述目标对象分配的资源信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310956656.XA CN116976618A (zh) | 2023-07-31 | 2023-07-31 | 数据处理方法、装置、计算机设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310956656.XA CN116976618A (zh) | 2023-07-31 | 2023-07-31 | 数据处理方法、装置、计算机设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116976618A true CN116976618A (zh) | 2023-10-31 |
Family
ID=88480976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310956656.XA Pending CN116976618A (zh) | 2023-07-31 | 2023-07-31 | 数据处理方法、装置、计算机设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116976618A (zh) |
-
2023
- 2023-07-31 CN CN202310956656.XA patent/CN116976618A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902222B (zh) | 一种推荐方法及装置 | |
CN106548210B (zh) | 基于机器学习模型训练的信贷用户分类方法及装置 | |
CN109902706B (zh) | 推荐方法及装置 | |
CN111291266A (zh) | 基于人工智能的推荐方法、装置、电子设备及存储介质 | |
CN110866628A (zh) | 利用动态时间上下文学习进行多界限时间序列预测的系统和方法 | |
CN112487278A (zh) | 推荐模型的训练方法、预测选择概率的方法及装置 | |
US11468379B2 (en) | Automated evaluation of project acceleration | |
US11314945B1 (en) | Profile-based natural language message generation and selection | |
CN113034168A (zh) | 内容项投放方法、装置、计算机设备及存储介质 | |
CN113609337A (zh) | 图神经网络的预训练方法、训练方法、装置、设备及介质 | |
US20170236056A1 (en) | Automated predictive modeling and framework | |
CN116976618A (zh) | 数据处理方法、装置、计算机设备及计算机可读存储介质 | |
CN116956009A (zh) | 一种数据处理方法及相关装置 | |
CN115905293A (zh) | 作业执行引擎的切换方法及装置 | |
CN115439180A (zh) | 一种目标对象确定方法、装置、电子设备及存储介质 | |
CN111274377B (zh) | 一种训练标记预测模型的方法及系统 | |
JP2021103382A (ja) | プロジェクト加速の自動評価 | |
KR102637198B1 (ko) | 인공지능 모델 제작 플랫폼을 통한 인공지능 모델 공유, 대여 및 판매방법, 장치 및 컴퓨터프로그램 | |
Afshar et al. | Dynamic Ad Network Ordering Method Using Reinforcement Learning | |
CN116805251A (zh) | 数据预测方法、装置、计算机设备和存储介质 | |
CN112036665A (zh) | 一种基于连续特征的预测方法、系统和装置 | |
CN116228325A (zh) | 一种广告投放方法、装置、介质及设备 | |
CN116680467A (zh) | 对象推荐方法、装置、计算机设备和存储介质 | |
CN117808525A (zh) | 激励发放的控制方法、装置及计算机设备 | |
CN117151884A (zh) | 资产管理数据处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |