CN112668801A - 数据处理方法、装置、电子设备和可读存储介质 - Google Patents

数据处理方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN112668801A
CN112668801A CN202110004176.4A CN202110004176A CN112668801A CN 112668801 A CN112668801 A CN 112668801A CN 202110004176 A CN202110004176 A CN 202110004176A CN 112668801 A CN112668801 A CN 112668801A
Authority
CN
China
Prior art keywords
attribute
activity
historical
terminal
online
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110004176.4A
Other languages
English (en)
Inventor
叶腾
艾苇
张凌宇
叶杰平
梅俏竹
张露露
吴国斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN202110004176.4A priority Critical patent/CN112668801A/zh
Publication of CN112668801A publication Critical patent/CN112668801A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种数据处理方法、装置、电子设备和可读存储介质,涉及计算机技术领域,在本发明实施例中,活动属性特征可以用于区别各个线上活动之间的差异,区域属性特征可以用于区别各个地区之间的差异,参与终端属性特征可以用于区别线上活动参与者之间的个体差异,进而,网约车平台可以结合活动参与终端自身的特性、区域自身的特性以及活动自身的特性,准确预测线上活动对于活动参与终端的活动影响参数,因此,通过本发明实施例可以更合理的配置线上活动。

Description

数据处理方法、装置、电子设备和可读存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据处理方法、装置、电子设备和可读存储介质。
背景技术
目前,网约车是人们常用的出行方式之一,有越来越多的人选择作为网约车服务的提供者。
为了加强网约车司机之间的联系、沟通以及工作活跃度等,网约车平台会时常组织团队活动,网约车司机可以通过团队活动提高自身的工作效率、生产效率等等,进而可以提高工作活跃度。
然而,由于每个网约车团队存在一定差异,因此,不同的团队获得的提升效果是不同的,也就是说,在一个团队活动中,会存在部分网约车团队无法获得提升,导致该团队活动所带来的整体效果较差。
发明内容
有鉴于此,本发明实施例提供一种数据处理方法、装置、电子设备和可读存储介质,以准确预测线上活动对于活动参与终端的活动影响参数,进而可以更合理的配置线上活动。
第一方面,提供了一种数据处理方法,所述方法应用于电子设备,所述方法包括:
获取与线上活动相关的特征集合,所述特征集合包括所述线上活动的活动属性特征、所述线上活动对应地理区域的区域属性特征以及参与所述线上活动的目标参与终端的参与终端属性特征;以及
以所述特征集合作为输入,通过预先训练的机器学习模型,确定所述预先训练的机器学习模型输出的活动影响参数的预测值,所述活动影响参数的预测值用于表征所述线上活动对于所述目标参与终端的属性影响值。
可选的,所述方法还包括:
获取训练集,所述训练集包括与历史活动相关的历史特征和历史影响值,所述历史特征包括所述历史活动的活动属性特征、所述历史活动对应地理区域的区域属性特征以及参与所述历史活动的各历史参与终端的参与终端属性特征,所述历史影响值用于表征所述历史比赛对于所述历史参与终端的属性影响值;以及
基于所述训练集,训练机器学习模型。
可选的,所述方法还包括:
针对所述历史活动,获取所述历史参与终端在活动阶段和基线阶段的属性分值,所述基线阶段用于表征活动前的预设时间段;
获取对照终端在所述活动阶段和所述基线阶段的属性分值;以及
基于所述历史参与终端对应的属性分值,和所述对照终端对应的属性分值,确定所述历史参与终端对应的历史影响值。
可选的,所述基于所述历史参与终端对应的属性分值,和所述对照终端对应的属性分值,确定所述历史参与终端对应的历史影响值,包括:
确定所述对照终端在所述活动阶段的属性分值,和在所述基线阶段的属性分值之间的第一差值;
基于所述第一差值和所述对照终端的数量,确定所述对照终端对应的平均差值;
针对每个历史参与终端,确定所述历史参与终端在所述活动阶段的属性分值,和在所述基线阶段的属性分值之间的第二差值;以及
将所述第二差值与所述平均差值之间的第三差值作为所述历史影响值。
可选的,所述方法还包括:
基于预设的特征向量对应关系,确定所述线上活动的各活动属性对应的特征向量,所述各活动属性对应的特征向量为所述活动属性特征,所述活动属性用于表征所述线上活动对应的各预设规则。
可选的,所述方法还包括:
基于预设的均方根误差算法,确定所述机器学习模型的性能衡量值。
可选的,所述机器学习模型包括套索回归模型和渐进梯度回归树模型。
可选的,所述参与终端属性特征包括目标属性特征和团队属性特征,所述目标属性特征用于表征与所述目标参与终端自身相关的数据,所述团队属性特征用于表征与所述目标参与终端所属团队相关的数据。
第二方面,提供了一种数据处理装置,所述装置应用于电子设备,所述装置包括:
第一获取模块,用于获取与线上活动相关的特征集合,所述特征集合包括所述线上活动的活动属性特征、所述线上活动对应地理区域的区域属性特征以及参与所述线上活动的目标参与终端的参与终端属性特征;以及
第一确定模块,用于以所述特征集合作为输入,通过预先训练的机器学习模型,确定所述预先训练的机器学习模型输出的活动影响参数的预测值,所述活动影响参数的预测值用于表征所述线上活动对于所述目标参与终端的属性影响值。
可选的,所述装置还包括:
第二获取模块,用于获取训练集,所述训练集包括与历史活动相关的历史特征和历史影响值,所述历史特征包括所述历史活动的活动属性特征、所述历史活动对应地理区域的区域属性特征以及参与所述历史活动的各历史参与终端的参与终端属性特征,所述历史影响值用于表征所述历史比赛对于所述历史参与终端的属性影响值;以及
训练模块,用于基于所述训练集,训练机器学习模型。
可选的,所述装置还包括:
第三获取模块,用于针对所述历史活动,获取所述历史参与终端在活动阶段和基线阶段的属性分值,所述基线阶段用于表征活动前的预设时间段;
第四获取模块,用于获取对照终端在所述活动阶段和所述基线阶段的属性分值;以及
第二确定模块,用于基于所述历史参与终端对应的属性分值,和所述对照终端对应的属性分值,确定所述历史参与终端对应的历史影响值。
可选的,所述第二确定模块,具体用于:
确定所述对照终端在所述活动阶段的属性分值,和在所述基线阶段的属性分值之间的第一差值;
基于所述第一差值和所述对照终端的数量,确定所述对照终端对应的平均差值;
针对每个历史参与终端,确定所述历史参与终端在所述活动阶段的属性分值,和在所述基线阶段的属性分值之间的第二差值;以及
将所述第二差值与所述平均差值之间的第三差值作为所述历史影响值。
可选的,所述装置还包括:
第三确定模块,用于基于预设的特征向量对应关系,确定所述线上活动的各活动属性对应的特征向量,所述各活动属性对应的特征向量为所述活动属性特征,所述活动属性用于表征所述线上活动对应的各预设规则。
可选的,所述装置还包括:
第四确定模块,用于基于预设的均方根误差算法,确定所述机器学习模型的性能衡量值。
可选的,所述机器学习模型包括套索回归模型和渐进梯度回归树模型。
可选的,所述参与终端属性特征包括目标属性特征和团队属性特征,所述目标属性特征用于表征与所述目标参与终端自身相关的数据,所述团队属性特征用于表征与所述目标参与终端所属团队相关的数据。
第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
在本发明实施例中,活动属性特征可以用于区别各个线上活动之间的差异,区域属性特征可以用于区别各个地区之间的差异,参与终端属性特征可以用于区别线上活动参与终端之间的差异,进而,网约车平台可以结合活动参与终端自身的特性、区域自身的特性以及活动自身的特性,准确预测线上活动对于活动参与终端的活动影响参数,因此,通过本发明实施例可以更合理的配置线上活动。
附图说明
通过以下参照附图对本发明实施例的描述,本发明实施例的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为本发明实施例提供的一种数据处理系统的示意图;
图2为本发明实施例提供的一种线上活动过程的示意图;
图3为本发明实施例提供的一种数据处理方法的流程图;
图4为本发明实施例提供的另一种数据处理方法的流程图;
图5为本发明实施例提供的另一种数据处理方法的流程图;
图6为本发明实施例提供的一种数据处理装置的结构示意图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
如图1所示,图1为本发明实施例提供的一种数据处理系统的示意图,该示意图包括多个终端设备1和服务器2,其中,终端设备1可以是智能手机、平板电脑或者个人计算机(Personal Computer,PC)等,服务器2可以是单个服务器,也可以是以分布式方式配置的服务器集群,还可以是云服务器。
在一种可实施方式中,终端设备1可以是线上活动的参与终端(例如网约车的司机端设备),服务器2可以是线上活动的平台端(例如网约车平台),各终端设备1均可以通过网络与服务器2进行通信。
具体的,基于终端设备1与服务器2之间的网络通信,服务器2可以实时或者周期性的获取终端设备1所产生的数据,进而根据收集到的数据预测线上活动对于终端设备1的活动影响参数。
例如,在线上活动A开始之前,服务器2可以实时或者周期性的获取终端设备1在一个特定时间段X内(例如X可以为30天)的每日接单数值、在线时长和行驶里程等数据,然后,服务器2可以根据来自于设备1产生的数据进行计算,确定如每日的产出数值等数据,并将每日的产出数值、每日接单数值、在线时长和行驶里程等数据作为终端设备1的目标属性特征。
另外,在另一种可选的实施方式中,服务器2也可以直接获取终端设备1每日的产出数值,也就是说,服务器2也可以实时或者周期性的获取终端设备1在一个特定时间段X内每日的产出数值、每日接单数值、在线时长和行驶里程等数据,然后将每日的产出数值、每日接单数值、在线时长和行驶里程等数据作为终端设备1的目标属性特征。
在线上活动A开始之前,若终端设备1属于某个活动队伍Y之中,则服务器2还可以获取活动队伍Y中各终端设备对应用户的年龄比例、家乡分布比例以及活动区域分布比例等,并将活动队伍Y对应的年龄比例、家乡分布比例以及活动区域分布比例等特征数据作为终端设备1的团队属性特征。
在线上活动A开始之前,服务器2还可以获取线上活动A对应地理区域中曾经举行线上活动的次数、司机终端设备的数量以及平均生产力、发展水平参数和天气预报等特征数据,并将该地理区域对应的特征数据作为线上活动A的区域属性特征。
在线上活动A开始之前,服务器2还可以获取线上活动A对应的各预设规则,并基于预设的特征向量对应关系,确定线上活动A的各预设规则对应的特征向量,然后将特征向量作为线上活动A的活动属性特征。
进而,综合上述服务器2获取的特征数据,服务器2可以将上述终端设备1的目标属性特征、终端设备1的团队属性特征、线上活动A的区域属性特征以及线上活动A的活动属性特征作为特征集合,并基于该特征集合预测终端设备1在线上活动A中的活动影响参数,即预测线上活动A对于终端设备1的影响值。
为了更好的对本发明实施例的数据处理方法进行解释说明,本发明实施例提供一种线上活动的示例性说明,如图2所示,图2为本发明实施例提供的一种线上活动过程的示意图,该示意图包括活动参与者a和非活动参与者b。
在一种应用场景中,图2所示的线上活动可以为网约车平台组织的线上团队活动,活动参与者a和非活动参与者b为该网约车平台下的司机终端设备(例如智能手机、车载终端等等),活动参与者a为参与终端,非活动参与者b为对照终端。
其中,司机终端设备可以是安装有网约车司机端应用程序的移动终端,例如智能手机或者平板电脑等。
在图2中,时间分为基线阶段、组队阶段和活动阶段,基线阶段为活动阶段开始之前的一段时间,在一种可实施方式中,基线阶段的时间长度与活动阶段的时间长度相同,基线阶段的星期与活动阶段的星期相对应,例如,活动阶段持续6天,且活动阶段的6天分别对应星期二至星期日,则基线阶段也持续6天,且基线阶段的6天也分别对应星期二至星期日。
当然,也可以通过其它方式划分基线阶段、组队阶段和活动阶段,本发明实施例对此不作限定。
在基线阶段,该网约车平台未进行任何线上活动,网约车平台可以确定并存储参与终端和对照终端在基线阶段的属性分值,以作为后续训练机器学习模型的样本数据。
其中,属性分值可以用于衡量生产力,在一种可实现方式中,属性分值可以为:在基线阶段或者活动阶段中的日平均生产量,以网约车平台为例,生产量可以由接单数等数值表示。
在组队阶段,该网约车平台可以向各司机端设备推送线上活动通知,该网约车平台下的各司机终端设备可以参与该线上活动。
在一种可实施方式中,组队阶段可以持续多天(天数可以在合理区间内进行设置,本发明实施例不做限定),在此期间,司机终端设备可以组建活动队伍并成为该队伍的队长,也可以加入已经组建的队伍,当组建阶段结束时,若司机终端设备未处于任一队伍(未能成功加入队伍或者未报名参加线上活动),则该司机终端设备为非活动参与者。
在活动阶段,各活动队伍及其中的活动参与者将进行线上活动,非活动参与者将照常工作,在一种可实施方式中,网约车平台可以将预设数量(例如5个)的活动队伍划分至一个线上活动组别,在同一线上活动组别中,各活动队伍可以基于生产力进行团队竞赛,团队竞赛胜出的队伍可以获得奖励,进而,网约车平台可以基于线上活动增加司机终端设备的活跃度。
目前,由于线上活动团队之间存在差异,因此,同一种线上活动对于不同的线上活动团队可能有不同的影响效果,进而,本发明实施例提出一种数据处理方法,以预测线上活动对于线上活动团队的影响。
下面将结合具体实施方式,对本发明实施例提供的一种数据处理方法进行详细的说明,如图3所示,具体步骤如下:
在步骤100,获取与线上活动相关的特征集合。
其中,特征集合包括线上活动的活动属性特征、线上活动对应地理区域的区域属性特征以及参与线上活动的目标参与终端的参与属性特征。
在步骤200,以特征集合作为输入,通过预先训练的机器学习模型,确定预先训练的机器学习模型输出的活动影响参数的预测值。
其中,活动影响参数的预测值用于表征线上活动对于目标参与终端的属性影响值,也就是说,活动影响参数用于表征目标参与终端是否参与线上活动的属性变化量。
在本发明实施例中,活动属性特征可以用于区别各个线上活动之间的差异,区域属性特征可以用于区别各个地区之间的差异,参与终端属性特征可以用于区别线上活动参与终端之间的差异,进而,网约车平台可以结合活动参与终端自身的特性、区域自身的特性以及活动自身的特性,准确预测线上活动对于活动参与终端的活动影响参数,因此,通过本发明实施例可以更合理的配置线上活动。
需要进一步说明的,活动属性特征可以用于表征对应线上活动的规则,即活动属性特征可以用于区别各线上活动。
具体的,确定活动属性特征的过程可以为:基于预设的特征向量对应关系,确定线上活动的各活动属性对应的特征向量。
其中,各活动属性对应的特征向量为活动属性特征,活动属性用于表征线上活动对应的各预设规则。
在一种可实施方式中,线上活动可以为网约车平台的团队竞赛A,具体的,在团队竞赛A的活动阶段中,可以由多个活动队伍进行生产力竞赛,在生产力竞赛过程中,可以包括多个预设规则:活动队伍的成绩为该队伍中各活动参与终端的属性分值相加;成绩排名最高的活动队伍中的各活动参与终端可以领取奖励a;成绩排名第二的活动队伍中的各活动参与终端可以领取奖励b。
针对每个预设规则,网约车平台可以确定每个预设规则对应的向量,进而可以将预设规则对应的向量作为线上活动的特征,确定活动影响参数的预测值。
还需要说明的,参与终端属性特征包括目标属性特征和团队属性特征,目标属性特征用于表征与目标参与终端自身相关的数据,团队属性特征用于表征与目标参与终端所属团队相关的数据。
以目标参与终端X为例,目标参与终端X的目标属性特征可以用于表征目标参与终端X的行为模式,具体的,目标参与终端X的目标属性特征可以包括:目标参与终端X在基线阶段中,每日的产出数值、每日接单数值和在线时长;目标参与终端X在比赛开始前预设天数(例如7天和/或30天)内,每日的产出数值、每日接单数值和在线时长;目标参与终端X对应的司机年龄、司机性别和在网约车平台的注册时长等。
目标参与终端X的团队属性特征可以用于表征目标参与终端X所属队伍的队伍组成结构,具体的,目标参与终端X的团队属性特征可以包括:目标参与终端X所属队伍的年龄比例;目标参与终端X所属队伍中各参与终端的家乡分布;目标参与终端X所属队伍中各参与终端的活动区域分布;目标参与终端X所属队伍中,曾处于同一活动队伍的参与终端的比例。
在实际应用中,若两个参与终端曾经在一个活动队伍中参与在线活动,则在新一次的在线活动中,该两个参与终端可以更默契的进行团队配合,以使得该两个参与终端可以在此次在线活动中获得更好地提升,因此,曾处于同一活动队伍的参与终端的比例可以作为影响属性影响值的团队属性特征。
还需要说明的,为了考虑活动环境对活动结果的影响,本发明实施例引入了线上活动对应地理区域的区域属性特征,具体的,以线上活动对应的地理区域A为例,区域A的区域属性特征可以包括:区域A中举行线上活动的次数;网约车平台在区域A中司机终端设备的数量以及平均生产力;区域A所属城市的发展水平;区域A在活动阶段时的天气情况。
进一步的,本发明实施例可以基于训练集对机器学习模型进行训练,具体的,训练过程包括以下步骤:获取训练集;以及基于训练集,训练机器学习模型。
其中,训练集包括与历史活动相关的历史特征和历史影响值,历史特征包括历史活动的活动属性特征、历史活动对应地理区域的区域属性特征以及参与历史活动的各历史参与终端的参与终端属性特征,历史影响值用于表征历史比赛对于历史参与终端的属性影响值。
机器学习模型包括套索回归(Lasso Regression)模型和渐进梯度回归树(Gradient Boost Regression Tree,GBRT)模型。
Lasso Regression是一种基于线性回归的模型,其中,该模型引入了L1(L1-norm)正则项,L1正则项可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择,进而,可以使得Lasso Regression能够通过学习到的系数对特征的预测能力提供自然的解释。
GBRT是一种回归树结构的模型,具有较强的预测能力,其可以捕获特征之间的非线性关系和相互关系,进而,可以较好的表征不同的特征对于属性分值的影响。
如图4所示,可以基于如下步骤确定历史影响值:
在步骤41,针对历史活动,获取历史参与终端在活动阶段和基线阶段的属性分值。
其中,结合图2所述内容,基线阶段可以用于表征活动前的预设时间段。
在本发明实施例中,为了更清楚的进行解释说明,将属性分值定义为R,将基线阶段定义为T0,将活动阶段定义为T1,将历史参与终端定义为j,将对照终端定义为i。
进一步的,历史参与终端在活动阶段的属性分值为
Figure BDA0002882861890000111
历史参与终端在基线阶段的属性分值为
Figure BDA0002882861890000112
在步骤42,获取对照终端在活动阶段和基线阶段的属性分值。
结合上述定义,对照终端在活动阶段的属性分值为
Figure BDA0002882861890000113
对照终端在基线阶段的属性分值为
Figure BDA0002882861890000114
在步骤43,基于历史参与终端对应的属性分值,和对照终端对应的属性分值,确定历史参与终端对应的历史影响值。
在一种可实施方式中,历史影响值可以用于表征历史参与终端在线上活动的提升效果。
具体的,如图5所示,步骤43可以包括以下步骤:
在步骤431,确定对照终端在活动阶段的属性分值,和在基线阶段的属性分值之间的第一差值。
结合上述针对对照终端的定义,第一差值可以表示为
Figure BDA0002882861890000115
Figure BDA0002882861890000116
其中,第一差值可以用于表征对照终端在活动阶段的属性分值变化,该变化可以是受到环境或者对照终端自身等因素影响的结果。
在步骤432,基于第一差值和对照终端的数量,确定对照终端对应的平均差值。
平均差值可以表示为
Figure BDA0002882861890000117
其中,CONTROL用于表征多个对照终端所组成的对照组。
在步骤433,针对每个历史参与终端,确定历史参与终端在活动阶段的属性分值,和在基线阶段的属性分值之间的第二差值。
结合上述针对历史参与终端的定义,第二差值可以表示为
Figure BDA0002882861890000121
第二差值可以用于表征历史参与终端在活动阶段的属性分值变化,该变化可以是受到环境、历史参与终端自身、线上活动以及活动队伍等因素影响的结果。
在步骤434,将第二差值与平均差值之间的第三差值作为历史影响值。
结合平均差值和第二差值的表达式,第三差值可以表示为
Figure BDA0002882861890000122
其中,ITE(Individual Treatment Effect)为个体干预效果,即用于表征历史影响值。
需要说明的,上述步骤431至步骤434为本发明实施例中一种可选的实施方式,步骤431至步骤432为确定平均差值的过程,步骤433为确定第二差值的过程,该两个过程可以异步执行,也可以同步执行,本发明实施例对该两个过程的执行先后顺序不做限定。
另外,本发明实施例还可确定历史影响平均值,即线上活动对历史参与终端的平均影响效果(Average Treatment Effect,ATE),具体的,可以确定N个历史参与终端的历史影响值总和,然后历史影响平均值=历史影响值总和/N。
在本发明实施例中,针对机器学习模型进行训练后,可以对训练后的机器学习模型进行性能衡量,具体的,性能衡量的过程可以为:基于预设的均方根误差算法,确定机器学习模型的性能衡量值。
其中,均方根误差是预测值与真实值偏差的平方与观测次数比值的平方根,具体的,可以基于如下公式确定机器学习模型的性能衡量值:
Figure BDA0002882861890000123
其中,均方根误差(Root Mean Squared Error,RMSE)用于表征机器学习模型的性能衡量值,Ck用于表征线上活动,∑kN(Ck)用于表征参与线上活动的历史参与终端的数量,
Figure BDA0002882861890000124
用于表征影响值的预测值,
Figure BDA0002882861890000125
用于表征影响值的实际值(该实际值可以为基于上述步骤31至步骤33确定的历史影响值)。
在实际应用中,RMSE的值越小,则表示测量值与真实值之间的误差越小,进而表示机器学习模型的性能越优秀。
进一步的,本发明实施例可以基于训练好的机器学习模型,对活动影响参数进行预测。
具体的,针对任一个线上活动Ck,与线上活动Ck相关的特征(活动属性特征和区域属性特征)可以表示为
Figure BDA0002882861890000131
与参与该线上活动Ck的目标参与终端(j)相关的特征(目标属性特征)可以表示为
Figure BDA0002882861890000132
与目标参与终端(j)所属活动队伍相关的特征(团队属性特征)可以表示为
Figure BDA0002882861890000133
进而,目标参与终端(j)的活动影响参数可以表示为
Figure BDA0002882861890000134
Figure BDA0002882861890000135
由该活动影响参数的表达式可知,活动影响参数是结合活动属性特征、区域属性特征、目标属性特征和团队属性特征确定得到的,因此,在本发明实施例中,可以通过多种用于区别个体差异的特征,准确预测线上活动对于目标参与终端带来的影响。
基于相同的技术构思,本发明实施例还提供了一种数据处理装置,如图6所示,该装置包括:第一获取模块61和第一确定模块62;
第一获取模块61,用于获取与线上活动相关的特征集合,所述特征集合包括所述线上活动的活动属性特征、所述线上活动对应地理区域的区域属性特征以及参与所述线上活动的目标参与终端的参与终端属性特征;以及
第一确定模块62,用于以所述特征集合作为输入,通过预先训练的机器学习模型,确定所述预先训练的机器学习模型输出的活动影响参数的预测值,所述活动影响参数的预测值用于表征所述线上活动对于所述目标参与终端的属性影响值。
在本发明实施例中,活动属性特征可以用于区别各个线上活动之间的差异,区域属性特征可以用于区别各个地区之间的差异,参与终端属性特征可以用于区别线上活动参与终端之间的差异,进而,网约车平台可以结合活动参与终端自身的特性、区域自身的特性以及活动自身的特性,准确预测线上活动对于活动参与终端的活动影响参数,因此,通过本发明实施例可以更合理的配置线上活动。
图7是本发明实施例的电子设备的示意图。如图7所示,图7所示的电子设备为通用地址查询装置,其包括通用的计算机硬件结构,其至少包括处理器71和存储器72。处理器71和存储器72通过总线73连接。存储器72适于存储处理器71可执行的指令或程序。处理器71可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器71通过执行存储器72所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线73将上述多个组件连接在一起,同时将上述组件连接到显示控制器74和显示装置以及输入/输出(I/O)装置75。输入/输出(I/O)装置75可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置75通过输入/输出(I/O)控制器76与系统相连。
需要说明的是,处理器71用于执行存储器72上所存放的程序时,还用于实现上述方法实施例中描述的其他步骤,可参考上述方法实施例中的相关描述,此处不再赘述。
本领域的技术人员应明白,本发明的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本申请实施例公开了TS1、一种数据处理方法,其特征在于,所述方法包括:
获取与线上活动相关的特征集合,所述特征集合包括所述线上活动的活动属性特征、所述线上活动对应地理区域的区域属性特征以及参与所述线上活动的目标参与终端的参与终端属性特征;以及
以所述特征集合作为输入,通过预先训练的机器学习模型,确定所述预先训练的机器学习模型输出的活动影响参数的预测值,所述活动影响参数的预测值用于表征所述线上活动对于所述目标参与终端的属性影响值。
TS2、根据TS1所述的方法,其中,
获取训练集,所述训练集包括与历史活动相关的历史特征和历史影响值,所述历史特征包括所述历史活动的活动属性特征、所述历史活动对应地理区域的区域属性特征以及参与所述历史活动的各历史参与终端的参与终端属性特征,所述历史影响值用于表征所述历史比赛对于所述历史参与终端的属性影响值;以及
基于所述训练集,训练机器学习模型。
TS3、根据TS2所述的方法,其中,
针对所述历史活动,获取所述历史参与终端在活动阶段和基线阶段的属性分值,所述基线阶段用于表征活动前的预设时间段;
获取对照终端在所述活动阶段和所述基线阶段的属性分值;以及
基于所述历史参与终端对应的属性分值,和所述对照终端对应的属性分值,确定所述历史参与终端对应的历史影响值。
TS4、根据TS3所述的方法,其中,
确定所述对照终端在所述活动阶段的属性分值,和在所述基线阶段的属性分值之间的第一差值;
基于所述第一差值和所述对照终端的数量,确定所述对照终端对应的平均差值;
针对每个历史参与终端,确定所述历史参与终端在所述活动阶段的属性分值,和在所述基线阶段的属性分值之间的第二差值;以及
将所述第二差值与所述平均差值之间的第三差值作为所述历史影响值。
TS5、根据TS1所述的方法,其中,
基于预设的特征向量对应关系,确定所述线上活动的各活动属性对应的特征向量,所述各活动属性对应的特征向量为所述活动属性特征,所述活动属性用于表征所述线上活动对应的各预设规则。
TS6、根据TS2所述的方法,其中,
基于预设的均方根误差算法,确定所述机器学习模型的性能衡量值。
TS7、根据TS1所述的方法,其中,所述机器学习模型包括套索回归模型和渐进梯度回归树模型。
TS8、根据TS1所述的方法,其中,所述参与终端属性特征包括目标属性特征和团队属性特征,所述目标属性特征用于表征与所述目标参与终端自身相关的数据,所述团队属性特征用于表征与所述目标参与终端所属团队相关的数据。
TS9、一种数据处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取与线上活动相关的特征集合,所述特征集合包括所述线上活动的活动属性特征、所述线上活动对应地理区域的区域属性特征以及参与所述线上活动的目标参与终端的参与终端属性特征;以及
第一确定模块,用于以所述特征集合作为输入,通过预先训练的机器学习模型,确定所述预先训练的机器学习模型输出的活动影响参数的预测值,所述活动影响参数的预测值用于表征所述线上活动对于所述目标参与终端的属性影响值。
TS10、一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如TS1-TS8中任一项所述的方法。
TS11、一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现TS1-TS8任一项所述的方法。
TS12、一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现TS1-TS8任一项所述的方法。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取与线上活动相关的特征集合,所述特征集合包括所述线上活动的活动属性特征、所述线上活动对应地理区域的区域属性特征以及参与所述线上活动的目标参与终端的参与终端属性特征;以及
以所述特征集合作为输入,通过预先训练的机器学习模型,确定所述预先训练的机器学习模型输出的活动影响参数的预测值,所述活动影响参数的预测值用于表征所述线上活动对于所述目标参与终端的属性影响值。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练集,所述训练集包括与历史活动相关的历史特征和历史影响值,所述历史特征包括所述历史活动的活动属性特征、所述历史活动对应地理区域的区域属性特征以及参与所述历史活动的各历史参与终端的参与终端属性特征,所述历史影响值用于表征所述历史比赛对于所述历史参与终端的属性影响值;以及
基于所述训练集,训练机器学习模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
针对所述历史活动,获取所述历史参与终端在活动阶段和基线阶段的属性分值,所述基线阶段用于表征活动前的预设时间段;
获取对照终端在所述活动阶段和所述基线阶段的属性分值;以及
基于所述历史参与终端对应的属性分值,和所述对照终端对应的属性分值,确定所述历史参与终端对应的历史影响值。
4.根据权利要求3所述的方法,其特征在于,所述基于所述历史参与终端对应的属性分值,和所述对照终端对应的属性分值,确定所述历史参与终端对应的历史影响值,包括:
确定所述对照终端在所述活动阶段的属性分值,和在所述基线阶段的属性分值之间的第一差值;
基于所述第一差值和所述对照终端的数量,确定所述对照终端对应的平均差值;
针对每个历史参与终端,确定所述历史参与终端在所述活动阶段的属性分值,和在所述基线阶段的属性分值之间的第二差值;以及
将所述第二差值与所述平均差值之间的第三差值作为所述历史影响值。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于预设的特征向量对应关系,确定所述线上活动的各活动属性对应的特征向量,所述各活动属性对应的特征向量为所述活动属性特征,所述活动属性用于表征所述线上活动对应的各预设规则。
6.根据权利要求1所述的方法,其特征在于,所述参与终端属性特征包括目标属性特征和团队属性特征,所述目标属性特征用于表征与所述目标参与终端自身相关的数据,所述团队属性特征用于表征与所述目标参与终端所属团队相关的数据。
7.一种数据处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取与线上活动相关的特征集合,所述特征集合包括所述线上活动的活动属性特征、所述线上活动对应地理区域的区域属性特征以及参与所述线上活动的目标参与终端的参与终端属性特征;以及
第一确定模块,用于以所述特征集合作为输入,通过预先训练的机器学习模型,确定所述预先训练的机器学习模型输出的活动影响参数的预测值,所述活动影响参数的预测值用于表征所述线上活动对于所述目标参与终端的属性影响值。
8.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1-6任一项所述的方法。
CN202110004176.4A 2021-01-04 2021-01-04 数据处理方法、装置、电子设备和可读存储介质 Pending CN112668801A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110004176.4A CN112668801A (zh) 2021-01-04 2021-01-04 数据处理方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110004176.4A CN112668801A (zh) 2021-01-04 2021-01-04 数据处理方法、装置、电子设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN112668801A true CN112668801A (zh) 2021-04-16

Family

ID=75412696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110004176.4A Pending CN112668801A (zh) 2021-01-04 2021-01-04 数据处理方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN112668801A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287928A (zh) * 2018-03-05 2018-07-17 四川易利数字城市科技有限公司 一种基于局部加权线性回归的空间属性预测方法
CN109658124A (zh) * 2018-10-24 2019-04-19 中国平安人寿保险股份有限公司 基于大数据的效果预测方法、装置、介质及电子设备
CN111309774A (zh) * 2018-12-11 2020-06-19 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、电子设备及存储介质
CN111860856A (zh) * 2020-01-15 2020-10-30 北京嘀嘀无限科技发展有限公司 概率分布函数训练方法、服务激励处理方法、装置及设备
CN111915073A (zh) * 2020-04-28 2020-11-10 同济大学 一种考虑日期属性和天气因素的铁路城际客流短期预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287928A (zh) * 2018-03-05 2018-07-17 四川易利数字城市科技有限公司 一种基于局部加权线性回归的空间属性预测方法
CN109658124A (zh) * 2018-10-24 2019-04-19 中国平安人寿保险股份有限公司 基于大数据的效果预测方法、装置、介质及电子设备
CN111309774A (zh) * 2018-12-11 2020-06-19 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、电子设备及存储介质
CN111860856A (zh) * 2020-01-15 2020-10-30 北京嘀嘀无限科技发展有限公司 概率分布函数训练方法、服务激励处理方法、装置及设备
CN111915073A (zh) * 2020-04-28 2020-11-10 同济大学 一种考虑日期属性和天气因素的铁路城际客流短期预测方法

Similar Documents

Publication Publication Date Title
CN107998661B (zh) 一种在线对战游戏的辅助决策方法、装置及存储介质
CN109009171A (zh) 注意力测评方法、系统及计算机可读存储介质
CN108875013B (zh) 处理地图数据的方法及装置
CN108304440A (zh) 游戏推送的方法、装置、计算机设备及存储介质
CN109902820B (zh) Ai模型训练方法、装置、存储介质及设备
CN107335220B (zh) 一种消极用户的识别方法、装置及服务器
CN108681921B (zh) 一种基于随机博弈获取群智感知激励策略的方法及装置
CN109583594B (zh) 深度学习训练方法、装置、设备及可读存储介质
CN108334575A (zh) 一种推荐结果排序修正方法及装置,电子设备
CN112113581B (zh) 异常计步识别方法、计步方法、装置、设备及介质
CN111860101A (zh) 一种人脸关键点检测模型的训练方法及装置
CN110732140A (zh) 游戏奖励实现方法及装置
CN111389013A (zh) 游戏中的自动挂检测方法、装置、设备及存储介质
CN112817832B (zh) 游戏服务器的健康状态获取方法、装置、设备及存储介质
CN114547917A (zh) 仿真预测方法、装置、设备及存储介质
CN114355793A (zh) 用于车辆仿真评测的自动驾驶规划模型的训练方法及装置
CN113742069A (zh) 基于人工智能的容量预测方法、装置及存储介质
CN112668801A (zh) 数据处理方法、装置、电子设备和可读存储介质
CN114342411B (zh) 提供一组或多组图形参数的方法、执行实现提供一组或多组图形参数的方法的程序的计算机
US20140214826A1 (en) Ranking method and system
CN112001774A (zh) 基于神经网络的烟草投放量研判方法及系统
CN113780415B (zh) 基于小程序游戏的用户画像生成方法、装置、设备及介质
CN111309774A (zh) 数据处理方法、装置、电子设备及存储介质
CN115311001A (zh) 一种基于多重投票算法的预测用户换机倾向的方法及系统
CN113680071A (zh) 电子勋章生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination