CN114880581B

CN114880581B - 用户数据处理方法、存储介质及电子设备

Info

Publication number: CN114880581B
Application number: CN202210755534.XA
Authority: CN
Inventors: 张凯伦; 魏爽; 张希; 王殿胜; 卞磊; 唐红武; 薄满辉
Original assignee: China Travelsky Mobile Technology Co Ltd
Current assignee: China Travelsky Mobile Technology Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-09-16
Anticipated expiration: 2042-06-30
Also published as: CN114880581A

Abstract

本发明提供了一种用户数据处理方法，包括：获取目标用户对应的画像特征数据P；根据目标用户对应的第一事件集B，确定目标用户对应的行为特征信息A；根据当前时间t_now和第一时间跨度，获取目标用户的第二事件集M={m₁,m₂,m₃,...,m_n}，m_i=(d_1i,d_2i,p_i,q_i,t_i)；确定目标用户对应的用户特征向量E=(P,A,d_1n,d_2n,p_n/U_n,q_n,n‑1,L)；其中，U_n为m_n对应的第二事件参数，U_n=dist(d_1n,d_2n),dist()为预设的距离计算函数；L为目标用户对应的用户参数，L=Num(q_i≠1,m_i,1,n‑1)/(n‑1），Num()为预设的计数函数；根据E，在若干候选事件类型中，确定出目标事件类型。采用本公开，通过目标用户的画像特征数据P、行为特征信息A和第二事件集M等特征数据确定目标用户对应的目标事件类型，特征数据较为多样化，可以提高确定目标用户对应的目标事件类型的准确度。

Description

用户数据处理方法、存储介质及电子设备

技术领域

本发明涉及数据处理领域，特别是涉及一种用户数据处理方法、存储介质及电子设备。

背景技术

随着全民风险意识和保险意识的逐步加强，用户对航班出行保险的需求也越来越强烈。

将每一用户最感兴趣的航班出行保险的类型设置为该用户对应的目标事件类型，则目前对用户对应的目标事件类型进行预测时，通常只考虑该用户的历史浏览行为数据、历史点击行为数据和历史购买行为数据等行为特征数据。

但是，大多数用户对应的特征数据均较少，基于此，极易产生数据重叠，即极易产生不同用户的特征数据完全相同或类似的情况，不同用户的特征数据区分度较小，进而对用户对应的目标事件类型进行预测的准确度较低。

发明内容

针对上述技术问题，本发明采用的技术方案为：

根据本公开的一方面，提供了一种用户数据处理方法，该方法包括：

获取目标用户对应的画像特征数据P；

根据目标用户对应的第一事件集B，确定目标用户对应的行为特征信息A；

根据当前时间t_now和第一时间跨度，获取目标用户的第二事件集M={m₁,m₂,m₃,...,m_n}，m_i=(d_1i,d_2i,p_i,q_i,t_i)；其中，m_i为第i个第二事件，d_1i为第i个第二事件对应的源位置，d_2i为第i个第二事件对应的目的位置，p_i为第i个第二事件对应的第一事件参数，t_i为第i个第二事件对应的事件开始时间，q_i为第i个第二事件对应的事件标识，t₁＜t₂＜t₃＜...＜t_n，t_n-1＜t_now＜t_n；

确定目标用户对应的用户特征向量E=(P,A,d_1n,d_2n,p_n/U_n,q_n,n-1,L)；其中，U_n为m_n对应的第二事件参数，U_n=dist(d_1n,d_2n),dist()为预设的距离计算函数；L为目标用户对应的用户参数，L=Num(q_i≠1,m_i,1,n-1)/(n-1），Num()为预设的计数函数；

根据E，在若干候选事件类型中，确定出目标事件类型。

根据本公开的另一方面，还提供了一种非瞬时性计算机可读存储介质，存储介质中存储有至少一条指令或至少一段程序，至少一条指令或至少一段程序由处理器加载并执行以实现上述用户数据处理方法。

根据本公开的另一方面，还提供了一种电子设备，包括处理器和上述非瞬时性计算机可读存储介质。

本发明至少具有以下有益效果：

通过目标用户的画像特征数据P、行为特征信息A和第二事件集M等特征数据确定目标用户对应的目标事件类型，可以使目标用户对应的特征数据较多且更为多样化，进而在确定目标用户对应的目标事件类型时出现数据重叠的可能性较低，即不同目标用户的特征数据完全相同或类似的情况出现的可能性较低，不同目标用户的特征数据区分度较大，进而可以提高确定目标用户对应的目标事件类型的准确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的用户数据处理的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种用户数据处理方法，其中，该方法可以由以下任意一项或其任意组合完成：终端、服务器、其他具备处理能力的设备，本发明实施例对此不作限定。

本发明实施例以用户数据处理方法应用于第一服务器为例，下面将参照图1所示的用户数据处理的流程图，对用户数据处理方法进行介绍。

该方法包括以下步骤：

步骤S200，获取目标用户对应的画像特征数据P。

其中，目标用户的用户标识和对应的画像特征数据P均可以预先存储于第二服务器中，第二服务器与第一服务器通信连接，例如，第二服务器可以为航空公司或机场对应的服务器。

在一种可能的实施方式中，第一服务器可以根据目标用户的用户标识，从第二服务器中获取目标用户对应的画像特征数据P。

步骤S400，根据目标用户对应的第一事件集B，确定目标用户对应的行为特征信息A。

其中，目标用户对应的第一事件集B可以预先存储于第二服务器中。

在一种可能的实施方式中，第一服务器可以根据目标用户的用户标识，从第二服务器中获取B，B可以设置为目标用户已购买的航班保险的集合，本发明实施例对此不作限定。接着根据B，确定目标用户对应的行为特征信息A。

步骤S600，根据当前时间t_now和第一时间跨度，获取目标用户的第二事件集M={m₁,m₂,m₃,...,m_n}，m_i=(d_1i,d_2i,p_i,q_i,t_i)。

其中，m_i为第i个第二事件，d_1i为第i个第二事件对应的源位置，d_2i为第i个第二事件对应的目的位置，p_i为第i个第二事件对应的第一事件参数，t_i为第i个第二事件对应的事件开始时间，q_i为第i个第二事件对应的事件标识，t₁＜t₂＜t₃＜...＜t_n，t_n-1＜t_now＜t_n。第一时间跨度可以设置为0.5至5年，优选的，第一时间跨度可以设置为1年，目标用户对应的第二事件集可以均预先存储于第二服务器中。每一第二事件均可以设置为单次航班，基于此，源位置为起飞地，目的位置为到达地，第一事件参数为票价，事件开始时间为起飞时间，事件标识为座位等级，q_i=1用于表示第i个第二事件的座位等级为经济舱，q_i=2用于表示第i个第二事件的座位等级为商务舱，q_i=3用于表示第i个第二事件的座位等级为头等舱。

在一种可能的实施方式中，第一服务器可以获取当前时间t_now和第一时间跨度并得到目标时间段，该目标时间段以t_now作为目标时间段的时间终点、以第一时间跨度作为目标时间段的时间长度，接着根据目标用户的用户标识，从第二服务器中获取目标时间段内目标用户的第二事件集M={m₁,m₂,m₃,...,m_n}，m_i=(d_1i,d_2i,p_i,q_i,t_i)。其中，m₁至m_n-1均为在目标时间段内起飞的单次航班，m_n为未来最近一次待起飞的单次航班。

步骤S800，确定目标用户对应的用户特征向量E=(P,A,d_1n,d_2n,p_n/U_n,q_n,n-1,L)。

其中，U_n为m_n对应的第二事件参数，U_n=dist(d_1n,d_2n),dist()为预设的距离计算函数；L为目标用户对应的用户参数，L=Num(q_i≠1,m_i,1,n-1)/(n-1），Num()为预设的计数函数，q_i≠1用于表示Num()的计数条件为qi≠1，m_i、1和n-1这三个参数用于表示分别判断m₁至m_n-1是否满足计数条件，若满足，则计数加1。基于每一第二事件均可以设置为单次航班，U_n为m_n对应的飞行公里数，p_n/U_n为m_n对应的每公里票价。

在一种可能的实施方式中，根据已得到的P、A、d_1n、d_2n、p_n/U_n、q_n、n-1和L，可以构建E=(P,A,d_1n,d_2n,p_n/U_n,q_n,n-1,L)。

步骤S1000，根据E，在若干候选事件类型中，确定出目标事件类型。

其中，若干候选事件类型可以设置为若干航班保险的类型，例如，若干候选事件类型可以包括航班延误险、航班取消险和航班备降险等类型。

在一种可能的实施方式中，根据E，确定目标用户对应的目标事件类型，目标事件类型为若干候选事件类型中的任意一个。

因此，通过目标用户的画像特征数据P、行为特征信息A和第二事件集M等特征数据确定目标用户对应的目标事件类型，可以使目标用户对应的特征数据较多且更为多样化，进而在确定目标用户对应的目标事件类型时出现数据重叠的可能性较低，即不同目标用户的特征数据完全相同或类似的情况出现的可能性较低，不同目标用户的特征数据区分度较大，进而可以提高确定目标用户对应的目标事件类型的准确度。

可选的，该方法还包括：

根据m_n对应的历史关联事件数据集W_n，获取m_n对应的第一预测关联事件数据集H_1n={(h₁₁,t_now+1),....,(h₁₇,t_now+7)}、第二预测关联事件数据集H_2n={(h₂₁,t_now+1)，....,(h₂₇,t_now+7)}和第三预测关联事件数据集H_3n={(h₃₁,t_now+1),....,(h₃₇,t_now+7)}。

其中，t_now+j为t_now向后j个第二时间跨度的时间点对应的时间区间，h_1j为预测得到的t_now+j内的第一类人员数量，第一类人员数量为位于d_1n和d_2n对应的地理区域内的具有第一标识的人员的数量，d_1n对应的地理区域可以设置为d_1n所在的市级行政区域，d_2n对应的地理区域可以设置为d_2n所在的市级行政区域，h_2j为预测得到的t_now+j内的第二类人员数量，第二类人员数量为位于d_1n和d_2n对应的地理区域内的具有第一标识和第二标识的人员的数量，h_3j为预测得到的t_now+j内的第三类人员数量，第三类人员数量为位于d_1n和d_2n对应的地理区域内的具有第一标识和第三标识的人员的数量。

其中，关联事件可以设置为疫情，基于此，第一标识可以设置为用于表示确诊疫情相关病症的标识，第二标识可以设置为用于表示死亡的标识，第三标识可以设置为用于表示疾病治愈的标识，对应的，第一类人员数量为确诊疫情相关病症的人数，第二类人员数量为确诊疫情相关病症后死亡的人数，第三类人员数量为确诊疫情相关病症后治愈的人数。

在一种可能的实施方式中，W_n可以预先存储于第三服务器中，第三服务器可以与第一服务器通信连接，第三服务器可以为关联事件对应的服务器，第一服务器可以从第三服务器中获取W_n=(w₁,w₂,w₃)，w₁、w₂和w₃分别为t_now以前的第一类历史人员数量、第二类历史人员数量和第三类历史人员数量，其中，第一类历史人员数量为位于d_1n和d_2n对应的地理区域内的具有第一标识的人员的历史累计数量，第二类历史人员数量为位于d_1n和d_2n对应的地理区域内的具有第一标识和第二标识的人员的历史累计数量，第三类历史人员数量为位于d_1n和d_2n对应的地理区域内的具有第一标识和第三标识的人员的历史累计数量。

接着通过第一预测模型对w₁进行预测处理得到h₁₁，通过预测模型对w₁和h₁₁的和值进行预测处理得到h₁₂，通过预测模型对w₁、h₁₁和h₁₂的和值进行预测处理得到h_13,，……以此类推，可以预测得到h₁₁、h₁₂、h₁₃、h₁₄、h₁₅、h₁₆和h₁₇，即可以得到H_1n={(h₁₁,t_now+1),....,(h₁₇,t_now+7)},同理，可以基于第二预测模型和w₂进行预测处理得到H_2n={(h₂₁,t_now+1)，....,(h₂₇,t_now+7)},可以基于第三预测模型和w₃进行预测处理得到H_3n={(h₃₁,t_now+1),....,(h₃₇,t_now+7)}，得到H_2n和H_3n的方式和得到H_1n的方式同理，本发明实施例在此不再赘述。可选的，第一预测模型、第二预测模型和第三预测模型均可以采用差分整合移动平均自回归模型(ARIMA)，本发明对上述第一预测模型、第二预测模型和第三预测模型具体采用的模型均不作限定。

进一步的，基于上述内容，上述步骤S800还可以包括如下步骤：

步骤S810，确定用户特征向量E=(P,A,d_1n,d_2n,p_n/U_n,q_n,n-1,L,H_1n,H_2n,H_3n,s_n,r_n,v_n)；其中，s_n为m_n对应的第三事件参数，r_n为m_n对应的事件等级标识，v_n=v_1n+v_2n，v_n为m_n对应的关联区域的总数量，v_1n为d_1n对应的地理区域内的关联区域的数量，v_2n为d_2n对应的地理区域内的关联区域的数量。

其中，第三事件参数为历史准点率，事件等级标识为预计延误等级，关联区域可以设置为中高风险地区，每一用户对应的s_n和r_n均可以预先存储于第二服务器中，v_1n和v_2n均可以预先存储于第三服务器中。

在一种可能的实施方式中，可以根据目标用户的用户标识从第二服务器获取目标用户对应的s_n和r_n，根据d_1n和d_2n分别从第三服务器中获取v_1n和v_2n，v_n=v_1n+v_2n，进而可以构建用户特征向量E=(P,A,d_1n,d_2n,p_n/U_n,q_n,n-1,L,H_1n,H_2n,H_3n,s_n,r_n,v_n)。

因此，在确定目标用户对应的目标事件类型时还会考虑H_1n、H_2n、H_3n、s_n、r_n和v_n等特征数据，可以使目标用户对应的特征数据均更多且更为多样化，进而在确定目标用户对应的目标事件类型时出现数据重叠的可能性进一步降低，还可以考虑到关联事件对确定目标用户对应的目标事件类型的影响，进而可以进一步提高确定目标用户对应的目标事件类型的准确度。

可选的，上述步骤S400还可以包括如下步骤：

步骤S410，根据当前时间t_now和第一时间跨度，获取目标用户对应的第一事件集B={b₁,b₂,b₃,...,b_y}，b_x=(k1_x,o_x)。其中，b_x为第x个第一事件，k1_x为第x个第一事件对应的第一事件类型标识，第一事件类型标识用于表示第一事件对应的候选事件类型,o_x为第x个第一事件对应的第四事件参数。

步骤S420，根据B，获取目标用户对应的行为特征信息A={a₁,a₂,a₃,...,a_z}，a_k=(co_k,mo_k,sh_k,cl_k)。其中，z为若干候选事件类型的数量，a_k为第k个候选事件类型对应的行为特征信息，co_k为B中具有第k个候选事件类型对应的第一事件类型标识的第一事件的数量，mo_k为B中具有第k个候选事件类型对应的第一事件类型标识的第四事件参数的和，sh_k为第k个候选事件类型对应的展示次数，且sh_k为根据目标用户的用户标识从展示统计服务器获取的，cl_k为第k个候选事件类型对应的点击次数，且cl_k为根据目标用户的用户标识从点击统计服务器获取的。

其中，B可以预先存储于第二服务器中，第一事件可以设置为目标用户已购买的航班保险，基于此，第四事件参数可以设置为保险价格，展示次数为目标用户进入展示航班保险的页面的次数，点击次数为目标用户点击航班保险的次数。

在一种可能的实施方式中，第一服务器可以从第二服务器获取B，并根据B获取A。

因此，在确定目标用户对应的目标事件类型时还会考虑A={a₁,a₂,a₃,...,a_z}，a_k=(co_k,mo_k,sh_k,cl_k)，行为特征信息A包括信息较多且较为多样化，在确定目标用户对应的目标事件类型时出现数据重叠的可能性可以进一步降低，进而可以进一步提高确定目标用户对应的目标事件类型的准确度。

可选的，画像特征数据P={p₁,p₂,p₃,p₄}。其中，p₁为年龄数据，p₂为性别标识，p₃为关联位置，p₄为设备标识。

在一种可能的实施方式中，p₂=1或2，p₂=说明目标用户的性别为男，p₂=2说明目标用户的性别为女，p₃为常住地内任意一点的经纬度坐标，p₄=AND或IOS，p₄=AND说明目标用户的常用手机为安卓手机，p₂=IOS说明目标用户的常用手机为苹果手机。

可选的，该方法还包括步骤S100，步骤S100包括如下步骤：

步骤S110，根据t_now，获取若干历史用户对应的历史第三事件集D={d₁,d₂,d₃,...,d_u}，d_g=(id_g,k2_g,qu_g)。其中，d_g为第g个第三事件，id_g为第g个第三事件对应的历史用户标识，k2_g为第g个第三事件对应的第二事件类型标识，第二事件类型标识用于表示第三事件对应的候选事件类型,qu_g为第g个第三事件对应的第五事件参数；

步骤S120，获取初始分类模型。

步骤S130，对初始分类模型进行训练。

步骤S140，周期性获取训练中分类模型的评价信息；评价信息包括第一评价值集C1={c1₁,c1₂,c1₃,...,c1_z}。其中，z为若干候选事件类型的数量，c1_k为第k个候选事件类型对应的第一评价值；

c1_k符合如下条件：

；其中，precision_k为第k个候选事件类型对应的精确度，recall_k为第k个候选事件类型对应的召回率，β_k为第k个候选事件类型的第一权重；

β_k符合如下条件：

β_k=(1/si_k)/∑^z _k=1(1/si_k)；其中，si_k为D中具有第k个候选事件类型对应的第二事件类型标识的第三事件的数量。

步骤S150，根据评价信息，确定分类模型。

其中，D可以设置为预先存储于第二服务器中，第二服务器还用于预先存储若干训练用户对应的训练样本，若干训练用户为若干历史用户中的部分用户，第三事件可以设置为历史用户已购买的航班保险，对应的，si_k可以设置为若干历史用户对第k个候选事件类型对应的第三事件的下单量。

在一种可能的实施方式中，根据若干历史用户的用户标识，第一服务器从第二服务器获取D和若干训练用户对应的训练样本，每一训练样本包括与对应的训练用户相关的输入数据和对应的目标事件类型，接着构建初始分类模型，再将若干训练样本中的输入数据输入至初始分类模型中，并对该初始分类模型进行训练，在训练过程中，根据D获取si_k，并根据如下条件周期性获取训练中分类模型的第一总评价值：

；

precision_k=tp_k/t_k；其中，tp_k为第k个候选事件类型的真正例数，t_k为第k个候选事件类型的预测正例数；

Recall=tp_k/p_k；其中，p_k为第k个候选事件类型的预测正例数；

β_k=(1/si_k)/∑^z _k=1(1/si_k)；

并根据c1₁、c1₂、c1₃、……、c1_z可以得到第一总评价值，当第一总评价值大于第一阈值时，可以将当前的第一总评价值对应的训练中分类模型作为分类模型。

进一步的，基于上述步骤S100，上述步骤S500还包括：

将E输入至分类模型中，得到目标事件类型。

因此，在训练分类模型时，第一总评价值可以考虑到每一候选事件类型对应的第三事件的数量，进而可以平衡分类模型中每一候选事件类型，减小每一候选事件类型对应的若干训练样本的数量不均衡的影响，可以提高训练后得到的分类模型的分类准确度，进而可以进一步提高确定目标用户对应的目标事件类型的准确度。

可选的，每一第三事件均具有若干激活条件和每一激活条件对应的反馈值，每一反馈值均为其对应的第三事件针对其对应的激活条件被激活后得到的；

c1_k符合如下条件：

；其中，γ_k为第k个候选事件类型的第二权重；

γ_k符合如下条件：

；

其中，Pk为D中具有第k个候选事件类型对应的第二事件类型标识的第三事件的第五事件参数的平均值，Hk为D中具有第k个候选事件类型对应的第二事件类型标识的第三事件的激活条件总数量，a_kh为D中具有第k个候选事件类型对应的第二事件类型标识的第三事件针对其第h个激活条件被激活后得到的反馈值，g_kh为D中具有第k个候选事件类型对应的第二事件类型标识的第三事件针对其第h个激活条件的激活系数，∑^Hk _h=1g_kh=1,l_k为D中具有第k个候选事件类型对应的第二事件类型标识的第三事件的历史激活总次数与si_k的比值。

其中，激活条件可以设置为赔偿条件，反馈值可以设置为赔偿金额，第五事件参数可以设置为历史用户已购买的航班保险的金额，对应的，Hk为D中具有第k个候选事件类型对应的第二事件类型标识的第三事件的赔偿条件总数量，在计算Hk时，属于不同第三事件的两个相同赔偿条件不会重复计数，l_k为D中具有第k个候选事件类型对应的第二事件类型标识的第三事件的被激活率。

在一种可能的实施方式中，在根据c1₁、c1₂、c1₃、……、c1_z可以得到第一总评价值后，当第一总评价值大于第二阈值时，可以将当前的第一总评价值对应的训练中分类模型作为分类模型。

因此，在训练分类模型时，第一总评价值可以考虑到每一候选事件类型对应的第五事件参数的平均值、激活条件总数量和激活率等，进而可以进一步平衡分类模型中每一候选事件类型，减小每一候选事件类型对应的若干训练样本的数量不均衡的影响，可以进一步提高训练后得到的分类模型的分类准确度，进而可以进一步提高确定目标用户对应的目标事件类型的准确度。

可选的，评价信息还包括第二评价值集C2={c2₁,c2₂,c2₃,...,c2_z}和第三评价值集C3={c3₁,c3₂,c3₃,...,c3_z}；其中，c2_k为第k个候选事件类型对应的第二评价值，c3_k为第k个候选事件类型对应的第三评价值；

c2_k符合如下条件：

c2_k=(fp_k/f_k)*β_k；其中，fp_k为第k个候选事件类型的假正例数，f_k为第k个候选事件类型的实际正例数；

c3_k符合如下条件：

c3_k=(tp_k/t_k)*β_k；其中，tp_k为第k个候选事件类型的真正例数，t_k为第k个候选事件类型的预测正例数。

在一种可能的实施方式中，在根据c1₁、c1₂、c1₃、……、c1_z可以得到第一总评价值后，还可以根据c2₁、c2₂、c2₃、……、c2_z得到第二总评价值、根据c3₁、c3₂、c3₃、……、c3_z得到第三总评价值，并以第二总评价值作为横坐标、以第三总评价值作为纵坐标构建ROC曲线，当ROC曲线下面积大于第三阈值且第一总评价值大于第二阈值时，可以将当前的第一总评价值对应的训练中分类模型作为分类模型。

因此，在训练分类模型时，基于第一总评价值和ROC曲线分析训练中分类模型的分类准确度，即基于更多的评价信息确定分类模型，可以提高确定目标用户对应的目标事件类型的准确度。

可选的，c2_k符合如下条件：

c2_k=(fp_k/f_k)*β_k*γ_k；

c3_k符合如下条件：

c3_k=(tp_k/t_k)*β_k*γ_k。

在一种可能的实施方式中，当在根据c1₁、c1₂、c1₃、……、c1_z可以得到第一总评价值后，还可以根据c2₁、c2₂、c2₃、……、c2_z得到第二总评价值、根据c3₁、c3₂、c3₃、……、c3_z得到第三总评价值，并以第二总评价值作为横坐标、以第三总评价值作为纵坐标构建ROC曲线，当ROC曲线下面积大于第四阈值且第一总评价值大于第二阈值时，可以将当前的第一总评价值对应的训练中分类模型作为分类模型。第二阈值和第四阈值均可以设置为0.7-0.9，优选的，第二阈值和第四阈值均可以设置为0.8。

因此，在训练分类模型时，第一总评价值和ROC曲线下面积都可以考虑到每一候选事件类型对应的第三事件的数量、第五事件参数的平均值、激活条件总数量和激活率等，在基于更多的评价信息确定分类模型的基础上还可以进一步平衡分类模型中每一候选事件类型，减小每一候选事件类型对应的若干训练样本的数量不均衡的影响，可以进一步提高训练后得到的分类模型的分类准确度，进而可以进一步提高确定目标用户对应的目标事件类型的准确度。

可选的，分类模型具体可以使用lightGBM模型、ID3算法模型、C4.5算法模型、CART算法模型、梯度提升树模型和XGBoost模型等，本发明实施例对此不作限定。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种用户数据处理方法，其特征在于，所述方法包括：

获取目标用户对应的画像特征数据P；所述画像特征数据

；其中，p₁为年龄数据，

为性别标识，

为关联位置，

为设备标识；

根据当前时间t_now和第一时间跨度，获取目标用户的第二事件集

，m_i=(d_1i,d_2i,p_i,q_i,t_i)；其中，m_i为第i个第二事件，d_1i为第i个第二事件对应的源位置，d_2i为第i个第二事件对应的目的位置，p_i为第i个第二事件对应的第一事件参数，t_i为第i个第二事件对应的事件开始时间，q_i为第i个第二事件对应的事件标识，

＜t_n，t_n-1＜t_now＜t_n；

确定所述目标用户对应的用户特征向量E=(P,A,d_1n,d_2n,p_n/U_n,q_n,n-1,L)；其中，U_n为m_n对应的第二事件参数，U_n=dist(d_1n,d_2n),dist()为预设的距离计算函数；L为目标用户对应的用户参数，L=Num(q_i≠1,m_i,1,n-1)/(n-1），Num()为预设的计数函数；

根据E，在若干候选事件类型中，确定出目标事件类型；

所述根据目标用户对应的第一事件集B，确定目标用户对应的行为特征信息A，包括：

根据当前时间t_now和所述第一时间跨度，获取目标用户对应的第一事件集B={b₁,b₂,b₃,...,b_y}，b_x=(k1_x,o_x)；其中，b_x为第x个第一事件，k1_x为第x个第一事件对应的第一事件类型标识，所述第一事件类型标识用于表示所述第一事件对应的候选事件类型,o_x为第x个第一事件对应的第四事件参数；

根据B，获取所述目标用户对应的行为特征信息

，

；其中，z为若干所述候选事件类型的数量，

为第k个所述候选事件类型对应的行为特征信息,

为B中具有第k个所述候选事件类型对应的第一事件类型标识的第一事件的数量，

为B中具有第k个所述候选事件类型对应的第一事件类型标识的第四事件参数的和，

为第k个所述候选事件类型对应的展示次数，且sh_k为根据目标用户的用户标识从展示统计服务器获取的，cl_k为第k个所述候选事件类型对应的点击次数，且cl_k为根据目标用户的用户标识从点击统计服务器获取的。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据m_n对应的历史关联事件数据集W_n，获取m_n对应的第一预测关联事件数据集H_1n={(h₁₁,t_now+1),....,(h₁₇,t_now+7)}、第二预测关联事件数据集H_2n={(h₂₁,t_now+1)，....,(h₂₇,t_now+7)}和第三预测关联事件数据集H_3n={(h₃₁,t_now+1),....,(h₃₇,t_now+7)}；其中，t_now+j为t_now向后j个第二时间跨度的时间点对应的时间区间，h_1j为预测得到的t_now+j内的第一类人员数量，所述第一类人员数量为位于d_1n和d_2n对应的地理区域内的具有第一标识的人员的数量，h_2j为预测得到的t_now+j内的第二类人员数量，所述第二类人员数量为位于d_1n和d_2n对应的地理区域内的具有所述第一标识和第二标识的人员的数量，h_3j为预测得到的t_now+j内的第三类人员数量，所述第三类人员数量为位于d_1n和d_2n对应的地理区域内的具有所述第一标识和第三标识的人员的数量；

所述确定所述目标用户对应的用户特征向量E=(P,A,d_1n,d_2n,p_n/U_n,q_n,n-1,L)，包括：

确定所述用户特征向量E=(P,A,d_1n,d_2n,p_n/U_n,q_n,n-1,L,H_1n,H_2n,H_3n,s_n,r_n,v_n)；其中，s_n为m_n对应的第三事件参数，r_n为m_n对应的事件等级标识，v_n=v_1n+v_2n，v_n为m_n对应的关联区域的总数量，v_1n为d_1n对应的地理区域内的关联区域的数量，v_2n为d_2n对应的地理区域内的关联区域的数量。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据t_now，获取若干历史用户对应的历史第三事件集D={d₁,d₂,d₃,...,d_u}，d_g=(id_g,k2_g,qu_g)；其中，d_g为第g个第三事件，id_g为第g个第三事件对应的历史用户标识，k2_g为第g个第三事件对应的第二事件类型标识，所述第二事件类型标识用于表示所述第三事件对应的候选事件类型,qu_g为第g个第三事件对应的第五事件参数；

获取初始分类模型；

对所述初始分类模型进行训练；

周期性获取训练中分类模型的评价信息；所述评价信息包括第一评价值集C1={c1₁,c1₂,c1₃,...,c1_z}；其中，z为若干所述候选事件类型的数量，c1_k为第k个所述候选事件类型对应的第一评价值；

所述c1_k符合如下条件：